JP2000187668A

JP2000187668A - グループ化方法と重複排除方法

Info

Publication number: JP2000187668A
Application number: JP10364729A
Authority: JP
Inventors: Shinji Fujiwara; 真二藤原; Kazutomo Ushijima; 一智牛嶋; Itaru Nishizawa; 格西澤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-12-22
Filing date: 1998-12-22
Publication date: 2000-07-04
Also published as: US6381601B1

Abstract

(57)【要約】【課題】入力リストの一つ以上の列の値が同じ行を一つ
のグループとする処理の高速化【解決手段】入力リスト１をスキャンし、グループ化を
行う列の空でない部分集合となる列の値を引数としたハ
ッシュ関数によりハッシュ値を生成し、そのハッシュ値
を持つ行が２行以上あるかどうかを判定する。入力リス
ト１を再度スキャンし、１回目のスキャンで同一のハッ
シュ値を持つ行が１行しかないと判定されたハッシュ値
を持つ行に関しては、直ちに集計列の計算処理８を行
い、その結果を出力し、一方、２行以上あると判定され
た行に対してはその行を通常のグループ化処理の入力と
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、特定の列の値が相
互に同じである、データベースの複数のレコード（行）
をグループとして識別するグループ化方法およびデータ
ベース内の互いに重複する行を削除する重複排除方法に
関する。

【０００２】

【従来の技術】データウェアハウスシステムではデータ
ベースに対してユーザやアプリケーションサーバが問い
合わせを発行する。特に、近年、多次元解析サーバ、デ
ータマイニングサーバ、ＥＲＰ（業務統合パッケージ）
などのアプリケーションサーバからデータベースに問い
合わせが発行される場合が多くなってきた。データベー
スは一般に複数のレコードにより構成され、各レコード
は複数の項目に対するデータを含む。たとえば、ある製
品の部品に関する情報を含む部品データベースは、それ
ぞれ一つの部品に関するデータを表すレコードからな
り、各レコードは、その部品に関して定められた複数の
項目についてのデータを含む。たとえば、部品のサイ
ズ、強度、価格、仕入先等である。これらの項目は部
品、したがってレコードには依らないで同じである。し
たがって、このような構造のデータベースは一般には表
形式のデータと見なすことができる。各行は、一つの部
品に対応し、各列は、部品に対して定めた一つの項目に
対応する。以下では、このような表形式のデータベース
を議論する。その際、データベースを表あるいは表デー
タあるいはテーブルと呼び、あるレコードを行データあ
るいは単に行と呼ぶことがある。同じ項目に関する複数
のレコード内の互いに対応するデータの集合を列データ
あるいは単に列と呼ぶことがある。データウェアハウス
システムではユーザからの問い合わせが示す条件を満た
す複数の行データをデータベースから検索する。検索さ
れた複数の行データについて問い合わせが指定する処理
をさらに行い、その結果をユーザに通知する。データベ
ースの問い合わせの中で、特に最近多く用いられるよう
になってきた処理に、集計処理およびグループ化処理が
ある。集計処理とは、問い合わせの結果得られた複数の
行データに関して、問い合わせが指定した特定の列デー
タの最大値、最小値、あるいは平均値を求めたり、ある
いは、問い合わせの結果得られた行の数を求めるとい
う、問い合わせ結果データに関して行う数値計算処理で
ある。グループ化処理とは、問い合わせの結果得られた
複数の行の内、問い合わせが指定するある複数の列の組
（グループ化列）のデータが互いに等しい複数の行を一
つのグループとして分類する処理である。グループ化処
理では各グループに対して集計処理を行う。グループ化
処理は、例えば、年齢、地域、性別の売り上げ額の平均
を求める等の処理に用いられる。ちなみに、グループ化
処理の処理結果は、グループ化列の値と集計処理の結果
の組から成る。

【０００３】従来のグループ化方法としては、Selim G.
Akl, “Parallel Sorting Algorithms,”Academic Pre
ss, Inc.（米）、ｐ．４８〜４９に開示されているマー
ジソートに基づく方式やM. Papazoglou, W. Valder,
“Relational Database Management,” PRENTICE HALL
（米）ｐ．２６２〜２６４に開示されているハッシュ方
式をあげることができる。

【０００４】図４にマージソート方式によるグループ化
処理のフローチャートを示す。マージソート方式では、
データベースを構成する複数のレコードの特定の列の値
が同じ複数のレコードは同一のグループに属し、その列
の値が他のレコードと異なるレコードは、他のグループ
に属するように、全レコードが区分される。そのため
に、マージソート方式では、グループ化の前に全レコー
ドをその特定の列に関してソートする。すなわち、まず
二次記憶装置から複数のレコード順次読み出す。ここで
は二次記憶装置は、そこからのデータの読み出しあるい
はそこへのデータの書き込みは、ブロックという一定サ
イズのデータを単位にして行うように構成されている仮
定する。一つのブロックは一般には複数のレコードを含
む。したがって、まず複数のレコードを含む一つのブロ
ックを主記憶装置に読み込む（４０）。読み込まれたブ
ロック内の複数のレコードをいずれかの列のデータに関
して主記憶装置上の作業領域を使用してソートした後
（４１）、そのレコードを一つのブロックとして二次記
憶装置に書き戻す（４２）。この操作をすべてのレコー
ドが読み込まれるまで複数のブロックに対して繰り返
す。（４３）。こうしてブロックごとにソートされた複
数のレコード（すなわち、レコードリスト）二次記憶装
置に形成された後に、それらのブロックの間で二次記憶
装置内の作業領域を使用してマージソートを行ない、全
ブロックに属するソートされたレコードのリストを二次
記憶装置上に得る（４４）。以上の操作の後、ソートさ
れたレコードリストの全レコードの特定の列に属するデ
ータを二次記憶装置から順次読み込みながら（４５、４
７）、それらのレコードに対してその列に関するグルー
プ化処理を行なう（４６）。すなわち、その列の値が同
じ複数のレコードは同一のグループに属し、その列の値
が他のレコードと異なるレコードは、他のグループに属
するように、全レコードが区分される。

【０００５】しかしこのマージソート方式では、上記ス
テップ４４では、二次記憶装置内の作業領域を使用して
全レコードのマージソートを行なうため、二次記憶装置
に対して大量のＩ／Ｏ動作が発生し、マージソート処理
に時間が掛かる。またマージソート処理（ステップ４
４）とグループ化処理（ステップ４６）は、パイプライ
ン的に並行して実行できず、マージソート処理（ステッ
プ４４）のために二次記憶装置をアクセスした後にグル
ープ化処理（ステップ４６）のために二次記憶装置を再
度アクセスしなければならない。このため、この方式で
はマージソート処理の時間とグループ化処理の時間との
総和に等しい処理時間が掛かり、全体として処理時間が
掛かる。この課題を解決する方法として用いられて来た
のがハッシュ方式である。

【０００６】図５に従来のハッシュ方式によるグループ
化処理のフローチャートを示す。ハッシュ方式では、二
次記憶装置に格納された一つのブロックを主記憶装置上
に読み出すと（５０）、読み出されたブロック内の複数
のレコードの各々に対して主記憶装置上の作業領域を使
用してハッシュ関数を用いたグループ化処理を行なう
（５１）。同時に並行して集計処理を実行し、主記憶装
置内の集計領域に保持された各グループ毎の集計結果を
更新して行く（５２）。

【０００７】すなわち、主記憶装置上の作業領域内にレ
コードが新たに読み込まれる毎にそのレコード内のデー
タの内、特定の列に属するデータに対してハッシュ値を
求め、主記憶装置上の作業領域内に準備されたハッシュ
表にそのレコードを登録する。ハッシュ表は、以下に述
べるポインタ領域、各レコードの記憶領域、各レコード
の記憶領域の後続位置に設けられた集計領域とポインタ
領域の集合を指す。すなわち、このハッシュ表には、異
なるハッシュ値に対応する複数のポインタを保持する複
数のポインタ領域が準備され、いずれかのレコードが主
記憶装置に新たに読み込まれたときに、そのレコードの
データの内、グループ化に使用する特定の行に属するデ
ータに対してハッシュ値を上記ハッシュ関数を用いて算
出する。そのハッシュ値を有するレコードが、それまで
に検出されていないときには、このポインタ領域内のこ
のハッシュ値に対応するポインタ領域にそのレコードの
上記主記憶領域内の記憶位置を示すポインタを記憶す
る。こうして、そのレコードがそのハッシュ値を有する
グループに登録されたことになる。さらに、そのレコー
ドがそのハッシュ値を有するグループの唯一のメンバー
と仮定して、そのレコード内のデータを用いてそのグル
ープに対する集計処理を行い、集計処理結果データをそ
のレコードの記憶領域の次に位置する集計領域に記憶す
る。その集計領域のさらに後続の領域は、同じグループ
に属する他のレコードをポイントするポインタを記憶す
る領域として予約される。

【０００８】上記主記憶装置に新たに読み込まれたレコ
ードに対するハッシュ値を有する他のレコードが既に上
記ハッシュ表に登録済みであるときには、既に登録済み
のレコードの後続のポインタ記憶領域にこの新たなレコ
ードの記憶領域のアドレスをポインタとして記憶する。
こうしてこの新たなレコードをそのハッシュ値を有する
グループに登録したことになる。さらに、この新たなレ
コードの記憶領域の後続の記憶領域に新たな集計領域と
ポインタ領域を確保する。この新たな集計領域には、す
でに登録されたレコードに対して既に記憶された集計結
果データとこの新たなレコード内のデータとに基づい
て、この新たなレコードを含むグループに対する集計処
理結果を算出し、この新たなレコードの記憶領域の後続
の集計結果領域に書き込む。以上の処理を全てのレコー
ドに対して繰り返す（５５）。但し、主記憶装置に読み
込まれたレコードの数が増大すると、上記ハッシュ表の
領域が大きくなりすぎ、次の新たなレコードを主記憶装
置に保持できなくなることが生じる。このときには、次
のレコードを主記憶装置のハッシュ表領域に格納できる
か否かを判定し（５３）、判定結果が非のときには、ハ
ッシュ表に既に登録された他のレコードを二次記憶装置
に追い出した上で（５４）、次の新たなレコードの処理
を開始する。

【０００９】このグループ化処理（５１）と集計処理
（５２）はパイプライン的に実行可能である。すなわ
ち、ある新たに主記憶装置に読み込まれたレコードに対
するグループ化処理を実行し、その後、そのレコードが
属するグループに対する集計処理を順次実行する。この
集計処理を実行するときに、それと並行して主記憶装置
に新たに読み込まれたさらに後続のレコードに対するグ
ループ化処理が実行される。したがって、グループ化の
ための一時ファイルを作成せずにグループ化処理を行な
う。しかし、ステップ５４により主記憶装置よ外部記憶
装置の間でデータの転送がランダムに発生する。したが
って、外部記憶装置へのＩ／Ｏアクセスの時間が問題と
なる。

【００１０】

【発明が解決しようとする課題】ハッシュグループ化方
式によるグループ化処理は、グループ化処理によりデー
タの行数が大幅に削減できることを前提としている。そ
のため、グループ重複度（一つのグループに属する行の
数）のグループ間での平均値（これを以下ではグループ
平均重複度と呼ぶ）が１に近い場合には、この手法はあ
まり効果を発揮しない。

【００１１】しかし、実際の多次元解析においては、解
析の軸が多くなってくると、各グループに属する行が１
行というグループが多くなってくる。このような場合、
ハッシュ方式ではハッシュ表が主記憶装置上に展開でき
なくなり、外部記憶装置へのＩ／Ｏ動作が多く発生し、
グループ化処理に必要な時間が増大するという問題があ
る。また、多段変換方式でも、前倒ししたグループ化に
よる行数削減の効果が得られないため、多段に分解した
オーバヘッドによりかえって処理コストが増加してしま
うという問題がある。

【００１２】また、別の問い合わせ処理の基本処理であ
る重複排除処理に関しても同様に、行の重複度が問題と
なる。ここで、行の値が同じである行の数をその行の重
複度という。各行の重複度の平均値（以後これを平均行
重複度と呼ぶ）が１に近い場合には、ほとんど重複行が
存在しないことになる。この場合、従来の重複排除処理
では効率よく処理することができず、そのような場合に
はソートマージに基づく方式を採らざるを得なかったと
いう問題があった。

【００１３】本発明では、平均グループ重複度が１に近
い場合のグループ化処理を効率よく実行するグループ化
方法を提供することを目的とする。

【００１４】本発明の他の目的は、平均行重複度が１に
近い場合の重複排除処理を効率よく実行する重複排除方
法を提供することを目的とする。

【００１５】

【課題を解決するための手段】上記の目的を達成するた
め、本発明によるグループ化方法は、データベースに含
まれるレコードリストの複数の行の各々に対して、その
行の、一つ以上の予め指定されたグループ化用の列の少
なくとも一部の列の値と同一の値を有する少なくとも一
つの他の行が存在する可能性がないかを判別し、上記判
別により上記他の行が存在する可能性がないとそれぞれ
判別された一部の複数の行をそれぞれ一つのグループに
属する行と判定し、上記レコードリストの上記複数の行
の内の上記一部の行以外の他の複数の行を、上記グルー
プ化用の列の値が同じである複数の行が同一のグループ
に属するように、複数のグループに区分するように第２
の処理を実行するステップを有する。

【００１６】より具体的には、上記可能性を判別するス
テップは、データベースに含まれるレコードリストの複
数の行の各々に対して、その行の、一つ以上の予め指定
されたグループ化用の列の少なくとも一部の列の値を引
数とするハッシュ関数によりハッシュ値を生成し、上記
複数の行に対して生成された複数のハッシュ値により、
各行に対して生成されたハッシュ値と同一のハッシュ値
を有する少なくとも一つの他の行が存在するか否かを判
別し、上記判別により同一のハッシュ値を有する他の行
が存在しないとそれぞれ判別された一部の複数の行を、
グループ化用の列の上記少なくとも一部の列の値が同一
である他の行が存在する可能性がない行と判定するステ
ップを有する。この方法は、平均グループ重複度が１に
近い場合に効果的である。

【００１７】本発明による重複排除方法では、上記グル
ープ化方法と同じ処理を重複排除処理にも同様に適用す
る。

【００１８】さらに、本発明は、平均グループ重複度が
１に近くない場合にも有効なグループ化方法として、繰
り返しバケット分割を行い、繰り返し毎に複数のハッシ
ュ関数を順次切り替えて使用するグループ化処理方法も
提供する。

【００１９】

【発明の実施の形態】以下、本発明に係るグループ化方
法と重複排除方法を図面に示したいくつかの実施の形態
を参照してさらに詳細に説明する。なお、以下において
は、同じ参照番号は同じものもしくは類似のものを表わ
すものとする。また、発明の第２の実施の形態以降にお
いては、発明の第１の実施の形態との相違点を主に説明
するに止める。

【００２０】＜発明の実施の形態１＞本実施の形態で使
用するデータベースは、任意の計算機（図示せず）に接
続された外部記憶装置（図示せず）に記憶され、以下に
述べる処理は、その計算機の主記憶装置（図示せず）と
上記外部記憶装置を使用してその計算機内の処理装置
（図示せず）により実行される。ここでは、その計算機
は、ワークステーション等の単一のプロセッサ（図示せ
ず）からなる計算機であると仮定する。しかし、その計
算機は、多数のプロセッサを含む並列計算機でもよい。

【００２１】図１はビットマップを用いた本発明のグル
ープ化処理の一実施形態の概略を示す図である。以下に
その手順を示す。

【００２２】（ａ）データベースに対するユーザからの
問い合わせの結果、レコードリスト１が検出されたとす
る。このレコードリストは外部記憶装置内に記憶されて
いるとする。このレコードリスト１内の全レコードを順
次外部記憶装置から主記憶装置上に読み出す。各レコー
ドに対して、グループ化に使用する列（グループ化列）
Ｇ＝｛ｇ１，…，ｇｋ｝の空でない部分集合となるハッ
シュ列Ｈ⊆Ｇ，Ｈ≠｛｝の値を引数として、ハッシュ関
数ｈａｓｈ１（）でハッシュ値を生成する（４）。す
なわち、グループ化の基準に一つの列Ｇを使用するとき
には、ハッシュ列Ｈは、その一つの列に等しい。グルー
プ化の基準に複数の列Ｇを使用するときには、ハッシュ
列Ｈは、複数の列Ｇの内の一つの列または複数の列の組
み合わせである。ハッシュ関数ｈａｓｈ１（）は、そ
のハッシュ列Ｈが採りうる全ての値の数よりも少ない数
のハッシュ値を採りうるように定めておく。このハッシ
ュ値をアドレスとしてビットマップＢ１（５）の該当す
るエントリを参照する。ビットマップＢ１は、ハッシュ
列Ｈに対してハッシュ関数ｈａｓｈ１（）が採りうる
全ての値に対応して設けられたビット記憶領域を有する
ビットマップである。

【００２３】（ｂ）ビットマップＢ１のそのエントリが
０ならば、当該エントリのビットを１にする。ビットマ
ップＢ１のそのエントリが既に１ならばビットマップＢ
２（６）の対応するエントリを１にする。ビットマップ
Ｂ２もビットマップＢ１と同じサイズを有し、各ビット
記憶領域は、ビットマップＢ１内の一つのビット記憶領
域に対応する。以上の処理を全レコードに対して繰り返
す。以上の処理の結果、ビットマップＢ２のエントリが
０ならば、当該エントリに対応するハッシュ値を持つレ
コードは１つしかないことが分かる。ビットマップＢ２
のエントリが１ならば、当該エントリに対応するハッシ
ュ値を持つレコード（行）は複数あることになる。ビッ
トマップＢ１、Ｂ２の対応するエントリがともに０なら
ば、当該エントリに対応するハッシュ値を持つレコード
（行）は存在しない。

【００２４】（ｃ）レコードリスト１を再度読み込み
（３）、各行の前記ハッシュ列Ｈの値を引数として同じ
ハッシュ関数ｈａｓｈ１（）でハッシュ値を生成し
（９）、そのハッシュ値をアドレスとしてビットマップ
Ｂ２（６）の該当するエントリを読み出す。

【００２５】（ｄ）ビットマップＢ２のエントリが０な
らば、当該エントリに該当するハッシュ値を持つ行は１
つしかない。従って、その行のグループ化列の値と同じ
グループ化列の値を持つ他の行が存在する可能性はない
ことになる。したがって、当該行と同じグループに属す
る行は現在処理中の行しかないことがわかるので、主記
憶装置の作業領域上に保持されたその行のデータ内の、
集計対象の列について直ちに集積処理（８）を行い、そ
の結果をその行を含むグループに対する集計処理結果デ
ータとして出力する。なお集計処理の対象である集計列
をＦ＝｛ｆ１，…，ｆｍ｝とする。すなわち、一般に、
集計処理は、複数の集計列の各々に対して行う複数の処
理からなっている。

【００２６】（ｅ）一方、Ｂ２のエントリが１ならば、
当該エントリに該当するハッシュ値を持つ行が２つ以上
あることがわかるので、当該行を通常のグループ化処理
（１３）の入力とする（７）。通常のグループ化処理で
は、例えば、従来のマージソートに基づくグループ化方
法を適用する。しかし、ハッシュ関数に基づく方法など
他の方法を適用することもできる。

【００２７】マージソートによるグループ化方法では、
従来と同様に、まず、一行にてグループを構成する行を
除いた入力レコードリストをグループ化に使用する列
（グループ化列）Ｇでマージソートして（１０）、ソー
ト済みのレコードリスト（１１）を外部記憶装置上に生
成する。次にソート前提のグループ化処理（１２）によ
り各グループ毎の集計処理を行い、その結果を出力す
る。ステップ７以降の処理は、図４に示した従来の処理
と全く同じように実行される。

【００２８】なお、本実施形態ではビットマップＢ１と
Ｂ２を用いて各エントリの出現回数を０回出現、１回出
現、２回以上出現の３つに区分して管理している。すな
わち、各ビットマップの内容と出現回数は以下の通りで
ある。

【００２９】出現回数Ｂ１Ｂ２０回００１回１０２回以上１１図２には本発明のビットマップを用いたグループ化処理
の詳細な流れを示す図である。まず最初に、ビットマッ
プＢ１及びＢ２の領域を主記憶装置の作業領域上に確保
し、各エントリのビットを０に初期化する（２０）。ビ
ットマップＢ１及びＢ２のエントリ数は同数とし、レコ
ードリストＬ（１）の行数の１／２以上のエントリ数を
確保することとする。なぜなら、レコードリストＬの行
数の１／２未満だと、平均グループ化重複度が１で、か
つ、ハッシュ列Ｈに対するハッシュ値が一様に分布した
としても、ハッシュ値の平均重複度が２となってしま
い、本発明による高速化が期待できないからである。効
率を上げるためには、ビットマップＢ１及びＢ２のエン
トリ数はハッシュ値のシノニムも考慮に入れて、入力レ
コードリストＬの行数の１．４倍以上を確保することが
望ましい。また、確保したビットマップのエントリ数に
あわせてハッシュ関数ｈａｓｈ１（）を設定する。

【００３０】次に、処理すべきレコードリストＬ内の複
数のレコードを外部記憶装置から主記憶装置内の作業領
域に順次読み込む。１行（レコード）が読み込まれる
と、ハッシュ値ｈａｄｒを求める（２１）。ハッシュ値
ｈａｄｒでビットマップＢ１の該当するエントリの値を
読み出す。読み出した値をｂ１ｖａｌとする（２２）。
次に、値ｂ１ｖａｌが０かどうかを判定し（２３）、も
し０ならば、ビットマップＢ１の該当するエントリのビ
ットに１をセットする（２４）。そうでないなら、ビッ
トマップＢ２の該当するエントリのビットに１をセット
する（２５）。以上の（２１）から（２５）までの処理
をレコードリストが終了するまで繰り返す（２６）。

【００３１】全てのレコードリストＬに対して上記処理
を施した後、レコードリストＬ内の全レコードを先頭か
ら再度外部記憶装置から主記憶装置内の作業領域に順次
読み込む。（２７）。１行（レコード）が読み込まれる
とその行（レコード）に対して再度同じハッシュ関数を
用いてハッシュ値ｈａｄｒを求める（２８）。もしステ
ップ２１でこの行に対して生成したハッシュ値ｈａｄｒ
を主記憶装置等に記憶しておくことができ、再利用でき
るのであれば、ステップ２８では、再度ハッシュ値ｈａ
ｄｒを生成する必要はなく、記憶された値を再利用して
もよい。次に、ハッシュ値ｈａｄｒでビットマップＢ２
の該当するエントリを読み出す。読み出した値をｂ２ｖ
ａｌとする（２９）。次に値ｂ２ｖａｌが０かどうかを
判定し（３０）、もし０ならば当該行と同一のグループ
に属する行は他にないので、集計列Ｆ＝｛ｆ１，…，ｆ
ｍ｝の計算処理を行い（３１）、その結果をその行を含
むグループに対する集計処理結果として出力する（３
２）。そうでないなら、当該行を通常のグループ化処理
の入力とする。すなわち、当該行を通常のグループ化処
理に対して引き渡し、そのグループ化処理の出力行があ
ればグループ化処理の結果として出力する（３３）。以
上の（２８）から（３３）までの処理を入力リストが終
了するまで繰り返す（３４）。

【００３２】そして、最後に通常のグループ化処理に入
力終了を通知し、そのグループ化処理から与えられる集
計結果をグループ化処理の結果として前記の出力結果と
合わせて出力する（３５）。

【００３３】図３は上記グループ化処理の集計列計算処
理に用いる集計関数変換表３９の一例である。集計列計
算処理は、グループに属する行が１行しかない場合には
ステップ３１で実行され、そうでないときにはステップ
３３で呼び出された通常のグループ化処理の中で実行さ
れる。すなわち、集計列計算処理は、グループ化処理に
対してユーザが指定した関数の値を各グループの各集計
列に対して計算する処理である。ここでは、集計列計算
処理は、集計関数変換表３９の左列に記載されているよ
うに、合計を求める関数ＳＵＭ、最大を求める関数ＭＡ
Ｘ、最小を求める関数ＭＩＮ、平均を求める関数ＡＶ
Ｇ、行数を求める関数ＣＯＵＮＴを各グループの各集計
列について実行する処理からなると仮定する。ステップ
３１では、集計関数変換表３９内の関数ＣＯＵＮＴ以外
の他の関数の値としては、集計関数変換表３９の右列に
記載されているように、各集計列Ｃ１の値をそのままそ
の集計列に対する関数の値として出力し、それぞれのグ
ループに分類された行数を求める関数ＣＯＵＮＴの値と
して、それぞれのグループに分類されたレコードのうち
集計列Ｃ１に有効な値を持つ行数を求める関数ＣＯＵＮ
Ｔの値として、集計列Ｃ１の値がＮｕｌｌであれば定数
０を、Ｎｕｌｌでなければ定数１を出力し、また、問い
合わせが集計列Ｃ１の値が０か否かに依らないでグルー
プの行数を出力することを要求するときには、定数１を
出力する。これにより、グループ化処理に対してユーザ
が指定した集計関数の値を、以上のようにして抽出され
た一行しか含まれないグループに対しては、計算するこ
となく簡単に決定できる。集計関数としては、これらの
関数以外にも２乗和を求める関数や２乗平均を求める関
数など、各種集計関数が適用可能である。集計関数が２
乗和を求める関数である場合には、以上のようにして抽
出された一行しか含まれないグループに対しても集計関
数の値を計算する必要はある。しかし、２乗和を求める
集計関数の場合には、グループ内の行数が１行しかない
場合には、その行のデータの内、集計列に属するデータ
の値の２乗を計算すればよく、その値は容易に計算可能
である。集計関数が２乗平均を求める関数の場合には、
グループ内の行数が１行しかないときには、その行のデ
ータの内、集計列に属するデータの値をそのまま出力す
ればよい。

【００３４】平均のグループ重複度が１に近いレコード
リストでは、大部分のグループは１行しかない含まず、
それら以外のグループの数は極めて少ない。そのような
レコードリストに対して本実施の形態によるグループ化
処理を適用すると、グループ内の行数が１行しかないグ
ループは、予め検出され、それらに対する集計計算は簡
単に実行される。それらのグループ以外の極めて少ない
グループに対してのみ本来のグループ化処理（たとえば
マージソート方法によるグループ化処理またはハッシュ
関数によるグループ化処理）を実行すればよい。あるレ
コードリストの平均のグループ重複度が１に近いか否か
を判断するには、予め１に近い所定値を定めておき、そ
のレコードリストの平均のグループ重複度がその所定値
以下あるいは未満であるか否かを判断すればよい。この
所定値は、たとえば１．２とすることができる。より望
ましくは、実際に本実施の形態によるグループ化処理が
適用される計算機システムあるいはデータベースシステ
ムによりこの所定値を定めることが望ましい。すなわ
ち、本実施の形態によるグループ化処理を適用した方が
グループ化処理が高速に実行できるか否かを異なるグル
ープ重複度を有する複数のレコードリストについて評価
し、本実施の形態によるグループ化処理が高速となるグ
ループ重複度の最大値あるいはそお近傍の値を上記所定
位置とすればよい。

【００３５】本実施の形態では、レコードリストの全体
を外部記憶装置から主記憶装置内の作業領域に２回読み
込む必要がある。しかし、そのための処理時間の増大よ
りも、通常のグループ化処理を実行すべきグループ数が
削減され、それにより処理時間が減少されることの効果
が大きく、レコードリスト全体に対するグループ化処理
の時間は大幅に減少できる。この効果は、処理すべきレ
コードリストの平均のグループ重複度が１に近い程、顕
著である。

【００３６】＜発明の実施の形態１の変形例＞（１）以上では、グループ化処理は一つの処理装置を有
する計算機で実行されると仮定し、したがって、各処理
は逐次的に行うように記述した。しかし、複数の処理装
置を有し、それらに共通の外部記憶装置を有する計算機
ではグループ化処理処理をより高速に実行できる。すな
わち、レコードリストの読み込み（ステップ２１、２８
（図２））と、ビットマップのアクセス（ステップ２
２、２４、２５、２８）と、通常のグループ化処理の実
行などを、上記複数の処理装置を用いてパイプライン的
に実行すると、処理時間をさらに短縮できる。但し、図
２のステップ２１から２６迄と、ステップ２７から３４
迄は互いに処理をオーバラップすることはできない。す
なわち、ステップ２７はステップ２１から２６までの処
理が終わった後に起動される必要がある。

【００３７】（２）さらに、並列データベースマシンの
ように、複数の処理装置を有し、各処理装置に付随して
外部記憶装置を有する計算機ではグループ化処理をより
高速に実行できる。すなわち、レコードリストを行単位
で、複数の部分レコードリストに分割し、それらの複数
の部分レコードリストを上記複数の処理装置の異なるも
のに割り当てて、それぞれの処理装置に割り当てられた
行をそれぞれの処理装置に随する二次記憶装置に記憶す
る。こうして上記レコードリストを複数の部分レコード
リストに区分する。それぞれの部分レコードリストを上
記複数の処理装置により並列に処理させればよい。

【００３８】その場合、レコードリストの分割に当たっ
ては、各行に対する、ハッシュ列に対するハッシュ値に
基づき、同じハッシュ値を持つ複数の行が同じ外部記憶
装置に記憶され、同じ処理装置で処理されるように、各
行を割り当てる処理装置を決めることが望ましい。その
場合には、それぞれの処理装置は他の処理装置とは全く
独立に本処理をそれぞれに割り当てられた部分レコード
リストに対して適用できる。

【００３９】そうでない場合には、各行を一度いずれか
の処理装置に割り当てた後に（その処理装置に属する二
次記憶装置に記憶させた後に）、各行のハッシュ列に対
するハッシュ値に基づき、同じハッシュ値を持つ複数の
行が同じ処理装置に割り当てるように、各行を再分配し
た後に、本処理を適用することが望ましい。なお、行が
水平分割されている場合のグループ化処理の最適化方法
の詳細については後で図１０を用いて詳細に説明する。

【００４０】（３）本実施の形態ではビットマップＢ１
とＢ２を用いて各ハッシュ値の出現回数を０回、１回、
２回以上の３つに区分して管理している。すなわち、ハ
ッシュ列に対するハッシュ値が採りうる異なる値の数を
ｎとすると、二つのビットマップＢ１、Ｂ２の総容量は
２ｎビットになる。しかし、３状態を２ビットで管理す
るのは実際には冗長であり、必要な主記憶装置内の領域
の容量が大きくなる。そこで、例えば、３のｎ乗が２の
２ｋ乗よりも小さく、かつ、ｎ＞ｋとなるような自然数
ｋを選択できる場合、より小さな主記憶装置内の領域を
用いて各ハッシュ値の出現回数を管理できる。すなわ
ち、ｉ番目のハッシュ値の出現回数が０，１，２という
状態にそれぞれ０×３ⁱ、１×３ⁱ、２×３ⁱなる自然数
を割り当て、全ハッシュ値に割り当てられた自然数の総
和を２進数にて表す。すなわち、各ハッシュ値の出現回
数を３進数の１桁で表し、その３進数が示す数を２進数
にて表す。その総和は、３ⁿよりも小さく、上記条件よ
りその総和は、２^2kよりも小さくなる。したがって、そ
の総和を２進数にて表すには、その２進数は２ｋビット
でよいことがわかる。したがって、上記二つのビットマ
ップ０Ｂ１、Ｂ２の総容量２ｎビットより少なくて済む
ことが分かる。

【００４１】具体的には、２ｋビットの状態データの記
憶領域を主記憶装置上に確保し、その初期値を０にす
る。図２のステップ２１でハッシュ値を求めた後に、図
２のステップ２３〜２５に代えて以下の処理を実行す
る。求められたハッシュ値が、ハッシュ関数が採りうる
ｉ番目のハッシュ値とする。そのｉ番目のハッシュ値の
過去の（それまでの）出現回数が０回、１回のときに上
記状態データを更新し、その過去の出現回数が２回目の
ときには上記状態データを更新しないのはビットマップ
の時と同じである。すなわち、ｉ番目のハッシュ値の出
現回数が２回目に達すると、その後にｉ番目のハッシュ
値が出現しても、上記状態データを更新しない。したが
って、上記状態データを更新する前に、上記状態データ
からｉ番目のハッシュ値の過去の出現回数を算出する。
そのために、上記状態データを自然数３ⁱを表す２進数
で割り算し、得られた余りをさらに３で割り算する。得
られた余りが０，１，２のときにそのｉ番目のハッシュ
値の過去の出現回数が０回，１回あるいは２回以上とな
る。ｉ番目のハッシュ値の過去の出現回数が０回あるい
は１回のときには、上記状態データを更新するために、
自然数３ⁱを表す２進数を上記状態データに加算する。
加算される値は過去の出現回数が０回あるいは１回でも
同じである。ｉ番目のハッシュ値の過去の出現回数が２
回以上のときには、上記状態データを更新しない。

【００４２】図２のステップ２９、３０に代えて以下の
処理を実行する。ステップ２８で求められたハッシュ値
の出現回数が１回であるかあるいはそうでないか（すな
わち２回以上であるか）を判別する。この判別の方法は
上に述べたとおりである。この出現回数が１回であると
きには、ステップ３１に進む。出現回数が２回以上であ
るときには、ステップ３３に進む。例えば、ｎ＝５、ｋ
＝４とすると、３の５乗＝２４３、２の（２×４）乗＝
２５６となり上記条件を満たす。この組み合わせを用い
ると、８ビットの２進数で５つのハッシュ値の各々に対
する３つの出現回数区分を管理することが可能となる。
単純に２ビットで１つのハッシュ値に対する３つの出現
回数区分を管理する場合には８ビットでは４エントリ分
の状態しか管理できないが、本変形例では状態管理に使
用する主記憶装置上の領域を２０％削減することが可能
となる。但し、各ハッシュ値に対する出現回数区分を判
別するために上記のように除算を行わなくてはならず、
ビットマップを使用した場合よりもこの判別に時間が掛
かる。しかしながら、この除算を高速にできる演算器を
有する計算機では、この判別も高速に行うことができ
る。

【００４３】＜発明の実施の形態２＞次に、本発明に掛
かる重複排除方法について説明する。図６は本発明の重
複排除処理の一実施形態の概略を示す図である。以下に
その手順を示す。

【００４４】（ａ）データベースに対するユーザからの
問い合わせの結果、レコードリスト６０が検出されたと
する。このレコードリストは外部記憶装置内に記憶され
ているとする。このレコードリスト１内のレコード内の
全レコードを順次外部記憶装置から主記憶装置上に読み
出す。各レコードに対して、リストを構成する複数の列
の空でない部分集合となる（すなわち、複数の列から選
ばれた一つまたは複数の列からなる）ハッシュ列Ｈを引
数として、ｈａｓｈ１（）関数でハッシュ値を生成す
る（６３）。ハッシュ関数ｈａｓｈ１（）の引数はリ
ストの構成列Ｃ＝｛ｃ１，…，ｃｋ｝の空でない部分集
合Ｈ⊆Ｃ，Ｈ≠｛｝とする。ハッシュ関数ｈａｓｈ１
（）は、そのハッシュ列Ｈが採りうる全ての値の数よ
りも少ない数のハッシュ値を採りうるように定めてお
く。このハッシュ値をアドレスとしてビットマップＢ１
（６５）の該当するエントリを参照する。

【００４５】（ｂ）ビットマップＢ１のそのエントリが
０ならば、当該エントリのビットを１にする。ビットマ
ップＢ１のそのエントリが既に１ならばビットマップＢ
２（６６）の対応するエントリを１にする。ビットマッ
プＢ２もビットマップＢ１と同じサイズを有し、各ビッ
ト記憶領域は、ビットマップＢ１内の一つのビット記憶
領域に対応する。以上の処理を全レコードに対して繰り
返す。以上の処理の結果、ビットマップＢ２のエントリ
が０ならば、当該エントリに対応するハッシュ値を持つ
レコードは１つしかないことが分かる。ビットマップＢ
２のエントリが１ならば、当該エントリに対応するハッ
シュ値を持つレコード（行）は複数あることになる。ビ
ットマップＢ１、Ｂ２の対応するエントリがともに０な
らば、当該エントリに対応するハッシュ値を持つレコー
ド（行）は存在しない。

【００４６】（ｃ）レコードリストを再度読み込み（６
２）、各行の前記ハッシュ列Ｈを引数として同じｈａｓ
ｈ１（）関数でハッシュ値を生成し（６４）、そのハ
ッシュ値をアドレスとしてビットマップＢ２（６６）の
該当するエントリを読み出す。

【００４７】（ｄ）ビットマップＢ２のエントリが０な
らば、当該エントリに該当するハッシュ値を持つ行は１
つしかない。従って、当該行と同じ値を保持する他の行
が存在する可能性がないことがわかるので、直ちにその
行を重複排除処理後のレコードとして出力する。

【００４８】（ｅ）一方、ビットマップＢ２のエントリ
が１ならば、当該エントリに該当するハッシュ値を持つ
行が２つ以上あることがわかるので、その行と同じ値を
保持する他の行（重複行）が存在する可能性がある。し
たがって、当該行を通常の重複排除処理（６８）の入力
とする（６７）。通常の重複排除処理では、例えば、従
来のマージソートに基づく方法やハッシュ関数に基づく
方法など、種々の方法を適用する。図６では、通常の重
複排除方法としてマージソート方法を適用した場合の実
施例を示している。マージソート方法では、まず、重複
行を削除した後の行により構成される入力リストをリス
ト構成列Ｃでマージソートしてソート済みリストを外部
記憶装置上に生成する。次にそのリストに対してソート
前提の重複排除処理により重複行の削除を行い、その削
除後のリストを出力する。

【００４９】図７は上記重複排除処理の詳細な流れを示
す図である。まず最初にビットマップＢ１及びＢ２の領
域を主記憶装置の作業領域上に確保し、各エントリのビ
ットを０に初期化する（７０）。ビットマップＢ１及び
Ｂ２のエントリ数は同数とし、入力リストＬの行数の１
／２以上のエントリ数を確保することとする。なぜな
ら、入力リストＬの行数の１／２未満だと、行重複度が
１で、かつ、ハッシュ値が一様に分布したとしても、ハ
ッシュ値の平均重複度が２となってしまい、本発明によ
る高速化が期待できないからである。効率を上げるため
には、ビットマップＢ１及びＢ２のエントリ数はハッシ
ュ値のシノニムも考慮に入れて、入力リストＬの行数の
１．４倍以上を確保することが望ましい。また、確保し
たビットマップのエントリ数にあわせてハッシュ関数ｈ
ａｓｈ１（）を設定する。

【００５０】次に、処理すべきレコードリストＬ内の複
数のレコードを外部記憶装置から主記憶装置内の作業領
域に順次読み込む。１行が読み込まれると、ハッシュ値
ｈａｄｒを求める（７１）。ハッシュ値ｈａｄｒでビッ
トマップＢ１の該当するエントリの値を読み出す。読み
出した値をｂ１ｖａｌとする（７２）。次に、ｂ１ｖａ
ｌの値が０かどうかを判定し（７３）、もし０ならば、
ビットマップＢ１の該当するエントリのビットに１をセ
ットする（７４）。そうでないなら、ビットマップＢ２
の該当するエントリのビットに１をセットする（７
５）。以上のステップ７１から７５までの処理を入力リ
ストが終了するまで繰り返す（７６）。

【００５１】全ての入力リストＬに対して上記処理を施
した後、入力リストＬ内の全レコードを先頭から再度外
部記憶装置から主記憶装置内の作業領域に順次読み込む
（７７）。１行（レコード）が読み込まれるとその行
（レコード）に対して再度同じハッシュ関数を用いてハ
ッシュ値ｈａｄｒを求める（７８）。もしステップ７１
の処理でこの行に対して生成したハッシュ値ｈａｄｒを
主記憶装置等に記憶しておくことができ、再利用できる
のであれば、ここでは、再度生成する必要はなく、その
記憶された値を再利用する。次に、ｈａｄｒの値でビッ
トマップＢ２の該当するエントリを読み出す。読み出し
た値をｂ２ｖａｌとする（７９）。次にｂ２ｖａｌの値
が０かどうかを判定し（８０）、もし０ならば当該行と
同一の値を持つ行は他にないので、その行をそのまま重
複排除処理結果として１行出力する（８１）。そうでな
いなら、当該行を通常の重複排除処理の入力とする。す
なわち、当該行を引数として、たとえばマージソート法
を用いるかもしくはハッシュ表を用いる通常の重複排除
処理を呼び出し、この重複排除処理の出力行があれば重
複排除処理の結果として出力する（８２）。以上のステ
ップ７８から８２までの処理を入力リストが終了するま
で繰り返す（８３）。

【００５２】そして、最後に通常の重複排除処理に入力
終了を通知し、通常の重複排除処理からその後出力され
る重複排除処理後のリストを出力する（８４）。

【００５３】重複排除処理を行う場合でも、リストＬに
はほとんど重複する行がない場合が多い。すなわち、平
均行重複度が１に近い。そのため、上記重複排除方法に
より、通常の重複排除処理を行うべきリスト内の行の数
を大幅に削減でき、高速に通常の重複排除処理を行うこ
とが可能となる。したがって、上記重複排除方法を実行
する前にデータベースのレコードリストの平均行重複度
が１に近いか否かを判定し、レコードリストの行重複度
が１に近いときに上記重複排除方法を実行することが望
ましい。レコードリストの平均行重複度が１に近いか否
かを判定するには予め１に近い所定値を決めておき、そ
のレコードリストの平均行重複度がその所定値以下ある
いは未満であるか否かを判定すればよい。この所定値
は、一定値を使用することができるが、より望ましく
は、実際に本実施の形態による重複排除処理が適用され
る計算機システムあるいはデータベースシステムにより
この所定値を定めることが望ましいことは、先に述べた
グループ化処理のための所定値と同じである。

【００５４】なお、重複排除処理はリストＬの全ての構
成列をグループ化列とし、集計列がない特殊なグループ
化処理と等価である。後で図９を用いて説明する平均の
グループ重複度が２以上の場合に適用可能なハイブリッ
ドハッシュグループ化方法や、並列データベースにおけ
るグループ化処理の最適化方法は、重複排除処理を上記
特殊なグループ化処理へ等価変換することで、重複排除
処理にも適用することが可能となる。

【００５５】図８は本発明の効果を説明するための問い
合わせの一例である。本問い合わせはデータベースのベ
ンチアークとして知られているＴＰＣ−Ｄベンチマーク
のＱ１６に相当する処理を行う問い合わせである。

【００５６】本問い合わせは以下のような手順で実行さ
れる。

【００５７】（ａ）ＰＡＲＴ表を次の単表選択条件で絞
り込む。

【００５８】Ｐ＿ＢＲＡＮＤ＜＞ ’Ｂｒａｎｄ＃４
５’ ａｎｄＰ＿ＴＹＰＥＮＯＴＬＩＫＥ ’Ｍ
ＥＤＩＵＭＰＯＬＩＳＨＥＤ％’ａｎｄＰ＿ＳＩＺ
ＥＩＮ（４９，１４，２３，４５，１９，３，３
６，９）その処理により得られたＰＡＲＴ表とＰＡＲＴＳＵＰＰ
表とをＰＡＲＴＫＥＹをキーとして結合する。その後、
ＮＯＴＩＮ条件で絞り込む。その結果、ＳＦ×１２０
ｋ行程度の表が得られる。ＳＦはスケールファクタ、１
ｋ行は１０００行を意味する。

【００５９】（ｂ）｛Ｐ＿ＢＲＡＮＤ，Ｐ＿ＴＹＰ
Ｅ，Ｐ＿ＳＩＺＥ，Ｐ＿ＳＵＰＰＫＥＹ｝の列で重
複排除処理を行う。結果はＳＦ×１２０ｋ行程度とな
る。すなわち、平均行重複度がきわめて１に近いため、
重複排除処理を行ってもほとんど行数が減らない。

【００６０】（ｃ）{P_BRAND, P_TYPE, P_SIZE}でグル
ープ化し、グループ毎の行数カウントを行う。

【００６１】これらの一連の処理の内、（ｂ）の重複排
除処理において実際に削除される重複行はＳＦ＝１の時
で数十行である。例えばビットマップＢ１及びＢ２のエ
ントリ数をＳＦ＊１Ｍビット程度確保すれば、ハッシュ
値によるシノニムがほとんど発生せず、ビットマップＢ
２に１が立つのは重複している数十行のみとなる。従っ
て、これらの数十行のデータのみに対して通常の重複排
除処理を実行すればよく、その他の行は２回目のスキャ
ン処理の時に直ちに結果として出力されていく。この
為、重複排除処理に要する時間は大幅に減少する。スケ
ールファクタＳＦ＝１とすると、必要となるビットマッ
プＢ１とＢ２の容量の総和は２５６ＫＢ程度であり、十
分主記憶装置上に確保できる。さらに、スケールファク
タＳＦが大きくなっても、処理装置が複数台あれば、実
施の形態１の変形例で述べたのと同様に、それらの処理
装置に対して入力リストを、構成列のハッシュ値に基づ
いて再分配することにより１台当たりに確保すべきビッ
トマップの容量は小さくできる。さらに、複数の処理装
置間で主記憶装置が共有可能であれば、これらの共有主
記憶装置上に大きなビットマップを１つ作成することで
スケールファクタＳＦが大きくなった場合でも本手法が
適用可能となる。

【００６２】＜発明の実施の形態３＞図９は平均グルー
プ重複度が２以上のレコードリストを効率よくグループ
化するのに適したグループ化方法の処理フローを示す。
本実施の形態では、予め主記憶装置上に集計領域９０を
確保しておく。集計領域９０は、複数の行のそれぞれの
グループ化列Ｇ＝｛ｇ１，…，ｇｋ｝の値を保持するＧ
フィールドと集計列Ｆ＝｛ｆ１，…，ｆｍ｝の各々に対
する集計結果を保持するＦフィールドで構成され、グル
ープ化列）Ｇ＝｛ｇ１，…，ｇｋ｝の空でない部分集合
となるハッシュ列Ｈ⊆Ｇ，Ｈ≠｛｝複数のハッシュ関
数ｈａｓｈ−ｋ（）（ｋ＝１，２，３，，ｍ）の各々
の値ｈａｄｒにより各エントリがアクセスされる。な
お、各ハッシュ関数ｈａｓｈ−ｋ（）（ｋ＝１，２，
３，，またはｍ）は、グループ化列Ｇの空でない部分集
合となるハッシュ列Ｈ⊆Ｇ，Ｈ≠｛｝の値を引数と
し、互いに独立な関数になるように予め定める。（ここ
でハッシュ関数ｇがハッシュ関数ｆに対して独立である
とは、「定義域の全ての値ｘ、ｙに対して、ｆ（ｘ）＝
ｆ（ｙ）ならばｇ（ｘ）＝ｇ（ｙ）」とはならないこと
である。例えば、互いに素の関係にある３数ａ，ｂ，ｃ
（ａ，ｂ＞ｃ）を用意し、ｆ（ｘ）＝（ｘmodａ）mod
ｃ，ｇ（ｘ）＝（x mod ｂ） mod ｃと定義する。）一
方、集計領域９０に収まらなかった行を複数のバケット
に分割し、それぞれのバケットを一時リストとして蓄え
るためのバケット分割領域９２を外部記憶装置上に用意
する。また、バケット分割領域９２に格納すべき行を一
時的に保持する領域を主記憶装置の作業領域上に確保す
る。本実施の形態では、簡単化のためにバケット分割の
ための関数ｆは先に求めたｈａｄｒを引数とした関数と
する。しかし、関数ｆにも先のハッシュ関数と同様に、
グループ化列Ｇの空でない部分集合を引数にした複数の
独立したハッシュ関数を用いてもかまわない。

【００６３】本実施形態によるグループ化処理の流れは
以下の通りである。

【００６４】まず、グループ化すべきレコードリスト内
の全レコードを順次外部記憶装置から主記憶装置上に読
み出す。入力リストの一つの行（入力行）に対して、第
１のハッシュ関数ｈａｓｈ−１（）によりハッシュ値
ｈａｄｒを求め（９３）、集計領域９０のエントリを検
索する（９１）。ハッシュ値ｈａｄｒに対する集計領域
のエントリが空の場合には、その行のグループ化列Ｇを
集計領域９０のＧフィールドに登録し、その行が属する
グループがその行のみからなると仮定してそのグループ
に対する集計結果データ（これは一般に複数の関数値か
らなる）を算出し、Ｆフィールドに登録する。ハッシュ
値ｈａｄｒに対する集計領域９０のエントリが空でな
く、かつ、当該エントリのＧフィールドの値と上記入力
行のグループ化列の値が一致した場合には、上記入力行
は、そのエントリに登録済みの行と同じグループに属す
ると判断できる。このときには、そのエントリの集計フ
ィールドＦの値と入力行の集計列を用いて、そのグルー
プに対する新たな集計結果データを計算し、そのエント
リの集計フィールドＦ内の集計結果データを置換する。
集計領域９０のエントリが空でなく、かつ、当該エント
リのＧフィールドの値が入力行のグループ化列の値と異
なる場合には、上記ハッシュ関数によるシノニムが発生
したと判断できる。この場合には、上記ハッシュ値ｈａ
ｄｒに対するバケット分割のための関数ｆの値ｆ（ｈ
ａｄｒ）を算出し（９４）、その値により、バケット分
割領域９２内のバケット９５−１，９５−２…、９５−
ｐの一つを選択し、入力行を、グループ化されていない
行として、一時的にそのバケットに記憶した後に当該バ
ケットの一時リストとして外部記憶装置へ出力する。但
し、バケットに記憶されるのは、その各行の全体ではな
く、その各行のグループ化列と集計列であるが、以下で
は、簡単化のために、その各行が記憶されるということ
がある。

【００６５】但し、一時リストの外部記憶装置への出力
は、後にシーケンシャルアクセスを用いて一括して行
う。すなわち、その入力行は一時的に主記憶装置の作業
領域上に保持され、同じ関数値ｆ（ｈａｄｒ）を有する
他の行がその後処理されたときには、その後続の行は、
主記憶装置の作業領域内の上記入力行の記憶位置に続く
記憶位置に記憶される。こうして、同じ関数値ｆ（ｈａ
ｄｒ）を有する複数の行が作業領域に記憶されたときに
は、それらの行はその関数値に対する一時リストとし
て、外部記憶装置にシーケンシャルアクセスを用いて一
括して転送される。同じ関数値ｆ（ｈａｄｒ）を有する
複数の行がその後さらに処理されたときには、それらの
行は一時的に作業領域に記憶された後に、同様に外部記
憶装置に転送される。この新たに転送された一時リスト
は、同じ関数値ｆ（ｈａｄｒ）を有する先に外部記憶装
置に転送された一時リストと組合わされた、同じ関数値
ｆ（ｈａｄｒ）を有する行の一時リストとして管理され
る。他の関数値ｆ（ｈａｄｒ）を有する他の複数の行に
ついても同じである。したがって、主記憶装置の作業領
域上には同じ関数値ｆ（ｈａｄｒ）を有する全ての行を
記憶する領域を確保する必要はない。また、同じ関数値
ｆ（ｈａｄｒ）を有する複数の行を一括して外部記憶装
置に転送するので外部記憶装置に対するランダムアクセ
スは発生しない。したがって、主記憶装置から外部記憶
装置への一時ファイルの転送は、一時リスト内の各行
を、それが発生する毎に外部記憶装置に転送する場合に
比較すると、高速に行える。全ての入力リストの処理が
終わった段階では、集計領域９０の各エントリは、グル
ープ化列の値が同じである一つのグループに対するデー
タを保持している。すなわち、Ｇフィールドには、その
グループに属する一つまたは複数の行に共通のグループ
化列の値が記憶され、Ｇフィールドには、その一つまた
は複数の行に対する集計結果データが記憶される。した
がって、各エントリのＧ、Ｆフィールドのデータをその
エントリに対するグループ化処理の結果として出力す
る。その後この集計領域９０内の全データを無効にす
る。

【００６６】次にバケット分割領域９２に空でない一時
リストが存在するとき、その一時リストたとえば９５−
１を再度入力リストとして先ほどと同様の処理をハッシ
ュ関数を変更して再帰的に行う。用いるハッシュ関数ｈ
ａｓｈ−ｋのｋは、（当該入力リストの再分割回数＋１）となるようにし、繰り返し毎に添え字を１ずつ増やすよ
うにする。この一時リストに対する処理の過程では、一
時リストに含まれる複数の行の内で、先に述べたのと同
じ条件を満たす行を集計領域９０に新たに登録する。ま
た、この条件を満たさない行は分割バケットとして、新
たなバケット分割領域を別途用意し、そのバケット分割
領域９２内の、使用したハッシュ値に依存する領域に記
憶する。この一時リストに対する処理は、一時リストの
全ての行が集計領域９０内で集計され、溢れが発生しな
くなるまで再帰的に繰り返される。

【００６７】他にバケット分割領域９２に、最初のハッ
シュ関数ｈａｓｈ−１を使用した処理で生成された空で
ない他の一時リストが存在するとき、当該他の全ての一
時リストについても上記と同様に再帰的に処理する。こ
うして、以上の処理を全てのバケットの一時リストが空
になるまでハッシュ関数を変更して繰り返す。一時リス
トが空になると全ての行がグループ化されたことにな
る。本方式を、以後ではハイブリッドハッシュグループ
化処理（ＨＨＧＢ）と呼ぶことにする。

【００６８】本手法によると、集計領域９０と分割パケ
ットの一部を一時的に保持する作業領域を用いてハッシ
ュ方式によるグループ化処理を行うことができる。した
がって、従来のハッシュ方式によるグループ化処理のよ
うに大きなハッシュ表領域を主記憶装置上に確保する必
要はない。また、従来のハッシュ方式によるグループ化
処理では、ハッシュ表領域のサイズを制限したときある
いはグループの数が増大したとき、外部記憶装置へのラ
ンダムアクセスが発生するが、本実施の形態では必要と
する主記憶装置上の領域のサイズが小さくてよく、さら
に外部記憶装置へのアクセスはシーケンシャルアクセス
を利用して行うことができ、外部記憶装置へのアクセス
時間を低減できる。また、グループ数が少ない場合には
集計領域９０に対してシノニムが発生しないため、外部
記憶装置へのアクセスが不要となり、パイプライン処理
でグループ化処理を行うことが可能となる。すなわち、
外部記憶装置からの入力リストの後続の行の読み込みと
並行して、読み込み済みの行に対して、ハッシュ関数値
の算出、それによる集計領域９０の読み出し、その結果
による集計領域９０内のデータの更新を行うことができ
る。

【００６９】＜発明の実施の形態４＞以上、グループ化
処理の高速化方法について、平均グループ重複度が１に
近い場合と、平均グループ重複度が２以上の場合のそれ
ぞれについて従来よりも高速な処理方法を示してきた。
次に、データが行単位で水平分割格納されている並列デ
ータベースシステムにおいてこれらの方式を最適に適用
する、グループ化処理の最適化する方法について説明す
る。

【００７０】図１０は並列データベースに対するグルー
プ化処理を最適化する方式を示す図である。ここでは簡
単のため、並列データベースシステムは、複数の計算機
と、それぞれの計算機に付随した複数の外部記憶装置に
より構成される。データベースのレコード表（レコード
リストとも言う）は行単位に分割され、その結果複数の
部分レコード表（分割リストとも言う）に分割され、複
数の部分レコード表は、上記複数の外部記憶装置に分散
して記憶される。それらの計算機で実行される基本プロ
グラム（以下ではこれらを処理単位と呼ぶ）は、問い合
わせの受付ならびに結果の応答ならびに問い合わせ処理
の一部を受け持つプログラム（以下、これをフロントエ
ンドサーバ（ＦＥＳ）と呼ぶ）と、データベースのへの
アクセスならびに問い合わせが要求する処理するプログ
ラム（以下ではこれをバックエンドサーバ（ＢＥＳ）と
呼ぶ）とで構成されているとする。フロントエンドサー
バは、少なくとも一つの計算機上で実行され、バックエ
ンドサーバは、複数の計算機の各々上で実行される。フ
ロントエンドサーバが実行される計算機上でもバックエ
ンドサーバは実行される。フロントエンドサーバは、各
計算機に搭載されてもよい。いずれかの計算機に搭載さ
れたフロントエンドサーバが、問い合わせを受付け、こ
の問い合わせが要求する処理の実行を、その計算機およ
び他の複数の計算機上に搭載された複数のバックエンド
サーバに要求する。各バックエンドサーバがその処理
を、そのバックエンドサーバが搭載された計算機に付随
する外部記憶装置に記憶された、上記データベースの一
部のデータ（部分レコード表）に対して他のバックエン
ドサーバでの処理の実行と並行して実行する。各バック
エンドサーバは、処理結果をフロントエンドサーバに通
知し、フロントエンドサーバは、それぞれのバックエン
ドサーバから通知された処理結果をまとめて、問い合わ
せへの応答を作成し、問い合わせ元のプログラムに送付
する。本実施の形態では、この問い合わせがグループ化
を含んでいるときに適用される。しかし、これ以外のシ
ステム構成であっても、データベースのレコード表が行
単位に分割され、その結果複数の部分レコード表に分割
され、複数の外部記憶装置に分散して格納されているの
であれば全く同様に本最適化方法を適用することは可能
である。

【００７１】まず、グループ化列（図ではグループ化キ
ーと記載）がデータの分割キーを含むかどうかにより最
適化方法が異なる。なぜなら、グループ化列がデータの
分割キーを含んでいる場合には、同一グループは必ず同
一分割リストに属することが保証できるからである。こ
れは、分割リストはそのように作成される。その場合に
は、それぞれの分割リスト内でグループ化処理を行えば
データ全体のグループ化処理を行ったことになる。他
方、グループ化列がデータの分割キーを含んでいない場
合には、同一グループに属する行が複数の分割リストに
分散して格納されているため、分割リスト間でグループ
化処理をやり直す必要がある。なお、並列データベース
における平均グループ重複度は、グループ数をｇ、入力
リストの合計の行数をＬ、分割数をｎとした場合、グル
ープ化列が分割キーを含む場合には、Ｌ／ｇ、グループ
化列が分割キーを含まない場合には、Ｌ／ｇ／ｎとな
る。

【００７２】また、このほかにも、バックエンドサーバ
がグループ化処理を行った後に、次に実行すべき処理単
位がフロントエンドサーバかバックエンドサーバか、あ
るいは、グループ化ユニークキーで入力リストがすでに
ソートされているかどうか、あるいは、平均グループ重
複度の値などにより、それぞれＧ１からＧ９までの処理
方法を選択する。グループ化ユニークキーとはグループ
化キーの部分集合列であり、グループ化キーの値が一意
に決まるとグループ化処理におけるグループが一意に決
まる列の集合である。すなわち、グループ化ユニークキ
ーはグループ化列を関数従属させる列の集合のことを言
う。グループ化列そのものは必ずグループ化ユニークキ
ーとなる。また、グループ化列に当該リストのユニーク
キーが含まれている場合、当該ユニークキーはグループ
化ユニークキーとなる。

【００７３】以下、具体的な最適化方法について図１０
に従って説明する。

【００７４】（１）まず、グループ化列が分割キーを含
む場合（１．１）次の処理がフロントエンドサーバである場合この場合は、例えば、次の処理がマージ処理であるとき
である。

【００７５】（１．１．１）入力リストが既にグループ
化ユニークキーでソート済みである場合各バックエンドサーバは、対応する分割ソート前提のグ
ループ化処理を行い、結果をフロントエンドサーバに送
信する。フロントエンドサーバは各バックエンドサーバ
から送信されてきた結果を並列に受信し（以下、この動
作をＰ−ＳＣＡＮと呼ぶ）、結果として出力する（Ｇ
１）。

【００７６】（１．１．２）入力リストがグループ化ユ
ニークキーでソートされていない場合（１．１．２．１）もしグループ重複度が１よりすこし
大きいか（例えば１．２以上）、全レコードの集計領域
が一度に主記憶上に確保できそうな場合各バックエンドサーバでＨＨＧＢ処理を行い、結果をフ
ロントエンドサーバにそれぞれ出力する。フロントエン
ドサーバは各バックエンドサーバから送信されてきた結
果を並列に受信し、結果として出力する（Ｇ２）。

【００７７】（１．１．２．２）グループ重複度が１に
きわめて近く（例えば１．２未満）、かつ、全レコード
の集計領域が一度に主記憶上に確保できそうでなけれ
ば、各バックエンドサーバでビットマップグループ化処
理を行い、結果をフロントエンドサーバに出力する。な
お、ビットマップグループ化処理では、重複度が２以上
と判定された行についてのみＨＨＧＢを適用する。フロ
ントエンドサーバは各バックエンドサーバから送信され
てきた結果を並列に受信し、結果として出力する（Ｇ２
ｄ）。

【００７８】（１．２）次の処理がバックエンドサーバ
である場合これは、例えば次の処理がマージ前に行うジョインであ
る場合である。

【００７９】（１．２．１）入力リストが既にグループ
化ユニークキーでソート済みであれば（１．１．１）と
同様の最適化を行う（Ｇ３）。

【００８０】（１．２．２）入力リストがグループ化ユ
ニークキーでソートされていない場合（１．２．２．１）もしグループ重複度が１よりすこし
大きいか（例えば１．２以上）、全レコードの集計領域
が一度に主記憶上に確保できそうならば、各バックエン
ドサーバでＨＨＧＢ処理を行い、結果を次バックエンド
サーバにそれぞれ出力する。次バックエンドサーバは各
バックエンドサーバから送信されてきた結果を並列に受
信し、結果として出力する（Ｇ４）。

【００８１】（１．２．２．２）グループ重複度が１に
きわめて近く（例えば１．２未満）、かつ、全レコード
の集計領域が一度に主記憶上に確保できそうでなけれ
ば、各バックエンドサーバでビットマップグループ化処
理を行い、結果を次バックエンドサーバにそれぞれ出力
する。なお、ビットマップグループ化処理では、重複度
が２以上と判定された行についてのみＨＨＧＢを適用す
る。次バックエンドサーバは各バックエンドサーバから
送信されてきた結果を並列に受信し、結果として出力す
る（Ｇ４ｄ）。

【００８２】（２）グループ化列が分割キーを含まない
場合には、（２．１）次の処理がフロントエンドサーバであれば、（２．１．１）入力リストが既にグループ化ユニークキ
ーでソート済みであればそれぞれの処理単位でソート前
提のグループ化処理を行い、結果をフロントエンドサー
バにそれぞれ送信する。フロントエンドサーバは各バッ
クエンドサーバから送信されてきた結果をさらにグルー
プ化ユニークキーでソートされるようにトーナメント方
式でマージしながら並列に受信し（Ｔ−ＳＣＡＮ）、そ
の結果をソート前提グループ化処理により再度グループ
化してから、その結果を出力する（Ｇ５）。

【００８３】（２．１．２）入力リストがグループ化ユ
ニークキーでソートされていない場合、（２．１．２．１）もしグループ重複度が１よりかなり
大きい（例えば２以上）ならば、各バックエンドサーバ
でＨＨＧＢ処理を行い、グループ化列を分割キーとして
その結果をバックエンドサーバ間で再分配する。各バッ
クエンドサーバは送られてきたデータを並列に受信し、
それらを入力リストとして（１．１．２．１）の処理を
適用する（Ｇ６）。

【００８４】（２．１．２．２）グループ重複度が１程
度（例えば２未満）ならば、直ちに、グループ化列を分
割キーとして入力リストをバックエンドサーバ間で再分
配する。各バックエンドサーバは送られてきたデータを
並列に受信し、それらを入力リストとして、再分配後の
グループ重複度の値に応じて（１．１．２．１）もしく
は（１．１．２．２）の処理を適用する（Ｇ７）。

【００８５】（２．２）次の処理がバックエンドサーバ
であれば、（２．２．１）もしグループ重複度が１よりかなり大き
い（例えば２以上）ならば、各バックエンドサーバでハ
イブリッドハッシュグループ化処理（ＨＨＧＢ）処理を
行い、グループ化列を分割キーとしてその結果をバック
エンドサーバ間で再分配する。各バックエンドサーバは
送られてきたデータを並列に受信し、それらを入力リス
トとして再度ハイブリッドハッシュグループ化処理を適
用する。

【００８６】（２．２．２）平均グループ重複度が１程
度（例えば２未満）の場合直ちに、グループ化列を分割キーとして入力リストをバ
ックエンドサーバ間で再分配する。各バックエンドサー
バは送られてきたデータを並列に受信し、それらを入力
リストとして、再分配後の平均グループ重複度の値に応
じて（１．２．２．１）もしくは（１．２．２．２）の
処理を適用する（Ｇ９）。

【００８７】以上の最適化により並列データベースにお
いてグループ化処理を最適に実行することが可能とな
る。また、重複排除処理に関しても前述の通り、特殊な
グループか処理に変換することにより上記最適化が適用
可能となる。

【００８８】

【発明の効果】１レコードのみで構成されるグループを
先に判別する発明によるグループ化方法によれば、平均
グループ重複度が１に近い場合にグループ化処理を大幅
に高速化できる。同様に重複削除処理も高速化できる。

【００８９】また、複数のハッシュ関数を用いる本発明
によるグループ化方法によれば、平均グループ重複度が
１に近くない場合でもグループ化処理を高速に行うこと
ができる。

【図面の簡単な説明】

【図１】ハッシュ関数を用いた本発明に係るグループ化
処理の概要を示す図。

【図２】図１に示したループ化処理の流れを示す図。

【図３】集計列計算処理における関数変換方法を示す
図。

【図４】マージソート法を用いた従来のグループ化処理
の流れを示す図。

【図５】ハッシュ関数を用いた従来のグループ化処理の
流れを示す図。

【図６】ハッシュ関数を用いた本発明に係る重複排除処
理の概要を示す図。

【図７】図６の重複排除処理の流れを示す図。

【図８】図６の重複排除処理を適用するのに好適な問い
合わせの例を示す図。

【図９】マージソート法を用いた本発明に係るグループ
化処理の流れを示す図。

【図１０】並列データベースに対する本発明に係るグル
ープ化処理の最適化方法を示す図。

【符号の説明】

１…入力リスト、５…ビットマップ（Ｂ１）、６…ビッ
トマップ（Ｂ２）、３９…関数変換表、９５−１〜９５
−ｐ…バケット格納用一時リスト。

───────────────────────────────────────────────────── フロントページの続き (72)発明者西澤格東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内Ｆターム(参考） 5B075 QR00 QT06

Claims

【特許請求の範囲】

【請求項１】データベースに含まれるレコードリストの
複数の行の各々の、一つ以上の予め指定されたグループ
化用の列の少なくとも一部の列の値に対して所定の第１
の処理を実行して各行に対してその行のグループ化用の
列の値が同一である少なくとも一つの他の行が存在する
可能性がないかを判別し、上記判別により同一グループ化用の列の値を有する他の
行が存在する可能性がないとそれぞれ判別された一部の
複数の行をそれぞれ一つのグループに属する行と判定
し、第２の処理により、上記レコードリストの上記複数の行
の内の上記一部の行以外の他の複数の行を、上記グルー
プ化用の列の値が同じである複数の行が同一のグループ
に属するように、複数のグループに区分するグループ化
方法。
【請求項２】上記可能性を判別するステップは、上記データベースに含まれるレコードリストの複数の行
の各々に対して、その行の、一つ以上の予め指定された
グループ化用の列の少なくとも一部の列の値を引数とす
るハッシュ関数によりハッシュ値を生成し、上記複数の行のに対して生成された複数のハッシュ値に
より、各行に対して生成されたハッシュ値と同一のハッ
シュ値を有する少なくとも一つの他の行が存在するか否
かを判別するステップを有し、上記判定ステップは、上記判別により同一のハッシュ値
を有する他の行が存在しないとそれぞれ判別された一部
の複数の行をそれぞれ一つのグループに属する行と判定
するステップを有する請求項１記載のグループ化方法。
【請求項３】上記判別は、各行に対して、上記ハッシュ値が生成される毎に、上記
ハッシュ関数が生成可能な複数のハッシュ値のそれぞれ
を生成した行の数が、０か、１かあるいは２以上である
かを識別するための計数データをその生成されたハッシ
ュ値に関連して更新し、上記レコードリストの上記複数の行について上記更新を
実行した後に、上記複数の行について上記ハッシュ値の
生成ステップを再度実行し、再度生成されたハッシュ値を生成した行の数が１つであ
るか否かを上記計数データに基づいて判別するステップ
を有する請求項２記載のグループ化方法。
【請求項４】上記計数データは、上記ハッシュ関数が生
成可能な上記複数のハッシュ値の各々に対応して、その
ハッシュ値を生成した行の数が、０か、１か２以上であ
るかを計数する２ビットを有する請求項３記載のグルー
プ化方法。
【請求項５】上記計数データは、上記ハッシュ関数が生
成可能な上記複数のハッシュ値の各々に対応して、その
ハッシュ値が第ｉ番目のハッシュ値であるときに、その
ハッシュ値を生成した行の数０、１、２以上を０×（３
のｉ乗）、１×（３のｉ乗）、２×（３のｉ乗）なる自
然数で表し、上記複数のハッシュ値に対応する上記自然
数の総和を表す２進数であり、上記ハッシュ関数が生成可能な上記複数のハッシュ値の
総数をｎとし、上記２進数のビット数を２ｋビットとす
るとき、３のｎ乗が２の２ｋ乗よりも小さく、かつ、ｎ
＞ｋである請求項３記載のグループ化方法。
【請求項６】上記レコードリストの平均グループ重複度
が１に近いか否かを判定するステップをさらに有し、上記レコードリストの平均グループ重複度が１に近いと
判定された場合に、上記判別するステップ以降のステッ
プが実行される請求項１または２記載のグループ化方
法。
【請求項７】上記判別により同一のハッシュ値を有する
他の行が存在しないとそれぞれ判別された上記一部の複
数の行の各々に基づいて、その行が属するグループに対
する集計処理を上記区分するステップの実行結果に依ら
ないで実行するステップをさらに有し、上記区分するステップは、そのステップにより区分され
た上記複数のグループの各々について集計処理を実行す
るステップを有する請求項２記載のグループ化方法。
【請求項８】データベースに含まれるレコードリストの
複数の行の各々の一つ以上の列の値に対して所定の第１
の処理を実行してその行の値と同一の値を有する少なく
とも一つの他の行が存在する可能性がないかを判別し、上記レコードリストの上記複数の行の内の、上記判別に
より同一の値を有する他の行が存在する可能性がないと
それぞれ判別された一部の複数の行以外の他の複数の行
に対して、同一の値を有する重複行の一つ以外の行を削
除する第２の処理を実行し、上記一部の複数の行と、上記削除後の上記他の複数の行
とを重複排除後の行として出力する重複排除方法。
【請求項９】上記可能性についての判別ステップは、データベースに含まれるレコードリストの複数の行の各
々に対して、その行の一つ以上の列の値を引数とするハ
ッシュ関数によりハッシュ値を生成し、上記複数の行に対して生成された複数のハッシュ値によ
り、各行に対して生成されたハッシュ値と同一のハッシ
ュ値を有する少なくとも一つの他の行が存在するか否か
を判別し、上記レコードリストの上記複数の行の内の、上記判別に
より同一のハッシュ値を有する他の行が存在しないとそ
れぞれ判別された一部の複数の行を、同一の値を有する
他の行が存在する可能性がない行であると判定するステ
ップを有する請求項８記載の重複排除方法。
【請求項１０】上記他の行の存在の判別ステップは、各行に対して、上記ハッシュ値が生成される毎に、上記
ハッシュ関数が生成可能な複数のハッシュ値のそれぞれ
を生成した行の数が、０か、１かあるいは２以上である
かを識別するための計数データをその生成されたハッシ
ュ値に関連して更新し、上記レコードリストの上記複数の行について上記更新を
実行した後に、上記複数の行について上記ハッシュ値の
生成ステップを再度実行し、再度生成されたハッシュ値を生成した行の数が１つであ
るか否かを上記計数データに基づいて判別するステップ
を有する請求項９記載の重複排除方法。
【請求項１１】上記計数データは、上記ハッシュ関数が
生成可能な上記複数のハッシュ値の各々に対応して、そ
のハッシュ値を生成した行の数が、０か、１か２以上で
あるかを計数する２ビットを有する請求項１０記載の重
複排除方法。
【請求項１２】上記計数データは、上記ハッシュ関数が
生成可能な上記複数のハッシュ値の各々に対応して、そ
のハッシュ値が第ｉ番目のハッシュ値であるときに、そ
のハッシュ値を生成した行の数０、１、２以上を０×
（３のｉ乗）、１×（３のｉ乗）、２×（３のｉ乗）な
る自然数で表し、上記複数のハッシュ値に対応する上記
自然数の総和を表す２進数であり、上記ハッシュ関数が生成可能な上記複数のハッシュ値の
総数をｎとし、上記２進数のビット数を２ｋビットとす
るとき、３のｎ乗が２の２ｋ乗よりも小さく、かつ、ｎ
＞ｋである請求項１０記載の重複排除方法。
【請求項１３】上記レコードリストの平均行重複度が１
に近いか否かを判定するステップをさらに有し、上記レコードリストの平均行重複度が１に近いと判定さ
れた場合に、上記可能性を判別するステップ以降のステ
ップが実行される請求項８または９記載の重複排除方
法。
【請求項１４】データベースに含まれるレコードリスト
の複数の行の各々に対して、その行の、一つ以上の予め
指定されたグループ化用の列の少なくとも一部の列の値
を引数とするハッシュ関数によりハッシュ値を生成し、予め準備された集計領域内の複数のエントリの内の、該
ハッシュ値に対応する一つのエントリが有効なグループ
化列の値と集計データを記憶されているか否かを判定
し、上記一つのエントリが有効なグループ化列の値と集計デ
ータを記憶していないならば、上記行の、予め定められ
た集計列のデータに基づいて、その行が一つのグループ
に属する唯一の行であるときの集計データを算出し、上記各行のグループ化列の値と上記算出された集計デー
タとを該一つのエントリに記憶し、上記一つのエントリがすでにグループ化列の値と集計デ
ータを記憶しているときには、その記憶されたグループ
化列の値と上記ハッシュ値を生成した上記各行のグルー
プ化列の値が同じであるか否かを判別し、該一つのエントリにすでに記憶された上記グループ化列
の値と、上記ハッシュ値を生成した上記各行のグループ
化列の値が同じであるとき、上記ハッシュ値を生成した
上記各行の上記集計列のデータに基づいて、該エントリ
に記憶された上記集計データを、上記ハッシュ値を生成
した上記各行が上記一つのエントリに対応するグループ
に追加されたときのデータに更新し、該エントリにすでに記憶された上記グループ化列の値
と、上記ハッシュ値を生成した上記各行のグループ化列
の値が異なるとき、上記各行のグループ化列のデータと
集計列のデータをグループ化されていない行として記憶
し、上記レコードリストの上記複数の行に対して、上記生成
するステップから登録するステップまでを実行後に、上
記集計領域の上記複数のエントリに記憶されたデータを
それぞれ一つのグループに関するデータとして出力し、上記記憶するステップでグループ化されていない行とし
て記憶された複数の行に対して上記生成するステップか
ら上記出力するステップまでを、グループ化されていな
い行がなくなるまで繰り返し、繰り返し時には上記生成
するステップで使用するハッシュ関数を変更するグルー
プ化方法。
【請求項１５】上記記憶するステップは、上記各行の上記グループ化列の値に依存して、上記各行
が属する複数の分割リストの一つを決定し、上記各行をその一つの分割リストに属する行として記憶
するステップを有し、上記繰り返すステップは、上記複数の分割リストを順次選択し、選択された分割リストに記憶された複数の行に対して、
上記生成するステップから上記出力するステップを実行
するステップを有する請求項１４記載のグループ化方
法。