JPH07111718B2

JPH07111718B2 - データベース・リレーシヨンの結合方法

Info

Publication number: JPH07111718B2
Application number: JP2217257A
Authority: JP
Inventors: ダニエル・マニユエル・デイアズ; ジヨエル・レオナード・ウオルフ; フイリツプ・シーラング・ユ
Original assignee: インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date: 1989-10-05
Filing date: 1990-08-20
Publication date: 1995-11-29
Anticipated expiration: 2010-11-29
Also published as: EP0421408A3; DE69030228D1; JPH03126169A; US5121494A; EP0421408A2; DE69030228T2; EP0421408B1

Description

【発明の詳細な説明】 A.産業上の利用分野本発明は、一般に、マルチプロセッサ環境でのリレーシ
ョナル・データベースの管理に関し、より具体的には、
結合操作を別々のジョブに区分し、それらのジョブを複
数のプロセッサ間で最適にスケジューリングすることに
より、データ・スキューの存在下で並列リレーショナル
・データベース環境にある共通フィールド上の２つのデ
ータベース・リレーションを結合することに関する。

B.従来の技術各種リレーショナル・データベース・システムにおける
共通の操作は、共通ドメインで定義されたそれぞれのカ
ラム上の２つのリレーションの自然結合である。たとえ
ば、C.デート（Date）著、“An Introduction to Datab
ase Systems"、Vol.1、第３版、Addison−Wesley社刊
（1982年）のpp.209〜210にある自然結合の説明を参照
されたい。結合の結果、各行が、元のそれぞれのリレー
ションから１行ずつ、共に当該の結合カラム内で同じ値
をもつ２つの行の連結である、新しいリレーションが得
られる。

２つのリレーションの結合を計算するためのよく使用さ
れるアルゴリズムは、M.ブラスゲン（Blasgen）及びK.
エスワラン（Eswaran）の論文“Storage and Access in
Relational Databases"、IBM Systems Journal、Vol.
4、pp.363以降（1977年）に記載されているようなソー
ト／マージ技法である。それは、次のように簡潔に要約
することができる。まず（必要があれば）それぞれのリ
レーションが結合カラムに従ってソートされる。第２
に、２つのソートされたリレーションが、明白なインタ
ロック・シーケンスで走査され、等しい値をもつ行につ
いてマージされる。

ソート／マージ結合が、マルチプロセッサ・データベー
ス・システム上で並列に実行されるときは、リレーショ
ンの結合カラム内にデータ・スキューが生じるという問
題がある。一般的に、スキューの問題は、上記文献に記
載された結合アルゴリズムによっては解決されない。並
列ソート／マージ結合に関する初期の論文には、D.ビト
ン（Bitton）、H.ボラル（Boral）、D.J.デウィット（D
eWitt）、W.K.ウィルキンソン（Wilkinson）の論文“Pa
rallel Algorithms for the Execution of Relational
Database Operations"、ACM Trans.on Database System
s、Vol.8、No.3、1983年９月、pp.324〜353がある。上
記論文では、２つの外部並列ソート・アルゴリズムが提
案され、それらは並列２進マージ及びブロック・ビット
ニック・ソートと呼ばれている。どちらのアルゴリズム
でも、ソートされたランをディスクに書き込み、ツー・
ウェイ・マージを使って、ディスクからランをマージす
る。マージ・ツリーが、異なるプロセッサにマップさ
れ、最終マージはシーケンシャルとなる。

P.バルドゥリエス（Valduriez）及びG.ガルダリン（Gar
darin）の論文“Join and Semijoin Algorithms for a
Multiprocessor Database Machine"、ACM Trans.on Dat
abase Machines、Vol.9、No.1、1984年３月、pp.133〜1
61には、ｋウェイ・マージに一般化されたアルゴリズム
が記載されている。その結果、単１プロセッサ上でシー
ケンシャルにマージされるｐ個（ｐ＜ｋと仮定する）の
リストが得られる。

J.P.リチャードソン（Richardson）、H.ルー（Lu）、K.
ミッキリネニ（Mikkilineni）の論文“Design and Eval
uation of Parallel Pipelined Join Algorithms"、ACM
SIGMOD 1987、サンフランシスコ、1987年５月、pp.160
〜169には、マージ／結合操作を並列化する方法が記載
されている。この方法では、リレーションT₁及びT₂が、
m₁及びm₂個のランにマージされる。T₁が大きい方のリレ
ーションであると仮定すると、T₁の各ランが１つのプロ
セッサに割り当てられる。各プロセッサは、T₂のm₂個の
ランをマージし（すなわち、T₂の最終マージが、少なく
ともプロセッサの数と同じ回数だけ繰り返される）その
プロセッサに割り当てられたT₁のランとマージ／結合す
る。この方法は、結合される２つのリレーションの射影
の一方がきわめて小さいようなときには、うまく働く。
上記論文には、１つのリレーションが小さい場合に有用
な別のアルゴリズムも記載されている。

S.G.アクル（Akl）及びN.サントロ（Santoro）の論文
“Optimal Parallel Merging and Sorting Without Mem
ory Conflicts"、IEEE Trans.on Comp.、Vol.C−36、N
o.11、1987年11月、pp.1367〜1369には、２つのソート
されたリストを、各リストを区分することにより並列に
マージすることが考察されている。

２つのリレーションの結合を計算するための別のよく使
用されるアルゴリズムは、D.J.デウィット、R.H.ガーバ
ー（Gerber）、G.グレーフェ（Graefe）、M.L.ヘイテン
ス（Heytens）、K.B.クマル（Kumar）、M.マラリクリシ
ュナ（Maralikrishna）の論文“Multi−processor Hash
−based Join Algorithms"、Proc.11th VLDB（1985年）
に記載されているハッシュ結合技法である。マルチプロ
セッサ・システムに関しては、ハッシュ結合技法は次の
ように簡潔に要約できる。まず、両方のリレーション
を、結合カラムに応じて（必要があれば）ハッシュ・パ
ーティションにハッシュする。ハッシュ・パーティショ
ンの数は、一般に、プロセッサの数に等しくセットされ
る。次に、ハッシュ・パーティションを、２つのリレー
ションの対応するパーティションが同一プロセッサ上に
存在するように、プロセッサ間に分配する。第２に、２
つのリレーションの対応するハッシュ・パーティション
を１つに結合する。

結合照会の性能は、マルチプロセッサの使用によってス
ピードアップできることもあるが、この種の従来型結合
アルゴリズムによるスピードアップは、M.S.ラクシュミ
ー（Lakshmi）及びP.S.ユー（Yu）の論文“Effect of S
kew on Join Performance in Parallel Architecture
s"、Proc.Intl.Symposium on Databases in Parallel a
nd Distributed Database Systems（1988年）に記載さ
れているように、データ・スキューが存在する場合はき
わめて限られている。D.A.シュナイダー（Schneider）
及びD.J.デウィットの論文“A Performance Evaluation
of Four Parallel Join Algorithms in a Shared−Not
hing Multiprocessor Environment"、Proc.ACM Sigmod
Conference（1989年）では、４つの並列結合アルゴリズ
ムの性能を評価している。上記論文では、データ・スキ
ューが高い場合には、ハッシュ結合以外のアルゴリズム
を考える必要があると示唆している。R.C.フー（Hu）及
びR.R.ムンツ（Muntz）の論文“Removing Skew Effect
in Join Operation on Parallel Processors"、Technic
al Report CSD−890027、UCLA（1989年）には、最大ス
キュー要素を特定し、それを処理するために複数のプロ
セッサを割り当てる単純なハッシュ結合アルゴリズムを
提案している。

C.発明が解決しようとする課題したがって、本発明の目的は、ソート／マージ技法、及
びハッシュ結合技法によって、並列リレーショナル・デ
ータベース環境において２つのリレーションの自然結合
のための全実行時間を最小にする効率的な技法を提供す
ることである。

本発明の別の目的は、２つのリレーションの結合カラム
内に存在しうるデータ・スキューを効率的に処理する、
マルチプロセッサ・データベース・マシン上で動作する
ソート／マージ技法及びハッシュ結合技法を提供するこ
とである。

D.課題を解決するための手段本発明の広義の教示によれば、結合操作は３段階で実行
されるが、任意選択として第４段階を伴うこともある。
第１段階は準備段階であり、その詳細は使用する基礎的
結合アルゴリズムに応じて変わってくる。この準備段階
は、前処理を行ない、その結果は、最終結合操作用のサ
ブタスクを定義するための基礎として以降の段階で使用
される。第１段階で提供されたデータを第２段階で使っ
てサブタスクを定義し、データ・スキューが存在する場
合でも最終結合操作での各プロセッサの負荷がほぼ等し
くなるように、これらのサブタスクを異なるプロセッサ
に最適に割り当てる。この第２段階は、本発明にとって
最重要な割当て段階である。第２段階の詳細は、基礎的
結合アルゴリズムが異なれば異なってくる。しかし、第
２段階で、サブタスクを定義し割り当てる一般的方法
は、基礎となるアルゴリズムが異なっても類似してい
る。第２段階でサブタスクの定義及び割当てを完了する
と、処理のための割当て、及び第３段階における２つの
リレーションの最終的結合に応じて、データがプロセッ
サの間で発送される。最終結合操作でどんな方法を使用
するかは、使用する基礎的結合アルゴリズムによって決
まる。任意選択として、第３段階で実行される実際の結
合中に結合操作のバランスがくずれた場合には、サブタ
スクの動的再割当てがありうる。

前述したように、結合操作は、異なる基礎的結合方法を
使用して実施できる。本発明の第１の態様では、多重プ
ロセッサ・データベース・システム上での並列なソート
／マージ結合に基づく方法を記述する。第１段階では、
第１及び第２のリレーションが、プロセッサの数に対応
する数の集合に区分され、結合されるカラム上でソート
される。第１段階からのこのソートされたデータが、第
２段階に提供される。第２段階では、第１段階からのソ
ートされたデータが、サブタスクを定義するため様々な
レンジ及び多重度に再区分され、各サブタスクは１つの
レンジのパーティションからのデータを結合する。１つ
のプロセッサが各サブタスクを実行するのに要する時間
を推定し、数個のプロセッサ間のソート操作のバランス
をとるために必要なだけパーティションをさらに分割す
る。最小メークスパン最適化技法に従って、ジョブをプ
ロセッサ間でスケジューリングする。このアルゴリズム
は、プロセッサ間でのジョブのスケジューリングを推定
スキューに基づいて更新することにより、２つのリレー
ションの結合カラム内に存在しうるデータ・スキューを
効率的に処理する。

本発明の第２の態様では、マルチプロセッサ・データベ
ース・システム上での並列なハッシュ結合アルゴリズム
に基づく方法を記述する。この技法は、データ・スキュ
ーを処理するために特別に設計されている。ここに提案
するアルゴリズムは、階層ハッシュ処理のコンセプトに
基づいている。階層ハッシュ処理を最小メークスパン最
適化アルゴリズムと組み合わせて、ハッシュ・パーティ
ションを繰り返し分割し、また複数のプロセッサ内で均
等にハッシュ・パーティションの割当てを行なう。この
解析の一環として、あるパーティションのサイズによっ
て、負荷のバランスが望ましい状態より悪化したとき、
区分操作を改善する。この評価段階中は、実際のハッシ
ュ処理は実行されない。その代りに、最適のハッシュ処
理が後に実行できるように、各レベルでのハッシュ処理
の有益性を評価する。

E.実施例以下の説明では、話を簡単にするために、マルチプロセ
ッサ・データベース・マシン内の各プロセッサは同じ計
算能力をもつと仮定する。その他の点での並列データベ
ース・アーキテクチャの性質は、本発明にとって余り重
要ではない。図面、特に第１図を参照すると、マルチプ
ロセッサ・データベース・マシンの一般的編成のブロッ
ク・ダイヤグラムが図示されている。Ｐ個のプロセッサ
10₁ないし10_Pが、インタコネクト・ネットワーク12を介
して互いにリンクされている。これらのプロセッサは、
インタコネクト・ネットワーク12を介してデータを変換
する。各種プロセッサをインタコネクトするためにどん
な方法を使用するかは、その方法が当面のタスクに対し
て十分な帯域幅をもっているかぎり重要ではない。この
データベース・マシンはまた、２次記憶のために通常の
磁気ディスク装置を使用する。ソートまたは結合されるリレーションは、
これらの磁気ディスク装置上に記憶される。

結合属性がとる値の分布は、結合操作の実行時間に対し
て相当な影響をもつ。多くのデータベースでは、１つの
属性に対してある値が他の値より頻繁に発生し、その結
果スキューのある分布が生じる。第２図に示した３つの
リレーション、CUSTOMERS、ORDERS、SUPPLIERSを考えて
みる。CUSTOMERSリレーション上のカストマIDは一義的
な値をとるが、ORDERSリレーション上の同じ属性は非一
義的な値をとることができる。というのは、カストマが
複数の品目を注文する場合があるからである。さらに、
所与の品目を複数のカストマが注文することがあり、複
数の供給者が１つの品目を供給することもありうる。

その注文が未処理のすべてのカストマをリストするため
に必要な照会があると、ORDERSリレーションとCUSTOMER
SリレーションがカストマIDカラム上で結合されて、単
一のスキューをもつ結合を生ずる。未処理の注文を満た
すことのできるすべての供給者をリストするために必要
な照会が行なわれると、ORDERSリレーションとSUPPLIER
Sリレーションが品目カラム上で結合されて、二重スキ
ューをもつ結合を生ずる。単一スキュー及び二重スキュ
ーという用語は、一方または両方のリレーションの結合
属性がスキューのある分布をもつことを表すために使用
する。

本発明による結合操作は、第３図に示したように、３つ
の段階と、任意選択として第４の段階をもつ。段階１は
準備段階であり、本発明のすべての態様に共通である。
ただし、この段階の詳細は、使用する基礎的結合アルゴ
リズムに応じて変わってくる。この段階については、２
つの基礎的結合アルゴリズムに関してより詳細に説明す
る。具体的には、まず本発明のソート／マージに基づく
実施例に関して段階１を説明し、次に、本発明のハッシ
ュに基づく実施例に関して段階１を説明する。

段階１の準備フェーズでは前処理を行ない、その結果
を、段階３の最終結合操作用のサブタスク定義のための
基礎として段階２で使用する。より具体的には、段階１
で提供されるデータを使ってサブタスクを定義し、デー
タ・スキューが存在する場合でも段階３の最終結合操作
でプロセッサの負荷がほぼ等しくなるように、これらの
サブタスクを異なるプロセッサに最適に割り振る。この
ように、段階２は割当て段階であり、本発明にとって最
も重要なものである。以下の説明では、ソート／マー
ジ、及び本発明のハッシュに基づく２つの実施例に関し
て、段階２に含まれる諸ステップを詳細に説明する。

段階２でサブタスクの定義及び割当てが完了すると、結
合されるリレーションのパーティションが、段階３で２
つのリレーションを処理し最終的に結合するために、割
り当てられたプロセッサに発送される。最終的結合操作
でどんな方法を使用するかは、基礎的結合方法に応じて
決まる。任意選択として、段階４は、プロセッサがその
進行状況を報告するものである。段階２での割当ては、
サブタスク時間の推定値に基づくので、段階３で開始さ
れる結合操作のバランスがくずれることがありうる。こ
のアンバランスが所定のしきい値を超えた場合、段階２
の割当てを、任意選択として動的に変更することもでき
る。

これから説明する本発明の第１の態様は、ソート／マー
ジ結合アルゴリズムに基づく基礎的結合方法に関するも
のである。リレーションR₁がN₁行を含み、リレーション
R₂がN₂行を含むと仮定する。Ｐはデータベース・システ
ム内のプロセッサの数を表す。

本発明の第１段階では、R₁の１組の行を、できるだけ均
等に、１組がほぼN₁/P行からなるＰ組に区分する。言い
かえると、パーティションは、１組がそれぞれからなるN₁−Ｐの集合と、１組がそれぞれからなるの集合をもつ。ここでは、実数ｘより大きいかまたは等しい最小の整数を表
し、は、ｘ以下の最大の整数を表す。次に各プロセッサに、
ソートすべきパーティションの１つを与える。各プロセ
ッサは、ほぼ等しい時間で、各自のタスクを完了しなけ
ればならない。第２のリレーションも同様にソートす
る。この段階の終了時には、Ｐ個のソートされた「ラ
ン」が２組ある。

本発明の第２段階を導入するために、結合カラムのドメ
イン内の２つの値をV₁,V₂（V₁≦V₂）とする。2P個のソ
ートされたランのどれか１つ、たとえばリレーションｉ
ε｛1,2｝とプロセッサｊε｛1,…,P｝に対応するラン
が与えられているものとすると、区間［V₁,V₂］内にソ
ート・カラム値をもつすべての行からなる明確に定義さ
れた（恐らく空の）連続する部分集合ρ_ij,V1,V2が存在
する。ρ_ij,V1,V2のそれぞれを最終ソート及びマージの
ために単一プロセッサに発送すると、結合操作の残りの
部分全体の独立サブタスクτ^１ _V1,V2が得られる。ここ
で上付き文字は、単一のプロセッサが関与していること
を強調するためのものである。このことの意味は、以下
の説明で明らかになる。このサブタスクを実行するのに
かかる時間はT¹ _V1,V2＝Ａ（I₁＋I₂）＋BOと推定され
る。ここではR₁からの入力の行数、ＯはR₁とR₂のマージからの出力
の行数、ＡとＢは既知の定数である。各ρ_ij,V1,V2の値
が、V₁とV₂の間の基礎ドメイン内のＤ_V1,V2個の要素に
わたって均等に分配されていると仮定すると、Ｏ＝I₁I₂
|D_V1,V2を計算することができる。

V₁＜V₂という特別の場合には、Ｏの計算は単に推定値に
なる。V₁＜V₂を満たす対（V₁,V₂）をタイプ１の対と呼
ぶ。V₁＝V₂という特別の場合には、Ｏの式はＯ＝I₁I₂に
簡約される。事実、出力は２つの入力のちょうど外積で
あり、したがって、この式は、この場合厳密に正確であ
る。V₁＝V₂を満たす対（V₁,V₂）をタイプ２の対と呼
ぶ。実際に、タイプ２の対では、Ｖ＝V₁＝V₂とすると、
さらに、２つの集合の大きい方をできるだけ均等にＭ個（ただし、１≦Ｍ≦
Ｐ）の行の集合に区分し、さらに小さい独立サブタスク
τ^１ _V1,V2，…，τ^Ｍ _V1,V2を作成できる可能性を考える
ことができる。サブタスクτ^ｍ _V1,V2,m｛1,…,M｝で
は、小さい方の集合と大きい方の集合のｍ番目のパーテ
ィションとの外積が単一プロセッサ上で実行される。た
とえば、第１のリレーションの方が大きい行数を含むと
仮定すると、このサブタスクを実行するのにかかる時間
は、T^m _V1,V2＝Ａ（I^m ₁＋I₂）＋BI^m ₁I₂となる。ここで、
I^m ₁はｍ番目のパーティション内の行数である。Ｍ個の
サブタスクをそれぞれ異なるプロセッサで実行すべきで
あるとは主張しないが、実際にはそうなる可能性が大き
い。明らかに、Ｍ＞１個のサブタスクを実行するのは、
１つのサブタスクを実行するよりも効率が低い。という
のは、小さい方のリレーション（この場合にはR₂）から
の入力を、関係する各プロセッサに発送しなければなら
ないからである。過剰なスキューを処理するために、こ
の手法を利用しているにすぎない。タイプ２の対（V₁,V
₂）は、多重度Ｍをもつと言う。タイプ１の対（V₁,V₂）
は、多重度１をもつと言う。

次に一般的手法について述べる。結合カラムのドメイン
内の対応する多重度をもつＫ対の値の順序シーケンスを
作成するものと仮定する。このシーケンスは、次の形を
もつ。

Ｖ_1,1≦Ｖ_1,2＜…＜Ｖ_ｋ−1,1≦Ｖ_ｋ−1,2≦Ｖ_k,1≦Ｖ
_k,2＜Ｖ_ｋ＋1,1≦Ｖ_ｋ＋1,2＜…＜Ｖ_k,1≦Ｖ_k,2 R₁とR₂の結合カラム内の各値は、区間［Ｖ_k,1,V_k,2］の
１つ内に収まることが必要である。ｋ｛1,…,k｝につい
て、対（Ｖ_k,1,V_k,2）の多重度をM_kで表すことにする。
Ｐ個のプロセッサで実行される個のサブタスクτ^ｍ _Vk,1,Vk,2を作成した。必要な全計
算時間は、と推定することができる。この時間をプロセッサの間で
できるだけ均等に分配したい。「完全」な割当ては必ず
しも可能ではないが、それができれば、各プロセッサが単位時間だけ使用中となるはずである。具体的には、ジ
ョブ全体の完了時間が最小になるように、各サブタスクτ^ｍ _Vk,1,Vk,2をプ
ロセッサＡ（τ^ｍ _Vk,1,Vk,2）に割り当てたい。この最
適化問題は、いわゆる最小メークスパン問題、またはマ
ルチプロセッサ・スケジューリング問題である。この問
題はNP完全であることが知られているが、最悪の場合の
性能がかなり良く、平均の性能が優れたいくつかのきわ
めて高速のヒューリスティックスが存在する。具体的に
は、LPTヒューリスティックの説明については、R.グレ
アム（Graham）の論文“Bounds on Multiprocessing Ti
ming Anomalies"、SIAM Journal of Computing、Vol.1
7、1969年、pp.416以降、MULTIFITヒューリスティック
の説明については、E.コフマン（Coffman）、M.ギャリ
ー（Garey）、D.S.ジョンソン（Johnson）の論文“An A
pplication of Bin Packing to Multiprocessor Schedu
ling"、SIAM Journal of Computing、Vol.7、1978年、p
p.1以降を参照されたい。

もちろん、値の対の順序シーケンス、及び対応する多重
度をどのように作成するかは制御できる。本発明の第２
段階の目標は、この順序シーケンスを作成するための分
割統治法である。その１つの例は、第４図の流れ図に示
したアルゴリズムである。

第４図を参照すると、この方法は、まず機能ブロック20
から始まり、そこで、Ｋ＝１に設定し、Ｖ_1,1をR₁とR₂
の結合カラム内の最小値に設定し、Ｖ_1,2を最大値に設
定し、かつM₁＝１に設定する。さらに、そのサブタスク
に対する時間を推定し、すべての現サブタスクのリスト
を維持し、推定サブタスク時間の順に並べる。最初は、
リスト上には１つの要素しかない。次に、判断ブロック
22でテストを行なって、リスト中の最大サブタスクの推
定時間がリスト中のすべてのサブタスクの推定時間の合
計の1/P以下であるかどうか、言い換えると、最大サブ
タスクが「適合」するかどうか判定する。YESの場合
は、機能ブロック24で、LPTまたはMULTIFITアルゴリズ
ムを実行する。どちらのアルゴリズムでも、第１ステッ
プであり、かつ計算上最も費用のかかるステップは、推
定時間の順にサブタスクを並べることである。これは、
この場合にはすでに済ませてある。次に、判断ブロック
26でテストを行なって、このメークスパンが、完全割当
ての所定の乗算係数１＋の範囲内にあるかどうか判定す
る。YESの場合には、処理は停止する。そうでない場合
は、判断ブロック28でテストを行なって、タイプ１の対
があるかどうか判定する。NOの場合は、処理は停止す
る。そうでない場合は、機能ブロック30で、リスト中で
最大のタイプ１の対を選択する。次に、機能ブロック32
で、最大のタイプ１の対（Ｖ_k,1,V_k,2）を、次のように
２ないし３つの部分に分割する。R₁には、Ｐ個のソート
された行ρ_1j,V1,V2からなる合計I₁個の要素がある。R₂
には、Ｐ個のソートされた行ρ_2j,V1,V2からなる合計I₂
個の要素がある。合計で、合計I₁＋I₂個の要素をもつ2P
個のソートされた行が得られる。Z.ガリール（Galil）
及びN.メジッド（Megiddo）の論文“A Fast Selection
Algorithm and the Problem of Optimum Distribution
of Effort"、Journal of the ACM、Vol.26、1979年、p
p.58以降によるアルゴリズムで、この集合のに大きな要素μが見つかる。これは、いわゆる選択問題
の特殊な場合である。事実、このアルゴリズムは、各集
合ρ_ij,V1,V2を３つの連続する（恐らく空の）領域、す
なわちμより少ない行からなる▲ρ¹ _1j▼_,V1,V2と、μ
に等しい行からなる▲ρ² _1j▼_,V1,V2と、μより多い行
からなる▲ρ³ _1j▼_,V1,V2に分割する。こうして、１つ
のサブタスクから３つのサブタスクが作成された。第１
または第３サブタスクのどちらか一方が空でもよいが、
両方が空になることはない。どちらか一方がタイプ１ま
たはタイプ２でありうる。第２のサブタスクは空にはな
らず、多重度１のタイプ２になる。第５図は、この方法
を用いて、どのように１つの古いサブタスクからこれら
３つの新しいサブタスクが作成されるかを示している。
次に、Ｋを調整し、間隔を決定し、新しいサブタスクの
それぞれについて時間推定値を計算する。出力の行数
が、いずれかのサブタスクに関して０であると計算され
た場合には、そのサブタスクをリストから削除すること
ができる。２つのリレーションの一方に対応する部分は
空であり、結合で何も生じない。

この時点で、判断ブロック34でテストを行なって、サブ
タスクのリストが空であるかどうか判定する。YESの場
合は、処理は停止する。そうでない場合は、機能ブロッ
ク36でサブタスクのリストの番号を付け直し、順序を並
べかえる。次に、判断ブロック22に戻る。

判断ブロック22のテストの結果がNOの場合は、判断ブロ
ック38でさらにテストを行なって、サブタスクのリスト
中の最大要素がタイプ１のものであるかどうか判定す
る。YESの場合は、機能ブロック32に進む。そうでない
場合は、判断ブロック40でテストを行なって、各サブタ
スクが適合するように、リスト中の最大サブタスクに対
応するタイプ２の対の多重度を新しい多重度Ｍ＜Ｐに増
加させることが可能かどうか判定する。YESの場合は、
最小のそのような多重度が見つかり、機能ブロック42
で、サブタスクのリストを、この新しい多重度を組み込
むように改訂する。さらに、Ｋを調整し、新しいサブタ
スクに対する推定時間を計算してから、機能ブロック36
に進む。

判断ブロック40のテストの結果がNOの場合は、機能ブロ
ック44で、サブタスクが多重度Ｐをもつように割り当
て、Ｐ個のサブタスクのそれぞれを異なるプロセッサに
割り当て、それらのサブタスクをリストから外す。さら
に、Ｋを調整する。除外されたＰ個のサブタスクは、ほ
ぼ等しい時間で完了する。次に判断ブロック34に移る。

この方法は、多重度１の対に適したものであるが、過剰
なスキューを克服するため、それより高い多重度をも受
け入れることができる。これらの過剰なスキューの位置
は、アルゴリズムの実行中に自然にわかるはずである。
推定サブタスク時間も、同様に、アルゴリズムの実行に
つれてますます正確になるはずである。上記テーマに関
しては多数の変形があり、それらも同様に実施できる。
たとえば、LPTまたはMULTIFITは、機能ブロック24を通
るごとに実行する必要はない。カウンタで、最小メーク
スパン・アルゴリズムの実行回数を調節することができ
る。同様に、このアルゴリズムは、たとえ解答が完全に
満足なものでなくても、別のカウンタに従ってタイム・
アウトさせることができる。

第３図に示した段階３では、リレーションR₁とR₂のソー
トされた要素集合をディスクから読み出し、サブタスク
に対応する要素集合を、割り当てられたプロセッサに発
送する。次に、最終結合操作を実行するため、割り当て
られたプロセッサ上でサブタスクを実行する。

任意選択として、第３図の段階４に示すように、実際の
結合の進行中に、プロセッサが各自の進行状況を報告す
ることもできる。推定サブタスク時間は、ちょうどその
値なので、結合の進行がバランスを失うことがありう
る。このアンバランスが所定のしきい値を超えた場合
に、新しいLPTまたはMULTIFITアルゴリズムを開始する
こともできる。

本発明はまた、ハッシュ結合アルゴリズムに基づく方法
を使用し、第３図の段階１及び２の階層ハッシュ処理を
実施する二重ハッシュ処理技法を使用して実施すること
ができる。階層ハッシュ処理技法のその他の変形につい
ては後述する。二重ハッシュ処理は、スキュー値を特定
し、各プロセッサにおける結合コストのよりよい推定値
をもたらし、最終的には負荷のバランスをより均等にす
るために採用される。

第３図の第１段階では、まずそれぞれサイズがほぼN₁/P
行のR₁のほぼ等しいパーティションをもつ各プロセッサ
を使用する。言い換えると、パーティションは、１組が
それぞれからなる個の集合、及び１組がそれぞれ行からなるの集合をもつ。２つのハッシュ関数をH₁とH₂とする。こ
こでH₂は、H₁によって作成された各ハッシュ・パーティ
ションをより小さいパーティションにさらに分割するた
めに使用する。H₁は、行をB₁個のハッシュ・パーティシ
ョンにハッシュ処理でき、H₂は、これらのパーティショ
ンのそれぞれをB₂個のより小さいハッシュ・パーティシ
ョンに細分できるものと仮定する。各プロセッサｊにつ
いて、H₁のもとでその結合カラムのハッシュ値がH₁のｋ
番目のハッシュ・パーティションに含まれ、H₂のもとで
のハッシュ値がH₂のｍ番目のハッシュ・パーティション
に含まれる行の数を▲ｄ^j _k▼_,m（R₁）とする。その行
を、複合ハッシュ値（k,m）をもつと言う。各プロセッ
サは、ディスクからR₁の要素集合を読み込み、どれだけ
の要素結合が、H₁とH₂に基づいて細分割されたパーティ
ションにハッシュ処理されるのかを記録するため、各プ
ロセッサｊのメイン・メモリ内にカウントd^j _k,m（R₁）
（ｋ＝1,…,B₁、及びｍ＝1,…,B₂）を維持する。これら
のプロセッサは、ほぼ等しい時間で、それぞれのタスク
を完了する必要がある。第２のリレーションも同様にハ
ッシュ処理されて、d^j _k,m（R₂）を生ずる。この段階の
終了時には、２組のカウントd^j _k,m（R_i）ｉ＝1,2が得ら
れる。

第３図の第２段階の開始時に、d^j _k,m（R_i）が各プロセ
ッサにわたって加算されて、を得る。H₁からの2PB₁個のハッシュ・パーティションの
どれか１つ、たとえばリレーションｉε｛1,2｝、プロ
セッサｊε｛1,…,P｝に対応する１つのハッシュ・パー
ティション、及びハッシュ・パーティションｋε｛1,
…,B₁｝が与えられ、かつ部分集合Ｅ⊆｛1,…,B₂｝が与
えられているものとすると、複合ハッシュ値（k,m）、
ｍεＥをもつすべての行からなる明確に定義された（恐
らく空の）部分集合ρ_ij,k,Eが存在する。ρ_ij,k,Eのそ
れぞれを最終結合のために単一プロセッサに発送する
と、結合操作の残りの部分全体の独立サブタスクτ^１
_k,Eが得られる。ここで上付き文字は、単一のプロセッ
サが関与していることを強調するためのものである。こ
のことの意味は間もなく明らかになる。このサブタスク
を実行するのにかかる時間は、T¹ _k,E＝Ａ（I₁＋I₂）＋B
Oと推定される。ここではR_iからの入力の行数、ＯはR₁とR₂のマージからの出力
の行数、ＡとＢは既知の定数である。各ρ_ij,k,m、ｍε
Ｅの値が、複合ハッシュ値（k,m）をもつ基礎ドメイン
内のＤ_k,m個の要素にわたって均等に分配されていると
仮定できる場合には、を計算することができる。

Ｅが単一の値、たとえばｍを含む場合には、さらに次の
２組の大きい方をできるだけ均等にＭ個（１≦Ｍ≦Ｐ）の行
の集合に区分し、さらに小さい独立サブタスクτ^１
_k,｛ｍ｝，…，τ^Ｍ _k,｛ｍ｝を作成できる可能性を考え
ることができる。サブタスクτ^１ _k,｛ｍ｝,j｛1,…,M｝
では、小さい方の集合と大きい方の集合のｊ番目のサブ
パーティションとの結合が、単一プロセッサ上で実行さ
れる。たとえば、第１のリレーションの方が大きい行数
を含むと仮定すると、このサブタスクを実行するのにか
かる時間は、T^j _k,｛ｍ｝＝Ａ（（I₁/M）＋I₂）＋BI₁I₂/
Mとなる。Ｍ個のサブタスクのそれぞれを異なるプロセ
ッサ上で実行すべきであるとは主張しないが、実際には
そうなる可能性が大きい。明らかに、Ｍ＞１個のサブタ
スクを実行するのは、１つのサブタスクを実行するより
も効率が悪い。というのは、小さい方のリレーション
（この場合にはR₂）からの入力を、関係する各プロセッ
サに発送しなければならないからである。過剰なスキュ
ーを処理するために、この手法を利用しているにすぎな
い。複合ハッシュ・パーティション（k,｛ｍ｝）は、多
重度Ｍをもつと言う。そうでない場合は、多重度１をも
つと言う。

次に、一般的手法について述べる。（Ｖ_k,1,V_k,2）の形
のｋ対の順序シーケンスを作成するものと仮定する。こ
こで、Ｖ_k,1ε｛1,…,B₁｝、Ｖ_k,2⊆｛1,…,B₂｝。Ｖ
_k,2がただ１つの要素を含む場合は、（Ｖ_k,1,V_k,2）対
をタイプ２の対と呼ぶ。そうでない場合は、タイプ１の
対と呼ぶ。各複合ハッシュ・クラス（i,j）について、
ｉ＝Ｖ_k,1かつｊεＶ_k,2であるような独自のｋε｛1,
…,k）が存在しなければならないという意味で、複合ハ
ッシュ・クラスの集合を区分するためにＫ対のシーケン
スが必要である。ｋε｛1,…,k）について、対（Ｖ_k,1,
V_k,2）の多重度をM_kで表すことにする。Ｐ個のプロセッ
サで実行されるサブタスクτ^ｍ _Vk,1,Vk,2を作成した。
必要な全計算時間は、と推定することができる。

この全計算時間をプロセッサの間でできるだけ均等に分
配したい。「完全な」割当ては必ずしも可能ではない
が、それができれば、各プロセッサが単位時間だけ使用中となるはずである。具体的には、ジ
ョブ全体の完了時間が最小になるように、各サブタスクτ^ｍ _Vk,1,Vk,2をプ
ロセッサＡ（τ^ｍ _Vk,1,Vk,2）に割り当てたい。この最
適化問題は、いわゆる最小メークスパン問題、またはマ
ルチプロセッサ・スケジューリング問題である。この問
題はNP完全であることが知られているが、最悪の場合の
性能がかなり良く、平均の性能が優れたいくつかのきわ
めて高速のヒューリスティックスが存在する。

要は、値の対の順序シーケンス、及び対応する多重度を
どのように作成するかを制御できることである。本発明
の第２段階の目標は、この順序シーケンスを作成するた
めの分割統治法である。ここでは、段階２に進むための
可能な方法の例を２つ示す。

第１の方法は、グレアムによるLPTヒューリスティック
の変形を使用するものであり、第６図の流れ図に示され
ている。第６図を参照すると、まず機能ブロック50で、
集合｛（k,F）,k＝1,…,B₁｝、ただしＦ＝｛1,…,B₂｝
を、サブタスク値T¹ _k,Fに応じて降順でソートする。す
べての現サブタスクのリストを維持し、推定サブタスク
時間の順に並べる。次に、判断ブロック52でテストを行
なって、リスト中の最大サブタスクの推定時間が、リス
ト中のすべてのサブタスクの推定時間の合計の1/P以下
であるかどうか、言い換えると、最大サブタスクが「適
合」するかどうか判定する。NOの場合は、判断ブロック
54でテストを行なって、リスト中の最大要素がタイプ１
のサブタスクであるかどうか判定する。YESの場合は、
機能ブロック56で、最大タイプ１の対（Ｖ_k,1,V_k,2）を
それぞれ多重度が１のcard（Ｖ_k,2）個のタイプ２の対
に分割する。次に、機能ブロック58で、サブタスクのリ
ストの番号を付け直し、サブタスクのリストの順序を並
べかえてから、判断ブロック52に戻る。

判断ブロック54のテストの結果がNOの場合には、判断ブ
ロック60でさらにテストを行なって、各サブタスクが今
度は適合するように、リスト中の最大サブタスクに対応
するタイプ２の対の多重度を新しい多重度Ｍ＜Ｐに増加
させることが可能かどうか判定する。YESの場合は、最
小のそのような多重度が見つかり、機能ブロック62で、
サブタスクのリストを、この新しい多重度を組み込むよ
うに改訂する。さらに、ｋを調整し、新しいサブタスク
に対する推定時間を計算する。次に、機能ブロック58に
進む。

判断ブロック60のテストがNOの場合には、機能ブロック
64で、サブタスクが多重度Ｐをもつように割り当て、Ｐ
個のサブタスクのそれぞれを異なるプロセッサに割り当
て、それらのサブタスクをリストから外す。またｋを調
整する。除外されたＰ個のサブタスクは、ほぼ等しい時
間で完了する。次に、判断ブロック66でテストを行なっ
て、サブタスクのリストが空であるかどうか判定する。
YESの場合は、処理は終了する。そうでない場合は、処
理は機能ブロック58に戻る。

判断ブロック52のテストがYESの場合は、すべてのサブ
タスクが適合する。機能ブロック68で、目標メークスパ
ン時間TARGETをリスト中のすべてのサブタスクの推定時
間の合計の1/Pとして計算する。このTARGETがこの場合
は安定である点が重要である。以後のステップでタイプ
１の対をタイプ２の対に分割することがあり得るが、推
定時間の合計は変わらない。変形LPTは以下のステップ
で実行される。

TARGETと、あるプロセッサにすでに割り当てられたサブ
タスク時間の合計の差が最大であるプロセッサＰを考え
る。最大サブタスク（Ｖ_k,1,V_k,2）がリスト上に残って
いるものと考える。判断ブロック70でテストを行なっ
て、それがタイプ２のサブタスクであるかどうか判定す
る。YESの場合は、機能ブロック72で、サブタスク（Ｖ
_k,1,V_k,2）をプロセッサＰに割り当て、そのサブタスク
をリストから外す。次に、判断ブロック80でテストを行
なって、サブタスクのリストが空であるかどうか判定す
る。YESの場合は、処理は終了する。そうでない場合
は、処理は判断ブロック70に戻る。

判断ブロック70の判定がNOの場合は、判断ブロック78で
テストを行なって、（Ｖ_k,1,V_k,2）がプロセッサＰに割
り当てられた場合、TARGETとプロセッサＰに割り当てら
れたサブタスク時間の合計の改訂された差が負になるか
どうか判定する。NOの場合は、機能ブロック72に移る。
そうでない場合は、機能ブロック74で、（Ｖ_k,1,V_k,2）
がそれぞれ多重度が１のcard（Ｖ_k,2）個のタイプ２の
対に分割される。機能ブロック76で、サブタスクのリス
トの番号を付け直し、順序を並べかえてから、判断ブロ
ック70に戻る。

結合技法の段階２用の第２のハッシュ結合アルゴリズム
は、第７図の流れ図に示されている。第４図の流れ図と
第７図の流れ図を比較するとわかるように、ソート／マ
ージ結合アルゴリズムとこのハッシュ結合アルゴリズム
では全体の論理は全く類似している。第７図を参照する
と、処理は機能ブロック90から始まり、まず集合｛（k,
F）,k＝1,…,B₁｝、ただしＦ＝｛1,…,B₂｝、をとり、
それらを、サブタスク値T¹ _k,Fに従って降順でソートす
る。すべての現サブタスクのリストを維持し、サブタス
ク推定時間の順に並べる。次に、判断ブロック92でテス
トを行なって、リスト中の最大サブタスクの推定時間
が、リスト中のすべてのサブタスクの推定時間の合計の
1/P以下であるかどうか、言い換えると、最大サブタス
クが「適合」するかどうか判定する。YESの場合は、機
能ブロック94で、LPTまたはMULTIFITを実行する。この
場合も、どちらのアルゴリズムでも、第１ステップであ
り、かつ計算上最も費用のかかるステップは、推定時間
の順にサブタスクを並べることである。これは、この場
合にはすでに済ませてある。次に、判断ブロック96でテ
ストを行なって、このメークスパンが、完全割当ての所
定の乗算係数１＋Δの範囲内にあるかどうか判定する。
YESの場合は、処理は停止する。そうでない場合は、判
断ブロック98でテストを行なって、タイプ１の対が残っ
ているかどうか判定する。NOの場合は、処理は停止す
る。そうでない場合は、機能ブロック100で、リスト中
の最大のタイプ１の対を選択する。次に、機能ブロック
102で、最大のタイプ１の対（Ｖ_k,1,V_k,2）を次のよう
に２つの対に分割する。各要素ｍεＶ_k,2について、対
応するサブタスク時間T¹ _{Vk,1,｛ｍ｝}が存在する。集合
｛τ_{Vk,1,｛ｍ｝}|mεＶ_k,2｝に対してLPTまたはMULTIFI
Tを実行し、Ｖ_k,2を合計推定サブタスク時間がほぼ等し
い２つの部分集合V¹ _k,2とV² _k,2に分割する。新しいサブ
タスクのいずれかが時間０であると推定される場合、そ
のサブタスクはリストから削除できる。さらに、Ｋを調
整する。別法として、最大のタイプ１の対を、２とＶ
_k,2の濃度の間の任意の数Ｑのグループに分割すること
もできる。この説明ではＱ＝２を選択した。判断ブロッ
ク104でテストを行なって、サブタスクのリストが空で
あるかどうか判定する。YESの場合、処理は停止する。
そうでない場合は、機能ブロック106でサブタスクのリ
ストの番号を付け直し、順序を並べかえてから、制御ブ
ロック92に戻る。

判断ブロック92のテストの結果がNOの場合は、判断ブロ
ック108でテストを行なって、サブタスクのリスト中の
最大要素がタイプ１のものであるかどうか判定する。YE
Sの場合は、機能ブロック102に進む。そうでない場合
は、判断ブロック110でテストを行なって、各サブタス
クが今度は適合するようにリスト中の最大サブタスクに
対応するタイプ２の対の多重度を新しい多重度Ｍ＜Ｐに
増加させることが可能かどうか判定する。YESの場合
は、最小のそのような多重度が見つかり、機能ブロック
112で、サブタスクのリストを、この新しい多重度を組
み込むように改訂する。Ｋを調整し、新しいサブタスク
に対する推定時間を計算する。次に、機能ブロック106
に進む。判断ブロック110のテストの結果がNOの場合
は、機能ブロック114で、サブタスクが多重度Ｐをもつ
ように割り当て、Ｐ個のサブタスクのそれぞれを異なる
プロセッサに割り当て、それらのサブタスクをリストか
ら外す。さらに、Ｋを調整する。除外されたＰ個のサブ
タスクは、ほぼ等しい時間で完了する。次に、判断ブロ
ック104に進む。

この方法は、多重度１の対に適したものであるが、過剰
なスキューを克服するため、それより高い多重度をも受
け入れることができる。これらの過剰なスキューの位置
は、アルゴリズムの実行中に自然にわかるはずである。
上述の方法には多数の変形があり、それも同様に実施で
きる。たとえば、どちらの方法でも、反復改良アルゴリ
ズムを終了時に適用することができる。この方法は、第
８図に示されている。この図で、GOALは、すべてのサブ
タスクの推定時間の合計の1/Pを表している。この方法
は、割り当てられたサブタスクの推定時間の合計が最大
のプロセッサＰをとり出すものである。プロセッサＰ
で、最大のタイプ１のサブタスク（Ｖ_k,1,V_k,2）をとり
出して、それぞれ多重度が１のcard（Ｖ_k,2）個のタイ
プ２の対に分割する。次に、これらのタスクを、プロセ
ッサに再度割り当てる。第８図に示すように、最大のサ
ブタスクが最初に再割当てされる。

第４図に示したソート／マージ結合アルゴリズムの段階
２と同様に、第７図に示した第２のハッシュ結合アルゴ
リズムに基づく段階２用のこの方法では、LPTまたはMUL
TIFITは、機能ブロック94を通るごとに実行する必要は
ない。カウンタで、最小メークスパン・アルゴリズムの
実行回数を調節することができる。同様に、このアルゴ
リズムは、たとえ解答が完全に満足なものでなくても、
別のカウンタに従ってタイム・アウトさせることができ
る。

第３図に示した段階３では、リレーションR₁とR₂の要素
集合をディスクから読み取り、ハッシュ関数H₁とH₂を適
用し、それらの要素集合を、段階２で決定された割り当
てられたプロセッサに発送する。

任意選択として、第３図に示した段階４では、実際の結
合の進行中に、プロセッサが各自の進行状況を報告する
こともできる。推定サブタスク時間がちょうどその値な
ので、結合の進行がバランスを失うことがありうる。こ
のアンバランスが所定のしきい値を超えた場合に、新し
いLPTまたはMULTIFITアルゴリズムを開始することもで
きる。

この階層的ハッシュ処理コンセプトを実施する方法は多
数あることに留意されたい。１つの方法は、ハッシュ処
理を実行する際に、段階１で出会った各種の結合カラム
値上に最も頻繁に使用されるリストを保存するものであ
る。発生頻度も維持される。結合カラム値の発生率が所
定のしきい値より小さくなると、その結合カラムをリス
トから外す。別の方法は、ハッシュ処理を実行する際、
段階１の結合カラム値のサンプリングを実行するもので
ある。次に、最も頻繁に使用されるリストまたはサンプ
リング結果を使用して、スキュー分布を識別し、どのパ
ーティションをさらに区分するべきかを案内することも
できる。

要約すると、ソート／マージ・アルゴリズムまたはハッ
シュ結合アルゴリズムの使用に基づいて、複数のプロセ
ッサを有する並列リレーショナル・データベース環境内
で１つの共通フィールド上で２つのデータベース・リレ
ーションを結合する方法を提供する。この方法は、第１
のリレーションを多数のパーティションに区分し、第２
のリレーションを対応する多数のパーティションに区分
して、共通フィールド内の個々の値が、第２のリレーシ
ョンのパーティションの対応する１つに一義的に対応す
るようにし、それにより、それぞれが第１のリレーショ
ンのあるパーティションを第２のリレーションの対応す
るパーティションと結合するタスクから構成される、ジ
ョブの現集合を定義するものである。単一のプロセッサ
が各ジョブを完了するのに要する時間を推定し、これら
の推定値が、実行推定時間の現集合を形成する。

次に、ジョブ実行時間を、推定時間の合計をプロセッサ
の数で割った値以下の時間に短縮することが必要であ
る。これを行なうには、その推定実行時間が推定時間の
合計をプロセッサの数で割った値より大きいジョブに対
応するパーティションを再区分する。この再区分は、第
１のリレーションのそのようなパーティション、及び共
通フィールドに複数の異なる値を含む第２のリレーショ
ンの対応するパーティションを、少なくとも２つのより
小さいパーティションで置き換えることによって行な
う。共通フィールド内の個々の値は、第１のリレーショ
ンのより小さいパーティションの１つに一義的に対応
し、かつ第２のリレーションのより小さいパーティショ
ンの対応する１つに一義的に対応する。これにより、ジ
ョブの現集合内で置換ジョブが定義される。各置換ジョ
ブは、第１のリレーションのそのようなより小さなパー
ティションの１つを、第２のリレーションの対応するよ
り小さなパーティションと結合するタスクから構成され
る。第１のリレーションと第２のリレーションの対応す
るパーティションが、共通フィールド内に１つの値のみ
を含むどんなジョブに関しても、そのような対応するパ
ーティションの大きい方のものが、複数のより小さいパ
ーティションで置き換えられ、そのようなより小さいパ
ーティションの数は、そのようなジョブに関して、推定
実行時間に分割したとき、推定実行時間の合計値をプロ
セッサの数で割った値より小さい時間を与える、最小の
整数である。このようにして、各置換ジョブが、一方の
リレーションのより小さいパーティションの１つを、他
方のリレーションの未変更の対応するパーティションと
結合するタスクから構成される、置換ジョブが定義され
る。

パーティションの再区分過程が完了すると、置き換えら
れたジョブの推定実行時間を置換ジョブの推定実行時間
で置き換えることにより、推定実行時間の現集合が更新
される。この過程は、推定実行時間の合計値をプロセッ
サの数で割った値より大きな推定実行時間が、ジョブの
現集合内のどのジョブに対してもなくなるまで、繰り返
し実行される。

本発明の重要な部分は、プロセッサ割当ての細分であ
る。これは、最小メークスパン最適化技法を使用して、
プロセッサの間でジョブの現集合をスケジューリングす
ることによって行なう。プロセッサがスケジュール通り
にジョブの現集合を実行する場合に生ずるはずの完了時
間のスキュー量を推定する。この推定値を、スキュー標
準値と比較し、推定値が許容できる場合は、スケジュー
リングされたジョブの現集合がプロセッサ上で実行さ
れ、それにより、共通フィールド上の２つのデータベー
ス・リレーションを最小の完了時間スキュー値で結合す
る。

推定スキュー値がスキュー標準値に合致しない場合は、
第１のリレーション及び第２のリレーションの最大パー
ティションの１つが、少なくとも２つのより小さいパー
ティションで置き換えられて、置き換えられたパーティ
ションによって定義されるジョブに対する置換ジョブが
定義される。各置換ジョブは、第１のリレーションのよ
り小さな置換パーティションの１つを、第２のリレーシ
ョンの対応するより小さい置換パーティションと結合す
るタスクから構成される。次に、置き換えられたジョブ
の推定実行時間を置換ジョブの推定実行時間で置き換え
ることにより、推定実行時間の現集合が更新される。さ
らに、ジョブの現集合のスケジューリングが、推定完了
時間スキューが最小になるように更新される。完了時間
スキューの量が推定され、スキュー標準値と比較され
る。この過程は、スキュー量がスキュー標準値に合致す
るか、またはすべてのパーティションが所定の最大限度
に再区分されるまで、反復して繰り返される。

F.効果本発明は、ソート／マージ技法、及びハッシュ結合技法
によって、並列リレーショナル・データベース環境にお
いて、２つのリレーションの自然結合のための全実行時
間を最小にする効率的な技法を提供する。

【図面の簡単な説明】

第１図は、本発明による結合手順を実施できるマルチプ
ロセッサ・データベース・マシンの一般編成のブロック
図である。第２図は、データ・スキューの概念を図示するために使
用する３つのリレーションの例を示した図である。第３図は、本発明による結合操作の諸段階を示すハイ・
レベルのブロック図である。第４図は、本発明によるソート／マージ結合アルゴリズ
ムを使用する結合操作の第２段階の詳細を示す流れ図で
ある。第５図は、本発明の第１の態様でサブタスクがどのよう
により小さいサブタスクに分割されるかを示す図であ
る。第６図は、本発明による第１のハッシュ結合アルゴリズ
ムを使用した結合操作の第２段階の詳細を示す流れ図で
ある。第７図は、本発明による第２のハッシュ結合アルゴリズ
ムを使用した結合操作の第２段階の詳細を示す流れ図で
ある。第8A図及び第8B図は、本発明のハッシュ結合操作でサブ
タスクがどのように再割振りされるかを示す図である。

Claims

【特許請求の範囲】

【請求項１】Ｐ個のプロセッサを有する並列リレーショ
ナル・データベース環境内で共通フィールド上で２つの
データベース・リレーションを結合する方法であって、（ａ）共通フィールド内の各値が第１のリレーションの
パーティションの１つに一義的に対応し、かつ第２のリ
レーションのパーティションのそれと対応する１つに一
義的に対応するように、第１のリレーションを複数のパ
ーティションに区分しかつ第２のリレーションをそれら
に対応する複数のパーティションに区分し、それぞれが
第１のリレーションのパーティションを第２のリレーシ
ョンの対応するパーティションと結合するタスクから構
成されるジョブの現集合を定義する、区分ステップと、（ｂ）任意のプロセッサにおける最大実行時間を最小化
するように前記ジョブをスケジューリングする最小メー
クスパン最適化技法を使用して、Ｐ個のプロセッサ間で
前記ジョブの現集合をスケジューリングするステップ
と、（ｃ）Ｐ個のプロセッサが、ステップ（ｂ）でスケジュ
ーリングされたジョブの現集合を実行する場合に生ずる
はずの完了時間スキュー量を推定するステップと、（ｄ）推定スキュー量を標準スキュー量と比較するステ
ップと、（ｅ）推定スキュー量が標準スキュー量に適合する場合
は、最終的にスケジューリングされたものとして前記ジ
ョブの現集合をＰ個のプロセッサを使って実行し、それ
により前記２つのデータベース・リレーションを共通フ
ィールド上で最小の完了時間スキューで結合するステッ
プとを含む方法。
【請求項２】推定スキュー量が標準スキュー量に適合し
ない場合は、さらに（ｆ）第１及び第２のリレーションの最大パーティショ
ンの１つを少なくとも２つのより小さなパーティション
で置き換え、それにより、置き換えられたパーティショ
ンによって定義されるジョブについて、それぞれが第１
のリレーションのより小さい置換パーティションの１つ
を第２のリレーションの対応するより小さい置換パーテ
ィションと結合するタスクから構成される、置換ジョブ
を定義するステップと、（ｇ）置き換えられたジョブの推定実行時間を、置換ジ
ョブの推定実行時間で置き換えることにより、推定実行
時間の現集合を更新するステップと、（ｈ）完了時間スキュー推定値が最小になるように、Ｐ
個のプロセッサの間でのジョブの現集合のスケジューリ
ングを更新するステップと、（ｉ）Ｐ個のプロセッサが、ステップ（ｈ）でスケジュ
ーリングされたジョブの現集合を実行する場合に生ずる
はずの完了時間スキュー量を推定するステップと、（ｊ）ステップ（ｉ）で推定された完了時間スキュー量
を標準スキュー量と比較するステップと、（ｋ）ステップ（ｊ）でスキュー量が標準スキュー量に
適合するか、またはすべてのパーティションが所定の最
大限度まで再区分されてしまうまで、ステップ（ｅ）な
いし（ｊ）を繰り返し実行するステップとを含む、請求項１に記載の方法。
【請求項３】区分ステップがさらに、（ｌ）単一のプロセッサが前記ジョブのそれぞれを実行
するのにかかる時間を推定し、前記推定値が推定実行時
間の現集合を形成するステップと、（ｍ）その推定実行時間が推定実行時間の合計をＰで割
った値より大きいジョブに対応するパーティションを再
区分するステップと、（ｎ）置き換えられたジョブの推定実行時間を、置換ジ
ョブの推定実行時間で置き換えることにより、推定実行
時間の現集合を更新するステップと、（ｏ）推定実行時間の合計をＰで割った値より大きな推
定実行時間が、ジョブの現集合内のどのジョブについて
もなくなるまで、ステップ（ｍ）及び（ｎ）を繰り返し
実行するステップとを含む、請求項２に記載の方法。
【請求項４】再区分ステップがさらに、（ｐ）共通フィールド内のそれぞれの値が第１のリレー
ションのより小さいパーティションの１つに一義的に対
応し、かつ第２のリレーションのより小さいパーティシ
ョンの対応する１つに一義的に対応するように、複数の
明確な値を含む第１のリレーションのパーティション、
及び第２のリレーションのそれと対応するパーティショ
ンを、少なくとも２つのより小さいパーティションで置
き換え、それにより、ジョブの現集合内のステップ
（ｐ）の任意ジョブについて、それぞれが第１のリレー
ションのそのようなより小さいパーティションの１つを
第２のリレーションの対応するより小さいパーティショ
ンと結合するタスクから構成される、置換ジョブを定義
するステップと、（ｑ）第１及び第２のリレーションの対応するパーティ
ションが共通フィールド内にただ１つの明確な値を含む
というジョブに関して、推定実行時間に分割したとき、
推定実行時間の合計をＰで割った値より小さい時間を与
える最小の整数をＸとして、そのような対応するパーテ
ィションのより大きいものをＸ個のより小さいパーティ
ションで置き換えて、それにより、ジョブの現集合内の
そのようなステップ（ｑ）のジョブについて、それぞれ
が一方のリレーションのＸ個のより小さいパーティショ
ンの１つを他方のリレーションの未変更の対応するパー
ティションと結合するタスクから構成される、置換ジョ
ブを定義するステップとを含む、請求項３に記載の方法。
【請求項５】V1及びV2が前記第１及び第２のリレーショ
ンの結合カラムのドメイン内の２つの値であり、V1＜V2
を満たす対（V1,V2）がタイプ１の対として定義され、V
1＝V2を満たす対（V1,V2）がタイプ２の対として定義さ
れ、さらにステップ（ｆ）の前に、（ｒ）少なくとも２つのより小さいパーティションで置
き換えるために、最大のタイプ１の対を選択するステッ
プと、（ｓ）タイプ１の対がない場合には、続いて、Ｐ個のプ
ロセッサを使って最後にスケジューリングされたジョブ
の現集合を実行し、それにより、前記の２つのデータベ
ース・リレーションを共通フィールド上で最小の完了時
間スキュー量で結合するステップとを含む、請求項２に記載の方法。
【請求項６】V1及びV2が前記第１および第２のリレーシ
ョンの結合カラムのドメイン内の２つの値であり、V1＜
V2を満たす対（V1,V2）がタイプ１の対として定義さ
れ、V1＝V2を満たす対（V1,V2）がタイプ２の対として
定義され、ステップ（ｍ）で前記ジョブの１つの推定時
間が合計実行時間の1/Pより大きいときは、さらに（ｔ）前記の１つのジョブがタイプ１の対であるかどう
か判定するステップと、（ｕ）タイプ１の対である場合には、それを、１つがタ
イプ２である少なくとも２つのパーティションで置き換
えるステップと、を含む、請求項３に記載の方法。
【請求項７】前記の１つのジョブがタイプ２の対である
場合には、次いで（ｖ）タイプ２の対の多重度を増加できるかどうかを判
定するステップと、（ｗ）その多重度を増加できる場合には、最小の多重度
を見つけ、ジョブの現集合を改訂するステップと、を実行する、請求項６に記載の方法。
【請求項８】タイプ２の対の多重度を増加できない場合
には、（ｘ）タイプ２の対を多重度Ｐをもつように割り当てる
ステップと、（ｙ）Ｐ個のジョブのそれぞれを異なるプロセッサに割
り当てるステップと、を実行する、請求項７に記載の方法。
【請求項９】ステップ（ａ）が、２つのハッンュ関数H1
及びH2を使用する階層的二重ハッシュ処理技法によって
実行され、その際に、H2は、H1によって作成された各ハ
ッシュ・パーティションをさらにより小さなパーティシ
ョンに分割するために使用される、請求項１に記載の方
法。
【請求項１０】結合操作においてステップ（ｅ）の間に
前記プロセッサの進行状況を監視し、結合操作の進行
が、所定のしきい値を超えてバランスを失った場合に、
ステップ（ｂ）ないし（ｄ）を反復するという、請求項
１に記載の方法。