JPH03126169A

JPH03126169A - データベース・リレーシヨンの結合方法

Info

Publication number: JPH03126169A
Application number: JP2217257A
Authority: JP
Inventors: Daniel M Dias; ダニエル・マニユエル・デイアズ; Joel L Wolf; ジヨエル・レオナード・ウオルフ; Philip S Yu; フイリツプ・シーラング・ユ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-10-05
Filing date: 1990-08-20
Publication date: 1991-05-29
Anticipated expiration: 2010-11-29
Also published as: EP0421408B1; EP0421408A3; US5121494A; JPH07111718B2; EP0421408A2; DE69030228T2; DE69030228D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は、一般に、マルチプロセッサ環境でのリレーシ
ーナル・データベースの管理に関し、より具体的には、
結合操作を別々のジョブに区分し、それらのジョブを複
数のプロセッサ間で最適にスケジューリングすることに
より、データ・スキューの存在下で並列リレーシロナル
・データベース環境にある共通フィールド上の２つのデ
ータベース・リレーションを結合することに関する。

Ｂ、従来の技術各種リレーシロナル・データベースのシステムにおける
共通の操作は、共通ドメインで定義されたそれぞれのカ
ラム上の２つのリレーションの自然結合である。たとえ
ば、Ｃ，デー）　（Ｄａｔｅ）著、”Ａｎ　Ｉｎｔｒｏ
ｄｕｃｔｉｏｎ　ｔｏ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅ
ｍｓ　１ｖＯ１，１、第３版、Ａｄｄｉｓｏｎ−ＩＪｅ
ｓｌｅｙ社刊（１８８２年）のＩ）ｐ、２０９〜２１０
にある自然結合の説明を参照されたい。結合の結果、各
行が、元のそれぞれのりレージ鯉ンから１行ずつ、共に
当該の結合カラム内で同じ値をもつ２つの行の連結であ
る、新しいリレーションが得られる。

２つのりレージ績ンの結合を計算するためのよく使用さ
れるアルゴリズムは、Ｍ、ブラスゲン（Ｂｌａｓｇｅｎ
）及びに、エスワラン（Ｅｓｗａｒａｎ　）の論文”Ｓ
ｔｏｒａｇｅ　ａｎｄ　Ａｃｃｅｓｓ　ｉｎ　Ｒｅ１ａ
ｔｉｏｎａｌＤａｔａｂａｓｅｓ　　ｓ　　ＩＢＭ　　
Ｓｙｓｔｅｍｓ　　Ｊｏｕｒｎａｌｌ　Ｖ　ｏ　　ｌ　
　、　　４　ｓｐｐ、３８３以降（１９７７年）に記載
されているようなソート／マージ技法である。それは、
次のように簡潔に要約することができる。まず（必要が
あれば）それぞれのりレージ１ンが結合カラムに従って
ソートされる。第２に、２つのソートされたリレーショ
ンが、明白なインタロック・シーケンスで走査され、等
しい値をもつ行についてマージされる。

ソート／マージ結合が、マルチプロセッサ・データベー
ス・システム上で並列に実行されるときは、リレーショ
ンの結合カラム内にデータ・スキューが生じるという問
題がある。一般的に、スキューの問題は、上記文献に記
載された結合アルゴリズムによっては解決されない。並
列ソート／マージ結合に関する初期の論文には、Ｄ、ビ
トン（Ｂｉｔｔｏｎ）　、ｈ　Ｈ、ボラル（Ｂｏｒａｌ
）、Ｄ、Ｊ、デウィッ）　（Ｄｅｌ／ｆｔｔ）　、Ｗ、
　Ｋ　、ウィルキンソンＣＶｉｌｋｉｎｓｏｎ）の論文
”Ｐａｒａｌｌｅｌ　Ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　
ｔｈｅ　Ｅｘｅｃｕｔｉｏｎｏｆ　Ｒｅ１ａｔｉｏｎａ
ｌ　Ｄａｔａｂａｓｅ　０ｐｅｒａｔｉｏｎｓ”ＩＡＣ
Ｍ　Ｔｒａｎｓ。

ｏｎ　Ｄａｔａｂａｓｅ　５ｙｓｔｅ＋５ｓ１Ｖ　ｏ　
ｌ　、　８、Ｎ０１３．１８８３年９月、Ｉ）１）、３
２４〜３５３がある。

上記論文では、２つの外部並列ソート・アルゴリズムが
提案され、それらは並列２進マージ及びブロック・ビッ
トニック・ソートと呼ばれている。

どちらのアルゴリズムでも、ソートされたランをディス
クに書き込み、ツー・ウェイ・マージを使って、ディス
クからランをマージする。マージ・ツリーが、異なるプ
ロセッサにマツプされ、最終マージはシーケンシャルと
なる。

Ｐ、バルドゥリエス（Ｖａｌｄｕｒｆｅｚ）及びＧ、ガ
ルダリン（Ｇａｒｄａｒｆｎ　）の論文″Ｊｏｉｎ　ａ
ｎｄＳｅ＋＊１ｊｏｉｎ　　Ａ１ｇｏｒｉｔｈ＋＊ｓ　
　ｆｏｒ　　ａ　　ＭｕｌｔｉｐｒｏｃｅｓｓｏｒＤａ
ｔａｂａｓｅ　Ｍａｃｈｉｎｅ　、　ＡＣＭ　Ｔｒａｎ
ｓ、　ｏｎ　ＤａｔａｂａｓｅＭａｃｈｉｎｅｓｌＶ　
ｏ　１　、９、ＮＯ４１，１９８４年３月、ｐｐ、１３
３〜ＩＥＩＩに！ｔ、ｋウェイ・マージに一般化された
アルゴリズムが記載されている。

その結果、単１プロセッサ上でシーケンシャルにマー’
）さｔＬる９個（ｐくｋと仮定する）のリストが得られ
る。

Ｊ、Ｐ、　　リチャードソン（Ｒｉｃｈａｒｄｓｏｎ）
　、Ｈ。

ルー（Ｌｕ）　、Ｋ、　　ミッキリネニ（Ｍｉｋｋｉｌ
ｉｎｅｎｉ）の論文”Ｄｅｓｉｇｎ　ａｎｄ　Ｅｖａｌ
ｕａｔｉｏｎ　ｏｆ　ＰａｒａｌｌｅｌＰｉｐｅｌｉｎ
ｅｄ　　Ｊｏｉｎ　　Ａ１ｇｏｒｉｔｈｍｓ″、　ＡＣ
Ｍ　　５ＩＧＩ４０Ｄ　　１９８７、サンフランシスコ
、１９８７年５月、ｐｐ、ｉｓＯ〜１６９には、マージ
／結合操作を並列化する方法が記載されている。この方
法では、リレーションＴＩ及びＴ２が、ｍｌ及びｍ２個
のランにマージされる。ＴＩが大きい方のリレーション
であると仮定すると、Ｔ１の各ランが１つのプロセッサ
に割り当てられる。各プロセッサは、Ｔ２のｍ２個のラ
ンをマージしくすなわち、Ｔ２の最終マージが、少なく
ともプロセッサの数と同じ回数だけ繰り返される）その
プロセッサに割り当てられたＴ１のランとマージ／結合
する。この方法は、結合される２つのリレーションの射
影の一方がきわめて小さいようなときには、うまく働く
。上記論文には、１つのリレーションが小さい場合に有
用な別のアルゴリズムも記載されている。

Ｓ、Ｇ、アクル（＾ｋｌ）及びＮ、サントロ（ｓａｎｔ
ｏｒｏ　）の論文”０ｐｔｉｉ＋ａｌ　Ｐａｒａｌｌｅ
ｌ　Ｍｅｒｇｉｎｇａｎｄ　　Ｓｏｒｔｉｎｇ　　Ｗｉ
ｔｈｏｕｔ　　Ｉ（ｅｍｏｒｙ　　Ｃｏｎｆｌｆｃｔｓ
”１　ＩＥＥＥＴｒａｎｓ、　　ｏｎ　　Ｃｏ１ｚｐ、
１　Ｖｏ　　ｌ　　、　　Ｃ−３８ｓ　　Ｎｏ、　　　
１１．１９８７年１１月、ｐｐ、１３８７〜１３ｅ９に
は、２つのソートされたリストを、各リストを区分する
ことにより並列にマージすることが考察されている。

２つのリレーションの結合を計算するための別のよく使
用されるアルゴリズムは、Ｄ、Ｊ、デウイット、Ｒ，Ｈ
，ガーバー（Ｇｅｒｂｅｒ）　、Ｇ、グレーフｓ　（Ｇ
ｒａｅｆｅ）　、Ｍ、　Ｌ、　ヘイテンス（Ｈｅｙｔｅ
ｎｓ）　、Ｋ、　Ｂ、フマル（にｕｍａｒ）　、Ｍ、マ
ラリクリシニナ（Ｍａｒａｌｉｋｒｉｓｈｎａ　）の論
文”Ｍｕｌｔｉ−ｐｒｏｃｅｓｓｏｒ　　Ｈａｓｈ−ｂ
ａｓｅｄ　　Ｊｏｉｎ　　Ａｌｇｏｒｉｔｈｍｓ　　１
　Ｐｒｏｃ。

１１ｔｈ　ＶＬＤＢ　（１９８５年）に記載されている
ハツシュ結合技法である。マルチプロセッサ・システム
に関しては、ハツシュ結合技法は次のように簡潔に要約
できる。まず、両方のリレーションを、結合カラムに応
じて（必要があれば）ハツシュ・パーティションにハツ
シュする。ハツシュ・パーティションの数は、一般に、
プロセ、すの数に等しくセットされる。次に、ハツシュ
・パーティションを、２つのりレージジンの対応するパ
ーティシ。

ンが同一プロセッサ上に存在するように、プロセッサ間
に分配する。第２に、２つのリレーションの対応スるハ
ツシュ・パーティションを１つに結合する。

結合照会の性能は、マルチプロセッサの使用によってス
ピードアップできることもあるが、この種の従来型結合
アルゴリズムによるスピードアップは、Ｍ、Ｓ、ラフシ
ュミー（Ｌａｋｓｈｍｉ　）及びＰ。

Ｓ、−Ｌ−（Ｙｕ）の論文″Ｅｆｆｅｃｔ　ｏｆ　５ｋ
ｅｖ　ｏｎ　ＪｏｉｎＰｅｒｆｏｒｍａｎｃｅ　ｉｎ　
Ｐａｒａｌｌｅｌ　Ａｒｃｈｉｔｅｃｔｕｒｅｓ”１Ｐ
ｒｏｃ。

Ｉｎｔ１、　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｄａｔａｂａ
ｓｅｓ　ｉｎ　Ｐａｒａｌｌｅｌ　ａｎｄＤｉｓｔｒｉ
ｂｕｔｅｄ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍｓ　（１
９８８年）に記載されているように、データ・スキュー
が存在する場合はきわめて限られている。Ｄ、Ａ、シュ
ナイダ−（ｓｃｈｎｅｉｄｅｒ　）及びり、Ｊ、デウイ
ットの論文″Ａ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｅｖａｌｕ
ａｔｉｏｎ　ｏｆ　ＦｏｕｒＰａｒａｌｌｅｌ　Ｊｏｉ
ｎ　Ａｌｇｏｒｉｔｈｍｓ　ｉｎ　ａ　Ｓｈａｒｅｄ−
ＮｏｔｈｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ　　Ｅｎ
ｖｉｒｏｎｍｅｎｔｌ′１　Ｐｒｏｃ、　　ＡＣ！Ｓｉ
ｇｍｏｄ　Ｃｏｎｆｅｒｅｎｃｅ　（１９８９年）では
、４つの並列結合アルゴリズムの性能を評価している。

上記論文では、データ・スキューが高い場合には、ハツ
シュ結合以外のアルゴリズムを考える必要があると示唆
している。Ｒ，Ｃ，ツー（Ｈｕ）及びＲｏＲ，ムン′ン
（Ｍｕｎｔｚ　）の論文”Ｒｅｍｏｖｉｎｇ　５ｋｅｖ
Ｅｆｆｅｃｔ　ｉｎ　Ｊｏｉｎ　０ｐｅｒａｔｉｏｎ　
ｏｎ　ＰａｒａｌｌｅｌＰｒｏｃｅｓｓｏｒｓ　　ｓ　
Ｔｅｃｈｎｉｃａｌ　　Ｒｅｐｏｒｔ　ＣＳＤ−８９０
０２７ｗ　　ＵＣＬＡ（１９８９年）には、最大スキュ
ー要素を特定し、それを処理するために複数のプロセッ
サを割り当てる単純なハツシュ結合アルゴリズムを提案
している。

Ｃ０発明が解決しようとする課題したがって、本発明の目的は、ソート／マージ技法、及
びハツシュ結合技法によって、並列リレーシ四ナル・デ
ータベース環境において２つのリレーションの自然結合
のための全実行時間を最小にする効率的な技法を提供す
ることである。

本発明の別の目的は、２つのリレーションの結合カラム
内に存在しうるデータ・スキューを効率的に処理する、
マルチプロセッサ・データベース・マシン上で動作する
ソート／マージ技法及びハツシュ結合技法を提供するこ
とである。

００課題を解決するための手段本発明の広義の教示によれば、結合操作は３段階で実行
されるが、任意選択として第４段階を伴うこともある。

第１段階は準備段階であり、その詳細は使用する基礎的
結合アルゴリズムに応じて変わってくる。この準備段階
は、前処理を行ない、その結果は、最終結合操作用のサ
ブタスクを定義するための基礎として以降の段階で使用
される。

第１段階で提供されたデータを第２段階で使ってサブタ
スクを定義し、データ・スキューが存在する場合でも最
終結合操作での各プロセッサの負荷がほぼ等しくなるよ
うに、これらのサブタスクを異なるプロセッサに最適に
割り当てる。この第２段階は、本発明にとって最重要な
割当て段階である。第２段階の詳細は、基礎的結合アル
ゴリズムが異なれば異なってくる。しかし、第２段階で
、サブタスクを定義し割り当てる一般的方法は、基礎と
なるアルゴリズムが異なっても類似している。

第２段階でサブタスクの定義及び割当てを完了すると、
処理のための割当て、及び第３段階における２つのリレ
ーションの最終的結合に応じて、データがプロセッサの
間で発送される。最終結合操作でどんな方法を使用する
かは、使用する基礎的結合アルゴリズムによって決まる
。任意選択として、第３段階で実行される実際の結合中
に結合操作のバランスがくずれた場合には、サブタスク
の動的再割当てがありうる。

前述したように、結合操作は、異なる基礎的結合方法を
使用して実施できる。本発明の第１の態様では、多重プ
ロセッサ伽データベース・システム上での並列なソート
／マージ結合に基づく方法を記述する。第１段階では、
第１及び第２のりレージョブカ、フロセッサの数に対応
する数の集合に区分され、結合されるカラム上でソート
される。

第１段階からのこのソートされたデータが、第２段階に
提供される。第２段階では、第１段階からのソートされ
たデータが、サブタスクを定義するため様々なレンジ及
び多重度に再区分され、各サブタスクは１つのレンジの
パーティシ緩ンからのデータを結合する。１つのプロセ
ッサが各サブタスクを実行するのに要する時間を推定し
、数個のプロセッサ間のソート操作のバランスをとるた
めに必要なだけパーティシ目ンをさらに分割する。

最小メークスパン最適化技法に従って、シロブをプロセ
ッサ間でスケジューリングする。このアルゴリズムは、
プロセッサ間でのジョブのスケジユーリングを推定スキ
ューに基づいて更新することにより、２つのリレーショ
ンの結合カラム内に存在しうるデータ・スキューを効率
的に処理する。

本発明の第２の態様では、マルチプロセッサ・データベ
ース・システム上での並列なハツシュ結合アルゴリズム
に基づく方法を記述する。この技法は、データ・スキュ
ーを処理するために特別に設計されている。ここに提案
するアルゴリズムは、階層ハツシュ処理のコンセプトに
基づいている。

階層ハツシュ処理を最小メークスパン最適化アルゴリズ
ムと組み合わせて、ハツシュ・パーティションを繰り返
し分割し、また複数のプロセッサ内で均等にハツシュ・
パーティションの割当てを行なう。この解析の一環とし
て、あるパーティションのサイズによって、負荷のバラ
ンスが望ましい状態より悪化したとき、区分操作を改善
する。この評価段階中は、実際のハツシュ処理は実行さ
れない。その代りに、最適のハツシュ処理が後に実行で
きるように、各レベルでのハツシュ処理の有益性を評価
する。

Ｅ、実施例以下の説明では、話を簡単にするために、マルチプロセ
ッサ・データベース・マシン内の各プロセッサは同じ計
算能力をもつと仮定する。その他の点での並列データベ
ース・アーキテクチャの性質は、本発明にとって余り重
要ではない。図面、特に第１図を参照すると、マルチプ
ロセッサ・データベース・マシンの一般的編成のブロッ
ク・ダイヤグラムが図示されている。Ｐ個のプロセッサ
１０１ないしＬｏｐが、インクコネクト・ネットワーク
１２を介して互いにリンクされている。これらのプロセ
ッサは、インクコネクト・ネットワークエ２を介してデ
ータを変換する。各種プロセッサをインクコネクトする
ためにどんな方法を使用するかは、その方法が当面のタ
スクに対して十分な帯域幅をもっているかぎり重要では
ない。このデータベース・マシンはまた、２次記憶のた
めに通常の磁気ディスク装置１８［ないし１８ｐｏを使
用象　　　　　　　　　　　　　Ｐする。ソートまたは結合されるリレーションは、これら
の磁気ディスク装置上に記憶される。

結合属性がとる値の分布は、結合操作の実行時間に対し
て相当な影響をもつ。多くのデータベースでは、１つの
属性に対しである値が他の値より頻繁に発生し、その結
果スキューのある分布が生じる。第２図に示した３つの
リレーション、ＣＵＳＴＯＭＥＲ８，０ＲＤＥＲ８１Ｓ
ＵＰＰＬＩＥＲ８を考えてみる。ＣＵＳＴＯＭＥＲＳリ
レーション上のカストマＩＤは一義的な値をとるが、０
ＲＤＥＲＳリレーシｅン上の同じ属性は非−義的な値を
とることができる。というのは、カストマが複数の品目
を注文する場合があるからである。さらに、所与の品目
を複数のカストマが注文することがあり、複数の供給者
が１つの品目を供給することもありうる。

その注文が未処理のすべてのカストマをリストするため
に必要な照会があると、０ＲＤＥＲＳリレーシｅンとＣ
ＵＳＴＯＭＥＲＳリレーションがカストマＩＤカラム上
で結合されて、単一のスキューをもつ結合を生ずる。未
処理の注文を満たすことのできるすべての供給者をリス
トするために必要な照会が行なわれると、０ＲＤＥＲＳ
リレーシジンと５ＵＰＰＬ　Ｉ　ＥＲＳリレーシ式ンカ
品目カラム上で結合されて、二重スキューをもつ結合を
生ずる。単一スキュー及び二重スキューという用語は、
一方または両方のリレーションの結合属性がスキューの
ある分布をもつことを表すために使用する。

本発明による結合操作は、第３図に示したように、３つ
の段階と、任意選択として第４の段階をもつ。段階１は
準備段階であり、本発明のすべての態様に共通である。

ただし、この段階の詳細は、使用する基礎的結合アルゴ
リズムに応じて変わってくる。この段階については、２
つの基礎的結合アルゴリズムに関してより詳細に説明す
る。具体的には、まず本発明のソート／マージに基づ〈
実施例に関して段階１を説明し、次に、本発明のハツシ
ュに基づ〈実施例に関して段階１を説明する。

段階１の準備フェーズでは前処理を行ない、その結果を
、段階３の最終結合操作用のサブタスク定義のための基
礎として段階２で使用する。より具体的には、段階１で
提供されるデータを使ってサブタスクを定義し、データ
・スキューが存在する場合でも段階３の最終結合操作で
プロセッサの負荷がほぼ等しくなるように、これらのサ
ブタスクを異なるプロセッサに最適に割り振る。このよ
うに、段階２は割当て段階であり、本発明にとって最も
重要なものである。以下の説明では、ソート／マージ、
及び本発明のハツシュに基づく２つの実施例に関して、
段階２に含まれる諸ステップを詳細に説明する。

段階２でサブタスクの定義及び割当てが完了すると、結
合されるリレーションのパーティションが、段階３で２
つのりレージ鯉ンを処理し最終的に結合するために、割
り当てられたプロセッサに発送される。最終的結合操作
でどんな方法を使用するかは、基礎的結合方法に応じて
決まる。任意選択として、段階４は、プロセッサがその
進行状況を報告するものである。段階２での割当ては、
サブタスク時間の推定値に基づくので、段階３で開始さ
れる結合操作のバランスがくずれることがありうる。こ
のアンバランスが所定のしきい値を超えた場合、段階２
の割当てを、任意選択として動的に変更することもでき
る。

これから説明する本発明の第１の態様は、ソート／マー
ジ結合アルゴリズムに基づく基礎的結合方法に関するも
のである。リレーションＲ３がＮ。

行を含み、リレーションＲ２がＮ２行を含むと仮定する
。Ｐはデータベース・システム内のプロセッサの数を表
す。

本発明の第１段階では、Ｒｔの１組の行を、できるだけ
均等に、１組がほぼＮ　ｓ　／　Ｐ行からなるＰ組に区
分する。言いかえると、パーティシ１ン次に各プロセッ
サに、ソートすべきパーティシ。

ンの１つを与える。各プロセッサは、はぼ等しい時間で
、各自のタスクを完了しなければならない。

第２のリレーションも同様にソートする。この段階の終
了時には、Ｐ個のソートされたｒラン」が２組ある。

本発明の第２段階を導入するために、結合カラムのドメ
イン内の２つの値をＶ１、Ｖ２　ＣＶｓ≦Ｖ　２　）と
する。２Ｐ個のソートされたランのどれか１つ、たとえ
ばリレーションｌε（１，２）とプロセッサｊε（１，
１、１、Ｐ）に対応するランが与えられているものとす
ると、区間［Ｖ　ｌ−Ｖ　２　］内にソート・カラム値
をもつすべての行からなる明確に定義された（恐らく空
の）連続する部分集合ρｌＪ、Ｖ１．Ｖ２が存在する０
ρＩＪ、Ｖ１、Ｖ２のそれぞれを最終ソート及びマージ
のために単一プロセッサに発送すると、結合操作の残り
の部分全体の独立サブタスクτ’Ｖ１．Ｖ２が得られる
。ここで上付き文字は、単一のプロセッサが関与してい
ることを強調するためのものである。このことの意味は
、以下の説明で明らかになる。このサブタスクを実行す
るのにかかる時間はＴ’Ｖ１．Ｖ２＝Ａ　（Ｉ　ｔ＋　
Ｉ２）　＋ＢＯと推定される。ここではＲ１からの入力の行数、０はＲ１とＲ２のマージから
の出力の行数、ＡとＢは既知の定数である。

各ρ、１．ｖ□、Ｖ□の値が、Ｖｌとｖ２の間の基礎ド
メイン内のＤＶ１、Ｖ２個の要素にわたって均等に分配
されていると仮定すると、ｏ＝ｔｌＩ２’Ｉ）Ｖ１、Ｖ
２を計算することができる。

Ｖｌ＜Ｖ２という特別の場合には、Ｏの計算は単に推定
値になる。Ｖｌ＜Ｖ２を満たす対（Ｖｔ、　Ｖ２）をタ
イプ１の対と呼ぶ。ｖＩ＝Ｖ２という特別の場合には、
０の式は０　”　Ｉ　ＩＩ　２に簡約される。事実、出
力は２つの入力のちょうど外積であり、したがって、こ
の式は、この場合厳密に正確である。ｖ１＝ｖ２を満た
す対（Ｖ　ｔ　＝　Ｖ　２　）をタイプ２の対と呼ぶ。

実際に、タイプ２の対では、■＝Ｖ１＝ｖ２とすると、
さらに、２つの集合の大きい方をできるだけ均等にＭ個（ただし、１≦Ｍ；
！ｉＰ）の行の集合に区分し、さらに小さい独立サブタ
スクτ’Ｖ１．Ｖ２＋　−１，＊　　τ’Ｖ１．Ｖ２を
作成できる可能性を考えることができる。サブタスクτ
′″ＶＬＶ２ｗ　ｍ　　（Ｌ　１、、＊　Ｍ）では、小
さい方の集合と大きい方の集合のｍ番目のパーティショ
ンとの外積が単一プロセッサ上で実行される。たとえば
、第１のリレーションの方が大きい行数を含むと仮定す
ると、このサブタスクを実行するのにかかる時間は、Ｔ
”ＶＩ、Ｖ２＝Ａ　（Ｉ”ｌ＋　Ｉ２）　＋ＢＩ’″□
Ｉ２となる。ここで、Ｉ”ｌはｍ番目のノ（−ティジョ
ン内の行数である。Ｍ個のサブタスクをそれぞれ異なる
プロセッサで実行すべきであるとは主張しないが、実際
にはそうなる可能性が大きい。明らかに、Ｍ〉１個のサ
ブタスクを実行するのは、１つのサブタスクを実行する
よりも効率が低い。というのは、小さい方のりレージ騨
ン（この場合にはＲ２）からの入力を、関係する各プロ
セッサに発送しなければならないからである。過剰なス
キューを処理するために、この手法を利用しているにす
ぎない。タイプ２の対（Ｖ　ｓ　、　Ｖ　２　）は、多
重度Ｍをもつと言う。タイプ１の対（ｖｌ。

Ｖ　２　）は、多重度１をもつと言う。

次に一般的手法について述べる。結合カラムのドメイン
内の対応する多重度をもつに対の値の順序シーケンスを
作成するものと仮定する。このシーケンスは、次の形を
もつ。

ＶＢ、　１　ｆａ　Ｖ１、２＜１、、　＜　Ｖｍ−１，
１：ａ　Ｖｋ−ｓ、２≦Ｖｋ、　ｔ≦Ｖｈ、２＜Ｖｈ＋
１．１≦Ｖ＋ｃＢ、２＜１、、くＶ１、１≦Ｖｈ、２Ｒ１とＲ２の結合カラム内の各値は、区間［Ｖｈ、＋。

■３．２コの１つ内に収まることが必要である。ｋ（１
ｔ　−０−ｔ　ｋ　）　ニツイテ、対（Ｖｈ、ｔ、Ｖｈ
、２）の多重度をＭｋで表すことにする。Ｐ個のプロセ
ラτ”Ｖｋ、１．Ｖｋ、２を作成した。必束な全計算時
間は、コノ時間をプロセッサの間でできるだけ均等に分
配したい。「完全」な割当ては必ずしも可能ではないが
、それができれば、各プロセッサがとなるはずである。

具体的には、ジョブ全体の完了時間Ａ（τ”ｖ　　　、ｖ　　　）”ｐｋ、Ｉ　　　　ｋ、２が最小になるように、各サブタスクτＶｋ＋　Ｉｎ　Ｖ
ｋ＋　２をプロセッサＡ（τ”ｖｈ、＋、ｖｈ、２）に
割り当てたい。

この最適化問題は、いわゆる最小メークスパン問題、ま
たはマルチプロセッサ・スケジューリング問題である。

この問題はＮＰ完全であることが知られているが、最悪
の場合の性能がかなり良く、平均の性能が優れたいくつ
かのきわめて高速のヒユーリスティックスが存在する。

具体的には、ＬＰＴヒユーリスティックの説明について
は、Ｒ。

グレアム（Ｇｒａｈａｍ　）の論文″Ｂｏｕｎｄｓ　ｏ
ｎＭｕｌｔｉｐｒｏｃｅｓｓｆｎｇ　　Ｔｉｍｉｎｇ　
　Ａｎｏｍａｌｉｅｓ”ｓ　ＳＩＡＭＪｏｕｒｎａｌ　
　ｏｆ　　Ｃｏｍｐｕｔｉｎｇｌ　Ｖｏ　　１．　　１
　　？　、　１　９８９年、１）Ｉ）、４１８以降、Ｍ
ＵＬＴＩＦＩＴヒユーリスティックの説明については、
Ｅ、コツマン（Ｃｏｆｆｍａｎ）　、Ｍ、　ギャリー（
Ｇａｒｅｙ）　１Ｄ、　　Ｓ。

ジロンソン（Ｊｏｈｎｓｏｎ　）の論文”Ａｎ　Ａｐｐ
ｌｉｃａｔｉｏｎｏｆ　Ｂｉｎ　Ｐａｃｋｉｎｇ　ｔｏ
　Ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ　Ｓｃｈｅｄｕｌｉｎ
ｇ　ｓＳＩＡＭ　　Ｊｏｕｒｎａｌ　　ｏｆ　　Ｃｏｍ
ｐｕｔｆｎｇｌ　Ｖ　ｏ　　ｌ　　、　　７１　１　９
７８年、ｐｌ）−１以降を参照されたい。

もちろん、値の対の順序シーケンス、及び対応する多重
度をどのように作成するかは制御できる。

本発明の第２段階の目標は、この順序シーケンスを作成
するための分割統治法である。その１つの例は、第４図
の流れ図に示したアルゴリズムである。

第４図を参照すると、この方法は、まず機能ブロック２
０から始まり、そこで、Ｋ＝１に設定し、Ｖ１、、をＲ
１とＲ２の結合カラム内の最小値に設定し％　Ｖ１、２
を最大値に設定し、かつＭ、＝１に設定する。さらに、
そのサブタスクに対する時間を推定し、すべての現サブ
タスクのリストを維持し、推定サブタスク時間の順に並
べる。最初は、リスト上には１つの要素しかない。次に
、判断ブロック２２でテストを行なって、リスト中の最
大サブタスクの推定時間がリスト中のすべてのサブタス
クの推定時間の合計の１／Ｐ以下であるかどうか、言い
換えると、最大サブタスクが「適合」するかどうか判定
する。ＹＥＳの場合は、機能ブロック２４で、ＬＰＴま
たはＭＵＬＴＩＦＩＴアルゴリズムを実行する。どちら
のアルゴリズムでも、第１ステツプであり、かつ計算上
量も費用のかかるステップは、推定時間の順にサブタス
クを並べることである。これは、この場合にはすでに済
ませである。次に、判断ブロック２６でテストを行なっ
て、このメークスパンが、完全割当ての所定の乗算係数
１＋の範囲内にあるかどうか判定する。ＹＥＳの場合に
は、処理は停止する。そうでない場合は、判断ブロック
２８でテストを行なって、タイプ１の対があるかどうか
判定する。ＮＯの場合は、処理は停止する。そうでない
場合は、機能ブロック３０で、リスト中で最大のタイプ
１の対を選択する。次に、機能ブロック３２で、最大の
タイプ１の対（Ｖｈ、＋−Ｖｈ、２）を、次ノヨうに２
ないし３つの部分に分割する。Ｒ１には、Ｐ個のソート
された行ρＩＪ、Ｖ１．Ｖ２からなる合計１１個の要素
がある。Ｒ２には、Ｐ個のソートされた行ρ２Ｊ、Ｖ１
．Ｖ２からなる合計１２個の要素がある。合計で、合計
１１＋Ｉ２個の要素をもつ２Ｂ個のソートされた行が得
られる。２．ガリール（Ｇａｌｉｌ）及びＮ、メジラド
（Ｍｅｇｉｄｄｏ）の論文”ＡＦａｓｔＳｅｌｅｃｔｉ
ｏｎ　　Ａｌｇｏｒｉｔｈｍ　　ａｎｄ　　ｔｈｅ　　
Ｐｒｏｂｌｅｍ　　ｏｆＯｐｔｆｍｕｍ　Ｄｆｓｔｒｉ
ｂｕｔｉｏｎ　ｏｆ　Ｅｆｆｏｒｔ’ｓ　Ｊｏｕｒｎａ
ｌ　ｏｆｔｈｅ　ＡＣＭ、Ｖｏ　１．２Ｂ、１９７９年
、Ｉ）り−５８以降によるアルゴリズムで、この集合の
る。これは、いわゆる選択問題の特殊な場合である。事
実、このアルゴリズムは、各集合ρｌＪ、Ｖ１．Ｖ２を
３つの連続する（恐らく空の）領域、すなわちμより少
ない行からなるρＩＪ、　ｖｔ、　ｖ□と、μに等しい
行からなるρ〒Ｊ、Ｖ１．Ｖ□と、μより多い行からな
るρ？ＪＩＶ１．Ｖ２に分割する。こうして、１つのサ
ブタスクから３つのサブタスクが作成された。第１また
は第３サブタスクのどちらか一方が空でもよいが、両方
が空になることはない。どちらか一方がタイプ１または
タイプ２でありうる。

第２のサブタスクは空にはならず、多重度１のタイプ２
になる。第５図は、この方法を用いて、どのように１つ
の古いサブタスクからこれら３つの新しいサブタスクが
作成されるかを示している。

次に、Ｋを調整し、間隔を決定し、新しいサブタスクの
それぞれについて時間推定値を計算する。

出力の行数が、いずれかのサブタスクに関してＯである
と計算された場合には、そのサブタスクをリストから削
除することができる。２つのりレージジンの一方に対応
する部分は空であり、結合で何も生じない。

この時点で、判断ブロック３４でテストを行なって、サ
ブタスクのリストが空であるかどうか判定する。ＹＥＳ
の場合は、処理は停止する。そうでない場合は、機能ブ
ロック３６でサブタスクのリストの番号を付は直し、順
序を並べかえる。次に、判断ブロック２２に戻る。

判断ブロック２２のテストの結果がＮｏの場合は、判断
ブロック３８でさらにテストを行なって、サブタスクの
リスト中の最大要素がタイプ１のものであるかどうか判
定する。ＹＥＳの場合は、機能プロ、り３２に進む。そ
うでない場合は、判断ブロック４０でテストを行なって
、各サブタスクが適合するように、リスト中の最大サブ
タスクに対応するタイプ２の対の多重度を新しい多重度
Ｍ〈Ｐに増加させることが可能かどうか判定する。

ＹＥＳの場合は、最小のそのような多重度が見つかり、
機能ブロック４２で、サブタスクのリストを、この新し
い多重度を組み込むように改訂する。

さらに、Ｋを調整し、新しいサブタスクに対する推定時
間を計算してから、機能ブロック３６に進む。

判断ブロック４０のテストの結果がＮｏの場合は、機能
ブロック４４で、サブタスクが多重度Ｐをもつように割
り当て、Ｐ個のサブタスクのそれぞれを異なるプロセッ
サに割り当て、それらのサブタスクをリストから外す。

さらに、Ｋを調整する。除外されたＰ個のサブタスクは
、はぼ等しい時間で完了する。次に判断ブロック３４に
移る。

この方法は、多重度１の対に適したものであるが、過剰
なスキューを克服するため、それより高い多重度をも受
は入れることができる。これらの過剰なスキューの位置
は、アルゴリズムの実行中に自然にわかるはずである。

推定サブタスク時間モ、同様に、アルゴリズムの実行に
つれてますます正確になるはずである。上記テーマに関
しては多数の変形があり、それらも同様に実施できる。

たとえば、ＬＰＴまたはＭＵＬＴＩＦＩＴは、機能ブロ
ック２４を通るごとに実行する必要はない。

カウンタで、最小メークスパン争アルゴリズムの実行回
数を調節することができる。同様に、このアルゴリズム
は、たとえ解答が完全に満足なものでなくても、別のカ
ウンタに従ってタイム・アウトさせることができる。

第３図に示した段階３では、リレーションＲ。

とＲ２のソートされた要素集合をディスクから読み出し
、サブタスクに対応する要素集合を、割り当てられたプ
ロセッサに発送する。次に、最終結合操作を実行するた
め、割り当てられたプロセッサ上でサブタスクを実行す
る。

任意選択として、第３図の段階４に示すように、実際の
結合の進行中に、プロセッサが各自の進行状況を報告す
ることもできる。推定サブタスク時間は、ちょうどその
値なので、結合の進行がバランスを失うことがありうる
。このアンバランスが所定のしきい値を超えた場合に、
新しいＬＰＴまたはＭＵＬＴＩＦＩＴアルゴリズムを開
始することもできる。

本発明はまた、ハツシュ結合アルゴリズムに基づく方法
を使用し、第３図の段階１及び２の階層ハツシュ処理を
実施する二重ハツシュ処理技法を使用して実施すること
ができる。階層ハツシュ処理技法のその他の変形につい
ては後述する。二重ハツシュ処理は、スキュー値を特定
し、各プロセッサにおける結合コストのよりよい推定値
をもたらし、最終的には負荷のバランスをより均等にす
るために採用される。

第３図の第１段階では、まずそれぞれサイズがほぼＮ　
ｔ　／　Ｐ行のＲ８のほぼ等しいパーティションタ各ハ
ツシュ・パーティションをより小すいパーティションに
さらに分割するために使用する。Ｈｌは、行を８１個の
ハツシュ・パーティションにハツシュ処理でき、Ｂ２は
、これらのパーティションのそれぞれを８２個のより小
さいハツシュ・パーティションに細分できるものと仮定
する。各プロセッサｊについて、ＨＩのもとてその結合
カラムのハツシュ値がＨｌのに番目のハツシュ・パーテ
ィションに含まれ、Ｂ２のもとでのハツシュ値がＢ２の
ｍ番目のハツシュ・パーティションに含まれる行の数を
ｄ！、−（Ｒ１）とする。その行を、複合ハツシュ値（
ｋ、ｍ）をもつと言う。各プロセッサは、ディスクから
Ｒ８の要素集合を読み込み、どれだけの要素結合が、Ｈ
ＩとＢ２に基づいて細分割されたパーティションにハツ
シュ処理されるのかを記録するため、各プロセッサｊの
メイン・メモリ内にカウントｄ’に、−（Ｒｔ）（ｋ＝
１−　１、１、Ｂｔ、及びｍ”　１　ｔ　−−−ｐ　Ｂ
２）を維持する。これらのプロセッサは、はぼ等しい時
間で、それぞれのタスクを完了する必要がある。第２の
リレーションも同様にハツシュ処理されて、ｄ’に、ｍ
　（Ｒ２）を生ずる。この段階の終了時には、２組のカ
ウントｄ’に、＋ｍ　（Ｒｔ）　ｉ　＝　１　＊　２が
得られる。

第３図の第２段階の開始時に、ｄ’ｈ、−（Ｒｔ）が各
プロセッサにわたって加算されて、βｈ、−（Ｒｔ）　
　＝　　Σ　αｊ＊、　−（Ｒり１≦ｊ≦Ｐを得る。Ｈｌからの２ＰＢ１個のハツシュ・パーティシ
ョンのどれか１つ、たとえばリレーション１Ｅ（１，２
）、プロセッサｊε（１，１、１、Ｐ）に対応する１つ
のハツシュ・パーティション、及びハツシュａ　パーテ
ィションにε（１、１、１、Ｂｌ）が与えられ、かつ部
分集合Ｅζ（ｉｓ　１、１、　Ｂ２）が与えられている
ものとすると、複合ハツシュ値（ｋ＋ｍ）、ｍｅＥをも
つすべての行からなる明確に定義された（恐らく空の）
部分集合ρＩＪ＋に＋Ｅが存在する。ρｌ　Ｊ、　ｋ、
　Ｈのそれぞれを最終結合のために単一プロセッサに発
送すると、結合操作の残りの部分全体の独立サブタスク
τ１　ｈ、　Ｅが得られる。

ここで上付き文字は、単一のプロセッサが関与している
ことを強調するためのものである。このことの意味は間
もなく明らかになる。このサブタスクを実行するのにか
かる時間は、Ｔ”ｋ、Ｅ＝　Ａ　（Ｉ　ｔ＋Ｉ２）＋Ｂ
Ｏと推定される。ここではＲ５からの入力の行数、０はＲ１とＲ２のマージから
の出力の行数、ＡとＢは既知の定数である。

各ρＩＬｋ＋ｍ、ｍｅ　Ｅの値が、複合ハツシュ値（ｋ
。

ｍ）をもつ基礎ドメイン内のＤ　＊　、　ｍ個の要素に
わたって均等に分配されていると仮定できる場合には、０＝　Σβ＋＝、−（Ｒｔ）βｈ、−（Ｒ２）／Ｄｋ、
１朧εＥを計算することができる。

Ｅが単一の値、たとえばｍを含む場合には、さらに次の
２組の大きい方をできるだけ均等にＭ個（１＝Ｍ≦Ｐ）の行
の集合に区分し、さらに小さい独立サブタスクτ’に＊
（ｍ）＊−ｍ−９τ’に、　（ｍ）を作成できる可能性
を考えることができる。サブタスクτ’に＋　（＋＋＋
）　＊　　ｊ（１，１、１、Ｍ）では、小さい方の集合
と大きい方の集合のｊ番目のサブパーティションとの結
合が、単一プロセッサ上で実行される。たとえば、第１
のリレーションの方が大きい行数を含むと仮定すると、
このサブタスクを実行するのにかかる時間は、ＴＪｋ、
軸＞＝Ａ　（（Ｉ　ｔ／Ｍ）　＋　Ｉ２）　＋ＢＩＩＩ
２／Ｍとなる。Ｍ個のサブタスクのそれぞれを異なるプ
ロセッサ上で実行すべきであるとは主張しないが、実際
にはそうなる可能性が大きい。

明らかに、Ｍ〉１個のサブタスクを実行するのは、１つ
のサブタスクを実行するよりも効率が悪い。

＼というのは、小さい方のリレーション（この場合には
Ｒ２）からの入力を、関係する各プロセッサに発送しな
ければならないからである。過剰なスキューを処理する
ために、この手法を利用しているにすぎない。複合ハツ
シユ・パーティション（ｋ、（ｍ）　）は、多重度Ｍを
もつと言う。そうでない場合は、多重度１をもつと言う
。

次に、一般的手法について述べる。（Ｖｈ、ｘ−Ｖｍ、
２）の形のに対の順序シーケンスを作成するものと仮定
する。ここで、ｖｋ、１ε（１，１、、。

Ｂ＋）　、Ｖｍ、２Ｃ：（１，１、１、Ｂ２）　。Ｖｋ
、２がただ１つの要素を含む場合！！、（Ｖｋ、ｔ−Ｖ
ｈ、２）対をタイプ２の対と呼ぶ。そうでない場合は、
タイプ１の対と呼ぶ。各複合ハツシュ・クラス（ｉｓ　
Ｊ）について、ｉ：ｖｋ１、かつｊεＶｈ、２であるよ
うな独自のにε（１，１、１、ｋ）が存在しなければな
らないという意味で、複合ハツシュ・クラスの集合を区
分するためにに対のシーケンスが必要である。ｋ　ｅ　
（Ｌ　１、、ｗ　ｋ）　ニツイテ、対（Ｖｈ、ｔ−Ｖｋ
、２）の多重度をＮＬ＝で表すことにする。Ｐ個のプロ
セッサで実行されるサブタスクτＶ”ｌ　１＊　Ｖｋ＋
　２を作成した。必要な全計算時間は、この全計算時間をプロセッサの間でできるだけ均等に分
配したい。「完全な」割当ては必ずしも可能ではないが
、それができれば、各プロセッサがなるはずである。具
体的には、ジョブ全体の完了時間＾（τ”ｖ　　　、ｖ　　　）”ｐ諏、１　　　　ｋ、２が最小になるように、各サブタスクτ′″Ｖｋ、１．Ｖ
ｋ、２をプロセッサＡ（τ′″ｖｋ、　１．　ｖ＊、　
２　）に割り当てたい。

この問題はＮＰ完全であることが知られているが、最悪
の場合の性能がかなり良（、平均の性能が優れたいくつ
かのきわめて高速のヒユーリスティックスが存在する。

要は、値の対の順序シーケンス、及び対応する多重度を
どのように作成するかを制御できることである。本発明
の第２段階の目標は、この順序シーケンスを作成するた
めの分割統治法である。ここでは、段階２に進むための
可能な方法の例を２つ示す。

第１の方法は、グレアムによるＬＰＴヒユーリスティッ
クの変形を使用するものであり、第８図の流れ図に示さ
れている。第６図を参照すると、まず機能ブロック５０
で、集合（（ｋ、Ｆ）、に＝１．１、１、Ｂｌ）　、た
だしＦ＝　（１，１、１、Ｂ２）を、サブタスク値Ｔ’
ｍ、ｐに応じて降順でソートする。すべての現サブタス
クのリストを維持し、推定サブタスク時間の順に並べる
。次に、判断ブロック５２でテストを行なって、リスト
中の最大サブタスクの推定時間が、リスト中のすべての
サブタスクの推定時間の合計の１／Ｐ以下であるかどう
か、言い換えると、最大サブタスクが「適合」するかど
うか判定する。ＮＯの場合は、判断ブロック５４でテス
トを行なって、リスト中の最大要素がタイプ１のサブタ
スクであるかどうか判定する。

ＹＥＳの場合は、機能ブロック５Ｂで、最大タイプ１の
対（Ｖｋ、ｔ−Ｖｋ、２）　ｔｔソｔＬツレ多’ｌｉ度
ｔｌ　１のｃ　ａ　ｒ　ｄ　（Ｖｈ、２）個のタイプ２
の対に分割する。次に、機能ブロック５８で、サブタス
クのリストの番号を付は直し、サブタスクのリストの順
序を並べかえてから、判断ブロック５２に戻る。

判断ブロック５４のテストの結果がＮｏの場合には、判
断ブロックθ０でさらにテストを行なって、各サブタス
クが今度は適合するように、リスト中の最大サブタスク
に対応するタイプ２の対の多重度を新しい多重度Ｍ＜Ｐ
に増加させることが可能かどうか判定する。ＹＥＳの場
合は、最小のそのような多重度が見つかり、機能ブロッ
クθ２で、サブタスクのリストを、この新しい多重度を
組み込むように改訂する。さらに、ｋを調整し、新しい
サブタスクに対する推定時間を計算する。

次に、機能ブロック５８に進む。

判断ブロック８０のテストがＮＯの場合には、機能ブロ
ック６４で、サブタスクが多重度Ｐをもつように割り当
て、Ｐ個のサブタスクのそれぞれを異なるプロセッサに
割り当て、それらのサブタスクをリストから外す。また
ｋを調整する。除外されたＰ個のサブタスクは、はぼ等
しい時間で完了する。次に、判断ブロック６６でテスト
を行なって、サブタスクのリストが空であるかどうか判
定する。ＹＥＳの場合は、処理は終了する。そうでない
場合は、処理は機能ブロック５８に戻る。

判断ブロック５２のテストがＹＥＳの場合は、すべての
サブタスクが適合する。機能ブロック６８で、目標メー
タスパン時間ＴＡＲＧＥＴをリスト中のすべてのサブタ
スクの推定時間の合計の１／Ｐとして計算する。このＴ
ＡＲＧＥＴがこの場合は安定である点が重要である。以
後のステップでタイプ１の対をタイプ２の対に分割する
ことがあり得るが、推定時間の合計は変わらない。変形
ＬＰＴは以下のステップで実行される。

ＴＡＲＧＥＴと、あるプロセッサにすでに割り当てられ
たサブタスク時間の合計の差が最大であるプロセッサＰ
を考える。最大サブタスク（Ｖｈ、３．Ｖｍ、ｚ）がリ
スト上に残っているものと考える。判断ブロック７０で
テストを行なって、それがタイプ２のサブタスクである
かどうか判定する。ＹＥＳの場合は、機能ブロック７２
で、サブタスク（Ｖｈ、ｔ−Ｖｋ、２）をプロセッサＰ
に割り当て、そのサブタスクをリストから外す。次に、
判断ブロック８０でテストを行なって、サブタスクのリ
ストが空であるかどうか判定する。ＹＥＳの場合は、処
理は終了する。そうでない場合は、処理は判断ブロック
７０に戻る。

判断ブロック７０の判定がＮＯの場合は、判断ブロック
７８でテストを行なって、（Ｖｍ、１ｔＶｈ、２）がプ
ロセッサＰに割り当てられた場合、ＴＡＲＧＥＴとプロ
セッサＰに割り当てられたサブタスク時間の合計の改訂
された差が負になるかどうか判定する。ＮＯの場合は、
機能ブロック７２に移る。そうでない場合は、機能ブロ
ック７４テ、（ｖｋ、Ｉ、ｖｋ、２）カソレソレ多重度
が１（Ｄｃａ　ｒ　ｄ　（Ｖｈ、２）個のタイプ２の対
に分割される。

機能ブロック７６で、サブタスクのリストの番号を付は
直し、順序を並べかえてから、判断ブリ。

り７０に戻る。

結合技法の段階２用の第２のハツシュ結合アルゴリズム
は、第７図の流れ図に示されている。第４図の流れ図と
第７図の流れ図を比較するとわかるように、ソート／マ
ージ結合アルゴリズムとこのハツシュ結合アルゴリズム
では全体の論理は全く類似している。第７図を参照する
と、処理は機能ブロック９０から始まり、まず集合（（
ｋ。

Ｆ）、に＝１．・−Ｂｌ）、ただしＦ＝（１，−。

Ｂ２）、をとり、それらを、サブタスク値Ｔ’ｈ、ｐに
従って降順でソートする。すべての現サブタスクのリス
トを維持し、サブタスク推定時間の順に並べる。次に、
判断ブロック９２でテストを行なって、リスト中の最大
サブタスクの推定時間が、リスト中のすべてのサブタス
クの推定時間の合計の１／Ｐ以下であるかどうか、言い
換えると、最大サブタスクが「適合」するかどうか判定
する。ＹＥＳの場合は、機能ブロック９４で、Ｌ、ＰＴ
またはＭＵＬＴＩＦＩＴを実行する。この場合も、どち
らのアルゴリズムでも、第１ステツプであり、かつ計算
上量も費用のかかるステップは、推定時間の順にサブタ
スクを並べることである。これは、この場合にはすでに
済ませである。次に、判断ブロック９６でテストを行な
って、このメークスパンが、完全割当ての所定の乗算係
数１＋Δの範囲内にあるかどうか判定する。ＹＥＳの場
合は、処理は停止する。そうでない場合は、判断ブロッ
ク９８でテストを行なって、タイプ１の対が残っている
かどうか判定する。ＮＯの場合は、処理は停止する。そ
うでない場合は、機能ブロック１００で、リスト中の最
大のタイプ１０対を選択する。

次に、機能ブロック１０２で、最大のタイプ１の対（Ｖ
ｈ、ｓ−Ｖｈ、２）を次のように２つの対に分割する。

各要素ｍｅＶｋ、２について、対応するサブタスク時間
Ｔ’Ｖｈ、　ｒ、　（ｍ）が存在する。集合（ｒｙｋ１
、（１）　Ｉ　ｍ　ｇ　Ｖｍ、２）に対してＬＰＴまた
ｉｌＭＵＬＴＩＦＩＴを実行し、Ｖｋ、２ｔｔ合計推定
サブタスク時間がほぼ等しい２つの部分集合Ｖ’ｈ、２
とＶ２ｈ、２に分割する。新しいサブタスクのいずれか
が時間０であると推定される場合、そのサブタスクはリ
ストから削除できる。さらに、Ｋを調整する。別法とし
て、最大のタイプ１の対を、２とＶｉｔ、２の濃度の間
の任意の数Ｑのグループに分割することもできる。この
説明ではＱ＝２を選択した。判断ブロック１０４でテス
トを行なって、サブタスクのリストが空であるかどうか
判定する。

ＹＥＳの場合、処理は停止する。そうでない場合は、機
能ブロック１０Ｂでサブタスクのリストの番号を付は直
し、順序を並べかえてから、制御ブロック９２に戻る。

判断ブロック９２のテストの結果がＮＯの場合は、判断
ブロック１０８でテストを行なう工１、サブタスクのリ
スト中の最大要素がタイプ１のものであるかどうか判定
する。ＹＥＳの場合は、機能ブロック１０２に進む。そ
うでない場合は、判断ブロック１１０でテストを行なっ
て、各サブタスクが今度は適合するようにリスト中の最
大サブタスクに対応するタイプ２の対の多重度を新しい
多重度ＭＡＰに増加させることが可能かどうか判定する
。ＹＥＳの場合は、最小のそのような多重度が見つかり
、機能ブロック１１２で、サブタスクのリストを、この
新しい多重度を組み込むように改訂する。Ｋを調整し、
新しいサブタスクに対する推定時間を計算する。次に、
機能ブロック１０６に進む。判断ブロック１１０のテス
トの結果がＮＯの場合は、機能ブロック１１４で、サブ
タスクが多重度Ｐをもつように割り当て、Ｐ個のサブタ
スクのそれぞれを異なるプロセッサに割り当て、それら
のサブタスクをリストから外す。さらに、Ｋを調整する
。除外されたＰ個のサブタスクは、はぼ等しい時間で完
了する。次に、判断ブロック１０４に進む。

上述の方法には多数の変形があり、それも同様に実施で
きる。たとえば、どちらの方法でも、反復改良アルゴリ
ズムを終了時に適用することができる。この方法は、第
８図に示されている。この図で、ＧＯＡＬは、すべての
サブタスクの推定時間の合計の１／Ｐを表している。こ
の方法は、割り当てられたサブタスクの推定時間の合計
が最大のプロセッサＰをとり出すものである。プロセッ
サＰで、最大のタイプ１のサブタスク（ｖｋ、１．ｖｋ
、２）ヲトリ出シテ、それぞれ多重度が１のｃ　ａ　ｒ
　ｄ　（Ｖｈ、２）個のタイプ２の対に分割する。次に
、これらのタスクを、プロセッサに再度割り当てる。第
８図に示すように、最大のサブタスクが最初に再割当て
される。

第４図に示したソート／マージ結合アルゴリズムの段階
２と同様に、第７図に示した第２のハツシュ結合アルゴ
リズムに基づく段階２用のこの方法では、ＬＰＴまたは
ＭＵＬＴＩＦＩＴは、機能ブロック９４を通るごとに実
行する必要はない。

カウンタで、最小メークスパン・アルゴリズムの実行回
数を調節することができる。同様に、このアルゴリズム
は、たとえ解答が完全に満足なものでなくても、別のカ
ウンタに従ってタイム・アウトさせることができる。

第３図に示した段階３では、リレーションＲ１とＲ２の
要素集合をディスクから読み取り、ハツシュ関数Ｈ１と
Ｒ２を適用し、それらの要素集合を、段階２で決定され
た割り当てられたプロセッサに発送する。

任意選択として、第３図に示した段階４では、実際の結
合の進行中に、プロセッサが各自の進行状況を報告する
こともできる。推定サブタスク時間がちょうどその値な
ので、結合の進行がバランスを失うことがありうる。こ
のアンバランスが所定のしきい値を超えた場合に、新し
いＬＰＴまたはＭＵＬＴＩＦＩＴフルゴリズムを開始す
るとともできる。

この階層的ハツシュ処理コンセプトを実施する方法は多
数あることに留意されたい。１つの方法は、ハツシュ処
理を実行する際に、段階１で出会った各種の結合カラム
値上に最も頻繁に使用されるリストを保存するものであ
る。発生頻度も維持される。結合カラム値の発生率が所
定のしきい値より小さくなると、その結合カラムをリス
トから外す。別の方法は、ハツシュ処理を実行する際、
段階１の結合カラム値のサンプリングを実行するもので
ある。次に、最も頻繁に使用されるリストまたはサンプ
リング結果を使用して、スキュー分布を識別し、どのパ
ーティションをさらに区分するべきかを案内することも
できる。

要約すると、ソート／マージ・アルゴリズムまたはハツ
シュ結合アルゴリズムの使用に基づいて、複数のプロセ
ッサを有する並列リレーションル・データベース環境内
で１つの共通フィールド上で２つのデータベース・リレ
ーションを結合する方法を提供する。この方法は、第１
のりレージ１ンを多数のパーティションに区分し、第２
のリレーションを対応する多数のパーティションに区分
して、共通フィールド内の個々の値が、第２のリレーシ
ョンのパーティションの対応する１つに一義的に対応す
るようにし、それにより、それぞれが第１のリレーショ
ンのあるパーティションを第２のりレージｌンの対応す
るパーティションと結合するタスクから構成される、ジ
ョブの現集合を定義するものである。単一のプロセッサ
が各ジョブを完了するのに要する時間を推定し、これら
の推定値が、実行推定時間の現集合を形成する。

次に、ジ目ブ実行時間を、推定時間の合計をプロセッサ
の数で割った値以下の時間に短縮することが必要である
。これを行なうには、その推定実行時間が推定時間の合
計をプロセッサの数で割った値より大きいジ胃ブに対応
するパーティションを再区分する。この再区分は、第１
のリレーションのそのようなパーティション、及び共通
フィールドに複数の異なる値を含む第２のリレーション
の対応するパーティションを、少なくとも２つのより小
さいパーティションで置き換えることによって行なう。

共通フィールド内の個々の値は、第１のりレージジンの
より小さいパーティションの１つに一義的に始応し、か
つ第２のりレージジンのより小さいパーティションの対
応する１つに一義的に対応する。これにより、ジョブの
現集合内で置換ジョブが定義される。各置換ジョブは、
第１のりレージジンのそのようなより小さなパーティシ
ョンの１つを、第２のリレーションの対応するより小さ
なパーティションと結合するタスクから構成される。第
１のりレージジンと第２のりレージ１ンの対応するパー
ティションが、共通フィールド内に１つの値のみを含む
どんなジョブに関しても、そのような対応するパーティ
ションの大きい方のものが、複数のより小さいパーティ
ションで置き換えられ、そのようなより小さいパーティ
ションの数は、そのようなジョブに関して、推定実行時
間に分割したとき、推定実行時間の合計値をプロセッサ
の数で割った値より小さい時間を与える、最小の整数で
ある。このようにして、各置換ジョブが、一方のりレー
ジジンのより小さいパーティションの１つを、他方のり
レージジンの未変更の対応するパーティションと結合す
るタスクから構成される装置換ジｅブが定義される。

パーティションの再区分過程が完了すると、置き換えら
れたジリブの推定実行時間を置換ジョブの推定実行時間
で置き換えることにより、推定実行時間の現集合が更新
される。この過程は、推定実行時間の合計値をプロセッ
サの数で割った値より大きな推定実行時間が、ジョブの
現集合内のどのジョブに対してもなくなるまで、繰り返
し実行される。

本発明の重要な部分は、プロセッサ割当ての細分である
。これは、最小メークスパン最適化技法を使用して、プ
ロセッサの間でジョブの現集合をスケジューリングする
ことによって行なう。プロセッサがスケジュール通りに
ジョブの現集合を実行する場合に生ずるはずの完了時間
のスキュー量を推定する。この推定値を、スキュー標準
値と比較し、推定値が許容できる場合は、スケジューリ
ングされたジョブの現集合がプロセッサ上で実行され、
それにより、共通フィールド上の２つのデータベース・
リレーシランを最小の完了時間スキュー値で結合する。

推定スキュー値がスキュー標準値に合致しない場合は、
第１のりレージ画ン及び第２のりレージ訝ンの最大パー
ティションの１つが、少なくとも２つのより小さいパー
ティションで置き換えられて、置き換えられたパーティ
ションによって定義されるジョブに対する置換ジョブが
定義される。各置換ジョブは、第１のリレーシ「ンのよ
り小さな置換パーティションの１つを、第２のりレージ
ジンの対応するより小さい置換パーティションと結合す
るタスクから構成される。次に、置き換えられたジョブ
の推定実行時間を置換ジョブの推定実行時間で置き換え
ることにより、推定実行時間の現集合が更新される。さ
らに、ジョブの現集合のスケジューリングが、推定完了
時間スキューが最小になるように更新される。完了時間
スキューの量が推定され、スキュー標準値と比較される
。この過程は、スキュー量がスキュー標準値に合致する
か、またはすべてのパーティションが所定の最大限度に
再区分されるまで、反復して繰り返される。

Ｆ、効果本発明は、ソート／マージ技法、及びハツシュ結合技法
によって、並列リレーシロナル・データベース環境にお
いて、２つのリレーションの自然結合のための全実行時
間を最小にする効率的な技法を提供する。

【図面の簡単な説明】

第１図は、本発明による結合手順を実施できるマルチプ
ロセッサ・データベース・マシンの一般編成のブロック
図である。第２図は、データ・スキューの概念を図示するために使
用する３つのりレージ１ンの例を示した図である。第３図は、本発明による結合操作の諸段階を示すハイ・
レベルのブロック図である。第４図は、本発明によるソート／マージ結合アルゴリズ
ムを使用する結合操作の第２段階の詳細を示す流れ図で
ある。第５図は、本発明の第１の態様でサブタスクがどのよう
により小さいサブタスクに分割されるかを示す図である
。第６図は、本発明による第１のハツシュ結合アルゴリズ
ムを使用した結合操作の第２段階の詳細を示す流れ図で
ある。第７図は、本発明による第２のハツシュ結合アルゴリズ
ムを使用した結合操作の第２段階の詳細を示す流れ図で
ある。第８Ａ図及び第８Ｂ図は、本発明のハツシュ結合操作で
サブタスクがどのように再割振りされるかを示す図であ
る。

Claims

【特許請求の範囲】

（１）Ｐ個のプロセッサを有する並列リレーショナル・
データベース環境内で共通フィールド上で２つのデータ
ベース・リレーションを結合する方法であって、（ａ）共通フィールド内の各値が第１のリレーションの
パーティションの１つに一義的に対応し、かつ第２のリ
レーションのパーティションのそれと対応する１つに一
義的に対応するように、第１のリレーションを複数のパ
ーティションに区分しかつ第２のリレーションをそれら
に対応する複数のパーティションに区分し、それにより
、それぞれが第１のリレーションのパーティションを第
２のリレーションの対応するパーティションと結合する
タスクから構成される、ジョブの現集合を定義して、そ
れらのジョブが１つのプロセッサに適合するように、各
ジョブの実行時間を全実行時間の１／Ｐ以下に短縮する
ステップと、（ｂ）最小メークスパン最適化技法を使用して、Ｐ個の
プロセッサ間でジョブの現集合をスケジューリングする
ステップと、（ｃ）Ｐ個のプロセッサが、ステップ（ｂ）でスケジュ
ールされたジョブの現集合を実行する場合に生ずるはず
の完了時間スキュー量を推定するステップと、（ｄ）推定スキュー量を標準スキュー量と比較するステ
ップと、（ｅ）推定スキュー量が標準スキュー量に適合する場合
は、最後にスケジューリングされたジョブの現集合をＰ
個のプロセッサを使って実行し、それにより前記２つの
データベース・リレーションを共通フィールド上で最小
の完了時間スキューで結合するステップとを含む方法。
（２）推定スキュー量が標準スキュー量に適合しない場
合は、さらに（ｆ）第１及び第２のリレーションの最大パーティショ
ンの１つを少なくとも２つのより小さなパーティション
で置き換え、それにより、置き換えられたパーティショ
ンによって定義されるジョブについて、それぞれが第１
のリレーションのより小さい置換パーティションの１つ
を第２のリレーションの対応するより小さい置換パーテ
ィションと結合するタスクから構成される、置換ジョブ
を定義するステップと、（ｇ）置き換えられたジョブの推定実行時間を、置換ジ
ョブの推定実行時間で置き換えることにより、推定実行
時間の現集合を更新するステップと、（ｈ）完了時間スキュー推定値が最小になるように、Ｐ
個のプロセッサの間でのジョブの現集合のスケジューリ
ングを更新するステップと、（ｉ）Ｐ個のプロセッサが、ステップ（ｈ）でスケジュ
ーリングされたジョブの現集合を実行する場合に生ずる
はずの完了時間スキュー量を推定するステップと、（ｊ）ステップ（１）で推定された完了時間スキュー量
を標準スキュー量と比較するステップと、（ｋ）ステップ（ｊ）でスキュー量が標準スキュー量に
適合するか、またはすべてのパーティションが所定の最
大限度まで再区分されてしまうまで、ステップ（ｅ）な
いし（ｊ）を繰り返し実行するステップとを含む、請求項１に記載の方法。
（３）区分ステップがさらに、（ｌ）単一プロセッサが前記ジョブのそれぞれを実行す
るのにかかる時間を推定し、前記推定値が推定実行時間
の現集合を形成するステップと、（ｍ）その推定実行時間が推定実行時間の合計をＰで割
った値より大きいジョブに対応するパーティションを再
区分するステップと、（ｎ）置き換えられたジョブの推定実行時間を、置換ジ
ョブの推定実行時間で置き換えることにより、推定実行
時間の現集合を更新するステップと、（ｏ）推定実行時間の合計をＰで割った値より大きな推
定実行時間が、ジョブの現集合内のどのジョブについて
もなくなるまで、ステップ（ｍ）及び（ｎ）を繰り返し
実行するステップとを含む、請求項２に記載の方法。
（４）再区分ステップがさらに、（ｐ）共通フィールド内のそれぞれの値が第１のリレー
ションのより小さいパーティションの１つに一義的に対
応し、かつ第２のリレーションのより小さいパーティシ
ョンの対応する１つに一義的に対応するように、複数の
明確な値を含む第１のリレーションのパーティション、
及び第２のリレーションのそれと対応するパーティショ
ンを、少なくとも２つのより小さいパーティションで置
き換え、それにより、ジョブの現集合内のステップ（ｐ
）の任意ジョブについて、それぞれが第１のリレーショ
ンのそのようなより小さいパーティションの１つを第２
のリレーションの対応するより小さいパーティションと
結合するタスクから構成される、置換ジョブを定義する
ステップと、（ｑ）第１及び第２のリレーションの対応するパーティ
ションが共通フィールド内にただ１つの明確な値を含む
というジョブに関して、推定実行時間に分割したとき、
推定実行時間の合計をＰで割った値より小さい時間を与
える最小の整数をＸとして、そのような対応するパーテ
ィションのより大きいものをＸ個のより小さいパーティ
ションで置き換えて、それにより、ジョブの現集合内の
そのようなステップ（ｑ）のジョブについて、それぞれ
が一方のリレーションのＸ個のより小さいパーティショ
ンの１つを他方のリレーションの未変更の対応するパー
ティションと結合するタスクから構成される、置換ジョ
ブを定義するステップとを含む、請求項３に記載の方法
。
（５）Ｖ＿１及びＶ＿２が前記第１及び第２のリレーシ
ョンの結合カラムのドメイン内の２つの値であり、Ｖ＿
１＜Ｖ＿２を満たす対（Ｖ＿１、Ｖ＿２）がタイプ１の
対として定義され、Ｖ＿１＝Ｖ＿２を満たす対（Ｖ＿１
、Ｖ＿２）がタイプ２の対として定義され、さらにステ
ップ（ｆ）の前に、（ｒ）少なくとも２つのより小さいパーティションで置
き換えるために、最大のタイプ１の対を選択するステッ
プと、（ｓ）タイプ１の対がない場合には、続いて、Ｐ個のプ
ロセッサを使って最後にスケジューリングされたジョブ
の現集合を実行し、それにより、前記の２つのデータベ
ース・リレーションを共通フィールド上で最小の完了時
間スキュー量で結合するステップとを含む、請求項２に記載の方法。
（６）Ｖ＿１及びＶ＿２が前記第１および第２のリレー
ションの結合カラムのドメイン内の２つの値であり、Ｖ
＿１＜Ｖ＿２を満たす対（Ｖ＿１、Ｖ＿２）がタイプ１
の対として定義され、Ｖ＿１＝Ｖ＿２を満たす対（Ｖ＿
１、Ｖ＿２）がタイプ２の対として定義され、ステップ
（ｍ）で前記ジョブの１つの推定時間が合計実行時間の
１／Ｐより大きいときは、さらに（ｔ）前記の１つのジョブがタイプ１の対であるかどう
か判定するステップと、（ｕ）タイプ１の対である場合には、それを、１つがタ
イプ２である少なくとも２つのパーティションで置き換
えるステップと、を含む、請求項３に記載の方法。
（７）前記の１つのジョブがタイプ２の対である場合に
は、次いで（ｖ）タイプ２の対の多重度を増加できるかどうかを判
定するステップと、（ｗ）その多重度を増加できる場合には、最小の多重度
を見つけ、ジョブの現集合を改訂するステップと、を実行する、請求項６に記載の方法。
（８）タイプ２の対の多重度を増加できない場合には、（ｘ）タイプ２の対を多重度Ｐをもつように割り当てる
ステップと、（ｙ）Ｐ個のジョブのそれぞれを異なるプロセッサに割
り当てるステップと、を実行する、請求項７に記載の方法。
（９）ステップ（ａ）が、２つのハッシュ関数Ｈ＿１及
びＨ＿２を使用する階層的二重ハッシュ処理技法によっ
て実行され、その際に、Ｈ＿２は、Ｈ＿１によって作成
された各ハッシュ・パーティションをさらにより小さな
パーティションに分割するために使用される、請求項１
に記載の方法。
（１０）結合操作においてステップ（ｅ）の間に前記プ
ロセッサの進行状況を監視し、結合操作の進行が、所定
のしきい値を超えてバランスを失った場合に、ステップ
（ｂ）ないし（ｄ）を反復するという、請求項１に記載
の方法。