JPH11242688A

JPH11242688A - 効率的な並列高次元類似ジョインのための構造および方法

Info

Publication number: JPH11242688A
Application number: JP10352250A
Authority: JP
Inventors: Shin Biniito; シンヴィニート; Arusabuti Kaaredo; アルサブティカーレド; Ranka Sanjai; ランカサンジャイ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-12-12
Filing date: 1998-12-11
Publication date: 1999-09-07
Also published as: US5987468A

Abstract

(57)【要約】【課題】効率的に多次元オブジェクトをジョインして、
データベースポイントのような、類似のオブジェクトま
たは項目の対(pairs)を生成する。【解決手段】ε−ｋ−ｄ−Ｂツリーのコストモデルを提
示し、これを用いてリーフサイズを最適化する。この新
たなリーフサイズは、一定のリーフサイズを用いた従来
技術に比べて殆どの状況においてより良好である。ε−
ｋ−ｄ−Ｂツリーに対する新規な並列手続を提示する。
等深ヒストグラムに基づく負荷均衡化法は均一または低
スキュー状況に対して良好に機能するが、重み付けされ
た等深ヒストグラムに基づくものは、高スキューデータ
セットに対して遥かに良好に機能する。後者の方法は、
低スキューデータセットに対しては前者より若干低速で
あるにすぎない。後者の方法の重みは、最適リーフサイ
ズの決定に用いられるのと同じコストモデルに基づく。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して類似ジョイ
ン(similarity joins)に関し、特に、イプシロン−ｋ−
ｄ−Ｂツリー構造を用いた、効率的な並列高次元類似ジ
ョインのための構造および方法に関する。

【０００２】

【従来の技術】多次元類似ジョインは、互いに、ある所
定の典型的には小さい距離内にある多次元ポイントの対
(pairs)を見いだすものである。”次元”は、何らかの
計量可能な性質または特性であり、この用語が通常用い
られるような空間的な次元に限定される必要はない。２
次元（２Ｄ）または３次元（３Ｄ）マッピングアプリケ
ーションのような従来のアプリケーションは２または３
次元を必要とするにすぎないが、多くの重要な新規アプ
リケーションは極めて大きな次元の数（おそらく数十も
しくは数百、または数千）を必要とする。アプリケーシ
ョンの領域（domain）には、マルチメディアデータベー
ス［後述の関連文献１１，１６，１７の記載部分を参
照］、医用データベース［５，２１］、科学データベー
ス［２２］および時系列データベース［９，１，１４］
を含む。このようなデータベースは、例えば、温度計、
血圧センサ、血圧モニタ・センサ、脳波センサ・サンプ
リングシステム、血液化学、診断履歴、並びに、あらゆ
る形式の他の医学的、化学的、生物学的等のデータを含
む、医用機器（medical instrumentation）のような物
理的システムの収集（collection）および監視により構
成することができる。遠隔検知装置から収集されるデー
タは、ハンドヘルドセンサ、軌道(orbital)センサもし
くは他のセンサ、レーダ等から収集された写真画像デー
タ、人文的(cultural)または他の地理的情報システム(G
eographical Information System:GIS)型のパラメー
タ、データ、その他の情報を含む。他の物理的システム
も同様に監視することができ、収集されたデータ信号
は、分類し、データベースに保存し、例えば、他のプロ
セスを制御するために、あるいは履歴データベースとの
比較への利用時の判定規準(decision metric)として利
用できる。これらの特性(characteristics)は、多値多
次元データポイントの１個または複数個の値を構成す
る。

【０００３】

【発明が解決しようとする課題】類似ジョインのアプリ
ケーションの典型的な例としては、ごく少数を挙げて
も、類似の価格履歴を有する米国ミューチュアルファン
ド(mutual funds)の全ての対を見いだすこと、互いに類
似した画像を発見すること、経時的に類似した症状を有
する患者を同定すること、が挙げられる。類似ジョイン
操作は、”データマイニング(data mining：データ発
掘)”操作にも利用できる。

【０００４】１対のポイントは、それらの間の距離が、
ある種の距離規準(some distance metric)としてのイプ
シロン（ε）より小さいとき、”類似(similar)”して
いると考えられる。ここに、εはユーザが定義したパラ
メータである。本明細書では、距離規準としてＬp-norm
を用いる。これは、次のように定義される。

【０００５】

【数１】

【０００６】ここに、ｐは特定の距離規準を表し、ｄは
ポイントｘおよびｙの次元を表す（それぞれｄ次元）。
Ｌ_∞は、次のような距離規準として定義される。

【０００７】

【数２】

【０００８】次元数（ｄ）が３以下であれば、類似ジョ
インは空間的なものと考えられ、ジョインは”空間的類
似ジョイン”と呼ぶことができる。Ｌpは距離規準のク
ラスである。ここに、ｐは、特定の規準を表す。Ｌ
₁は、従来、マンハッタン距離(Manhattan distance)と
呼ばれ、２つの直交方向に沿った距離から導出される。
Ｌ₂は、着目する２ポイント間を直接結ぶ直線に基づい
て計算されるユークリッド距離である。Ｌ_∞は、複数の
次元の１つに沿った最大距離として計算される他の距離
である。これらの距離規準は従来既知のものであり、こ
れ以上の詳細な説明は省略する。多次元類似ジョインの
ために、Ｒツリーファミリー（R-tree,R*-tree,R⁺-tre
e)［8,20,10,6］、グリッドファイル(grid-file)［1
8］、ｋ−ｄ−ｂツリー［19,7］、ＳＳツリー［23］、
およびＳＲツリー［12］インデックス(indices)のよう
な幾つかのデータ構造が提案されている。しかし、一般
にこれら及び他の既知のデータ構造は高次元ポイントに
ついて類似ジョインを実行するには効率的ではない。な
ぜなら、次元数の増加に伴って時間および空間の複雑度
が急速に増大するからである。例えば、２または３次元
のポイントについて利用できるデータ構造は、通常、十
ないし百次元のポイントについては利用不可能である。

【０００９】初期のデータベース手続は、メモリ常駐手
続であるＫ−ｄ（またはＫｄ）ツリーに関連するもので
あったが、後の拡張または改良においては、ディスク常
駐として具現されたＫ−ｄ−Ｂ（またはＫｄＢ）バージ
ョンとなった。これは、データベースが同時に全メモリ
常駐とするには大きすぎる場合の具現法であった。これ
らの従来の構造および具現例は既知であり、これ以上詳
述はしない。

【００１０】ε−ｋ−ｄ−Ｂツリーは、高次元ポイント
［2］について類似ジョインを実行するための多次元イ
ンデックス構造として、Agrawal等［2］により提案され
ている。特に、ある種の人造の(synthetic)現実の(real
-life)データセットについて、Ｒ⁺ツリーよりも高速で
あると称されている。Agrawal等［2］によるε−ｋ−ｄ
−Ｂツリーインデックス構造は、リーフサイズ(leaf si
ze)用の静的な一定のしきい値を用いている。文献［2］
は、その全体を参照することにより本明細書に組み込ま
れる。

【００１１】したがって、多次元類似ジョインを実行す
るための手続きはある意味で進化してきたが、高次元デ
ータセットについて類似ジョインを実行するための方法
および構造がなお必要とされている。また、大きなデー
タセットおよび多数のプロセッサのための効率的なジョ
インを行うためにスケーリング可能な(scalable)方法お
よび構造も必要とされている。さらに、従来の静的に決
定されたツリー特性に限定されず、データセット自身の
特性に基づき、または単にプロセッサ間のポイントの均
等ポイント分配に基づいて、複数のプロセッサ間にデー
タを分割することができる、より良い負荷均衡負荷規準
(load balancing load metric)が必要とされている。従
来の構造および方法についてのこれらおよび他の問題
は、本発明の詳細な説明および添付図面に照らして明ら
かとなろう。

【００１２】関連文献明細書内で、参照番号を含む鍵カッコにより示される以
下の文献は、本発明の背景として関連がある、または、
本発明の１以上の方法の手順内に実行される既知の手続
きの記述に関係している。これらは、[1] Agrawal et a
l., Proc.Of Vldb, 1995; [2] Agrawal et al., "High-
dimensional Similarity Joins" in Proc. Of The 13th
Int'l Conference on Data Engineering; 1997; [3]Al
sabti and Ranka, in Proc. Of Int'l Conference on H
igh Performance Computing Hipc'97, 1997; [4] Alsab
ti et al., in Proc. Of VLDB'97 Conference, 1997;
[5]Arya et al., IEEE Data Engineering Bulletin, 19
93, 16(1):38-42; [6] Beckmann et al., In Proc. Of
ACM SIGMOD, 1990, 332-331; [7] Bently, Communicati
on of ACM, 1975, 18(9); [8] Brinkhoff et al., in P
roc. of 1993 ACM SIGMOD Conf. On Management of Dat
a, 1993; [9] Faloutsos et al., in Proc.of ACM SIGM
OD Conf. On Management of Data, 1994; [10] Falouts
os et al, ACM SIGMOD, 1987, 16(3); [11] Jagadish,
in Proc. of the ACM SIGMOD Conference on Managemen
t of Data, 1991; [12] Katayama and Satoh, in Proc.
Of ACM SIGMOD Int'l Conf. On Management of Data,
1997; [13] Kumar et al., Introduction to Parallel
Computing: Design and Analysis of Algorithms, 199
4; [14] Li et Al., in Proc. Of the 12th Int'l Con
f. On Data Engineering,1996; [15] Li et al., Paral
lel Computing, 1993,19(10); [16] Narasimhaluand Ch
ristodoulakis, IEEE Computer, 1991, 24(19):6-8; [1
7] Niblack et al., in SPIE 1993 Int'l Symposium on
Electronic Imaging: Science and Technology, 1993;
[18] Nievergelt et al., ACM Transactions on Datab
ase Systems, 1984, 9(1); [19] Robinson, in Proc. 1
981 ACM SIGMOD Conf. On Management of Data, 1981;
[20] Roussopoulos and Leifker, ACM SIGMOD, 1985, 1
4(4); [21] Toga et Al., Neurosc. Abs., 1990; [22]
Vassiliadis, in Int'l Workshop on Applications of
Artificial Intelligence in Solar Terrestrial Physi
cs, 1993, [23] White and Jain, in Proc. of the 12t
h Int'l Conf. On Data Engineering, 1996; [24] X. L
i, P. Lu, J. Schaeffer, J. Shillington, P. S. Won
g, and H. Shi, in "On the Versatility of Parallel
Sorting by Regular Sampling, in Parallel Computin
g, 19(10):543-550, October 1993; [25]M. Blum et a
l., Time Bounds for Selection, in Journal of Compu
ters andSystems, 7.:4:448-461, 1972, [26] K. Batch
er, Sorting Networks and theirApplications, in Pro
ceedings of the AFIPS Spring Joint Computing Confe
rence, Vol. 32, 1968; and [27] V. Kumar, A. Grama,
A. Gupta. and G. Karypis, Introduction to Paralle
l Computing: Design and Analysis of Algorithms. Th
e Benjamin/Cummings 20 publishing Company, Inc., 1
994.

【００１３】

【課題を解決するための手段】効率的に多次元オブジェ
クトをジョインして、データベースポイントのような、
類似のオブジェクトまたは項目の対(pairs)を生成する
ために、ε−ｋ−ｄ−Ｂツリーデータベース構造を含む
類似ジョイン方法および構造の並列実装方式が提供され
る。本発明の構造および方法は、最適なワーク負荷均衡
を得るための最適なリーフノードサイズ(leaf node siz
e)を同定するワークまたはコストモデルを提供する。リ
ーフノードサイズは、従来のように固定された一定のも
のではなく動的に決定しうる。後者の負荷均衡方法のた
めの重みは、最適なリーフサイズを決定するために用い
られるのと同じコストモデルに基づいている。

【００１４】本発明は、１つの観点において、複数の相
互接続された要素計算機（処理要素（processing eleme
nt））と、複数のオブジェクトからなるオブジェクトセ
ットを保存するメモリとを有する計算システムにおいて
実行するための所定のまたはユーザが定めた類似基準(s
imilarity criteria)に基づいて、オブジェクトをジョ
インする方法を提供する。この方法は、オブジェクトに
対するリフェレンス(references)をメモリ内に保存し、
オブジェクトを要素計算機に対応づけるためにオブジェ
クトセットを複数のサブパーティションに分割し、各特
定の要素計算機内で、特定の要素計算機に対応付けられ
たオブジェクトを組織化するオブジェクトツリー構造を
構築し、予め定めた第１のルールに基づいて各特定の要
素計算機毎に隣接する要素計算機との間の交差領域(int
ersecting regions)を決定し、予め定めた第２のルール
に基づいて各特定の要素計算機と隣接要素計算機との間
でオブジェクトを交換し、予め定めたオブジェクト類似
基準に基づいてオブジェクトをジョインすることによ
り、多次元オブジェクトのジョインされたグループ（jo
ined groups)を生成する。

【００１５】本発明は、他の観点において、コンピュー
タシステムとともに用いるコンピュータ読取可能な記憶
媒体を提供する。このシステムは、複数のプロセッサ
と、ユーザからのコマンドを受けるオプションのユーザ
インタフェースと、複数のオブジェクトおよび複数の実
行可能な手続きを保存する記憶媒体とを有する。各手続
きは、所望の類似特性を有する複数のオブジェクトのう
ちの特定のものを同定するために、ユーザからの問い合
わせ入力またはルールに従って複数のオブジェクトを検
索するようコンピュータに指示する少なくとも１個の実
行可能な命令を有し、複数の命令は、複数のオブジェク
トのうちの幾つかをメモリに保存するようコンピュータ
に指示する命令と、オブジェクトを複数のサブパーティ
ションに分割して複数のオブジェクトの幾つかを複数の
プロセッサに対応づけるようコンピュータに指示する命
令と、特定のプロセッサに対応づけられた複数のオブジ
ェクトの幾つかを組織化するローカルε−ｋ−ｄ−Ｂオ
ブジェクトツリー構造を構築するようコンピュータに指
示する命令と、隣接プロセッサとの間の、オブジェクト
空間の交差領域を決定するようコンピュータに指示する
命令と、予め定めたルールに基づいて隣接プロセッサと
オブジェクトを交換するようコンピュータに指示する命
令（ここに隣接プロセッサはある所定の距離以内にある
オブジェクトに関連づけられたプロセッサである）と、
多次元オブジェクトのジョインされたグループを生成す
るために、予め定めたオブジェクト類似基準に基づいて
オブジェクトをジョインするようコンピュータに指示す
る命令とを有する。オブジェクトは、階層的にオブジェ
クトを表すデータ構造を構成し、データベース要素およ
びインデックスの配列(array)と、これらの要素および
インデックスに対応づけられたポインタ(pointers)とを
有する。さらに、データベース要素の内容をアクセスす
るためにインデックスのアレイおよびポインタを用い
て、データ構造を横断(traverse)する命令を有する手続
きと、多次元オブジェクトのジョインされたグループを
表すためにメモリ内にデータ構造を確立する手続きを備
える。

【００１６】更に他の観点において、本発明は、複数の
要素計算機（各々、ＣＰＵの中央要素計算機のような命
令を実行するプロセッサと、この要素計算機に接続され
オブジェクトおよび複数の手続きを保存する対応するメ
モリとを有する）と、複数のオブジェクトを保存するス
トレージと、要素計算機および対応するメモリをストレ
ージに接続する相互接続ネットワークとを備えたコンピ
ュータシステムを提供する。複数の手続きは、オブジェ
クトに対して多次元類似ジョイン操作を実行し、ジョイ
ンされた多次元オブジェクトの対を生成する手続きを有
する。システムは、さらに、このジョインされた多次元
オブジェクトの対を生成するために多次元類似ジョイン
操作を行う手続きを実行する手続き実行手段を備える。

【００１７】更に他の観点において、本発明は、各々、
中央処理ユニットおよびメモリを有する多数の要素計算
機を備え、これらの要素計算機が相互接続ネットワーク
により接続されたコンピュータシステムにおいて、ユー
ザが定めた類似特性を有する類似項目を同定するために
高次元データ項目のデータベースの並列問い合わせを高
速かつ効率的に実行し、当該類似項目をデータ項目をジ
ョインして出力セットを構成する方法を提供する。この
方法は、ε−ｋ−ｄ−Ｂツリー構造のデータベースが、
ポイントの個数に基づくのみではなく負荷均衡重み付け
操作に基づいて多数の要素計算機に対して分割され、そ
の重みが、ツリー横断コスト(tree traversal cost)お
よびツリー計算コスト(tree computation cost)の組み
合わせに基づいて計算されることを特徴とする。

【００１８】他の観点において、本発明は、ｄ次元の項
目のデータセットからなるデータベースを複数の要素計
算機および各要素計算機に対応づけられたメモリに対し
て分割する重み付け分位方法(weighted quantiling met
hod)を提供する。この方法は、データセット全体からサ
イズｓのサンプルデータセット(sampled data set)を生
成し、分位分割手続き(quantile partitioning procedu
re)を用いて当該サンプルデータセットを分割し、各要
素計算機内で、パーティション内の全データポイントが
ツリー内に配置されるまで、ポイント毎に、各分割され
たサンプルデータセットに関連した各データポイントに
対してローカルε−ｋ−ｄ−Ｂツリーを構築し、要素計
算機間で交差領域を同定・交換し、実際にデータのジョ
インを行うことなくデータセットのジョインに必要とさ
れるであろうジョインテスト(join tests)の回数を計算
し、この計算されたジョインテストの回数に基づいて各
ポイント毎にデータポイント重み値を計算し、各要素計
算機の重み付け領域境界(weighted region boundaries)
を決定するために各パーティション内のポイントの個数
に加えてポイントの特定のものに関するワーク負荷を考
慮するために重み値を用いてデータセットの重み付け分
割を実行し、この重み付けされた分割により同定された
領域境界を用いてデータセット全体を再分配するステッ
プを有する。

【００１９】種々の他の拡張および選択的な特徴は、添
付の詳細な説明および図面にも記載されている。

【００２０】

【発明の実施の形態】本発明の構造および方法の概略本発明の構造および方法は多次元類似ジョインに向けら
れ、これは、並列類似ジョイン、および類似ジョイン手
続き全体に適用可能な幾つかの本発明のサブ手続きを含
む。多次元類似ジョインは、互いに、ある種の予め定め
られた微小距離ε内にある（多次元空間内の）ポイント
の対を発見するものである。類似ジョインはまた、デー
タマイニングの観点からも言及される。マルチメディア
および時系列のような領域でのデータベースは高次元数
を必要とする場合がある。この点から、Ｒツリー（およ
びその変形）、ε−ｋ−ｄ−Ｂ（またはε−ｋｄＢ）ツ
リーは、グリッドファイル、ｋ−ｄ−Ｂツリーのような
従来のデータ構造に比べて次元数が増加するに伴って、
より良く適合するデータ構造である。

【００２１】本発明の構造および方法は、ε−ｋ−ｄ−
Ｂツリーのためのコストモデルを提供し、動的に決定で
きるε−ｋ−ｄ−Ｂツリーリーフサイズを最適化するよ
う当該コストモデルを具現化する。この新たな動的に決
定されたリーフサイズを用いるこの具現例は、概して、
一定または固定のリーフサイズを用いる方法より良好で
ある。データベースオブジェクトを受け入れるためのε
−ｋ−ｄ−Ｂツリーを具現化し、出力データベースオブ
ジェクトまたはイベントの新たなかつ異なるセットを生
成するための新規な並列構造および手続きが記載され
る。従来の既知の手続きより優れた、重み付けされた等
深(equi-depth)ヒストグラムに基づく負荷均等化法も記
載される。重み付けされた手続きのための重みは、少な
くとも一部において、最適なリーフサイズを決定するた
めに用いられるのと同じコストモデルに基づいている。

【００２２】本発明の構造および方法は、ε−ｋ−ｄ−
Ｂツリーを用いて類似ジョインを実行するコストモデル
を提供する。このコストモデルは、リーフサイズしきい
値を動的に決定するために用いられる。このしきい値は
類似ジョイン操作のコストに大きな影響を与えるので、
適切なしきい値の動的な決定はきわめて好都合である。
均一なガウス分布を有するデータセットに対して行われ
た有効性テストでは、本発明のモデルは効果的かつ効率
的であることが示された。このコストモデルは、多数の
プロセッサ間の良好な負荷均衡化を行うために合理的な
コストモデルが必要とされる並列類似ジョイン手続きに
おいて特に有用である。

【００２３】従来の、類似ジョインの並列化には、ツリ
ーの異なる部分に必要とされるワークの量（例えばコス
ト）にスキュー(skew)すなわち相違があったため、問題
があった。ツリーの異なる部分に必要なワークの量は超
リニア(super-linear)関数（例えばｘ^a、ａ≧１）や、
サブリニア関数（例えば、ｘ^a、ａ≦１）でありうる
が、典型的には、関連づけられたデータセットポイント
の個数の２次関数以下（例えば、ｘ²以下）であろう。

【００２４】第１の実施形態（ＰＱ手続）は、従来例に
対して多くの利点を有するが、本発明の構造および方法
の第２の実施形態はさらに、この問題の並列化のための
新規なサンプリング・ベースの重み付けポイントスキー
ム（ＰＷ手続）を提供する。これらの２つの実施形態は
さらに、以下で詳述する。この本発明のＰＷスキーム
は、後述されるコストモデルに基づいて必要とされるワ
ーク量を推定するためにデータセット全体のサブセット
を用いる。本発明のＰＷスキームと、異なる個数のプロ
セッサに等数のポイントを割り当てることに基づく他の
スキームとを比較すると、本発明のＰＷスキームは、デ
ータスキューがある場合に、たとえ１６個のプロセッサ
の例示システムにおいても、遥かに良好な性能を示す。
プロセッサ数が増加するに伴って、負荷バランスの問題
が飛躍的に困難となるので、サンプルベースの重み付け
ＰＷ手続と他の手続の間には、さらに大きな改善が見ら
れるであろう。

【００２５】類似ジョインを実行するための構造図１を参照して、本発明の並列類似ジョイン手続および
そのサブ手続を実行するための処理システム構造７０の
例示的実施形態を説明する。複数の要素計算機７１（例
えば、７１ａ，７１ｂ，．．．，７１ｎ）は、本発明の
処理システム７０内に設けられ、各々、プロセッサすな
わちＣＰＵ７２、メモリ７３、メモリコントローラ７
７、オプションの１個または複数の入出力コントローラ
７４、およびインタフェース７５を有する。インタフェ
ース７５は、複数の要素計算機７１を相互接続構造７９
に対して、よってお互いに対して接続し、さらに、１個
または複数の２次メモリ７６およびオプションの３次メ
モリ８５に接続される。３次メモリは、（例えば、類似
ジョインを実行する前に全データベースを保存するため
に）例えば、幾つかまたは全要素計算機により共有され
る。要素計算機７１は、複数のプロセッサを内蔵する単
一のコンピュータのような共通の装置として構成・配置
されてもよい。または、要素計算機７１は、異なる物理
位置にある別個の計算機内等に別個に配置することもで
きる。あるいは、要素計算機７１は、このような共通配
置および個別配置の組合せにより構成してもよい。同様
に、相互接続構造は、単一のマルチプロセッサコンピュ
ータ内のシステムまたは他のバス接続であっても、ある
いは、複数の要素計算機７１を接続するための他のネッ
トワーク接続であってもよい。単一の装置（コンピュー
タ）が全プロセッサを内蔵する場合、各々はそれに対応
した専用メモリ７３を有するが、ディスプレイ／インタ
フェース７８のような他の部品は共有することができ
る。種々のバスおよびネットワーク相互接続構造が従来
知られており、これ以上の説明は省略する。

【００２６】メインメモリ７３は、典型的には、ランダ
ムアクセスメモリ（ＲＡＭ）と呼ばれることが多いソリ
ッドステートメモリであり、通常、中央処理ユニット
（ＣＰＵ）と同じ”マザーボード”に搭載される高速メ
モリである。２次メモリ７６は、同じまたは他のメモリ
であり、典型的には、例えば磁気ディスクドライブ、光
ディスクドライブ、ＣＤ−ＲＯＭ、磁気テープ、その他
の従来のデータ記憶メモリデバイスのようなより大きな
メモリ容量を提供するものである。メインメモリすなわ
ち主メモリは、後述する種々のソート、ジョイン、ツリ
ー組立、および他の計算処理操作の期間中、データポイ
ントを保持するとともに、本発明の方法を実行するため
の実行可能な手続、および各プロセッサの基本動作を制
御するためのオペレーティングシステムを保持する。

【００２７】２次メモリ７６は、データベースのデータ
ポイント、存在しうる中間的なデータベースの問い合わ
せまたは組立結果を含む中間的な計算結果、および出力
ポイント、オブジェクトまたは結果を記憶する。２次メ
モリ７６は実行前後の他の手続を保存することもでき
る。但し、実行中の手続またはその一部は通常メインメ
モリ７３上に位置する。２次メモリは、典型的には、各
要素計算機内に設けられ、相互接続された要素計算機に
個別に自由に(at large)接続される。

【００２８】次に、図２に示した構造について、他の例
示的な処理構造９０を説明する。これは、要素計算機９
１の個数に応じてリニアに（またはほぼリニアに）変化
する(scales)帯域（ＢＷ）を有する相互接続ネットワー
ク９２を介して接続された複数の要素計算機９１（例え
ば９１ａ，．．．９１ｈ）を有する。このようなＢＷス
ケーリング相互接続ネットワークは、例えば、４個の要
素計算機９１と、隣接する要素計算機９１間に伸びた各
要素計算機９１間の相互接続とからなるハイパーキュー
ブ(hypercubes)を有する。要素計算機９１は、前述した
要素計算機７１と同じ内部構造、要素、および特性を有
する。但し、インタフェース７５の構造は、第２の実施
形態に適用可能な異なる相互接続構造によって異なって
もよい。これらの相違点は当業界において既知であり、
これ以上詳述はしない。

【００２９】他のハイパーキューブ構造は、各プロセッ
サから隣接する３個のプロセッサ要素へ伸びるバスのよ
うな３ネットワーク接続を有する８個の要素計算機を有
する。勿論、このような構造は、より多くの要素計算機
および相互接続へ拡張することができる。相互接続構造
の他の型は、いわゆる”クロスバー”相互接続により要
素計算機を接続するものである。これらの後者の帯域ス
ケーリング相互接続構成またはネットワークは、本発明
の類似ジョインプロセッサ構造に好適である。というの
は、これらの構成は、並列類似ジョイン手続の速度およ
び操作性を犠牲にすることなく、データまたは信号オブ
ジェクトのより大きなセットを収容するよう要素計算機
の個数を自由に拡張することを可能とするからである。

【００３０】次に、メモリ内のデータ構造を構成する手
続のリストを含む図３に示したメモリ構造について、要
素計算機７１内のメモリ７３の例示的実施形態を説明す
る。この手続のリストは主処理手続を示しているが、こ
れらの手続の一部を構成する他のサブ手続は本明細書の
本体内で説明する。

【００３１】並列類似ジョインの概要ここで、図４に示したフローチャートを参照して、並列
類似ジョイン手続(Parallel Similarity Join Procedur
e)１００の実施形態を説明する。典型的には、ある種の
物理的、人文的、医学的、化学的、生物学的、または抽
象的システムの従来の収集、検出、サンプリングまたは
分析、イベントの収集等から生成された履歴(historica
l)もしくはアーカイブ(archival)データベース構造のデ
ータのセットが存在する。ある例では、類似ジョインは
この履歴データベースのジョインメンバー(joining mem
bers)を含み、これらのメンバーの検索(retrieval)（ス
テップ１０２）が類似ジョイン手続（ステップ１００）
の初期段階となるが、これは他の例ではオプションのス
テップとなる。同様に、第２のオプションのステップ
は、１個以上の物理的、人文的、医学的、化学的、生物
学的または抽象的システムの測定、イベントの収集等、
および、そのようなイベントの収集のメンバーを類似ジ
ョイン手続への現在の入力とすること（ステップ１０
３）を含みうる。どのような場合でも、多次元データ／
オブジェクト／信号等のある種のセットは、本発明の類
似ジョイン手続に対して与えられ、その入力として受け
入れられうる（ステップ１０５）。

【００３２】本発明の類似ジョイン手続（ステップ１０
６）は、オプションのデータセット分割タイプ選択手続
（ステップ１１０）を含んでいる。この手続は、分位分
割手続(Quantile Partioning Procedure)（ステップ１
１１）、推定分位分割手続(Estimated Quantile Partit
ioning (PQEST) Procedure)（ステップ１１２）または
重み付け分割手続(Weighted Partitioning (PW) Proced
ure)（ステップ１１３）（これは種々の分位分割を用い
る）の一つを選択する。所望の分割手続（例えばステッ
プ１１１、１１２、または１１３）が選択されている、
または前もって分かっており、かつ、当該選択がすべて
のタイプを含む必要がない場合、オプションの選択手続
(optional Selection Procedure)（ステップ１１０）は
不要である。

【００３３】一旦、メモリ内で複数のプロセッサに対し
てデータベースが分割され、少なくとも２つのプロセッ
サに（および各プロセッサにおいて同様に）ローカルデ
ータベースが配置されたならば、各プロセッサはローカ
ルε−ｋｄＢツリーを組み立てる（ステップ１２０）。
複数のプロセッサにおいて並列に組み立てられたこれら
のツリーの組立に続いて交差領域手続(Intersected Reg
ions Procedure)（ステップ１３０）に移行し、ここ
で、各プロセッサは、データを交換または共有する必要
がある他のプロセッサを決定または同定する。データの
交換は、典型的には、各要素計算機がその内部利用のた
めのコピーを持つように、ポイントを複写または複製す
ることにより行われる。最後に、類似ジョイン手続（ス
テップ１４０）が実行され、１個または複数個の多次元
オブジェクト対が生成される（ステップ１５０）。

【００３４】これらの多次元データベースオブジェクト
対は、メモリ（例えばＲＡＭおよび／またはディスク）
内に位置し、判定分析に利用され、物理システムを制御
し、他のデータベースを修正し、表示画面上に表示さ
れ、警告，売買指標および他の任意の使用形態として機
能しうる。図４に示した手続の例示的実施形態では、類
似ジョイン出力データベースは、例えば、測定された患
者の体温、心拍数、血液の化学的精密検査（ステップ１
０３）、および、その患者または他の患者の先の履歴処
置データ（ステップ１０２）に基づく薬品の処方を含
む、診断および処置の決定および制御を行うのに利用す
るものとして例示的に示されている。この場合、類似ジ
ョインは、一種の人工知能制御エージェントとして機能
する。勿論、これは一つの応用例にすぎない。他の応用
例としては、株、ボンド、商品の取引における売買指示
の実時間もしくは疑似実時間の形成(formation)、配置
(placement)および実行(execution)が挙げられ、また、
ジョインされたオブジェクトはコンピュータモニタのよ
うな表示画面装置または紙上に表示されうる。

【００３５】ε−ｋ−ｄ−Ｂツリーおよび順次類似ジョ
イン(Sequential Similarity Join)を説明した後、本発
明の類似ジョイン構造および方法の全体がより良く理解
できるように、本発明の方法全体を構成する手続および
サブ手続の各々についてより詳細に説明する。

【００３６】ε−ｋ−ｄ−Ｂツリーの組立このセクションでは、まず、文献［２］の"High-dimens
ional Similarity Join"においてShim等に当初記載され
たようなε−ｋ−ｄ−Ｂツリーの構成および類似ジョイ
ン手続について概説する。ｋ−ｄ−Ｂツリーデータ構造
に対するイプシロン（ε）の拡張は、名目上、先行する
データ構造に対して類似ジョインの実行用に最適化され
たデータ構造である。文献［２］の著者により記載され
たε−ｋ−ｄ−Ｂツリーは、非常に短い組立時間を有
し、これによりツリーの組立時に、類似距離範囲(simil
arity distance limit)εをパラメータとしてε−ｋ−
ｄ−Ｂツリーが用いることができると称されている。こ
の拡張の以前には、大きなデータベースが関与する場
合、全体のデータベースまたはツリーをメインメモリ内
に同時に保持することはできなかった。しかし、文献
［２］はデータを分割するための２つの手続を記述して
いる。第１の手続は、データを２εチャンク(chunks)に
分割するために１分割次元(one partitioning dimentio
n)を用いて、データを分割する。もし、これらの２εチ
ャンクが大きすぎてメインメモリに適合しない場合に
は、次に、データは第２の手続を用いて４ε²チャンク
に分割される。この場合、各チャンク内のデータポイン
トの個数はよりメインメモリに適合しやすくなる。この
拡張は、ε−ｋ−ｄ−Ｂツリーに対して組立時間が比較
的小さいことにより現実的となる。文献［２］は順次手
続に関係するのみで、ここに記載の本発明の並列手続の
利点をもたらすものではない。

【００３７】次に、例示的なローカルε−ｋ−ｄ−Ｂツ
リーを示した図５を参照して、ツリーの組立手続の例示
的実施形態を説明する。用語”ローカル”は各要素計算
機内に組み立てられたツリーを指すのに対し、用語”グ
ローバル”とはデータベースおよび関連したデータ構造
を全体として指す。ローカルε−ｋ−ｄ−Ｂツリー手続
きは、ローカルに、要素計算機７１，９１を有する各プ
ロセッサ７２内でポイントのセットに対して適用され
る。説明の簡略化のために、一般性を損なうことなく、
各次元に沿ったポイントの座標が０と＋１（例えば
［０．．１］）の間の範囲に属するものと仮定する。ル
ートノード２１として初期化されたすなわち空のリーフ
ノードからスタートし、次に各ポイントが１個ずつ加え
られる（図１１，１２も参照）。各ポイントｑ＝
（ｑ₁，ｑ₂．．．，ｑ_d）について、ルートノード２１
から開始して、リーフノードｘ（例えば２２，２３，２
４，２５，２６）に達するまでツリーを横断(traverse)
する。レベルｉの内部（内側）ノード（例えば、２７，
２８）において、もし、ｑ_di／εの天井がｊに等しいな
らば、すなわち、もし、↑ｑ_di／ε↑＝ｊならば（ここ
で、ｑはツリー内に挿入されているポイント、ｄiはツ
リー２０のレベルｉにおけるツリーを分割するために用
いられる特定のｉ番目の次元、ｑ_diはｄi次元に沿った
ポイントｑの成分の値、ｊはノードｘのｊ番目の子
供）、子供(child)ｊは横断経路の一部となる。リーフ
ノード内のポイント数がポイントの所定のしきい値数に
達し、かつ、未使用の次元があるとき、リーフノード
は、床［１／ε］子供ノード(floor [1/ε] childnode
s)を持った内部ノードに変換される。表記”↑ｇ↑”
は、”ｇの天井”を取ることを意味する。ここに、ｇの
天井とは大きい方の直近の整数(nearest larger intege
r)であり、これらの式中の表示”↓ｇ↓”は”ｇの床”
を意味する。ここに、”床”とはｇより小さい直近の整
数である。例えば、”５．５の天井は６”すなわち”↑
５．５↑”は６である。新たな内部ノードのポイント
は、ある選択された次元に基づいて、その子供ノード内
に挿入される。予め定めたルールに基づいて、ツリーの
各レベルに対して固有の次元が選択される。

【００３８】本発明の類似ジョイン手続き１００は、ε
−ｋ−ｄ−Ｂツリーを用いて、あるＬp規準について、
お互いにε距離内にあるポイントのすべての対を同定す
る。図５に示すように、このツリーは次のような性質を
有する。すなわち、特定の子供ｊのポイントは、あるＬ
p規準についてε距離内にあるポイントのすべての対を
同定するために、それ自身および隣接する兄弟(sibling
s)内のポイントとのみジョインされる必要がある。図５
の例示的ツリー表現において、ノードＶ２６について
は、隣接兄弟Ｕ２７およびＷ２８のみが、Ｖ内の任意の
ポイントのε距離内のポイントを包含することができ
る。このことは、任意のＬp距離規準に対して言える。
他のどの兄弟も、Ｖ内のポイントのε距離内のポイント
を包含することはできない。

【００３９】ε−ｋ−ｄ−Ｂツリーはいくつかの特徴を
有する。第１に、ツリーを組み立てるコストが比較的小
さいことである。というのは、分割手続き、すなわちリ
ーフノードを取り出し、これを内部ノードに変換し、そ
の後、前のリーフノードからすべてのポイントを当該新
たなリーフノード内に移す手続きが簡単だからである。
第２に、内部ノード（例えば領域境界）内に何ら情報を
保存する必要がないので、空間効率がよい(space effic
ient)。第３に、ε−ｋ−ｄ−Ｂツリー横断コストが比
較的小さいことである。これは、一つには分割手続きの
簡潔さにより、また一つには空間が非重複領域に分割さ
れるというツリーの特性による。最後に、ツリーの組立
に全次元が利用されない限り、隣接ノードの個数が次元
の数に依存しないことである。後続のセクションには、
本発明の構造および方法を実現するために、これらの特
性が好都合に採用される態様を説明する。

【００４０】類似ジョインのための並列分割手続き（ス
テップ１０６）多数のプロセッサは、物理的に近接してまたは同じマシ
ン内にあっても、あるいは、遠隔的に配置されてもよ
い。コンピュータアーキテクチャは、何台かのより大型
のプロセッサ（例えば、流通しているインテル社製ペン
ティアムＣＰＵ，ペンティアムII ＣＰＵ、アドバンス
トマイクロデバイセズ社製ＣＰＵ、またはサイリックス
社製ＣＰＵ）からなる粗粒子状(coarse grained)であっ
ても、あるいは、１個または複数個のチップ上のより多
くの小型のプロセッサからなる微粒子状(fine grained)
であってもよい。これらの粗粒子状並列マシンは、複数
のプロセッサ間に物理的に分配されるＲＡＭのような主
メモリと、ディスクまたは他のバルクストレージのよう
な２次メモリを有する。２次メモリも、各要素計算機に
関連づけてもよい。ある種のメモリは、複数または多数
のプロセッサ間でグローバルに共有してもよい。プロセ
ッサ間通信は、典型的には、メッセージの伝達またはメ
モリの共有アドレスを通して行える。このようなマシン
上での本発明の方法の並列化について以下に説明する。
しかし、本発明による方法は、図１および図２の実施形
態で説明したようなこれらの例示的な相互接続並列マシ
ン上のみでの具現化または動作に限定されるものではな
い、ということが当業者には理解されよう。

【００４１】このセクションにおいては、本発明の類似
ジョイン手続きの並列化方法を説明する。並列化によ
り、類似ジョイン（または類似ジョインの少なくとも一
部）を同時に複数のプロセッサ上で並列に実行する。

【００４２】第１の実施形態は、データセット全体を用
いてその空間をＰ個のバラバラの領域に分割し、領域内
のポイントの総数を負荷規準として用いる分割分位手続
き（Partition Quantiling: ＰＱ）の実施形態である。
第２の実施形態は並列重み付け（ＰＷ）実施形態であ
り、要求されるジョインテストの（推定された）回数を
負荷規準として用いることにより、例えば、傾斜した(s
kewed)分布のような非均等分布を有するデータセットに
対する負荷バランスを改善するものである。このＰＷ手
続きは、その中にＰＱ手続きの変形したものを含む。ど
の分割手続きを用いるかに関係なく、これらの類似ジョ
イン実施形態の各々は、４つの機能または手続き段階
（フェーズ）を有する。

【００４３】これらの４つのフェーズは、図４のフロー
チャートに示されており、”ステップ”への言及は図中
のステップ参照番号を参照する。フェーズ１は、プロセ
ッサ間でのデータポイントの分割（ステップ１０６）に
関し、ＰＱ手続き（ステップ１１１）と、ＰＱＥＳＴ手
続き（ステップ１１２）と、ＰＷ手続き（ステップ１１
３）の選択（ステップ１１０）を含む。フェーズ２は、
ローカルデータポイントを用いたローカルε−ｋ−ｄ−
Ｂツリーの組立に関する（ステップ１２０）。フェーズ
３は、ローカルジョイン処理に必要な非ローカル領域の
検索に関し、領域フェーズとも呼ばれる（ステップ１３
０）。フェーズ４は、フェーズ３で受け取ったローカル
および非ローカルポイントを用いたローカルデータポイ
ントのジョインの実行に関し、ジョインフェーズとも呼
ばれる（ステップ１４０）。これらの手続きフェーズに
ついて、以下の段落でさらに詳細に説明する。まず、分
割手続きの概要を説明する。

【００４４】データセットＤＳの並列類似ジョインは、
第１の分割フェーズで始まり（ステップ１０５）、ＰＱ
手続き（ステップ１１１）、ＰＱＥＳＴ手続き（ステッ
プ１１２）、またはＰＷ手続き（ステップ１１３）を選
択するために選択手続き（ステップ１１０）を用いて、
空間をバラバラな領域に分割する。これらのバラバラな
分割領域は並列ε−ｋ−ｄ−Ｂツリーのグローバル部分
を表す。理想的には、これらの領域は、プロセッサ間の
負荷が均衡する（すなわち、一般的には、各プロセッサ
が、比較動作および計算動作を含む等しいワーク負荷を
持つことに相当する同じ負荷を有する）ようにプロセッ
サに割り当てられるべきである。

【００４５】ＰＱ手続きでは、ワーク負荷均衡化の試み
は各プロセッサに（ほぼ）等しい個数のポイントを割り
当てることにより行われる。均等に分配されたデータセ
ットについては、ポイント数に基づく計算負荷の近似が
合理的な近似であるが、スキューを有するデータセット
のような非均等分配されたデータセットについては、ポ
イント数に基づく分割法は、たとえそれが本発明のＰＷ
手続きの利点を有するとしても、本発明の重み付け分割
（ＰＷ）手続きに比べれば最適とは言えない。

【００４６】本発明のＰＷ手続きでは、計算負荷均衡化
は、重み値を各ポイントに割り当てるようにポイントの
分配を考慮することで行われる。概して、より高い計算
負荷ポイントを担当するプロセッサには、低い計算負荷
ポイントが割り当てられたプロセッサに比べて、より少
ないポイントが割り当てられるように、これらの重みは
データセットが分割される仕方に影響を与える。また、
ＰＷ手続きはより効率的なので、全体の完了時間を増加
させることなく一層良好な負荷均衡化を達成するため
に、より正確であるが、おそらく、より時間のかかる分
位手続きを用いることができる。

【００４７】ＰＱＥＳＴ手続きは、負荷規準としてポイ
ント数を用いるが、より高速な具現例であり、セット全
体の代わりにポイントのサンプルセットに基づいて分割
法を決定し、次いで、１回だけポイントを再分配する。
いずれにせよ、厳密なまたは絶対的な均衡化は必要な
い。（多数のプロセッサ間の均衡化を達成するためにＰ
Ｑ，ＰＱＥＳＴ，ＰＱのいずれかの選択の方法は以下に
説明する。）ローカルε−ｋ−ｄ−Ｂツリーは、第２の
フェーズ（ステップ１２０）で組み立てられるものであ
り、ＰＱ，ＰＱＥＳＴまたはＰＷ分割された空間につい
てと同様である。各プロセッサは、通常、フェーズIII
（ステップ１３０）において、類似ジョイン計算を行う
ために非ローカルデータを必要とするので、各プロセッ
サは、自身がデータポイントを交換する必要がある他の
プロセッサを決定または同定する。各プロセッサはま
た、自身が通信する必要のあるサブ領域を計算する。こ
のデータ交換に関連する計算には、（領域フェーズに関
連して説明された）交差領域リストを構成するために用
いられるレベルリスト(Level list)およびシンプルレベ
ルリスト(SimpleLevel list)のためのデータ構造を含む
他のデータ構造が必要となりうる。類似ジョイン手続き
（ステップ１４０）は、ローカルツリーに対して、およ
び非ローカル領域を有するツリーに対して実行され、ε
距離内のすべてのポイント対が得られる。

【００４８】類似ジョイン計算は、好ましくは、重複し
たポイント対、例えば、対（ａ，ｂ）および対（ｂ，
ａ）は生成されないように行われる。これらの対は、そ
の対内のポイントの順序に関係なく同じ情報を含むもの
だからである。本発明の並列類似ジョインの実行の仕方
について、以下のセクションでより詳細に説明する。し
かし、好ましくは効果的な類似ジョイン並列化のための
注意（アテンション）を受けるいくつかのエリアをまず
同定する。すなわち、（ａ）負荷バランスをとり、か
つ、プロセッサ間の通信を最小化するためのプロセッサ
間のデータポイントの分配、（ｂ）必要な通信の発生、
および（ｃ）ａおよびｂが異なるプロセッサに属すよう
な潜在的な結果ポイント（ａ，ｂ）について”ａ”を所
有するプロセッサ上、または”ｂ”を所有するプロセッ
サ上のいずれでも計算を実行可能である。スキューを有
するデータセットについては、ローカルデータポイント
のみを必要とする計算の均衡がとれていたとしても、相
当の負荷不均衡が発生しうる。（ａもｂも所有しないプ
ロセッサ上でこの計算を実行することは可能であるが、
これは、負荷バランスに大きな影響を与えることなく第
３の新たなプロセッサとの余分なプロセッサ間通信を発
生させるので、あまり好ましくない。

【００４９】データ分割手続き次に図６を参照して、Ｐ個のプロセッサ間に割り当てら
れたｎ個のｄ次元ポイントが存在するとし、プロセッサ
間にデータを分割する本発明の方法の例示的実施形態を
説明する。図６（ａ）はツリーのグローバル部分の分割
の仕方を示し、図６（ｂ）はツリーのグローバル部分と
ローカルε−ｋ−ｄ−Ｂツリーとの関係を示す。

【００５０】図６に示すように、ツリーのグローバル部
分５０は、ポイントのバラバラなサブセット５１ａ，５
１ｂ，．．．，５１ｐを各プロセッサに割り当てること
により組み立てられる。ここに、”ＰＸ”はプロセッサ
に対応し、”Ｘ”はその領域内のポイントが割り当てら
れたプロセッサ番号である（例えば、Ｐ１はプロセッサ
要素１により処理される領域を示す）。ポイントの各サ
ブセット５１は、データベース空間内の１つの領域に対
応する。プロセッサに対してこの分配を行うには、空間
がＰ個の領域に分割される。これらのＰ個の領域の各々
は、固有のプロセッサに割り当てられる。その結果、
（１）ある種の負荷均衡化規準に基づいてプロセッサ間
の負荷バランスが達成され、（２）後続のフェーズ（フ
ェーズII,III, IV）で必要とされるプロセッサ間の通信
量が最小化されるようにデータのローカル性(data loca
lity)が保存される。データのローカル性の保存とは、
マシン間のデータの交換を最小限とすることができるよ
うに、データアクセスが必要となったときに特定のマシ
ンにデータを維持しておこうとすることである。

【００５１】ワーク（負荷均衡化の観点を含む）を最小
化するとともに、プロセッサ間通信（データローカル性
の観点）を最小化することが望ましい。全体の所要時間
は、いずれか特定のプロセッサの最大計算時間で決ま
る。このトータル時間は、負荷均衡化のための時間と、
この負荷均衡化分配／分割に基づく計算のための残りの
時間との和である。したがって、負荷均衡化のための時
間を増加させることは、それが正当にトータル時間を短
縮させるという条件付きで、正当化される。現実的に
は、負荷均衡化は妥当な程度または実質的な程度で足
り、Ｐ個のプロセッサ間の完全な均衡化までは要求され
ない。負荷均衡化の程度は、通常、データベースおよび
問題の事例に応じて変わる。たとえ、プロセッサ負荷が
５％から１０％、２０％、５０％の範囲内またはそれ以
上に変化したとしても、本発明の方法論はなお従来方法
に比べて有利であり得る。負荷変動が１００％またはそ
れ以上であっても許容しうる。最終目標は、全体の所要
時間が最小化されることであり、プロセッサ間の負荷変
動が小さいことを望むとと同時に、負荷均衡化の試行に
過大な時間を要さないことを望むものである。図６に示
したように、プロセッサＰ３に対応づけられた領域は対
応するローカルε−ｋ−ｄ−Ｂツリー５３を有する。こ
のツリーのグローバル部分の他の各領域についても同様
である。ε−ｋ−ｄ−Ｂツリー５３の構造については、
図５で既に説明した。

【００５２】重み付けなしの分位データ分割（ＰＱ）手
続きプロセッサあたりのポイント数が主な負荷均衡化規準で
ある分位(quantiling)に基づく分割手続きの高レベルの
説明を、図７のフローチャートに従って行う。図７は分
位に基づく分割(Partitioning based on Quantiling:Ｐ
Ｑ）手続き１１１を示す。個の手続きは、データベース
全体を用いて空間をｐ個のバラバラの領域に分割する。
このＰＱ手続きは、空間の分割にＤ個の分割次元（Ｄ≧
１）を用いる。大文字の”Ｄ”はプロセッサ間のデータ
の分割に利用される次元の総数を表し、小文字の”ｄ”
はデータセット内のポイントの総次元数(total dimenti
onality)を表す（Ｄ≦ｄ）。なお、ｄiはｄ個の次元の
ｉ番目の次元であることを想起されたい。

【００５３】例示的実施形態では、すべての分割次元Ｄ
において、ｚ個のヒストグラム箱を有する等深度ヒスト
グラムが生成される。これは、次元の個数Ｄに対して再
帰的に実行され、ツリー内のノードの各々に対してｚ個
の箱（bins）を生成する。まず、Ｐ個のプロセッサがプ
ロセッサのｚ個のサブセットに割り当てられる。ここ
に、各サブセットは１個またはそれ以上のプロセッサを
含みうる。次に、データが検査され、ｚ個のデータ部分
に分割される。このｚ個のデータサブセットの各々は、
次いで、プロセッサのｚ個のサブセットに対して１対１
に割り当てられる。この手続きは、次の次元で再帰的に
繰り返され、Ｄ個の全次元に対してこれが実行される。
同じレベルでは、すべての分割部分に対して同じ次元が
用いられるが、異なるレベルでは分割部分に対して異な
る次元を用いてもよい。

【００５４】等深度ヒストグラムは分位手続きを用いて
生成することができる。その既知の１つは、ここでは、
ディスク常駐データに対する高精度推定分位のためのワ
ンパスアルゴリズム(One Pass Algorithm for Accurate
ly Estimating Quantiles for Disk-Resident Data: OP
AQ)と呼ぶ。これは、文献［４］においてAlsabti等によ
り提案されたものであり、順序づけられたデータ値の列
のφ分位数(φ-quantile)がランクφ×ｎの要素である
（ここにｎは値の総個数である）。次に、本発明のＰＱ
手続きの理解の助けとなるように、文献［４］に記載さ
れたAlsabtiのディスク常駐データに対する高精度推定
分位のためのワンパスアルゴリズム（ＯＰＡＱ）につい
て説明する。順序づけられたデータ値の列のφ分位数は
ランクφ×ｎの要素（ｎは値の総個数）であり、データ
セットの中央値(median)は０．５分位数であることを想
起されたい。

【００５５】ＯＰＡＱは、大データセットに対するφ分
位数（φ＝１／ｈ，２／ｈ，．．．，（ｈ−１）／ｈ）
を推定するための手続き（ここに、ｈは分位数の個数）
であり、大データセットは、そのデータサイズがメモリ
のサイズより大きくデータがディスク常駐となるような
データセットを含む。さらに、ＯＰＡＱは、次のような
特徴を有する。すなわち、（ａ）データに対して１回の
パスのみを必要とする、（ｂ）決定論的(deterministi
c)である、（ｃ）φ分位数の真の値(true value)の厳密
な下限および上限(tight lower and upper bounds)を生
成する、（ｄ）データ分配の演繹的な知識を必要としな
い、（ｅ）変倍可能な並列計算式(scalable parallel f
ormulation)を有する、（ｆ）第１の分位数を越える各
追加の分位数を推定するための追加的な時間および空間
の複雑さが分位数当たり一定である。

【００５６】順次および並列ＯＰＡＱ手続きの両方が提
供される。まず、φ分位数を推定するための順次ＯＰＡ
Ｑ手続きについて説明する。以下に用いられる用語は次
のとおりである。メインメモリのサイズ（Ｍ）、各ラン
(run)のサイズ（ｍ）、要素の総個数（ｎ）、ランの個
数（ｒ＝ｎ／ｍ）、各ランのサンプルのサイズ（ｓ）、
分位数(quantile fraction)（φ、ここにφ∈[0...
1]）、分位数のインデックスまたはランク（α＝φ×
ｎ）、分位数の値（ｅ_α）である。

【００５７】ＯＰＡＱ手続きは、サンプリングフェーズ
と分位数発見フェーズの２つのフェーズからなる。サン
プリングフェーズでは、データセット全体がｒ個のラン
として入力される。サイズｓのサンプルポイントのセッ
トＳ＝［ｓ₁,..,ｓ_s］が各ラン毎に決定される。ここ
に、ｉ＜ｓに対して、ｓ_i＜＝ｓ_i+1である。ｒ個のサン
プルリストは一緒にマージされ、サイズｒｓのソートさ
れたサンプルリストを形成する。このソートされたサン
プルリストは、φ分位数の真の値の上下限を推定するた
めに、分位数発見フェーズにおいて用いられる。この結
果の精度は両方のフェーズに依存する。

【００５８】サンプルフェーズは、図８により説明す
る。図８は、サンプリングフェーズを詳細に説明するた
めの概略図であり、データセットＤのサイズはｎ、各ラ
ンのサイズはｍであり、サンプルポイントは各ランから
導出される。分位数の値（ｅ_α）を推定するために、ｅ
_α∈［ｅ_α ^l，ｅ_α ^u］で、かつ、インターバル
［ｅ_α ^l，ｅ_α ^u］内の要素の個数が限定されるように、
上限ｅ_α ^uおよび下限ｅ_α ^lが決定される。サンプルは、
正規のサンプリング方法［２４］を用いて選択される。
サイズｓの１つのサンプルは、相対的なインデックスｍ
／ｓ，．．．，ｓ（ｍ／ｓ）の複数の要素からなる。各
サンプルポイントｓは、当該サンプルポイントより少な
いか等しい、かつ、前のサンプルポイントより多いか等
しいｍ／ｓ個のポイントに対応する。これらの要素を表
すためにサンプルポイントの”サブラン(sub-run)”と
いう用語を用いる。

【００５９】インデックスｋのサンプルポイントを発見
する問題は、与えられたラン内のｋ番目に小さい要素を
発見することと等価である。あるデータのセット中のｋ
番目に小さい要素を発見する問題は、”選択”問題とし
て知られている。選択問題を解くためには多くの手続き
が提案されている。これらの手続きのあるものは決定論
的であり、また他のものは確率論的であり、その詳細は
文献［４］に記載されている。

【００６０】ｓ個のサンプルポイントは次のようにして
見出される。（ｓおよびｍは、２のべき乗であるとす
る。そうでなければ、手続きをわずかに変更して同じ複
雑さを容易に維持することができる。）まず、ｍ個の要
素の中央値を見つけ、そのリストを２つの等しい部分に
分割する。次に、新たな２つのサブリストのそれぞれの
中央値を見つけ、この操作を、サブリストのサイズがｍ
／ｓに達するまで繰り返す。サブリストのサイズは、ｌ
ｏｇｓ回の繰り返しの後、ｍ／ｓに達する。ｌｏｇ
ｓ回の繰り返しの後、各々サイズｍのｓ個のサブリスト
ができあがる。

【００６１】サブリストｉの最大の要素はｉ番目のサン
プルポイントであり、これはＯ（ｍ／ｓ）内で見つける
ことができる。文献［２５］の結果を用いれば、Ｏ（m
logs）ワーストケースのランニングタイム内にｓ個のサ
ンプルポイントを見出すことができる。選択の為のラン
ダム化手続きを拡張することにより、Ｏ(m log s）の期
待時間およびＯ（ｍ²）ワーストケース時間内にｓ個の
サンプルポイントを見出すことができる。この手続き
は、小さい定数を有し、実際的にはきわめて効率的であ
る。ｒ個のサンプルリストを見出した後、これらは共に
マージされ、サイズｒｓの１つのソートされたサンプル
リストとなる。

【００６２】分位数発見フェーズは、このソートされた
サンプルリストを用いて、分位数上下限ｅ_α ^uおよびｅ
_α ^lを発見することを含む。サンプルポイントを分割す
る際、正規のサンプリング方法を用いた結果、サンプル
ポイントは次のような特性を有することが容易に示され
る。（ａ）サンプルポイントｓiと同じまたは少ない少
なくともｉｍ／ｓ要素があり、（ｂ）ｓiより少ない高
々（ｍ／ｓ）−１個の要素を各々が有する高々ｒ−１個
のサブランが存在する。よって、ｓiより少ない要素の
最大個数は式ｉ（ｍ／ｓ）＋（ｒ−１）（ｍ／ｓ−１）
により与えられる。これらの特性を用いて、分位数の下
限および上限ｅ_α ^lおよびｅ_α ^uを決定する。

【００６３】ソートされたサンプルのリストをＬｉｓｔ
をする。ソートされたサンプルのリスト内のｉ番目の要
素にｅ_α ^lを割り当てると、次のように表される。

【００６４】ｅ_α ^l＝Ｌｉｓｔ［↓（ｓ／ｍ）α−（ｒ
−１）（１−ｓ／ｍ）↓］同様に、ｅ_α ^uは、ソートされたサンプルのリスト内の
ｊ番目の要素であり、次のように表される。

【００６５】ｅ_α ^u＝Ｌｉｓｔ［↑（ｓ／ｍ）α↑］文献［４］は、次のことを示している。（１）真の分位
数と分位数下限（ｅ_α ^l）との間の要素の最大個数はｎ
／ｓである。（２）分位数上限（ｅ_α ^u）と真の分位数
との間の要素の最大個数はｎ／ｓである。（３）分位数
下限ｅ_α ^lと分位数上限ｅ_α ^uとの間の要素の最大個数は
２（ｎ／ｓ）である。

【００６６】この手続きの他の利点は、サンプルフェー
ズが分位フェーズに依存しないことである。同じソート
されたサンプルリストは、他の分位数を見出すために利
用しうる可能性がある。文献［４］は、タイミングにつ
いて考察並びに順次および並列分位手続きの各々の要件
について記載している。

【００６７】並列分位(Parallel Quantiling)を、相互
接続ネットワークを介して接続された要素計算機の少数
セット（例えば、２から数千）からなる例示的構造すな
わちマシンアーキテクチャに対して説明する。これらの
粗粒子状並列マシンは、プロセッサ間に物理的に分配さ
れたメモリを有し、プロセッサ間通信はメッセージ伝達
または共有アドレス空間を介して行われる。

【００６８】使用する相互接続ネットワークについて特
定の仮定を行うのではなく、計算の２レベルモデルを仮
定する。２レベルモデルは、通信しているプロセッサ間
の距離に関係なく、オフ・プロセッサ・アクセスのため
の一定のコストを仮定する。１つのプロセッサにローカ
ルな単位計算はコストδを有する。プロセッサ間の通信
は立ち上げオーバーヘッドτを有し、データ転送レート
は１／μである。複雑度分析のため、τとμは、リンク
混雑や２ノード間の距離に関係なく一定とした。これに
より、２レベルモデルの使用が可能となり、使用する通
信ネットワークを、プロセッサを接続する仮想クロスバ
ーネットワークとみなせる。この手続きは比較的にアー
キテクチャ非依存であり、他の相互接続ネットワーク上
でも効率的に具現化できる。

【００６９】各プロセッサは、データセットからｎ／ｐ
個の要素が割り当てられるとする。並列手続きも、ま
た、サンプルフェーズと分位フェーズの２つのフェーズ
を有する。プロセッサ当たりのランの数ｒは、ｎ／ｐｍ
に等しい。並列バージョンのサンプルフェーズは、順次
バージョンのサンプルフェーズに極めて類似している。
ｐ個のプロセッサすべてのローカルサンプルリストをマ
ージして１つのグローバルなソート済みサンプルリスト
を作るために、最後に追加ステップが必要となる。ｐ個
のリストをマージするための手続きは、一般に、並列マ
シンの使用している相互接続ネットワーク、マージされ
るべきリストのサイズ、およびプロセッサの個数に依存
する。ビトニック(Bitonic）マージおよびサンプルマー
ジ手続きは使用可能であり、これはビトニック・ソート
［２６，２７］およびサンプル・ソート［２４，２７］
の変形である。ビトニック／サンプルソートとビトニッ
ク／サンプルマージの間の唯一の差は、ローカルリスト
が既にソート済みであるため初期のソートステップが必
要ないことである。

【００７０】ｐ個のサンプルリストをマージすることに
より、プロセッサｉがｓ_rsp．．．，ｓ_rsi+rs-1要素を
有するように、サイズｐｒｓの、グローバルにソートさ
れたサンプルリストが形成される。手続きの並列バージ
ョンにおける分位フェーズは順次手続きの対応するそれ
と極めて類似している。唯一の差は、トータルのランの
個数である。順次手続きでは、トータルのランの個数は
ｒであるのに対し、並列手続きにおけるトータルのラン
の個数はｒｐである。既に説明した式を用いることによ
り、但し、順次の式においてｒの代わりにｒｐを用いる
ことにより、並列手続きにおけるφ分位数の上下限を推
定し、次のような下側および上側の並列境界(lower and
upper parallel bounds)の式に到達する。

【００７１】ｅ_α ^l _par＝Ｌｉｓｔ［↓（ｓ／ｍ）α−
（ｒｐ−１）（１−ｓ／ｍ）↓］ｅ_α ^u _par＝Ｌｉｓｔ［↑（ｓ／ｍ）α↑］並列手続きの時間的要件は、次のステップの各々に必要
とされる時間の和である。（ａ）ローカルにディスクか
らｎ／ｐ個の要素を読み出し、（ｂ）ローカルにｒｓ個
のサンプルポイントを見出し、（ｃ）ローカルにｒ個の
サンプルリストをマージし、（ｄ）グローバルにｐ個の
サンプルリストをマージし、（ｅ）φ分位数の値を推定
する。文献［４］はこれらの複雑性およびタイミング特
性を詳細に記載している。

【００７２】ＯＰＡＱは、データセット全体に対してワ
ンパスで、等深度ヒストグラムの良好な境界近似（good
bounded approximation）を生成する。ＯＰＡＱ手続き
の特徴は、この手続きが次のことを保証することであ
る。すなわち、各サブ領域は、多くとも（ｎ／ｚ＋ｎ／
ｓ）個のポイントを有するとともに、少なくとも（ｎ／
ｚ−ｎ／ｓ）個のポイントを有する。ここに、ｓはＯＰ
ＡＱ手続きのＯＰＡＱサンプルサイズパラメータであ
り、ｚは箱の個数であり、ｎはデータセット内のポイン
トの個数である。

【００７３】ＰＱ、ＰＱＥＳＴおよびＰＷの適用可能な
例示的手続きとしてＯＰＡＱ手続きを説明してきたが、
本発明の方法に関して、他の分位手続きを用いてもよ
い。

【００７４】図７のフローチャートに、ＰＱ手続き（図
４のステップ１１１）の実施形態を模式的に詳細に示
す。データベース空間は複数の非重複領域（サブ領域）
に分割されており、各サブ領域は１または複数のプロセ
ッサを有することを想起されたい。プロセッサの個数は
次のようにして決定される。第１のレベルでは、各サブ
領域内にＰ／ｚ個のプロセッサが存在するように、プロ
セッサが分割される、すなわち割り当てられる。第２の
レベルでは、Ｐ／ｚ²個のプロセッサが存在するように
この処理が行われ、レベルＤでＰ／ｚ^D個のプロセッサ
が存在するようになるまでこの処理が繰り返される。
（レベルＤでは、サブ領域当たり１個のプロセッサが存
在することに留意されたい。）より一般的には、レベル
Ｌでは、各サブ領域内にＰ／ｚ^L個のプロセッサが存在
する。

【００７５】ＰＱ手続きでは、まず、各サブ領域につい
てｉ番目の次元を用いて、ｐ^(1/D)個の分位数を推定す
る。各サブ領域に適用可能な分位数の推定後、推定され
た分位数の値を用いて、各サブ領域をｐ^(1/D)個のサブ
パーティションに分割する（ステップ２０３）。その
後、分位数の値を用いて、ｐ^(1/D)個の新たなサブパー
ティションに対してデータセット（ＤＳ）を再分配す
る。サブ領域ｊに属する各プロセッサが他のサブ領域の
他のプロセッサとほぼ同じ個数のポイントを受領するよ
うに、サブ領域に対してポイントを再分配する。ｄ次元
（ｑ₁，ｑ₂，．．．，ｑ_d）を有する１つのポイントは
サブ領域ｊに割り当てられる。ここに、ｊは次の条件を
満たす最小の値である。その条件は、ポイントｑの第１
次元（すなわちｑ₁）がｊ番目の分位数（Ｑ_j）と同じか
それより小さい、すなわちｑ₁≦ Ｑ_jとなることである
（空間をプロセッサに対して分割するために第１の次元
ｑ₁が最初に用いられるとして）。この再分配の後（ス
テップ２００ｂ）、現在のｉ番目の次元がポイント
（Ｄ）の最高次元に等しいか否かの比較が行われ、等し
ければ、ＰＱ手続を終了する（ステップ２０６）。等し
くなければ、ＰＱ手続（ステップ２００ｂ）が、イン
クリメントされたｉ番目の次元の各新たな領域に適用さ
れる、すなわちＰＱ（ｄｓ，ｉ＋１）。（ステップ２０
０ａ，２００ｂは異なるデータに対して実行される同じ
手続を表すことに留意されたい。）ＰＱ手続の各繰り返しの際、選択された未使用の共通次
元を用いて各領域で再帰的（反復的）に同じ処理が実行
される。再帰的または繰り返し処理の後、ｐ^i/D個のサ
ブ領域が存在することになる。ここに、各サブ領域は、
動作を実行するためのｐ^(D-i)/D個の関連したプロセッ
サを有する。

【００７６】ＰＱ手続（ステップ２００）の高レベルな
記述は、次の疑似コード表現(pseudo code representat
ion)で表される。

【００７７】 function Partioning (Step 200) for i=1 to D do for each partition do in parallel Estimate the z=p^1/D quantiles using the i^th dimention in each partition. Redistribute the points using the quantile values. 本発明のＰＱ手続のコストＣはパーティションの次元数
Ｄに比例する。より多くの次元に沿った分割は、一般
に、非ローカル領域を検索するために交換されるデータ
ポイントの個数を減少させる。しかし、一方でこれは、
各プロセッサが通信する必要があるプロセッサの個数を
増加させるので、通信のコストを増加させるおそれがあ
る。典型的には、Ｄは、全体の所要時間の最小化のため
の最も現実的なシナリオにおいては、１または２であ
る。しかし、分割次元がポイントの次元数より小さい限
り（すなわちＤ≦ｄ）、Ｄは任意に大きくすることがで
き、３，４，５等の値をとりうる。

【００７８】空間を分割するために用いられる特定の次
元の選択は、ローカルε−ｋ−ｄ−Ｂツリーの組立、非
ローカル領域検索およびジョインフェーズの性能にも影
響を与える。有利なことに、人は、スキューの最も小さ
い次元および、それらの間の最小の関係を有する次元を
用いることを好む。また、ポイントのほぼ均等な分配を
有する次元を選択することにより、典型的には、残りの
フェーズのコストを低減させることができる。

【００７９】後続の分割に最も効率的な次元を用いるこ
とができるように、次のように、次元に沿ったスキュー
を推定するために分位手続を用いてもよい。繰り返しｉ
の初めに、すべての未使用の次元に沿った分位数の値、
またはそれらのサブセットを推定し、分位数の値の間の
距離規準を用いて、これらの次元の各々のスキューを推
定する。次に、最小のスキューを有する次元を、疑似コ
ードに示されたような現在の再帰レベルまたは繰り返し
における分割に利用されるべき次元として選択する。あ
る場合には、１つの最適な次元を選択するために２次元
以上に沿って前分割分位数(pre-partitioning quantile
s)を生成することのオーバーヘッドが潜在的な利点より
大きくなり、この場合、全体のプロセスを考慮したとき
には各繰り返しに異なる次元を用いる方法は最適ではな
い。

【００８０】これまで説明した分割について、ツリーの
グローバル部分は必ずしもε−ｋ−ｄ−Ｂツリーの特徴
を有していないことに留意されたい。なぜなら、分割の
実行の際にεを考慮しておらず、むしろ、各パーティシ
ョンはｐ^1/D個のサブパーティションに分割されたにす
ぎない。

【００８１】他の実施形態として、グローバル分割の各
次元についてｐ^1/D個のサブ領域を用いる代わりに、可
変数ｚ_Lのサブ領域を選択するようにしてもよい。ｚ_L
の各レベルＬの箱の個数は各レベルに対して異なっても
よく、任意の隣接分位数の値が少なくともεだけ離れる
ような最大の値となるよう、各レベルで選択される。概
して、箱の総数は、各レベルの箱の個数の積であり、次
式で与えられる。

【００８２】

【数３】

【００８３】例えば、分割の総数がプロセッサの総個数
に一致するように、但し、各レベルのｚ_L箱の個数が異
なるように、各レベルでデータセットを異なる個数のｚ
個の箱(z-bins)に分割するよう選択してもよい。ＰＱ
分割手続をｚ_L個のサブ領域で具現すると、グローバル
ツリーがε−ｋ−ｄ−Ｂツリーの特性を有することを保
証することができ、サブパーティションは２つの隣接す
るサブパーティションとだけジョインされる必要がある
ようにする。各レベルに同じ個数の箱がある場合でも、
隣とだけジョインすればよいが、各箱の幅はεより相当
大きくなりうる。

【００８４】ＰＱ^EST分割手続例示的なＰＱ実施形態では、データポイントは、ポイン
トの次元数に応じてｐ個のプロセッサに対してＤ回再分
配される。この再分配処理は、比較的多くのプロセッサ
間通信回数を必要とする。データポイントを再分配する
ための繰り返し回数は、本発明の方法の他の特定のＰＱ
ＥＳＴ実施形態においては単一回の繰り返しに低減する
ことができる。これは、データセットをランダムサンプ
リングすることによりＰＱ手続の分位処理部分を近似化
することによって行える。ＰＱＥＳＴ手続の実施形態を
示すフローチャートを図９に示す。このランダムサンプ
リングは、ツリーのグローバル部分を組み立てるため
に、ＰＱ手続の残りの部分で利用される。ツリーのグロ
ーバル部分は、プロセッササブ領域（例えば図６に示し
たようなＰ１，Ｐ２，．．．，Ｐ１６）を決定する。プ
ロセッサ領域を決定した後、ＰＱ手続について、データ
ポイントのセット全体がプロセッサに対して１回だけ再
分配される。典型的には、約２％から約１０％までのサ
ンプルサイズが適当である。２％より小さい（例えば約
１％）サンプルセットも利用できるが、このような小さ
いサンプルセットは全データセットの代表であるとは全
くいえないであろう。約１０％を超える、例えば、１０
％から２５％のサンプルセットについては、ある種の余
裕の改善がありうるが、より大きなサンプルセットの処
理にかかる追加時間からみてそのような大サイズは正当
なものではないであろう。

【００８５】ＰＷデータ分割手続ＰＷ手続は、データセット内のポイントの総個数を負荷
規準として用いる。ＰＱ^Est手続はＰＱと同じ負荷規準
を用いるが、データセット全体ではなくサンプルセット
に基づいて分割を決定するので、より効率的である（例
えば、より低いコストを有する）。ＰＱ手続またはＰＱ
ＥＳＴ手続のいずれの場合も、各プロセッサ負荷規準に
ポイントの個数を用いることは、データセットの分配に
スキューがある場合に負荷バランスの劣化を招来しう
る。これに対し、ＰＷ手続という分割手続の他の実施形
態は、負荷規準としてジョインテストの回数を用いる。
類似ジョイン全体の殆どの計算集中部分は一般にジョイ
ンテスト部分なので、より良好な負荷均衡化が達成され
る。

【００８６】ＰＷ手続は空間をｐ個の領域に分割する。
その各領域に対応するポイントに関するワークまたはコ
スト（コスト＝ジョインテストの回数＋横断コストであ
ることを想起されたい）の量がほぼ等しくなるような領
域境界を各領域は有する。与えられた１つのポイントに
関連したワーク負荷の計算には類似ジョイン全体（我々
はこれを並列化しようとしている）を実行する必要があ
る。しかし、最初に、我々はこれを行うために、まず、
そのサンプルのみに対してＰＱ分割法を用いてサイズｓ
の小サンプルデータについて（並列に）類似ジョイン計
算を行う。ＰＷ分割フェーズの詳細な説明は、全ＰＷ手
続（ステップ１１３）を表した図１０のフローチャート
により示されている。

【００８７】まず、サイズｓのデータセット全体のラン
ダムサンプル（Ｓ）を得る（ステップ３０１）。次に、
ランダムサンプルＰＱ（Ｓ，１）に対してＰＱ手続（既
に説明済み）を適用する（ステップ１１１）。ここに、
Ｓはサンプルデータを表し、１は分割の第１レベルを表
す。分割されたランダムサンプル（ＰＱ（Ｓ，１））に
基づいて、ローカルε−ｋ−ｄ−Ｂツリーが組み立てら
れ（ステップ３０２）、交差領域が同定されプロセッサ
間で交換される（ステップ３０３）。次に、ジョインテ
ストの回数を計算するためだけにジョインを実行する
（ステップ３０４）が、ジョインは実際には行わず、後
述する式Ｗ＝ｆ（ｐｔ）＝ｒｄ＋ｋ３^Depthを用いて、
ジョインテストの回数に基づいてポイント重み（Ｗ）を
計算する（ステップ３０５）。一旦、ポイント重みＷが
決定されれば、重み付け分割（ＰＷ（Ｓ，Ｗ，１）手続
（ステップ５００）が適用される。最後に、先に同定さ
れた領域境界を用いて、複数のプロセッサ間にデータセ
ット全体を１回再分配する。これにより、ＰＷ手続を終
了する（ステップ３０７）。

【００８８】次に、図１１の例示的なフローチャートを
参照して、ローカルツリー組立手続（ステップ３０２）
を説明する。まず、空のリーフノードをルートノードと
して初期化し（ステップ３０２ｂ）、ついで、第１また
は次のポイントｑをローカルツリーに追加する（ステッ
プ３０２ｃ）。すべてのポイントが追加されるまでこれ
を繰り返し、その時点で、ローカルツリー組立すなわち
構築手続が終了する（ステップ３０２）。図１１で簡単
に説明した、ローカルツリーへポイントｑを追加する手
続は、次に、図１２を参照してより詳細に説明する。ま
ず、リーフノードｘに到達するまでローカルツリーを横
断する。レベルｉにおいて、次元ｄ_iを用い、子供ノー
ドｊの経路に従う。もし天井［ｑ_di／ε］＝ｊであれ
ば、ポイントｑをリーフノードｘ内に入れる（ステップ
３２０）。次に、リーフノードｘ内のポイントの個数を
しきい値ポイント数と比較し（ステップ３２１）、これ
が予め定めたすなわちプリセットしきい値より大きけれ
ば、当該リーフノードｘを、天井［１／ε］子供ノード
を有する内部ノードに変換するとともに（ステップ３２
２）、ノードｘ内の各ポイントを、この新たな内部ノー
ドを有するサブツリーに、そのルートノードとして追加
する（ステップ３２３）。そうでなければ、この手続を
終了する（ステップ３２４）。

【００８９】繰り返しＰＷ分割手続ＰＷ（Ｄ，Ｗ，ｉ）
内の重み供給部分または手続を、図１３のフローチャー
トに示す（ステップ５００）。まず、各サブパーティシ
ョンについて並列に次元ｉに沿ってデータセットＤをソ
ートする（ステップ５０２）。次に、各サブパーティシ
ョンについて並列に、ポイント重み（Ｗ）に対して、プ
リフィクス合計(prefix-sum)手続（別の箇所で説明）を
実行する（ステップ５０３）。次に、各サブパーティシ
ョンについて並列に、領域境界を用いてこのデータセッ
トを複数のプロセッサに対し再分配する。ソート、プリ
フィクス合計計算、および再分配ステップ（ステップ５
０２，５０３，５０４）の各々は、ツリー深さｄ以下の
各次元についてそれらが完了したことが比較の結果分か
るまで（ステップ５０５）、各次元ｉについて実行され
る。完了した時点で、この重み付け分割は終了する。そ
うでなければ、次元ｉをインクリメントして（ｉ＝ｉ＋
１）、各新たなサブパーティション（例えばＰＷ（ｄ
ｓ，ｗ，ｉ＋１）について重み付け分割手続を実行する
（ステップ５００ｂ）。

【００９０】ＰＷ手続（ステップ３００）の高レベルの
記述は、次のような疑似コード表現によって与えられ
る。

【００９１】 Function Partitioning 1 (Step 300) Draw a random sample of size s from all the processors Run the PQ procedure on the sample points Assign wights to the sample points for i = 1 to D do for each partition do in parallel Sort the sample points along dimention i Perform prefix-sum on the point weights Find the region boundaries Redistribute the sample points Redistribute the entire data set using the region boundaries 基本分割モデルに対するこの拡張では、各ポイントにつ
いてのジョインテストの回数を計算するのみで、この処
理中にジョイン出力は何ら生成しない。実行される必要
があるジョインテストの回数は、サンプルツリー内の各
ポイントの重みｗを決定するために用いられる。ポイン
トｑの重みは、そのポイントの回りの領域内に必要とさ
れるワークに比例すべきである。ＰＷ手続の下では、こ
の重み付け情報は、分割およびデータセット全体の再分
配を案内するために用いられる。グローバルツリーは、
データセット全体に基づくのではなく、サンプルポイン
トおよびサンプルポイントに関連づけられた重みのみを
用いて組み立てられる。この手続の第２のステージは、
領域ツリーを用いてプロセッサ間にポイントのフルセッ
トを再分配する。

【００９２】ここで、ＰＷ手続の第１のステージについ
てより詳細に説明する。ＰＱ手続ではポイントに対して
暗黙的に等しい重みが割り当てられたことを想起された
い。これに対して、ＰＷ手続は、次の２つの要因に基づ
いてポイントに重みを割り当てる。（１）各ポイントに
ついて必要なジョインテストの推定された回数、および
（２）各ポイントについてツリーを横断するコスト。正
式には、ＰＷ手続は、ポイントに重みを割り当てるため
に次式を用いる。

【００９３】Ｗ＝ｆ（ｐｔ）＝ｒｄ＋ｋ３^Depth （６）ここに、Ｗはポイントの重み、ｄはデータポイントの次
元数、ｋは、ｒＤ計算（ジョインコストの一種）および
ｋ３^Depth計算（横断コストの一種）（これはマシンま
たはハードウェアに依存する）の相対的計算効率に関し
て経験的に定められた正の定数、ｒはサンプルポイント
ｐｔに対するジョインテストの推定された回数、Ｄｅｐ
ｔｈは、データセットの分配が均一であるという仮定の
下のε−ｋ−ｄ−Ｂツリーの推定された深さである。上
記式内の数値“３”は、各ノードがそれ自身の最大のも
のおよび２つの隣接ノードとジョインするというε−ｋ
−ｄ−Ｂツリーの特性に対応している。ｋは、比較演算
対浮動小数点演算におけるマシン毎の変動に基づいて経
験的に決定する。典型的には、ｋは約１から約３の範囲
内にあり、より典型的には約１と約２の間であり、決定
される重みは、この範囲内ではｋの敏感な関数ではな
い。３^Depthはジョイン手続の過程で訪れたノードの最
大個数であることに留意されたい。

【００９４】ＰＷ手続では領域境界の発見の際にポイン
トの重みが考慮されるということを除いて、ＰＷ分割手
続はＰＱ分割手続とほぼ同じである。多繰り返しＰＷ分
割処理の各繰り返しにおいて、各領域について２ステッ
プの計算を実行する。そのステップは、サンプルポイン
トをグローバルにソートすること、およびその後に、ポ
イントの重みに対してプリフィクス合計を計算するこ
と、および、これに関連した、重みＷの総合計の計算で
ある。

【００９５】サンプルポイントのグローバルソートに関
して（この場合、データの一部は各プロセッサ内に位置
し、そのソートは全プロセッサを使用する）、文献上で
は、本発明の構造および方法とともに使用できる多くの
並列ソート手続が存在する。文献［３，１５］に記載さ
れたようなサンプルソートを用いてもよい。このタイプ
のサンプルソートは極めて効率的であると示されている
からである［３，１５］。ただし、この代わりに、他の
並列ソート手続を用いることも可能である。次に、ポイ
ント重みに対してプリフィクス合計を実行する。プリフ
ィクス合計は３つのステップで効率的に計算しうる。第
１のステップでは、各プロセッサｉがそのローカルポイ
ントの合計ｗ_i ^sumを個別に計算する。第２のステップ
は、このｗ_i ^sum値に対してグローバルなプリフィクス
合計演算を実行する。この演算は、入力のサイズが１な
ので［１３］、極めて安易である。第３のステップで
は、各プロセッサｉはそのローカルポイントのプリフィ
クス合計を独立に計算する。また、このプリフィクス合
計の計算処理中、重みの総合計Ｗを計算することもでき
る。

【００９６】ポイントｑは、値ｑ［ｖ］、重みｑ
［ｗ］、およびプリフィクス合計ｑ［ｐｒｅｆ］を有す
る。我々は、ｚ−１個のポイントｂ₁，ｂ₂，．．．，ｂ
_z-1を見つけたい。これらは領域境界すなわち（１）ｂ_i
＜ｂ_i+1∀ ０＜ｉ＜ｚ−１であり、かつ（２）各領域の
重みの合計はおよそＷ／ｚである。

【００９７】上述した、領域およびこれらに関連した領
域境界を生成するＰＷ分割手続を用いることにより、各
領域に関連した重みの合計Ｒ_i ^sumがＷ／ｚより小さいか
これと等しいことが保証される。ここに、αはポイント
の最大重みであり、数学的な表現では、各領域についてＲ_i ^sum ≦（ｗ／ｚ）＋∝ となる。これは、１次元における負荷不均衡の量であ
り、これは全計算に対して達成される負荷バランスに影
響を与えるので、重大である。

【００９８】各プロセッサは、個別に、領域境界のサブ
セットｂ_iを決定または同定する。ここに、各ｂ_iは、
次の２つの条件が満たされる場合のソートされたリスト
内のポイントｑ_jである。

【００９９】

【数４】

【０１００】

【数５】

【０１０１】これらの式中の表記”↓ｇ↓”は”ｇの
床”を取ることを意味する。ここに、”床”とはｇより
小さい直近の整数である。例えば、↓５．５↓は５であ
る。同様に、表記”↑ｇ↑”は”ｇの天井”を意味す
る。ここに、ｇの天井とは直近の大きい方の整数であ
る）ことを想起されたい。例えば、↑５．５↑は６であ
る。

【０１０２】各プロセッサは、そのローカルサンプルポ
イントをプロセッサ間に分割するために、他のプロセッ
サの領域境界ｂ_iを必要とする。よって、プロセッサの
相互接続ネットワーク上のAll-Processor-to-All-Proce
ssor同報動作（各特定のプロセッサがすべての他のプロ
セッサに対して、その境界領域または境界ポイント情報
もしくはデータを同定する同一メッセージを送信する）
が、文献［１３］に記載のように、他のプロセッサに対
して境界領域または境界ポイント情報もしくはデータを
要求する。他のプロセッサの情報を受信しているプロセ
ッサのすべてが実際のそれを必要として利用するという
訳ではないが、この動作はそれを通信する効率的な方法
である。先に、かつ文献［４］に記載されたＯＰＡＱの
ような適当な分位手続（これは分位パラメータを定める
ためにサンプルセットを用いた）を用いることができる
が、ＰＱＥＳＴおよびＰＷ手続で得られる効率の故に、
そのようなＯＰＡＱ近似を用いない、さらに一層良好な
負荷均衡化の可能性がある、より正確および／または高
精度な分位手続を適用してもよいことに留意されたい。
ＯＰＡＱ以外の多くの分位手続は既知であり、使用する
ことができるが、これ以上の説明は省略する。ＰＷ手続
で空間をＰ個の領域に分割した後、領域境界を用いてデ
ータセット全体をプロセッサ間に再分配する。

【０１０３】ＰＷサンプルセットのサイズは負荷バラン
スの精度および分割手続のオーバーヘッドに影響する。
すなわち、サンプルデータセットが大きくなるほど、概
して、負荷バランスの精度が向上する。概して、ＰＷ手
続を用いる分割のコストは、すべての他の要因が等しい
として、ＰＷ手続の分割のコストより大きい。しかしな
がら、中から大のデータスキューがある場合、通常、Ｐ
Ｗ手続はＰＱ手続に勝る。なぜなら、存在するデータス
キューは、原則として、ポイントの重み付けによりある
程度相殺されるからである。基本モデルに対する他の拡
張として、追加機能が折衷(hybrid)手続の形で与えられ
る。これは、データスキューの程度に基づいて、２つの
手続の一方（ＰＱまたはＰＷ）を選択的に起動するもの
である。このような選択は、スキューの推定に関連した
計算負荷増大のおそれがあるにも拘わらず、有用であり
うる。

【０１０４】ローカルツリー組立手続（ステップ１２
０）従来技術であり、明細書の他の箇所に記載したこのロー
カルツリーフェーズ手続（ステップ１２０参照）におい
ては、各プロセッサは、ローカルデータポイントのみを
用いて、ε−ｋ−ｄ−Ｂツリーを組み立てる。このロー
カルツリーの組立は、ポイント再分配の際に、各プロセ
ッサに分配されたポイントに対してローカルに適用され
る。このツリー組立手続は、ＰＱ，ＰＱＥＳＴまたはＰ
Ｗの再分配されたデータセットについて同じであるが、
ツリーを組み立てるポイント自身は一般にどのプロセッ
サが用いられたかに依存する。

【０１０５】交差領域手続（ステップ１３０）領域フェーズ（ステップ１３０）は、図１４のフローチ
ャートに示す。各プロセッサは、類似ジョインの実行の
ために非ローカルデータ（例えば、他のプロセッサから
のデータ）を必要とし、このフェーズでは、各プロセッ
サは、次の手続でこの情報を交換する必要がある特定の
１または複数の他のプロセッサを決定する（ステップ４
０１）。プロセッサｐ_iが通信する必要があるプロセッ
サの組をＩｎｔｅｒ_iとする。ここに、用語“Ｉｎｔｅ
ｒ”は交差セット（"intersections set"）を表すもの
として選択された。各プロセッサｐ_iは、ツリーのグロ
ーバル部分を用いてＩｎｔｅｒ_iセットを決定する。範
囲問い合わせ（Range-Query）を用いるジョイン手続の
ようなジョイン手続または任意の他のジョイン手続をグ
ローバルツリーに対して実行することにより、プロセッ
サｐ_iと交差する領域を有する他のすべてのプロセッサ
を決定または同定する。範囲問い合わせ手続は、一般
に、２つの領域境界の間のすべてのポイントを与えるも
のであり、１次元またはそれ以上の空間に対して実行す
ることができる。範囲問い合わせはの多くの具現例が知
られており、これ以上の説明は避ける。

【０１０６】さらに、プロセッサｊをＩｎｔｅｒ_iセッ
トに属するものとする。プロセッサｐ_i，ｐ_jは、両者の
間の交差領域を決定する必要があり、これにより、当該
交差領域により貢献されるジョイン出力を生成可能とす
る。各プロセッサは、この決定を行うために、まず、ツ
リーのグローバル部分を用いて隣接プロセッサを決定す
る（ステップ４０１）。当該交差領域を決定した後、プ
ロセッサｐ_i，ｐ_jは、交差領域に属する幾つかのポイン
トを互いに送信しあう。１対のプロセッサ間の交差領域
を発見するためには、幾つかの方法がある。その３つの
例を以下に説明する。

【０１０７】プロセッサｐ_i，ｐ_j間の交差領域を発見す
るための簡単かつ幾分素朴な方法は、次のように働く。
両プロセッサｐ_i，ｐ_jは、まず、ある共通の次元Ｒに沿
ってそれらのローカルポイントをソートする。次元Ｒに
沿ったプロセッサｐｉのソートされたリスト内の最大及
び最小値をｍａｘ_i，ｍｉｎ_iとする。また、プロセッサ
ｐ_jについても同様に、ｍａｘ_j，ｍｉｎ_jが定義され
る。お互いのε距離以内のポイントを探しているので、
両プロセッサの領域は各方向に沿ってεだけ拡張され
る。プロセッサｐ_iの拡張された領域は、ｍａｘ_iε＝
ｍａｘ_i＋ε、かつ、ｍｉｎ_iε＝ｍｉｎ_iε−εで定義
される。同様に、プロセッサｐ_jの拡張された領域は、
ｍａｘ_jε＝ｍａｘ_j＋ε、かつ、ｍｉｎ_jε＝ｍｉｎ_jε
−εで定義される。プロセッサｐ_i，ｐ_j間の拡張された
領域は、境界ポイント（ｍａｘ_iε，ｍｉｎ_iε，ｍａ
ｘ_jε，ｍｉｎ_jε）を用いて定義され、各プロセッサ
は、他のプロセッサの拡張された領域を用いて当該他の
プロセッサにより必要とされているポイントを決定する
ことができる。この第１の方法の不都合な点は、プロセ
ッサ間で必要以上に多くのポイントが交換され、そのた
め、プロセッサ間通信の必要性が増大することである。

【０１０８】他のより洗練された方法を適用することに
より、交換されるポイントの個数を減少させることがで
きる。これは、各プロセッサが、後述する“SimpleLeve
l”リストおよび“Level”リストを組み立てることであ
る（ステップ４０２）。この方法では、複数のプロセッ
サの各々のローカルε−ｋ−ｄ−Ｂツリーを用いて、交
差領域を同定する。この第２の方法の１つのパラメータ
は、ローカルε−ｋ−ｄ−Ｂツリーのレベルに相当する
レベル数Ｌである。このレベルＬについて、各プロセッ
サｐ_i（またはｐ_j）は、SimpleLevelj^L（またはSimpleL
evel^Li）およびLevel^Li（またはLevel^Lj）によりそれぞ
れ表される第１および第２のリストを生成する。これら
の２つのリストは、各プロセッサｐ_i（またはｐ_j）のロ
ーカルツリーのＬ番目のレベルを表す。 SimpleLevel^Li
リスト内のエントリｒは、ｒ番目のサブツリーＲを表
す。このエントリは実質的に２値のフラグであり、その
レベルのサブツリーが空（“０”）かまたは非空
（“１”）かに応じてゼロ（“０”）またはイチ
（“１”）の値を取る。勿論、逆の論理を採用すること
も可能であり、同じ機能を有する他の標識で代用するこ
とも可能である。Level^Liリストのエントリｒは、ｒ番
目のサブツリーＲ、およびジョイン出力を生成するため
にツリーのＬ番目のレベルのＲとジョインされる必要の
あるすべてのジョイン可能なサブツリーを表す。サブツ
リーＲまたはそのジョイン可能なサブツリーのいずれか
が非空であれば、このLevel^Liリストのエントリには
“１”の値が割り当てられる。そうでなければ、“０”
の値が割り当てられる。“SimpleLevel^L”リストおよび
“Level^L”リストのサイズは（１／ε）^Lであり、これ
はまた、指数Ｌで累乗されたツリーブランチ係数(tree
branch factor) （ｂ^L）に等しい。

【０１０９】これらのリストを組み立てる際に使用され
るレベル（Ｌ）パラメータの値は、全体の手続の性能に
影響を与える。典型的には、Ｌの値が大きければ、リス
トの組立、送信／受信のコストが増加する。一方、大き
いＬの値は、交差領域の一部となるポイントの個数を減
少させる。その結果、適切なレベルパラメータの選択に
はある種のトレードオフがある。

【０１１０】Ｌの固定値を用いる代わりに、第３の他の
方法として、次のようにＬの値を動的に決定することが
できる。Ｌのある小さい値、例えば、１または２からス
タートし（すなわちレベルを変化させる）、当該初期の
小さいＬを想定する交差領域を決定する。この交差領域
に属するポイントの個数が多ければ、Ｌの値をある所定
の値だけ増加させ（例えば１または２だけ増加させ）、
Ｌの値があるユーザの定めた最大値に達するまで、また
は、プロセッサ間で交換されるポイントの個数が小さく
なるまで、この処理を繰り返す。Ｌの最適なまたは最適
に近い値を決定するのは常に容易なことではなく、その
ような値は、典型的には、システムパラメータに基づい
て経験的に決定される。典型的には、Ｌは約１から約５
の間の値であり、より典型的には１から３の範囲内であ
り、さらにより典型的には約１から２の範囲内である。

【０１１１】一旦、適当なレベルＬのパラメータが決定
され、リストが生成されたら、プロセッサｐ_i，ｐ_jは、
それらのレベルリストを交換する（ステップ４０３）。
ε−ｋ−ｄ−Ｂツリーの特性から、任意の内部ノードｘ
について、ノードｘの子供ｙ内のポイントはノードｘの
他のいずれの子供ｙのいずれのポイントからもε以上離
れている（ただし、文献［２］に記載のように、ｙに隣
接する２つの子供については除く）ことが分かる。よっ
て、 SimpleLevel^L _i[r] = 1 （またはSimpleLevel^L _j[r]
= 1）かつ、Level^L _j[r] = 1（またはLevel^L _i[r] = 1）
であれば、プロセッサｐ_i（またはｐ_j）のサブツリーｒ
のポイントは、プロセッサｐ_j（またはｐ_i）との交差領
域の一部である。

【０１１２】各プロセッサは、自身の"SimpleLevel"リ
ストとその隣接プロセッサのすべての"Level"リストと
の間でブールすなわち論理“ＡＮＤ”演算を行うことに
より交差領域を見いだす（ステップ４０４）。最後に、
以下に詳述するようなローカルまたはグローバル割り当
て法を用いて交差領域の割り当てを行う（ステップ４０
５）。さらに、交差領域の決定後、各領域内のポイント
の個数を最小化するために、前述した方法の最適な一つ
を用いることができる。

【０１１３】図１５は、本手続の領域フェーズでプロセ
ッサｐ_i，ｐ_jのローカルε−ｋ−ｄ−Ｂ間の交差領域を
同定する方法を図示している。サブツリーの領域のタイ
プとして次の３つが示されている。（ａ）幾つかのポイ
ントを有する非空サブツリー、（ｂ）ポイントを全く有
さない空のサブツリー、および（ｃ）部分的に交差して
いる、すなわち、交差領域の一部であるサブツリー。こ
れらの異なるタイプのサブツリー領域は図において異な
るシェーディングで示されている。

【０１１４】各プロセッサについて、上述したようにシ
ンプルレベルリスト (simple levellist)が作成され
る。プロセッサｐ_iについては、シンプルリストは２進
値"11111111 0000 0000"を有し、レベルリストは２進
値"1111 1111 1111 0000"を有する。プロセッサｐ_jにつ
いては、シンプルリストは２進値”００００００１１
１１１１１１１１”を有し、レベルリストは２進
値”０１１１１１１１１１１１１１１１”を有す
る。プロセッサｐ_jのシンプルレベルリストは、プロセ
ッサｐ_jのレベルリストとの間で、ビット毎に論理的に
“ＡＮＤ”され、結果リスト"0111 1111 0000 0000"が
できあがる。同様に、プロセッサｐ_jのシンプルレベル
リストは、プロセッサｐ_jのレベルリストとビット毎に
ＡＮＤされ、その結果、プロセッサｐ_jの結果リストが
値"0000 0011 1111 0000"を有する。結果リストが
“１”であるサブ領域は、交差領域の一部であるサブツ
リーを表し、プロセッサ間通信に参加する。結果リスト
データ構造内に“０”を有するサブ領域は、プロセッサ
間通信に参加しない。

【０１１５】ａおよびｂが同じプロセッサに属する（例
えば、両方ともがｐ_iに属する、またはｐ_jに属する）よ
うな潜在的な結果ポイント（ａ，ｂ）については、これ
らの２つのポイントを包含するプロセッサにより計算が
行われるものとする。しかし、ａおよびｂがそれぞれ
異なるプロセッサｐ_i，ｐ_jに属する場合には事情が違
う。この計算は、プロセッサｐ_iまたはｐ_j上で行うこと
ができる。また、この計算は、プロセッサｐ_i，ｐ_jと異
なるプロセッサ上で行うことも可能である。しかし、異
なるプロセッサ上でこの計算を行うことは、通常、不都
合である。というのは、負荷バランスを相当に改善しな
ければ、余分なプロセッサ間通信が発生してしまうから
である。

【０１１６】スキューのあるデータセットについては、
そのようなポイントに対して不適当に計算を割り当てる
と、ローカルデータポイントのみを必要とする計算のバ
ランスが極めて良好であったとしても、かなりの負荷不
均衡が生じるおそれがある。プロセッサｐ_i，ｐ_jは、好
ましくは、良好な負荷バランスが得られるように交差領
域のポイントの幾つかを交換する。この問題は、ｐ個の
プロセッサが存在する場合の最適化問題である。各プロ
セッサは、他のプロセッサとの間で交差領域を有する。
ここで、プロセッサｐ_iにローカルなポイントであっ
て、かつプロセッサｐ_i，ｐ_j間の交差領域に属するポイ
ントの個数をｎ_ijとする。このｎ_ij個のポイントの幾つ
かをプロセッサｐ_iに割り当て、ｎ_ji個のポイントの幾
つかをｐ_jに割り当てるのが好都合である。

【０１１７】そのために、これらの計算の割り当てのた
めのローカルおよびグローバル割り当て法が開発されて
いる（ステップ４０５）。これらの２つのタイプの割り
当て法は、主として、グローバル情報とローカル情報の
いずれを用いるかで異なる。グローバル情報に基づく方
法（ｎ_ij∀１≦ｉ，ｊ≦Ｐかつｉ≠ｊ、ここにＰはプ
ロセッサの総数）は、この割り当てを行うためにすべて
のプロセッサに関する情報を用いる。ローカル情報に基
づく方法は、プロセッサｐ_iによりそのプロセッサのＩ
ｎｔｅｒ_iリストから得られた情報のみを利用する（す
なわち、ｎ_ijとｎ_jiのみを用いる。グローバル割り当
て法は、典型的には、プロセッサ間のより良好な負荷バ
ランスをもたらすものと期待されている。しかし、この
方法の好ましくない点は、潜在的にコストが高く、か
つ、その複雑度がＰ²に比例するのでスケーラビリティ
(scalability)に劣ることである。グローバルまたはロ
ーカル割り当て法は、そのいずれを用いてもよく、以下
のセクションでは、例示的実施形態を説明する。その
後、交差領域を決定する処理を終了する（ステップ４０
６）。

【０１１８】１つの特定の例示的なグローバル手続で
は、各プロセッサは、すべてのグローバル情報のコピー
を有する。これは、サイズＰ×Ｐの行列（領域行列：Re
gionMatrix）として表すことができる。エントリRegion
Matrix[i,j]（ここに、前述のように１≦ｉ，ｊ≦Ｐか
つｉ≠ｊ）はプロセッサｐ_iにローカルであり、プロセ
ッサｐ_i，ｐ_j間の交差領域に属する。この手続は、一連
の判定を繰り返して行う。まず、RegionMatrixの各コラ
ム（列）の総合計(TotalSum)を計算する。TotalSum_iはT
otalSumRegionMatrixのｉ番目のエントリであり、プロ
セッサｐ_iにおいて、交差領域を共有する他のプロセッ
サから受信する可能性のあるポイントの総個数を表す。
最初に、この手続は、すべてのプロセッサを初期化また
はアンマーク(unmark)し、多くともｐ−１回（ｐはプロ
セッサの個数）、次のステップを実行する。（１）アン
マークされたプロセッサ間の、例えば、プロセッサｐ_j
のTotalSum_iの最小のエントリを見つけだす（ステップ
４２１）。（２）プロセッサｐ_jを、RegionMatrix[*,j]
内（ここに“＊”はあらゆる可能な値を表す）のすべて
の現在のエントリのためのレシーバ(receiver：受信者)
としてマークする（ステップ４２２）。（３） RegionM
atrix[*,j]がゼロでなければ、 RegionMatrix[j,*]にゼ
ロをセットする（ステップ４２３）。（４）RegionMatr
ixおよびTotalSum_iを更新する（ステップ４２４）。

【０１１９】一方、例示的ローカル割り当て法では、プ
ロセッサｐ_i，ｐ_jは、それらの交差領域のワークを、こ
のワークの半分を各プロセッサが実行するように２つの
部分に分割する。プロセッサｐ_i，ｐ_jのローカル領域を
ＵとＶとする。この領域Ｖをほぼ等しい２つの部分
Ｖ₁，Ｖ₂に分割し、プロセッサｐ_iがＵとＶ₁の類似ジョ
インを実行し、プロセッサｐ_jがＵとＶ₂のジョインを実
行するものとする（ステップ４３１）。各領域Ｕおよび
Ｖは、各領域のポイントの個数が同一個プラスマイナス
１ないし数個（分割前のポイントの個数が奇数の場合を
考慮して）になるように、分割されるようにする。

【０１２０】類似ジョイン手続（ステップ１４０）ジョインフェーズ類似ジョイン（ステップ１０３）は、自己ジョイン手続
を用いてローカルツリーに基づいて行われ、ローカルお
よび交差領域間のジョインは非自己ジョイン手続を用い
て行われ、図４のフローチャートに示したような並列類
似ジョイン方法を完了する。自己ジョイン(self-join)
および非自己ジョイン(non-self-join)を行うために
は、前述した手続を用いる。非自己ジョインを行う際に
は、好ましくは、前記領域フェーズ（フェーズ３）割り
当て手続を採用することにより、ジョイン出力に複製(d
uplicates)が発生しないように保証する。

【０１２１】ローカルポイントに基づいてジョインを行
う際に、ローカルツリーの最高レベルにおいて未使用の
次元を採用することは、通常、ツリーのグローバル部分
の組立に既に使用された次元を用いることより優れてい
る。一方、ローカルポイントと非ローカルポイントとの
間のジョインを行う際には、逆のことが言える。よっ
て、２つのローカルツリー（１つはローカルジョインを
行うためのもので、他の１つは非ローカルジョインを行
うためのもの）を組み立てることは、単一のツリーで得
られる性能に比べていくらかの改善が得られる（そのツ
リーの組立のコストがジョイン手続のコストに比べて小
さいと仮定して）。しかし、いずれの方法でもそれによ
って得られる利点は、一般に、特定のデータセットの特
徴に依存する。

【０１２２】類似ジョインには次の２つのタイプがあ
る。（１）類似自己ジョインは、ポイントの１つのセッ
トＴ₁に基づいて行われる類似ジョインである。（２）
類似非自己ジョインは、ε距離内にあるポイントのすべ
ての対（ｘ，ｙ）を見つけるためにポイントの２つのセ
ットＴ₁，Ｔ₂に基づいて行われる類似ジョインである
（ここに、ｘ∈ Ｔ₁，ｙ∈ Ｔ₂である）。数学的には、
自己ジョインと非自己ジョインは、次のように定義され
る。（１）自己ジョイン：Ｔ→Φ、ここに、Ｔはε−ｋ
−ｄ−Ｂツリーであり、ΦはあるＬ_p−ｎｏｒｍ距離規
準についてのε距離内にあるすべてのポイントの対
（ｘ，ｙ）の１セットである（ここにｘ≠ｙ、かつ、
ｘ，ｙ∈Ｔ）。（２）非自己ジョイン：Ｔ₁×Ｔ₂ →
Φ、ここにＴ₁，Ｔ₂はε−ｋ−ｄ−Ｂツリーであり、Φ
はあるＬ_p−ｎｏｒｍ距離規準についてのε距離内にあ
るすべてのポイントの対（ｘ，ｙ）の１セットである
（ここに、ｘ∈Ｔ₁，ｙ∈ Ｔ₂である）。

【０１２３】図１６、図１７は、順次ε−ｋ−ｄ−Ｂツ
リー自己類似ジョイン（図１６）と非自己類似ジョイン
（図１７）の手続のフローチャートである。各図におい
て、ノードｘ_iはノードｘのｉ番目の子供である（ノー
ドｙ_iはノードｙのｉ番目の子供である）。リーフ自己
ジョイン、リーフ非自己ジョイン手続は、それぞれ、１
つおよび２つのリストに対して順次自己ジョインを実行
する。各プロセッサ内で実行されるこれらのリーフ自己
ジョインおよびリーフ非自己ジョイン手続は、各プロセ
ッサで同時に実行してもよい。これにより、並列または
疑似並列的な動作が行える。

【０１２４】自己ジョインサブ手続（ステップ６００）図１６のフローチャートに関して、これは、自己ジョイ
ン手続の例示的実施形態を示しており、自己ジョインは
ノードｘについて開始され（ステップ６００）、つい
で、ｘがリーフノードか否かが判断される（ステップ６
０１）。ノードｘがリーフノードであれば、リーフ自己
ジョイン（ｘ）手続が実行され（ステップ７００）、ノ
ードｘについての自己ジョインが終了する（ステップ６
０５）。一方、ノードｘがリーフノードでなければ、カ
ウンタｉを１にセットし（ｉ＝１）（ステップ６０
２）、ノードｘ_i（すなわちｘ_i）について自己ジョイン
を実行する。ここに、ｉはノードｘの特定の子供を同定
するインデックスであり、表記ｘ_iはｘのｉ番目の子供
を意味する。ここでは、インデックスｉはツリーレベル
を示すものではないことに留意されたい。ノードｘとそ
の子供の間の関係は、図６のツリーの一部に模式的に示
されている。ｘ_iの自己ジョインの結果は、対（ｘ_i ，
ｘ_i+1 ）の非自己ジョインへの入力として用いられる
（ステップ８００）。ここに、ｘ_i+1 はｘの（ｉ＋
１）番目の子供を表す。非自己ジョイン手続のステップ
については、図１７のフローチャートにより詳細に説明
する。ｉ＝ｂ−１か否かの判定または比較が行われる。
ここに、ｂはブランチ係数であり、ｉは子供ノードイン
デックスである（ステップ６０３）。もし、ｉがブラン
チ係数ｂマイナス１に等しければ（すなわち、ｉ＝ｂ−
１、ここに、ブランチ係数ｂ＝１／ε）、自己ジョイン
手続がノードｘのｂ番目の子供（ｘ_b）について実行さ
れる（ステップ６００）。そうでなければ、ｉがｂ−１
より小さければ、ｉは１だけインクリメントされ（ステ
ップ６０４）、新たなｘ_iについて自己ジョイン手続が
繰り返される（ステップ６００）。本手続（ステップ６
００，８００，６０３，６０４）は、ｉがブランチ係数
ｂより１小さい値になるまで、ノードｘの異なる子供ｉ
について繰り返される。

【０１２５】ノードｘ、ブランチ係数ｂおよび子供ｉに
対する自己ジョイン関数手続の疑似コードによる高レベ
ルの記述は次のとおりである。

【０１２６】 function Self-join(node x) /*b is the branch factor (=1/ε)*/ if x is a leaf node then leaf-self-join(x)/* performs join among all points in leaf node*/ return for i=1 to b-1 do Self-join(x_i) Non-self-join(x_i, x_i+1) Self-join(x_b) 非自己ジョインサブ手続（ステップ８００）次に、（ノードｘ，ノードｙ）に対する非自己ジョイン
手続（ステップ８００）の実施形態を、図１７のフロー
チャートにより説明する。このNon-Self-Join(node x,
node y)手続（ステップ８００）は、ｘおよびｙがリー
フノードであるか否かの判定から始まる（ステップ８０
１）。両方ともリーフノードであれば、リーフ非自己ジ
ョイン（ｘ，ｙ）手続が適用され（ステップ９００）、
非自己ジョイン手続が終了する（ステップ８１３）。一
方、ノードｘがリーフノードで、ノードｙが内部ノード
であるならば、次に、リーフノードおよび内部ノードの
ジョインを以下のように計算する（ステップ８５０）。
まず、子供ｉを“１”にセットし（ステップ８０３）、
ノードｘおよびｙ₁に対して非自己ジョイン手続を適用
する（ステップ８００ｂ）。このとき、子供（ｉ）がブ
ランチ係数（ｂ）に等しければ、非自己ジョイン手続を
終了し（ステップ８１３）、そうでなければ、子供識別
子を１だけインクリメントし（ｉ＝ｉ＋１）（ステップ
８０５）、新たなｉすなわち、等価的には次の子供に対
して非自己ジョイン（ｘおよびｙ₁）手続を繰り返す
（ステップ８００ｂ）。この手続（ステップ８００ｂ，
８０４，８０５）は、ブランチ係数までの各子供につい
て非自己ジョインが実行されるまで繰り返され、その時
点で、繰り返しが終了し、非自己ジョイン手続が終了す
る（ステップ８１３）。

【０１２７】ノードｘがリーフノードではない、また
は、ノードｙが内部ノードではない場合（ステップ８０
２）、ｘが内部ノードか、かつ、ｙがリーフノードかが
判定される（ステップ８０６）。そうである場合、非自
己ジョイン（ｘ_i，ｙ）がレベルｉ−１から（ステップ
８０７）、繰り返して実行され（ステップ８７０）、ブ
ランチレベルｂまで（ｂを含んで）すべての子供ｉにつ
いて継続される（ステップ８０７、８００ｇ，８０８，
８０９）。子供がブランチ係数に一致したら、非自己ジ
ョイン手続は終了する（ステップ８１３）。

【０１２８】考慮すべき最後の場合は、ｘおよびｙがリ
ーフノードである場合（ステップ８０１）ではなく、ｘ
がリーフノードでｙが内部ノードである場合（ステップ
８０２）でもなく、ｘが内部ノードかつｙがリーフノー
ドである場合（ステップ８０６）でもないときである。
この場合には、次のようにして、異なるノードに対して
非自己ジョインが適用される。すなわち、子供カウンタ
をｉ＝１に初期化し（ステップ８１０）、ついで、非自
己ジョイン（ｘ_i，ｙ_i）を適用し（ステップ８００
ｃ）、その後、順次、（ｘ_i，ｙ_i+1）に非自己ジョイン
手続を適用し（ステップ８００ｄ）、（ｘ_i+1，ｙ_i）に
非自己ジョイン手続を適用する。現在の子供（ｉ）がブ
ランチ係数マイナス１に一致したか否かを比較により判
定する（ステップ８１１）。不一致であれば、子供を１
だけインクリメントし（ステップ８１２）、新たなｉの
値に対して、３つの非自己ジョイン手続を、ｉ＝ｂ−１
となるまで（ステップ８１１）繰り返す（ステップ８０
０ｘ，８００ｄ，８００ｅ）。ｉ＝ｂ−１となったと
き、（ｘ_b，ｙ_b）に非自己ジョイン手続を適用し（ステ
ップ８００ｆ）、この非自己手続を終了する（ステップ
８１３）。

【０１２９】レベルｉでのノードｘ，ノードｙ，ブラン
チ係数ｂに対する非自己ジョイン関数手続の疑似コード
による高レベル記述は次のとおりである。

【０１３０】 function Non-self-join(node x, node y) /* b is the branch factor(=1/ε)*/ if x and y are leaf nodes then leaf-non-self-join(x,y) if x is a leaf node and y is an internal node then for i=1 to b do Non-self-join(x,y_i) if x is an internal node and y is a leaf node then for i=1 to b do Non-self-join(x_i,y) if x and y are internal nodes then for i=1 to b-1 do Non-self-join(x_i,y_i) Non-self-join(x_i,y_i+1) Non-self-join(x_i+1,y_i) Non-self-join(x_b,y_b) ソートマージ手続本発明の構造および方法において、（自己ジョイン用）
リスト、または（非自己ジョイン用）リスト（リーフ自
己ジョインおよびリーフ非自己ジョイン手続用を含む）
に対する類似ジョインを実行するための標準ソートマー
ジ手続を用いる。これらのソートマージ手続は、当業界
において周知であり、ここでは詳述しない。ソートマー
ジ手続は、共通の未使用次元に沿ってポイントをソート
するのに好都合である。よって、この次元は確保してお
くべきであり、ツリーを構築する処理において未使用の
まま残っている。高次元のポイントについては、未使用
の次元は存在しやすい。（例えば、１０次元のポイント
で、ε＝０．１の場合、すべての次元が利用されるまで
には１０¹⁰個のポイントが存在する必要がある。）ツリ
ーの組立後、ポイントは、すてべのリーフノードで、当
該（未使用の）次元に沿ってソートされる。もし、前処
理ステップで当該次元においてすべてのポイントが既に
ソートされていれば、ツリーの組立後に再度ソートされ
る必要はない。順次ε−ｋ−ｄ−Ｂツリーおよび順次類
似ジョインの他の観点については文献［２］に記載され
ており、この文献は、参照により本明細書に組み込まれ
る。他の標準ソートマージ手続は当業界で既知であり、
本発明の方法に利用できるが、ここではこれ以上詳述し
ない。

【０１３１】動的リーフサイズ決定手続一般に、ε−ｋ−ｄ−Ｂツリーを用いる類似ジョイン手
続の性能はリーフノードサイズに大きく依存する。リー
フノードのサイズは、ツリーの深さ、および、実行され
るジョインテスト（自己ジョインまたは非自己ジョイ
ン）の回数に影響を与える。リーフサイズが小さけれ
ば、一般に、ツリーの深さが増加し、これは、実行され
るジョインテストの回数の増加を招来する。一方、リー
フサイズが小さいことは、ツリーの横断にかかるコスト
を増加させる。

【０１３２】したがって、リーフサイズの最適（または
最適に近い）値は、ポイントの総個数、ポイントの次元
数、εの値、データセットの分配等の幾つかの要因によ
って変わる。理論的に最適なリーフサイズを決定するこ
とは困難であり、実際には、そのような理論的な最適値
の決定および使用は必要ではなく、むしろ最適に近いリ
ーフサイズを用いればよい。

【０１３３】概して、最適な（最適に近い）リーフサイ
ズの決定には２つの方法がある。すなわち、リーフサイ
ズは“静的に”または動的に決定することができる。静
的な決定法では、リーフサイズは、固定であり、問題事
例に関する利用可能な情報に何ら関係なく静的に決定さ
れる。これに対して、動的決定法では、リーフサイズは
可変であり、問題事例に関する利用可能な情報の少なく
とも幾つかを考慮することにより決定される。従来のリ
ーフサイズ決定の方法は、静的な決定法に限られてい
た。動的な決定法を用いる方法全体を、その特定の実施
形態と共に開示する。

【０１３４】理解されるように、一般に動的方法は、特
に、データセットの分配にスキューがある場合に、静的
方法より性能が高い。したがって、本発明の構造および
方法は、リーフサイズを最適化するためのワーク／コス
トモデルを提供する。データベースは均一に分配される
という仮定のために、問題のある導出(Problematicalde
rivation)がなされる。しかし、本発明の手続はそのよ
うな均一に分配されたデータセットに限定されるもので
はない。たとえ、データセットの分配が均一でなくて
も、本発明のコストモデルでの本発明の動的なリーフサ
イズ決定によれば、その不均一に分配されたデータセッ
トの理論的な最適リーフサイズが分からなくても、概し
て静的方法を改善することができる。

【０１３５】次に、動的リーフサイズ決定法を説明す
る。ジョイン手続（自己ジョインまたは非自己ジョイ
ン）を実行するワークまたはコスト（Ｃ）は、次のよう
に、特定のデータベース問題事例のパラメータに基づい
てモデル化することができる。

【０１３６】Ｃｏｓｔ＝Ｃ＝横断コスト＋ジョインコス
トここに、横断コスト＝（リーフノードの個数／２）×訪れたノー
ドの個数およびジョインコスト＝（リーフノードの個数／２）×ｋ×訪
れたノードの個数×２ε×（リーフノードのサイズ）²
×次元数最適なまたは少なくとも最適に近いまたは最も適切なリ
ーフサイズを、以下、コスト（Ｃ）から決定する。以下
の導出(derivation)では、次のような表記を用いる。す
なわち、ｂ＝ツリーブランチ（ファンアウト）係数（ｂ
＝１／ε）、深さ(depth)＝ツリーの深さ、ｎ＝データ
セット内のポイント個数、ｄ＝ポイントの次元数であ
る。定数ｋは、典型的には、本発明のコスト手続が具現
されるマシン、ハードウェアまたは構造に依存する定数
であり、各々異なるタイプの動作に関する横断コスト・
ジョインコストサブ手続を特定の構造が実行することが
できる相対的な効率または速度に関連している。ｋは一
般に閉鎖した数学的な形式で定義されるものではない
が、ハードウェア（例えば、プロセッサの個数および特
性、相互接続速度および帯域、メモリ、等）を選択しま
たは定め、各々のタイミングを決定するためにジョイン
動作および横断動作を個別に実行することにより、経験
的に導出することができる。そこで、ジョインコストお
よび横断コストの合計としての総合コストを最適化する
ように、具現化されたｋを選択する。

【０１３７】最適なリーフサイズを決定するための方法
の最高レベルの一実施形態では、（ａ）ツリー横断コス
トを決定し、（ｂ）ジョインコストを決定し、かつ、場
合によっては、これらのコストの、具現例（ハードウェ
ア）対応の重み付け（係数“ｋ”）を行い、当該データ
セットおよびハードウェアに対する最適なリーフサイズ
を決定する。

【０１３８】データセットが均一に分配されているとい
う我々の作業上の仮定では（ジョインされるべきデータ
ベースは実際には均一である必要はないことを想起され
たい）、リーフノードの個数は、ツリーの深さで累乗さ
れたブランチ係数にほぼ等しく（リーフノードの個数≒
ｂ^depth）、リーフノードのサイズは、リーフノードの
前の個数により分割されたポイントの個数にほぼ等しい
（リーフノードのサイズ≒ｎ／ｂ^depth ）。当業界の通
常の技量を有する者には、本発明の開示に照らして、こ
の例示的なコストモデルの実施形態が、リーフノードの
個数≒ｂ^depthかつリーフノードのサイズ≒ｎ／ｂ^depth
という均一分配仮定以外の仮定（これは他のデータセ
ット分配に適する）を用いて拡張することができる手法
が理解されよう。

【０１３９】リーフノード当たりの訪れるノードの個数
の上限は、他のノードがジョインされる（自分自身との
ジョインも含む）相手のノードの個数を、ツリーの深さ
の指数で累乗したもの、すなわち、３^depthに等しい
（なぜなら、任意の特定のノードはそれ自身とその隣接
する２つの兄弟ノードとジョインされうるにすぎないか
らである）。このようにして、前記ジョインコストの式
に横断コストおよび総合コスト（Ｃ）を代入し、かつ、
リーフノードの近似個数≒ｂ^depth、リーフノードのサ
イズ≒ｎ／ｂ^depth、ε＝１／ｂ、および訪れるノード
の上限数＝３^depthという結果を考慮することにより、
次のような結果コスト（Ｃ）を得ることができる。

【０１４０】

【数６】

【０１４１】深さの最適値を見つけるためには、ツリー
の深さ(depth)についてコスト（Ｃ）を微分する必要が
ある。

【０１４２】

【数７】

【０１４３】この（∂Ｃ／∂depth）の結果を０とし
（これはツリー深さに対してコストが極小となる条件に
相当する）、これを深さについて解くことにより、次の
式が得られる。

【０１４４】

【数８】

【０１４５】よって、これらの条件下で、ツリーの深さ
(depth)は、次のようになる。

【０１４６】

【数９】

【０１４７】リーフサイズ（ＬＳ）の適当な値は次式で
与えられる。

【０１４８】

【数１０】

【０１４９】ここに、深さ(depth)は式（５）により与
えられる。換言すれば、最適リーフサイズはｎ／ｂ
^depthからｎ／ｂ^(depth-1)＋１の範囲内にある。

【０１５０】リーフサイズに対する上記式を有効化する
ために、εの異なる値、異なるデータサイズ（ｎ）およ
び異なるリーフサイズ（ＬＳ）に対する均一かつガウシ
アン分布（異なる標準偏差を有する）を有するデータセ
ットについて、数セットの有効性テストを行った。デー
タセットのデータポイントの範囲は［０，２］とした。
本発明のコストモデルを評価するための距離規準として
Ｌ₂−ｎｏｒｍ規準（上述）を用いた。例えば、異なる
実験において、我々は、リーフサイズを、最大値（ｎ
／ｂ^(depth-1)＋１）、最小値（ｎ／ｂ^depth）、およ
びこれら最大および最小値の算術平均または相乗平均に
セットしてみた。ＡＡで表される算術平均が多くの場
合、最高の性能を示した。算術平均は次式で与えられ
る。

【０１５１】算術平均＝［｛（ｂｎ＋ｎ）／２ｂ^depth｝＋０．５］概して、有効性結果は、動的に決定されたリーフサイズ
を用いる本発明のコストモデルが有効で、固定のリーフ
サイズを用いる場合に比べて全般的に良好である。ε−
ｄ−ｄ−Ｂツリーを用いて類似ジョインを行うための本
発明のコストモデルは、上述した順次類似ジョインまた
は並列類似ジョインの具現例のいずれにも適用できる。
このコストモデルは、リーフサイズのしきい値の推定に
用いて好適である。均一かつガウシアン分布を有するデ
ータセットに対する有効性テストは、動的可変リーフサ
イズ決定法を用いるコストモデルが、一定リーフサイズ
しきい値を選択するモデルより著しく有効であることを
示した。本発明者等が知っている今まで用いられたコス
トモデルは、ジョインコストのみを用いたものであり、
総合コストのジョインおよび横断成分の両方を考慮する
ものではなかった。

【０１５２】本明細書で言及したすべての文献および特
許出願は、あたかも個々の文献または特許出願が具体的
にかつ個別に参照により組み込まれたと同じ程度に、参
照により本明細書に取り込まれる。

【０１５３】以上の記載では、説明のために、本発明が
完全に理解されるように特定の命名法を用いた。しか
し、本発明を実施するために特定の詳細事項は必要ない
ことは当業者には明らかであろう。他の例では、本発明
からの注意分散を避けるために、周知の回路およびデバ
イスはブロック図の形式で示してある。よって、上記記
載および本発明の特定の実施形態は、説明および記述の
目的のために提示されたものである。それらは、排他的
なものではなく、記載された厳密な形に本発明を限定し
ようとするものでもない。上記教示内容から多くの変
形、変更が可能であることは明らかである。上記実施形
態は、本発明の原理およびその実際的な応用を最もよく
説明するために選択され記載されたものであり、それに
よって、当業者が、考えられる特定の用途に適するよう
に種々の変形と共に本発明およびその実施形態を最大利
用できるようにするものである。本発明の範囲は、請求
の範囲およびその均等物により定められるよう意図され
ている。

【０１５４】本発明は、図１および図２に示したコンピ
ュータシステムに限定されるものではない。当業者は、
ここに提示された開示内容に照らして、他の計算および
要素計算機アーキテクチャ、プロセッサ、相互接続ネッ
トワーク、集積回路設計、他のタイプの電子デバイス、
等に本発明を容易に変形することができる。

【０１５５】さらに、上述した方法およびシステムは、
ランダムアクセスメモリのようなメモリデバイス以外の
種々のタイプの実行可能な媒体上での実行に従うことが
できる。他のタイプの実行可能な媒体としては、これら
に制限する意図ではなく、例えば、任意のメモリデバイ
ス、コンパクトディスク、磁気ディスク、ハードディス
ク、フロッピーディスクでありうるコンピュータ読み取
り可能な記憶媒体を用いうる。

【０１５６】以上、本発明をすべて説明したが、添付の
請求の範囲の精神および範囲を逸脱することなく、種々
の変形および変更をなしうることは当業者には明らかで
あろう。

【図面の簡単な説明】

【図１】本発明の類似ジョイン手続きおよびそのサブ手
続きを実行するための処理システム構造の例示的な実施
形態を示す図である。

【図２】本発明の類似ジョインのための処理構造の他の
実施形態を示す図である。

【図３】複数のオブジェクト（データポイント）および
類似ジョインのための手続きを保存するメモリ媒体デー
タ構造の例示的実施形態を示す図である。

【図４】並列類似ジョイン手続きのトップレベルの例示
的実施形態を示す概略フローチャートである。

【図５】ε−ｋ−ｄ−Ｂツリーを組み立てるための手続
きを示す図である。

【図６】（ａ）（ｂ）は、ツリーのグローバル部分が分
割される方法、およびツリーのグローバル部分とローカ
ルε−ｋ−ｄ−Ｂツリーの間の関係を含む、複数のプロ
セッサ間にデータを分割する手続きの例示的実施形態を
示す図である。

【図７】データセット空間を複数のバラバラの(disjoin
t)領域およびサブ領域またはパーティションに分割する
ための分位数(quantiles)を決定するために全体のデー
タセットを用いる分位分割(Quantile Partitioning:PQ)
手続きの例示的実施形態のトップレベルの概略フローチ
ャートである。

【図８】本発明のＰＱ，ＰＱＥＳＴまたはＰＷ分位手続
き(Quantiling Procedures)において使用される分位の
ための１パスアルゴリズム(One-Pass Algorithm for Qu
antiles:OPAQ)のトップレベルの概略フローチャートで
ある。

【図９】ＰＱＥＳＴ手続きの実施形態を示す概略フロー
チャートである。

【図１０】図１０は、全ＰＷ手続きの実施形態を示す概
略フローチャートである。

【図１１】図１０のＰＷ手続き内のローカルε−ｋ−ｄ
−Ｂツリー組立手順(Local ε−ｋ−ｄ−Ｂ tree Build
Procedure)の実施形態を示す概略フローチャートであ
る。

【図１２】図１１のローカルツリー組立手順内の、ロー
カルツリーへのポイント追加手続き(Add Point to Loca
l Tree Procedure)の実施形態を示す概略フローチャー
トである。

【図１３】図１０のＰＷ手続き内の重み付け手続き(Wei
ght Application Procesure)の実施形態をを示す概略フ
ローチャートである。

【図１４】ジョイン手続きの分割領域フェーズ(Interse
cted Regions Phase of the JoinProcesure)の実施形態
を示す概略フローチャートである。

【図１５】２つのプロセッサのローカルε−ｋ−ｄ−Ｂ
ツリー間の分割された領域がリストデータ構造により特
定される方法を示す概略図である。

【図１６】順次ε−ｋ−ｄ−Ｂツリー自己類似ジョイン
手続き(sequential ε-k-d-B tree self similarity jo
in procedure)の実施形態を示す概略フローチャートで
ある。

【図１７】順次ε−ｋ−ｄ−Ｂツリー非自己類似ジョイ
ン手続き(sequential ε-k-d-B tree non-self similar
ity join procedure)の実施形態を示す概略フローチャ
ートである。

【符号の説明】

７０…処理システム、７１…要素計算機、７２…プロセ
ッサ（ＣＰＵ）、７３…メモリ、７４…入出力コントロ
ーラ、７５…インタフェース、７６…２次メモリ、７７
…メモリコントローラ、７９…相互接続構造、８５…３
次メモリ。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１１年２月１０日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】発明の名称

【補正方法】変更

【補正内容】

【発明の名称】効率的な並列高次元類似ジョインのため
の構造および方法

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/401 ３２０Ｚ (72)発明者サンジャイランカアメリカ合衆国、フロリダ州 32606、ゲインズビルケー・166、エヌ・ダブリュフォーティサードストリート 4830

Claims

【特許請求の範囲】

【請求項１】複数の相互接続された要素計算機と、複数
のオブジェクトから成るオブジェクトセットを保存する
メモリとを有する計算システムにおいて、予め定めた類
似基準に基づいて前記オブジェクトの幾つかをジョイン
する方法であって、前記オブジェクトセットの前記複数のオブジェクトに対
するリファレンスを前記メモリ内に保存し、前記複数のオブジェクトの幾つかを前記複数の要素計算
機に対応づけるために、前記オブジェクトセットを複数
のサブパーティションに分割し、各特定の要素計算機内で、この特定の要素計算機に対応
づけられた前記複数のオブジェクトの幾つかを組織する
オブジェクトツリー構造を構築し、各特定の要素計算機内で、予め定めた第１のルールに基
づいて各前記特定の要素計算機について、隣接する要素
計算機との交差領域を決定し、予め定めた第２のルールに基づいて、各特定の要素計算
機と隣接要素計算機との間でオブジェクトを交換し、予め定めたオブジェクト類似基準に基づいてオブジェク
トをジョインすることにより、多次元オブジェクトのジ
ョインされたグループ（joined groups)を生成するステ
ップを備える方法。
【請求項２】請求項１の方法において、前記オブジェク
トセットは１つのデータセットを有し、前記オブジェク
トの少なくとも幾つかは多次元データオブジェクトを有
する方法。
【請求項３】請求項１の方法において、前記オブジェク
トセットは１つの多次元データセットを有し、前記オブ
ジェクトは前記データセット内に複数の多次元データポ
イントを有する方法。
【請求項４】請求項１の方法であって、前記オブジェクトを分割するステップの前に、物理的シ
ステムを検出し、この検出された物理的システムを表す
データオブジェクトを生成し、前記要素計算機から、または、前記要素計算機から離れ
たソースもしくは前記要素計算機に対応づけられた前記
メモリから、１つのデータオブジェクトを受信し、各前記特定の要素計算機と前記隣接する要素計算機との
間でのオブジェクトの交換のステップの後に、１セット
の多次元オブジェクトジョインセットを生成するととも
に、前記オブジェクトジョインセットに基づいて判定規
準を生成するステップをさらに備える方法。
【請求項５】請求項１の方法であって、前記メモリはラ
ンダムアクセスメモリにより構成される方法。
【請求項６】請求項１の方法であって、前記メモリは不
揮発性ディスクメモリにより構成される方法。
【請求項７】請求項１の方法であって、前記オブジェク
トは複数の多次元データポイントを有し、前記複数のオ
ブジェクトに対するリファレンスは、各々前記複数のデ
ータポイントの１個を指すデータベースポインタにより
構成される方法。
【請求項８】請求項１の方法であって、前記オブジェク
トはｄ次元のデータポイントを有し、前記複数のオブジ
ェクトの幾つかを前記複数の要素計算機に対応づけるた
めに前記オブジェクトセットを分割するステップは、ポイントの個数ｎおよび複数のプロセッサＰに対する分
割次元数Ｄを選択し、各サブパーティションについて、ポイント（ｐ_di）のｉ
番目の次元を用いてｐ^1/D個の分位数の値を推定し、この推定された分位数の値に基づいて各前記サブパーテ
ィションをｐ^1/D個のサブパーティションに分割し、このｐ^1/D個の新たなサブパーティションに対して前記
データポイントを再分配し、各前記推定、分割および再分配の後、現在の分割次元Ｄ
を比較して、分割の現在レベルｉが前記分割次元数に対
して予め定めた大きさの関係を有するか否か、かつ、前
記分割から戻って前記予め定めた大きさの関係が満足さ
れるかを判定し、そうでなければ、分割されたデータセ
ットを有する次の分割レベルで各サブパーティションに
ついて、前記推定、分割および再分配のステップを再帰
的に適用するステップを有する方法。
【請求項９】請求項８の方法であって、前記分割は、サ
ンプリングサブ手続および分位数発見サブ手続を有する
単一パス分位手続を適用することを含む方法。
【請求項１０】請求項１において、前記ツリーはε−ｋ
−ｄ−Ｂツリーである方法。
【請求項１１】請求項１の方法であって、前記オブジェ
クトはｄ次元のデータポイントを有し、前記複数のオブ
ジェクトの幾つかを前記複数の要素計算機に対応づける
ために前記オブジェクトセットを分割するステップは、
サンプルデータセットに基づいて推定された分位数を決
定するものであり、前記データセット（ＤＳ）を分割すべきプロセッサの個
数ｐを同定し、前記データセット全体（ＤＳ）より少ないポイントのサ
ンプルセット（ＳＳ）を生成するために前記データセッ
ト全体をサンプリングし、前記サンプルセットを前記同定された個数のプロセッサ
に対して分配し、前記データポイントを再分配することなく、前記データ
ポイントの特定の幾つかを前記同定された個数の要素計
算機に対応づけるための分割ルールを同定し、前記同定されたパーティションについて分割領域境界を
決定し、各前記要素計算機により、前記分割されたサンプルセッ
ト（ＳＳ）の前記領域境界をすべての他の要素計算機に
対して同報し、各前記要素計算機により、前記サンプルされたデータセ
ット分位数から決定された前記領域境界を用いて前記デ
ータセット全体（ＤＳ）を再分配するステップを含む方
法。
【請求項１２】請求項１の方法であって、前記オブジェ
クトはｄ次元のデータポイントを有し、前記複数のオブ
ジェクトの幾つかを前記複数の要素計算機に対応づける
ために前記オブジェクトセットを分割するステップは、
各データポイントに対する重み付けに基づいて分位数を
決定するものであり、サンプルサイズｓを選択し、前記データセット全体からサイズｓのサンプルデータを
生成し、分位分割手続を用いて前記サンプルデータセットを分割
し、各前記要素計算機内で、ポイント毎に、各前記分割され
たサンプルデータセットに対応付けられた各データポイ
ントについてローカルε−ｋ−ｄ−Ｂツリーを、前記パ
ーティション内の全データポイントが前記ツリー内に配
置されるまで構築し、前記要素計算機間の交差領域を同定するとともに交換
し、前記データセットを実際にはジョインすることなく、デ
ータセットをジョインするために必要となるジョインテ
ストの回数を計算し、この計算されたジョインテストの回数に基づいて各ポイ
ントに対するデータポイント重み値（Ｗ）を計算し、前記ポイントの特定の幾つかに対応するワーク負荷およ
び各パーティション内のポイントの個数を考慮して、前
記要素計算機の各々の重み付けされた領域境界を決定す
るために、前記重み値を用いて前記データセットの重み
付け分割を実行し、前記重み付け分割により同定された領域境界を用いて前
記データセット全体を再分配するステップを有する方
法。
【請求項１３】請求項１２の方法であって、前記要素計
算機の各々の重み付けされた領域境界を決定するために
重み付け分割を実行するステップは、各分割次元（Ｄ）において各サブパーティションについ
て、分割次元ｉに沿って前記データセットをソートし、前記ポイント重み値についてプレフィクス合計を計算
し、前記サブパーティションについて決定された領域境界を
用いて各サブパーティション内の前記データセットを再
分配するステップを再帰的に実行する方法。
【請求項１４】請求項１２の方法であって、前記重み
は、各前記ポイントに必要とされるジョインテストの回
数に関する推定されたワーク、および、各データポイン
トについてツリーの横断に関するワークに基づいて、前
記データポイントに割り当てられる方法。
【請求項１５】請求項１２の方法であって、前記ポイン
ト重み値（Ｗ）は、式Ｗ（ｑ）＝（ｒ×ｄ）＋（ｋ×３
^depth）に従って各ポイント（ｑ）に割り当てられる方
法。（ただし、ｒはポイントｑに必要なジョインテスト
の推定された回数、ｄはデータポイントの次元数、ｋは
比例定数、ｄｅｐｔｈはε−ｋ−ｄ−Ｂツリーの深さ）
【請求項１６】請求項１５の方法であって、ｋは０．１
と１０との間の範囲内の正の定数である方法。
【請求項１７】請求項１５の方法であって、ｋは１と３
との間の範囲内の正の定数である方法。
【請求項１８】請求項１の方法であって、前記特定の要
素計算機に対応づけられた前記複数のオブジェクトの幾
つかを組織するオブジェクトツリー構造を構築するステ
ップは、ε−ｋ−ｄ−Ｂツリーを構築することを含む方
法。
【請求項１９】請求項１の方法であって、前記予め定め
た第１のルールに基づいて各前記特定の要素計算機につ
いて、隣接する要素計算機との交差領域を決定するステ
ップは、隣接する要素計算機を同定し、各要素計算機内で、前記ローカルε−ｋ−ｄ−Ｂツリー
の各レベルについて、第１のリストデータベース構造お
よび第２のリストデータベース構造を組み立て、前記第
１のリストは、前記ツリー内の各位置について、当該レ
ベルのサブツリーが空かまたはデータポイントを保存し
ているかを同定するものであり、前記要素計算機間で第１および第２のリストを交換し、
これは、前記第１および第２のリストを前記相互接続ネ
ットワーク上のすべての他の要素計算機へ送信すること
と、前記他の要素計算機から別の前記第１および第２の
リストの送信を受けることとを含み、メモリ内に第３の結果リストデータ構造を生成するため
に、特定の要素計算機の前記第１のリストとすべての他
の前記要素計算機の前記第１のリストのエントリを比較
することにより交差領域を決定し、予め定めたルールに基づいて、交差領域を前記要素計算
機に割り当てるステップを含む方法。
【請求項２０】請求項１９の方法であって、前記第１お
よび第２のリストは２進値を有し、前記交差領域を決定
するステップは、前記第１および第２のリスト間で要素
毎の論理演算を実行することを含む方法。
【請求項２１】請求項１の方法であって、前記予め定め
たオブジェクト類似基準に基づいてオブジェクトをジョ
インすることにより、多次元オブジェクトのジョインさ
れたグループを生成するステップは、非自己ジョイン手
続を含む各非リーフノード用の自己ジョイン手続を実行
することと、各リーフノード用のリーフ非自己ジョイン
手続を含む各リーフノード用のリーフ自己ジョイン手続
を実行することを含む方法。
【請求項２２】コンピュータシステムで用いるためのコ
ンピュータ読み取り可能な記憶媒体であって、このシス
テムは、複数のプロセッサと、ユーザからのコマンドを
受信するユーザインタフェースと、複数のオブジェクト
および複数の実行可能な手続を保存する記憶媒体とを有
し、各前記手続は、類似の特徴を有する前記複数のオブ
ジェクトのうちの幾つかを同定するための前記ユーザか
らの問い合わせ入力に従って前記複数のオブジェクトを
検索するように前記コンピュータに指示する少なくとも
１つの実行可能な命令を含み、前記複数の命令は、前記複数のオブジェクトの１つを前記メモリ内に保存す
るようコンピュータに指示する命令と、前記オブジェクトを複数のサブパーティションに分割す
るとともに、前記複数のオブジェクトの幾つかを前記複
数のプロセッサに対応づけるようコンピュータに指示す
る命令と、前記特定のプロセッサに対応づけられた前記複数のオブ
ジェクトの前記幾つかを組織するローカルε−ｋ−ｄ−
Ｂツリーを構築するようコンピュータに指示する命令
と、前記オブジェクト空間と隣接プロセッサとの交差領域を
決定するようコンピュータに指示する命令と、予め定めたルールに基づいて隣接プロセッサとの間でオ
ブジェクトを交換するようコンピュータに指示する命令
と（ここに、前記隣接プロセッサは、ある所定距離内に
あるオブジェクトに対応づけられたプロセッサであ
る）、予め定めたオブジェクト類似基準に基づいて前記オブジ
ェクトをジョインすることにより多次元オブジェクトの
ジョインされたグループを生成するようコンピュータに
指示する命令とを含み、前記オブジェクトは、階層的に前記オブジェクトを表す
データ構造により構成され、データベース要素とインデ
ックスの配列とこれらに対応づけられたポインタとを有
し、前記手続は、さらに、前記データベース要素の内容をア
クセスするために、前記インデックスの配列およびポイ
ンタを用いて前記データ構造を横断するための命令と、前記多次元オブジェクトのジョインされたグループを表
す前記データ構造を前記メモリ内に確立する手続とを有
する方法。
【請求項２３】コンピュータシステムであって、複数の要素計算機（各前記要素計算機は、命令を実行す
るプロセッサと、前記要素計算機に接続された対応した
メモリとを有し、前記メモリはオブジェクトおよび複数
の手続を保存する）と、複数のオブジェクトを保存する記憶手段と、前記要素計算機を前記対応したメモリおよび前記記憶手
段に結合する相互接続ネットワークと、（前記複数の手続は、前記オブジェクトに対して多次元
類似ジョイン動作を実行することにより、ジョインされ
た多次元オブジェクトの対を生成する手続を含み）前記多次元類似ジョイン動作を実行することにより、ジ
ョインされた多次元オブジェクトの対を生成する手続を
実行する手段と、を備えたコンピュータシステム。
【請求項２４】請求項２３のコンピュータシステムにお
いて、前記手続を実行する前記手段は、前記オブジェクトセット内の前記複数のオブジェクトに
対するリファレンスを前記メモリ内に保存する手段と、前記複数のオブジェクトの幾つかを前記複数の要素計算
機に対して対応づけるように、前記オブジェクトセット
を複数のサブパーティションに分割する手段と、各要素計算機内において、前記特定の要素計算機に対応
づけられた前記複数のオブジェクトの前記幾つかを組織
するε−ｋ−ｄ−Ｂツリーを構築する手段と、各要素計算機内において、予め定めた第１のルールに基
づいて各前記特定の要素計算機について隣接要素計算機
との交差領域を決定する手段と、予め定めた第２のルールに基づいて、各前記特定の要素
計算機と前記隣接要素計算機との間でオブジェクトを交
換する手段と、予め定めたオブジェクト類似基準に基づいて前記オブジ
ェクトをジョインすることにより、多次元オブジェクト
のジョインされたグループを生成する手段と、を備えたコンピュータシステム。
【請求項２５】各々、中央処理ユニットとメモリとを有
する多数の要素計算機を備え、前記要素計算機は相互接
続ネットワークで接続されたコンピュータシステムにお
いて、ユーザが定めた類似の特徴を有する類似項目を同
定するために高次元データ項目のデータベースの並列問
い合わせを高速かつ効率的に実行し、前記類似項目をジ
ョインしてデータ項目の出力セットを構成する方法であ
って、前記データベースは、ε−ｋ−ｄ−Ｂツリー構造
を有し、ポイントの個数のみに基づくのではなく負荷均
衡重み付け操作に基づいて前記多数の要素計算機に対し
て分割され、前記重み付けは、前記ツリー横断コストお
よび前記ツリー計算コストの組合せに基づいて計算され
ることを特徴とする方法。
【請求項２６】ｄ次元の項目のデータセットからなるデ
ータベースを複数の要素計算機および各前記要素計算機
に対応づけられたメモリに対して分割する重み付け分位
方法であって、前記方法は、前記データセット全体からサイズｓのサンプルデータセ
ットを生成し、分位分割手続を用いて前記サンプルデータセットを分割
し、各前記要素計算機内で、ポイント毎に、各前記分割され
たサンプルデータセットに対応付けられた各データポイ
ントについてローカルε−ｋ−ｄ−Ｂツリーを、前記パ
ーティション内の全データポイントが前記ツリー内に配
置されるまで構築し、前記要素計算機間の交差領域を同定するとともに交換
し、前記データセットを実際にはジョインすることなく、デ
ータセットをジョインするために必要となるジョインテ
ストの回数を計算し、この計算されたジョインテストの回数に基づいて各ポイ
ントに対するデータポイント重み値を計算し、前記ポイントの特定の幾つかに対応するワーク負荷およ
び各パーティション内のポイントの個数を考慮して、前
記要素計算機の各々の重み付けされた領域境界を決定す
るために、前記重み値を用いて前記データセットの重み
付け分割を実行し、前記重み付け分割により同定された領域境界を用いて前
記データセット全体を再分配するステップを備える方
法。
【請求項２７】請求項２６の方法であって、前記要素計
算機の各々の重み付けされた領域境界を決定するために
重み付け分割を実行するステップは、各サブパーティションに対して、各分割次元（Ｄ）にお
いて、分割次元ｉに沿って前記データセットをソートするステ
ップと、前記ポイント重み（Ｗ）のプレフィクス合計を計算する
ステップと、各サブパーティション内の前記データセットを、前記サ
ブパーティションについて決定された領域境界を用いて
再分配するステップとを再帰的に実行するステップを有
する方法。
【請求項２８】請求項２７の方法であって、前記重み
は、各前記ポイントについて必要とされるジョインテス
トの回数に関連した推定されたワークと、各データポイ
ントについてのツリーの横断に関連したワークとに基づ
いて、前記データポイントへ割り当てられる方法。
【請求項２９】請求項２７の方法であって、前記ポイン
ト重み値（Ｗ）は、式Ｗ（ｑ）＝（ｒ×ｄ）＋（ｋ×３
^depth）に従って各ポイント（ｑ）に割り当てられる方
法。（ただし、ｒはポイントｑに必要なジョインテスト
の推定された回数、ｄはデータポイントの次元数、ｋは
比例定数、ｄｅｐｔｈはε−ｋ−ｄ−Ｂツリーの深さ）
【請求項３０】請求項２９の方法であって、ｋは、ほぼ
１と３の間の範囲内の正の整数である方法。