JPH0785105A

JPH0785105A - 並列データベースにおいてデータを再分配する方法およびシステム

Info

Publication number: JPH0785105A
Application number: JP6163497A
Authority: JP
Inventors: Shih-Gong Li; シー−ゴン・リー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-09-02
Filing date: 1994-07-15
Publication date: 1995-03-31
Anticipated expiration: 2013-06-18
Also published as: EP0642092A3; JP2765678B2; US5687369A; EP0642092A2

Abstract

(57)【要約】【目的】本発明の目的は、データを並列データベース
内のノード間で再分配できるテーブルの集合を決定する
ための方法およびシステムを提供することである。【構成】まず、並列データベース内の複数のノードに
関連するメモリに記憶されたテーブルから、候補テーブ
ルのリストを確立する。このリストは、候補テーブルの
それぞれの作業負荷に従って順序付けられている。次
に、候補テーブルのそれぞれをテストして、候補テーブ
ルが記憶されている複数のノードのそれぞれで、その候
補テーブルを所定の時間内に走査できるかどうかを判定
する。所定の時間内に走査できる候補テーブルのすべて
を、データを再分配できるテーブルの組に追加する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、全般的にはデータ処理
システムでのデータ・メッセージの検索と記憶に関す
る。具体的には、本発明は、並列データベース・システ
ム内のノード間でそこからデータを再分配できるテーブ
ルの組の決定に関する。

【０００２】

【従来の技術】データベースは、最近非常に注目を集め
ているが、これは、コンピュータ化されたデータベース
に記憶され検索されるデータの量が増加していることだ
けではなく、記憶処理と検索処理の間にデータ関係を確
立できるからでもある。

【０００３】最近１０年間に、データベース・システム
の開発者達は、並列処理プラットフォームに注目してき
た。これは、並列処理システムの費用対性能比が、しば
しば従来のメインフレームのそれを上回るからである。
関係データベース・システムなどのセット指向データベ
ース・システムは、並列処理に特に適している。という
のは、システム内の複数のコンピュータまたは「ノー
ド」の間でデータベースを分散でき、したがって、その
データベースに対する要求を並列に実行できるからであ
る。一般的な並列データベース・システムは、それぞれ
が１つまたは複数の高性能大容量ディスク記憶装置を含
む強力で安価なマイクロプロセッサ・ベースのコンピュ
ータのクラスタにより特徴付けられる。ノードは、共用
通信媒体を使用して相互接続される。日用品に見られる
ような高性能、低コストおよび高信頼性を利用するた
め、クラスタでは、標準の「オフザシェルフ」のマイク
ロプロセッサやワークステーションのハードウェアが使
用される。データベースのサイズや作業負荷がシステム
の容量近くまで増えた時には、ノードを追加してその容
量を拡張することができる。

【０００４】そのようなシステムでは、データベースが
ノードにまたがって分配される。各ノードは、データベ
ースの一部を記憶する。同様に、作業負荷もノードにま
たがって分配される。要求は、所望のデータを含むノー
ドに送られ、そこで実行される。その結果、データ配置
によって、ノード間の作業負荷のバランスの良否と、全
体としてのシステム性能が決定される。多くの場合に、
ノードのすべてにまたがってできる限り均等に作業負荷
を分散させることによって、最良の性能が得られる。し
かし、初期に平衡化されるシステムでは、要求のタイプ
と頻度が時間に伴って変化し、時間に伴ってデータがデ
ータベースに追加、削除され、時間に伴って作業負荷が
偏る原因となる。その結果、そのシステムは、ノード間
の平衡が崩れた状態になる。したがって、時折データを
再分配して、負荷の平衡を取り直す必要がある。また、
システムにノードが追加または削除される際にも、新し
い数のノードの間でデータを再分配しなければならな
い。

【０００５】並列データベース（ＰＤＢ）・システムで
は、データ・レコードが、本明細書で「バケット」と称
するデータ構造に区分される。１つのバケットに属する
すべてのデータ・レコードは、必ず単一のノード内に置
かなければならない。ＰＤＢシステムに新ノードを追加
する時には、データの「バケット」を、既存ノードから
新ノードへ移動しなければならない。所定の数の通信バ
ッファを有する論理リンクを確立して、古い既存のノー
ドから新ノードへデータ・レコードを送る。ほとんどの
関係データベース・システムは、その記憶編成内の物理
バケットをサポートしないので、再分配のため通信バッ
ファに移動すべきレコードを選択するためには、テーブ
ル走査が必要である。テーブル走査動作には、テーブル
のロックが必要なので、データ保全性とデータ配置の一
貫性のために、すべてのＰＤＢノードの同一のテーブル
をロックして、この特定のテーブルに対する排他的な権
利を取得することが論理的である。したがって、すべて
のノードが、データ再分配のために同一のテーブル・シ
ーケンスに基づいて実行する。しかし、テーブルのロッ
クを行うと、性能が、新ノードを追加する動作にとって
の主要な関心事の１つになる。ロックを解放するのが早
ければ早いほど、ＰＤＢシステム内で進行中の他のトラ
ンザクションに対する影響が少なくなる。

【０００６】並列データベース・システムでのデータ再
分配に関して、２つのモードが提案されている。静止モ
ードでは、データ再分配のすべてが行われるまで、ＰＤ
Ｂシステムが他のすべての動作を停止させる。オンライ
ン・モードまたは動的モードでは、データ再分配が他の
ＰＤＢタスクと同時に行われる。本明細書は、データ再
分配タスクが、他のＰＤＢタスクと時間を共用し、その
データ再分配タスクの実行中は他のタスクが停止される
ような一連のタイム・スライスを割り当てられるが、そ
のタイム・スライスが、データ再分配全体を達成するに
は短すぎる新しいモード、増分モードを導入する。

【０００７】静止モードでＰＤＢシステムに新ノードを
追加するためバケットを選択するための方法が、関連特
許である米国特許出願第１１６０８６号、"Selecting B
uckets for Redistributing Data Between Nodes in a
Parallel Database in the Quiescent Mode"に開示され
ている。

【０００８】増分モードでは他のタスクが同時に作動で
きるので、増分モードには多くの長所がある。しかし、
本出願人が発見した、克服しなければならない問題も多
数存在する。

【０００９】ＰＤＢシステムの増分モード動作では、Ｐ
ＤＢシステムを静止モードにしている間に、増分的な形
でデータ再分配を処理する。増分モード動作のそれぞれ
に関して、所定の時間枠がある。この時間枠の中で、デ
ータ再分配と他の関連ハウスキーピングを達成しなけれ
ばならない。通常、この所定の時間枠は、負荷平衡化に
必要なデータ再分配のすべてを完了するには不十分であ
る。したがって、増分モード・セッションのそれぞれの
目標は、負荷平衡化を目指すデータ再分配をできる限り
達成することである。しかし、この動作は、所定の時間
的な制約を満たさなければならない。そうでないと、デ
ータ再分配処理の途中で時間切れになった場合に、一貫
性のあるＰＤＢ状態を維持することが困難になる。

【００１０】新ノードに移動するデータを準備するため
のコストは通常は高いので、各ノードは、テーブル・レ
ベルでデータの準備を完了しなければならない。言い換
えると、ノードは、現テーブル内にある移動すべきデー
タのすべてを取り出し終えた場合に限って、別のテーブ
ルのデータの取出しを開始する。したがって、バケット
選択の問題は、バケット・レベルだけでは検討できない
ので、非常に複雑になる。テーブル層とバケット層の両
方を一緒に検討しなければならない時には、数学的プロ
グラミング法やオペレーショナル・リサーチ法を使用す
る従来のアプローチでは、有効な解決を保証できない。

【００１１】また、ＰＤＢシステムには多数のテーブル
とバケットがあるので、人工知能、シミュレーテッド・
アニーリング、遺伝子アルゴリズムなどの先端技術は、
通常のワークステーションを使用して許容可能な応答時
間内でこの問題を解決するのには適していない。テーブ
ル走査方法を使用する増分モード動作でのデータ再分配
のため、テーブルによってグループ化されたバケットの
リストを提供できる、効率的で経済的な方法が必要であ
る。

【００１２】本明細書では、この問題を２つの段階に分
割し、それぞれの段階ごとに効果的な解決を提供する、
バケット選択の発明を説明する。

【００１３】

【発明が解決しようとする課題】本発明の目的は、増分
モード・セッションのそれぞれの間に並列データベース
内でできる限り多くのデータを再分配することである。

【００１４】本発明のもう１つの目的は、一貫性のある
並列データベースを、データ再分配処理の間安定に保つ
ことである。

【００１５】

【課題を解決するための手段】上記その他の目的は、並
列データベース内のノード間でそこからデータを再分配
できるテーブルの組を判定するための方法、システムお
よびプログラムによって達成される。まず、並列データ
ベース内の複数のノードに関連するメモリに記憶された
テーブルから、候補テーブルのリストを確立する。この
リストは、候補テーブルのそれぞれの作業負荷に従って
順序付けられている。次に、候補テーブルのそれぞれを
テストして、候補テーブルが記憶されている複数のノー
ドのそれぞれで、その候補テーブルを所定の時間内に走
査できるかどうかを判定する。所定の時間内に走査でき
る候補テーブルのすべてを、データを再分配できるテー
ブルの組に追加する。

【００１６】再分配用のテーブルの組を確立したなら
ば、その再分配テーブル内のデータ・セットまたはバケ
ットを選択する。選択されたバケットを、複数のノード
から受取ノードへ再分配する。受取ノードは、並列デー
タベース・システムの新ノードまたは、並列データベー
ス・システム内で利用度の低いノードである。

【００１７】

【実施例】本発明は、異なる業者によって作られたさま
ざまなコンピュータを含む１群のコンピュータ上で、複
数の異なるオペレーティング・システムの下で作動でき
る。システム内のコンピュータは、たとえば、パーソナ
ル・コンピュータ、ミニ・コンピュータまたはメインフ
レーム・コンピュータとすることができる。コンピュー
タ・ネットワークは、ローカル・エリア・ネットワーク
または広域ネットワークもしくはさらに大規模の遠隔処
理システムとすることができる。コンピュータの具体的
な選択は、ディスクとディスク記憶域の要件だけによっ
て制限されるが、ＩＢＭＰＳ／２シリーズ・コンピュ
ータのコンピュータを本発明に使用できる。ＩＢＭ社の
ＰＳ／２シリーズ・コンピュータについては、Technica
l Reference Manual Personal System/2 Model 50, 60
Systems IBM Corporation, Part No. 68X2224 Order Nu
mber S68X-2224とTechnical Reference Manual Persona
l Systems/2 (model 80) IBM Corporation Part No. 68
X2256 Order Number S68X-2254を参照されたい。ＩＢＭ
ＰＳ／２パーソナル・コンピュータが作動できるオペ
レーティング・システムの１つが、ＩＢＭ社のＯＳ／２
２．０である。ＩＢＭＯＳ／２２．０オペレーテ
ィング・システムの詳細については、OS/22.0 Technica
l Library, Programming Guide Vol. 1, 2, 3 Version
2.00 Order Nos. 10G6261, 10G6495, 10G6494を参照さ
れたい。

【００１８】代替案では、ＡＩＸオペレーティング・シ
ステム上で作動するＩＢＭＲＩＳＣＳｙｓｔｅｍ／
６０００系列コンピュータのコンピュータ・システム
で、ネットワークを構成できる。ＲＩＳＣＳｙｓｔｅ
ｍ／６０００のさまざまなモデルは、ＩＢＭＣｏｒｐ
ｏｒａｔｉｏｎの多くの出版物、たとえばRISC System/
6000, 7073 and 7016 POWERstation and POWERserver H
ardware Technical Reference, Order No. SA23-2644-0
0に記載されている。ＡＩＸオペレーティング・システ
ムは、General Concepts and Procedure-- AIX Version
3 for RISC System/6000 Order No. SC23-2202-00およ
びＩＢＭＣｏｒｐｏｒａｔｉｏｎの他の出版物に記載
されている。

【００１９】図１には、システム装置１１、キーボード
１２、マウス１３および表示装置１４を含むコンピュー
タ１０が示されている。表示装置１４の画面１６は、並
列データベース動作に関する視覚的フィードバックをユ
ーザに提示するのに使用される。オペレーティング・シ
ステムによってサポートされるグラフィカル・ユーザ・
インターフェースを用いると、ユーザが、画面１６上の
特定の位置にある、選択を表すアイコンへマウス・ポイ
ンタ１５を移動し、マウス・ボタンのうちの１つを押し
てユーザ・コマンドまたはユーザ選択を実行することに
よって、ポイント・アンド・シュート方式の入力を使用
できるようになる。

【００２０】図２に、図１に示されたパーソナル・コン
ピュータの構成要素のブロック図を示す。システム装置
１１には、１つまたは複数のシステム・バス２１が含ま
れ、このシステム・バス２１にさまざまな構成要素が結
合され、このシステム・バス２１によって、さまざまな
構成要素の間の通信が達成される。マイクロプロセッサ
２２は、システム・バス２１に接続され、やはりシステ
ム・バス２１に接続される読取り専用メモリ（ＲＯＭ）
２３およびランダム・アクセス・メモリ（ＲＡＭ）２４
によってサポートされる。ＩＢＭ社のマルチメディアＰ
Ｓ／２シリーズ・コンピュータのマイクロプロセッサ
は、３８６または４８６マイクロプロセッサを含むＩｎ
ｔｅｌ社のマイクロプロセッサ・ファミリのうちの１つ
である。しかし、６８０００、６８０２０または６８０
３０マイクロプロセッサなどのＭｏｔｏｒｏｌａ社のマ
イクロプロセッサ・ファミリを含む（それに限定はされ
ない）他のマイクロプロセッサや、ＩＢＭ社、Ｈｅｗｌ
ｅｔｔＰａｃｋａｒｄ社、Ｓｕｎ社、Ｉｎｔｅｌ社、
Ｍｏｔｏｒｏｌａ社などの製造するさまざまな縮小命令
セット・コンピュータ（ＲＩＳＣ）マイクロプロセッサ
を、この特定のコンピュータに使用できる。

【００２１】ＲＯＭ２３には、他のコードと共に、相互
作用、ディスク駆動装置、キーボードなどの基本ハード
ウェア動作を制御する基本入出力システム（ＢＩＯＳ）
が含まれる。ＲＡＭ２４は、オペレーティング・システ
ムとアプリケーション・プログラムがロードされる主記
憶である。メモリ管理チップ２５は、システム・バス２
１に接続され、ＲＡＭ２４とハード・ディスク駆動装置
２６やフロッピー・ディスク駆動装置２７の間のデータ
の受け渡しを含む直接メモリ・アクセス動作を制御す
る。ＣＤ−ＲＯＭ駆動装置３２も、システム・バス２１
に結合され、大量のデータを記憶するのに使用される。

【００２２】やはりこのシステム・バス２１に接続され
ているのが、さまざまな入出力コントローラすなわち、
キーボード・コントローラ２８、マウス・コントローラ
２９、ビデオ・コントローラ３０およびオーディオ・コ
ントローラ３１である。予想されるとおり、キーボード
・コントローラ２８は、キーボード１２のハードウェア
・インターフェースを提供し、マウス・コントローラ２
９は、マウス１３のハードウェア・インターフェースを
提供し、ビデオ・コントローラ３０は、表示装置１４の
ハードウェア・インターフェースを提供し、オーディオ
・コントローラ３１は、スピーカ１５ａおよび１５ｂの
ハードウェア・インターフェースを提供する。やはりシ
ステム・バス２１に接続されているのが、スピーカ・シ
ステムによって作られる音声を修正し、好ましくはオー
ディオ・コントローラ３１に組み込まれるディジタル信
号プロセッサ３３である。スピーカ１５ａおよび１５ｂ
は、オーディオ・オブジェクトをユーザに提示するのに
使用できる。トークン・リング・アダプタなどの入出力
コントローラ４０を用いると、ネットワーク４６を介し
て他の同様の構成のデータ処理システムと通信できるよ
うになる。

【００２３】本発明の好ましい実施態様の１つが、ネッ
トワーク内の少なくとも１つのコンピュータのランダム
・アクセス・メモリに常駐するコード・モジュールの命
令の組としてのものである。コンピュータ・システムに
よって要求されない限り、この命令の組は、ハード・デ
ィスク駆動装置２６のハードディスクなど、別のコンピ
ュータの記憶装置に格納したり、ＣＤ−ＲＯＭ駆動装置
３２内の光ディスクやフロッピー・ディスク駆動装置２
７内のフロッピー・ディスクなどの取外し可能コンピュ
ータ記憶装置に格納することができる。図からわかるよ
うに、オペレーティング・システム５０とプレゼンテー
ション・マネージャ５２は、ＲＡＭ２４に常駐する。こ
の例では、本発明は、オペレーティング・システムと共
同するデータベース管理プログラム５４に組み込まれ
る。データベース管理プログラム５４は、並列データベ
ース・システムの一部を形成するデータベース５６を管
理する。

【００２４】ネットワークに結合された複数のコンピュ
ータ・システムを含む並列データベース・システムを、
図３に示す。４つのコンピュータ・システムまたはノー
ド６１、６３、６５および６７が、ネットワーク６９に
よって互いに結合される。前に述べたように、これらの
コンピュータ・システムは、通常はパーソナル・コンピ
ュータまたはワークステーションである。このネットワ
ークは、ＩＳＯ規格およびＩＥＥＥ規格に適合するトー
クンリングやイーサネット・ネットワークなどのローカ
ル・エリア・ネットワークとするか、遠隔通信リンクを
含む広域ネットワークとすることができる。トークン・
リングとイーサネット・ネットワークのどちらもが、Ｉ
ＥＥＥと国際標準化機構（ＩＳＯ）のローカル・エリア
・ネットワークの規格に適合する。ＩＳＯの規格群は、
標準文書ISO 8802-2 (Logical Link Control Protoco
l)、ISO 8802-3 (CSMA/CD Bus)、ISO 8802-4 (Token pa
ssing bus)、ISO 8802-5 (Token Passing Ring)およびI
SO 8802-7 (Slotted Ring)に記載されている。

【００２５】並列データベース・システムは、ノードの
それぞれに複数のテーブル６２、６４、６６および６８
を格納する。並列データベースは通常、１ノードが使用
不能になった場合のフォールト・トレランスのために、
テーブルの冗長な記憶域を有することに留意されたい。
たとえば、テーブル６２および６４を保持するノード６
１がダウンした場合には、テーブル６２をノード６５で
使用でき、テーブル６４をノード６７で使用できる。前
に述べたように、関係データベースは、ＰＤＢシステム
内で特に有用である。関係データベース用の周知の言語
の１つが、標準構造化照会言語（ＳＱＬ）である。探索
は、データを探すテーブルを定義する照会で定義され
る。問題のテーブル列、条件行は、列の順序、個別性制
約、テーブル内のデータの接続および照会で指定される
他の関係を満足しなければならない。ＰＤＢシステム内
では、局所的に格納されたデータを使用して探索照会を
満足できない場合に、他のノードに記憶されたデータベ
ースの他の部分に関する遠隔呼出しを行う。関係データ
ベース、特にＳＱＬとその使用法の詳細については、IB
M Operating Systems/2 Extended Edition Database Ma
nagers Structured Query Language (SQL) Concepts Bo
oklet、IBM Corporation発行、１９９１年を参照された
い。

【００２６】新ノードが並列データベース・システムに
追加される時の情況を、図４に示す。テーブル７２およ
び７４を含む新ノード７１が、図３に示されたネットワ
ークに追加される。局所リンク７３を、既存のノード６
１、６３、６５および６７のそれぞれに接続して、既存
のテーブル６２、６４、６６および６８の部分を新ノー
ド７１に転送するのを簡単にする。論理リンクは、ノー
ドのそれぞれに置かれるトランスポート層によって確立
される。このトランスポート層には、新ノード７１への
論理リンクを介する送出に先立って既存のノードのテー
ブル部分を記憶する通信バッファが含まれている。通信
のため論理リンクを提供するネットワーク接続性は、ネ
ットワーク通信ソフトウェアが提供する。たとえばＮｅ
ｔＢｉｏｓ、ＳＮＡ、TCP/IPなど、さまざまなプロトコ
ルをサポートできる。ＮｅｔＢｉｏｓプロトコルに関す
る情報は、IBM Operating Systems/2 Local Area Netwo
rkServer Version 2.0 Information and Planning Guid
e(G236-0162)、IBM LocalArea Network Server Program
s (Specification sheet) (G360-2753)、およびIBM Loc
al Area Network Technical Reference(SC30-3383)にあ
る。ネットワーク通信ソフトウェアは、セッションをセ
ットアップし、メッセージがＬＡＮを介して送受される
ことを確認し、ネットワーク・プロトコルに適合するよ
うにデータベースからのデータをバンドル（収集）する
などの責任を負う。

【００２７】通信ソフトウェアは、即座にＬＡＮを介し
て送出できないデータも、通信バッファに置く。通信バ
ッファは、通信制御情報を格納したヘッダ情報、送出す
べきデータ・レコードを含む実際のデータ、および、デ
ータ・レコードの末尾を示す終了部分を記憶できる。

【００２８】関係データベース・テーブル１００の例を
図５に示す。テーブルには一般に、行内の複数のレコー
ドと、１組の列内の対応するフィールドの組が含まれ
る。たとえば、行１０１のレコード１には、それぞれが
特定の列に書き込まれる複数のフィールド内のデータが
含まれ、たとえば、口座番号情報は列１０２に書き込ま
れ、口座名義情報は列１０４に書き込まれ、最終処理日
付情報は列１０６に書き込まれ、コメント情報は列１０
８に書き込まれ、残高情報は列１１０に書き込まれる。
５つのフィールドだけを有する２つのレコードだけが図
示されているが、実際には、関係データベース・テーブ
ルは、非常に大きくなり、複数ページの記憶域を含む可
能性がある。関係データベースが既存ノードに収まらな
いほど大きくなった時に、新ノードを並列データベース
・システムに追加し、既存ノードのテーブルの一部を再
分配できる。

【００２９】新ノード追加の場合のデータ再分配処理
を、図６に示す。この処理は、ステップ１５０で始ま
り、ステップ１５２に進んで、新ノードを並列データベ
ースに物理的に接続し、登録する。この登録処理では、
ノードＩＤ、ネットワーク・アドレスなどを、ＰＤＢシ
ステム内の登録サーバ・ノードに送る。次に、ステップ
１５４で、新ノードに移動するデータのバケットを、既
存ノードごとに決定する。これは図７および図８に詳細
に示されている。次に、ステップ１５６で、論理リンク
に必要なバッファ・サイズを、既存ノードごとに計算す
る。バッファ・サイズの計算は、図９に詳細に示されて
いる。

【００３０】ステップ１５７、１５９、１６２、１６９
および１７０は、既存ノードのそれぞれで実行される。
ステップ１６１、１６３、１６５および１６７は、並列
データベースに追加される新ノードで実行される。ステ
ップ１５７で、テーブル走査処理を開始する。テーブル
走査処理は、以下で図１０を参照して詳細に説明する。
次に、ステップ１５９で、テーブル走査処理によって書
き込まれた通信バッファを、新ノードに送る。ステップ
１６１で、新ノードが、再分配されたデータを受け取
り、記憶する。ステップ１６２で、最後の通信バッファ
が、既存ノードから新ノードに送られる。各通信バッフ
ァには、それが最終バッファであるか否かを示すフラグ
を含めることができる。ステップ１６３で、所与の既存
ノードからのデータ受取りの終りをマークする。受取り
側ノード内のテーブルは、この情報がどこに記憶されて
いるかを記憶し、当該受取り側ノードに常駐する。ステ
ップ１６５でテストを行って、すべての既存ノードがデ
ータ再分配の終りに関してマークされたかどうかを判定
する。そうである場合には、ステップ１６７で、既存ノ
ードのそれぞれに情報の受取りが完了したことを知らせ
る。ステップ１６９で、新ノードからこの完了メッセー
ジを受け取り、ステップ１７０で、新ノードに転送済み
のマークされたデータ・レコードを、既存ノードのテー
ブルから削除する。この処理は、ステップ１７２で終了
する。

【００３１】データ再分配に割り当てられた限られた時
間期間の間に増分モードで移動できるデータ・バケット
を決定するために、本発明は、分割統治アプローチを採
用する。バケット選択に関して直接作業を行う前に、デ
ータ再分配に必要なテーブルを決定する。完全なテーブ
ル走査を使用して移動するデータを取り出す時、この走
査動作が、通常は増分モード・セッションのボトルネッ
クになる。増分セッション内の他の動作の大半は、テー
ブル走査動作と同時に行うことができる。既存ノードの
それぞれについて、取り出されたデータを記憶するのに
十分なバッファが割り振られていると仮定すると、各ノ
ードは、関与するテーブルに対して無停止の完全なテー
ブル走査を順次実行する。したがって、このテーブルの
完全なテーブル走査を実行するのに必要な時間によっ
て、テーブル内のデータを再分配するのに必要な時間を
測定することが可能となる。まず、既存ノードのそれぞ
れについて、下記の表記法を定義する。・Ｒ（Ｔ）は、テーブルＴ内のデータのデータ再分配に
必要な時間である。・Ｓ（Ｔ）は、テーブルＴに対する完全なテーブル走査
を実行するのに必要な時間である。・Ｚ（Ｔ）は、テーブルＴのサイズである。・Ｎ（Ｔ）は、テーブルＴ内のレコード数である。

【００３２】Ｓ（Ｔ）の大部分は、テーブルＴのデータ
・ファイルからデータのページをゲットするための入出
力時間である。Ｓ（Ｔ）のうちの比較的小さな部分が、
各データ・レコードを読み取ってそれを移動するかどう
かを検査する処理の時間である。ＰＤＢノードのそれぞ
れについて、ページをゲットするための入出力時間と、
データ・レコードを読み取り検査するための処理時間を
得ることができる。したがって、Ｚ（Ｔ）とＮ（Ｔ）の
情報があれば、Ｓ（Ｔ）の近似値を予測できる。前に述
べたように、増分モード・セッションには、多数の並行
動作がある。Ｓ（Ｔ）は、Ｒ（Ｔ）のうちで非常に高い
比率を占める。Ｒ（Ｔ）の残りは、単一のメッセージ・
バッファを取り扱うための待合せ時間Ｑ（Ｑ＝待機時間
＋サービス時間）である。したがって、Ｒ（Ｔ）は、Ｓ
（Ｔ）とＱの合計にほぼ等しい。通常のＰＤＢシステム
構成では、Ｑは、Ｒ（Ｔ）のうちで十分無視できるほど
に小さい。増分モードの場合、各セッション内の再分配
されるデータの量は、通常は、データの総量に比較して
少なく、そのためにＱが小さくなるのである。また、受
取り側ノードは、「ページ・コピー」に似たアプローチ
を採用してＱを減らすことができる。したがって、Ｒ
（Ｔ）をｆ（Ｓ（Ｔ））と表すことができる。ただしｆ
（）は、その出力値がその入力値より必ずわずかに高い
関数である。たとえば、ｆ（Ｘ）＝（１．０＋α）×Ｘ
またはｆ（Ｘ）＝Ｘ＋α、ただしαは非常に小さい値で
ある。

【００３３】時間制約を満足するようにノード内で選択
可能なテーブルを決定するという問題は、線形プログラ
ミング問題として定式化でき、テーブルＴ_iが選択され
る場合にはＤ_iに１の値を、そうでない場合には０の値
を割り当てる。

【数１】ただし、Ｐ_allowedは、この増分セッションに割り当て
られた時間枠である。Ｎは、ＰＤＢ内のノードの総数で
ある。

【００３４】しかし、この定式化では、単一ノード内の
問題しか記述できない。すべての既存ノードの状況を一
緒に考慮しなければならない時には、困難な情況になる
可能性がある。選択可能テーブルを決定するための方法
は、次の２種類に分類できる。

【００３５】第１に、すべての既存ノードが同一の組の
テーブルからバケットを選択しなければならないという
制約がない時には、上の定式化が有効であり、この問題
をよく表現している。ＰＤＢデータベース内のテーブル
数は、通常はあまり多くはないので、線形プログラミン
グ・パッケージや他の最適化方法を使用することによっ
て、この問題をノードごとに個別に解決できる。

【００３６】第２に、すべての既存ノードがデータ再分
配に関して同一の組のテーブルを選択することが要求さ
れる時には、上の定式化が無効になる。すべての既存ノ
ードの状況を同時に検討しなければならない時には、問
題の複雑さが劇的に増大する。この場合には、ヒューリ
スティック手法が適している。あるテーブルに関して、
その全作業負荷は、各ＰＤＢノード内でのその作業負荷
の合計として定義される。より高い全作業負荷を有する
テーブルは、「重い」とみなされる。ヒューリスティッ
ク・アルゴリズムでは、再分配によって負荷平衡化を達
成するため、重いテーブルにより多くのバケットがある
と仮定する。したがって、ヒューリスティック・アルゴ
リズムを、図７を参照して下で説明する。データ再分配
には、下記のステップで説明するように、テーブルのリ
スト（Ｌｉｓｔ＿Ｍｏｖｅ）が必要である。ステップ１
７５で、各テーブルＴ_iの全作業負荷を、次式に従って
計算する。

【数２】ただし、Ｗ_k（Ｔ_k）は、ノードＮＯＤＥ_kでの時刻Ｔ_iの
作業負荷である。

【００３７】次に、ステップ１７６で、テーブル・リス
トＬｉｓｔ＿Ｔａｂｌｅと称するデータ構造内で、全作
業負荷の降順に従ってテーブルのリストを配置する。ス
テップ１７７で、次のテーブル（第１パスの間は第１の
テーブル）を検索する。ノードＮＯＤＥ_kでの増分セッ
ションに関して許容される残り時間Ｐ_kを、ステップ１
７８で検索する。

【００３８】既存ノードＮＯＤＥ_kに関するＬｉｓｔ＿
Ｔａｂｌｅの最初の項目のテーブルについて、ステップ
１７９でそのｆ（Ｓ（Ｔ））_k値を計算する。ステップ
１８０でＰ_k−Ｆ（Ｓ（Ｔ））≧０の場合、このテーブ
ルは、ノードＮＯＤＥ_kの候補テストに合格する。次
に、ステップ１８１でテストを行って、ＮＯＤＥ_kが最
後のノードであるかどうかを判定する。そうでない場
合、ＮＯＤＥ_kを１つ増分し、ステップ１７８に戻っ
て、ＰＤＢ内の各ノードについてテーブルのテストを行
う。このテーブルが、すべての既存ノードでの候補テス
トに合格する場合、ステップ１８３で、このテーブル
を、移動されるテーブルのリストである移動リストＬｉ
ｓｔ＿Ｍｏｖｅに追加し、Ｌｉｓｔ＿Ｔａｂｌｅから削
除する。ステップ１８４で、各ノードのＰ_kを更新す
る。ステップ１８５でテストを行って、Ｌｉｓｔ＿Ｔａ
ｂｌｅが空であるかどうかを判定する。そうでない場
合、ステップ１８６で、次のテーブルを選択する。この
次テーブルを、ステップ１７７で検索する。あるテーブ
ルが、ステップ１８０でどれかのノードに関してテスト
に合格しなかったならば、ステップ１８７で、そのテー
ブルをＬｉｓｔ＿Ｔａｂｌｅから除去する。ステップ１
８３では、Ｌｉｓｔ＿Ｔａｂｌｅが空であるかどうかを
テストする。Ｌｉｓｔ＿Ｔａｂｌｅが空になったなら
ば、ステップ１８８で処理を終了する。

【００３９】増分セッションに必要なテーブルのリスト
を決定した後に、これらのテーブルに含まれるバケット
だけを、データ再分配に関して選択する。時間制約は、
テーブル選択段階で十分に取り込まれているので、これ
らのテーブルからバケットを選択する処理では、時間制
約をもう一度考慮する必要がない。

【００４０】増分モードのバケット・プールには、上の
処理によって決定された選択可能テーブル内のバケット
だけを含めればよい。

【００４１】平均目標作業負荷（Average-Target workl
oad）処理は、再分配される実際のデータのバケットを
選択するために一時に１つのノードに対して作業する好
ましい方法である。図８からわかるように、ＰＤＢシス
テムの全作業負荷を、ステップ２０１で判定する。次
に、ステップ２０３で、このＰＤＢシステムの理想作業
負荷を計算するが、これは、全作業負荷が、既存ノード
とＰＤＢに追加される新ノードのすべてに対して平均化
された状態の作業負荷である。この流れ図の残りのステ
ップでは、新ノードへの移動に関して選択されたバケッ
トを記述したノードごとの順序付きリストＬｉｓｔ−Ｍ
ｏｖｅを作成する。既存ノードのそれぞれについて、候
補リストＣａｎｄｉｄａｔｅ＿Ｌｉｓｔには、当初は、
そのノードに常駐するすべてのバケットの数が含まれて
いる（ステップ２０５）。次に、Ｃａｎｄｉｄａｔｅ＿
Ｌｉｓｔから、最も高い値の作業負荷を有するバケット
を見つける。好ましい実施例の１つでは、ステップ２０
９で、作業負荷値を、式Ｗ＝Ｗ₁×（Ｗｏｒｋ＿ｌｏａ
ｄ）−Ｗ₂×（Ｔａｂｌｅ＿ｓｉｚｅ）−Ｗ₃×（Ｂｕｃ
ｋｅｔ＿ｓｉｚｅ）−Ｗ₄×（＃ｒｅｃｏｒｄｓ）に従
って計算する。ただし、Ｗｏｒｋ＿ｌｏａｄはこのバケ
ットの潜在的作業負荷、Ｔａｂｌｅ＿Ｓｉｚｅはテーブ
ル・サイズ、Ｂｕｃｋｅｔ＿Ｓｉｚｅはバケット・サイ
ズ、＃ｒｅｃｏｒｄｓはバケット内のデータ・レコード
の数を表す。ＰＤＢの使用が特定のパターンに従うと仮
定すると、各ノードの各テーブルの作業負荷の履歴デー
タを、重要な参照として使用して、各ノードの各テーブ
ルの将来の使用における潜在的作業負荷を判定できる。
重み付け係数Ｗ₁は、履歴データから将来の可能な作業
負荷への可能な写像を反映するのに使用される。Ｗ
₁は、作業負荷の履歴情報に対する統計分析に基づいて
決定できる。ＰＤＢシステムが、ほとんどの時間の間同
一タイプのアプリケーションを作動させるのに使用さ
れ、データが、バケットにランダムに分配される場合、
係数Ｗ₁の値は、値１に近い狭い範囲におさまる可能性
が非常に高い。

【００４２】特定のテーブル内の１バケットを移動する
コストは、通常は下記の３つの要因によって決定され
る。（１）テーブルのサイズ：テーブル走査を処理する
ために割り振られるメモリは固定されているので、テー
ブルが大きいと、ディスクとメモリの間のスワップが多
くなる。（２）バケットのサイズ：バケットが大きいと
いうことは、移動するデータが多く、通信コストが高い
ことを意味する。（３）レコード数：テーブル走査処理
では、テーブル内のすべてのレコードを取り出し、検査
する必要がある。レコードの数が多ければ、処理時間も
長くなる。

【００４３】重み付け係数Ｗ₂、Ｗ₃およびＷ₄の値は、
ＰＤＢシステムおよび通信ソフトウェアの構成と性能に
依存し、これによって決定できる。Ｗ₂、Ｗ₃およびＷ₄
の間の相対的な値は、スワッピング処理、通信処理およ
び走査処理の速度を比較した情報を用いて決定できる。
Ｗ₂、Ｗ₃およびＷ₄を相対的に決定した後に、Ｗ₁の値を
もう一度調節して、作業負荷とバケット送出のコストの
間で適切な重み付けを行える。

【００４４】次に、ステップ２１１で、最も高い値のバ
ケットを、バケットの候補リストから除去する。ステッ
プ２１３でテストを行って、このバケットを移動した後
の残りの作業負荷が、まだ理想作業負荷を越えるかどう
かを、式Ｗ_rest−Ｗｏｒｋ＿ｌｏａｄ≧Ｗ_idealに従っ
て判定する。

【００４５】Ｗ_restは、このバケットを移動する前のこ
のノードの作業負荷であり、ｗｏｒｋ＿ｌｏａｄは、最
も高い値のバケットの作業負荷である。

【００４６】この比較の結果が真である場合、このバケ
ットの選択が許容される。その場合、ステップ２１５
で、このバケットに関して項目（Ｔａｂｌｅ＿Ｎａｍ
ｅ，Ｂｕｃｋｅｔ＿Ｎｕｍｂｅｒ）を、このノードのＬ
ｉｓｔ＿Ｍｏｖｅに置く。

【００４７】このノードの作業負荷は、ステップ２１７
で、最も高い値のバケットからの作業負荷を残りの作業
負荷から減算することによって更新される。ステップ２
１９でテストを行って、Ｃａｎｄｉｄａｔｅ＿Ｌｉｓｔ
が空であるかどうかを判定する。そうでない場合、ステ
ップ２０９に戻って、次の最も高い値のバケットを判定
する。この処理は、ステップ２１９で候補リストが空と
判定されるまで繰り返される。その後、ステップ２２１
で、再分配の可能な追加のノードがあるかどうかを判定
する。そうである場合、ステップ２２３で次ノードを選
択する。テストするノードがなくなるまでこの処理を繰
り返した後に、ステップ２２５で終了する。

【００４８】待合せ理論を使用して、テーブル走査動作
のためにとっておく必要のあるバッファ空間の量を計算
できる。これは、関連特許出願である米国特許出願番号
第２１６０８７号、"Minimal Sufficient Buffer Space
for Data Redistribution in a Parallel Database Sy
stem"に詳細に記載されている。

【００４９】テーブル走査処理をサポートするのに最低
限必要な論理リンク用バッファ空間を計算する処理を、
図９に示す。

【００５０】この処理は、ステップ２５１で始まり、そ
こで、通信バッファを満たすページの数を、ノードごと
に計算する。次に、ステップ２５３で、各ノードの通信
バッファを満たす時間の平均値を求める。次に、ステッ
プ２５５で、ノードｉから新ノードへのデータ再分配メ
ッセージの到着速度を、ノードごとに計算する。

【００５１】次に、ステップ２５７で、データ再分配の
総合到達速度と、正規トランザクション・メッセージの
総合到達速度を計算する。次に、ステップ２５９で、新
ノードでのメッセージ総合到達速度を計算する。ステッ
プ２６１で、新ノードでの平均サービス時間を求める。

【００５２】次に、ステップ２６３で、データ再分配メ
ッセージの平均待合せ時間を計算する。

【００５３】最後に、ステップ２６５で、ノードごと
に、ノード内の通信バッファを満たす平均時間によって
平均待合せ時間を割ることによって、最低限必要なバッ
ファ数を計算する。

【００５４】テーブル走査処理を、図１０に示す。この
処理は、ステップ３００で始まり、この時、テーブルと
テーブル内のバケット番号が、テーブル走査処理に与え
られる。この情報を用いて、ステップ３０１で、テーブ
ル番号に対応するテーブルをオープンし、ロックする。
ステップ３０３で、テーブル内の最初のレコードを検査
するようにセットする。ステップ３０５で、レコードｉ
を検査し、レコードｉが属するバケットのバケット番号
ｋを検索する。ステップ３０７でテストを行って、バケ
ット番号ｋが、再分配されるバケットの組に含まれるか
どうかを判定する。そうである場合、ステップ３０９
で、レコードｉを通信バッファにコピーし、再分配処理
が完了したならば、レコードｉを削除済みとしてマーク
する。ステップ３１１で、レコード番号を１つ増分す
る。ステップ３１３でテストを行って、テーブル走査処
理がテーブルの終りに達したかどうかを判定する。そう
でない場合、レコードの検査に戻って、そのレコードが
再分配されるバケットの組に属するかどうかを判定す
る。テーブルの終りに達した場合、ステップ３１５で処
理を終了する。

【００５５】上の説明は、並列データベース・システム
に新ノードを追加する時のデータ再分配を中心とするも
のであるが、本発明は、ＰＤＢシステムが不平衡になっ
た時にも使用できる。ＰＤＢが不平衡であるかどうかを
判定する処理を、図１１に示す。この処理は、ステップ
３５０から始まり、即座にステップ３５１に継続して、
ＰＤＢシステム内の各ノードからデータ負荷情報を集め
る。次に、ステップ３５３で、所定の閾値水準を越える
データ負荷を有するノードを判定し、「オーバーロード
（過負荷）状態」として分類する。次に、ステップ３５
５で、所定の最少標準より低い負荷を有するノードを判
定し、「アンダーロード（低負荷）状態」として分類す
る。ステップ３５７で、オーバーロード状態ノード内の
移動すべきバケットの順序付きリストを確立する。この
リストは、バケット・サイズの順で配置され、バケット
番号、バケット・サイズ、ノードＩＤなどの情報を含む
ことが好ましい。

【００５６】ステップ３５９で、アンダーロードの範疇
に含まれる、最少の計画負荷を有するノードを判定し、
名前Ｎｏｄｅ−ｍｉｎを割り当てる。計画負荷は、計画
負荷＝現負荷＋そのノードへ移動を計画されているバケ
ットからの負荷という式によって決定される。次に、ス
テップ３６１で、移動されるバケットの順序付きリスト
の先頭のバケットＢ（ｔｏｐ）と、Ｎｏｄｅ−ｍｉｎの
仮の計画負荷Ｘを検索する。バケットＢ（ｔｏｐ）内の
データが引き起こす潜在負荷Ｌ（Ｂ（ｔｏｐ））を求め
る。次に、ステップ３６３でテストを行って、ＸとＬ
（Ｂ（ｔｏｐ））の合計が所定の閾値水準より大きいか
どうかを判定する。そうでない場合、ステップ３６５
で、先頭バケットをＮｏｄｅ−ｍｉｎに割り当て、バケ
ットの順序付きリストからＢ（ｔｏｐ）を除去する。さ
らに、Ｎｏｄｅ−ｍｉｎの仮の計画負荷Ｘを更新する。
この処理は、仮の計画負荷が閾値水準を越えるまで、こ
のループ内で継続する。閾値水準を越えたならば、ステ
ップ３６７で、先頭バケットをＮｏｄｅ−ｍｉｎに割り
当て、順序付きリストから除去し、Ｎｏｄｅ−ｍｉｎの
計画負荷を更新する。次に、ステップ３６９で、移動す
るバケットのリストが空であるかどうかを判定する。そ
うでない場合、すなわち、移動すべきバケットがまだ存
在する場合、最少の計画負荷を有する新Ｎｏｄｅ−ｍｉ
ｎを見つけるステップに戻り、上に述べた処理を繰り返
す。移動すべきバケットがない場合、ステップ３７１で
処理を終了する。

【００５７】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００５８】（１）再分配処理が他の処理と同時に動作
する並列データベース内のノード間でデータを再分配す
るための方法であって、前記再分配処理に割り当てられ
た時間内に少なくとも１つの送出ノードから受取ノード
へ再分配できるデータを判定するステップと、前記時間
内に前記少なくとも１つの送出ノードから前記受取ノー
ドへ再分配可能なデータを再分配するステップとを含む
データ再分配方法。（２）前記判定ステップが、それぞれの作業負荷に従っ
て順序付けられ、前記少なくとも１つの送出ノードに記
憶される候補テーブルのリストを確立するステップと、
候補テーブルのそれぞれを、その候補テーブルを記憶す
る前記送出ノード内で前記時間内に走査できるかどうか
を判定するステップと、再分配可能な前記時間内に走査
できる候補テーブルのすべてを、そこからデータが再分
配されるテーブルの組に追加するステップとを含む、上
記（１）に記載の方法。（３）前記テーブルの組から再分配可能データを選択す
るステップを含む、上記（２）に記載の方法。（４）前記受取ノードが、並列データベース・システム
の新ノードである、上記（２）に記載の方法。（５）前記受取ノードが、並列データベース・システム
内で利用度の低いノードである、上記（２）に記載の方
法。（６）再分配処理が他の処理と同時に動作する並列デー
タベースにおいて、ノード間でデータを再分配するため
のシステムであって、前記再分配処理に割り当てられた
時間内に少なくとも１つの送出ノードから受取ノードへ
再分配できるデータを判定する手段と、前記時間内に前
記少なくとも１つの送出ノードから前記受取ノードへ再
分配可能なデータを再分配する手段とを含むシステム。（７）前記判定手段が、それぞれの作業負荷に従って順
序付けられ、並列データベース内の複数のノードに関連
するメモリに記憶される候補テーブルのリストを確立す
る手段と、候補テーブルのそれぞれを、その候補テーブ
ルを記憶する複数のノードのそれぞれで前記時間内に走
査できるかどうかを判定する手段と、前記時間内に走査
できる候補テーブルのすべてを、そこから再分配可能デ
ータが判定されるテーブルの組に追加する手段とを含
む、上記（６）に記載のシステム。（８）テーブルの組から再分配可能データを選択する手
段を含む、上記（７）に記載のシステム。（９）前記受取ノードが、並列データベース・システム
の新ノードである、上記（７）に記載のシステム。（１０）前記受取ノードが、並列データベース・システ
ム内で利用度の低いノードである、上記（７）に記載の
システム。

【図面の簡単な説明】

【図１】システム装置、表示装置、キーボードおよびマ
ウスを含む単一のコンピュータ・システムを示す図であ
る。

【図２】図１に示されたコンピュータ・システムの構成
要素のブロック図である。

【図３】並列データベース・システムを示す図である。

【図４】新ノードが追加された並列データベース・シス
テムを示す図である。

【図５】並列データベース・システム内のテーブルを示
す図である。

【図６】並列データベース・システムの新ノードへデー
タを再分配する処理の流れ図である。

【図７】どのテーブルからデータを再分配できるかを判
定する処理の流れ図である。

【図８】図７の処理で選択されたテーブルからデータの
バケットを選択する処理の流れ図である。

【図９】データ読取再分配に十分な最低限のバッファ空
間を計算する処理を示す図である。

【図１０】テーブル走査動作の流れ図である。

【図１１】並列データベース内の不平衡状態を判定する
処理の流れ図である。

【符号の説明】

２１システム・バス２２マイクロプロセッサ２３読取り専用メモリ（ＲＯＭ）２４ランダム・アクセス・メモリ（ＲＡＭ）２６ハード・ディスク駆動装置２７フロッピー・ディスク駆動装置４０入出力コントローラ４６ネットワーク５０オペレーティング・システム５２プレゼンテーション・マネージャ５４データベース管理プログラム５６データベース６１ノード６３ノード６５ノード６７ノード６２テーブル６４テーブル６６テーブル６８テーブル６９ネットワーク７１新ノード７２テーブル７４テーブル７３局所リンク１００関係データベース・テーブル

Claims

【特許請求の範囲】

【請求項１】再分配処理が他の処理と同時に動作する並
列データベース内のノード間でデータを再分配するため
の方法であって、前記再分配処理に割り当てられた時間内に少なくとも１
つの送出ノードから受取ノードへ再分配できるデータを
判定するステップと、前記時間内に前記少なくとも１つの送出ノードから前記
受取ノードへ再分配可能なデータを再分配するステップ
とを含むデータ再分配方法。
【請求項２】前記判定ステップが、それぞれの作業負荷に従って順序付けられ、前記少なく
とも１つの送出ノードに記憶される候補テーブルのリス
トを確立するステップと、候補テーブルのそれぞれを、その候補テーブルを記憶す
る前記送出ノード内で前記時間内に走査できるかどうか
を判定するステップと、再分配可能な前記時間内に走査できる候補テーブルのす
べてを、そこからデータが再分配されるテーブルの組に
追加するステップとを含む、請求項１に記載の方法。
【請求項３】前記テーブルの組から再分配可能データを
選択するステップを含む、請求項２に記載の方法。
【請求項４】前記受取ノードが、並列データベース・シ
ステムの新ノードである、請求項２に記載の方法。
【請求項５】前記受取ノードが、並列データベース・シ
ステム内で利用度の低いノードである、請求項２に記載
の方法。
【請求項６】再分配処理が他の処理と同時に動作する並
列データベースにおいて、ノード間でデータを再分配す
るためのシステムであって、前記再分配処理に割り当てられた時間内に少なくとも１
つの送出ノードから受取ノードへ再分配できるデータを
判定する手段と、前記時間内に前記少なくとも１つの送出ノードから前記
受取ノードへ再分配可能なデータを再分配する手段とを
含むシステム。
【請求項７】前記判定手段が、それぞれの作業負荷に従って順序付けられ、並列データ
ベース内の複数のノードに関連するメモリに記憶される
候補テーブルのリストを確立する手段と、候補テーブルのそれぞれを、その候補テーブルを記憶す
る複数のノードのそれぞれで前記時間内に走査できるか
どうかを判定する手段と、前記時間内に走査できる候補テーブルのすべてを、そこ
から再分配可能データが判定されるテーブルの組に追加
する手段とを含む、請求項６に記載のシステム。
【請求項８】テーブルの組から再分配可能データを選択
する手段を含む、請求項７に記載のシステム。
【請求項９】前記受取ノードが、並列データベース・シ
ステムの新ノードである、請求項７に記載のシステム。
【請求項１０】前記受取ノードが、並列データベース・
システム内で利用度の低いノードである、請求項７に記
載のシステム。