JPH096732A

JPH096732A - 並列プロセッサ装置

Info

Publication number: JPH096732A
Application number: JP7147863A
Authority: JP
Inventors: Yoshifumi Ojiro; 嘉史雄城
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-06-14
Filing date: 1995-06-14
Publication date: 1997-01-10
Anticipated expiration: 2019-09-02
Also published as: DE69613517T2; DE69613517D1; JP3560690B2; EP0749066A1; US5854938A; EP0749066B1

Abstract

(57)【要約】【目的】本発明は、複数のプロセッサが同時並列的に
動作して所定の業務を実行する並列計算機システム等の
並列プロセッサ装置に関し、通常範囲のメモリ量でのバ
ケット書込／読出性能の保証のためのブロッキング作業
を可能にし、バケット書込／読出性能を大幅に改善する
ことを目的とする。【構成】第１分割手段５が、第１プロセッサ群２から
中間プロセッサ群４へのデータ送信時に、処理対象のデ
ータを、それぞれ複数種別のタプルの集合体である複数
組のバケットグループに分割して中間プロセッサ群４に
一時的に格納させるとともに、第２分割手段６が、中間
プロセッサ群４から第２プロセッサ群３へのデータ送信
時に、複数組のバケットグループを、各バケットグルー
プ毎に読み出して同一種別のタプルのみの集合体である
バケットに分割して第２プロセッサ群３に格納させるよ
うに構成する。

Description

【発明の詳細な説明】

【０００１】（目次）産業上の利用分野従来の技術（図９〜図１５）発明が解決しようとする課題課題を解決するための手段（図１）作用（図１）実施例（図２〜図８）発明の効果

【０００２】

【産業上の利用分野】本発明は、複数のプロセッサが同
時並列的に動作して所定の業務を実行する並列計算機シ
ステム等の並列プロセッサ装置に関する。

【０００３】

【従来の技術】まず、一般的な並列計算機システム（並
列プロセッサ装置）の概要について説明する。なお、こ
の概要は、後述する本発明にも共通している。この一般
的な並列計算機システム（本発明が適用されるシステ
ム）は、次の条件を満たすものである。

【０００４】システムを構成する複数のプロセッサは、
メモリおよび二次記憶装置を共用しない。つまり、ある
メモリやある二次記憶装置は、システムの動作中、ある
１プロセッサによってのみアクセスされる。また、複数
のプロセッサ間は、任意のプロセッサから任意のプロセ
ッサへのデータ転送が可能なネットワーク機構により相
互接続されている。

【０００５】ここで、図９により一般的な並列計算機シ
ステムの構成例について説明すると、図９において、１
０−１〜１０−Ｎはそれぞれ並列計算機システムを構成
するプロセッサモジュール（以下、ＰＭと略記する場合
がある）で、これらのＰＭ１０−１〜１０−Ｎは、並列
的に動作するもので、その相互間は、ネットワーク機構
１１により通信可能に接続されている。

【０００６】ネットワーク機構１１は、ＰＭ１０−１〜
１０−Ｎ間の任意長データの全点対全点通信を論理的に
可能とするものである。このネットワーク機構１１は、
実際には、固定長バケットをＰＭ相互間で複数回数交換
することにより前記通信を行なうものであってもよい
し、ミクロな時間幅ではＰＭ相互間のある結合関係が輻
輳現象などにより不可能（輻輳を起こした一方の通信が
待たされ遅延する）であってもよいが、マクロな視点で
任意のプロセッサ相互間の任意長のデータ転送が可能な
ものとする。

【０００７】そして、ＰＭ１０−１〜１０−Ｎは、それ
ぞれ、ＣＰＵ２０，メモリ２１，アクセス機構２２およ
びＩ／Ｏ機構２３を含んで構成されている。ここで、Ｃ
ＰＵ２０は、各ＰＭ１０−１〜１０−Ｎに内蔵され、ア
クセス機構２２やＩ／Ｏ機構２３の動作を制御するほ
か、メモリ２１上に存在するデータの読出やメモリ２１
上へのデータの書込を行なう機能を有している。

【０００８】メモリ２１は、各ＰＭ１０−１〜１０−Ｎ
に内蔵されており、このメモリ２１上の任意の位置にあ
る任意長のデータブロックに対して、ＣＰＵ２０，アク
セス機構２２およびＩ／Ｏ機構２３からアクセスするこ
とができるようになっている。アクセス機構２２は、各
ＰＭ１０−１〜１０−Ｎに内蔵され、ＰＭ１０−１〜１
０−Ｎの相互間を接続するネットワーク機構１１へのア
クセスを行なうためのものである。このアクセス機構２
２は、ＣＰＵ２０から指定された自メモリ上位置（メモ
リ２１のアドレス）に存在する任意長のデータブロック
をＣＰＵ２０から指定された他プロセッサに対して転送
する機能と、ネットワーク機構１１から与えられたデー
タブロックを自ＣＰＵ２０から指定された自メモリ上位
置に格納する機能とを（少なくとも論理的に）有してい
る。

【０００９】Ｉ／Ｏ機構２３は、各ＰＭ１０−１〜１０
−Ｎに内蔵され、各ＰＭ１０−１〜１０−Ｎに接続され
た二次記憶装置２４へのアクセスを行なうためのもので
ある。このＩ／Ｏ機構２３は、ＣＰＵ２０から指定され
た自メモリ上位置に存在する任意長のデータブロックを
ＣＰＵ２０から指定された二次記憶装置２４の指定領域
に書き込む機能と、ＣＰＵ２０から指定された二次記憶
装置２４の指定領域におけるデータブロックをＣＰＵ２
０から指定された自メモリ上位置に書き込む機能とを
（少なくとも論理的に）有している。

【００１０】なお、各ＰＭ１０−１〜１０−Ｎに接続さ
れた二次記憶装置２４は、例えば図１２を参照しながら
後述するような磁気ディスク装置で、各ＰＭ１０−１〜
１０−Ｎに複数台接続されていてもよい。また、静的な
意味では１台の二次記憶装置２４が複数のＰＭに対して
アクセスバスをもっていてもよい。しかし、ここで、述
べる範囲の処理に関しては、１台の二次記憶装置２４に
アクセスするＰＭ台数は１であるとする。

【００１１】次に、上述した一般的な並列計算機システ
ムが行なう処理の概要（当該処理が満たす条件）につい
て、図１０および図１１により説明する。なお、この処
理の概要は、後述する本発明にも共通している。上述し
た一般的な並列計算機システムにおける論理的な処理
を、図１０により説明する。

【００１２】ある１ファイル、あるいは、ＲＤＢ（Rela
tional DataBase)で定義される所の１テーブルがあるも
のとする。以下、ＲＤＢ処理を例として説明する。これ
が図１０に示すソーステーブル(Source Table)４００で
ある。ソーステーブル４００から１つのタプル（個々に
独立して処理を受けることが可能なデータ単位）５００
が抽出され、このタプル５００に対して分類関数ｆ〔グ
ループ化関数（Grouping Function)４０１〕が適用され
る。

【００１３】その結果（分類関数ｆの出力値）により、
このタプル５００がいずれのタプルグループ〔バケット
(Bucket)４０２〜４０４〕に属するかが決定される。タ
プル５００は、決定されたバケット４０２〜４０４に付
加される。このようにして生成されたバケット群は、二
次記憶装置（図９の符号２４参照）に格納され、各バケ
ット４０２〜４０４毎に独立に適用される次段処理(Nex
tProcess)４０５〜４０７の入力情報となる。

【００１４】図１０にて説明した処理は、前述した一般
的な並列計算機システムの上では図１１に示すように実
装されているものとする。即ち、入力テーブル（図１０
のソーステーブル４００）８００は、第１プロセッサ群
６０に属する各ＰＭ６００〜６０２に接続された二次記
憶装置群に分割格納されている。各ＰＭ６００〜６０２
の配下にある、入力テーブル８００の部分集合９００〜
９０２をサブテーブルと呼ぶ。

【００１５】図１０にて前述したタプルの抽出および分
類関数の適用は、第１のプロセッサグループ６０に属す
る個々のＰＭ６００〜６０２により、並列的に実行され
る。タプル抽出の対象は、各サブテーブル９００〜９０
２である。分類関数の適用によって分類されたタプル群
（同一種別のタプルの集合体）は、最終的に第２プロセ
ッサ群７０に格納されなければならない。ここで、第１
プロセッサ群６０と第２プロセッサ群７０とが排他的関
係にあることは要求されない。つまり、第１プロセッサ
群６０と第２プロセッサ群７０とは、全く同じプロセッ
サ群であってもよいし、一部のプロセッサが重複する関
係であってもよいし、全く異なるものであってもよい。

【００１６】同一種別のタプルからなる１つのバケット
は、第２プロセッサ群７０に属する１つのプロセッサに
集中して格納されてもよいし、第２プロセッサ群７０に
属するある台数のプロセッサに分割して格納されてもよ
い。ここでの要求は、「次段処理の実行時に、特定のバ
ケットのデータのみを第２プロセッサ群７０から選択し
て読み出すことができること」である。これを実現する
データ構造により、データ（第１プロセッサ群６０に格
納されていた入力テーブル８００）は、図１１に示すよ
うに、第２プロセッサ群７０に属する各ＰＭ７００〜７
０２（各二次記憶装置２４）に、複数の部分１０００〜
１２９９に分割されて格納される。

【００１７】ここで注意すべき点は、第１プロセッサ群
６０と第２プロセッサ群７０との間の矢印は必ずしもネ
ットワーク上の直接交信を意味していないことである。
図１１は、入力情報の格納形態と出力（結果）情報の格
納形態とを示そうとするものであって、その間の転送処
理に対して要求がないことに着目するためのものであ
る。以降に説明する本発明は、この図１１に示される第
１プロセッサ群６０から第２プロセッサ群７０への矢印
を如何に実現するかに関する技術である。

【００１８】ところで、ＲＤＢ処理において、分類関数
（例えばハッシングや特定カラムの値による分類）によ
りタプル群を複数のグループ（バケット）に分割する作
業は極めて一般的である。例えば、ＳＱＬ文の“Group
By”句は、このグループ分割処理を明らかに要求するも
のであるし、上述のような構成でジョイン(join)演算の
代表的方式であるハッシュジョインは、ハッシュ関数に
よるタプルのグループ分割を特徴としている。

【００１９】並列データベースマシンや分散データベー
スシステムと呼ばれるシステムでは、末端ユーザから見
て論理的に１つのテーブルであるべきタプル群が、メモ
リや二次記憶装置を直接共用しない複数のプロセッサに
分割される場合が多い。これは、例えば同じテーブルへ
の条件検索処理が、テーブルの部分集合に対して同一の
検索処理を行なうプロセッサ群による実行により大幅に
性能改善されるなどの効果を狙ったものである。

【００２０】このような環境で、上記グループ分割処理
は、これもまた各プロセッサが自身配下のテーブルの部
分集合（以下、サブテーブルという）に含まれる全タプ
ルに対して指定された分類関数を適用し、その適用結果
を論理的に和すること、つまり「結果を格納すべきプロ
セッサ群に、それぞれが生成したサブテーブルのグルー
プ分割された結果（サブバケット）を送付し、その結果
を受信したプロセッサ側で同一バケットに属するサブバ
ケットどうしを連結して最終的にバケットを作成し、こ
れを自身の二次記憶装置に格納すること」により実現さ
れる。

【００２１】このとき、以下に記述する二次記憶装置２
４の特性〜から、このグループ分割処理によって生
成された各バケットの二次記憶装置への格納方式によっ
て、大きな処理性能差が、該グループ分割処理にも次段
処理（つまり生成されたバケット個々を読み出すことに
より行なわれる次の処理）にも発生する。なお、図１２
は、代表的な二次記憶装置２４としての磁気ディスク装
置を模式的に示すもので、図１２において、３００〜３
０３はそれぞれ高速回転する磁気媒体、３０４は磁気媒
体３００〜３０３の回転軸で、この回転軸３０４は、図
示しないモータに結合されている。また、３０５〜３１
２は磁気ヘッドおよびヘッドアームからなるヘッド部
で、これらのヘッド部３０５〜３１２は、各磁気媒体３
００〜３０３を両面から挟むように配置されており、外
部から与えられたアドレスの一部により選択されたヘッ
ド部３０５〜３１２のみが磁気媒体３００〜３０３のい
ずれかに対するデータ授受を行なうことができるように
なっている。さらに、３１３は各ヘッド部３０５〜３１
２のヘッドアームを支持するための支持部材であり、こ
の支持部材３１３が、外部から与えられたアドレスのデ
ータを読み取ることのできる位置まで、ヘッド部３０５
〜３１２を移動させるようになっている。

【００２２】図１２にその概要が示される通り、代表
的な二次記憶装置２４としての磁気ディスク装置は、高
速に回転する磁気媒体３００〜３０３のうち、外部から
与えられたアドレスの上位で指定されるものが選択され
た上、その中心からの距離が外部から与えられたアドレ
スの中位で指定される部分にヘッド部（磁気ヘッド）３
０５〜３１２が物理的に移動し、その磁気ヘッドがアク
セスする１円周上の、外部から与えられたアドレスの下
位で指定される領域に対してデータの書込／読出が行な
われる。

【００２３】上述した現状の磁気ディスク装置では、
磁気媒体３００〜３０３の回転速度に比較して、上記ヘ
ッド部３０５〜３１２の位置変更（回転媒体の選択切替
も、厳密にはヘッド位置の微調整を必要とするため、こ
れに含まれる）に要する時間が相対的に長い。このた
め、磁気ディスク装置に対する入出力処理の性能を向上
させるためには、ある特定量のデータの入出力に必要な
ヘッド部３０５〜３１２の移動回数および移動距離を小
さくすればする程、効果が大きい。ある容量のデータを
格納する時に、このようなヘッドの移動回数および移動
距離を最小とする二次記憶装置上の領域を以下では仮に
「物理連続な領域」と呼称する。以下の説明では、二次
記憶磁気媒体上の特定面積内に固まっていることが「物
理連続な領域」の定義ではない。

【００２４】あるＩ／Ｏアクセスがこのような物理連
続な領域に対するアクセスであり、そのデータ転送量が
ある値以上に大きいならば、Ｉ／Ｏ処理の性能はこの二
次記憶装置の性能を充分に活用しているということがで
きる。このＩ／Ｏアクセスに関する物理連続な領域に期
待される容量は、現状の磁気ディスク装置の場合、数百
ＫＢ程度であり、これを下回るとＩ／Ｏ性能は急速に低
下する一方、これ以上大きくしても性能の改善効果は小
さい。

【００２５】一般に、データベース（ＤＢ）処理では、
扱うデータ量が膨大であるためにＩ／Ｏ性能がその処理
性能のほとんどを決定する場合が多い。このため、上述
したＩ／Ｏアクセスに関する物理連続な領域の容量の保
証が可能であることの効果は大きい。その簡単な例を図
１３および図１４に示す。図１３はアクセス効率の悪い
ＤＢ処理例を示すもので、図１３の左側には、二次記憶
装置２４に記入されるべきタプル群が、Ｉ／Ｏ要求に投
入される順序に並んで示されている。今、ここでは、２
つの「物理連続な領域」１２００と１２０１とが存在す
るものとする。図１３に示す例では、物理連続な領域１
２００と１２０１とに記入されるべきタプルが交互に投
入されるため、この２領域間をヘッドが往復することに
なり、Ｉ／Ｏ性能は極めて低下してしまう。

【００２６】一方、図１４は相対的にアクセス効率の良
いＤＢ処理例を示すもので、この図１３に示す例では、
同一領域に記入されるべきタプルが連続して投入される
ため、いわゆる「まとめ書き」が可能であって、領域間
のヘッド移動は１回で済むことになる。従って、少なく
とも次段処理実行時の読出性能を保証しようとするなら
ば、１バケットが可能な限り少ない個数の「物理連続な
領域」に分割されて格納されているべきである。一方、
一般にＤＢ処理では１バケットの容量は数メガバイト程
度にはなるので、これら全部を１つの「物理連続な領
域」に収めても上記議論から二次記憶装置の性能への寄
与は少ない。従って、具体的な要求は次のような２点
（Ａ），（Ｂ）となる。

【００２７】（Ａ）上記Ｉ／Ｏアクセス性能保証のため
の「物理連続な領域」の容量に関する要求を満足する大
きさ（数百ＫＢ程度）を、１Ｉ／Ｏアクセス単位とす
る。この１Ｉ／Ｏアクセス単位中の全データは、二次記
憶装置中の１つの「物理連続な領域」に対して記入され
るとともに、該１つの「物理連続な領域」から読み出さ
れることになる。

【００２８】（Ｂ）バケットデータの書込時、１Ｉ／Ｏ
アクセス単位中に混在するバケット種別数を可能な限り
小さくする。可能ならば、全てのＩ／Ｏアクセス単位中
に混在するバケット種別数を１とする。しかし、上述の
ような要求，を満足することは現在まで困難であっ
た。次に説明するように、既存技術では、１つのＰＭに
到来する可能性のあるバケット種別が極めて多いため、
バケット種別毎に上記Ｉ／Ｏアクセス単位の整数倍の容
量のブロッキングバッファを準備することは、現実的で
ない程巨大なメモリ容量を格納側（受信側である第２プ
ロセッサ群７０）の各ＰＭ７００〜７０２にそなえるこ
とを要求することになる。

【００２９】次に、図１５により既存技術について説明
する。図１５は、図１１に示した第２プロセッサ群７０
に属するＰＭ７００〜７０２のうちの一つ（ここではＰ
Ｍ７０２）の内部構造を示すものである。既存技術の特
徴は、少なくとも、論理的に図１１における送信側のＰ
Ｍ６００〜６０２と受信側（格納側）のＰＭ７００〜７
０２との間がネットワークにより直結されている点にあ
る。つまり、タプルやバケットに関して、ＰＭ６００〜
６０２の出力ストリームは、特に加工されることなく最
終的な格納先であるＰＭ７００〜７０２に送付される。

【００３０】また、既存技術では、送信側のＰＭ６００
〜６０２は、バケットと受信側の各ＰＭ７００〜７０２
との対応関係を与えられており、あるバケットに属する
タプルを送出する際、その対応関係を満足するＰＭを宛
先として陽に指定して送出することになる。一方、受信
側の各ＰＭ７００〜７０２では、図１５に示すように、
これら複数の送信側の各ＰＭ６００〜６０２からタプル
のストリーム（図１５中の“InputTuple Stream”参
照）としてデータを受理し、そのデータを、各ＰＭ７０
０〜７０２（図１５中ではＰＭ７０２）が担当すべき各
バケットに対して準備されたブロッキングバッファ（Bl
ocking Buffers）２１Ａにバケット種別毎に分類して蓄
積する。ブロッキングバッファ２１Ａの容量は、少なく
とも、上述したＩ／Ｏアクセス単位に、各ＰＭ７００〜
７０２が格納すべきバケット種別数を乗算した値とな
る。なお、ブロッキングバッファ２１Ａの領域は、例え
ば図９に示したメモリ（主記憶）２１内に設定される。

【００３１】そして、各ＰＭ７００〜７０２は、Ｉ／Ｏ
アクセス単位にその蓄積量が達したバケットについてブ
ロッキングバッファ２１Ａの内容（該バケットに対応す
る部分）を二次記憶装置２４に書き込む。

【００３２】

【発明が解決しようとする課題】ところが、上述のよう
な方式の場合、格納側のＰＭ７００〜７０２が担当しな
ければならないバケット数は、一般に極めて多い。ハッ
シュジョインの場合を例にとると、各ＰＭ７００〜７０
２のメモリ容量でデータベース容量を除算した値程度の
バケット数が必要になる。例えば１００ＧＢ程度のデー
タベース容量を６４ＭＢ程度の主記憶（メモリ２１）を
もつＰＭで処理しようとする場合には、１６００個程度
のバケットが全体として必要になる。

【００３３】また、受信側のＰＭ７００〜７０２でのバ
ケットとＰＭとの対応関係を制限する、つまりあるバケ
ットは特定の受信側のＰＭのみが処理することになる
と、予め各バケットの容量を予測することは通常不可能
であるために、ＰＭ間で扱うデータ量に著しい不均等が
発生する可能性があり、可能ならば１バケットはどのＰ
Ｍにも均等に配布することが望ましい。このことは、１
つのＰＭが扱うバケット種別の低減が通常困難であるこ
とを意味する。

【００３４】例えば、主記憶容量６４ＭＢのＰＭが格納
側のＰＭとして３２台配置された場合、容量１００ＧＢ
のデータベースを１．６Ｋ個のバケットに分割して格納
しなければならないとするならば、同一バケットに属す
るデータ量が格納側のＰＭ間でほぼ同容量になるように
制御すると、１ＰＭ当たり平均バケット数はやはり１．
６Ｋ個程度になる。この平均バケット数に、処理に参加
するＰＭの台数は関係しない。

【００３５】上述のような要求を満足するＩ／Ｏアクセ
ス単位がこの場合２５６ＫＢであるとすると、１．６Ｋ
個のバケットに対してこれだけの容量を準備することが
上記ブロッキングバッファ２１Ａに対して要求されるこ
とになるため、４００ＭＢ程度の主記憶（メモリ２１）
が必要ということになる。上述した通り、準備可能な主
記憶はこの場合６４ＭＢが上限である。従って、ここで
記述した処理を行なうことは実際には不可能であり、Ｉ
／Ｏアクセス単位に関する容量を保証することができ
ず、つまり、書込性能や読出性能が悪化する事態を招く
ことになる。この場合、Ｉ／Ｏアクセス時の平均ブロッ
ク長はせいぜい４１ＫＢになってしまうから、通常のＤ
Ｅ（Disk Enclosure）では５１２ＫＢ単位の上記要求が
満足された場合の１／５以下の性能しか提供できない。

【００３６】一方、１タプルの最大長をこのブロック長
が下回ることは当然許されない。現状のＲＤＢシステム
では３２〜６４ＫＢ程度のタプルは普通に許されるか
ら、上記ケース（バッファ長４１ＫＢ）の場合、既存技
術ではこの要求すら満たせなくなる可能性がある。そこ
で、商用データベースの多くは、上記ブロッキングバッ
ファ２１Ａを公知の仮想記憶空間に配置することによ
り、問題を回避しようとしている。しかし、これでは、
ほぼ確実に１タプル毎に１回の二次記憶装置２４への読
出／書込が発生することになり、ブロッキングが可能に
なり次段処理の性能が保証されるが、バケット分割処理
の性能は著しく低下する。

【００３７】そこで、本発明は、現実的なメモリ容量の
み消費しながら、しかも全体処理性能をほとんど低下さ
せることなく、前述した要求（Ａ），（Ｂ）を満足する
手法を提供することを可能にしている。しかも、本発明
は、１ＰＭ当たりの担当バケット数を低減するために、
あるバケットを担当するＰＭを１台に制限することを要
求しない。これにより、通常発生するバケット間の容量
の差によるＰＭ間の負荷の偏りの発生が防止されること
になる。

【００３８】以上説明した通り、本発明は、バケット分
割処理の性能の低下を招くことなく、通常範囲のメモリ
量でのバケット書込／読出性能の保証のためのブロッキ
ング作業を可能にし、バケット書込／読出性能を大幅に
改善できるようにした、並列プロセッサ装置を提供する
ことを目的とする。

【００３９】

【課題を解決するための手段】図１は本発明の原理ブロ
ック図で、この図１において、１は並列的に動作する複
数のプロセッサで、これらの複数のプロセッサ１が一つ
の業務に参加し全体として該業務を実行するとともに、
各プロセッサ１において、業務における処理対象のデー
タを、個々に独立して処理を受けることが可能なデータ
単位（以下、タプルという）として取り扱うようになっ
ている。

【００４０】そして、本発明の並列プロセッサ装置を構
成する複数のプロセッサ１には、第１プロセッサ群２，
第２プロセッサ群３および中間プロセッサ群４が包含さ
れている。ここで、第１プロセッサ群２は、処理対象の
データを分散して予め格納するプロセッサ１のグループ
であり、第２プロセッサ群３は、第１プロセッサ群２か
ら送信されてくる処理対象のデータを、同一種別のタプ
ルのみの集合体であるバケットに分割した状態で格納す
るプロセッサ１のグループであり、中間プロセッサ群４
は、処理対象のデータを、第１プロセッサ群２から受信
して一時的に格納した後に、第２プロセッサ群３へ送信
するプロセッサ１のグループである。

【００４１】また、本発明の並列プロセッサ装置には、
第１分割手段５および第２分割手段６がそなえられてい
る。第１分割手段５は、第１プロセッサ群２から中間プ
ロセッサ群４へのデータ送信時に、処理対象のデータ
を、それぞれ複数種別のタプルの集合体である複数組の
バケットグループに分割して中間プロセッサ群４に一時
的に格納させるためのものであり、第２分割手段６は、
中間プロセッサ群４から第２プロセッサ群３へのデータ
送信時に、第１分割手段５により分割されて中間プロセ
ッサ群４に一時的に格納される複数組のバケットグルー
プを、各バケットグループ毎に読み出して同一種別のタ
プルのみの集合体であるバケットに分割して第２プロセ
ッサ群３に格納させるためのものである（請求項１）。

【００４２】なお、第１分割手段５に、処理対象のデー
タをなす各タプルを分類するためのグループ化関数を予
め設定しておき、第１分割手段５が、各タプルに対して
グループ化関数を適用して得られた、グループ化関数の
出力値としてのバケット識別子に基づいて、バケットグ
ループ分割処理を行なうように構成してもよい（請求項
２）。同様に、第２分割手段６に、処理対象のデータを
なす各タプルを分類するためのグループ化関数を予め設
定しておき、第２分割手段６が、各タプルに対してグル
ープ化関数を適用して得られた、グループ化関数の出力
値としてのバケット識別子に基づいて、バケット分割処
理を行なうように構成してもよい（請求項３）。

【００４３】また、第１プロセッサ群２，第２プロセッ
サ群３および中間プロセッサ群４の動作状態を管理しこ
れらの第１プロセッサ群２，第２プロセッサ群３および
中間プロセッサ群４の動作を同期させながら第１分割手
段５および第２分割手段６による分割処理を実行させる
ための制御用プロセッサを、複数のプロセッサ１に包含
させておいてもよい（請求項４）。

【００４４】さらに、同一バケットグループに属するタ
プルを、中間プロセッサ群４に属する各プロセッサ１に
対して均一またはほぼ均一に送付して、中間プロセッサ
群４に属する各プロセッサ１における負荷を平坦化する
ための第１負荷平坦化手段を、第１分割手段５にそなえ
てもよい（請求項５）。同様に、同一バケットグループ
に属するタプルを、第２プロセッサ群３に属する各プロ
セッサ１に対して均一またはほぼ均一に送付して、第２
プロセッサ群３に属する各プロセッサ１における負荷を
平坦化するための第２負荷平坦化手段を、第２分割手段
６にそなえてもよい（請求項６）。

【００４５】

【作用】図１により上述した本発明の並列プロセッサ装
置では、第１プロセッサ群２から第２プロセッサ群３へ
のタプルデータの転送に際して、これらの第１プロセッ
サ群２と第２プロセッサ群３との間に中間プロセッサ群
４が介在されている。そして、第１プロセッサ群２から
中間プロセッサ群４へのデータ送信時には、第１分割手
段５により、処理対象のデータが、それぞれ複数種別の
タプルの集合体である複数組のバケットグループに分割
されてから、中間プロセッサ群４に一時的に格納され
る。

【００４６】この後、中間プロセッサ群４から第２プロ
セッサ群３へのデータ送信時には、第２分割手段６によ
り、中間プロセッサ群４に一時的に格納されている複数
組のバケットグループが、各バケットグループ毎に読み
出され、同一種別のタプルのみの集合体であるバケット
に分割されてから、最終的に第２プロセッサ群３に格納
される。

【００４７】このように中間プロセッサ群４を介在させ
て、少なくとも２段階のデータ分割処理を行なうことに
より、各プロセッサ１に、タプルの総種別数分（バケッ
ト総種別数分）のバッファをそなえることなく、第２プ
ロセッサ群３に属する各プロセッサ１に、データをバケ
ットに分割した状態で格納させることができる。従っ
て、バケット分割処理の性能の低下を招くことなく、通
常範囲のメモリ量でのバケット書込／読出性能の保証の
ためのブロッキング作業を行なうことが可能になる（請
求項１）。

【００４８】なお、第１分割手段５におけるバケットグ
ループ分割処理は、各タプルに対してグループ化関数を
適用して得られたバケット識別子に基づいて行なうこと
ができるとともに（請求項２）、第２分割手段６におけ
るバケット分割処理も、各タプルに対してグループ化関
数を適用して得られたバケット識別子に基づいて行なう
ことができる（請求項３）。

【００４９】また、制御用プロセッサを用いて、第１プ
ロセッサ群２，第２プロセッサ群３および中間プロセッ
サ群４の動作を同期させながら第１分割手段５および第
２分割手段６による分割処理を実行させることにより、
タプル種別を意識しながら各プロセッサ１に分散配置さ
れたデータを分割することができる（請求項４）。さら
に、第１負荷平坦化手段により、中間プロセッサ群４に
属する各プロセッサ１における負荷が平坦化されるとと
もに（請求項５）。第２負荷平坦化手段により、第２プ
ロセッサ群３に属する各プロセッサ１における負荷も平
坦化される（請求項６）。つまり、本発明の並列プロセ
ッサ装置では、ある種別のバケットを担当するプロセッ
サを１台に制限せず、各プロセッサ１における負荷の平
坦化を行なうことにより、通常発生するバケット間の容
量の差によるプロセッサ間の負荷の偏りの発生が防止さ
れる。

【００５０】

【実施例】以下、図面を参照して本発明の実施例を説明
する。まず、図２を参照しながら、本発明の一実施例と
しての並列プロセッサ装置の原理的な構成および動作に
ついて説明する。図２に示す通り、本実施例の並列プロ
セッサ装置には、送信側のＰＭ群（第１プロセッサ群）
６０と受信側のＰＭ群（第２プロセッサ群）７０との間
に、中間プロセッサ群としての中間ブロッキングＰＭ群
１５０が介在している。

【００５１】そして、第１ステップ（図１にて前述した
第１分割手段５としての機能による処理動作）として、
送信側のＰＭ群６０と中間ブロッキングＰＭ群１５０と
の間で全点対全点通信を行ない、ここでバケット群を大
きくｍ種類のバケットグループ９２０−１〜９２０−ｍ
に分割し、各バケットグループを、中間ブロッキングＰ
Ｍ群１５０に属する各ＰＭ１５００〜１５０２に接続さ
れた二次記憶装置２４に格納する。ここで、ｍ種類のバ
ケットグループ９２０−１〜９２０−ｍには、それぞれ
ｎ種類のタプル（ｎ種類のバケット）が含まれている。

【００５２】このような第１ステップに際しての送信側
ＰＭ群６０の処理について説明すると、まず、このＰＭ
群６０に属する各ＰＭ６００〜６０２は、自身配下の処
理対象テーブルのサブテーブル（二次記憶装置２４内に
格納）９００〜９０２からタプルを読み出し、そのタプ
ルを、任意の配分論理により中間ブロッキングＰＭ群１
５０に送付する。ここでは、ＰＭ間の負荷平坦化を陽に
実現しないものとして説明を進めるので、ハッシュ関数
等のグループ化関数の適用を、送信側ＰＭ群６０と中間
ブロッキングＰＭ群１５０とのいずれで行なうかについ
ては特に指定しない。

【００５３】また、第１ステップに際しての中間ブロッ
キングＰＭ群１５０の処理について説明すると、中間ブ
ロッキングＰＭ群１５０に属する各ＰＭ１５００〜１５
０２は、バケット識別子とｍ種類のバケットグループと
の対応関係を把握しておく。バケット識別子は、予め外
部から指定されるか、あるいは、ルールとしてバケット
総種別数から予め与えられた計算方式により求められる
ものである。あるバケットは必ずたかだか一つのバケッ
トグループに属する。

【００５４】各ＰＭ１５００〜１５０２は、送信側の各
ＰＭ６００〜６０２からタプルを受理し、もし、送信側
の各ＰＭ６００〜６０２でタプルに対するグループ化関
数の適用が行なわれていないか、あるいは、送付された
タプルにグループ化関数の適用結果（出力値）によるバ
ケット識別子が添付されていなければ、そのタプルに対
してグループ化関数を適用して、そのタプルが属するバ
ケットのバケット識別子を求める。

【００５５】そして、各ＰＭ１５００〜１５０２は、そ
のタプルのバケット識別子に上記対応関係を適用し、そ
のタプルが属するべきバケットグループを把握する。こ
のとき、本実施例の各ＰＭ１５００〜１５０２では、バ
ケットグループの各種類に対応して、Ｉ／Ｏブロッキン
グバッファ１５１がメモリ（主記憶；図９の符号２１参
照）上に準備されている。これらのＩ／Ｏブロッキング
バッファ１５１は、送信側ＰＭ群６０からのタプル受理
と自身の二次記憶装置２４への書込とが同時並列的に実
行可能な個数だけ準備され、その個々の大きさは、上記
Ｉ／Ｏアクセス単位の容量保証に関する要求を満足する
ように設定されている。

【００５６】各ＰＭ１５００〜１５０２に入力されたタ
プルが属するバケットグループがいずれであるかの上記
認識に基づいて、そのタプルを、認識されたバケットグ
ループに対応したＩ／Ｏブロッキングバッファ１５１に
蓄積する。このようなタプルの蓄積作業により、あるＩ
／Ｏブロッキングバッファ１５１に蓄積されたタプル量
が上記Ｉ／Ｏアクセス単位に関する容量保証の要求を満
足するようになった場合、そのＩ／Ｏブロッキングバッ
ファ１５１に蓄積されたタプルを、まとめて自身の二次
記憶装置２４内に格納する。これにより、処理対象デー
タが、ｍ種類のバケットグループ９１０−１〜９１０−
ｍに分割された状態で、中間ブロッキングＰＭ群１５０
の各二次記憶装置２４内に格納されることになる。

【００５７】ついで、第２ステップ（図１にて前述した
第２分割手段６としての機能による処理動作）として、
中間ブロッキングＰＭ群１５０から各バケットグループ
が読み出され、各バケットグループが、受信側ＰＭ群７
０に送付され、受信側ＰＭ群７０において個別のバケッ
ト（総数ｍ・ｎ個）９２０−１〜９２０−ｍ・ｎに再分
割された状態で二次記憶装置２４に格納される。

【００５８】このような第２ステップに際しての中間ブ
ロッキングＰＭ群１５０の処理について説明すると、ま
ず、このＰＭ群１５０および受信側ＰＭ群７０は、任意
のマクロな同期機構（図２には図示せず）により第２ス
テップの開始を一斉に認識する。ここで、マクロという
意味は、クロックレベルの詳細な同期は必要なく、メッ
セージパッシング程度の実現手段で構わない、つまり時
間の微小なずれは許容されるということである。また、
前記同期機構は、中間ブロッキングＰＭ群１５０と受信
側ＰＭ群７０との全てが相互に通信して同期を実現する
ものであってもよいし、全ＰＭのマクロな制御を行なう
存在として別個にそなえてもよい。

【００５９】受信側ＰＭ群７０および中間ブロッキング
ＰＭ群１５０は、上記同期機構あるいはこれとは別に設
けられた同様の機構により指示されるか、あるいは、ル
ールとして予め与えられた法則により、いずれのバケッ
トグループが処理の対象となるべきかを認識する。この
認識は、受信側ＰＭ群７０および中間ブロッキングＰＭ
群１５０に属する全ＰＭで、同様にマクロ的な意味でほ
ぼ同時に（実際のデータ転送に先立って）持たなければ
ならない。

【００６０】中間ブロッキングＰＭ群１５０に属する各
ＰＭ１５００〜１５０２は、処理対象となったバケット
グループからタプル群を、自身の二次記憶装置２４から
読み出し、そのタプルを、任意の配分論理により受信側
ＰＭ群７０に送付する。ここでも、ＰＭ間の負荷平坦化
を陽に実現しないものとして説明を進めるので、バケッ
ト識別子に依存した制御を、中間ブロッキングＰＭ群１
５０と受信側ＰＭ群７０とのいずれで行なうかについて
は特に指定しない。

【００６１】あるバケットグループの送付を完了した場
合、中間ブロッキングＰＭ群１５０および受信側ＰＭ群
７０に属する全ＰＭがそのバケットグループの送受信を
終了したことが、上記同期機構のいずれか、あるいは別
に設けられた同様の機構により認識された時点で、中間
ブロッキングＰＭ群１５０および受信側ＰＭ群７０は次
のバケットグループの処理を開始する。

【００６２】また、第２ステップに際しての受信側ＰＭ
群７０の処理について説明すると、受信側ＰＭ群７０に
属する各ＰＭ７００〜７０２は、中間ブロッキングＰＭ
群１５０とともに、第２ステップの処理全体および各バ
ケットグループの処理の開始／終了をマクロ的な意味で
ほぼ同時に認識する。バケットグループの受理開始に先
立ち、本実施例の受信側ＰＭ群７０に属する各ＰＭ７０
０〜７０２では、各バケットグループに含まれるバケッ
トの種類に対応して、Ｉ／Ｏブロッキングバッファ７１
がメモリ（主記憶；図９の符号２１参照）上に準備され
ている。これらのＩ／Ｏブロッキングバッファ７１は、
次に処理されるバケットグループに含まれるバケット数
に対応した「中間ブロッキングＰＭ群１５０からのタプ
ル受理と二次記憶装置２４への書込との同時並列実行」
が可能な個数だけ準備され、その個々の大きさは上記Ｉ
／Ｏアクセス単位に関する容量の保証に関する要求を満
たすように設定されている。

【００６３】各ＰＭ７００〜７０２は、処理対象である
バケットグループに含まれるタプルを中間ブロッキング
ＰＭ群１５０から受理すると、もし送付されたタプルに
バケット識別子が添付されていないならば、そのタプル
に対してグループ化関数を適用して、そのタプルが属す
るバケットのバケット識別子を求める。そして、各ＰＭ
７００〜７０２は、そのタプルを、求められたバケット
識別子に基づいて、そのタプルが属するバケットに対応
したＩ／Ｏブロッキングバッファ７１に蓄積する。

【００６４】このようなタプルの蓄積作業により、ある
Ｉ／Ｏブロッキングバッファ７１に蓄積されたタプル量
が上記Ｉ／Ｏアクセス単位に関する容量保証の要求を満
足するようになった場合、そのＩ／Ｏブロッキングバッ
ファ７１に蓄積されたタプルを、まとめて自身の二次記
憶装置２４内に格納する。これにより、各バケットグル
ープ９１０−１〜９１０−ｍに含まれるｎ種類のタプル
（ｎ種類のバケット）が、それぞれ、その種類毎に分割
された状態で、受信側ＰＭ群７０の各二次記憶装置２４
内に格納されることになる。

【００６５】ところで、本実施例では、図２により上述
したシステムにおいて、さらにＰＭ間の負荷平坦化（前
述した第１負荷平坦化手段および第２負荷平坦化手段に
よる機能）を行なうことにより、特定ＰＭへの負荷集中
による全体のスループットの低下を防止している。即
ち、前述した第１ステップにおいて、送信側ＰＭ群６０
に属する各ＰＭ６００〜６０２は、自身の二次記憶装置
２４から読み出したタプルにグループ化関数を適用し、
ｍ種類のバケットグループのいずれにそのタプルが属す
るかを認識する。

【００６６】また、送信側ＰＭ群６０に属する各ＰＭ６
００〜６０２は、前述した第１ステップにおいて、ｍ種
類のバケットグループのそれぞれについて、そこに属す
るタプルが、中間ブロッキングＰＭ群１５０に属するＰ
Ｍ１５００〜１５０２のいずれにもほぼ同量だけ（均一
もしくは略均一に）転送されるように制御する機構（第
１負荷平坦化手段；図２には図示せず）をそなえる。こ
の機構は、例えば、ラウンドロビンポインタや、各バケ
ットおよび中間ブロッキングＰＭ識別子によるアドレス
が可能で各中間ブロッキングＰＭ１５００〜１５０２へ
のデータ送付量を積算するテーブルなどにより実現する
ことができる。このような機構を使用して、どの中間ブ
ロッキングＰＭ１５００〜１５０２にも、送信側ＰＭ６
００〜６０２から、同一バケットグループに属するタプ
ルデータがほぼ同量送付されることになる。

【００６７】さらに、中間ブロッキングＰＭ群１５０に
属する各ＰＭ１５００〜１５０２は、前述した第２ステ
ップにおいて、自身の二次記憶装置２４から読み出した
タプルのバケット識別子を使用して、各バケットグルー
プに含まれるｎ種類のバケットのそれぞれについて、そ
こに属するタプルが、受信側ＰＭ群７０に属するＰＭ７
００〜７０２のいずれにもほぼ同量だけ（均一もしくは
略均一に）転送されるように制御する機構（第２負荷平
坦化手段；図２には図示せず）をそなえる。この機構
は、例えば、ラウンドロビンポインタや、各バケットお
よび受信側ＰＭ識別子によるアドレスが可能で各受信側
ＰＭ７００〜７０２へのデータ送付量を積算するテーブ
ルなどにより実現することができる。このような機構を
使用して、どの受信側ＰＭ７００〜７０２にも、中間ブ
ロッキングＰＭ１５００〜１５０２から、同一バケット
に属するタプルデータがほぼ同量送付されることにな
る。なお、各ＰＭ１５００〜１５０２において、自身の
二次記憶装置２４から読み出したタプルにバケット識別
子が添付されていない場合には、改めてグループ化関数
を適用してバケット識別子を得る。

【００６８】次に、図２を参照しながら、本発明の並列
プロセッサ装置の概要について説明する。前述の通り、
通常の場合、あるデータベーステーブルにグループ化関
数を適用して得られるバケット個数は、個々のバケット
が主記憶に乗り切る程度の大きさであることが期待され
る場合などでは極めて大きくなり、Ｉ／Ｏアクセス単位
に関する容量の保証の要件を全てのバケット種別に対し
て同時に満足することが極めて難しい状況となる。

【００６９】本発明は、バケット種別数だけのＩ／Ｏブ
ロッキングバッファを準備することは難しくても、これ
らバケット種別数の例えば平方根の数だけのＩ／Ｏブロ
ッキングバッファを準備することはそれ程困難ではない
ことに着目し、スループットこそ理想的速度の１／２で
はあるが、上記Ｉ／Ｏアクセス単位に関する容量の保証
の要件が満足されない場合（読出／書込がそれぞれ１／
５以下に低下するため全体としての性能低下は極めて大
きい）に比較すれば充分高速であることから、少なくと
も２回に分けてグルーピング（分割処理）を行なうこと
をその骨子としている。

【００７０】まず、前述した第１ステップでは、バケッ
ト識別子の値域をｍ個に排他的に分割し、タプルをバケ
ット識別子によりｍ種類に分割する。この分割により作
成されたｍ個のタプル集合体を、それぞれバケットグル
ープと呼ぶ。各バケットグループの内部では、複数（こ
こではｎ種類）のバケットが、タプルレベルでの発生順
序は全くランダムに、格納されている。

【００７１】そして、前述した第２ステップでは、各バ
ケットグループを格納している全てのＰＭ１５００〜１
５０２でマクロ的な同期をとりながら、同じバケットグ
ループ、つまり元々のテーブルの平均１／ｍ個分のバケ
ットしか含まない領域に対して読出を行ない、同様にバ
ケット分割を行なう。もし元々のテーブルがｎ・ｍ個の
バケットを含んでいたならば、この第２ステップでは平
均ｎ個のバケットのみ現れることになる。このｎなるバ
ケット数を完全に分割可能なだけのＩ／Ｏブロッキング
バッファ７１が第２ステップで取得可能ならば、完全な
バケット分割が可能になる。

【００７２】一般に、データベース容量と主記憶容量と
の比１０³〜１０⁴程度で収まるので、ｍ≒ｎを仮定す
ると、ｍ≒ｎ≦１０²ということになり、数百ＫＢがＩ
／Ｏアクセス単位についての容量保証の具体的な要求値
であったとしても数ＭＢ〜数十ＭＢ程度、つまり主記憶
容量の範囲で、充分、Ｉ／Ｏブロッキングバッファ７
１，１５１を準備することができる。

【００７３】さらに、本発明の発展形として、中間ブロ
ッキングＰＭ群１５０を複数段に構成し、バケット数を
複数乗根し、極めて大きなバケット数にも対応すること
ができるようにすることも可能である。ただし、１段増
す度にそれだけ性能低下が発生するので、構成段数は、
次段処理を含めた性能利得を評価した上で判断されるべ
きである。

【００７４】なお、ここでは、中間ブロッキングＰＭ群
１５０が送信側ＰＭ群６０や受信側ＰＭ群７０とは別に
存在するかのうように記述しているが、物理的に中間ブ
ロッキングＰＭ群１５０が送信側ＰＭ群６０や受信側Ｐ
Ｍ群７０と一致していたり、重なっていたり、包含関係
にあったり、あるいは全てのＰＭ群６０，７０，１５０
が物理的に同じ集合であったとしても全く構わない。

【００７５】また、前述した負荷平坦化処理を行なわな
いと、受信側ＰＭ群７０や中間ブロッキングＰＭ群１５
０に属する各ＰＭの二次記憶書込処理性能を含めて特定
のＰＭにデータを送付しようとする速度がそのＰＭの処
理性能を上回り、システムの演算性能を低下させてしま
う可能性がある。従って、負荷平坦化処理は、これを防
ぐために各段でのＰＭ間負荷アンバランスが発生するの
を防止している。

【００７６】以下に、図３〜図８を参照しながら、本発
明の一実施例としての並列プロセッサ装置（並列計算機
システム）について、より詳細に説明する。図３は本発
明の一実施例としての並列プロセッサ装置の全体構成を
概略的に示すブロック図で、この図３に示すように、制
御用ＰＭ１６００が新たに追加されている以外は、図２
に示したものとほぼ同様の構成になっている。

【００７７】図３に示すシステムに新たに追加されてい
る制御用ＰＭ１６００は、前述したマクロなＰＭ間同
期，および各ＰＭで行なわれる処理の大筋の制御を行な
うものとして別個に存在している。この制御用ＰＭ１６
００は、通信線１６０１および１６０２を介して各ＰＭ
６００〜６０２，７００〜７０２，１５００〜１５０２
との間でコマンド送付／状況報告等のデータを授受する
ことにより、システムの全体を管理し全体処理を制御す
るものである。

【００７８】本実施例では、中間ブロッキングＰＭ群１
５０に属する各ＰＭ１５００〜１５０２には、それぞ
れ、ｍ＋１個のＩ／Ｏブロッキングバッファ１５１が準
備されている。これらのｍ＋１個のバッファ１５１のう
ちｍ個は、前段つまり送信側ＰＭ６００〜６０２から送
付されるタプルデータをバケットグループ毎に蓄積する
ためのものであり、残りの１個は、二次記憶装置２４と
の間でデータ授受を行なうためのものである。

【００７９】また、同様に、受信側ＰＭ群７０に属する
各ＰＭ７００〜７０２には、それぞれ、ｎ＋１個のＩ／
Ｏブロッキングバッファ７１が準備されている。これら
のｍ＋１個のバッファ７１のうちｍ個は、前段つまり中
間ブロッキングＰＭ１５００〜１５０２から送付される
タプルデータをバケット毎に蓄積するためのものであ
り、残りの１個は、二次記憶装置２４との間でデータ授
受を行なうためのものである。

【００８０】なお、上述したＩ／Ｏブロッキングバッフ
ァ１５１および７１は、いずれも、Ｉ／Ｏアクセス単位
に関する容量保証の要求を満たすだけの大きさのもので
ある。上述の構成により、この図３に示すシステムは、
制御用ＰＭ１６００により管理・制御されながら、図２
に示したシステムと全く同様の動作を行なうようになっ
ている。

【００８１】ここで、図４により、本実施例におけるＰ
Ｍ間ネットワークを流れるパケットの概略構成を説明す
る。ＰＭ間ネットワークを介して１タプル毎の送信を行
なう場合、図４に示すように、パケットのデータ部にタ
プルデータ（Tuple Data）が格納されるとともに、パケ
ットのヘッダ部には、宛先ＰＭのネットワーク内の識別
子（Target PM ID）と、このタプルが属するバケット識
別子（Bucket ID;グループ化関数の出力値）と、タプル
長（Tuple Length）とが添付・格納されている。

【００８２】さて、図５は、前述した第１ステップにお
ける送信側ＰＭ６００の内部構造および動作を説明する
ためのブロック図であり、この図５において、１７００
はＰＭ６００に接続された二次記憶装置（前述した二次
記憶装置２４に対応）で、この二次記憶装置１７００
は、処理対象のテーブルの部分集合（サブテーブル）９
００を格納している。

【００８３】また、送信側ＰＭ６００には、Ｉ／Ｏ回路
１７０１，ＣＰＵ回路１７０２，主記憶１７０３および
対ＰＭ間ネットワークインタフェース回路１７０４が内
蔵されている。ここで、Ｉ／Ｏ回路１７０１は図９にて
前述したＩ／Ｏ機構２３に対応し、ＣＰＵ回路１７０２
は図９にて前述したＣＰＵ２０に対応し、主記憶１７０
３は図９にて前述したメモリ２１に対応し、インタフェ
ース回路１７０４は図９にて前述したアクセス機構２２
に対応している。

【００８４】さらに、１７１０〜１７１３および１７１
５〜１７１７は主記憶１７０３上の領域であり、１７１
０はサブテーブル９００の内部の読出位置を示す読出ポ
インタで、この読出ポインタ１７１０は、主記憶１７０
３上の変数として実現されている。読出ポインタ１７１
０は、初期化直後にはサブテーブル９００の先頭位置を
示し、サブテーブル９００から１回の入力処理を行なう
度に、後述のバッファ１７１１の容量だけインクリメン
トされる。

【００８５】１７１１は１回のＩ／Ｏ処理で読み出され
るデータを格納する入力バッファであり、その大きさ
（容量）は、Ｉ／Ｏアクセス単位に関する容量保証の要
求を満足するように設定されている。１７１２は各バケ
ットグループに対応して設けられた中間ブロッキングＰ
Ｍ１５００〜１５０２のいずれにデータを転送すべきか
を示すラウンドロビンポインタ（第１負荷平坦化手段）
である。今、中間ブロッキングＰＭ１５００〜１５０２
の個数をＡ個とするならば、このラウンドロビンポイン
タ１７１２の値は０からＡ−１の間をラップする。

【００８６】１７１３はラウンドロビンポインタ１７１
２の値から具体的な中間ブロッキングＰＭ１５００〜１
５０２のネットワーク上の識別子を求めるための変換表
である。この変換表１７１３のエントリ数は、中間ブロ
ッキングＰＭ１５００〜１５０２の個数に等しく、その
内部には個々の中間ブロッキングＰＭ１５００〜１５０
２のネットワーク上の識別子が格納されている。

【００８７】１７１５は入力バッファ１７１１内のデー
タから抽出された１タプル分のデータ、１７１６は１タ
プル分のデータ１７１５にグループ化関数を適用した結
果として得られるバケット識別子を当該１タプル分のデ
ータ１７１５に接合したデータ、１７１７はデータ１７
１６にさらに宛先ＰＭのネットワーク上の識別子を接合
したデータ（転送パケット）で、このデータ１７１７
は、図４に示すバケットフォーマットを満足するものと
なっている。

【００８８】また、１７１８は二次記憶装置１７００か
ら今まさに送信側ＰＭ６００に読み込まれているデータ
部を示している。なお、図５中の括弧付数字（０）〜
（１２）は、送信側ＰＭ６００における処理に対応して
付されたもので、送信側ＰＭ６００の動作を後述する際
に用いられるものである。また、図５には、送信側ＰＭ
６００の構成のみ示しているが、他の送信側ＰＭ６０
１，６０２も同様に構成されていることはいうまでもな
い。

【００８９】上述のごとく構成された送信側ＰＭ６００
の、前記第１ステップに際しての動作概要を以下に説明
する。この説明に際して、図５中の括弧付数字（０）〜
（１２）と以下の項目の括弧付数字（０）〜（１２）と
は対応している。（０）図５には図示しない制御用ＰＭ１６００（図３参
照）から、行なうべき処理の記述、例えば対象テーブル
の識別子，適用されるべきグループ化関数の識別子，ｍ
およびＡの値，中間ブロッキングＰＭ群１５０の識別子
リストなどがＣＰＵ１７０２に送付され、これらのデー
タにより主記憶１７０３の内部制御テーブル群が初期化
される。初期化を終了すると、ＣＰＵ１７０２は、その
旨を応答として制御用ＰＭ１６００に返し、次に制御用
ＰＭ１６００から処理開始の指示が来ると処理を開始す
る。

【００９０】（１）ＣＰＵ１７０２は、ポインタ１７１
０の内容を読み出して、バッファ１７１１の大きさに等
しいデータブロックを、該ポインタ１７１０が示す領域
から読み出す入力コマンドを生成し、そのコマンドをＩ
／Ｏ回路１７０１に与える。この後、ポインタ１７１０
の値をバッファ１７１１の大きさだけインクリメントし
ておく。

【００９１】（２）Ｉ／Ｏ回路１７０１は、ＣＰＵ１７
０２から指定されたデータ１７１８を、二次記憶装置１
７００からバッファ１７１１内部に読み出す。（３）Ｉ／Ｏ回路１７０１は、要求された入力処理を終
了したことを、割込みによりＣＰＵ１７０２に通知す
る。（４）ＣＰＵ１７０２は、バッファ１７１１内部から１
タプル分のデータ１７１５を抽出し、このデータ１７１
５に対して以下の処理（５）〜（１１）を施す。

【００９２】（５）タプルデータ１７１５が、ＣＰＵ１
７０２に取り込まれ、指定されたグループ化関数の適用
を受ける。（６）その適用結果であるバケット識別子がタプルデー
タ１７１５（図５中の左側）に接合される。（７）そのバケット識別子は、整数ｍ（バケットグルー
プの種類数）で割った余りによって同時にバケットグル
ープの識別子ともなる。ＣＰＵ１７０２は、このタプル
データ１７１５が属するバケットグループの識別子を得
て、その識別子により、送信宛先を決定するためのラウ
ンドロビンポインタ１７１２（このバケットグループに
対応する値）を特定する。

【００９３】（８）ラウンドロビンポインタ１７１２に
より指定されるポインタ値により、そのポインタ値をＰ
Ｍ識別子に変換する変換表１７１３が索引され、宛先情
報、つまりこのタプルデータ１７１５を受信すべき中間
ブロッキングＰＭの識別子が得られる。また、この時、
ポインタ（１７１２中の１エントリ）の内容は１だけイ
ンクリメントされた後、中間ブロッキングＰＭ数による
整数剰余の値が代入され直す。

【００９４】（９）得られた宛先情報が、〔タプルデー
タ＋バケット識別子〕のデータ１７１６（図５中の左
側）に接続され、転送パケット１７１７が主記憶１７０
３上に生成される。（１０）ＣＰＵ１７０２は、インタフェース回路１７０
４に対し、転送パケット１７１７の格納領域の主記憶内
先頭アドレスを示して送出を指示する。

【００９５】（１１）転送パケット（タプルデータ）１
７１７は、インタフェース回路１７０４により、即時に
（ＣＰＵ１７０２に同期して）ネットワークに送出され
る。本実施例では、ネットワーク上のプロトコルは簡単
化され、ＣＰＵ１７０２から可視のＡＣＫ（Acknowledg
e)信号などの応答はないものとする。（１２）以上のような処理が二次記憶装置１７００内の
サブテーブル９００中の全てのデータに対して行なわれ
るまで、上記項目（１）の処理に戻る。もし、ＣＰＵ１
７０２が、全てのデータの処理を終了したと判断した場
合には、内部資源を解放した上、処理の終了を制御用Ｐ
Ｍ１６００に報告する。

【００９６】図６は、前述した第１ステップにおける中
間ブロッキングＰＭ１５００の内部構造および動作を説
明するためのブロック図であり、この図６において、１
７５０はＰＭ１５００に接続された二次記憶装置（前述
した二次記憶装置２４に対応）で、この二次記憶装置１
７５０は、後述するごとく、その内部に、送信側ＰＭ６
００（〜６０２）から受理したｍ種類のバケットグルー
プ９１０−１〜９１０−ｍ（図３参照）の部分集合１７
５５を格納する領域を有している。

【００９７】また、中間ブロッキングＰＭ１５００に
は、対ＰＭ間ネットワークインタフェース回路１７５
１，ＣＰＵ回路１７５２，主記憶１７５３およびＩ／Ｏ
回路１７５４が内蔵されている。ここで、インタフェー
ス回路１７５１は図９にて前述したアクセス機構２２に
対応し、ＣＰＵ回路１７５２は図９にて前述したＣＰＵ
２０に対応し、主記憶１７５３は図９にて前述したメモ
リ２１に対応し、Ｉ／Ｏ回路１７５４は図９にて前述し
たＩ／Ｏ機構２３に対応している。

【００９８】さらに、１７６０〜１７６５は主記憶１７
５３上の領域であり、１７６０はＰＭ間データ転送によ
り送信側ＰＭ６００〜６０２のいずれかから送付された
タプルデータを一時的に格納する領域、１７６１はｍ種
類のＩ／Ｏブロッキングバッファ（０〜ｍ−１；図２，
図３に示すＩ／Ｏブロッキングバッファ１５１に対応）
で、各Ｉ／Ｏブロッキングバッファ１７６１は、前述し
たように、二次記憶装置１７５０が要求するＩ／Ｏアク
セス単位の容量の保証の要求を満足する大きさを有し、
バケットグループ種別と１対１に対応している。

【００９９】１７６２はＩ／Ｏ回路１７５４へ出力すべ
きデータもしくはＩ／Ｏ回路１７５４から入力されたデ
ータを一時的に格納する入出力バッファ（Ｉ／Ｏバッフ
ァ）、１７６３は領域１７６５内への書込ポインタで、
この書込ポインタ１７６３は、領域１７６５に対する入
出力処理を１回終了する度にバッファ１７６２の大きさ
だけインクリメントされるようになっている。

【０１００】１７６４は各バケットグループが書き込ま
れたファイル内位置（アドレス）を記憶する領域１７６
５への書込ポインタで、書込ポインタ１７６４と領域１
７６５とは、１対１の対になって、それぞれのバケット
グループ種別に対応して設けられている。なお、図６中
の括弧付数字（０）〜（１０）は、中間ブロッキングＰ
Ｍ１５００における処理に対応して付されたもので、中
間ブロッキングＰＭ１５００の動作を後述する際に用い
られるものである。また、図６には、中間ブロッキング
ＰＭ１５００の構成のみ示しているが、他の中間ブロッ
キングＰＭ１５０１，１５０２も同様に構成されている
ことはいうまでもない。

【０１０１】上述のごとく構成された中間ブロッキング
ＰＭ１５００の、前記第１ステップに際しての動作概要
を以下に説明する。この説明に際して、図６中の括弧付
数字（０）〜（１０）と以下の項目の括弧付数字（０）
〜（１０）とは対応している。（０）図６には図示しない制御用ＰＭ１６００（図３参
照）から、行なうべき処理の記述、例えば対象テーブル
の識別子，バケット識別子の値域幅，ｍの値，転送され
るデータ量の予想値，交信しなければならない送信側Ｐ
Ｍ群７０の一覧などが送付される。これにより、ＣＰＵ
１７５２は、主記憶１７５３内の制御表を初期化し、初
期化を終了すると、その旨を制御用ＰＭ１６００に対し
て応答し、その後、制御用ＰＭ１６００から処理開始の
指示が来ると処理を開始する。なお、初期化の例として
は、領域１７６５の全エントリを無効な値（例えば負の
値）に設定するとともに、書込ポインタ１７６４の全て
の値を０に設定する。

【０１０２】（１）ネットワークインタフェース回路１
７５１は、タプルを受信すると、これを割込みによりＣ
ＰＵ１７５２に伝達する。ＣＰＵ１７５２は、領域１７
６０の先頭アドレスを通知することにより、タプルを領
域１７６０に取り込むことを指示する。（２）タプル内のバケット識別子フィールドがＣＰＵ１
７５２により参照され、整数ｍによる整数剰余演算の結
果（余り値）がこのタプルのバケットグループ識別子と
して認識される。

【０１０３】（３）このバケットグループ識別子によ
り、当該タプル（正確にはバケット識別子＋タプル長＋
タプルデータ部分）が、バケットグループ種別に対応す
るＩ／Ｏブロッキングバッファ１７６１に蓄積される。
もし、この蓄積処理により、Ｉ／Ｏブロッキングバッフ
ァ１７６１内に蓄積されたデータ量が二次記憶装置１７
５０の要求するＩ／Ｏアクセス単位の容量の保証に関す
る要求を満たさないならば、後述する項目（１０）の処
理へジャンプする。

【０１０４】（４）Ｉ／Ｏブロッキングバッファ１７６
１へのデータ蓄積量が、二次記憶装置１７５０の要求す
るＩ／Ｏアクセス単位の容量の保証に関する要求を満た
すようになったならば、このバッファ１７６１の内容
は、Ｉ／Ｏバッファ１７６２に転送された後、クリアさ
れる。（５）ＣＰＵ１７５２は、書込ポインタ１７６３の値の
内容を取り込み、書込位置を得る。また、その後、ポイ
ンタ１７６３の内容は、Ｉ／Ｏバッファ１７６２の大き
さけインクリメントされる。

【０１０５】（６）ＣＰＵ１７５２により、吐き出しが
行なわれる対象であるバケットグループに対応した、書
込ポインタ１７６４と領域１７６５との対が選択され
る。（７）上記項目（６）の処理で選択された書込ポインタ
１７６４と領域１７６５との対において、書込ポインタ
１７６４で示される領域１７６５のエントリが選択され
る。この後、その書込ポインタ１７６４の内容は１エン
トリ分だけインクリメントされる。

【０１０６】（８）上記項目（７）の処理で選択された
領域１７６５のエントリに上記項目（５）で得られた書
込位置が記入される。（９）ＣＰＵ１７５２は、Ｉ／Ｏバッファ１７６２の内
容を上記項目（５）の処理で得られた書込位置（二次記
憶装置１７５０上の位置）へ格納するための入出力コマ
ンドを生成し、そのコマンドをＩ／Ｏ回路１７５４に送
付する。

【０１０７】（１０）そして、ＣＰＵ１７５２は、制御
用ＰＭ１６００からの終了信号、あるいは新たなタプル
の到着を示すネットワークインタフェース回路１７５１
からの割込み信号が到着するまで待機する。もし、制御
用ＰＭ１６００からの終了信号が到来した場合には、バ
ッファ１７６１のうち空きでない全てのものについて、
上記項目（４）以降の処理を行ない、その上で内部制御
情報を書込ポインタ１７６４および領域１７６５を除い
て解放し、処理終了報告を制御用ＰＭ１６００に返す。

【０１０８】図７は、前述した第２ステップにおける中
間ブロッキングＰＭ１５００の内部構造および動作を説
明するためのブロック図であり、この図７において、図
６で既述の符号と同一の符号は、基本的には同一部分を
示しているので、その詳細な説明は省略する。なお、図
７に示す状態では、ＰＭ１５００に接続された二次記憶
装置１７５０の内部には、後述するごとく、前述した第
１ステップにより受理されたデータ〔ｍ種類のバケット
グループ９１０−１〜９１０−ｍ（図３参照）の和集
合〕１７５５を格納する領域がそなえられている。

【０１０９】また、主記憶１７５３上の領域１７６５に
は、前述した第１ステップで生成された、各バケットグ
ループの二次記憶装置１７５０内における格納アドレス
（書込位置）を記述する情報が格納されている。さら
に、第２ステップの処理を行なうに際して、各書込ポイ
ンタ１７６４は、各領域１７６５の情報内の、各Ｉ／Ｏ
アクセス単位に関する記述を逐次的にアクセスするため
のカウンタとして機能し、各ポインタ１７６４の内容か
ら、対応する領域１７６５内の各エントリのアドレスを
容易に生成できるようになっている。

【０１１０】そして、１７７０は二次記憶装置１７５０
内のデータ１７５５のデータブロックで、このデータブ
ロック１７７０は、あるバケットグループに属するデー
タのみが格納されているものであり、図７に示す状態で
現在まさに処理対象となっているものである。１７７１
〜１７７５は主記憶１７５３上の領域であり、１７７１
は二次記憶装置１７５０から読み出されたデータを一時
的に格納するＩ／Ｏバッファ（入出力バッファ）、１７
７２はＩ／Ｏバッファ１７７１から抽出されたタプルデ
ータ（厳密にはタプルデータに当該タプルが属するバケ
ットのバケット識別子を接合されたデータ）を一時的に
格納する領域である。

【０１１１】１７７３は各バケットグループに対応して
設けられた受信側ＰＭ７００〜７０２のいずれに転送す
べきかを示すラウンドロビンポインタ（第２負荷平坦化
手段）である。今、受信側ＰＭ７００〜７０２の個数を
Ｂ個とするならば、このラウンドロビンポインタ１７７
３の値０からＢ−１の間をラップする。１７７４はラウ
ンドロビンポインタ１７７３の値から具体的な受信側Ｐ
Ｍ７００〜７０２のネットワーク上の識別子を求めるた
めの変換表である。この変換表のエントリ数は、受信側
ＰＭ７００〜７０２の個数に等しく、その内部には個々
の受信側ＰＭ７００〜７０２のネットワーク上の識別子
が格納されている。

【０１１２】１７７５はネットワークに送出されるべき
パケットデータを一時的に格納する領域である。この領
域１７７５から、インタフェース回路１７５１は、ＣＰ
Ｕ１７５２からの指示に従って、領域１７７２に格納さ
れたデータに、宛先たる受信側ＰＭのネットワーク上の
識別子を接合したデータ（つまり図４に示したパケット
フォーマットを満足するデータ）を読み出し、そのデー
タをネットワーク上に送出するようになっている。

【０１１３】なお、図７中の括弧付数字（０）〜（１
２）は、中間ブロッキングＰＭ１５００における処理に
対応して付されたもので、中間ブロッキングＰＭ１５０
０の動作を後述する際に用いられるものである。また、
図７には、中間ブロッキングＰＭ１５００の構成のみ示
しているが、他の中間ブロッキングＰＭ１５０１，１５
０２も同様に構成されていることはいうまでもない。

【０１１４】上述のごとく構成された中間ブロッキング
ＰＭ１５００の、前記第２ステップに際しての動作概要
を以下に説明する。この説明に際して、図７中の括弧付
数字（０）〜（１２）と以下の項目の括弧付数字（０）
〜（１２）とは対応している。（０）図７には図示しない制御用ＰＭ１６００（図３参
照）から、行なうべき処理の記述、例えば処理対象の領
域１７５５の識別子，ｎおよびＢの値，受信側ＰＭ群７
０の識別子リストなどがＣＰＵ１７５２に送付され、こ
れらのデータにより主記憶１７５３の内部制御テーブル
群が初期化される。初期化を終了すると、ＣＰＵ１７５
２は、その旨を応答として制御用ＰＭ１６００に返し、
次に制御用ＰＭ１６００から処理開始の指示が来ると処
理を開始する。具体的な処理は、各バケットグループ毎
に完結する。即ち、制御用ＰＭ１６００は、処理開始の
指示に伴い、いずれのバケットグループを処理対象とす
るかを、０〜ｍ−１の番号をこの指示内に含ませること
により指定する。

【０１１５】（１）ＣＰＵ１７５２は、制御用ＰＭ１６
００からの指示内に含まれる番号（０〜ｍ−１）に応じ
たバケットグループの格納領域を記述するカウンタ１７
６４と領域１７６５との対を選択する。ここでは、バケ
ットグループの読出終了は、領域１７６５の無効なエン
トリを読み出すことにより判定可能であるものとする。
ＣＰＵ１７５２は、選択したカウンタ１７６４の値を０
に初期化する。

【０１１６】（２）ＣＰＵ１７５２は、現在処理対象に
なっているバケットグループに対応したカウンタ１７６
４の値から、二次記憶装置１７５０の領域１７５５内
の、当該バケットグループのデータの次の格納領域の値
を格納している領域１７６５内のエントリのアドレスを
得て、このエントリにアクセスし、その内容たる格納領
域アドレスを得る。この後、カウンタ１７６４の値は１
エントリ分だけインクリメントされる。なお、このとき
読み出された領域１７６５内のエントリの値が無効であ
る時（例えば負の値である時）には、このバケットグル
ープに対する処理は終了したと見做され、下記項目（１
２）の処理にジャンプする。ＣＰＵ１７５２は、選択さ
れた領域１７６５のエントリから読み出された二次記憶
装置１７５０内部の格納アドレスを使用して、二次記憶
装置１７５０の領域から１ブロック分のデータを入力バ
ッファ１７７１に読み出すための入出力コマンドを生成
し、そのコマンドをＩ／Ｏ回路１７５４に通知してＩ／
Ｏ処理を開始させる。なお、上述した１ブロックの大き
さは、第１ステップのデータ格納に使用された大きさと
同じで、この大きさは、二次記憶装置１７５０が要求す
るＩ／Ｏアクセス単位の容量の保証要求を満足するもの
である。

【０１１７】（３）Ｉ／Ｏ回路１７５４は、ＣＰＵ１７
０２から指定されたデータブロック１７７０を、二次記
憶装置１７５０からバッファ１７７１内部に読み出す。（４）Ｉ／Ｏ回路１７５４は、要求された入力処理を終
了したことを、割込みによりＣＰＵ１７５２に通知す
る。（５）ＣＰＵ１７５２は、バッファ１７７１内部から１
タプル分のデータ（タプルデータにバケット識別子を接
合されたデータ）１７７２を抽出し、このデータ１７７
２に対して以下の処理（６）〜（１０）を施す。この処
理は、バッファ１７７１内部にある全てのタプルに対し
て行なわれる。

【０１１８】（６）タプルデータ１７７２に接合された
バケット識別子がＣＰＵ１７５２に取り込まれる。ＣＰ
Ｕ１７５２は、そのバケット識別子に対応する、ラウン
ドロビンポインタ１７７３の１エントリを特定する。（７）ラウンドロビンポインタ１７７３により指定され
るポインタ値により、そのポインタ値をＰＭ識別子に変
換する変換表１７１３が索引され、宛先情報、つまりこ
のタプルデータ１７７２を受信すべき受信側ＰＭの識別
子が得られる。また、この時、ポインタ（１７７３中の
１エントリ）の内容は１だけインクリメントされた後、
受信側ＰＭ数による整数剰余演算の結果が代入され直
す。

【０１１９】（８）得られた宛先情報が、〔タプルデー
タ＋バケット識別子〕のデータ１７７２（図７中の左
側）に接続され、転送パケット１７７５が主記憶１７０
３上に生成される。（９）ＣＰＵ１７５２は、インタフェース回路１７５１
に対し、転送パケット１７７５の格納領域の主記憶内先
頭アドレスを示して送出を指示する。

【０１２０】（１０）転送パケット（タプルデータ）１
７７５は、インタフェース回路１７５１により、即時に
（ＣＰＵ１７５２に同期して）ネットワークに送出され
る。本実施例では、第１ステップにおける送信側ＰＭ６
００の動作においても前述した通り、ネットワーク上の
プロトコルは簡単化され、ＣＰＵ１７５２から可視のＡ
ＣＫ（Acknowledge)信号などの応答はないものとする。

【０１２１】（１１）上記項目（２）の処理に戻る。（１２）あるバケットグループの全データに対して処理
が終了したことが検出されると、ＣＰＵ１７５２は、制
御用ＰＭ１６００に対してその旨を報告し、制御用ＰＭ
１６００からの指示を待つ。制御用ＰＭ１６００からの
指示が処理終了指示であった場合には、ＣＰＵ１７５２
は、全ての作業領域を解放し、処理を終了する。一方、
制御用ＰＭ１６００からの指示が次のバケットグループ
に関する処理の開始指示（その指示の内部にバケットグ
ループの識別子を含む）であった場合〔上記項目（０）
の処理の後半部と同じ〕には、上記項目（１）以降の処
理を再開する。

【０１２２】図８は、前述した第２ステップにおける受
信側ＰＭ７００の内部構造および動作を説明するための
ブロック図であり、この図８において、１７８０はＰＭ
７００に接続された二次記憶装置（前述した二次記憶装
置２４に対応）で、この二次記憶装置１７８０は、後述
するごとく、その内部に、第２ステップで受理されたデ
ータ〔バケット９２０−１〜９２０−ｍ・ｎ（図３参
照）の和集合の部分集合〕１７８５を格納する領域を有
している。

【０１２３】また、受信側ＰＭ７００には、対ＰＭ間ネ
ットワークインタフェース回路１７８１，ＣＰＵ回路１
７８２，主記憶１７８３およびＩ／Ｏ回路１７８４が内
蔵されている。ここで、インタフェース回路１７８１は
図９にて前述したアクセス機構２２に対応し、ＣＰＵ回
路１７８２は図９にて前述したＣＰＵ２０に対応し、主
記憶１７８３は図９にて前述したメモリ２１に対応し、
Ｉ／Ｏ回路１７８４は図９にて前述したＩ／Ｏ機構２３
に対応している。

【０１２４】さらに、１７９０〜１７９５は主記憶１７
８３上の領域であり、１７９５は、第２ステップの処理
で生成される、各バケットの二次記憶装置１７８０内に
おける格納アドレスを記述する情報を格納する領域であ
る。また、１７９４は、各領域１７９５の情報内の、各
Ｉ／Ｏアクセス単位に関する記述を逐次的にアクセスす
るためのカウンタであり、各ポインタ１７９４の内容か
ら、対応する領域１７９５内の各エントリのアドレスを
容易に生成できるようになっている。

【０１２５】１７９０はインタフェース回路１７８１が
中間ブロッキングＰＭ群１５０から受理したデータを一
時的に格納する受信バッファ、１７９１はｎ種類のＩ／
Ｏブロッキングバッファ（０〜ｎ−１；図２，図３に示
すＩ／Ｏブロッキングバッファ７１に対応）で、各Ｉ／
Ｏブロッキングバッファ１７９１は、前述したように、
二次記憶装置１７８０が要求するＩ／Ｏアクセス単位の
容量の保証の要求を満足する大きさを有し、バケット種
別と１対１に対応している。

【０１２６】１７９２はＩ／Ｏ回路１７８４へ出力すべ
きデータもしくはＩ／Ｏ回路１７８４から入力されたデ
ータを一時的に格納する入出力バッファ（Ｉ／Ｏバッフ
ァ）、１７９３は領域１７９５内への書込ポインタで、
この書込ポインタ１７９３は、領域１７９５に対する入
出力処理を１回終了する度にバッファ１７９２の大きさ
だけインクリメントされるようになっている。

【０１２７】なお、前述したカウンタ１７９４は、各バ
ケットグループが書き込まれたファイル内位置（アドレ
ス）を記憶する領域１７９５への書込ポインタとしても
機能するもので、書込ポインタ（カウンタ）１７９４と
領域１７９５とは、１対１の対になって、それぞれのバ
ケット種別に対応して設けられている。なお、図８中の
括弧付数字（０）〜（９）は、受信側ＰＭ７００におけ
る処理に対応して付されたもので、受信側ＰＭ７００の
動作を後述する際に用いられるものである。また、図８
には、受信側ＰＭ７００の構成のみ示しているが、他の
受信側ＰＭ７０１，７０２も同様に構成されていること
はいうまでもない。

【０１２８】上述のごとく構成された受信側ＰＭ７００
の、前記第２ステップに際しての動作概要を以下に説明
する。この説明に際して、図８中の括弧付数字（０）〜
（９）と以下の項目の括弧付数字（０）〜（９）とは対
応している。（０）図８には図示しない制御用ＰＭ１６００（図３参
照）から、行なうべき処理の記述、例えば対象テーブル
の識別子，バケット識別子の値域幅，ｎの値，転送され
るデータ量の予想値，交信しなければならない中間ブロ
ッキングＰＭ群１５０の一覧などが送付される。これに
より、ＣＰＵ１７８２は、主記憶１７８３内の制御表を
初期化し、初期化を終了すると、その旨を制御用ＰＭ１
６００に対して応答し、その後、制御用ＰＭ１６００か
ら処理開始の指示が来ると処理を開始する。なお、初期
化の例としては、領域１７９５の全エントリを無効な値
（例えば負の値）に設定するとともに、書込ポインタ
（カウンタ）１７９４の全ての値を０に設定する。

【０１２９】（１）ネットワークインタフェース回路１
７８１は、タプルを受信すると、これを割込みによりＣ
ＰＵ１７８２に伝達する。ＣＰＵ１７８２は、領域１７
９０の先頭アドレスを通知することにより、タプルを領
域１７９０に取り込むことを指示する。（２）タプル内のバケット識別子フィールドがＣＰＵ１
７８２により参照され、このタプルが属するべきバケッ
トがいずれであるかが認識される。

【０１３０】（３）このバケット識別子により、領域１
７９０に格納されたデータからタプルデータ部分のみが
抽出され、そのタプルデータ部分が、そのバケット種別
に対応するＩ／Ｏブロッキングバッファ１７９１に蓄積
される。もし、この蓄積処理により、Ｉ／Ｏブロッキン
グバッファ１７９１内に蓄積されたデータ量が、二次記
憶装置１７８０の要求するＩ／Ｏアクセス単位の容量の
保証に関する要求を満たさないならば、後述する項目
（９）の処理へジャンプする。

【０１３１】（４）Ｉ／Ｏブロッキングバッファ１７９
１へのデータ蓄積量が、二次記憶装置１７８０の要求す
るＩ／Ｏアクセス単位の容量の保証に関する要求を満た
すようになったならば、このバッファ１７９１の内容
は、Ｉ／Ｏバッファ１７９２に転送された後、クリアさ
れる。（５）ＣＰＵ１７８２は、書込ポインタ１７９３の値の
内容を取り込み、書込位置を得る。また、その後、ポイ
ンタ１７９３の内容は、Ｉ／Ｏバッファ１７９２の大き
さけインクリメントされる。

【０１３２】（６）ＣＰＵ１７８２により、吐き出しが
行なわれる対象であるバケットに対応した、書込ポイン
タ（カウンタ）１７９４と領域１７９５との対が選択さ
れる。（７）上記項目（６）の処理で選択された書込ポインタ
１７９４と領域１７９５との対において、書込ポインタ
１７９４で示される領域１７９５のエントリが選択さ
れ、そのエントリに上記項目（５）の処理で得られた書
込位置が記入される。この後、その書込ポインタ１７９
４の内容は１エントリ分だけインクリメントされる。

【０１３３】（８）ＣＰＵ１７８２は、Ｉ／Ｏバッファ
１７９２の内容を上記項目（５）の処理で得られた書込
位置（二次記憶装置１７８０上の位置）へ格納するため
の入出力コマンドを生成し、そのコマンドをＩ／Ｏ回路
１７８４に送付する。（９）そして、ＣＰＵ１７５２は、制御用ＰＭ１６００
からの終了信号、あるいは新たなタプルの到着を示すネ
ットワークインタフェース回路１７８１からの割込み信
号が到着するまで待機する。もし、制御用ＰＭ１６００
からの終了信号が到来した場合には、バッファ１７９１
のうち空きでない全てのものについて、上記項目（４）
以降の処理を行ない、その上で内部制御情報を書込ポイ
ンタ（カウンタ）１７９４および領域１７９５を除いて
解放し、処理終了報告を制御用ＰＭ１６００に返す。こ
れらの書込ポインタ１７９４および領域１７９５に格納
されている情報は、二次記憶装置１７８０の領域１７８
５内に格納されたデータとともに本処理（第２ステッ
プ）の出力であって、これらの出力を用いることによ
り、次の処理において各バケット毎にデータを高速に読
み出すことを可能としている。

【０１３４】このようにして、本実施例は、並列プロセ
ッサ装置を構成する各ＰＭにおいて必要とされる主記憶
容量の大幅な低減に寄与することになる。即ち、本実施
例において、バケット分割に必要なブロッキングバッフ
ァ容量の和は、高々、（ｍ＋ｎ＋２）×〔Ｉ／Ｏアクセ
ス単位〕で済む。ここで、ｍ＝ｎと仮定すれば、その値
は、ほぼ、２・〔バケット総数〕^1/2・〔Ｉ／Ｏアクセ
ス単位〕である。従来、この値は、〔バケット総数〕・
〔Ｉ／Ｏアクセス単位〕であった。通常、バケット数は
数百のオーダであるから、本発明の主記憶容量の低減の
効果によれば、上記必要なブロッキングバッファ容量を
十数分の１にできることになる。

【０１３５】具体的には、容量１００ＧＢのデータベー
スを、容量６４ＧＢの主記憶をもつＰＭで取り扱う場
合、通常、バケット数は両者の比である１６００個程度
となり、且つ、通常のＩ／Ｏ装置では、２５６ＫＢ程度
が、所謂、「性能保証のために必要とされるＩ／Ｏアク
セス単位最低容量」であるから、既存技術では容量４０
０ＭＢのバッファが個々のＰＭに必要である。このよう
なバッファは、勿論矛盾を発生しており、仮想記憶機構
を使用しなければ実現不可能ということになる。これに
対して、本発明によれば、中間ブロッキングＰＭ群１５
０および受信側ＰＭ群７０を同一のＰＭで実現したとし
ても、１つのＰＭ当たり容量２０ＭＢのバッファがあれ
ば良く、主記憶ベースで実現することができる。

【０１３６】また、このことにより、本発明の技術を、
例えば仮想記憶記憶にブロッキングバッファを配置した
既存技術と比較すると、その性能改善効果は、およそ次
の式で示されるオーダとなる。〔改善効果〕＝Ｒ_S／（２・Ｒ_r）ここで、Ｒ_SはＩ／Ｏアクセス単位に関する性能保証の
ための要求が満足された場合の二次記憶性能であり、Ｒ
_rはタプル単位のランダムアクセス処理を行なった場合
の二次記憶性能である。ただし、Ｒ_rの実効性能とは、
仮想記憶機構は一度要求された主記憶ページを二次記憶
から読み込み、上位アプリケーション（この場合、デー
タベース・マネージメント・システム）の処理が終了し
た後にそのページを二次記憶機構に書き戻すため、この
処理に要する時間で、タプル長を割った値である。アク
セスが本当にランダムで、ブロッキングバッファの必要
容量が主記憶容量に比較して余りに巨大な場合（このよ
うな場合をＶＲ比が悪いという）、性能改善効果は上式
のようになる。

【０１３７】上式の値は、２００Ｂ程度のタプル平均長
を例にとると、４５０程度になる。つまり、本発明によ
り、並列プロセッサ装置の性能は４５０倍程度改善され
たことになる。このように、本実施例では、充分なバケ
ット書込／読出性能を保証するために、あるバケットに
属するタプル群（レコード群）を、ある程度まとまった
量となるまで、メモリ（主記憶のＩ／Ｏブロッキングバ
ッファ）上で蓄積してから二次記憶装置に書き込む際
に、この作業のために必要とされるメモリ容量を抑制し
ている。

【０１３８】従って、既存技術では、上記バケット書込
／読出性能の保証のためのメモリ（主記憶）上のブロッ
キング作業は、莫大なメモリ量を要請し、結果として不
可能であったが、本発明によれば、通常範囲のメモリ量
（主記憶容量）でのバケット書込／読出性能の保証のた
めのブロッキング作業が初めて可能となり、結果として
バケット書込／読出性能が大幅に改善される。

【０１３９】また、本実施例では、ある種別のバケット
を担当するＰＭを１台に制限せず、各ＰＭにおける負荷
の平坦化を行なうことにより、１つのＰＭ当たりの担当
バケット数が低減されるとともに、通常発生するバケッ
ト間の容量の差によるＰＭ間の負荷の偏りの発生が確実
に防止され、特定のＰＭへの負荷集中による全体のスル
ープットの低下が防止されるので、処理性能のさらなる
向上に寄与することができる。

【０１４０】なお、上述した実施例では、送信側ＰＭ群
６０と受信側ＰＭ群７０との間に、中間ブロッキングＰ
Ｍ群１５０を１段のみ介在させた構成の並列プロセッサ
装置について説明したが、本発明は、これに限定される
ものではなく、前述した通り、中間ブロッキングＰＭ群
１５０を複数段に構成してバケット数を複数乗根するこ
とによってし、極めて大きなバケット数にも対応するこ
とができるようにすることも可能である。

【０１４１】また、上述した実施例では、第１負荷平坦
化手段および第２負荷平坦化手段をラウンドロビンポイ
ンタ１７１２，１７７３にて構成した場合について説明
したが、本発明は、これに限定されるものではなく、前
述したように、第１負荷平坦化手段として、各バケット
および中間ブロッキングＰＭ識別子によるアドレスが可
能で各中間ブロッキングＰＭ１５００〜１５０２へのデ
ータ送付量を積算するテーブルを用い、第２負荷平坦化
手段として、各バケットおよび受信側ＰＭ識別子による
アドレスが可能で各受信側ＰＭ７００〜７０２へのデー
タ送付量を積算するテーブルを用いてもよい。

【０１４２】この場合、各テーブルのデータ送付量を参
照し、そのデータ送付量の最も少ないＰＭに対してタプ
ルデータを送信するように構成することで、タプルデー
タを各ＰＭに対して均一またはほぼ均一に送付して、各
ＰＭにおける負荷を平坦化することができ、上記実施例
と同様の作用効果が得られる。

【０１４３】

【発明の効果】以上詳述したように、本発明の並列プロ
セッサ装置によれば、中間プロセッサ群を介在させて、
少なくとも２段階のデータ分割処理を行なうことによ
り、各プロセッサに、タプルの総種別数分のバッファを
そなえることなく、データをバケットに分割して第２プ
ロセッサ群に属する各プロセッサに格納させることがで
きるので、バケット分割処理の性能の低下を招くことな
く、通常範囲のメモリ量でのバケット書込／読出性能の
保証のためのブロッキング作業を行なうことが可能にな
り、結果としてバケット書込／読出性能が大幅に改善さ
れる効果がある（請求項１〜４）。

【０１４４】また、ある種別のバケットを担当するプロ
セッサを１台に制限せず、各プロセッサにおける負荷の
平坦化を行なうことにより、１つのプロセッサ当たりの
担当バケット数が低減されるとともに、通常発生するバ
ケット間の容量の差によるプロセッサ間の負荷の偏りの
発生が確実に防止され、特定プロセッサへの負荷集中に
よる全体のスループットの低下が防止されるので、処理
性能のさらなる向上に寄与できるという効果もある（請
求項５，６）。

【図面の簡単な説明】

【図１】本発明の原理ブロック図である。

【図２】本発明の一実施例としての並列プロセッサ装置
の原理的な構成および動作を説明するためのブロック図
である。

【図３】本発明の一実施例としての並列プロセッサ装置
の全体構成を概略的に示すブロック図である。

【図４】本実施例におけるＰＭ間ネットワークを流れる
パケットの概略構成を説明するための図である。

【図５】本実施例の第１ステップにおける送信側ＰＭの
内部構造および動作を説明するためのブロック図であ
る。

【図６】本実施例の第１ステップにおける中間ブロッキ
ングＰＭの内部構造および動作を説明するためのブロッ
ク図である。

【図７】本実施例の第２ステップにおける中間ブロッキ
ングＰＭの内部構造および動作を説明するためのブロッ
ク図である。

【図８】本実施例の第２ステップにおける受信側ＰＭの
内部構造および動作を説明するためのブロック図であ
る。

【図９】一般的な並列計算機システムの構成例を示すブ
ロック図である。

【図１０】一般的な並列計算機システムにおける論理的
な処理を説明するためのブロック図である。

【図１１】一般的な並列計算機システムが行なう処理の
概要を説明するためのブロック図である。

【図１２】代表的な二次記憶装置としての磁気ディスク
装置を示す模式図である。

【図１３】アクセス効率の悪いデータベース処理例を説
明するための図である。

【図１４】アクセス効率の良いデータベース処理例を説
明するための図である。

【図１５】一般的な並列計算機システムにおける第２プ
ロセッサ群に属するプロセッサモジュールの内部構造を
説明するための図である。

【符号の説明】

１プロセッサモジュール（ＰＭ）２第１プロセッサ群３第２プロセッサ群４中間プロセッサ群５第１分割手段６第２分割手段６０送信側ＰＭ群（第１プロセッサ群）６００〜６０２プロセッサモジュール（ＰＭ）７０受信側ＰＭ群（第２プロセッサ群）７１Ｉ／Ｏブロッキングバッファ７００〜７０２プロセッサモジュール（ＰＭ）１５０中間ブロッキングＰＭ群（中間プロセッサ群）１５１Ｉ／Ｏブロッキングバッファ１５００〜１５０２プロセッサモジュール（ＰＭ）１６００制御用ＰＭ（制御用プロセッサ）１７００二次記憶装置１７０１Ｉ／Ｏ回路１７０２ＣＰＵ回路１７０３主記憶１７０４対ＰＭ間ネットワークインタフェース回路１７１２ラウンドロビンポインタ（第１負荷平坦化手
段）１７５０二次記憶装置１７５１対ＰＭ間ネットワークインタフェース回路１７５２ＣＰＵ回路１７５３主記憶１７５４Ｉ／Ｏ回路１７６１Ｉ／Ｏブロッキングバッファ１７７３ラウンドロビンポインタ（第２負荷平坦化手
段）１７８０二次記憶装置１７８１対ＰＭ間ネットワークインタフェース回路１７８２ＣＰＵ回路１７８３主記憶１７８４Ｉ／Ｏ回路１７９１Ｉ／Ｏブロッキングバッファ

Claims

【特許請求の範囲】

【請求項１】並列的に動作する複数のプロセッサをそ
なえ、該複数のプロセッサが一つの業務に参加し全体と
して該業務を実行するとともに、前記の各プロセッサにおいて、該業務における処理対象
のデータを、個々に独立して処理を受けることが可能な
データ単位（以下、タプルという）として取り扱う並列
プロセッサ装置であって、前記処理対象のデータを分散して予め格納するための第
１プロセッサ群と、該第１プロセッサ群から送信されてくる前記処理対象の
データを、同一種別のタプルのみの集合体であるバケッ
トに分割した状態で格納するための第２プロセッサ群
と、前記処理対象のデータを、該第１プロセッサ群から受信
して一時的に格納した後に、該第２プロセッサ群へ送信
するための中間プロセッサ群とが該複数のプロセッサに
包含されており、該第１プロセッサ群から該中間プロセッサ群へのデータ
送信時に、前記処理対象のデータを、それぞれ複数種別
のタプルの集合体である複数組のバケットグループに分
割して該中間プロセッサ群に一時的に格納させるための
第１分割手段と、該中間プロセッサ群から該第２プロセッサ群へのデータ
送信時に、該第１分割手段により分割されて該中間プロ
セッサ群に一時的に格納される該複数組のバケットグル
ープを、各バケットグループ毎に読み出して同一種別の
タプルのみの集合体であるバケットに分割して該第２プ
ロセッサ群に格納させるための第２分割手段とがそなえ
られていることを特徴とする、並列プロセッサ装置。
【請求項２】該第１分割手段に、前記処理対象のデー
タをなす各タプルを分類するためのグループ化関数が予
め設定されており、該第１分割手段が、各タプルに対して該グループ化関数
を適用して得られた、該グループ化関数の出力値として
のバケット識別子に基づいて、バケットグループ分割処
理を行なうことを特徴とする、請求項１記載の並列プロ
セッサ装置。
【請求項３】該第２分割手段に、前記処理対象のデー
タをなす各タプルを分類するためのグループ化関数が予
め設定されており、該第２分割手段が、各タプルに対して該グループ化関数
を適用して得られた、該グループ化関数の出力値として
のバケット識別子に基づいて、バケット分割処理を行な
うことを特徴とする、請求項１または請求項２に記載の
並列プロセッサ装置。
【請求項４】該第１プロセッサ群，該第２プロセッサ
群および該中間プロセッサ群の動作状態を管理して該第
１プロセッサ群，該第２プロセッサ群および該中間プロ
セッサ群の動作を同期させながら該第１分割手段および
該第２分割手段による分割処理を実行させるための制御
用プロセッサが、該複数のプロセッサに包含されている
ことを特徴とする、請求項１〜請求項３のいずれかに記
載の並列プロセッサ装置。
【請求項５】同一バケットグループに属するタプル
を、該中間プロセッサ群に属する各プロセッサに対して
均一またはほぼ均一に送付して、該中間プロセッサ群に
属する各プロセッサにおける負荷を平坦化するための第
１負荷平坦化手段が、該第１分割手段にそなえられてい
ることを特徴とする、請求項１〜請求項４のいずれかに
記載の並列プロセッサ装置。
【請求項６】同一バケットグループに属するタプル
を、該第２プロセッサ群に属する各プロセッサに対して
均一またはほぼ均一に送付して、該第２プロセッサ群に
属する各プロセッサにおける負荷を平坦化するための第
２負荷平坦化手段が、該第２分割手段にそなえられてい
ることを特徴とする、請求項１〜請求項５のいずれかに
記載の並列プロセッサ装置。