JPH07249019A

JPH07249019A - 並列プロセッサシステム

Info

Publication number: JPH07249019A
Application number: JP6042104A
Authority: JP
Inventors: Yoshifumi Ojiro; 嘉史雄城
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-03-14
Filing date: 1994-03-14
Publication date: 1995-09-26
Anticipated expiration: 2020-02-09
Also published as: JP3617672B2; US5901324A

Abstract

(57)【要約】【目的】並列プロセッサシステムに関し、システム内
の各プロセッサにおける処理の単位となるデータ量をプ
ロセッサの主記憶容量の程度として処理を高速化し、か
つ他プロセッサへの転送データを格納するバッファによ
る主記憶容量の圧迫を軽減させる。【構成】システム内の各プロセッサが、複数のデータ
転送先プロセッサに対応して転送データを一時的に格納
する複数の第１のデータ記憶手段と、他プロセッサから
転送されたデータを自プロセッサ内での処理の単位に適
合するように分割して格納する複数の第２のデータ記憶
手段とを備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は磁気ディスクなどの二次
記憶装置がそれぞれ接続された複数のプロセッサをネッ
トワークによって結合し、全体として１つの作業を遂行
する並列プロセッサシステムに係り、更に詳しくは並列
プロセッサシステムを構成する各プロセッサの間で処理
されるデータを均一化するプロセッサ間データ分割方式
に関する。

【０００２】

【従来の技術】並列プロセッサシステムには、例えば複
数の磁気ディスク装置に格納されたデータに対して、ス
イッチを介してシステム内の各プロセッサが自由にアク
セスできるデータ共有型と、各プロセッサにそれぞれ専
用の二次記憶装置が接続され、各プロセッサがネットワ
ークを介してデータの交換を行うデータ分散型とがあ
る。

【０００３】図７はデータ分散型並列プロセッサシステ
ムの構成ブロック図である。同図において、システムを
構成する各プロセッサ１０に対してそれぞれ専用の二次
記憶装置、例えば磁気ディスク１１が接続され、各プロ
セッサ１０の間ではネットワーク１２を介して相互にデ
ータの交換が行われる。

【０００４】図７のようなデータ分散型並列プロセッサ
システムを用いたデータベース処理におけるハッシュジ
ョインについて説明する。ハッシュジョインはエクイバ
レントジョインと言われるアルゴリズムの１つである。

【０００５】図７において、各磁気ディスク１１にはデ
ータベースにおける第１のテーブルＲと、第２のテーブ
ルＳとの内容が分散して格納されているものとする。テ
ーブルＲには従業員の識別番号と、その識別番号に対応
する従業員名が格納され、テーブルＳには従業員の識別
番号と、その識別番号に対応する従業員の年収が格納さ
れているものとする。エクイバレントジョイン処理と
は、テーブルＲとテーブルＳとの内容を検索し、従業員
の識別番号をキーとして、従業員名とその従業員の年収
を対として格納する第３のテーブルを作成する処理であ
る。

【０００６】ハッシュジョインはデータ分散型並列プロ
セッサシステムにおいて行われるエクイバレントジョイ
ンであり、この処理では識別番号を複数のグループにグ
ループ分けし、同一グループに属するデータ、すなわち
テーブルＲとテーブルＳとの内容を、そのグループのデ
ータのエクイバレントジョイン処理を担当するプロセッ
サに、各プロセッサが転送を行い、そのグループのデー
タが全て転送された後に、担当プロセッサがエクイバレ
ントジョイン処理を行うことになる。

【０００７】このハッシュジョインの手順を、次の手順
１〜手順４によって説明する。手順１：個々のプロセッサ（プロセッサ番号０〜Ｎ_pe−
１）はディスクから論理的に１固まりとして扱われるべ
きデータ（レコードあるいはタプルと言う）を読み出
し、これにあるグループ化関数を適用してこのデータを
処理すべきプロセッサを特定する。

【０００８】手順２：個々のプロセッサは上記プロセッ
サにこのデータを転送する。手順３：上記処理を全てのデータに適用した後には、各
プロセッサにはそれぞれの内部で処理されるべきデータ
が集中することになる。

【０００９】手順４：各プロセッサは以後独立して内部
でジョイン処理を行う。上記において、グループ化関数は全てのプロセッサにお
いて同じものが使用されねばならず、かつ同一のデータ
値に対しては同一の値が返されるものが使用される。か
つデータのプロセッサ間転送時には、同一のグループ化
関数出力値を持つデータ群は、全て同一のプロセッサに
対して転送される。

【００１０】このことにより、同一のデータ値を持つ可
能性のあるデータは全て同一のプロセッサに転送される
ので、同一のデータ値を持つデータ間の処理は該プロセ
ッサ内部に閉じて実行することができる。

【００１１】ところで、上記処理において、グループ化
関数の出力値の分布が大幅に偏っていると、つまりある
プロセッサのみ大量のデータが送信されると、このプロ
セッサの演算性能がボトルネックとなってシステム全体
の性能が低下してしまう。

【００１２】例えば前述の２つのテーブルＲとＳに各従
業員の氏名が格納されており、前述のグループ化を氏名
のうちの名字をキーとして行うものとすると、例えば鈴
木や田中と言うような名字に対応するグループのデータ
の量は他の名字のグループのデータ量に比べてかなり大
きくなり、そのような名字のグループのデータの処理を
担当するプロセッサの負荷が大きくなり、システム全体
の性能低下の原因となる。この性能低下を防ぐためにバ
ケット組合せ調整処理が行われる。

【００１３】バケットとは、前述のように例えば識別番
号によってグループ化されたデータがグループとして全
体的に集められたまとまりのことであり、バケット組合
せ調整処理ではグループ化関数をうまく選んでバケット
の大きさが十分小さくなるようにし、１つのプロセッサ
が複数のバケットのデータの処理を担当して、並列プロ
セッサシステム内の各プロセッサが担当する複数のバケ
ットの組合せとしてのデータの総計が均一化されるよう
に調整する処理である。この処理は次の手順１〜手順４
によって行われる。

【００１４】手順１：グループ化関数の出力の値の種類
がプロセッサ台数を大幅に上回る様なものを選択する。
より具体的には、１プロセッサ中のデータであって同一
のグループ化関数出力値を持つデータ群をまとめたもの
をサブバケットと総称するが、最も大きなサブバケット
のサイズがデータ総量をプロセッサ台数の自乗で割った
ものよりも十分小さい様な関数を選択する。なお、シス
テム内で同一のグループ化関数の（出力）値を持つサブ
バケットを全てのプロセッサから集めたものがバケット
となる。

【００１５】手順２：予めこのグループ化関数を全デー
タに適用しておき、各サブバケットの大きさを調べてお
く。手順３：どのサブバケット同士を組み合わせて同一のプ
ロセッサに転送すれば全プロセッサの処理データ量がほ
ぼ同じくなるかを考え、これが実現できる様にサブバケ
ット間の組合せを記憶しておく（あるプロセッサでサブ
バケットＢとサブバケットＣが組み合わされプロセッサ
Ｄに転送されるならば、全てのプロセッサでサブバケッ
トＢとサブバケットＣが組み合わされてプロセッサＤに
転送されなければならない。この為上記評価は全てのプ
ロセッサでの全てのサブバケットサイズの情報を踏まえ
て行われる）。

【００１６】手順４：実際のデータ処理が行われる時、
各プロセッサは上記情報に基づいてサブバケット間の組
合せを行い、他プロセッサへの転送を行う。グループ化
関数の値が同一で、ある１つのプロセッサへ転送される
データの総称がバケットである。

【００１７】さてこの処理中での手順４では、各プロセ
ッサは各バケットに対応して複数のデータバッファを主
記憶上に準備し、データの生成（例えば二次記憶からの
データ読み出し）と並列してデータへのグループ化関数
の適用と評価（サブバケットへの分割）を行い、対応す
るデータバッファに投入する。そしてこのデータバッフ
ァ内に蓄積されたデータ量があるスレッショルド値を越
えた時、該データバッファ内容（バケットの一部）を対
応するプロセッサに送信する。

【００１８】データバッファリングを行う理由は通常プ
ロセッサ間転送手段はデータ量に依存しないかなり大き
なオーバヘッドを持つ為で、転送性能を低下させない為
にはある程度まとまったデータ量を一括して転送するこ
とが必要だからである。

【００１９】一般に並列プロセッサシステム内の１つの
プロセッサの主記憶容量は、システム内で処理されるべ
きデータの総量をプロセッサの台数で割った値、すなわ
ちバケットの組合せとして１つのプロセッサに転送され
るデータの総量よりもかなり小さい。前述のハッシュジ
ョイン処理を高速に行うためには、１つのグループとし
てグループ化されたデータ、すなわちバケットの大きさ
が１つのプロセッサの主記憶上に乗ることが望ましい。
このようにある程度まとまりを持つデータブロックを一
括して主記憶上に展開し、データ処理を高速化する可能
性はメモリコストの低下に伴って発生したものである。
主記憶上に１つのグループのデータが乗るようにバケッ
トを作成して、各プロセッサ内で処理を行う場合につい
て、具体的なプロセッサシステムを対象として従来例を
さらに詳しく説明する。

【００２０】図８は並列プロセッサシステムの構成例で
ある。同図において、ｎ＋１個のプロセッサ（Ａ０〜Ａ
ｎ）が、外部バス（Ｂ）１６によって相互に接続されて
いる。各プロセッサ１５はＣＰＵ２０、主記憶装置２
１、二次メモリ２２、および主記憶装置２１と外部バス
１６との間でデータの入出力に使用される入出力ポート
２３から構成されている。このシステム内で、２つのプ
ロセッサの間で行われるデータの転送について説明す
る。

【００２１】図９は２つのプロセッサの間におけるデー
タ転送の従来例の説明図である。同図においてプロセッ
サＡｉからプロセッサＡｊへのデータ転送について説明
する。同図において２４はプロセッサＡｉにおいて二次
メモリ２２ｉから読み出されたデータ、例えば１つのレ
コードであり、２５はこのデータを他のプロセッサ、こ
こではＡｊに転送するために一時的にこのデータが格納
されるバッファ群であり、２６ｉおよび２６ｊはそれぞ
れのプロセッサの中でデータの転送を処理するプロセス
であり、２７はプロセッサＡｉから転送されたデータで
あり、２８は二次メモリ２２ｉから読み出されたデータ
２４をバッファ群２５のうちのどのバッファに投入すべ
きかを決定するための変換テーブルであり、２９はプロ
セッサＡｊ内で転送されたデータを格納するための二次
メモリ２２ｊ内の領域である。

【００２２】図９において、プロセッサＡｉ側で二次メ
モリ２２ｉから読み出されたデータ２４に対して、プロ
セッサ２６ｉによってデータのグループ化のためのグル
ープ化関数が適用される。そのグループ化関数の値によ
ってそのデータが所属すべきバケットが決定され、また
そのデータが転送されるべきプロセッサが決定される。
このデータがどのバケットに所属し、またどのプロセッ
サに転送されるべきかは、全てのプロセッサのデータの
予備読み込みによって、例えば図示しない親プロセッ
サ、または図８のプロセッサ１５のうちのいずれか１つ
によって、全てのプロセッサでの負荷が均一になるよう
なバケットの組合せとして決定されており、その結果が
変換テーブル２８に格納されている。

【００２３】図１０は転送元プロセッサでの変換テーブ
ルの従来例である。同図において変換テーブル２８は、
グループ化関数出力値からその出力値に対応するデータ
がどの中間バケットに所属すべきかを示す中間バケット
識別子への変換テーブル２８ａと、中間バケット識別子
からそのデータの転送相手先プロセッサへの変換テーブ
ル２８ｂから構成されている。ここで中間バケットとは
データが転送相手先プロセッサに転送され、そのプロセ
ッサ内で最終的なバケットとしてまとめられる過程にお
ける中間的なバケットを意味し、転送元プロセッサ内で
は前述のサブバケットに対応するものである。

【００２４】データ２４に対して適用されるグループ化
関数としては多くの種類が考えられるが、例えばデータ
が整数であり、またシステム内で扱われる全てのデータ
のグループ化結果としてのグループの数にあたる（中
間）バケットの数がＭであるならば、５Ｍを越える素数
による剰余演算をグループ化関数として用いることがで
きる。

【００２５】システム内に存在する（中間）バケットの
数がＭである時、転送データ格納用バッファ群２５は、
少なくともＭより大きい数Ｌ＋１個の小バッファから構
成される。一般にバッファ群２５へのデータの格納と、
バッファ群２５から他のプロセッサへのデータへの転送
を同時に実行可能とするためにダブルバッファリングが
行われ、小バッファの数Ｌ＋１はバケットの数の２倍、
すなわち２Ｍより大きくなる。

【００２６】プロセッサＡｉ側で二次メモリ２２ｉから
読み出されたデータ２４は、そのデータが所属すべきバ
ケットに対応するバッファ群２５内の小バッファに格納
され、この小バッファの容量があるスレッショルド値Ａ
を越えた時、その小バッファ内のデータはその中間バケ
ットが転送されるべきプロセッサ、ここではＡｊに転送
される。転送されたデータ２７は、プロセス２６ｊによ
ってその中間バケットが格納されるべき二次メモリ２２
ｊ内の領域２９に格納され、全ての他のプロセッサから
転送される対応する中間バケットと組み合わされて最終
的なバケットに構成される。

【００２７】

【発明が解決しようとする課題】図８〜図１０で説明し
たように、従来においては他のプロセッサに転送される
べきデータは、システム内に存在するバケットの数に対
応する個数の小バッファによって構成されるバッファ群
２５のうちのいずれかに格納され、そのバケットを処理
すべきプロセッサに転送されるが、この小バッファの数
が非常に多くなり、主記憶上に設けられるこれらの小バ
ッファが主記憶の大部分の領域を占有してしまうと言う
問題点があった。

【００２８】前述のように、プロセッサの主記憶容量は
システム内で取り扱われるべきデータの総量をプロセッ
サの台数で割った値に比較して一般に非常に小さく、シ
ステム内に存在するバケットの数は非常に多くなる。二
次メモリからデータが読み出される順序はあらかじめ予
想することができないので、生成される可能生があるバ
ケットの数Ｍを上回る数の小バッファが必要となり、し
かも個々のバッファの容量としては、プロセッサ間で行
われるデータ転送のオーバヘッドによって定まるスレッ
ショルド値Ａ以上であることが必要である。

【００２９】生成される可能性のあるバケットを予備読
み込みによって調査することは不可能ではないが、その
調査内容を全て記憶してバッファ管理に反映することは
事実上不可能である。

【００３０】システム内に存在するバケットの数Ｍはデ
ータ総量をプロセッサの主記憶容量で割ったものに対応
し、その結果図９で他のプロセッサへの転送データを一
時的に格納するためのバッファ群２５の容量は全体とし
て少なくとも次式で与えられる値を上回る必要がある。

【００３１】Ａ×データ総量／プロセッサ主記憶容量ここでＡはバッファ群２５の１つの小バッファ内のデー
タを一括転送するためのスレッショルド値である。

【００３２】例えばこのスレッショルド値Ａが６４Ｋ
Ｂ、データ総量が６４ＧＢ、主記憶容量が６４ＭＢ程度
であるとすると、上式の値は６４ＭＢとなり、主記憶容
量を全て使いきってしまうような容量のバッファ群２５
が必要となることになり、実際問題としてこのような方
式を実現することは不可能となる。このバッファ容量は
システム内の全てのプロセッサに対して必要となるもの
であり、このような方式を持つ並列プロセッサシステム
は実現不可能であると言う問題点があった。

【００３３】本発明は、バケットの大きさを主記憶容量
の程度に止めてデータの高速処理を可能とし、かつ主記
憶容量の圧迫と言う問題点を解決することができる並列
プロセッサシステムを実現することを目的とする。

【００３４】

【課題を解決するための手段】図１は本発明の原理構成
ブロック図である。同図は、自プロセッサから他プロセ
ッサに転送すべきデータの生成と並行してプロセッサ間
でデータの転送が行われ、転送されたデータを用いて処
理が実行される並列プロセッサシステムの原理ブロック
図である。

【００３５】図１において、第１のデータ記憶手段１は
並列プロセッサシステム内の各プロセッサの内部に複数
個設けられ、それぞれ複数のデータ転送相手先プロセッ
サに対応して転送すべきデータが一時的に格納されるも
のであり、例えば小バッファである。

【００３６】また第２のデータ記憶手段２は、同様に各
プロセッサの内部に複数個設けられ、他のプロセッサか
ら転送されたデータを自プロセッサ内での処理の単位、
例えばバケットに適合するように分割して格納するため
のものであり、第１のデータ記憶手段１と同様に例えば
小バッファである。

【００３７】これらそれぞれ複数の第１のデータ記憶手
段１、および第２のデータ記憶手段２に対応する小バッ
ファ群は、例えば各プロセッサの主記憶上に設けられ
る。

【００３８】

【作用】本発明においては、他のプロセッサに転送され
るべきデータは転送相手先プロセッサに対応する小バッ
ファに一次格納された後、その小バッファの容量がある
スレッショルド値を越えた時点で相手先プロセッサに転
送される。前述のように、１つのプロセッサに転送され
るデータは各プロセッサでの処理量を均一化するために
調整が行われた複数のバケットの組合せとなるが、本発
明においてはこれらの複数のバケットを区別することな
く、データ転送が行われる。

【００３９】データ転送元プロセッサにおいては、例え
ば転送相手先プロセッサを決定するために第１のグルー
プ化関数が適用され、転送相手先プロセッサが決定され
たデータはその相手先プロセッサに対応する第１のデー
タ記憶手段１に格納され、その格納容量があるスレッシ
ョルド値を越えた時点で相手先プロセッサに転送され
る。

【００４０】相手先プロセッサでは、転送されたデータ
に第２のグループ化関数を適用してそのデータを中間バ
ケットに分割し、それぞれの中間バケットに対応する第
２のデータ記憶手段２を構成する小バッファにそれら中
間バケットを格納し、格納されたデータは格納容量があ
るスレッショルド値Ａ′を越えた時点で、二次メモリ内
でその中間バケットが格納され、組み合わされて最終バ
ケットとなるべき領域に格納される。

【００４１】以上のように、本発明によればデータの転
送元プロセッサにおいては転送データはバケットの区別
を行うことなく、転送相手先プロセッサに対応する１つ
の小バッファに格納されることになる。

【００４２】

【実施例】図２は本発明の実施例におけるプロセッサ間
データ転送方式の説明図である。同図において、図９の
従来例と異なる部分を中心にデータ転送を説明する。

【００４３】図２において、データ転送元プロセッサＡ
ｉには転送データを一時的に格納するデータバッファ群
３０として、並列プロセッサシステム内のプロセッサの
数に対応する個数の小バッファが設けられる。この小バ
ッファの数は、システムに存在するバケットの個数がＭ
であれば、このＭをプロセッサ台数で割った商のオーダ
ーである。

【００４４】変換テーブル３１は、図９の変換テーブル
２８と異なり、グループ化関数の出力値からデータの転
送先プロセッサを決定するためのものである。図３は変
換テーブル３１の実施例であり、このテーブルによって
グループ化関数出力値から転送先プロセッサ番号への変
換が行われる。

【００４５】図４は図３の変換テーブルの更に詳細な説
明図である。同図において、例えばグループ化関数の出
力値が１，１１１、および７５のデータがプロセッサ１
に転送され、これらのデータがまとめられたものがバケ
ット１となることを示している。なお、前述と異なり、
ここではグループ化関数の出力値の１つのみでなく、３
つの値が１つのバケットに対応するものとしている。

【００４６】図２において、転送元プロセッサＡｉ側で
二次メモリ２２ｉから読み出されたデータ２４に対し、
プロセス２６ｉによってグループ化関数が適用される。
テーブル３１の内容は、図９におけると同様に、データ
転送が終了した時点で全てのプロセッサの負荷が均一と
なるようにあらかじめ設定されており、グループ化関数
の出力値からデータ２４を転送すべきプロセッサが特定
される。このグループ化関数としては図９で説明したも
のと同じものを用いてもよいが、ここでは転送先プロセ
ッサを決定するのみでよいので、データが整数である時
には、プロセッサ台数をＮ_peとする時、５Ｎ_peを越える
素数による剰余演算をグループ化関数として用いること
ができる。

【００４７】転送元プロセッサＡｉに設けられるデータ
バッファ群３０はシステム内のプロセッサ台数Ｎ_peに対
応し、少なくともこのプロセッサ台数より大きい数Ｄ＋
１個の小バッファから構成される。従来例におけると同
様に、転送先プロセッサ１台に対して２個の小バッファ
が用意され、ダブルバッファリングが行われるために、
一般にＤ＋１はプロセッサ台数の２倍、すなわち２Ｎ_pe
より大きい。

【００４８】二次メモリ２２ｉから読み出されたデータ
２４に対する転送相手先プロセッサが決定されると、そ
のデータはその相手先プロセッサに対応する小バッファ
に格納され、その小バッファの容量があるスレッショル
ド値Ａを越えた時点で転送相手先プロセッサ、ここでは
Ａｊに転送される。

【００４９】転送先プロセッサＡｊ側では、転送された
データ２７に対して再びグループ化関数が適用され、デ
ータの属するバケットの決定が行われる。すなわちプロ
セッサＡｊ側のプロセス２６ｊによって転送されたデー
タに対してグループ化関数が適用され、そのグループ化
関数の出力値によってデータバッファ群３２のうちのい
ずれかの小バッファに転送データが格納される。

【００５０】ここで適用されるグループ化関数は転送元
プロセッサ側で使われたものと同じでもよく、また違っ
ていてもよい。このグループ化関数はあるデータの転送
先プロセッサを特定するものではなく、あるデータが属
する（中間）バケットを特定するためのものであり、多
くの場合転送元プロセッサのグループ化関数とは異なる
ものが選択される。データが整数であり、システム全体
に存在するバケット数がＭである時には、データを５Ｍ
を越える素数で剰余演算するものでもよい。

【００５１】このグループ化関数の出力値に応じてデー
タが属すべき（中間）バケットが決定され、データバッ
ファ群３２のうち、そのバケットに対応する小バッファ
に転送されたデータが一時的に格納されるが、このバケ
ットの決定は変換テーブル３３の格納内容を用いて行わ
れる。図５は変換テーブル３３の説明図である。同図に
おいて、グループ化関数の出力値をワードアドレスとし
てアクセスすることにより、その出力値に対応する中間
バケットの識別子が得られる。ここで１つのプロセッサ
に転送されるバケットの数は、システム内に存在するバ
ケットの総数Ｍをプロセッサの台数Ｎ_peで割った値のオ
ーダであり、図５のテーブルから得られる中間バケット
識別子は、そのプロセッサ内で処理が行われるバケット
だけを識別することができるローカルな中間バケット識
別子でもよいことになる。これに対して、従来例の図１
０におけるテーブル２８ａで得られる中間バケット識別
子はシステム全体の中でのバケットを識別するものであ
り、いわばグローバルな中間バケット識別子である。

【００５２】図６は図５の変換テーブルの更に詳細な説
明図である。同図において、グループ化関数の出力値に
応じてローカルなバケット識別子が格納されている。こ
こでこのプロセッサに転送されるバケットは例えば３つ
であり、それぞれグループ化関数の値が１、１１１、お
よび７５のバケットであるとして、それぞれに対応する
ローカルなバケット識別子が１，２および３としてこの
テーブルに格納されている。

【００５３】図５、図６の変換テーブルの内容を用い
て、それぞれのバケットに対応する小バッファ、すなわ
ちバッファ群３２内の１つの小バッファに格納された転
送データは、その小バッファのデータ格納量があるスレ
ッショルド値Ａ′を越えた時に二次メモリ２２ｊに送ら
れ、対応する中間バケット格納部２９ｊに格納される。
ここでのスレッショルド値Ａ′はデータ転送元における
小バッファのスレッショルド値Ａとは異なり、プロセッ
サ間の通信のオーバヘッドにより決定されるものではな
く、ディスクなどの二次メモリへのアクセスのオーバヘ
ッドによって決定されるものである。

【００５４】図２の実施例においては、図９の従来例と
異なり各プロセッサにはデータの転送を受けてそのデー
タを分割して格納するためのバッファ群３２が必要とな
る。このバッファ群３２を構成する小バッファの個数
は、システム全体に存在するバケットの総数、例えば10
00をプロセッサの台数、例えば６４で割った値となり、
１６個程度である。

【００５５】前述のシステム全体のデータ量６４ＧＢ、
主記憶容量６４ＭＢ、他のプロセッサへのデータ転送の
ためのバッファ容量のスレッショルド値Ａ＝６４ＫＢ、
およびプロセッサ台数６４を用いると、転送されたデー
タが格納された小バッファから二次メモリへのデータ転
送を行う時のスレッショルド値Ａ′を４ＫＢとして、他
プロセッサへのデータ転送のためのバッファ群３０の容
量は最低４ＭＢ（６４ＫＢ×６４プロセッサ）、他プロ
セッサから転送されたデータを格納するためのバッファ
群３２の容量は最低６４ＫＢ（４ＫＢ＋（６４ＧＢ／６
４ＭＢ）／６４プロセッサ）となり、合計で4.064 ＭＢ
と従来例の６４ＭＢに比べて非常に小さくなることが分
かる。しかもデータの受信側プロセッサでのバケット圧
分、すなわち再グループ化処理はメモリ上で実行できる
ために、処理全体の実行速度には悪い影響を与えること
なく行われる。

【００５６】

【発明の効果】以上詳細に説明したように、本発明によ
ればデータの転送時には相手先プロセッサを特定するの
みでデータ転送を行うために、転送データを一時的に格
納するためのバッファ容量を小さくすることができ、か
つデータを主記憶に乗るような大きさのバケットに分割
することが可能となり、更に各プロセッサでの処理すべ
き負荷を均一にすることができる。これによって並列プ
ロセッサシステムでの処理の高速化に寄与するところが
大きい。

【図面の簡単な説明】

【図１】本発明の原理構成ブロック図である。

【図２】実施例におけるプロセッサ間データ転送方式の
説明図である。

【図３】データ転送時に用いられる変換テーブルの例を
示す図である。

【図４】図３の変換テーブルの具体的な格納内容を説明
する図である。

【図５】転送されたデータをバケットに分割するために
用いられる変換テーブルの例を示す図である。

【図６】図５の変換テーブルの具体的な格納内容を説明
する図である。

【図７】データ分散型並列プロセッサシステムの構成を
示すブロック図である。

【図８】並列プロセッサシステムにおける各プロセッサ
の構成を示す図である。

【図９】プロセッサ間データ転送方式の従来例を説明す
る図である。

【図１０】データ転送時に用いられる変換テーブルの従
来例を示す図である。

【符号の説明】

１第１のデータ記憶手段２第２のデータ記憶手段１０，１５プロセッサ１１，２２二次メモリ１２ネットワーク２０中央処理装置（ＣＰＵ）２１主記憶装置２３入出力ポート２８，３１データ転送時に用いられる変換テーブル２５，３０転送データ格納用バッファ群３２転送されたデータを格納するためのバッファ群３３転送されたデータをバケットに分割するための変
換テーブル

Claims

【特許請求の範囲】

【請求項１】自プロセッサから他プロセッサに転送す
べきデータの生成と並行してプロセッサ間でデータの転
送が行われ、該転送されたデータを用いて各プロセッサ
で処理が実行される並列プロセッサシステムにおいて、前記並列プロセッサシステム内の各プロセッサが、それ
ぞれ複数のデータ転送相手先プロセッサに対応して、転
送すべきデータを一時的に格納する複数の第１のデータ
記憶手段（１）と、他プロセッサから転送されたデータを自プロセッサ内で
の処理の単位に適合するように分割して格納する複数の
第２のデータ記憶手段（２）とを備えたことを特徴とす
る並列プロセッサシステム。
【請求項２】前記第１のデータ記憶手段（１）と、第
２のデータ記憶手段（２）とが、それぞれ前記各プロセ
ッサ内の主記憶上に設けられることを特徴とする請求項
１記載の並列プロセッサシステム。
【請求項３】前記並列プロセッサシステム内の各プロ
セッサが、システム内の全データに対する第１のグルー
プ化関数の適用結果に応じて、自プロセッサ内のデータ
の転送相手先プロセッサを決定することを特徴とする請
求項１記載の並列プロセッサシステム。
【請求項４】前記並列プロセッサシステム内で扱われ
るデータが整数であり、前記第１のグループ化関数が該
プロセッサシステム内のプロセッサの台数の複数倍を越
える素数による該整数のデータの剰余演算であることを
特徴とする請求項３記載の並列プロセッサシステム。
【請求項５】前記並列プロセッサシステム内の各プロ
セッサが、前記複数の第１のデータ記憶手段（１）のそ
れぞれに格納されたデータの量があらかじめ定められた
スレッショルド値を越えた時に、対応する転送相手先プ
ロセッサにデータの一括転送を行うことを特徴とする請
求項１記載の並列プロセッサシステム。
【請求項６】前記並列プロセッサシステム内の各プロ
セッサが、前記他プロセッサから転送されたデータを自
プロセッサ内での処理の単位に適合するように分割する
ために、該転送されたデータに対して第２のグループ化
関数を適用することを特徴とする請求項１記載の並列プ
ロセッサシステム。
【請求項７】前記並列プロセッサシステム内で扱われ
るデータが整数であり、前記第２のグループ化関数が該
プロセッサシステムで処理されるべきデータの総量を１
つのプロセッサの主記憶容量で除算した商の複数倍を越
える素数による該整数データの剰余演算であることを特
徴とする請求項６記載の並列プロセッサシステム。
【請求項８】前記並列プロセッサシステム内の各プロ
セッサが、前記他プロセッサから転送され、自プロセッ
サ内での処理の単位に適合するように分割されて前記複
数の第２のデータ記憶手段（２）のそれぞれに格納され
たデータの量があらかじめ定められたスレッショルド値
を越えた時に、該データを二次記憶装置に転送すること
を特徴とする請求項１記載の並列プロセッサシステム。
【請求項９】前記第１のデータ記憶手段（１）の数
が、前記他プロセッサに転送すべきデータの格納と格納
されたデータの転送とを同時に実行可能とするために、
前記並列プロセッサシステム内のプロセッサの数の２倍
以上であることを特徴とする請求項１記載の並列プロセ
ッサシステム。
【請求項１０】前記並列プロセッサシステム内の各プ
ロセッサが、システム内の全データに対する１つのグル
ープ化関数の適用結果に応じて、自プロセッサ内のデー
タの転送相手先プロセッサを決定し、他プロセッサから転送されたデータを自プロセッサ内で
の処理の単位に適合するように分割するにあたり、該１
つのグループ化関数を再び転送されたデータに適用し、
該適用結果を更に自プロセッサ内での処理の単位に対応
する値に変換して前記複数の第２のデータ記憶手段
（２）に該データを格納することを特徴とする請求項１
記載の並列プロセッサシステム。