JPH09330304A

JPH09330304A - プロセッサ間の通信スケジュールを決定する方法

Info

Publication number: JPH09330304A
Application number: JP8142440A
Authority: JP
Inventors: Hideaki Komatsu; 秀昭小松; Takeshi Ogasawara; 武史小笠原
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-06-05
Filing date: 1996-06-05
Publication date: 1997-12-22
Also published as: US6253372B1; US6126331A

Abstract

(57)【要約】【課題】並列計算機や分散マルチ・プロセッサ・シス
テムを構成するプロセッサ間でデータの送受信を行う場
合において、最適な通信スケジュールを生成すること。【解決手段】プロセッサ間通信を行うプロセッサを複数
のグループに分類し（ステップ４０）、ノードをグルー
プに一対一で対応付けると共に、それぞれの辺をこの通
信に対応付けた通信グラフを生成する（ステップ４
３）。このグラフは、ノード間の距離ごとに生成する。
そして、ノード間の距離ごとの通信グラフを、プロセッ
サ間通信における通信ステップに対応付ける（ステップ
４６）。通信グラフで、実行すべき通信を全体的に把握
し、通信グラフの辺を、ある通信ステップで行われるプ
ロセッサ間の通信に対応付けていることで、通信を最適
化することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する利用分野】本発明は、並列計算機や分散
マルチ・プロセッサ・システムを構成するプロセッサ間
でデータの送受信を行う場合の通信スケジュールを生成
する方法に関する。本発明は、特に、並列化コンパイラ
自身が有する機能の一つとして実現することができる
他、並列化コンパイラによりコンパイルされた目的プロ
グラムを実行する際に呼び出される通信ライブラリにお
いても用いることができる。

【０００２】

【従来の技術】並列計算機や分散マルチ・プロセッサ・
システムの性能向上のために重要なことは、プロセッサ
間でデータを送受信する際に、どのような通信手順で通
信を実行するかということである。プロセッサ間の通信
速度は、プロセッサの演算速度と比べてかなり遅いた
め、非効率的な通信を行っていては、システムのパフォ
ーマンスの向上は望めない。

【０００３】図１は、このようなシステムの具体的な構
成を示す図である。複数のプロセッサ要素１１がバスに
接続されている。それぞれのプロセッサ要素１１は、Ｃ
ＰＵ１２、メモリ装置１３及び通信装置１４を有してい
る。通信装置１４は、入力専用のバッファと出力専用の
バッファを有していて、この装置１４は、並列に入出力
を行うことが可能である。一般に、ＣＰＵ１２と通信装
置１４とを接続するローカル・バスは、二重化されてい
ないが、時分割しても使用しても、通信の遅延が生じな
い程度に広い転送バンド幅を有している。

【０００４】上記システムでは、一対一の通信を同時に
複数実行することが可能である。一対一の通信とは、１
つのプロセッサが、同時に通信できるのが、１つの送信
または１つの受信のみであること、若しくは、１つの送
受信のみであるような通信をいう。このように、１つの
プロセッサが同時に送信及び受信の両方を行うことがで
きる通信方式は、全二重通信と呼ばれており、ＨＰＳ
（ハイ・パフォーマンス・スイッチ）などで用いられて
いる。

【０００５】一般的な並列計算機において、プログラム
を実行する際に発生する複数のプロセッサ間の通信は、
非同期通信の通信ライブラリに基づいて実行される。例
えば、ＭＰＩやＥＵＩといった通信ライブラリは、送信
(send)や受信(recieve)といった通常の命令以外にも、
頻繁に利用される比較的単純な通信パターンを用意して
いる。

【０００６】この通信パターンには、Shift通信, Broad
Cast通信, Scatter通信, Gater通信などがある。Shift
通信とは、図１７（ａ）に示すように、各プロセッサが
隣接するプロセッサに対して、一定の方向にデータを送
信するような通信形態をいう。また、Broad Cast通信と
は、図１７（ｂ）に示すように、１つのプロセッサが有
するデータを、残りの全てのプロセッサに送信するよう
な通信形態をいう。Scatter通信とは、Broad Cast通信
の変形であり、同図（ｃ）に示すように、対応プロセッ
サ毎に異なるデータを送信するような通信形態をいう。
さらに、Gather通信とは、同図（ｄ）に示すように、全
プロセッサのデータを１つのプロセッサに集める通信形
態をいう。

【０００７】これらを用いてプロセッサ間の通信を行う
場合、上記通信パターンに基づいて、あるプロセッサが
データを受信する全ての通信を非同期的に実行する。次
に、そのプロセッサが送信する全ての通信を非同期的に
実行する。そして、通信ライブラリにより実行される通
信の全てが終了するまで、そのプロセッサは待機状態と
なる。

【０００８】このように、データの通信を非同期的に実
行することにより、あるプロセッサは、全てのデータを
確実に受信または送信することができる。しかしなが
ら、この通信方式は、通信パターンに基づく非同期的な
ものであり、実行されるべき通信の全体を把握した上で
行われる方式ではない。従って、複雑な通信では、効率
的な通信を実行することが困難な場合が生じる。送信し
たい相手が受信状態である場合では、送信が待ち状態に
なってしまうため、全体の通信ステップ（時間）が増加
してしまうからである。

【０００９】また、通信ライブラリに一度に大量のデー
タを渡してしまうため、大量のデータをコピーする必要
が生じ、キャッシュ・メモリや仮想記憶システムの効率
を低下させてしまう。これは、結果的にシステムの効率
を著しくて低下させるおそれがある。

【００１０】図２は行列積を求めるプログラムリストを
示した図である。このようなプログラムは、ＨＰＦ（ハ
イ・パフォーマンス・フォートラン）コンパイラが並列
化の対象として処理するものであり、ソース・プログラ
ム中に頻繁に現れる。

【００１１】この並列処理が可能なプログラムを並列計
算機で実行する場合、非同期通信の通信ライブラリに基
づいたプロセッサ間の通信の一例が、図３に示すような
通信ステップである。単純な通信パターンに基づいて決
定された結果、５つの通信ステップを必要としており、
最適なスケジューリングで通信が行われているとはいえ
ない。

【００１２】

【発明が解決しようとする課題】このように従来の方法
では、非同期的な通信ライブラリが用意している比較的
単純な通信パターンを用いて、プロセッサ間通信を行っ
ていた。そのため、通信の待ち状態が頻繁に生じる可能
性があった。その結果、このような方法を用いて動作す
る並列計算機は、十分に高いパフォーマンスを発揮でき
ない場合が生じていた。

【００１３】そこで、本発明の目的は、並列計算機や分
散マルチ・プロセッサ・システムを構成するプロセッサ
間の通信において、最適な通信スケジュールを生成する
ことである。

【００１４】また、本発明の別の目的は、メモリや仮想
記憶システムの効率を低下を防ぐことにより、システム
の効率の低下を防ぐことである。

【００１５】

【課題を解決するための手段】上記目的を解決するため
に、第１の発明は、複数のプロセッサを有するシステム
で、プロセッサ間でデータを通信する場合の通信スケジ
ュールを決定する方法において、プロセッサ間通信でデ
ータを送信するプロセッサ及びデータを受信するプロセ
ッサを複数のグループに分類するステップと、ノードを
グループに一対一で対応付けると共に、それぞれの辺を
プロセッサ間で生じる通信に対応付けた通信グラフを、
ノード間の距離ごとに、生成するステップと、ノード間
の距離ごとに生成された通信グラフのそれぞれを、プロ
セッサ間通信における通信ステップに対応付けることに
より、プロセッサ間通信の通信スケジュールを決定する
ステップとを有する方法を提供する。

【００１６】また、第２の発明は、複数のプロセッサを
有するシステムで、プロセッサ間でデータを通信する場
合の通信スケジュールを決定する方法において、プロセ
ッサ間通信でデータを送信するプロセッサ及びデータを
受信するプロセッサをＮ個のグループに分類するステッ
プと、Ｎ個のノードをグループに一対一で対応付けると
共に、それぞれの辺を前記プロセッサ間で生じる通信に
対応付けた通信グラフを、ノード間距離１からノード間
距離Ｎ−１までそれぞれ生成するステップと、ノード間
の距離ごとに生成されたＮ−１個の前記通信グラフのそ
れぞれを、プロセッサ間通信における通信ステップに対
応付けることにより、プロセッサ間通信の通信スケジュ
ールを決定するステップとを有する方法を提供する。

【００１７】第３の発明は、複数のプロセッサを有する
システムで、プロセッサ間でデータを通信する場合の通
信スケジュールを決定するコンピュータ・プログラムが
記録された記録媒体において、プロセッサ間通信でデー
タを送信するプロセッサ及びデータを受信するプロセッ
サを複数のグループに分類する第１の命令手段と、ノー
ドをこのグループに一対一で対応付けると共に、それぞ
れの辺をプロセッサ間で生じる通信に対応付けた通信グ
ラフを、ノード間の距離ごとに、生成する第２の命令手
段と、ノード間の距離ごとに生成された通信グラフのそ
れぞれを、プロセッサ間通信における通信ステップに対
応付けることにより、プロセッサ間通信の通信スケジュ
ールを決定する第３の命令手段とを有する記録媒体を提
供する。

【００１８】第４の発明は、複数のプロセッサを有する
システムで、プロセッサ間でデータを通信する場合の通
信スケジュールを決定するコンピュータ・プログラムが
記録された記録媒体方法において、プロセッサ間通信で
データを送信するプロセッサ及びデータを受信するプロ
セッサをＮ個のグループに分類する第１の命令手段と、
Ｎ個のノードをこのグループに一対一で対応付けると共
に、それぞれの辺をプロセッサ間で生じる通信に対応付
けた通信グラフを、ノード間距離１からノード間距離Ｎ
−１までそれぞれ生成する第２の命令手段と、ノード間
の距離ごとに生成されたＮ−１個の通信グラフのそれぞ
れを、プロセッサ間通信における通信ステップに対応付
けることにより、プロセッサ間通信の通信スケジュール
を決定する第３の命令手段とを有する記憶媒体を提供す
る。

【００１９】第５の発明は、複数のプロセッサ要素を有
し、それぞれのプロセッサ要素は、プロセッサ、メモリ
手段及び通信手段を有し、通信手段は、データの入力と
出力を同時に行うことができるシステムにおいて、並列
化コンパイラが、ソース・プログラムのコンパイル時
に、上記第１または第２の発明を実行することにより生
成された前記プロセッサ要素間の通信スケジュールを含
む目的プログラムを実行するシステムを提供する。

【００２０】さらに第６の発明は、複数のプロセッサ要
素を有し、それぞれの前記プロセッサ要素は、プロセッ
サ、メモリ手段及び通信手段を有し、通信手段は、デー
タの入力と出力を同時に行うことができるシステムにお
いて、並列化コンパイラが、ソース・プログラムを目的
プログラムにコンパイルする際に、ソース・プログラム
中の並列処理が可能なプログラム領域を、上記第１間他
は第２の発明を実行する実行時ライブラリに関連づけ、
目的プログラムの実行時に、実行時ライブラリを実行す
ることにより決定された前記プロセッサ要素間の通信ス
ケジュールに基づき、目的プログラムを実行するシステ
ムを提供する。

【００２１】

【作用】上記の発明によれば、プロセッサ間の通信関係
を示す通信グラフを生成して、実行すべき通信を全体的
に把握している。その上で、ノード間の距離が同じであ
るような通信グラフの辺を、ある通信ステップで行われ
るプロセッサ間の通信に対応付けている。従って、ある
通信ステップにおいて、あるプロセッサが関係する一の
通信を実行する際、そのプロセッサが別の通信で占有さ
れていることを有効に防ぐことができるため、待ち状態
の発生を低減できる。

【００２２】特に、Ｎ個のノードに対して、距離が１か
ら距離がＮ−１までの通信グラフを生成した場合には、
これらのグラフは、ノード数Ｎの完全通信グラフを生成
することと等価である。通信量が等しい完全通信グラフ
の最適な通信スケジュールは、完全グラフの彩色問題と
して考えることができ、Ｎ−１色、すなわちＮ−１個の
通信ステップが最適である。これを用いて、最適な通信
ステップを生成している。

【００２３】

【発明の実施の形態】図１は、複数のプロセッサを有す
るシステムのブロック図である。複数のプロセッサ要素
１１がバスに接続されている。それぞれのプロセッサ要
素１１は、ＣＰＵ１２、メモリ装置１３及び通信装置１
４を有している。通信装置１４は、入力専用のバッファ
と出力専用のバッファを有していて、この装置１４は、
並列に入出力を行うことが可能である。一般に、ＣＰＵ
１２と通信装置１４とを接続するローカル・バスは、二
重化されていないが、時分割しても使用しても、通信の
遅延が生じない程度に広い転送バンド幅を有している。

【００２４】このようなシステム中の各プロセッサ要素
が計算を並列かつ効率的に実行させるために、例えば、
並列化コンパイラはソース・プログラムを並列処理可能
な目的プログラムにコンパイルする。この場合、プロセ
ッサ間で通信を実行する必要が生じるが、このプロセッ
サ間通信のスケジューリングは、図４に示す本アルゴリ
ズムの動作フローにより決定される。なお、これら一連
の手順は、実行時に呼び出される通信ライブラリが行う
のが一般的であるが、並列化コンパイラ自身がこれらの
手順を実行してもよい。この点については、後述する。
また、本アルゴリズムを実装したコンピュータ・プログ
ラムは、一般に、フロッピー・ディスク等の記録媒体に
記録されており、ユーザはこの記録媒体を入手すること
により、このプログラムを使用することができる。

【００２５】プロセッサの分類（ステップ４０）並列計算機や分散マルチ・プロセッサ・システムを構成
する複数のプロセッサを、データを受信するプロセッサ
のグループ（受信プロセッサ・グループ）とデータを送
信するプロセッサのグループ（送信プロセッサ・グルー
プ）とに分類する。あるプロセッサがデータの送信及び
データの受信の両方を行う場合には、このプロセッサ
は、受信プロセッサ・グループ及び送信プロセッサ・グ
ループの両方に含める。従って、全てのプロセッサが、
送信及び受信の両方を行う場合には、受信プロセッサ・
グループと送信プロセッサ・グループは一致する。

【００２６】プログラムを実行する際に、６台のプロセ
ッサ（Ｐ１からＰ６）の間で図５に示すような通信を行
う必要が生じた場合、受信プロセッサ・グループ及び送
信プロセッサ・グループは、図６（ａ）、（ｂ）のよう
になる。

【００２７】通信グラフのノードの決定（ステップ４
１）受信プロセッサ・グループから、１つの受信プロセッサ
を取り出すと共に、送信プロセッサ・グループから１つ
の送信プロセッサを取り出す。この１対の受信プロセッ
サ及び送信プロセッサを、以下に生成する通信グラフの
１つのノードとする。一方のプロセッサ・グループの要
素の数が他方のプロセッサ・グループのそれよりも多く
て、上記のような１対を構成することができない場合に
は、単独で１つのノードとする。

【００２８】図６（ｃ）は、図６（ａ）、（ｂ）のグル
ープから決定された通信グラフのノードの一例を示して
いる。ノードの決定方法は、さまざまな方法が考えられ
る。この例では、送受信のプロセッサ・グループの表中
の要素が番号の小さいもの淳にソートされているので、
両方の表を１回走査しながら、マージするだけで、完全
通信グラフのノードを生成することができる。従って、
ノード生成のための計算量が少なくて済む。すなわち、
Ｐを要素数の大きいプロセッサ・グループの要素数とす
ると、ノードを生成するための計算量は、Ｐに対して線
形的に増加する。しかしながら、この増加は、表がソー
トされていない場合の計算量ＰlogＰと比べて小さい。

【００２９】全体のプロセッサ数に対して、通信を行う
プロセッサ数が比較的に多い場合には、ソートの必要が
ないビット・ワイズによる実装が効果的である。ビット
・ワイズとは、プロセッサ番号をビット列のビット番号
に対応させて、１ビットによって、そのプロセッサが存
在するかしないかを表現することである。ビット・ワイ
ズ表現を用いることにより、ビットのサーチ時間が１ク
ロックですむため、ノード決定のための計算が少なくて
済む。計算量は、全体のプロセッサ数に対して線形的に
増加するが、ビットワイズ表現を用いることにより、３
２ビット・プロセッサでは、３２倍加速される。一方、
この例のように、プロセッサ・グループが既にソートさ
れているような場合や、全体のプロセッサ数に比べて、
通信を行うプロセッサ数が少ない場合には、ソートリス
トのマージの方が高速である。従って、通信の状況に応
じて、ノードの生成方法を切り替えるように構成しても
よい。

【００３０】初期値設定（ｎ＝１）（ステップ４２）以下のステップで生成される通信グラフのノード間距離
を規定する変数ｎを定義して、その初期値を１に設定す
る。

【００３１】距離ｎの通信グラフの生成（ステップ４
３）ステップ４１で決定されたノードに基づいて、ノード間
距離ｎの通信グラフを生成する。まず、距離１（ｎ＝
１）の通信グラフを生成する。

【００３２】ステップ４１で生成されたノードのエント
リ番号に基づいて、その番号間の距離を通信スケジュー
ルにおける各通信ステップに対応付ける。例えば、距離
１の辺を第１の通信ステップに対応付け、距離２の辺を
第２の通信ステップに対応付ける。まず、あるプロセッ
サは、距離１のエントリの受信プロセッサに送信し、距
離−１のエントリの送信プロセッサから受信する。そし
て、送信から受信する向きに有向辺を対応付けること
で、距離１の通信グラフを作成する。

【００３３】図６（ｃ）に示す通信グラフのノード表に
基づき、ノード間距離１の通信グラフを生成すると図７
（ａ）のようになる。この図において、ノード４に属す
るプロセッサは、受信プロセッサＰ６のみであるにも関
わらず、ノード４からノード１の方向に有向辺が存在し
ている。これは、ノード４には仮想的に出力プロセッサ
Φが存在するものとして取り扱っている。実際の通信ス
テップは、後に述べるステップ４６で最終的に決定され
るので、実際には存在しない仮想的なプロセッサを、こ
こではプロセッサΦとする。

【００３４】ｎ＝Ｎ−１かどうかの判断（ステップ４
４）変数ｎがＮ−１でない場合には、ステップ４５で、変数
ｎに１を加えて、ステップ４３に戻る。ここで、Ｎは、
通信グラフのノードの数である。変数ｎがＮ−１である
場合には、ステップ４６を実行する。

【００３５】ステップ４４は、通信グラフを距離１から
距離Ｎ−１までそれぞれ求めることを意味している。こ
れは、ノード数Ｎの完全グラフを生成することと等価で
ある。本実施例では、完全グラフを用いることにより、
これを通信スケジューリングに用いている。つまり、通
信におけるデータの交換のプロセスを送信と受信とに分
割し、それぞれを異なった時間で通信することにより、
ノード数Ｎに対して、Ｎ−１の通信コストで通信を実行
することが可能となる。これは、完全グラフの彩色問題
では、この彩色数が最適解であることから、Ｎ−１回の
通信ステップが最も効率的であることがわかる。

【００３６】ｎ＝ｎ＋１（ステップ４５）ステップ４３により、ｎに１が加えられてる。ｎ＝２の
場合には、距離１の場合の手順と同様に、距離２のエン
トリの受信プロセッサに送信し、距離−２のエントリの
送信プロセッサから受信を同時に行う。このようにし
て、距離３から距離Ｎ−１について同様に実行する。図
７（ｂ）、（ｃ）は、距離２及び距離３の通信グラフで
ある。なお、図７（ａ），（ｂ），（ｃ）の全ての通信
グラフを合わせたものが、完全通信グラフになる。

【００３７】実際の通信スケジュールの決定（ステップ
４６）上記のステップで生成されたそれぞれの距離における通
信グラフは仮想的なものである。すなわち、このグラフ
は、実際には存在しないプロセッサ（Φ）を含んでお
り、また、異なるプロセッサを同一のノードに含めてい
る。従って、この仮想的な完全通信グラフに基づいて、
実際に必要な通信スケジュールを決定する必要がある。

【００３８】まず、上記の各通信グラフから、プロセッ
サΦを含む有向辺を除く。これが、各通信ステップで実
行される通信である。すなわち、この通信は、３つの通
信ステップを必要とし、各通信ステップでは、それぞれ
距離１、２または３の通信を実行する。

【００３９】図８は、図７の完全通信グラフから抽出さ
れた実際の通信スケジュールを示す図である。この図に
おける距離１、距離２、距離３の通信を各通信ステップ
に対応付ける。さらに、同一ノード間でもプロセッサが
異なれば通信が必要であるから、初期設定（距離０）の
通信を実際の通信ステップに加える必要がある。従っ
て、最終的には、４つの通信ステップが必要となる。

【００４０】なお、この図には、初期設定の斜線で示し
たプロセッサＰ４のように、Ｐ４からＰ４への通信が存
在する。これは、必要ならば、このタイミングでローカ
ルコピーを行うことによって、遅延を引き起こさないこ
とを意味する。もし、ローカルコピーが必要でないなら
ば、ここでは何もする必要はない。

【００４１】上記実施例は、ノード間の距離１から距離
Ｎ−１までの通信グラフ、すなわち完全通信グラフを生
成して、これに基づき通信スケジュールを決定してい
る。しかしながら、本発明は、必ずしも完全通信グラフ
を生成する必要はなく、ノード間の距離ごとの通信グラ
フを各通信ステップに対応付けている点が重要であるこ
とに留意されたい。

【００４２】

【実施例】上記のアルゴリズムを用いて、実際に、図２
の行列積を求めるためのプログラムリストにおける通信
解析を行う。ここでは、このプログラムリストに記述さ
れている各配列データが、図９（ａ）に示すように１６
台のプロセッサにブロック毎に分割されている場合につ
いて説明する。すなわち、配列A(i,j)（但し、１≦ｉ≦
１０００，１≦ｊ≦１０００）は、１次元方向に対して
４台のプロセッサにブロック毎に分割して記憶されてお
り、また２次元方向に対しても４台のプロセッサにブロ
ック毎に分割して記憶されている。例えば、配列A(1,1)
から配列A(250,250)までのデータはプロセッサＰ１に記
憶されており、配列A(251,1)から配列A(500,250)までは
プロセッサＰ２に記憶されている。配列B(i,j)、C(i,j)
についても、図９（ａ）のように各プロセッサにこのよ
うなブロック毎に分割して記憶されている。

【００４３】多くのＨＰＦ(High Performance FORTRAN)
処理系において、ある代入文の計算は、その左辺の配列
データを自己のローカル・メモリに記憶しているプロセ
ッサが行っている。このように、ある代入文の計算を行
うプロセッサをオーナーと呼ぶ。代入文の右辺の配列デ
ータがオーナー以外の他のプロセッサのローカル・メモ
リに記憶されているならば、このデータをオーナーに送
信する必要が生じる。

【００４４】図２のプログラムリスト中の代入文(a)を
計算するオーナーは、左辺の配列データA(i,j)を記憶し
ているプロセッサである。例えば、ｉ＝１，ｊ＝１のＤ
Ｏループにおいて、代入文(a)の計算は、左辺に存在す
るA(1,1)の配列データを記憶しているプロセッサ１が実
行する。この場合、プロセッサ１が左辺の配列データA
(1,1)を計算するために必要となる右辺の配列データ
は、A(1,1)、B(1,1)からB(1,1000)及びC(1,1)からC(100
0,1)である。

【００４５】図９（ａ）のような配列データの分割情報
を用いて、代入文の結果を求めるために通信が必要とな
る領域を求める。なお、右辺のA(1,1)は、左辺と全く同
じインデックス式を有し、オーナーであるプロセッサＰ
１に記憶されているデータであるから通信の必要はな
い。

【００４６】図９（ｂ）は、代入文(a)の左辺の配列Ａ
を計算するために必要となるプロセッサ間の通信を示す
図である。この図において、プロセッサＰ１は、配列Ａ
の斜線で示す部分を計算しようとする場合、配列Ｂの斜
線部分及び配列Ｃの斜線部分が計算のために必要となる
から、これらを記憶したプロセッサの間で通信が生じ
る。

【００４７】この図からわかるように、配列A(1,1)を計
算するために、配列Ｂに関しては、プロセッサＰ１（オ
ーナー）が記憶するB(1,1)からB(1,250)間でのデータ、
プロセッサＰ５が記憶するB(1,251)からB(1,500)までの
データ、プロセッサＰ９が記憶するB(1,501)からB(1,75
0)までのデータ及びプロセッサＰ１３が記憶するB(1,75
1)からB(1,1000)までのデータが必要になる。従って、
２次元方向に対してデータをブロック毎に分割して記憶
しているプロセッサ（Ｐ１、Ｐ５、Ｐ９、Ｐ１３）の間
で１つの完全通信が行われることがわかる。

【００４８】配列Ｃに関しても、プロセッサＰ１（オー
ナー）が記憶するC(1,1)からC(250,1)までのデータ、プ
ロセッサＰ２が記憶するC(251、1)からC(500、1)までのデ
ータ、プロセッサＰ３が記憶するC(501,1)からC(750,1)
までのデータ及びプロセッサＰ４が記憶するC(751,1)か
らC(1000,1)までのデータが必要になる。従って、１次
元方向に対してデータをブロック毎に分割して記憶して
いるプロセッサ（Ｐ１、Ｐ２、Ｐ３、Ｐ４）の間で１つ
の完全通信が行われることがわかる。

【００４９】最初のグループ（Ｐ１、Ｐ５、Ｐ９、Ｐ１
３）に関する受信プロセッサ・グループと送信プロセッ
サ・グループは、以下のようになる。

【００５０】

【数１】受信プロセッサグループ：（Ｐ１、Ｐ５、Ｐ
９、Ｐ１３）送信プロセッサグループ：（Ｐ１、Ｐ５、Ｐ９、Ｐ１
３）

【００５１】これらのグループから完全通信グラフのノ
ードを生成すると、以下のようになる。

【００５２】

【数２】 inout: P1 ・・・ Node P1 inout: P5 ・・・ Node P5 inout: P9 ・・・ Node P9 inout: P13 ・・・ Node P13

【００５３】ノード数が４つなので（Ｎ＝４）、距離３
（Ｎ−１＝３）までの完全通信グラフをそれぞれ生成す
る。その結果を図１０に示す。

【００５４】図１０の例では、同一ノード内に異なるプ
ロセッサは存在しないため、初期設定は必要ない。ま
た、プロセッサΦは存在しない。従って、図１０の３つ
の完全通信グラフがそのまま実際の通信パターンとな
る。つまり、距離１、２及び３の通信グラフにそれぞれ
が対応した３回の通信ステップで通信が完了する。

【００５５】上記の説明は、配列A(1,1)に関するもので
あるが、配列A(1,2)以降A(250,250)までの計算について
も全く同様である。

【００５６】上記の手順に従い配列ＢをB(1,1)からB(10
00,1000)まで考慮した場合、通信解析によって、２次元
方向に対してグループ化されたプロセッサ間で４つの完
全通信が行なわれる。つまり、グループ（Ｐ１、Ｐ５、
Ｐ９、Ｐ１３）で１つの完全通信が行なわれる。同様
に、グループ（Ｐ２、Ｐ６、Ｐ１０、Ｐ１４）、グルー
プ（Ｐ３、Ｐ７、Ｐ１１、Ｐ１４）及びグループ（Ｐ
４、Ｐ８、Ｐ１２、Ｐ１６）でそれぞれ完全通信が行な
われる。

【００５７】このような４つの完全通信が並列に行われ
ることによって、配列Ｂに対して必要となる通信が完了
する。この場合、必要な通信ステップは、距離１、２及
び３に対応した３つのステップであり、通信のコストは
３である。本アルゴリズムを用いた通信コストの方が、
図３に示す従来の方法の通信コストよりも少なくなって
いる点に留意されたい。

【００５８】なお、配列Ｃの場合は１次元方向に４つの
完全通信グループができ、配列Ｂの場合と同様の手順を
実行することにより３つの通信ステップで通信が完了す
ることができる。

【００５９】上記の実施例は、通信装置が全二重化され
ている場合を説明したが、半二重通信においても適用す
ることができる。半二重通信の場合には、各ステップを
２つに分割すればよい。

【００６０】さらに、本実施例に示すアルゴリズムは、
上記の例のように、メッセージ・ベクトル化によってル
ープを並列化するためにデータのプリフェッチに適用で
きる他に、データを再分散する場合や、分散されたデー
タベースを再構築する場合においても適用することがで
きる。

【００６１】図１１は、全体のプロセッサ間でデータを
再分散する場合の状態遷移図である。このような再分散
は、あるアルゴリズムが２次元配列の１次元方向に並列
性があり、別のアルゴリズムが２次元配列のうち２次元
方向に並列性がある場合や、ブロック分割からサイクリ
ック分割にデータの分割方式を変更する場合などに発生
する。

【００６２】このような再分散の例は、プロセッサ全体
が完全通信グラフになるものであり、上記のアルゴリズ
ムを使うことにより、最適な通信スケジュールを決定す
ることができる。なお、この場合には、初期設定の必要
がないので、プロセッサ数より１少ない通信ステップで
通信を行うことができる。図１２は、図１１のデータ再
分散の実際の通信ステップを示したものである。それぞ
れの距離がそれぞれの通信ステップに対応しているの
で、通信ステップ数は３である。

【００６３】図１３は、プロセッサ数を減らすようなデ
ータ分散を行う場合の状態遷移図である。この場合、送
信プロセッサ・グループ、受信プロセッサ・グループ及
びの完全通信グラフのノードは、図１４のようになり、
この例に対する完全通信グラフは図１５のようになる。
このグラフから図１６のような、最適な実際の通信スケ
ジュールが求められる。この図で示すとおり、４つの通
信ステップで通信を行うことができる。

【００６４】なお、本アルゴリズムは、並列化コンパイ
ラ自身が有する機能の一つとして、このコンパイラに実
装させてもよい。さらに、通信スケジュール決定ルーチ
ンとして実行時ライブラリの一つとすることも可能であ
る。

【００６５】図１８は、並列化コンパイラ自身がこのア
ルゴリズムを有する場合に、生成された目的プログラム
の状態を示す図である。並列化コンパイラは、図２に示
したような並列処理が可能なプログラムをソース・プロ
グラム中から検出し、本アルゴリズムに従ってプロセッ
サ間の通信スケジュールをコンパイル時に決定する。こ
の場合、この通信における最適なの手順を示すコードを
含めた目的プログラムが生成される。

【００６６】また、図１９は、通信スケジュール決定ル
ーチンとして本アルゴリズムを用いる場合に、生成され
た目的プログラムの状態を示す図である。並列化コンパ
イラは、図２に示すソース・プログラムを検出した場
合、このプログラム部分を通信スケジュール決定ルーチ
ンと関連づけた目的プログラムを生成する。すなわち、
コンパイル時において、並列化コンパイラは、この部分
を実行時ライブラリ中のあるルーチンと関連づけるのみ
で、具体的な通信スケジュールを決定しない。システム
が、目的プログラムを実行した場合、この関連づけられ
たルーチンが呼び出されて、このルーチンが実行時に最
適な通信スケジュールを決定する。この最適な通信スケ
ジュールを決定のために要する計算量はそれ程多くはな
いので、実行時にこのような計算を行っても、従来の方
法よりも速くプロセッサ間の通信を実行することが可能
である。

【００６７】なお、本アルゴリズムは、プロセッサ間通
信のスケジューリングを目的プログラムの実行時に行う
必要が多いが、この通信を解析するためのオーバーヘッ
ドは僅かなものであり、実質的には待ち時間なしの最適
な通信を行うことが可能となる。また、本アルゴリズム
を用いた通信ライブラリも非常に高速なものを実装する
ことが可能となる。

【００６８】さらに、本アルゴリズムは、ＨＰＳのよう
に同時に１対１の送受信を行うことができるネットワー
クを主たる対象としているが、トークンリングやＬＡＮ
（システム全体で１対１の送受信が１つだけに制約され
たもの）でも適用が可能である。

【００６９】

【効果】このように、本発明では、並列計算機などにお
ける複数プロセッサ間の通信を行う場合に、実行すべき
通信全体を把握した上で、通信スケジュールを生成して
いる。従って、データを送受信する際に待ち状態が発生
することを有効に低減できるため、効率的なプロセッサ
間通信を行うことができる。特に、完全通信グラフを用
いることにより、最適な通信スケジューリングを行うこ
とが可能となる。また、メモリや仮想記憶システムの不
必要な占有を防ぐことにより、システムの効率の低下を
防ぐことができる。

【図面の簡単な説明】

【図１】複数のプロセッサを有するシステムのブロック
図である。

【図２】行列積を求めるためのプログラムリストであ
る。

【図３】従来の方法を用いたプロセッサ間の通信スケジ
ュールである。

【図４】本実施例における動作フロー図である。

【図５】６台のプロセッサ間で生じた通信状態を示す概
略図である。

【図６】図５の例における送受信プロセッサグループ及
び仮想間全通信ノードを示す図である。

【図７】図６に基づき生成された完全通信グラフの図で
ある。

【図８】図７の完全通信グラフから抽出された実際の通
信スケジュールを示す図である。

【図９】配列のブロック毎の分割とそのブロックが記憶
されているプロセッサを示す図である。

【図１０】図２のプログラムリストに関する完全通信グ
ラフである。

【図１１】全体のプロセッサ間でデータを再分散する場
合の状態遷移図である。

【図１２】図１１のデータ再分散の実際の通信ステップ
を示す図である。

【図１３】プロセッサ数を減らすようなデータ分散を行
う場合の状態遷移図である。

【図１４】図１３の例における送信プロセッサ・グルー
プ、受信プロセッサ・グループ及びの完全通信グラフの
ノードを示す図である。

【図１５】図１４の例における完全通信グラフを示す図
である。

【図１６】図１５の例における実際の通信ステップを示
す図である。

【図１７】従来の通信ライブラリが用意する単純な通信
パターンの通信形態を示す図である。

【図１８】並列化コンパイラ自身が通信スケジュールを
決定する場合に生成される目的プログラムの状態を示す
図である。

【図１９】実行時ルーチンが通信スケジュールを決定す
る場合に生成される目的プログラムの状態を示す図であ
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者小笠原武史神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサを有するシステムで、前
記プロセッサ間でデータを通信する場合の通信スケジュ
ールを決定する方法において、プロセッサ間通信でデータを送信するプロセッサ及びデ
ータを受信するプロセッサを複数のグループに分類する
ステップと、ノードを前記グループに一対一で対応付けると共に、そ
れぞれの辺を前記プロセッサ間で生じる通信に対応付け
た通信グラフを、前記ノード間の距離ごとに、生成する
ステップと、前記ノード間の距離ごとに生成された前記通信グラフの
それぞれを、前記プロセッサ間通信における通信ステッ
プに対応付けることにより、前記プロセッサ間通信の通
信スケジュールを決定するステップとを有することを特
徴とする方法。
【請求項２】複数のプロセッサを有するシステムで、前
記プロセッサ間でデータを通信する場合の通信スケジュ
ールを決定する方法において、プロセッサ間通信でデータを送信するプロセッサ及びデ
ータを受信するプロセッサをＮ個のグループに分類する
ステップと、Ｎ個のノードを前記グループに一対一で対応付けると共
に、それぞれの辺を前記プロセッサ間で生じる通信に対
応付けた通信グラフを、前記ノード間距離１からノード
間距離Ｎ−１までそれぞれ生成するステップと、前記ノード間の距離ごとに生成されたＮ−１個の前記通
信グラフのそれぞれを、前記プロセッサ間通信における
通信ステップに対応付けることにより、前記プロセッサ
間通信の通信スケジュールを決定するステップとを有す
ることを特徴とする方法。
【請求項３】前記分類するステップは、データを送信す
る前記プロセッサ及びデータを受信する前記プロセッサ
から構成される対ごとに、１つの前記グループを形成す
ることを特徴とする請求項１または２に記載の方法。
【請求項４】同一の前記ノードに属する前記プロセッサ
が異なる場合には、前記同一ノードに属するプロセッサ
間で通信を行う通信ステップを、前記通信スケジュール
に追加するステップをさらに有することを特徴とする請
求項１または２に記載の方法。
【請求項５】複数のプロセッサを有するシステムで、前
記プロセッサ間でデータを通信する場合の通信スケジュ
ールを決定するコンピュータ・プログラムが記録された
記録媒体において、プロセッサ間通信でデータを送信するプロセッサ及びデ
ータを受信するプロセッサを複数のグループに分類する
第１の命令手段と、ノードを前記グループに一対一で対応付けると共に、そ
れぞれの辺を前記プロセッサ間で生じる通信に対応付け
た通信グラフを、前記ノード間の距離ごとに、生成する
第２の命令手段と、前記ノード間の距離ごとに生成された前記通信グラフの
それぞれを、前記プロセッサ間通信における通信ステッ
プに対応付けることにより、前記プロセッサ間通信の通
信スケジュールを決定する第３の命令手段とを有するこ
とを特徴とする記録媒体。
【請求項６】複数のプロセッサを有するシステムで、前
記プロセッサ間でデータを通信する場合の通信スケジュ
ールを決定するコンピュータ・プログラムが記録された
記録媒体方法において、プロセッサ間通信でデータを送信するプロセッサ及びデ
ータを受信するプロセッサをＮ個のグループに分類する
第１の命令手段と、Ｎ個のノードを前記グループに一対一で対応付けると共
に、それぞれの辺を前記プロセッサ間で生じる通信に対
応付けた通信グラフを、前記ノード間距離１からノード
間距離Ｎ−１までそれぞれ生成する第２の命令手段と、前記ノード間の距離ごとに生成されたＮ−１個の前記通
信グラフのそれぞれを、前記プロセッサ間通信における
通信ステップに対応付けることにより、前記プロセッサ
間通信の通信スケジュールを決定する第３の命令手段と
を有することを特徴とする記憶媒体。
【請求項７】前記第１の命令手段は、データを送信する
前記プロセッサ及びデータを受信する前記プロセッサか
ら構成される対ごとに、１つの前記グループを形成する
ことを特徴とする請求項５または６に記載の記録媒体。
【請求項８】同一の前記ノードに属する前記プロセッサ
が異なる場合には、前記同一ノードに属するプロセッサ
間で通信を行う通信ステップを、前記通信スケジュール
に追加する第４の命令手段をさらに有することを特徴と
する請求項５または６に記載の記録媒体。
【請求項９】複数のプロセッサ要素を有し、それぞれの
前記プロセッサ要素は、プロセッサ、メモリ手段及び通
信手段を有し、前記通信手段は、データの入力と出力を
同時に行うことができるシステムにおいて、並列化コンパイラが、ソース・プログラムのコンパイル
時に、請求項１乃至４に記載された方法を実行すること
により生成された前記プロセッサ要素間の通信スケジュ
ールを含む目的プログラムを実行するシステム。
【請求項１０】複数のプロセッサ要素を有し、それぞれ
の前記プロセッサ要素は、プロセッサ、メモリ手段及び
通信手段を有し、前記通信手段は、データの入力と出力
を同時に行うことができるシステムにおいて、並列化コンパイラが、ソース・プログラムを目的プログ
ラムにコンパイルする際に、前記ソース・プログラム中
の並列処理が可能なプログラム領域を、請求項１乃至４
に記載された方法を実行する実行時ライブラリに関連づ
け、前記目的プログラムの実行時に、前記実行時ライブ
ラリを実行することにより決定された前記プロセッサ要
素間の通信スケジュールに基づき、目的プログラムを実
行するシステム。