JPH0962639A

JPH0962639A - 並列計算機のプロセッサ間通信方法

Info

Publication number: JPH0962639A
Application number: JP7215601A
Authority: JP
Inventors: Kazuaki Ishizaki; 一明石崎; Hideaki Komatsu; 秀昭小松; Takeshi Ogasawara; 武史小笠原
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1995-08-24
Filing date: 1995-08-24
Publication date: 1997-03-07
Anticipated expiration: 2015-08-24
Also published as: JP3051972B2; US5761426A

Abstract

(57)【要約】（修正有）【課題】過去の通信履歴を用いて通信パターンの計算を
省略し、高速にプロセッサ間通信を行う。【解決手段】並列計算機において、プロセッサ間の通信
パターンを決定する複数のパラメータを抽出するステッ
プ、前記パラメータを保存する作業領域を作成するステ
ップ、前記パラメータを作業領域に格納する実行時コー
ドを生成するステップ、通信パターンの履歴又はプロセ
ッサ間の通信のためのデータの読み書きを行うメモリア
クセスパターンの履歴を記憶するために、作業領域に前
記パラメータを格納するステップ、及び実行時コードが
実行された場合、実行時コードの実行に基づいた前記パ
ラメータを作業領域に記憶された前記パラメータと比較
するステップを有し、その比較結果に応じて、通信パタ
ーン又はメモリアクセスパターンを再利用して、プロセ
ッサ間の通信を実行する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、並列計算機のプロセッ
サ間通信方法に係り、特に過去の通信履歴を用いてプロ
セッサ間の通信パターンの計算を省略し、高速にプロセ
ッサ間通信を実行する方法に関する。

【０００２】

【従来の技術】複数のプロセッサを有し、それぞれのプ
ロセッサがメモリを有するコンピュータシステムにおい
て、プログラムを高速に実行するためには、データをそ
れぞれのプロセッサに分割し、データに対する演算をそ
れぞれのプロセッサに分割する必要がある。この場合、
プロセッサ間でデータを受け渡すためにプロセッサ間で
データの受け渡し、すなわち通信が発生する。マルチプ
ロセッサシステムでプログラムを高速に実行するために
は、この通信を高速化することが重要である。

【０００３】プロセッサ間の通信を高速化する方法とし
て、以下のような従来技術が知られている。配列ｘの要
素ベクタｋが与えられたとき、その要素をもつプロセッ
サを与える関数をＤ_x（ｋ）とする。また、ループネス
トｊにおいて、ループインデックスベクタｉが与えられ
たとき、ループインデックスベクタｉの計算を実行する
プロセッサを与える関数をＣ_j（ｉ）とする。さらにル
ープネストｊにおいて、ループインデックスベクタｉが
与えられたとき、ｊで参照する配列要素ｘを決定する関
数をＦ_jx（ｉ）とする。このとき、次式が成立するなら
ば、プロセッサ間の通信は発生しないが、成立しないな
らば通信が発生する。

【０００４】

【数１】Ｄ_x（Ｆ_jx（ｉ））＝Ｃ_j（ｉ）

【０００５】この式は、ｉというインデックスでアクセ
スされる配列ｘの要素をもつプロセッサとｉというイン
デックスの計算を行うプロセッサが等しいことを示して
いる。

【０００６】通信が発生する場合、Ｄ_x（Ｆ_jx（ｉ））
からＣ_j（ｉ）へ転送を行うプロセッサ間の通信パター
ンを決定する必要がある。

【０００７】以下では、プログラム中の代入文における
通信の説明を簡単にするために、計算を行うプロセッサ
を求める関数Ｃ_j（ｉ）を、代入文の左辺の配列の分割
と同一にする。この場合、プロセッサ間の通信が必要で
あるかどうかを求めるには、代入文の左辺の配列ＬＨＳ
(Left-Hand-Side)と右辺の配列ＲＨＳ(Right-Hand-Sid
e)について、以下の式が成立するかどうかを調べればよ
い。

【０００８】

【数２】Ｄ_LHS（Ｆ_jLHSx（ｉ））＝Ｃ_RHSj（Ｆ_JRHS（ｉ））

【０００９】この式は、ｉというインデックスでアクセ
スされる配列ＬＨＳの要素をもつプロセッサと、ｉとい
うインデックスでアクセスされる配列ＲＨＳの要素をも
つプロセッサが等しいことを示している。

【００１０】代入文でアクセスされる配列の分割は、配
列を分割するプロセッサ数、各次元の大きさ及び分割方
法によって決定される。ここで、以下のようなベクタを
定義する。

【００１１】ベクタｐ：配列の各次元を分割するプロセ
ッサの個数を示すベクタベクタｎ：配列の各次元の大きさを示すベクタベクタｄ：配列の各次元の分割方法を示すベクタベクタａ：配列参照を決定する式（ループインデックス
変数に関する一次式）のパラメータ

【００１２】このような定義において、配列ｘの分割を
決定する関数Ｄ_x（ｋ）は、ベクタｐ，ベクタｎ及びベ
クタｄで決定される。また、ループインデックスベクタ
は、ループインデックスの上下限によって決定される。
さらに、ループネストｊで、ループインデックスベクタ
ｉが与えられたとき、参照する配列要素を決定する関数
Ｆ_jx（ｉ）はベクタａで決定される。

【００１３】従って、ある代入文を実行する際に必要と
なる通信を決定するには、プログラム中の以下のパラメ
ータが必要になる。

【００１４】(1) ループインデックスの上下限 (2) 左辺の配列の各次元を分割するプロセッサ個数 (3) 左辺配列の各次元の大きさ (4) 左辺の配列の各次元の分割方法 (5) 左辺の配列参照を決定する式のパラメータ (6) 右辺の配列の各次元を分割するプロセッサ個数 (7) 右辺配列の各次元の大きさ (8) 右辺の配列の各次元の分割方法 (9) 右辺の配列参照を決定する式のパラメータ

【００１５】これを以下のプログラムリスト１を例に説
明する。なお、一般に与えられたプログラムでは、アク
セスされる配列の内容は異なっているが、プロセッサ間
のデータ通信パターンは繰り返し実行される部分は同じ
であることが多いことが知られている。

【００１６】

【数３】

【００１７】なお、この例で、「!HPF$ PROCESSORS P
(4)」というステートメントは、４つのプロセッサを１
次元に配置し、そのプロセッサ配置にＰという名前を付
けることを意味する。また、「!HPF$ DISTRIBUTE (BLOC
K) onto P :: A」というステートメントは、配列Ａの分
割方法を表し、具体的には、配列Ａを、ブロック分割
し、Ｐというプロセッサに配置することを意味する。ま
た、「A(I)=A(I-1)+A(I)+A(I+1)」を代入文という。

【００１８】プログラム１において、上述のパラメータ
は、以下のようになる。

【数４】 (1) ループインデックスの上下限： 2,N-1 (2) 左辺の配列の各次元を分割するプロセッサ個数：1次元目 4 (3) 左辺配列の各次元の大きさ: 1次元目 N (4) 左辺の配列の各次元の分割方法： 1次元目 BLOCK (5) 左辺の配列参照を決定する式のハ゜ラメータ(aI+b)： 1次元目 a=1,b=0 (6) 右辺の配列の各次元を分割するプロセッサ個数：1次元目 4 (7) 右辺配列の各次元の大きさ： 1次元目 N (8) 右辺の配列の各次元の分割方法： 1次元目 BLOCK (9) 右辺の配列参照を決定する式のハ゜ラメータ(aI+b)： 1次元目 a=1,b=-1 1次元目 a=1,b=0 1次元目 a=1,b=1

【００１９】従来の方法では、DO Ｉのループネストが
実行されるたびに繰り返し通信パターンを計算し、計算
された通信パターンに従って、相手プロセッサにデータ
を送信していた。従って、通信が発生する度に、通信パ
ターンを計算し、プロセッサ間通信を行う時間が必要で
あった。

【００２０】

【発明が解決しようとする課題】上述のように、従来の
方法では、プロセッサ間のデータの受け渡しに必要とな
る度に、通信パターンを計算する必要が生じていた。こ
の通信パターンの計算に要する時間が、通信におけるオ
ーバーヘッドとなっていた。そこで、本発明は、プロセ
ッサ間の通信を高速化することを目的とする。

【００２１】

【課題を解決するための手段】上記のプログラムリスト
１において、DO Ｉのループネストが繰り返し実行され
る度に、上記のパラメータは変更がない。ループネスト
が実行される際の通信パターンは、TIME=1の時に一度計
算してしまえば、TIME=2...10の次回以降は通信パター
ンの計算を行わずに、既に計算された通信パターンを再
利用してデータを送信すればよく、プロセッサ間の通信
パターンの計算を省略することができる。

【００２２】そこで本発明は、複数のプロセッサを有す
るコンピュータにおけるプロセッサ間の通信を実行する
方法において、(a) プロセッサ間の通信パターンを決定
する複数のパラメータを抽出するステップと、(b) パラ
メータを保存する作業領域を作成するステップと、(c)
パラメータを作業領域に格納する実行時コードを生成す
るステップと、(d) 通信パターンの履歴、またはプロセ
ッサ間の通信のためのデータの読み書きを行うメモリア
クセスパターンの履歴を記憶するために、作業領域にパ
ラメータを格納するステップと、(e) 実行時コードが実
行された場合、実行時コードの実行に基づいたパラメー
タを作業領域に記憶されたパラメータと比較するステッ
プと、(f) その比較結果に応じて、作業領域に格納され
たパラメータを使用することにより、通信パターン又は
メモリアクセスパターンを再利用して、プロセッサ間の
通信を実行するステップとを有する方法を提供する。

【００２３】ここで、ステップ(a)は、それぞれのパラ
メータが、ループネストを実行している間に値が変化す
るか、定数かどうかを調べることにより、通信パターン
がキャッシュ可能であるかどうかを判断することにより
抽出されるようにしてもよい。

【００２４】また、ステップ(e)は、実行時コードの実
行に基づいたパラメータを作業領域に記憶された通信パ
ターンに関するパラメータと一致するかどうかを比較す
るようにしてもよい。

【００２５】ステップ(e)は、実行時コードの実行に基
づいたパラメータを作業領域に記憶された通信パターン
に関するパラメータと一致するかどうかを比較し、パラ
メータと一致する場合には、さらにメモリアクセスパタ
ーンに関するパラメータと一致するかどうかを比較する
ようにしてもよい。

【００２６】ステップ(a)において抽出されるパラメー
タは、プログラム中のループに関するパラメータ、ルー
プ内の代入文中の左辺及び右辺の配列を分割するプロセ
ッサの個数、配列の各次元の大きさ、配列の各次元の分
割方法、配列参照を決定する式にパラメータを有するよ
うにしてもよい。

【００２７】また、上記の通信パターンは、一のプロセ
ッサから他のプロセッサへデータを受け渡しをする領域
を記述したものであってもよい。

【００２８】さらに上記のメモリアクセスパターンは、
通信パターンに従いデータを受け渡しする際に、あるプ
ロセッサが管理するメモリ領域を記述したものであって
もよい。

【００２９】

【実施例】図１は、本発明の実施例を示すフローチャー
トである。このフローチャートは、コンパイラによる解
析とコード生成（ステップ１１からステップ１３）及び
実行時コードによる解析と通信パターンの保存（ステッ
プ１４からステップ１８）とから構成されている。

【００３０】キャッシュ解析（ステップ１１）まず、対象とするループネスト内の代入文を実行する際
に発生する通信パターンが、キャッシュ可能かどうか、
すなわち、過去の履歴を使用することが可能かどうかを
解析する。そのためには、以下のパラメータについて調
べる必要がある。

【００３１】(1) ループインデックスの上下限 (2) 左辺の配列の各次元を分割するプロセッサ個数 (3) 左辺の配列の各次元の大きさ (4) 左辺の配列の各次元の分割方法 (5) 左辺の配列参照を決定する式のパラメータ (6) 右辺の配列の各次元を分割するプロセッサ個数 (7) 右辺の配列の各次元の大きさ (8) 右辺の配列の各次元の分割方法 (9) 右辺の配列参照を決定する式のパラメータ

【００３２】キャッシュ可能であるためには、これらの
パラメータが以下の条件を満たすことが必要である。条件１：それぞれのパラメータが、定数又はループネス
トを実行している間に値が変化しないループ内不変変数
であることこの条件を満たす場合には、通信パターンのキャッシュ
が可能であると判断し、次のステップに進む。

【００３３】キャッシュのためのデータ抽出（ステップ
１２）上記のパラメータのうちで、実行時コードの実行時に変
化する可能性のあるパラメータを調べる。そして、通信
パターンの履歴またはメモリアクセスパターンの履歴を
記憶するために作業領域を設け、変化する可能性がある
パラメータの個数だけ、コンパイル時に旧パラメータと
現パラメータの領域を作業領域中に確保する。

【００３４】図２は、本実施例における作業領域を示す
図である。ここで、図中の「フラグ」には、旧パラメー
タの値が有効であるならば１を設定し、無効ならば０を
設定する。また領域を確保する際には０を設定してお
く。また、「通信パターンへのポインタ」は、自プロセ
ッサからデータを一括して送ることのできる配列領域を
全てのプロセッサに対して求めた結果としてのポインタ
を示が示されている。「アクセスパターンへのポイン
タ」は、プロセッサ間通信パターンに従ってデータを送
る際に、自プロセッサのメモリから読み出すベースアド
レス、ストライド、要素雄へのポインタが示されてい
る。さらに、「旧パラメータ」には、前回通信パターン
を計算した際のパラメータの値を、「現パラメータ」に
は、現在のパラメータの値が示されている。

【００３５】実行時に変化する可能性のあるパラメータ
について、上記の作業領域の現パラメータに格納するコ
ードを生成する。但し、実行時に変化する可能性のある
パラメータであっても、以下の２つの条件を満たすなら
ば、そのパラメータを作業領域に保存するコードを生成
しない。

【００３６】条件２： (1) 配列のある次元をアクセスする式に、ループインデ
ックスが現れない。 (2) 配列のある次元を分割するプロセッサ数が１である
か、又は、プロセッサへ分割されていない。

【００３７】これは、プロセッサ間通信パターンを計算
するパラメータの値が異なっても、プロセッサ内のメモ
リアクセスパターンが異なるだけで、プロセッサ間通信
パターンは同じである点に着目したものである。従っ
て、このような条件を満たせば、通信パターンの計算を
省略することができる。

【００３８】なお、このとき、配列の次元に関する全て
のパラメータを、キャッシュ可能解析のパラメータとし
て、作業領域に保存することはしない。但し、このパラ
メータは、実行時に各プロセッサにおいて、プロセッサ
間通信を行うデータの読み込み・書き込みを行うメモリ
アドレスを決定する際のパラメータとして用いる。

【００３９】以上のステップ１２及びステップ１３によ
り、プロセッサ間の通信パターンを決定する複数のパラ
メータが抽出される。

【００４０】実行時キャッシュ解析のためのコード生成
（ステップ１３）次のステップでの処理を行うためのサブルーチンコール
を生成する。

【００４１】キャッシュ可能解析（ステップ１４）ステップ１３において生成されたサブルーチンコール中
のライブラリの処理について以下に説明する。なお、以
下の説明は、このライブラリが実行される時点で、コン
パイル時に確保した作業領域の現パラメータに、最新の
値が入っていることを前提としている。まず、前回利用
した通信パラメータが利用可能であるかどうかを調べる
（ステップ１４）。すなわち、作業領域における現パラ
メータと旧パラメータとが一致するかどうかを調べる。
なお、このステップについては、後述する。

【００４２】通信データのメモリアクセスパターン計算
チェック（ステップ１５）プロセッサ間通信パターンに従って転送するデータを、
メモリから読み出し、又は書き込みするアクセスパター
ンがキャッシュされたデータと同じであるかどうかをチ
ェックする。ステップ１２における条件２を満たすパラ
メータが存在しない場合、すなわち、メモリアクセスパ
ターンが変化しない場合には、ステップ１８に進む。条
件２を満たすパラメータがある場合には、通信パターン
が同じであっても、メモリアクセスパターンが異なる場
合があるので、ステップ１７に進め、メモリアクセスパ
ターンを計算する。ステップ１７のメモリアクセスパタ
ーンの計算は、次のステップ１６のプロセッサ間通信パ
ターンの計算に比べて、オーバーヘッドが短いので、再
計算を実行してもキャッシュの効果は大きい。

【００４３】プロセッサ間通信パターン計算（ステップ
１６）プロセッサ間通信パターンを計算する場合には、以下の
どちらかの場合がある。 (1) はじめてプロセッサ間の通信パターンを計算する場
合 (2) 前回のプロセッサ間通信パターンを計算したときに
用いたパラメータと今回のパラメータとが等しくない場
合

【００４４】作業領域の現パラメータの値を用いて、プ
ロセッサ間通信パターンを計算する。通信パターンと
は、自プロセッサからデータを一括して送ることのでき
る配列領域を、全てのプロセッサに対して求めた結果で
ある。

【００４５】通信パターンの計算は以下の手順で行う。 (1) 代入文の左辺の配列の分散から、自プロセッサがま
わるループのインデックス範囲を計算する。 (2) (1)で求められたループのインデックス範囲によっ
て右辺の配列について読み込みが行われる領域を計算す
る。 (3) (2)で求められた配列の読み込みが行われる領域と
実際に自プロセッサでもつ領域の差が、プロセッサ間通
信パターンとなる。また、プロセッサ間通信パターンへのポインタをコンパ
イル時に確保した作業領域に保存する。

【００４６】通信データのメモリアクセスパターン計算
（ステップ１７）プロセッサ間通信パターンに従って転送するデータを、
メモリから読み出し、または書き込みするアクセスパタ
ーンを決定する。メモリアクセスパターンとは、プロセ
ッサ間通信パターンに従って、データを送る際に、自プ
ロセッサのメモリから読み出す、ベースアドレス、スト
ライド、要素数のことである。また、計算されたメモリ
アクセスパターンへのポインタを、コンパイル時に確保
された作業領域に保存する。

【００４７】プロセッサ間通信の実行（ステップ１８）キャッシュされた、または再計算されたプロセッサ間通
信パターンとメモリアクセスパターンに従って、実際の
プロセッサ間通信を行う。

【００４８】ここで、ステップ１４のキャッシュ可能解
析についてさらに詳述する。このステップは、作業領域
における現パラメータと旧パラメータとが一致するかど
うかを調べるステップであるが、これは図３のようなフ
ローを実行し、キャッシュフラグの状態で判断される。

【００４９】まず、キャッシュフラグに１を設定し（ス
テップ３１）、作業領域からパラメータを１つ選ぶ（ス
テップ３２）。そして、フラグを１かどうか、すなわち
旧パラメータが有効かどうかを判断する（ステップ３
２）。フラグが１の場合、すなわち旧パラメータが有効
な場合には、現パラメータが旧パラメータと一致してい
るかどうかを判断する（ステップ３４）。ステップ３３
で、フラグが１でない場合、またはステップ３４で現パ
ラメータと旧パラメータとが一致しない場合には、ステ
ップ３５に進み、キャッシュフラグに０をたてると共
に、現パラメータを旧パラメータに代入する。ステップ
３４がＹｅｓの場合またはステップ３５の処理の後、全
てのパラメータを処理したかどうかを判断する（ステッ
プ３６）。Ｙｅｓの場合には、フラグに１をたてた（ス
テップ３７）後に処理を終了する。Ｎｏの場合には、ス
テップ３２に戻る。

【００５０】この処理が終了したときにキャッシュフラ
グが１のままであれば、前回計算したプロセッサ通信パ
ターンと同じものを使用することができる。この場合に
は、ステップ１５に進む。また、キャッシュフラグが０
になった場合には、プロセッサ間通信パターンを再計算
する必要があるのでステップ１６に進む。

【００５１】以上の手順により、既に計算された通信パ
ターンを繰り返す場合には、プロセッサ間の通信パター
ンの再計算を省略することができる。次に、実際のプロ
グラムを例に本発明を説明する。

【００５２】プロセッサ間通信パターンの計算を省略す
る方法下記のプログラムリスト２は、差分法の一例であり、実
行するプロセッサは４台で、配列Ａを分割している。

【００５３】

【数５】

【００５４】このプログラムを本発明を適用してコンパ
イルすると、以下のようなコードが生成される。

【００５５】

【数６】

【００５６】以下では、N=100と仮定して１番プロセッ
サの振る舞いについて説明するが、２番から４番プロセ
ッサについても同様である。まず、TIME=1の場合を考え
る。Compute_LISで、１番プロセッサが計算を実行する
ループインデックスＩの範囲を計算する。このとき、上
述の(1)乃至(9)のパラメータのうち、(1)乃至(5)のパラ
メータが必要になる。

【００５７】

【数７】 (1) ループインデックスの上下限： 2,N-1 (2) 左辺の配列の各次元を分割するプロセッサ個数：1次元目 4 (3) 左辺配列の各次元の大きさ： 1次元目 N (4) 左辺の配列の各次元の分割方法： 1次元目 BLOCK (5) 左辺の配列参照を決定する式のハ゜ラメータ(aI+b)： 1次元目 a=1,b=0

【００５８】実行時に変化する可能性のあるパラメータ
は、配列の大きさNと、ループインデックスの上限のN-1
であるから、この２つをコンパイル時に確保した作業領
域w0の旧パラメータに保存して、Compute_LISを呼ぶ。
初めて呼ばれたときには、作業領域内のフラグが０にな
っているので、フラグを１にして、現パラメータを旧パ
ラメータ領域にコピーした後に、インデックスの範囲を
計算する。これらのパラメータから、プロセッサ１が担
当するインデックスの範囲を計算し、Fortran90の三つ
組み形式で表現すると[2:25:1]となる。

【００５９】プロセッサ間通信パターンを計算するため
には、このインデックス範囲と、上述の(1)乃至(9)のパ
ラメータのうち、(6)乃至(9)のパラメータが必要にな
る。

【００６０】

【数８】 (6) 右辺の配列の各次元を分割するプロセッサ個数；1次元目 4 (7) 右辺配列の各次元の大きさ： 1次元目 N (8) 右辺の配列の各次元の分割方法： 1次元目 BLOCK (9) 右辺の配列参照を決定する式のハ゜ラメータ(aI+b)： 1次元目 a=1,b=-1 1次元目 a=1,b=0 1次元目 a=1,b=1

【００６１】実行時に変化する可能性のあるパラメータ
は、配列の大きさのNであるから、これをコンパイル時
に確保した作業領域w1,w2,w3の旧パラメータに保存し
て、通信計算のためのライブラリを呼ぶ。このループ内
の代入文の右辺に現れる配列は３つあるので、これらの
パラメータから、それぞれの右辺の配列参照についてプ
ロセッサ間通信パターンを計算すると、結果は次のよう
になる。

【００６２】A(I-1)に関する通信は、[26:26:1]をプロ
セッサ２からループ実行直後に送信。A(I)は、左辺と同
じアクセスなので通信は不要。A(I+1)に関する通信は、
[26:26:1]をプロセッサ２へループ実行直前に受信。

【００６３】従って、A(I+1)に関するパラメータを作業
領域w1に保存して、ループ実行直前にデータの送受信を
行う。さらにA(I-1)に関するパラメータを作業領域w2,w
3に保存して、ループ実行直前にデータを受信し、ルー
プ実行直後にデータの送信を行う。

【００６４】次に、TIME=2の場合を考える。TIME=2の場
合においても、TIME=1の場合と同様に１００である。ま
ず、Compute_LISでループインデックスの範囲を計算す
る。Compute_LISを呼ぶ際に、配列の大きさNと、ループ
インデックスの上限N-1を、作業領域w0の旧パラメータ
に保存してから呼ぶ。今回は、作業領域内のフラグが１
なので、TIME=1のときの旧パラメータと今回の現パラメ
ータとを比較する。その結果、全てのパラメータが等し
いので,TIME=1の時に使用したループインデックス[2:2
5:1]を再使用する。

【００６５】その後、プロセッサ間通信パターンを計算
する。まず、A(I+1)に関する通信について考える。Do_P
refetch_Commを呼ぶ際に、配列の大きさNを作業領域w1
の旧パラメータに保存してから呼ぶ。今回は、作業領域
内のフラグが１であるから、TIME=1のときの旧パラメー
タと今回の現パラメータとを比較する。この結果、全て
のパラメータが等しいので、TIME=1の時に使用した[26:
26:1]をプロセッサ２へループ実行直後に送る、という
通信パターンを再使用する。以後、TIME=3からTIME=10
までTIME=1のときの通信パターンを再使用できるので、
通信時のオーバーヘッドを最小限にし、高速なプロセッ
サ間通信が可能となる。

【００６６】プロセッサ内のメモリアクセスパターンが
異なるだけで、通信パターンを省略する方法下記のプログラム３は、差分法の一例である。実行する
プログラムは４台で、配列Ａの１次元目を分割してい
る。配列Ａの２次元目は分割されていない。

【００６７】

【数９】

【００６８】このプログラムを本発明を適用してコンパ
イルすると、以下のようなコードが生成される。

【００６９】

【数１０】

【００７０】以下では、N=100と仮定して１番プロセッ
サの振る舞いについて説明するが、２番から４番プロセ
ッサについても同様である。まず、TIME=1の場合を考え
る。COMPUTE_LISで、１番プロセッサが計算を実行する
ループインデックスＩの範囲を計算する。このとき、上
述の(1)乃至(9)のパラメータのうち、(1)乃至(5)のパラ
メータが必要になる。

【００７１】

【数１１】 (1) ループインデックスの上下限： 2,N-1 (2) 左辺の配列の各次元を分割するプロセッサ個数：1次元目 4 2次元目 0 (3) 左辺配列の各次元の大きさ： 1次元目 N 2次元目 N (4) 左辺の配列の各次元の分割方法： 1次元目 BLOCK 2次元目 * (5) 左辺の配列参照を決定する式のハ゜ラメータ(aI+b)： 1次元目 a=1,b=0 2次元目 a=0,b=K

【００７２】ループインデックスの決定に影響し、実行
時に変化する可能性があるパラメータは、配列の１次元
目の大きさNと、ループインデックスの上限N-1であるか
ら、この２つをコンパイル時に確保した作業領域w0の旧
パラメータに保存して、Compute_LISを呼ぶ。

【００７３】初めて呼ばれた場合には、作業領域内のフ
ラグが０になっているので、フラグを１にして、現パラ
メータを旧パラメータ領域にコピーした後に、インデッ
クスの範囲を計算する。これらのパラメータから、プロ
セッサ１が担当するインデックスの範囲を計算し、Fort
ran90の三つ組み形式で表現すると[2:25:1]となる。

【００７４】プロセッサ間通信パターンを計算するため
には、このインデックス範囲と、上述の(1)乃至(9)のパ
ラメータのうち、(6)乃至(9)のパラメータが必要にな
る。

【００７５】

【数１２】 (6) 右辺の配列の各次元を分割するプロセッサ個数；1次元目 4 2次元目 0 (7) 右辺配列の各次元の大きさ： 1次元目 N 2次元目 N (8) 右辺の配列の各次元の分割方法： 1次元目 BLOCK 2次元目 * (9) 右辺の配列参照を決定する式のハ゜ラメータ(aI+b)： 1次元目 a=1,b=-1 2次元目 a=0,b=K 1次元目 a=1,b=0 2次元目 a=0,b=K 1次元目 a=1,b=1 2次元目 a=0,b=K

【００７６】プロセッサ間通信パターンに影響があるパ
ラメータは、配列がBLOCKで分割されている１次元目の
パラメータだけで、さらに実行時に変化する可能性があ
るのは、配列の大きさのNだけであるから、これをコン
パイル時に確保した作業領域w1,w2の旧パラメータに保
存する。また、配列が分割されていない次元に現れる配
列参照式のループインデックスでない変数Kについて
は、メモリアクセスパターンを計算するため実行時ライ
ブラリにパラメータを渡して、通信計算のためのライブ
ラリを呼ぶ。このループ内の代入文の右辺に現れる配列
は３つあるので、それぞれについて計算する。作業領域
に保存されたパラメータから、それぞれの右辺の配列参
照についてプロセッサ間通信パターンを計算し、以下の
結果を得る。

【００７７】A(I-1,K)に関する通信は、[26:26:1]をプ
ロセッサ２へループ実行直後に送信。A(I,K)は、左辺と
同じアクセスなので通信は不要。A(I+1,K)に関する通信
は、[26:26:1]をプロセッサ２からループ実行直前に受
信。

【００７８】従って、A(I+1)に関するパラメータを作業
領域w1に保存して、ループ実行直前にデータの送受信を
行う。さらにA(I-1)に関するパラメータを作業領域w2に
保存して、ループ実行直前にデータを受信し、ループ実
行直後にデータの送信を行う。

【００７９】次に、TIME=2の場合を考える。TIME=2の場
合においても、TIME=1の場合と同様に１００である。但
し、Ｋは２になっている。まず、Compute_LISでループ
インデックスの範囲を計算する。Compute_LISを呼ぶ際
に、配列の大きさNと、ループインデックスの上限N-1
を、作業領域w0の旧パラメータに保存してから呼ぶ。今
回は、作業領域内のフラグが１なので、TIME=1のときの
旧パラメータと今回の現パラメータとを比較する。その
結果、全てのパラメータが等しいので,TIME=1の時に使
用したループインデックス[2:25:1]を再使用する。

【００８０】その後、プロセッサ間通信パターンを計算
する。まず、A(I+1)に関する通信について考える。Do_P
refetch_Commを呼ぶ際に、配列の大きさNを作業領域w1
の旧パラメータに保存してから呼ぶ。今回は、作業領域
内のフラグが１であるから、TIME=1のときの旧パラメー
タと今回の現パラメータとを比較する。この結果、全て
のパラメータが等しいので、TIME=1の時に使用した[26:
26:1]をプロセッサ２へループ実行直後に送る、という
通信パターンを再使用する。A(I-1)に関する通信も同様
にして、[26:26:1]をプロセッサ２からループ実行直前
に受け取る、という通信パターンを再使用する。但し、
メモリアクセスパターンについては、前回と異なる可能
性があるので再計算する。パラメータKを使って計算す
ると、K=2であるので、以下のようになる。

【００８１】A(I-1)に関しては、[26:26:1][2]を通信デ
ータとして読み込む。A(I+1)に関しては、[26:26:1][2]
へ受け取ったデータを書き込む。

【００８２】以後、TIME=3からTIME=10までTIME=1のと
きの通信パターンを再使用し、メモリアクセスパターン
を再計算するだけでよいので、通信時のオーバーヘッド
を最小限にし、高速なプロセッサ間通信が可能となる。

【００８３】

【効果】従来の分散メモリ型並列コンピュータでは、過
去の通信履歴を利用してプロセッサ間通信パターンの計
算を省略することができるので、プロセッサ間の通信を
高速化することができる。

【図面の簡単な説明】

【図１】本発明の実施例を示すフローチャートである。

【図２】本実施例における作業領域を示す図である。

【図３】キャッシュ可能解析について詳述したフローチ
ャートである。

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサを有するコンピュータに
おけるプロセッサ間の通信を実行する方法において、
(a) プロセッサ間の通信パターンを決定する複数のパラ
メータを抽出するステップと、(b) 前記パラメータを保
存する作業領域を作成するステップと、(c) 前記パラメ
ータを前記作業領域に格納する実行時コードを生成する
ステップと、(d) 通信パターンの履歴またはプロセッサ
間の通信のためのデータの読み書きを行うメモリアクセ
スパターンの履歴を記憶するために、前記作業領域に前
記パラメータを格納するステップと、(e) 前記実行時コ
ードが実行された場合、前記実行時コードの実行に基づ
いた前記パラメータを前記作業領域に記憶された前記パ
ラメータと比較するステップと、(f) その比較結果に応
じて、前記通信パターン又は前記メモリアクセスパター
ンを再利用して、プロセッサ間の通信を実行するステッ
プとを有することを特徴とする方法。
【請求項２】上記ステップ(a)における前記パラメータ
の抽出は、定数又はループネストを実行している間に値
が変化するかどうかを調べ、前記通信パターンがキャッ
シュ可能であるかどうかを判断することにより行うこと
を特徴とする請求項１に記載の方法。
【請求項３】上記ステップ(e)は、前記実行時コードの
実行に基づいた前記パラメータが、前記作業領域に記憶
された前記通信パターンに関する前記パラメータと一致
するかどうかを比較することを特徴とする請求項１に記
載の方法。
【請求項４】上記ステップ(e)は、前記実行時コードの
実行に基づいた前記パラメータが、前記作業領域に記憶
された前記通信パターンに関する前記パラメータと一致
するかどうかを比較するとともに、前記パラメータと一
致する場合には、さらに前記メモリアクセスパターンに
関する前記パラメータと一致するかどうかを比較するこ
とを特徴とする請求項１に記載の方法。
【請求項５】上記ステップ(a)において抽出される前記
パラメータは、プログラム中のループに関するパラメー
タ、前記ループ内の代入文中の左辺及び右辺の配列を分
割するプロセッサの個数、前記配列の各次元の大きさ、
前記配列の各次元の分割方法、前記配列参照を決定する
式にパラメータを有することを特徴とする請求１又は２
に記載の方法。
【請求項６】前記通信パターンは、一のプロセッサから
他のプロセッサへデータを受け渡しをする領域を記述し
たものであることを特徴とする請求項１に記載の方法。
【請求項７】前記メモリアクセスパターンは、前記通信
パターンに従いデータを受け渡しする際に、あるプロセ
ッサが管理するメモリ領域を記述したものであることを
特徴とする請求項１に記載の方法。
【請求項８】上記ステップ(f)は、前記作業領域に格納
された前記パラメータを用いていることを特徴とする請
求項１に記載の方法。
【請求項９】複数のプロセッサを有するコンピュータに
おけるプロセッサ間の通信を実行する方法において、
(a) プロセッサ間の通信パターンを決定する複数のパラ
メータを抽出するステップと、(b) 通信パターンの履歴
またはメモリアクセスパターンの履歴を記憶するため
に、前記パラメータを保存する作業領域を作成するステ
ップと、(c) 前記パラメータを前記作業領域に格納する
実行時コードを生成するステップとを有することを特徴
とする方法。
【請求項１０】複数のプロセッサを有するコンピュータ
におけるプロセッサ間の通信を実行する方法において、
(a) プロセッサ間の通信パターンを決定する複数のパラ
メータを、予め確保された作業領域に格納するステップ
と、(b) 実行時コードが実行された場合、前記実行時コ
ードの実行に基づいたパラメータを前記作業領域に記憶
された前記パラメータと比較するステップと、(c) その
比較結果に応じて、前記通信パターン又は前記メモリア
クセスパターンを再利用するステップとを有することを
特徴とする方法。