JPH0830561A

JPH0830561A - プログラムの並列化実行方法及び並列化実行コンパイラ

Info

Publication number: JPH0830561A
Application number: JP6154942A
Authority: JP
Inventors: Hideaki Komatsu; 秀昭小松; Kazuaki Ishizaki; 一明石崎; Osamu Goda; 修郷田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-07-06
Filing date: 1994-07-06
Publication date: 1996-02-02
Anticipated expiration: 2012-07-23
Also published as: EP0691607A2; JP2634144B2; US5852734A

Abstract

(57)【要約】【目的】ループを複数のプロセッサに分割して並列に
実行することにより、プログラムの実行を高速化する。【構成】先ず、ソース・プログラム中の並列化の対象
となるループが見出される。次にこのループに対して、
データ依存性の解析が行われ、これによってデータ依存
性ベクタが計算される。次に、ループが実行するインデ
ックスの領域のすべての領域が分割され、複数のプロセ
ッサに割り当てられる。さらに、個々のプロセッサで、
他のプロセッサとの間のデータのやり取りの必要性が解
析される。次に、配列のインデックス空間に基づいて通
信ベクタの計算が行われ、データ依存性ベクタと通信ベ
クタとの論理積により通信依存ベクタの計算が行われ、
通信依存ベクタの値に応じてオペランドの通信形態の判
定、及びループの実行形態の判定が行われる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセッサ上に
メモリを分散してもつコンピュータにおいて、ループを
複数のプロセッサに分割して並列に実行することによ
り、プログラムの実行を高速化するための技法に関す
る。

【０００２】

【従来の技術】従来より、並列性抽出の技法は、与えら
れたプログラムの意味を保ちながら並列に実行できるた
めの先行制約を求めることによって行われている。先行
制約には、データ依存と制御依存がある。一般に、大規
模な並列性を考慮するためには、ループを解析し、その
データ依存性を解析し、その結果から並列性を抽出する
必要がある。ループを並列化する際に考慮すべきもっと
も重要なデータ依存性は以下の２つである。

【０００３】・true dependence データの生産−＞消費間の制
約・anti dependence データの消費−＞生産間の制
約

【０００４】尚、true dependenceは「フロー依存」、a
nti dependenceは「逆依存」とも呼ばれるが、以下の説
明では、true dependence、anti dependenceという用語
で統一する。

【０００５】true dependenceは、計算に必要なデータ
が前もって計算されなければならないという制約であ
り、anti dependenceは、計算に必要なデータが再計算
される前に使用されなくてはならないという制約であ
る。ループ並列性において、どちらの依存性も依存距離
という値で表現される。これは、依存のある実行の距離
をそのループ変数の値の差で表現したものである。依存
距離についてもう少し説明を補足すると、

【０００６】例えば、のループで、データ依存関係によって、(I,J) = (1,1)
を実行した後に(1,2)を実行しなければならない場合
は、(1,2) - (1,1) = (0,1)の依存距離があるという。
また、データ依存関係によって、(I,J) = (2,2)を実行
した後に(3,1)を実行しなければならない場合は、(3,1)
- (2,2) = (1,-1)の依存距離があるという。特に、(3,
1) - (2,2) = (1,-1)のように、依存距離のある要素が
負の値を持つとき、依存距離が負の値をとる、と称す
る。

【０００７】

【数３】

【０００８】このプログラムでは、A(I)を計算するため
にはA(I-1)の読み出しが必要であり、そのためには、A
(I)の計算の時点で、A(I-1)の計算が終了していなけれ
ばならない。これが、true dependenceである。

【０００９】また、A(I+1)の読み出しは、A(I+1)の計算
に先立って実行されなくてはならない。これがanti dep
endenceであり、その依存距離もやはり１である。これ
らの依存性を分析することによって、ループは、以下の
２つの並列性に大別される。

【００１０】・do all ・do across

【００１１】do all型のループとは、ループの繰り返し
間にまたがったデータ依存がないループ、即ち、true d
ependenceと、anti dependenceのどちらにも依存しない
ループであり、並列に実行することができる。do all型
のループの例を示すと以下のとおりである。

【００１２】

【数４】

【００１３】一方、do across型のループは、true depe
ndenceか、anti dependenceのどちらかもしくは両方と
も存在するループ、即ち、ループの繰り返し間にまたが
ったデータ依存があるループであり、何等かの最適化を
施さないと単純には並列化できないものである。

【００１４】do across型のループのインデックス空間
を変形することによって依存性をなくすような最適化技
法（uni-modula変換に代表されるようなループ変換）が
従来より知られており、これは、メモリを共有するマル
チ・プロセッサには有効な手法である。しかし、このよ
うな並列化の手法は、メモリを共有しない分散型のマル
チ・プロセッサ・システムでは、インデックス空間の変
形に合わせて、個々のプロセッサが所有する配列を再分
配しなくてはならない。分散型のマルチ・プロセッサ・
システムでは、この種の処理は非常にコストがかかって
しまうので、場合によっては並列化によるメリットを打
ち消してしまうことがある。というのは、メモリを共有
しない分散型のマルチ・プロセッサでは、個々のプロセ
ッサが所有する配列を再分配するということは、プロセ
ッサ間通信を行なって個々のプロセッサが必要な配列要
素を、他のプロセッサから受けとることを意味するから
である。メモリを共有しない分散型のマルチ・プロセッ
サでは、個々のプロセッサが持つ配列のアクセス時間に
比べて、プロセッサ間通信による時間は非常に大きなペ
ナルティになる。

【００１５】一方、分散型マルチ・プロセッサのための
do acrossループの最適化手段として、以下の２つがあ
る。・パイプライン法・プリフェッチ法

【００１６】プリフェッチ法は、anti dependenceの依
存性に対して、ループの実行に必要となるすべてのデー
タを予め送受信しておくことによって、データの依存性
を回避するものである。これによって、anti dependenc
eのあるプログラムを並列に実行できる。

【００１７】パイプライン法は、true dependenceの依
存性に対して、必要となるデータの計算終了の後に、必
要とするプロセッサに通信を送り、受信プロセッサは、
このメッセージの到着によって処理を開始する方法であ
る。

【００１８】パイプライン法のメリットは、（１）処理がパイプライン化されるため、メッセージを
受信したプロセッサは、次の処理を開始することができ
る。（２）多重ループにおけるパイプライン実行では、直接
依存関係がないプロセッサは、並列に実行が可能とな
る。

【００１９】

【数５】

【００２０】プログラム例３では、２つのオペランドA
(I-1,J),A(I,J-1)のそれぞれにtruedependenceが存在す
る。さらに実行を終えたプロセッサは別の処理を行うと
いうパイプライン並列性も存在する。尚、この例で、
「*HPF$ PROCESSORS P(10,10)」というステートメント
は、プロセッサを10x10の２次元に配置し、そのプロセ
ッサ配置にPという名前を付けることを意味する。ま
た、「*HPF$ DISTRIBUTE A(BLOCK,BLOCK) onto P」とい
うステートメントは、すでに宣言されているAという配
列を、１次元方向、２次元方向、それぞれ格子状に分割
し、Pというプロセッサに配置（この場合は10x10のプロ
セッサ・メッシュ）することを意味する。

【００２１】尚、ループを複数のプロセッサに分割して
並列に実行することにより、プログラムの実行を高速化
するための技法に関するものとして次のような刊行物が
ある。

【００２２】特開昭６１−１８２１６１号公報は、複数
のＣＰＵと、複数のメモリとを基本構成要素とするマル
チプロセッサ計算機システムにおいて、各プロセッサを
ループ状に結合したストリーム・バスと、各プロセッサ
内部に設けられ、ストリーム・バスに対して一定方向に
メッセージを逆受する手段を有し、メッセージを上記各
プロセッサに送りながら、１つの処理を進めることを開
示する。

【００２３】特開平４−１８４５４０号公報は、複数の
並列実行可能なプロセッサからなる並列計算機システム
に対して、与えられたソース・プログラムからオブジェ
クト・プログラムを生成するコンパイラにおいて、上記
ソース・プログラムを字句に分解して解析し、該解析結
果に基づき構文を認識し中間コードを生成し、その中間
コードからループ構造を検出して並列実行可能部分を抽
出し、該ループが多重ループである場合に、各ループに
関してデータ参照関係を解析し、ループ間でデータ参照
関係の生じないループに関して並列実行処理を行うこと
を開示する。

【００２４】特開平５−１５８８９５号公報は、複数の
計算機が結合された並列計算機システムにおいて、ルー
プ間に値の参照を含む依存関係を有するループ計算機に
おける複数の連続ループ計算を分担し、依存関係により
他の計算機で必要とするデータを該他の計算機に通信す
ることを開示する。

【００２５】その他にも、"A Loop Transformation The
ory and an Algorithm to MaximizeParalleism", IEEE
Transactions on Parallel and Distrubited System Vo
l.2No.4 Oct. 1991 などがある。

【００２６】従来の方法は、プログラムのデータ依存の
みによって並列性を抽出しており、この手法は、対象と
するマルチ・プロセッサの構成を限定しない汎用なもの
である。しかし、この方法によって得られる並列実行可
能性は、分散メモリをもつマルチ・プロセッサにおける
並列実行可能性と等価ではない。すなわち、データ依存
のみを考慮した並列性では、すべてのオペランドがデー
タ依存性をもたない場合しか並列実行可能でない。一
方、分散メモリをもつマルチ・プロセッサでは、データ
のプリフェッチやパイプライン実行などの技法を利用す
ると、より大きな並列性を引き出すことが可能になる。
分散型マルチ・プロセッサにおける並列実行可能性は、
ループ中に含まれる各オペランドのデータ依存性によっ
て決定される。具体的には、以下の４種類のオペランド
によって構成されたループは並列実行が可能である。

【００２７】（１）データ依存がないオペランド（２）データ依存がプロセッサ間（分割されたメモリ
間）に依存しないオペランド（３）プロセッサ間にまたがるanti dependenceのみが
存在するオペランド（４）プロセッサ間にまたがるtrue dependence vector
のみが存在し、実際にプロセッサ間をよぎる次元のtrue
dependence vectorの要素が負の依存距離をもたないオ
ペランド

【００２８】（１）の場合は通常のdo all型のループで
あり、分散メモリ型のマルチ・プロセッサ・システムに
おいても、当然並列実行可能である。（２）の場合、データの依存性は同一のプロセッサ内で
閉じているため、プロセッサ内で依存性を保てば、各プ
ロセッサは並列実行が可能となる。

【００２９】ループ内に依存するすべてのデータ依存性
において、その依存距離が負の値をとらなければ、その
ループは、full permutable loopであると呼ばれ、どの
ループ・ネストの順番も自由に交換することが可能であ
る。このようなループ中のオペランドは、データ依存距
離が正の値しかとらないため、true dependenceをもっ
たオペランドに対しては、パイプライン法を適用でき
る。

【００３０】分散型マルチ・プロセッサに対しては、
（３）や（４）のようなより拡張した定義が可能とな
る。例えば、（３）では、ループ中のあるオペランドが
anti dependenceをもつ場合、プリフェッチ法を適用す
ることが可能となる。

【００３１】

【発明が解決しようとする課題】この発明の目的は、マ
ルチプロセッサ環境において、プログラムにおいて従来
技術では並列化できないようなanti dependenceまたはt
rue dependenceをもつループに対しても並列化を可能な
らしめる、コンパイラにおける拡張された並列化技法を
提供することにある。

【００３２】この発明の他の目的は、anti dependence
またはtrue dependenceをもつループに対して、パイプ
ライン法またはプリフェッチ法を効果的に適用する技法
を提供することにある。

【００３３】

【課題を解決するための手段】本発明では、これらの分
散マルチ・プロセッサにおける並列性を抽出するため
に、データ依存性を拡張した、プロセッサ間のデータ依
存性を表現する通信依存性（communication dependenc
e）を導入し、以下の目的を同時に達成する。

【００３４】（１）各オペランドの最適な通信方法を検
出する。（２）最大の並列実行可能なループを検出する。

【００３５】本発明の技法は、主として、以下の５つの
フェーズにより構成される。

【００３６】・対象ループ設定部ここでは、ソース・プログラム中の並列化の対象となる
ループが見出される。・データ依存性解析部ここでは、対象ループ設定部で決定されたループに対し
て、データ依存性の解析が行われ、これによってデータ
依存性ベクタが計算される。・イタレーション空間分割部ここでは、ループが実行するインデックスの領域のすべ
ての領域が分割される。・通信解析部ここでは、個々のプロセッサで、他のプロセッサとの間
のデータのやり取りの必要性が解析される。・通信依存性解析部ここでは、通信ベクタの計算、通信依存ベクタの計算、
オペランドの通信形態の判定、及びループの実行形態の
判定、という本発明の骨子となる処理が行われる。

【００３７】

【実施例】以下、図面を参照して本発明について説明す
る。Ａ．ハードウェア構成本発明を実施するためには、互いにデータをやり取りす
るように相互接続された複数のプロセッサからなる、マ
ルチプロセッサ・システムが必要である。大別すると、
マルチプロセッサ・システムには、図１に示す分散メモ
リ型マルチプロセッサ・システムと、図２に示す共有メ
モリ型マルチプロセッサ・システムとがある。

【００３８】図１を参照すると、分散メモリ型マルチプ
ロセッサ・システムは、複数のＣＰＵ１０２、１０４、
１０６・・・に、ローカル・バス１２２、１２４、１２
６・・・を介して、それぞれ個別にメモリ１１２、１１
４、１１６・・・が接続され、さらに各々のローカル・
バス１２２、１２４、１２６・・・は、個別の通信装置
１３２、１３４、１３６・・・及びディジタル・ネット
ワークを介して互いに接続されているようなシステムで
ある。

【００３９】ディジタル・ネットワークは、典型的には
ＬＡＮであるけれども、ＩＳＤＮ回線を通じてＷＡＮ
（広域ネットワーク）として構成されたものでもよい。
従って、分散メモリ型マルチプロセッサ・システムにお
いては、互いに相互接続し得るＣＰＵの個数は、実質的
に無制限であり、このため、好適に分散処理のプログラ
ムを形成することにより、巨大な配列の行列計算などを
処理することも可能となる。

【００４０】但し、分散メモリ型マルチプロセッサ・シ
ステムでは、ＬＡＮまたはＷＡＮなどの通信回線を介し
てＣＰＵ間のデータのやり取りが行われるため、この通
信のための処理コストが負担になる可能性がある。

【００４１】図２を参照すると、共有メモリ型マルチプ
ロセッサ・システムの典型的な構成が示されている。共
有メモリ型マルチプロセッサ・システムにおいては、複
数のＣＰＵ２０２、２０４、２０６・・・が、ローカル
・バス２１０を介して互いに接続され、また、ローカル
・バス２１０は、共有メモリ２２０に接続されている。
共有メモリ２２０の領域は、例えば個別のＣＰＵによっ
て占有される排他的な領域と、複数のＣＰＵによって共
通にアクセスされる共通の領域とを含む。

【００４２】共有メモリ型マルチプロセッサ・システム
の利点は、ＣＰＵが互いにローカル・バスで相互接続さ
れているため、ＣＰＵ間の通信コストが少なくて済むこ
とである。しかし、ある限定された筐体に複数のＣＰＵ
をパッケージする必要があるためと、共有バスに対する
複数ＣＰＵによるアクセスを調停する必要性とから、共
有メモリ型マルチプロセッサ・システムにおいて接続可
能なＣＰＵの個数は自ずと制限がある。

【００４３】本発明は、分散メモリ型マルチプロセッサ
・システムや共有メモリ型マルチプロセッサ・システム
などのＣＰＵの接続形態に限定されることなく、複数の
ＣＰＵが互いに通信可能に構成された任意のシステムに
適用可能である。

【００４４】Ｂ．処理部本発明は、１つの実施例では、並列処理を行うためのコ
ードを生成し得るＦＯＲＴＲＡＮコンパイラの機能の一
部として実現される。コンパイラにおいて本発明に関連
する処理を行う処理部は、大きく分けると、図３に示す
ように、対象ループ設定部３０２、データ依存性解析部
３０４、イタレーション空間分割部３０６、通信解析部
３０８、及び通信依存性解析部３１０からなる。以下、
これらについて詳細に説明する。

【００４５】（１）対象ループ設定部３０２ここでは、最大の並列性を抽出し、且つ、データのプリ
フェッチをループの最も外側で可能とするために、プロ
グラムにおける最も外側のループから最適化の対象とす
る。これにより設定されたループに含まれているオペラ
ンドの個々に通信依存性を求めることによって、それら
が必要とする通信形態が判断できる。また、個々の通信
形態によってループ全体の並列性を検出することも可能
となる。もし、ループが並列に実行できない場合には、
対象とするループを１レベル縮小して解析を実行してい
く。これによって最大の並列性が抽出される。

【００４６】また、並列に実行できない場合でも、すべ
てのオペランドのうちプリフェッチ可能なオペランド
は、そのループのネスト・レベルでプリフェッチ通信が
可能であるため、ここにその通信を生成し、より小さな
レベルの検出の対象から除外する。これによって、・通信するデータをループの並列性よりも大きな単位で
ベクトル化できる。・同じデータを複数回通信することを避けられる。・内側のループのデータ依存性を減らすことによってよ
り並列性が向上する。・内部ループでテストすべきオペランドが減るため、処
理が高速になる。というメリットを実現できる。実際のテストを行うのが
以下の４つのフェーズである。

【００４７】尚、対象ループとしては、一般的にＦＯＲ
ＴＲＡＮのDOで記述されるループに限定される訳ではな
く、ＦＯＲＴＲＡＮ９０におけるアレイ表現や、SPREA
D、CSHIFTなどの組み込み変換関数（ＴＩＦ）も含む。
なぜなら、特願平５−２９６２６９号明細書に記載され
ているように、ＦＯＲＴＲＡＮ９０におけるアレイ表現
やＴＩＦは、DOループに展開可能だからである。ＦＯＲ
ＴＲＡＮ９０自体のより詳しい仕様については、Jeanne
C. Adams et al. "FORTRAN90 HANDBOOK Complete ANS
I/ISO Reference", McGraw Hill Inc.などに記載されて
いる。

【００４８】（２）データ依存性解析部３０４これは、（１）の対象ループ設定部によって決定された
ループに対して、通常のデータ依存性の解析を行うもの
である。その結果として、データ依存性ベクタ（data d
ependence vector）を生成する。data dependence vect
orは、true dependenceと、anti dependenceによるiter
ation間の依存の方向を、+/-/0であらわしたものであ
り、特に、true dependenceに関するものを、true depe
ndence vector、anti dependenceに関するものを、anti
dependence vectorと呼ぶ。

【００４９】

【数６】

【００５０】プログラム例４では、A(I+1,J)に対してan
ti(0,1)、A(I,J-1)に対して、true(1,0)というデータ依
存性ベクタを検出できる。データ依存性ベクタは、配列
のインデックスの次元の順序でなく、ループ・インデク
ックスの次元で表記されるため、配列Ａの１次元目のイ
ンデックスＩに対する依存性は、データ依存性ベクタの
２次元目の値として表記されている。

【００５１】（３）イタレーション空間分割部３０６ループを並列に実行するためには、ループの実行するイ
ンデックスのすべての領域（イタレーション空間）を分
割する必要がある。この手法として、"owner computes
rule"と呼ばれるイタレーション空間分割方法が知られ
ており、本発明の実施例もこの手法を使用する。尚、"o
wner computes rule"の詳細は、A. Rogers and K. Ping
ali. Process Decomposition through locality of ref
erence.In Proceedings of the SIGPLAN '89 Conferenc
e on Program Language Designand Implementation, Ju
ne 1989 に記述されている。これは、要するに、ルー
プのイタレーション空間を代入文の左辺のデータの分割
方法にあわせて行う方法である。これによって必ずしも
最適な解が得られる訳ではないが、かなりよい結果を期
待できる。尚、本発明は、イタレーション空間分割方法
として、"owner computes rule"を使用することを必須
の要件としている訳ではなく、その他の任意の適当なイ
タレーション空間分割方法を使用することが可能であ
る。

【００５２】このようにしてイタレーション空間分割が
達成され、各々のＣＰＵに分割されたインデックスの領
域がそれぞれ割り当てられると、図１の構成では、特定
のＣＰＵ（例えばＣＰＵ１０２とする）に割り当てられ
たインデックスをもつ配列変数は、メモリ１１２に配置
されることになる。一方、図２の構成では、特定のＣＰ
Ｕ（例えばＣＰＵ２０２とする）に割り当てられたイン
デックスをもつ配列変数は、共有メモリ２２０におけ
る、ＣＰＵ２０２に割り当てられた領域に配置されるこ
とになる。

【００５３】上記例３に対して、この"owner computes
rule"を適用すると、配列Ａは１次元のみに４プロセッ
サに分割されているので、配列Ａの１次元目のインデッ
クス変数であるＩのとり得る範囲は次のように分割され
る。

【数７】 Processor1 = 2..25 Processor2 = 26..50 Processor3 = 51..75 Processor4 = 76..99

【００５４】（４）通信解析部３０８通信解析部は、各プロセッサが並列に実行できるように
分割されたイタレーション空間を実行するために、どの
データを読み込む必要があるかを解析し、自分の持ち分
と比較し、通信しなければならないデータの領域を決め
るものである。通信するデータは、配列のインデックス
で表現された情報である。

【００５５】プログラム例４では、１つ目の右辺のオペ
ランドが１次元方向に１ずれた領域を後ろのプロセッサ
から読み込みをする必要がある。また、２つ目の右辺の
オペランドに対しては、２次元方向に１ずれているけれ
ども、配列Ａは、２次元方向には分割されていないた
め、通信は必要ない。

【００５６】（５）通信依存性解析部３１０通信依存性解析部では、以下の４つの手順で処理を行
う。・通信ベクタの計算・通信依存ベクタの計算・オペランドの通信形態の判定・ループの実行形態の判定

【００５７】（通信ベクタの計算）通信解析部の結果で
ある、各プロセッサの通信の情報から、通信ベクタ（co
mmunication vector)を生成する。これは、プロセッサ
間の通信の有無を、ループ・ネスト毎に、1/0で示した
ベクタである。通信ベクタの求め方は、以下のとおりで
ある。先ず、通信するデータは、配列のインデックスで
表現された情報であり、通信ベクタは、ループ・インデ
ックス空間における通信の発生を求めたものであり、配
列のインデックス式と通信情報から、計算可能である。

【００５８】例えば、上記例４のプログラムでは、１つ
目の右辺のオペランドの通信は、ループ・インデックス
Ｉが変化することによって発生し、ループ・インデック
スＪの変化に対しては発生しない。また、ループ・イン
デックスＩは、ループ・ネストにおける２次元に対応し
ている。そこで、A(I-1,J)に対してcomm(0,1)という通
信ベクタが計算できる。また、A(I,J+1)に対しては全く
通信が必要ないため、通信ベクタは、comm(0,0)とな
る。

【００５９】（通信依存ベクタの計算）次に、（２）の
データ依存解析部で得られた、データ依存性ベクタであ
る、true dependence vectorと、anti dependence vect
orから、通信依存性ベクタを生成する。通信依存性ベク
タは、true communication dependence vectorと、anti
communication dependence vectorの２つであり、それ
ぞれ、true dependencevectorと、anti dependence vec
torに対して、communication vectorで論理積をとるこ
とによって計算される。

【数８】 true communication dependence vector = true dependence vector & communication vector anti communication dependence vector = anti dependence vector & communication vector

【００６０】この論理積 & の真理値表は、以下のよう
になっている。

【数９】 + & 1 = + + & 0 = 0 0 & 1 = 0 0 & 0 = 0 - & 1 = - - & 0 = 0

【００６１】この論理積演算は、通常の論理積演算と少
し異なるので、説明を補足すると、通信依存ベクタは、
配列の次元ごとの通信の有り／無しを１／０で示す。通
信依存ベクタの計算の論理積の意味は、通信依存ベクタ
の値が1であるループネスト次元についてはデータ依存
性ベクタの値をそのまま用いて、０であるループネスト
の次元については０にする。データ依存性ベクタの各次
元の要素は、既に依存距離に関して説明したように、正
の値／０／負の値をとる。従って、ここでは、各次元の
要素の符号が意味を持つので、＋／０／−と表記されて
いる。

【００６２】例４のプログラムでは、１つ目のオペラン
ドA(I+1,J)に対して、データ依存性ベクタ anti(0,1) 通信ベクタ comm(0,1) よって、通信依存性ベクタ anti_comm(0,1) 同様にして２つ目のオペランドA(I,J-1)に対して、データ依存性ベクタ true(0,1) 通信ベクタ comm(0,0) よって、通信依存性ベクタ true_comm(0,0) のように、通信依存性ベクタが計算される。

【００６３】（オペランド通信形態の判定）このように
して計算されたデータより、各オペランドがどのように
通信されるのが最適であるのかを判定する。基本的な通
信形態は、以下の４種類である。・no communication 通信なし・prefetch communication 実行前にプリフェッチ可能・pipeline communication パイプライン実行のトリガ
として使用・synchrnous communication １要素ずつループの実行
に併せて通信各オペランドの通信を決定する論理は以下のようにな
る。

【００６４】

【数１０】 if communication vector = 0 then "no communication" else if true dependence = 0 & anti dependence = 0 then "prefetch communication" else if true dependence = 0 & anti dependence <> 0 then "prefetch communication" else if true dependence <> 0 & anti dependence = 0 & true communication dependenceが負の値をもっていない then "pipeline communication" else "synchronous communication"

【００６５】（ループ実行方式の決定）ループの実行は以下の３種類に分類される。・DO PARALLEL 並列実行可能ループ・DO PIPELINE パイプライン実行可能ルー
プ・DO SYNCHRONOUS 並列化不可能ループ

【００６６】ループ内のすべてのオペランドが"no comm
unication"か"prefetch communication"に分類されたな
ら、そのループは並列実行が可能である。

【００６７】ループ内のすべてのオペランドが"no comm
unication"か"prefetch communication"か１つ以上の"p
ipeline communication"を含んでいる場合には、そのル
ープはパイプライン実行可能である。すべてのパイプラ
イン実行可能オペランドのtrue communication depende
nce vecotorの論理和をとることによって、パイプライ
ン実行を行うすべてのループ・インデックスを求めるこ
とが可能である。ここで論理和をとる理由について説明
すると、true communication dependence vectorがルー
プ内に存在する場合、パイプライン通信が可能になる。
このとき、ループの実行前後で発生するパイプライン通
信を行なう次元方向を決定する必要があるので、ループ
の中に存在する全てのtrue communication dependence
vectorの論理和をとって、パイプライン通信が必要な次
元を求めるのである。

【００６８】ループ内のオペランドの１つでも"synchro
nous communication"を含んでいる場合には、並列化が
不可能である。

【００６９】一般的なループにおいて本発明を適用する
と、最内ループでは、ほとんど並列実行が可能となる。
なぜなら、最内ループは当然１次元ループであり、１次
元ループにおけるデータ依存の依存距離は必ず正の値を
とるからである。

【００７０】Ｃ．処理手順次に図４を参照して、ソース・プログラムを並列化する
処理について説明する。先ず、ステップ４０４では、ソ
ース・プログラムが入力される。この実施例では、ＦＯ
ＲＴＲＡＮのプログラムを想定している。

【００７１】次に、ステップ４０４では、図３の対象ル
ープ設定部の働きによって、並列化対象ループ設定処理
が行われる。

【００７２】並列化対象ループが設定されると、ステッ
プ４０６では、図３のイタレーション空間分割部３０６
によって、各プロセッサの計算領域が解析され、続いて
ステップ４０８では、通信解析部３０８の処理によって
各プロセッサの通信領域の解析が行われ、この結果を以
てステップ４１０では、通信依存性解析部３１０で通信
ベクタが計算される。

【００７３】一方、ステップ４０６とは独立に、ステッ
プ４１２では、設定された並列化対象ループに基づき、
データ依存性解析部３０４によって、ループ間のデータ
依存性の解析が行われる。この結果に基づき、ステップ
４１４では、データ依存性ベクタが計算される。

【００７４】次に、ステップ４１６では、ステップ４１
０で計算された通信ベクタと、ステップ４１８で計算さ
れたデータ依存性ベクタとから、通信依存性の解析が行
われる。具体的には、ステップ４１６では、通信ベクタ
とデータ依存性ベクタとの間の論理積が計算され、こう
して、ステップ４１８では、通信依存性ベクタが得られ
る。

【００７５】ステップ４２０では、このようにして計算
された通信依存性ベクタに基づき並列実行ループ及び通
信の決定が行われる。

【００７６】ステップ４２２では、ステップ４２０での
判定結果に基づき、すべてのオペランドが並列実行かど
うかのチェックが行われ、もしそうなら、ステップ４３
０で、並列実行ループを設定するコードを生成する。

【００７７】ステップ４２２での判断が否定的なら、ス
テップ４２４で、多重ネスト・ループかどうかの判断が
行われる。もしそうなら、プリフェッチ可能なオペラン
ドを対象ループから外す。この処理は、すなわち、プリ
フェッチ可能なオペランドにつき、ループの外に、その
オペランドをプリフェッチ通信する処理を指定するコー
ドを挿入することを意味する。この処理については、下
記のプログラム例５に関してより詳細に説明される。

【００７８】ステップ４２８の後は、ステップ４０４に
戻り、多重ネスト・ループの１つ内側のループについ
て、ステップ４０６以下及びステップ４１２以下の処理
がそれぞれ適用される。

【００７９】ステップ４２４に戻って、多重ネスト・ル
ープでない場合は、ステップ４２６で、逐次実行ループ
を指定するコードが生成される。

【００８０】Ｄ．具体的な例以下、本発明を用いた、プログラムからの並列性の抽出
方法を具体例によって示す。

【数１１】

【００８１】プログラム例５は、ＳＯＲ法（差分法）に
よって、偏微分方程式を解くためのコードの一部であ
る。一般的なプログラムは、前後左右との差分を求めて
いくが、このプログラムは、斜め方向のセルを対象とす
る、複雑なデータ依存をもったものである。実行するプ
ロセッサは１０台で、配列Ａを２次元方向に分割してい
る。

【００８２】先ず、対象ループとして、全体としての並
列性の抽出を行う。この場合の対象ループは、(TIME,J,
I)の３重ループに対して並列性抽出の処理を行う。

【００８３】各オペランドのデータ依存性は、

【数１２】 A(I-1,J-1) true(+, 1, 1) anti(+,-1,-1) A(I-1,J+1) true(+, 1,-1) anti(+,-1, 1) A(I+1,J-1) true(+,-1, 1) anti(+, 1,-1) A(I+1,J+1) true(+,-1,-1) anti(+, 1, 1) となる。

【００８４】次に、通信ベクタを求める。

【数１３】 A(I-1,J-1) comm(0,1,0) A(I-1,J+1) comm(0,1,0) A(I+1,J-1) comm(0,1,0) A(I+1,J+1) comm(0,1,0) となる。

【００８５】これにより、通信依存ベクタは、以下のよ
うになる。

【数１４】 A(I-1,J-1) true_comm(0,1,0) anti_comm(0,-1,0) A(I-1,J+1) true_comm(0,1,0) anti_comm(0,-1,0) A(I+1,J-1) true_comm(0,-1,0) anti_comm(0,1,0) A(I+1,J+1) true_comm(0,-1,0) anti_comm(0,1,0)

【００８６】これにより、４つのオペランドのどれ
も、"synchronous communication"に分類されるため、
このループは、"do synchronous"に分類される。さら
に、どのオペランドもプリフェッチ可能でないため、こ
のネスト・レベルでは、プリフェッチ通信ができず、さ
らに、ネストを１段小さくした解析の対象として、オペ
ランドのどれも外すことはできない。

【００８７】次に、内側の２重ループ(I,J)に対して、
並列性抽出を行う。この場合、データ依存性ベクタは以
下のようになる。

【数１５】 A(I-1,J-1) true(1,1) A(I-1,J+1) true(1,-1) A(I+1,J-1) anti(1,-1) A(I+1,J+1) anti(1,1)

【００８８】さらに、通信ベクタは、以下のようにな
る。

【数１６】 A(I-1,J-1) comm(1,0) A(I-1,J+1) comm(1,0) A(I+1,J-1) comm(1,0) A(I+1,J+1) comm(1,0)

【００８９】これにより、通信依存ベクタは、

【数１７】 A(I-1,J-1) true_comm(1,0) A(I-1,J+1) true_comm(1,0) A(I+1,J-1) anti_comm(1,0) A(I+1,J+1) anti_comm(1,0)

【００９０】となり、これらの結果より、個々のオペラ
ンドの通信形態を決定する。

【数１８】

【００９１】この２つのオペランドは、パイプライン通
信が可能なオペランドである。

【数１９】

【００９２】この２つのオペランドはプリフェッチが可
能なオペランドであることから、ループ全体はパイプラ
イン実行が可能であることが分かる。また、このパイプ
ライン通信可能な２つのオペランドのtrue communicati
on dependence vectorの論理和｜をとると、

【数２０】 true_comm(1,0) | true_comm(1,0) --> true_comm(1,0)

【００９３】となり、Ｊループのみで、パイプラインす
ればよいことが分かる。これにより、次のように分散型
マルチ・プロセッサ用に並列化されたコードを生成する
ことが可能となる。

【数２１】

【００９４】但し、この式で、ProcIDは、個々のプロセ
ッサ番号を示すものであり、個々のプロセッサにおい
て、LB(ProcID)及びUB(ProcID)は、以下の表に従い、イ
ンデックスの値に置換される。

【表１】

【００９５】このプログラムは、１０個のプロセッサ全
てを並列に実行させることが可能である。

【００９６】尚、上記マルチ・プロセッサ用に並列化さ
れたコードにおいて、 A(I+1,J-1)と、A(I+1,J+1)をプリフェッチ通信 A(I-1,J-1)と、A(I-1,J+1)をパイプライン受信 A(I-1,J-1)と、A(I-1,J+1)をパイプライン送信の部分のインデックスの範囲は、記述を省略しているけ
れども、Iは、2と99の間の値である。また、Jについて
は、表１に示すように、個別のプロセッサに応じて実行
するインデックスが異なることに留意されたい。

【００９７】プリフェッチ通信と記述されている処理
は、それぞれ１つのプロセッサが、２重ループ内の処理
をプリフェッチ不要に行うために、他のプロセッサか
ら、２重ループの外で、予め必要なインデックスに関連
する配列データを通信しておくことを指定するものであ
る。

【００９８】パイプライン受信と記述されている処理
は、１つのプロセッサが、パイプライン処理を行うた
め、パイプラインの列の１つ前のプロセッサから必要な
インデックスに関連する配列データを受信しておくため
の処理である。

【００９９】パイプライン送信と記述されている処理
は、１つのプロセッサが、処理を完了した後、パイプラ
インの列の１つ後のプロセッサに、必要なインデックス
に関連する配列データを送信し、１つ後のプロセッサに
処理を渡すための処理である。これによって、処理を完
了したプロセッサは、別の処理に進むことが可能とな
る。

【０１００】

【発明の効果】従来の方法では、データ依存による先行
制約のみによって並列性を抽出していたのに対し、本発
明では、それに加えて、分散メモリ環境における通信を
考慮した、通信依存性に着目し、これを有効に活用する
ことで、・各オペランドの最適な通信方法を検出する。・最大の並列実行可能なループを抽出する。の２つを同時に達成することが可能となった。

【０１０１】尚、上記実施例では、ユーザーがデータの
分割を指定しているため、データ依存ベクタ、通信ベク
タ、通信依存ベクタの順で計算を行うことによって並列
性を抽出する例を説明したが、・データ依存ベクタ・並列化可能通信依存ベクタ・通信ベクタ・プロセッサ分割の順で計算することによって、並列性を最大にするよう
な自動データ分割の機能を提供することも可能である。

【０１０２】この場合には、先ずデータ依存ベクタを求
め、並列に実行できない原因となっている次元を検出
し、これをマスクすることによって、並列化可能通信依
存ベクタを生成する。さらに、このマスク情報は通信ベ
クタになる。

【０１０３】この際に、対象となるプログラムが、パイ
プライン化によって、十分プロセッサの並列化を引き出
せるかを検討する必要がある。これは、対象とするルー
プの実行後にパイプライン実行可能ループか、並列実行
可能ループに到達するかによって、テストできる。

【０１０４】さらに、決定した通信ベクタと配列のイン
デックス式により、プロセッサ分割を計算することが可
能である。この方式でも、上記実施例と同様に、対象ル
ープを外側から内側に向かって並列化可能になるまで繰
り返すことによって、最大の並列性を抽出することがで
きる。

【０１０５】また、上記実施例では、ＨＰＦ（ＦＯＲＴ
ＲＡＮ９０をベースとする並列処理言語）に基づき説明
を行ったが、本発明はこのような特定のプログラミング
言語に限定されるものではなく、ＡＰＬ、Ｃ＊（Ｃをベ
ースとする並列言語）などの、マルチプロセッサ環境に
おける並列処理をサポートする任意の言語処理系に適用
可能である。

【図面の簡単な説明】

【図１】分散メモリ型マルチプロセッサの構成を示す
ブロック図である。

【図２】共有メモリ型マルチプロセッサの構成を示す
ブロック図である。

【図３】本発明の処理部のブロック図である。

【図４】本発明の処理の手順を示すフローチャートの
図である。

フロントページの続き (72)発明者石崎一明神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者郷田修神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサをもつコンピュータにお
いて、ソース・プログラムにおけるループを複数のプロ
セッサに分割して並列に実行させることにより、プログ
ラムの実行を高速化するための方法であって、(a) ソー
ス・プログラムを読み込む段階と、(b) 上記ソース・プ
ログラムにおいて、並列化すべきループを設定する段階
と、(c) 上記設定されたループに関して、true depende
nce及びanti dependenceを示すデータ依存性ベクタを決
定する段階と、(d) 上記ループのイタレーション空間を
分割して、上記複数のプロセッサに割り当てる段階と、
(e) 上記複数のプロセッサに割り当てられた各々のイタ
レーション空間において、並列処理のため他のプロセッ
サからデータを読み込む必要がある部分を決定する段階
と、(f) 上記イタレーション空間において他のプロセッ
サからデータを読み込む必要があると決定された領域に
関する情報に基づき、通信ベクタを計算する段階と、
(g) 上記データ依存性ベクタと上記通信ベクタに基づ
き、通信依存性ベクタを計算する段階と、(h) 上記通信
依存性ベクタの値に基づき、通信形態を判定する段階
と、(i) 上記判定された通信形態に基づき、各オペラン
ド間の通信方法を検出することによって、通信方法及び
ループ実行方法を指定するコードを生成する段階を有す
る、プログラムの並列化実行方法。
【請求項２】上記ループがネストしたループである場合
に、上記段階(e)乃至(i)を、外側のループから内側のル
ープに順次適用する段階を有する、請求項１に記載のプ
ログラムの並列化実行方法。
【請求項３】上記ネストしたループにおいて、プリフェ
ッチ可能なループが見出だされたことに応答して、該プ
リフェッチ可能なオペランドを対象ループから外し、上
記ネストしたループの外側に、該プリフェッチ可能なオ
ペランドをプリフェッチすることを指定するコードを挿
入する段階を有する、請求項２に記載のプログラムの並
列化実行方法。
【請求項４】上記通信方法は、プリフェッチ通信、パイ
プライン送信、パイプライン受信のうちのどれかであ
る、請求項１に記載のプログラムの並列化実行方法。
【請求項５】上記ループ実行方法は、並列実行、パイプ
ライン実行、並列化不可能実行のうちのどれかである、
請求項１に記載のプログラムの並列化実行方法。
【請求項６】上記ソース・プログラムは、使用するプロ
セッサの個数と、ループ中の配列を該プロセッサに割り
当てるステートメントを含むものである、請求項１に記
載のプログラムの並列化実行方法。
【請求項７】上記データ依存性ベクタと上記通信ベクタ
に基づき、通信依存性ベクタを計算する段階は、上記デ
ータ依存性ベクタと上記通信ベクタとの論理積を計算す
る段階を有する、請求項１に記載のプログラムの並列化
実行方法。
【請求項８】上記論理積は、データ依存性ベクタの成分
が取り得る値を+,-,0、通信ベクタの成分が取り得る値
を1,0としたとき、【数１】 + & 1 = + + & 0 = 0 0 & 1 = 0 0 & 0 = 0 - & 1 = - - & 0 = 0 の真理値表で示される規則に従い計算される、請求項７
に記載のプログラムの並列化実行方法。
【請求項９】複数のプロセッサをもつコンピュータにお
いて、ソース・プログラムにおけるループを複数のプロ
セッサに分割して並列に実行させることにより、プログ
ラムの実行を高速化する処理部を含むコンパイラであっ
て、(a) ソース・プログラムを読み込む手段と、(b) 上
記ソース・プログラムにおいて、並列化すべきループを
設定する手段と、(c) 上記設定されたループに関して、
true dependence及びanti dependenceを示すデータ依存
性ベクタを決定する手段と、(d) 上記ループのイタレー
ション空間を分割して、上記複数のプロセッサに割り当
てる手段と、(e) 上記複数のプロセッサに割り当てられ
た各々のイタレーション空間において、並列処理のため
他のプロセッサからデータを読み込む必要がある部分を
決定する手段と、(f) 上記イタレーション空間において
他のプロセッサからデータを読み込む必要があると決定
された領域に関する情報に基づき、通信ベクタを計算す
る手段と、(g) 上記データ依存性ベクタと上記通信ベク
タに基づき、通信依存性ベクタを計算する手段と、(h)
上記通信依存性ベクタの値に基づき、通信形態を判定す
る手段と、(i) 上記判定された通信形態に基づき、各オ
ペランド間の通信方法を検出することによって、通信方
法及びループ実行方法を指定するコードを生成する手段
を具備する、コンパイラ。
【請求項１０】上記ループがネストしたループである場
合に、上記段階(e)乃至(i)を、外側のループから内側の
ループに順次適用する段階を有する、請求項９に記載の
コンパイラ。
【請求項１１】上記通信方法は、プリフェッチ通信、パ
イプライン送信、パイプライン受信のうちのどれかであ
る、請求項９に記載のコンパイラ。
【請求項１２】上記ループ実行方法は、並列実行、パイ
プライン実行、並列化不可能実行のうちのどれかであ
る、請求項９に記載のコンパイラ。
【請求項１３】上記データ依存性ベクタと上記通信ベク
タに基づき、通信依存性ベクタを計算する段階は、上記
データ依存性ベクタと上記通信ベクタとの論理積を計算
する段階を有する、請求項９に記載のコンパイラ。
【請求項１４】上記論理積は、データ依存性ベクタの成
分が取り得る値を+,-,0、通信ベクタの成分が取り得る
値を1,0としたとき、【数２】 + & 1 = + + & 0 = 0 0 & 1 = 0 0 & 0 = 0 - & 1 = - - & 0 = 0 の真理値表で示される規則に従い計算される、請求項１
３に記載のコンパイラ。
【請求項１５】上記ソース・プログラムは、使用するプ
ロセッサの個数と、ループ中の配列を該プロセッサに割
り当てるステートメントを含むものである、請求項９に
記載のコンパイラ。
【請求項１６】上記ソース・プログラムは、ＦＯＲＴＲ
ＡＮのコードである、請求項１５に記載のコンパイラ。
【請求項１７】上記ソース・プログラムは、ＦＯＲＴＲ
ＡＮ９０のコードである、請求項１６に記載のコンパイ
ラ。
【請求項１８】上記並列化すべきループを設定する手段
は、ソース・プログラム中のアレイ表現及びＴＩＦをル
ープとして設定する手段を有する、請求項１７に記載の
コンパイラ。