JPH1069469A

JPH1069469A - 並列プログラム自動生成方法

Info

Publication number: JPH1069469A
Application number: JP22639796A
Authority: JP
Inventors: Yusaku Yamamoto; 有作山本; Takeshi Naono; 健直野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-08-28
Filing date: 1996-08-28
Publication date: 1998-03-10

Abstract

(57)【要約】【課題】並列計算機向けの並列プログラムを自動生成
する。【解決手段】逐次型入力プログラムをライブラリコー
ル部分とユーザプログラム部分に分割し（処理18）、プ
ロセッサへのデータの分割方式の複数の候補のそれぞれ
について、前者の実行時間をライブラリ付属の性能予測
モデルにより推定し（処理20）、後者の実行時間をプロ
グラムの静的な解析により推定し（処理19）、その結果
に基づき最適なデータ分割方式を決定する（処理21）。
性能予測モデルとしては、ライブラリが線形計算ライブ
ラリの場合は、アルゴリズムの部品化に基づくモデルを
用いる。【効果】各データ分割方式に対するプログラムの実行
時間を精度良く予測することができ、最適なデータ分割
方式の自動決定が可能となるため、並列計算機の性能を
最大限に引き出すプログラムを自動生成できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は自動並列化コンパイ
ラによる最適なデータ分割に基ずく並列プログラム自動
生成方法に関する。

【０００２】

【従来の技術】構造解析，流体計算などの科学技術計算
では，数万次元から数百万次元に上る大規模行列を係数
行列とする連立一次方程式の求解，固有値計算などの線
形計算が必要となる。このような計算を高速に行う手段
としては，並列計算機が有力である。並列計算機は数十
個から数万個に上る多数の高速プロセッサをネットワー
クで結んだシステムであり，問題を分割して各プロセッ
サに割り当て，同時に処理を行わせることにより，１台
のプロセッサによる実行と比べて飛躍的な実行速度の向
上が可能となる。

【０００３】しかし、並列計算機ではプログラミングの
方法が従来の計算機と大きく異なり、格段に複雑になっ
ている。まず、多数のプロセッサを有効に利用するため
には、問題を適切に分割し、プロセッサに割り当てなけ
ればならない。たとえば二次元の流体計算を行う場合、
計算領域をx方向に分割すべきか、y方向に分割すべき
か、あるいは格子状に分割すべきかを、それぞれの場合
のプロセッサ間への負荷分散、通信オーバーヘッドを考
慮して決定する必要がある。次に、決定した分割に基づ
き、自プロセッサが領域内のどの部分を担当しているか
を考慮しながらプログラミングを行い、他プロセッサの
持つデータを参照する計算では、通信文を挿入する必要
がある。このような複雑さのため、並列計算機ではプロ
グラムの長さ、開発工数とも従来機の数倍程度となり、
ユーザの従来機からの移行が困難な状態にあった。

【０００４】この困難を解決するため、自動並列化コン
パイラの研究が数多く行われている（例えば進藤、岩
下他、「FLoPS：分散メモリ型並列計算機を対象とした
並列化コンパイラ」並列処理シンポジウムJSPP'95論文
集参照）。自動並列化コンパイラでは、(1) 最適なデ
ータ分割方式を決定すること、(2) 決定した分割に基づ
き、必要な通信文を挿入して並列プログラムを生成する
こと、の２点を自動化することにより、従来機用プログ
ラムから並列計算機用プログラムを自動生成することを
目指している。現在実用化されている自動並列化コンパ
イラでは、上記(1)の最適なデータ分割の決定は人手で
行い、(2)の並列プログラム生成部分のみを自動化する
方式が主流であるが、将来的には、(1)の部分について
も完全自動化を行う方向で研究が進められている。

【０００５】上記(1)の最適なデータ分割を自動化する
には、計算領域をx方向に分割した場合、y方向に分割し
た場合、格子状に分割した場合などのそれぞれについて
並列計算機上での性能を予測し、その結果に基づいて最
適な分割を決定する。したがって自動化のためには、並
列計算機上での精度の良い性能予測技術が不可欠であ
る。この予測手法として、従来は自動並列化コンパイラ
の入力となるプログラムを静的に解析して各プロセッサ
での演算時間と通信データ量を見積もり、全体の実行時
間を推定する手法が使われていた。（例えばM. Gupta &
P. Banerjee, "Demonstration of Automatic Data Par
titioning Techniques for ParallelizingCompilers on
Multicomputers", IEEE Transactions on Parallel an
d Distributed Systems, Vol. 3, No. 2, pp. 179-193
(1992) 参照）。

【０００６】

【発明が解決しようとする課題】最近の並列計算機で
は、高いピーク性能を達成するため、単体プロセッサと
してRISCプロセッサやベクトルプロセッサなど、複雑な
構造を持つプロセッサを採用する場合が多い。しかしこ
れらのプロセッサでは、プログラム実行時のキャッシュ
の状態、演算パイプラインの状態、最内側ループのルー
プ長などにより性能が大きく左右される。そのため、プ
ログラムの静的な解析に基づく従来の性能予測手法で
は、演算時間を精度良く予測することが難しい。特に、
線形計算ライブラリなどの数値計算ライブラリでは、対
象となる計算機の性能を最大限に引き出せるよう複雑な
チューニングが施されており、予測はそれだけ困難とな
る。そのため、計算時間の多くをライブラリが占めるよ
うな科学技術計算プログラムにおいては、従来法により
精度の良い性能予測を行うことは難しく、最適なデータ
分割が困難であるという問題があった。

【０００７】本発明は，ライブラリコールを含むプログ
ラムに対して新たな性能予測方法を提案することにより
この問題を解決し，自動並列化コンパイラによる最適な
データ分割を可能にする並列プログラム自動生成方法を
提供することを目的とする。

【０００８】

【課題を解決するための手段】上記目的を達成するた
め，本発明では線形計算ライブラリなどのライブラリに
対し、問題の次元数（サイズ）、実行時プロセッサ台
数、データ分割形式（方式）、分割パラメータなどを含
む並列パラメータを入力として実行時間を推定する性能
予測モデルを付属させる。そしてプログラム全体の性能
予測において、ライブラリコールによるライブラリ実行
時間の部分は、プログラムを静的に解析して演算時間を
予測するのではなく、このモデルを用いて予測する。こ
れにより、プログラム実行時のキャッシュの状態、演算
パイプラインの状態など、静的な解析ではわからない情
報を含めた予測が可能となり、性能予測の精度が向上す
る。

【０００９】さらに本発明では、対象とするライブラリ
が線形計算ライブラリである場合には、上記性能予測モ
デルとして、アルゴリズムの部品化に基づくモデルを利
用する。連立一次方程式の解法、固有値計算などの線形
計算は一般にベクトルの内積、行列の乗算などの単純な
線形計算部品のみを用いて実行できるが、これらの単純
な線形計算は、RISCプロセッサやベクトルプロセッサな
どの複雑な構造を持つプロセッサ上でも、部品の種類ご
とにほぼ一定の速度で実行できることが経験的に知られ
ている。したがって、複雑な線形計算をこれらの単純な
線形計算部品に分解して各部品ごとの演算量を上記並列
パラメータの関数として求め、かつ、対象とする計算機
上での各部品の演算性能を測定しておけば、両者の組み
合わせにより、精度の良い線形計算の性能予測モデルが
得られる。

【００１０】二次元の熱伝導計算を行うプログラムを自
動並列化する場合を例にとり、本発明により最適なデー
タ分割方式の決定が行われる様子を説明する。

【００１１】図２に入力となる計算プログラムを示す。
本プログラムの計算部分は (1) 隣接格子点との間の温
度差を計算し、それに基づき流入する熱量を計算する部
分（処理12および処理13）と、(2) 連立一次方程式を解
き、次の時間ステップでの格子点の温度を計算する部分
（処理14）とからなり、これらを交互に繰り返すことに
より平面上の温度の時間変化を計算する。ここで、(1)
の部分はユーザが書いたプログラムであり、(2)の部分
は線形計算ライブラリを用いて実行される。

【００１２】自動並列化コンパイラは、このプログラム
を読み込むと、ユーザプログラム部分とライブラリコー
ル部分に分けて実行時間の推定を行う。まず、ユーザプ
ログラム部分ではプログラムを解析して演算量を求め、
領域をx方向に分割した場合、y方向に分割した場合、x
y両方向に分割した場合のそれぞれについて、各プロセ
ッサでの演算量およびプロセッサ間での通信量から、実
行時間を推定する。一方、ライブラリコール部分では線
形計算ライブラリに付属する実行時間予測モデルに問題
の次元数、データ分割形式などの並列パラメータを入力
することにより、各分割方式での実行時間を推定する。
プログラム全体の実行時間はこの両者の和として推定
し、これが最小になるような分割方式を最適な分割方式
として採用する。

【００１３】本推定で用いる線形計算ライブラリの性能
予測モデルを図８に示す。ここで利用した連立一次方程
式の解法の場合、アルゴリズムは (1) ベクトルの内
積、(2)AXPY演算（ベクトル + 実数*ベクトル）、(3)
行列とベクトルとの積、(4) ベクトルのノルム計算、
の４種の基本的な線形計算部品を用いて実行でき、各部
品の演算量は、たとえばxy両方向への分割の場合、図６
のように問題の次元数N、実行時プロセッサ台数NPEの関
数として求められる。また、各部品の演算性能は、対象
とする計算機上での実測値より、たとえば図７のように
求められる。図８に示したモデルでは、これらの演算量
と演算性能より演算時間を推定し、ライブラリ内部での
通信時間を加えることにより、ライブラリ部分の実行時
間を推定している。また、領域をx方向に分割した場
合、y方向に分割した場合についても同様に演算量を求
め、実行時間を推定している。アルゴリズムをこのよう
な基本的な部品にまで分解することにより、各部品の性
能はほぼ一定となるため、ライブラリ部分の実行時間を
精度良く推定できる。

【００１４】以上により，本発明の方法ではプログラム
全体の性能予測の精度を従来法に比べて向上させること
ができ、より適切なデータ分割が可能となる。

【００１５】

【発明の実施の形態】以下，本発明の原理および実施例
を，図面により詳細に説明する。ここで実施例として挙
げるのは，二次元の熱伝導計算を行うプログラムを並列
計算機向けプログラムに自動変換する方法である。

【００１６】本発明の方法により得られる並列プログラ
ムを実行する並列計算機システムの全体構成を図１に示
す。本システムは領域形状、初期温度分布などのデータ
を入力するための入力装置1，それぞれがメモリ２を備
えたp台のプロセッサ３を持つ処理装置４，計算結果を
出力するための出力装置５、プログラムおよびデータを
格納するための外部記憶装置６、外部記憶装置に格納さ
れる線形計算ライブラリ７、同じく外部記憶装置に格納
されるライブラリの性能予測モデル８から構成される。
また、プログラムの自動変換を行う計算機はこの並列計
算機自体であってもよいし、別の計算機であってもよい
が、本実施例では前者であるとする。

【００１７】本実施例の逐次型入力プログラムを図２に
示す。本プログラムの計算部分は (1) ある格子点と隣
接する４個の格子点との間の温度差を計算し（処理1
2）、温度勾配よりその格子点に流入する熱量を計算す
る（処理13）部分と、(2) 現在の格子点温度と流入する
熱量とを用いて連立一次方程式を解き、次の時間ステッ
プでの格子点の温度を計算する部分（処理14）とからな
り、時間ステップ１から1000までこれらを交互に繰り返
すことにより平面上の温度の時間変化を計算する。ここ
で、(1)の部分はユーザが書いたプログラムであり、(2)
の部分は線形計算ライブラリを用いて実行される。

【００１８】本実施例におけるプログラムの自動変換処
理の手順を図３に示す。まず、入力装置１から逐次型入
力プログラム、問題のサイズ、実行時プロセッサ台数を
読み込み（処理17）、入力プログラムをユーザプログラ
ム部分とライブラリコール部分に分割する（処理18）。

【００１９】次に、プロセッサへのデータ分割の各候補
に対しユーザプログラム部分の実行時間の推定を行う
（処理19）。ここでは分割すべきデータは二次元領域上
の格子点での温度であり、分割方式としては (a) x方向
への分割、(b) y方向への分割、(c) xy 両方向への分
割、を考える。ユーザプログラム部分は、ある格子点と
隣接する４個の格子点との間の温度差を計算する部分
（処理12）と、温度勾配よりその格子点に流入する熱量
を計算する部分（処理13）とからなるが、加減乗除を単
位として計った演算量は格子点１点につき、前者が４
回、後者が１回となる。したがって、x方向及びy方向の
格子点数をそれぞれNX及びNYとすると、各プロセッサに
格子点を均等に分配した場合の各プロセッサの演算量は
分割方式によらず１ステップ当たり5*NX*NY/NPEとな
り、プロセッサの平均演算性能をS（FLOPS）とすると、
１ステップ当たりの演算時間は分割方式によらず5*NX*N
Y/NPE/Sと推定される。次に、各分割方式での通信時間
を推定する。通信が必要になるのは、上記隣接格子点と
の温度差を計算する部分において、隣接格子点が他のプ
ロセッサの担当になる場合である。したがって、１ステ
ップ当たりの通信量は自プロセッサの担当領域の境界の
格子点数と等しく、たとえば(a)のx方向への分割の場合
には2*NYとなり、１秒当たりに可能なデータ転送個数を
Wとすると、通信時間は2*NY/Wと推定される。(b)、(c)
の分割の場合も同様に通信時間が推定でき、各分割方式
に対するユーザプログラム部分の実行時間は演算時間と
通信時間の和として求められる。この結果を図４に示
す。

【００２０】次に、ライブラリをコールして連立一次方
程式を解く部分について各データ分割方式に対する実行
時間の推定を行う（処理20）。ライブラリの連立一次方
程式解法ルーチンには、問題サイズNX、NY、実行時プロ
セッサ台数NPE、領域のx方向への分割数KX、y方向への
分割数KYを入力として実行時間を推定する性能予測モデ
ルが付属しているので、推定はこれを用いて行う。

【００２１】次に、これら両部分の実行時間の和として
入力プログラム全体の実行時間を、各データ分割方式に
ついて推定し、実行時間のもっとも短い分割方式を最適
な分割方式として採用する（処理21）。分割方式が定ま
ったら、全体配列を部分配列に分割したことに伴う配列
インデックスの変換（処理22）、必要なプロセッサ間通
信文の生成（処理23）などの処理を行って並列プログラ
ムを生成し、出力装置から出力する（処理24）。

【００２２】次に、ライブラリの連立一次方程式解法ル
ーチンに付属する性能予測モデルの作成法を述べる。こ
こでは共役勾配法と呼ばれるアルゴリズム（例えば森
正武、「FORTRAN77数値計算プログラミング」、岩波書
店、1991 参照）により連立一次方程式を解く。共役勾
配法は、図５のように、 (1) ベクトルの内積、(2) AXP
Y演算（ベクトル + 実数*ベクトル）、(3) 行列とベク
トルとの積、(4) ベクトルのノルム計算、なる４種の基
本的な線形計算部品に分解すればこれらを用いて実行で
きる。各部品ごとの全演算量は、図５の演算量を部品の
種類ごとに合計することにより、図６(a)のようにな
る。このうち各プロセッサの演算量は、演算量が担当す
る格子点数に比例することに注意すると、分割方式によ
らず、図６(b)のように全演算量をNPEで割った値とな
る。演算性能については図７のように各部品ごとにプロ
セッサ上で実測値を求め、演算量と演算性能より各部品
ごとの演算時間を推定し、これをすべての部品について
合計することにより、演算時間を推定する。本推定方式
の特長は、全演算量を平均演算性能で割って実行時間を
求めるのではなく、部品ごとに実測した演算性能を用い
るため、部品の種類によってキャッシュの利用効率、演
算パイプラインの利用効率などが異なる点が考慮され、
その結果、推定の精度が向上することである。次に、各
分割方式での通信時間を推定する。通信は、(3)の行列
とベクトルとの積の計算において、境界格子点に対応す
るベクトル成分の計算で必要となる。したがって、１回
当たりの通信量は自プロセッサの担当領域の境界の格子
点数と等しく、上記ユーザプログラムの場合と同様に、
たとえば(a)のx方向への分割の場合には通信量が2*NYと
なり、１秒当たりに可能なデータ転送個数をWとする
と、通信時間は2*NY/Wと推定される。(b)、(c)の分割の
場合も同様に通信時間が推定でき、各分割方式に対する
連立一次方程式解法部分の実行時間は演算時間と通信時
間の和として求められる。これにより、ライブラリの性
能予測モデルが完成する。最終的なモデルの式を図８に
示す。

【００２３】本実施例では、ライブラリが線形計算ライ
ブラリであり、使用するライブラリルーチンが共役勾配
法による連立一次方程式の場合を例に取って説明した
が、固有値計算、最小二乗法など他の線形計算の場合に
も、アルゴリズムを基本的な線形計算部品に分解して性
能予測モデルを立てる本発明の方法を全く同様に適用で
きる。また、線形計算以外のライブラリに対しても、ラ
イブラリに性能予測モデルを付属させ、各データ分割方
式に対する実行時間の推定精度を向上させることにより
最適な分割方式を決定するという本発明の方法を全く同
様に適用できる。

【００２４】

【発明の効果】以上説明したように，本発明によれば，
線形計算ライブラリなどのライブラリコールを含むプロ
グラムの並列計算機上での性能を精度良く予測すること
ができ、最適な自動データ分割が行えるため、並列計算
機の性能を最大限に引き出す並列プログラムの自動生成
が可能となる。

【図面の簡単な説明】

【図１】本発明を適用すべき並列計算機システムの全体
構成を示す図。

【図２】逐次型入力プログラムを示す図。

【図３】本発明における逐次型入力プログラムを並列プ
ログラムへ自動変換する手順を示すフローチャート。

【図４】各データ分割方式に対するユーザプログラム部
分の実行時間推定値を示す図。

【図５】連立一次方程式を解くための共役勾配法を基本
的な線形計算部品に分解した図。

【図６】共役勾配法の各部品ごとの演算量を示す図。

【図７】共役勾配法の各部品に対する演算性能の実測値
を示す図。

【図８】共役勾配法の実行時間推定モデルを示す図。

【符号の説明】

１：入力装置，２：メモリ，３：プロセッサ，４：処理
装置，５：出力装置，６：外部記憶装置，７：線形計算
ライブラリ，８：ライブラリの性能予測モデル，９：ス
タート，10：データの入力，11：繰り返し，12：隣接格
子点との温度差計算，13：流入する熱量の計算，14：次
の時間ステップでの温度の計算，15：結果の出力，16：
終了，17：入力プログラムの読み込み，18：ユーザプロ
グラム部分とライブラリコール部分への分割，19：ユー
ザプログラム部分の実行時間推定，20：ライブラリ部分
の実行時間推定，21：データ分割の決定，22：配列イン
デックスの変換，23：通信文の生成，24：並列プログラ
ムの出力。

Claims

【特許請求の範囲】

【請求項１】ライブラリコールを含む逐次形の入力プロ
グラムから、複数台のプロセッサからなる並列計算機シ
ステム上で実行される並列プログラムを自動生成する方
法であって、（１）問題サイズ、実行時プロセッサ台
数、プロセッサへのデータ分割方式及び分割パラメータ
の少なくとも１個を含む並列パラメータに基いてライブ
ラリの実行時間を推定する性能予測モデルをライブラリ
内に設け、（２）該入力プログラムをライブラリコール
の部分とユーザプログラムの部分とに分け、（３）ユー
ザプログラムの部分に対しては、データ分割方式に関す
る複数の候補について、各分割方式を採用した場合の演
算時間と通信時間とを該入力プログラムの静的な解析に
より予測して実行時間を推定し、（４）ライブラリコー
ルの部分に対しては、ライブラリ内に設けた上記性能予
測モデルを用いて各分割方式を採用した場合のライブラ
リ実行時間を推定し、（５）各分割方式に対する両実行
時間の和が最小となる分割方式を選択し、（６）選択さ
れた分割方式にたいする並列プログラムを生成する、こ
とを特徴とする並列プログラム自動生成方法。
【請求項２】上記性能予測モデルは、上記ライブラリ中
の各線形計算のアルゴリズムをベクトルの内積、行列と
ベクトルの積、行列の乗算を含む基本的な線形計算部品
に分解して各部品ごとの演算量を上記並列パラメータの
関数として求め、これを上記並列計算機システム上で測
定した各線形計算部品の演算性能と組み合わせることに
より、上記アルゴリズムの性能予測を行う請求項１項記
載の並列プログラム自動生成方法。