JP2001175617A

JP2001175617A - コンパイラ並列化方法

Info

Publication number: JP2001175617A
Application number: JP35851699A
Authority: JP
Inventors: Yoshikazu Matsubara; 義和松原; Shinichi Ito; 信一伊藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-12-17
Filing date: 1999-12-17
Publication date: 2001-06-29

Abstract

(57)【要約】【課題】並列化コンパイラが、ソースプログラム中に現
れるリダクション式を含むループを、リダクション並列
化する際、その終値計算部分の目的コードの時間的な実
行効率は配慮されていなかった。【解決手段】従来は並列化されていなかった終値計算部
分を並列化することにより、効率的に並列実行が可能な
目的コードを生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マルチプロセッサ
システムに係り、特に高級言語で記述されたソースプロ
グラムを、マルチプロセッサ上で効率的に実行させる目
的コードを生成するためのコンパイラ技術に関する。

【０００２】

【従来の技術】従来、特開平5−12033号に記載のよう
に、ループ内部に定義が存在する変数または配列の各々
に対して、総和型の演算の条件、あるいは、最大値・最
小値型の演算の条件を満たす等のリダクション式を含む
ループに対して、並列実行可能なマルチプロセッサ向け
の目的コードを生成するコンパイル方法に、そのループ
を、各プロセッサで並列に実行させる「並列化部分」
と、その各プロセッサの計算結果を用いて、元のループ
に対する最終的な結果を計算する「終値計算部分」に分
割することにより行うものがある。

【０００３】ここで、一般に、リダクション式として認
識される計算パターンは、例えば、"X=X .op e"におい
て、.opは可換演算子（＋,×,min,max 等）であり、X
は、このパターン以外にループ内で参照されない変数
（リダクション変数）である。

【０００４】

【発明が解決しようとする課題】上記、従来例は、並列
化変換対象であるループの、並列化部分を並列に実行す
る目的コードを生成するものであり、その終値計算部分
は逐次的に実行される目的コードとして生成されること
から、後者の部分の目的コードの時間的な実行効率は配
慮されていなかった。

【０００５】本発明が解決しようとする課題は、その終
値計算部分においても時間的な実行効率の高い目的コー
ドを生成する手法を提供することである。

【０００６】

【課題を解決するための手段】複数のリダクション式を
含むループに対して従来のリダクション並列化が適用さ
れた場合、その終値計算部分には、それぞれのリダクシ
ョン式に対応した終値計算式が生成される。

【０００７】本発明では、上記課題を解決するために、
その終値計算部分の各リダクション式に対応した終値計
算式を、それぞれ異なったプロセッサ上で実行させるこ
とにより、終値計算部分を並列に実行する目的コードを
生成する。これにより、生成された目的コードの時間的
な実行効率を向上させる。

【０００８】

【発明の実施の形態】以下、発明の実施例について図面
を参照しつつ説明する。

【０００９】図１にコンパイラの構成図を示す。（１
２）は、FORTRAN等の逐次型の高級言語で記述されたソ
ースプログラム（１１）を入力して、マルチプロセッサ
上で実行可能な目的コード（１９）を生成する並列化コ
ンパイラである。並列化の判定および変換は並列化変換
部（１３）で実施する。並列化変換部（１３）では、プ
ログラム中のループを認識し、それらの各ループに対し
て並列化が可能かどうかの判定を行い、並列化可能と判
定した場合はループを並列実行できるように変換する。
並列化変換部に、リダクション並列化を行うリダクショ
ン変換部（１４）が含まれる。

【００１０】リダクション変換部（１４）は、リダクシ
ョン検出部（１５）、リダクションループ変換部（１
６）、および、終値計算部分の並列化変換部（１７）か
ら構成される。リダクション検出部においてループから
リダクション式を検出し、リダクションループ変換部
（１６）において、検出したリダクション式を元に、当
該ループから、並列計算部分と終値計算部分を生成す
る。ここまでは、従来の技術であり、詳細は、特開平5-
12033号証を参照されたい。その後、終値計算部分の並
列化変換部（１７）により、終値計算部分を並列化す
る。終値計算部分の並列化変換部（１７）が本発明の提
供する装置が特に備える部分であり、目的コード（１
９）の時間的な実行効率を向上させる。

【００１１】図２は、終値計算部分の並列化変換部（１
７）における処理手順を表すフローチャートである。ま
ず、リダクションループ変換部（１６）により生成され
た終値計算式について、その演算量を見積もり、終値計
算部分の実行で利用可能なプロセッサの数を調べる（ス
テップ２１）。次に、各終値計算式を、利用可能なプロ
セッサに対応付ける処理を行う。この対応付けにより、
あるプロセッサに対応付けられた終値計算式について
は、そのプロセッサ上で実行されるコードが後のステッ
プで生成されることになる。対応付けは、各プロセッサ
について、そのプロセッサが対応付いているすべての終
値計算式の演算量の和が、均一になるように行う（ステ
ップ２２）。これは、例えば、以下アルゴリズムのよう
に、各終値計算式について、その演算量の大きいものか
ら順に、プロセッサへの対応付けを行う。

【００１２】<アルゴリズム>各終値計算式について、そ
の演算量の大きいものから順にS1、S2、....、Sh、プロ
セッサがn個あるとしてそれらをP1、P2、...、Pn とす
る。またプロセッサPiに対応付け済みの終値計算式の演
算量の総和を保持する変数をΣi とする。

【００１３】(a)kの初期値を1、各Σi (1<=i<=n)の初期
値は0とする。

【００１４】(b)Σj=min{Σi|1<=i<=n} なるjを一つ選
び終値計算式SkをプロセッサPｊに割り付け、ΣjにSk
の演算量を加える。

【００１５】(c)k=K+1 とし、k<h+1 なら(b)、(c)を再
び実行する。

【００１６】その後、各プロセッサごとに、対応付けら
れた終値計算式を実行する目的コードを生成する。

【００１７】以下では、図３のサンプルプログラム中の
ループ（３１）を用いて、終値計算部分の並列化変換部
（１７）の具体的な動作について説明する。なお、ここ
では、利用できるプロセッサが３個のマルチプロセッサ
向けの目的コードを生成することを仮定し、その変換過
程を説明する。

【００１８】終値計算部分の並列化変換部（１７）が動
作する前に、リダクション検出部（１５）、と、リダク
ションループ変換部（１６）により処理を行なう。ま
ず、リダクション検出部（１５）がループ（３１）から
リダクション式を検出する。

【００１９】ループ（３１）においては、演算子+,max,
minがそれぞれ可換演算子であるので、ループ（３１）
内の”su1=...”,”ma1=...”,”mi1=...”,”su2
=...”,”ma2=...”,”mi2=...”なる６個の式を、リダ
クション式として検出する。次に、上記のリダクション
式を元に、リダクションループ変換部（１６）がループ
（３１）に対する並列処理部分と終値計算式部分の作成
を行う。ここでは、対象となるマルチプロセッサのプロ
セッサ数を３と仮定しているので、図４に示す（４１）
（４２）（４３）なる３個の並列実行可能なループと、
（４４）の終値計算部分を生成する。なお、図４におい
ては、変換前のループ中の変数”name”が、プロセッサ
番号ｎのプロセッサについてローカルな変数に置き換え
られた場合に、”$(n)name”という変数名を使用してい
る。例えば、（４１）の変数”$(1)su1”は、（３１）
の変数”su1”をプロセッサ１についてローカルな変数
に置き換えたものである。また、図４において、”barr
ier”は、同期命令を表す。それは、（４１）（４２）
（４３）を割り当てたプロセッサについて、それらのプ
ロセッサのすべてが、この”barrier”を実行した後で
なければ、（４４）の終値計算部分を実行できないこと
を指示している。

【００２０】この後、（４４）の終値計算部分に対し
て、終値計算部分の並列化変換部（１７）が終値計算部
分の並列化変換を図２のフローチャートに基づいて実施
する。

【００２１】ループ（３１）の場合には、（４４）から
６個の終値計算式を検出し、また、利用可能なプロセッ
サ数は、前記のすべてのプロセッサ数である３とする
（ステップ２１）。ここで、６個の終値計算式の演算量
がすべて等しいと仮定し、（ステップ２２）によって３
つのプロセッサのそれぞれに、２個づつの終値計算式を
対応付ける。

【００２２】次に、（ステップ２２）の対応付けに従っ
て、各プロセッサごとのコードを生成する（ステップ２
３）。ループ（３１）の場合には、３つのプロセッサの
それぞれに、２個づつの終値計算式を対応付けているの
で、図５に示す、（５１）（５２）（５３）なる３つの
各プロセッサごとのコードを生成する。

【００２３】以上のように、（４４）の終値計算部分
を、図５に示す３個のプロセッサで並列実行可能なコー
ドに変換した。

【００２４】また、リダクション式を含むループを並列
化する際に出現した終値計算部分を並列化する場合を例
にとったが、一般にループを並列化する際に出現する種
々の終値計算部分にも本発明を同様に利用可能である。

【００２５】最後に、本実施例における並列化コンパイ
ル方法は、コンパイル・プログラムとしてプログラム格
納媒体（１０）に格納しておいてもよい。

【００２６】

【発明の効果】本発明を用いた並列化コンパイラは、ソ
ースプログラム中に現れるリダクション式を含むループ
を、リダクション並列化する際、従来は並列化されてい
なかった終値計算部分を並列化することにより、効率的
に並列実行可能な目的コードを生成する。そのように生
成された目的コードは、マルチプロセッサ上でより高速
に実行することが可能である。

【図面の簡単な説明】

【図１】本発明に係るコンパイラの構成図である。

【図２】終値計算部分の並列化変換における動作フロー
図である。

【図３】FORTRAN言語で記述されたループを示す図であ
る。

【図４】図３のループから生成された、並列処理部分
と、終値計算式部分を示す図である。

【図５】図４の終値計算部分を並列化した後のコードを
示す図である。

【符号の説明】

１０…プログラム格納媒体、１１…ソースプログラム、
１２…コンパイラ、１３…並列化変換部、１４…リダク
ション変換部、１５…リダクション検出部、１６…リダ
クションループ変換部、１７…終値計算部分の並列化変
換部、１８…目的コード生成部、１９…目的コード、３
１…変換対象のループ、４１…並列処理部分のループ、
４２…並列処理部分のループ、４３…並列処理部分のル
ープ、４４…終値計算部分、５１…並列化後の終値計算
部分、５２…並列化後の終値計算部分、５３…並列化後
の終値計算部分。

Claims

【特許請求の範囲】

【請求項１】マルチプロセッサ向けのコンパイラにお
いて、ループを変換して複数のプロセッサ上で実行する
目的コードを生成する際、その終値計算部分を並列に実
行する目的コードを生成することを特徴とするコンパイ
ル方法。
【請求項２】請求項１で述べた機能を実現するプログ
ラムを格納した記録媒体。