JPH08185325A

JPH08185325A - コンパイラにおけるコード生成方法及びコンパイラ

Info

Publication number: JPH08185325A
Application number: JP6311764A
Authority: JP
Inventors: Takeshi Ogasawara; 武史小笠原; Hideaki Komatsu; 秀昭小松
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-12-15
Filing date: 1994-12-15
Publication date: 1996-07-16
Anticipated expiration: 2012-10-29
Also published as: JP2669603B2; US6016397A

Abstract

(57)【要約】【目的】インデックスセットが分配可能、という条
件は満たすが、代入文右辺のデータ依存が１つに決めら
れる、という条件は満たさないような特性をもつループ
を並列化すること。【構成】 do i=M, N a(i) = a(x) enddo は、xがコンパイル時に決定されない変数なので、従来
技術では並列化できない。そこで、M, Nとxの大小関係
に応じて、xも含めてi=M..Nというインデックスセット
を複数のプロセッサに分配し、これによって、ループの
前に定義された値を使用するプロセッサセットと、ルー
プの後で定義された値を使用するプロセッサセットとを
計算し、ループの前後にこれらのプロセッサに対する通
信を行わせるコードを挿入することにより、ループ内で
はプロセッサ間の通信を行う必要がないようにし、以っ
て実行プログラムの速度を向上させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、プログラムにおけるル
ープを複数のプロセッサに分割して並列に実行させるた
めのデータ並列言語用のコンパイラにおける並列化技法
に関するものである。

【０００２】

【従来の技術】近年、巨大な配列を使用する、より実際
的な数値計算プログラムの開発において、データ並列言
語およびそのコンパイラによる開発が中心になりつつあ
る。データ並列言語では、そうした巨大な配列は複数の
プロセッサに分割されて所有される。データ並列プログ
ラムはＳＰＭＤ (Single Program Multiple Data)コー
ドにコンパイルされる。ＳＰＭＤコードとは、１つのコ
ードを複数のプロセッサ上で実行させるために生成され
たコードである。プロセッサの台数が増えてくると、そ
れぞれのプロセッサ用にコードを生成するのは現実的で
はないため、ＳＰＭＤコードが主流になっている。本発
明はデータ配列言語のコンパイラ上の技術である。

【０００３】さて、一般にデータ並列言語用のコンパイ
ラは、ループ実行に必要なデータをループ実行の前に各
プロセッサに読み込ませ（通信外挿）、最少の通信や同
期でループを実行させるという、ループ並列化の課題を
持つ。ループ並列化を行なうにはこうした通信の外挿が
必要であるが、そのためには各プロセッサが読み込むデ
ータをどのプロセッサが所有し、それら所有プロセッサ
がどの時点で定義した値を読み込むのかを解析し、その
データ依存を維持するように通信するコードを生成する
ことが重要になる。

【０００４】ＳＰＭＤコードにおいて、式の評価をどの
プロセッサで行なうかについては、コード生成の容易さ
から「書き込み者計算」という方針が主流である。この
方針では、プログラムの各文について右辺式の評価をす
るプロセッサを、左辺を持つプロセッサ（左辺がない文
であれば全プロセッサ）に決める。したがって、文を実
行するプロセッサが実行に必要だが自プロセッサが所有
しない配列を右辺の評価前に通信して読み込むコード
を、コンパイラが生成する必要がある。

【０００５】データ並列言語で記述される主要なアプリ
ケーションの１つ、科学計算のプログラムでは、計算時
間のほとんどの部分がループ実行によって費やされる。
またループの本体はほとんどが代入文であり、代入文に
登場するオペランドは、ほとんどが左辺、右辺、共に配
列である。このような配列をオペランドとして持つ代入
文のループを、並列に実行するコードを生成すること
が、データ並列言語コンパイラが行なう主要なコード最
適化である。

【０００６】ループのインデックス変数のとる値の集合
をインデックスセットと呼ぶ。ループを並列に実行する
コードでは、このインデックスセットは分割されてそれ
ぞれが別々のプロセッサに割り当てられる（インデック
スセットの分配という）。分配方針は、各プロセッサが
自分の分割されたインデックスセットでループを実行す
る限り代入文の左辺は自分が所有するように、分配する
ことである。ループを並列に実行するためには、まず第
１にこのインデックスセットの分配が可能であることが
必要である。

【０００７】インデックスセットの分配が可能でない例
として、次のループがある。

【数１】 do i=1,10 a(b(i))= ... enddo

【０００８】ここで、b(i)は、aとは別の配列である。
このような場合、i=1..10に対してb(i)がどのような値
をとるかはコンパイル時に決まらないので、コンパイラ
は、インデックスセットを複数のプロセッサに分配する
ことができない。

【０００９】ループを並列に実行できるための第２の条
件は、ループ本体の代入文の右辺について発生する通信
を、すべてループの外側で行なえることである。仮にイ
ンデックスセットの分配が行なえても、通信をすべてル
ープの外側で行なえなくては、ループの並列化ができな
い。通信をすべてループの外側で行なうコードをコンパ
イラが生成するためには、ループ実行中に読む右辺の配
列領域のデータ依存がループ実行時に解析できる必要が
ある。すなわち、各プロセッサについて、分配されたイ
ンデックスセットで読む右辺の配列領域のどの部分を持
つか持たないか解析し、持たない領域を読む場合、その
領域に対してどのプロセッサからどの文で定義した後の
値を通信で読み込んでくるか、ということがループ実行
前に決定される必要がある。プロセッサと文の組どうし
の生産者と消費者のこうしたデータ依存関係が１つに決
まれば、コンパイラはループの外で通信を行なうコード
を生成できる。

【００１０】データ依存関係が１つに決まらない例とし
ては、次のようなループがある。

【数２】 do i=5,10 a(i)= .. a(m) .. enddo

【００１１】この例では、ある繰り返しにおける代入分
a(i)= .. a(m) ..で使用するa(m)の値がループでの定義
後の値か、定義前の値か、コンパイラが判断することが
できない。こういう場合は、データ依存関係が１つに決
まらないので、「複数のデータ依存を持つ」と呼ばれ
る。

【００１２】以上まとめると、コンパイル時に (1) インデックスセットが分配可能かどうかが決まる (2) 代入文右辺のデータ依存が１つに決められるの２つの条件を満たせば、ループを並列実行するコード
が生成できる。簡単のためそれぞれを以下、コンパイル
時に要求される、条件(1)、条件(2)と呼ぶ。

【００１３】ところで、ループを複数のプロセッサに分
割して並列に実行することにより、プログラムの実行を
高速化するための技法に関するものとして次のような刊
行物がある。

【００１４】特開昭６１−１８２１６１号公報は、複数
のＣＰＵと、複数のメモリとを基本構成要素とするマル
チプロセッサ計算機システムにおいて、各プロセッサを
ループ状に結合したストリーム・バスと、各プロセッサ
内部に設けられ、ストリーム・バスに対して一定方向に
メッセージを逆受する手段を有し、メッセージを上記各
プロセッサに送りながら、１つの処理を進めることを開
示する。

【００１５】特開平４−１８４５４０号公報は、複数の
並列実行可能なプロセッサからなる並列計算機システム
に対して、与えられたソース・プログラムからオブジェ
クト・プログラムを生成するコンパイラにおいて、上記
ソース・プログラムを字句に分解して解析し、該解析結
果に基づき構文を認識し中間コードを生成し、その中間
コードからループ構造を検出して並列実行可能部分を抽
出し、該ループが多重ループである場合に、各ループに
関してデータ参照関係を解析し、ループ間でデータ参照
関係の生じないループに関して並列実行処理を行うこと
を開示する。

【００１６】特開平５−１５８８９５号公報は、複数の
計算機が結合された並列計算機システムにおいて、ルー
プ間に値の参照を含む依存関係を有するループ計算機に
おける複数の連続ループ計算を分担し、依存関係により
他の計算機で必要とするデータを該他の計算機に通信す
ることを開示する。

【００１７】特開平５−３２４３４５号公報は、データ
を分割しても相互に演算上の影響がないループ計算を並
列計算機の各セルに分割して処理させる場合の、ソース
プログラムのループ文の添字を分割する方法に関し、ル
ープ文で計算する複数個のデータを、並列計算機の各セ
ルに、予め、全てのデータを分配するか、または細切に
して分配するかのデータ分配形式を決め、各セルが分担
するループ演算を指示する添字文をループ文の分割形式
と、データ分配形式に対応して生成しておき、ソース・
プログラムから並列処理するループ文を選択し、該選択
されたループ文の前に、データの分配形式に合わせてル
ープ文の分割形式を指定する記述子を付加することによ
って、ソースプログラムを中間プログラムに変換すると
き、その記述子に応じて、添字文を選択するようにする
ことを開示する。

【００１８】しかし、上記刊行物に記載された技術も含
め、従来技術では、上記(1)と(2)の２つの条件の両方を
満たさないとループを並列実行できない。換言すると、
従来技術では、ループ実行本体である代入文の右辺の配
列参照が、複数のデータ依存を持つとコンパイル時に判
明した場合、各プロセッサにとってその読み込む配列の
値を定義するプロセッサが１つに特定できないため、通
信外挿を行なうコードが生成できなかった。

【００１９】例えば、次のようなループをもつプログラ
ムについて考慮する。

【数３】 subroutine sub(a,n,m) integer a(n) *hpf$ distribute a(block(n/number_of_processors())) do i=1,n a(i)=a(m) enddo end

【００２０】これは、ループを含む処理のサブルーチン
がHigh Performace Fortranの構文に従い記述されてい
るソース・コードの例であって、*hpf$で始まる３行目
は、「配列aをブロック状に現在のプロセッサ（number_
of_processors()個）に分割する」ということを意味す
る。便宜上、number_of_processors()をnp()と略記す
る。すると、１つ１つのプロセッサが持つ配列要素の個
数は、n/np()で、これをneとする。この場合、分配され
るインデックスセット{1,2,...,n}は、プロセッサpに対
して{(p-1)*ne+1,(p-1)*ne+2,...,min(n,p*ne)}とな
る。ne=n/np()やnはコンパイル時には定数ではないが、
可能と分かる点で条件(1)を満たす。また、このループ
は複数のデータ依存を持つため、条件(2)を満たさな
い。

【００２１】実際、従来技術によれば、以下に述べるよ
うに、上記(1)は満たすが(2)は満たさないようなループ
に対して、処理の速度低下を生じてしまうようなコード
が生成される。

【００２２】先ず、条件(1)、(2)を同時に満たせない、
並列化されないループに対するＳＰＭＤコードについて
説明すると、それは次のようなものである。そもそも、
条件(1)を満たさないループについては、インデックス
セットは分配されない。そのためＳＰＭＤコードを実行
する全プロセッサは、何もしなければ、そのループ実行
によって自分の所有しない配列領域に書き込む代入文を
実行する可能性がある。コンパイラはそれを防ぐため
に、「プロセッサガード」と呼ぶIF文で代入文を囲み、
自分が所有しない配列要素への書き込みならば代入文を
実行しないようなコードを生成する。

【００２３】また、条件(2)を満たさないループについ
ても、インデックスセットは分配されない。その理由
は、インデックスセットを分配するということは、各プ
ロセッサが互いに干渉なく別々のインデックスセットで
ループを実行することだが、そうした場合、あるプロセ
ッサでループ実行中に右辺が必要になったことをその所
有者プロセッサが知ることができない、つまり送ること
ができないからである。さらにいえば、所有者プロセッ
サは、送る値がプログラム実行中のどの時点での値かも
分からない。インデックスセットが分配されない場合の
ＳＰＭＤコードは前述の通りである。

【００２４】以上、条件(1)を満たさない場合も、条件
(2)を満たさない場合も、分配されないインデックスセ
ットを使用したＳＰＭＤコードが生成されることを述べ
た。

【００２５】一方、条件(1)を満たさない場合、各プロ
セッサがループ実行を通じて右辺でアクセスする配列領
域も分からない。そのため、ループの外でまとめて読み
込むことができないので、ループの中で通信するＳＰＭ
Ｄコードが生成される。具体的に元の各代入文の i 番
目の右辺を読み込む疑似ＳＰＭＤコードは、LHSを左辺
オペランド、RHSiをi番目の右辺、#Tを一時変数として

【数４】

【００２６】代入文の右辺式を評価する際には、RHSiの
代わりに#Tを使う。

【００２７】条件(2)を満たさない場合も、複数のデー
タ依存を持つ右辺の読み込みについて、同様なＳＰＭＤ
コードが生成される。

【００２８】このような、インデックスセットが分配さ
れない、ループ中で通信が発生するＳＰＭＤコードが生
成されるループを、DOSYNCループと呼ぶ。ここで示した
ようなオペランドを通信の送受信によって読むコード
は、CPUがメモリから読むコードに比べ非常に遅い。理
由は、第１に、通信によるオペランドのフェッチでは、
不平等な負荷などによる送信側プロセッサの実行の受信
側プロセッサの実行に対する遅れがあった場合、受信側
プロセッサが待たされることがあるからである。第２に
は、通信ライブラリの実行オーバヘッドがあるからであ
る。特に分散メモリ型のマルチプロセッサの場合、送信
データが受信されるまでの時間が長いこともこれに加わ
る。こうしたことから、通信によるオペランドの読み込
みがループ中にあると、ループの実行時間は遅い通信時
間に支配される。結論として、並列性を持つがコンパイ
ラの能力上、DOSYNCループの扱いを受けるループがある
と、そのプログラムの実行速度をそのループが決定し
て、遅くしてしまう。

【００２９】

【発明が解決しようとする課題】この発明の目的は、
(1) インデックスセットが分配可能、という条件は満た
すが、(2) 代入文右辺のデータ依存が１つに決められ
る、という条件は満たさないような特性をもつループを
並列化して高速で処理することを可能ならしめるコード
を生成するための技法を提供することにある。

【００３０】

【課題を解決するための手段】上記目的は、本発明に従
い、最内ループパイプライン化によって、実行時に一意
に決まったデータ依存に基づいて、データの読み込みを
ループ前で行なうことによって達成される。

【００３１】ループ並列化の際、従来技術では、静的な
データ依存関係に基づいて、ループの外でまとめて通信
するコードをコンパイラが生成する。そのため、データ
依存の複数の可能性があるといった、条件(2)を満たさ
ない要因があると、条件(1)が満たされていてもそのル
ープをコンパイラは並列化できない。そうした並列化さ
れないループの中には、ループ不変な変数を配列の添字
として持つ場合が含まれる。

【００３２】しかしその一方で、条件(2)を満たさない
理由が、添字に登場するループ不変な変数だけであれ
ば、実行時にはその変数は定数と同じように扱えるた
め、実行時にデータ依存は１つに決まる。したがって実
行時に決まるプロセッサ間にまたがるデータ依存の種類
をコンパイル時にすべて知ることができ、そのいずれの
データ依存に対しても送信者と受信者を保証する通信コ
ードをループの外に生成できれば、通信によるデータ読
み込みをループの外に出せる。したがってループを並列
に実行できる。この最適化は、条件(1),(2)で示した並
列化対象ループの範囲を広げる。本発明はこうした考え
に基づいて、実行時に１つに決まるデータ依存にもとづ
いてループを並列化するコードを生成する。ここで１次
元配列、１重ループ、１右辺オペランド、という基本的
な場合を標準ループとし、データ依存が複数あるループ
と、それらのどこに並列性があるのかを説明する。標準
ループは簡単であるが本発明の新規性をすべて説明でき
る例である。

【数５】

【００３３】ここで、配列aはa(1)からa(MAX)まで宣言
され、M, N, xは整数の変数である。また配列aはブロッ
ク状にPn台の１次元プロセッサ配列に順に分配されてい
るとする（各プロセッサne=MAX/Pn要素ずつ所有）。つ
まりプロセッサ pはa(1+(p-1)*ne)からa(ne+(p-1)*ne)
までを連続して所有する。

【００３４】標準ループのループは、2.2.の条件(1)を
満たす。すなわちインデックスセットは分配でき、プロ
セッサ p はインデックスセットi=1+(p-1)*ne:ne+(p-1)
*ne:1（1+(p-1)*neからne+(p-1)*neまで1とび）でルー
プを実行する（a:b:dのような記法は、開始がaで、dず
つ増分してbまで達するインデックスセットのこのであ
る）。しかし条件(2)は満たさない。なぜなら、プロセ
ッサ p は右辺 a(x)を必要とするが、読む値が a(x) の
所有者プロセッサのループの代入文S1実行前の値か、S1
実行後の値かが分からないからである。以下では具体的
に x と M, N の関係によって２通りに変化するデータ
依存と並列性を述べる。ここで重要なのは、実行時には
２通りのどちらかに決まり、静的なデータ依存として扱
えるということである。

【００３５】(a) x が M より小さいか N より大きい場
合 x が M より小さいか N より大きい値であった場
合、a(x)はこのループでは定義されない、つまり代入文
S1で使用されるa(x)の値はどのプロセッサもループ実行
前の値である。

【００３６】実行時にループ実行前に、a(x)の所有者プ
ロセッサはそれ以外のプロセッサにa(x)を送信し、それ
以外のプロセッサは送信された値を受信する。そこで一
度同期された後は、プロセッサは互いに独立に分配され
たインデックスセットでループを実行できる。

【００３７】(b) x が M 以上 N 以下の場合 x が M <= x <= N であった場合、a(x)はこのループで
再定義される。代入文S1で使用されるa(x)の値は、イン
デックスセットの1:x:1の部分では、ループ実行前のa
(x)の値、インデックスセットx+1:M:1の部分では、ルー
プ実行後のa(x)の値である。これを前述の分配されたイ
ンデックスセットで考えると、プロセッサ１からプロセ
ッサ1+(x-1)/ne（a(x)の所有者プロセッサ）までがルー
プ実行前のa(x)の値、プロセッサ2+(x-1)/neからプロセ
ッサpまでがループ実行後のa(x)の値を、代入文S1のa
(x)の値として使用する。実行時にループ実行前に、a
(x)の所有者プロセッサはプロセッサ１から(x-1)/neにa
(x)を送信し、プロセッサ１から(x-1)/neは送信されたa
(x)を受信する。この通信同期の後は、プロセッサ１か
ら1+(x-1)/neは互いに独立に分配されたインデックスセ
ットでループを実行できる。そしてループ実行後に、a
(x)の所有者プロセッサはプロセッサ2+(x-1)/neからpに
a(x)を送信し、プロセッサ2+(x-1)/neからpは送信され
たa(x)の値を受信する。この通信同期の後は、プロセッ
サ2+(x-1)/neからpは互いに独立に分配されたインデッ
クスセットでループを実行できる。

【００３８】上述したように、コンパイル時に条件(1)
を満たし、実行時に条件(2)を満たすループは並列性を
持つため、コードを工夫することによってループ並列化
できる可能性を持つ。本発明は、コンパイル時に条件
(1)を満たし、実行時に条件(2)を満たすループを見つ
け、可能性のあるデータ依存の場合を網羅した通信を行
なうコードを生成するコンパイラ最適化技術である。よ
り具体的には、前述の標準ループに対する並列性の場合
分けで行なったように、複数のデータ依存の原因となる
配列添字内のループ不変変数やインデックス変数の上
限、下限をパラメータとして、パイプライン実行を行な
うコードを構成し、パイプライン実行によってループ並
列化を行なう。これを「最内ループのパイプライン化」
と呼ぶ。

【００３９】これによって・通信をループ外に出すことによる通信回数減少・通信外挿によるループ内通信同期削除・分割されたインデックスセットによる代入のガード不
要が行なえた。

【００４０】この効果は、標準ループを例にとると、ル
ープ並列化されないループではループの中でa(x)の通信
が(N-M+1)回行なわれたのに対し、本発明による改善後
では、ループの外で通信が１回だけ行なわれる、という
ことで見て取れる。通信の種類は、ループ並列化されな
いループの場合は、a(x)の所有者プロセッサから左辺a
(i)の所有者プロセッサへの１対１通信、本発明による
改善後のループでは、a(x)の所有者プロセッサから左辺
の代入を行なうすべてのプロセッサへの１対多通信であ
る。この効果は、次のようにまとめられる。

【表１】

【００４１】ループ内で必要な同期は、MAX, M, N, Pn
に関わらず必要なくなる。前述のようにループの中で行
なわれる通信による同期はループ実行を非常に遅くする
ため、同期が全くなくなることは非常に大きな高速化を
もたらす。また通信回数も減少する。a(x)を所有せず代
入を行なうプロセッサの数は、MAX, M, N,Pnに依存する
が、だいたい並列化前より並列化後で約1/ne（１プロセ
ッサに分散される配列要素数の逆数）になり、通信ライ
ブラリのオーバヘッドを約1/neにできる。

【００４２】仮にMAX=10000, M=1, N=10000だったとす
ると標準ループのループは配列全体に対する代入とな
る。また、Pn=2000台とするとこのループ実行による代
入は2000台のプロセッサすべてが参加する。すると上記
の表の具体的な数値は次のようになる。本発明の効果が
非常に高いことが分かる。

【表２】

【００４３】

【実施例】以下、図面を参照して本発明について説明す
る。Ａ．ハードウェア構成本発明を実施するためには、互いにデータをやり取りす
るように相互接続された複数のプロセッサからなる、マ
ルチプロセッサ・システムが必要である。大別すると、
マルチプロセッサ・システムには、図１に示す分散メモ
リ型マルチプロセッサ・システムと、図２に示す共有メ
モリ型マルチプロセッサ・システムとがある。

【００４４】図１を参照すると、分散メモリ型マルチプ
ロセッサ・システムは、複数のＣＰＵ１０２、１０４、
１０６・・・に、ローカル・バス１２２、１２４、１２
６・・・を介して、それぞれ個別にメモリ１１２、１１
４、１１６・・・が接続され、さらに各々のローカル・
バス１２２、１２４、１２６・・・は、個別の通信装置
１３２、１３４、１３６・・・及びディジタル・ネット
ワークを介して互いに接続されているようなシステムで
ある。

【００４５】ディジタル・ネットワークは、典型的には
ＬＡＮであるけれども、ＩＳＤＮなどのディジタル回線
を通じてＷＡＮ（広域ネットワーク）として構成された
ものでもよい。従って、分散メモリ型マルチプロセッサ
・システムにおいては、互いに相互接続し得るＣＰＵの
個数は、実質的に無制限であり、このため、好適に分散
処理のプログラムを形成することにより、巨大な配列の
行列計算などを処理することも可能となる。

【００４６】但し、分散メモリ型マルチプロセッサ・シ
ステムでは、ＬＡＮまたはＷＡＮなどの通信回線を介し
てＣＰＵ間のデータのやり取りが行われるため、この通
信のための処理コストが負担になる可能性がある。

【００４７】図２を参照すると、共有メモリ型マルチプ
ロセッサ・システムの典型的な構成が示されている。共
有メモリ型マルチプロセッサ・システムにおいては、複
数のＣＰＵ２０２、２０４、２０６・・・が、ローカル
・バス２１０を介して互いに接続され、また、ローカル
・バス２１０は、共有メモリ２２０に接続されている。
共有メモリ２２０の領域は、例えば個別のＣＰＵによっ
て占有される排他的な領域と、複数のＣＰＵによって共
通にアクセスされる共通の領域とを含む。

【００４８】共有メモリ型マルチプロセッサ・システム
の利点は、ＣＰＵが互いにローカル・バスで相互接続さ
れているため、ＣＰＵ間の通信コストが少なくて済むこ
とである。しかし、ある限定された筐体に複数のＣＰＵ
をパッケージする必要があるためと、共有バスに対する
複数ＣＰＵによるアクセスを調停する必要性とから、共
有メモリ型マルチプロセッサ・システムにおいて接続可
能なＣＰＵの個数は自ずと制限がある。

【００４９】本発明は、分散メモリ型マルチプロセッサ
・システムや共有メモリ型マルチプロセッサ・システム
などのＣＰＵの接続形態に限定されることなく、複数の
ＣＰＵが互いに通信可能に構成された任意のシステムに
適用可能である。

【００５０】Ｂ．本発明の処理の概要フローチャート図３のフローチャートを参照して、本発明の処理の概要
について説明する。この処理は、本発明に係るコンパイ
ラが、ソース・プログラム中のループを見出すと開始さ
れる。

【００５１】先ず、ステップ３００２では、そのように
して見出されたループ（ネストしたループの場合、最も
内側のループ）のインデックスについて、インデックス
セットが分配可能かどうかが判断される。もしそうでな
いと判断されると、ステップ３００６に進んで、並列化
不可能として、ループ内にプロセッサ間通信を行うコー
ドを挿入するような通常のコンパイル処理が行われ、こ
のフローチャートの処理は終わる。

【００５２】ステップ３００２でインデックスセットが
分配可能であると判断された場合、ステップ３００４に
進んで、そのループに含まれている代入文のデータ・フ
ローが１つに決定されるかどうかが判断される。もしそ
うであると判断されると、本発明によることなく既存の
コンパイラで並列化可能であるので、処理はステップ３
００８に進み、そこでは既存のコンパイル技術によって
複数のプロセッサ間で処理を並列化するコードが生成さ
れ、このフローチャートの処理は終わる。

【００５３】ステップ３００４での判断が否定的である
と、ステップ３０１０に進み、そこでは次のような判断
が行われる。すなわち、最内ループのインデックス変数
を#IV.dとしたとき、・その式の左辺の配列ａのｍ番目（ｍは１以上でＮ以下
の任意の整数）の添字が、c1 * #V1.d + c2（c1，c2
は、該最も内側のループにおけるループ不変定数であっ
て、c1 は、0に等しくない）である、・その式の左辺の配列ａのｍ番目の次元が複数のプロセ
ッサ間でブロック状に分配されている、・その式の右辺の配列ａのｍ番目の添字式ｘが、コンパ
イル時点では値が不定であるけれどもプログラム実行時
点では値が最内ループで不変であるような変数である、という３つの条件を満たすかどうかが判断され、それら
の条件のうち１つでも満足しないと判断されると処理は
ステップ３０１２に進み、そこでは、ステップ３００６
と同様に並列化不可能として、ループ内にプロセッサ間
通信を行うコードを挿入するような通常のコンパイル処
理が行われ、このフローチャートの処理は終わる。

【００５４】ステップ３０１０で、３つの条件が満足さ
れると判断されたときには、ステップ３０１４で本発明
によって処理可能であると判断され、より詳細には、ス
テップ３０１６で記述される本発明の処理によって、並
列化のためのコード生成処理が行われる。尚、ステップ
３０１６での処理については、以下でより詳細に説明す
る。

【００５５】Ｃ．本発明の処理に関するより詳細な説明ループを最内ループパイプライン化をするためには、次
のような手続きを行なう。尚、これ以降、ループは１か
ら始まり飛びは１という正規化が行なわれているとする
（ループについては上限値だけが考慮される）。

【００５６】Ｃ−１. 対象ループの発見コンパイル時に条件(1)を、実行時に条件(2)を満たすル
ープが対象である。具体的には、最内ループ（１重ルー
プならそれ自身）のインデックス変数が#IV.dであると
き、次の条件を同時に満たすことが必要である。・左辺の配列のm番目の添字にa * #IV.d + bを含む（a
は0ではない,bはループ不変数）・左辺の配列のm番目の次元はプロセッサ間にブロック
上に分配されている・右辺に左辺と同じ配列の参照でm番目の添字にx（xは
ループ不変式）を含むものがある

【００５７】左辺の配列のm番目の添字がa * #IV.d + b
の形をしていれば、コンパイル時に条件(1)を満たして
いる。右辺の同じ配列のm番目の添字式がxであれば、最
内ループよりも外側のループのインデックス変数の値を
固定して考えると、最内ループは前述の標準ループと等
価である。よってこれら条件を満たしていれば、対象ル
ープである。

【００５８】Ｃ−２．インデックスセットの分配左辺の配列とループに関する次の３つの情報から、イン
デックスセットの分配が求まる。

【００５９】・最内ループの上限値・m番目の添字式a * #IV.d + b ・分割の仕方

【００６０】インデックスセットの分配は、具体的には
次のようにして求める。先ず、最内ループの上限値をUB
とする。添字式a * #IV.d + bであるから最内ループの
実行では、左辺のm番目の次元についてaが正の場合a+b
からa*UB+bまでa飛び、aが負の場合a*UB+bからa+bまでa
飛び、の順にアクセスされる。次に分割の仕方すなわち
左辺の配列のm番目の次元をブロック状に分割するプロ
セッサの情報から、左辺のm番目の次元をアクセスした
時にどのプロセッサがどの範囲をアクセスするかを求め
る。さらに各プロセッサのアクセスする範囲を添字式su
bs_m=a * #IV.d+ bの逆関数である#IV.d=(subs_m - b)
/ aによって、その範囲をアクセスするインデックス変
数の範囲を求める。求められたものが分配されたインデ
ックスセットである。

【００６１】例えば正規化された標準ループを考える。

【数６】

【００６２】この場合、配列a(1:MAX)はPn個のプロセッ
サにブロック状に分散して保持されている。また最内ル
ープのインデックス変数を含む添字式は、subs=i+M-1で
その逆関数はi=subs-M+1である。最内ループの上限値は
N-M+1である。まず左辺はMからNまで1飛びでアクセスさ
れる。a(M), a(N)を所有するプロセッサをそれぞれP
(M), P(N)とする。1からP(M)-1までのプロセッサと、P
(N)+1からPnまでのプロセッサには、インデックスセッ
トは分配されない。P(M)からP(N)までのプロセッサにだ
けインデックスセットは分配される。各プロセッサには
ne個ずつ配列要素が保持されているため、M,Nがneの倍
数+1でないと半端が生じ、P(M), P(N)に分配されるイン
デックスセットも半端になるが、その間のP(M)+1からP
(N)-1までのプロセッサpでは左辺は1+(p-1)*neからne+
(p-1)*neまで1飛びでアクセスされる。こうして各プロ
セッサごとの、左辺のアクセスされる範囲が求まる。こ
れをさらに逆関数i=subs-M+1によって各プロセッサごと
のそのアクセスを行なうインデックスセットを求める。
例えばP(M)+1からP(N)-1までのプロセッサpでは、1+(p-
1)*ne-M+1からne+(p-1)*ne-M+1までがその分配されたイ
ンデックスセットである。

【００６３】尚、指定するプロセッサの数及び分割の仕
方は、ＨＰＦの場合、*hpf$で始まるステートメントで
指定することもできるし、あるいは、プログラムの実行
時、コマンドライン・パラメータで与えたり、特定のモ
ジュールが、接続されているプロセッサを識別してプロ
セッサの数及び分割の仕方を自動的に決定するようにす
ることもできる。

【００６４】最内ループの上限値や分配されたインデッ
クスセットを保持するデータ構造へのポインタをlis_pt
r, 左辺のm番目の添字式を保持するデータ構造へのポイ
ンタをsubs_ptr, 左辺の分割の仕方を保持するデータ構
造へのポインタをdecomp_ptrとすると、こうした分配さ
れるインデックスセットの計算は、compute_lisという
実行時ライブラリの中で計算される。compute_lisは次
のようにして呼び出される。

【数７】 call compute_lis(lis_ptr, subs_ptr, decomp_ptr)

【００６５】上記の例では、subs_ptrには、(i+M-1)が
与えられ、decomp_ptrには、Ｐnのプロセッサそれぞれ
が配列aのどのような値をもっているかという情報が与
えられ、lis_ptrは、compute_lisの計算結果としての情
報、すなわち、各プロセッサの分配されたインデックス
セットが、lb:ub:stのような形で保持されている情報へ
のポインタである。

【００６６】Ｃ−３．受信プロセッサセットの計算一般には、添字式a * #IV.d + b、分割方法、xの値によ
って、最内ループで定義前の値を使うか、定義後の値を
使うかプロセッサ毎に異なる。

【００６７】aが正の場合を考える。左辺のm次元目は、
a+bからa*UB+bまでa飛びでアクセスされる。mod(x-b,
a)が0でない、あるいはa+b > xまたはa*UB+b < xの場合
はループで定義されない。定義されない場合は定義前の
値を使うプロセッサセットrecv_preに左辺の代入を行な
うプロセッサすべてを入れる。一方、mod(x-b, a)が0
で、a+b <= x <=a*UB+bの場合はループで定義される可
能性がある。a * ix + bがxと等しいすると、1からixま
での一部を分配されたインデックスセットに持つプロセ
ッサはループで定義前の値を使用する。これらをrecv_p
reとする。またix+1からUBまでの一部を分配されたイン
デックスセットに持つプロセッサはループで定義後の値
を使用する。これらをrecv_postとする。

【００６８】aが負の場合を考える。左辺のm次元目は、
a*UB+bからa+bまでa飛びでアクセスされる。mod(x-b, |
a|)が0でない、あるいはa*UB+b > xまたはa+b < xの場
合はループで定義されない。定義されない場合は定義前
の値を使うプロセッサセットrecv_preに左辺の代入を行
なうプロセッサすべてを入れる。一方、mod(x-b, |a|)
が0で、a*UB+b <= x <=a+bの場合はループで定義される
可能性がある。a * ix+ bがxと等しいすると、UBからix
までの一部を分配されたインデックスセットに持つプロ
セッサはループで定義前の値を使用する。これらをrecv
_preとする。またix-1から1までの一部を分配されたイ
ンデックスセットに持つプロセッサはループで定義後の
値を使用する。これらをrecv_postとする。

【００６９】以上、recv_pre, recv_postをまとめると
次のようになる。 (a) mod(x-b, |a|)が0でない場合 recv_pre=左辺代入するすべてのプロセッサ (b) mod(x-b, |a|)が0、かつaが正、かつa+b > xの場合 recv_pre=左辺代入するすべてのプロセッサ (c) mod(x-b, |a|)が0、かつaが正、かつx > a*UB+bの
場合 recv_pre=左辺代入するすべてのプロセッサ (d) mod(x-b, |a|)が0、かつaが正、かつa+b <= x <= a
*UB+bの場合 recv_pre=1から(x-b)/aまでの一部を分配されたインデ
ックスセットとして持つプロセッサ recv_post=(x-b)/a+1からUBまでの一部を分配されたイ
ンデックスセットとして持つプロセッサ (e) mod(x-b, |a|)が0、かつaが負、かつa*UB+b > xの
場合 recv_pre=左辺代入するすべてのプロセッサ (f) mod(x-b, |a|)が0、かつaが負、かつx > a+bの場合 recv_pre=左辺代入するすべてのプロセッサ (g) mod(x-b, |a|)が0、かつaが負、かつa*UB+b <= x <
= a+bの場合 recv_pre=(x-b)/aからUBまでの一部を分配されたインデ
ックスセットとして持つプロセッサ recv_post=1から(x-b)/a-1までの一部を分配されたイン
デックスセットとして持つプロセッサ

【００７０】正規化された標準ループではa=1,b=M-1,UB
=N-M+1と置き換えて次のようになる。なお(a),(e),(f),
(g)の場合はとり得ないので省略した。 (b) mod(x-M+1, |1|)が0、かつ1が正、かつ1+M+1 > xの
場合 recv_pre=左辺代入するすべてのプロセッサ (c) mod(x-M+1, |1|)が0、かつ1が正、かつx > 1*(N-M+
1)+M+1の場合 recv_pre=左辺代入するすべてのプロセッサ (d) mod(x-M+1, |1|)が0、かつ1が正、かつ1+M+1 <= x
<=1*(N-M+1)+M+1の場合 recv_pre=1からx-M+1までの一部を分配されたインデッ
クスセットとして持つプロセッサ recv_post=x-M+2からN-M+1までの一部を分配されたイン
デックスセットとして持つプロセッサ

【００７１】recv_pre, recv_postのデータ構造へのポ
インタをそれぞれpre_ptr,post_ptrとする。こうしたre
cv_pre, recv_postの計算は、compute_pre_postという
実行時ライブラリの中で計算される。compute_pre_post
は、次のようにして呼び出される。

【数８】call compute_pre_post(x, lis_ptr, subs_pt
r, pre_ptr, post_ptr)

【００７２】Ｃ−４．受信プロセッサセットに対する
通信最内ループよりも外側のd-1重ループのインデックス変
数は固定とみなせ、またxも決まっているので、右辺に
登場する左辺と同じ配列でm次元目にxを持つ配列要素RH
Sxは、配列の分割情報を利用してその所有者プロセッサ
が求められる。所有者プロセッサをpxとする。プロセッ
サpxは最内ループの前で先ほど求めたrecv_pre（ループ
で定義前の値を使用するプロセッサセット）に登録され
たプロセッサにRHSxを送信し、recv_preに登録されたプ
ロセッサは受信する。またプロセッサpxは最内ループの
後で先ほど求めたrecv_post（ループで定義後の値を使
用するプロセッサセット）に登録されたプロセッサにRH
Sxを送信し、recv_postに登録されたプロセッサは受信
する。

【００７３】最内ループの外側のループインデックス変
数の値を保持するデータ構造へのポインタをiv_ptr, RH
Sxの全次元の添字式の情報を保持するデータ構造へのポ
インタをsubs_all_ptrとすると、こうした通信は、pre_
send、post_sendという実行時ライブラリの中で行なわ
れる。このために、次のようにして、pre_send及びpost
_sendという手続きが呼び出される。

【数９】 call pre_send(iv_ptr, subs_all_ptr, pre_ptr) call post_send(iv_ptr, subs_all_ptr, post_ptr)

【００７４】Ｃ−５．最内ループパイプライン化された
疑似ＳＰＭＤコード以上により、最内ループパイプライン化された疑似ＳＰ
ＭＤコードはつぎのようになる。ただし、lis.lb(p), l
is.ub(p)は、compute_lisで初期されたlis_ptrが指すデ
ータ構造の中のプロセッサpに関するデータで、分配さ
れたインデックスセットの下限、上限である。

【数１０】 call compute_lis(lis_ptr, subs_ptr, decomp_ptr) call compute_pre_post(x, lis_ptr, subs_ptr, pre_ptr, post_ptr) call pre_send(iv_ptr, subs_all_ptr, pre_ptr) do #IV.d=lis.lb(p), lis.ub(p) a(..., a * #IV.d + b, ...) = a(..., x, ...) enddo call post_send(iv_ptr, subs_all_ptr, post_ptr)

【００７５】上記プログラム中で、doからenddoまでの
部分は、各プロセッサp毎に、すなわち、各プロセッサp
で並列に実行される。

【００７６】

【発明の効果】以上説明したように、本発明によれば、
従来技術では並列化不可能であった、複数のデータ依存
性をもつ式を含むループを効率的に並列化することがで
きるコンパイラが提供される。

【００７７】また、上記実施例では、ＨＰＦ（ＦＯＲＴ
ＲＡＮ９０をベースとする並列処理言語）に基づき説明
を行ったが、本発明はこのような特定のプログラミング
言語に限定されるものではなく、ＡＰＬ、Ｃ＊（Ｃをベ
ースとする並列言語）などの、マルチプロセッサ環境に
おける並列処理をサポートする任意の言語処理系に適用
可能である。

【００７８】さらに、本発明が対象とするループは、do
.. enddo ループのみならず、ＦＯＲＴＲＡＮ９０が提
供するアレイ計算や、SPREAD、CSHIFTなどのＴＩＦ（Tr
ansformational Intrinsic Functions）によって提供さ
れる処理にも拡張される。

【図面の簡単な説明】

【図１】分散メモリ型マルチプロセッサの構成を示す
ブロック図である。

【図２】共有メモリ型マルチプロセッサの構成を示す
ブロック図である。

【図３】本発明の処理の手順を示すフローチャートの
図である。

フロントページの続き (72)発明者小松秀昭神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内

Claims

【特許請求の範囲】

【請求項１】複数のプロセッサをもつコンピュータにお
いて、ソース・プログラムにおけるループを複数のプロ
セッサに分割して並列に実行させることにより、プログ
ラムの実行を高速化するようにコードを生成するため
の、コンパイラにおけるコード生成方法であって、(a)
ソース・プログラムを読み込む段階と、(b) 上記ソース
・プログラムにおいて、インデックスセットが分配可能
かどうかが決まる、という条件は満たすが、代入文右辺
のデータ依存が１つに決められる、という条件は満たさ
ないループを見出す段階と、(c) 上記見出されたされた
ループの最も内側のループのインデックス変数を#IV.d
とし、そのループ内の式における、両辺に同一の、Ｎ次
元（Ｎは１以上の整数）の配列ａをもつ式に着目し、そ
の式の左辺の配列ａのｍ番目（ｍは１以上でＮ以下の任
意の整数）の添字がc1 * #V1.d + c2（c1，c2は、該最
も内側のループにおけるループ不変定数であって、c1
は、0に等しくない）であること、その式の左辺の配列
ａのｍ番目の次元が複数のプロセッサ間でブロック状に
分配されていることと、及びその式の右辺の配列ａのｍ
番目の添字式ｘが、コンパイル時点では値が不定である
けれどもプログラム実行時点では値が最内ループで不変
であるような変数であること、という条件を満足するか
どうかを決定する段階と、(d) 上記段階(c)において上
記条件が満足されたと決定されたことに応答して、上記
c1，c2及び上記ｍ番目の添字の上記複数のプロセッサ間
の分配の情報に応じて、上記複数のプロセッサ毎に、ル
ープ計算の添字の下限lbと上限ubを計算し保持する段階
と、(e) 上記段階(d)で計算された、上記複数のプロセ
ッサ毎のループ計算の添字の下限lbと上限ubの値と、上
記c1，c2と、上記ｘの値に応じて、受信プロセッサセッ
トを計算する段階と、(f) 上記段階(e)で計算された受
信プロセッサセットに応じて、受信プロセッサセットに
対する通信を行うコードを生成する段階と、(g) 上記段
階(d)で計算されたプロセッサ毎のループ計算の添字の
下限lbと上限ubの値に応じて、上記最も内側のループに
関して、上記複数のプロセッサ毎にパイプライン化され
たループのコードを生成する段階を有する、に記載のコンパイラにおけるコード生成方法。
【請求項２】上記ソース・プログラムは、ＦＯＲＴＲＡ
Ｎで記述されている請求項１に記載のコンパイラにおけ
るコード生成方法。
【請求項３】上記ソース・プログラムは、使用するプロ
セッサの数及び分割方法を指定するコードを含む請求項
２に記載のコンパイラにおけるコード生成方法。
【請求項４】複数のプロセッサをもつコンピュータにお
いて、ソース・プログラムにおけるループを複数のプロ
セッサに分割して並列に実行させることにより、プログ
ラムの実行を高速化するようにコードを生成するため
の、コンパイラにおけるコード生成方法であって、(a)
ソース・プログラムを読み込む段階と、(b) 上記ソース
・プログラムにおいて、インデックスセットが分配可能
かどうかが決まる、という条件は満たすが、代入文右辺
のデータ依存が１つに決められる、という条件は満たさ
ないループを見出す段階と、(c) 上記見出されたされた
ループの最も内側のループのインデックス変数を#IV.d
とし、そのループ内の式における、両辺に同一の、Ｎ次
元（Ｎは１以上の整数）の配列ａをもつ式に着目し、そ
の式の左辺の配列ａのｍ番目（ｍは１以上でＮ以下の任
意の整数）の添字がc1 * #V1.d + c2（c1，c2は、該最
も内側のループにおけるループ不変定数であって、c1
は、0に等しくない）であること、その式の左辺の配列
ａのｍ番目の次元が複数のプロセッサ間でブロック状に
分配されていることと、及びその式の右辺の配列ａのｍ
番目の添字式ｘが、コンパイル時点では値が不定である
けれどもプログラム実行時点では値が最内ループで不変
であるような変数であること、という条件を満足するか
どうかを決定する段階と、(d) 上記段階(c)において上
記条件が満足されたと決定されたことに応答して、上記
c1，c2及び上記ｍ番目の添字の上記複数のプロセッサ間
の分配の情報に応じて、上記複数のプロセッサ毎に、ル
ープ計算の添字の下限lbと上限ubを計算し保持する段階
と、(e) 上記段階(d)で計算された、上記複数のプロセ
ッサ毎のループ計算の添字の下限lbと上限ubの値と、上
記c1，c2と、上記ｘの値に応じて、上記最も内側のルー
プの前に通信されるべき受信プロセッサセットと、上記
最も内側のループの後に通信されるべき受信プロセッサ
セットを計算する段階と、(f) 上記段階(e)で計算され
た受信プロセッサセットに応じて、上記最も内側のルー
プの前に通信されるべき受信プロセッサセットに対する
通信を行うコードを生成する段階と、(g) 上記段階(d)
で計算されたプロセッサ毎のループ計算の添字の下限lb
と上限ubの値に応じて、上記最も内側のループに関し
て、上記複数のプロセッサ毎にパイプライン化されたル
ープのコードを生成する段階と、(h) 上記段階(e)で計
算された受信プロセッサセットに応じて、上記最も内側
のループの後に通信されるべき受信プロセッサセットに
対する通信を行うコードを生成する段階を有する、に記載のコンパイラにおけるコード生成方法。
【請求項５】上記ソース・プログラムは、ＦＯＲＴＲＡ
Ｎで記述されている請求項４に記載のコンパイラにおけ
るコード生成方法。
【請求項６】上記ソース・プログラムは、使用するプロ
セッサの数及び分割方法を指定するコードを含む、請求
項５に記載のコンパイラにおけるコード生成方法。
【請求項７】複数のプロセッサをもつコンピュータにお
いて、ソース・プログラムにおけるループを複数のプロ
セッサに分割して並列に実行させることにより、プログ
ラムの実行を高速化するようにコードを生成するため
の、コンパイラにおけるコード生成方法であって、(a)
ソース・プログラムを読み込む段階と、(b) 上記ソース
・プログラムにおいて、インデックスセットが分配可能
かどうかを決定し、もしそうでないならプロセッサ間で
通信を行わせるコードをループ内に生成する段階と、
(c) 上記ソース・プログラムにおいて、インデックスセ
ットが分配可能である場合に、代入文右辺のデータ依存
が１つに決められるかどうかを決定する段階と、(d) 上
記段階(c)において代入文右辺のデータ依存が１つに決
められると判断されたことに応答して、ループにおける
インデックスを複数のプロセッサの間で分割して並列に
実行させるコードを生成する段階と、(e) 上記段階(c)
において代入文右辺のデータ依存が１つに決められない
と判断されたことに応答して、上記見出されたされたル
ープの最も内側のループのインデックス変数を#IV.dと
し、そのループ内の式における、両辺に同一の、Ｎ次元
（Ｎは１以上の整数）の配列ａをもつ式に着目し、その
式の左辺の配列ａのｍ番目（ｍは１以上でＮ以下の任意
の整数）の添字がc1 * #V1.d + c2（c1，c2は、該最も
内側のループにおけるループ不変定数であって、c1
は、0に等しくない）であること、その式の左辺の配列
ａのｍ番目の次元が複数のプロセッサ間でブロック状に
分配されていることと、及びその式の右辺の配列ａのｍ
番目の添字式ｘが、コンパイル時点では値が不定である
けれどもプログラム実行時点では値が最内ループで不変
であるような変数であること、という条件を満足するか
どうかを決定する段階と、(f) 上記段階(e)において上
記条件が満足されたと決定されたことに応答して、上記
c1，c2及び上記ｍ番目の添字の上記複数のプロセッサ間
の分配の情報に応じて、上記複数のプロセッサ毎に、ル
ープ計算の添字の下限lbと上限ubを計算し保持する段階
と、(g) 上記段階(f)で計算された、上記複数のプロセ
ッサ毎のループ計算の添字の下限lbと上限ubの値と、上
記c1，c2と、上記ｘの値に応じて、上記最も内側のルー
プの前に通信されるべき受信プロセッサセットと、上記
最も内側のループの後に通信されるべき受信プロセッサ
セットを計算する段階と、(h) 上記段階(g)で計算され
た受信プロセッサセットに応じて、上記最も内側のルー
プの前に通信されるべき受信プロセッサセットに対する
通信を行うコードを生成する段階と、(i) 上記段階(f)
で計算されたプロセッサ毎のループ計算の添字の下限lb
と上限ubの値に応じて、上記最も内側のループに関し
て、上記複数のプロセッサ毎にパイプライン化されたル
ープのコードを生成する段階と、(j) 上記段階(g)で計
算された受信プロセッサセットに応じて、上記最も内側
のループの後に通信されるべき受信プロセッサセットに
対する通信を行うコードを生成する段階を有する、に記載のコンパイラにおけるコード生成方法。
【請求項８】複数のプロセッサをもつコンピュータにお
いて、ソース・プログラムにおけるループを複数のプロ
セッサに分割して並列に実行させることにより、プログ
ラムの実行を高速化するようにコードを生成するため
の、コンパイラにおけるコード生成方法であって、(a)
ソース・プログラムを読み込む段階と、(b) 上記ソース
・プログラムにおいて、インデックスセットが分配可能
かどうかを決定し、もしそうでないならプロセッサ間で
通信を行わせるコードをループ内に生成する段階と、
(c) 上記ソース・プログラムにおいて、インデックスセ
ットが分配可能である場合に、代入文右辺のデータ依存
が１つに決められるかどうかを決定する段階と、(d) 上
記段階(c)において代入文右辺のデータ依存が１つに決
められると判断されたことに応答して、ループにおける
インデックスを複数のプロセッサの間で分割して並列に
実行させるコードを生成する段階と、(e) 上記段階(c)
において代入文右辺のデータ依存が１つに決められない
と判断されたことに応答して、上記見出されたされたル
ープの最も内側のループのインデックス変数を#IV.dと
し、そのループ内の式における、両辺に同一の、Ｎ次元
（Ｎは１以上の整数）の配列ａをもつ式に着目し、その
式の左辺の配列ａのｍ番目（ｍは１以上でＮ以下の任意
の整数）の添字がc1 * #V1.d + c2（c1，c2は、該最も
内側のループにおけるループ不変定数であって、c1
は、0に等しくない）であること、その式の左辺の配列
ａのｍ番目の次元が複数のプロセッサ間でブロック状に
分配されていることと、及びその式の右辺の配列ａのｍ
番目の添字式ｘが、コンパイル時点では値が不定である
けれどもプログラム実行時点では値が最内ループで不変
であるような変数であること、という条件を満足するか
どうかを決定する段階と、(f) 上記段階(e)において上
記条件が満足されないことに応答して、プロセッサ間で
通信を行わせるコードをループ内に生成する段階と、
(g) 上記段階(e)において上記条件が満足されたと決定
されたことに応答して、上記c1，c2及び上記ｍ番目の添
字の上記複数のプロセッサ間の分配の情報に応じて、上
記複数のプロセッサ毎に、ループ計算の添字の下限lbと
上限ubを計算し保持する段階と、(h) 上記段階(g)で計
算された、上記複数のプロセッサ毎のループ計算の添字
の下限lbと上限ubの値と、上記c1，c2と、上記ｘの値に
応じて、上記最も内側のループの前に通信されるべき受
信プロセッサセットと、上記最も内側のループの後に通
信されるべき受信プロセッサセットを計算する段階と、
(i) 上記段階(h)で計算された受信プロセッサセットに
応じて、上記最も内側のループの前に通信されるべき受
信プロセッサセットに対する通信を行うコードを生成す
る段階と、(j) 上記段階(g)で計算されたプロセッサ毎
のループ計算の添字の下限lbと上限ubの値に応じて、上
記最も内側のループに関して、上記複数のプロセッサ毎
にパイプライン化されたループのコードを生成する段階
と、(k) 上記段階(h)で計算された受信プロセッサセッ
トに応じて、上記最も内側のループの後に通信されるべ
き受信プロセッサセットに対する通信を行うコードを生
成する段階を有する、に記載のコンパイラにおけるコー
ド生成方法。
【請求項９】上記段階(h)での受信プロセッサセットの
計算は、最内ループにおけるインデックスの上限をUBと
して、 (1) mod(x-c2, |c1|)が0でない場合 recv_pre=左辺代入するすべてのプロセッサ (2) mod(x-c2, |c1|)が0、かつc1が正、かつc1+c2 > x
の場合 recv_pre=左辺代入するすべてのプロセッサ (3) mod(x-c2, |c1|)が0、かつc1が正、かつx > c1*UB+
c2の場合 recv_pre=左辺代入するすべてのプロセッサ (4) mod(x-c2, |c1|)が0、かつc1が正、かつc1+c2 <= x
<= c1*UB+c2の場合 recv_pre=1から(x-c2)/c1までの一部を分配されたイン
デックスセットとして持つプロセッサ recv_post=(x-c2)/c1+1からUBまでの一部を分配された
インデックスセットとして持つプロセッサ (4) mod(x-c2, |c1|)が0、かつc1が負、かつc1*UB+c2 >
xの場合 recv_pre=左辺代入するすべてのプロセッサ (6) mod(x-c2, |c1|)が0、かつc1が負、かつx > c1+c2
の場合 recv_pre=左辺代入するすべてのプロセッサ (7) mod(x-c2, |c1|)が0、かつc1が負、かつc1*UB+c2 <
= x <= c1+c2の場合recv_pre=(x-c2)/c1からUBまでの一
部を分配されたインデックスセットとして持つプロセッ
サ recv_post=1から(x-c2)/c1-1までの一部を分配されたイ
ンデックスセットとして持つプロセッサの場合分けによって、上記最も内側のループの前に通信
されるべき受信プロセッサセットrecv_preと、上記最も
内側のループの後に通信されるべき受信プロセッサセッ
トrecv_postを計算する段階を有する、請求項８に記載
のコンパイラにおけるコード生成方法。
【請求項１０】複数のプロセッサをもつコンピュータに
おいて、ソース・プログラムにおけるループを複数のプ
ロセッサに分割して並列に実行させることにより、プロ
グラムの実行を高速化するようにコードを生成するため
の、コンパイラであって、(a) コンパイルすべきソース
・プログラムにおいて、インデックスセットが分配可能
かどうかが決まる、という条件は満たすが、代入文右辺
のデータ依存が１つに決められる、という条件は満たさ
ないループを見出す手段と、(b) 上記見出されたされた
ループの最も内側のループのインデックス変数を#IV.d
とし、そのループ内の式における、両辺に同一の、Ｎ次
元（Ｎは１以上の整数）の配列ａをもつ式に着目し、そ
の式の左辺の配列ａのｍ番目（ｍは１以上でＮ以下の任
意の整数）の添字がc1 * #V1.d + c2（c1，c2は、該最
も内側のループにおけるループ不変定数であって、c1
は、0に等しくない）であること、その式の左辺の配列
ａのｍ番目の次元が複数のプロセッサ間でブロック状に
分配されていることと、及びその式の右辺の配列ａのｍ
番目の添字式ｘが、コンパイル時点では値が不定である
けれどもプログラム実行時点では値が最内ループで不変
であるような変数であること、という条件を満足するか
どうかを決定する手段と、(c) 上記手段(b)において上
記条件が満足されたと決定されたことに応答して、上記
c1，c2及び上記ｍ番目の添字の上記複数のプロセッサ間
の分配の情報に応じて、上記複数のプロセッサ毎に、ル
ープ計算の添字の下限lbと上限ubを計算し保持する手段
と、(d) 上記手段(c)で計算された、上記複数のプロセ
ッサ毎のループ計算の添字の下限lbと上限ubの値と、上
記c1，c2と、上記ｘの値に応じて、受信プロセッサセッ
トを計算する手段と、(e) 上記手段(d)で計算された受
信プロセッサセットに応じて、受信プロセッサセットに
対する通信を行うコードを生成する手段と、(f) 上記手
段(c)で計算されたプロセッサ毎のループ計算の添字の
下限lbと上限ubの値に応じて、上記最も内側のループに
関して、上記複数のプロセッサ毎にパイプライン化され
たループのコードを生成する手段を具備する、に記載のコンパイラ。
【請求項１１】上記ソース・プログラムは、ＦＯＲＴＲ
ＡＮで記述されている請求項１０に記載のコンパイラ。
【請求項１２】上記手段(d)は、最内ループにおけるイ
ンデックスの上限をUBとして、 (1) mod(x-c2, |c1|)が0でない場合 recv_pre=左辺代入するすべてのプロセッサ (2) mod(x-c2, |c1|)が0、かつc1が正、かつc1+c2 > x
の場合 recv_pre=左辺代入するすべてのプロセッサ (3) mod(x-c2, |c1|)が0、かつc1が正、かつx > c1*UB+
c2の場合 recv_pre=左辺代入するすべてのプロセッサ (4) mod(x-c2, |c1|)が0、かつc1が正、かつc1+c2 <= x
<= c1*UB+c2の場合 recv_pre=1から(x-c2)/c1までの一部を分配されたイン
デックスセットとして持つプロセッサ recv_post=(x-c2)/c1+1からUBまでの一部を分配された
インデックスセットとして持つプロセッサ (4) mod(x-c2, |c1|)が0、かつc1が負、かつc1*UB+c2 >
xの場合 recv_pre=左辺代入するすべてのプロセッサ (6) mod(x-c2, |c1|)が0、かつc1が負、かつx > c1+c2
の場合 recv_pre=左辺代入するすべてのプロセッサ (7) mod(x-c2, |c1|)が0、かつc1が負、かつc1*UB+c2 <
= x <= c1+c2の場合 recv_pre=(x-c2)/c1からUBまでの一部を分配されたイン
デックスセットとして持つプロセッサ recv_post=1から(x-c2)/c1-1までの一部を分配されたイ
ンデックスセットとして持つプロセッサの場合分けによって、上記最も内側のループの前に通信
されるべき受信プロセッサセットrecv_preと、上記最も
内側のループの後に通信されるべき受信プロセッサセッ
トrecv_postを計算する手段を有する、請求項１０に記
載のコンパイラ。