JPH0298741A

JPH0298741A - マルチプロセッサコンピュータにおいてネスト式ループを実行する階層的方法

Info

Publication number: JPH0298741A
Application number: JP1196497A
Authority: JP
Inventors: Kevin W Harris; ケヴィン　ダブリュー　ハリス; William B Noyce; ウィリアム　ビー　ノイス
Original assignee: Digital Equipment Corp
Current assignee: Digital Equipment Corp
Priority date: 1988-07-29
Filing date: 1989-07-28
Publication date: 1990-04-11
Also published as: DE68923666D1; CA1319757C; US5481723A; EP0352899B1; DE68923666T2; EP0352899A1; ATE125966T1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、一般に、デジタルデータ処理システムの分野
に係り、より詳細には、デジタルデータ処理システムの
多数のプロセッサによってコンピュータプログラムの部
分部分を並列に実行できるようにするシステムに係る。

従来の技術多数のプロセッサを含むデジタルデータ処理システムは
、コンピュータプログラムを並列に処理することにより
コンピュータプログラムの処理を著しく速く実行できる
能力を有している。しかしながら、処理速度の潜在的な
増加を実現するには、プロセッサによって処理されるプ
ログラムを最適化しなければならない。順次処理するよ
うに元々書かれているプログラムはマルチプロセッサシ
ステムに直接転送することができず、並列アーキテクチ
ャの全利点を取り入れるようにしばしば書き込みし直さ
なければならない、それ故１例えば、フォートランやＣ
又はパスカルのような公知の言語で書かれたプログラム
を、例えば、種々のプロセッサによる処理を効果的に調
整する命令を挿入することにより、マルチプロセッサア
ーキテクチャに直接匹敵する形態に直接変換するような
コンパイラプログラムを提供することが望まれる。

最初に、プログラマ又はコンパイラは、並列に実行でき
るプログラムの部分を識別し、そしてコンピュータが単
一プロセッサシステムにおいて実行した場合に得られる
ものと同じ結果を生じなければならない、単一プロセッ
サを含むコンピュータにおいては、プログラムの初期の
部分において計算されてメモリに記憶された値は、メモ
リが読み取られてそれらの値が計算に使用されるプログ
ラムの後部分に利用できるように確保される。

しかしながら、これらの部分は多数のプロセッサを有す
るコンピュータシステムでは並列に処理され、一般に、
計算の順序を予想することができない。

ループとして知られている重要なコンピュータプログラ
ミングコード構造体は、この点につぃて特別な問題をも
たらす。ループは、ある終了基準が満足されるまで、同
じ一連のプログラム命令を繰り返し実行することを必要
とする。プログラムが並列に実行されるときにそれが直
列に実行された時と同じ結果を与えるよう確保するため
には、並列形態において、それが直列形態で行なわれた
ときと同じ順序でメモリの参照を行なうようにしなけれ
ばならない。例えば、ループの繰り返しにおいである機
能がその手前の繰り返し中に計算された結果を必要とす
る場合には、マルチプロセッサでの並列処理機構におい
て最初にその手前の繰り返しを実行しなければならない
が、単一のプロセッサが直列処理機構においてそのプロ
グラムを処理する場合にはこれが適切な順序で自動的に
行なわれる。

同じメモリ位置に対して２つの参照がありそしてその参
照の少なくとも１つが書き込みであるときには、２つの
参照間に“依存性″が存在し、これらが適切な順序で生
じなければならない。別の繰り返しにおいて必要とされ
るべき値を計算する繰り返しは、依存性の“ソース”と
称され、そしてその値を読み出して計算に使用する繰り
返しは、依存性の“シンク”と称される。上記したよう
にループの別々の繰り返しにおいて生じることのある２
つの参照間に依存性がある場合には、そのループが“依
存性を保持する″と言われ、そして最終的に、あるルー
プの１つの繰り返しにおいて計算された結果がそのルー
プのその手前の繰り返しにおいて同じステートメントに
よって計算された値に依存する場合には、その依存性が
“再発（ｒｅｃｕｒｒｅｎｃｓ）”と称するものを形成
する。依存性を指示するループ構造体は特殊な動作なし
に並列に実行することができない、というのは、並列に
処理するときにループの繰り返しの処理のタイミングが
上記したようにしばしば予想できないからである。

マルチプロセッサシステムで並列に実行されるプログラ
ムにおいてループ構造体によって保持される依存性及び
再発性の存在を考慮することは。

別のループをプログラミングステップとして含むループ
によって更に７ＭＨなものとなる。というのは、依存性
は、外側及び内側の両ループの別の繰り返しにおいて計
算される値を伴うからである。

この構造は、ネスト式ループとして知られている。

マルチプロセッサシステムに適合するループ構造を形成
する従来の方法は一般に２つの分類に分けられる。ハイ
パープレーン方法（ｌｌｙｐａｒｐｌａｎｅａ＋ｅｔｈ
ｏｄ）及びフードレプリケーション（Ｃｏｄｅ　Ｒｅｐ
ｌｉｃａｔｉｏｎ）のような技術を含む第１の方法にお
いては、結果として得られたプログラムが依存性を保持
しないループを含むようにプログラムが変換される。コ
ードレプリケーション技術は、再発性を保持するループ
に使用することができない。

しかし、ハイパープレーン方法は、ネスト式ループ構造
体において生じるものを含む依存性を取り扱うことがで
きると分かっている。この技術においては、ネスト式ル
ープ構造体の外側のループが各々の使用できるプロセッ
サにおいて直列に実行され、そして内側のループがある
プロセッサに指定されたある繰り返しと共に並列に実行
される。しかしながら、この方法は、不都合なことに、
適切な計算順序を確保するために多数のループスタート
及び再同期コマンドの実行を必要とする。

これらのコマンドは本来速度の遅いものであり。

従って、多数のプロセッサを効率的に使用できないこと
になる。更に、ハイパープレーン技術を実行するときに
は、プロセッサが予測できない遅延を受けやすくなる。

これらの遅延は、例えば、ページ欠陥によって生じたり
、あるいはより優先順位の高いユーザがあらかじめ占有
することによって生じたりするもので、プロセッサ遅延
の和だけプログラムの実行を遅らせるとになる。

第２種類の技術においては、あるプロセッサを別のプロ
セッサに対して待機させることにより依存性が主張され
る。しかしながら、これらの技術は、単一のループにし
か適応されていない、ネスト式ループにおいては、内側
のループより成る繰り返しが並列に実行され、外側のル
ープより成る繰り返しが直列に実行されている。或いは
又、処理されているデータにフラグを挿入してアクセス
をそれと同期させてもよい。しかしながら、必要とされ
るフラグの数は、おおよそ内側ループの繰り返し数と外
側ループの繰り返し数との積になる。典型的なネスト式
ループは実際には直列で実行される。というのは、シス
テムは、内側のループ全体が１つのプロセッサにおいて
実行されてしまうのを待機し、その後に別のプロセッサ
においてそれを開始するからである。

本発明は、特許請求の範囲に特に指摘する。

本発明の上記及び更に別の効果は、添付図面を参照とし
た以下の詳細な説明から理解されよう。

実施例夏１本発明は、ネスト式ループを有するコンパイラプログラ
ムにおいて、デジタルデータ処理システムの多数のプロ
セッサによって並列にプログラムを実行できるようにす
るコードを発生するコンパイラを備えた新たなシステム
を提供するものである。上記のコードにより、システム
は、次のように動作することができる。コンパイラは、
１組のネスト式ループの外側ループの１つの繰り返しを
処理するように各々のプロセッサを指定することのでき
るコードを発生する。外側のループがシステム内のプロ
セッサより多数の繰り返しを含む場合には、外側ループ
の最初の繰り返しがプロセッサに最初に指定され、各プ
ロセッサがその外側ループの繰り返しの処理を終了する
たびに、次の未指定の外側ループの繰り返しが指定され
る。外側ループの全ての繰り返しが処理されてしまうま
でこの手順が繰り返される。

各々の外側ループの繰り返しを処理する間に。

各プロセッサは内側ループの繰り返しを直列に実行する
。依存性を主張するために、各プロセッサは、内側ルー
プ繰り返しの処理を完了した後に。

内側ループ繰り返しの処理におけるその進行状態を次に
続く外側ループの繰り返しを実行しているプロセッサに
報告する。このプロセッサは、その報告を行なうプロセ
ッサが選択された数の外側ループ繰り返しよりも選択さ
れた数の内側ループ繰り返しだけ少なくとも進むかまた
はせいぜいそれだけ遅れるまで待機する。上記数は、依
存性のソースとシンクとの間にある内側ループ繰り返し
数と外側ループ繰り返し数とによって決定され、その依
存性が主張されることを確保するように選択される。

本発明のこの新規な方法は、計算速度をほぼ直線的に高
める。更に、この方法は、ループ本体において同一でな
い作業が行なわれることや又は時分割環境または割込み
処理において予めの占有がなされるために生じることの
ある遅延に対して比較的余裕をもつことができる。１つ
のプロセッサが遅れても、プログラム全体が保留される
ことはなく、その後の外側ループ繰り返しを実行するプ
ロセッサのみが保留されるだけである。更に、別のプロ
セッサに遅延が生じても、最初に遅延が生じたプロセッ
サが必ずしも保留されることにはならない。

本発明は、内側ループの繰り返しを処理するプロセッサ
の動作を制御し且つ同期し、外側ループの各繰り返しに
対し内側ループに繰り返しが完了したことをプロセッサ
によって容易に報告できるように、少なくとも外側ルー
プの繰り返し数に対応する多数の制御構造体を含むこと
ができる。

本発明の第２の特徴においては、外側ループの繰り返し
数ではなくてプロセッサの数に基づく制御構造体によっ
て報告が行なわれる０本発明のこの第２の特徴において
は、制御構造体は、プラグに各々関連した進行カウンタ
を備え、プラグ及び進行カウンタの数はプロセッサの数
に関連づけされる。

各進行カウンタは、内側のループ繰り返しをシーケンシ
ングするときにその指定された外側のループ繰り返しの
進行状態を指示するためにプロセッサによって増加され
る。各外側のループ繰り返しの処理中に、内側のループ
繰り返しによって定められた計算を実行する前に、プロ
セッサは、その手前の外側のループ繰り返しを処理して
いるプロセッサによって増加される進行カウンタを検査
して、そのプロセッサがその内側のループ繰り返しを処
理できるに充分なほど進行していることを指示するかど
うか判断する。もしそうならば。

プロセッサは内側のループ繰り返しによって定ぬれられ
た計算を実行し、その進行カウンタを増加する。

いかなる所与の時間にも、２つのプロセッサ、即ち１手
前の内側ループ繰り返しを処理するために進行カウンタ
を検査するプロセッサと、内側ループ繰り返しが処理を
完了したことを報告するために進行カウンタを増加する
プロセッサとが所与の進行カウンタを使用するだけであ
ることが理解されよう０両方のプロセッサが進行カウン
タの使用を完了すると（これはその検査しているプロセ
ッサが内側ループ繰り返しを完了するまで生じない）、
その進行カウンタは別の外側ループ繰り返しに対して再
び使用できるようになる。従って、必要とされる進行カ
ウンタの数は、少なくともプロセッサの数に１を加えた
数である。この付加的な進行カウンタは、プロセッサが
最初の外側ループ繰り返しを処理するために最初に設け
られ、即ちこの進行カウンタは、その最初の外側ループ
繰り返しを処理しているプロセッサがその最初の外側ル
ープ繰り返しを含む全ての内側ループ繰り返しを処理で
きるよう確保する値に初期化される。

進行カウンタに加えて、制御構造体は、進行カウンタを
再使用できるかどうかを指示する終了フラグと、使用で
きない最初の進行カウンタを指示する最後ポインタとを
備えている。所与の進行カウンタを通して報告を行なう
プロセッサが外側ループ繰り返しの内側ループ繰り返し
を処理し終わったときには、その進行カウンタの値をそ
のカウンタが許容できる最も大きな値まで増加し、これ
により、それより小さい進行カウンタの値により検査を
行なっているプロセッサがその内側ループの繰り返しを
終了しないよう禁止される。更に、その検査を行なって
いるプロセッサが内側ループの繰り返しを終了して、進
行カウンタを更に検査する必要がないときには、その進
行カウンタに関連した終了フラグをセットし、これを再
指定できることを指示する。

進行カウンタは円形の形態で指定され、従って、上記最
後のカウンタによって指示される進行カウンタまでの全
ての手前の進行カウンタが再指定に使用できるようにな
る。検査を行なっている各プロセッサが進行カウンタの
使用を終了しそしてそれに関連した終了フラグをセット
するときには５次の進行カウンタを指示するようにその
最後のポインタを増加する。更に、各プロセッサが外側
ループの繰り返しを処理し終えたときには、終了フラグ
がセットされた次の進行カウンタが再指定される（その
終了ポインタがそれを指示していない場合）。

詳細な腹匪第１図は、ネスト式ドウ・ループ（Ｄｏ　Ｌｏｏｐ）と
して知られているフォートランコード構造体を含む次の
ようなコードフォーマットを参照してコンピュータシス
テムの動作を示している。

Ｄｏ　Ｊ　＝　１．Ｎ　　　　　　　　　　（１〕Ｄｏ
　Ｉ　＝ｌ、Ｍ　　　　　　　　　（２）Ａ（Ｉ、Ｊ）
＝Ａ（Ｉ、Ｊ）＋Ａ（Ｉ、Ｊ−Ｐ）　　（３）Ｅｎｄ　
Ｄｏ　　　　　　　　　　　（４）Ｅｎｄ　Ｄｏ　　　
　　　　　　　　　　　　　　［５］このコード部分に
おいては、ループインデックスＪで識別された外側のル
ープがライン［１〕及び〔５〕によって定められ、これ
らのラインはＪ＝１からＪ＝ＮまでのＮ個の外側ループ
繰り返しを必要とする。外側ループの各繰り返しのたび
に、ライン〔２〕及び〔４〕は、ループインデックスＩ
によって定められた内側ループを定め、これはＩ＝１か
らＩ＝ＭまでのＭ個の内側ループ繰り返しを有する。

ネスト式ドウ・ループのライン〔３〕は、メモリ位置Ａ
　（１，Ｊ−Ｐ）の値を、換言すれば内側ループの対応
する繰り返し■、即塾手前の繰り返し、ひいては外側ル
ープの繰り返しＪ−Ｐの間に計算された計算値を必要と
する計算を定める。

外側ループの繰り返しＪ−Ｐの間に計算された値は、こ
れらの繰り返しＪの間に読み取られてその外側のループ
繰返し中に内側ループの計算に用いられる同じメモリ位
置に記憶される。従って、現在のドウ・ループ構造体は
、依存性もしくは２つの基準を各々の記憶位置へ搬送し
、第１の基準は。

後の外側ループ繰り返しによって第２の基準の間に読み
取られてその後の外側ループ繰り返しにおいて計算に使
用される位置に結果を書き込むものである。多数のプロ
セッサを有するコンピュータシステムにおいてコード部
分を並列に処理するためには、システムは、外側ループ
繰り返しＪ−Ｐを処理するプロセッサが内側ループの繰
り返し■を完了して値Ａ　（Ｉ、Ｊ−Ｐ）を与えるよう
に確保しなければならない。

以下の説明においては、ＰｏないしＰｎによって識別さ
れたＮ＋１個のプロセッサを有するコンピュータシステ
ムでネスト式ドウ・ループが並列に処理されるものと仮
定する。上記“ｎ　”の値は外側ループ繰り返しの数Ｌ
Ｉ　Ｎ　Ｉ＋に関連している必要はない。

第１図及び第２図を参照すれば、新規なコンパイラは、
プロセッサがそれらの指定の外側ループ操り返しを並列
に実行できる一方、依存性が維持されるように確保する
コードを発生する。ステップ１０において、このコード
は、各プロセッサＰｏ−Ｐｎが外側ループの単一繰り返
しを実行できるようにする６また。このコードは、各プ
ロセッサＰｊ（ｊ＝ｏからｎ）が（Ｉ）で定められた内
側ループ繰り返しを直列に実行できるようにしくステッ
プ１８ないし２６）、各プロセッサＰｊは最初に待機ス
テップ（ステップ２０）を実行し。

やがて１手前の外側ループ繰り返しを実行するプロセッ
サは少なくとも所定数の内側ループ繰り返しだけ進むか
又はせいぜいその数だけ遅れることになる。次いで、プ
ロセッサは、内側ループ計算（ステップ２２）を実行し
、そして次の外側ループ繰り返し、即ち繰り返しＪ＋１
を実行しているプロセッサに繰り返し■を完了したこと
を報告する（ステップ２４）、プロセッサＰｊが全ての
内側ループ繰り返しを完了した後（ステップ２６）、別
の外側ループ繰り返しくステップ３０）を自由に実行す
ることを指示しくステップ３０）、そして次の未指定の
外側ループ繰り返しを実行するように指定され、ステッ
プ２０．２２及び２４を繰り返すか、又は全ての外側ル
ープ繰り返しが指定された場合には終了となる。

第１図に示された動作を容易にするために、コンパイラ
は、第２図に示す種々のデータ構造体を確立できるよう
にするコードを発生する。第２図は、参照番号３８で一
般的に示された複数のプロセッサＰａ−Ｐｎを示してお
り、これらは並列プロセッサシステムを構成する。プロ
セッサ３８は。

外側ループの繰り返しを並列に処理し、そして全ての内
側ループ繰り返しを直列に処理する。外側ループ繰り返
しの間に、各プロセッサ３８には、進行カウンタ３２及
びそれに関連した終了プラグ３４が指定される。報告動
作（ステップ２４）においては、プロセッサ３８が各々
の内側ループ繰り返しの後に指定の進行カウンタ３２を
更新する。

プロセッサは、全ての内側ループ繰り返しの完了時にそ
の進行カウンタ３２を最も高い値に増加し、これは、全
ての内側ループ繰り返しの処理後に生じるか、又は内側
ループから退出できるようにする終了基準を満たしたと
判断した場合にはそれ以前に生じる。

待機動作（ステップ２０）においては、プロセッサ３８
は、その直前の外側ループ繰り返しを処理しているプロ
セッサ３８に指定された進行カウンタ３２の値を検査す
る。進行カウンタ３２は。

手前の外側ループ繰り返しを処理しているプロセッサが
少なくとも所定数の内側ループ繰り返しだけその検査中
プロセッサ３８より進んでいるかまたはせいぜいその数
だけ遅れていることを指示する。報告するプロセッサは
、その外側ループ繰り返しを終了したときに、進行カウ
ンタの値を最も高い値にセットし、これにより、それよ
り小さい進行カウンタの値によってプロセッサ３８がそ
の外側ループ繰り返しの内側ループ繰り返しを終了する
ことのないようにされる。プロセッサ３８は、その外側
ループ繰り返しの処理を終了した後に。

それが検査した進行カウンタ３２に関連した終了フラグ
３４をセットする。更に、プロセッサ３８はその進行カ
ウンタ３２を最も大きな考えられる値に調整する。

第２図には、プロセッサ３８よりも少なくとも１つ多い
進行カウンタ３２及び終了フラグ３４が示されている。

これらの進行カウンタは、実際上、プロセッサ３８に円
形で指定される。プロセッサ３８に最後に指定された進
行カウンタ３２及び終了フラグ３４を指示するポインタ
３６が設けられる。外側ループの繰り返し数がプロセッ
サの数よりも大きい場合には、最後のポインタ３６の値
は、その増加時に、プロセッサの数プラス１のモジュロ
係数をとり、最初の使用不能な終了フラグ３４及び進行
カウンタ３２を指示する。

コンパイラによって発生されたコードは、各々のプロセ
ッサ３８が、内側ループ繰り返しの処理において手前の
外側ループ繰り返しを実行しているプロセッサの進行状
態をＩｉｌを察できるようにする。より詳細には、この
コードは、各プロセッサ３８が、その直前の外側ループ
繰り返しを処理しているプロセッサ３８によって更新さ
れる進行カウンタ３２のカウントを［９できるようにす
る。

待機コマンドの実行中に（ステップ２０）、各プロセッ
サは、外側ループの直前の繰り返しを処理しているプロ
セッサが、内側ループ繰り返しの処理において選択され
た数（Ｋ）の繰り返しだけ少なくとも進んでいるか或い
はせいぜいその数だけ遅れるまで遅延し、ここで、上記
数にはいかなる依存性も満足されるように選択される。

Ｋの値を決定するために、コンパイラは、外側ループに
よって保持された依存性に各々関連した距離ベクトル（
ＤＪ、ｄｉ）を発生し、ここでベクトル成分Ｄｊは、所
与の依存性に対し、メモリ位置に対するある基準から同
じメモリ位置に対する別の基準までの外側ループ繰り返
しの数を表し、そしてベクトル成分ｄｉは、同じ依存性
に対し、同じ基準間での内側ループ繰り返し間の距離を
表す、ベクトル成分Ｄｊの符号は、外側ループの依存性
が手前の外側ループの手前の繰り返しに対するものであ
る場合に正であり、そしてこれがその後方の外側ループ
の繰り返しに対するものである場合は負である。同様に
、ベクトル成分ｄｉの符号は、内側ループの依存性が手
前の内側ループの繰り返しに対するものである場合は正
であり、その後の内側ループの繰り返しに対するもので
ある場合は負である。距離ベクトル成分が第２図に概略
的に示されている１例えば、値Ａ　（Ｊ−１，ｌ−１）
が内側ループの計算に使用されるべき場合には、距離ベ
クトルが（＋１．＋２）である。

各依存性に対するＫＤの値は、所与のプロセッサによっ
て処理されている内側ループ繰り返しと、直前の外側ル
ープ繰り返しを処理しているプロセッサによって処理さ
れている内側ループ繰り返しとを分離する内側ループ繰
り返しの数を表している。ＫＯの値は、各プロセッサＰ
ｊ３８が別の繰り返し中に計算された値を使用して計算
を実行するときに、必要な値が既に計算されてしまって
いることを確保するように選択される。更に、値ＫＤは
、その直前の外側ループ繰り返しを処理しているプロセ
ッサ３８に関連した進行カウンタ３２から、その依存性
が満足されることを決定するだけでよい。

依存性に関連した依存ベクトル（ＤＪｌｄｌ）が正の値
の成分Ｄｊを有する場合、即ち、成分Ｄｊが手前の外側
ループ繰り返しに対する依存性を識別しそして成分ｄｉ
が正の値を有する場合、ひいては成分ｄｉが手前の内側
ループ繰り返しを識別する場合には、外側ループ繰り返
しを処理するプロセッサは、依存性をもたらす値が計算
される内側ループ繰り返しとそれが使用される内側ルー
プ繰り返しとの間の内側ループ繰り返しの数に対応する
量だけ、手前の外側ループ繰り返しを実行するプロセッ
サより進むことができるということが明らかである。し
かしながら、プロセッサが直前の外側ループ繰り返しを
処理するプロセッサの進行のみをｗ４祭できるようにす
るために、ｄｉの値をＤｊの値で除算することにより生
じる最大の整数に対応する内側ループ繰り返しの数だけ
プロセッサがその直前の外側ループ繰り返しを処理する
プロセッサより進むことができる場合に、依存性が主張
される。各々のプロセッサ３８は、その直前の内側ルー
プ繰り返しを処理しているプロセッサによって処理され
る前に内側ループ繰り返しを処理することができるので
、その値を使用するプロセッサ；３８間に許された進み
量の和により、依存性が主張されるよう確保される。

同様に、依存性に関連した依存ベクトル（Ｄｊｌ　ｄ　
ｌ）が正の値の成分Ｄｊを有する場合、即ち、成分Ｄｊ
が手前の外側ループ繰り返しに対する依存性と、０また
は負の値の成分ｄｉとを識別する場合、換言すれば、成
分ｄｉが同じ又は次の内側ループ繰り返しを識別する場
合には、外側ループ繰り返しを処理しているプロセッサ
は、依存性を生じる値が計算される内側ループ繰り返し
とそれを使用する内側ループ繰り返しとの間にある内側
ループ繰り返しの数に対応する量だけ、その手前の外側
ループ繰り返しを実行するプロセッサよりも遅れること
が必要である。しかしながら、プロセッサがその直前の
外側ループ繰り返しを処理しているプロセッサの進行の
みを観察できるようにするために、プロセッサが、ｄｉ
の値をＤｉの値で除算することにより生じる最大の整数
に対応する内側ループ繰り返しの数だけ、その直前の外
側ループ繰り返しを処理しているプロセッサより強制的
に遅らされる場合に、依存性が主張される。プロセッサ
３８の各々は、内側ループ繰り返しの処理を、その直前
の内側ループ繰り返しを処理しているプロセッサによる
処理よりも同じ量だけ強制的に遅らされるので、その値
を計算するプロセッサ３８とその値を使用するプロセッ
サ３８との開に許された進み量の和によってその依存性
が主張されるように確保される。

一方、その依存性に関連した依存性ベクトル（ＤＪｌｄ
ｌ）が負の値の成分Ｄｊを有する場合、即ち、成分Ｄｊ
がその後の外側ループ繰り返しに対する依存性と正の値
の成分ｄｉとを識別する場合、換言すれば、成分ｄｉが
手前の内側ループ繰り返しを識別する場合には、外側ル
ープ繰り返しを処理しているプロセッサは、その依存性
を生じる値が計算される内側ループ繰り返しとそれを使
用する内側ループ繰り返しとの間の内側ループ繰り返し
の数ｌこ対応する斌だけ、その後の外側ループ繰り返し
を実行するプロセッサより進むことができる、しかしな
がら、プロセッサがその直前の外側ループ繰り返しを処
理しているプロセッサの進行のみを観察できるようにす
るために、プロセッサが、ｄｉの値をＤｊの値で除算す
ることにより得られた最大の整数に対応する内側ループ
繰り返しの数だけ、その直前の外側ループ繰り返しを処
理しているプロセッサより進むことができる場合に、そ
の依存性が主張される。プロセッサ３８の各々はその直
前の内側ループ繰り返しを処理しているプロセッサによ
る処理より前に内側ループ繰り返しを処理できるので、
その値を計算するプロセッサ３８とその値を使用するプ
ロセッサ３８との間に許される進み量の和によりその依
存性が主張されるように確保される。

更に、依存性に関連した依存性ベクトル（Ｄｊｐ　ｄ　
ｌ）が負の値の成分Ｄｊを有する場合、即ち。

成分Ｄｊがその後の外側ループ繰り返しに対する依存性
と０または負の値の成分ｄｉとを識別する場合、換言す
れば、成分ｄｉが同じ又はその後の内側ループ繰り返し
を識別する場合には、外側ループ繰り返しを処理してい
るプロセッサは、その依存性を生じる値が計算される内
側ループ繰り返しとそれを使用する内側ループ繰り返し
との間の内側ループ繰り返しの数に対応する量だけその
後の内側ループ繰り返しを実行しているプロセッサより
も遅れることが必要である。しかしながら、プロセッサ
がその直前の外側ループ繰り返しを処理しているプロセ
ッサの進行のみを観察できるようにするためには、プロ
セッサが、ｄｉの値をＤｊの値で除算することにより生
じた最大の整数に対応する内側ループ繰り返しの数だけ
、その直前の外側ループ繰り返しを処理するプロセッサ
よりも強制的に遅らされる場合に、その依存性が主張さ
れる。プロセッサ３８の各々は、その直前の内側ループ
繰り返しを処理するプロセッサによる処理から同じ量だ
け内側ループ繰り返しの処理を強制的に遅らされるので
、その値を計算するプロセッサ３８と値を使用するプロ
セッサ３８との間に許される進み量の和により、その依
存性が主張されるよう確保される。

従って、値ＫＤが、所与の依存性に対し、最小の遅延フ
ァクタ、即ち、プロセッサＰｊ３８とその直前の外側ル
ープ繰り返しを処理しているプロセッサ３８とによって
処理される内側ループ繰返し間の最小の差を表わす場合
には、ＫＤの値が次の関係を満足する最小で且つ最大の
整数値となる。

ＫＤ＊Ｄｊ＋ｄｉ≧ＯＤｊが正の場合、又はＫＤ＊Ｄｊ
＋ｄｉＳＯＤｊが負の場合。

内側ループの計算が多数の依存性を含む場合には、コン
パイラは上記した各々の依存性に対しＤｊの値を決定し
そしてその最も大きなＫＤをＫとして選択することが明
らかである。

第３図及び第４図は、第２図を参照して上記した進行カ
ウンタ３２．終了フラグ３４及び最後ポインタ３６に関
連してネスト式ループ構造体を処理する際にプロセッサ
Ｐｏ−Ｐｎ３８によって実行される動作を詳細に示して
いる。

第３図を参照すれば、コンパイラによって発生されるコ
ードは、進行カウンタ３２（第２図）及びそれに関連し
た終了フラグ３４（第２図）及び最後のポインタ３６を
確立できるようにする。

制御プロセッサは、まず、これらの構造体を初期化しく
ステップ７４）そして第１の順次の外側ループ繰り返し
をプロセッサＰｏ−Ｐｎに指定する（ステップ７６）、
この動作においては、各プロセッサＰａ−Ｐｎ３８が制
御値ＪＯ及びＪｌを受は取る。値ＪＯはプロセッサＰｉ
によって処理される外側ループ繰り返しを識別し、値Ｊ
１はその直前の外側ループ繰り返しを実行している外側
ループ繰り返しによって処理される外側の内側ループ繰
り返しを識別する。

全てのプロセッサに外側ループ繰り返しが指定されると
、これらプロセッサは一緒に処理を開始しくステップ７
８）、第４図について以下に述べる動作を実行する。各
プロセッサ３８は、外側ループ繰り返しを終了すると、
全ての外側ループ繰り返しが計算されたかどうか判断す
る（ステップ８０）、もしそうならば、プログラムの計
算が終了し、プロセッサ３８が動作を終了する。しかし
ながら、プロセッサ３８は、ステップ８０において全て
の外側ループ繰り返しが処理されていないと判断すると
、最後ポインタ３６によって指示されない限り終了フラ
グ３４に関連した進行カウンタ３８を選択し、次の未処
理の外側ループ繰り返しの処理を開始する。進行カウン
タが最後ポインタ３６によって指示された場合には、プ
ロセッサは、第１進行カウンタを使用する前に最後ポイ
ンタが次の進行カウンタ３２を指すように増加されるま
で待機する。

第４図は、外側ループ繰り返しを処理する際にプロセッ
サＰｉ３８によって実行される動作を示している。プロ
セッサ３８は、先ず、内側ループインデックス■とその
終了基準とを確立する（ステップ８８）。次いで、プロ
セッサは、待機動作（ステップ９０）を実行して、値Ｊ
１により識別された外側ループ繰り返しを処理している
プロセッサ３８によって増加される進行カウンタ３２、
即ち、直前の外側ループ繰り返しを計算しているプロセ
ッサに関連した進行カウンタ３２を検査して、上記した
ように全ての依存性が満足されるよう確保する少なくと
も繰り返しＩ＋Ｋを通してその内側ループ繰り返しをい
つ完了したかを判断する。この条件に満足すると、プロ
セッサは内側ループの計算を実行しくステップ９２）そ
してその進行カウンタ３２を更新する。この更新動作の
作用は、外側ループの直後の繰り返しを処理しているプ
ロセッサにその進行を報告することである。プロセッサ
Ｐ１３８は終了基準をテストする。

内側ループの終了基準を満たさない場合には（ステップ
９６）、プロセッサはステップ９０に復帰して、次の内
側ループ繰り返しの計算を開始する。

一方、プロセッサＰｊ３８がステップ９６において内側
ループの終了基準が満足されたことを決定した場合には
、その考えられる最大値を報告するために用いる進行カ
ウンタ３２をセットする。

更に、Ｋが正である場合には、それが検査する進行カウ
ンタに関連した終了フラグ３４をセットしくステップ９
８）モしてＫが負である場合には、報告するために用い
る進行カウンタ３２に関連した終了フラグをセットし、
その進行カウンタを指定できることを指示する（ステッ
プ１００）、プロセッサＰ１３８は１次の外側ループ繰
り返しに対し最後カウンタ３６及び値ＪＯ及びＪｌを更
新する（ステップ１０２）。

以上の説明は１本発明の特定の実施例に限定された。し
かしながら０種々の変更及び修正を行なっても、本発明
の効果の幾つか又は全部を達成できることが明らかであ
ろう。それ故１本発明の真の精神及び範囲内に入る全て
の変更及び修正は特許請求の範囲内に包含されるものと
する。

【図面の簡単な説明】

第１図は、再発性を保持するネスト式ループ構造の簡単
な例に対する本発明の方法の段階を示すフローチャート
。第２図は１本発明によるネスト式ループ構造を実行する
多数のプロセッサを示す図、第３図は、本発明によるプ
ロセッサ制御機能を示すフローチャート、そして第４図は、各プロセッサにおいて実行される方法の段階
を示すフローチャートである。］、０．１８．２０．２２．２４，２８．３０・・・プ
ロセスステップ、−フーイ５デ・、フ、λ、工　）ｆ１６４璋％４ＬＪ３；１９−

Claims

【特許請求の範囲】

（１）複数のプロセッサによって並列に処理するように
外側ループ構造体及び内側ループ構造体を含むネスト式
ループ構造体をコンパイルするコンパイラであって、上
記内側ループ構造体は計算を定めるものであり、各プロ
セッサは、外側ループ繰り返しより成る内側ループ繰り
返しを直列に処理し、上記コンパイラは、ａ）各プロセッサが少なくとも１つの内側ループ繰り返
しより成る外側ループ繰り返しを処理できるようにする
ためのコードを発生する外側ループ部分と、ｂ）内側ループ部分とを具備し、該部分は、ｉ）各プロセッサが遅延のための待機動作を実行できる
ようにするコードを、手前の外側ループ繰り返しを実行
しているプロセッサがプロセッサによって実行されてい
る内側ループ繰り返しより前の所定数の内側ループ繰り
返しに到達するまで、発生するための特機部分と、ｉｉ）待機動作に続いて、内側ループ構造体によって定
められた計算を各プロセッサが実行できるようにするコ
ードを発生するための計算部分と、ｉｉｉ）上記計算の完了に続いて、その後の外側ループ
繰り返しを実行しているプロセッサに対して完了した内
側ループ繰り返しを各プロセッサが報告できるようにす
るコードを発生するための報告部分とを備えたことを特
徴とするコンパイラ。