JP2947356B2

JP2947356B2 - 並列処理システム及び並列プロセッサの同期方法

Info

Publication number: JP2947356B2
Application number: JP1198085A
Authority: JP
Inventors: ラジブ・ギュプタ; マイケル・アブラハム・エプスタイン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1988-08-02
Filing date: 1989-08-01
Publication date: 1999-09-13
Anticipated expiration: 2014-09-13
Also published as: DE68927946T2; JPH02110763A; US5802374A; EP0353819A2; EP0353819A3; DE68927946D1; EP0353819B1; US5787272A

Description

【発明の詳細な説明】〔発明の分野〕本発明は並列プロセッサを同期させる方法及び装置に
関するものである。特に本発明は斯種の同期化に対する
バリヤ（barrier）の使用に関するものである。

〔発明の背景〕

従来の並列処理システムは並列命令ストリームに変換
されたコンピュータコードを実行する。コンピュータコ
ードを並列命令ストリームに分けることについては、例
えばエム・ウォルフェ（M.Wolfe）外１名による論文“D
ata Dependence and Its Application to Parallel Pro
cessing",“International Journal of Parallel Progr
amming,Vol,16,No.2,1987年４月，第137〜178頁及びエ
ッチ・ストーン（H.stone）著による文献“High Perfor
mance Computer Architecture"（Addison Wesley 1987
年，第321頁及び第336〜338頁に記載されている。命令
ストリームの幾つかは字句的にフォワードな従属性（le
xically forward dependences）及び／又はループ繰上
げ従属性（loop carried dependences）を有している。
字句的にフォワードな従属性の概念については、1986年
IEEE International Conference on Parallel Proces
singの第836〜844頁、特に第838頁におけるアール・シ
トロン（R.Cytron）による論文“Doacross:Beyond Vect
orization for Multiprocessors"に記載されている。字
句的にフォワード及びループ繰上げ従属性のために命令
ストリーム間の同期をとる必要がある。

「バリヤ」を用いることによって斯様な同期をとるこ
とができる。バリヤとは、それぞれの並列命令ストリー
ムにおいて、各並列プロセッサが互いに同期をとるため
に待たなければならない個所のことである。同期をとる
ためにバリヤを用いることについてはProceedings 1986
International Conference Parallel Processing,1986
年８月，第528〜535頁におけるピー・タング（P.Tang）
外１名による論文“Processor Self−Scheduling for M
ultiple−Nested Parallel Loops"に記載されている。

同期のために斯様な停止点を用いる並列処理システム
の詳細については米国特許第4,344,134号、第4,365,292
号及び第4,412,303号に開示されている。

従来の並列処理システムでは、個々のプロセッサを同
期させる間これらのプロセッサを互いに待たせ、時間を
浪費しなければならない。これによりシステムの効率低
下をまねいている。待ち時間は一方のプロセッサがその
割当てコードを他方のプロセッサよりも速く実行し得る
ために生じるのであり、又斯様な待ち時間は同期処理又
は同期用のハードウェアをアクセスしたり、又は他の共
用機構をアクセスするのに種々のプロセッサ間にて競合
があるために生じたりする。

〔発明の概要〕

特に本発明の目的は、個々のプロセッサが互いに待つ
ために浪費しなければならない時間を短縮することによ
り効率を高める並列処理システムを提供することにあ
る。

この目的は、並列プロセッサの内の少なくとも１つ
が、他の少なくとも１つのプロセッサとの同期を待つ間
に少なくとも１つの非アイドリング命令を実行するよう
に前記並列プロセッサを同期させる同期装置によって達
成される。或る特定カテゴリの非アイドリング命令と
は、ユーザ又は応用プログラムにて特徴付けるものであ
り、又他のカテゴリの非アイドリング命令とは、命令−
決定の遅延を生成する以外は当面のプロセッサの内部演
算でソースタスクを実行することに関連する１つの命令
とすることができる。特に、上述した目的はそれぞれの
命令ストリームにおけるコードの所定領域を同定し、且
つ識別して実現することができる。これらの領域のこと
をここでは「アンシェーデッド」（unshaded）に対する
「シェーデッド」（shaded）領域と称する。シェーデッ
ド領域をここでは「ファジィ」バリヤとも称する。プロ
セッサは各シェーデッド領域に達する際に同期化を試み
始める。この同期化は、関連するタスクを実行する全て
のプロセッサがそれらの各対応するシェーデッド領域に
先行しているアンシェーデッド領域における全ての命令
を完全に実行し終わるまでは各シェーデッド領域に続く
命令をプロセッサが実行しなくなる際に達成される。

上記目的は並列プロセッサ間の同期情報を調整し、且
つ同期情報に絶えず注意を払う状態マシンを用いる装置
によっても達成される。

〔実施例〕

以下実施例につき図面を参照して説明するに、第1a図
はシェーデッド領域を作るためにソースコードをコンパ
イルする方法を示す流れ図である。

ボックス101にてコンパイルがソースコードで開始す
る。並列処理するのに好適なソースコードの一例はつぎ
の通りである。

ここでは二次元整数アレイａ〔ｊ〕〔ｉ〕の全ての要
素に適当な値を割当てる。

ボックス102では別個のプロセッサで実行させること
のできるコード部分をコンパイラによって識別する。ボ
ックス102では前記H.Stoneによる文献及び前記M.Wolfe
外１名による論文に記載されているような方法を用い
る。上記ソースコードの例では内部ループを別々のプロ
セッサで並列に実行させることができる。この場合の内
部ループに対するコードを後記表Ａに示してあり、この
表におけるbrrはバリヤを表わす。

バリヤはループ繰上げ従属性のために挿入してある。
換言するに、本例では、ループの第１繰返しでプロセッ
サP2が計算したａ〔１〕〔３〕の値をループの第２繰返
しでプロセッサP1が必要とする。従来３個の各プロセッ
サは、他の各プロセッサがバリヤに達するまで各ループ
にて待たなければならなかった。

ボックス103では標準技法を用いてコンパイラが中間
コードを発生する。この中間コードは、つぎに後続する
コードに応じて「３アドレスコード」と称される標準の
表記法で表わされる。このコード及びそれを発生させる
ための技法についてはエー・アーオ（A.Aho）外１名に
よる文献“Principles of Compiler Desigh"（Addison
Wesley 1979）の第７節に記載されている。

本例では３つのプロセッサに対する中間コードの値
を、プロセッサP1,P2及びP3に対して2,3及び４にそれぞ
れ初期設定される“i"の値以外は同じとする。

ボックス104はシェーデッド及びアンシェーデッド領
域を識別する。シェーデッド領域はファジィバリヤを制
定する。換言するに、慣例のバリヤの場合のように、プ
ロセッサはシェーデッド領域に達すると、このプロセッ
サは同期化を所望する。しかし、このような従来のバリ
ヤの場合に対し、ファジィバリヤ、即ちシェーデッド領
域の場合にはプロセッサは同期するのを待っている間に
命令を実行するのを継続することができる。アンシェー
デッド領域はプロセッサが同期を求めない領域を制定す
る。

ボックス104以後の中間コードは後記表Ｂに示すよう
にし、開始時における適当なコメントは：コメント:Aをアレイａの基本アドレスとする；とし、又第１中断ライン以降の第２コメントは：コメント：アンシェーデッド領域とする。

ボックス104はこれらのシェーデッド及びアンシェー
デッド領域をつぎのように確かめる。不履行、即ちアン
シェーデッド領域が識別されない場合には、シェーデッ
ド領域における命令が不履行となる。この不履行が設定
される理由は、シェーデッド領域における命令を実行し
ている間にマイクロプロセッサは決して停止できないか
らである。これがため、シェーデッド領域の方が好まし
い。

アンシェーデッド部分はつぎの２つの主工程にて見つ
ける。先ず字句的にフォワードな従属性及び／又はルー
プ繰上げ従属性LFDを有する最初と最後の命令をアンシ
ェーデッド部分として識別する。この場合におけるこれ
らの最初と最後の命令との間の全ての命令もアンシェー
デッド部分である。本例におけるI1及びI2はループ繰上
げ従属性のみを有する命令である。命令I1の実行中にプ
ロセッサは以前の繰返しで他の或るプロセッサが計算し
た値をアクセスする。命令I2の実行中にはつぎの繰返し
にて他の或るプロセッサにより用いられる値をアレイに
記憶させる。これがため、命令I1,I2及びこれらの間の
全ての命令はアンシェーデッド部分である。

コードを実行するに当り、他の全てのプロセッサがそ
れぞれ対応するシェーデッド領域に先行しているアンシ
ェーデッド領域における命令を全て実行し終るまでプロ
セッサがシェーデッド領域に後続するアンシェーデッド
領域の命令を実行しなければ、並列プロセッサは「同期
化」されることになる。このような要件からして、字句
的にフォワードな従属性及びループ繰上げ従属性となる
それらの命令は、これらの従属性が解消されるまでは実
行させることができない。

ブロック105では中間コードをリオーダして効率をさ
らに高める。この目的には標準のリオーダ技法を用いる
ことができる。プロセッサは、それがシェーデッド領域
における命令を実行している間は決して停止させること
ができないから、アンシェーデッド領域が小さくなるに
つれて効率は高くなる。これがため、リオーダ技法を用
いてアンシェーデッド領域における命令数を減らすよう
にする。従って、リオーダした後には中間コードを上述
したのと同じコメントで後記表Ｃに示すように変換す
る。

斯かるリオーダ処置では、I1とI2との間の３つの命令
をアンシェーデッド領域外へと動かした。本例では、３
つの命令をI1の上に動かした。場合によっては、字句的
にフォワード又はループ繰上げ従属性を有する最終命令
を過ぎた命令を動かすことによっても同じ効果を達成す
ることができる。換言するに、命令はこれらを上方（I1
の上）又は下方（I2の下）に動かすことによってアンシ
ェーデッド領域から動かすことができる。

上記中間コードを読取るには、読取器によってその中
間コードがループの一部である旨を認める必要がある。
従って、アンシェーデッド領域の後のシェーデッド領域
は、つぎのループ繰返しでアンシェーデッド領域の前の
シェーデッド領域に結合する。例えば、ループの最初の
繰返し終了時に第１プロセッサはループの冒頭に戻っ
て、コードを実行し続けることができる。他の全てのプ
ロセッサが、それらの第１繰返しで各命令I2を実行し終
えた場合には、第１プロセッサはその第２繰返しで命令
I1を実行し始めることができる。殆どの命令はシェーデ
ッド領域にあるから、プロセッサは互いに同期を待つの
に殆ど、或いは全く時間がかからず、特にシェーデッド
領域を特徴付けることによってプロセッサ間の結合を左
程厳格としないで済む。

ボックス106では中間コードをアセンブルする。上記
例に対する各プロセッサ用のVAXアセンブリコードを後
記表Ｄに示してある。アセンブリは標準コンパイラによ
り行われる標準の処置である。アセンブルする期間中に
は、この目的のために命令中にリザーブした１ビットを
ターン・オンさせることによって命令をシェーデッド領
域の部分としてマークすることができる。このビットを
「Ｉ−ビット」と称する。

ボックス105に用いることのできるリオーダ技法の１
つを第1b図の流れ図で説明する。第1b図では字句的にフ
ォワード又はループ繰上げ従属性でない命令にはＪ▲
▼なる表記法を用い、字句的フォワード又はループ
繰上げ従属性を有する命令にはJ_LFDなる表記法を用い
る。タイプＪ▲▼の全ての命令は将来アンシェー
デッド領域から動かすものである。一般に、２つの命令
J_i及びJ_i+1がこの順序で与えられると、つぎの条件が双
方共に真であればJ_i+1をJ_iの上に動かすことができる。

条件1:J_iはJ_i+1が書込むメモリ位置からは読出さな
い；条件2:J_iはJ_i+1が読出すメモリ位置には書込まない。

第1a図の場合にはアンシェーデッド領域が命令J₁,J₂,
J₃−−−J_Nのシーケンスを有するものとする。

ボックス150ではJ_iにタイプＪ▲▼の第１命令
を割当てる。ボックス151ではJ_iに先行するアンシェー
デッド領域における第１命令をJ_jに割当てる。ボックス
152では各命令に対し条件１及び条件２をテストする命
令J_j〜J_iをループする。双方の条件１及び２が所定の命
令に対して真である場合に、ブランチ153へと進む。条
件１及び条件２のいずれか一方、又は双方共に誤りであ
る場合にはブランチ154へと進む。

ブランチ153はボックス155に至り、ここでJ_jがJ_iに先
行しいるアンシェーデッド領域における最終命令である
か否かをテストする。ボックス155でのテスト結果が誤
りである場合にはボックス157へのブランチ156へと進
み、このボックス157にて命令J_iに先行しているアンシ
ェーデッド領域におけるつぎの命令をJ_jに割当てる。ボ
ックス157の後はボックス152に戻す。

ボックス155でのテスト結果が真である場合にはブラ
ンチ158からボックス159へと進めて、ここで命令J_iをア
ンシェーデッド領域の外へ動かす。上述した処置は命令
を如何にして動かすことができるかを示している。ボッ
クス159の後はブランチ154へと進める。

ボックス152でのテスト結果が双方共に誤りである場
合にはボックス160へのブランチ154へと進め、このボッ
クス160ではJ_iがアンシェーデッド領域におけるタイプ
Ｊ▲▼への最終命令であるか、否かをテストす
る。ボックス160でのテスト結果が真である場合には第1
b図の方法を161の個所にて終了させる。ボックス160で
のテスト結果が誤りである場合には、ボックス163に至
るブランチ162へ進める。

ボックス163ではタイプＪ▲▼のつぎの命令をJ
_iに割当てる。ボックス163の後は第1b図の方法をボック
ス151へと戻す。

上述した例での上記各ステップを実行させることによ
り、アンシェーデッド領域にあるべきとする僅か２つの
命令をI1及びI2としてマークされる命令であるとして決
定する。

第1b図に示した処置に似ている処置を適用して、字句
的フォワード又はループ繰上げ従属性とはならない残り
の命令をアンシェーデッド領域の下方で、しかもその領
域外に動かすことができる。この同様な処置が第1b図に
つき述べた処置と異なる点は、１つの命令をアンシェー
デッド領域における先行している全ての命令と比較する
代りに、コンパイラによって１つの命令を後続する全て
の命令と比較すると云う点だけにある。

第２図はそれぞれ命令メモリ205,206,207及び208を伴
なう４個の並列プロセッサ201,202,203及び204を具えて
いる並列処理システムのブロック図である。プロセッサ
の数ｎは任意とすることができ、ここにｎは２以上の整
数とする。第２図の例では判り易くするためにプロセッ
サの数を４個とした。並列プロセッサ201,202,203及び2
04はデータメモリ209を共用する。各プロセッサはそれ
ぞれバリヤユニット210,211,212及び213Aを有してい
る。各バリヤユニット210,211,212及び213Aは４個の入
力端子と２個の出力端子を有している。他のプロセッサ
からの３つの入力は他の各プロセッサが同期化を所望す
るか、否かを指示する。これらの入力をここではWANT−
INと称する。他のプロセッサへ進む出力は各プロセッサ
が同期化を所望する旨を示す。これらの出力をここでは
WANT−OUTと称する。各バリヤユニット210,211,212及び
213Aは、その各実行ユニット213,214,215及び216からの
各Ｉ−入力端子及び各実行ユニットへの各STALL−出力
端子も有している。

第３図はバリヤユニット210,211,212及び213Aの１つ
を含む並列プロセッ201,202,203及び204の１つを詳細に
示したブロック図である。バリヤユニットは同期化情報
を受信し、処理し、且つ送出する。実行ユニット328内
に示す命令レジスタ301の容量は、関連する命令セット
における最長命令とＩ−ビット302を含めるのに十分な
大きさとする。プロセッサはマシンサイクル当り１つの
命令を実行するRISCプロセッサであるものとする。Ｉ−
ビットは命令レジスタ301における命令がシェーデッド
領域におけるものである場合にターン・オンされる。
又、このＩ−ビットは斯かる命令がアンシェーデッド領
域におけるものである場合にはターン・オフする。

命令レジスタ301の容量を小さくし、命令が数ワード
の形態をとるようにすることもでき、この場合には命令
の第１ワードにおけるＩ−ビットをロックアウトさせて
除くロジック（図示せず）を設けるようにする。シェー
デッド領域及びアンシェーデッド領域の冒頭部をマーク
するために各命令ストリームに完全命令を授けることも
できるが、この場合には状態マシーンを多少変更する必
要がある。又、この方法では各命令ストリームに命令を
加えることになるが、この方法はＩ−ビット法に比べて
既存のハードウェア及びマシン命令セットを多少変更す
るだけで済む。

マスクレジスタ303は内部的にアドレスされる特殊な
レジスタであり、これはｎ−１ビット（ここにｎはシス
テムにおけるプロセッサの個数である）とする。本例で
はｎ＝４とする。各プロセッサは第３図の装置を内蔵し
ている。従って、マスクレジスタ303はシステムにおけ
る他のプロセッサに絶えず注意を払うために３ビットと
する必要がある。このマスクレジスタ303は関連するタ
スクを実行しない他のプロセッサを無視するために用い
る。マスクレジスタ303の１ビットは、対応する他のプ
ロセッサが関連するタスクを実行している際にターン・
オフする。マスクレジスタの１ビットは対応する他のプ
ロセッサが関連タスクを実行していない場合にターン・
オンする。マスクレジスタ303は３ビット入力端子320か
らマスクビットを受信する。本例では３個のプロセッサ
だけにコードを実行させる必要がある。これがため、マ
スクレジスタ303の２ビットはループの１つを実行して
いる各プロセッサではターン・オフする。第３ビットが
ターン・オンすると、ループ実行中のプロセッサはルー
プを実行していない１つのプロセッサを無視する。コン
パイラはどのプロセッサがバリヤにて同期しているかを
知って、マスクレジスタ303に適当なビットを書込ませ
る命令を発生させることができる。

マスクレジスタのビットが他の１つのプロセッサにて
オンすることにより無視されるプロセッサは、斯かる他
のレジスタに固有のマスクレジスタをセットすることに
よりそのプロセッサを無視して独立のタスクを実行する
ことができる。このような独立タスクには並列処理を必
要とする独立ジョブで独立した同期化を図ることができ
る。

WANT−INは他のプロセッサからの「WANT」ビットを受
信するためのｎ−１ビット入力である。WANTビットは対
応するプロセッサが同期化を望む場合にオンする。

整合回路304はマスクレジスタ303におけるビット及び
入力WANT−INにおけるWANTビットを調整するためのロジ
ックを含んでいる。整合回路304の出力を「MATCH」と称
し、これは関連する他のプロセッサ全てが同期化を望む
場合にだけオンする。

状態マシン305はＩ−ビット302と整合回路304の出力M
ATCHを用いて同期化状態を決定する。状態マシン305は
２ビット、即ちSTALLとWANT−OUTを出力する。STALLは
プロセッサが命令を実行している時はオフする。STALL
がターン・オンするとプロセッサは命令の実行を停止す
る。WANT−OUTは各プロセッサが同期化を望む場合にタ
ーン・オンし、そうでない場合にターン・オフする。

第４図は状態マシン305に対する状態図である。本例
では状態マシンを所謂メアリ（Mealy）マシンとする。
このマシンでは、これが状態を変えなくても出力STALL
及びWANT−OUTは変化することができる。第４図では状
態マシン305への入力を小さな活字で示し、又状態マシ
ン305からの出力を大きな活字で示してある。

各プロセッサ201,202,203及び204は第４図につき説明
するような１つの状態マシンを含んでいる。これらの状
態マシンを作動させるためには状態マシン間で信号を同
期させる共通のクロック又は他の手段を設ける必要があ
る。図面の簡単化のために状態マシン305を同期させる
回路は図示してない。

トランジョン401は状態マシン４を状態０に留めるこ
とに相当し、Ｉ−ビットがオフである間は状態マシンは
状態０のままである。換言するに、プロセッサはコード
のアンシェーデッド領域を実行し、コードのシェーデッ
ド領域へは進まない。この場合、STALL及びWANT−OUTは
双方共にオフである。

トランジョン402は状態マシンを状態０から状態１に
する。状態マシンは、その各プロセッサが同期化の用意
が整っているも、少なくとも１つの他のプロセッサが同
期化の準備が成されていない場合、即ちＩ−ビットがオ
ンで、MATCHがオフである場合にトランジョン402をと
る。第４図では条件Ｉ＝０及びMATCH＝０をＩ^＊及びMAT
CH^＊にてそれぞれ示してある。トランジション402の期
間中はWANT−OUTがオンし、STALLはオフする。第４図
で、STALL又はWANT−OUTがオフする場合は省いてある。
トランジション404は状態マシンを状態１に保持する。
マシンは、同期化を望んでいるも、まだ同期せず、命令
を実行し続けている限りトランジション404をとる。即
ち、マシンはＩ−ビットがオンし、MATCHがオフしてい
る間は状態１に留まる。状態１の期間中WANT−OUTはオ
ンし、STALLはオフする。

トランジション403はマシンを状態０から状態２にす
る。マシンはそのプロセッサが同期化の用意が整い、し
かもそれが同期化の用意が整った最後のプロセッサであ
る場合にトランジション403をとる。幾つかのプロセッ
サは同時に状態２に達することができ、従ってそれらの
プロセッサは同時に同期化の用意が整った「最終」プロ
セッサでもある。状態２はプロセッサが同期化される状
態である。状態マシン305がトランジション403をとる
と、このマシンはWANT−OUTをオンさせたままとする。
しかし、マシンはそれが状態２に達すると、WANT−OUT
をターン・オフする。STALLはオフしたままである。

トランジション405はマシンを状態１から状態２にす
る。マシンは各プロセッサが依然シェーデッド領域にあ
り、同期化を希望しており、しかも全ての他のプロセッ
サがそれらの各シェーデッド領域に達している場合、即
ちＩ−ビット及びMATCHの双方がオンする場合にトラン
ジション405を生ぜしめる。マシンがトランジション405
を生じさせると、これはWANT−OUTビットをオンさせ
る。トランジション405の期間中はSTALLがオフする。WA
NT−OUTビットはマシンが状態２に達するとオフに戻
る。

トランジション406はマシンを状態１から状態３にす
る。マシンは、これがそのシェーデッド領域を離れる用
意が整っているも、マシンを状態２にすることはできな
かった場合にトランジション406を生ぜしめる。即ち、
Ｉ−ビットがターン・オフし、MATCHがオフである場合
にトランジション406を生じさせる。この点にて各プロ
セッサは停止しなければならない。これがため、WANT−
OUT及びSTALLの双方はターン・オンする。

トランジション407はマシンを状態１から状態０にす
る。マシンはMATCHがターン・オンし、これと同時に該
当プロセッサがシェーデッド領域を同時に離れる際に斯
かるトランジションを生ぜしめる。マシンはトランジシ
ョン407の期間中はWANT−OUTをオンしたままとし、マシ
ンが状態０に達すると再びそれをオフにする。

トランジション408は状態マシン305を状態２から状態
０にする。トランジション408は同期化後でＩ−ビット
がターン・オフする際、即ち各プロセッサがシェーデッ
ド領域を離れる際に生ずる。トランジション408の期間
中にはWANT−OUT及びSTALLが共にオフする。

トランジション409はマシンを状態２に保つ。トラン
ジション409は、同期化後にＩ−ビットが１のままであ
ると、即ち各並列プロセッサが同期化後にシェーデッド
領域に留まると発生する。トランジション409の期間中
はWANT−OUT及びSTALLが共にオフする。

トランジション411はマシンを状態３に保ち、即ちマ
シンを停止させて、同期するのを待つ。マシンはMATCH
がオフしている限りトランジション411を生じさせる。
マシンは状態３にある間はWANT−OUT及びSTALLの双方を
オンし続ける。

トランジション410はマシンを状態３から状態０にす
る。マシンは、それが他のマシンとの同期に成功して、
シェーデッド領域を離れることができるようになると、
即ちMATCHがターン・オンするとトランジション410を生
じさせる。このトランジション410の期間中はWANT−OUT
はオンしたままである。WANT−OUTはマシンが一旦状態
０に達するとターン・オフする。トランジション410の
期間中にはSTALLがオフする。

第５図はボックス（整合回路）304を詳細に示したも
のであり、この第５図にはマスクレジスタ303の３ビッ
ト501,502及び503も示してある。マスクレジスタ303が
３ビットを有するのは、システムに３つの他の並列プロ
セッサがあるからである。WANT−INの３ビットを３つの
別個のラインWANT−IN0,WANT−IN1及びWANT−IN2として
示す。マスタレジスタビット503及びWANT−IN0をORゲー
ト504に供給する。マスクレジスタビット502及びWANT−
IN1をORゲート505に供給する。マスクレジスタビット50
1及びWANT−IN2をORゲート506に供給する。ORゲート50
4,505及び506の出力はANDゲート507に供給する。このAN
Dゲート507の出力がMATCHである。

従って、出力MATCHは無視されていない他の全てのプ
ロセッサが同期化を望む場合にオンする。出力MATCHは
他の全てのプロセッサが無視されている場合にもオンす
る。

【図面の簡単な説明】

第1a図はシェーデッド及びアンシェーデッド領域を識別
するためにソースコードをコンパイルする方法を説明す
るための流れ図；第1b図はコードをリオーダする工程を説明するための流
れ図；第２図は本発明による並列処理システムを示すブロック
図；第３図は並列プロセッサ同期化回路の一例を示すブロッ
ク図；第４図は第３図の回路の状態図；第５図は第３図の回路における整合回路の一例を示す詳
細図である。 201,202,203,204……並列プロセッサ 205,206,207,208……命令メモリ 209……データメモリ 210,211,212,213A……バリヤユニット 213,214,215,216……実行ユニット 301……命令レジスタ 303……マクスレジスタ 304……整合回路 305……状態マシン 328……実行ユニット 504,505,506……ORゲート 507……ANDゲート

フロントページの続き (56)参考文献特開昭62−35974（ＪＰ，Ａ) ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＳＰＬＯＳ ▲ＩＩＩ▼ Ｖｏｌ．24 Ｓｐｅｌｓｓｕｅ 1989 ｐ54−63 (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/177 ＷＰＩＩＮＳＰＥＣＪＯＩＳ

Claims

(57)【特許請求の範囲】

【請求項１】a.それぞれの各プロセッサが並列命令スト
リームのうちの各１つを処理する複数個の並列プロセッ
サ（201,202,203,204）；及び b.前記プロセッサを同期させる同期化手段（210,211,21
2,213A）；を具えている並列処理システムにおいて、 c.前記それぞれの各命令ストリームが、プロセッサ間の
同期をとる必要がある複数命令のアンシェーデッド領域
間にあって、プロセッサ間の同期をとる必要がない複数
命令のシェーデッド領域を包含し；且つ d.前記同期化手段が： −前記複数のプロセッサのうちの或る特定のプロセッサ
が、或るシェーデッド領域に後続するアンシェーデッド
領域における命令を、他のプロセッサがシェーデッド領
域に先行しているアンシェーデッド領域における全ての
命令を実行し終わるまでは、実行しなくすることにより
同期を確立し；且つ −前記特定のプロセッサが同期を企てている間に該特定
のプロセッサがシェーデッド領域における命令を実行し
得るべく；作動するようにしたことを特徴とする並列処理システ
ム。
【請求項２】コンピュータコードを複数の並列命令スト
リームとして実行し、且つ前記同期化手段が複数の同期
装置（210,211,212,213A）を具え、前記プロセッサのう
ちの或る特定のプロセッサを同期させる各特定の同期装
置が： a.他の少なくとも１個のプロセッサと通信するための通
信手段（306,307）；及び b.他のプロセッサから受信した情報に基づいて前記特定
のプロセッサを制御するための制御手段（303,304,305,
328）；を具えていることを特徴とする請求項１に記載の並列処
理システム。
【請求項３】a.前記通信手段が： i.少なくとも１個の他のプロセッサから、該他のプロセ
ッサが同期を望む旨の指示を受取る入力手段（306）
と； ii.前記特定のプロセッサが同期を望む旨の指示を送出
する出力手段（307）と；を具え、 b.前記制御手段が： i.前記特定のプロセッサ用の命令ストリームにおけるシ
ェーデッド領域とアンシェーデッド領域とを識別する手
段（301,302）；及び ii.前記シェーデッド及びアンシェーデッド領域の識別
結果に応答し、且つ前記受信した指示に応答して前記特
定プロセッサ用の命令ストリームの実行を制御する実行
制御手段（305,328）；を具え、前記制御手段が前記入力手段及び前記出力手段
に結合されるようにしたことを特徴とする請求項２に記
載の並列処理システム。
【請求項４】前記同期装置が、多数の並列命令ストリー
ムに応じて前記他のプロセッサのうちの少なくとも１個
の第２プロセッサを無視する無視手段（303,320）を具
えていることを特徴とする請求項２に記載の並列処理シ
ステム。
【請求項５】前記無視手段がマスクレジスタを具えてい
ることを特徴とする請求項４に記載の並列処理システ
ム。
【請求項６】前記同期装置が、多数の並列命令ストリー
ムに応じて前記並列プロセッサのうちの少なくとも２つ
のプロセッサを無視して、これら少なくとも２つのプロ
セッサが独立して同期するようにする手段（303,320）
を具えていることを特徴とする請求項２に記載の並列処
理システム。
【請求項７】前記実行制御手段（305）が状態マシンを
具えていることを特徴とする請求項３に記載の並列処理
システム。
【請求項８】前記状態マシンが： a.前記入力手段に結合され、前記指示を受とるためのWA
NT入力端子（306）と； b.前記シェーデッド及びアンシェーデッド領域を識別す
る信号を受信するための第２入力端子と； c.前記出力手段に結合され、送出指示を供給するための
第１出力端子（307）と； d.各プロセッサの前記実行制御手段（328）に結合さ
れ、停止状態では各プロセッサの実行を停止し、それ以
外では各プロセッサを作動させることができる信号を供
給するSTALL出力端子（308）と；を具えていることを特
徴とする請求項７に記載の並列処理システム。
【請求項９】前記状態マシンがつぎの４つの状態： a.プロセッサがアンシェーデッド領域における命令を実
行する第１状態； b.他のプロセッサがそれぞれ各自のシェーデッド領域に
達するのを待っている間に当該プロセッサがシェーデッ
ド領域の命令を実行する第２状態； c.他のプロセッサがそれぞれ各自のシェーデッド領域に
達しても当該プロセッサがシェーデッド領域の命令を実
行する第３状態；及び d.当該プロセッサがシェーデッド領域の終りに達したら
停止して、他のプロセッサがそれぞれ各自のシェーデッ
ド領域に達するのを待機する第４状態；をとるようにしたことを特徴とする請求項８に記載の並
列処理システム。
【請求項１０】前記同期装置が多数の並列命令ストリー
ムに応じて前記他のプロセッサのうちの少なくとも１個
の第２プロセッサを無視するためのマスクレジスタ（30
3）も具え、且つ前記命令実行手段（305,328）が： a.前記入力手段に結合され、前記指示を受とるためのWA
NT入力端子（306）と； b.前記シェーデッド及びアンシェーデッド領域を識別す
る信号を受信するための第２入力端子と； c.前記出力手段に結合され、送出指示を供給するための
第１出力端子（307）と； d.各プロセッサの前記実行制御手段（328）に結合さ
れ、停止状態では各プロセッサの実行を停止し、それ以
外では各プロセッサを作動させることができる信号を供
給するSTALL出力端子（308）と；を具えている状態マシ
ンを含むようにしたことを特徴とする請求項３に記載の
並列処理システム。
【請求項１１】それぞれの各プロセッサが並列命令スト
リームのうちの各１つを処理する複数個の並列プロセッ
サ及びこれらのプロセッサを同期させる同期化手段（21
0,211,212,213A）を具えている並列処理システム用のコ
ンピュータコードをコンパイルする方法であって、それ
ぞれの各命令ストリームが、プロセッサ間の同期をとる
必要がある複数命令のアンシェーデッド領域間にあっ
て、プロセッサ間の同期をとる必要がない複数命令のシ
ェーデッド領域を包含し、前記それぞれのプロセッサを
並列に実行させることができる前記コンピュータコード
の複数の各部分を識別する第１識別ステップ（102）を
具えている、並列処理システム用のコンピュータコード
をコンパイルする方法において、 −前記同期化手段を作動させる前記コンピュータコード
のそれぞれの部分のうちの少なくとも１つのコード部分
内におけるシェーデッド領域及びアンシェーデッド領域
を識別する第２識別ステップ（104）が：前記少なくとも１つのコード部分にて、字句的にフォワ
ードか、又はループ繰上げ従属性を有する命令のうちの
最初と、最後と、中間の命令を前記アンシェーデッド領
域のうちの特定の領域に割当てるステップを含むことを
特徴とするコンピュータコードのコンパイル方法。
【請求項１２】それぞれの各プロセッサが並列命令スト
リームの各１つを処理する複数個の並列プロセッサを同
期させる方法において、当該方法が： −それぞれの各命令ストリームに、プロセッサ間の同期
をとる必要がある複数命令のアンシェーデッド領域間に
あって、プロセッサ間の同期をとる必要がない複数命令
のシェーデッド領域を設けるステップと； −前記複数のプロセッサのうちの或る特定のプロセッサ
が、或るシェーデッド領域に後続するアンシェーデッド
領域における命令を、他のプロセッサがシェーデッド領
域に先行しているアンシェーデッド領域における全ての
命令を実行し終わるまでは、実行しなくすると共に、前
記特定のプロセッサが同期を企てている間に、この特定
のプロセッサがシェーデッド領域における命令を実行し
得るようにするステップと；を具えていることを特徴とする並列プロセッサの同期方
法。