JPH02110763A

JPH02110763A - 並列処理システム及び並列プロセッサの同期方法

Info

Publication number: JPH02110763A
Application number: JP1198085A
Authority: JP
Inventors: Rajiv Gupta; ラジブ・ギュプタ; Michael Abraham Epstein; マイケル・アブラハム・エプスタイン
Original assignee: Philips Gloeilampenfabrieken NV
Current assignee: Koninklijke Philips NV
Priority date: 1988-08-02
Filing date: 1989-08-01
Publication date: 1990-04-23
Anticipated expiration: 2014-09-13
Also published as: JP2947356B2; US5787272A; DE68927946T2; US5802374A; EP0353819A3; EP0353819A2; DE68927946D1; EP0353819B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の分野〕本発明は並列プロセッサを同期させる方法及び装置に関
するものである。特に本発明は斯種の同期化に対するバ
リヤ（ｂａｒｒｉｅｒ　）の使用に関するものである。

〔発明の背景〕

従来の並列処理システムは並列命令ストリームに変換さ
れたコンピュータコードを実行する。コンピュータコー
ドを並列命令ストリームに分けることについては、例え
ばエム・ウォルフェ（Ｍ、Ｗｏｌｆｅ）外１名による論
文”Ｄａｔａ　Ｄｅｐｅｎｄｅｎｃｅ　ａｎｄ　Ｉｔｓ
　Ａｐｐｌｉｃａｔｉｏｎ　ｔｏ　Ｐａｒａｌｌｅｌ　
Ｐｒｏｃｅｓｓｉｎｇ”　　、　”Ｉｎｔｅｒｎａｔｉ
ｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｐａｒａｌｌｅｌ　
Ｐｒｏｇｒａｍｍｉｎｇｔ　ＶｏＬ１６、　Ｎｏ、　２
．１９８７年４月、第１３７〜１７８頁及びエッチ・ス
トーン（Ｈ，５ｔｏｎｅ　）著による文献“旧ｇｈＰｅ
ｒｆｏｒｍａｎｃｅ　Ｃｏｍｐｕｔｅｒ　Ａｒｃｈｉｔ
ｅｃｔｕｒｅ　”　　（ＡｄｄｉｓｏｎＷｅｓｌｅｙ　
１９Ｂ７年、第３２１頁及び第３３６〜３３８頁に記載
されている。命令ストリームの幾つかは字句的にフォワ
ードな従属性（ｌｅｘｉｃａｌｌｙ　ｆｏｒｗａｒｄ　
ｄｅｐｅｎｄｅｎｃｅｓ　）及び／又はループ繰上げ従
属性（１ｏｏｐｃａｒｒｉｅｄ　ｄｅｐｅｎｄｅｎｃｅ
ｓ　）を有している。字句的にフォワードな従属性の概
念については、１９８６年ＩＥＥＥ　Ｉｎｔｅｒｎａｔ
ｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐａｒａｌ
ｌｅｌＰｒｏｃｅｓｓｉｎｇの第８３６〜８４４頁、特
に第８３８頁におけるアール・シトロン（ＲｏＣｙｔｒ
ｏｎ）による論文”Ｄｏａｃｒｏｓｓ　：　Ｂｅｙｏｎ
ｄ　Ｖｅｃｔｏｒｉｚａｔｉｏｎ　ｆｏｒ　Ｍｕｌｔｉ
ｐｒｏｃｅｓｓｏｒｓ”に記載されている。字句的にフ
ォワード及びループ繰上げ従属性のために命令ストリー
ム間の同期をとる必要がある。

「バリヤ」を用いることによって斯様な同期をとること
ができる。バリヤとは、それぞれの並列命令ストリーム
において、各並列プロセッサが互いに同期をとるために
待たなければならない個所のことである。同期をとるた
めにバリヤを用いることについてはＰｒｏｃｅｅｄｉｎ
ｇｓ　１９８６　ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆ
ｅｒｅｎｃｅ　Ｐａｒａｌｌｅｌ　Ｐｒｏｃｅｓｓｉｎ
ｇ、　　１９８６年８月。

第５２８〜５３５頁におけるピー・タング（Ｐ、Ｔａｎ
ｇ）外１名による論文”Ｐｒｏｃｅｓｓｏｒ　Ｓｅｌｆ
−３ｃｈｅｄｕｌｉｎｇｆｏｒ　Ｍｕｌｔｉｐｌｅ−Ｎ
ｅｓｔｅｄ　Ｐａｒａｌｌｅｌ　Ｌｏｏｐｓ”に記載さ
れている。

同期のために斯様な停止点を用いる並列処理システムの
詳細については米国特許第４，３４４，１３４号、第４
．３６５．２９２号及び第４．４１２．３０３号に開示
されている。

従来の並列処理シテスムでは、個々のプロセッサを同期
させる間これらのプロセッサを互いに待たせ、時間を浪
費しなければならない。これによりシステムの効率低下
をまねいている。待ち時間は一方のプロセッサがその割
当てコードを他方のプロセッサよりも速く実行し得るた
めに生じるのであり、又斯様な待ち時間は同期処理又は
同期用のハードウェアをアクセスしたり、又は他の共用
機構をアクセスするのに種々のプロセッサ間にて競合が
あるために生じたりする。

〔発明の概要〕

特に本発明の目的は、個々のプロセッサが互いに待つた
めに浪費しなければならない時間を短縮することにより
効率を高める並列処理システムを提供することにある。

この目的は、並列プロセッサの内の少なくとも１つが、
他の少なくとも１つのプロセッサとの同期を待つ間に少
なくとも１つの非アイドリング命令を実行するように前
記並列プロセッサを同期させる同期装置によって達成さ
れる。成る特定カテゴリの非アイドリング命令とは、ユ
ーザ又は応用プログラムにて特徴付けるものであり、又
他のカテゴリの非アイドリング命令とは、命令−決定の
遅延を生成する以外は当面のプロセッサの内部演算でソ
ースタスクを実行することに関連する１つの命令とする
ことができる。特に、上述した目的はそれぞれの命令ス
トリームにおけるコードの所定領域を同定し、且つ識別
して実現することができる。これらの領域のことをここ
では「アンシェーデッドＪ　　（ｕｎｓｈａｄｅｄ）に
対する「シェーデッドＪ（ｓｈａｄｅｄ）領域と称する
。シェーデッド領域をここでは「ファジィ」バリヤとも
称する。プロセッサは各シェーデッド領域に達する際に
同期化を試み始める。この同期化は、関連するタスクを
実行する全てのプロセッサがそれらの各対応するシェー
デッド領域に先行しているアンシェーデッド領域におけ
る全ての命令を完全に実行し終わるまでは各シェーデッ
ド領域に続く命令をマイクロプロセッサが実行しない場
合に達成される。

上記目的は並列プロセッサ間の同期化情報を調整すると
共に同期情報のトラックを維持する状態マシーンを用い
る装置によっても達成される。

〔実施例〕

以下実施例につき図面を参照して説明するに、第１ａ図
はシェーデッド領域を作るためにソースコードをコンパ
イルする方法を示す流れ図である。

ボックス１０１にてコンパイルがソースコードで開始す
る。並列処理するのに好適なソースコードの一例はっぎ
の通りである。

ｉｎｔ　ａ　（１０）　　（４）　；（ｊ＋２　　；　ｊ　　＜１０　；　　ｊ＋十）　で、
しがも、（ｉ＝２　　；ｉ　＜　５；　　ｉ＋十）に対
してはａ（ｊ　）　　（ｉ　）−ａ（ｊ　　１　）　　
（ｉ＋１　）＋　ｌ”ｊここでは二次元整数アレイａＵ
）（ｉ）の全ての要素に適当な値を割当てる。

ボックス１０２では別個のプロセッサで実行させること
のできるコード部分をコンパイラによって識別する。ボ
ックス１０２では前記Ｈ，５ｔｏｎｅによる文献及び前
記ＭＪｏｌｆｅ外１名による論文に記載されているよう
な方法を用いる。上記ソースコードの例では内部ループ
を別々のプロセッサで並列に実行させることができる。

この場合の内部ループに対するコードを後記表Ａに示し
てあり、この表におけるｂｒｒはバリヤを表わす。

バリヤはループ繰上げ従属性のために挿入しである。換
言するに、本例では、ループの第１繰返しでプロセッサ
Ｐ２が計算したａ（１）（３）の値をループの第２繰返
しでプロセッサＰ１が必要とする。従来３個の各プロセ
ッサは、他の各プロセッサがバリヤに達するまで各ルー
プにて待たなければならなかった。

ボックス１０３では標準技法を用いてコンパイラが中間
コードを発生する。この中間コードは、つぎに後続する
コードに応じて「３アドレスコード」と称される標準の
表記法で表わされる。このコード及びそれを発生させる
ための技法についてはニー・アーオ（Ａ、　Ａｈｏ）外
１名による文献”Ｐｒ１ｎｃｉｐｉｅｓ　ｏｆ　Ｃｏｍ
ｐｉｌｅｒ　Ｄｅｓｉｇｎ　”　　（Ａｄｄｉｓｏｎ　
Ｗｅｓｌｅｙ１９７９）の第７節に記載されている。

本例では３つのプロセッサに対する中間コードの値を、
プロセッサＰＩ、　Ｐ２及びＰ３に対して２．３及び４
にそれぞれ初期設定される“ｉ”の値以外は同じとする
。

ボックス１０４はシェーデッド及びアンシェーデッド領
域を識別する。シェーデッド領域はファジィバリヤを制
定する。換言するに、慣例のバリヤの場合のように、プ
ロセッサはシェーデッド領域に達すると、このプロセッ
サは同期化を所望する。

しかし、このような従来のバリヤの場合に対し、ファジ
ィバリヤ、即ちシェーデッド領域の場合にはプロセッサ
は同期するのを待っている間に命令を実行するのを継続
することができる。アンシェーデッド領域はプロセッサ
が同期を求めない領域を制定する。

ボックス１０４以後の中間コードは後記表Ｂに示すよう
にし、開始時における適当なコメントは：コメント：Ａ
をアレイａの基本アドレスとする；とし、又第１中断ラ
イン以降の第２コメントは：コメント：アンシェーデッ
ド領域とする。

ボックス１０４はこれらのシェーデッド及びアンシェー
デッド領域をつぎのように確かめる。不履行、即ちアン
シェーデッド領域が識別されない場合には、シェーデッ
ド領域における命令が不履行となる。この不履行が設定
される理由は、シェーデッド領域における命令を実行し
ている間にマイクロプロセッサは決して停止できないか
らである。

これがため、シェーデッド領域の方が好ましい。

アンシェーデッド部分はつぎの２つの主工程にて見つけ
る。先ず字句的にフォワードな従属性及び／又はループ
繰上げ従属性ＬＦＤを有する最初と最後の命令をアンシ
ェーデッド部分として識別する。この場合におけるこれ
らの最初と最後の命令との間の全ての命令もアンシェー
デッド部分である。本例における１１及びＩ２はループ
繰上げ従属性のみを有する命令である。命令■１の実行
中にプロセッサは以前の繰返しで他の成るプロセッサが
計算した値をアクセスする。命令Ｉ２の実行中にはつぎ
の繰返しにて他の成るプロセッサにより用いられる値を
アレイに記憶させる。これがため、命令ＩＩ、　Ｉ２及
びこれらの間の全ての命令はアンシェーデッド部分であ
る。

コードを実行するに当り、他の全てのプロセッサがそれ
ぞれ対応するシェーデッド領域に先行しているアンシェ
ーデッド領域における命令を全て実行し終るまでプロセ
ッサがシェーデッド領域に後続するアンシェーデッド領
域の命令を実行しなければ、並列プロセッサは「同期化
」されることになる。このような要件からして、字句的
にフォワードな従属性及びループ繰上げ従属性となるそ
れらの命令は、これらの従属性が解消されるまでは実行
させることができない。

ブロック１０５では中間コードをリオーダして効率をさ
らに高める。この目的には標準のリオーダ技法を用いる
ことができる。プロセッサは、それがシェーデッド領域
における命令を実行している間は決して停止させること
ができないから、アンシェーデッド領域が小さくなるに
つれて効率は高くなる。これがため、リオーダ技法を用
いてアンシェーデッド領域における命令数を減らすよう
にする。従って、リオーダした後には中間コードを上述
したのと同じコメントで後記表Ｃに示すように変換する
。

斯かるリオーダ処置では、１１とＩ２との間の３つの命
令をアンシェーデッド領域外へと動かした。

本例では、３つの命令を１１の上に動かした。場合によ
っては、字句的にフォワード又はループ繰上げ従属性を
有する最終命令を過ぎた命令を動かすことによっても同
じ効果を達成することができる。

換言するに、命令はこれらを上方（［１の上）又は下方
（１２の下）に動かすことによってアンシェーデッド領
域から動かすことができる。

上記中間コードを読取るには、読取器によってその中間
コードがループの一部である旨を認める必要がある。従
って、アンシェーデッド領域の後のシェーデッド領域は
、つぎのループ繰返しでアンシェーデッド領域の前のシ
ェーデッド領域に結合する。例えば、ループの最初の繰
返し終了時に第１プロセツサはループの冒頭に戻って、
コードを実行し続けることができる。他の全てのプロセ
ッサが、それらの第１繰返しで各命令■２を実行し終え
た場合には、第１プロセツサはその第２繰返しで命令Ｉ
ｆを実行し始めることができる。殆どの命令はシェーデ
ッド領域にあるから、プロセッサは互いに同期を待つの
に殆ど、或いは全く時間がかからず、特にシェーデッド
領域を特徴付けることによってプロセッサ間の結合を左
程厳格としないで済む。

ボックス１０６では中間コードをアセンブルする。

上記例に対する各プロセッサ用のＶＡＸアセンブリコー
ドを後記表りに示しである。アセンブリは標準コンパイ
ラにより行われる標準の処置である。

アセンブルする期間中には、この目的のために命今生に
リザーブした１ビツトをターン・オンさせることによっ
て命令をシェーデッド領域の部分としてマークすること
ができる。このビットを「Ｉ−ビット」と称する。

ボックス１０５に用いることのできるリオーダ技法の１
つを第１ｂ図の流れ図で説明する。第１ｂ図では字句的
にフォワード又はループ繰上げ従属性でない命令にはＪ
　ＬＦＤなる表記法を用い、字句的フォワード又はルー
プ繰上げ従属性を有する命令にはＪＬ、ゎなる表記法を
用いる。タイプＪτｉの全ての命令は将来アンシェーデ
ッド領域から動かすものである。一般に、２つの命令Ｊ
、及びＪ８＋１がこの順序で与えられると、っぎの条件
が双方共に真であればＪ、ゆ、をＪ、の上に動かすこと
ができる。

条件１：Ｊ、はＪｉ＋１が書込むメモリ位置からは読出
さない；条件２：Ｊ、はＪｉ＋１が読出すメモリ位置には書込ま
ない。

第１ａ図の場合にはアンシェーデッド領域が命令Ｊ１．
Ｊ２＋　Ｊ３−−−　ＪＮのシーケンスを有するものと
する。

ボックス１５０ではＪ、にタイプＪ　ＬＦＤの第１命令
を割当てる。ボックス１５１ではＪ、に先行するアンシ
ェーデッド領域における第１命令をＪ、に割当てる。ボ
ックス１５２では各命令に対し条件１及び条件２をテス
トする命令Ｊ、　−Ｊ、をループする。双方の条件ｌ及
び２が所定の命令に対して真である場合に、ブランチ１
５３へと進む。条件１及び条件２のいずれか一方、又は
双方共に誤りである場合にはブランチ１５４へと進む。

ブランチ１５３はボックス１５５に至り、ここでＪＪが
Ｊ、に先行しているアンシェーデッド領域における最終
命令であるか否かをテストする。ボックス１５５でのテ
スト結果が誤りである場合にはボックス１５７へのブラ
ンチ１５６へと進み、このボックス１５７にて命令Ｊ、
に先行しいるアンシェーデッド領域におけるつぎの命令
をＪ４に割当てる。ボックス１５７の後はボックス１５
２Ｌこ戻す。

ボックス１５５でのテスト結果が真である場合にはブラ
ンチ１５８からボックス１５９へと進めて、ここで命令
Ｊ！をアンシェーデッド領域の外へ動かす。上述した処
置は命令を如何にして動かすことができるかを示してい
る。ボックス１５９の後はブランチ１５４へと進める。

ボックス１５２でのテスト結果が双方共に誤りである場
合にはボックス１６０へのブランチ１５４へと進め、こ
のボックス１６０ではＪ、がアンシェーデッド領域にお
けるタイプＪτｉへの最終命令であるか、否かをテスト
する。ボックス１６０でのテスト結果が真である場合に
は第１ｂ図の方法を１６１の個所にて終了させる。ボッ
クス１６０でのテスト結果が誤りである場合には、ボッ
クス１６３に至るブランチ１６２へ進める。

ボックス１６３ではタイプＪττのっぎの命令をＪ、に
割当てる。ボックス１６３の後は第１ｂ図の方法をボッ
クス１５１へと戻す。

上述した例での上記各ステップを実行させることにより
、アンシェーデッド領域にあるべきとする僅か２つの命
令をＩ１及びＩ２としてマークされる命令であるとして
決定する。

第１ｂ図に示した処置に似ている処置を適用して、字句
的フォワード又はループ繰上げ従属性とはならない残り
の命令をアンシェーデッド領域の下方で、しかもその領
域外に動かすことができる。この同様な処置が第１ｂ図
につき述べた処置と異なる点は、１つの命令をアンシェ
ーデッド領域における先行している全ての命令と比較す
る代りに、コンパイラによって１つの命令を後続する全
ての命令と比較すると云う点だけにある。

第２図はそれぞれ命令メモリ２０５．２０６．２０７及
び２０８を伴なう４個の並列プロセッサ２０１．２０２
゜２０３及び２０４を具えている並列処理システムのブ
ロック図である。プロセッサの数ｎは任意とすることが
でき、ここにｎは２以上の整数とする。第２図の例では
判り易くするためにプロセッサの数を４個とした並列プ
ロセッサ２０１．２０２．２０３及び２０４はデータメ
モリ２０９を共用する。各プロセッサはそれぞれバリヤ
ユニット２１０．２１１．２１２及び２１３Ａを有して
いる。各バリヤユニット２１０．２１１゜２１２及び２
１３八は４個の入力端子と２個の出力端子を有している
。他のプロセッサからの３つの入力は他の各プロセッサ
が同期化を所望するか、否かを指示する。これらの入力
をここでは−ＡＮＴ−ＩＮと称する。他のプロセッサへ
進む出力は各プロセッサが同期化を所望する旨を示す。

これらの出力をここではＷＡＮＴ−０１１Ｔと称する。

各バリヤユニット２１０゜２１１、２１２及び２１３Ａ
は、その各実行ユニット２１３゜２１４、２１５及び２
１６からの各Ｉ−入力端子及び各実行ユニットへの各５
ＴＡＬＬ−出力端子も有している。

第３図はバリヤユニット２１０．２１１．２１２及び２
１３の１つを含む並列プロセラ２０１．２０２．２０３
及び２０４の１つを詳細に示したブロック図である。バ
リヤユニットは同期化情報を受信し、処理し、且つ送出
する。実行ユニット３２８内に示す命令レジスタ３０１
の容量は、関連する命令セットにおける最長命令と１−
ビット３０２を含めるのに十分な大きさとする。プロセ
ッサはマシンサイクル当り１つの命令を実行するＲＩＳ
Ｃプロセッサであるものとする。■−ビットは命令レジ
スタ３０１における命令がシェーデッド領域におけるも
のである場合にターン・オンされる。又、このＩ−ビッ
トは斯かる命令がアンシェーデッド領域におけるもので
ある場合にはターン・オフする。

命令レジスタ３０１の容量を小さくし、命令が数ワード
の形態をとるようにすることもでき、この場合には命令
の第１ワードにおけるＩ−ビットをロックアウトさせて
除くロジック（図示せず）を設けるようにする。シェー
デッド領域及びアンシェーデッド領域の冒頭部をマーク
するために各命令ストリームに完全命令を授けることも
できるが、この場合には状態マシーンを多少変更する必
要がある。又、この方法では各命令ストリームに命令を
加えることになるが、この方法はＩ−ビット法に比べて
既存のハードウェア及びマシン命令セットを多少変更す
るだけで済む。

マスクレジスタ３０３は内部的にアドレスされる特殊な
レジスタであり、これはｎ−１ビツト（ここにｎはシス
テムにおけるプロセッサの個数である）とする。本例で
はｎ＝４とする。各プロセッサは第３図の装置を内蔵し
ている。従って、マスクレジスタ３０３はシステムにお
ける他のプロセッサのトラックを保有するために３ビツ
トとする必要がある。このマスクレジスタ３０３は関連
するタスクを実行しない他のプロセッサを無視するため
に用いる。マスクレジスタ３０３の１ビツトは、対応す
る他のプロセッサが関連するタスクを実行している際に
ターン・オフする。マスクレジスタの１ビツトは対応す
る他のプロセッサが関連タスクを実行していない場合に
ターン・オンする。マスクレジスタ３０３は３ビツト入
力端子３２０からマスクビットを受信する。本例では３
個のプロセッサだけにコードを実行させる必要がある。

これがため、マスクレジスタ３０３の２ビツトはループ
の１つを実行している各プロセッサではターン・オフす
る。第３ビツトがターン・オンすると、ループ実行中の
プロセッサはループを実行していない１つのプロセッサ
を無視する。コンパイラはどのプロセッサがバリヤにて
同期しているかを知って、マスクレジスタ３０３に適当
なビットを書込ませる部分を発生させることができる。

マスクレジスタのビットが他の１つのプロセッサにてオ
ンすることにより無視されるプロセッサは、斯かる他の
レジスタに固有のマクスレジスタをセットすることによ
りそのプロセッサを無視して独立のタスクを実行するこ
とができる。このような独立タスクには並列処理を必要
とする独立ジョブで独立した同期化を図ることができる
。

ＷＡＮＴ−ＩＮは他のプロセッサからのｒ　ＷＡＮＴ　
Ｊビットを受信するためのｎ−１ビツト入力である。Ｗ
ＡＮＴビットは対応するプロセッサが同期化を望む場合
にオンする。

整合回路３０４はマクスジスタ３０３におけるビット及
び入力−ＡＮＴ−ＩＮにおけるＷＡＮＴビットを調整す
るためのロジックを含んでいる。整合回路３０４の出力
を「に＾ＴＣＨＪと称し、これは関連する他のプロセッ
サ全てが同期化を望む場合にだけオンする。

状態マシン３０５はＩ−ビット３０２と整合回路３０４
の出力ＭＡＴＣＨを用いて同期化状態を決定する。状態
マシン３０５は２ビツト、即ち５ＴＡＬＬと−ＡＮＴ−
ＯＵＴを出力する。５ＴＡＬＬはプロセッサが命令を実
行している時はオフする。５ＴＡＬＬがターン・オンす
るとプロセッサは命令の実行を停止する。ＷＡＮＴ−Ｏ
ＵＴは各プロセッサが同期化を望む場合にターン・オン
し、そうでない場合にターン・オフする。

第４図は状態マシン３０５に対する状態図である。

本例では状態マシンを所謂メアリ（Ｍｅａｌｙ　）マシ
ンとする。このマシンでは、これが状態を変えなくても
出力５ＴＡＬＬ及びＷＡＮＴ−ＯｌｌＴは変化すること
ができる。第４図では状態マシン３０５への出力を小さ
な活字で示し、又状態マシン３０５からの出力を大きな
活字で示しである。

各プロセッサ２０１．２０２．２０３及び２０４は第４
図につき説明するような１つの状態マシンを含んでいる
。これらの状態マシンを作動させるためには状態マシン
間で信号を同期させる共通のクロック又は他の手段を設
ける必要がある。図面の簡単化のために状態マシン３０
５を同期させる回路は図示してない。

トランジョン４０１は状態マシンを状態Ｏに留めること
に相当し、■−ビットがオフである間は状態マシンは状
態０のままである。換言するに、プロセッサはコードの
アンシェーデッド領域を実行し、コードのシェーデッド
領域へは進まない。この場合、５ＴＡＬＬ及び−ＡＮＴ
−ＯＵＴは双方共にオフである。

トランジョン４０２は状態マシンを状態０から状態１に
する。状態マシンは、その各プロセッサが同期化の用意
が整っているも、少なくとも１つの他のプロセッサが同
期化の準備が成されていない場合、即ちＩ−ビットがオ
ンで、ＭＡＴＣＨがオフである場合にトランジョン４０
２をとる。第４図では条件１＝ｏ及びＭＡＴＣＨ＝０を
Ｉ′Ｉ及びＭＡＴＣＨ”にてそれぞれ示しである。トラ
ンジション４０２の期間中はＷＡＮＴ−ＯＵＴがオンし
、５ＴＡＬＬはオフする。第４図で、５ＴＡＬＬ又はＷ
ＡＮＴ−ＯｌｌＴがオフする場合は省いである。トラン
ジション４０４は状態マシンを状態ｌに保持する。マシ
ンは、同期化を望んでいるも、まだ同期せず、命令を実
行し続けている限りトランジション４０４をとる。即ち
、マシンはＩビットがオンし、ＭＡＹＣＨがオフしてい
る間は状態１に留まる。状態１の期間中ＷＡＮＴ−ＯＵ
Ｔはオンし、５ＴＡＬＬはオフする。

トランジション４０３はマシンを状態Ｏから状態２にす
る。マシンはそのプロセッサが同期化の用意が整い、し
かもそれが同期化の用意が整った最後のプロセッサであ
る場合にトランジション４０３をとる。幾つかのプロセ
ッサは同時に状態２に達することができ、従ってそれら
のプロセッサは同時に同期化の用意が整った「最終」プ
ロセッサでもある。状態２はプロセッサが同期化される
状態である。状態マシン３０５がトランジション４０３
をとると、このマシンはＷＡＮＴ−ＯＵＴをオンさせた
ままとする。しかし、マシンはそれが状態２に達すると
、ＷＡＮＴ−ＯＵＴをターン・オフする。５ＴＡＬＬは
オフしたままである。

トランジション４０５はマシンを状態１から状態２にす
る。マシンは各プロセッサが依然シェーデッド領域にあ
り、同期化を希望しており、しかも全ての他のプロセッ
サがそれらの各シェーデッド領域に達している場合、即
ち夏−ビット及びＭＡＹＣＨの双方がオンする場合にト
ランジション４０５を生ぜしめる。マシンがトランジシ
ョン４０５を生じさせると、これは−＾ＮＴ−ＯＵＴビ
ットをオンさせる。トランジション４０５の期間中は５
ＴＡＬＬがオフする。

ＷＡＮＴ−０１ＪＴビツトはマシンが状態２に達すると
オフに戻る。

トランジション４０６はマシンを状態１から状態３にす
る。マシンは、これがそのシェーデッド領域を離れる用
意が整っているも、マシンを状態２にすることはできな
かった場合にトランジション４０６を生せしめる。即ち
、■−ビットがターン・オフし、ＭＡＹＣＨがオフであ
る場合にトランジション４０６を生じさせる。この点に
て各プロセッサは停止しなければならない。これがため
、−＾ＮＴ−ＯＵＴ及び５ＴＡＬＬの双方はターン・オ
ンする。

トランジション４０７はマシンを状態１から状態０にす
る。マシンはＭＡＹＣＨがターン・オンし、これと同時
に該当プロセッサがシェーデッド領域を同時に離れる際
に斯かるトランジションを生せしめる。マシンはトラン
ジション４０７の期間中ば目ＮＴ−ＯＵＴをオンしたま
まとし、マシンが状態０に達すると再びそれをオフにす
る。

トランジション４０８は状態マシン３０５を状態２から
状態０にする。トランジション４０８は同期化後で１−
ビットがターン・オフする際、即ち各プロセッサがシェ
ーデッド領域を離れる際に生ずる。

トランジション４０８の期間中には騨＾ＮＴ−ＯＵＴ及
び５ＴＡＬＬが共にオフする。

トランジション４０９はマシンを状態２に保つ。

トランジション４０９は、同期化後に１−ビットが１の
ままであると、即ち各並列プロセッサが同期化後にシェ
ーデッド領域に留まると発生する。トランジション４０
９の期間中は−ＡＮＴ−ＯＵＴ及び５ＴＡＬＬが共にオ
フする。

トランジション４１１はマシンを状態３に保ち、即ちマ
シンを停止させて、同期するのを待つ。マシンはＭＡＴ
ＣＨがオフしている限りトランジション４１１を生じさ
せる。マシンは状態３にある間はｎＮＴ−ＯＵＴ及び５
ＴＡＬＬの双方をオンし続ける。

トランジション４１０はマシンを状態３から状態０にす
る。マシンは、それが他のマシンとの同期に成功して、
シェーデッド領域を離れることができるようになると、
即ちＭＡＴＣＩ（がターン・オンするとトランジション
４１０を生じさせる。このトランジション４１０の期間
中はＷＡＮＴ−ＯｌｌＴはオンしたままである。ＷＡＮ
Ｔ−ＯＵＴはマシンが一旦状態０に達するとターン・オ
フする。トランジション４１０の期間中には５ＴＡＬＬ
がオフする。

第５図はボックス（整合回路）３０４を詳細に示したも
のであり、この第５図にはマスクレジスタ３０３の３ビ
ット５０１．５０２及び５０３も示しである。

マスクレジスタ３０３が３ビツトを有するのは、システ
ムに３つの他の並列プロセッサがあるからである。−＾
ＮＴ−ＩＮの３ビツトを３つの別個のラインＷＡＮＴ−
ＩＮＯ，−＾ＮＴ−ＩＮＩ及びＷＡＮＴ−ＩＮ２として
示す。マスクレジスタビット５０３及びＷＡＮＴ−ＩＮ
ＯをＯＲゲート５０４に供給する。マスクレジスタビッ
ト５０２及びＷＡＮＴ−ＩＮＩをＯＲゲート５０５に供
給する。マスクレジスタビット５０１及びＷＡＮＴ−Ｉ
Ｎ２をＯＲゲート５０６に供給する。ＯＲゲート５０４
．５０５及び５０６の出力は＾ＮＤゲート５０７に供給
する。このＡＮＤゲート５０７の出力がＭＡＴＣＨであ
る。

従って、出力ＭＡＹＣＨは無視されていない他の全ての
プロセッサが同期化を望む場合にオンする。

出力ＭＡＴＣＨは他の全てのプロセッサが無視されてい
る場合にもオンする。

表Ａｐｉ（ｉ＝２）但しく１士２．Ｊ　＜１０＋　Ｊ＋’＋）ａ　（ｊ）　
　（２）　＝ａ　（ｊ−１）　　（３）　＋　２”ｊ　
　；ｂｒｒ　　１ｐ２（ｉ＝３）但しくｊ＝２＋　ｊ＜１０．　ｊ＋＋）ａ　（ｊ）　　
（３）　−ａ　（ｊ−１）　　（４）　＋　３”ｊ　　
；ｂｒｒ　；ｐ３（ｉ＝４）但しくｊ＝２．　ｊ＜１０．　ｊ＋＋）ａ　（ｊ）　（
４）　＝ａ　（ｊ−１）　（５）　＋４”ｊ　；ｂｒｒ
　；表Ｂ表Ｃｊ＝２Ｌｌ　：　ＴＩ＝　　ｊ−１Ｔ２＝１６　”　ＴＩＴ３＝７２十八Ｔ４−（ｉｆ１）　　”　４Ｔ５−　　ｉ　　”　ｊ１１　：　Ｔ６＝７４　（Ｔ３）　＋Ｔ５Ｔ７＝１６　
”　ｊＴ８＝７７＋　　ＡＴ９＝　　ｉ　　”　４／”Ｔ６＝ａ　（ｊ１〕（ｉｆ１）十＋＊ｊ９／ｊ＝２Ｌｌ　：　Ｔ１＝　　ｊ　−１Ｔ２＝１６　　”　ＴＩＴ３　＝　７２　＋　ＡＴ４−（ｉｆ１）”　４Ｔ５＝　　ｉ　　”　ｊＴ７＝１６　”　ｊＴ８　＝　７７十八Ｔ９＝　　ｉ　　”４Ｉｆ　：　Ｔ６＝Ｔ４　（Ｔ３）　＋Ｔ５／”Ｔ６＝　
ａ　（ｊ−１）　　（ｉｆ１）＋ｉ＊ｊ＊ｉ　　＝　　ｉｆ１ｉｆ　ｊ＜１０　ｇｏ　　ｔｏ　Ｌｌｊ　　＝　ｉｆ１ｉｆ　ｊ＜１０　ｇｏ　　ｔｏ　Ｌ１表ＤｏｖａｂｏｖｌＬ２１：ｍｏｖａｌｕｂ１３ｓｈｌｄｄ１２ｄｄ１３ｓｈｌｄｄ１２ｏｖｌｎｃ１ｍｐｌ１ｓｓ１７２（ｓｐ）、ｓｐ＄２．−４（ｆＰ）１７２（ｆｐ）、ｒＯ＄１．−４（ｆｐ）、ｒｌ＄４．ｒｌ、ｒｌｒｌ、ｒ。

ｒｌ、１２（ｒＯ）、ｒｏ＄４．−４（ｆｐ）、ｒ２ｒ２．ｒｌｒＯ，８（ｒｌ）４（ｆｐ） −４（ｆｐ）、＄１０ｏｖａｂＩＩｌＯνＩＬ２１：ｍｏｖａｌｕｂ１３ｓｈｌｄｄ１２ｄｄ１３ｓｈｌｄｄ１２ｏｖｌｎｃ１ｍｐｌ１ｓｓ１７２（ｓｐ）、ｓｐ＄２．−８（ｆｐ） −１７２（ｆｐ）、ｒＯ＄１．−８（ｆｐ）、ｒｌ＄４．ｒ１．ｒｌｒｌ、ｒｏｒｌ、１６（ｒＯ）、ｒ。

＄４．−８（ｆｐ）、ｒ２ｒ２．ｒｌｒＯ，１２（ｒｌ） −８（ｆｐ） −８（ｆｐ）、＄１ＯｏｖａｂｏｖｌＬ２１：ｍｏｖａｌｕｂ１３ｓｈｌｄｄ１２ｄｄ１３１７２（ｓｐ）、ｓｐ＄２．−１２（ｆＰ）１７２（ｆｐ）、ｒ。

＄１．−１２（ｆｐ）、ｒｌ＄４．ｒｌ、ｒｌｒｌ、ｒ。

ｒｌ、２０（ｒＯ）、ｒｏ＄４．−１２（ｆｐ）、ｒ２ｒ２．ｒｌｒｏ、　１６　（ｒｌ）１２（ｆｐ）１２（ｆｐ）、＄１０

【図面の簡単な説明】

第１ａ図はシェーデッド及びアンシェーデッド領域を識
別するためにソースコードをコンパイルする方法を説明
するための流れ図；第１ｂ図はコードをリオーダする工程を説明するための
流れ図；第２図は本発明による並列処理システムを示すブロック
図；第３図は並列プロセッサ同期化回路の一例を示すブロッ
ク図；第４図は第３図の回路の状態図；第５図は第３図の回路における整合回路の一例を示す詳
細図である。２０１、２０２．２０３．２０４・・・並列プロセッサ
２０５、２０６．２０７．２０８・・・命令メモリ２０
９・・・データメモリ２１０、２１１．２１２．２１３八・・・バリヤユニ・
ント２１３、２１４．２１５．２１６・・・実行ユニッ
ト３０１・・・命令レジスタ３０３・・・マクスレジスタ３０４・・・整合回路３０５・・・状態マシン３２８・・・実行ユニット５０４、５０５．５０６・・・ＯＲゲー５０７・・・Ａ
ＮＤゲートト

Claims

【特許請求の範囲】１、ａ、複数個の並列プロセッサ；及びｂ、前記プロセッサの内の少なくとも１つが、他の少な
くとも１つのプロセッサとの同期化を持っている間に少
なくとも１つの非アイドリング命令を実行するように前
記複数のプロセッサを同期化させる手段；を具えていることを特徴とする並列処理システム。２、複数個の他の並列プロセッサを含み、複数の並列命
令ストリームとしてのコンピュータコードを実行する並
列処理システムの一部を成す１つの並列プロセッサを同
期化する装置が：ａ、前記他のプロセッサの内の少なくとも１つと通信す
る手段；及びｂ、前記１つのプロセッサが、前記他の少なくとも１つ
のプロセッサとの同期化を持っている間に少なくとも１
つの非アイドリング命令を実行するように、前記複数個
の他のプロセッサから受信した情報に基き、且つ各命令
ストリームに基いて前記１つのプロセッサを制御する制
御手段；を具えていることを特徴とする並列プロセッサ同期化装置。３、ａ、前記通信手段が：ｉ、他のプロセッサが同期化を望んでいる旨の受了指示をこれら他のプロセッサから受信するため
の入力手段；及びｉｉ、各プロセッサが同期化を望んでいる旨の発送指示
を他のプロセッサに送出するための出力手段；を具え；ｂ、前記制御手段が：ｉ、前記命令ストリームの内のそれぞれ１つの命令ストリームにおけるシェーデッド及びアンシェ
ーデッド領域を識別するための識別手段；及びｉｉ、前記シェーデッド及びアンシェーデッド領域の識
別結果に応答し、且つ前記受了指示に応答して、他のプ
ロセッサが、それらの各当面のシェーデッド領域の直前
における全ての命令を実行し終るでは各プロセッサが当
面のシェーデッド領域の直後の各命令を実行しないよう
に前記命令ストリームの内の各１つの命令の実行を制御
するための実行制御手段；を具え、該実行制御手段を前記入力及び出力手段に結合させたことを特徴とする請求項２に記載の
装置。４、並列命令ストリームの数に応じて前記他のプロセッ
サの内の第２の少なくとも１つのプロセッサを無視する
ための無視手段も具えていることを特徴とする請求項２
に記載の装置。５、前記無視手段がマスクレジスタを具えていることを
特徴とする請求項４に記載の装置。６、並列命令ストリームの数に応じて前記並列プロセッ
サの内の少なくとも２つのプロセッサを無視して、これ
ら少なくとも２つのプロセッサを独立して同期させるよ
うにする手段も具えていることを特徴とする請求項２に
記載の装置。７、前記実行制御手段を状態マシンとすることを特徴と
する請求項３に記載の装置。８、前記状態マシンが：ａ、前記入力手段に結合され、前記受了指示を受信する
ための同期化所望入力端子；ｂ、前記シェーデッド及びアンシェーデッド領域を識別
する信号を受信するための第２入力端子；ｃ、前記出力手段に結合され、前記発送指示を供給する
ための第１出力端子；ｄ、各プロセッサの実行制御手段に結合され、停止状態
では各プロセッサの実行を停止させるも、それ以外では
各プロセッサを作動させることのできる信号を供給する
ための実行停止用出力端子；を具えていることを特徴とする請求項７に記載の装置。９、前記状態マシンがつぎの４つの状態、即ちａ、プロ
セッサがアンシェーデッド領域における命令を実行する
第１状態；ｂ、他のプロセッサがそれぞれ各自のシェーデッド領域
に達するのを待っている間にプロセッサがシェーデッド
領域の命令を実行する第２状態；ｃ、他のプロセッサがそれぞれ各自のシェーデッド領域
に達した際にプロセッサが該シェーデッド領域の命令を
実行する第３状態；及びｄ、プロセッサがシェーデッド領域の終りに達して停止
し、且つ他のプロセッサがそれぞれ各自のシェーデッド
領域に達するのを待っている第４状態；を有することを特徴とする請求項８に記載の装置。１０、並列命令ストリームの数に応じて前記他のプロセ
ッサの内の少なくとも１つを無視するためのマスクレジ
スタも具え、且つ前記実行制御手段を状態マシンとし、
該状態マシンが：ａ、前記入力手段に結合され、前記受
了指示を受信するための同期化所望入力端子；ｂ、前記シェーデッド及びアンシェーデッド領域を識別
する信号を受信するための第２入力端子；ｃ、前記出力手段に結合され、前記発送指示を供給する
ための第１出力端子；ｄ、各プロセッサの実行制御手段に結合され、停止状態
では各プロセッサの実行を停止させるも、それ以外では
各プロセッサを作動させることのできる信号を供給する
ための実行停止用出力端子；を具えていることを特徴とする請求項３に記載の装置。１１、並列処理システムの効率を改善するためにコンピ
ュータコードをコンパイルする方法が：ａ、並列処理シ
ステムの各プロセッサにて並列に実行させることのでき
るコードの複数部分を識別する第１識別工程と；ｂ、前記複数部分の少なくとも１つにおける字句的にフ
ォワードか、ループ繰上げ従属性を有する少なくとも１
つの命令をマークする工程；及びｃ、前記少なくとも１つの部分におけるシェーデッド及
びアンシェーデッド領域を識別する第２識別工程；を具えていることを特徴とするコンピュータコードコンパイル方法。１２、ａ、前記複数部分から中間コードを生成する工程
；及びｂ、言語をアセンブルするために中間コードを変換する
工程；も具えていることを特徴とする請求項１１に記載の方法
。１３、アンシェーデッド領域の大きさを縮小するように
前記複数部分におけるコードをリオーダする工程も具え
ていることを特徴とする請求項１１に記載の方法。１４、前記第２識別工程が：ａ、字句的にフォワード又はループ繰上げ従属性を有す
る第１命令を前記少なくとも１つの部分に位置付ける第
１位置付け工程；ｂ、字句的にフォワード又はループ繰上げ従属性を有す
る最終命令を前記少なくとも１つの部分に位置付ける第
２位置付け工程；ｃ、前記従属性を有する前記第１と最終命令との間の全
ての命令をアンシェーデッドとして指定する指定工程；
及びｄ、前記複数部分における他の全ての命令をシェーデッ
ドとして指定する指定工程；を具えていることを特徴とする請求項１１に記載の方法
。１５、並列処理システムの効率を改善するためにコンピ
ュータコードをコンパイルする方法が：ａ、並列処理シ
ステムの各プロセッサにて並列に実行させることのでき
るコードの複数部分を識別する第１識別工程と；ｂ、前記複数部分の少なくとも１つにおける字句的にフ
ォワードか、ループ繰上げ従属性を有する少なくとも１
つの命令をマークする工程；及びｃ、前記少なくとも１つの部分におけるシェーデッド及
びアンシェーデッド領域を識別する第２識別工程；を具え、該第２識別工程が：ｉ、字句的にフォワード又はループ繰上げ従属性を有する第１命令を前記少なくとも１つの部分に
位置付ける第１位置付け工程；ｉｉ、字句的にフォワード又はループ繰上げ従属性を有
する最終命令を前記少なくとも１つの部分に位置付ける
第２位置付け工程；ｉｉｉ、前記従属性を有する前記第１と最終命令との間
の全ての命令をアンシェーデッドとして指定する指定工
程；及びｉｖ、前記複数部分における他の全ての命令をシェーデ
ッドとして指定する指定工程；を具えていることを特徴とするコンピュータコードコンパイル方法。１６、ａ、前記複数部分から中間コードを生成する工程
；及びｂ、言語をアセンブルするために中間コードを変換する
工程；も具えていることを特徴とする請求項１５に記載の方法
。１７、ａ、それぞれがシェーデッド及びアンシェーデッ
ド領域を含む少なくとも２つの各並列命令ストリームの
形態の関連するコンピュータコードを少なくとも２つの
プロセッサで実行させる工程；及びｂ、少なくとも２つのプロセッサがいずれもそれらの各
対応するシェーデッド領域に先行しているアンシェーデ
ッド領域におけるすべての命令を実行し終るまでは、前
記少なくとも２つのプロセッサがそれらの各シェーデッ
ド領域に後続する命令を実行しないように前記少なくと
も２つのプロセッサを制御する工程；を具えていることを特徴とする複数の並列プロセッサ同期化方法。１８、並列命令ストリームを実行する並列プロセッサを
同期化する方法が、前記各並列ストリームにファジィバ
リヤを設定する工程を具えていることを特徴とするプロ
セッサ同期化方法。