JP2765882B2

JP2765882B2 - 並列計算機，ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置

Info

Publication number: JP2765882B2
Application number: JP63285654A
Authority: JP
Inventors: 晃村松; 郁夫 ▲吉▼原; 行介迫田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-11-14
Filing date: 1988-11-14
Publication date: 1998-06-18
Anticipated expiration: 2013-06-18
Also published as: JPH02132575A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、並列計算機に係り、特に繰返しループの負
荷分散処理が主体の数値計算用並列計算機に関する。

〔従来の技術〕

従来の数値計算用並列計算機は、下記文献１記載の局
所メモリ型の並列計算機、下記文献２記載の共有メモリ
型の並列計算機、下記文献３記載のベクトル計算機のマ
ルチプロセツサがある。

文型１チヤールズ・エル・サイツ：ザコズミツク
キユーブ，コミユニケーシヨンズオブザエーシー
エム,z8巻１号,22〜23頁,1985年（Charles L.Seitz:The Cosmic Cube,Communications o
f the ACM,vol.28,No.1,pp.22−33,1985）文献２アランゴツトリーブ他：ザ NYU ウルトラ
コンピユーターデザイニングアン MIMD シエアド
メモリパラレルコンピユータ,IEEE トランザクシ
ヨンズオンコンピユーターズＣ−32巻,2号,175〜
189頁,1983年（Allan Gottlieb et.al.:The NYU Ultracomputer−Des
igning an MIMD Shared Memory Parallel Computer,IEE
E Transactions on Computers,vol.C−32,No.2,pp.175
−189,1983）文献３寺内和也：主記憶2Gバイトで液浸冷却方式のCR
AY−２スーパーコンピユータ，日経エレクトロニクス,1
985.12.16号,195〜209頁,1985年このうち、文献１記載の局所メモリ型の並列計算機で
は、解くべき問題を使用する並列計算機の構成に合わせ
て分割し、各要素プロセツサ毎のプログラムを作成す
る。要素プロセツサ間でデータを交換する場合は、デー
タの送受信命令、例えばSEND命令,RECIVE命令を発行す
る。また、逐次処理が必要な場合は、どれか１台の要素
プロセツサが他の要素プロセツサと同期を取つた後これ
を実行する。

共有メモリ型の並列計算機では、データは分割せずに
共有メモリに置き、プログラムを分割または複写して各
要素プロセツサで実行させる。このため、要素プロセツ
サ間で送受信命令を用いてデータを交換する必要はな
く、代りに共有メモリを読み書きする。そのため、読み
書きの順序を制御するために、データを定義する側の要
素プロセツサと参照する側の要素プロセツサとの間で同
期を取る必要がある。代表的な同期手段としては、メモ
リのロツク，アンロツク手続きがある。

ベクトル計算機のマルチプロセツサも、同様に共有メ
モリ型であり、要素プロセツサ間共有データは共有メモ
リに置いて、ロツク／アンロツク制御によりこれを読み
書きする。従つて、ベクトル処理（ベクトルレジスタを
使用する）の並列処理は、ループ内の変数間に依存関係
がない場合に限られる。

下記文献４には、分割メモリ上に共有メモリを構築す
る例が記載されている。この例では、各要素プロセツサ
が自分のメモリ中に存在するデータをアクセスする場合
は高速であるが、他の要素プロセツサ中のメモリをアク
セスする場合は、ネツトワークを経由するため遅い。

文献４ジー・エフ・フイスター他：ザアイビーエム
リサーチパラレルプロセツサプロトタイプ（RP
3）：イントロダクシヨンアンドアーキテクチヤ，
プロシーデイングズオブザ 1985 インターナシヨ
ナルコンフアレンスインパラレルプロセシン
グ,764〜771頁,1985年（G.F.Pfister et.al.:The IBM Research Paralle I Pr
ocessor Prototype（RP3）:Introduction and Architec
ture,Proceedings of the 1985 International Confere
nce in Parallel Processing,pp.764−771,1985）〔発明が解決しようとする課題〕まず、局所メモリ型の並列計算機は、利用者が並列計
算機の構成を意識して問題を分割しなくてはならないと
いう大きな問題がある。

残る３種類の並列計算機−共有メモリ型の並列計算
機，ベクトル計算機のマルチプロセツサ，分散型共有メ
モリを持つ並列計算機−には、次のような問題点があ
る。

（１）共有メモリ型の並列計算機では、１台当りの性能
がベクトル計算機のように高くないので、システム全体
の性能を高くしようとすると多数台を結合しなくてはな
らない。これは、要素プロセツサと共有メモリを結合す
る装置のハードウエア量が増加し、メモリアクセスに時
間がかかる他、メモリアクセス競合を引き起こす等の問
題を生み出す。特に、データを複合台の要素プロセツサ
で共有する場合には、メモリロツク等の同期オーバヘツ
ドが大きくなり、多数台の要素プロセツサを結合しても
性能が出ないという問題がある。

（２）ベクトル計算機のマルチプロセツサでは、１台当
りの性能が高いので、多数台の要素プロセツサを結合す
る必要性は低い。しかし、やはりメモリロツク等の同期
オーバヘツドは大きく、またデータ依存関係のあるルー
プのベクトル処理を並列に実行できないという問題があ
る。

（３）分散型共有メモリを持つ並列計算機は、データが
自メモリ中にある場合には高速にアクセスでき、メモリ
競合も発生しないので、多数台の要素プロセツサを結合
するのに向いた方式である。しかし、要素プロセツサ間
でデータを交換する場合には通信に時間がかかる。ま
た、一旦データを分散メモリ上に割り付けてしまうと、
ベクトル計算機がベクトル処理を行うために内側ループ
と外側ループとを交換してループの独立性を得るという
ようなプログラムの変換ができず、必然的に依存型のル
ープをより多く対象としなければならなくなる。これ
は、要素プロセツサ間の同期のオーバヘツドが増大する
ことにつながる。

本発明の目的は、利用者が並列計算機の構成を意識し
て問題を分割する必要がなく、さらに高性能を出すこと
のできる並列計算機であるベクトル計算機のマルチプロ
セツサ，分散型共有メモリを持つ並列計算機に共通の問
題点である。

メモリロツク等の同期オーバヘツドが大きいことを解
決する同期手段およびそれを用いた並列計算機およびベ
クトル計算機を提供することにある。

本発明のさらに他の目的は、ベクトル計算機のマルチ
プロセツサに固有の問題である。

データ依存関係のあるループのベクトル処理を並列に
実行できないことを解決したベクトル計算機を提供する
ことにある。

さらに、本発明の他の目的は分散型共有メモリを持つ
並列計算機に顕著である。

通信に時間がかかるという問題を解決した並列計算機
を提供するにある。

〔課題を解決するための手段〕

上記問題点を解決するために、本発明の並列計算機で
は、ホスト計算機から全要素プロセツサの記憶装置中の
同一アドレスに対して一度に情報を書き込む放送手段
と、全要素プロセツサの処理終了を検出する全同期手段
と、任意の要素プロセツサ間で情報の授受を行うための
相互結合ネツトワークと、情報の授受を行うときにその
記憶装置への書き込み，読みだしに関する同期をとるた
めに各要素プロセツサに設けた同期用変数または同期用
レジスタとその排他的加減算回路とから構成されるデー
タフロー同期手段とを備える。

また、本発明の好ましい態様では、ベクトル計算機の
マルチプロセツサのように要素プロセツサがベクトル演
算装置を有し、１台の要素プロセッサのベクトルレジス
タから他の１台または複数台の要素プロセツサのベクト
ルレジスタに直接データを送るための経路を設定する手
段、およびその値が０のときデータのベクトルレジスタ
への書き込みができ、その値が１のときデータのベクト
ルレジスタからの読みだしができる、各語単位に設けた
タグフイールドを持つベクトルレジスタと、タグフイー
ルドの値を操作する手段とから成るベクトルレジスタ間
データフロー同期装置を備える。

さらに、通信のオーバヘツド削減のために、相互結合
ネツトワークの接続パタンをネツトワーク利用時以前に
設定するネツトワーク接続パタン設定回路と、送信元要
素プロセツサ番号をそこから送られてくるデータを格納
するベクトルレジスタアドレスまたは記憶装置中の格納
領域アドレスに変換する格納アドレス生成回路とから成
るネツトワークプリセツト装置を備える。

〔作用〕

並列実行させる一つの繰返しループの終了の検出を、
全要素プロセツサの処理終了を検出する全同期手段を用
いて高速に行い、該ループに引き続き並列実行させる他
のループをホスト計算機から全要素プロセツサの記憶装
置中の同一アドレスに対して一度に情報を書き込む放送
手段により高速に開始し、このようにして両ループの間
に存在するデータ依存関係を満たすための同期を高速に
取ることが可能となる。また、情報の生産者側要素プロ
セツサが情報を消費者要素プロセツサに転送した後、消
費者側要素プロセツサの同期用変数または同期用レジス
タの内容を１だけ排他的加減算回路を用いて増加し、消
費者側要素プロセツサは自プロセツサ内の同期用変数ま
たは同期用レジスタの内容が正なら排他的加減算回討を
用いて１だけ減少させた後転送されてきた情報を参照す
る（または消費者側要素プロセツサが生産者側要素プロ
セツサの情報を参照した後、生産者側要素プロセツサの
同期用変数または同期用レジスタの内容を１だけ排他的
加減算回路を用いて増加し、生産者側要素プロセツサは
自プロセツサ内の同期用変数または同期用レジスタの内
容が正なら排他的加減算回路を用いて１だけ減少させた
後該情報を再定義する）ことにより、メモリをロツク，
アンロツクする手続きをせずに共有データをアクセスす
ることができ、一つの繰返しループ内に要素プロセツサ
間にまたがるデータ依存関係が存在しても、過大なオー
バヘツドを伴わずに並列処理することができる。

とくに、要素プロセツサがベクトル演算装置を持つ場
合、要素プロセツサ間にまたがつたデータ依存関係のあ
るループのベクトル処理においては、異なる要素プロセ
ツサに属すベクトルレジスタ間の経路設定手段を用い
て、該依存関係を表わすデータフローに従つて１台の要
素プロセツサのベクトルレジスタから他の１台または複
数台の要素プロセツサのベクトルレジスタに直接データ
を送るための経路を設定し、ベクトルレジスタの各語単
位に設けたタグフイールドの内容がデータの到着を示し
ていればその内容をベクトル演算器に入力し、また、タ
グフイールドの内容がデータの未到着を示していればそ
こにデータを書き込む。このようにして、本発明のベク
トルレジスタ間データフロー同期装置を用いることによ
り、要素プロセツサ間にまたがつたデータ依存関係のあ
るループのベクトル処理を並列に実行することが可能と
なる。

さらに、ネツトワーク接続パタン設定回路により事前
に通信路を定めれば、通信の宛先をデコードしてスイツ
チを切替る動作が不要になり、また、宛先自体も送る必
要がない。さらに、格納アドレス生成回路により送られ
てきたデータの格納先を受信側ハードウエアで生成でき
るので、アドレスを送る必要がなく通信量が低減でき
る。

〔実施例〕以下、本発明の実施例を図面により詳細に説明する。

実施例１第２図は、本発明の並列計算機の全体構成図である。
１台のホスト計算機１と呼ぶ通常の逐次処理型計算機の
下に複数台の要素プロセツサ２が接続されており、それ
らが相互結合ネツトワーク３で結合されている。ホスト
計算機１と要素プロセツサ２の間には、制御信号・デー
タを交換するため結合パスと、要素プロセツサ２の処理
終了信号を要素プロセツサ２からホスト計算機１に伝送
する全同期信号線が張られている。ホスト計算機１は、
結合パス４を用いて要素プロセツサ２に情報を放送す
る。全同期信号線５は途中でAND回路６によりANDがとら
れ、要素プロセッサ全体が動作終了した場合にのみ全同
期信号がホスト計算機１に伝えられる。相互結合ネツト
ワーク３は、任意の要素プロセツサ間を結合することが
できるものとする。

第１図は、第１実施例の並列計算機の１台の要素プロ
セツサと相互結合ネツトワークの構成図である。要素プ
ロセツサ２は通常の逐次処理型計算機であり、処理ユニ
ツト21,メモリ制御ユニツト22,局所メモリ23,SENDユニ
ツト24,RECEIVEユニツト25,全同期用レジスタ26とから
成つている。処理ユニツト21はいわゆるCPUであり、メ
モリ制御ユニツト22は処理ユニツト21,SENDユニツト24,
RECEIVEユニツト25およびホスト計算機１から局所メモ
リ23へのアクセス要求を調停する装置である。メモリ制
御ユニツト22は動的アドレス変換装置を含んでもよい。
処理ユニツト21,メモリ制御ユニツト22,局所メモリ23は
通常の計算機におけるものと同一であり、本発明に直接
関係しないのでこれ以上の説明は省略する。

SENDユニツト24は、処理ユニツト21またはメモリ制御
ユニツト22の指示により他の要素プロセツサ２の局所メ
モリ23にデータを送信する装置であり、RECEIVEユニツ
ト25はこれを受信してメモリ制御ユニツト22経由で局所
メモリ23に書き込む装置である。これらの装置は、さら
にらいくつかの複雑な処理、例えばデータ要求情報の送
信と返信、等を行うものとしてもよいが、それらの内容
は本発明に直接関係しないのでこれ以上の説明は省略す
る。

相互結合ネツトワーク３は、任意要素プロセツサ間を
結合することのできるものであれば何でもよい。第１図
では完全結合のフルクロスバスイツチを図示している。
スイツチの詳細な回路構成は第３図〜第５図に示されて
いる。SENDユニツト24から送出される情報は、（宛先要
素プロセツサアドレス，書き込み領域のアドレス，書き
込みデータの値）とから構成されている。情報がデータ
線10を経由してクロスバスイツチのデイストリビユータ
31に到着すると、宛先要素プロセツサアドレスがデコー
ダ312（第３図）によりデコードされて対応するセレク
タ32（第１図）が選択され、そこに至るデータパス34−
１〜34−３のいずれかがデイストリビユータ311により
選択される（第３図）。このとき、情報がデータパス上
に乗つていることを示す制御信号が対応する信号線33−
１〜33−３のいずれかに出力される。各セレクタ32で
は、同時に到着する送信要求の中から一つを撰択して要
素プロセツサ２のRECEIVEユニツト25に送る。この動作
を第４図，第５図を用いて説明する。データパス34−１
〜34−３にデータが、信号線33−１〜33−３に制御信号
が乗つてセレクタ32に届くと、信号線33−１〜33−３は
アドレスレジスタ324を経由してROM322に入力される。R
OM322は（この例では）５ビツトのアドレスによりアク
セスされるメモリであり、最初の２ビツトはROM322の前
回の出力（３ビツト）がエンコーダ323によりエンコー
ドされて、残りの３ビツトは信号線33−１〜33−３が使
われる。第５図にはROM322の内容の１例が示されてい
る。左側の表側は３ビツトアドレスを、上側は２ビツト
アドレスを示している。２ビツトアドレスは、ROM322の
前回の出力が100の場合は00に、010の場合は01に、001
の場合は10にエンコードされる。すなわち、例えば先頭
の２ビツトアドレスが00である場合とは、前回の出力が
100、つまり前回にはデータパス34−１が選択された場
合であることを意味する。従つて、ROM322のアドレスの
先頭２ビツトが00であるアドレスには、データパス34−
１にだけ出力要求がきている場合（残り３ビツトが10
0）を除いて、他のデータパスが選択されるような出力
パタンが格納されている。このようにして、各出力要求
は平等に受け付けられる。RECEIVEユニツト25では、
（書き込み領域のアドレス，書き込みデータの値）を受
け取つて、メモリ制御ユニツト22経由で局所メモリ23に
書き込む。

本発明では、実行すべきプログラムを A.繰返しループ（入出力を除く配列定義部） B. 〃以外の逐次処理部 C.入出力部に分割し、Ａは要素プロセツサ２のアレイに、B,Cはホ
スト計算機１に割り付けて実行する。ホスト計算機１の
プログラムでは、Ａの実行命令、例えば DO 10 I＝1,100 DO 10 J＝1,100 Ａ（I,J）＝…… 10 Confinue 等の代りに要素プロセツサ２のアレイに対するＡの実行
指令命令 START TASK10 等が書かれている。この命令はＡの対応するプログラム
部分TASK10のエントリアドレスｔを全要素プロセツサの
記憶装置中の同一アドレス＃Ｐに放送して書き込むもの
である。

要素プロセツサ２は実行すべき繰返しループ処理（TA
SK10等）が終了すると、このアドレス＃Ｐに次の処理の
エントリアドレスｔ′が書かれるのを待つているので、
ｔ′の放送が終了するとすぎにその実行が入る。そし
て、プログラム実行が終了すると全同期用レジスタ26に
１を書いて、再び次の処理のエントリアドレスｔが書か
れるのを待つ。

全同期用レジスタ26の内容は、AND回路６でANDされて
ホスト計算機１に全同期信号として入力される。従つ
て、全ての要素プロセツサ２が処理を終了した段階で即
座にその状態がホスト計算機１に伝わる。

以上に述べたように、一つの繰返しループと該ループ
と依存関係のある次の繰返しループの間で必要な同期
は、放送手段およびハードウエアにより全同期手段を用
いて高速に実現される。なお、互いに依存関係になる相
互に独立した複数のループは一まとめにして実行する。

次に、一つの繰返しループの内部に存在するデータ依
存関係の処理について述べる。FORTRANプログラムを例
をとると、 DO 10 I＝1,100 DO 10 J＝1,100 Ａ（I,J）＝Ａ（Ｉ−1,J）＋Ｂ（Ｊ） 10 CONTINUE という繰返しループ（FORTRANプログラム例）をＩに
ついて並列処理する場合、各要素プロセツサ２は DO 10 J＝1,100 Ａ（I,J）＝Ａ（Ｉ−1,J）＋Ｂ（Ｊ） 10 CONTINUE という内側ループを特定のＩについて担当する。このと
き配列Ａ（Ｉ−1,J）,J＝1,100の各要素については、一
つ若いＩを担当する要素プロセツサから定義後の値をも
らつて計算する必要がある。すなわち、Ｉについては逐
次処理が要求される。しかし、Ｊに関しては各要素プロ
セツサで独立であるため、一つ若いＩを担当する要素プ
ロセツサがＪの順に次々と定義値を送つてくれば、これ
をパイプライン的に処理することにより並列処理が可能
となる。このように、データ依存関係のある繰返しルー
プでも、並列処理が可能である。本発明では、このよう
な依存型ループの並列処理のために、局所メモリ23中に
確保した同期用変数231または専用に設けた同期用レジ
スタ232と、該同期用変数231または同期用レジスタ232
の値を排他的に１だけ増減する排他的加減算回路211を
以下のように用いる。

いま、簡単のために、インデクスＩを担当する要素プ
ロセツサを要素プロセツサＩと記す。要素プロセツサＩ
−１は、Ａ（Ｉ−1,J）を定義した後、要素プロセツサ
Ｉにこの値を送信し、引き続き要素プロセツサＩに制御
情報（宛先要素プロセツサアドレス，制御情報であるこ
とを示すコード，同期用変数または同期用レジスタアド
レス）を送信する。制御情報が到達すると、メモリ制御
ユニツト22がこれを判定して処理ユニツト21に割込みを
かける。処理ユニツト21の割込み処理プログラムは排他
的加減算回路211を用いて同期用変数231または同期用レ
ジスタ232の内容に１を加算する。一方、要素プロセツ
サＩはＡ（Ｉ−1,J）を参照する前にこの同期用変数231
または同期用レジスタ232の内容が正か否かチエツク
し、否の場合はチエツク動作を繰り返す（busy wai
t）。内容が正である場合にはＡ（Ｉ−1,J）の参照を行
う。以上は定義した変数を参照する依存関係の例である
が、参照した変数を再定義する依存関係の場合も同様で
ある。すなわち、 DO 10 I＝1,100 DO 10 J＝1,100 Ａ（I,J）＝Ａ（Ｉ＋1,J）＋Ｂ（Ｊ） 10 CONTINUE （FORTRANプログラム例）をＩについて並列処理する
場合、要素プロセツサＩは、Ａ（Ｉ＋1,J）を参照した
後、要素プロセツサＩ＋１にこの値を送信し、引き続き
要素プロセツサＩ＋１に制御情報（宛先要素プロセツサ
アドレス，制御情報であることを示すコード，同期用変
数または同期用レジスタアドレス）を送信する。制御情
報が同期用変数または同期用レジスタに到着すると、メ
モリ制御ユニツト22がこれを判定して処理ユニツト21に
割込みをかける。処理ユニツト21の割込み処理プログラ
ムは排他的加減算回路211を用いてその内容に１を加算
する。一方、要素プロセツサＩ＋１はＡ（Ｉ＋1,J）を
定義する前にこの同期用変数231または同期用レジスタ2
32の内容が正か否かチエツクし、否の場合はチエツク動
作を繰り返す（busy wait）。内容が正である場合に
は、Ａ（Ｉ＋1,1）の定義を行う。同期用変数231または
同期用レジスタ232が計数型であるため、上記例のいず
れにおいても、インデクスＩの若い方を担当する要素プ
ロセツサはいくらでも処理を先行させることができる。

実施例２並列計算機の全体構成，要素プロセツサの主要構成部
分，プログラムの分割と割り当ておよび実行のさせ方は
実施例１と同じである。以下では、異なる部分について
第６図を用いて重点的に説明する。

本実施例は、実施例１にネツトワークプリセツト装
置、すなわち相互結合ネツトワーク３のデイストリビユ
ータ31からデコーダ312を除き、代わりにデイストリビ
ユータ311−０〜３の接続パタン設定回路33と格納アド
レス生成回路19を付加したものである。実施例１で引用
したFORTRANプログラム例では、第Ｉ−１要素プロセ
ツサから第Ｉ要素プロセツサへデータおよび制御情報を
送信する必要があることがソースプログラムを解析すれ
ば分かる。本実施例では、コンパイラが解析したこのよ
うな要素プロセツサ間結合パタンを、繰返しループ処理
を開始する前に相互結合ネツトワーク３の接続パタン設
定回路33に送つてデイストリビユータ311−０〜３の接
続を定める。また、受信側要素プロセツサの局所メモリ
23中の受信領域先頭アドレス（Ａ（Ｉ−1,1）のアドレ
ス）とその語長をそれぞれ格納アドレス生成回路19中の
格納領域アドレスレジスタ191−１〜191−３のいずれか
と語長レジスタ195に格納する。各要素プロセツサＩに
おいてＡ（Ｉ−1,J）,J＝1,100を同じアドレスに割り付
ければ、受信領域先頭アドレスと語長の格納はホスト計
算機１から放送することができる。もし、右辺にＡ（Ｉ
−2,J）等が現れるとき、すなわち複数の要素プロセツ
サから同時に受信する可能性があるときも、それぞれの
受信領域先頭アドレスと語長を送信元要素プロセツサに
対応した格納領域アドレスレジスタ191−１〜191−３と
語長レジスタ195に格納する。ただし、本装置は一本の
式を定義する繰返しループに適用することを主眼に設計
されており、一つの繰返しループ中で複数の式を定義す
るプログラムの場合には、これを一本の式を定義する繰
返しループの系列に分解する。

格納アドレス生成回路19中の格納領域アドレスレジス
タ191−１〜191−３は、セレクタ32−０〜３への入力デ
ータパス（以後入力チヤネルという）に対応している。
これは、各要素プロセツサ毎に定まるセレクタ32−０〜
３への入力チヤネルが分かれば送信側要素プロセツサが
分かるから、これに対応した受信領域のアドレスを格納
しておくためである。この図の例では、送信側要素プロセツサ番号＝受信側要素プロセツサ番号＋該セレクタへの入力チヤ
ネル番号＋１（mod要素プロセツサ台数）という関係がある。従つて、本発明では、入力チヤネル
番号により格納領域アドレスレジスタ191−１〜191−３
を選択できるよう、第６図に示すように、相互結合ネツ
トワーク３のセレクタ32−０〜３から出力される入力チ
ヤネル番号（0,1,2）と、第７図に示すよう送信情報中
の制御情報が否かを表わす１ビツトコードとをデコーダ
192に入力してデコードし、その結果によりセレクタ193
のスイツチングを行う。制御情報の場合（コード＝
‘1'）は、同期用変数231または同期用レジスタ232のア
ドレスを格納してあるレジスタ191−４を選択する。デ
ータの場合は、上記関係により定まる送信側要素プロセ
ツサから送られてくるデータの格納領域のアドレスを設
定してあるレジスタ191−１から191−３を選択する。

語長レジスタ195には該変数の語長が格納してあり、
格納領域アドレスレジスタ191−１〜191−４の一つが選
択されるとその内容に語長レジスタの内容が加算器194
により加算され、選択されている格納領域アドレスレジ
スタに書き込み制御回路190を経由して戻される。この
処理により１語分アドレスが進む。ただし、同期用変数
231または同期用レジスタ232の場合は語長は０である。

以上の装置を用いて、第Ｉ−１要素プロセツサがＡ
（Ｉ−1,1）を定義した後、これを第Ｉ要素プロセツサ
に送信し、データフロー同期によりパイプライン処理す
る場合を第６図を用いて説明する。

（１）全要素プロセツサがＡ（Ｉ−1,J）,J＝1,100の同
一のa₀番地から割り付ける。もし複数のＩ（以下Ｉ′等
と記す）を担当するときは、a₀番地から始まる領域に、
Ａ（Ｉ−1,J）,J＝1,100に引き続いてＡ（Ｉ′−1,J）,
J＝1,100等を割り付ける。（コンパイラの仕事）（２）格納領域アドレスレジスタ191−３に、ホスト計
算機が書き込み制御回路を経由してa₀を格納する。格納
領域アドレスレジスタ191−１〜３はそれぞれ相互結合
ネツトワーク３の各セレクタ32−０〜３への入力チヤネ
ル０〜２（セレクタ32−０〜３の箱の中に表示）に対応
しており、入力チヤネル２はどのセレクタにおいても一
つ若い番号（ただしプロセツサ台数を法として）の要素
プロセツサと接続している。

（３）ホスト計算機１が語長レジスタ195にＡの語長を
格納する。

（４）デイストリビユータ・パタン設定回路33を各デイ
ストリビユータの出力チヤネル０に設定する（出力チヤ
ネル番号はデイストリビユータ311−０〜３の左に表
示）。この例では、デイストリビユータ311−０〜３の
出力チヤネル０は各々セレクタ32−０〜３の入力チヤネ
ル２と接続している。すなわち、送信先（受信側）要素プロセツサ番号＝送信元（送信側）要素プロセツサ番号＋デイストリビ
ユータ出力チヤネル番号＋１（mod,要素プロセツサ台
数）という関係があるからである。

（５）同期用変数231または同期用レジスタ232の値を０
に初期設定する。ここから繰返しループ処理に入る。

（６）第０要素プロセツサがＡ（1,1）をSENDユニツト2
4により送信する。

（７）デイストリビユータ311−０の出力チヤネル０か
らセレクタ32−１の入力チヤネル２を経由して第１要素
プロセツサのRECEIVEユニツト25にデータが渡される。
一方、セレクタ32−１の入力チヤネル番号２がデータ中
の制御情報コード０とともに第１要素プロセツサのデコ
ーダ192へ入力され、その結果セレクタ193により格納領
域アドレスレジスタ191−３が選択されて、その内容（a
₀）がRECEIVEユニツト25から渡される受信データの格納
先アドレスとしてメモリ制御ユニツト22へ送られる。

（８）メモリ制御ユニツト22は、値Ａ（1,1）をa₀番地
に書き込む。

（９）加算器194によりセレクタ193出力のa₀に語長（バ
イト単位。例えば、倍精度演算では８）が加算され、a₀
＋８が書き込み制御回路190を経由して格納領域アドレ
スレジスタ191−３に書き込まれる。

（10）第０要素プロセツサが制御情報をSENDユニツト24
により送信する。

（11）デイストリビユータ311−０の出力チヤネル０か
らセレクタ32−１の入力チヤネル２を経由して第１要素
プロセツサのRECEIVEユニツト25に制御情報が渡され
る。デコーダ192へは、セレクタ32−１の入力チヤネル
番号２の他に制御情報コード‘1'が入力される。その結
果、同期用変数アドレスまたは同期用レジスタアドレス
の入つている格納領域アドレスレジスタ191−４が選択
され、メモリ制御ユニツト22に送られた後、処理装置21
の割込み処理プログラムにより排他的に１が加算され
る。

（12）第０要素プロセツサはさらに次の繰返しに入り、
Ａ（1,2）を第１要素プロセツサに送る。

（13）第１要素プロセツサは、Ａ（1,2）をa₀＋８番地
に書き込む。格納領域アドレスレジスタ191−３の内容
はa₀＋16となる。

（14）第０要素プロセツサは制御情報を送り、第１要素
プロセツサはこれに排他的加算を行う。第１要素プロセ
ツサの同期用変数231または同期用レジスタ232の値は２
となる。

（第０要素プロセツサの送信はこのようにいくら先行し
ても構わない。）（15）第１要素プロセツサが同期用変数231または同期
用レジスタ232の内容が正か否かチエツクし、正なら排
他的に１を減算する。（もし、ゼロまたは負ならbusy w
aitする）。

（16）第１要素プロセツサはa₀番地からＡ（1,1）読み
だし、それを用いてＡ（2,1）を定義する。結果は第２
要素プロセツサに送る。

以上のようにして、アドレス情報の送信やデコード／
切替を行わずに効率良く通信して、要素プロセツサ間で
パイプライン演算を行うことができる。

実施例３並列計算機の全体構成，要素プロセツサの一部構成部
分，プログラムの分割と割り当ておよび実行のさせ方は
実施例２と同じである。以下では、異なる部分について
第8,9図を用いて重点的に説明する。

本実施例は、実施例２を要素プロセツサがベクトルプ
ロセツサである場合に拡張したものである。要素プロセ
ツサは局所メモリ23の他、スカラプロセツサ15、全同期
用レジスタ26、ロード／ストアパイプ７−1,7−２、ベ
クトルレジスタ12−１〜12−４、ベクトル演算器14−１
〜14−３、インタチエンジA16、インタチエンジB17、SE
NDパイプ８、RECEIVEパイプ９、および格納アドレス生
成回路19とから構成される。同期用変数，同期用レジス
タは用いない。以下に、各構成要素の機能について簡単
に述べる。

・局所メモリ23とスカラプロセツサ15:通常の逐次処理
型計算機であり、要素プロセツサ２に割り当てられたベ
クトル処理以外の処理を担当する。

・全同期用レジスタ26:要素プロセツサ２全体で同期を
とるためのレジスタ。実施例1,2に同じ。

・ロード／ストアパイプ７−1,7−2:ベクトルレジスタ1
2−１〜12−４と局所メモリ23間でデータの転送を高速
に行う装置。通常のベクトル計算機で使われているもの
と同じ。

・ベクトルレジスタ12−１〜12−4:ベクトル演算に使用
するデータを格納するテンポラリ・レジスタ。通常のベ
クトル計算機で使われているものと異なり、語単位に１
ビツトのタグ・フイールド13−１〜13−４が用意されて
いて、ベクトルレジスタ12−１〜12−４にデータをロー
ドすると１にセツトされる。また、ベクトル演算器14−
１〜14−３はタグ・フイールド13−１〜13−４の値が１
である場合に限つてその語を入力し、そのタグ・フイー
ルド13−１〜13−４の値を０にリセツトする。繰返し参
照する定数データがベクトルレジスタ12−１〜12−４に
入つている場合は、命令によりタグ・フイールド13−１
〜13−４の値を０にリセツトしない。

・ベクトル演算器14−１〜14−3:通常のベクトル計算機
で使われているものと同じ。

・インタチエンジA16:ベクトルレジスタ12−１〜12−４
とロード／ストアパイプ７−1,7−２、SENDパイプ８、R
ECEIVEパイプ９を相互結合するデータパス。

・インタチエンジB17:ベクトル演算器14−１〜14−３と
ベクトルレジスタ12−１〜12−４を相互結合するデータ
パス。

・SENDパイプ8:ベクトルレジスタ12−１〜12−４から他
の要素プロセツサのベクトルレジスタ12−１〜12−４へ
データを高速に転送する装置。

・RECEIVEパイプ9:他の要素プロセツサのベクトルレジ
スタ12−１〜12−４から高速に転送されてきたデータを
インタチエンジA16を経由して自ベクトルレジスタ12−
１〜12−４に格納する装置。

・格納アドレス生成回路:RECEIVEパイプ９から出力され
るデータを格納するベクトルレジスタ12−１〜12−４の
アドレスを、受信チヤネルから生成する装置。このアド
レスによりインタチエンジC18の接続パスが設定され
る。機能的には実施例２に類似しているが、格納領域ア
ドレスレジスタ191−１〜３にはベクトルレジスタアド
レスが格納され、語長レジスタや加算回路がない点が異
なる。

相互結合ネツトワーク３は実施例２と同じであり、デ
イストリビユータ・パタン設定回路33によりデイストリ
ビユータ311−０〜311−３の接続パタンを設定してアド
レスデコードやスイツチングを不要にしたものである。

次に、本実施例の並列計算機の動作について述べる。
プログラムは、実施例１のFORTRANプログラム例を用
いて説明する。

（１）ベクトル処理に入る前に、ホスト計算機１が相互
結合ネツトワーク３の結合パタンを設定する。すなわ
ち、デイストリビユータ・パタン設定回路33により各デ
イストリビユータ311−０〜311−３の出力チヤネルを０
に設定する。この例では、デイストリビユータの出力チ
ヤネル０はそれぞれセレクタ32−０〜32−３の入力チヤ
ネル２と接続しているからである。

（２）ベクトルレジスタ12−１への受信命令を発行す
る。すなち、格納領域アドレスレジスタ191−３に、ホ
スト計算機１が書き込み制御回路190を経由して受信用
ベクトルレジスタ12−１のアドレスを格納し、同時にイ
ンタチエンジA16のデータパスの一つをベクトルレジス
タ12−１にアサインする。具体的には（第９図）、ホス
ト計算機１中のベクトル命令制御回路150が信号線10を
用いてセレクタ160−１を信号線119に接続し、信号線11
0によりRECEIVE指示発生制御回路90に起動信号を送る。
また、信号線14によりベクトルレジスタアクセス制御回
路92にも起動信号を送る。RECEIVE指示発生制御回路90
は起動され、信号線93−２から受信ベクトルレジスタア
ドレスが入力されるまで待機する。

格納領域アドレスレジスタ191−１〜３は相互結合ネ
ツトワーク３の各セレクタ32−０〜32−３への入力チヤ
ネル０〜２に対応しており、入力チヤネル２はどの要素
プロセツサのセレクタにおいても一つ若い番号の要素プ
ロセツサと接続している。従つて、これで全要素プロセ
ツサのベクトルレジスタ12−１は一つ若い番号の要素プ
ロセツサから送信されてくるベクトルデータを受信でき
る体制が整つたことになる。そのタグ・フイールド13−
１は０に初期設定される。（ただし、第０要素プロセツ
サだけは受信命令の代りにベクトルレジスタ12−１への
初期データのロード命令を発行する。この場合は、タグ
・フイールド13−１は１となる。）（３）ベクトルレジスタ12−２にＢ（Ｊ）,J＝1,100の
ロードを開始する。これはロードパイプ７−１を用いて
行い、タグフイールド13−２には１がセツトさていく。
具体的には、信号線10によりセレクタ160−２を信号116
と接続し、信号線15によりリクエスト発生制御回路70−
１に起動信号，要素数，データ幅を、信号線16によりア
ドレス発生制御回路71−１にＢ（Ｊ）の先頭アドレスと
増分を送る。また、信号線11によりベクトルレジスタア
クセス制御回路78−１に起動信号とベクトルレジスタ12
−２のアドレスを送る。これにより、ベクトルレジスタ
アクアクセス制御回路78−１はベクトルレジスタ12−２
への書き込みを制御できる。アドレス発生制御回路71−
１が生成するアドレスはアドレスレジスタ72−１に格納
された後、優先制御回路73を通つてアドレスレジスタ74
に入り、局所メモリ23の読み出しに用いられる。優先制
御回路73は所定のサイクル数経過後に、セレクタ76、ベ
クトルレジスタアクセス制御回路78−１、にそれぞれ選
択情報、書き込み指示信号を送り、局所メモリ23から出
力されたデータをセレクタ160−２を経由してベクトル
レジスタ12−２に書き込んでいく。このとき、タグフイ
ールド13−２にも１が書き込まれる。

（４）同時にベクトル加算命令を発行し、ベクトルレジ
スタ12−１とベクトルレジスタ12−２の内容を加算し
て、ベクトルレジスタ12−３とベクトルレジスタ12−４
への出力を開始する。第０要素プロセツサ以外は、ベク
トルレジスタ12−１のタグ・フイールド13−１は０だか
らすぐには計算に入れない。しかし、第０要素プロセツ
サは計算を始めることができ、その結果をインタチエン
ジB17を経由してベクトルレジスタ12−３〜12−４に出
力していく。出力された語に対応するタグ・フイールド
13−３〜13−４は１となる。

（５）ベクトルレジスタ12−３からの送信命令を発行す
る。これにより、インタチエンジA16上にベクトルレジ
スタ12−３からSENDパイプ８へのデータパスができ、SE
NDパイプ８はタグ・フイールド13−３が１の内容を相互
結合ネツトワーク３に送り出す。具体的には、ベクトル
命令制御回路150が信号10を用いてセレクタ160−３を信
号線118と接続し、信号線19を用いてSEND指示発生制御
回路80に起動信号を送り、さらに、ベクトルレジスタア
クセス制御回路83に起動信号とベクトルレジスタ12−３
のアドレスを送る。ベクトルレジスタアクセス制御回路
83の信号によりベクトルレジスタ12−３から読み出され
たデータはセレクタ160−３を経由して信号線118上に出
力され、データレジスタ82に格納される。このとき、各
語の先頭のタグ・フイールドの内容が１であれば、SEND
指示発生制御回路80からベクトルレジスタアクセス制御
回路83に次の読み出し指示信号が送られ、ベクトルレジ
スタ12−３の次の語が読み出される。また、読み出した
データは、タグ部を除いてデータ線10に出力され、信号
線111には送信信号が出力される。タグ・フイールドの
内容が０であればSEND指示発生制御回路80からは次の読
み出し指示信号は送られず、繰り返し同じ語を読みだ
す。また、信号線111には送信信号は出力されない。

相互結合ネツトワーク３では、デイストリビユータ31
1−０〜311−３の出力チヤネル０は一つ大きい番号の要
素プロセツサのセレクタ32−０〜32−３の入力チヤネル
２と接続しているから、第０要素プロセツサから送信さ
れたデータは第１要素プロセツサに送られる。

（６）ベクトルレジスタ12−４のストア命令を発行す
る。ベクトルレジスタ12−４にはベクトルレジスタ12−
３と同じ内容が格納されている。この命令により、送信
とは独立に自メモリへの格納が実行される。格納はもう
一本のストアパイプ７−２を用いて行われる。具体的に
は、ベクトル命令制御回路150が信号10によりセレクタ1
60−４を信号線117と接続し、信号線17,信号線18にそれ
ぞれ起動信号，要素数，データ幅,A（I,J）の先頭アド
レスを乗せてリクエスト発生制御回路70−2,アドレス発
生回路71−２に送る。さらに、ベクトルレジスタアクセ
ス制御回路78−２に起動信号とベクトルレジスタ12−４
のアドレスを送る。ロードのときと同様にして局所メモ
リにＡ（I,J）のアドレスが順に送られ、また、ベクト
ルレジスタ12−４から読みだされたデータがセレクタ16
0−4,信号線117,データレジスタ77−２を経由して局所
メモリ23に書き込まれる。

（７）一つ若い番号の要素プロセツサから送られてきた
データは、相互結合ネツトワーク３の当該セレクタの入
力チヤネル２からRECEIVEパイプ９に送られる。同時
に、セレクタの入力チヤネル番号‘2'がデコーダ192へ
入力され、その結果セレクタ193により格納領域アドレ
スレジスタ191−３が選択されて、その内容（受信用ベ
クトルレジスタ12−１のアドレス）がRECEIVEパイプ９
から渡される受信データの格納先ベクトルレジスタのア
ドレスとしてインタチエンジA16へ送られる。すなわ
ち、信号線93−２上のベクトルレジスタ12−１のアドレ
スがRECEIVE指示発生制御回路90に渡され、信号線113を
経由してベクトルレジスタアクセス制御回路92に書き込
み指示信号と共に入力される。この入力にもとづいて、
ベクトルレジスタアクセス制御回路92は信号線93−１上
のデータとRECEIVE指示発生制御回路90が生成したタグ
・フイールドの値１を、データレジスタ91,信号線119,
セレクタ160−１を経由してベクトルレジスタ12−１に
書き込む。

こうして、受信データはベクトルレジスタ12−１に格
納され、そのタグ・フイールド13−１は書き込みされた
語単位に１にセツトされていく。第１要素プロセツサ以
降は、この値を用いてベクトル処理を行う。

以上のようにして、アドレス情報の送信やデコード／
切替を行わずに効率良く通信して、要素プロセツサ間に
またがるベクトル演算を行うことができる。

〔発明の効果〕

本発明では、一つの繰返しループと該ループと依存関
係のある次の繰返しループの間で必要な同期は、放送手
段およびハードウエアによる全同期手段を用いて高速に
実現される。また、繰返しループ内のデータ依存関係を
満足するためには、要素プロセツサがスカラプロセツサ
の場合、同期を取り合う要素プロセツサで制御情報の送
信＆加算命令とチエツク＆busy−wait命令を発行するだ
けでよく、共有メモリのロツク・アンロツクのように他
の処理を阻害することがない。さらに、排他的加減算は
同期用変数または同期用レジスタの存在する側の要素プ
ロセツサが制御情報を受け取つた後行うので、不必要に
ネツトワークを専有して他の処理を阻害することもな
い。また、要素プロセツサがベクトルプロセツサの場
合、要素プロセツサ間にまたがつてベクトルレジスタを
結合しておいてから、ベクトル処理を行なうことがで
き、データ依存関係のある繰り返しループのベクトル処
理を並列に実行することが可能となる。

さらに、ネツトワーク・プリセツト装置により宛先情
報の送信が不要となり、通信時の宛先のデコードやスイ
ツチ切り替えが省略できるので通信が高速化できるとい
う効果がある。

【図面の簡単な説明】

第１図は、本発明の第１実施例の全体構成図、第２図
は、本発明の各実施例に共通の並列計算機の概念図、第
３図は、相互結合ネツトワーク中のデイストリビユータ
の構成図、第４図は、相互結合ネツトワーク中のセレク
タの構成図、第５図は、セレクタの選択論理を表わすRO
Mの一例、第６図は、本発明の第２実施例の全体構成
図、第７図は、第２実施例の送信情報の内容説明図、第
８図は、本発明の第３実施例の全体構成図、第９図は、
本発明の第３実施例のベクトル処理装置の詳細な構成図
である。

フロントページの続き (72)発明者迫田行介神奈川県川崎市麻生区王禅寺1099番地株式会社日立製作所システム開発研究所内 (56)参考文献特開昭63−45670（ＪＰ，Ａ) 特開昭63−214865（ＪＰ，Ａ) 特開昭60−142460（ＪＰ，Ａ) 特開昭63−111562（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 15/163 G06F 15/80

Claims

(57)【特許請求の範囲】

【請求項１】ホスト計算機から全要素プロセツサの記憶
装置中の同一アドレスに対して一度に情報を書き込む手
段と、全要素プロセツサの処理終了を検出する手段と、
任意の要素プロセツサ間で情報の授受を行うための相互
結合ネツトワークと、情報の授受を行うときにその記憶
装置への書き込み，読みだしに関する同期をとるため、
各要素プロセツサに設けた同期用変数または同期用レジ
スタとその排他的加減算回路とから構成されるデータフ
ロー同期手段とを備えることを特徴とする並列計算機。
【請求項２】ベクトル演算装置を有する要素プロセツサ
間で、１台の要素プロセツサのベクトルレジスタから他
の１台または複数台の要素プロセツサのベクトルレジス
タに直接データを送るための経路を設定する手段、およ
びその値が０のときデータのベクトルレジスタへの書き
込みができ、その値が１のときデータのベクトルレジス
タからの読みだしができる、各語単位に設けたタグフイ
ールドを持つベクトルレジスタと、タグフイールドの値
を操作する手段とから成るベクトルレジスタ間データフ
ロー同期装置。
【請求項３】要素プロセツサを相互に結合するネツトワ
ークの接続パタンをネツトワーク利用時以前に設定する
ネツトワーク接続パタン設定回路と、送信元要素プロセ
ツサ番号をそこから送られてくるデータを格納するベク
トルレジスタアドレスまたは記憶装置中の格納領域アド
レスに変換する格納アドレス生成回路とから成るネツト
ワークプリセツト装置。
【請求項４】データフロー同期手段として請求項２記載
のベクトルレジスタ間データフロー同期装置を用いた並
列計算機。
【請求項５】請求項３記載のネツトワークプリセツト装
置を用いた並列計算機。
【請求項６】相互結合ネツトワークとして請求項３記載
のネツトワークプリセツト装置を用いた並列計算機。