JP2765882B2 - 並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置 - Google Patents

並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置

Info

Publication number
JP2765882B2
JP2765882B2 JP63285654A JP28565488A JP2765882B2 JP 2765882 B2 JP2765882 B2 JP 2765882B2 JP 63285654 A JP63285654 A JP 63285654A JP 28565488 A JP28565488 A JP 28565488A JP 2765882 B2 JP2765882 B2 JP 2765882B2
Authority
JP
Japan
Prior art keywords
data
vector
address
register
element processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63285654A
Other languages
English (en)
Other versions
JPH02132575A (ja
Inventor
晃 村松
郁夫 ▲吉▼原
行介 迫田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63285654A priority Critical patent/JP2765882B2/ja
Publication of JPH02132575A publication Critical patent/JPH02132575A/ja
Application granted granted Critical
Publication of JP2765882B2 publication Critical patent/JP2765882B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、並列計算機に係り、特に繰返しループの負
荷分散処理が主体の数値計算用並列計算機に関する。
〔従来の技術〕
従来の数値計算用並列計算機は、下記文献1記載の局
所メモリ型の並列計算機、下記文献2記載の共有メモリ
型の並列計算機、下記文献3記載のベクトル計算機のマ
ルチプロセツサがある。
文型1 チヤールズ・エル・サイツ:ザ コズミツク
キユーブ,コミユニケーシヨンズ オブ ザ エーシー
エム,z8巻1号,22〜23頁,1985年 (Charles L.Seitz:The Cosmic Cube,Communications o
f the ACM,vol.28,No.1,pp.22−33,1985) 文献2 アラン ゴツトリーブ他:ザ NYU ウルトラ
コンピユーターデザイニング アン MIMD シエアド
メモリ パラレル コンピユータ,IEEE トランザクシ
ヨンズ オン コンピユーターズ C−32巻,2号,175〜
189頁,1983年 (Allan Gottlieb et.al.:The NYU Ultracomputer−Des
igning an MIMD Shared Memory Parallel Computer,IEE
E Transactions on Computers,vol.C−32,No.2,pp.175
−189,1983) 文献3 寺内和也:主記憶2Gバイトで液浸冷却方式のCR
AY−2スーパーコンピユータ,日経エレクトロニクス,1
985.12.16号,195〜209頁,1985年 このうち、文献1記載の局所メモリ型の並列計算機で
は、解くべき問題を使用する並列計算機の構成に合わせ
て分割し、各要素プロセツサ毎のプログラムを作成す
る。要素プロセツサ間でデータを交換する場合は、デー
タの送受信命令、例えばSEND命令,RECIVE命令を発行す
る。また、逐次処理が必要な場合は、どれか1台の要素
プロセツサが他の要素プロセツサと同期を取つた後これ
を実行する。
共有メモリ型の並列計算機では、データは分割せずに
共有メモリに置き、プログラムを分割または複写して各
要素プロセツサで実行させる。このため、要素プロセツ
サ間で送受信命令を用いてデータを交換する必要はな
く、代りに共有メモリを読み書きする。そのため、読み
書きの順序を制御するために、データを定義する側の要
素プロセツサと参照する側の要素プロセツサとの間で同
期を取る必要がある。代表的な同期手段としては、メモ
リのロツク,アンロツク手続きがある。
ベクトル計算機のマルチプロセツサも、同様に共有メ
モリ型であり、要素プロセツサ間共有データは共有メモ
リに置いて、ロツク/アンロツク制御によりこれを読み
書きする。従つて、ベクトル処理(ベクトルレジスタを
使用する)の並列処理は、ループ内の変数間に依存関係
がない場合に限られる。
下記文献4には、分割メモリ上に共有メモリを構築す
る例が記載されている。この例では、各要素プロセツサ
が自分のメモリ中に存在するデータをアクセスする場合
は高速であるが、他の要素プロセツサ中のメモリをアク
セスする場合は、ネツトワークを経由するため遅い。
文献4 ジー・エフ・フイスター他:ザ アイビーエム
リサーチ パラレル プロセツサ プロトタイプ(RP
3):イントロダクシヨン アンド アーキテクチヤ,
プロシーデイングズ オブ ザ 1985 インターナシヨ
ナル コンフアレンス イン パラレル プロセシン
グ,764〜771頁,1985年 (G.F.Pfister et.al.:The IBM Research Paralle I Pr
ocessor Prototype(RP3):Introduction and Architec
ture,Proceedings of the 1985 International Confere
nce in Parallel Processing,pp.764−771,1985) 〔発明が解決しようとする課題〕 まず、局所メモリ型の並列計算機は、利用者が並列計
算機の構成を意識して問題を分割しなくてはならないと
いう大きな問題がある。
残る3種類の並列計算機−共有メモリ型の並列計算
機,ベクトル計算機のマルチプロセツサ,分散型共有メ
モリを持つ並列計算機−には、次のような問題点があ
る。
(1)共有メモリ型の並列計算機では、1台当りの性能
がベクトル計算機のように高くないので、システム全体
の性能を高くしようとすると多数台を結合しなくてはな
らない。これは、要素プロセツサと共有メモリを結合す
る装置のハードウエア量が増加し、メモリアクセスに時
間がかかる他、メモリアクセス競合を引き起こす等の問
題を生み出す。特に、データを複合台の要素プロセツサ
で共有する場合には、メモリロツク等の同期オーバヘツ
ドが大きくなり、多数台の要素プロセツサを結合しても
性能が出ないという問題がある。
(2)ベクトル計算機のマルチプロセツサでは、1台当
りの性能が高いので、多数台の要素プロセツサを結合す
る必要性は低い。しかし、やはりメモリロツク等の同期
オーバヘツドは大きく、またデータ依存関係のあるルー
プのベクトル処理を並列に実行できないという問題があ
る。
(3)分散型共有メモリを持つ並列計算機は、データが
自メモリ中にある場合には高速にアクセスでき、メモリ
競合も発生しないので、多数台の要素プロセツサを結合
するのに向いた方式である。しかし、要素プロセツサ間
でデータを交換する場合には通信に時間がかかる。ま
た、一旦データを分散メモリ上に割り付けてしまうと、
ベクトル計算機がベクトル処理を行うために内側ループ
と外側ループとを交換してループの独立性を得るという
ようなプログラムの変換ができず、必然的に依存型のル
ープをより多く対象としなければならなくなる。これ
は、要素プロセツサ間の同期のオーバヘツドが増大する
ことにつながる。
本発明の目的は、利用者が並列計算機の構成を意識し
て問題を分割する必要がなく、さらに高性能を出すこと
のできる並列計算機であるベクトル計算機のマルチプロ
セツサ,分散型共有メモリを持つ並列計算機に共通の問
題点である。
メモリロツク等の同期オーバヘツドが大きいことを解
決する同期手段およびそれを用いた並列計算機およびベ
クトル計算機を提供することにある。
本発明のさらに他の目的は、ベクトル計算機のマルチ
プロセツサに固有の問題である。
データ依存関係のあるループのベクトル処理を並列に
実行できないことを解決したベクトル計算機を提供する
ことにある。
さらに、本発明の他の目的は分散型共有メモリを持つ
並列計算機に顕著である。
通信に時間がかかるという問題を解決した並列計算機
を提供するにある。
〔課題を解決するための手段〕
上記問題点を解決するために、本発明の並列計算機で
は、ホスト計算機から全要素プロセツサの記憶装置中の
同一アドレスに対して一度に情報を書き込む放送手段
と、全要素プロセツサの処理終了を検出する全同期手段
と、任意の要素プロセツサ間で情報の授受を行うための
相互結合ネツトワークと、情報の授受を行うときにその
記憶装置への書き込み,読みだしに関する同期をとるた
めに各要素プロセツサに設けた同期用変数または同期用
レジスタとその排他的加減算回路とから構成されるデー
タフロー同期手段とを備える。
また、本発明の好ましい態様では、ベクトル計算機の
マルチプロセツサのように要素プロセツサがベクトル演
算装置を有し、1台の要素プロセッサのベクトルレジス
タから他の1台または複数台の要素プロセツサのベクト
ルレジスタに直接データを送るための経路を設定する手
段、およびその値が0のときデータのベクトルレジスタ
への書き込みができ、その値が1のときデータのベクト
ルレジスタからの読みだしができる、各語単位に設けた
タグフイールドを持つベクトルレジスタと、タグフイー
ルドの値を操作する手段とから成るベクトルレジスタ間
データフロー同期装置を備える。
さらに、通信のオーバヘツド削減のために、相互結合
ネツトワークの接続パタンをネツトワーク利用時以前に
設定するネツトワーク接続パタン設定回路と、送信元要
素プロセツサ番号をそこから送られてくるデータを格納
するベクトルレジスタアドレスまたは記憶装置中の格納
領域アドレスに変換する格納アドレス生成回路とから成
るネツトワークプリセツト装置を備える。
〔作用〕
並列実行させる一つの繰返しループの終了の検出を、
全要素プロセツサの処理終了を検出する全同期手段を用
いて高速に行い、該ループに引き続き並列実行させる他
のループをホスト計算機から全要素プロセツサの記憶装
置中の同一アドレスに対して一度に情報を書き込む放送
手段により高速に開始し、このようにして両ループの間
に存在するデータ依存関係を満たすための同期を高速に
取ることが可能となる。また、情報の生産者側要素プロ
セツサが情報を消費者要素プロセツサに転送した後、消
費者側要素プロセツサの同期用変数または同期用レジス
タの内容を1だけ排他的加減算回路を用いて増加し、消
費者側要素プロセツサは自プロセツサ内の同期用変数ま
たは同期用レジスタの内容が正なら排他的加減算回討を
用いて1だけ減少させた後転送されてきた情報を参照す
る(または消費者側要素プロセツサが生産者側要素プロ
セツサの情報を参照した後、生産者側要素プロセツサの
同期用変数または同期用レジスタの内容を1だけ排他的
加減算回路を用いて増加し、生産者側要素プロセツサは
自プロセツサ内の同期用変数または同期用レジスタの内
容が正なら排他的加減算回路を用いて1だけ減少させた
後該情報を再定義する)ことにより、メモリをロツク,
アンロツクする手続きをせずに共有データをアクセスす
ることができ、一つの繰返しループ内に要素プロセツサ
間にまたがるデータ依存関係が存在しても、過大なオー
バヘツドを伴わずに並列処理することができる。
とくに、要素プロセツサがベクトル演算装置を持つ場
合、要素プロセツサ間にまたがつたデータ依存関係のあ
るループのベクトル処理においては、異なる要素プロセ
ツサに属すベクトルレジスタ間の経路設定手段を用い
て、該依存関係を表わすデータフローに従つて1台の要
素プロセツサのベクトルレジスタから他の1台または複
数台の要素プロセツサのベクトルレジスタに直接データ
を送るための経路を設定し、ベクトルレジスタの各語単
位に設けたタグフイールドの内容がデータの到着を示し
ていればその内容をベクトル演算器に入力し、また、タ
グフイールドの内容がデータの未到着を示していればそ
こにデータを書き込む。このようにして、本発明のベク
トルレジスタ間データフロー同期装置を用いることによ
り、要素プロセツサ間にまたがつたデータ依存関係のあ
るループのベクトル処理を並列に実行することが可能と
なる。
さらに、ネツトワーク接続パタン設定回路により事前
に通信路を定めれば、通信の宛先をデコードしてスイツ
チを切替る動作が不要になり、また、宛先自体も送る必
要がない。さらに、格納アドレス生成回路により送られ
てきたデータの格納先を受信側ハードウエアで生成でき
るので、アドレスを送る必要がなく通信量が低減でき
る。
〔実施例〕 以下、本発明の実施例を図面により詳細に説明する。
実施例1 第2図は、本発明の並列計算機の全体構成図である。
1台のホスト計算機1と呼ぶ通常の逐次処理型計算機の
下に複数台の要素プロセツサ2が接続されており、それ
らが相互結合ネツトワーク3で結合されている。ホスト
計算機1と要素プロセツサ2の間には、制御信号・デー
タを交換するため結合パスと、要素プロセツサ2の処理
終了信号を要素プロセツサ2からホスト計算機1に伝送
する全同期信号線が張られている。ホスト計算機1は、
結合パス4を用いて要素プロセツサ2に情報を放送す
る。全同期信号線5は途中でAND回路6によりANDがとら
れ、要素プロセッサ全体が動作終了した場合にのみ全同
期信号がホスト計算機1に伝えられる。相互結合ネツト
ワーク3は、任意の要素プロセツサ間を結合することが
できるものとする。
第1図は、第1実施例の並列計算機の1台の要素プロ
セツサと相互結合ネツトワークの構成図である。要素プ
ロセツサ2は通常の逐次処理型計算機であり、処理ユニ
ツト21,メモリ制御ユニツト22,局所メモリ23,SENDユニ
ツト24,RECEIVEユニツト25,全同期用レジスタ26とから
成つている。処理ユニツト21はいわゆるCPUであり、メ
モリ制御ユニツト22は処理ユニツト21,SENDユニツト24,
RECEIVEユニツト25およびホスト計算機1から局所メモ
リ23へのアクセス要求を調停する装置である。メモリ制
御ユニツト22は動的アドレス変換装置を含んでもよい。
処理ユニツト21,メモリ制御ユニツト22,局所メモリ23は
通常の計算機におけるものと同一であり、本発明に直接
関係しないのでこれ以上の説明は省略する。
SENDユニツト24は、処理ユニツト21またはメモリ制御
ユニツト22の指示により他の要素プロセツサ2の局所メ
モリ23にデータを送信する装置であり、RECEIVEユニツ
ト25はこれを受信してメモリ制御ユニツト22経由で局所
メモリ23に書き込む装置である。これらの装置は、さら
にらいくつかの複雑な処理、例えばデータ要求情報の送
信と返信、等を行うものとしてもよいが、それらの内容
は本発明に直接関係しないのでこれ以上の説明は省略す
る。
相互結合ネツトワーク3は、任意要素プロセツサ間を
結合することのできるものであれば何でもよい。第1図
では完全結合のフルクロスバスイツチを図示している。
スイツチの詳細な回路構成は第3図〜第5図に示されて
いる。SENDユニツト24から送出される情報は、(宛先要
素プロセツサアドレス,書き込み領域のアドレス,書き
込みデータの値)とから構成されている。情報がデータ
線10を経由してクロスバスイツチのデイストリビユータ
31に到着すると、宛先要素プロセツサアドレスがデコー
ダ312(第3図)によりデコードされて対応するセレク
タ32(第1図)が選択され、そこに至るデータパス34−
1〜34−3のいずれかがデイストリビユータ311により
選択される(第3図)。このとき、情報がデータパス上
に乗つていることを示す制御信号が対応する信号線33−
1〜33−3のいずれかに出力される。各セレクタ32で
は、同時に到着する送信要求の中から一つを撰択して要
素プロセツサ2のRECEIVEユニツト25に送る。この動作
を第4図,第5図を用いて説明する。データパス34−1
〜34−3にデータが、信号線33−1〜33−3に制御信号
が乗つてセレクタ32に届くと、信号線33−1〜33−3は
アドレスレジスタ324を経由してROM322に入力される。R
OM322は(この例では)5ビツトのアドレスによりアク
セスされるメモリであり、最初の2ビツトはROM322の前
回の出力(3ビツト)がエンコーダ323によりエンコー
ドされて、残りの3ビツトは信号線33−1〜33−3が使
われる。第5図にはROM322の内容の1例が示されてい
る。左側の表側は3ビツトアドレスを、上側は2ビツト
アドレスを示している。2ビツトアドレスは、ROM322の
前回の出力が100の場合は00に、010の場合は01に、001
の場合は10にエンコードされる。すなわち、例えば先頭
の2ビツトアドレスが00である場合とは、前回の出力が
100、つまり前回にはデータパス34−1が選択された場
合であることを意味する。従つて、ROM322のアドレスの
先頭2ビツトが00であるアドレスには、データパス34−
1にだけ出力要求がきている場合(残り3ビツトが10
0)を除いて、他のデータパスが選択されるような出力
パタンが格納されている。このようにして、各出力要求
は平等に受け付けられる。RECEIVEユニツト25では、
(書き込み領域のアドレス,書き込みデータの値)を受
け取つて、メモリ制御ユニツト22経由で局所メモリ23に
書き込む。
本発明では、実行すべきプログラムを A.繰返しループ(入出力を除く配列定義部) B. 〃 以外の逐次処理部 C.入出力部 に分割し、Aは要素プロセツサ2のアレイに、B,Cはホ
スト計算機1に割り付けて実行する。ホスト計算機1の
プログラムでは、Aの実行命令、例えば DO 10 I=1,100 DO 10 J=1,100 A(I,J)=…… 10 Confinue 等の代りに要素プロセツサ2のアレイに対するAの実行
指令命令 START TASK10 等が書かれている。この命令はAの対応するプログラム
部分TASK10のエントリアドレスtを全要素プロセツサの
記憶装置中の同一アドレス#Pに放送して書き込むもの
である。
要素プロセツサ2は実行すべき繰返しループ処理(TA
SK10等)が終了すると、このアドレス#Pに次の処理の
エントリアドレスt′が書かれるのを待つているので、
t′の放送が終了するとすぎにその実行が入る。そし
て、プログラム実行が終了すると全同期用レジスタ26に
1を書いて、再び次の処理のエントリアドレスtが書か
れるのを待つ。
全同期用レジスタ26の内容は、AND回路6でANDされて
ホスト計算機1に全同期信号として入力される。従つ
て、全ての要素プロセツサ2が処理を終了した段階で即
座にその状態がホスト計算機1に伝わる。
以上に述べたように、一つの繰返しループと該ループ
と依存関係のある次の繰返しループの間で必要な同期
は、放送手段およびハードウエアにより全同期手段を用
いて高速に実現される。なお、互いに依存関係になる相
互に独立した複数のループは一まとめにして実行する。
次に、一つの繰返しループの内部に存在するデータ依
存関係の処理について述べる。FORTRANプログラムを例
をとると、 DO 10 I=1,100 DO 10 J=1,100 A(I,J)=A(I−1,J)+B(J) 10 CONTINUE という繰返しループ(FORTRANプログラム例)をIに
ついて並列処理する場合、各要素プロセツサ2は DO 10 J=1,100 A(I,J)=A(I−1,J)+B(J) 10 CONTINUE という内側ループを特定のIについて担当する。このと
き配列A(I−1,J),J=1,100の各要素については、一
つ若いIを担当する要素プロセツサから定義後の値をも
らつて計算する必要がある。すなわち、Iについては逐
次処理が要求される。しかし、Jに関しては各要素プロ
セツサで独立であるため、一つ若いIを担当する要素プ
ロセツサがJの順に次々と定義値を送つてくれば、これ
をパイプライン的に処理することにより並列処理が可能
となる。このように、データ依存関係のある繰返しルー
プでも、並列処理が可能である。本発明では、このよう
な依存型ループの並列処理のために、局所メモリ23中に
確保した同期用変数231または専用に設けた同期用レジ
スタ232と、該同期用変数231または同期用レジスタ232
の値を排他的に1だけ増減する排他的加減算回路211を
以下のように用いる。
いま、簡単のために、インデクスIを担当する要素プ
ロセツサを要素プロセツサIと記す。要素プロセツサI
−1は、A(I−1,J)を定義した後、要素プロセツサ
Iにこの値を送信し、引き続き要素プロセツサIに制御
情報(宛先要素プロセツサアドレス,制御情報であるこ
とを示すコード,同期用変数または同期用レジスタアド
レス)を送信する。制御情報が到達すると、メモリ制御
ユニツト22がこれを判定して処理ユニツト21に割込みを
かける。処理ユニツト21の割込み処理プログラムは排他
的加減算回路211を用いて同期用変数231または同期用レ
ジスタ232の内容に1を加算する。一方、要素プロセツ
サIはA(I−1,J)を参照する前にこの同期用変数231
または同期用レジスタ232の内容が正か否かチエツク
し、否の場合はチエツク動作を繰り返す(busy wai
t)。内容が正である場合にはA(I−1,J)の参照を行
う。以上は定義した変数を参照する依存関係の例である
が、参照した変数を再定義する依存関係の場合も同様で
ある。すなわち、 DO 10 I=1,100 DO 10 J=1,100 A(I,J)=A(I+1,J)+B(J) 10 CONTINUE (FORTRANプログラム例)をIについて並列処理する
場合、要素プロセツサIは、A(I+1,J)を参照した
後、要素プロセツサI+1にこの値を送信し、引き続き
要素プロセツサI+1に制御情報(宛先要素プロセツサ
アドレス,制御情報であることを示すコード,同期用変
数または同期用レジスタアドレス)を送信する。制御情
報が同期用変数または同期用レジスタに到着すると、メ
モリ制御ユニツト22がこれを判定して処理ユニツト21に
割込みをかける。処理ユニツト21の割込み処理プログラ
ムは排他的加減算回路211を用いてその内容に1を加算
する。一方、要素プロセツサI+1はA(I+1,J)を
定義する前にこの同期用変数231または同期用レジスタ2
32の内容が正か否かチエツクし、否の場合はチエツク動
作を繰り返す(busy wait)。内容が正である場合に
は、A(I+1,1)の定義を行う。同期用変数231または
同期用レジスタ232が計数型であるため、上記例のいず
れにおいても、インデクスIの若い方を担当する要素プ
ロセツサはいくらでも処理を先行させることができる。
実施例2 並列計算機の全体構成,要素プロセツサの主要構成部
分,プログラムの分割と割り当ておよび実行のさせ方は
実施例1と同じである。以下では、異なる部分について
第6図を用いて重点的に説明する。
本実施例は、実施例1にネツトワークプリセツト装
置、すなわち相互結合ネツトワーク3のデイストリビユ
ータ31からデコーダ312を除き、代わりにデイストリビ
ユータ311−0〜3の接続パタン設定回路33と格納アド
レス生成回路19を付加したものである。実施例1で引用
したFORTRANプログラム例では、第I−1要素プロセ
ツサから第I要素プロセツサへデータおよび制御情報を
送信する必要があることがソースプログラムを解析すれ
ば分かる。本実施例では、コンパイラが解析したこのよ
うな要素プロセツサ間結合パタンを、繰返しループ処理
を開始する前に相互結合ネツトワーク3の接続パタン設
定回路33に送つてデイストリビユータ311−0〜3の接
続を定める。また、受信側要素プロセツサの局所メモリ
23中の受信領域先頭アドレス(A(I−1,1)のアドレ
ス)とその語長をそれぞれ格納アドレス生成回路19中の
格納領域アドレスレジスタ191−1〜191−3のいずれか
と語長レジスタ195に格納する。各要素プロセツサIに
おいてA(I−1,J),J=1,100を同じアドレスに割り付
ければ、受信領域先頭アドレスと語長の格納はホスト計
算機1から放送することができる。もし、右辺にA(I
−2,J)等が現れるとき、すなわち複数の要素プロセツ
サから同時に受信する可能性があるときも、それぞれの
受信領域先頭アドレスと語長を送信元要素プロセツサに
対応した格納領域アドレスレジスタ191−1〜191−3と
語長レジスタ195に格納する。ただし、本装置は一本の
式を定義する繰返しループに適用することを主眼に設計
されており、一つの繰返しループ中で複数の式を定義す
るプログラムの場合には、これを一本の式を定義する繰
返しループの系列に分解する。
格納アドレス生成回路19中の格納領域アドレスレジス
タ191−1〜191−3は、セレクタ32−0〜3への入力デ
ータパス(以後入力チヤネルという)に対応している。
これは、各要素プロセツサ毎に定まるセレクタ32−0〜
3への入力チヤネルが分かれば送信側要素プロセツサが
分かるから、これに対応した受信領域のアドレスを格納
しておくためである。この図の例では、 送信側要素プロセツサ番号 =受信側要素プロセツサ番号+該セレクタへの入力チヤ
ネル番号+1(mod要素プロセツサ台数) という関係がある。従つて、本発明では、入力チヤネル
番号により格納領域アドレスレジスタ191−1〜191−3
を選択できるよう、第6図に示すように、相互結合ネツ
トワーク3のセレクタ32−0〜3から出力される入力チ
ヤネル番号(0,1,2)と、第7図に示すよう送信情報中
の制御情報が否かを表わす1ビツトコードとをデコーダ
192に入力してデコードし、その結果によりセレクタ193
のスイツチングを行う。制御情報の場合(コード=
‘1')は、同期用変数231または同期用レジスタ232のア
ドレスを格納してあるレジスタ191−4を選択する。デ
ータの場合は、上記関係により定まる送信側要素プロセ
ツサから送られてくるデータの格納領域のアドレスを設
定してあるレジスタ191−1から191−3を選択する。
語長レジスタ195には該変数の語長が格納してあり、
格納領域アドレスレジスタ191−1〜191−4の一つが選
択されるとその内容に語長レジスタの内容が加算器194
により加算され、選択されている格納領域アドレスレジ
スタに書き込み制御回路190を経由して戻される。この
処理により1語分アドレスが進む。ただし、同期用変数
231または同期用レジスタ232の場合は語長は0である。
以上の装置を用いて、第I−1要素プロセツサがA
(I−1,1)を定義した後、これを第I要素プロセツサ
に送信し、データフロー同期によりパイプライン処理す
る場合を第6図を用いて説明する。
(1)全要素プロセツサがA(I−1,J),J=1,100の同
一のa0番地から割り付ける。もし複数のI(以下I′等
と記す)を担当するときは、a0番地から始まる領域に、
A(I−1,J),J=1,100に引き続いてA(I′−1,J),
J=1,100等を割り付ける。(コンパイラの仕事) (2)格納領域アドレスレジスタ191−3に、ホスト計
算機が書き込み制御回路を経由してa0を格納する。格納
領域アドレスレジスタ191−1〜3はそれぞれ相互結合
ネツトワーク3の各セレクタ32−0〜3への入力チヤネ
ル0〜2(セレクタ32−0〜3の箱の中に表示)に対応
しており、入力チヤネル2はどのセレクタにおいても一
つ若い番号(ただしプロセツサ台数を法として)の要素
プロセツサと接続している。
(3)ホスト計算機1が語長レジスタ195にAの語長を
格納する。
(4)デイストリビユータ・パタン設定回路33を各デイ
ストリビユータの出力チヤネル0に設定する(出力チヤ
ネル番号はデイストリビユータ311−0〜3の左に表
示)。この例では、デイストリビユータ311−0〜3の
出力チヤネル0は各々セレクタ32−0〜3の入力チヤネ
ル2と接続している。すなわち、 送信先(受信側)要素プロセツサ番号 =送信元(送信側)要素プロセツサ番号+デイストリビ
ユータ出力チヤネル番号+1(mod,要素プロセツサ台
数) という関係があるからである。
(5)同期用変数231または同期用レジスタ232の値を0
に初期設定する。ここから繰返しループ処理に入る。
(6)第0要素プロセツサがA(1,1)をSENDユニツト2
4により送信する。
(7)デイストリビユータ311−0の出力チヤネル0か
らセレクタ32−1の入力チヤネル2を経由して第1要素
プロセツサのRECEIVEユニツト25にデータが渡される。
一方、セレクタ32−1の入力チヤネル番号2がデータ中
の制御情報コード0とともに第1要素プロセツサのデコ
ーダ192へ入力され、その結果セレクタ193により格納領
域アドレスレジスタ191−3が選択されて、その内容(a
0)がRECEIVEユニツト25から渡される受信データの格納
先アドレスとしてメモリ制御ユニツト22へ送られる。
(8)メモリ制御ユニツト22は、値A(1,1)をa0番地
に書き込む。
(9)加算器194によりセレクタ193出力のa0に語長(バ
イト単位。例えば、倍精度演算では8)が加算され、a0
+8が書き込み制御回路190を経由して格納領域アドレ
スレジスタ191−3に書き込まれる。
(10)第0要素プロセツサが制御情報をSENDユニツト24
により送信する。
(11)デイストリビユータ311−0の出力チヤネル0か
らセレクタ32−1の入力チヤネル2を経由して第1要素
プロセツサのRECEIVEユニツト25に制御情報が渡され
る。デコーダ192へは、セレクタ32−1の入力チヤネル
番号2の他に制御情報コード‘1'が入力される。その結
果、同期用変数アドレスまたは同期用レジスタアドレス
の入つている格納領域アドレスレジスタ191−4が選択
され、メモリ制御ユニツト22に送られた後、処理装置21
の割込み処理プログラムにより排他的に1が加算され
る。
(12)第0要素プロセツサはさらに次の繰返しに入り、
A(1,2)を第1要素プロセツサに送る。
(13)第1要素プロセツサは、A(1,2)をa0+8番地
に書き込む。格納領域アドレスレジスタ191−3の内容
はa0+16となる。
(14)第0要素プロセツサは制御情報を送り、第1要素
プロセツサはこれに排他的加算を行う。第1要素プロセ
ツサの同期用変数231または同期用レジスタ232の値は2
となる。
(第0要素プロセツサの送信はこのようにいくら先行し
ても構わない。) (15)第1要素プロセツサが同期用変数231または同期
用レジスタ232の内容が正か否かチエツクし、正なら排
他的に1を減算する。(もし、ゼロまたは負ならbusy w
aitする)。
(16)第1要素プロセツサはa0番地からA(1,1)読み
だし、それを用いてA(2,1)を定義する。結果は第2
要素プロセツサに送る。
以上のようにして、アドレス情報の送信やデコード/
切替を行わずに効率良く通信して、要素プロセツサ間で
パイプライン演算を行うことができる。
実施例3 並列計算機の全体構成,要素プロセツサの一部構成部
分,プログラムの分割と割り当ておよび実行のさせ方は
実施例2と同じである。以下では、異なる部分について
第8,9図を用いて重点的に説明する。
本実施例は、実施例2を要素プロセツサがベクトルプ
ロセツサである場合に拡張したものである。要素プロセ
ツサは局所メモリ23の他、スカラプロセツサ15、全同期
用レジスタ26、ロード/ストアパイプ7−1,7−2、ベ
クトルレジスタ12−1〜12−4、ベクトル演算器14−1
〜14−3、インタチエンジA16、インタチエンジB17、SE
NDパイプ8、RECEIVEパイプ9、および格納アドレス生
成回路19とから構成される。同期用変数,同期用レジス
タは用いない。以下に、各構成要素の機能について簡単
に述べる。
・局所メモリ23とスカラプロセツサ15:通常の逐次処理
型計算機であり、要素プロセツサ2に割り当てられたベ
クトル処理以外の処理を担当する。
・全同期用レジスタ26:要素プロセツサ2全体で同期を
とるためのレジスタ。実施例1,2に同じ。
・ロード/ストアパイプ7−1,7−2:ベクトルレジスタ1
2−1〜12−4と局所メモリ23間でデータの転送を高速
に行う装置。通常のベクトル計算機で使われているもの
と同じ。
・ベクトルレジスタ12−1〜12−4:ベクトル演算に使用
するデータを格納するテンポラリ・レジスタ。通常のベ
クトル計算機で使われているものと異なり、語単位に1
ビツトのタグ・フイールド13−1〜13−4が用意されて
いて、ベクトルレジスタ12−1〜12−4にデータをロー
ドすると1にセツトされる。また、ベクトル演算器14−
1〜14−3はタグ・フイールド13−1〜13−4の値が1
である場合に限つてその語を入力し、そのタグ・フイー
ルド13−1〜13−4の値を0にリセツトする。繰返し参
照する定数データがベクトルレジスタ12−1〜12−4に
入つている場合は、命令によりタグ・フイールド13−1
〜13−4の値を0にリセツトしない。
・ベクトル演算器14−1〜14−3:通常のベクトル計算機
で使われているものと同じ。
・インタチエンジA16:ベクトルレジスタ12−1〜12−4
とロード/ストアパイプ7−1,7−2、SENDパイプ8、R
ECEIVEパイプ9を相互結合するデータパス。
・インタチエンジB17:ベクトル演算器14−1〜14−3と
ベクトルレジスタ12−1〜12−4を相互結合するデータ
パス。
・SENDパイプ8:ベクトルレジスタ12−1〜12−4から他
の要素プロセツサのベクトルレジスタ12−1〜12−4へ
データを高速に転送する装置。
・RECEIVEパイプ9:他の要素プロセツサのベクトルレジ
スタ12−1〜12−4から高速に転送されてきたデータを
インタチエンジA16を経由して自ベクトルレジスタ12−
1〜12−4に格納する装置。
・格納アドレス生成回路:RECEIVEパイプ9から出力され
るデータを格納するベクトルレジスタ12−1〜12−4の
アドレスを、受信チヤネルから生成する装置。このアド
レスによりインタチエンジC18の接続パスが設定され
る。機能的には実施例2に類似しているが、格納領域ア
ドレスレジスタ191−1〜3にはベクトルレジスタアド
レスが格納され、語長レジスタや加算回路がない点が異
なる。
相互結合ネツトワーク3は実施例2と同じであり、デ
イストリビユータ・パタン設定回路33によりデイストリ
ビユータ311−0〜311−3の接続パタンを設定してアド
レスデコードやスイツチングを不要にしたものである。
次に、本実施例の並列計算機の動作について述べる。
プログラムは、実施例1のFORTRANプログラム例を用
いて説明する。
(1)ベクトル処理に入る前に、ホスト計算機1が相互
結合ネツトワーク3の結合パタンを設定する。すなわ
ち、デイストリビユータ・パタン設定回路33により各デ
イストリビユータ311−0〜311−3の出力チヤネルを0
に設定する。この例では、デイストリビユータの出力チ
ヤネル0はそれぞれセレクタ32−0〜32−3の入力チヤ
ネル2と接続しているからである。
(2)ベクトルレジスタ12−1への受信命令を発行す
る。すなち、格納領域アドレスレジスタ191−3に、ホ
スト計算機1が書き込み制御回路190を経由して受信用
ベクトルレジスタ12−1のアドレスを格納し、同時にイ
ンタチエンジA16のデータパスの一つをベクトルレジス
タ12−1にアサインする。具体的には(第9図)、ホス
ト計算機1中のベクトル命令制御回路150が信号線10を
用いてセレクタ160−1を信号線119に接続し、信号線11
0によりRECEIVE指示発生制御回路90に起動信号を送る。
また、信号線14によりベクトルレジスタアクセス制御回
路92にも起動信号を送る。RECEIVE指示発生制御回路90
は起動され、信号線93−2から受信ベクトルレジスタア
ドレスが入力されるまで待機する。
格納領域アドレスレジスタ191−1〜3は相互結合ネ
ツトワーク3の各セレクタ32−0〜32−3への入力チヤ
ネル0〜2に対応しており、入力チヤネル2はどの要素
プロセツサのセレクタにおいても一つ若い番号の要素プ
ロセツサと接続している。従つて、これで全要素プロセ
ツサのベクトルレジスタ12−1は一つ若い番号の要素プ
ロセツサから送信されてくるベクトルデータを受信でき
る体制が整つたことになる。そのタグ・フイールド13−
1は0に初期設定される。(ただし、第0要素プロセツ
サだけは受信命令の代りにベクトルレジスタ12−1への
初期データのロード命令を発行する。この場合は、タグ
・フイールド13−1は1となる。) (3)ベクトルレジスタ12−2にB(J),J=1,100の
ロードを開始する。これはロードパイプ7−1を用いて
行い、タグフイールド13−2には1がセツトさていく。
具体的には、信号線10によりセレクタ160−2を信号116
と接続し、信号線15によりリクエスト発生制御回路70−
1に起動信号,要素数,データ幅を、信号線16によりア
ドレス発生制御回路71−1にB(J)の先頭アドレスと
増分を送る。また、信号線11によりベクトルレジスタア
クセス制御回路78−1に起動信号とベクトルレジスタ12
−2のアドレスを送る。これにより、ベクトルレジスタ
アクアクセス制御回路78−1はベクトルレジスタ12−2
への書き込みを制御できる。アドレス発生制御回路71−
1が生成するアドレスはアドレスレジスタ72−1に格納
された後、優先制御回路73を通つてアドレスレジスタ74
に入り、局所メモリ23の読み出しに用いられる。優先制
御回路73は所定のサイクル数経過後に、セレクタ76、ベ
クトルレジスタアクセス制御回路78−1、にそれぞれ選
択情報、書き込み指示信号を送り、局所メモリ23から出
力されたデータをセレクタ160−2を経由してベクトル
レジスタ12−2に書き込んでいく。このとき、タグフイ
ールド13−2にも1が書き込まれる。
(4)同時にベクトル加算命令を発行し、ベクトルレジ
スタ12−1とベクトルレジスタ12−2の内容を加算し
て、ベクトルレジスタ12−3とベクトルレジスタ12−4
への出力を開始する。第0要素プロセツサ以外は、ベク
トルレジスタ12−1のタグ・フイールド13−1は0だか
らすぐには計算に入れない。しかし、第0要素プロセツ
サは計算を始めることができ、その結果をインタチエン
ジB17を経由してベクトルレジスタ12−3〜12−4に出
力していく。出力された語に対応するタグ・フイールド
13−3〜13−4は1となる。
(5)ベクトルレジスタ12−3からの送信命令を発行す
る。これにより、インタチエンジA16上にベクトルレジ
スタ12−3からSENDパイプ8へのデータパスができ、SE
NDパイプ8はタグ・フイールド13−3が1の内容を相互
結合ネツトワーク3に送り出す。具体的には、ベクトル
命令制御回路150が信号10を用いてセレクタ160−3を信
号線118と接続し、信号線19を用いてSEND指示発生制御
回路80に起動信号を送り、さらに、ベクトルレジスタア
クセス制御回路83に起動信号とベクトルレジスタ12−3
のアドレスを送る。ベクトルレジスタアクセス制御回路
83の信号によりベクトルレジスタ12−3から読み出され
たデータはセレクタ160−3を経由して信号線118上に出
力され、データレジスタ82に格納される。このとき、各
語の先頭のタグ・フイールドの内容が1であれば、SEND
指示発生制御回路80からベクトルレジスタアクセス制御
回路83に次の読み出し指示信号が送られ、ベクトルレジ
スタ12−3の次の語が読み出される。また、読み出した
データは、タグ部を除いてデータ線10に出力され、信号
線111には送信信号が出力される。タグ・フイールドの
内容が0であればSEND指示発生制御回路80からは次の読
み出し指示信号は送られず、繰り返し同じ語を読みだ
す。また、信号線111には送信信号は出力されない。
相互結合ネツトワーク3では、デイストリビユータ31
1−0〜311−3の出力チヤネル0は一つ大きい番号の要
素プロセツサのセレクタ32−0〜32−3の入力チヤネル
2と接続しているから、第0要素プロセツサから送信さ
れたデータは第1要素プロセツサに送られる。
(6)ベクトルレジスタ12−4のストア命令を発行す
る。ベクトルレジスタ12−4にはベクトルレジスタ12−
3と同じ内容が格納されている。この命令により、送信
とは独立に自メモリへの格納が実行される。格納はもう
一本のストアパイプ7−2を用いて行われる。具体的に
は、ベクトル命令制御回路150が信号10によりセレクタ1
60−4を信号線117と接続し、信号線17,信号線18にそれ
ぞれ起動信号,要素数,データ幅,A(I,J)の先頭アド
レスを乗せてリクエスト発生制御回路70−2,アドレス発
生回路71−2に送る。さらに、ベクトルレジスタアクセ
ス制御回路78−2に起動信号とベクトルレジスタ12−4
のアドレスを送る。ロードのときと同様にして局所メモ
リにA(I,J)のアドレスが順に送られ、また、ベクト
ルレジスタ12−4から読みだされたデータがセレクタ16
0−4,信号線117,データレジスタ77−2を経由して局所
メモリ23に書き込まれる。
(7)一つ若い番号の要素プロセツサから送られてきた
データは、相互結合ネツトワーク3の当該セレクタの入
力チヤネル2からRECEIVEパイプ9に送られる。同時
に、セレクタの入力チヤネル番号‘2'がデコーダ192へ
入力され、その結果セレクタ193により格納領域アドレ
スレジスタ191−3が選択されて、その内容(受信用ベ
クトルレジスタ12−1のアドレス)がRECEIVEパイプ9
から渡される受信データの格納先ベクトルレジスタのア
ドレスとしてインタチエンジA16へ送られる。すなわ
ち、信号線93−2上のベクトルレジスタ12−1のアドレ
スがRECEIVE指示発生制御回路90に渡され、信号線113を
経由してベクトルレジスタアクセス制御回路92に書き込
み指示信号と共に入力される。この入力にもとづいて、
ベクトルレジスタアクセス制御回路92は信号線93−1上
のデータとRECEIVE指示発生制御回路90が生成したタグ
・フイールドの値1を、データレジスタ91,信号線119,
セレクタ160−1を経由してベクトルレジスタ12−1に
書き込む。
こうして、受信データはベクトルレジスタ12−1に格
納され、そのタグ・フイールド13−1は書き込みされた
語単位に1にセツトされていく。第1要素プロセツサ以
降は、この値を用いてベクトル処理を行う。
以上のようにして、アドレス情報の送信やデコード/
切替を行わずに効率良く通信して、要素プロセツサ間に
またがるベクトル演算を行うことができる。
〔発明の効果〕
本発明では、一つの繰返しループと該ループと依存関
係のある次の繰返しループの間で必要な同期は、放送手
段およびハードウエアによる全同期手段を用いて高速に
実現される。また、繰返しループ内のデータ依存関係を
満足するためには、要素プロセツサがスカラプロセツサ
の場合、同期を取り合う要素プロセツサで制御情報の送
信&加算命令とチエツク&busy−wait命令を発行するだ
けでよく、共有メモリのロツク・アンロツクのように他
の処理を阻害することがない。さらに、排他的加減算は
同期用変数または同期用レジスタの存在する側の要素プ
ロセツサが制御情報を受け取つた後行うので、不必要に
ネツトワークを専有して他の処理を阻害することもな
い。また、要素プロセツサがベクトルプロセツサの場
合、要素プロセツサ間にまたがつてベクトルレジスタを
結合しておいてから、ベクトル処理を行なうことがで
き、データ依存関係のある繰り返しループのベクトル処
理を並列に実行することが可能となる。
さらに、ネツトワーク・プリセツト装置により宛先情
報の送信が不要となり、通信時の宛先のデコードやスイ
ツチ切り替えが省略できるので通信が高速化できるとい
う効果がある。
【図面の簡単な説明】
第1図は、本発明の第1実施例の全体構成図、第2図
は、本発明の各実施例に共通の並列計算機の概念図、第
3図は、相互結合ネツトワーク中のデイストリビユータ
の構成図、第4図は、相互結合ネツトワーク中のセレク
タの構成図、第5図は、セレクタの選択論理を表わすRO
Mの一例、第6図は、本発明の第2実施例の全体構成
図、第7図は、第2実施例の送信情報の内容説明図、第
8図は、本発明の第3実施例の全体構成図、第9図は、
本発明の第3実施例のベクトル処理装置の詳細な構成図
である。
フロントページの続き (72)発明者 迫田 行介 神奈川県川崎市麻生区王禅寺1099番地 株式会社日立製作所システム開発研究所 内 (56)参考文献 特開 昭63−45670(JP,A) 特開 昭63−214865(JP,A) 特開 昭60−142460(JP,A) 特開 昭63−111562(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 15/163 G06F 15/80

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】ホスト計算機から全要素プロセツサの記憶
    装置中の同一アドレスに対して一度に情報を書き込む手
    段と、全要素プロセツサの処理終了を検出する手段と、
    任意の要素プロセツサ間で情報の授受を行うための相互
    結合ネツトワークと、情報の授受を行うときにその記憶
    装置への書き込み,読みだしに関する同期をとるため、
    各要素プロセツサに設けた同期用変数または同期用レジ
    スタとその排他的加減算回路とから構成されるデータフ
    ロー同期手段とを備えることを特徴とする並列計算機。
  2. 【請求項2】ベクトル演算装置を有する要素プロセツサ
    間で、1台の要素プロセツサのベクトルレジスタから他
    の1台または複数台の要素プロセツサのベクトルレジス
    タに直接データを送るための経路を設定する手段、およ
    びその値が0のときデータのベクトルレジスタへの書き
    込みができ、その値が1のときデータのベクトルレジス
    タからの読みだしができる、各語単位に設けたタグフイ
    ールドを持つベクトルレジスタと、タグフイールドの値
    を操作する手段とから成るベクトルレジスタ間データフ
    ロー同期装置。
  3. 【請求項3】要素プロセツサを相互に結合するネツトワ
    ークの接続パタンをネツトワーク利用時以前に設定する
    ネツトワーク接続パタン設定回路と、送信元要素プロセ
    ツサ番号をそこから送られてくるデータを格納するベク
    トルレジスタアドレスまたは記憶装置中の格納領域アド
    レスに変換する格納アドレス生成回路とから成るネツト
    ワークプリセツト装置。
  4. 【請求項4】データフロー同期手段として請求項2記載
    のベクトルレジスタ間データフロー同期装置を用いた並
    列計算機。
  5. 【請求項5】請求項3記載のネツトワークプリセツト装
    置を用いた並列計算機。
  6. 【請求項6】相互結合ネツトワークとして請求項3記載
    のネツトワークプリセツト装置を用いた並列計算機。
JP63285654A 1988-11-14 1988-11-14 並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置 Expired - Lifetime JP2765882B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63285654A JP2765882B2 (ja) 1988-11-14 1988-11-14 並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63285654A JP2765882B2 (ja) 1988-11-14 1988-11-14 並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置

Publications (2)

Publication Number Publication Date
JPH02132575A JPH02132575A (ja) 1990-05-22
JP2765882B2 true JP2765882B2 (ja) 1998-06-18

Family

ID=17694334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63285654A Expired - Lifetime JP2765882B2 (ja) 1988-11-14 1988-11-14 並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置

Country Status (1)

Country Link
JP (1) JP2765882B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007096564A (ja) 2005-09-28 2007-04-12 Fujitsu Ltd 通信サーバ装置、及びプログラム
US8150902B2 (en) * 2009-06-19 2012-04-03 Singular Computing Llc Processing with compact arithmetic processing element

Also Published As

Publication number Publication date
JPH02132575A (ja) 1990-05-22

Similar Documents

Publication Publication Date Title
US5768609A (en) Reduced area of crossbar and method of operation
US5696913A (en) Unique processor identifier in a multi-processing system having plural memories with a unified address space corresponding to each processor
US5239654A (en) Dual mode SIMD/MIMD processor providing reuse of MIMD instruction memories as data memories when operating in SIMD mode
US5522083A (en) Reconfigurable multi-processor operating in SIMD mode with one processor fetching instructions for use by remaining processors
US5197140A (en) Sliced addressing multi-processor and method of operation
US5371896A (en) Multi-processor having control over synchronization of processors in mind mode and method of operation
US5758195A (en) Register to memory data transfers with field extraction and zero/sign extension based upon size and mode data corresponding to employed address register
US5251306A (en) Apparatus for controlling execution of a program in a computing device
US5226125A (en) Switch matrix having integrated crosspoint logic and method of operation
US5339447A (en) Ones counting circuit, utilizing a matrix of interconnected half-adders, for counting the number of ones in a binary string of image data
US6948050B1 (en) Single integrated circuit embodying a dual heterogenous processors with separate instruction handling hardware
EP0553158B1 (en) A scalable parallel vector computer system
US20110072170A1 (en) Systems and Methods for Transferring Data to Maintain Preferred Slot Positions in a Bi-endian Processor
US5297255A (en) Parallel computer comprised of processor elements having a local memory and an enhanced data transfer mechanism
WO1995028676A1 (en) Local semiautonomous dedicated-storage access for parallel processors
US5710932A (en) Parallel computer comprised of processor elements having a local memory and an enhanced data transfer mechanism
JP2765882B2 (ja) 並列計算機,ベクトルレジスタ間データフロー同期装置およびネットワークプリセット装置
US20030172248A1 (en) Synergetic computing system
JPH0799515B2 (ja) 命令フロ−コンピュ−タ
KR19980018071A (ko) 멀티미디어 신호 프로세서의 단일 명령 다중 데이터 처리
US5644761A (en) Basic operations synchronization and local mode controller in a VLSI central processor
RU2198422C2 (ru) Асинхронная синергическая вычислительная система
Foster Computer architecture
RU2042193C1 (ru) Вычислительная система
JP2006515446A (ja) 関連アプリケーションを相互参照するカルテシアンコントローラを有するデータ処理システム