JPH05506113A

JPH05506113A - 並列プロセッサメモリシステム

Info

Publication number: JPH05506113A
Application number: JP91504101A
Authority: JP
Inventors: キム、ウォン・エス; バルファー、デイビッド・エム; ニコルズ、ジョン・アール; ブランク、ダブリュ・トーマス; ファイゲル、ハンネス
Original assignee: マスパー・コンピューター・コーポレイション
Priority date: 1990-01-05
Filing date: 1991-01-04
Publication date: 1993-09-02
Also published as: AU7328991A; EP0509055A4; WO1991010200A1; CA2073185A1; US5581777A; AU645785B2; EP0509055A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】並列プロセッサメモリシステム関連量８のクロスレファレンス本願と同日に出願されかつ同一の譲受は人に譲渡された継続中の以下の特許出願に言及することをもって本件出願の一部とする。Ｎｉ　ｃｋｏ　１　］　ｓらによる“５ｃａｌａｂｌｅ　Ｉｎｔｅｒ−Ｐｒｏｃｅｓｓｏｒ　ａｎｄ　Ｐｒ。

ｃｅｓｓｏｒ　ｔｏ　Ｉｌｏ　Ｍｅｓｓａｇｉｎｇ　Ｓｙｓｔｅｍ　ｆｏｒ　Ｐａｒａｌｌｅｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ａｒｒａｙｓ”を名称とする１９９０年１月５日付は米国特許出願第０７／４６１．４９２号、Ｔａｙｌｏｒによる’ Ｎｅｔｗｏｒｋ　ａｎｄ　Ｍｅｔｈｏｄ　ｆｏｒＩｎｔｅｒｃｏｎｎｅｃｉｎｇ　Ｒｏｕｔｅｒ　Ｅｌｅｍｅｎｔｓ　Ｗｉｔｈｉｎ　Ｐａｒａｌｌｅｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ’を名称とする１９９０年１月５日付は米国特許出願第０７／４６１．５７２号、Ｚａｐ　１ｓｅｋによるＲｏｕｔｅｒ　Ｃｈｉｐ　ｗｉｔｈ　Ｑｕａｄ−Ｃｒｏｓｓｂａｒ　ａｎｄ　Ｈｙｐｅｒｂａｒ　Ｐｅｒｓｏｎａｌｉｔｉｅｓ”を名称とする１９９０年１月５日付は米国特許出願第０７／４６１，５５１号。

本発明は大規模並列プロセッサのためのデータ転送システムに関し、特にクラスタとして配列された複数のＳＩＭＤ　４１２列プロセッサと共通のクラスタメモリとの間でデータのアドレス及びデータの転送を行なうためのデータ転送システムに関する。

発明の背景並列プロセッサは、対応するデータストリームに対して動作する多数の比較的単純なプロセッサ要素により同一の命令を同時に実行することに基づくものとして開発された。

単一命令複数データ（ＳＩＭＤ）プロセッサとして知られるこれらのプロセッサは、イメージ処理、信号処理、人工知能、データベース操作及びシミュレーション等の用途に於て有用である。

通常、ＳＩＭＤプロセッサは、プロセッサ要素アレイと、プロセッサ要素と■０デバイスとの間で計算及び演算の結果をやりとりするためのラウティングネットワーク（ｒ。

ｕｔ　ｉｎｇ　ｎｅｔｗｏｒｋ）とを有する。プロセッサ要素及びラウティングネットワークの動作は、コンピュータサブシステムから供給される命令及びデータに基づき、別途設けられた制御プロセッサにより制御される。

最近のＳｒＭＤプロセッサが、１９８２年２月２日にＢａ　ｔ　ｃｈｅ　ｒに付与された米国特許第４．３１４，３４９号に記載されている。処理要素は、基本的なユニットとしてのブロックからなり、各処理要素が、双方向データバスにより、それぞれ対応する固有のランダムアクセスメモリに接続されている。データバスは、処理要素のための主データバスをなしている。各マシーンサイクルの間に、１ビツトのデータが、６つのソース源、即ちＲＡＭから読出されたビット、ＢＳＣ，ＰまたはＳレジスタの状態、或いは等価機能の状態から転送される。データバスに於けるデータビットの目的地は、例えば次のようなものからなる。ＲＡＭに於けるアドレス位置、Ａ、ＧまたはＳレジスタ、Ｐレジスタに対応するロジック、ｓｕｍ−ＯＲツリーへの入力、パリティ−ツリーへの入力。容易に理解されるように、メモリＩＯ動作の間に、バスはメモリデータのために振向けられ、バスへのアクセスを必要とする他の動作を行なうことはできない。

１９８９年２月１４日にＨｉｌｌｉｓらに付与された米国特許第４，８０５，１７３号に記載されたＳＩＭＤプロセッサは、複数のプロセッサ及び複数のコンピュータメモリの間で作動するエラー制御及び修正技術に関する記載を含んでいる。各集積回路は、メモリインタフェースを介して、対応するメモリに接続された１６個のプロセッサを備えている。メモリは、２２個の４に×１ビットＲＡＭをなしている。１６個の４に×１スライスのそれぞれは、１６個のプロセッサの異なる１つのためのメモリとして機能し、残りの６個の４に×１ビットスライスは１６個のプロセッサのメモリに記憶されているデータのためのパリティまたはシンドロームビットを記憶する。アドレスデコーダにより指定されたアドレスに於ける各集積回路に対して並列デ−タが読出し或いは書込みされる。メモリ読出し動作に於て、一時に一列づつ並列に読出され、１６個の出力ラインにデータを出力し、更に６つの出力ラインにパリティ出力を発生する。これらの信号は、パリティエラーを検出し修正するためエラー制御回路に並列に供給される。メモリ書込み動作に於ては、１６個のプロセッサから与えられたアドレスに於ける１６個のメモリスライスに向けて並列に書込まれ、６つのシンドローム出力が同一のアドレスの６つの他のメモリスライスに書込まれ、同時にシンドローム出力を発生するために用いられたデータが１６個のメモリスライスに記憶される。容易に理解されるように、エラー制御及び修正技術のためには、１６個のメモリスライスの全てを並列に読出し或いは書込みする必要がある。

Ｈｉｌｌｉｓらによる第４．８０５．１７３号プロセッサに関連するＳＩＭＤプロセッサが、１９８８年１２月１３日にＨｉｌｌｉｓに付与された米国特許第４，７９１゜６４１号に記載されている。Ｈｉｌｌｉｓ特許に於けるエラー修正システムは、複数のプロセッサに対応する複数のメモリのためのデータを単一のデータワードとして取扱い、この単一のデータワードのためのエラーコードを発生する。

容易に理解されるように、エラー修正システムは、単一のデータワードを１つのユニットとして読み出し或いは書込むことを予定するものである。

並列プロセッサシステムに於ては、各プロセッサ要素当りのメモリの大きさが小さい傾向がある。しかしながら、多数のプロセッサ要素か用いられることから、並列プロセッサにより必要とされるメモリの総量は大きい。残念ながら、単純なマイクロプロセッサと同等の速度を有するＳＲＡＭは比較的高価である。残念ながら、ＤＲＡＭ等比較的廉価なメモリは低速であって、それを並列プロセッサに用いた場合には、メモリ動作が完了するまで、プロセッサ要素が待機しなければならなくなり、その性能を損なうことが予想される。

発明の開示本発明に基づくメモリシステムの構造は、メモリとプロセッサとの間のデータ転送動作が、並列処理動作と同時に進行するのを可能にする。並列プロセッサの全体的な速度をそれほど低下させることなく比較的低速のディスクリートメモリを使うことができる。ＤＲＡＭムを用いるある実施例に於ては、メモリは、シーケンシャルページモード及びランダムモードの両者に於て最大メモリバンド幅またはその近傍に於いて利用される。

本発明に基づくメモリシステムの構造は、プロセッサ要素によるそのメモリ空間へのアドレスが、アレイ制御ユニットにより全てのプロセッサ要素に供給されるアドレスに基づき、またはそのプロセッサ要素自体により局地的（ローカル）に計算されたアドレスに基づいて行なわれる。このようなアドレス方法は、データビット及びエラー検出及び修正ビットを含むメモリワードに対しても適用可能である。

このような或いは他の利点は、本発明、即ちそれぞれ複数のプロセッサを有する複数のクラスタを備える並列プロセッサ等に適するメモリシステムにより達成される。成る実施例に於ては、各プロセッサ要素はイネーブルフラッグを有する。

メモリシステムは、１つのプロセッサユニットにそれぞれ対応する複数のメモリフラッグを有する。メモリシステムはまた、１つのプロセッサ要素にそれぞれ対応する複数のステージレジスタを有している。メモリが提供され、クラスタデータバスが、クラスタのステージレジスタのそれぞれをメモリに接続する。更に、ポーリングネットワーク（ｐｏｌｌｉｎｇ　ｎｅｔｗｏｒｋ）に接続された複数の許可リクエストフラッグが提供される。各許可リクエストフラグは、１つのプロセッサ要素に対応しており、ポーリングネットワークに於ける信号及び対応するメモリフラッグの状態に応答して、対応するデータレジスタとメモリとの間の ■０動作を決定する。

成る実施例に於ては、複数のアドレスレジスタが提供され、それぞれ１つのプロセッサ要素に対応している。アドレスレジスタは、クラスタアドレスバスを介してメモリに接続されており、各許可リクエストフラッグは、対応するアドレスレジスタの内容に基づき、対応するデータレジストとメモリとの間の■０動作を決定するべく、ポーリングネットワーク及び対応するメモリフラッグの状態に応答する。

更に別の変形例に於ては、アドレスバスが、並列プロセッサの制御ユニットからのメモリに接続されている。各許可リクエストフラッグはアドレスバスの内容に応じて、対応するデータレジスタとメモリとの間のＩＯ動作を決定するべく−ポーリングネットワーク及び対応するメモリフラッグの状態に応答する。更に別の変形実施例に於ては、エラーパスがメモリに接続されており、複数のエラーレジスタが設けられている。各エラーレジスタは、１つのプロセッサ要素に対応しており、それに接続されると共にエラーパスにも接続される。各許可リクエストフラッグは、対応するエラーレジスタと対応するメモリとの間の■０動作を決定するべく、ポーリングネットワーク及び関連するメモリフラッグの状態に応答する。

更に別の実施例に基づくメモリシステムに於ては、所定の幅を有するデータバスがクラスタ内のプロセッサ要素のそれぞれに接続されている。更に、エラーパスがクラスタ内の各プロセッサ要素に接続されており、同じく予め定められた幅を有する。クラスタのためのメモリも設けられており、その各ワードは、データバス及びエラーパスの幅の和に等しい幅を有する。クラスタのためのアドレスバスも設けられ、そのクラスタメモリがアドレスバスの内容に基づきデータバス及びエラーパスに対する■０動作を行なうためのイネーブル信号に応答する。成る変形実施例に於ては、アドレスバスがクラスタ内の各プロセッサ要素に接続されている。更に別の変形実施例に於ては、アドレスバスが並列プロセッサのアレイ制御ユニットに接続されている。

これらの変形例に於ては、アドレスバスは、クラスタ内の各プロセッサ要素に接続された識別バスを備えるものであってよい。識別バスは、各プロセッサ要素に於ける固定された或いはプログラム可能なレジスタにより駆動されるものであってよい。

本発明の更に別の実施例によれば、並列プロセッサに於てデータは次のようにして転送される。プロセッサ要素のクラスタとクラスタメモリとの間に共通のデータバスが設けられており、プロセッサ要素のそれぞれのメモリフラッグが並列に評価され、メモリフラッグの値が、対応する許可リクエストフラッグに供給される。ポーリング信号が許可リクエストフラッグの選ばれた１つに加えられ、このフラッグは、共通のデータバスに於ける選択された許可リクエストフラッグに対応するデータレジスタとメモリとの間のＩＯ動作を決定するべく、対応するメモリフラッグの値及びポーリング信号に応答する。

上記した実施例の成る変形実施例に於ては、アドレスが、選択された許可リクエストフラッグに対応するアドレスレジスタから、メモリに向けて、該メモリに接続された共通のアドレスバスを介して供給される。選択された許可リクエストフラッグは、与えられたアドレスに基づき選択された許可リクエストフランクに対応するデータレジスタとメモリとの間に於ける共通のデータバスに於ける■０動作を決定するために、その対応するメモリフラッグの値及びポーリング信号に応答する。更に別の変形例に於ては、アドレスが、プロセッサ制御ユニットから、放送バスを介してメモリに供給される。選択された許可リクエストフラッグは、与えられたアドレスに基づき、共通のデータバスに於ける、許可リクエストフラッグに対応するデータレジスタとメモリとの間の■０動作を決定するべ（対応するメモリフラッグの値及びポーリング信号に応答する。

図面の簡単な説明添付の図面中に於いて対応する部分には同様の符号を付した。

第１図は大規模並列プロセッサのダイヤグラム図である。

第２図はプロセッサ要素のプリント基板のダイヤグラム図である。

第３図は並列プロセッサの実行及びデータバスサイクルのフロー図である。

第４図はプロセッサ要素の一例のデータフローバスを示すブロック図である。

第５図は第４図に示された演算処理ユニットの一例のためのデータフローバスのブロック図である。

第６図はクラスタ内の全てのプロセッサ要素に共通なデータフローバスのブロック図である。

第７図は第６図のクラスタメモリの模式的論理ダイヤグラム図である。

第８図は第６図のアドレスコントローラの模式的論理ダイヤグラム図である。

第９図は第６図のエラー修正ロジックの模式的論理ダイヤグラム図である。

第１０図は第４図のステージレジスタの模式的論理ダイヤグラム図である。

第１１図は第４図及び第５図に示されたエクスポーホント／アドレスレジスタの模式的論理ダイヤグラム図である。

第１２図は第４図の許可リクエストフラッグ回路の模式的論理ダイヤグラム図である。

第１３図は第４図及び第５図に於けるＥ及びＭフラッグ回路の模式的論理ダイヤグラム図である。

第１４図は第５図に示されたＰＥレジスタ回路の模式的論理ダイヤグラム図である。

第１５図は第５図のＯＲツリーラッチ回路の模式的論理ダイヤグラム図である。

第１６図は第６図のクラスタメモリのための構造を示すダイヤグラム図である。

好適実施例及びその他の実施例の説明大規模並列プロセッサが第１図に示されている。並列プロセッサの中心部には、符号１０ａ、１０ｂ等により示されるプロセッサ要素用ボードＬに設けられた複数の個別のプロセッサ要素を備えたプロセッサ要素アレイ１０が設けられている。並列プロセッサは、所望に応じて、ｌ、２．４．８若しくは１６個のプロセッサ要素からなるものとして構成（ｃｏｎｆｉｇｕｒｅ）することができる。並列プロセッサは更に、ラウタ（ｒｏｕｔｅｒ）１４．１６．１８を備えるラウタネットワーク１２を備えている。適当なラウタネットワークが、前記したＺａｐ　ｉ　ｓ　ｅｋによる特許出願明細書中に記載されている。ＰＥアレイ１０は、アレイ制御ユニット（ＡＣＵ）２０の制御下にある。ユーザは、ＵＮＩＸオペレーティングシステムに基づくサブシステム２４を介してＡＣＵ２０に接続されたユーザコンソール２０から並列プロセッサに対してアクセスすることができる。サブシステム２４は、Ｅｔｈｅｒｎｅｔ　（商標名）ネットワーク２６を介して他のコンピュータと通信することができる。人力及び出力動作は、ＡＣＵ２０を、１０プロセツサ及びＩ　ＯＲＡＭメモリ３０、フレームバッファ３２及び、対応するディスプレイ３３、高速チャンネル３４及び対応するＨ８Ｃインタフェースライン３５，０．３５゜１、ユーザにより定義されたｌ０３６及び対応するインタフェースライン３７、ディスクアレイシステム３８に接続されたバスを介して行なわれる。

ボード１０ａ、１０ｂ等のようなプロセッサ要素プリント回路基板（ＰＥボード）が第２図に示されている。ＰＥボードは、チップ当り２つのクラスタが配列された６４個の概ね同一なＰＥクラスタ４０．００〜４０．６３を備えており、１つのＰＥボード当り３２ＰＥクラスタチツプを有する。各クラスタ４０．００〜４０．６３は、成る実施例に於ては、２５６キロバイトのメモリを含むクラスタメモリ５４を備えていることにより、各ＰＥボードは１６メガバイトのメモリを有することとなる。従って、１６個のＰＥボードを組合わせてなる並列プロセッサは、容易に入手可能な１メガビツトのメモリチップを用いた場合２５６メガバイトのメモリを有することとなり、４メガビツトのメモリチップを用いた場合には１ギガバイトのメモリを有することとなる。

メモリシステムの概要概念的には、クラスタ４０．００は１６個の概ね同一のプロセッサ要素５０．００〜５０．１５を有し、プロセッサ要素は、対応する双方向ローカルデータバスにより、対応するステージレジスタ５２．００〜５２．１５に接続された対応するプロセッサ４９．００〜４９．１５を有する。

ステージレジスタ５２．００〜５２．１５は共通のデータバス５３を介してクラスタメモリ５４に接続されている。

プロセッサ要素５０．００〜５０．１５は７ナノ秒のクロック周期を有する。

概念的には、ＡＣＵ２０は、並列プロセッサコントローラ５６及び独立の転送コントローラ６２を有する。実際、両コントローラ５６．６２は、標準的なＲＡＭまたはＲＯＭに基づくマイクロコード化されたシーケンシャル状態マシンからなるものであってよい。ＡＣＵ２０は、全てのＰＥボード及び各ＰＥボード上の全てのクラスタ即ちクラスタ４０．００〜４０．６３に対して、幾つもあるものの内の４本の制御ライン５８．６０．６４．６６を介して通信し、これらの制御ラインは何本かの物理的なラインにより構成される。プロセッサ４９．００〜４９．１５は、図示されない調停機構により決定される、どちらのコントロー−ｙｈ＜ライン５８を支配するかに応じて、プロセッサコントローラ５６及び転送コントローラ６２のいずれかにより、ライン５８を介して制御される。ステージレジスタ５２゜００〜５２．１５は、同じく図示されない調停機構により決定される、どのコントローラがライン６ｏを支配するかに応じて、プロセッサコントローラ５６または転送コントローラ６２により、ライン６０を介して制御される。更に転送コントローラ６２は、ライン６４を介してステージレジスタリ５４は、転送コントローラ６２により、ライン６６を介して制御される。並列プロセッサコントローラ５６及び独立の転送コントローラ６２は、それぞれ何本かの物理的なラインにより構成されるハンドシェーキングライン６８．６９により互いに接続されている。

次に並列プロセッサメモリシステムの作動の概要を第３図に示された簡単な実行シーケンスについて説明する。ステップ１０２〜１０４．１０６〜１０７及び１０９は並列プロセッサコントローラ５６の制御の下にプロセッサ要素５０．００〜５０．１５により実行される従来形式の並列プロセッサによる実行サイクルである。ステップ１０５．１０８は、対応するシーケンシャルメモリ読取み動作１１０〜１１１及びシーケンシャルメモリ読取り動作１１２〜１１３が、ステージングレジスタ５２．００〜５２．　１５及びクラスタメモリ５４の間で実行されるべきステージングレジスタサイクルである。これが一旦開始されると、シーケンシャル動作１１０〜１１３は、ライン６８．６９に於けるハンドシェーキング動作を除いて、並列プロセッサの実行ステップ１０６〜１０７とは独立して進行する。

次にメモリ入力（書込み）動作を考える。プロセッサコントローラ５６は、ライン５８を介してプロセッサ４９゜００〜４９．１５に対して適当な要領をもってデータをセットするように命令し、ライン６９がビジィ（ｂ　ｕ　ｓ　ｙ）信号を発していなければ、ライン６８を介して転送コントローラ６２に対してメモリ書込み動作を行なう命令を発する。ステップ１０５に示されるように、転送コントローラ６２はビジィ信号をライン６９に送り、ライン６つに於てプロセッサコントローラに対する割込み動作を行ない、２回のサイクルで、データをプロセッサ４９．００〜４９゜１５からステージレジスタ５２．００〜５２．１５へ転送しく以下に於けるプロセッサ要素のデータバスに関する記載から明らかなように、１サイクル当り１ニブルづつ転送する）、次いでプロセッサコントローラ５６に対する割込み動作を解除する。次に、プロセッサコントローラ５６は、プロセッサ４９．００〜４９．１５に対して、（ステップ１０６により示される）並列処理動作を継続するように命令し、これらの動作が、ライン６９に於けるビジィ状態により妨げられない限り継続される。転送コントローラ６２は、ライン６４を介してステージレジスタ５２．００〜５２．１５に対し、（ステップ１１０〜１１１に示されるように）一時に１ステージレジスタの割合で、ライン６４を介してステージレジスタ５２．００〜５２．１５に対してデータを転送し、ライン６６を介してメモリ５４に対してデータを受取るようにそれぞれ命令する。参加しているステージレジスタ５２．００〜５２．１５の全てからのデータが全て転送されると、転送コントローラ６２は、ライン６９に対してオールクリア信号を発する。

要素２００に於けるＰＥデータバスを示す第４図、演算処理ユニットＡＰＵを詳細に示す第５図及びプロセッサ要素２００に関連するクラスタレベルの要素を示す第６図について説明する。

プロセッサ要素２００の構造は、２つのクラスの命令を処理することができる。

第１のクラスは、アキュムレータ２０４、エクスポーネントレジスタ２０６及びＰＥレジスタアセット２２０等、第５図に示されたＡＰＵ２０１の内部レジスタのみを使用する通常の演算命令を含む。このような命令を補助するだめの構造を、第５図について説明する。第２のクラスの命令は、ＡＰＵ２０１とクラスタメモリ２６０との間でデータを移動するロード及び記憶命令を含む。このような命令を補助するための構造が、「クラスタメモリデータ転送」及び［クラスタメモリアドレス」をサブタイトルとする以下の部分に於て第４図及び第６図について説明する。

各プロセッサ要素の中心部には演算処理ユニット（ＡＰＵ）２０１が設けられている。第５図に示されるように、ＡＰＵ２０１は、演算論理ユニット（ＡＬＵ）２０２、プール論理ユニット（ＢＬＵ）３２０及び、対応するレジスタ並びにフラッグ等の幾つかの従来形式の要素を備えている。

ＡＬＵ２０２は、４ビツトライン２１０を介してＡＬＵ２０２に向けてデータを供給する４ビツト幅の内部データバス２０８の回りに形成されている。データバス２０８は、各クロックサイクルの間に２分の１バイト（１ニブル）のデータを転送するものであることから、以下の記載に於てはニブルバス２０８と呼ぶものとする。或いは、１バイトの幅を有するバス或いはその約数乃至は倍数の幅のバスを用いることもできる。ＡＬＵ２０２に対する他の入ツノとしては、４ビツトライン２１１から送られてくる６４ビ・ノトンミュレータ２０４の下位４桁（下位ニブル）及び、４ビツトライン２３４から送られてくるＰＥレジスタ２２０からのニブルがある。

ＡＬＵ２０２の４ビツト出力は、４ビ・ソトライン２１８を介して、アキュムレータ２０４の下位ニブル、アキュムレータ２０４の上位４桁（上位ニブル）に、更にエクスポーネント／アドレスレジスタ２０６の上位４桁へと送られる。ライン２１２は、ニブルバス２０８とアキュムレータ２０４の下位４桁との間の４ビ・ソトの接続を提供し、ライン２１４は、アキュムレータ２０４の上位４桁とニブルレノくス２０８との間の４ビツトの接続、ライン２１６は、エクスポーネント／アドレスレジスタ２０６の下位４桁からニブルバス２０８への４ビツトの接続を提供する。

ＡＬＵ２０２の１ビツト出力は、ライン３５４を介してキャリー（Ｃ）ビット３３０へ、ライン３５２を介してゼロ（Ｚ）ビット３３２に、ライン３５０を介してオーツくフｏ−（Ｖ）ビット３３４へとそれぞれ送られる。負（Ｎ）ビットは、アキュムレータ２０４の最上位桁から得られる。

Ｃビット３３０の出力は、ライン３５６を介してＡＬＵ２０２の入力に送られる。

ＢＬＵ３２０は、ライン３２２を介してＢＬＵ３２０の１つの人力を提供するビットノくスと呼ばれる１ビ・ント幅の内部バス３００の回りに構築されている。

フラ・ソクノ＼ス３２４がＢＬＵ３２０の別の人力をなしている。典型的にはＡＬＵ２０２の状態を表わす幾つかの１ビツトレジスタがフラッグバス３２４の出力を提供し、これらのレジスタとしてＺビット３３２、■ビット３３４、Ｅビット３３６及びＭビット３３８がある。ＢＬＵ３２０の第３の人力は、ライン３２６を介してＬビットレジスタ３４０により提供され、これはアキュムレータの１ビツト等価データである。

ＢＬＵ３２０の１ビツト出力は、ライン３２８を介して、Ｚビット３３２、Ｖビット３３４、Ｅビット３３６、Ｍビット３３８及びＬビット３４２に送られる。

ＡＬＵ２０２のためのローカルメモリが、Ｐレジスタ２２０として知られるワーキンクルジスタのセ・ノドにより提供される。Ｐレジスタ２２２は、５１２Ｘ４或いは２０４８×１のメモリにより構成された６４個の３２ビ・ノドレジスタを含み、これは、第４図について説明するように従来形式のＳＲＡＭメモリ等を用いて実現することができる。

コントローラ２２８は、４ビツトライン２３０を介してＰＥレジスタに接続されている。データは、４ビツトライン２３４を介してニブルバス２０８との間でやりとりされ、更にライン２１０を介してＡＬＵ２０２に提供され、更にライン２３３を介してビットバス３００とやり取りされる。

ＰＥレジスタ２２０は、１１ビツトライン２２４を介して放送バス２５０から送られるアドレス情報に基づきＡＣＵ２０の制御の下にロード或いはアンロードされる。

追加の４ビツトバス２３２が、コントローラ２２８からＡＬＵ２０２の入力に向けて設けられている。バス２３２は、ＡＬＵ２０２に対して入力オペランドを提供し、１クロツク中に於てＰＥレジスタセット２２０に於ける同一のワードの読み出し及び書込みを可能にする。ニブルバス２０８からのデータは、バス２３２を介してＰＥレジスタセット２２０からのデータがＡＬＵ２０２により読出されるのと同時に、バス２３４を介してＰＥレジスタセット２２０に書込まれる。この動作は、例えばアキュムレータ２０４に於けるデータ（その最も上位または下位ニブル）を１クロック周期中に於て、ＰＥレジスタセット２２０のデータと交換し得るものであるのが好ましい。

単純な加算及び比較の例について、ＡＰＵ２０１により実行される演算及び論理動作について以下に説明するユ演算動作については、オペランドＡがアキュムレータ２０４内にあってオペランドＢがＰＥレジスタ２２０の１つにあるものとする。シーケンスに於ける最初のクロ・ンクノ＜バスに於て、アキュムレータ２０４からの下位ニブルがニブルバス２１１を介してＡＬＵ２０２に供給され、ＰＥレジスタ２２０（ライン２２４に於てアドレスされたもの）の適当な１つからの下位ニブルが、ライン２３４及びニブルバス２０８を介して、ライン２１０に於けるＡＬＵ２０２に供給される。アキュムレータ２０４が、４ビツト右にシフトされる。４ビツトの加算が、ＡＬＵ２０２により実行され、４ビツトの和がアキュムレータ２０４の上位ニブルに読出され、その間に１ビツトフラツグがアップデートされる。この一連の動作が、３２ビツトのワードについて８回繰り返される。

プロセッサ要素イネーブル／ディスエーブル決定動作のような論理動作については、１つの数から他の数が減算され、その答がアキュムレータ２０４、Ｃビット３３０、Ｚビット３３２及びＶピント３３４に表れるものとする。イネーブル／ディスエーブル決定は、例えば、１つの数字が他の数字に等しいか、小さいか或いは大きいかに応じてなされるもので、その決定動作は、（アキュムレータ２０４からの）Ｎビット、Ｃビット３３０．２ビツト３３２及びＶビット３３４の状態に基づく論理演算を伴なう。しばしば、このような計算が、ある与えられたプロセッサ要素が次に放送された命令を実行するか否かを決定するため行なわれ、その場合には、演算結果がＥビット３３６に記憶さプロセッサ要素２００に於けるラウタ接続が４図及び第５図に示されている。プロセッサ要素２００は、（ライン４０８を介してアキュムレータ２０４に接続されている）ラウタ反転回路４０６、（ライン４１８を介してアキュムレータ２０４に接続されている）ラウタ前進回路４１６、及び（４ビツトバス４３２を介してアキュムレータ２０４に接続されている）ＰＥマツチ回路４３０を含む構造に於て、グローバルラウタライン４００（ラウタイン）及び４１０（ラウタアウト）を介して適当なラウタシステムに接続されている。適当なラウタシステムの設計及び動作が前記したＺａｐ　ｉ　ｓ　ｅｋによる特許出願明細書に記載されている。

プロセッサ要素２００は、例えば１９８２年２月２日に付与された米国特許第４，３１４，３４９号明細書等に記載された適当なローカル相互接続システムに接続される。

４本のネットワーク人力ライン４２０及び４本のネットワーク出力ライン４２４が用いられている。入力ライン４２０は、ライン４０８を介して入力マルチプレクサ４２２によりアキュムレータ２０４に向けてマルチプレックスされ、アキュムレータ２０４は、ライン４１８に於ける出力マルチプレクサ４２６により出力ライン４２４に対してマルチプレックスされている。

ニブルバス２０８は、ＯＲツリー３７２に対して成る値をラッチするために、ラッチ３７２に至る４ビツト接続を備えている。ＯＲツリーは、並列プロセッサの各プロセッサ要素を含むグローバルなＯＲを提供する一般的な計算機能を果たすものである。ＯＲツリー３７２は、並列プロセッサに於ける全てのプロセッサ要素の４ビツトニブルのグローバルＯＲとして機能する。当業者によく知られるようにエラー及びオーバフローのチェックを含む多くの目的のためにＯＲツリー動作が用いられている。

プロセッサ要素　−クラスタメモリデータバス各クラスタメモリ２６０は２５６キロワードのメモリを備えている。各ワードは１２ビツトの幅を有し、８個のデータビットと４個のチェックビットとを有する。各ワードは、プロセッサ要素５０．００〜５０．１５の１つにユニークに対応している。例えば、ワード０．１６は、プロセッサ５０．００に対応しており、ワード１．１７はプロセッサ５０１に対応し、以下同様である。このメモリの構造が第１６図に示されており、要素７１２は、クラスタメモリ２６０の構造を示しており、要素７１０は、クラスタメモリ２６０に於けるフルアドレスを表わしており、これは、４ビツトプロセッサ要素識別番号ＰＥ　ＩＤ及び識別されたプロセッサ要素のメモリ空間内のアドレスを示す部分アドレスからなる。要素７１４は、与えられたアドレス及び与えられたプロセッサ要素についてのクラスタメモリ２６０から読出されたフル３２ビツトワードを示している。例えば、プロセッサ要素識別番号ＰＥＩに対応するフル３２ビツトワードクラスタメモリ２６０のアドレス１から得るためには、メモリ構造７１２内のワード１．１７．３３．４９が、プロセッサ要素ＰＥＩのための３２ビツトワード７１４を形成するべく対応するニブルとして得られる。

このようなメモリ構造の意味については後記する。

メモリ２６０として適するメモリとしては種々の形式のものがある。１つの適当な形式のものとしては、約１ナノ秒のランダムモードアクセス時間及び約７０ナノ秒のページモードアクセスタイムを有するＤＲＡＭがある。物理的には、メモリ２６０は、３個の４Ｘ２５６キロビツトペ一ジモードＤＲＡＭチップを含み、これによって８データビツト及び４チエツクビツトを取扱うことができる。データ及びチェックビットは、クラスタに対応するＥＣＣＣＣロブタ回路２７０（第６図）により処理され、かつ２つの状態ビットを有する８ビツトデータバイトとして（後記するように２状態ビツトとはエラー検出ビット及び非修正エラービットからなる）リクエストを行なうプロセッサ要素とやりとりされる。他の可能な構造としては、５つのチェックビットを用いたものが考えられる。

データはクラスタメモリ２６０とＡＰＵ２０１との間を、プロセッサ要素ステージレジスタ２５１及びクラスタＥＣＣロジック２７０を介して転送され、これはエラー修正機能を果たす。ライン２５２．２５３は、ＡＰＵ２０１のニブルバス２００と、ステージレジスタ２５１の上位４ビツト及び下位４ビツトにそれぞれ４ビツトの接続を提供する。

ライン２５４は、ステージレジスタ２５１とクラスタデータバス２５５との間の８ビツトの接続を提供し、これはＥＣＣロジック２７０及びメモリ２６０と共に、当該クラスタに対応している。ライン２７２は、クラスタデータバス２５５とＥＣＣロジック２７０との間の８ビツトの接続を提供する。ＥＣＣロジック２７０とクラスタメモリ２６０との間の接続構造は、それぞれ上位４ビツト及び下位４ビツトのデータビットのための４ビツトライン２６２．２６４を含み、更にチェックビットのための４ビツトライン２６６を含む（５ビット或いは他の実施例も可能である）。

これらのラインは、メモリ読出し動作の状態を記録するためにＥＲＲ信号及びＵＮＣ信号状態ビットを発−生するために用いられる。

ステータス信号ＥＲＲ及びＵＮＣは、ＥＲＲバス３０２及びＵＮＣバス３０４からなる２本の１ビツトクラスタ用バスにより提供される。エラーが発生したか否かを示すＥＲＲ信号は次のように伝達される。ライン３０６は、ＥＣＣロジック２７０からＥＲＲバス３０２への１ビツトの接続を提供し、ライン３０８は、ＥＲＲバス３０２からエラー状態レジスタ３１０への１ビツトの接続を提供し、ライン３１２はＥＣＣレジスタ３１０からＡＰＵ２０１のビットバス３００への１ビツトの接続を提供する。エラーが修正不能か否かを示すＵＮＣ信号は次のように伝達される。

ライン３１４は、ＥＣＣロジック２７０からＵＮＣバス３０４への１ビツトの接続を提供し、ライン３１６はＵＮＣバス３０４からＥＣＣレジスタ３１０への１ビツトの接続を提供し、ライン３１８は、ＥＣＣレジスタ３１０からＡＰＵ２０１のビットバス３００への１ビツトの接続を提供する。

ＡＰＵ２０１のＭビット３３８の状態は、対応するプロセッサ要素２００がメモリロード／記憶命令を実行するか否かを決定する。上記したように、プール演算は、次に放送される命令をプロセッサ要素２００が実行するか否かを決定するためにＢＬＵ３２０により行なわれ、この演算の結果がＥビット３３６に記憶される。同様に、ＢＬＵ３２０により行なわれるプール演算は、プロセッサ要素２００が次のメモリロード／記憶動作を行なうか否かをも決定するためにＢＬＵ３２０により行なわれ、この演算の結果がＭビット３３８に記憶される。通常は、Ｍビット３３８が、ＩＦｏ、ＴＨＥＮ、　、ＥＬＳＥステートメントに基づき、ＢＬＵ３２０によりセット及びリセットされる。例えば、並列プロセッサ内の各プロセッサ要素が、対応するデータについてのメモリロード／記憶等に関連するＩＦ、、ＴＨＥＮ、、ＥＬＳＥステートメントを実行した時に、アクティブなプロセッサ要素のセットが、個々の実行結果が真または真でないかに応じて発生する。Ｍビットがセ・ントされたプロセッサ要素のみが、次にＡＣＵ２０により放送されるロード／記憶命令を実行する。

Ｍビット３３８は、許可リクエストビット（ＧＲ）２１１により、クラスタメモリ２６０からステージレジスタ２５１へのデータの転送を制御する。ライン３６０は、ロード／記憶動作の開始に際してＭビット３３８をＧＲビット２１１にコピーする働きをカバーするＧＲピッ２１１はディジーチェーン内に位置しており、ライン３６２は、プロセンサ要素２００に先行するプロセッサ要素のＧＲビットを開始点とし、ライン３６４は、プロセッサ要素２００に続くプロセッサ要素のＧＲビットに於て終息する。ディジーチェーンからなる実施例は、オンチップラウティングが考慮された場合には特に有利であるが、ラウントロピンスケシュリング等他の実施例も可能である。例えば、クラスタ４０．００に於て（第２図）、プロセッサ要素５０．００〜５０．１５のそれぞれ毎に幾つかのバイトを伴なうロード／記憶動作の間に、プロセッサ要素５０．００〜５０゜１５それぞれのＭビットの状態（セット／リセット）が、各バイトロード／記憶動作の開始と共にプロセッサ要素５０．００〜５０．１５の対応するＧＲビットにコピーされる。各バイトロード／記憶の間に１６個の１６クロツクパルスが順次発生し、それぞれがクラスタ内の各プロセッサ要素に対応している。システムがリセットされた後、ディジーチェーンがプロセッサ要素５０．００に於て開始する。

従って、５０．００のＧＲビットがセットされたものとすると、プロセッサ要素５０．００は、まずクラスタデータバス２５５の使用をリクエストする。プロセッサ要素５０゜００のステージレジスタ５２．００へのバイト転送が完了すると、プロセッサ要素５０．００のＧＲビットがリセ・ントされる。クラスタデータバス２５５をリクエストするディン−チェーン内の次のプロセッサは、ＧＲビットかセットされたものからなり、それらの間に位置するＧＲビットがリセットされたプロセッサ要素は参加しない。従って、異なるクラスタ内にあっては、データ転送動作に参加するステージレジスタ２５１の数は異なるものであってよい。

しかも、各サイクル内に於て、対応するクラスタのアクティブな許可リクエストビットは、異なったプロセッサ要素の数に対応するものであってよい。

成る変形実施例に於ては、クラスタ当りのアクティブな許可リクエストビットの数が１６未満であるような状態が検出される。これは、ＯＲツリー３７２または（図示されない）専用のＯＲツリーにより達成することができる。この条件が検出された時、最大数のアクティブな許可リクエストビットを存するクラスタに於けるアクティブな許可リクエストビットの数について、サイクルが最適化される。

データ転送動作に参加するステージレジスタ２５１の数が、クラスタ内のステージレジスタ２５１の総数と異なり得ることから、クラスタメモリ２６０内のデータワードの幅は、クラスタ内のステージレジスタ２５１の幅及び並列プロセッサのアドレス幅と対応するように選択されるのが好ましい。さもないと、データの転送に参加していないプロセッサ要素のためにデータ転送動作が行なわれ、そのために、例えばデータが書込まれるたびに、読出し変更書込みサイクルが必要となる。クラスタメモリ２６０のために選択されたアドレスの単位は、８ピツトチデータワードであり、これはステージレジスタ２５１の大きさ、転送ワードに必要となるサイクル数及びエラー修正のために必要となるエラー及びチェックビットの数の間の妥協の結果である。この構造は、レジスタの大きさを好適に小さくするが、ワードを転送するためのメモリサイクルの数及び１ワード当りのエラー修正ビットの数（即ち、シングルビットエラー修正のためには、３２ビツトのワードは６つのチェックビットのみを必要とするのに対し、４８ビツトワードは４ ×４即ち１６個のチェックビットを必要とする）をいずれも増大させる。いうまでもなく、本発明によればメモリサイクルを極少化し、チェックビットの数を減少させ或いはこれらの特性の異なるバランスを達成するために他の構造を用いることもできる。

並列プロセッサは、許可リクエスト機構としてディジーチェーン構造を用いるのが特に好ましいロード／記憶単一（Ｓｏｌ　１ｔａｒｙ）命令をもサポートするものである。ロード／記憶単一命令は、ロード／記憶動作を開始するためにクラスタ内の２つ以上のプロセッサ要素を必要としない。そのような動作の例としては、ラウタからのデータがメモリから得られるような、ラウタネットワークとの通信に向けられたコードシーケンス（第１図のラウタ１４．１６．１８）がある。例えば、ラウタネットワーク１４．１６．１８から送られたデータを記憶する場合を考える。各クラスタは、そのアクティブなプロセッサ要素に駐在するデータを得ることとなり、全てのアクティブなプロセッサ要素からのデータを同時に記憶するのが好ましい。クラスタ当り１つのＧＲビットのみがロード単−動作内にセットされることから、記憶動作は、全てのクラスタからのデータを同時に記憶することとなる。ディジーチェーン構造を、例えば、データの同時転送を行なう前にクラスタ当り最大１６個のプロセッサ要素を検査する必要があるラウントロピンスケジューリング構造と比較されたい。

ＥＲＲ信号及びＵＮＣ信号は、エラー分析を行なうためにロード命令の終りに用いられる。プロセッサ要素エラー状態レジスタ３１０のＥＲＲビットまたはＵＮＣビットをクロックサイクル内にビット３００にクロックさせることができ、それは、ＢＬＵ３２０及びＯＲツリー３７２により利用可能である。ＥＲＲビットの使用例が次に示される。

各プロセッサ要素のＥＲＲビットがビットバス３００に置かれ、ラッチ３７０にラッチされる。ラッチされた、ＥＲＲビットを含むニブルは並列プロセッサの他の全てのプロセッサ要素のニブルに対してＯＲされ、その結果がＡＣＵ２０に供給される。エラーが検出された場合には、各プロセッサ要素のＵＮＣビットがビットバス３００に置かれ、ラッチ３７２にラッチされる。ＵＮＣビットを含むラッチされたニブルは、並列プロセッサの他の全てのプロセッサ要素のニブルに対してＯＲされ、その結果がＡＣＵ２０に供給される。修正不可能なエラーが示された場合には、システム故障が伝達される。さもなければ、エラーがログされる。エラーカウントか所定の閾値を越えると、システム故障が伝達される。このような動作及びそれらを制御するプログラムは当該技術分野に於てよく知られている。

クラスタメモリアドレス同一のクラスタに属する全てのプロセッサ要素により共有されるクラスタメモリ２６０のアドレスは、マルチプレックスされた１０ビツトラインにより実現された、２０ビツトの幅のパス２４０を介してアドレスコントローラ２４０（第６図）によって行われる。（ＥＣＣロジック２７０からの）ライン２４３は、クラスタメモリ２６０のＤＲＡＭに制御信号を供給し、行アドレスストローブ、列アドレスストローブ、書込みイネーブル及びチップイネーブルなどの機能を果す。ライン２４３は、通常、用いられたメモリデバイスに応じていくつかの物理的ラインより構成される。

アドレス情報は、プロセッサ要素または、ＡＣＵ２０のいずれかからアドレスコントローラ２４０に送られる。アドレスは、アドレスレジスタ内に駐在するプロセッサ要素により提供される。プロセッサ要素２００に於て、レジスタ２０６は、通常のエクスポーネントレジスタ及びアドレスレジスタの両者として機能し、プロセッサ要素２００のダイの大きさを低減することができる。或いは、別個の１６ビツトの物理レジスタを専用のアドレスレジスタとして用いることもできる。ライン２４４は、エクスポーホント／アドレスレジスタ２０６から２０ビツトクラスタアドレスバス２４６への１６ビツトの接続を提供する。クレームアドレスバス２４６の他の４ビツトは、ライン２４５により供給され、これは、クラスタ内のプロセッサ要素２００をユニークに特定するために、ハードウェア要素２０３により発生した部分アドレス信号を伝達する。或いは、要素２０３は、ニブルバス２０８またはライン２１８からローカルにロードされることによりセットされるレジスタからなるものであっても良い。この場合、ライン２４５は、同一のクラスタ内の別のプロセッサ要素に属するメモリに対するアクセスを達成するべく駆動される。これは、同一のクラスタ内のプロセッサ要素間に於ける迅速な通信を可能にする。ライン２４７は、クラスタアドレスバス２４６から、アドレスコントローラ２４０の上位１６ビツトの１６ビツト接続を提供し、４つの追加のプロセッサ要素識別ビットが、アドレスコントローラ２４０の下位４ビツトへライン２４９を介して供給される。

ＡＣＵ２０から発生したアドレスは、１６ビツト部分アドレスとして、並列プロセッサ内の全てのプロセッサ要素に向けて、放送パス２５０を介して放送される。放送パス２５０は、６１ビツトバスとして構成され、これらのラインのあるものは、幾つかの目的を果すためにマルチプレックスされる。バス２５０は、ＡＣＵ２０により幾つもの目的に用いられ、そのような目的としは、直接アドレスモード動作に於ける部分アドレスの放送及び並列プロセッサに於ける全てのプロセッサ要素への命令信号の放送などがある。ライン２４８は、放送パス２５０からアドレスコントローラ上位１６ビツトの接続を提供する。アドレスを完成するために、更に、４つのプロセッサ要素識別ビットが、ライン２４９を介してアドレスコントローラ２４０の下位４桁に提供される。

クラスタメモリ２６０は、直接または間接的にアドレスされる。直接アドレスについてプロセッサ要素は、そのクラスタ内に於ける識別番号即ち４ビツト量をＡＣＵ２０により全てのプロセッサ要素に供給される部分アドレスにアペンドする。（ローカルアドレスとしても知られる）間接アドレスに於いては、プロセッサ要素は、そのＰＥ識別番号を、それによってローカルに計算された部分アドレスにアペンドする。間接アドレスの一変形として、与えられたプロセッサ要素が、クラスタ内の別のプロセッサ要素のＰＥ識別番号を計算し、この識別番号をローカルに計算された部分アドレスにアペンドする。

直接アドレスは、次のようにして行われる。ＡＣＵ２０は、１６ビツト部分アドレスを放送バス２５０を介して放送する。ＡＣＵ２０は、データから或いは、計算を行うことにより１６ビツト部分アドレスを得る。プロセッサ要素２００は、ＰＥ番号として知られるそれ自身のユニークな番号からなる４ビット部分アドレスを、クラスタメモリ２６０内の、その物理的アドレス空間を特定するために提供する。例えばクラスタ４０．００に於いて、プロセッサ要素５０．００〜５０．１５は、それぞれのＰＥ番号を、クラスタメモリ２６０内のそれぞれの対応するアドレス空間を完全に特定するために提供する。

アドレスコントローラ２４０からは、物理的に２０ビツトのアドレス情報が行／列マルチプレックスされた形で提供される。従って、１０本の物理的なワイヤのみが用いられる。間接アドレスに際してファーストページモード（即ちスタチックコラムモード）ＤＲＡＭクラスタメモリ２６０に於けるメモリの効率は、次のようにクラスタメモリ２６０をプロセッサ要素５０．００〜５０．１５内にインターリーブ（ｉｎｔｅｒｌｅａｖｅ）することにより改善することができる、即ち、プロセッサ要素５０．００〜５０゜１５がそれぞれ間接アドレスモードにより同一の論理アドレスをアドレスした場合、それらは、実際には物理的メモリに於ける１６個の連続したワードのブロックをアクセスすることとなる。例えばプロセッサ要素５０．００は、ワード０．１６．３２．４８などをアクセスし、プロセッサ要素５０．０１は、ワード１．１７．３３．４９などをアクセスし、プロセッサ要素５０．１５は、ワード１５．３１．４７．６３などをアクセスする、従って、プロセッサ要素５０．００〜５０．１５が、例えば０論理アドレスをアドレスする場合、物理的にはクラスタメモリ２６０に於けるワード０〜１５がアドレスされることとなる。このようにして、ＤＲＡＭメモリの殆ど最大限のページモードバンド幅を達成することができる。

ＤＲＡＭの内部に於いて、メモリの列アドレスは、行アドレスよりも頻繁に変化する。これは、行アドレスが放送パス２５０に於けるＡＣＵ２０により放送された部分アドレスにその全体が含まれるのに対して、列アドレスは、クラスタ（例えば４０．００）に於ける１６個のプロセッサ要素（即ち５０．００〜５０．１５）の１つを特定する部分アドレスを含むことによるものである。多くの場合、行アドレスは、ＤＲＡＭに於いて内部的にラッチされ、列アドレスのみが変更される。典型的な１メガビツトペ一ジモードＤＲＡＭチップに於いては、ラッチされた行アドレスごとに５１２個の位置が利用可能である。

例として、直接ロード動作の詳細について考える。直接記憶のためのステップは同様である。直接ロード動作は、２つのネスト（入れ子）されたループを有し、ファーストページモードに於ける各クラスタ内の各プロセッサ要素（即ちクラスタ４０．００のプロセッサ要素５０．１１〜５０．１５）をサービスし、転送されるべきオペランドを構成する各メモリワードをシーケンス的に取扱う。内側ループは、クラスタメモリ（即ちメモリ２６０）と、連続するプロセッサ要素のステージレジスタ（即ちページレジスタ５２．００〜５２．１５）との間で、データ及びエラー状態信号を転送する。外側ループは、ステージレジスタのそれぞれと、そのワーキングレジスタセット（即ちステージレジスタ２５１とプロセッサ要素２００のＰＥレジスタ２２０）との間でデータを並列に転送する、この転送は、その度に外側ループに於ける実行動作を中断し、プロセッサ（即ちプロセッサ４９．００〜４９．１５）を借りて転送を行う、並列プロセッサの全てのプロセッサ要素が同時にデータの転送を行うことから、オーバヘッドが小さくなる。

ステージレジスタ転送動作に際して、メモリ読み出し動作は、メモリ制御システムに用いられビットバス３００を介して全てのプロセッサ要素からエラー状態の論理ＯＲをも計算する。

直接ロードのためのステップが以下の表１に与えられている。

（以下余白）！１０００００００００−＋＋＋ＯＯＯ＋＋い１トにこれから、典型的な直接ロード／記憶のための時間の総計がｔＲＡＳ＋　（（ｎＰＥｓ）（ｔｃＡｓ）＋ｔＳＲ）（ＯＰＬＥＮ）により表わされることが分かる。但し、ｔＲＡＳ及びｔＣＡＳは、行及び列アドレスをセットするために必要となる時間であり、ｎＰＥ５は、クラスタに於けるプロセッサ要素の数であり、ｔｓＲは、ステージレジスタを、ＰＥレジスタファイルに転送するための時間であり、０ＰＬＥＮは、ロードまたは、記憶されるべきオペランドに於けるメモリの数である。Ｄ　ＲＡ　Ｍ行変更サイクルは、この性能をやや低下させる場合がある。

間接即ちローカルアドレスは次のようにして行われる。

クラスタの各プロセッサ要素は、アドレスを計算し、このアドレスを対応するエクスポーホント／アドレスレジスタに置く。例えば代表的なプロセッサ要素２００に対して、ＡＬＵ２００には、アドレスを計算し、ライン２１８を介してそれをエクスポーホント／アドレスレジスタ２０６にロードする。このエクスポーホント／アドレスレジスタ２０６に駐在するアドレスは、次に、必要に応じてライン２４４及びクラスタアドレスバス２４６を介してアドレスコントローラ２４０に供給される。

容易に理解されるように、間接的ロード／記憶動作に際して、間接アドレスのためにエクスポーホント／アドレスレジスタ２０６を用いることにより、ある不動小数点動作が不可能となるが、ダイの面積が極小化される。実際、エクスポーネントレジスタのデータバス及び制御特性の多くは、間接アドレスの目的に良く適している。エクスポーネントは、メモリアドレスと同様にかなり広いレジスタを必要とする。このメモリ構造に於いては、エクスポーネント及びアドレスの両者がシフトすることにより形成され、従ってシフトレジスタ機構を必要とする。更に、エクスポーネント及びアドレスの両者の正規化または非正規化に際しては、エクスポーネントを、またシーケンシャルアドレスを歩進する場合には、アドレスを、それぞれ時折インクリメントしなければならない。或いは、不動小数点動作及び間接アドレス動作のために別個のレジスタを用いるとにより完全なフレキシビリティを得ることができるが、このような追加のアドレスレジスタを必要とすることにより、所要のダイ面積が増大する。

例として、間接ロード動作の詳細を考える。間接記憶動作のためのステップは同様である。ファースト間接ロード動作は、直接ロード動作と略同様に実行されるが、隣接プロセッサ要素が隣接しないメモリアドレスをアクセスし得ることから、ファーストページモードを用いることができず、転送される各メモリワードのために新なりＲＡＭ行アドレスが生成される。しかしながら間接ロード動作は、ＤＲＡＭメモリのランダムアクセスモードのピークバンド幅に近いバンド幅をもってデータを転送し、移動されるワードのクラスタあたり、２つのＰＥサイクルにプル幅とワード幅との比）を失うのみである。

間接ロード動作のためステップが以下の表２に与えられている。

（以下余白）い１ト区容易に理解されるように、間接ロードル記憶動作のために必要となる時間の総計は（（ｎＰＥｓ）（ｔＲＡＳ＋ｔＣＡＳ）＋ｔＳＲ）（ＯＰＬＥＮ）である。但し、ｔＲＡＳ及びｔＣＡＳは、行及び列アドレスをセットするために必要となる時間であり、ｎＰＥ５は、クラスタに於けるプロセッサ要素の数であり、ｔｓＲは、ステージレジスタを、ＰＥレジスタファイルに転送するための時間であり、ｏＰＬＥＮは、ロードまたは、記憶されるべきオペランドに於けるメモリの数である。ＤＲＡＭ行変更サイクルは、この性能をやや低下させる場合がある。

メモリシステム動作メモリシステムの動作をメモリ書込み及びメモリ読み出しの両者について説明する。直接及び間接アドレスの両者について考慮する。

本発明に於ける並列プロセッサのプログラムコンパイルに際して、ロードされるべきものは、コンピュータプログラムに表われるのに先立って機械語により記述される。以下に詳しく説明するように、ロード転送を完了するためには、多数のプロセッササイクルが必要であるが、データがロードされる必要がないことを条件に、並列動作をロード転送と同時に進行させることができる。従って、データの必要性に先立ってデータをロードすることにより、プロセッサの効率を最大化することができる。

ロード／記憶動作は、演算動作と同時に実行される。ロード／記憶動作がＡＣＵ２０に取込まれると、これらが、コントローラ６２に於いて順番待ちされる、この順番待ちの列は、３２個までのロードまたは記憶命令を収容することかできる。ロードまたは記憶命令が転送コントローラ６２により順番待ち行列から引抜かれると、ロードまたは記憶動作を行うべく、それによりライン５８．６０．６４及び６６上に制御信号が発せらる。

各ＰＥ２００に於けるＥビット３３６は、演算のためのプロセッサ要素・を作動させる。各プロセッサ要素２００に於けるＭビット３３８は、ロード及び記憶メモリ動作のためにそのプロセッサ要素を作動させる。ロード及び記憶動作の実行は、順番待ちにより遅延することがあるために、演算のためにアクティブなプロセッサ要素は、ロードまたは記憶動作のためのアクティブなプロセッサ要素とは異なることが考えられる。そこで、アクティブなセットが異なることに対処するために、Ｍビットの順番待ち行列が各プロセッサ要素のレジスタ２２０に保持される。ＡＣＵが、概念的にプロセッサ要素Ｍビット３３８を変更する命令を受け取った場合、この動作は、各プロセッサ要素のＭビットの待ち行列に新たな値を記録し、待ち行列がアンロードされた時に、実際のプロセッサ要素のＭビット３３８が、適当な待ち行列をなすＭビットからロードされるように、転送コントローラに於けるロード／記憶待ち行列に命令を加えることにより遅延される。

通常、プログラマ−がプロセッサ要素２００に対してＥビット３３８の再計算を命じた場合に、プログラマ−はＥビットを概念的なＭビットにコピーする、ＡＣＵはマイクロコード化された制御信号を発し、Ｅビットがプロセッサ要素レジスタ２２０に於けるＭビットの待ち行列にコピーされるようにする。更に、待ち行列中のいずれかの先行する命令が終了した時に、その値が、ビット３３８にロードされるようにする。次に、プログラマ−は、概念的Ｍビットを直接的に計算することができ、この値も上記したようにＭビット待ち行列に記憶される。

Ｍビットの値はＢＬＵ３２０により計算され、Ｌビット３４０及びライン３４０からビットバス３００に送られ、更に、ライン２２３を介してプロセッサ要素レジスタセット２２０に送られる。Ｍビットの待ち行列は、放送バス６１及びプロセッサ要素レジスタのアドレスバス２２４を介して、当業者に良く知られた方法をもって、転送コントローラ６２に於けるマイクロコード化されたシーケンスに従ってアドレスされる。次いで、実際のＭビット３３８が、プロセッサ要素レジスタ２２０から、ライン２３３、ビットバス３００、パス３２２、ＢＬＵ３２０及びパス３２８を介してロードされる。

以下の記載に於いて、Ｍビット３３８は、直接的に参照され、Ｍビット待ち行列の動作は、インプリジットに行われる。ロード及び記憶命令を待ち行列として行うことは、Ｍビットの変更の待ち行列化と共に、ＰＥ実行とオーバーラツプされるべきロード及び記憶命令を可能にし、与えられたロードまたは記憶命令に参加しなければならないアクティブなプロセッサ要素のセットを不適当に変更することなく、Ｅビット計算により、アクティブプロセッサ要素のセットを変更するのを可能にする。

ロードまたは記憶が不適当に早期に行われのを防ぐために、アレイ制御ユニット２０は、２５６Ｘ２ビツトアレイを有する。各Ｎ番目のビット対が並列プロセッサに於ける全てのＰＥレジスタアレイ（即ちプロセッサ要素２００の２２０）のＮ番目のバイトに対応するロードタグ及び記憶タグをなしている。これらは、第２図について上記したハンドシェーキングライン６８．６９を介して通信される状態信号を具現化するものである。各ＰＥレジスタアレイ２２０は、２５６バイトを有することから、ＡＣＵ２０は、並列プロセッサ全体のために２５６対のロード／記憶タグビットを必要する。

ロード／記憶ラダレジスタは、（第２図の）ＡＣＵ２０の概念的なプロセッサコントローラ５６と転送コントローラ６２との間のインターロック機構として機能する。ロードタグは、ＳＥＴである場合には、ＰＥレジスタアレイ２２０の対応するバイトが書込まれつつあり、現時点に於いて読み出すべきでないことを示している。記憶タグは、ＳＥＴである場合には、ＰＥレジスタアレイ２２０の対応するバイトが記憶されつつあり、現時点に於いて変更するべきでないことを示している。ロードまたは、記憶命令の実行が開始される度ごとに、ＡＣＵ２０は、適宜、全ての関連するＰＥレジスタバイトのためのロードまたは記憶タグをセットする。ロードまたは記憶が完了すると予めセットされたタグはクリア（リセット）される。実行中の命令は、その動作がタグの内容と矛盾する場合には、ＡＣＵ２０内の対応するロード／記憶タグの１つを有するＰＥレジスタ２２０のバイトに対して作用しない。例えば、ＡＤＤ命令がＡＣＵ２０内の対応するロードタグにより示されるように、ＰＥレジスタアレイ２２０の与えられたバイトにロードされつつあるオペランドを必要とする場合、ＡＤＤ命令は、ＡＣＵ２０内の対応するロードタグがクリアされるまで実行されない。

直接アドレスによりメモリ書込み動作を行う際（即ち記憶命令）、Ｍビット（即ちＰＥ２００の３３８）がセットされたクラスタの全てのプロセッサ要素は、− 回のまたは複数回のサイクルの間に、ＰＥデータバスの相対的な幅（即ちプロセッサ要素２００のデータバス２０８は１／２バイト幅である）及びステージレジスタの相対的幅（ＰＥ２００の２５１は、１バイト幅であり、従って１バイトあたり２サイクル、即ち３２ビツトワードあたり８サイルが必要となる）に応じて、それらのステージレジスタにデータを並列にロードする。この並列転送動作に際して、アクティブなプロセッサ要素（Ｍビットセット）は、対応するメモリンステム許可リクエストフラッグ（即ちＰＥ２００のＧＲビット２１１）をセットする。ディジーチェーン許可機構（ＰＥ２００のライン３６２．３６４を参照）を用いてクラスタ転送コントローラ（クラスタ４０．００の６２）は、更に別の並列動作とは独立に、アクティブにステージレジスタ（即ちＰＥ２００の２５１）を、クラスタメモリバス即ち２５５）に、シーケンス的にアンロードし、ＥＣＣロジック（即ち２７０）に於いてＥＣＣチェックビットを生成し、８ビツトバイト及び４チエツクビツトをクラスタメモリ　（即ち２６０）に書込む。メモリアドレスはクラスタ（ＰＥ２００の２０３）内のＰＥ数及び、放送バス２５０　（ＰＥ２００のライン２４８を参照）を介して、アレイ制御ユニット２０により放送されたアドレスから形成される。

この過程は、迅速にオフチップクラスタメモリを駆動することが困難であることから、パイプラインされるのが好ましい。書込みパイプラインは、クラスタとオフチップクラスタメモリ２６０との間で、対応するクラスタアドレスバス２４６及びクラスタデータバス２５５に於いてクロックされたラッチを用いることにより達成される。メモリ書込みに際して最初のクロックで、アドレス及びデータが対応するアドレスバスラッチ及びデータバスラッチにそれぞれラッチされ、第２のタロツクにより、アドレス及びデータがそれぞれアドレスコントローラ及びＥＣＣロジックによりラッチされる。

間接アドレスによりメモリ書込みを行う際、プロセッサ要素のアドレスレジスタのビット（Ｐ　Ｅ　２００のエクスポーホント／アドレスレジスタ２０６）は、部分クラスタメモリアドレスとして扱われ、放送バス２５０のライン２４８のビットが無視される。他のクラスタメモリアドレスビットは、ＰＥ　ＩＤ要素２０３或いは（上記したように）レジスタにより提供される。転送されたデータのユニットが正しく１つのプロセッサ要素に属するものであり、メモリ内の１ワードであることから、ＥＣＣチェックビット（ライン１６６のビット）を、クラスタＥＣＣロジック（２７０）によって、クラスタメモリ（２６０）を読むことなく、ステージレジスタ２５１から得られたデータにより生成することができる。

直接アドレスによりメモリ読み出しを行う際に（ロード命令）、Ｍビットがセットされたクラスタ内の全てのアドレスプロセッサ要素は、それぞれのメモリシステム許可リクエストフラッグ（Ｐ　Ｅ　２００のＧＲ２１１）をセットする。クラスタ転送コントローラ（クラッチロータ４０，００の６２）は、別の並列動作とは独立に、４チエツクピツト（ライン２６２．２６４のデータ及びライン２６６のチェックビット）と共に、リクエストされたバイトをクラスタメモリ（２６０）から、クラスタＥＣＣロジック（２７０）に読み出す。各クラスタＦＣＣロジック（２７０）は、エラー修正を行うためにＦＣＣチェックビットを用い、修正されたデータを選択されたステージレジスタ（クラスタデータバス２５５を介してＰＥ２００の２５１）に書込み、エラー状態を、選択されたエラー状態ステージレジスタ（クラスタデータバス３０２及びクラスタデータバス３０４を介しＰＥ２００の３１０）に書込む。メモリアドレスは、クラスタ（Ｐ　Ｅ　２００の２０３）内のＰＥ数及び放送バス２５０を介してアレイ制御ユニット２０によるアドレス放送から生成される（ＰＥ２００の２４８参照）。

この過程はオフチップクラスタメモリを迅速に駆動することが困難であるから、パイプラインされるのが好ましい。

読み出しパイプラインは、クラスタ及びオフチップクラスタメモリ２６０の間に於いて、クラスタアドレスバス２４６及びクラスタデータバス２５５に於ける図示されないクロックされたラッチを用いることにより達成される。時刻ｔに於いて、ステージレジスタ２５１にラッチされたデータは、時刻ｔ−２に於いてアドレスされなればならない。

これは、時刻ｔ−２に於いて、アドレスバスがアドレスバスラッチにラッチされており、時刻ｔ−１に於けるアドレスがアドレスコントローラ２４０及びクラスタ２６０にラッチされ、データがデータバスラッチにラッチされており、概ね時刻ｔに於いてデータがステージレジスタ２５１にラッチされているからである。

間接アドレスによるメモリ読み出しに際して、プロセッサ要素のアドレスレジスタビット（Ｐ　Ｅ　２００のエクスポーネント／アドレスレジスタのビット２ｏ６）は、部分クラスタメモリアドレスとして取扱われ、放送バス２５０のライン２４８のビットが無視される。他のクラスタメモリアドレスビットは、ＰＥ　ＩＤ要素２０Ｂ或いは上記したようにレジスタにより提供される。クラスタ転送コントローラ（クラスタ４０．００の６２）が、アクティブなプロセッサ要素のステージレジスタのロードを終了した時に、アドレスプロセッサ要素は、データを、対応するステージレジスタ（Ｐ　Ｅ　２００の２５１）から、対応する内部データバス（ＰＥ２００のバス２０８）に並列に転送し、更に、ワーキングレジスタ（ＰＥレジスタアレイ２２０の選択されたレジスタ）に転送される。この並列転送サイクルに際して、エラー状態レジスタの全てに対して、クラスタビットバス３００上に於けるＯＲが取られ、転送コントローラ（クラスタ４０．００の６２）に戻される。

メモリからメモリへの移動命令は、内側及び外側コントローラループを用いてロード及び記憶動作と同様に実行されるが、データは、メモリからステージレジスタに向けて、何らプロセッサ要素レジスタセットを用いることなく転送されることができる。また、プロセッサ要素の通常の並列実行を何ら中断することがない。

更に、第７図に詳しく示されているクラスタメモリ２６０は、例えば２５６ｋＸ４ビット或いは１０２４ｋＸ４ビツトといった適当な容量を有する３頁モードＤＲＡＭ集積回路５００．５０２．５０４を含む。クラスタメモリ２６０の読出しまたは書込み状態は、ＤＲＡＭ５００．５０２．５０４の書込みイネーブルピンＷＥバーに接続されたライン２４３により決定される。各ＤＲＡＭ５００．５０２．５０４のビットＡ９〜ＡＯは、ライン２４２を介してアドレスされ、この場合、ライン２４２は、行或いは列アドレスのいずれかを提供する１０ビツトのマルチプレックスさレタラインとして構成されている。アドレスの形式は、オンボードＲＡＳ／ＣＡＳジェネレータ５０６からの別個のＲＡＳバー及びＣＡＳバー信号によりＤＲＡＭ５００．５０２．５０４に対して特定され、これらの信号は、それぞれ各ＤＲＡＭ５００．５０２．５０４のＲＡＳバー及びＣＡＳバー人力に送られる。ＲＡＳ／ＣＡＳジェネレータ５０６は、ライン２５０ａ上のアサートＲＡＳ信号、ライン２５０ｂ上のアサートＣＡＳ信号及びライン２５０ｃ上のリフレッシュ信号により駆動される。ライン２５０ａ、２５０ｂ及び２５０ｃは、放送バス２５０の一部をなす。

アドレスコントローラ２４０が更に詳しく第８図に示されている。直接アドレスモードに於いては、１０ビツトライン２４８ｂ上に１０ビツトの行または列アドレスがある。

ライン２４８ｃに間接アドレス信号がない場合には、インバータ５２０が直接アドレス信号ＤＩＲをマルチプレクサ５１２の５ＥＬＡに供給し、このマルチプレクサは、ライン２４８ｂのビット＜９：４＞を選択する。直接アドレス信号ＤＩＲは、ＡＮＤゲートにも供給され、これは、他方の人力に加えられたＥＮ　ＲＯＷ　ＡＤＤＲ信号（直接アドレスが行アドレスである場合、第１２図参照）及びＤＩＲ信号に応答して、マルチプレクサ５１４の５ＥＬＡに信号を供給し、ライン２４８ｂのビット＜３：Ｑ＞を選択スる。直接アドレスが列アドレスである場合、マルチプレクサ５１４は、マルチプレクサ５１０の出力を選択し、ＥＮＲＯＷ　ＡＤＤＲ信号がない場合には、ライン２４９上のプロセッサ識別番号を選択する。マルチプレクサ５１２．５１４の出力は、（クロックされたＡＮＤゲート５２４を介して供給される）ライン２４８ｄ上のロードハイアドレス信号ＬＤ　ＨＩ　ＡＤＤＲｌ及び（クロックされたλＮＤゲート５２６５を介して加えられた）ライン２４８ｅ上のロードローアドレス信号ＬＤ　ＬＯＡＤＤＲにそれぞれ基づき、クロックパルスＣＬＫに於いて、ラッチ５１６．５１８よりラッチされる。ラッチ５１６の６ビツト出力及びラッチ５１８の４ビツト出力は、それぞれ＜９：４＞及び＜３：Ｑ＞として１０ビツトライン２４２上にて組合される。ライン２４８ｃ上にＩＮＤＩＲＥＣＴ信号が存在する場合、マルチプレクサ５１２がマルチプレクサ５０８の出力を選択し、マルチプレクサ５１４がマルチプレクサ５１０の出力を選択する。マルチプレクサ５０８は、ＥＮ−ＲＯＷ　ＡＤＤＲの状態に応じて、クラスタアドレスバスのライン２４７上のビット＜１５：１０＞またはビット＜５：０＞を選択する。同様に、マルチプレクサ５１０は、ＥＮ　ＲＯＷ　ＡＤＤＲの状態に応じて、ライン２４９上のＰＥ識別信号または、ライン２４７のビット＜９　：　６＞を選択する。マルチプレクサ５１２．５１４の出力は、上記したように、ライン２４２に加えられる。

エラー修正ロジック２７０は、第９図に更に詳しく示されており、クラスタメモリ２１０に対する読出し及び書込みに際してアクティブとなる。４つのチェックビットがライン２６２．２６４を介して２つのニブル（４ビツトセグメント）として伝達され、バイトに対応してライン２６６上を伝送される。メモリ書込み動作に際して、これらのチェックビットは、データバイトから、ＥＣＣロジック２７２より生成される。メモリ読み出し動作に際して、これらのチェックビットはＥＣＣロジック２７０により、ＥＲＲビット及びＵＮＣビットにデコードされる。

メモリ２６０に対する書込み動作の場合、ライン２７２上の８ビツトデータは、データ出力ラッチ５３０により保フリップフロップ５３７によりゲートされる。

フリップフロップ５３７の入力は信号ＷＲ及び信号ＧＲＡＮＴ　ＯＵＴのＡＮＤを取ることにより、ゲート５３１に於いて形成され、後者の信号は、フリップフロップ５３３及びインバータ５３５を介して、ＡＮＤゲート５３１に加えられる。

アクティブにされた時に、バッファ５３２はライン２６２．２６４上に於けるメモリ２６０に対してデータを供給し、データ入力ラッチ５４４にもデータを供給する。８ビツトデータも、５ＥＬＡに於ける信号ＷＲに応じてマルチプレクサ５３４により選択され、ＦＣＣチェックビットパリティ−ジェネレータ５３２に供給される。適当なパリティ−ジェネレータ５３２の設計は、良く知られており、その全体が、ＨｌＳ、５ｔｏｎｅ、’Ｄｉｓｃｒｅｔｅ　Ｍａｔｈｅｍａｔｉｃａｌ　５ｔｒｕｃｔｕｒｅｓ　ａｎｃｌＴｈｅｉｒ　Ａｐｐｌｉｃａｔｉｏｎｓ ’、　５ｃｉｅｎｃｅ　Ｒｅ５ｅａｒｃｈ　Ａｓ５ｏｃｉａｔｅｓ、Ｉｎｃ。

、Ｃｈｉｃａｇｏ、　ＩＬ、１９７３に記載され、その記載内容を言及することをもって本出願の一部と見なすものとする。パリティ−ジェネレータ５３６の４ビツト出力は、チェックビット出力ラッチ５４０により保持され、フリップフロップ５３７の出力に応答して、バッファ５４２を介してライン２６６上のメモリ２６０に伝達される。パリティ−ジェネレータ５３６の４ビツト出力の、データ入力ラッチ５４４からの８ビツトデータと共に、ＦＣＣ検出及び修正回路５３８に供給され、ＥＣＣ回路５３８は、ライン３０６．３１４上にＥＲＲビット及びＵＮＣビットを生成する。適当なＥＣＣロジック回路２７０の設計は、良く知られており、上記した引例に記載されており、その内容を、言及することをちって本出願の一部と見なすものとする。それに代わる構造としては、８ビツトデータに対する単一ビットエラー検出に加えて５つのチェックビットを用いてダブルビットエラー検出を行うことがある。

メモリ２６０からの読み出し動作に際して、ライン２６２．２６４上の８ビツトデータは、データ入力ラッチ５４４により保持され、メモリ２６０から読み出され、かつラッチ５４６により保持された４つの対応するチェックビットと共に、ＥＣＣ回路５３８に加えられる。ＦＣＣ回路は、ライン３０６．３１４上にＥＲＲビット及びＵＮＣビットを生成し、更に、その出力に８ビツト修正データを提供する。８ビツトデータは、信号ＷＲバーに応答して、バッファ５４８によりライン２７８に供給される。信号ＷＲバーは、インバータ５５０を介して信号ＷＲから得られる。

フリップフロップ５３７からの出力は、インバータ５３９により反転されライン２４３に供給される。

ステージレジスタ２５１及びエラーレジスタ３１０が第１０図に更に詳しく示されている。データは、ＡＰＵ２０１からステージレジスタ２５１に次のようにして読み込まれる。ライン２５０ｇ上の選択されたニブルバス信号ＳＥＬ　ＮＩＢに応答して、マルチプレクサ５５２．５５４が、４ビツトのニブルバス２０８を選択する。ＯＲゲート５５６及びりσツクされてＡＮＤゲート５５８を介してライン２５８ｉに加えられたロードＳＯ信号ＬＤ　ＳＯに応答して、ＳＯがラッチ５６０に保持され、８ビツトデータのビット＜３：Ｑ＞を形成する。ＯＲゲート５６２及びクロックされたＡＮＤゲータ５６４を介してライン２５０ｈに加えられたロードＳ１信号ＬＤ　ＳＬに応答して、Ｓｌがラッチ５６６により保持され、８ビツトデータのビット〈７：４〉を形成する。データは、ステージ２５１からＡＰＵ２５１に向けて次のように読み込まれる。ＳＯからの出力は、ＳＯＤＲＩＶＥ　ＮＩＢＢＬＥ　ＢＵＳ信号に応答して、バッファ５６８を介して、ニブルバス２０８に供給される。

Ｓｌの出力は、ＳＩ　ＤＲＩＶＥ　ＮＩＢＢＬＥ　ＢＵＳ信号に応答して、バッファ５７０を介して、ニブルバス２０８に供給される。

データは、クラスタメモリ２６０からステージレジスタ２５１に次のようにして読み込まれる。信号ＳＥＬ　ＮＩＢがアサートされていない場合、マルチプレクサ５２２．５５４は、ライン２５４の対応するビット＜７：４＞及び＜３：Ｑ＞を選択する。書込み信号ＷＲ及び行信号ＥＮ−ＲＯＷ　ＡＤＤＲ（第１２図参照）がアサートされていない場合、ＡＮＤゲート入力に加えられた許可リクエスト信号ＧＯＴ　ＧＲＡＮＴが、ＡＮＤゲート５７２の出力に於けるＬＡＴＣＨＲＥＡＤ　ＤＡＴＡ信号を構成する。ＬＡＴＣＨＲＥＡＤ　ＤＡＴＡ信号は、読み出しパイプライン遅延回路５７４を経て伝達され、この回路は、例えば、２つのクロックされたラッチを有するもので、この信号は、ＯＲゲート５５６及びクロックされたＡＮＤゲート５５８を介して、ラッチ５６０に加えられ、ＯＲゲート５５２及びクロックされたＡＮＤゲート５６４を介してラッチ５６６に加えられる。次に、ラッチ５６６．５６０は、マルチプレクサ５５２．５５４の出力を保持する。データは、次のようにステージレジスタ２５１から読み出される。ラッチ５６０．５６６の４ビツト出力は、いずれも８ビツトライン２５４に供給され、更に、ＧＯＴ　ＧＲＡＮＴ信号とＡＮＤゲート５７８に於けるＷＲ倍信号ＡＮＤしたものに応答して、バッファ５７６を介して、クラスタデータバス２５５に供給される。

ＥＲＲビット及びＵＮＣビットが、対応するクラスタビットバス３０２．３０４からエラーレジスタ３１０に読み込まれ、更に、次のようにしてビットバス３００に読み込まれる。ライン３０８に於けるＥＲＲビットは、ＡＮＤゲ−１５８０を介してＳＲフリップフロップ５８２のＳＥＴ入力にクロックされる。ライン３１６上のＵＮＣビットは、ＡＮＤゲート５８６を介して、ＳＲフリップフロップ５８８のＳＥＴ人力にクロックされるう両フリップフロップ５８２．５８８は、クロックされたＡＮＤゲート５８４を介して、対応するＲＥＳＥＴ入力に加えられたエラー信号ＣＬＲＥＣＣ信号に応答して、適当な時点に於いてクリアされる。所望に応じて、フリップフロップ５８２．５８８の出力は、信号ＥＲＲＤＲＩＶＥ　ＢＩＴ　ＢＵＳ及び信号ＵＮＣＤＲＩＶＥ　ＢＩＴ　ＢＵＳに応答して、それぞれバッファ５９０．５９２により、ビットバス３００に供給される。

エクスポーホント／アドレスレジスタ２０６が、アドレスレジスタとして機能する場合が第１１図に更に詳しく示されている。エクスポーホント／アドレスレジスタ２０６は４つの４ビツトシフトレジスタ／インクリメンタ６００．６０２．６０４．６０６を有する。ライン２５０ｍから発生し、クロックされたＡＮＤゲート６０８を介して加えられたシフト信号ＳＨＩ　ＦＴに応答して、各シフトレジスタ６００．６０２．６０４．６０６のデータがラッチされ、かつシフトされる。４つのこのようなサイクルの後、エクスポーホント／アドレスレジスタ２０６は、完全な１６ビツトアドレスを有し、シフトレジスタ６００は、ビット＜１５：１２＞を有し、シフトレジスタ６０２は、ビット〈１１：８〉を有し、シフトレジスタ６０４は、ビット＜７：４＞を有し、シフトレジスタ６０６は、ビット〈３：０〉を有する。１６ビツトアドレスは、ＧＯＴ　ＧＲＡＮＴ信号に応答して、バッファ６１０によりライン２４４上に供給される。更に、ＧＯＴ　ＧＲＡＮＴ信号に応答して、プロセッサ要素識別番号がバッファ６１２によりライン２４５上に供給される。前記したように、ＰＥ　ＩＤ番号を、固定し或いは、プロセッサ要素内でローカルに計算することがてきる。エクスポーホント／アドレスレジスタ２０６に記憶されたアドレスは、各シフトレジスタ６００．６０２．６０４．６０６の入力を、クロックされたＡＮＤゲート６１４を介してインクリメントするものであって良い。

許可リクエスト回路に於いて発生したＧＯＴ　ＧＲＡＮＴ信号が、更に、詳しく第１２図に示されている。Ｍビット３３８は、ライン２５４上のロード許可ビット信号ＬＤＧＲに応答して、ＧＲビットフリップフロップ６１６にコピーされ、クロックされたＡＮＤゲート６１８を介してフリップフロップ６１６に加えられる。次いで、ＧＲＡＮＴ　ＩＮ信号が発生すると、ＡＮＤゲート６２０がフリップフロップ６２２をセットし、ＧＯＴ　ＧＲＡＮＴ信号を発生する。更に、ＡＮＤゲート６２０の出力は、クロックされたＡＮＤゲート６２４を介してフリップフロップ６１６のリセットを駆動し、ＬＤ　ＧＲ倍信号びＲＯＷ信号のいずれもがアサートされていないことを条件として、フリップフロップ６１６をリセットする。フリップフロップ６１６のリセット出力は、また１サイクルの後にＡＮＤゲート６２０を介してフリップフロップ６２２をリセットし、インバータ６１７及びＡＮＤゲート６１９を介してＧＲＡＮＴ　ＯＵＴ信号を発生し、それらに対してＧＲＡＮＴ−ＩＮ信号も加えられる。パイプラインを行う目的で、フリップフロップにより信号行が遅延され、信号ＥＮ　ＲＯＷＭビット３３８に対応する回路が更に詳しく第１３図に示されている。Ｅビット３３６か、フリップフロップ６２４の出力に示されており、Ｍビット３３８がフリップフロップ６２６の出力に示されている。フリップフロップ６２４．６２６は、クロックされたＡＮＤゲートを介して、信号ＬＤ　ＥＢＩＴ及びＬＤ　ＭＢＩＴに応答して、ＢＬＵ３２０からのライン３２８の状態に応じて、セット／リセットされる。フリップフロップ６２４の出力（Ｅビット３３６）が、信号ＤＲＩＶＥ　ＥＢＩＴ　ＦＬＡＧ　ＢＵＳに応答して、バッファ６３２を介してフラッグバス３２４に供給サレ、信号ＤＲＩＶＥ　ＥＢＩＴ　ＢＩＴ　ＢＵＳに応答して、バッファ６３４を介してビットバス３００に供給される。フリップフロップ６２６の出力（Ｍビット３３８）は、信号ＤＲＩＶＥ　ＭＢＩＴ　ＦＬＡＧ　ＢＵＳに応答して、バッファ６３６を介して、フラッグバス３２４に供給され、信号ＤＲＩＶＥ　ＭＢＩＴ　ＢＩＴ　ＢＵＳに応答して、バッファ６３０を介して、ビットバス３００に供給される。フリップフロップ６２６の出力は、ライン３６０を介して、許可リクエスト回路２１１に供給される。Ｅビット３３６Ｍまたはビット３３８は、マルチプレクサ６４０を介して選択され、信号ＥＮＥ　ＢＩＴがアサートされているか否かに応じてプロセッサ要素２００をイネーブルする。

ＰＥレジスタ２２０及びＰＥレジスタアレイコントローラ２２８が更に詳しく第１４図に示されている。ＰＥレジスタ２２０は、４つの従来形式の５１２Ｘ１ビットＳＲＡＭメモリ回路をチップ上に有しており、これらは、ＰＲＥＧ　ＡＤＲのビット＜１０：２＞を保持する９ビツトアドレスライン２２５を介してアドレスされる。

ニブルバス２０８からのメモリ書込みは、どのマルチプレクサ６５２．６５４．６５０．６５８によりニブルバス２０８のビットく３〉、〈２〉、〈１〉、〈０〉を選択し、かつそれらを、どのＳＲＡＭ６４２．６４４．６４６．６４８のデータイン（ＤＩ）入力に供給するかに応じて、ライン２５９上に信号ＮＩＢ　ＷＥがアサートされた時に行われる。同時に、ＮＩＢ　ＷＥ倍信号、ＯＲゲート６６２．６６４．６６０．６６８を介して、ＳＲＡＭ６４２．６４４．６４６．６４８のライトイネーブル（ＷＥ）入力に伝達される。ビットバス３００からのメモリ書込み動作は、信号ＢＩＴＷＥがライン２５０ｒ上にアサートされた時に行われる。信号ＮＩＢ　ＷＥがアサートされていない場合、マルチプレクサ６５２．６５４．６５６．６５８は、ビットバス３００を選択し、このビットをＳＲＡＭ６４２．６４４．６４６．６４８のデータインＤ１人力に供給する。

信号ＢＩＴ　ＷＥは、ＡＮＤゲートグループ６７０に供給され、そこで、ライン２２６を介して、ＰＲＥＧ　ＡＤＲの人力ビット＜ｌ：Ｑ＞を受けるデコーダ６６０の４つの出力ラインとそれぞれＡＮＤされる。デコーダ６６０の出力に基づき、信号ＢＩＴＷＥはＯＲゲート６６２．６６４．６６６．６６８の１つを介してＳＲＡＭ６４２．６４４．６４６．６４８の書込みイネーブル（ＷＥ）人力の１つに伝達される。

ニブルバス２０８へのメモリ読込みは、どのバッファ６７２．６７４．６７６．６７８により、ＳＲＡＭ６４２．６４４．６４６．６４８のデータアウト（Ｄｏ）出力を、ビット〈３〉、〈２〉、〈１〉、〈０〉としてニブルバス２０８上に駆動するかに応じて、信号ＰＲＥＧ　ＤＲＩＶＥ　ＮＩＢ　ＢＵＳがライン２５０ｓ上にアサートされたときに行われる。ビットバス３００へのメモリ読み出しは、信号ＰＲＥＧ　ＤＲＩＶＥ　ＢＩＴ　ＢＵＳがライン２５０を上にアサートされたときに行われる。信号ＰＲＥＧ−ＤＲＩＶＥ　ＮＩＢ　ＢＵＳがＡＮＤゲートグループ６８０に加えられ、そこで、ライン２２６上のＰＲＥＧ　ＡＤＲのビット＜ｌ：Ｑ＞を入力として受けるデコーダ６６０の４つの出力ラインのそれぞれとＡＮＤされる。デコーダ６６０の出力に基づき、信号ＰＲＥＧ　ＤＲＩＶＥ　ＢＩＴ　ＢＩＴ　ＢＵＳは、選択されたＳＲＡＭ６４２．６４４．６４６．６４８のデータアウト（ＤＯ）出力をビットバス３００に送り出すバッファ６８２．６８４．６８６．６８８の１つへと伝達される。

ＯＲツリーラッチ３７０が第１５図に詳しく示されている。ニブルバス２０８からの完全なニブルをＯＲツリー３７２へとラッチするために、ロード信号ＬＤ　０ＲＴＲＥＥ　ＮＩＢＢＬＥ　ＢＵＳがライン２５０ｕ上にアサートされる。信号ＬＤ　０ＲＴＲＥＥ　ＮＩＢＢＬＥ　ＢＵＳは、クロックされたＡＮＤゲート７００を介して、フリップフロップ６９２．６９４．６９６に加えられ、ＯＲゲート７０２及びクロックされたＡＮＤゲート７０４を介して、フリップフロップ６９８に加えられる。信号ＬＤ　０ＲＴＲＥＥ　ＮＩＢＢＬＥ　ＢＵＳは、マルチプレクサ６９０にも加えられ、該マルチプレクサはニブルバス２０８のビット〈０〉を選択し、それをフリップフロップ６９８に供給する。信号ＬＤ　０ＲＴＲＥＥ　ＮＩＢＢＬＥ　ＢＵＳに応答して、フリップフロップ６９２．６９４．６９６．６９８はビットく３〉、〈２〉、〈１〉、〈０〉をそれぞれ０ＲＴＲＥＥ　ＯＵＴとして供給する。ビットバスからの単一ビットをラッチするために、ロード信号ＬＤ　０ＲＴＲＥＥ　ＬＳＢ　ＢＩＴ　ＢＵＳが、ライン２５０Ｖ上にアサートされる。信号ＬＤ　０ＲＴＲＥＥ　ＬＳＢ　ＢＩＴ　ＢＵＳは、オアケート７０２及びクロックされたＡＮＤゲート７０４を介して、遅延フリップフロップ６９８に加えられる。信号ＬＤ−〇ＲＴＲＥＥ　ＮＩＢＢＬＥ−ＢＵＳがアサートされていないため、マルチプレクサ６９０は、ビットバス３００を選択し、フリップフロップ６９８は信号ＬＤ　０ＲＴＲＥＥ　ＬＳＢ　ＢＩＴ　ＢＵＳに応答することをもって、ビットバスの状態をＯＲＴ　ＲＥ　Ｅ。

ＯＵＴのビット〈０〉に供給する。

以上本発明を特定の実施例について説明したが、ここに記載されなかった他の実施例及び変形例も本発明の範囲に含まれる。例えば、本発明は特定のワードの大きさ、メモリの大きさ、クラスタメモリ内のＤＲＡＭの数或いはアドレスの大きさにより何ら限定されない。また、本発明は、特定の数のクラスタ、或いはクラスタ当たりの特定のプロセッサ要素の数により限定されるものではない。従って、本明細書に記載されなかった他の実施例及び変形例も、以下のクレームにより定義される本発明の範囲内に含まれるものである。

ＦＩＧ、　１＋　−−−−−−−−−−−−−−−Ｋ　ｒ−一呻−＋−一＋１１＋＋＋φ−− ・−一−へ要約複数のクラスタ４０を含む大規模並列プロセッサ。各クラスタはプロセッサ要素５０．００〜５０．１５　（ＰＥ）及びクラスタメモリ５４を有する。各ＰＥ２００はアドレスレジスタ２０６、ステージレジスタ２５１、エラーレジスタ３１０１イネーブルフラツグ３３６、メモリフラッグ３３８及び許可リクエストフラッグ２１１を有する。クラスタデータバス２２５及びエラーパス３０２．３０４は、クラスタのステージレジスタ及びエラーレジスタをそれぞれメモリ２６０に接続する。クラスタの許可リクエストフラッグは、ポーリングネットワーク３６２．３６４により相互接続されており、このネットワークは、許可リクエストフラッグを一時に１つずつポーリングする。ポーリングネットワーク３６２．３６４上の信号及びメモリフラッグ３３８の状態に応答して、許可リクエストフラッグ２１１が、クラスタデータバス２５５を介して行われるデータレジスタ２５１とクラスタメモリ２６０との間の■０動作を定める。データ及びエラーピットはそれぞれ対応するプロセッサ要素２００に関連付けられている。シーケンシャルメモリ動作１１０〜１１３は、並列プロセッサ動作１０２〜１０９と並列に行われ、待ち行列を形成しても良い。直接アドレスモードに於いては、ＰＥ２００は、そのＰＥ番号２０３を、放送バス２５０により供給された放送部分アドレスにアペンドすることによりそのアドレス空間をアドレスする。ＰＥ番号２０３は、クラスターアドレスバス２４６により供給される。間接アドレスモードに於いては、ＰＥ２００は、部分アドレスをローカルに計算し、それを、クラスター内のそれ自身のまたは他のＰＥ番号２０３にアペンドすることにより、クラスター内のそれ自身のまたは他のＰＥのアドレス空間をアドレスする。完全なアドレスは、クラスターアドレスバス２４６により供給される。

国際調査報告ｌａ＋ｅｕｖ＋ｍ−＾−””””・Ｔ’ｆｆｉ／ＩＴＱＱ１／（Ｘ’Ｘ’）７日

Claims

【特許請求の範囲】

１．それぞれイネーブルフラッグを備える複数のプロセッサ要素を有する少なくとも１つのクラスタを含む並列プロセッサのためのデータ転送システムであって、それぞれ１つのプロセッサ要素に対応する複数のメモリフラッグと、メモリと、前記メモリに接続されたデータバスと、それぞれ前記プロセッサ要素の１つに対応し、それに接続された１つのポートと、前記データバスに接続された別のポートを有する複数のデータレジスタと、ポーリングネットワークに接続された複数の許可リクエストフラッグとを有し、前記許可リクエストフラッグが、それぞれ前記プロセッサ要素の１つに対応し、対応するデータレジスタと前記メモリとの間でのＩＯ動作を決定するために、前記ポーリングネットワーク上の信号及び対応するメモリフラッグの状態に応答するものであることを特徴とするデータ転送システム。
２．前記メモリに接続されたアドレスバスと、前記プロセッサ要素にそれぞれ対応し、それに接続された１つのポートと、前記アドレスバスに接続されたもう１つのポートとを有する複数のアドレスレジスタとを備え、前記許可リクエストフラッグのそれぞれが、前記した対応するアドレスレジスタの内容に応じて、対応するデータレジスタと前記メモリとの間のＩＯ動作を決定するために、前記ポーリングネットワーク及び対応するメモリフラッグの状態に応答することを特徴とする請求項１に記載のシステム。
３．前記メモリに接続されかつ、前記並列プロセッサのアレイ制御ユニットに接続された第２のラインのサブセットを有するアドレスバスと、前記プロセッサ要素の１つにそれぞれ対応しかつ前記アドレスバスの第２のラインのサブセットに接続された複数のプロセッサ要素識別レジスタを更に有し、前記許可リクエストフラッグのそれぞれが、前記したアドレスバスの前記第１及び第２のラインのサブセットの内容に応じて、対応するデータレジスタと前記メモリとの間の１０動作を決定するために、前記ポーリングネットワーク及び対応するメモリフラッグの状態に応答することを特徴とする請求項１に記載のシステム。
４．前記メモリに接続されたエラーバスと、前記プロセッサ要素の１つにそれぞれ対応しかつそれに接続されたポート及び前記エラーバスに接続された別のポートを有する複数のエラーレジスタとを有し、前記許可リクエストフラッグが、対応するデータレジスタと前記メモリとの間でのＩＯ動作を決定するために、前記ポーリングネットワーク及び対応するメモリフラッグの状態に応答するものであることを特徴とする請求項１に記載のシステム。
５．クラスタとして配列された複数のプロセッサ要素を有する並列プロセッサのためのデータ転送システムであって、予め選択された幅を有しかつ前記プロセッサ要素のそれぞれに接続されたデータバスと、予め選択された幅を有しかつ前記プロセッサ要素のそれぞれに接続されたエラーバスと、前記データバス及び前記エラーバスの幅の和と概ね等しい幅のワードを有するメモリと、アドレスバスとを有し、前記メモリが、前記アドレスバスの内容に応じて、前記データバス及び前記エラーバスに対するＩＯ動作を行うためのイネーブル信号に応答するものであることを特徴とするデータ転送システム。
６．前記アドレスバスが前記クラスタ内の前記プロセッサ要素のそれぞれに接続されていることを特徴とする請求項５に記載のシステム。
７．前記アドレスバスが前記並列プロセッサのアレイ制御ユニットに接続されていることを特徴とする請求項５に記載のシステム。
８．前記アドレスバスが、前記クラスタ内の前記プロセッサ要素のそれぞれに接続された識別バス及び前記並列プロセッサのアレイ制御ユニットに接続されたＡＣＵバスとを有することを特徴とする請求項５に記載のシステム。
９．並列プロセッサに於いてデータを転送するための方法であって、プロセッサ要素のクラスタとメモリとの間の共通のデータバスを提供する過程と、前記プロセッサ要素のそれぞれのメモリフラッグを並列に評価する過程と、前記メモリフラッグの値を、対応する許可リクエストフラッグに供給する過程と、前記許可リクエストフラッグの選択された１つに対してポーリング信号を加える過程とを有し、前記した選択された許可リクエストフラッグが、前記した選択された許可リクエストフラッグに対応するデータレジスタと前記メモリとの間の、前記共通データバスを介して行われるＩＯ動作を決定するために、その対応するメモリフラッグの値及び前記ポーリング信号に応答することを特徴とするデータ転送方法。
１０．前記選択された許可リクエストフラッグに対応するアドレスレジスタから前記メモリに向けて、該メモリに接続された共通のアドレスバスを介してアドレスを提供する過程を更に有し、前記した選択された許可リクエストフラッグが、前記したように提供されたアドレスに基づき、前記した選択された許可リクエストフラッグに対応するデータレジスタと前記メモリとの間の共通のデータバス上のＩＯ動作を決定するために、対応するメモリフラッグの値及び前記ポーリング信号に応答することを特徴とする請求項９に記載の方法。
１１．プロセッサ制御ユニットから前記メモリに向けて、放送バスを介してアドレスを提供する過程を更に有し、前記した選択された許可リクエストフラッグが、前記したように提供されたアドレスに基づき、前記した選択された許可リクエストフラッグに対応するデータレジスタと前記メモリとの間の共通のデータバス上のＩＯ動作を決定するために、対応するメモリフラッグの値及び前記ポーリング信号に応答することを特徴とする請求項９に記載の方法。
１２．並列プロセッサのメモリシステムに於いてメモリ位置をアクセスするための方法であって、メモリをＮ個のプロセッサ要素からなるクラスタと関連付ける過程と、部分アドレスに基づきそれ自身の内部にＮ個の隣接したメモリ位置を有するメモリ領域を選択する過程と、プロセッサ要素の特定過程に基づき前記したＮ個の隣接するメモリ位置の１つを選択する過程とを有することを特徴とするメモリ位置のアクセス方法。
１３．前記したＰＥ要素のクラスタが第１の集積回路上に配置されており、前記メモリが第２の集積回路上に配置されたダイナミックランダムアクセスメモリからなり、前記第１及び第２の集積回路が共通のプリント基板上に配置されていることを特徴とする請求項１２に記載の方法。
１４．前記メモリがページモードで作動することを特徴とする請求項１３に記載の方法。
１５．Ｎ個の追加のプロセッサ要素からなる第２のクラスタに対して第２のメモリを関連付ける過程と、前記部分アドレスに基づき、その内部にＮ個の隣接するメモリ位置を有する第２のメモリ領域を選択する過程と、第２のプロセッサ要素の特定過程に基づき前記したＮ個の隣接する第２のメモリ位置の１つを選択する過程とを更に有することを特徴とする請求項１３に記載の方法。
１６．前記した第２のクラスタをなすプロセッサ要素が第３の集積回路上に配置されており、前記メモリが第４の集積回路上に配置されたダイナミックランダムアクセスメモリからなり、前記第３及び第４の集積回路が第２の共通のプリント基板上に配置されていることを特徴とする請求項１５に記載の方法。
１７．前記第２のメモリがページモードメモリであることを特徴とする請求項１６に記載の方法。
１８．前記メモリがアドレスポートを有し、前記部分アドレスが前記メモリ領域を選択するために前記メモリアドレスポートの上位ビットに供給され、前記プロセッサ要素識別手段が、前記したｎ個の隣接するメモリ位置の１つを選択するために前記メモリアドレスポートの下位ビットに供給されることを特徴とする請求項１２に記載の方法。
１９．プロセッサコントローラと、転送コントローラと、それぞれプロセッサを有する複数のプロセッサ要素と、メモリとを有する並列プロセッサメモリシステムに於いてメモリ書き込み動作を行うための方法であって、前記方法が、前記プロセッサ要素内に、前記プロセッサにそれぞれ接続されたステージレジスタを提供する過程と、前記メモリが関連付けられるべきクラスタ内に前記した複数のプロセッサ要素を配置する過程と、前記プロセッサ要素のサブセットを選択する過程と、前記プロセッサコントローラを割り込み状態とする過程と、前記プロセッサコントローラが前記した割り込み状態にある間に、前記した選択されたプロセッサ要素のプロセッサから、前記した選択されたプロセッサ要素の前記ステージレジスタにデータを並列に転送する過程と、前記したプロセッサからステージレジスタヘのデータ転送過程に引き続き、前記プロセッサコントローラを非割り込み状態とする過程と、前記転送コントローラをメモリビジー状態にする過程と、前記したプロセッサからステージレジスタヘのデータ転送過程の終了に引き続き、前記した選択されたプロセッサ要素の前記ステージレジスタから前記メモリへデータをシリアルに転送する過程と、前記したステージレジスタからメモリヘのデータ転送過程の終了に引き続き、前記転送コントローラを非メモリビジー状態とする過程とを有することを特徴とする方法。
２０．前記サブセットが前記プロセッサ要素の全てからなることを特徴とする請求項１９に記載の方法。
２１．前記サブセットが前記プロセッサ要素の全てよりも小さいことを特徴とする請求項１９に記載の方法。
２２．プロセッサコントローラと、転送コントローラと、それぞれプロセッサを有する複数のプロセッサ要素と、メモリとを有する並列プロセッサメモリシステムに於いてメモリ読み出し動作を行うための方法であって、前記方法が、前記プロセッサ要素内に、前記プロセッサにそれぞれ接続されたステージレジスタを提供する過程と、前記メモリが関連付けられるべきクラスタ内に前記した複数のプロセッサ要素を配置する過程と、前記プロセッサ要素のサブセットを選択する過程と、前記転送コントローラをメモリビジー状態にする過程と、前記したプロセッサからステージレジスタヘのデータ転送過程の終了に引き続き、前記メモリから、前記した選択されたプロセッサ要素の前記ステージレジスタへデータをシリアルに転送する過程と、前記したメモリからステージレジスタヘのデータ転送過程の終了に引き続き、前記転送コントローラを非メモリビジー状態とする過程と、前記プロセッサコントローラを割り込み状態とする過程と、前記プロセッサコントローラが前記した割り込み状態にある間に、前記した選択されたプロセッサ要素のステージレジスタから、前記した選択されたプロセッサ要素の前記プロセッサにデータを並列に転送する過程と、前記したステージレジスタからプロセッサヘのデータ転送過程に引き続き、前記プロセッサコントローラを非割り込み状態とする過程とを有することを特徴とする方法。
２３．前記サブセットが前記プロセッサ要素の全てからなることを特徴とする請求項２２に記載の方法。
２４．前記サブセットが前記プロセッサ要素の全てよりも小さいことを特徴とする請求項２２に記載の方法。
２５．並列プロセッサであって、それぞれアドレスレジスタ及びステージレジスタを有するプロセッサ要素からなる第１のクラスタと、第１のアドレスバスを介して前記第１のクラスタの前記アドレスレジスタに接続されたアドレスポートと第１のデータバスを介して前記第１のクラスタの前記ステージレジスタに接続されたデータポートとを有する第１のメモリと、それぞれアドレスレジスタ及びステージレジスタを有するプロセッサ要素からなる第２のクラスタと、第２のアドレスバスを介して前記第２のクラスタの前記アドレスレジスタに接続されたアドレスポートと第２のデータバスを介して前記第２のクラスタの前記ステージレジスタに接続されたデータポートとを有する第２のメモリとを有し、前記ステージレジスタが、前記したプロセッサ要素のそれぞれと共に並列データ転送動作に選択的に参加するべく適合されており、前記第１のクラスタの前記ステージレジスタが、前記第１のメモリと共にデータ転送動作に選択的かつディスクリートに参加するべく適合されており、前記第２のクラスタの前記ステージレジスタが、前記第２のメモリと共にデータ転送動作に選択的にかつディスクリートに参加するべく適合されていることを特徴とする並列プロセッサ。
２６．前記プロセッサ要素がそれぞれプロセッサ要素データバスを備えており、前記ステージレジスタがそれぞれ戦記プロセッサ要素データバスに接続されていることを特徴とする請求項２５に記載の並列プロセッサ。
２７．前記第１及び第２のデータバスがＮビット幅を有し、前記ステージレジスタがＮビット幅を有し、前記プロセッサ要素データバスが２分のＮビット幅を有することを特徴とする請求項２６に記載の並列プロセッサ。
２８．前記プロセッサ要素がそれぞれＥＲＲレジスタ及びＵＮＣレジスタを有し、更に前記第１のクラスタの前記ＥＲＲレジスタに接続された第１のＥＲＲバスと、前記第１のクラスタの前記ＵＮＣレジスタに接続された第１のＵＮＣバスと、前記第１のデータバスと、前記第１のＥＲＲバス、前記第１のＵＮＣバス及び前記第１のメモリの前記データポートとの間に配置された第１のエラー修正コード回路と、前記第２のクラスタの前記ＥＲＲレジスタに接続された第２のＥＲＲバスと、前記第２のクラスタの前記ＵＮＣレジスタに接続された第２のＵＮＣバスと、前記第２のデータバスと、前記第２のＥＲＲバス、前記第２のＵＮＣバス及び前記第２のメモリの前記データポートとの間に配置された第２のエラー修正コード回路とを更に有することを特徴とする請求項２５に記載の並列プロセッサ。
２９．前記第１のエラー修正コード回路が、前記第１のメモリに接続されたチェックビットポートと、前記第１のメモリに接続された前記第１のエラー修正コード回路の前記チェックビットポートに対応するデータポートと、前記第１のＥＲＲバスに接続されたＥＲＲポートと、前記第１のＵＮＣバスに接続されたＵＮＣポートと、前記第１のデータバスに接続された前記第１のエラー修正コード回路の前記ＥＲＲポート及びＵＮＣポートに関連するデータポートとを有し、前記第２のエラー修正コード回路が、前記第２のメモリに接続されたチェックビットポートと、前記第２のメモリに接続された前記第２のエラー修正コード回路の前記チェックビットポートに対応するデータポートと、前記第２のＥＲＲバスに接続されたＥＲＲポートと、前記第２のＵＮＣバスに接続されたＵＮＣポートと、前記第２のデータバスに接続された前記第２のエラー修正コード回路の前記ＥＲＲポート及びＵＮＣポートに関連するデータポートとを有することを特徴とする請求項２８に記載の並列プロセッサ。
３０．前記第１のクラスタの前記プロセッサ要素が、前記第１のクラスタの前記ステージレジスタが前記第１のメモリと共にデータ転送動作に参加しているか否かを示すためのＭフラッグを更に有し、前記第２のクラスタの前記プロセッサ要素が、前記第２のクラスタの前記ステージレジスタが前記第２のメモリと共にデータ転送動作に参加しているか否かを示すためのＭフラッグを更に有することを特徴とする請求項２５に記載の並列プロセッサ。
３１．（ａ）前記第１のメモリと共にデータ転送動作に参加していることが示された前記第１のクラスタのステージレジスタの数及び（ｂ）前記第２のメモリと共にデータ転送動作に参加していることが示された前記第２のクラスタのステージレジスタの数の最大値を決定するための、前記Ｍフラッグに応答するＯＲツリーを更に含むことを特徴とする請求項３０に記載の並列プロセッサ。
３２．前記プロセッサ要素が更に、前記プロセッサ要素を算術演算のためにアクティブにするためのＥフラッグを有することを特徴とする請求項３０に記載の並列プロセッサ。
３３．前記プロセッサ要素が更にそれぞれ許可リクエストフラッグを有し、前記第１のクラスタが更に、第１のメモリ転送動作に参加するべき前記第１のクラスタのプロセッサ要素を選択するために、前記第１のクラスタの許可リクエストフラッグの状態に応答する第１のポーリングシステムを備え、前記第２のクラスタが更に、第２のメモリ転送動作に参加するべき前記第２のクラスタのプロセッサ要素を選択するために、前記第２のクラスタの許可リクエストフラッグの状態に応答する第２のポーリングシステムを備え、前記第１及び第２のメモリ転送動作が概ね同時に行われることを特徴とする請求項３０に記載の並列プロセッサ。
３４．前記第１及び第２のポーリングシステムがデイジチェーンからなることを特徴とする請求項３３に記載の並列プロセッサ。
３５．前記第１及び第２のポーリングシステムがラウンドロビンシステムからなることを特徴とする請求項３３に記載の並列プロセッサ。
３６．メモリ要素のクラスタを有する並列プロセッサに於けるメモリ転送動作を制御するための方法であって、前記クラスタにクラスタメモリを関連付ける過程と、第１のクラスタメモリデータ転送動作に参加するべき前記第１のクラスタのプロセッサ要素からプロセッサ要素のサブセットを選択する過程と、前記プロセッサ要素のサブセットから選択された個々のプロセッサ要素と前記メモリとの間でシーケンス的にデータを転送する過程とを有することを特徴とする方法。
３７．前記プロセッサ要素が、それぞれ対応する第１及び第２のフラッグを有しており、前記プロセッサ要素のサブセットを選択する過程が、前記選択されたサブセットの前記プロセッサ要素の第１のフラッグをセットし、かつ前記選択されたセット以外の前記プロセッサ要素の前記第１のフラッグをリセットする過程と、前記第２のフラッグの状態を、それに対応する前記第１のフラッグの状態に対応するように確立する過程とを有し、前記データ転送過程が、（ａ）前記第２のフラッグの対応する１つがセットされた前記選択されたサブセットのプロセッサ要素を特定する過程と、（ｂ）特定された前記プロセッサ要素と前記クラスタメモリとの間でデータを転送する過程と、（ｃ）前記特定されたプロセッサ要素の前記第２のフラッグをリセットする過程と、（ｄ）前記第２のフラッグが全てリセットされるまで前記過程（ａ）〜（ｃ）を繰り返す過程とを有することを特徴とする請求項３６に記載の方法。
３８．前記プロセッサ要素を特定する過程が、特定された前記プロセッサ要素の前記第２のフラッグをデイジーチェーン式に尋問する過程を有することを特徴とする請求項３７に記載の方法。
３９．前記したプロセッサ要素のサブセットの大きさが１であることを特徴とする請求項３６に記載の方法。
４０．それぞれ演算処理ユニットを有する複数の概ね同様のプロセッサ要素と、プロセッサコントローラと、転送コントローラと、メモリとを有する並列プロセッサのためのプロセッサ要素であって、前記演算処理ユニットが、内部マルチビットバスと、前記内部バスに接続された演算ロジックユニットと、前記内部バス及び前記演算ロジックユニットに接続されたレジスタセットと、内部ビットバスと、前記ビットバスに接続されたブールロジックユニットと、前記ビットバスに接続されたＥフラッグとを有することを特徴とするプロセッサ要素。
４１．前記プロセッサ要素の前記アドレスレジスタが、それぞれプロセッサ要素アドレスセギュメント及びプロセッサ要素識別セグメントとを有し、前記第１のアドレスバスが、前記第１のクラスタの前記アドレスレジスタの前記プロセス要素アドレスセグメントに接続されたプロセッサ要素アドレスセグメントバスと、前記第１のクラスタの前記アドレスレジスタの前記プロセッサ要素識別セグメントに接続されたプロセッサ要素識別セグメントバスとを有し、前記第２のアドレスバスが、前記第２のクラスタの前記アドレスレジスタの前記プロセス要素アドレスセグメントに接続されたプロセッサ要素アドレスセグメントバスと、前記第２のクラスタの前記アドレスレジスタの前記プロセッサ要素識別セグメントに接続されたプロセッサ要素識別セグメントバスとを有し、前記並列プロセッサが更に、前記第１のメモリの前記アドレスポートと前記第１のアドレスバスとの間に配置された第２のアドレスコントローラと、前記第２のメモリの前記アドレスポートと前記第２のアドレスバスとの間に配置された第２のアドレスコントローラと、アレイ制御ユニットと、前記アレイ制御ユニットを前記第１及び第２のアドレスコントローラに接続する放送バスとを有し、前記第１のアドレスコントローラが、前記第１のメモリの前記アドレスポートを、前記第１のアドレスバスの前記プロセッサ要素アドレスセグメントバス及び前記放送バスの選択された１つに制御可能に接続し、前記第２のアドレスコントローラが、前記第２のメモリの前記アドレスポートを、前記第２のアドレスバスの前記プロセッサ要素アドレスセグメントバス及び前記放送バスの選択された一方に制御可能に接続することを特徴とする請求項２５に記載の並列プロセッサ。
４２．前記アドレスレジスタがエクスポーメントレジスタからなることを特徴とする請求項４１に記載の並列プロセッサ。
４３．前記アドレスレジスタが専用レジスタからなることを特徴とする請求項４１に記載の並列プロセッサ。
４４．前記サブセット内の前記プロセッサ要素のそれぞれが部分アドレス及びプロセッサ要素識別値を提供し、更にそれぞれのプロセッサ要素の部分アドレス及びプロセッサ要素識別値をシーケンス的に前記メモリに供給する過程を有し、かつ前記したシーケンス的なデータの転送過程がそれと同期して実行されることを特徴とする請求項３６に記載の方法。
４５．前記メモリが前記プロセッサ要素間にインターリーブされていることを特徴とする請求項４４に記載の方法。
４６．前記プロセッサ要素の前記プロセッサ要素識別値が、それぞれのプロセッサ要素についてユニークに定められていることを特徴とする請求項４４に記載の方法。
４７．前記プロセッサ要素の前記プロセッサ要素識別値が制御可能に定められていることを特徴とする請求項４４に記載の方法。
４８．前記サブセットの前記プロセッサ要素のそれぞれが、プロセッサ要素識別値を供給し、更に部分アドレスを前記メモリに供給する過程と、対応するプロセッサ要素のプロセッサ要素識別値を前記メモリに供給する過程とを有し、かつ前記シーケンス的なデータ転送過程がそれと同期して行われることを特徴とする請求項３６に記載の方法。
４９．前記メモリが前記プロセッサ要素間にインターリーブされていることを特徴とする請求項４８に記載の方法。
５０．前記プロセッサ要素の前記プロセッサ要素識別値が、それぞれのプロセッサ要素についてユニークに定められていることを特徴とする請求項４８に記載の方法。
５１．前記プロセッサ要素の前記プロセッサ要素識別値が制御可能に定められていることを特徴とする請求項４８に記載の方法。
５２．前記サブセット内の前記プロセッサ要素が部分アドレス及びプロセッサ要素識別値を供給し、アレイ制御ユニットが部分アドレスを提供し、前記データ転送過程が更に、直接及び間接アドレスモードの内から選択されたモードにより前記メモリをアドレスする過程を有し、前記直接アドレスモードが、部分アドレスを前記メモリに供給し、それぞれのプロセッサ要素のプロセッサ要素識別値を前記メモリにシーケンス的に提供する過程を有し、前記シーケンス的データ転送過程がそれに同期して行われ、前記間接アドレスモードが、それぞれのプロセッサ要素の部分アドレス及びプロセッサ要素識別値を前記メモリにシーケンス的に提供する過程を有し、前記シーケンス的データ転送過程がそれに同期して行われることを特徴とする請求項３６に記載の方法。
５３．前記メモリが前記プロセッサ要素間にインターリーブされていることを特徴とする請求項５２に記載の方法。
５４．前記プロセッサ要素の前記プロセッサ要素識別値がそれぞれのプロセッサ要素に基づきユニークに定められていることを特徴とする請求項５２に記載の方法。
５５．前記プロセッサ要素の前記プロセッサ要素識別値が制御可能に定められていることを特徴とする請求項５２に記載の方法。
５６．前記プロセッサ要素のそれぞれが前記イネーブルフラッグの１つに対応するイネーブルフラッグビットと、前記メモリフラッグの１つに対応するメモリフラッグビットとをそれぞれ対応するように備えていることを特徴とする請求項１に記載のメモリシステム。
５７．前記イネーブルフラッグビットと前記メモリフラッグビットとが異なるビットからなることを特徴とする請求項５６に記載のメモリシステム。
５８．前記イネーブルフラッグビットと前記メモリフラッグビットとが同一のビットからなることを特徴とする請求項５６に記載のメモリシステム。
５９．複数ののクラスタに区分された並列プロセッサに於て、１つのクラスタが、それぞれ対応するようにステージレジスタ及びメモリ転送イネーブルフラッグを有する複数のプロセッサと、クラスタメモリと、前記プロセッサの前記ステージレジスタと前記クラスタメモリとを相互接続するためのクラスタデータバスと、クラスタアドレスバスとを有し、前記クラスタデータバスが、前記メモリ転送イネーブルフラッグの状態に応じて定められた前記プロセッサの１つのステージレジスタと、前記クラスタアドレスバスの内容に基づき選択された前記クラスタメモリのワードとの間のデータ転送動作をサポートすることを特徴とするクラスタ。
６０．前記クラスタアドレスバスが、前記クラスタメモリと前記プロセッサとを相互接続することを特徴とする請求項５９に記載のクラスタ。
６１．前記プロセッサが、それぞれ対応するアドレスレジスタを有し、前記クラスタアドレスバスが、前記クラスタメモリと前記プロセッサの前記アドレスレジスタとを相互接続することを特徴とする請求項６０に記載のクラスタ。
６２．前記プロセッサ要素が、それぞれＥＲＲレジスタ及びＵＮＣレジスタを有し、前記ＯＲツリーが、前記ＥＲＲレジスタ及びＵＮＣレジスタに応答するものであることを特徴とする請求項３１に記載の並列プロセッサ。
６３．前記ビットバスに接続されたＭフラッグを更に有することを特徴とする請求項４０に記載のプロセッサ要素。
６４．前記ブールロジックユニットに接続された内部フラッグバスを更に有し、前記Ｅフラッグが前記フラッグバスに接続されており、前記Ｍフラッグが前記フラッグバスに接続されていることを特徴とする請求項６３に記載のプロセッサ要素。
６５．それぞれレジスタアレイ及びデータデバイスを有する複数のプロセッサ要素を備える並列プロセッサに於けるデータ転送動作を制御するための方法であって、データイン／データアウトタグの対を同一の相対アレイ位置を有する前記レジスタアレイのレジスタに関連付ける過程と、データ転送動作の開始に伴い、同一の相対アレイ位置を有するレジスタに関連付けられかつ少なくともいずれか一方が前記したデータ転送動作に参加するような、タグの対のデータイン及びデータアウトタグの一方をセットする過程と、データ転送動作の完了に伴い、前記したデータイン及びデータアウトタグの前記したようにセットされたものをリセットする過程とを有し、前記したデータ転送動作に関連するオペランドを必要とする命令が、前記データイン及びデータアウトタグのセットされた状態に基づき保留されることを特徴とする方法。
６６．前記データデバイスがメモリからなり、前記データイン及びデータアウトタグがメモリロード／記憶タグからなることを特徴とする請求項６５に記載の方法。
６７．複数のクラスタに区分された並列プロセッサに於て、クラスタが、それぞれデータレジスタ及びデータ転送ニブルフラッグを対応するように備えた複数のプロセッサと、データインターフェース回路と、前記データインターフェース回路を前記プロセッサの前記データレジスタに相互接続するためのクラスタデータバスとを有し、前記クラスタデータバスが、前記データ転送イネーブルフラッグの状態に基づき選択された前記プロセッサの１つの前記データレジスタと前記データインターフェース回路との間のデータ転送動作をサポートすることを特徴とする並列プロセッサ。
６８．前記クラスタが更にクラスタアドレスバスを有し、前記データ転送動作が、前記クラスタアドレスバスの内容に基づき前記データインターフェース回路と前記選択されたデータレジスタとの間で行われることを特徴とする請求項６７に記載の並列プロセッサ。
６９．前記データインターフェース回路がメモリトランシーバー回路を有し、前記クラスタアドレスバスがメモリを駆動するべく適合されていることを特徴とする請求項６８に記載の並列プロセッサ。