JPH0635874A

JPH0635874A - 並列プロセッサ

Info

Publication number: JPH0635874A
Application number: JP3352657A
Authority: JP
Inventors: Thomas Kelly; ケリー・トーマス; Maclean Mackenzie Louis; ルイス・マクリーン・マッケンジー; John Sutherland Robert; ロバート・ジョン・サザーランド
Original assignee: Motorola Ltd
Current assignee: Motorola Solutions UK Ltd
Priority date: 1990-12-20
Filing date: 1991-12-16
Publication date: 1994-02-10
Also published as: EP0492174A3; DE69130857D1; EP0492174A2; GB2251320A; EP0492174B1; GB9027633D0

Abstract

(57)【要約】【目的】多数の中央処理装置（ＣＰＵ）を用いて高出
力処理を達成する並列アーキテクチャを有するプロセッ
サに関し、優れた接続性、高い帯域性、低い待ち時間を
有する一般化された超立方体トポロジを提供する。【構成】プロセッサは次元Ｄに配列されかつサブセッ
ト（１１）に分割された複数のプロセッシングエレメン
トを備え、サブセット内でのプロセッシングエレメント
はすべてバス（１３）を有しこれらの間で通信可能であ
る。各プロセッシングエレメントは各次元における１つ
のサブセットの１つのメンバである。１つのサブセット
の各プロセッシングエレメントは出力手段によってその
サブセット内で接続され、当該サブセットにおける他の
プロセッシングエレメントにメッセージを送信し、ま
た、そのサブセット内の他の各プロセッシングエレメン
トに対して別個の入力手段を有し、これらの入力段上の
他の各プロセッシングエレメントからのメッセージを受
信する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は多数の中央処理装置（Ｃ
ＰＵ）を用いて高出力処理を達成する並列アーキテクチ
ャを有するプロセッサに関する。

【０００２】

【従来の技術】可能な限り数段にした多段ＣＰＵの使用
により処理性能を増大させることは近年広く議論されて
いる。この要求は、現在、学問的分野及び商業的分野に
も拡大し、小規模でシステムレベルでＶＬＳＩマイクロ
プロセッサに適用されつつある。しかしながら、広く受
け入れる点及び大規模にするという点では少なくとも２
つの重大な障害がある。

【０００３】第１に高並列汎用コンピュータによって要
求される多機能かつ強力な通信を設計して構築すること
は非常に難かしい。第２に、一度構築されたそのような
コンピュータをいかにプログラムすべきが全く明白でな
い。非常に重要な研究が既に機能的オブジェクト指向モ
デル及びデータフローモデルを基礎とするような新しい
プログラミングパラダイムにおいて実行されている（参
照：ＢｒｏｎｎｅｎｂｅｒｇＷＪＨＪ，Ｎｉｊｍａｎ
Ｌ，Ｏｄｊｉｋ，ＥＡＭ，ｖａｎＴｗｉｓｔＲ
ＡＨ：“Ｄｏｏｍ；ａｄｅｃｅｎｔｒａｌｉｓｅｄ
ｏｂｊｅｃｔ−ｏｒｉｅｎｔｅｄｍａｃｈｉｎｅ”
ＩＥＥＥＭｉｃｒｏＶｏｌ７Ｎｏ５（Ｏｃｔ
１９８７）_ｐｐ５４７−５５３、Ｗａｔｓｏｎ，
Ｉ，ｅｔａｌ：“Ｆｌａｇｓｈｉｐ：ａｐａｒａｌｌｅ
ｌａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｄｅｃｌａｒａ
ｔｉｖｅｐｒｏｇｒａｍｍｉｎｇ”ｉｎＰｒｏｃｅ
ｓｓｉｎｇｓｏｆ１５ｔｈＡｎｎｕａｌＳｙｍ
ｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔ
ｅｃｔｕｒｅＩＥＥＥＣｏｍｐＳｏｃＰｒｅｓ
ｓ（１９８８）_ｐｐ１２４−１３０、ＶｅｅｎＡ
Ｈ、“Ｄａｔａｆｌｏｗｍａｃｈｉｎａｒｃｈｉｔ
ｅｃｔｕｒｅ”ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅ
ｙｓ，Ｖｏｌ１８Ｎｏ４（Ｄｅｃ１９８６）
_ｐｐ３６５−３９６）。

【０００４】サブネットの目的は、ホストエレメント
（プロセッシングノード及び適当なメモリ）に通信接続
を形成できることである。理想的には、これらの通信接
続は次の性質を有すべきである。ａ）高帯域性。これは要求されるときにはいつでも大量
のデータをホストエレメント間で転送できるようにす
る。ｂ）低い待ち時間。これはメッセージを送出し応答を要
求するいかなる処理も過剰な期間待たなくてもよいこと
を保証する。

【０００５】特に交渉すべきスイッチングレベルが多く
ある場合には、サブネットは低い待ち時間に最も寄与す
ることができる。

【０００６】さらに、通信者の相対的物理的位置（メト
リック対称）及びネットワークの他の場所での活動に関
係なく、サブネットは接続を帯域性及び回転待ち時間を
均一な許容値に保持できなければならない。最後に、内
部接続トポロジが中型及び大型マイチコンピュータにお
いて機能しなければ、可能なネットワークサイズの広い
範囲に亘って好ましいアーキテクチャ性質（待ち時間、
帯域性、対称性、独立性）を保持することが要求され
る。

【０００７】並列プロセッサの従来のアーキテクチャ
は、ＬａｒｒｙＤＷｉｔｔｉｅ：“Ｃｏｍｍｕｎｉ
ｃａｔｉｏｎＳｔｒｕｃｔｕｒｅｓｆｏｒＬａｒ
ｇｅＮｅｔｗｏｒｋｓｏｆＭｉｃｒｏｃｏｍｐｕｔ
ｅｒｓ，ＩＥＥＥ，１９８１に記載されている。

【０００８】

【発明が解決しようとする課題】２進超立方体（ｈｙｐ
ｅｒｃｕｂｅ）は、あるプロセッサがある点から他の点
へ到達するのに多大な時間を要するために、低いメトリ
ック対称性を有する。また、待ち時間は固有的には大き
く変化する。さらに。超立方体は帯域性としては良い
が、プロセッサの数を倍にすると、直径が１だけ増大
し、より大きなアセンブリにおいて最悪の遅延を生じせ
しめることになる。

【０００９】この分野での一般的な目的は、ノード間の
高い内部接続性を有するアーキテクチャを達成し、メッ
セージが最小の数のノードを介して目的場所まで到達さ
れるようにすることである。内部接続の究極の制限は物
理的に支持できる配線密度もしくはノード間での他の通
信手段（たとえば光学的バス、自由耐久光注入器（ｆｒ
ｅｅ−ｓｔａｎｄｉｎｇｏｐｔｉｃａｌｔｒａｎｓ
ｆｕｓｅｒ）もしくは他の手段）の制限である。

【００１０】

【課題を解決するための手段及び作用】本発明によれ
ば、次元Ｄで配置され複数のサブセットに分割された複
数のプロセッシングエレメントを具備し、１つのサブセ
ットにおけるすべてのプロセッシングエレメントはこれ
らの間の通信のための１つのバスを有し、前記各プロセ
ッシングエレメントは各次元における１つのサブセット
のメンバであるプロセッサにおいて、１つのサブセット
の各プロセッシングエレメントは出力手段によって当該
サブセットのバスに接続され、当該サブセットの他の複
数のプロセッシングエレメントにメッセージを送信し、
別個の入力手段は、当該サブセットの各他のプロセッシ
ングエレメントに対応し、各対応の入力手段上の前記他
のプロセッシングエレメントからのメッセージを受信す
ることを特徴とする並列プロセッサが提供される。

【００１１】プロセッシングエレメントはメッセージを
他の多数のエレメントに同時に送出することができない
が、これがすべてのエレメントと他のすべてのエレメン
トとの間における入力ライン／出力ライン上のトータル
の内部接続の理論的最適化構成から性能を低下させない
ことが分った。従って、性能は理論的最適性能とほぼ同
一であるが、内部配線密度は実質的に低下する。

【００１２】好ましい実施例においては、１つのサブセ
ットにおけるプロセッシングエレメントは１ラインに配
列され、該ラインの終端間に位置するプロセッシングエ
レメントは、該ラインに沿って一方側の他のプロセッシ
ングエレメントにメッセージを送出する１つの出力手段
と、該ラインに沿って他方側の他のプロセッシングエレ
メントにメッセージを送出する別個の出力手段とを有す
る。これはラインの終端間に位置するプロセッシングエ
レメントはラインに沿って左右両方向に同時にメッセー
ジを送出できることを意味するが、臨界配線密度は増加
しない。つまり、配線密度はあるラインのバスと直交す
るラインのバスとの間のクロスオーバ点で最も大きくな
るからである（いかなる場合も、１つのプロセッシング
エレメントはそのサブセット内の他のエレメント及び他
のサブセット（上記プロセッシングエレメントはそのメ
ンバである）の他のエレメントに同時にメッセージを送
出できる）。

【００１３】最も簡単な構成においては、プロセッサは
プロセッシングエレメントの２次元アレイを具備し、そ
の各行がサブセットを形成し、また、各列がサブセット
を形成する。行と列との交差する点におけるプロセッシ
ングエレメントは２つのサブセット間での通信のタスク
を実行する。以後、サブセットに対しては表現“クラス
タ”を用いる。

【００１４】本発明による利点は、基本的に測定可能か
つモジュール化され、高度に接続され、対称的な低い待
ち時間のネットワークによってリンクされたプロセッシ
ングエレメント（ＰＥ）をその数に制限なくサポートで
き、２進超立方体を同等のコストパフォーマンスを有す
るアーキテクチャである。

【００１５】メトリック非対称性の度合いはプロセッシ
ングエレメント（ＰＥ）を強固に接続されたグルーダ内
でクラスタ化し、これらのグループを高帯域性リンク及
び処理を繰返すという選択をも用いて連結することによ
って受容される。

【００１６】

【実施例】図１を参照すると、各クラスタは最大ｗの複
数のノードを含む。この値ｗつまりネット幅は装置の固
定特性である（但し、アーキテクチャ内では、可変であ
る）。各ノードは唯一の自分自身の非方向性バスを有
し、このバスは各ノードを同一のクラスタ内の選択され
た他のエレメントに接続する。この他のエレメントはｗ
−１個の同一の入力するリンクから選択できることを意
味できる。各ラインは唯一つの出力装置によって電気的
に駆動され、これにより共有に伴なう制限現象、速度を
制限するいわゆるワイヤードオアの突然の故障（ｇｌｉ
ｔｃｈ）（ＧｕｓｔａｖａｓｏｎＤＢ，Ｔｈｅｕｓ
Ｊ：“Ｗｉｒｅ−Ｏｒｌｏｇｉｃｏｎｔｒａｎｓ
ｍｉｓｓｉｏｎｌｉｎｅｓ”ＩＥＥＥＭｉｃｒｏ
Ｖｏｌ３ＮＯ．３（Ｊｕｎｅ１９８３），_ｐｐ５
１−５５）を防止することができる。ここで、この突然
の故障によりバスの所有権もしくは信号の方向性さえ変
更されてしまう。データ転送は個々の受信部で行われ、
または全体通信もしくはクラスト毎の通信を介して行わ
れる。アーキテクチャは厳密にはクラスタ内部接続方法
に依存する。全体システムはクラスタグラフトポロジの
Ｄ番目の直積をとることによって形成されるＤ次元の格
子である。これは各次元においてクラスタ構成つまり一
般化された超立方体として知られる反復的に形成された
構成を課す効果を有する。図１は２Ｄ超平面を形成する
２次元の例を示し、各ノードは２つの独立の直交するク
ラスタに属する。このアプローチはより高い次元に拡張
できる。つまり、各ノードが等しくＮ個のクラスタより
なるＮ次元超立方体はｗ（Ｎ−１）個のクラスタリンク
によって接続されたｗ個のＮ−１次元の超平面により構
成される。この直交するクラスタを重ね合わす構成は全
体のメッセージ通過のための必須の高い帯域内部接続を
提供する。

【００１７】単純な２進超立方体システムと異なり、Ｄ
は大きな装置であっても低い値のみ（たとえば２もしく
は３）を採用することになる。たとえば、ｗ＝３２につ
いては、達成される数字である３次元構造は３２Ｋのプ
ロセッシングエレメント（ＰＥ）を含むことになる。

【００１８】接続の低い待ち時間のために、ハードウエ
アはメッセージの通過と共に共有メモリを備えることが
できる。共有位置をアクセスしようとするプロセッサは
短かい要求メッセージをその位置を有するノードに送出
し、この要求が処理されると応答（要求が読出であれば
データを含む）を受信する。待ち時間を最小にするため
に、遠隔メモリ管理ハードウエアはプロセッサに関係な
く全体のメモリに読出し及び書込みを行うことができ
る。多くの場合、このようなメモリへの競合しないアク
セスに対する制裁はローカルＲＡＭの場合の２倍よりも
っと大きくなる。

【００１９】図１には、６×６個のプロセッシングエレ
メント１０のアレイを備えたプロセッサが示されてお
り、各エレメントはアレイのノードを構成している。エ
レメントの各行はクラスタ１１を構成し、エレメントの
各列はクラスタ１２を構成している。アレイは３次元以
上の次元に拡張できる。３次元の場合、アレイは６層に
構築され、この各層は図１に示されると同一であり、各
列がクラスタを構成する。対称性の同一原理はシステム
の拡張次元に適用される。たとえば、第４次元は各エレ
メントを６個のエレメントよりなるクラスタで置換する
ことにより発生することができる。

【００２０】クラスタの６個のエレメントはバス１３に
よって接続されているが、これについては、図３を参照
して後述する。

【００２１】図２にはエレメント１０の構成が示されて
いる。このエレメントは、１つ以上のマイクロプロセッ
サ２１たとえばモトローラＭ８８００マイクロプロセッ
サよりなるホストエレメント２０を備えている。また、
ホストエレメントはメモリ２２及び通信エレメント２３
を含んでいる。ホストエレメント２０には、ネットワー
クエレメント２４が付随しており、このネットワークエ
レメント２４はノードのインターフェイスをとるための
次元毎のクラスタインターフェイスユニット（ＣＩＵ）
２５を備えている。ただし、図２においては、２６，２
７，２８として３つのＣＩＵが図示されている。唯一の
ホストインターフェイスユニット（ＨＩＵ）２９はホス
トエレメント２０との情報交換のために設けられてい
る。ネットワークエレメント２４はネットワークエレメ
ント管理ユニット３０を含んでいる。

【００２２】図３を参照すると、４つのエレメント１０
よりなるクラスタが図示されており、各エレメントには
１０ａ，１０ｂ，１０ｃ，１０ｄの参照番号が与えられ
ている。これらのエレメントはバス１３に接続されてい
るが、このバス１３はさらに各々が１６個のラインより
なる４つのバスよりなっている。１つのバスは出力のた
めに各ネットワークエレメントから接続されている。１
つのネットワークからの出力はクラスタ内の他の各ネッ
トワークの入力に接続されている。従って、各ネットワ
ークは１つの出力及び３つの入力を有することになる。
各ホストエレメントは、アレイの他の次元に対応して、
さらに１つの出力及び該出力に接続された各他のバスの
ための入力を有することになる。このように、幅ｗ＝４
の３次元アレイは各ネットワークエレメント毎に３つの
出力及び１２個の入力を有することになる。バス１３の
各ラインは唯一の出力装置によって電気的に駆動され、
ワイヤードオアによる突然の故障を防止する。このよう
な構成は、ホストエレメントが１つのメッセージのみを
そのクラスタ内での他のエレメントに一時に送出するこ
とができるという欠点を有する。しかしながら、これは
大きな欠点ではない。なぜなら、ホストエレメントはい
かなる場合でもシリアル装置（もしくはある限られた数
のシリアル装置）であり、また、いかなる場合には直交
するクラスタ内での他のエレメントに同時にメッセージ
を送出できるからである。

【００２３】上述の１つのアレイの密度及び内部接続に
おける制限要因の１つは配線密度である。配線密度制限
には、バス１３がハードワイヤ、マイクロ波リンク、光
リンク、無線リンク等か否かに依存して、複数の形式を
とる。配線最大密度の領域は直交バス間のクロスオーバ
点である。図４にはクロスオーバ点における配線密度を
上げることなくクラスタ内のエレメントの内部接続性を
増大する構成が示されている。この構成においては、バ
スの両端間の各エレメント１０ｂ，１０ｃは左側に延び
る出力及び右側へ延びる出力の２つの出力を有する。各
エレメントはバスに沿って左側及び右側へメッセージを
同時に送出することができる。配線密度の唯一の増加
は、ネットワークエレメントの出力部に見られる。これ
は重要な領域でない。

【００２４】装置の動作は次のごとくである。１つのネ
ットワークエレメントが他のネットワークエレメントに
データもしくはコマンドを送出するとき、データもしく
はコマンドは受信元エレメントをアドレスする通信エレ
メント２３においてパケットを構成する。このパケット
はホストインターフェイスユニット２９を介し、さらに
受信元エレメントに対応する適当なクラスタインターフ
ェイスユニット２６，２７もしくは２８を介して送出さ
れる。受信元エレメントもちろん発信元エレメントと同
一のクラスタ内でないこともあり、発信元クラスタと受
信元クラスタとの交差に位置するノードに送出する必要
がある。また、さらに、中間的なステップもあることが
ある。Ｄ次元のアレイについては、ステップの最大数は
Ｄとなる。ネットワークエレメント管理ユニット３０は
パケットが受信先に送出されるルートを決定する。たと
えば、制限的なルーティングにおいては、南西方向に送
る必要があるメッセージはまず西へ送られ、次に南に送
られ、これにより、南西方向から到達するメッセージと
の衝突を避ける。なお、後者のメッセージはまず東へ送
られ、次に北へ送られる。他のルーティングのプロトコ
ルも考えることができる。メッセージが受信元クラスタ
のバス１３に到達すると、メッセージは受信元エレメン
トのアドレスによって認識され、その受信元エレメント
のクラスタインターフェイスユニットに受信される。

【００２５】パケットが受信されると、パケットはネッ
トワークエレメント２４のバッファメモリにバッファリ
ングされる。ネットワークエレメント２４は同時に複数
のパケットを受信でき、これをそのホストエレメントで
処理しもしくは直交クラスタに送出する。クラスタイン
ターフェイスユニット２６，２７，２８には調停回路が
設けられ、同時に到着するパケットをバッファリングし
て時間的に効率よく処理する。パケットがエレメント自
身を受信元としている場合には、このパケットはＨＩＵ
２９を介して通信エレメント２３に送られ、プロセッシ
ングエレメント２１によって処理されもしくはメモリエ
レメント２２に格納される。

【００２６】例を上げると、動作（ａ＋ｂ）×（ｃ＋
ｄ）は以下のごとく並列処理によって実行することがで
きる。すべてのパラメータが可変とすれば、動作ａ＋ｂ
がアレイの第１のエレメントにおいて実行され、動作ｃ
＋ｄが第２のエレメントにおいて実行される。第１、第
２のエレメントはこれらの演算の結果を含むパケットを
第３のエレメントに送出し、第３のエレメントはこれら
の演算の結果に乗算演算を実行する。

【００２７】ネットワークについてメッセージの好ましいルーティング方法はウォームホー
ル（ｗｏｒｍｈｏｌｅ）ルーティングの変形である
（ＤａｌｌｙＷＪ，ＳｅｉｔｚＣＬ：Ｍｕｌｔ
ｉｃｏｍｐｕｔｅｒｓ：ｍｅｓｓａｇｅ−ｐａｓｓｉｎ
ｇｃｏｎｃｕｒｒｅｎｔｃｏｍｐｕｔｅｒｓ”，Ｉ
ＥＥＥＣｏｍｐｕｔｅｒ，Ｖｏｌ２１，Ｎｏ．８
（Ａｕｇ１９８８），_ｐｐ９−２３）。各ウォーム
は１つのヘッドのみよりなり、これを以後パケットとす
る。

【００２８】上述のプロセッシングエレメントは各可変
次元における幅ｗのクラスタの中に接続されている。プ
ロセッシングエレメントが属するクラスタにおいては、
ノードは非方向性ラインを有することによりパケットを
当該クラスタを含む他の（ｗ−１）個のノードの１つに
送出でき、あるいは同時にこのパケットをこれらのサブ
グループに通信できる。ノードに到達するパケットは次
の２つの基本形がある。ａ）クラスタ内：これらの行程の最後のリンク（できれ
ば１つのリンク）上の巡回は局所的に伝達される。ｂ）クラスタ間：現在のノードによって受信された後に
直交するクラスタに進む。

【００２９】到着するパケットはバッファリングされ、
そして、ＣＩＵによる選択を待つ。ＣＩＵは高速ラウン
ドロビンアルゴリズムを用いてその（ｗ−１）個の発信
元から選択する。選択されたパケットはこれらの形式に
依存して異なって扱われる。クラスタ間パケットはＨＩ
Ｕを介してホストエレメントに進み、最終的にはローカ
ルバッファメモリの予め定められた領域に直接書込まれ
る。クラスタ内パケットはこれらのルート上の次の直交
するクラスタのＣＩＵに直接進む。パケットは欠陥があ
る場合を除き最小距離パスに従って受信元へ進む。大き
なシステム（＞１０^４個ノード）でさえせいぜい直径３
を有するので、ルーティングは実現可能サイズの全スペ
クトルに亘って基本的に無視できる。デッドロックはル
ーティングを制限することによりもしくは構築されたバ
ッファ管理を導入することにより容易に避けることがで
きる。直径を小さくすることによりこれらの戦略の性能
の欠点を最小にできる。

【００３０】データを有するパケットに加えて、ネット
ワーク層はネットワーク制御パケット（ＮＣパケット）
と呼ばれる特殊なパケットを認識してネットワークエレ
メント間制御情報を通過させる。この制御情報はバッフ
ァ管理としてのタスクのためのハウスキーピング（ｈｏ
ｕｓｅｋｅｅｐｉｎｇ）情報、ＣＩＵによって実行され
る自動機能を含むことができる。しかしながら、制御パ
ケットはネットワークエレメント管理ユニットによって
用いられ、このネットワーク管理ユニットは、ネットワ
ーク活動、負荷分散（適当であれば）及び戦略的幅輳制
御を管理する。

【００３１】リンクについてクラスタ内のネットワークエレメント間通信は高帯域リ
ンクによる。リンクの分離及びネットワーク機能に大き
な利点がある。特に、リンク装置技術に大きく依存する
特徴を分離することすができる。実際に、クラスタリン
クは幾つか方法で認識できる。たとえば、インターフェ
イス面を装着した短かいブロードアクティブ背面（ｓｈ
ｏｒｔｂｒｏａｄａｃｔｉｖｅｂａｃｋｐｌａｎ
ｅ）、デマルチプレクスドポイント−ポイントリンク、
多段光スター構成、あるいはＵＬＳＩ装置のセットとし
て認識できる。１ＧＢｙｔｅ／ｓまでの転送速度はア
クティブ背面もしくはデマルチプレクスドスター分配器
を用いて達成できる。異なるリンクプロトコルはこれら
の異なる技法に対して適切である。たとえば、並列バス
装置上に用いられるプロトコルはシリアル光ケーブルに
よって要求されるものと異なる。

【００３２】１６ビットの非方向性バス装置は付随する
並列バスリンクプロトコルと共に採用されている。代表
的なＬＡＮもしくはＷＡＮプロトコルと異なり、リンク
層はエラー制御もしくはフロー制御（共にネットワーク
層によって実行される）の提供を意図しておらず、物理
的なリンク上のパケットの境界、透明性の保存、及びマ
ルチドロップアドレス指定のためのものである。

【００３３】グローバルメモリパケット構造は共有アクセスグローバルメモリをサポー
トするように設計されている。システムの可能なサイズ
のために、３２ビットアドレス指定はグローバルアドレ
ス空間全体の均一にアクセスすることができないことが
明らかである。基本的な処理は３２ビット仮想アドレス
を用い、これをローカルＭＭＵによって３２ビット物理
アドレスに変換する。グローバルメモリは論理アドレス
指定ユニットつまりスーパページにおいて構築されてい
る。各スーパページは次元Ｈ（≦Ｄ）の超平面に亘って
インターリーブされている。このようにして、２次元シ
ステムにおいては、グローバルメモリ全体はすべてのホ
ストエレメント（Ｈ＝２）に亘り完全にインターリーブ
でき、あるいは局所的クラスタ（Ｈ＝１）にのみインタ
ーリーブでき、あるいは異なる共同で作動する処理によ
って用いられた両者の共通領域に分けることができる。
これにより、広範囲の共有メモリ応用に亘り多くのフレ
キシビリティが生じる。

【００３４】グローバルメモリへの短かいアクセスは唯
一のＣＬＰ優先でもって転送され、支障のないパケット
のごとく取扱われて、待ち時間を最小にする。

【００３５】ホストエレメントホストエレメント構成は図５に示されている。このアー
キテクチャはデータフローのようなパラダイムのために
設計された特殊のノードの使用を排除するものでない。
グローバルメモリへの要求及びグローバルメモリからの
応答はメモリエレメント（ＭＥ）２２が直接行う。ま
た、通信エレメント（ＣＥ）２３はプロセッシングエレ
メント（ＰＥ）２１のローカルメモリ５１に対して直接
データの転送を行うダイレクトメモリアクセス制御回路
（ＤＭＡＣ）５０をも内蔵している。このＤＭＡＣ５０
は使用中のソフトウエアパラダイムに対するメッセージ
転送を最適化でき、また、転送すべきメッセージのメモ
リ上の長さ及び位置を示すメッセージ記述子を維持す
る。

【００３６】共有メモリエレメント（ＭＥ）２２の機能
はグローバルメモリ制御回路（ＧＭＣ）と呼ばれる内蔵
ハードウエアモジュールによって調整される。ＧＭＣは
次の２つのサブモジュールよりなる。ａ）グローバルメモリ管理ユニット（ＧＭＭＵ）５４。
これは、カーナル制御のもとで、ある範囲の物理アドレ
スをトラップし、特殊グローバルメモリ保証器（ｑｕａ
ｌｉｆｉｅｒ）でパケットを発生する。ＧＭＭＵはアク
ティブ処理に発生したアドレス上で現に使用中のインタ
ーリーブ形式を解釈できる。ｂ）グローバルメモリアクセスユニット（ＧＭＡＵ）５
５。これは通信エレメント（ＣＥ）によって通過してき
たメモリアクセスパケットを受ける。またＧＭＡＵ５５
はシングルもしくはブロックＤＭＡアクセスをグローバ
ルメモリセグメントに発生することができる。さらに、
ＧＭＡＵ５５は、同期、リストの取扱、ゴミ集めを含む
より高いレべルの動作を実行するのに用いることができ
る。

【００３７】共有メモリアクセスはシステムレベルもし
くはユーザレベルで発生できる。前者の場合、ユーザ処
理は、必ずしも直接アドレス指定（ＲＡＭディスクの）
ではなく、共有構造としてのグローバルメモリを観察す
る。アクセスが必要とされるとき、ブロッキングもしく
はノンブロッキングシステム呼を発生し、これを受けて
ローカルカーナルはＧＭＭＵに要求を通知する。この手
法は実際に必要とされる前にデータをプリフェッチする
処理によって用いることができる。真のユーザレベルア
クセスはユーザ処理によって直接発生され、ローカルメ
モリ管理ユニット（ＭＭＵ）によって翻訳され、ＧＭＭ
Ｕによってトラップされる。アクセス処理は待ち時間が
十分短かければ遅延でき、もしくは必要なら一時停止で
きる。

【００３８】ネットワークエレメント図６に示すごとく、各ＣＩＵは３つの明瞭な機能ユニッ
トよりなる（なお、これらの機能分割はネットワークエ
レメントのＶＬＳＩにおけるパッケージ位置上で制限さ
れるものと解釈すべきでない）。ａ）送信ユニット６０。これは共通クラスタ内でメッセ
ージを他のノードへ送信するものである。ｂ）受信ユニット６１。これは共通クラスタ内での他の
ノードから到着するメッセージを適当な調停機構を用い
て選択し、局所的に転送もしくは他のＣＩＵへルーティ
ングするものである。ｃ）ＣＩＵ制御ユニット６０。これはＮＣパケットを必
要に応じて対応するＣＩＵ制御ユニットと交換する有力
な各受信元のバッファの使用状態を監視するものであ
る。

【００３９】送信ユニット６０はリンク制御ユニットと
呼ばれる積分オートマトン（つまり、有限状態マシン）
を用いてクラスタリンク上にパケットを転送するもので
ある。このようなパケットは、局所的に発生するものも
しくはＮＥ受信ユニットのいずれかから直接発生するも
の（クラスタ内メッセージ）であれば、ＨＩＵから発生
することができる。

【００４０】受信ユニット６１は幾つかのバッファ付入
力マルチプレクサよりなり、各マルチプレクサは発信元
選択のためのラウンドロビン調停回路を有する。異なる
形式のパケットがローカルもしくはノンローカル転送の
ためであれば、パケットは別個にバッファリングされ
る。しかしながら、いかなるカテゴリが与えられても、
各マルチプレクサ入力においては１つのパケットに対し
てのみ空間であり、従って、トータルのバッファ要求は
適切となる。受信バッファの空間はＣＩＵ制御ユニット
により監視され、つまり、現に転送中のデータに関係な
く、ＣＩＵ制御ユニットはＮＣパケットを発生し、この
パケットはローカル送信ユニットに直接転送されて制御
フレームとしてただちに供される。パケットが１つの入
力に到着すると、この入力に伴う調停回路は次のノード
への転送が可能である限り送信要求を受信する。調停回
路によって選択されたパケットはただちにこれらの受信
元へ送られる。主として次の４つの場合がある。ａ）パケットはＨＩＵ、ＣＥを介してＰＥに送られ、受
信元の処理に伴うバッファメモリに直接書込まれる。ｂ）パケットは他のＣＩＵにおける送信ユニットに送ら
れる（クラスタ内トラフィック）。ｃ）パケットはＨＩＵを介してグローバルメモリアクセ
スユニットに送られる。グローバルメモリ要求パケット
はＧＭＡＵに送られ、ＣＭＡＵはこれに付随するグロー
バルメモリモジュールに対してＤＭＡを発生する。ｄ）パケットは再びＨＩＵを介してグローバルメモリ管
理ユニットに送られる。たとえば読出しデータを有する
グローバルメモリ要求パケットはＧＭＭＵに送られ、そ
こで未決定の要求とマッチングされる。

【００４１】信号定義は、手法によって適当に変更され
るので、アーキテクチャの標準化さされたアクロス処理
系（ａｃｒｏｓｓｉｍｐｌｅｎｔａｔｉｏｎｓ）でな
い。これらの物理的な定義はアーキテクチャのより高い
層から切り離され、送信ユニット及び受信ユニット以外
のモジュールの設計に影響を与えることなく変更でき
る。

【００４２】要求バスラインは次のものである。ａ）Ｄ１５−Ｄ０：データ用ｂ）ＤＥＬＩＭ（ウォームデリミッタ）：ウォームが開
始もしくは終了していることを示す（フレームフラグは
透明性の複雑化を避けるために用いない）。ｃ）ＣＳ（制御ストローブ）：制御フレームを示す。ｄ）ＤＳ（データストローブ）：リンク上の有効データ
ワードの存在を示す。

【００４３】制御フームは送信ユニットと受信ユニット
との間の通信レベルを制御するのに用いる。制御フレー
ムはたとえば１ワード長もしくは２ワード長であり、受
信バッファ状態としての情報を有する。パケットの第１
のワードは受信ＮＣによりルーティング情報を解釈でき
情報と共にクラスタアドレス指定情報を含む。受信ユニ
ットにおいては、このワードは除去されて無視され、つ
まり、新しいルーティング情報がパケットの前に存在す
ることになる。

【００４４】ＨＩＵはＣＩＵから直接ローカル転送のた
めのパケットを受信し、これをＣＩＵから直接送り、機
能を反転し、ＨＥからのパケットを適当なＣＩＵにデマ
ルチプレクスする。管理ユニット／ＨＩＵアセンブリ内
にはシステムタイムを維持するシステムクロックレジス
タ（図示せず）がある。スキューを慎重に最小化するこ
とによってシステム全体に唯一のグローバルロック信号
を分配することができる。グローバル時間は、適切であ
れば、ＨＥ動作を同期化させるためと共にパケットをス
タンプするのに用いることができる。

【００４５】マルチコンピュータ設計において最も難し
い問題の１つは内部接続戦略の選択の問題であり、この
内部接続戦略は、多数の強力な処理エレメントに基づく
マシンにおける並列応用に対する真に一般的なサポート
を提供できるように十分融通制を有さねばならない。

【００４６】

【発明の効果】本発明によれば、優れた接続性、高い帯
域性、低い待ち時間を有する一般化された超立方体トポ
ロジを提供できる。重要なことは、このアーキテクチャ
は非常に多くのプロセッサに対して可能であり、微細及
び粗野なプログラミング手法の両方に適する１０^３〜１
０^５のプロセッシングエレメントを有するＭＩＭＤマシ
ンの構成を可能にする。

【図面の簡単な説明】

【図１】本発明に係わる２次元並列プロセッサを示すブ
ロック回路図である。

【図２】図１のノードの構成を示すブロック回路図であ
る。

【図３】図１のクラスタの内部構成を示すブロック回路
図である。

【図４】図３の変更例を示すブロック回路図である。

【図５】図１のホストエレメントの詳細を示すブロック
回路図である。

【図６】図１のＣＩＵの詳細を示すブロック回路図であ
る。

【符号の説明】

１０プロキッシングエレメント（ＰＥ）１１，１２クラスタ（サブセット）１３バス２０ホストエレメント（ＨＥ）２１プロキッシングエレメント２２メモリエレメント２３通信エレメント２４ネットワークエレメント（ＮＥ）２５，２６，２７，２８クラスタインターフェイスエ
レメント（ＣＩＵ）２９ホストインターフェイスユニット（ＨＩＵ）３０ネットワークエレメント管理ユニット５４グローバルメモリ管理ユニット（ＧＭＭＵ）５５グローバルメモリアクセスユニット（ＧＭＡＵ）６１受信ユニット６２ＣＩＵ制御ユニット６３送信ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者ルイス・マクリーン・マッケンジーイギリス国、グラスゴウ、モンテン・ストリート 18 ジー４９エイチエックス (72)発明者ロバート・ジョン・サザーランドイギリス国、グラスゴウ、ランキャスター・テラス２ジー12 ０ユーティ

Claims

【特許請求の範囲】

【請求項１】次元Ｄで配置され複数のサブセットに分
割された複数のプロセッシングエレメント（１０）を具
備し、１つのサブセットにおけるすべてのプロセッシン
グエレメントはこれらの間の通信のため１つのバス（１
３）を有し、前記各プロセッシングエレメントは各次元
における１つのサブセットのメンバであるプロセッサに
おいて、１つのサブセットの各プロセッシングエレメントは出力
手段によって当該サブセットのバスに接続され、当該サ
ブセットの他の複数のプロセッシングエレメントにメッ
セージを送信し、別個の入力手段は、当該サブセットの各他のプロセッシ
ングエレメントに対応し、各対応の入力手段上の前記他
のプロセッシングエレメントからのメッセージを受信す
ることを特徴とする並列プロセッサ。
【請求項２】１つのサブセットにおけるプロセッシン
グエレメントは１ラインに配列され、該ラインの終端間に位置するプロセッシングエレメント
は、該ラインに沿って一方側の他のプロセッシングエレ
メントにメッセージを送出する１つの出力手段と、該ラ
インに沿って他方側の他のプロセッシングエレメントに
メッセージを送出する別個の出力手段とを有する請求項
１に記載のプロセッサ。
【請求項３】前記各プロセッシングエレメントは、メ
ッセージパケットを発生し他のエレメントに送出する通
信手段を具備し、該通信手段はパケットの受信元が同一
のサブセットか他のサブセットかを示すアドレスを発生
する手段を具備する請求項１もしくは２に記載のプロセ
ッサ。
【請求項４】前記各プロセッシングエレメントは、１
つのバス上のクラスタにおける他のエレメントからメッ
セージパケットを受信する手段と、パケットの送信元が
同一クラスタか異なる直交クラスタかを認識する手段
と、パケットの送信元が同一のクラスタのときに該パケ
ットを該エレメント内のメモリ内に書込み、前記パケッ
トの送信元が異なるクラスタのときに前記パケットを異
なる直交バスへ再送信する手段と、を具備する請求項３
に記載のプロセッサ。
【請求項５】さらに、前記各プロセッシングエレメン
トは、メッセージパケットを受信する手段と、該メッセ
ージパケット内のアドレスを変更する手段と、該メッセ
ージパケットを再送信する手段とを具備する請求項１か
ら４のいずれか１つに記載のプロセッサ。
【請求項６】さらに、前記プロセッシングエレメント
はメッセージパケットを発生し他のエレメントに送出す
る手段を具備し、該各メッセージパケットは、唯一のア
ドレス部と、少なくとも唯一の命令部及び唯一のデータ
部の１つとを含む請求項１から５のいずれか１つに記載
のプロセッサ。
【請求項７】１つのサブセットのバスは該サブセット
に接続された１つのエレメントのみの出力装置によって
電気的に駆動される請求項１から６のいずれか１つに記
載のプロセッサ。
【請求項８】２次元と３次元との間にある請求項１か
ら７のいずれか１つに記載のプロセッサ。