JPH05342184A

JPH05342184A - 格子トーラス結合型並列計算機及び並列プロセッサ

Info

Publication number: JPH05342184A
Application number: JP4145642A
Authority: JP
Inventors: Haruyuki Tago; 治之田胡; Takashi Yoshida; 尊吉田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-06-05
Filing date: 1992-06-05
Publication date: 1993-12-24

Abstract

(57)【要約】【構成】Ｎ次元アレイ端のＰＥに、Ｎ−１次元以下の
次元に対応するパスを設け、セレクタ４で切り替える。
２次元アレイでは最右側ＰＥの右側通信ポートは最左側
ＰＥ（０，０）の左側通信ポートに通信バス２で接続し
ている。１次元にするため最右側ＰＥの右側通信ポート
を一段下のＰＥ（１，０）の左側通信ポートに接続する
通信バス１とセレクタ４を設ける。全ての最右側ＰＥに
も通信バス１とセレクタ４を設ける。最右下ＰＥの右側
通信ポートをＰＥ（０，０）の左側通信ポートに接続す
る。セレクタ４を切り替えて２次元構造から１時元構造
に変換する。【効果】ハードウェアの増加を抑え、低い次元に容易
に対応出来、データ転送時のソフトの負担が無くなる。
余った次元の隣接通信バスをバイパス経路として使用で
きる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、Ｎ次元格子トーラス結
合方式をとる並列計算機、及び複数個のプロセッサを同
一ＬＳＩ上に集積した並列プロセッサに関する。

【０００２】

【従来の技術】現在の大規模科学技術計算など、様々な
分野で処理能力の高い計算機が要望されており、それら
の要望に対する答として、多くの並列計算機が開発され
ている。並列計算機のアーキテクチャは、各演算要素
（例えば、マイコンなど）をどのように接続するかとい
う接続形態により特徴づけられ、様々な接続形態が提案
されている。

【０００３】その中で、自然界のシミュレート等の隣接
作用の問題に適した、Ｎ次元格子アレイ状に演算要素
（以降ＰＥ／プロセッシングエレメントと呼ぶ）を結
合したアレイ型計算機が有名であり、様々な応用問題で
成果をあげている。これらのＮ次元格子に接続された計
算機において、Ｎ次元以上の次元の問題を適応するのは
容易である。

【０００４】例えば、３次元のアレイに４次元の問題を
適用する場合、３次元まではＰＥのアレイに物理的にマ
ッピングし、残りの１次元は各ＰＥ上の配列データとし
て扱うことにより適応できる。

【０００５】しかしながら、これらＮ次元格子の並列計
算機にＮ−１次元以下の次元を適応する場合は問題が複
雑になる。単純な方法としては、並列計算機の各ＰＥの
うち、問題の次元に対応するＰＥのみを使用すればよ
い。例えば３２×３２の２次元格子の計算機に１次元の
問題を適応するとき、ＰＥの行列の１行３２ＰＥのみを
使用すれば良いが、残りの９９２個のＰＥが無駄になっ
てしまう。

【０００６】そのためデータの転送を制御し、ＰＥが無
駄にならないようにマッピングするが、この場合、アレ
イの端のＰＥのデータ転送制御が他のＰＥと異なってく
る。例えば４×４の２次元格子トーラス状に接続された
ＰＥアレイに、１次元の問題を図２４のようにマッピン
グした場合を考える。

【０００７】隣りのＰＥにデータを転送するときは、ア
レイ右端のＰＥ（０，３）〜（３，３）も他のＰＥと同
じ動きをするのでは、意図する転送は行えず、他のＰＥ
とは異なった動作が必要となる。すなわちアレイの最右
側ＰＥで右に送ったデータは、下の行の最左側のＰＥに
送られ、最左側ＰＥで左側に送ったデータは、上の行の
最右側ＰＥに送られている。

【０００８】ＭＩＭＤ方式の並列計算機では、アレイ端
のＰＥのプログラムを変更し、他のＰＥと異なる転送を
行うことにより、比較的容易に実現できるが、ＳＩＭＤ
方式の並列計算機では、通常の転送命令と、アレイ端の
ＰＥに対する転送命令とを制御部が別々に送らなければ
ならないため時間がかかる。

【０００９】例えば、図２４で一斉に右方向にデータを
送る場合、まず最右側列以外のＰＥをマスクし、最右側
列のＰＥに下方向にデータを送る命令を送り、マスクを
解除した後、全ＰＥに右方向にデータを転送する命令を
送る。このようにすれば、アレイ結合のＳＩＭＤ型計算
機においても、図２４に示すようなマッピングが可能と
なり、応用問題に対することは出来る。

【００１０】一方、近年、一つのＬＳＩ上にプロセッサ
を複数個並列配置して、集積することにより構成した並
列プロセッサが開発されている。この従来例を、図２５
に示す。

【００１１】同図（Ａ），（Ｂ）に示すように、並列プ
ロセッサは、一つのＬＳＩ１１上に複数個の基本素子集
合１２が並列配置されて構成されている。基本素子集合
１２は、データパス１３，制御部１４，メモリ１５，通
信ポート１６，その他１７から構成される。この基本素
子集合１２をノードとし、複数個のノード（Ｎ１〜Ｎ１
６）内の通信ポート１６が接続（図中、点線）されてい
る。

【００１２】ノード間の接続は相互結合網と呼ばれ、従
来から多くが知られている。例えば、スター網，リング
網，トリー網，格子網，ハイパーキューブ網，オメガ
網，などである。この相互結合網は、ノード間距離が短
いこと、通信容量が大きいこと、構造がシンプルなこ
と、等の特性を合わせ持つことが理想である。

【００１３】しかし、一つの並列プロセッサで全ての相
互結合網を満たすことは難しいため、並列計算機上で解
くべき問題でよく現れる、ノード間通信パターンに適し
た相互結合網が選ばれる。

【００１４】例えば、データのソート問題には、その分
割統治的特性からトリー網を持つ並列プロセッサが適し
ているし、物理現象のシミュレーション（流体解析，半
導体デバイスシミュレーションなど）には、隣接作用を
効率よく扱える格子網を持つ並列プロセッサが適してい
る。

【００１５】解く問題が複数ある場合や特定できない場
合は、ハイパーキューブ結合（図２６）が、その平均通
信距離の短さや、格子網、トリー網をマッピングできる
性質を持つことから、使われる場合がある。

【００１６】例えば、２進トリー網は、図２７のように
ノードＮ１〜Ｎｎを割り当てることにより、ハイパーキ
ューブ網で実現できる。図中で下線で示したノードＮ１
０，１２，１４，１６は、中継ノードとして使われるこ
とを示す。また、２次元格子網は、図２８に示したよう
に、ノードＮ１１〜Ｎ４４を２次元状に接続することに
よって実現できる。

【００１７】先に示した図２５は、ハイパーキューブ結
合のＬＳＩ上の配置例である。図中、点線で示すよう
に、ノード間の配線は複雑であるため、配線面積の増
加，接続網の切り替え機構に起因する動作速度低下を招
く欠点があった。別の方法として、解く問題に専用の並
列プロセッサを製造する方法もあるが、設計期間の増
大，製造コストの負担が大きく、なかなか採用できない
のが現状である。

【００１８】

【発明が解決しようとする課題】以上のように、従来の
並列計算機において、並列計算機のアレイの次元よりも
小さい次元の問題のマッピングを行う際は、プログラム
の負荷が大きくなり、転送の際にオーバーヘッドが生じ
ていた。これはＳＩＭＤ型並列計算機にも、ＭＩＭＤ型
並列計算機にも言えることである。

【００１９】また、並列計算機における結合方法として
は、アレイ結合以外にクロスバースイッチによる結合
や、処理開始時に結合方式を組み替え、様々な結合方式
に対応する可変結合型の並列計算機などがあるが、これ
らは結合方式によるデータ転送時の制御の複雑さ、ハー
ドウェア量の増大等の問題点が挙げられる。

【００２０】一方、従来の並列プロセッサは、一つの並
列プロセッサで全ての結合網を実現することはできず、
解くべき問題に適した一つの結合網しか選ぶことができ
ないという欠点があった。

【００２１】そこで、この発明は、このような事情に鑑
みてなされたものであり、第１の発明の目的とするとこ
ろは、他の結合方式のような制御の複雑さ、ハードウェ
アの増大を防ぎつつ、Ｎ−１次元以下の次元に対応でき
る格子トーラス結合型並列計算機を提供することにあ
る。

【００２２】また、第２の発明の目的とするところは、
様々な結合網を配線工程で切り替えることによって、解
くべき問題に適した結合網にノード内部及びノード間を
接続することができる並列プロセッサを提供することに
ある。

【００２３】

【課題を解決するための手段】上記目的を達成するため
に、第１の発明は、Ｎ次元の格子状に配置された複数の
演算要素と、これらの演算要素をＮ次元にトーラス結合
させる複数本の隣接通信バスと、この隣接通信バスと他
の隣接通信バスとの接続を可能とするパスと、隣接通信
バス上のデータかあるいは前記パスを介する他の隣接通
信バス上のデータを選択する選択手段とを、全ての隣接
通信バスに設け、前記パスと選択手段とを利用して隣接
通信バスと他の隣接通信バスとを接続することにより、
前記複数の演算要素をＮ−１次元以下の次元にトーラス
結合させている。

【００２４】また、第２の発明は、命令実行制御手段、
データ演算処理部、メモリ、及びプロセッサ間通信手段
を持つ基本素子集合を複数個組み合わせてノードを構成
し、さらにそのノードを複数個使用して所望の機能を実
現する並列プロセッサであって、前記基本素子集合が複
数個半導体基板上に並列配置された構造を持ち、前記基
本素子集合内部、基本素子集合間、またはノード間それ
ぞれの、少なくとも一部の接続を配線工程で所望の機能
に応じてなすとともに、ノード内部の接続に使われる配
線層と、ノード間接続に用いられる配線層とが少なくと
も一層は異なるようにし、あるいは排他的に異なるよう
にし、ノード間接続をノードの領域上の配線層で行うも
のである。

【００２５】または、第２の発明では、前記プロセッサ
間通信手段の少なくとも一部をフィールドプログラマブ
ルにし、前記基本素子集合内部、基本素子集合間、また
はノード間それぞれの、少なくとも一部の接続をプログ
ラマブルに配線工程で所望の機能に応じてなすものであ
る。

【００２６】

【作用】上記手段により、第１の発明では、あらかじめ
Ｎ次元隣接通信バスの他に、Ｎ−１次元に対応出来るよ
うに、ＰＥの隣接通信バスに新たにパスとセレクタ（選
択手段）を設けておき、モードの切り替えにより、一部
のＰＥの通信ポートの接続を切り替えて、ハード的にＮ
−１次元に対応するＰＥ間の隣接結合が可能となるよう
にする。

【００２７】さらに、Ｎ−１次元に構成されたＰＥアレ
イのアレイ端あるいはその他のＰＥに、Ｎ−２次元に対
応出来るようなパスとセレクタを設け、さらにＮ−３次
元に対応するパスとセレクタを設けるという具合に階層
的にパスを追加する事により、Ｎ−１次元以下の次元の
問題に、ハード的に対応し、次元を合わせるための余計
なプログラムが必要ないように構成する。

【００２８】このような構成によって、Ｎ次元以上の問
題をマッピングする際は、従来の方法でＮ次元格子アレ
イにマッピングする。

【００２９】Ｎ−１次元の問題は、Ｎ次元アレイに設定
してあるＮ−１次元用のパスとセレクタを利用してデー
タ通信経路を切り替え、次元の変化に対応させる。Ｎ−
２次元以下も同様である。このように、大部分のＰＥの
接続はもともとのＮ次元格子結合のままで、一部のＰＥ
の結合を切り替えることにより、ハード的に次元の低い
問題にも対応する。

【００３０】さらに、次元を下げることによって出来た
マッピングとは関係のない余った隣接通信バス、例えば
２次元アレイで、行方向に１次元をマップした場合、列
方向の隣接通信バスは本来のマッピングでは余るが、こ
れらの隣接通信バスはデータ通信時のバイパス経路とし
て活用する。

【００３１】また、第２の発明では、データパス、制御
部、通信ポート、メモリを持つプロセッサを複数個、同
一基板上に並列配置した状態のＬＳＩを製造しておく。
これらのプロセッサを組み合わせたものをノードとし、
ノード内部及びノード間の接続を、配線工程で所望の機
能に応じて行う。これにより、プロセッサが並列配置さ
れた同一ＬＳＩ上で、解くべき問題に適した結合網にノ
ード間を接続している。

【００３２】

【実施例】

第１の発明第１の発明の一実施例を図１、図２に挙げる。図２は図
１の左上の部分を紹介に図示したものである。

【００３３】４×４の２次元アレイに１次元の問題をマ
ッピングする事を考える。４×４のＰＥ番号は、最左上
のＰＥをＰＥ（０，０）、その右隣をＰＥ（０，１）、
ＰＥ（０，２）、ＰＥ（０，３）とし、ＰＥ（０，０）
の下をＰＥ（１，０）とし、ＰＥ（１，０）の右隣をＰ
Ｅ（１，１）とする。このように４×４のアレイにＰＥ
（０，０）からＰＥ（３，３）までのＰＥ番号を割り当
てる。

【００３４】このアレイに１次元の問題をマッピングす
る場合、アレイの最左上のＰＥをＰＥ（０）とし、右隣
のＰＥをＰＥ（１）とする。このように４×４の１６台
のＰＥに１次元の番号を割り付けてゆくと、ＰＥ（４）
は２次元での割付のＰＥ（１，０）に割り付けることが
出来る。ＰＥ（５）はＰＥ（１，１）に、ＰＥ（６）は
ＰＥ（１，２）に割り当ててゆき、ＰＥ（１５）はＰＥ
（３，３）に割り当てる。

【００３５】単純に隣接結合ということで、ＰＥ（４）
をＰＥ（０，３）の下側のＰＥ（１，３）に割り当て、
ＰＥ（５）はＰＥ（１，２）に割り当てて、蛇行したよ
うに２次元上に割り当ててゆくこともできるが、ＳＩＭ
Ｄ方式の制御では、一斉に同一方向にしか転送できない
ため、自ＰＥより１つ番号の大きいＰＥに一斉に転送す
る（シフト動作）が出来ない。すなわち、蛇行するよう
に割り当て、転送方向をハードウェアで切り替えるよう
にする場合、アレイの中間のＰＥと端のＰＥ、２次元で
の奇数行のＰＥと偶数行のＰＥとで各々転送方向が違う
ので、ハードの制御が大変である。

【００３６】２次元格子トーラス結合の場合、図２のよ
うに、最右側ＰＥ（０，３）の右側通信ポートは、通信
バス２と２入出力セレクタ４によって最左側ＰＥ（０，
０）の左側通信ポートに接続されている。

【００３７】１次元格子トーラス結合にするため、ＰＥ
（０，３）の右側通信ポートを一段下のＰＥ（１，０）
の左側通信ポートに接続するパス（通信バス１）と２入
出力セレクタ４を設ける。同様に、ＰＥ（１，３）、Ｐ
Ｅ（２，３）の右側通信ポートにも、ＰＥ（２，０）、
ＰＥ（３，０）の左側通信ポートに接続するパスと２入
出力セレクタ４を設ける。さらに、ＰＥ（３，３）の右
側通信ポートから、ＰＥ（０，０）の左側通信ポートに
接続するパスと２入出力セレクタ４を設ける。

【００３８】これらのパスをモードで切り替えることに
より、２次元格子時には通信パス２を用いるモードによ
りＰＥ（０，３）からＰＥ（０，０）に送られていたデ
ータが、１次元リングの通信パス１を用いるモードの
時、ＰＥ（１，０）に送られるようになる。

【００３９】図１を１次元状に展開したのが図３であ
る。図１すなわち２次元アレイ構成時に縦方向の次元に
対応していた隣接通信バスが、１次元形態の時は、４Ｐ
Ｅ先にデータをバイパスするバイパス経路として活用で
きることが判る。

【００４０】以上は２次元アレイを例として挙げたが、
より高次元の計算機にも適応できる。例えば３次元構造
の計算機では、３次元から２次元への変換経路と、２次
元から１次元への変換経路を設けることにより、１次元
から３次元まで、ハード的に対応できるようになる。

【００４１】以下に、４×４×４の３次元構造から２次
元構造、１次元構造への変換の例を挙げる。２次元への
変換は、まず４×１６と８×８が考えられるが、まず４
×１６を考える。

【００４２】ｘｙｚ軸方向にＰＥが格子状に配置され、
ＰＥをｘｙｚの座標で識別する。ｘ＝０となる４×４の
ＰＥの属する平面をプレーン０、ｘ＝１の平面をプレー
ン１、ｘ＝２の平面をプレーン２、ｘ＝３の平面をプレ
ーン３とする。ＰＥをｘｙｚの座標でＰＥ（ｘ，ｙ，
ｚ）と識別するとし、各プレーン上の左上をｙ＝０，ｚ
＝０とすると、左上のＰＥはＰＥ（ｘ，０，０）、左下
はＰＥ（ｘ，３，０）、右上はＰＥ（ｘ，０，３）、右
下はＰＥ（ｘ，３，３）となる。

【００４３】各プレーンごとに前述の２次元／１次元の
変換パスをｚ軸方向に次元をとるように設ける。例えば
ＰＥ（０，０，３）のｚ軸正方向（座標値が大きくなる
方向）のバスは、ＰＥ（０，１，０）のｚ軸負方向（座
標値が小さくなる方向）のバスにつながる。すなわちｂ
が（０≦ｂ＜３）の時、ＰＥ（ａ，ｂ，３，）のｚ軸正
方向のバスはＰＥ（ａ，ｂ＋１，０）のｚ軸負方向のバ
スにつながり、ＰＥ（ａ，３，３）のｚ軸正方向のバス
はＰＥ（ａ，０，０）のｚ軸負方向のバスにつながる。

【００４４】この接続により、ｚ軸方向に１６ＰＥの連
なる１次元リングができ、各々のＰＥがｘ軸方向に隣接
結合していることから、ｘ軸方向４、ｚ軸方向１６の４
×１６の２次元構造の並列計算機となる。このとき、各
ＰＥはそれぞれのＰＥ番号を（ｘ，４×ｙ＋ｚ）の２次
元配列として現すことができる。４×１６の２次元結合
を図４に示す。

【００４５】次に、この４×１６の２次元アレイを６４
ＰＥの１次元リングとする接続を考える。ＰＥ（０，１
５）のｚ軸正方向に１次元に接続する。すなわちＰＥ
（０，１５）のｚ軸正方向のバスはＰＥ（１，０）のｚ
軸負方向につながる。すなわちＰＥ（ａ，１５）のｚ軸
正方向のバスはＰＥ（ａ＋１，０）のｚ軸負方向のバス
につながり（０≦ａ＜３）、ＰＥ（３，１５）のｚ軸正
方向はＰＥ（０，０）のｚ軸負方向のバスにつながる。

【００４６】まとめると、３次元構造時、ＰＥ（ａ，
ｂ，０）のｚ軸負方向バスはＰＥ（ａ，ｂ，３）のｚ軸
正方向のバスにつながる（０≦ａ，ｂ≦３）。２次元構
造時はＰＥ（ａ，０，０）のｚ軸負方向のバスはＰＥ
（ａ，３，３，）のｚ軸正方向のバスにつながり、ＰＥ
（ａ，ｂ，０）のｚ軸負方向のバスはＰＥ（ａ，ｂ−
１，３）のｚ軸正方向のバスにつながる（０≦ａ≦３，
１≦ｂ≦３）。１次元構造時、ほとんどのバスは２次元
構造時の接続であり、ＰＥ（０，０，０）のｚ軸負方向
はＰＥ（３，３，３）のｚ軸正方向のバスにつながり、
ＰＥ（ａ，０，０）のｚ軸負方向のバスはＰＥ（ａ−
１，３，３）のｚ軸正方向のバスとつながる。

【００４７】次元の変更によりｙ軸方向にできたバイパ
ス経路はｚ軸方向に有効で、２次元構造時はｚ軸方向に
±４ＰＥ先にデータを転送できる。また、１次元構造時
には２次元構造時のｙ軸方向に加え、ｘ軸方向のバスが
バイパス経路として使用できる。ｙ軸方向に関しては２
次元構造時と同様に４ＰＥ先に転送でき、ｘ軸方向のバ
スパス経路を使うと１６ＰＥ先に転送できる。

【００４８】ハードウェアの増加を見ると、本来の３次
元構造に比較して、ＰＥ（ａ，０，０）のｚ軸負方向と
ＰＥ（ａ，３，３）のｚ軸正方向のバスに３入出力セレ
クタを４つと、ＰＥ（ａ，ｂ，３）のｚ軸正方向のバス
（０≦ｂ≦２）と、ＰＥ（ａ，ｂ，０）のｚ軸負方向の
バス（１≦ｂ≦３）に２入出力セレクタを１２こ付加す
れば良い。

【００４９】ＰＥ番号に関しては、各座標を２ビットで
現しているとすると、２次元時は列方向を２ビットで現
し、ｘをそのまま使用する。行方向は４ビットで現す
が、ｙを上位２ビット、ｚを下位２ビットに割り当てる
と、３次元構成時のｘｙｚ座標と同様に扱える。１次元
時は６ビットで現し、上位からｘ，ｙ，ｚの各ビットを
割り当てて行くと、新たなＰＥ番号の着け替え無しに割
り当てることができる。

【００５０】ＰＥ番号に関しては、各座標を２ビットで
現しているとすると、２次元時は列方向を２ビットで現
し、ｘをそのまま使用する。行方向は４ビットで現す
が、ｙを上位２ビット、ｚを下位２ビットに割り当てる
と、３次元構成時のｘｙｚ座標と同様に扱える。１次元
時は６ビットで現し、上位からｘ，ｙ，ｚの各ビットを
割り当てていくと、新たなＰＥ番号の付け替え無しに割
り当てることができる。

【００５１】次に、４×４×４の３次元構造から８×８
の２次元構造への変換を考える。単純化のためにｙ軸、
ｚ軸に関して４×４のプレーンを考える。このプレーン
を２×２で並べれば８×８の２次元格子構造ができる。
プレーン単位で８×８の構成にする場合も、いろいろな
接続方法が考えられるが、本例では８×８を縦横で４分
割し、プレーン０を左上、プレーン１を右上、プレーン
２を左下、プレーン３を右下に割り当てる。この時、ｚ
軸正方向が８×８アレイの右方向、ｙ軸正方向が８×８
アレイの下方向とする。

【００５２】図５に８×８の２次元構造に接続した図を
示す。但し図中にはｘ軸方向のバスによるバイパス経路
は記入していない。

【００５３】ＰＥ（０，０，０）のｚ軸負方向は３次元
ではＰＥ（０，０，３）のｚ軸正方向のバスに接続して
いるが、２次元ではＰＥ（１，０，３）のｚ軸正方向の
バスに接続する。同様にＰＥ（０，ｂ，０）のｚ軸負方
向のバスはＰＥ（１，ｂ，３）のｚ軸正方向のバスに、
ＰＥ（２，ｂ，０）のｚ軸負方向のバスはＰＥ（３，
ｂ，３）のｚ軸正方向のバスに接続する（０≦ｂ≦
３）。ＰＥ（０，ｂ，３）のｚ軸正方向のバスはＰＥ
（１，ｂ，０）のｚ軸負方向のバスに、ＰＥ（２，ｂ，
３）のｚ軸正方向のバスはＰＥ（３，ｂ，０）のｚ軸負
方向のバスに接続する（０≦ｂ≦３）。

【００５４】ｙ軸方向の接続も同様に、ＰＥ（０，０，
ｃ）のｙ軸負方向のバスはＰＥ（２，３，ｃ）のｙ軸正
方向のバスに、ＰＥ（１，０，ｃ）のｙ軸負方向のバス
はＰＥ（３，３，ｃ）のｙ軸正方向のバスに接続する
（０≦ｃ≦３）。ＰＥ（０，３，ｃ）のｙ軸正方向のバ
スはＰＥ（２，０，ｃ）のｚ軸負方向のバスに、ＰＥ
（１，３，ｃ）のｙ軸正方向のバスはＰＥ（３，０，
ｃ）のｙ軸負方向のバスに接続する（０≦ｃ≦３）。

【００５５】このときのＰＥ番号は、縦横それぞれ３ビ
ットで現すことができるが、横方向であるｚ軸方向は、
３ビットのうち最上位１ビットをｘ座標の下位１ビット
とし、下位２ビットはｚ座標の２ビットを割り当てる。
縦方向であるｙ軸方向は、３ビットの最上位１ビットを
ｘ座標２ビットの上位１ビットを割り当て、下位２ビッ
トにｙ座標２ビットを割り当てる。

【００５６】上記構成にしたとき、ｘ軸方向のバスを用
いることにより、行、列方向４ＰＥ先にデータをバイパ
スする事ができる。

【００５７】次に、この８×８の２次元構造を６４ＰＥ
の１次元構造へ変換することを考える。これは前述の４
×４の２次元構造を１次元構造に変換する接続方法と同
じで、最右端のＰＥの右側バスを１行下の最左端左側バ
スに接続すれば良い。

【００５８】このように、３次元構造を１次元構造に変
換するためには、８つの３入出力セレクタと１６この２
入出力セレクタを設ければ良い。

【００５９】この時のＰＥ番号は、８×８の２次元構成
時の縦方向の３ビットを上位３ビットに、横方向３ビッ
トを下位３ビットにおくことにより、連続したＰＥ番号
を割り振ることができる。

【００６０】第２の発明第２の発明による並列プロセッサの構成例を、図６に示
す。同図（Ａ）において、ＬＳＩ１１上には多数の基本
素子集合１２が並列配置されている。この基本素子集合
１２は同図（Ｂ）に示すように、少なくとも１つのデー
タパス（データ演算処理部）１３、命令実行制御部１
４、メモリ１５、プロセッサ間通信ポート１６、及びそ
の他１７を持った構成となっている。

【００６１】並列プロセッサは、１つまたは複数の基本
素子集合１２を使って所望のノード内構成、ノード間相
互結合網を形成する。図６で示したノード間相互結合網
は、詳細は後述するが、並列トリーソータを例に示した
ものである。

【００６２】近年の半導体技術の進展により、１００万
個以上のトランジスタをワンチップに集積することは既
に可能である。西暦２０００年には、５０００万個から
１億個に達すると予想される。そのため、多数のノード
をワンチップ上に集積することは、今後ますます容易に
なる。

【００６３】また、金属配線層数も、１９９２年現在、
２ないし３層であるが、増加していくのは疑いない。そ
こで例えば、２層配線技術で設計されたマイクロプロセ
ッサとメモリをノードとし、ノード間接続配線を第３
層、第４層で行えば、ノード間接続配線はノード上をも
障害無しに自由に通過でき、また、ノード内の設計変更
も最小限で済むので、大きなメリットとなる。

【００６４】このように、多数の基本素子集合１２が並
列配置されただけの状態のＬＳＩ１１を製造しておき、
配線工程において多層配線技術を用いてノード内部及び
ノード間配線を、所望の結合網に応じてなすことによ
り、一つのＬＳＩ１１で様々な問題を解くことができる
並列プロセッサを提供することができる。以下に、その
具体例を示す。

【００６５】第１の具体例として、半導体デバイスシミ
ュレーションで現れる連立一次方程式とその並列解法を
図７に示す。図（Ａ）は４×４のメッシュを示し、
（Ｂ）は行列の形を表している。また、（Ｃ）は求解順
序を示しており、Ｘｉ→ＸｊはＸｊを解くためにＸｉが
求まっている必要があることを示す。（Ｃ）において、
縦方向に並んでいる変数は、並列に求めることができ
る。解法にはＩＬＵＣＧＳ法を使っている。

【００６６】初めに、２次元デバイスシミュレーション
の並列解法例を図８に示す。この図は、プロセッサへの
データ割り当てとプロセッサ間通信を表している。プロ
セッサの接続は１次元アレイ状に接続されており、ノー
ド間通信は左から右へ１次元状に発生する。従って、並
列プロセッサＬＳＩ１１は、図９に示すように鎖状のノ
ード間接続を持たせればよい。

【００６７】次に、３次元デバイスシミュレーションの
並列解法を図１０に示す。図（Ａ）のように、ノード間
通信は、左上のノードＮ１１から右方向，右下方向に波
紋が広がるように起こる。従って、並列プロセッサＬＳ
Ｉは、図１１に示すように、２次元格子状のノード間接
続を持たせればよい。

【００６８】図１０（Ｂ）は、ＮＭＯＳトランジスタの
断面を３次元デバイスシミュレーションした際の、使用
計算機による実行時間の比較である。現在実用化されて
いるＣＲＡＹＹ−ＭＰの実行時間４５０秒に対し、５
５０ＰＥ（基本素子集合１２）のＳＩＭＤ機のそれは４
９秒と、かなり高速になると予測される。

【００６９】また、デバイスシミュレーションは、計算
時間の短い２次元解析と、計算時間はかかるが精密な３
次元解析を、解析目的によって使い分けるため、実行時
に構造が切り替えられると大きなメリットとなる。

【００７０】そこで、図１２に示すように、ノード接続
配線の一部に、フィールドプログラマブルな切り替え部
１８を設け、外部信号１０１により、図９あるいは１１
のいずれかに切り替える。プログラマブルではあるが、
従来の比べて、配線は短く、切り替え部１８もはるかに
簡単であるので、速度低下などの問題は極めて少ない。

【００７１】次に、第２の具体例を説明する。データの
ソート処理（並べ変えのこと、以下ソートという）は、
データベース処理に代表される事務処理はもとより、あ
らゆるデータ処理でよく現れる処理である。従来、ソー
トはソフトウェアで行なわれてきた。

【００７２】近年、ソート処理用ハードウェアの研究開
発が進み、一部、実用化されている。その理由は、デー
タ量の増大とソート時間短縮化の要求が強くなり、一方
では、ＶＬＳＩに代表されるハードウェアの小型化、ロ
ーコスト化が進んだからである。ソートを行うハードウ
ェアは、ハードウェアソータ、ソートエンジンなどと呼
ばれ、そのアルゴリズムは、ハードウェアソートアルゴ
リズムと呼ばれる。

【００７３】文献（『データベース処理や文書処理を高
速化するサーチ／ソートハードウェアの動向』，田中
譲，日経エレクトロニクス１９８３年８月１日号）を参
考に、並列トリーソータとパイプラインマージソータの
２種類のハードウェアソータを以下に簡単に説明する。

【００７４】並列トリーソータは、ノードＮ１〜Ｎ１５
を２進木状に接続した構成を持つ（図１３）。

【００７５】次にソート手順を簡単に説明する。

【００７６】並列トリーソータのアルゴリズム（ステップ１）初めにソート対象データ１〜２４を分
割し、最下位ノード（Ｎ１〜Ｎ８）のローカルメモリ１
９に格納する。

【００７７】（ステップ２）最下位ノードＮ１〜８
は、ローカルメモリ１９内のデータ１〜２４を昇順にソ
ートする。ソート結果を順序列と言う。順序列の先頭
は、一番小さいデータである（以上、図１３）。

【００７８】（ステップ３）各最下位ノードＮ１〜８
は、順序列の先頭データ（つまり、もっとも小さいデー
タ）を上位ノードＮ９〜１２に出力する（図１４）。

【００７９】（ステップ４）上位ノードＮ９〜１２
は、最下位ノードＮ１〜８から送られてきた２つのデー
タを比較する。上位ノードＮ９〜１２は、小さい方のデ
ータを取り込み、最下位ノードＮ１〜８は、そのデータ
を自分の順序列から削除する。上位ノードＮ９〜１２
は、大きい方のデータを取り込まず、最下位ノードＮ１
〜８はそれを保持し続ける（図１５）。

【００８０】（ステップ５）両方の順序列が空なら
ば、終了。空でなければ、ステップ３へ戻る。

【００８１】このような動作を、全てのノードＮ１〜１
５について繰り返すことにより、最上位ノードＮ１５か
らデータを小さい順に出力することができる（図１６〜
１８）。

【００８２】このソータでは、最上位ノードＮ１５から
昇順にソートされたデータが、ステップごとに出力され
る。ハードウェア的には、最下位を除く全てのノードＮ
９〜１５は、最低１つのデータを保持できればよい。最
下位ノードＮ１〜８は、ソートされるデータ数が最下位
ノード数よりも多い場合、データ数個分以上のメモリ容
量が必要である。

【００８３】逆に、ソートされるデータ数が最下位ノー
ド数よりも少ない場合、最下位の各ノードは、ソートデ
ータ１個分のメモリ容量となる。ソートは並列に開始さ
れるので、ソートが開始される以前に、ソートされるデ
ータが全て揃う必要がある。

【００８４】ノード間結合は２進木であり、図１９のよ
うに２次元配置すればよい。図１９で、最下位ノードＮ
１〜８は、最大ソートデータ数に応じたメモリを持ち、
ステップ２でソートを行うため、上位ノードＮ９〜１５
に比べ高い処理能力も必要である。

【００８５】このため、図１９から分かるように最下位
ノードＮ１〜８を大きくしている。すなわち、最下位ノ
ードＮ１〜８には、基本素子集合１２をより多く使い、
データパス１３や制御部１４の並列使用等により処理能
力を高めている。さらに、基本素子集合１２中のメモリ
１５を複数個使い、メモリ容量を増加させている。多数
の基本素子集合１２を埋め込んだ半導体基板を使うこと
で、このようなことも比較的容易にできる。より詳しい
図面は、図６で示した。

【００８６】次に、第３の具体例として、パイプライン
マージソータへの適用例を説明する。図２０に示すよう
に、まず、入力された文字ａｂｃｆｈｇｅｄを交互に２
系列に分け、それぞれａｂ，ｃｆ，ｈｇ，ｅｄとする。
各対をマージし、長さ２の順序列４個（ａｂ）（ｃｆ）
（ｇｈ）（ｄｅ）を得る。これらをさらに、２系列に分
け、各対をマージして長さ４の順序列２個（ａｂｃｆ）
（ｄｅｇｈ）を得る。長さ４の順序列についても同様に
行い、最終的に文字列（ａｂｃｄｅｆｇｈ）を出力す
る。

【００８７】このように、２つの順序列のマージを繰り
返し、順序よく並んだ部分列の長さを１，２，４，…と
倍々に長くしていく方法で実行する。

【００８８】この処理は、図２１に示す構成によってパ
イプライン処理することができる。各段のマージャｍ０
〜ｍ２は、前段のバッファＢ０Ｘ，Ｙ、Ｂ１Ｘ，Ｙ、Ｂ
２Ｘ，Ｙから送られてくる２つの部分列の先頭がそろい
次第、ソートを開始する。このパイプライン処理の詳細
な様子を図２２を参照しながら、簡単に説明する。

【００８９】時刻１で、入力列の先頭である‘ａ’が、
バッファＢＯＸに入力される。時刻２で‘ｂ’がＢ０Ｙ
に入力される。マージャｍ０は、マージ対象の２つのデ
ータが準備されたので、大小比較をする。‘ａ’＜
‘ｂ’であるので、‘ａ’が時刻３でｍ０から出力さ
れ、次段のバッファＢ１Ｘに入力される。

【００９０】‘ａ’が出力された後のＢ０Ｘには次のデ
ータ‘ｃ’が入力列から取り込まれる。従って、時刻３
で、Ｂ０Ｘには‘ｃ’、Ｂ０Ｙには‘ｂ’が入ってい
る。ここでマージャは、‘ｂ’がまだバッファＢ０Ｙに
残っていることを認識しているため、‘ｂ’と‘ｃ’を
マージすることはない。その状態を示すのが、同図中×
→である。

【００９１】時刻４で２番目のマージ対‘ｃ’と‘ｆ’
がＢ０Ｘ，Ｂ０Ｙ中にそろい、マージが開始される。Ｂ
１には、長さ２の列がストアされ、ｍ１はそれをソート
する。Ｂ２，ｍ２も同様の動作をする。

【００９２】この方法では、ソートがパイプライン的に
実行されるため、次の２つの特徴がある。第１に、ソー
トデータが全て揃うのを待つことなく、最初の２つが揃
い次第、処理が開始される。第２に、ソートデータが入
力され終わると、入力に近いバッファ、マージャ（Ｂ
０，ｍ０）から徐々に空いてくるため、その次のソート
データの入力を開始できる。

【００９３】このようなパイプラインマージソータを実
現するためのＬＳＩ１１上での配置例を図２３に示す。
ハードウェア的には、終段に近づくほどバッファの容量
を大きくする必要があるが、基本素子集合１２のメモリ
１５を複数個組み合わせることで、比較的容易に実現で
きる。

【００９４】

【発明の効果】以上のように、第１の発明の格子トーラ
ス結合型並列計算機では、セレクタはＰＥ間の隣接通信
バス上に設けるため、各ＰＥは全て均等なもので構わ
ず、特にＰＥ上に新たな機能を設ける必要はない。その
ため通信速度の保証さえすれば、容易に上記機能を追加
できる。

【００９５】さらに、低い次元のモードで実行している
場合、高次元のモードの際の隣接通信バスをバイパス経
路として活用することができる。

【００９６】また、第２の発明の並列プロセッサでは、
複数個の基本素子集合を並列配置し、ノード内部及びノ
ード間の配線を配線工程で所望の機能に応じてなしてい
るので、それぞれの応用に最適なノード間相互結合網を
持つ並列プロセッサＬＳＩを、短期間に経済的に高性能
に作れる。また、ノード毎の構成，処理能力も応用毎に
最適化できる。

【図面の簡単な説明】

【図１】第１の発明の一実施例であり、４×４のＰＥア
レイを１次元に変換した様子を示す配置図である。

【図２】図１の左上の部分を紹介に図示したものであ
る。

【図３】図１を１次元状に展開した展開図である。

【図４】第１の発明の一実施例であり、４×４×４の３
次元構造を４×１６の２次元構造に変換した様子を示す
構造図である。

【図５】第１の発明の一実施例であり、４×４×４の３
次元構造を８×８の２次元構造に変換した様子を示す構
造図である。

【図６】第２の発明による並列プロセッサの平面図であ
る。

【図７】半導体デバイスシミュレーションに現れる行列
と並列解法を示す図である。

【図８】２次元デバイスシミュレーションの並列解法を
説明するためのノード接続図である。

【図９】２次元デバイスシミュレーションを実現するた
めのノード間接続図である。

【図１０】３次元デバイスシミュレーションの並列解法
を説明するためのノード接続図である。

【図１１】３次元デバイスシミュレーションを実現する
ためのノード間接続図である。

【図１２】並列デバイスシミュレーションを実現するた
めのノード間接続図である。

【図１３】並列トリーソータの動作例を示す説明図であ
る。

【図１４】図１３に続く並列トリーソータの動作例を示
す説明図である。

【図１５】図１４に続く並列トリーソータの動作例を示
す説明図である。

【図１６】図１５に続く並列トリーソータの動作例を示
す説明図である。

【図１７】図１６に続く並列トリーソータの動作例を示
す説明図である。

【図１８】図１７に続く並列トリーソータの動作例を示
す説明図である。

【図１９】並列トリーソータを実現するための並列プロ
セッサのフロアプラン概要である。

【図２０】パイプラインマージソータの動作を表す説明
図である。

【図２１】パイプラインマージソータの構成図である。

【図２２】パイプラインマージソータの動作を説明する
ためのデータフロー図である。

【図２３】パイプラインマージソータを実現するための
並列プロセッサのフロアプラン例である。

【図２４】４×４の２次元アレイに１次元の問題をマッ
ピングした従来例である。

【図２５】従来の並列プロセッサによるハイパーキュー
ブＬＳＩの平面図である。

【図２６】従来の並列プロセッサによるハイパーキュー
ブ結合の概念図である。

【図２７】従来の並列プロセッサによる２進木のハイパ
ーキューブへのマッピング図である。

【図２８】従来の並列プロセッサによる２次元格子のハ
イパーキューブへのマッピング図である。

【符号の説明】

１〜３通信バス４２入出力セレクタ１１プロセッサアレイＬＳＩ１２基本素子集合１３データパス１４制御部１５メモリ１６通信ポート１７その他１８切り替え部１９ローカルメモリＮ１〜Ｎ１５〜Ｎｎノード

Claims

【特許請求の範囲】

【請求項１】Ｎ次元の格子状に配置された複数の演算
要素と、これらの演算要素をＮ次元にトーラス結合させる複数本
の隣接通信バスと、この隣接通信バスと他の隣接通信バスとの接続を可能と
するパスと、隣接通信バス上のデータかあるいは前記パ
スを介する他の隣接通信バス上のデータを選択する選択
手段とを、隣接通信バスに設け、前記パスと選択手段とを利用して隣接通信バスと他の隣
接通信バスとを接続することにより、前記複数の演算要
素をＮ−１次元以下の次元にトーラス結合させることを
特徴とする格子トーラス結合型並列計算機。
【請求項２】前記複数の演算要素をＮ−１次元以下の
次元にトーラス結合させた際、余った１次元分の隣接通
信バスをバイパス経路に使用することを特徴とする請求
項１記載の格子トーラス結合型並列計算機。
【請求項３】命令実行制御手段、データ演算処理部、
メモリ、及びプロセッサ間通信手段を持つ基本素子集合
を複数個組み合わせてノードを構成し、さらにそのノー
ドを複数個使用して所望の機能を実現する並列プロセッ
サであって、前記基本素子集合が複数個半導体基板上に並列配置され
た構造を持ち、前記基本素子集合内部、基本素子集合間、またはノード
間それぞれの、少なくとも一部の接続を配線工程で所望
の機能に応じてなすとともに、ノード内部の接続に使われる配線層と、ノード間接続に
用いられる配線層とが少なくとも一層は異なるように
し、ノード間接続をノードの領域上の配線層で行うこと
を特徴とする並列プロセッサ。
【請求項４】命令実行制御手段、データ演算処理部、
メモリ、及びプロセッサ間通信手段を持つ基本素子集合
を複数個組み合わせてノードを構成し、さらにそのノー
ドを複数個使用して所望の機能を実現する並列プロセッ
サであって、前記基本素子集合が複数個半導体基板上に並列配置され
た構造を持ち、前記基本素子集合内部、基本素子集合間、またはノード
間それぞれの、少なくとも一部の接続を配線工程で所望
の機能に応じてなすとともに、ノード内部の接続に使われる配線層と、ノード間接続に
用いられる配線層とが異なるようにし、ノード間接続を
ノードの領域上の配線層で行うことを特徴とする並列プ
ロセッサ。
【請求項５】命令実行制御手段、データ演算処理部、
メモリ、及びプロセッサ間通信手段を持つ基本素子集合
を複数個組み合わせてノードを構成し、さらにそのノー
ドを複数個使用して所望の機能を実現する並列プロセッ
サであって、前記基本素子集合が複数個半導体基板上に並列配置され
た構造を持ち、前記プロセッサ間通信手段の少なくとも一部をフィール
ドプログラマブルにし、前記基本素子集合内部、基本素子集合間、またはノード
間それぞれの、少なくとも一部の接続をプログラマブル
に配線工程で所望の機能に応じてなすことを特徴とする
並列プロセッサ。
【請求項６】前記ノード内部の接続の少なくとも一部
を配線工程で形成し、所望の機能を持つ複数のアーキテ
クチャ、メモリ構成をもつノードが、一つの半導体基板
上に混在することを特徴とする請求項３、４、及び５記
載の並列プロセッサ。