JPH07191947A

JPH07191947A - 並列計算機

Info

Publication number: JPH07191947A
Application number: JP5333759A
Authority: JP
Inventors: Hiroyuki Takano; 裕之高野; Hisatomo Satou; 寿倫佐藤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-12-27
Filing date: 1993-12-27
Publication date: 1995-07-28

Abstract

(57)【要約】【目的】複数の要素プロセッサを含むチップがトーラ
ス状に結合された並列計算機において、チップ内要素プ
ロセッサ集積数を、並列計算機の直径に強く依存する問
題で発生する通信命令の数・速度に対し、活かすことを
目的とする。【構成】各要素プロセッサが、隣接要素プロセッサと
の通常の結合方法以外に、各チップ内でｎ（＝１，２，
…）個先の要素プロセッサとトーラス状に結合する方法
及び、チップ内の各列の内のどれかが、隣接するチップ
に接続された入出力ポートに結合する方法及び、これら
の選択を行う制御手段をチップ内に有する。【効果】本発明を適切なアルゴリズムを使用すること
により、チップ内要素プロセッサ集積数に応じ通信命令
数を減少せしむ。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は並列計算機に関する。

【０００２】

【従来の技術】図１１は従来のトーラス結合型並列計算
機を構成する、複数の要素プロセッサを含んだＬＳＩチ
ップの例である。

【０００３】各要素プロセッサの通信用入出力ポートは
チップ内の隣接する要素プロセッサの入出力ポートまた
は、隣接するチップ内の要素プロセッサに接続されてい
るチップ用入出力ポートへ接続されている。

【０００４】各要素プロセッサは、通信令名の実行にと
もなって、各要素プロセッサに属する通信命令で指定さ
れたレジスタの内容を、入出力ポートを通して入出力す
る。

【０００５】このように従来の並列計算機の構成例で
は、隣接要素プロセッサ間の通信時間に関して、チップ
用入出力ポートを経由した場合のほうが、経由してない
場合すなわちチップ内に送受信用の信号線が存在する場
合に比べ大幅に大きく、結果、送受信をプログラム中で
命令として実行した場合、そのレイテンシは、チップ用
入出力ポートを経由した場合のレイテンシで決定されて
しまう。

【０００６】よって、チップ内部に複数の要素プロセッ
サを集積しているにも関わらず、それによって生まれ
た、チップ内の信号線を通してデータをやりとりしてい
る場合の高速な通信速度を無駄にしている結果を生じて
いる。その結果、通信命令時間に大きく依存する問題の
内の典型である並列計算機の直径が直接効いてくる類の
問題に対し、上記高速な通信速度を用いればチップ内要
素プロセッサ集積数に応じた時間で問題を処理できるの
に、用いていないために無駄な時間を消費という問題が
生じている。

【０００７】また、第２の発明に関連した、通信ネッ
トワークを介して相互結合された複数のプロセサからな
る従来の並列計算機では、各プロセサは通信ネットワー
クを介して相互に通信を行う。通信ネットワークはこれ
らのプロセサを相互に結合するが、プロセサの数は非常
に多いので、任意のプロセサから他の全てのプロセサに
結合するための通信経路を備えるのは、物理的にも経済
的にも現実的ではない。そこで、相互に隣接するプロセ
サ間の通信チャネルだけを供えさせ、隣接せずに直接に
結合されていないプロセサ間では、一つ以上の中継プロ
セサを介して通信を行う方法がある。

【０００８】このようなプロセサ間通信方式として、ワ
ームホール・ルーティングという方法がある。ワームホ
ール・ルーティングでは、メッセージをフリットと呼ば
れる最小通信単位、例えば数バイトのデータに分割し、
このフリットのみが中継プロセサのバッファに蓄えられ
る。メッセージのヘッダが入力チャンネルから出力チャ
ネルへ中継ルートを作りながら、メッセージが送り出さ
れていく。あるプロセサがメッセージの先頭フリットを
受信すると、そのフリットに示されている宛先にしたが
って中継ルートとなるチャネルを選択する。後続のフリ
ットは先頭フリットが選択したルートと同じチャネルに
通信されていく。メッセージは送信側プロセサと受信側
プロセサとの間の中継ルートを占有する。メッセージの
最後のフリットが送信側プロセサから出力される前に、
先頭フリットがほかのメッセージによってブロックされ
ると、後続する全てのフリットの通信は停止し、そのメ
ッセージが占有しているチャネルを必要とする他のメッ
セージもブロックされることになる。このように、ワー
ムホール・ルーティングでは、一つのメッセージが通信
されている間、そのメッセージが使用しているチャネル
を占有するので、デッドロックの発生とスループットが
低いという問題か発生している。

【０００９】図２０を用いてデッドロックを説明する。
図２０は１次元トーラス構造の単方向ネットワークであ
り、プロセサ３２００〜３２０３が通信チャネル４３０
０〜４３０３で接続されている。このネットワークにお
いて、全てのプロセサが同時に２つ先のプロセサにメッ
シセージを送信する場合を考える。まず第１サイクルで
は、プロセサ３２０３からのメッセージの先頭フリット
はチャネル４３０３，プロセサ３２０２からのメッセー
ジの先頭フリットはチャネル４３０２，プロセサ３２０
１からのメッセージの先頭フリットはチャネル４３０
１，プロセサ３２００からのメッセージの先頭フリット
はチャネル４３００を用いて通信される。第２サイクル
では、各プロセサでメッセージの第２フリットを同じチ
ャネルを用いて通信しようとする。しかし、ここで、例
えばプロセサ３２０３からのメッセージの先頭フリット
は、すでにチャネル４３０２がプロセサ３２０２からの
メッセージの先頭フリットの通信に用いられているた
め、ブロックされてしまう。同様に、プロセサ３２０２
からの先頭フリットも、チャネル４３０１を使用できず
にブロックされる。プロセサ３２０１，プロセサ３２０
０からのメッセージの先頭フリットも同様にブロックさ
れ、どのメッセージも送信できない、デッドロックな状
態に陥る。

【００１０】つづいて、スループットの低下を説明す
る。あるメッセージの先頭フリットがほかのメッセージ
によってブロックされると、後続する全てのフリットの
通信は停止され、そのメッセージによって占有されてい
るチャネルを必要とする他のメッセージもブロックされ
ることになる。したがってスループットが低下するわけ
である。

【００１１】デッドロック発生の問題を解決するために
は、W.J.Dally 他の“Deadlock-Free Message Routing
in Multiprocessor Interconnection Networks”（IEEE
Trans. Comput., vol.C 6, No.5, May 1987）に開示さ
れているように、物理チャネルを論理的に２重化してル
ーティングを行えばよい。以下では、２重化したチャネ
ルをａ／ｂで区別することにする。宛先が現在先頭フリ
ットが存在するプロセサの番地よりも大きな時はａを選
択し、小さいときはｂを選択するようにルーティングす
ると、デッドロックフリーとなる。図２１を用いて、前
述したデッドロックが回避される様子を説明する。図２
１はやはり１次元トーラス構造をしたネットワークであ
り、プロセサ３３００〜３３０３が通信チャネル４４０
０ａ／ｂ〜４４０３ａ／ｂで接続されている。１３２０
ａ／ｂ〜１３２３ａ／ｂはフリットを蓄えるバッファで
ある。２２００〜２２０３は演算処理部である。各プロ
セサからのメッセージは、のように通信できる。このようにチャネルを２重化する
ことにより、デッドロックを回避できる。

【００１２】この方法をＮ次元トーラス・ネットワーク
に用いる場合は、以下のようなルーティング方法が採ら
れる。

【００１３】［１］第１の次元の宛先に到達するま
で、第１の次元のルーティングを行う。第１の次元の宛
先に到達した場合は、［２］へ進む。

【００１４】［２］第１の次元の宛先に到達するま
で、第２の次元のルーティングを行う。第２の次元の宛
先に到達した場合は、［３］へ進む。

【００１５】という操作を繰り返し、［Ｎ］第Ｎの次元の宛先に到達するまで、第Ｎの次元
のルーティングを行う。第Ｎの次元の宛先に到達した場
合は、演算処理部に転送する。

【００１６】すなわちこの方法では、通信経路が固定さ
れるという問題点がある。例えば図２２に示す２次元ト
ーラス・ネットワークの場合、プロセサ３４００からプ
ロセサ３４０１への通信経路は、図２２に示す１つのみ
しか選択できない。

【００１７】このような多次元ネットワークでのスルー
プットを向上するためには、通信路の選択の自由度を増
すことが考えられる。たとえばｉ，ｊを１以上Ｎ以下の
任意の整数として、第ｉの次元のチャネルはブロックさ
れているが第ｊの次元のチャネルがブロックされていな
ければ、第ｊの次元に出力するようなルーティングを考
えることができる。すなわち、複数の次元のルーティン
グを同時に行うことで、スループットの向上を図ること
ができる。

【００１８】しかし、上記の“Deadlock-Free Message
Routing in Multiprocessor Interconnection Network
s”に開示されている方法は上述したような固定的なル
ーティングを仮定しているため、このように通信経路の
選択の自由度を増すと、デッドロック・フリーは保証さ
れない。

【００１９】

【発明が解決しようとする課題】第１の発明は、複数の
要素プロセッサを含むチップがトーラス状に結合された
並列計算機において、従来の並列計算機が、複数の要素
プロセッサが１チップ内に含まれているという利点を活
用していないが為に、データ収集・総和・最大値・最小
値など並列計算機の直径に依存する問題で、直径オーダ
ーの、隣接するチップ間通信速度で律速された、隣接要
素プロセッサ間通信を発生させざるを得ず、チップ内要
素プロセッサ集積数に応じた能力が発揮できず、他のハ
イパーキューブ型計算機や木型計算機で同様の問題を計
算した場合の、要素プロセッサ数の対数スケールで計算
でき場合に比べ極めて実行速度が遅いという問題を解決
する。

【００２０】上記のように第２の発明の従来例では、通
信経路が固定され、通信チャネルを有効に利用できない
ため、スループットが低いという問題点があった。一
方、通信経路の選択の自由度を増すとデッドロックを発
生するという問題点があった。第２の発明は、上記の問
題を除去し、デッドロック・フリーを保証しつつ通信経
路の選択の自由度を増し、スループットを向上させるこ
とを目的とする。

【００２１】

【課題を解決するための手段】第１の発明は、複数の要
素プロセッサを含むＬＳＩチップをトーラス状に結合し
た並列計算機において、各要素プロセッサが、当該要素
プロセッサを含む当該チップが結合している任意の方向
に対して、その方向上で隣接する要素プロセッサが当該
チップ内に存在する場合には当該隣接要素プロセッサと
結合し、存在しない場合にはその方向上の隣接チップへ
接続されている当該チップ内の入出力ポートへ結合する
隣接結合手段と、その方向が表す次元上に存する当該チ
ップ内の要素プロセッサのうちのどれかが、そのどれか
を示すパラメータ１によりその方向及びその逆方向に存
する当該チップ内の入出力ポート結合するチップ外結合
手段と、その方向上に存する当該チップ内の要素プロセ
ッサのうちのｎ（ｎ＝１，２，…，Ｎ−１）個先の要素
プロセッサのどれかと、そのどれかを示すパラメータ
２、及びチップ内の各要素プロセッサの位置・チップ内
の各次元方向の要素プロセッサ数Ｎからトーラス状に結
合するチップ内トーラス状結合手段と、前記隣接結合手
段と前記チップ外結合手段と前記チップ内トーラス状結
合手段のどの結合手段をとるかを与える制御手段と、を
当該チップ内に有することにより、並列計算機の直径に
依存するの問題に対し、本発明の有効に活かす適切なア
ルゴリズムを用いることで、問題を解く際に必要な通信
命令数をチップ内要素プロセッサ集積数に応じて減少せ
しめることができ、且つ、チップ間入出力ポート数を従
来に比して増やさず、また隣接プロセッサ間通信時間の
増加を無視できる程度に押し止められるので、結果、チ
ップ内要素プロセッサ集積数に応じた速度向上を与える
ことができる。

【００２２】例えば、２次元のトーラス結合並列計算機
では本発明は第１図のような構成を有する複数のＬＳＩ
チップから構成される。

【００２３】第２の発明は、上記課題を解決するため
に、各次元でのプロセサ間の最大距離をＤn （１≦ｎ≦
Ｎ）とするとき、Ｎ次元トーラス・ネットワークで相互
接続される各要素プロセサに、各次元方向の各チャネル
に対して（ΣＤn ＋Ｎ）個、プロセサ全体では（Ｎ×
（ΣＤn ＋Ｎ）＋１）個のバッファを用意する。

【００２４】

【作用】上記のような並列計算機の直径に依存する問題
があった場合、チップ外とのデータのやりとりをチップ
の各方向について各チップに所属する入出力ポート数に
見合った数以下の要素プロセッサのみのやりとりで代表
させるような、適切なアルゴリズムを、第１の発明上で
用いれば、チップ外とのデータのやりとりが発生した場
合には前記チップ外結合手段を用いることによって、チ
ップ外とのデータのやりとりで発生する通信命令数を、
チップ内要素プロセッサ集積数の逆数倍だけに減少せし
めることができ、しかも、新たに必要とされる前記チッ
プ外結合手段などの結合手段及び前記制御手段によって
増加する通信時間の増分は、それらがチップ内に存する
ので、隣接要素プロセッサ間通信時間の大部分を占めて
いて且つ前記増分に比べ大幅に大きい隣接チップ間通信
時間に比べ無視できるものにできるで、通信命令数の減
少がそのままプログラムの実行速度の向上につながるこ
とになる。

【００２５】例えば、並列計算機の直径に依存する典型
的な問題として、データ収集・総和・最大値・最小値の
ような問題があった場合、通信命令数については、以下
のような適切なアルゴリズムを本発明上で用いれば効果
的に減少せしめることができる。

【００２６】まず、要素プロセッサ内で計算を終えた
後、チップ内に存する要素プロセッサ間でカスケード演
算を行う。即ち、チップ内の１つの次元に２ⁿ個数要素
プロセッサが存する場合、先ず各要素プロセッサはその
次元２⁰個離れた要素プロセッサとトーラス状に結合で
きるよう上記パラメータ群をセットしデータ授受、次に
その次元で２¹個離れた要素プロセッサとトーラス状に
結合できるよう上記パラメータ群をセットしデータ授
受、・・・、最後にその次元で２^n-1個離れた要素プロ
セッサとトーラス状に結合できるよう上記パラメータ群
をセットしデータ授受、というかたちで行う。その後他
の次元についても全く同様に行う。ある次元について２
^j（ｊ＝０，…，ｎ−１）個離れた要素プロセッサとト
ーラス状に結合しているとき他の次元についても同じｊ
の２^j個離れた要素プロセッサとトーラス状に結合して
いる形で当該チップが実現されている場合には、ｊ＝一
定のときに全ての次元についてデータを授受する処理を
ｊ＝０からｎ−１まで行う方法でもよい。

【００２７】次に、選ばれた要素プロセッサ群がチップ
内のどの次元方向とも平行にならないように、例えば対
角部分にある要素プロセッサを上記入出力ポートに結合
できるよう上記パラメータ群をセットし、隣接プロセッ
サ間通信によってデータを授受、演算を進める。

【００２８】上記パラメータ群により選ばれた要素プロ
セッサで問題の答えが得られた後、最後に、上記パラメ
ータ群により選ばれた要素プロセッサから、前記チップ
内カスケード演算方式を用いて、適当な一次元方向のみ
にデータを流す。

【００２９】上記アルゴリズムに必要な通信命令数は、
例えば２次元トーラス結合並列計算機の場合、全要素プ
ロセッサＮ×Ｎ、一チップ内に集積された要素プロセッ
サ数Ｍ×Ｍとすると、３ｌｏｇ₂Ｎ＋２（ｋ−１）−３ｌｏｇ₂ｋ（但し
ｋ＝Ｎ／Ｍ）であり、従来の２次元トーラス結合並列計算機で必要な
通信命令数、２（Ｎ−１）に比べ、一チップ内要素プロセッサ集積数が増加すれば
するほどハイパーキューブ型や木型の並列計算機で実行
した場合に得られる要素プロセッサ数の対数スケール、Ｏ（ｌｏｇ₂Ｎ）により近くなる。

【００３０】第２の発明においては，ルータの出力チャ
ネルＣＯに用意されるバッファに番号を付け、それをレ
ーンＬＯ＝ＬＯ（ＣＯ）と呼ぶことにする。

【００３１】ルーティングの際には、チャネルの混雑度
を考慮して、出力チャネルＣＯを選択する。

【００３２】入力チャネルＣＩ，入力レーンをＬＩ＝Ｌ
Ｉ（ＣＩ）とするとき出力レーンＬＯを以下の規則にし
たがって決定する。

【００３３】［１］ＣＩ≠ＣＯの場合は、出力レーン
ＬＯ＝ＬＩ＋１とする。そうでなければ、ＬＯ＝ＬＩと
する。

【００３４】［２］ＭをＭ≦ＡＤn （１≦ｎ≦Ｎ）で
ある任意の定数として、出力チャネルＣＯの次元のプロ
セサ番号ＡＤＤ（ＣＯ）＝Ｍの場合には、出力レーンＬ
Ｏをさらに＋１だけ増す。

【００３５】上記の規則で決定されるレーンを選択して
ルーティングを行うと、通信経路に閉路が存在しないの
で、デッドロック・フリーを保証しつつ、通信経路の選
択の自由度を増すことができる。

【００３６】

【実施例】以下の説明では、同一記号は同一部品を示
し、説明の重複は省略する。

【００３７】図２は、第１の発明を構成するＬＳＩチッ
プの構成の一実施例である。

【００３８】本実施例では、ＬＳＩチップ１００は４×
４の要素プロセッサ２００、東西方向４・南北方向４の
結合方法スイッチ回路３００、及びチップ外とのデータ
のやりとりに用いる各方向４の３２ｂｉｔ幅のチップ用
入出力ポート４００からなり、このうち要素プロセッサ
２００は図３のように、要素プロセッサ外とのデータの
やりとりに用いる各方向１の３２ｂｉｔ幅の要素プロセ
ッサ用入出力ポート２１０、及び東西・南北方向用結合
方法スイッチ回路３００への結合モード信号を与える制
御信号用ポート２２０からなる。

【００３９】要素プロセッサ２００は、モード信号出力
回路２０１を有する。

【００４０】モード信号出力回路２０１は、図４のよう
に、要素プロセッサ２００上で命令‘ｍｏｄｅ’が実行
された場合、そのｍｏｄｅ命令のビットパターンから第
１引き数の２進表現のＬＳＢを抽出しこれを３ビットの
モード信号レジスタ２０２のＭＳＢへ格納するととも
に、第２引き数の２進表現のＬＳＢから２ビット分を抽
出しこれを前記モード信号レジスタ２０２のＬＳＢから
２ビット分に格納する機能を有する。モード信号レジス
タ２０２に格納されている３ビットは東西・南北両方向
用の制御信号用ポート２２０へ出力されている。

【００４１】モード信号レジスタ２０２は、次にｍｏｄ
ｅ命令がプログラム中で実行されるまで現在格納してい
るデータを保持する。また、モード信号レジスタ２０２
はプログラム起動時に各ビット０に初期化されるものと
する。

【００４２】ｍｏｄｅ命令は、図５に示す、第１引き数
・第２引き数の組み合わせの意味に基づいて使用され
る。また、ｍｏｄｅ命令の引き数がレジスタ番号だった
場合には、そのレジスタに格納されている値が、引き数
として渡されるものとする。

【００４３】本実施例では、本特許の請求項で述べられ
ている各要素路プロセッサの「制御手段」は、上記モー
ド信号出力回路２０１と後に詳細に述べる結合方法スイ
ッチ３００の一部であるテーブル作成回路３１０によっ
て実現されている。また、本特許の請求項で述べられて
いる各要素プロセッサの「隣接結合手段」・「チップ外
結合手段」・「チップ内トーラス状結合手段」は、後に
詳細に述べる結合方法スイッチ回路３００の一部である
接続変更回路３２０によって実現されている。

【００４４】東西用の結合スイッチ回路３００ＥＷは、
図６のように、テーブル作成回路３１０と接続変更回路
３２０とからなる。

【００４５】テーブル作成回路３１０は、例えば図６の
ような東西用の結合スイッチいろ用では、チップ内の各
次元奉公の要素プロセッサ数４と各要素プロセッサの回
路上の入出力位置から決定され予め実装されている図７
で表されるテーブルを、その結合スイッチ回路に接続さ
れている最小番号位置の要素プロセッサから出力される
前記モード信号レジスタからの３ビットデータにより参
照して、各要素プロセッサ用入出力ポート２１０間及び
要素プロセッサ用入出力ポート２１０−チチップ用入出
力ポート４００間の接続関係が上記テーブルに従うよ
う、接続変更回路３２０の状態を変更する制御信号を出
力する。

【００４６】接続変更回路３２０は、例えばクロスバス
イッチにより実現され、テーブル作成回路３１０から出
力された制御信号に基づいて、各要素プロセッサ用入出
力ポート２１０間及び要素プロセッサ用入出力ポート２
１０−チップ用入出力ポート４００間の接続を変更す
る。

【００４７】図６の東西を南北に、そして、４ｊ，４ｊ
＋１，４ｊ＋２，４ｊ＋３をｊ，ｊ＋４，ｊ＋８，ｊ＋
１２に置き換えれば、南北用の結合スイッチ回路３００
ＳＮが実現される。

【００４８】以上の構成でｍｏｄｅ命令を必要に応じて
使用することにより、チップ内の要素プロセッサの結合
方法を変更することが可能となる。結果、並列計算機の
直径に依存する問題に対して、これに対応するマクロ
を、ｍｏｄｅ命令を「作用」の項で述べた意味において
適切に使用して作成しておくことにより、効率化が可能
となる。

【００４９】「作用」の項で述べた例、例えば、「総
和」の場合を本実施例に当てはめてみると各要素プロセ
ッサ２００内で実行されるプログラムのアルゴリズムは
図８のようになる。

【００５０】ここでは、各要素プロセッサ２００にそれ
ぞれＡ個の数値データが割り当てられていて、図２と同
様にしてＭ×Ｍの要素プロセッサ構成を持つＬＳＩチッ
プ１００がｋ×ｋだけトーラス状に接続されている場合
に、計Ｎ²Ａ個の全数値データの総和を全要素プロセッ
サ２００には要素プロセッサ番号が０〜Ｍ²の番号で割
り当てられているものとする。

【００５１】プログラム起動時において、モード信号レ
ジスタ２０２の全ビットは０となり、‘ｍｏｄｅ０，
０’が実行された状態となる。

【００５２】総和を求める部分では、「作用」の項で述
べたとおり、先ず各要素プロセッサ毎にＡ個の数値デー
タの和Ｓ（Ａ，Ｎ²）を求める。（「各要素プロセッサ
内データの総和」のステージ）記号Ｓ（Ａ，Ｎ²）の括弧内の第１引き数は既に和が取
られた数値データの個数、第２の引き数はその値Ｓが求
められ終えた要素プロセッサ２００の個数である。

【００５３】次に、各チップ内のデータの総和をカスケ
ード演算の手法を用いて求める。（「各チップ内全デー
タの総和」のステージ）カスケード演算は、先ず２⁰個東にトーラス状に数値デ
ータを送れるような結合手段を、‘ｍｏｄｅ０，
２⁰’により実行して、Ｓ（Ａ，Ｎ²）が格納されれて
いる。レジスタ１を当該要素プロセッサの東入出力ポー
ト４００Ｅへ出力し、西入出力ポート４００Ｗから入力
した数値データをレジスタ２へ格納し、そのレジスタ２
に格納されている数値データをレジスタ１に格納されて
いる数値データに加え、南北方向も同様に行う。その後
も２^j（ｊ＝０，１，…）の値がチップ内要素プロセッ
サ数より小さい限り、『‘ｍｏｄｅ１，２^j’の実行
→東西データの授受→南北データの授受』という処理を
順次繰り返せば、最終的にチップ内全要素プロセッサに
割り当てられた数値データの総和Ｓ（Ｍ²Ａ，Ｎ²）が
得られる。

【００５４】より具体的に図２のようなＭ＝４の場合の
チップの場合について、実行される命令列を書き下した
例が第９図である。

【００５５】次に、チップ１００内の対角線上にある要
素プロセッサのみ各チップ用入出力ポート４００と接続
して、当該チップ外にあるチップ上の数値データをカス
ケード演算方式により取り込んで全要素プロセッサのＮ
²Ａ個の数値データの総和を算出する。（各チップ対角
線上の要素プロセッサのみ全データの総和算出」のステ
ージ）先ず、東西方向に関し、対角線上の要素プロセッサのみ
チップ用入出力ポート４００に接続された状態を実現す
るために、１を第１引き数に、（要素プロセッサ番号）／Ｍ（整数除算）の値を第２引き数にしたｍｏｄｅ命令を実行する。その
状態で各要素プロセッサ２００は先ず２⁰だけ東のチッ
プ上の要素プロセッサに現在までの総和デーを送り、西
から送られて来た数値データを現在までの総和データに
加算する。続いて順次２^jの値がｋを超えない限り、同
様の『データ授受→加算』の処理を繰り返せば、チップ
用入出力ポート４００と接続されている要素プロセッサ
に関してはと東西方向の総和が算出される。但し、各チ
ップ１００は隣接チップとのみ接続されているので、２
^jだけ東のチップ上の要素プロセッサに数値データを送
るためには、２^j回データ送信・受信の処理を繰り返す
必要がある。

【００５６】南北方向に関しては、ｍｏｄｅ命令につい
て上記で行った命令の代わりに第２引き数として、（要素プロセッサ番号）％Ｍ（剰余除算）の値を用いる他は、上記と同様に行えばよい。その結
果、チップ用入出力ポート４００に接続されている要素
プロセッサに関しては、全数値データの総和Ｓ（Ｎ
²Ａ，Ｋ²）が得られることになる。

【００５７】対角線上の要素プロセッサに関し東西方向
の総和を求める命令列を、図２の構成のチップ１００が
２×２だけ結合されている場合（Ｍ＝４、ｋ＝２）につ
いて書き下した例が図１０である。

【００５８】この値Ｓ（Ｎ²Ａ，Ｋ²）を、各チップ内
で、既に求められている要素プロセッサから、まだ求め
られていない要素プロセッサへ放送すれば、全要素プロ
セッサで求める総和Ｓ（Ｎ²Ａ，Ｎ²）が得られること
になる。（「対角線上の要素プロセッサから東西方向に
データ分配」のステージ）上記放送については、前記「各要素プロセッサ内のデー
タの総和」のステージで行ったステップを、例えば東西
方向のみに関し、逆に行うことで実現できる。

【００５９】第２の発明を用いた（Ｄ1 ＋１）×（Ｄ2
＋１）の２次元トーラス上で単方向のみの通信を行う並
列プロセサ装置の実施例を図面にしたがって説明する。
単方向のみの通信であるので、各次元でのプロセサ間の
最大距離は、それぞれＤ１、Ｄ２となる。

【００６０】図１２は本発明を用いたプロセサの実施例
のルータ部である。隣接するプロセサ及び演算処理部か
らの入力を受け付ける２×（Ｄ1 ＋Ｄ2 ＋２）＋１個の
出力先決定回路１１００₀〜１１００_(D1+D2+1)，１１
０１₀〜１１０１_(D1+D2+1)，１１０２，（２×（Ｄ1
＋Ｄ2 ）−１）入力（２×（Ｄ1 ＋Ｄ2 ）＋１）主力の
クロスバスイッチ１２００，フリットを蓄える２（Ｄ1
＋Ｄ2 ＋２）＋１個のバッファ１３００₀〜１３００
_(D1+D2+1)，１３０１₀〜１３０１_(D1+D2+1)，１３０
２，２個の（Ｄ1 ＋Ｄ2 ＋２）入力のマルチプレクサ１
４００，１４０１，演算処理部へのインターフェイス１
５００，２つのプロセサ番号ＡＤＤ（１），ＡＤＤ
（２）を記憶するプロセサ番号レジスタ１６００から構
成される。ただし、プロセサ番号ＡＤＤ（１），ＡＤＤ
（２）は、各次元に対して０から順に各プロセサに固有
につけられたプロセサ番号である。チャネル４１００，
４１００，４１１０，４１１１で隣接するプロセサと、
チャネル４１０２，４１１２で演算処理部と接続され
る。

【００６１】図１２のルータ部１０００と演算処理部２
０００から図１３に示す実施例のプロセスが構成され
る。このプロセスを用いて、図３に示すような２次元ト
ーラス構造をした並列プロセサ装置が構築される。各プ
ロセサ３０００は、互いに通信チャネル４０００で接続
される。

【００６２】図１５で本実施例で通信されるメッセージ
のフォーマットの一例である。一つのメッセージは複数
のフリットに分割される。先頭のフリットは図１５
（ａ）のフォーマットをしており、図中ＤＥＳＴ1 ，Ｄ
ＥＳＴ2 で表される２つの次元の通信距離が書かれてい
る。続くフリットからメッセージの本体となる。そのフ
ォーマットは、図１５（ｂ）および（ｃ）に示す通りで
ある。フリットは図中ＤＡＴＡで表されるメッセージの
格納されている部分と、ＥＮＤ＿ＢＩＴで表されるメッ
セージの継続および終了を表す終了ビットからなる。メ
ッセージが継続する場合は図１５（ｂ）のフォーマット
のようにＥＮＤ＿ＢＩＴは０であり、メッセージが終了
する場合は図１５（ｃ）のフォーマットの用にＥＮＤ＿
ＢＩＴは１となる。

【００６３】図１６は出力先決定回路１１００の構成例
である。内部状態保存部１１１０，宛先比較部１１２
０，出力先決定部１１３０とデクリメンタ１１４０とで
構成される。

【００６４】宛先比較部１１２０は、フリットのＤＥＳ
Ｔ1 ，ＤＥＳＴ2 に相当するフィールドを調べ、出力先
チャネルＣＯおよび出力先レーンＬＯを決定する。出力
先チャネルＣＯおよび出力先レーンＬＯは図１７のよう
に決定される。ＤＥＳＴ1 ＝０かつＤＥＳＴ2 ＝０であ
れば、出力先チャネルＣＯは演算処理部である。出力先
レーンは一つなので特に操作は行わない。それ以外の場
合は、まず出力先チャネルＣＯを決定し、つづいて出力
先レーンＬＯを決定する。ＤＥＳＴ1 ＝０であれば出力
先チャネルＣＯ＝２であり、ＤＥＳＴ2 ＝０であれば出
力先チャネルＣＯ＝１である。どちらでもない場合、す
なわちＤＥＳＴ1 ≠０，ＤＥＳＴ2 ≠０の場合は、チャ
ネルの混雑度を考慮して、出力チャネルＣＯを選択す
る。チャネルの混雑度は、バッファの使用状況を表す信
号線ＢＵＦによる。バッファ１３００₀〜１３００
_(D1+D2+1)に蓄えられているフリットの数が、バッファ
１３０１₀〜１３０１_(D1+D2+1)に蓄えられているフリ
ットの数よりも少なければ、ＣＯ＝１とする。そうでな
い場合は、ＣＯ＝２である。

【００６５】出力先チャネルＣＯが決定されると、出力
先レーンＬＯを選択する。入力元チャネルＣＩ≠ＣＯの
場合は、ＬＯ＝ＬＩ＋１とする。そうでない場合は、Ｌ
Ｏ＝ＬＩとする。ただしＭを任意の定数として、出力チ
ャネルの次元のプロセサ番号ＡＤＤ（ＣＯ）＝Ｍの場合
は、出力先レーンＬＯをさらに＋１増す。こうして決定
された出力先チャネルＣＯと出力先レーンＬＯを、比較
決定信号ＣＯＭＰとして出力先決定部１１３０に出力す
る。

【００６６】内部状態保存部１１１０に記憶されている
現在の状態ＳＴＡＴＥで、先頭フリットか否かが判定さ
れる。先頭フリットの場合、出力先決定部１１３０は、
比較結果信号ＣＯＭＰを出力先制御信号ＳＥＬＥＣＴと
して出力し、これを内部状態保存部１１１０のＳＬＣＴ
に記憶する。先頭フリットでない場合、出力先決定部１
１３０は、内部状態保存部１１１０に記憶されているＳ
ＬＣＴを出力先制御信号ＳＥＬＥＣＴとして出力する。

【００６７】出力先決定部１１３０はまた、デクリメン
タ１１４０への制御信号ＲＥＭＯＶＥ，ＤＥＣ1 ，ＤＥ
Ｃ2 も発生する。ＲＥＭＯＶＥはメッセージから先頭の
フリットを取り除くための制御信号で、ＤＥＣ1 ，ＤＥ
Ｃ2 はそれぞれ第１の次元、第２の次元における宛先ま
での距離ＤＥＳＴ1 ，ＤＥＳＴ2 を１減ずるための信号
である。デクリメンタ１１４０は、これらの制御信号に
したがって、宛先が自プロセサの場合は先頭のフリット
を取り除き、そうでないときは先頭のフリットに書かれ
た出力先の宛先までの距離ＤＥＳＴ1 あるいはＤＥＳＴ
2 を１減ずる。先頭フリットでない場合は、何も操作は
行わないでフリットを通過させる。

【００６８】出力先決定部１１３０は、内部状態保存部
１１１０に記憶されている現在の状態ＳＴＡＴＥの状態
遷移の様子を表している。初期状態Ｓ０にいる時にフリ
ットを受け取った場合には、このフリットは先頭であ
る。宛先プロセサまでの距離ＤＥＳＴ1 ，ＤＥＳＴ2 が
ともに０のときには、デクリメンタ１１４０に制御信号
ＲＥＭＯＶＥを発生して状態Ｓ１に遷移する。それ以外
の場合には、出力先のチャネルに応じてデクリメンタ１
１４０に制御信号ＤＥＣ1 あるいはＤＥＣ2 を発生して
状態Ｓ１に遷移する。同時に、出力先制御信号ＳＥＬＥ
ＣＴが、内部状態保存部１１１０のＳＬＣＴに記憶され
る。状態Ｓ１では、ＥＮＤ＿ＢＩＴが０の間は状態Ｓ１
にとどまり、ＥＮＤ＿ＢＩＴが１になると初期状態Ｓ０
に戻る。

【００６９】本発明のチャネルおよびレーン決定方法に
よるルーティング方法で、各プロセサにおいて複数の次
元を出力先チャネルとして選べるのは明らかである。上
記のルーティング方法でデッドロックが発生しないこと
を説明する。

【００７０】上記の“Deadlock-Free Message Routing
in Multiprocessor Interconnection Networks”によれ
ば、ルーティング経路に閉路が形成されなければ、デッ
ドロックは発生しない。すなわち、任意のプロセサＰを
始点かつ終点とするルーティング経過が閉路を形成しな
ければ、デッドロックフリーである。本発明でデッドロ
ックフリーとなることを説明する。

【００７１】図１９に４×４トーラスすなわちＤ１＝Ｄ
２＝３の場合を示す。プロセサ３１００_{0 〜15}がチャネ
ル４３００_{0 〜15}，４３０１_{0 〜15}で２次元トーラス状
態に接続されている。プロセサ３１００_{0 〜15}は演算処
理部２２００_{0 〜15}とルータ部から構成される。ルータ
部は、バッファ１３１０_{0 〜15}，１３１１_{0 〜15}のみ示
す。図１９に示されているように、ルーティング経路に
は閉路は存在しない。したがってデッドロックフリーで
ある。

【００７２】実施例は２次元トーラスの場合であるが、
容易に多次元に拡張できることは明らかである。経路を
形成する次元の数をＲとする。

【００７３】Ｒ＝１のとき、第１の次元の全てのプロセ
サを通過しなければ、ルーティング経路の始点と終点は
同じプロセサＰとはなり得ない。したがって、ルーティ
ング経路には必ずＡＤＤ（１）＝Ｍとなるプロセサが存
在する。すなわちプロセサＰにおいてはＬＯ≠ＬＩとな
る。したがって閉路は形成させず、デッドロックフリー
である。

【００７４】Ｒ＝ｒのときデットロックフリーであると
する。Ｒ＝ｒ＋１のとき、Ｒ＝ｒのネットワーク上に形
成される任意の経路と、その終点から始点に至る第（ｒ
＋１）の次元上の経路によって、ルーティング経路の始
点と終点を同じプロセサＰとすることを考える。Ｒ＝ｒ
のネットワーク上に形成される経路から、第（ｒ＝１）
の次元に移る際にはレーンは少なくとも＋１増加する。
すなわちプロセサＰにおいてはＬＯ≠ＬＩとなる。した
がって閉路は形成されず、デッドロックフリーである。

【００７５】以上から本発明はデッドロックフリーであ
る。

【００７６】各次元の最大の距離は、それぞれＤn であ
るから、ルーティング方向を変更する回数は高々ΣＤn
−１である。したがってルーティングを開始するレーン
を合わせて、（ΣＤn −１）＋１＝ΣＤn のレーンがあ
ればよい。さらに、１次元のみでのルーティングで閉路
が発生するのを防ぐためには、各次元に対してレーンを
１つずつ用意すれば良い。あわせて、各チャネルに（Σ
Ｄn ＋Ｎ）レーンがあればデッドロックフリーとなる。
１つのレーンには１つのバッファが必要なので、各出力
チャネルに（ΣＤn ＋Ｎ）個のバッファを用意すれば良
い。全ての通信チャネルに（ΣＤn ＋Ｎ）個、演算処理
部へのチャネルに１個のバッファが必要であるので、プ
ロセサ全体では、（Ｎ×（ΣＤn ＋Ｎ）＋１）個のバッ
ファとなる。

【００７７】以上のように、（Ｎ×（ΣＤn ＋Ｎ）＋
１）個のバッファを用意すれば、デッドロックフリーを
保証しつつ、複数の次元でルーティングを行うことがで
きる。

【００７８】第２の発明は、実施例に示した以外のあら
ゆるチャネルの選択方法にも、適用可能である。

【００７９】また、実施例は単方向通信を行う装置を示
したが、両方向を行う装置に対しても本発明を適応でき
ることは明らかである。

【００８０】さらに、第２の発明は、ワームホール・ル
ーティングに限らず、ヴァーチャル・カット・スルー・
ルーティングにも適応可能である。

【００８１】

【発明の効果】第１の発明により、直径が直接効いてく
る類の問題に対し、本発明を有効に活かす適切なアルゴ
リズムを用いることで、問題を解く際に必要な通信命令
数をチップ内要素プロセッサ集積数に応じて減少せしめ
ることができ、かつ、チップ間入出力ポート数を従来に
比して殖やさず、また隣接プロセッサ間通信時間の増加
を無視できる程度に押し止められ、チップ内要素プロセ
ッサ集積数に応じた速度向上を与えることができる。

【００８２】第２の発明によれば、デッドロック・フリ
ーを保証しつつ通信経路の選択の自由度が増え、スルー
プットの向上とレイテンシの改善を図ることができる。

【図面の簡単な説明】

【図１】第１の発明を構成するＬＳＩチップの例の基本
的な構成を示す構成図。

【図２】第１の発明の一実施例の構成図。

【図３】第２図にある要素プロセッサ２００の構成を示
す説明図。

【図４】第３図の要素プロセッサ２００内にあるモード
信号出力信号回路２０１の説明図。

【図５】ｍｏｄｅ命令の引き数に割り当てられた意味の
説明図。

【図６】第２図にある結合スイッチ回路３００の構成を
示す説明図。

【図７】第６図にあるテーブル作成回路の機能を示す説
明図。

【図８】第１の発明を用いて実行するアルゴリズム例の
説明図。

【図９】第８図の「各チップ内データの総和」部分の命
令列を書き下した例を示す説明図。

【図１０】第８図の「各チップ対角線上の要素プロセッ
サのみ全データの総和算出」部分の東西方向に関する命
令列を書き下した例を示す説明図。

【図１１】従来の並列計算機を構成するＬＳＩチップの
構成例の構成図。

【図１２】第２の発明の実施例のルータを表す図。

【図１３】上記実施例のプロセサを表す図。

【図１４】二次元トーラス構造の装置を表す図。

【図１５】メッセージのフォーマットを表す図。

【図１６】実施例の出力先決定回路の内部構造を表す
図。

【図１７】実施例の比較決定信号の決定法を表す図。

【図１８】実施例の出力先決定回路の状態遷移を表す
図。

【図１９】実施例によるルーティング経路を表す図。

【図２０】従来例の並列プロセサを表す図。

【図２１】従来例によるルーティング経路を表す図。

【図２２】従来例によるルーティング経路を表す図。

【符号の説明】

００１ＬＳＩチップ００２−１隣接結合手段００２−２チップ外結合手段００２−３チップ内トーラス状結合手段００３制御手段１１０００ルータ部１３００_{0〜(D1+D2+1)}，１３０１_{0〜(D1+D2+1)}，１
３０２，１３１０，１３１１，１３２０ａ／ｂ〜１３２
３ａ／ｂバッファ１１１０内部状態保存部１１２０出力先選択部１１３０出力先決定部２０００，２１００，２２００〜２０３演算処理部３０００，３１００，３２００〜３２０３，３３００〜
３３０３，３４００，３４０１プロセサ４０００，４１００〜４２００，４１１０〜４１１２，
４２００，４２０１，４３００〜４３０３，４４００ａ
／ｂ〜４４０３ａ／ｂ通信チャンネル

Claims

【特許請求の範囲】

【請求項１】複数の要素プロセッサを含むＬＳＩチッ
プをトーラス状に結合した並列計算機において、各プロセッサが、当該要素プロセッサを含む当該チップが結合している任
意の方向に対して、その方向上で隣接する要素プロセッサが当該チップ内に
存在する場合には当該隣接要素プロセッサと結合し、存
在しない場合にはその方向上の隣接チップへ接続されて
いる当該チップ内の入出力ポートと結合する隣接結合手
段と、その方向が表す次元上に存する当該チップ内の要素プロ
セッサのうちのどれかが、そのどれかを示すパラメータ
１によりその方向及びその逆方向に存する当該チップ内
の入出力ポートと結合するチップ外結合手段と、前記隣接結合手段と前記チップ外結合手段のどの結合手
段をとるかを与える制御手段と、を当該チップ内に有す
ることを特徴とする並列計算機。
【請求項２】Ｎが２以上のＮ次元トーラス・ネットワ
ークでプロセサが相互接続される並列プロセサ装置であ
って、各次元でのプロセサ間の最大距離をそれぞれＤn
（≦ｎ≦Ｎ）とするとき、各プロセサは、演算処理部と、隣接するプロセサと接続される通信チャンネル及び制御
信号線と、隣接するプロセサからメッセージを受信する機構と、受信したメッセージの出力先を決定するルータ部と、メッセージを隣接するプロセサに出力する機構と、（Ｎ×（ΣＤn ＋Ｎ）＋１）個の出力先の決定したメッ
セージを一時的に蓄える機構とを持つことを特徴とする
並列計算機。