JPH0736842A

JPH0736842A - 並列計算機

Info

Publication number: JPH0736842A
Application number: JP5179271A
Authority: JP
Inventors: Yasutsugu Kawakura; 康嗣川倉; Noboru Tanabe; 昇田邊
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-07-20
Filing date: 1993-07-20
Publication date: 1995-02-07

Abstract

(57)【要約】【目的】相互結合した極めて多数のプロセッサ（Ｐ
Ｅ）を有する超並列計算機において、高速な大域通信手
段を提供すること。【構成】あるＰＥの持つ情報をある範囲のＰＥに転送
する並列計算機において、各ＰＥは、隣接ＰＥからの宛
先付情報を入力し宛先と自番号が同一なら取込みそれ以
外は宛先に応じ隣接ＰＥに与える判定部と、得た情報を
格納する記憶手段と、送信元の場合情報を作る情報作成
部と、送信元と自身の位置関係により情報作成部又は判
定部からの情報を転送する宛先を選択し又は得た情報を
他には転送しない決定をする転送経路情報作成部と、宛
先を情報に付し出力する転送制御部と、宛先付情報を宛
先に応じ他の隣接ＰＥに転送する送信部とを備え、転送
開始初期に情報を得たＰＥの転送経路情報作成部は情報
を得たＰＥを転送対象範囲に広く分布させるよう複数の
ＰＥを介して接続されるＰＥの宛先を複数選択する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、並列計算機に関し、特
に、Ｎ（Ｎは正の整数）次元メッシュ結合網あるいはＮ
次元トーラス結合網により接続され、全プロセッサある
いはある範囲のプロセッサにデータを転送する大域通信
を実行する並列計算機に関する。

【０００２】

【従来の技術】並列計算機において、全体あるいはある
範囲のプロセッサに同一データを送信する通信を放送と
呼ぶ。従来の並列計算機における放送方式としては、相
互結合網以外にグローバルバスなどの放送専用転送経路
を備えるものと、相互結合網を用いて隣接プロセッサ間
で転送を繰り返すものの２つが多用されている。

【０００３】まず、グローバルバスを備える方式を図１
３を用いて説明する。図１３は、１６個のプロセッサ
Ｐ'11 〜Ｐ'44 が２次元メッシュ状の相互結合網により
接続されている並列計算機を示す。この並列計算機は、
相互結合網の他に全プロセッサに接続されるグローバル
バス１００を備えている。プロセッサP'11から全プロセ
ッサに対する放送は、プロセッサP'11がグローバルバス
上に送出したメッセージをプロセッサP'11以外の１５個
のプロセッサがそれぞれ受信することによって実行され
る。

【０００４】次に、相互結合網を用いてプロセッサ間の
転送を繰り返すことにより放送を行う方式をＰ''11〜
Ｐ''44の１６個のプロセッサが２次元メッシュ状の相互
結合網により接続されている並列計算機を例にとり、図
１４を用いて説明する。この場合、各プロセッサは隣接
しているプロセッサのみと通信できるので、放送を行う
には相互結合網上に設定した転送経路に従って転送を繰
り返す。図中に示した矢印は、プロセッサＰ''１１から
全プロセッサに対して放送を行う場合の転送経路の一例
である。まず、プロセッサＰ''１１が隣接プロセッサで
あるプロセッサＰ''１２とプロセッサＰ''２１に送信す
ることで放送が開始される。メッセージを受け取ったプ
ロセッサＰ''１２は、転送経路に従って、プロセッサ
Ｐ''１３とプロセッサＰ''２２に同一データを送信す
る。プロセッサＰ''２１は、プロセッサＰ''３１に同一
データを送信する。以下、同様に転送を繰り返す。そし
て、送信元プロセッサＰ''１１から最も遠いプロセッサ
Ｐ''４４にデータが届けば放送が完了する。上記したも
の以外にも複数通りの転送経路が存在するが、プロセッ
サＰ''１１からプロセッサＰ''４４までメッセージが転
送されることが必要なので、最低６回の転送が必要とな
る。

【０００５】従来の並列計算機を構成するプロセッサ数
が少ない場合は前述の方式によって実用的な速度の放送
を行うことができるが、並列計算機のプロセッサ数は増
大する一方であり、数万から数百万もの多数のプロセッ
サを持ついわゆる超並列計算機に上記放送方式を適用す
ると、以下に示す問題点が発生する。

【０００６】グローバルバスを備える方式では、システ
ム全体の性能に見合った転送速度を持つグローバルバス
を実装することが困難になる。ハードウェアの物理的な
大きさが大きくなると配線遅延も増大するためである。
ハードウェアを小さくして解決しようとしても、ハード
ウェア規模を減らすために転送路幅を小さくすることが
必要となり、やはり十分な転送速度が得られない。超並
列計算機において、全プロセッサに接続されて、かつ、
実用となる転送速度のグローバルバスを備えることは困
難である。

【０００７】全プロセッサに接続するバスを構築するこ
とが困難でも、全プロセッサを相互結合網により接続す
ることは可能である。しかし、相互結合網を用いて隣接
プロセッサ間で通信を繰り返す方式では、放送に要する
時間の増大が問題となる。すなわち、放送に要する転送
回数は送信元プロセッサと送信元から最も遠くに位置す
るプロセッサとの距離で決まり、例えば、ｎプロセッサ
×ｎプロセッサ構成の２次元メッシュ相互結合網では２
（ｎ−１）回の転送が必要となる。放送に要する時間は
（転送回数）×（１回の転送時間）であるので、プロセ
ッサ数の増加に伴う転送回数の増大が放送全体に要する
時間を増大させるという問題がある。加えて、プロセッ
サはメッセージを受信すると一旦メモリに格納し、次に
別のプロセッサに転送するかを判定し必要に応じて送信
するという処理過程をとるために、転送に時間がかかる
ので、１回の転送に要する時間が長いことも放送時間増
大の原因となっている。このように、従来の並列計算機
を構成するプロセッサ数が少い場合は転送回数が少いの
で実用的な時間内に放送を完了することがでるが、プロ
セッサ数が極めて多いいわゆる超並列計算機では転送回
数が増大し実用的な時間で放送を完了することができな
くなる。

【０００８】一方、従来の並列計算機では上述した放送
の他に、各プロセッサが保持する値の総和や最大値を求
める場合のようにプロセッサ全体に分散して保持されて
いる値に対して大域演算を実行することがある。この場
合にも、上記放送と同様に実用的な実行速度が得られな
いという問題点があった。

【０００９】

【発明が解決しようとする課題】以上説明したように、
従来の並列計算機においてプロセッサ数が極めて多くな
ると、放送や大域演算などのように大域通信を行う際、
グローバルバスを備えたものでは配線遅延の増大によっ
て実用的な転送速度が得られず、相互結合網を用いて隣
接プロセッサ間で通信を繰り返すものでは転送回数の増
大によって実用的な時間で大域通信を完了することがで
きなくなるという問題点があった。

【００１０】本発明は、上記課題を解決するためになさ
れたものであり、相互結合した極めて多くのプロセッサ
により構成されているにもかかわらず、高速な大域通信
が可能な並列計算機を提供することを目的とする。

【００１１】

【課題を解決するための手段】大域通信は、送信元プロ
セッサを出発点とする転送経路に従って、プロセッサ間
転送を繰り返すことで実現される。転送を行うプロセッ
サは、メッセージを受信しないと転送を始めることがで
きない。大域通信を短時間で完了するには、メッセージ
を受信してさらに別のプロセッサに転送可能な状態のプ
ロセッサの数をいかに速く増やすかが重要となる。転送
動作を行うプロセッサが大域通信の範囲内の狭い部分に
固まって位置すると、その領域と転送先のプロセッサと
を接続する転送路数が不足するので十分な転送動作を行
えない。

【００１２】この点に着目し、本発明に係る並列計算機
では、メッセージを受け取って転送を行うプロセッサが
少い転送初期には、バイパス動作をして転送対象のプロ
セッサが近くに存在しても飛び越して遠くに位置するプ
ロセッサに転送する制御を行うことにより、大域通信を
行う範囲の中で広い範囲に転送を行うプロセッサを配置
し、広い範囲に行き渡った後にまだ転送していないプロ
セッサすべてにメッセージを転送するように構成すると
ともに、転送と取り込みの同時動作によりプロセッサが
メッセージを記憶するために要する時間を見かけ上隠す
ようにして、高速に放送を行うことができるように構成
したものである。

【００１３】すなわち、上記課題を解決するために、本
発明では、相互結合網により接続された複数のプロセッ
サを有し、１つのプロセッサが保持している情報をメッ
セージとして他のすべてのプロセッサまたは特定の範囲
の複数のプロセッサに転送する大域通信を実行する並列
計算機において、前記プロセッサの各々は、隣接するプ
ロセッサから転送される宛先プロセッサ番号の付加され
たメッセージを入力し、前記宛先プロセッサ番号と自身
のプロセッサ番号とが一致する場合は前記メッセージを
取り込み、一致しない場合は前記宛先プロセッサ番号に
応じた他の隣接するプロセッサにそのまま転送する宛先
判定部と、この宛先判定部によって取り込まれた前記メ
ッセージを格納する受信メッセージ記憶手段と、自身が
前記大域通信における前記メッセージの送信元となるプ
ロセッサである場合に前記メッセージを作成する送信メ
ッセージ作成部と、前記送信元となるプロセッサと自身
のプロセッサとの間の前記相互結合網における相対的位
置関係に基づいて、前記送信メッセージ作成部または前
記宛先判定部から入力した前記メッセージを転送すべき
１つまたは複数のプロセッサの宛先プロセッサ番号を選
択すること、または前記宛先判定部によって取り込まれ
た前記メッセージを他のプロセッサには転送しないこと
を決定することのいずれかを実行する転送経路情報作成
部と、この転送経路情報作成部から与えられた前記宛先
プロセッサ番号を前記メッセージに付加して出力するこ
と、または前記メッセ−ジを出力しないことを実行する
転送制御部と、この転送制御部から与えられた前記宛先
プロセッサ番号の付加された前記メッセージを、前記宛
先プロセッサ番号に応じた他の隣接するプロセッサに転
送する送信処理部とを具備してなり、前記大域通信の開
始初期においては、前記送信元となるプロセッサおよび
前記メッセージを取り込んだプロセッサの前記転送経路
情報作成部は、前記メッセージを取り込んだプロセッサ
を前記大域通信の対象範囲に渡って広範に分布させるよ
うに、複数のプロセッサを介して遠方に接続されるプロ
セッサの宛先プロセッサ番号を複数選択することを特徴
とする。

【００１４】

【作用】まず、送信元となるプロセッサが宛先プロセッ
サ番号を付したメッセージを送出することによって放送
が開始され、このメッセージは各プロセッサによって次
々と他のプロセッサに転送されていく。ここで、本発明
に係る並列計算機では、プロセッサにメッセージが到着
すると、宛先判定部において、宛先プロセッサ番号と自
身のプロセッサ番号とを比較して、プロセッサ内に取り
込むか、処理を全く行わずに隣接プロセッサに転送（バ
イパス）するかを判定する。バイパスすると判定した場
合は、直ちに相互結合網に送出する。プロセッサ内に取
り込むと判定したメッセージは、メッセージ記憶部に送
られて記憶されると同時に、転送制御部に送られる。転
送制御部は、転送経路情報作成部により作成された転送
経路情報に従って動作する。前記メッセージを転送する
場合には、宛先プロセッサ番号をメッセージ本体と共に
送信処理部に送り、送信処理部はメッセージとして形成
し相互結合網に送出する。

【００１５】その際、メッセージを受け取ったプロセッ
サは、物理的に近い距離にあるプロセッサに転送するだ
けではなく、他プロセッサ宛メッセージを通過させる機
能を利用して、物理的に近い距離に存在するプロセッサ
を飛び越して遠くの別のプロセッサに転送する制御も行
う。

【００１６】すなわち、メッセージを受け取って転送を
行うプロセッサが少い転送初期には、バイパス動作をし
て遠くに位置するプロセッサに転送する制御を行うこと
により、大域通信を行う範囲の中で広い範囲に転送を行
うプロセッサを配置し、広い範囲に行き渡った後にまだ
転送していないプロセッサすべてにメッセージを転送す
る。

【００１７】これによって、本発明に係る並列計算機で
は、最大転送回数が少く、転送路の重複使用がない転送
経路に従って転送を行うことにより、プロセッサ台数が
数万から数百万台になっても実用的な時間で大域通信を
行うことができる。

【００１８】

【実施例】図１に、本発明の第１の実施例に係る並列計
算機を構成する１つのプロセッサの概略構成を示す。こ
のプロセッサ２は、宛先判定部４、受信処理部６、転送
経路情報作成部８、受信メッセージ格納部１０、転送制
御部１２、送信制御部１４、送信メッセージ作成部１６
を用いて構成される。

【００１９】宛先判定部４は、メッセージをこのプロセ
ッサ２内に取り込むか、あるいは処理を全く行なわずに
通過させるかを判定する。受信処理部６は、エラー検出
・訂正などの受信処理を行う。

【００２０】転送経路情報作成部８は、プロセッサごと
に転送経路を決定する。メッセージ記憶部１０は、メッ
セージを格納する。転送制御部１２は、転送経路情報に
基づいて、受信メッセージを転送したり送信メッセージ
を送信メッセージ作成部から読み出して他プロセッサ宛
に送信する。

【００２１】送信処理部１４は、宛先情報やエラー制御
情報などを付加してメッセージを相互結合網に送出す
る。送信メッセージ作成部１６は、放送を開始する唯一
のプロセッサである放送元プロセッサとなる場合に最初
のメッセージを作成する。

【００２２】また、前記宛先判定部４の入力側は、複数
の転送路からなる入力転送路２０により相互結合網に接
続されている。前記宛先判定部４の出力側と前記送信処
理部１４の出力側は、複数の転送路からなる出力転送路
３０により相互結合網に接続されている。

【００２３】ここに、本実施例では複数のプロセッサ２
を接続する相互結合網の一例として、図２（ａ）に示す
ような２次元トーラス結合網を用いて説明する。２次元
トーラス結合網を適用する場合、図のようにｎ×ｎ個の
プロセッサ２を格子状に並べて上下左右の４方向のプロ
セッサと接続し、最左端と最右端のプロセッサおよび最
上端と最下端のプロセッサをそれぞれ接続してドーナツ
状の構成にする。各プロセッサは、ｘ方向とｙ方向の２
成分からなるプロセッサ番号を持つ。２次元トーラス結
合網を用いた場合、どのプロセッサからみても、他のプ
ロセッサが同一の結合構造を有するという利点がある。

【００２４】以下の説明では、プロセッサＰ（ｘ，ｙ）
は、プロセッサＰ（ｘ−１，ｙ）、プロセッサＰ（ｘ＋
１，ｙ）、プロセッサＰ（ｘ，ｙ−１）、プロセッサＰ
（ｘ，ｙ＋１）の４プロセッサと接続されるという記述
を用いる。但し、プロセッサ番号の計算は、すべてｍｏ
ｄ（ｎ）で行うものとする。

【００２５】この場合、プロセッサ２は４方向のプロセ
ッサと接続されるので、入力転送路、出力転送路をそれ
ぞれ４系統ずつ備える。従って、入力転送路および出力
転送路を記述すると実際は図２（ｂ）のような構成にな
るが、図２（ａ）ではこれを省略して接続関係のみ示し
ている。

【００２６】次に、上記で説明したプロセッサ２を２次
元トーラス結合網によって接続した並列計算機において
放送を行う場合のプロセッサ２の動作について、図３〜
図６を用いて説明する。なお、図３〜図６では、図１の
プロセッサ２に対して図２の２次元トーラス結合網を適
用した例に対応して、入力転送路２１〜２４、出力転送
路３１〜３４を示してある。

【００２７】プロセッサ２の動作には、以下に示すよう
に開始動作、バイパス動作、終端動作および転送動作の
４通りのものがある。１）開始動作：放送元プロセッサの動作であり、転送経
路上では出発点に位置する。図３（ａ）において、転送
経路情報作成部８の指示によって、転送制御部１２は送
信メッセージ作成部８において作成したメッセージを読
みだし、このメッセージを宛先プロセッサ番号と共に送
信処理部１４に送る。宛先プロセッサ番号は複数あり、
転送経路情報作成部８から与えられる。送信処理部１４
は、エラー検出用の符号化を行うなどの送信処理を行っ
た後、宛先プロセッサ番号に応じて、４本の出力転送路
３１〜３４の内の適切なもの、例えば出力転送路３１、
に宛先プロセッサ番号の付加されたメッセージを送信す
る。なお、後述する説明に参照する図７、図８、および
図１１では図３（ｂ）に示す記号を用いる。

【００２８】２）バイパス動作：放送開始初期に行われ
るものであり、隣接プロセッサから送られてきたメッセ
ージを処理せずに別のプロセッサに送信する動作であ
る。図４（ａ）において、入力転送路２１〜２４のいず
れか、例えば入力転送路２１からメッセージが送られて
くると、宛先判定部４は自身のプロセッサ番号とメッセ
ージに含まれる宛先プロセッサ番号とを比較することに
より当該メッセージをバイパスすると判断し、出力転送
路３１〜３４の内の適切なもの、例えば出力転送路３
２、を選択して送出する。このバイパス動作は本発明の
特徴の１つとなっているものであり、バイパス動作に要
する時間が、プロセッサ内に一旦取り込んだ後に再度送
信する場合に比べて短いところに大きな利点がある。な
お、以下の説明では図４（ｂ）に示す記号を用いる。

【００２９】３）終端動作：隣接プロセッサから送られ
てきたメッセージを受信するものであり、当該放送にお
ける転送経路上で終端に位置するプロセッサの動作であ
る。図５（ａ）において、入力転送路２１〜２４のいず
れか、例えば入力転送路２１、からメッセージが送られ
てくると、宛先判定部４は自身のプロセッサ番号とメッ
セージに付加された宛先プロセッサ番号とを比較するこ
とにより当該メッセージの宛先が自身であることを判断
し、この受信メッセージを受信処理部６に取り込む。受
信処理部６はエラー処理などの受信処理を施した後に受
信メッセージを受信メッセージ格納部１０と転送制御部
１２との両方に送る。転送制御部１２は、転送経路情報
作成部８で作成された転送経路情報に基づいて、自身が
終端に位置するプロセッサであることを知り、他プロセ
ッサへの転送は行わない。なお、以降の説明では図５
（ｂ）に示す記号を用いる。

【００３０】４）転送動作：転送経路上では開始位置と
終端位置以外の中間に位置するプロセッサがメッセージ
を受信すると同時に他プロセッサに転送する動作であ
り、放送の中核となる動作である。図６（ａ）におい
て、宛先判定部４によって取り込まれたメッセージは受
信処理部６でエラー処理などの受信処理を施された後、
受信メッセージ格納部１０に格納されると同時に転送制
御部１２にも送られる。転送制御部１２では、転送経路
情報作成部８で作成された転送経路情報に基づいて別プ
ロセッサに転送するために、宛先プロセッサ番号と共に
メッセージを送信処理部１４に送る。宛先プロセッサ番
号は、当該プロセッサの転送経路の位置によって、１つ
の場合と複数の場合とがあり、転送経路情報作成部８か
ら与えられる。送信処理部１４は、送信処理を行った
後、出力転送路３１〜３４の内の適切なものに宛先プロ
セッサ番号を含んだメッセージを送出する。なお、以降
の説明では図６（ｂ）に示す記号を用いる。

【００３１】次に、以上の動作を組み合わせて放送が行
われる様子を図７を用いて説明する。図７は並列計算機
の一部分のプロセッサ１０１〜１０６を示す。プロセッ
サ１０１から全プロセッサに向けて放送を行うには、転
送経路としてプロセッサ１０１を出発点とした木状の経
路を用いる。転送経路には複数の枝分れがあり、その中
のひとつの経路であるプロセッサ１０１→プロセッサ１
０３→プロセッサ１０５→プロセッサ１０２に沿って、
プロセッサの動作を説明する。この経路上の転送回数は
３回である。

【００３２】プロセッサ１０１は、送信元プロセッサで
あり、開始動作を行っている。宛先はプロセッサ１０３
であるが、直接接続されていないのでプロセッサ１０２
に向けて送信される。

【００３３】プロセッサ１０２では、宛先が自プロセッ
サではないのでバイパス動作を行い、プロセッサ１０３
に送信する。プロセッサ１０３は、転送経路上で中間に
位置するので転送動作を行う。すなわち、メッセージを
受信メッセージ格納部に格納すると同時にプロセッサ１
０４、プロセッサ１０５に向けて送信する。

【００３４】プロセッサ１０５は、転送動作を行い、プ
ロセッサ１０２宛にメッセージを送信する。プロセッサ
１０６は、バイパス動作を行う。

【００３５】プロセッサ１０２は、転送経路の終端に位
置するので終端動作を行う。すなわち、メッセージを受
信メッセージ格納部に格納する。プロセッサ１０１→プ
ロセッサ１０３の転送途中でバイパス動作を行っている
ように、プロセッサは、バイパス動作と終端動作の両動
作を行う場合がある。

【００３６】次に、転送経路情報作成部８の動作の説明
する。転送経路情報作成部８は転送経路を作成するが、
転送経路を実際の相互結合網に対応付ける際に、転送路
を重複して使用しないように割り当てなければならな
い。重複した割り当てを行うと、一方のメッセージの転
送中は、他のメッセージが転送されずに待たされること
になる。メッセージの転送が滞ることになる。よって、
重複しないように割り当てることが、可能な転送経路を
求める必要がある。

【００３７】転送経路の一例として、送信元プロセッサ
を開始点とする木構造の経路を用いる。木構造をメッシ
ュ上に割り当てるために、ＬＳＩチップに木構造結合網
を埋め込む手順として知られているＨ型割り当て手順を
流用する。格子上に木構造の経路を割り当てた様子を図
８に示す。本来のＨ型割り当て手順では、模様付きの丸
で示した位置にのみプロセッサを配置し、白抜きの丸で
示した位置にはプロセッサを配置しない。しかし、本実
施例では、あらかじめプロセッサが格子状に配置されて
いる状況において、転送経路を割り当てるためにＨ型割
り当て手順を用いる。図中では、転送経路として使われ
ないプロセッサ間転送路は示していない。送信元プロセ
ッサ１１１を開始点として転送経路１１２が延びてい
る。プロセッサ１１３のように模様付きの丸で示したプ
ロセッサは転送経路に含まれるが、プロセッサ１１４の
ように白抜きの丸で示したプロセッサには転送経路に含
まれていない。このようなＨ型手順では、結合できない
格子点が全格子点のほぼ半分あり、この手順をそのまま
放送のための転送経路とすることはできない。そこで、
全プロセッサを接続できるように割り当て手順を変更
し、転送経路決定手順とする。

【００３８】詳細な手順の説明に先立って、転送経路を
概略的に説明する。Ｈ型手順を適用したときに接続され
ずに残るプロセッサの近傍には、必ず接続されているプ
ロセッサが存在することに着目する。近傍とは、ｘ方向
プロセッサ番号の差とｙ方向プロセッサ番号の差が共に
１以内のプロセッサを指す。従って、本実施例では、Ｈ
型手順によって並列計算機全体にわたって大まかにメッ
セージを転送した後に、Ｈ型手順の終端部分で、全プロ
セッサにメッセージが行き渡るように修正を施した手順
を用いる。なお、転送経路を決定する手順は、全プロセ
ッサが独自に実行できる必要がある。

【００３９】放送において各プロセッサ２は親プロセッ
サから送られたメッセージを子プロセッサに転送するこ
とから、概略的には転送経路情報作成部８の属するプロ
セッサ番号を（ｘ，ｙ）として親プロセッサと子プロセ
ッサを求めることにより各プロセッサの動作を決定す
る。親プロセッサや子プロセッサの有無によって転送制
御部の動作は以下のようになる。

【００４０】１）親プロセッサあり、子プロセッサあ
り：転送動作を行う。２）親プロセッサあり、子プロセッサなし：終端動作を
行う。３）親プロセッサなし、子プロセッサあり：開始動作を
行う。

【００４１】なお、親プロセッサとは当該プロセッサを
宛先としてメッセージを送信するプロセッサをいい、子
プロセッサとは当該プロセッサがメッセージを送信する
宛先となるプロセッサをいう。

【００４２】ここで、図９および図１０に、転送経路情
報作成部８で実行され、転送制御部１２の動作のために
必要なプロセッサ（ｘ，ｙ）における転送経路情報を決
定する詳細なアルゴリズムの一例を示す。

【００４３】ここで、プロセッサ番号を２進表現したと
きに、最も右にある１の右側に並ぶ０の個数をプロセッ
サのレベルと定義する。例えば、プロセッサＰ（４，
５）のプロセッサ番号（４，５）は，２進表現すると
（１００，１０１）なので、ｘ方向のレベルｕ＝ｌｅｖｅｌ（ｘ）＝２ｙ方向のレベルｖ＝ｌｅｖｅｌ（ｙ）＝０となる。ただし、ｘ＝０あるいはｙ＝０の場合は、ｌｅｖｅｌ（０）＝ｌｏｇ₂ （ｎ）とする。ｎは、図２の結合網におけるｘ方向やｙ方向の
一行分あるいは一列分のプロセッサ数である。

【００４４】また、親プロセッサや子プロセッサを求め
る手続きの一部として、ビット列ａのビット位置ｂをｃ
（０または１）に変更する手続きｓｅｔｂｉｔ（ａ，
ｂ，ｃ）を定義する。

【００４５】例えば、ｓｅｔｂｉｔ（００００，０，１）→０００１ｓｅｔｂｉｔ（１１０１，２，０）→１００１となる。

【００４６】以下、図９および図１０のアルゴリズムに
ついて説明する。まず、放送元プロセッサの固定プロセ
ッサ番号をプログラム等から獲得し、これと自身の固定
プロセッサ番号から放送元プロセッサのプロセッサ番号
を（ｎ／２，ｎ／２）としたときの自身の相対プロセッ
サ番号（ｘ，ｙ）を決定する（ステップ１）。

【００４７】次に、ｕ＝ｌｅｖｅｌ（ｘ）、ｖ＝ｌｅｖ
ｅｌ（ｙ）を求める（ステップ２）。その後、図９に示
すように、ｎ、ｕ、ｖ、ｘおよびｙの関係に従って条件
分岐を実行していくと、図１０に示すように１３種類の
動作および宛先の組合せのいずれかが求められる（ステ
ップ３〜ステップ１４）。

【００４８】図１０の各ステップ１５〜２７のうちの到
達したステップに従って当該プロセッサの動作が決定さ
れ、宛先となる子プロセッサのプロセッサ番号が算出さ
れる。

【００４９】なお、図１０の子と示された欄に示されて
いるＡ〜Ｉは、以下のような相対プロセッサ番号を示し
ている。Ａ＝（setbit（setbit（ｘ，ｕ，０），ｕ−１，１），
ｙ）Ｂ＝（setbit（setbit（ｘ，ｕ，１），ｕ−１，１），
ｙ）Ｃ＝（setbit（setbit（ｘ，ｕ＋１，１），ｕ，０），
ｙ）Ｄ＝（ｘ，setbit（setbit（ｙ，ｖ，０），ｖ−１，
１））Ｅ＝（ｘ，setbit（setbit（ｙ，ｖ，１），ｖ−１，
１））Ｆ＝（ｘ，setbit（setbit（ｙ，ｖ＋１，１），ｖ，
１））Ｇ＝（ｘ−１，ｙ）Ｈ＝（ｘ＋１，ｙ）Ｉ＝（ｘ，ｙ−１）Ｊ＝（ｘ，ｙ＋１）放送においては、この相対プロセッサ番号を用いても良
いし、固定プロセッサ番号に逆変換して用いても良い。

【００５０】図１０には親プロセッサの相対プロセッサ
番号も求められることを示しているが、本実施例では親
プロセッサは求めなくても良い。次に、８×８プロセッ
サ構成の並列計算機に対して上記の手順を適用した結果
を図１１に示す。プロセッサ１２１は、送信元プロセッ
サである。Ｈ型手順だけを適用した場合に接続できるプ
ロセッサに模様を付けて表した。模様が付いていないプ
ロセッサ、すなわち、Ｈ型手順では接続できないプロセ
ッサも、転送路を重複して使用することなく転送経路に
組み込めていることがわかる。

【００５１】このように、本発明では、プロセッサ内で
の転送処理時間を短くするプロセッサ構成をとり、か
つ、転送回数が少い転送経路、すなわち最長転送経路の
長さが短い転送経路を採用するように構成したので、プ
ロセッサ数が非常に多い場合であっても放送を高速化で
きる。

【００５２】なお、本発明では、ｎ×ｎ個のプロセッサ
を格子状に並べた２次元トーラス結合網への適用例を示
したが、ｘ方向のプロセッサ数ｎとｙ方向のプロセッサ
数ｍが異なる場合であっても、ｎおよびｍを適宜選択
し、転送経路情報作成部８が実行する転送経路情報を決
定するアルゴリズムを適宜修正することによって、同様
の効果を得ることができる。また、本発明は、適宜修正
することによって、Ｎ次元メッシュ結合網にも適用する
ことができる。

【００５３】また、受信処理部６および送信処理部１４
の対応する部分を省くことは自由である。次に、本発明
の第２の実施例に係る並列計算機について説明する。こ
の実施例は、本発明を大域演算に適用したものである。

【００５４】前述した放送においては一つのプロセッサ
が持つデータを全プロセッサに分散させるのに対して、
大域演算では各プロセッサが保持する値の総和や最大値
を求める場合のように、プロセッサ全体に分散して保持
されている値に対して演算を行う。すなわち、全プロセ
ッサが持つデータを一つのプロセッサに集める。第１の
実施例で述べたプロセッサ内のメモリに格納すると同時
に別プロセッサに転送する転送操作はメッセージの複製
というある種の演算と解釈することができるが、これに
対し、大域演算では受信したデータに対して加算や最大
値選択などの演算を施す。このように考えると、放送と
大域演算は、転送経路にメッセージを流す方向しか違わ
ないことになる。この点に着目し、実施例１で説明した
放送を多少変更することで、大域演算を実現することが
できる。

【００５５】すなわち、本実施例の並列計算機を構成す
るプロセッサの構成は図１とほぼ同様であり、また第１
の実施例と同様に相互結合網の一例として図２（ａ）に
示すような２次元トーラス結合網を用る。

【００５６】ここで、各プロセッサが保持する演算対象
のデータは、送信メッセージ作成部１６に保持する。放
送を行う場合と異なるのは、転送制御部１２が演算機能
も合わせ持つことと、図１０に示す転送経路情報作成部
８のアルゴリズムにおける親プロセッサと子プロセッサ
とを入れ替えることだけである。

【００５７】プロセッサの動作は、図３〜図６を用いて
説明した動作とほぼ同じである。ここでは、以下に示す
異なる２つの点についてのみ説明する。第１点は、第１
の実施例における開始動作と終端動作を行うプロセッサ
の転送経路における位置を入れ換える。すなわち、開始
動作を行うプロセッサを転送経路の出発点ではなく終端
に配置する。また、終端動作を行うプロセッサを転送経
路の終端ではなく出発点に配置する。バイパス動作、転
送動作をするプロセッサの位置は変更しない。

【００５８】第２点は、転送動作や終端動作において、
送信メッセージ作成部に保持されている演算対象データ
と受信データとをオペランドとして演算を行うことであ
る。転送動作では、演算結果を転送する。終端動作で
は、演算結果が大域演算の最終的な結果となる。放送で
は、複数のプロセッサ宛にメッセージを送信する場合が
あったように、大域演算では、複数のプロセッサから送
られるデータとプロセッサ内に保持するデータのすべて
に対して演算を施す場合がある。

【００５９】プロセッサ（ｘ，ｙ）における転送経路情
報を決定するアルゴリズムの条件分岐の部分は、第１の
実施例の説明で参照した図９と同一であり、図９に続く
部分は図１２に示すごとくである。また、図１２に示
す、親プロセッサあるいは子プロセッサのプロセッサ番
号を示すＡ〜Ｉは、前述したものと同一である。

【００６０】

【発明の効果】以上述べたように、本発明に係る並列計
算機によれば、隣接するプロセッサから与えられたメッ
セージを取り込まずに即座に他の隣接するプロセッサに
バイパスする手段を設けて、大域通信開始初期には隣接
するプロセッサを飛び越して遠くに位置するプロセッサ
にメッセージを取り込ませる制御を行うことにより、最
大転送回数を少く抑え、且つ大域通信の間、転送路の重
複使用を回避した転送経路に従って転送制御を行って、
転送路使用のための待ち時間を削除するとともに、転送
と取り込みを同時に実行する手段を設けることによっ
て、各転送に要する時間を短縮するようにしたので、プ
ロセッサ台数が数万から数百万台になっても実用的な時
間で大域通信を行うことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例に係る並列計算機を構成
する１つのプロセッサの概略構成を示す図

【図２】図１のプロセッサをｎ×ｎ個接続した２次元ト
ーラス結合網を説明するための図

【図３】図１のプロセッサの開始動作を説明するための
図

【図４】図１のプロセッサのバイパス動作を説明するた
めの図

【図５】図１のプロセッサの終端動作を説明するための
図

【図６】図１のプロセッサの転送動作を説明するための
図

【図７】図１のプロセッサの４種類の動作を組み合わせ
て放送が行われる様子を説明するための図

【図８】格子上に木構造の経路を割り当てた様子を説明
するための図

【図９】転送経路情報作成部８が実行する転送経路情報
決定アルゴリズムの一例の前半部分を示す図

【図１０】図９アルゴリズムに続く部分のアルゴリズム
を示す図

【図１１】８×８プロセッサ構成の並列計算機に対して
本発明を適用した結果を示す図

【図１２】本発明の第２の実施例に係る転送経路情報決
定アルゴリズムの一部分を示す図

【図１３】従来のグローバルバスを備える並列計算機の
概略構成を示す図

【図１４】従来の２次元メッシュ状の相互結合網により
接続される並列計算機の概略構成を示す図

【符号の説明】

２…プロセッサ４…宛先判定部６…受信処理部８…転送経路情
報作成部１０…受信メッセージ格納部１２…転送制御
部１４…送信制御部１６…送信メッ
セージ作成部２０…入力転送路３０…出力転送
路

Claims

【特許請求の範囲】

【請求項１】相互結合網により接続された複数のプロセ
ッサを有し、１つのプロセッサが保持している情報をメ
ッセージとして他のすべてのプロセッサまたは特定の範
囲の複数のプロセッサに転送する大域通信を実行する並
列計算機において、前記プロセッサの各々は、隣接するプロセッサから転送される宛先プロセッサ番号
の付加されたメッセージを入力し、前記宛先プロセッサ
番号と自身のプロセッサ番号とが一致する場合は前記メ
ッセージを取り込み、一致しない場合は前記宛先プロセ
ッサ番号に応じた他の隣接するプロセッサにそのまま転
送する宛先判定部と、この宛先判定部によって取り込まれた前記メッセージを
格納する受信メッセージ記憶手段と、自身が前記大域通信における前記メッセージの送信元と
なるプロセッサである場合に前記メッセージを作成する
送信メッセージ作成部と、前記送信元となるプロセッサと自身のプロセッサとの間
の前記相互結合網における相対的位置関係に基づいて、
前記送信メッセージ作成部または前記宛先判定部から入
力した前記メッセージを転送すべき１つまたは複数のプ
ロセッサの宛先プロセッサ番号を選択すること、または
前記宛先判定部によって取り込まれた前記メッセージを
他のプロセッサには転送しないことを決定することのい
ずれかを実行する転送経路情報作成部と、この転送経路情報作成部から与えられた前記宛先プロセ
ッサ番号を前記メッセージに付加して出力すること、ま
たは前記メッセ−ジを出力しないことを実行する転送制
御部と、この転送制御部から与えられた前記宛先プロセッサ番号
の付加された前記メッセージを、前記宛先プロセッサ番
号に応じた他の隣接するプロセッサに転送する送信処理
部とを具備してなり、前記大域通信の開始初期においては、前記送信元となる
プロセッサおよび前記メッセージを取り込んだプロセッ
サの前記転送経路情報作成部は、前記メッセージを取り
込んだプロセッサを前記大域通信の対象範囲に渡って広
範に分布させるように、複数のプロセッサを介して遠方
に接続されるプロセッサの宛先プロセッサ番号を複数選
択することを特徴とする並列計算機。