JP2512272B2

JP2512272B2 - マルチプロセッサ・コンピュ―タ・システムおよびそのデ―タ割振り方法

Info

Publication number: JP2512272B2
Application number: JP4330744A
Authority: JP
Inventors: ティンホーチン; ティ．ラグナースマンダヤム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-01-10
Filing date: 1992-12-10
Publication date: 1996-07-03
Anticipated expiration: 2011-07-03
Also published as: EP0551196A3; JPH05324586A; EP0551196A2; US5598570A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的には、コンピュ
ータシステムのデータ割振りおよび伝送マネジメントに
関する。特に、本発明は、資源マネジメントシステムを
有する特定の種類のコンピュータシステムを提供するも
のである。この資源マネジメントシステムは、これらプ
ロセッサ間での改良された割振りの構造を実施し、それ
によりこれらプロセッサ間のデータ転送遅延が最小とな
るようにする。

【０００２】

【従来の技術】種々のマルチプロセッサ・アーキテクチ
ャとして構成される現代のマルチプロセッサ・コンピュ
ータ・システムの性能は、しばしば、これらプロセッサ
間のデータ転送遅延により制約されている。これは、共
有メモリを有するマルチプロセッサ・システムと比較し
て構築および規模の変更が容易な（スケーラブル）分散
メモリ・システムでは特に顕著である。従って、分散メ
モリ・マルチプロセッサの重要な設計目的は、これらの
プロセッサ間の相互接続ネットワークおよびデータブロ
ックの割振りのトポロジー（幾何学的配置）を、データ
伝送遅延が最小となるようにアレンジすることである。

【０００３】マルチプロセッサ・システムにおいては、
各プロセッサは一般にノードと称される。処理の同時性
ないし並列性を達成するために、複数のデータブロック
をしばしば伴う一連のデータが、同時に処理されるべき
多くのノードに分散される。各ノード内でのローカルデ
ータ処理に加え、他のノードとの間で追加のデータを送
信しおよび受信することがしばしば必要である。ノード
間のデータブロックの分配方法およびノード間のデータ
リンクの接続性は、しばしばマルチプロセッサ・システ
ムのスループットを決定する。特定のタイプのデータプ
ロセスに対しては、ノード間のデータブロックをそのプ
ロセスに最も適するように割当てるように注意深く設計
する努力により、データ伝送遅延を最小にし、その結果
マイクロプロセッサ・システムの性能を改善することが
できる。

【０００４】ハイパーキューブまたは疑似ハイパーキュ
ーブ（hypercube-like）のトポロジーのマルチプロセッ
サはいくつか市販されるようになった。現在の技術によ
って数千のノードを有するハイパーキューブを築くこと
は、技術的および経済的に実現可能となった。ハイパー
キューブのトポロジー（幾何学的配置）のいくつかの利
点は、その対数直径、広い通信帯域、規則的な構造、お
よび多くのプログラム構造が隣接性を保持しながらハイ
パーキューブに写像できることである。

【０００５】ｎ次元ハイパーキューブにはｎ桁の２進数
のコードがあり、各次元には２つの座標点がある。ノー
ドには隣接するノードのアドレスが正確に１ビット相違
するようにアドレスが与えられる。ハイパーキューブは
再帰性のある（recursive ）構造である。ｎ次元キュー
ブは、２つのｎ次元キューブの対応する頂点を接続する
ことにより（ｎ＋１）次元キューブに拡張できる。その
一方は最高位アドレスビット（０）を有し、他方は最高
位ビット（１）を有する。ハイパーキューブ・アーキテ
クチャの再帰性の性質を図１に示す。図１には、１次
元，２次元，３次元および４次元のハイパーキューブ、
すなわちしばしばブーリアンキューブと称されるキュー
ブが示されている。図２は図１に示したのと同一のハイ
パーキューブの、より理解しやすい図示である。

【０００６】並列および分散処理のためのインテリジェ
ント実行時間支援システムおよびライブラリの入手可能
性が高まっているので、行列演算、リニア系方程式のた
めの反復法、周期的境界値問題、量子電気力学および量
子色力学の問題は全て、ハイパーキューブ・アーキテク
チャにより効率的に処理することができる。これらのタ
イプの問題の解決は、大抵、データ伝送のために、コー
ドの最も近い近隣との通信を用いる。図３に示すよう
な、一般にグレイコードと略される、２進数で表わした
グレイコードのような、コードの近接性を保持するハイ
パーキューブのノード接続性は、前記の問題の計算には
最も適している。他のタイプの計算、たとえば高速フー
リエ変換（ＦＦＴ）、バイトニックソート（bitonic so
rt)、および再帰的倍加など、ノード間で並列に処理でき
る計算もある。これらのタイプのデータ処理では、ツリ
ーまたはバタフライタイプのネットワークがより効率的
である。図４に示される、一般にバイナリコードと称さ
れる、ノードアドレスのハイパーキューブの異なるラベ
ルづけが用いられる。

【０００７】計算機の資源を効率的に管理するために、
マルチプロセッサ・コンピュータ・システムは、あるタ
イプのデータマッピングを他のタイプに変換して、処理
能力を最適に利用する能力をもつことが必要である。こ
れはグレイコードデータマッピングをもつ１６ノードハ
イパーキューブシステムが、行列演算を処理し、それが
終了すると直ちに、行列演算で得た結果に対しＦＦＴ計
算を行うことを予定する場合に生じる。これらプロセッ
サ間のデータブロックの再配置は、まずハイパーキュー
ブのデータマッピングをグレイコードデータマッピング
からバイナリコードデータマッピングに変換して、ＦＦ
Ｔ計算が効率的に実行できるようにするために必要とさ
れる。

【０００８】S.Lennart Johnsson著, J. Parallel Dist
ributed Computing, 4(2):133-172,1987 年 4月は、デ
ータブロックを再配置して、グレイコード構成からバイ
ナリコード構成へ変換する、ハイパーキューブ・アーキ
テクチャのための方法を開示する。この方法を図５に示
す。ここでは、４次元ハイパーキューブのための３ステ
ップの方法が用いられて、グレイコードデータマッピン
グからバイナリコードデータマッピングに、データブロ
ックを再配置している。ｎ次元ハイパーキューブでは、
Johnssonは、グレイコードデータマッピングからバイナ
リコードデータマッピングへの変換にｎ−１ステップが
十分であることを、開示した。

【０００９】Johnssonの変換を実行するための擬似コー
ドを付録Ａにも示す。このコードにおいて、ｐｉｄは現
在のプロセッサのプロセッサアドレスであり、およびｎ
ｂｒ（ｊ）は次元ｊと交差する隣接したノードの、プロ
セッサアドレスである。すなわち、

【００１０】

【数１】ｎｂｒ（ｊ）＝ｐｉｄ２^j

【００１１】である。

【００１２】２つのシステムコール、すなわち、それぞ
れメッセージの送信および受信を示す“ｓｅｎｄ”およ
び“ｒｅｃｖ”が存在する。システムコール“ｓｅｎ
ｄ”は４つの変数、すなわちメッセージのための開始メ
モリ位置、宛先のプロセッサアドレス、メッセージサイ
ズ（バイト単位）、およびメッセージのタイプを有す
る。受信側があるノードからのあるタイプのメッセージ
を特定するために、メッセージタイプが用いられる。こ
れは、インテルｉＰＳＣ／２ハイパーキューブのよう
な、ある種の並列コンピュータで必要とされる。システ
ムコール“ｒｅｃｖ”は３つの変数、すなわち、システ
ムコール“ｓｅｎｄ”の４つの変数から宛先のプロセッ
サアドレスを除いたものを有する。

【００１３】図５および付録Ａを参照するに、ステップ
０では、サブキューブ０のノード２（００１０）と３
（００１１）、および６（０１１０）と７（０１１１）
の間、およびサブキューブ１の１０（１０１０）と１１
（１０１１）、および１４（１１１０）と１５（１１１
１）の間でのみ、データブロックの送信および受信が行
われる。これらのノードは全て付録Ａに示すように下位
から２つ目のビット（第１ビット）がゼロでないノード
アドレスＩＤ、すなわちｐｉｄを有する。すなわち、ｇ
_i+1 ^-1 ＝１（ここでｉ＝０）である。ステップ０では図
５に示すように、これらのノード間でデータブロックの
交換を行う。図５よび付録Ａに示すように、同様のデー
タブロック交換をステップ１および２で行う。

【００１４】図５を詳細に調べると、３つのステップ全
てにおいて、使用されていないデータ通信リンクがある
ことが直に発見できる。例えば、ステップ０では、ノー
ド０と１、ノード４と５、ノード８と９、およびノード
１２と１３の間でデータブロックの交換が行われていな
い。これらの使用されていないリンクは、グレイコード
データマッピングからバイナリコードデータマッピング
へ変換する際のデータ再配置の効率を改善するのに用い
ることのできる可能性を有する。

【００１５】

【発明が解決しようとする課題】従って、本発明の目的
は、ネットワーク帯幅（Network bandwidth ）を効率的
かつ最適に利用するデータブロック割振り管理システム
を有する、ハイパーキューブ・マルチプロセッサ・コン
ピュータシステムを提供することにある。

【００１６】本発明の他の目的は、ハイパーキューブま
たは擬似ハイパーキューブ・マルチプロセッサ・コンピ
ュータ・システムが、不必要なデータ再配置の遅延なし
に、データ処理プログラムを動的に実行可能とすること
にある。

【００１７】本発明の他の目的は、同期通信を必要とす
ることなく、それにより送信または受信されるデータブ
ロックが利用可能になるとすぐに、データブロックの送
信および受信を各ノードでそのノードの適当な順序で独
立して実行できる、データ再配置システムを提供するこ
とにある。

【００１８】本発明の他の目的は、効率的かつ最適にマ
ルチプロセッサ・コンピュータ・システムのトポロジー
を工夫して、種々の計算の要求に適合させることにあ
る。

【００１９】

【課題を解決するための手段】このような目的を達成す
るために、本発明は、少なくとも２つのサブグラフ（部
分グラフ）を有するアーキテクチャに構成された複数の
プロセッサを有するコンピュータ・システムを具え、少
なくとも第１のサブグラフおよび第２のサブグラフは、
データ再分配操作に対して各ステップで相補的である対
応するプロセッサを有する。このコンピュータ・システ
ムの各プロセッサは、複数のデータブロックおよび実行
可能なプログラムを有する。この実行可能なプログラム
は、まず第１サブグラフのプロセッサのデータブロック
の第１半分を、第２パラグラフの対応するプロセッサと
交換することにより、データ再分配処理を行う。次に、
対応する相補的なプロセッサとのデータの再分配を、デ
ータリンクの全帯域を用いて同時に実行する。第１のサ
ブグラフおよび第２のサブグラフのプロセッサ間で、デ
ータブロックの第１半分の逆交換を最後に実行する。

【００２０】より詳細には、請求項１に記載の発明は、
各プロセッサがｎビットのプロセッサアドレスと複数の
データブロックとを有し、前記プロセッサアドレスの各
ビットで表わされるｎ個の次元の各々に沿って前記プロ
セッサが配置された、ｎ次元ハイパーキューブ・マルチ
プロセッサ・コンピュータ・システムにおける、グレイ
コードデータマッピング（１００）からバイナリコード
データマッピング（２００）へ変換するデータ割振方法
であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換するステップ
と、（ｂ）各プロセッサにおいてインデックスｉ（ｉは０か
らｎ−２）に対して、次のステップ、すなわち（ｉ）そ
のプロセッサアドレスのグレイコードの、（ｉ+ １）番
ビットの値が１であるか否かを判断するステップ、およ
び（ｉｉ）前記値が１と判断された場合に、前記データ
ブロックの第１半分を、前記プロセッサアドレスのｉ番
ビットの次元に沿って、隣接するプロセッサと交換し、
他の場合には前記データブロックの第２半分を、ｉ番ビ
ットの次元に沿って、隣接するプロセッサと交換するス
テップ、を並列に実行するステップとを備えたことを特
徴とする。

【００２１】請求項２に記載の発明は、ｎ次元ハイパー
キューブ・アーキテクチャに構成した複数のプロセッサ
を有するコンピュータ・システムにおいて、各プロセッ
サが、前記ｎ次元の各次元における値を各々示すｎ個の
ビットを有するｎ次元プロセッサアドレスと、複数のデ
ータブロックとグレイコードデータマッピング（１０
０）からバイナリーコードデータマッピング（２００）
へ変換するデータ割振を行う手段であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換し（ｂ）各プロセッサでインデックスｉ（ｉは０からｎ−
２）に対して、次の処理、すなわち（ｉ）そのプロセッ
サアドレスのグレイコードの、（ｉ+ １）番ビットの値
が１であるか否かを判断する処理、および（ｉｉ）前記
値が１と判断された場合に、前記データブロックの第１
半分を前記プロセッサアドレスのｉ番ビットの次元に沿
って、隣接するプロセッサと交換し、他の場合には前記
データブロックの第２半分をｉ番ビットの次元に沿っ
て、隣接するプロセッサと交換する処理を並列に実行す
る手段とを備えたことを特徴とする。

【００２２】請求項３に記載の発明は、ｎ次元ハイパー
キューブ・アーキテクチャのスーパーグラフに構成した
複数のプロセッサを有するコンピュータ・システムにお
いて、各プロセッサが、前記ｎ次元の各次元における値
を各々示すｎ個のビットを有するｎ次元プロセッサアド
レスと、複数のデータブロックとグレイコードデータマ
ッピング（１００）からバイナリーコードデータマッピ
ング（２００）へ変換するデータ割振を行う手段であっ
て、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換し（ｂ）各プロセッサでインデックスｉ（ｉは０からｎ−
２）に対して、次の処理、すなわち（ｉ）そのプロセッ
サアドレスのグレイコードの、（ｉ+ １）番ビットの値
が１であるか否かを判断する処理、および（ｉｉ）前記
値が１と判断された場合に、前記データブロックの第１
半分を前記プロセッサアドレスのｉ番ビットの次元に沿
って、隣接するプロセッサと交換し、他の場合には前記
データブロックの第２半分をｉ番ビットの次元に沿っ
て、隣接するプロセッサと交換する処理を並列に実行す
る手段とを備えたことを特徴とする。

【００２３】請求項４に記載の発明は、各ステップにお
いて相補的な２つのサブグラフを有する再帰的ｎ次元ア
ーキテクチャに構成された複数のプロセッサを有するコ
ンピュータ・システムにおいて、各プロセッサが、前記
ｎ次元の各次元における値を各々示すｎ個のビットを有
するｎ次元プロセッサアドレスと、複数のデータブロッ
クとグレイコードデータマッピング（１００）からバイ
ナリーコードデータマッピング（２００）へ変換するデ
ータ割振を行う手段であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換し（ｂ）各プロセッサでインデックスｉ（ｉは０からｎ−
２）に対して、次の処理、すなわち（ｉ）そのプロセッ
サアドレスのグレイコードの、（ｉ+ １）番ビットの値
が１であるか否かを判断する処理、および（ｉｉ）前記
値が１と判断された場合に、前記データブロックの第１
半分を前記プロセッサアドレスのｉ番ビットの次元に沿
って、隣接するプロセッサと交換し、他の場合には前記
データブロックの第２半分をｉ番ビットの次元に沿っ
て、隣接するプロセッサと交換する処理を並列に実行す
る手段とを備えたことを特徴とする。

【００２４】請求項５に記載の発明は、少なくとも２つ
のサブグラフを有するアーキテクチャに構成された複数
のプロセッサ間でデータブロックを再割振するデータ割
振方法において、少なくとも第１および第２のサブグラ
フが、同一のトポロジーと、前記再割振の各ステップに
おいて相補的な、対応するプロセッサとを有し、（ａ）前記第１のサブグラフにおけるプロセッサのデー
タブロックの第１半分を前記第２のサブグラフの対応す
るプロセッサのデータブロックの第１半分と並列に交換
するステップと、（ｂ）前記２つのサブグラフの各々で、プロセッサ間の
前記再割振を同時に行うステップと、（ｃ）前記第１のサブグラフおよび前記第２のサブグラ
フの前記プロセッサの間で、データブロックの第１半分
を、ステップ（ａ）とは逆方向に交換するステップとを
備えたことを特徴とする。

【００２５】請求項６に記載の発明は、少なくとも２つ
のサブグラフを有するアーキテクチャに構成された複数
のブロセッサを有し、少なくとも第１のサブグラフおよ
び第２のサブグラフが同一のトポロジーを有し、対応す
るプロセッサがデータ再割振に対して各ステップで相補
的であるコンピュータ・システムにおいて、各プロセッ
サが複数のデータブロックと、前記データ再割振を行う
手段であって、（ａ）前記第１のサブグラフにおけるプロセッサのデー
タブロックの第１半分を前記第２のサブグラフの対応す
るプロセッサのデータブロックの第１半分と並列に交換
し、（ｂ）前記２つのサブグラフの各々で、プロセッサ間の
前記再割振を同時に行い、（ｃ）前記第１のサブグラフおよび前記第２のサブグラ
フの前記プロセッサの間で、データブロックの第１半分
を、ステップ（ａ）とは逆方向に交換する手段とを備え
たことを特徴とする。

【００２６】請求項７に記載の発明は、少なくともサブ
グラフ０、１、…、（ｋ−１）で示されるｋ個のサブグ
ラフを有するアーキテクチャに構成された複数のプロセ
ッサ間で、データブロックを再割振するデータ割振方法
において、前記ｋ個のサブグラフの各々は、同一のトポ
ロジーと、前記再割振の各ステップにおいて相補的な、
対応するプロセッサとを有し、（ａ）プロセッサの各データブロックを、ほぼ同一サイ
ズのｋ個の部分に分割するステップと、（ｂ）連続するインデックスｉ（０≦ｉ≦ｋ−１）およ
び連続するインデックスｊ（０≦ｊ≦ｋ−１かつｊ≠
ｉ）に対して、サブグラフｉのプロセッサのｊ番目のデ
ータ部分を、サブグラフｊの前記対応するプロセッサの
ｉ番目のデータ部分と並列に交換するステップと、（ｃ）前記対応する各ステップで相補的なプロセッサに
より前記再割振を同時に実行するステップと、（ｄ）前記ステップ（ｂ）を再度行うことにより前記ス
テップ（ｂ）とは逆方向の交換を行うステップとを備え
たことを特徴とする。

【００２７】請求項８に記載の発明は、少なくともサブ
グラフ０、１、 …、（ｋ−１）で示されるｋ個の
サブグラフを有するアーキテクチャに構成された複数の
プロセッサを有し、前記ｋ個のサブグラフの各々は同一
のトポロジーをもち、対応するプロセッサが、前記ｋ個
のサブグラフのプロセッサ間のデータ再割振の各ステッ
プで相補的であるコンピュータ・システムにおいて、前
記各プロセッサが、複数のデータブロックと、前記デー
タ再割振動作を行う手段であって、（ａ）プロセッサの各データブロックを、ほぼ同一サイ
ズのｋ個の部分に分割し、（ｂ）連続するインデックスｉ（０≦ｉ≦ｋ−１）およ
び連続するインデックスｊ（０≦ｊ≦ｋ−１かつｊ≠
ｉ）に対して、サブグラフｉのプロセッサのｊ番目のデ
ータ部分をサブグラフｊの前記対応するプロセッサのｉ
番目のデータ部分と並列に交換し、（ｃ）前記対応する各ステップで相補的なプロセッサに
より前記再割振を同時に実行し、（ｄ）前記（ｂ）を再度行うことにより、前記（ｂ）と
は逆方向の交換を行う手段とを備えたことを特徴とす
る。

【００２８】

【作用】本発明の利点は、ハイパーキューブ・アーキテ
クチャをグレイコードデータマッピングからバイナリコ
ードデータマッピングへ再構成するためのデータブロッ
クの再割振りに必要な時間が大幅に減少することであ
り、このことは特に大きなサイズのデータブロックに対
して顕著である。

【００２９】本発明の他の利点は、プロセッサ間ネット
ワークの全帯域が、無駄なく利用されることである。

【００３０】本発明の他の利点は、データブロックの送
信および受信を同期通信を必要とせずに実行できること
であり、それにより、隣接ノード間のデータブロックの
交換は、送信または受信されるデータブロックが送信ま
たは受信ノードに利用可能になると直に、適当な順序で
各ノードによって独立して実行できる。

【００３１】本発明の他の利点は、マルチプロセッサ・
コンピュータ・システムのトポロジーが非常に効率的か
つ最適に工夫されて、種々の計算の要求に適合すること
である。

【００３２】本発明のこれらおよび他の目的および効果
は、種々の図面に例示される好適な実施例の以下の詳細
な記載を読んだ当業者にとって明らかであることもちろ
んである。

【００３３】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。

【００３４】図５を参照するに、ここには、Johnssonに
より提案された４次元ハイパーキューブ（１６ノード）
での、グレイコードからバイナリコードへの変換を示
す。この分散メモリシステムでは、プロセッサは複数の
データブロックを含むメッセージの送信および受信によ
り互いに通信を行う。各プロセッサ間の通信、すなわち
送信または受信操作に関連するのは、τで示される待ち
時間、すなわち起動時間、および転送時間ｔ_c である。
リンクはデータを双方向に同時に伝送でき、およびｎ次
元ハイパーキューブの各プロセッサはｎ個の出力ポート
およびｎ個の入力ポートを有すると仮定する。１ポ−ト
通信システム、すなわち、プロセッサあて、ある時刻に
は１つの入力ポートおよび１つの出力ポートのみがアク
ティブとなることができるシステムにおいては、最近隣
のプロセッサにＫバイトのメッセージを送るための“通
信の複雑さ”はＴ＝τ＋Ｋｔ_c で定義される。したが
って、ハイパーキューブ１００の通信の複雑さは（１）
Ｋｔ_c 、すなわちデータ伝送時間、および（２）τ、す
なわち起動時間から成る。大抵の場合、起動時間は、ソ
フトウエア・オーバーヘッドおよびハードウエアの遅延
時間に起因する定まった定数である。あるマルチプロセ
ッサ・システムに対して、通信の複雑さの改良は、一般
に、データ転送時間を減少させることにより達成され
る。

【００３５】ｎ次元ハイパーキューブに対しては、John
ssonがグレイコードデータマッピングをバイナリコード
データマッピングへ変換するための、データ再割振り方
法を開示している。この方法は、４次元キューブに対し
て図５に示すように、ｎ−１回の交換を行う。ｎ次元ハ
イパーキューブに対しては、Johnssonによる通信の複雑
さは、Ｔ_APPA＝（ｎ−１）（τ＋Ｋｔ_c ） (1) である。ここに、Ｔ_APPAは、付録Ａによるハイパーキュ
ーブ・システムの通信の複雑さを示す。

【００３６】図５に示すように、このパラグラフの残り
で、サブキューブ０およびサブキューブ１を用て、ハイ
パーキューブの最も高い次元に関するサブキューブにつ
いて述べる。サブキューブ０およびサブキューブ１は、
グレイコードデータマッピングからバイナリコードデー
タマッピングに変換するための３つのステップのそれぞ
れにおいて、相補的である。例えばステップ０では、ノ
ード２と３との間でデータ交換が、対応するノード１２
と１３との間ではデータ交換がない。逆に、ノード０と
１との間でデータ交換がないが、対応するノード１４と
１５との間ではデータ交換がある。この相補的な性質は
図５のステップ２において最も明らかに示されている。
このステップ２では、サブキューブ０ではデータ交換が
行われず、一方サブキューブ１のすべての対応するノー
ド間ではデータ交換がある。本明細書では、このように
２つのサブグラフ間で対応するプロセッサの一方のみが
動作し他方が動作しない性質を「相補的」と呼ぶ。グレ
イコードデータマッピングからバイナリコードデータマ
ッピングへの変換の前および後に、サブキューブ０とサ
ブキューブ１との間でデータの半分を交換することによ
り、全てのデータリンクの全帯域幅を利用することがで
きる。Johnssonによって提案されたように、サブキュー
ブ０における１対のノードは、通常はJohnssonによって
提案されたようにデータ交換を実行しない時間ステップ
において、サブキューブ１において実行されているデー
タ交換に対応するデータ交換を行う。したがって、各サ
ブキューブはそのデータの半分をグレイコードデータマ
ッピングからバイナリコードデータマッピングに変換す
るのみでなく、他のサブキューブのデータの半分のグレ
イコードデータマッピングからバイナリコードデータマ
ッピングへの交換をも行う。

【００３７】付録Ｂは、ｎ次元ハイパーキューブ・マル
チプロセッサ・システムに対してかかるグレイからバイ
ナリへの変換を実行する各ノードによって独立して実行
可能な疑似コードのリストを示す。まず最初に、各ノー
ドのデータブロックの２番目の半分の、他のサブキュー
ブにおける対応するノードとの交換を行う。データブロ
ックの第１半分または第２半分のいずれかのデータ交換
を、その交換がそのノード自体またはJohnssonが開示し
たような相補的なノードのいずれに対して行うべきであ
るかによって、行い、それによってノード間のデータリ
ンクの全帯域幅が利用される。

【００３８】付録Ｂに示したようなデータブロック交換
は、キューブの次元の順序（ｎ−１），０，１，…，
（ｎ−１）に沿って行われる。ここで、最初の交換は、
２つの（ｎ−１）次元サブキューブの対応する対の間
で、データブロックを交換することである。データ再割
振り動作の効率を示す“通信の複雑さ”は：

【００３９】

【数２】

【００４０】である。ここで、Ｔ_APPBは付録Ｂに従った
ハイパーキューブ・システムに対する通信の複雑さを示
す。

【００４１】本発明においては、キューブの次元の順序
（ｎ−２），０，１，…，（ｎ−２）に沿ってデータブ
ロック交換を実行することにより他の改良がなされる。
この改良の基本的原理は再び図５を参照することにより
説明することができる。２つのサブキューブ（サブキュ
ーブ０およびサブキューブ１）の各々は、キューブの次
元（ｎ−２）に沿って、２つのより小さなサブキューブ
にさらに分割することができる。すなわち、元のｎ次元
のキューブがｎ−２個の次元の各々につき４つのサブキ
ューブに区分けされる。４つのサブキューブはサブキュ
ーブ００，０１，１０および１１とラベル付けられる。
ここで、これら２つの２進数のビットは、サブキューブ
内のプロセッサアドレスの２つの最高位ビットを表わ
す。図５に示すように、サブキューブ００は２つの最高
位ビットが００である４つのノード、すなわちノード０
（００００），１（０００１），２（００１０）および
３（００１１）を有し、他方、サブキューブ０１は２つ
の最高位ビットが０１である他の４つのノード、すなわ
ちノード４（０１００），５（０１０１），６（０１１
０）および７（０１１１）を有する。

【００４２】最初の（ｎ−２）回の交換（すなわち、ス
テップ０からステップ（ｎ−３））の各々に対しては、
Johnssonが開示し、図５に示したように、もしサブキュ
ーブ００またはサブキューブ０１，１０および１１のそ
れぞれにおいて、ノードｉとｊとの間で交換があれば、
サブキューブ０１、またはサブキューブ００，１１およ
び１０のそれぞれにおける対応するノード間では交換が
ないことを考慮してこの改良がなされている。これらの
（ｎ−２）回の交換の前および後に、次元（ｎ−２）を
横切ってデータの半分（Ｋ／２）を並列に交換すると、
これらの（ｎ−２）回の交換のそれぞれに対してＫ／２
個のデータ要素のみが交換される必要がある。便宜のた
めに、次元（ｎ−２）を横切ってのこれら２つの余分な
交換を前交換および後交換と呼ぶことにする。付録Ａに
おける最後の交換ステップ（すなわち、図５におけるス
テップ２）は、キューブ次元（ｎ−２）に沿った交換で
あるが、この交換ステップを後交換ステップと組合せ
て、その組合せステップにおいて、Ｋ／２のデータ転送
のみが必要となるようにすることができる。したがっ
て、グレイコードデータマッピングからバイナリコード
データマッピングへの変換は、キューブ次元の順序（ｎ
−２），０，１，…，（ｎ−２）に沿ったデータブロッ
ク交換として実行され得る。ここで、各ステップは、サ
イズがＫ／２のデータブロックを交換する。

【００４３】付録Ｃは、ｎ次元ハイパーキューブ・マル
チプロセッサ・システムに対してグレイコードデータマ
ッピングからバイナリコードデータマッピングへのさら
に改良された変換を実行する、同期通信を必要とするこ
となしに、各ノードによって独立して実行可能な擬似コ
ードのリストを示す。各ノードのデータブロックの第２
半分の、他のサブキューブの対応するノードとの、（ｎ
−２）次元に沿った並列交換が、まず実行される。デー
タブロックの第１半分または第２半分のいずれのデータ
交換を、その交換が、そのノード自体に対して行うべき
か、またはJohnssonによって開示されたように他のサブ
キューブにおける相補的ノードに対して（ｎ−２）次元
に沿って行うかによって、行い、それによりノード間の
データリンクの全帯域幅が利用される。

【００４４】付録Ｃに示したようなデータブロック交換
は、キューブの次元の順序（ｎ−２），０，１，…，
（ｎ−２）に沿って行われる。ここで、最初の交換は、
２つの（ｎ−２）次元サブキューブの対応する対の間で
データブロックを交換することである。データ再割振り
動作の効率を示す“通信の複雑さ”は、

【００４５】

【数３】

【００４６】である。ここで、Ｔ_APPCは付録Ｃに従った
ハイパーキューブ・システムに対する通信の複雑さを示
す。

【００４７】１６ノードのインテルｉＰＳＣ／２ハイパ
ーキューブ・マルチプロセッサ・システムを、付録Ａ，
ＢおよびＣに記載したプログラム、すなわちＡＰＰＡ，
ＡＰＰＢおよびＡＰＰＣと共に用いて、グレイコードデ
ータマッピングからバイナリコードデータマッピングへ
の変換の通信の複雑さを測定する。ｉＰＳＣ／２でのす
べての測定時間は少なくとも１００回の実行の平均値で
ある。図６にこれら３つの擬似コードの実行の測定時間
を示す。図６より、ＡＰＰＣはＡＰＰＢより常に良いこ
とが認められる。小さなデータサイズに対しては、ＡＰ
ＰＡはＡＰＰＢおよびＡＰＰＣのどちらよりも速い。し
かしながら、大きいサイズ、すなわちＫが２０００バイ
トより大きい場合は、ＡＰＰＢおよびＡＰＰＣの性能は
ＡＰＰＡを越える。

【００４８】グレイコードデータマッピングをバイナリ
コードデータマッピングに変換する際の各ステップでの
相補的な属性は、ハイパーキューブに当てはまるだけで
なく、擬似ハイパーキューブまたは図７に示すような３
次元擬似ハイパーキューブ・マルチプロセッサ・システ
ム３００のようなハイパーキューブ・アーキテクチャの
スーパーグラフと一般に称される場合においても当ては
まる。３次元ハイパーキューブ・システムと比較して、
擬似ハイパーキューブ・システム３００では、ノード０
と２、１と３、４と６、および５と７の間を接続した、
追加のデータリンクが設けられている。ハイパーキュー
ブ・システムのために本発明で設けたデータ交換ステッ
プは、図７に示したような擬似ハイパーキューブ・シス
テムにも適用可能である。

【００４９】ハイパーキューブまたは擬似ハイパーキュ
ーブ・アーキテクチャの外にも、マルチプロセッサシス
テムを、２つ，３つあるいはそれ以上のサブグラフを有
することのできるスーパーグラフ・アーキテクチャに構
成することができる。図８，図９，図１０および図１１
の例に示すように、データブロック交換動作において、
サブグラフ間に相補的な属性がしばしば存在する。ここ
で、図８および図９は、２つの相補的なサブグラフを有
するスーパーグラフを示し、一方、図１０および図１１
は、特定のクラスのデータマッピング変換動作のため
の、３つの相補的なサブグラフを有するスーパーグラフ
を示す。１つのサブグラフにおける２つのノード間でデ
ータブロックが交換される時に、他のサブグラフにおけ
る対応するノード間でデータリンクが使用されないの
で、この場合にも、データ帯域幅の多くは用いられてい
ない。異なるデータマッピング間の変換の効率は、以下
のように改良することができる。まず、各プロセッサの
データブロックをほぼ同じサイズのｋ個の部分（part）
に分割する。次にサブグラフｉの各プロセッサは、その
ｊ番目の部分を、サブグラフｊにおける対応するプロセ
ッサのｉ番目の部分と並列に交換する。

【００５０】これらの並列前交換の後、データブロック
交換を、全ての相補的なノード間で同時に実行してデー
タリンクの全帯域幅を利用することができるようにす
る。同様の後交換を次に実行して、データを正しいサブ
グラフに再格納する。本発明を用いることにより、特に
大きなサイズのデータブロックの交換に対して、時間を
大きく節約することができる。

【００５１】特に、図１２は、表形式で、相補的データ
伝送のシーケンスを処理する前に実行されて、データ帯
域幅を完全に利用し、データ転送遅延を減少するデータ
交換を示す。図１２に示すように、各サブグラフのデー
タブロックは、３つの部分、すなわち、部分０，部分１
および部分２に分割される。ここで、これら部分は実質
的に等しいサイズである。並列前交換は、サブグラフｉ
の各プロセッサ（０≦ｉ≦２）および各部分ｊ（０≦ｊ
≦２かつｊ≠ｉ）に対して行われ、前記サブグラフｉの
プロセッサのｊ番目の部分を前記サブグラフｊの対応す
るプロセッサのｉ番目の部分と交換する。もともとサブ
グラフ０のノードに割当てられ、および部分１に分割さ
れたデータブロック、すなわち、図１２に示すようなデ
ータブロック（０，１）が、ここでサブグラフ１，部分
０における対応するノードに割当てられようとしてい
る。同様に（０，２）で示されるデータブロックが、サ
ブグラフ２，部分０における対応するノードに再割当て
されようとしている、等々。次に、対応する段階的相補
的なプロッセサとのデータの再配分のシーケンスを、こ
れらのプロセッサを接続するデータリンクの全帯域幅を
用いて、同時に行う。ついで、段階的相補的なデータの
再配分が完了した後に、図１２に示したところとは逆の
変換を実行する。

【００５２】

【発明の効果】サブグラフ０，１，…，（ｋ−１）で表
される少なくともｋ個のサブグラフを有するアーキテク
チャに構成されたマルチプロセッサ・コンピュータ・シ
ステムに対して、これらｋ個のサブグラフの各々は、こ
れらｋ個のプロセッサ間で相補的な対応するプロセッサ
と同じトポロジーを有する。より効率的なデータ再配分
動作は、まずプロセッサの各データブロックをほぼ概同
一サイズのｋ個の部分に分割することにより実現され
る。サブグラフｉの各プロセッサ（０≦ｉ≦ｋ−１）、
および各部分ｊ（０≦ｊ≦ｋ−１およびｊ≠ｉ）に対し
て、サブグラフｉのプロセッサのｊ番目の部分を、サブ
グラフｊの前記対応するプロセッサのｉ番目の部分と並
列に交換する。対応する相補プロセッサとのデータの再
配分を同時に行って、これらプロセッサ間のデータリン
クの全帯域幅を用いるようにする。ついで、データの再
配分が完了した後に、逆変換を行う。

【００５３】本発明を好適な実施例により説明してきた
が、そのような開示は、限定的に解釈されるものではな
い。種々の置換および変更は、上記開示を読んだ後、当
業者にとって明らかになることもちろんである。したが
って、特許請求の範囲は、本発明の真の精神および範囲
にある限り、全ての置換および変更を含むものと解釈こ
とを意図している。

【００５４】

【外１】

【００５５】

【外２】

【００５６】

【外３】

【図面の簡単な説明】

【図１】ハイパーキューブ・マルチプロセッサ・コンピ
ュータ・システムの再起的な構造の概略図である。

【図２】ハイパーキューブ・マルチプロセッサ・コンピ
ュータ・システムの再起的な構造を示す図１を他の方法
で示す概略図である。

【図３】グレイコードデータマッピングを有する、ハイ
パーキューブ・マルチプロセッサ・コンピュータ・シス
テムの概略図である。

【図４】バイナリコードデータマッピングを有する、ハ
イパーキューブ・マルチプロセッサ・コンピュータ・シ
ステムの概略図である。

【図５】Johnssonによるグレイコードからバイナリコー
ドへの変換の概略図である。

【図６】グレイコードからバイナリコードへの変換に必
要な時間の、Johnssonと本発明の比較を示すグラフであ
る。

【図７】擬似ハイパーキューブ・マルチプロセッサ・コ
ンピュータ・システムの概略図である。

【図８】スーパーグラフ・マルチプロセッサ・コンピュ
ータ・システムの概略図である。

【図９】図８に示したスーパーグラフの２つのサブグラ
フを示す概略図である。

【図１０】スーパーグラフ・マルチプロセッサ・コンピ
ュータ・システムのもう一つの例を示す概略図である。

【図１１】図１０に示したスーパーグラフの３つのサブ
グラフの概略図である。

【図１２】図１０および図１１のサブグラフの、段階的
に相補的なデータ伝送のシーケンスを処理する前に実行
するデータブロック交換を表の形態で示す表図でる。

フロントページの続き (72)発明者マンダヤムティ．ラグナースアメリカ合衆国 94704 カリフォルニア州バークレーヘイストストリート 1911

Claims

(57)【特許請求の範囲】

【請求項１】各プロセッサがｎビットのプロセッサア
ドレスと複数のデータブロックとを有し、前記プロセッサアドレスの各ビットで表わされるｎ個の
次元の各々に沿って前記プロセッサが配置された、ｎ次
元ハイパーキューブ・マルチプロセッサ・コンピュータ
・システムにおける、グレイコードデータマッピング
（１００）からバイナリコードデータマッピング（２０
０）へ変換するデータ割振方法であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換するステップ
と、（ｂ）各プロセッサにおいてインデックスｉ（ｉは０か
らｎ−２）に対して、次のステップ、すなわち（ｉ）そのプロセッサアドレスのグレイコードの、（ｉ
+ １）番ビットの値が１であるか否かを判断するステッ
プ、および（ｉｉ）前記値が１と判断された場合に、前記データブ
ロックの第１半分を、前記プロセッサアドレスのｉ番ビ
ットの次元に沿って、隣接するプロセッサと交換し、他
の場合には前記データブロックの第２半分を、ｉ番ビッ
トの次元に沿って、隣接するプロセッサと交換するステ
ップを並列に実行するステップとを備えたことを特徴と
するデータ割振方法。
【請求項２】ｎ次元ハイパーキューブ・アーキテクチ
ャに構成した複数のプロセッサを有するコンピュータ・
システムにおいて、各プロセッサが、前記ｎ次元の各次元における値を各々示すｎ個のビット
を有するｎ次元プロセッサアドレスと、複数のデータブロックとグレイコードデータマッピング
（１００）からバイナリーコードデータマッピング（２
００）へ変換するデータ割振を行う手段であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換し（ｂ）各プロセッサでインデックスｉ（ｉは０からｎ−
２）に対して、次の処理、すなわち（ｉ）そのプロセッサアドレスのグレイコードの、（ｉ
+ １）番ビットの値が１であるか否かを判断する処理、
および（ｉｉ）前記値が１と判断された場合に、前記データブ
ロックの第１半分を前記プロセッサアドレスのｉ番ビッ
トの次元に沿って、隣接するプロセッサと交換し、他の
場合には前記データブロックの第２半分をｉ番ビットの
次元に沿って、隣接するプロセッサと交換する処理を並
列に実行する手段とを備えたことを特徴とするコンピュ
ータ・システム。
【請求項３】ｎ次元ハイパーキューブ・アーキテクチ
ャのスーパーグラフに構成した複数のプロセッサを有す
るコンピュータ・システムにおいて、各プロセッサが、前記ｎ次元の各次元における値を各々示すｎ個のビット
を有するｎ次元プロセッサアドレスと、複数のデータブロックとグレイコードデータマッピング
（１００）からバイナリーコードデータマッピング（２
００）へ変換するデータ割振を行う手段であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換し（ｂ）各プロセッサでインデックスｉ（ｉは０からｎ−
２）に対して、次の処理、すなわち（ｉ）そのプロセッサアドレスのグレイコードの、（ｉ
+ １）番ビットの値が１であるか否かを判断する処理、
および（ｉｉ）前記値が１と判断された場合に、前記データブ
ロックの第１半分を前記プロセッサアドレスのｉ番ビッ
トの次元に沿って、隣接するプロセッサと交換し、他の
場合には前記データブロックの第２半分をｉ番ビットの
次元に沿って、隣接するプロセッサと交換する処理を並
列に実行する手段とを備えたことを特徴とするコンピュ
ータ・システム。
【請求項４】各ステップにおいて相補的な２つのサブ
グラフを有する再帰的ｎ次元アーキテクチャに構成され
た複数のプロセッサを有するコンピュータ・システムに
おいて、各プロセッサが、前記ｎ次元の各次元における値を各々示すｎ個のビット
を有するｎ次元プロセッサアドレスと、複数のデータブロックとグレイコードデータマッピング
（１００）からバイナリーコードデータマッピング（２
００）へ変換するデータ割振を行う手段であって、（ａ）各プロセッサのデータブロックの第２半分を、前
記プロセッサアドレスの（ｎ−２）番ビットの次元に沿
って、隣接するプロセッサと並列に交換し（ｂ）各プロセッサでインデックスｉ（ｉは０からｎ−
２）に対して、次の処理、すなわち（ｉ）そのプロセッサアドレスのグレイコードの、（ｉ
+ １）番ビットの値が１であるか否かを判断する処理、
および（ｉｉ）前記値が１と判断された場合に、前記データブ
ロックの第１半分を前記プロセッサアドレスのｉ番ビッ
トの次元に沿って、隣接するプロセッサと交換し、他の
場合には前記データブロックの第２半分をｉ番ビットの
次元に沿って、隣接するプロセッサと交換する処理を並
列に実行する手段とを備えたことを特徴とするコンピュ
ータ・システム。
【請求項５】少なくとも２つのサブグラフを有するア
ーキテクチャに構成された複数のプロセッサ間でデータ
ブロックを再割振するデータ割振方法において、少なくとも第１および第２のサブグラフが、同一のトポ
ロジーと、前記再割振の各ステップにおいて相補的な、
対応するプロセッサとを有し、（ａ）前記第１のサブグラフにおけるプロセッサのデー
タブロックの第１半分を前記第２のサブグラフの対応す
るプロセッサのデータブロックの第１半分と並列に交換
するステップと、（ｂ）前記２つのサブグラフの各々で、プロセッサ間の
前記再割振を同時に行うステップと、（ｃ）前記第１のサブグラフおよび前記第２のサブグラ
フの前記プロセッサの間で、データブロックの第１半分
を、ステップ（ａ）とは逆方向に交換するステップとを
備えたことを特徴とするデータ割振方法。
【請求項６】少なくとも２つのサブグラフを有するア
ーキテクチャに構成された複数のブロセッサを有し、少
なくとも第１のサブグラフおよび第２のサブグラフが同
一のトポロジーを有し、対応するプロセッサがデータ再
割振に対して各ステップで相補的であるコンピュータ・
システムにおいて、各プロセッサが複数のデータブロッ
クと、前記データ再割振を行う手段であって、（ａ）前記第１のサブグラフにおけるプロセッサのデー
タブロックの第１半分を前記第２のサブグラフの対応す
るプロセッサのデータブロックの第１半分と並列に交換
し、（ｂ）前記２つのサブグラフの各々で、プロセッサ間の
前記再割振を同時に行い、（ｃ）前記第１のサブグラフおよび前記第２のサブグラ
フの前記プロセッサの間で、データブロックの第１半分
を、ステップ（ａ）とは逆方向に交換する、手段とを備
えたことを特徴とするコンピュータ・システム。
【請求項７】少なくともサブグラフ０、１、…、（ｋ
−１）で示されるｋ個のサブグラフを有するアーキテク
チャに構成された複数のプロセッサ間で、データブロッ
クを再割振するデータ割振方法において、前記ｋ個のサブグラフの各々は、同一のトポロジーと、
前記再割振の各ステップにおいて相補的な、対応するプ
ロセッサとを有し、（ａ）プロセッサの各データブロックを、ほぼ同一サイ
ズのｋ個の部分に分割するステップと、（ｂ）連続するインデックスｉ（０≦ｉ≦ｋ−１）およ
び連続するインデックスｊ（０≦ｊ≦ｋ−１かつｊ≠
ｉ）に対して、サブグラフｉのプロセッサのｊ番目のデ
ータ部分を、サブグラフｊの前記対応するプロセッサの
ｉ番目のデータ部分と並列に交換するステップと、（ｃ）前記対応する各ステップで相補的なプロセッサに
より前記再割振を同時に実行するステップと、（ｄ）前記ステップ（ｂ）を再度行うことにより前記ス
テップ（ｂ）とは逆方向の交換を行うステップとを備え
たことを特徴とするデータ割振方法。
【請求項８】少なくともサブグラフ０、１、 …、
（ｋ−１）で示されるｋ個のサブグラフを有するアー
キテクチャに構成された複数のプロセッサを有し、前記
ｋ個のサブグラフの各々は同一のトポロジーをもち、対
応するプロセッサが、前記ｋ個のサブグラフのプロセッ
サ間のデータ再割振の各ステップで相補的であるコンピ
ュータ・システムにおいて、前記各プロセッサが、複数のデータブロックと、前記データ再割振動作を行う手段であって、（ａ）プロセッサの各データブロックを、ほぼ同一サイ
ズのｋ個の部分に分割し、（ｂ）連続するインデックスｉ（０≦ｉ≦ｋ−１）およ
び連続するインデックスｊ（０≦ｊ≦ｋ−１かつｊ≠
ｉ）に対して、サブグラフｉのプロセッサのｊ番目のデ
ータ部分をサブグラフｊの前記対応するプロセッサのｉ
番目のデータ部分と並列に交換し、（ｃ）前記対応する各ステップで相補的なプロセッサに
より前記再割振を同時に実行し、（ｄ）前記（ｂ）を再度行うことにより前記（ｂ）とは
逆方向の交換を行う、手段とを備えたことを特徴とするコンピュータ・システ
ム。