JP4127791B2

JP4127791B2 - コンピューティング構造のグローバル・ツリー・ネットワーク

Info

Publication number: JP4127791B2
Application number: JP2002568222A
Authority: JP
Inventors: ブルムリッチ、マサイアス、エー; チェン、トン; コテウス、ポール、ダブリュー; ガラ、アラン、ジー; ジャンパパ、マーク、イー; ハイデルベルガー、フィリップ; ホーニック、ダーク; スタインマクサー−バロー、バークハード、ディー; タッケン、トッド、イー; ヴラナス、パヴロス、エム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-02-24
Filing date: 2002-02-25
Publication date: 2008-07-30
Anticipated expiration: 2022-02-25
Also published as: US7650434B2; EP1381959A4; US20040078493A1; KR20040002870A; EP1381959A1; JP2004536372A; WO2002069168A1; CN1493040A; CA2437661A1; IL157512A0; CN100476785C; KR100553143B1

Description

本発明は、全般的には分散メモリ・メッセージ受渡並列コンピュータの設計およびシステム・ソフトウェアに関し、具体的には、たとえば大量並列分散メモリ・コンピュータで使用される個々のプロセッサを相互接続する新規の方法および装置に関する。

大量並列コンピューティング構造（「ウルトラスケール・コンピュータ」または「スーパーコンピュータ」とも称する）では、多数の計算ノードが、一般に、グリッド、格子、またはトーラスなどの非常に規則的な構造の形で相互接続される。

そのような大量並列システムで一般に直面する問題の１つが、多数のノードを伴う集合的な算術演算または論理演算の効率的な計算である。そのようなシステムで一般に直面する第２の問題が、すべてのノードによる限られた数の外部入出力の効率的な共用である。多数の計算ノードでの集合算術演算を用いる一般的な計算の１つの例が、グローバル合計に基づくグローバル内積を必要とする疎な線形方程式の反復解法である。

端で「ラップ」される単純な３次元最近傍相互接続を含む図１に示された３次元トーラス相互接続コンピューティング構造１０は、ほとんどのタイプのプロセッサ間通信でよく機能するが、計算ノード１２のそれぞれによって供給されるオペランドから単一の結果が計算されるリダクションなどの集合演算については、または外部入出力接続（図示せず）などの限られたリソースの効率的な共用については、それほどよく実行しない。

したがって、グローバル・リダクション計算などのグローバル算術演算、データ分配、同期化、および限られたリソースの共用を必要とするものを含む多数のクラスの動作を効率的に信頼性のある形で実行するために最適化された処理ノードの独自の相互接続を含む、ウルトラスケール・スーパーコンピューティング・アーキテクチャを提供することが、非常に望ましい。

トーラスなどの高速ネットワークの通常の接続性は、単純に、より長い待ち時間のゆえに、この目的に完全に適してはいない。

すなわち、物理トーラス相互接続へのツリー通信パターンの単なるマッピングは、隣接するツリー・ノードがトーラス上で隣接することが必要である場合に、必要以上に深いツリーをもたらし、あるいは、これらのノードがトーラス内で隣接しない時に、より長い待ち時間を有するツリーをもたらす。相互接続リソースが限られる時に最も効率的に集合演算を計算するためには、真のツリー・ネットワークすなわち、ノードの間の物理的相互接続が、ノードをツリーに形成するネットワークが必要である。

本発明の目的は、コンピューティング構造の個々の処理ノードを相互接続し、その結果、これらのノードが効率的に信頼性のある形でグローバル・リダクションを計算し、データを分配し、同期化し、限られたリソースを共用できるようにするシステムおよび方法を提供することである。

本発明のもう１つの目的は、ツリー相互接続として配置され、グローバル動作、算術演算、および集合動作を容易にする、大量並列分散メモリ・コンピュータの個々のプロセッサを相互接続する独立の単一の物理ネットワークを提供することである。

本発明のもう１つの目的は、物理ネットワークのサブツリーである仮想ツリー・ネットワークの１つまたは複数のノードに外部入出力およびサービス機能性を提供するグローバル・ツリー相互接続として配置される、大量並列分散メモリ・コンピュータの個々のプロセッサを相互接続する独立の単一の物理ネットワークを提供することである。そのようなグローバル・ツリー相互接続システムに、メッセージ受渡トーラスまたはグリッド・コンピューティング構造からメッセージ・トラフィックを離す専用の入出力ノードを含めることができる。

本発明によれば、ツリー・ネットワーク構造に従って相互接続された処理ノードの間での高速短待ち時間グローバル通信を可能にするシステムおよび方法が提供される。グローバル・ツリー・ネットワークによって、複数の相互接続された処理ノードを有するコンピュータ構造内で実行される並列アルゴリズム動作中に集合リダクション動作を実行することが、最適に可能にされる。リンクを介してツリーのノードを相互接続するルータ装置が含まれて、ツリーのノードでの短待ち時間グローバル処理動作の実行が容易になる。ツリー・ネットワーク内の全ノードのサブセットを構成する「仮想ツリー」の定義を可能にする構成オプションが含まれる。グローバル動作に、仮想ツリーのルート・ノードから葉ノードへのグローバル・ブロードキャスト動作（すなわち、下流方向へのグローバル・ブロードキャスト動作）、仮想ツリーの葉ノードからルート・ノードへのグローバル・リダクション動作（すなわち、上流方向へのグローバル・リダクション動作）、および仮想ツリーの任意のノードからルート・ノードへのポイントツーポイント・メッセージ受渡の１つまたは複数が含まれる。仮想ツリー・ネットワークの１つのノードが、入出力ノードに結合され、入出力ノードとして機能して、仮想ツリーの各ノードに外部システムとの入出力機能性を与える。グローバル・ツリー・ネットワークを構成して、同期式または非同期の形でグローバル・バリアおよび割込み機能性を提供することができる。したがって、たとえば並列コンピューティング・システムで使用される、並列アルゴリズム処理動作を、並列アルゴリズム動作のある動作相に従って最適に実行することができる。大量並列スーパーコンピューティング構造で実施される時に、グローバル・ツリー・ネットワークは、処理アルゴリズムの必要に従って、物理的および論理的に分割可能である。

大量並列コンピュータでは、計算ノードのすべてが、一般に、ファイル・システムなどの外部リソースへのアクセスを必要とする。限られた数の外部入出力接続を効率的に共用するという問題は、そのような接続を設けるコストが、個々の計算ノードのコストよりかなり高いので生じる。したがって、入出力接続を効率的に共用することによって、入出力帯域幅がシステム・スケーラビリティに関する制限的コスト要因にならないことが保証される。限られたプロセッサ間相互接続を仮定すると、平均待ち時間に関する単一リソース共用の最も効率的なネットワークは、共用リソースがツリーのルートにあるグローバル・ツリーである。

グローバル動作および集合動作に関して、単一の大きいツリーを使用して、すべてのプロセッサを相互接続することができる。しかし、ファイル・システム入出力は、入出力機能がルートにある、多数の小さいツリーを必要とする。大きいツリーには、複数のより小さいサブツリーが含まれるので、外部接続を大きいツリー内の適当なサイズのサブツリーのルート戦略的に配置することによって、ファイル・システム入出力に単一の大きいツリーを使用することができる。さらに、ファイル・システム入出力は、本発明によって使用可能にされ、集合動作には必要ない、ポイントツーポイント・メッセージングを必要とする。

有利なことに、本発明のグローバル・ツリー・ネットワークを組み込んだスケーラブル大量並列スーパーコンピュータは、生命科学の分野で実行される並列アルゴリズムによく適する。

本発明の装置および方法のさらなる特徴、態様、および長所は、以下の説明、請求項、および添付図面に関してよりよく理解される。

本発明は、コンピュータ構造、例えば広範囲のアプリケーションにテラＯＰＳ（１兆演算毎秒）程度の処理能力を引き渡すように設計された、３次元トーラスの形の新規の大量並列スーパーコンピュータ・アーキテクチャで実施されうる。この大量並列スーパーコンピュータ・アーキテクチャは、説明される例示的実施形態で、６４×３２×３２個の３次元トーラスとして編成された６５５３６個の処理ノードが含まれ、各処理ノードは、６つの隣接するノード１２に接続される。図１に、８つのノード１２からなるそのようなトーラスを示すが、３つのすべての次元に沿ってノード１２の数を増やすことによって、この相互接続がどのようにスケーリングされるかが、明らかにわかる。現在の技術を用いると、このアーキテクチャを、通信よりかなり多くの計算を必要とするか、最近傍通信だけを必要とするアプリケーションに、数百テラＯＰＳまで活用することができる。本発明を、スーパーコンピュータ以外の多数の他のコンピュータ構造で実施できることを理解されたい。

前に述べたように、トーラス処理ノードを接続する相互接続ネットワークは、ほとんどのタイプのプロセッサ間通信でよく機能するが、ノードのそれぞれによって供給されるオペランドから単一の結果が計算されるリダクションなどの集合演算については、それほどよく機能しない。

トーラスでの集合リダクション動作を実行する、最小待ち時間に関する最も効率的な機構は、真のツリー・ネットワークすなわち、ノード間の物理接続によってノードがツリーに形成されるネットワークを提供することである。

したがって、本発明の好ましい実施形態によれば、ノードＡＳＩＣごとに１つの複数の相互接続されたルータ装置を含むグローバル・ツリー・ネットワークが提供される。各ルータは、３つの「子」ポートおよび１つの「親」ポートを提供し、このポートのそれぞれが、選択的に使用可能にされる。２つの子ポートは、ツリー・トポロジを作成するのに十分である。より多くの子によって、ツリーの高さ、またはルートに達するのに必要な接続が減る。したがって、より多くの子によって、より多くの相互接続を犠牲にして、集合動作の待ち時間を減らすことができる。ツリーは、親を有しない（すなわち、その親ポートに何も接続されていない）「ルート」ノードから開始することによって形成される。ルート・ノードは、ツリーの最上位「レベル」を形成する。次の下のレベルは、１つまたは複数のルートの子ポートを他のルータの親ポートに接続することによって形成される。この場合に、ルート・ノードは、その下のレベルのノードの「親」である。この処理は、子を有しない（すなわち、そのルータの子ポートのどれにも何も接続されない）ノードに達するまで再帰的に継続される。これらのノードを、ツリーの「葉」と称する。たとえば、図２の例のツリー・ネットワーク１００に示されているように、ノードＢ１１０が、ルート・ノードであり、葉は、ルート・ノードから最も遠い最下部のノード１２０である。本明細書では、ツリーを上にルートに向かって移動するデータを、「アップ・ツリー」トラフィックと称し、ルートから離れて葉に向かって移動するデータを、「ダウン・ツリー」トラフィックと称する。

下で詳細に説明するように、ツリー・ネットワークに、ルータ（ノード）を相互接続するリンク上の仮想チャネルによってサポートされる、複数の独立の「仮想ネットワーク」を含めることができる。リンクを共用するために、仮想ネットワーク・データ・ストリームが、パケット化され、公平な形でインターリーブされる。仮想ネットワークのそれぞれが、それ自体のストレージ・リソースを有し、ある仮想ネットワークでの機能デッドロックは、他の仮想ネットワークに影響しない。

各仮想ネットワークを、仮想ツリー（またはサブツリー）にさらに再分割することができ、この仮想ツリーは、独立（各仮想ネットワーク内で）または非独立とすることができる。任意のノードを、１６個の仮想ツリーの１つのルートになるように構成することができる。仮想ツリーには、ルートとして指定されたノードと、ａ）同一の仮想ツリー番号のルートとしても指定されたノードと、ｂ）ａ）を満足するノードの子とを除く、ルートの子のすべてが含まれる。したがって、同一の仮想ツリー番号を有する仮想ツリーは、オーバーラップすることができないが、異なる番号を有する仮想ツリーは、オーバーラップすることができる。

ノードを、任意の数の仮想ツリーに参加するか、全く参加しないように構成することができる。参加する場合に、ノードは、リダクション動作にオペランドを与えるなど、すべてのツリー・セマンティクスに従うことが期待される。ノードは、複数の仮想ツリーに参加することができるので、ノードが仮想ネットワークに注入するすべてのパケットについて、仮想ツリー番号を指定しなければならない。

本発明に従って使用される例のツリー構造１００を、図２に示す。具体的に言うと、図２には、３５個のノード（円によって表される）と、３５個のノードのすべてを接続するツリー・ネットワーク１００を含む仮想ツリー・ネットワークの例が示されている。ツリー・ネットワーク１００は、これから詳細に示すように、グローバル・リダクションおよびブロードキャストに使用される。入出力および外部システムとのリソース共用のために、図２の例の仮想ネットワーク１００のノードは、仮想ツリー１から５として図２で参照される５つのオーバーラップしない仮想サブツリーにグループ化される。すなわち、仮想サブツリーのそれぞれが、円の中の異なる番号によって示される。各めいめいのサブツリー１から５のめいめいのルートにあるノード１１１、１１２、１１３、１１４、および１１０には、外部システム（たとえばホストまたはファイル・システム）へのインターフェース接続が含まれる。したがって、各入出力接続では、それがルートに接続されるサブツリーの７つのノードのすべてのトラフィックが処理される。好ましい実施形態では、各サブツリーのルートにあるノードが、入出力専用であるが、これが必ず必要なわけではない。

図２および、そのルートにノードＡ１１１がある仮想ツリー番号１を参照すると、この構造から外にデータを送ることを望む通常のノード１１５は、メッセージを、上に、仮想ツリーのルート・ノード１１１に渡し、このルート・ノード１１１で、メッセージが外部接続に転送される。外部ネットワーク接続に達するデータを、本明細書で詳細に説明するように、他のすべてのノードをフィルタ・アウトするブロードキャスト・フィルタを使用することによって、１１５などの特定のノードに転送することができる。

図２に戻ると、一般に、入出力トラフィックは、そのルートに外部接続を有する仮想ツリー内に残る。しかし、外部接続に障害が発生する場合に、外部接続を有するもう１つのノードを、フェイルオーバに使用することができる。たとえば、図２のノードＡ１１１への外部入出力接続に障害が発生する場合に、ルートがノードＡであるサブツリー内のノードのすべてが、ノードＢ１１０を介して外部のファイル・システムまたはホスト・システムと通信することができる。

ネットワーク１００内に作られるハードウェア機能性に、整数加算、整数最大値、最小値、ビット単位論理AND、ビット単位論理OR、ビット単位論理XOR（排他的OR）、およびブロードキャストが含まれるが、これに制限されないことを理解されたい。これらの機能は、最短待ち時間が可能な形で実施される。たとえば、加算機能は、ワードの最下位バイトがまずグローバル・ネットワークに送られることをもたらす。この下位バイトは、即座に他のソースからの他方のバイトに加算され（ハードウェア内で）、結果は、ツリーの次のレベルにシフト・アウトされる。この形で、たとえば８バイト・ワードが、上位バイトがシフト・アウトされる前に、既にツリーの複数の層を上に進行している。最小値および減算などの他の算術機能を、データの適当な事前条件設定によって達成することができる。浮動小数点合計も、ツリーでの２パスによって、グローバル・コンバイニング・ツリーなしでこの結果を達成する方法と比較して非常に短い待ち時間で、達成することができる。必ず、ツリーでの算術演算または論理演算が、ツリーの上への流れをもたらし、ツリーの上部ですべての結果が組み合わされ、後続のルートからツリーの下への流れがもたらされ、結果がすべての分岐に分配される。後で説明するように、ある種の分岐を、制御された形で計算から省略することができる。

好ましい実施形態では、本発明のグローバル・ツリー・ネットワークに、ノードごとに１つの、それぞれがデータの移動ならびに集合リダクションの計算を行う、相互接続されたルータが含まれる。図３に、図２のツリー・ネットワークのルータ装置２００の基本的なアーキテクチャを示す。図３からわかるように、各ルータ装置２００には、複数の、たとえば４つの、ポートが含まれ、これらのポートを、別のルータに接続する、または接続されない時に使用不可にするのいずれかが可能である。図３からわかるように、ルータは、４つの入力ポート２１０ａから２１３ａと、対応する４つの出力ポート２１０ｂから２１３ｂを有して、３ツリーを構成できるデータパスを形成する。一実施形態では、４つのポートの１つだけを、親ノードへの接続として指定することができ、残りのポートのうちの３つまでを、子ノードに接続することができる。ツリーの最下部の葉ノードは、親に接続された１つのポートだけを使用可能にされ、ツリーのルートは、親を使用可能にされるのではなく、少なくとも１つの子を使用可能にされる。データパスが、図３に示されているようにクロスバ・スイッチ２１５を介して作成されることを理解されたい。

説明のために、図３のルータ装置２００では、データが必ず左から右に流れる。したがって、パケットは、ローカル注入ＦＩＦＯ２０２またはルータの入力ポート２１０ａから２１３ａの１つのいずれかからルータ装置２００に入ることができる。パケットがポートに入る場合に、そのパケットは、それが２つの仮想ネットワークのどちらであるかに応じて、２つの入力ＦＩＦＯの１つ（たとえばＡまたはＢ）に置かれる。パケットは、最終的に、アップ・ツリー選択ブロック２２０内に設けられるＡＬＵユニット２４０によって実行される論理演算および算術演算か、ダウン・ツリー選択ブロック２３０のいずれかによって消費される。アップ・ツリー論理またはダウン・ツリー選択の結果は、４つの出力ポート２１０ｂから２１３ｂのすべてにブロードキャストされ、これらの出力ポートのそれぞれは、動作に応じてそれを処理することもしないこともでき、宛先のポートに出力する。選択ブロック２２０および２３０には、パケット（１つまたは複数）がルータを介して移動されるかどうかを判断するアービタ回路（図示せず）が含まれる。アップ・ツリーとダウン・ツリーで同時にトラフィックがある場合があることを理解されたい。

ツリーへのソフトウェア・アクセスは、注入インターフェース２０２および受取インターフェース２０４と、１組の構成レジスタ２１８によってもたらされる。一般に、構成レジスタ２１８は、ルータを構成し、その状況を判定するのに使用され、注入インターフェース２０２および受取インターフェース２０４は、アプリケーションによって、それぞれオペランドを供給し、結果を受け取るのに使用される。具体的に言うと、各仮想ツリーは、各ルータの仮想ツリー構成レジスタ２１８に適当な値を保管することによって構成され、この仮想ツリー構成レジスタ２１８は、仮想ツリーごとに１つある。仮想ツリーのそれぞれについて、構成レジスタによって、ノードが、１）ツリーのルートとして機能するか否か、２）ツリーに参加するか否か、および／または３）アップ・ツリー・ブロードキャスト・パケットの受取を強制するか否かを指定できるようになる。さらに仮想ツリー構成レジスタ２１８によって、子のうちのどれが、ツリーに参加する、またはその下に参加するノードを有するのいずれかであることを指定できるようになる。これは、疎なツリーをサポートするのに必要である。

アプリケーションは、ＣＰＵ注入２０２インターフェースおよびＣＰＵ受取２０４インターフェースを介してツリーと相互作用する。データは、明示的または直接メモリ・アクセス（ＤＭＡ）を介するのいずれかで、パケットとして注入インターフェース２０２に保管されることによって、ツリーに送られる。同様に、結果は、明示的にまたはＤＭＡを介するのいずれかで、受取インターフェース２０４からパケットとして読み取られることによって、ツリーから除去される。

図示されてはいないが、ルータの間で、たとえばスラックの価値がある複数のパケットを許可するトークンベースのプロトコルを使用して、フロー制御技法が実施されることを理解されたい。すなわち、使用可能にされているすべての出力ポート２１０ｂから２１３ｂが、別のルータの単一の入力ポートに接続される。一般に、その入力ポートの各仮想チャネルは、出力ポートの対応する仮想チャネルに、その入力ＦＩＦＯ内のバッファ空間の価値があるすべてのパケットに関するトークンを与える。出力ポートは、パケットを送出する際にトークンを消費し、入力ポートは、ＦＩＦＯ空間を解放するかのように出力ポートにトークンを返す。したがって、出力ポートは、使用可能なトークンを有する限り、パケットの送出を継続することができる。

好ましい実施形態のルータ装置内の演算論理装置（ＡＬＵ）ブロック２４０は、４つのオペランド・サイズに対する５つのリダクション動作を実行するために使用可能にされる。動作は、整数加算、整数最大値、ビット単位論理OR、ビット単位論理XOR、およびビット単位論理ANDである。オペランド・サイズは、３２ビット、６４ビット、１２８ビット、および２０４８ビットである。図３に示されたアーキテクチャで、動作またはオペランド・サイズに関する異なる選択が除外されないことを理解されたい。具体的に言うと、ソフトウェアを使用して、動作およびオペランド・サイズを選択する。

通常、リダクション動作に参加するノードは、ＣＰＵ注入ＦＩＦＯ２０２に保管することによって、「リダクション」タイプのパケットを注入する。リダクションは、パケットの粒度で実行され、パケットは、一実施形態によれば、たとえば２５６バイトのペイロードを担持する。個々のパケットは、必ず同一サイズのオペランドを担持し、オペランドのすべてに対して同一のリダクションを実行する。どのノードでも、各仮想ツリーのリダクションに参加しないように構成することができる。この場合に、ノードは、リダクションにデータを供給せず、結果を受け取らない。

仮想ツリーのそれぞれについて、ルータ装置２００は、子のどれがリダクションに参加するかを指定するように構成される。ルータ装置は、そのルータの参加する子のそれぞれおよびローカル注入ＦＩＦＯ（ローカル・ノードが参加していないのでない限り）からリダクション・パケットを受け取る時に、パケットの内容に対して、指定されたリダクション動作を計算し、結果を単一のパケットとして親に送る。すなわち、各パケットの第１ワードを組み合わせて、結果パケットの第１ワードを作る、各パケットの第２ワードを組み合わせて、結果パケットの第２ワードを作り、以下同様である。この形で、グローバル結果が、ツリーの上へ再帰的に計算され、最終的に、リダクション・ツリーのルート・ノードで、結果を含む単一のパケットとして完了する。

どのノードでも、仮想リダクション・ツリーのルートとして構成できることが好ましい。リダクションがそのノードに達したならば、単一の組み合わされたパケットが、受け取られるか、すべての参加する子にブロードキャストされるか、その両方である。ルータは、ダウン・ツリーの子ノード宛のリダクション・パケットを受け取る時に、そのパケットのコピーをその子のそれぞれに転送する。ルータは、その仮想ツリー上のリダクションに参加するように構成されている場合に、そのパケットのコピーをローカル受取ＦＩＦＯ２０４にも置く。

好ましい実施形態では、物理的な相互接続の幅が、オペランドの幅より狭く、したがって、オペランドは、直列化された形でツリー上で送られる。可能な最短待ち時間を達成するために、整数オペランドは、最下位ビットを先に送られ、その結果、オペランドが到着する際に結果を計算でき、転送もできるようにされる。この形で、結果は、潜在的に、その上位ビットがシフト・アウトされる前にツリーの数レベル上に進行し、すべてのノードにわたる非常に短い待ち時間がもたらされる。数は、異なる最上位のビットに基づいて異なることがわかるので、パイプライン化された最大値演算が、最上位ビットを含むワードから開始して計算されることを理解されたい。ハードウェアは、注入され受け取られる最大値オペランドを自動的に逆転し、その結果、計算が、最上位ビットから最下位ビットへと実行される。

整数リダクションをさらに使用して、浮動小数点リダクションを計算することができる。たとえば、グローバル浮動小数点合計を、ツリーを２回使用することによって実行することができ、この場合に、１回目で、すべての指数の最大値を求め、２回目で、すべてのシフトされた仮数を加算する。

前に述べたように、本発明のツリー・ネットワーク１００は、効率的なグローバル・ブロードキャストを実行するのに理想的な構造である。ハードウェア・ブロードキャスト動作は、必ずツリーのルートから実行されるが、どのノードでも、まずルート・ノードのルータ装置にポイントツーポイント「ブロードキャスト」タイプ・メッセージを送ることによってブロードキャストすることができ、このメッセージによって、ブロードキャストが自動的に開始される。グローバル・ブロードキャストでは、大部分は、リダクションの規則および制限が尊重されるが、アップ・ツリーでの挙動は異なる。どのノードでも、ブロードキャスト・タイプのパケットを仮想ツリーに注入することによって、ペイロードのブロードキャストを実行することができる。パケットは、仮想ツリーのルートとして構成されたノードに達するまで、変更されずにツリーを上へ移動する。ルートでは、パケットが向きを換え、その仮想ツリーの参加する子のすべてにブロードキャストされる。したがって、そのパケットは、仮想ツリー上のリダクションに参加するノードによってのみ受け取られる。

本発明によるブロードキャストの受取は、さらに、パケット内に含まれる情報をフィルタリングすることによって制御される。好ましい実施形態のフィルタリング機構は、パケットに含まれる値を、各ルータに保管された事前に構成された値と突き合わせ、値が一致する場合に限ってパケットを受け取ることによって機能する。一般に、システム内のすべてのノードに、一意の値（アドレス）が割り当てられ、したがって、このブロードキャスト・フィルタリング機構によって、ルート・ノードからその下の単一のノードにメッセージを送れるようになる。一意でないアドレスを使用して、ノードのサブセットによる受取を引き起こすこともできる。ブロードキャスト・フィルタリングを一般化できる多数の形がある。たとえば、アドレスの代わりにビット・ベクトルを使用することによって、ノードの複数のばらばらの構成可能なサブセットがブロードキャストを受け取れるようになる。

外部入出力接続の効率的な共用は、ブロードキャスト・フィルタリングと「ルート」パケット・タイプの組合せによってもたらされる。ルートタイプ・パケットは、仮想ツリーのルートとして指定されたノードに出会うまで常に仮想ツリーを上に移動し、そのノードで、無条件で受け取られる。これによって、ルート以外のノードがルートにメッセージを送れるようになり、ルートで、メッセージを外部接続に転送することができる。外部接続に達するデータを、所期の宛先と一致するアドレスを用いたフィルタリング・ブロードキャストを使用して、特定の非ルート・ノードに転送することができる。

外部接続に障害が発生する場合に、その接続を使用するノードは、ツリーの上側で外部接続を有する次のノードにフェール・オーバすることができる。ノードからのトラフィックに関して、これは、単に、障害を発生した外部接続を有するノードを再構成し、その結果、そのノードが、もはや仮想ツリーのルートにならないようにし、フェールオーバ・ノードを新しいルートとして再構成することによって実行される。ノードへのトラフィックは、より複雑である。というのは、フェールオーバ・ルートからのブロードキャストが、障害を発生したノードの下の子だけではなく、フェールオーバ・ルートの下のすべての子に向かうからである。たとえば、図２のノードＡ１１１が、ノードＢ１１０にフェール・オーバする場合に、ノードＢからのパケットが、ツリー全体にブロードキャストされるようになる。

不要なトラフィックを防ぐために、どのルータ装置でも、各仮想ツリーのダウン・ツリー・トラフィックを独立にブロックするように構成することができる。ブロックするように構成された仮想ツリーのアップ・ツリー・リンクのルータに入るパケットは、単純に捨てられる。たとえば、図２のノードＡ１１１の下のノードが、ツリー１という符号を付けられた仮想ツリーを使用して、ノードＡ１１１の接続を使用して外部入出力を送受すると仮定する。ノードＡでの接続をノードＢにフェール・オーバするために、ノードＢを、ノードＡの代わりに仮想ツリー１のルートになるように構成し、ノードＣおよびノードＤを、仮想ツリー１のダウン・ツリー・トラフィックをブロックするように構成する。このダウン・ツリー・ブロック機構を、仮想ツリーの枝刈りに一般的に使用できることを理解されたい。

どのパケットでも、割込み要求を付加してツリー・ネットワークに注入することができる。これの最終的な効果は、そのパケットを受け取るすべてのノードでマスク可能割込みを引き起こすことであり、あるいは、リダクションの場合には、パケットから結果が計算される。リダクション結果は、その結果に寄与する注入されたパケットのどれかによって割込みが要求された場合に、割込みを引き起こす。さらに、グローバル・リダクション動作を使用して、割込み機構を用いてソフトウェア・バリアを実行することができる。簡単に言うと、各ノードは、その割込みフラグをクリアし、その後、グローバル・リダクションに寄与することによって、バリアに入る。このノードは、割込みフラグをポーリングするか、割込みを受け取ることによって、バリアの完了を検出する。

本発明のツリー・ネットワークでは、基本的な順序付けの規則に従う動作である限り、動作の正しい完了が保証される。すなわち、パケットは、受け取られた順序でルータ２００によって処理されるので、仮想ネットワークのデッドロックは、仮想ツリーでの動作に参加するノードが、同一の順序でリダクション・オペランドを注入しないか、オペランドを注入できない場合に発生する。同様に、デッドロックは、２つの仮想ツリーが、同一の仮想ネットワークでオーバーラップし、オペランド注入が、仮想ネットワークの厳密な順序付け規則に違反する場合に発生する可能性がある。ブロードキャスト動作またはポイントツーポイント・メッセージング動作に対する順序付け制限がなく、これらの動作を、リダクションとインターリーブできることが好ましい。

正しく順序付けられた動作の保証された完了は、ハードウェア・エラー回復機構によってもたらされる。簡単に言うと、各ルータは、グローバル・ツリー・ネットワーク・リンクを介して送られるパケットが、エラーなしで受け取られたことの肯定応答を受け取るまで、それらのパケットのすべてのコピーを保存する。パケットＣＲＣ付きのスライディング・ウィンドウ・プロトコルなど、破壊されたパケットの検出の機構と、保存されたコピーを使用してそれらのパケットを再送出させる機構とを含む、リンクレベル通信プロトコルを実施することができる。

前に述べたように、フロー制御は、トークンベースの通信プロトコルの使用を介して維持される。「下流」ルータにパケットを送る「上流」ルータは、下流ルータの空き記憶容量を表す個数のトークンを有する。上流ルータは、パケットを送る時に、必ず、トークンを消費し、トークンが残っていなければパケットを送ることができない。逆に、下流ルータは、記憶空間を解放した時に、必ず上流ルータにトークンを発行する。記憶空間とパケット待ち時間の間のバランスによって、リンクが常に使用中の状態に保たれることが保証される。

通常は単一のパケットが複数のダウン・ツリー・リンクを介して送られ、ローカルに受け取られるダウン・ツリー・ブロードキャストでは、フロー制御を実施して、ダウン・ツリー・リンクのすべてでトークンが使用可能であり、ＣＰＵ受取ＦＩＦＯ２０４に余地があるようになるまで、パケットの進行を防ぐことができる。しかし、この保守的な手法は、単一の宛先に向けられたフィルタリング・ブロードキャストのスループットに影響する可能性がある。というのは、その宛先が、トークンを有するリンクの下にあるが、パケットが、トークンを有しない別のリンクで待たなければならない可能性があるからである。したがって、好ましい実施形態では、ツリー・ネットワークが、「積極的な」ブロードキャストを実行し、このブロードキャストでは、基本的に、個々のダウン・ツリー・リンクでのフロー制御が分離される。図３を参照すると、パケットは、適当なダウン・ツリー・リンクおよび仮想ネットワークのすべてで十分な記憶空間が使用可能になると、すぐに、ダウン・ツリー・リンクおよび仮想ネットワークの出ＦＩＦＯ２５０に転送される。その後、各出ＦＩＦＯ２５０は、トークンが使用可能になる時に、出力ポート２１０ｂから２１３ｂに個別にドレーンされる。前に説明したように、再送出を介する伝送エラー回復のために、いずれにせよパケットの個々のコピーを各出ＦＩＦＯ２５０に置かなければならないことに留意されたい。

図１から３に関して本明細書で説明したように、各処理ノード１２が、システムオンアチップ・プロセスに基づく、すなわち、経路指定機能を含むコンピュータ・ノードのすべての機能が、単一のＡＳＩＣに集積され、ノード・サイズに関する劇的なサイズおよび電力の削減がもたらされる。このスーパーコンピュータ・アーキテクチャをさらに活用して、ノード密度を高め、これによって、計算機の総合的なコスト／性能を下げることができる。各ノードで、PowerPC ４４０組込み処理コア、浮動小数点コア、組込みＤＲＡＭ、統合外部ＤＤＲメモリ・コントローラ、メッセージ・プロセッサ、イーサネット（Ｒ）・アダプタ、ならびにネットワーク・ルータを含むがこれに制限されない、多数の機能がコンピュータＡＳＩＣに組み込まれることが好ましい。一実施形態では、同一の計算ＡＳＩＣノードを、ファイルサーバ通信動作および入出力動作を処理するために、コンピュータ・ノードのサブセット、たとえば６４個のノードに関連する入出力ノードとして使用することができる。すなわち、入出力ノードは、コンピュータ・ノードに非常に似ているが、たとえばギガビット・イーサネット（Ｒ）などの外部ネットワーク・インターフェースの他に、外部メモリ構成に関してのみ異なる場合がある。本明細書に記載のツリー・ネットワーク・ルータが、好ましい実施形態の集積されたデバイスの他に、独立の装置として機能することができることを理解されたい。

本発明の例示的な事前に形成された実施形態に関して本発明を具体的に図示し、説明してきたが、形態および詳細における前述および他の変更を、本発明の趣旨および範囲から逸脱せずに行うことができ、本発明の趣旨および範囲が、請求項の範囲のみによって制限されなければならないことを理解されたい。

８つの計算ノードを相互接続する３次元トーラス・ネットワークを示す図である。３５個のノード（円によって表される）およびノードのすべてを接続するツリー・ネットワーク１００を含む通常のシステムの例を示す図である。図２のグローバル・ツリー・ネットワークで実施されるルータ装置の基本的なアーキテクチャを示す図である。

Claims

複数の処理ノードを含むコンピューティング構造で実行される並列アルゴリズム動作中に、集合リダクション、ブロードキャストおよびファイル・システム入出力のためにポイントツーポイント・メッセージ受渡を実行する装置であって、
前記ノードをツリー構成で相互接続する経路指定装置を含むグローバル・ツリー・ネットワークを含み、
前記ツリー構成が、１つまたは複数のその仮想ツリー・ネットワークを含み、前記仮想ツリー・ネットワークの夫々が、ルート・ノードと、該ルート・ノードの子とを含み、該ルート・ノードが、外部システムへの接続を含む入出力ノードであり、前記入出力ノードが、前記第１ネットワークで実行される処理と独立に、仮想ツリー・ネットワークに関する入出力動作を実行し、前記グローバル・ツリー・ネットワークにおいて、指定された仮想ツリー・ネットワークのルート・ノードから葉ノードへのグローバル・ブロードキャスト動作と、前記仮想ツリー・ネットワーク内の葉ノードからルート・ノードへのグローバル・リダクション動作と、前記仮想ツリーの任意のノードから前記仮想ツリーのルート・ノードへのポイントツーポイント・メッセージ受渡との１つまたは複数を含むグローバル処理動作とが行われ、
それによって、前記コンピューティング構造内で短待ち時間通信が提供される、
装置。
各ノードがルータを含み、前記ルータが、仮想ツリー・ネットワークの他のノードからパケットを受け取る入力装置と、前記仮想ツリー・ネットワークの他のノードにパケットを転送する出力装置と、パケットを前記仮想ツリー・ネットワークに注入するローカル注入装置と、前記仮想ツリー・ネットワークからパケットを除去するローカル受取装置とを含み、前記ルータが、前記仮想ツリー・ネットワークに参加するように或いは参加しないように前記ルータを構成するための構成レジスタをさらに含む、請求項１に記載の装置。
前記構成レジスタが、リダクション動作に関する仮想ツリー・ネットワークのルートとしての前記ノードの参加を指定する、請求項２に記載の装置。
前記構成レジスタが、さらに、リダクション動作中のオペランドの供給に関する入力装置およびローカル注入装置の参加を指定する、請求項３に記載の装置。
前記ルータが、前記仮想ツリー・ネットワークに参加する場合に、参加する入力装置およびローカル注入装置によって受け取られるパケット内容に対する指定されたリダクション動作を計算する手段と、前記出力装置を介してそのノードの上流の親ノードへ計算結果を伝送する手段とをさらに含む、請求項４に記載の装置。
前記ルート・ノードでの単一パケットとしての完了のために、グローバルに組み合わされた結果が前記仮想ツリー・ネットワークで上に計算されることを再帰的に引き起こされる、請求項５に記載の装置。