JPH09506728A

JPH09506728A - 大規模平行処理システムのためのアドレス

Info

Publication number: JPH09506728A
Application number: JP7516913A
Authority: JP
Inventors: オベルリン、スティーヴン・エム; フロム、エリク・シー; パシント、ランダル・エス
Original assignee: クレイ・リサーチ・インコーポレイテッド
Priority date: 1993-12-13
Filing date: 1994-12-13
Publication date: 1997-06-30
Also published as: WO1995016964A1; DE69426708D1; DE69426708T2; EP0737338B1; US5784706A; EP0737338A1

Abstract

(57)【要約】分散型メモリ大規模平行処理（ＭＰＰ）システムのためのアドレス翻訳手段は、プログラムの制御下でＰＥの区分に関し処理要素（ＰＥ）とメモリの仮想アドレスを定義する手段と、ＭＰＰ内においてＰＥの３次元相互接続ネットワーク内のＰＥとメモリについて論理アドレスと、コンピュータキャビネット内のＰＥモジュールの同定と位置に対応したＰＥとメモリの物理アドレスとを定義する手段を含む。論理ＭＰＰにマップされるか、マップから外させる物理ＰＥが予備として必要なので、論理アドレスは更新される。仮想アドレスモードにおいて区分内のＰＥによって生成されるアドレスは論理アドレスに、そしてネットワーク上のルーティングのため物理アドレスに変換される。

Description

【発明の詳細な説明】大規模平行処理システムのためのアドレス発明の分野本発明は、一般的には、大規模平行処理システムのためのアドレス指定技術に関し、より詳細には、メモリ分散大規模平行処理システムにおける仮想アドレスから論理アドレス、物理アドレスへのアドレス変換技術に関する。発明の背景大規模平行処理システムは、高速接続ネットワークで連係された数百もしくは数千の処理要素（ＰＥｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）を含んでいる。メモリ分散処理システムは、その一つで各プロセッサは、ローカルなメモリバンクの群に対して好ましい短い待ち時間の広い帯域幅のパスを有するとともに、接続ネットワークを介して接続された他のプロセッサ（遠隔又は大規模メモリ）に付属するメモリバンクに対して長い待ち時間のより狭い帯域帯のアクセスを有する。共用メモリシステムでは、全てのメモリは、プロセッサ自身のローカルメモリに存在するデータへのローカルなアクセスを介してであれ、いま一つのプロセッサにとってローカルであるメモリ内に存在するデータへの遠隔アクセスを介してであれ、システム内のいかなるプロセッサによっても直接にアドレス指定が可能である。ローカル及び遠隔アドレス指定を処理することに加えて、かかるシステムは、仮想のプロセッサアドレスから論理プロセッサアドレス、さらに好ましくは物理プロセッサアドレスへのアドレス指定を処理することができなければならない。より小規模な多プロセッサシステムで使用されている仮想から論理アドレスへの変換は、大規模平行処理システムに応用した場合、パフォーマンスと柔軟性の可能性についての利点を存分に享受するには適当でなく、あるいは失敗するかもしれない。プロセッサの数の多さ、プロセッサのサイズ、設置場所や区分の形態における多様性は、大規模平行システムにおけるアドレス指定に種々の問題をもたらす。また、処理要素間の３次元相互接続ネットワークの使用および故障したものと置き換えるための余分の処理要素を用意しておく必要性は、アドレス指定システムの設計をさらに複雑なものにしている。発明の要旨上に述べた制約および本明細書を読みかつ理解することによって明らかになるであろう制約を克服するために、本発明は、大規模平行共用分散メモリシステムにおいて、仮想ＰＥアドレスから論理ＰＥアドレスへの、物理ＰＥアドレスへのアドレス変換を与える改良されたアドレス指定システムを提供する。この発明のシステムは、３次元相互接続ネットワークおよびパーティションを扱うことができ、さらに、故障したＰＥをマッピングし、かつ予備のＰＥで置き換えることを可能にするため、論理アドレスから物理アドレスへの変換を扱うことができる。図面の簡単な説明本発明の前述のおよび他の目的、特徴および利点並びに本発明の現在の好ましい実施例は、以下の詳細な説明および添付の図面を読みかつ理解することによって明らかになるであろう。添付の図面中、第１図は、本発明の好ましい実施例に従って、一対のＰＥ、ローカルメモリおよびアドレス変換要素を有する、相互接続ネットワークへの接続のためのＭＰＰシステムのノードのブロックダイヤグラムを示す；第２図は、３次元に相互接続されたＭＰＰシステムにおけるノードの論理的関係および番号付けを示すダイヤグラムである；第３図はＭＰＰシステムにおける３個の８ノード区分形態を示すダイヤグラムである；第４図は２次元配列のための仮想ノード番号を示すダイヤグラムである；第５図は仮想および論理ノード番号を示すダイヤグラムである；第６図はメモリ仮想アドレス空間を示すダイヤグラムである；第７図は仮想から部分物理アドレスへの変換を示すダイヤグラムである；第８図は付属ＤＴＢの機能を示すダイヤグラムである；第９図は部分物理アドレス空間を示すダイヤグラムである；第１０図は仮想ＰＥアドレス変換を示すダイヤグラムである；第１１図は論理ＰＥアドレス変換を示すダイヤグラムである；第１２図はネットワークインターフェース接続を示すダイヤグラムである；第１３図は３個の８ノード区分形態および仮想ノード番号を示すダイヤグラムである；第１４図は仮想ノード番号の１０ビット仮想ノード番号への再編成を示すダイヤグラムである；第１５図はベースノードアドレス付加を示すダイヤグラムである；第１６図は形状（コンフィグレーション）マスクを示すダイヤグラムである；第１７図は２次元４ノード区分および仮想ノード番号を示すダイヤグラムである；第１８図は論理ノード番号のルーティングタグへの変換を示すダイヤグラムである；第１９図はパケット形式を示すダイヤグラムである；第２０図はデータフィット（ｄａｔａｐｈｉｔ）を示すダイヤグラムである；第２１図はノードデートライン交差を示すダイヤグラムである；および第２２図はＩ／Ｏゲートウェイと予備ＰＥノード位置を示すダイヤグラムである。好ましい実施例の詳細な説明以下の好ましい実施例の詳細な説明において、本発明が実施される特定の実施例が図示されており、以下の説明の一部を形成する添付の図面が参照される。また、この明細書の一部を形成し、好ましい実施例の以下の説明において引用される表を含む添付の付録Ａも参照される。他の実施例も実施可能であり、本発明の範囲を逸脱することなしに構造的な変更をなしうることに注目すべきである。本発明がアドレス変換を提供する好ましいＭＰＰシステムは、物理的には分散し、全体としてアドレス指定可能なメモリを備えたＭＩＭＤ大規模平行多重プロセッサである。個々のＭＰＰシステムは数百又は数千のプロセッサを含んでおり、各プロセッサはローカルメモリと関連する支援回路が備えられている。各プロセッサ、ローカルメモリおよび支援回路構成は処理要素（ＰＥ）と呼ばれる。この好ましい実施例では、ノード当たり２つのＰＥがあり、全てのノードは相互接続ネットワークを介して連結されている。本発明は、１ノード当たり２ＰＥより多いあるいは少ない設計にも適用できる。第１図において、ＭＰＰシステムの単一ノードは、引用番号１と１１で示される一対のＰＥを有する。ＰＥ１はデータパスを介して付属ＤＴＢ２に接続される。付属ＤＴＢは比較要素３に接続され、該要素は識別データＷＨＯＡＭＩを受信する。比較要素３は、引用番号５で示されるローカルＤＲＡＭメモリに向かうローカル参照データパス４に接続されるとともに遠隔参照データパス６に接続されている。これらの要素の機能と動作はこの明細書において以下に説明する。ＰＥ１１は付属ＤＴＢ１２に接続され、該ＤＴＢは比較要素１３に接続され、該要素はそれ自身の識別データＷＨＯＡＭＩを受け取る。比較要素１３は引用番号１５で示されるローカルＤＲＡＭメモリに向かうローカル参照データパス１４に接続されるとともに、遠隔参照データパス１６に接続される。遠隔参照データパス６と１６は、要求キュー７と１７に夫々接続され、要求キューの出力はデータパス２１と２２を介して、仮想−物理コンバータ３０に夫々接続される。該コンバータの出力はパス３１を介してルックアップテーブル３２に接続される。ルックアップテーブル３２の出力はパケット生成要素３４に接続される。この要素は一方ＭＰＰシステムの相互接続ネットワーク５０に接続される。実際には、第１図に示されるようなノードの多数がすべてネットワーク５０に接続される。好ましいＭＰＰシステムは、物理的に分散されたメモリを有し、各プロセッサ１，１１はローカルメモリ５，１５に対して、好ましい短い待ち時間の高帯域幅のパスを有するとともに、相互接続ネットワーク５０で接続された他のプロセッサのメモリバンクに対して長めの待ち時間の低帯域帯のアクセスを有する。好ましい実施例において、相互接続ネットワークは、接続されるとＰＥの３次元マトリックスを形成する３次元のトーラス（ｔｏｒｕｓ）からなる。ネットワークの一部が第２図に示されており、図において、ドットはノードを表わし、ドット間のラインはｘ，ｙ，ｚのプラス方向、マイナス方向の相互接続ラインを表わす。トーラス設計は、情報転送の速度や不良な通信リンクを回避する能力を含むいくつかの利点がある。相互接続ネットワークは３次元全てにおいて基準化可能である。この種の相互接続ネットワークは、１９９２年１１月３０日に出願され、現在係属中で本件と共通に譲渡された、“多重処理システムにおける方向順位ルーティング”と題するグレゴリイ・エム・ソーセン（ＧｒｅｇｏｒｙＭ．Ｔｈｏｒｓｅｎ）のアメリカ合衆国特許出願番号０７／９８３，９７９と１９９３年１２月１０日に出願され、現在係属中で本件と共通に譲渡された、“ＭＰＰコンピュータのための多次元相互接続およびルーティングネットワーク”と題するマーク・エス・バーリッテラ等のアメリカ合衆国特許出願とにより詳細に開示されている。なお、これら２つのアメリカ合衆国特許出願は、本件明細書において引用文献として援用される。アドレス指定本発明が適用される好ましいＭＰＰシステムは、物理的に分散され、論理的に共用されるメモリを有するので、あるＰＥのマイクロプロセッサによって生成されたアドレスは物理メモリを直接引用するために使用することができない。この節では、ＭＰＰシステムにおいてシステムデータとレジスタを引用するために使用される要素とプロセスを記述する。機能記述ＭＰＰシステム内のＰＥは、仮想ＰＥ番号、論理ＰＥ番号、および物理ＰＥ番号を用いて特定される。ＭＰＰシステムは、仮想ＰＥをあるユーザ区分内の１つのＰＥと解釈する。論理ＰＥは本システム内に配位されたＰＥである（このことは禁止予備ノード、Ｉ／Ｏノードおよび故障ノードを排除する）。物理ＰＥはシステム内のいずれかのＰＥである。ＭＰＰシステム内において使用されるアドレスは、仮想、論理および物理として区別される。いずれの形式のアドレスもＭＰＰシステムがローカルメモリ、参照メモリマップレジスタおよびネットワークを通るルートパケットをアドレス指定するために使用する情報を含んでいる。ＰＥ番号付け前後関係に依存して、ＰＥは３つのタイプの番号の１つ、物理ＰＥ番号、論理ＰＥ番号、又は仮想ＰＥ番号によって同定される。これら３つのタイプの番号の全てはＰＥビットとノード番号即ちノード座標を含んだフィールドとからなる。物理ＰＥ番号ＭＰＰシステム内の各ＰＥは当該ＰＥがシステム内において物理的にどこに位置しているかを示す固有の番号を割り当てられる。この番号は物理ＰＥ番号である。各ＰＥ内の支援回路は、物理ＰＥレジスタと呼ばれるレジスタを含む。回路基板がシステムキャビネット内に配置されると、ハードウェアは当該ＰＥがキャビネット内のどこに位置しているかを示すために物理ＰＥレジスタのビットを設定する。物理ＰＥ番号は物理ノード番号とＰＥビットの２つの部分を含む。物理ノード番号は当該ＰＥが位置している物理ノード（ＰＥノード、空きＰＥノード、入力ノード又は出力ノード）を示す。ＰＥビットは、ノード内においてＰＥ０又はＰＥ１を示す。表１は簡略物理ＰＥ番号を示している。詳しいビットフォーマットおよび物理ＰＥ番号の使用に関するより多くの情報は、以下の“レジスタマッピング”において与えられる。ローカルＰＥ番号ＭＰＰシステム内の物理ＰＥはその全部ではないが、ＭＰＰシステムの論理構成の一部である。例えば、５１２−ＰＥＭＰＰシステムは５２０個の物理ＰＥを含む（Ｉ／ＯゲートウェイのＰＥを含まずに）。５２０個の物理ＰＥのうち、５１２個のＰＥは論理システムにおいて使用され、８個のＰＥ（４個の予備ＰＥノード内の）予備ＰＥとして用いられる。論理システムにおいて用いられる各物理ＰＥは固有の論理ＰＥ番号を割り当てられる。論理ＰＥ番号はノードの論理システム内のＰＥの位置を特定する。論理ＰＥ番号は、論理ノード番号とＰＥビットという２つの部分を含む。論理ノード番号は当該ＰＥがどの論理ノード（処理要素ノード、入力ノード、又は出力ノード）に存在するかを示す。ＰＥビットは当該ＰＥがＰＥ０かＰＥ１のいずれであるかを示す。表２は論理ＰＥ番号の簡略フォーマットを示す。論理ＰＥ番号の正確なビットフォーマットに関するより多くの情報は、以下の“レジスタマッピング”において与えられる。論理ノードはノードの３次元マトリックスを形成する。例えば、第２図は１２８−ＰＥＭＰＰシステム用の論理ＰＥノードを示す。システムは６９個の物理ノードを実際には含んでいるが、６４個のノードのみが論理システムにおいて使用される。残りの４個の予備物理ノードは物理的に相互接続ネットワークに接続されているが、論理ノード番号は与えられていない。この形式の構成は、故障ノードを論理的に置き換える予備ノードを可能にする。これが発生すると、予備ノードは論理番号を獲得する一方、故障ノードは新しい論理ノード番号を受け取ることはない。例えば、論理ノードＺ＝０，Ｙ＝２，Ｘ＝３が正しく動作することに失敗すると、この番号が付与された物理ノードは論理システムから除去される。予備ノードには論理ノード番号Ｚ＝０，Ｙ＝２，Ｘ＝３が割り当てられ、故障ノードはある論理ノード番号を受け取ることはない。仮想ＰＥ番号あるＭＰＰアプリケーションが始まると、ホストシステム上で実行中の支援ソフトウェアが当該アプリケーションに必要な資源を決定し、アプリケーションを実行に移すべき区分（ｐａｒｔｉｔｉｏｎ）を作り出す。区分は、ＰＥの群と一つのアプリケーションに割り当てられたバリア同期資源（ｂａｒｒｉｅｒｓｙｎｃｈｒｏｎｉｚａｔｉｏｎｒｅｓｏｕｒｃｅｓ）の一部分である。アプリケーションは、区分内においてＰＥを特定するため仮想ＰＥ番号を使用する。区分には、オペレーティングシステム区分とハードウェア区分という２つの区分がある。オペレーティングシステム区分においては、アプリケーションがＰＥ間でデータを転送するときに、オペレーティングシステムがその転送に関与しなければならない（同一のＰＥに対し多重の指定がなされた場合、オペレーティングシステムは、遠隔ＰＥに対する第１の転送に関与する。同一のＰＥに対する後続の転送はオペレーティングシステムを巻き込まない）。オペレーティングシステムは、アプリケーションによって使用される仮想ＰＥ番号を論理ＰＥ番号に変換する。アプリケーションがＰＥ間でデータを転送するときに、ハードウェア区分では、オペレーティングシステムは転送に関与しない。各ＰＥノード内のハードウェアはアプリケーションによって使用される仮想ＰＥ番号を論理ＰＥ番号に変換する。仮想ＰＥ番号は、仮想ノード番号とＰＥビットという２つの部分を含む。仮想ノード番号は、１から１０ビットの範囲であり、ハードウェア区分において当該ＰＥがどの処理要素ノードに存在するかを示す。ＰＥビットは当該ノードにおいてＰＥがＰＥ０かＰＥ１かを示す（表３参照）。仮想ノード番号は０から３個のビットがＸ次元に割り当てられ、０から４個のビットがＹ次元に割り当てられ、０から３個のビットがＺ次元に割り当てられる。仮想ノード番号のビットを適当な次元に割り当てることにより、ソフトウェアは仮想ノードを数個の形態の一つに配置する。例えば、３ビットの仮想ノード番号は、ハードウェア区分において８個のノードが存在することを示す。これらのノードは１０形態の一つに配置される。表４は、３ビット仮想ノード番号について可能なノード形態を列記している。各形態について各次元におけるノードの数は２のべき乗（１，２，４，８，１６等）に限られる。第３図は１２８−ＰＥＭＰＰシステムにおける８個のノード区分形態のうちの３つを示している。仮想ＰＥ番号の例として、第４図は１６個のＰＥを含む２次元８ノード区分を示している。区分の各ノードは、第３図に示す３ビット仮想ノード番号によって指定される。８個のノードの２次元配列は論理システムにおける多くの８ノード２次元配列の一つに実際に対応している。例えば、第５図は１２８−ＰＥＭＰＰシステム内のノードの論理システム内にこの２次元配列がどのように配置されるかを示す２つの例を示している。仮想ノード番号は同じ論理番号とは必ずしも対応していない。例えば、第５図は第４図の仮想ノードＹ＝１，Ｘ＝２が論理ノード番号Ｚ＝１，Ｙ＝２，Ｘ＝２又は論理ノード番号Ｚ＝１，Ｙ＝３，Ｘ＝６のいずれかに対応する状態を示している。マイクロプロセッサ・アドレス解釈各ＰＥ内で実行中のアプリケーションプログラムは各マイクロプロセッサ内のハードウェアが部分物理アドレスに変換する仮想アドレスを生成する。以下の分節は、仮想アドレスと部分物理アドレスの両方を記述する。仮想アドレス仮想アドレスは、プログラムコンパイラによって生成されるバイト本位アドレスである。仮想アドレスは、セグメント、仮想インデックスおよび仮想アドレスオフセットの３つの部分を含む。表５は仮想アドレスのビットフォーマットを示す。長さは６４ビットであるが、アドレスの４１ビットのみが実際に使用される。マイクロプロセッサ・オペレーティングシステム・ソフトウェアは、マイクロプロセッサ・ハードウェアが、仮想アドレスを部分物理アドレス中にマップする仕方を規定する。ソフトウェアで定義されたとして、このプロセスの故に、仮想アドレスのフォーマットは変更可能であるが、表５に示したフォーマットはマイクロプロセッサが仮想アドレスを解釈する方法の一例として含まれている。セグメントセグメントは仮想アドレス空間を１６個のセグメントにまで分割する４ビットの数である。各セグメントはメモリの固有の形式を特定する。例えば、セグメント番号が４に設定されると、情報はＰＥの支援回路もしくはＰＥノードの他の構成要素内のメモリマップレジスタに書込み、或いはそれから読み出すことができる（第６図参照）。いくつかのセグメントは私用に指定され、いくつかのセグメントは共用として指定される。私用のセグメントはＰＥのローカルメモリに格納された情報を参照し、かつＰＥ内のマイクロプロセッサによってのみ使用される。ＰＥ内のマイクロプロセッサのみが私用として指定されたセグメントに書込み、或いはそれから読み出すことができる。共用のセグメントはシステム内のいずれのＰＥ内に格納された情報を参照することができ、区分内のいずれのマイクロプロセッサによっても使用される。共用のセグメントは区分内の全てのＰＥ内においてローカルメモリと同じ領域に位置する。仮想インデックス仮想インデックスは付属ＤＴＢにおける１つのエントリを指定する５ビットの数である。付属ＤＴＢはマイクロプロセッサに対して外部となる３２エントリテーブルであり（第１図の参照番号２，１２のＰＥの支援回路における）、該テーブルはシステムメモリの全てを包含するように、マイクロプロセッサのアドレス指定範囲を拡張するために使用される情報を含んでいる。付属ＤＴＢにおける各エントリはＰＥ番号とメモリ機能コード（ＦＣ）との２つの部分を含んでいる。表６は付属ＤＴＢエントリのフォーマットを示している。ＰＥ番号はノード番号とＰＥビットを含んでいる。ノード番号は仮想ノード番号又は論理ノード番号である。ＰＥビットはメモリ機能が生じるＰＥを指示する。機能コードはＰＥが実行するメモリ参照機能を示す３ビットの数である。表７は機能コードと対応するメモリ機能を列記する。付属ＤＴＢにおける各エントリはＰＥが実行するメモリ参照機能を記述する。付属ＤＴＢのエントリ０はオペレーティングシステムによる使用のために確保されており、常に論理ＰＥ番号を含んでいる。システムコントールレジスタの２ビットは残りの３１エントリが仮想又は論理ＰＥ番号を含んでいるかを決定する。システムコントールレジスタ（ＳＣＲ）はあるＰＥの支援回路内に存在するメモリマップレジスタである。１にセットされたときに、システムコントールレジスタのビット０は付属ＤＴＢのエントリ０から１５をイネーブルとし、それによってユーザ又はオペレーティングシステムによりそこに書き込まれる（エントリ１から１５は仮想ＰＥ番号として解釈される）。０にセットされると、システムコントールレジスタの０ビットは付属ＤＴＢのエントリ０から１５への書込みを不能化する（エントリ０から１５はそのとき論理ＰＥ番号として解釈される）。同様に、１にセットされたとき、システムコントールレジスタのビット１は付属ＤＴＢの１６から３１のエントリをイネーブルとし、ユーザ又はオペレーティングシステムが書き込むことができる（エントリ１６から３１は仮想ＰＥ番号として解釈される）。０にセットされると、システムコントールレジスタのビット１は付属ＤＴＢの１６から３１のエントリへの書込みを不能化する（１６から３１のエントリは論理ＰＥ番号として解釈される）。表８は付属ＤＴＢのあるサンプルについてのエントリを示している。この例において、システムコントールレジスタのビット１は１に、ビット０は０にセットされている。エントリ０はオペレーティングシステムによる使用のために確保されている。仮想アドレスオフセット仮想アドレスオフセットは仮想アドレス空間のセグメント内のバイトを指定するバイト向きのアドレスである。仮想アドレスの下位３２ビットはオフセットを定義する。仮想アドレスオフセットは０から４ギガバイトまでの範囲にある。部分物理アドレスアプリケーションプログラムから仮想アドレスを受け取った後、マイクロプロセッサのハードウェアは仮想アドレスを部分物理アドレスに変換する。部分物理アドレスはマイクロプロセッサがマイクロプロセッサのアドレスピン上に置かれるアドレスである。ＭＰＰシステムにおいてマイクロプロセッサのアドレスピンは物理メモリを直接に指定するものではない。その代わり、ＰＥ内の支援回路が部分物理アドレスを解釈し、マイクロプロセッサとローカルメモリ、メモリマップレジスタ又は遠隔ＰＥのメモリいずれかとの間でのデータのルートを指定する。第７図はマイクロプロセッサが仮想アドレスを部分物理アドレスにマップする方法を示している。部分物理アドレスは付属ＤＴＢインデックス、アドレス空間区分（ＡＳＰ）及びアドレスオフセットの３つの部分を含む。部分物理アドレスのビット３４から６３はマイクロプロセッサの出力ピン上におかれることはなく使用されない。付属ＤＴＢインデックス付属ＤＴＢインデックスは物理付属ＤＴＢにおける３２個のエントリの１つを指定する５ビットの数である（第８図参照）。マイクロプロセッサから付属ＤＴＢインデックスを受け取った後、付属ＤＴＢは適当な付属ＤＴＢエントリの内容をＰＥ支援回路に送る。支援回路は実行されるべきメモリ機能のタイプとメモリ機能を実行する部分を決定するために付属ＤＴＢの情報を解釈する。システムコントールレジスタのビット１又はビット０を１にセットされると、付属ＤＴＢの対応するエントリはユーザ又はオペレーティングシステムによって書き込むことができる。この場合支援回路は付属ＤＴＢの仮想ＰＥ番号と機能コードのエントリを解釈する。コントールレジスタのビット１またはビット０が０にセットされると、付属ＤＴＢの対応するエントリには書き込まれることがない。この場合、支援回路は論理ＰＥ番号及び機能コードとして付属ＤＴＢのエントリを解釈する。支援回路は付属ＤＴＢのエントリ０を論理ＰＥ番号及びオペレーティングシステムによって定義される機能コードとして解釈する。アドレス空間区分ビットアドレス空間区分ビットは部分物理アドレスのビット０から２８のアドレス空間を３つの領域に分割する（表９参照）。ビット２８は部分物理アドレス空間をローカルメモリとメモリマップレジスタ空間とに分割する。ビット２７は更にローカルメモリスペースをＳＥＣＤＥＤ保護付きのローカルメモリとＳＥＣＤＥＤ保護なしのローカルメモリとに分割する。第９図はあるＰＥについて部分物理アドレス空間のマップを示す。ＳＥＣＤＥＤ保護付きのローカルメモリについてのアドレススペースはメモリの１２８メガバイト（１６メガワード）まで設けられる；しかしながら、アドレス空間の全てが使用されるわけではない。例えば、各ＰＥごとに２メガワード（１６メガバイト）のローカルメモリサイズを備えたＭＰＰシステムでは、アドレスオフセットの２３個の重要でないビットのみが使用される。アドレス空間の１６メガワードはシステムメモリの将来の拡張のために設けられている。ＳＥＣＤＥＤ保護なしのローカルメモリについてのアドレス空間はメモリの１２８メガバイト（１６メガワード）まで設けることができるが、しかし、全てのアドレス空間が使用されるわけではない。ローカルメモリアドレス空間のこの部分に格納された情報はメッセージのヘッダからのものである。メモリマップレジスタのアドレス空間はメモリマップレジスタに格納され、または、読み出される情報についてのアドレスを含む。メモリマップレジスタはＰＥの支援回路又はＰＥノードの他の要素に存在するレジスタであるが、ローカルマイクロプロセッサによってそれらがローカルメモリ内に存在するかのように、アドレス指定される。例えば、マイクロプロセッサがブロック転送エンジンを制御するレジスタ内の情報を格納すると、マイクロプロセッサはブロック転送エンジンレジスタに対して指定するアドレスへの書込み操作を実行する。データ及びアドレス情報を受け取った後、ＰＥ内の支援回路はローカルＤＲＡＭ内に情報を格納する代わりに、データを適当なレジスタに仕向ける。アドレスオフセットはＰＥのローカルメモリにおいてあるバイトを指定するバイト向きアドレスであるが、ＰＥ内の支援回路は部分物理アドレスのアドレスオフセット部分の最後の２ビットを使用することはない。支援回路はアドレスオフセットの３から２６までのビットをＰＥのローカルメモリにおいて６４ビットワードを指定するワード向きアドレスとして解釈する。支援回路はアドレスオフセットの３から２６ビットのみを使用するので“アドレスオフセット”なる用語はローカルメモリ内において、６４ビットワードを指定する２４ビットアドレスオフセットとして参照される。アドレスオフセットがシステム内のローカルメモリのサイズについて最大アドレスオフセットより大きい時は、アドレス範囲エラーが生じる。ＰＥ支援回路アドレス解釈マイクロプロセッサがあるメモリ機能が実行されるべきことを要求した時に、マイクロプロセッサと付属ＤＴＢは支援回路にアドレス情報を与える。支援回路はこの情報を仮想ＰＥのアドレス又は論理ＰＥのアドレスとして解釈する。仮想ＰＥアドレス解釈付属ＤＴＢのエントリが書き込まれる状態の時に、支援回路はアドレス情報を仮想ＰＥアドレスとして解釈する。支援回路はマイクロプロセッサと付属ＤＴＢからメモリ機能コード、仮想ＰＥ番号、ＡＳＰビット及びアドレスオフセットの計４つの形式の情報を受け取る（第１０図参照）。付属ＤＴＢから仮想ＰＥ番号を受け取った後、支援回路は仮想ＰＥ番号の値と仮想ＰＥレジスタ（ＶＷＨＯＡＭＩ）内に格納された値と比較する。ＶＷＨＯＡＭＩレジスタはＰＥの仮想ＰＥ番号を含み、ＭＰＰシステムの区分が変更された時にオペレーティングシステムによってロードされる。付属ＤＴＢからの仮想ＰＥ番号がＶＷＨＯＡＭＩレジスタに格納されたＰＥ番号に整合したときにマイクロプロセッサはローカルＰＥ内において、あるメモリ機能が実行されることを要求する。どのメモリ機能が実行されるべきかを選択する機能コードビットを解釈した後、支援回路はマイクロプロセッサとローカルメモリの間又はマイクロプロセッサとメモリマップレジスタとの間で情報を転送する（場所はＡＳＰビットによって特定されている）。付属ＤＴＢからの仮想ＰＥ番号がＶＷＨＯＡＭＩレジスタ内に格納されたＰＥ番号と整合しない時には、マイクロプロセッサはメモリ機能が遠隔ＰＥ内において実行されることを要求する。マイクロプロセッサがメモリファンクションが遠隔ＰＥにおいて行われるべきことを要求した場合、支援回路はハードウェア区分において最大の仮想ＰＥ番号より小さいことを確認するため仮想ＰＥ番号の値をチェックする。支援回路は付属ＤＴＢから受け取った仮想ＰＥ番号の値を当該ＰＥ番号を仮想ＰＥ範囲マスクレジスタ（ＶＲＴＲＧ）に格納された仮想ＰＥ範囲マスクと比較することによってチェックする。このレジスタはＭＰＰシステムの区分が変更された時にオペレーティングシステムによってロードされる。ＶＲＴＲＧレジスタのビット０は使用されない。ＶＲＴＲＧレジスタのビット１から１０はユーザ区分のサイズについて正当なビット１において０の連続したフィールドを含み残りのビットは１にセットされる（表１０参照）。仮想ＰＥ番号と仮想ＰＥ範囲マスクの同じビットが１にセットされると（論理ＡＮＤ機能）、仮想ＰＥ範囲エラーが生じる。仮想ＰＥ番号の値をチェックした後、ＰＥ内の支援回路はネットワークインターフェースにアドレスと制御のための情報を送る。ネットワークインターフェースはこの情報をパケットを生成するために使用する。論理ＰＥアドレス解釈付属ＤＴＢのエントリが書き込まれない時には、支援回路はアドレス情報を論理ＰＥアドレスとして解釈する。支援回路はメモリ機能コード、論理ＰＥ番号、ＡＳＰビット及びアドレスオフセットの計４種類の情報をマイクロプロセッサと付属ＤＴＢから受け取る（第１１図参照）。付属ＤＴＢから論理ＰＥ番号を受け取った後、支援回路は論理ＰＥ番号の値を論理ＰＥレジスタ（ＬＷＨＯＡＭＩ）に格納された値と比較する。ＬＷＨＯＡＭＩレジスタはＰＥの論理ＰＥ番号を含みＭＰＰシステムが初期化された時にオペレーティングシステムによってロードされる。付属ＤＴＢからの論理ＰＥ番号がＬＷＨＯＡＭＩレジスタに格納されたＰＥ番号と一致すると、マイクロプロセッサはそのローカルＰＥ内においてメモリ機能が実行されるべきことを要求する。どのメモリ機能が実行されるべきかを選択する機能コードバイトを解釈した後支援回路は情報をマイクロプロセッサとローカルメモリとの間又はマイクロプロセッサとメモリマップレジスタとの間において転送する（場所はＡＳＰビットによって特定されている）。付属ＤＴＢからの論理ＰＥ番号がＬＷＨＯＡＭＩレジスタに格納されたＰＥ番号に整合しないときにはマイクロプロセッサはメモリ機能が遠隔のＰＥ内において実行されるべきことを要求する。このことが生じた場合ＰＥ内の支援回路は論理ＰＥ番号に関する範囲チェックを行わない。支援回路はアドレスと制御情報をパケット内において使用するためネットワークインターフェースに直接に送る。ネットワークインターフェースアドレス解釈ネットワークインターフェースはアドレス情報とＰＥ０，ＰＥ１からのデータ或は処理要素ノード内のブロック転送エンジンからのデータを受け取る（第１２図参照）。アドレス情報は仮想ＰＥアドレス情報或は論理ＰＥアドレス情報である。情報が仮想ＰＥアドレス情報である場合、ネットワークインターフェースはその情報を用いてパケットを生成する前に仮想ＰＥ情報を論理ＰＥ情報に変換しなければならない。仮想ＰＥ番号の論理ＰＥ番号への変換第５図に示されるように、仮想ＰＥ番号は異なる論理ＰＥ番号に対応する。この特性の故に、ネットワークインターフェースはメモリ機能が仕向けられている論理ＰＥを決定するために仮想ＰＥ番号を直接に使用することはできない。ネットワークインターフェースは仮想ＰＥ番号を対応する論理ＰＥ番号に変換しなければならない。例えば、第１３図は１２８−ＰＥＭＰＰシステムにおける３個の８ノード区分（区分Ａ，Ｂ，Ｃ）を示している。各区分において、仮想ＰＥ番号はその区分内のあるＰＥを指定し、仮想ＰＥ番号は仮想ノード番号とＰＥビットを含んでいる。全ての３つの区分における仮想ノード番号は３ビットの数である。区分Ａについての仮想ノード番号の全ての３ビットはＸ次元に割り当てられる（第１３図を再び参照）。区分Ｂにおいて、仮想ノード番号のビット０と１はＸ次元に割り当てられ、ビット２はＹ次元に割り当てられる。区分Ｃにおいて、仮想ノード番号の０ビットはＸ次元に割り当てられ、ビット１はＹ次元に割り当てられ、ビット２はＺ次元に割り当てられる。ネットワークインターフェースは仮想ＰＥ番号を論理ＰＥ番号に変換するために、３段階プロセスを用いる。最初にネットワークインターフェースは仮想ノード番号（１対１ビット数である）を１０ビットの仮想ノード番号にリフォーマットする（第１４図参照）。ネットワークインターフェースはリフォーマットされた仮想ノード番号の３個の最下位ビットをＸマスクと比較する。Ｘマスクは仮想ノード番号の幾つのビットがＸ次元に割り当てられているかを示す連続した１の右詰めフィールドである。Ｘマスク内のビットが１にセットされると、仮想ノード番号の対応するビットは有効である。Ｘマスク内のビットが０にセットされると仮想ノード内の対応するビットはＸ次元に使用されない。ネットワークインターフェースはリフォーマットされた仮想ノード番号をＹ次元に割り当てられた第１ビットが０ビット位置にくるまで右方向に０から３ビットの範囲でシフトする。ネットワークインターフェースはシフトされた仮想ノード番号の４個の最下位ビットをＹマスクと比較する。Ｙマスクのあるビットが１にセットされているとき、シフトされた仮想ノード番号の対応するビットは有効である。Ｙマスク内のあるビットが０にセットされていると、シフトされた仮想ノード番号の対応するビットはＹ次元に使用されない。仮想インターフェースはＹ次元に割り当てられた第１のビットが０ビット位置にくるまで、元のリフォーマットされた仮想ノード番号を０から７ビット右方向にシフトする。ネットワークインターフェースはシフトされた仮想ノード番号の最下位３ビットをＺマスクと比較する。Ｚマスク内のあるビットが１にセットされている場合にシフトされた仮想ノード番号の対応するビットは有効である。Ｚマスク内のあるビットが０にセットされている場合、シフトされた仮想ノード番号の対応ビットはＺ次元として使用されない。仮想ノード番号を１０ビットの仮想ノード番号にリフォーマットした後、ネットワークインターフェースはベースノードアドレスを１０ビット仮想ノード番号に加える（第１５図参照）。ベースノードアドレスはある区分において、最小の仮想ＰＥノード番号の論理ノード番号である。例えば、表１２は表１３に示した３個の区分についてベースノードアドレスを列記している。表１２は各区分について、シフトおよびマスクの値をも表している。ベースノードアドレスを１０ビット仮想ノード番号に加えた後、ネットワークインターフェースはＸ，Ｙ，Ｚ次元番号の２つの最上位ビットをＸ，Ｙ，Ｚ次元構成マスクと比較する（第１６図参照）。Ｘ，Ｙ，またはＺ次元構成マスクのあるビットが０にセットされている場合、Ｘ，Ｙ又はＺ次元番号における対応ビットは有効である。Ｘ，ＹまたはＺ次元のあるビットが１にセットされている場合Ｘ，Ｙ，またはＺ次元番号の対応ビットは０にセットされる。構成マスクはあるシステム内における論理ノードの数より最後の論理ノード番号が大きくなるのを防ぐ。例えば第１７図は１２８−ＰＥＭＰＰシステムにおける２次元の４ノード区分を示している。ネットワークインターフェースが仮想ノード番号１１（Ｙ＝１，Ｘ＝１）をある論理ノード番号に変換する時に、ネットワークインターフェースは最初に仮想ノード番号を１０ビット仮想ノード番号にリフォーマットする。仮想ノード番号を１０ビット仮想ノード番号にリフォーマットした後、ネットワークインターフェースは仮想ノード番号にベースノードアドレスを加える（表１１参照）。この例において、一時的な論理ノード番号のＹ次元部分は４である。この値はＹ次元における最大ノード番号より大きい（再び第１７図参照）。ネットワークインターフェースはその後一時的な論理ノード番号を最終の論理ノード番号Ｚ＝１，Ｙ＝０，Ｘ＝７を得るために構成マスクと比較する（再び表１１及び第１７図参照）。ＭＰＰシステムの異なる構成についての構成マスクの値に関する詳しい情報はこの節のレジスタマッピングの項を参照のこと。ベース，シフト，マスク及び構成マスクの３次元全てについての値は、ネットワークインターフェースＰＥ、調整レジスタ（ＬＰＥＸＬＡＴＥ）と呼ばれるレジスタ内に格納される。このレジスタはＭＰＰシフトの区分が変更される時にオペレーティングシステムによってロードされる。ＬＰＥＸＬＡＴＥレジスタ内のベース，シフト及びマスク番号の値を変更することによってオペレーティングシステムは論理ＭＰＰシステムにおける区分を定義する。ＬＰＥＸＬＡＴＥレジスタに関するより多くの情報はこの節のレジスタマッピングの項において与えられる。論理ＰＥ番号のルーティングタグへの変換ネットワークインターフェースは論理ＰＥ番号を２つの経路のうちの一方において受け取る。即ち、処理要素ノード内のＰＥ又はＢＬＴから直接に或は仮想ＰＥ番号を論理ＰＥ番号に変更することによってである。先に述べたように、論理ＰＥ番号はＭＰＰシステム内において同じ物理ＰＥに必ずしも対応するものではない。論理ＰＥ番号は論理ノード番号とＰＥビットという２つの部分を含む論理ノード番号は必ずしも同一の物理ノードに対応することはないのでネットワークインターフェースは正しい物理ノードに情報を仕向けるための計算に論理ノード番号を使用することはできない。各ノードにおけるネットワークインターフェースは、ルーティングタグを作るためにルックアップテーブルを用いる。ネットワークインターフェース内の回路は論理ノード番号をルーティングタグ、ルックアップテーブルに入力する。ルーティングタグ、ルックアップテーブルはその論理ノードに対応するルーティングタグを与える（第１８図参照）。ルーティングタグはパケットが相互接続ネットワークを通して物理ソースノードから物理行先ノードに達するように従うべきパスを指示する情報を含んでいる。この情報は各次元において完了するのに必要なホップの数、各次元における移動の方向及び各次元において使用されるべき仮想チャンネル（ＶＣ）を含む。ＭＰＰシステムにおける各ノードのルーティングタグはホストシステムにおいて実行されているプログラムによって生成される。ルーティングタグ計算プログラムが各ノード及びＭＰＰシステムにおける通信リンクに関する情報を含んでいる構成ファイルを用いる。ＭＰＰシステムにおける通信リンク又はノードが十分に機能していない場合、システムの管理者はホストシステム内において構成ファイルを修正する。その後、管理者はルーティングタグ計算プログラムを実行する。プログラムは悪いノードもしくは通信リンクを迂回させて情報を送る新しいルーティングタグを生成する。ＭＰＰシステムがブート（ｂｏｏｔ）されるとルーティングタグはシステムの各ノードのルーティングタグ、ルックアップテーブルに書き込まれる。ルーティング、ルックアップテーブルのアドレス及びフォーマットに関する多くの情報はこの節におけるレジスタマッピングの項に与えられる。パケットの生成ネットワークインターフェースは情報を生成するとともに、ＰＥ又はＢＬＴから受け取った情報をパケットの生成のために用いる。表１３は種々の機能によりネットワークインターフェースが生成するパケットの種類を示す。第１９図は各パケットのフォーマットを示している。各パケットはヘッダを含み更にデータをも含む。以下の分節ではヘッダの各フィット及びパケットのデータ部分について記述する。各パケットはヘッダを含む。ヘッダは以下の種類のフィッツからなる：ルーティングタグフィット、行先フィット、命令フィット、要求アドレスフィット、ソースフィット又は応答アドレスフィット。以下のパラグラフではフィットの各種類について説明する。各パケットはルーティングタグフィットを含む。ネットワークインターフェースからルーティングタグを受け取った後、ネットワークルータ内のＸ次元スイッチはルーティングタグのビット０から３を調べる。ビット０から３が０に等しい時、Ｘ次元スイッチはルーティングタグ情報をネットワークインターフェースのＹ次元スイッチに送る。Ｘ次元スイッチが情報をＹ次元スイッチに渡すのでルーティングタグのビットはビット０から３がΔＹビットを含むように回路基板上で再配列される。ルーティングタグフィットのビットフォーマットは情報がネットワークインターフェースのＸ，Ｙ次元スイッチの間又はＺ，Ｙ次元スイッチの間で転送される度ごとに回路基板上において再配列される。ルーティングタグフィットのビットは同一ゲート配列形式がＸ，Ｙ，Ｚ次元に使用しうるように再配列される。元のルーティングタグのビット０から３が０に等しくなければ、Ｘ次元スイッチは±Ｘビットの値をチェックする。このビットはパケットが＋Ｘまたは−Ｘ通信リンク上で送られるべきことを指示する。Ｘ次元スイッチは次いでＸＶＣビットの値を調べて通信リンク上のどちらの仮想チャンネルを使うべきかを決定する（より詳細な情報はこの節のルーティングタグルックアップテーブル下位ビットレジスタの項を参照されたい）。これら２つのビットの値をチェックした後、Ｘ次元スイッチはルーティングタグフィットのΔＸ部分の値を１だけインクリメントし、そのフィットを＋Ｘまたは−Ｘ方向において次のノードのネットワークインターフェースに送る（ΔＸ部分はＸ次元において全部を満たすためホップの数の２の補数を含むのでインクリメントされる）。各パケットは行先フィットを含む。行先フィットは行先ＰＥ番号を含む（表１５参照）。行先ＰＥ番号はパケットを受け取るべきＰＥの論理ＰＥ番号である。ネットワークインターフェースは付属ＤＴＢから読まれるか、付属ＤＴＢから読まれた仮想ＰＥ番号から変換された行先論理ＰＥ番号の０から１１ビットにより行先ＰＥ番号を得る。各パケットは更に行先ＰＥに対して、実行すべき機能の種類を指示する情報をもった命令フィットを含む。ネットワークインターフェースはあるＰＥ又はＢＬＴの支援回路から情報を受け取った後、命令情報をフォーマットする。命令フィットのビット０から１１は命令フィールドを含む（表１６参照）。ビット１２は行先ＰＥノードにおいてパケットがＰＥ０又はＰＥ１に行くべき時を指示する。命令フィットのビット１３と１４はビット８から１２及び０から７について偶数のパリティビットをそれぞれ含んでいる。ビット１５は１にセットされている場合、パケットが間違って仕向けられたパケットからネットワークインターフェースによって生成されたエラーメッセージであることを示す。命令フィールドはパケット形式フィールド、要求又は応答ビット及びコマンドの３つの部分を含む（表１７参照）。パケット形式フィールドは命令フィットが存在するパケットの形式を示す（再び第１９図参照）。要求又は応答ビットは１にセットされている時、パケットが要求パケットであることを示す。０にセットされている時には、要求又は応答ビットはパケットが応答パケットであることを示す。コマンドは実行されるべき機能を示す。ルーティングタグ、行先及びデータフィットを除くパケット内のすべてのフィットはパリティビットによってプロテクトされる。ネットワークインターフェースはパケットの各フィット（ルーティングタグ、行先及びデータフィットを除く）を受け取ると、ネットワークインターフェースは２個の新しいパリティビットを生成する。新しいパリティビットがフィット内のパリティビットと同一でない場合、転送の途中でエラーが生じたことを示す。ネットワークインターフェースはシステムステイタスレジスタ（ＳＳＲ）のビット１を１にセットし、パケットをエラーメッセージに変換し、そのエラーメッセージをＰＥ０もしくはＰＥ１に送る（これは命令フィットにおいて識別される）。要求パケットのみが要求アドレスフィットを含む。要求アドレスはＰＥのメモリ内において一つの６４ビットワード又はデータの４ワードブロックの第１ワードを指定する。ネットワークインターフェースはＰＥ又はＢＬＴによって生成されたアドレスオフセットから要求アドレスを得る。表１８は要求アドレスフィットのフォーマットを示す。ＢＬＴエラービット（ビット１２）は要求パケット形式４又は６の３個のＢＬＴエラーの１つを指示するのに用いられる。ＢＬＴが書き込み要求（パケット形式４または６）を発するとともにＢＬＴエラービットが１にセットされている時にＢＬＴが転送を中止する。各要求パケットはソースフィットを含む。ソースフィットは要求パケットを生成するノードの論理ノード番号であるソースノード番号を含む。ソースフィットはソースノードにおいてパケットを生成したＰＥを示すＰＥビットを含んでいる。表１９はソースフィットのフォーマットを示す。要求パケットを受け取ったノードはソースノード番号を応答パケット内の行先ノード番号として用いる。ネットワークインターフェースはネットワークインターフェースソースレジスタＸＷＨＯＡＭＩと呼ばれるレジスタ内に格納されたノード番号を読むことによってソースノード番号を生成する。ネットワークインターフェースはＸＷＨＯＡＭＩレジスタをパケットが正しいノードに仕向けられたか否かをチェックするのに使用する。パケットを受信したのち、ネットワークインターフェースはＸＷＨＯＡＭＩレジスタに格納されたノード番号をパケット内の行先ノード番号と比較する。２つの番号が等しいとき、パケットは正しい行先ノードに到達したと考える。２つの番号が等しくない場合、エラーが発生し、パケットは間違ったノードに到達したことを示す。ネットワークインターフェースが今一つのノードに転送されたと考えられるパケットを受け取った時、ネットワークインターフェースのハードウェアはシステムステイタスレジスタのビット１（ネットワークパケットエラービット）をパケットが誤って仕向けられたことを指示するためにセットする。次いでネットワークインターフェースはそのパケットをエラーメッセージに変換し、メッセージをパケットを受け取ったノード内のＰＥ０又はＰＥ１に送る（パケットの命令フィールドに格納されているＰＥビットに応じて）。マイクロプロセッサはメッセージを調べ、エラーの原因を種々試みて決定する。要求又は応答パケットは応答アドレスを含む。応答アドレスは読み込まれた応答パケットから１ワードデータもしくは４ワードデータが格納されるであろうソースＰＥのローカルメモリ内の位置を指定する。表２０は応答アドレスフィットのフォーマットを示す。ＢＬＴエラービット（ビット１２）は要求パケット形式にもしくは応答パケット形式４又は６におけるＢＬＴ範囲エラーを指示するのに用いられる。ＢＬＴが読みだし要求（パケット形式２）を発生し、かつ、ＢＬＴエラービットが応答アドレスフィット０内において１にセットされると、パケットを受け取ったＰＥはメモリ読み出しを実行し、応答パケット形式４又は６を生成する。ＰＥはまた応答パケットの応答アドレスフィット０において、ＢＬＴエラービットを１に設定する。応答パケットを受け取ったＰＥはメモリ書き込みを実行することはない。データ要求及び応答パケットの両方はデータを含み、データは１つの６４ビットワード又は４つの６４ビットワードであってパケットを受け取るＰＥによって使用される。ネットワークインターフェースは処理要素ノード内のＰＥからパケットについてのデータを受け取る。７個のチェックビット（データのエラーをチェックするためマイクロプロセッサで使用される）は各３２ビットハーフワードとともに送られる。第２０図はパケット内のワード０についてのデータフィットのフォーマットを示す。レジスタマッピングＭＰＰシステムはアドレス情報を解釈する際に、数個のメモリマップレジスタを用いる。これらのレジスタはＰＥがどこに位置しているかを特定し、仮想及び論理ＰＥ番号の値をチェックし、ルーティングタグを生成するのに使用される。以下の分節ではＭＰＰシステム内におけるアドレス指定のために用いられるメモリマップレジスタ（以下単にレジスタという）についてのアドレス指定及びビット割り当てを説明する。各分節においてレジスタの機能の簡単な説明が与えられる。表２１はレジスタとその名前の概要である。表６から８はマイクロプロセッサのアドレスピンに現れる各レジスタの部分物理アドレスを示している。注意書：多重のデータパスの故にある処理要素ノードの１つのＰＥがＸＷＨＯＡＭＩ、ＬＰＥＸＬＡＴＥ、ＲＯＵＴＥＬＯ、又はＲＯＵＴＥＨＩレジスタの内容を修正しつつある時にノード内の他のＰＥは同時に共用レジスタのいずれかを修正しようとしてはならない。共用レジスタはＸＷＨＯＡＭＩ、ＬＰＥＸＬＡＴＥ、ＲＯＵＴＥＬＯＮＲＯＵＴＥＨＩ、ＮＥＴＥＮＡ、ＮＥＴＰＦＭ、ＮＯＥＤＣＳＲ及びＢＬＴレジスタを含む。仮想アドレスはソフトウェアによって定義されるのでレジスタの各々のアドレスはマイクロプロセッサのピン上に現れるに従って部分物理アドレスに応じて与えられる。物理ＰＥ番号レジスタアドレスｘ１０４０００００物理ＰＥ番号レジスタ（ＰＷＨＯＡＭＩ）は１２ビット、リード−オンリー、システムで特権が与えられたレジスタであって物理ＰＥ番号を含む。物理ＰＥ番号はシステム内の各ＰＥに対して割り当てられた固有の番号であり、システムキャビネット内においてＰＥが物理的に位置する場所を示している。表２２はマイクロプロセッサのアドレスピン上に現れるに従ってＰＷＨＯＡＭＩレジスタアドレスについてのビット割り当てを示す。オペレーティングシステムはシステムがデッドスタートされた時にＰＷＨＯＡＭＩレジスタに格納された値をＭＰＰシステムの論理ＰＥ番号レジスタにロードするために用いる。このことはシステム内の各物理ＰＥについて固有の一時的論理ＰＥ番号を与え、オペレーティングシステムがシステム内のすべてのＰＥに対してデッドスタート情報を転送することを可能にする。システムがデッドスタートされた後、論理ＰＥ番号レジスタは適当な論理ＰＥ番号がロードされる。ＰＥを含むＭＰＰシステムには２つのモジュール形式が存在する。処理要素モジュール（ＰＥＭ）と入力／出力モジュール（ＩＯＭ）である。ＰＥＭは２つのプリント回路基板を含む。各プリント回路基板は２つの処理要素ノードを含む。各入力ノード又は出力ノードは１個のＰＥを含む。あるＰＥＭ又はＩＯＭがＭＰＰキャビネットに挿入されると、モジュール上のハードウェア及びキャビネットのワイヤーマットからの信号はＰＷＨＯＡＭＩレジスタのビットの値をセットする。これらの値はシステムのハードウェアにおいてＰＥが存在する箇所を示す。表２３はＰＷＨＯＡＭＩレジスタのビットフォーマットを示しており、以下の分節においてレジスタの各ビットについて説明する。ＰＥ番号ビット０ＰＥ番号ビットは処理要素ノードにおいて、ＰＥがＰＥ０かＰＥ１かを示す。１にセットされている場合、ＰＥはＰＥ１であり、０にセットされている場合にはＰＥはＰＥ０である。ＰＥが入力ノードまたは出力ノードにあるときは、このビットは０にセットされる。Ｘ座標ビット１から３これらのビットは物理ノード番号のＸ次元部分を示す。Ｘ次元番号は０から７の範囲である。ノード番号ビット４ノード番号ビットはＰＥがプリント回路基板上のどのノードに存在するかを示す。処理要素プリント回路基板上ではこのビットはＰＥが処理要素ノード０又は処理要素ノード１のいずれに存在するかを示す。Ｉ／Ｏゲートウエイプリント回路基板上ではこのビットはＰＥが入力ノード（ノード０）又は出力ノード（ノード１）のいずれに存在するかを示す。プリント回路基板番号ビット５このビットはＰＥがＰＥＭ又はＩＯＭのいずれのプリント回路基板に存在するかを示す。プリント回路基板はボードＡ（Ｏ）及びボードＢ（１）として参照される。シャーシＩＤビット６及び７シャーシＩＤビットはＰＥＭ又はＩＯＭが多重キャビネット構成においてどのキャビネットに存在するかを示す。Ｚ座標ビット８から１０Ｚ座標ビットはＰＥが存在するモジュールの形式に依存して異なる値にセットされる。これらのモジュールは標準ＰＥＭ、予備ＰＥＭ、及びＩＯＭである。ＰＥが標準ＰＥＭ上にあるときにはこれらのビットは物理ノード番号のＺ次元部分を示す。Ｚ次元番号は０から７の範囲にある。ＰＥが予備ＰＥＭ上にあるときにはＺ座標ビットは１にセットされる（００１）。Ｉ／Ｏ又は予備ＰＥビットも同様に１にセットされる。これは全体のＺ次元及び物理ＰＥ番号のＩ／Ｏ又は予備ＰＥビット部分を９（１００１）にセットする。ＰＥがＩＯＭ上にあるときＺ座標ビット８と９はいずれも０にセットされる。ビット１０はＩＯＭ内では常に１にセットされる。Ｉ／Ｏ又は予備ＰＥビット１１１にセットされているときこのビットはＰＥが予備ＰＥＭ又はＩＯＭ上にあることを示す。ＰＥが予備ＰＥＭ上にあるときには、Ｚ座標ビットは１（００１）にセットされる。ＰＥがＩＯＭ上にあるときは、Ｚ座標ビットは４（１００）にセットされる。論理ＰＥ番号レジスタアドレスｘ１０４５００００論理ＰＥ番号レジスタ（ＬＷＨＯＡＭＩ）は論理ＰＥ番号を含む１２ビット、ライト−オンリーシステム特権レジスタである。論理ＰＥ番号は論理ＭＰＰシステム内において使用される各物理ＰＥに対してオペレーティングシステムにより割り当てられた固有の番号である。支援回路はＬＷＨＯＡＭＩレジスタをメモリ機能がローカルＰＥ又は遠隔ＰＥのいずれかで実行されるべきかをチェックするために使用する。表２４はそれらがマイクロプロセッサのアドレスピン上に現れるに従ってＬＷＨＯＡＭＩレジスタアドレスについてのビット割り当てを示している。表２５はＬＷＨＯＡＭＩレジスタのビットフォーマットを示しており、レジスタ内の各ビットを記述している。仮想ＰＥ番号レジスタアドレスｘ１０４５４０００仮想ＰＥ番号レジスタ（ＶＷＨＯＡＭＩ）は仮想ＰＥ番号を含む１１ビットのライト−オンリーシステム特権レジスタである。仮想ＰＥ番号はオペレーティングシステムによってある区分内の論理ＰＥに割り当てられる番号である。支援回路はＶＷＨＯＡＭＩレジスタをメモリ機能がローカルＰＥにおいて行われるべきか遠隔ＰＥにおいて行われるべきかをチェックするために使用する。表２６はマイクロプロセッサのアドレスピン上に現れるに従ってＶＷＨＯＡＭＩレジスタアドレスについてのビット割り当てを示す。表２７はＶＷＨＯＡＭＩレジスタのビッフォーマットを示し、レジスタ内の各ビットを記述している。仮想ＰＥ範囲マスクレジスタアドレスｘ１０４５８００００仮想ＰＥ範囲マスクレジスタ（ＶＲＴＲＧ）は仮想ＰＥ範囲マスクを含む１０ビットのリード−オンリーシステム特権レジスタである。仮想ＰＥ範囲マスクはユーザ区分のサイズについての正当ビット位置における０の連続フィールドを含む。残りのビットは１にセットされる。表２８はマイクロプロセッサのアドレスピン上に現れるに応じてＶＲＴＲＧレジスタアドレスについてのビット割り当てを示す。表２９はＶＲＴＲＧレジスタのビットフォーマットを示しており、各ビットについて記述している。仮想範囲マスクの例については表１０を再度参照されたい。ネットワークインターフェースソースレジスタアドレスｘ１０６Ａ００００ネットワークインターフェースソースレジスタ（ＸＷＨＯＡＭＩ）はソース論理ノード番号を含む１１ビットのライト−オンリーシステム特権レジスタである。ネットワークインターフェースはソース論理ノード番号をどの論理ノードがパケット（ソースフィット）を生成したかを示すために用いる。表３０はマイクロプロセッサのアドレスピン上に現れるに従ってＸＷＨＯＡＭＩレジスタアドレスについてのビット割り当てを示す。表３１はＸＷＨＯＡＭＩレジスタのビットフォーマットを示し、各ビットレジスタについて記述している。ネットワークインターフェースはまたＸＷＨＯＡＭＩレジスタをパケットヘッダ内の行先論理ノード番号の値をチェックするために使用する。パケットを受け取った後、ネットワークインターフェースはＸＷＨＯＡＭＩレジスタに格納されたノード番号をパケット内の行先ノード番号と比較する。両者の番号が等しいときにはパケットは正しい行先ノードに到着したことを示す。番号が等しくないときにはネットワークパケットエラーが発生し、パケットが誤ったノードに到達したことを示す。ネットワークインターフェースＰＥ調整レジスタアドレスｘ１０６Ｂ００００ネットワークインターフェースＰＥ調整レジスタ（ＬＰＥＸＬＡＴＥ）は仮想ノード番号を論理ノード番号に変換するために使用されるシフト、ベース、マスク及び構成マスクの値を含む３１ビットのＰＥ調整レジスタである（再び第１３図から１６図参照）。表３２はマイクロプロセッサのアドレスピンに現れるに従ってＬＰＥＸＬＡＴＥレジスタアドレスについてのビット割り当てを示す。表４２はＬＰＥＸＬＡＴＥレジスタビットフォーマットを示し、各レジスタのビットを記述している。表３９はＭＰＰシステムの各構成について構成マスクの値を示している。ルーティングタグルックアップテーブル下位ビットレジスタアドレスｘ１−６Ｆ００００ルーティングタグルックアップ下位ビットレジスタ（ＲＯＵＴＥＬＯ）はルーティングタグの下位１２ビットを含む１２ビットのライト−オンリーシステム特権レジスタである。表４０はマイクロプロセッサのアドレスピン上に現れるに従ってＲＯＵＴＥＬＯレジスタアドレスについてのビット割り当てを示している。アドレスのビット５から１５は２０４８個のＲＯＵＴＥＬＯレジスタの１つを指定する。各ＲＯＵＴＥＬＯレジスタは１つの行先ノード番号に対応する。例えば、行先論理ノード番号Ｚ＝１，Ｙ＝５，Ｘ＝２に対応するＲＯＵＴＥＬＯレジスタのアドレスは５から１５ビットが１５＝Ｏ（Ｉ／Ｏビット）に又１４から１２は００１（Ｚ次元）、１１から８は０１０１（Ｙ次元）、ビット７から５は０１０（Ｘ次元）にそれぞれセットされている。表３３は各ＲＯＵＴＥＬＯレジスタのビットフォーマットを示し、各レジスタ内のビットを記述している。第２１図はＭＰＰシステムのＸ次元における８このノードを示している。簡単のため、ＺとＹ次元における他のノードに接続された通信リンクは示されていない。この図は以下の例の参考として使用される。以下のパラグラフは第２１図においてノードＺ＝１，Ｙ＝１，Ｘ＝２におけるルーティングタグルックアップテーブルについてのＲＯＵＴＥＬＯレジスタの値の例を与える。これらの例においては論理ＰＥ番号が物理ノード番号に等しいものとしている（予備ＰＥノードが使用されていない）。又これらの例ではＸ次元についてのデートラインは最も小さい番号のノードを最も大きい番号のノードに接続する通信リンクであるものとする。行先ノード番号Ｚ＝１，Ｙ＝１，Ｘ＝４についてのＲＯＵＴＥＬＯレジスタの値はΔＸ＝Ｅ，±Ｘ＝０，ＸＶＣ＝０、ΔＹ＝０，±Ｙ＝０，ＹＶＣ＝０である。ΔＸの値はＥが２の２の補数であるので、Ｅ₁₆にセットされる。パケットはノードＺ＝１，Ｙ＝１，Ｘ＝２からノードＺ＝１，Ｙ＝１Ｘ＝４に移動するためＸ次元において２つのホップを補う±Ｘの値はパケットがＸの正方向に移動するため０にセットされる。ＸＶＣ選択ビット０はパケットがネットワーク内を移動するときＸ次元におけるデートラインを横断しないので、０にセットされる。行先ノード番号Ｚ＝１，Ｙ＝１，Ｘ＝７についてのＲＯＵＴＥＬＯレジスタの値はΔＸ＝Ｄ，±Ｘ＝１，ＸＶＣ＝１，ΔＹ＝０，±Ｙ＝０，ＹＶＣ＝０である。ΔＸの値はＤが３の２の補数であるので、Ｄにセットされる。パケットはノードＺ＝１，Ｙ＝１，Ｘ＝２からノードＺ＝１，Ｙ＝１，Ｘ＝７に移動するためＸ次元において３個のホップを補う。±Ｘの値はパケットがＸの負の方向に移動するので１にセットされる。ＸＶＣ選択ビット０はネットワーク内を移動するときパケットはＸ次元においてデートラインを横切らないので１にセットされる。第２１図に示す８個のノードはＩ／Ｏゲートウエイ、予備処理要素ノード又はＩ／Ｏゲートウエイと予備処理要素ノードのいずれにも接続されておらず、ルーティングタグはその次元内を移動する際パケットが作成したホップの数を反映する値を含んでいる。第２２図は８個の処理要素ノードとＩ／ＯゲートウエイとＭＰＰシステムのＸ次元における予備の処理要素ノードとを示している。簡単のため、Ｚ及びＹ次元の他のノードに接続される通信リンクは図示されていない。以下のパラグラフでは第２２図におけるノードＺ＝０，Ｙ＝１，Ｘ＝３におけるルーティングタグルックアップテーブルについてのＲＯＵＴＥＬＯレジスタの値の例が示されている。これらの例において論理ＰＥ番号は物理ノード番号に等しいものとする（予備処理要素ノードは使用されていない）。またこれらの例ではＸ次元のデートラインは最も小さい番号のノードを最も大きい番号のノードに接続する通信リンクであるものとする。行先ノード番号Ｚ＝０，Ｙ＝１，Ｘ＝０についてのＲＯＵＴＥ＿ＬＯレジスタの値はΔＸ＝Ｂ，±Ｘ＝１，ＸＶＣ＝０，ΔＹ＝０，±Ｙ＝０，ＹＶＣ＝０である。ΔＸの値はＢが５の２の補数であるのでＢにセットされる。Ｉ／Ｏゲートウエイは２つのノード（入力ノードと出力ノード）を含むのでパケットはノードＺ＝０，Ｙ＝１，Ｘ＝３からノードＺ＝０，Ｙ＝１，Ｘ＝０に移動するためにＸ次元において５個のホップを補う。±Ｘの値はパケットがＸの負の方向に移動するので１にセットされる。ＸＶＣ選択ビット０はパケットがネットワークを移動する際Ｘ次元におけるデートラインを横切らないので、０にセットされる。行先ノード番号Ｚ＝０，Ｙ＝１，Ｘ＝５についてのＲＯＵＴＥＬＯレジスタの値はΔＸ＝Ｄ，±Ｘ＝０，ＸＶＣ＝０，ΔＹ＝０，±Ｙ＝０，ＵＶＣ＝０である。ΔＸの値はＤが３の２の補する際であるのでＤにセットされる。予備処理要素ノードのためにパケットはノードＺ＝０，Ｙ＝１，Ｘ＝３からノードＺ＝０，Ｙ＝１，Ｘ＝５へ移動する際、Ｘ次元において３個のホップを補う。±Ｘの値はパケットがＸの正の方向に移動するので０にセットされる。ＸＶＣ選択ビットはパケットがネットワーク内を移動する際、Ｘ次元におけるデートラインを横切ることはないので０にセットされる。ルーティングタグルックアップテーブル上位ビットレジスタアドレスｘ１−７Ｆ００００ルーティングタグルックアップテーブル上位ビットレジスタ（ＲＯＵＴＥＨＩ）はルーティングタグの上位６ビットを含む６ビットのライト−オンリーシステム特権レジスタである。表３４はそれらがマイクロプロセッサのアドレスピン上に現れるに従ってＲＯＵＴＥＨＩレジスタアドレスについてのビット割り当てを示している。アドレスの５から１５ビットは２０４８個のＲＯＵＴＥＨＩレジスタの１つを指定する。＆ＲＯＵＴＥＨＩレジスタは１つの行先論理ノード番号に対応している。例えば、アドレスの５から１５ビットが１５＝０（Ｉ／Ｏビット）、１４から１２＝００１（Ｚ次元）、１１から８＝０１０１（Ｙ次元）及びビット７から５＝０１０（Ｘ次元）にそれぞれセットされ、ＲＯＵＴＥＨＩレジスタは行先論理ノード番号Ｚ＝１，Ｙ＝５，Ｘ＝２に対応する。表３５は各ＲＯＵＴＥＨＩレジスタのビットフォーマットを示し、各レジスタのビットを記述している。本発明は、表、図面、更にはＰＥ及びノードの番号付けネットワーク構成、アドレス及びレジスタフィールド、メモリアドレス方式、ビット及びバイト割り当て等の特別なパラメータを用いた議論を参照しながら説明されたけれどもこれらの特定の様式は単に例示のためだけであって、限定をするものではない。当業者ならば明らかなように、上記の明細書、表及び図面に基づいて種々の異なる特別な改良は本発明の範囲内において可能である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者パシント、ランダル・エスアメリカ合衆国、ウィスコンシン54729、チッペワ・フォールズ、グラディ・ドライブ 90番

Claims

【特許請求の範囲】１．ｎ次元の相互接続ネットワークによって相互に接続された複数の処理要素（ＰＥ）を有するとともに、個々のＰＥに局所的に付属する、全体的にアドレス指定可能なローカルメモリ部分から構成される分散メモリを有する多重プロセッサコンピュータシステムのアドレス変換システムは以下のものからなる：多重プロセッサコンピュータシステム内のＰＥの物理的位置に対応して、ＰＥとそれに付属するローカルメモリについて物理アドレスを定義する手段；ＰＥの論理構成内におけるＰＥとそれに付属するローカルメモリについて、論理アドレスを定義するソフトウェア制御下で作動する手段、上記論理アドレスは相互接続ネットワークの論理表現内のＰＥの論理位置に対応する；ＰＥのユーザ区分内におけるＰＥの仮想位置に対応して、アプリケーションを実行するＰＥのユーザ区分内におけるＰＥとそれに付属するローカルメモリの仮想アドレスを定義する、ソフトウェア制御下で作動する手段；および仮想アドレスを論理アドレスに変換するとともに、相互接続ネットワーク上でのルーティングのために論理アドレスを物理アドレスに変換する手段。２．アドレス変換システムは、上記ローカルメモリ部分に連係するＰＥを中断することなしに、全体的にアドレス指定可能なローカルメモリ部分間にデータを再分配するブロック転送エンジンによって生成される仮想アドレスを変換する、請求項１のアドレス変換システム。３．論理アドレスを定義する手段は、予備のＰＥに故障のＰＥの論理位置を割り当てることにより、ＰＥの論理構成内の故障のＰＥを該論理構成に含まれていない予備のＰＥで置換えるように修正可能である請求項１に記載のアドレス変換システム。４．多重プロセッサコンピュータシステムは以下のものからなる：複数の処理ノード、各ノードはプロセッサを有する処理要素とローカルメモリとを有し、各処理要素は多重プロセッサコンピュータシステム内の処理要素の物理的位置に対応した物理番号によって特定され、処理要素の論理構成内における各処理要素は、論理構成内における論理位置に対応した論理番号によって特定され、アプリケーションを実行する処理要素のユーザ区分内における各処理要素はユーザ区分内の処理要素の仮想位置に対応した仮想番号によって特定される、およびソースノードからの仮想又は論理番号に基づく情報にもとづいて、行先ノードに与えられるべき情報のパケットを生成するネットワークインターフェース、ここにおいて、各パケットはソースノードから行先ノードまでのパスを指示する物理番号にもとづく情報を有するルーティングタグを含んでいる；複数の処理ノードを相互に接続するｎ次元の相互接続ネットワーク；および全体的にアドレス指定可能な各処理要素のローカルメモリ部分を含む分散メモリ。５．各処理ノードがさらにルーティングタグを格納したルックアップテーブルを備え、ネットワークインターフェースは、行先ノードの処理要素に対応する論理番号を与え、該論理番号に対応したルーティングタグを索引するようにした、請求項４の多重プロセッサコンピュータシステム。６．ネットワークインターフェースは、仮想番号に基づく情報をルックアップテーブルを索引するための論理番号に翻訳するためのハードウェアを含む、請求項５の多重プロセッサコンピュータシステム。７．各処理要素は、仮想番号に基づく情報を論理番号にもとづく情報に翻訳するハードウェアを含む、請求項４の多重プロセッサコンピュータシステム。８．相互接続ネットワークはノード間でパケットをルート付けするための仮想チャネルを含むとともに、ルーティングタグ内の物理番号に基づく情報は、各次元における補完のために相互接続ネットワーク内に存在するホップの数、各次元における走行方向、仮想チャネルがあるとして、行先ノードに到達するために各次元において使用されるべき仮想チャネルを表す情報を含んでいる、請求項４の多重プロセッサコンピュータシステム。９．さらに、ホストシステムを有し、各ノードについてのルーティングタグは、各ノードおよびノードを接続する相互接続ネットワークに関する情報を含む構成ファイルに基づいてホストシステムで実行するプログラムにより生成される、請求項４の多重プロセッサコンピュータシステム。１０．構成ファイルは、処理要素の論理構成を含み、該論理構成は、故障ノードの論理番号を予備ノードに割り当てることにより、論理構成内の処理要素を含む故障ノードを論理構成に含まれていない処理要素を有する予備ノードで置換えることにより修正可能である、請求項９の多重プロセッサコンピュータシステム。１１．各処理ノードは、さらに連係するプロセッサを中断することなしに、全体的にアドレス指定可能なローカルメモリ部分間でデータを再分配するためのブロック転送エンジンを含む、請求項４の多重プロセッサシステム。１２．ブロック転送エンジンは、仮想番号に基づく情報を論理番号に基づく情報に翻訳するハードウェアを含む、請求項１１の多重プロセッサコンピュータシステム。１３．各処理ノードが、さらに分散されたメモリの全てを含むようにプロセッサのアドレス範囲を拡張するため関連するプロセッサによって与えられるアドレスの部分によって索引が付けられた情報を含む付属テーブルを含む、請求項４の多重プロセッサコンピュータシステム。１４．さらに、複数のネットワークルータを含み、各ネットワークルータは、処理ノードの対応するネットワークインターフェースと相互接続ネットワークに連結されるとともに、各ネットワークルータは、相互接続ネットワークのｎ次元の各々に対応してｎ種の次元スイッチを含んでより、次元スイッチはソースノードから行先ノードに相互接続ネットワークに沿って情報パケットを仕向けるためのルーティングタグに応答する、請求項４の多重プロセッサコンピュータシステム。１５．ｎ次元の相互接続ネットワークによって接続された複数の処理要素（ＰＥ）を有するとともに、個々のＰＥと局所的に連係する、全体的にアドレス指定可能なローカルメモリ部分からなる分散メモリを有する多重プロセッサコンピュータシステムにおけるアドレス翻訳方法は以下のものからなる：ＰＥとその連係するローカルメモリについて物理アドレスを定義する、該物理アドレスは多重プロセッサコンピュータシステム内のＰＥの物理位置に対応する；ＰＥの論理構成内のＰＥとその連係するローカルメモリについて論理アドレスを定義する、該論理アドレスは相互接続ネットワークの論理表現内のＰＥの論理位置に対応する；アプリケーションを実行するＰＥのユーザ区分内のＰＥと連係するローカルメモリについて、ユーザ区分内のＰＥの仮想位置に対応して仮想アドレスを定義する；仮想アドレスを論理アドレスに翻訳する；および相互接続ネットワーク上でのルーティングのために論理アドレスを物理アドレスに翻訳する。１６．故障のＰＥの論理位置を予備のＰＥに割り当てることにより、ＰＥの論理構成内の故障ＰＥを論理構成内に含まれていない予備ＰＥで置き換えるステップをさらに含む、請求項１５の方法。