JP2003178043A

JP2003178043A - マルチノードコンピュータシステムの性能を改善するハードウェア機構

Info

Publication number: JP2003178043A
Application number: JP2002192022A
Authority: JP
Inventors: Jeremy J Farrell; ジェイ．ファレルジェレミー; Kazunori Masuyama; 和則増山; Sudheer Miryala; ミルヤラサディール; N Conway Patrick; エヌ．コンウェイパトリック
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-06-29
Filing date: 2002-07-01
Publication date: 2003-06-27
Anticipated expiration: 2022-07-01
Also published as: US20030007457A1; US6862634B2; JP3996457B2

Abstract

(57)【要約】【課題】分散型マルチノードコンピュータシステムに
おいて、各スイッチが、ＣＰＵノードとＩ／Ｏノードと
メモリノードの間のデータパケットのルーティングを提
供する。【解決手段】各スイッチが、ネットワーク上のデータ
パケット伝送のために、対応するＩ／Ｏノードを通じて
ネットワークインタフェースコントローラ（ＮＩＣ）に
接続される。各ＮＩＣがメモリマップにマッピングされ
る。システムアドレス空間の一部が、対応するスイッチ
に接続された各ＮＩＣごとに送信ウィンドウを形成す
る。各ＰＩＯ書き込みはどこにデータパケットを送るの
が良いか決めるために直前の書き込みを頼らない。“ア
ドレスエイリアシング”を使用することで、ＮＩＣ送信
ウィンドウのエイリアス化部分へのＣＰＵ書き込みは常
に、書き込みをしたＣＰＵと同じスイッチに接続された
ＮＩＣに向けられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般にマルチノー
ドコンピュータシステムにおけるデータパケット伝送に
関するもので、詳記するならば、データパケットをロー
カルネットワークインタフェースコントローラを経由し
てルーティングするシステムおよび方法に関するもので
ある。

【０００２】

【従来の技術】従来のオペレーティングシステム（Ｏ
Ｓ）は、普通、これを実行するコンピュータシステムが
対称型であることを前提として設計されている。Ｓｕｎ
ＵＥ１０００等の対称型マイクロプロセッサ（ＳＭ
Ｐ）では、プロセッサまたはメモリアドレスに関係なく
プロセッサがメモリに一様にアクセスできる。同様に、
どのプロセッサ上で動く入出力（Ｉ／Ｏ）ドライバも、
システム内のどのＩ／Ｏデバイスにも一様にアクセスで
きる。

【０００３】

【発明が解決しようとする課題】最新のコンピュータシ
ステムの多くは真の対称型でない。代表的な例は、中央
処理装置（ＣＰＵ）ノードとＩ／Ｏノードがスイッチに
接続され、スイッチが高速ネットワーク経由で他のスイ
ッチおよびノードに接続されたシステムということにな
ろう。すべてのＣＰＵノードがすべてのＩ／Ｏノードに
アクセスできるということであるから、このシステム
は、従来のＯＳに要求される程度まで対称型である。と
ころが、ＣＰＵノードがＩ／Ｏノードにアクセスする速
度は、ＣＰＵノードと同じスイッチに接続されたＩ／Ｏ
ノードにアクセスするときの方が、別のスイッチに接続
されたＩ／Ｏノードにアクセスするときより速い。従来
のＯＳは、位置的に最も近い適当なリソースに自動的に
アクセスするＣＰＵのコンセプト（“プロセッサ・アフ
ィニティ”として知られている）をサポートしない。す
なわち、ＣＰＵノード上を走るソフトウェアが、常にＣ
ＰＵノードと同じスイッチに接続されたＩ／Ｏノードに
アクセスするのを確実にしないということである。結果
として、ＣＰＵノードによっては、そこから遠隔のネッ
トワークインタフェースコントローラ（ＮＩＣ）にアク
セスするのにシステムインタコネクトを横切らなければ
ならない一方で、ローカルＮＩＣへのアクセスが使用で
きるようになる場合もある。これは、ネットワーク経由
の伝送のための待ち時間が増し、システムインタコネク
トにおいて帯域幅が無駄に使用される結果となる。

【０００４】

【課題を解決するための手段】本発明は、インタコネク
トを介して接続された複数の中央処理装置（ＣＰＵ）ノ
ード、入出力（Ｉ／Ｏ）ノード、およびメモリノードを
包含する分散型マルチノードコンピュータシステムを対
象とする（図１に示す通り）。インタコネクトは更に、
複数の相互に結合されたスイッチを包含する。各スイッ
チは、ＣＰＵノードとＩ／Ｏノードとメモリノードの間
のデータパケットのルーティングを提供する。各スイッ
チは、対応するＩ／Ｏノードを介してネットワーク上の
データパケット伝送のためのＮＩＣに接続される。各Ｎ
ＩＣはメモリマップにマッピングされる。システムアド
レス空間の一部が、対応するスイッチに接続された各Ｎ
ＩＣごとに送信ウィンドウを形成する（図２に示す通
り）。ＣＰＵが、データパケットをＮＩＣ送信ウィンド
ウに書き込むことによってネットワーク経由で伝送す
る。データパケット伝送を制御するメカニズムは、ＮＩ
Ｃ送信ウィンドウへのＣＰＵ書き込みが各々個々に自己
定義的であるように定められる。すなわち、どこにデー
タパケットを送るのか決めるときに直前の書き込みを頼
らないということである。データパケットの宛先および
その伝送のその他の情報は、送信ウィンドウに書き込ま
れたデータパケットの内部でコード化することができ
る。システム内でスイッチに接続されたＮＩＣは、ＣＰ
Ｕのその送信ウィンドウへの書き込みを同じように解釈
するように構成される。これで、ＮＩＣ送信ウィンドウ
へのデータパケット書き込みがどのＮＩＣに向けてなさ
れても同じ効果を持つことが確実になる。“アドレスエ
イリアシング”の周知のコンセプトは、送信ウィンドウ
のエイリアスされた部分へのＣＰＵ書き込みが常に、書
き込みをするＣＰＵと同じスイッチに接続されたＮＩＣ
に向けられるように当該のＮＩＣ送信ウィンドウ部分で
使用される。結果として、ＮＩＣへのＣＰＵ書き込み
は、ＣＰＵ上を走るソフトウェアがどのＮＩＣにアクセ
スしようとするかに関係なく、ＣＰＵに最も近い位置に
あるＮＩＣに向けられる。従って、分散型マルチノード
コンピュータシステムにおいてより良い性能が達成され
る。

【０００５】

【発明の実施の形態】図１について説明すると、ここに
示してあるのは、外部ネットワーク９０に接続された分
散型マルチノードコンピュータシステム１００の全体ア
ーキテクチャのブロック図である。システム１００は、
複数のノード、すなわち中央処理装置（ＣＰＵ）ノード
１１０ａ〜１１０ｎ（全体として１１０）、メモリノー
ド１１５ａ〜１１５ｎ、および入出力（“Ｉ／Ｏ”）ノ
ード１２０ａ〜１２０ｎ（１２０）を含む。ＣＰＵノー
ド１１０は各々が従来の処理装置、例えばＩｎｔｅｌま
たはＩｎｔｅｌコンパチブルのＰｅｎｔｉｕｍ^TMクラス
またはより上位のプロセッサ、ＳｕｎＳＰＡＲＣ^TMク
ラスまたはより上位のプロセッサ、またはＩＢＭ／Ｍｏ
ｔｒｏｌａＰｏｗｅｒＰＣ^TMクラスまたはより上位の
プロセッサである。Ｉ／Ｏノード１２０は各々が従来の
Ｉ／Ｏシステム、例えば記憶装置、入力装置、周辺装置
等々である。メモリノード１１５は各々が従来のメモリ
システム、例えばダイナミックランダムアクセスメモリ
（ＤＲＡＭ）システム、スタティックランダムアクセス
メモリ（ＳＲＡＭ）システム等々である。図１に示す通
り、システム１００におけるノード１１０、１１５およ
び１２０は、インタコネクト１２５を介して接続され
る。インタコネクト１２５は、例えばルータまたはスイ
ッチを使って実現化されたメッシュ、リングまたはハイ
パーキューブであってよい。インタコネクト１２５は、
任意のノード対の間のパスを提供し、メッセージをある
ノードから別のノードへルーティングする。インタコネ
クト１２５は更に、複数の相互に連結したスイッチ１３
０（ａ）〜（ｎ）（全体として１３０）を包含するが、
説明し易くするために、図には４つのスイッチ０、１、
２および３だけを示す。スイッチ１３０は各々、ＣＰＵ
ノード１１０とメモリノード１１５ａ〜１１５ｎとＩ／
Ｏノード１２０の間でのデータパケットのルーティング
を提供する。

【０００６】スイッチ１３０は各々、システム１００に
おけるスイッチ１３０のＩＤを示すローカルスイッチＩ
Ｄ（ＳＷＩＤ）を有する。各ＳＷＩＤは、論理Ｈｉｇｈ
か論理ｌｏｗかどちらかであるバイナリビットによって
特定されてよい。例えば図１に示す通り、スイッチ０は
ＳＷＩＤ‘００’を有し、スイッチ１はＳＷＩＤ‘０
１’を有し、スイッチ２はＳＷＩＤ‘１０’を有し、ス
イッチ３はＳＷＩＤ‘１１’を有する。図１に示す通
り、スイッチ０は、３つのＣＰＵノード１１０、１つの
メモリノード１１５、および１つのＩ／Ｏノード１２０
に接続される。スイッチ１は、２つのＣＰＵノード１１
０、１つのＩ／Ｏノード１２０、および１つのメモリノ
ード１１５に接続される。システム１００におけるどの
ノードも、これが物理的に接続されるスイッチ１３０
と、これが物理的に接続されないスイッチ１３０とを併
せ持つことに注目されたい。ＣＰＵ１１０は各々、ＣＰ
Ｕ１１０が直接接続されないスイッチへの非対称アクセ
スを持つ。一例を挙げると、番号１を付けたＣＰＵノー
ド１１０は、スイッチ０に直接接続される。ところが、
ＣＰＵノード１は、スイッチ１、２および３には直接接
続されない。図１の実施例におけるこのような１つのス
イッチ１３０の詳細なブロック図を図４に示す。

【０００７】図１に示すスイッチ１３０は各々、対応す
るＩ／Ｏノード１２０を介してＮＩＣ８５（ｎ）（全体
として８５）に接続される。図１に示す通り、スイッチ
０は対応するＩ／Ｏノードを介してＮＩＣ０に接続し、
スイッチ１は対応するＩ／Ｏノードを介してＮＩＣ１に
接続し、スイッチ２は対応するＩ／Ｏノードを介してＮ
ＩＣ２に接続し、スイッチ３は対応するＩ／Ｏノードを
介してＮＩＣ３に接続する。ＮＩＣ８５は、ギガビット
・イーサネット（登録商標）またはファイバチャネル等
のネットワークインタフェースのためのＩ／Ｏコントロ
ーラである。

【０００８】システム１００は更に、ＣＰＵノード１１
０にＮＩＣ８５へのプロセッサ入出力（ＰＩＯ）書き込
みリファレンスを発行させるソフトウェアドライバ１６
０を包含する。ソフトウェアドライバ１６０は、ソフト
ウェアとしてもハードウェアとしても実現することがで
きる。

【０００９】図２について説明すると、これは、マルチ
ノードコンピュータシステム１００のアドレスマップ２
００を示す。アドレスマップ２００は、キャッシュメモ
リやＩ／Ｏノード１２０等のメモリ構造にアクセスする
ための１組のメモリアドレスを有する。図２に示す通
り、アドレスマップ２００は０から始まり、２⁶⁴ビット
の幅である。図２の例では、０から２³²までのアドレス
はいずれもメモリノード１１５へのリファレンスを維持
する。２³⁴から２⁴⁰までのアドレスはいずれもメモリマ
ップト入出力（ＭＭＩＯ）ウィンドウ２５へのリファレ
ンスを維持する。すべてのＮＩＣ８５はアドレスマップ
２００においてマッピングされる。システムアドレスマ
ップ２００の一部が、対応するスイッチ１３０に接続さ
れた各ＮＩＣ８５ごとに送信ウィンドウを形成する。こ
のアドレス空間をＮＩＣ送信ウィンドウ２７と呼ぶ。ア
ドレスマップ２００では、さまざまなメモリ構造へのリ
ファレンスを維持するためにどんなアドレス範囲を選ん
でも構わないことを理解されたい。

【００１０】ＣＰＵ１１０は、データパケットをＮＩＣ
送信ウィンドウに書き込むことによってネットワーク経
由で伝送する。データパケット伝送を制御するためのメ
カニズムは、ＮＩＣ送信ウィンドウ２７へのＰＩＯ書き
込みリファレンスが各々個々に自己定義的であるように
定められる。すなわち、各ＰＩＯ書き込みはどこにデー
タパケットを送るのか決めるために直前のＰＩＯ書き込
みを頼らないということである。データパケット伝送に
必要とされる情報はすべて、単一のＰＩＯ書き込みでＮ
ＩＣ８５に送信される。一例を挙げると、この情報は、
ネットワークの宛先、データパケット、プロトコルヘッ
ダ等を含んでよい。データパケットおよび他の情報の宛
先は、ＮＩＣ送信ウィンドウ２７に書き込まれたデータ
パケットの内部でコード化され得る。代替の実施例で
は、データパケットの宛先は、ＮＩＣ送信ウィンドウ２
７の内部でオフセット（図示されていない）によって指
示されてよい。本発明の一実施例では、書き込み複合属
性が、データパケットを単一転送で送信するのに使用さ
れる。データパケットを単一転送でＮＩＣ８５に送信す
るのに他の方法も活用できることを理解されたい。シス
テム１００におけるスイッチに接続されたＮＩＣ８５
は、その送信ウィンドウ２７への書き込みを同じように
解釈する構成になっている。これで、ＮＩＣ送信ウィン
ドウ２７へのデータパケット書き込みがどのＮＩＣ８５
に向けてなされても同じ効果を持つことが確実になる。

【００１１】ＮＩＣ送信ウィンドウ２７では、ＮＩＣ
０、ＮＩＣ１、ＮＩＣ２およびＮＩＣ３とラベルを付さ
れた領域が直接メモリマッピングされる。先に述べた通
り、ＮＩＣ０は対応するＩ／Ｏノードを通じてスイッチ
０に接続し、ＮＩＣ１は対応するＩ／Ｏノードを通じて
スイッチ１に接続し、ＮＩＣ２は対応するＩ／Ｏノード
を通じてスイッチ２に接続し、ＮＩＣ３は対応するＩ／
Ｏノードを通じてスイッチ３に接続する。ＮＩＣ送信ウ
ィンドウ２７においてＮＩＣ０とラベルを付された空間
へのＰＩＯ書き込みリファレンスは、スイッチ０に属す
るＮＩＣ８５に直接向かうようルーティングされる。同
様に、ＮＩＣ２とラベルを付された空間へのＰＩＯ書き
込みリファレンスは、スイッチ２に属するＮＩＣ８５に
直接向かうようルーティングされる。ＮＩＣ送信ウィン
ドウ２７においてラベル“ＬＯＣＡＬＮＩＣＡＬＩ
ＡＳ”を付けた領域へのＰＩＯ書き込みリファレンス
は、このＰＩＯ書き込みリファレンスを発行したＣＰＵ
と同じスイッチに属するＮＩＣに向けてルーティングさ
れる。

【００１２】未使用と記された領域は、ＬＯＣＡＬＮ
ＩＣＡＬＩＡＳ（ローカルＮＩＣエイリアス）のエリ
アをＮＩＣ０ウィンドウと共に自然に並べるようにする
ためのアドレスマップ２００の間隙である。図２に示す
通り、ＬＯＣＡＬＮＩＣＡＬＩＡＳは、ＭＭＩＯウィ
ンドウ２５においてＮＩＣ送信ウィンドウ２７の最下部
から始まる。

【００１３】図３について説明すると、ここに示してあ
るのは、ＮＩＣ８５へのＰＩＯ書き込みリファレンスで
使用されるアドレス５０の好適なフォーマットの図解で
ある。アドレス５０は、どこにデータパケットを送るべ
きかを指示する。アドレス５０は、望ましくは、下記の
フィールドを含む。ＮＩＣベースフィールド１０、ＳＷ
ＩＤフィールド２０、ＮＩＣサイズフィールド３０、お
よびキャッシュラインオフセットフィールド４０。

【００１４】ＮＩＣベースフィールド１０は、それをＮ
ＩＣベースレジスタ（図３に示されていない）と照合す
ることによってＮＩＣ８５に向けてＰＩＯ書き込みリフ
ァレンスがなされたかどうかを決定するのに使用され
る。ＮＩＣベースフィールド１０の内容がＮＩＣベース
レジスタに合致すれば、それは、ＮＩＣ８５に対してリ
クエストが出されていることを示す。ＮＩＣベースレジ
スタ５については、後に図４に則して詳細に述べる。

【００１５】ＳＷＩＤフィールド２０は、望ましくは、
システム初期設定時に指定値に設定される。一実施例で
は、ＳＷＩＤフィールド２０に保存された指定値がゼロ
“０００”である。一実施例では、ＳＷＩＤフィールド
２０は３ビットの幅がある。値“０００”は一例にすぎ
ず、ＳＷＩＤフィールド２０は任意のどんな数値も保持
できることを理解されたい。ＮＩＣ８５に向けてＰＩＯ
書き込みリファレンスを行なうことが決定されると、Ｓ
ＷＩＤフィールド２０は、それがローカルＮＩＣエイリ
アスを指示する指定値を有するかどうか見るために検査
される。

【００１６】ＮＩＣサイズフィールド３０は、ＭＭＩＯ
ウィンドウ２５におけるＮＩＣ送信ウィンドウ２７のサ
イズを指定する。ＮＩＣ送信ウィンドウ２７は、サイズ
が２の累乗であるので、自然に並ぶ。キャッシュライン
オフセットフィールド４０は、ＭＭＩＯウィンドウ２５
におけるキャッシュラインのサイズを指示する。

【００１７】図４について説明すると、これは、システ
ム１００の１つのスイッチ１３０の機能ブロック図であ
る。代表的なシステム１００は複数のスイッチ１３０を
有するが、図４では、説明を分かり易くするためにその
ようなスイッチ１３０が１つしか描かれていない。図４
に示す通り、スイッチ１３０は数個の入力ポートを有す
るが、描かれているのは５個のポート８、９、１１、１
２および１５だけである。スイッチ１３０は更に、対応
するＩ／Ｏノード１２０を介してＮＩＣ８５に接続す
る。

【００１８】各スイッチ１３０は更にＮＩＣベースレジ
スタ５を包含する。ＮＩＣベースレジスタ５は、図１に
示すＮＩＣ８５がＭＭＩＯウィンドウ２５においてマッ
ピングされた場所を示すべくプログラムされる。

【００１９】各スイッチ１３０は更に、ＰＩＯ書き込み
リファレンスで使用されたアドレス５０を復号するのに
適したエイリアスデコーダ２を包含する。図４では、説
明し易くするためにエイリアスデコーダ２が１つしか示
してないが、スイッチ１３０の各ポートがエイリアスデ
コーダ２を有する。ＮＩＣ８５に向けてＰＩＯ書き込み
リファレンスがなされたことが決定されると、エイリア
スデコーダ２は、アドレス５０のＳＷＩＤフィールド２
０を読み取り、それがローカルＮＩＣエイリアスを指示
する指定値を有するかどうか決定する。アドレス５０が
ＮＩＣ送信ウィンドウ２７におけるローカルＮＩＣエイ
リアスを示せば、エイリアスデコーダ２は、アドレス５
０のＳＷＩＤフィールドをローカルＳＷＩＤポート８か
ら受け取ったローカルＳＷＩＤ１８と置き換えることに
よって、受け取ったアドレス５０を修正する。エイリア
スデコーダ２は、修正アドレス５０ａをアドレスデコー
ダ４へ転送する。

【００２０】アドレスデコーダ４は、修正アドレス５０
ａを受け取り、データパケットをこの修正アドレス５０
ａに向けてルーティングするのに使用される。修正アド
レス５０ａは、ＰＩＯ書き込みリファレンスを発行した
ＣＰＵ１１０に接続されたスイッチを指すＮＩＣローカ
ルのアドレスを含む。一例を挙げると、スイッチ１に接
続されたＣＰＵ１１０がＰＩＯ書き込みリファレンスを
発行した場合、リファレンスは、スイッチ１に接続され
たＮＩＣ１に向けてルーティングされる。スイッチ１３
０は更に、アドレスデコーダ４に結合したクロスバー
（ＸＢＡＲ）６を包含する。ＸＢＡＲ６は、ＰＩＯ書き
込みリファレンスをあるポートから別のポートに向けて
ルーティングする。

【００２１】図５について説明すると、ここに示してあ
るのは、システム１００によって実行されるデータパケ
ットのルーティングの方法のフローチャートである。プ
ロセスが始まり（５１０）、ソフトウェアドライバ１６
０がＣＰＵ１１０にＰＩＯ書き込みリファレンスをＮＩ
Ｃ８５に向けて発行させる（５２０）。ＰＩＯ書き込み
リファレンスは、望ましくは、アドレス５０ならびにデ
ータパケットを含む。ソフトウェアドライバ１６０は、
ＰＩＯ書き込みリファレンスで用いられるアドレス５０
において、望ましくは、ＳＷＩＤフィールド２０を指定
値に設定する。指定値は、ＮＩＣ送信ウィンドウ２７に
おけるローカルＮＩＣエイリアスを指示する（図２に示
す）。データパケットを伝送するのに要求された情報は
すべて、単一のＰＩＯ書き込みリファレンスでＮＩＣ８
５に送られなければならず、データパケット内部でコー
ド化される。

【００２２】ＰＩＯ書き込みリファレンスは、スイッチ
１３０のポート９に到達する（図４に示す）。エイリア
スデコーダ２は、ＰＩＯ書き込みリファレンスで使用さ
れたアドレス５０を受け取る（５３０）。ステップ５４
０において、ＮＩＣベースフィールド１０とＮＩＣベー
スレジスタ５の間で論理比較が行われる。ＮＩＣベース
レジスタ５は、ＮＩＣ８５がＭＭＩＯウィンドウ２５に
おいてマッピングされた場所を指示する。ＮＩＣベース
フィールド１０の内容がＮＩＣベースレジスタに等しい
ならば、それは、ＮＩＣ８５に対してＰＩＯ書き込みリ
ファレンスがなされていることを示す。その場合、それ
がローカルＮＩＣエイリアスを示す指定値を有するかど
うか見るために、アドレス５０のＳＷＩＤフィールドが
検査される（５５０）。

【００２３】先のステップにおける決定が肯定的であれ
ば、エイリアスデコーダは、アドレスのＳＷＩＤフィー
ルドをローカルＳＷＩＤ１８と置き換え（５５５）、修
正アドレス５０ａを生成する（図４に示す）。修正アド
レス５０ａは、望ましくは、受け取られたアドレス５０
と同じフィールドを有する。修正アドレス５０ａは、Ｐ
ＩＯ書き込みリファレンスを発行したＣＰＵ１１０に接
続されたスイッチを指すＮＩＣローカルのアドレスを含
む。

【００２４】アドレスデコーダ４は、ローカルＳＷＩＤ
を有する修正アドレスを受け取り（５６０）、ＰＩＯ書
き込みリファレンスを修正アドレス５０ａで指示された
通りのその宛先に向けてルーティングし、そして、プロ
セスは終了する（５７０）。結果として、ＰＩＯ書き込
みリファレンスは、ＰＩＯ書き込みリファレンスがどの
ＮＩＣをターゲットにしているかに関係なく、リクエス
トを出したＣＰＵに最も近い位置にあるＮＩＣに向けて
ルーティングされる。但し、ＮＩＣ８５に対してＰＩＯ
書き込みリファレンスがなされなかった場合、アドレス
は、修正されずにアドレスデコーダ４に送られる（５８
０）。

【００２５】こうして、本発明によれば有益なことに、
ソフトウェアドライバ１６０は常に、動作中である現行
ＣＰＵに最も近い位置のＮＩＣを使用できることにな
り、システムのトポロジーを理解する必要もない。オペ
レーティングシステムは、ソフトウェアドライバ１６０
の知識なしにソフトウェアドライバ１６０をＣＰＵ間で
動作させることができ、ネットワーク９０に各々独立し
て転送されるデータパケットは常に、現行ＣＰＵが接続
されているスイッチに接続されたＮＩＣを通っていくこ
とになる。

【００２６】（付記１）各スイッチが少なくとも１つの
ネットワークインタフェースコントローラ（ＮＩＣ）に
通信的に結合した複数のスイッチに通信的に結合した複
数のＣＰＵを含むマルチノードコンピュータシステムに
おいて、プロセッサ入出力（ＰＩＯ）書き込みリファレ
ンスを、ＣＰＵからこのＣＰＵに対してローカルである
スイッチに接続されたＮＩＣまでルーティングする方法
であって、アドレスとデータを含むＰＩＯ書き込みリフ
ァレンスを受け取り、ローカルＮＩＣエイリアスを指示
するアドレスに応答して、そのアドレスに基いて、ＰＩ
Ｏ書き込みリファレンスを発行したＣＰＵに接続されて
いるスイッチに対してローカルであるＮＩＣのアドレス
を含む修正アドレスを生成し、データをこの修正アドレ
スに向けてルーティングするステップを具備する方法。
（１）（付記２）前記アドレスが更にベースフィールドを含
み、該ベースフィールドをＮＩＣベースレジスタと照合
して前記ＮＩＣに対してＰＩＯ書き込みリファレンスが
なされているかどうか決定するステップをさらに具備す
る付記１に記載の方法。（２）（付記３）ＰＩＯ書き込みリファレンスが各々、ＮＩＣ
がその宛先へデータを送るのに必要とされるすべての情
報を含む付記１に記載の方法。

【００２７】（付記４）アドレスが更にスイッチＩＤ
（ＳＷＩＤ）フィールドを包含し、修正アドレスを生成
するステップは更に、ＳＷＩＤフィールドを、ＰＩＯ書
き込みリファレンスを発行したＣＰＵに接続されている
スイッチに対してローカルであるＮＩＣのローカルＳＷ
ＩＤと置き換えることを含む付記１に記載の方法。
（３）（付記５）マルチノードコンピュータシステムであっ
て、各々が１つのアドレスを含むＰＩＯ書き込みリファ
レンスを発行する複数のＣＰＵと、各々がＰＩＯ書き込
みリファレンスをネットワークインタフェースコントロ
ーラ（ＮＩＣ）に向けてルーティングするために少なく
とも１つのＣＰＵに通信的に結合した複数のスイッチ
と、各々がＰＩＯ書き込みリファレンスをネットワーク
上でルートティングするために複数のスイッチの少なく
とも１つに通信的に結合した複数のＮＩＣと、各々が複
数のスイッチの１つに属し、前記アドレスに基づきＰＩ
Ｏ書き込みリファレンスを発行したＣＰＵに接続されて
いるスイッチに対してローカルであるＮＩＣのアドレス
を含む修正アドレスを生成するエイリアスデコーダとを
具備するシステム。（４）（付記６）各々が複数のスイッチの１つに属し、ＰＩＯ
書き込みリファレンスを修正アドレスに向けてルーティ
ングする複数のアドレスデコーダをさらに具備する付記
５に記載のシステム。（５）（付記７）ＰＩＯ書き込みリファレンスで使用されたア
ドレスが更に、メモリマップト入出力（ＭＭＩＯ）ウィ
ンドウに書き込むことのできるキャッシュラインの数を
指示するサイズフィールドを包含する付記５に記載のシ
ステム。（６）（付記８）ＰＩＯリファレンスで使用されたアドレスが
更に、ＭＭＩＯウィンドウに書き込まれた各キャッシュ
ラインのサイズを指示するキャッシュラインオフセット
フィールドを具備する付記５に記載のシステム。（７）（付記９）各スイッチが更に、ＭＭＩＯウィンドウにお
いてＮＩＣがマッピングされた場所を指示するＮＩＣベ
ースレジスタを具備する付記５に記載のシステム。

【００２８】（付記１０）ＮＩＣベースレジスタがプロ
グラムされた定数を保存する付記９に記載のシステム。

【００２９】（付記１１）各スイッチが、任意のスイッ
チのＭＭＩＯウィンドウへのＰＩＯ書き込みリファレン
スを認識できる付記５に記載のシステム。

【００３０】（付記１２）ＮＩＣへのＰＩＯ書き込みリ
ファレンスが各々、ＮＩＣがその宛先へデータを送るの
に必要とされるすべての情報を含む付記５に記載のシス
テム。

【００３１】（付記１３）各スイッチが少なくとも１つ
のネットワークインタフェースコントローラ（ＮＩＣ）
に通信的に結合した複数のスイッチに通信的に結合した
複数のＣＰＵを含むマルチノードコンピュータシステム
において、プロセッサ入出力（ＰＩＯ）書き込みリファ
レンスをＣＰＵからこのＣＰＵに対してローカルである
スイッチに接続されたＮＩＣまでルーティングする方法
であって、ベースアドレスとスイッチＩＤ（ＳＷＩＤ）
を含むアドレスを含むＰＩＯ書き込みリファレンスを受
け取り、ベースアドレスをＮＩＣベースレジスタと照合
してＮＩＣに対してＰＩＯ書き込みリファレンスがなさ
れているかどうか決定し、ＰＩＯ書き込みリファレンス
がＮＩＣに対してなされていることに応答して、ＳＷＩ
ＤがローカルＮＩＣエイリアスを指示する指定値を有す
るかどうか決定し、ＳＷＩＤがローカルＮＩＣエイリア
スを指示する指定値を有することに応答して、ＳＷＩＤ
フィールドをローカルＳＷＩＤと置き換えるステップを
具備する方法。（８）（付記１４）各ＰＩＯリファレンスがデータパケットを
含み、ＮＩＣへのＰＩＯリファレンスが各々、ＮＩＣが
その宛先へデータパケットを送るのに必要とされるすべ
ての情報を含む付記１３に記載の方法。（９）（付記１５）ローカルＳＷＩＤが、ＰＩＯ書き込みリフ
ァレンスを発行したＣＰＵに接続されたスイッチのＩＤ
である付記１３に記載の方法。

【００３２】（付記１６）ローカルＮＩＣエイリアス
が、ＰＩＯ書き込みリファレンスを発行したＣＰＵに対
してローカルであるスイッチに接続されたＮＩＣに向け
てＰＩＯ書き込みリファレンスをルーティングできるよ
うにするＭＭＩＯウィンドウ内の領域である付記１３に
記載の方法。

【００３３】（付記１７）分散型マルチノードコンピュ
ータシステムであって、アドレスを含むプロセッサ入出
力（ＰＩＯ）リファレンスを発行するためのプロセッサ
手段と、ＰＩＯリファレンスをネットワークインタフェ
ースコントローラ（ＮＩＣ）に向けてルーティングする
ためのスイッチング手段と、ＰＩＯリファレンスで使用
されたアドレスを受け取り、その受け取ったアドレスに
基づき、ＰＩＯ書き込みリファレンスを発行したプロセ
ッサ手段に対してローカルであるスイッチング手段に接
続されたＮＩＣを指示する修正アドレスを生成するため
のエイリアス復号手段とを具備するシステム。（１０）

【図面の簡単な説明】

【図１】本発明の一実施例による分散型マルチノードコ
ンピュータシステムの全体アーキテクチャのブロック図
である。

【図２】図１の分散型コンピュータシステムのアドレス
マップを図解したものである。

【図３】ＮＩＣへのプロセッサ入出力（ＰＩＯ）リファ
レンスで使用されたアドレスの好適なフォーマットを図
解したものである。

【図４】図１のシステムの一スイッチの機能ブロック図
である。

【図５】図１のシステムによって実行されたＰＩＯリフ
ァレンスの宛先を復号する方法のフローチャートであ
る。

───────────────────────────────────────────────────── フロントページの続き (72)発明者サディールミルヤラアメリカ合衆国，カリフォルニア 95129, サンノゼ，ウエストウォルブルックドライブ 5725 (72)発明者パトリックエヌ．コンウェイアメリカ合衆国，カリフォルニア 94024, ロスアルトス，ドロレスアベニュ 973 Ｆターム(参考） 5B045 BB01 BB15 BB28 BB29 BB30 BB42 5K030 LB05

Claims

【特許請求の範囲】

【請求項１】各スイッチが少なくとも１つのネットワ
ークインタフェースコントローラ（ＮＩＣ）に通信的に
結合した複数のスイッチに通信的に結合した複数のＣＰ
Ｕを含むマルチノードコンピュータシステムにおいて、
プロセッサ入出力（ＰＩＯ）書き込みリファレンスを、
ＣＰＵからこのＣＰＵに対してローカルであるスイッチ
に接続されたＮＩＣまでルーティングする方法であっ
て、アドレスとデータを含むＰＩＯ書き込みリファレンスを
受け取り、ローカルＮＩＣエイリアスを指示するアドレスに応答し
て、そのアドレスに基いて、ＰＩＯ書き込みリファレン
スを発行したＣＰＵに接続されているスイッチに対して
ローカルであるＮＩＣのアドレスを含む修正アドレスを
生成し、データをこの修正アドレスに向けてルーティングするス
テップを具備する方法。
【請求項２】前記アドレスが更にベースフィールドを
含み、該ベースフィールドをＮＩＣベースレジスタと照
合して前記ＮＩＣに対してＰＩＯ書き込みリファレンス
がなされているかどうか決定するステップをさらに具備
する請求項１に記載の方法。
【請求項３】アドレスが更にスイッチＩＤ（ＳＷＩ
Ｄ）フィールドを包含し、修正アドレスを生成するステ
ップは更に、ＳＷＩＤフィールドを、ＰＩＯ書き込みリファレンスを
発行したＣＰＵに接続されているスイッチに対してロー
カルであるＮＩＣのローカルＳＷＩＤと置き換えること
を含む請求項１に記載の方法。
【請求項４】マルチノードコンピュータシステムであ
って、各々が１つのアドレスを含むＰＩＯ書き込みリファレン
スを発行する複数のＣＰＵと、各々がＰＩＯ書き込みリファレンスをネットワークイン
タフェースコントローラ（ＮＩＣ）に向けてルーティン
グするために少なくとも１つのＣＰＵに通信的に結合し
た複数のスイッチと、各々がＰＩＯ書き込みリファレンスをネットワーク上で
ルートティングするために複数のスイッチの少なくとも
１つに通信的に結合した複数のＮＩＣと、各々が複数のスイッチの１つに属し、前記アドレスに基
づきＰＩＯ書き込みリファレンスを発行したＣＰＵに接
続されているスイッチに対してローカルであるＮＩＣの
アドレスを含む修正アドレスを生成するエイリアスデコ
ーダとを具備するシステム。
【請求項５】各々が複数のスイッチの１つに属し、Ｐ
ＩＯ書き込みリファレンスを修正アドレスに向けてルー
ティングする複数のアドレスデコーダをさらに具備する
請求項４に記載のシステム。
【請求項６】ＰＩＯ書き込みリファレンスで使用され
たアドレスが更に、メモリマップト入出力（ＭＭＩＯ）
ウィンドウに書き込むことのできるキャッシュラインの
数を指示するサイズフィールドを包含する請求項４に記
載のシステム。
【請求項７】ＰＩＯリファレンスで使用されたアドレ
スが更に、ＭＭＩＯウィンドウに書き込まれた各キャッ
シュラインのサイズを指示するキャッシュラインオフセ
ットフィールドを具備する請求項４に記載のシステム。
【請求項８】各スイッチが少なくとも１つのネットワ
ークインタフェースコントローラ（ＮＩＣ）に通信的に
結合した複数のスイッチに通信的に結合した複数のＣＰ
Ｕを含むマルチノードコンピュータシステムにおいて、
プロセッサ入出力（ＰＩＯ）書き込みリファレンスをＣ
ＰＵからこのＣＰＵに対してローカルであるスイッチに
接続されたＮＩＣまでルーティングする方法であって、ベースアドレスとスイッチＩＤ（ＳＷＩＤ）を含むアド
レスを含むＰＩＯ書き込みリファレンスを受け取り、ベースアドレスをＮＩＣベースレジスタと照合してＮＩ
Ｃに対してＰＩＯ書き込みリファレンスがなされている
かどうか決定し、ＰＩＯ書き込みリファレンスがＮＩＣに対してなされて
いることに応答して、ＳＷＩＤがローカルＮＩＣエイリ
アスを指示する指定値を有するかどうか決定し、ＳＷＩＤがローカルＮＩＣエイリアスを指示する指定値
を有することに応答して、ＳＷＩＤフィールドをローカ
ルＳＷＩＤと置き換えるステップを具備する方法。
【請求項９】各ＰＩＯリファレンスがデータパケット
を含み、ＮＩＣへのＰＩＯリファレンスが各々、ＮＩＣ
がその宛先へデータパケットを送るのに必要とされるす
べての情報を含む請求項８に記載の方法。
【請求項１０】分散型マルチノードコンピュータシス
テムであって、アドレスを含むプロセッサ入出力（ＰＩＯ）リファレン
スを発行するためのプロセッサ手段と、ＰＩＯリファレンスをネットワークインタフェースコン
トローラ（ＮＩＣ）に向けてルーティングするためのス
イッチング手段と、ＰＩＯリファレンスで使用されたアドレスを受け取り、
その受け取ったアドレスに基づき、ＰＩＯ書き込みリフ
ァレンスを発行したプロセッサ手段に対してローカルで
あるスイッチング手段に接続されたＮＩＣを指示する修
正アドレスを生成するためのエイリアス復号手段とを具
備するシステム。