JP2003114879A - メッセージトラフィックとマルチシャーシコンピュータシステムのバランスをとる方法 - Google Patents
メッセージトラフィックとマルチシャーシコンピュータシステムのバランスをとる方法Info
- Publication number
- JP2003114879A JP2003114879A JP2002190476A JP2002190476A JP2003114879A JP 2003114879 A JP2003114879 A JP 2003114879A JP 2002190476 A JP2002190476 A JP 2002190476A JP 2002190476 A JP2002190476 A JP 2002190476A JP 2003114879 A JP2003114879 A JP 2003114879A
- Authority
- JP
- Japan
- Prior art keywords
- chassis
- node
- cable
- domain
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000004044 response Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/04—Interdomain routing, e.g. hierarchical routing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Multi Processors (AREA)
Abstract
相互接続マルチシャーシコンピュータシステムにおい
て、ドメイン間ケーブルをメッセージトラフィックに使
用して、ドメイン内ケーブル上のメッセージトラフィッ
クの輻輳を軽減する。 【解決手段】マルチノードネットワークコンピュータシ
ステムはメッセージトラフィックのバランスをとるメカ
ニズムによってI/Oトランザクションを識別し、I/
Oトランザクションをドメイン間ケーブルを介してルー
ティングすると共に、非I/Oトランザクションをドメ
イン内ケーブルを介してルーティングする。これによっ
て、ドメイン内ケーブル上のメッセージトラフィックの
輻輳を軽減する。
Description
U.S.C. §119(e)に基づき2001年6月
28日付けで出願された出願番号60/302,226
の「ROUTINGMECHANISM FOR STA
TIC LOAD BALANCING INA PART
ITIONED COMPUTER SYSTEM WI
TH A FULLY CONNECTED NETWOR
K」という名称のHitoshiOi、Patick
N. Conway、Takeshi Shimizu、
Kazunori Masuyama、Sudheer
Miryala、Jeremy Farrell、及び
Norio Kaidoによる仮出願による優先権を主
張するものであり、この引用によってそのすべてが本明
細書に包含される。本発明は、コンピュータシステムに
おける共有メモリ構造の論理パーティション化に関する
ものであり、更に詳しくは、パーティション化されたコ
ンピュータシステムにおけるメッセージトラフィックの
バランシングに関する。
は、それぞれが独自のアドレス空間を有し独立したマシ
ンとして機能する複数のドメインにパーティション化す
ることができる。この場合、オペレーティングシステム
は、それぞれのドメインにおいて別々に稼動する。ドメ
インにパーティション化することによって、コンピュー
タネットワークのリソースを異なるタスクに効率的に割
り当てることが可能になり、コンピュータシステムの使
用法に柔軟性をもたらすと共に、コンピュータリソース
を隔離することによって、特定ドメインにおけるハード
ウェア又はソフトウェア障害が、システムのその他のド
メインの稼動を妨げることのないように制限できる。
ータネットワークのハードウェア実装には、グループ化
された中央処理装置(CPU)及び入力/出力(I/
O)ノードが1つのモジュールとして存在するものがあ
り、それらをしばしばシャーシ又はキャビネットと呼
ぶ。これらの複数のシャーシを1つに結合し、マルチノ
ードクラスタを形成することができる。複数シャーシシ
ステムをいくつかのドメインにパーティション化した場
合、あるドメインに存在するノードは、その他のドメイ
ンのノードに対して読み取り及び書き込み要求を実行す
ることはできない。この結果、ドメインが異なるシャー
シを結合するケーブル(ドメイン間ケーブル)が、メッ
セージトラフィックに使用されず、同一ドメイン内のシ
ャーシを結合するケーブル(ドメイン内ケーブル)が、
メッセージトラフィックによって非常に輻輳することに
なる。パーティション化されたシステムにおいては、通
常、ドメイン内メッセージトラフィックが、ドメイン間
メッセージトラフィックよりも多い。
をとる方法としては、既知のものがいくつか存在する
が、カリフォルニア州Palo Altoに所在するH
ewlett Packard CompanyのHP9
000「Superdome」Serverがその1つ
である。しかし、このシステムはパーティション化され
たシステムにおける未使用経路による負荷バランシング
をサポートしていない。また、メッセージトラフィック
のバランスをとる別の方法として、動的適応ルーティン
グ(Dynamic Adaptive Routing)があるが、これには複
雑な実装が必要であり、ハードウェアコストの上昇を招
くことになる。
ケーブル上の入力/出力(I/O)メッセージトラフィ
ックのバランスをとってドメイン内ケーブル上の輻輳を
軽減するためのシステムと方法が含まれている。パーテ
ィション化されたマルチシャーシコンピュータシステム
は、少なくとも2つのドメインを有している(図1を参
照)。これらのドメインは互いに隔離されており、いず
れのドメインもその他のドメインの共有アドレス空間に
対して直接読み取り及び書き込みを実行することはでき
ない。システム内の各ドメインは、そのドメイン内に少
なくとも1つのシャーシを有している。同一ドメイン内
のシャーシはドメイン内ケーブルを介して結合されてお
り、ドメインが異なるシャーシはドメイン間ケーブルを
介して結合されている。シャーシとしては、通信可能に
結合されたプロセッサノード、I/Oノード、メモリノ
ード、及びルータを備えているものが望ましい。また、
ルータは、少なくとも2つのルーティングテーブルを維
持管理し、メッセージのルーティング先となる出口ポー
トを判定するものが望ましい(図4を参照)。この場
合、第1ルーティングテーブルは、I/Oノードからの
トランザクション用にプログラムされており、第2ルー
ティングテーブルは、プロセッサノードからのトランザ
クション用にプログラムされている。
ノードは、宛先ノードに対して情報又はリソースを要求
する。この要求メッセージは、その要求メッセージを受
信する宛先ノードIDを示す宛先ノードフィールドと、
ソースノードを示すI/Oビットフィールドと、データ
を格納するペイロードフィールドとからなるフォーマッ
トを有している。本発明の一実施例においては、宛先ノ
ードIDとI/Oビットに基づいて、トランザクション
をI/Oトランザクション及びプロセッサ−メモリトラ
ンザクション(非I/Oトランザクション)に分類す
る。宛先ノードがI/Oであるか、或いはソースノード
がI/OノードであることをI/Oビットが示している
場合、該トランザクションはI/Oトランザクションと
して分類され、ドメイン間ケーブルを介してルーティン
グされる。そうでなければ、トランザクションはプロセ
ッサ−メモリトランザクション(非I/O)に分類さ
れ、ドメイン内ケーブルを介してルーティングされる。
本発明においては、I/Oトランザクションをドメイン
間ケーブルを介してルーティングすることによって、使
用頻度の高いドメイン内ケーブル上のメッセージトラフ
ィックの輻輳を軽減している。この結果、プロセッサ−
メモリトランザクションのレイテンシー(待ち時間)を
削減する効果がある。
2、及びドメインNという複数のドメインにパーティシ
ョン化された従来のコンピュータシステム100のブロ
ックダイアグラムであり、それぞれのドメインは独自の
アドレス空間を有する独立したマシンとして動作する。
ドメイン1、2、及びNは互いに隔離されており、いず
れのドメインもその他のドメインの共有アドレス空間に
対して直接読み取り又は書き込みを実行できない。図1
の各ドメインは、CPUノード110−1〜110−n
(110と総称する)、メモリノード115−1〜11
5−n(115と総称する)、及びI/Oノード120
−1〜120−n(120と総称する)などの複数のノ
ードを備えている。各CPUノード110は、Inte
l又はIntel互換のPentiumTMクラス以上の
プロセッサ、Sun SPARCTMクラス以上のプロセ
ッサ、或いはIBM/Motorola PowerP
CTMクラス以上のプロセッサなどの従来型の処理装置で
ある。また、各I/Oノード120は、ストレージデバ
イス、入力デバイス、周辺デバイスなどの従来型のI/
Oシステムであり、各メモリノード115は、ダイナミ
ックランダムアクセスメモリ(DRAM)システム、ス
タティックランダムアクセスメモリ(SRAM)システ
ムなどの従来型のメモリシステムである。これらのノー
ド110、115、120は、相互接続125を介して
接続されている。該相互接続125は、命令、データ、
及びその他の信号のノード間での転送を実現するために
複数のノードを結合している。なお、相互接続125
は、ルータ又はスイッチを使用して実装されたメッシ
ュ、リング、又はハイパーキューブなどであってよい。
パーティション化されたコンピュータシステム100に
おいては、ドメイン1、2、及びNの読み取り及び書き
込み要求は、各々のドメイン内のノード間でのみ実行可
能である。
接続3シャーシコンピュータシステム200のブロック
ダイアグラムである。コンピュータシステム200は、
ドメイン1 160及びドメイン2 180という2つの
ドメインにパーティション化されている。これらのドメ
インは互いに隔離されており、いずれのドメインも、も
う一方のドメインの共有アドレス空間に対して直接読み
取り又は書き込みを実行することはできない。ドメイン
1内には、シャーシA及びシャーシBが存在しており、
ドメイン2内には、シャーシCが存在している。すべて
のシャーシA、B、及びCは、従来型の高速データ転送
ネットワークケーブルによって完全に相互接続されてお
り、専用のリンクを形成している。たとえば、ドメイン
1内のシャーシA及びBは、ドメイン内ケーブルA−B
161を介して接続されており、シャーシA及びCは、
ドメイン間ケーブルA−C163を介して接続され、シ
ャーシB及びCは、ドメイン間ケーブルC−B167を
介して接続されている。
10a〜110c(110と総称する)、I/Oノード
120a〜120c(120と総称する)、及びルータ
150a〜150c(150と総称する)を備えてい
る。Pノード110としては、プロセッサ及びメモリを
備えているものが望ましい。図2に示されている実施例
においては、3つのPノード110及び3つのI/Oノ
ード(I)120からなる合計6つのノードを備えてい
る。ただし、パーティション化されたシステム200
は、いくつのノードを備えてもよい。
50a〜150cは、そのシャーシのPノード110と
信号線の第1セット155によって通信可能に結合して
おり、そのシャーシのIノード120と信号線の第2セ
ット157によって通信可能に結合している。シャーシ
A内のルータ150aは、ケーブルA−B161(直接
経路)を介してシャーシB内のルータ150bと結合し
ている。また、シャーシA内のルータ150aは、ケー
ブルA−C163(間接経路)を介してシャーシC内の
ルータ150cと結合している。そして、シャーシB内
のルータ150bは、ケーブルC−B167(間接経
路)を介してシャーシC内のルータ150cと結合して
いる。なお、信号線の第1セット155、信号線の第2
セット157、及びケーブル161、163、及び16
7は、1本以上のデータワイヤなど、どのような信号通
信媒体であってもよい。
する従来型の4×4クロスバースイッチである。これら
のルータ150は、メッセージの転送先である次のネッ
トワークポイントを判定する。ルータ150a〜150
c内部の小さな数字0、1、2、3は、図2の実施例に
おけるノードとケーブルの接続ポートを示している。更
に、各ルータ150は、少なくとも1つのルーティング
テーブルの維持管理をも行う(その一例を図4に示して
いる)。
ンとプロセッサ−メモリトランザクション(非I/Oト
ランザクション)という2つのカテゴリが存在する。各
トランザクションで、ソースノードが宛先ノードに対し
て情報又はリソースを要求する。簡単にするため、これ
らの要求メッセージをメッセージと総称する。I/O直
接メモリアクセス(DMA)トランザクションは、I/
Oノードから起動され(IからPのトラフィック)、構
成レジスタ(未図示)アクセスは、プロセッサノードか
ら起動される(PからIのトラフィック)。これらのI
/Oトランザクションは、非I/Oトランザクションほ
どメモリアクセスのレイテンシーに敏感ではない。次
に、I/Oトランザクションの例について、図6を参照
して説明する。図6に示すように、Pノード0がIノー
ド3に対して情報を要求する。このトランザクション
は、ドメイン間ケーブルC−B167とA−C163を
介してルーティングされる。本発明においては、I/O
トランザクションをケーブル163や167などの未使
用のドメイン間ケーブルによってルーティングすること
により、ドメイン内ケーブル161上のトラフィックを
削減する効果を奏しており、この結果、レイテンシーが
減少される。
ンにおいては、図5に示すように、ドメイン1のシャー
シA内のPノード0が、同一ドメイン内のシャーシBの
他のPノード2のメモリに対して情報を要求し、また逆
も同様である。このトランザクションは、A−Bケーブ
ル161などのドメイン内ケーブルを介してルーティン
グされる。
例における要求メッセージ300のフォーマットが図示
されている。このフォーマットとしては、宛先ノードI
Dフィールド10、I/Oビットフィールド20、及び
ペイロードフィールド30を有するものが望ましい。
ノード)は、グローバルな一意のノードIDを有してい
る。宛先ノードIDフィールド10は、メッセージを受
信するノードのIDを示すものであり、これにはPノー
ド110又はI/Oノード120が該当する。
ード(その要求メッセージを作成したノード)を識別す
るフィールドである。前述のとおり、例えば、メッセー
ジは、I/Oノード或いはPノードで作成される。この
I/Oビットを適切に設定するのは、ソースノードの責
任である。I/Oビットフィールド20には、「0」又
は「1」のビット値を格納するのが望ましい。本発明の
一実施例においては、ビット値「1」は、ソースノード
がI/Oノードであることを示しており、ビット値
「0」は、ソースノードがプロセッサノードであること
を示している。また、本発明の別の実施例においては、
ビット値「1」は、ソースノードがプロセッサノードで
あることを示し、ビット値「0」は、ソースノードがI
/Oノードであることを示している。ルータ150は、
このI/Oビットを使用してルーティングテーブルを選
択する。なお、ペイロードフィールド30には、データ
自身が格納される。
ルータ150a〜150cの2つのルーティングテーブ
ルが示されている。ルーティングテーブル410a〜4
10c(410と総称する)は、Pノード110からの
トランザクションに対して使用される。一方、ルーティ
ングテーブル420a〜420cは、各々のシャーシ内
のI/Oノード120からのトランザクションに対して
使用される。これらのルーティングテーブル410及び
420内のエントリに対しては、宛先ノードIDに応じ
たインデックスが付加されている。各エントリは、メッ
セージをルーティングすべきルータ150a、150
b、150cの出口ポート(例えば、ポート0、1、
2、又は3)を示している。なお、ルーティングテーブ
ル410及び420内の網掛けされたエントリは、その
宛先ノードがメッセージが作成されたドメインの外にあ
ることを示している。例えば、図4に示しているよう
に、シャーシA及びBの場合、宛先ノード4及び5はド
メイン1の外にあり、宛先ノード0、1、2、及び3は
ドメイン1の中にある。シャーシCの場合には、宛先ノ
ード0、1、2、及び3はドメイン2の外にあり、宛先
ノード4及び5はドメイン2の中にある。そして、下線
のエントリは、メッセージが間接経路(ドメイン間ケー
ブル)によってルーティングされることを示している。
次に、ルーティングテーブル410及び420の使用方
法の例を、図5及び6を参照しつつ説明する。
内ケーブルA−B161を使用するプロセッサ−メモリ
(PからP)メッセージトランザクションのブロックダ
イアグラムを示している。まず、シャーシAのノード0
のプロセッサがメッセージをノード2に対して送信す
る。ルータ150は、そのメッセージのI/Oビットに
基づいて、ソースノードを識別すると共に宛先ノードを
識別する。I/Oビット=0の場合、Pノード0がソー
スノードであることを示している。宛先ノードはノード
2である。シャーシA内のルータ150aは、図5のP
ルーティングテーブル410aを使用して出口ポートを
判定する。ルーティングテーブル410a内の宛先ノー
ドID2に対応するエントリは、メッセージをルータ1
50aのポート2にルーティングすることを示してい
る。この結果、メッセージはケーブルA−B161を介
して送信され、シャーシB内のルータ150bに到達す
る。このメッセージは、シャーシA内のPノードからの
ものであるため、そのI/O=0である。したがって、
Pルーティングテーブル410bを使用して出口ポート
を判定する。Pルーティングテーブル410bは、メッ
セージをポート0とPノード2にルーティングすること
を示している。
内のPノード2は、I/O=0の応答メッセージをシャ
ーシA内のPノード0に対して送り返す。ルータ150
bは、その応答メッセージの宛先ノードIDとI/Oビ
ットを読み取り、その要求メッセージがPノードからの
ものであると判定する。この結果、Pルーティングテー
ブル410bを使用する。ノード0(応答メッセージの
宛先)に対応するエントリは、メッセージをケーブルA
−B161を介してルータ150aのポート2にルーテ
ィングすることを示している。この結果、メッセージ
は、ケーブルA−B161を介して送信され、シャーシ
A内のルータ150aに到達する。I/O=0であり、
Pルーティングテーブル410aを使用する。Pルーテ
ィングテーブル410aのインデックスは、メッセージ
をポート0にルーティングする必要があることを示して
いる。
ブルC−B167とA−C163を使用するI/Oトラ
ンザクション(PからI)のルーティングメカニズムの
動作が示されている。シャーシA内のPノード0が、I
/O=0でシャーシB内のIノード3にアクセスする。
ルータ150aは、このメッセージを受信するとメッセ
ージに格納されているI/Oビットを分析する。この場
合、I/Oビットは、そのメッセージがI/Oノードで
はなく、Pノードからのものであることを示している。
したがって、ルータ150aはPルーティングテーブル
(P)410aを選択する。図4に示すように、宛先ノ
ードID3は、メッセージをルータ150aのポート3
からシャーシCに接続されたケーブルA−C163にル
ーティングすることを示している。したがって、メッセ
ージは、A−Cケーブル163を介して送信され、ルー
タ150cに到達する。このメッセージは、I/Oノー
ドからのものではないため、I/O=0であり、Pルー
ティングテーブル410cを使用する。Pルーティング
テーブル410cは、メッセージをポート2からシャー
シBに接続されたケーブルC−B167にルーティング
する必要があることを示している。したがって、メッセ
ージは、C−Bケーブル167を介して送信され、ルー
タ150bに到達する。I/O=0であり、Pルーティ
ングテーブル410bを使用する。Pルーティングテー
ブル410bのインデックスは、メッセージをポート1
にルーティングすることを示しており、これは、要求メ
ッセージの宛先(ノード3)である。
3は、I/O=1の応答メッセージをノード0内のPに
送り返す。I/O=1であるため、ルータ150bにお
いてI/Oルーティングテーブル420bを使用する。
宛先ノードIDであるノード0に対応するエントリは、
メッセージをポート3からシャーシCに接続されたケー
ブルC−B167にルーティングすることを示してい
る。したがって、メッセージは、ケーブルC−Bを介し
て送信され、ルータ150cに到達する。なお、メッセ
ージをケーブルC−B167を介して送信する前に、メ
ッセージのI/Oビットが1から0に変更されることに
留意されたい。さもなければ、作成元ではないシャーシ
内のルータ150によってI/Oビットが無視される。
ノードからのものではないため、Pルーティングテーブ
ル410cを使用して出口ポートを判定する。Pルーテ
ィングテーブル410cは、メッセージをルータ150
cのポート3からシャーシAに接続されたケーブルA−
C163にルーティングすることを示している。したが
って、メッセージは、ケーブルA−C163を介して送
信され、ルータ150aに到達する。このメッセージが
同一シャーシ内のI/Oノードからのものではないた
め、I/O=0であり、Pルーティングテーブル410
aを使用する。Pルーティングテーブル410aは、メ
ッセージをポート0にルーティングすることを示してお
り、これは、この応答メッセージの宛先である。この結
果、I/Oトランザクションはドメイン間ケーブル16
3、167を介してルーティングされ、これによって、
ドメイン内ケーブル161上の輻輳が軽減される。
トラフィックのバランスをとる方法のフローチャートが
示されている。このプロセスは段階610から始まり、
段階620でルータ150がメッセージを受信する。段
階630で、ルータ150はそのメッセージの宛先ノー
ドIDを識別する。また、ルータ150は、ソースノー
ドがI/Oノードであるか又はプロセッサノードである
かを示すI/Oビットの識別も行う。宛先のノードがI
/Oノードであるか、又はソースノードがI/Oノード
であることを、I/Oビットが示している場合、段階6
40において、このトランザクションは、I/Oトラン
ザクションに分類され、段階650でドメイン間ケーブ
ルを介してルーティングされる。同様に、ソースノード
がPノードの場合にも、メッセージはドメイン間ケーブ
ルを介してルーティングされる。ルーティングテーブル
410及び420に付加されたインデックス(図4を参
照)によって、システムは出口ポートを判定できる。一
方、トランザクションが非I/Oトランザクション(プ
ロセッサ−メモリ)の場合、段階660において、メッ
セージは、ドメイン内ケーブルを介してルーティングさ
れ、段階670で、このプロセスは終了する。 (付記1)少なくとも2つのドメインにパーティション
化されたコンピュータシステムであって、第1ドメイン
は第1ケーブルによって結合された少なくとも第1及び
第2シャーシを有し、第2ドメインは少なくとも1つの
シャーシを有し、前記第1ドメインの各シャーシは第2
ケーブルと第3ケーブルによって前記第2ドメインのシ
ャーシに結合され、前記各シャーシは複数のプロセッサ
ノード、I/Oノード、及びメモリノードを含むコンピ
ュータシステムにおいてメッセージトラフィックのバラ
ンスをとる方法であって、メッセージを受信する段階
と、前記メッセージから宛先ノードと、ソースノードが
I/Oノードであるかどうかを示す指定値を有するI/
Oビットを識別する段階と、前記ソースノードがI/O
ノードであることを示す前記I/Oビットに応答し、前
記メッセージを前記第2ケーブル及び第3ケーブルを介
して前記第1シャーシから前記第2シャーシにルーティ
ングする段階とを有することを特徴とする方法。 (付記2)I/Oノードである前記宛先ノードに対応
し、前記メッセージを前記第2ケーブル及び第3ケーブ
ルを介して前記第1シャーシから前記第2シャーシにル
ーティングする段階を有する付記1に記載の方法。 (付記3)前記ソースノードが非I/Oノードであり前
記宛先ノードが非I/Oノードであることを示す前記I
/Oビットに応答し、前記メッセージを前記第1ケーブ
ルを介して前記第1シャーシから前記第2シャーシにル
ーティングする段階を有する付記1に記載の方法。 (付記4)各シャーシはルータを有し、該ルータはプロ
セッサノードからのトランザクションを識別するための
ルーティングテーブルを備えており、該ルーティングテ
ーブルにインデックスを付加してプロセッサノードであ
るソースノードに基づいて出口ポートを判定する段階を
更に有する付記1に記載の方法。 (付記5)各シャーシは更にルータを有し、該ルータは
I/Oノードからのトランザクションを識別するための
ルーティングテーブルを備えており、該ルーティングテ
ーブルにインデックスを付加してI/Oノードであるソ
ースノードに基づいて出口ポートを判定する段階を更に
有する付記1に記載の方法。 (付記6)前記ソースノードがI/Oノードの場合に前
記I/Oビットの指定値が「1」である付記1に記載の
方法。 (付記7)前記ソースノードがプロセッサノードの場合
に前記I/Oビットの指定値が「0」である付記1に記
載の方法。 (付記8)前記ソースノードがプロセッサノードの場合
に前記I/Oビットの指定値が「1」である付記1に記
載の方法。 (付記9)前記ソースノードがI/Oノードの場合に前
記I/Oビットの指定値が「0」である付記1に記載の
方法。 (付記10)少なくとも2つのドメインにパーティショ
ン化されたマルチシャーシコンピュータシステムにおい
て、第1ドメインは第1ケーブルによって結合された少
なくとも第1及び第2シャーシを有し、第2ドメインは
少なくとも1つのシャーシを有し、前記第1ドメインの
各シャーシは第2ケーブルと第3ケーブルによって前記
第2ドメインのシャーシに結合され、前記各シャーシは
複数のプロセッサノード、I/Oノード、及びメモリノ
ードを含むシステムであって、メッセージを受信する手
段と、前記メッセージから宛先ノードと、ソースノード
がI/Oノードであるかどうかを示す指定値を有するI
/Oビットを識別する手段と、前記ソースノードがI/
Oノードであることを示す前記I/Oビットに応答し、
前記メッセージを前記第2ケーブル及び第3ケーブルを
介して前記第1シャーシから前記第2シャーシにルーテ
ィングする手段とを有することを特徴とするシステム。 (付記11)I/Oノードである前記宛先ノードに対応
し、前記メッセージを前記第2ケーブル及び第3ケーブ
ルを介して前記第1シャーシから前記第2シャーシにル
ーティングする手段を有する付記10に記載のシステ
ム。 (付記12)前記ソースノードが非I/Oノードであり
前記宛先ノードが非I/Oノードであることを示す前記
I/Oビットに応答し、前記メッセージを前記第1ケー
ブルを介して前記第1シャーシから前記第2シャーシに
ルーティングする段階を有する付記10に記載のシステ
ム。 (付記13)少なくとも2つのドメインにパーティショ
ン化されたマルチシャーシコンピュータシステムであっ
て、第1ケーブルによって結合された少なくとも2つの
シャーシを有する第1ドメインと、少なくとも1つのシ
ャーシを有する第2ドメインとを有し、前記第1ドメイ
ンの各シャーシは第2ケーブル及び第3ケーブルによっ
て前記第2ドメインのシャーシに結合され、前記第1ド
メイン及び第2ドメインの各シャーシは要求メッセージ
を前記第1ケーブル及び第2ケーブルを介してルーティ
ングするルータを含むことを特徴とするシステム。 (付記14)複数のI/Oノードを有し、前記ルータは
前記I/Oノードからのトランザクションを識別するた
めのルーティングテーブルを維持管理する付記13に記
載のシステム。 (付記15)複数のプロセッサノードを有し、前記ルー
タは前記プロセッサノードからのトランザクションを識
別するためのルーティングテーブルを維持管理する付記
13に記載のシステム。
タシステムの全体アーキテクチャの一実施例を示すブロ
ックダイアグラムである。
ンにパーティション化された完全相互接続3シャーシシ
ステムのブロックダイアグラムである。
ッセージのフォーマットを図示したものである。
アグラムである。
ッサ−メモリ(PからP)メッセージトランザクション
のブロックダイアグラムである。
ッサ−I/Oトランザクションのブロックダイアグラム
である。
フローチャートである。
Claims (9)
- 【請求項1】 少なくとも2つのドメインにパーティシ
ョン化されたコンピュータシステムであって、第1ドメ
インは第1ケーブルによって結合された少なくとも第1
及び第2シャーシを有し、第2ドメインは少なくとも1
つのシャーシを有し、前記第1ドメインの各シャーシは
第2ケーブルと第3ケーブルによって前記第2ドメイン
のシャーシに結合され、前記各シャーシは複数のプロセ
ッサノード、I/Oノード、及びメモリノードを含むコ
ンピュータシステムにおいてメッセージトラフィックの
バランスをとる方法であって、 メッセージを受信する段階と、 前記メッセージから宛先ノードと、ソースノードがI/
Oノードであるかどうかを示す指定値を有するI/Oビ
ットを識別する段階と、 前記ソースノードがI/Oノードであることを示す前記
I/Oビットに応答し、前記メッセージを前記第2ケー
ブル及び第3ケーブルを介して前記第1シャーシから前
記第2シャーシにルーティングする段階とを有すること
を特徴とする方法。 - 【請求項2】 I/Oノードである前記宛先ノードに対
応し、前記メッセージを前記第2ケーブル及び第3ケー
ブルを介して前記第1シャーシから前記第2シャーシに
ルーティングする段階を有する請求項1に記載の方法。 - 【請求項3】 前記ソースノードが非I/Oノードであ
り前記宛先ノードが非I/Oノードであることを示す前
記I/Oビットに応答し、前記メッセージを前記第1ケ
ーブルを介して前記第1シャーシから前記第2シャーシ
にルーティングする段階を有する請求項1に記載の方
法。 - 【請求項4】 少なくとも2つのドメインにパーティシ
ョン化されたマルチシャーシコンピュータシステムにお
いて、第1ドメインは第1ケーブルによって結合された
少なくとも第1及び第2シャーシを有し、第2ドメイン
は少なくとも1つのシャーシを有し、前記第1ドメイン
の各シャーシは第2ケーブルと第3ケーブルによって前
記第2ドメインのシャーシに結合され、前記各シャーシ
は複数のプロセッサノード、I/Oノード、及びメモリ
ノードを含むシステムであって、 メッセージを受信する手段と、 前記メッセージから宛先ノードと、ソースノードがI/
Oノードであるかどうかを示す指定値を有するI/Oビ
ットを識別する手段と、 前記ソースノードがI/Oノードであることを示す前記
I/Oビットに応答し、前記メッセージを前記第2ケー
ブル及び第3ケーブルを介して前記第1シャーシから前
記第2シャーシにルーティングする手段とを有すること
を特徴とするシステム。 - 【請求項5】 I/Oノードである前記宛先ノードに対
応し、前記メッセージを前記第2ケーブル及び第3ケー
ブルを介して前記第1シャーシから前記第2シャーシに
ルーティングする手段を有する請求項4に記載のシステ
ム。 - 【請求項6】 前記ソースノードが非I/Oノードであ
り前記宛先ノードが非I/Oノードであることを示す前
記I/Oビットに応答し、前記メッセージを前記第1ケ
ーブルを介して前記第1シャーシから前記第2シャーシ
にルーティングする段階を有する請求項4に記載のシス
テム。 - 【請求項7】 少なくとも2つのドメインにパーティシ
ョン化されたマルチシャーシコンピュータシステムであ
って、 第1ケーブルによって結合された少なくとも2つのシャ
ーシを有する第1ドメインと、 少なくとも1つのシャーシを有する第2ドメインとを有
し、 前記第1ドメインの各シャーシは第2ケーブル及び第3
ケーブルによって前記第2ドメインのシャーシに結合さ
れ、前記第1ドメイン及び第2ドメインの各シャーシは
要求メッセージを前記第1ケーブル及び第2ケーブルを
介してルーティングするルータを含むことを特徴とする
システム。 - 【請求項8】 複数のI/Oノードを有し、前記ルータ
は前記I/Oノードからのトランザクションを識別する
ためのルーティングテーブルを維持管理する請求項7に
記載のシステム。 - 【請求項9】 複数のプロセッサノードを有し、前記ル
ータはプロセッサノードからのトランザクションを識別
するためのルーティングテーブルを維持管理する請求項
7に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US30222601P | 2001-06-28 | 2001-06-28 | |
US60/302226 | 2001-06-28 | ||
US10/077,144 US7159017B2 (en) | 2001-06-28 | 2002-02-15 | Routing mechanism for static load balancing in a partitioned computer system with a fully connected network |
US10/077144 | 2002-02-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003114879A true JP2003114879A (ja) | 2003-04-18 |
JP3996455B2 JP3996455B2 (ja) | 2007-10-24 |
Family
ID=26758946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002190476A Expired - Fee Related JP3996455B2 (ja) | 2001-06-28 | 2002-06-28 | 情報処理システムのデータ転送方法及び情報処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7159017B2 (ja) |
JP (1) | JP3996455B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8108503B2 (en) | 2009-01-14 | 2012-01-31 | International Business Machines Corporation | Dynamic load balancing between chassis in a blade center |
JP2012181585A (ja) * | 2011-02-28 | 2012-09-20 | Seiko Epson Corp | デバイスシステムおよびチップ |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766360B1 (en) | 2000-07-14 | 2004-07-20 | Fujitsu Limited | Caching mechanism for remote read-only data in a cache coherent non-uniform memory access (CCNUMA) architecture |
US6754776B2 (en) | 2001-05-17 | 2004-06-22 | Fujitsu Limited | Method and system for logical partitioning of cache memory structures in a partitoned computer system |
US6961761B2 (en) * | 2001-05-17 | 2005-11-01 | Fujitsu Limited | System and method for partitioning a computer system into domains |
US7380001B2 (en) * | 2001-05-17 | 2008-05-27 | Fujitsu Limited | Fault containment and error handling in a partitioned system with shared resources |
US6862634B2 (en) | 2001-06-29 | 2005-03-01 | Fujitsu Limited | Mechanism to improve performance in a multi-node computer system |
US6915370B2 (en) * | 2001-12-20 | 2005-07-05 | Intel Corporation | Domain partitioning in a multi-node system |
US7275081B1 (en) | 2002-06-10 | 2007-09-25 | Juniper Networks, Inc. | Managing state information in a computing environment |
CN100583807C (zh) * | 2002-06-21 | 2010-01-20 | 汤姆森特许公司 | 具有公共时钟的多机架广播路由器 |
US7739403B1 (en) | 2003-10-03 | 2010-06-15 | Juniper Networks, Inc. | Synchronizing state information between control units |
US9268607B2 (en) | 2004-03-13 | 2016-02-23 | Adaptive Computing Enterprises, Inc. | System and method of providing a self-optimizing reservation in space of compute resources |
US8782654B2 (en) | 2004-03-13 | 2014-07-15 | Adaptive Computing Enterprises, Inc. | Co-allocating a reservation spanning different compute resources types |
JP3780457B2 (ja) * | 2004-06-07 | 2006-05-31 | 株式会社トヨタIt開発センター | 信号処理装置、方法、プログラムおよび記録媒体 |
US20070266388A1 (en) | 2004-06-18 | 2007-11-15 | Cluster Resources, Inc. | System and method for providing advanced reservations in a compute environment |
US8176490B1 (en) | 2004-08-20 | 2012-05-08 | Adaptive Computing Enterprises, Inc. | System and method of interfacing a workload manager and scheduler with an identity manager |
CA2586763C (en) | 2004-11-08 | 2013-12-17 | Cluster Resources, Inc. | System and method of providing system jobs within a compute environment |
US8863143B2 (en) | 2006-03-16 | 2014-10-14 | Adaptive Computing Enterprises, Inc. | System and method for managing a hybrid compute environment |
US9231886B2 (en) | 2005-03-16 | 2016-01-05 | Adaptive Computing Enterprises, Inc. | Simple integration of an on-demand compute environment |
EP1872249B1 (en) | 2005-04-07 | 2016-12-07 | Adaptive Computing Enterprises, Inc. | On-demand access to compute resources |
US7606241B1 (en) | 2005-08-12 | 2009-10-20 | Juniper Networks, Inc. | Extending standalone router syntax to multi-chassis routers |
US7552262B1 (en) * | 2005-08-31 | 2009-06-23 | Juniper Networks, Inc. | Integration of an operative standalone router into a multi-chassis router |
US7747999B1 (en) | 2005-09-26 | 2010-06-29 | Juniper Networks, Inc. | Software installation in a multi-chassis network device |
US8135857B1 (en) | 2005-09-26 | 2012-03-13 | Juniper Networks, Inc. | Centralized configuration of a multi-chassis router |
US7518986B1 (en) | 2005-11-16 | 2009-04-14 | Juniper Networks, Inc. | Push-based hierarchical state propagation within a multi-chassis network device |
US7804769B1 (en) * | 2005-12-01 | 2010-09-28 | Juniper Networks, Inc. | Non-stop forwarding in a multi-chassis router |
US7630385B2 (en) * | 2006-08-04 | 2009-12-08 | Oyadomari Randy I | Multiple domains in a multi-chassis system |
US8041773B2 (en) | 2007-09-24 | 2011-10-18 | The Research Foundation Of State University Of New York | Automatic clustering for self-organizing grids |
US9876735B2 (en) | 2009-10-30 | 2018-01-23 | Iii Holdings 2, Llc | Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect |
US9077654B2 (en) | 2009-10-30 | 2015-07-07 | Iii Holdings 2, Llc | System and method for data center security enhancements leveraging managed server SOCs |
US8599863B2 (en) | 2009-10-30 | 2013-12-03 | Calxeda, Inc. | System and method for using a multi-protocol fabric module across a distributed server interconnect fabric |
US20130107444A1 (en) | 2011-10-28 | 2013-05-02 | Calxeda, Inc. | System and method for flexible storage and networking provisioning in large scalable processor installations |
US20110103391A1 (en) | 2009-10-30 | 2011-05-05 | Smooth-Stone, Inc. C/O Barry Evans | System and method for high-performance, low-power data center interconnect fabric |
US9465771B2 (en) | 2009-09-24 | 2016-10-11 | Iii Holdings 2, Llc | Server on a chip and node cards comprising one or more of same |
US9054990B2 (en) | 2009-10-30 | 2015-06-09 | Iii Holdings 2, Llc | System and method for data center security enhancements leveraging server SOCs or server fabrics |
US10877695B2 (en) | 2009-10-30 | 2020-12-29 | Iii Holdings 2, Llc | Memcached server functionality in a cluster of data processing nodes |
US11720290B2 (en) | 2009-10-30 | 2023-08-08 | Iii Holdings 2, Llc | Memcached server functionality in a cluster of data processing nodes |
US9648102B1 (en) | 2012-12-27 | 2017-05-09 | Iii Holdings 2, Llc | Memcached server functionality in a cluster of data processing nodes |
US9680770B2 (en) | 2009-10-30 | 2017-06-13 | Iii Holdings 2, Llc | System and method for using a multi-protocol fabric module across a distributed server interconnect fabric |
US9311269B2 (en) | 2009-10-30 | 2016-04-12 | Iii Holdings 2, Llc | Network proxy for high-performance, low-power data center interconnect fabric |
US9565094B2 (en) * | 2009-11-13 | 2017-02-07 | International Business Machines Corporation | I/O routing in a multidimensional torus network |
US9954760B2 (en) | 2010-01-29 | 2018-04-24 | International Business Machines Corporation | I/O routing in a multidimensional torus network |
US9100348B2 (en) | 2011-10-03 | 2015-08-04 | Intel Corporation | Managing sideband routers in on-die system fabric |
US9092594B2 (en) | 2011-10-31 | 2015-07-28 | Iii Holdings 2, Llc | Node card management in a modular and large scalable server system |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3516432B2 (ja) * | 1997-11-18 | 2004-04-05 | 株式会社東芝 | ノード装置及びパケット転送方法 |
US6536000B1 (en) * | 1999-10-15 | 2003-03-18 | Sun Microsystems, Inc. | Communication error reporting mechanism in a multiprocessing computer system |
US6973517B1 (en) * | 2000-08-31 | 2005-12-06 | Hewlett-Packard Development Company, L.P. | Partition formation using microprocessors in a multiprocessor computer system |
US6678840B1 (en) * | 2000-08-31 | 2004-01-13 | Hewlett-Packard Development Company, Lp. | Fault containment and error recovery in a scalable multiprocessor |
US6961761B2 (en) * | 2001-05-17 | 2005-11-01 | Fujitsu Limited | System and method for partitioning a computer system into domains |
-
2002
- 2002-02-15 US US10/077,144 patent/US7159017B2/en not_active Expired - Fee Related
- 2002-06-28 JP JP2002190476A patent/JP3996455B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8108503B2 (en) | 2009-01-14 | 2012-01-31 | International Business Machines Corporation | Dynamic load balancing between chassis in a blade center |
JP2012181585A (ja) * | 2011-02-28 | 2012-09-20 | Seiko Epson Corp | デバイスシステムおよびチップ |
Also Published As
Publication number | Publication date |
---|---|
US20030007493A1 (en) | 2003-01-09 |
JP3996455B2 (ja) | 2007-10-24 |
US7159017B2 (en) | 2007-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003114879A (ja) | メッセージトラフィックとマルチシャーシコンピュータシステムのバランスをとる方法 | |
US7643477B2 (en) | Buffering data packets according to multiple flow control schemes | |
US7165131B2 (en) | Separating transactions into different virtual channels | |
US6842443B2 (en) | Network switch using network processor and methods | |
EP1226501B1 (en) | Network switch and components and method of operation | |
US7185100B2 (en) | System and method for determining a preferred mirrored service in a network by evaluating a border gateway protocol | |
US7818459B2 (en) | Virtualization of I/O adapter resources | |
US7706275B2 (en) | Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by employing bandwidth shells at areas of overutilization | |
US7921251B2 (en) | Globally unique transaction identifiers | |
US8204054B2 (en) | System having a plurality of nodes connected in multi-dimensional matrix, method of controlling system and apparatus | |
US6769033B1 (en) | Network processor processing complex and methods | |
EP3657740B1 (en) | Message forwarding | |
US20030005167A1 (en) | Method and apparatus for managing transaction requests in a multi-node architecture | |
US20030007457A1 (en) | Hardware mechanism to improve performance in a multi-node computer system | |
JP2001223749A (ja) | パケット分類エンジン | |
EP2652636B1 (en) | Split traffic routing in a distributed shared memory multiprocessor | |
US6631421B1 (en) | Recursive partitioning of networks | |
US11960437B2 (en) | Systems and methods for multi-branch routing for interconnected chip networks | |
JP2006121699A (ja) | 第1のデータネットワークから第2のデータネットワークへのデータパケットのカーネルレベルの通過のための方法及び装置 | |
JPH07287677A (ja) | 複数のコンピュータインタフェースを複数のサポーティング装置に結合するための装置およびその方法 | |
US20020110130A1 (en) | System for routing data packets through a crossbar switch in expansion mode | |
US20050289101A1 (en) | Methods and systems for dynamic partition management of shared-interconnect partitions | |
US11144457B2 (en) | Enhanced page locality in network-on-chip (NoC) architectures | |
JPH0964901A (ja) | スイッチングハブのアドレス学習方式 | |
Dagher et al. | A Study of Wormhole Router Architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070802 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100810 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110810 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120810 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120810 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130810 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |