JP2003114879A - メッセージトラフィックとマルチシャーシコンピュータシステムのバランスをとる方法 - Google Patents

メッセージトラフィックとマルチシャーシコンピュータシステムのバランスをとる方法

Info

Publication number
JP2003114879A
JP2003114879A JP2002190476A JP2002190476A JP2003114879A JP 2003114879 A JP2003114879 A JP 2003114879A JP 2002190476 A JP2002190476 A JP 2002190476A JP 2002190476 A JP2002190476 A JP 2002190476A JP 2003114879 A JP2003114879 A JP 2003114879A
Authority
JP
Japan
Prior art keywords
chassis
node
cable
domain
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002190476A
Other languages
English (en)
Other versions
JP3996455B2 (ja
Inventor
Hitoshi Oi
ヒトシ 大井
N Conway Patrick
エヌ.コンウェイ パトリック
Takeshi Shimizu
剛 清水
Kazunori Masuyama
和則 増山
Sudheer Miryala
ミリヤラ サディール
Jeremy J Farrell
ジェイ.ファレル ジェレミー
Norio Kaito
紀男 階戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2003114879A publication Critical patent/JP2003114879A/ja
Application granted granted Critical
Publication of JP3996455B2 publication Critical patent/JP3996455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/04Interdomain routing, e.g. hierarchical routing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 (修正有) 【課題】複数のドメインにパーティション化された完全
相互接続マルチシャーシコンピュータシステムにおい
て、ドメイン間ケーブルをメッセージトラフィックに使
用して、ドメイン内ケーブル上のメッセージトラフィッ
クの輻輳を軽減する。 【解決手段】マルチノードネットワークコンピュータシ
ステムはメッセージトラフィックのバランスをとるメカ
ニズムによってI/Oトランザクションを識別し、I/
Oトランザクションをドメイン間ケーブルを介してルー
ティングすると共に、非I/Oトランザクションをドメ
イン内ケーブルを介してルーティングする。これによっ
て、ドメイン内ケーブル上のメッセージトラフィックの
輻輳を軽減する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本出願は、米国特許法35
U.S.C. §119(e)に基づき2001年6月
28日付けで出願された出願番号60/302,226
の「ROUTINGMECHANISM FOR STA
TIC LOAD BALANCING INA PART
ITIONED COMPUTER SYSTEM WI
TH A FULLY CONNECTED NETWOR
K」という名称のHitoshiOi、Patick
N. Conway、Takeshi Shimizu、
Kazunori Masuyama、Sudheer
Miryala、Jeremy Farrell、及び
Norio Kaidoによる仮出願による優先権を主
張するものであり、この引用によってそのすべてが本明
細書に包含される。本発明は、コンピュータシステムに
おける共有メモリ構造の論理パーティション化に関する
ものであり、更に詳しくは、パーティション化されたコ
ンピュータシステムにおけるメッセージトラフィックの
バランシングに関する。
【0002】
【従来の技術】マルチノードコンピュータネットワーク
は、それぞれが独自のアドレス空間を有し独立したマシ
ンとして機能する複数のドメインにパーティション化す
ることができる。この場合、オペレーティングシステム
は、それぞれのドメインにおいて別々に稼動する。ドメ
インにパーティション化することによって、コンピュー
タネットワークのリソースを異なるタスクに効率的に割
り当てることが可能になり、コンピュータシステムの使
用法に柔軟性をもたらすと共に、コンピュータリソース
を隔離することによって、特定ドメインにおけるハード
ウェア又はソフトウェア障害が、システムのその他のド
メインの稼動を妨げることのないように制限できる。
【0003】
【発明が解決しようとする課題】マルチノードコンピュ
ータネットワークのハードウェア実装には、グループ化
された中央処理装置(CPU)及び入力/出力(I/
O)ノードが1つのモジュールとして存在するものがあ
り、それらをしばしばシャーシ又はキャビネットと呼
ぶ。これらの複数のシャーシを1つに結合し、マルチノ
ードクラスタを形成することができる。複数シャーシシ
ステムをいくつかのドメインにパーティション化した場
合、あるドメインに存在するノードは、その他のドメイ
ンのノードに対して読み取り及び書き込み要求を実行す
ることはできない。この結果、ドメインが異なるシャー
シを結合するケーブル(ドメイン間ケーブル)が、メッ
セージトラフィックに使用されず、同一ドメイン内のシ
ャーシを結合するケーブル(ドメイン内ケーブル)が、
メッセージトラフィックによって非常に輻輳することに
なる。パーティション化されたシステムにおいては、通
常、ドメイン内メッセージトラフィックが、ドメイン間
メッセージトラフィックよりも多い。
【0004】メッセージトラフィックのバランスシング
をとる方法としては、既知のものがいくつか存在する
が、カリフォルニア州Palo Altoに所在するH
ewlett Packard CompanyのHP9
000「Superdome」Serverがその1つ
である。しかし、このシステムはパーティション化され
たシステムにおける未使用経路による負荷バランシング
をサポートしていない。また、メッセージトラフィック
のバランスをとる別の方法として、動的適応ルーティン
グ(Dynamic Adaptive Routing)があるが、これには複
雑な実装が必要であり、ハードウェアコストの上昇を招
くことになる。
【0005】
【課題を解決するための手段】本発明には、ドメイン間
ケーブル上の入力/出力(I/O)メッセージトラフィ
ックのバランスをとってドメイン内ケーブル上の輻輳を
軽減するためのシステムと方法が含まれている。パーテ
ィション化されたマルチシャーシコンピュータシステム
は、少なくとも2つのドメインを有している(図1を参
照)。これらのドメインは互いに隔離されており、いず
れのドメインもその他のドメインの共有アドレス空間に
対して直接読み取り及び書き込みを実行することはでき
ない。システム内の各ドメインは、そのドメイン内に少
なくとも1つのシャーシを有している。同一ドメイン内
のシャーシはドメイン内ケーブルを介して結合されてお
り、ドメインが異なるシャーシはドメイン間ケーブルを
介して結合されている。シャーシとしては、通信可能に
結合されたプロセッサノード、I/Oノード、メモリノ
ード、及びルータを備えているものが望ましい。また、
ルータは、少なくとも2つのルーティングテーブルを維
持管理し、メッセージのルーティング先となる出口ポー
トを判定するものが望ましい(図4を参照)。この場
合、第1ルーティングテーブルは、I/Oノードからの
トランザクション用にプログラムされており、第2ルー
ティングテーブルは、プロセッサノードからのトランザ
クション用にプログラムされている。
【0006】各々のトランザクションにおいて、ソース
ノードは、宛先ノードに対して情報又はリソースを要求
する。この要求メッセージは、その要求メッセージを受
信する宛先ノードIDを示す宛先ノードフィールドと、
ソースノードを示すI/Oビットフィールドと、データ
を格納するペイロードフィールドとからなるフォーマッ
トを有している。本発明の一実施例においては、宛先ノ
ードIDとI/Oビットに基づいて、トランザクション
をI/Oトランザクション及びプロセッサ−メモリトラ
ンザクション(非I/Oトランザクション)に分類す
る。宛先ノードがI/Oであるか、或いはソースノード
がI/OノードであることをI/Oビットが示している
場合、該トランザクションはI/Oトランザクションと
して分類され、ドメイン間ケーブルを介してルーティン
グされる。そうでなければ、トランザクションはプロセ
ッサ−メモリトランザクション(非I/O)に分類さ
れ、ドメイン内ケーブルを介してルーティングされる。
本発明においては、I/Oトランザクションをドメイン
間ケーブルを介してルーティングすることによって、使
用頻度の高いドメイン内ケーブル上のメッセージトラフ
ィックの輻輳を軽減している。この結果、プロセッサ−
メモリトランザクションのレイテンシー(待ち時間)を
削減する効果がある。
【0007】
【発明の実施の形態】図1は、ドメイン1、ドメイン
2、及びドメインNという複数のドメインにパーティシ
ョン化された従来のコンピュータシステム100のブロ
ックダイアグラムであり、それぞれのドメインは独自の
アドレス空間を有する独立したマシンとして動作する。
ドメイン1、2、及びNは互いに隔離されており、いず
れのドメインもその他のドメインの共有アドレス空間に
対して直接読み取り又は書き込みを実行できない。図1
の各ドメインは、CPUノード110−1〜110−n
(110と総称する)、メモリノード115−1〜11
5−n(115と総称する)、及びI/Oノード120
−1〜120−n(120と総称する)などの複数のノ
ードを備えている。各CPUノード110は、Inte
l又はIntel互換のPentiumTMクラス以上の
プロセッサ、Sun SPARCTMクラス以上のプロセ
ッサ、或いはIBM/Motorola PowerP
TMクラス以上のプロセッサなどの従来型の処理装置で
ある。また、各I/Oノード120は、ストレージデバ
イス、入力デバイス、周辺デバイスなどの従来型のI/
Oシステムであり、各メモリノード115は、ダイナミ
ックランダムアクセスメモリ(DRAM)システム、ス
タティックランダムアクセスメモリ(SRAM)システ
ムなどの従来型のメモリシステムである。これらのノー
ド110、115、120は、相互接続125を介して
接続されている。該相互接続125は、命令、データ、
及びその他の信号のノード間での転送を実現するために
複数のノードを結合している。なお、相互接続125
は、ルータ又はスイッチを使用して実装されたメッシ
ュ、リング、又はハイパーキューブなどであってよい。
パーティション化されたコンピュータシステム100に
おいては、ドメイン1、2、及びNの読み取り及び書き
込み要求は、各々のドメイン内のノード間でのみ実行可
能である。
【0008】図2は、本発明の一実施例による完全相互
接続3シャーシコンピュータシステム200のブロック
ダイアグラムである。コンピュータシステム200は、
ドメイン1 160及びドメイン2 180という2つの
ドメインにパーティション化されている。これらのドメ
インは互いに隔離されており、いずれのドメインも、も
う一方のドメインの共有アドレス空間に対して直接読み
取り又は書き込みを実行することはできない。ドメイン
1内には、シャーシA及びシャーシBが存在しており、
ドメイン2内には、シャーシCが存在している。すべて
のシャーシA、B、及びCは、従来型の高速データ転送
ネットワークケーブルによって完全に相互接続されてお
り、専用のリンクを形成している。たとえば、ドメイン
1内のシャーシA及びBは、ドメイン内ケーブルA−B
161を介して接続されており、シャーシA及びCは、
ドメイン間ケーブルA−C163を介して接続され、シ
ャーシB及びCは、ドメイン間ケーブルC−B167を
介して接続されている。
【0009】各シャーシA、B、及びCは、Pノード1
10a〜110c(110と総称する)、I/Oノード
120a〜120c(120と総称する)、及びルータ
150a〜150c(150と総称する)を備えてい
る。Pノード110としては、プロセッサ及びメモリを
備えているものが望ましい。図2に示されている実施例
においては、3つのPノード110及び3つのI/Oノ
ード(I)120からなる合計6つのノードを備えてい
る。ただし、パーティション化されたシステム200
は、いくつのノードを備えてもよい。
【0010】各シャーシA、B、及びC内の各ルータ1
50a〜150cは、そのシャーシのPノード110と
信号線の第1セット155によって通信可能に結合して
おり、そのシャーシのIノード120と信号線の第2セ
ット157によって通信可能に結合している。シャーシ
A内のルータ150aは、ケーブルA−B161(直接
経路)を介してシャーシB内のルータ150bと結合し
ている。また、シャーシA内のルータ150aは、ケー
ブルA−C163(間接経路)を介してシャーシC内の
ルータ150cと結合している。そして、シャーシB内
のルータ150bは、ケーブルC−B167(間接経
路)を介してシャーシC内のルータ150cと結合して
いる。なお、信号線の第1セット155、信号線の第2
セット157、及びケーブル161、163、及び16
7は、1本以上のデータワイヤなど、どのような信号通
信媒体であってもよい。
【0011】各ルータ150は、複数の出口ポートを有
する従来型の4×4クロスバースイッチである。これら
のルータ150は、メッセージの転送先である次のネッ
トワークポイントを判定する。ルータ150a〜150
c内部の小さな数字0、1、2、3は、図2の実施例に
おけるノードとケーブルの接続ポートを示している。更
に、各ルータ150は、少なくとも1つのルーティング
テーブルの維持管理をも行う(その一例を図4に示して
いる)。
【0012】本発明においては、I/Oトランザクショ
ンとプロセッサ−メモリトランザクション(非I/Oト
ランザクション)という2つのカテゴリが存在する。各
トランザクションで、ソースノードが宛先ノードに対し
て情報又はリソースを要求する。簡単にするため、これ
らの要求メッセージをメッセージと総称する。I/O直
接メモリアクセス(DMA)トランザクションは、I/
Oノードから起動され(IからPのトラフィック)、構
成レジスタ(未図示)アクセスは、プロセッサノードか
ら起動される(PからIのトラフィック)。これらのI
/Oトランザクションは、非I/Oトランザクションほ
どメモリアクセスのレイテンシーに敏感ではない。次
に、I/Oトランザクションの例について、図6を参照
して説明する。図6に示すように、Pノード0がIノー
ド3に対して情報を要求する。このトランザクション
は、ドメイン間ケーブルC−B167とA−C163を
介してルーティングされる。本発明においては、I/O
トランザクションをケーブル163や167などの未使
用のドメイン間ケーブルによってルーティングすること
により、ドメイン内ケーブル161上のトラフィックを
削減する効果を奏しており、この結果、レイテンシーが
減少される。
【0013】一方、プロセッサ−メモリトランザクショ
ンにおいては、図5に示すように、ドメイン1のシャー
シA内のPノード0が、同一ドメイン内のシャーシBの
他のPノード2のメモリに対して情報を要求し、また逆
も同様である。このトランザクションは、A−Bケーブ
ル161などのドメイン内ケーブルを介してルーティン
グされる。
【0014】次に、図3を参照すれば、本発明の一実施
例における要求メッセージ300のフォーマットが図示
されている。このフォーマットとしては、宛先ノードI
Dフィールド10、I/Oビットフィールド20、及び
ペイロードフィールド30を有するものが望ましい。
【0015】システム内の各ノード(CPU又はI/O
ノード)は、グローバルな一意のノードIDを有してい
る。宛先ノードIDフィールド10は、メッセージを受
信するノードのIDを示すものであり、これにはPノー
ド110又はI/Oノード120が該当する。
【0016】I/Oビットフィールド20は、ソースノ
ード(その要求メッセージを作成したノード)を識別す
るフィールドである。前述のとおり、例えば、メッセー
ジは、I/Oノード或いはPノードで作成される。この
I/Oビットを適切に設定するのは、ソースノードの責
任である。I/Oビットフィールド20には、「0」又
は「1」のビット値を格納するのが望ましい。本発明の
一実施例においては、ビット値「1」は、ソースノード
がI/Oノードであることを示しており、ビット値
「0」は、ソースノードがプロセッサノードであること
を示している。また、本発明の別の実施例においては、
ビット値「1」は、ソースノードがプロセッサノードで
あることを示し、ビット値「0」は、ソースノードがI
/Oノードであることを示している。ルータ150は、
このI/Oビットを使用してルーティングテーブルを選
択する。なお、ペイロードフィールド30には、データ
自身が格納される。
【0017】図4には、各シャーシA、B、及びCの各
ルータ150a〜150cの2つのルーティングテーブ
ルが示されている。ルーティングテーブル410a〜4
10c(410と総称する)は、Pノード110からの
トランザクションに対して使用される。一方、ルーティ
ングテーブル420a〜420cは、各々のシャーシ内
のI/Oノード120からのトランザクションに対して
使用される。これらのルーティングテーブル410及び
420内のエントリに対しては、宛先ノードIDに応じ
たインデックスが付加されている。各エントリは、メッ
セージをルーティングすべきルータ150a、150
b、150cの出口ポート(例えば、ポート0、1、
2、又は3)を示している。なお、ルーティングテーブ
ル410及び420内の網掛けされたエントリは、その
宛先ノードがメッセージが作成されたドメインの外にあ
ることを示している。例えば、図4に示しているよう
に、シャーシA及びBの場合、宛先ノード4及び5はド
メイン1の外にあり、宛先ノード0、1、2、及び3は
ドメイン1の中にある。シャーシCの場合には、宛先ノ
ード0、1、2、及び3はドメイン2の外にあり、宛先
ノード4及び5はドメイン2の中にある。そして、下線
のエントリは、メッセージが間接経路(ドメイン間ケー
ブル)によってルーティングされることを示している。
次に、ルーティングテーブル410及び420の使用方
法の例を、図5及び6を参照しつつ説明する。
【0018】まず図5を参照すれば、これは、ドメイン
内ケーブルA−B161を使用するプロセッサ−メモリ
(PからP)メッセージトランザクションのブロックダ
イアグラムを示している。まず、シャーシAのノード0
のプロセッサがメッセージをノード2に対して送信す
る。ルータ150は、そのメッセージのI/Oビットに
基づいて、ソースノードを識別すると共に宛先ノードを
識別する。I/Oビット=0の場合、Pノード0がソー
スノードであることを示している。宛先ノードはノード
2である。シャーシA内のルータ150aは、図5のP
ルーティングテーブル410aを使用して出口ポートを
判定する。ルーティングテーブル410a内の宛先ノー
ドID2に対応するエントリは、メッセージをルータ1
50aのポート2にルーティングすることを示してい
る。この結果、メッセージはケーブルA−B161を介
して送信され、シャーシB内のルータ150bに到達す
る。このメッセージは、シャーシA内のPノードからの
ものであるため、そのI/O=0である。したがって、
Pルーティングテーブル410bを使用して出口ポート
を判定する。Pルーティングテーブル410bは、メッ
セージをポート0とPノード2にルーティングすること
を示している。
【0019】メモリアクセスが完了すると、シャーシB
内のPノード2は、I/O=0の応答メッセージをシャ
ーシA内のPノード0に対して送り返す。ルータ150
bは、その応答メッセージの宛先ノードIDとI/Oビ
ットを読み取り、その要求メッセージがPノードからの
ものであると判定する。この結果、Pルーティングテー
ブル410bを使用する。ノード0(応答メッセージの
宛先)に対応するエントリは、メッセージをケーブルA
−B161を介してルータ150aのポート2にルーテ
ィングすることを示している。この結果、メッセージ
は、ケーブルA−B161を介して送信され、シャーシ
A内のルータ150aに到達する。I/O=0であり、
Pルーティングテーブル410aを使用する。Pルーテ
ィングテーブル410aのインデックスは、メッセージ
をポート0にルーティングする必要があることを示して
いる。
【0020】次に、図6を参照すれば、ドメイン間ケー
ブルC−B167とA−C163を使用するI/Oトラ
ンザクション(PからI)のルーティングメカニズムの
動作が示されている。シャーシA内のPノード0が、I
/O=0でシャーシB内のIノード3にアクセスする。
ルータ150aは、このメッセージを受信するとメッセ
ージに格納されているI/Oビットを分析する。この場
合、I/Oビットは、そのメッセージがI/Oノードで
はなく、Pノードからのものであることを示している。
したがって、ルータ150aはPルーティングテーブル
(P)410aを選択する。図4に示すように、宛先ノ
ードID3は、メッセージをルータ150aのポート3
からシャーシCに接続されたケーブルA−C163にル
ーティングすることを示している。したがって、メッセ
ージは、A−Cケーブル163を介して送信され、ルー
タ150cに到達する。このメッセージは、I/Oノー
ドからのものではないため、I/O=0であり、Pルー
ティングテーブル410cを使用する。Pルーティング
テーブル410cは、メッセージをポート2からシャー
シBに接続されたケーブルC−B167にルーティング
する必要があることを示している。したがって、メッセ
ージは、C−Bケーブル167を介して送信され、ルー
タ150bに到達する。I/O=0であり、Pルーティ
ングテーブル410bを使用する。Pルーティングテー
ブル410bのインデックスは、メッセージをポート1
にルーティングすることを示しており、これは、要求メ
ッセージの宛先(ノード3)である。
【0021】I/Oアクセスが完了した後に、Iノード
3は、I/O=1の応答メッセージをノード0内のPに
送り返す。I/O=1であるため、ルータ150bにお
いてI/Oルーティングテーブル420bを使用する。
宛先ノードIDであるノード0に対応するエントリは、
メッセージをポート3からシャーシCに接続されたケー
ブルC−B167にルーティングすることを示してい
る。したがって、メッセージは、ケーブルC−Bを介し
て送信され、ルータ150cに到達する。なお、メッセ
ージをケーブルC−B167を介して送信する前に、メ
ッセージのI/Oビットが1から0に変更されることに
留意されたい。さもなければ、作成元ではないシャーシ
内のルータ150によってI/Oビットが無視される。
【0022】このメッセージが同一シャーシ内のI/O
ノードからのものではないため、Pルーティングテーブ
ル410cを使用して出口ポートを判定する。Pルーテ
ィングテーブル410cは、メッセージをルータ150
cのポート3からシャーシAに接続されたケーブルA−
C163にルーティングすることを示している。したが
って、メッセージは、ケーブルA−C163を介して送
信され、ルータ150aに到達する。このメッセージが
同一シャーシ内のI/Oノードからのものではないた
め、I/O=0であり、Pルーティングテーブル410
aを使用する。Pルーティングテーブル410aは、メ
ッセージをポート0にルーティングすることを示してお
り、これは、この応答メッセージの宛先である。この結
果、I/Oトランザクションはドメイン間ケーブル16
3、167を介してルーティングされ、これによって、
ドメイン内ケーブル161上の輻輳が軽減される。
【0023】次に、図7を参照すれば、本発明に従って
トラフィックのバランスをとる方法のフローチャートが
示されている。このプロセスは段階610から始まり、
段階620でルータ150がメッセージを受信する。段
階630で、ルータ150はそのメッセージの宛先ノー
ドIDを識別する。また、ルータ150は、ソースノー
ドがI/Oノードであるか又はプロセッサノードである
かを示すI/Oビットの識別も行う。宛先のノードがI
/Oノードであるか、又はソースノードがI/Oノード
であることを、I/Oビットが示している場合、段階6
40において、このトランザクションは、I/Oトラン
ザクションに分類され、段階650でドメイン間ケーブ
ルを介してルーティングされる。同様に、ソースノード
がPノードの場合にも、メッセージはドメイン間ケーブ
ルを介してルーティングされる。ルーティングテーブル
410及び420に付加されたインデックス(図4を参
照)によって、システムは出口ポートを判定できる。一
方、トランザクションが非I/Oトランザクション(プ
ロセッサ−メモリ)の場合、段階660において、メッ
セージは、ドメイン内ケーブルを介してルーティングさ
れ、段階670で、このプロセスは終了する。 (付記1)少なくとも2つのドメインにパーティション
化されたコンピュータシステムであって、第1ドメイン
は第1ケーブルによって結合された少なくとも第1及び
第2シャーシを有し、第2ドメインは少なくとも1つの
シャーシを有し、前記第1ドメインの各シャーシは第2
ケーブルと第3ケーブルによって前記第2ドメインのシ
ャーシに結合され、前記各シャーシは複数のプロセッサ
ノード、I/Oノード、及びメモリノードを含むコンピ
ュータシステムにおいてメッセージトラフィックのバラ
ンスをとる方法であって、メッセージを受信する段階
と、前記メッセージから宛先ノードと、ソースノードが
I/Oノードであるかどうかを示す指定値を有するI/
Oビットを識別する段階と、前記ソースノードがI/O
ノードであることを示す前記I/Oビットに応答し、前
記メッセージを前記第2ケーブル及び第3ケーブルを介
して前記第1シャーシから前記第2シャーシにルーティ
ングする段階とを有することを特徴とする方法。 (付記2)I/Oノードである前記宛先ノードに対応
し、前記メッセージを前記第2ケーブル及び第3ケーブ
ルを介して前記第1シャーシから前記第2シャーシにル
ーティングする段階を有する付記1に記載の方法。 (付記3)前記ソースノードが非I/Oノードであり前
記宛先ノードが非I/Oノードであることを示す前記I
/Oビットに応答し、前記メッセージを前記第1ケーブ
ルを介して前記第1シャーシから前記第2シャーシにル
ーティングする段階を有する付記1に記載の方法。 (付記4)各シャーシはルータを有し、該ルータはプロ
セッサノードからのトランザクションを識別するための
ルーティングテーブルを備えており、該ルーティングテ
ーブルにインデックスを付加してプロセッサノードであ
るソースノードに基づいて出口ポートを判定する段階を
更に有する付記1に記載の方法。 (付記5)各シャーシは更にルータを有し、該ルータは
I/Oノードからのトランザクションを識別するための
ルーティングテーブルを備えており、該ルーティングテ
ーブルにインデックスを付加してI/Oノードであるソ
ースノードに基づいて出口ポートを判定する段階を更に
有する付記1に記載の方法。 (付記6)前記ソースノードがI/Oノードの場合に前
記I/Oビットの指定値が「1」である付記1に記載の
方法。 (付記7)前記ソースノードがプロセッサノードの場合
に前記I/Oビットの指定値が「0」である付記1に記
載の方法。 (付記8)前記ソースノードがプロセッサノードの場合
に前記I/Oビットの指定値が「1」である付記1に記
載の方法。 (付記9)前記ソースノードがI/Oノードの場合に前
記I/Oビットの指定値が「0」である付記1に記載の
方法。 (付記10)少なくとも2つのドメインにパーティショ
ン化されたマルチシャーシコンピュータシステムにおい
て、第1ドメインは第1ケーブルによって結合された少
なくとも第1及び第2シャーシを有し、第2ドメインは
少なくとも1つのシャーシを有し、前記第1ドメインの
各シャーシは第2ケーブルと第3ケーブルによって前記
第2ドメインのシャーシに結合され、前記各シャーシは
複数のプロセッサノード、I/Oノード、及びメモリノ
ードを含むシステムであって、メッセージを受信する手
段と、前記メッセージから宛先ノードと、ソースノード
がI/Oノードであるかどうかを示す指定値を有するI
/Oビットを識別する手段と、前記ソースノードがI/
Oノードであることを示す前記I/Oビットに応答し、
前記メッセージを前記第2ケーブル及び第3ケーブルを
介して前記第1シャーシから前記第2シャーシにルーテ
ィングする手段とを有することを特徴とするシステム。 (付記11)I/Oノードである前記宛先ノードに対応
し、前記メッセージを前記第2ケーブル及び第3ケーブ
ルを介して前記第1シャーシから前記第2シャーシにル
ーティングする手段を有する付記10に記載のシステ
ム。 (付記12)前記ソースノードが非I/Oノードであり
前記宛先ノードが非I/Oノードであることを示す前記
I/Oビットに応答し、前記メッセージを前記第1ケー
ブルを介して前記第1シャーシから前記第2シャーシに
ルーティングする段階を有する付記10に記載のシステ
ム。 (付記13)少なくとも2つのドメインにパーティショ
ン化されたマルチシャーシコンピュータシステムであっ
て、第1ケーブルによって結合された少なくとも2つの
シャーシを有する第1ドメインと、少なくとも1つのシ
ャーシを有する第2ドメインとを有し、前記第1ドメイ
ンの各シャーシは第2ケーブル及び第3ケーブルによっ
て前記第2ドメインのシャーシに結合され、前記第1ド
メイン及び第2ドメインの各シャーシは要求メッセージ
を前記第1ケーブル及び第2ケーブルを介してルーティ
ングするルータを含むことを特徴とするシステム。 (付記14)複数のI/Oノードを有し、前記ルータは
前記I/Oノードからのトランザクションを識別するた
めのルーティングテーブルを維持管理する付記13に記
載のシステム。 (付記15)複数のプロセッサノードを有し、前記ルー
タは前記プロセッサノードからのトランザクションを識
別するためのルーティングテーブルを維持管理する付記
13に記載のシステム。
【図面の簡単な説明】
【図1】図1は、マルチノードネットワークコンピュー
タシステムの全体アーキテクチャの一実施例を示すブロ
ックダイアグラムである。
【図2】図2は、本発明の実施例に従って2つのドメイ
ンにパーティション化された完全相互接続3シャーシシ
ステムのブロックダイアグラムである。
【図3】図3は、本発明による一実施例における要求メ
ッセージのフォーマットを図示したものである。
【図4】図4は、ルーティングテーブルのブロックダイ
アグラムである。
【図5】図5は、ドメイン内ケーブルを使用するプロセ
ッサ−メモリ(PからP)メッセージトランザクション
のブロックダイアグラムである。
【図6】図6は、ドメイン間ケーブルを使用するプロセ
ッサ−I/Oトランザクションのブロックダイアグラム
である。
【図7】図7は、図2の実施例において実行する方法の
フローチャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 パトリック エヌ.コンウェイ アメリカ合衆国,カリフォルニア 94024, ロス アルトス,ドロールス アベニュ 973 (72)発明者 清水 剛 アメリカ合衆国,カリフォルニア 95134, サンノゼ,エラン ビレッジ レーン 310 ナンバー113 (72)発明者 増山 和則 石川県河北郡宇ノ気町字宇野気ヌ98番地の 2 株式会社ピーエフユー内 (72)発明者 サディール ミリヤラ アメリカ合衆国,カリフォルニア 95129, サンノゼ,ウエスト ウォルブルック ド ライブ 5725 (72)発明者 ジェレミー ジェイ.ファレル アメリカ合衆国,カリフォルニア 95008, キャンベル,パトリシア コート 1030 (72)発明者 階戸 紀男 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B045 BB28 BB42 KK07

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも2つのドメインにパーティシ
    ョン化されたコンピュータシステムであって、第1ドメ
    インは第1ケーブルによって結合された少なくとも第1
    及び第2シャーシを有し、第2ドメインは少なくとも1
    つのシャーシを有し、前記第1ドメインの各シャーシは
    第2ケーブルと第3ケーブルによって前記第2ドメイン
    のシャーシに結合され、前記各シャーシは複数のプロセ
    ッサノード、I/Oノード、及びメモリノードを含むコ
    ンピュータシステムにおいてメッセージトラフィックの
    バランスをとる方法であって、 メッセージを受信する段階と、 前記メッセージから宛先ノードと、ソースノードがI/
    Oノードであるかどうかを示す指定値を有するI/Oビ
    ットを識別する段階と、 前記ソースノードがI/Oノードであることを示す前記
    I/Oビットに応答し、前記メッセージを前記第2ケー
    ブル及び第3ケーブルを介して前記第1シャーシから前
    記第2シャーシにルーティングする段階とを有すること
    を特徴とする方法。
  2. 【請求項2】 I/Oノードである前記宛先ノードに対
    応し、前記メッセージを前記第2ケーブル及び第3ケー
    ブルを介して前記第1シャーシから前記第2シャーシに
    ルーティングする段階を有する請求項1に記載の方法。
  3. 【請求項3】 前記ソースノードが非I/Oノードであ
    り前記宛先ノードが非I/Oノードであることを示す前
    記I/Oビットに応答し、前記メッセージを前記第1ケ
    ーブルを介して前記第1シャーシから前記第2シャーシ
    にルーティングする段階を有する請求項1に記載の方
    法。
  4. 【請求項4】 少なくとも2つのドメインにパーティシ
    ョン化されたマルチシャーシコンピュータシステムにお
    いて、第1ドメインは第1ケーブルによって結合された
    少なくとも第1及び第2シャーシを有し、第2ドメイン
    は少なくとも1つのシャーシを有し、前記第1ドメイン
    の各シャーシは第2ケーブルと第3ケーブルによって前
    記第2ドメインのシャーシに結合され、前記各シャーシ
    は複数のプロセッサノード、I/Oノード、及びメモリ
    ノードを含むシステムであって、 メッセージを受信する手段と、 前記メッセージから宛先ノードと、ソースノードがI/
    Oノードであるかどうかを示す指定値を有するI/Oビ
    ットを識別する手段と、 前記ソースノードがI/Oノードであることを示す前記
    I/Oビットに応答し、前記メッセージを前記第2ケー
    ブル及び第3ケーブルを介して前記第1シャーシから前
    記第2シャーシにルーティングする手段とを有すること
    を特徴とするシステム。
  5. 【請求項5】 I/Oノードである前記宛先ノードに対
    応し、前記メッセージを前記第2ケーブル及び第3ケー
    ブルを介して前記第1シャーシから前記第2シャーシに
    ルーティングする手段を有する請求項4に記載のシステ
    ム。
  6. 【請求項6】 前記ソースノードが非I/Oノードであ
    り前記宛先ノードが非I/Oノードであることを示す前
    記I/Oビットに応答し、前記メッセージを前記第1ケ
    ーブルを介して前記第1シャーシから前記第2シャーシ
    にルーティングする段階を有する請求項4に記載のシス
    テム。
  7. 【請求項7】 少なくとも2つのドメインにパーティシ
    ョン化されたマルチシャーシコンピュータシステムであ
    って、 第1ケーブルによって結合された少なくとも2つのシャ
    ーシを有する第1ドメインと、 少なくとも1つのシャーシを有する第2ドメインとを有
    し、 前記第1ドメインの各シャーシは第2ケーブル及び第3
    ケーブルによって前記第2ドメインのシャーシに結合さ
    れ、前記第1ドメイン及び第2ドメインの各シャーシは
    要求メッセージを前記第1ケーブル及び第2ケーブルを
    介してルーティングするルータを含むことを特徴とする
    システム。
  8. 【請求項8】 複数のI/Oノードを有し、前記ルータ
    は前記I/Oノードからのトランザクションを識別する
    ためのルーティングテーブルを維持管理する請求項7に
    記載のシステム。
  9. 【請求項9】 複数のプロセッサノードを有し、前記ル
    ータはプロセッサノードからのトランザクションを識別
    するためのルーティングテーブルを維持管理する請求項
    7に記載のシステム。
JP2002190476A 2001-06-28 2002-06-28 情報処理システムのデータ転送方法及び情報処理システム Expired - Fee Related JP3996455B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US30222601P 2001-06-28 2001-06-28
US60/302226 2001-06-28
US10/077,144 US7159017B2 (en) 2001-06-28 2002-02-15 Routing mechanism for static load balancing in a partitioned computer system with a fully connected network
US10/077144 2002-02-15

Publications (2)

Publication Number Publication Date
JP2003114879A true JP2003114879A (ja) 2003-04-18
JP3996455B2 JP3996455B2 (ja) 2007-10-24

Family

ID=26758946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002190476A Expired - Fee Related JP3996455B2 (ja) 2001-06-28 2002-06-28 情報処理システムのデータ転送方法及び情報処理システム

Country Status (2)

Country Link
US (1) US7159017B2 (ja)
JP (1) JP3996455B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108503B2 (en) 2009-01-14 2012-01-31 International Business Machines Corporation Dynamic load balancing between chassis in a blade center
JP2012181585A (ja) * 2011-02-28 2012-09-20 Seiko Epson Corp デバイスシステムおよびチップ

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766360B1 (en) 2000-07-14 2004-07-20 Fujitsu Limited Caching mechanism for remote read-only data in a cache coherent non-uniform memory access (CCNUMA) architecture
US6754776B2 (en) 2001-05-17 2004-06-22 Fujitsu Limited Method and system for logical partitioning of cache memory structures in a partitoned computer system
US6961761B2 (en) * 2001-05-17 2005-11-01 Fujitsu Limited System and method for partitioning a computer system into domains
US7380001B2 (en) * 2001-05-17 2008-05-27 Fujitsu Limited Fault containment and error handling in a partitioned system with shared resources
US6862634B2 (en) 2001-06-29 2005-03-01 Fujitsu Limited Mechanism to improve performance in a multi-node computer system
US6915370B2 (en) * 2001-12-20 2005-07-05 Intel Corporation Domain partitioning in a multi-node system
US7275081B1 (en) 2002-06-10 2007-09-25 Juniper Networks, Inc. Managing state information in a computing environment
CN100583807C (zh) * 2002-06-21 2010-01-20 汤姆森特许公司 具有公共时钟的多机架广播路由器
US7739403B1 (en) 2003-10-03 2010-06-15 Juniper Networks, Inc. Synchronizing state information between control units
US9268607B2 (en) 2004-03-13 2016-02-23 Adaptive Computing Enterprises, Inc. System and method of providing a self-optimizing reservation in space of compute resources
US8782654B2 (en) 2004-03-13 2014-07-15 Adaptive Computing Enterprises, Inc. Co-allocating a reservation spanning different compute resources types
JP3780457B2 (ja) * 2004-06-07 2006-05-31 株式会社トヨタIt開発センター 信号処理装置、方法、プログラムおよび記録媒体
US20070266388A1 (en) 2004-06-18 2007-11-15 Cluster Resources, Inc. System and method for providing advanced reservations in a compute environment
US8176490B1 (en) 2004-08-20 2012-05-08 Adaptive Computing Enterprises, Inc. System and method of interfacing a workload manager and scheduler with an identity manager
CA2586763C (en) 2004-11-08 2013-12-17 Cluster Resources, Inc. System and method of providing system jobs within a compute environment
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
US9231886B2 (en) 2005-03-16 2016-01-05 Adaptive Computing Enterprises, Inc. Simple integration of an on-demand compute environment
EP1872249B1 (en) 2005-04-07 2016-12-07 Adaptive Computing Enterprises, Inc. On-demand access to compute resources
US7606241B1 (en) 2005-08-12 2009-10-20 Juniper Networks, Inc. Extending standalone router syntax to multi-chassis routers
US7552262B1 (en) * 2005-08-31 2009-06-23 Juniper Networks, Inc. Integration of an operative standalone router into a multi-chassis router
US7747999B1 (en) 2005-09-26 2010-06-29 Juniper Networks, Inc. Software installation in a multi-chassis network device
US8135857B1 (en) 2005-09-26 2012-03-13 Juniper Networks, Inc. Centralized configuration of a multi-chassis router
US7518986B1 (en) 2005-11-16 2009-04-14 Juniper Networks, Inc. Push-based hierarchical state propagation within a multi-chassis network device
US7804769B1 (en) * 2005-12-01 2010-09-28 Juniper Networks, Inc. Non-stop forwarding in a multi-chassis router
US7630385B2 (en) * 2006-08-04 2009-12-08 Oyadomari Randy I Multiple domains in a multi-chassis system
US8041773B2 (en) 2007-09-24 2011-10-18 The Research Foundation Of State University Of New York Automatic clustering for self-organizing grids
US9876735B2 (en) 2009-10-30 2018-01-23 Iii Holdings 2, Llc Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
US9077654B2 (en) 2009-10-30 2015-07-07 Iii Holdings 2, Llc System and method for data center security enhancements leveraging managed server SOCs
US8599863B2 (en) 2009-10-30 2013-12-03 Calxeda, Inc. System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US20130107444A1 (en) 2011-10-28 2013-05-02 Calxeda, Inc. System and method for flexible storage and networking provisioning in large scalable processor installations
US20110103391A1 (en) 2009-10-30 2011-05-05 Smooth-Stone, Inc. C/O Barry Evans System and method for high-performance, low-power data center interconnect fabric
US9465771B2 (en) 2009-09-24 2016-10-11 Iii Holdings 2, Llc Server on a chip and node cards comprising one or more of same
US9054990B2 (en) 2009-10-30 2015-06-09 Iii Holdings 2, Llc System and method for data center security enhancements leveraging server SOCs or server fabrics
US10877695B2 (en) 2009-10-30 2020-12-29 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US9648102B1 (en) 2012-12-27 2017-05-09 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US9680770B2 (en) 2009-10-30 2017-06-13 Iii Holdings 2, Llc System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US9311269B2 (en) 2009-10-30 2016-04-12 Iii Holdings 2, Llc Network proxy for high-performance, low-power data center interconnect fabric
US9565094B2 (en) * 2009-11-13 2017-02-07 International Business Machines Corporation I/O routing in a multidimensional torus network
US9954760B2 (en) 2010-01-29 2018-04-24 International Business Machines Corporation I/O routing in a multidimensional torus network
US9100348B2 (en) 2011-10-03 2015-08-04 Intel Corporation Managing sideband routers in on-die system fabric
US9092594B2 (en) 2011-10-31 2015-07-28 Iii Holdings 2, Llc Node card management in a modular and large scalable server system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3516432B2 (ja) * 1997-11-18 2004-04-05 株式会社東芝 ノード装置及びパケット転送方法
US6536000B1 (en) * 1999-10-15 2003-03-18 Sun Microsystems, Inc. Communication error reporting mechanism in a multiprocessing computer system
US6973517B1 (en) * 2000-08-31 2005-12-06 Hewlett-Packard Development Company, L.P. Partition formation using microprocessors in a multiprocessor computer system
US6678840B1 (en) * 2000-08-31 2004-01-13 Hewlett-Packard Development Company, Lp. Fault containment and error recovery in a scalable multiprocessor
US6961761B2 (en) * 2001-05-17 2005-11-01 Fujitsu Limited System and method for partitioning a computer system into domains

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108503B2 (en) 2009-01-14 2012-01-31 International Business Machines Corporation Dynamic load balancing between chassis in a blade center
JP2012181585A (ja) * 2011-02-28 2012-09-20 Seiko Epson Corp デバイスシステムおよびチップ

Also Published As

Publication number Publication date
US20030007493A1 (en) 2003-01-09
JP3996455B2 (ja) 2007-10-24
US7159017B2 (en) 2007-01-02

Similar Documents

Publication Publication Date Title
JP2003114879A (ja) メッセージトラフィックとマルチシャーシコンピュータシステムのバランスをとる方法
US7643477B2 (en) Buffering data packets according to multiple flow control schemes
US7165131B2 (en) Separating transactions into different virtual channels
US6842443B2 (en) Network switch using network processor and methods
EP1226501B1 (en) Network switch and components and method of operation
US7185100B2 (en) System and method for determining a preferred mirrored service in a network by evaluating a border gateway protocol
US7818459B2 (en) Virtualization of I/O adapter resources
US7706275B2 (en) Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by employing bandwidth shells at areas of overutilization
US7921251B2 (en) Globally unique transaction identifiers
US8204054B2 (en) System having a plurality of nodes connected in multi-dimensional matrix, method of controlling system and apparatus
US6769033B1 (en) Network processor processing complex and methods
EP3657740B1 (en) Message forwarding
US20030005167A1 (en) Method and apparatus for managing transaction requests in a multi-node architecture
US20030007457A1 (en) Hardware mechanism to improve performance in a multi-node computer system
JP2001223749A (ja) パケット分類エンジン
EP2652636B1 (en) Split traffic routing in a distributed shared memory multiprocessor
US6631421B1 (en) Recursive partitioning of networks
US11960437B2 (en) Systems and methods for multi-branch routing for interconnected chip networks
JP2006121699A (ja) 第1のデータネットワークから第2のデータネットワークへのデータパケットのカーネルレベルの通過のための方法及び装置
JPH07287677A (ja) 複数のコンピュータインタフェースを複数のサポーティング装置に結合するための装置およびその方法
US20020110130A1 (en) System for routing data packets through a crossbar switch in expansion mode
US20050289101A1 (en) Methods and systems for dynamic partition management of shared-interconnect partitions
US11144457B2 (en) Enhanced page locality in network-on-chip (NoC) architectures
JPH0964901A (ja) スイッチングハブのアドレス学習方式
Dagher et al. A Study of Wormhole Router Architectures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees