JP3996455B2 - 情報処理システムのデータ転送方法及び情報処理システム - Google Patents

情報処理システムのデータ転送方法及び情報処理システム Download PDF

Info

Publication number
JP3996455B2
JP3996455B2 JP2002190476A JP2002190476A JP3996455B2 JP 3996455 B2 JP3996455 B2 JP 3996455B2 JP 2002190476 A JP2002190476 A JP 2002190476A JP 2002190476 A JP2002190476 A JP 2002190476A JP 3996455 B2 JP3996455 B2 JP 3996455B2
Authority
JP
Japan
Prior art keywords
domain
node
router
chassis
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002190476A
Other languages
English (en)
Other versions
JP2003114879A (ja
Inventor
ヒトシ 大井
エヌ.コンウェイ パトリック
剛 清水
和則 増山
ミリヤラ サディール
ジェイ.ファレル ジェレミー
紀男 階戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2003114879A publication Critical patent/JP2003114879A/ja
Application granted granted Critical
Publication of JP3996455B2 publication Critical patent/JP3996455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/04Interdomain routing, e.g. hierarchical routing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Description

【0001】
【発明の属する技術分野】
本出願は、米国特許法35 U.S.C. §119(e)に基づき2001年6月28日付けで出願された出願番号60/302,226の「ROUTINGMECHANISM FOR STATIC LOAD BALANCING INA PARTITIONED COMPUTER SYSTEM WITH A FULLY CONNECTED NETWORK」という名称のHitoshi Oi、Patick N. Conway、Takeshi Shimizu、Kazunori Masuyama、Sudheer Miryala、Jeremy Farrell、及びNorio Kaidoによる仮出願による優先権を主張するものであり、この引用によってそのすべてが本明細書に包含される。
本発明は、コンピュータシステムにおける共有メモリ構造の論理パーティション化に関するものであり、更に詳しくは、パーティション化されたコンピュータシステムにおけるメッセージトラフィックのバランシングに関する。
【0002】
【従来の技術】
マルチノードコンピュータネットワークは、それぞれが独自のアドレス空間を有し独立したマシンとして機能する複数のドメインにパーティション化することができる。この場合、オペレーティングシステムは、それぞれのドメインにおいて別々に稼動する。ドメインにパーティション化することによって、コンピュータネットワークのリソースを異なるタスクに効率的に割り当てることが可能になり、コンピュータシステムの使用法に柔軟性をもたらすと共に、コンピュータリソースを隔離することによって、特定ドメインにおけるハードウェア又はソフトウェア障害が、システムのその他のドメインの稼動を妨げることのないように制限できる。
【0003】
【発明が解決しようとする課題】
マルチノードコンピュータネットワークのハードウェア実装には、グループ化された中央処理装置(CPU)及び入力/出力(I/O)ノードが1つのモジュールとして存在するものがあり、それらをしばしばシャーシ又はキャビネットと呼ぶ。これらの複数のシャーシを1つに結合し、マルチノードクラスタを形成することができる。複数シャーシシステムをいくつかのドメインにパーティション化した場合、あるドメインに存在するノードは、その他のドメインのノードに対して読み取り及び書き込み要求を実行することはできない。この結果、ドメインが異なるシャーシを結合するケーブル(ドメイン間ケーブル)が、メッセージトラフィックに使用されず、同一ドメイン内のシャーシを結合するケーブル(ドメイン内ケーブル)が、メッセージトラフィックによって非常に輻輳することになる。パーティション化されたシステムにおいては、通常、ドメイン内メッセージトラフィックが、ドメイン間メッセージトラフィックよりも多い。
【0004】
メッセージトラフィックのバランスシングをとる方法としては、既知のものがいくつか存在するが、カリフォルニア州Palo Altoに所在するHewlett Packard CompanyのHP9000「Superdome」Serverがその1つである。しかし、このシステムはパーティション化されたシステムにおける未使用経路による負荷バランシングをサポートしていない。また、メッセージトラフィックのバランスをとる別の方法として、動的適応ルーティング(Dynamic Adaptive Routing)があるが、これには複雑な実装が必要であり、ハードウェアコストの上昇を招くことになる。
【0005】
【課題を解決するための手段】
本発明には、ドメイン間ケーブル上の入力/出力(I/O)メッセージトラフィックのバランスをとってドメイン内ケーブル上の輻輳を軽減するためのシステムと方法が含まれている。パーティション化されたマルチシャーシコンピュータシステムは、少なくとも2つのドメインを有している(図1を参照)。これらのドメインは互いに隔離されており、いずれのドメインもその他のドメインの共有アドレス空間に対して直接読み取り及び書き込みを実行することはできない。システム内の各ドメインは、そのドメイン内に少なくとも1つのシャーシを有している。同一ドメイン内のシャーシはドメイン内ケーブルを介して結合されており、ドメインが異なるシャーシはドメイン間ケーブルを介して結合されている。シャーシとしては、通信可能に結合されたプロセッサノード、I/Oノード、メモリノード、及びルータを備えているものが望ましい。また、ルータは、少なくとも2つのルーティングテーブルを維持管理し、メッセージのルーティング先となる出口ポートを判定するものが望ましい(図4を参照)。この場合、第1ルーティングテーブルは、I/Oノードからのトランザクション用にプログラムされており、第2ルーティングテーブルは、プロセッサノードからのトランザクション用にプログラムされている。
【0006】
各々のトランザクションにおいて、ソースノードは、宛先ノードに対して情報又はリソースを要求する。この要求メッセージは、その要求メッセージを受信する宛先ノードIDを示す宛先ノードフィールドと、ソースノードを示すI/Oビットフィールドと、データを格納するペイロードフィールドとからなるフォーマットを有している。本発明の一実施例においては、宛先ノードIDとI/Oビットに基づいて、トランザクションをI/Oトランザクション及びプロセッサ−メモリトランザクション(非I/Oトランザクション)に分類する。宛先ノードがI/Oであるか、或いはソースノードがI/OノードであることをI/Oビットが示している場合、該トランザクションはI/Oトランザクションとして分類され、ドメイン間ケーブルを介してルーティングされる。そうでなければ、トランザクションはプロセッサ−メモリトランザクション(非I/O)に分類され、ドメイン内ケーブルを介してルーティングされる。本発明においては、I/Oトランザクションをドメイン間ケーブルを介してルーティングすることによって、使用頻度の高いドメイン内ケーブル上のメッセージトラフィックの輻輳を軽減している。この結果、プロセッサ−メモリトランザクションのレイテンシー(待ち時間)を削減する効果がある。
【0007】
【発明の実施の形態】
図1は、ドメイン1、ドメイン2、及びドメインNという複数のドメインにパーティション化された従来のコンピュータシステム100のブロックダイアグラムであり、それぞれのドメインは独自のアドレス空間を有する独立したマシンとして動作する。ドメイン1、2、及びNは互いに隔離されており、いずれのドメインもその他のドメインの共有アドレス空間に対して直接読み取り又は書き込みを実行できない。図1の各ドメインは、CPUノード110−1〜110−n(110と総称する)、メモリノード115−1〜115−n(115と総称する)、及びI/Oノード120−1〜120−n(120と総称する)などの複数のノードを備えている。各CPUノード110は、Intel又はIntel互換のPentiumTMクラス以上のプロセッサ、Sun SPARCTMクラス以上のプロセッサ、或いはIBM/Motorola PowerPCTMクラス以上のプロセッサなどの従来型の処理装置である。また、各I/Oノード120は、ストレージデバイス、入力デバイス、周辺デバイスなどの従来型のI/Oシステムであり、各メモリノード115は、ダイナミックランダムアクセスメモリ(DRAM)システム、スタティックランダムアクセスメモリ(SRAM)システムなどの従来型のメモリシステムである。これらのノード110、115、120は、相互接続125を介して接続されている。該相互接続125は、命令、データ、及びその他の信号のノード間での転送を実現するために複数のノードを結合している。なお、相互接続125は、ルータ又はスイッチを使用して実装されたメッシュ、リング、又はハイパーキューブなどであってよい。パーティション化されたコンピュータシステム100においては、ドメイン1、2、及びNの読み取り及び書き込み要求は、各々のドメイン内のノード間でのみ実行可能である。
【0008】
図2は、本発明の一実施例による完全相互接続3シャーシコンピュータシステム200のブロックダイアグラムである。コンピュータシステム200は、ドメイン1 160及びドメイン2 180という2つのドメインにパーティション化されている。これらのドメインは互いに隔離されており、いずれのドメインも、もう一方のドメインの共有アドレス空間に対して直接読み取り又は書き込みを実行することはできない。ドメイン1内には、シャーシA及びシャーシBが存在しており、ドメイン2内には、シャーシCが存在している。すべてのシャーシA、B、及びCは、従来型の高速データ転送ネットワークケーブルによって完全に相互接続されており、専用のリンクを形成している。たとえば、ドメイン1内のシャーシA及びBは、ドメイン内ケーブルA−B161を介して接続されており、シャーシA及びCは、ドメイン間ケーブルA−C163を介して接続され、シャーシB及びCは、ドメイン間ケーブルC−B167を介して接続されている。
【0009】
各シャーシA、B、及びCは、Pノード110a〜110c(110と総称する)、I/Oノード120a〜120c(120と総称する)、及びルータ150a〜150c(150と総称する)を備えている。Pノード110としては、プロセッサ及びメモリを備えているものが望ましい。図2に示されている実施例においては、3つのPノード110及び3つのI/Oノード(I)120からなる合計6つのノードを備えている。ただし、パーティション化されたシステム200は、いくつのノードを備えてもよい。
【0010】
各シャーシA、B、及びC内の各ルータ150a〜150cは、そのシャーシのPノード110と信号線の第1セット155によって通信可能に結合しており、そのシャーシのIノード120と信号線の第2セット157によって通信可能に結合している。シャーシA内のルータ150aは、ケーブルA−B161(直接経路)を介してシャーシB内のルータ150bと結合している。また、シャーシA内のルータ150aは、ケーブルA−C163(間接経路)を介してシャーシC内のルータ150cと結合している。そして、シャーシB内のルータ150bは、ケーブルC−B167(間接経路)を介してシャーシC内のルータ150cと結合している。なお、信号線の第1セット155、信号線の第2セット157、及びケーブル161、163、及び167は、1本以上のデータワイヤなど、どのような信号通信媒体であってもよい。
【0011】
各ルータ150は、複数の出口ポートを有する従来型の4×4クロスバースイッチである。これらのルータ150は、メッセージの転送先である次のネットワークポイントを判定する。ルータ150a〜150c内部の小さな数字0、1、2、3は、図2の実施例におけるノードとケーブルの接続ポートを示している。更に、各ルータ150は、少なくとも1つのルーティングテーブルの維持管理をも行う(その一例を図4に示している)。
【0012】
本発明においては、I/Oトランザクションとプロセッサ−メモリトランザクション(非I/Oトランザクション)という2つのカテゴリが存在する。各トランザクションで、ソースノードが宛先ノードに対して情報又はリソースを要求する。簡単にするため、これらの要求メッセージをメッセージと総称する。I/O直接メモリアクセス(DMA)トランザクションは、I/Oノードから起動され(IからPのトラフィック)、構成レジスタ(未図示)アクセスは、プロセッサノードから起動される(PからIのトラフィック)。これらのI/Oトランザクションは、非I/Oトランザクションほどメモリアクセスのレイテンシーに敏感ではない。次に、I/Oトランザクションの例について、図6を参照して説明する。図6に示すように、Pノード0がIノード3に対して情報を要求する。このトランザクションは、ドメイン間ケーブルC−B167とA−C163を介してルーティングされる。本発明においては、I/Oトランザクションをケーブル163や167などの未使用のドメイン間ケーブルによってルーティングすることにより、ドメイン内ケーブル161上のトラフィックを削減する効果を奏しており、この結果、レイテンシーが減少される。
【0013】
一方、プロセッサ−メモリトランザクションにおいては、図5に示すように、ドメイン1のシャーシA内のPノード0が、同一ドメイン内のシャーシBの他のPノード2のメモリに対して情報を要求し、また逆も同様である。このトランザクションは、A−Bケーブル161などのドメイン内ケーブルを介してルーティングされる。
【0014】
次に、図3を参照すれば、本発明の一実施例における要求メッセージ300のフォーマットが図示されている。このフォーマットとしては、宛先ノードIDフィールド10、I/Oビットフィールド20、及びペイロードフィールド30を有するものが望ましい。
【0015】
システム内の各ノード(CPU又はI/Oノード)は、グローバルな一意のノードIDを有している。宛先ノードIDフィールド10は、メッセージを受信するノードのIDを示すものであり、これにはPノード110又はI/Oノード120が該当する。
【0016】
I/Oビットフィールド20は、ソースノード(その要求メッセージを作成したノード)を識別するフィールドである。前述のとおり、例えば、メッセージは、I/Oノード或いはPノードで作成される。このI/Oビットを適切に設定するのは、ソースノードの責任である。I/Oビットフィールド20には、「0」又は「1」のビット値を格納するのが望ましい。本発明の一実施例においては、ビット値「1」は、ソースノードがI/Oノードであることを示しており、ビット値「0」は、ソースノードがプロセッサノードであることを示している。また、本発明の別の実施例においては、ビット値「1」は、ソースノードがプロセッサノードであることを示し、ビット値「0」は、ソースノードがI/Oノードであることを示している。ルータ150は、このI/Oビットを使用してルーティングテーブルを選択する。なお、ペイロードフィールド30には、データ自身が格納される。
【0017】
図4には、各シャーシA、B、及びCの各ルータ150a〜150cの2つのルーティングテーブルが示されている。ルーティングテーブル410a〜410c(410と総称する)は、Pノード110からのトランザクションに対して使用される。一方、ルーティングテーブル420a〜420cは、各々のシャーシ内のI/Oノード120からのトランザクションに対して使用される。これらのルーティングテーブル410及び420内のエントリに対しては、宛先ノードIDに応じたインデックスが付加されている。各エントリは、メッセージをルーティングすべきルータ150a、150b、150cの出口ポート(例えば、ポート0、1、2、又は3)を示している。なお、ルーティングテーブル410及び420内の網掛けされたエントリは、その宛先ノードがメッセージが作成されたドメインの外にあることを示している。例えば、図4に示しているように、シャーシA及びBの場合、宛先ノード4及び5はドメイン1の外にあり、宛先ノード0、1、2、及び3はドメイン1の中にある。シャーシCの場合には、宛先ノード0、1、2、及び3はドメイン2の外にあり、宛先ノード4及び5はドメイン2の中にある。そして、下線のエントリは、メッセージが間接経路(ドメイン間ケーブル)によってルーティングされることを示している。次に、ルーティングテーブル410及び420の使用方法の例を、図5及び6を参照しつつ説明する。
【0018】
まず図5を参照すれば、これは、ドメイン内ケーブルA−B161を使用するプロセッサ−メモリ(PからP)メッセージトランザクションのブロックダイアグラムを示している。まず、シャーシAのノード0のプロセッサがメッセージをノード2に対して送信する。ルータ150は、そのメッセージのI/Oビットに基づいて、ソースノードを識別すると共に宛先ノードを識別する。I/Oビット=0の場合、Pノード0がソースノードであることを示している。宛先ノードはノード2である。シャーシA内のルータ150aは、図5のPルーティングテーブル410aを使用して出口ポートを判定する。ルーティングテーブル410a内の宛先ノードID2に対応するエントリは、メッセージをルータ150aのポート2にルーティングすることを示している。この結果、メッセージはケーブルA−B161を介して送信され、シャーシB内のルータ150bに到達する。このメッセージは、シャーシA内のPノードからのものであるため、そのI/O=0である。したがって、Pルーティングテーブル410bを使用して出口ポートを判定する。Pルーティングテーブル410bは、メッセージをポート0とPノード2にルーティングすることを示している。
【0019】
メモリアクセスが完了すると、シャーシB内のPノード2は、I/O=0の応答メッセージをシャーシA内のPノード0に対して送り返す。ルータ150bは、その応答メッセージの宛先ノードIDとI/Oビットを読み取り、その要求メッセージがPノードからのものであると判定する。この結果、Pルーティングテーブル410bを使用する。ノード0(応答メッセージの宛先)に対応するエントリは、メッセージをケーブルA−B161を介してルータ150aのポート2にルーティングすることを示している。この結果、メッセージは、ケーブルA−B161を介して送信され、シャーシA内のルータ150aに到達する。I/O=0であり、Pルーティングテーブル410aを使用する。Pルーティングテーブル410aのインデックスは、メッセージをポート0にルーティングする必要があることを示している。
【0020】
次に、図6を参照すれば、ドメイン間ケーブルC−B167とA−C163を使用するI/Oトランザクション(PからI)のルーティングメカニズムの動作が示されている。シャーシA内のPノード0が、I/O=0でシャーシB内のIノード3にアクセスする。ルータ150aは、このメッセージを受信するとメッセージに格納されているI/Oビットを分析する。この場合、I/Oビットは、そのメッセージがI/Oノードではなく、Pノードからのものであることを示している。したがって、ルータ150aはPルーティングテーブル(P)410aを選択する。図4に示すように、宛先ノードID3は、メッセージをルータ150aのポート3からシャーシCに接続されたケーブルA−C163にルーティングすることを示している。したがって、メッセージは、A−Cケーブル163を介して送信され、ルータ150cに到達する。このメッセージは、I/Oノードからのものではないため、I/O=0であり、Pルーティングテーブル410cを使用する。Pルーティングテーブル410cは、メッセージをポート2からシャーシBに接続されたケーブルC−B167にルーティングする必要があることを示している。したがって、メッセージは、C−Bケーブル167を介して送信され、ルータ150bに到達する。I/O=0であり、Pルーティングテーブル410bを使用する。Pルーティングテーブル410bのインデックスは、メッセージをポート1にルーティングすることを示しており、これは、要求メッセージの宛先(ノード3)である。
【0021】
I/Oアクセスが完了した後に、Iノード3は、I/O=1の応答メッセージをノード0内のPに送り返す。I/O=1であるため、ルータ150bにおいてI/Oルーティングテーブル420bを使用する。宛先ノードIDであるノード0に対応するエントリは、メッセージをポート3からシャーシCに接続されたケーブルC−B167にルーティングすることを示している。したがって、メッセージは、ケーブルC−Bを介して送信され、ルータ150cに到達する。なお、メッセージをケーブルC−B167を介して送信する前に、メッセージのI/Oビットが1から0に変更されることに留意されたい。さもなければ、作成元ではないシャーシ内のルータ150によってI/Oビットが無視される。
【0022】
このメッセージが同一シャーシ内のI/Oノードからのものではないため、Pルーティングテーブル410cを使用して出口ポートを判定する。Pルーティングテーブル410cは、メッセージをルータ150cのポート3からシャーシAに接続されたケーブルA−C163にルーティングすることを示している。したがって、メッセージは、ケーブルA−C163を介して送信され、ルータ150aに到達する。このメッセージが同一シャーシ内のI/Oノードからのものではないため、I/O=0であり、Pルーティングテーブル410aを使用する。Pルーティングテーブル410aは、メッセージをポート0にルーティングすることを示しており、これは、この応答メッセージの宛先である。この結果、I/Oトランザクションはドメイン間ケーブル163、167を介してルーティングされ、これによって、ドメイン内ケーブル161上の輻輳が軽減される。
【0023】
次に、図7を参照すれば、本発明に従ってトラフィックのバランスをとる方法のフローチャートが示されている。このプロセスは段階610から始まり、段階620でルータ150がメッセージを受信する。段階630で、ルータ150はそのメッセージの宛先ノードIDを識別する。また、ルータ150は、ソースノードがI/Oノードであるか又はプロセッサノードであるかを示すI/Oビットの識別も行う。宛先のノードがI/Oノードであるか、又はソースノードがI/Oノードであることを、I/Oビットが示している場合、段階640において、このトランザクションは、I/Oトランザクションに分類され、段階650でドメイン間ケーブルを介してルーティングされる。同様に、ソースノードがPノードの場合にも、メッセージはドメイン間ケーブルを介してルーティングされる。ルーティングテーブル410及び420に付加されたインデックス(図4を参照)によって、システムは出口ポートを判定できる。一方、トランザクションが非I/Oトランザクション(プロセッサ−メモリ)の場合、段階660において、メッセージは、ドメイン内ケーブルを介してルーティングされ、段階670で、このプロセスは終了する。
(付記1)少なくとも2つのドメインにパーティション化されたコンピュータシステムであって、第1ドメインは第1ケーブルによって結合された少なくとも第1及び第2シャーシを有し、第2ドメインは少なくとも1つのシャーシを有し、前記第1ドメインの各シャーシは第2ケーブルと第3ケーブルによって前記第2ドメインのシャーシに結合され、前記各シャーシは複数のプロセッサノード、I/Oノード、及びメモリノードを含むコンピュータシステムにおいてメッセージトラフィックのバランスをとる方法であって、
メッセージを受信する段階と、
前記メッセージから宛先ノードと、ソースノードがI/Oノードであるかどうかを示す指定値を有するI/Oビットを識別する段階と、
前記ソースノードがI/Oノードであることを示す前記I/Oビットに応答し、前記メッセージを前記第2ケーブル及び第3ケーブルを介して前記第1シャーシから前記第2シャーシにルーティングする段階とを有することを特徴とする方法。
(付記2)I/Oノードである前記宛先ノードに対応し、前記メッセージを前記第2ケーブル及び第3ケーブルを介して前記第1シャーシから前記第2シャーシにルーティングする段階を有する付記1に記載の方法。
(付記3)前記ソースノードが非I/Oノードであり前記宛先ノードが非I/Oノードであることを示す前記I/Oビットに応答し、前記メッセージを前記第1ケーブルを介して前記第1シャーシから前記第2シャーシにルーティングする段階を有する付記1に記載の方法。
(付記4)各シャーシはルータを有し、該ルータはプロセッサノードからのトランザクションを識別するためのルーティングテーブルを備えており、該ルーティングテーブルにインデックスを付加してプロセッサノードであるソースノードに基づいて出口ポートを判定する段階を更に有する付記1に記載の方法。
(付記5)各シャーシは更にルータを有し、該ルータはI/Oノードからのトランザクションを識別するためのルーティングテーブルを備えており、該ルーティングテーブルにインデックスを付加してI/Oノードであるソースノードに基づいて出口ポートを判定する段階を更に有する付記1に記載の方法。
(付記6)前記ソースノードがI/Oノードの場合に前記I/Oビットの指定値が「1」である付記1に記載の方法。
(付記7)前記ソースノードがプロセッサノードの場合に前記I/Oビットの指定値が「0」である付記1に記載の方法。
(付記8)前記ソースノードがプロセッサノードの場合に前記I/Oビットの指定値が「1」である付記1に記載の方法。
(付記9)前記ソースノードがI/Oノードの場合に前記I/Oビットの指定値が「0」である付記1に記載の方法。
(付記10)少なくとも2つのドメインにパーティション化されたマルチシャーシコンピュータシステムにおいて、第1ドメインは第1ケーブルによって結合された少なくとも第1及び第2シャーシを有し、第2ドメインは少なくとも1つのシャーシを有し、前記第1ドメインの各シャーシは第2ケーブルと第3ケーブルによって前記第2ドメインのシャーシに結合され、前記各シャーシは複数のプロセッサノード、I/Oノード、及びメモリノードを含むシステムであって、
メッセージを受信する手段と、
前記メッセージから宛先ノードと、ソースノードがI/Oノードであるかどうかを示す指定値を有するI/Oビットを識別する手段と、
前記ソースノードがI/Oノードであることを示す前記I/Oビットに応答し、前記メッセージを前記第2ケーブル及び第3ケーブルを介して前記第1シャーシから前記第2シャーシにルーティングする手段とを有することを特徴とするシステム。
(付記11)I/Oノードである前記宛先ノードに対応し、前記メッセージを前記第2ケーブル及び第3ケーブルを介して前記第1シャーシから前記第2シャーシにルーティングする手段を有する付記10に記載のシステム。
(付記12)前記ソースノードが非I/Oノードであり前記宛先ノードが非I/Oノードであることを示す前記I/Oビットに応答し、前記メッセージを前記第1ケーブルを介して前記第1シャーシから前記第2シャーシにルーティングする段階を有する付記10に記載のシステム。
(付記13)少なくとも2つのドメインにパーティション化されたマルチシャーシコンピュータシステムであって、
第1ケーブルによって結合された少なくとも2つのシャーシを有する第1ドメインと、
少なくとも1つのシャーシを有する第2ドメインとを有し、
前記第1ドメインの各シャーシは第2ケーブル及び第3ケーブルによって前記第2ドメインのシャーシに結合され、前記第1ドメイン及び第2ドメインの各シャーシは要求メッセージを前記第1ケーブル及び第2ケーブルを介してルーティングするルータを含むことを特徴とするシステム。
(付記14)複数のI/Oノードを有し、前記ルータは前記I/Oノードからのトランザクションを識別するためのルーティングテーブルを維持管理する付記13に記載のシステム。
(付記15)複数のプロセッサノードを有し、前記ルータは前記プロセッサノードからのトランザクションを識別するためのルーティングテーブルを維持管理する付記13に記載のシステム。
【図面の簡単な説明】
【図1】図1は、マルチノードネットワークコンピュータシステムの全体アーキテクチャの一実施例を示すブロックダイアグラムである。
【図2】図2は、本発明の実施例に従って2つのドメインにパーティション化された完全相互接続3シャーシシステムのブロックダイアグラムである。
【図3】図3は、本発明による一実施例における要求メッセージのフォーマットを図示したものである。
【図4】図4は、ルーティングテーブルのブロックダイアグラムである。
【図5】図5は、ドメイン内ケーブルを使用するプロセッサ−メモリ(PからP)メッセージトランザクションのブロックダイアグラムである。
【図6】図6は、ドメイン間ケーブルを使用するプロセッサ−I/Oトランザクションのブロックダイアグラムである。
【図7】図7は、図2の実施例において実行する方法のフローチャートである。

Claims (8)

  1. それぞれプロセッサ、入出力装置及びルータを有し、同一筐体内において相互接続された第1及び第2のドメインと、前記第1のドメインと前記第2のドメインのそれぞれと相互接続された第3のドメインとを有し、前記第1乃至第3のドメイン間相互にデータを送受信する情報処理システムのデータ転送方法において、
    前記第1のドメインが有するルータが、前記第1のドメインが有するプロセッサ又は入出力装置からデータを受信するステップと、
    前記第1のドメインが有するルータが、前記受信したデータが有する情報に基づいて、前記データの転送元及び転送先を識別するステップと、
    前記データの転送先が前記第2のドメインであると識別するとともに、送信元が前記第1のドメインが有する入出力装置であると認識した場合には、前記データを前記第3のドメインに転送するステップとを有することを特徴とするデータ転送方法。
  2. 前記第3のドメインが前記受信した前記データを前記第2のドメインに転送するステップを有することを特徴とする請求項1に記載のデータ転送方法。
  3. 前記第1のドメインが有するルータが、前記受信したデータが有する情報に基づいて、前記データの送信元及び送信先を識別するステップは、前記データが有する情報を用いて、前記ルータが有するルーティングテーブルが有する経路情報を選択することにより、前記データの送信元及び転送先を識別することを特徴とする請求項1又は2に記載のデータ転送方法。
  4. 前記第1のドメインが有するルータと、前記第2のドメインが有するルータは、前記筐体内で相互に接続されることを特徴とする請求項1乃至3のいずれか一項に記載のデータ転送方法
  5. プロセッサと入出力装置を有する第1のドメインと、
    前記第1のドメインと相互接続された第2のドメインと、
    前記第1のドメインと前記第2のドメインのそれぞれと相互接続された第3のドメインと、
    前記第1のドメインが有するプロセッサ又は入出力装置からデータを受信し、前記受信したデータが有する情報に基づいて、前記データの転送先が前記第2のドメインであり、かつ、送信元が前記第1のドメインが有する入出力装置であると識別した場合には、前記データを前記第3のドメインに転送するルータとを有することを特徴とする情報処理システム。
  6. 前記第1のドメインが有するルータは、前記第3のドメインが前記受信した前記データを前記第2のドメインに転送することを特徴とする請求項5に記載の情報処理システム。
  7. 前記第1のドメインが有するルータはルーティングテーブルを有し、
    前記データが有する情報を用いて、前記ルーティングテーブルが有する経路情報を選択することにより、前記データの送信元及び送信先を識別することを特徴とする請求項5又は6に記載の情報処理システム。
  8. 前記第1のドメインが有するルータと、前記第2のドメインが有するルータは、前記筐体内で相互に接続されることを特徴とする請求項5乃至7のいずれか一項に記載の情報処理システム。
JP2002190476A 2001-06-28 2002-06-28 情報処理システムのデータ転送方法及び情報処理システム Expired - Fee Related JP3996455B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US30222601P 2001-06-28 2001-06-28
US60/302226 2001-06-28
US10/077,144 US7159017B2 (en) 2001-06-28 2002-02-15 Routing mechanism for static load balancing in a partitioned computer system with a fully connected network
US10/077144 2002-02-15

Publications (2)

Publication Number Publication Date
JP2003114879A JP2003114879A (ja) 2003-04-18
JP3996455B2 true JP3996455B2 (ja) 2007-10-24

Family

ID=26758946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002190476A Expired - Fee Related JP3996455B2 (ja) 2001-06-28 2002-06-28 情報処理システムのデータ転送方法及び情報処理システム

Country Status (2)

Country Link
US (1) US7159017B2 (ja)
JP (1) JP3996455B2 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766360B1 (en) 2000-07-14 2004-07-20 Fujitsu Limited Caching mechanism for remote read-only data in a cache coherent non-uniform memory access (CCNUMA) architecture
US6754776B2 (en) 2001-05-17 2004-06-22 Fujitsu Limited Method and system for logical partitioning of cache memory structures in a partitoned computer system
US7380001B2 (en) * 2001-05-17 2008-05-27 Fujitsu Limited Fault containment and error handling in a partitioned system with shared resources
US6961761B2 (en) * 2001-05-17 2005-11-01 Fujitsu Limited System and method for partitioning a computer system into domains
US6862634B2 (en) 2001-06-29 2005-03-01 Fujitsu Limited Mechanism to improve performance in a multi-node computer system
US6915370B2 (en) * 2001-12-20 2005-07-05 Intel Corporation Domain partitioning in a multi-node system
US7275081B1 (en) 2002-06-10 2007-09-25 Juniper Networks, Inc. Managing state information in a computing environment
US7167479B2 (en) * 2002-06-21 2007-01-23 Thomson Licensing Multi-chassis broadcast router having a common clock
US7739403B1 (en) 2003-10-03 2010-06-15 Juniper Networks, Inc. Synchronizing state information between control units
US8782654B2 (en) 2004-03-13 2014-07-15 Adaptive Computing Enterprises, Inc. Co-allocating a reservation spanning different compute resources types
WO2005091136A1 (en) 2004-03-13 2005-09-29 Cluster Resources, Inc. System and method for a self-optimizing reservation in time of compute resources
JP3780457B2 (ja) * 2004-06-07 2006-05-31 株式会社トヨタIt開発センター 信号処理装置、方法、プログラムおよび記録媒体
US20070266388A1 (en) 2004-06-18 2007-11-15 Cluster Resources, Inc. System and method for providing advanced reservations in a compute environment
US8176490B1 (en) 2004-08-20 2012-05-08 Adaptive Computing Enterprises, Inc. System and method of interfacing a workload manager and scheduler with an identity manager
CA2586763C (en) 2004-11-08 2013-12-17 Cluster Resources, Inc. System and method of providing system jobs within a compute environment
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
US9231886B2 (en) 2005-03-16 2016-01-05 Adaptive Computing Enterprises, Inc. Simple integration of an on-demand compute environment
WO2006108187A2 (en) 2005-04-07 2006-10-12 Cluster Resources, Inc. On-demand access to compute resources
US7606241B1 (en) 2005-08-12 2009-10-20 Juniper Networks, Inc. Extending standalone router syntax to multi-chassis routers
US7552262B1 (en) 2005-08-31 2009-06-23 Juniper Networks, Inc. Integration of an operative standalone router into a multi-chassis router
US8135857B1 (en) 2005-09-26 2012-03-13 Juniper Networks, Inc. Centralized configuration of a multi-chassis router
US7747999B1 (en) 2005-09-26 2010-06-29 Juniper Networks, Inc. Software installation in a multi-chassis network device
US7518986B1 (en) 2005-11-16 2009-04-14 Juniper Networks, Inc. Push-based hierarchical state propagation within a multi-chassis network device
US7804769B1 (en) * 2005-12-01 2010-09-28 Juniper Networks, Inc. Non-stop forwarding in a multi-chassis router
US7630385B2 (en) * 2006-08-04 2009-12-08 Oyadomari Randy I Multiple domains in a multi-chassis system
US8041773B2 (en) 2007-09-24 2011-10-18 The Research Foundation Of State University Of New York Automatic clustering for self-organizing grids
US8108503B2 (en) 2009-01-14 2012-01-31 International Business Machines Corporation Dynamic load balancing between chassis in a blade center
US9465771B2 (en) 2009-09-24 2016-10-11 Iii Holdings 2, Llc Server on a chip and node cards comprising one or more of same
US20110103391A1 (en) 2009-10-30 2011-05-05 Smooth-Stone, Inc. C/O Barry Evans System and method for high-performance, low-power data center interconnect fabric
US9054990B2 (en) 2009-10-30 2015-06-09 Iii Holdings 2, Llc System and method for data center security enhancements leveraging server SOCs or server fabrics
US8599863B2 (en) 2009-10-30 2013-12-03 Calxeda, Inc. System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US20130107444A1 (en) 2011-10-28 2013-05-02 Calxeda, Inc. System and method for flexible storage and networking provisioning in large scalable processor installations
US9077654B2 (en) 2009-10-30 2015-07-07 Iii Holdings 2, Llc System and method for data center security enhancements leveraging managed server SOCs
US9876735B2 (en) 2009-10-30 2018-01-23 Iii Holdings 2, Llc Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
US9311269B2 (en) 2009-10-30 2016-04-12 Iii Holdings 2, Llc Network proxy for high-performance, low-power data center interconnect fabric
US10877695B2 (en) 2009-10-30 2020-12-29 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US9648102B1 (en) 2012-12-27 2017-05-09 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US9680770B2 (en) 2009-10-30 2017-06-13 Iii Holdings 2, Llc System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US9565094B2 (en) * 2009-11-13 2017-02-07 International Business Machines Corporation I/O routing in a multidimensional torus network
US9954760B2 (en) 2010-01-29 2018-04-24 International Business Machines Corporation I/O routing in a multidimensional torus network
JP2012181585A (ja) * 2011-02-28 2012-09-20 Seiko Epson Corp デバイスシステムおよびチップ
US9100348B2 (en) 2011-10-03 2015-08-04 Intel Corporation Managing sideband routers in on-die system fabric
US9092594B2 (en) 2011-10-31 2015-07-28 Iii Holdings 2, Llc Node card management in a modular and large scalable server system

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3516432B2 (ja) * 1997-11-18 2004-04-05 株式会社東芝 ノード装置及びパケット転送方法
US6536000B1 (en) * 1999-10-15 2003-03-18 Sun Microsystems, Inc. Communication error reporting mechanism in a multiprocessing computer system
US6678840B1 (en) * 2000-08-31 2004-01-13 Hewlett-Packard Development Company, Lp. Fault containment and error recovery in a scalable multiprocessor
US6973517B1 (en) * 2000-08-31 2005-12-06 Hewlett-Packard Development Company, L.P. Partition formation using microprocessors in a multiprocessor computer system
US6961761B2 (en) * 2001-05-17 2005-11-01 Fujitsu Limited System and method for partitioning a computer system into domains

Also Published As

Publication number Publication date
US20030007493A1 (en) 2003-01-09
JP2003114879A (ja) 2003-04-18
US7159017B2 (en) 2007-01-02

Similar Documents

Publication Publication Date Title
JP3996455B2 (ja) 情報処理システムのデータ転送方法及び情報処理システム
US6529963B1 (en) Methods and apparatus for interconnecting independent fibre channel fabrics
US6246680B1 (en) Highly integrated multi-layer switch element architecture
US7643477B2 (en) Buffering data packets according to multiple flow control schemes
US7921251B2 (en) Globally unique transaction identifiers
US6971098B2 (en) Method and apparatus for managing transaction requests in a multi-node architecture
US6862634B2 (en) Mechanism to improve performance in a multi-node computer system
US8204054B2 (en) System having a plurality of nodes connected in multi-dimensional matrix, method of controlling system and apparatus
EP1786157B1 (en) Switched integrated circuit connection architectures and techniques
US6785715B2 (en) Storage subsystem
JPH09153892A (ja) ワームホール・ネットワークにおけるメッセージ送達方法およびシステム
JP3206126B2 (ja) 分散クロスバー・スイッチ・アーキテクチャにおけるスイッチング・アレイ
US6631421B1 (en) Recursive partitioning of networks
US7218638B2 (en) Switch operation scheduling mechanism with concurrent connection and queue scheduling
US11960437B2 (en) Systems and methods for multi-branch routing for interconnected chip networks
US20230244626A1 (en) Parallel dataflow routing scheme systems and methods
US6567856B1 (en) Deadlock-free routing
US7272151B2 (en) Centralized switching fabric scheduler supporting simultaneous updates
US20020161453A1 (en) Collective memory network for parallel processing and method therefor
US20020110130A1 (en) System for routing data packets through a crossbar switch in expansion mode
JP2000172655A (ja) データ処理装置およびデータ処理方法
JP2004120642A (ja) ルータ装置、及び転送制御方法
JP2002359630A (ja) スイッチ装置およびデータ転送システム
JPH09307932A (ja) サービス制御ノード内動作制御方法
JP2001067329A (ja) ネットワーク装置およびプロセッシングシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees