JP5132689B2 - 冗長ネットワーク共有スイッチ - Google Patents

冗長ネットワーク共有スイッチ Download PDF

Info

Publication number
JP5132689B2
JP5132689B2 JP2009544186A JP2009544186A JP5132689B2 JP 5132689 B2 JP5132689 B2 JP 5132689B2 JP 2009544186 A JP2009544186 A JP 2009544186A JP 2009544186 A JP2009544186 A JP 2009544186A JP 5132689 B2 JP5132689 B2 JP 5132689B2
Authority
JP
Japan
Prior art keywords
switch
switches
communication path
client node
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009544186A
Other languages
English (en)
Other versions
JP2010515376A (ja
Inventor
ディー バリュー,ジェームズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of JP2010515376A publication Critical patent/JP2010515376A/ja
Application granted granted Critical
Publication of JP5132689B2 publication Critical patent/JP5132689B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/42Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
    • H04Q3/54Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised
    • H04Q3/545Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme
    • H04Q3/54541Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker in which the logic circuitry controlling the exchange is centralised using a stored programme using multi-processor systems
    • H04Q3/54558Redundancy, stand-by
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/1302Relay switches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/1304Coordinate switches, crossbar, 4/2 with relays, coupling field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13167Redundant apparatus

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multi Processors (AREA)
  • Small-Scale Networks (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明はコンピュータ・システムに、特に増大した帯域幅をもつコンピュータ・ネットワーク・クラスタに関する。
太い木(fat-tree)トポロジーをもって構築されたコンピュータ・クラスタ・ネットワークは非常にしばしば、大規模並列コンピュータ・システムにおけるクライアント・ノードを相互接続するために使用される。この型のトポロジーは、最終的にはクライアント・ノードにつながる幹、枝および葉をもつ構造のため、しばしば「木(tree)」と呼ばれる。さらに、太い木ネットワークは典型的には、一定の帯域幅でのクライアント・ノード間の通信を提供する。というのも、各スイッチ・レベルから次の、より高いレベルへの接続の数が直前の、より低いレベルからの接続の数と同じだからである。最低レベルは、クライアント・ノードにつながるポートをもつ「葉(leaves)」を含む。ハイパフォーマンス・コンピュータは、より高い帯域幅、信頼性を要求する本質的な機能のために、およびより高い可用性を要求する非常に多数のプロセッサを使用する応用のために、ますます使われている。これらの必要性を満たすため、従来のネットワーク・クラスタは典型的には、クライアント・ノードを分岐させる重複した太い木ネットワーク、あるいはデュアル・レール(dual-rail)・ネットワーク構成を含む。
しかしながら、この改良された機能のコストは典型的には単一レール(single-rail)・ネットワークの2倍である。
ある実施形態では、コンピュータ・クラスタ・ネットワークは、それぞれの少なくとも一つのクライアント・ノードに通信上結合された少なくとも三つのスイッチを含む。前記少なくとも三つのスイッチの少なくとも一つは、前記複数のスイッチの少なくとも他の二つを一緒に通信上結合する。
方法実施形態では、クライアント・ノードをネットワーク接続する方法が、少なくとも三つのスイッチの各スイッチをそれぞれの少なくとも一つのクライアント・ノードに通信上結合することを含む。本方法はまた、前記少なくとも三つのスイッチの少なくとも二つのスイッチを、前記少なくとも三つのスイッチのうちの少なくとも他の一つを通じて一緒に通信上結合することを含む。
本発明のいくつかの実施形態の技術的利点は、従来の単一レールの太い木ネットワークによって提供されるものよりも増加した帯域幅および冗長性を、従来のデュアル・レール・ネットワークで実現できるよりもずっと低いコストで含みうることである。さらに、さまざまな実施形態は、太い木ネットワークを管理するために開発された従来のソフトウェアを使用できることがありうる。
本発明のさまざまな実施形態が列挙される技術的利点の一部を含んでいてもよいし、全部を含んでいてもよいし、あるいは一つも含んでいなくてもよいことは理解されるであろう。さらに、本発明の他の技術的利点が、本願に含まれる図面、説明および請求項から当業者には容易に明白となりうる。
本発明およびその特徴および利点のより十全な理解のために、ここで、付属の図面との関連で下記の記述を参照する。
本発明の教示に基づく、コンピュータ・クラスタ・ネットワークの一部分の例示的な実施形態を示すブロック図である。 図1のコンピュータ・クラスタ・ネットワークの一部分の例示的な実施形態であって、過半数の16個のクライアント・ノードが冗長な通信経路によって一緒に通信上結合されているものを示すブロック図である。 図1のコンピュータ・クラスタ・ネットワークの一部分の例示的な実施形態であって、完全に冗長な通信経路が12個のクライアント・ノードのそれぞれを通信上結合しているものを示すブロック図である。 図1のコンピュータ・クラスタ・ネットワークの一部分の例示的な実施形態であって、完全に冗長な通信経路が132個のクライアント・ノードのそれぞれを通信上結合しているものを示すブロック図である。 図4Aのコンピュータ・クラスタ・ネットワークのコンピュータ・クラスタ・ネットワークの一部分を示すブロック図である。
本発明の教示によれば、改良されたネットワーク・ファブリックをもつネットワーク・クラスタおよびそのための方法が提供される。特定のネットワーク・ファブリック構成を利用することにより、特定の諸実施形態は、増加した帯域幅および冗長性を低下したコストで実現できる。本発明の実施形態およびその利点は、図面の図1ないし4を参照することによって最もよく理解される。さまざまな図面の同様な部分および対応する部分には同様の参照符号が使われている。本稿を通じて明記される個別的な例は例示的な目的のみを意図したものであり、本開示の範囲を限定することを意図したものではない。さらに、図1ないし図4の図は必ずしも縮尺通りに描かれていない。
図1は、コンピュータ・クラスタ・ネットワーク100の一部分の例示的な実施形態を示すブロック図である。コンピュータ・クラスタ・ネットワーク100は一般に、ネットワーク・ファブリック104によって相互接続された複数のクライアント・ノードを含む。のちに示されるように、本発明のいくつかの実施形態におけるネットワーク・ファブリック104は、クライアント・ノード102のそれぞれの間の冗長な通信経路を提供してもしなくてもよい。
クライアント・ノード(client nodes)102は、一般に、ネットワーク・ファブリック104を通じて互いに通信するよう動作可能な任意の好適な単数または複数の装置を指し、スイッチ、処理要素、メモリ要素または入出力要素のうちの一つまたは複数を含む。例示的な実施形態では、クライアント・ノード102はコンピュータ・プロセッサを含む。ネットワーク・ファブリック(network fabric)104は一般に、オーディオ、ビデオ、信号、データ、メッセージまたはそれらの任意の組み合わせを伝送できる任意の相互接続システムを指す。この特定の実施形態では、ネットワーク・ファブリック104は銅ケーブルで相互接続された複数のスイッチを有する。
従来式のネットワーク・ファブリックは一般に、専用のエッジ・スイッチおよび専用のコア・スイッチを含む。エッジ・スイッチはコア・スイッチをクライアント・ノードに結合し、コア・スイッチは他のコア・スイッチおよび/またはエッジ・スイッチどうしを一緒に結合する。たとえば、クライアント・ノードからのメッセージはそれぞれのエッジ・スイッチを通じて、次いでコア・スイッチを通じて、そして宛先クライアント・ノードに接続された宛先エッジ・スイッチへと経路制御されうる。コア・スイッチは定義により、クライアント・ノードには直接結合されない。本開示および付属の請求項の目的のためには、「直接結合」の用語は、いかなるスイッチまたはクライアント・ノードの介在もなしに通信上ネットワーク接続されることを意味する。一方、「結合」の用語は、何らかのスイッチまたはクライアント・ノードの介在ありまたはなしで通信上ネットワーク接続されることを意味する。通常、より高い帯域幅および冗長性を要求するシステムは、しばしば、クライアント・ノードを分岐させる重複した太い木ネットワーク(duplicate fat-tree networks stemming off the client nodes)あるいはデュアル・レール・ネットワーク構成を含む。しかしながら、この改善された機能のコストはしばしば、単一レール・ネットワークの2倍である。これは、少なくとも部分的には、2倍の数のスイッチの利用のためである。したがって、本発明の実施形態のいくつかの教示は、従来式の単一レールの太い木ネットワークによって提供されるものに対して帯域幅および冗長性を、従来式のデュアル・レール・ネットワークで実現できるよりずっと低いコストで増大させる諸方法を認識する。のちに示されるように、さまざまな実施形態において、向上された帯域幅、冗長性およびコスト効率は、従来式のアーキテクチャよりもスイッチの総数を減らし、従来式の経路制御方式に比べてスイッチ機能を増やすことによって実施されうる。そのような改善されたネットワーク・クラスタの例示的な実施形態を図2ないし図4に示す。
図2は、大半の16個のクライアント・ノードが冗長な通信経路によって通信上結合されているコンピュータ・クラスタ・ネットワークの一部の例示的な実施形態を示すブロック図である。さまざまな実施形態において、コンピューティング・クラスタ・ネットワーク200は図1のコンピューティング・クラスタ・ネットワーク100の少なくとも一部分をなしていてもよい。コンピュータ・クラスタ・ネットワーク200は、複数のスイッチ212、214、216、218、222、224、226および228を結合する複数の接続具〔コネクタ〕270を概括的に含み、クライアント・ノード102を相互接続する通信経路を概括的に提供する。この例示的な実施形態では、各クライアント・ノード232、234、236、238、240、252、244、246、248、250、252、254、256、258、260および262は、スイッチの組少なくとも二つ210および220に結合する。各スイッチ・セット210および220は仮想ネットワークの一部をなす。のちに示されるように、二つの仮想ネットワークは、大規模並列コンピュータ・システムのクライアント・ノード202を通信上結合する冗長な通信経路を提供する。
接続具270は、オーディオ、ビデオ、信号、データ、メッセージまたはそれらの任意の組み合わせを伝送することのできる任意の相互接続媒体を一般に指す。接続具270は、コンピュータ・クラスタ・ネットワーク100のスイッチ212、214、216、218、222、224、226および228とクライアント・ノード232、234、236、238、240、252、244、246、248、250、252、254、256、258、260および262を一緒に結合する。この例示的な実施形態では、接続具270は銅ケーブルである。しかしながら、いかなる好適な接続具270が使用されてもよく、たとえば、光ファイバー・ケーブルまたは回路基板上の金属トレースも含まれる。
この例示的な実施形態では、各スイッチ212、214、216、218、222、224、226および228は、複数のポート(たとえば、スイッチ212のポート272、274、276、278、280、282、284および286)と、任意のポートにはいってくるデータが任意の他のポートから出ていくことを許容する集積回路とを含む。各スイッチ212、214、216、218、222、224、226および228の少なくとも一つのポートが、そのスイッチ212、214、216、218、222、224、226および228をそれぞれのクライアント・ノードに結合する(たとえば、ポート272はスイッチ212をクライアント・ノード232に結合する)。各スイッチの少なくとも一つの他のポートはそのスイッチを別のスイッチに結合する(たとえば、ポート280はスイッチ212をスイッチ223に結合する)。この例におけるスイッチ212、214、216、218、222、224、226および228はそれぞれ8つのポートをもつ(たとえば、スイッチ212のポート272、274、276、278、280、282、284および286)が、本開示の範囲から外れることなく任意の適切な数のポートを使用してもよい。たとえば、ネットワーク・ファブリック104は、図4Aおよび図4Bに示されるように、24個のポートをもつスイッチを含んでいてもよいし、あるいは異なる数の個別ポートをもつスイッチを含んでいてもよい。
クライアント・ノード202は、図1のクライアント・ノード102に構造および機能において実質的に類似している。この特定の実施形態では、各クライアント・ノード202は、同じスイッチ212、214、216、218、222、224、226および228に結合された他のクライアント・ノードにメッセージを通信することができる。たとえば、クライアント・ノード232からのメッセージは、該メッセージを他のスイッチ214、216、218、222、224、226および228を通じて経路制御することなく、スイッチ212を通じてクライアント・ノード234、236および238の任意のものに経路制御できる。しかしながら、クライアント・ノード202どうしを一緒に結合する通信経路の少なくとも一部は、スイッチ212、214、216、218、222、224、226および228のうちの複数を通る。
スイッチ212、214、216、218、222、224、226および228の間の通信経路の経路制御〔ルーティング〕を実施するため、この例示的実施形態は、静的な経路制御表を使う。つまり、同じスイッチ212、214、216、218、222、224、226または228に直接結合されていない二つのクライアント・ノード202の間で通信されるメッセージが、少なくとも一つの所定の通信経路を含む。この例示的実施形態では、それぞれの所定の通信経路は、スイッチ・セット210または220の一方の、それぞれの起点および宛先スイッチ212、214、216、218、222、224、226または228と、他方のスイッチ・セット210または220の中間スイッチ212、214、216、218、222、224、226または228を含む。本開示および付属の請求項の目的のためには、「起点スイッチ(origin switch)」とは、特定のメッセージを通信するクライアント・ノードに直接結合されたスイッチを指し、「宛先スイッチ(destination switch)」とは、特定のメッセージを受領するクライアント・ノードに直接結合されたスイッチを指し、「中間スイッチ(middle switch)」とは、起点スイッチと宛先スイッチを通信上結合するスイッチを指す。例解すると、クライアント・ノード240からクライアント・ノード232に通信されるメッセージは、起点スイッチ214を通り、次いで中間スイッチ224を通り、次いでクライアント・ノード232に直接結合されている宛先スイッチ212を通るよう経路制御されうる。簡単のため、例示的実施形態の接続具270および静的経路制御表は、図2では、スイッチ・セット210の各起点スイッチがスイッチ・セット220のそれぞれの中間スイッチに直接対向して位置され、逆もそうである一方、特定の宛先スイッチはメッセージ宛先に依存して変わるよう、構成されている。この例示的実施形態は静的な経路制御表を使用するが、さまざまな他の実施形態が代替的に他の経路制御方式を使用してもよい。たとえば、他の実施形態は動的な経路制御表を使用してもよい。
この特定の実施形態では、クライアント・ノード202の少なくとも過半数が冗長な通信経路によって相互接続される。冗長な通信経路を提供することは、図2に示されるように、二つの仮想ネットワークを併合〔マージ〕することによって実施されうる。この二つの仮想ネットワークは共通接続具270を共有しているが、独立して機能しうる。例解すると、上記した通信経路に加えて、クライアント・ノード240からクライアント・ノード232に通信されるメッセージは、起点スイッチ224を通り、次いで中間スイッチ214を通り、次いでクライアント・ノード240に直接結合する宛先スイッチ220を通って経路制御されてもよい。このように、この例示的実施形態では、各スイッチは、個別の通信経路に依存して、起点スイッチ、中間スイッチまたは宛先スイッチとして機能しうる。ネットワーク・ファブリック104の冗長性は、コンピューティング・システム200の通信経路に利用可能な帯域幅を増加させうる。さらに、さまざまな実施形態は、太い木ネットワークを管理するために開発された従来式のソフトウェアを使用することができてもよい。
各スイッチ212、214、216、218、222、224、226または228が通信経路に依存して起点スイッチ、中間スイッチまたは宛先スイッチとして機能しうるため、この例示的実施形態は、従来式のデュアル・レール式太い木ネットワークに比べて、少なくとも部分的には、従来式の専用のコア・スイッチをなくすことによって、スイッチの総数を減らす。さまざまな実施形態において、スイッチ212、214、216、218、222、224、226または228の数の削減は、コンピュータ・クラスタ・ネットワーク200の信頼性およびコスト効率を高めうる。さまざまな他の実施形態は、本開示の教示をコア・スイッチとの関連で有利に利用しうる。たとえば、コア・スイッチは、それぞれが図2に示されるのと同様の併合された仮想ネットワークを有する複数のサブ・アレイどうしを一緒に結合してもよい。
図2の例示的な構成は、たとえ仮想ネットワークの一つに障害が発生しても、クライアント・ノード202の少なくとも過半数の間での継続した通信経路を可能にする。しかしながら、スイッチ212、214、216、218、222、224、226または228の一つに障害が発生すると、クライアント・ノード202の個々の一つへの接続性がこの例示的な構成における両方のポートにおいてだめになる。たとえば、スイッチ212が完全にだめになると、この例示的実施形態では、クライアント・ノード232はスイッチ222を通じて通信しなければならない。しかしながら、スイッチ222は、この特定の実施形態では、スイッチ212を中間スイッチとして使って、スイッチ224、226および228に経路制御する。こうして、クライアント・ノード232は、スイッチ212に障害が発生するときには、一時的に孤立させられる。短い遅延ののち、経路制御管理ソフトウェアはネットワーク・ファブリック104を構成し直して、スイッチ222からのメッセージを別の中間スイッチ(たとえば214、216または218)に経路制御し直すようにするが、走っているプログラムは遅延の間に打ち切られることもありうる。この問題に対する例示的な解決策が図3に示される。
図3は、完全に冗長な(fully redundant)通信経路が12個のクライアント・ノードのそれぞれを通信上結合している、コンピュータ・クラスタ・ネットワーク300の一部分の例示的な実施形態を示すブロック図である。すなわち、この特定の実施形態では、コンピュータ・システム300のネットワーク・ファブリックは一般に、クライアント・ノード334、336、338、340、344、346、348、350、354、356、358、360のそれぞれを、少なくとも二つの異なる通信経路と結合する。さまざまな実施形態において、コンピュータ・クラスタ・ネットワーク300は、図1のコンピュータ・クラスタ・ネットワーク100の少なくとも一部分をなしていてもよい。コンピュータ・システム300は一般に、複数のスイッチ312、314、316、318、322、324、326および328ならびに複数のクライアント・ノード302を結合する複数の接続具〔コネクタ〕370を概括的に含む。スイッチ312、314、316、318、322、324、326および328、接続具370およびクライアント・ノード302はそれぞれ、図2のスイッチ212、214、216、218、222、224、226または228、接続具270およびクライアント・ノード202に構造および機能において実質的に類似している。
図3に示されるネットワーク・ファブリック104構成は、たとえスイッチ312、314、316、318、322、324、326および328の一つに障害が発生したとしても、各クライアント・ノード334、336、338、340、344、346、348、350、354、356、358、360が他のクライアント・ノード334、336、338、340、344、346、348、350、354、356、358、360と互いに通信を維持することを可能にする。図2の例示的な実施形態とは異なり、この特定の実施形態の通信経路はどれも、スイッチとそれぞれの中間スイッチの間の直接結合に頼っていない。この特定の構成の一つの利点は、各クライアント・ノード334、336、338、340、344、346、348、350、354、356、358、360がそれぞれの他のクライアント・ノード334、336、338、340、344、346、348、350、354、356、358、360への冗長な通信経路を有するということである。こうして、スイッチ312に障害が発生したとしても、クライアント・ノード334、336および338は、コンピュータ・システム300の他の任意のクライアント・ノード340、344、346、348、350、354、356、358、360と通信を続けうる。
図2および図3の例示的実施形態は、簡単のため、8つの8ポート・スイッチおよび限られた数のクライアント・ノードを使っているが、本開示の原理は著しくより複雑なコンピュータ・システムにも適用されうる。より複雑なコンピュータ・システムの例示的な実施形態が図4Aおよび図4Bに示されている。
図4Aは、132個のクライアント・ノードのそれぞれを通信上結合する完全に冗長な通信経路をもつ、コンピュータ・クラスタ・ネットワーク400の一部分の例示的な実施形態を示すブロック図である。さまざまな実施形態において、コンピュータ・クラスタ・ネットワーク400は、図1のコンピュータ・クラスタ・ネットワーク100の少なくとも一部分をなしていてもよい。図3のコンピュータ・システム300の場合と同様、コンピュータ・クラスタ・ネットワーク400の冗長性のため、ネットワーク・スイッチまたは接続具が修理または交換中に継続した機能性が許容される。この特定の実施形態では、コンピュータ・クラスタ・ネットワーク400のネットワーク・ファブリックは、その一部を図4Bに示しているが、一般に、複数のスイッチ410およびクライアント・ノード402を結合する複数の接続具470を含む。接続具470およびクライアント・ノード402はそれぞれ、図2の接続具270およびクライアント・ノード202に構造および機能において実質的に類似している。図4Bに示されるように、スイッチ410はそれぞれ、たいていの現行技術の集積回路スイッチで典型的なように24個のポートを含む。
少なくとも24個のポートをもつスイッチを使うさまざまな実施形態は、完全に冗長なネットワークをより有望なソリューションにしうる。例解すると、図3の例示的な実施形態は、図2の例示的な実施形態に対し、クライアント・ノード数または接続性(connectivity)の25%削減をもつ。しかしながら、相対的な接続性の削減は、図4Aおよび4Bに示される24ポートのスイッチを使う構成については、8%でしかない。
コンピュータ・クラスタ・ネットワーク400のネットワーク構成は、従来式の構成の単一レールまたはデュアル・レール・ネットワークに対していくつかの利点を提供する。例解すると、144個のクライアント・ノードを従来式の単一レール・ネットワークで構成することは、典型的には、18個の24ポート・スイッチおよび288本のケーブルが要求され、スイッチのいくつかはコア・スイッチとして機能する。これは、数学的にはS×P=3Nと表せる。ここで、Sはスイッチ数、Pはスイッチ当たりのポート数、Nはクライアント・ノード数である。同様に、従来式の単一レール・ネットワークによって典型的に利用される接続具の数は数学的には(S×P)−Nとして表せる。従来式のデュアル・レール・ネットワークについては、数学的表現は典型的にはS×P=6Nとなり、一方、接続具の数は典型的には(S×P)−2Nである。従来式のデュアル・レール・ネットワークは典型的には比較する単一レール・ネットワークに対して2倍の帯域幅をもつが、デュアル・レール・ネットワークは、上の式に示されるように、典型的には2倍の数の相対的スイッチを有し、よってコストが倍になる。したがって、本発明のいくつかの実施形態の教示は、従来式の単一レール・ネットワークに対して1.2Xないし1.5Xの帯域幅の上昇を認識し、一方で、一般に、スイッチおよび接続具の数を、従来式のデュアル・レール太い木ネットワークに対して30%以上減らす。このように、さまざまな実施形態において、帯域幅の比例した増大は、比較する単一レール・ネットワークに対するコストの比例した増大よりも大きくなりうる。たとえば、コンピュータ・クラスタ・ネットワーク400は132個のクライアント・ノード402を、24個の24ポート・スイッチ410および396個の接続具470のみを使って冗長にネットワーク接続する。この特定の実施形態のネットワーク構成は、数学的には、(S×P)=4(N−S)として表せる。ここで、接続具の数は[S×(P−2)]−Nとして表される。
本発明の方法および装置の特定の実施形態が付属の図面において示され、以上の詳細な説明において記載されているが、本発明が開示されている実施形態に限定されるものでなく、付属の請求項に記載され、付属の請求項によって定義される本発明の精神から外れることなく、数多くの再構成、修正および代替ができることは理解されるであろう。
いくつかの態様を記載しておく。
〔態様1〕
通信上、冗長に結合された複数のクライアント・ノードと;
第一および第二のスイッチのセットとを有する、コンピュータ・ネットワーク・クラスタであって、
各スイッチ・セットはそれぞれ少なくとも4個のスイッチを有し、各スイッチは少なくとも8個のスイッチ・ポートを有し、前記少なくとも8個のスイッチ・ポートのうち少なくとも4個は前記複数のクライアント・ノードのうちの個々のものに直接結合され、前記少なくとも8個のスイッチ・ポートのうちの少なくとも他の4個は前記少なくとも8個のスイッチのうちの別のスイッチに直接結合され、;
前記第一のスイッチ・セットの各スイッチが、前記第二のスイッチ・セットの少なくとも一つの個別スイッチを前記第二のスイッチ・セットの別のスイッチと互いに通信上結合し、
前記第二のスイッチ・セットの各スイッチが、前記第一のスイッチ・セットの少なくとも一つの個別スイッチを前記第一のスイッチ・セットの別のスイッチと互いに通信上結合する、
コンピュータ・ネットワーク・クラスタ。
〔態様2〕
それぞれの少なくとも一つのクライアント・ノードに通信上結合された少なくとも三つのスイッチを有するコンピュータ・クラスタ・ネットワークであって、
前記少なくとも三つのスイッチの少なくとも一つは、前記複数のスイッチの少なくとも他の二つを一緒に通信上結合する、コンピュータ・クラスタ・ネットワーク。
〔態様3〕
前記少なくとも三つのスイッチのそれぞれが複数のスイッチ・ポートを有し、
前記複数のスイッチ・ポートの総数が、前記少なくとも一つのクライアント・ノードの総数の4倍以下である、
態様2記載のコンピュータ・クラスタ・ネットワーク。
〔態様4〕
前記少なくとも一つのクライアント・ノードの各クライアント・ノードが前記少なくとも一つのクライアント・ノードの他のクライアント・ノードと互いに、少なくとも二つの通信経路を通じて通信しうる、
態様3記載のコンピュータ・クラスタ・ネットワーク。
〔態様5〕
前記複数のスイッチ・ポートの総数が、前記少なくとも一つのクライアント・ノードの総数から前記少なくとも三つのスイッチの総数を引いて4をかけたもの以上である、
態様4記載のコンピュータ・クラスタ・ネットワーク。
〔態様6〕
前記少なくとも三つのスイッチが少なくとも第一のスイッチのセットおよび第二のスイッチのセットを有し、
前記第一のスイッチ・セットの各スイッチが、前記第二のスイッチ・セットの少なくとも一つの個別スイッチを前記第二のスイッチ・セットの別のスイッチと互いに通信上結合し、
前記第二のスイッチ・セットの各スイッチが、前記第一のスイッチ・セットの少なくとも一つの個別スイッチを前記第一のスイッチ・セットの別のスイッチと互いに通信上結合する、
態様3記載のコンピュータ・クラスタ・ネットワーク。
〔態様7〕
前記第二のスイッチ・セットの前記少なくとも一つの個別スイッチと、前記第一のスイッチ・セットの少なくとも一つの個別スイッチを前記第一のスイッチ・セットの別のスイッチと互いに通信上結合する前記第二のスイッチ・セットのスイッチとが同じスイッチである、態様6記載のコンピュータ・クラスタ・ネットワーク。
〔態様8〕
それぞれが前記複数のスイッチ・ポートの個別の少なくとも一つに結合された複数の接続具をさらに有する態様3記載のコンピュータ・クラスタ・ネットワークであって、
前記複数の接続具の総数が、前記複数のスイッチ・ポートの総数から前記少なくとも一つのクライアント・ノードの総数を引いたものよりも少ない、
コンピュータ・クラスタ・ネットワーク。
〔態様9〕
それぞれが前記少なくとも三つのスイッチのそれぞれの前記複数のスイッチ・ポートの個別の少なくとも一つに通信上結合された複数の接続具をさらに有する態様3記載のコンピュータ・クラスタ・ネットワークであって、
前記複数の接続具の総数が、ある接続具に通信上結合された前記複数のスイッチ・ポートの総数から前記複数のクライアント・ノードの総数を引いたもの以上である、
コンピュータ・クラスタ・ネットワーク。
〔態様10〕
前記複数の通信経路のそれぞれの最大帯域幅が一定である、態様4記載のコンピュータ・クラスタ・ネットワーク。
〔態様11〕
前記最大帯域幅が、同様のスイッチ、クライアント・ノードおよびコネクタから構築される単一レール・コンピュータ・クラスタ・ネットワークによって提供されるよりも1.2ないし1.5倍大きい、態様10記載のコンピュータ・クラスタ・ネットワーク。
〔態様12〕
コンピュータ・システムをネットワーク接続する方法であって:
少なくとも三つのスイッチの各スイッチをそれぞれの少なくとも一つのクライアント・ノードに通信上結合する段階と、
前記少なくとも三つのスイッチのうちの少なくとも二つのスイッチを、前記少なくとも三つのスイッチのうちの少なくとも他の一つを通じて一緒に通信上結合する段階とを有する、
方法。
〔態様13〕
前記少なくとも三つのスイッチのそれぞれに複数のスイッチ・ポートを設ける段階をさらに有し、
前記複数のスイッチ・ポートの総数が、前記それぞれの少なくとも一つのクライアント・ノードの総数の4倍以下である、
態様12記載の方法。
〔態様14〕
前記それぞれの少なくとも一つのクライアント・ノードの各クライアント・ノードを、前記それぞれの少なくとも一つのクライアント・ノードの他のクライアント・ノードと互いに、少なくとも二つの通信経路を通じて通信上結合する段階をさらに有する、
態様13記載の方法。
〔態様15〕
前記少なくとも三つのスイッチのそれぞれに複数のスイッチ・ポートを設ける段階が、前記それぞれの少なくとも一つのクライアント・ノードの総数から前記少なくとも三つのスイッチの総数を引いて4をかけたもの以上である総数のスイッチ・ポートを設けることを含む、
態様14記載の方法。
〔態様16〕
態様14記載の方法であって、さらに:
前記少なくとも三つのスイッチを少なくとも第一のスイッチのセットおよび第二のスイッチのセットにグループ分けし、
前記第一のスイッチ・セットの少なくとも一つのスイッチを通じて、前記第二のスイッチ・セットの少なくとも一つのスイッチを前記第二のスイッチ・セットの別のスイッチと互いに通信上結合し、
前記第二のスイッチ・セットの少なくとも一つのスイッチを通じて、前記第一のスイッチ・セットの少なくとも一つのスイッチを前記第一のスイッチ・セットの別のスイッチと互いに通信上結合することを含む、
態様14記載の方法。
〔態様17〕
態様13記載の方法であって、前記少なくとも三つのスイッチのそれぞれの前記複数のスイッチ・ポートのそれぞれに接続具を通信上結合する段階をさらに有し、
前記接続具の総数が、前記複数のスイッチ・ポートの総数から前記それぞれの少なくとも一つのクライアント・ノードの総数を引いたものよりも少ない、
方法。
〔態様18〕
態様14記載の方法であって、前記少なくとも三つのスイッチのそれぞれの前記複数のスイッチのうち2つを除いたすべてに接続具を通信上結合する段階をさらに有し、
前記接続具の総数が、ある接続具に通信上結合された前記複数のスイッチ・ポートの総数から前記複数のクライアント・ノードの総数を引いたもの以上である、
方法。
〔態様19〕
前記少なくとも二つの通信経路のそれぞれに同じ最大帯域幅容量を設けることをさらに含む、態様14記載の方法。
〔態様20〕
前記少なくとも一つのスイッチ・ポートのうちの第一のスイッチ・ポート上でメッセージを受領する段階と
前記複数のスイッチ・ポートのうちの第二のスイッチ・ポート上で前記メッセージを通信する段階とをさらに有する、
態様13記載の方法。

Claims (11)

  1. 少なくとも第一のクライアント・ノードに通信上結合された第一のスイッチと;
    少なくとも第二のクライアント・ノードに通信上結合された第二のスイッチと;
    少なくとも第三のクライアント・ノードに通信上結合された第三のスイッチであって、前記第三のスイッチは前記第一のスイッチと前記第二のスイッチを通信上一緒に結合する、第三のスイッチと;
    前記第一、第二および第三のスイッチを含む第一の通信経路であって、前記第一の通信経路は前記一つまたは複数の第一のクライアント・ノードのうちの一つを前記一つまたは複数の第三のクライアント・ノードのうちの一つに通信上結合する、第一の通信経路と;
    前記第一のスイッチを含む第二の通信経路であって、前記第二の通信経路は前記一つまたは複数の第一のクライアント・ノードのうちの一つを前記一つまたは複数の第三のクライアント・ノードのうちの一つに通信上結合する、第二の通信経路とを有するコンピュータ・クラスタ・ネットワークであって、
    前記第一のスイッチ、前記第二のスイッチおよび前記第三のスイッチのそれぞれは複数のスイッチ・ポートを有し、前記第一のスイッチ、前記第二のスイッチおよび前記第三のスイッチについての前記複数のスイッチ・ポートは前記第一のスイッチ、前記第二のスイッチおよび前記第三のスイッチについてのある総数のスイッチ・ポートを含み、前記スイッチ・ポートの総数は:
    前記少なくとも第一のクライアント・ノード;
    前記少なくとも第二のクライアント・ノード;および
    前記少なくとも第三のクライアント・ノードの総数の4倍より少ない、
    コンピュータ・クラスタ・ネットワーク。
  2. 前記第一および第二の通信経路が実質的に等しい最大帯域幅をもつ、請求項記載のコンピュータ・クラスタ・ネットワーク。
  3. コンピュータ・システムをネットワーク接続する方法であって:
    少なくとも三つのスイッチの各スイッチをそれぞれの少なくとも一つのクライアント・ノードに通信上結合する段階と、
    前記少なくとも三つのスイッチのうちの少なくとも二つのスイッチを、前記少なくとも三つのスイッチのうちの少なくとも一つの他のスイッチ使って一緒に通信上結合し;前記少なくとも三つのスイッチのそれぞれに複数のスイッチ・ポートを設け、前記少なくとも三つのスイッチの前記複数のスイッチ・ポートはある総数のスイッチ・ポートを含み、該総数は、前記それぞれの少なくとも一つのクライアント・ノードの総数の4倍以下である、段階と
    前記それぞれの少なくとも一つのクライアント・ノードの各クライアント・ノードを、前記それぞれの少なくとも一つのクライアント・ノードの他の各クライアント・ノードと、それぞれの少なくとも二つの通信経路を通じて一緒に通信上結合する段階と、
    前記それぞれの少なくとも二つの通信経路の各通信経路に実質的に等しい最大帯域幅容量を与える段階とを含む、
    方法。
  4. 第一のセットのスイッチを有するコンピュータ・ネットワーク・クラスタであって、
    前記第一のセットのスイッチは、第二のセットのスイッチの他の各スイッチに結合されており、前記第一および第二のセットのスイッチは、複数のクライアント・ノードの各クライアント・ノードを前記複数のクライアント・ノードの他の各クライアント・ノードに複数の通信経路を通じて通信上結合し、前記複数の通信経路の各通信経路は:
    前記第一のセットのスイッチの起点スイッチ、前記第二のセットのスイッチの中間スイッチおよび前記第一のセットのスイッチの宛先スイッチを含む第一の通信経路であって、前記第一のセットのスイッチの前記起点スイッチから前記第二のセットのスイッチの前記中間スイッチへ、そして前記第二のセットのスイッチの前記中間スイッチから前記第一のセットのスイッチの前記宛先スイッチへと信号が経路制御されるよう、前記複数のクライアント・ノードのそれぞれの二つを一緒に通信上結合する第一の通信経路と;
    前記第二のセットのスイッチの起点スイッチ、前記第一のセットのスイッチの中間スイッチおよび前記第二のセットのスイッチの宛先スイッチを含む第二の通信経路であって、前記第二のセットのスイッチの前記起点スイッチから前記第一のセットのスイッチの前記中間スイッチへ、そして前記第一のセットのスイッチの前記中間スイッチから前記第二のセットのスイッチの前記宛先スイッチへと信号が経路制御されるよう、前記複数のクライアント・ノードの前記それぞれの二つを一緒に通信上結合する第二の通信経路とを含む、
    コンピュータ・ネットワーク・クラスタ。
  5. 前記第二の通信経路が前記第一の通信経路とは異なる、請求項4記載のコンピュータ・ネットワーク・クラスタ。
  6. 前記第一のセットのスイッチの前記起点スイッチおよび前記第一のセットのスイッチの前記中間スイッチが一つの物理スイッチ・ユニットである、請求項4記載のコンピュータ・ネットワーク・クラスタ。
  7. 前記複数の通信経路のうちの少なくとも一つが第三の通信経路を含み、前記第三の通信経路は:
    前記第一のセットのスイッチの前記起点スイッチおよび
    前記第二のセットのスイッチの中間スイッチを含み、
    前記第三の通信経路の前記中間スイッチは前記第一の通信経路の前記中間スイッチとは異なる、
    請求項4記載のコンピュータ・ネットワーク・クラスタ。
  8. 前記第一および第二の通信経路が互いに独立して動作する、請求項4記載のコンピュータ・ネットワーク・クラスタ。
  9. 前記第一および第二の通信経路が実質的に等しい最大帯域幅をもつ、請求項4記載のコンピュータ・ネットワーク・クラスタ。
  10. 前記第一および第二の通信経路が実質的に等しい最大帯域幅をもち、
    前記実質的に等しい最大帯域幅が、実質的に同様のスイッチから構築される単一レールのコンピュータ・クラスタ・ネットワークによって提供されるより1.2ないし1.5倍大きい、
    請求項4記載のコンピュータ・ネットワーク・クラスタ。
  11. 前記第一および第二の通信経路がそれぞれ、実質的に同様のスイッチから構築される単一レールのコンピュータ・クラスタ・ネットワークによって提供されるより少なくとも1.2倍大きい最大帯域幅をもつ、
    請求項4記載のコンピュータ・ネットワーク・クラスタ。
JP2009544186A 2006-12-29 2007-12-18 冗長ネットワーク共有スイッチ Active JP5132689B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/618,196 2006-12-29
US11/618,196 US8160061B2 (en) 2006-12-29 2006-12-29 Redundant network shared switch
PCT/US2007/087947 WO2008082958A1 (en) 2006-12-29 2007-12-18 Redundant network shared switch

Publications (2)

Publication Number Publication Date
JP2010515376A JP2010515376A (ja) 2010-05-06
JP5132689B2 true JP5132689B2 (ja) 2013-01-30

Family

ID=39247240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009544186A Active JP5132689B2 (ja) 2006-12-29 2007-12-18 冗長ネットワーク共有スイッチ

Country Status (4)

Country Link
US (1) US8160061B2 (ja)
EP (1) EP2095649B1 (ja)
JP (1) JP5132689B2 (ja)
WO (1) WO2008082958A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US20080101395A1 (en) * 2006-10-30 2008-05-01 Raytheon Company System and Method for Networking Computer Clusters
US8483096B2 (en) * 2008-07-22 2013-07-09 The Regents Of The University Of California Scalable commodity data center network architecture
WO2015006568A1 (en) * 2013-07-11 2015-01-15 Plexxi Inc. Network node connection configuration
TWI607639B (zh) * 2016-06-27 2017-12-01 Chunghwa Telecom Co Ltd SDN sharing tree multicast streaming system and method
US11184245B2 (en) 2020-03-06 2021-11-23 International Business Machines Corporation Configuring computing nodes in a three-dimensional mesh topology

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05505709A (ja) 1990-03-05 1993-08-19 マサチユセツツ・インスチチユート・オブ・テクノロジー メツセージ経路指定のための拡大及び/又は分散論理クラスターを有する交換網
US5588152A (en) 1990-11-13 1996-12-24 International Business Machines Corporation Advanced parallel processor including advanced support hardware
US5495474A (en) * 1991-03-29 1996-02-27 International Business Machines Corp. Switch-based microchannel planar apparatus
US5321813A (en) * 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
US5729752A (en) 1993-02-19 1998-03-17 Hewlett-Packard Company Network connection scheme
US6468112B1 (en) 1999-01-11 2002-10-22 Adc Telecommunications, Inc. Vertical cable management system with ribcage structure
US6646984B1 (en) * 1999-03-15 2003-11-11 Hewlett-Packard Development Company, L.P. Network topology with asymmetric fabrics
US6571030B1 (en) 1999-11-02 2003-05-27 Xros, Inc. Optical cross-connect switching system
JP2001352335A (ja) * 2000-06-07 2001-12-21 Nec Corp Lan二重化システム及びそれに用いるlan二重化方法
US6591285B1 (en) * 2000-06-16 2003-07-08 Shuo-Yen Robert Li Running-sum adder networks determined by recursive construction of multi-stage networks
US20030063839A1 (en) * 2001-05-11 2003-04-03 Scott Kaminski Fault isolation of individual switch modules using robust switch architecture
US7483374B2 (en) * 2003-08-05 2009-01-27 Scalent Systems, Inc. Method and apparatus for achieving dynamic capacity and high availability in multi-stage data networks using adaptive flow-based routing
US7433931B2 (en) 2004-11-17 2008-10-07 Raytheon Company Scheduling in a high-performance computing (HPC) system
DE602005005974T2 (de) 2005-06-20 2009-06-18 Alcatel Lucent Fehlertolerante Schaltmatrix mit einer Ebene für ein Telekommunikationssystem
US20080101395A1 (en) 2006-10-30 2008-05-01 Raytheon Company System and Method for Networking Computer Clusters

Also Published As

Publication number Publication date
US8160061B2 (en) 2012-04-17
EP2095649A1 (en) 2009-09-02
JP2010515376A (ja) 2010-05-06
WO2008082958A1 (en) 2008-07-10
EP2095649B1 (en) 2014-08-20
US20080162732A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
JP5132689B2 (ja) 冗長ネットワーク共有スイッチ
US20230231799A1 (en) Data center network with packet spraying
US11469922B2 (en) Data center network with multiplexed communication of data packets across servers
US11632606B2 (en) Data center network having optical permutors
US11256644B2 (en) Dynamically changing configuration of data processing unit when connected to storage device or computing device
JP4843087B2 (ja) スイッチング帯域幅を向上させるスイッチングシステムおよび方法
US8842988B2 (en) Optical junction nodes for use in data center networks
JP3163069B2 (ja) スイッチ構造のアップグレード方法
US8103137B2 (en) Optical network for cluster computing
TW201807581A (zh) 提供平衡性能與高可用性之適應性多重路徑連線構體
WO2014066241A1 (en) Method and apparatus for implementing a multi-dimensional optical circuit switching fabric
US20040047360A1 (en) Networked computer system and method using dual bi-directional communication rings
JP5018280B2 (ja) Sonet/sdh装置
US20050050243A1 (en) Modified core-edge topology for a fibre channel network
KR100207598B1 (ko) 상호연결망으로서 파이브 채널을 사용한 클러스터시스템
US6724758B1 (en) Stage specific dilation in multi-stage interconnection networks
CN113055316B (zh) 多级交换拓扑
Choi et al. Design and performance analysis of load-distributing fault-tolerant network
Wang Survey of recent research issues in data center networking
CN114846777A (zh) 用于在工业网络中提供冗余的网络设备
Rahman et al. Crosstalk freeness of Concatenated Modified Plus-Minus 2 i photonic switching network
Sachdeva et al. Designing and Mathematical Modeling of Cost-Effective Fault-Tolerant Multistage Interconnection Network for Multiprocessor Systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5132689

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250