JP2010515997A - コンピューティング・クラスタをネットワーク化するシステム及び方法 - Google Patents

コンピューティング・クラスタをネットワーク化するシステム及び方法 Download PDF

Info

Publication number
JP2010515997A
JP2010515997A JP2009545557A JP2009545557A JP2010515997A JP 2010515997 A JP2010515997 A JP 2010515997A JP 2009545557 A JP2009545557 A JP 2009545557A JP 2009545557 A JP2009545557 A JP 2009545557A JP 2010515997 A JP2010515997 A JP 2010515997A
Authority
JP
Japan
Prior art keywords
switch
interfaces
coupled
package
motherboard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009545557A
Other languages
English (en)
Other versions
JP5384369B2 (ja
Inventor
ヴィー デイヴィッドソン,シャノン
ディー バリュー,ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Raytheon Co
Original Assignee
Raytheon Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39512566&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2010515997(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Raytheon Co filed Critical Raytheon Co
Publication of JP2010515997A publication Critical patent/JP2010515997A/ja
Application granted granted Critical
Publication of JP5384369B2 publication Critical patent/JP5384369B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/40Constructional details, e.g. power supply, mechanical construction or backplane
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/35Switches specially adapted for specific applications
    • H04L49/356Switches specially adapted for specific applications for storage area networks
    • H04L49/358Infiniband Switches

Abstract

特定の実施例では、コンピューティング・クラスタをネットワーク化する方法は、1つ以上のスイッチを通じて複数のクライアントノードのそれぞれを通信可能に相互に結合することを含み、各スイッチは、複数のスイッチポートを有する。この方法はまた、スイッチ・パッケージ(switch package)内に1つ以上のスイッチのうち少なくとも2つを配置することを含む。更に、この方法は、スイッチ・パッケージ内の1つ以上のスイッチのうち少なくとも2つの複数のスイッチポートの少なくとも一部を電気的に相互接続することを含む。

Description

本発明は、概して、コンピューティング・クラスタ(computing cluster)のネットワーク化に関し、特に、スイッチ・パッケージ(switch package)を使用したコンピューティング・クラスタのネットワーク化に関する。
高性能コンピューティングの必要性は成長し続けている。プロセッサ商品は、いくつかの問題に適用するのに十分に強力になっているが、最大の問題を解決するために、しばしば数千又は数万ものプロセッサまで拡張されなければならない。
しかし、これらのプロセッサを相互接続してコンピューティング・クラスタを形成する通常の方法は、様々な理由で問題がある。例えば、いくつかの通常の相互接続スイッチは、限られたスケーラビリティ及び耐故障特性を有しており、低コストのコンピュータ商品を不十分にしか利用しない。
特定の実施例では、コンピューティング・クラスタをネットワーク化する方法は、1つ以上のスイッチを通じて複数のクライアントノードのそれぞれを通信可能に相互に結合することを含み、各スイッチは、複数のスイッチポートを有する。この方法はまた、スイッチ・パッケージ(switch package)内に1つ以上のスイッチのうち少なくとも2つを配置することを含む。更に、この方法は、スイッチ・パッケージ内の1つ以上のスイッチのうち少なくとも2つの複数のスイッチポートの少なくとも一部を電気的に相互接続することを含む。
本発明の特定の実施例は、1つ以上の技術的利点を提供し得る。或る実施例は、高性能コンピューティング・アレイ(computing array)を構築する柔軟で最適化されたコスト効率の良い対策を提供する非常に小型のモジュール方式スイッチ・パッケージを有するネットワーク・ファブリック(network fabric)を含む。更に、或る実施例では、スイッチ・パッケージは、小型の形状因子を有してもよく、コンピュータ装置の商品と互換性のある拡張されたアクセシビリティを有してもよい。様々な実施例は、直接のコンピュータ接続より高い帯域を有するネットワーク接続をサポートし得る。
本発明の特定の実施例は、前述の利点の一部又は全てを提供してもよく、提供しなくてもよい。特定の実施例は、1つ以上の他の技術的利点を提供してもよく、この技術的利点の1つ以上は、ここに含まれる図面、説明及び特許請求の範囲から当業者に容易に明らかになり得る。
コンピュータ・クラスタの一部の例示的な実施例を示すブロック図 図1のコンピュータ・クラスタの一部を形成し得るモジュール方式ネットワーク・スイッチ・パッケージの一部の一実施例を示すブロック図 図2Aのモジュール方式ネットワーク・スイッチ・パッケージの正面の一実施例を示す側面図 図2Aのモジュール方式ネットワーク・スイッチ・パッケージの背面の一実施例を示す側面図 図1のコンピュータ・クラスタの一部を形成し得るモジュール方式ネットワーク・スイッチ・パッケージの一部の一実施例を示すブロック図 図3Aのモジュール方式ネットワーク・スイッチ・パッケージの正面の一実施例を示す側面図 図3Aのモジュール方式ネットワーク・スイッチ・パッケージの背面の一実施例を示す側面図
本発明及びその利点の完全な理解のため、添付図面と共に以下の説明に言及が行われる。
本発明の教示に従って、コンピュータ・クラスタをネットワーク化するシステム及び方法が提供される。モジュール方式スイッチ・パッケージを利用することにより、特定の実施例は、高性能コンピューティング・アレイを構築する柔軟で最適化されたコスト効率の良い対策を提供し得る。本発明の実施例及びその利点は、図1〜3Cを参照することにより最も良く理解できる。図面において、同様の数字が、様々な図面の同様の及び対応する部分について使用されている。この文献を通じて示されている特定の例は、例示目的に過ぎず、この開示の範囲を限定することを意図しない。更に、図1〜3Cの図は、必ずしも縮尺通りに示されていない。
図1は、コンピューティング・クラスタ100の一部の例示的な実施例を示すブロック図である。一般的には、コンピューティング・クラスタ100は、ネットワーク・ファブリック104により相互接続された複数のクライアントノード102を含む。以下に示すように、本発明のある実施例では、ネットワーク・ファブリック104は、複数のクライアントノード102のそれぞれで結合されたコンピュータ商品を使用して大規模な耐障害性のある高性能なコンピューティング・クラスタを構築するために使用され得る複数の標準的な小型のモジュール方式スイッチ・パッケージを含んでもよい。
一般的には、クライアントノード102は、ネットワーク・ファブリック104を通じて相互に通信するように動作可能な何らかの適切な装置を示し、スイッチと処理要素とメモリ要素とI/O要素とのうち1つ以上を含む。例示的な実施例では、クライアントノード102は、コンピュータ商品を含む。一般的には、ネットワーク・ファブリック104は、音声、ビデオ、信号、データ、メッセージ又はこれらの何らかの組み合わせを伝送することができる何らかの相互接続システムを示す。この特定の実施例では、ネットワーク・ファブリック104は、銅ケーブルにより相互接続された複数のスイッチを有する。
一般的に、スーパーコンピュータ及びファットツリー(fat-tree)ネットワーク・クラスタは、大規模コンピューティングの問題を解決するために使用される。或るコンピューティング・クラスタは、最大の問題を解決するために、数千及び数万ものプロセッサまで拡張される。典型的には、通常のネットワーク・コンピューティング・アレイは、複数のネットワーク・アレイ・スイッチを含み、各スイッチは、パッケージの一方に物理的に配置された24ポートのコネクタを有するラック取り付け可能な1U筐体内に個別にパッケージ化される。更に、典型的には、通常のコンピューティング・ネットワークは、ファットツリー・アーキテクチャを使用して形成される。しかし、このような通常のコンピューティング・クラスタは、様々な理由で問題がある。例えば、この種類のネットワーク・ファブリックは、典型的にはうまくスケーリングせず、1つには長いケーブル長のため、限られた性能を有し、典型的には短い平均故障時間(MTBF:mean time between failure)を有し、しばしばコストがかなり高くなる。
従って、本発明の或る実施例の教示は、かなり小型のモジュール方式パッケージを含むネットワーク・ファブリックが、コンピュータ商品を使用した高性能のコンピューティング・アレイを構築するための柔軟で最適化されたコスト効率の良い対策を提供し得ることを認識した。様々な実施例では、モジュール方式スイッチ・パッケージは、スイッチ・パッケージの内部及び外部にネットワーク接続のある多次元のメッシュ・ネットワーク・アレイをサポートしてもよい。これにより、外部ケーブルの数を低減し、ネットワーク・ファブリックの空間要件を低減する。更に、様々な実施例のネットワーク接続は、直接のコンピュータ接続より高い帯域をサポートしてもよい。以下に示すように、或る実施例のスイッチ・パッケージは、拡張したスイッチ密度及びアクセシビリティを有してもよい。これにより、コンピュータ装置の商品に利用可能な空間を最大化する。様々な実施例では、スイッチ・パッケージは、様々なネットワーク・クラスタ・アーキテクチャのいずれかをサポートするように構成され得るという点で、モジュール方式である。
本発明の教示によれば、或る実施例では、これらの利点のうち特定のものは、複数のスイッチをスイッチ・パッケージ内に収容し、スイッチ・パッケージ内で各スイッチを相互に通信可能に結合し、スイッチ・パッケージの反対側にスイッチへのインタフェースを提供することにより実現される。更に、或る実施例では、これらの利点のうち特定のものは、1つ以上のモジュール方式ドーターカード(daughter card)を各スイッチ・パッケージに結合することにより実現される。ドーターカードは、特定のニーズに対して構成可能である。
例えば、単一レール(single-rail)、一次元及び/又は二次元のネットワーク・クラスタ・アーキテクチャをサポートするように動作可能なモジュール方式スイッチ・パッケージの例示的な実施例は、図2A〜2Cに示されており、図3A〜3Cは、例えば、二次元又は三次元のネットワーク・アーキテクチャをサポートするように動作可能なモジュール方式スイッチ・パッケージの例示的な実施例を示している。
図2Aは、図1のネットワーク・ファブリック104の一部を形成し得るモジュール方式ネットワーク・スイッチ・パッケージ200の一部の一実施例を示すブロック図である。一般的に、スイッチ・パッケージ200は、非常に大規模な耐障害性のある高性能のコンピューティング・クラスタ(図1のコンピューティング・クラスタ100等)を構築するために使用され得る標準的な小型のネットワーク・スイッチを提供する。この特定の実施例では、スイッチ・パッケージ200は、例えば、二重レール(dual-rail)、一次元及び/又は二次元のネットワーク・クラスタ・アーキテクチャをサポートするように動作可能である。一般的に、スイッチ・パッケージ200は、共通のマザーボード202に取り付けられた以下の構成要素を含む。すなわち、各スイッチ・レセプタ(switch receptor)206に結合された複数のスイッチ204と、各ドーターカード・レセプタ(daughter card receptor)210に結合された1つ以上のドーターカード208と、複数のインタフェース212とを含む。以下に説明するように、様々な実施例では、スイッチ・パッケージ200及び関連する構成要素(複数のスイッチ204のノードを含む)は、筐体の両側にインタフェースを有する標準的な1U筐体内に全て収まってもよい。このような実施例では、1U筐体は、標準的な19インチの装置ラックに横向きに実装するように動作可能でもよい。更に、このような実施例は、典型的には標準的な1U筐体のために設けられている空間に関連するルーティング密度(routing density)及びネットワーキング機能をかなり拡張し得る。1U筐体の例示的な物理レイアウトの更に詳細な説明は、図2B、2C、3B及び3Cを参照して以下に詳細に説明する。
一般的に、マザーボード202は、電子システムの少なくとも一部を共に構成するコネクタ214とレセプタ206及び210とを有する何らかの適切な回路基板を示す。一般的に、コネクタ214は、音声、ビデオ、信号、データ、メッセージ又はこれらの何らかの組み合わせを伝送することができる何らかの相互接続媒体を示す。この特定の実施例では、コネクタ214は、図示のようにスイッチ・レセプタ206とドーターカード・レセプタ210とインタフェース212とを電気的に結合する通信可能な経路又はトレース(trace)である。簡単にするために単一の線として図示しているが、この特定の実施例では、各コネクタ214は、実際には3つの独立したコネクタを有する。例えば、コネクタ214は、フォトリソグラフィー技術を使用してマザーボード202の表面に形成されてもよい。一般的に、スイッチ・レセプタ206及びドーターカード・レセプタ210は、それぞれスイッチ204及びドーターカード208を収容して電気的に結合するように動作可能な実装面又はソケットを示す。
一般的に、スイッチ204は、各スイッチポートの間で何らかの音声、ビデオ、信号、データ、メッセージ又はこれらの何らかの組み合わせをルーティングすることができる何らかの装置を示す。この特定の例示的な実施例では、スイッチ204a及び204bは、それぞれスイッチ・レセプタ206a及び206bに実装されたそれぞれ24ポートのInfinibandスイッチである。しかし、何らかの適切なスイッチ又はルータが使用されてもよい。各スイッチ204a及び204bは、各スイッチポートの間での通信を可能にする集積回路を有する。例えば、スイッチ204aは、コネクタ214dからコネクタ214cにデータをルーティングしてもよい。この例でのスイッチ204はそれぞれ24ポートを有するが、この開示の範囲を逸脱することなく、如何なる適切な数のポートが使用されてもよい。コネクタ214cは、スイッチ204a及び204bの間での通信を可能にし、スイッチ・パッケージ200の内部の通信を可能にする。従って、スイッチノード204a及び204bは、外部インタフェース212及び関連するケーブルを使用せずに通信することができる。これは、帯域の性能を拡張し、ネットワーク・ファブリック104の実装を簡単にする。コネクタ214a、214b及び214dは、各スイッチ204と複数のインタフェース212との間の通信を可能にする。
一般的に、インタフェース212は、スイッチ・パッケージ200が外部と通信することを可能にする。この特定の実施例では、インタフェース212は、24個のクライアント・インタフェース212a及び212bと、4つのネットワーク・インタフェース212c及び212dとを含むが、如何なる適切な数のインタフェースが使用されてもよい。各クライアント・インタフェース212a及び212bは、コンピュータ商品に結合可能な4X Infinibandポートである。しかし、他の種類のインタフェースが使用されてもよい。更に、各4X Infinibandポートは、各24ポート・スイッチ204の1つのポートに関連する。しかし、以下に説明するように、代替として、インタフェース212a及び212bは、例えば、高密度用の12X Infinibandコネクタ又は他の適切なコネクタを使用してもよい。各ネットワーク・インタフェース212c、212d、212e及び212fは、他のスイッチ・パッケージに結合可能な12X Infinibandポートである。しかし、他の種類のインタフェースが使用されてもよい。各12X Infinibandポートは、各スイッチ204a又は204bの3つのスイッチポートに関連する。この特定の例の構成では、ドーターカード208はマザーボード202上に実装し、2つの更なるネットワーク・インタフェース212e及び212fを提供する。各インタフェース212e及び212fは12X Infinibandポートである。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。
一般的に、ドーターカード208は、ドーターカード・レセプタ210に結合可能な何らかの二次回路基板を示す。この特定の実施例では、ドーターカード・レセプタ210は、様々なドーターカード208のいずれかを収容するように動作可能であり、従って、何らかの特定のニーズ又はネットワーク・アーキテクチャに対して構成又は最適化され得るモジュール方式スイッチ・パッケージ200を提供する。図3Aを参照して以下に説明するように、様々な実施例のドーターカード208は、ドーターカード208に実装された1つ以上のスイッチを含んでもよい。しかし、この特定の実施例では、ドーターカード208は、インタフェース212e及び212fとコネクタ214a及び214bとの間の通信をそれぞれ可能にするコネクタ216a及び216bを有する。様々な他の実施例は、ドーターカード208及び関連するドーターカード・レセプタ210を含まなくてもよい。例えば、様々な他の実施例では、コネクタ214a及び214bは、ドーターカード208内のコネクタ216a及び216bに結合せずに、それぞれインタフェース212e及び214fに直接結合してもよい。このような実施例では、例えば、コネクタ216a及び216bは、マザーボード202上のトレースでもよい。
図2Aに示すように、インタフェース212c、212d、212e及び212fは、インタフェース212a及び212bからスイッチ・パッケージ200の反対側に物理的に配置されている。従って、この特定の実施例では、インタフェース212の密度を最大化するために、スイッチ・パッケージ200の2つの異なる側面がコネクタに使用される。インタフェース212の物理レイアウトの例示的な実施例は、それぞれ図2B及び2Cに示されている。
図2Bは、図2Aのモジュール方式ネットワーク・スイッチ・パッケージ200の正面の一実施例を示す側面図である。この特定の実施例では、スイッチ・パッケージ200は、標準的な19インチの装置ラックに横向きに実装するように動作可能な標準的な1U筐体内に収まる。マザーボード202、ドーターカード208及びスイッチ204のそれぞれは、スイッチ・パッケージ200の1U筐体内に収まる。図2Bに示すように、一般的に、スイッチ・パッケージ200の正面は、他のスイッチ・パッケージへの接続を提供するようにそれぞれ動作可能な6個の12X Infinibandインタフェース212c、212d、212e及び212fを含む。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。様々な実施例では、複数の相互接続されたスイッチ・パッケージ200は、図1のネットワーク・アレイ・ファブリック104の少なくとも一部を形成してもよい。図2Cに示すように、一般的に、スイッチ・パッケージ200の背面は、コンピュータ(明示的に図示せず)のHCAポートへの接続を提供するようにそれぞれ動作可能な24個の4X Infinibandクライアント・インタフェース212a及び212bを含む。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。様々な実施例では、コンピュータは、同じ装置ラックに実装されてもよい。この特定の実施例では、スイッチ・パッケージ200の背面も、2つの電源ジャック260を含む。
スイッチ・パッケージ200は、様々なネットワーク・アーキテクチャのいずれかをサポートしてもよい。例えば、スイッチ・パッケージ200は、ネットワーク・インタフェース212c、212d、212e及び212fを使用してスイッチ・パッケージ200を他の同様に構成されたスイッチ・パッケージ200に相互接続することにより、二次元及び/又は二重レールのアーキテクチャをサポートしてもよい。しかし、様々な他の実施例は、他のネットワーク・アーキテクチャをサポートする代替のスイッチ・パッケージ200の構成を使用してもよい。例えば、スイッチ・パッケージ200は、他の同様に構成されたスイッチ・パッケージ200と相互接続し、一次元のネットワーク・アーキテクチャを形成してもよい。一次元のネットワーク・アーキテクチャは、単一の軸に沿って正及び負の方向に理論的に延びる個々のスイッチノード204a及び204bを有してもよい。例えば、或る実施例では、スイッチ204a及び204bは、それぞれインタフェース212e及び212fを通じて他のそれぞれのスイッチ・パッケージ200と通信してもよい。残りのインタフェース212a、212b、212c及び212dは、合計で36個の4X Infiniband接続を含み、一次元のネットワーク構成で各スイッチ204a及び204bが18個のクライアントノードまでと通信することを可能にしてもよい。しかし、4X Infiniband以外の接続が使用されてもよい。
一実施例では、スイッチ・パッケージ200は、スイッチ・パッケージ200の筐体の内部及び外部の双方で、ネットワーク接続との多次元アレイをサポートする。モジュール方式ドーターカード・レセプタ210及び関連するドーターカード208は、図2Aに示すものより複雑な代替構成を可能にする。例えば、様々な他の実施例では、スイッチ・パッケージ200は、代替として、図3A及び3Bに示すように、三次元ネットワーク・アーキテクチャを更にサポートするように動作可能なドーターカード208で構成されてもよい。
図3Aは、図1のネットワーク・ファブリック104の一部を形成し得るモジュール方式ネットワーク・スイッチ・パッケージ300の一部の一実施例を示すブロック図である。この特定の実施例は、スイッチ・パッケージ300が様々なネットワーク構成(例えば、二重レール、二次元及び/又は三次元のネットワーク・クラスタ・アーキテクチャを含む)を好都合にサポートするという点で、図2Aに示す例示的な実施例と異なる。一般的に、スイッチ・パッケージ300は、非常に大規模な耐障害性のある高性能のコンピューティング・クラスタ(図1のコンピューティング・クラスタ100等)を構築するために使用され得る標準的な小型のネットワーク・スイッチを提供する。一般的に、スイッチ・パッケージ300は、共通のマザーボード302に結合された以下の構成要素を含む。すなわち、各スイッチ・レセプタ306に結合された複数のスイッチ304と、各ドーターカード・レセプタ310に結合された1つ以上のドーターカード308と、複数のインタフェース312とを含む。以下に説明するように、様々な実施例では、スイッチ・パッケージ300及び関連する構成要素(複数のスイッチ304のノードを含む)は、筐体の両側にインタフェースを有する標準的な1U筐体内に全て収まってもよい。このような実施例では、1U筐体は、標準的な19インチの装置ラックに横向きに実装するように動作可能でもよい。更に、このような実施例は、典型的には標準的な1U筐体のために設けられている空間に関連するルーティング密度及びネットワーキング機能をかなり拡張し得る。1U筐体の例示的な物理レイアウトの更に詳細な説明は、図3B及び3Cを参照して以下に詳細に説明する。
図3A及び図2Aの例示的な実施例の間の1つの違いは、ドーターカード308及び各インタフェース312e、312f、312g及び312hの構成である。スイッチ・パッケージ300の他の特徴は、スイッチ・パッケージ200のそれぞれの特徴と実質的に類似する。すなわち、マザーボード302、ドーターカード・レセプタ310、スイッチ304、スイッチ・レセプタ306、コネクタ314a、314b、314c及び314d並びにインタフェース312a、312b、312c及び312dは、それぞれ図2Aのマザーボード202、ドーターカード・レセプタ210、スイッチ204、スイッチ・レセプタ206、コネクタ214a、214b、214c及び214d並びにインタフェース212a、212b、212c及び212dと構成及び機能上で実質的に類似する。様々な他の実施例は、モジュール方式ドーターカード208及び関連するドーターカード・レセプタ210を含まなくてもよい。例えば、様々な他の実施例では、コネクタ314a及び314bは、ドーターカード208内のコネクタ316に通信可能に結合せずに、それぞれスイッチ・レセプタ352a及び352b及び/又はスイッチ350a及び350bに通信可能に結合してもよい。このような実施例では、例えば、コネクタ310は、単にマザーボード302上のトレースでもよい。
図3Aの例示的な実施例では、図2Aの基本設計をドーターカード308の印刷回路基板に再現することにより、三次元のネットワーク・アーキテクチャのサポートが行われてもよい。すなわち、ドーターカード308は、スイッチ・レセプタ352a及び352bによりコネクタ310に結合された2つの24ポートのInfinibandスイッチ350a及び350bを含む。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。更に、ドーターカード308は、スイッチ350a及び350bをそれぞれインタフェース312g及び312hに結合しており、これにより、スイッチ・パッケージ200のネットワーク接続性に対してスイッチ・パッケージ300のネットワーク接続性を2倍にする。動作中に、各スイッチ304a、304b、350a及び350bは、スイッチ・パッケージ300内でスイッチチ304a、304b、350a及び350bと相互に通信してもよい。更に、各スイッチ304a、304b、350a及び350bは、各インタフェース312c、312d、312e及び312fを通じて6個までのクライアントノードと通信してもよい。インタフェース312の物理レイアウトの例示的な実施例は、それぞれ図3B及び3Cに示されている。
図3Bは、図3Aのモジュール方式ネットワーク・スイッチ・パッケージ300の正面の一実施例を示す側面図である。この特定の実施例では、スイッチ・パッケージ200は、標準的な19インチの装置ラックに横向きに実装するように動作可能な標準的な1U筐体を有する。マザーボード302、ドーターカード308並びにスイッチ304及び350のそれぞれは、スイッチ・パッケージ300の1U筐体内に収まってもよい。図3Bに示すように、一般的に、スイッチ・パッケージ300の正面は、他のネットワーク・スイッチ・パッケージへの接続を提供するようにそれぞれ動作可能な6個の12X Infinibandインタフェース312a、312b、312g及び312hを含む。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。図3Cに示すように、一般的に、スイッチ・パッケージ300の背面は、コンピュータ(明示的に図示せず)のHCAポートへの接続を提供するようにそれぞれ動作可能な24個の4X Infinibandクライアント・インタフェース212c及び212d、212e及び212eを含む。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。様々な実施例では、コンピュータは、同じ装置ラックに実装されてもよい。
スイッチ・パッケージ300は、様々なネットワーク・クラスタ・アーキテクチャのいずれかで構成及び相互接続されてもよい。例えば、スイッチ・パッケージ300の一部は、三次元の二重レールのネットワークのネットワークノードを構成するために使用されてもよい。更に、スイッチ・パッケージ300は、他の同様に構成されたスイッチ・パッケージ300と相互接続し、三次元のメッシュ・ネットワーク・アーキテクチャを形成してもよい。三次元のメッシュ・ネットワーク・アーキテクチャは、3つの直交軸X、Y及びZに沿って正及び負の方向に理論的に延びる個々のスイッチノード350a、350b、304a及び304bを有してもよい。例えば、或る実施例では、スイッチ304bは、インタフェース312aを使用して理論的なX-Y平面で4つの他のスイッチと通信してもよい。4つの他のスイッチは、1つ以上の他の同様に構成されたスイッチ・パッケージ300内にある。スイッチ304aはまた、それぞれ正及び負のZ方向にスイッチ304b及び350aと通信してもよい。スイッチ304bの残りのスイッチポートのうち6個までが、インタフェース312dを通じて6個のクライアント102と接続するために使用されてもよい。
様々な他の実施例では、スイッチ・パッケージ300は、他の同様に構成されたスイッチ・パッケージ300と相互接続し、二次元のメッシュ・ネットワーク・アーキテクチャを形成してもよい。二次元のメッシュ・ネットワーク・アーキテクチャは、2つの直交軸X及びYに沿って正及び負の方向に理論的に延びる個々のスイッチノード350a、350b、304a及び304bを有してもよい。例えば、或る実施例では、スイッチ304bは、理論的なX-Y平面で4つのスイッチと通信してもよい。4つのスイッチのうち2つ350b及び304aはスイッチ・パッケージ300の内部にあり、他の2つのスイッチは、1つ以上の他の同様に構成されたスイッチ・パッケージ300内にある。このような実施例では、スイッチ・パッケージ300内の通信は、例えば、各インタフェース312c、312d、312e及び312fの2つの12X Infinibandコネクタを使用して行われてもよい。しかし、他の種類及び/又は他の数のインタフェースが使用されてもよい。更に、各スイッチ・パッケージ300と48個までのそれぞれ結合されたクライアントノード102との間の通信は、例えば、各インタフェース312c、312d、312e及び312fの16個までの12X Infinibandコネクタを使用して行われてもよい。しかし、他の種類及び/又は数のインタフェースが使用されてもよい。このような構成では、半分のネットワークコネクタがスイッチ・パッケージ300の内部にある。典型的には、スイッチ筐体の物理サイズはインタフェースに必要な空間により決定されるため、このような実施例は、2の係数だけスイッチ・パッケージ300の全体サイズを低減する。更に、様々な実施例では、このような二次元ネットワーク・アーキテクチャは、相互接続ケーブルの長さを最小にしつつ、ほとんど如何なるサイズまででも線形的に拡大可能である。これは、長距離の銅ケーブルが選択できず、光ファイバ接続が非常に高価である2倍のデータレート(Double Data Rate)及び4倍のデータレート(Quad Data Rate)のネットワークで非常に望ましい。
複数の実施例で本発明について説明したが、様々な変形、置換、変更及び代替が当業者に示唆され、本発明は、特許請求の範囲内に入るこのような全ての変形、置換、変更及び代替を含むことを意図する。

Claims (20)

  1. コンピューティング・クラスタをネットワーク化する方法であって、
    1つ以上のスイッチを通じて複数のクライアントノードのそれぞれを通信可能に相互に結合し、各スイッチは、複数のスイッチポートを有し、
    スイッチ・パッケージ内に前記1つ以上のスイッチのうち少なくとも2つを配置し、
    前記スイッチ・パッケージ内の前記1つ以上のスイッチのうち前記少なくとも2つの複数のスイッチポートの少なくとも一部を電気的に相互接続することを有する方法。
  2. 前記スイッチ・パッケージに複数のインタフェースを提供することを更に有し、
    前記複数のインタフェースのうち少なくとも2つは、前記スイッチ・パッケージの反対側に配置される、請求項1に記載の方法。
  3. 前記スイッチ・パッケージに少なくとも1つのモジュール方式カード・レセプタを提供し、
    前記少なくとも1つのモジュール方式カード・レセプタのそれぞれにモジュール方式カードを結合することを更に有する、請求項1に記載の方法。
  4. 複数の前記スイッチ・パッケージを相互接続し、多次元のネットワーク・アーキテクチャを形成することを更に有する、請求項3に記載の方法。
  5. 前記多次元のネットワーク・アーキテクチャは、二次元、三次元、二次元の二重レール及び三次元の二重レールを有するグループから選択される、請求項4に記載の方法。
  6. 複数の前記スイッチ・パッケージを提供し、
    前記複数のスイッチ・パッケージのうち少なくとも1つを通じて各通信経路をルーティングすることを更に有する、請求項1に記載の方法。
  7. 前記複数のスイッチ・パッケージの少なくとも一部を装置ラック内に実装し、
    前記複数のクライアントノードのうち少なくとも1つを前記装置ラック内に実装することを更に有する、請求項6に記載の方法。
  8. 前記複数のクライアントノードのうち前記少なくとも1つと、前記複数のスイッチ・パッケージの前記少なくとも一部のうち少なくとも1つのスイッチ・パッケージとの間で第1の帯域で通信し、
    前記複数のスイッチ・パッケージの前記少なくとも一部のうち前記少なくとも1つのスイッチ・パッケージと、前記複数のスイッチ・パッケージの前記少なくとも一部のうち少なくとも1つの他のスイッチ・パッケージとの間で前記第1の帯域より大きい第2の帯域で通信することを更に有する、請求項7に記載の方法。
  9. 第2の帯域で通信することは、Infiniband、Infinibandの2倍のデータレート、Infinibandの4倍のデータレート及び10GigEを有するグループからの通信リンクを使用して通信することを有する、請求項8に記載の方法。
  10. マザーボードと、
    前記マザーボードに結合された複数のインタフェースと、
    前記マザーボードに結合された複数のスイッチ・レセプタと、
    前記マザーボードに結合された1つ以上のドーターカード・レセプタと、
    前記マザーボードに結合された1つ以上の第1の伝導管であり、前記複数のスイッチ・レセプタのそれぞれを相互と通信可能にそれぞれ結合する第1の伝導管と、
    前記マザーボードに結合された1つ以上の第2の伝導管であり、各スイッチ・レセプタを前記複数のインタフェースの少なくとも一部と通信可能にそれぞれ結合する第2の伝導管と、
    前記マザーボードに結合された1つ以上の第3の伝導管であり、各スイッチ・レセプタを前記1つ以上のドーターカード・レセプタのそれぞれと通信可能にそれぞれ結合する第3の伝導管と、
    前記マザーボードに結合された1つ以上の第4の伝導管であり、前記1つ以上のドーターカード・レセプタを前記複数のインタフェースの少なくとも一部と通信可能にそれぞれ結合する第4の伝導管と
    を有するモジュール方式コンピュータ・ネットワーク・スイッチ・パッケージ。
  11. 前記複数のスイッチ・レセプタのそれぞれにそれぞれ結合された複数のスイッチを更に有する、請求項10に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  12. 前記1つ以上のドーターカード・レセプタのそれぞれにそれぞれ結合された1つ以上のドーターカードを更に有する、請求項10に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  13. 前記1つ以上のドーターカードのうち各ドーターカードは、1つ以上のスイッチ・レセプタと、それぞれ1つ以上のスイッチ・レセプタにそれぞれ結合された1つ以上のスイッチとを有する、請求項12に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  14. 前記マザーボード及び前記1つ以上のドーターカードのそれぞれは、装置ラックの1U筐体内に実装可能である、請求項13に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  15. 前記複数のインタフェースのうち少なくとも1つは、コンピュータ商品に接続可能であり、前記コンピュータ商品は、前記装置ラック内に実装可能である、請求項10に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  16. 前記複数のインタフェースの第1の部分は、ネットワーク接続の使用をサポートし、
    前記複数のインタフェースの第2の部分は、クライアントノード接続の使用をサポートする、請求項10に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  17. 前記複数のインタフェースの前記第1の部分のうち少なくとも1つのインタフェースは、前記複数のインタフェースの前記第2の部分のうち少なくとも1つのインタフェースより大きい帯域をサポート可能である、請求項16に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  18. 前記複数のインタフェースの前記第1の部分は、Infiniband、Infinibandの2倍のデータレート、Infinibandの4倍のデータレート及び10GigEを有するグループから選択された接続をサポートする、請求項16に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  19. 前記複数のインタフェースの前記第1の部分のうち少なくとも1つのインタフェースは、前記複数のインタフェースの前記第2の部分のうち少なくとも1つのインタフェースから前記スイッチ・パッケージの反対側に配置される、請求項16に記載のコンピュータ・ネットワーク・スイッチ・パッケージ。
  20. ネットワーク・ファブリックを通じて相互に通信可能に結合された複数のクライアントノードを有するコンピュータ・クラスタ・ネットワークであって、
    前記ネットワーク・ファブリックは、1つ以上のモジュール方式スイッチ・パッケージを有し、
    各モジュール方式スイッチ・パッケージは、
    マザーボードと、
    前記マザーボードに結合された複数のインタフェースであり、前記複数のインタフェースのうち少なくとも2つは、前記スイッチ・パッケージの反対側に配置された複数のインタフェースと、
    前記マザーボードに結合された複数のスイッチ・レセプタと、
    前記マザーボードに結合された1つ以上のドーターカード・レセプタと、
    前記マザーボードに結合された1つ以上の第1の伝導管であり、前記複数のスイッチ・レセプタのそれぞれを相互と通信可能にそれぞれ結合する第1の伝導管と、
    前記マザーボードに結合された1つ以上の第2の伝導管であり、各スイッチ・レセプタを前記複数のインタフェースの少なくとも一部と通信可能にそれぞれ結合する第2の伝導管と、
    前記マザーボードに結合された1つ以上の第3の伝導管であり、各スイッチ・レセプタを前記1つ以上のドーターカード・レセプタのそれぞれと通信可能にそれぞれ結合する第3の伝導管と、
    前記マザーボードに結合された1つ以上の第4の伝導管であり、前記1つ以上のドーターカード・レセプタを前記複数のインタフェースの少なくとも一部と通信可能にそれぞれ結合する第4の伝導管と、
    前記複数のスイッチ・レセプタのそれぞれにそれぞれ結合された複数のスイッチであり、各スイッチは、複数のスイッチポートを有し、前記複数のスイッチポートの少なくとも一部は、前記複数のクライアントノードのうち1つ以上に直接結合される複数のスイッチと、
    前記1つ以上のドーターカード・レセプタのそれぞれにそれぞれ結合された1つ以上のドーターカードと
    を有するコンピュータ・クラスタ・ネットワーク。
JP2009545557A 2007-01-12 2007-12-19 コンピューティング・クラスタをネットワーク化するシステム及び方法 Active JP5384369B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/622,921 US8144697B2 (en) 2007-01-12 2007-01-12 System and method for networking computing clusters
US11/622,921 2007-01-12
PCT/US2007/088091 WO2008088651A2 (en) 2007-01-12 2007-12-19 System and method for networking computing clusters

Publications (2)

Publication Number Publication Date
JP2010515997A true JP2010515997A (ja) 2010-05-13
JP5384369B2 JP5384369B2 (ja) 2014-01-08

Family

ID=39512566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009545557A Active JP5384369B2 (ja) 2007-01-12 2007-12-19 コンピューティング・クラスタをネットワーク化するシステム及び方法

Country Status (4)

Country Link
US (1) US8144697B2 (ja)
EP (1) EP2100415B1 (ja)
JP (1) JP5384369B2 (ja)
WO (1) WO2008088651A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945050B (zh) * 2010-09-25 2014-03-26 中国科学院计算技术研究所 一种基于胖树结构的动态容错方法和系统
US9762505B2 (en) * 2014-01-07 2017-09-12 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Collaborative route reservation and ranking in high performance computing fabrics
US9391845B2 (en) * 2014-09-24 2016-07-12 Intel Corporation System, method and apparatus for improving the performance of collective operations in high performance computing

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230434A (ja) * 1994-02-18 1995-08-29 Gijutsu Kenkyu Kumiai Shinjiyohou Shiyori Kaihatsu Kiko 相互結合網装置
US5790546A (en) * 1994-01-28 1998-08-04 Cabletron Systems, Inc. Method of transmitting data packets in a packet switched communications network
JP2001256204A (ja) * 2000-03-10 2001-09-21 Hitachi Ltd 多次元クロスバーネットワークおよび並列計算機システム
JP2002057419A (ja) * 2000-08-14 2002-02-22 Fujitsu Ltd 情報処理装置
JP2004120042A (ja) * 2002-09-24 2004-04-15 Toshiba Corp 二重系データ伝送システム
JP2006146391A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd マルチプロセッサシステム
US7061907B1 (en) * 2000-09-26 2006-06-13 Dell Products L.P. System and method for field upgradeable switches built from routing components
EP1737253A1 (en) * 2005-06-20 2006-12-27 Alcatel Fault tolerant single plane switch fabric for a telecommunication system
US7406038B1 (en) * 2002-04-05 2008-07-29 Ciphermax, Incorporated System and method for expansion of computer network switching system without disruption thereof

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6591285B1 (en) * 2000-06-16 2003-07-08 Shuo-Yen Robert Li Running-sum adder networks determined by recursive construction of multi-stage networks
US20020159456A1 (en) * 2001-04-27 2002-10-31 Foster Michael S. Method and system for multicasting in a routing device
US7139267B2 (en) * 2002-03-05 2006-11-21 Industrial Technology Research Institute System and method of stacking network switches
IL152676A0 (en) * 2002-11-06 2003-06-24 Teracross Ltd Method and apparatus for high performance single block scheduling in distributed systems
US7527155B2 (en) * 2004-02-11 2009-05-05 International Business Machines Corporation Apparatus and system for vertically storing computing devices
US7720377B2 (en) * 2006-01-23 2010-05-18 Hewlett-Packard Development Company, L.P. Compute clusters employing photonic interconnections for transmitting optical signals between compute cluster nodes
US20070253437A1 (en) * 2006-04-28 2007-11-01 Ramesh Radhakrishnan System and method for intelligent information handling system cluster switches

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790546A (en) * 1994-01-28 1998-08-04 Cabletron Systems, Inc. Method of transmitting data packets in a packet switched communications network
JPH07230434A (ja) * 1994-02-18 1995-08-29 Gijutsu Kenkyu Kumiai Shinjiyohou Shiyori Kaihatsu Kiko 相互結合網装置
JP2001256204A (ja) * 2000-03-10 2001-09-21 Hitachi Ltd 多次元クロスバーネットワークおよび並列計算機システム
JP2002057419A (ja) * 2000-08-14 2002-02-22 Fujitsu Ltd 情報処理装置
US7061907B1 (en) * 2000-09-26 2006-06-13 Dell Products L.P. System and method for field upgradeable switches built from routing components
US7406038B1 (en) * 2002-04-05 2008-07-29 Ciphermax, Incorporated System and method for expansion of computer network switching system without disruption thereof
JP2004120042A (ja) * 2002-09-24 2004-04-15 Toshiba Corp 二重系データ伝送システム
JP2006146391A (ja) * 2004-11-17 2006-06-08 Hitachi Ltd マルチプロセッサシステム
EP1737253A1 (en) * 2005-06-20 2006-12-27 Alcatel Fault tolerant single plane switch fabric for a telecommunication system

Also Published As

Publication number Publication date
US8144697B2 (en) 2012-03-27
US20080170581A1 (en) 2008-07-17
EP2100415B1 (en) 2013-09-18
WO2008088651A3 (en) 2008-11-27
EP2100415A2 (en) 2009-09-16
WO2008088651A2 (en) 2008-07-24
JP5384369B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
US8964733B1 (en) Control plane architecture for switch fabrics
US7766692B2 (en) Cable interconnect systems with cable connectors implementing storage devices
US7983194B1 (en) Method and system for multi level switch configuration
US8103137B2 (en) Optical network for cluster computing
US8159973B2 (en) Ultra-scalable supercomputer based on MPU architecture
US8270830B2 (en) Optical network for cluster computing
JP4843087B2 (ja) スイッチング帯域幅を向上させるスイッチングシステムおよび方法
US8060682B1 (en) Method and system for multi-level switch configuration
CN105706404B (zh) 管理计算机网络的直接互连交换机布线与增长的方法和装置
US20130156425A1 (en) Optical Network for Cluster Computing
US20070230148A1 (en) System and method for interconnecting node boards and switch boards in a computer system chassis
US20080101395A1 (en) System and Method for Networking Computer Clusters
EP2095649B1 (en) Redundant network shared switch
JP5384369B2 (ja) コンピューティング・クラスタをネットワーク化するシステム及び方法
JP3709322B2 (ja) 多次元クロスバーネットワークおよび並列計算機システム
US9750135B2 (en) Dual faced ATCA backplane
CN108183872B (zh) 交换机系统及其构建方法
TWI730325B (zh) 伺服器盒子
US9599784B2 (en) Modular optical backplane and enclosure
WO2022242190A1 (zh) 电子组件、交换机及计算机系统
JP5131760B2 (ja) 光結合システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130808

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131002

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5384369

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250