JP6998391B2 - 分散スイッチに対するスケーラブル・データ・センター・ネットワーク・トポロジ - Google Patents

分散スイッチに対するスケーラブル・データ・センター・ネットワーク・トポロジ Download PDF

Info

Publication number
JP6998391B2
JP6998391B2 JP2019553211A JP2019553211A JP6998391B2 JP 6998391 B2 JP6998391 B2 JP 6998391B2 JP 2019553211 A JP2019553211 A JP 2019553211A JP 2019553211 A JP2019553211 A JP 2019553211A JP 6998391 B2 JP6998391 B2 JP 6998391B2
Authority
JP
Japan
Prior art keywords
data center
network structure
center network
base units
northbound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019553211A
Other languages
English (en)
Other versions
JP2020517141A5 (ja
JP2020517141A (ja
Inventor
シュマッツ、マルティン、レオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020517141A publication Critical patent/JP2020517141A/ja
Publication of JP2020517141A5 publication Critical patent/JP2020517141A5/ja
Application granted granted Critical
Publication of JP6998391B2 publication Critical patent/JP6998391B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Description

本発明は一般的にデータ・センター・ネットワーク構造に関し、より具体的にはネットワーク化の態様のすべての制約を反映する複数のノードによってデータ・センター・ネットワーク構造を構築することに関する。本発明はさらに、データ・センター・ネットワークにおける複数のノードをネットワーク化するための方法と、コンピュータ・プログラム製品とに関する。
クラウド・コンピューティング・データ・センターは、サイズおよび能力の点で絶えず成長している。このことはコンピューティング・ノードの数を含む。コンピューティング・ノードは、データ・センターの3つのエレメント、すなわちノード、スイッチ、およびネットワーク接続のうちの1つとみられてもよい。加えて、ルーティング・プロトコルを考慮する必要がある。今日のクラウド・データ・センター(DC:data centers)は多数のアクティブ・ノードをホストし、データ・センター当り何万ものノードになる傾向がある。各ノードはサーバ(単一、SMP[対称型マルチプロセッシング(symmetrical multi-processing)]、小型クラスタ)、記憶装置、またはアクセラレータであり得る。それらのノードすべてが、1つ(またはいくつか)の部分的DCネットワークを介して相互接続される必要がある。今日、多くのネットワーク・トポロジが公知であり、よく理解されている。多くのバージョンのツリー構造(オール・ツー・オール(別名「フル・メッシュ」)、2D/3Dメッシュ2D/3Dトーラス、ツリー、ファット・ツリー、XGFT、ドラゴンフライ、ドラゴンフライ+、2段ドラゴンフライ、ハミング・グラフ、HyperX、およびその他多数)であり、これらの各々が1つまたはいくつかのネットワーク・レベルを有する。一般的に、クラウド・コンピューティング・データ・センターに対するいくつかの基本的目標がある。相互接続されるノードの数を増やすこと、性能効率的なルーティング・プロトコルを有すること、ならびにたとえばコスト、待ち時間、および帯域幅(すなわち性能)、およびRASの特徴(信頼性、可用性、および保守性(reliability、availability and serviceability))などの重要な境界条件を満たしつつ上記の目標を達成することである。
しかし、各ネットワーク・トポロジは同じ基本的問題を有する。すなわち、ノード数を与えられると、ノードの物理的なスペース要件によって、ノードは高速(10+Gbps)の電気ケーブルがブリッジし得る間隔(これは物理的法則によって与えられる)よりも大きい間隔を置かれることが定められる。結果的に、上述のネットワーク・トポロジの1つを実現するために、ネットワーク・スイッチに加えて多くの光ケーブルが必要となる。1つの(最終的に極端な)例では、1024ノードのオール・ツー・オール・ネットワーク接続に対して、約500,000の光ケーブルが必要となるだろう。もしそれらの各々が100Gbpsのイーサネット(R)接続であって、現在の販売価格が約$1,500/ケーブルであれば、これによってDCのコストに約$785M、またはノード当り$767kが追加される!よって、光(距離>約5m)ケーブルの数を最小化するネットワーク構造が必要とされている。より一般的には、従来のネットワーク・トポロジはクラウド・コンピューティング・データ・センターのノード・スケーリングの態様に対処できるが、他の境界条件も同時に最適化することは極度に困難である。
データ・センター・ネットワーク構造に関する開示はいくつか存在する。特許文献1の文書は、複数のスイッチに結合されたスイッチにおいてデータ・パケットを受信するステップを含む方法を開示している。このスイッチは、複数のプレフィックスを含む第1のレベル・テーブルから、受信したパケットの宛先アドレスの第1の部分に一致するプレフィックスを判断してもよい。加えてこのスイッチは、第1のレベル・テーブルの一致プレフィックスが第2のレベル・テーブルに関連付けられているときは、複数のサフィックスを含む第2のレベル・テーブルから、受信したパケットの宛先アドレスの第2の部分に一致するサフィックスを判断してもよい。この構造は、実質的に同じサイズおよび容量の複数のより小さい個別スイッチを用いた顕著な耐障害性を有するスケーラブル通信帯域幅を提供するデータ・センター通信ファブリックの実現のために用いられる。
特許文献2の文書は、複数のノードを含むネットワークの物理的トポロジを定めるためのシステムを開示している。各ノードは、マルチチップのより上位層のスイッチを含む。マルチチップのより上位層のスイッチにおける各チップは、複数のポートを含む。反復プロセスを通じてより上位層のスイッチのチップのそれぞれのポートに物理的接続を割り当てるために、ネットワーク構成モジュールが構成される。反復プロセスは、複数のルートの第1のルートを選択するステップ、選択されたルートのソース・ノードに対する割り当てを行うステップを含み、第1のチップの第1の部分は奇数のフリー・ポートを有する。
米国特許出願公開第2010/0020806(A1)号 米国特許第9166886(B1)号
公知の解決策の1つの欠点は、基礎をなすネットワーク特性の最適化が主に、たとえば選択されたネットワーク・アーキテクチャ、スイッチ当りのポート数、ネットワーク次元(2D、3D、nD)、1ホップ接続の到達範囲、および必要とされる合計ホップ数などの可能な変数のみによって行われるという事実にある。
しかし、この1方向のみでの最適化の制限を克服することが要求されてもよい。このことは特に、何百または何千ものノードを含む大型データ・センターにおける短距離および長距離ネットワーク接続に対する上述の境界および関連するコストを反映した最適化に当てはまるだろう。
このセクションは実施例を含むことが意図されており、限定することは意図されていない。
本発明の実施形態例によると、複数のノードを含むデータ・センター・ネットワーク構造が提供される。このデータ・センター・ネットワーク構造は、マルチホストNICコントローラのサウスバウンド接続によって接続されたノードの第1のセットを各々が含む少なくとも10のベース・ユニットを含み、前記マルチホストNICコントローラはサウスバウンドよりも高い全帯域幅のノースバウンドを有し、このデータ・センター・ネットワーク構造はさらに、10のベース・ユニットを含むスーパー・ユニットを含み、これらのベース・ユニットのそれぞれのマルチホストNICコントローラがグループ内ネットワークとして修正ピーターセン・グラフ形に接続されることによって、スーパー・ユニットの10のベース・ユニットは、10のベース・ユニットのうちの3つを各々が含む3つのグループを含み、前記マルチホストNICコントローラの各々は、スーパー・ユニットの他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるために適合され、グループの各々の2つのベース・ユニットは第4のグループ内ノースバウンド接続のそれぞれの1つを介して前記他の2グループの1つに接続され、前記10のベース・ユニットのうち3ベース・ユニットの3グループの1つの一部ではない残りのベース・ユニットは、3グループの各々の1つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるために適合され、前記マルチホストNICコントローラはドラゴンフライ・スイッチとして構成される。
本発明の別の実施形態例によると、データ・センター・ネットワーク構造における複数のノードをネットワーク化するための方法が提供される。この方法は、マルチホストNICコントローラのサウスバウンド接続に接続されたノードの第1のセットを各々が含む少なくとも10のベース・ユニットを接続するステップであって、前記マルチホストNICコントローラはサウスバウンドよりも高い全帯域幅のノースバウンドを有する、ステップと、これら10のベース・ユニットをそれぞれのマルチホストNICコントローラによってグループ内ネットワークとして修正ピーターセン・グラフ形に接続してスーパー・ユニットを構築することによって、スーパー・ユニットの10のベース・ユニットは、10のベース・ユニットのうちの3つを含む3つのグループを含み、前記マルチホストNICコントローラの各々は、スーパー・ユニットの他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用い、グループの各々の2つのベース・ユニットは第4のノースバウンド接続のそれぞれの1つを介して3ベース・ユニットの前記他の2グループの1つに接続され、前記10のベース・ユニットのうち3ベース・ユニットの3グループの1つの一部ではない残りのベース・ユニットは、3グループの各々の1つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるために適合されるようにするステップとを含み、前記マルチホストNICコントローラはドラゴンフライ・スイッチとして構成される。
本発明のさらに別の実施形態例によると、データ・センター・ネットワークにおける複数のノードをネットワーク化するためのコンピュータ・プログラム製品が提供される。このコンピュータ・プログラム製品は、自身によって具現化されるプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令は1つまたはそれ以上のコンピュータ・システムによって実行可能であり、前記1つまたはそれ以上のコンピュータ・システムに、マルチホストNICコントローラのサウスバウンド接続に接続されたノードの第1のセットを各々が含む少なくとも10のベース・ユニットを接続するステップであって、前記マルチホストNICコントローラはサウスバウンドよりも高い全帯域幅のノースバウンドを有する、ステップと、前記10のベース・ユニットをそれぞれのマルチホストNICコントローラによってグループ内ネットワークとして修正ピーターセン・グラフ形に接続してスーパー・ユニットを構築することによって、スーパー・ユニットの10のベース・ユニットは、10のベース・ユニットのうちの3つを含む3つのグループを含み、前記マルチホストNICコントローラの各々は、スーパー・ユニットの他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用い、グループの各々の2つのベース・ユニットは第4のノースバウンド接続のそれぞれの1つを介して他の2グループの1つに接続されるようにするステップとを行わせ、前記マルチホストNICコントローラはドラゴンフライ・スイッチとして構成される。
本発明の好ましい実施形態を、単なる例として以下の図面を参照して説明する。
本発明の例示的実施形態によるデータ・センター・ネットワーク構造を示すブロック図である。 データ・センターにおいてネットワークを構築するために従来から用いられるピーターセン・グラフを示す図である。 本発明の例示的実施形態によるノードおよびドラゴンフライ・スイッチを有する1つのブロックとして図1のグループ内ネットワークを示す図である。 本発明の例示的実施形態によるマルチホストNICコネクタを示す図である。 図5a、図5bは本発明の例示的実施形態によるドラゴンフライ・スイッチの概念を示す図である。 本発明の例示的実施形態によるシャーシとして示されるスーパー・ユニットに組み合わされたベース・ユニットを示す図である。 本発明の例示的実施形態による2つのラックの組み合わせを示す図である。 本発明の例示的実施形態によるデータ・センターのネットワークのz次元グループを構築する10のy次元グループを示す図である。 本発明の例示的実施形態によるデータ・センターのネットワークのw次元を示す図である。 本発明の例示的実施形態によるデータ・センター・ネットワークにおける複数のノードをネットワーク化するための方法を表すブロック図である。 本発明の例示的実施形態によるネットワークにおける使用のために好適なコンピュータ・システム・ノードのブロック図の実施形態を示す図である。
本発明の実施形態は異なる主題を参照して説明されることに留意されたい。特に、いくつかの実施形態は方法タイプの請求項を参照して説明されるのに対し、他の実施形態は装置タイプの請求項を参照して説明されている。しかし、当業者は上記および以下の説明から、別様に示されない限り、1つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴の任意の組み合わせ、特に方法タイプの請求項の特徴と装置タイプの請求項の特徴との任意の組み合わせもこの文書内に開示されているとみなされることを推測するだろう。
本発明の上記に定義される態様およびさらなる態様は、以下に記載されて実施形態例を参照しながら説明されるが本発明を限定することのない実施形態例から明らかである。
以下に図面の詳細な説明が与えられることとなる。図面におけるすべての指示は概略的なものである。最初に、本発明のデータ・センター・ネットワーク構造の実施形態のブロック図が与えられる。その後、さらなる実施形態、およびデータ・センター・ネットワークにおける複数のノードをネットワーク化するための方法の実施形態が説明されることとなる。
この記載の状況においては以下の慣例、用語、もしくは表現、またはその組み合わせが用いられてもよい。
「データ・センター・ネットワーク構造」という用語は、複数のアーキテクチャに関する同種または異種のノードを含むデータ・センターにおけるノード間のデータ交換ネットワークのトポロジを示してもよい。
「ノード」という用語は、コンピューティング・ノード、アクセラレータ・ノード、ストレージ・ノード、または少なくとも1つのサーバと1つのマルチホストNICコネクタとを備える類似のノードを示してもよい。ノード自体が、単一CPUまたは複数のCPUコンピューティング・ノードによって構成されてもよい。加えて、ノードはサーバとマルチホストNICコントローラとを含むベース・ユニットとして示されてもよい。所与のダイ利用可能マルチホストNICコントローラの、マルチホストNICコントローラ当り2、3、または4のサーバを有するバージョンも可能であってもよい。
「ベース・ユニット」という用語は、ネットワーク・トポロジにおけるノード、たとえば今説明したノードとして実現されるノードなどを示してもよい。ベース・ユニットは、たとえばサウスバウンドPCIe(R)に基づく接続などを用いたマルチホストNICコントローラを含んでもよい。しかし、サーバとマルチホストNICコントローラとの代替的な接続技術も可能である。加えて、ベース・ユニットは「スレッド」として示されることもある。
「マルチホストNICコントローラ」という用語は、アダプタの物理ポートと内部の仮想ポート(VPort:virtual ports)との間でネットワーク・トラフィックを転送するハードウェア・ブリッジとして実現される単一ルートIO仮想化(SR-VIO:single root IO virtualization)をサポートするネットワーク・アダプタを示してもよい。こうしたブリッジは、NICスイッチとしても公知である。各NICスイッチは、少なくとも以下のコンポーネントを含む。(i)外部物理ネットワークへのネットワーク接続性を提供する1つの外部ポートまたは物理ポート。(ii)ネットワーク・アダプタにおけるPCI Express(R)(PCIe(R))物理機能(FP:Physical Function)に外部物理ネットワークへのアクセスを提供する1つの内部ポート。この内部ポートは仮想ポート(VPort)としても公知である。物理機能は常に、作成されて自身に割り当てられ得るVPortを有してもよい。このVPortはデフォルト(default)VPortとして公知であり、DEFAULT-VPORT-ID識別子によって参照されてもよい。(iii)さらに、ネットワーク・アダプタにおけるPCIe(R)仮想機能(VF:Virtual Function)に外部物理ネットワークへのアクセスを提供し得る1つまたはそれ以上のVPortが利用可能である。
「スイッチ」またはネットワーク・スイッチ(スイッチング・ハブ、ブリッジング・ハブ、公式にはMACブリッジとも呼ばれる)という用語は、データを受信し、処理し、宛先デバイスに転送するためにパケット・スイッチングを用いることによって、コンピュータ・ネットワーク上でデバイスをともに接続するコンピュータ・ネットワーク化デバイスのことである。それほど高度ではないネットワーク・ハブとは異なり、ネットワーク・スイッチはその各々のポートから同じデータを一斉送信するのではなく、データを受信する必要のある1つまたは複数のデバイスのみにデータを転送する。
「ノースバウンド」という用語は、ネットワーク・スイッチのアップリンク側を示してもよい。この表現は通常、ネットワーク・スイッチのダウンリンク側を示すサウスバウンド接続と対照させて用いられる。
ネットワーク・スイッチの「全帯域幅」という用語は、本明細書においてはネットワーク・スイッチのすべてのノースバウンド・ポートの合計を示してもよい。
「スーパー・ユニット」という用語は10のベース・ユニットのグループを示してもよく、たとえば各ベース・ユニットは最低1つのコンピューティング・ノードと1つのマルチホストNICコントローラとで構成されており、これらのベース・ユニットは本明細書において考察される修正ピーターセン・グラフの形に接続される。加えてスーパー・ユニットは、10のベース・ユニットを有するシャーシまたは単にシャーシとして示されてもよい。
「ドラゴンフライ・スイッチ」という用語は、仮想スイッチを構築する形で互いに接続された少なくとも2つのネットワーク・スイッチを示してもよい。必要条件は、ノースバウンド帯域幅の合計がサウスバウンド帯域幅の合計よりも高いことであってもよい。余剰のノースバウンド容量は、各個別スイッチの性能およびスループットを犠牲にすることのないノースバウンド・スイッチング容量として用いられてもよい(図3も比較されたい)。
「サーバ」という用語は、コンピュータ・サーバ、アクセラレータ、およびストレージ・サーバまたは類似物の形の、ベース・ユニットのコンポーネントを示してもよい。サーバ、またはサーバの第1のセットのグループは、データ・ネットワークにおけるノードを表してもよい。
「x次元ユニット」という用語は、データ・センター・ネットワークの1つの次元を構築する複数のベース・ユニットを示してもよい。本明細書で考察される実施形態において、x次元ユニットは4つのスーパー・ユニットすなわちシャーシを含んでもよく、各シャーシは10のベース・ユニットすなわちノードを含む。
「y次元グループ」という用語は、データ・センター・ネットワーク・トポロジの別の次元を示してもよい。本明細書で考察される実施形態において、y次元は4つのx次元ユニットを含んでもよい。
「POD」という用語は、裸の19インチ(48.26cm)ラックを用いてそれらに1~4Uのフォーム・ファクタを有するサーバを装着して、高性能コンピューティング・プラットフォームを作成するための複数の多かれ少なかれ共有化されたサーバ・コンポーネントを示してもよい。データ・センターPODに対してさらに要求されるコンポーネントは、異なるサーバ間でデータを移送するために用いられるネットワーク化およびデータ・スイッチングおよびルーティング技術である。
図1は、例示的実施形態によるデータ・センター・ネットワーク構造の実施形態のブロック図を示す。データ・センター・ネットワーク構造は、複数のベース・ユニット102、104、…、120を含む。ベース・ユニットの各々は、ノードの第1のセットを含む。ノードの各々は、コンピューティング・ノード、ストレージ・ノード、アクセラレータ・ノード、または類似物であってもよい。ベース・ユニット102、104、…、120内のノードの各々は、マルチホストNICコントローラのサウスバウンド接続に接続される。ノードは、ベース・ユニット102、104、…、120の各1つの中でPCIe(ペリフェラル・コンポーネント・インターコネクト・エクスプレス(Peripheral Component Interconnect Express))(R)接続を介してマルチホストNICコントローラに接続されてもよい。マルチホストNICコントローラは、サウスバウンドよりも高い全帯域幅のノースバウンドを有する。
10のベース・ユニット102、104、…、120がスーパー・ユニット100を構築し、これは「シャーシ」とも呼ばれる。これらのベース・ユニットは、グループ内ネットワークとして修正ピーターセン・グラフ形に接続される。ベース・ユニット102、104、…、120のマルチホストNICコントローラの各々は、他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続122、124、126を用いるために適合される。ベース・ユニット102、104、…、120当り3つの接続を、ベース・ユニット108のみを用いて例示的に示す。今説明した3つの接続は、ベース・ユニット108の場合は122、124、126と示され、これらの接続はベース・ユニット106、104、および102をベース・ユニット108と直接接続する。図1において、ベース・ユニット102、104、…、120の各々に対して3つの接続を有する類似の接続形状が識別され得る。
3つのベース・ユニットの3つのグループの各々はスーパー・ユニット100内に存在し、このスーパー・ユニット100においてはグループの各メンバーに到達するために1ホップのみが必要とされることが注目されてもよい。これらのグループは、(a)ベース・ユニット104、106、108、(b)ベース・ユニット110、112、114、(c)ベース・ユニット116、118、120である。
さらに、3ベース・ユニットの各グループの2つのベース・ユニット、すなわち各グループの外側端縁にあるもの、すなわち104/108、110/114、および116/120は、第4のノースバウンド接続のそれぞれ1つを介して、3ベース・ユニットの他の2グループの1つに接続される。たとえば、グループ(a)のベース・ユニット104はグループ(b)のベース・ユニット110に接続され、グループ(a)のベース・ユニット108はグループ(c)のベース・ユニット120に接続される。みられるとおり、ベース・ユニット102はグループ(a)、(b)、(c)のいずれにも属さない。
そのやり方で、3ベース・ユニットの各グループ内に1ホップ接続が存在することが保証される。後で説明されることとなるとおり、マルチホストNICコントローラはドラゴンフライ・スイッチとして構成されることが注目されてもよい。
加えて、ベース・ユニットは上述のノード・タイプ(コンピューティング・ノード、ストレージ・ノード、アクセラレータ・ノード)を含んでもよいことにも留意されたい。一実施形態において、ベース・ユニットは最大4つのノードを含むスレッドであってもよい。しかし、例示的にはスレッドは1つのデュアル・ソケット(すなわち、2つのCPUに対する)サーバを含んでもよい。各CPUは、スレッドまたはベース・ユニット内のマルチホストNICコントローラに自身を接続するために用いられる少なくとも1つの関連PCIe(R)接続を有してもよい。サーバからネットワークへの利用可能帯域幅を倍増させるために、同様にサーバに含まれるマルチホストNICコントローラにそれぞれのCPUを接続するために、第2のPCIe(R)接続も用いられてもよい。図3により多くの詳細がみられる。
図2は、データ・センターにおいてネットワークを構築するために従来から用いられるピーターセン・グラフ200を示す。ノード202、204、…、220が図示されるやり方で接続される。ノード202、204、…、220のうち2つの間の各リンクは、ネットワーク接続を表す。容易に分かるとおり、ノード202、204、…、220のいずれから始めても、ピーターセン・グラフ形ネットワークにおける任意の他のノードに対して2ホップによる接続が確立され得る。これは、上で考察した修正ピーターセン・グラフ構造が、オール・ツー・オール2ホップ・ネットワーク構造を表さずに、修正ピーターセン・グラフ形ネットワークのサブグループ(a)、(b)、(c)における1ホップ接続を可能にするのと対照的である。ピーターセン・グラフ構造タイプのネットワークは後に用いられることとなる。
ここで再び図1に戻る。データ・センター・ネットワーク構造100において、3ベース・ユニットの3つのグループ(a)、(b)、(c)の各々における各ベース・ユニット104…106、110…114、116…120は、少なくとも1つの第5のノースバウンド接続128、130、132(ベース・ユニット104…106を有するグループ(a)のものだけが参照番号を有する)を含むことによって、3ベース・ユニットのグループの各々が3つのグループ・アウトバウンド接続を可能にする。それらの接続は、データ・センター・ネットワーク構造のノースバウンドx次元接続、データ・センター・ネットワーク構造のノースバウンドy次元接続、およびデータ・センター・ネットワーク構造のノースバウンドz次元接続として示される。
一実施形態において、「グループ化されていない」中央ベース・ユニット102も、修正ピーターセン・グラフ形のグループ内ネットワークへのサービス接続か、またはユーザのデータに対するI/O(入力/出力(input/output))接続の働きをし得る付加的な接続134を含む。
一実施形態によると、第5のノースバウンド・グループ内接続を含んでいない3ベース・ユニットのグループにおける各ベース・ユニット、すなわち中央のベース・ユニット106、112、118も、データ・センター・ネットワーク構造のw次元における4つの付加的なノースバウンド接続136を構築する付加的なサービス接続として使用可能な付加的なノースバウンドの電気的接続を含む。
上記をすべて組み合わせると図3に達し、この図面は、ノード308(10のうちの1つのみが参照番号を有する)と、(仮想)ドラゴンフライ・スイッチ302(説明はさらに以下を参照)とを有する1つのブロックとしての図1のグループ内ネットワークを、x、y、z、およびw次元における可能なネットワーク接続とともに示している。図1から導かれ得るとおり、データ・センター・ネットワークにはx方向の3つのノースバウンド接続と、y方向に対して使用可能な3つのノースバウンド接続と、z方向の3つの接続と、w方向の4つの接続とが存在する。加えて、u接続(図1の134と比較)および2つの付加的な存在し得るサービス接続「s」が示されている。
例示的に、10掛ける2ボックス304および306(同様に例示的参照番号を有する)のうちの2つを囲んで、デュアル・ソケット・サーバを表す。10のサーバの20のCPUの各1つからの実線310(明瞭性のためにただ1つの例示的参照番号を示す)は、それぞれのCPUから自身のマルチホストNICコネクタへのPCIe(R)接続を表し、このマルチホストNICコネクタは10のマルチホストNICコネクタすべての組み合わせで仮想ドラゴンフライ・スイッチ302を構築する。CPUと仮想ドラゴンフライ・スイッチ302との間の点線312(20のうちの1つだけが例示的に参照番号を有する)は、付加的な実施形態におけるCPUから関連ベース・ユニット/スレッド(図1の参照番号102…120)の関連マルチホストNICコネクタへのさらなる任意のPCIe(R)接続を表してもよい。
なお、他の実施形態においてはPCIe(R)接続以外の接続も用いられてもよい。さらに、任意の記載された接続に対して、電気的接続(ケーブル)または光学的接続(ケーブル)のいずれが用いられてもよいことに留意されたい。しかし、物理的長距離に対しては光ケーブルを用いることが好ましい。
「スーパー・ユニット」または「シャーシ」としても示されるこのコア構造に基づいて、より大きいデータ・センター・ネットワークが構築されてもよい。しかし、その態様を詳述する前に、マルチホストNICコントローラおよびその関連のすでに言及したドラゴンフライ構造のいくつかの詳細を説明することにする。
図4は、マルチホストNICコントローラ400の実施形態を示す。これは、マルチホストNIC内部スイッチ412を含むネットワーク・スイッチとして動作されてもよい。マルチホストNIC内部スイッチ412は、サウスバウンドにネットワーク・インタフェース・コントローラ401、…、410を含む。2つのノードまたはサーバは、たとえばPCIe(R)接続などを介してサウスバウンド・ノード接続414を用いて接続されてもよい。ノースバウンドは、複数のポート416…428、たとえば4×25Gbps接続のグループなどが利用可能である。それらは、異なる規則および優先順位によってグループ化されてもよい。ノースバウンド・ポート416および418は、一実施形態において、スーパー・ユニット当り10のベース・ユニット、すなわちシャーシ当り10のスレッドに対する3×100Gbps接続を用いたx次元オール・ツー・オール・ネットワークとして使用されてもよい。
付加的なRAS接続(信頼性、可用性、および保守性)として、ポート422の4つの付加的な接続が用いられてもよい。他のポート424が任意に用いられてもよい。最後に、ポート426および428は、その他の次元すなわちy次元、z次元、およびw次元へのスケーリングのための2掛ける100Gbpsポートとして用いられる。マルチホストNICコネクタ400に対するすべてのノースバウンド接続は、電気または光ケーブルによって可能にされてもよいことが再び注目されてもよい。加えて、マルチホストNIC内部スイッチ412は、たとえばインテル(Intel)のRed Rock Connectorなどに基づくものであってもよいことに言及する価値がある。
図5a、図5bはドラゴンフライ・スイッチの概念を示す。図5aを参照して、サウスバウンド・ポート401…410は、マルチホストNIC内部スイッチ412のノースバウンド・ポートよりも小さい帯域幅を有することが想定されてもよい。その場合、すべてのサウスバウンド接続サーバが全サウスバウンド帯域幅を用いて通信する502ときに、マルチホストNIC内部スイッチ412のノースバウンド側にはまだ付加的な余剰帯域幅が残っていてもよい。少なくとも2つのマルチホストNICコネクタ400を含む分散スイッチを構築するために、ノースバウンド側のこの余剰帯域幅504を活用してもよい。しかし、スイッチのオーバーサブスクリプションを避けるための境界条件が存在する。ノースバウンドにおける組み合わされたNICノード帯域幅と、分散スイッチ帯域幅とを足したものは、内部スイッチ帯域幅容量以下となるべきである。
しかし、より大きい仮想分散スイッチを構築するために、相互接続されたベース・ユニット(図1と比較)が用いられる。マルチホストNICコネクタの2つの組み合わせは、ノードから外側接続へのドラゴンフライ・マルチホストNICコントローラ帯域幅を構築する。
図5bを参照して、点線506はこうして構築されたドラゴンフライ・スイッチ500の外部スイッチング容量を示し、実線508は左のマルチホストNICコントローラ400または右のマルチホストNICコントローラ400のいずれかを介してサウスバウンドNIC401…410からノースバウンド・ポートに切り換えられた接続を示す。
図6は、シャーシ602…618としても示されるスーパー・ユニット602…618に組み合わされたベース・ユニット102(参照番号は代表的にのみ使用する)を示す。これらのスーパー・ユニット602…618の各々は、10のベース・ユニット(その1つは参照番号102を有する、図1と比較)を含む。それらのスーパー・ユニットのうちの4つ、すなわちスーパー・ユニット602、604、606、608は、x次元グループに組み合わされる。こうしたx次元グループ610は、ネットワークのx次元、すなわち40ベース・ユニットを構築する。それらのx次元グループ610、620の2つが、1つの業界水準のラック600において組み合わされてもよい。2つのx次元グループ610、620の間の点線622は、ラック600における分割のロジックを示す。各スーパー・ユニット内の円と、それらをつなぎ合わせる線とは、4つの関連シャーシ602、604、606、608、およびそれぞれ612、614、616、618のオール・ツー・オール接続を表す。各シャーシから、x次元グループ610、620のその他のシャーシの1つに3つの接続が行くことが注目されてもよい。
図7は、2つのラック600の組み合わせを示す。これは例示的ネットワークのy次元グループ700を構築する。加えてここには、それぞれの4シャーシのオール・ツー・オール接続が、関連する他のシャーシに接続されたシャーシ当り1つの円によって象徴的に示されている。各々のx層、すなわちx次元グループは水平方向に2つのラックに及んでいることが注目されてもよい。
図8は、データ・センターのネットワークのz次元グループ804を構築する10のy次元グループを示す。y次元グループの1つを点線802で囲んでいる。10のy次元グループ802は、オール・ツー・オールの形ではなく、上で説明したピーターセン・グラフ200形(図2と比較)に接続されている。10のダブル・ラック802は、ネットワークの平面として示されてもよい。よって、z次元は10の平面として示される。
図9は、データ・センターのネットワークのw次元を示す。ここでは、5つの超平面すなわちz次元グループ804が、20ラックのグループ間のオール・ツー・オール接続に組み合わされている。完全なデータ・センター・ネットワークPOD900を構築するために、合計1600のたとえば光ケーブルなどのケーブルが用いられてもよい。より短距離のネットワーク・ケーブルは、電気的接続であってもよい。
一実施形態において、x次元およびy次元には電気的接続が用いられ、z次元には光ケーブルが用いられ得るとき、160の光ケーブル(10ケーブル×2列×8シャーシ)が必要である。w次元も光ケーブルで接続されてもよいときは、POD当り8,000のベース・ユニット/スレッドに対する4,800の光ポートに合計2,400の光ケーブルを接続する必要があってもよい。これは、光ポートの60%の平均使用量を表してもよい。よって、データ・センターPODの100のラックが2,400の光ケーブルに接続されてもよく、これは通常8,000ベース・ユニット(ノード)を必要とする従来のPODよりもはるかに少ない数を表し、よってより低いネットワーク・コストを表してもよい。
図10は、データ・センター・ネットワークにおける複数のノードをネットワーク化するための方法1000の実施形態のブロック図を示す。この方法は、マルチホストNICコントローラのサウスバウンド接続に接続されたノードの第1のセットを各々が含む複数のベース・ユニットを接続するステップ1002を含む。マルチホストNICコントローラは、サウスバウンドよりも高い全帯域幅のノースバウンドを有する。
この方法は、10のベース・ユニットをそれぞれのマルチホストNICコントローラによって、スーパー・ユニットを構築するグループ内ネットワークとして修正ピーターセン・グラフ形にさらに接続するステップ1004を含み、ここでマルチホストNICコントローラの各々は、他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用い、3ベース・ユニットの各グループの2つのベース・ユニットは、第4のノースバウンド接続のそれぞれの1つを介して3ベース・ユニットの他の2グループの1つに接続される。加えてこの方法1000は、2つのマルチホストNICコントローラをそれぞれのドラゴンフライ・スイッチとして接続するステップ1006を含む。よって、スイッチのノースバウンド接続の一部が、ドラゴンフライ・スイッチのグループ内ネットワーク・ポートのために用いられる。
本発明の実施形態は、プラットフォームがプログラム・コードの保存もしくは実行またはその両方に好適であることにかかわらず、実質的に任意のタイプのコンピュータとともに実現されてもよい。図11は、提案される方法に関するプログラム・コードの実行のために好適なコンピュータ・システム1100を例として示し、コンピューティング・ノードも例として示す。
コンピュータ・システム1100は、好適なコンピュータ・システムの単なる一例であり、本明細書に記載される本発明の実施形態の使用または機能の範囲に関するいかなる限定を示唆することも意図されていない。それにかかわらず、コンピュータ・システム1100は上記に示された任意の機能の実現もしくは実行またはその両方が可能である。コンピュータ・システム1100内には、多数の他の汎用目的または特定目的のコンピュータ・システム環境または構成とともに動作するコンポーネントが存在する。コンピュータ・システム/サーバ1100とともに用いるために好適であり得る周知のコンピュータ・システム、環境、もしくは構成、またはその組み合わせの例は、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家電機器、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかを含む分散型クラウド・コンピューティング環境などを含むが、それに限定されない。コンピュータ・システム/サーバ1100は、コンピュータ・システム1100によって実行されるたとえばプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的なコンテキストで記載されてもよい。一般的にプログラム・モジュールは、特定のタスクを行うか、または特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、およびデータ構造などを含んでもよい。コンピュータ・システム/サーバ1100は、通信ネットワークを通じてリンクされたリモート処理デバイスによってタスクが行われる分散型クラウド・コンピューティング環境において実施されてもよい。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ記憶デバイスを含むローカルおよびリモート・コンピュータ・システム記憶媒体の両方に位置してもよい。
図面に示されるとおり、コンピュータ・システム/サーバ1100は、汎用目的のコンピューティング・デバイスの形で示される。コンピュータ・システム/サーバ1100のコンポーネントは、1つまたはそれ以上のプロセッサまたは処理ユニット1102、システム・メモリ1104、およびシステム・メモリ1104を含むさまざまなシステム・コンポーネントをプロセッサ1102に結合するバス1106を含んでもよいが、それに限定されない。バス1106は、メモリ・バスまたはメモリ・コントローラ、周辺装置用バス、アクセラレーテッド・グラフィクス・ポート、およびさまざまなバス・アーキテクチャのいずれかを用いたプロセッサまたはローカル・バスを含むいくつかのタイプのバス構造のいずれかの1つまたはそれ以上を表す。限定ではなく例として、こうしたアーキテクチャはインダストリ・スタンダード・アーキテクチャ(ISA:Industry Standard Architecture)バス、マイクロ・チャネル・アーキテクチャ(MCA:Micro Channel Architecture)バス、拡張ISA(EISA:Enhanced ISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA:Video Electronics Standards Association)ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト(PCI)バス、加えて特にペリフェラル・コンポーネント・インターコネクト・エクスプレス(PCIe(R))バスを含む。外部デバイス1118、特にマルチホストNICはバス1106に直接取り付けられてもよく、またはI/Oインタフェース・ブロック(1114)を介して接続され得る。コンピュータ・システム/サーバ1100は通常、さまざまなコンピュータ・システム可読媒体を含む。こうした媒体はコンピュータ・システム/サーバ1100によってアクセス可能な任意の利用可能な媒体であってもよく、それは揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体の両方を含む。
システム・メモリ1104は、たとえばランダム・アクセス・メモリ(RAM:random access memory)1108もしくはキャッシュ・メモリ1110またはその両方などの、揮発性メモリの形のコンピュータ・システム可読媒体を含んでもよい。コンピュータ・システム/サーバ1100はさらに、他の取り外し可能/取り外し不可能、揮発性/不揮発性コンピュータ・システム記憶媒体を含んでもよい。単なる例として、取り外し不可能な不揮発性磁気媒体(図示されず、通常「ハード・ドライブ」と呼ばれる)からの読取りおよびそこへの書込みのために、ストレージ・システム1112が提供されてもよい。図示されていないが、取り外し可能な不揮発性磁気ディスク(例、「フロッピー(R)ディスク」)からの読取りおよびそこへの書込みのための磁気ディスク・ドライブ、およびたとえばCD-ROM、DVD-ROM、またはその他の光媒体などの取り外し可能な不揮発性光ディスクからの読取りまたはそこへの書込みのための光ディスク・ドライブが提供されてもよい。こうした場合には、各々が1つまたはそれ以上のデータ媒体インタフェースによってバス1106に接続され得る。以下にさらに示されて説明されることとなるとおり、メモリ1104は、本発明の実施形態の機能を行うように構成されたプログラム・モジュールのセット(例、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでもよい。
プログラム・モジュール1116のセット(少なくとも1つ)を有するプログラム/ユーティリティ1115は、限定ではなく例としてメモリ1104に保存されてもよく、加えてオペレーティング・システム、1つまたはそれ以上のアプリケーション・プログラム、その他のプログラム・モジュール、およびプログラム・データに保存されてもよい。オペレーティング・システム、1つまたはそれ以上のアプリケーション・プログラム、その他のプログラム・モジュール、およびプログラム・データ、またはその何らかの組み合わせの各々は、ネットワーク化環境の実装を含んでもよい。プログラム・モジュール1116は一般的に、本明細書に記載される本発明の実施形態の機能もしくは方法またはその両方を行う。
加えて、コンピュータ・システム/サーバ1100は、たとえばキーボード、ポインティング・デバイス、ディスプレイ1120などの1つもしくはそれ以上の外部デバイス1118;ユーザがコンピュータ・システム/サーバ1100と対話することを可能にする1つもしくはそれ以上のデバイス;またはコンピュータ・システム/サーバ1100が1つもしくはそれ以上の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例、ネットワーク・カード、モデムなど)、あるいはその組み合わせと通信してもよい。こうした通信は、入力/出力(I/O)インタフェース1114を介して起こり得る。さらに、コンピュータ・システム/サーバ1100はネットワーク・アダプタ1122を介して、たとえばローカル・エリア・ネットワーク(LAN:local area network)、一般的な広域ネットワーク(WAN:wide area network)、もしくは公衆ネットワーク(例、インターネット)、またはその組み合わせなどの1つまたはそれ以上のネットワークと通信してもよい。示されるとおり、ネットワーク・アダプタ1122は、バス1106を介してコンピュータ・システム/サーバ1100のその他のコンポーネントと通信してもよい。図示されていないが、コンピュータ・システム/サーバ1100とともに他のハードウェアもしくはソフトウェア・コンポーネントまたはその両方が用いられ得ることを理解されたい。その例はマイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイバル・ストレージ・システムなどを含むが、それに限定されない。
上述のベース・ユニットは、コンピュータ・システム1100の形で実現されてもよいことが注目されてもよい。しかし一実施形態において、コンピュータ・システム1100はデュアル・ソケット・サーバの形で実現されてもよい。当業者に公知であるとおり、その場合にはいくつかの他のコンポーネントが2倍利用可能であってもよい。
本発明の1つの態様によると、複数のノードを含むデータ・センター・ネットワーク構造が提供されてもよい。データ・センター・ネットワーク構造は、マルチホストNICコントローラのサウスバウンド接続によって接続されたノードの第1のセットを各々が含む複数のベース・ユニットを含んでもよい。マルチホストNICコントローラは、サウスバウンドよりも高い全帯域幅のノースバウンドを有してもよい。
加えてデータ・センター・ネットワーク構造は、グループ内ネットワークとして修正ピーターセン・グラフ形に接続されたそれぞれのマルチホストNICコントローラを有する10のベース・ユニットを含むスーパー・ユニットを含んでもよく、ここでマルチホストNICコントローラの各々は、他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるように適合され、3ベース・ユニットの各グループの2つのベース・ユニットは、第4のノースバウンド接続のそれぞれの1つを介して3ベース・ユニットの他の2グループの1つに接続されてもよい。さらに、マルチホストNICコントローラはドラゴンフライ・スイッチとして構成されてもよい。
本発明の別の態様によると、データ・センター・ネットワークにおける複数のノードをネットワーク化するための方法が提供されてもよい。この方法は、マルチホストNICコントローラのサウスバウンド接続に接続されたノードの第1のセットを各々が含む複数のベース・ユニットを接続するステップを含んでもよい。マルチホストNICコントローラは、サウスバウンドよりも高い全帯域幅のノースバウンドを有してもよい。
この方法はさらに、10のベース・ユニットをそれぞれのマルチホストNICコントローラによって、スーパー・ユニットを構築するグループ内ネットワークとして修正ピーターセン・グラフ形に接続するステップを含んでもよく、ここでベース・ユニットのマルチホストNICコントローラの各々は、他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用い、3ベース・ユニットの各グループの2つのベース・ユニットは、第4のノースバウンド接続のそれぞれの1つを介して3ベース・ユニットの他の2グループの1つに接続される。マルチホストNICコントローラはドラゴンフライ・スイッチとして構成されてもよい。
さらに、実施形態は、コンピュータもしくは任意の命令実行システムによって、またはそれに関連して使用するためのプログラム・コードを提供する、コンピュータ使用可能またはコンピュータ可読媒体によってアクセス可能な関連コンピュータ・プログラム製品の形をとってもよい。この記載の目的に対するコンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによって、またはそれに関連して使用するためのプログラムの保存、通信、伝播、または移送のための手段を含み得る任意の装置であってもよい。
提案されるデータ・センター・ネットワーク構造は、複数の利点および技術効果を提供してもよい。
修正ピーターセン・グラフ形に構成およびネットワーク化されたノードのネットワークで構成されるスーパー・ユニット、すなわちシャーシをコア構成要素として用いたデータ・センター・ネットワーク構造のここに提案されるトポロジは、1つより多い、または2つのアーキテクチャの制約または境界のバランスを取る高度にスケーラブルなデータ・センター・ネットワーク・トポロジを構築することを可能にする。互いに遠距離である構成要素間にのみ高価な光ケーブルを必要とするためのリソース効果の高い設計が特に注目される。
修正ピーターセン・グラフ・ネットワーク・トポロジは、10ノードコア構成要素、すなわちスーパー・ユニットまたはシャーシに各々含まれる3つのノードの3つのグループ間の保証された1ホップ接続性を可能にする。こうしたスーパー・ユニット内で、ネットワーク接続は電気的接続に基づいてもよい。データ・センター・ネットワーク構造のx次元およびy次元に対しても同じことが当てはまってもよい。たとえばデータ・センター・ネットワーク構造のz次元およびw次元コンポーネントなど、より物理的に離れたコンポーネントは、光ケーブルで接続されてもよい。これによって、ラック当り80ベース・ユニットまたはノードを有する100のラックを含むPOD(ポイント・オブ・デリバリ(Point of Delivery))において平均60%の光ポートしか使用しないことを可能にすることによって、光ケーブルの必要性が劇的に低減されてもよい。よって、100ラックにスケール・アップするために2,400の光ケーブルしか必要なくてもよい。このことは、従来から用いられるデータ・センター・ネットワーク・トポロジよりもかなり費用対効果の高いデータ・センター・ネットワーク・トポロジを表してもよい。よって、修正ピーターセン・グラフ形に接続されたここに提案されるスーパー・ユニットのコア構成要素は、データ・センター・ネットワークの古典的な設計境界、すなわち選択されるネットワーク階層、スイッチ当りのポート数、ネットワーク次元(2D、3D、nD)、1ホップの到達範囲、およびデータ・センター内の宛先ノードに到達するために必要とされる合計ホップ数、ならびにネットワーク化のコストのバランスを取ってもよい。
以下において、関連する方法にも適用可能なデータ・センター・ネットワーク構造のさらなる実施形態を説明することとする。
データ・センター・ネットワーク構造の1つの有利な実施形態によると、ベース・ユニットの1つ、すなわち少なくとも1つは、グループ内ネットワークに対する外部接続すなわちノースバウンド接続として使用されるように適合された1つの付加的なノースバウンド接続を含んでもよい。よってスーパー・ユニットは、コア構成要素としてスーパー・ユニットを用いるより大きいデータ・センター・ネットワークを構成するためのコア・ネットワーク・トポロジ構造として用いられてもよい。
データ・センター・ネットワーク構造の1つの好ましい実施形態によると、3ベース・ユニットの3グループの各々における各ベース・ユニットは少なくとも1つのノースバウンド接続を含むことによって、3ベース・ユニットの各グループが3つのグループ・アウトバウンド接続を可能にしてもよい。それら3つのグループ・アウトバウンド接続のうちの1つはデータ・センター・ネットワーク構造のx次元におけるノースバウンド接続として用いられてもよく、それら3つのグループ・アウトバウンド接続のうち別のものはデータ・センター・ネットワーク構造のy次元におけるノースバウンド接続として用いられてもよく、それら3つのグループ・アウトバウンド接続のうち最後のものはデータ・センター・ネットワーク構造のz次元におけるノースバウンド接続として用いられてもよい。よって、提案されるトポロジは何千または何万ものコンピューティング・ノード、アクセラレータ、およびストレージ・ノードなどを有する高度にスケーラブルなデータ・センター・ネットワークのためのコア構造を構築してもよい。
データ・センター・ネットワーク構造の1つの許容される実施形態によると、各ベース・ユニットは少なくとも1つのサーバを含んでもよい。しかし、使用されるマルチホストNICコネクタのサウスバウンド容量によっては、ベース・ユニット当り2つ以上のサーバが提供されてもよい。例示的なベース・ユニットは、1つのマルチホストNICコネクタを有するデュアル・ソケット・サーバ(2つのCPUソケット)として実現されてもよい。しかし、1つのデュアル・ソケット・サーバの代わりに他の構成も可能である。すなわち、複数の単一ソケット・サーバ、または2つよりもさらに多くのCPUに対するソケットを有するサーバである。加えて、コンピューティング・アクセラレータ、たとえばグラフィック・コンピューティング・ユニット、暗号化ユニット、およびストレージ・ノードなどの専用コンピューティング・ユニットを含むものなども可能である。加えて、サーバとマルチホストNICコントローラのサウスバウンド接続との1つまたはそれ以上の接続を用いるためのサーバのPCIe(R)接続の数は可変であってもよい。このことは、ベース・ユニットの構成の高い柔軟性を可能にしてもよい。
データ・センター・ネットワーク構造の付加的な好ましい実施形態によると、10のベース・ユニットのうち3ベース・ユニットのグループの1つの一部ではない残りのベース・ユニットも、ノースバウンド接続を含んでもよい。それはさらなるスケーラビリティ・オプションのために用いられてもよいし、スーパー・ユニットに対するユーザまたは管理者I/Oとして用いられてもよい。
データ・センター・ネットワーク構造の1つのさらなる有利な実施形態によると、第4のノースバウンド接続を含んでいない3ベース・ユニットのグループにおける各ベース・ユニットも、データ・センター・ネットワーク構造のw次元におけるノースバウンド接続を構築する付加的な接続として使用可能な第4のノースバウンド接続を含んでもよい。スーパー・ユニットのコア構造に対するこれらの付加的な接続は、データ・センター・ネットワーク・トポロジに対する付加的な次元スケーラビリティ・オプションとして用いられてもよい。
データ・センター・ネットワーク構造の1つの好ましい実施形態によると、4つのスーパー・ユニットが、データ・センター・ネットワーク構造のx次元ユニットを構築するオール・ツー・オール形に接続されてもよい。スーパー・ユニットが典型的な19インチ(48.26cm)ラックの1/8のサイズを有し得るとき、4つのスーパー・ユニットはこうしたラックの半分を必要とする。よって、高度にスケーラブルなデータ・センター・ネットワーク構造のスーパー・ユニットの新たに提案されるコア構造に対しても、データ・センターにおいて通常用いられる電気的および機械的インフラストラクチャ・コンポーネントが用いられてもよい。
データ・センター・ネットワーク構造のさらなる好ましい実施形態によると、4つのx次元ユニットすなわち2つのラックが、データ・センター・ネットワーク構造のy次元グループを構築するオール・ツー・オール形に接続されてもよい。再び、1つのシャーシにおいて10のベース・ユニットを用いる選択されたアーキテクチャは、利用可能なインフラストラクチャ・コンポーネントを非常に効率的な方式で使用していることが実証される。修正ピーターセン・グラフ形に構成された10ベース・ユニットのベース構造は、すでに利用可能なインフラストラクチャ・コンポーネントを効率的に使用している。
データ・センター・ネットワーク構造のさらに有利な実施形態によると、10のy次元グループ、すなわち10の平面であって、各平面が2ラックを有するために20ラックとなるグループが、データ・センター・ネットワーク構造のz次元グループを構築する(従来の)ピーターセン・グラフ形によって接続されてもよい。各ピーターセン・グラフは10のノードを含み、内側に15の頂点/ケーブルを必要とすることに留意されたい。加えて、y次元グループのスーパー・ユニットまたはシャーシを接続するために、複数のピーターセン構造が必要とされ得ることに留意されたい。データ・センター・ネットワーク構造のこの次元は、公知のトポロジに依拠してもよい。よって、コア・ユニットすなわちスーパー・ユニットの修正ピーターセン・グラフ形と、公知のデータ・センター・ネットワーク・トポロジとを組み合わせることによって、性能を最適化するだけでなく、電気的な形もしくは光学形またはその両方での必要とされるケーブル配線に対するコストを考慮した、信頼性が高く費用対効果およびリソース効果の高いネットワーク構造が可能になってもよい。
データ・センター・ネットワーク構造の1つの付加的な許容される実施形態によると、5つのz次元グループが、データ・センター・ネットワーク構造のPODを構築するオール・ツー・オール形に接続されてもよい。こうしたPODは、従来のまたは代替的なクラウド・コンピューティング・データ・センターの典型的なサイズを構築し得る100ラックに最低8,000サーバを含んでもよい。
いくつかの実施形態によると、物理的に別個のサービス・ネットワークを実現するために、マルチホストNICコントローラの任意の付加的に利用可能なノースバウンド接続が用いられてもよい。したがって、サービス/管理のために使用され得る物理的に別個の(すなわち付加的な)データ・センターの広いネットワークを実現するために、「実世界」のマルチホストNICにおいて利用可能であり得る付加的なノースバウンド接続が用いられてもよい。「通常の」ネットワークが何らかの理由で遮断/妨害されたときに、データ・センター・オペレータは別個のネットワークを介してスーパー・ユニットおよびそのノードにアクセスして、そのノードもしくはマルチホストNICまたはその両方の管理もしくはサービスまたはその両方ができるため、クラウド・データ・センターにおいてこうしたネットワークは重要である。
本発明のさまざまな実施形態の説明を例示の目的のために提供したが、開示される実施形態に対して網羅的または限定的になることは意図されていない。記載される実施形態の範囲および趣旨から逸脱することなく、当業者には多くの修正および変更が明らかになるだろう。本明細書において用いられる用語は、実施形態の原理、実際の適用、もしくは市場で見出される技術に対する技術的改善を最もよく説明するため、または他の当業者が本明細書に開示される実施形態を理解できるようにするために選択されたものである。
本発明はシステム、方法、もしくはコンピュータ・プログラム製品、またはその組み合わせとして具現化されてもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数の媒体)を含んでもよい。
媒体は、伝播媒体のための電子、磁気、光学、電磁気、赤外、または半導体のシステムであってもよい。コンピュータ可読媒体の例は半導体または固体メモリ、磁気テープ、取り外し可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM:read-only memory)、剛性磁気ディスク、および光ディスクを含んでもよい。光ディスクの現在の例は、コンパクト・ディスク読取り専用メモリ(CD-ROM:compact disk-read only memory)、コンパクト・ディスク読取り/書込み(CD-R/W:compact disk-read/write)、DVD、およびブルーレイ・ディスクを含む。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および保存できる有形デバイスであり得る。コンピュータ可読記憶媒体は、たとえば電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の好適な組み合わせなどであってもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは以下を含む。ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(erasable programmable read-only memory)(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク読取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD:digital versatile disk)、メモリ・スティック、フロッピー(R)ディスク、機械的に符号化されたデバイス、たとえばパンチ・カードまたは溝に命令が記録された隆起構造など、および前述の任意の好適な組み合わせ。本明細書において用いられるコンピュータ可読記憶媒体は、たとえば電波もしくはその他の自由に伝播する電磁波、導波路もしくはその他の伝送媒体を通じて伝播する電磁波(例、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、それ自体が一時的信号のものであると解釈されるべきではない。
本明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされ得るか、またはたとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくは無線ネットワーク、またはその組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードされ得る。ネットワークは銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはその組み合わせを含んでもよい。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信して、そのコンピュータ可読プログラム命令をそれぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に保存するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セット・アーキテクチャ(ISA:instruction-set-architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、または1つもしくはそれ以上のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードであってもよく、このプログラミング言語はオブジェクト指向プログラミング言語、たとえばSmalltalk(R)、またはC++など、および従来の手続き型プログラミング言語、たとえば「C」プログラミング言語または類似のプログラミング言語などを含む。コンピュータ可読プログラム命令は、すべてがユーザのコンピュータで実行されてもよいし、スタンド・アロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータで実行されてもよいし、一部がユーザのコンピュータで、一部がリモート・コンピュータで実行されてもよいし、すべてがリモート・コンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、(たとえば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータへの接続が行われてもよい。いくつかの実施形態において、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA:field-programmable gate arrays)、またはプログラマブル・ロジック・アレイ(PLA:programmable logic arrays)などを含む電子回路は、本発明の態様を行うために電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を使用することによって、コンピュータ可読プログラム命令を実行してもよい。
本明細書においては、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方を参照して、本発明の態様を説明している。流れ図もしくはブロック図またはその両方の各ブロック、および流れ図もしくはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実現され得ることが理解されよう。
これらのコンピュータ可読プログラム命令は、汎用目的コンピュータ、特定目的コンピュータ、またはマシンを生成するためのその他のプログラマブル・データ処理装置のプロセッサに提供されることによって、そのコンピュータまたはその他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて規定される機能/動作を実現するための手段を生じてもよい。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラマブル・データ処理装置、もしくはその他のデバイスまたはその組み合わせに特定の方式で機能するように指示できるコンピュータ可読記憶媒体にも保存されることによって、命令が保存されたコンピュータ可読記憶媒体が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて規定される機能/動作の態様を実現する命令を含む製造物を含んでもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル・データ処理装置、または別のデバイスにもロードされて、コンピュータに実現されるプロセスを生成するためにコンピュータ、他のプログラマブル装置、または他のデバイスにおいて一連の動作ステップを行わせることによって、そのコンピュータ、他のプログラマブル装置、または別のデバイスにおいて実行される命令が、流れ図もしくはブロック図またはその両方の単数または複数のブロックにおいて規定される機能/動作を実現してもよい。
図面における流れ図もしくはブロック図またはその両方は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を示すものである。これに関して、流れ図またはブロック図の各ブロックは、指定される論理機能(単数または複数)を実現するための1つまたはそれ以上の実行可能命令を含むモジュール、セグメント、または命令の一部を表してもよい。いくつかの代替的実施において、ブロック内に示される機能は、図面に示されるものとは異なる順序で起こってもよい。たとえば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよいし、関与する機能によってはこれらのブロックがときに逆の順序で実行されてもよい。加えて、ブロック図もしくは流れ図またはその両方の各ブロック、およびブロック図もしくは流れ図またはその両方のブロックの組み合わせは、指定された機能を行うか、特定目的のハードウェアおよびコンピュータ命令の組み合わせを実施または実行する特定目的のハードウェア・ベースのシステムによって実現され得ることが注目されるだろう。
本明細書において使用される用語は、特定の実施形態を説明する目的のみのものであり、本発明を限定することは意図されていない。本明細書において用いられる単数形の「a」、「an」、および「the」は、状況が別様を明瞭に示さない限り複数形も含むことが意図されている。さらに、本明細書において用いられるときの「含む(comprises)」もしくは「含む(comprising)」またはその両方の用語は、記述される特徴、整数、ステップ、動作、エレメント、もしくはコンポーネント、またはその組み合わせの存在を明示するが、1つまたはそれ以上の他の特徴、整数、ステップ、動作、エレメント、コンポーネント、もしくはそのグループ、またはその組み合わせの存在または追加を除外するものではないことが理解されるだろう。
以下の請求項におけるすべての手段またはステップ・プラス機能要素に対応する構造、材料、動作、および均等物は、特定的に請求される他の請求要素と組み合わせてその機能を行うための任意の構造、材料または動作を含むことが意図される。本発明の説明を例示および説明の目的のために提供したが、開示される形の本発明に対して網羅的または限定的になることは意図されていない。本発明の範囲から逸脱することなく、当業者には多くの修正および変更が明らかになるだろう。実施形態は、本発明の原理および実際の適用を最もよく説明し、かつ他の当業者が予期される特定の使用に好適であるようなさまざまな修正を伴うさまざまな実施形態に対して本発明を理解できるようにするために選択されて記載されたものである。

Claims (23)

  1. 複数のノードを含むデータ・センター・ネットワーク構造であって、前記データ・センター・ネットワーク構造は、
    マルチホストNICコントローラのサウスバウンド接続によって接続されたノードの第1のセットを各々が含む少なくとも10のベース・ユニットを含み、前記マルチホストNICコントローラはサウスバウンドよりも高い全帯域幅のノースバウンドを有し、前記データ・センター・ネットワーク構造はさらに、
    前記10のベース・ユニットを含むスーパー・ユニットを含み、前記ベース・ユニットのそれぞれのマルチホストNICコントローラがグループ内ネットワークとして修正ピーターセン・グラフ形に接続されることによって、前記スーパー・ユニットの前記10のベース・ユニットは、前記10のベース・ユニットのうちの3つを各々が含む3つのグループを含み、前記マルチホストNICコントローラの各々は、前記スーパー・ユニットの他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるために適合され、前記グループの各々の2つのベース・ユニットは第4のグループ内ノースバウンド接続のそれぞれの1つを介して前記他の2グループの1つに接続され、前記10の
    ベース・ユニットのうち3ベース・ユニットの前記3グループの1つの一部ではない残りのベース・ユニットは、前記3グループの各々の1つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるために適合され、前記マルチホストNICコントローラはドラゴンフライ・スイッチとして構成される、データ・センター・ネットワーク構造。
  2. 前記10のベース・ユニットの1つは、前記グループ内ネットワークに対する外部接続として使用されるように適合された1つの付加的なノースバウンド接続を含む、請求項1に記載のデータ・センター・ネットワーク構造。
  3. 物理的に別個のサービス・ネットワークを実現するために、前記マルチホストNICコントローラの任意の付加的に利用可能なノースバウンド接続が用いられる、請求項2に記載のデータ・センター・ネットワーク構造。
  4. 各ベース・ユニットは少なくとも1つのサーバを含む、請求項1に記載のデータ・センター・ネットワーク構造。
  5. 前記10のベース・ユニットのうち3ベース・ユニットの前記3グループの1つの一部ではない前記残りのベース・ユニットは、前記ネットワーク構造の外側へまたは外側からの通信のために用いられる第4のノースバウンド接続を含む、請求項1に記載のデータ・センター・ネットワーク構造。
  6. 3ベース・ユニットの前記グループにおける各ベース・ユニットは、前記データ・センター・ネットワーク構造のスーパー・ユニット間のノースバウンド接続を構築する付加的なネットワーク接続として使用可能な付加的な第5のノースバウンド接続である電気的接続をも含む、請求項1に記載のデータ・センター・ネットワーク構造。
  7. 前記第5のノースバウンド接続は4つのグループ・アウトバウンド接続を可能にし、
    前記グループの第1のものの前記3つのグループ・アウトバウンド接続は、前記データ・センター・ネットワーク構造のx次元におけるノースバウンド接続に対するものであり、
    前記グループの第2のものの前記3つのグループ・アウトバウンド接続は、前記データ・センター・ネットワーク構造のy次元におけるノースバウンド接続に対するものであり、
    前記グループの第3のものの前記3つのグループ・アウトバウンド接続は、前記データ・センター・ネットワーク構造のz次元におけるノースバウンド接続に対するものであり、
    前記残りのアウトバウンド接続は、前記データ・センター・ネットワーク構造のより高い次元へのスケーリングに対するものであるか、または前記データ・センター・ネットワーク構造の外側へまたは外側からの通信のために用いられる、請求項6に記載のデータ・センター・ネットワーク構造。
  8. 4つのスーパー・ユニットが、前記データ・センター・ネットワーク構造のx次元ユニットを構築するオール・ツー・オール形に接続される、請求項7に記載のデータ・センター・ネットワーク構造。
  9. 4つのx次元ユニットが、前記データ・センター・ネットワーク構造のy次元グループを構築するオール・ツー・オール形に接続される、請求項8に記載のデータ・センター・ネットワーク構造。
  10. 10のy次元グループが、前記データ・センター・ネットワーク構造のz次元グループを構築するピーターセン・グラフ形によって接続される、請求項9に記載のデータ・センター・ネットワーク構造。
  11. 5つのz次元グループが、前記データ・センター・ネットワーク構造のPODを構築するオール・ツー・オール形に接続される、請求項10に記載のデータ・センター・ネットワーク構造。
  12. 前記10のベース・ユニットのうち3ベース・ユニットの前記3グループの1つの一部ではない前記残りのベース・ユニットは、前記データ・センター・ネットワーク構造のより高い次元にスケーリングするために用いられるか、または前記データ・センター・ネットワーク構造の外側へまたは外側からの通信のために用いられる第5のノースバウンド接続を含む、請求項6に記載のデータ・センター・ネットワーク構造。
  13. データ・センター・ネットワーク構造における複数のノードをネットワーク化するための方法であって、前記方法は、
    マルチホストNICコントローラのサウスバウンド接続に接続されたノードの第1のセットを各々が含む少なくとも10のベース・ユニットを接続するステップであって、前記マルチホストNICコントローラはサウスバウンドよりも高い全帯域幅のノースバウンドを有する、ステップと、
    前記10のベース・ユニットをそれぞれのマルチホストNICコントローラによってグループ内ネットワークとして修正ピーターセン・グラフ形に接続してスーパー・ユニットを構築することによって、前記スーパー・ユニットの前記10のベース・ユニットは、前記10のベース・ユニットのうちの3つを含む3つのグループを含み、前記マルチホストNICコントローラの各々は、前記スーパー・ユニットの他の3つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用い、前記グループの各々の2つのベース・ユニットは第4のノースバウンド接続のそれぞれの1つを介して3ベース・ユニットの前記他の2グループの1つに接続され、前記10のベース・ユニットのうち3ベース・ユニットの前記3グループの1つの一部ではない残りのベース・ユニットは、前記3グループの各々の1つのベース・ユニットへの直接接続のために3つのノースバウンド接続を用いるために適合されるようにするステップとを含み、前記マルチホストNICコントローラはドラゴンフライ・スイッチとして構成される、方法。
  14. 前記ベース・ユニットの1つは、前記グループ内ネットワークに対する外部接続として使用されるように適合された1つの付加的なノースバウンド接続を含む、請求項13に記載の方法。
  15. 物理的に別個のサービス・ネットワークを実現するために、前記マルチホストNICコントローラの任意の付加的に利用可能なノースバウンド接続が用いられる、請求項14に記載の方法。
  16. 各ベース・ユニットは少なくとも1つのサーバを含む、請求項13に記載の方法。
  17. 前記10のベース・ユニットのうち3ベース・ユニットの前記グループの1つの一部ではない前記残りのベース・ユニットは、前記ネットワーク構造の外側へまたは外側からの通信のために用いられる第4のノースバウンド接続を含む、請求項13に記載の方法。
  18. 3ベース・ユニットの前記3グループの各々における各ベース・ユニットは、少なくとも1つの第5のノースバウンド接続を含むことによって、前記3グループの各々が3つのグループ・アウトバウンド接続を可能にし、
    前記グループの第1のものの前記3つのグループ・アウトバウンド接続は、前記データ・センター・ネットワーク構造のx次元におけるノースバウンド接続に対するものであり、
    前記グループの第2のものの前記3つのグループ・アウトバウンド接続は、前記データ・センター・ネットワーク構造のy次元におけるノースバウンド接続に対するものであり、
    前記グループの第3のものの前記3つのグループ・アウトバウンド接続は、前記データ・センター・ネットワーク構造のz次元におけるノースバウンド接続に対するものであり、
    前記残りのアウトバウンド接続は、前記データ・センター・ネットワーク構造のより高い次元へのスケーリングに対するものであるか、または前記データ・センター・ネットワーク構造の外側へまたは外側からの通信のために用いられる、請求項13に記載の方法。
  19. 4つのスーパー・ユニットが、前記データ・センター・ネットワーク構造のx次元ユニットを構築するオール・ツー・オール形に接続される、請求項18に記載の方法。
  20. 4つのx次元ユニットが、前記データ・センター・ネットワーク構造のy次元グループを構築するオール・ツー・オール形に接続される、請求項19に記載の方法。
  21. 10のy次元グループが、前記データ・センター・ネットワーク構造のz次元グループを構築するピーターセン・グラフ形によって接続される、請求項20に記載の方法。
  22. 5つのz次元グループが、前記データ・センター・ネットワーク構造のPODを構築するオール・ツー・オール形に接続される、請求項21に記載の方法。
  23. コンピュータ・プログラムであって、請求項13ないし22のいずれか1項に記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。
JP2019553211A 2017-04-13 2018-04-09 分散スイッチに対するスケーラブル・データ・センター・ネットワーク・トポロジ Active JP6998391B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/486,878 2017-04-13
US15/486,878 US10355939B2 (en) 2017-04-13 2017-04-13 Scalable data center network topology on distributed switch
PCT/IB2018/052457 WO2018189650A1 (en) 2017-04-13 2018-04-09 Scalable data center network topology on distributed switch

Publications (3)

Publication Number Publication Date
JP2020517141A JP2020517141A (ja) 2020-06-11
JP2020517141A5 JP2020517141A5 (ja) 2020-07-27
JP6998391B2 true JP6998391B2 (ja) 2022-02-10

Family

ID=63790423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553211A Active JP6998391B2 (ja) 2017-04-13 2018-04-09 分散スイッチに対するスケーラブル・データ・センター・ネットワーク・トポロジ

Country Status (6)

Country Link
US (2) US10355939B2 (ja)
JP (1) JP6998391B2 (ja)
CN (1) CN110495137B (ja)
DE (1) DE112018001156T5 (ja)
GB (1) GB2574981B (ja)
WO (1) WO2018189650A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190068466A1 (en) * 2017-08-30 2019-02-28 Intel Corporation Technologies for auto-discovery of fault domains
US10644995B2 (en) 2018-02-14 2020-05-05 Mellanox Technologies Tlv Ltd. Adaptive routing in a box
US11005724B1 (en) 2019-01-06 2021-05-11 Mellanox Technologies, Ltd. Network topology having minimal number of long connections among groups of network elements
JP7193734B2 (ja) * 2019-04-16 2022-12-21 富士通株式会社 通信制御プログラム、通信制御方法および情報処理装置
US11658882B1 (en) * 2020-01-21 2023-05-23 Vmware, Inc. Algorithm-based automatic presentation of a hierarchical graphical representation of a computer network structure
US11575594B2 (en) 2020-09-10 2023-02-07 Mellanox Technologies, Ltd. Deadlock-free rerouting for resolving local link failures using detour paths
US11537539B2 (en) 2020-10-19 2022-12-27 Softiron Limited Acceleration of data between a network and local I/O in a NUMA system
US11411911B2 (en) 2020-10-26 2022-08-09 Mellanox Technologies, Ltd. Routing across multiple subnetworks using address mapping
US11870682B2 (en) 2021-06-22 2024-01-09 Mellanox Technologies, Ltd. Deadlock-free local rerouting for handling multiple local link failures in hierarchical network topologies
US11765103B2 (en) 2021-12-01 2023-09-19 Mellanox Technologies, Ltd. Large-scale network with high port utilization
CN115484169A (zh) * 2022-09-09 2022-12-16 山石网科通信技术股份有限公司 网络拓扑结构的构建方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142896A (zh) 2013-05-10 2014-11-12 阿里巴巴集团控股有限公司 一种缓存控制方法和系统
US20160127236A1 (en) 2014-10-31 2016-05-05 Oracle International Corporation System and method for supporting partition-aware routing in a multi-tenant cluster environment
US20160182351A1 (en) 2014-12-23 2016-06-23 Ren Wang Technologies for network packet cache management
US20160285741A1 (en) 2014-03-19 2016-09-29 Bruce Ledley Jacob Efficient High-Radix Networks for Large Scale Computer Systems
WO2016149797A1 (en) 2015-03-23 2016-09-29 Aeponyx Inc. Photonic switches, photonic switching fabrics and methods for data centers

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483096B2 (en) 2008-07-22 2013-07-09 The Regents Of The University Of California Scalable commodity data center network architecture
US8335213B2 (en) 2008-09-11 2012-12-18 Juniper Networks, Inc. Methods and apparatus related to low latency within a data center
US8065433B2 (en) 2009-01-09 2011-11-22 Microsoft Corporation Hybrid butterfly cube architecture for modular data centers
CN103250378B (zh) * 2010-10-22 2017-05-03 飞利浦灯具控股公司 执行网络的自动投用的方法
US9288555B2 (en) 2011-11-01 2016-03-15 Plexxi Inc. Data center network architecture
WO2013115177A1 (ja) * 2012-01-30 2013-08-08 日本電気株式会社 ネットワークシステム、及びトポロジー管理方法
US9137119B2 (en) 2013-03-07 2015-09-15 Cisco Technology, Inc. Efficient handling of multi-destination traffic in an internet protocol fabric data center
US9166886B1 (en) 2013-06-19 2015-10-20 Google Inc. Systems and methods for determining physical network topology
CN103327095B (zh) 2013-06-20 2016-03-02 电子科技大学 一种可扩展的数据中心网络架构的实现方法
US9219671B2 (en) * 2013-12-06 2015-12-22 Dell Products L.P. Pro-active MPIO based rate limiting to avoid iSCSI network congestion/incast for clustered storage systems
US9300568B2 (en) * 2014-03-21 2016-03-29 Telefonaktiebolaget L M Ericsson (Publ) Procedure to add alternate paths for IS-IS default route

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142896A (zh) 2013-05-10 2014-11-12 阿里巴巴集团控股有限公司 一种缓存控制方法和系统
US20160285741A1 (en) 2014-03-19 2016-09-29 Bruce Ledley Jacob Efficient High-Radix Networks for Large Scale Computer Systems
US20160127236A1 (en) 2014-10-31 2016-05-05 Oracle International Corporation System and method for supporting partition-aware routing in a multi-tenant cluster environment
WO2016069927A1 (en) 2014-10-31 2016-05-06 Oracle International Corporation System and method for supporting partition-aware routing in a multi-tenant cluster environment
US20160182351A1 (en) 2014-12-23 2016-06-23 Ren Wang Technologies for network packet cache management
CN105721352A (zh) 2014-12-23 2016-06-29 英特尔公司 用于网络分组高速缓冲存储器管理的技术
JP2016123077A (ja) 2014-12-23 2016-07-07 インテル コーポレイション ネットワークパケットのキャッシュ管理のための技術
WO2016149797A1 (en) 2015-03-23 2016-09-29 Aeponyx Inc. Photonic switches, photonic switching fabrics and methods for data centers

Also Published As

Publication number Publication date
GB2574981B (en) 2022-03-30
CN110495137A (zh) 2019-11-22
US10659309B2 (en) 2020-05-19
GB201914518D0 (en) 2019-11-20
JP2020517141A (ja) 2020-06-11
US20190245753A1 (en) 2019-08-08
WO2018189650A1 (en) 2018-10-18
US20180302288A1 (en) 2018-10-18
GB2574981A (en) 2019-12-25
US10355939B2 (en) 2019-07-16
CN110495137B (zh) 2022-06-14
DE112018001156T5 (de) 2019-12-05

Similar Documents

Publication Publication Date Title
JP6998391B2 (ja) 分散スイッチに対するスケーラブル・データ・センター・ネットワーク・トポロジ
ES2720256T3 (es) Comunicación internodal directa escalable sobre una interconexión de componentes periféricos expreso ¿ (Peripheral Component Interconnect Express (PCIE))
US9507743B2 (en) Computer system with groups of processor boards
Weerasinghe et al. Enabling FPGAs in hyperscale data centers
CN104750559B (zh) 跨多节点的存储器资源的池化
US10831688B2 (en) Reconfigurable network infrastructure
RU2543558C2 (ru) Способ и усройство маршрутизации ввода-вывода и карта
US10616141B2 (en) Large scale fabric attached architecture
US20140177473A1 (en) Hierarchical asymmetric mesh with virtual routers
US11121969B2 (en) Routing between software defined networks and physical networks
US9893950B2 (en) Switch-connected HyperX network
US20190243796A1 (en) Data storage module and modular storage system including one or more data storage modules
US10394738B2 (en) Technologies for scalable hierarchical interconnect topologies
US9749221B2 (en) Multi-destination packet handling at overlay virtual network tunneling endpoints
US20220006702A1 (en) Configuring computing nodes in a three-dimensional mesh topology
US9813356B1 (en) Calculating bandwidth information in multi-stage networks
US10169048B1 (en) Preparing computer nodes to boot in a multidimensional torus fabric network
US20120023260A1 (en) Diagonally enhanced concentrated hypercube topology
EP3494672B1 (en) Techniques for interconnection of controller-and protocol-based virtual networks
US9774498B2 (en) Hierarchical asymmetric mesh with virtual routers
JP6870487B2 (ja) 情報処理システム及び情報処理方法
CN116346521A (zh) 网络系统及数据传输方法
TW202418063A (zh) 包括可擴展記憶體池的系統

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 6998391

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150