JP7212647B2 - コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置 - Google Patents

コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置 Download PDF

Info

Publication number
JP7212647B2
JP7212647B2 JP2020101405A JP2020101405A JP7212647B2 JP 7212647 B2 JP7212647 B2 JP 7212647B2 JP 2020101405 A JP2020101405 A JP 2020101405A JP 2020101405 A JP2020101405 A JP 2020101405A JP 7212647 B2 JP7212647 B2 JP 7212647B2
Authority
JP
Japan
Prior art keywords
interconnection
connectors
torus
interconnection network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020101405A
Other languages
English (en)
Other versions
JP2020173822A (ja
Inventor
ダン オプレア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2020173822A publication Critical patent/JP2020173822A/ja
Application granted granted Critical
Publication of JP7212647B2 publication Critical patent/JP7212647B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B6/00Light guides; Structural details of arrangements comprising light guides and other optical elements, e.g. couplings
    • G02B6/46Processes or apparatus adapted for installing or repairing optical fibres or optical cables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/02Constructional details
    • H04Q1/13Patch panels for monitoring, interconnecting or testing circuits, e.g. patch bay, patch field or jack field; Patching modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Description

本発明は、コンピュータネットワークトポロジ及びアーキテクチャに関する。具体的には、本発明は、例えばトーラス又はそれよりも高基数配線構造に実装された直接相互接続スイッチの配線及び成長を管理する方法及び装置に関する。
データセンタ(DC)という用語は、一般に膨大な量の構造化ケーブルによって全てが接続された(多くの場合、設備を収容するラックに収容された)大規模コンピュータシステム及び関連するコンポーネントを収容するために使用される施設を意味する。クラウドデータセンタ(CDC)という用語は、一般にエンティティのデータを同様に記憶する他社運用型施設を意味する。
ネットワークスイッチは、ネットワークデバイスを通信/処理の目的でリンクするコンピュータネットワーク装置である。換言すれば、スイッチは、スイッチに接続されているいずれかのデバイスからメッセージを受け取り、メッセージの中継先である特定のデバイスにメッセージを送信できる電気通信デバイスである。ネットワークスイッチは、一般にデータの処理及びルーティングを行うマルチポートネットワークブリッジとも呼ばれる。ここでは、ポートは、スイッチと、スイッチが取り付けられたコンピュータ/サーバ/CPUとの間のインターフェイス(ケーブル又はプラグの差し込み口)を意味する。
今日、DC及びCDCは、一般にレイヤ2スイッチの組を用いてデータセンタネットワーキングを実装している。レイヤ2スイッチは、同じローカルエリアネットワーク上のノード(例えば、サーバ)間、又はワイドエリアネットワーク内の隣接するノード間でデータを転送するプロトコル層であるレイヤ2というデータリンク層においてデータを処理してルーティングする。一方で、解決すべき主な課題は、非常に多くの(数千もの)ポートを含む超広集約帯域幅(数百TB)を搬送することができ、最低限の構造及び場所しか必要とせず(すなわち、カードラックを含む数多くのキャビネットを収容するための大部屋の必要性を最小限に抑え)、容易に拡張することができ、消費電力の最小化を支援することができる大容量コンピュータネットワークをいかにして構築するかである。従来のネットワークトポロジの実装は、図1に示すように、階層的ツリー構造で組織化された完全に独立したスイッチに基づく。コアスイッチ2は、スイッチィング容量が非常に大きな超高速の少数ポートである。第2層は、多くのポートを含む中容量スイッチである集約スイッチ4を用いて実装され、第3層は、低速でポート数が多く(40/48)低容量のエッジスイッチ6を用いて実装される。通常、エッジスイッチはレイヤ2であり、集約ポートはレイヤ2及び/又はレイヤ3であり、一般にコアスイッチはレイヤ3である。この実装は、あらゆるサーバ8に、図示の例では最大6ホップリンク(コアスイッチ2までの3ホップと、宛先サーバ8までの3つの下りホップ)のサーバ接続性を提供する。また、このような階層構造は、通常、冗長信頼性のために二重化される。例えば、図1を参照すると、二重化されていなければ、右端のエッジスイッチ6が故障した場合、右端のサーバ8との接続性が存在しなくなる。コアスイッチ2が故障すると、データセンタ全体の接続性障害が生じるので、少なくともコアスイッチ2は二重化される。明らかな理由により、この方法には、将来的なDC又はCDCの課題に対処する上で大きな制限がある。例えば、各スイッチが完全に自己完結型であることにより、複雑性、広い床面積利用、ヒューマンエラーが生じやすい複雑なケーブル配線及び手動スイッチの構成/プロビジョニング、並びにエネルギーコストの増加が加わる。
一方で、データセンタにおけるスイッチングの拡張性、信頼性、容量及び遅延を改善する多くの試みが行われてきた。例えば、統合制御プレーン(例えば、Juniper Networks社製のQFabricシステムスイッチ、例えば、http://www.juniper.net/us/en/products-services/switching/qfabric-system/を参照されたい)を用いてさらに複雑なスイッチング解決策を実装する努力が行われてきたが、このようなシステムは、依然として従来の階層アーキテクチャを使用し、これを維持するものである。また、システムユーザの数、並びに記憶し、アクセスし、処理すべきデータ数の急激な増加を考えると、コンピュータネットワークシステムの性能要件を決定する際には、処理能力が最も重要な要素となってきている。サーバ性能は絶えず改善されているが、1つのサーバでは、このニーズを満たすほど十分に強力ではない。このことが、並列処理の使用が最重要になってきた理由である。この結果、大部分がnorth-southトラフィックフローであったものが、現在では、最大80%もの多くの事例において主にeast-westトラフィックフローになってきている。このトラフィックフローの変化に関わらず、ネットワークアーキテクチャは、このモデルに最適となるように進化していない。従って、並列処理通信中のCPU間の相互作用速度を決定するのは、依然として(コンピュータノード(サーバ)を相互接続する)通信ネットワークのトポロジである。
east-westトラフィック通信を増加させるニーズは、新しいフラットなネットワークアーキテクチャ、例えばトロイダル/トーラスネットワークの形成をもたらした。
トーラス相互接続システムは、並列コンピュータシステムにおいてネットワークノード(サーバ)をメッシュ状に接続するネットワークトポロジである。トーラストポロジは、ノードを2次元、3次元又はそれよりも多くの(N)次元で配置することができ、この配置では、プロセッサ/サーバが最も近い隣接プロセッサ/サーバに接続され、アレイの反対端のプロセッサ/サーバ同士が接続されたアレイとして視覚化することができる。このように、N次元のトーラス構成では、各ノードが2N個の接続を有する(図2に、3Dトーラス相互接続の例を示す)。トーラストポロジにおける各ノードは、短いケーブルを介して隣接ノードに接続されているので、並列処理中のネットワーク遅延が少ない。実際に、トーラストポロジでは、あらゆるノード(サーバ)に最小のホップ数でアクセスすることができる。例えば、3×3×3×4の構造(108ノード)を実装する4次元トーラスでは、any-to-any接続を提供するために必要なホップ数は平均2.5ホップである。残念ながら、大規模トーラスネットワークの実装は、大規模実装の構築に何年も掛かり、ケーブル配線が複雑であり(各ノードにつき2N個の接続)、拡張が必要な場合に変更コストが掛かり面倒となり得るので、DC又はCDCにおける商用展開には実用的でなかった。しかしながら、処理能力のニーズが商業上の欠点を上回る場合には、スーパーコンピュータにおけるトーラストポロジの実装が非常に功を奏してきた。この点、IBM社のBlue Geneスーパーコンピュータは、64個のキャビネットが65,536個のノード(131,072個のCPU)を収容して数ペタフロップの処理能力を提供する3-Dトーラス相互接続ネットワークの例であり(図3の例示を参照)、富士通(Fujitsu)社のPRIMEHPC FX10スーパーコンピュータシステムは、98,304個のノードを含む1,024個のラックに収容された6-Dトーラス相互接続の例である。上記の例は、トーラストポロジに対応するものであるが、他のフラットネットワークトポロジにも等しく適用可能である。
本発明は、DC及びCDCでの商用展開にとって有益かつ実用的なシステム及びアーキテクチャを提供することにより、このような先行技術のネットワークトポロジの欠点を克服しようとするものである。
本発明は、1つの態様において、トーラス又はそれよりも高基数の相互接続構造に実装された直接相互接続ネットワークの配線及び成長を管理する方法であって、複数のコネクタを有する少なくとも1つのコネクタボードを含む受動パッチパネルのコネクタの各々に相互接続プラグを実装するステップと、コネクタから相互接続プラグを取り外し、プラグを、サーバ内に収容されたPCIeカードに取り付けられた接続ケーブルに交換して、相互接続構造にサーバを追加するステップと、相互接続構造に対するサーバの接続性を発見するステップと、サーバが相互接続構造に追加されたことに基づいて、相互接続構造のトポロジを発見するステップとを含む方法を提供する。
本発明は、別の態様において、トーラス又はそれよりも高基数の相互接続の実装において使用する受動パッチパネルであって、トーラス又はそれよりも高基数の相互接続のノード間接続性を収容する受動バックプレーンと、この受動バックプレーンに接続された、複数のコネクタを含む少なくとも1つのコネクタボードとを備えた受動パッチパネルを提供する。受動パッチパネルは、電気パッチパネル、光パッチパネル、又は電気パッチパネルと光パッチパネルとの混成とすることができる。光受動パッチパネルは、同じファイバ上の複数の光波長を組み合わせることができる。少なくとも1つのコネクタボードの複数のコネクタの各々は、必要に応じて電気プラグ又は光プラグとすることができる相互接続プラグを受け入れて、トーラス又はそれよりも高基数のトポロジの連続性を維持することができる。
本発明は、さらに別の態様では、トーラス又はそれよりも高基数の相互接続の実装において使用するPCIeカードであって、トーラス又はそれよりも高基数の相互接続のための少なくとも4つの電気又は光ポートと、ローカルスイッチと、RAM及びROMメモリを含むプロセッサと、PCIインターフェイスとを備えたPCIeカードを提供する。ローカルスイッチは、電気スイッチ又は光スイッチとすることができる。PCIeカードは、ポートからPCIへのトラフィック、ヘアピン型トラフィック、及びadd/dropを伴う通過トラフィックをサポートすることができる。PCIeカードは、同じファイバ上の複数の光波長をさらに組み合わせることができる。
以下、添付図面を参照しながら本発明の実施形態を一例として説明する。
従来のデータセンタネットワークの実装(先行技術)の高水準図である。 8個のノードを有する3次元トーラス相互接続(先行技術)の図である。 トーラスアーキテクチャを用いたIMB社のBlue Gene処理ユニットの階層(先行技術)を示す図である。 本発明の実施形態による3D及び4Dトーラス構造の高水準図である。 ネットワーク相互接続の分かりやすい例としての、本発明の実施形態による36ノード2-Dトーラスの図である。 図5に示す2-D構成を3回複製して第3の次元で相互接続した3次元構成を示す図である。 図5に示す2-Dトーラスのノード接続性の配線図である。 図6に示す3-Dトーラスのノード接続性の配線図である。 本発明の直接相互接続ネットワークのための配線を実装するラックパッチパネルトップ(TPP)の受動バックプレーンを示す図である。 本発明のTPP及び相互接続プラグを示す図である。 非動力式集積回路を用いてコネクタID及びパッチパネルID、並びにTPPに接続されたPCIeカードを識別するTPPの受動バックプレーンの背面図である。 TPPの受動バックプレーンの別の実施形態を示す図である。 本発明の光TPPの実装の高水準図である。 本発明によるTPPの実装を用いたデータセンタサーバラックの高水準図である。 ラックトップスイッチ、及びサーバに収容されたPCIeカードによってノードを実装したトーラストポロジのハイブリッド実装の高水準図である。 本発明によるPCIeカードの実装のブロック図である。 図16に示すPCIeカードによってサポートされるパケットトラフィックフローを示す図である。 本発明による光多重波長を用いたPCIeカードのブロック図である。 本発明の受動的光多重波長の実装を有するTPPの高水準図である。 4Dトーラス構造の配線のためのネットリストを生成する疑似コードを示す図である。 4Dトーラス構造の配線のためのネットリストを生成する疑似コードを示す図である。 4Dトーラス構造の配線のためのネットリストを生成する疑似コードを示す図である。 TPPに取り付けられたコネクタを示す図である。 非動力式集積回路を用いてコネクタID及びパッチパネルIDを識別するTPPのコネクタボードの背面図である。
本発明は、トーラスメッシュ又はそれよりも高基数の配線を用いて、データセンタ用途のための直接相互接続スイッチングを実装する。このようなアーキテクチャは、単一のスイッチングドメイン内で数万台のサーバを相互接続するために、高性能でフラットなレイヤ2/3ネットワークを提供することができる。
図4に示すように、構造全体にわたってパケットルーティングの効率性を高めるために、使用するトーラスは多次元(すなわち、3D、4Dなど)である(ただし、展開によっては単一次元トーラスを使用することもできる)。この点、any-to-any接続のための最小数のホップしか存在しない(例えば、3×3×3×4構造(108ノード)を実装する4次元トーラスでは、any-to-any接続を提供するために平均2.5ホップしか必要としない)。ノード10(サーバ)は、最も近い隣接ノード10(サーバ)及び構造の反対端のノード10(サーバ)に接続されるので、各ノード10(サーバ)は、各次元においてリング接続(12、14、16及び18)の形で接続されているように視覚化することができる。これにより、N次元のトーラス構成では、各ノード10が2N個の接続を有する。リング接続自体は、電気的相互接続又は光学的相互接続、或いは電気的相互接続と光学的相互接続の組み合わせとして実装することができる。
しかしながら、このようなトポロジにおいて対処すべき1つの問題点は、既存の実装に影響を与えずにネットワーク内に新たなノードを追加する際に、配線の単純化及び単純性を促すことによって展開の複雑性をいかにして低減するかである。これが本発明の1つの態様であり、本開示は、大型トーラス又はそれよりも高基数の構造を実装する際の配線問題に対処する。
図5に、説明を簡単にするために、6×6の36個のノード構成の単純な2Dトーラス配線図を示す。図示のように、この構造は、全体を通じて各接続(12、13)の長さが等しい折り畳み式2Dトーラスである。この図の各ノード10は、サーバ内に収容された(例えば、図16に示す)PCIeスイッチカード41を介して相互接続されたサーバを表す。
図6には、図5の2D構成を用いて、ただし3回複製して第3の次元で相互接続して構築した3次元構成を示す。
図7は、図5に示す2次元トーラス構造の配線図である。図示の実装では、36個のノード10の各々が、PCIeカード41(図示せず)からのケーブルが差し込まれた時にスイッチ配線を提供する4つの接続部(北(N)、南(S)、東(E)、西(W))を含む(例えば、Molex社又はNational Instruments社などによって供給されている超高密度ケーブル相互接続(VHDCI)コネクタとすることができる)コネクタ21を有する。配線を単純にするために、コネクタ21は、(図10及び図14に示すような)ラックパッチパネルトップ(TPP)31に収容される(図9に示すような)受動バックプレーン200において相互接続される。図9に示す受動バックプレーン200には、7×6の2Dトーラス構成を実装する42個のコネクタ21が実装された(図の中央に点線で示す)主フィールド、第3の次元における拡張のための6つのコネクタ21のグループが2つ実装された(点線で示す)左側のフィールド、及び第4の次元における拡張を可能にするための6つのコネクタ21のグループを2つ含む(点線で示す)右側のフィールドという3つのフィールドを示している。この3D拡張は、TPPからの(PCIeカード41をTPPのコネクタ21に接続するケーブルと同じタイプの)6つのケーブルをサーバの異なるラック33上のTPPに接続することによって実装される。TPPパッチパネルバックプレーンの実装は、必要に応じて変更することもでき、当業者であれば、プリント基板(バックプレーン200)を単純に取り替えることにより、必要に応じて異なるトーラス構造(例えば、5D、6Dなど)を実装するように配線を変更することができる。ラック33内に新たなサーバを追加する際に、従うべき制約又は規則を伴わずに構造を成長させることができるように、小型の相互接続プラグ25を利用することができる。このプラグ25は、TPPの製造時に全てのコネクタ21に実装することができる。このようにして、最初に全てのリング接続を閉じ、必要に応じてプラグ25をサーバからのPCIeケーブルに交換することによってトーラス相互接続を構築する。
図8は、3次元トーラス構造の配線図である。例えば、図の左上のノードに示す、PCIeケーブルを+X、-X、+Y、-Y、+Z及び-Zの3D構造に取り付けるための6つの接続部に注目されたい。3Dトーラスのケーブル配線に対応できるTPPの実装は、図8に示す配線図に従ってあらゆるコネクタ21を他の全てのコネクタ21に接続するように設計される。
図20a~図20cに示す、(3D、5Dなどの実装又はそれ以外の実装に容易に変更できる)4Dトーラス配線を実装するための疑似コードを用いて、TPPの接続性のネットリストを生成する新規の方法について説明する。3Dトーラス(Z,Y,X)では、各ノード10が、リングZ、リングY及びリングXという3つのリングの交点に存在する。ネットワークアーキテクチャの当業者がラック33内の全てのサーバ(最大42個のサーバ、上述した図9の中央部分を参照されたい)を直ちに相互接続したいと望む場合には制約が存在せず、サーバをランダムに配線することができる。この方法では、展開が非常に単純化され、サーバを追加して特別な接続ルールを伴わずにケーブルをTPPに接続すれば、トーラス構造の完全性が維持される。当業者が実装方法を知っているネットワーク管理システムは、TPP及び全ての相互接続されたサーバを含むデータセンタネットワークの完全なイメージを維持し、接続状態及び各ノードに必要な全ての情報を提供する。
図11に示すように、(ノードサーバに収容された)各PCIeカード41は、ケーブル36によってTPPに接続される。PCIeカード41をTPPに接続するケーブル36は、8つのポート40(図16を参照)への接続を提供し、管理目的でTPPへの接続も提供する。バックプレーン200は、全てのコネクタ21に取り付けられた非動力式電子デバイス/集積回路(IC)230を含む。PCIeカード41上で動作するソフトウェアは、PCIeカード41の接続先のコネクタIDを取得するためにデバイス230に問い合わせを行う。コネクタに取り付けられた全てのデバイス230は、全てのコネクタを一意に識別する受動抵抗器の組み合わせを使用する。
電子デバイス240を用いて、インストール時にプログラムすることができるTPP識別機構(パッチパネルID)も実装される。デバイス240のローカル永続メモリは、製造日、バージョン、構成及びIDなどの他の情報を保持することもできる。PCIeカードに対するデバイス240の接続性は、ソフトウェアによる要求時にこれらの情報の転送を可能にする。
ソフトウェアは、カードの初期化時にIC230に電力を加えてコネクタ21のIDを読み取る。実用的な実装には、電力及び接地のための2つの接続、並びに「1-Wire」技術を用いてコネクタ21のIDを読み取るための第3の接続という配線接続が必要である。
インストール時に管理ソフトウェアをプログラムされたパッチパネルIDも、IC230と同じ配線を用いて同様に読み取ることができる。非動力式デバイス240は、ソフトウェアの制御下で読み取り/書き込みトランザクションをサポートできる不揮発性メモリを有する。IC240は、製造情報、TPPバージョン、及びTPPのIDを保持することができる。
図12に、単独のプリント基板26をバックプレーンとして使用する別の受動パッチパネルの実装オプションを示す。この実装は、ラック内のサーバの数を大幅に増やし、コネクタ/配線の選択の柔軟性をもたらすこともできる。
コネクタ21を支持するプリント基板23は、大容量コネクタ22を介してバックプレーン26に接続される。プリント基板24も大容量コネクタ22を有し、やはりバックプレーン26に接続されてコネクタボード23への接続性を提供する。
ボード24上の大容量コネクタ21は、TPPラック33をラック33に相互接続するために使用することができる。
バックプレーン26には、直接相互接続配線が実装される。(様々な理由で)配線を変更する場合には、変更すべき唯一のデバイスは常にバックプレーン26である。例えば、超大型トーラスの実装に変更が必要な場合(例えば、10,000台のサーバ構成では、最も効率的な4Dトーラスは、6×7×16×15の使用を試みることではなく10×10×10×10構成であり、160,000台のサーバ展開では、最も効率的な構成は20×20×20×20構成である)、コネクタボード23及び24を同じように維持しながら単純にバックプレーン26を変更することにより、これらの構成を収容することができる。
図13に、光学的パッチパネルの実装を示す。このような実装は、図5又は図6に示す配線図(2D又は3Dトーラス)のようにポート間ファイバ相互接続を前提とする。ボード28及び29上の光コネクタは、光ファイバ27(例えば、PCB又はバックプレーン上で高密度の光ルーティングを行うMolex社製の高密度FlexPlane光回路)を用いて相互接続される。光TPPは、製造時にファイバ接続されることが好ましく、光プラグ250は、製造中にTPPに装着されるべきである。コネクタ及び光プラグ250は、低損失であることが好ましい。コネクタの光損失は、コネクタタイプ(例えば、コリメーションに微小光学レンズを使用しているか否か)及び波長(例えば、Cバンドにおけるシングルモードファイバでは、1340nmにおけるマルチモードファイバよりも光損失の導入が少ない)によって決まる。
図19に、光TPPの別の実装オプションを示す。この実装は、光波長多重を用いて物理的接続部(ファイバ)の数を劇的に低減する。TPPに追加される新たなコンポーネントは、同じファイバ上で複数の光波長を組み合わせる受動光マルチプレクサ-デマルチプレクサ220である。ファイバ27は、マルチプレクサ-デマルチプレクサ220の出力を相互接続して、光学的直接相互接続トーラス構造を実装する。(TPP間で)異なる2つのラックを接続するために、コネクタ222を使用する。この実装は、図18に示すようなPCIeカード41の修正バージョンを必要とする。カード41は、光マルチプレクサ-デマルチプレクサ220と、異なる波長における光送信機225と、光受信機224とを含む。
TPPは、電気/光のハイブリッド実装として展開することもできる。このような場合、トーラスノードは、光ポート及び電気ポートを有するようになる。通常、ハイブリッド実装は、超大規模データセンタへの接続を行うために使用される。ラックレベルにおいて電気的接続を使用し、全てのラック間相互接続又は地理的に分散したデータセンタ相互接続において光接続を使用することもできる。電気ケーブルは、しばしば低速接続(例えば、1Gbps又はそれよりも低速の10/100Mbps)に使用される。高速の接続(例えば、10Gbps)には、特別な電気ケーブルを使用することができる。高速の相互接続ネットワークは、到達距離が長く超高速(例えば、100Gbps又は400Gbps)をサポートできるという理由で光伝送を使用することができる。
図15に、コンピュータサーバ及びストレージサーバのハイブリッド構成を実装するのに適したトーラス構造においてラックトップ(ToR)スイッチ38とPCIeカード41ベースのサーバ相互接続とを用いた組み合わせ展開を示す。PCIe41ベースの実装は、サーバ内のPCIポートが固定スイッチポート帯域幅よりも実質的に高い帯域幅(例えば、1Gbps又は10Gbps)に対応できるので、add/drop帯域幅が高いという利点を有する。4Dトーラスの実装をサポートするPCIeカード41は、トーラスリンクの相互接続帯域幅の最大8倍に対応することができる。
ToRスイッチ38は、通常のレイヤ2イーサネット(登録商標)スイッチである。このスイッチは、ToRスイッチがトーラスノードであるトーラス構成において、サーバへの接続及び他のToRスイッチへの接続を提供する。本発明のこの実施形態によれば、TPP31の修正バージョンをさらに用いて、ToRスイッチ38とPCIeカード41とが相互接続される。
図16は、本発明のPCIeカードの実装のブロック図である。このカードは、マルチポートネットワークインターフェイスカード(NIC)と見なすことができる。PCIeカード41は、RAM47及びROM48メモリを含むプロセッサ46と、パケットスイッチ44と、イーサネットPHYインターフェイスデバイス45とを含む。図示のカード41は、PCIe接続部42及び8個のインターフェイスポート40を有しており、すなわち図示のカードは、最大4次元のトーラス直接相互接続ネットワークの実装を可能にすることができる。
図17に、カード41によってサポートされるパケットトラフィックフローを示す。各ポート40は、PCIポート42にアクセスすることができる。従って、(400によって示すような)ポートからPCIへのトラフィックでは、ポート40の総数を8とした場合、総帯域幅はポート容量の8倍である。ポートの数は、トーラスメッシュの接続性を決定する。8ポートPCIeカードの実装は、最大4次元のトーラス(x+、x-、y+、y-、z+、z-、及びw+、w-)を可能にする。
カード41によってサポートされる第2のタイプのトラフィックは、(410によって示すような)ヘアピン型トラフィックである。このトラフィックは、1つのポートから別のポートにトラフィックが切り替えられ、トラフィックが単純にノードを通過する場合に生じる。カード41によってサポートされる第3のタイプのトラフィックは、(420によって示すような)add/dropを伴う通過トラフィックである。このトラフィックは、1つのポートからの入力トラフィックの一部がPCIポートに流れ、一部が別のポートに向け直される場合、或いは入力トラフィックがPCIポートからのトラフィックと融合して別のポートに向け直される場合に生じる。
これらの通過トラフィック及びadd/dropトラフィックの能力により、各ノードをトラフィックadd/dropノードとすることができる直接相互接続ネットワークが実装される。
33 ラック
38 ToRスイッチ
41 PCIeスイッチカード

Claims (4)

  1. トーラス又はそれよりも高基数の相互接続構造に実装された互接続ネットワークの配線及び成長を管理する方法であって、
    最初に前記相互接続ネットワーク内の1以上の接続を閉じるために、各々に相互接続プラグを有する複数のコネクタを有する受動パッチパネルを実装するステップであって、
    前記受動パッチパネルは、受動バックプレーンを含み、
    前記受動バックプレーンは、複数のコネクタのフィールドを含み、
    前記複数のコネクタのフィールドは、
    1以上の次元で相互接続ネットワーク実装ためのコネクタの主フィールド、及び
    以上の追加の次元で前記相互接続ネットワークの拡張を可能にするネクタの2のフィールドを含む、ステップと、
    前記コネクタの主フィールドにおける1つのコネクタから相互接続プラグを取り外し、前記相互接続プラグを、ノードに取り付けられた接続ケーブルと交換して、前記ノードを前記相互接続ネットワークに追加するステップと、
    前記相互接続ネットワークに対する前記ノードの接続性を発見するステップと、
    前記相互接続ネットワークのトポロジを発見するステップと、
    を含むことを特徴とする方法。
  2. 前記コネクタの2のフィールドにおける1つのコネクタから相互接続プラグを取り外し、前記相互接続プラグを、の受動パッチパネルに取り付けられた接続ケーブルと交換して、1以上の追加の次元で前記相互接続ネットワークを拡張するステップと、
    前記相互接続ネットワーク内のノードの接続性を発見するステップと、
    前記相互接続ネットワークのトポロジを発見するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  3. トーラス又はそれよりも高基数の相互接続ネットワークの実装において使用する受動パッチパネルであって、
    受動バックプレーンを含み
    前記受動バックプレーンは複数のコネクタのフィールドを含み
    前記複数のコネクタのフィールドは、
    1以上の次元で相互接続ネットワーク実装ためのコネクタの主フィールド、及び
    以上の追加の次元で相互接続ネットワークの拡張を可能にするネクタの2のフィールド
    を含み、
    前記コネクタの主フィールドにおける各コネクタは、最初に前記トーラス又はそれよりも高基数の相互接続ネットワークの1以上の接続を閉じるために、相互接続プラグによって装着され、
    前記相互接続プラグの各々は、ノードを前記相互接続ネットワークに追加するために、前記ノードに取り付けられた接続ケーブルによって取り替えることができ、
    前記コネクタの2のフィールドにおける各コネクタは、最初に前記トーラス又はそれよりも高基数の相互接続ネットワークの1以上の接続を閉じるために、相互接続プラグによって装着され、
    前記相互接続プラグの各々は、1以上の追加の次元で前記相互接続ネットワークを拡張するために、の受動パッチパネルに取り付けられた接続ケーブルによって取り替えることができる、
    ことを特徴とする受動パッチパネル。
  4. サーバ内に収容され、トーラス又はそれよりも高基数の相互接続ネットワークの実装において使用するための、請求項3に記載の受動パッチパネルのコネクタの主フィールドにおける1つコネクタへのケーブルによる接続性を有するPCIエクスプレス(PCIe)カードであって、
    PCIインターフェイスと、
    ランダムアクセスメモリ(RAM)と読み取り専用メモリ(ROM)を含むプロセッサと、
    ローカルスイッチと、
    少なくとも1つのPHYインターフェイスと、
    少なくとも2次元のトーラス直接相互接続ネットワーク又はそれよりも高基数の相互接続ネットワークの実装を提供するための少なくとも4つのインターフェイスポートと、
    を含み、
    前記ローカルスイッチは前記相互接続ネットワーク内のPCIeカード間のパケット交換を提供し、
    前記PCIeカードは、ポートからPCIへのトラフィック、ヘアピン型トラフィック、及びadd/dropを伴う通過トラフィックをサポートすることができ
    ことを特徴とするPCIeカード。
JP2020101405A 2013-08-29 2020-06-11 コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置 Active JP7212647B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361871721P 2013-08-29 2013-08-29
US61/871,721 2013-08-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016537055A Division JP6861514B2 (ja) 2013-08-29 2014-08-29 コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置

Publications (2)

Publication Number Publication Date
JP2020173822A JP2020173822A (ja) 2020-10-22
JP7212647B2 true JP7212647B2 (ja) 2023-01-25

Family

ID=52585325

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016537055A Active JP6861514B2 (ja) 2013-08-29 2014-08-29 コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置
JP2020101405A Active JP7212647B2 (ja) 2013-08-29 2020-06-11 コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016537055A Active JP6861514B2 (ja) 2013-08-29 2014-08-29 コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置

Country Status (11)

Country Link
US (2) US9965429B2 (ja)
EP (1) EP3022879B1 (ja)
JP (2) JP6861514B2 (ja)
KR (1) KR102309907B1 (ja)
CN (2) CN110109854A (ja)
AU (3) AU2014311217B2 (ja)
CA (6) CA2951684C (ja)
DK (1) DK3022879T3 (ja)
HK (1) HK1226207A1 (ja)
IL (1) IL244270B (ja)
WO (1) WO2015027320A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6861514B2 (ja) 2013-08-29 2021-04-21 ダン オプレア コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置
US20150295756A1 (en) * 2014-04-10 2015-10-15 Nec Laboratories America, Inc. Hybrid Optical/Electrical Interconnect Network Architecture for Direct-connect Data Centers and High Performance Computers
CN105224501B (zh) * 2015-09-01 2018-10-02 华为技术有限公司 改进圆环面网络及其确定数据包传输路径的方法和装置
CN106612243A (zh) * 2015-10-21 2017-05-03 中兴通讯股份有限公司 背板组件以及通信设备
US9921997B2 (en) * 2016-04-01 2018-03-20 Intel Corporation Mechanism for PCIE cable topology discovery in a rack scale architecture environment
US10356008B2 (en) * 2017-06-28 2019-07-16 International Business Machines Corporation Large scale fabric attached architecture
US10088643B1 (en) 2017-06-28 2018-10-02 International Business Machines Corporation Multidimensional torus shuffle box
US10571983B2 (en) 2017-06-28 2020-02-25 International Business Machines Corporation Continuously available power control system
US10169048B1 (en) 2017-06-28 2019-01-01 International Business Machines Corporation Preparing computer nodes to boot in a multidimensional torus fabric network
CA2982147A1 (en) 2017-10-12 2019-04-12 Rockport Networks Inc. Direct interconnect gateway
CN108183872B (zh) * 2017-12-27 2020-12-22 中科曙光信息产业成都有限公司 交换机系统及其构建方法
US10623101B1 (en) 2018-08-07 2020-04-14 Hewlett Packard Enterprise Development Lp Hyperscale photonics connectivity solution
US10757041B2 (en) * 2018-12-03 2020-08-25 Hewlett Packard Enterprise Development Lp Full server-level redundancy using a single network interface controller(NIC) and a single NIC card
CN112532756B (zh) * 2019-09-17 2023-10-24 华为技术有限公司 接口扩展方法、装置和系统
CN110929463A (zh) * 2019-11-08 2020-03-27 苏州浪潮智能科技有限公司 一种8G/8Port半高半长光纤卡
WO2022096927A1 (en) * 2020-11-03 2022-05-12 Rockport Networks Inc. Devices for interconnecting nodes in a direct interconnect network
US20230327976A1 (en) * 2021-06-23 2023-10-12 Rockport Networks Inc. Deadlock-free multipath routing for direct interconnect networks
CN115714930A (zh) * 2022-09-30 2023-02-24 超聚变数字技术有限公司 数据转发设备、计算设备及机柜

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080307082A1 (en) 2007-06-05 2008-12-11 Xiaohua Cai Dynamically discovering a system topology
JP2011141803A (ja) 2010-01-08 2011-07-21 Nec Corp 並列計算機

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196355A (ja) * 1989-12-26 1991-08-27 Mitsubishi Electric Corp 並列計算機
US5588152A (en) * 1990-11-13 1996-12-24 International Business Machines Corporation Advanced parallel processor including advanced support hardware
US5590345A (en) * 1990-11-13 1996-12-31 International Business Machines Corporation Advanced parallel array processor(APAP)
JP2552075B2 (ja) * 1992-05-22 1996-11-06 インターナショナル・ビジネス・マシーンズ・コーポレイション コンピュータ・システム
US6421251B1 (en) * 1997-05-02 2002-07-16 Axis Systems Inc Array board interconnect system and method
US7929522B1 (en) * 2001-07-02 2011-04-19 Haw-Minn Lu Systems and methods for upgrading scalable switching networks
US7440448B1 (en) * 2001-07-02 2008-10-21 Haw-Minn Lu Systems and methods for upgradeable scalable switching
US8391282B1 (en) * 2001-07-02 2013-03-05 Haw-Minn Lu Systems and methods for overlaid switching networks
US20040141285A1 (en) * 2002-07-25 2004-07-22 Kontron Communications Inc. Modular computer system with passive backplane modules
WO2005084341A2 (en) * 2004-03-03 2005-09-15 Hubbell Incorporated Midspan patch panel with circuit separation for data terminal equipment, power insertion and data collection
JP2006215816A (ja) * 2005-02-03 2006-08-17 Fujitsu Ltd 情報処理システムおよび情報処理システムの制御方法
CA2621505C (en) 2005-09-06 2015-06-30 Aviv Soffer 3-dimensional multi-layered modular computer architecture
EP1977311A2 (en) * 2006-01-13 2008-10-08 Sun Microsystems, Inc. Compact rackmount storage server
US7822958B1 (en) * 2006-03-10 2010-10-26 Altera Corporation Booting mechanism for FPGA-based embedded system
CN101354694B (zh) * 2007-07-26 2010-10-13 上海红神信息技术有限公司 基于mpu架构的超高扩展超级计算系统
US8463091B2 (en) * 2007-10-15 2013-06-11 Telescent Inc. Methods to reconfigure all-fiber optical cross-connects
US7991293B2 (en) 2007-12-27 2011-08-02 Intel Corporation Unified optical connector architecture
US8554033B2 (en) * 2008-05-02 2013-10-08 Telescent Inc. Radio frequency identification overlay network for fiber optic communication systems
JP2010026726A (ja) 2008-07-17 2010-02-04 Toshiba Corp 変換装置及び制御システム
US8306935B2 (en) * 2008-12-22 2012-11-06 Panduit Corp. Physical infrastructure management system
US20100176962A1 (en) * 2009-01-15 2010-07-15 HCS KABLOLAMA SISTEMLERI SAN. ve TIC.A.S. Cabling system and method for monitoring and managing physically connected devices over a data network
CN101609442B (zh) * 2009-06-17 2011-06-08 成都市华为赛门铁克科技有限公司 一种接口自适应的方法及其装置、系统
US8521915B2 (en) * 2009-08-18 2013-08-27 Fusion-Io, Inc. Communicating between host computers and peripheral resources in an input/output (I/O) virtualization system
US8994547B2 (en) * 2009-08-21 2015-03-31 Commscope, Inc. Of North Carolina Systems for automatically tracking patching connections to network devices using a separate control channel and related patching equipment and methods
KR101220464B1 (ko) * 2009-11-16 2013-01-10 한국과학기술원 광 연결을 이용한 고속 인터페이스 장치
US8982552B2 (en) * 2009-12-28 2015-03-17 Hewlett-Packard Development Company, L.P. System for providing physically separated compute and I/O resources in the datacenter to enable space and power savings
CN102754287B (zh) * 2010-01-07 2015-04-01 瑞特技术有限公司 用于无缆线插接装置的模块式连接器
US8837517B2 (en) * 2010-09-22 2014-09-16 Amazon Technologies, Inc. Transpose boxes for network interconnection
US8621111B2 (en) * 2010-09-22 2013-12-31 Amazon Technologies, Inc. Transpose box based network scaling
EP2689500B1 (en) * 2011-03-24 2018-03-07 Molex, LLC Patch panel assembly adapter for use with data networks
US20130209100A1 (en) * 2012-02-14 2013-08-15 Accipiter Systems, Inc. System architecture for optical switch using wavelength division multiplexing
CN202535384U (zh) * 2012-03-12 2012-11-14 杭州海莱电子科技有限公司 基于PCIe总线的网络设备扩展连接和虚拟机互连优化系统
US20130266315A1 (en) * 2012-04-04 2013-10-10 Accipiter Systems, Inc. Systems and methods for implementing optical media access control
US8902593B2 (en) * 2012-04-11 2014-12-02 Dell Products L.P. System and method for coupling information handling systems in a modular chassis
US8954698B2 (en) * 2012-04-13 2015-02-10 International Business Machines Corporation Switching optically connected memory
US9143338B2 (en) * 2012-10-05 2015-09-22 Advanced Micro Devices, Inc. Position discovery by detecting irregularities in a network topology
US9332323B2 (en) * 2012-10-26 2016-05-03 Guohua Liu Method and apparatus for implementing a multi-dimensional optical circuit switching fabric
WO2014113451A1 (en) * 2013-01-15 2014-07-24 Intel Corporation A rack assembly structure
JP6861514B2 (ja) 2013-08-29 2021-04-21 ダン オプレア コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置
US20150254201A1 (en) * 2014-03-07 2015-09-10 Emilio Billi Standard pci express add-in card form factor multi ports network interface controller supporting multi dimensional network topologies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080307082A1 (en) 2007-06-05 2008-12-11 Xiaohua Cai Dynamically discovering a system topology
JP2011141803A (ja) 2010-01-08 2011-07-21 Nec Corp 並列計算機

Also Published As

Publication number Publication date
AU2018200158A1 (en) 2018-02-01
CN105706404A (zh) 2016-06-22
JP2020173822A (ja) 2020-10-22
CA2951786C (en) 2017-09-26
CN105706404B (zh) 2020-01-03
AU2014311217A1 (en) 2016-03-03
AU2018200155B2 (en) 2019-09-26
EP3022879A1 (en) 2016-05-25
JP2016532209A (ja) 2016-10-13
AU2014311217B2 (en) 2018-02-08
CA2921751A1 (en) 2015-03-05
CA2951677C (en) 2017-06-13
WO2015027320A1 (en) 2015-03-05
EP3022879B1 (en) 2020-12-30
CA2951680A1 (en) 2015-03-05
CA2951786A1 (en) 2015-03-05
HK1226207A1 (zh) 2017-09-22
IL244270A0 (en) 2016-04-21
CA2951677A1 (en) 2015-03-05
CA2951684C (en) 2018-05-22
AU2018200155A1 (en) 2018-02-01
CA2921751C (en) 2017-03-28
AU2018200158B2 (en) 2019-07-04
CA2951698A1 (en) 2015-03-05
DK3022879T3 (da) 2021-01-18
CA2951684A1 (en) 2015-03-05
AU2014311217A8 (en) 2016-03-10
US20180285302A1 (en) 2018-10-04
CN110109854A (zh) 2019-08-09
KR102309907B1 (ko) 2021-10-06
IL244270B (en) 2020-11-30
US10303640B2 (en) 2019-05-28
EP3022879A4 (en) 2017-03-01
JP6861514B2 (ja) 2021-04-21
US20160210261A1 (en) 2016-07-21
CA2951680C (en) 2017-06-06
US9965429B2 (en) 2018-05-08
CA2951698C (en) 2018-03-27
KR20160048886A (ko) 2016-05-04

Similar Documents

Publication Publication Date Title
JP7212647B2 (ja) コンピュータネットワークにおける直接相互接続スイッチの配線及び成長を管理する方法及び装置
US9325604B2 (en) System and method for data center optical connection
Farrington et al. Data center switch architecture in the age of merchant silicon
RU2543558C2 (ru) Способ и усройство маршрутизации ввода-вывода и карта
US9374321B2 (en) Data center switch
Schares et al. Optics in future data center networks
US20070110088A1 (en) Methods and systems for scalable interconnect
CN108183872B (zh) 交换机系统及其构建方法
US20050038949A1 (en) Apparatus for enabling distributed processing across a plurality of circuit cards
CN214101389U (zh) 互联系统和互联模块

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210728

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230113

R150 Certificate of patent or registration of utility model

Ref document number: 7212647

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150