JP6283361B2 - ミドルウェアマシン環境における劣化ファットツリーの発見およびルーティングをサポートするためのシステムおよび方法 - Google Patents

ミドルウェアマシン環境における劣化ファットツリーの発見およびルーティングをサポートするためのシステムおよび方法 Download PDF

Info

Publication number
JP6283361B2
JP6283361B2 JP2015530059A JP2015530059A JP6283361B2 JP 6283361 B2 JP6283361 B2 JP 6283361B2 JP 2015530059 A JP2015530059 A JP 2015530059A JP 2015530059 A JP2015530059 A JP 2015530059A JP 6283361 B2 JP6283361 B2 JP 6283361B2
Authority
JP
Japan
Prior art keywords
switch
fabric
switches
fat tree
routing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015530059A
Other languages
English (en)
Other versions
JP2015530829A (ja
JP2015530829A5 (ja
Inventor
ボグダンスキー,バルトシュ
ヨンセン,ビョルン・ダグ
Original Assignee
オラクル・インターナショナル・コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オラクル・インターナショナル・コーポレイション filed Critical オラクル・インターナショナル・コーポレイション
Publication of JP2015530829A publication Critical patent/JP2015530829A/ja
Publication of JP2015530829A5 publication Critical patent/JP2015530829A5/ja
Application granted granted Critical
Publication of JP6283361B2 publication Critical patent/JP6283361B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/48Routing tree calculation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

著作権に関する注意
本特許文献の開示の一部には、著作権保護の対象となるものが含まれている。著作権者は、この特許文献または特許開示の何者かによる複製が、特許商標庁の特許ファイルまたは記録にある限り、それに対して異議を唱えないが、そうでなければ、いかなる場合もすべての著作権を留保する。
発明の分野
本発明は、概してコンピュータシステムに関し、具体的にはミドルウェアマシン環境に関する。
背景
ファットツリー(fat-tree)トポロジは、高性能計算(high performance computing)(HPC)クラスタに対して、および、インフィニバンド(InfiniBand)(IB)技術に基づくクラスタに対して使用される。ファットツリーにとって、他のほとんどのトポロジと同じく、ネットワークリソースを効率的に使用するにはルーティングアルゴリズムが有益である。しかしながら、既存のルーティングアルゴリズムは、スイッチ間通信の場合は限界がある。既存のルーティングアルゴリズムの中で、効率的なシステム管理にとって有益である、デッドロックフリーかつ完全接続のスイッチ間通信をサポートするものはない。これらが、本発明の実施の形態が取組もうとしている一般的な分野である。
概要
本明細書に記載されているのは、複数のスイッチを有するファブリックにおける発見およびルーティングをサポートすることができるシステムおよび方法である。このシステムによって、ファブリック内の1つ以上のスイッチをスイッチロール(switch role)でタグ付けすることができる。次に、ファブリック内のサブネットマネージャは、上記1つ以上のスイッチと関連付けられたスイッチロールを検出することができる。さらに、上記1つ以上のスイッチと関連付けられた、検出されたスイッチロールに基づいて、ファブリックにルーティングアルゴリズムを適用することができる。
本発明のある実施の形態に従う、ネットワーク環境内におけるスイッチロールメカニズムのサポートの例を示す。 本発明のある実施の形態に従う、ネットワーク環境内におけるスイッチロールメカニズムのサポートの代表的なフローチャートを示す。 本発明のある実施の形態に従う、ネットワーク環境内における劣化ファットツリーの例を示す。 本発明のある実施の形態に従う、ネットワーク環境内における劣化ファットツリーの修復の例を示す。 本発明のある実施の形態に従うシステムの概略ブロック図を示す。
詳細な説明
本発明は、同様の参照符号が同様の構成要素を示している添付の図面に、限定のためではなく例示のために示されている。なお、本開示において「ある」または「一」または「いくつかの」実施の形態に言及している場合、必ずしも同一の実施の形態に言及しているのではなく、こういった表現は、少なくとも1つという意味である。
本発明の以下の説明では、高性能ネットワークの一例としてインフィニバンド(IB)ネットワークを用いている。他の種類の高性能ネットワークを限定なしで使用できることが、当業者には明らかであろう。また、本発明の以下の説明では、ファブリックトポロジの一例としてファットツリートポロジを用いている。他の種類のファブリックトポロジを限定なしで使用できることが、当業者には明らかであろう。
本明細書に記載されているのは、複数のスイッチを有するファブリックにおける発見およびルーティングをサポートすることができるシステムおよび方法である。
インフィニバンド(IB)アーキテクチャ
本発明のある実施の形態に従い、IBネットワークをサブネットと呼ぶことができる。1つのサブネットは、スイッチおよびポイントツーポイントリンクを用いて相互接続された一組のホストからなる。1つのIBファブリックは1つ以上のサブネットを構成することができ、サブネットは各々ルータを用いて相互接続することができる。サブネット内のホストおよびスイッチは、ローカル識別子(local identifier)(LID)を用いてアドレスされ、1つのサブセットは49151個のLIDに限定される。
1つのIBサブネットは少なくとも1つのサブセットマネージャ(SM)を有することができ、このマネージャの役割は、サブネット内のスイッチ、ルータ、およびホストチャネルアダプタ(host channel adapter)(HCA)上にあるすべてのIBポートの構成を含むネットワークの初期化および起動である。初期化時、SMは発見状態で始動する。発見状態のSMは、すべてのスイッチおよびホストを発見するためにネットワークのスイープを実行する。発見状態中に、SMは、他のSMを発見する可能性があり、どれがマスタSMになるべきかについて交渉することができる。発見状態が終了すると、SMはマスタ状態になる。マスタ状態のSMは、LIDの割当て、スイッチの構成、ルーティングテーブルの算出および配置、ならびにポートの構成を実行する。マスタ状態が終了すると直ちにサブネットは立ち上げられて使用できる状態になり、SMの役割は、サブネット構成後の変化についてネットワークを監視することである。
加えて、SMは、完全接続性、デッドロックフリー、およびすべてのソース−宛先ペア間の適切な負荷分散を維持するルーティングテーブルを算出する役割を有し得る。ルーティングテーブルはネットワーク初期化時に算出することができ、ルーティングテーブルを更新し最適性能を保証するために、トポロジが変化する度にこのプロセスを繰返すことができる。
通常動作中、SMは、ネットワークの光スイープを定期的に実行することによって、リンクが故障したとき、デバイスが追加されたとき、またはリンクが削除されたときのように、トポロジの変化事象があったか否か検査する。光スイープ中に変化事象が発見された場合、またはネットワーク変化を信号で知らせるメッセージ(トラップ)をSMが受けた場合、SMは、発見された変化に従ってネットワークを再構成することができる。この再構成は、初期化中に使用されるステップも含み得る。さらに、各デバイス上にあるサブネット管理エージェント(subnet management agent)(SMA)は、制御パケット(サブネット管理パケット(subnet management packet)(SMP))に対するレスポンスを生成することができ、かつサブネット管理のためにローカルコンポーネントを構成することができる。
IBは、フロー制御を仮想レーン(virtual lane)(VL)毎に実行できる無損失ネットワーキング技術である。VLは、バッファリング、フロー制御、および輻輳管理リソースが異なる、同一の物理リンク上の論理チャネルである。VLの概念は、物理的トポロジ上に仮想ネットワークを構築することを可能にする。これら仮想ネットワークまたはレイヤを、効率的なルーティング、デッドロック回避、フォールトトレランス(fault-tolerance)、およびサービス差別化等のさまざまな目的のために使用することができる。
ファットツリールーティング
本発明のある実施の形態に従うと、ファットツリートポロジは階層ネットワークトポロジであり、たとえば、平衡のとれたファットツリーでは、すべての層のリンク容量を等しくすることができる。さらに、ファットツリートポロジは、複数のルートを有するツリーを構築することによって実現することができ、たとえば、XGFTの表示法を用いて説明できる、mポートnツリーの定義またはk分木nツリーの定義によって実現することができる。
より大きなトポロジを構成するために、1つの大きなファットツリーを構築するのではなくいくつかのファットツリー同士を接続することに基づいて、システムを構築することができる。単体のファットツリーをいくつか集めて構築されたこのようなファットツリーは、マルチコアファットツリーと呼ぶことができる。マルチコアファットツリーを、水平リンクを用いてリーフスイッチを通して相互接続してもよく、または、ファットツリーの最下部にある、スイッチからなる他の層を用いることによって相互接続してもよい。このようなスイッチはすべて、マルチコアファットツリーを構成しているすべてのファットツリーに接続されている。
ファットツリールーティングアルゴリズムは、利用可能なネットワークリソースを活用することができる。ファットツリールーティングアルゴリズムは、2つの段階、すなわちパケットをソースから送る上昇段階と、パケットを宛先に向けて送るときの下降段階とを含むことができる。これら2つの段階の間の移行期は、最下部にある共通の祖先で発生する。この祖先は、ソースおよび宛先双方に、その下向きのポートを通して到達できるスイッチである。このようなルーティングのインプリメンテーションはデッドロックフリーを保証し、このインプリメンテーションはまた、同じ宛先に向かうすべての経路が同一のルート(トップ)ノードで収束することで、この宛先に向かうすべてのパケットが下向きの1つの専用経路を辿ることを保証する。すべての宛先に対して専用下降経路を設けることによって、下降段階における競合を効果的になくす(上昇段に移す)ことができ、そのため、宛先が異なるパケットは、その経路上のスイッチのうちの2分の1における出力ポートについてしか競合しない。加えて、オーバーサブスクリプション状態のファットツリーにおける下降経路は、専用経路ではなく、数個の宛先が共有できるものである。
さらに、最適化されたファットツリールーティングアルゴリズムに関するファブリック発見の複雑度は、O(m+n)で表わすことができ、mはエッジ(リンク)の数でありnは頂点(ノード)の数である。ルーティングの複雑度はO(k・n)であり、kはエンドノードの数でありnはスイッチの数である。
本発明のある実施の形態に従い、ファットツリートポロジにおけるルーティングをサポートするために、階層最短経路(Layered-Shortest Path)(LASH)、デッドロックフリーシングルソース最短経路(Deadlock-Free Single-Source-Shortest-Path)(DFSSSP)、およびMinHopルーティング等の、異なるルーティングアルゴリズムを使用することができる。
LASHルーティングは、イレギュラーなネットワークのための、決定論的な最短経路ルーティングアルゴリズムである。すべてのパケットを最短経路を用いてルーティングすることができ、このアルゴリズムは、仮想レーン(VL)を通してサイクルを発見し破壊することにより、デッドロックフリーを達成することができる。さらに、LASHは、どのようなやり方でもトラフィックを平衡させないかもしれず、このことはファットツリーファブリックでは明らかである。このアルゴリズムは、最小数のVLを用いることを目指しており、したがって、同一層上に起こり得るすべてのデッドロックフリーペアをルーティングする、すなわち同一リンクを用いる。LASHに関する計算の複雑度はO(n)であり、nはノードの数である。
DFSSSPルーティングは、任意のトポロジにとって効率的な忘却性(oblivious)ルーティングである。これは、仮想レーンを使用してデッドロックフリーを保証し、LASHとは異なり、ルーティングプロセス中起こり得る経路の数を限定しないことを目指している。これはまた、改善されたヒューリスティックス(heuristics)を用いることにより、LASHと比べて使用される仮想レーンの数を少なくする。DFSSSPの問題点は、スイッチ間トラフィックに対してデッドロックフリーを想定することであり、スイッチ‐ノードおよびスイッチ‐スイッチペアに生じ得るサイクルを破壊しない。オフラインのDFSSSPの計算複雑度はO(n・log(n))であり、nはノードの数である。
MinHopルーティングは、OpenSMに対するデフォルトフォールバックルーティングアルゴリズムである。これは、すべてのエンドポイントの中で最短経路を見出し、ローカルスイッチにおける1リンク当たりのルート数のバランスを取ろうとする。しかしながら、MinHopルーティングを使用すると、通常は、ファブリックをデッドロックさせるかもしれないクレジットループ(credit loop)につながる。MinHopの複雑度はO(n)によって与えられ、nはノードの数である。
スイッチロールメカニズム
本発明の実施の形態に従い、スイッチロールメカニズムを使用することにより、ファブリック発見の複雑度の問題をルーティングの問題から切離すことができる。
図1は、本発明のある実施の形態に従う、ネットワーク環境内におけるスイッチロールメカニズムのサポートの例を示す。図1に示されるように、ネットワーク環境100は、複数のスイッチ(たとえばスイッチ111〜114、121〜124、および131〜134)と複数のホストノード(たとえばノード141〜144)とを有するファブリック110、たとえばIBファブリックを管理するサブネットマネージャ(subnet manager)(SM)101を含み得る。
このシステムは、SM101によって後に検出することができる、ファブリック110におけるスイッチロールを明確に定義するためのスイッチロールメカニズムを実現することができる。たとえば、ベンダSMP属性103を用いてファブリック110のスイッチロール104を定義することができる。ベンダSMP属性103はベンダ固有のSMPを介してクエリすることができる。
さらに、ファブリック110内の各スイッチに、ホストネーム、IPアドレス、およびノード説明を割当てることができる。ベンダ属性を使用することによって、システムは、SM101の構成の入力に依存することなく、または、動的に構成情報を提供するためのその他任意の帯域外インターフェイスに依存することなく、スイッチロール情報をSM101が利用できるようにすることができる。加えて、コンポーネントの交換に続く通常のスイッチ構成維持の一部としてスイッチロールを保存し復元することができる。なぜなら、これはハードウェアグローバル一意識別子(globally unique identifier)(GUID)のような実際のハードウェアインスタンスに結び付けられていないからである。
これに代えて、同様の効果を生み出すために、システムは、RootGUID等のアドレス情報をルーティングアルゴリズムに与えることができる。このような場合、システムは、(複数の)コンポーネント交換動作に続いて正しいリストを維持しなければならない場合がある。
本発明のある実施の形態に従い、スイッチロールメカニズムは、ファブリック110内の各スイッチに、各スイッチが守るべき単純なロールを与えることができる。たとえば、システムは、ファブリック内の各スイッチを、それぞれのロールで物理的にタグ付けすることができる。図1に示されるように、(アップリンクなしでファブリック110の最上部に配置されている)ルートスイッチ111〜114は、「ルート」という役割を有し得るものであり、(ファブリック110の最下部にあるホストノードに接続する)リーフスイッチ131〜134は、「リーフ」という役割を有し得る。
システムは、スイッチロールメカニズムを用いて、ファブリック発見時間を短縮することができる(たとえば一貫性検査は不要の場合がある)。さらに、システムは、ルーティングアルゴリズム102からファブリック110を発見する必要性を軽減する、または排除することさえできる。このことは、ルーティングテーブル生成中に過ちを犯す確率が大幅に低くなることを意味する。
図2は、本発明のある実施の形態に従う、ネットワーク環境内におけるスイッチロールメカニズムのサポートの代表的なフローチャートを示す。図2に示されるように、ステップ201で、システムは、ファブリック内の1つ以上のスイッチがスイッチロールでタグ付けされるようにする。次に、ステップ202で、サブネットマネージャは、上記1つ以上のスイッチと関連付けられたスイッチロールを検出することができる。さらに、ステップ203で、サブネットマネージャは、上記1つ以上のスイッチと関連付けられた、検出されたスイッチロールに基づいて、ファブリックにルーティングアルゴリズムを適用することができる。
劣化ファットツリー
本発明のある実施の形態に従い、インフィニバンド(IB)ネットワークのための既存のファットツリールーティングアルゴリズムにおける欠陥を識別することができ、システムは、劣化したファブリックの発見およびルーティング時に発生する問題を軽減する、異なる機能拡張(extensions)を使用することができる。第1に、トポロジ検証の制約を緩和することによって、ファットツリールーティングの汎用性を高めることができる。第2に、ベンダ固有のサブネット管理パケット(SMP)を介してクエリすることができるベンダSMP属性を通してスイッチタグ付けを実現することができ、スイッチタグ付けを用いることにより、特定のファブリックロールを有するスイッチを構成することができる。これは、トポロジ発見を実際のルーティングから切離す。加えて、スイッチのフリッピング(flipping)の問題を、SMP属性の使用によって解決することができる。
IBネットワークでは、ファットツリールーティングが失敗し得る種々のシナリオがある。たとえば、同一レベルの任意の2つのスイッチ上のアップリンクおよびダウンリンクの数が等しくない場合、トポロジ検証が失敗に終わることがある。また、たとえファブリック全体において故障するのが1つのリンクであっても、ファットツリールーティングがMinHopルーティングにフォールバックすることがある。
トポロジ検証に対する制約を緩和しリンクカウント一貫性検査を不能にすると、不完全なファットツリーのデフォルトによって、ファットツリールーティングは失敗しない場合がある。さらに、システムは、スイッチロールメカニズムを使用することによって、ファットツリールーティング、たとえばOpenSMにおける現在のインプリメンテーションが、厳しいトポロジ検証に合格しないかもしれない純粋でないファットツリーファブリックをルーティングできるようにすることができる。
図3は、本発明のある実施の形態に従う、ネットワーク環境内における劣化ファットツリーの例を示す。図3に示されるように、IBファブリック300は、複数のスイッチ(たとえばスイッチ311〜314、321〜324、および331〜334)と、複数のホストノード(たとえばノード341〜343)とを含み得る。
どのノードにも接続されていないリーフスイッチ、たとえばスイッチ334が存在する場合、IBファブリック300に問題が生じ得る。このため、IBファブリック300は劣化したファットツリーになる。
図4は、本発明のある実施の形態に従う、ネットワーク環境内における劣化ファットツリーの修復の例を示す。図4に示されるように、IBファブリック400は、複数のスイッチ(たとえばスイッチ311〜314、321〜324、および331〜333)と、複数のホストノード(たとえばノード341〜343)とを含み得る。
加えて、(図3においてスイッチ334として示されている)元々はリーフスイッチとして分類されていたスイッチ434を、リーフスイッチではないものとして分類し直すことができる。図4に示されるように、トポロジの問題を修復するために、スイッチ434を、新たなレベルとしてのリーフレベル+2に、2つの子スイッチ323〜324を伴って再配置することができる。
図4に示されるようにフリップされたスイッチを含むファットツリールーティングは、反直感的である可能性がある。さらに、フリップされたスイッチは、ファットツリールーティングにおけるトラブルシューティングを困難にする。なぜなら、正しくないランクを上記スイッチに割当てる必要があるからである。また、修復処置の提供が問題になる可能性がある。なぜなら、SMは、ファブリック400内でランク付けのコンフリクトが生じたときに反応して機能するにすぎないかもしれないからである。すなわち、SMは、先ずコンフリクトを検出してからファブリックを再度ランク付けする必要がある。この要件は煩わしいものである可能性があり、コンフリクトは、ファブリックの複雑度が高いことが原因で検出できない場合がある。
本発明のある実施の形態に従い、システムは、スイッチロールメカニズムを使用して、フリップされたスイッチを修復することができる。たとえば、以下のアルゴリズム1を使用することによって、ファブリック内のスイッチが常に正しいランクに配置されることを保証することができる。
次に、システムは、前のセクションで説明した異なるファットツリールーティングアルゴリズムを使用して、ファットツリールーティングをファブリック400上で実行することができる。
図5は、本発明の実施の形態に従うシステム500の概略ブロック図を示す。システム500は、タグモジュール510と、スイッチモジュール520と、検出モジュール530と、アルゴリズムモジュール540とを含む。タグモジュール510は、複数のスイッチ520を有するファブリック内の1つ以上のスイッチを、スイッチロールでタグ付けする。検出モジュール530は、上記1つ以上のスイッチ520と関連付けられたスイッチロールを検出する。アルゴリズムモジュール540は、上記1つ以上のスイッチ520と関連付けられた検出されたスイッチロールに基づいて、ファブリックにルーティングアルゴリズムを適用する。
複数のスイッチを有するファブリック内における発見およびルーティングをサポートするためのシステムは、ファブリック内の1つ以上のスイッチをスイッチロールでタグ付けするための手段と、上記1つ以上のスイッチと関連付けられたスイッチロールをサブネットマネージャを介して検出するための手段と、上記1つ以上のスイッチと関連付けられた、検出されたスイッチロールに基づいて、ファブリックにルーティングアルゴリズムを適用するための手段とを備える。
システムはさらに、サブネットマネージャによって後に検出することができるスイッチロールを、ベンダ属性を用いて明確に定義するための手段を備える。
システムはさらに、1つ以上のルートグローバル一意識別子(GUID)をルーティングアルゴリズムに与えるための手段を備える。
システムはさらに、トポロジ検証に対するおよびファブリックの一貫性検査に対する制約を緩和するための手段を備える。
システムはさらに、コンポーネントの交換に続く通常のスイッチ構成維持の一部としてスイッチロールを保存し復元するための手段を備える。
システムはさらに、ファブリック内の別の1つ以上のスイッチを別のスイッチロールでタグ付けするための手段を備える。
システムはさらに、スイッチロールに基づいてファブリック内の接続性エラーを検出するための手段を備える。
システムはさらに、ファブリック内の複数のスイッチをファットツリーになるように構成するための手段を備える。
システムはさらに、ファットツリー内におけるノードが接続されていないリーフスイッチを検出するための手段を備える。
システムはさらに、上記リーフスイッチが正しいランクに配置されることを保証するための手段と、ルーティングアルゴリズムがファットツリー上で機能するようにするための手段とを備える。
本発明は、本開示の教示に従いプログラムされた、1つ以上のプロセッサ、メモリ、および/またはコンピュータ読取可能な記録媒体を含む、従来の汎用もしくは専用デジタルコンピュータ、コンピューティングデバイス、マシン、またはマイクロプロセッサを1つ以上用いて、適宜実現し得る。適切なソフトウェアコーディングは、熟練したプログラマが本開示の教示に基づいて容易に準備できる。これはソフトウェア技術における当業者には明らかであろう。
実施の形態によっては、本発明は、本発明のプロセスのうちいずれかを実行するためにコンピュータをプログラムするのに使用できる命令が格納された記録媒体または(1つまたは複数の)コンピュータ読取可能な媒体であるコンピュータプログラムプロダクトを含む。この記録媒体は、フロッピー(登録商標)ディスク、光ディスク、DVD、CD−ROM、マイクロドライブ、および光磁気ディスクを含む、任意の種類のディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリデバイス、磁気もしくは光カード、ナノシステム(分子メモリICを含む)、または、命令および/またはデータを格納するのに適した任意の種類の媒体もしくはデバイスを含み得るものの、これらに限定されない。
本発明に関するこれまでの記載は例示および説明を目的として提供されている。すべてを網羅するまたは本発明を開示された形態そのものに限定することは意図されていない。当業者には数多くの変更および変形が明らかであろう。変更および変形は、開示されている特徴の適切な組合せを含む。実施の形態は、本発明の原理およびその実際の応用を最もうまく説明することによって他の当業者が本発明のさまざまな実施の形態および意図している特定の用途に適したさまざまな変形を理解できるようにするために、選択され説明されている。本発明の範囲は、以下の特許請求の範囲およびその均等物によって定められることが意図されている。

Claims (10)

  1. 複数のスイッチと、複数のノードと、サブネットマネージャとを有するファブリックにおける発見およびルーティングをサポートするための方法であって、
    前記ファブリック内の前記複数のスイッチ各々を、リーフスイッチおよびルートスイッチから選択されたスイッチロールでタグ付けすることを含み、前記タグ付けすることは、前記サブネットマネージャによって検出可能な各スイッチの属性において前記スイッチロールを明確に定義することを含み、
    前記複数のスイッチ各々と関連付けられた前記スイッチロールを前記サブットマネージャを介して検出することと、
    前記タグ付けと前記検出に続いて、前記複数のスイッチと関連付けられた、前記検出されたスイッチロールに基づいて、前記ファブリックにファットツリールーティングアルゴリズムを適用することを含み、前記ファットツリールーティングアルゴリズムは、複数のレベルを有するファットツリートポロジを生成する、方法。
  2. 前記スイッチロールを明確に定義することは、前記スイッチロールをベンダ属性を用いて明確に定義することを含む、請求項に記載の方法。
  3. ファットツリートポロジ検証に対するおよびファブリックの一貫性検査に対する制約を緩和することをさらに含む、請求項1または2に記載の方法。
  4. コンポーネントの交換に続く通常のスイッチ構成維持の一部として前記スイッチロールを保存し復元することをさらに含む、請求項のいずれか一項に記載の方法。
  5. 前記ファブリック内の別の1つ以上のスイッチを別のスイッチロールでタグ付けすることをさらに含む、請求項のいずれか一項に記載の方法。
  6. 前記スイッチロールに基づいて前記ファブリック内の接続性エラーを検出することをさらに含む、請求項1〜のいずれか一項に記載の方法。
  7. 前記ファットツリートポロジにおけるノードが接続されていないリーフスイッチを検出することをさらに含む、請求項1〜6のいずれか一項に記載の方法。
  8. 前記リーフスイッチが前記ファットツリートポロジにおける正しいレベルに配置されることを保証することをさらに含む、請求項に記載の方法。
  9. ファブリックにおける発見およびルーティングをサポートするためのシステムであって、前記システムは、
    1つ以上のマイクロプロセッサと、
    前記1つ以上のマイクロプロセッサ上で機能するサブネットマネージャと、
    前記ファブリック内の複数のノードと、
    前記ファブリック内の複数のスイッチとを備え、
    前記複数のスイッチは各々、リーフスイッチおよびルートスイッチから選択されたスイッチロールと関連付けられ、それにより、前記スイッチロールは、前記サブットマネージャによって検出可能な各スイッチの属性において明確に定義され、
    前記サブネットマネージャは、
    前記複数のスイッチ各々と関連付けられたスイッチロールを検出し、前記スイッチロールの検出に続いて、前記複数のスイッチと関連付けられた、前記検出されたスイッチロールに基づいて、前記ファブリックにファットツリールーティングアルゴリズムを適用するように構成され、前記ファットツリールーティングアルゴリズムは、複数のレベルを有するファットツリートポロジを生成する、システム。
  10. 1つ以上のプロセッサに、請求項1〜のいずれか一項に記載の方法を実現させるコンピュータプログラム。
JP2015530059A 2012-08-29 2013-08-29 ミドルウェアマシン環境における劣化ファットツリーの発見およびルーティングをサポートするためのシステムおよび方法 Active JP6283361B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261694658P 2012-08-29 2012-08-29
US61/694,658 2012-08-29
US13/839,823 2013-03-15
US13/839,823 US9130858B2 (en) 2012-08-29 2013-03-15 System and method for supporting discovery and routing degraded fat-trees in a middleware machine environment
PCT/US2013/057370 WO2014036310A1 (en) 2012-08-29 2013-08-29 System and method for supporting discovery and routing degraded fat-trees in a middleware machine environment

Publications (3)

Publication Number Publication Date
JP2015530829A JP2015530829A (ja) 2015-10-15
JP2015530829A5 JP2015530829A5 (ja) 2016-10-13
JP6283361B2 true JP6283361B2 (ja) 2018-02-21

Family

ID=49182511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015530059A Active JP6283361B2 (ja) 2012-08-29 2013-08-29 ミドルウェアマシン環境における劣化ファットツリーの発見およびルーティングをサポートするためのシステムおよび方法

Country Status (6)

Country Link
US (1) US9130858B2 (ja)
EP (1) EP2891286B1 (ja)
JP (1) JP6283361B2 (ja)
KR (1) KR102014433B1 (ja)
CN (1) CN104521200B (ja)
WO (1) WO2014036310A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10063544B2 (en) 2011-06-03 2018-08-28 Oracle International Corporation System and method for supporting consistent handling of internal ID spaces for different partitions in an infiniband (IB) network
US9584605B2 (en) * 2012-06-04 2017-02-28 Oracle International Corporation System and method for preventing denial of service (DOS) attack on subnet administrator (SA) access in an engineered system for middleware and application execution
US9990221B2 (en) 2013-03-15 2018-06-05 Oracle International Corporation System and method for providing an infiniband SR-IOV vSwitch architecture for a high performance cloud computing environment
US10230794B2 (en) 2013-03-15 2019-03-12 Oracle International Corporation System and method for efficient virtualization in lossless interconnection networks
FR3025384B1 (fr) * 2014-09-03 2016-09-16 Bull Sas Procede de surveillance et d'alerte de configuration de routage dans un cluster comprenant des liens de communication statiques et programme d'ordinateur mettant en oeuvre ce procede
CN105471749B (zh) * 2016-01-21 2018-06-26 中国人民解放军国防科学技术大学 阶数灵活的低直径大规模互连网络拓扑结构及路由方法
US11271870B2 (en) 2016-01-27 2022-03-08 Oracle International Corporation System and method for supporting scalable bit map based P_Key table in a high performance computing environment
US10348645B2 (en) 2016-01-27 2019-07-09 Oracle International Corporation System and method for supporting flexible framework for extendable SMA attributes in a high performance computing environment
US11018947B2 (en) 2016-01-27 2021-05-25 Oracle International Corporation System and method for supporting on-demand setup of local host channel adapter port partition membership in a high-performance computing environment
US10594547B2 (en) 2016-01-27 2020-03-17 Oracle International Corporation System and method for application of virtual host channel adapter configuration policies in a high-performance computing environment
WO2017132271A1 (en) * 2016-01-27 2017-08-03 Oracle International Corporation System and method for supporting scalable representation of switch port status in a high performance computing environment
US10972375B2 (en) 2016-01-27 2021-04-06 Oracle International Corporation System and method of reserving a specific queue pair number for proprietary management traffic in a high-performance computing environment
US10425324B2 (en) 2017-08-17 2019-09-24 Fabriscale Technologies AS Method of computing balanced routing paths in fat-trees
FR3078220B1 (fr) * 2018-02-22 2020-04-24 Bull Sas Procede d'etablissement de routes de communication entre nœuds d'une grappe d'ordinateurs, programme d'ordinateur et grappe d'ordinateurs correspondants
US11108679B2 (en) * 2019-08-08 2021-08-31 Mellanox Technologies Tlv Ltd. Producing deadlock-free routes in lossless cartesian topologies with minimal number of virtual lanes
US11425027B2 (en) 2020-11-01 2022-08-23 Mellanox Technologies, Ltd. Turn-based deadlock-free routing in a Cartesian topology
KR102564871B1 (ko) * 2021-01-05 2023-08-09 한국과학기술원 안전한 개별분리 시스템을 위한 인터커넥트 설계 및 구현방법
CN117061423B (zh) * 2023-10-09 2024-01-23 苏州元脑智能科技有限公司 一种胖树网络的多机路由方法、装置、系统及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071709A1 (en) 2003-09-30 2005-03-31 Rosenstock Harold N. InfiniBand architecture subnet derived database elements
JP4899643B2 (ja) * 2006-05-31 2012-03-21 富士通株式会社 ネットワーク構成装置
US8358597B2 (en) * 2009-10-01 2013-01-22 Hei Tao Fung Method for building scalable Ethernet switch network and huge Ethernet switch
CN102164081B (zh) * 2011-03-31 2014-09-03 华为技术有限公司 一种胖树拓扑的路由计算方法、节点设备和通信系统
US9014201B2 (en) * 2011-11-09 2015-04-21 Oracle International Corporation System and method for providing deadlock free routing between switches in a fat-tree topology
US8879396B2 (en) * 2011-11-15 2014-11-04 Oracle International Corporation System and method for using dynamic allocation of virtual lanes to alleviate congestion in a fat-tree topology

Also Published As

Publication number Publication date
US20140064287A1 (en) 2014-03-06
CN104521200A (zh) 2015-04-15
JP2015530829A (ja) 2015-10-15
KR20150048835A (ko) 2015-05-07
EP2891286B1 (en) 2019-02-27
EP2891286A1 (en) 2015-07-08
KR102014433B1 (ko) 2019-08-26
CN104521200B (zh) 2017-09-15
WO2014036310A1 (en) 2014-03-06
US9130858B2 (en) 2015-09-08

Similar Documents

Publication Publication Date Title
JP6283361B2 (ja) ミドルウェアマシン環境における劣化ファットツリーの発見およびルーティングをサポートするためのシステムおよび方法
US9014201B2 (en) System and method for providing deadlock free routing between switches in a fat-tree topology
US11082261B2 (en) Logical router comprising disaggregated network elements
US9577956B2 (en) System and method for supporting multi-homed fat-tree routing in a middleware machine environment
US10630570B2 (en) System and method for supporting well defined subnet topology in a middleware machine environment
CN104468181B (zh) 虚拟网络设备故障的检测和处理
US9391845B2 (en) System, method and apparatus for improving the performance of collective operations in high performance computing
US20120311182A1 (en) System and method for supporting controlled re-routing in an infiniband (ib) network
US10084691B2 (en) Scalable framework for managing QoS requirements after a switch link failover in a switch fabric network
CN104754025A (zh) 可编程分布式联网
CN104919760B (zh) 虚拟机箱系统控制协议
US8880932B2 (en) System and method for signaling dynamic reconfiguration events in a middleware machine environment
EP3213441B1 (en) Redundancy for port extender chains
US10003528B2 (en) Scalable framework for managing switch link failovers in a switch fabric network
US8625407B2 (en) Highly available virtual packet network device
Bogdanski Optimized routing for fat-tree topologies
US20160226699A9 (en) Fiber Channel 1:N Redundancy
JP2016501463A (ja) 管理アクションが仮想シャーシの分割をトリガーするという警告を発行するかどうかが決定される、ネットワークノード、および仮想シャーシシステム内で動作可能であるノードにおける方法
US20230318910A1 (en) Auto-formation of link aggregations based on remotely-issued instructions
Guay et al. A scalable method for signalling dynamic reconfiguration events with opensm

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160823

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180126

R150 Certificate of patent or registration of utility model

Ref document number: 6283361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250