JP2023503273A

JP2023503273A - 高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするためのシステムおよび方法

Info

Publication number: JP2023503273A
Application number: JP2022529077A
Authority: JP
Inventors: ヨンセン，ビョルン・ダグ; シッダバスニ，アジョイ; パント，アブニーシュ; ジョラード，アマーナス
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2019-11-19
Filing date: 2020-08-06
Publication date: 2023-01-27
Also published as: US11341082B2; US20240056397A1; JP2023503274A; CN116057913A; US20210152477A1; EP4062601A1; CN114731336A; CN114731337A; WO2021101599A1; US11700206B2; JP2023502397A; US20210152494A1; US20220278937A1; US20220147483A1; CN114731337B; WO2021101602A1; US11700207B2; US11444881B2; WO2021101601A1; CN114762304A

Abstract

高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするためのシステムおよび方法。例示的な方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは、複数のスイッチと、複数のホストチャネルアダプタと、複数の仮想マシンを含む複数のエンドノードとを含む。本方法は、スイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの１つにおいて、ターゲットグループを定義することができ、ターゲットグループは、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、帯域幅制限を定義する。本方法は、ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを提供することができ、ターゲットグループリポジトリ内の定義されたターゲットグループが記録される。

Description

著作権表示
本特許文献の開示の一部には、著作権保護の対象となるものが含まれている。著作権者は、この特許文献または特許開示の何者かによる複製が、特許商標庁の特許ファイルまたは記録にある限り、それに対して異議を唱えないが、そうでなければ、いかなる場合もすべての著作権を留保する。

優先権の主張および関連出願への相互参照：
本出願は、２０１９年１１月１９日に出願された「SYSTEM AND METHOD FOR PROVIDING QUALITY-OF-SERVICE AND SERVICE- LEVEL AGREEMENTS IN A PRIVATE FABRIC IN A HIGH PERFORMANCE COMPUTING ENVIRONMENT（高性能コンピューティング環境においてプライベートファブリックにおけるサービス品質およびサービスレベルの取り決めを与えるためのシステムおよび方法）」と題される米国仮特許出願、出願番号第６２／９３７，５９４号に対する優先権の恩恵を主張し、その全体をここに引用により援用する。

本出願は、以下の特許出願に対する優先権の恩恵も主張し、それら全体もここに引用により援用する：２０２０年５月１１日に出願された「SYSTEM AND METHOD FOR SUPPORTING RDMA BANDWIDTH RESTRICTIONS IN A PRIVATE FABRIC IN A HIGH PERFORMANCE COMPUTING ENVIRONMENT（高性能コンピューティング環境においてプライベートファブリックにおけるＲＤＭＡ帯域幅制限をサポートするためのシステムおよび方法）」と題される米国特許出願、出願番号第１６／８７２，０３５号；２０２０年５月１１日に出願された「SYSTEM AND METHOD FOR PROVIDING BANDWIDTH CONGESTION CONTROL IN A PRIVATE FABRIC IN A HIGH PERFORMANCE COMPUTING ENVIRONMENT（高性能コンピューティング環境においてプライベートファブリックにおける帯域幅輻輳制御を提供するためのシステムおよび方法）」と題される米国特許出願、出願番号第１６／８７２，０３８号；２０２０年５月１１日に出願された「SYSTEM AND METHOD FOR SUPPORTING TARGET GROUPS FOR CONGESTION CONTROL IN A PRIVATE FABRIC IN A HIGH PERFORMANCE COMPUTING ENVIRONMENT（高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためにターゲットグループをサポートするためのシステムおよび方法）」と題される米国特許出願、出願番号第１６／８７２，０３９号；および２０２０年５月１１日に出願された「SYSTEM AND METHOD FOR SUPPORTING USE OF FORWARD AND BACKWARD CONGESTION NOTIFICATIONS IN A PRIVATE FABRIC IN A HIGH PERFORMANCE COMPUTING ENVIRONMENT（高性能コンピューティング環境においてプライベートファブリックにおける順方向および逆方向輻輳通知の使用をサポートするためのシステムおよび方法）」と題される米国特許出願、出願番号第１６／８７２，０４３号。

分野
本教示は、インフィニバンド（ＩＢ）およびＲｏＣＥ（コンバージドイーサネット（登録商標）を介するＲＤＭＡ（リモートダイレクトメモリアクセス））などのプライベート高性能相互接続ファブリックにおいてサービス品質（ＱＯＳ：quality of service）およびサービスレベル合意（ＳＬＡ）を実施するためのシステムおよび方法に関する。

背景
より大きなクラウドコンピューティングアーキテクチャが導入されるにつれ、従来のネットワークおよびストレージに関連する性能ならびに管理ボトルネックが重大な問題となってきた。クラウドコンピューティングファブリックのための基礎としてインフィニバンド（InfiniBand：ＩＢ）技術などの高性能な無損失相互接続を用いることへの関心がますます高まってきている。これは、本教示の実施形態が対処することが意図される一般的な領域である。

概要：
特定の局面は、独立請求項に記載される。様々な任意選択の実施形態が従属請求項に記載される。

本明細書では、高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするためのシステムおよび方法を説明する。例示的な方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは、複数のスイッチと、複数のホストチャネルアダプタと、複数の仮想マシンを含む複数のエンドノードとを含む。本方法は、スイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの１つにおいて、ターゲットグループを定義することができ、ターゲットグループは、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、帯域幅制限を定義する。本方法は、ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを提供することができ、ターゲットグループリポジトリ内の定義されたターゲットグループが記録される。

一実施形態に従うインフィニバンド環境の一例を示す図である。一実施形態に従う分割されたクラスタ環境の一例を示す図である。一実施形態に従うネットワーク環境におけるツリートポロジーの一例を示す図である。一実施形態に従う例示的な共有ポートアーキテクチャを示す図である。一実施形態に従う例示的なｖＳｗｉｔｃｈアーキテクチャを示す図である。一実施形態に従う例示的なｖＰｏｒｔアーキテクチャを示す図である。一実施形態に従うＬＩＤが予めポピュレートされている例示的なｖＳｗｉｔｃｈアーキテクチャを示す図である。一実施形態に従う動的ＬＩＤ割当てがなされた例示的なｖＳｗｉｔｃｈアーキテクチャを示す図である。一実施形態に従う、ｖＳｗｉｔｃｈに動的ＬＩＤ割当てがなされかつＬＩＤが予めポピュレートされている、例示的なｖＳｗｉｔｃｈアーキテクチャを示す図である。一実施形態に従う例示的なマルチサブネットインフィニバンドファブリックを示す図である。一実施形態に従う、高性能コンピューティング環境における２つのサブネット間の相互接続を示す図である。一実施形態に従う、高性能コンピューティング環境におけるデュアルポート仮想ルータ構成を介した２つのサブネット間の相互接続を示す図である。一実施形態に従う、高性能コンピューティング環境においてデュアルポート仮想ルータをサポートする方法のフローチャートを示す図である。一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ読出要求を、制限された特徴として提供するためのシステムを示す。一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ読出要求を、制限された特徴として提供するためのシステムを示す。一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ読出要求を、制限された特徴として提供するためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において明示的なＲＤＭＡ読出帯域幅制限を提供するためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において明示的なＲＤＭＡ読出帯域幅制限を提供するためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において明示的なＲＤＭＡ読出帯域幅制限を提供するためのシステムを示す。高性能コンピューティング環境において、ＲＤＭＡ（リモートダイレクトメモリアクセス）読出要求を、制限された特徴として提供するための方法のフローチャートである。ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。一実施形態による、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるための方法のフローチャートである。一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるための方法のフローチャートである。ある実施形態に係る、高性能コンピューティング環境においてイングレス帯域幅調停および輻輳フィードバックを組み合わせるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境においてイングレス帯域幅調停および輻輳フィードバックを組み合わせるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境においてイングレス帯域幅調停および輻輳フィードバックを組み合わせるためのシステムを示す。一実施形態による、高性能コンピューティング環境においてイングレス帯域幅調停と輻輳フィードバックとを組み合わせる方法のフローチャートである。ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いるためのシステムを示す。ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いる方法のフローチャートである。

詳細な説明：
本教示は、同様の参照番号が同様の要素を指している添付図面の図において、限定のためではなく例示のために説明されている。なお、この開示における「ある」または「１つの」または「いくつかの」実施形態への参照は必ずしも同じ実施形態に対するものではなく、そのような参照は少なくとも１つを意味する。特定の実現例が説明されるが、これらの特定の実現例が例示的な目的のためにのみ提供されることが理解される。当業者であれば、他の構成要素および構成が、本精神および範囲から逸脱することなく使用され得ることを認識するであろう。

図面および詳細な説明全体にわたって同様の要素を示すために、共通の参照番号が使用され得る。したがって、ある図で使用される参照番号は、要素が別のところで説明される場合、そのような図に特有の詳細な説明において参照される場合もあり、または参照されない場合もある。

本明細書では、高性能コンピューティング環境においてプライベートファブリックにおけるサービス品質（ＱＯＳ）およびサービスレベル合意（ＳＬＡ）を提供するシステムおよび方法について説明する。

ある実施形態によれば、本教示の以下の説明は、高性能ネットワークの一例として、インフィニバンド^ＴＭ（ＩＢ）ネットワークを使用する。以下の説明全体にわたり、インフィニバンド^ＴＭの仕様（インフィニバンド仕様、ＩＢ仕様、またはレガシーＩＢ仕様など、さまざまな呼ばれ方がある）を引用することがある。このような引用は、２０１５年３月に発表され、http://www.inifinibandta.orgから入手可能な、本明細書にその全体を引用により援用するInfiniBand Trade Association Architecture Specification, Volume 1, Version 1.3を引用することであると理解される。他のタイプの高性能ネットワークが何ら限定されることなく使用され得ることが、当業者には明らかであるだろう。以下の説明ではまた、ファブリックトポロジーについての一例として、ファットツリートポロジーを使用する。他のタイプのファブリックトポロジーが何ら限定されることなく使用され得ることが当業者には明らかであるだろう。

実施形態によれば、以下の説明は、ＲｏＣＥ（コンバージドイーサネットを介するＲＤＭＡ（リモートダイレクトメモリアクセス））を用いる。コンバージドイーサネットを介するＲＤＭＡ（ＲｏＣＥ）は、ハードウェアＲＤＭＡエンジン実装によるオフロードトランスポートおよび優れた性能を可能にする、イーサネットネットワークを介したＲＤＭＡの効率的なデータ転送を可能にする標準プロトコルである。ＲｏＣＥは、InfiniBand Trade Association（ＩＢＴＡ）規格において定義される標準プロトコルである。ＲｏＣＥは、ＵＤＰ（ユーザデータグラムプロトコル）カプセル化を利用して、それがレイヤ３ネットワークを越えることができるようにする。ＲＤＭＡは、インフィニバンド相互接続技術によってネイティブに使用される重要な能力である。インフィニバンドおよびイーサネットＲｏＣＥは両方とも、共通のユーザＡＰＩを共有するが、異なる物理層およびリンク層を有する。

一実施形態によれば、本明細書のさまざまな部分は、さまざまな実現例を説明する際にインフィニバンドファブリックへの言及を含むが、当業者は、本明細書で説明されるさまざまな実施形態はＲｏＣＥファブリックにおいても実現され得ることを容易に理解するであろう。

今の時代（たとえばエクサスケール（exascale）時代）のクラウドの要求を満たすためには、仮想マシンが、リモートダイレクトメモリアクセス（Remote Direct Memory Access：ＲＤＭＡ）等の低オーバーヘッドのネットワーク通信パラダイムを利用できることが望ましい。ＲＤＭＡはＯＳスタックをバイパスしハードウェアと直接通信するため、シングルルートＩ／Ｏ仮想化（ＳＲ－ＩＯＶ）ネットワークアダプタのようなパス・スルー技術を使用することができる。一実施形態に従うと、仮想スイッチ（ｖＳｗｉｔｃｈ）ＳＲ－ＩＯＶアーキテクチャを、高性能無損失相互接続ネットワークに適用することができる。ネットワーク再構成時間はライブマイグレーションを現実的な選択肢にするために重要なので、ネットワークアーキテクチャに加えて、スケーラブルでありトポロジーに依存しない動的再構成機構を提供することができる。

一実施形態に従い、さらに、ｖＳｗｉｔｃｈを使用する仮想化環境に対するルーティングストラテジーを提供することができ、ネットワークトポロジー（たとえばファットツリートポロジー）に対する効率的なルーティングアルゴリズムを提供することができる。動的再構成機構をさらに調整することにより、ファットツリーに課されるオーバーヘッドを最小にすることができる。

本教示の一実施形態に従うと、仮想化は、クラウドコンピューティングにおける効率的なリソースの利用および柔軟なリソースの割当てにとって有益になり得る。ライブマイグレーションは、アプリケーションにとってトランスペアレントになるように物理サーバ間で仮想マシン（ＶＭ）を移動させることでリソースの利用を最適化することを可能にする。このように、仮想化は、ライブマイグレーションにより、コンソリデーション、リソースのオンデマンドプロビジョニング、および柔軟性を可能にする。

インフィニバンド^ＴＭ
インフィニバンド^ＴＭ（ＩＢ）は、インフィニバンド^ＴＭ・トレード・アソシエーション（InfiniBand^TM Trade Association）によって開発されたオープン標準無損失ネットワーク技術である。この技術は、特に高性能コンピューティング（high-performance computing：ＨＰＣ）アプリケーションおよびデータセンタを対象とする、高スループットおよび少ない待ち時間の通信を提供するシリアルポイントツーポイント全二重相互接続（serial point-to-point full-duplex interconnect）に基づいている。

インフィニバンド^ＴＭ・アーキテクチャ（InfiniBand Architecture：ＩＢＡ）は、２層トポロジー分割をサポートする。低層では、ＩＢネットワークはサブネットと呼ばれ、１つのサブネットは、スイッチおよびポイントツーポイントリンクを使用して相互接続される一組のホストを含み得る。より高いレベルでは、１つのＩＢファブリックは、ルータを使用して相互接続され得る１つ以上のサブネットを構成する。

１つのサブネット内で、ホストは、スイッチおよびポイントツーポイントリンクを使用して接続され得る。加えて、サブネットにおける指定されたデバイス上に存在する、１つのマスター管理エンティティ、すなわちサブネットマネージャ（subnet manager：ＳＭ）があり得る。サブネットマネージャは、ＩＢサブネットを構成し、起動し、維持する役割を果たす。加えて、サブネットマネージャ（ＳＭ）は、ＩＢファブリックにおいてルーティングテーブル計算を行なう役割を果たし得る。ここで、たとえば、ＩＢネットワークのルーティングは、ローカルサブネットにおけるすべての送信元と宛先とのペア間の適正な負荷バランシングを目標とする。

サブネット管理インターフェイスを通して、サブネットマネージャは、サブネット管理パケット（subnet management packet：ＳＭＰ）と呼ばれる制御パケットを、サブネット管理エージェント（subnet management agent：ＳＭＡ）と交換する。サブネット管理エージェントは、すべてのＩＢサブネットデバイス上に存在する。ＳＭＰを使用することにより、サブネットマネージャは、ファブリックを発見し、エンドノードおよびスイッチを構成し、ＳＭＡから通知を受信することができる。

一実施形態に従うと、ＩＢネットワークにおけるサブネット内のルーティングは、スイッチに格納されたリニアフォワーディングテーブル（linear forwarding table）（ＬＦＴ）に基づき得る。ＬＦＴは、使用中のルーティングメカニズムに従って、ＳＭによって計算される。サブネットでは、エンドノード上のホストチャネルアダプタ（Host Channel Adapter：ＨＣＡ）ポートおよびスイッチが、ローカル識別子（ＬＩＤ）を使用してアドレス指定される。ＬＦＴにおける各エントリは、宛先ＬＩＤ（destination LID：ＤＬＩＤ）と出力ポートとからなる。テーブルにおけるＬＩＤごとに１つのエントリのみがサポートされる。パケットがあるスイッチに到着すると、その出力ポートは、そのスイッチのフォワーディングテーブルにおいてＤＬＩＤを検索することによって判断される。所与の送信元－宛先ペア（ＬＩＤペア）間のネットワークにおいてパケットは同じ経路を通るため、ルーティングは決定論的である。

一般に、マスタサブネットマネージャを除く他のすべてのサブネットマネージャは、耐故障性のために待機モードで作動する。しかしながら、マスタサブネットマネージャが故障した状況では、待機中のサブネットマネージャによって、新しいマスタサブネットマネージャが取り決められる。マスタサブネットマネージャはまた、サブネットの周期的なスイープ（sweep）を行なってあらゆるトポロジー変化を検出し、それに応じてネットワークを再構成する。

さらに、サブネット内のホストおよびスイッチは、ローカル識別子（ＬＩＤ）を用いてアドレス指定され得るとともに、単一のサブネットは４９１５１個のユニキャストＬＩＤに制限され得る。サブネット内で有効なローカルアドレスであるＬＩＤの他に、各ＩＢデバイスは、６４ビットのグローバル一意識別子（global unique identifier：ＧＵＩＤ）を有し得る。ＧＵＩＤは、ＩＢレイヤー３（Ｌ３）アドレスであるグローバル識別子（global identifier：ＧＩＤ）を形成するために使用され得る。

ＳＭは、ネットワーク初期化時間に、ルーティングテーブル（すなわち、サブネット内のノードの各ペア間の接続／ルート）を計算し得る。さらに、トポロジーが変化するたびに、ルーティングテーブルは、接続性および最適性能を確実にするために更新され得る。通常動作中、ＳＭは、トポロジー変化をチェックするためにネットワークの周期的なライトスイープ（light sweep）を実行し得る。ライトスイープ中に変化が発見された場合、または、ネットワーク変化を信号で伝えるメッセージ（トラップ）をＳＭが受信した場合、ＳＭは、発見された変化に従ってネットワークを再構成し得る。

たとえば、ＳＭは、リンクがダウンした場合、デバイスが追加された場合、またはリンクが除去された場合など、ネットワークトポロジーが変化する場合に、ネットワークを再構成し得る。再構成ステップは、ネットワーク初期化中に行なわれるステップを含み得る。さらに、再構成は、ネットワーク変化が生じたサブネットに制限されるローカルスコープを有し得る。また、ルータを用いる大規模ファブリックのセグメント化は、再構成スコープを制限し得る。

一実施形態に従うインフィニバンド環境１００の一例を示す図１に、インフィニバンドファブリックの一例を示す。図１に示す例では、ノードＡ１０１～Ｅ１０５は、インフィニバンドファブリック１２０を使用して、それぞれのホストチャネルアダプタ１１１～１１５を介して通信する。一実施形態に従うと、さまざまなノード（たとえばノードＡ１０１～Ｅ１０５）はさまざまな物理デバイスによって表わすことができる。一実施形態に従うと、さまざまなノード（たとえばノードＡ１０１～Ｅ１０５）は仮想マシンなどのさまざまな仮想デバイスによって表わすことができる。

インフィニバンドにおけるパーティショニング
一実施形態に従うと、ＩＢネットワークは、ネットワークファブリックを共有するシステムの論理グループを分離するためのセキュリティメカニズムとしてのパーティショニングをサポートし得る。ファブリックにおけるノード上の各ＨＣＡポートは、１つ以上のパーティションのメンバである可能性がある。パーティションメンバーシップは、ＳＭの一部であり得る集中型パーティションマネージャによって管理される。ＳＭは、各ポートに関するパーティションメンバーシップ情報を、１６ビットのパーティションキー（partition key：Ｐ＿Ｋｅｙ）のテーブルとして構成することができる。ＳＭはまた、これらのポートを介してデータトラフィックを送信または受信するエンドノードに関連付けられたＰ＿Ｋｅｙ情報を含むパーティション実施テーブルを用いて、スイッチポートおよびルータポートを構成することができる。加えて、一般的な場合には、スイッチポートのパーティションメンバーシップは、（リンクに向かう）出口方向に向かってポートを介してルーティングされたＬＩＤに間接的に関連付けられたすべてのメンバーシップの集合を表わし得る。

一実施形態に従うと、パーティションはポートの論理グループであり、あるグループのメンバは同じ論理グループの他のメンバとしか通信できない。ホストチャネルアダプタ（ＨＣＡ）およびスイッチにおいて、パーティションメンバーシップ情報を用いてパケットをフィルタリングすることにより、分離を実施することができる。無効なパーティショニング情報を有するパケットは、当該パケットが入口ポートに達すると直ちにドロップすることができる。パーティショニングされたＩＢシステムにおいて、パーティションを用いることにより、テナントクラスタを作成できる。パーティションを適所で実施すると、ノードは異なるテナントクラスタに属する他のノードと通信することができない。このようにして、欠陥があるまたは悪意があるテナントノードが存在していても、システムのセキュリティを保証することができる。

一実施形態に従うと、ノード間の通信のために、マネージメントキューペア（ＱＰ０およびＱＰ１）を除き、キューペア（Queue Pair：ＱＰ）およびエンドツーエンドコンテキスト（End-to-End context：ＥＥＣ）を特定のパーティションに割当てることができる。次に、Ｐ＿Ｋｅｙ情報を、送信されたすべてのＩＢトランスポートパケットに追加することができる。パケットがＨＣＡポートまたはスイッチに到着すると、そのＰ＿Ｋｅｙ値を、ＳＭによって構成されたテーブルに対して確認することができる。無効のＰ＿Ｋｅｙ値が見つかった場合、そのパケットは直ちに廃棄される。このようにして、通信は、パーティションを共有するポート間でのみ許可される。

一実施形態に従い、パーティショニングされたクラスタ環境の一例を示す図２に、ＩＢパーティションの一例が示される。図２に示す例では、ノードＡ１０１～Ｅ１０５は、インフィニバンドファブリック１２０を使用して、それぞれのホストチャネルアダプタ１１１～１１５を介して通信する。ノードＡ～Ｅは、パーティション、すなわち、パーティション１１３０、パーティション２１４０、およびパーティション３１５０に配置されている。パーティション１はノードＡ１０１とノードＤ１０４とを含む。パーティション２はノードＡ１０１とノードＢ１０２とノードＣ１０３とを含む。パーティション３はノードＣ１０３とノードＥ１０５とを含む。パーティションのこの配置により、ノードＤ１０４およびノードＥ１０５は、１つのパーティションを共有していないので、通信することができない。一方、たとえばノードＡ１０１およびノードＣ１０３は、どちらもパーティション２１４０のメンバなので、通信することができる。

インフィニバンドにおける仮想マシン
過去１０年の間に、ハードウェア仮想化サポートによってＣＰＵオーバーヘッドが実質的に排除され、メモリ管理ユニットを仮想化することによってメモリオーバーヘッドが著しく削減され、高速ＳＡＮストレージまたは分散型ネットワークファイルシステムの利用によってストレージオーバーヘッドが削減され、シングルルートＩ／Ｏ仮想化（Single Root Input/Output Virtualization：ＳＲ－ＩＯＶ）のようなデバイス・パススルー技術を使用することによってネットワークＩ／Ｏオーバーヘッドが削減されてきたことに応じて、仮想化された高性能コンピューティング（High Performance Computing：ＨＰＣ）環境の将来の見通しが大幅に改善されてきた。現在では、クラウドが、高性能相互接続ソリューションを用いて仮想ＨＰＣ（virtual HPC：ｖＨＰＣ）クラスタに対応し、必要な性能を提供することができる。

しかしながら、インフィニバンド（ＩＢ）などの無損失ネットワークと連結されたとき、仮想マシン（ＶＭ）のライブマイグレーションなどのいくつかのクラウド機能は、これらのソリューションにおいて用いられる複雑なアドレス指定およびルーティングスキームのせいで、依然として問題となる。ＩＢは、高帯域および低レイテンシを提供する相互接続ネットワーク技術であり、このため、ＨＰＣおよび他の通信集約型の作業負荷に非常によく適している。

ＩＢデバイスをＶＭに接続するための従来のアプローチは直接割当てされたＳＲ－ＩＯＶを利用することによるものである。しかしながら、ＳＲ－ＩＯＶを用いてＩＢホストチャネルアダプタ（ＨＣＡ）に割当てられたＶＭのライブマイグレーションを実現することは難易度の高いものであることが判明した。各々のＩＢが接続されているノードは、３つの異なるアドレス（すなわちＬＩＤ、ＧＵＩＤおよびＧＩＤ）を有する。ライブマイグレーションが発生すると、これらのアドレスのうち１つ以上が変化する。マイグレーション中のＶＭ（VM-in-migration）と通信する他のノードは接続性を失う可能性がある。これが発生すると、ＩＢサブネットマネージャ（Subnet Manager：ＳＭ）にサブネット管理（Subnet Administration：ＳＡ）経路記録クエリを送信することによって、再接続すべき仮想マシンの新しいアドレスを突きとめることにより、失われた接続を回復させるように試みることができる。

ＩＢは３つの異なるタイプのアドレスを用いる。第１のタイプのアドレスは１６ビットのローカル識別子（ＬＩＤ）である。少なくとも１つの固有のＬＩＤは、ＳＭによって各々のＨＣＡポートおよび各々のスイッチに割当てられる。ＬＩＤはサブネット内のトラフィックをルーティングために用いられる。ＬＩＤが１６ビット長であるので、６５５３６個の固有のアドレス組合せを構成することができ、そのうち４９１５１個（０×０００１－０×ＢＦＦＦ）だけをユニキャストアドレスとして用いることができる。結果として、入手可能なユニキャストアドレスの数は、ＩＢサブネットの最大サイズを定義することとなる。第２のタイプのアドレスは、製造業者によって各々のデバイス（たとえば、ＨＣＡおよびスイッチ）ならびに各々のＨＣＡポートに割当てられた６４ビットのグローバル一意識別子（ＧＵＩＤ）である。ＳＭは、ＨＣＡポートに追加のサブネット固有ＧＵＩＤを割当ててもよく、これは、ＳＲ－ＩＯＶが用いられる場合に有用となる。第３のタイプのアドレスは１２８ビットのグローバル識別子（ＧＩＤ）である。ＧＩＤは有効なＩＰｖ６ユニキャストアドレスであり、少なくとも１つが各々のＨＣＡポートに割当てられている。ＧＩＤは、ファブリックアドミニストレータによって割当てられたグローバルに固有の６４ビットプレフィックスと各々のＨＣＡポートのＧＵＩＤアドレスとを組合わせることによって形成される。

ファットツリー（ＦＴｒｅｅ）トポロジーおよびルーティング
一実施形態に従うと、ＩＢベースのＨＰＣシステムのいくつかは、ファットツリートポロジーを採用して、ファットツリーが提供する有用な特性を利用する。これらの特性は、各送信元宛先ペア間の複数経路の利用可能性に起因する、フルバイセクション帯域幅および固有の耐故障性を含む。ファットツリーの背後にある初期の概念は、ツリーがトポロジーのルート（root）に近づくにつれて、より利用可能な帯域幅を用いて、ノード間のより太いリンクを採用することであった。より太いリンクは、上位レベルのスイッチにおける輻輳を回避するのに役立てることができ、バイセクション帯域幅が維持される。

図３は、一実施形態に従う、ネットワーク環境におけるツリートポロジーの例を示す。図３に示すように、ネットワークファブリック２００において、１つ以上のエンドノード２０１～２０４が接続され得る。ネットワークファブリック２００は、複数のリーフスイッチ２１１～２１４と複数のスパインスイッチまたはルート（root）スイッチ２３１～２３４とを含むファットツリートポロジーに基づき得る。加えて、ネットワークファブリック２００は、スイッチ２２１～２２４などの１つ以上の中間スイッチを含み得る。

また、図３に示すように、エンドノード２０１～２０４の各々は、マルチホームノード、すなわち、複数のポートを介してネットワークファブリック２００のうち２つ以上の部分に接続される単一のノードであり得る。たとえば、ノード２０１はポートＨ１およびＨ２を含み、ノード２０２はポートＨ３およびＨ４を含み、ノード２０３はポートＨ５およびＨ６を含み、ノード２０４はポートＨ７およびＨ８を含み得る。

加えて、各スイッチは複数のスイッチポートを有し得る。たとえば、ルートスイッチ２３１はスイッチポート１～２を有し、ルートスイッチ２３２はスイッチポート３～４を有し、ルートスイッチ２３３はスイッチポート５～６を有し、ルートスイッチ２３４はスイッチポート７～８を有し得る。

実施形態に従うと、ファットツリールーティングメカニズムは、ＩＢベースのファットツリートポロジーに関して最も人気のあるルーティングアルゴリズムのうちの１つである。ファットツリールーティングメカニズムはまた、ＯＦＥＤ（Open Fabric Enterprise Distribution：ＩＢベースのアプリケーションを構築しデプロイするための標準ソフトウェアスタック）サブネットマネージャ、すなわちＯｐｅｎＳＭにおいて実現される。

ファットツリールーティングメカニズムの目的は、ネットワークファブリックにおけるリンクにわたって最短経路ルートを均一に広げるＬＦＴを生成することである。このメカニズムは、索引付け順序でファブリックを横断し、エンドノードの目標ＬＩＤ、ひいては対応するルートを各スイッチポートに割当てる。同じリーフスイッチに接続されたエンドノードについては、索引付け順序は、エンドノードが接続されるスイッチポートに依存し得る（すなわち、ポートナンバリングシーケンス）。各ポートについては、メカニズムはポート使用カウンタを維持することができ、新しいルートが追加されるたびに、ポート使用カウンタを使用して使用頻度が最小のポートを選択することができる。

一実施形態に従うと、パーティショニングされたサブネットでは、共通のパーティションのメンバではないノードは通信することを許可されない。実際には、これは、ファットツリールーティングアルゴリズムによって割当てられたルートのうちのいくつかがユーザトラフィックのために使用されないことを意味する。ファットツリールーティングメカニズムが、それらのルートについてのＬＦＴを、他の機能的経路と同じやり方で生成する場合、問題が生じる。この動作は、リンク上でバランシングを劣化させるおそれがある。なぜなら、ノードが索引付けの順序でルーティングされているからである。パーティションに気づかずにルーティングが行なわれるため、ファットツリーでルーティングされたサブネットにより、概して、パーティション間の分離が不良なものとなる。

一実施形態に従うと、ファットツリーは、利用可能なネットワークリソースでスケーリングすることができる階層ネットワークトポロジーである。さらに、ファットツリーは、さまざまなレベルの階層に配置された商品スイッチを用いて容易に構築される。さらに、ｋ－ａｒｙ－ｎ－ｔｒｅｅ、拡張された一般化ファットツリー（Extended Generalized Fat-Tree：ＸＧＦＴ）、パラレルポート一般化ファットツリー（Parallel Ports Generalized Fat-Tree：ＰＧＦＴ）およびリアルライフファットツリー（Real Life Fat-Tree：ＲＬＦＴ）を含むファットツリーのさまざまな変形例が、一般に利用可能である。

また、ｋ－ａｒｙ－ｎ－ｔｒｅｅは、ｎレベルのファットツリーであって、ｋ^ｎエンドノードと、ｎ・ｋ^ｎ－１スイッチとを備え、各々が２ｋポートを備えている。各々のスイッチは、ツリーにおいて上下方向に同数の接続を有している。ＸＧＦＴファットツリーは、スイッチのための異なる数の上下方向の接続と、ツリーにおける各レベルでの異なる数の接続とをともに可能にすることによって、ｋ－ａｒｙ－ｎ－ｔｒｅｅを拡張させる。ＰＧＦＴ定義はさらに、ＸＧＦＴトポロジーを拡張して、スイッチ間の複数の接続を可能にする。多種多様なトポロジーはＸＧＦＴおよびＰＧＦＴを用いて定義することができる。しかしながら、実用化するために、現代のＨＰＣクラスタにおいて一般に見出されるファットツリーを定義するために、ＰＧＦＴの制限バージョンであるＲＬＦＴが導入されている。ＲＬＦＴは、ファットツリーにおけるすべてのレベルに同じポートカウントスイッチを用いている。

入出力（Ｉ／Ｏ）仮想化
一実施形態に従うと、Ｉ／Ｏ仮想化（I/O Virtualization：ＩＯＶ）は、基礎をなす物理リソースに仮想マシン（ＶＭ）がアクセスすることを可能にすることによって、Ｉ／Ｏを利用可能にすることができる。ストレージトラフィックとサーバ間通信とを組合わせると、シングルサーバのＩ／Ｏリソースにとって抗し難い高い負荷が課され、結果として、データの待機中に、バックログが発生し、プロセッサがアイドル状態になる可能性がある。Ｉ／Ｏ要求の数が増えるにつれて、ＩＯＶにより利用可能性をもたらすことができ、最新のＣＰＵ仮想化において見られる性能レベルに匹敵するように、（仮想化された）Ｉ／Ｏリソースの性能、スケーラビリティおよび融通性を向上させることができる。

一実施形態に従うと、Ｉ／Ｏリソースの共有を可能にして、ＶＭからリソースへのアクセスが保護されることを可能にし得るようなＩＯＶが所望される。ＩＯＶは、ＶＭにエクスポーズされる論理装置を、その物理的な実装から分離する。現在、エミュレーション、準仮想化、直接的な割当て（direct assignment：ＤＡ）、およびシングルルートＩ／Ｏ仮想化（ＳＲ－ＩＯＶ）などのさまざまなタイプのＩＯＶ技術が存在し得る。

一実施形態に従うと、あるタイプのＩＯＶ技術としてソフトウェアエミュレーションがある。ソフトウェアエミュレーションは分離されたフロントエンド／バックエンド・ソフトウェアアーキテクチャを可能にし得る。フロントエンドはＶＭに配置されたデバイスドライバであり得、Ｉ／Ｏアクセスをもたらすためにハイパーバイザによって実現されるバックエンドと通信し得る。物理デバイス共有比率は高く、ＶＭのライブマイグレーションはネットワークダウンタイムのわずか数ミリ秒で実現可能である。しかしながら、ソフトウェアエミュレーションはさらなる不所望な計算上のオーバーヘッドをもたらしてしまう。

一実施形態に従うと、別のタイプのＩＯＶ技術として直接的なデバイスの割当てがある。直接的なデバイスの割当てでは、Ｉ／ＯデバイスをＶＭに連結する必要があるが、デバイスはＶＭ間では共有されない。直接的な割当てまたはデバイス・パススルーは、最小限のオーバーヘッドでほぼ固有の性能を提供する。物理デバイスはハイパーバイザをバイパスし、直接、ＶＭに取付けられている。しかしながら、このような直接的なデバイスの割当ての欠点は、仮想マシン間で共有がなされないため、１枚の物理ネットワークカードが１つのＶＭと連結されるといったように、スケーラビリティが制限されてしまうことである。

一実施形態に従うと、シングルルートＩＯＶ（Single Root IOV：ＳＲ－ＩＯＶ）は、ハードウェア仮想化によって、物理装置がその同じ装置の複数の独立した軽量のインスタンスとして現われることを可能にし得る。これらのインスタンスは、パス・スルー装置としてＶＭに割当てることができ、仮想機能（Virtual Function：ＶＦ）としてアクセスすることができる。ハイパーバイザは、（１つのデバイスごとに）固有の、十分な機能を有する物理機能（Physical Function：ＰＦ）によってデバイスにアクセスする。ＳＲ－ＩＯＶは、純粋に直接的に割当てする際のスケーラビリティの問題を軽減する。しかしながら、ＳＲ－ＩＯＶによって提示される問題は、それがＶＭマイグレーションを損なう可能性があることである。これらのＩＯＶ技術の中でも、ＳＲ－ＩＯＶは、ほぼ固有の性能を維持しながらも、複数のＶＭから単一の物理デバイスに直接アクセスすることを可能にする手段を用いてＰＣＩＥｘｐｒｅｓｓ（ＰＣＩｅ）規格を拡張することができる。これにより、ＳＲ－ＩＯＶは優れた性能およびスケーラビリティを提供することができる。

ＳＲ－ＩＯＶは、ＰＣＩｅデバイスが、各々のゲストに１つの仮想デバイスを割当てることによって複数のゲスト間で共有することができる複数の仮想デバイスをエクスポーズすることを可能にする。各々のＳＲ－ＩＯＶデバイスは、少なくとも１つの物理機能（ＰＦ）と、１つ以上の関連付けられた仮想機能（ＶＦ）とを有する。ＰＦは、仮想マシンモニタ（virtual machine monitor：ＶＭＭ）またはハイパーバイザによって制御される通常のＰＣＩｅ機能であるのに対して、ＶＦは軽量のＰＣＩｅ機能である。各々のＶＦはそれ自体のベースアドレス（base address：ＢＡＲ）を有しており、固有のリクエスタＩＤが割当てられている。固有のリクエスタＩＤは、Ｉ／Ｏメモリ管理ユニット（I/O memory management unit：ＩＯＭＭＵ）がさまざまなＶＦへの／からのトラフィックストリームを区別することを可能にする。ＩＯＭＭＵはまた、メモリを適用して、ＰＦとＶＦとの間の変換を中断する。

しかし、残念ながら、直接的デバイス割当て技術は、仮想マシンのトランスペアレントなライブマイグレーションがデータセンタ最適化のために所望されるような状況においては、クラウドプロバイダにとって障壁となる。ライブマイグレーションの本質は、ＶＭのメモリ内容がリモートハイパーバイザにコピーされるという点である。さらに、ＶＭがソースハイパーバイザにおいて中断され、ＶＭの動作が宛先において再開される。ソフトウェアエミュレーション方法を用いる場合、ネットワークインターフェイスは、それらの内部状態がメモリに記憶され、さらにコピーされるように仮想的である。このため、ダウンタイムは数ミリ秒にまで減らされ得る。

しかしながら、ＳＲ－ＩＯＶなどの直接的デバイス割当て技術が用いられる場合、マイグレーションはより困難になる。このような状況においては、ネットワークインターフェイスの内部状態全体は、それがハードウェアに結び付けられているのでコピーすることができない。代わりに、ＶＭに割当てられたＳＲ－ＩＯＶＶＦが分離され、ライブマイグレーションが実行されることとなり、新しいＶＦが宛先において付与されることとなる。インフィニバンドおよびＳＲ－ＩＯＶの場合、このプロセスがダウンタイムを数秒のオーダでもたらす可能性がある。さらに、ＳＲ－ＩＯＶ共有型ポートモデルにおいては、ＶＭのアドレスがマイグレーション後に変化することとなり、これにより、ＳＭにオーバーヘッドが追加され、基礎をなすネットワークファブリックの性能に対して悪影響が及ぼされることとなる。

インフィニバンドＳＲ－ＩＯＶアーキテクチャ－共有ポート
さまざまなタイプのＳＲ－ＩＯＶモデル（たとえば共有ポートモデル、仮想スイッチモデルおよび仮想ポートモデル）があり得る。

図４は、一実施形態に従う例示的な共有ポートアーキテクチャを示す。図に示されるように、ホスト３００（たとえばホストチャネルアダプタ）はハイパーバイザ３１０と対話し得る。ハイパーバイザ３１０は、さまざまな仮想機能３３０、３４０および３５０をいくつかの仮想マシンに割当て得る。同様に、物理機能はハイパーバイザ３１０によって処理することができる。

一実施形態に従うと、図４に示されるような共有ポートアーキテクチャを用いる場合、ホスト（たとえばＨＣＡ）は、物理機能３２０と仮想機能３３０、３５０、３５０との間において単一の共有ＬＩＤおよび共有キュー対（Queue Pair：ＱＰ）のスペースがあるネットワークにおいて単一のポートとして現われる。しかしながら、各々の機能（すなわち、物理機能および仮想機能）はそれら自体のＧＩＤを有し得る。

図４に示されるように、一実施形態に従うと、さまざまなＧＩＤを仮想機能および物理機能に割当てることができ、特別のキュー対であるＱＰ０およびＱＰ１（すなわちインフィニバンド^ＴＭ管理パケットのために用いられる専用のキュー対）が物理機能によって所有される。これらのＱＰはＶＦにも同様にエクスポーズされるが、ＶＦはＱＰ０を使用することが許可されておらず（ＶＦからＱＰ０に向かって入来するすべてのＳＭＰが廃棄され）、ＱＰ１は、ＰＦが所有する実際のＱＰ１のプロキシとして機能し得る。

一実施形態に従うと、共有ポートアーキテクチャは、（仮想機能に割当てられることによってネットワークに付随する）ＶＭの数によって制限されることのない高度にスケーラブルなデータセンタを可能にし得る。なぜなら、ネットワークにおける物理的なマシンおよびスイッチによってＬＩＤスペースが消費されるだけであるからである。

しかしながら、共有ポートアーキテクチャの欠点は、トランスペアレントなライブマイグレーションを提供することができない点であり、これにより、フレキシブルなＶＭ配置についての可能性が妨害されてしまう。各々のＬＩＤが特定のハイパーバイザに関連付けられており、かつハイパーバイザ上に常駐するすべてのＶＭ間で共有されているので、マイグレートしているＶＭ（すなわち、宛先ハイパーバイザにマイグレートする仮想マシン）は、そのＬＩＤを宛先ハイパーバイザのＬＩＤに変更させなければならない。さらに、ＱＰ０アクセスが制限された結果、サブネットマネージャはＶＭの内部で実行させることができなくなる。

インフィニバンドＳＲ－ＩＯＶアーキテクチャモデル－仮想スイッチ（ｖＳｗｉｔｃｈ）
図５は、一実施形態に従う例示的なｖＳｗｉｔｃｈアーキテクチャを示す。図に示されるように、ホスト４００（たとえばホストチャネルアダプタ）はハイパーバイザ４１０と対話することができ、当該ハイパーバイザ４１０は、さまざまな仮想機能４３０、４４０および４５０をいくつかの仮想マシンに割当てることができる。同様に、物理機能はハイパーバイザ４１０によって処理することができる。仮想スイッチ４１５もハイパーバイザ４０１によって処理することができる。

一実施形態に従うと、ｖＳｗｉｔｃｈアーキテクチャにおいては、各々の仮想機能４３０、４４０、４５０は完全な仮想ホストチャネルアダプタ（virtual Host Channel Adapter：ｖＨＣＡ）であり、これは、ハードウェアにおいて、ＶＦに割当てられたＶＭに、ＩＢアドレス一式（たとえばＧＩＤ、ＧＵＩＤ、ＬＩＤ）および専用のＱＰスペースが割当てられていることを意味する。残りのネットワークおよびＳＭについては、ＨＣＡ４００は、仮想スイッチ４１５を介して追加のノードが接続されているスイッチのように見えている。ハイパーバイザ４１０はＰＦ４２０を用いることができ、（仮想機能に付与された）ＶＭはＶＦを用いる。

一実施形態に従うと、ｖＳｗｉｔｃｈアーキテクチャは、トランスペアレントな仮想化を提供する。しかしながら、各々の仮想機能には固有のＬＩＤが割当てられているので、利用可能な数のＬＩＤが速やかに消費される。同様に、多くのＬＩＤアドレスが（すなわち、各々の物理機能および各々の仮想機能ごとに１つずつ）使用されている場合、より多くの通信経路をＳＭによって演算しなければならず、それらのＬＦＴを更新するために、より多くのサブネット管理パケット（ＳＭＰ）をスイッチに送信しなければならない。たとえば、通信経路の演算は大規模ネットワークにおいては数分かかる可能性がある。ＬＩＤスペースが４９１５１個のユニキャストＬＩＤに制限されており、（ＶＦを介する）各々のＶＭとして、物理ノードおよびスイッチがＬＩＤを１つずつ占有するので、ネットワークにおける物理ノードおよびスイッチの数によってアクティブなＶＭの数が制限されてしまい、逆の場合も同様に制限される。

インフィニバンドＳＲ－ＩＯＶアーキテクチャモデル－仮想ポート（ｖＰｏｒｔ）
図６は、一実施形態に従う例示的なｖＰｏｒｔの概念を示す。図に示されるように、ホスト３００（たとえばホストチャネルアダプタ）は、さまざまな仮想機能３３０、３４０および３５０をいくつかの仮想マシンに割当てることができるハイパーバイザ４１０と対話することができる。同様に、物理機能はハイパーバイザ３１０によって処理することができる。

一実施形態に従うと、ベンダーに実装の自由を与えるためにｖＰｏｒｔ概念は緩やかに定義されており（たとえば、当該定義では、実装がＳＲＩＯＶ専用とすべきであるとは規定されていない）、ｖＰｏｒｔの目的は、ＶＭがサブネットにおいて処理される方法を標準化することである。ｖＰｏｒｔ概念であれば、空間ドメインおよび性能ドメインの両方においてよりスケーラブルであり得る、ＳＲ－ＩＯＶ共有のポートのようなアーキテクチャおよびｖＳｗｉｔｃｈのようなアーキテクチャの両方、または、これらのアーキテクチャの組合せが規定され得る。また、ｖＰｏｒｔはオプションのＬＩＤをサポートするとともに、共有のポートとは異なり、ＳＭは、ｖＰｏｒｔが専用のＬＩＤを用いていなくても、サブネットにおいて利用可能なすべてのｖＰｏｒｔを認識する。

インフィニバンドＳＲ－ＩＯＶアーキテクチャモデル－ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈ
一実施形態に従うと、本開示は、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈアーキテクチャを提供するためのシステムおよび方法を提供する。

図７は、一実施形態に従う、ＬＩＤが予めポピュレートされた例示的なｖＳｗｉｔｃｈアーキテクチャを示す。図に示されるように、いくつかのスイッチ５０１～５０４は、ネットワーク切替環境６００（たとえばＩＢサブネット）内においてインフィニバンド^ＴＭファブリックなどのファブリックのメンバ間で通信を確立することができる。ファブリックはホストチャネルアダプタ５１０、５２０、５３０などのいくつかのハードウェアデバイスを含み得る。さらに、ホストチャネルアダプタ５１０、５２０および５３０は、それぞれ、ハイパーバイザ５１１、５２１および５３１と対話することができる。各々のハイパーバイザは、さらに、ホストチャネルアダプタと共に、いくつかの仮想機能５１４、５１５、５１６、５２４、５２５、５２６、５３４、５３５および５３６と対話し、設定し、いくつかの仮想マシンに割当てることができる。たとえば、仮想マシン１５５０はハイパーバイザ５１１によって仮想機能１５１４に割当てることができる。ハイパーバイザ５１１は、加えて、仮想マシン２５５１を仮想機能２５１５に割当て、仮想マシン３５５２を仮想機能３５１６に割当てることができる。ハイパーバイザ５３１は、さらに、仮想マシン４５５３を仮想機能１５３４に割当てることができる。ハイパーバイザは、ホストチャネルアダプタの各々の上で十分な機能を有する物理機能５１３、５２３および５３３を介してホストチャネルアダプタにアクセスすることができる。

一実施形態に従うと、スイッチ５０１～５０４の各々はいくつかのポート（図示せず）を含み得る。いくつかのポートは、ネットワーク切替環境６００内においてトラフィックを方向付けるためにリニアフォワーディングテーブルを設定するのに用いられる。

一実施形態に従うと、仮想スイッチ５１２、５２２および５３２は、それぞれのハイパーバイザ５１１、５２１、５３１によって処理することができる。このようなｖＳｗｉｔｃｈアーキテクチャにおいては、各々の仮想機能は完全な仮想ホストチャネルアダプタ（ｖＨＣＡ）であり、これは、ハードウェアにおいて、ＶＦに割当てられたＶＭに、ＩＢアドレス一式（たとえばＧＩＤ、ＧＵＩＤ、ＬＩＤ）および専用のＱＰスペースが割当てられていることを意味する。残りのネットワークおよびＳＭ（図示せず）については、ＨＣＡ５１０、５２０および５３０は、仮想スイッチを介して追加のノードが接続されているスイッチのように見えている。

一実施形態に従うと、本開示は、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈアーキテクチャを提供するためのシステムおよび方法を提供する。図７を参照すると、ＬＩＤは、さまざまな物理機能５１３、５２３および５３３に、さらには、仮想機能５１４～５１６、５２４～５２６、５３４～５３６（その時点でアクティブな仮想マシンに関連付けられていない仮想機能であっても）にも、予めポピュレートされている。たとえば、物理機能５１３はＬＩＤ１が予めポピュレートされており、仮想機能１５３４はＬＩＤ１０が予めポピュレートされている。ネットワークがブートされているとき、ＬＩＤはＳＲ－ＩＯＶｖＳｗｉｔｃｈ対応のサブネットにおいて予めポピュレートされている。ＶＦのすべてがネットワークにおけるＶＭによって占有されていない場合であっても、ポピュレートされたＶＦには、図７に示されるようにＬＩＤが割当てられている。

一実施形態に従うと、多くの同様の物理的なホストチャネルアダプタが２つ以上のポートを有することができ（冗長性のために２つのポートが共用となっている）、仮想ＨＣＡも２つのポートで表わされ、１つまたは２つ以上の仮想スイッチを介して外部ＩＢサブネットに接続され得る。

一実施形態に従うと、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈアーキテクチャにおいては、各々のハイパーバイザは、それ自体のための１つのＬＩＤをＰＦを介して消費し、各々の追加のＶＦごとに１つ以上のＬＩＤを消費することができる。ＩＢサブネットにおけるすべてのハイパーバイザにおいて利用可能なすべてのＶＦを合計すると、サブネットにおいて実行することが可能なＶＭの最大量が得られる。たとえば、サブネット内の１ハイパーバイザごとに１６個の仮想機能を備えたＩＢサブネットにおいては、各々のハイパーバイザは、サブネットにおいて１７個のＬＩＤ（１６個の仮想機能ごとに１つのＬＩＤと、物理機能のために１つのＬＩＤ）を消費する。このようなＩＢサブネットにおいては、単一のサブネットについて理論上のハイパーバイザ限度は利用可能なユニキャストＬＩＤの数によって規定されており、（４９１５１個の利用可能なＬＩＤをハイパーバイザごとに１７個のＬＩＤで割って得られる）２８９１であり、ＶＭの総数（すなわち限度）は（ハイパーバイザごとに２８９１個のハイパーバイザに１６のＶＦを掛けて得られる）４６２５６である（実質的には、ＩＢサブネットにおける各々のスイッチ、ルータまたは専用のＳＭノードが同様にＬＩＤを消費するので、実際これらの数はより小さくなる）。なお、ｖＳｗｉｔｃｈが、ＬＩＤをＰＦと共有することができるので、付加的なＬＩＤを占有する必要がないことに留意されたい。

一実施形態に従うと、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈアーキテクチャにおいては、ネットワークが一旦ブートされると、すべてのＬＩＤについて通信経路が計算される。新しいＶＭを始動させる必要がある場合、システムは、サブネットにおいて新しいＬＩＤを追加する必要はない。それ以外の場合、経路の再計算を含め、ネットワークを完全に再構成させ得る動作は、最も時間を消費する要素となる。代わりに、ＶＭのための利用可能なポートはハイパーバイザのうちの１つに位置し（すなわち利用可能な仮想機能）、仮想マシンは利用可能な仮想機能に付与されている。

一実施形態に従うと、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈアーキテクチャはまた、同じハイパーバイザによってホストされているさまざまなＶＭに達するために、さまざまな経路を計算して用いる能力を可能にする。本質的には、これは、ＬＩＤを連続的にすることを必要とするＬＭＣの制約によって拘束されることなく、１つの物理的なマシンに向かう代替的な経路を設けるために、このようなサブネットおよびネットワークがＬＩＤマスク制御ライク（LID-Mask-Control-like：ＬＭＣライク）な特徴を用いることを可能にする。ＶＭをマイグレートしてその関連するＬＩＤを宛先に送達する必要がある場合、不連続なＬＩＤを自由に使用できることは特に有用となる。

一実施形態に従うと、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈアーキテクチャについての上述の利点と共に、いくつかの検討事項を考慮に入れることができる。たとえば、ネットワークがブートされているときに、ＳＲ－ＩＯＶｖＳｗｉｔｃｈ対応のサブネットにおいてＬＩＤが予めポピュレートされているので、（たとえば起動時の）最初の経路演算はＬＩＤが予めポピュレートされていなかった場合よりも時間が長くかかる可能性がある。

インフィニバンドＳＲ－ＩＯＶアーキテクチャモデル－動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈ
一実施形態に従うと、本開示は、動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈアーキテクチャを提供するためのシステムおよび方法を提供する。

図８は、一実施形態に従う、動的ＬＩＤ割当てがなされた例示的なｖＳｗｉｔｃｈアーキテクチャを示す。図に示されるように、いくつかのスイッチ５０１～５０４は、ネットワーク切替環境７００（たとえばＩＢサブネット）内においてインフィニバンド^ＴＭファブリックなどのファブリックのメンバ間で通信を確立することができる。ファブリックは、ホストチャネルアダプタ５１０、５２０、５３０などのいくつかのハードウェアデバイスを含み得る。ホストチャネルアダプタ５１０、５２０および５３０は、さらに、ハイパーバイザ５１１、５２１および５３１とそれぞれ対話することができる。各々のハイパーバイザは、さらに、ホストチャネルアダプタと共に、いくつかの仮想機能５１４、５１５、５１６、５２４、５２５、５２６、５３４、５３５および５３６と対話し、設定し、いくつかの仮想マシンに割当てることができる。たとえば、仮想マシン１５５０はハイパーバイザ５１１によって仮想機能１５１４に割当てることができる。ハイパーバイザ５１１は、加えて、仮想マシン２５５１を仮想機能２５１５に割当て、仮想マシン３５５２を仮想機能３５１６に割当てることができる。ハイパーバイザ５３１はさらに、仮想マシン４５５３を仮想機能１５３４に割当てることができる。ハイパーバイザは、ホストチャネルアダプタの各々の上において十分な機能を有する物理機能５１３、５２３および５３３を介してホストチャネルアダプタにアクセスすることができる。

一実施形態に従うと、スイッチ５０１～５０４の各々はいくつかのポート（図示せず）を含み得る。いくつかのポートは、ネットワーク切替環境７００内においてトラフィックを方向付けるためにリニアフォワーディングテーブルを設定するのに用いられる。

一実施形態に従うと、仮想スイッチ５１２、５２２および５３２は、それぞれのハイパーバイザ５１１、５２１および５３１によって処理することができる。このようなｖＳｗｉｔｃｈアーキテクチャにおいては、各々の仮想機能は完全な仮想ホストチャネルアダプタ（ｖＨＣＡ）であり、これは、ハードウェアにおいて、ＶＦに割当てられたＶＭに、ＩＢアドレス一式（たとえばＧＩＤ、ＧＵＩＤ、ＬＩＤ）および専用のＱＰスペースが割当てられていることを意味する。残りのネットワークおよびＳＭ（図示せず）については、ＨＣＡ５１０、５２０および５３０は、仮想スイッチを介して、追加のノードが接続されているスイッチのように見えている。

一実施形態に従うと、本開示は、動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈアーキテクチャを提供するためのシステムおよび方法を提供する。図８を参照すると、ＬＩＤには、さまざまな物理機能５１３、５２３および５３３が動的に割当てられており、物理機能５１３がＬＩＤ１を受取り、物理機能５２３がＬＩＤ２を受取り、物理機能５３３がＬＩＤ３を受取る。アクティブな仮想マシンに関連付けられたそれらの仮想機能はまた、動的に割当てられたＬＩＤを受取ることもできる。たとえば、仮想マシン１５５０がアクティブであり、仮想機能１５１４に関連付けられているので、仮想機能５１４にはＬＩＤ５が割当てられ得る。同様に、仮想機能２５１５、仮想機能３５１６および仮想機能１５３４は、各々、アクティブな仮想機能に関連付けられている。このため、これらの仮想機能にＬＩＤが割当てられ、ＬＩＤ７が仮想機能２５１５に割当てられ、ＬＩＤ１１が仮想機能３５１６に割当てられ、ＬＩＤ９が仮想機能１５３４に割当てられている。ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈとは異なり、アクティブな仮想マシンにその時点で関連付けられていない仮想機能はＬＩＤの割当てを受けない。

一実施形態に従うと、動的ＬＩＤ割当てがなされていれば、最初の経路演算を実質的に減らすことができる。ネットワークが初めてブートしており、ＶＭが存在していない場合、比較的少数のＬＩＤを最初の経路計算およびＬＦＴ分配のために用いることができる。

一実施形態に従うと、動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈを利用するシステムにおいて新しいＶＭが作成される場合、どのハイパーバイザ上で新しく追加されたＶＭをブートすべきであるかを決定するために、自由なＶＭスロットが発見され、固有の未使用のユニキャストＬＩＤも同様に発見される。しかしながら、新しく追加されたＬＩＤを処理するためのスイッチのＬＦＴおよびネットワークに既知の経路が存在しない。新しく追加されたＶＭを処理するために新しいセットの経路を演算することは、いくつかのＶＭが毎分ごとにブートされ得る動的な環境においては望ましくない。大規模なＩＢサブネットにおいては、新しい１セットのルートの演算には数分かかる可能性があり、この手順は、新しいＶＭがブートされるたびに繰返されなければならないだろう。

有利には、一実施形態に従うと、ハイパーバイザにおけるすべてのＶＦがＰＦと同じアップリンクを共有しているので、新しいセットのルートを演算する必要はない。ネットワークにおけるすべての物理スイッチのＬＦＴを繰返し、（ＶＭが作成されている）ハイパーバイザのＰＦに属するＬＩＤエントリから新しく追加されたＬＩＤにフォワーディングポートをコピーし、かつ、特定のスイッチの対応するＬＦＴブロックを更新するために単一のＳＭＰを送信するだけでよい。これにより、当該システムおよび方法では、新しいセットのルートを演算する必要がなくなる。

一実施形態に従うと、動的ＬＩＤ割当てアーキテクチャを備えたｖＳｗｉｔｃｈにおいて割当てられたＬＩＤは連続的である必要はない。各々のハイパーバイザ上のＶＭ上で割当てられたＬＩＤをＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈと動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈとで比較すると、動的ＬＩＤ割当てアーキテクチャにおいて割当てられたＬＩＤが不連続であり、そこに予めポピュレートされたＬＩＤが本質的に連続的であることが分かるだろう。さらに、ｖＳｗｉｔｃｈ動的ＬＩＤ割当てアーキテクチャにおいては、新しいＶＭが作成されると、次に利用可能なＬＩＤが、ＶＭの生存期間の間中ずっと用いられる。逆に、ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈにおいては、各々のＶＭは、対応するＶＦに既に割当てられているＬＩＤを引継ぎ、ライブマイグレーションのないネットワークにおいては、所与のＶＦに連続的に付与されたＶＭが同じＬＩＤを得る。

一実施形態に従うと、動的ＬＩＤ割当てアーキテクチャを備えたｖＳｗｉｔｃｈは、いくらかの追加のネットワークおよびランタイムＳＭオーバーヘッドを犠牲にして、予めポピュレートされたＬＩＤアーキテクチャモデルを備えたｖＳｗｉｔｃｈの欠点を解決することができる。ＶＭが作成されるたびに、作成されたＶＭに関連付けられた、新しく追加されたＬＩＤで、サブネットにおける物理スイッチのＬＦＴが更新される。この動作のために、１スイッチごとに１つのサブネット管理パケット（ＳＭＰ）が送信される必要がある。各々のＶＭがそのホストハイパーバイザと同じ経路を用いているので、ＬＭＣのような機能も利用できなくなる。しかしながら、すべてのハイパーバイザに存在するＶＦの合計に対する制限はなく、ＶＦの数は、ユニキャストＬＩＤの限度を上回る可能性もある。このような場合、当然、アクティブなＶＭ上でＶＦのすべてが必ずしも同時に付与されることが可能になるわけではなく、より多くの予備のハイパーバイザおよびＶＦを備えることにより、ユニキャストＬＩＤ限度付近で動作する際に、断片化されたネットワークの障害を回復および最適化させるための融通性が追加される。

インフィニバンドＳＲ－ＩＯＶアーキテクチャモデル－動的ＬＩＤ割当てがなされかつＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈ
図９は、一実施形態に従う、動的ＬＩＤ割当てがなされてＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈを備えた例示的なｖＳｗｉｔｃｈアーキテクチャを示す。図に示されるように、いくつかのスイッチ５０１～５０４は、ネットワーク切替環境８００（たとえばＩＢサブネット）内においてインフィニバンド^ＴＭファブリックなどのファブリックのメンバ間で通信を確立することができる。ファブリックはホストチャネルアダプタ５１０、５２０、５３０などのいくつかのハードウェアデバイスを含み得る。ホストチャネルアダプタ５１０、５２０および５３０は、それぞれ、さらに、ハイパーバイザ５１１、５２１および５３１と対話することができる。各々のハイパーバイザは、さらに、ホストチャネルアダプタと共に、いくつかの仮想機能５１４、５１５、５１６、５２４、５２５、５２６、５３４、５３５および５３６と対話し、設定し、いくつかの仮想マシンに割当てることができる。たとえば、仮想マシン１５５０は、ハイパーバイザ５１１によって仮想機能１５１４に割当てることができる。ハイパーバイザ５１１は、加えて、仮想マシン２５５１を仮想機能２５１５に割当てることができる。ハイパーバイザ５２１は、仮想マシン３５５２を仮想機能３５２６に割当てることができる。ハイパーバイザ５３１は、さらに、仮想マシン４５５３を仮想機能２５３５に割当てることができる。ハイパーバイザは、ホストチャネルアダプタの各々の上において十分な機能を有する物理機能５１３、５２３および５３３を介してホストチャネルアダプタにアクセスすることができる。

一実施形態に従うと、スイッチ５０１～５０４の各々はいくつかのポート（図示せず）を含み得る。これらいくつかのポートは、ネットワーク切替環境８００内においてトラフィックを方向付けるためにリニアフォワーディングテーブルを設定するのに用いられる。

一実施形態に従うと、仮想スイッチ５１２、５２２および５３２は、それぞれのハイパーバイザ５１１、５２１、５３１によって処理することができる。このようなｖＳｗｉｔｃｈアーキテクチャにおいては、各々の仮想機能は、完全な仮想ホストチャネルアダプタ（ｖＨＣＡ）であり、これは、ハードウェアにおいて、ＶＦに割当てられたＶＭに、ＩＢアドレス一式（たとえばＧＩＤ、ＧＵＩＤ、ＬＩＤ）および専用のＱＰスペースが割当てられていることを意味する。残りのネットワークおよびＳＭ（図示せず）については、ＨＣＡ５１０、５２０および５３０は、仮想スイッチを介して、追加のノードが接続されているスイッチのように見えている。

一実施形態に従うと、本開示は、動的ＬＩＤ割当てがなされＬＩＤが予めポピュレートされたハイブリッドｖＳｗｉｔｃｈアーキテクチャを提供するためのシステムおよび方法を提供する。図９を参照すると、ハイパーバイザ５１１には、予めポピュレートされたＬＩＤアーキテクチャを備えたｖＳｗｉｔｃｈが配置され得るとともに、ハイパーバイザ５２１には、ＬＩＤが予めポピュレートされて動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈが配置され得る。ハイパーバイザ５３１には、動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈが配置され得る。このため、物理機能５１３および仮想機能５１４～５１６には、それらのＬＩＤが予めポピュレートされている（すなわち、アクティブな仮想マシンに付与されていない仮想機能であってもＬＩＤが割当てられている）。物理機能５２３および仮想機能１５２４にはそれらのＬＩＤが予めポピュレートされ得るとともに、仮想機能２５２５および仮想機能３５２６にはそれらのＬＩＤが動的に割当てられている（すなわち、仮想機能２５２５は動的ＬＩＤ割当てのために利用可能であり、仮想機能３５２６は、仮想マシン３５５２が付与されているので、１１というＬＩＤが動的に割当てられている）。最後に、ハイパーバイザ３５３１に関連付けられた機能（物理機能および仮想機能）にはそれらのＬＩＤを動的に割当てることができる。これにより、結果として、仮想機能１５３４および仮想機能３５３６が動的ＬＩＤ割当てのために利用可能となるとともに、仮想機能２５３５には、仮想マシン４５５３が付与されているので、９というＬＩＤが動的に割当てられている。

ＬＩＤが予めポピュレートされたｖＳｗｉｔｃｈおよび動的ＬＩＤ割当てがなされたｖＳｗｉｔｃｈがともに（いずれかの所与のハイパーバイザ内で独立して、または組合わされて）利用されている、図９に示されるような一実施形態に従うと、ホストチャネルアダプタごとの予めポピュレートされたＬＩＤの数はファブリックアドミニストレータによって定義することができ、（ホストチャネルアダプタごとに）０＜＝予めポピュレートされたＶＦ＜＝総ＶＦの範囲内になり得る。動的ＬＩＤ割当てのために利用可能なＶＦは、（ホストチャネルアダプタごとに）ＶＦの総数から予めポピュレートされたＶＦの数を減じることによって見出すことができる。

インフィニバンド－サブネット間通信（ファブリックマネージャ）
一実施形態に従うと、１つのサブネット内にインフィニバンドファブリックを提供することに加え、本開示の実施形態は、２つ以上のサブネットにまたがるインフィニバンドファブリックを提供することもできる。

図１０は、一実施形態に従う例示的なマルチサブネットインフィニバンドファブリックを示す。この図に示されるように、サブネットＡ１０００の内部の多数のスイッチ１００１～１００４は、サブネットＡ１０００（たとえばＩＢサブネット）内におけるインフィニバンドファブリックなどのファブリックのメンバ間の通信を提供することができる。このファブリックは、たとえばチャネルアダプタ１０１０などの多数のハードウェアデバイスを含み得る。ホストチャネルアダプタ１０１０は、ハイパーバイザ１０１１と対話することができる。ハイパーバイザは、対話の相手であるホストチャネルアダプタとともに、多数の仮想機能１０１４をセットアップすることができる。加えて、ハイパーバイザは、仮想マシンを仮想機能各々に割当てることができる。たとえば、仮想マシン１１０１５は仮想機能１１０１４に割当てられる。ハイパーバイザは、その対応付けられたホストチャネルアダプタに、各ホストチャネルアダプタ上の物理機能１０１３などの十分な機能を有する物理機能を通して、アクセスすることができる。多数のスイッチ１０２１～１０２４は、サブネットＢ１０４０（たとえばＩＢサブネット）内におけるインフィニバンドファブリックなどのファブリックのメンバ間の通信を提供することができる。このファブリックは、たとえばホストチャネルアダプタ１０３０などの多数のハードウェアデバイスを含み得る。ホストチャネルアダプタ１０３０は、ハイパーバイザ１０３１と対話することができる。ハイパーバイザは、対話の相手であるホストチャネルアダプタとともに、多数の仮想機能１０３４をセットアップすることができる。加えて、ハイパーバイザは、仮想マシンを仮想機能各々に割当てることができる。たとえば、仮想マシン２１０３５は仮想機能２１０３４に割当てられる。ハイパーバイザは、その対応付けられたホストチャネルアダプタに、各ホストチャネルアダプタ上の物理機能１０３３などの十分な機能を有する物理機能を通して、アクセスすることができる。なお、各サブネット（すなわちサブネットＡおよびサブネットＢ）内に示されているホストチャネルアダプタは１つだけであるが、各サブネット内に複数のホストチャネルアダプタおよびそれらに対応するコンポーネントが含まれていてもよいことが、理解されるはずである。

一実施形態に従うと、各ホストチャネルアダプタはさらに、仮想スイッチ１０１２および仮想スイッチ１０３２などの仮想スイッチに対応付けられていてもよく、上記のように各ＨＣＡは異なるアーキテクチャモデルでセットアップされてもよい。図１０のサブネットはどちらもＬＩＤが予めポピュレートされているｖＳｗｉｔｃｈのアーキテクチャモデルを使用するものとして示されているが、これは、このようなサブネット構成すべてが同様のアーキテクチャモデルに従い得ることを示唆しようとしているのではない。

一実施形態に従うと、各サブネット内の少なくとも１つのスイッチがルータに対応付けられていてもよい。たとえば、サブネットＡ１０００内のスイッチ１００２はルータ１００５に対応付けられ、サブネットＢ１０４０内のスイッチ１０２１はルータ１００６に対応付けられている。

一実施形態に従うと、少なくとも１つのデバイス（たとえばスイッチ、ノード等）を、ファブリックマネージャ（図示せず）に対応付けることができる。ファブリックマネージャを使用して、たとえば、サブネット間ファブリックトポロジーを発見し、ファブリックプロファイル（たとえば仮想マシンファブリックプロファイル）を作成し、仮想マシンファブリックプロファイルを構築するための基礎を形成する仮想マシン関連データベースオブジェクトを構築することができる。加えて、ファブリックマネージャは、どのサブネットがどのルータポートを介しどのパーティション番号を用いて通信することを許可されるかについて、法的なサブネット間接続性を規定することができる。

一実施形態に従うと、サブネットＡ内の仮想マシン１などの発信ソースにおけるトラッフィックを、サブネットＢ内の仮想マシン２などの異なるサブネットを宛先としてそれに向ける場合、トラフィックは、サブネットＡ内のルータ、すなわち、ルータ１００５に向ければよく、そうすると、ルータ１００５はこのトラッフィックをルータ１００６とのリンクを介してサブネットＢに送ることができる。

仮想デュアルポートルータ
一実施形態に従うと、デュアルポートルータアブストラクション（dual port router abstraction）は、ＧＲＨ（グローバルルートヘッダ（global route header））からＬＲＨ（ローカルルートヘッダ（local route header））への変換を、通常のＬＲＨベースのスイッチングの実行に加えて行なう機能を有するスイッチハードウェア実装に基づいてサブネット間ルータ機能を規定することを可能にする簡単な方法を提供することができる。

一実施形態に従うと、仮想デュアルポートルータは、対応するスイッチポートの外部で論理的に接続することができる。この仮想デュアルポートルータは、サブネットマネージャ等の標準管理エンティティに対しインフィニバンド規格に準拠したビューを提供することができる。

一実施形態に従うと、デュアルポートルータモデルは、異なるサブネットを、各サブネットがサブネットへの進入（ingress）経路におけるパケット転送とアドレスマッピングとを完全に制御し、かつ、間違って接続されたサブネットのうちいずれのサブネット内のルーティングおよび論理的接続にも影響を与えないように、接続できることを、示している。

一実施形態に従うと、間違って接続されたファブリックを含む状況において、仮想デュアルポートルータアブストラクションを使用することにより、サブネットマネージャおよびＩＢ診断ソフトウェア等の管理エンティティが、遠隔サブネットへの意図しない物理的接続の存在下で、正しく作用するようにすることもできる。

図１１は、一実施形態に従う、高性能コンピューティング環境における２つのサブネット間の相互接続を示す。仮想デュアルポートルータを用いて構成する前に、サブネットＡ１１０１内のスイッチ１１２０を、スイッチ１１２０のスイッチポート１１２１を通し、物理接続１１１０を介して、サブネットＢ１１０２内のスイッチ１１３０に、スイッチ１１３０のスイッチポート１１３１を通して接続することができる。このような実施形態において、スイッチポート１１２１および１１３１の各々は、スイッチポートとしてもルータポートとしても機能することができる。

一実施形態に従うと、この構成の問題は、インフィニバンドサブネット内のサブネットマネージャ等の管理エンティティが、スイッチポートでもありルータポートでもある物理ポートを区別できないことである。このような状況において、ＳＭは、スイッチポートを、このスイッチポートに接続されたルータポートを有するものとして扱うことができる。しかしながら、スイッチポートがたとえば物理リンクを介して別のサブネットマネージャを有する別のサブネットに接続されている場合、サブネットマネージャはディスカバリメッセージを物理リンクに送ることができる。しかしながら、このようなディスカバリメッセージは他方のサブネットでは許可されない。

図１２は、一実施形態に従う、高性能コンピューティング環境におけるデュアルポート仮想ルータ構成を介した２つのサブネット間の相互接続を示す。

一実施形態に従うと、構成後に、デュアルポート仮想ルータ構成を、サブネットマネージャの責任であるサブネットの端部を示す適切なエンドノードが、サブネットマネージャにわかるように、提供することができる。

一実施形態に従うと、サブネットＡ１２０１内のスイッチ１２２０におけるスイッチポートは、仮想リンク１２２３を介して仮想ルータ１２１０内のルータポート１２１１に接続（すなわち論理的に接続）することができる。仮想ルータ１２１０（たとえばデュアルポート仮想ルータ）は、実施形態ではスイッチ１２２０の外部にあるものとして示されているが、論理的にはスイッチ１２２０の中に含めることができ、第２のルータポートであるルータポートＩＩ１２１２も含み得る。一実施形態に従うと、２つの端部を有し得る物理リンク１２０３は、サブネットＡ１２０１を、サブネットＢ１２０２に、物理リンクの第１の端部を介し、物理リンクの第２の端部を介し、ルータポートＩＩ１２１２を介し、サブネットＢ１２０２内の仮想ルータ１２３０に含まれるルータポートＩＩ１２３２を介して、接続することができる。仮想ルータ１２３０はさらに、仮想リンク１２３３を介してスイッチ１２４０上のスイッチポート１２４１に接続（すなわち論理的に接続）することができるルータポート１２３１を含み得る。

一実施形態に従うと、サブネットＡ上のサブネットマネージャ（図示せず）は、仮想ルータ１２１０上のルータポート１２１１を、当該サブネットマネージャが制御するサブネットの終点として検出することができる。デュアルポート仮想ルータアブストラクションは、サブネットＡ上のサブネットマネージャが、サブネットＡを通常のやり方で（たとえばインフィニバンド規格に規定されているように）扱うことを可能にする。サブネット管理エージェント（subnet management agent）レベルにおいて、デュアルポート仮想ルータアブストラクションを提供して通常のスイッチポートがＳＭにわかるようにし、その後、ＳＭＡレベルにおいて、当該アブストラクションを提供してこのスイッチポートに接続されている別のポートが存在しこのポートがデュアルポート仮想ルータ上のルータポートとなるようにすることができる。ローカルＳＭでは、従来のファブリックトポロジーを引続き使用することができ（このトポロジーにおいてＳＭはポートを標準スイッチポートとみなす）、したがって、ＳＭはルータポートをエンドポートとみなす。物理的接続は、２つの異なるサブネット内のルータポートとしても構成されている２つのスイッチポート間で行なうことができる。

一実施形態に従うと、デュアルポート仮想ルータは、物理リンクが間違って同じサブネット内の他のいずれかのスイッチポートに接続される、または、別のサブネットへの接続を提供することを意図していないスイッチポートに接続される可能性があるという問題を、解決することもできる。したがって、本明細書に記載の方法およびシステムは、サブネットの外側にあるものも表現する。

一実施形態に従うと、サブネットＡ等のサブネット内のローカルＳＭは、スイッチポートを確定し、次に、このスイッチポートに接続されているルータポート（たとえば仮想リンク１２２３を介してスイッチポート１２２１に接続されているルータポート１２１１）を確定する。ＳＭは、ルータポート１２１１を、当該ＳＭが管理するサブネットの端部とみなすので、ＳＭはディスカバリおよび／または管理メッセージをこのポイントよりも遠くに（たとえばルータポートＩＩ１２１２に）送ることができない。

一実施形態に従うと、上記デュアルポート仮想ルータは、当該デュアルポート仮想ルータが属するサブネット内の管理エンティティ（たとえばＳＭまたはＳＭＡ）によってデュアルポート仮想ルータアブストラクションが完全に管理されるという利点を提供する。管理をローカル側のみにすることにより、システムは外部の独立した管理エンティティを提供する必要がない。すなわち、サブネット間接続の各側は自身のデュアルポート仮想ルータを構成する役割を担う。

一実施形態に従うと、遠隔の宛先（すなわちローカルサブネットの外部）に向けられたＳＭＰ等のパケットが、上記デュアルポート仮想ルータを介して構成されていないローカルターゲットポートに到着した場合、ローカルポートは、自身はルータポートではないことを示すメッセージを返すことができる。

本開示の多数の特徴は、ハードウェア、ソフトウェア、ファームウェア、またはこれらを組合わせたものにおいて、これを用いて、またはこれに支援されて、実施することができる。したがって、本開示の特徴は、処理システム（たとえば１つ以上のプロセッサを含む）を用いて実現し得る。

図１３は、一実施形態に従う、高性能コンピューティング環境においてデュアルポート仮想ルータをサポートする方法を示す。ステップ１３１０において、１つ以上のマイクロプロセッサを含む１つ以上コンピュータに、この方法は第１のサブネットを設けることができる。第１のサブネットは複数のスイッチを含み、複数のスイッチは少なくともリーフスイッチを含み、複数のスイッチの各々は複数のスイッチポートを含む。第１のサブネットはさらに、各々が少なくとも１つのホストチャネルアダプタポートを含む複数のホストチャネルアダプタと、各々が複数のホストチャネルアダプタのうちの少なくとも１つのホストチャネルアダプタに対応付けられている複数のエンドノードと、サブネットマネージャとを含み、サブネットマネージャは、複数のスイッチおよび複数のホストチャネルアダプタの一方において実行される。

ステップ１３２０において、この方法は、複数のスイッチのうちの１つのスイッチ上の複数のスイッチポートのうちの１つのスイッチポートを、ルータポートとして構成することができる。

スイッチ１３３０において、この方法は、ルータポートとして構成したスイッチポートを仮想ルータに論理的に接続することができ、この仮想ルータは少なくとも２つの仮想ルータポートを含む。

プライベートファブリックにおけるサービス品質およびサービスレベル合意
ある実施形態に係る、インフィニバンドまたはＲｏＣＥ上で動作するスイッチドネットワークなどの、クラウド内ならびに顧客および構内設置におけるより大きいクラウド内の高性能コンピューティング環境は、仮想マシン（ＶＭ）ベースのワークロードを展開する能力があり、ある固有の要件は、異なるタイプの通信フローに対してサービス品質（ＱＯＳ）を定義および制御することが可能であることである。加えて、異なるテナントに属するワークロードは、そのようなワークロード間の干渉を最小限に抑え、異なる通信タイプに対するＱＯＳ仮定を維持しながら、関連するサービスレベル合意（ＳＬＡ）の境界内で実行されなければならない。

制限された特徴としてのＲＤＭＡ読出（ORA20Q246-US-NP-1）
ある実施形態に従うと、従来のネットワークインターフェイス（ＮＩＣ）を用いるシステムにおいて帯域幅制限を定義する場合、一般に、各ノード／ＶＭがネットワーク上に生成することを許可されるエグレス帯域幅を制御することで、充分である。

しかしながら、ある実施形態に従うと、異なるノードがＲＤＭＡ読出要求（すなわち、エグレス帯域幅）を生成することができるＲＤＭＡベースのネットワーキングでは、これは、少量のエグレス帯域幅を表し得る。しかしながら、そのようなＲＤＭＡ読出要求は、そのようなＲＤＭＡ読出要求に応答して非常に大量のイングレスＲＤＭＡトラフィックを表す潜在性があり得る。そのような状況では、システムにおいて全体のトラフィック生成を制御するためにすべてのノード／ＶＭのエグレス帯域幅を制限することは、もはや充分ではない。

ある実施形態に従うと、ＲＤＭＡ読出動作を、制限された特徴とし、過剰なＲＤＭＡ読出ベースのイングレス帯域幅を生成しないと信頼できるノード／ＶＭについてのみそのような読出要求を可能にすることによって、信頼できないノード／ＶＭについての送信（エグレス）帯域幅の制限のみを行いながら総帯域幅利用を制限することが可能である。

図１４は、一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ読出要求を、制限された特徴として提供するためのシステムを示す。

より具体的には、ある実施形態に従うと、図１４は、ハイパーバイザ１４１１を含むホストチャネルアダプタ１４０１を示す。ハイパーバイザは、ＶＦ１４１４～１４１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）１４１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク１４００などのネットワークに接続するために使用されるポート１４０２および１４０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ１４０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１１４５０、ＶＭ２１４５１、およびＶＭ３１４５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ１４０１はさらに、ハイパーバイザを介して仮想スイッチ１４１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ホストチャネルアダプタは、トラステッドＲＤＭＡ読出制限１４６０を実現することができ、それにより、読出制限１４６０は、仮想マシン（例えば、ＶＭ１、ＶＭ２、および／またはＶＭ３である）のいずれかが（たとえばポート１４０２または１４０３を介して）任意のＲＤＭＡ読出要求をネットワークに送出することをブロックするように構成することができる。

ある実施形態に従うと、トラステッドＲＤＭＡ読出制限１４６０は、仮想マシンなどのあるエンドポイントからのあるタイプのパケットまたはネットワークに接続するためにＨＣＡ１４０１を利用する他の物理ノードからのあるタイプのパケットがＲＤＭＡ読出要求パケットを生成（すなわちエグレス）することを、ホストチャネルアダプタレベルでブロッキングすることを実現することができる。この構成可能な制限コンポーネント１４６０は、たとえば、トラステッドノード（たとえば、ＶＭまたは物理エンドノード）のみがそのようなタイプのパケットを生成することを可能にすることができる。

ある実施形態に従うと、トラステッドＲＤＭＡ読出制限コンポーネントは、たとえばホストチャネルアダプタによって受信された命令に基づいて構成されることができるか、またはたとえばサブネットマネージャ（図示せず）によって直接構成されることができる。

図１５は、一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ読出要求を、制限された特徴として提供するためのシステムを示す。

より具体的には、ある実施形態に従うと、図１５は、ハイパーバイザ１５１１を含むホストチャネルアダプタ１５０１を示す。ハイパーバイザは、ＶＦ１５１４～１５１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）１５１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、加えて、ホストチャネルアダプタをネットワーク１５００等のネットワークに接続するために使用される、ポート１５０２および１５０３等のいくつかのポートをサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ１５０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１１５５０、ＶＭ２１５５１、およびＶＭ３１５５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ１５０１はさらに、ハイパーバイザを介して仮想スイッチ１５１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ホストチャネルアダプタは、トラステッドＲＤＭＡ読出制限１５６０を実現することができ、それにより、読出制限１５６０は、仮想マシン（例えば、ＶＭ１、ＶＭ２、および／またはＶＭ３である）のいずれかが（たとえばポート１５０２または１５０３を介して）任意のＲＤＭＡ読出要求をネットワークに送出することをブロックするように構成することができる。

ある実施形態に従うと、トラステッドＲＤＭＡ読出制限１５６０は、仮想マシンなどのあるエンドポイントからのあるタイプのパケットまたはネットワークに接続するためにＨＣＡ１５０１を利用する他の物理ノードからのあるタイプのパケットがＲＤＭＡ読出要求パケットを生成（すなわちエグレス）することを、ホストチャネルアダプタレベルでブロッキングすることを実現することができる。この構成可能な制限コンポーネント１５６０は、たとえば、トラステッドノード（たとえば、ＶＭまたは物理エンドノード）のみがそのようなタイプのパケットを生成することを可能にすることができる。

ある実施形態に従うと、一例として、トラステッドＲＤＭＡ読出制限１５６０は、ＶＭ１１５５０を信頼し、ＶＭ２１５５１を信頼しないように構成することができる。したがって、ＶＭ１から開始するＲＤＭＡ読出要求１５５４は許可され得、ＶＭ２から開始するＲＤＭＡ読出要求１５５５は、それが出てホストチャネルアダプタ１５０１に着く前に阻止されることができる（図１５内ではＨＣＡの外側に示されているが、これは単に図面の便宜上のものである）。

図１６は、一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ読出要求を、制限された特徴として提供するためのシステムを示す。

ある実施形態に従うと、スイッチドネットワークまたはサブネット１６００のような高性能コンピューティング環境内では、いくつかのエンドノード１６０１および１６０２は、リーフスイッチ１６１１および１６１２、スイッチ１６２１および１６２２、ならびにルートスイッチ１６３１および１６３２のようないくつかのスイッチを介して相互接続されるいくつかの仮想マシンＶＭ１～ＶＭ４１６５０～１６５３をサポートすることができる。

ある実施形態に従うと、ノード１６０１および１６０２の接続のための機能を提供するさまざまなホストチャネルアダプタ、ならびにサブネットに接続されるべき仮想マシンは図示されていない。そのような実施形態の議論はＳＲ－ＩＯＶに関して上記されており、各仮想マシンはホストチャネルアダプタ上のハイパーバイザの仮想機能に関連付けられ得る。

一実施形態によれば、一般的なシステムでは、エンドノードをサブネットに接続する任意のリンクの帯域幅を任意の１つの仮想マシンが独占することを防止するために、ＲＤＭＡエグレス帯域幅がエンドノードからの任意の１つの仮想マシンから制限される。しかしながら、そのようなエグレス帯域幅制限は、一般的なケースでは効果的であるが、仮想マシンがＲＤＭＡ読出要求１６５４および１６５５などのＲＤＭＡ読出要求を発行することを妨げない。これは、そのようなＲＤＭＡ読出要求が一般に小さいパケットであり、エグレス帯域幅をほとんど利用しないためである。

しかしながら、ある実施形態に従うと、このようなＲＤＭＡ読出要求は、ＶＭ１およびＶＭ３などの発行エンティティへの大量のリターントラフィックの生成をもたらし得る。そのような状況では、次いで、ＲＤＭＡ読出要求は、たとえば、読出要求１６５４が、宛先における読出要求の実行の結果としてＶＭ１に流れ戻る大量のデータトラフィックをもたらすとき、リンク輻輳およびネットワーク性能の低下につながり得る。

ある実施形態に従うと、特に複数のテナントがサブネット１６００を共有する状況において、これは、サブネットのパフォーマンスの損失につながり得る。

ある実施形態に従うと、各ノード（またはホストチャネルアダプタ）は、任意のＶＭが信頼されない場合に、そのＶＭに、ＲＤＭＡ読出要求を発行しないようブロックを配置するＲＤＭＡ読出制限１６６０および１６６１を用いて構成することができる。そのようなＲＤＭＡ読出制限は、ＲＤＭＡ読出要求の発行に対する常時ブロックから、ＲＤＭＡ読出要求制限とともに構成される仮想マシンがＲＤＭＡ読出要求を発行することができるとき（たとえば、低速ネットワークトラフィック期間中）に時間フレームを置く制限まで、変動し得る。加えて、ＲＤＭＡ読出制限１６６０および１６６１は、さらに、トラステッドＶＭがＲＤＭＡ読出要求を発行することを可能にし得る。

一実施形態によれば、複数のＶＭ／テナントが「新式の」ＨＣＡ、すなわち関連する新たな特徴に対するサポートを有するＨＣＡを共有しているが、そのようなサポートを持たないリモートの「旧式の」ＨＣＡに対してＲＤＭＡ要求を実行しているシナリオを有することが考えられるので、そのようなＶＭが「旧式の」ＲＤＭＡ読出応答側ＨＣＡ上の静的レート構成に頼ることなくＲＤＭＡ読出応答に関して生成することができるイングレス帯域幅を制限する方法を有することは意味があるであろう。ＶＭが「任意の」ＲＤＭＡ読出サイズを生成することを許される限り、これを行うための単純な方法はない。また、原則としてある期間にわたって生成される複数のＲＤＭＡ読出要求はすべて同時に応答データを受信する場合があるので、単一の要求において生成され得るＲＤＭＡ読出サイズに対する制限、および同じｖＨＣＡポートからの未処理のＲＤＭＡ読出要求の総数に対する制限の両方がない限り、イングレス帯域幅が非常に限られた時間を超えて最大帯域幅を超えることはできないことを保証することは不可能である。

したがって、ある実施形態に従うと、ｖＨＣＡについて最大読出サイズが定義されている場合、帯域幅制御は、すべての未処理の読出サイズの合計に対する割当に基づいていてもよいし、または、より単純なスキームは、「最悪の場合の」読出サイズに基づいて未処理のＲＤＭＡ読出の最大数を単に制限することであってもよい。したがって、いずれの場合も、短い間隔内のピーク帯域幅に対する制限（ＨＣＡポート最大リンク帯域幅を除く）はないが、そのようなピーク帯域幅「ウィンドウ」の持続時間は制限されることになる。しかしながら、加えて、データを有する応答が同じレートで受信されると仮定すると、要求の送信レートが最大許容イングレスレートを超えないように、ＲＤＭＡ読出要求の送信レートも、スロットリングされなければならない。言い換えれば、最大未処理要求制限は、最悪の場合の短い間隔帯域幅を定義し、要求送信レート制限は、新たな要求は、応答が受信されると直ちに生成されることはできず、ＲＤＭＡ読出応答のための許容可能な平均イングレス帯域幅を表す関連の遅延の後にのみ、生成されることができることを保証するであろう。したがって、最悪の場合、許可された数の要求は、いかなる応答も伴わずに送信され、次いで、これらの応答はすべて、「同じ時間」に受信される。この時点で、次の要求は、第１の応答が到着したときに直ちに送信され得るが、次の要求は、指定された遅延期間の間遅延されなければならないことになる。したがって、経時的に、平均イングレス帯域幅は、要求レートが定義するものを超えることはできない。しかしながら、未処理の要求の最大数が小さいほど、可能な「変動性」が低減されることになる。

明示的なＲＤＭＡ読出帯域幅制限の使用（ORA200246-US-NP-1）
ある実施形態に従うと、従来のネットワークインターフェイス（ＮＩＣ）を用いるシステムにおいて帯域幅制限を定義する場合、一般に、各ノード／ＶＭがネットワーク上に生成することを許可されるエグレス帯域幅を制御することで、充分である。

しかしながら、ある実施形態に従うと、異なるノードが、小さな要求メッセージを表すが潜在的に非常に大きな応答メッセージを表すＲＤＭＡ読出要求を生成することができる、ＲＤＭＡベースのネットワーキングでは、システムにおける総トラフィック生成を制御するためにすべてのノード／ＶＭのエグレス帯域幅を制限することはもはや充分ではない。

ある実施形態に従うと、どのような送信／エグレス帯域幅制限からも独立して、どの程度のＲＤＭＡ読出イングレス帯域幅をノード／ＶＭが生成することが許されるかについての明示的な割当を定義することにより、信頼できないノード／ＶＭについてのＲＤＭＡ読出の使用を制限することに頼ることなく、システムにおける総トラフィック生成を制御することが可能である。

ある実施形態に従うと、システムおよび方法は、ローカルに生成されたＲＤＭＡ読出要求に起因する平均イングレス帯域幅利用をサポートすることに加えて、最悪の場合の最大リンク帯域幅バーストの持続時間／長さ（すなわち、ＲＤＭＡ読出応答が「山積する」結果としての）をサポートすることができる。

図１７は、ある実施形態に係る、高性能コンピューティング環境において明示的なＲＤＭＡ読出帯域幅制限を提供するためのシステムを示す。

より具体的には、ある実施形態に従うと、図１７は、ハイパーバイザ１７１１を含むホストチャネルアダプタ１７０１を示す。ハイパーバイザは、ＶＦ１７１４～１７１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）１７１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク１７００などのネットワークに接続するために使用されるポート１７０２および１７０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ１７０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１１７５０、ＶＭ２１７５１、およびＶＭ３１７５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ１７０１はさらに、ハイパーバイザを介して仮想スイッチ１７１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ホストチャネルアダプタは、ＲＤＭＡ読出制限１７６０を実現することができ、それにより、読出制限１７６０は、（ＨＣＡ１７０１の）任意のＶＭが、特定のＶＭによって送出されるＲＤＭＡ読出要求に対する応答に関して生成することができるイングレス帯域幅の量に、割当を課すように構成されることができる。そのようなイングレス帯域幅を制限することは、ホストチャネルアダプタにおいてローカルに実行される。

ある実施形態に従うと、ＲＤＭＡ読出制限コンポーネントは、たとえばホストチャネルアダプタによって受信された命令に基づいて構成されることができるか、またはたとえばサブネットマネージャ（図示せず）によって直接構成されることができる。

図１８は、ある実施形態に係る、高性能コンピューティング環境において明示的なＲＤＭＡ読出帯域幅制限を提供するためのシステムを示す。

より具体的には、ある実施形態に従うと、図１８は、ハイパーバイザ１８１１を含むホストチャネルアダプタ１８０１を示す。ハイパーバイザは、ＶＦ１８１４～１８１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）１８１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク１８００などのネットワークに接続するために使用されるポート１８０２および１８０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ１８０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１１８５０、ＶＭ２１８５１、およびＶＭ３１８５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ１８０１はさらに、ハイパーバイザを介して仮想スイッチ１８１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ホストチャネルアダプタは、ＲＤＭＡ読出制限１８６０を実現することができ、それにより、読出制限１８６０は、（ＨＣＡ１７０１の）任意のＶＭが、特定のＶＭによって送出されるＲＤＭＡ読出要求に対する応答に関して生成することができるイングレス帯域幅の量に、割当を課すように構成されることができる。そのようなイングレス帯域幅を制限することは、ホストチャネルアダプタにおいてローカルに実行される。

ある実施形態に従うと、たとえば、ＶＭ１は、少なくとも２つのＲＤＭＡ読出要求を以前に送出し、読出動作が、接続されたノード上で実行されるよう、要求することができる。これに応答して、ＶＭ１は、ＲＤＭＡ読出応答１８５５および１８５４として図に示されている、ＲＤＭＡ読出要求に対する複数の応答を受信するプロセスにあることができる。これらのＲＤＭＡ読出応答は、特にＶＭ１によって最初に送信されたＲＤＭＡ読出要求と比較した場合に非常に大きくなり得るので、これらの読出応答１８５４および１８５５は、ＲＤＭＡ読出制限１８６０の対象となり得、イングレス帯域幅は制限またはスロットリングされ得る。このスロットリングは、明示的なイングレス帯域幅制限に基づくことができ、またはＲＤＭＡ制限１８６０内に設定されたＶＭ１のＱｏＳおよび／またはＳＬＡに基づくことができる。

図１９は、ある実施形態に係る、高性能コンピューティング環境において明示的なＲＤＭＡ読出帯域幅制限を提供するためのシステムを示す。

ある実施形態に従うと、スイッチドネットワークまたはサブネット１９００のような高性能コンピューティング環境内では、いくつかのエンドノード１９０１および１９０２は、リーフスイッチ１９１１および１９１２、スイッチ１９２１および１９２２、ならびにルートスイッチ１９３１および１９３２のようないくつかのスイッチを介して相互接続されるいくつかの仮想マシンＶＭ１～ＶＭ４１９５０～１９５３をサポートすることができる。

ある実施形態に従うと、ノード１９０１および１９０２の接続のための機能を提供するさまざまなホストチャネルアダプタ、ならびにサブネットに接続されるべき仮想マシンは図示されていない。そのような実施形態の議論はＳＲ－ＩＯＶに関して上記されており、各仮想マシンはホストチャネルアダプタ上のハイパーバイザの仮想機能に関連付けられ得る。

一実施形態によれば、一般的なシステムでは、エンドノードをサブネットに接続する任意のリンクの帯域幅を任意の１つの仮想マシンが独占することを防止するために、ＲＤＭＡエグレス帯域幅がエンドノードからの任意の１つの仮想マシンから制限される。しかしながら、そのようなエグレス帯域幅制限は、一般的なケースでは効果的であるが、ＲＤＭＡ読出応答の流入が、要求元ＶＭとネットワークとの間でリンクを独占することを防止することはできない。

別の言い方をすれば、ある実施形態によれば、ＶＭ１がいくつかのＲＤＭＡ読出要求を送出する場合、ＶＭ１は、そのような読出要求に対する応答がＶＭ１にいつ返されるかを制御することはできない。これは、ＲＤＭＡ読出要求に対する応答のバックアップ／山積をもたらし得、各々は、（ＲＤＭＡ読出応答１９５４を介して）要求された情報をＶＭ１に戻すために同じリンクを用いることを試みる。これは、ネットワークにおけるトラフィックの輻輳および未処理分をもたらす。

ある実施形態に従うと、ＲＤＭＡ制限１９６０および１９６１は、あるＶＭが特定のＶＭによって送出されるＲＤＭＡ読出要求に対する応答に関して生成することができるイングレス帯域幅の量に割当を課すことができる。そのようなイングレス帯域幅を制限することは、ローカルで実行される。

ある実施形態に従うと、ｖＨＣＡについて最大読出サイズが定義されている場合、帯域幅制御は、すべての未処理の読出サイズの合計に対する割当に基づき得るか、または、より単純なスキームは、「最悪の場合の」読出サイズに基づいて未処理のＲＤＭＡ読出の最大数を単に制限することになり得る。したがって、いずれの場合も、短い間隔内のピーク帯域幅に対する制限（ＨＣＡポート最大リンク帯域幅を除く）はないが、そのようなピーク帯域幅「ウィンドウ」の持続時間は制限されることになる。しかしながら、加えて、データを有する応答が同じレートで受信されると仮定すると、要求の送信レートが最大許容イングレスレートを超えないように、ＲＤＭＡ読出要求の送信レートも、スロットリングされなければならない。言い換えれば、最大未処理要求制限は、最悪の場合の短い間隔帯域幅を定義し、要求送信レート制限は、新たな要求は、応答が受信されると直ちに生成されることはできず、ＲＤＭＡ読出応答のための許容可能な平均イングレス帯域幅を表す関連の遅延の後にのみ、生成されることができることを保証するであろう。したがって、最悪の場合、許可された数の要求は、いかなる応答も伴わずに送信され、次いで、これらの応答はすべて、「同じ時間」に受信される。この時点で、次の要求は、第１の応答が到着したときに直ちに送信され得るが、次の要求は、指定された遅延期間の間遅延されなければならないことになる。したがって、経時的に、平均イングレス帯域幅は、要求レートが定義するものを超えることはできない。しかしながら、未処理の要求の最大数が小さいほど、可能な「変動性」が低減されることになる。

図２０は、一実施形態による、高性能コンピューティング環境において、ＲＤＭＡ（リモートダイレクトメモリアクセス）読出要求を、制限された特徴として提供するための方法のフローチャートである。

ある実施形態に従うと、ステップ２０１０において、方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは、複数のスイッチと、複数のホストチャネルアダプタとを含み、ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、複数のホストチャネルアダプタは、複数のスイッチを介して相互接続される。

ある実施形態に従うと、ステップ２０２０において、本方法は、複数の仮想マシンを含む複数のエンドノードを提供することができる。

ある実施形態に従うと、ステップ２０３０において、本方法は、ホストチャネルアダプタを選択的ＲＤＭＡ制限に関連付けることができる。

ある実施形態に従うと、ステップ２０４０において、本方法は、選択的ＲＤＭＡ制限を含むホストチャネルアダプタにおいて、複数の仮想マシンのうちのある仮想マシンをホストすることができる。

複数の共有帯域幅セグメントを組み合わせる（ORA20Q246-US-NP-3）
ある実施形態に従うと、ネットワークインターフェイスのための従来の帯域幅／レート制限スキームは、典型的には、全体の合算された送信レートと、場合によっては個々の宛先に対する最大レートとの組み合わせに制限される。しかしながら、多くの場合、中間ネットワーク／ファブリックトポロジーにおいて、共有ボトルネックがあり、ターゲットのセットに利用可能な総帯域幅がこの共有ボトルネックによって制限されることを意味する。したがって、どのようなレートで様々なデータフローを送信することができるかを決定するときにそのような共有ボトルネックが考慮されなければ、各ターゲットごとのレート制限が遵守されるにもかかわらず、共有ボトルネックは過負荷になる可能性が高い。

ある実施形態に従うと、本明細書のシステムおよび方法は、複数の個々のフローを関連付けることができるオブジェクト「ターゲットグループ」を導入することができ、このターゲットグループは、フローが用いているネットワーク／ファブリック経路内の個々の（共有される潜在性のある）リンクまたは他のボトルネックのレート制限を表すことができる。さらに、本システムおよび方法は、各フローがそのようなターゲットグループの階層に関連することを可能にして、個々のフローについての送信元とターゲットとの間の経路におけるすべてのリンクセグメントおよび任意の他の（共有）ボトルネックを表すことができるようにすることができる。

ある実施形態に従うと、エグレス帯域幅を制限するために、本システムおよび方法は、共有ＩＳＬ（スイッチ間リンク）上の輻輳の可能性を低減するために、帯域幅割当を共有する宛先のグループを確立することができる。これは、どの宛先／経路が論理レベルでどのグループにマッピングするかに関して管理されることができる宛先／経路関連ルックアップ機構を必要とする。これが意味するところは、ハイパー特権通信インフラストラクチャが、ファブリックトポロジにおけるピアノードの実際の位置、ならびに関連付けられる帯域幅割当を有するローカルＨＣＡ内の「ターゲットグループ」（すなわち、ＨＣＡレベルのオブジェクトタイプ）にマッピングされ得る関連するルーティングおよび容量情報を認識しなければならないことである。しかしながら、関連するターゲットグループにマッピングするために、ＷＱＥ（ワークキューエントリ）／パケットアドレス情報の直接ルックアップをＨＷに行わせることは実際的ではない。代わりに、ＨＣＡ実現例は、発信トラフィックおよび関連するターゲットグループのための送信コンテキストを表す、ＲＣ（信頼できる接続された）ＱＰ（キューペア）とアドレスハンドルとの間の関連付けを提供することができる。このようにして、この関連付けは、バーブズ（verbs）レベルで透過的であってもよく、代わりに、ハイパー特権ソフトウェアレベルによってセットアップされ、その後、ＨＣＡＨＷ（およびファームウェア）レベルで実施されることができる。このスキームに関連付けられる重大な追加の複雑さは、関連するＶＭまたはｖＨＣＡポートアドレス情報がマイグレーションにわたって維持されるライブＶＭマイグレーションが、異なる通信ピアに対してターゲットグループの変更があることを依然として意味するかもしれないことである。しかしながら、本システムおよび方法が、関連する帯域幅割当が１００％正確でないいくつかの過渡期間を許容する限り、ターゲットグループ関連付けは同期して更新される必要はない。したがって、論理的接続性および通信する能力はＶＭマイグレーションによって変化しない場合があるが、マイグレーションされるＶＭおよびその通信ピアＶＭの両方におけるＲＣ接続およびアドレスハンドルに関連付けられるターゲットグループは、マイグレーション後に「完全に誤っている」場合がある。これは、（例えば、ＶＭが遠隔位置からそのピアと同じ「リーフグループ」に移動されるときに）利用可能な帯域幅よりも少ない帯域幅が利用されることと、（例えば、ＶＭが、そのピアと同じ「リーフグループ」から、制限された帯域幅を有する共有ＩＳＬを意味する遠隔位置に移動されるときに）過剰な帯域幅が生成されることとの両方を意味する場合がある。

ある実施形態に従うと、ターゲットグループが表す、ファブリックにおける関連する経路内におけるさまざまな優先度についての期待される帯域幅使用を反映するために、ターゲットグループ固有の帯域幅割当は、原則として、特定の優先度（「ＱＯＳクラス」）についての割当にも分割され得る。

ある実施形態に従うと、ターゲットグループは、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。

ある実施形態に従うと、このシステムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループ（帯域幅割当）の階層を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲット制限が３０Ｇｂ／ｓであり、中間アップリンク制限が５０Ｇｂ／ｓである場合、ターゲットに向かう最大レートは、３０Ｇｂ／ｓを決して超えることはできない。他方、複数の３０Ｇｂ／ｓターゲットが同じ５０Ｇｂ／ｓ中間制限を共有している場合、これらのターゲットに向かうフローに対する関連するターゲットレート制限の使用は、中間レート制限のオーバーランを意味し得る。したがって、関連する制限内で可能な限り最良の利用およびスループットを保証するために、関連する階層内のすべてのターゲットグループを関連する厳密な順序で考慮することができる。これは、階層内の各ターゲットグループが利用可能な帯域幅を表す場合にのみ、パケットを関連する宛先に向けて送信することができることを意味する。したがって、上記の例において単一のフローがターゲットのうちの１つに向かってアクティブである場合、このフローは３０Ｇｂ／ｓで動作することが許可されることになる。しかしながら、別のフローが（共有中間ターゲットグループを介して）別のターゲットに向かってアクティブになると、各フローは２５Ｇｂ／ｓに制限されることになる。次のラウンドにおいて、２つのターゲットのうちの１つに向かう追加のフローがアクティブになる場合、同じターゲットへの２つのフローは、各々（すなわち、平均して、およびそれらが何らかの追加の帯域幅割当／制限を有さない限り、）１２．５Ｇｂ／ｓで動作しているであろう。

ある実施形態に従うと、複数のテナントがサーバ／ＨＣＡを共有している場合、初期エグレス帯域幅および実際のターゲット帯域幅の両方を、任意の中間ＩＳＬ帯域幅の共有に加えて共有してもよい。他方、テナントごとに専用サーバ／ＨＣＡを有するシナリオでは、中間のＩＳＬ帯域幅は、唯一の可能な「テナント間」帯域幅共有を表す。

ある実施形態に従うと、ターゲットグループは通常、ＨＣＡポートについてグローバルであるべきであり、ＨＣＡレベルでのＶＦ／テナント割当は、グローバルに、または特定の優先度について、ターゲットの任意の組合せについてテナントが生成することができる最大のローカルトラフィックを表すであろう。さらに、同じ階層内の「グローバル」ターゲットグループとならんで、いくつかのテナントに特有のターゲットグループを用いることも可能であろう。

ある実施形態に従うと、ターゲットグループを実現するとともに、特定のＱＰまたはアドレスハンドルについてのターゲットグループ関連付け（階層）を表すためのいくつかの考えられ得る方法がある。しかしながら、１６ビットのターゲットグループＩＤ空間、ならびに各ＱＰおよびアドレスハンドルに対する最大４つまたは８つのターゲットグループ関連付けに対するサポートを提供することができる。次いで、各ターゲットグループＩＤ値は、関連するレートに対する関連するＩＰＤ（パケット間遅延）値、ならびにこのターゲットグループに関連付けられる次のパケットがいつ送信され得るかを定義するタイマー情報を反映する、何らかのＨＷ状態を表すであろう。

ある実施形態に従うと、異なるフロー／経路は、同じ共有リンクセグメント上で異なる「ＱＯＳＩＤ」（すなわちサービスレベル、優先度など）を用いることができるので、異なるターゲットグループがそのような異なるＱＯＳＩＤの帯域幅割当を表すように、異なるターゲットグループを同じリンクセグメントに関連付けることも可能である。しかしながら、ＱＯＳＩＤ固有のターゲットグループと、同じリンクセグメントの物理リンクを表す単一のターゲットグループとの両方を表すことも可能である。

ある実施形態に従うと、同様に、本システムおよび方法は、さらに、明示的なフロータイプのパケットヘッダパラメータによって、および／または動作タイプ（たとえばＲＤＭＡ読出／書込／送信）を考慮に入れることによって定義される異なるフロータイプを区別して、異なるそのようなフロータイプ間を調停するよう、異なる「サブ割当」を実現することができる。特に、これは、ローカルノード自体によって最初に開始された要求側モードトラフィックに対して応答側モード帯域幅を表すフロー（すなわち、典型的にはＲＤＭＡ読出応答トラフィック）を区別するのに有用であり得る。

ある実施形態に従うと、ターゲットグループの厳密な使用、および任意のターゲットまたは共有ＩＳＬセグメントの容量を超えない総最大レートまで加算されるすべての関連する送信側ＨＣＡに対するレート制限で、原則として、「任意の」輻輳を回避することが可能である。しかしながら、これは、異なるフローのための持続された帯域幅と、利用可能なリンク帯域幅の低い平均利用率との両方の厳しい制限を意味する場合がある。したがって、様々なレート制限は、異なるＨＣＡがより楽観的な最大レートを用いることを可能にするように設定される場合がある。この場合、集計された合計は、持続可能な最大値よりも大きく、したがって、輻輳につながる場合がある。

図２１は、ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２１は、ハイパーバイザ２１１１を含むホストチャネルアダプタ２１０１を示す。ハイパーバイザは、ＶＦ２１１４～２１１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２１１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２１００などのネットワークに接続するために使用されるポート２１０２および２１０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２１０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１２１５０、ＶＭ２２１５１およびＶＭ３２１５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２１０１は、さらに、ハイパーバイザを介して、仮想スイッチ２１１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２１００は、図示のように、スイッチ２１４０，２１４１，２１４２，および２１４３など、相互接続され、たとえばリーフスイッチ２１４０および２１４１を介してホストチャネルアダプタ２１０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２１４０～２１４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２１７０および２１７１のようなターゲットグループは、リーフスイッチ２１４０とスイッチ２１４２との間およびリーフスイッチ２１４１とスイッチ２１４３との間のＩＳＬのようなスイッチ間リンク（ＩＳＬ）に沿って定義することができる。これらのターゲットグループ２１７０および２１７１は、たとえば、レート制限コンポーネント２１６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２１６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２１７０および２１７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２１７０および２１７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２１５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２１７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２１７０がターゲットグループ２１７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２１７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２１７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２１７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

図２２は、ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２２は、ハイパーバイザ２２１１を含むホストチャネルアダプタ２２０１を示す。ハイパーバイザは、ＶＦ２２１４～２２１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２２１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２２００などのネットワークに接続するために使用されるポート２２０２および２２０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２２０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１２２５０、ＶＭ２２２５１およびＶＭ３２２５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２２０１はさらに、ハイパーバイザを介して仮想スイッチ２２１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２２００は、図示のように、スイッチ２２４０，２２４１，２２４２，および２２４３など、相互接続され、たとえばリーフスイッチ２２４０および２２４１を介してホストチャネルアダプタ２２０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２２４０～２２４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２２７０および２２７１のようなターゲットグループを、たとえばスイッチポートにおいて定義することができる。図に示すように、ターゲットグループ２２７０および２２７１は、それぞれスイッチ２２４２および２２４３のスイッチポートにおいて定義される。これらのターゲットグループ２２７０および２２７１は、たとえば、レート制限コンポーネント２２６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２２６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２２７０および２２７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２２７０および２２７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２２５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２２７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２２７０がターゲットグループ２２７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２２７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２２７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２２７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

ある実施形態に従うと、図２１および図２２は、それぞれスイッチ間リンクおよびスイッチポートにおいて定義されるターゲットグループを示す。当業者は、ターゲットグループがサブネット内の様々な場所で定義され得ること、およびいずれの所与のサブネットも、ターゲットグループがＩＳＬおよびスイッチポートにおいてのみ定義されるように限定されはしないが、概してそのようなターゲットグループは任意の所与のサブネット内のＩＳＬおよびスイッチポートの両方において定義され得ることを容易に理解するであろう。

図２３は、ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２３は、ハイパーバイザ２３１１を含むホストチャネルアダプタ２３０１を示す。ハイパーバイザは、ＶＦ２３１４～２３１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２３１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２３００などのネットワークに接続するために使用されるポート２３０２および２３０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２３０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１２３５０、ＶＭ２２３５１、およびＶＭ３２３５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２３０１は、さらに、ハイパーバイザを介して仮想スイッチ２３１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２３００は、図示のように、スイッチ２３４０，２３４１，２３４２，および２３４３など、相互接続され、たとえばリーフスイッチ２３４０および２３４１を介してホストチャネルアダプタ２３０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２３４０～２３４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２３７０および２３７１のようなターゲットグループは、リーフスイッチ２３４０とスイッチ２３４２との間およびリーフスイッチ２３４１とスイッチ２３４３との間のＩＳＬのようなスイッチ間リンク（ＩＳＬ）に沿って定義することができる。これらのターゲットグループ２３７０および２３７１は、たとえば、レート制限コンポーネント２３６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２３６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２３７０および２３７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２３７０および２３７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２３５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２３７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２３７０がターゲットグループ２３７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２３７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２３７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２３７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

ある実施形態に従うと、ターゲットグループリポジトリは、ターゲットグループ２３７０にクエリ２３７５を行い、たとえばターゲットグループの帯域幅割当を判断することができる。ターゲットグループの帯域幅割当を判断すると、ターゲットグループリポジトリは、ターゲットグループに関連付けられる割当値を記憶し得る。この割当は、次いで、レート制限コンポーネントによって以下のように使用され得る：ａ）ターゲットグループの帯域幅割当がＶＭの帯域幅割当のそれよりも低いかどうかをＱｏＳまたはＳＬＡに基づいて判定し、およびｂ）そのような判定で、ターゲットグループ２３７０を横断する経路に基づいてＶＭの帯域幅割当を更新２３７６する。

図２４は、ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２４は、ハイパーバイザ２４１１を含むホストチャネルアダプタ２４０１を示す。ハイパーバイザは、ＶＦ２４１４～２４１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２４１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２４００などのネットワークに接続するために使用されるポート２４０２および２４０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２４０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上記のように、仮想機能の各々は、ＶＭ１２４５０、ＶＭ２２４５１、ＶＭ３２４５３などの仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２４０１は、さらに、ハイパーバイザを介して仮想スイッチ２４１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２４００は、図示のように、スイッチ２４４０，２４４１，２４４２，および２４４３など、相互接続され、たとえばリーフスイッチ２４４０および２４４１を介してホストチャネルアダプタ２４０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２４４０～２４４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２４７０および２４７１のようなターゲットグループを、たとえばスイッチポートにおいて定義することができる。図に示すように、ターゲットグループ２４７０および２４７１は、それぞれスイッチ２４４２および２４４３のスイッチポートにおいて定義される。これらのターゲットグループ２４７０および２４７１は、たとえば、レート制限コンポーネント２４６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２４６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２４７０および２４７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２４７０および２４７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２４５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２４７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２４７０がターゲットグループ２４７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２４７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２４７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２４７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

ある実施形態に従うと、ターゲットグループリポジトリは、ターゲットグループ２４７０にクエリ２４７５を行い、たとえばターゲットグループの帯域幅割当を判断することができる。ターゲットグループの帯域幅割当を判断すると、ターゲットグループリポジトリは、ターゲットグループに関連付けられる割当値を記憶し得る。この割当は、次いで、レート制限コンポーネントによって以下のように使用され得る：ａ）ターゲットグループの帯域幅割当がＶＭの帯域幅割当のそれよりも低いかどうかをＱｏＳまたはＳＬＡに基づいて判定し、およびｂ）そのような判定で、ターゲットグループ２４７０を横断する経路に基づいてＶＭの帯域幅割当を更新２４７６する。

図２５は、ある実施形態に係る、高性能コンピューティング環境において複数の共有帯域幅セグメントを組み合わせるためのシステムを示す。

ある実施形態に従うと、スイッチドネットワークまたはサブネット２５００のような高性能コンピューティング環境内では、いくつかのエンドノード２５０１および２５０２は、リーフスイッチ２５１１および２５１２、スイッチ２５２１および２５２２、ならびにルートスイッチ２５３１および２５３２のようないくつかのスイッチを介して相互接続されるいくつかの仮想マシンＶＭ１～ＶＭ４２５５０～２５５３をサポートすることができる。

ある実施形態に従うと、ノード２５０１および２５０２の接続のための機能を提供するさまざまなホストチャネルアダプタ、ならびにサブネットに接続されるべき仮想マシンは図示されていない。そのような実施形態の議論はＳＲ－ＩＯＶに関して上記されており、各仮想マシンはホストチャネルアダプタ上のハイパーバイザの仮想機能に関連付けられ得る。

ある実施形態に従うと、上記で論じたように、そのようなスイッチドファブリックに固有なのは、各エンドノードまたはＶＭが、そこに流入するトラフィックおよびそこから流出するトラフィックが遵守しなければならないそれ自体のエグレス／イングレス帯域幅制限を有してもよい一方で、サブネット内には、そこに流入するトラフィックについてのボトルネックを表すリンクまたはポートも存在し得るという概念である。したがって、ＶＭ１、ＶＭ２、ＶＭ３、またはＶＭ４などのそのようなエンドノードにどのようなレートでトラフィックが流出入すべきかを判断するとき、レート制限コンポーネント２５６０および２５６１は、２５５０および２５５１などの様々なターゲットグループに問い合わせて、そのようなターゲットグループがトラフィックフローについてボトルネックを表すかどうかを判断することができる。そのような判断に応じて、レート制限コンポーネント２５６０および２５６１は、次いで、レート制限コンポーネントが制御するエンドポイントに、異なるまたは新たな帯域幅制限を設定することができる。

ある実施形態に従うと、さらに、ターゲットグループは、ＶＭ１からＶＭ３へのトラフィックがターゲットグループ２５５０および２５５１の両方を利用する場合、レート制限２５６０は、ＶＭ１からＶＭ３への帯域幅制限を決定する際に、そのようなターゲットグループの両方からの制限を考慮に入れることができるように、ネスト化された／階層的な態様で問い合わせされることができる。

図２６は、ある実施形態に係る、高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためにターゲットグループをサポートする方法のフローチャートである。

ある実施形態に従うと、ステップ２６１０において、本方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは複数のスイッチを含み、複数のスイッチは少なくともリーフスイッチを含み、複数のスイッチの各々は複数のスイッチポートを含み、第１のサブネットはさらに、複数のホストチャネルアダプタを含み、ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、複数のホストチャネルアダプタは、複数のスイッチを介して相互接続され、第１のサブネットはさらに、複数の仮想マシンを含む複数のエンドノードを含む。

ある実施形態に従うと、ステップ２６２０において、本方法は、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、ターゲットグループを定義することができ、ターゲットグループは、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおける帯域幅制限を定義する。

ある実施形態に従うと、ステップ２６３０において、本方法は、ホストチャネルアダプタにおいて、ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを提供することができる。

ある実施形態に従うと、ステップ２６４０において、本方法は、定義されたターゲットグループをターゲットグループリポジトリに記録することができる。

ターゲット固有の送信／ＲＤＭＡ書込およびＲＤＭＡ読出帯域幅制限の組合せ（ORA200246-US-NP-2）
ある実施形態に従うと、ノード／ＶＭは、ピアノード／ＶＭによって開始される送信およびＲＤＭＡ書込動作の結果とローカルノード／ＶＭ自体によって開始されるＲＤＭＡ読出動作の結果との両方である着信データトラフィックについてのターゲットとすることができる。そのような状況では、これらのフローのすべてがレート制限に関して調整されない限り、ローカルノード／ＶＭの最大または平均イングレス帯域幅が必要な境界内にあることを保証することが問題になる。

ある実施形態に従うと、本明細書に記載のシステムおよび方法は、ローカルメモリからのデータのフェッチおよび関連する遠隔ターゲットへのデータの送信を表すすべてのフローがすべて、同じ共有レート制限ならびに関連付けられるフロースケジューリングおよび調停に従うことを可能にする方法で、ターゲット固有のエグレスレート制御を実現することができる。また、異なるフロータイプには、利用可能な帯域幅の、異なる優先度および／または異なるシェアが与えられてもよい。

ある実施形態に従うと、「プロデューサ／送信元」ノードからのフローに対するターゲットグループ関連付けが、ＵＤ（信頼できないデータグラム）送信、ＲＤＭＡ書込、ＲＤＭＡ送信およびＲＤＭＡ読出（すなわち、データを有するＲＤＭＡ読出応答）を含むすべての発信データパケットの帯域幅規制を意味する限り、ｖＨＣＡポートに対するすべてのイングレス帯域幅の完全な制御がある。これは、ターゲットｖＨＣＡポートを所有するＶＭが複数のピアノードに対して「過剰な」量のＲＤＭＡ読出要求を生成しているかどうかとは無関係である。

ある実施形態に従うと、ターゲットグループをフロー固有および「非請求」の両方のＢＥＣＮシグナリングに結合することは、ｖＨＣＡポートごとのイングレス帯域幅を、任意の数の遠隔ピアに対して動的にスロットリングすることができることを意味する。

ある実施形態に従うと、「非請求ＢＥＣＮ」メッセージを用いて、異なるステージ番号に対する純粋なＣＥフラグ立て／フラグ解除に加えて、特定のレート値を通信することもできる。このようにして、新たなピアからの初期着信パケット（例えば、通信管理（ＣＭ）パケット）が、着信パケットが来たＨＣＡ（すなわち、関連するファームウェア／ハイパー特権ソフトウェア）および現在の通信ピアの両方への１つ以上の「非請求ＢＥＣＮ」メッセージの生成をトリガすることができるスキームを有することが可能である。

ある実施形態に従うと、ＨＣＡ上の両方のポートが同時に使用されるケース（すなわちアクティブ－アクティブスキーム）では、同時フローがいくつかのＩＳＬを共有しているか、またはさらには同じ宛先ポートをターゲットにしていることができる可能性がある場合、ローカルＨＣＡポート間でターゲットグループを共有することは意味をなし得る。

ある実施形態に従うと、ＨＣＡポート間でターゲットグループを共有する別の理由は、ＨＣＡローカルメモリ帯域幅が両方の（すべての）ＨＣＡポートについて全速リンク速度を維持できないかどうかである。この場合、ターゲットグループは、どのポートがソースＨＣＡまたは宛先ＨＣＡのいずれに関与するかに関係なく、集約された総リンク帯域幅がローカルメモリ帯域幅を決して超えないように、設定することができる。

ある実施形態に従うと、特定の宛先に向かう固定ルートの場合、任意の中間ターゲットグループは、典型的には、経路における特定のステージにおいて単一のＩＳＬのみを表すことになる。しかしながら、動的転送がアクティブである場合、ターゲットグループおよびＥＣＮ処理の両方がこれを考慮しなければならない。スイッチのペア間の並列ＩＳＬ間のトラフィック（例えば、単一のリーフスイッチから単一のスパインスイッチへのアップリンク）を均衡させるためにのみ動的転送判断が生じる場合、すべての処理は、原則的には、単一のＩＳＬのみが使用されている場合と非常に類似している。ＦＥＣＮ通知は、関連するグループ内のすべてのポートの状態に基づいて行われると思われ、シグナリングは、ポートのいずれかからの輻輳指示に基づいてシグナリングされるという意味で「積極的」であり得るか、またはより保守的であり得、グループ内のすべてのポートについての共有出力キューのサイズに基づき得る。ターゲットグループ構成は、任意のパケットがその時点で最良の出力ポートを選択することを転送が可能にする限り、通常は、グループ内のすべてのリンクについての集約された帯域幅を表すであろう。しかしながら、フローごとに厳密なパケット順序維持の概念がある場合、いくつかのフローはある時点で同じＩＳＬを使用「しなければならない」場合があるため、帯域幅割当の評価はより複雑である。そのようなフロー順序スキームが、充分に定義されたヘッダフィールドに基づく場合、グループ内の各ポートを独立したターゲットグループとして表すことが最良である場合がある。この場合、送信元側ＨＣＡにおけるターゲットグループの選択は、ＲＣＱＰ接続またはアドレスハンドルに関連付けられることになるヘッダフィールドの評価を、スイッチがすべてのパケットについて実行時に実行するものと同じにすることができなければならない。

ある実施形態に従うと、デフォルトでは、新たな遠隔ターゲットについての初期ターゲットグループレートは、保守的に低く設定され得る。このようにして、ターゲットが関連レートを更新する機会を有するまで固有のスロットリングが存在する。したがって、すべてのそのようなレート制御は、関与するＶＭ自体とは無関係であるが、ＶＭは、イングレストラフィックとエグレストラフィックとの両方について異なる遠隔ピアの割当を更新するようにハイパーバイザに要求することができるであろうが、これは、ローカルｖＨＣＡポートと遠隔ｖＨＣＡポートとの両方について定義された総制約内でのみ許可されるであろう。

図２７は、一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２７は、ハイパーバイザ２７１１を含むホストチャネルアダプタ２７０１を示す。ハイパーバイザは、ＶＦ２７１４～２７１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２７１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２７００などのネットワークに接続するために使用されるポート２７０２および２７０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２７０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１２７５０、ＶＭ２２７５１、およびＶＭ３２７５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２７０１は、さらに、ハイパーバイザを介して仮想スイッチ２７１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２７００は、図示のように、スイッチ２７４０，２７４１，２７４２，および２７４３など、相互接続され、たとえばリーフスイッチ２７４０および２７４１を介してホストチャネルアダプタ２７０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２７４０～２７４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２７７０および２７７１のようなターゲットグループは、リーフスイッチ２７４０とスイッチ２７４２との間およびリーフスイッチ２７４１とスイッチ２７４３との間のＩＳＬのようなスイッチ間リンク（ＩＳＬ）において定義することができる。これらのターゲットグループ２７７０および２７７１は、たとえば、レート制限コンポーネント２７６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２７６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２７７０および２７７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２７７０および２７７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２７５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２７７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２７７０がターゲットグループ２７７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２７７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２７７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２７７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

ある実施形態に従うと、帯域幅割当およびパフォーマンスの問題は、ＶＭ、たとえばＶＭ１２７５０が複数のソースからの過剰なイングレス帯域幅２７９０を受ける場合に生じ得る。これは、たとえば、ＶＭ１が１つ以上のＲＤＭＡ書込動作と同時に１つ以上のＲＤＭＡ読出応答を受け、ＶＭ１上のイングレス帯域幅が２つ以上のソース（例えば、接続されたＶＭからの１つのＲＤＭＡ読出応答、および別の接続されたＶＭからの１つのＲＤＭＡ書込要求）から来る状況において生じ得る。そのような状況では、たとえば、スイッチ間リンク上のターゲットグループ２７７０などのターゲットグループは、たとえば、クエリ２７７５を介して、典型的に許可されるであろうよりも低い帯域幅割当を反映するように更新され得る。

ある実施形態に従うと、さらに、ＨＣＡのレート制限コンポーネント２７６０は、たとえばＶＭ１についてのイングレス帯域幅制限を、ＶＭ１上でイングレス帯域幅を生成する役割を担うノードについてのエグレス帯域幅制限と協調させるために、他のピアＨＣＡと交渉され得るＶＭ固有のレート制限２７６２をさらに含み得る。これら他のＨＣＡ／ノードは、図には示されていない。

図２８は、一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２８は、ハイパーバイザ２８１１を含むホストチャネルアダプタ２８０１を示す。ハイパーバイザは、ＶＦ２８１４～２８１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２８１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２８００などのネットワークに接続するために使用されるポート２８０２および２８０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２８０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１２８５０、ＶＭ２２８５１、およびＶＭ３２８５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２８０１は、さらに、ハイパーバイザを介して仮想スイッチ２８１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２８００は、図示のように、スイッチ２８４０，２８４１，２８４２，および２８４３など、相互接続され、たとえばリーフスイッチ２８４０および２８４１を介してホストチャネルアダプタ２８０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２８４０～２８４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２８７０および２８７１のようなターゲットグループを、たとえばスイッチポートにおいて定義することができる。図に示すように、ターゲットグループ２８７０および２８７１は、それぞれスイッチ２８４２および２８４３のスイッチポートにおいて定義される。これらのターゲットグループ２８７０および２８７１は、たとえば、レート制限コンポーネント２８６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２８６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２８７０および２８７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２８７０および２８７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２８５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２８７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２８７０がターゲットグループ２８７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２８７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２８７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２８７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

ある実施形態に従うと、帯域幅割当およびパフォーマンスの問題は、ＶＭ、たとえばＶＭ１２８５０が複数のソースからの過剰なイングレス帯域幅２８９０を受ける場合に生じ得る。これは、たとえば、ＶＭ１が１つ以上のＲＤＭＡ書込動作と同時に１つ以上のＲＤＭＡ読出応答を受け、ＶＭ１上のイングレス帯域幅が２つ以上のソース（例えば、接続されたＶＭからの１つのＲＤＭＡ読出応答、および別の接続されたＶＭからの１つのＲＤＭＡ書込要求）から来る状況において生じ得る。そのような状況では、たとえば、スイッチ間リンク上のターゲットグループ２８７０などのターゲットグループは、たとえば、クエリ２８７５を介して、典型的に許可されるであろうよりも低い帯域幅割当を反映するように更新され得る。

ある実施形態に従うと、さらに、ＨＣＡのレート制限コンポーネント２８６０は、たとえばＶＭ１についてのイングレス帯域幅制限を、ＶＭ１上でイングレス帯域幅を生成する役割を担うノードについてのエグレス帯域幅制限と協調させるために、他のピアＨＣＡと交渉され得るＶＭ固有のレート制限２８６２をさらに含み得る。これら他のＨＣＡ／ノードは、図には示されていない。

図２９は、一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図２９は、ハイパーバイザ２９１１を含むホストチャネルアダプタ２９０１を示す。ハイパーバイザは、ＶＦ２９１４～２９１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）２９１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク２９００などのネットワークに接続するために使用されるポート２９０２および２９０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ２９０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１２９５０、ＶＭ２２９５１、およびＶＭ３２９５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ２９０１は、さらに、ハイパーバイザを介して仮想スイッチ２９１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク２９００は、図示のように、スイッチ２９４０，２９４１，２９４２，および２９４３など、相互接続され、たとえばリーフスイッチ２９４０および２９４１を介してホストチャネルアダプタ２９０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ２９４０～２９４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、ターゲットグループ２９７１のようなターゲットグループは、リーフスイッチ２９４１とスイッチ２９４３との間のＩＳＬのようなスイッチ間リンク（ＩＳＬ）に沿って定義することができる。他のターゲットグループは、例えば、スイッチポートにおいて定義することができる。図に示すように、ターゲットグループ２９７０は、スイッチ２９５２のスイッチポートにおいて定義される。これらのターゲットグループ２９７０および２９７１は、たとえば、レート制限コンポーネント２９６０によってアクセス可能である、ＨＣＡに関連付けられるターゲットグループリポジトリ２９６１に記憶された、ＨＣＡオブジェクトとしての帯域幅割当を表すことができる。

ある実施形態に従うと、ターゲットグループ２９７０および２９７１は、特定の（および異なる）帯域幅割当を表すことができる。これらの帯域幅割当は、ターゲットグループが表す、ファブリックにおける関連する経路内のさまざまな優先度についての予想される帯域幅使用を反映するために、特定の優先度（「ＱＯＳクラス」）について割当に分割され得る。

ある実施形態に従うと、ターゲットグループ２９７０および２９７１は、オブジェクトを特定の宛先アドレスから切り離し、本システムおよび方法は、ターゲットに加えて、ターゲット制限よりも制限的であり得る帯域幅制限を表してもよい中間の共有リンクまたはリンクのグループを表す能力を得る。すなわち、例えば、ＶＭ２２９５１に対するデフォルト／元のエグレス制限が１つの閾値に設定されるが、ＶＭ２から送信されるパケットの宛先が、より低い帯域幅制限を設定するターゲットグループ２９７０を通過するであろう場合、ＶＭ２からのエグレス帯域幅は、ＶＭ２に課されたデフォルト／元のエグレス制限よりも低いレベルに制限され得る。ＨＣＡは、例えばＶＭ２からのパケットのルーティングに関与するターゲットグループに応じて、そのようなスロットリング／エグレス帯域幅制限調整を担うことができる。

ある実施形態に従うと、ターゲットグループは、本質的に階層的であることもでき、それにより、本システムおよび方法は、異なるターゲットに向かう異なるステージでの帯域幅／リンク共有を反映するターゲットグループの階層（帯域幅割当）を考慮することができる。原則として、これは、特定のフローが、階層において最も制限されたレートを表すターゲットグループ（最大レート）に関連付けられるべきであることを意味する。すなわち、例えば、ターゲットグループ２９７０がターゲットグループ２９７１よりも高い帯域幅制限を表し、パケットが２つのターゲットグループによって表される両方のスイッチ間リンクを介してアドレス指定される場合、ターゲットグループ２９７１の帯域幅制限は、制御的帯域幅制限ファクタである。

ある実施形態に従うと、ターゲットグループは、複数のフローによって共有することもできる。たとえば、各フローに関連付けられるＱｏＳおよびＳＬＡに応じて、ターゲットグループによって表される帯域幅割当を分割することができる。例として、ＶＭ１およびＶＭ２の両方が、例えば、１０Ｇｂ／ｓの帯域幅割当を表すターゲットグループ２９７０を関与させるであろうフローを同時に送信し、それぞれのフローがそれに関連付けられる等しいＱｏＳおよびＳＬＡを有する場合、ターゲットグループ２９７０は、各フローについて５Ｇｂ／ｓの制限を表すであろう。ターゲットグループ帯域幅割当のこの共有または分割は、それぞれのフローに関連付けられるＱｏＳおよびＳＬＡに基づいて変更され得る。

ある実施形態に従うと、帯域幅割当およびパフォーマンスの問題は、ＶＭ、たとえばＶＭ１２９５０が複数のソースからの過剰なイングレス帯域幅２９９０を受ける場合に生じ得る。これは、たとえば、ＶＭ１が１つ以上のＲＤＭＡ書込動作と同時に１つ以上のＲＤＭＡ読出応答を受け、ＶＭ１上のイングレス帯域幅が２つ以上のソース（例えば、接続されたＶＭからの１つのＲＤＭＡ読出応答、および別の接続されたＶＭからの１つのＲＤＭＡ書込要求）から来る状況において生じ得る。そのような状況では、たとえば、スイッチ間リンク上のターゲットグループ２９７０などのターゲットグループは、たとえば、クエリ２９７５を介して、典型的に許可されるであろうよりも低い帯域幅割当を反映するように更新され得る。

ある実施形態に従うと、さらに、ＨＣＡのレート制限コンポーネント２９６０は、たとえばＶＭ１についてのイングレス帯域幅制限を、ＶＭ１上でイングレス帯域幅を生成する役割を担うノードについてのエグレス帯域幅制限と協調させるために、他のピアＨＣＡと交渉され得るＶＭ固有のレート制限２９６２をさらに含み得る。これら他のＨＣＡ／ノードは、図には示されていない。

図３０は、一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるためのシステムを示す。

ある実施形態に従うと、スイッチドネットワークまたはサブネット３０００のような高性能コンピューティング環境内では、いくつかのエンドノード３００１および３００２は、リーフスイッチ３０１１および３０１２、スイッチ３０２１および３０２２、ならびにルートスイッチ３０３１および３０３２のようないくつかのスイッチを介して相互接続されるいくつかの仮想マシンＶＭ１～ＶＭ４３０５０～３０５３をサポートすることができる。

ある実施形態に従うと、ノード３００１および３００２の接続のための機能を提供するさまざまなホストチャネルアダプタ、ならびにサブネットに接続されるべき仮想マシンは図示されていない。そのような実施形態の議論はＳＲ－ＩＯＶに関して上記されており、各仮想マシンはホストチャネルアダプタ上のハイパーバイザの仮想機能に関連付けられ得る。

ある実施形態に従うと、ＶＭ３３０５２などのノードは、ＲＤＭＡ読出応答３０５０およびＲＤＭＡ書込要求３０５１（入来時の帯域幅）を同時に処理しているときに、（たとえばレート制限３０６１から）帯域幅制限に入ることができる。

ある実施形態に従うと、レート制限３０６０および３０６１は、たとえば、ＲＤＭＡ要求（すなわち、ＶＭ３によってＶＭ４に送信され、ＲＤＭＡ読出を要求し、ＲＤＭＡ読出応答３０５０をもたらすメッセージ）およびＲＤＭＡ書込動作（例えば、ＶＭ２からＶＭ３へのＲＤＭＡ書込）を調整することによって、イングレス帯域幅割当に違反しないことを保証するように構成されることができる。

各個々のノードについて、システムおよび方法は、そのようなターゲットグループのチェーンを有して、フローが、ターゲットグループにおいて表されるファブリックの異なる部分におけるリンク帯域幅を共有するすべての他のフローと常に調整されるようにすることができる。

図３１は、一実施形態による、高性能コンピューティング環境においてターゲット固有のＲＤＭＡ書込帯域幅制限とＲＤＭＡ読出帯域幅制限とを組み合わせるための方法のフローチャートである。

ある実施形態に従うと、ステップ３１１０において、本方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは複数のスイッチを含み、複数のスイッチは少なくともリーフスイッチを含み、複数のスイッチの各々は複数のスイッチポートを含み、第１のサブネットはさらに、複数のホストチャネルアダプタを含み、ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、複数のホストチャネルアダプタは、複数のスイッチを介して相互接続され、第１のサブネットはさらに、複数の仮想マシンを含む複数のエンドノードを含む。

ある実施形態に従うと、ステップ３１２０において、本方法は、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、ターゲットグループを定義することができ、ターゲットグループは、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおける帯域幅制限を定義する。

ある実施形態に従うと、ステップ３１３０において、本方法は、ホストチャネルアダプタにおいて、ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを提供することができる。

ある実施形態に従うと、ステップ３１４０において、本方法は、定義されたターゲットグループをターゲットグループリポジトリに記録することができる。

ある実施形態によると、ステップ３１５０において、本方法は、ホストチャネルアダプタのエンドノードにおいて、少なくとも２つの遠隔ソースからイングレス帯域幅を受信することができ、イングレス帯域幅は、エンドノードのイングレス帯域幅制限を超える。

ある実施形態に従うと、３１６０において、少なくとも２つのソースからのイングレス帯域幅の受信に応答して、本方法は、ターゲットグループの帯域幅割当を更新することができる。

イングレス帯域幅調停と輻輳フィードバックとを組み合わせる（ORA200246-US-NP-2）
ある実施形態に従うと、複数の送信側ノード／ＶＭの各々および／またはすべてが単一の受信側ノード／ＶＭに送信している場合、送信側間の公平性の最適なバランスを達成して輻輳を回避し、同時に、受信側ノード／ＶＭが消費するイングレス帯域幅の使用を、関連するネットワークインターフェイスがイングレストラフィックに提供できる最大物理リンク帯域幅を（充分に）下回る最大限度未満に制限することは、単純ではない。さらに、異なる送信側が異なるＳＬＡレベルに起因して異なる帯域幅割当を割り振られると想定される場合、方程式はさらに複雑になる。

一実施形態によれば、本明細書のシステムおよび方法は、帯域幅割当の初期交渉、そのような帯域幅割当の動的調整（例えば、利用可能な帯域幅を共有する送信側ノードの数の変化、またはＳＬＡの変化に適応するため）、および全体的な帯域幅割当が同じままであるにもかかわらず送信側が関連するエグレスデータレートを一時的に減速する必要があることを示すための動的輻輳フィードバックの両方を含むように、エンドツーエンド輻輳フィードバックのための旧式のスキームを拡張することができる。明示的な非請求メッセージおよびデータパケット内の「ピギーバック」情報の両方を用いて、ターゲットノードから送信側ノードに関連情報を伝達する。

図３２は、ある実施形態に係る、高性能コンピューティング環境においてイングレス帯域幅調停および輻輳フィードバックを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図３２は、ハイパーバイザ３２１１を含むホストチャネルアダプタ３２０１を示す。ハイパーバイザは、ＶＦ３２１４～３２１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）３２１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク３２００などのネットワークに接続するために使用されるポート３２０２および３２０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ３２０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１３２５０、ＶＭ２３２５１、およびＶＭ３３２５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ３２０１は、さらに、ハイパーバイザを介して仮想スイッチ３２１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク３２００は、図示のように、スイッチ３２４０，３２４１，３２４２，および３２４３など、相互接続され、たとえばリーフスイッチ３２４０および３２４１を介してホストチャネルアダプタ３２０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ３２４０～３２４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、帯域幅割当およびパフォーマンスの問題は、ＶＭ、たとえばＶＭ１３２５０が複数のソースからの過剰なイングレス帯域幅３２９０を受ける場合に生じ得る。これは、たとえば、ＶＭ１が１つ以上のＲＤＭＡ書込動作と同時に１つ以上のＲＤＭＡ読出応答を受け、ＶＭ１上のイングレス帯域幅が２つ以上のソース（例えば、接続されたＶＭからの１つのＲＤＭＡ読出応答、および別の接続されたＶＭからの１つのＲＤＭＡ書込要求）から来る状況において生じ得る。

ある実施形態に従うと、さらに、ＨＣＡのレート制限コンポーネント３２６０は、たとえばＶＭ１についてのイングレス帯域幅制限を、ＶＭ１上でイングレス帯域幅を生成する役割を担うノードについてのエグレス帯域幅制限と協調させるために、他のピアＨＣＡと交渉され得るＶＭ固有のレート制限３２６１をさらに含み得る。そのような初期交渉は、たとえば、利用可能な帯域幅を共有する送信側ノードの数の変化、またはＳＬＡの変化に適応するように実行され得る。これら他のＨＣＡ／ノードは、図には示されていない。

ある実施形態に従うと、上記交渉は、たとえばイングレス帯域幅の結果として生成される明示的で非請求のフィードバックメッセージ３２９１に基づいて更新することができる。そのようなフィードバックメッセージ３２９１は、たとえば、ＶＭ１上でイングレス帯域幅３２９０を生成することを担う複数の遠隔ノードに送信され得る。そのようなフィードバックメッセージを受信すると、送信側ノード（ＶＭ１上のイングレス帯域幅を担う帯域幅の送信側）は、ＱｏＳおよびＳＬＡを維持しようと試みながら、例えばＶＭ１に接続するリンクなどを過負荷にしないように、送信側ノードに対するそれらの関連するエグレス帯域幅制限を更新することができる。

図３３は、ある実施形態に係る、高性能コンピューティング環境においてイングレス帯域幅調停および輻輳フィードバックを組み合わせるためのシステムを示す。

より具体的には、ある実施形態に従うと、図３３は、ハイパーバイザ３３１１を含むホストチャネルアダプタ３３０１を示す。ハイパーバイザは、ＶＦ３３１４～３３１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）３３１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク３３００などのネットワークに接続するために使用されるポート３３０２および３３０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ３３０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１３３５０、ＶＭ２３３５１、およびＶＭ３３３５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ３３０１は、さらに、ハイパーバイザを介して仮想スイッチ３３１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク３３００は、図示のように、スイッチ３３４０，３３４１，３３４２，および３３４３など、相互接続され、たとえばリーフスイッチ３３４０および３３４１を介してホストチャネルアダプタ３３０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ３３４０～３３４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、帯域幅割当およびパフォーマンスの問題は、ＶＭ、たとえばＶＭ１３３５０が複数のソースからの過剰なイングレス帯域幅３３９０を受ける場合に生じ得る。これは、たとえば、ＶＭ１が１つ以上のＲＤＭＡ書込動作と同時に１つ以上のＲＤＭＡ読出応答を受け、ＶＭ１上のイングレス帯域幅が２つ以上のソース（例えば、接続されたＶＭからの１つのＲＤＭＡ読出応答、および別の接続されたＶＭからの１つのＲＤＭＡ書込要求）から来る状況において生じ得る。

ある実施形態に従うと、さらに、ＨＣＡのレート制限コンポーネント３３６０は、たとえばＶＭ１についてのイングレス帯域幅制限を、ＶＭ１上でイングレス帯域幅を生成する役割を担うノードについてのエグレス帯域幅制限と協調させるために、他のピアＨＣＡと交渉され得るＶＭ固有のレート制限３３６１をさらに含み得る。そのような初期交渉は、たとえば、利用可能な帯域幅を共有する送信側ノードの数の変化、またはＳＬＡの変化に適応するように実行され得る。これら他のＨＣＡ／ノードは、図には示されていない。

ある実施形態に従うと、上記交渉は、たとえばイングレス帯域幅の結果として生成されるピギーバックメッセージ３３９１（エンドノード間で送信される通常のデータまたは他の通信パケットの上に存在するメッセージ）に基づいて更新することができる。そのようなピギーバックメッセージ３３９１は、たとえば、ＶＭ１上でイングレス帯域幅３３９０を生成することを担う複数の遠隔ノードに送信され得る。そのようなフィードバックメッセージを受信すると、送信側ノード（ＶＭ１上のイングレス帯域幅を担う帯域幅の送信側）は、ＱｏＳおよびＳＬＡを維持しようと試みながら、例えばＶＭ１に接続するリンクなどを過負荷にしないように、送信側ノードに対するそれらの関連するエグレス帯域幅制限を更新することができる。

図３４は、ある実施形態に係る、高性能コンピューティング環境においてイングレス帯域幅調停および輻輳フィードバックを組み合わせるためのシステムを示す。

ある実施形態に従うと、スイッチドネットワークまたはサブネット３４００のような高性能コンピューティング環境内では、いくつかのエンドノード３４０１および３４０２は、リーフスイッチ３４１１および３４１２、スイッチ３４２１および３４２２、ならびにルートスイッチ３４３１および３４３２のようないくつかのスイッチを介して相互接続されるいくつかの仮想マシンＶＭ１～ＶＭ４３４５０～３４５３をサポートすることができる。

ある実施形態に従うと、ノード３４０１および３４０２の接続のための機能を提供するさまざまなホストチャネルアダプタ、ならびにサブネットに接続されるべき仮想マシンは図示されていない。そのような実施形態の議論はＳＲ－ＩＯＶに関して上記されており、各仮想マシンはホストチャネルアダプタ上のハイパーバイザの仮想機能に関連付けられ得る。

ある実施形態に従うと、ＶＭ３３４５２などのノードは、たとえば３４５１および３４５２などの複数のＲＤＭＡイングレス帯域幅パケット（たとえば複数のＲＤＭＡ書込）を受信すると、（たとえばレート制限３４６１から）イングレス帯域幅制限に入ることができる。これは、例えば、帯域幅制限を調整するために様々な送信側ノード間に通信が存在しない場合に生じ得る。

一実施形態によれば、本明細書のシステムおよび方法は、帯域幅割当の初期交渉（すなわち、ＶＭ３、またはＶＭ３に関連付けられる帯域幅制限が、イングレストラフィック内でＶＭ３をターゲットとするすべての送信側ノードと交渉する）、そのような帯域幅割当の動的調整（例えば、利用可能な帯域幅を共有する送信側ノードの数の変化、またはＳＬＡの変化に適応するため）、および全体的な帯域幅割当が同じままであるにもかかわらず送信側が関連するエグレスデータレートを一時的に減速する必要があることを示すための動的輻輳フィードバックの両方を含むように、エンドツーエンド輻輳フィードバックのためのスキームを拡張することができる。そのような動的輻輳フィードバックは、例えば、ＶＭ３にトラフィックを送信する際に利用するように更新された帯域幅制限について各送信側ノードに指示する、様々な送信側ノードへの返送メッセージ（例えば、フィードバックメッセージ３４７０）において生じ得る。そのようなフィードバックメッセージ３４６０は、明示的な非請求メッセージ、およびターゲットノード（すなわち、示される実施形態ではＶＭ３）から送信側ノードに関連情報を伝達するためのデータパケット内の「ピギーバック」情報の形態をとることができる。

図３５は、一実施形態による、高性能コンピューティング環境においてイングレス帯域幅調停と輻輳フィードバックとを組み合わせる方法のフローチャートである。

ある実施形態に従うと、ステップ３５１０において、本方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは複数のスイッチを含み、複数のスイッチは少なくともリーフスイッチを含み、複数のスイッチの各々は複数のスイッチポートを含み、第１のサブネットはさらに、複数のホストチャネルアダプタを含み、ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、複数のホストチャネルアダプタは、複数のスイッチを介して相互接続され、第１のサブネットはさらに、複数の仮想マシンを含む複数のエンドノードを含む。

ある実施形態に従うと、ステップ３５２０において、本方法は、ホストチャネルアダプタにおいて、ホストチャネルアダプタに取り付けられたエンドノードに関連付けられるエンドノードイングレス帯域幅割当を提供することができる。

ある実施形態に従うと、ステップ３５３０において、本方法は、ホストチャネルアダプタに取り付けられたエンドノードと遠隔エンドノードとの間で帯域幅割当を交渉することができる。

ある実施形態に従うと、ステップ３５４０において、本方法は、ホストチャネルアダプタに取り付けられたエンドノードにおいて、遠隔ソースからイングレス帯域幅を受信することができ、イングレス帯域幅はエンドノードのイングレス帯域幅制限を超える。

ある実施形態に従うと、３５５０において、少なくとも２つのソースからイングレス帯域幅を受信することに応答して、本方法は、ホストチャネルアダプタに取り付けられたエンドノードから遠隔エンドノードに応答メッセージを送信することができ、応答メッセージは、ホストチャネルアダプタに取り付けられたエンドノードのイングレス帯域幅割当を超えていることを示す。

ＦＥＣＮ（順方向明示的輻輳通知）シグナリングおよびＢＥＣＮ（逆方向明示的輻輳通知）シグナリングの両方における複数のＣＥ（輻輳経験）フラグの使用（ORA200246-US-NP-4）
一実施形態によれば、従来、輻輳通知は、あるポイント（例えば、ネットワーク／ファブリックトポロジーを通る送信側からターゲットへの経路に沿ったいくつかのノード／スイッチペア間のなんらかのリンクセグメント）で輻輳に遭遇するデータパケットに基づいており、「輻輳」ステータスフラグ（ＣＥフラグとも呼ばれる）でマーキングされ、次いで、このステータスは、ターゲットから送信側に返送される応答パケットに反映される。

ある実施形態に従うと、このスキームの問題は、送信側ノードが、同じリンクセグメントにおいて輻輳の対象となるフロー間を、それらが異なるターゲットを表すにもかかわらず、区別することを可能にしないことである。また、複数の経路が送信側ノードとターゲット側ノードとのペア間で利用可能であるとき、異なる代替経路についての輻輳についてのいかなる情報も、関連する経路を介する関連するターゲットについて何らかのフローがアクティブであることを必要とする。

ある実施形態に従うと、本願明細書に記載のシステムおよび方法は、輻輳マーキングスキームを拡張して、同じパケットにおける複数のＣＥフラグを容易にし、どのＣＥフラグインデックスを更新すべきかを定義するステージ番号を表すようにスイッチポートを構成する。特定の送信側と特定のターゲットとの間で、順序付けられたスイッチポートのシーケンスを通る特定の経路は、一意のステージ番号の特定の順序付けられたリストを表し、それによってＣＥフラグインデックス番号も表す。

ある実施形態によれば、このようにして、複数のＣＥフラグがセットされた輻輳フィードバックを受信する送信側ノードが、様々なＣＥフラグを、関連する輻輳条件状態および関連付けられる動的レート低減を表すことになる異なる「ターゲットグループ」コンテキストにマッピングすることが可能である。さらに、異なるターゲットに対する異なるフローは、送信側ノードにおいて共有「ターゲットグループ」によって表される共有リンクセグメントに関連付けられる輻輳情報および動的レート低減状態を共有することになる。

ある実施形態に従うと、輻輳が発生する場合、鍵となる問題は、輻輳フィードバックが、理想的には、輻輳フィードバックを受信するフローに関連付けられる階層におけるすべての関連するターゲットグループに関連付けられるべきであるということである。次いで、影響を受けたターゲットグループは、応じて、最大レートを動的に調整すべきである。したがって、各ターゲットグループのＨＷ状態は、任意の現在の輻輳ステータスおよび関連する「スロットル情報」も含まなければならない。

ある実施形態に従うと、ここでの重要な局面は、輻輳を検出するスイッチがトポロジーにおけるそのステージに対応するフラグをマーキングできるように、ＦＥＣＮシグナリングが複数の「輻輳経験」（ＣＥ）フラグを含む能力を有するべきであることである。－通常のファットツリーでは、各スイッチは、上方向に一意の（最大）ステージ番号を有し、下方向に別の一意の（最大）ステージ番号を有する。したがって、特定の経路を用いるフローは、次いで、完全なファブリックにおけるステージ番号のセット全体のすべてまたはサブセットのみを含むことになる特定のステージ番号のシーケンスに関連付けられることになる。しかしながら、その特定のフローについて、その経路に関連付けられる様々なステージ番号は、次いで、そのフローに関連付けられる１つ以上のターゲットグループにマッピングされ得る。このようにして、フローに対する受信されたＢＥＣＮは、ＢＥＣＮ内の各ＣＥフラグ付きステージに関連付けられるターゲットグループが輻輳を示すように更新されることになることを意味することができ、これらのターゲットグループに対する動的最大レートは、その後、それ応じて調整することができる。

ある実施形態に従うと、本来ファットツリートポロジーに適しているが、スイッチの「ステージ番号」概念は、そのような番号をスイッチに割り当てることが可能であるほとんどすべてのトポロジーを表すように一般化することができる。しかしながら、このような一般的な場合、ステージ番号は単に出力ポートの関数ではなく、各入出力ポート番号タプルの関数である。ステージ番号の必要量およびターゲットグループへの経路固有マッピングもまた、一般的な場合においては、より複雑である。したがって、この文脈では、推論は、ファットツリートポロジーのみを仮定する。

ある実施形態に従うと、単一のパケットにおける複数のＣＥフラグは、現在、標準プロトコルヘッダに関して、サポートされる特徴ではない。したがって、これは、標準ヘッダの拡張に基づいてサポートすることができるかもしれず、および／またはフローに追加の独立したＦＥＣＮパケットを挿入することによってサポートすることができるかもしれない。－概念的には、フローにおける追加のパケットの生成は、スイッチ内のカプセル化スキームの使用と同様であり、その影響は、より多くの「オーバーヘッドバイト」が下流に送信されなければならないので、ワイヤ速度で受信されているパケットが同じワイヤ速度で転送され得ないことである。追加のパケットを挿入することは、典型的には、カプセル化よりも多くのオーバーヘッドになるが、このオーバーヘッドが複数のデータパケットにわたって償却される限り（あらゆるデータパケットに対してそのような追加の通知を送信する必要はない）、このオーバーヘッドは許容可能である可能性が高くなることになる。

ある実施形態によれば、スイッチファームウェアがスイッチ内の輻輳条件を監視し、その結果、関連する送信側ノードに「非請求ＢＥＣＮ」を送信することができるスキームを有することも可能である。しかしながら、これは、スイッチファームウェアが、関連する送信側、ならびに、輻輳を経験するパケットにどのようなアドレスが関与するかに関する動的情報も含み得る、ポートと優先度と関連する送信側との間のマッピングに関する、より多くの状態情報を有さなければならないことを意味する。

ある実施形態に従うと、ＲＣＱＰの場合、「ＣＥフラグからターゲットグループへの」マッピングは、典型的にはＱＰコンテキストの一部であることになり、ＡＣＫ／応答パケットにおいて受信される任意のＢＥＣＮ情報は、それによって、関連のＱＰコンテキストおよび関連付けられるターゲットグループについて、単純な態様で扱われることになる。しかしながら、「未請求のＢＥＣＮ」の場合（例えば、アプリケーションレベル応答／ＡＣＫのみを有するデータグラムトラフィックの結果として、または「輻輳警告」が複数の潜在的な送信側にブロードキャストされる結果として）、逆方向マッピングは、－少なくとも、ＨＷによって自動的に処理される点においては－単純ではない。したがって、よりよい手法は、ＦＥＣＮが、両方とも、接続された（ＲＣ）フローの場合に、自動ＨＷ生成ＢＥＣＮに至り得るが、ＨＷ自動ＢＥＣＮ生成を伴うＦＥＣＮイベントおよびＨＷ生成ＢＥＣＮを伴わないＦＥＣＮイベントの両方が、ＦＥＣＮを受信するＨＣＡに関連付けられるファームウェアおよび／またはハイパー特権ソフトウェアによって処理され得るスキームを有することである。このようにして、観測された輻輳によって影響を受ける１つ以上の潜在的な送信側に送信されるＦＷ／ＳＷ生成「未請求ＢＥＣＮ」があり得る。これらの「非請求ＢＥＣＮ」を受信するＦＷ／ＳＷは、次いで、受信された「ＢＥＣＮメッセージ」内のペイロードデータに基づいて、関連するローカルターゲットグループへのマッピングを実行することができ、次いで、ローカルＨＷをトリガして、ＲＣ関連ＢＥＣＮの完全ＨＷ制御処理において生ずるものと同様に、ターゲットグループ状態を更新することができる。

ある実施形態に従うと、ＢＥＣＮ通知なしのＲＣＡＣＫ／応答パケット、またはＣＥフラグがセットされたステージ番号のサブセットが以前に記録された状態とは異なる（少ない）場合は、ローカルＨＣＡ内の関連するターゲットグループの対応する更新につながってもよい。同様に、「非請求ＢＥＣＮ」が、応答側ＨＣＡ（すなわち、関連するｓｗ／ｆｗ）によって送信されて、以前にシグナリングされた輻輳がもはや存在しないことを示すことができる。

ある実施形態に従うと、上述したように、ＨＷレベルまたはＦＷ／ＳＷレベルのいずれかにおいて動的輻輳フィードバックと組み合わされたターゲットグループ概念は、ＨＣＡによって、ならびに個々のｖＨＣＡおよび物理ＨＣＡを共有するテナントによって生成されるエグレス帯域幅の柔軟な制御を提供する。

ある実施形態に従うと、ターゲットグループは、ＶＭレベルでの関連付けられる遠隔アドレスおよび経路情報とは完全に独立して識別されるので、ターゲットグループの使用と、ＶＭからの通信がオーバーレイまたは他の仮想ネットワーキングスキームに基づく程度との間に依存性はない。唯一の要件は、ＨＣＡリソースを制御するハイパー特権ソフトウェアが関連するマッピングを定義できることである。また、ＶＭ／ｖＨＣＡレベルにおいて、ＨＣＡによって実際のターゲットグループにマッピングされる「論理ターゲットグループＩＤ」を有するスキームを用いることが可能であろう。しかしながら、実際のターゲットグループＩＤをテナントから隠すことを除いて、これが有用であることは明らかではない。－基礎となる経路が変化したため、どのようなターゲットグループが特定の宛先に関連付けられているかを変更する必要がある場合、これは他の宛先を伴わないことがある。したがって、一般的な場合、ターゲットグループの更新は、単に論理－物理ターゲットグループＩＤマッピングを更新するのではなく、すべての関与するＱＰおよびアドレスハンドルを更新することを伴う必要がある。

ある実施形態に従うと、仮想化されたターゲットＨＣＡについて、物理ＨＣＡポートではなく個々のｖＨＣＡポートを最終宛先ターゲットグループとして表すことが可能である。このようにして、遠隔ピアノードのためのターゲットグループ階層は、宛先物理ＨＣＡポートを表すターゲットグループと、ｖＨＣＡポートに関して最終宛先を表す追加のターゲットグループとの両方を含むことができる。このようにして、本システムおよび方法は、物理ＨＣＡポートあたりの帯域幅および関連付けられる送信側ターゲットグループが、ｖＨＣＡポートあたりのイングレス帯域幅割当の合計が物理ＨＣＡポート帯域幅（または関連付けられる帯域幅割当）未満に保たれる必要がないことを意味するのと同時に、個々のｖＨＣＡポート（ＶＦ）のイングレス帯域幅を制限する能力を有する。

ある実施形態に従うと、送信側ＨＣＡ内では、ターゲットグループを用いて、異なるターゲットグループを異なるテナントに割り当てることによって、エグレス方向における物理ＨＣＡポートの共有を表すことが可能である。また、物理ＨＣＡポートのためのテナントレベルターゲットグループを共有する同じテナントからの複数のＶＭを容易にするために、異なるターゲットグループを異なるそのようなＶＭに割り当てることが可能である。そのようなターゲットグループは、次いで、そのＶＭからのすべてのエグレス通信のための初期ターゲットグループとしてセットアップされることになる。

図３６は、ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いるためのシステムを示す。

より具体的には、ある実施形態に従うと、図３６は、ハイパーバイザ３６１１を含むホストチャネルアダプタ３６０１を示す。ハイパーバイザは、ＶＦ３６１４～３６１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）３６１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク３６００などのネットワークに接続するために使用されるポート３６０２および３６０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ３６０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１３６５０、ＶＭ２３６５１、およびＶＭ３３６５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ３６０１は、さらに、ハイパーバイザを介して仮想スイッチ３６１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク３６００は、図示のように、スイッチ３６４０，３６４１，３６４２，および３６４３など、相互接続され、たとえばリーフスイッチ３６４０および３６４１を介してホストチャネルアダプタ３６０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ３６４０～３６４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、イングレスパケット３６９０は、ネットワークを横断している間、その経路の任意のステージにおいて輻輳を経験し得、パケットは、ステージのいずれかにおいてそのような輻輳を検出すると、スイッチによってマーキングされることができる。パケットを、輻輳を経験したとマーキングすることに加えて、マーキングを行うスイッチは、パケットが輻輳を経験したステージをさらに示すことができる。宛先ノード、例えばＶＭ１３６５０に到着すると、ＶＭ１は、パケットが輻輳を経験したこと、およびどのステージでパケットが輻輳を経験したかを送信ノードに示すことができる明示的なフィードバックメッセージ３６９１を介して応答パケットを（例えば自動的に）送信することができる。

ある実施形態に従うと、イングレスパケットは、パケットがどこで輻輳を経験したかを示すように更新されるビットフィールドを含むことができ、明示的フィードバックメッセージは、このような輻輳を送信側ノードに通知する際にこのビットフィールドをミラーリング／表現することができる。

ある実施形態に従うと、各スイッチポートは、サブネット全体におけるあるステージを表す。したがって、サブネットにおいて送信される各パケットは、最大数のステージを横断することができる。輻輳がどこ（複数の場所にあり得る）で検出されたかを識別するために、輻輳マーキング（例えば、ＣＥフラグ）は、単なるバイナリフラグ（輻輳を経験）から複数のビットを含むビットフィールドに拡張される。ビットフィールドの各ビットは、次いで、各スイッチポートに割り当てられ得るステージ番号に関連付けられ得る。例えば、３ステージからなるファットツリーでは、ステージの最大数は３であろう。システムがＡからＢへの経路を有し、ルーティングが既知である場合、各エンドノードは、経路の任意の所与のステージでパケットがどのスイッチポートを介して横断したかを判断することができる。そうすることによって、各エンドノードは、ルーティングを、受信された輻輳メッセージと相関させることによって、パケットがどの別個のスイッチポートにおいて輻輳を経験したかを判断することができる。

ある実施形態に従うと、システムは、どのステージで輻輳が検出されるかを示す、戻ってくる輻輳フィードバックを提供し得、次いで、エンドノードが共有リンクセグメントに起因して生じる輻輳を有する場合、輻輳制御は、異なるエンドポートではなく、そのセグメントに適用される。これは、輻輳に関して、より細かい粒度の情報を提供する。

ある実施形態に従うと、このようなより細かい粒度を提供することにより、エンドノードは次いで、将来のパケットをルーティングする際に代替経路を用いることができる。または、例えば、あるエンドノードが、すべてが異なる宛先に行く複数のフローを有するが、輻輳が経路の共通のステージで検出される場合、再ルーティングがトリガされ得る。本システムおよび方法は、１０個の異なる輻輳通知を有するのではなく、それに関連付けられるスロットリングに関して即時の反応を提供する。これは、より効率的な輻輳通知の処理である。

図３７は、ある実施形態による、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いるためのシステムを示す。

より具体的には、ある実施形態に従うと、図３７は、ハイパーバイザ３７１１を含むホストチャネルアダプタ３７０１を示す。ハイパーバイザは、ＶＦ３７１４～３７１６などのいくつかの仮想機能（ＶＦ）、および物理機能（ＰＦ）３７１３をホストするかまたはそれらに関連付けられることができる。ホストチャネルアダプタは、ホストチャネルアダプタをネットワーク３７００などのネットワークに接続するために使用されるポート３７０２および３７０３などのいくつかのポートをさらにサポートするかまたは備えることができる。ネットワークは、たとえば、ＨＣＡ３７０１を、スイッチ、追加の別個のＨＣＡなどのいくつかの他のノードに接続することができる、インフィニバンドネットワークまたはＲｏＣＥネットワークなどのスイッチドネットワークを備えることができる。

ある実施形態に従うと、上述したように、仮想機能の各々は、ＶＭ１３７５０、ＶＭ２３７５１およびＶＭ３３７５２のような仮想マシン（ＶＭ）をホストすることができる。

ある実施形態に従うと、ホストチャネルアダプタ３７０１は、さらに、ハイパーバイザを介して仮想スイッチ３７１２をサポートすることができる。これは、ｖＳｗｉｔｃｈアーキテクチャが実現される状況のためである。図示されていないが、本開示の実施形態は、上述のように、仮想ポート（ｖＰｏｒｔ）アーキテクチャをさらにサポートすることができる。

ある実施形態に従うと、ネットワーク３７００は、図示のように、スイッチ３７４０，３７４１，３７４２，および３７４３など、相互接続され、たとえばリーフスイッチ３７４０および３７４１を介してホストチャネルアダプタ３７０１に接続され得る、いくつかのスイッチを備え得る。

ある実施形態に従うと、スイッチ３７４０～３７４３は相互接続されることができ、さらに、図には示されていない他のスイッチおよび他のエンドノード（たとえば他のＨＣＡ）に接続されることができる。

ある実施形態に従うと、イングレスパケット３７９０は、ネットワークを横断している間、その経路の任意のステージにおいて輻輳を経験し得、パケットは、ステージのいずれかにおいてそのような輻輳を検出すると、スイッチによってマーキングされることができる。パケットを、輻輳を経験したとマーキングすることに加えて、マーキングを行うスイッチは、パケットが輻輳を経験したステージをさらに示すことができる。宛先ノード、例えばＶＭ１３７５０に到着すると、ＶＭ１は、パケットが輻輳を経験したこと、およびどのステージでパケットが輻輳を経験したかを送信ノードに示すことができるピギーバックメッセージ（受信側ノードから送信側ノードに送信される別のメッセージ／パケット上にあるメッセージ）３７９１を介して応答パケットを（例えば自動的に）送信することができる。

図３８は、ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いるためのシステムを示す。

ある実施形態に従うと、スイッチドネットワークまたはサブネット３８００のような高性能コンピューティング環境内では、いくつかのエンドノード３８０１および３８０２は、リーフスイッチ３８１１および３８１２、スイッチ３８２１および３８２２、ならびにルートスイッチ３８３１および３８３２のようないくつかのスイッチを介して相互接続されるいくつかの仮想マシンＶＭ１～ＶＭ４３８５０～３８５３をサポートすることができる。

ある実施形態に従うと、ノード３８０１および３８０２の接続のための機能を提供するさまざまなホストチャネルアダプタ、ならびにサブネットに接続されるべき仮想マシンは図示されていない。そのような実施形態の議論はＳＲ－ＩＯＶに関して上記されており、各仮想マシンはホストチャネルアダプタ上のハイパーバイザの仮想機能に関連付けられ得る。

ある実施形態に従うと、ノード、ＶＭ３３８５２からＶＭ１３８５０へ送られるパケット３８５１は、図に示されるように、いくつかのリンク、またはステージ１～ステージ６などのステージを介して、サブネット３８００を横断することができる。パケット３８５１は、サブネットを横断している間、これらのステージのいずれかにおいて輻輳を経験し得、ステージのいずれかにおいてそのような輻輳を検出すると、スイッチによってマーキングされ得る。パケットを、輻輳を経験したとマーキングすることに加えて、マーキングを行うスイッチは、パケットが輻輳を経験したステージをさらに示すことができる。宛先ノードＶＭ１に到達すると、ＶＭ１は、パケットが輻輳を経験したこと、およびどのステージでパケットが輻輳を経験したかをＶＭ３３８５２に示すことができるフィードバックメッセージ３８７０を介して応答パケットを（例えば、自動的に）送信することができる。

図３９は、ある実施形態に係る、高性能コンピューティング環境においてＦＥＣＮおよびＢＥＣＮの両方において複数のＣＥフラグを用いる方法のフローチャートである。

ある実施形態に従うと、ステップ３９１０において、本方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは複数のスイッチを含み、複数のスイッチは少なくともリーフスイッチを含み、複数のスイッチの各々は複数のスイッチポートを含み、第１のサブネットはさらに、複数のホストチャネルアダプタを含み、ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、複数のホストチャネルアダプタは、複数のスイッチを介して相互接続され、第１のサブネットはさらに、複数の仮想マシンを含む複数のエンドノードを含む。

ある実施形態に従うと、ステップ３９２０において、本方法は、ホストチャネルアダプタに取り付けられたエンドノードにおいて、遠隔エンドノードからイングレスパケットを受信することができ、イングレスパケットは、エンドノードにおいて受信される前に第１のサブネットの少なくとも一部を横断し、イングレスパケットは、イングレスパケットが第１のサブネットの少なくとも一部の横断中に輻輳を経験したことを示すマーキングを含む。

ある実施形態に従うと、イングレスパケットを受信すると、ステップ３９３０において、方法は、エンドノードによって、ホストチャネルアダプタに取り付けられたエンドノードから遠隔エンドノードに応答メッセージを送信することができ、応答メッセージは、イングレスパケットが第１のサブネットの少なくとも一部の横断中に輻輳を経験したことを示し、応答メッセージはビットフィールドを含む。

プライベートファブリックなどのスイッチドファブリックにおけるＱＯＳおよびＳＬＡ
ある実施形態によると、クラウドならびに顧客および構内設置におけるより大きいクラウド内のプライベートネットワークファブリック（例えば、専用分散型アプライアンスまたは汎用高性能コンピューティングリソースを構築するために使用されるもの等のプライベートファブリック）は、ＶＭベースのワークロードを展開する能力を望み、ある固有の要件は、異なるタイプの通信フローに対してサービス品質（ＱＯＳ）を定義および制御することが可能であることである。加えて、異なるテナントに属するワークロードは、そのようなワークロード間の干渉を最小限に抑え、異なる通信タイプに対するＱＯＳ仮定を維持しながら、関連するサービスレベル合意（ＳＬＡ）の境界内で実行されなければならない。

ある実施形態に従って、以下のセクションでは、関連する問題シナリオ、目標および潜在的な解決策について論じる。

ある実施形態に従うと、クラウド顧客（別名「テナント」）にファブリックリソースをプロビジョニングするための初期スキームは、テナントにラックの専用部分（たとえば割当ーラック）または１つ以上のフルラックを割り振ることができることである。この粒度は、割り振られたリソースが完全に動作可能である限り、各テナントが常に満たされる通信ＳＬＡを有することを保証されることを意味する。これは、単一のラックが複数の部分に分割される場合にも当てはまり、なぜならば、粒度は常にＨＣＡを伴う完全な物理サーバであるためである。単一のラック内の異なるそのようなサーバ間の接続性は、原則として、常に単一のフルクロスバースイッチを介することができる。この場合、同じテナントに属するサーバのセット間の通信トラフィックの結果として異なるテナントに属するフロー間の回線争奪または輻輳につながり得る方法で共有されるリソースは存在しない。

しかしながら、実施形態によれば、冗長スイッチが共有されるので、あるサーバ上のワークロードによって生成されるトラフィックが別のテナントに属するサーバをターゲットにすることは不可能であることは重大である。そのようなトラフィックは、テナント間のいかなる通信またはデータ漏洩／観察も容易にしないが、その結果は、他のテナントに属する通信フローに対する深刻な干渉またはＤＯＳ（サービス不全）のような影響でさえあり得る。

ある実施形態に従うと、フルクロスバーリーフスイッチが、ローカルサーバ間のすべての通信がローカルスイッチのみを介して行われ得ることを、元来意味するという事実にもかかわらず、これが可能でないかもしれないか、または他の実際的な問題のために達成されないいくつかのケースがある。
・ある実施形態に従うと、たとえばホストバス（ＰＣＩｅ）生成が一度に１つのファブリックリンクの帯域幅しか持続できない場合、任意の時点で１つのＨＣＡポートのみがデータトラフィックのために使用されていることは重要である。したがって、すべてのサーバがデータトラフィックのためにどのローカルスイッチを用いるかについて合意していない場合、いくつかのトラフィックは、ローカルリーフスイッチ間のスイッチ間リンク（ＩＳＬ）を通過しなければならないことになる。
・ある実施形態に従うと、１つ以上のサーバがスイッチの１つへの接続性を失った場合、すべての通信は他方のスイッチを介して行われなければならないことになる。したがって、またもや、サーバのすべてのペアが同じ単一のスイッチの使用について合意できない場合、いくつかのデータトラフィックはＩＳＬを通過しなければならないことになる。
・ある実施形態に従うと、サーバが両方のＨＣＡポート（したがって両方のリーフスイッチ）を用いることができるが、接続が同じスイッチに接続するＨＣＡポートを介してのみ確立されることを実施することが不可能である場合、いくつかのデータトラフィックはＩＳＬを通過する場合がある。
○このスキームで終わる１つの理由は、ファブリックホストスタックにおけるソケット／ポート番号の欠如が、プロセスが着信接続を受け入れるために１つのソケットしか確立できないことを意味することである。その場合、このソケットは、一度に単一のＨＣＡポートにしか関連付けることができない。同じ単一のソケットが、発信接続を確立するときにも使用される限り、多数のプロセスはそれらの単一ソケットがローカルＨＣＡポート間で均等に分散されるにもかかわらず、システムは、ＩＳＬを必要とする、ある数の接続に終わることになる。

一実施形態によれば、上記で概説したＩＳＬ使用／共有を課す特別なケースの単一ラックのシナリオに加えて、プロビジョニングの粒度が、各ラック内のリーフスイッチがスパインスイッチによって相互接続されるマルチラック構成に拡張されると、次いで、異なるテナントのための通信ＳＬＡは、どのサーバがどのテナントに割り振られるか、および異なる通信フローが異なるスイッチ－スイッチリンク上にファブリックレベルルーティングスキームによってどのようにマッピングされるかに大きく依存するようになる。このシナリオにおける重要な問題は、２つの最適化局面が幾分矛盾することである。
・ある実施形態に従うと、一方では、可能な限り最良の性能を提供するために、異なる宛先ポートをターゲットとするすべての同時フローは、ファブリックを通る異なる経路（すなわち、異なるスイッチ－スイッチリンク－ＩＳＬ）をできるだけ多く使用すべきである。
・実施形態によれば、他方で、異なるテナントに対して予測可能なＱＯＳおよびＳＬＡを提供するために、異なるテナントに属するフローが帯域幅について同じＩＳＬ上で同時に競合しないことが重要である。一般的な場合、これは、異なるテナントによってどの経路を使用できるかについての制限が存在しなければならないことを意味する。

しかしながら、ある実施形態に従うと、システムのサイズ、テナントの数、およびサーバが異なるテナントにどのようにプロビジョニングされたかに依存するいくつかの状況においては、異なるテナントに属するフローが同じＩＳＬ上で帯域幅について競合することになることを回避することが可能ではない場合がある。この状況では、問題に対処し、回線争奪の可能性を低減するために、ファブリックの観点から用いることができる、主に２つの手法がある。
・ある実施形態に従うと、同じＩＳＬ帯域幅について競合するにもかかわらず、異なるテナントからのフローが他のテナントとは無関係に順方向進行を有することを確実にするために、どのスイッチバッファリソースが異なるテナント（またはテナントのグループ）によって占有され得るかを制限する。
・ある実施形態に従うと、他のテナントを犠牲にして１つのテナントによって消費され得る最大帯域幅を制限する「許可制御」メカニズムを実現する。

ある実施形態に従うと、物理的なファブリック構成について、１つの問題は、二分帯域幅が可能な限り高く、理想的には非ブロッキングであるかまたはオーバープロビジョニングさえされることである。しかしながら、非ブロッキング二分帯域幅であっても、１つ以上のテナントへのサーバの現在の割振りから、それら異なるテナントのための所望のＳＬＡを達成することが困難であるシナリオがあり得る。そのような状況では、最良の手法は、概して、独立ＩＳＬおよび二分帯域幅の必要性を低減させるために、異なるテナントのためのサーバのうちの少なくともいくつかの再プロビジョニングを行うことであろう。

ある実施形態に従うと、いくつかのマルチラックシステムはブロッキングファットツリートポロジーを有し、これの背後にある仮定は、関連する通信サーバがかなりの程度まで同じラック内に位置するようにワークロードがプロビジョニングされることになり、帯域幅利用のかなりの部分がローカルリーフスイッチ上のポート間のみにあることを意味する、ということである。また、従来のワークロードでは、データトラフィックの大部分は、１つの固定されたノードのセットから別の固定されたノードのセットまでである。しかしながら、不揮発性メモリならびにより新たな通信およびストレージミドルウェアを伴う次世代サーバでは、ある実施形態によると、異なるサーバが同時に複数の機能を提供し得るため、通信ワークロードは、さらにより要求が厳しくなり、予測可能性がより低くなることになる。

ある実施形態に従うと、ある目標は、物理サーバレベルとは対照的なＶＭレベルにあるテナントあたりのプロビジョニング粒度を提供することである。また、その目標は、同じ物理サーバ上で数十までのＶＭを展開することができ、同じ物理サーバ上の異なるセットのＶＭが異なるテナントに属し得、様々なテナントが、各々、異なる特性を有する複数のワークロードを表し得ることである。

実施形態によれば、加えて、現在のファブリック展開は、（例えば、ロックメッセージが大きなバルクデータ転送の後に「ストール」されることを防止するよう、）異なるフロータイプに対して基本的なＱＯＳ（トラフィック分離）を提供するために、異なるサービスのタイプ（ＴＯＳ）関連付けを用いてきたが、異なるテナントに対して通信ＳＬＡも提供することが望ましい。これらのＳＬＡは、たとえワークロードが他のテナントによって共有される物理インフラストラクチャ上でプロビジョニングされていたとしても、テナントが予想に従うワークロードスループットおよび応答時間を経験することを保証すると想定される。テナントに対する関連のＳＬＡは、他のテナントに属するワークロードによる同時アクティビティとは無関係に満たされるものとする。

ある実施形態に従うと、ワークロードは、固定（最小および／または最大）セットの物理サーバ上の固定（最小）セットのＣＰＵコア／スレッドおよび物理メモリをプロビジョニングされてもよいが、固定／保証されたネットワーキングリソースのプロビジョニングは、一般に、展開がサーバにおけるＨＣＡ／ＮＩＣの共有を意味する限り、それほど簡単ではない。ＨＣＡの共有はまた、少なくともファブリックに対するイングレスリンクおよびエグレスリンクが異なるテナントによって共有されることを元来意味する。したがって、異なるＣＰＵコア／スレッドは真に並列に動作することができるが、何らかの種類の帯域幅多重化または「時分割」を除いて、単一のファブリックリンクの容量を分割する方法はない。この基本帯域幅共有は、バッファ選択／割振りおよびファブリック内での帯域幅調停を実現するときに考慮される異なる「ＱＯＳＩＤ」（例えば、サービスレベル、優先順位、ＤＳＣＰ、トラフィッククラスなど）の使用と組み合わされてもされなくてもよい。

ある実施形態に従うと、全体的なサーバメモリ帯域幅は、いくつかのコアにおけるメモリ集約的なワークロードが他のコアについて遅延を課すことを防止するために、任意の個々のＣＰＵコアの典型的なメモリ帯域幅ニーズと比較して非常に高くあるべきである。同様に、理想的なケースでは、物理サーバのための利用可能なファブリック帯域幅は、サーバを共有する各テナントが、関連するワークロードが発生させる通信アクティビティに対して充分な帯域幅を有することを可能にするよう、充分大きくあるべきである。しかしながら、いくつかのワークロードが、すべて、大容量データ転送を実行しようと試みるとき、複数のテナントが、全リンク帯域幅を－１００Ｇｂ／ｓ以上であっても－利用し得る可能性が非常に高い。このシナリオに対処するために、同じ物理サーバ上への複数のテナントのプロビジョニングは、利用可能な帯域幅の少なくとも所与の最小パーセンテージを各テナントが得るよう保証されることを確実にする方法で行われ得ることが、必要とされる。しかしながら、ＲＤＭＡベースの通信では、テナントがエグレス方向にどのくらいの帯域幅を生成することができるかについての制限を実施する能力は、イングレス帯域幅が同じ方法で制限され得ることを意味しない。－すなわち、複数の遠隔通信ピアは、すべて、各送信側が最大送信帯域幅によって制限されるにもかかわらず、受信側を完全に過負荷にする方法で、同じ宛先にデータを送信する場合がある。また、ＲＤＭＡ読出動作は、ほんのわずかなエグレス帯域幅を用いてローカルテナントから生じ得る。これは、バルクＲＤＭＡ読出動作が複数の遠隔ピアのために生じる場合、壊滅的なイングレス帯域幅をもたらす潜在性があり得る。したがって、単一のサーバ上で単一のテナントによって使用される総ファブリック帯域幅を制限するためにエグレス帯域幅に最大制限を課すことは充分ではない。

ある実施形態によると、本システムおよび方法は、テナントが、ＲＤＭＡ読出動作の使用とは無関係に、ならびにアクティブデータトラフィックを伴う遠隔ピアの数とは無関係に、および遠隔ピアの帯域幅制限とは無関係に、イングレスまたはエグレス方向のいずれかにおいて、関連リンク帯域幅のその相対的部分を決して超えないであろうことを確実にするであろう、テナントのための平均帯域幅制限を構成することができる。（これを達成する方法は、以下の「長期目標」のセクションで論じられる。）
ある実施形態に従うと、本システムおよび方法が通信帯域幅制限のすべての局面を実施することができない限り、テナントのための最高レベルの通信ＳＬＡは、テナントが物理サーバを他のテナントと共有できないこと、または潜在的に、テナントが物理ＨＣＡを他のテナントと共有しないことになること（つまり、複数の物理ＨＣＡを有するサーバの場合）を制限することによってしか、達成できない。物理ＨＣＡが、アクティブ－アクティブモードにおいて、両方のＨＣＡポートについて全リンク帯域幅利用で動作できる場合、所与のテナントが通常の場合においてＨＣＡポートの一方への排他的アクセスを与えられる制限を用いることも考えられる。それでも、ＨＡ制約により、完全なＨＣＡ（サーバごとのマルチＨＣＡのケースにおける）または単一のＨＣＡポートの障害は、所与のテナントについて予想される通信ＳＬＡをもはや保証しない再構成および共有を意味する場合がある。

ある実施形態に従うと、単一リンクについての全体的な帯域幅利用に対する制約に加えて、各テナントが異なる通信フロー間またはフロータイプ間でＱＯＳを実現する能力は、それが、ファブリックレベルバッファリソースに対する厳しい輻輳競合、または他のテナントによる通信アクティビティに起因する調停を経験していないことに依存する。特に、これは、あるテナントが低レイテンシメッセージングを実現するために特定の「ＱＯＳＩＤ」を用いている場合、そのテナントは、他のテナントがどのように「ＱＯＳＩＤ」を用いているか、および／またはファブリック実現が「ＱＯＳＩＤ」の使用をどのように実施しているか、および／または、これがバッファ割振りおよび／またはファブリック内のパケット帯域幅調停にどのようにマッピングするかによって、当該テナント自身を、別のテナントからの大容量データトラフィックと「競合している」、と見出すべきではないことを意味する。したがって、テナント通信ＳＬＡが、テナント内部ＱＯＳ仮定が、同じファブリックリンクを共有する他のテナントが「うまく振る舞う」ことに依存せずには満たされ得ないことを意味する場合、これは、テナントが、他のテナントとのＨＣＡ（またはＨＣＡポート）共有なしにプロビジョニングされなければならないことを課す場合がある。

ある実施形態に従うと、上述した基本帯域幅割振りおよびＱＯＳ問題の両方について、共有制約がファブリック内部リンクおよびサーバローカルＨＣＡポートリンクに適用される。したがって、所与のテナントに対する通信ＳＬＡの性質および厳しさに応じて、テナントについてのＶＭの展開は、物理サーバおよび／またはＨＣＡの共有ならびにファブリック内部ＩＳＬの共有に制約を有し得る。ＩＳＬ共有を回避するために、ルーティング制限と、プライベートファブリックトポロジ内でＶＭが互いに対してプロビジョニングされ得る場所に対する制限との両方が適用され得る。

トポロジー、ルーティングおよびブロッキングシナリオに関する考慮事項：
ある実施形態に従うと、上述のように、テナントが、他のテナントに属するＶＭの動作に何ら依存することなく、通信するＶＭのセットの間で期待される通信性能を達成できることを保証するために、他のテナントと共有されるＨＣＡ／ＨＣＡポートまたは任意のファブリックＩＳＬは存在し得ない。したがって、提供される最高のＳＬＡクラスは、典型的には、これを、暗黙の実現として有するであろう。これは、原則として、クラウド内の多くの従来のシステムに対する現在のプロビジョニングモデルと同じスキームである。しかしながら、共有リーフスイッチでは、このＳＬＡは、他のテナントとのＩＳＬ共有がないことについての保証を必要とするであろう。また、テナントがフローと利用可能なファブリックリソースの利用との最良の可能な均衡を達成するためには、明示的な様式で「非ブロッキング性を最適化」できる必要があるだろう（すなわち、通信ＳＷインフラストラクチャは、異なるフローが同じリンク帯域幅に対して競合しない方法で通信が生ずることを保証する方法をテナントに与えなければならない）。これは、単一のリーフスイッチを介して生じ得る通信が実際にこの方法で実現されることを保証する方法を含むであろう。また、通信がＩＳＬを関与させなければならない場合、スループットを最大化するために、利用可能なＩＳＬにわたってトラフィックを均衡させることが可能であるべきである。

ある実施形態に従うと、単一のＨＣＡポートからは、利用可能な最大帯域幅がファブリックにおけるすべてのリンクについて同じである限り、複数のＩＳＬにわたってトラフィックを均衡させようと試みることに意味はない。この観点から、利用可能なＩＳＬが送信側に対して非ブロッキングサブトポロジーを表す限り、送信ＨＣＡポートごとに専用の「次ホップ」ＩＳＬを用いることは意味をなすであろう。しかしながら、関連するＩＳＬが２つのリーフスイッチ間の接続性のみを表すのでなければ、送信側ポートごとに専用の次ホップＩＳＬを有するスキームは、実際には持続可能ではなく、なぜならば、ある時点で、通信が、異なるリーフスイッチに接続された複数の遠隔ピアＨＣＡポートとである場合、複数のＩＳＬが使用されなければならないからである。

ある実施形態に従うと、非ブロッキングインフィニバンドファットツリートポロジーでは、普及しているルーティングアルゴリズムは、「専用ダウン経路」を使用し、これは、非ブロッキングトポロジーでは、ファットツリーの各層に同数のスイッチポートがあることを意味する。これは、各エンドポートが、１つのルートスイッチから、各中間スイッチ層を通って、関連するＨＣＡポートを接続するエグレスリーフスイッチポートまで、専用のポートチェーンを有することができることを意味する。したがって、単一のＨＣＡポートをターゲットとするすべてのトラフィックは、この専用ダウン経路を使用し、これらのリンク上において（下方向における）他の宛先ポートへのトラフィックはない。しかしながら、上方向では、各宛先への専用経路は存在し得ず、結果として、上方向におけるいくつかのリンクは、異なる宛先へのトラフィックによって共有されなければならないことになる。次のラウンドでは、これは、異なる宛先への異なるフローがすべて共有中間リンク上で全帯域幅を利用しようとするときに、輻輳につながり得る。同様に、複数の送信側が同じ宛先に同時に送信している場合、これは、専用ダウン経路に輻輳を引き起こし得、これは、次いで、すぐに他の無関係のフローに広がり得る。

ある実施形態に従うと、単一の宛先ポートが単一のテナントに属する限り、専用ダウン経路における複数のテナント間の輻輳のリスクはない。しかしながら、専用ダウン経路を表すルートスイッチ（または中間スイッチ）に到達するために、異なるテナントが上方向において同じリンクを用いる必要があり得ることは、依然として問題である。可能な限り多くの異なるルートスイッチを特定のテナントに専用化することによって、本システムおよび方法は、異なるテナントが上方向において経路を共有する必要性を低減させるであろう。しかしながら、単一のリーフスイッチからは、このスキームは、関連するルートスイッチに向かう利用可能なアップリンクの数を低減し得る。したがって、同じテナントに属するサーバ（またはむしろＨＣＡポート）間で非ブロッキング二分帯域幅を維持するために、特定のリーフスイッチ上で（すなわち、単一のラック内で）単一のテナントに割り振られるサーバの数は、そのテナントによって使用されるルートスイッチに向かうアップリンクの数以下である必要があるであろう。他方では、単一のクロスバーを介して通信する能力を最大にするために、同じラック内の同じテナントに対してできるだけ多くのサーバを割り振ることは意味をなす。

一実施形態によれば、これは、元来、単一のリーフスイッチ内で保証された帯域幅を利用できることと、異なるラック内の通信ピアに向けて保証された帯域幅を利用できることとの間の矛盾を意味する。このジレンマに対処するために、最良の手法はおそらく、テナントＶＭは、それらがどのリーフスイッチ（すなわち、リーフスイッチペア）に直接接続されるかに基づいてグループ化され、次いで、そのようなグループ間の利用可能な帯域幅を定義する属性が存在する必要がある、スキームを用いることである。しかしながら、またもや、２つのそのようなグループの間（例えば、２つのラック内の同じテナントの間）の帯域幅を最大化できることと、複数の遠隔グループに対する帯域幅を保証できることとの間には、トレードオフがある。さらに、スイッチの２つの層（すなわち、単一のスパイン層によって相互接続されるリーフ層）のみの特別なケースでは、非ブロッキングトポロジは、Ｎ個のＨＣＡポートが同じテナントに属するリーフスイッチとＮ個のスパインポートとの間にＮ個の専用アップリンクを有することが常に可能であることを意味する。したがって、これらのＮ個のスパインポートが、すべての関連する遠隔ピアポートについてすべての専用ダウン経路を「所有」するスパインを表す限り、構成は、そのテナントに対して非ブロッキングである。しかしながら、関連する遠隔ピアがＮ個を超えるスパインスイッチからの専用ダウン経路を表す場合、またはＮ個のアップリンクがすべての関連するスパインスイッチ間に分散されていない場合、本システムおよび方法は、他のテナントに対して回線争奪競合の可能性がある。

一実施形態によれば、単一のテナントのＶＭの間で、非ブロッキングまたはブロッキング接続性とは無関係に、同じリーフスイッチに接続された異なるソースからのフロー間の回線争奪の可能性が依然として存在する。－すなわち、宛先が同じスパインから専用ダウン経路を有し、ソースリーフスイッチからそのスパインへのアップリンクの数がそのような同時フローの数未満である場合、すべての送信側が全速リンク速度で動作する限り、アップリンク上で何らかの種類のブロッキング／輻輳を回避する方法はない。この場合、帯域幅を維持するための唯一の選択肢は、異なるスパインを介して宛先のうちの１つへの二次経路を用いることであろう。これは、次いで、別の専用ダウン経路との潜在的な競合を表すであろうと考えられ、なぜならば、標準的な非ブロッキングファットツリーはエンドポートごとに１つの専用ダウンリンクしか有し得ないからである。

ある実施形態に従うと、いくつかの従来のシステムの場合、リーフスイッチとスパインスイッチとの間に３のブロッキングファクタが存在し得る。したがって、ワークロードが、通信トラフィックの３分の１以上がラック内部ではなくラック間にあることを意味する態様で分散されるマルチラックシナリオでは、結果として生じる二分帯域幅はブロッキングとなる。例えば８ラックシステムにおけるノードの任意の対の間のトラフィックの均等な分散を伴う最も一般的なシナリオは、通信の７／８がラック間にあり、ブロッキング効果が実質的になることを意味する。

ある実施形態に従うと、オーバープロビジョニングのケーブルコストがシステムにおいて許容され得る場合（すなわち、固定されたスイッチユニットコストが与えられた場合）、追加のリンクを用いて、各リーフスイッチへの「バックアップ」ダウンリンクを提供すること、および各リーフから各スパインへの予備のアップリンク容量を提供することの両方が可能である。－すなわち、両方の場合において、トラフィックの不均一な分布を表し、したがって、そもそも元来非ブロッキングであるトポロジーを利用することができない動的ワークロード分布に対する少なくともいくつかの潜在的な改善を提供する。

ある実施形態によると、より高い基数のフルクロスバースイッチは、各単一の「リーフドメイン」のサイズを増加させ、および所与のシステムサイズに必要とされるスパインスイッチの数を減少させる可能性も有する。例えば、１２８個のポートスイッチの場合、３２個のサーバを有する２つのフルラックを単一のフルクロスバーリーフドメインに含めることができ、それでも依然として非ブロッキングアップリンク接続性を提供し得る。同様に、１６個のラック（５１２個のサーバ、１０２４個のＨＣＡポート）間の非ブロッキング接続を提供するために、わずか８個のスパインが必要とされるであろう。したがって、依然としてわずか８つの、各リーフから各スパインへのリンクがある（すなわち、単一の、完全に接続されたネットワークの場合においてである）。１つのリーフ上のすべてのＨＣＡポートが単一のスパインを介して単一の遠隔リーフに送信する極端なケースでは、これは依然として８のブロッキングファクタを意味する。他方、すべてのスパインの間で各リーフスイッチのための専用ダウン経路の均等な分布を考慮すると、そのような極端なシナリオの可能性は無視できるはずである。

一実施形態によれば、デュアル独立ネットワーク／レールの場合、冗長リーフスイッチペアにおける各リーフスイッチは、専用スパインを有する単一レールに属する。同じ８つのスパインは、４つのスパインからなる２つのグループ（各レールに対して１つ）に分割され、したがって、この場合、レール内の各リーフは、４つのスパインのみに接続する必要があるだろう。したがって、この場合、最悪の場合のブロッキングファクタはわずか４であろう。他方、このシナリオでは、両方のレールにわたる負荷平衡を提供するために、各通信動作のためのレールの選択がさらに重要になる。

動的対静的パケットルート選択／転送＋マルチパス化：
ある実施形態に従うと、標準インフィニバンドは宛先アドレスごとに静的なルートを用いるが、イーサネットスイッチにおける動的ルート選択についてはいくつかの標準的で知的所有権下にあるスキームがある。インフィニバンドについては、「適応ルーティング」のための様々な知的所有権下にあるスキームもある（そのうちのいくつかは標準化され得る）。

ある実施形態に従うと、動的ルート選択の１つの利点は、ファブリック内において関連する二分帯域幅を最適に利用する確率が高くなり、それによって全体的なスループットも高くなることである。しかしながら、潜在的な欠点は、順序付けが妨害される可能性があり、また、ファブリックの一領域における輻輳が他の領域に（すなわち、静的ルート選択が使用されていたなら回避され得たであろう態様で）より容易に広がる可能性があることである。

一実施形態によれば、「動的ルーティング」または「動的ルート選択」は、典型的には、スイッチ内およびスイッチ間で行われる転送判断に関して使用されるが、「マルチパス化」は、単一の宛先へのトラフィックが、送信側からの明示的なアドレス指定に基づいて、複数の経路にわたって拡散され得るときに使用される用語である。そのようなマルチパス化は、複数のローカルＨＣＡポートにわたる単一のメッセージの送信を「ストライプ化」する（すなわち、完全なメッセージが、個々の転送動作を各々が表す複数のサブメッセージに分割される）ことを含み得、それは、同じ宛先への異なる転送が、ファブリックを通る異なる経路を動的に用いるためにセットアップされることを意味し得る。

ある実施形態に従うと、一般的な場合において、ローカルリーフドメイン外の宛先をターゲットとしているすべてのソースからのすべての転送が、（より）小さいチャンクに分割され、次いで、その宛先に向かうすべての可能な経路／ルートにわたって分散される場合、本システムは、利用可能な二分帯域幅の最適な利用を達成し、「リーフ間スループット」も最大化するであろう。それでも、これは、通信ワークロードもすべての可能な宛先にわたって均等に分散される限りのみ当てはまる。そうでない場合、その影響は、単一の宛先に向かういかなる輻輳も、すぐにすべての同時フローに影響を及ぼすことになる。

ある実施形態に従うと、輻輳が動的ルート選択およびマルチパス化に及ぼす意味は、単一の宛先へのトラフィックを制限して、単一の経路／ルートのみを、その経路／ルートが他のターゲットまたは任意の中間リンクにおける輻輳の犠牲とならない限り、用いるようにすることは意味をなす、ということである。専用ダウン経路を有する２層ファットツリートポロジーでは、これは、エンドポートに関連しない唯一の考えられ得る輻輳が、同じスパインスイッチをターゲットとするアップリンク上に存在することになることを意味する。これは、特定のターゲットのために使用される個々のポートが動的に選択されるであろうことを除いて、同じスパインへのすべてのアップリンクを、同じ静的ルートを共有するポートのグループとして扱うことは意味をなすであろうことを意味する。代替として、個々のポートは、テナント関連付けに基づいて選択され得る。

ある実施形態に従うと、テナント関連付けを用いてそのようなグループ内でアップリンクポートを選択することは、固定された関連付けに基づき得るか、または異なるテナントがあるポートを用いるための「第１の優先度」を有するが他のポートを用いる能力も有するスキームに基づき得る。その場合、別のポートを用いる能力は、これが他のポートの「第１の優先度」トラフィックと競合しないことに依存するであろう。このようにして、テナントは、競合がない限り、すべての関連する二分帯域幅を用いることが可能であろうが、競合が存在する場合は、保証された最小帯域幅が存在するであろう。次いで、この最小保証帯域幅は、単一もしくはいくつかのリンクに対するすべての帯域幅、または１つ以上のリンクの帯域幅のパーセンテージを反映し得る。

ある実施形態によれば、原則として、同じ動的スキームが、下向きの経路において、スパインから特定のリーフへも使用され得る。一方では、これは、異なるエンドポートをターゲットとするフロー間でダウンリンクを共有することに起因する輻輳のリスクを増加させるであろうが、他方では、２つの異なるリーフスイッチに接続された２つのノードセット間で追加の代替経路を利用する方法を提供し得、しかし、依然として、異なるテナント間で輻輳が広がることを防止する方法を提供し得る。

ある実施形態に従うと、スパインからリーフへの異なる専用ダウン経路が既に特定のテナントを表すシナリオでは、これらのリンクが、関連するリーフスイッチ上において、別のスパインからの（一次）専用ダウン経路を有するエンドポートへの（同じテナントに属する）トラフィックのための「予備」として使用されることを可能にするスキームを有することは比較的単純であろう。

ある実施形態に従うと、ある可能なモデルは、その場合、スイッチが、単一のスパインまたはリーフスイッチを接続する並列ＩＳＬ間の動的ルート選択を処理することとなるであろうが、関連するターゲットへの（一次）専用ダウン経路を表さないスパインを介した明示的なマルチパス化を用いることについてのホストレベルの決定を有することとなるであろう。

ペルテナントごとの帯域幅許可制御：
ある実施形態に従うと、単一のＨＣＡが単一のテナントによってのみ使用される場合、本システムおよび方法は、ＨＣＡポートから生じ得る帯域幅を制限することができる。特に、このことは、遠隔リーフスイッチへ向かうトラフィックに関して、そのテナントついて、制限された二分帯域幅がある場合に当てはまる。

ある実施形態に従うと、このような帯域幅制限の１つの局面は、制限された二分帯域幅の影響を受けるターゲットにのみ制限が適用されることを保証することである。原則として、これは、異なるのターゲットグループが特定の帯域幅割当（すなわち、厳密な最大レートおよび／またはある量の転送されたデータにわたる平均帯域幅のいずれか）に関連付けられるスキームを含むであろう。

ある実施形態に従うと、このような制限は、定義上、ＨＣＡレベルで実現されなければならないであろう。また、そのような制限は、異なるテナントに属するＶＭが異なる仮想機能を介してＨＣＡを共有している仮想化されたＨＣＡシナリオに多かれ少なかれ直接マッピングするであろう。この場合、上で紹介された様々な「共有帯域幅割当グループ」は、１つ以上のＶＦのグループに関連付けられ、完全な物理ＨＣＡポートだけではない、という点で、追加の次元を必要とするであろう。

ＩＳＬ上のテナント単位帯域幅予約：
ある実施形態に従うと、上記のように、テナント（またはテナントのグループ）のために１つ以上のＩＳＬにわたってなんらかの保証された帯域幅を予約することは意味をなし得る。あるシナリオでは、どのテナントが完全なリンクを本当に使用することを許可されるかを制限することによって、そのリンクをテナントのために予約することができる。しかしながら、より柔軟でより細かい粒度のスキームを有するために、代替の手法は、スイッチ調停メカニズムを用いて、（いくつかの）イングレスポートが、１つ以上のエグレスポート上でどのような他のイングレスポートが帯域幅について競合しているかとは無関係に、同エグレスポートの帯域幅の最大Ｘ％を用いることを許可されることを保証することである。

一実施形態によれば、このようにして、すべてのイングレスポートが、関連するエグレスポートの帯域幅の１００％までを用いることができるが、ただし、これが、優先されるイングレスポートからのいかなるトラフィックとも競合しない限りにおいてのみである。

ある実施形態に従うと、異なるテナントが異なるイングレスポート（たとえばＨＣＡポートを接続するリーフスイッチポート）を「所有」するシナリオにおいて、このスキームは、１つ以上のスパインスイッチへのアップリンク帯域幅の割振りのための柔軟かつきめ細かいスキームを容易にするであろう。

ある実施形態に従うと、スパインからリーフスイッチまでのダウンリンク経路において、そのようなスキームの有用性は、厳密な専用ダウン経路を有するスキームがどの程度使用されるかまたはされないかに依存するであろう。厳密な専用ダウン経路が使用され、ターゲットエンドポートが単一のテナントを表す場合、デフォルトでは、ダウンリンクを使用しようとしている異なるテナント間に潜在的な競合はない。したがって、この場合、関連するダウンリンクへのアクセスは、通常、すべての関連するイングレスポートについて等しいアクセスを有するラウンドロビン調停スキームを用いるようにセットアップされるべきである。

ある実施形態に従うと、イングレスポートは異なるテナントに属するトラフィックを表すことができるので、１つのテナントに属するパケットが送信され得、関連するテナントが送信を許可されていないエグレスポート上で帯域幅を消費し得ることは、決して問題ではないはずである。この場合、仮定は、そのようなパケットが帯域幅を浪費することを防止するために、調停ポリシーではなく、厳密なアクセス制御（例えば、様々なポートについてのＶＬＡＮベースの制限）が採用されることである。

ある実施形態に従うと、リーフスイッチでは、スパインからのダウンポートには、他のローカルエンドポートと比較して、さまざまなエンドポートに向かって、より多くの帯域幅が与えられるかもしれず、なぜならば、ダウンリンクが原則的には複数の送信側ＨＣＡポートを表すことができるのに対し、ローカルエンドポートは単一のＨＣＡポートを表すのみであるからである。これが当てはまらない場合、いくつかの遠隔サーバが、ターゲットリーフスイッチへの単一のダウン経路を共有しているが、次のラウンドでは、リーフスイッチに直接接続されたＮ－１ＨＣＡポートも同じローカルターゲットポートに送信しようとする場合に、そのリーフスイッチ上で単一の宛先に向かって帯域幅の１／Ｎを共有していることになるシナリオを有することが可能である。

ある実施形態に従うと、仮想化されたＨＣＡが異なるテナントを表す場合、ファブリックＩＳＬ内で（すなわち、さまざまなＩＳＬにわたって）帯域幅を予約する問題は、著しくより複雑になり得る。イングレス／アップリンク経路については、ある単純化された手法は、異なるテナント間で帯域幅調停を提供することはＨＣＡ次第であり、次いで、ＨＣＡポート上で何が送出されようと、それは、ポートレベル調停ポリシーに従ってイングレスリーフスイッチによって処理されることになる、ということである。したがって、この場合、リーフスイッチの観点からの変化はない。

一実施形態によれば、ダウンリンク経路（スパインからリーフへ、およびリーフイングレスからエンドポートへ）においては、調停判断は、パケットを転送しようとするポートだけでなく、様々な保留中のパケットがどのテナントに属するかにも依存し得るので、状況は異なる。１つの可能な解決策は、（またも）いくつかのＩＳＬを、特定のテナント（またはテナントのグループ）を表すようにのみ制限し、次いで、これをポートレベル調停スキームに反映することである。代替的に（または追加的に）、以下に概説されるように、異なるテナントを表すために異なる優先度またはＱＯＳＩＤを用いることができる。最後に、調停論理の一部として使用されるＶＬＡＮＩＤまたはパーティションＩＤのような「テナントＩＤ」または任意の関連するアクセス制御ヘッダフィールドを有することは、調停に必要なレベルの粒度を容易にするであろう。しかしながら、これは、スイッチにおける、既に著しい「時間および空間」の複雑さを有する調停論理の複雑さを著しく増大させる可能性がある。また、そのようなスキームは、エンドツーエンドワイヤプロトコルにおいてすでに役割を有し得る情報の過負荷を伴うため、そのような余分な複雑性が、そのようなヘッダフィールド値に関する任意の既存の使用または仮定と競合しないことが重要である。

ＩＳＬおよびエンドポートリンクにわたる、異なる優先順位、フロータイプおよびＱＯＳＩＤ／クラス：
ある実施形態に従うと、異なるフロータイプが同じリンク上で同時に進行するためには、それらがスイッチおよびＨＣＡにおいて同じパケットバッファに対して競合しないことが重要である。また、異なるフロータイプ間の相対的な優先度を区別するために、様々なスイッチエグレスポート上で次にどのパケットを送信するかを決定する調停論理は、どのようなパケットタイプキューがどのエグレスポート上で送出するものを有するかを考慮に入れなければならない。調停の結果は、すべてのアクティブなフローが、それらの相対的な優先度に従って、および、関連する下流ポートに関する関連するフロータイプに関するフロー制御条件（もしあれば）が、現在、任意のパケットを送信することをどの程度可能にするかに従って、順方向進行をなしていることであるべきである。

ある実施形態に従うと、原則として、たとえ異なるテナントが同じリンクを用いている場合であっても、異なるＱＯＳＩＤを用いて、異なるテナントからのトラフィックフローを互いから独立させることができる。しかしながら、各ポートのためにサポートされ得るパケットキューおよび独立バッファプールの数は、典型的には、１０未満に制限されるため、この手法のスケーラビリティは、非常に制限される。また、単一のテナントが、異なるフロータイプを互いから独立させるために、異なるＱＯＳＩＤを使用したい場合、スケーラビリティはさらに低減される。

ある実施形態に従うと、上述したように、スイッチの単一ペア間で複数のＩＳＬを論理的に組み合わせることによって、本システムおよび方法は、いくつかのリンクをいくつかのテナントに制限し、次いで、異なるテナントが異なるＱＯＳＩＤを異なるＩＳＬ上で互いから独立して使用できることを保証することができる。しかしながら、ここでも、これは、他のテナントの独立性が１００％保証される場合、任意の単一のテナントに利用可能な総帯域幅に制限を課す。

ある実施形態に従うと、理想的なケースでは、ＨＣＡイングレス（受信）パケット処理は、着信パケットがどのトランスポートレベル動作を表すかに関係なく、常に、関連するリンク速度よりも高いレートで生ずることができる。これは、その最後のリンク、（すなわち）ＨＣＡポートに接続するリーフスイッチ上のエグレスポート上で異なるフロータイプを制御するフローの必要がないことを意味する。しかしながら、リーフスイッチにおける異なるキューからの異なるパケットのスケジューリングは、依然として、優先度、公平性、および順方向進行に関する関連するポリシーを反映しなければならない。－例えば、１つの小さい高優先度パケットが、あるエンドポートをターゲットとすると同時に、Ｎ個のポートも、最大ＭＴＵサイズの「バルク転送パケット」を同じターゲットポートに送信しようと試みる場合、高優先度パケットは、他のポートのいずれよりも前にスケジューリングされるべきである。

ある実施形態に従うと、エグレス経路において、送信側ＨＣＡは、多くの異なる方法でパケットをスケジューリングおよびラベル付けすることができる。特に、ＶＭ＋仮想ＨＣＡと物理ファブリックとの間の「ワイヤ内のバンプ」としてのオーバーレイプロトコルの使用は、テナント仮想ＨＣＡインスタンス間のエンドツーエンドプロトコルのいかなる局面も混乱させることなく、スイッチが関係し得るファブリック固有情報の符号化を可能にするであろう。

ある実施形態に従うと、スイッチは、現在のワイヤプロトコルが想定するよりも多くのバッファリングおよび内部キューイングを提供することができる。このようにして、異なるＳＬＡを有する複数のテナントを表すトラフィックによってリンクが共有されることを考慮し、異なるフロータイプに対して異なるＱＯＳクラスを用いる、バッファリング、キューイング、および調停ポリシーをセットアップすることが可能であろう。

ある実施形態に従うと、このようにして、異なる高優先度テナントは、スイッチ内に、より多くのプライベートパケットバッファ容量も有するかもしれない。

無損失パケット転送対有損失パケット転送：
ある実施形態に従うと、高性能ＲＤＭＡトラフィックは、個々のパケットがスイッチにおけるバッファ容量の欠如に起因して失われないことに大きく依存し、また、パケットが個々のＲＤＭＡ接続ごとに正しい順序で到着することにも大きく依存する。原則として、潜在的な帯域幅が高いほど、これらの局面は、最適な性能を達成するのに、より重要である。

ある実施形態に従うと、無損失動作は、明示的なフロー制御を必要とし、非常に高い帯域幅は、バッファ容量と、ＭＴＵサイズと、フロー制御更新頻度との間のトレードオフを意味する。

実施形態によれば、無損失動作の欠点は、生成される総帯域幅が下流／受信容量よりも高い場合に、それが輻輳につながることである。輻輳は、次いで（おそらく）広がり、ファブリック内のどこかで同じバッファについて競合するすべてのフローを減速させることに終わることになる。

ある実施形態に従うと、上述したように、独立したバッファプールに基づいてフロー分離を提供する能力は、スイッチ実現について、ポートの数、異なるＱＯＳクラスの数の両方、および（上記で紹介したように）潜在的には、異なるテナントの数にも依存する、主要なスケーラビリティの問題である。

ある実施形態に従うと、代替手法は、真に無損失の動作（すなわち、保証されたバッファ容量に基づく無損失）を「プレミアムＳＬＡ」属性とし、それにより、この特徴を、そのようなプレミアムＳＬＡを購入したテナントのみに制限することであり得る。

ある実施形態に従うと、ここでの重要な問題は、利用可能なバッファ容量を「超過予約」できることであり、同じバッファを有損失フローおよび無損失フローの両方に用いることができるが、有損失フローに割り振られたバッファは、無損失フローからのパケットが到着し、同じプールからのバッファを用いる必要があるときはいつでも、強制排除されることができる。有損失フローが順方向に進むことを可能にするために、非常に最小限のセットのバッファが提供され得るが、それは、最適なバッファ割振りで達成され得るものよりも（はるかに）より低い帯域幅においてである。

ある実施形態に従うと、（必要とされるときに）バッファを強制排除し、よりプレミアムなＳＬＡタイプのフロークラスに与えなければならない前にバッファを占有できる最大時間の差に関して、異なるクラスのハイブリッド無損失／有損失フロークラスを導入することも可能である。－これは、リンクレベルクレジットを有するファブリック実現の文脈で最も良く機能するであろうが、潜在的に、ｘｏｎ／ｘｏｆｆ型フロー制御（すなわち、ＲｏＣＥ／ＲＤＭＡに使用されるイーサネット一時停止ベースのフロー制御スキーム）で機能するように適合させることもあり得る。

厳密なパケット順序付け対（より）緩和されたパケット順序付け：
ある実施形態に従うと、ファブリック内での厳密な順序付けおよび無損失パケット転送により、ＨＣＡ実現例は、信頼性のある接続およびＲＤＭＡを、トランスポートレベルにおいて最小状態オーバーヘッドで実現し得る。しかしながら、（ファブリック内の適応的／動的転送判断による）ルートの偶発的な変化による何らかの量の順序外パケット配信をより良好に許容するために、ならびにファブリック内の有損失または「ハイブリッド無損失／有損失」モード転送により失われたパケットに関連するオーバーヘッドおよび遅延を最小限に抑えるためにも、効率的なトランスポート実現形態は、多数の個々のパケット（シーケンス番号）が順序を外れて到着しているとともに、より後のシーケンス番号を有する他のパケットが受け入れられ確認応答されている間に個々に再試行されることを可能にするために、充分な状態を保つことを必要とするだろう。

ある実施形態に従うと、ここでの重要なポイントは、紛失パケットまたは順序外パケットが現在のデフォルトのトランスポート実現で再試行を引き起こす場合に、平均帯域幅の長い遅延および損失を回避することである。また、配達されるパケットの列における後続のパケットが脱落することを回避することによって、本システムおよび方法は、そうでなければ他のフローによって消費され得た多くの帯域幅を消費し得たファブリック帯域幅の浪費も著しく低減している。

共有サービスおよび共有ＨＣＡ：
ある実施形態に従うと、複数のテナントによって使用されるファブリック上の共有サービス（たとえばバックアップデバイス）は、そのサービスが特定のテナント（または制限されたテナントのグループ）に専用であり得るエンドポートを提供できなければ、いくつかのエンドポートリンクが異なるテナントによって共有されることになることを意味する。複数のテナントに属するＶＭが同じサーバおよび同じＨＣＡポートを共有している場合、同様のシナリオが存在する。

ある実施形態に従うと、異なるテナントに対して、微調整されたサーバおよびＨＣＡリソースを割り振ることができ、また、ＨＣＡからの発信データトラフィック帯域幅が、関連するＳＬＡレベルに従って異なるテナント間で公平に分割されることを保証することもできる。

ある実施形態に従うと、ファブリック内において、異なるテナントに属するデータトラフィック間の相対的な重要性およびそれによる公平性を反映するパケットバッファ割振りおよびキューイング優先度および調停ポリシーを設定することも可能であり得る。しかしながら、ファブリック内の非常に微調整されたバッファ割振りおよび調停ポリシーであっても、粒度は、異なるテナントについての相対的な優先度および帯域幅割当が共有ＨＣＡポートに対するイングレス帯域幅に関して正確に反映されることを保証するほど充分に精細ではないかもしれない。

一実施形態によれば、そのような精細な粒度の帯域幅割振りを達成するために、１つ以上のテナントに属するいくつかの遠隔通信ピアの間で利用可能なイングレス帯域幅を効果的に分割およびスケジューリングすることができる動的エンドツーエンドフロー制御スキームが必要とされている。

ある実施形態に従うと、そのようなスキームの目標は、任意の時点において、関連するアクティブな遠隔クライアントのセットが、利用可能なイングレス帯域幅の、それの公平な（必ずしも等しいとは限らない）シェアを利用できることであろう。また、この帯域幅利用は、エンドポートにおいて過剰な帯域幅を用いる試みに起因してファブリックに輻輳を生じさせることなく行われるべきである。（それでも、ファブリックレベルの輻輳は、依然として、ファブリックの残りの部分内の共有リンク上の過負荷に起因して生じ得る。）
ある実施形態に従うと、この目標を達成するためのハイレベルモデルは、受信側が関連する遠隔クライアントのセットのために利用可能な帯域幅を動的に割り振って更新することができる、ということであろう。各遠隔クライアントの現在の帯域幅値は、各クライアントに現在提供されているもの、および次に必要とされるものに基づいて計算される必要があるであろう。

ある実施形態に従うと、これは、単一のクライアントが現在すべての利用可能な帯域幅を用いることを許可されており、別のクライアントもイングレス帯域幅を用いる必要がある場合、現在アクティブなクライアントに対して、新たな低減された最大帯域幅について伝える更新命令が配信されなければならず、新たなクライアントは、現在のクライアントに対する低減に対応する最大帯域幅を用いることができるという命令を配信されなければならないことを意味する。

一実施形態によれば、原則として、同じスキームが「任意の」数の同時クライアントに適用されるであろう。しかしながら、当然ながら、利用可能な帯域幅がいかなる時点においても決して「超過予約」されないことを保証できることと、利用可能な帯域幅が必要とされるときに常に完全に利用されることを保証することとの間には、巨大なトレードオフがある。

ある実施形態に従うと、この種のスキームによるさらなる課題は、それが動的輻輳制御とうまく相互運用することを保証し、複数のターゲットについて共有経路に関係する輻輳が各送信側内で協調される態様で扱われることも保証することである。

高可用性およびフェイルオーバ：
ある実施形態に従うと、性能に加えて、プライベートファブリックの鍵となる属性は、任意のクライアントアプリケーションについてサービスの喪失なく、任意の単一の障害点に続いて通信をフェイルオーバーする冗長性および能力であってもよい。さらに、「サービスの喪失」は二値条件（すなわち、サービスが存在するかまたは失われる）を表すが、いくつかの同等に重要であるが、より多くのスカラー属性は、フェイルオーバー中にどの程度まで電力不足時間があり、その場合、それがどれほど長いか、である。別の重要な局面は、フェールオーバ動作の完了中および完了後に、期待される性能がどの程度まで提供される（または再確立される）かである。

ある実施形態に従うと、単一のノード（サーバ）の観点からは、目標は、サーバ自体の外部のファブリック通信インフラストラクチャにおけるどのような単一の障害点（すなわち、単一のローカルＨＣＡを含む）も、ノードが通信できなくなることを意味するべきではない、ということである。しかしながら、完全なファブリックの観点からは、１つ以上の構成要素の損失がどのようなレベルのファブリック全体のスループットおよび性能影響を意味するかについても疑問がある。例えば、２つのスパインスイッチのみで動作することができるトポロジサイズの場合。－その場合、二分帯域幅および輻輳のリスクの増加に関して、スパインのうちの１つがサービス停止している場合、リーフとリーフとの通信容量の５０％が失われることは許容可能か？
ある実施形態に従うと、テナント毎ＳＬＡに対する別の問題は、プレミアムＳＬＡを有するテナントが、障害およびその後のフェイルオーバ動作に続いて、残りの利用可能なリソースの、比例してより大きいシェアを得るという点において、そのようなテナントのためにファブリックリソースを予約および／または優先する能力がどの程度反映されるべきかということであり、－すなわち、かくして、障害の影響は、プレミアムＳＬＡテナントについてはより少なくなるが、他のテナントについては、より多くの影響を犠牲にすることになる。

ある実施形態に従うと、冗長性に関して、そのようなテナントのための初期リソースプロビジョニングが、どのような単一の障害点も、関連する性能／ＱＯＳＳＬＡが障害中または障害後のいずれにおいても満たされ得ないことを意味しないであろうことを確実にするであろうことはまた、「スーパープレミアムＳＬＡ属性」でもあり得る。しかしながら、そのようなオーバープロビジョニングに関する基本的な問題は、利用可能なリソースが常に最も最適な方法で活用されること、および、いかなる単一の障害点の結果としても非常にわずかな期間を超えて通信が決して停止されないことを確実にするために、極めて高速のフェイルオーバー（およびフェイルバック／再均衡）が存在しなければならないことである。

ある実施形態に従うと、そのような「スーパープレミアム」セットアップの例は、デュアルＨＣＡベースのサーバを有するシステムであり得、両方のＨＣＡはアクティブ－アクティブ方式で動作しており、両方のＨＣＡポートはまた、代替経路が試される前の遅延が非常に短いＡＰＭ（自動経路マイグレーション）スキームを用いるアクティブ－アクティブ方式でも利用される。

経路選択：
ある実施形態に従うと、２つのエンドポイント間に複数の可能な経路が存在する場合、関連するＲＤＭＡ接続のための最良または「正しい」経路の選択は、理想的には、通信ワークロードが、関連付けられたＳＬＡの制約内で最良の可能な性能を経験するように、かつシステムレベルファブリックリソースが最も最適な方法で活用されるように、自動的であるべきである。

ある実施形態に従うと、理想的な場合、これは、ＶＭ内のアプリケーション論理が、どのローカルＨＣＡおよびどのローカルＨＣＡポートがどの通信のために使用され得るかまたは使用されるべきかを扱う必要がないことを意味するであろう。これはまた、ポートレベルアドレス指定スキームではなくノードレベルを意味し、基礎をなすファブリックインフラストラクチャがアプリケーションに対して透過的に使用されることを意味する。

ある実施形態に従うと、このようにして、関連するワークロードは、異なるシステムタイプまたはシステム構成の明示的な取り扱いを必要とすることなく、異なるインフラストラクチャ上でより容易に展開され得る。

特徴：
ある実施形態に従うと、このカテゴリの特徴は、現行のファームウェアおよびソフトウェアを用いる既存のＨＣＡおよび／またはスイッチハードウェアによってサポートされると想定される。

ある実施形態に従うと、このカテゴリにおける主な目標は以下のとおりである：
・ローカル物理ＨＣＡインスタンスごとに単一のＶＭまたはテナントに属するＶＦによって生成される総エグレス帯域幅を制限する能力。
・ローカル物理ＨＣＡの単一のＶＭまたはテナントに属するＶＦが、利用可能なローカルリンク帯域幅の少なくとも最小パーセンテージを利用できることになることを保証する能力。
・ＶＦがどのネットワーク（Ｅｎｅｔ）優先度を使用できるかを制限する能力。
○これは、単一のＶＭが複数の優先度を用いるために（すなわち、優先度制限が有効にされると、単一のＶＦは単一の優先度を用いることしか許可され得ない限り）、複数のＶＦが割り振られなければならないことを意味し得る。
・どのＩＳＬが単一のテナントまたはテナントのグループに属するフローのグループによって使用され得るかを制限する能力。

ある実施形態に従うと、物理ＨＣＡを他のテナントと共有しているテナントによるＨＣＡ使用を制御するために、「ＨＣＡリソース制限グループ」（本明細書では「ＨＲＬＧ」と呼ばれる）がそのテナントのために確立されることになる。ＨＲＬＧは、ＨＲＬＧによって生成することができる実際のデータレートを定義する最大帯域幅で設定することができ、また、他のテナント／ＨＲＬＧとの回線争奪があるときにＨＲＬＧがＨＣＡ帯域幅の少なくとも指定されたパーセンテージを達成することを確実にする最小帯域幅シェアで設定することもできる。他のＨＲＬＧとの回線争奪がない限り、ＨＲＬＧ内のＶＦは、指定されたレート（またはレート制限が定義されていない場合はリンク容量）まで永続的に用いることができる。

ある実施形態に従うと、ＨＲＬＧは、ＨＣＡインスタンスがサポートし得る数までのＶＦを含み得る。ＨＲＬＧ内では、各ＶＦが、ＨＲＬＧに割り当てられた「割当」の公平なシェアを得るであろうことが予想される。各ＶＦについて、関連するＱＰはまた、ローカルリンクへのアクセスの公平なシェアを、利用可能なＨＲＬＧ割当の関数として、およびＱＲに対する任意の現在のフロー制御制限を得ることになる（すなわち、ＱＰが、それ自体をスロットリングするようにそれに命ずる輻輳制御フィードバックを受信した場合、または関連する優先度で送信する「クレジット」が現在ない場合、ＱＰは、ローカルリンクアクセスについて考慮されないことになる。）
ある実施形態に従うと、ＨＲＬＧ内では、ＶＦが使うことができる優先度に対する制限を実施することが考えられる。この制限が、ＶＦに対して許可される単一の優先度に関してしか定義され得ない限り、その意味は、（依然としていくつかの優先度のみに制限されているが）複数の優先度を用いると想定されるＶＭが、複数のＶＦを－要求される優先度ごとに１つ－使用しなければならないことになる、ということである。（注：複数のＶＦの使用は、異なる優先度を用いる複数のＱＰ間のローカルメモリリソースの共有が、問題を表しそうであることを意味し、なぜならば、それは、どの優先度制限／実施ポリシーが定義されるかに応じて、異なるＶＦがＶＭ内のＵＬＰ／アプリケーションによって割り振られ、使用されなければならないことを意味するからである。）
ある実施形態に従うと、単一のＨＲＬＧ内では、ＶＦ／ＱＰが現在どの優先度を用いているかに依存して帯域幅割振りに差異はない。－それらはすべて、関連する割当を公平／均等な態様で共有する。したがって、異なる帯域幅割当を異なる優先度と関連付けるために、関連するＨＲＬＧが表す共有割当と関連付けられるべき優先度を用いるよう制限されるＶＦのみを含むことになる１つ以上の専用ＨＲＬＧを定義することが必要とされる。このようにして、ＶＭまたは同じ物理ＨＣＡを共有する複数のＶＭを有するテナントは、異なる優先度に対して異なる帯域幅割当を与えられ得る。

ある実施形態に従うと、現在のハードウェア優先度制限は、不正な優先度で送信されるのを試みられるデータが外部リンクに送信されるのを防止するが、ローカルメモリからの関連するデータのフェッチは防止しない。したがって、ＨＣＡがエグレス方向に維持することができるローカルメモリ帯域幅が利用可能な外部リンク帯域幅とほぼ同じである場合、依然として無駄になる全体的なＨＣＡリンク帯域幅がある。しかしながら、関連するメモリ帯域幅が外部リンク帯域幅よりも（有意に）大きい場合、違法な優先度を用いる試みは、ＨＣＡパイプラインが最適な効率で動作する限り、外部リンク帯域幅をより少なく浪費することになる。それでも、外部リンク帯域幅に関してあまり節約がない限り、違法な優先度の使用を防止するための可能な代替スキームは、スイッチイングレスポートにおいてＡＣＬルール実施を活用することであり得る。関連するテナントがいかなるスプーフィングの可能性も伴わずに効果的に識別され得る場合、これを用いて、同じＶＭに対して優先度ごとに個々のＶＦを割り振る必要なく、テナント／優先度関連付けを実施し得る。しかしながら、パケット／テナント関連付けが常に明確に定義され、送信ＶＭからスプーフィングすることができないことを保証することと、およびＶＦがＶＭ／テナントによって使用されるようにセットアップされているときはいつでも、関連するスイッチポートを動的に更新して関連する実施を実行すること両方は、トリビアルではない複雑さを表す。１つの可能なスキームは、ＶＭ／テナントに関連付けることができるスプーフィング不可なＩＤを表すためにＶＦポートごとのＭＡＣを用いることであろう。しかしながら、ＶｘＬＡＮまたは他のオーバーレイプロトコルが使用されている場合、これは、－特に外部スイッチが使用されているオーバーレイスキームに関与している（はまたはそれを認識している）と想定されない限り－簡単ではない。

ある実施形態に従うと、どのフローがどのＩＳＬを用いることができるかを制限するために、スイッチ転送論理は、関連するフローを識別し、それに応じて転送を設定するためのポリシーを有する必要がある。一例は、フローグループを表すためにＶＬＡＮＩＤを用いることである。異なるテナントがファブリック上の異なるＶＬＡＮＩＤにマッピングする場合、１つの可能なスキームは、どのＶＬＡＮＩＤが任意のＬＡＧまたは他のポートグループ化における様々なポートに対して許可されるかに基づいて、スイッチがＬＡＧタイプ均衡を動的に実現し得ることであろう。別のオプションは、宛先アドレスとＶＬＡＮＩＤとの組み合わせに基づくパケットの明示的な転送を含むであろう。

ある実施形態に従うと、ＶｘＬＡＮベースのオーバーレイが物理スイッチファブリックに対して透過的に用いられる場合、上記で概説したようにスイッチがＶＬＡＮＩＤをＩＳＬにマッピングすることを可能にするために、異なるオーバーレイを異なるＶＬＡＮＩＤにマッピングすることが可能であろう。

ある実施形態に従うと、別の可能なスキームは、個々のエンドポイントアドレスの転送が、ＶＬＡＮメンバーシップまたは「テナント」関連付けの何らかの他の概念を考慮に入れるルーティングスキームに従ってセットアップされることである。しかしながら、同じエンドポイントアドレス値が異なるＶＬＡＮにおいて許容される限り、ＶＬＡＮＩＤは転送判断の一部である必要がある。

ある実施形態に従うと、共有ＩＳＬまたは排他的ＩＳＬのいずれかへのテナントあたりのフローの配信は、ファブリック（ファットツリー）トポロジー内でグローバルに最適化された方法でトラフィックを配信するために、ホリスティックなルーティングスキームを必要とし得る。そのようなスキームの実現は、典型的には、スイッチのためのＳＤＮタイプ管理インターフェースに依存するであろうが、ホリスティックなルーティングの実現は、トリビアルではないであろう。

短期および中期ＳＬＡクラス：
ある実施形態に従うと、以下は、非ブロッキング２層ファットツリートポロジーが、単一のリーフスイッチの基数を超えるシステムサイズ（物理ノードカウント）のために使用されていると仮定する。また、物理サーバ上の単一のＶＭが（１つ以上のｖＨＣＡ／ＶＦを介して）すべてのファブリック帯域幅を用いることができると仮定される。したがって、物理サーバあたりのテナントあたりのＶＭの数は、ＨＣＡ／ファブリックの観点からテナントレベルＳＬＡファクタと見なされる必要があるパラメータではない。

ある実施形態に従うと、一番上の層（たとえばプレミアムプラス）は、
・専用サーバを用いることができる。
・ＶＭ（またはＨＡポリシー）の数およびサイズが追加の距離を意味する場合を除いて、可能な限り同じリーフドメインに割り振られることができる。
・テナントが複数のリーフドメインを用いている場合（すなわち、同じリーフドメイン内でこのテナントに割り振られるサーバの数に対して）、平均して、ローカルリーフからの非ブロッキングアップリンク帯域幅を有することができるが、専用アップリンクまたはアップリンク帯域幅は有さないことになる。
・すべての「フローグループ」（すなわち、ファブリック内の異なるバッファプールおよび調停グループを表す優先度など）を用いることができる。

ある実施形態に従うと、下位の層（たとえばプレミアム）は、
・専用サーバを用いることができるが、同じリーフドメインについての保証はない。
・平均して、少なくとも５０％の非ブロッキングアップリンク帯域幅（すなわち、同じリーフドメイン内でこのテナントに割り振られるサーバの数に対して）を有することができるが、専用アップリンクまたはアップリンク帯域幅は有さないことになる。
・すべての「フローグループ」を用いることができる。

ある実施形態に従うと、第３の層（たとえばエコノミープラス）は、
・共有サーバを用いてもよいが、専用の「フローグループ」を有することになる。
○これらのリソースは、ローカルＨＣＡおよびスイッチポート専用であることになるが、ファブリック内で共有されることになる。
・ローカルサーバからのすべての利用可能なエグレス帯域幅を用いる能力を有することができるが、全エグレス帯域幅の少なくとも５０％を有することが保証される。
・物理サーバ当たり１つのエコノミープラステナントのみ。
・平均して、このエコノミープラステナントによって使用されているサーバの数に対して少なくとも２５％の非ブロッキングリーフアップリンク帯域幅を有することができる。

一実施形態によれば、第４の層（例えば、エコノミー）は、
・共有サーバを用いることができる
・専用優先順位なし
・サーバエグレス帯域幅の５０％までを使用できるようにされることができるが、これを３つまでの他のエコノミーテナントと共有する場合がある
・平均して、利用可能なリーフアップリンク帯域幅の２５％までを同じリーフドメイン内の他のエコノミーテナントと共有することができる。

ある実施形態に従うと、最下層（たとえばスタンバイ）は、
・保証された帯域幅を伴わない予備容量を使用し得る
より長期の特徴：
ある実施形態に従うと、このセクションで議論される主要な特徴は以下の通りである：
・単一のＶＦが、サポートされる優先度のセット全体のうちの任意のサブセットを用いるように制限されることを可能にする方法で、ＶＦごとに優先度制限を実施する能力。
・開始ＶＦに対して許可されない優先度を用いてデータ転送が試みられるときはいつでも、浪費されるメモリ帯域幅またはリンク帯域幅をゼロにする。
・様々なＨＲＬＧ内の各ＶＦが、関連するＨＲＬＧ総最小帯域幅および／または最大レートの、それらの公平なシェアを、ただし、様々な関連付けられる優先度ごとの割当によって定義される制約の下で得るように、複数のＨＲＬＧにわたる異なる個々の優先度に対するエグレスレートを制限する能力。
・ターゲットごとおよび共有経路／ルートごとの両方に基づいて送信側帯域幅制御および輻輳調整を実行し、これがＶＭ／ＶＦ（すなわちｖＨＣＡポート）レベルおよびＨＣＡポートレベルの両方で集約される能力。
・協働する遠隔送信側の受信側スロットリングに基づいて、ＶＦに対して総平均送信およびＲＤＭＡ書込イングレス帯域幅を制限する能力。
・協働する遠隔ＲＤＭＡ読出応答側に依存することなく、ＶＦに対して平均ＲＤＭＡ読出イングレス帯域幅を制限する能力。
・協働する遠隔送信側の受信側スロットリングに基づいてＶＦに対して総平均イングレス帯域幅を制限するとき、送信およびＲＤＭＡ書込に加えてＲＤＭＡ読出を含む能力。
・テナントＶＭが異なるピアＶＭのグループに対して利用可能な二分帯域幅を観察する能力。
・ファブリック内のルーティング制御および調停ポリシーのためのＳＤＮ特徴。

ある実施形態に従うと、ＨＣＡＶＦコンテキストは、正当な優先度のリスト（ＩＢＴＡＩＢｖＰｏｒｔのための正当なＳＬのセットに類似している）を含むように拡張することができる。作業要求がＶＦにとって正当でない優先度を使用しようとしているときはいつでも、その作業要求は、任意のローカルまたは遠隔データ転送が開始される前に失敗するべきである。加えて、任意の優先度が使用され得るという錯覚をアプリケーションに与えるために、優先度マッピングも使用され得る。しかしながら、パケットが送信される前に複数の優先度が同じ値にマッピングされ得るこの種のマッピングは、異なるフロータイプを異なる「ＱＯＳクラス」に関連付けるという点で、アプリケーションはそれ自体のＱＯＳポリシーをもはや制御することはできない可能性がある、という欠点を有する。そのような制限されたマッピングは、ＳＬＡ属性を表す（すなわち、より特権的なＳＬＡは、マッピング後、より多くの実際の優先度を意味する）。しかしながら、アプリケーションが、ファブリックにおいて独立したフローを表すことにもなる態様で、どのフロータイプをどのＱＯＳクラス（優先度）に関連付けるかを決定できることは、常に重要である。

ターゲットグループおよび動的ＢＷ割当更新を介したイングレスＲＤＭＡ読出ＢＷ割当の実現：
ある実施形態に従うと、「プロデューサ／送信元」ノードからのフローに対するターゲットグループ関連付けが、ＵＤ送信、ＲＤＭＡ書込、ＲＤＭＡ送信およびＲＤＭＡ読出（すなわち、データを有するＲＤＭＡ読出応答）を含むすべての発信データパケットの帯域幅規制を意味する限り、ｖＨＣＡポートに対するすべてのイングレス帯域幅の完全な制御がある。これは、ターゲットｖＨＣＡポートを所有するＶＭが複数のピアノードに対して「過剰な」量のＲＤＭＡ読出要求を生成しているかどうかとは無関係である。

ある実施形態に従うと、上で論じたように、ターゲットグループをフロー固有および「非請求」の両方のＢＥＣＮシグナリングに結合することは、ｖＨＣＡポートごとのイングレス帯域幅を、任意の数の遠隔ピアに対して動的にスロットリングすることができることを意味する。

ある実施形態に従うと、上で概説した「非請求ＢＥＣＮ」メッセージを用いて、異なるステージ番号に対する純粋なＣＥフラグ立て／フラグ解除に加えて、特定のレート値を通信することもできる。このようにして、新たなピアからの初期着信パケット（例えば、ＣＭパケット）が、着信パケットが来たＨＣＡ（すなわち、関連するファームウェア／ハイパー特権ソフトウェア）および現在の通信ピアの両方への１つ以上の「非請求ＢＥＣＮ」メッセージの生成をトリガすることができるスキームを有することが可能である。

ピアノード、経路およびターゲットグループの相関付け：
ある実施形態に従うと、ＶＭが異なるピアノードおよび異なるグループのピアノードに関連付けられる帯域幅制限を識別できるようにするためには、どのターゲットグループが様々な通信ピア（および関連付けられるアドレス／経路情報）に関連付けられるかを問い合わせる方法が必要であろう。通信ピアのセットを様々なターゲットグループと相関させること、ならびに様々なターゲットグループが表すレート制限に基づいて、ＶＭは、様々な通信ピアに対してどのような帯域幅を達成することができるかを追跡することができるであろう。これは、次いで、原則として、ＶＭが、競合するターゲットグループを伴わない同時転送をできるだけ多く有することにより、最良の可能な帯域幅利用を経時的に達成する態様で、通信動作をスケジューリングすることを可能にするであろう。

ＨＣＡリソース制限グループとターゲットグループとの間の関係：
ある実施形態に従うと、ＨＲＬＧ概念およびターゲットグループ概念は、それらが両方とも柔軟な態様でＶＭおよびテナント間で定義ならびに共有されることができる帯域幅制限を表すという点で、いくつかの態様で重複している。しかしながら、ＨＲＬＧの主な焦点は、ローカルＨＣＡ／ＨＣＡポート容量の異なる部分を異なるＶＦ（およびそれによってＶＭおよびテナント）にどのように割り当てることができるかを定義することである一方、ターゲットグループ概念は、最終宛先および中間ファブリックトポロジの両方に関してローカルＨＣＡの外部に存在する帯域幅制限およびフロー制御制約に焦点を当てている。

ある実施形態に従うと、このようにして、様々なＶＦがローカルＨＣＡ容量のどのようなシェアを用い得るかを制御するための方法としてＨＲＬＧを用いるが、許可された容量がどのようなファブリックまたは遠隔ターゲット制限または輻輳条件とも競合しない態様でのみ使用され得ることを保証することは意味がある。－これらの外部制約は、次いで、動的に制御され、関連するターゲットグループを介して反映される。

ある実施形態に従うと、実現化の点から、すべての関連するターゲットグループの状態は、どのローカルＱＰに対するどの保留中の作業要求がフロー制御状態にあることになるかを定義することになり、そこでは、それらは、任意の時点で、より多くのエグレスデータトラフィックを生成することを許可される。この状態は、ＱＰが行うことが実際に送信すべき何かを有するかに関する状態とともに、次いで、どのＶＦが次に送信するための候補であるかに関して、ＶＦ／ｖＨＣＡポートレベルで集約され得る。ＨＣＡポート上で次に送信するためにどのようなＶＦをスケジューリングするかについての決定は、ＨＲＬＧ階層における様々なＨＲＬＧの状態およびポリシー、「送信準備完了」ＶＦのセット、およびどのＶＦがどのようなエグレストラフィックを生成したかに関する最近の履歴に基づくことになる。選択されたＶＦについて、ＶＦ固有の調停ポリシーは、データ転送のためにどのＱＰが選択されるかを定義することになる。

ある実施形態に従うと、保留中のデータ転送を有するＱＰのセットは、ローカル作業要求を有するＱＰと、関連する遠隔ピアからの保留中のＲＤＭＡ読出要求を有するＱＰとの両方を含むので、上記のスケジューリングおよび調停は、すべての保留中のエグレスデータトラフィックに対処することになる。

ある実施形態に従うと、イングレストラフィック（着信ＲＤＭＡ読出応答を含む）は、遠隔ピアノードにおけるすべての関連するターゲットグループの現在の状態によって制御されることになる。－この（遠隔）状態は、輻輳状況に基づく動的フロー制御状態と、このＨＣＡ上のローカルＶＦに対するイングレス帯域幅割当の変化を反映する、このＨＣＡからの明示的な更新との両方を含む。そのようなイングレス帯域幅割当は、ＨＲＬＧ階層によって反映されるポリシーに基づくことになる。このようにして、様々なＶＭは、イングレスとエグレスとの両方に対して、およびイングレスとエグレスとの両方に対する優先度ごとに基づいても、「微調整された」独立した帯域幅割当を有し得る。

ＳＬＡクラス：
ある実施形態に従うと、以下の提案は、非ブロッキング２層ファットツリートポロジーが、単一のリーフスイッチの基数を超えるシステムサイズ（物理ノードカウント）のために使用されている、と仮定する。また、物理サーバ上の単一のＶＭが（１つ以上のＨＣＡ／ＶＦを介して）すべてのファブリック帯域幅を用いることができると仮定される。したがって、物理サーバあたりのテナントあたりのＶＭ数は、ＳＬＡ要因とみなす必要があるパラメータではない。

ある実施形態に従うと、１番上のレベルの層（たとえばプレミアムプラス）は、
・専用サーバしか使用できない。
・ＶＭ（またはＨＡポリシー）の数およびサイズが追加の距離を意味する場合を除いて、可能な限り同じリーフドメインに割り振られることができる。
・テナントが複数のリーフドメインを用いている場合、ローカルリーフからの非ブロッキングアップリンク帯域幅を常に有することができる。
・すべての「フローグループ」を用いることができる。

ある実施形態に従うと、下位レベルの層（たとえばプレミアム）を提供することができる
・専用サーバのみ使用することができ、同じリーフドメインについての保証はない。
・非ブロッキングアップリンク帯域幅の少なくとも５０％（すなわち、同じリーフドメイン内でこのテナントに割り振られるサーバの数に対して）を保証されることができる。
・すべての「フローグループ」を用いることができる。

ある実施形態に従うと、第３レベルの層を提供することができる（たとえばエコノミープラス）
・共有サーバを用いてもよいが、４つの専用の「フローグループ」を有することになる（すなわち、ファブリック内の異なるバッファプールおよび調停グループを表す優先度など）。
○これらのリソースは、ローカルＨＣＡおよびスイッチポート専用であることになるが、ファブリック内で共有されることになる。
・ローカルサーバからのすべての利用可能な帯域幅（エグレスおよびイングレス）を用いる能力を有することができるが、全帯域幅の少なくとも５０％を有することが保証される。
・物理サーバ毎に１つのエコノミープラステナントに限定される。
・このエコノミープラステナントによって使用されているサーバの数に対して少なくとも２５％の非ブロッキングリーフアップリンク帯域幅を保証されることができる。

ある実施形態に従うと、第４の層を提供することができる（たとえばエコノミー）
・共有サーバを用いることしかできない
・専用の優先度を有さない
・サーバ帯域幅（エグレスおよびイングレス）の５０％までを使用できるようにされることができるが、これを３つまでの他のエコノミーテナントと共有する場合がある
・利用可能なリーフアップリンク帯域幅の２５％までを同じリーフドメイン内の他のエコノミーテナントと共有することができる。

ある実施形態に従うと、保証された帯域幅を伴わない予備容量を用いることができる底層（たとえばスタンバイ）を提供することができる
本教示の様々な実施形態を説明してきたが、上記実施形態が限定ではなく例示として提示されていることが理解されるべきである。上記実施形態は、本教示の原理およびそれらの実際の適用例を説明するために選択され記載されたものである。上記実施形態は、新たな特徴および／もしくは改善された特徴を提供することによって、ならびに／または、リソース利用の低減、容量の増加、効率の向上および待ち時間の低下などの利点を提供することによって、システムおよび方法の性能を向上させるために本教示が利用されているシステムおよび方法を例示している。

いくつかの実施形態においては、本教示の特徴は、全体的または部分的に、プロセッサ、メモリなどの記憶媒体、および他のコンピュータと通信するためのネットワークカードを含むコンピュータにおいて実現される。いくつかの実施形態においては、本教示の特徴は、コンピュータの１つ以上のクラスタがローカルエリアネットワーク（Local Area Network：ＬＡＮ）、スイッチファブリックネットワーク（例えば、インフィニバンド）、またはワイドエリアネットワーク（Wide Area Network：ＷＡＮ）などのネットワークによって接続されている分散コンピューティング環境において実現される。分散コンピューティング環境は、一箇所において全てのコンピュータを有していてもよく、または、ＷＡＮによって接続されているさまざまな遠隔地理位置においてコンピュータのクラスタを有していてもよい。

いくつかの実施形態においては、本教示の特徴は、全体的または部分的に、ウェブ技術を用いたセルフサービスの調整された態様でユーザに送達される共有型で融通性のあるリソースに基づいて、クラウド・コンピューティング・システムの一部またはサービスとしてクラウドにおいて実現される。（米国標準技術局（National Institute of Standards and Technology）よって定義される）クラウドの５つの特徴がある。すなわち、オン・デマンドのセルフサービス、広域ネットワークアクセス、リソースプール化、高速伸縮性、およびメジャードサービスである。例えば、本明細書に引用によって援用されている「クラウドコンピューティングのＮＩＳＴ定義（The NIST Definition of Cloud Computing）」（特殊出版（Special Publication）８００～１４５（２０１１））を参照されたい。
クラウド展開モデルは、パブリック、プライベートおよびハイブリッドを含む。クラウドサービスモデルは、ソフトウェア・アズ・ア・サービス（Software as a Service：ＳａａＳ）、プラットフォーム・アズ・ア・サービス（Platform as a Service：ＰａａＳ）、データベース・アズ・ア・サービス（Database as a Service：ＤＢａａＳ）およびインフラストラクチャ・アズ・ア・サービス（Infrastructure as a Service：ＩａａＳ）を含む。本明細書で使用するとき、クラウドは、セルフサービスの調整された態様で、共有される融通性のあるリソースをユーザに対して配信する、ハードウェア技術とソフトウェア技術とネットワーク技術とウェブ技術とを組合せたものである。特に指定がなければ、クラウドは、本明細書で使用するとき、パブリッククラウド、プライベートクラウドおよびハイブリッドクラウドの実施形態を包含しており、全てのクラウド展開モデルは、クラウドＳａａＳ、クラウドＤＢａａＳ、クラウドＰａａＳおよびクラウドＩａａＳを含むもののこれらに限定されない。

いくつかの実施形態においては、本教示の特徴が、ハードウェア、ソフトウェア、ファームウェアまたはそれらの組合せを用いて、またはそれらの組合せの助けを借りて実現される。いくつかの実施形態においては、本教示の特徴は、本教示の１つ以上の機能を実行するように構成されたかまたはプログラムされたプロセッサを用いて実現される。プロセッサは、いくつかの実施形態においては、シングルプロセッサもしくはマルチチッププロセッサ、デジタル信号プロセッサ（digital signal processor：ＤＳＰ）、システム・オン・ア・チップ（system on a chip：ＳＯＣ）、特定用途向け集積回路（application specific integrated circuit：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（field programmable gate array：ＦＰＧＡ）もしくは他のプログラマブルロジックデバイス、ステートマシン、離散的なゲートもしくはトランジスタ論理、離散的なハードウェアコンポーネント、または、本明細書に記載される機能を実行するように設計されたそれらのいずれかの組合せである。いくつかの実現例においては、本教示の特徴が、特定の機能に特化した回路類によって実現され得る。他の実現例においては、これらの特徴は、例えば、コンピュータ可読記憶媒体上に格納された命令を用いて特定の機能を実行するように構成されたプロセッサにおいて実現され得る。

いくつかの実施形態においては、本教示の特徴は、処理システムおよび／またはネットワーキングシステムのハードウェアを制御するために、かつ、プロセッサおよび／またはネットワークが本教示の特徴を利用する他のシステムと対話することを可能にするために、ソフトウェアおよび／またはファームウェアに組込まれている。このようなソフトウェアまたはファームウェアは、アプリケーションコード、デバイスドライバ、オペレーティングシステム、仮想マシン、ハイパーバイザ、アプリケーションプログラミングインターフェイス、プログラミング言語、および実行環境／コンテナを含み得るがこれらに限定されない。適切なソフトウェアコーディングは、ソフトウェア技術に精通した当業者にとって明らかになるように、熟練したプログラマであれば本開示の教示に基づいて容易に準備することができる。

いくつかの実施形態においては、本手法は、本教示を実施するよう用いられ得る命令を担持するコンピュータ可読媒体などのコンピュータプログラムプロダクトを含む。いくつかの例では、コンピュータ可読媒体は、命令が格納されたことによって命令を担持する記憶媒体またはコンピュータ可読媒体であり、これらの命令を用いて、本教示の処理または機能のいずれかを実行するように、コンピュータなどのシステムをプログラムするか、または他の方法で構成することができる。記憶媒体またはコンピュータ可読媒体は、フロッピー（登録商標）ディスク、光ディスク、ＤＶＤ、ＣＤ－ＲＯＭ、マイクロドライブ、および磁気光ディスクを含む任意のタイプのディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュメモリデバイス、磁気または光カード、ナノシステム（分子メモリＩＣを含む）、ならびに、命令および／またはデータを格納するのに適した任意のタイプの媒体または装置、を含み得るが、これらには限定されない。特定の実施形態においては、記憶媒体またはコンピュータ可読媒体は、非一時的な記憶媒体または非一時的なコンピュータ可読媒体である。コンピュータ可読媒体は、また、または代替的に、そのような命令を伝搬する搬送波または伝送信号などの過渡的媒体を含み得る。

したがって、一観点から、高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするためのシステムおよび方法が説明されてきた。例示的な方法は、１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することができ、第１のサブネットは、複数のスイッチと、複数のホストチャネルアダプタと、複数の仮想マシンを含む複数のエンドノードとを含む。本方法は、スイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの１つにおいて、ターゲットグループを定義することができ、ターゲットグループは、複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、帯域幅制限を定義する。本方法は、ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを提供することができ、ターゲットグループリポジトリ内の定義されたターゲットグループが記録される。

上述の記載は、網羅的となるように意図されたものではなく、または、本範囲を開示通りの形態に限定するように意図されたものではない。また、本教示の実施形態を特定の一連のトランザクションおよびステップを用いて説明したが、本範囲が上述の一連のトランザクションおよびステップに限定されないことは、当業者にとって明らかであろう。さらに、実施形態をハードウェアとソフトウェアとの特定の組合せを用いて説明したが、ハードウェアとソフトウェアとの他の組合せが本教示の範囲内にあることも認識すべきである。さらに、さまざまな実施形態で本発明の特徴の特定の組合せを記載したが、一実施形態の特徴が別の実施形態に組込まれ得るというように、これらの特徴の異なる組合せが本教示の範囲内にあることは当業者にとって明らかであることを理解すべきである。さらに、本精神および範囲から逸脱することなく、形態、詳細、実施および用途のさまざまな追加、削減、削除、変形および他の変更がなされ得ることも、当業者にとっては明らかであろう。本発明は特許請求の範囲の適切な解釈によって規定されることが意図される。

Claims

高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするためのシステムであって、
１つ以上のマイクロプロセッサと、
第１のサブネットとを備え、前記第１のサブネットは、
複数のスイッチを含み、前記複数のスイッチは少なくともリーフスイッチを含み、前記複数のスイッチの各々は複数のスイッチポートを含み、前記第１のサブネットはさらに、
複数のホストチャネルアダプタを含み、前記ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、前記複数のホストチャネルアダプタは、前記複数のスイッチを介して相互接続され、前記第１のサブネットはさらに、
複数の仮想マシンを含む複数のエンドノードを含み、
前記複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは前記複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、ターゲットグループが定義され、前記ターゲットグループは、前記複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは前記複数のスイッチのうちのあるスイッチのポートのうちの前記少なくとも１つにおいて帯域幅制限を定義し、
ホストチャネルアダプタは、前記ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを含み、
前記定義されたターゲットグループは、前記ターゲットグループリポジトリに記録される、システム。
前記ターゲットグループは、前記複数のスイッチのうちの２つのスイッチ間の前記スイッチ間リンクにおいて定義され、
前記複数のエンドノードのうちの第１のエンドノードは、前記ターゲットグループリポジトリを含む前記ホストチャネルアダプタに設けられ、
前記第１のエンドノードは、前記ターゲットグループリポジトリを含む前記ホストチャネルアダプタにおいて定義される第１のエグレス帯域幅制限に関連付けられ、前記第１のエグレス帯域幅制限は、前記第１のエンドノードの第１のＱｏＳ（quality of service）合意に関連付けられる、請求項１に記載のシステム。
前記第１のエンドノードから出るパケットは、前記ターゲットグループが定義される、前記複数のスイッチのうちの２つのスイッチ間の前記スイッチ間リンクを介して、ルーティングされる、請求項２に記載のシステム。
前記ターゲットグループによって定義される前記帯域幅制限は、前記第１のエグレス帯域幅制限未満である、請求項３に記載のシステム。
前記第１のエンドノードに関連付けられる前記第１のエグレス帯域幅制限は、前記ターゲットグループによって定義される前記帯域幅制限以下になるように更新される、請求項４に記載のシステム。
前記ターゲットグループによって定義される前記帯域幅制限は複数の帯域幅制限を含み、前記複数の帯域幅制限の各々は異なるＱｏＳ合意に関連付けられる、先行する請求項のいずれか１項に記載のシステム。
前記ターゲットグループは、任意の特定の宛先アドレスから切り離される、先行する請求項のいずれか１項に記載のシステム。
高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするための方法であって、
１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することを含み、前記第１のサブネットは、
複数のスイッチを含み、前記複数のスイッチは少なくともリーフスイッチを含み、前記複数のスイッチの各々は複数のスイッチポートを含み、前記第１のサブネットはさらに、
複数のホストチャネルアダプタを含み、前記ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、前記複数のホストチャネルアダプタは、前記複数のスイッチを介して相互接続され、前記第１のサブネットはさらに、
複数の仮想マシンを含む複数のエンドノードを含み、前記方法はさらに、
前記複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは前記複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、ターゲットグループを定義することを含み、前記ターゲットグループは、前記複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは前記複数のスイッチのうちのあるスイッチのポートのうちの前記少なくとも１つにおいて帯域幅制限を定義し、前記方法はさらに、
ホストチャネルアダプタにおいて、前記ホストチャネルアダプタのメモリに記憶されるターゲットグループリポジトリを提供することと、
前記定義されたターゲットグループを前記ターゲットグループリポジトリに記録することとを含む、方法。
前記ターゲットグループは、前記複数のスイッチのうちの２つのスイッチ間の前記スイッチ間リンクにおいて定義され、
前記複数のエンドノードのうちの第１のエンドノードは、前記ターゲットグループリポジトリを含む前記ホストチャネルアダプタに設けられ、
前記第１のエンドノードは、前記ターゲットグループリポジトリを含む前記ホストチャネルアダプタにおいて定義される第１のエグレス帯域幅制限に関連付けられ、前記第１のエグレス帯域幅制限は、前記第１のエンドノードの第１のＱｏＳ（サービス品質）合意に関連付けられる、請求項８に記載の方法。
前記第１のエンドノードから出るパケットは、前記ターゲットグループが定義される、前記複数のスイッチのうちの２つのスイッチ間の前記スイッチ間リンクを介して、ルーティングされる、請求項９に記載の方法。
前記ターゲットグループによって定義される前記帯域幅制限は、前記第１のエグレス帯域幅制限未満である、請求項１０に記載の方法。
前記第１のエンドノードに関連付けられる前記第１のエグレス帯域幅制限は、前記ターゲットグループによって定義される前記帯域幅制限以下になるように更新される、請求項１１に記載の方法。
前記ターゲットグループによって定義される前記帯域幅制限は複数の帯域幅制限を含み、前記複数の帯域幅制限の各々は異なるＱｏＳ合意に関連付けられる、請求項８～１２のいずれか１項に記載の方法。
前記ターゲットグループは、任意の特定の宛先アドレスから切り離される、請求項８～１３のいずれか１項に記載の方法。
高性能コンピューティング環境においてプライベートファブリックにおける輻輳制御のためのターゲットグループをサポートするための命令を有するコンピュータ可読媒体であって、前記命令は、読み出され、実行されると、コンピュータに以下のステップを実行させ、前記ステップは、
１つ以上のマイクロプロセッサにおいて、第１のサブネットを提供することを含み、前記第１のサブネットは、
複数のスイッチを含み、前記複数のスイッチは少なくともリーフスイッチを含み、前記複数のスイッチの各々は複数のスイッチポートを含み、前記第１のサブネットはさらに、
複数のホストチャネルアダプタを含み、前記ホストチャネルアダプタの各々は、少なくとも１つのホストチャネルアダプタポートを含み、前記複数のホストチャネルアダプタは、前記複数のスイッチを介して相互接続され、前記第１のサブネットはさらに、
複数の仮想マシンを含む複数のエンドノードを含み、前記ステップはさらに、
前記複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは前記複数のスイッチのうちのあるスイッチのポートのうちの少なくとも１つにおいて、ターゲットグループを定義することを含み、前記ターゲットグループは、前記複数のスイッチのうちの２つのスイッチ間のスイッチ間リンクまたは前記複数のスイッチのうちのあるスイッチのポートのうちの前記少なくとも１つにおいて帯域幅制限を定義し、前記ステップはさらに、
ホストチャネルアダプタにおいて、前記ホストチャネルアダプタのメモリに記憶されたターゲットグループリポジトリを提供することと、
前記定義されたターゲットグループを前記ターゲットグループリポジトリに記録することとを含む、コンピュータ可読媒体。
前記ターゲットグループは、前記複数のスイッチのうちの２つのスイッチ間の前記スイッチ間リンクにおいて定義され、
前記複数のエンドノードのうちの第１のエンドノードは、前記ターゲットグループリポジトリを含む前記ホストチャネルアダプタに設けられ、
前記第１のエンドノードは、前記ターゲットグループリポジトリを含む前記ホストチャネルアダプタにおいて定義される第１のエグレス帯域幅制限に関連付けられ、前記第１のエグレス帯域幅制限は、前記第１のエンドノードの第１のＱｏＳ（サービス品質）合意に関連付けられる、請求項１５に記載のコンピュータ可読媒体。
前記第１のエンドノードから出るパケットは、前記ターゲットグループが定義される、前記複数のスイッチのうちの２つのスイッチ間の前記スイッチ間リンクを介して、ルーティングされる、請求項１６に記載のコンピュータ可読媒体。
前記ターゲットグループによって定義される前記帯域幅制限は、前記第１のエグレス帯域幅制限未満である、請求項１７に記載のコンピュータ可読媒体。
前記第１のエンドノードに関連付けられる前記第１のエグレス帯域幅制限は、前記ターゲットグループによって定義される前記帯域幅制限以下になるように更新される、請求項１８に記載のコンピュータ可読媒体。
前記ターゲットグループによって定義される前記帯域幅制限は複数の帯域幅制限を含み、前記複数の帯域幅制限の各々は異なるＱｏＳ合意に関連付けられる、請求項１５～１９のいずれか１項に記載のコンピュータ可読媒体。