JP2024512302A

JP2024512302A - 統合されていないコンピュータシステムにおけるジョブターゲットエイリアシング

Info

Publication number: JP2024512302A
Application number: JP2023553070A
Authority: JP
Inventors: カンナタ，ジェームズ; クラーク，フィリップ; マクムレン，マーシャル; シュラム，ブライアン
Original assignee: リキッドインコーポレイテッド
Priority date: 2021-03-03
Filing date: 2022-02-18
Publication date: 2024-03-19
Also published as: EP4302191A1; WO2022186997A1; US20220283866A1

Abstract

本明細書では、通信ファブリックを介して結合される物理コンピューティング構成要素の配置の展開が提示される。一例において、方法は、ワークロードマネージャから実行ジョブを受信することができるターゲットマシンをワークロードマネージャに提示するステップを含む。ターゲットマシンは、ネットワーク状態を有し、コンピューティング構成要素の選択を含む。また、方法は、ターゲットマシンに向けられるワークロードマネージャによって発行されたジョブを受信するステップも含む。ジョブの特性に基づいて、方法は、ジョブを処理するためのリソース要件を決定するステップと、ジョブのリソース要件をサポートする物理コンピューティング構成要素を備える合成マシンを形成するステップと、ターゲットマシンのネットワーク状態を合成マシンに転送して合成マシンのネットワーク状態をワークロードマネージャに示すステップと、合成マシン上でジョブの実行を開始するステップとを含む。【選択図】図１

Description

クラスタ化されたコンピューティングシステムは、データストレージ、データ処理、及び通信処理に対する需要が高まっているため、普及している。データセンタは、一般に、大型ラックマウント型及びネットワーク結合型のデータストレージ及びデータ処理システムを含む。これらのデータセンタは、ネットワークリンクを介して外部ユーザから記憶のためのデータを受信することができ、並びにデータセンタ内の処理要素で実行されるアプリケーションから生成されるデータを受信することができる。多くの場合、データセンタ及び関連するコンピューティング機器を使用して、複数の同時ユーザ又はアプリケーションのためのジョブを実行することができる。ジョブは、中央処理ユニット（ＣＰＵ）又はグラフィックス処理ユニット（ＧＰＵ）を使用してデータを処理し、並びにこれらのリソースに関連するデータを一時記憶装置と長期記憶装置との間で、又は様々なネットワーク位置の間でルーティングするためにデータセンタのリソースを利用できる実行ジョブを含む。ＧＰＵベースの処理は、人工知能（ＡＩ）及び機械学習レジームで使用するために人気が高まっている。これらのレジームでは、ブレードサーバなどのコンピューティングシステムは、大規模データセットを処理するための関連するＣＰＵと共に１つ以上のＧＰＵを含むことができる。

サーバによる、例えば大規模クラウドシステム及びコンピューティングクラスタによる実行のためのコンピューティングジョブを受信及び展開することができるワークロードマネージャが開発されている。例示的なワークロードマネージャとしては、Ｓｌｕｒｍワークロードマネージャ、ＯｐｅｎＳｔａｃｋ、Ｋｕｂｅｒｎｅｔｅｓ、及び他の一般的なワークロード及びクラウドオーケストレーション／デプロイメントサービスが挙げられる。これらのワークロードマネージャは、一般に、ジョブ処理のために選択され得るサーバのリストを有する。ジョブに関してサーバが選択された時点で、選択されたサーバによる実行又は他のタイプの処理のためにジョブを展開することができる。しかしながら、経時的に構成を変更し得るサーバを有する大規模コンピューティングクラスタにわたってこれらのワークロードマネージャの需要を管理することは困難であり得る。

大規模コンピューティングクラスタでは密度の制限が生じる可能性がある。具体的には、各サーバは、一般に、ＣＰＵ、ＧＰＵ、及び共通の筐体又はシャーシに収容される記憶要素の間に固定された構成を含む。着信ジョブがデータセンタ内に展開されると、コンピューティングリソースの粒度が個々のサーバに制限される。したがって、展開されたジョブは、一般に、サーバのリソース全体が実際にジョブを実行するために必要であるか否かにかかわらず、各サーバの対応するＣＰＵ、ＧＰＵ、及び記憶要素の全てと共に１つ以上のサーバを占有する。補償するために、データセンタのオペレータは、一般に、ジョブからの増大するトラフィックに対応するために、連続的に増大する量のサーバを展開する。この戦略は、ラックマウント型サーバに必要な物理的スペース、並びに大きなスペース及びコスト要件に対する障壁に直面する可能性がある。

本明細書では、通信ファブリックを介して結合される物理コンピューティング構成要素の配置の展開が提示される。一例において、方法は、ワークロードマネージャから実行ジョブを受信することができるターゲットマシンをワークロードマネージャに提示するステップを含む。ターゲットマシンは、ネットワーク状態を有し、コンピューティング構成要素の選択を含む。また、方法は、ターゲットマシンに向けられるワークロードマネージャによって発行されたジョブを受信するステップも含む。ジョブの特性に基づいて、方法は、ジョブを処理するためのリソース要件を決定するステップと、ジョブのリソース要件をサポートする物理コンピューティング構成要素を備える合成マシンを形成するステップと、ターゲットマシンのネットワーク状態を合成マシンに転送して合成マシンのネットワーク状態をワークロードマネージャに示すステップと、合成マシン上でジョブの実行を開始するステップとを含む。

他の例において、装置は、１つ以上のコンピュータ可読記憶媒体に記憶されたプログラム命令を含み、プログラム命令は、処理システムによって実行されることに基づいて、実行ジョブを受信することができるターゲットマシンをワークロードマネージャに提示するように処理システムに指示し、ターゲットマシンは、ネットワーク状態を有するとともに、コンピューティング構成要素の選択を含む。プログラム命令は、ワークロードマネージャによって発行されてターゲットマシンに向けられるジョブを受信するように処理システムに指示する。ジョブの特性に基づいて、プログラム命令は、ジョブを処理するためのリソース要件を決定し、ジョブのリソース要件をサポートする物理コンピューティング構成要素を備える合成マシンを形成するように処理システムに指示する。プログラム命令は、ターゲットマシンのネットワーク状態を合成マシンに転送し、合成マシンのネットワーク状態をワークロードマネージャに示し、合成マシン上でのジョブの実行を開始するように処理システムに指示する。

他の例は、ジョブ実行のための架空のターゲットとしてコンピューティングターゲットを提示するように構成されたジョブインタフェースを備えるシステムを含み、コンピューティングターゲットはそれぞれ、アドバタイズされたコンピューティング構成要素の関連付けられたセット及び対応するネットワークアドレス指定を有する。ジョブインタフェースは、対応するネットワークアドレスを有する選択されたコンピューティングターゲットに向けられる実行のためのジョブを受信する。また、システムは、物理コンピューティング構成要素のプールからのジョブの実行をサポートするのに必要な物理コンピューティング構成要素のセットを選択し、物理コンピューティング構成要素のセットを備える物理コンピューティングノードを合成し、選択されたコンピューティングターゲットの代わりに対応するネットワークアドレスを介して通信するように物理コンピューティングノードを構成し、処理のために物理コンピューティングノードにジョブを展開するように構成されたコントローラも含む。

この概要は、本技術開示において以下で更に説明される概念の選択を簡略化した形で紹介するために提供される。この概要は、特許請求される主題の重要な特徴又は本質的な特徴を特定することを意図するものではなく、特許請求される主題の範囲を限定するために使用されるべきでもないことを理解すべきである。

本開示の多くの態様は、以下の図面に関連してより良く理解することができる。図面の構成要素は、必ずしも縮尺通りではなく、代わりに本開示の原理を明確に示すことに重点が置かれている。更に、図面において、同様の参照番号は、幾つかの図を通して対応する部分を示す。これらの図面に関連して幾つかの実施形態が説明されているが、本開示は本明細書に開示された実施形態に限定されない。それどころか、意図は、全ての代替形態、修正形態、及び均等物を網羅することである。

一実装形態におけるコンピューティングシステムを示す図である。

一実装形態におけるコンピューティングシステムの動作例を示すフロー図である。

一実装形態におけるコンピューティングシステムの管理要素を示す図である。

関連するコンピューティング機器を有するデータセンタを使用して、複数の同時ユーザ又は同時データアプリケーションの実行ジョブを処理することができる。ジョブは、データセンタのリソースを利用して、データを処理し、並びにこれらのリソースに関連するデータを一時的なストレージと長期的なストレージとの間で、又は様々なネットワーク送信先間で転送することができる。データセンタ処理リソースは、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は特定用途向け集積回路（ＡＳＩＣ）などの様々な種類のコプロセッシングユニット（ＣｏＰＵ）と共に中央処理ユニット（ＣＰＵ）を含むことができる。コプロセッシングユニットタイプの処理は、人工知能（ＡＩ）及び機械学習システムで使用するために人気が高まっている。本明細書の例では、ブレードサーバベースのデータシステムの制限は、各着信実行ジョブの必要性に従ってオンザフライでコンピューティングのグループを動的に合成することができる分散コンピューティングシステムを使用して克服することができる。本明細書では計算ユニット、計算ノード、又はベアメタルマシンと呼ばれるこれらのグループ化は、様々な実行ジョブのニーズを満たし、そのようなジョブに合わせて調整されたリソースを含むことができる。共通の筐体又はシャーシに収容されたＣＰＵ、ＣｏＰＵ、及び記憶要素間の固定配置を有する代わりに、本明細書の例は、任意の数の筐体／シャーシに及び、通信ファブリック上で論理配置に動的に形成される任意の数のＣＰＵ、ＣｏＰＵ、及び記憶要素を柔軟に含むことができる。計算ユニットは、より大きな並列性及びスループットを達成するために、多くの計算ユニット／マシンのセット又はクラスタに更にグループ化することができる。したがって、データシステムは、特定のジョブ又はジョブの特定の部分に必要とされないブレードサーバのアイドル部分又は無駄な部分を有さないことによって、リソースをより良好に利用することができる。データセンタのオペレータは、固定配置サーバを使用して達成することができるよりも高い、データセンタの非常に高い利用レベルを達成することができる。

本明細書では、通信ファブリックを介して結合される物理コンピューティング構成要素の配置の展開が提示される。コンピューティングクラスタに向けられる実行ジョブが受信される。クラスタは、少なくとも１つの「マシン」又は計算ユニットを含み、計算ユニットは、少なくとも１つのプロセッサ要素（例えば、ＣＰＵ）を含む。コンピューティングユニットはまた、ＣｏＰＵ（ＧＰＵなど）、ネットワークインタフェース要素（例えば、ＮＩＣ）、又はデータ記憶要素（例えば、ＳＳＤ）を含むことができるが、これらの要素はコンピューティングユニットに必要ではない。計算ユニット又はクラスタは、１つ以上の通信ファブリックを介して結合されたコンピューティング構成要素のプールから形成される。実行ジョブの特性に基づいて、制御システムは、ジョブに必要なリソース、並びに実行ジョブを処理するためのリソーススケジューリングを決定することができる。ジョブが実行される予定になると、制御システムは、実行ジョブを処理するための計算ユニットの合成を容易にする。計算ユニットは、コンピューティング構成要素のプールを形成するコンピューティング構成要素の中から合成される。論理分割は、計算ユニットを形成し、各計算ユニットを互いに分離するために通信ファブリック内で確立される。実行ジョブの完了に応答して、計算ユニットは、コンピューティング構成要素のプールに分解し戻される。

本明細書では、１つ以上の共有通信ファブリックを介して結合された様々な個々の物理コンピューティング構成要素について説明する。本明細書では、様々な通信ファブリックタイプを使用することができる。例えば、とりわけ３．０、４．０、又は５．０などの様々なバージョンを含み得る周辺構成要素相互接続エクスプレス（ＰＣＩｅ）ファブリックを使用することができる。ＰＣＩｅファブリックの代わりに、関連する物理層、電気シグナリング、プロトコル、及び階層化された通信スタックを有する他のポイントツーポイント通信ファブリック又は通信バスを使用することができる。これらは、とりわけ、Ｇｅｎ－Ｚ、イーサネット、ＩｎｆｉｎｉＢａｎｄ、ＮＶＭｅ、インターネットプロトコル（ＩＰ）、シリアル接続ＳＣＳＩ（ＳＡＳ）、ファイバチャネル、サンダーボルト、シリアル接続ＡＴＡエクスプレス（ＳＡＴＡＥｘｐｒｅｓｓ）、ＮＶＬｉｎｋ、アクセラレータ用キャッシュコヒーレント相互接続（ＣＣＩＸ）、計算エクスプレスリンク（ＣＸＬ）、オープン・コヒーレント・アクセラレータ・プロセッサ・インタフェース（ＯｐｅｎＣＡＰＩ）、無線イーサネット又はＷｉ－Ｆｉ（８０２．１１ｘ）、又はセルラ無線技術を含むことができる。イーサネットは、１０ＢＡＳＥ－Ｔ、１００ＢＡＳＥ－ＴＸ、１０００ＢＡＳＥ－Ｔ、１０ＧＢＡＳＥ－Ｔ（１０ＧＢイーサネット）、４０ＧＢＡＳＥ－Ｔ（４０ＧＢイーサネット）、ギガビット（ＧｂＥ）、テラビット（ＴｂＥ）、２００ＧｂＥ、４００ＧｂＥ、８００ＧｂＥ、又は他の様々な有線及び無線イーサネットフォーマット及び速度など、利用可能な様々なネットワーク通信プロトコル規格及び帯域幅のいずれかを指すことができる。セルラ無線技術は、とりわけ、４Ｇロングタームエボリューション（ＬＴＥ）、５ＧＮＲ（ＮｅｗＲａｄｉｏ）、及び関連する５Ｇ規格を含む、第３世代パートナーシッププロジェクト（３ＧＰＰ（登録商標））規格の周りに構築された様々な無線プロトコル及びネットワークを含み得る。

前述のシグナリング又はプロトコルタイプの幾つかは、ＰＣＩｅ上に構築され、したがってＰＣＩｅインタフェースに更なる機能を追加する。パラレル、シリアル、又は組み合わせたパラレル／シリアルタイプのインタフェースも、本明細書の例に適用することができる。以下の例では、例示的なファブリックタイプとしてＰＣＩｅを使用しているが、代わりに他のものを使用できることを理解されるべきである。ＰＣＩｅは、高速シリアルコンピュータ拡張バス規格であり、一般に、ホスト及び構成要素デバイス間、又はピアデバイス間のポイントツーポイント接続を有する。ＰＣＩｅは、一般に、全てのデバイスをホストとも呼ばれるルートコンプレクスに接続する個々のシリアルリンクを有する。ＰＣＩｅ通信ファブリックは、本明細書に記載の様々なスイッチング回路及び制御アーキテクチャを使用して確立することができる。

本明細書の様々なコンピューティングシステムの構成要素は、棚又はラックユニットに更に含めることができるラックマウント可能モジュールなどの１つ以上の物理的筐体に含めることができる。特定のエンドユーザの必要に応じてモジュールを挿入及び取り外しできるモジュール式フレームワークなど、物理的な筐体に多数の構成要素を挿入又は設置することができる。密閉モジュール式システムが、回路、プリント回路基板、半導体システム、及び構造要素を含む物理的支持構造体及び筐体を含むことができる。コンピューティングシステム１００などの構成要素を含むモジュールは、ラックマウント型又はラックユニット（Ｕ）タイプの筐体に挿入可能且つ取り外し可能であってもよい。図１の構成要素は、任意の物理的な取り付け環境に含めることができ、関連する筐体又はラックマウント要素を含む必要がないことを理解されたい。

第１の例示的なシステムとして、図１が提示される。図１は、ワークロードベースのハードウェア合成技法を使用するコンピューティングシステム１００を示すシステム図である。コンピューティングシステム１００は、通信ファブリック（図示せず）を介して結合された物理コンピューティング構成要素を有するコンピューティングクラスタ１０１を含む。コンピューティングシステム１００は、ジョブインタフェース１１１及びジョブキュー１１２を有する管理システム１１０を含む。コンピューティングシステム１００は、ユーザインタフェース１２１を有するワークロードマネージャ１２０を含む。管理システム１１０及びワークロードマネージャ１２０は、図１のリンク１５０などの１つ以上のネットワークリンクを介して通信することができる。

動作中、幾つかの計算ユニットエイリアス１３０、すなわち計算ユニットエイリアス１３１～１３３が管理システム１１０によって提供されるが、異なる数を提供することもできる。各計算ユニットエイリアスは、対応する計算ユニットエイリアスを含む架空のコンピューティング構成要素のセットの指示を含む。これらの架空のコンピューティング構成要素は、ジョブの実行などのためにジョブを処理するためにどの種類及び量のコンピューティング構成要素が利用可能であるかを記述する。計算ユニットエイリアス１３０は、各計算ユニットエイリアスを含む架空のコンピューティング構成要素のセットの指示と共に、ジョブインタフェース１１１を介して、１つ以上のネットワークリンク１５０を介してワークロードマネージャ１２０に提示される。この提示及び指示は、ジョブインタフェース１１１を介した管理システムによる計算ユニットエイリアスのアドバタイズメントと呼ぶことができる。

ワークロードマネージャ１２０は、ユーザインタフェース１２１を介して実行のためのジョブを開始し、又はジョブの指示を受信し、計算ユニットエイリアス１３０のいずれかによってジョブを処理するためにジョブインタフェース１１１を介して要求を転送することができる。ジョブインタフェース１１１は、他のインタフェースの中でも、ネットワークインタフェース、ユーザインタフェース、端末インタフェース、アプリケーション・プログラミング・インタフェース（ＡＰＩ）、表現状態転送（ＲＥＳＴ）インタフェース、又はＲｅｓｔＡＰＩを含むことができる。幾つかの例では、ワークロードマネージャ１２０は、システムコンピューティングクラスタ１０１による実行又は処理のためにジョブを作成、スケジュール、及び転送することができるユーザ又はオペレータ用のフロントエンド（ユーザインタフェース１２１）を確立する。これらの実行ジョブは、各ジョブの実行、操作、及び処理プロセスの性質を記述する特性を有する。例えば、ジョブは、ジョブの実行に必要なリソースを示すメタデータの付随セットを有することができ、又はジョブの実行をサポートするためにシステム／コンピューティング要件の最小セットが必要である。ジョブ要件は、構成要素タイプ、処理能力、ストレージ使用量、ジョブ完了最大時間枠、又は他の指示の仕様として示すことができる。

ジョブが管理システム１１０によって受信されると、ジョブはユニットエイリアス１３０を計算するために展開されない。代わりに、管理システム１１０は、着信ジョブの特性を処理して、ジョブをサポートするためにどの物理コンピューティング構成要素が実際に必要とされるかを決定する。次に、管理システム１１０は、ジョブを実行するために物理計算ユニットを動的に合成する。物理計算ユニット１３５などのこれらの物理コンピューティングユニットは、物理計算構成要素を結合する通信ファブリック内に構成された分割によって論理配置に結合された物理コンピューティング構成要素のセットを含む。図１の物理計算ユニット１３５に示すような物理計算ユニットはそれぞれ、幾つかのタイプの構成要素のうちの０を含む、物理コンピューティング構成要素の１つ以上のプール１６０から選択される任意の数のジョブ定義数量のＣＰＵ、ＣｏＰＵ、ＮＩＣ、ＧＰＵ、又はストレージユニットで構成することができる。ネットワークアドレス指定、ポート、ソケット、又は他のネットワーク状態情報などのネットワーク状態は、ワークロードマネージャ１２０によってジョブに対して選択された計算ユニットエイリアスから物理計算ユニット１３５に割り当てられる。これにより、ワークロードマネージャ１２０は、中断することなく、ジョブの実行、状態、及び処理のためにコンピューティングクラスタ１０１の要素と通信し続けることができる。

最初は、物理計算ユニットは、様々なジョブの実行又は処理をサポートするために形成又は確立されていない。代わりに、物理構成要素のプール１６０が確立され、計算ユニットは、実行ジョブの特定の要件に適合するように、これらのプール内の構成要素からオンザフライで形成することができる。特定の実行ジョブのための計算ユニット内に含まれる必要がある構成要素を決定するために、管理システム１１０は、実行ジョブの前述の特性を処理して、ジョブの実行又は処理をサポートするためにどのリソースが必要かを決定し、ジョブを処理するための計算ユニットを確立する。したがって、コンピューティングクラスタ１０１の総リソースは、ジョブインタフェース１１１を介して受信される様々な実行ジョブの実行をサポートするために、必要に応じて動的に細分化することができる。計算ユニットは、合成又は合成されると呼ばれる特定の時間に形成され、ジョブのソフトウェアは、ジョブの性質に従って実行／処理するために計算ユニットの要素に展開される。特定のジョブが特定の計算ユニット上で完了すると、その計算ユニットを分解することができ、それは、追加のジョブのための更なる計算ユニットの作成に使用するために物理構成要素のプール１６０に追加される個々の物理構成要素を含む。本明細書で説明するように、これらの計算ユニットを合成及び分解するために、様々な技法が使用される。

物理計算ユニットへと合成されるハードウェア又は物理構成要素に加えて、計算ユニットが合成されると、ジョブのソフトウェア構成要素が展開される。ジョブは、ユーザアプリケーション、ユーザデータセット、モデル、スクリプト、又は他のジョブ提供ソフトウェアなど、実行のために展開されるソフトウェア構成要素を含むことができる。オペレーティングシステム、仮想化システム、ハイパーバイザ、デバイスドライバ、ブートストラップソフトウェア、ＢＩＯＳ要素及び構成、状態情報、又は他のソフトウェア構成要素などの他のソフトウェアが管理システム１１０によって提供されてもよい。例えば、管理システム１１０は、特定のジョブの実行をサポートするために、Ｌｉｎｕｘ（登録商標）のバージョンなどの特定のオペレーティングシステムを合成計算ユニットに展開すべきであると決定することができる。オペレーティングシステムの種類又はバージョンの表示は、着信ジョブに付随する特性に含まれてもよく、又はジョブの他のメタデータに含まれてもよい。オペレーティングシステムイメージの形態のオペレーティングシステムは、合成計算ユニットに含まれるデータ記憶要素に、計算ユニットの他の物理コンピューティング構成要素をサポートするために必要なデバイスドライバと共に展開することができる。ジョブは、データ処理を実行する１つ以上のアプリケーションと共に、計算ユニットによって処理される１つ以上のデータセットを含むことができる。利用レベル、完全性レベルを示すジョブ実行状態、ウォッチドッグモニタ、又は他の要素など、様々な監視又はテレメトリ構成要素を展開して、計算ユニットのアクティビティを監視することができる。他の例では、利用可能なアプリケーション及びオペレーティングシステムのカタログをコンピューティングクラスタ１０１によって提供することができ、コンピューティングクラスタは、関連する計算ユニットに含めるためにジョブによって選択することができる。最後に、ハードウェア及びソフトウェア構成要素が合成／展開されて計算ユニットを形成すると、ジョブは計算ユニット上で実行することができる。

計算ユニットを合成するために、管理システム１１０は、物理コンピューティング構成要素を結合する通信ファブリックの要素を制御するためのコマンド又は制御命令を発行する。これらの物理コンピューティング構成要素は、任意の数の別個の任意に定義された配置（計算ユニット）に論理的に分離することができる。通信ファブリックは、異なる計算ユニット間の論理的分離を維持しながら、特定の計算ユニットの構成要素間でトラフィックを選択的にルーティングするように管理システム１１０によって構成することができる。このようにして、コンピューティングクラスタ１０１の物理構成要素間で柔軟な「ベアメタル」構成を確立することができる。個々の計算ユニットは、計算ユニットのコンピューティング、ストレージ、ネットワーク、又はグラフィックス処理リソースを利用することができる外部ユーザ又はクライアントマシンに関連付けることができる。更に、より大きな並列性及び容量のために、任意の数の計算ユニットを計算ユニットの「クラスタ」にグループ化することができる。明確にするために図１には示されていないが、様々な電源モジュール並びに関連する電力及び制御分配リンクもまた、構成要素のそれぞれに含まれ得る。

通信ファブリックの一例では、ＰＣＩｅファブリックが採用される。ＰＣＩｅファブリックは、ＰＣＩｅクロスポイントスイッチと称され得る複数のＰＣＩｅスイッチ回路から形成される。ＰＣＩｅスイッチ回路は、少なくとも各ＰＣＩｅリンクによって搬送されるトラフィックに基づいて、様々なＰＣＩｅリンクを論理的に相互接続するように構成することができる。これらの例では、オペレータ定義のグループに従ってＰＣＩｅスイッチのＰＣＩｅポートの分離を可能にするドメインベースのＰＣＩｅシグナリング配信を含めることができる。オペレータ定義グループは、管理システム１１０によって管理することができ、管理システムは、構成要素を関連する計算ユニットに論理的に組み立て、異なる計算ユニットの構成要素を論理的に分離する。管理システム１１０は、ＰＣＩｅファブリックに結合されたファブリックインタフェースを介してＰＣＩｅスイッチ回路を制御し、ＰＣＩｅポート間の論理分割又は分離を変更し、したがって物理構成要素のグループ化の合成を変更することができる。ドメインベースの分離に加えて、又は代替として、各ＰＣＩｅスイッチポートは、非透過（ＮＴ）ポート又は透過ポートとすることができる。ＮＴポートは、ブリッジのようにエンドポイント間の何らかの論理的分離を可能にすることができるが、透過ポートは論理的分離を可能にせず、純粋に切り替えられた構成でエンドポイントを接続する効果を有する。１つ以上のＮＴポートを介したアクセスは、特定のＮＴポートを選択するため、又はＮＴポートを介した可視性を可能にするために、ＰＣＩｅスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。好適には、このドメインベースの分離（ＮＴポートベースの分離）は、物理的構成要素（すなわち、ＣＰＵ、ＣｏＰＵ、ストレージユニット、ＮＩＣ）を共有ファブリック又は共通ファブリックに結合することを可能にするが、計算ユニットへの分離／分割を介して含まれる構成要素に対する可視性のみを有することができる。したがって、ＰＣＩｅファブリック間の論理分割を用いて、複数の物理構成要素間のグループ化を実現することができる。この分割は本質的にスケーラブルであり、管理システム１１０又は他の制御要素によって必要に応じて動的に変更することができる。

図１の要素の説明に戻ると、管理システム１１０は、１つ以上のマイクロプロセッサと、関連するストレージシステム（図示せず）からジョブインタフェース１１１及びファブリック管理ソフトウェアなどのソフトウェアを検索及び実行する他の処理回路とを備えることができる。管理システム１１０は、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイス又はサブシステムにわたって分散させることもできる。管理システム１１０の例は、汎用中央処理ユニット、特定用途向けプロセッサ、及び論理デバイス、並びに任意の他の種類の処理デバイス、それらの組み合わせ、又は変形を含む。幾つかの例では、管理システム１１０は、Ｉｎｔｅｌ（登録商標）マイクロプロセッサ、Ａｐｐｌｅ（登録商標）マイクロプロセッサ、ＡＭＤ（登録商標）マイクロプロセッサ、ＡＲＭ（登録商標）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向けプロセッサ、又は他のマイクロプロセッサもしくは処理要素を含む。管理システム１１０は、ジョブインタフェース１１１を含むか、又は提供する。これらの要素は、管理システム１１０のプロセッサ要素によって実行される様々なソフトウェア構成要素を含むことができ、或いは代わりに回路を含むことができる。

図１では、管理システム１１０は、ファブリックインタフェースを含む。ファブリックインタフェースは、管理システム１１０と、１つ以上のＰＣＩｅリンクを含み得る関連する通信ファブリックに結合された任意の構成要素との間の通信リンクを含む。幾つかの例では、ファブリックインタフェースは、ＰＣＩｅリンク又は他のリンクを介して転送されるイーサネットトラフィックを使用することができる。更に、図１の計算ユニットに含まれる各ＣＰＵは、ＰＣＩｅリンクを介して伝送されるイーサネット通信をもたらすことができるドライバ又はエミュレーションソフトウェアで構成することができる。したがって、プール１６０のＣＰＵのいずれか（計算ユニットに展開されると）及び管理システム１１０は、ＰＣＩｅファブリックを介して転送されるイーサネットにわたって通信することができる。しかしながら、実装はＰＣＩｅ上のイーサネットに限定されず、ＰＣＩｅインタフェース上のＰＣＩｅトラフィックを含む他の通信インタフェースが使用されてもよい。

図２は、図１の要素の例示的な動作を示すために含まれる。動作２０１において、管理システム１１０のジョブインタフェース１１１は、ワークロードマネージャ１２０によって監視されるリンク１５０を介して計算ユニットエイリアスをアドバタイズする。図１に計算ユニットエイリアス１３１～１３３として示されているこれらの計算ユニットエイリアスは、コンピューティング構成要素の所定のセットを含む。計算ユニットエイリアス１３１は、任意の数のＣＰＵ、ＮＩＣ、ＧＰＵ、ＣｏＰＵ、ストレージユニット、又は他の構成要素を含むことができるコンピューティング構成要素の一例の集合を示す。幾つかの例示的な計算ユニットエイリアスは、物理構成要素に対応する構成要素のセットを有することができるが、本明細書の例は、架空の構成要素のセットを有する計算ユニットエイリアスを提示するオプションも有する。すなわち、ジョブの物理的配置、物理量、又は現在の可用性に対応しないコンピューティング構成要素のセットである。したがって、計算ユニットエイリアスは、管理システム１１０によってアドバタイズされ、実行のためにジョブを受け入れるために利用可能なプレースホルダエンティティを含むことができる。図１は、１つのそのようなジョブ１４０を示しており、これは、ユーザインタフェース１２１を引き継ぐジョブ要求に応答してワークロードマネージャ１２０によって開始される。管理システム１１０によってジョブがディスパッチされると、計算ユニットエイリアスはジョブを実行するために使用されず、代わりに物理計算ユニットは、ジョブに対応するためにオンザフライで合成される。このようにして、計算ユニットエイリアスは、本明細書に示す分散コンピューティングクラスタなどにおけるジョブの開始及び処理に関してより柔軟性を可能にする。

幾つかの例では、計算ユニットエイリアス１３１～１３３は架空であるだけでなく、オーバープロビジョニングされている。オーバープロビジョニングとは、コンピューティングクラスタ１０１におけるジョブ実行のために現在利用可能であり得るコンピューティング構成要素の量が多いこと、又は可用性が高いことを指す。幾つかの例では、全ての計算ユニットエイリアスは、現在の可用性又は物理的存在に関係なく、ジョブを処理するために利用可能であるとして、計算クラスタ１０１の物理コンピューティング構成要素の量全体を提示する。したがって、計算ユニットエイリアスは、架空の数のコンピューティング構成要素を提示する。コンピューティングクラスタ１０１の分解されたファブリック結合特性に部分的に起因して、物理的に存在するコンピューティング構成要素の迅速かつ動的な再構成が行われる可能性があり、これにより、ワークロードマネージャ１２０の観点から認識される構成要素のより高い容量又は量が可能になる。コンピューティングクラスタ１０１のユーザ又はオペレータは、オーバープロビジョニングの指示を受信して（２１１）、コンピューティングクラスタ１０１及び計算ユニットエイリアスのオーバープロビジョニングを有効又は無効にすることができる。この指示はまた、任意の所与の時間の物理的に存在する量のコンピューティング構成要素又はデータ処理能力を超える固定又は動的マージンなどの、計算ユニットエイリアスをオーバープロビジョニングする割合又は量を示すことができる。それに応答して、管理システム１１０は、示された量のオーバープロビジョニングに基づいて計算ユニットエイリアスを形成することができ（２１２）、これらのオーバープロビジョニングされた計算ユニットエイリアスは、ジョブインタフェース１１１を介してワークロードマネージャ１２０にアドバタイズすることができる。

ワークロードマネージャ１２０が起動してジョブを処理するための動作を開始した後、リンク１５０を介して様々なジョブをジョブインタフェース１１１に転送することができる。具体的には、計算ユニットエイリアス１３１～１３３は、ジョブを受け付けることができ、コンピューティング構成要素の対応するセットを含むものとして、ジョブインタフェース１１１を介してアドバタイズされ又は提示される。ワークロードマネージャ１２０は、特定のジョブを処理するために計算ユニットエイリアス１３１～１３３のうちの１つ以上を選択し、それらのジョブの指示を、計算ユニットエイリアス１３１～１３３のうちのどれがジョブを処理すべきかの指示と共に転送することができる。更に、ジョブ指示は、他の量の中でもＣＰＵ、ＧＰＵ、記憶ユニット、又はＮＩＣの量など、ジョブを処理するために必要なリソースの量又はセットを含むことができ、これらは、構成要素の量に対応する粒度単位で、又は代わりにジョブの最小性能要件として示され得る。これらの最小性能要件は、他の指定の中でも、必要とされるＣＰＵ処理能力（コアの数又は毎秒の動作などの処理能力の様々な単位）、記憶空間（バイト単位）、通信帯域幅におけるＮＩＣ容量、及びＧＰＵ容量（毎秒の動作における）を含むことができる。計算ユニットエイリアス１３１～１３３のそれぞれはまた、ネットワークアドレス指定、ネットワークポート、ネットワークソケット、又はジョブ要求内のワークロードマネージャ１２０によって示され、ジョブを開始し、ジョブの実行又は処理に関する状態を取得し、ジョブに関連する結果データ又は完了状態を受信するためにワークロードマネージャ１２０によって使用される他のネットワーク識別子によって示される関連するネットワーク状態を有する。

動作２０２において、管理システム１１０のジョブインタフェース１１１は、コンピューティングクラスタ１０１の計算ユニットエイリアス１３１～１３３をターゲットとする実行ジョブを受信する。前述したように、管理システム１１０は、ジョブ要求に含まれるジョブ特性を解析して、ジョブを実行するために必要な計算リソースを決定する。動作２０３において、管理システム１１０は、次に、計算ユニット合成スケジューリング情報と共にジョブキュー１１２にジョブを追加することができる。ジョブの特性に基づいて、管理システム１１０は、ジョブを処理するためのリソーススケジューリングを決定し、リソーススケジューリングは、コンピューティングクラスタ１０１のリソースの時間的割り当てを示す。リソーススケジューリングは、ジョブの識別子、各ジョブを実行するのに必要なコンピューティング構成要素のセットの表示、計算ユニットの合成及び分解を開始する時間枠、並びに計算ユニット上で実行されてジョブを実行する計算ユニットに展開するソフトウェアの表示に関する１つ以上のデータ構造を含むことができる。

図１では、一例の実行ジョブ１４０が強調表示されている。ジョブ１４０が受信されると、ジョブ１４０の特性が管理システム１１０によって解析されて、ジョブ１４０を実行するためにどの物理コンピューティング構成要素が必要とされるかが決定される。物理コンピューティング構成要素は、ジョブ１４０をサポートするためにプール１６０から選択されるＣＰＵ、ＣｏＰＵ、ストレージユニット、及びＮＩＣを含むことができる。選択されたコンピューティング構成要素は、物理計算ユニット１３５に合成される。この合成プロセスは、ジョブ１４０のコンピューティングクラスタ１０１のリソースのスケジュール又は時間的割り当てに対応することができる。同様に、ジョブインタフェース１１１によって受信された他のジョブは、ジョブの特性に基づいてプール１６０から割り当てられた異なる物理コンピューティング構成要素のセットを有することができる。物理計算ユニットは、同じコンピューティング構成要素を使用することができるが、スケジュールされた時間は異なる。様々なジョブにわたる同じ物理コンピューティング構成要素のこの再使用は、着信ジョブ、ジョブ完了状態、及びジョブ性能要件に応じた物理コンピューティング装置の動的合成、分解、及び再合成によって部分的に可能になる。好適には、ジョブが異なる物理計算ユニット上でスケジュールされ実行されると、計算ユニットエイリアス１３１～１３３は一定のままであり、したがって、経時的に一貫した計算ユニットのセットをワークロードマネージャ１２０に提示する。以下で説明するように、様々なハンドシェイク及び遷移が容易になり、架空の計算ユニットエイリアス１３１～１３３のいずれかに対してワークロードマネージャ１２０によってディスパッチされたジョブを、オンザフライで合成及び分解された物理計算ユニットに実際に展開することができる。

動作２０５において、管理システム１１０は、キュー１１２に示されたスケジュール及び特性に従ってジョブをサポートするために計算ユニットを合成する。管理システム１１０は、実行ジョブを処理するためにプール１６０の中から選択された物理コンピューティング構成要素のセットを含む計算ユニットを合成するようにプール１６０に関連付けられた通信ファブリックに少なくとも命令することによって、リソーススケジューリングに従ってコンピューティングクラスタ１０１上の実行ジョブを開始する。計算ユニットを合成するように通信ファブリックに命令することは、物理コンピューティング構成要素セットを通信可能に結合する通信ファブリック内に論理分離を形成するように通信ファブリックに命令することを含む。論理分離はそれぞれ、各セット内の物理コンピューティング構成要素が、対応する論理分離内でのみ通信ファブリックを介して通信することを可能にする。管理システム１１０は、各物理計算ユニットが形成されると、ジョブを実行するためにソフトウェア構成要素を計算ユニットに展開するための通信ファブリックを制御する。次に、動作２０７において、合成計算ユニットは、合成計算ユニット上で対応するジョブを実行する。

しかしながら、前述したように、ワークロードマネージャ１２０は、物理計算ユニットに直接ではなく、計算ユニットエイリアス１３１～１３３にジョブを展開する。ジョブが物理計算ユニット１３５などの物理計算ユニットによって展開され実行される前に、ネットワーク状態は、ジョブについてワークロードマネージャ１２０によって示される特定の計算ユニットエイリアスから物理計算ユニットに転送される（動作２０６）。ネットワーク状態は、様々なネットワークアドレス指定及び関連情報を含むことができる。一例では、メディアアクセス制御アドレス（ＭＡＣアドレス）は計算ユニットエイリアス１３１に対応し、異なるＭＡＣアドレスは物理計算ユニット１３５のネットワークインタフェースに対応する。計算ユニットエイリアス１３１のＭＡＣアドレスは、ワークロードマネージャ１２０に提示されるＩＰアドレスなどの他のネットワークアドレス指定と関連付けられる。物理計算ユニット１３５は、オンザフライで合成され、１つ以上のＮＩＣを含むことができるので、物理計算ユニット１３５のＮＩＣのＭＡＣアドレスは動作２１３で決定される。次に、再構成プロセスが使用されて、どのＭＡＣアドレスが計算ユニットエイリアス１３１に関連付けられたネットワークアドレス指定に対応するかが変更される。具体的には、動作２１４において、計算ユニットエイリアス１３１のＩＰアドレスを物理計算ユニット１３５のＮＩＣのＭＡＣアドレス（例えば、イーサネットアドレス）に関連付けるために、アドレス解決プロトコル（ＡＲＰ）再構成又は再ブロードキャストプロセスが実行される。これは、計算ユニットエイリアス１３１のネットワーク状態を物理計算ユニット１３５に割り当てる効果を有する。ここで、ワークロードマネージャ１２０は、以前と同じＩＰアドレス、ソケット、又はポートを使用して通信し続けることができるが、代わりに、通信を計算ユニットエイリアス１３１の代わりに物理計算ユニット１３５に対応させることができる。物理計算ユニット１３５への移行中のワークロードマネージャ１２０と計算ユニットエイリアス１３１との間の通信の中断は、ＴＣＰ／ＩＰのフロー制御及びエラー訂正機能によって処理される。

物理計算ユニット１３５の合成後にネットワーク状態が転送されると、対応するジョブを物理計算ユニット１３５によって実行することができる。ジョブの展開、実行、又は完了に関して、様々な状態をワークロードマネージャ１２０に提供することができる。この状態は、ワークロードマネージャ１２０への配信のために関連するネットワーク状態（すなわち、ネットワークアドレス指定）を使用して物理計算ユニット１３５によって提供することができ、ワークロードマネージャ１２０は、そのようなネットワーク状態を使用して物理計算ユニット１３５と通信することができる。このネットワーク状態は、図１の要素１４２としてワークロードマネージャ１２０に示すことができる。

最後に、実行ジョブが完了すると、動作２０８において、管理システム１１０は、物理計算ユニット１３５のリソースをプール１６０に分解し戻す。分解の前に、ジョブからの様々な結果をワークロードマネージャ１２０に転送することができる。これらの結果は、処理されたデータセット、完了時の状態、又は実行、処理、操作、もしくは物理計算ユニット１３５に展開された他のデータを含むことができる。分解を実行するために、管理システム１１０は、通信ファブリックに、計算ユニットのコンピューティング構成要素が追加の物理計算ユニットへの合成に利用可能になるように、物理計算ユニットの対応する論理分離を除去するべく命令する。分解の一部として、物理計算ユニット１３５に転送されたネットワーク状態は、計算ユニットエイリアス１３１に戻される。ネットワーク状態のこの復帰は、ジョブに使用され、物理計算ユニット１３５に元々転送されたＩＰアドレスに関連付けられる計算ユニットエイリアス１３１のＭＡＣアドレスを変更することを含むことができる。ＡＲＰ再構成又は再ブロードキャストプロセス（動作２１５）は、計算ユニットエイリアス１３１のＭＡＣアドレス又はイーサネットアドレスの変更に対応するように、ＭＡＣアドレス又はイーサネットアドレスのこの変更を実行することができる。

図２及び本明細書の他の例の動作は、計算ユニットのエイリアシング及び物理計算ユニットへのネットワーク状態転送と共に、計算ユニットの合成及び分解のジョブベースの開始を説明する。したがって、実行ジョブの開始及び関連するジョブ特性は、ジョブを実行する物理計算ユニットの作成及びエイリアスされた計算ユニットから物理計算ユニットへのネットワーク状態の転送をトリガすることができる。

物理計算ユニットを修正又は変更するために、別々に、又は前述のジョブに基づく合成と組み合わせて、様々なトリガを使用することができる。第１のトリガでは、イベントベースのトリガが採用される。これらのイベントベースのトリガは、ジョブ又はジョブを含む作業ユニットをサポートするために、計算ユニットを変更もしくは修正するか、又は更なる計算ユニットを追加することができる。ジョブによって示される動的イベント又はパターンの管理システム１１０による観測に基づいて、管理システム１１０は、それに割り当てられた計算ユニット及びリソースの構成に対する変更を開始することができる。そのようなイベント又はパターンの例には、プロセスの観測されたリソース不足、機能によって識別される特定の文字列、インテリジェントインフラストラクチャアルゴリズムによって識別される特定の信号、又は管理システム１１０によって監視することができる他の要因が含まれる。実行中のジョブのテレメトリ又は実行前もしくは実行中のジョブの特性の解析は、管理システム１１０に、計算ユニットの動的変更を開始するように通知することができる。したがって、管理システム１１０は、イベント又はパターンに従って計算ユニットのリソース（例えば、物理コンピューティング構成要素）を追加又は削除するために計算ユニットの合成を変更することができる。好適には、各ジョブの現在のリソースニーズをサポートするために計算ユニットをより良好に最適化することができ、現在のジョブによって不要になったとき、又は他の将来のジョブによる使用のためにリソースをプールにインテリジェントに戻すことができる。

別の代替トリガは、機械学習タイプのアルゴリズム又はユーザ定義の時間枠に基づく時間トリガを含む。この例では、特定の種類のジョブが特定の種類の挙動を示すように、合成計算ユニットのパターン又は挙動を経時的に決定又は学習することができる。これらの挙動に基づいて、計算ユニットへの変更を動的に行い、ワークロードパターンをサポートすることができる。例えば、管理システム１１０は、特定の種類のジョブの実行の特定の段階において、より多くの／より少ないストレージリソースが必要であるか、又はより多くの／より少ないコプロセッシングリソースが必要であると決定することができる。管理システム１１０は、追加又は除去又はリソースを含むことができる計算ユニットの合成を予測的又は先制的に変更して、作業ユニットがジョブによって実行されている状態で計算ユニットに割り当てられた現在のリソースをより良好に最適化することができる。時間特性は、明示的なユーザ入力に基づいて、又は機械学習プロセスに基づいて管理システム１１０によって決定され、計算ユニットからリソースを追加又は削除する時間枠を決定することができる。管理システム１１０は、どのリソース変更が必要であるか、及びこれらの変更が現在及び将来のジョブニーズをサポートするためにいつ必要とされるかを決定することができるリソーススケジューラ要素を含むことができる。本明細書で説明する計算ユニットへの変更は、幾つかの例では、特定の物理構成要素又はリソースを追加又は削除するときなどに、計算ユニット及び関連するオペレーティングシステムの再合成及び再起動を必要とする場合がある。しかしながら、ストレージ又はネットワークインタフェースリソースの追加／削除などの他の変更は、特定の計算ユニットを再起動又は再合成することなくオンザフライで達成され得る。

図３は、着信ジョブを処理する計算ユニットを展開するための更なる技術及び構造を示す。図３は、コンピューティングクラスタ３０１、管理コントローラ３１０、及びワークロードマネージャ３２０を含むシステム３００を含む。管理コントローラ３１０は、コンピューティングクラスタ３０１の動作及び構成を制御及び管理し、ネットワークリンクを介して提示される１つ以上のＡＰＩスタイルのインタフェースを介して複数の架空のターゲット又はターゲットエイリアス（３３０）をワークロードマネージャ３２０に提示する。動作中、管理コントローラ３１０は、コンピューティングクラスタ３０１の要素による処理又は実行のためのジョブを受信し、ジョブの要件を解釈し、物理コンピューティング構成要素の様々なプールの中からジョブを処理するための計算ユニットを動的に合成する。以下に説明するように、ジョブは、オーバープロビジョニングされた構成要素のセットを含む、図３のターゲット３３１～３３３として示される架空のターゲット又はターゲットエイリアスをターゲットとする。対照的に、構成要素の物理プールは、セットが実際のハードウェアを含むため、計算ユニット又は物理計算ユニットと呼ばれる様々なグループ又はセットに再構成することができる実際のハードウェアを含む。図３は、コンピューティングクラスタ３０１内の幾つかのプール、すなわちＣＰＵプール３４１、ＣｏＰＵプール３４２、ストレージプール３４３、及びＮＩＣプール３４４を示す。各プール内の全ての構成要素は、ファブリック３４０などの共通の通信ファブリックを介して通信可能に結合される。ファブリック３４０は、ＰＣＩｅなどの本明細書で説明する通信ファブリックタイプのいずれかを含む。管理コントローラ３１０は、ファブリック３４０内の論理分離及び区分を再構成することによって計算ユニットを形成するために、ファブリック３４０のスイッチング素子とインタフェースすることができる。

管理コントローラ３１０は、表現状態転送（ＲＥＳＴ）インタフェース規格などの各種インタフェース規格に準拠したアプリケーション・プログラミング・インタフェース（ＡＰＩ）を採用する。ＲＥＳＴアーキテクチャ制約に従うＡＰＩは、ＲＥＳＴｆｕｌＡＰＩと呼ばれる。したがって、管理コントローラ３１０は、ワークロードマネージャ３２０（又は任意の他のワークロード管理もしくはオーケストレーションソフトウェアエンティティ）と管理コントローラ３１０によって管理されるコンピューティングクラスタ３０１の要素との間の通信のための定義及びプロトコルを標準化するＲｅｓｔＡＰＩとも呼ばれるＲＥＳＴｆｕｌＡＰＩを含む１つ以上のインタフェースを提示することができる。このＡＰＩの一部として、管理コントローラ３１０は、実行又は他のデータ処理のためにジョブを受信することができる様々なターゲットを識別するワークロードマネージャ３２０に１つ以上の構成ファイルを提供する。起動時に、ワークロードマネージャ３２０は、これらの構成ファイルを読み取り、各ターゲットに関連するネットワークアドレス指定とともに、どのターゲットが利用可能であるか、及び各ターゲットがどのリソースを利用可能であるかを決定することができる。

図３では、３つの例示的なターゲット、すなわちターゲット３３１～３３３がワークロードマネージャ３２０に提示されている。これらのターゲットのそれぞれは、ジョブを処理することができるコンピューティング構成要素のセットを示し、ワークロードマネージャ３２０は、必要に応じて個々のジョブを処理するために個々のターゲットを選択することができる。しかしながら、本明細書で説明するように、これらのターゲット３３１～３３３は、架空の又は偽装されたエイリアスであり、コンピューティングクラスタ３０１の実際のハードウェアに対応しない。したがって、より柔軟な構成及び数量のコンピューティング構成要素を各ターゲットに含めることができる。そのような配置の１つは、コンピューティングクラスタ３０１内で物理的に利用可能なより多くの構成要素を有するようにこれらのターゲットをオーバープロビジョニングすることである。この物理的な可用性は、物理的なモジュール式シャーシ及びラックマウントシステム内のコンピューティング構成要素の存在に関連することができ、又はワークロード（すなわち、アイドル）を受け入れるための現在の可用性に関連することができる。したがって、ターゲット３３１～３３３は、より多くのコンピューティング構成要素をワークロードマネージャ３２０に示し、コンピューティングクラスタ３０１の物理構成要素をワークロードマネージャ３２０に抽象化する。このオーバープロビジョニングは、一部には、物理構成要素が期待されるよりも大きな容量を有するように見えるべくオンザフライで合成及び分解され得る速度のために可能にされる。管理コントローラ３１０は、物理コンピューティング構成要素間の論理関係を任意に組み立て及び分解することができるので、計算ユニットは、ターゲット３３１～３３３に発行される大量の同時ジョブを処理することができる。オーバープロビジョニングの量は、帯域幅、処理容量、又は物理構成要素の粒度インスタンスに関するオーバープロビジョニングの比率、割合、又は絶対値など、ユーザ又はオペレータが指定することができる。例えば、計算クラスタ３０１内で物理的に利用可能なコンピューティング構成要素よりも２０％多い計算構成要素を有するものとして各ターゲット３３１～３３３を提示する２０％オーバープロビジョニングが指定されてもよい。オーバープロビジョニングは、全てのタイプの構成要素に適用することができ、或いは代わりにＣＰＵ又はＧＰＵなどの特定の構成要素のみに関連してもよい。

架空のターゲット３３１～３３３の１つの利点は、ターゲットの特性が変化したときに特定のワークロードマネージャがその場で再構成することができない（すなわち、再起動／再起動なし）ことである。したがって、管理コントローラ３１０は、ワークロードマネージャ３２０を再起動する必要がないように、全てのターゲットに対してコンピューティングクラスタ３０１で利用可能なコンピューティング構成要素の最大数又はオーバープロビジョニング数を提示することができる。ワークロードマネージャ３２０は、任意の所与の時間に任意の及び全てのターゲット３３１～３３３に対してコンピューティングクラスタ３０１の任意の又は全ての構成要素を使用することができ、ジョブをサポートするために必要に応じて物理計算ユニットが合成及び分解される場合でも、ワークロードマネージャ３２０の再起動は必要とされない。オーバープロビジョニングの態様は、ターゲットに展開されたジョブのより多くの同時実行性を可能にし、物理構成要素のオーケストレーションの負担を管理コントローラ３１０にシフトさせる。ワークロードマネージャ３１０は、必要に応じてターゲット３３１～３３３にジョブを盲目的にディスパッチすることができ、管理コントローラ３１０は、物理ハードウェア上での実行の詳細を処理することができる。更に、ワークロードマネージャ３２０によって開始された任意のジョブは、ハードウェア構成要素が他のジョブによって現在使用されている場合であっても、各ターゲット３３１～３３３を有するコンピューティングクラスタ３０１のフル（又はオーバープロビジョニングされた）リソースにアクセスすることができる。ビジー／アイドル状態に関するターゲット３３１～３３３への状態問い合わせは、常にアイドル状態のターゲットを提示し、利用可能な物理ターゲットの錯覚をワークロードマネージャ３２０に維持するために、管理コントローラ３１０によって回答することができる。管理コントローラ３１０は、これを、ターゲット３３１～３３３のそれぞれに対するネットワーク状態のスプーフィング又はネットワークアドレス指定を使用して行う。

ターゲット３３１～３３３のそれぞれは、他のネットワーク特性の中でも、ＩＰアドレス及びネットワークポートによって定義されるネットワークソケットなど、それに関連付けられた対応するネットワーク状態を有する。ワークロードマネージャ３２０がターゲットと通信することを望む場合、ワークロードマネージャ３２０は、各ターゲットに関連付けられたネットワークソケットにトラフィックをディスパッチする。図３に示すように、ターゲット３３１はネットワークソケット「Ａ」を有し、ターゲット３３２はネットワークソケット「Ｂ」を有し、ターゲット３３３はネットワークソケット「Ｃ」を有し、そのそれぞれは一意的なＩＰアドレスを含む。最初に、ターゲット３３１～３３３のＩＰアドレスはまた、ターゲットに固有のＭＡＣアドレス指定又はイーサネットアドレス指定に関連付けられる。しかしながら、これらのＩＰアドレスは、架空の主体としてターゲット物３３１～３３３を提示している管理コントローラ３１０にトラフィックをルーティングする。

管理コントローラ３１０によって受信された個々のターゲットに向けられたジョブに応答して、管理コントローラ３１０は、ジョブをキューに入れ、架空のターゲット３３１～３３３の代わりに完了のために実際の物理ハードウェアにディスパッチすることができる。この例では、管理コントローラ３１０は、ＲｅｓｔＡＰＩを介してジョブ要求を受信し、ジョブ要求を解釈してジョブをサポートするために必要なハードウェアを決定し、ジョブを処理するためにマシン又は計算ユニットを合成する。最初のジョブの場合、管理コントローラ３１０は、ＣＰＵ３５１、ＮＩＣ３５２、ＧＰＵ３５３、及び記憶装置３５４などの物理コンピューティング構成要素のセットを含む物理コンピューティング装置３５０を合成する。第２のジョブの場合、管理コントローラ３１０は、ＣＰＵ３６１、ＮＩＣ３６２、ＧＰＵ３６３、及び記憶ユニット３６４などの物理コンピューティング構成要素のセットを含む物理計算ユニット３６０を合成する。更に、ネットワーク状態は、ジョブの実行及び完了中にワークロードマネージャ３２０が物理計算ユニットと通信できるように、架空のターゲットのそれぞれから物理計算ユニットに転送される。図３では、これは、ターゲットのＩＰアドレス指定とターゲットのＭＡＣアドレス指定との間に確立される関係の変化として示されており、代わりに物理計算ユニットに関連付けられたＭＡＣアドレス指定に対応する（合成された時点で）。これは、ＡＲＰ再構成又は再ブロードキャストプロセスなどの様々な方法で達成することができる。したがって、ワークロードマネージャ３２０は、物理計算ユニットがジョブを処理するためにディスパッチされると、ジョブ要求に使用されるのと同じネットワークソケットを依然として使用する。ここから、ジョブは、物理計算ユニットに含まれるハードウェアによって実行又は処理される。ジョブ実行は、データ処理動作、機械学習プロセス、データ記憶動作、データ転送動作、データ変換動作、グラフィックスレンダリング動作、又は含まれるハードウェアによって処理することができる任意の他のデータもしくは処理動作を含むことができる。データ、状態、及び他の情報は、ジョブの実行中にワークロードマネージャ３２０と物理計算ユニットとの間で転送することができる。ジョブの完了後、物理計算ユニットは、計算クラスタ３０１の様々なプールに分解し戻される。この分解は、管理コントローラ３１０が、ハードウェア構成要素間のファブリック３４０内の様々な分割又は論理的関連付けを除去し、各ハードウェア構成要素の状態を更なる計算ユニットへの合成に利用可能であるものとしてロギングすることによって行われる。

前述したように、コンピューティングクラスタ３０１の構成要素は、通信ファブリック３４０、ＣＰＵ、ＣｏＰＵ、及び記憶装置を含む。ＮＩＣ、ＦＰＧＡ、ＲＡＭ、又はプログラマブルリードオンリメモリ（ＰＲＯＭ）デバイスなどの他の様々なデバイスを含めることができる。ＣＰＵプール３４１のＣＰＵはそれぞれ、マイクロプロセッサ、システム・オン・チップ・デバイス、又は関連するストレージシステムからユーザアプリケーションなどのソフトウェアを検索及び実行する他の処理回路を備える。各ＣＰＵは、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイス又はサブシステムにわたって分散させることもできる。各ＣＰＵの例は、汎用中央処理ユニット、特定用途向けプロセッサ、及び論理デバイス、並びに任意の他の種類の処理デバイス、それらの組み合わせ、又は変形を含む。幾つかの例では、各ＣＰＵは、Ｉｎｔｅｌ（登録商標）、ＡＭＤ（登録商標）、Ａｐｐｌｅ（登録商標）、又はＡＲＭ（登録商標）マイクロプロセッサ、グラフィックスコア、計算コア、ＡＳＩＣ、ＦＰＧＡ部分、又は他のマイクロプロセッサもしくは処理要素を含む。各ＣＰＵは、ＣＰＵを通信ファブリック３４０のスイッチ要素に結合するＰＣＩｅなどの１つ以上のファブリック通信インタフェースを含む。ＣＰＵは、ルートコンプレクスを有しても有しなくてもよいＰＣＩｅエンドポイントデバイス又はＰＣＩｅホストデバイスを備えてもよい。

ＣｏＰＵプール３４２のＣｏＰＵはそれぞれ、データセットの特殊な処理のためのコプロセッシング要素を備える。例えば、ＣｏＰＵプール３４２は、１つ以上の計算ユニットに割り当てることができるグラフィックス処理リソースを備えることができる。ＧＰＵは、グラフィックスプロセッサ、シェーダ、ピクセルレンダリング要素、フレームバッファ、テクスチャマッパ、グラフィックスコア、グラフィックスパイプライン、グラフィックスメモリ、又は他のグラフィックス処理及び処理要素を含むことができる。幾つかの例では、各ＧＰＵは、ＧＰＵチップをサポートする回路を備えるグラフィックス「カード」を備える。例示的なＧＰＵカードは、様々なサポート回路、コネクタ、及び他の要素と共にグラフィックス処理要素を含むｎＶＩＤＩＡ（登録商標）又はＡＭＤ（登録商標）グラフィックスカードを含む。更なる例では、機械学習処理ユニット、テンソル処理ユニット（ＴＰＵ）、ＦＰＧＡ、ＡＳＩＣ、又は他の専用プロセッサなど、他のスタイルのコプロセッシングユニット又はコプロセッシングアセンブリを使用することができる。

ストレージプール３４３のストレージユニットはそれぞれ、関連する筐体及び回路と共に、ソリッドステートストレージドライブ（ＳＳＤ）又は磁気ハードディスクドライブ（ＨＤＤ）などの１つ以上のデータストレージドライブを備える。各記憶ユニットはまた、ファブリックインタフェース（ＰＣＩｅインタフェースなど）、制御プロセッサ、及び電力システム要素を含む。更に他の例では、各記憶装置は、関連する筐体及び回路と共に、１つ以上の別個のデータ記憶装置のアレイを備える。幾つかの例では、記憶装置を形成するために、ファブリックインタフェース回路がストレージドライブに追加される。具体的には、ストレージドライブは、ＳＡＳ、ＳＡＴＡＥｘｐｒｅｓｓ、ＮＶＭｅ、又は他のストレージインタフェースなどのストレージインタフェースを備えることができ、ストレージインタフェースは、通信をＰＣＩｅ通信又は他のファブリックインタフェースに変換するために、ストレージユニットに含まれる通信変換回路を使用して通信ファブリック３４０に結合される。

ＮＩＣプール３４４のＮＩＣはそれぞれ、イーサネット及びＴＣＰ／ＩＰ（伝送制御プロトコル／インターネットプロトコル）ネットワークなどのパケットネットワークを介して通信するための回路を備える。幾つかの例は、ｉＳＣＳＩ（ＩｎｔｅｒｎｅｔＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）などのイーサネット又はＴＣＰ／ＩＰを介して他のトラフィックを伝送する。各ＮＩＣは、イーサネットインタフェース機器を備え、有線、光、又は無線リンクを介して通信することができる。コンピューティングクラスタ３０１の構成要素への外部アクセスは、ＮＩＣによって提供されるパケットネットワークリンクを介してもたらすことができ、これは、ネットワークリンクを介してｉＳＣＳＩ、ネットワークファイルシステム（ＮＦＳ）、サーバ・メッセージ・ブロック（ＳＭＢ）、又は共通インターネットファイルシステム（ＣＩＦＳ）共有を提示することを含むことができる。幾つかの例では、記憶装置を形成するために、ファブリックインタフェース回路がストレージドライブに追加される。具体的には、ＮＩＣは、ＰＣＩｅ通信又は他のファブリックインタフェースを使用してＮＩＣを通信ファブリック３４０に結合するために、ＮＩＣに含まれる通信変換回路を備えることができる。

通信ファブリック３４０は、通信スイッチ回路によって結合された複数のファブリックリンクを含む。ＰＣＩｅが使用される例では、通信ファブリック３４０は、関連するＰＣＩｅリンクを介して計算クラスタ３０１のメンバと通信する複数のＰＣＩｅスイッチを備える。各ＰＣＩｅスイッチは、各ＰＣＩｅスイッチによって処理される任意のＰＣＩｅインタフェース間の切り替え接続を確立するためのＰＣＩｅクロスコネクトスイッチを備える。通信ファブリック３４０は、複数のＰＣＩｅホストが、関連するＰＣＩｅエンドポイントにのみ通信可能に結合されながら、同じファブリック上に存在することを可能にすることができる。したがって、多くのホスト（例えば、ＣＰＵ）は、同じファブリックを使用して多くのエンドポイントと独立して通信することができる。ＰＣＩｅスイッチは、ＣＰＵ、ＣｏＰＵ、及び計算ユニット内のストレージユニット間、及びホスト間通信が使用される場合の計算ユニット間でデータを転送するために使用することができる。本明細書で説明するＰＣＩｅスイッチは、少なくとも各ＰＣＩｅリンクによって搬送されるトラフィックに基づいて、関連するＰＣＩｅリンクのうちの様々なＰＣＩｅリンクを論理的に相互接続するように構成することができる。これらの例では、ユーザ定義のグループに従ってＰＣＩｅスイッチのＰＣＩｅポートを分離することを可能にするドメインベースのＰＣＩｅシグナリング配信を含めることができる。ユーザ定義グループは、構成要素を関連する計算ユニットに論理的に統合し、異なる計算ユニット間から構成要素を論理的に分離する管理コントローラ３１０によって管理することができる。ドメインベースの分離に加えて、又はその代わりに、各ＰＣＩｅスイッチポートは、非透過（ＮＴ）又は透過ポートとすることができる。ＮＴポートは、ブリッジのようにエンドポイント間のいくらかの論理的分離を可能にすることができるが、透過ポートは論理的分離を可能にせず、純粋な回路切替え構成でエンドポイントを接続する効果を有する。１つ以上のＮＴポートを介したアクセスは、特定のＮＴポートを選択するため、又はＮＴポートを介した可視性を可能にするために、ＰＣＩｅスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。幾つかの例では、各ＰＣＩｅスイッチは、ＰＥＸ８７９６２４ポート、９６レーンＰＣＩｅスイッチチップ、ＰＥＸ８７２５１０ポート、２４レーンＰＣＩｅスイッチチップ、ＰＥＸ９７ｘｘチップ、ＰＥＸ９７９７チップ、又は他のＰＥＸ８７ｘｘ／ＰＥＸ９７ｘｘチップなどのＰＬＸ／Ｂｒｏａｄｃｏｍ／ＡｖａｇｏＰＥＸシリーズチップを備える。

図４は、コンピューティングプラットフォーム４００を示すシステム図である。コンピューティングプラットフォーム４００は、図１及び図３のコンピューティングクラスタ１０１又は３０１の要素を含むことができるが、変形も可能である。コンピューティングプラットフォーム４００は、複数のモジュール式シャーシのラックマウント装置を備える。モジュール式シャーシなどの１つ以上の物理的筐体は、棚又はラックユニットに更に含めることができる。シャーシ４１０，４２０，４３０，４４０、及び４５０は、コンピューティングプラットフォーム４００に含まれ、１つ以上のデータセンタ内の共通のラックマウント構成に取り付けられてもよく、又は複数のラックマウント構成にまたがってもよい。各シャーシ内で、モジュールは、様々な電力システム、構造支持体、及びコネクタ要素と共に、共有ＰＣＩｅスイッチに取り付けられる。コンピューティングプラットフォーム４００の所定数の構成要素は、特定のエンドユーザの必要に応じてモジュールを挿入及び取り外しすることができるモジュール式フレームワークなどの物理的筐体に挿入又は設置することができる。密閉モジュール式システムが、回路、プリント回路基板、半導体システム、及び構造要素を含む物理的支持構造体及び筐体を含むことができる。コンピューティングプラットフォーム４００の構成要素を備えるモジュールは、ラックマウント式の筐体に挿入可能かつ取り外し可能である。幾つかの例では、図４の要素は、より大きなラックマウント環境内に取り付けるための「Ｕ」スタイルのシャーシに含まれる。図４の構成要素は、任意の物理的な取り付け環境に含めることができ、関連する筐体又はラックマウント要素を含む必要がないことを理解すべきである。

シャーシ４１０は、管理モジュール又はトップオブラック（ＴｏＲ）スイッチシャーシを備え、管理プロセッサ４１１及びＰＣＩｅスイッチ４６０を備える。管理プロセッサ４１１は、管理オペレーティングシステム（ＯＳ）４１２、ユーザインタフェース４１３、及びジョブインタフェース４１４を含む。管理プロセッサ４１１は、１つ以上のＰＣＩｅレーンを含む１つ以上のＰＣＩｅリンクを介してＰＣＩｅスイッチ４６０に接続される。

ＰＣＩｅスイッチ４６０は、コンピューティングプラットフォーム４００内の他のシャーシ内のＰＣＩｅスイッチ４６１～４６４に、１つ以上のＰＣＩｅリンクを介して結合される。これらの１つ以上のＰＣＩｅリンクは、ＰＣＩｅモジュール間接続４６５によって表される。ＰＣＩｅスイッチ４６０～４６４及びＰＣＩｅモジュール間接続４６５は、図４の様々な物理コンピューティング要素の全てを通信可能に結合するＰＣＩｅファブリックを形成する。幾つかの例では、管理プロセッサ４１１は、ＰＣＩｅファブリックの動作及び分割を制御するために、集積回路間（Ｉ２Ｃ）インタフェースなどの特別な管理ＰＣＩｅリンク又はサイドバンドシグナリング（図示せず）を介して、ＰＣＩｅファブリックの要素と通信することができる。これらの制御動作は、計算ユニットの合成及び分解、ＰＣＩｅファブリック内の論理分割の変更、ＰＣＩｅファブリックのテレメトリの監視、ＰＣＩｅファブリック上のモジュールのパワーアップ／ダウン動作の制御、ＰＣＩｅファブリックを備える様々な回路のファームウェアの更新、及び他の動作を含むことができる。

シャーシ４２０は、それぞれがＰＣＩｅスイッチ４６１及び関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＣＰＵ４２１～４２５を備える。シャーシ４３０は、それぞれがＰＣＩｅスイッチ４６２及び関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＧＰＵ４３１～４３５を備える。シャーシ４４０は、それぞれがＰＣＩｅスイッチ４６３及び関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＳＳＤ４４１～４４５を備える。シャーシ４５０は、それぞれがＰＣＩｅスイッチ４６４及び関連するＰＣＩｅリンク（図示せず）を介してＰＣＩｅファブリックに結合された複数のＮＩＣ４５１～４５５を備える。各シャーシ４２０，４３０，４４０、及び４５０は、各ＣＰＵ、ＧＰＵ、ＳＳＤ、又はＮＩＣの対応する要素を備えるモジュールを取り付けるための様々なモジュール式ベイを含むことができる。電力システム、監視要素、内部／外部ポート、取り付け／取り外しハードウェア、及び他の関連する特徴を各シャーシに含めることができる。シャーシ４２０，４３０，４４０、及び４５０の個々の要素の更なる説明が以下に含まれる。

コンピューティングプラットフォーム４００の様々なＣＰＵ、ＧＰＵ、ＳＳＤ、又はＮＩＣ構成要素が関連するシャーシ又は筐体にインストールされると、構成要素は、ＰＣＩｅファブリックを介して結合され、「マシン」又は計算ユニットと呼ばれる任意の数の別個の任意に定義された構成に論理的に分離することができる。計算ユニットはそれぞれ、任意のタイプのモジュールの０を含む、選択された数のＣＰＵ、ＧＰＵ、ＳＳＤ、及びＮＩＣで合成することができるが、一般に、少なくとも１つのＣＰＵが各計算ユニットに含まれる。物理計算ユニット４０１の一例が図４に示されており、これはＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、及びＮＩＣ４５１を含む。計算ユニット４０１は、論理ドメイン４７０によって示されるＰＣＩｅファブリック内の論理分割を使用して合成される。ＰＣＩｅファブリックは、特定の計算ユニットに含まれない構成要素間の論理的分離を維持しながら、特定の計算ユニットの構成要素間でトラフィックを選択的にルーティングするように管理プロセッサ４１１によって構成することができる。このようにして、プラットフォーム１００の構成要素間に分散された柔軟な「ベアメタル」構成を確立することができる。個々の計算ユニットは、計算ユニットのコンピューティング、ストレージ、ネットワーク、又はグラフィックス処理リソースを利用することができる外部ユーザ、着信ジョブ、又はクライアントマシンに関連付けることができる。更に、より大きな並列性及び容量のために、任意の数の計算ユニットを計算ユニットの「クラスタ」にグループ化することができる。

幾つかの例では、管理プロセッサ４１１は、１つ以上のユーザインタフェース又はジョブインタフェースを介して計算ユニットの作成をもたらすことができる。例えば、管理プロセッサ４１１は、テンプレートを使用して作成された計算ユニットのために、割り当てられるハードウェア構成要素、並びにソフトウェア及び構成情報を指定することができる計算ユニットのためのマシンテンプレートを提示することができるユーザインタフェース４１３を提供することができる。幾つかの例では、計算ユニット作成ユーザインタフェースは、計算ユニットのユースケース又は使用カテゴリに基づいて計算ユニットのマシンテンプレートを提供することができる。例えば、ユーザインタフェースは、ゲームサーバユニット、人工知能学習計算ユニット、データ解析ユニット、及びストレージサーバユニットのための提案されたマシンテンプレート又は計算ユニット構成を提供することができる。例えば、ゲームサーバユニットテンプレートは、ストレージサーバユニットテンプレートと比較して追加の処理リソースを指定することができる。更に、ユーザインタフェースは、ユーザが構成要素のリスト又はカテゴリから任意に選択された構成要素タイプから計算ユニットテンプレートを作成するためのテンプレート又は計算ユニット構成及びオプションのカスタマイズを提供することができる。

追加の例では、管理プロセッサ４１１は、動作中にポリシーベースの動的調整を計算ユニットにもたらすことができる。幾つかの例では、ユーザインタフェース４１３は、ユーザが、計算ユニットに割り当てられたハードウェア及びソフトウェアの調整、並びに動作中のその構成情報の調整のためのポリシーを定義することを可能にすることができる。一例では、動作中に、管理プロセッサ４１１は、現在のリソースの利用率を決定するために、計算ユニットのテレメトリデータを解析することができる。現在の利用率に基づいて、動的調整ポリシーは、処理リソース、ストレージリソース、ネットワーキングリソースなどが計算ユニットに割り当てられるか、又は計算ユニットから削除されることを指定することができる。例えば、テレメトリデータは、ストレージ計算ユニットの割り当てられたストレージリソースの現在の使用レベルが１００％に近づいていることを示し、追加のストレージデバイスを計算ユニットに割り当てることができる。

更に別の例では、管理プロセッサ４１１は、動作中に計算ユニットに対する実行ジョブベースの動的調整をもたらすことができる。幾つかの例では、ジョブインタフェース４１４は、コンピューティングプラットフォーム４００のために提示された架空のターゲットＡ～Ｂによって処理されるべき実行ジョブの指示を受信することができる。管理プロセッサ４１１は、これらの着信ジョブを解析して、ＣＰＵ、ＧＰＵ、ＳＳＤ、ＮＩＣ、及び他のリソースの中から選択されたリソースを含むジョブを実行／処理するためのシステム要件を決定することができる。図４において、表４９０は、ジョブインタフェース４１４を介して受信され、ジョブキューにエンキューされた幾つかのジョブを示す。表４９０は、一意のジョブ識別子（ＩＤ）及びどのターゲットがジョブに関連付けられているかの表示を示し、その後に、ジョブをサポートするために形成された計算ユニット内に含まれるべき様々な粒度のシステム構成要素が続く。例えば、ジョブ４９１は、００００１２３４のジョブＩＤを有し、ターゲットＡをターゲットとし、ジョブ４９１を実行するために形成された計算ユニットに含まれるＣＰＵが１つ、ＧＰＵが２つ、ＳＳＤが１つ、ＮＩＣが１つであることを示す。これにより、管理プロセッサ４１１は、ジョブ４９１の実行タイミングになると、ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、ＮＩＣ４５１から合成される計算ユニット４０１を構築する。計算ユニット４０１は、論理ドメイン４７０によって示されるＰＣＩｅファブリック内の論理分割を使用して合成される。論理ドメイン４７０は、ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、及びＮＩＣ４５１がＰＣＩｅシグナリングを介して通信することを可能にし、同時に、他の論理ドメインの他の構成要素及び他の計算ユニットを計算ユニット４０１からＰＣＩｅ通信を分離し、全て同じＰＣＩｅファブリックを共有する。計算ユニット４０１はまた、ＮＩＣ４５１のＭＡＣアドレス又はイーサネットアドレスが最初にターゲットＡに関連付けられたＩＰアドレスに関連付けられるように、再割り当てされたターゲットＡに関連付けられたＩＰアドレスを有する。ジョブ４９１は、様々なソフトウェア構成要素が計算ユニット４０１に展開されると、計算ユニット４０１上で実行することができる。計算ユニット４０１は、ジョブの完了時に分解することができ、様々なネットワーク状態をターゲットＡに戻すことができる。他のターゲットＡ～Ｃ（又はそれ以上）も同様に処理することができる。

ＰＣＩｅファブリックが図４との関連で説明されているが、管理プロセッサ４１１は、複数のプロトコル通信ファブリック及びＰＣＩｅとは異なる通信ファブリックの制御及び管理を行なうことができる。例えば、管理プロセッサ４１１及びＰＣＩｅファブリックのＰＣＩｅスイッチデバイスは、ＰＣＩｅ及び同様のプロトコルの複数の異なる実装又はバージョンを使用して物理構成要素の通信結合をもたらすことができる。例えば、同じＰＣＩｅファブリック内の異なる物理構成要素に対して、異なるＰＣＩｅバージョン（例えば、３．０、４．０、５．０、及びそれ以降）が採用されてもよい。更に、次世代インタフェース、例えば、Ｇｅｎ－Ｚ、ＣＣＩＸ、ＣＸＬ、ＯｐｅｎＣＡＰＩ、又はＷｉ－Ｆｉインタフェースもしくはセルラ無線インタフェースを含む無線インタフェースを使用することができる。また、図４ではＰＣＩｅが使用されているが、ＰＣＩｅは存在しなくてもよく、他の相互接続、ネットワーク、及びリンクインタフェースの中でも、ＮＶＭｅ、Ｅｔｈｅｒｎｅｔ、ＳＡＳ、ＦｉｂｒｅＣｈａｎｎｅｌ、Ｔｈｕｎｄｅｒｂｏｌｔ、ＳＡＴＡＥｘｐｒｅｓｓなどの異なる通信リンク又はバスを代わりに使用できることを理解されたい。

ここでコンピューティングプラットフォーム４００の構成要素に関する説明を参照すると、管理プロセッサ４１１は、関連するストレージシステムから、管理オペレーティングシステム４１２、ユーザインタフェース４１３、及びジョブインタフェース４１４などのソフトウェアを検索及び実行する、１つ以上のマイクロプロセッサ及び他の処理回路を備えることができる。管理プロセッサ４１１は、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイス又はサブシステムにわたって分散させることもできる。管理プロセッサ４１１の例は、汎用中央処理ユニット、特定用途向けプロセッサ、及び論理デバイス、並びに任意の他の種類の処理デバイス、それらの組み合わせ、又は変形を含む。幾つかの例では、管理プロセッサ４１１は、Ｉｎｔｅｌ（登録商標）もしくはＡＭＤ（登録商標）マイクロプロセッサ、Ａｐｐｌｅ（登録商標）マイクロプロセッサ、ＡＲＭ（登録商標）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向けプロセッサ、又は他のマイクロプロセッサもしくは処理要素を含む。

管理オペレーティングシステム（ＯＳ）４１２は、管理プロセッサ４１１によって実行され、コンピューティングプラットフォーム４００のリソースの管理を行なう。この管理は、他の機能の中でも、計算ユニットエイリアシング、計算ユニットエイリアスオーバープロビジョニング、計算ユニット合成、計算ユニット変更、計算ユニット分解、計算ユニットネットワーク状態転送、及び計算ユニットの監視を含む。管理ＯＳ４１２は、管理プロセッサ４１１のための本明細書に記載の機能及び動作もたらす。ユーザインタフェース４１３は、グラフィカルユーザインタフェース（ＧＵＩ）、アプリケーション・プログラミング・インタフェース（ＡＰＩ）、又はコマンド・ライン・インタフェース（ＣＬＩ）、ＷｅｂＳｏｃｋｅｔインタフェースを一人以上のユーザに提示することができる。ユーザインタフェース４１３は、計算ユニットを確立し、計算ユニットにリソースを割り当て、計算ユニットのクラスタを作成し、他の動作を実行するために、エンドユーザ又は管理者によって使用することができる。幾つかの例では、ユーザインタフェース４１３は、ユーザが、計算ユニットの作成で使用するために使用又はカスタマイズするための１つ以上の計算ユニットテンプレート及び動的調整ポリシーセットを決定することを可能にするインタフェースを提供する。ユーザインタフェース４１３を使用して、マシンテンプレートを管理、選択、及び変更することができる。ユーザインタフェース４１３を使用して、計算ユニットのポリシーを管理、選択、及び変更することができる。ユーザインタフェース４１３はまた、コンピューティングプラットフォーム４００の動作のためのテレメトリ情報を、１つ以上の状態インタフェース又は状態ビューなどでユーザに提供することができる。コンピューティングプラットフォーム４００の様々な構成要素又は要素の状態は、とりわけ、ＣＰＵ状態、ＧＰＵ状態、ＮＩＣ状態、ＳＳＤ状態、ＰＣＩｅスイッチ／ファブリック状態など、ユーザインタフェース４１３を介して監視することができる。様々な性能測定基準、エラー状況は、ユーザインタフェース４１３を使用して監視することができる。

要素４１１～４１４の複数のインスタンスをコンピューティングプラットフォーム４００に含めることができる。各管理インスタンスは、所定数のクラスタ又は計算ユニットのリソースを管理することができる。ＧＵＩを介して受信されるものなどのユーザコマンドは、管理インスタンスのいずれかに受信され、受信管理インスタンスによってハンドリング管理インスタンスに転送されることができる。各管理インスタンスは、適切な管理インスタンスへのユーザコマンドの配信を助けることができる一意的な又は事前に割り当てられた識別子を有することができる。更に、各管理インスタンスの管理プロセッサは、メールボックスプロセス又は他のデータ交換技術を使用するなどして、互いに通信することができる。この通信は、Ｉ２Ｃインタフェースなどの専用サイドバンドインタフェースを介して行うことができ、又は各管理プロセッサを結合するＰＣＩｅ又はイーサネットインタフェースを介して行うことができる。

複数のＣＰＵ４２１～４２５は、シャーシ４２０に含まれる。各ＣＰＵは、１つ以上のＣＰＵ又はマイクロプロセッサと、関連するストレージシステムからオペレーティングシステム、デバイスドライバ、及びアプリケーションなどのソフトウェアを取得して実行する他の処理回路とを含むＣＰＵモジュールを備えることができる。各ＣＰＵは、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイス又はサブシステムにわたって分散させることもできる。各ＣＰＵの例は、汎用中央処理ユニット、特定用途向けプロセッサ、及び論理デバイス、並びに任意の他の種類の処理デバイス、それらの組み合わせ、又は変形を含む。幾つかの例では、各ＣＰＵは、Ｉｎｔｅｌ（登録商標）マイクロプロセッサ、Ａｐｐｌｅ（登録商標）マイクロプロセッサ、ＡＭＤ（登録商標）マイクロプロセッサ、ＡＲＭ（登録商標）マイクロプロセッサ、グラフィックスプロセッサ、計算コア、グラフィックスコア、ＡＳＩＣ、ＦＰＧＡ、又は他のマイクロプロセッサもしくは処理要素を含む。各ＣＰＵはまた、１つ以上のＰＣＩｅインタフェース及びＰＣＩｅファブリックを介して、同じストレージアセンブリ／筐体又は別のストレージアセンブリ／筐体内のものなどの他の計算ユニットと通信することができる。

複数のＧＰＵ４３１～４３５がシャーシ４３０に含まれ、これは任意のタイプのＣｏＣＰＵを表すことができる。各ＧＰＵは、１つ以上のＧＰＵを含むＧＰＵモジュールを備えることができる。各ＧＰＵは、１つ以上の計算ユニットに割り当てることができるグラフィックス処理リソースを含む。ＧＰＵは、グラフィックスプロセッサ、シェーダ、ピクセルレンダリング要素、フレームバッファ、テクスチャマッパ、グラフィックスコア、グラフィックスパイプライン、グラフィックスメモリ、又は他のグラフィックス処理及び処理要素を含むことができる。幾つかの例では、各ＧＰＵは、ＧＰＵチップをサポートする回路を備えるグラフィックス「カード」を備える。例示的なＧＰＵカードは、様々なサポート回路、コネクタ、及び他の要素と共にグラフィックス処理要素を含むｎＶＩＤＩＡ（登録商標）又はＡＭＤ（登録商標）グラフィックスカードを含む。更なる例では、機械学習処理ユニット、テンソル処理ユニット（ＴＰＵ）、ＦＰＧＡ、ＡＳＩＣ、又は特殊なデータセットの処理に処理及びメモリリソースを集中させるための特殊な処理要素を含むことができる他の特殊なプロセッサなど、他のスタイルのグラフィックス処理ユニット、グラフィックス処理アセンブリ、又はコプロセッシング要素を使用することができる。

複数のＳＳＤ４４１～４４５は、シャーシ４４０に含まれる。各ＳＳＤは、１つ以上のＳＳＤを含むＳＳＤモジュールを備えてもよい。各ＳＳＤは、ＰＣＩｅインタフェースを有するソリッドステートストレージドライブなどの１つ以上のストレージドライブを含む。各ＳＳＤはまた、ＰＣＩｅインタフェース、制御プロセッサ、及び電力システム要素を含む。各ＳＳＤは、他の動作の中でも、トラフィック統計及び状態監視のためのプロセッサ又は制御システムを含むことができる。更に他の例では、各ＳＳＤは、代わりに、磁気ハードディスクドライブ（ＨＤＤ）、クロスポイントメモリ（例えば、Ｏｐｔａｎｅ（登録商標）デバイス）、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、プログラマブル読み出し専用メモリ（ＰＲＯＭ）デバイス、又は他の磁気、光学、もしくは半導体ベースの記憶媒体などの異なるデータ記憶媒体を、関連する筐体、制御システム、電力システム、及びインタフェース回路と共に備える。

複数のＮＩＣ４５１～４５５がシャーシ４５０内に含まれ、それぞれが関連するＭＡＣアドレス又はイーサネットアドレスを有する。各ＮＩＣは、１つ以上のＮＩＣを含むＮＩＣモジュールを備えることができる。各ＮＩＣは、ＴＣＰ／ＩＰ（伝送制御プロトコル（ＴＣＰ）／インターネットプロトコル）ネットワークを介して通信するための、又はｉＳＣＳＩ（ＩｎｔｅｒｎｅｔＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）もしくはＮＶＭｅ（ＮＶＭＥｘｐｒｅｓｓ）トラフィックなどのユーザトラフィックを搬送するためのネットワークインタフェースコントローラカードを含むことができる。ＮＩＣは、イーサネットインタフェース機器を備えることができ、有線、光、又は無線リンクを介して通信することができる。コンピューティングプラットフォーム４００の構成要素への外部アクセスは、ＮＩＣによって提供されるパケットネットワークリンクを介してもたらすことができる。ＮＩＣは、ＰＣＩｅファブリックの関連するＰＣＩｅリンクを介して、関連する計算ユニットの他の構成要素と通信することができる。幾つかの例では、ＮＩＣは、イーサネットリンクを介して管理プロセッサ４１１と通信するために提供される。追加の例では、ＮＩＣは、イーサネットリンクを介して１つ以上の他のシャーシ、ラックマウントシステム、データセンタ、コンピューティングプラットフォーム、通信ファブリック、又は他の要素と通信するために提供される。

コンピューティングプラットフォームには、ＣＰＵ、ＧＰＵ、ＳＳＤ、及びＮＩＣに加えて、他の専用デバイスが採用されてもよい。これらの他の専用デバイスは、他の回路の中でも、専用のコプロセッシングサーキットリ、ファブリックカップリングＲＡＭデバイス、ＡＳＩＣ回路、又はＦＰＧＡ回路、並びに様々なメモリ構成要素、記憶構成要素、及びインタフェース構成要素を備えるコプロセッシングモジュールを含むことができる。他の専用デバイスはそれぞれ、１つ以上のＰＣＩｅレーンを備えるＰＣＩｅインタフェースを含むことができる。これらのＰＣＩｅインタフェースは、ＰＣＩｅファブリックを介して通信し、１つ以上の計算ユニットに他の専用デバイスを含めるために使用することができる。これらの他の専用デバイスは、ルートコンプレクスを有しても有しなくてもよいＰＣＩｅエンドポイントデバイス又はＰＣＩｅホストデバイスを備えてもよい。

ＦＰＧＡデバイスは、他の専用デバイスの一例として採用することができる。ＦＰＧＡデバイスは、ＣＰＵ又はＧＰＵなどの別のＰＣＩｅデバイスから処理タスクを受信して、それらの処理タスクをＦＰＧＡプログラマブル論理回路にオフロードすることができる。ＦＰＧＡは、一般に、構成データを使用してプログラム状態に初期化され、このプログラム状態は、様々な論理構成、メモリ回路、レジスタ、処理コア、特殊回路、及び特殊回路又は特定用途向け回路を提供する他の機能を含む。ＦＰＧＡデバイスは、その中に実装された回路を変更し、異なる時点で異なるセットの処理タスクを実行するように再プログラムすることができる。ＦＰＧＡデバイスを使用して、機械学習タスクを実行し、人工ニューラルネットワーク回路を実装し、カスタムインタフェース又はグルーロジックを実装し、暗号化／復号タスクを実行し、ブロックチェーン計算及び処理タスクを実行し、又は他のタスクを実行することができる。幾つかの例では、ＣＰＵは、ＰＣＩｅインタフェースを介してＦＰＧＡによって処理されるデータをＦＰＧＡに提供する。ＦＰＧＡは、このデータを処理して結果を生成し、この結果をＰＣＩｅインタフェースを介してＣＰＵに提供することができる。２つ以上のＣＰＵ及び／又はＦＰＧＡが、２つ以上のデバイスを介してタスクを並列化するために、又は２つ以上のデバイスを介してデータをシリアル処理するために関与し得る。幾つかの例では、ＦＰＧＡ装置は、構成データ記憶装置に記憶された構成データを使用して補足、置換、又は上書きすることができるローカルに記憶された構成データを含むことができる。この構成データは、本明細書で説明される他の構成データの中でも、ファームウェア、プログラマブル論理プログラム、ビットストリーム、又はオブジェクト、ＰＣＩｅデバイス初期構成データを含むことができる。ＦＰＧＡ構成はまた、ブートプログラミング、電源オン構成、又はＦＰＧＡデバイスの初期構成を確立するための他の機能を実行するために使用されるＳＲＡＭデバイス又はＰＲＯＭデバイスを含むことができる。幾つかの例では、ＳＲＡＭ又はＰＲＯＭデバイスをＦＰＧＡ回路又はパッケージに組み込むことができる。

ＰＣＩｅスイッチ４６０～４６４は、関連するＰＣＩｅリンクを介して通信する。図４の例では、ＰＣＩｅスイッチ４６０～４６４は、各シャーシ内のＰＣＩｅデバイス間及び各シャーシ間でユーザデータを搬送するために使用することができる。各ＰＣＩｅスイッチ４６０～４６４は、各ＰＣＩｅスイッチによって処理される任意のＰＣＩｅインタフェース間の切り替え接続を確立するためのＰＣＩｅクロスコネクトスイッチを備える。本明細書で説明されるＰＣＩｅスイッチは、少なくとも各ＰＣＩｅリンクによって搬送されるトラフィックに基づいて、関連するＰＣＩｅリンクのうちの様々なＰＣＩｅリンクを論理的に相互接続することができる。これらの例では、ユーザ定義のグループに従ってＰＣＩｅスイッチのＰＣＩｅポートを分離することを可能にするドメインベースのＰＣＩｅシグナリング配信を含めることができる。ユーザ定義グループは、構成要素を関連する計算ユニットに論理的に統合し、構成要素及び計算ユニットを互いに論理的に分離する管理プロセッサ４１１によって管理することができる。ドメインベースの分離に加えて、又はその代わりに、各ＰＣＩｅスイッチポートは、非透過（ＮＴ）又は透過ポートとすることができる。ＮＴポートは、ブリッジのようにエンドポイント間の何らかの論理的分離を可能にすることができるが、透過ポートは論理的分離を可能にせず、純粋に切り替えられた構成でエンドポイントを接続する効果を有する。１つ以上のＮＴポートを介したアクセスは、特定のＮＴポートを選択するため、又はＮＴポートを介した可視性を可能にするために、ＰＣＩｅスイッチと開始エンドポイントとの間の追加のハンドシェイクを含むことができる。

好適には、このＮＴポートベースの分離又はドメインベースの分離は、物理的構成要素（すなわち、ＣＰＵ、ＧＰＵ、ＳＳＤ、ＮＩＣ）が分離／分割を介して含まれる構成要素に対してのみ視認性を有することを可能にすることができる。したがって、ＰＣＩｅファブリック間の論理分割を用いて、複数の物理構成要素間のグループ化を実現することができる。この分割は本質的にスケーラブルであり、管理プロセッサ４１１又は他の制御要素によって必要に応じて動的に変更することができる。管理プロセッサ４１１は、ＰＣＩｅポート間の論理分割又は分離を変更し、したがって物理構成要素のグループ化の合成を変更するために、ＰＣＩｅファブリックを備えるＰＣＩｅスイッチ回路を制御することができる。本明細書では計算ユニットと呼ばれるこれらのグループ化は、個別に「マシン」を形成することができ、多くの計算ユニット／マシンのクラスタに更にグループ化することができる。本明細書で説明される他の考慮事項の中でも、ユーザインタフェースを介して受信されたユーザ命令に従って、ロード／アイドル状態に応答して動的に、着信又はキューに入れられた実行ジョブに応答して動的に、又は予期される必要性に起因して先制的に、物理的構成要素を計算ユニットに追加又は計算ユニットから除去することができる。

更なる例では、メモリマップドダイレクトメモリアクセス（ＤＭＡ）コンジットを、個々のＣＰＵ／ＰＣＩｅデバイスペアの間に形成することができる。このメモリマッピングは、他の構成の中でもとりわけ、ＰＣＩｅファブリックアドレス空間上で行うことができる。多くのＣＰＵ及びＧＰＵを備える共有ＰＣＩｅファブリック上にこれらのＤＭＡコンジットを提供するために、本明細書に記載の論理分割を採用することができる。具体的には、ＰＣＩｅスイッチ上のＮＴポート又はドメインベースの分割は、関連するＣＰＵ／ＧＰＵ間の個々のＤＭＡコンジットを分離することができる。ＰＣＩｅファブリックは、６４ビットのアドレス空間を有することができ、これにより、２６４バイトのアドレス指定可能な空間が可能になり、少なくとも１６エクスビバイトのバイトアドレス指定可能なメモリがもたらされる。６４ビットＰＣＩｅアドレス空間は、全ての計算ユニットによって共有されるか、又はリソースへの適切なメモリマッピングのための構成を形成する様々な計算ユニット間で分離されることが可能である。

ＰＣＩｅインタフェースは、ｘ１、ｘ２、ｘ４、ｘ８、ｘ１６、及びｘ３２などの複数のバス幅をサポートすることができ、バス幅の各倍数は、データ転送のための追加の「レーン」を含む。ＰＣＩｅはまた、他のシグナリングの中でも、システム管理バス（ＳＭＢｕｓ）インタフェース及びジョイントテストアクショングループ（ＪＴＡＧ）インタフェース、並びに関連するクロック、電力、及びブートストラップなどのサイドバンドシグナリングの転送をサポートする。ＰＣＩｅはまた、本明細書で使用される異なる実装又はバージョンを有し得る。例えば、ＰＣＩｅバージョン３．０以降（例えば、４．０、５．０、又はそれ以降）が採用されてもよい。更に、Ｇｅｎ－Ｚ、ＣａｃｈｅＣｏｈｅｒｅｎｔＣＣＩＸ、ＣＸＬ、又はＯｐｅｎＣＡＰＩなどの次世代インタフェースを使用することができる。また、図４ではＰＣＩｅが使用されているが、他の相互接続、ネットワーク、及びリンクインタフェースの中でも、ＮＶＭｅ、イーサネット、ＳＡＳ、ＦｉｂｒｅＣｈａｎｎｅｌ、Ｔｈｕｎｄｅｒｂｏｌｔ、ＳＡＴＡＥｘｐｒｅｓｓなどの異なる通信リンク又はバスを代わりに使用できることを理解されたい。ＮＶＭｅは、ハードディスクドライブ及びソリッドステートメモリ装置などの大容量記憶装置のためのインタフェース規格である。ＮＶＭｅは、パーソナルコンピュータ及びサーバ環境における大容量記憶装置とインタフェースするためのＳＡＴＡインタフェースに取って代わることができる。しかしながら、これらのＮＶＭｅインタフェースは、ＳＡＴＡデバイスと同様に、１対１のホストドライブ関係に限定される。本明細書で説明する例では、ＰＣＩｅインタフェースを使用して、ＮＶＭｅトラフィックを転送し、ＰＣＩｅインタフェース上で１つ以上のＮＶＭｅ仮想論理ユニット番号（ＶＬＵＮ）として多くのストレージドライブを備えるマルチドライブシステムを提示することができる。

図４のリンクのいずれも、空気、空間、金属、光ファイバ、又はそれらの組み合わせを含む他の何らかの信号伝搬経路などの様々な通信媒体をそれぞれ使用することができる。図４のリンクのいずれも、任意の数のＰＣＩｅリンク又はレーン構成を含むことができる。図４のリンクのいずれも、それぞれ直接リンクであってもよく、又は様々な機器、中間構成要素、システム、及びネットワークを含んでもよい。図４のリンクのいずれも、それぞれ共通リンク、共有リンク、集約リンクとすることができ、又は個別の別個のリンクから構成することができる。

次に、計算ユニットの形成及び処理の詳細な例について説明する。図４では、任意のＣＰＵ４２１～４２５は、ＰＣＩｅファブリックによって論理的に分離されているように、任意の／全てのＧＰＵ４３１～４３５、ＳＳＤ４４１～４４５、及びＮＩＣ４５１～４５５、又はコンピューティングプラットフォーム４００のＰＣＩｅファブリックに結合された他の物理構成要素に対する構成可能な論理的可視性を有する。例えば、任意のＣＰＵ４２１～４２５は、同じ計算ユニットに含まれる任意のＳＳＤ４４１～４４５とストレージデータを転送及び検索することができる。同様に、任意のＣＰＵ４２１～４２５は、同じ計算ユニットに含まれる任意のＧＰＵ４３１～４３５による処理のためにデータを交換することができる。したがって、「ｍ」個のＳＳＤ又はＧＰＵを「ｎ」個のＣＰＵと結合して、高レベルの性能、冗長性、及び密度を有する大規模でスケーラブルなアーキテクチャを可能にすることができる。グラフィック処理の例では、ＰＣＩｅファブリックにおけるＮＴ分割又はドメインベースの分割は、ＰＣＩｅスイッチの１つ以上によってもたらすことができる。この分割により、ＧＰＵを所望の１つ以上のＣＰＵと相互作用させることができ、８つのＧＰＵなどの２つ以上のＧＰＵを特定の計算ユニットに関連付けることができる。更に、動的なＧＰＵ計算ユニットの関係は、ＰＣＩｅファブリック全体の分割を使用してオンザフライで調整することができる。共有ＮＩＣリソースは、計算ユニット全体に適用することもできる。

図５は、計算ユニットの形成及びそこへのソフトウェア構成要素の展開など、図４の要素に関する更なる詳細を含むシステム図である。システム５００は、リンク５１０を介して合成計算ユニット４０１と通信する管理プロセッサ４１１を含む。合成計算ユニット４０１は、ＣＰＵ４２１、ＧＰＵ４３１～４３２、ＳＳＤ４４１、及びＮＩＣ４５１を備える。ＣＰＵ４２１は、オペレーティングシステム５２２、アプリケーション５２４、計算ユニットインタフェース５２５、及び実行ジョブ４９１を備えるソフトウェアを展開している。したがって、ＣＰＵ４２１は、幾つかの動作層を有するものとして示されている。第１の層５０１は、論理ドメイン４７０を使用してＰＣＩｅファブリック上に形成される計算ユニット４０１のハードウェア層又は「金属」マシンインフラストラクチャである。第２の層５０２は、ＯＳ並びに計算ユニットインタフェース５２５を提供する。最後に、第３の層５０３は、ユーザレベルアプリケーション及び実行ジョブを提供する。

管理ＯＳ１１１はまた、リンク５１０を介して、計算ユニット４０１上に展開された計算ユニットインタフェース５２５と通信する管理インタフェース５１５を含む。管理インタフェース５１５は、ソフトウェア構成要素を計算ユニットに転送し、計算ユニットから状態、テレメトリ、及び他のデータを受信するために、計算ユニットとの通信を可能にする。管理インタフェース５１５及び計算ユニットインタフェース５２５は、制御命令、制御応答、テレメトリデータ、状態情報、又は他のデータなどのための管理トラフィックのための標準化されたインタフェースを提供する。標準化されたインタフェースは、１つ以上のＡＰＩを含むことができる。

幾つかの例では、計算ユニットインタフェースは、エミュレートされたネットワークインタフェースを含む。このエミュレートされたネットワークインタフェースは、１つ以上のＰＣＩｅインタフェース上でパケットネットワークトラフィックを転送するためのトランスポート機構を備える。エミュレートされたネットワークインタフェースは、イーサネットデバイスなどのネットワークデバイスを管理プロセッサ４１１にエミュレートすることができ、その結果、管理プロセッサ４１１は、あたかも管理プロセッサ４１１及びＣＰＵ４２１がイーサネットネットワークインタフェースを介して通信しているかのように、ＰＣＩｅインタフェースを介して計算ユニット４０１のＣＰＵ４２１と対話／インタフェースすることができる。エミュレートされたネットワークインタフェースは、ＯＳがイーサネットスタイルのコマンド及びドライバを使用してインタフェースすることを可能にし、アプリケーション又はＯＳレベルのプロセスが、完全なネットワークスタックに関連付けられた関連するレイテンシ及び処理オーバーヘッドを有することなく、エミュレートされたネットワークデバイスと通信することを可能にするカーネルレベルの要素又はモジュールを備えることができる。エミュレートされたネットワークインタフェースは、ドライバ、モジュール、カーネルレベルモジュール、又は計算ユニットのＣＰＵによって実行されるアプリケーションレベル及びシステムレベルのソフトウェアに対するネットワークデバイスとして見える他のソフトウェア構成要素などのソフトウェア構成要素を含む。好適には、エミュレートされたネットワークインタフェースは、通信を転送するためにネットワークスタック処理を必要としない。計算ユニット４０１などの計算ユニットの場合、エミュレートされたネットワークインタフェースは、ネットワークスタック処理を使用せず、依然としてネットワークデバイスとしてオペレーティングシステム５２２に現れるので、関連するＣＰＵのユーザソフトウェア又はオペレーティングシステム要素は、ネットワークインタフェースと対話し、イーサネット通信などの既存のネットワークに面する通信方法を使用してＰＣＩｅファブリックを介して通信することができる。管理プロセッサ４１１のエミュレートされたネットワークインタフェースは、ＰＣＩｅインタフェース又はＰＣＩｅファブリックを介して、関連するトラフィックとして、計算ユニット４０１上に位置する別のエミュレートされたネットワークデバイスに通信を転送する。エミュレートされたネットワークインタフェースは、ＰＣＩｅトラフィックをネットワークデバイストラフィックに変換し、その逆も同様である。ネットワークスタックを介してエミュレートされたネットワークデバイスに転送される通信の処理は省略され、ネットワークスタックは、一般に、提示されるネットワークデバイス／インタフェースのタイプに使用される。例えば、エミュレートされたネットワークデバイスは、１つ以上のオペレーティングシステム又はアプリケーションにイーサネットデバイスとして提示されてもよい。１つ以上のオペレーティングシステムから受信した通信は、エミュレートされたネットワークデバイスによって１つ以上の送信先に転送される。しかしながら、エミュレートされたネットワークインタフェースは、アプリケーション層からリンク層までの通信を処理するためのネットワークスタックを含まない。代わりに、エミュレートされたネットワークインタフェースは、１つ以上のオペレーティングシステムから受信した通信からペイロードデータ及び送信先を抽出し、送信先に関連するアドレス指定を使用してペイロードデータをＰＣＩｅフレームにカプセル化することなどによって、ペイロードデータ及び送信先をＰＣＩｅトラフィックに変換する。

計算ユニットインタフェース５２５は、エミュレートされたネットワークインタフェースについて説明したような、エミュレートされたネットワークインタフェースを含むことができる。更に、計算ユニットインタフェース５２５は、ＣＰＵ４２１の動作及びＣＰＵ４２１によって実行されるソフトウェアを監視し、この動作のためのテレメトリを管理プロセッサ４１１に提供する。したがって、ユーザ提供オペレーティングシステム（Ｗｉｎｄｏｗｓ、Ｌｉｎｕｘ（登録商標）、ＭａｃＯＳ、Ａｎｄｒｏｉｄ、ｉＯＳなど．．．）、実行ジョブ４９１、ユーザアプリケーション５２４、又は他のソフトウェア及びドライバなどの任意のユーザ提供ソフトウェアをＣＰＵ４２１によって実行することができる。計算ユニットインタフェース５２５は、ＣＰＵ４２１が関連する計算ユニット及び／又はクラスタに関与すること、並びにリンク５１０を介して管理プロセッサ４１１にテレメトリデータを提供することを可能にする機能を与える。計算ユニットが複数の又は異なる通信プロトコルを利用する物理構成要素を含む例では、計算ユニットインタフェース５２５は、計算ユニット内でプロトコル間通信が行われることを可能にする機能を与えることができる。計算ユニットの各ＣＰＵはまた、ＰＣＩｅファブリックを介してネットワークトラフィックを伝送するエミュレートされたネットワークデバイスを介して互いに通信することができる。計算ユニットインタフェース５２５はまた、ユーザソフトウェア及びオペレーティングシステムが計算ユニットインタフェース５２５と対話するためのＡＰＩ、並びに管理プロセッサ４１１と制御／テレメトリシグナリングを交換するためのＡＰＩを提供することもできる。

更に、計算ユニットインタフェース５２５は、例えば、ＰＣＩｅデバイスが異なる通信プロトコルを利用する場合、計算ユニットのＰＣＩｅデバイスのデバイスドライバ間のプロトコル間通信又はピアツーピア通信を容易にするために、計算ユニットのＰＣＩｅデバイスのデバイスドライバへのインタフェースとして動作することができる。更に、計算ユニットインタフェース５２５は、ダイナミクス調整ポリシーに基づいて計算ユニットに対する動的調整中の継続動作を容易にするように動作することができる。更に、計算ユニットインタフェース５２５は、ポリシー（例えば、利用率又は応答性ポリシーに基づくＰＣＩｅバージョン３．０ハードウェアからＧｅｎ－Ｚハードウェアへの移行）に基づいて、コンピューティングプラットフォームにおける代替ハードウェアへの移行を容易にするように動作することができる。対応するＰＣＩｅスイッチ回路内の制御要素は、異なるバージョン又は通信プロトコルを利用する計算ユニット間のＰＣＩｅ通信を監視するように構成されてもよい。前述したように、コンピューティングプラットフォーム内で、及び幾つかの実装形態では計算ユニット内で、異なるバージョン又は通信プロトコルを利用することができる。幾つかの例では、ＰＣＩｅファブリック内の１つ以上のＰＣＩｅスイッチ又は他のデバイスは、異なるバージョン又は通信プロトコルを利用するＰＣＩｅデバイス間のインタフェースとして機能するように動作することができる。検出されたデータ転送は、「トラップ」され、ＰＣＩｅスイッチ回路によって送信先ＰＣＩｅデバイスによって利用されるバージョン又は通信プロトコルに変換又は変換され、次いで送信先ＰＣＩｅデバイスにルーティングされ得る。

図６は、管理プロセッサ６００の実装形態を示すブロック図である。管理プロセッサ６００は、図１の管理システム１１０、図３の管理コントローラ３１０、又は図４及び図５の管理プロセッサ４１１など、本明細書で説明する管理プロセッサのいずれかの例を示す。管理プロセッサ６００は、通信インタフェース６０１と、ジョブインタフェース６０２と、ユーザインタフェース６０３と、処理システム６１０とを含む。処理システム６１０は、処理回路６１１と、ランダムアクセスメモリ（ＲＡＭ）６１３を含むことができるデータストレージシステム６１２とを含むが、追加の又は異なる構成の要素を含むことができる。

処理回路６１１は、単一の処理デバイス内に実装することができるが、プログラム命令を実行する際に協働する複数の処理デバイス又はサブシステムにわたって分散させることもできる。処理回路６１１の例は、汎用中央処理ユニット、マイクロプロセッサ、特定用途向けプロセッサ、及び論理デバイス、並びに任意の他の種類の処理デバイスを含む。幾つかの例では、処理回路６１１は、クラウドコンピューティングシステムなどの物理的に分散された処理デバイスを含む。

通信インタフェース６０１は、通信リンク、パケットネットワークなどのネットワーク、及びインターネットなどを介して通信するための１つ以上の通信及びネットワークインタフェースを含む。通信インタフェースは、ＰＣＩｅインタフェース、イーサネットインタフェース、シリアルインタフェース、シリアルペリフェラルインタフェース（ＳＰＩ）リンク、集積回路間（Ｉ２Ｃ）インタフェース、ユニバーサルシリアルバス（ＵＳＢ）インタフェース、ＵＡＲＴインタフェース、無線インタフェース、又はイーサネットもしくはインターネットプロトコル（ＩＰ）リンクを介して通信することができる１つ以上のローカルもしくはワイドエリアネットワーク通信インタフェースを含むことができる。通信インタフェース６０１は、異なるネットワークリンクに関連付けることができる１つ以上のネットワークアドレスを使用して通信するように構成されたネットワークインタフェースを含むことができる。通信インタフェース６０１の例は、ネットワークインタフェースカード機器、トランシーバ、モデム、及び他の通信回路を含む。通信インタフェース６０１は、ＰＣＩｅファブリック又は他の通信ファブリックの要素と通信して、通信ファブリックの１つ以上の通信スイッチの管理インタフェース又は制御インタフェースなどを介して、ファブリック内で論理分割を確立することができる。

ジョブインタフェース６０２は、１つ以上の外部システムから実行ジョブを受け取り、そのような外部システムに実行ジョブ結果及び状態を提供するネットワークベースのインタフェース又は他のリモートインタフェースを備える。ジョブは、ジョブインタフェース６０２を介して受信され、対応するコンピューティングプラットフォームの要素による実行又は他の種類の処理のためにジョブスケジュール６３１に配置される。ジョブインタフェース６０２は、他のインタフェースの中でも、ネットワークインタフェース、ユーザインタフェース、端末インタフェース、アプリケーション・プログラミング・インタフェース（ＡＰＩ）、表現状態転送（ＲＥＳＴ）インタフェース、ＲＥＳＴｆｕｌインタフェース、ＲｅｓｔＡＰＩを含むことができる。幾つかの例では、ワークロードマネージャソフトウェアプラットフォーム（図示せず）は、実行又は処理のためにジョブを作成、スケジュール、及び転送することができるユーザ又はオペレータ用のフロントエンドを確立する。ジョブインタフェース６０２は、ワークロードマネージャソフトウェアプラットフォームからこれらのジョブの指示を受信することができる。

ユーザインタフェース６０３は、タッチスクリーン、キーボード、マウス、音声入力装置、音声入力装置、又はユーザからの入力を受信するための他のタッチ入力装置を含むことができる。ディスプレイ、スピーカ、ウェブインタフェース、端末インタフェース、及び他の種類の出力装置などの出力装置もまた、ユーザインタフェース６０３に含まれてもよい。ユーザインタフェース６０３は、通信インタフェース６０１などのネットワークインタフェースを介して出力を提供し、入力を受信することができる。ネットワークの例では、ユーザインタフェース６０３は、１つ以上のネットワークインタフェースを介して結合されたディスプレイシステム又はコンピューティングシステムによって、リモートディスプレイ用のディスプレイ又はグラフィックスデータをパケット化することができる。ユーザインタフェース６０３の物理的又は論理的要素は、ユーザ又は他のオペレータに警告又は視覚的出力を提供することができる。ユーザインタフェース６０３はまた、前述した様々なユーザ入出力装置をサポートする、処理システム６１０によって実行可能な関連するユーザインタフェースソフトウェアを含むことができる。別個に、又は互いに及び他のハードウェア及びソフトウェア要素と共に、ユーザインタフェースソフトウェア及びユーザインタフェースデバイスは、グラフィカルユーザインタフェース、自然なユーザインタフェース、又は任意の他の種類のユーザインタフェースをサポートすることができる。

ユーザインタフェース６０３は、グラフィカルユーザインタフェース（ＧＵＩ）を一人以上のユーザに提示することができる。ＧＵＩは、クラスタを確立し、アセット（計算ユニット／マシン）を各クラスタに割り当てるために、エンドユーザ又は管理者によって使用され得る。幾つかの例では、ＧＵＩ又はユーザインタフェース６０３の他の部分は、エンドユーザが、計算ユニットの作成で使用するために使用又はカスタマイズするための１つ以上の計算ユニットテンプレート及び動的調整ポリシーセットを決定することを可能にするインタフェースを提供する。ユーザインタフェース６０３を使用して、マシンテンプレートを管理、選択、及び変更したり、計算ユニットのポリシーを変更したりすることができる。ユーザインタフェース６０３はまた、１つ以上の状態インタフェース又は状態ビューなどにおいて、テレメトリ情報を提供することができる。様々な構成要素又は要素の状態は、とりわけ、プロセッサ／ＣＰＵ状態、ネットワーク状態、記憶装置状態、ＰＣＩｅ要素状態など、ユーザインタフェース６０３を介して監視することができる。様々な性能測定基準、エラー状況は、ユーザインタフェース６０３を使用して監視することができる。ユーザインタフェース６０３は、コマンド・ライン・インタフェース（ＣＬＩ）、アプリケーション・プログラミング・インタフェース（ＡＰＩ）、又は他のインタフェースなど、ＧＵＩ以外の他のユーザインタフェースを提供することができる。ユーザインタフェース６０３の一部は、ＷｅｂＳｏｃｋｅｔベースのインタフェースを介して提供することができる。

ストレージシステム６１２及びＲＡＭ６１３は、共に非一時的データストレージシステムを備えることができるが、変形も可能である。ストレージシステム６１２及びＲＡＭ６１３はそれぞれ、処理回路６１１によって読み取り可能であり、ソフトウェア及びＯＳイメージを記憶することができる任意の記憶媒体を備えることができる。ＲＡＭ６１３は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術で実装された揮発性及び不揮発性、取り外し可能及び固定の媒体を含むことができる。ストレージシステム６１２は、それらの組み合わせを含む、固体記憶媒体、フラッシュメモリ、相変化メモリ、又は磁気メモリなどの不揮発性記憶媒体を含むことができる。ストレージシステム６１２及びＲＡＭ６１３はそれぞれ、単一のストレージデバイスとして実装することができるが、複数のストレージデバイス又はサブシステムにわたって実装することもできる。ストレージシステム６１２及びＲＡＭ６１３はそれぞれ、処理回路６１１と通信することができるコントローラなどの追加の要素を備えることができる。

ストレージシステム６１２又はＲＡＭ６１３上又はストレージシステム内に記憶されるソフトウェア又はデータは、コンピュータプログラム命令、ファームウェア、又は処理システムが実行されると本明細書に記載されるように動作するようにプロセッサ６００に指示するプロセスを有する何らかの他の形態の機械可読処理命令を含むことができる。例えば、ソフトウェア６２０は、プロセッサ６００を駆動して、他の構成要素の中でも、ＣＰＵ、ＧＰＵ、ＳＳＤ、及びＮＩＣを含む複数の分散された物理コンピューティング構成要素間で計算ユニットを確立するためのユーザコマンドを受信することができる。ソフトウェア６２０は、テレメトリデータ、統計情報、動作データ、及び他のデータを受信及び監視して、テレメトリをユーザに提供し、テレメトリデータ、ポリシー、又は他のデータ及び基準に従って計算ユニットの動作を変更するようにプロセッサ６００を駆動することができる。ソフトウェア６２０は、とりわけ、クラスタリソース及び計算ユニットリソースを管理し、通信ファブリック要素間のドメイン分割又はＮＴ分割を確立し、個々の通信スイッチとインタフェースしてそのような通信スイッチの動作を制御するようにプロセッサ６００を駆動することができる。ソフトウェアはまた、ユーザソフトウェアアプリケーション、アプリケーション・プログラミング・インタフェース（ＡＰＩ）、又はユーザインタフェースを含むことができる。ソフトウェアは、単一のアプリケーション又は複数のアプリケーションとして実装することができる。一般に、ソフトウェアは、処理システムにロードされて実行されると、処理システムを汎用デバイスから本明細書で説明するようにカスタマイズされた専用デバイスに変換することができる。

システムソフトウェア６２０は、ＲＡＭ６１３の例示的な構成の詳細図を示す。異なる構成が可能であることを理解されたい。システムソフトウェア６２０は、アプリケーション６２１及びオペレーティングシステム（ＯＳ）６２２を含む。ソフトウェアアプリケーション６２３～６２９はそれぞれ、本明細書で説明する動作に従ってコンピューティングシステムもしくはクラスタコントローラを動作させるため、又は他の回路を動作させるためにプロセッサ６００によって実行することができる実行可能命令を含む。

具体的には、クラスタ管理アプリケーション６２３は、図１に示すように、コンピューティングプラットフォームの様々なハードウェア要素間でクラスタ及び計算ユニットを確立及び維持する。ユーザインタフェースアプリケーション６２４は、エンドユーザが関連するクラスタ及び計算ユニットを管理し、クラスタ及び計算ユニットの動作を監視するための１つ以上のグラフィカル又は他のユーザインタフェースを提供する。ジョブ処理アプリケーション６２５は、ジョブインタフェース６０２を介して実行ジョブを受信し、合成計算ユニット内のジョブの処理／実行に必要なコンピューティング構成要素の表示と共に、スケジューリング／待ち行列のために実行ジョブを解析する。ジョブ処理アプリケーション６２５はまた、ジョブの実行のために合成計算ユニットに展開される必要があるジョブソフトウェア又はデータ、並びにジョブのためにジョブインタフェース６０２を介して発信システムに転送される必要があるデータ、状態、又は結果を示す。モジュール通信アプリケーション６２６は、Ｉ２Ｃ、イーサネット、エミュレートされたネットワークデバイス、又はＰＣＩｅインタフェースなどの他のプロセッサ６００要素間の通信を行なう。モジュール通信アプリケーション６２６は、プロセッサ６００と合成計算ユニット、並びに他の要素との間の通信を可能にする。

ターゲットエイリアシングハンドラ６２７は、１つ以上のワークロードマネージャ又は他の外部エンティティによってジョブをディスパッチさせることができるジョブターゲット又はプレースホルダエンティティを提示及び管理する。ターゲットエイリアシングハンドラ６２７は、物理コンピューティング構成要素に対応する必要がないプレースホルダエンティティを含むターゲットマシンを提供する。ターゲットマシンは、それに関連するネットワークアドレス指定又は他のネットワーク特性を有することができる。ターゲットエイリアシングハンドラ６２７は、ターゲットマシンに関する状態問い合わせに応答して、コンピューティング構成要素の選択の可用性状態にかかわらず、対応する選択又はコンピューティング構成要素セットがジョブの実行に利用可能であることを示す状態応答を転送する。ジョブが合成計算ユニットにディスパッチされると、ターゲットエイリアシングハンドラ６２７は、ＡＲＰ再構成プロセスを実行して、ターゲットマシンの初期ＭＡＣアドレスからのＩＰアドレスを合成マシン又は物理計算ユニットの異なるＭＡＣアドレスに関連付けるなど、合成計算ユニットのＮＩＣのネットワークアドレス指定へのネットワークアドレス指定の転送を処理することができる。ターゲットエイリアシングハンドラ６２７はまた、ジョブの完了及び合成マシンの分解後に、合成マシンからターゲットマシンにアドレス指定するネットワークの復帰を処理する。

ユーザＣＰＵインタフェース６２８は、計算ユニットのプロセッサ及びその専用ドライバ要素と通信するための通信、ＡＰＩ、及びエミュレートされたネットワークデバイスを提供する。ファブリックインタフェース６２９は、ＰＣＩｅファブリックのＰＣＩｅスイッチ素子などの通信ファブリック回路素子間の様々な論理分割又はドメインを確立する。ファブリックインタフェース６２９はまた、ファブリックスイッチ素子の動作を制御し、ファブリックスイッチ素子からテレメトリを受信する。ファブリックインタフェース６２９はまた、通信ファブリック内にアドレストラップ又はアドレスリダイレクト機能を確立する。ファブリックインタフェース６２９は、監視及びリダイレクトされるアドレス範囲を確立するために、１つ以上のファブリックスイッチ回路要素とインタフェースすることができ、したがって、通信ファブリック内にアドレストラップを形成する。

ソフトウェア６２０に加えて、他のデータ６３０をストレージシステム６１２及びＲＡＭ６１３によって記憶することができる。データ６３０は、ジョブスケジュール６３１（又はジョブキュー）、テンプレート６３２、マシンポリシー６３３、テレメトリエージェント６３４、テレメトリデータ６３５、ファブリックデータ６３６、及びターゲットエイリアシング構成６３７を含むことができる。ジョブスケジュール６３１は、ジョブ識別子、ジョブの実行に必要なジョブリソース、並びに様々な他のジョブ情報の表示を含む。この他のジョブ情報には、受信、実行開始／終了、その他の情報のタイムスタンプを含めることができる。ジョブスケジュール６３１は、実行ジョブの実行／処理のために合成された計算ユニットに含めるために必要な実行ジョブ及び関連するコンピューティング構成要素の時間的表現を保持する１つ以上のデータ構造を含むことができる。テンプレート６３２は、予め定義された様々なハードウェアテンプレート又はマシンテンプレートの仕様又は記述を含む。テンプレート６３２はまた、テンプレート作成又はテンプレート調整に使用することができる構成要素のリスト又はデータ構造及び構成要素特性を含むことができる。マシンポリシー６３３は、以前に定義された様々なマシンポリシーの仕様又は説明を含む。これらのマシンポリシー仕様は、基準、トリガ、閾値、制限、又は他の情報のリスト、並びにポリシーの影響を受ける構成要素又はファブリックの指示を含むことができる。マシンポリシー６３３はまた、ポリシー要因、基準、トリガ、閾値、制限、又はポリシー作成もしくはポリシー調整に使用することができる他の情報のリスト又はデータ構造を含むことができる。テレメトリエージェント６３４は、計算ユニットの動作を監視するために計算ユニット内の構成要素に展開することができるソフトウェア要素を含むことができる。テレメトリエージェント６３４は、ハードウェア／ソフトウェアパラメータ、テレメトリデバイスアドレス指定、又は計算ユニット及び通信ファブリックのＩＰＭＩ準拠ハードウェア／ソフトウェアなどの監視要素とのインタフェースに使用される他の情報を含むことができる。テレメトリデータ６３５は、様々な計算ユニットのテレメトリ要素からの受信データのデータストアを含み、この受信データは、テレメトリデータ又は監視データを含むことができる。テレメトリデータ６３５は、データを計算ユニット配置、通信ファブリック配置、又は他の構造に編成することができる。テレメトリデータ６３５は、データ６３０としてキャッシュされ、その後、コンピューティングシステムの他の要素に転送されるか、又はユーザインタフェースを介した提示に使用され得る。ファブリックデータ６３６は、ファブリックタイプ、プロトコルバージョン、技術記述子、ヘッダ要件、アドレス指定情報、及び他のデータなどのリソースのプール又は構成要素のプールを含む様々な通信ファブリックの情報及び特性を含む。ファブリックデータ６３６は、構成要素と構成要素が接続する特定のファブリックとの間の関係を含むことができる。

ターゲットエイリアシング構成６３７は、物理的に利用可能なコンピューティング構成要素よりも多い数のコンピューティング構成要素を有するオーバープロビジョニングされた数のコンピューティング構成要素を示すオーバープロビジョニングレベルの選択又は指示を受信して記憶する。ターゲットエイリアシング構成６３７は、外部エンティティに提示されるターゲットの数の指示、及びそのようなターゲットの様々な構成を記憶することができる。例えば、ターゲットエイリアシング構成６３７は、オーバープロビジョニング特性、構成要素のタイプ、構成要素の数、ネットワークアドレス指定特性、又は他の特性を記憶することができる。

ソフトウェア６２０は、プロセッサ６００の実行及び動作中にＲＡＭ６１３に存在することができ、他の場所及び状態の中でも電源オフ状態中にストレージシステム６１２の不揮発性部分に存在することができる。ソフトウェア６２０は、コンピュータオペレーティングシステム及びアプリケーションについて説明したように、起動又はブート手順中にＲＡＭ６１３にロードすることができる。ソフトウェア６２０は、ユーザインタフェース６０３を介してユーザ入力を受け取ることができる。このユーザ入力は、ユーザコマンド、並びにそれらの組み合わせを含む他の入力を含むことができる。

ストレージシステム６１２は、他のソリッドステート記憶技術の中でも、ＮＡＮＤフラッシュ又はＮＯＲフラッシュメモリなどのフラッシュメモリ、相変化メモリ、磁気メモリを含むことができる。図６に示すように、ストレージシステム６１２はソフトウェア６２０を含む。前述したように、ソフトウェア６２０は、他のオペレーティングソフトウェアの中でも、プロセッサ６００の電源が切られた状態の間、アプリケーション及びＯＳのための不揮発性記憶空間内にあり得る。

プロセッサ６００は、一般に、本明細書に記載の動作をレンダリング又は他の様態で実施するために、少なくともソフトウェア６２０が展開及び実行されるコンピューティングシステムを表すことを意図している。しかしながら、プロセッサ６００はまた、少なくともソフトウェア６２０をステージングすることができ、そこからソフトウェア６２０を展開及び実行、又は更に追加の配布のために更に別のコンピューティングシステムに配布、輸送、ダウンロード、又は提供することができる任意のコンピューティングシステムに相当することもできる。

本明細書で説明するシステム及び動作は、コンピューティングユニットを備えるコンピューティングクラスタへのコンピューティングリソース（ＣＰＵ）、グラフィックス処理リソース（ＧＰＵ）、ネットワークリソース（ＮＩＣ）、又はストレージリソース（ＳＳＤ）の動的な割り当てを行なう。計算ユニットは、分解され、計算ユニットに割り当てられる（合成される）まで、未使用、未割り当て、又は自由な構成要素のプール内に存在する。管理プロセッサは、計算ユニットの合成及び分解を制御し、外部ユーザ、ジョブ管理ソフトウェア、又はオーケストレーションソフトウェアへのインタフェースを提供することができる。処理リソース及び他の要素（グラフィックス処理、ネットワーク、ストレージ、ＦＰＧＡ、又はその他）は、オンザフライでコンピューティングユニット及び関連するクラスタの内外で交換することができ、これらのリソースは他のコンピューティングユニット又はクラスタに割り当てることができる。一例では、グラフィックス処理リソースは、第１のコンピューティングリソース／ＣＰＵによってディスパッチ／調整され、続いてグラフィックス処理状況／結果を別のコンピューティングユニット／ＣＰＵに提供することができる。別の例では、リソースに障害、ハング、過負荷状態が発生した場合、追加のリソースをコンピューティングユニット及びクラスタに導入してリソースを補うことができる。

処理リソース（例えば、ＣＰＵ）には、管理プロセッサによる識別及びＰＣＩｅファブリック上の識別に使用するための一意的な識別子を割り当てることができる。オペレーティングシステム及びアプリケーションなどのユーザ供給ソフトウェアは、ＣＰＵが計算ユニットに追加された後に初期化されるときに必要に応じて処理リソースに展開することができ、ユーザ供給ソフトウェアは、それらのＣＰＵが計算ユニットから取り外されるときにＣＰＵから取り外すことができる。ユーザソフトウェアは、管理プロセッサが展開のためにアクセスすることができるストレージシステムから展開することができる。ストレージドライブ、ストレージデバイス、及び他のストレージリソースなどのストレージリソースは、計算ユニット／クラスタ間で割り当てられ、細分化され得る。これらのストレージリソースは、異なる又は類似のストレージドライブ又はデバイスにまたがることができ、任意の数の論理ユニット（ＬＵＮ）、論理ターゲット、パーティション、又は他の論理配置を有することができる。これらの論理配置は、１つ以上のＬＵＮ、ｉＳＣＳＩＬＵＮ、ＮＶＭｅターゲット、又は他の論理分割を含むことができる。ミラーリング、ストライプ、独立ディスク冗長アレイ（ＲＡＩＤ）アレイなどのストレージリソースのアレイを使用することができ、又はストレージリソース全体で他のアレイ構成を使用することができる。ネットワークインタフェースカードなどのネットワークリソースは、ブリッジ又はスパン技術を使用してクラスタの計算ユニット間で共有することができる。グラフィックリソース（例えば、ＧＰＵ）又はＦＰＧＡリソースは、ＰＣＩｅファブリック及びＰＣＩｅスイッチ上でＮＴ分割又はドメインベースの分割を使用して、クラスタの複数の計算ユニット間で共有することができる。

図で提供される機能ブロック図、動作シナリオ及びシーケンス、並びにフロー図は、本開示の新規な態様を実行するための例示的なシステム、環境、及び方法論を表す。説明を簡単にするために、本明細書に含まれる方法は、機能図、動作シナリオもしくはシーケンス、又はフロー図の形態であってもよく、一連の動作として説明されてもよいが、幾つかの動作は、それに従って、本明細書に示され説明されているものとは異なる順序で、及び／又は他の動作と同時に行われ得るため、方法は動作の順序によって限定されないことを理解及び認識されるべきである。例えば、当業者は、方法が状態図などの一連の相互に関連する状態又は事象として代替的に表され得ることを理解及び認識できる。更に、方法論において例示された全ての動作が、新規な実施のために必要とされるわけではない。

本明細書に含まれる説明及び図は、最良のオプションを作成及び使用する方法を当業者に教示するための特定の実施態様を示す。本発明の原理を教示する目的で、幾つかの従来の態様が簡略化又は省略される。当業者は、本開示の範囲内に入るこれらの実施からの変形を理解することができる。また、当業者であれば分かるように、前述の特徴を様々な方法で組み合わせて複数の実装形態を形成することができる。結果として、本発明は、前述の特定の実施態様に限定されず、特許請求の範囲及びそれらの均等物によってのみ限定される。

Claims

実行ジョブを受信することができるターゲットマシンをワークロードマネージャに提示するステップであって、前記ターゲットマシンがネットワーク状態を有するとともにコンピューティング構成要素の選択を含む、ステップと、
前記ワークロードマネージャによって発行されて前記ターゲットマシンに向けられるジョブを受信するステップと、
前記ジョブの特性に基づいて、前記ジョブを処理するためのリソース要件を決定するとともに、前記ジョブの前記リソース要件をサポートする物理コンピューティング構成要素を備える合成マシンを形成するステップと、
前記ターゲットマシンの前記ネットワーク状態を前記合成マシンに転送し、前記合成マシンの前記ネットワーク状態を前記ワークロードマネージャに示すステップと、
前記合成マシン上で前記ジョブの実行を開始するステップと、
を含む方法。
前記ターゲットマシンは、物理コンピューティング構成要素に対応しないプレースホルダエンティティを備える、請求項１に記載の方法。
前記プレースホルダエンティティに関する状態問い合わせに応答して、選択したコンピューティング構成要素がコンピューティング構成要素の前記選択の利用可能性状態に関係なく前記ジョブの実行に利用可能であることを示す状態応答を転送する、請求項２に記載の方法。
前記ネットワーク状態は、前記ターゲットマシンに対応するネットワークソケットを備える、請求項１に記載の方法。
前述ターゲットマシンに最初に対応するＩＰアドレスが代わりに前記合成マシンのＭＡＣアドレスに対応するように少なくとも媒体アクセス制御（ＭＡＣ）アドレス関係を変更することによって前記ネットワーク状態を転送するステップ、
を更に含む、請求項４に記載の方法。
前記コンピューティング構成要素の選択は、物理的に利用可能な数よりも多い数のコンピューティング構成要素を有するオーバープロビジョニングされた数のコンピューティング構成要素を備える、請求項１に記載の方法。
物理コンピューティング構成要素のプールの中から前記物理コンピューティング構成要素を選択するステップと、
前記物理コンピューティング構成要素の前記プールを結合する少なくとも１つの通信ファブリックに、前記合成マシンを確立するために前記通信ファブリックにおいて論理分割を形成するように命令するステップであって、前記論理分割が、前記合成マシンの前記物理コンピューティング構成要素を前記物理コンピューティング構成要素のプールの他の物理コンピューティング構成要素から分離する、ステップと
を更に含む、請求項１に記載の方法。
前記物理コンピューティング構成要素のプールは、少なくとも前記通信ファブリックに結合される中央処理ユニット（ＣＰＵ）、コプロセッシングユニット、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ストレージドライブ、及びネットワークインタフェースコントローラ（ＮＩＣ）のうちの１つ以上を備える、請求項７に記載の方法。
前記ジョブの完了に応答して、前記合成マシンを分解し、前記合成マシンの前記ネットワーク状態を前記ターゲットマシンに転送するステップ、
を更に含む、請求項１に記載の方法。
１つ以上のコンピュータ可読記憶媒体と、
前記１つ以上のコンピュータ可読記憶媒体と動作可能に結合される処理システムと、
前記１つ以上のコンピュータ可読記憶媒体に記憶されるプログラム命令であって、前記処理システムによって実行されることに基づいて、少なくとも、
実行ジョブを受信できるターゲットマシンをワークロードマネージャに提示し、前記ターゲットマシンがネットワーク状態を有するとともにコンピューティング構成要素の選択を含み、
前記ワークロードマネージャによって発行されて前記ターゲットマシンに向けられるジョブを受信し、
前記ジョブの特性に基づいて、前記ジョブを処理するためのリソース要件を決定し、前記ジョブの前記リソース要件をサポートする物理コンピューティング構成要素を備える合成マシンを形成し、
前記ターゲットマシンの前記ネットワーク状態を前記合成マシンに転送して、前記合成マシンの前記ネットワーク状態を前記ワークロードマネージャに示し、
前記合成マシン上で前記ジョブの実行を開始する、
ように前記処理システムに指示する、プログラム命令と、
を備える装置。
前記ターゲットマシンは、物理コンピューティング構成要素に対応しないプレースホルダエンティティを備える、請求項１０に記載の装置。
前記処理システムによって実行されることに基づいて、少なくとも、
前記プレースホルダエンティティに関する状態問い合わせに応答して、選択したコンピューティング構成要素がコンピューティング構成要素の前記選択の利用可能性状態に関係なく前記ジョブの実行に利用可能であることを示す状態応答を転送する、
ように前記処理システムに指示するプログラム命令を含む、請求項１１に記載の装置。
前記ネットワーク状態は、前記ターゲットマシンに対応するネットワークソケットを備える、請求項１０に記載の装置。
前記処理システムによって実行されることに基づいて、少なくとも、
前記ターゲットマシンに最初に対応するＩＰアドレスが代わりに前記合成マシンのＭＡＣアドレスに対応するように少なくとも媒体アクセス制御（ＭＡＣ）アドレス関係を変更することによって前記ネットワーク状態を転送する、
ように前記処理システムに指示するプログラム命令を含む、請求項１３に記載の装置。
前記コンピューティング構成要素の選択は、物理的に利用可能な数よりも多い数のコンピューティング構成要素を有するオーバープロビジョニングされた数のコンピューティング構成要素を備える、請求項１０に記載の装置。
前記処理システムによって実行されることに基づいて、少なくとも、
物理コンピューティング構成要素のプールの中から前記物理コンピューティング構成要素を選択し、
前記物理コンピューティング構成要素の前記プールを結合する少なくとも１つの通信ファブリックに、前記合成マシンを確立するために前記通信ファブリックにおいて論理分割を形成するように命令し、前記論理分割が、前記合成マシンの前記物理コンピューティング構成要素を前記物理コンピューティング構成要素のプールの他の物理コンピューティング構成要素から分離する、
ように前記処理システムに指示するプログラム命令を含む、請求項１０に記載の装置。
前記物理コンピューティング構成要素のプールは、少なくとも前記通信ファブリックに結合される中央処理ユニット（ＣＰＵ）、コプロセッシングユニット、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ストレージドライブ、及びネットワークインタフェースコントローラ（ＮＩＣ）のうちの１つ以上を備える、請求項１６に記載の装置。
ジョブインタフェースであって、
ジョブ実行のための架空のターゲットとしてコンピューティングターゲットを提示し、前記コンピューティングターゲットがそれぞれ、アドバタイズされたコンピューティング構成要素の関連するセット及び対応するネットワークアドレス指定を有し、
対応するネットワークアドレスを有する選択されたコンピューティングターゲットに向けられる実行のためのジョブを受信する、
ように構成されるジョブインタフェースと、
コントローラであって、
物理コンピューティング構成要素のプールから前記ジョブの実行をサポートするのに必要な物理コンピューティング構成要素のセットを選択し、
前記物理コンピューティング構成要素のセットを備える物理コンピューティングノードを合成し、
前記選択されたコンピューティングターゲットの代わりに対応するネットワークアドレスを介して通信するように前記物理コンピューティングノードを構成し、
処理のために前記物理コンピューティングノードに前記ジョブを展開する、
ように構成されるコントローラと、
を備えるコンピューティングシステム。
アドバタイズされたコンピューティング構成要素の前記関連するセットのそれぞれは、前記物理コンピューティング構成要素のプールから利用可能な数よりも多くの数のコンピューティング構成要素を備える、請求項１８に記載のシステム。
前記コントローラは、
通信ファブリックにおいて論理分割を形成して前記物理コンピューティングノードを確立するように前記物理コンピューティング構成要素の前記プールを結合する少なくとも１つの前記通信ファブリックに命令するべく構成され、前記論理分割は、前記物理コンピューティングノードの前記物理コンピューティング構成要素を前記物理コンピューティング構成要素の前記プールの他の物理コンピューティング構成要素から分離し、
前記物理コンピューティング構成要素のプールは、少なくとも前記通信ファブリックに結合される中央処理ユニット（ＣＰＵ）、コプロセッシングユニット、グラフィックス処理ユニット（ＧＰＵ）、テンソル処理ユニット（ＴＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ストレージドライブ、及びネットワークインタフェースコントローラ（ＮＩＣ）のうちの１つ以上を備える、
請求項１８に記載のシステム。