JP7379668B2

JP7379668B2 - 機械学習ワークロードのためのタスクスケジューリング

Info

Publication number: JP7379668B2
Application number: JP2022514245A
Authority: JP
Inventors: ワン，ジュエ; フアン，ホイ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-11-20
Filing date: 2020-09-08
Publication date: 2023-11-14
Anticipated expiration: 2040-09-08
Also published as: US20210149729A1; JP2024020271A; CN114503077A; EP4062281A1; WO2021101617A1; US11544113B2; US20230136661A1; KR20220038497A; JP2023511467A

Description

背景
本明細書は、概して、計算ワークロードのタスクをスケジューリングすることと、計算ワークロードのタスクを実行するために使用されるリソースを割り当てることとに関する。

分散コンピューティングシステムは、一般に、中央処理装置（ＣＰＵ）、ストレージコンポーネント、および画像／音声処理アクセラレータ、映像トランスコーディングアクセラレータまたはニューラルネットワークプロセッサ（たとえば機械学習（ＭＬ）アクセラレータ）などのさまざまなリソースを含む。これらのリソースは、対話して、ＭＬシステムを訓練するためのワークロード、または画像を分類するためのもしくは音声認識用のトランスクリプションを生成するための推論ワークロードなどの一例としての計算ワークロードのタスクを処理することができる。

ワークロードを処理する既存のスキームでは、定期的にメモリにアクセスし、互いに非ローカルの（またはリモートの）分散システム内の計算リソース間またはリソースのグループ間でデータ通信をやり取りすることが必要である。このような非ローカルメモリアクセス動作およびデータ通信は帯域幅を多用することが多いため、クロスソケット（たとえばリモート）動作用のホストの帯域幅が制限されている場合は計算クラスタの性能ボトルネックにつながる可能性がある。

概要
本文書には、大規模分散システム内の複数のホストにわたるリソースのそれぞれのグループにワークロードのタスクを割り当てることによって、機械学習（ＭＬ）ワークロードを処理する際のスケジューリングおよびリソース割り当てを改善する技術が記載されている。本文書に記載されている技術を使用して、分散システムを、分散システムの共有または共通のハードウェアバスを介してデータ通信をやり取りするリソースのグループにワークロードの各タスクを割り当てるように構成することができる。この割り当てスキームは、リソースグループの非均一メモリアクセス（non-uniform memory access：ＮＵＭＡ）トポロジに基づくリソース局所性を利用することによってワークロード処理時間を短縮することができる。いくつかの例において、記載されている技術を使用して、ハードウェアアクセラレータのフリートに対してＮＵＭＡ認識スケジューリングを実行することにより、分散システムの個別のテンソル処理ノードで行われるニューラルネットワーク計算を加速させることができる。

本明細書に記載されている主題の一局面は、ハードウェアアクセラレータを使用して、機械学習ワークロードを実行するためのタスクをスケジューリングしてリソースを割り当てる方法であって、上記ハードウェアアクセラレータの各々は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成される方法で具体化することができる。上記方法は、機械学習（ＭＬ）ワークロードを実行する要求を受信することと、上記要求に基づいて、複数のホストを含む分散処理システムにおいて上記ＭＬワークロードを実行するためのリソース要件を決定することとを含み、上記複数のホストのうちの各ホストはそれぞれの複数のハードウェアアクセラレータを含み、上記方法はさらに、上記リソース要件と各ホストの上記それぞれの複数のハードウェアアクセラレータとに基づいて、上記ＭＬワークロードを形成するタスクのセットからそれぞれのタスクを実行するように各々が割り当てられる多数のホストを決定することを含む。

上記方法は、上記多数のホストのうちの各ホストについて、上記ホストのメモリアクセストポロジに基づいて、上記それぞれの複数のハードウェアアクセラレータを含む上記ホストのリソースを使用して上記ホストで実行されるように割り当てられた上記タスクを指定するそれぞれのタスク仕様を生成することと、上記それぞれのタスク仕様を上記多数のホストのうちの上記ホストに提供することと、上記多数のホストのうちの各ホストが上記ホストの上記それぞれのタスク仕様で指定された上記タスクを実行することによって、上記ＭＬワークロードを実行することとを含む。

これらおよび他の実現例の各々は、任意に以下の特徴のうちの１つ以上を含み得る。たとえば、いくつかの実現例において、各ホストの上記メモリアクセストポロジは、上記ホストに対してローカルであるそれぞれのメモリを含むそれぞれの非均一メモリアクセス（ＮＵＭＡ）トポロジを含み、上記それぞれのメモリは、上記それぞれのメモリを上記それぞれの複数のハードウェアアクセラレータのうちの各ハードウェアアクセラレータと上記ホストの１つ以上の他のリソースとに結合するソケットインターフェイスを含む。

いくつかの実現例において、上記それぞれのタスク仕様で指定された上記タスクを実行することは、複数のニューラルネットワーク計算のそれぞれの部分を上記それぞれの複数のハードウェアアクセラレータのうちの各ハードウェアアクセラレータに割り当てたことに応答して、上記複数のニューラルネットワーク計算を行って、上記複数のニューラルネットワーク層のうちの各ニューラルネットワーク層の出力を生成することを含む。

いくつかの実現例において、上記ＭＬワークロードを実行することは、上記ホストの制御グループの各リソースを使用して、かつ、上記それぞれのメモリと、上記ハードウェアアクセラレータと、上記ホストの上記リソースに含まれるそれぞれのプロセッサとの間でやり取りされるデータに基づいて、上記それぞれのタスク仕様についての命令を処理することを含む。

いくつかの実現例において、上記ＭＬワークロードを実行することは、上記ホストの上記制御グループの各リソースをリンクするハードウェアソケットを介してやり取りされている上記データに基づいて上記命令を処理したことに応答して、上記それぞれのタスク仕様で指定されたタスクを実行することを含み、上記ハードウェアソケットは、上記ホストによって管理される複数のリソース間で共有されるローカル通信バスを規定する。

いくつかの実現例において、第１のホストのそれぞれのＮＵＭＡトポロジは、一部が、ｉ）上記第１のホストに対してローカルであるリソースのそれぞれの構成におけるそれぞれの第１のメモリと、ｉｉ）第２の異なるホストに対してはローカルであるが上記第１のホストに対してはリモートであるリソースのそれぞれの構成におけるそれぞれの第２の異なるメモリとに基づく。

いくつかの実現例において、上記多数のホストを決定することは、上記複数のホストのうちの各ホストによって管理されるリソースの構成を記述するシステムファイルを取得することと、上記複数のホストのうちの各ホストの上記システムファイルに記述されている上記リソースの構成に基づいて、上記多数のホストを決定することとを含む。いくつかの実現例において、上記方法は、上記複数のホストのうちの各ホストのＮＵＭＡソケットのマッピングを記述するシステムファイルに基づいて、上記ホストのリソースを結合する１つ以上のソケットを特定することと、上記ホストの上記リソースを結合する上記１つ以上のソケットに基づいて、上記ホストの制御グループを形成することとを含む。

いくつかの実現例において、上記方法は、上記制御グループ内のアクセラレータのための１つ以上のソケットインターフェイスに基づいて、上記タスク仕様のＭＬタスクを上記ホストの上記制御グループに割り当てることを含み、上記ソケットインターフェイスは上記システムファイルに記述されている上記ＮＵＭＡソケットのマッピングに含まれており、上記方法はさらに、上記制御グループ内の上記アクセラレータを使用して、上記ＭＬタスクを上記制御グループの下でプロセスとして実行することを含む。

このおよび他の局面の他の実現例は、非一時的なコンピュータ読取可能記憶装置上に符号化された、方法のアクションを実行するように構成された対応するシステム、装置、およびコンピュータプログラムを含む。１つ以上のコンピュータのシステムは、動作時にシステムにアクションを実行させる、システムにインストールされたソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせによってそのように構成され得る。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると装置にアクションを実行させる命令を有することによってそのように構成され得る。

本明細書に記載されている主題の一局面は、ワークロードを実行する要求を受信し、上記要求に基づいて、上記ワークロードを実行するためのリソース要件を決定するシステムで具体化することができる。上記システムは複数のホストを含み、各ホストは複数のアクセラレータを含む。上記システムは、上記リソース要件と各ホストの上記アクセラレータとに基づいて、上記ワークロードのタスクを実行するように割り当てられる多数のホストを決定する。上記システムは、上記多数のホストのうちの各ホストについて、上記ホストのメモリアクセストポロジに基づいてタスク仕様を生成する。上記仕様は、上記複数のアクセラレータを含む上記ホストのリソースを使用して上記ホストで実行すべき上記タスクを指定する。上記システムは、上記タスク仕様を上記ホストに提供し、各ホストが上記ホストの上記タスク仕様で指定されている割り当てられたタスクを実行するときに上記ワークロードを実行する。

本明細書に記載されている主題は、以下の利点のうちの１つ以上を実現するように特定の実施形態において実現することができる。本文書に記載されている技術は、システムのホストがワークロードのタスクを実行するときに非ローカルメモリアクセス動作およびデータ通信の発生を減らすまたは防止することによって、システムの性能ボトルネックを緩和することができる。従前のアプローチと比べて、記載されている技術を使用して、システムの各ホストによって管理されるリソースまたはリソースのグループの非均一メモリアクセス（ＮＵＭＡ）トポロジに基づくリソース局所性を利用することによって、ワークロードの処理に必要な時間を短縮することができる。

本明細書に記載されている主題の１つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。主題の他の潜在的な特徴、局面、および利点は、説明、図面、および請求項から明らかになるであろう。

機械学習ワークロードを実行するために実行されるタスクをスケジューリングするコンピューティングシステムの一例のブロック図である。図１のコンピューティングシステムに含まれるホストによって管理されるリソースの一例のブロック図である。機械学習ワークロードを実行するためのタスク仕様を生成するように実行され得る計算論理の一例を示す図である。機械学習ワークロードを実行するために実行されるタスクをスケジューリングするプロセスの一例を示す図である。図１のコンピューティングシステムのホストに提供されるタスク仕様を生成するプロセスの一例を示す図である。

詳細な説明
さまざまな図面における同様の参照番号および名称は、同様の要素を示す。

分散システムは、計算ワークロードを実行するために使用されるハードウェアデバイスを含む複数のノード（たとえばホスト）を有する。ノードは、データを処理してワークロードを実行する個々のハードウェア計算クラスタ、またはクラスタ内のホストデバイスを形成し得る。各ノードは複数のリソースを含み得る。たとえば、リソースは、プロセッサもしくはＣＰＵ、メモリ、または周辺コンポーネント相互接続（ＰＣＩ）デバイス（たとえばハードウェアアクセラレータ）であってもよく、各ホストは、リソースグループを形成する複数のリソースを含み得る。

各リソースは、あるノード内のいくつかのリソースを他のリソースに対してリモートまたはローカルにする特定のハードウェアまたはソケット接続を有し得る。分散システムにおいてワークロードを処理するアプローチでは、メモリにアクセスし、互いに非ローカルの（またはリモートの）リソース間でデータを移動させることを含む動作を実行しなければならないことが多い。上述のように、このような非ローカルメモリアクセスおよびデータ転送動作は、クロスソケット（たとえばリモート）動作用の帯域幅が制限されているクラスタまたはホストの性能ボトルネックにつながる可能性がある。

この文脈において、分散システム内の計算クラスタにおける計算ワークロードのタスクをスケジューリングすることと、計算ワークロードを形成するタスクを実行するために使用されるシステムのリソースを割り当てることとを改善する技術が記載されている。スケジューリングに関して、この技術は、ワークロード（たとえばＭＬワークロード）のタスクを、大規模分散システムの個々のホストによって管理されるリソースのそれぞれのグループに割り当てる、改善されたプロセスを含む。たとえば、システムは、ワークロードの特定のタスクをリソースの特定のグループに割り当てるように構成され、グループ内の個別のリソースは、分散システムの共有または共通のハードウェアバスを介してデータ通信をやり取りする。特定のタスクをホストの特定のリソースグループに割り当てるプロセスは、計算クラスタ内のリソース局所性を利用することによって実行され、局所性はリソースグループの非均一メモリアクセス（ＮＵＭＡ）トポロジに基づく。

また、分散システムの別個の計算クラスタ内の複数のホストにわたってＮＵＭＡ認識タスクスケジューリングおよびリソース割り当てを実行するアプローチを提供する技術が記載されている。たとえば、計算クラスタのコントローラは、ＮＵＭＡ局所性を必要とするワークロードのジョブまたはタスクを記述するプロトコルビットのセットを渡すことができる。この技術は、ＣＰＵと、メモリと、周辺コンポーネント相互接続（ＰＣＩ）デバイス（たとえばハードウェアアクセラレータ）とを含むリソースグループなどのリソースまたはデバイスの特定のセットに１つ以上のタスクを割り当てることによって、クラスタのまたはクラスタ内のホストのＮＵＭＡ局所性を活用する。

複数のリソースグループを管理するホストは、クラスタのマスターコントローラによって渡されたプロトコルビットを受信および処理するように動作可能である。たとえば、ホストは、そのリソースグループの決定されたソケットトポロジに基づいてプロトコルビットを処理し、プロトコルビットによって指定されたワークロードの特定のジョブまたは部分のタスクを実行するために、同じＮＵＭＡソケットからのリソースの特定のセットを割り当てる。ホストは、タスク仕様の機械学習タスクのセットを、ホストで構築されたリソースグループ（または制御グループ）にバインドするまたは割り当てるように動作可能である。たとえば、ホストは、プロトコルビットによって伝達された情報に基づいて、タスクを所与のリソースグループにバインドして、所与のタスクについての計算の性能または実行を劣化させる可能性がある非ローカルメモリまたはデータアクセス動作の発生を減らすまたは防止することができる。

ＮＵＭＡ認識タスクスケジューリングおよびリソース割り当てのための記載されているアプローチは、分散システムが、ＮＵＭＡ局所性の使用を最適化して、特定のワークロードを実行するための帯域幅要件を減らして計算時間を改善することを可能にする。たとえば、これは、少なくともクラスタのＮＵＭＡ局所性の活用に基づいて達成することができ、これによって、クロスソケットまたはクロスノード通信を減らすことができるように、特定のタイプのタスクが、同一場所に配置されたデバイスまたはリソースグループの特定のセットに割り当てられるので、他の計算用の帯域幅が解放される。

図１は、計算ワークロードを実行するために実行されるタスクをスケジューリングする一例としての分散コンピューティングシステム１００のブロック図である。システム１００は、複数の計算クラスタ１０２を含む大規模分散ハードウェアコンピューティングシステムであり得るものであり、各クラスタ１０２は複数のホスト１０４を含み、各ホスト１０４は複数の計算リソース１０５を含む。

リソースの１つ以上のグループは分散システム１００のホスト１０４によって管理することができ、複数の計算クラスタ１０２の各々は複数のホスト１０４を含み得る。より具体的には、各ホスト１０４は、リソースのグループを形成する２つ以上の個別のリソース１０５を管理するように構成される。あるいは本明細書では、ホスト１０４によって管理されるリソースのグループをリソースグループと呼ぶこともある。このため、ある場合には、リソース１０５は、１つのプロセッサまたはメモリデバイスなどの個別のリソースを表し得るが、他の場合には、リソース１０５は、２つ以上のプロセッサ、２つ以上のメモリバンク、２つ以上のハードウェアアクセラレータ、または各々の組み合わせなどの複数のリソースを表し得る。ホスト１０４のリソースグループは図２を参照して以下でより詳細に説明する。

いくつかの実現例において、ホスト１０４はハードウェアコンピューティングデバイス（たとえばコンピュータまたはサーバ）である。いくつかの実現例において、ホスト１０４は、分散システム（もしくは計算クラスタ）の仮想マシン、計算リソース１０５のグループを管理するためのソフトウェア構造体、またはそれら両方である。システム１００はＭ個の計算クラスタ１０２を含み得るものであり、Ｍ個の計算クラスタのうちの各計算クラスタ１０２はＮ個のホストを含み得るものであり、ＭおよびＮの各々は１以上の整数である。

いくつかの実現例において、計算クラスタ１０２の各々は、クラスタ１０２のホスト１０４を形成するマシン（たとえばハードウェアまたは仮想マシン）のセットを含む。図１に示されるように、１つのクラスタ１０２は、ワークロードのタスクをクラスタ１０２内のホスト１０４の１つ以上に割り当てるように各々が機能する複数のコントローラ１０８を含み得る。

計算クラスタ１０２の各々は、クラスタ１０２のマスターコントローラ１０８（「コントローラ１０８」）と通信するスケジューラ１０６と、マスターコントローラ１０８がアクセス可能なリンクシャード１１０とを含み得る。コントローラ１０８は、タスク仕様を生成し命令およびコマンドを準備してホスト１０４に送信する役割と、ホスト１０４からの応答に基づいてホスト１０４の現在の処理状態を更新する役割とを果たす。いくつかの実現例において、各コントローラ１０８は、ホスト１０４のサブセットとの通信を管理するステータス論理１１０を含む。たとえば、ステータス論理１１０は、ホスト１０４の処理状態に関する情報を取得するコマンドをホスト１０４のサブセットに送信するように、かつホスト１０４から応答を受信するように、コントローラ１０８によって実行される。たとえば、ステータス論理１１０を使用して、割り当てられたタスクが完了したか処理中であるかを示すホストレポートを受信して処理する。ホストの処理状態に関する情報を取得する試行回数がしきい値を超えてもホスト１０４がステータスレポートを提供しない場合は、ステータス論理１１０は、ホスト１０４に割り当てられたタスクが停止していると判断してもよい。ある場合には、ステータス論理１１０は、ホスト１０４によって報告された処理状態情報を集計して圧縮することにより、マスターコントローラ１０８で受信される更新負荷のサイズを小さくするように動作可能である。

以下でより詳細に説明するように、スケジューラ１０６とコントローラ１０８とが対話または通信して、ホストで実行するためのワークロードのタスクをスケジューリングして特定のホスト１０４に割り当てる。スケジューラ１０６は図１ではコントローラ１０８とは別個であるとして示されているが、コントローラ１０８に統合されてもよい。いくつかの実現例において、スケジューラ１０６は計算クラスタ１０２の任意の処理要素であり、その機能は、コントローラ１０８で構成される割り当ておよび制御機能に統合されてもよい。

コントローラ１０８は、少なくとも、１つ以上のワークロードを実行する要求１１２と、ホスト１０４によって管理されるリソースのハードウェア構成とに基づいて、ワークロードのタスクを割り当てるように動作可能である。たとえば、コントローラ１０８の各々は、クラスタ１０２で受信された要求１１２内のパラメータに基づいて、かつ、ホスト１０４に含まれるリソース１０５（またはリソースグループ）のハードウェアソケットトポロジに基づいて、命令を生成する論理集中型コントローラであり得る。いくつかの実現例において、ホスト１０４のサブセット内の各ホスト１０４は、特定のマスターコントローラ１０８の下で「スレーブ」計算資産として構成される。この実現例において、マスターコントローラ１０８は、要求１１２内のパラメータと、特定のマスターコントローラ１０８の下で「スレーブ」であるホスト１０４のサブセットの各ホスト１０４におけるハードウェアソケットトポロジとに基づいて、命令を生成する。

ホスト１０４は、マシンまたはハードウェアデバイスに対応する複数のリソース１０５、たとえば数百または数千のリソースまたはデバイスを含み得る。ホスト１０４内のリソース１０５は、多くの点で多様または異種であり得る。たとえば、ホスト１０４によって管理されるリソース１０５の各グループは、処理装置（たとえばＣＰＵ、ＲＡＭ、ディスク、ネットワーク）、プロセッサタイプ、処理速度、性能、および外部ＩＰアドレスまたはフラッシュストレージなどの能力に関して異なり得る。より具体的には、各計算クラスタ１０２について、クラスタ１０２内の複数のホスト１０４の各々は、ホストの他のリソースと対話してワークロードのタスクを実行する１つ以上の専用ハードウェア回路を含む。

たとえば、専用ハードウェア回路は、ハードウェアアクセラレータ、グラフィックス処理装置（ＧＰＵ）ハードウェアアクセラレータ、またはニューラルネットワークプロセッサであり得る。図１の例では、システム１００は、第１のホスト１０４－１、第２のホスト１０４－２、第３のホスト１０４－３、およびＮ個の追加のホスト１０４－ｎを含み得る。いくつかの実現例において、第１のホスト１０４－１の専用回路およびリソース１０５は、第２のホスト１０４－２の専用回路およびリソース１０５とは（たとえばわずかにまたは大きく）異なってもよい。

たとえば、第１のホスト１０４－１は、位置ベースの分析およびインメモリ分析またはＧＰＵ加速データベースクエリを実行するように各々が構成された１０個のＧＰＵハードウェアアクセラレータを含み得るものであり、第２のホスト１０４－２は、畳み込みニューラルネットワーク（ＣＮＮ）モデルまたは回帰型ニューラルネットワーク（ＲＮＮ）モデルを実行するように各々が構成された２０個のニューラルネットワークプロセッサを含み得る。いくつかの実現例において、この２０個のニューラルネットワークプロセッサは、訓練された推論モデルに対してバイナリを実行し、浮動小数点ベースの推論モデル、整数量子化推論モデル、またはその両方の実行を加速させるように構成されてもよい。

システム１００は、コントローラ１０８を使用して、特定のホスト１０４の１つ以上のマシン上で実行可能なタスクなどの個々のタスクの実行を割り当てて制御するための命令を生成する。特定のタスクをホスト１０４の特定のリソースグループに割り当てるための決定は、計算クラスタ１０２のホスト１０４内のリソース局所性を利用することに特に重点を置いて行われる。リソース局所性は、以下に説明するように、ホスト１０４におけるリソースグループのハードウェアトポロジに基づき、より具体的にはリソースグループの非均一メモリアクセス（ＮＵＭＡ）トポロジに基づく。

システム１００は、各計算クラスタ１０２およびこの計算クラスタの各ホスト１０４のハードウェアトポロジを含むシステムトポロジを生成するように構成される。ハードウェアトポロジは、ｉ）ホストの複数のデバイスおよびリソースの接続性（たとえばソケット接続およびインターフェイス）と、ｉｉ）ホスト１０４のリソース１０５間のデータ転送を可能にするローカル通信バスとを特定するように構成される。

システム１００は、ホスト１０４内のハードウェアソケットの接続点またはコンポーネントインターフェイスに結合された各リソースまたは周辺デバイスの位置を特定するように構成される。たとえば、ホスト１０４は、ホスト１０４によって管理されるハードウェアコンピュータのシステムＢＩＯＳに関連付けられたプログラムコード（たとえばファームウェア）を実行して、コンピュータのマザーボードに結合されたリソース１０５（たとえばプロセッサおよびメモリ）のリソース位置およびタイプを特定することができる。いくつかの実現例において、ホスト１０４のオペレーティングシステムは、ハードウェアコンピュータのチップセットを使用して、ホスト１０４によって管理されるコンピュータにおいて接続されているデータバスおよび周辺デバイスに関する情報の詳細なリストを取得することができる。たとえば、リストは、コンピュータのプロセッサ上で実行されるオペレーティングシステムの相互接続構成空間を表す共通のポータブル相互接続ライブラリ（たとえばｌｉｂｐｃｉ）に基づき得る。

コントローラ１０８は、タスクを実行するために各ホスト１０４に未処理の命令を送信するように、かつ、ホスト１０４で管理されている特定のマシンまたはリソースグループ１０５の現在の処理状態に関する情報を取得するコマンドを各ホスト１０４に送信するように、動作可能である。いくつかの実現例において、コントローラ１０８は、処理状態に関する情報を取得するコマンドを動的に送信する。これに代えて、コントローラ１０８は、予め定められたスケジュール（たとえば数秒ごと）を参照して、処理状態に関する情報を取得するコマンドを送信してもよく、スケジュールはホスト１０４で実行中の特定のタスクに基づく。一般に、各コントローラ１０８は、コントローラ１０８がホスト１０４に送信する命令およびコマンドに基づいて、ホストのさまざまなリソース間および異なるリソースグループ間のそれぞれの通信速度を制御するように動作可能である。

図２は、一例としての計算クラスタ１０２のホスト１０４によって管理される一例としてのリソースグループ２００のブロック図を示す。上述のように、ホスト１０４は、マシンまたはハードウェアデバイスに対応する数百または数千のリソースを含み得る。ホスト１０４のリソースグループ内のリソース１０５は、多くの点で多様または異種であり得る。たとえば、ホスト１０４によって管理されるリソース２００の各グループは、処理装置（たとえばＣＰＵ、ＲＡＭ、ディスク、ネットワーク）、プロセッサタイプ、処理速度、全体性能、および外部ＩＰアドレスまたはフラッシュストレージなどの能力に関して異なり得る。

図２に示されるように、各ホスト１０４のメモリアクセストポロジは、ホスト１０４によって管理される１つ以上のリソースグループ２００のそれぞれの非均一メモリアクセス（ＮＵＭＡ）トポロジまたはソケット２０２－１、２０２－２を含み得る。リソースグループ２００のＮＵＭＡトポロジは、複数のプロセッサ（Ｐ）２０４、または複数のプロセッサコア（Ｐ）と、メモリリソース、たとえばランダムアクセスメモリ（ＲＡＭ）と、ハードウェアアクセラレータ２０８などの１つ以上の専用回路とを含み得る。ＮＵＭＡトポロジの個々のリソースは、ＮＵＭＡソケット２０２－１または２０２－２のいずれかに対応するローカルＮＵＭＡノードを形成し得る。

たとえば、ローカルＮＵＭＡノードは、共有または共通のハードウェアバス２１０を介してデータ通信をやり取りするグループ内のリソースに基づいて形成されてもよい。ローカルＮＵＭＡノード内の各リソースは、リソースがこのノードにおいてインターフェイス（またはソケット）接続を介して共通ソケットに接続される場合は、別のリソースに対してローカルであってもよい。いくつかの実現例において、各ハードウェアアクセラレータ２０８は、ＰＣＩまたはＰＣＩ－ｅソケット接続を介してＮＵＭＡノードの他のリソースに接続する。

本明細書において、ＮＵＭＡは分散多重処理システムに使用されるコンピュータメモリ設計に関連し、メモリアクセス時間はプロセッサ（Ｐ）２０４またはプロセッサコアに対するメモリ位置によって決まる。ＮＵＭＡの下では、プロセッサ２０４は、別のプロセッサに対してローカルであるメモリ２０６－２またはプロセッサ間で共有されるメモリなどの非ローカルメモリよりも、自身のローカルメモリ２０６－１に速くアクセスすることができる。

一例としてのリソースグループ２０２は、複数の相互接続位置２１２を含み得る。たとえば、相互接続位置２１２－１および２１２－２の各々は、ホスト１０４のメモリ２０６－１とハードウェアアクセラレータ２０８との間など、ホスト１０４のリソース１０５の間にデータ接続を確立するためのそれぞれのコンポーネントインターフェイスに対応し得る。いくつかの実現例において、リソースグループ２００のリソース１０５は、ＮＵＭＡソケット２０２－１のローカルリソースをリンクするハードウェアソケットを介してデータ通信をやり取りし、ハードウェアソケットは、ホスト１０４によって管理される複数のリソース間で共有されるローカル通信バス２１０を規定する。

いくつかの実現例において、第１のＮＵＭＡソケット２０２－１のそれぞれのＮＵＭＡトポロジは、一部が、ｉ）ＮＵＭＡソケット２０２－１に対してローカルであるリソースのそれぞれの構成におけるそれぞれの第１のメモリ２０６－１と、ｉｉ）第２の異なるＮＵＭＡソケット２０２－２に対してはローカルであるが第１のＮＵＭＡソケット２０２－１に対してはリモートであるリソースのそれぞれの構成におけるそれぞれの第２の異なるメモリ２０６－２とに基づく。

図３は、計算ワークロードを実行するためにシステム１００で実行される計算論理３０２に基づく、一例としてのタスク仕様３００を示す。図３に示されるように、論理３０２は、各々が命令（たとえばプログラムされたコード／命令）を含む複数の計算ブロックを含み得る。命令は、コントローラ１０８の処理装置、ホスト１０４の処理装置および他のリソース１０５、または各々の組み合わせを使用して、システム１００で実行され得る。

計算論理３０２は、システム１００でＭＬワークロードを実行するためのタスクをスケジューリングしてリソースを割り当てるための一例としてのタスク仕様３００のプログラム表現であり得る。いくつかの実現例において、ＭＬワークロードは、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように各々が構成されたハードウェアアクセラレータを使用して実行される。命令は、システム１００の１つ以上の非一時的な機械読取可能記憶媒体に格納され得るものであり、動作を実行させてワークロードのタスクを実行するようにシステム１００の１つ以上のプロセッサによって実行可能である。

たとえば、動作を実行して、ＭＬワークロードのタスクを実行するために特定のホスト１０４に提供される（たとえばタスク仕様のための）命令およびプロトコルビットを生成することができる。いくつかの実現例において、プロトコルビットは、符号化信号、２進値のデータワード、または他の関連パラメータもしくはデータ値によって表される。符号化信号および２進値をホスト１０４で受信および処理（または解釈）して、タスク仕様のタスクの割り当てを決定する。一般に、各ホスト１０４は、ホスト１０４に割り当てられ得る複数の異なるワークロードのタスクを含むワークロードの１つ以上のタスクを走らせるまたは実行するように構成される。要求１１２が計算クラスタ１０２によって受信されると、クラスタ１０２のスケジューラ１０６とコントローラ１０８とが対話して要求１１２をスキャンする。

たとえば、コントローラ１０８は、要求１１２をスキャンして、ワークロード内のさまざまなタスクのＣＰＵ、メモリ、およびアクセラレータ要件を指定する要求１１２内のパラメータ（たとえばプロトコルビット）を特定してもよい（３０４）。コントローラ１０８は、要求１１２内のパラメータおよび値に基づいて、一例としてのワークロードは１６個のタスクを含み、各タスクは９６個のＣＰＵおよび４個の専用回路（たとえばハードウェアアクセラレータ）の全リソース割り当てを必要とすることを決定してもよい。たとえば、要求１１２は、１６個のタスクの各々を実行するために使用すべきハードウェアアクセラレータの数（４）を指定するスカラーリソースパラメータを含み得る。いくつかの実現例において、スカラーリソースパラメータは、ワークロードを処理するために使用すべきハードウェアアクセラレータのタイプを指定するサブタイプを含み得る。たとえば、サブタイプは、４つのハードウェアアクセラレータの各々が、特徴認識のために訓練されたモデルの実行を加速させるように構成されたニューラルネットプロセッサであることを指定してもよい。

計算論理のパッケージフィールドは、１６個のタスクの各々を実行するためのタスクバイナリを指定する（３０６）。たとえば、タスクバイナリは、１６個のタスクのうちの特定のタスクを実行するための計算を行うようにハードウェアアクセラレータで実行すべきまたは走らせるべき特定のタイプのニューラルネットワークまたは推論モデルであり得る。ある場合には、タスクバイナリは、ワークロードのタスクを処理するために使用すべきハードウェアアクセラレータのタイプを指定するスカラーリソースサブタイプから導出される。

コントローラ１０８は、要求１１２内のパラメータを特定したことに応答して、要求１１２のパラメータに基づいて、かつ、ホスト１０４内のリソース１０５（またはリソースグループ２００）のハードウェアソケットトポロジに基づいて、タスクをスケジューリングしてクラスタ１０２内のホスト１０４に割り当てる割り当てスキームを決定するように動作可能である。コントローラ１０８は、タスクをスケジューリングしてホスト１０４に割り当てる割り当てスキームに基づいて、それぞれのタスク仕様を生成する。たとえば、要求１１２内のパラメータおよび対応するパラメータ値の各々は、スケジューラ１０８に対するスケジューリング制約を表し得る。いくつかの実現例において、要求１１２は、パラメータの各々に優先順位を割り当ててスケジューラ１０８およびコントローラ１０８をさらに制約してもよい。たとえば、アクセラレータサブタイプまたはＣＰＵコアに割り当てられる優先順位は、コントローラ１０８を、特定のタイプのハードウェアアクセラレータまたは特定の数の利用可能なＣＰＵを有する特定のホスト１０４に制約することができる。

コントローラ１０８は、少なくとも、コントローラ１０８の下で「スレーブ」であるホスト１０４の１つ以上によって管理される各リソースグループのハードウェアソケットトポロジの詳細と突き合わせて要求１１２のパラメータを分析することによって、タスクの割り当てを決定してタスク仕様を生成する。たとえば、コントローラ１０８は、ホスト１０４の各リソースグループのハードウェアソケットトポロジをスキャンして、リソース１０５の局所性を判断し、リソースまたはリソースのタイプが要求１１２の制約を満たすか否かを判断し、リソースの利用可能性を判断するように動作可能である。いくつかの例において、コントローラ１０８は、特定のＮＵＭＡノードに対してローカルであるとともに要求１１２の制約の１つ以上を満たすリソースの中から、リソースの利用可能性を判断する。いくつかの実現例において、各ホスト１０４のハードウェアソケットトポロジは、ホスト１０４内の各リソースグループ２００のそれぞれのメモリアクセストポロジに基づく。

ＮＵＭＡシステムには、プロセッサのセットとメモリとで構成されるＮＵＭＡノードが複数存在する。上述のように、同じＮＵＭＡノード２０２－１内でプロセッサ２０４がメモリ２０６－１にアクセスすることはローカルであるが、ＮＵＭＡノード２０２－１内のプロセッサ２０４が別のＮＵＭＡノード２０２－２内のメモリ２０６－２にアクセスすることはリモートである。いくつかの実現例において、リモートアクセスはマルチホップ動作を含み得るので、リモートアクセスはローカルアクセスと比べて複数のサイクルを要することがある。この非対称のメモリアクセス待ち時間のために、メモリアクセスをローカルに保つことによって、またはメモリ局所性を最大にすることによって、分散処理の性能を改善することができる。いくつかの実現例において、ＮＵＭＡノード間のＣＰＵロードバランシングは、ＮＵＭＡ局所性の活用と併せて、さらなる性能改善につながり得る。

マスターコントローラ１０８は、タスク仕様における１つ以上の制約を符号化するように構成される（３０８）。たとえば、タスク仕様３００は、要求１１２内のパラメータおよび値から導出されるスケジューリング制約を含み得る。たとえば、コントローラ１０８は、要求１１２内のパラメータを、特定のクラウドゾーン内に位置するホストマシン上でタスクの計算を行うために使用されるデータをロードするようにホスト１０４に指示するタスク制約に変換することができる。たとえば、クラウドゾーンは、ワークロードの所与のタスクのためのデータ計算を行うために必要なハードウェアアクセラレータリソースの特定のセットを含むデータセンターの特定の物理的または地理的な位置であり得る。

計算クラスタ１０２は、計算クラスタ１０２内の複数のホスト１０４にわたってリソース局所性を利用するやり方でタスクをスケジューリングしてホスト１０４の特定のリソースグループ２００に割り当てる割り当てスキームを決定するように構成される。図３に示される一例としてのタスク仕様３００は、１６個のタスクを実行する要求を受信する計算クラスタ１０２を表す簡略化されたタスク仕様を提供する。タスクの各々は、２つのＮＵＭＡノードを含むホスト１０４を占める。この例では、タスクの各々は、９６個のＣＰＵおよび４個の専用回路（たとえばハードウェアアクセラレータ）の全リソース割り当てを必要とする。

そのタスク仕様３００は、特定のホスト１０４が特定のＮＵＭＡノードからそのＣＰＵコアをどのように割り当てるべきかなどの、ホスト１０４のリソース割り当てを規定するパラメータを含む（３１０）。図３の例では、各タスクについて９６個のＣＰＵの全リソース割り当てを満たすように各ＮＵＭＡノードから４８個のプロセッサコアが割り当てられている、バランスのとれたＣＰＵ割り当てが示されている。他の例では、コントローラ１０８は、第１のＮＵＭＡノードから３６個のＣＰＵ、第２のＮＵＭＡノードから６０個のＣＰＵなど、アンバランスな割り当てを指定するタスク仕様を生成してもよい。

図４は、機械学習ワークロードを実行するために実行されるタスクをスケジューリングする一例としてのプロセス４００を示す。プロセス４００は、上記のシステム１００を使用して実現または実行することができる。したがって、プロセス４００の説明は、システム１００の上記の計算リソース、および本明細書に記載されている他のコンポーネントを参照する場合がある。一般に、プロセス４００の説明における計算ステップまたはプロセスフローは、異なる順序で起こるようにグループ分けまたは構成することができ、本明細書に記載されている番号順に限定されない。

ここでプロセス４００を参照して、システム１００は、その計算クラスタのうちの１つ以上を使用してワークロードを実行する要求を受信する（４０２）。いくつかの実現例において、プロセス４００は、ハードウェアアクセラレータおよびホスト１０４の他のリソースを使用してワークロードを実行するようにタスクをスケジューリングしてリソースを割り当てる方法に対応する。いくつかの例において、ワークロードは、映像トランスコーディング、画像処理、音声処理、自動運転車両ナビゲーション、または画像認識などの特定の機械学習動作に関連する訓練または推論ワークロードである。

要求１１２は、画像中の物体を検出するためのまたは音声発話の言葉を認識するための推論ワークロードなどのＭＬワークロードの実行を要求するものであり得る。この文脈において、ハードウェアアクセラレータの１つ以上は、畳み込みニューラルネットワーク（ＣＮＮ）または回帰型ニューラルネットワーク（ＲＮＮ）などの、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成されてもよい。受信した要求１１２は、ワークロードのタスクを実行するために使用すべき特定のタイプのニューラルネットワーク構成（たとえばＣＮＮまたはＲＮＮ）を指定するパラメータを含み得る。

また、受信した要求１１２の後に、たとえばホスト１０４のリソースグループを使用して特定のニューラルネットワークをクラスタ１０２上に展開する第２の要求１１２が続いてもよい。第２の要求の後に、コントローラ１０８（またはホスト１０４）に特定のニューラルネットワーク層のための重みのセットのパラメータを取得させる命令またはコマンドが続いてもよい。たとえば、重みのセットは、命令で指定された場所アドレスに基づいて、ホスト１０４によって管理されるメモリの記憶場所から取得されてもよい。いくつかの実現例において、ホスト１０４によって取得された重みを格納するメモリは、ホスト１０４におけるリソースグループを規定するＮＵＭＡノードの複数のローカルリソースのうちの１つである。同様に、命令は、コントローラ１０８（またはホスト１０４）に他の記憶場所にアクセスさせて、ニューラルネットワーク層を通して処理するための入力をフェッチさせて、ホスト１０４内のＮＵＭＡノードのローカルリソース１０５を使用してニューラルネットワーク層の出力を生成させてもよい。いくつかの実現例において、要求１１２において特定された入力の特定部分をニューラルネットワーク層を通して処理して層出力を生成することは、１つの計算クラスタ１０２の複数のホスト１０４にわたってまたは複数の計算クラスタ１０２にわたって処理され得るより大きなワークロードの１つ以上のタスクの実行を表し得る。

システム１００は、要求に基づいてリソース要件を決定する（４０４）。リソース要件は、ＭＬワークロードを表す一連のタスクを実行するために必要な計算リソースのタイプおよび量など、ワークロード要求１１２に関連するシステム１００のリソースについての特定の詳細を示し得る。たとえば、リソース要件は、特定のプロセッサもしくはプロセッサタイプ、処理能力もしくは速度、メモリ量もしくはメモリサイズ、ハードウェアアクセラレータの数、または分散システムにおけるリソースのリソース局所性の指標を指定し得る。

システム１００は、リソース要件と各ホストの複数のハードウェアアクセラレータとに基づいて、ＭＬワークロードのそれぞれのタスクを実行するように割り当てられる多数のホスト１０４を決定する（４０６）。システム１００は、多数のホスト１０４のうちの各ホスト１０４について、ホストのメモリアクセストポロジに基づいてそれぞれのタスク仕様を生成する（４０８）。ホストのメモリアクセストポロジは、ホスト１０４の各リソースグループ２００の複数のそれぞれのＮＵＭＡトポロジのうちの１つに基づき得る。いくつかの実現例において、リソースグループ２００の特定のＮＵＭＡトポロジは、ローカルＮＵＭＡノードに特有であり、グループの他のリソースに対してローカルなそれぞれのメモリ（Ｍ）を含む。それぞれのメモリ（Ｍ）は、メモリを少なくとも１つのハードウェアアクセラレータとＮＵＭＡノードの１つ以上の他のリソースとにローカルに結合するソケットインターフェイスを含み得る。

コントローラ１０８は、要求１１２のパラメータをスキャンしたことと、コントローラ１０８にスレーブ資産として割り当てられているホスト１０４のセット内の各リソースグループ２００についてそれぞれのハードウェアトポロジを相互参照したこととに応答して、タスク仕様を生成する。システム１００は、それぞれのタスク仕様をホストに提供する（４１０）。たとえば、コントローラ１０８は、複数のそれぞれのタスク仕様を異なるホスト１０４に提供することができ、システム１００は、各ホストのそれぞれのタスク仕様で指定されたタスクを実行することによってＭＬワークロードを実行する（４１２）。

図５は、システム１００のホストに提供されるタスク仕様を生成するプロセスの一例を示す。プロセス４００と同様に、プロセス５００はシステム１００を使用して実現または実行することができ、プロセス５００の説明は、本明細書に記載されている他のコンポーネントを含むシステム１００のリソースを参照する場合がある。一般に、プロセス５００の説明における計算ステップまたはプロセスフローは、異なる順序で起こるようにグループ分けまたは構成することができ、本明細書に記載されている番号順に限定されない。

ここでプロセス５００を参照して、システム１００は、各ホストのＮＵＭＡソケットのマッピングを記述するシステムファイルを使用して、ホストのリソースのための１つ以上のソケットを特定するように構成される（５０２）。たとえば、コントローラ１０８は、ホスト１０４におけるリソースグループのハードウェアトポロジに基づいてＮＵＭＡソケットのマッピングを決定するように構成される。ＮＵＭＡソケットのマッピングを使用して、ホスト１０４によって管理される各リソースグループのＮＵＭＡトポロジを示す。

コントローラ１０８は、ホストのＮＵＭＡソケットのマッピングに記述されているリソースのためのソケットを使用して、ホスト１０４の制御グループを構築する（５０４）。いくつかの実現例において、コントローラ１０８は１つ以上のプロトコルビットをホスト１０４に渡し、ホストのスケジューラは、（たとえば要求のまたはタスク仕様の）プロトコルビットを使用して、ホスト１０４におけるさまざまなリソースグループ間のリソース１０５の局所性に基づいて制御グループを構築する。たとえば、コントローラ１０８、またはホスト１０４のスケジューラは、各リソースグループのＮＵＭＡトポロジと、受信した要求１１２における制約の一部（または全部）を満たすホスト１０４におけるリソースのタイプとに基づいて、制御グループを構築するように動作可能である。

コントローラ１０８はホスト１０４と協働して、タスク仕様のＭＬタスクをホスト１０４で構築された制御グループにバインドするかまたは割り当てる。いくつかの実現例において、コントローラ１０８によってホスト１０４に渡されたプロトコルビットを、ホスト１０４のスケジューラによって使用して、タスク仕様のＭＬタスクをホスト１０４で構築された制御グループにバインドするかまたは割り当てる。プロトコルビットは、タスク仕様の１つ以上の制約または要件を示すようにタスク仕様に含まれてもよい。プロトコルビットは、１つ以上の符号化信号、２進値のデータワード、または他の関連パラメータもしくはデータ値によって表すことができる。符号化信号および２進値を、ホストのスケジューラによって受信および処理して、またはその他の方法で解釈して、タスク仕様のタスクの割り当てを決定することができる。いくつかの実現例において、プロトコルビットはタスク仕様に関連付けられ得るが、タスク仕様とは別に提供され得る。

ホスト１０４は、制御グループ内のリソースの利用可能性を含む、制御グループ内の特定のタイプのアクセラレータのためのソケットインターフェイスに少なくとも基づいて、タスク仕様のＭＬタスクを制御グループにバインドするように動作可能である（５０６）。ホスト１０４は、制御グループ内のメモリリソースおよびハードウェアアクセラレータを使用して、タスク仕様のＭＬタスクを制御グループの下でプロセスとして実行する（５０８）。いくつかの実現例において、ホスト１０４は、ローカルメモリを含む制御グループの１つ以上の他のリソースを使用してＭＬタスクを実行することができる。ある場合には、非ローカルメモリが利用され得るが、このようなリソースを利用する場合は、非ローカルメモリは、必要な計算帯域幅、または結果として生じ得る任意の性能上の影響に対するバランスが取られる。

本明細書に記載されている主題の実施形態および機能動作は、デジタル電子回路で実現されてもよく、有形に具体化されたコンピュータソフトウェアもしくはファームウェアで実現されてもよく、コンピュータハードウェア（本明細書に開示されている構造およびそれらの構造的等価物を含む）で実現されてもよく、またはそれらのうちの１つ以上の組み合わせで実現されてもよい。本明細書に記載されている主題の実施形態は、１つ以上のコンピュータプログラムとして、すなわちデータ処理装置による実行またはデータ処理装置の動作の制御のために有形の非一時的なプログラムキャリア上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして実現することができる。

これに代えてまたはこれに加えて、プログラム命令は、情報を符号化して好適な受信機装置に送信してデータ処理装置によって実行するように生成された、人為的に生成された伝播信号（たとえば、マシンによって生成された電気信号、光信号または電磁信号）上に符号化され得る。コンピュータ記憶媒体は、機械読取可能記憶装置、機械読取可能記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの１つ以上の組み合わせであり得る。

本明細書に記載されているプロセスおよび論理フローは、入力データに対して動作して出力を生成することによって機能を実行するように１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルコンピュータによって実行することができる。これらのプロセスおよび論理フローも、特別目的論理回路（たとえば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、またはＧＰＧＰＵ（汎用グラフィックス処理装置））によって実行することができ、装置も、特別目的論理回路として実現することができる。

コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはこれら双方、またはその他の種類の中央処理装置を含み、それらに基づき得る。一般に、中央処理装置は、命令およびデータを、読み取り専用メモリまたはランダムアクセスメモリまたはこれら双方から受信する。コンピュータの必須要素は、命令を実施または実行するための中央処理装置と、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般に、コンピュータはまた、データを格納するための１つ以上の大容量記憶装置（たとえば磁気、光磁気ディスク、または光ディスク）を含む、または、上記大容量記憶装置からデータを受信する、これにデータを転送する、またはこれら双方のために、上記大容量記憶装置に作動的に結合される。しかしながら、コンピュータはこのようなデバイスを有していなくてもよい。

コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読取可能媒体は、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、これらは、例として、半導体メモリデバイス、たとえばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスや、磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスクを含む。プロセッサおよびメモリは、専用論理回路が補充されてもよくまたは専用論理回路に組み込まれてもよい。

本明細書は多くの具体的な実現例の詳細を含んでいるが、これらは、発明または請求項の範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に特有であり得る特徴を説明するものとして解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実現することも可能である。逆に、単一の実施形態の文脈で記載されているさまざまな特徴は、複数の実施形態において別々にまたは任意の好適な部分的組み合わせで実現することも可能である。さらに、特徴は、特定の組み合わせで動作するものとして上記され、最初にそのように記載されているかもしれないが、記載されている組み合わせの中の１つ以上の特徴は、場合によってはこの組み合わせから除外されてもよく、記載されている組み合わせは、部分的組み合わせまたは部分的組み合わせの変形例を対象としてもよい。

同様に、動作は図面において特定の順序で示されているが、これは、このような動作が、示されている特定の順序もしくは連続した順序で実行されることを要する、または、示されているすべての動作が所望の結果を得るために実行されることを要する、と理解されるべきではない。特定の状況ではマルチタスキングおよび並列処理が有利な場合がある。さらに、上記実施形態における各種システムモジュールおよびコンポーネントの分離は、すべての実施形態においてこのような分離を要するものと理解されるべきではなく、記載されているプログラムコンポーネントおよびシステムは一般に、１つのソフトウェアプロダクトに統合できる、または、パッケージングして複数のソフトウェアプロダクトにできることが、理解されるべきである。

主題の特定の実施形態について説明してきた。他の実施形態は、以下の請求項の範囲内である。たとえば、請求項に記載されている動作は、異なる順序で実行されても所望の結果を達成することができる。一例として、添付の図面に示されているプロセスは、所望の結果を達成するために、示されている特定の順序または連続した順序を必ずしも必要としない。特定の実現例において、マルチタスキングおよび並列処理が有利な場合がある。

Claims

ハードウェアアクセラレータを使用して、機械学習ワークロードを実行するためのタスクをスケジューリングしてリソースを割り当てる方法であって、前記ハードウェアアクセラレータの各々は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成され、前記方法は、
機械学習（ＭＬ）ワークロードを実行する要求を受信することと、
前記要求に基づいて、複数のホストを含む分散処理システムにおいて前記ＭＬワークロードを実行するためのリソース要件を決定することとを備え、前記複数のホストのうちの各ホストはそれぞれの複数のハードウェアアクセラレータを含み、前記方法はさらに、
前記リソース要件と各ホストの前記それぞれの複数のハードウェアアクセラレータとに基づいて、前記ＭＬワークロードを形成するタスクのセットからそれぞれのタスクを実行するように各々が割り当てられる多数のホストを決定することと、
前記多数のホストのうちの各ホストについて、
前記ホストのメモリアクセストポロジに基づいて、前記それぞれの複数のハードウェアアクセラレータを含む前記ホストのリソースを使用して前記ホストで実行されるように割り当てられた前記タスクを指定するそれぞれのタスク仕様を生成することと、
前記それぞれのタスク仕様を前記多数のホストのうちの前記ホストに提供することと、
前記多数のホストのうちの各ホストが前記ホストの前記それぞれのタスク仕様で指定された前記タスクを実行することによって、前記ＭＬワークロードを実行することとを備える、方法。
各ホストの前記メモリアクセストポロジは、前記ホストに対してローカルであるそれぞれのメモリを含むそれぞれの非均一メモリアクセス（ＮＵＭＡ）トポロジを含み、
前記それぞれのメモリは、前記それぞれのメモリを前記それぞれの複数のハードウェアアクセラレータのうちの各ハードウェアアクセラレータと前記ホストの１つ以上の他のリソースとに結合するソケットインターフェイスを含む、請求項１に記載の方法。
前記それぞれのタスク仕様で指定された前記タスクを実行することは、
複数のニューラルネットワーク計算のそれぞれの部分を前記それぞれの複数のハードウェアアクセラレータのうちの各ハードウェアアクセラレータに割り当てたことに応答して、前記複数のニューラルネットワーク計算を行って、前記複数のニューラルネットワーク層のうちの各ニューラルネットワーク層の出力を生成することを備える、請求項１または２に記載の方法。
前記ＭＬワークロードを実行することは、
前記ホストの制御グループの各リソースを使用して、かつ、前記それぞれのメモリと、前記ハードウェアアクセラレータと、前記ホストの前記リソースに含まれるそれぞれのプロセッサとの間でやり取りされるデータに基づいて、前記それぞれのタスク仕様についての命令を処理することを備える、請求項２に記載の方法。
前記ＭＬワークロードを実行することは、
前記ホストの前記制御グループの各リソースをリンクするハードウェアソケットを介してやり取りされている前記データに基づいて前記命令を処理したことに応答して、前記それぞれのタスク仕様で指定されたタスクを実行することを備え、前記ハードウェアソケットは、前記ホストによって管理される複数のリソース間で共有されるローカル通信バスを規定する、請求項４に記載の方法。
第１のホストのそれぞれのＮＵＭＡトポロジは、一部が、
ｉ）前記第１のホストに対してローカルであるリソースのそれぞれの構成におけるそれぞれの第１のメモリと、
ｉｉ）第２の異なるホストに対してはローカルであるが前記第１のホストに対してはリモートであるリソースのそれぞれの構成におけるそれぞれの第２の異なるメモリとに基づく、請求項４に記載の方法。
前記多数のホストを決定することは、
前記複数のホストのうちの各ホストによって管理されるリソースの構成を記述するシステムファイルを取得することと、
前記複数のホストのうちの各ホストの前記システムファイルに記述されている前記リソースの構成に基づいて、前記多数のホストを決定することとを備える、請求項１～６のいずれか１項に記載の方法。
前記複数のホストのうちの各ホストのＮＵＭＡソケットのマッピングを記述するシステムファイルに基づいて、前記ホストのリソースを結合する１つ以上のソケットを特定することと、
前記ホストの前記リソースを結合する前記１つ以上のソケットに基づいて、前記ホストの制御グループを形成することとを備える、請求項１に記載の方法。
前記制御グループ内のアクセラレータのための１つ以上のソケットインターフェイスに基づいて、前記タスク仕様のＭＬタスクを前記ホストの前記制御グループに割り当てることを備え、前記ソケットインターフェイスは前記システムファイルに記述されている前記ＮＵＭＡソケットのマッピングに含まれており、さらに、
前記制御グループ内の前記アクセラレータを使用して、前記ＭＬタスクを前記制御グループの下でプロセスとして実行することを備える、請求項８に記載の方法。
ハードウェアアクセラレータを使用して、機械学習ワークロードを実行するためのタスクをスケジューリングしてリソースを割り当てるように構成されたシステムであって、前記ハードウェアアクセラレータの各々は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成され、前記システムは、
１つ以上の処理装置と、
動作を実行させるように前記１つ以上の処理装置によって実行可能な命令を格納する１つ以上の非一時的な機械読取可能記憶装置とを備え、前記動作は、
機械学習（ＭＬ）ワークロードを実行する要求を受信することと、
前記要求に基づいて、複数のホストを含む分散処理システムにおいて前記ＭＬワークロードを実行するためのリソース要件を決定することとを備え、前記複数のホストのうちの各ホストはそれぞれの複数のハードウェアアクセラレータを含み、前記動作はさらに、
前記リソース要件と各ホストの前記それぞれの複数のハードウェアアクセラレータとに基づいて、前記ＭＬワークロードを形成するタスクのセットからそれぞれのタスクを実行するように各々が割り当てられる多数のホストを決定することと、
前記多数のホストのうちの各ホストについて、
前記ホストのメモリアクセストポロジに基づいて、前記それぞれの複数のハードウェアアクセラレータを含む前記ホストのリソースを使用して前記ホストで実行されるように割り当てられた前記タスクを指定するそれぞれのタスク仕様を生成することと、
前記それぞれのタスク仕様を前記多数のホストのうちの前記ホストに提供することと、
前記多数のホストのうちの各ホストが前記ホストの前記それぞれのタスク仕様で指定された前記タスクを実行することによって、前記ＭＬワークロードを実行することとを備える、システム。
各ホストの前記メモリアクセストポロジは、前記ホストに対してローカルであるそれぞれのメモリを含むそれぞれの非均一メモリアクセス（ＮＵＭＡ）トポロジを含み、
前記それぞれのメモリは、前記それぞれのメモリを前記それぞれの複数のハードウェアアクセラレータのうちの各ハードウェアアクセラレータと前記ホストの１つ以上の他のリソースとに結合するソケットインターフェイスを含む、請求項１０に記載のシステム。
前記それぞれのタスク仕様で指定された前記タスクを実行することは、
複数のニューラルネットワーク計算のそれぞれの部分を前記それぞれの複数のハードウェアアクセラレータのうちの各ハードウェアアクセラレータに割り当てたことに応答して、前記複数のニューラルネットワーク計算を行って、前記複数のニューラルネットワーク層のうちの各ニューラルネットワーク層の出力を生成することを備える、請求項１０または１１に記載のシステム。
前記ＭＬワークロードを実行することは、
前記ホストの制御グループの各リソースを使用して、かつ、前記それぞれのメモリと、前記ハードウェアアクセラレータと、前記ホストの前記リソースに含まれるそれぞれのプロセッサとの間でやり取りされるデータに基づいて、前記それぞれのタスク仕様についての命令を処理することを備える、請求項１１に記載のシステム。
前記ＭＬワークロードを実行することは、
前記ホストの各リソースをリンクするハードウェアソケットを介してやり取りされている前記データに基づいて前記命令を処理したことに応答して、前記それぞれのタスク仕様で指定されたタスクを実行することを備え、前記ハードウェアソケットは、前記ホストによって管理される複数のリソース間で共有されるローカル通信バスを規定する、請求項１３に記載のシステム。
第１のホストのそれぞれのＮＵＭＡトポロジは、一部が、
ｉ）前記第１のホストに対してローカルであるリソースのそれぞれの構成におけるそれぞれの第１のメモリと、
ｉｉ）第２の異なるホストに対してはローカルであるが前記第１のホストに対してはリモートであるリソースのそれぞれの構成におけるそれぞれの第２の異なるメモリとに基づく、請求項１３に記載のシステム。
前記多数のホストを決定することは、
前記複数のホストのうちの各ホストによって管理されるリソースの構成を記述するシステムファイルを取得することと、
前記複数のホストのうちの各ホストの前記システムファイルに記述されている前記リソースの構成に基づいて、前記多数のホストを決定することとを備える、請求項１０～１５のいずれか１項に記載のシステム。
前記動作は、
前記複数のホストのうちの各ホストのＮＵＭＡソケットのマッピングを記述するシステムファイルに基づいて、前記ホストのリソースを結合する１つ以上のソケットを特定することと、
前記ホストの前記リソースを結合する前記１つ以上のソケットに基づいて、前記ホストの制御グループを形成することとを備える、請求項１０に記載のシステム。
前記制御グループ内のアクセラレータのための１つ以上のソケットインターフェイスに基づいて、前記タスク仕様のＭＬタスクを前記ホストの前記制御グループに割り当てることを備え、前記ソケットインターフェイスは前記システムファイルに記述されている前記ＮＵＭＡソケットのマッピングに含まれており、さらに、
前記制御グループ内の前記アクセラレータを使用して、前記ＭＬタスクを前記制御グループの下でプロセスとして実行することを備える、請求項１７に記載のシステム。
ハードウェアアクセラレータによって実行されるプログラムであって、前記ハードウェアアクセラレータに前請求項１～９のいずれか１項に記載された方法を実行させる、プログラム。