JP2024520326A

JP2024520326A - 機械学習ハードウェアアクセラレータでの階層的なコンパイルおよび実行

Info

Publication number: JP2024520326A
Application number: JP2023571345A
Authority: JP
Inventors: ジョセフ，ジョン・ナビル; リウ，ジャック; ウ，ドン・ヒョク; プー，ジン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2024-05-24
Also published as: KR20230169285A; CN117677929A; WO2022260656A1; EP4320513A1

Abstract

本開示は、マルチコアコンピューティング装置のアレイにおいて機械学習推論をコンパイルおよび実行するためのシステムおよび方法について説明する。各マルチコアコンピューティング装置は、特定用途向け集積回路（ＡＳＩＣ）またはＡＳＩＣのグループにすることができる。多くのアプリケーションでは、コンピューティング装置のアレイは推論ごとに変化し、推論の要件に基づいて調整できる。さらに、各ＡＳＩＣは複数の処理コアと複数のタイプの処理コアを持つことができる。したがって、コンパイル時に最適化とスケジューリングとを実行すると、推論実行時のアレイの効率が大幅に向上する。いくつかの実装では、コンパイル中に最適化に費やす時間または労力を選択できるため、ユーザはコンパイル中に時間を費やすか実行中に時間を費やすかを柔軟に決定できる。

Description

技術分野
本開示は、一般に、機械学習ハードウェアアクセラレータにおけるコードのコンパイルおよび実行に関する。

背景
機械学習システムは、通常、一定期間のトレーニングを受ける。トレーニングされた、または部分的にトレーニングされた機械学習システムを使用してタスクを実行することは、一般に、推論でシステムを使用すること、つまりタスクを実行するためにデータを処理することを指す。機械学習システムのトレーニングには、システムにトレーニングデータを提供しながら、推論でシステムを使用することが含まれ得る。

機械学習は、汎用ＣＰＵ（中央処理装置）上、および／またはＤＳＰ（デジタル信号プロセッサ）、ＧＰＵ（グラフィックス処理装置）、またはＴＰＵ（テンソル処理装置）などの専用機械学習ハードウェア上で実装することができる。一部の機械学習システムはクラウドに実装されているが、特に推論で演算する場合、機械学習システムをローカルまたは「エッジ」に実装する必要性が高まっている。

概要
本明細書は一般に、特にエッジに、例えば推論における機械学習および他の計算を効率的に実装するための技術に関する。実装では、これらは、機械学習モデルをコンパイルおよび実行するために、階層アーキテクチャなどのコンピューティングアーキテクチャと、そのアーキテクチャに適合した方法を組み合わせる。

一態様では、マルチコアコンピューティング装置のアレイにおいて実行可能なジョブを分散するための方法が説明される。この方法は、マルチコアコンピューティング装置のアレイにおいて実行される複数のジョブを受信することを含み、各マルチコアコンピューティング装置は、複数の異なるタイプの処理コアを備え、複数のジョブの各特定のジョブを、複数の異なるタイプの処理コアのうちの１つによって実行されるように割り当てる。

割り当てることは、特定のジョブを分析して、複数の異なるタイプの処理コアのうちどれが特定のジョブの実行に適しているかを決定することと、分析に基づいて特定のジョブをコアタイプに割り当てることとを含むことができる。どのコアが特定のジョブに適しているかを分析することは、例えば、モデルを使用して、ジョブに対するコアの適合性の１つまたは複数のメトリックを評価すること、および／またはジョブを表すデータを処理すること、を含み、これは、決定論的または確率論的にジョブをコアに割り当てるための機械学習モデルであり得る。

本方法は、複数のジョブの各ジョブを個別に実行可能なファイルにコンパイルすることと、複数の異なるタイプの処理コアのうちの特定のものへの個別に実行可能なファイルのマッピングを表す実行グラフを生成することとをさらに含んでもよい。実装において、実行グラフは、特に実行可能なジョブをマルチコアコンピューティング装置、より具体的には処理コアに分散するために、個別に実行可能なファイル間の依存関係を識別する。例えば、実装では、実行グラフ内の依存関係によって、ジョブが実行されるべきシーケンスが定義される。

この方法は、個別に実行可能なファイルを実行することを含むことができる。これには、実行グラフを受信することと、特にグラフとそれが識別する依存関係とを使用して、実行グラフ内のジョブをマルチコアコンピューティング装置のアレイ内の複数のマルチコアコンピューティング装置に割り当てることが含まれ得る。これには、各マルチコアコンピューティング装置が割り当てられたジョブを実行することと、実行されたジョブの出力を共有メモリにリターンすることと、リターンされた出力を組み合わせて実行グラフリターンを生成することとも含まれ得る。

どのコアが特定のジョブに適しているかを分析することは、ヒューリスティック分析を含むことができ、例えば、ジョブに対するコアの適合性のメトリクスは、ヒューリスティックメトリクスを含むことができる。特定のジョブごとの分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択できる。分析の深さは、例えばジョブに対するコアの適合性を決定するために、分析に許容されるコンピューティングリソースまたは時間によって表すことができる。

異なるタイプの処理コアは、第１のタイプのコアおよび第２のタイプのコアを含むことができる。第１のタイプのコアは、ＡＲＭプロセッサ（コア）、すなわち、ＲＩＳＣ（縮小命令セットコンピューティング）アーキテクチャを備えたコアであってもよい。このようなアーキテクチャは、単一サイクルのメモリアクセス命令を備えたロード／ストアアーキテクチャによって特徴付けられ得る。第２のタイプのコアは、ＴＰＵ（テンソル処理装置）またはＴＰＵタイルプロセッサ（コア）である。このようなＴＰＵコアは、以下の１つまたは複数を実装するように構成されたハードウェアによって特徴付けられ得る。以下とは、３次元以上のテンソルに対するテンソル演算、行列と行列の乗算、整数行列演算、シストリックアレイ、ニューラルネットワークアクティベーション機能を実装するアクティベーションユニット、である。

実装では、実行グラフは階層的である。したがって、実行グラフは、層状に、例えば少なくとも４つの層に配置された（階層的な）サブグラフを含むことができる。層には、ｉ）ＴＰＵコアタイプで実行される実行可能ファイルを含むＴＰＵ層、ｉｉ）ＴＰＵ層の１つまたは複数のサブグラフとＡＲＭコアタイプで実行される実行可能ファイルとを含むチップレベル（物理集積回路レベル）層、ｉｉｉ）２つ以上のチップレベルのサブグラフを含むマルチチップ層、ｉｖ）マルチチップ層のサブグラフと、第３のタイプのコア上で実行されるように構成された１つまたは複数のサブグラフとを備えるホストレベル層が含まれ得る。第３のタイプのコアは、ＣＰＵ、例えばホスト装置のＣＰＵであってもよい。ある層のサブグラフは、実行グラフの一部、より具体的には、下位層で実行される実行グラフの一部を構成することができる。実行グラフと同様に、それはジョブ間の依存関係や、ジョブを実行する必要がある順序を定義できる。

いくつかの実装では、ＡＲＭコアとマルチコアコンピューティング装置、例えばＡＳＩＣのＴＰＵコアとの間の演算を調整し順序付けるためのメカニズムが提供され得る。例えば、これは、例えば低遅延のために、ＡＲＭコアまたはＴＰＵコアのいずれかの演算をスケジュールする、例えばファームウェアにおいてＡＲＭコア上で実行されるコード（「インタプリタ」）を含んでもよい。これは、実行時にジョブをスケジュールし、処理コアに割り当てるために使用できる。

いくつかの実装では、実行グラフは、もう１つの定数バッファ、すなわち、定数を記憶するために割り当てられたメモリ領域を含むことができる。このような場合、定数バッファは実行グラフ自体の一部である必要はなく、代わりに１つまたは複数の「帯域外バッファ」を実行時にグラフに関連付けることができる。これは、グラフメモリのフットプリントを小さく保つのに役立つ。

別の態様では、マルチコアコンピューティング装置のアレイにおいて実行するために実行可能なジョブをコンパイルするための方法が説明される。実装では、マルチコアコンピューティング装置のアレイがホストシステムなどのハードウェアと組み合わされる。実装では、ハードウェア、例えばホストシステムは、第１のコアタイプの処理コアを備える。マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、第２のコアタイプおよび第３のコアタイプの処理コアを備える。

実装では、この方法は、推論に使用される機械学習モデルを受信することと、機械学習モデルを解析して、実行される複数のジョブを決定することと、実行される複数のジョブの各々と、例えば、前述した実行される複数のジョブ間の依存関係とを表す実行グラフを生成することと、を含む。

実装では、方法は、マルチチップレベルコンパイラを呼び出して、実行グラフ、例えばマッピングされた実行グラフを生成することをさらに含む。マッピングされた実行グラフは、複数の異なるタイプの処理コアのうちの特定のものへの個別に実行可能なファイルのマッピングを表すことができる。実装では、これには、マルチチップレベルコンパイラが、第１のコアタイプによって実行される複数のジョブのうちの１つまたは複数の第１のジョブを識別することと、１つまたは複数の第１のジョブを、第１のコアタイプによって実行される実行可能ファイルにコンパイルすることとが含まれる。実装では、第１のジョブはアレイ内のマルチコアコンピューティング装置と互換性がない。ジョブの１つまたは複数の演算がマルチコアコンピューティング装置で実行できない場合、またはジョブがマルチコアコンピューティング装置での実行に適していない場合、ジョブはマルチコアコンピューティング装置と互換性がない可能性がある（ここで、適合性は前述のように決定できる）。

実装では、方法は、実行グラフの残りのジョブを複数の第１のサブグラフに分割することと、各第１のサブグラフをマルチコアコンピューティング装置のアレイの特定のマルチコアコンピューティング装置に割り当てることと、各第１のサブグラフに対して単一チップレベルのコンパイラを呼び出すことと、をさらに含む。

実装では、方法は、第２のコアタイプによって実行される第１のサブグラフから１つまたは複数のチップレベルのジョブを識別し、第１のサブグラフからの１つまたは複数のチップレベルのジョブの各々を、第２のコアタイプによって実行される実行可能ファイルにコンパイルし、第１のサブグラフの残りのジョブを複数の第２のサブグラフに分割し、複数の第２のサブグラフの各々を第３のコアタイプに割り当てる単一チップレベルのコンパイラを含む。実装では、方法は、複数の第２のサブグラフの各々について、コアレベルコンパイラを呼び出すことをさらに含み、コアレベルコンパイラは、第２のサブグラフの各々を、第３のコアタイプによって実行される実行可能ファイルにコンパイルする。

実装では、マッピングされた実行グラフは、例えば前述したように、コンパイルされた実行可能なジョブを分散するためのものである。したがって、この方法は、例えば前述したように、実行可能なジョブを分散するためにマッピングされた実行グラフを使用することを含む。

第１、第２、および第３のコアタイプは、それぞれ、前述の第３のタイプのコア、第１のタイプのコア、および第２のタイプのコアに対応し得る。例えば第１のコアタイプは（ホストシステムの）ＣＰＵであり得る。第２のコアタイプはＡＲＭ（ＲＩＳＣ）コアであり得る。第３のコアタイプはＴＰＵ（タイル）コアであってもよい。アレイの各マルチコアコンピューティング装置は、ＴＰＵを備える特定用途向け集積回路（ＡＳＩＣ）を備え得る。

実装では、１つまたは複数の第１ジョブを識別すること、および／または１つまたは複数のチップレベルのジョブを識別することは、実行される複数のジョブのヒューリスティック分析に基づいて行われる。ヒューリスティック分析は、ジョブの各々のヒューリスティックメトリックを決定することを含む分析であってもよい。実装では、例えばコンピューティングリソースまたは分析に許容される時間に基づいて、特定のジョブごとのヒューリスティック分析の深さが、コンパイル時間に先立ってユーザ入力に基づいて選択される。

実装では、方法は、マルチコアコンピューティング装置のアレイによって、第１のジョブを含むマッピングされた実行グラフと、１つまたは複数のチップレベルのジョブおよび複数の第２のサブグラフを含む複数の第１のサブグラフとを受信することと、第２のサブグラフ内の第１のジョブ、チップレベルのジョブ、および複数の残りのジョブを、マルチコアコンピューティング装置のアレイ内の関連するコアに割り当てることと、をさらに含む。実装では、方法は、各コアのマルチコアコンピューティング装置によって、割り当てられたジョブを実行することと、実行されたジョブの出力を共有メモリにリターンすることと、リターンされた出力を組み合わせて、実行グラフのリターンを生成することと、をさらに含む。

いくつかの実装では、第２のコアタイプ、例えばＡＲＭまたはＲＩＳＣコアには、複数のチップ上のジョブにまたがる制御フロー演算を割り当てることができ、例えばビーム探索演算またはプロセスなどの単一チップの演算またはプロセス、それに続くマルチチップの演算またはプロセスを容易にする。次に、この方法は、複数の第１の（単一チップレベルの）サブグラフを組み合わせるシーケンスグラフ、第２のコアタイプによって実行される制御フロー演算への参照を決定する（例えば、コンパイラを使用する）ことを含んでもよく、例えばマスターチップ（ＡＳＩＣ）などの別のチップ（ＡＳＩＣ）にある。シーケンスグラフは、例えば、実行時に、例えばインタープリタによって処理されてもよいため、マスターチップの第２のコアタイプが、マルチチップ演算または複数チップにわたるプロセスの実行を制御する。

上述の態様による方法、および方法の特徴は、組み合わせることができる。

さまざまな実装により、以下の利点のうちの１つまたは複数が提供される。
これらの方法の実装は、実行時にホストＣＰＵおよびマルチコアコンピューティング装置（ＡＳＩＣ）内のファームウェアにまたがることができる階層的実行可能ファイルを生成する階層的コンパイラを提供する。説明された階層コンパイラ方法は、異なるタイプのハードウェアリソースを含む階層アーキテクチャと組み合わせて、機械学習および他の計算の効率的な実装を容易にする。これは、実装において、ＡＲＭコアやＴＰＵを含むさまざまな種類のハードウェアリソースがコンパイラに公開されるためである。例えば、コンパイラは、これらのリソース上で実行されるファームウェアにコンパイルされ得る。例えば、機械学習モデルまたは他の計算が与えられると、方法はモデルまたは計算を分析し、例えば性能や電力使用量の観点から、コンパイラに公開されるさまざまなハードウェアユニットを使用してモデル／計算を実行するための最適な方法を決定できる。また、ＣＰＵとＡＳＩＣとの間の通信を制限し、生成された実行可能なコードを最適化して高性能かつ低消費電力にするために、異なるハードウェアユニット間で演算を分割することもできる。さらに、ＴＰＵコアにはあまり適さない演算が低遅延方式でＡＲＭコア上で実行されるように、演算のグラフを分割することもできる。

いくつかの実装では、階層アーキテクチャの最下位レベルは、ＴＰＵのみのレベルであり、ＡＲＭコアと１つまたは複数のＴＰＵコアとを含む単一チップ（ＡＳＩＣ）レベルが続き、任意でマルチチップ（マルチＡＳＩＣ）レベルが続き、任意でホスト（ＣＰＵ）レベルが続く。コンパイラのあるレベルで生成された実行可能ファイルは、より高いレベルで生成された実行可能ファイルなどに埋め込まれ得、特定のレベルでの実行可能ファイルは、コンパイラとそのレベルの実行時との間の「契約」になる。このアプローチでは、コンパイラが単一チップレベルとマルチチップレベルとにコンパイルできるため、効率的な演算がさらに容易になり、例えばパイプライン並列処理、データ並列処理、および／またはモデル並列処理を実装するために、チップごとに単一チップレベルのコンパイラを呼び出して、そのチップ上で実行されるサブグラフをコンパイルする。マルチチップレベルのコードはファームウェア上で実行できる。

このような階層的アプローチでは、単一チップレベルでの実行可能ファイルは、複数の異なるタイプのコア、例えばＴＰＵコアおよびＡＲＭコアでの演算を含み得る。これにより、ビーム検索やソートなどの演算の実行が容易になる。これらの演算は、ＴＰＵに加えてＡＲＭコアが利用できることで容易になる。また、単一チップレベルでは、このアプローチにより、データ転送のストリーミングと同期とを行いながら、ＴＰＵとＡＲＭコアの混合演算を並行して実行できる。この同期は、実行グラフを通じて表現できる。

実装では、階層内にホストＣＰＵを含めることで、効率的な演算をさらに容易にすることができる。例えば、これによりホストとＡＳＩＣとの間でバッファを共有できるようになり、コストのかかるメモリコピー演算が回避される。これにより、きめ細かい同期が容易になることができる。また、ＡＳＩＣによって生成されたデータをホストＣＰＵが消費することも容易になる。説明したグラフベースのジョブのマッピングと実行とにより、そのような分割とスケジューリングとが容易になる。

本明細書の主題の１つまたは複数の実装の詳細は、添付の図面および以下の説明に記載される。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

グラフ実行可能ファイルをコンパイルして実行する機械学習ハードウェアアクセラレータのシステムアーキテクチャ例を示す図である。実行グラフの一例を示す図である。分割および割り当てを伴う実行グラフの一例を示す図である。追加の上位層割り当てを伴う実行グラフの一例を示す図である。マルチコアコンピューティング装置のアレイにおいて実行可能なジョブを分散するための例示的なプロセスを説明するフローチャートである。マルチコアコンピューティング装置のアレイにおいて実行可能なジョブをコンパイルするための例示的なプロセスを説明するフローチャートである。コンピューティングシステムの一例として機械学習ハードウェアアクセラレータで使用されるＡＳＩＣのブロック図である。ニューラルネットワーク（ＮＮ）計算タイルの一例を示す図である。階層的実行グラフの一例を示す図である。

さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
詳細な説明
本開示は、マルチコアコンピューティング装置のアレイにおいて機械学習推論をコンパイルおよび実行するためのシステムおよび方法について説明する。各マルチコアコンピューティング装置は、特定用途向け集積回路（ＡＳＩＣ）またはＡＳＩＣのグループにすることができる。多くのアプリケーションでは、コンピューティング装置のアレイは推論ごとに変化し、推論の要件に基づいて調整できる。さらに、各ＡＳＩＣは複数の処理コアと複数のタイプの処理コアとを持つことができる。したがって、コンパイル時に最適化とスケジューリングとを実行すると、推論実行時のアレイの効率が大幅に向上し得る。いくつかの実装では、コンパイル中に最適化に費やす時間または労力を選択できるため、ユーザはコンパイル中に時間を費やすか実行中に時間を費やすかを柔軟に決定できる。

図１は、グラフ実行可能ファイルをコンパイルして実行する機械学習ハードウェアアクセラレータのシステムアーキテクチャ例を示す。ハードウェアアクセラレータ１００は、演算を指示および調整するだけでなく、ユーザとアクセラレータ１００との間のインターフェースを提供するホストシステム１０２を含む。ホストシステム１０２は、ＡＳＩＣ１０８のアレイと対話する。各ＡＳＩＣ１０８は、複数のコアタイプを含み、機械学習推論中に大部分の演算を実行するように構成されている。

ホストシステム１０２は、１つまたは複数の中央処理装置、すなわちＣＰＵ１０４を含む。ＣＰＵ１０４は、ホストに処理を提供して、特定の制御またはロジスティクス演算を実行することができる。いくつかの実装では、ＣＰＵ１０４は、推論中にいくつかのプロセスを実行することができる。一般に、ＣＰＵ１０４は、命令を実行し、データを操作して、ホストシステム１０２の演算を実行する。各ＣＰＵ１０４は、単一または複数のコアを有することができ、各コアは、個別の処理スレッドをホストして実行するために利用可能である。さらに、本明細書で説明される演算を実行するために使用されるＣＰＵ１０４の数、種類、および特定のＣＰＵ１０４は、ホストシステム１０２に関連する要求、対話、および演算の数に基づいて動的に決定され得る。

ホストシステム１０２はメモリ１０６も含む。ホストシステム１０２のメモリ１０６は、単一のメモリまたは複数のメモリを表すことができる。メモリ１０６は、任意のメモリまたはデータベースモジュールを含むことができ、揮発性または不揮発性メモリの形態をとることができ、これには、磁気媒体、光媒体、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、リムーバブル媒体、または任意のその他の適切なローカルまたはリモートメモリコンポーネントが含まれるが、これらに限定されない。メモリ１０６は、さまざまなオブジェクトまたはデータを記憶することができ、実行グラフ、機械学習モデル、管理設定、キャッシュ、アプリケーション、バックアップデータ、およびホストシステム１０２に関連する任意の他の適切な情報を含み、これには、任意のパラメータ、変数、アルゴリズム、命令、ルール、制約、またはそれらへの参照が含まれる。ホストシステム１０２内に図示されているが、メモリ１０６、または図示された特定のコンポーネントの一部またはすべてを含むその任意の部分は、場合によっては、ホストシステム１０２からリモートに配置され得、場合によっては、これには、クラウドアプリケーションまたはリポジトリとして、あるいはホストシステム１０２自体がクラウドベースのシステムである場合には別個のクラウドアプリケーションまたはリポジトリとして含まれる。いくつかの例では、メモリ１０６に記憶されたデータは、例えばネットワーク１２０を介してアクセス可能であり、特定のアプリケーションまたはハードウェアアクセラレータ１００の機能によって取得され得る。

一般に、ホストシステム１０２は、実行グラフ（以下でさらに詳細に説明する）をＡＳＩＣ１０８のアレイに分散しながら、高レベルのアプリケーションを実行してユーザに「フロントエンド」を提供する。

アレイ内のＡＳＩＣ１０８には、ホストインターフェース１１０、コアプロセッサ１１２、ＡＳＩＣ１０８の主計算ユニットとなり得るタイルのアレイ１１６、ならびにピアツーピアインターフェース１１４および共有メモリ１１８が含まれる。コアプロセッサ１１２は、演算を実行し、ＡＳＩＣ１０８を制御するプロセッサであり得、例えば、ＡＲＣ、Ａｌｐｈａ、Ａｍ２９０００、ＡＲＭ、ＡｔｍｅｌＡＶＲ、Ｂｌａｃｋｆｉｎ、ｉ８６０、ｉ９６０、Ｍ８８０００、ＭＩＰＳ、ＰＡ－ＲＩＳＣ、ＰｏｗｅｒＩＳＡ、ＲＩＳＣ－Ｖ、ＳｕｐｅｒＨ、ＳＰＡＲＣ、またはその他の処理アーキテクチャを含めることができる。

共有メモリ１１８は、高速ネットワーク１２２を介して、タイル１１６、コアプロセッサ１１２によって、また複数のＡＳＩＣ１０８にわたってアクセスされるメモリであり得る。共有メモリ１１８は、任意のメモリまたはデータベースモジュールを含むことができ、揮発性または不揮発性メモリの形態を取ることができ、これには、磁気媒体、光媒体、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、リムーバブル媒体、または任意のその他の適切なローカルまたはリモートメモリコンポーネントが含まれるが、これらに限定されない。共有メモリ１１８は、さまざまなオブジェクトまたはデータ、管理設定、キャッシュ、アプリケーション、バックアップデータ、動的情報を記憶するリポジトリ、およびハードウェアアクセラレータ１００に関連する任意の他の適切な情報を記憶することができ、これには、推論用の任意のパラメータ、変数、アルゴリズム、命令、ルール、制約、または参照が含まれる。共有メモリ１１８は、ＡＳＩＣ１０８内の複数のタイル１１６の各々によって使用される共有アドレス空間を含む。

ホストインターフェース１１０は、ＡＳＩＣ１０８とホストシステム１０２との間の通信を調整および管理するために使用される。一般に、ホストインターフェース１１０は、適切な組み合わせでソフトウェアおよび／またはハードウェアにエンコードされ、ホストシステム１０２および他のコンポーネントと通信するように演算可能なロジックを備える。より具体的には、インターフェース１１０は、ネットワーク１１０および／またはインターフェースのハードウェアが、図示されたアクセラレータ１００の内部および外部で物理信号を通信するように演算可能であるように、通信に関連付けられた１つまたは複数の通信プロトコルをサポートするソフトウェアを備えることができる。さらに、インターフェース１１０は、ＡＳＩＣ１０８がホストシステムおよび／またはネットワーク１２０と通信して、本明細書で説明される演算を実行できるようにすることができる。

ピアツーピアインターフェース１１４は、ＡＳＩＣ１０８からＡＳＩＣ１０８への通信を提供し、管理する点を除いて、ホストインターフェース１１０と同様とすることができる。このようにして、ＡＳＩＣ１０８は、それらの間で計算ジョブを分散し、リターンまたは中間パラメータを共有することができる。ピアツーピア通信は、ホストシステム１０２およびそれに関連するＣＰＵ１０４の負荷を最小限に抑え、スケーラブルなソリューションを提供することができる。これにより、ホストシステム１０２またはＣＰＵ１０４によって制限されない、任意の多数のＡＳＩＣ１０８を備えたシステム１００が可能になる。

ＡＳＩＣは、アドバンストＲＩＳＣマシン（ＡＲＭ）コアなどのコアプロセッサ１１２を含むことができる。コアプロセッサ１１２は、タイル１１６間で分散されるジョブおよびタスクの制御および管理を処理することができる。コアプロセッサ１１２は、計算演算およびＡＳＩＣ１０８の管理を実行する。さらに、推論中の一部の演算は、コアプロセッサ１１２上でより効率的または迅速に実行され得る。コアプロセッサ１１２は、タイル１１６に計算を指示および命令する。それは、推論プロセスを実行するために必要な情報を定義する１つまたは複数のコンテキストを維持する。各コンテキストには、特に、命令、アクティベーションデータ、パラメータ、ハードウェア状態、計算オペランド、および結果が含まれ得るが、これらに限定されない。このデータは、タイルメモリまたは共有メモリ１１８に記憶することができる。いくつかの実装では、コアプロセッサ１１２は、ＡＲＣ、Ａｌｐｈａ、Ａｍ２９０００、ＡＲＭ、ＡｔｍｅｌＡＶＲ、Ｂｌａｃｋｆｉｎ、ｉ８６０、ｉ９６０、Ｍ８８０００、ＭＩＰＳ、ＰＡ－ＲＩＳＣ、ＰｏｗｅｒＩＳＡ、ＲＩＳＣ－Ｖ、ＳｕｐｅｒＨ、ＳＰＡＲＣ、または他の処理アーキテクチャ上で演算する。

タイル１１６は、推論を実行するように構成されたカスタムコンピューティングコアであり得る。各タイル１１６は、メモリを含むことができ、タイル間で、またはコアプロセッサ１１２とタイル１１６との間で共有することができる入力および出力を受信することができる。各タイル１１６は、自身のメモリ（例えば、ＳＲＡＭ）に加えて、高速ネットワーク１２２を介して共有メモリ１１８にアクセスすることができる。タイル１１６については、図６および図７を参照して以下でより詳細に説明する。

図２は、実行グラフ２００の一例を示す図である。実行グラフ２００は、機械学習ハードウェアアクセラレータによって実行される複数の演算２０２Ａ～２０２Ｊを含む。図２の矢印は、演算間の依存関係を表す。例えば、演算２０２Ｃは、演算２０２Ａおよび２０２Ｂの出力に依存する。図示された実行グラフはわかりやすくするために簡略化されており、実際の実行グラフは何千もの演算と依存関係とで構成され得ることに注意されたい。この初期グラフは、実行されるトレーニング済みの機械学習モデルに基づいて構築できる。例えば、ＭＬＩＲファイルを提供することができコンパイルすることもでき、部分的にコンパイルして、演算および依存関係のリストを生成し、実行グラフ２００を構築することもできる。

実行グラフ２００は、推論を実行するために発生する必要がある演算を一般的に記述することができる。演算は、基本レベルの計算（例えば、ＡＮＤ演算、ＯＲ演算、またはＸＯＲ演算）または比較や平均などのより高度なレベルの計算にすることができる。すべての演算の計算コストが等しいわけではなく、一部の演算は特定のコアタイプでより高速または効率的に実行される。例えば、一連の逐次計算を必要とする演算は、ＡＲＭタイプのプロセッサまたは同様のもの（例えば、図１のコアプロセッサ１１２）により適し得る。別の例では、単一の入力を共有する並列演算のグループは、ＧＰＵまたはＴＰＵ（例えば、図１のタイル１１６）などの並列プロセッサに最も適し得る。

図３Ａは、分割および割り当てを伴う実行グラフの一例を示す図である。例えば、実行グラフを実行する際の機械学習ハードウェアアクセラレータの効率を向上させるために、特定のハードウェアアクセラレータで特定の推論用にグラフをコンパイルするときに、グラフをさらに処理できる。例えば、このグラフをコンパイルすると、各分割３０６を特定のＡＳＩＣに割り当て、各演算３０２を実行のために特定のコアに割り当てることができる。

実行グラフは分散環境で実行することができ、演算がさまざまな処理ユニット間で分割される方法は、実行される推論の効率および速度に影響を与え得る。コンパイル時にハードウェア構成が決定される。例えば、ホストシステムは１０個のマルチコア装置（例えば、ＧｏｏｇｌｅＴＰＵ）を使用して特定の推論を実行できる。各マルチコア装置は、複数の処理コアと複数のコアタイプとを持つことができる。例えば、マルチコア装置は、処理「タイル」（例えば、図１に関して説明したタイル１１６）のアレイおよび１つまたは複数のコアプロセッサを有することができる。推論を実行するハードウェア構成が判明すると、実行グラフ３００をさらに定義し、既知のハードウェア構成上で実行するために最適化することができる。

実行グラフは、さまざまなサブグラフに分割することができる。分割３０６は、比較的独立した演算のグループを分離するように選択することができる。いくつかの実装では、分割は、ハードウェアアクセラレータが実行を継続する前にパラメータを同期するチェックポイント、つまり推論の同期ポイントを表すことができる。いくつかの実装では、並列コンピューティングを最大化するために、分割後の実行グラフ３００の各部分をハードウェアアクセラレータの処理装置間で分割することができる。

実行グラフ３００内の各演算を評価することができ、その演算に対して好ましい処理コアを選択することができる。例えば、演算３０２Ａ～３０２Ｈは、ＴＰＵタイル上で実行されるのにより適しており、したがって、ＴＰＵタイルによって優先的に実行されるべきである。演算３０４Ａ～３０４Ｃは、コアプロセッサ上で実行するのにより適しており、したがって、ＡＳＩＣのコアプロセッサ（例えば、図１のコアプロセッサ１１２）で優先的に実行することができる。いくつかの実装では、好ましいコアは必ずしも演算が実行されるコアではない。例えば、好ましいコアタイプが交互に切り替わる一連の演算がある場合、ハードウェアアクセラレータ内の通信トラフィックを最小限に抑えるために、単一のコアですべての演算を実行する方が最適な場合がある。さらに、２つの好ましいコアタイプ（演算３０２および３０４）のみが示されているが、３つ以上の好ましいタイプがこの開示によって企図される。例えば、一部の演算はホストシステムのＣＰＵ（例えば、図１のＣＰＵ１０４）に最適であり得、したがってホストシステムによって実行されるべきである。

いくつかの実装では、特定の演算には特定のコアタイプが必要である。例えば、一部の演算はＡＲＭコア（または他の特定のＲＩＳＣコア）によってのみ実行される場合があり、これらの演算はＴＰＵタイルでは適切に実行できない。例えば、いくつかの実装では、収集、散乱、またはビーム検索演算がＴＰＵタイルによって実行できない場合がある。ハードコアタイプの要件を持つ演算は、適切なコアに適切に割り当てることができる。多くの演算はどちらのコアでも実行できるが、どちらかのタイプの方が効率的である。さらに、演算の組み合わせまたはグループは、特定のコアタイプにより適して得る。ヒューリスティック分析を実行して、実行グラフ３００、または演算３０２および３０４を分析して、各演算にどのコアタイプが好ましいかを決定することができる。ヒューリスティック分析には、使用されるタイルの数の評価（例えば、使用されるタイルの数を最大化する試み）が含まれ得る。いくつかの実装では、ヒューリスティック分析により、各コアタイプの時間遅延またはソフトウェアオーバーヘッドが計算される。

好ましいコアタイプが決定され、実行グラフ３００が分割に分離されると、演算を機械学習ハードウェアアクセラレータの特定のハードウェアに割り当てることができる。一般に、特定のハードウェアコンポーネントへの演算の割り当ては、演算の好ましいコアタイプ、予想される通信トラフィック、および利用可能なハードウェアに基づいて行うことができる。例えば、一般的な機械学習ハードウェアアクセラレータは、コアプロセッサよりも多くのＴＰＵタイルを備え得るため、演算をＴＰＵタイルに優先的に割り当て得る。さらに、割り当ては階層的に完了できる。例えば、ホストシステムは、利用可能なＡＳＩＣ間で大規模な演算グループを分散し、ホストシステム内の演算を特定のタイル／プロセッサに個別に割り当て得る。いくつかの実装では、ホストシステムは、実行グラフ３００全体を単一のＡＳＩＣに割り当てるだけでよく、ＡＳＩＣのアレイにわたってピアツーピア方式でグラフの一部を分散することができる。これについては、図３Ｂを参照してさらに説明する。

いくつかの実装では、コンパイル中に実行グラフ３００に対して実行される最適化の量は調整可能である。例えば、ユーザは、推論が開始される前に、実行グラフ３００の最適化および分析に費やす特定の時間を指定することができる。

図３Ｂは、追加の上位層割り当てを伴う実行グラフの一例を示す図である。図３Ａに示すように、好ましいコアタイプが決定された後、個々の演算が特定のコアに割り当てられている。必要なコアタイプが決定されると、各分割に対して、上位レベルのコンパイラによって特定のＡＳＩＣを選択できる。例えば、第２の分割では、演算３０２Ｄおよび３０２ＥがハードウェアアクセラレータのＡＳＩＣ＃１のタイルＡおよびＢにそれぞれ割り当てられている。一方、演算３０２Ｃおよび３０４Ｂは、タイルＡおよびＡＳＩＣ＃２のＡＲＭコアに割り当てられている。

それらの階層的性質により、割り当ての各層は、機械学習ハードウェアアクセラレータの関連コンポーネントによってのみ行われる必要がある。例えば、ホストシステム（例えば、ホストシステム１０２）は、ハードウェアアクセラレータのＡＳＩＣ＃１に実行グラフ３００を提供することができる。次いで、ＡＳＩＣ＃１は、演算３０２Ｃおよび３０４ＢをＡＳＩＣ＃２にオフロードし、演算３０２Ｄおよび３０２ＥをタイルＡおよびＢにそれぞれ割り当てることができる。一方、ＡＳＩＣ＃２は、割り当てられた演算を受信し、ＡＳＩＣ＃２内の適切なコンピューティングコア（例えば、タイル、またはアームコア）間でそれらの演算を分散できる。

図４は、マルチコアコンピューティング装置のアレイにおいて実行可能なジョブを分散するための例示的なプロセスを説明するフローチャートである。プロセス４００は、機械学習ハードウェアアクセラレータ（例えば、図１に関して説明した機械学習ハードウェアアクセラレータ１００）またはその一部によって実行することができる。

４０２で、複数の実行可能なジョブがマルチコアコンピューティング装置のアレイにおいて受信される。マルチコアコンピューティング装置のアレイは、図１を参照して説明した機械学習ハードウェアアクセラレータ１００と同様とすることができる。いくつかの実装では、複数の実行可能なジョブは、トレーニングされた機械学習モデルまたはモデルの特性のリストとして受信され得る。

４０４において、複数のジョブの各ジョブは、マルチコアコンピューティング装置の特定のコアタイプに割り当てられる。場合によっては、各ジョブの実行に最適なコアタイプを決定するために分析を実行できる。コアタイプの例には、ＡＲＭコア（または他のＲＩＳＣコア）、ＣＰＵ、ＧＰＵ、およびＴＰＵが含まれ得るが、これらに限定されない。分析は、実行可能なジョブ、ユーザ入力、ならびにハードウェア要件および可用性のヒューリスティック分析に基づいて実行できる。ヒューリスティック分析により、どのジョブまたはジョブのグループがどのコアタイプで最も効率的に実行されるかを決定できる。ユーザは、実行するヒューリスティック分析を定義するパラメータを含め、分析に費やす時間や分析の優先順位などを入力できる。いくつかの実装では、ユーザ入力は、所望の分析の深さを含むことができ、これは、例えば、ジョブをどのコアタイプに割り当てるべきかを決定するために、ジョブごとに実行する計算の数を記述することができる。ハードウェア要件には、特定のジョブを特定のコアタイプで実行する必要がある特定のハードウェア制限が含まれ得る。例えば、ＴＰＵタイルは、テンソルオブジェクトのリターンを別のＡＳＩＣに送信することを伴う通信ルーティングジョブを実行できない場合がある。このジョブは、ＡＳＩＣ自体のコアプロセッサによって実行する必要がある場合がある。さらに、利用可能なハードウェアは、ジョブを割り当てるための分析に情報を提供できる。例えば、ハードウェアアクセラレータは、第２のタイプの処理コアよりも第１のタイプの処理コアを多く利用できる場合がある。この例では、第１のタイプのコアの追加の相対可用性に基づいて、ジョブを第１のタイプのコアに優先的に割り当てることができる。

４０６で、各ジョブは、そのコアタイプの割り当てに従って、個別に実行可能なファイルにコンパイルされる。これらの個別に実行可能なファイルは、１つまたは複数の入力とともにそれらの割り当てられたコアタイプによって消費され、１つまたは複数の出力を生成するように構成できる。例えば、ＴＰＵタイルに割り当てられたジョブは、ＴＰＵ実行可能なファイルにコンパイルされる。同様に、ＡＲＭに割り当てられたジョブは、ＡＲＭ実行可能なファイルにコンパイルされる。

４０８で、個別に実行可能なファイルの特定のタイプの処理コアへのマッピングを表す実行グラフが生成される。実行グラフは、個別に実行可能なファイル間の依存関係を識別できる。いくつかの実装では、実行グラフはノードおよびエッジグラフであり、各ノードは実行可能なファイルおよび追加のメタデータまたは情報を表し、各エッジは２つのノード間の依存関係を表す。実行グラフは、図２、図３Ａ、および図３Ｂに関して説明した実行グラフ２００または３００と同様とすることができる。実行グラフはさらに階層的であり、以下でさらに詳しく図８を参照して説明した実行グラフ８００と同様の１つまたは複数のサブグラフを含むことができる。実行グラフ内の各ノードには１つまたは複数の実行可能なファイルを含めることができ、これらの実行可能なファイルは機械学習ハードウェアアクセラレータ全体に分散できる。

図５は、マルチコアコンピューティング装置のアレイにおいて実行可能なジョブをコンパイルするための例示的なプロセスを説明するフローチャートである。プロセス５００は、機械学習ハードウェアアクセラレータ（例えば、図１に関して説明した機械学習ハードウェアアクセラレータ１００）またはその一部によって実行することができる。

５０２で、機械学習ハードウェアアクセラレータは、推論を実行するための機械学習モデルを受信する。機械学習モデルは、ニューラルネットワーク内のニューロン間の重みや接続、各層の層／ニューロンの数などのパラメータを定義できる。受信された機械学習モデルには、推論を実行するためにニューラルネットワークに提供される１つまたは複数の入力、ならびに実行される演算、および演算で使用される特定の入力、出力、およびパラメータも含めることができる。

５０４において、受信された機械学習モデルが解析されて、実行される複数のジョブが決定される。複数のジョブには、他のジョブからの結果に依存するジョブ、ならびにシステム間の通信および推論を実行するために完了すべき他の計算が含まれ得る。いくつかの実装では、ジョブがどのコアタイプで優先的に実行されるかを決定するためにジョブが評価される。例えば、上で説明したものと同様のヒューリスティック分析を実行して、ジョブが最適に演算するコアタイプを識別できる。

５０６で、複数のジョブおよび複数のジョブ間の依存関係を表す実行グラフが生成される。いくつかの実装では、実行グラフは、図２および図３を参照して説明した実行グラフ２００または３００と同様の、ノードおよびエッジ図である。場合によっては、これは上記の４０８と同様に完了する。

５０８において、マルチチップコンパイラが呼び出され、実行グラフをマッピングされた実行グラフにコンパイルする。マッピングされた実行グラフは、すべてのジョブが適切なコアタイプに割り当てられ、コンパイルされたグラフである。マッピングされた実行グラフには、マルチコア機械学習アクセラレータで実行されるために必要なコンパイルされた実行可能ファイルが含まれている。一般に、マルチチップコンパイラはグラフを下位層のコンパイラで処理されるサブグラフに分割する。最上位層で実行される必要がある一部のジョブはすぐにコンパイルされ、残りのジョブはさらにサブグラフに分割され、それぞれのコンパイラによってコンパイルされる。マルチチップレベル、単一チップレベル、およびコアレベルの３層階層として説明されているが、本開示の範囲内では、より多くのまたはより少ない層が考慮され得る。

５１０において、マルチコアコンピューティング装置と互換性のない複数のジョブのうちの１つまたは複数の第１のジョブが識別される。換言すれば、これらのジョブは、高レベルで（例えば、図１を参照して説明したようなＣＰＵ１０４などのホストＣＰＵによって）実行されなければならない。例えば、実行の開始、停止、ジョブのリターンなどである。ホストＣＰＵは、第１のコアタイプを構成してもよい。

５１２において、実行グラフの残りのジョブは、単一チップレベルを表す複数の第１のサブグラフに分割され、マルチコアコンピューティング装置のアレイ内のマルチコアコンピューティング装置に割り当てられる。マルチコアコンピューティング装置のアレイは、図１を参照し、以下で図６および図７を参照してより詳細に説明したＡＳＩＣ１０８と同様のＡＳＩＣとすることができる。

５１４で、チップレベルコンパイラが呼び出されて、第１のサブグラフの各々をコンパイルする。上位層の各サブグラフには、現在の層に割り当てられる実行可能ファイル、またはさらに下位レベルのサブグラフに分割される実行可能ファイルが含まれる。

５１６において、チップレベルでのみ実行可能であり、チップレベルでは適さない、またはチップレベルで優先的に実行される１つまたは複数のチップレベルのジョブが識別される。これらのジョブは、例えば、トラフィック調整ジョブ、またはマルチコアコンピューティング装置のコア間の同期ジョブである。次に、これらのジョブは、第２のコアタイプ（例えば、マルチコアコンピューティング装置のＡＲＭコアコントローラ）によって実行されるようにコンパイルされる。

５１８において、第１のサブグラフの残りのジョブは、複数の第２のサブグラフに分割され、第３のコアタイプ（例えば、ＴＰＵタイル）に割り当てられる。５２０で、コアレベルコンパイラが呼び出されて、第２のサブグラフの各々を処理する。５２２で、コアレベルコンパイラは、第２のサブグラフの各々を、第３のコアタイプ（例えば、ＴＰＵタイル）によって実行される１つまたは複数の実行可能ファイルにコンパイルする。

５２４で、結果として得られるマッピングされた実行グラフがリターンされ、その結果、実行可能ファイルおよびサブグラフを含む実行グラフが得られる。各サブグラフ自体には、実行可能ファイルと潜在的な追加のサブグラフとが含まれる。各グラフとサブグラフとは、マルチコアコンピューティング装置のアレイにおいて実行されるコアタイプを指定できる。

図６は、ディープニューラルネットワーク（ＤＮＮ）に関連するテンソル計算を加速するための例示的なコンピューティングシステム６００として機械学習ハードウェアアクセラレータで使用されるＡＳＩＣのブロック図を示す。システム６００は、例えば、図１を参照して説明したＡＳＩＣ１０８とすることができる。システム６００は一般に、コントローラ６０２、ホストインターフェース６０８、入出力（Ｉ／Ｏ）リンク６１０、第１のタイルセット６１２および第２のタイルセット６１４を含む複数のタイル、分類器部分６１６、およびバスマップ６１８（明確にするために示されているが、システム６００には含まれていない）で識別されるデータバスを含む。タイルセット６１２およびタイルセット６１４のタイルは、図１を参照して説明したタイル１１６と同じであっても異なっていてもよい。コントローラ６０２は一般に、データメモリ６０４、命令メモリ６０６、およびコンピュータ可読記憶媒体にエンコードされた１つまたは複数の命令を実行するように構成された少なくとも１つのプロセッサを含む。命令メモリ６０６は、コントローラ６０２の１つまたは複数のプロセッサによって実行可能な１つまたは複数の機械可読命令を記憶することができる。データメモリ６０４は、システム６００内で発生する計算に関連するさまざまなデータを記憶し、その後アクセスするためのさまざまなデータ記憶媒体のいずれであってもよい。

コントローラ６０２は、命令メモリ６０６に記憶された命令を含む、システム６００内のテンソル計算に関連する１つまたは複数の命令を実行するように構成されている。いくつかの実装では、データメモリ６０４および命令メモリ６０６は、１つまたは複数の揮発性メモリユニットである。いくつかの他の実装では、データメモリ６０４および命令メモリ６０６は、１つまたは複数の不揮発性メモリユニットである。データメモリ６０４および命令メモリ６０６は、別の形式のコンピュータ可読媒体であってもよく、それは例えば、フロッピー（登録商標）ディスク装置、ハードディスク装置、光ディスク装置、もしくはテープ装置、フラッシュメモリもしくは他の同様のソリッドステートメモリ装置、または記憶エリアネットワークもしくは他の構成内の装置を含む装置のアレイなどである。さまざまな実装では、コントローラ６０２は、コアマネージャ６０２と参照される、または呼ばれることもある。

図示されるように、ホストインターフェース６０８は、Ｉ／Ｏリンク６１０、コントローラ６０２、および分類器部分６１６に結合される。ホストインターフェース６０８は、Ｉ／Ｏリンク６１０から命令およびデータパラメータを受信し、コントローラ６０２に命令およびパラメータを提供する。一般に、命令は、命令バス６２４（後述）を通じてシステム６００内の１つまたは複数の装置に提供することができ、パラメータは、リングバス６２８（後述）を通じてシステム６００内の１つまたは複数の装置に提供することができる。いくつかの実装では、命令は、最初にホストインターフェース６１８からコントローラ６０２によって受信され、後のコントローラ６０２による実行のために命令メモリ６０６に記憶される。

分類器部分６１６は、同様に、コントローラ６０２および第２のタイルセット６１４のタイル７に結合される。いくつかの実装では、分類器部分６１６は、システム６００内の別個のタイルとして実装される。代替の実装では、分類器部分６１６は、コントローラ６０２のサブ回路またはサブ装置としてコントローラ６０２内に配置または位置決めされる。分類器部分６１６は、一般に、完全に接続された層の出力として受信される蓄積されたアクティベーション前値に対して１つまたは複数の機能を実行するように構成される。完全に接続された層は、タイルセット６１２および６１４内のタイルにわたって分割され得る。したがって、各タイルは、タイルのメモリユニットに記憶できるアクティベーション前値のサブセット（すなわち、線形出力）を生成するように構成されている。分類結果バス６２０は、分類器部分６１６からコントローラ６０２へのデータパスを提供する。ポスト関数値（すなわち、結果）を含むデータは、分類結果バス６２０を介して分類器部分６１６からコントローラ６０２に提供される。

バスマップ６１８は、第１のタイルセット６１２のタイルと第２のタイルセット６１４のタイルとの間に１つまたは複数の相互接続されたデータ通信パスを提供するデータバスを示す。バスマップ６１８は、図６に示すように、分類結果バス６２０、ＣＳＲ／マスタバス６２２、命令バス６２４、メッシュバス６２６、およびリングバス６２８を識別するための凡例を提供する。一般に、タイルは、システム６００のアクセラレータアーキテクチャ内のコアコンポーネントであり、システム内で行われるテンソル計算の焦点である。各タイルは、システム内の他のタイルと連携して、多層ニューラルネットワークの１つまたは複数の層にわたる計算を高速化する個別のコンピューティングユニットである。タイルセット６１２、６１４内のタイルは、所与の命令に関連付けられたテンソル計算の実行を共有することができるが、個々のコンピューティングユニットは、タイルセット６１２、６１４内の他の対応するタイルに対して独立してテンソル計算のサブセットを実行するように構成された自己完結型の計算コンポーネントである。

ＣＳＲバス６２２は、コントローラ６０２がプログラム構成を設定し、１つまたは複数のタイルに関連付けられたステータスレジスタを読み取る１つまたは複数の命令を送信できるようにする単一マスタ複数スレーブバスである。ＣＳＲバス６２２は、１つのマスタバスセグメントおよび複数のスレーブバスセグメントを有する単一のデイジーチェーン構成で接続され得る。図６に示されるように、ＣＳＲバス６２２は、タイルセット６１２、６１４内のタイルおよびリング内のコントローラ６０２をホストインターフェース６１０に接続するバスデータパスを介した通信結合を提供する。いくつかの実装では、ホストインターフェース６１０は、ＣＳＲバスリングの単一マスタであり、ＣＳＲバスアドレス空間全体が、ホストインターフェース６１０内のメモリ空間にメモリマッピングされる。

ＣＳＲバス６２２は、１つまたは複数の演算を実行するためにホストインターフェース６１０によって使用され得、例えば、コントローラ６０２が命令メモリ６０６から命令のフェッチを開始できるようにするためのコントローラ６０２内のメモリバッファポインタをプログラミングすること、１つまたは複数の計算中に静的なままになるさまざまなタイル設定（例えば、多項式近似計算の係数テーブル）を更新／プログラミングすること、および／またはファームウェアを分類部分６１６にロード／再ロードすること、を含む。一例では、ファームウェアの再ロードには、線形出力（つまり、アクティベーション前値）に適用される新しい関数が含まれ得る。したがって、ＣＳＲバス６２２にアクセスできるすべてのスレーブは、スレーブに結び付けられ、それを識別する別個のノード識別子（ノードＩＤ）を有することになる。ノードＩＤは命令アドレスの一部であり、ＣＳＲパケットがスレーブに宛てられているかどうかを決定するために、ＣＳＲスレーブ（すなわち、コントローラ６０２、タイル６１２、６１４、および分類器６１６）によって使用、検査、またはさもなければ調べられる。

いくつかの実装では、１つまたは複数の命令は、コントローラ６０２を介してホストインターフェース６０２によって送信され得る。命令は、例えば、３２ビット幅であり得、最初の７ビットには、命令を受信して実行する命令アドレス／宛先を示すヘッダ情報が含まれる。ヘッダの最初の７ビットには、特定のノードＩＤを表すデータパラメータが含まれ得る。したがって、ＣＳＲバスリング上のスレーブ（例えば、各タイル）は、命令のヘッダを検査して、マスタ（ホストインターフェース６１０）による要求がヘッダを検査しているタイルに宛てられたものであるかどうかを決定することができる。ヘッダのノードＩＤが宛先が検査タイルであることを示していない場合、検査タイルは入力ＣＳＲ命令パケットを次のタイルによる検査のために次のタイルに接続されたＣＳＲバス入力にコピーする。

命令バス６２４はコントローラ６０２から始まり、ＣＳＲバス６２２と同様に、リング内のタイルセット６１２、６１４内のタイルをコントローラ６０２に戻るように接続するバスデータパスを介した通信結合も提供する。一実装では、コントローラ６０２は、命令バス６２４を介して１つまたは複数の命令をブロードキャストする。コントローラ６０２によってブロードキャストされる命令は、ＣＳＲバス６２２を介して提供される命令とは異なり得る。しかし、タイルがバス６２４を介して受信した命令を受信および／または消費または実行する方法は、ＣＳＲバス６２２を介して受信した命令を実行するためのプロセスと同様であり得る。

一例では、命令のヘッダ（すなわち、ビットマップ）は、受信タイルに対して、受信タイルが命令に関連付けられたビットマップに基づいて特定の命令を消費する必要があることを示す。ビットマップは、ビットに関して定義された特定の幅を持ち得る。命令は通常、命令のパラメータに基づいて、あるタイルから次のタイルに転送される。一実装では、命令バス６２４の幅は、命令のサイズ／幅よりも小さくなるように構成され得る。したがって、そのような構成では、命令の送信は数サイクルにわたって行われ、命令バス６２４のバスストップは、タイルで受信した命令をそのタイルに関連付けられた適切なターゲット命令バッファに配置するデコーダを有する。

さらに以下で説明するように、タイルセット６１２、６１４内のタイルは、一般に、２つの広範なカテゴリの命令をサポートするように構成される。２つの大まかなカテゴリは、命令タイプとも呼ばれ得る。命令タイプには、テンソル演算（ＴｅｎｓｏｒＯｐ）命令とダイレクトメモリアクセス（ＤＭＡＯｐ）命令とが含まれる。いくつかの実装では、ＤＭＡＯｐ命令には、同時実行が許可される１つまたは複数の特殊化がある。１つまたは複数の特殊化は、ＤＭＡＯｐ命令サブタイプまたはオペコードと呼ばれ得る。場合によっては、すべての固有および／または有効なＤＭＡＯｐ命令タイプ／サブタイプタプルが、特定のタイル内に個別の命令バッファを持つことになる。

タイル６１２、６１４の特定のタイルで、命令バス６２４に関連付けられたバスストップはヘッダビットマップを調べて命令タイプ／サブタイプを決定する。命令は、タイルによって受信され、その後、タイルによる命令の実行前に、タイルの命令バッファに書き込まれ得る。命令が書き込まれるタイルの命令バッファは、命令のタイプおよびサブタイプインジケータ／フィールドによって決定され得る。命令バッファには、１つまたは複数の関連命令の消費を優先する先入れ先出し（ＦＩＦＯ）制御方式が含まれ得る。したがって、このＦＩＦＯ制御方式では、同じタイプ／サブタイプの命令は常に、命令が命令バスに到着した順序で実行される。

タイル内の異なる命令バッファは、ＴｅｎｓｏｒＯｐ命令バッファおよびＤＭＡＯｐ命令バッファである。上で示したように、命令タイプにはＴｅｎｓｏｒＯｐ命令とＤＭＡＯｐ命令とが含まれる。ＤＭＡＯｐ命令に関しては、命令サブタイプ（「書き込み先」バッファの位置を示す）には以下が含まれる。以下とは、１）メッシュ受信命令バッファ、２）メッシュ送信命令バッファ、３）ナローワイドＤＭＡ命令バッファ、４）ワイド／ナローＤＭＡ命令バッファ、および５）リングバスＤＭＡ命令バッファ、である。これらのバッファ位置については、図７を参照して以下でさらに詳しく説明する。ワイドおよびナローの指定は仕様全体で使用されており、一般に１つまたは複数のメモリユニットの幅（ビット／バイト）のおおよそのサイズを指す。本明細書で使用される場合、「ナロー」は、各々が１６ビット未満のサイズまたは幅を有する１つまたは複数のメモリユニットを指し得、「ワイド」は、各々が６４ビット未満のサイズまたは幅を有する１つまたは複数のメモリユニットを指し得る。

メッシュバス６２６は、ＣＳＲバス６２２、命令バス６２４、およびリングバス６２８（後述）とは異なるデータ通信パスを提供する。図６に示されるように、メッシュバス６２６は、Ｘ次元およびＹ次元の両方において各タイルをその対応する隣接タイルに結合または接続する通信パスを提供する。さまざまな実装において、メッシュバス６２６は、隣接するタイル内の１つまたは複数のナローメモリユニット間で入力アクティベーション量を転送するために使用され得る。図示されるように、メッシュバス６２６は、入力アクティベーションデータを隣接しないタイルに直接転送することを許可しない。

さまざまな実装において、メッシュバス６２６およびメッシュバス６２６を介して接続されたさまざまなタイルは、以下の構成を有し得る。メッシュの４つのコーナータイルには２つの送信ポートと２つの受信ポートとがある。メッシュの４つのエッジタイルには３つの受信ポートと３つの送信ポートとがある。エッジおよびコーナー以外のすべてのタイルには、４つの受信ポートと４つの送信ポートとがある。一般に、ＮｘＮタイルレイアウトの一例を考えると、エッジタイルは３つの隣接タイルのみを持つタイルであり、一方、コーナータイルは２つの隣接タイルを持つタイルである。メッシュバス６２６を介したデータフロー方法に関して、一般に、特定のタイルについてメッシュバス６２６を介して到着するすべての入力アクティベーションは、タイルの１つまたは複数のナローメモリユニットにコミットされなければならない。さらに、受信ポートが４つ未満のタイル構成の場合、ＤＭＡＯｐ命令は、存在しない入力ポート上のデータを待つ代わりに、タイルのナローメモリ内の位置にゼロ値を書き込み得る。同様に、送信ポートが４つ未満のタイル構成の場合、ＤＭＡＯｐ命令は、存在しないポートの転送に関連するナローメモリの読み取りとポートの書き込みを実行しない。

いくつかの実装では、特定の入力アクティベーションが書き込まれるか読み取られるナローメモリユニットの位置またはアドレスは、メッシュバス６２６を介して提供される受信／送信ＤＭＡＯｐに基づいてテンソルトラバーサルユニット（ＴｅｎｓｏｒＴｒａｖｅｒｓａｌＵｎｉｔ）（以下「ＴＴＵ」）によって生成される。受信ＤＭＡＯｐおよび送信ＤＭＡＯｐは同時に実行することができ、任意の必要な同期はコントローラ６０２によって管理される同期フラグ制御方式を通じて管理されることになる。ＴＴＵについては、図７を参照して以下でさらに詳細に説明する。

リングバス６２８はコントローラ６０２から始まり、ＣＳＲバス６２２および命令バス６２４と同様に、リング内のタイル６１２、６１４をコントローラ６０２に戻るように接続するバスデータパスを介した通信結合も提供する。さまざまな実装では、リングバス６２８は一般に、すべてのタイル６１２、６１４内の全幅メモリユニット（図７を参照して以下でより詳細に説明する）を接続または結合する。したがって、リングバス６２８のペイロード幅は、タイルセット６１２、６１４の各タイル内に配置されたワイドメモリユニットの幅に対応する。上で論じたように、リングバス６２８は、リングバス６２８を介して通信される命令またはパラメータを含むペイロードデータを消費する必要があるタイルを示すビットマップヘッダも含む。

リングバス６２８を介して特定のタイルで受信されたデータ（すなわち、ペイロード）に関して、情報の受信に応答して、各タイルは、データを別のタイルに転送する前に、受信タイルに固有のビットマップヘッダで示される位置データをゼロにする（つまり、クリアする）。したがって、ヘッダビットマップにペイロードを受信する特定のタイルを示すビットセットデータが残っていない場合、別のタイルへのペイロードの転送は停止する。ペイロードデータは通常、深くネストされたループの実行に基づいて実行されるテンソル計算中に１つまたは複数のタイルによって使用されるアクティベーションと重みとを指す。

いくつかの実装では、コントローラ６０２は、リングバス６２８の一部であると説明され得る。一例では、特定のタイル内で実行されるＤＭＡＯｐ命令の場合、コントローラ６０２を使用して、リングバスストップからデータ／ペイロードをポップし、ペイロードをリング内の次のタイルのリングバスストップに転送することができる。コントローラ６０２はまた、そのようなアクションがビットマップヘッダ内の命令によって必要とされる場合、ペイロードデータをタイルの１つまたは複数のワイドメモリユニットにコミットさせることもできる。データを書き込む必要がある１つまたは複数のワイドメモリユニットのアドレスは、特定のタイル内のＤＭＡＯｐ命令によって生成され得る。

さまざまな実装において、タイルセット６１２、６１４の各タイルは、ペイロードデータのプロデューサまたはペイロードデータのコンシューマのいずれかになることができる。タイルがペイロードデータのプロデューサである場合、タイルはそのワイドメモリユニットの１つまたは複数からデータを読み取り、１つまたは複数の他のタイルによる消費のためにリングバス６２８を介してデータをマルチキャストする。タイルがペイロードデータのコンシューマである場合、タイルはデータを受信してタイル内の１つまたは複数のワイドメモリユニットに書き込み、１つまたは複数の他のタイルで消費するようにペイロードデータを転送する。リングバス６２８を介したペイロードデータの移動に関しては、通常、リングバス６２８上には常に１つのデータのプロデューサ／マスタが存在するだけである。すべてのタイルにおけるＤＭＡＯｐ命令の実行順序（例えば、ＦＩＦＯ制御方式）により、所定の時間にリングバス６２８上にデータのプロデューサ／マスタがただ１つだけ存在することが保証される。

いくつかの実装では、コントローラ６０２は、同期フラグ制御アーキテクチャを使用して、所与の時間にリングバス６２８上にペイロードデータのプロデューサ／マスタが１つだけ存在することを保証する。一例では、タイルによるリング出力への書き込みのたびに、対応する同期フラグのカウントの増加がトリガーされる。コントローラ６０２は、ペイロードデータを検査して、ペイロードを含むデータチャンクまたはセグメントの数を決定することができる。次に、コントローラ６０２は、タイルによる実行を監視して、別のタイルがマスターモードで実行される前に、予想される数のデータセグメントがタイルによって転送および／または消費されることを保証する。

リングバス６２８上に重複領域を持たないローカルマルチキャストグループがそのリングバスを介して接続されている場合、所与の時点でリングバス６２８上にデータのプロデューサ／マスタが１つだけ存在することを保証する例外が発生する。例えば、タイル０（マスター）は、タイル０～タイル３グループ内のタイルにマルチキャスト（つまり、データを生成）することができ、一方、タイル４（マスター）は、タイル４～タイル７グループ内のタイルに対して同じことを行うことができる。このデュアルマスターマルチキャスト方法論の重要な要件は、パケットの重複が発生して１つまたは複数のデータ計算エラーが発生し得るため、異なるマルチキャストグループが互いのデータパケットを参照できないようにすることである。

図６に示すように、コントローラ６０２は、タイルセット６１２、６１４内のタイルをＩ／Ｏ６１０に結合または接続する通信データパスを提供し、いくつかのコア機能を含む。コントローラ６０２のコア機能には、一般に、１つまたは複数のＩ／Ｏ入力アクティベーションをタイルセット６１２、６１４内のタイルに供給することと、１つまたは複数の入力アクティベーションおよびＩ／Ｏ６１０から受信したパラメータをタイルに供給することと、Ｉ／Ｏ６１０から受信した１つまたは複数の命令をタイルに供給することと、Ｉ／Ｏ出力アクティベーションをホストインターフェース６０８に送信することと、ＣＳＲバス６２２およびリングバス６２８のリングストップとして機能することと、が含まれる。以下により詳細に説明するように、第１のタイルセット６１２および第２のタイルセット６１４は各々、内側ループおよび外側ループから構成される深いループネストに基づいて実行される１つまたは複数のテンソル計算を実行するために使用される複数のタイルを含む。

システム６００は一般に次のように演算する。ホストインターフェース６０８は、所与の計算に対して行われるダイレクトメモリアクセス演算（ＤＭＡＯｐ）を定義する１つまたは複数の命令をコントローラ６０２に提供する。コントローラ６０２に供給される命令に関連する記述子は、多次元データアレイ（テンソル）に関連する大規模なドット積計算を容易にするためにコントローラによって必要とされる情報を含むことになる。一般に、コントローラ６０２は、ホストインターフェース６０８から、ニューラルネットワークの所与の層に対するテンソル計算を実行するための入力アクティベーション、タイル命令、およびモデルパラメータ（すなわち、重み）を受信する。次に、コントローラ６０２は、命令によって定義されたデータフロー方式で命令をタイル６１２、６１４にマルチキャストさせることができる。上で論じたように、命令を消費するタイルは、次いで、命令ヘッダ内のビットマップデータに基づいて、別のタイルへの新しい／後続の命令のブロードキャストを開始することができる。

データフローに関して、入力アクティベーションおよびパラメータは、リングバス６２８を介してタイルセット６１２、６１４のタイルに送信される。タイル６１２、６１４の各々は、その特定のタイルに割り当てられる出力アクティベーションのサブセットを計算するために必要な入力アクティベーションのサブセットを記憶する。タイルに対するＤＭＡＯｐ命令により、入力アクティベーションがワイドメモリからナローメモリに移動させられる。タイル内の計算は、必要な入力アクティベーション、パラメータ／重み、および計算命令（ＴＴＵ演算、メモリアドレスなど）がタイル内で利用可能になったときに開始される。タイル内で行われる計算は、タイル内のＭＡＣ演算子（後述）が命令セットによって定義されたすべてのドット積演算を完了したときに終了し、事前アクティベーション関数が乗算演算の結果（つまり、出力アクティベーション）に適用される。

１つまたは複数のテンソル計算の結果には、計算を実行するタイルのナローメモリユニットへの計算層の出力アクティベーションの書き込みが含まれる。特定のテンソル計算では、メッシュバス６２６を介して出力エッジアクティベーションが隣接するタイルに転送される。計算が複数の層にまたがる場合、後続の層の出力アクティベーションを計算するには、出力エッジアクティベーションを隣接タイルに転送する必要がある。すべての層の計算が完了すると、ＤＭＡＯｐはリングバス６２８を介して最終的なアクティベーションを分類器タイル６１６に移動する。次いで、コントローラ６０２は、分類器タイル６１６から最終アクティベーションを読み取り、ＤＭＡＯｐを実行して、最終アクティベーションをホストインターフェース６０８に移動する。いくつかの実装では、分類器部分６１６は、ＮＮの出力層（すなわち、最後の層）の計算を実行する。他の実装では、ＮＮの出力層は、分類層、回帰層、または一般にニューラルネットワークに関連付けられる別の層タイプのうちの１つである。

図７は、図１を参照して説明したようにＡＳＩＣ１０６で使用できるニューラルネットワーク（ＮＮ）計算タイル７００の一例を示す。一般に、例示的なタイル７００は、図６を参照して上述した第１のタイルセット６１２および第２のタイルセット６１４内のタイルのいずれかに対応し得る。さまざまな実装では、計算タイル７００は、計算ユニット７００と参照される、または呼ばれることもある。各計算タイル７００は、タイルセット６１２、６１４内の他の対応するタイルに対して独立して命令を実行するように構成された内蔵型計算ユニットである。上で簡単に説明したように、各計算タイル７００は、ＴｅｎｓｏｒＯｐ命令とＤＭＡＯｐ命令という２種類の命令を実行する。一般に、各命令タイプには深いループネストに関連付けられた計算演算が含まれるため、各命令タイプは通常、すべてのループ反復の完了を保証するために複数のタイムエポックにわたって実行される。

以下でより詳細に説明するように、異なる命令タイプは、計算タイル７００内で管理される同期フラグ制御を介してデータを同期する計算タイル７００内の独立した制御ユニットによって実行される。同期フラグ制御は、計算タイル７００内の異なる命令タイプの実行間の同時実行性を管理する。各命令タイプに関連付けられた各計算演算は、厳密な発行順序（つまり、先入れ先出し）で実行される。２つの命令タイプ、ＴｅｎｓｏｒＯＰおよびＤＭＡＯｐに関して、これらの異なる命令タイプ間の順序保証はなく、各タイプは計算タイル７００によって別個の制御スレッドとして扱われる。

データフロー構造に関して、計算タイル７００は一般に、計算タイル７００に出入りするデータフローのための通信パスを各々提供するデータパス７０２およびデータパス７０５を含む。上述したように、システム６００は、リング構成でレイアウトされた３つの異なるデータバス構造、すなわちＣＳＲバス６２２、命令バス６２４、およびリングバス６２８を含む。図７を参照すると、データパス７０５は命令バス６２４に対応し、一方、データパス７０２は一般にＣＳＲバス６２２およびリングバス６２８のうちの１つに対応する。図示のように、データパス７０２は、計算タイル７００から出るデータの出力パスを提供するリング出力７０３と、計算タイル７００に入るデータの入力パスを提供するリング入力７０４とを含む。

計算タイル７００は、ＴｅｎｓｏｒＯｐテンソルトラバーサルユニット（ＴＴＵ）７２６を含むＴｅｎｓｏｒＯｐ制御７０６と、ＤＭＡＯｐＴＴＵ７２８を含むＤＭＡＯｐ制御７０８とをさらに含む。ＴｅｎｓｏｒＯｐ制御７０６は、一般に、ＴｅｎｓｏｒＯｐＴＴＵレジスタ７３２への書き込みおよびＴｅｎｓｏｒＯｐＴＴＵレジスタ７３２からの読み取りを管理し、ＴｅｎｓｏｒＯｐＴＴＵ７２６によって実行されるトラバーサル演算を管理する。同様に、ＤＭＡＯｐ制御７０８は一般に、ＤＭＡＯｐＴＴＵレジスタ７３４への書き込みおよびそこからの読み取りを管理し、ＤＭＡＯｐＴＴＵ７２８によって実行されるトラバーサル演算を管理する。ＴＴＵレジスタ７３２は、ＴｅｎｓｏｒＯｐ制御７０６による命令の実行時にＴｅｎｓｏｒＯｐＴＴＵ７２６によって実行される演算を含む１つまたは複数の命令を記憶するための命令バッファを含む。同様に、ＴＴＵレジスタ７３４は、ＤＭＡＯｐ制御７０８による命令の実行時にＴＴＵ７０８によって実行される演算を含む１つまたは複数の命令を記憶するための命令バッファを含む。以下でさらに説明するように、ＴＴＵは、一般にナローメモリ７１０およびワイドメモリ７１２に載る１つまたは複数のテンソルのアレイ要素をトラバースするために、計算タイル７００によって使用される。

いくつかの実装では、計算タイル７００によって実行される特定の命令は、データパス７０５（すなわち、命令バス６２４の一部）を介してタイルに到着する。計算タイル７００は、ヘッダビットマップを調べて、命令タイプ（ＴｅｎｓｏｒＯｐまたはＤＭＡＯｐ）および命令サブタイプ（読み取り演算または書き込み演算）を決定する。計算タイル７００によって受信された命令は、その後、命令タイプに応じて特定の命令バッファに書き込まれる。一般に、命令は、計算タイル７００のコンポーネントによる命令の実行前に受信され、記憶される（すなわち、バッファに書き込まれる）。図７に示されるように、命令バッファ（すなわち、ＴｅｎｓｏｒＯｐＴＴＵレジスタ７３２およびＤＭＡＯｐＴＴＵレジスタ７３４）は各々、１つまたは複数の関連命令の消費（実行）を優先する先入れ先出し（ＦＩＦＯ）制御方式を含み得る。

上で簡単に説明したように、テンソルは多次元幾何学的オブジェクトであり、多次元幾何学的オブジェクトの例には行列およびデータアレイが含まれる。深くネストされたループを含むアルゴリズムは、計算タイル７００によって実行され、１つまたは複数のネストされたループを反復してＮ次元テンソルを横断することによってテンソル計算を実行することができる。計算プロセスの一例では、ループネストの各ループは、Ｎ次元テンソルの特定の次元をトラバースする責任を負い得る。本明細書で説明されるように、ＴｅｎｓｏｒＯｐ制御７０６は、一般に、特定のテンソル構造の次元要素がトラバースされアクセスされて、深いネストされたループによって定義される計算を完了するシーケンスを駆動する１つまたは複数のテンソル演算を管理する。

計算タイル７００は、ナローメモリ７１０およびワイドメモリ７１２をさらに含む。ナローおよびワイドの指定は、一般に、ナローメモリ７１０およびワイドメモリ７１２のメモリユニットの幅のサイズ（ビット／バイト）を指す。いくつかの実装では、ナローメモリ７１０は、各々が１６ビット未満のサイズまたは幅を有するメモリユニットを含み、ワイドメモリ７１２は、各々が３２ビット未満のサイズまたは幅を有するメモリユニットを含む。一般に、計算タイル７００は、データパス７０５を介して入力アクティベーションを受信し、ＤＭＡ制御７０８は、入力アクティベーションをナローメモリ７１０に書き込む演算を実行する。同様に、計算タイル７００は、データパス７０２を介してパラメータ（重み）を受信し、ＤＭＡ制御７０８は、パラメータをワイドメモリ７１２に書き込む演算を実行する。いくつかの実装では、ナローメモリ７１０は、共有メモリシステムで通常使用されるメモリアービタを含むことができ、各メモリサイクルについて、どの制御装置（例えば、ＴｅｎｓｏｒＯｐ制御７０６またはＤＭＡＯｐ制御７０８）がナローメモリ７１０のその共有メモリユニットにアクセスすることを許可されるかを決定する。

計算タイル７００は、入力アクティベーションバス７１６と、各々がＭＡＣ演算子７１５および合計レジスタ７２０を含む複数のセルを含むＭＡＣアレイ７１４とをさらに含む。一般に、ＭＡＣアレイ７１４は、複数のセルにわたるＭＡＣ演算子７１５および合計レジスタ７２０を使用して、ドット積計算に関連する算術演算を含むテンソル計算を実行する。入力アクティベーションバス７１６は、ＭＡＣアレイ７１４の各ＭＡＣ演算子７１５によるそれぞれのアクセスに対してナローメモリ７１０によって入力アクティベーションが１つずつ提供されるデータパスを提供する。したがって、入力アクティベーションの１つ１つのブロードキャストに基づいて、特定のセルの単一のＭＡＣ演算子７１５が各々入力アクティベーションを受信することになる。ＭＡＣアレイ７１４のＭＡＣ演算子によって実行される算術演算は、一般に、ナローメモリ７１０によって提供される入力アクティベーションと、ワイドメモリ７１２からアクセスされるパラメータとを乗算して、単一の出力アクティベーション値を生成することを含む。

算術演算中、部分合計は累積され、対応する、例えば合計レジスタ７２０に記憶されるか、またはワイドメモリ７１２に書き込まれ、ＭＡＣアレイ７１４の特定のセルによって再アクセスされて後続の乗算演算を完了することができる。テンソル計算は、第１の部分と第２の部分を有するものとして説明できる。第１の部分は、乗算演算によって出力アクティベーションが生成されると完了する。例えば、入力アクティベーションと出力アクティベーションを生成するパラメータの乗算が完了することによって行われる。第２の部分は、出力アクティベーションへの非線形関数の適用を含み、関数の適用後に出力アクティベーションがナローメモリ７１０に書き込まれるときに第２の部分が完了する。

計算タイル７００はさらに、出力アクティベーションバス７１８、出力アクティベーションパイプライン７２４を備える非線形ユニット（ＮＬＵ）７２２、ＮＬＵ制御７３８、および計算タイル７００内のコンポーネントのコア属性を示す参照マップ７３０を含む。明確にするために参照マップ７３０が示されているが、計算タイル７００には含まれない。コア属性には、特定のコンポーネントがユニット、記憶装置、演算子、制御装置、またはデータパスであるかどうかが含まれる。一般に、テンソル計算の第１の部分が完了すると、出力アクティベーションがＭＡＣアレイ７１４から出力アクティベーションバス７１８を介してＮＬＵ７２２に提供される。ＮＬＵ７２２に到着した後、アクティベーションパイプライン７２４を介して受信されたアクティベーション関数を指定するデータが出力アクティベーションに適用され、出力アクティベーションがナローメモリ７１０に書き込まれる。いくつかの実装では、出力アクティベーションバス７１８は、少なくとも１つのパイプライン化されたシフトレジスタ７３６を含み、テンソル計算の第２の部分を完了することは、アクティベーションバス７１８のシフトレジスタ７３６を使用して出力アクティベーションをナローメモリ７１０に向けてシフトすることを含む。

例えば、２つの多次元データアレイのドット積計算に関して、単一の計算タイル７００に対して、ＭＡＣアレイ７１４は、堅牢な単一命令複数データ（ＳＩＭＤ）機能を提供する。ＳＩＭＤは一般に、すべての並列ユニット（複数のＭＡＣ演算子７１５）が同じ命令を（深いループネストに基づいて）共有するが、各ＭＡＣ演算子７１５が異なるデータ要素に対して命令を実行することを意味する。基本的な例の１つでは、アレイ［１，２，３，４］と［５，６，７，８］を要素ごとに追加して１サイクルでアレイ［６，８，１０，１２］を取得するには、通常４つの演算ユニットが必要になり、各要素に対して演算を実行する。ＳＩＭＤを使用することにより、４つのユニットは同じ命令（例えば「ａｄｄ」）を共有し、並列計算を実行できる。したがって、システム６００および計算タイル７００は、従来の方法よりも強化されたテンソル計算の加速および並列処理を提供する。

一例では、以下により詳細に説明するように、複数のＭＡＣアレイ７１４による消費用に単一の命令がコントローラ６０２によって複数の計算タイル７００に提供され得る（図６のタイルセット６１２、６１４を参照）。一般に、ニューラルネットワーク層は複数の出力ニューロンを含むことができ、出力ニューロンは、出力ニューロンのサブセットに関連付けられたテンソル計算をタイルセット６１２、６１４の特定のタイルに割り当てることができるように分割することができる。次いで、タイルセット６１２、６１４の各タイルは、所与の層の異なるニューロングループに対して関連するテンソル計算を実行することができる。したがって、計算タイル７００は、少なくとも２つの形式の並列処理を提供できる。１）１つの形式は、タイルセット６１２、６１４の複数のタイル間で出力アクティベーション（出力ニューロンのサブセットに対応する）を分割することを含む。２）別の形式には、タイルセット６１２、６１４のタイル間の分割に基づく、出力ニューロンの複数のサブセットの同時計算（単一命令による）が含まれる。

図８は、階層的実行グラフの一例を示す。図示された階層的実行グラフ８００は、図２および図３に関して説明した実行グラフ２００または３００と同様であり得るより高いレベルのグラフを示す。いくつかの実装では、実行グラフ８００は、図４および図５を参照して説明したプロセス４００またはプロセス５００と同様のプロセスによって生成される。

ルートグラフ８０２は、実行グラフ８００全体を記述する。これには、実行時レベルの命令、マルチチップレベルの命令、単一チップレベルの命令、実行されるハードウェアレイアウトを定義するリストおよびパラメータ、推論のためのメモリ空間の変数を定義できる定数バッファのリスト、およびサブグラフ８０４のリストが含まれる。

ルートグラフ８０２に含まれる各サブグラフ８０４は、テンソルのリスト８０８と演算のリスト８０６を含む。サブグラフ８０４はさらに、入力および出力のリスト、およびテンソルパラメータおよび記憶位置を定義するインデックスを含む。さらに、サブグラフ８０４は、階層的実行グラフ８００に追加の層を提供できるさらなるサブグラフ（図示せず）を含むことができる。

サブグラフ８０４内に含まれる演算８０６は、特定のタイプ定義および演算に特有の追加データを有するコンパイルされた実行可能ファイルとすることができる。演算８０６には、好ましいコアタイプを指定するメタデータ、またはその実行に関連する他のパラメータを含めることができる。サブグラフと同様に、演算には、実行する演算に必要なさまざまなテンソルまたはその他のデータの位置を識別するインデックスを含むことができる入力および出力のリストを含めることができる。いくつかの実装では、テンソルは要素の多次元アレイであり、すべての要素は単一の既知のデータタイプである。

テンソル８０８は、さまざまなサブグラフ８０４および演算８０８、さらには潜在的にルートグラフ８０２によって取り込まれ、処理されるデータを定義する。各テンソル８０８は、事前定義された寸法または形状、ならびに事前定義された変数タイプを有することができる。いくつかの実装では、テンソルは共有メモリに記憶され、複数のコアまたはコンピューティング装置からアクセスできる。

前述の説明は、１つまたは複数の特定の実装に関連して提供されている。開示された実装のさまざまな修正、変更、および置換は、本開示の範囲から逸脱することなく行うことができる。したがって、本開示は、説明または図示された実装のみに限定されることを意図するものではなく、本明細書に開示される原理および特徴と一致する最も広い範囲が与えられるべきである。

本明細書には多くの特定の実装の詳細が含まれるが、これらは、任意の発明の範囲または特許請求され得る内容の限定として解釈されるべきではなく、むしろ、特定の発明の特定の実施形態に特有であり得る特徴の説明として解釈されるべきである。本明細書において別個の実施形態に関連して説明される特定の特徴は、単一の実施形態において組み合わせて実装することもできる。逆に、単一の実施形態の文脈で説明されるさまざまな特徴は、複数の実施形態で個別に、または任意の適切なサブコンビネーションで実装することもできる。さらに、特徴が特定の組み合わせで作用するものとして上で説明され、最初にそのように請求されている場合でも、請求された組み合わせからの１つまたは複数の特徴が、場合によっては、組み合わせから削除される場合があり、請求された組み合わせは、サブコンビネーションまたはサブコンビネーションのバリエーションを対象とし得る。

同様に、図面では演算が特定の順序で示されているが、これは、望ましい結果を達成するために、そのような演算が図示された特定の順序または連続した順序で実行されること、または図示されたすべての演算が実行されることを必要とするものとして理解されるべきではない。特定の状況では、マルチタスクと並列処理が有利な場合がある。さらに、上述の実施形態におけるさまざまなシステムモジュールおよびコンポーネントの分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品に統合することも、複数のソフトウェア製品にパッケージ化することもできることを理解されたい。

主題の特定の実施形態について説明した。他の実施形態は、以下の特許請求の範囲内に含まれる。例えば、バスラインは「制御可能」であると説明されているが、すべてのバスラインが同じレベルの制御を持つ必要があるわけではない。例えば、一部のバスラインは、データのソースまたはデータの送信先となるタイルの数に関して制限されている場合にのみ制御できる場合に、制御可能性の程度はさまざまである。別の例では、一部のバスラインは、本明細書で説明する北、東、西、または南などの単一方向に沿ってデータを提供することに特化することができる。場合によっては、特許請求の範囲に記載されているアクションを異なる順序で実行しても、望ましい結果を達成することができる。一例として、添付の図に示されているプロセスは、望ましい結果を達成するために、必ずしも示されている特定の順序、または一連の順序を必要とするわけではない。特定の実装では、マルチタスクおよび並列処理が有利な場合がある。

Claims

マルチコアコンピューティング装置のアレイにおいて実行可能なジョブを分散するための方法であって、
前記マルチコアコンピューティング装置のアレイにおいて実行される複数のジョブを受信することを含み、各マルチコアコンピューティング装置は複数の異なるタイプの処理コアを含み、
前記方法は、
前記複数のジョブの各特定のジョブを、前記複数の異なるタイプの処理コアのうちの１つによって実行されるように割り当てることをさらに含み、前記割り当てることは、
前記特定のジョブを分析して、前記複数の異なるタイプの処理コアのうちどれが前記特定のジョブの実行に適しているかを決定することと、
前記分析に基づいて前記特定のジョブをコアタイプに割り当てることとによって行われ、
前記方法は、
前記複数のジョブの各ジョブを個別に実行可能なファイルにコンパイルすることと、
前記複数の異なるタイプの処理コアのうちの特定のものへの前記個別に実行可能なファイルのマッピングを表す実行グラフを生成することとをさらに含み、前記実行グラフは個別に実行可能なファイル間の依存関係を識別する、方法。
前記個別に実行可能なファイルを実行することをさらに含み、前記実行することは、
前記実行グラフを受信することと、
前記実行グラフ内のジョブを、前記マルチコアコンピューティング装置のアレイ内の複数のマルチコアコンピューティング装置に割り当てることと、
各マルチコアコンピューティング装置によって、割り当てられた前記ジョブを実行することと、
各マルチコアコンピューティング装置によって、実行された前記ジョブの出力を共有メモリにリターンすることと、
リターンされた前記出力を組み合わせて、実行グラフのリターンを生成することとによって行われる、請求項１に記載の方法。
前記特定のジョブを分析することは、ヒューリスティック分析を使用して完了される、請求項１または請求項２に記載の方法。
各特定のジョブの分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択される、請求項１、請求項２、または請求項３に記載の方法。
前記複数の異なるタイプの処理コアは、第１のタイプのコアと第２のタイプのコアとを含む、請求項１から請求項４のいずれか一項に記載の方法。
前記第１のコアタイプはコアプロセッサであり、前記第２のコアタイプはＴＰＵタイルプロセッサである、請求項５に記載の方法。
前記実行グラフは、少なくとも４つの層に配置されたサブグラフを含む階層的な性質を有し、前記少なくとも４つの層は、
前記第２のコアタイプで実行される実行可能ファイルを含むＴＰＵ層、
前記ＴＰＵ層の１つまたは複数のサブグラフと、前記第１のコアタイプで実行される実行可能ファイルとを含むチップレベル層、
２つ以上のチップレベルのサブグラフを含むマルチチップ層、および
マルチチップ層のサブグラフと、第３のタイプのコアで実行されるように構成された１つまたは複数のサブグラフとを含むホストレベル層を含む、請求項５または請求項６に記載の方法。
前記第３のタイプのコアは、ホスト装置のＣＰＵである、請求項７に記載の方法。
１つまたは複数のプロセッサに結合され、命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記命令は、前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに実行可能なジョブをマルチコアコンピューティング装置のアレイにおいて分散させるための演算を実行させ、前記演算は、
前記マルチコアコンピューティング装置のアレイにおいて実行される複数のジョブを受信することを含み、各マルチコアコンピューティング装置は複数の異なるタイプの処理コアを含み、
前記演算は、
前記複数のジョブの各特定のジョブを、前記複数の異なるタイプの処理コアのうちの１つによって実行されるように割り当てることをさらに含み、前記割り当てることは、
前記特定のジョブを分析して、前記複数の異なるタイプの処理コアのうちどれが前記特定のジョブの実行に適しているかを決定することと、
前記分析に基づいて前記特定のジョブをコアタイプに割り当てることとによって行われ、
前記演算は、
前記複数のジョブの各ジョブを個別に実行可能なファイルにコンパイルすることと、
前記複数の異なるタイプの処理コアのうちの特定のものへの前記個別に実行可能なファイルのマッピングを表す実行グラフを生成することとをさらに含み、前記実行グラフは個別に実行可能なファイル間の依存関係を識別する、非一時的なコンピュータ可読記憶媒体。
前記演算は、
前記個別に実行可能なファイルを実行することをさらに含み、前記実行することは、
前記実行グラフを受信することと、
前記実行グラフ内のジョブを、前記マルチコアコンピューティング装置のアレイ内の複数のマルチコアコンピューティング装置に割り当てることと、
各マルチコアコンピューティング装置によって、割り当てられた前記ジョブを実行することと、
各マルチコアコンピューティング装置によって、実行された前記ジョブの出力を共有メモリにリターンすることと、
リターンされた前記出力を組み合わせて、実行グラフのリターンを生成することとによって行われる、請求項９に記載のコンピュータ可読媒体。
前記特定のジョブを分析することは、ヒューリスティック分析を使用して完了される、請求項９または請求項１０に記載のコンピュータ可読媒体。
各特定のジョブの分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択される、請求項９、請求項１０、または請求項１１に記載のコンピュータ可読媒体。
前記複数の異なるタイプの処理コアは、第１のタイプのコアと第２のタイプのコアとを含む、請求項９から請求項１２のいずれかに記載のコンピュータ可読媒体。
前記第１のコアタイプはコアプロセッサであり、前記第２のコアタイプはＴＰＵタイルプロセッサである、請求項１３に記載のコンピュータ可読媒体。
前記実行グラフは、少なくとも４つの層に配置されたサブグラフを含む階層的な性質を有し、前記少なくとも４つの層は、
前記第２のコアタイプで実行される実行可能ファイルを含むＴＰＵ層、
前記ＴＰＵ層の１つまたは複数のサブグラフと、前記第１のコアタイプで実行される実行可能ファイルとを含むチップレベル層、
２つ以上のチップレベルのサブグラフを含むマルチチップ層、および
マルチチップ層サブグラフと、第３のタイプのコアで実行されるように構成された１つまたは複数のサブグラフとを含むホストレベル層を含む、請求項１３または請求項１４に記載のコンピュータ可読媒体。
前記第３のタイプのコアは、ホスト装置のＣＰＵである、請求項１５に記載のコンピュータ可読媒体。
システムであって、
１つまたは複数のコンピュータと、
前記１つまたは複数のコンピュータに結合され、命令が記憶されたコンピュータ可読記憶装置とを備え、前記命令は、前記１つまたは複数のコンピュータによって実行されると、前記１つまたは複数のコンピュータにマルチコアコンピューティング装置のアレイにおいて実行可能なジョブを分散させるための演算を実行させ、前記演算は、
前記マルチコアコンピューティング装置のアレイにおいて実行される複数のジョブを受信することを含み、各マルチコアコンピューティング装置は複数の異なるタイプの処理コアを含み、
前記演算は、
前記複数のジョブの各特定のジョブを、前記複数の異なるタイプの処理コアのうちの１つによって実行されるように割り当てることをさらに含み、前記割り当てることは、
前記特定のジョブを分析して、前記複数の異なるタイプの処理コアのうちどれが前記特定のジョブの実行に適しているかを決定することと、
前記分析に基づいて前記特定のジョブをコアタイプに割り当てることとによって行われ、
前記演算は、
前記複数のジョブの各ジョブを個別に実行可能なファイルにコンパイルすることと、
前記複数の異なるタイプの処理コアのうちの特定のものへの前記個別に実行可能なファイルのマッピングを表す実行グラフを生成することとをさらに含み、前記実行グラフは個別に実行可能なファイル間の依存関係を識別する、システム。
前記演算は、
以下により前記個別に実行可能なファイルを実行することをさらに含み、以下とは、
前記実行グラフを受信することと、
前記実行グラフ内のジョブを、マルチコアコンピューティング装置の前記アレイ内の複数のマルチコアコンピューティング装置に割り当てることと、
各マルチコアコンピューティング装置によって、割り当てられた前記ジョブを実行することと、
各マルチコアコンピューティング装置によって、実行された前記ジョブの出力を共有メモリにリターンすることと、
リターンされた前記出力を組み合わせて、実行グラフのリターンを生成することと、である、請求項１７に記載のシステム。
前記特定のジョブを分析することは、ヒューリスティック分析を使用して完了される、請求項１７または請求項１８に記載のシステム。
各特定のジョブの分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択される、請求項１７、請求項１８、または請求項１９に記載のシステム。
第１のコアタイプの処理コアを含むハードウェアと組み合わせて、マルチコアコンピューティング装置のアレイにおいて実行するために実行可能なジョブをコンパイルするための方法であって、前記マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、第２のコアタイプおよび第３のコアタイプの処理コアを含み、前記方法は、
推論に使用される機械学習モデルを受信することと、
前記機械学習モデルを解析して、実行される複数のジョブを決定することと、
実行される前記複数のジョブの各々と、実行される前記複数のジョブ間の依存関係とを表す実行グラフを生成することと、
マルチチップレベルコンパイラを呼び出して、マッピングされた実行グラフを生成することとを含み、前記マルチチップレベルコンパイラは、
前記第１のコアタイプによって実行される前記複数のジョブのうちの１つまたは複数の第１のジョブを識別し、
前記１つまたは複数の第１のジョブを、前記第１のコアタイプによって実行される実行可能ファイルにコンパイルし、前記第１のジョブは、前記アレイ内の前記マルチコアコンピューティング装置と互換性がなく、
前記マルチチップレベルコンパイラはさらに、
前記実行グラフの残りのジョブを複数の第１のサブグラフに分割し、
各第１のサブグラフを前記マルチコアコンピューティング装置の前記アレイの特定のマルチコアコンピューティング装置に割り当て、
第１のサブグラフごとに、単一チップレベルのコンパイラを呼び出し、前記単一チップレベルのコンパイラは、
前記第２のコアタイプによって実行される１つまたは複数のチップレベルのジョブを前記第１のサブグラフから識別し、
前記第１のサブグラフからの前記１つまたは複数のチップレベルのジョブの各々を、前記第２のコアタイプによって実行される実行可能ファイルにコンパイルし、
前記第１のサブグラフの残りのジョブを複数の第２のサブグラフに分割し、
前記複数の第２のサブグラフの各々を前記第３のコアタイプに割り当て、
前記複数の第２のサブグラフの各々に対して、コアレベルコンパイラを呼び出し、前記コアレベルコンパイラは、
前記第２のサブグラフの各々を、前記第３のコアタイプによって実行される実行可能ファイルにコンパイルする、方法。
前記第１のコアタイプはホストシステムＣＰＵであり、前記第２のコアタイプはコアプロセッサであり、前記第３のコアタイプはＴＰＵタイルコアである、請求項２１に記載の方法。
前記マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、ＴＰＵを含む特定用途向け集積回路（ＡＳＩＣ）である、請求項２１または請求項２２に記載の方法。
１つまたは複数の第１のジョブを識別すること、および１つまたは複数のチップレベルのジョブを識別することは、実行される前記複数のジョブのヒューリスティック分析に基づいて行われる、請求項２１、請求項２２、または請求項２３に記載の方法。
各特定のジョブのヒューリスティック分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択される、請求項２４に記載の方法。
前記マルチコアコンピューティング装置のアレイによって、前記第１のジョブを含む前記マッピングされた実行グラフと、前記１つまたは複数のチップレベルのジョブおよび前記複数の第２のサブグラフを含む前記複数の第１のサブグラフとを受信することと、
前記複数の第２のサブグラフ内の前記第１のジョブ、チップレベルのジョブ、および残りのジョブを、前記マルチコアコンピューティング装置のアレイ内の関連するコアに割り当てることと、
各コアのマルチコアコンピューティング装置によって、割り当てられた前記ジョブを実行することと、
各マルチコアコンピューティング装置によって、実行された前記ジョブの出力を共有メモリにリターンすることと、
リターンされた前記出力を組み合わせて、実行グラフのリターンを生成することとを含む、請求項２１から請求項２５のいずれか一項に記載の方法。
１つまたは複数のプロセッサに結合され、命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記命令は、前記１つまたは複数のプロセッサによって実行されると、第１のコアタイプの処理コアを含むハードウェアと組み合わせて、マルチコアコンピューティング装置のアレイにおいて実行するために実行可能なジョブをコンパイルするための演算を前記１つまたは複数のプロセッサに実行させ、前記マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、第２のコアタイプおよび第３のコアタイプの処理コアを含み、前記演算は、
推論に使用される機械学習モデルを受信することと、
前記機械学習モデルを解析して、実行される複数のジョブを決定することと、
実行される前記複数のジョブの各々と、実行される前記複数のジョブ間の依存関係とを表す実行グラフを生成することと、
マルチチップレベルコンパイラを呼び出して、マッピングされた実行グラフを生成することとを含み、前記マルチチップレベルコンパイラは、
前記第１のコアタイプによって実行される前記複数のジョブのうちの１つまたは複数の第１のジョブを識別し、
前記１つまたは複数の第１のジョブを、前記第１のコアタイプによって実行される実行可能ファイルにコンパイルし、前記第１のジョブは、前記アレイ内の前記マルチコアコンピューティング装置と互換性がなく、
前記マルチチップレベルコンパイラはさらに、
前記実行グラフの残りのジョブを複数の第１のサブグラフに分割し、
各第１のサブグラフを前記マルチコアコンピューティング装置の前記アレイの特定のマルチコアコンピューティング装置に割り当て、
第１のサブグラフごとに、単一チップレベルのコンパイラを呼び出し、前記単一チップレベルのコンパイラは、
前記第２のコアタイプによって実行される１つまたは複数のチップレベルのジョブを前記第１のサブグラフから識別し、
前記第１のサブグラフからの前記１つまたは複数のチップレベルのジョブの各々を、前記第２のコアタイプによって実行される実行可能ファイルにコンパイルし、
前記第１のサブグラフの残りのジョブを複数の第２のサブグラフに分割し、
前記複数の第２のサブグラフの各々を前記第３のコアタイプに割り当て、
前記複数の第２のサブグラフの各々に対して、コアレベルコンパイラを呼び出し、前記コアレベルコンパイラは、
前記第２のサブグラフの各々を、前記第３のコアタイプによって実行される実行可能ファイルにコンパイルする、非一時的なコンピュータ可読記憶媒体。
前記第１のコアタイプはホストシステムＣＰＵであり、前記第２のコアタイプはコアプロセッサであり、前記第３のコアタイプはＴＰＵタイルコアである、請求項２７に記載のコンピュータ可読媒体。
前記マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、ＴＰＵを含む特定用途向け集積回路（ＡＳＩＣ）である、請求項２７または請求項２８に記載のコンピュータ可読媒体。
１つまたは複数の第１のジョブを識別すること、および１つまたは複数のチップレベルのジョブを識別することは、実行される前記複数のジョブのヒューリスティック分析に基づいて行われる、請求項２７、請求項２８、または請求項２９に記載のコンピュータ可読媒体。
各特定のジョブのヒューリスティック分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択される、請求項３０に記載のコンピュータ可読媒体。
前記演算は、
前記マルチコアコンピューティング装置のアレイによって、前記第１のジョブを含む前記マッピングされた実行グラフと、前記１つまたは複数のチップレベルのジョブおよび前記複数の第２のサブグラフを含む前記複数の第１のサブグラフとを受信することと、
前記複数の第２のサブグラフ内の前記第１のジョブ、チップレベルのジョブ、および残りのジョブを、前記マルチコアコンピューティング装置のアレイ内の関連するコアに割り当てることと、
各コアのマルチコアコンピューティング装置によって、割り当てられた前記ジョブを実行することと、
各マルチコアコンピューティング装置によって、実行された前記ジョブの出力を共有メモリにリターンすることと、
リターンされた前記出力を組み合わせて、実行グラフのリターンを生成することとを含む、請求項２７から請求項３１のいずれか一項に記載のコンピュータ可読媒体。
システムであって、
１つまたは複数のコンピュータと、
前記１つまたは複数のコンピュータに結合され、命令が記憶されたコンピュータ可読記憶装置とを備え、前記命令は、前記１つまたは複数のコンピュータによって実行されると、前記１つまたは複数のコンピュータに、第１のコアタイプの処理コアを含むハードウェアと組み合わせて、マルチコアコンピューティング装置のアレイにおいて実行するための実行可能なジョブをコンパイルするための演算を実行させ、前記マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、第２のコアタイプおよび第３のコアタイプの処理コアを含み、前記演算は、
推論に使用される機械学習モデルを受信することと、
前記機械学習モデルを解析して、実行される複数のジョブを決定することと、
実行される前記複数のジョブの各々と、実行される前記複数のジョブ間の依存関係とを表す実行グラフを生成することと、
マルチチップレベルコンパイラを呼び出して、マッピングされた実行グラフを生成することとを含み、前記マルチチップレベルコンパイラは、
前記第１のコアタイプによって実行される前記複数のジョブのうちの１つまたは複数の第１のジョブを識別し、
前記１つまたは複数の第１のジョブを、前記第１のコアタイプによって実行される実行可能ファイルにコンパイルし、前記第１のジョブは、前記アレイ内の前記マルチコアコンピューティング装置と互換性がなく、
前記マルチチップレベルコンパイラはさらに、
前記実行グラフの残りのジョブを複数の第１のサブグラフに分割し、
各第１のサブグラフを前記マルチコアコンピューティング装置の前記アレイの特定のマルチコアコンピューティング装置に割り当て、
第１のサブグラフごとに、単一チップレベルのコンパイラを呼び出し、前記単一チップレベルのコンパイラは、
前記第２のコアタイプによって実行される１つまたは複数のチップレベルのジョブを前記第１のサブグラフから識別し、
前記第１のサブグラフからの前記１つまたは複数のチップレベルのジョブの各々を、前記第２のコアタイプによって実行される実行可能ファイルにコンパイルし、
前記第１のサブグラフの残りのジョブを複数の第２のサブグラフに分割し、
前記複数の第２のサブグラフの各々を前記第３のコアタイプに割り当て、
前記複数の第２のサブグラフの各々に対して、コアレベルコンパイラを呼び出し、前記コアレベルコンパイラは、
前記第２のサブグラフの各々を、前記第３のコアタイプによって実行される実行可能ファイルにコンパイルする、システム。
前記第１のコアタイプはホストシステムＣＰＵであり、前記第２のコアタイプはコアプロセッサであり、前記第３のコアタイプはＴＰＵタイルコアである、請求項３３に記載のシステム。
前記マルチコアコンピューティング装置のアレイの各マルチコアコンピューティング装置は、ＴＰＵを含む特定用途向け集積回路（ＡＳＩＣ）である、請求項３３または請求項３４に記載のシステム。
１つまたは複数の第１のジョブを識別すること、および１つまたは複数のチップレベルのジョブを識別することは、実行される前記複数のジョブのヒューリスティック分析に基づいて行われる、請求項３３、請求項３４、または請求項３５に記載のシステム。
各特定のジョブのヒューリスティック分析の深さは、コンパイル時間に先立ってユーザ入力に基づいて選択される、請求項３６に記載のシステム。
前記演算は、
前記マルチコアコンピューティング装置のアレイによって、前記第１のジョブを含む前記マッピングされた実行グラフと、前記１つまたは複数のチップレベルのジョブおよび前記複数の第２のサブグラフを含む前記複数の第１のサブグラフとを受信することと、
前記複数の第２のサブグラフ内の前記第１のジョブ、チップレベルのジョブ、および残りのジョブを、前記マルチコアコンピューティング装置のアレイ内の関連するコアに割り当てることと、
各コアのマルチコアコンピューティング装置によって、割り当てられた前記ジョブを実行することと、
各マルチコアコンピューティング装置によって、実行された前記ジョブの出力を共有メモリにリターンすることと、
リターンされた前記出力を組み合わせて、実行グラフのリターンを生成することとを含む、請求項２７から請求項３７のいずれか一項に記載のシステム。