JP2023546761A

JP2023546761A - 機械学習アクセラレータにおけるキューアロケーション

Info

Publication number: JP2023546761A
Application number: JP2022553686A
Authority: JP
Inventors: ドン，シアンユィ; ベルゲイド，カイス; ズー，ヤージョウ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-10-14
Filing date: 2021-10-12
Publication date: 2023-11-08
Also published as: KR20220136426A; CN115244909A; EP4097957A1; WO2022081506A1; US20220114440A1

Abstract

本開示は一般的に、カスタム構築されたパケット交換ＴＰＵアクセラレータ側通信ネットワークの性能を改善するためのソリューションを提供する。具体的には、分散訓練スーパーコンピュータネットワーク内のオンチップルータにおいてパケットバッファキューをチューニングすることによってフロー制御挙動を改善するためのソリューションのセットが記載される。

Description

優先権主張
本出願は、米国特許法１１９条（ｅ）に基づき、２０２０年１０月１４日に出願された米国仮出願番号第６３／０９１，７０８号の優先権の利益を主張する。

技術分野
本開示は、機械学習アクセラレータ通信ネットワークにおけるトラフィックキューイングのための共有メモリのアロケーションに関する。

背景
電子デバイスは複数の異なる計算ユニットから構成され得、当該計算ユニットは、電子デバイスが動作するために当該計算ユニット同士の間でデータを通信する必要がある。計算ユニット同士間のデータ通信は、非決定的であり得る。たとえば、データ通信は、１つのユニットにおける送信時間から別のユニットにおける受信時間への間において可変レイテンシに晒される。すなわち、データが１つのユニットから別のユニットに移動するのにかかる時間は一定ではないが、送信時間における多くの異なる変動源に晒される。

概要
一般的に、本開示は、機械学習アクセラレータ通信ネットワークにおけるメモリアロケーションのための方法を含む。一般的に、当該方法は、特定用途向け集積回路（ＡＳＩＣ）の複数の通信ポートに関連付けられるメタデータにアクセスすることを含む。メタデータは、各ポートについて、特定のポートが、現在の構成において使用されるか否かと、特定のポートに関連付けられる通信媒体とを識別する。メタデータに基づいて、各ポートについて予想レイテンシが決定され、各ポートに共有メモリの部分がアロケートされる。共有メモリは、使用されないポートにゼロメモリを割り当てすることと、予想レイテンシに基づいて、各ポートについてメモリアロケーションを決定することと、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることとによってアロケートされる。実現例は、以下の特徴のうちの１つ以上を随意に含み得る。

いくつかの実現例では、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることは、ＡＳＩＣとは異なるデバイスによって、アプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む。

いくつかの実現例では、機械学習アクセラレータ通信ネットワークおよびアロケートされた共有メモリを使用して、ＡＳＩＣ上でプロセスが実行される。いくつかの実現例では、プロセスは、ニューラルネットワークを訓練することである。

いくつかの実現例では、ＡＳＩＣはテンソルプロセッシングユニット（ＴＰＵ）である。

いくつかの実現例では、メタデータにおいて識別される通信媒体は、銅ケーブル媒体、光媒体、プリント回路基板（ＰＣＢ）媒体、または、それらの任意の組み合わせである。

いくつかの実現例では、メモリは、式

に従ってアロケートされる。
代替的な実現例では、機械学習アクセラレータ通信ネットワークにおけるメモリアロケーションのための方法は、機械学習アクセラレータＡＳＩＣのネットワークのためのネットワークトポロジを決定することを含む。ネットワーク内の各ＡＳＩＣの複数の通信ポートに関連付けられるメタデータがアクセスされる。メタデータは、複数のポートの各ポートについて、特定のポートが、現在の構成において使用されるか否かと、特定のポートに関連付けられる通信媒体とを識別する。ネットワークトポロジにおいて使用される各ポートについて、ラウンドトリップタイム（ＲＴＴ）遅延が決定される。複数のポートの各ポートに共有メモリの部分がアロケートされ、当該アロケートすることは、ＲＴＴ遅延に比例する各ポートについてのメモリアロケーションを決定することと、決定されたメモリアロケーションについて、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることとによって行われる。プロファイリングトラフィックを所定の持続時間の間、ネットワークに送信するプロセスが機械学習アクセラレータ上で実行される。各ポートについて、受信されたトラフィックパケットの数が決定され、共有メモリの部分は、複数のポートの各ポートに再アロケートされ、当該再アロケートすることは、受信されたパケットカウントに比例する各ポートについてのメモリアロケーションを決定することと、決定されたメモリアロケーションの各ポートについて、開始アドレスおよび停止アドレスが再割り当てされることとによって行われる。

いくつかの実現例では、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当ておよび再割り当てすることは、ＡＳＩＣとは異なるデバイスによってＡＰＩを呼び出すことを含む。

いくつかの実現例では、各ポートについて決定されたＲＴＴ遅延に比例するメモリアロケーションは、式

に従って決定される。
いくつかの実現例では、各ポートについて受信されたパケットカウントに比例するメモリアロケーションは、式

に従って決定される。
いくつかの実現例では、ＲＴＴ遅延は、レイテンシを決定するよう１つ以上のタイミングメッセージを送信および受信することによって実行前に計算される。

いくつかの実現例では、プロファイリングトラフィックは、オール・ツー・オールトラフィック、最近傍トラフィック、合成トラフィックプロファイル、または、それらの任意の好適な組み合わせを含む。

代替的な実現例では、機械学習アクセラレータ通信ネットワークのためのメモリをアロケートするための方法は、機械学習アクセラレータ特定用途向け集積回路（ＡＳＩＣ）のネットワークのためのネットワークトポロジを決定することを含む。ネットワーク内の各ＡＳＩＣの複数の通信ポートに関連付けられるメタデータがアクセスされる。メタデータは、複数のポートの各ポートについて、特定のポートが、特定のポートに関連付けられる現在のアーキテクチャおよび通信媒体において使用されるか否かを識別する。メタデータは、複数のポートの各ポートについて、特定のポートが、現在の構成において使用されるか否かと、特定のポートに関連付けられる通信媒体とを識別する。ネットワークトポロジにおいて使用される各ポートについて、ラウンドトリップタイム（ＲＴＴ）遅延が決定される。複数のポートの各ポートに共有メモリの部分がアロケートされ、当該アロケートすることは、ＲＴＴ遅延に比例する各ポートについてのメモリアロケーションを決定することと、決定されたメモリアロケーションについて、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることとによって行われる。ＡＳＩＣ上でプロセスが実行され、プロセスは、アロケートされた共有メモリとともに機械学習アクセラレータ通信ネットワークを使用する。プロセスの実行中、第１の期間にわたって複数のポートの各ポートにおいて受信されたメッセージパケットの数が決定される。各ポートで受信されたメッセージパケットの数に基づいて、複数のポートの各ポートについて共有メモリの所望の部分サイズが決定される。第２の期間の間、プロセスが休止され、共有メモリは保留中のメッセージパケットについてクリアであるか否かが決定される。共有メモリがクリアであると決定されると、所望の部分サイズに従って、各ポートについて共有メモリの開始アドレスおよび停止アドレスが再割り当てされ、プロセスの実行が再開される。

さまざまな実現例は、以下の利点のうちの１つ以上を提供する。たとえば、いくつかの実現例では、機械学習ハードウェアアクセラレータは、メッセージバッファキューをより効率的にアロケートすることによって、より高速に実行され得、かつ、アクセラレータのオンボード通信ネットワークにおけるボトルネックを回避し得る。

本明細書の主題の１つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。主題の他の特徴、局面および利点は、説明、図面および請求の範囲から明らかになるであろう。

本開示の実現例に従った例示的な機械学習アクセラレータを示す概略図である。ポート・ツー・ポートトラフィックのためにアロケートされるバッファキューを有する例示的な共有メモリを示す図である。本開示の実現例に従った、予期レイテンシに基づいて共有メモリをアロケートするための例示的なプロセスのフローチャートである。本開示の実現例に従った、プロファイリングトラフィック実行に基づいて共有メモリをアロケートするための例示的なプロセスのフローチャートである。本開示の実現例に従った、実行中にトラフィックに基づいて共有メモリをアロケートするための例示的なプロセスのフローチャートである。図１のマルチチップシステムにおいて使用され得る特殊目的論理チップの例を示す概略図である。ＡＳＩＣにおいて使用され得る例示的なニューラルネットワーク（ＮＮ）計算タイル７００を示す図である。

詳細な説明
一般的に、本開示は、高速通信ネットワーク、たとえば、複数の特定用途向け集積回路（ＡＳＩＣ: application specific integrated circuit）を含む機械学習アクセラレータの通信ネットワーク内の通信またはポートの異なるチャネル間に共有メモリをアロケートすることに関する。深層学習訓練は、分散された並列処理を必要とする。分散は、大量の訓練データを異なる複製物（レプリカ）にパーティショニングし得る（たとえば、データ並列性）か、または、非常に大きいモデルをより小さいモジュールにパーティショニングし得る（たとえば、モデル並列性）。パーティショニングされた訓練データおよびモデルパラメータは、同時に計算するために異なる処理ユニット上に配置される。

分散された訓練は、同期、反復およびインクリメンタルループにおいて行われる。データ並列性の下では、各処理ユニットは、各ステップにおいてデータのミニバッチをインジェストし、局所勾配を計算し、次いで、オールリデュース（all-reduce）の態様で計算ユニットのネットワーク全体にわたってすべての局所勾配を交換して、最終的な全体的に一貫した勾配を計算し、これにより、ステップの終わりに、モデル重みが更新される。

モデル並列性の下では、各処理ユニットは、その局所的な訓練データからモデルアクティベーション入力を取得するか、または、それ自体の前の隠れ層上で動作する別の処理ユニットの出力からモデルアクティベーション入力を取得する。次いで、処理ユニットは、最終モデル出力であり得るか、または、別の処理ユニットのアクティベーション入力として機能し得るアクティベーション出力を計算する。勾配は、最終層を含む処理ユニット上で計算され、パーティショニングされたサブモデルを更新するよう以前の層に送り返される。このプロセスは、連続するミニバッチ上で動作するようにパイプライン化され得る。このアプローチの下では、中間アクティベーション出力がネットワークの周りで送られ、モデル分割境界における勾配も送られる。

実際には、最も高い性能を達成するよう、データおよびモデル並列性が組み合わされ得る。数千億の重みパラメータを有する例示的なモデルの場合、必要とされる精度のレベルに当該モデルを収束させるために、膨大な量の計算リソースおよび通信が必要とされる。

訓練プロセスを高速化するために、カスタム構築されたアクセラレータチップ、テンソル処理ユニット（ＴＰＵ: Tensor Processing Unit）などのＡＳＩＣは、深層学習計算を高速化するよう処理ユニットとして機能するように設計される。いくつかの実現例では、チップタイプ（たとえば、ＦＰＧＡ、ＧＰＧＰＵ、またはＣＰＵ）が使用される。一方、処理ユニット間通信を高速化するために、協調設計されたアクセラレータ間高速通信ネットワークも構築される。ともに、訓練システムは、現状技術のスーパーコンピュータと等価なエクサフロップ（exaFLOP）レベルの計算性能を提供し得る。

ＴＰＵアクセラレータのカスタム構築されたネットワークは、ネットワーク処理オーバーヘッドを低減するよう、簡素化のために設計される。アドレス指定、誤り検出および訂正、ルーティングおよびフロー制御などの相互接続されたネットワークの基本的な機能が完了すると、大量のネットワーク処理がアクセラレータチップハードウェア上で実行され、処理を高速化する。

本開示は、カスタム構築されたパケット交換ＴＰＵアクセラレータ側通信ネットワークの性能を改善することに焦点を当てている。具体的には、分散された訓練スーパーコンピュータネットワークにおけるオンチップルータ内のパケットバッファキューをチューニングすることによってフロー制御挙動を改善するためのソリューションのセットが提案される。

本明細書に開示されるソリューションは、上で論じられた同期データ並列およびモデル並列訓練パターンに適用され、一般的にアクセラレータネットワークにおける非同期分散訓練にも適用され得る。

図１は、本開示の実現例に従った例示的な機械学習アクセラレータ１００を示す概略図である。この例では、オンチップネットワークスタック処理ハードウェアモジュールを通じて相互接続されたＴＰＵネットワークが示されている。この例では、各ＴＰＵ１０６は、６つのネットワークポートを有しており、当該６つのネットワークポートは、チップ内クロスバーを形成するようバッファキューを通じて互いにリンクされる。いくつかの実現例では、各ＴＰＵ１０６は、６つより多いポートまたは６つより少ないポート（たとえば、１０、３、または他の数）を有し得る。いくつかの実現例では、ポート同士間のリンクは、通信の複数の仮想チャネルにさらに分割され得る。さらに、どのポートが接続されるかは、ＴＰＵネットワーク内でのジョブの実行に先だって、ソフトウェアレベルで決定され得る。たとえば、図１は、２次元構成のある数のＴＰＵ１０６を示しているが、ＴＰＵポート間の接続に基づき、３次元（たとえば、球状）構成または他のジオメトリを有することが可能である。

ＴＰＵ１０６のアクセラレータ側ネットワークスタックは、各ＴＰＵ１０６上のオンチップハードウェア処理モジュールまたはルータ１０２において実現される。分散訓練中の通信は、複数のネットワークパケットとしてフォーマットされる。動作において、ソースＴＰＵチップとデスティネーションＴＰＵチップとの対の間のパケットは、最終デスティネーションに到達する前に、中間ステップとして１つ以上のＴＰＵチップ上でホッピングされる。各ＴＰＵチップホップにおいて、オンチップネットワークスタックは、チップのさまざまなネットワークポートとインターフェイス接続し、ユーザによって特定されたルーティングアルゴリズムによって指示されるように、あるポートから受信されたパケットを別のポートに転送する。チップ内のポート・ツー・ポート送信は、バッファキューにおいてキャリーオーバされる。チップ内のクロス接続されたバッファキューは、高速なチップレベルのネットワーク処理のためのクロスバーを形成する。

フロー制御は、スーパーコンピュータネットワークまたは機械学習アクセラレータ１００において直接接続されたＴＰＵ１０６の各対の間で実施され得、これにより、たとえば、より高速の送信側ＴＰＵ１０６アクセラレータがより低速の受信側ＴＰＵ１０６アクセラレータを圧倒することを防ぐ。ＴＰＵネットワークが異なるアクセラレータにわたってアクティベーション出力および重み勾配トラフィックを転送し始めると、各チップのオンチップネットワークスタック内のバッファキューは、入力ポートから出力ポートにパケットを常に入力し、バッファ空間の利用は、ＴＰＵチップ１０６におけるトラフィックイングレスおよびエグレスレート（traffic ingress and egress rate）に依存して動的に変化する。ポートに対応するバッファキューが完全に利用される場合、バッファスペースが残っていないので、そのポートにおいてパケットが受信され得ず、上流のＴＰＵアクセラレータはメッセージの送信を停止するべきである。送信側は、以下では「クレジット」と称される、受信側ポートにおいて利用可能なバッファキュー空間の量を送信側に伝えるフロー制御メッセージを適時に送信することによって規制される。送信側は、受信する利用可能なクレジットよりも大きいメッセージを発するべきでない。いくつかの実現例では、任意の２つの接続されたＴＰＵアクセラレータ１０６間のリンクは双方向であり、クレジットメッセージも同様に双方向に送信される。

ＴＰＵアクセラレータ側通信ネットワークは、異種ネットワーク環境であり得る。言い換えれば、ポート間の通信時間は、ポートごとおよびＴＰＵ１０６ごとに異なり得る。加えて、ポートにわたって分散されるトラフィックの量は均一でないことがあり得、したがって、インテリジェントかつ動的なメッセージキューイングが、ＴＰＵ通信ネットワークにおける通信を著しく向上させ得る。

この異種性は、いくつかの異なる要因によって引き起こされ得る。たとえば、何千ものＴＰＵアクセラレータ１０６にスケールする大規模深層学習訓練スーパーコンピュータの場合、全ネットワークを配線するよう、さまざまなリンク媒体が使用され得る。リンクにおいて使用される例示的な媒体は、データを交換するために同じトレイ上にはんだ付けされたＴＰＵアクセラレータ１０６のために活用されるＰＣＢトレースと、より低コストの短距離通信に使用される銅ケーブルと、長距離通信に使用される光ケーブルとを含むが、これらに限定されない。異なる媒体材料は、ルータにおけるキュー利用に影響を及ぼすスループットおよび容量に関して異種リンク性能を表す。

加えて、大規模スーパーコンピュータネットワークは、必然的に、異なる長さを有するリンクを伴う。何千ものＴＰＵアクセラレータ１０６は、少なくとも複数のラックにまたがっており、より短い距離およびより低いレイテンシを有するラック内ケーブル、ならびに、より長い距離、より長いレイテンシおよび異なるリンク間のより大きい変動を有するラック間ケーブルに繋がる。レイテンシは、バッファキューの利用に影響を及ぼす。これらのケーブルリンクは、ビットエラーレート（ＢＥＲ: bit-error-rate）によって測定される使用期間後のさまざまな品質レベルを有する。変動するＢＥＲによって、パケット送信再試行挙動がすべてのリンク間で異なることになり、異種リンク圧力およびキュー飽和率に繋がる。

ＴＰＵのネットワークポートは、分散訓練ジョブのトポロジに依存して、しばしば均一に使用されない。たとえば、ユーザ訓練ジョブが、スーパーコンピュータにおいて利用可能なすべてのＴＰＵリソースの中で２ＤメッシュトポロジにおけるＴＰＵリソースを要求する場合、メッシュのエッジ上のＴＰＵは、すべてのポートを使用せず、メッシュにおいて内側を向いていないポートは、隣接するアクセラレータに接続されるが、他のアクティブに送信しているポートと比較してトラフィックを受信しない。

大規模スーパーコンピュータネットワークは、障害のあるチップ、障害のあるホスト、または、障害のあるＴＰＵ間リンク媒体の周りをルーティングすることによって、本質的に耐障害性（fault tolerance）を提供し得る。耐障害性ルーティングによって、障害のないトポロジが元々同種のトポロジであっても、リンクトラフィック圧力が不均衡になり得る。すべてのポートがアクティブに使用されるとともに同じタイプ、距離および品質を有する媒体に接続されるＴＰＵ１０６は、いくつかのポートが障害サイトの周りを通るよりクリティカルなルート上にあるので、非常に異種なトラフィックを受け得る。さらに、障害サイトに隣接するアクセラレータは、障害チップまたは障害リンクに直接接続されるポートがトラフィックを受信しない場合、ポートの不均衡な使用を悪化させる。

分散訓練アプローチは、それ自体が異種性を導入する。データ並列モデルでは、すべてのＴＰＵ１０６は、同じ量の局所勾配を互いに交換するが、モデルパーティショニングおよびモデル並列性のようなより高度な技術は、ネットワーク上で交換される勾配およびアクティベーション出力を、分割境界にわたって本質的に異種にする。パーティショニングされたモデル上での推論は、しばしば別のパーティションからの出力に依存するので、スループットではなく通信レイテンシも、モデル並列性においてより重要になる。加えて、強化学習訓練も、ＴＰＵネットワークトラフィックを異種にし、ＴＰＵワーカー１０６のグループが推論を実行するエージェントとして存在し、ＴＰＵワーカー１０６の別のグループが古典的な反復学習ループを実行する。これらのグループ内およびグループ間のトラフィックは、本質的に異なる。したがって、この異種性に対処するための動的なキューアロケーションが望ましい。

各ＴＰＵ１０６は、複数の通信ポート、チャネルおよびオンチップハードウェア処理モジュール（ルータ１０２）に加えて、共有プログラマブルバッファキューストレージ構造１０４を含む。各ポートのバッファキューは、異なる深さまでソフトウェア制御され得、共有ランダムアクセスメモリ（ＲＡＭ: Random Access Memory）、たとえば、スタティックＲＡＭ（ＳＲＡＭ: static RAM）またはダイナミックＲＡＭ（ＤＲＡＭ: dynamic RAM）に格納される。いくつかの実現例では、ＴＰＵ１０６の各ポートには、共有メモリ空間内のその特定のポートのキュー領域を特定するよう、共有ＲＡＭ１０４において開始アドレスおよび終了アドレスが割り当てられる。

ＴＰＵアクセラレータ１０６のさまざまなネットワークポートに関連付けられるバッファキューのサイズ設定は、全体的な訓練通信スループットをチューニングすることにおいてクリティカルである。大量のトラフィックを受ける所与のリンクについて、受信側ＴＰＵ１０６において当該ポートにあまりにも小さいバッファキュー空間をアロケートすることは、送信側ＴＰＵ１０６が頻繁にそのパケット送出を停止し、トラフィックを減速させ、同期訓練通信のボトルネックになる可能性につながる。各キューは、チャネルごとのキューアロケーションのために、いくつかの仮想チャネルにさらに分割され得る。相互接続リンクは双方向であるが、すべてのキューは、２つのアクセラレータ間の単方向リンクに対応する。

図２は、ポート・ツー・ポートトラフィックのためにアロケートされたバッファキューを有する例示的な共有メモリ２００を示す。バッファキューにおけるトラフィックは、エグレス・ツー・ポートトラフィック（たとえば、ＴＰＵから生成され、異なるＴＰＵにアウトバウンドされるトラフィック）、ポート・ツー・イングレストラフィック（たとえば、特定のＴＰＵの外部で生成され、特定のＴＰＵによってインジェストされるトラフィック）、または、ポート・ツー・ポートトラフィック（たとえば、ＴＰＵネットワークにおけるＴＰＵを通過するトラフィック）であり得る。さらに、各ポートは、各々が固有の通信パスを提供する複数の仮想チャネルに細分され得る。図２は、共有メモリにおいてアロケートされたポート・ツー・ポートキューのみを示すが、すべての３つのタイプのトラフィックまたはそれらの任意の好適な組み合わせが存在し得、本開示の範囲内である。示される例では、各キューのＦＩＦＯ（First In, First Out）ポインタは、キューからデータをプッシュおよびポップするための基準として、その開始および終了アドレスを使用する。ポート・ツー・イングレスキューおよびエグレス・ツー・ポートキューは、同じアドレス指定スキームに従い、より少ない数のキューがＲＡＭ容量を共有する。同じメカニズムが、示されるよりも多いポートまたは少ないポートを有するアクセラレータに適用される。

これらの開始アドレスおよび停止アドレス（たとえば、示されるようにアドレス０およびアドレス１）は、ソフトウェアを介して制御または割り当てられ得る。アプリケーションプログラミングインターフェイス（ＡＰＩ: application programming interface）のセットは、各バッファキューのサイズを特定するＰＣＩｅコンフィグスペースレジスタに書き込むよう、ＴＰＵアクセラレータのデバイスドライバを通じて公開される。ＡＰＩは、ハードウェア動作のために、キューサイズを各キューの開始アドレスおよび終了アドレスに変換する。開示されるソリューションは、ＴＰＵ通信ネットワークにおいてすべてのポートについてキューサイズを動的に構成およびアロケートするよう、これらのＡＰＩを呼び出し得る。

図３は、本開示の実現例に従った、予期レイテンシに基づいて共有メモリをアロケートするための例示的なプロセスのフローチャートである。バッファキューアロケーションプロセスは、訓練プロセスに参加する（サブ）ネットワークにおいてアクティブに使用されるポートを検査し、各ポートのアップストリームラウンドトリップレイテンシの重みによってキューサイズ（クレジット）をアロケートする。このスキームは、リンク媒体の異種性と、非同形ネットワークにおけるアクティブでないポートと、障害のあるリンクまたは障害のあるＴＰＵアクセラレータチップに直接接続されるアクティブでないポートとを考慮に入れる。このスキームは、オフラインリンク較正およびオンラインクレジットアロケーションという２つのステップに分割される。

オフラインリンク較正中に、ＴＰＵ通信ネットワークにおいて使用される異なるリンク媒体についての平均ラウンドトリップ時間（ＲＴＴ: round-trip time）が決定される（３０２）。これは、履歴値、ピング動作または他の方法に基づいて決定され得、そのリンクの媒体に基づいて所与のリンクについて一般的な予想レイテンシを提供する。たとえば、ＰＣＴトレースは、光ケーブルよりも低い予想レイテンシを有し得る。

オンラインクレジットアロケーションフェーズ中に、特定のジョブが実行されるのに必要とされるまたは要求されるＴＰＵ通信ネットワークのネットワークトポロジを決定するよう、トポロジディスカバリが実行され得る（３０４）。トポロジディスカバリは、どのＴＰＵが次に来るジョブに参加するか、および、どのポートが各ＴＰＵにおいて利用可能であるかを識別し得る。

ネットワークトポロジが決定された後、ジョブのためにＴＰＵ通信ネットワークにおいて使用される通信ポートに関する情報を提供するメタデータがアクセスされ得る（３０６）。たとえば、各ＴＰＵは、各ポートのポートＩＤ、ポートが現在のトポロジにおいて使用中であるか否か、各ポートに関連付けられる媒体（たとえば、銅、光、ＰＣＢなど）、および、ポートに関連付けられるケーブル長を識別するメタデータをオンチップメモリ内に保持し得る。

アクセスされたメタデータは、オフライン較正中に決定された予想レイテンシと組み合わせて、各ポートについて予想または予期されるＲＴＴ遅延を決定するために使用され得、次いで、当該予想または予期されるＲＴＴ遅延は、予期されるＲＴＴ遅延またはレイテンシに従って、各ポートについて共有メモリにおいてキューバッファをアロケートするよう使用され得る（３０８）。キューサイズは、ＴＰＵ自体によって各ＴＰＵにおいて各ポートについて計算される。ＴＰＵは、最初に、任意の使用されていないポートにゼロのキューサイズを割り当て、次いで、各ポートについて残りのキューサイズを割り当てする。いくつかの実現例では、キューサイズ計算プロセスは、ＴＰＵ通信ネットワークにおいて保留中のジョブのために、すべてのＴＰＵについて独立かつ同時に行われる。それは、オフラインで較正されたリンクレイテンシテーブルにインデックス化し、入力ポートのラウンドトリップ時間に比例して各ポートのキューサイズを計算する。いくつかの実現例では、キューサイズは、以下の式を介して計算され、式中、ｐは計算されているポートであり、Ｎはチップにおけるアクティブに使用されるポートの総数である。

ひとたび各ポートおよびチャネルについてのキューサイズが決定されると、共有メモリの開始アドレスおよび終了アドレスが、サイズアロケーションに従って各ポートに割り当てられ得る（３１０）。いくつかの実現例では、これは、ＴＰＵアーキテクチャによって提供される１つ以上のＡＰＩを使用して達成される。たとえば、ＡＰＩは、各バッファキューのサイズを特定するＰＣＩｅコンフィグスペースレジスタに書き込み得る。ＡＰＩは、ハードウェア動作のために、キューサイズを各キューの開始アドレスおよび終了アドレスに変換する。開示されるソリューションは、ＴＰＵ通信ネットワークにおいてすべてのポートについてキューサイズを動的に構成およびアロケートするよう、これらのＡＰＩを呼び出し得る。

共有メモリへのアドレスの割り当てが完了すると、ＴＰＵ通信ネットワークが有効にされ得、推論プロセスまたは訓練実行が開始し得る（３１２）。推論プロセスは、将来の機械学習出力のためにニューラルネットワークを訓練または重み付けすることを意図した長期実行プロセス（long running process）であり得る。

図４は、本開示の実現例に従った、プロファイリングトラフィック実行に基づいて共有メモリをアロケートするための例示的なプロセスのフローチャートである。プロファイリングトラフィック実行を実行することによって、ジョブ実行中のトラフィック需要のより真正な表現が決定され得る。いくつかの実現例では、プロファイリングトラフィック実行に基づいて共有メモリをアロケートするためのプロセスは、図３（たとえば、３０２～３１０）に関して記載されるようにプロセスを完了することによって始まり、トラフィックキューに初期アロケーションが与えられる。

ひとたび初期バッファキューが割り当てられると、ネットワーク上でのプロファイリング実行のために１つ以上のメッセージトラフィックプロファイルが選択され得る（４０２）。例示的なプロファイルは、オール・ツー・オール（all-to-all）、最近傍トラフィック（nearest-neighbor traffic）、または、機械学習モデル（たとえば、モデルパーティショニングされたＲｅｓＮｅｔ－５０またはバイディレクショナル・エンコーダ・フロム・トランスフォーマ（ＢＥＲＴ（bidirectional encoder representation from transformer））モデル）によって生成される別の合成パターンを含み得るが、それらに限定されない。いくつかの実現例では、以前のトラフィックプロファイルのすべてまたは組み合わせが、プロファイリング実行のために組み合わされる。プロファイリング実行を開始する前に、ソフトウェアは、各ＴＰＵ内のハードウェアパフォーマンスカウンタレジスタをクリアし、それを実質的にゼロにリセットする。ハードウェアＴＰＵ性能カウンタレジスタは、ＴＰＵの各ポートの各チャネルにおいて受信に成功したパケットの数を記録する。プロファイリングトラフィックはＴＰＵ通信ネットワークに注入され、ＴＰＵの各ポートで受信に成功したパケットの数がハードウェアレジスタによってカウントされる（４０４）。別個のソフトウェアシステムは、カウンタレジスタを（たとえば、ＡＰＩを介して）読み出し、プロファイリング実行中に各ポート（およびチャネル）について受信されたパケットの合計値を決定する。いくつかの実現例では、プロファイリング実行は、実行される実際の訓練実行より有意に短い。たとえば、プロファイリング実行は、分または時間のオーダーであり得るが、訓練ジョブは、何日または何週間もかかり得る。

ひとたびプロファイリング実行が完了すると、各ポートについてのキューサイズを決定するよう、そのポートの各チャネルにおいて受信されたパケットの数が使用され得る（４０６）。いくつかの実現例では、キューサイズは、以下の式を使用して決定され、式中、ｐはポートであり、ＮはＡＳＩＣ上のポートの総数であり、packet_numはプロファイリング実行中に受信されるパケットの数である。なお、以下の式は、使用されていないポートについてゼロの値を算出し、したがって、使用されていないポートには、ゼロのキューサイズがアロケートされる。

共有メモリへのアドレスの割り当てが完了すると、ＴＰＵ通信ネットワークが有効化され得、推論プロセスまたは訓練実行が開始し得る（３１２）。推論プロセスは、将来の機械学習出力のためにニューラルネットワークを訓練または重み付けすることを意図した長期実行プロセスであり得る。

プロファイルによってガイドされるキュー調整は、悪いリンク品質によって引き起こされるパケット再送信、ルーティングアルゴリズムによって引き起こされる不均衡なリンクトラフィック、または、障害のあるチップ／リンクを反映し得る。したがって、それは、より多くのトラフィックを受けるとともに１つのポートから他のポートにメッセージを転送するためにより多くのバッファ空間を必要とするポート／リンクについてより多くのクレジットをアロケートするより最適なスキームであり得る。

図５は、本開示の実現例に従った、実行中にトラフィックに基づいて共有メモリをアロケートするための例示的なプロセスのフローチャートである。図５において記載されるプロセスは、図４および図３のプロセス（たとえば、３０２から３１２）と同様に開始し得る。いくつかの実現例では、プロセスのいくつかまたはすべてが順次行われる。たとえば、システムは、最初に、図３に関して記載されるように予測レイテンシに基づいてメモリをアロケートし得、次いで、図４に関して記載されるようにプロファイリング実行を実行するとともにプロファイリング実行に基づいてメモリを再アロケートし、最後に、訓練実行の実行中に、図５を参照して以下に記載されるプロセスに従ってメモリをさらに再アロケートし得る。これらのプロセスの任意の好適な組み合わせが、本開示によって企図される。

ひとたび（図３または図４に記載されるプロセスのいずれかまたは両方を介して）初期キューアロケーションが達成されると、訓練ジョブが実行を開始し得る。実行中、コントローラは、上述のようにハードウェアＴＰＵ性能カウンタレジスタによって記録される、各ポートについてのパケットカウントを監視し得る。最初に、実行の開始時に、ポートごとのパケット統計およびハードウェアカウンタがクリアされ得る（５０２）。訓練ジョブは、所定の時間量にわたって実行し得、次いで、キューは、ジョブ実行中に各ポートについてのパケットカウントに基づいて調整され得る。いくつかの実現例では、メッセージキューは、実行中に周期的に、または、設定された回数（たとえば、実行の最初の５時間について１時間に１回）再アロケートされる。いくつかの実現例では、メッセージキューは、訓練ジョブの開始中により頻繁に再アロケートされ、実行が進行するにつれて頻度はより少なくなる（たとえば、最初の１時間は１０分ごと、次いで次の５時間は１時間ごと、次いでその後は１日に１回である）。いくつかの実現例では、期間は、ケースバイケースベースでユーザによって構成される。

所定時間が経過するとともにキューが再アロケートされるべき場合、各ポートについてのパケット統計がハードウェアＴＰＵ性能カウンタレジスタから読み出される（５０４）。所望のキューサイズが計算される（５０６）。いくつかの実現例では、所望のキューサイズは、図４を参照して記載されるような式を使用して計算される。

キューサイズが決定されると、訓練ジョブの実行が休止され得、これにより、ＴＰＵが、任意の保留中のメッセージトラフィックを完全にインジェストおよび処理し、それらのキューをクリアすることが可能になる（５０８）。いくつかの実現例では、コントローラは、進行する前に、キューがクリアである（たとえば、共有ＲＡＭは、各ＴＰＵについて保留中のメッセージを有しない）ことを検証する（５１０）。いくつかの例では、当該休止は所定の時間量だけ継続し、共有ＲＡＭがクリアでない場合（５１２）、訓練ジョブの実行が再開する（５１６）。これらの例では、コントローラは、その後の時点で再アロケーションを再試行し得る。共有ＲＡＭがクリアであると決定される場合、共有ＲＡＭにおけるキューには各々、新しい開始アドレスおよび停止アドレスが（たとえば、上で論じたＡＰＩを介して）割り当てられる（５１４）。次いで、コントローラは、ハードウェアＴＰＵ性能カウンタレジスタに格納されたポートごとのパケット統計をクリアし得、次いで、訓練ジョブは実行を再開する（５０２）。このプロセスは、訓練ジョブの実行中に必要に応じて繰り返し得る。

図６は、図１の機械学習アクセラレータにおいて使用され得る特殊目的論理チップの例を示す概略図である。図６は、ディープニューラルネットワーク（ＤＮＮ: deep neural network）に関連付けられるテンソル計算を加速するための例示的なコンピューティングシステム６００として機械学習ハードウェアアクセラレータにおいて使用されるＡＳＩＣのブロック図を示す。システム６００は、たとえば、図１を参照して記載されるようにＡＳＩＣ１０２であり得る。システム６００は一般的に、コントローラ６０２と、ホストインターフェイス６０８と、入力／出力（Ｉ／Ｏ）リンク６１０と、第１のタイルセット６１２および第２のタイルセット６１４を含む複数のタイルと、分類器部分６１６と、バスマップ６１８（明確性のために示されているが、システム６００には含まれない）において識別されるデータバスとを含む。コントローラ６０２は一般的に、データメモリ６０４と、命令メモリ６０６と、コンピュータ可読記憶媒体において符号化された１つ以上の命令を実行するように構成される少なくとも１つのプロセッサとを含む。命令メモリ６０６は、コントローラ６０２の１つ以上のプロセッサによって実行可能である１つ以上の機械可読命令を格納し得る。データメモリ６０４は、システム６００内で発生する計算に関するさまざまなデータを格納するとともにその後にアクセスするためのさまざまなデータ記憶媒体のいずれかであり得る。

コントローラ６０２は、システム６００内において、命令メモリ６０６に格納された命令を含む、テンソル計算に関する１つ以上の命令を実行するように構成される。いくつかの実現例では、データメモリ６０４および命令メモリ６０６は、揮発性メモリユニットである。いくつかの他の実現例では、データメモリ６０４および命令メモリ６０６は、不揮発性メモリユニットである。データメモリ６０４および命令メモリ６０６はさらに、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイといった別の形態のコンピュータ可読媒体であり得る。さまざまな実現例では、コントローラ６０２は、コアマネージャ６０２と呼称または参照され得る。

示されるように、ホストインターフェイス６０８は、Ｉ／Ｏリンク６１０、コントローラ６０２および分類器部分６１６に結合される。ホストインターフェイス６０８は、Ｉ／Ｏリンク６１０から命令およびデータパラメータを受信し、命令およびパラメータをコントローラ６０２に提供する。一般的に、命令は、命令バス６２４（後述）を介してシステム６００における１つ以上のデバイスに提供され得、パラメータは、リングバス６２８（後述）を介してシステム６００における１つ以上のデバイスに提供され得る。いくつかの実現例では、命令は、初期時間においてホストインターフェイス６１８からコントローラ６０２によって受信され、その後の時間においてコントローラ６０２によって実行するために命令メモリ６０６に格納される。

分類器部分６１６は、同様に、コントローラ６０２および第２のタイルセット６１４のタイル７に結合される。いくつかの実現例では、分類器部分６１６は、システム６００内の別個のタイルとして実現される。代替的な実現例では、分類器部分６１６は、コントローラ６０２のサブ回路またはサブデバイスとしてコントローラ６０２内に配置または設置される。分類器部分６１６は一般的に、全結合層の出力として受信される蓄積されたアクティベーション前値に対して１つ以上の関数を実行するように構成される。全結合層は、タイルセット６１２および６１４においてタイルにわたってパーティショニングされ得る。したがって、各タイルは、タイルのメモリユニットに格納され得るアクティベーション前値（すなわち、線形出力）のサブセットを生成するように構成される。分類結果バス６２０は、分類器部分６１６からコントローラ６０２へのデータパスを提供する。関数後値（すなわち、結果）を含むデータが、分類結果バス６２０を介して分類器部分６１６からコントローラ６０２に提供される。

バスマップ６１８は、第１のタイルセット６１２および第２のタイルセット６１４のタイル間の１つ以上の相互接続されたデータ通信パスを提供するデータバスを示す。バスマップ６１８は、図６に示されるように、分類結果バス６２０、ＣＳＲ／マスタバス６２２、命令バス６２４、メッシュバス６２６、および、リングバス６２８を識別するための凡例を提供する。一般的に、タイルは、システム６００のアクセラレータアーキテクチャ内のコアコンポーネントであり、システムにおいて生じるテンソル計算についての焦点である。各タイルは、多層ニューラルネットワークの１つ以上の層にわたる計算を加速するようシステムにおいて他のタイルと協働する個々の計算ユニットである。タイルセット６１２，６１４におけるタイルは、所与の命令に関連付けられるテンソル計算の実行を共有し得るが、個々のコンピューティングユニットは、タイルセット６１２，６１４内の他の対応するタイルに対して独立してテンソル計算のサブセットを実行するように構成される自己完結型の計算コンポーネントである。

ＣＳＲバス６２２は、コントローラ６０２が、プログラム構成を設定するとともに１つ以上のタイルに関連付けられるステータスレジスタを読み出す１つ以上の命令を送信することを可能にするシングルマスタマルチスレーブバス（single master multiple slave bus）である。ＣＳＲバス６２２は、１つのマスタバスセグメントおよび複数のスレーブバスセグメントを有するシングルデイジーチェーン構成（single daisy chain configuration）で接続され得る。図６に示されるように、ＣＳＲバス６２２は、ホストインターフェイス６１０へのリング内のタイルセット６１２，６１４およびコントローラ６０２におけるタイルを接続するバスデータパスを通じた通信結合を提供する。いくつかの実現例では、ホストインターフェイス６１０は、ＣＳＲバスリングのシングルマスタであり、全ＣＳＲバスアドレス空間は、ホストインターフェイス６１０においてメモリ空間にマッピングされるメモリである。

ＣＳＲバス６２２は、１つ以上の動作を実行するようホストインターフェイス６１０によって使用され得、当該１つ以上の動作は、たとえば、コントローラ６０２が命令メモリ６０６から命令をフェッチし始めることを可能にするようコントローラ６０２においてメモリバッファポインタをプログラミングすること、１つ以上の計算中に静的なままであるさまざまなタイル設定（たとえば、多項式近似計算のための係数テーブル）を更新／プログラミングすること、および／または、ファームウェアを分類部分６１６にロード／リロードすることを含む。一例では、ファームウェアのリロードは、線形出力（すなわち、アクティベーション前値）に適用されるべき新しい関数を含み得る。したがって、ＣＳＲバス６２２へのアクセスを有するすべてのスレーブは、スレーブに結び付けられるとともにそれを識別する、別個のノード識別子（ノードＩＤ）を有することになる。ノードＩＤは、命令アドレスの一部であり、ＣＳＲパケットがスレーブにアドレス指定されるか否かを決定するために、ＣＳＲスレーブ（すなわち、コントローラ６０２、タイル６１２，６１４、および分類器６１６）によって使用され、検査または別の態様で調査されることになる。

いくつかの実現例では、１つ以上の命令は、コントローラ６０２を通じてホストインターフェイス６０２によって送信され得る。命令は、たとえば、３２ビット幅であってもよく、最初の７ビットは、命令を受信し実行すべき命令アドレス／宛先を示すヘッダ情報を含む。ヘッダの最初の７ビットは、特定のノードＩＤを表すデータパラメータを含み得る。したがって、ＣＳＲバスリング上のスレーブ（たとえば、各タイル）は、命令のヘッダを検査して、マスタ（ホストインターフェイス６１０）による要求がヘッダを検査するタイルにアドレス指定されたか否かを決定し得る。ヘッダのノードＩＤが、宛先が検査タイルであることを示さない場合、検査タイルは、次のタイルによる検査のために、次のタイルに接続されたＣＳＲバス入力に入力ＣＳＲ命令パケットをコピーする。

命令バス６２４は、コントローラ６０２から始まり、ＣＳＲバス６２２と同様に、リングにおけるタイルセット６１２，６１４内のタイルをコントローラ６０２に戻すように接続するバスデータパスを通じて通信結合をさらに提供する。一実現例では、コントローラ６０２は、命令バス６２４を介して１つ以上の命令をブロードキャスト送信する。コントローラ６０２によってブロードキャスト送信される命令は、ＣＳＲバス６２２を介して提供される命令とは異なり得る。しかしながら、タイルがバス６２４を介して受信される命令を受信および／または消費もしくは実行する態様は、ＣＳＲバス６２２を介して受信される命令を実行するためのプロセスと同様であり得る。

一例では、命令のヘッダ（すなわち、ビットマップ）は、受信タイルが、命令に関連付けられるビットマップに基づいて特定の命令を消費する必要があることを受信タイルに示す。ビットマップは、ビットに関して定義される特定の幅を有し得る。命令は典型的には、命令のパラメータに基づいて、１つのタイルから次のタイルに転送される。一実現例では、命令バス６２４の幅は、命令のサイズ／幅よりも小さくなるように構成され得る。したがって、そのような構成では、命令の送信は数サイクルにわたり、命令バス６２４のバスストップは、デコーダに、タイルにおいて受信された命令をそのタイルに関連付けられる適切なターゲット命令バッファへ配置させることになる。

以下にさらに記載されるように、タイルセット６１２，６１４におけるタイルは一般的に、命令の２つの広いカテゴリをサポートするように構成される。２つの広いカテゴリは、命令タイプとも称され得る。命令タイプは、テンソル演算（ＴｅｎｓｏｒＯｐ）命令およびダイレクトメモリアクセス（ＤＭＡＯｐ）命令を含む。いくつかの実現例では、ＤＭＡＯｐ命令は、同時であることが許可される１つ以上の特殊化（specialization）を有する。１つ以上の特殊化は、ＤＭＡＯｐ命令サブタイプまたはＯｐコードと称され得る。いくつかの場合において、各固有および／または有効なＤＭＡＯｐ命令タイプ／サブタイプタプルは、特定のタイル内に別個の命令バッファを有することになる。

タイル６１２，６１４の特定のタイルにおいて、命令バス６２４に関連付けられるバスストップは、命令タイプ／サブタイプを決定するよう、ヘッダビットマップを検査する。命令は、タイルによって受信され、その後、タイルによる命令の実行に先立ってタイルの命令バッファに書き込まれ得る。命令が書き込まれるタイルの命令バッファは、命令のタイプおよびサブタイプインジケータ／フィールドによって決定され得る。命令バッファは、１つ以上の関連する命令の消費を優先させる先入先出（ＦＩＦＯ: first-in first-out）制御スキームを含み得る。したがって、このＦＩＦＯ制御スキーム下では、同じタイプ／サブタイプの命令が常に、命令が命令バスに到着した順序で実行されることになる。

タイル内の異なる命令バッファは、ＴｅｎｓｏｒＯｐ命令バッファおよびＤＭＡＯｐ命令バッファである。上で示されたように、命令タイプは、ＴｅｎｓｏｒＯｐ命令およびＤＭＡＯｐ命令を含む。ＤＭＡＯｐ命令に関して、命令サブタイプ（「書き込み」バッファ位置を示す）は、１）メッシュインバウンド命令バッファと、２）メッシュアウトバウンド命令バッファと、３）ナローワイドＤＭＡ命令バッファと、４）ワイドナローＤＭＡ命令バッファと、５）リングバスＤＭＡ命令バッファとを含む。これらのバッファ位置は、図７を参照して以下においてより詳細に記載される。ワイドおよびナローの名称は、本明細書全体にわたって使用され、一般的に、１つ以上のメモリユニットの幅（ビット／バイト）におけるおおよそのサイズを指す。本明細書において使用されるように、「ナロー」は、各々が１６ビット未満のサイズまたは幅を有する１つ以上のメモリユニットを指し得、「ワイド」は、各々が６４ビット未満のサイズまたは幅を有する１つ以上のメモリユニットを指し得る。

メッシュバス６２６は、ＣＳＲバス６２２、命令バス６２４、およびリングバス６２８（後述）とは異なるデータ通信パスを提供する。図６に示すように、メッシュバス６２６は、Ｘ次元およびＹ次元の両方において、各タイルをその対応する隣接タイルに結合または接続する通信パスを提供する。さまざまな実現例では、メッシュバス６２６は、隣接するタイルにおいて１つ以上のナローメモリユニット同士間で入力アクティベーション量を搬送するために使用され得る。示されるように、メッシュバス６２６は、隣接しないタイルへの入力アクティベーションデータの直接転送を可能にしない。

さまざまな実現例では、メッシュバス６２６およびメッシュバス６２６を介して接続されるさまざまなタイルは、以下の構成を有し得る。メッシュの４つのコーナータイルは、２つのアウトバウンドポートおよび２つのインバウンドポートを有する。メッシュの４つのエッジタイルは、３つのインバウンドポートおよび３つのアウトバウンドポートを有する。すべての非エッジ、非コーナータイルは、４つのインバウンドポートおよび４つのアウトバウンドポートを有する。一般的に、例示的なＮ×Ｎタイルレイアウトを考えると、エッジタイルは、３つの隣接するタイルのみを有するタイルであり、その一方、コーナータイルは、２つの隣接するタイルを有するタイルである。メッシュバス６２６を介したデータフロー方法に関して、一般的に、特定のタイルについてメッシュバス６２６を介して到着するすべての入力アクティベーションは、タイルの１つ以上のナローメモリユニットにコミットされなければならない。さらに、４つより少ないインバウンドポートを有するタイル構成の場合、ＤＭＡＯｐ命令は、不在の入力ポート上のデータを待つ代わりに、タイルのナローメモリ内の位置にゼロ値を書き込み得る。同様に、４つより少ないアウトバウンドポートを有するタイル構成の場合、ＤＭＡＯｐ命令は、任意の不在のポートに対する転送に関連するナローメモリ読み出しおよびポート書き込みを実行しない。

いくつかの実現例では、特定の入力アクティベーションが書き込まれるかまたは読み出されるナローメモリユニットの位置またはアドレスは、メッシュバス６２６を介して提供されるインバウンド／アウトバウンドＤＭＡＯｐに基づいて、テンソルトラバーサルユニット（Tensor Traversal Unit；以下「ＴＴＵ」）によって生成されることになる。インバウンドＤＭＡＯｐおよびアウトバウンドＤＭＡＯｐは、同時に実行されてもよく、任意の必要とされる同期が、コントローラ６０２によって管理される同期フラグ制御スキームを通じて管理されることになる。ＴＴＵは、図７を参照して以下でさらに詳細に記載される。

リングバス６２８は、コントローラ６０２から始まり、ＣＳＲバス６２２および命令バス６２４と同様に、リングにおいてタイル６１２，６１４をコントローラ６０２に戻すように接続するバスデータパスを通じて通信結合をさらに提供する。さまざまな実現例では、リングバス６２８は、一般的に、すべてのタイル６１２，６１４においてすべてのワイドメモリユニット（図７を参照して以下でより詳細に記載される）を接続または結合する。したがって、リングバス６２８のペイロード幅は、タイルセット６１２，６１４の各タイル内に配置されるワイドメモリユニットの幅に対応する。上で論じたように、リングバス６２８はさらに、リングバス６２８を介して通信される命令またはパラメータを含むペイロードデータを消費する必要があるタイルを示すビットマップヘッダを含む。

リングバス６２８を介して特定のタイルにおいて受信されるデータ（すなわち、ペイロード）に関して、情報を受信することに応答して、各タイルは、別のタイルにデータを転送する前に、受信タイルに固有であるビットマップヘッダにおいて示される位置データをゼロにする（すなわち、クリアする）。したがって、ペイロードを受信するべき特定のタイルを示す残りのビットセットデータをヘッダビットマップが有さない場合、ペイロードの別のタイルへの転送は停止することになる。ペイロードデータは一般的に、ディープにネストされたループの実行に基づいて実行されるテンソル計算中に１つ以上のタイルによって使用されるアクティベーションおよび重みを指す。

いくつかの実現例では、コントローラ６０２は、リングバス６２８の部分であるとして記載され得る。一例では、特定のタイル内で実行されるＤＭＡＯｐ命令について、コントローラ６０２は、リングにおいて、リングバスストップからデータ／ペイロードをポップし、当該ペイロードを次のタイルにおけるリングバスストップに転送するよう使用され得る。コントローラ６０２はさらに、そのようなアクションがビットマップヘッダ中の命令によって必要とされる場合、ペイロードデータをタイルの１つ以上のワイドメモリユニットにコミットさせ得る。データが書き込まれる必要がある１つ以上のワイドメモリユニットのアドレスは、特定のタイル内においてＤＭＡＯｐ命令によって生成され得る。

さまざまな実現例では、タイルセット６１２，６１４の各タイルは、ペイロードデータの作成者またはペイロードデータの消費者のいずれかであり得る。タイルがペイロードデータの作成者である場合、タイルは、そのワイドメモリユニットのうちの１つ以上からデータを読み出し、１つ以上の他のタイルによる消費のためにリングバス６２８を介してデータをマルチキャスト送信する。タイルがペイロードデータの消費者である場合、タイルは、当該データを受信して、タイル内において１つ以上のワイドメモリユニットに書き込み、１つ以上の他のタイルによる消費のためにペイロードデータを転送する。リングバス６２８を介したペイロードデータの移動に関して、典型的には、任意の所与の時間において、リングバス６２８上にデータの作成者／マスタが１つのみが存在することになる。すべてのタイルにおけるＤＭＡＯｐ命令実行順序（たとえば、ＦＩＦＯ制御スキーム）によって、所与の時間においてリングバス６２８上にデータの作成者／マスタが１つのみ存在することが保証される。

いくつかの実現例では、コントローラ６０２は、所与の時間にリングバス６２８上にペイロードデータの作成者／マスタが１つのみ存在することを保証するために、同期フラグ制御アーキテクチャを使用する。一例では、リング出力へのタイルによる各書き込みによって、対応する同期フラグカウントのインクリメントがトリガされる。コントローラ６０２は、ペイロードデータを検査して、ペイロードを含むデータチャンクまたはセグメントの数を決定し得る。次いで、コントローラ６０２は、別のタイルがマスタモードで実行される前に、予想される数のデータセグメントがタイルによって転送および／または消費されることを保証するために、タイルによる実行を監視する。

所与の時間にリングバス６２８上にデータの作成者／マスタが１つのみ存在することを保証することに対する例外は、リングバス上に重なる領域を有しない、リングバス６２８を介して接続されるローカルマルチキャストグループが存在する場合に生じる。たとえば、タイル０（マスタ）は、タイル０－タイル３グルーピングにおけるタイルにマルチキャスト送信（すなわち、データを生成）し得、その一方、タイル４（マスタ）は、タイル４－タイル７グルーピングにおけるタイルに同じことを行い得る。このデュアルマスタマルチキャスト方法の重要な要件は、パケットオーバーラップが生じて１つ以上のデータ計算エラーにつながり得るので、異なるマルチキャストグループが互いのデータパケットを見ることを許可されてはならないことである。

図６に示すように、コントローラ６０２は、タイルセット６１２，６１４におけるタイルをＩ／Ｏ６１０に結合または接続する通信データパスを提供し、いくつかのコア機能を含む。コントローラ６０２のコア機能は一般的に、タイルセット６１２，６１４におけるタイルに１つ以上のＩ／Ｏ入力アクティベーションを供給することと、タイルにＩ／Ｏ６１０から受信した１つ以上の入力アクティベーションおよびパラメータを供給することと、タイルに１／Ｏ６１０から受信した１つ以上の命令を供給することと、ホストインターフェイス６０８にＩ／Ｏ出力アクティベーションを送信することと、ＣＳＲバス６２２およびリングバス６２８のためのリングストップとして機能することとを含む。以下により詳細に記載されるように、第１のタイルセット６１２および第２のタイルセット６１４は各々、内側ループおよび外側ループから構成されるディープループネストに基づいて実行される１つ以上のテンソル計算を実行するよう使用される複数のタイルを含む。

システム６００は一般的に以下のように動作する。ホストインターフェイス６０８は、所与の計算のために生じるダイレクトメモリアクセス動作（ＤＭＡＯｐ）を定義する１つ以上の命令をコントローラ６０２に提供することになる。コントローラ６０２に供給される命令に関連付けられる記述子は、多次元データアレイ（テンソル）に関連付けられる大規模ドット積計算を促進するためにコントローラによって必要とされる情報を含むことになる。一般的に、コントローラ６０２は、ニューラルネットワークの所与の層のためのテンソル計算を実行するための入力アクティベーション、タイル命令およびモデルパラメータ（すなわち、重み）をホストインターフェイス６０８から受信する。次いで、コントローラ６０２は、命令によって定義されるデータフローの態様で、命令をタイル６１２，６１４にマルチキャスト送信させ得る。上で論じたように、命令を消費するタイルは次いで、命令ヘッダ中のビットマップデータに基づいて、別のタイルへの新しい／その後の命令のブロードキャスト送信を開始し得る。

データフローに関して、入力アクティベーションおよびパラメータは、リングバス６２８を介してタイルセット６１２，６１４のタイルに送信される。タイル６１２，６１４の各々は、その特定のタイルに割り当てられる出力アクティベーションのサブセットを計算するために必要とされる入力アクティベーションのサブセットを格納する。タイルについてのＤＭＡＯｐ命令は、入力アクティベーションをワイドメモリからナローメモリに移動させる。タイル内の計算は、必要な入力アクティベーション、パラメータ／重みおよび計算命令（ＴＴＵ演算、メモリアドレスなど）がタイルにおいて利用可能である場合に開始する。タイル内で発生する計算は、タイル内のＭＡＣオペレータ（後述）が命令セットによって定義されるすべてのドット積演算を完了し、アクティベーション前関数が乗算演算の結果（すなわち、出力アクティベーション）に適用されると終了する。

１つ以上のテンソル計算の結果は、計算層の出力アクティベーションを、計算を実行するタイルのナローメモリユニットに書き込むことを含む。あるテンソル計算では、メッシュバス６２６を介して隣接するタイルへの出力エッジアクティベーションの転送がある。計算が複数の層にまたがる場合、後続の層のための出力アクティベーションを計算するために、隣接するタイルへの出力エッジアクティベーションの転送が必要とされる。すべての層についての計算が完了すると、ＤＭＡＯｐは、リングバス６２８を介して分類器タイル６１６に最終アクティベーションを移動させる。次いで、コントローラ６０２は、分類器タイル６１６から最終アクティベーションを読み出し、ＤＭＡＯｐを実行して、最終アクティベーションをホストインターフェイス６０８に移動させる。いくつかの実現例では、分類器部分６１６は、ＮＮの出力層（すなわち、最後の層）の計算を実行する。他の実現例では、ＮＮの出力層は、分類器層、回帰層、または、一般的にニューラルネットワークに関連付けられる別の層タイプのうちの１つである。

図７は、図１を参照して記載されるようにＡＳＩＣ（たとえばＴＰＵ１０６）において使用され得る例示的なニューラルネットワーク（ＮＮ）計算タイル７００を示す。一般的に、例示的なタイル７００は、図６を参照して上で論じた第１のタイルセット６１２および第２のタイルセット６１４内のタイルのいずれかに対応し得る。さまざまな実現例では、計算タイル７００は、計算ユニット７００とも呼称または参照され得る。各計算タイル７００は、タイルセット６１２，６１４内の他の対応するタイルに対して独立して命令を実行するように構成される自己完結型の計算ユニットである。上で簡潔に論じたように、各計算タイル７００は、ＴｅｎｓｏｒＯｐ命令およびＤＭＡＯｐ命令という２つのタイプの命令を実行する。一般的に、各命令タイプは、ディープループネストに関連付けられる計算演算を含み、したがって、各命令タイプは一般的に、すべてのループ反復の完了を保証するよう、複数の時間エポックにわたって実行されることになる。

以下により詳細に論じられるように、異なる命令タイプは、計算タイル７００内で管理される同期フラグ制御を通じてデータ上で同期する計算タイル７００内の独立した制御ユニットによって実行される。同期フラグ制御は、計算タイル７００内の異なる命令タイプの実行間の同時性を管理する。各命令タイプに関連付けられる各計算演算は、発行の厳密な順序（すなわち、先入先出）で実行されることになる。２つの命令タイプであるＴｅｎｓｏｒＯＰおよびＤＭＡＯｐに関して、これらの異なる命令タイプ間に順序の保証は存在せず、各タイプは、計算タイル７００によって制御の別個のスレッドとして扱われる。

データフロー構成に関して、計算タイル７００は一般的に、各々が計算タイル７００に入るとともに計算タイル７００から出るデータフローのための通信パスを提供するデータパス７０２およびデータパス７０５を含む。上述のように、システム６００は、リング構成でレイアウトされる３つの別個のデータバス構造を含む、すなわち、ＣＳＲバス６２２、命令バス６２４、および、リングバス６２８を含む。図７を参照して、データパス７０５は命令バス６２４に対応し、データパス７０２は一般的にＣＳＲバス６２２およびリングバス６２８のうちの１つに対応する。示されるように、データパス７０２は、計算タイル７００を出るデータのための出力パスを提供するリング出力７０３と、計算タイル７００に入るデータのための入力パスを提供するリング入力７０４とを含む。

計算タイル７００は、ＴｅｎｓｏｒＯｐテンソルトラバーサルユニット（ＴＴＵ）７２６を含むＴｅｎｓｏｒＯｐ制御７０６と、ＤＭＡＯｐＴＴＵ７２８を含むＤＭＡＯｐ制御７０８とをさらに含む。ＴｅｎｓｏｒＯｐ制御７０６は、一般的に、ＴｅｎｓｏｒＯｐＴＴＵレジスタ７３２への書き込みおよびＴｅｎｓｏｒＯｐＴＴＵレジスタ７３２からの読み出しを管理し、ＴｅｎｓｏｒＯｐＴＴＵ７２６による実行のためのトラバーサル動作を管理する。同様に、ＤＭＡＯｐ制御７０８は、一般的に、ＤＭＡＯｐＴＴＵレジスタ７３４への書き込みおよびＤＭＡＯｐＴＴＵレジスタからの読み出しを管理し、ＤＭＡＯｐＴＴＵ７２８による実行のためのトラバーサル動作を管理する。ＴＴＵレジスタ７３２は、ＴｅｎｓｏｒＯｐ制御７０６による命令の実行時にＴｅｎｓｏｒＯｐＴＴＵ７２６によって実行されるべき動作を含む１つ以上の命令を格納するための命令バッファを含む。同様に、ＴＴＵレジスタ７３４は、ＤＭＡＯｐ制御７０８による命令の実行時にＴＴＵ７０８によって実行されるべき動作を含む１つ以上の命令を格納するための命令バッファを含む。以下においてさらに記載されるように、ＴＴＵは、一般的にナローメモリ７１０およびワイドメモリ７１２に存在する１つ以上のテンソルのアレイ要素をトラバースするよう計算タイル７００によって使用される。

いくつかの実現例では、計算タイル７００による実行のためのある命令が、データパス７０５（すなわち、命令バス６２４の部分）を介してタイルに到着する。計算タイル７００は、命令タイプ（ＴｅｎｓｏｒＯｐまたはＤＭＡＯｐ）および命令サブタイプ（読み出し動作または書き込み動作）を決定するようヘッダビットマップを検査する。計算タイル７００によって受信された命令は、その後、命令タイプに依存して特定の命令バッファに書き込まれる。一般的に、命令は、計算タイル７００のコンポーネントによる命令の実行の前に受信され格納される（すなわち、バッファに書き込まれる）。図７に示されるように、命令バッファ（すなわち、ＴｅｎｓｏｒＯｐＴＴＵレジスタ７３２およびＤＭＡＯｐＴＴＵレジスタ７３４）は各々、１つ以上の関連する命令の消費（実行）を優先する先入先出（ＦＩＦＯ）制御スキームを含み得る。

上で簡潔に論じたように、テンソルは、多次元ジオメトリックオブジェクトであり、例示的な多次元ジオメトリックオブジェクトは、行列およびデータアレイを含む。ディープにネストされたループを含むアルゴリズムは、Ｎ次元のテンソルをトラバースするように１つ以上のネストされたループを反復することによってテンソル計算を実行するよう、計算タイル７００によって実行され得る。１つの例示的な計算プロセスでは、ループネストの各ループは、Ｎ次元テンソルの特定の次元をトラバースすることを担い得る。本明細書において記載されるように、ＴｅｎｓｏｒＯｐ制御７０６は、一般的に、特定のテンソル構築物の次元要素がトラバースされ、ディープネストループによって定義される計算を完了するようアクセスされるシーケンスを駆動する１つ以上のテンソル演算を管理する。

計算タイル７００はさらに、ナローメモリ７１０およびワイドメモリ７１２を含む。ナローおよびワイドの名称は、一般的に、ナローメモリ７１０およびワイドメモリ７１２のメモリユニットの幅（ビット／バイト）におけるサイズを指す。いくつかの実現例では、ナローメモリ７１０は、各々が１６ビット未満のサイズまたは幅を有するメモリユニットを含み、ワイドメモリ７１２は、各々が３２ビット未満のサイズまたは幅を有するメモリユニットを含む。一般的に、計算タイル７００は、データパス７０５を介して入力アクティベーションを受信し、ＤＭＡ制御７０８は、入力アクティベーションをナローメモリ７１０に書き込むための動作を実行する。同様に、計算タイル７００は、データパス７０２を介してパラメータ（重み）を受信し、ＤＭＡ制御７０８は、ワイドメモリ７１２にパラメータを書き込むための動作を実行する。いくつかの実現例では、ナローメモリ７１０は、各メモリサイクルについて、どの制御デバイス（たとえば、ＴｅｎｓｏｒＯｐ制御７０６またはＤＭＡＯｐ制御７０８）がナローメモリ７１０のその共有メモリユニットにアクセスすることを許可されるかを決定するよう、共有メモリシステムにおいて典型的に使用されるメモリアービタ（memory arbiter）を含み得る。

計算タイル７００は、入力アクティベーションバス７１６と、各々がＭＡＣオペレータ７１５およびサムレジスタ７２０を含む複数のセルを含むＭＡＣアレイ７１４とをさらに含む。一般的に、ＭＡＣアレイ７１４は、複数のセルにわたるＭＡＣオペレータ７１５およびサムレジスタ７２０を使用して、ドット積計算に関連する算術演算を含むテンソル計算を実行する。入力アクティベーションバス７１６は、ＭＡＣアレイ７１４の各ＭＡＣオペレータ７１５によるそれぞれのアクセスのために１つずつ、ナローメモリ７１０によって入力アクティベーションが提供されるデータパスを提供する。したがって、入力アクティベーションの１つずつのブロードキャスト送信に基づいて、特定のセルの単一のＭＡＣオペレータ７１５は、各々、入力アクティベーションを受信する。ＭＡＣアレイ７１４のＭＡＣオペレータによって実行される算術演算は一般的に、ナローメモリ７１０によって提供される入力アクティベーションをワイドメモリ７１２からアクセスされるパラメータと乗算して、単一の出力アクティベーション値を生成することを含む。

算術演算中、部分和は、たとえば対応するサムレジスタ７２０に蓄積および格納され得るか、または、ワイドメモリ７１２に書き込まれ、ＭＡＣアレイ７１４の特定のセルによって再アクセスされて、後続の乗算演算を完了し得る。テンソル計算は、第１の部分および第２の部分を有するものとして記載され得る。第１の部分は、乗算演算が、たとえば、入力アクティベーションと出力アクティベーションを生成するためのパラメータとの乗算を完了することによって、出力アクティベーションを生成する際に完了する。第２の部分は、出力アクティベーションへの非線形関数の適用を含み、第２の部分は、出力アクティベーションが関数の適用後にナローメモリ７１０に書き込まれる際に完了する。

計算タイル７００は、出力アクティベーションバス７１８と、出力アクティベーションパイプライン７２４を含む非線形ユニット（ＮＬＵ: non-linear unit）７２２と、ＮＬＵ制御７３８と、計算タイル７００におけるコンポーネントのコア属性を示す参照マップ７３０とをさらに含む。参照マップ７３０は、明確性のために示されているが、計算タイル７００には含まれていない。コア属性は、特定のコンポーネントがユニットであるか、記憶装置であるか、オペレータであるか、制御デバイスであるか、または、データパスであるかを含む。一般的に、テンソル計算の第１の部分が完了すると、出力アクティベーションが、ＭＡＣアレイ７１４から出力アクティベーションバス７１８を介してＮＬＵ７２２に提供される。ＮＬＵ７２２に到着した後、アクティベーションパイプライン７２４を介して受信されたアクティベーション関数を特定するデータは、出力アクティベーションに適用され、出力アクティベーションは、次いで、ナローメモリ７１０に書き込まれる。いくつかの実現例では、出力アクティベーションバス７１８は、少なくとも１つのパイプライン化されたシフトレジスタ７３６を含み、テンソル計算の第２の部分を完了することは、出力アクティベーションをナローメモリ７１０に向かってシフトするようアクティベーションバス７１８のシフトレジスタ７３６を使用することを含む。

たとえば、２つの多次元データアレイのドット積計算に関して、単一の計算タイル７００について、ＭＡＣアレイ７１４は、堅牢なシングルインストラクションマルチプルデータ（ＳＩＭＤ: single instruction multiple data）機能を提供する。ＳＩＭＤは、一般的に、すべての並列ユニット（複数のＭＡＣオペレータ７１５）が（ディープループネストに基づいて）同じ命令を共有するが、各ＭＡＣオペレータ７１５が異なるデータ要素上で命令を実行することを意味する。１つの基本的な例において、配列［１，２，３，４］および［５，６，７，８］を要素ごとに加算して１サイクルにおいて配列［６，８，１０，１２］を得ることは、典型的には、各要素に対して演算を実行するために４つの演算ユニットを必要とすることになる。ＳＩＭＤを使用することによって、４つのユニットは、同じ命令（たとえば、「加算」）を共有し、並列に計算を実行し得る。したがって、システム６００および計算タイル７００は、従来の方法に対してテンソル計算において向上した加速および並列性を提供する。

一例では、以下においてより詳細に記載されるように、複数のＭＡＣアレイ７１４による消費のために、コントローラ６０２によって単一の命令が複数の計算タイル７００（図６のタイルセット６１２，６１４参照）に提供され得る。一般的に、ニューラルネットワーク層は、複数の出力ニューロンを含み得、出力ニューロンは、出力ニューロンのサブセットに関連付けられるテンソル計算がタイルセット６１２，６１４の特定のタイルに割り当てられ得るようにパーティショニングされ得る。次いで、タイルセット６１２，６１４の各タイルは、所与の層についてニューロンの異なるグループ上で関係するテンソル計算を実行し得る。したがって、計算タイル７００は、少なくとも２つの形態の並列性を提供し得る、すなわち、１）１つの形態は、タイルセット６１２，６１４の複数のタイルの間で出力アクティベーション（出力ニューロンのサブセットに対応する）をパーティショニングすることを含み、２）別の形態は、タイルセット６１２，６１４のタイル間のパーティショニングに基づく出力ニューロンの複数のサブセットの（単一の命令による）同時計算を含む。

開示される発明概念は、添付の請求の範囲において定義されるものを含むが、当該発明概念はさらに、以下の実施形態に従って定義され得ることが理解されるべきである。

実施形態１は、機械学習アクセラレータ通信ネットワークにおけるメモリアロケーションのための方法である。一般的に、この方法は、特定用途向け集積回路（ＡＳＩＣ）の複数の通信ポートに関連付けられるメタデータにアクセスすることを含む。メタデータは、各ポートについて、特定のポートが、現在の構成において使用されるか否かと、特定のポートに関連付けられる通信媒体とを識別する。メタデータに基づいて、各ポートについて予想レイテンシが決定され、各ポートに共有メモリの部分がアロケートされる。共有メモリは、使用されないポートにゼロメモリを割り当てすることと、予想レイテンシに基づいて、各ポートのメモリアロケーションを決定することと、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることによってアロケートされる。実現例は、以下の特徴のうちの１つ以上を随意に含み得る。

実施形態２は、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることは、ＡＳＩＣとは異なるデバイスによってアプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む、実施形態１に記載の方法である。

実施形態３は、機械学習アクセラレータ通信ネットワークおよびアロケートされた共有メモリを使用して、ＡＳＩＣ上でプロセスが実行される、実施形態１または２に記載の方法である。いくつかの実施形態では、プロセスはニューラルネットワークを訓練することである。

実施形態４は、ＡＳＩＣがテンソルプロセッシングユニット（ＴＰＵ）である、実施形態１～３のいずれか１つに記載の方法である。

実施形態５は、メタデータにおいて識別される通信媒体が、銅ケーブル媒体、光媒体、プリント回路基板（ＰＣＢ）媒体、または、それらの任意の組み合わせである、実施形態１～４のうちのいずれか１つの方法である。

実施形態６は、メモリが、式

に従ってアロケートされる、実施形態１～５のいずれか１つに記載の方法である。
実施形態７は、１つ以上のコンピュータと、命令を格納する１つ以上の記憶装置とを含み、当該命令は、１つ以上のコンピュータによって実行されると、１つ以上のコンピュータに請求項１～６のいずれかに記載の方法を実行させるように動作可能である、システムである。

実施形態８は、コンピュータプログラムにより符号化されたコンピュータ記憶媒体であり、当該プログラムは、データ処理装置によって実行されると、データ処理装置に請求項１～６のいずれか１つに記載の方法を実行させるように動作可能な命令を含む。

実施形態９は、機械学習アクセラレータ通信ネットワークにおけるメモリアロケーションのための方法であって、当該方法は、機械学習アクセラレータＡＳＩＣのネットワークのためのネットワークトポロジを決定することを含む。ネットワーク内の各ＡＳＩＣの複数の通信ポートに関連付けられるメタデータがアクセスされる。メタデータは、複数のポートの各ポートについて、特定のポートが、現在の構成において使用されるか否かと、特定のポートに関連付けられる通信媒体とを識別する。ネットワークトポロジで使用される各ポートについて、ラウンドトリップタイム（ＲＴＴ）遅延が決定される。複数のポートの各ポートに共有メモリの部分がアロケートされ、当該アロケートすることは、ＲＴＴ遅延に比例する各ポートについてのメモリアロケーションを決定することと、決定されたメモリアロケーションについて、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることとによって行われる。プロファイリングトラフィックを所定の持続時間の間、ネットワークに送信するプロセスが機械学習アクセラレータ上で実行される。各ポートについて、受信されたトラフィックパケットの数が決定され、共有メモリの部分が複数のポートの各ポートに再アロケートされ、再アロケートすることは、受信されたパケットカウントに比例する各ポートについてのメモリアロケーションを決定することと、決定されたメモリアロケーションの各ポートについて開始アドレスおよび停止アドレスが再割り当てされることとによって行われる。

実施形態１０は、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当ておよび再割り当てすることは、ＡＳＩＣとは異なるデバイスによってＡＰＩを呼び出すことを含む、実施形態９に記載の方法である。

実施形態１１は、各ポートについて決定されたＲＴＴ遅延に比例するメモリアロケーションが、式

に従って決定される、実施形態９または１０に記載の方法である。
実施形態１２は、受信されたパケットカウントに比例する各ポートについてのメモリアロケーションが、式

に従って決定される、実施形態９～１１のいずれか１つに記載の方法である。
実施形態１３は、ＲＴＴ遅延が、レイテンシを決定するために１つ以上のタイミングメッセージを送信および受信することによって実行前に計算される、実施形態９～１２のいずれか１つに記載の方法である。

実施形態１４は、プロファイリングトラフィックが、オール・ツー・オールトラフィック、最近傍トラフィック、合成トラフィックプロファイル、または、それらの任意の好適な組み合わせを含む、実施形態９～１３のいずれか１つに記載の方法である。

実施形態１５は、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることが、ＡＳＩＣとは異なるデバイスによって、アプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む、実施形態９～１４のいずれか１つに記載の方法である。

実施形態１６は、機械学習アクセラレータ通信ネットワークおよびアロケートされた共有メモリを使用してＡＳＩＣ上でプロセスが実行される、実施形態９～１５のいずれか１つの方法である。いくつかの実施形態では、プロセスはニューラルネットワークを訓練することである。

実施形態１７は、ＡＳＩＣがテンソルプロセッシングユニット（ＴＰＵ）である、実施形態９～１６のいずれか１つに記載の方法である。

実施形態１８は、１つ以上のコンピュータと、命令を格納する１つ以上の記憶装置とを含み、当該命令は、１つ以上のコンピュータによって実行されると、１つ以上のコンピュータに請求項９～１７のいずれかに記載の方法を実行させるように動作可能である、システムである。

実施形態１９は、コンピュータプログラムにより符号化されたコンピュータ記憶媒体であり、当該プログラムは、データ処理装置によって実行されると、データ処理装置に請求項９～１７のいずれか１つに記載の方法を実行させるように動作可能な命令を含む。

実施形態２０は、機械学習アクセラレータ通信ネットワークのためのメモリをアロケートするための方法であって、当該方法は、機械学習アクセラレータ特定用途向け集積回路（ＡＳＩＣ）のネットワークのためのネットワークトポロジを決定することを含む。ネットワーク内の各ＡＳＩＣの複数の通信ポートに関連付けられるメタデータがアクセスされる。メタデータは、複数のポートの各ポートについて、特定のポートが、特定のポートに関連付けられる現在のアーキテクチャおよび通信媒体において使用されるか否かを識別する。メタデータは、複数のポートの各ポートについて、特定のポートが、現在の構成において使用されるか否かと、特定のポートに関連付けられる通信媒体とを識別する。ネットワークトポロジで使用される各ポートについて、ラウンドトリップタイム（ＲＴＴ）遅延が決定される。複数のポートの各ポートに共有メモリの部分がアロケートされ、当該アロケートすることは、ＲＴＴ遅延に比例する各ポートについてのメモリアロケーションを決定することと、決定されたメモリアロケーションについて、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることとによって行われる。ＡＳＩＣ上でプロセスが実行され、当該プロセスは、アロケートされた共有メモリとともに機械学習アクセラレータ通信ネットワークを使用する。プロセスの実行中、第１の期間にわたって複数のポートの各ポートにおいて受信されたメッセージパケットの数が決定される。各ポートで受信されたメッセージパケットの数に基づいて、複数のポートの各ポートについて共有メモリの所望の部分サイズが決定される。第２の期間の間、プロセスが休止され、共有メモリは保留中のメッセージパケットについてクリアであるか否かが決定される。共有メモリがクリアであると、所望の部分サイズに従って、各ポートについて共有メモリの開始アドレスおよび停止アドレスが再割り当てされ、プロセスの実行が再開される。

実施形態２１は、共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることが、ＡＳＩＣとは異なるデバイスによってアプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む、実施形態２０に記載の方法である。

実施形態２２は、機械学習アクセラレータ通信ネットワークおよびアロケートされた共有メモリを使用してＡＳＩＣ上でプロセスが実行される、実施形態２０または２１に記載の方法である。いくつかの実施形態では、プロセスは、ニューラルネットワークを訓練することである。

実施形態２３は、ＡＳＩＣがテンソルプロセッシングユニット（ＴＰＵ）である、実施形態２０～２２のいずれか１つに記載の方法である。

実施形態２４は、１つ以上のコンピュータと、命令を格納する１つ以上の記憶装置とを含み、当該命令は、１つ以上のコンピュータによって実行されると、１つ以上のコンピュータに請求項２０～２３のいずれかに記載の方法を実行させるように動作可能である、システムである。

実施形態２５は、コンピュータプログラムにより符号化されたコンピュータ記憶媒体であり、当該プログラムは、データ処理装置によって実行されると、データ処理装置に請求項２０～２３のいずれか１つに記載の方法を実行させるように動作可能な命令を含む。

前述の説明は、１つ以上の特定の実現例の文脈で提供されている。本開示の範囲から逸脱することがなければ、開示された実現例のさまざまな修正例、変更例、および置換例が可能である。したがって、本開示は、記載または示される実現例のみに限定されることが意図されず、本明細書において開示される原理および特徴と一貫する最も広い範囲を与えられるべきである。

主題の特定の実施形態が記載された。他の実施形態は、添付の請求の範囲内にある。たとえば、バスラインは「制御可能」として説明されるが、すべてのバスラインが同じレベルの制御を有する必要はない。たとえば、制御可能性の程度の変動があり得、いくつかのバスラインのみが制御され得、いくつかのバスラインが、データをそこから送出し得るタイルの数、または、データをそこに送信し得るタイルの数に関して、制限される。別の例では、いくつかのバスラインは、本明細書において記載されるように、北、東、西または南など、単一の方向に沿ってデータを提供することについて専用であり得る。いくつかの場合において、請求項に記載される動作は、異なる順序で行われ得、それでも所望の結果を達成し得る。一例として、添付の図面に示されるプロセスは、望ましい結果を達成するために、必ずしも示される特定の順序または逐次的な順序を必要としない。ある実現例では、マルチタスクおよび並列処理が有利であり得る。

本明細書において記載される主題および機能的動作の実施形態は、デジタル電子回路において実現され得、本明細書に開示される構造およびそれらの構造的等価物を含むコンピュータハードウェアにおいて実現され得、または、それらの１つ以上の組み合わせにおいて実現され得る。本明細書において記載される主題の実施形態は、１つ以上のコンピュータプログラムとして実現され得る、すなわち、データ処理装置による実行のために、または、データ処理装置の動作の制御のために、有形の非一時的なプログラムキャリア上に符号化されたコンピュータプログラム命令の１つ以上のモジュールとして実現され得る。代替的または付加的には、プログラム命令は、人工的に生成された伝搬信号上で符号化され得、伝搬信号はたとえば、データ処理装置による実行のために好適な受信機装置への送信のための情報を符号化するように生成される機械生成電気信号、光信号、または電磁信号である。コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、または、これらの１つ以上の組み合わせであり得る。

「データ処理装置」という用語は、例として、プログラマブルプロセッサ、コンピュータ、または、複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての種類の装置、デバイスおよび機械を包含する。当該装置は、特殊目的論理回路、たとえば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣを含み得る。装置はさらに、ハードウェアに加えて、当該コンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、または、それらの１つ以上の組み合わせを構成するコードを含み得る。

本明細書において記載されるプロセスおよび論理フローは、入力データに対して動作するとともに出力を生成することによって機能を実行するよう、１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルコンピュータによって実行され得る。プロセスおよび論理フローはさらに、たとえば、ＦＰＧＡ、ＡＳＩＣ、または、ＧＰＧＰＵ（汎用グラフィックス処理ユニット（general purpose graphics processing unit））といった専用論理回路によって実行され得、装置はさらに、当該専用論理回路として実現され得る。

本明細書は、多くの具体的な実現例の詳細を含むが、これらは、いかなる発明の範囲または特許請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の発明の特定の実現例に特有の特徴の説明として解釈されるべきである。別個の実現例の文脈で本明細書において記載されるある特徴はさらに、単一の実現例において組み合わせて実現され得る。逆に、単一の実現例の文脈において説明されるさまざまな特徴はさらに、複数の実現例において別々に、または、任意の好適なサブコンビネーションにおいて実現され得る。さらに、特徴は、特定の組み合わせで作用すると上で記載され、そのように最初に特許請求されることさえあり得るが、特許請求される組み合わせのうちの１つ以上の特徴は、いくつかの場合において、その組み合わせから削除され得、特許請求される組み合わせは、サブコンビネーションまたはサブコンビネーションの変形例に向けられ得る。

同様に、動作は特定の順序で図面に描かれているが、これは、望ましい結果を達成するために、そのような動作が示された特定の順序もしくは逐次的な順序で実行されること、または、すべての示された動作が実行されることを必要としていると理解されるべきではない。ある状況では、マルチタスクおよび並列処理が有利であり得る。さらに、上で記載した実現例におけるさまざまなシステム構成要素の分離は、すべての実現例においてそのような分離を必要としていると理解されるべきではなく、記載されたプログラムコンポーネントおよびシステムは、一般的に、単一のソフトウェア製品にともに統合されるか、または、複数のソフトウェア製品にパッケージ化され得ることが理解されるべきである。

上記の説明に加えて、本明細書において記載されるシステム、プログラム、または、特徴がユーザ情報の収集を可能にし得るか否か、および、いつ可能にし得るかの両方についてユーザが選択することを可能にする制御がユーザに提供されてもよい。さらに、あるデータは、個人的に識別可能な情報が取り除かれるように、格納または使用される前に１つ以上の態様で扱われ得る。たとえば、ユーザの身元は、個人的に識別可能な情報がユーザに対して決定されないように、または、ユーザの皮膚データおよび／もしくは診断がユーザと関連付けられると識別され得ないように、扱われ得る。したがって、ユーザは、どの情報がユーザに関して収集されるか、および、その情報がどのように使用されるかに対して制御を有し得る。

このように、主題の特定の実現例が記載された。他の実現例は、添付の請求の範囲内にある。いくつかの場合、請求項に列挙される動作は、異なる順序で行われ得、それでも、所望の結果が達成され得る。加えて、添付の図面に示されるプロセスは、望ましい結果を達成するために必ずしも、示される特定の順序または逐次的な順序を必要としない。ある実現例では、マルチタスクおよび並列処理が有利であり得る。

Claims

機械学習アクセラレータ通信ネットワークのための、コンピュータによって実現されるメモリアロケーション方法であって、前記方法は、
特定用途向け集積回路（ＡＳＩＣ）の複数の通信ポートに関連付けられるメタデータにアクセスすることを含み、前記メタデータは、前記複数のポートの各ポートについて、それぞれのポートが、現在の構成において使用されるか否かと、前記それぞれのポートに関連付けられる通信媒体とを識別し、
前記方法はさらに、
アクセスされた前記メタデータに基づいて、前記複数のポートの各ポートについて予想レイテンシを決定することと、
前記複数のポートの各ポートに共有メモリの部分をアロケートすることとを含み、
前記アロケートすることは、
使用されないポートにゼロメモリを割り当てすることと、
前記予想レイテンシに基づいて、各ポートについてメモリアロケーションを決定することと、
前記共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることと、
によって行われる、方法。
前記共有メモリの前記開始アドレスおよび前記停止アドレスを各ポートに割り当てすることは、ＡＳＩＣとは異なるデバイスによって、アプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む、請求項１に記載の方法。
前記ＡＳＩＣ上でプロセスを実行することを含み、前記プロセスは、前記機械学習アクセラレータ通信ネットワークおよびアロケートされた前記共有メモリを使用する、請求項１に記載の方法。
前記プロセスは、ニューラルネットワークを訓練することを含む、請求項３に記載の方法。
前記ＡＳＩＣは、テンソルプロセッシングユニット（ＴＰＵ）である、請求項１に記載の方法。
前記メタデータにおいて識別される前記通信媒体は、
銅ケーブル媒体、
光媒体、または、
プリント回路基板（ＰＣＢ）媒体
のうちの少なくとも１つを含む、請求項１に記載の方法。
メモリアロケーションは、

に基づいて決定される、請求項１に記載の方法。
機械学習アクセラレータ通信ネットワークのための、コンピュータによって実現されるメモリアロケーション方法であって、前記方法は、
機械学習アクセラレータ特定用途向け集積回路（ＡＳＩＣ）のネットワークのためのネットワークトポロジを決定することと、
前記ネットワーク内の各ＡＳＩＣの複数の通信ポートに関連付けられるメタデータにアクセスすることとを含み、前記メタデータは、前記複数のポートの各ポートについて、それぞれのポートが、現在の構成において使用されるか否かと、前記それぞれのポートに関連付けられる通信媒体とを識別し、
前記方法はさらに、
前記ネットワークトポロジにおいて使用される各ポートについて、ラウンドトリップタイム（ＲＴＴ）遅延を決定することと、
前記複数のポートの各ポートに共有メモリの部分をアロケートすることとを含み、
前記アロケートすることは、
前記ＲＴＴ遅延に比例する各ポートについてのメモリアロケーションを決定することと、
決定された前記メモリアロケーションについて、前記共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることと
によって行われ、
前記方法はさらに、
プロファイリングトラフィックを所定の持続時間の間、前記ネットワークに送信するよう、前記機械学習アクセラレータ上でプロセスを実行することと、
各ポートについて、受信されたトラフィックパケットの数を決定することと、
前記共有メモリの部分を前記複数のポートの各ポートに再アロケートすることとを含み、
前記再アロケートすることは、
受信されたトラフィックパケットの前記数に比例する各ポートについてのメモリアロケーションを決定することと、
決定された前記メモリアロケーションについて、各ポートに前記共有メモリの前記開始アドレスおよび前記停止アドレスを再割り当てすることと
によって行われる、方法。
前記共有メモリの前記開始アドレスおよび前記停止アドレスを各ポートに割り当ておよび再割り当てすることは、ＡＳＩＣとは異なるデバイスによって、アプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む、請求項８に記載の方法。
前記ＡＳＩＣ上でプロセスを実行することを含み、前記プロセスは、前記機械学習アクセラレータ通信ネットワークおよびアロケートされた前記共有メモリを使用する、請求項８に記載の方法。
前記プロセスは、ニューラルネットワークを訓練することを含む、請求項１０に記載の方法。
前記ＡＳＩＣは、テンソルプロセッシングユニット（ＴＰＵ）である、請求項８に記載の方法。
決定された前記ＲＴＴ遅延に比例するメモリアロケーションは、

に基づいて決定される、請求項８に記載の方法。
受信されたパケットの数に比例する各ポートについてのメモリアロケーションは、

に基づいて決定される、請求項８に記載の方法。
ＲＴＴ遅延は、レイテンシを決定するよう１つ以上のタイミングメッセージを送信および受信することによって実行前に計算される、請求項８に記載の方法。
前記プロファイリングトラフィックは、
オール・ツー・オールトラフィック、
最近傍トラフィック、または、
合成トラフィックプロファイル
のうちの少なくとも１つである、請求項８に記載の方法。
機械学習アクセラレータ通信ネットワークのための、コンピュータによって実現されるメモリアロケーション方法であって、前記方法は、
機械学習アクセラレータ特定用途向け集積回路（ＡＳＩＣ）のネットワークのためのネットワークトポロジを決定することと、
各ＡＳＩＣの複数の通信ポートに関連付けられるメタデータにアクセスすることとを含み、前記メタデータは、前記複数のポートの各ポートについて、それぞれのポートが、現在の構成において使用されるか否かと、前記それぞれのポートに関連付けられる通信媒体とを識別し、
前記方法はさらに、
前記ネットワークトポロジにおいて使用される各ポートについて、ラウンドトリップタイム（ＲＴＴ）遅延を決定することと、
前記複数のポートの各ポートに共有メモリの部分をアロケートすることとを含み、
前記アロケートすることは、
前記ＲＴＴ遅延に比例する各ポートについてのメモリアロケーションを決定することと、
決定された前記メモリアロケーションについて、前記共有メモリの開始アドレスおよび停止アドレスを各ポートに割り当てすることと、
によって行われ、
前記方法はさらに、
ＡＳＩＣ上でプロセスを実行することを含み、前記プロセスは、アロケートされた前記共有メモリとともに前記機械学習アクセラレータ通信ネットワークを使用し、
前記方法はさらに、
前記プロセスの実行中、
第１の期間にわたって前記複数のポートの各ポートにおいて受信されたメッセージパケットの数を決定することと、
各ポートにおいて受信されたメッセージパケットの前記数に基づいて、前記複数のポートの各ポートについて前記共有メモリの所望の部分サイズを決定することと、
第２の期間の間、前記プロセスを休止することと、
前記共有メモリは保留中のメッセージパケットについてクリアであると決定することと、
前記所望の部分サイズについて、各ポートに前記共有メモリの前記開始アドレスおよび前記停止アドレスを再割り当てすることと、
前記プロセスの実行を再開することと、
を含む、方法。
前記共有メモリの前記開始アドレスおよび前記停止アドレスを各ポートに割り当ておよび再割り当てすることは、ＡＳＩＣとは異なるデバイスによって、アプリケーションプログラミングインターフェイス（ＡＰＩ）を呼び出すことを含む、請求項１７に記載の方法。
前記ＡＳＩＣは、テンソルプロセッシングユニット（ＴＰＵ）である、請求項１７に記載の方法。
前記プロセスは、ニューラルネットワークを訓練することを含む、請求項１７に記載の方法。