JP7413549B2

JP7413549B2 - 並列ロードストアを有する共有スクラッチパッドメモリ

Info

Publication number: JP7413549B2
Application number: JP2022545416A
Authority: JP
Inventors: ノリー，トーマス; フェルプス，アンドリュー・エバレット; ジョピー，ノーマン・ポール; ヘッドルンド，マシュー・リーバー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-01-27
Filing date: 2021-01-26
Publication date: 2024-01-15
Anticipated expiration: 2041-01-26
Also published as: EP3859612A1; CN115087991A; US20240160909A1; TW202134956A; TWI782403B; US20210232898A1; US11922292B2; KR20220116050A; WO2021154732A1; JP2023512195A

Description

関連出願の参照
本願は、米国仮出願第６２／９６６５１８号（２０２０年１月２７日出願）の利益を主張する米国特許出願第１５／９３１９７０号（２０２０年５月１４日出願）の利益を主張し、その内容は、参照により本明細書に組み込まれる。

背景
本明細書は、一般的に、ニューラルネットワーク計算を実行するために使用されるハードウェア回路の回路構成に関する。

ニューラルネットワークとは、１つ以上の層のノードを用いて、受信した入力に対する出力、例えば分類を生成するための機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて、１つ以上の隠れ層を含む。各隠れ層の出力は、ネットワーク内の１つ以上の他の層、例えば、ネットワークの他の隠れ層または出力層への入力として使用される。ネットワークのいくつかの層は、各パラメータセットの現在値に従って、受信した入力から出力を生成する。いくつかのニューラルネットワークは、画像処理を行うために構成された畳み込みニューラルネットワーク（ＣＮＮ）、または音声および言語処理を行うために構成されたリカレントニューラルネットワーク（ＲＮＮ）である。

ＣＮＮのニューラルネットワーク層は、パラメータまたは重みに対応し得る関連するカーネルセットを有することができる。関連するカーネルセットを用いて、ニューラルネットワーク層を介して入力（例えば、入力バッチ）を処理することによって、ニューラルネットワーク推論を計算するための層に対応する出力を生成する。入力バッチおよびカーネルセットは、それぞれ、入力および重みのテンソルとして表すことができる。テンソルは、多次元アレイに対応することができる。ニューラルネットワークを実装するためのハードウェア回路は、アドレス値によって特定された位置を有するメモリを含む。メモリ位置は、テンソル要素に対応してもよい。テンソル要素は、回路の制御ロジックを用いてトラバースまたはアクセスされてもよい。例えば、制御ロジックは、要素に対応するデータ値をロードまたは記憶する要素のメモリアドレス値を決定または計算することができる。

概要
本明細書は、改良されたアーキテクチャを有するハードウェア回路を記載する。この回路は、回路の複数のプロセッサコア間で共有するために割り当てられたスタティックランダムアクセスメモリ（ＳＲＡＭ）のリソースを含む。より具体的には、この回路は、一般的に、高帯域幅メモリ（ＨＢＭ）と専用プロセッサの少なくとも２つのプロセッサコアとの間に配置され得る共有メモリを含む。この共有メモリは、プロセッサコアの特定の計算リソースに対して物理的におよびロジック的に配置されたリソース、例えばメモリバンクおよびレジスタを含む。共有メモリのリソースを物理的におよびロジック的に配置することによって、ＨＢＭとハードウェア回路の各プロセッサコアとの間、単一のプロセッサコアの別個のリソースの間、または２つの別個のプロセッサコアの各リソースの間のデータ通信の速度およびスループットを増加することができる。

本明細書に記載された主題の一態様は、複数のニューラルネットワーク層を含むニューラルネットワークを実装するように構成された回路として具体化されてもよい。この回路は、ニューラルネットワークの層の出力を生成するための計算を実行するためのデータを提供するように構成された第１のメモリと、第１のメモリによって提供されたデータから得られた第１のベクトル値を記憶するように構成された第１のベクトルメモリを含む第１のプロセッサコアと、第１のメモリによって提供されたデータから得られた第２のベクトル値を記憶するように構成された第２のベクトルメモリを含む第２のプロセッサコアと、第１のメモリと第１のプロセッサコアまたは第２のプロセッサコアの少なくとも１つとの間に配置された共有メモリとを含む。共有メモリは、共有メモリと第１のベクトルメモリまたは第２のベクトルメモリとの間にデータ通信をルーティングするように構成されたダイレクトメモリアクセス（ＤＭＡ）データ経路と、共有メモリと第１のプロセッサコアまたは第２のプロセッサコアの各ベクトルレジスタとの間にデータ通信をルーティングするように構成されたロードストアデータ経路とを含む。

これらおよび他の実装形態の各々は、必要に応じて、以下の特徴のうちの１つ以上を含むことができる。例えば、いくつかの実装形態において、回路は、複数のプロセッサコアを含み、第１のプロセッサコアおよび第２のプロセッサコアは、複数のプロセッサコアに含まれ、共有メモリは、回路の周囲に物理的に分散され、回路の複数のプロセッサコアの各々とデータ通信を交換するための複数のメモリリソースを含む。

いくつかの実装形態において、共有メモリは、共有メモリ制御ユニットを含み、共有メモリ制御ユニットは、複数のメモリリソースの第１の部分を、第１のメモリと第１のプロセッサコアおよび第２のプロセッサコアの各々との間のデータを移動するように動作可能なＤＭＡメモリユニットとして機能させるソフトウェア命令を実行するように構成されている。複数のメモリリソースは、ロードストアデータ経路に沿ってルーティングされるデータ値を受信し、閾値数のプロセッササイクルの間にデータ値を一時的に記憶するように構成された第２のリソース部分を含む。

第２のリソース部分は、閾値数のプロセッササイクルの間にデータ値を一時的に記憶することに応答して、データ値を第１のプロセッサコアまたは第２のプロセッサコアの各ベクトルレジスタに提供するように構成されてもよい。いくつかの実装形態において、共有メモリは、共有メモリの一部のメモリリソースから形成されたソフトウェア制御ステージングリソースを含み、ソフトウェア制御ステージングリソースは、第１のメモリから第１のプロセッサコアまたは第２のプロセッサコアの各ベクトルレジスタへのデータ値フローを管理するために使用される。

いくつかの実装形態において、回路は、行列計算ユニットを含み、行列計算ユニットは、ニューラルネットワークの層の出力を生成するために使用される計算の一部を実行することによって累積値を生成するように構成されている。ソフトウェア制御ステージングリソースは、ソフトウェア制御ステージングリソースは、第１のメモリから行列計算ユニットへのベクトル配列に対応するデータフローを管理するために使用されてもよく、ベクトル配列は、第１のメモリによって提供されたデータ値から得られる。いくつかの実装形態において、回路は、第１のメモリと通信するベクトル処理ユニットを含み、ベクトル処理ユニットは、回路によって生成された累積値からベクトルアクティブ化値を生成するように構成され、ベクトルアクティブ化値は、ニューラルネットワークの層の出力に対応する。

ソフトウェア制御ステージングリソースは、ロードストアデータ経路のロードセクションに沿った先入れ先出し（ＦＩＦＯ）メモリ構造であってもよく、ＦＩＦＯメモリ構造は、ベクトル値を第１のプロセッサコアまたは第２のプロセッサコアの各ベクトルレジスタにルーティングする前に、閾値数のプロセッササイクルの間にベクトル値を一時的に記憶するように構成されている。いくつかの実装形態において、共有メモリは、複数のプロセッサコアのうちの１つ以上のプロセッサコア間で共有されるメモリバンクに対応するメモリリソースを含む共有グローバルメモリ空間として機能するように構成されている。

いくつかの実装形態において、第１の層の出力を生成するための計算を実行するためのデータは、ニューラルネットワークの第１の層を介して処理される入力と、ニューラルネットワークの第１の層の各重みセットと、第１の層の各重みセットを用いて、第１の層を介して、１つ以上の入力を処理することによって、第１の層の出力を生成するための命令とを含む。

本明細書に記載された主題の一態様は、複数のニューラルネットワーク層を含むニューラルネットワークを実装するように構成された回路を用いて、ニューラルネットワークの層の出力を生成するための計算を実行するための方法として具体化されてもよい。この方法は、ニューラルネットワーク層の出力を生成するために使用されるデータを第１のメモリから提供することと、回路の第１のプロセッサコアの第１のベクトルメモリを用いて、ベクトル値を第１のプロセッサコアに記憶することとを含み、第１のベクトルメモリは、第１のメモリによって提供されたデータから得られた第１のベクトル値を記憶するように構成されている。

この方法は、回路の共有メモリのダイレクトメモリアクセス（ＤＭＡ）データ経路を用いて、少なくとも第１のベクトル値を含むデータ通信を共有メモリと第１のベクトルメモリとの間にルーティングすることと、共有メモリのロードストアデータ経路を用いて、第２のベクトル値を含むデータ通信を共有メモリと第１のプロセッサコアの各ベクトルレジスタとの間にルーティングすることと、共有メモリのロードストアデータ経路およびＤＭＡデータ経路に沿って各々並列にルーティングされた第１のベクトル値および第２のベクトル値を用いて、ニューラルネットワーク層の出力に対応する累積値を生成することとを含む。

この態様および他の態様の他の実装形態は、対応するシステム、装置、および方法の動作を実行するように構成され、コンピュータ記憶装置上にエンコードされたコンピュータプログラムを含む。１つ以上のコンピュータのシステムは、システム上にインストールされ、動作時にシステムに動作を実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせによって構成されてもよい。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると、データ処理装置に動作を実行させる命令を含むように構成されてもよい。

本明細書に記載された主題は、以下の利点のうちの１つ以上を実現するように特定の実施形態において実装されてもよい。

共有メモリは、従来方法に比べて、ハードウェア回路におけるニューラルネットワーク計算の加速および同時実行を改善するために、ハードウェア回路の２つ以上のプロセッサコアの間で効率的に共有され得るメモリ構造を提供する。この共有メモリは、直接メモリアクセスおよびロード／ストア動作用のデータを共有メモリからプロセッサコアに移動するための配線の一部（または全て）が共有されるように、特定のリソースが実質的にプロセッサコアの外部に位置するように構成されてもよい。このことは、様々なデータを転送するための専用配線を必要とする他の方法に比べて、帯域幅の利用率および効率を改善することができる。

この共有メモリは、ロードストアデータ経路を含み、ロードストアデータ経路は、ベクトル配列をオンチップベクトルレジスタのメモリ位置にロード／書き込むために、ベクトルメモリマクロを介してデータをルーティングする必要がないため、より高いピーク性能を提供する。ベクトルレジスタに一体化され得る追加の利用可能なレジスタポートによって、改善された共有メモリのアーキテクチャおよびリソースを用いて、ベクトルレジスタに対するロードおよびストアをベクトルメモリのロードおよびストアと並列に実行することができる。

回路アーキテクチャおよび技法を用いて、ニューラルネットワークプロセッサの共有ＳＲＡＭリソースを単一の回路パッケージに一体化し、効率的に構造化することができる。共有ＳＲＡＭリソースの一体化および効率的な構造化は、追加のデータ値を取得するためのオフチップ通信のペナルティを被ることなく、推論を計算することを可能にする。

本明細書に記載された主題の１つ以上の実装形態の詳細は、添付の図面および以下の説明において説明される。主題の他の可能な特徴、態様および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

例示的な共有メモリを含むハードウェア回路を備えるコンピューティングシステムを示すブロック図である。ハードウェア回路の例示的な共有メモリと通信する例示的なプロセッサコアを示すブロック図である。ハードウェア回路の例示的な行列計算ユニットと通信する例示的なベクトルプロセッサを示すブロック図である。共有メモリをハードウェア回路の１つ以上のベクトルプロセッサに結合するための例示的な有線接続を示す図である。図１の共有メモリを用いてニューラルネットワーク計算を加速するための例示的なプロセスを示すフロー図である。

詳細な説明
様々な図面において、同様の参照番号および名称は、同様の要素を示す。

本明細書は、従来の設計に比べて改善されたハードウェア回路のアーキテクチャを用いて実装されるハードウェア回路およびデータ処理技術を説明する。ハードウェア回路は、専用プロセッサ、例えば、ニューラルネットワークプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、またはハードウェアアクセラレータであってもよい。ハードウェア回路は、複数のニューラルネットワーク層を含むニューラルネットワークを実装するように構成されている。本明細書に記載の改善されたアーキテクチャおよびデータ処理技術によって、ハードウェアアクセラレータを表す回路は、ＣＮＮ、ＲＮＮ、または他の種類のニューラルネットワーク層を介して入力を処理することによってニューラルネットワーク推論に対応する出力を生成するための計算を含む、例示的なニューラルネットワークモデルの計算を加速する時に、速度および帯域幅を増加することができる。

回路は、一般的に、第１のメモリと、第１のプロセッサコアと、第２のプロセッサコアと、共有メモリとを含む。第１のメモリは、ニューラルネットワーク層の出力を生成するための計算を実行するためのデータを提供する。第１のプロセッサコアおよび第２のプロセッサコアの各々は、第１のメモリによって提供されたデータから得られた入力および重みを用いて、ニューラルネットワーク計算を実行するように構成されたテンソルプロセッサコアであってもよい。例えば、第１のプロセッサコアおよび第２のプロセッサコアは、第１のメモリによって提供された入力テンソルおよび重み／パラメータテンソルから各々得られた入力ベクトルおよび重みベクトルを用いて、ニューラルネットワーク計算を実行することができる。

第１のコアおよび第２のコアの各々は、ベクトルメモリに渡されたベクトル値を記憶するように構成されたベクトルメモリを含む。ベクトル値は、第１のメモリによって提供されたデータから得られ、共有メモリを介してベクトルメモリに渡される。共有メモリは、一般的に、第１のメモリと少なくとも１つのプロセッサコアとの間に配置される。共有メモリは、ｉ）データを共有メモリと第１のコアおよび第２のコアの各々のベクトルメモリとの間にルーティングするように構成されたダイレクトメモリアクセス（ＤＭＡ）データ経路と、ｉｉ）データを共有メモリと第１のコアおよび第２のコアの各々のベクトルレジスタとの間にルーティングするように構成されたロードストアデータ経路とを含む。ＤＭＡデータ経路とロードストアデータ経路との組み合わせは、ニューラルネットワーク計算を実行するための回路の計算アレイにベクトル値を提供するために同時に使用され得る並列データ経路を提供することによって、従来の設計に比べて帯域幅を増加することができる。

図１は、例示的なハードウェア回路１０１を含むコンピューティングシステム１００を示すブロック図である。上述したように、ハードウェア回路１０１は、ハードウェアアクセラレータまたは他の専用プロセッサを表すことができる。場合によっては、システム１００は、ＲＮＮまたはＣＮＮなどの人工深層ニューラルネットワーク（ＤＮＮ）に関連するテンソル計算またはニューラルネットワーク計算を加速するための例示的なコンピューティングシステムである。例えば、システム１００は、例示的なハードウェアアクセラレータ上でＣＮＮを実装し、データ値をハードウェアアクセラレータに渡すことによって、推論を計算するための出力を生成するように構成されている。

いくつかの実装形態において、システム１００は、システムオンチップである。例えば、このシステムオンチップは、ハードウェア回路１０１と、システム１００に含まれるものとして本明細書に記載された他のコンポーネントおよび装置の一部（または全て）とを含んでもよい。

ハードウェア回路１０１は、ニューラルネットワークモデルの実行および／または性能を加速するように構成されたハードウェアアクセラレータであってもよい。例えば、ニューラルネットワークモデルの実行は、中央処理装置（ＣＰＵ）などの例示的な汎用マシン上のモデルの実行に比べて加速されてもよい。同様に、ニューラルネットワークモデルの性能および実行は、本明細書に記載の改善されたハードウェア特徴および技法を有しないグラフィックス処理ユニット（ＧＰＵ）などの別のハードウェアアクセラレータ上に実装されたモデルに比べて加速されてもよい。

回路１０１を含むシステム１００は、システムメモリ１０２および共有メモリ１０４を含む。システムメモリ１０２は、ハードウェア回路１０１のプロセッサコア１０５－１、１０５－２とデータ通信を交換するための高帯域幅メモリ（ＨＢＭ１０２）または入力／出力（Ｉ／Ｏ）装置を表すことができる。データ通信は、一般的に、特定のプロセッサコア１０５－１、１０５－２に配置されたベクトルメモリ１０６、１０８にデータ値を書き込むこと、または特定のプロセッサコアのベクトルメモリ１０６、１０８からデータを読み取ることを含むことができる。例えば、ＨＢＭ１０２は、プロセッサコア１０５－１とデータ通信を交換することによって、入力を当該コアに渡し、当該コアの１つ以上のコンピューティングリソースによって生成された出力を受信することができる。いくつかの実装形態において、システムメモリ１０２は、ＨＢＭ、ＤＲＡＭ、ＤＩＭＭＳ、または非ＤＲＡＭ技術を含む、異なる種類のメモリシステムおよびメモリ技術を表す。

データ値は、ベクトル要素またはベクトル値の配列を表すことができる。例えば、第１のベクトル配列は、ニューラルネットワーク層を介して処理される入力バッチを表すことができ、第２のベクトル配列は、当該ニューラルネットワーク層の重みセットを表すことができる。同様に、第３のベクトル配列は、プロセッサコア１０５－１によって生成された出力に対応するベクトル累積値を表すことができ、第４のベクトル配列は、プロセッサコア１０５－２によって生成された出力を表すベクトルアクティブ化値を表すことができる。

ＨＢＭ１０２は、システム１００のダイナミックランダムアクセスメモリ（ＤＲＡＭ）アセットであってもよい。いくつかの実装形態において、ＨＢＭ１０２は、回路１０１に対して外部メモリまたはオフチップメモリであり、システム１００の（以下で説明される）オンチップベクトルメモリバンクとデータ通信を交換するように構成されている。例えば、ＨＢＭ１０２は、回路１０１を表す集積回路ダイの外部の物理位置に配置されてもよい。したがって、ＨＢＭ１０２は、集積回路ダイ内に配置されたコンピューティングリソースに対して遠隔または非局所的であってもよい。代替的には、ＨＢＭ１０２またはそのリソースの一部は、回路１０１を表す集積回路ダイ内に配置されてもよい。これによって、ＨＢＭ１０２は、回路のコンピューティングリソースと同一場所に、または共同に設置される。

システム１００は、１つ以上のプロセッサコア１０５－１、１０５－２を含むことができる。いくつかの実装形態において、システム１００は、複数のプロセッサコア１０５－ｎ（ｎは、１以上の整数である）を含む。図１の例および以下で説明する図２および３の例において、システム１００は、２つのプロセッサコアを含むものとして示されている。しかしながら、本明細書に記載のハードウェア回路１０１を含むシステム１００は、より多くのまたはより少ないプロセッサコアを含んでもよい。いくつかの例において、共有メモリ１０４、そのメモリリソースおよび異なるデータ経路に関連する技術は、単一のプロセッサコアの構成要素およびリソースによって共有されてもよい。一般的に、プロセッサコア１０５－ｎは、システム１００（またはハードウェア回路１０１）の個別な自己完結型処理／計算ユニットである。

各プロセッサコア１０５は、多層ニューラルネットワークの１つ以上の層に必要とされる計算（例えば、ニューラルネットワーク計算）を独立して実行するように構成されている。これらの計算は、機械学習ワークロード用のデータを処理するためにまたはワークロードの特定のタスクを実行するために必要とされてもよい。１つ以上のニューラルネットワーク層を介して入力を処理するためにプロセッサコア上で実行された計算は、第１セットのデータ値（例えば、入力またはアクティブ化値）と第２セットのデータ値（例えば、重み）との乗算を含んでもよい。例えば、計算は、１つ以上のサイクルにて入力またはアクティブ化値に重み値を乗算すること、および多くのサイクルにわたって積の累積を実行することを含むことができる。各コア１０５は、一般的に、これらの計算を実行するために使用される行列計算ユニット、および必要に応じてベクトル処理ユニットを含むことができる。これらのユニットは、図３を参照して以下でより詳細に説明される。

第１セットのデータ値および第２セットのデータ値中の異なる値は、ハードウェア回路１０１のプロセッサコア内のメモリ構造の特定のメモリ位置に記憶される。いくつかの実装形態において、第１セットのデータ値の各々の値は、入力テンソルの各々の要素に対応してもよく、第２セットのデータ値の各々の値は、重み（またはパラメータ）テンソルの各々の要素に対応してもよい。一例として、一連の層のうちのニューラルネットワーク層は、入力セット、例えば、一連の層のうちの別のニューラルネットワーク層によって生成された画像ピクセルデータまたはアクティブ化値の入力を処理することができる。

入力セットまたはアクティブ化値セットは、１次元（１Ｄ）テンソルまたは各々の次元に沿った複数の要素を有する多次元（例えば、２Ｄまたは３Ｄ）テンソルとして表すことができる。データ値を記憶する各メモリ位置は、１次元テンソルまたは多次元テンソルの対応する要素にマッピングされてもよく、テンソル要素は、回路の制御ロジックを用いてトラバースまたはアクセスされてもよい。例えば、制御ロジックは、要素に対応するデータ値をロードまたは記憶するために、当該要素にマッピングされたメモリアドレス値を決定または計算することができる。

ハードウェア回路１０１は、異なるメモリ構造を含む特殊なメモリ階層を有する。これらのメモリ構造の各々は、他の構造に対して、様々な帯域幅および遅延特性を有してもよく、ハードウェア回路１０１内の物理配置も変動してもよい。例示的なメモリ構造は、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２を含む。一般的に、メモリ構造は、ニューラルネットワーク層において処理される入力値、アクティブ化値または利得値に関連するベクトル値などのデータ値、および層を介して入力値またはアクティブ化値を処理することに応答してニューラルネットワーク層によって生成された出力アクティブ化値を記憶するように動作可能である。出力アクティブ化値の生成および記憶、並びにこれらの動作を実行するために使用される様々なメモリ構造は、図２および図３を参照して以下でより詳細に説明される。

図２は、ハードウェア回路の様々なコンポーネント間のデータ通信を容易にするために、ハードウェア回路１０１に配置された共有メモリ１０４の例示的なリソースまたはセクションを示すブロック図２００である。上述したように、共有メモリ１０４は、システム１００の改善されたハードウェアアーキテクチャおよびデータ処理技術の基礎を提供する。共有メモリ１０４は、例示的なニューラルネットワークプロセッサチップのオンチップＳＲＡＭリソースを表すことができる。いくつかの実装形態において、共有メモリ１０４は、（例えば、一般的にまたは実質的に）ＨＢＭ１０２とプロセッサコア１０５－１のベクトルメモリ１０６およびプロセッサコア１０５－２のベクトルメモリ１０８との間に配置される。

共有メモリ１０４は、チップまたは回路１０１上の共有中央スペースを表すことができる。例えば、共有メモリ１０４は、システム１００に存在し得るおよび／またはハードウェア回路１０１に含まれ得る複数のプロセッサコアの中で、１つ以上のプロセッサコア１０５－１、１０５－２の間で共有されるメモリバンクおよびレジスタに対応するメモリリソースを含む共有グローバルメモリスペースとして機能するように構成されている。以下でより詳細に説明するように、共有メモリ１０４は、ソフトウェア制御スクラッチパッドメモリ（scratchpad memory）として機能するように構成されている。いくつかの実装形態において、共有メモリ１０４のリソースの一部（または全て）は、ハードウェア管理キャッシュではなく、ソフトウェア制御スクラッチパッド（ステージングリソース）として機能するように構成されている。他の実装形態において、共有メモリ１０４の一部のメモリリソースは、ハードウェア管理キャッシュとして機能または動作するように構成されると共に、共有メモリ１０４のいくつかのメモリリソース（例えば、残りのリソース）は、ソフトウェア制御スクラッチパッドとして機能するように構成されている。例えば、システム１００は、ハードウェア管理キャッシュとして動作することできる一部のリソースを割り当てると共に、残りの共有メモリ１０４をソフトウェアスクラッチパッドとして使用することができる。

システム１００は、共有メモリ１０４によって提供されたデータ転送機能を活用するために、少なくとも２つのプログラミングインターフェイスをユーザに公開するように構成されている。第１のインターフェイスは、プログラマブルＤＭＡデータ転送機能および動作を公開し、異なる第２のインターフェイスは、プログラマブルロード／ストアデータ転送機能および動作を公開する。これらのインターフェイス機能の各々は、以下でより詳細に説明される共有メモリ１０４のロジック属性を表す。

上述したように、システム１００のメモリ構造は、様々な帯域幅および遅延特性を有する。例えば、共有メモリ１０４は、ＨＢＭ１０２のＤＲＡＭへのアクセスよりも高い帯域幅および低い遅延を有してもよく、ベクトルメモリ１０６、１０８へのアクセスよりも低い帯域幅および高い遅延を有してもよい。いくつかの例において、共有メモリ１０４は、ＨＢＭ１０２のＤＲＡＭアセットよりも低いデータ容量を有するが、プロセッサコアの各ベクトルメモリよりも高いデータ容量を有する。一般的に、これらの様々な帯域幅および遅延特性は、標準的なメモリ階層トレードオフを表す。

また、システム１００のメモリ構造、特に共有メモリ１０４は、ハードウェア回路１０１内の物理配置も変動してもよい。共有メモリ１０４は、プロセッサコア１０５－１、１０５－２の特定の計算リソースの配置に対して物理的におよびロジック的に配置され得るリソース、例えばメモリバンクおよびレジスタを含む。この文脈において、共有メモリ１０４は、一般的に、その物理構造およびロジック構造に準拠して特徴付けられてもよい。まず、共有メモリ１０４の物理構造を説明し、そのロジック構造を以下で説明する。

共有メモリ１０４のリソースは、その物理構造に関して、ハードウェア回路１０１上に物理的に分散されてもよい。例えば、システム１００において異なる種類のデータ転送動作および処理技術を実行できるように、共有メモリ１０４を形成するリソースの異なるサブセット、異なる部分、または異なるセクションは、回路１０１の様々な位置に物理的に分散されてもよい。いくつかの実装形態において、共有メモリ１０４の１つのリソースセクションは、回路１０１のプロセッサコアの内部に配置されてもよく、別のリソースセクションは、回路１０１のプロセッサコアの外部に配置されてもよい。図２の例において、ＨＢＭ１０２のメモリ位置と共有メモリ１０４のメモリ位置との間に大きなデータブロックを移動するＤＭＡ動作を可能にするように、共有メモリ１０４のセクションは、各プロセッサコア１０５－１、１０５－２の外部に配置される。

再びＨＢＭ１０２を簡単に参照して、この種類のシステムメモリは、システム１００によって使用され、高帯域幅データを各プロセッサコアのベクトルメモリに提供するためおよび／または各プロセッサコアのベクトルメモリと交換するための外部メモリ構造であってもよい。いくつかの実装形態において、ＨＢＭ１０２は、様々なダイレクトメモリアクセス（ＤＭＡ）動作のために、回路１０１のプロセッサコア内のベクトルメモリのメモリアドレス位置からデータを取得するまたはデータを当該メモリアドレス位置に提供するように構成されている。より具体的には、ＨＢＭ１０２がベクトルメモリ１０６、１０８とデータを交換することを含むＤＭＡ動作は、共有メモリ１０４の例示的な制御方式およびメモリリソースによって可能になる。

図２および（後述する）図３の例において、共有メモリ１０４は、共有メモリ制御ユニット２０１（制御ユニット２０１）を含む。制御ユニット２０１は、ＨＢＭ１０２、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２の各々に関与するメモリアクセス動作を制御するための制御信号１１４を生成するように構成されている。

制御ユニット２０１は、システム１００の異なるメモリ（例えば、ＨＢＭ１０２、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２）にわたって分散される制御方式を実施する。いくつかの実装形態において、この制御方式は、制御ユニット２０１と各メモリの制御ユニットとの間の通信に基づいて、異なるメモリにわたって分散される。例えば、制御方式は、これらの異なるメモリの各々の制御ユニットによってローカルに処理され、制御ユニット２０１によって提供された制御信号に基づいて、これらの異なるメモリにわたって分散されてもよい。

データ経路を共有することによって、ＨＢＭ１０２とプロセッサコア１０５－１、１０５－２の各ベクトルメモリとの間にデータを移動することができる。これによって、システム１００は、所定のメモリまたはデータ経路に必要な任意の（および全ての）制御ユニットを起動させて、適切なタッチポイントで発生する必要があるデータハンドオフを管理する。制御ユニット２０１は、ソフトウェア命令を実行し、共有メモリ１０４のメモリリソースの第１の部分をＤＭＡメモリユニットとして機能させるための制御信号を生成するように構成されている。

第１のリソース部分は、プロセッサコア１０５－１に準拠する共有コアデータ経路２０４によって表されてもよく、プロセッサコア１０５－２に準拠する共有コアデータ経路２２４によって表されてもよい。この代表的なＤＭＡメモリユニットは、制御ユニット２０１によって生成された制御信号に基づいて、ＨＢＭ１０２と第１のプロセッサコア１０５－１および第２のプロセッサコア１０５－２との間にデータを移動することができる。

例えば、制御信号は、ａ）データ経路２０２、共有コアデータ経路２０４またはデータ経路２０６を使用する共有メモリ１０４およびベクトルメモリ１０６のメモリ位置と、ｂ）データ経路２２２、共有コアデータ経路２２４またはデータ経路２２６を使用する共有メモリ１０４およびベクトルメモリ１０８のメモリ位置との間に、データブロック（例えば、ベクトル）を移動するＤＭＡ動作を実行するように生成されてもよい。いくつかの実装形態において、共有メモリ１０４は、代替的に、共有ＣＭＥＭ１０４と呼ばれてもよい。

本明細書で使用されるように、ＣＭＥＭは、一般的に、有用な構成、例えばデータバッファおよびオンチップＳＲＡＭ記憶を提供する物理的に連続的なメモリ（ＣＭＥＭ）ブロックに対応する。以下でより詳細に説明するように、システム１００において、ＣＭＥＭリソースブロックは、ハードウェア回路１０１において物理的に分散され、ハードウェアアクセラレータまたは他の種類の専用プロセッサとして構成され得るプロセッサコアのコンポーネント間で共有されるように構成されている。共有コアデータ経路２０４および２２４の各々は、例示的ノードである。これらのノードは、システムのこれらのノードにわたってベクトルデータを移動するための共有データ経路上で発生し得る静的競合を示すことができる。

図２の例で示すように、ハードウェア回路１０１およびシステム１００は、複数のロードストアデータ経路２０２、２０６、複数のＣＭＥＭロードデータ経路２０８、２１４、２２８、２３４、および複数のＣＭＥＭストアデータ経路２１５、２３５を含むように構成されている。また、ハードウェア回路１０１およびシステム１００は、（後述する）複数の共有ステージングブロック２１０、２３０を含む。図２の例において、データ経路２０２、２２２の各々は、ＤＭＡ動作の実行に応答してデータ（例えば、ベクトルまたはスカラー値）をルーティングするためのデータ経路、ＣＭＥＭロード／ストア動作の実行に応答してデータをルーティングするためのデータ経路、またはその両方として構成されてもよい。共有メモリ１０４によってサポートされているＤＭＡ動作およびデータ経路２０２、２０６、２２２および２２６を用いて、特定のメモリオフセットおよびストライドパラメータに準拠して、異なるメモリ構造間でデータを移動することができる。

例えば、システム１００は、共有メモリ１０４を用いて、０ｘ０４のオフセットで１ＭＢのデータを一セットのメモリ位置から別のセットのメモリ位置に移動することを含むＤＭＡ動作を実行するように構成されている。共有メモリ１０４およびシステム１００は、ＤＭＡ動作を実行する時に、様々なストライド機能をサポートするように動作可能である。例えば、１ＭＢのデータを移動するためのＤＭＡ動作は、アドレスベースに対して２００ＫＢ毎にアドレス間隔を挿入するストライド動作を含むことができる。

いくつかの実装形態において、ストライド動作を用いて、データを宛先位置に移動した後、１ＭＢのデータを読み取るために実行される所望の読み取り順序に基づいて、アドレス間隔を挿入する。例えば、１ＭＢのデータブロックは、ニューラルネットワークの異なる層で処理されるデータを読み取るまたは取り出す方法または特定のニューラルネットワーク層の異なるセットのフィルタもしくは重みにわたって処理されるデータを読み取るまたは取り出す方法に対応するストライド動作に基づいて、記憶されてもよい。

また、共有メモリ１０４の制御ユニット２０１は、様々なロードストア動作を実行させるように構成されている。例えば、制御ユニット２０１は、ａ）（コア１０５－１においてロード動作を実行するために）データ経路２０２、共有コアデータ経路２０４またはデータ経路２０８を使用する共有メモリ１０４のメモリ位置および共有ステージングブロック２１０のメモリ位置と、ｂ）（コア１０５－２においてロード動作を実行するために）データ経路２２２、共有コアデータ経路２２４またはデータ経路２２８を使用する共有メモリ１０４のメモリ位置および共有ステージングブロック２３０のメモリ位置との間に、様々な量のデータ（例えば、ベクトルまたはベクトル値）を移動するためのロードストア動作を実行するための制御信号を生成する。

同様に、制御信号は、ａ）（コア１０５－１において記憶動作を実行するために）データ経路２０２、共有コアデータ経路２０４、またはデータ経路２１５を使用する共有メモリ１０４およびベクトルレジスタ１１０のメモリ位置と、ｂ）（コア１０５－２において記憶動作を実行するために）データ経路２２２、共有コアデータ経路２２４、またはデータ経路２３５を使用する共有メモリ１０４およびベクトルレジスタ１１２のメモリ位置との間に、様々な量のデータ（例えば、ベクトルまたはベクトル値）を移動するためのロードストア動作を実行するように生成されてもよい。

共有メモリ１０４のロジック構造を参照して、上述したように、システム１００は、共有メモリ１０４によって提供されるデータ転送機能を活用するために、少なくとも２つのプログラミングインターフェイスをユーザに公開するように構成されている。少なくとも１つのインターフェイスは、共有メモリ１０４のロジック属性を表すことができるプログラマブルＤＭＡ機能を公開し、別のインターフェイスは、共有メモリ１０４のロジック属性を表すことができるプログラマブルＣＭＥＭロード／ストア機能を公開する。ロード／ストアのために、共有メモリ１０４は、ベクトルメモリ１０６、１０８に対して並列メモリとしてロジック的に公開される。このようにして、各ロード－ストアデータ経路は、メモリシステムを介して、例えば各プロセッサコア１０５－１、１０５－２または回路１０１の複数のコアのベクトルレジスタを介して、データブロックまたは特定のデータ断片を移動するための追加の（または並列の）データ経路を提供するように動作可能である。例えば、ロード－ストア動作は、ＤＭＡ動作と同時に、共有メモリ１０４のメモリリソースに対して実行されてもよい。

より具体的には、ＤＭＡデータ経路２０６を用いて共有メモリ１０４のメモリ位置とベクトルメモリ１０６のメモリ位置との間にベクトル値を移動するためにＤＭＡ動作を実行することができ、ＤＭＡ動作と同時に、共有メモリ１０４のメモリ位置と共有ステージングブロック２１０のメモリ位置との間に異なるベクトル値を移動するためのロードストア動作を実行することができる。同様に、プロセッサコア１０５－１のリソースに対応するプロセッサコア１０５－２のリソースを用いて、プロセッサコア１０５－２（または他のコア）において同時動作を実行することができる。

共有メモリ１０４のＣＭＥＭリソースを用いて実行されるロード／ストア動作は、ＤＭＡ動作と比較して、共有メモリ１０４の高性能機能、または共有メモリ１０４を使用する高性能方法を表すことができる。いくつかの実装形態において、制御ユニット２０１は、ソフトウェア命令を実行し、共有メモリ１０４の第２のメモリリソース部分を、ロード／ストア動作を実行するために使用されるソフトウェア制御ステージングリソースとして機能させる制御信号を生成するように構成されている。

第２のリソース部分は、プロセッサコア１０５－１に準拠する共有ステージングブロック２１０によって表され、プロセッサコア１０５－２に準拠する共有ステージングブロック２３０によって表されてもよい。したがって、共有ステージングブロック２１０、２３０の各々は、共有メモリ１０４の一部のメモリリソースから形成されたソフトウェア制御ステージングリソース（またはスクラッチパッド）を表すことができる。いくつかの例において、システム１００のソフトウェア制御ステージングリソースは、ＨＢＭ１０２から第１のプロセッサコア１０５－１のベクトルレジスタ１１０または第２のプロセッサコア１０５－２のベクトルレジスタ１１２へのベクトルデータ値のフローを管理するように構成されている。

共有メモリ１０４およびそのリソースは、例えば、ＨＢＭ１０２またはベクトルメモリ１０６、１０８などのメモリ構造の間にデータを移動するためのＤＭＡメモリとして一意的に構成可能であるという特性を有すると共に、プロセッサコア１０５－１上のベクトルレジスタ１１０またはプロセッサコア１０５－２上のベクトルレジスタ１１２にデータを直接に移動するためのロード／ストアメモリとしても一意的に構成可能であるという特性を有する。共有メモリ１０４のこれらの構成可能な特性によって、コア上で動作するソフトウェアが、細かい粒度で共有メモリ１０４のリソースおよびアドレス指定をスケジュールすることができる。例えば、共有メモリ１０４は、（ハードウェア管理ではなく）ソフトウェア管理ＳＲＡＭリソースであってもよい。このソフトウェア管理ＳＲＡＭリソースにおいて、プロセッサコアのコンパイラは、共有メモリ１０４のメモリアドレス位置に存在し得るデータの種類を含み、そのメモリのアドレス指定を具体的に管理する。

いくつかの実装形態において、共有メモリ１０４のソフトウェア制御ステージングリソースは、データを共有ＣＭＥＭ２０３またはＨＢＭ１０２に記憶するためにルーティングするためのＣＭＥＭストアデータ経路２１５または２３５を含むプロセッサコアのロードストアデータ経路のロードセクションに沿った先入れ先出し（ＦＩＦＯ）メモリ構造（例えば、共有ステージングブロック２１０または２３０）として構成されている。ＦＩＦＯメモリ構造は、第１のプロセッサコア１０５－１のベクトルレジスタ１１０または第２のプロセッサコア１０５－２のベクトルレジスタ１１２に閾値数のプロセッササイクルのデータ値セットをルーティングする前に、このデータ値セットを一時的に記憶するように構成されている。ＦＩＦＯメモリ構造は、特定のロード遅延を有するＣＭＥＭロード動作から生じ得るレジスタ圧力およびスケジューリング複雑さを軽減するために使用される。

いくつかの実装形態において、クロックサイクルの閾値数は、例示的な高遅延（例えば、５０サイクル）ＣＭＥＭロード動作に基づいて決定される。この例示的なＣＭＥＭロード動作では、５０サイクル全体にわたって所定のレジスタを予約することに関連するレジスタ圧力およびスケジューリング複雑さを引き起こす可能性が高い。レジスタ圧力を弱めるまたは軽減するために、ＣＭＥＭ結果ＦＩＦＯ（ＣＲＦ）は、共有メモリ１０４のリソースを用いて、ハードウェア回路１００において物理的にインスタンス化される。図２の例において、第１のＣＲＦは、プロセッサコア１０５－１のステージングブロック２１０によって表され、第２のＣＲＦはステージングブロック２３０によって表される。各ＣＲＦは、例示的なＣＭＥＭ負荷動作を、少なくとも２つの段階、すなわち、ｉ）ＣＭＥＭアドレス情報を提供するＣＭＥＭ－ＣＲＦ段階と、ｉｉ）ベクトルレジスタターゲットを提供するＣＲＦ－レジスタ段階とに分割することができる。

例えば、共有ステージングブロック２１０、２３０の各々は、データ値（例えば、スカラー値またはベクトル値）を受信し、閾値数のプロセッササイクルの間にデータ値を一時的に記憶するように構成されている。プロセッサコア１０５－１において、データ値は、ステージングブロック２１０を共有メモリ１０４の他のメモリ位置に接続するためのロードデータ経路２０８（および共有コアデータ経路２０４）に沿って、共有ステージングブロック２１０にルーティングされる。プロセッサコア１０５－２において、データ値は、ステージングブロック２３０を共有メモリ１０４の他のメモリ位置に接続するためのロードデータ経路２２８（および共有コアデータ経路２２４）に沿って、共有ステージングブロック２３０にルーティングされる。

共有ステージングブロック２１０は、閾値数のプロセッササイクルの間にデータ値を一時的に記憶することに応答して、データ値をプロセッサコア１０５－１のベクトルレジスタ１１０に提供するように構成されている。同様に、共有ステージングブロック２３０は、閾値数のプロセッササイクルの間にデータ値を一時的に記憶することに応答して、データ値をプロセッサコア１０５－２のベクトルレジスタ１１２に提供するように構成されている。

システム１００は、同じサイクルにおいて、複数のＣＭＥＭロード命令を発行するように構成されている。例えば、システム１００は、データ経路２０８（または２１４）および共有ステージングブロック２１０を用いて実行されるＣＭＥＭロード命令を発行し、同じサイクルにおいてデータ経路２１２を用いて実行されるロードをベクトルメモリ１０６に発行することができる。いくつかの例において、ソフトウェア制御の観点から、リソース２１０とベクトルレジスタ１１０との間のデータ経路２１４を横断するＣｍｅｍロード動作と、ベクトルメモリ１０６とベクトルレジスタ１１０との間のデータ経路２１２を横断するＶｍｅｍロード動作とは、それぞれ同じサイクルで発行および実行することができる。いくつかの実装形態において、以前の設計と比較して、ベクトルレジスタ１１０、１１２は、ベクトルレジスタ１１０、１１２が同時ロード動作を受信することを可能にする追加のポートを含むように構成されている。

例えば、ベクトルレジスタ１１２は、プロセッサコア１０５－２において実行される同時ロード動作中に、レジスタがベクトルメモリ１０８および共有ステージングブロック２３０の各々からのベクトルペイロードを受信することを可能にする追加のポートを含むように構成されている。いくつかの例において、ベクトルレジスタ１１０、１１２の各々にロードされるペイロードの単一のデータは、単一のロード動作中にベクトルレジスタ１１０またはベクトルレジスタ１１２に移動され得る最大１２８個のデータ項目に基づいて１２８個の離散ロードを含む。

共有メモリ１０４のＣＭＥＭロード／ストア機能は、ベクトルメモリマクロを介してデータをルーティングする必要がないため、従来の設計と比較してより高いピーク性能を提供することができる。例えば、部分的にはベクトルレジスタ１１０、１１２の追加の利用可能なレジスタポートによって、（データ経路２１５、２３５に沿った）ロードおよびストアは、ベクトルメモリロードおよびストアと並列に実行されてもよい。

いくつかの実装形態において、システム１００は、ベクトルメモリ１０６、１０８を介してデータ経路を横断する時に存在し得る帯域幅制限の一部（または全て）をバイパスする並列インターフェイスを、共有ステージングブロック２１０、２３０の各々に提供する例示的ロードストアインターフェイスを含む。この例示的なロードストアインターフェイスは、例示的なワークロードから追加の性能を抽出することを可能にするより高いメモリ帯域幅を効果的に提供することができる。例えば、システム１００は、共有メモリ１０４のリソース（例えば、ソフトウェア制御ステージングリソース）を用いて様々なロード／ストア動作を実行するように構成され、ロード／ストア動作は、プロセッサコアのベクトルメモリを介してデータを移動することをバイパスするために実行されてもよい。

例えば、ハードウェア回路１０１のコンポーネントは、共有メモリ１０４と通信することによって、共有メモリ１０４のメモリバンクまたはレジスタファイルの単一のアドレス位置からデータを読み取ることができる。いくつかの例において、メモリの単一のアドレスに記憶されたデータは、読み取られ、その単一のデータは、プロセッサコアの内部に位置するレジスタファイルまたはステージングブロックに移動されてもよい。例えば、単一のデータは、さらなる処理のために、共有ＣＭＥＭ１０４のアドレス位置から読み出され、共有コアデータ経路２２４を介して、プロセッサコア１０５－２の共有ステージングブロック２３０のアドレス位置に移動されてもよい。この動作は、ベクトルメモリ１０８を介して、メモリシステムを経由してデータを移動することを回避するために実行され、コア１０５－２のプロセッサクロックサイクルおよびベクトルメモリ１０８に接続するデータ経路の帯域幅を節約することができる。

図３は、ハードウェア回路１０１の例示的な行列計算ユニットと通信する例示的なベクトルプロセッサを示すブロック図である。より具体的には、いくつかの実装形態において、ハードウェア回路１０１の例示的なテンソルプロセッサコア３０２－１は、ベクトル処理ユニット３０４（ベクトルプロセッサ３０４）と、ベクトルプロセッサ３０４に結合される行列計算ユニット３０８とを含む。同様に、ハードウェア回路１０１の別のテンソルプロセッサコア３０２－２は、ベクトルプロセッサ３０６と、ベクトルプロセッサ３０６に結合される行列計算ユニット３０８とを含む。

一般的に、ハードウェア回路１０１は、計算を実行することによって、ニューラルネットワーク層の出力を生成するように構成されている。回路１０１に含まれる行列計算ユニット３０８および３１０の各々は、計算の一部を実行することによって、ニューラルネットワーク層の出力を生成するために使用される累積値を生成するように構成されている。いくつかの実装形態において、上記で説明したソフトウェア制御ステージングリソース（例えば、ステージングブロック２１０、２３０）は、ＨＢＭ１０２から行列計算ユニット３０８、３１０の各々へのベクトルオペランドに対応するデータのフローを管理するように構成されている。場合によっては、オペランドは、ＨＢＭ１０２によって提供される入力および重みである。オペランドは、ベクトルプロセッサ３０４または３０６の演算論理ユニット（ＡＬＵ）を用いて実行されるデータ演算に基づいて、ベクトル配列として構造化されてもよい。

図３の例において、制御ユニット２０１は、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２のメモリ位置から、複数バッチの入力および重みのセットを取り出す（または読み出す）ための動作を管理するための制御信号を生成する。ニューラルネットワーク層を介して、行列計算ユニット３０８、３１０において実行された計算に基づいて、取り出された入力および重みを処理することによって累積値を計算することができる。ベクトルプロセッサ３０４、３０６において累積値を処理することによって、ニューラルネットワーク層の出力に対応するアクティブ化値を生成することができる。制御ユニット２０１によって生成された制御信号を用いて、ベクトルプロセッサ３０４、３０６によって生成された複数セットの出力または出力アクティブ化値を、ＨＢＭ１０２または１つ以上の他のニューラルネットワーク層で処理するためにハードウェア回路１０１の他のメモリ位置に記憶する（または書き込む）。

図４は、共有メモリ１０４を、ハードウェア回路１０１のプロセッサコア３０２－１の１つ以上のベクトルプロセッサ３０４およびプロセッサコア３０２－２の１つ以上のベクトルプロセッサ３０６に結合する例示的な有線接続４００を示す。有線接続４００は、所定のハードウェア回路において利用可能である有線接続またはデータバス接続の総数に対応する特定の物理制限を課す物理構造を表すことができる。例えば、共有メモリ１０４のＣＭＥＭリソース４０２の第１のブロック（バンク＿０）は、有線接続４０４を介して、ＶＰＵリソース４０６の対応するブロックに結合されてもよい。ＶＰＵリソース４０６は、例示的なベクトル処理ユニット、例えばプロセッサコア３０２－１内のベクトルプロセッサ３０４のベクトルレジスタまたはベクトルメモリなどのメモリリソースである。同様に、共有メモリ１０４のＣＭＥＭリソース４１２の第２のブロック（バンク＿１）は、有線接続４１４を介して、ＶＰＵリソース４１６の対応するブロックに結合されてもよい。ＶＰＵリソース４１６は、例示的なベクトル処理ユニット、例えばプロセッサコア３０２－２内のベクトルプロセッサ３０６のベクトルレジスタまたはベクトルメモリなどのメモリリソースである。場合によっては、ＣＭＥＭリソースの所定のブロックを２つの別個のコア上のＶＰＵブロックに接続する時に、ＣＭＥＭリソースおよびＶＰＵブロックを分離する必要があるという制約が存在する。特に、ＣＭＥＭリソースを別個のコアに接続するように構成されている時に、この制約は、ハードウェア回路の物理的空間にわたってＣＭＥＭおよびＶＰＵブロックを分離する必要がある。

いくつかの実装形態において、共有メモリ１０４は、所定のサイズを有し、共有メモリ１０４のリソースブロックおよびプロセッサリソースは、チップまたは回路１０１の特定の物理領域に配置されなければならない。プロセッサコア内でまたはプロセッサコア間でデータを移動することを含む例示的な動作は、データが閾値数のプロセッササイクル内でハードウェア回路１０１のいくつかの物理距離を横断できることを必要とする。共有メモリ１０４の一部のリソースがコア１０５－１、１０５－２の外側に位置し、配線の配置が高価であり得るため、ＤＭＡ動作およびロード／ストア動作のデータを共有メモリ１０４のリソースからプロセッサコア１０５に移動するための配線（例えば、有線接続４０４、４１４）は、共有される。また、これらの配線は、ＨＢＭ１０２とベクトルメモリ１０６、１０８との間のＤＭＡ動作にも使用されてもよい。有線接続を共有することは、帯域幅の利用および効率を改善する。

いくつかの実装形態において、特定のワークロードに適するように配線を節約するために、データを共有ＣＭＥＭ２０３からプロセッサコアのリソースにルーティングするデータ経路は、データをプロセッサコアのリソースから共有ＣＭＥＭ２０３にルーティングするデータ経路の幅の２倍であってもよい。したがって、本明細書に記載された技法は、有線接続の量の特定の物理的な制約および制限に対して共有メモリ１０４のロジック的な利点を達成する際の複雑さと、回路１０１にハードウェアコンポーネントを物理的に配置するためのオプションとを両立させる例示的なハードウェアレイアウトオプションを提供する。

図５は、図１の共有メモリを用いてニューラルネットワーク計算を加速するための例示的なプロセス５００を示すフロー図である。プロセス５００は、上述したシステム１００を用いて実施または実行されてもよい。プロセス５００の説明は、上述したシステム１００のコンピューティングリソースを参照してもよい。プロセス５００のステップまたは動作は、本明細書に記載された装置の１つ以上のプロセッサおよびリソースによって実行可能なプログラムされたファームウェアまたはソフトウェア命令によって可能にされてもよい。いくつかの実装形態において、プロセス５００のステップは、ニューラルネットワークを実装するように構成されたハードウェア回路を用いてニューラルネットワーク層の出力を生成するための計算を実行するための方法に対応する。

プロセス５００を参照して、データをシステム１００のメモリからシステムのハードウェア回路に提供する（５０２）。例えば、システム１００は、データをＨＢＭ１０２からハードウェア回路１０１に提供する。いくつかの実装形態において、データは、ニューラルネットワーク層の出力を生成するために使用される特定のデータ値および命令を含む。ＨＢＭ１０２は、ハードウェア回路１０１のテンソルプロセッサコアとデータ通信を交換するシステムメモリまたは入力／出力（Ｉ／Ｏ）装置を表すことができる。例えば、ＨＢＭ１０２は、テンソルプロセッサコアとデータ通信を交換することによって、入力をテンソルコアに渡し、テンソルコアによって生成された出力を受信することができる。

システム１００は、第１のプロセッサコアのベクトルメモリを用いて、ベクトル値を回路の第１のプロセッサコアに記憶する（５０４）。例えば、システム１００は、テンソルプロセッサコア１０５－１に配置されたベクトルメモリ１０６のメモリアドレス位置を用いて、ニューラルネットワーク層において処理される入力のバッチに対応する入力ベクトルを記憶することができる。ベクトルメモリ１０６は、プロセッサコア１０５－１がＨＢＭ１０２によって提供された入力データから第１のベクトル値を特定するまたは算出することに応答して、第１のベクトル値を記憶するように構成されている。いくつかの実装形態において、ベクトルメモリ１０６は、第１のメモリによって提供されたデータがベクトルメモリ１０６に記憶されるように割り当てられたベクトル値のサブセットを含むと第１のプロセッサコア１０５が決定したことに応答して、第１のベクトル値を記憶する。

第１のベクトル値は、多次元入力テンソルのデータ値を表す様々な要素のうち、一組の要素から直接に使用されてもよく、または一組の要素から算出されてもよい。上述したように、多次元入力テンソルは、ＨＢＭ１０２からの入力データとして提供されてもよい。いくつかの実装形態において、第１のベクトル値は、ＨＢＭ１０２によって提供されたデータから取得、抽出、または算出される、ニューラルネットワーク層の重みセットを表す。第１のベクトル値は、ベクトルメモリ１０６を含むベクトル処理ユニット３０４に値をルーティングしたことに応答して、ベクトルメモリ１０６のメモリ位置に記憶されてもよい。ベクトル処理ユニット３０４およびベクトルメモリ１０６の各々は、プロセッサコア１０５－１の一部として含まれてもよい。

システムメモリによって提供されたデータを回路の共有メモリと回路のベクトルメモリとの間にルーティングする（５０６）。例えば、第１のベクトル値を含むデータ通信は、共有メモリ１０４の少なくともＤＭＡデータ経路２０６を用いて、共有メモリ１０４とプロセッサコア１０５－１のベクトルメモリ１０６との間にルーティングされる。より具体的には、まず、第１のベクトル値を含むデータ通信は、ＨＢＭ１０２によって提供され、次いで共有メモリ１０４の第１のリソース部分を用いて、共有メモリ１０４とベクトルメモリ１０６との間にルーティングされる。いくつかの例において、第１のベクトル値は、ベクトルメモリ１０６と共有メモリ１０４の特定のセクション（またはサブセクション）との間にルーティングされる。

共有メモリ１０４の第１のリソース部分は、データをベクトルメモリ１０６のメモリ位置にロードするためのＤＭＡ動作を実行するように動作可能なＤＭＡメモリユニットとして機能するように構成されている。ＤＭＡ動作は、ベクトル値の配列を取得するために、第１のリソース部分の個々のメモリアドレス位置に対して実行されてもよい。ベクトル値の配列は、共有メモリ１０４のＤＭＡデータ経路２０６を用いて、ベクトルメモリ１０６にルーティングされる。

システムメモリによって提供されたデータを回路の共有メモリと回路の各ベクトルレジスタとの間にルーティングする（５０８）。例えば、第２のベクトル値を含むデータ通信は、共有メモリ１０４の少なくともロードストアデータ経路２０８、２１４を用いて、共有メモリ１０４とプロセッサコア１０５－１のベクトルレジスタ１１０との間にルーティングされる。より具体的には、まず、第２のベクトル値を含むデータ通信は、ＨＢＭ１０２によって提供され、次いで共有メモリ１０４の第２のリソース部分を用いて共有メモリ１０４とベクトルレジスタ１１０との間にルーティングされる。いくつかの例において、第２のベクトル値は、ベクトルレジスタ１１２と共有メモリ１０４の特定のセクション（またはサブセクション）との間にルーティングされる。

いくつかの実装形態において、共有メモリ１０４の第２のリソース部分は、共有メモリ１０４の一部のメモリリソースから形成されるソフトウェア制御ステージングリソースとして構成されている。このソフトウェア制御ステージングリソースは、ｉ）ロードストアデータ経路２０８に沿ってルーティングされたデータ値（例えば、第２のベクトル値）を受信し、ｉｉ）閾値数のプロセッササイクルの間に第２のベクトル値を一時的に記憶し、およびｉｉｉ）閾値数のプロセッササイクルの間にベクトル値を一時的に記憶することに応答して、第２のベクトル値を少なくともプロセッサコア１０５－１の各ベクトルレジスタ１１０に提供するように構成されている。閾値数は、ソフトウェア定義の閾値であってもよい。例えば、閾値数は、命令がプロセッサの例示的な命令ストリームにスケジュールされる時に、ソフトウェアによって具体的に定義されてもよい。

共有メモリ１０４は、第２のベクトル値に対応するベクトル値の配列を、第２のリソース部分に含まれるステージングリソースのメモリ位置にロードするように動作可能である。第２のリソース部分の個々のメモリアドレス位置に対して読み出し動作を実行することによって、第２のベクトル値に対応するベクトル値の配列を取得することができる。これらのベクトル配列は、例えば共有メモリ１０４のロードストアデータ経路２１４を用いて、ベクトルレジスタ１１０にルーティングされる。代替的に、これらのベクトル配列は、共有メモリ１０４のロードストアデータ経路２３４を用いて、ベクトルレジスタ１１２にルーティングされてもよい。

システム１００は、ベクトル値のセットを用いて、ニューラルネットワーク層の出力に対応する累積値を生成する（５１０）。例えば、ハードウェア回路１０１は、プロセッサコア１０５－１のベクトル処理ユニット３０４に結合される行列計算ユニット３０８を含む。システム１００は、行列計算ユニット３０８に各々ルーティングされた第１のベクトル値および第２のベクトル値を用いて、行列計算ユニット３０８に複数の累積値を生成させる。いくつかの実装形態において、第１のベクトル値および第２のベクトル値は、回路の異なるデータ経路に沿って行列計算ユニット３０８に同時にルーティングされる。例えば、ロードストアデータ経路２１４およびＤＭＡデータ経路２０６を用いて、第１のベクトル値のセットおよび第２のベクトル値のセットを行列計算ユニット３０８に各々並列にルーティングすることができる。

本開示に記載された主題および機能的な動作の実施形態は、本開示に開示された構造およびそれらの構造的均等物を含むデジタル電子回路、有形化されたコンピュータソフトウェアまたはファームウェア、コンピュータハードウェア、もしくはそれらの１つ以上の組み合わせにおいて実現することができる。本開示に記載された主題の実施形態は、１つ以上のコンピュータプログラム、すなわち、有形化された非一時的なプログラム担体上にエンコードされ、データ処理装置によって実行されるまたはデータ処理装置の動作を制御するためのコンピュータプログラム命令の１つ以上のモジュールとして実装することができる。

コンピュータ記憶媒体は、機械可読記憶装置、機械可読記憶基板、ランダムまたはシリアルアクセスメモリ装置、またはそれらの１つ以上の組み合わせであってもよい。代替的にまたは追加的には、プログラム命令は、人為的に生成された伝播信号、例えば、データ処理装置による実行のため、情報を適切な受信機に送信するために符号化することによって生成された機械生成電気信号上にエンコードされてもよい。

「コンピューティングシステム」という用語は、データを処理するための全ての種類の機器、装置およびマシン、例えば、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサまたはコンピュータを含む。また、この装置は、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの専用ロジック回路であってもよく、またはそれらをさらに含んでもよい。この装置は、ハードウェアに加えて、コンピュータプログラムの実行環境を生成するコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの１つ以上の組み合わせを構成するコードを含むことができる。

プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとして呼ばれ得るまたは記述され得るコンピュータプログラムは、コンパイル言語またはインタープリタ言語、宣言型言語または手続き型言語を含む任意のプログラミング言語で記述することができ、スタンドアロンプログラムとしてまたはコンピューティング環境内の使用に適したモジュール、コンポーネント、サブルーチン、オブジェクトまたはその他のユニットとしての任意の形で使用することができる。

コンピュータプログラムは、ファイルシステム内のファイルに対応することができるが、必ずしも対応する必要がない。プログラムは、他のプログラムまたはデータ（例えば、マークアップ言語文書に記憶された１つ以上のスクリプト）を保持するファイルの一部、関与しているプログラムに専用の単一ファイル、または複数の同格ファイル（例えば、１つ以上のモジュール、サブプログラムまたはコードの一部を記憶するファイル）に記憶されてもよい。コンピュータプログラムは、１つのコンピュータ上で、または１つのサイトに配置されまたは複数のサイトにわたって分散され、通信ネットワークによって相互接続されている複数のコンピュータ上で動作しているように実装することができる。

本明細書に記載されたプロセスおよびロジックフローは、入力データを処理し、出力を生成することによって機能を実行するように、１つ以上のコンピュータプログラムを実行する１つ以上のプログラム可能なコンピュータによって実行されてもよい。また、プロセスおよびロジックフローは、専用ロジック回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、またはＧＰＧＰＵ（汎用グラフィックス処理ユニット）によって実行されてもよく、装置は、専用ロジック回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、またはＧＰＧＰＵ（汎用グラフィックス処理ユニット）によって実装されてもよい。

コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサまたは専用マイクロプロセッサもしくはその両方、または任意の他の種類の中央処理装置に基づいたものであってもよい。一般的に、中央処理装置は、読み出し専用メモリまたはランダムアクセスメモリもしくはその両方から、命令およびデータを受信する。コンピュータのいくつかの要素は、命令を実行または実行するための中央処理装置と、命令およびデータを記憶するための１つ以上のメモリ装置である。一般的に、コンピュータはまた、データを記憶するための１つ以上の大容量記憶装置、例えば磁気ディスク、磁気光ディスクまたは光ディスクを含むおよび／またはこれらの大容量記憶装置とデータを送受信するように動作可能に結合される。しかしながら、コンピュータは、これらの装置を有する必要がない。さらに、コンピュータは、別の装置、例えば携帯電話、携帯情報端末（ＰＤＡ）、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、または携帯型記憶装置（例えば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ）を含むことができる。

コンピュータプログラム命令およびデータの記憶に適したコンピュータ可読媒体は、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭおよびフラッシュメモリ装置などの半導体メモリ装置、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての種類の不揮発性メモリ、媒体およびメモリ装置を含む。プロセッサおよびメモリは、専用ロジック回路によって補完されてもよく、または専用ロジック回路に組み込まれてもよい。

ユーザとの対話を提供するために、本明細書で説明される主題の実施形態は、ユーザに情報を表示するためのディスプレイ装置、例えばＬＣＤ（液晶ディスプレイ）モニタ、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティング装置、例えばマウスまたはトラックボールを含むコンピュータ上で実装されてもよい。他の種類の装置を用いて、ユーザとの対話を提供することもできる。例えば、ユーザに提供されるフィードバックは、任意種類の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形で受信することができる。また、コンピュータは、ユーザによって使用される装置との間でドキュメントを送受信することによって、例えば、ウェブブラウザから受信した要求に応答して、ユーザクライアント装置上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

本明細書で説明される主題の実施形態は、例えば、データサーバとしてバックエンドコンポーネントを含む、または例えば、アプリケーションサーバ等のミドルウェアコンポーネントを含む、または例えば、フロントエンドコンポーネントを含む、コンピューティングシステムにおいて実装されることができる。グラフィカルユーザインターフェイスを有するクライアントコンピュータ、またはユーザが本明細書に記載される主題の実装と対話することができるウェブブラウザ、または１つ以上のそのようなバックエンド、ミドルウェア、もしくはフロントエンドコンポーネントの任意の組み合わせ。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体、例えば、通信ネットワークによって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）および広域ネットワーク（ＷＡＮ）、例えばインターネットを含む。

コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバとは、一般的に互いに遠隔であり、典型的には通信ネットワークを介して情報交換を行う。クライアントとサーバとの関係は、各々のコンピュータ上で動作しており、互いにクライアント－サーバ関係を有するコンピュータプログラムに依存する。

本明細書は、多くの具体的な実施詳細を含むが、これらの詳細は、発明の範囲または請求可能な範囲を限定するものではなく、むしろ特定の発明の特定の実施形態に特有の特徴の説明として考えるべきである。本開示の個別の実施形態に記載された特定の特徴は、単一の実施形態において組み合わせとして実施することもできる。逆に、単一の実施形態に記載されたさまざまな特徴は、複数の実施形態において、別々にまたは任意の適切なサブ組み合わせで実施することもできる。さらに、上記で特徴を特定の組み合わせで作用するものとして説明したが、このような説明にも拘らず、１つ以上の特徴は、説明した組み合わせから削除されてもよく、説明した組み合わせは、部分組み合わせに変形されてもよい。
同様に、動作が特定の順序で図面に示されているが、望ましい結果を達成するために、図示された順序または順番に従ってこれらの動作を実行する必要があるまたは図示された全ての動作を実行する必要があると理解すべきではない。特定の状況において、マルチ作業および並列処理は、有利である可能性がある。例えば、並列処理を用いて、複数の言語検出メソッドを同時に実行することができる。さらに、上述の実施形態におけるさまざまなシステム要素の分離は、全ての実施形態においてそのような分離が必要であると理解すべきではなく、記載されたプログラム要素およびシステムは、一般的に、単一のソフトウェア製品に一体化されるまたは複数のソフトウェア製品にパッケージ化されることができると理解すべきである。
したがって、主題の特定の実施形態を説明した。他の実施形態は、添付の特許請求の範囲内にある。場合によって、請求項に列挙された動作は、異なる順序で実行され、依然として望ましい結果を達成することができる。さらに、望ましい結果を達成するために、添付の図面に示されるプロセスは、必ずしも示された特定の順序または順番に従う必要がない。特定の実現例において、マルチ作業および並列処理が有利である可能性がある。

Claims

複数のニューラルネットワーク層を含むニューラルネットワークを実装するように構成された回路であって、
前記回路は、
前記ニューラルネットワークの層の出力を生成するための計算を実行するためのデータを提供するように構成された第１のメモリと、
前記第１のメモリによって提供された前記データから得られた第１のベクトル値を記憶するように構成された第１のベクトルメモリを含む第１のプロセッサコアと、
前記第１のメモリによって提供された前記データから得られた第２のベクトル値を記憶するように構成された第２のベクトルメモリを含む第２のプロセッサコアと、
前記第１のメモリと前記第１のプロセッサコアまたは前記第２のプロセッサコアの少なくとも１つとの間に配置された共有メモリとを含み、
前記共有メモリは、
前記共有メモリと前記第１のベクトルメモリまたは前記第２のベクトルメモリとの間にデータ通信をルーティングするように構成されたＤＭＡ（ダイレクトメモリアクセス）データ経路と、
前記共有メモリと前記第１のプロセッサコアまたは前記第２のプロセッサコアの各ベクトルレジスタとの間にデータ通信をルーティングするように構成されたロードストアデータ経路とを含む、回路。
前記回路は、複数のプロセッサコアを含み、
前記第１のプロセッサコアおよび前記第２のプロセッサコアは、前記複数のプロセッサコアに含まれ、
前記共有メモリは、前記回路の周囲に物理的に分散され、前記回路の前記複数のプロセッサコアの各々とデータ通信を交換するための複数のメモリリソースを含む、請求項１に記載の回路。
前記共有メモリは、共有メモリ制御ユニットを含み、
前記共有メモリ制御ユニットは、前記複数のメモリリソースの第１のメモリリソース部分を、前記第１のメモリと前記第１のプロセッサコアおよび前記第２のプロセッサコアの各々との間のデータを移動するように動作可能なＤＭＡ（ダイレクトメモリアクセス）メ
モリユニットとして機能させるソフトウェア命令を実行するように構成されている、請求項２に記載の回路。
前記複数のメモリリソースは、前記ロードストアデータ経路に沿ってルーティングされるデータ値を受信し、閾値数のプロセッササイクルの間に前記データ値を一時的に記憶するように構成された第２のメモリリソース部分を含む、請求項３に記載の回路。
前記第２のメモリリソース部分は、前記閾値数のプロセッササイクルの間に前記データ値を一時的に記憶することに応答して、前記データ値を前記第１のプロセッサコアまたは前記第２のプロセッサコアの前記各ベクトルレジスタに提供するように構成されている、請求項４に記載の回路。
前記共有メモリは、前記共有メモリの一部のメモリリソースから形成されたソフトウェア制御ステージングリソースを含み、
前記ソフトウェア制御ステージングリソースは、前記第１のメモリから前記第１のプロセッサコアまたは前記第２のプロセッサコアの前記各ベクトルレジスタへのデータ値フローを管理するために使用される、請求項１に記載の回路。
前記回路は、行列計算ユニットを含み、
前記行列計算ユニットは、前記ニューラルネットワークの前記層の前記出力を生成するために使用される前記計算の一部を実行することによって累積値を生成するように構成されている、請求項６に記載の回路。
前記ソフトウェア制御ステージングリソースは、前記第１のメモリから前記行列計算ユニットへのベクトル配列に対応するデータフローを管理するために使用され、
前記ベクトル配列は、前記第１のメモリによって提供された前記データから得られる、請求項７に記載の回路。
前記回路は、前記第１のメモリと通信するベクトル処理ユニットを含み、
前記ベクトル処理ユニットは、前記回路によって生成された累積値からベクトルアクティブ化値を生成するように構成され、
前記ベクトルアクティブ化値は、前記ニューラルネットワークの前記層の前記出力に対応する、請求項１に記載の回路。
前記ソフトウェア制御ステージングリソースは、前記ロードストアデータ経路のロードセクションに沿ったＦＩＦＯ（ファーストインファーストアウト）メモリ構造であり、
前記ＦＩＦＯメモリ構造は、ベクトル値を前記第１のプロセッサコアまたは前記第２のプロセッサコアの前記各ベクトルレジスタにルーティングする前に、閾値数のプロセッササイクルの間に前記ベクトル値を一時的に記憶するように構成されている、請求項６に記載の回路。
前記回路は、複数のプロセッサコアを含み、
前記共有メモリは、前記複数のプロセッサコアのうちの１つ以上のプロセッサコア間で共有されるメモリバンクに対応するメモリリソースを含む共有グローバルメモリ空間として機能するように構成されている、請求項１に記載の回路。
前記複数のニューラルネットワーク層の第１の層の前記出力を生成するための計算を実行するための前記データは、
前記ニューラルネットワークの前記第１の層を介して処理される入力と、
前記ニューラルネットワークの前記第１の層の各重みセットと、
前記第１の層の前記各重みセットを用いて、前記第１の層を介して、１つ以上の前記入力を処理することによって、前記第１の層の前記出力を生成するための命令とを含む、請求項１に記載の回路。
複数のニューラルネットワーク層を含むニューラルネットワークを実装するように構成された回路を用いて、前記ニューラルネットワークの層の出力を生成するための計算を実行するための方法であって、
第１のメモリから、ニューラルネットワーク層の出力を生成するために使用されるデータを提供することと、
前記回路の第１のプロセッサコアの第１のベクトルメモリを用いて、ベクトル値を前記回路の第１のプロセッサコアに記憶することとを含み、前記第１のベクトルメモリは、前記第１のメモリによって提供された前記データから得られた第１のベクトル値を記憶するように構成され、
前記回路の共有メモリのＤＭＡ（ダイレクトメモリアクセス）データ経路を用いて、少なくとも前記第１のベクトル値を含むデータ通信を前記共有メモリと前記第１のベクトルメモリとの間にルーティングすることと、
前記共有メモリのロードストアデータ経路を用いて、第２のベクトル値を含むデータ通信を前記共有メモリと前記第１のプロセッサコアの各ベクトルレジスタとの間にルーティングすることと、
前記共有メモリの前記ロードストアデータ経路および前記ＤＭＡデータ経路に沿って各々並列にルーティングされた前記第１のベクトル値および前記第２のベクトル値を用いて、前記ニューラルネットワーク層の前記出力に対応する累積値を生成することとを含む、方法。
前記回路の第２のプロセッサコアの第２のベクトルメモリを用いて、ベクトル値を前記第２のプロセッサコアに記憶することを含み、
前記第２のベクトルメモリは、前記第１のメモリによって提供された前記データから得られた第３のベクトル値を記憶するように構成されている、請求項１３に記載の方法。
前記共有メモリの前記ＤＭＡデータ経路を用いて、前記第３のベクトル値を含むデータ通信を前記共有メモリと前記第２のベクトルメモリとの間にルーティングすることと、
前記共有メモリの前記ロードストアデータ経路を用いて、第４のベクトル値を含むデータ通信を前記共有メモリと前記第２のプロセッサコアの各ベクトルレジスタとの間にルーティングすることとを含む、請求項１４に記載の方法。
前記回路は、複数のプロセッサコアを含み、
前記共有メモリは、前記回路の周囲に物理的に分散された複数のメモリリソースを含み、
前記方法は、前記共有メモリの前記複数のメモリリソースを用いて、前記第１のメモリと前記複数のプロセッサコアの各々との間にデータ通信を交換することを含む、請求項１５に記載の方法。
前記共有メモリは、共有メモリ制御ユニットを含み、
前記方法は、
前記共有メモリ制御ユニットによって実行される命令に基づいて、前記複数のメモリリソースの第１のリソース部分をＤＭＡ（ダイレクトメモリアクセス）メモリユニットとして機能させることと、
前記第１のリソース部分の代表的なＤＭＡ（ダイレクトメモリアクセス）機能を用いて、前記第１のメモリと前記第１のプロセッサコアおよび前記第２のプロセッサコアの各々との間にデータを移動することとを含む、請求項１６に記載の方法。
前記複数のメモリリソースの第２のリソース部分を用いて、前記ロードストアデータ経路に沿ってルーティングされた前記第２のベクトル値および前記第４のベクトル値を受信することと、
前記第２のリソース部分を用いて、閾値数のプロセッササイクルの間に前記第２のベクトル値を一時的に記憶することと、
前記第２のリソース部分を用いて、閾値数のプロセッササイクルの間に前記第４のベクトル値を一時的に記憶することとを含む、請求項１７に記載の方法。
前記閾値数のプロセッササイクルの間に前記第２のベクトル値を一時的に記憶することに応答して、前記第２のリソース部分を用いて、前記第２のベクトル値を前記第１のプロセッサコアの前記各ベクトルレジスタに提供することと、
前記閾値数のプロセッササイクルの間に前記第４のベクトル値を一時的に記憶することに応答して、前記第２のリソース部分を用いて、前記第４のベクトル値を前記第２のプロセッサコアの前記各ベクトルレジスタに提供することとを含む、請求項１８に記載の方法。
前記共有メモリは、前記共有メモリの一部のメモリリソースから形成されたソフトウェア制御ステージングリソースを含み、
前記方法は、前記ソフトウェア制御ステージングリソースを用いて、前記第１のメモリから前記第１のプロセッサコアの前記各ベクトルレジスタへのデータフローおよび前記第１のメモリから前記回路の第２のプロセッサコアの前記各ベクトルレジスタへのデータフローを管理することを含む、請求項１３に記載の方法。
前記回路は、行列計算ユニットを含み、
前記方法は、前記ニューラルネットワーク層の前記出力を生成するために使用される前記計算の一部を実行することに応答して、前記行列計算ユニットを用いて累積値を生成することを含む、請求項２０に記載の方法。
前記ソフトウェア制御ステージングリソースを用いて、前記第１のメモリから前記行列計算ユニットへのデータフローを管理することを含み、
前記データフローは、前記第１のメモリによって提供された前記データから得られたベクトル配列を含む、請求項２１に記載の方法。
前記回路は、前記第１のメモリと前記行列計算ユニットとの間のベクトル処理ユニットを含み、
前記方法は、前記ベクトル処理ユニットを用いて、前記行列計算ユニットによって生成された前記累積値からベクトルアクティブ化値を生成することを含み、
前記ベクトルアクティブ化値は、前記ニューラルネットワーク層の前記出力に対応する、請求項２１に記載の方法。
請求項１３～２３のいずれか１項に記載の方法を、コンピューティングデバイスのプロセッサに実行させる、プログラム。