JP7495480B2

JP7495480B2 - 共有スクラッチパッドメモリを用いたベクトル縮小

Info

Publication number: JP7495480B2
Application number: JP2022513296A
Authority: JP
Inventors: ノリー，トーマス; ラジャマニ，グルシャンカー; フェルプス，アンドリュー・エバレット; ヘッドルンド，マシュー・リーバー; ジョピー，ノーマン・ポール
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-02-26
Filing date: 2020-11-30
Publication date: 2024-06-04
Anticipated expiration: 2040-11-30
Also published as: CN115136115A; CN117421047A; US20220156071A1; US11182159B2; US11934826B2; TW202132976A; US20210263739A1; CN115136115B; WO2021173201A1; JP2023506343A; EP4004826A1; KR20220038148A

Description

背景
本明細書は、概して、ニューラルネットワーク計算を実行するために用いられるハードウェア回路の回路構成に関する。

ニューラルネットワークは、ノードの１つ以上の層を利用して、受信した入力について出力（たとえば分類）を生成する機械学習モデルである。ニューラルネットワークの中には、出力層に加えて１つ以上の隠れ層を含んでいるものもある。各隠れ層の出力は、ネットワーク内の１つ以上の他の層（たとえばネットワークの他の隠れ層または出力層）への入力として用いられる。ネットワークの層のうちのいくつかは、パラメータのそれぞれのセットの現在値に従って、受信した入力から出力を生成する。いくつかのニューラルネットワークは、画像処理用に構成された畳み込みニューラルネットワーク（ＣＮＮ）または音声および言語処理用に構成された回帰型ニューラルネットワーク（ＲＮＮ）であり得る。異なるタイプのニューラルネットワークアーキテクチャを用いて、分類またはパターン認識、データモデリングを含む予測、および情報クラスタリングに関連する各種タスクを実行することができる。

ＣＮＮのニューラルネットワーク層は、パラメータまたは重みに対応し得る、カーネルの関連付けられたセットを有し得る。カーネルの関連付けられたセットを用いて、ニューラルネットワーク層を通して入力（たとえば入力のバッチ）を処理して、ニューラルネットワーク推論を計算するための層の対応する出力を生成する。入力のバッチおよびカーネルのセットは、入力および重みのテンソル（すなわち多次元配列）として表すことができる。ニューラルネットワークを実行するハードウェア回路は、アドレス値によって識別される場所を有するメモリを含む。メモリ場所はテンソルの要素に対応し得て、テンソル要素は回路の制御論理を用いてトラバースまたはアクセスされ得る。たとえば、制御論理は、要素のメモリアドレス値を決定または計算して、この要素の対応するデータ値をロードまたは格納することができる。

概要
本文書には、大規模共有スクラッチパッドメモリにおいてデータ蓄積およびベクトル縮小を実行するための技術が記載されている。特に、これらの技術を用いて、計算システムのそれぞれのプロセッサコアで行われる計算の結果として生成される値または出力を縮小することを含むベクトル縮小を実行するために必要な演算の全体量を縮小する。たとえば、システムは、複数のプロセッサコアを有し得るハードウェア回路と、スタティックランダムアクセスメモリ（ＳＲＡＭ）のメモリリソースを組込むアーキテクチャとを含む。ＳＲＡＭのメモリリソースは、回路の複数のそれぞれのプロセッサコアの間で共有されるように割り当てられる。

計算システムで行われる複数セットの計算は、値のベクトルのそれぞれを生成するように１つ以上のハードウェア回路のそれぞれのコアに分散させることができる。共有メモリは、共有メモリのダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、プロセッサコアのそれぞれのリソースから値のベクトルのそれぞれを受信する。共有メモリは、共有メモリに結合された演算器ユニットを用いて、値のベクトルのそれぞれに対して累積演算（accumulation operation）を実行する。演算器ユニットは、演算器ユニットで符号化された算術演算に基づいて値を累積するように構成される。累積演算に基づいて結果ベクトルが生成される。

本明細書に記載されている主題の一局面は、共有メモリと、上記共有メモリと通信する複数のプロセッサコアとを有するハードウェア回路を用いて実行される方法で具体化することができる。上記方法は、第１のプロセッサコアで実行される計算に基づいて、値の第１のベクトルを生成することと、上記共有メモリが、上記共有メモリのダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、上記第１のプロセッサコアから上記値の第１のベクトルを受信することと、上記共有メモリにおいて、上記値の第１のベクトルと上記共有メモリに格納されているベクトルとの間の累積演算を実行することとを含む。上記累積演算は演算器ユニットを用いて実行され、上記演算器ユニットは、ｉ）上記共有メモリに結合され、ｉｉ）複数のベクトルを累積するように構成される。上記方法は、上記累積演算に基づいて結果ベクトルを生成することを含む。

これらおよび他の実現例の各々は、任意に以下の特徴のうちの１つ以上を含み得る。たとえば、いくつかの実現例において、上記共有メモリに格納されている上記ベクトルは、第２のプロセッサコアから受信したものであり、上記方法は、上記第１のプロセッサコアが、上記共有メモリのメモリ場所に上記値の第１のベクトルのそれぞれの値を累積するメモリへの累積動作（accumulate-to-memory operation）を実行することと、上記第２のプロセッサコアが、上記共有メモリの上記メモリ場所に値の第２のベクトルのそれぞれの値を累積するメモリへの累積動作を実行することとを含み、上記値の第２のベクトルは、上記共有メモリに格納されている上記ベクトルに対応する。場合によっては、上記第２のプロセッサは、上記値の第２のベクトルの値が初期値として書かれるようにフラグ（たとえば初期ベクトル／値フラグ）を設定するのに対して、上記第１のプロセッサコアは、上記値の第１のベクトルの値が上記値の第２のベクトルの値とともに累積されるように異なるフラグ（たとえば累積フラグ）を設定する。

いくつかの実現例において、上記累積演算に基づいて上記結果ベクトルを生成することは、上記第１のプロセッサコアで実行される計算から得られる積を事前に累積するステップを上記第１のプロセッサコアが実行することなく、上記結果ベクトルを生成することと、上記第２のプロセッサコアで実行される計算から得られる積を事前に累積するステップを上記第２のプロセッサコアが実行することなく、上記結果ベクトルを生成することとを含む。

いくつかの実現例において、上記結果ベクトルを生成することは、上記値の第１のベクトルに対して上記累積演算を実行した結果として、累積値のベクトルを生成することと、上記累積値のベクトル内の各値に活性化関数を適用することと、上記累積値のベクトル内の各値に上記活性化関数を適用した結果として、上記結果ベクトルを生成することとを含む。累積は、上記第１のベクトルの値に対して行われてもよく、または、累積は、上記第１のベクトルの値と上記共有メモリに格納されている上記ベクトルの値とのペアワイズ累積を含み得る。

いくつかの実現例において、上記第１のプロセッサコアのそれぞれのリソースは、第１の行列計算ユニットであり、上記方法はさらに、上記第１のプロセッサコアの上記第１の行列計算ユニットを用いて実行される行列乗算に基づいて、上記値の第１のベクトルに対応する累積値の第１のベクトルを生成することを含む。

いくつかの実現例において、上記第２のプロセッサコアのそれぞれのリソースは、第２の行列計算ユニットであり、上記方法はさらに、上記第２のプロセッサコアの上記第２の行列計算ユニットを用いて実行される行列乗算に基づいて、上記値の第２のベクトルに対応する累積値の第２のベクトルを生成することを含む。上記ハードウェア回路は、複数のニューラルネットワーク層を有するニューラルネットワークを実行するように構成されたハードウェアアクセラレータであってもよく、上記方法は、上記結果ベクトルに基づいて上記ニューラルネットワークの層の出力を生成することを含む。

上記方法はさらに、上記第１のプロセッサコアで実行される計算に基づいて、上記値の第１のベクトルを生成することと、上記第２のプロセッサコアで実行される計算に基づいて、上記値の第２のベクトルを生成することとを含み得る。上記第１のプロセッサコアで実行される上記計算および上記第２のプロセッサコアで実行される上記計算は、可換性によって制御される数学的演算の一部であってもよい。いくつかの実現例において、上記数学的演算は、浮動小数点乗算演算、浮動小数点加算演算、整数加算演算、または最小－最大演算である。いくつかの実現例において、上記数学的演算は、浮動小数点加算演算および整数加算演算を含む。上記第１のプロセッサコアおよび第２のプロセッサコアは同一のプロセッサコアであってもよい。

いくつかの実現例において、上記共有メモリは、上記ハードウェア回路の２つ以上のプロセッサコアの間で共有されるメモリバンクおよびレジスタを含む共有グローバルメモリ空間として機能するように構成される。

このおよび他の局面の他の実現例は、コンピュータ記憶装置上に符号化された、方法のアクションを実行するように構成された対応するシステム、装置、およびコンピュータプログラムを含む。１つ以上のコンピュータのシステムは、動作時にシステムにアクションを実行させる、システムにインストールされたソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせによってそのように構成され得る。１つ以上のコンピュータプログラムは、データ処理装置によって実行されると装置にアクションを実行させる命令を有することによってそのように構成され得る。

本明細書に記載されている主題は、以下の利点のうちの１つ以上を実現するように特定の実施形態において実現することができる。

本文書に記載されている技術は、単に共有メモリ場所への入来ベクトルデータを上書きするのではなく、このデータをアトミックに縮小するＤＭＡモードをサポートする大規模共有スクラッチパッドメモリの能力を利用する。言い換えれば、複数のプロセッサコアまたはプロセッサは、同一の共有メモリ場所を更新する縮小演算を同時に実行することができるので、得られる縮小値は、縮小演算が同一のメモリ場所に関連付けられた値を含む場合でも演算が連続して起こったかのように計算される。そうではなく、各プロセッサが単に共有メモリ場所に上書きすれば、別のプロセッサによって書込まれた以前の値が意図せず失われる（たとえば更新喪失問題に対応する）可能性がある。システムは、制御ループに基づいて、データの「アトミックな」縮小を検出し、共有メモリ場所における値の上書きをどちらかの方法で許可することにより、メモリ場所に縮小演算の最終結果を保持（または格納）させることができる。場合によっては、本明細書に記載されているさまざまな技術は、システム全体にわたって存在する他のメモリタイプ（オンチップおよびオフチップメモリを含む）に拡張可能である。

演算器ユニットは、共有メモリの近傍に結合されて、ベクトル値を共有メモリセル／場所に累積するための各種算術演算をサポートする。算術演算は、任意の縮小演算子（浮動小数点アトミック加算、整数加算、最大、最小、最大プーリング、およびさらには乗算など）に基づき得る。共有メモリに隣接して結合された演算器ユニットは、共有リソースのソフトウェア管理アドレッシングおよび可換数学的演算を単一のメモリシステムに統合するという利点を提供する。

これらの技術は、アトミック性を確保するように未処理の動作を追跡するために、かつ、古いベクトル値に対してベクトル値が累積されないように書込みトラフィックを必要に応じて停止するまたは並べ替えるために、共有メモリの制御ユニットで実行される読出・修正・書込制御ループを含む。また、読出・修正・書込制御ループは、第１のプロセッサコアに格納されたベクトルデータを読出すこと、読出したベクトル値に対して、第１のコアから離れている計算ユニットで算術演算を実行すること、およびその後に第１のプロセッサコアへの格納／書戻しを行うことが必要な、非効率な代替アプローチに対する性能およびエネルギーの向上を提供する。システムが大規模ベクトルメモリを有する場合、これらの非効率な代替アプローチでは、チップ全体にわたるかなりの距離をデータ移動させることが必要な場合がある。このようなアプローチでは、プロセッサコアにおける計算サイクルと、コアへのおよびコアからの配線の帯域幅とが不必要に消費されてしまう。また、これらの非効率によって、より深い計算スケジュールが生成され、レジスタ帯域幅が不必要に消費されてしまう。

これらの技術は、プロセッサコアで生成されて共有メモリのＤＭＡパスとともに用いられる累積フラグに一部基づく、メモリへの累積特徴を含む。この特徴は、２つ以上のプロセッサコアが、共有メモリシステム内の共有メモリ場所にベクトルを直接累積することを可能にする。この特徴は、複数のコアからのＤＭＡが、コアの間の動作をアービトレートするための外部同期化またはソフトウェアロックを必要とせずに、同一のメモリセクタおよびアドレスを同時にターゲットにすることを可能にすることによって、マルチノードシステムにおいて特に有用であり得る。たとえば、これは、共有メモリセルを複数のチップ全体にわたる全縮小バッファとして、またはプロセッサコアの分散システムとして構成するのに役立ち得る。

いくつかの実現例は、ハードウェア回路の共有スクラッチパッドメモリを用いてベクトル縮小を実行するための、コンピュータ読取可能媒体を含む方法、システム、および装置に関し、ハードウェア回路は、この共有メモリと通信するプロセッサコアを有する。プロセッサコアごとに、プロセッサコアで実行される計算に基づいて、値のベクトルのそれぞれが生成される。共有メモリは、共有メモリのダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、プロセッサコアのそれぞれのリソースから値のベクトルのそれぞれを受信する。共有メモリは、共有メモリに結合された演算器ユニットを用いて、値のベクトルのそれぞれに対して累積演算を実行する。演算器ユニットは、演算器ユニットで符号化された算術演算に基づいて値を累積するように構成される。累積演算に基づいて結果ベクトルが生成される。

本明細書に記載されている主題の１つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。主題の他の潜在的な特徴、局面、および利点は、説明、図面、および請求項から明らかになるであろう。

例示的な共有メモリを含むハードウェア回路を有する計算システムのブロック図である。ハードウェア回路の共有メモリと通信するプロセッサコアの一例を示すブロック図である。ハードウェア回路の行列計算ユニットと通信するベクトルプロセッサの一例を示すブロック図である。例示的な累積パイプラインを示すブロック図である。入力テンソル、重みテンソル、および出力テンソルの例を示す図である。図１の共有メモリを用いてベクトル縮小を実行するための例示的なプロセスを示すフロー図である。

詳細な説明
さまざまな図面における同様の参照番号および名称は、同様の要素を示す。

縮小演算は、人工ニューラルネットワークを含む演算のための計算集約的なワークロードなどの線形代数を利用する計算時によく使用される。たとえば、縮小演算は、ニューラルネットワークの訓練時に分散システムの異なる処理ノード全体にわたって計算される勾配値を平均するために必要な場合がある。縮小演算は、全縮小演算の場合などは分散して行うことができ、または所与の計算（行列乗算タイル合計演算など）の場合はローカルに行うことができる。

性能および電力に関する懸念は、計算システムにおいてこれらの演算を効率的に構築して実行するための重要な要因であり得る。典型的に、縮小演算では、システム（たとえば分散システム）のメモリ階層を通してデータをプロセッサ（またはプロセッサコア）の算術論理ユニット（ＡＬＵ）に引き出し、引き出したデータに対して計算／縮小を実行した後、メモリシステムを通して結果を書戻すことが必要である。しかしながら、システムにおいてこれらのさまざまなステップを実行すると、性能および電力の双方のコストが高くなる。加えて、複数のプロセッサコアから見えるメモリにおいて、コアをまたいで縮小演算を実行することは、典型的に、重複しないメモリ領域における同期化および／またはリソースの予約が必要であり、これによって、多大な性能および容量オーバーヘッド、ならびにプログラミングの複雑さが増大し得る。

前述の文脈に基づいて、本明細書には、大規模共有スクラッチパッドメモリ内の１つ以上のメモリアドレス場所に値のベクトルを累積することによってベクトル縮小を実行するためのデータ処理技術が記載されている。ベクトル縮小および累積は、ハードウェア管理キャッシュメモリシステムに典型的に用いられるアドレッシングスキームに基づくのではなく、計算の結果を書込む（格納する）ために用いられるメモリ場所のソフトウェア管理アドレッシングに基づいて、共有スクラッチパッドメモリで実行される。共有メモリは、プロセッサコアの分散システム全体で共有されるメモリセルなどのリソースを含む。記載されている技術は、値のベクトルを処理する際に、（たとえばベクトル縮小のための）累積縮小ステップを実行するためのメモリへの累積機能を含む。たとえば、累積縮小ステップを、ニューラルネットワークの層を通して処理される入力の異なるセットに対して実行される行列乗算全体にわたって実行して、層の出力を生成することができる。

共有スクラッチパッドメモリを含むデータ処理技術は、従前の設計と比較して改良されたハードウェア回路のアーキテクチャを用いて実行される。ハードウェア回路は、専用プロセッサ（ニューラルネットワークプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、またはハードウェアアクセラレータなど）であり得る。ハードウェア回路は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成される。本文書に記載されている改良されたアーキテクチャおよびデータ処理技術は、ハードウェアアクセラレータを表す回路が、速度および帯域幅の増加を実現して計算をさらに加速させることを可能にする。

計算は、特定のタイプの数学的演算（浮動小数点乗算、浮動小数点加算、または整数加算演算など）であり得る。また、計算は、推論を計算するためにまたはモデルを訓練するために実行される例示的なニューラルネットワークモデルの演算の中に含まれてもよい。いくつかの例において、計算は、ＣＮＮもしくはＲＮＮの層を通して入力を処理してニューラルネットワーク推論に対応する出力を生成するために用いられるか、または、ＣＮＮもしくはＲＮＮのパラメータに関する勾配を計算して訓練時にニューラルネットワークのパラメータを更新するために用いられる。

数学的演算は可換性によって制御され、アトミック縮小（たとえばアトミック浮動小数点縮小）を含み得る。アトミック縮小は、累積を必要とする値のベクトルを提供するコアの間でアクティビティを同期させる必要なしに、ベクトルが共有メモリのメモリ場所（またはそこに格納されたベクトル）に直接累積される、累積またはベクトル縮小ステップとして処理される。言い換えれば、ハードウェア回路の２つ以上のコアは、最終結果ベクトルが累積の正しい数学的結果を提供するように、任意の順序で共有メモリセルの中央アドレス場所に値を累積し得る。一例では、累積は、第１のコアによって提供される第１のベクトルの値と第２のコアによって提供される第２のベクトルの値とのペアワイズ累積に関係する。

図１は、例示的なハードウェア回路１０１を含む計算システム１００のブロック図である。上述のように、ハードウェア回路１０１は、ハードウェアアクセラレータまたは他の何らかの専用プロセッサを表し得る。場合によっては、システム１００は、人工ディープニューラルネットワーク（ＤＮＮ）（ＲＮＮまたはＣＮＮなど）に関連付けられたテンソルまたはニューラルネットワーク計算を加速させるための例示的な計算システムである。たとえば、システム１００は、例示的なハードウェアアクセラレータ上でＣＮＮを実行し、ハードウェアアクセラレータにデータ値を渡して、推論を計算するための出力を生成するように構成される。いくつかの実現例において、システム１００はシステムオンチップである。たとえば、システムオンチップは、ハードウェア回路１０１と、システム１００に含まれるものとして本文書に記載されている他のコンポーネントおよびデバイスの一部（または全部）とを含み得る。

ハードウェア回路１０１は、ニューラルネットワークモデルの実行および／または性能を加速させるように構成されたハードウェアアクセラレータであってもよい。たとえば、ニューラルネットワークモデルの実行は、例示的な汎用機（中央処理装置（ＣＰＵ）など）上のモデルの実行と比較して加速されてもよい。同様に、ニューラルネットワークモデルの性能および実行は、本明細書に記載されている改良されたハードウェア特徴および技術を有していない別のハードウェアアクセラレータ（グラフィックス処理装置（ＧＰＵ）など）上のモデルの実行と比較して加速されてもよい。

回路１０１を含むシステム１００は、システムメモリ１０２および共有メモリ１０４を含む。システムメモリ１０２は、ハードウェア回路１０１のプロセッサコア１０５－１、１０５－２とデータ通信をやり取りする高帯域幅メモリ（「ＨＢＭ１０２」）または入出力（Ｉ／Ｏ）デバイスを表し得る。データ通信は、一般的に、特定のプロセッサコア１０５－１、１０５－２に位置するベクトルメモリ１０６、１０８にデータ値を書込むこと、または特定のプロセッサコアのベクトルメモリ１０６、１０８からデータを読出すことを含み得る。たとえば、ＨＢＭ１０２は、プロセッサコア１０５－１とデータ通信をやり取りして、コアに入力を渡し、コアの１つ以上の計算リソースが生成した出力を受信することができる。

データ値は、ベクトル要素またはベクトル値の配列を表し得る。たとえば、第１のベクトル配列は、ニューラルネットワーク層を通して処理すべき入力のバッチを表し得るのに対して、第２のベクトル配列は、その層の重みのセットを表し得る。関連して、第３のベクトル配列は、プロセッサコア１０５－１で生成された出力に対応する累積値のベクトルを表し得るのに対して、第４のベクトル配列は、プロセッサコア１０５－２で生成された出力を表す活性化値のベクトルを表し得る。

ＨＢＭ１０２は、システム１００のダイナミックランダムアクセスメモリ（ＤＲＡＭ）資産であり得る。いくつかの実現例において、ＨＢＭ１０２は、回路１０１に対して外部またはオフチップメモリであり、システム１００のオンチップベクトルメモリバンク（後述）とデータ通信をやり取りするように構成される。たとえば、ＨＢＭ１０２は、回路１０１を表す集積回路ダイの外部にある物理的な場所に配置され得る。したがって、ＨＢＭ１０２は、集積回路ダイの内部に位置する計算リソースから離れているかまたはこの計算リソースに対して非ローカルであり得る。これに代えて、ＨＢＭ１０２またはそのリソースの一部は、ＨＢＭ１０２が回路の計算リソースに対してローカルであるかまたはこの計算リソースと同一場所に配置されるように、回路１０１を表す集積回路ダイの内部に配置されてもよい。

システム１００は、１つ以上のプロセッサコア１０５－１、１０５－２を含み得る。いくつかの実現例において、システム１００は複数のプロセッサコア１０５－ｎを含み、ｎは１以上の整数である。図１、ならびに後述する図２および図３の例では、システム１００は２つのプロセッサコアを含むものと示されているが、本明細書に記載されているハードウェア回路１０１を含むシステム１００は、それよりも多いまたは少ないプロセッサコアを有してもよい。一般的に、プロセッサコア１０５－ｎは、システム１００（またはハードウェア回路１０１）の別個の自立型処理／計算ユニットである。

各プロセッサコア１０５は、多層ニューラルネットワークの１つ以上の層が必要とする計算（たとえばニューラルネットワーク計算）を独立して実行するように構成される。計算は、機械学習ワークロードのデータを処理するために、またはワークロードの特定のタスクを実行するために必要であり得る。１つ以上のニューラルネットワーク層を通して入力を処理するためにプロセッサコアで実行される計算は、データ値の第１のセット（たとえば入力または活性化）とデータ値の第２のセット（たとえば重み）との乗算を含み得る。たとえば、計算は、１つ以上のサイクルにおいて入力または活性化値と重み値とを乗算することと、多数のサイクルにわたって積の累算を実行することとを含み得る。

データ値の第１および第２のセット内の異なる値は、ハードウェア回路１０１のプロセッサコア内のメモリ構成体の特定のメモリ場所に格納される。いくつかの実現例において、データ値の第１のセット内の個々の値は、入力テンソルのそれぞれの要素に対応し得るのに対して、データ値の第２のセット内の個々の値は、重み（またはパラメータ）テンソルのそれぞれの要素に対応し得る。一例として、一連の層におけるニューラルネットワーク層は、入力（画像画素データの入力など）のセット、またはこの一連の層における別のニューラルネットワーク層によって生成される活性化値のセットを処理することができる。

入力のセットまたは活性化値のセットは、１次元（１Ｄ）またはそれぞれの次元に沿って複数の要素を有する多次元テンソル（たとえば２Ｄまたは３Ｄ）として表すことができる。データ値を格納するメモリ場所の各々は１次元または多次元テンソルの対応する要素にマッピングされ得て、テンソル要素は回路の制御論理を用いてトラバースまたはアクセスされ得る。たとえば、制御論理は、要素にマッピングされるメモリアドレス値を決定または計算して、この要素の対応するデータ値をロードまたは格納することができる。

ハードウェア回路１０１は、異なるメモリ構成体を含む専用のメモリ階層を有する。これらのメモリ構成体の各々は、他の構成体と比較してさまざまな帯域幅およびレイテンシ特性を有し、ハードウェア回路１０１内の物理的配置もさまざまであり得る。例示的なメモリ構成体は、共有メモリ１０４と、ベクトルメモリ１０６、１０８と、ベクトルレジスタ１１０、１１２とを含む。一般的に、メモリ構成体は、ニューラルネットワーク層で処理すべきデータ値（入力、活性化に関連するベクトル値、またはゲイン値など）と、ニューラルネットワーク層を通して入力または活性化を処理したことに応じてこの層によって生成された出力活性化とを格納するように動作可能である。出力活性化の生成および格納、ならびにこれらの動作を実行するために用いられるさまざまなメモリ構成体については、図２および図３を参照して以下でより詳細に説明する。

図２は、ハードウェア回路のさまざまなコンポーネントの間のデータ通信を容易にするために共有メモリ１０４のリソースまたはセクションがハードウェア回路１０１でどのように配置されるかの例を示すブロック図２００である。上述のように、共有メモリ１０４は、システム１００のハードウェアアーキテクチャおよびデータ処理技術を改良するための基礎を提供する。共有メモリ１０４は、いくつかの他のニューラルネットワークプロセッサチップのオンチップメモリと比較して、さらに大きなオンチップＳＲＡＭである。いくつかの実現例において、共有メモリ１０４は、ＨＢＭ１０２と、対応するプロセッサコア１０５－１、１０５－２のそれぞれのベクトルメモリ１０６、１０８との間に（たとえば論理的または物理的に）あると説明することができる。たとえば、共有メモリ１０４を利用してＨＢＭ１０２とベクトルメモリ１０６、１０８との間でデータを移動させる動作は、このデータが共有メモリ１０４の共有リソースをトラバースすることを含むであろう。

共有メモリ１０４は、チップまたは回路１０１の上の共有中央空間を表し得る。たとえば、共有メモリ１０４は共有グローバルメモリ空間として機能するように構成され、この共有グローバルメモリ空間は、システム１００に存在し得るおよび／またはハードウェア回路１０１に含まれ得る複数のプロセッサコアのうちの１つ以上のプロセッサコア１０５－１、１０５－２の間で共有されるメモリバンクおよびレジスタに対応するメモリリソースを含む。以下でより詳細に説明するように、共有メモリ１０４は、（たとえば例示的なベクトルと同様の）ソフトウェア制御スクラッチパッドとして機能するように構成される。いくつかの実現例において、共有メモリ１０４のリソースの一部（または全部）は、ハードウェア管理キャッシュではなくソフトウェア制御スクラッチパッド（ステージングリソース）として機能するように構成される。

システム１００は、共有メモリ１０４によって与えられるデータ転送機能を利用するために、少なくとも２つのプログラミングインターフェイスをユーザに公開するように構成される。第１のインターフェイスはプログラマブルＤＭＡデータ転送機能および動作を公開するのに対して、第２の異なるインターフェイスはプログラマブルロード／格納データ転送機能および動作を公開する。これらのインターフェイス機能の各々は、以下でより詳細に説明する共有メモリ１０４の論理属性を表し得る。

上述のように、システム１００のメモリ構成体はさまざまな帯域幅およびレイテンシ特性を有する。たとえば、共有メモリ１０４は、ＨＢＭ１０２のＤＲＡＭアクセスよりも高い帯域幅および低いレイテンシを有し得るが、ベクトルメモリ１０６、１０８へのアクセスよりも低い帯域幅および高いレイテンシを有し得る。いくつかの例において、共有メモリ１０４は、ＨＢＭ１０２のＤＲＡＭ資産よりも低いデータ容量を有するが、プロセッサコアのそれぞれのベクトルメモリよりも高いデータ容量を有する。一般的に、これらのさまざまな帯域幅およびレイテンシ特性は、標準的なメモリ階層トレードオフを表す。

また、システム１００のメモリ構成体、特に共有メモリ１０４も、ハードウェア回路１０１内の物理的配置がさまざまであり得る。共有メモリ１０４は、プロセッサコア１０５－１、１０５－２の特定の計算リソースの配置に関して物理的および論理的に配置され得るメモリバンクおよびレジスタなどのリソースを含む。この文脈において、共有メモリ１０４は一般的に、その物理的構造およびその論理的構造を参照して特徴付けることができる。共有メモリ１０４の物理的構造を最初に説明し、次にその論理的構造を記載する。

その物理的構造に関して、共有メモリ１０４のリソースは、ハードウェア回路１０１に対応する専用またはニューラルネットプロセッサチップ上に物理的に分散されてもよい。たとえば、共有メモリ１０４を形成するリソースの異なるサブセット、部分、またはセクションは、異なるタイプのデータ転送動作および処理技術をシステム１００で実行できるように、回路１０１のさまざまな場所に物理的に分散されてもよい。いくつかの実現例において、共有メモリ１０４のリソースの１つのセクションは、回路１０１のプロセッサコアの内部に存在することができるのに対して、リソースの別のセクションは、回路１０１のプロセッサコアの外部に存在することができる。図２の例では、共有メモリ１０４のセクションは、ＨＢＭ１０２のメモリ場所と共有メモリ１０４のメモリ場所との間で大きなデータブロックを移動させるＤＭＡ動作を可能にするように、プロセッサコア１０５－１、１０５－２の各々の外部にある。

再びＨＢＭ１０２を簡単に参照して、このタイプのシステムメモリは、それぞれのプロセッサコアのベクトルメモリに高帯域幅データを提供するためにおよび／またはこのベクトルメモリと高帯域幅データをやり取りするために、システム１００によって用いられる外部メモリ構造であり得る。いくつかの実現例において、ＨＢＭ１０２は、回路１０１のプロセッサコア内のベクトルメモリのメモリアドレス場所からデータを取得するための、またはこのメモリアドレス場所にデータを提供するための、さまざまなダイレクトメモリアクセス（ＤＭＡ）動作のために構成される。より具体的には、ＨＢＭ１０２がベクトルメモリ１０６、１０８とデータをやり取りすることを含むＤＭＡ動作は、例示的な制御スキームおよび共有メモリ１０４のメモリリソースによって可能になる。

図２、および図３（後述）の例では、共有メモリ１０４は共有メモリ制御ユニット２０１（「制御ユニット２０１」）を含む。制御ユニット２０１は、メモリアクセス動作（ＨＢＭ１０２、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２の各々を含む）を制御するための制御信号１１４を生成するように構成される。

制御ユニット２０１は、システム１００の異なるメモリ（たとえば、ＨＢＭ１０２、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２）に分散される制御スキームを実行する。いくつかの実現例において、この制御スキームは、制御ユニット２０１と各メモリのそれぞれの制御ユニットとの間の通信に基づいて、異なるメモリに分散される。たとえば、制御スキームは、これらの異なるメモリのそれぞれの制御ユニットによってローカルに処理される、制御ユニット２０１によって提供される制御信号に基づいて、メモリに分散させることができる。データパスの共有を用いて、ＨＢＭ１０２とプロセッサコア１０５－１、１０５－２のそれぞれのベクトルメモリとの間でデータを移動させることができる。これが行われると、システム１００は、所与のメモリまたはデータパスについての任意の（およびすべての）必要な制御ユニットを起動させて、適切なタッチポイントで行われる必要があるデータハンドオフを管理する。

制御ユニット２０１は、ソフトウェア命令を実行し、共有メモリ１０４のメモリリソースの第１の部分をＤＭＡメモリユニットとして機能させる制御信号を生成するように構成される。リソースの第１の部分は、プロセッサコア１０５－１を基準とする共有コアデータパス２０４と、プロセッサコア１０５－２を基準とする共有コアデータパス２２４とによって表すことができる。この代表的なＤＭＡメモリユニットは、制御ユニット２０１によって生成される制御信号に基づいて、ＨＢＭ１０２と第１のプロセッサコア１０５－１および第２のプロセッサコア１０５－２の各々との間でデータを移動させるように動作可能である。

たとえば、制御信号は、ａ）データパス２０２、共有コアデータパス２０４、またはデータパス２０６を用いて、共有メモリ１０４のメモリ場所とベクトルメモリ１０６との間で、かつ、ｂ）データパス２２２、共有コアデータパス２２４、またはデータパス２２６を用いて、共有メモリ１０４のメモリ場所とベクトルメモリ１０８との間で、データ（たとえばベクトル）のブロックを移動させるＤＭＡ動作を実行するように生成され得る。いくつかの実現例において、共有メモリ１０４はあるいは共有ＣＭＥＭ１０４と呼ばれることがある。

本文書において、ＣＭＥＭは、一般的に、データバッファおよびオンチップＳＲＡＭストレージとして有用な構成を提供する物理的に連続したメモリ（ＣＭＥＭ）のブロックに対応する。以下でより詳細に説明するように、システム１００では、ＣＭＥＭリソースのブロックは、ハードウェア回路１０１において物理的に分散され、ハードウェアアクセラレータまたは他のタイプの専用プロセッサとして構成され得るプロセッサコアのコンポーネントの間で共有されるように配置される。共有コアデータパス２０４および２２４の各々は、システム内のこれらの点を横切るベクトルデータの移動のために共有データパス上で起こり得る静的コンテンションを示し得る例示的なノードである。

図２の例に示されるように、図１に示されるハードウェア回路１０１およびシステム１００は、複数のロード・格納データパス２０２、２０６と、複数のＣＭＥＭロードデータパス２０８、２１４、２２８、２３４と、複数のＣＭＥＭ格納データパス２１５、２３５とを含むように構成される。また、ハードウェア回路１０１およびシステム１００は、複数の共有ステージングブロック２１０、２３０（後述）を含む。図２の例では、データパス２０２、２２２の各々は、ＤＭＡ動作を実行したことに応じてデータ（たとえばベクトルもしくはスカラー値）をルーティングするためのデータパスとして、ＣＭＥＭロード／格納動作を実行したことに応じてデータをルーティングするためのデータパスとして、またはその双方として、構成され得る。共有メモリ１０４によってサポートされるＤＭＡ動作およびデータパス２０２、２０６、２２２、および２２６を用いて、特定のメモリオフセットおよびストライドパラメータを参照して異なるメモリ構造の間でデータを移動させることができる。

たとえば、システム１００は、共有メモリ１０４を用いてＤＭＡ動作を実行するように構成され、このＤＭＡ動作は、１メガバイトのデータを１組のメモリ場所から別の１組のメモリ場所にオフセット０ｘ０４で移動させるまたはコピーすることを含む。共有メモリ１０４およびシステム１００は、ＤＭＡ動作を実行する際にさまざまなストライド機能をサポートするように動作可能である。たとえば、１メガバイトのデータを移動させるためのＤＭＡ動作は、ベースメモリ場所のアドレスベースまたはアドレス値に対して２００キロバイトごとにアドレス間隔を挿入するストライド動作を含み得る。

いくつかの実現例において、ストライド動作を用いて、所望の読出シーケンスに基づいてアドレス間隔を挿入し、この所望の読出シーケンスは、１メガバイトのデータを宛先場所に移動させた後にこのデータを読出すために後で実行される。たとえば、１メガバイトのデータブロックは、ニューラルネットワークの異なる層において、または特定のニューラルネットワーク層のフィルタもしくは重みの異なるセット全体にわたって、データがどのように読出されてまたは取出されて処理されるかに対応するストライド動作に基づいて格納されてもよい。

また、共有メモリ１０４の制御ユニット２０１は、さまざまなロード・格納動作を実行させるように構成される。たとえば、制御ユニット２０１は、ａ）（コア１０５－１でのロード動作の場合は）データパス２０２、共有コアデータパス２０４、またはデータパス２０８を用いて共有メモリ１０４のメモリ場所と共有ステージングブロック２１０のメモリ場所との間で、かつ、ｂ）（コア１０５－２でのロード動作の場合は）データパス２２２、共有コアデータパス２２４、またはデータパス２２８を用いて共有メモリ１０４のメモリ場所と共有ステージングブロック２３０のメモリ場所との間で、さまざまな量のデータ（たとえばベクトルまたはベクトル値）を移動させるロード・格納動作を実行するための制御信号を生成する。

同様に、制御信号は、ａ）（コア１０５－１での格納動作の場合は）データパス２０２、共有コアデータパス２０４、またはデータパス２１５を用いて共有メモリ１０４のメモリ場所とベクトルレジスタ１１０との間で、かつ、ｂ）（コア１０５－２での格納動作の場合は）データパス２２２、共有コアデータパス２２４、またはデータパス２３５を用いて共有メモリ１０４のメモリ場所とベクトルレジスタ１１２との間で、さまざまな量のデータ（たとえばベクトルまたはベクトル値）を移動させるロード・格納動作を実行するために生成され得る。

次に共有メモリ１０４の論理的構造を参照して、上述のように、システム１００は、共有メモリ１０４によって与えられるデータ転送機能を利用するために、少なくとも２つのプログラミングインターフェイスをユーザに公開するように構成される。少なくとも１つのインターフェイスはプログラマブルＤＭＡ機能を公開し、別のインターフェイスはプログラマブルＣＭＥＭロード／格納機能を公開し、各々が共有メモリ１０４の論理属性を表し得る。ロード／格納目的のために、共有メモリ１０４は、ベクトルメモリ１０６、１０８に対する並列メモリとして論理的に公開される。このように、各ロード・格納データパスは、メモリシステムを通して（それぞれのプロセッサコア１０５－１、１０５－２のベクトルレジスタ、または回路１０１の複数のコアを通してなど）データブロックまたは特定のデータを移動させるための追加（または並列）データパスを提供するように動作可能である。たとえば、ロード・格納動作は、ＤＭＡ動作と同時に共有メモリ１０４のメモリリソースに対して実行されてもよい。

より具体的には、ＤＭＡ動作を実行して、ＤＭＡデータパス２０６を用いて共有メモリ１０４のメモリ場所とベクトルメモリ１０６との間で値のベクトルを移動させ、ＤＭＡ動作と同時にロード・格納動作を実行して、共有メモリ１０４のメモリ場所と共有ステージングブロック２１０との間で値の異なるベクトルを移動させてもよい。同様の同時動作が、プロセッサコア１０５－１のリソースに対応するプロセッサコア１０５－２のリソースを用いてプロセッサコア１０５－２（または他のコア）で行われてもよい。

共有メモリ１０４のＣＭＥＭリソースを用いて実行されるロード／格納動作は、ＤＭＡ動作と比較して、共有メモリ１０４の高性能機能、または共有メモリ１０４を用いる高性能方法を表し得る。いくつかの実現例において、制御ユニット２０１は、ソフトウェア命令を実行し、共有メモリ１０４のメモリリソースの第２の部分を、ロード／格納動作を実行するために用いられるソフトウェア制御ステージングリソースとして機能させる制御信号を生成するように構成される。

リソースの第２の部分は、プロセッサコア１０５－１を基準とする共有ステージングブロック２１０と、プロセッサコア１０５－２を基準とする共有ステージングブロック２３０とによって表すことができる。したがって、共有ステージングブロック２１０、２３０の各々は、共有メモリ１０４のメモリリソースのサブセットから形成されるソフトウェア制御ステージングリソース（またはスクラッチパッド）を表し得る。いくつかの例において、システム１００のソフトウェア制御ステージングリソースは、ＨＢＭ１０２から第１のプロセッサコア１０５－１または第２のプロセッサコア１０５－２のそれぞれのベクトルレジスタ１１０または１１２へのベクトルデータ値の流れを管理するように構成される。

共有メモリ１０４およびそのリソースは、たとえばメモリ構成体（ＨＢＭ１０２またはベクトルメモリ１０６、１０８など）の間でデータを移動させるためのＤＭＡメモリとしてだけではなく、各プロセッサコア１０５－１、１０５－２上のそれぞれのベクトルレジスタ１１０、１１２内にデータを直接移動させるためのロード／格納メモリとしても一意に構成可能であるという性質を有する。共有メモリ１０４のこれらの構成可能な局面によって、そのリソースおよびアドレッシングを、コア上で実行されるソフトウェアによって細かい粒度でスケジューリングすることができる。たとえば、共有メモリ１０４はソフトウェア管理型（ハードウェア管理型ではない）ＳＲＡＭリソースとすることができ、このＳＲＡＭリソースにおいて、プロセッサコアのコンパイラは、そのメモリ（共有メモリ１０４のメモリアドレス場所に存在する場合もあればそうでない場合もあるタイプのデータを含む）のアドレッシングを特別に管理する。

いくつかの実現例において、共有メモリ１０４のソフトウェア制御ステージングリソースは、データを共有ＣＭＥＭ２０３またはＨＢＭ１０２に格納するようにルーティングするためのＣＭＥＭ格納データパス２１５または２３５を含むプロセッサコアのロード・格納データパスのロード部分に沿った先入れ先出し（first-in-first-out：ＦＩＦＯ）メモリ構造（たとえば共有ステージングブロック２１０または２３０）として構成される。ＦＩＦＯメモリ構造は、しきい値数のプロセッササイクルにわたってデータ値のセットを一時的に格納した後に、第１のプロセッサコア１０５－１または第２のプロセッサコア１０５－２のそれぞれのベクトルレジスタ１１０、１１２にこの値のセットをルーティングするように構成される。ＦＩＦＯメモリ構造を用いて、特定のロードレイテンシを有するＣＭＥＭロード動作によって生じ得るレジスタ圧力およびスケジューリングの複雑さを緩和する。

いくつかの実現例において、クロックサイクルのしきい値数は、５０サイクル全体にわたって所与のレジスタを予約することに関連付けられるレジスタ圧力およびスケジューリングの複雑さを引き起こす可能性がある例示的な高レイテンシ（たとえば５０サイクル）ＣＭＥＭロード動作に基づいて決定される。レジスタ圧力に関する懸念を和らげるまたは軽減するために、共有メモリ１０４のリソースを用いて、ＣＭＥＭ結果ＦＩＦＯ（「ＣＲＦ」）がハードウェア回路１００で物理的にインスタンス化される。図２の例では、第１のＣＲＦはプロセッサコア１０５－１のステージングブロック２１０によって表されているが、第２のＣＲＦはステージングブロック２３０によって表されている。ＣＲＦの各々は、例示的なＣＭＥＭロード動作を、ｉ）ＣＭＥＭ→ＣＲＦフェーズ（ＣＭＥＭアドレス情報が提供される）、およびｉｉ）ＣＲＦ→レジスタフェーズ（ベクトルレジスタターゲットが提供される）、の少なくとも２つのフェーズに分割することができる。

たとえば、共有ステージングブロック２１０、２３０の各々は、データ値（たとえばスカラー値またはベクトル値）を受信し、しきい値数のプロセッササイクルにわたってデータ値を一時的に格納するように構成される。プロセッサコア１０５－１では、データ値は、ステージングブロック２１０を共有メモリ１０４の他のメモリ場所に接続するロードデータパス２０８（および共有コアデータパス２０４）に沿って、共有ステージングブロック２１０にルーティングされる。プロセッサコア１０５－２では、データ値は、ステージングブロック２３０を共有メモリ１０４の他のメモリ場所に接続するロードデータパス２２８（および共有コアデータパス２２４）に沿って、共有ステージングブロック２３０にルーティングされる。

共有ステージングブロック２１０は、しきい値数のプロセッササイクルにわたってデータ値を一時的に格納したことに応じて、プロセッサコア１０５－１のベクトルレジスタ１１０にデータ値を提供するように構成される。同様に、共有ステージングブロック２３０は、しきい値数のプロセッササイクルにわたってデータ値を一時的に格納したことに応じて、プロセッサコア１０５－２のベクトルレジスタ１１２にデータ値を提供するように構成される。

システム１００は、同一のサイクルで複数のＣＭＥＭロード命令を発行するように構成される。たとえば、システム１００は、データパス２０８（または２１４）および共有ステージングブロック２１０を用いて実行されるＣＭＥＭロード命令を発行し、同一のサイクルで、データパス２１２を用いて実行されるロードをベクトルメモリ１０６に発行することができる。いくつかの例において、ソフトウェア制御の観点から、リソース２１０とベクトルレジスタ１１０との間のデータパス２１４をトラバースするＣｍｅｍロード動作、およびベクトルメモリ１０６とベクトルレジスタ１１０との間のデータパス２１２をトラバースするＶｍｅｍロード動作の各々は、同一のサイクルで発行および実行することができる。いくつかの実現例において、ベクトルレジスタ１１０、１１２は、従前の設計と比較して、ベクトルレジスタ１１０、１１２が同時ロード動作を受信することを可能にする追加ポートを含むように適合される。

たとえば、ベクトルレジスタ１１２は、プロセッサコア１０５－２で実行される同時ロード動作中にレジスタがベクトルメモリ１０８および共有ステージングブロック２３０からそれぞれのベクトルペイロードを受信することを可能にする追加ポートを含むように構成される。いくつかの例において、ベクトルレジスタ１１０、１１２の各々にロードされるペイロードの単一のデータは、単一のロード動作中にベクトルレジスタ１１０またはベクトルレジスタ１１２に移動させられ得る、最大で１２８個のデータ項目に基づく１２８個の別個のロードを含む。

共有メモリ１０４のＣＭＥＭロード／格納機能は、ベクトルメモリマクロを通ってデータをルーティングする必要がないので、従前の設計と比較してより高いピーク性能を提供することができる。たとえば、（データパス２１５、２３５に沿った）ロードおよび格納は、ベクトルレジスタ１１０、１１２における利用可能な追加レジスタポートなどにより、ベクトルメモリロードおよび格納と並行して実行することができる。

いくつかの実現例において、システム１００は、ベクトルメモリ１０６、１０８を通ってデータパスをトラバースする際に存在し得る帯域幅制限の一部（または全部）をバイパスする並列インターフェイスを共有ステージングブロック２１０、２３０の各々に提供する例示的なロード・格納インターフェイスを含む。この例示的なロード・格納インターフェイスは、例示的なワークロードから追加性能を引き出すことを可能にする、より高いメモリ帯域幅を効果的に提供することができる。たとえば、システム１００は、共有メモリ１０４のリソース（たとえばソフトウェア制御ステージングリソース）を用いてさまざまなロード／格納動作を実行するように構成され、ロード／格納動作は、データをプロセッサコアにおけるベクトルメモリの中を移動させることをバイパスするように実行され得る。

たとえば、ハードウェア回路１０１のコンポーネントは、共有メモリ１０４と通信して、共有メモリ１０４のメモリバンクまたはレジスタファイルの単一のアドレス場所からデータを読出すことができる。いくつかの例において、メモリ内の単一のアドレスに格納されたデータが読出され、その単一のデータは、プロセッサコアの内部に位置するレジスタファイルまたはステージングブロックに移動させられ得る。たとえば、単一のデータは、共有ＣＭＥＭ１０４のアドレス場所から読出され、共有コアデータパス２２４の中を移動させられ、さらなる処理のためにプロセッサコア１０５－２内の共有ステージングブロック２３０のアドレス場所に移動させられ得る。この動作は、データをベクトルメモリ１０８を介してメモリシステムの中を移動させることをバイパスすることにより、コア１０５－２におけるプロセッサクロックサイクルとベクトルメモリ１０８に接続するデータパスにおける帯域幅とを節約するように実行され得る。

図３は、ハードウェア回路１０１の行列計算ユニットと通信するベクトルプロセッサの例を示すブロック図３００である。より具体的には、いくつかの実現例において、ハードウェア回路１０１のテンソルプロセッサコア３０２－１は、ベクトル処理ユニット３０４（「ベクトルプロセッサ３０４」）と、ベクトルプロセッサ３０４に結合される行列計算ユニット３０８とを含む。同様に、ハードウェア回路１０１の別のテンソルプロセッサコア３０２－２は、ベクトルプロセッサ３０６と、ベクトルプロセッサ３０６に結合される行列計算ユニット３１０とを含む。したがって、行列計算ユニット３０８、３１０はプロセッサコア３０２－１、３０２－２のそれぞれのリソースである。

一般的に、ハードウェア回路１０１は、ニューラルネットワーク層の出力を生成するための計算を実行するように構成される。回路１０１に含まれる行列計算ユニット３０８および３１０の各々は、ニューラルネットワーク層の出力を生成するために用いられる累積値を生成するための計算のサブセットを実行するように構成される。いくつかの実現例において、上述のソフトウェア制御ステージングリソース（たとえばステージングブロック２１０、２３０）は、図１に示されるＨＢＭ１０２から行列計算ユニット３０８、３１０の各々へのデータ（ベクトルオペランドなど）の流れを管理するように構成される。場合によっては、オペランドはＨＢＭ１０２によって提供される入力および重みである。オペランドは、ベクトルプロセッサ３０４または３０６の算術論理ユニット（ＡＬＵ）を用いて実行されるデータ演算に基づくベクトル配列として構造化されてもよい。

図３の例では、制御ユニット２０１は、共有メモリ１０４、ベクトルメモリ１０６、１０８、およびベクトルレジスタ１１０、１１２のメモリ場所から複数の入力のバッチおよび重みのセットを取出す（または読出す）動作を管理するための制御信号を生成する。取出された入力および重みをニューラルネットワーク層を通して処理して、行列計算ユニット３０８、３１０で実行される計算に基づいて累積値を生成することができる。累積値をベクトルプロセッサ３０４、３０６で処理して、ニューラルネットワーク層の出力に対応する活性化値を生成することができる。

制御ユニット２０１によって生成された制御信号を用いて、ベクトルプロセッサ３０４、３０６によって生成された出力または出力活性化の複数のセットを、１つ以上の他のニューラルネットワーク層で処理するためにＨＢＭ１０２またはハードウェア回路１０１の他のメモリ場所に格納する（または書込む）。より具体的には、システム１００は、大規模共有スクラッチパッドメモリ（共有メモリ１０４など）内の１つ以上のメモリアドレス場所に値のベクトルを累積することを含むベクトル縮小を実行するためのデータ処理技術を実行するように構成される。上述のように、ベクトル縮小および累積は、共有メモリ１０４のメモリセル内の場所のソフトウェア管理アドレッシングに基づいて、共有スクラッチパッドメモリ１０４で実行することができる。共有メモリ１０４のメモリセル内のアドレス場所を用いて、システム１００の異なるコンポーネントで行われる計算の結果を書込む（格納する）ことができる。

システム１００は、共有メモリ１０４に結合される（または結合され得る）演算器／累算器ユニット３２０（「演算器３２０」）を含む。演算器３２０は、１つ以上の算術演算に基づいて値を累積するように構成される。算術演算は、ソフトウェアで、ファームウェアで、ハードウェアで、または各々の組み合わせで、演算器３２０においてプログラム化または符号化することができる。演算器３２０は、共有メモリ１０４のメモリセルの近くに結合されて、共有メモリ１０４の共有メモリセルにルーティング中のベクトル値に対して累積演算を実行する、計算論理の密集部分を表し得る。

いくつかの実現例において、演算器３２０は、異なるタイプの数値フォーマットを有する値に対して異なるタイプの数学的演算を実行するように各々が構成された異なるタイプの加算器（たとえば正規化加算器）および乗算器を実行するためのハードウェア回路を含む計算ユニットである。たとえば、演算器３２０は、数学的演算（浮動小数点乗算、浮動小数点加算、整数加算演算、および最小－最大演算など）を実行するように構成される。いくつかの他の実現例において、演算器３２０は、共有メモリ１０４のハードウェア特徴としてシステム１００に含まれる。また、演算器３２０の１つ以上の算術演算または関数も、ソフトウェアおよびハードウェアで実現されてもよい。

演算器３２０は、特定の算術演算を選択するための、または特定の算術演算を実行するように構成された演算器３２０における回路を選択するための論理３２５を含み得る。いくつかの実現例において、演算器３２０は、値のベクトル内の値の１つ以上の数値フォーマット（たとえば２の補数整数および浮動小数点）に基づいて、共有メモリ１０４および／またはハードウェア回路１０１でインスタンス化される。たとえば、数値フォーマットは、ベクトルの数または数値を表すために用いられるデータフォーマットに対応する。いくつかの実現例において、演算器３２０は、正規化ユニットのための回路、プーリングユニットのための回路、またはその双方のための回路を含む。

上述のように、記載されている技術は、値のベクトルを処理する際に（たとえばベクトル縮小のための）累積縮小ステップを実行するためのメモリへの累積機能を含む。図３の例では、プロセッサコア３０２－１、３０２－２の各々は、それぞれの累積フラグ３３０、３３５を生成して、共有メモリ１０４の制御ユニット２０１に、値の例示的なベクトルに対してメモリへの累積機能を実行させることができる。値のベクトルは、たとえばデータパス２０６またはデータパス２２６を使用してベクトルを共有メモリ１０４に移動させるＤＭＡ動作を用いて、共有メモリ１０４に移動させることができる。

図４は、例示的な累積パイプライン４００（「パイプライン４００」）を示すブロック図である。パイプライン４００は、共有メモリ１０４の共有メモリセル４４５に値のベクトルを累積する例示的な動作のための例示的なデータ処理ステップを示す。

個々の入力および重み値などのベクトルオペランドは、プロセッサコアの例示的な行列ユニットの乗算セルを用いて乗算されてからコアのベクトルメモリに格納されるテンソル値として表され得る（４０２）。いくつかの実現例において、ベクトルオペランドの入力は、入力行列または入力テンソルのパーティションに対応する。たとえば、入力テンソルは２つのセクションに分割されてもよく、各セクションの異なるそれぞれの次元からの入力値が、重み値と乗算されて出力値を生成するように特定のプロセッサコアに送信されてもよい。入力テンソルについては、重みテンソルおよび出力テンソルとともに、図５を参照して以下でより詳細に説明する。

最終結果ベクトル４５０は、入力行列／テンソルの入力の各々を用いてニューラルネットワークの層について計算される出力を表す出力値の最終セットに基づき得る。そのため、入力テンソルのデータ／入力値が異なるプロセッサコアで処理されるように分割され得る場合でも、正しい正確な最終結果ベクトル４５０を生成することは、実際には、それぞれのコアによって生成される出力値の少なくとも２つの異なるセットの正しい正確な累積に依存する。たとえば、正しい最終結果ベクトル４５０を生成するためには、それぞれのコアによって生成される出力値の異なるセットを合計または累積する必要がある。

図４の例では、それぞれのプロセッサコアはコア＿０（たとえばプロセッサコア３０２－１）およびコア＿１（たとえばプロセッサコア３０２－２）として示されている。各プロセッサコアのそれぞれの行列ユニット（たとえば行列３０８または３１０）によって実行される行列乗算に応じて、複数の出力値が生成されてもよい。いくつかの実現例において、この出力値は、行列乗算を実行するプロセッサコアのベクトルメモリに格納された後に、累積演算のために共有メモリ１０４に送られる。最終結果ベクトル４５０は、双方のプロセッサコアが、これらのプロセッサコアに割り当てられた計算のそれぞれの半分を集約することに基づいて、得ることができる。いくつかの実現例において、最終結果ベクトルを得るための集約は「事前累積演算」に対応する。

ベクトル値を累積する従前のアプローチでは、１つのコアがその結果を別のコアに移動させることが必要であった。これらのアプローチでは、結果値の異なるセットをシステムの異なるコアの間で移動させるために、追加のプロセッササイクル、メモリリソース、計算帯域幅、および特定のソフトウェア制御が必要であった。本明細書の累積縮小技術は、これらの集約が、共有メモリ１０４でネイティブに実行可能な累積機能に基づいて共有メモリシステムで行われることを可能にする。

プロセッサコアの各々は、それぞれの累積フラグ３３０、３３５を生成して、共有メモリ１０４の制御ユニット２０１に、値の例示的なベクトルに対してメモリへの累積機能を実行させることができる（４０４）。各プロセッサコア１０５で生成された値のベクトルは、上述のようにＤＭＡ動作を用いて共有メモリ１０４に移動させることができる。共有スクラッチパッドメモリ１０４の共有メモリセルまたはアドレス場所に値のベクトルを累積するための技術は、システム１００のプログラマブルＤＭＡデータ転送機能を介して実行することができる。たとえば、共有メモリ１０４のメモリセル内にデータを移動させるように動作可能な任意のＤＭＡ動作は、本文書に記載されている累積技術を用いることができる。このように、図２および図３の例におけるコア０およびコア１の各々は、双方が、共有メモリ１０４の特定の共有メモリセルの同一のアドレス場所にベクトル値を累積することができる。一例では、累積は、コア０によって提供される第１のベクトルの値とコア１によって提供される第２のベクトルの対応する値とのペアワイズ累積に関係する。

いくつかの実現例において、システム１００は、共有メモリのＤＭＡモードを用いるのではなく、共有メモリ１０４のロード／格納使用モードにおいて大規模なベクトル「格納累積」を提供するように構成される。たとえば、複数のプロセッサコアの間の共有ロード／格納メモリ層を用いて、プロセッサコアの間の一部（または全部）の同期の必要性を切離す「格納累積」機能を実行することができる。いくつかの実現例において、格納累積機能を実行するために用いられる複数のプロセッサコアの間の共有ロード／格納メモリ層は、少なくとも図２を参照して上述したデータパス２１２、２３２を含む。

共有メモリ１０４および制御ユニット２０１は、演算器３２０を用いて、値のベクトルのそれぞれに対して累積演算を実行する（４０６）。たとえば、制御ユニット２０１は、ニューラルネットワークの層を通して処理される入力の異なるセットに対して実行される行列乗算全体にわたって累積縮小ステップを実行して、層の出力を生成する。いくつかの実現例において、値のベクトルは、上述の行列乗算の結果として生成される累積値のベクトルのそれぞれであり得る。

制御ユニット２０１は、特定のベクトル要素における累積を有効または無効にするように１つ以上のベクトル要素をマスクし、異なるベクトルの累積を管理するための制御を実行し、未処理の累積演算を追跡するように構成される（４０８）。

マスク要素に関して、システム１００は、１６Ｂ（１６ビット）幅のベクトルユニット（たとえばベクトルプロセッサ）を各々が含むマシン（計算サーバまたは関連のハードウェア回路など）を含み得る。ベクトルユニットは、１６ビット幅のデータ要素に対して動作するように構成され得るが、ハードウェア回路（またはサーバ）のリソースによって生成される値のベクトルはわずか９Ｂ幅のベクトルであってもよい。いくつかの実現例において、システム１００は、１つ以上の９要素幅のベクトルに対して動作し、これらのベクトルの各々は、各々が１６ビットである９個のデータ値を含む。この例では、制御ユニット２０１は、共有メモリ１０４の共有メモリ場所に累積すべき値のベクトルのデータ構造を識別することができる。制御ユニット２０１は、このデータ構造に基づいて、共有場所に累積すべき値が、ベクトルユニットの１６Ｂ幅のベクトル構成に対して９Ｂ幅のベクトルであると判断することができる。

制御ユニット２０１は、累積または縮小を行う際に、演算器３２０にベクトル内のたとえば最初の９フィールドのみに算術演算を適用させるマスク関数４３０を実行することができる。たとえば、プロセッサコア３０２－１から共有メモリ１０４への、共有メモリセル４４５内にベクトルを累積する要求が、プロセッサコア３０２－１のベクトル処理ユニット３０４の構成に基づいて１６Ｂ幅のベクトルとして提示されてもよい。制御ユニット２０１は、累積中の値が、１６Ｂ幅のベクトルの後半によって表されているか、または１６Ｂ幅のベクトルの最初の９フィールドで表される９Ｂ幅のベクトルによって表されているかを判断するように構成される。したがって、システム１００は、ベクトル内のどの特定の要素が共有メモリセル４４５内に累積されるかを識別および選択するように、または他の方法で制御するように動作可能である。

累積制御に関して、制御ユニット２０１は、読出・修正・書込制御４３５（「制御４３５」）を実行して、共有メモリシステムにおける値の異なるベクトルの累積を制御および管理するように構成される。制御４３５は、第１のコアでデータを読出すこと、読出した値に対して、第１のコアから離れている計算ユニットで計算を実行すること、およびその後に第１のコアへの格納／書戻しを行うことが必要な、非効率な代替アプローチに対する性能およびエネルギーの向上を提供する。

未処理の動作の追跡に関して、制御ユニット２０１は動作トラッカー４４０を実行して、値の異なるベクトルを共有メモリシステムに累積するための未処理の要求および現在の（または待機中の）動作を追跡するように構成される。たとえば、制御ユニット２０１は動作トラッカー４４０を用いて、共有メモリのメモリ場所（共有メモリセル４４５など）に値のベクトルを書込むことを要求する各書込み動作を追跡する。いくつかの実現例において、制御ユニット２０１は、プロセッサコアからの書込み要求に付随する累積フラグ３３０、３３５に基づいて動作を追跡する。累積フラグ３３０、３３５は、値のベクトルが、共有メモリ１０４の特定のメモリ場所で初期値として書込まれるべきであること、または既存の値とともに累積されるべきであることを示す。

制御ユニット２０１は、演算器３２０に制御信号を送信して、特定のメモリアドレス場所に格納されている現在の値とその共有メモリ場所に書込み中の値のベクトルとの間の累積演算を演算器３２０に実行させる。いくつかの実現例において、値のベクトルを共有メモリセル４４５に書込むプロセッサコアからの要求は、処理するのに少なくとも２クロックサイクルが必要である。この書込み要求の処理には少なくとも２クロックサイクルが必要であり得るので、制御ユニット２０１が共有メモリ場所で値を読出そうとしているときに別のベクトルが同一の共有メモリ場所に書込まれると、読出／書込ハザードが発生し得る。この場合、値の読出を実行する前に書込み動作が完全に処理されなかったので、読出中の値は最新の値ではない。

制御ユニット２０１は、動作トラッカー４４０を用いて、最後のいくつかのクロックサイクルにおいてどの要求が共有メモリ１０４に送信されたかを判断し、特定のメモリ場所に格納されている値が古いか新しいかを判断する。制御ユニット２０１は、最後の書込み要求のタイムスタンプに基づいて、または最後の書込み要求を処理するのに必要な時間（たとえば２クロックサイクル以上）に基づいて、値が古いか新しいかを判断することができる。たとえば、タイムスタンプは、最後の要求が共有メモリ１０４で開始または処理されてから３クロックサイクル以上が経過したことを示すことができる。値が新しいと判断された場合は、制御ユニット２０１は値を読出す。値が古いと判断された場合は、制御ユニット２０１は、値が読出のためにまたは累積のために再び新しいことを示すのに必要な数のクロックサイクルが経過するまで、値の読出を停止する。

システム１００は、共有メモリ場所４４５に格納されている以前の累積を失うことなく、値（たとえばベクトル）を受信してそれを共有メモリ場所の既存の値に累積するように構成される（４１０）。たとえば、システム１００は、メモリ場所（共有メモリセル４４５など）に以前に格納されたベクトル累積を上書き可能な競合状態を緩和するための外部ソフトウェアロックを必要とせずに累積演算を実行するように構成される。システム１００は、ローカルな事前累積演算をそれぞれのプロセッサコアで実行することを必要とせずに、かつ、プロセッサコアの間の事前同期を必要とせずに、累積演算を実行する。たとえば、ローカルな事前累積演算を実行して、所与のプロセッサコアでローカルに計算される部分和のそれぞれのセットを累積してもよい。

共有メモリ１０４は、本技術のベクトル縮小特徴のアトミック局面を表すこの機能をネイティブにサポートするように構成される。たとえば、システム１００の複数のコア（たとえば１０個のコア）はすべて、値の異なるベクトルを生成していてもよく、各コアは、共有メモリ場所にそれぞれのベクトルを累積する要求を提出することができる。いくつかの実現例において、この要求は、累積フラグ３３０、３３５および対応するコアＩＤ（たとえばコア０、コア１、コアＮなど）と、メモリ場所に累積すべき値とを含む。いくつかの実現例において、大規模な行列乗算ジョブは、システム１００の少なくとも２つのプロセッサコアの間で分割されてもよく、この累積／ベクトル縮小技術を用いて、行列乗算から生成される部分和またはドット積の累算を簡素化する。

いくつかの実現例において、値のベクトルを共有メモリセルに累積するためのこれらの技術は、ニューラルネットワークモデルの訓練時に用いられる。たとえば、これらの技術を用いて、プロセッサコアの分散システム全体にわたって訓練ステップの一部として計算される勾配を減少させる勾配累積のための全縮小演算を実行することができる。特に、開示されている累積縮小技術に基づいて、ニューラルネットワークモデルを訓練するためのこの勾配累積は、メモリシステムまたは共有メモリ１０４の機能としてシステム１００でネイティブに実行することができる。

図５は、入力テンソル５０４と、重みテンソル５０６の変形と、出力テンソル５０８とを含むテンソルまたは多次元行列５００の例を示す。図５では、テンソル５００の各々は、ニューラルネットワークの所与の層で実行される計算のためのデータ値に対応する要素を含む。この計算は、１つ以上のクロックサイクルで入力／活性化テンソル５０４とパラメータ／重みテンソル５０６とを乗算して出力または出力値を生成することを含み得る。出力のセット内の各出力値は、出力テンソル５０８のそれぞれの要素に対応する。活性化テンソル５０４と重みテンソル５０６とを乗算することは、テンソル５０４の要素からの活性化とテンソル５０６の要素からの重みとを乗算して部分和（複数可）を生成することを含む。

いくつかの実現例において、システム１００のプロセッサコアは、ｉ）ある多次元テンソルにおける離散要素、ｉｉ）ある多次元テンソルの同一のまたは異なる次元に沿った複数の離散要素を含む値のベクトル、またはｉｉｉ）各々の組み合わせ、に対応するベクトルに対して動作する。ある多次元テンソルにおける離散要素または複数の離散要素の各々は、テンソルの次元に応じて、Ｘ、Ｙ座標（２Ｄ）を用いてまたはＸ、Ｙ、Ｚ座標（３Ｄ）を用いて表すことができる。

システム１００は、バッチ入力を対応する重み値と乗算することにより生成された積に対応する複数の部分和を計算することができる。上述のように、システム１００は、多数のクロックサイクルにわたって積（たとえば部分和）の累算を実行することができる。たとえば、積の累算は、本文書に記載されている技術に基づいて共有メモリ１０４において実行することができる。いくつかの実現例において、入力・重み乗算は、各重み要素を入力ボリュームの離散入力（入力テンソル５０４の行またはスライスなど）の離散入力と乗算した積和として書くことができる。この行またはスライスは、所与の次元（入力テンソル５０４の第１の次元５１０、または入力テンソル５０４の第２の異なる次元５１５など）を表し得る。

いくつかの実現例において、例示的な１組の計算を用いて畳み込みニューラルネットワーク層の出力を計算することができる。ＣＮＮ層についての計算は、３Ｄ入力テンソル５０４と少なくとも１つの３Ｄフィルタ（重みテンソル５０６）との間の２Ｄ空間畳み込みを実行することを含み得る。たとえば、１つの３Ｄフィルタ５０６を３Ｄ入力テンソル５０４に対して畳み込むと、２Ｄ空間平面５２０または５２５が生成され得る。計算は、入力ボリュームの特定の次元についてドット積の和を計算することを含み得る。

たとえば、空間平面５２０は、次元５１０に沿った入力から計算される積和の出力値を含み得るのに対して、空間平面５２５は、次元５１５に沿った入力から計算される積和の出力値を含み得る。空間平面５２０および５２５の各々において出力値の積和を生成するための計算は、本文書に記載されている累積縮小ステップを用いて共有メモリ１０４において（たとえば共有メモリセル４４５で）実行することができる。

図６は、ハードウェア回路の共有スクラッチパッドメモリを用いてベクトル縮小を実行するための例示的なプロセス６００を示すフロー図であり、ハードウェア回路は、この共有メモリと通信するプロセッサコアを有する。いくつかの実現例において、プロセス６００は、図１の共有メモリを用いてニューラルネットワーク計算を加速させるために用いられる技術の一部である。

プロセス６００は、上記のシステム１００を用いて実現または実行することができる。プロセス６００の説明は、システム１００の上記の計算リソースを参照することができる。プロセス６００のステップまたはアクションは、本文書に記載されているデバイスおよびリソースの１つ以上のプロセッサによって実行可能なプログラムされたファームウェアまたはソフトウェア命令によって可能にされ得る。いくつかの実現例において、プロセス６００のステップは、ニューラルネットワークを実行するように構成されたハードウェア回路を用いてニューラルネットワーク層の出力を生成するための計算を実行する方法に対応する。

ここでプロセス６００を参照して、システム１００において値のベクトルを生成する（６０２）。たとえば、システム１００の１つ以上のハードウェア回路に含まれるプロセッサコアごとに、プロセッサコアで実行される計算に基づいて、値のベクトルのそれぞれを生成する。

システム１００の共有メモリは、値のベクトルのそれぞれを受信する（６０４）。たとえば、共有メモリ１０４は、共有メモリ１０４のダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、プロセッサコアのそれぞれのリソースから値のベクトルを受信する。いくつかの実現例において、ベクトルまたは値のベクトルが、単一のプロセッサコア（または複数のプロセッサコアの各々）によって生成された後、値のベクトルを用いて計算を実行するシステム１００の共有メモリに提供される。たとえば、共有メモリは、第１のプロセッサコアからベクトルを取得し、取得したベクトルと１つ以上の他のベクトルとを用いて縮小演算を実行することができる。１つ以上の他のベクトルは、第１のプロセッサコア以外のプロセッサコアから受信または取得されてもよい。

いくつかの他の実現例において、システム１００は、累積演算とともに直接格納動作を実行するように構成される。たとえば、システム１００は、共有メモリ１０４の共有メモリ場所に値の１つ以上のベクトルを直接格納するために用いられる累積フラグ３３０、３３５を生成することができる。ベクトルは、単一のプロセッサコアからであってもよく、または複数の異なるプロセッサコアからであってもよい。たとえば、プロセッサコア１０５－１または３０２－２は、累積フラグを表す制御信号を生成し、その制御信号を共有メモリ１０４の制御ユニット２０１に渡すことができる。システム１００は、値のベクトルをベクトルメモリ１０６、１０８に格納してから、値のベクトルをベクトルメモリから共有メモリ１０４に移動させるＤＭＡ動作を実行するように構成され得る。

システム１００は、値のベクトルのそれぞれに対して累積演算を実行する（６０６）。より具体的には、共有メモリ１０４は、値のベクトルのそれぞれが共有メモリ場所に書込まれると累積演算を実行する。たとえば、システム１００は、共有メモリ１０４に、共有メモリ１０４に結合された演算器３２０を用いて値のベクトルのそれぞれに対して累積演算を実行させる。システム１００は、同一のベクトルの異なる要素（または値）、および異なるベクトルの要素に対応する値を累積するように動作可能である。演算器３２０は、演算器ユニットで符号化された算術演算に基づいて値を累積するように構成される。いくつかの実現例において、算術演算は、可換性によって制御される数学的演算である。算術演算はアトミック縮小（たとえばアトミック浮動小数点縮小）を含み得る。

たとえば、アトミック縮小は、値のベクトルが共有メモリのメモリ場所（共有セルなど）に直接累積される累積またはベクトル縮小ステップとして処理される。一例では、システム１００は、累積演算の一部として、複数の異なるコアから生成された複数のベクトルを累積する。別の例では、システム１００は、共有メモリ１０４に（メモリの共有セルなどに）すでに格納されている値（たとえばベクトル）を、コアによって生成された値と累積する。別の例では、システム１００は、複数の異なるコアから生成された複数のベクトルを、共有メモリ１０４にすでに格納されている１つ以上の値と累積する。コアで生成されたベクトルと共有メモリにすでに格納されている値とを含む前述の例は、縮小演算にも適用可能であり、演算器３２０を用いて実行され得る他のタイプの算術演算にも適用可能である。

いくつかの他の実現例において、プロセッサコア３０２－１、３０２－２の各々は、累積が必要なベクトルを提供し、値は、プロセッサコア３０２－１、３０２－２の間でアクティビティを同期させることなくメモリ場所に直接累積される。同様に、値は、プロセッサコア３０２－１、３０２－２のいずれかが、これらのプロセッサコアのいずれかで実行された計算から生じ得る積（たとえば部分和）を事前に累積するステップを実行しなくても、メモリ場所に直接累積することができる。言い換えれば、システム１００の２つ以上のコアは、部分和を含む値のベクトルを、メモリ１０４の共有メモリセルのアドレス場所（たとえば中央アドレス場所）に任意の順序で累積することができる。システム１００は、いくつかの実現例において、コアでローカルに行う必要がある事前累積演算がないように、かつ、いくつかの他の実現例において、部分和の一部または特定のタイプの部分和が所与のコアで累積され得るように、構成可能である。

システム１００は、累積演算に基づいて結果ベクトル（たとえば最終結果ベクトル）を生成する（６０８）。たとえば、システム１００は、値の１つ以上のベクトルと共有メモリに格納されているベクトルとを用いて累積演算を実行したことに基づいて、最終結果ベクトルを生成する。いくつかの実現例において、システム１００は結果ベクトルを生成し、この結果ベクトルの個々の要素は、第１のベクトルの各要素と共有メモリに格納されているベクトルの対応する各要素とに累積演算をペアワイズで適用したことによって生じる。結果ベクトルは、最終結果を生成するために累積されるそれぞれのベクトルがどのような順序で共有メモリセルに到着した場合でも、累積の正しい数学的結果を提供する。

いくつかの実現例において、この所望の結果を達成するために、制御ユニット２０１および少なくとも演算器３２０の制御論理３２５を用いて実行される制御４３５（たとえば読出・修正・書込制御ループ）に基づいて、１つ以上のＤＭＡ動作が検出され、優先順位を付けられ、順序付けられてもよい。たとえば、制御ユニット２０１は、ベクトルを提供する対応するコアを含む入来ベクトル／ベクトル値のセットを検出し、演算器３２０を用いて、制御４３５によって指定される所与の優先順位スキームに基づいて個々の累積演算をシリアライズすることができる。優先順位スキームを用いて、書込みトラフィックを必要に応じて停止または再順序付けすることにより、古いベクトル値に対してベクトル値が累積されないようにすることができる。

結果ベクトルは、ニューラルネットワーク層の出力のセットを表す最終結果ベクトルであり得る。たとえば、ニューラルネットワーク層は畳み込みニューラルネットワーク層であり得て、出力は、入力テンソル５０４の特定の入力ボリューム全体にわたって各カーネル（たとえばテンソル５０６のパラメータ／重み）を畳み込んだことに応じて生成される活性化値のセットであり得る。

システム１００は、値のベクトルのそれぞれに対して累積演算を実行した結果として、累積値のベクトルを生成することができる。いくつかの実現例において、値のベクトルのそれぞれは、ドット積に対応する部分和である。たとえば、畳み込みニューラルネットワーク層を再び参照して、上述の入力ボリュームの入力は、ｉ）入力テンソル５０４の所与の次元（たとえば次元５１０）に沿った各入力値と、ｉｉ）畳み込み層のパラメータのセットとを用いて、ドット積演算を実行することによって処理される。重みテンソル５０６の少なくとも１つのカーネルと入力ボリュームの所与の次元に沿った入力の一部とを畳み込んだことに応じて、ドット積または部分和の対応するセットを共有メモリ１０４のメモリ場所に累積して累積値のセットを生成することができる。

システム１００は、累積値のベクトル内の各値に活性化関数を適用することができる。たとえば、ニューラルネットワークの層は、ニューラルネットワークにおいて非線形性を提供する非線形関数を表す活性化関数（ＲｅＬＵ、シグモイド、またはｔａｎｈなど）を有する場合もある（または有さない場合もある）。システム１００は、累積値のベクトル内の各値に活性化関数を適用したことに応じて、結果ベクトルを生成する。いくつかの実現例において、ハードウェア回路１０１は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成されたハードウェアアクセラレータであり、システム１００は、結果ベクトルに基づいてニューラルネットワークの層の出力を生成する。たとえば、ニューラルネットワーク層で層入力を処理することは、この層が活性化関数を適用して、ニューラルネットワーク層の出力である活性化値のセットを生成することを含み得る。第１のニューラルネットワーク層によって生成された活性化は、ニューラルネットワークの第２の層または後続層を通して処理することができる。

本明細書に記載されている主題の実施形態および機能的動作は、デジタル電子回路において、有形的に実現されたコンピュータソフトウェアもしくはファームウェアにおいて、本明細書に開示されている構造およびその構造的均等物を含むコンピュータハードウェアにおいて、または、これらのうちの１つ以上を組み合わせたものにおいて、実現することができる。本明細書に記載されている主題の実施形態は、１つ以上のコンピュータプログラムとして、すなわち、データ処理装置によって実行されるまたはデータ処理装置の動作を制御するための有形の非一時的なプログラムキャリア上で符号化されたコンピュータプログラム命令の１つ以上のモジュールとして、実現することができる。

これに代えてまたはこれに加えて、プログラム命令は、データ処理装置による実行のために適切な受信装置に送信される情報を符号化するために生成された、人為的に生成された伝搬信号（たとえばマシンによって生成された電気、光、または電磁信号）上で符号化することができる。コンピュータ記憶媒体は、機械読取可能記憶媒体、機械読取可能記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、または、これらのうちの１つ以上を組み合わせたものであってもよい。

「計算システム」という用語は、データを処理するためのすべての種類の装置、デバイスおよびマシンを包含し、一例として、プログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む。装置は、特別目的論理回路（たとえば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路））を含み得る。また、装置は、ハードウェアに加えて、対象のコンピュータプログラムのための実行環境を作成するコード（たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの１つ以上の組み合わせを構成するコード）も含み得る。

コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、もしくはコードと称されてもよく、またはそのようなものとして説明されてもよい）は、任意の形式のプログラミング言語（コンパイル型もしくはインタプリタ型言語、または宣言型もしくは手続き型言語を含む）で書くことができ、任意の形式で（スタンドアロンのプログラムとして、または、計算環境での使用に適したモジュール、コンポーネント、サブルーチンもしくは他のユニットとして、など）デプロイすることができる。

コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、必ずしもそうでなくてもよい。プログラムは、他のプログラムもしくはデータを保持するファイルの一部（たとえば、マークアップ言語文書に格納された１つ以上のスクリプト）に格納されてもよく、対象のプログラムに専用の単一のファイルに格納されてもよく、または複数の連携したファイル（たとえば、１つ以上のモジュール、サブプログラム、もしくはコードの一部を格納するファイル）に格納されてもよい。コンピュータプログラムは、１つのコンピュータで実行されるようにデプロイされてもよく、または、一箇所に位置しているかもしくは複数箇所に分散されて通信ネットワークによって相互接続されている複数のコンピュータで実行されるようにデプロイされてもよい。

本明細書に記載されているプロセスおよび論理フローは、入力データに対して動作して出力を生成することによって機能を実行するように１つ以上のコンピュータプログラムを実行する１つ以上のプログラマブルコンピュータによって実行することができる。これらのプロセスおよび論理フローも、特別目的論理回路（たとえば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、またはＧＰＧＰＵ（汎用グラフィックス処理装置））によって実行することができ、装置も、特別目的論理回路として実現することができる。

コンピュータプログラムの実行に適したコンピュータは、一例として、汎用もしくは専用マイクロプロセッサまたはそれら両方、またはその他の種類の中央処理装置を含み、それらに基づき得る。一般的に、中央処理装置は、読み取り専用メモリまたはランダムアクセスメモリまたはそれら両方から命令およびデータを受信する。コンピュータのいくつかの要素は、命令を実施または実行するための中央処理装置と、命令およびデータを格納するための１つ以上のメモリデバイスとである。一般的に、コンピュータは、データを格納するための１つ以上のマスストレージデバイス（たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスク）も含み、または、これらの１つ以上のマスストレージデバイスとの間でデータを受信したり、送信したり、送受信したりするように作動的に結合されている。しかし、コンピュータは、このようなデバイスを有していなくてもよい。さらに、コンピュータは、別のデバイス（たとえば、いくつか例を挙げると、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオもしくはビデオプレーヤ、ゲーム機、グローバルポジショニングシステム（ＧＰＳ）受信機、または携帯型ストレージデバイス（たとえば、ユニバーサルシリアルバス（ＵＳＢ）フラッシュドライブ））に組み込むことができる。

コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読取可能媒体は、すべての形態の不揮発性メモリ、媒体およびメモリデバイス（一例として、半導体メモリデバイス（たとえば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（たとえば、内部ハードディスクまたはリムーバブルディスク）、光磁気ディスク、ならびにＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む）を含む。プロセッサおよびメモリは、特別目的論理回路によって補完されることができ、または特別目的論理回路に組み入れられることができる。

ユーザとのやり取りを提供するために、本明細書に記載されている主題の実施形態は、ユーザに対して情報を表示するためのディスプレイデバイス（たとえば、ＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス（たとえば、マウスまたはトラックボール）とを有するコンピュータ上で実現することができる。その他の種類のデバイスを用いてユーザとのやり取りが行われるようにしてもよい。たとえば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（たとえば、視覚フィードバック、聴覚フィードバックまたは触覚フィードバック）であり得て、ユーザからの入力は、任意の形式（音響入力、音声入力または触覚入力を含む）で受信することができる。加えて、コンピュータは、ユーザとのやり取りを、ユーザが使用するデバイスとの間で文書を送受信することによって（たとえば、ユーザのクライアントデバイス上のウェブブラウザから要求を受信したことに応答してウェブブラウザにウェブページを送信することによって）実現してもよい。

本明細書に記載されている主題の実施形態は、たとえばデータサーバとしてバックエンドコンポーネントを含む計算システムで実現されてもよく、または、ミドルウェアコンポーネント（たとえば、アプリケーションサーバ）を含む計算システムで実現されてもよく、または、フロントエンドコンポーネント（たとえば、ユーザが本明細書に記載されている主題の実現例とやり取りすることができるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ）を含む計算システムで実現されてもよく、または、１つ以上のこのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実現されてもよい。システムのこれらのコンポーネントは、デジタルデータ通信の任意の形式または媒体（たとえば、通信ネットワーク）によって相互接続されることができる。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）およびワイドエリアネットワーク（「ＷＡＮ」）（たとえば、インターネット）が挙げられる。

計算システムはクライアントとサーバとを含み得る。クライアントとサーバは、通常は互いに離れており、通信ネットワークを通してやり取りするのが一般的である。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行されクライアントとサーバとの関係を有するコンピュータプログラムによって発生する。

本明細書には実装の具体的詳細事項が多く含まれているが、これらは、どの発明の範囲またはクレームし得るものの範囲の限定としても解釈されてはならないものであって、むしろ、特定の発明の特定の実施形態に固有であり得る特徴の説明として解釈されるべきものである。本明細書において、別々の実施形態という観点で記載されている特定の特徴は、１つの実施形態において組み合わせて実現することも可能である。逆に、１つの実施形態という観点から記載されている各種特徴を、複数の実施形態において別々に、または任意の適切な下位の組み合わせとして実現することも可能である。さらに、特徴は、特定の組み合わせで機能するものとして記載され最初にそういうものとしてクレームされている場合があるが、クレームされている組み合わせに含まれる１つ以上の特徴は、場合によってはこの組み合わせから省略することができ、クレームされている組み合わせは下位の組み合わせまたは下位の組み合わせの変形に関するものである場合がある。

同様に、動作は図面において特定の順序で示されているが、これは、このような動作が、示されている特定の順序もしくは連続した順序で実行されることを要する、または、示されているすべての動作が所望の結果を得るために実行されることを要する、と理解されてはならない。特定の状況ではマルチタスキングおよび並列処理が有利な場合がある。さらに、上記実施形態における各種システムモジュールおよびコンポーネントの分離は、すべての実施形態においてこのような分離を要するものと理解されてはならない。記載されているプログラムコンポーネントおよびシステムは一般的に、１つのソフトウェアプロダクトに統合できる、または、パッケージングして複数のソフトウェアプロダクトにできることが、理解されるはずである。

主題の特定の実施形態について説明してきた。他の実施形態は、以下の請求項の範囲内である。たとえば、請求項に記載されている動作は、異なる順序で実行されても所望の結果を達成することができる。一例として、添付の図面に示されているプロセスは、所望の結果を達成するために、示されている特定の順序または連続した順序を必ずしも必要としない。特定の実現例では、マルチタスキングおよび並列処理が有利な場合がある。

Claims

共有メモリと、前記共有メモリと通信する複数のプロセッサコアとを有するハードウェア回路を用いて実行される方法であって、前記方法は、
第１のプロセッサコアのベクトル処理ユニットによって演算されるベクトルオペランドに基づいて、値の第１のベクトルを生成することと、
前記共有メモリが、前記共有メモリのダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、前記第１のプロセッサコアから前記値の第１のベクトルを受信することと、
前記値の第１のベクトルと前記共有メモリに格納されているベクトルとの間の累積演算を実行することとを備え、
前記累積演算は演算器ユニットを用いて実行され、前記演算器ユニットは、
ｉ）１つ以上のベクトルのそれぞれの値を累積するように構成され、
ｉｉ）前記値の第１のベクトルが前記共有メモリにルーティングされることにより、前記値の第１のベクトルが、前記第１のプロセッサコアの外部の前記共有メモリに格納されている前記ベクトルに累積されるように、前記ベクトル処理ユニットおよび前記第１のプロセッサコアの外部に位置し、前記方法はさらに、
前記累積演算に基づいて結果ベクトルを生成することを備える、方法。
前記共有メモリに格納されている前記ベクトルは、第２のプロセッサコアから受信したものであり、前記方法は、
前記共有メモリのメモリ場所を用いて前記値の第１のベクトルのそれぞれの値を累積するメモリへの累積動作を実行することと、
前記共有メモリの前記メモリ場所を用いて値の第２のベクトルのそれぞれの値を累積するメモリへの累積動作を実行することとを備える、請求項１に記載の方法。
前記累積演算に基づいて前記結果ベクトルを生成することは、
前記第１のプロセッサコアで実行される計算から得られる積を事前に累積するステップを前記第１のプロセッサコアが実行することなく、前記結果ベクトルを生成することと、
前記第２のプロセッサコアで実行される計算から得られる積を事前に累積するステップを前記第２のプロセッサコアが実行することなく、前記結果ベクトルを生成することとを含む、請求項２に記載の方法。
前記結果ベクトルを生成することは、
前記値の第１のベクトルに対して前記累積演算を実行した結果として、累積値のベクトルを生成することと、
前記累積値のベクトル内の各値に活性化関数を適用することと、
前記累積値のベクトル内の各値に前記活性化関数を適用した結果として、前記結果ベクトルを生成することとを含む、請求項１～３のいずれか１項に記載の方法。
前記第１のプロセッサコアのそれぞれのリソースは、第１の行列計算ユニットであり、前記方法はさらに、
前記第１のプロセッサコアの前記第１の行列計算ユニットを用いて実行される行列乗算に基づいて、前記値の第１のベクトルに対応する累積値の第１のベクトルを生成することを備える、請求項２または３に記載の方法。
前記第２のプロセッサコアのそれぞれのリソースは、第２の行列計算ユニットであり、前記方法はさらに、
前記第２のプロセッサコアの前記第２の行列計算ユニットを用いて実行される行列乗算に基づいて、前記値の第２のベクトルに対応する累積値の第２のベクトルを生成することを備える、請求項５に記載の方法。
前記ハードウェア回路は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成されたハードウェアアクセラレータであり、
前記方法は、前記結果ベクトルに基づいて前記ニューラルネットワークの層の出力を生成することを備える、請求項１～６のいずれか１項に記載の方法。
前記第１のプロセッサコアで実行される計算に基づいて、前記値の第１のベクトルを生成することと、
前記第２のプロセッサコアで実行される計算に基づいて、前記値の第２のベクトルを生成することとをさらに備え、
前記第１のプロセッサコアで実行される前記計算および前記第２のプロセッサコアで実行される前記計算は、可換性によって制御される数学的演算の一部である、請求項２、３、５、および６のいずれか１項に記載の方法。
前記数学的演算は、
浮動小数点乗算演算、
浮動小数点加算演算、
整数加算演算、または
最小－最大演算である、請求項８に記載の方法。
前記数学的演算は、浮動小数点加算演算および整数加算演算を含む、請求項８に記載の方法。
前記第１のプロセッサコアおよび第２のプロセッサコアは同一のプロセッサコアである、請求項２、３、５、６、および８～１０のいずれか１項に記載の方法。
前記共有メモリは、前記ハードウェア回路の２つ以上のプロセッサコアの間で共有されるメモリバンクおよびレジスタを含む共有グローバルメモリ空間として機能するように構成される、請求項１～１１のいずれか１項に記載の方法。
システムであって、
処理装置と、
共有メモリと、前記共有メモリと通信する複数のプロセッサコアとを有するハードウェア回路と、
動作を実行させるように前記処理装置によって実行可能な命令を格納するための非一時的な機械読取可能記憶装置とを備え、前記動作は、
第１のプロセッサコアのベクトル処理ユニットによって演算されるベクトルオペランドに基づいて、値の第１のベクトルを生成することと、
前記共有メモリが、前記共有メモリのダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、前記第１のプロセッサコアから前記値の第１のベクトルを受信することと、
前記値の第１のベクトルと前記共有メモリに格納されているベクトルとの間の累積演算を実行することとを含み、
前記累積演算は演算器ユニットを用いて実行され、前記演算器ユニットは、
ｉ）１つ以上のベクトルのそれぞれの値を累積するように構成され、
ｉｉ）前記値の第１のベクトルが前記共有メモリにルーティングされることにより、前記値の第１のベクトルが、前記第１のプロセッサコアの外部の前記共有メモリに格納されている前記ベクトルに累積されるように、前記ベクトル処理ユニットおよび前記第１のプロセッサコアの外部に位置し、前記動作はさらに、
前記累積演算に基づいて結果ベクトルを生成することを含む、システム。
前記共有メモリに格納されている前記ベクトルは、第２のプロセッサコアから受信したものであり、前記動作は、
前記共有メモリのメモリ場所を用いて前記値の第１のベクトルのそれぞれの値を累積するメモリへの累積動作を実行することと、
前記共有メモリの前記メモリ場所を用いてに値の第２のベクトルのそれぞれの値を累積するメモリへの累積動作を実行することとを含む、請求項１３に記載のシステム。
前記累積演算に基づいて前記結果ベクトルを生成することは、
前記第１のプロセッサコアで実行される計算から得られる積を事前に累積するステップを前記第１のプロセッサコアが実行することなく、前記結果ベクトルを生成することと、
前記第２のプロセッサコアで実行される計算から得られる積を事前に累積するステップを前記第２のプロセッサコアが実行することなく、前記結果ベクトルを生成することとを含む、請求項１４に記載のシステム。
前記結果ベクトルを生成することは、
前記値の第１のベクトルに対して前記累積演算を実行した結果として、累積値のベクトルを生成することと、
前記累積値のベクトル内の各値に活性化関数を適用することと、
前記累積値のベクトル内の各値に前記活性化関数を適用した結果として、前記結果ベクトルを生成することとを含む、請求項１３～１５のいずれか１項に記載のシステム。
前記第１のプロセッサコアのそれぞれのリソースは、第１の行列計算ユニットであり、前記動作はさらに、
前記第１のプロセッサコアの前記第１の行列計算ユニットを用いて実行される行列乗算に基づいて、前記値の第１のベクトルに対応する累積値の第１のベクトルを生成することを含む、請求項１４または１５に記載のシステム。
前記第２のプロセッサコアのそれぞれのリソースは、第２の行列計算ユニットであり、前記動作はさらに、
前記第２のプロセッサコアの前記第２の行列計算ユニットを用いて実行される行列乗算に基づいて、前記値の第２のベクトルに対応する累積値の第２のベクトルを生成することを含む、請求項１７に記載のシステム。
前記ハードウェア回路は、複数のニューラルネットワーク層を含むニューラルネットワークを実行するように構成されたハードウェアアクセラレータであり、
前記動作は、前記結果ベクトルに基づいて前記ニューラルネットワークの層の出力を生成することを含む、請求項１３～１８のいずれか１項に記載のシステム。
前記第１のプロセッサコアで実行される計算に基づいて、前記値の第１のベクトルを生成することと、
前記第２のプロセッサコアで実行される計算に基づいて、前記値の第２のベクトルを生成することとをさらに含み、
前記第１のプロセッサコアで実行される前記計算および前記第２のプロセッサコアで実行される前記計算は、可換性によって制御される数学的演算の一部である、請求項１４、１５、１７、および１８のいずれか１項に記載のシステム。
前記数学的演算は、
浮動小数点乗算演算、
浮動小数点加算演算、
整数加算演算、または
最小－最大演算である、請求項２０に記載のシステム。
前記数学的演算は、浮動小数点加算演算および整数加算演算を含む、請求項２０に記載のシステム。
前記第１のプロセッサコアおよび第２のプロセッサコアは同一のプロセッサコアである、請求項１４、１５、１７、１８、および２０～２２のいずれか１項に記載のシステム。
前記共有メモリは、前記ハードウェア回路の２つ以上のプロセッサコアの間で共有されるメモリバンクおよびレジスタを含む共有グローバルメモリ空間として機能するように構成される、請求項１３～２３のいずれか１項に記載のシステム。
動作を実行させるように処理装置によって実行可能な命令を格納するコンピュータプログラムであって、前記動作は、
第１のプロセッサコアのベクトル処理ユニットによって演算されるベクトルオペランドに基づいて、値の第１のベクトルを生成することと、
共有メモリが、前記共有メモリのダイレクトメモリアクセス（ＤＭＡ）データパスを用いて、前記第１のプロセッサコアから前記値の第１のベクトルを受信することと、
前記値の第１のベクトルと前記共有メモリに格納されているベクトルとの間の累積演算を実行することと含み、
前記累積演算は演算器ユニットを用いて実行され、前記演算器ユニットは、
ｉ）１つ以上のベクトルのそれぞれの値を累積するように構成され、
ｉｉ）前記値の第１のベクトルが前記共有メモリにルーティングされることにより、前記値の第１のベクトルが、前記第１のプロセッサコアの外部の前記共有メモリに格納されている前記ベクトルに累積されるように、前記ベクトル処理ユニットおよび前記第１のプロセッサコアの外部に位置し、前記動作はさらに、
前記累積演算に基づいて結果ベクトルを生成することを含む、コンピュータプログラム。