JP2022540548A

JP2022540548A - エネルギー効率的な入力オペランド固定アクセラレータにおいて小チャネルカウント畳み込みを実施するためのシステムおよび方法

Info

Publication number: JP2022540548A
Application number: JP2021572859A
Authority: JP
Inventors: ガネシュヴェンカテーシュ，; リャンジェンライ，; ピアスイ－ジェンチャン，; モンリー，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-15
Filing date: 2020-07-09
Publication date: 2022-09-16
Also published as: US11675998B2; CN114402338A; WO2021011314A1; WO2021011314A8; EP4000012A1; US20210019591A1; KR20220031115A

Abstract

本明細書の開示は、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信するためのシステム、方法、およびデバイスを含む。複数の出力は第１のアレイ中に構成される。第１のアレイの次元は、複数の処理装置（ＰＥ）を含むＰＥアレイの次元と比較されてもよい。比較することの結果にしたがって、第１のアレイはプロセッサによってサブアレイに区画化される。サブアレイの各々は、ＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有する。ＰＥアレイ中のＰＥの第１のグループはサブアレイのうちの第１のサブアレイに割り当てられる。複数の出力の対応する出力は、サブアレイのうちの第１のサブアレイに割り当てられたＰＥの第１のグループの各ＰＥによって、入力データの一部分を使用して生成される。【選択図】図１Ａ

Description

本開示は、全体として、出力のアレイをサブアレイに区画化し、サブアレイのうちの１つに処理要素を割り当てることによって出力を生成するためのシステムおよび方法を含むがそれらに限定されない、ニューラルネットワークの層のための出力を生成するためのシステムおよび方法に関する。

人工知能（ＡＩ）アクセラレータにおける１つの課題は、ニューラルネットワークに対するＡＩ処理を実施する際の消費電力の制御または低減に関連する。例えば、ニューラルネットワークは、畳み込み層を含むことができる、畳み込みニューラルネットワークであってもよい。畳み込み層では、ＡＩアクセラレータは、畳み込み演算を入力層に適用して、従来の全結合の順伝播型ニューラルネットワークと比較してパラメータの数を低減する形で、結果を次の層に渡すことができる。しかしながら、畳み込みニューラルネットワークで使用される多次元（例えば、複数のチャネル）の入出力が複雑になればなるほど、エネルギーおよびレイテンシを低減する方法が望まれ得る。更に、入力データとカーネルとを用いて畳み込み演算を実施する際の処理の範囲に関して、冗長演算の回避が望まれ得る。

本発明によれば、ニューラルネットワークの層のための複数の出力を生成するためのデバイスが提供され、デバイスは、プロセッサと、複数の処理装置（ＰＥ）を含むＰＥアレイとを含み、プロセッサは、複数の出力が第１のアレイ中に構成された、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信し、第１のアレイの次元をＰＥアレイの次元と比較し、比較することの結果にしたがって、第１のアレイを、それぞれＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有するサブアレイに区画化し、ＰＥアレイ中のＰＥの第１のグループをサブアレイのうちの第１のサブアレイに割り当てるように構成され、サブアレイのうちの第１のサブアレイに割り当てられたＰＥの第１のグループの各ＰＥは、入力データの一部分を使用して複数の出力の対応する出力を生成するように構成される。

いくつかの実施形態では、ＰＥアレイは二次元Ｍ×Ｎアレイであってもよい。ＭおよびＮの各々は１よりも大きい整数である。プロセッサは、第１のアレイをＭ×Ｎアレイ、Ｍ×Ｎ／２アレイ、Ｍ／２×Ｎアレイ、またはＭ／２×Ｎ／２アレイのうちの１つまたは複数に区画化するように構成されてもよい。

いくつかの実施形態では、プロセッサは、第１の次元における第１のアレイのサイズが第１の次元におけるＰＥアレイのサイズよりも大きいかどうかを決定するように構成されてもよい。第１の次元における第１のアレイのサイズが第１の次元におけるＰＥアレイのサイズよりも大きいことを決定したことに応答して、プロセッサは、第１のアレイをサブアレイのうちの第１のサブアレイと第２のサブアレイとに区画化するように構成されてもよい。プロセッサは、第１のサブアレイをＰＥアレイ中のＰＥの第１のグループに割り当て、第２のサブアレイをＰＥの第１のグループとは異なるＰＥアレイ中のＰＥの第２のグループに割り当てるように構成されてもよい。

いくつかの実施形態では、プロセッサは更に、ＰＥの第１と第２のグループの両方によって使用されるべき入力データの共通の部分を識別するように構成されてもよい。プロセッサは更に、入力データの共通の部分を少なくとも複数のＰＥの部分を通してＰＥの第１および第２のグループにシフトするように構成されてもよい。

いくつかの実施形態では、プロセッサは更に、ＰＥの第１のグループによって使用されるべき入力データの第１の部分と、ＰＥの第２のグループによって使用されるべき入力データの第２の部分とを識別するように構成されてもよい。プロセッサは更に、入力データの第１の部分を第１の次元に沿ってＰＥの第１のグループにシフトするように構成されてもよい。プロセッサは更に、入力データの第２の部分を第１の次元に沿ってＰＥの第２のグループにシフトするように構成されてもよい。

いくつかの実施形態では、複数の出力はニューラルネットワークの層のための畳み込み演算の出力であってもよい。

いくつかの実施形態では、入力データは第１の複数の入力値と第２の複数の入力値とを含んでもよく、ＰＥの第１のグループの各ＰＥは、第１のバッファメモリと、第２のバッファメモリと、乗累算器（ＭＡＣ）回路類とを含んでもよい。複数の出力の対応する出力を生成することにおいて、ＰＥの第１のグループの各ＰＥは、第１の複数の入力値の第１の値と、第２の複数の入力値の第２の値とを受信するように構成されてもよい。ＰＥの第１のグループの各ＰＥは、第１の値および第２の値をそれぞれ第１のバッファメモリおよび第２のバッファメモリに格納するように構成されてもよい。ＰＥの第１のグループの各ＰＥは、ＭＡＣ回路類を介して、第１の値と第２の値との第１のドット積を生成するように構成されてもよい。

いくつかの実施形態では、各ＰＥは、複数の第１の入力値からの値の第１の数のセットを第１のバッファメモリに格納するように構成されてもよい。各ＰＥは、ＭＡＣ回路類を介して、（ｉ）第１のバッファメモリに格納された値の第１の数のセットの各々と、（ｉｉ）第２のバッファメモリに格納された第２の値とのドット積を計算するように構成されてもよい。各ＰＥは、第１の数の計算されたドット積をニューラルネットワークの層のための畳み込み演算の出力として出力するように構成されてもよい。

各ＰＥは、複数の第２の入力値からの値の第２の数のセットを第２のバッファメモリに格納するように構成されてもよい。各ＰＥは、ＭＡＣ回路類を介して、（ｉ）第１のバッファメモリに格納された第１の値と、（ｉｉ）第２のバッファメモリに格納された値の第２の数のセットの各々とのドット積を計算するように構成されてもよい。各ＰＥは、第２の数の計算されたドット積をニューラルネットワークの層のための畳み込み演算の出力として出力するように構成されてもよい。

いくつかの実施形態では、第１の複数の入力値は、ニューラルネットワークの層に対する入力データストリームと重みとのうちの一方を表してもよい。第２の複数の入力値は、ニューラルネットワークの層に対する入力データストリームと重みとのうちの他方を表してもよい。

本発明によれば、ニューラルネットワークの層のための複数の出力を生成するための方法が提供され、本方法は、プロセッサによって、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信することであって、複数の出力が第１のアレイ中に構成された、入力データを受信することと、プロセッサによって、第１のアレイの次元を複数の処理装置（ＰＥ）を含むＰＥアレイの次元と比較することと、比較することの結果にしたがって、プロセッサによって、第１のアレイをそれぞれＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有するサブアレイに区画化することと、プロセッサによって、ＰＥアレイ中のＰＥの第１のグループをサブアレイのうちの第１のサブアレイに割り当てることと、サブアレイのうちの第１のサブアレイに割り当てられたＰＥの第１のグループの各ＰＥによって、入力データの一部分を使用して複数の出力の対応する出力を生成することとを含む。

いくつかの実施形態では、ＰＥアレイは二次元Ｍ×Ｎアレイであってもよい。ＭおよびＮの各々は１よりも大きい整数であってもよい。第１のアレイを区画化することにおいて、第１のアレイはＭ×Ｎアレイ、Ｍ×Ｎ／２アレイ、Ｍ／２×Ｎアレイ、またはＭ／２×Ｎ／２アレイのうちの１つまたは複数に区画化されてもよい。

いくつかの実施形態では、第１の次元における第１のアレイのサイズが第１の次元におけるＰＥアレイのサイズよりも大きいかどうかが決定されてもよい。第１の次元における第１のアレイのサイズが第１の次元におけるＰＥアレイのサイズよりも大きいことを決定したことに応答して、第１のアレイはサブアレイのうちの第１のサブアレイと第２のサブアレイとに区画化されてもよい。第１のサブアレイは、ＰＥアレイ中のＰＥの第１のグループに割り当てられてもよく、第２のサブアレイはＰＥアレイ中のＰＥの第２のグループに割り当てられてもよい。第１の次元とは異なる第２の次元におけるＰＥの第１のグループの位置は第２の次元におけるＰＥの第２のグループの位置とは異なってもよい。

いくつかの実施形態では、ＰＥの第１のグループと第２のグループの両方によって使用されるべき入力データの共通の部分が識別されてもよい。入力データの共通の部分は、第２の次元に沿って少なくとも複数のＰＥの一部分を通してＰＥの第１および第２のグループにシフトされてもよい。

いくつかの実施形態では、ＰＥの第１のグループによって使用されるべき入力データの第１の部分が識別されてもよく、ＰＥの第２のグループによって使用されるべき入力データの第２の部分が識別されてもよい。入力データの第１の部分は、第１の次元に沿ってＰＥの第１のグループを通してシフトされてもよい。入力データの第２の部分は、第１の次元に沿ってＰＥの第２のグループを通してシフトされてもよい。

いくつかの実施形態では、複数の出力は、ニューラルネットワークの層のための畳み込み演算の出力であってもよい。

いくつかの実施形態では、入力データは、第１の複数の入力値と第２の複数の入力値とを含んでもよい。ＰＥの第１のグループの各ＰＥによって複数の出力のうちの対応する出力を生成する際、第１の複数の入力値の第１の値と、第２の複数の入力値の第２の値とは前記各ＰＥによって受信されてもよい。第１の値および第２の値は、それぞれ前記各ＰＥの第１のバッファメモリおよび第２のバッファメモリに各ＰＥによって格納されてもよい。第１の値と第２の値との第１のドット積は各ＰＥの乗累算器（ＭＡＣ）回路類によって生成されてもよい。

いくつかの実施形態では、第１の複数の入力値からの値の第１の数のセットは各ＰＥの第１のバッファメモリに格納されてもよい。（ｉ）各ＰＥの第１のバッファメモリに格納された値の第１の数のセットの各々と、（ｉｉ）各ＰＥの第２のバッファメモリに格納された第２の値とのドット積はＭＡＣ回路類によって計算されてもよい。第１の数の計算されたドット積は、ニューラルネットワークの層のための畳み込み演算の出力であってもよい。

いくつかの実施形態では、複数の第２の入力値からの値の第２の数のセットは各ＰＥの第２のバッファメモリに格納されてもよい。（ｉ）前記各ＰＥの第１のバッファメモリに格納された第１の値と、（ｉｉ）各ＰＥの第２のバッファメモリに格納された値の第２の数のセットの各々とのドット積はＭＡＣ回路類によって計算されてもよい。第１のドット積および第２の数の計算されたドット積は、ニューラルネットワークの層のための畳み込み演算の出力であってもよい。

上記および他の態様ならびに実現例について、以下で詳細に考察する。上述の情報および以下で詳述する説明は、様々な態様および実現例の実例を含み、特許請求する態様および実現例の性質ならびに特徴を理解するための概観または枠組みを提供する。図面は、様々な態様および実現例の例示ならびに更なる理解を提供し、本明細書に組み込まれるとともに本明細書の一部を構成する。

添付図面は縮尺通りに描かれることを意図しない。様々な図面における同様の参照番号および記号は同様の要素を示す。明瞭にするため、全ての図面において全ての構成要素に符号が付されるわけではない。

本開示の例示の一実現例による、人工知能（ＡＩ）に関連する処理を実施するシステムの一実施形態を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例によるコンピューティング環境を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するためのデータの表現を含む図である。本開示の１つまたは複数の例示の実現例による、ニューラルネットワークの層のための複数の出力を生成するためのデバイスの実施形態のブロック図である。本開示の１つまたは複数の例示の実現例による、ニューラルネットワークの層のための複数の出力を生成するためのデバイスの実施形態のブロック図である。本開示の１つまたは複数の例示の実現例による、ニューラルネットワークの層のための複数の出力を生成するためのデバイスの実施形態のブロック図である。本開示の１つまたは複数の例示の実現例による、ニューラルネットワークの層のための複数の出力を生成するためのデバイスの実施形態のブロック図である。本開示の例示の一実現例による、ニューラルネットワークの層のための複数の出力を生成するための処理装置（ＰＥ）の一実施形態のブロック図である。本開示の例示の一実現例による、ＰＥを出力のサブアレイに割り当てるための方法の一実施形態のブロック図である。本開示の例示の一実現例による、ＰＥの２つのグループを出力の２つのアレイに割り当てるための方法の一実施形態のブロック図である。本開示の例示の一実現例による、ニューラルネットワークの層のための複数の出力を生成するためのプロセスを示すフローチャートである。

特定の実施形態を詳細に示す図面に移る前に、本開示は、明細書に記載されるかまたは図面に例示される、詳細もしくは方法論に限定されないことが理解されるべきである。また、本明細書で使用する専門用語は、単に説明のためのものであって限定とみなされるべきでないことが理解されるべきである。

以下の本発明の様々な実施形態についての説明を読む目的で、本明細書のセクションおよびそれらのそれぞれの内容についての以下の説明が有用であり得る。
セクションＡは、本発明のシステム、方法、およびデバイスの一実施形態を実践または実現するために有用な環境、システム、構成、および／または他の態様について説明する。
セクションＢは、ニューラルネットワークの層のための複数の出力を生成するためのデバイス、システム、および方法の実施形態について説明する。

Ａ．人工知能に関連する処理のための環境
システム、デバイス、および／または方法の実施形態の詳細についてセクションＢで考察する前に、システム、デバイス、および／または方法の特定の実施形態を実践もしくは実現するのに有用な、環境、システム、構成、および／または他の態様について考察するのが有用であり得る。ここで図１Ａを参照すると、人工知能（ＡＩ）に関連する処理を実施するためのシステムの一実施形態が示される。概要では、システムは、入力データ１１０を使用してＡＩに関連する処理を実施することができる、１つまたは複数のＡＩアクセラレータ１０８を含む。ＡＩアクセラレータ１０８として参照しているが、場合によっては、ニューラルネットワークアクセラレータ（ＮＮＡ）、ニューラルネットワークチップもしくはハードウェア、ＡＩプロセッサ、ＡＩチップなどと呼ばれる。ＡＩアクセラレータ１０８は、入力データ１１０および／またはパラメータ１２８（例えば、重みおよび／またはバイアス情報）にしたがって、ＡＩに関連する処理を実施して、出力データ１１２を出力または提供することができる。ＡＩアクセラレータ１０８は、１つもしくは複数のニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）、１つもしくは複数のプロセッサ２４、および／または１つもしくは複数の記憶デバイス１２６を含むことができ、ならびに／あるいは実装することができる。

上述の要素または構成要素はそれぞれ、ハードウェア、またはハードウェアとソフトウェアの組み合わせの形で実装される。例えば、これらの要素または構成要素はそれぞれ、任意のアプリケーション、プログラム、ライブラリ、スクリプト、タスク、サービス、プロセス、あるいはデジタルおよび／またはアナログ要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子）を含むことができる回路類などのハードウェア上で実行する、任意のタイプおよび形態の実行可能命令を含むことができる。

入力データ１１０は、ＡＩアクセラレータ１０８のニューラルネットワーク１１４を構成、調整、訓練、および／または活性化するための、ならびに／あるいはプロセッサ１２４によって処理するための、任意のタイプもしくは形態のデータを含むことができる。ニューラルネットワーク１１４は、場合によっては、人工ニューラルネットワーク（ＡＮＮ）と呼ばれる。ニューラルネットワークの構成、調整、および／または訓練は、履歴データなど、（例えば、入力データ１１０としての）訓練データセットがニューラルネットワークに提供されて処理される、機械学習のプロセスを指すかあるいは含むことができる。調整または構成は、ニューラルネットワーク１１４を訓練または処理して、ニューラルネットワークが精度を改善するのを可能にすることを指すかまたは含むことができる。ニューラルネットワーク１１４の調整または構成は、例えば、ニューラルネットワーク１１４に関する問題のタイプもしくは所望の目標に対して成功することが証明されているアーキテクチャを使用した、ニューラルネットワークの設計、形成、構築、合成、および／または確立を含むことができる。場合によっては、１つまたは複数のニューラルネットワーク１１４は、同じもしくは類似のベースラインモデルで開始してもよいが、調整、訓練、または学習プロセスの間、ニューラルネットワーク１１４の結果は、ベースラインモデルであるかあるいは異なる目標もしくは目的のために調整または訓練された異なるニューラルネットワークよりも高いレベルの精度および信頼性で、特定のタイプの入力を処理し、特定のタイプの出力を生成するように、各ニューラルネットワーク１１４を調整することができるような、十分に異なるものであることができる。ニューラルネットワーク１１４の調整は、各ニューラルネットワーク１１４に対して異なるパラメータ１２８を設定すること、各ニューラルネットワーク１１４に対してパラメータ１１４を異なるように微調整すること、または異なる重み（例えば、ハイパーパラメータ、もしくは学習率）、テンソルフローなどを割り当てることを含むことができる。したがって、ニューラルネットワークならびに／あるいはシステムの調整または訓練プロセスおよび目標に基づいて、ニューラルネットワーク１１４に対して適切なパラメータ１２８を設定することで、システム全体の性能を改善することができる。

ＡＩアクセラレータ１０８のニューラルネットワーク１１４は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、深層畳み込みネットワーク、順伝播型ニューラルネットワーク（例えば、多層パーセプトロン（ＭＬＰ））、深層順伝播型ニューラルネットワーク、放射基底関数ニューラルネットワーク、コホネン自己組織化ニューラルネットワーク、回帰型ニューラルネットワーク、モジュール型ニューラルネットワーク、長期／短期メモリニューラルネットワークなど、任意のタイプのニューラルネットワークを含むことができる。ニューラルネットワーク１１４は、自然言語処理など、データ（例えば、画像、音声、映像）処理、オブジェクトもしくは特徴認識、レコメンダ機能、データもしくは画像分類、データ（例えば、画像）解析などを実施するために展開または使用することができる。

一例として、また１つまたは複数の実施形態では、ニューラルネットワーク１１４は、畳み込みニューラルネットワークとして構成することができ、または畳み込みニューラルネットワークを含むことができる。畳み込みニューラルネットワークは、それぞれ異なる目的に役立ち得る、１つもしくは複数の畳み込みセル（またはプーリング層）およびカーネルを含むことができる。畳み込みニューラルネットワークは、畳み込みカーネル（場合によっては、単に「カーネル」と呼ばれる）を含み、組み込み、および／または使用することができる。畳み込みカーネルは入力データを処理することができ、プーリング層は、例えば、ｍａｘなどの非線形関数を使用して、データを単純化し、それによって不要な特徴を低減することができる。畳み込みニューラルネットワークを含むニューラルネットワーク１１４は、画像、音声、または任意のデータの認識もしくは他の処理を容易にすることができる。例えば、（例えば、センサからの）入力データ１１０を、ファンネルを形成する畳み込みニューラルネットワークの畳み込み層に渡して、入力データ１１０の検出された特徴を圧縮することができる。畳み込みニューラルネットワークの第１の層は第１の特性を検出することができ、第２の層は第２の特性を検出することができ、その先も同様である。

畳み込みニューラルネットワークは、視覚心像、音声情報、および／または他の任意のタイプもしくは形態の入力データ１１０を解析するように構成された、深層順伝播型人工ニューラルネットワークのタイプであることができる。畳み込みニューラルネットワークは、最小限の前処理を使用するように設計された、多層パーセプトロンを含むことができる。畳み込みニューラルネットワークは、重み共有アーキテクチャおよび翻訳不変性特性に基づいて、シフト不変または空間不変人工ニューラルネットワークを含むことができ、またはそのように呼ぶことができる。畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムと比較して相対的に少ない前処理を使用することができるので、畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムのためにマニュアル設計されてもよいフィルタを自動的に学習して、ニューラルネットワーク１１４の構成、確立、またはセットアップと関連付けられた効率を改善することによって、他のデータ分類／処理技術と比べて技術的利点を提供することができる。

ニューラルネットワーク１１４は、ニューロンもしくはノードの、入力層１１６および出力層１２２を含むことができる。ニューラルネットワーク１１４はまた、ニューロンもしくはノードの、畳み込み層、プーリング層、全結合層、および／または正規化層を含むことができる、１つまたは複数の隠れ層１１８、１１９を有することができる。ニューラルネットワーク１１４では、各ニューロンは、前の層におけるいくつかの位置から入力を受信することができる。全結合層では、各ニューロンは、前の層の全ての要素からの入力を受信することができる。

ニューラルネットワーク１１４の各ニューロンは、前の層の受容野からの入力値に何らかの関数を適用することによって、出力値を計算することができる。入力値に適用される関数は、重みのベクトルおよびバイアス（一般的には実数）によって指定される。ニューラルネットワーク１１４における（例えば、訓練フェーズ中の）学習は、バイアスおよび／または重みを漸増的に調節することによって進行することができる。重みのベクトルおよびバイアスは、フィルタと呼ぶことができ、入力の何らかの特徴（例えば、特定の形状）を表すことができる。畳み込みニューラルネットワークの際立った特徴は、多くのニューロンが同じフィルタを共有できることである。これにより、各受容野が独自のバイアスおよび重みのベクトルを有するのではなく、単一のバイアスおよび重みの単一のベクトルを、該フィルタを共有する全ての受容野にわたって使用することができるので、メモリフットプリントが低減される。

例えば、畳み込み層では、システムは、畳み込み演算を入力層１１６に適用して、結果を次の層に渡すことができる。畳み込みは、個々のニューロンの応答をエミュレートして刺激を入力することができる。各畳み込みニューロンは、その受容野に対してのみデータを処理することができる。畳み込み演算は、全結合順伝播型ニューラルネットワークと比較して、ニューラルネットワーク１１４で使用されるニューロンの数を低減することができる。したがって、畳み込み演算は、自由パラメータの数を低減して、より少ないパラメータでネットワークをより深層化することを可能にすることができる。例えば、入力データ（例えば、画像データ）サイズにかかわらず、同じ共有重みをそれぞれ有するサイズ５×５のタイリング領域は、２５個のみの学習可能パラメータを使用してもよい。このように、畳み込みニューラルネットワークを有する第１のニューラルネットワーク１１４は、逆伝播を使用することによって多くの層を有する従来の多層ニューラルネットワークを訓練する際の、勾配消失または発散の問題を解決することができる。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、１つまたは複数のプーリング層を含むことができる。１つまたは複数のプーリング層は、ローカルプーリング層またはグローバルプーリング層を含むことができる。プーリング層は、１つの層におけるニューロンクラスタの出力を組み合わせて、次の層における単一のニューロンとすることができる。例えば、最大プーリングは、前の層におけるニューロンのクラスタそれぞれからの最大値を使用することができる。別の例は、前の層におけるニューロンのクラスタそれぞれからの平均値を使用することができる、平均プーリングである。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、全結合層を含むことができる。全結合層は、１つの層の全てのニューロンを別の層の全てのニューロンに結合することができる。ニューラルネットワーク１１４は、畳み込み層で重みを共有して構成することができ、それは同じフィルタが層内の各受容野に使用されることを指すことができ、それにより、メモリフットプリントが低減され、第１のニューラルネットワーク１１４の性能が改善される。

隠れ層１１８、１１９は、入力データ（例えば、仮想現実システムなどからのセンサデータ）に基づいて、情報を検出するように調整または構成されるフィルタを含むことができる。システムがニューラルネットワーク１１４（例えば、畳み込みニューラルネットワーク）の各層を通るにつれて、システムは、第１の層からの入力を翻訳し、変換された入力を第２の層に出力することができ、その先も同様である。ニューラルネットワーク１１４は、検出、処理、および／または計算されるオブジェクトもしくは情報のタイプ、ならびに入力データ１１０のタイプに基づいて、１つまたは複数の隠れ層１１８、１１９を含むことができる。

いくつかの実施形態では、畳み込み層は、ニューラルネットワーク１１４（例えば、ＣＮＮとして構成される）のコアビルディングブロックである。層のパラメータ１２８は、小さい受容野を有するが、入力ボリュームの深さ全体を通って延在する、学習可能なフィルタ（またはカーネル）のセットを含むことができる。順方向パスの間、各フィルタは、入力ボリュームの幅および高さにわたって畳み込まれて、フィルタのエントリと入力との間のドット積を計算し、該フィルタの二次元活性化マップを作成する。結果として、ニューラルネットワーク１１４は、入力のある空間位置である特定のタイプの特徴を検出すると活性化する、フィルタを学習させることができる。深さ次元に沿って全てのフィルタの活性化マップを積み重ねることで、畳み込み層の全出力ボリュームが形成される。したがって、出力ボリュームの全てのエントリは、入力の小さい領域に注目し、同じ活性化マップのニューロンとパラメータを共有する、ニューロンの出力として解釈することもできる。畳み込み層では、ニューロンは、前の層の制限されたサブエリアから入力を受信することができる。一般的に、サブエリアは正方形形状のもの（例えば、サイズ５×５）である。ニューロンの入力エリアはその受容野と呼ばれる。そのため、全結合層では、受容野は前の層全体である。畳み込み層では、受容エリアは前の層全体よりも小さいものであり得る。

第１のニューラルネットワーク１１４は、（例えば、入力データ１１０に基づいて、オブジェクト、イベント、ワード、および／または他の特徴の確率を検出もしくは決定することによって）入力データ１１０を検出、分類、セグメント化、および／または翻訳するように訓練することができる。例えば、ニューラルネットワーク１１４の第１の入力層１１６は、入力データ１１０を受信し、入力データ１１０を処理してデータを第１の中間出力に変換し、第１の中間出力を第１の隠れ層１１８に伝達することができる。第１の隠れ層１１８は、第１の中間出力を受信し、第１の中間出力を処理して第１の中間出力を第２の中間出力に変換し、第２の中間出力を第２の隠れ層１１９に伝達することができる。第２の隠れ層１１９は、第２の中間出力を受信し、第２の中間出力を処理して第２の中間出力を第３の中間出力に変換し、第３の中間出力を、例えば出力層１２２に伝達することができる。出力層１２２は、第３の中間出力を受信し、第３の中間出力を処理して第３の中間出力を出力データ１１２に変換し、出力データ１１２を（例えば、場合によっては、ユーザに対するレンダリングのため、格納のためなど、後処理エンジンに）伝達することができる。出力データ１１２は、例として、オブジェクト検出データ、強化／翻訳／拡張されたデータ、推奨、分類、および／またはセグメント化されたデータを含むことができる。

再び図１Ａを参照すると、ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６を含むことができる。記憶デバイス１２６は、ＡＩアクセラレータ１０８と関連付けられた任意のタイプもしくは形態のデータを、格納、保持、または維持するように、設計または実装することができる。例えば、データは、ＡＩアクセラレータ１０８によって受信される入力データ１１０、および／または出力データ１１２（例えば、次のデバイスもしくは処理段階に出力される前）を含むことができる。データは、ニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階のいずれかに使用される、またはいずれかからの、中間データを含むことができる。データは、記憶デバイス１２６から読み取るかまたはアクセスすることができる、ニューラルネットワーク１１４のニューロンに入力される、また該ニューロンで処理する、１つもしくは複数のオペランドを含むことができる。例えば、データは、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。データは、記憶デバイス１２６に書き込み、またそこに格納することができる、ニューラルネットワーク１１４のニューロンからの出力データを含むことができる。例えば、データは、記憶デバイス１２６に転送するかもしくは書き込み、格納することができる、ニューラルネットワーク１１４の１つもしくは複数のニューロン（またはノード）および／または層のための、活性化データ、改良もしくは更新されたデータ（例えば、訓練段階などからの重み情報および／またはバイアス情報、活性化関数情報、および／または他のパラメータ１２８）を含むことができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は１つまたは複数のプロセッサ１２４を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する入力データを前処理するための、ならびに／あるいはニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する出力データを後処理するための、任意の論理、回路類、および／または処理構成要素（例えば、マイクロプロセッサ）を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８の１つもしくは複数の演算を構成、制御、および／または管理するための、論理、回路類、処理構成要素、および／または機能性を提供することができる。例えば、プロセッサ１２４は、ニューラルネットワーク１１４と関連付けられたデータまたは信号を受信して、（例えば、ニューラルネットワーク１１４の演算を実装する回路類に対するクロックゲート制御を介して）消費電力を制御または低減してもよい。別の例として、プロセッサ１２４は、（例えば、ＡＩアクセラレータ１０８の様々な構成要素における、例えば並列の）別個の処理のため、（例えば、ＡＩアクセラレータ１０８の同じ構成要素における、異なる時間もしくは段階での）逐次処理のため、あるいは記憶デバイスの異なるメモリスライスに、または異なる記憶デバイスに格納するため、データを区画化および／または再配置してもよい。いくつかの実施形態では、プロセッサ１２４は、特定の重み、活性化関数、および／またはパラメータ情報の識別、選択、ならびに／あるいはニューラルネットワーク１１４のニューロンおよび／または層へのロードによって、特定の文脈に対して演算を行い、特定のタイプの処理を提供し、ならびに／あるいは特定のタイプの入力データをアドレスするように、ニューラルネットワーク１１４を構成することができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は、ディープラーニングおよび／またはＡＩワークロードを扱うかもしくは処理するように、設計および／または実装される。例えば、ＡＩアクセラレータ１０８は、人工ニューラルネットワーク、マシンビジョン、および機械学習を含む人工知能用途のため、ハードウェアアクセラレーションを提供することができる。ＡＩアクセラレータ１０８は、ロボティックス関連、物のインターネット（ＩｏＴ）関連、または他のデータ集約的もしくはセンサ駆動のタスクを扱う演算向けに構成することができる。ＡＩアクセラレータ１０８は、マルチコアまたは複数の処理要素（ＰＥ）設計を含んでもよく、人工現実（例えば、仮想、拡張、もしくは混合現実）システム、スマートフォン、タブレット、およびコンピュータなど、様々なタイプおよび形態のデバイスに組み込むことができる。ＡＩアクセラレータ１０８の特定の実施形態は、少なくとも１つのデジタル信号プロセッサ（ＤＳＰ）、コプロセッサ、マイクロプロセッサ、コンピュータシステム、プロセッサのヘテロジニアスコンピューティング構成、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／または特定用途向け集積回路（ＡＳＩＣ）を含むかあるいはそれらを使用して実装することができる。ＡＩアクセラレータ１０８は、トランジスタベース、半導体ベース、および／または量子コンピューティングベースのデバイスであることができる。

次に図１Ｂを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイスなどのメモリ）、１つまたは複数のバッファ、複数の処理要素（ＰＥ）回路またはＰＥ回路のアレイ、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

ＡＩアクセラレータ１０８において実装されたニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）では、ニューロンは、様々な形態を取ることができ、処理要素（ＰＥ）またはＰＥ回路と呼ぶことができる。ニューロンは、対応するＰＥ回路として実装することができ、ニューロンで起こり得る処理／活性化は、ＰＥ回路で実施することができる。ＰＥは接続されて、異なるパターンが異なる機能的目的に役立つ、特定のネットワークパターンまたはアレイとなる。人工ニューラルネットワークのＰＥは、（例えば、半導体の実現例の実施形態では）電気的に動作し、アナログ、デジタル、またはハイブリッドのいずれかであってもよい。生体シナプスの作用に匹敵するために、ＰＥ間の接続に、適正なシステム出力を作成するように校正または「訓練」することができる、乗法的な重みを割り当てることができる。

ＰＥは、（例えば、ニューロンのマッカロック－ピッツモデルを表す）次式に関して定義することができる。
ζ＝Σ_ｉｗ_ｉｘ_ｉ（１）
ｙ＝σ（ζ）（２）
式中、ζは入力の重み付き合計（例えば、入力ベクトルおよびタップ重みベクトルの内積）であり、σ（ζ）は重み付き合計の関数である。重みおよび入力要素がベクトルｗおよびｘを形成する場合、重み付き合計ζは単純なドット積となる。
ζ＝ｗ・ｘ（３）
これは、活性化関数（例えば、閾値比較の場合）または伝達関数のどちらかと呼ばれることがある。いくつかの実施形態では、１つまたは複数のＰＥはドット積エンジンと呼ばれる場合がある。ニューラルネットワーク１１４に対する入力（例えば、入力データ１１０）ｘは、入力空間からのものであることができ、出力（例えば、出力データ１１２）は出力空間の一部である。いくつかのニューラルネットワークでは、出力空間Ｙは、｛０，１｝のように単純なものであってもよく、または複雑な多次元（例えば、複数チャネル）空間（例えば、畳み込みニューラルネットワークの場合）であってもよい。ニューラルネットワークは、入力空間の自由度ごとに１つの入力、および出力空間の自由度ごとに１つの出力を有する傾向がある。

いくつかの実施形態では、ＰＥは、シストリックアレイとして配置および／または実装することができる。シストリックアレイは、セルまたはノードと呼ばれる、ＰＥなどの結合されたデータ処理装置（ＤＰＵ）のネットワーク（例えば、ホモジニアスネットワーク）であることができる。各ノードまたはＰＥは、上流側の隣接するノードまたはＰＥから受信したデータの関数として、部分結果を独立して計算することができ、結果を自身に格納することができ、結果を例えば下流側に渡すことができる。シストリックアレイは、特定用途向けに構成されたハードワイヤードまたはソフトウェアであることができる。ノードまたはＰＥは、固定された同一のものであることができ、シストリックアレイの相互接続はプログラム可能であることができる。シストリックアレイは同期型データ転送に依存することができる。

再び図１Ｂを参照すると、ＰＥ１２０に対する入力ｘは、記憶デバイス１２６（例えば、ＳＲＡＭ）から読み取られるかまたはアクセスされる、入力ストリーム１３２の一部であることができる。入力ストリーム１３２は、ＰＥの１つの行（水平のバンクもしくはグループ）に方向付けることができ、ＰＥのうち１つもしくは複数にわたって共有するか、またはそれぞれのＰＥに対する入力としてのデータ部分（重なり合うもしくは重なり合わないデータ部分）に区画化することができる。重みストリーム（例えば、記憶デバイス１２６から読み取られる）における重み１３４（もしくは重み情報）は、ＰＥの列（垂直のバンクもしくはグループ）に方向付けるかまたは提供することができる。列のＰＥはそれぞれ、同じ重み１３４を共有するか、または対応する重み１３４を受信してもよい。標的のＰＥそれぞれに対する入力および／または重みは、（例えば、他のＰＥを通過せずに）標的のＰＥに（例えば、記憶デバイス１２６から）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの行もしくは列に沿って）ルーティングすることができる。各ＰＥの出力は、ＰＥアレイの外に（例えば、他のＰＥを通過せずに）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの列に沿って）ＰＥアレイを出るようにルーティングすることができる。ＰＥの各列の出力は、それぞれの列の加算器回路類において合算または加算し、ＰＥのそれぞれの列に対するバッファ１３０に提供することができる。バッファ１３０は、受信した出力を記憶デバイス１２６に提供、転送、ルーティング、書き込み、および／または格納することができる。いくつかの実施形態では、記憶デバイス１２６によって格納された出力（例えば、ニューラルネットワークの１つの層からの活性化データ）を、記憶デバイス１２６から検索するかまたは読み取り、後の時間における（ニューラルネットワークの後続層の）処理のため、ＰＥ１２０のアレイに対する入力として使用することができる。特定の実施形態では、記憶デバイス１２６によって格納された出力を、ＡＩアクセラレータ１０８に対する出力データ１１２として、記憶デバイス１２６から検索するかまたは読み取ることができる。

次に図１Ｃを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａおよび図１Ｂに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数のＰＥ１２０、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

いくつかの実施形態では、ＰＥ１２０は、１つもしくは複数の乗累算（ＭＡＣ）ユニットまたは回路１４０を含むことができる。１つまたは複数のＰＥは、場合によっては、（単独でまたは集合的に）ＭＡＣエンジンと呼ぶことができる。ＭＡＣユニットは、乗累算を実施するように構成される。ＭＡＣユニットは、乗算器回路、加算器回路、および／または累算器回路を含むことができる。乗累算は、２つの数字の積を計算し、その積を累算器に加える。ＭＡＣ演算は、累算器オペランドａ、ならびに入力ｂおよびｃに関連して、次のように表すことができる。
ａ←ａ＋（ｂ×ｃ）（４）
いくつかの実施形態では、ＭＡＣユニット１４０は、組み合わせ論理に実装された乗算器とそれに続く加算器（例えば、組み合わせ論理を含むもの）、ならびに結果を格納する累算器レジスタ（例えば、順序および／または組み合わせ論理を含むもの）を含んでもよい。累算器レジスタの出力は、加算器の１つの入力にフィードバックすることができるので、各クロックサイクルにおいて、乗算器の出力を累算器レジスタに加算することができる。

上述したように、ＭＡＣユニット１４０は、乗算および加算両方の機能を実施することができる。ＭＡＣユニット１４０は２つの段階で演算することができる。ＭＡＣユニット１４０は、最初に、第１の段階で所与の数（入力）の積を計算し、結果を第２の段階の演算（例えば、加算および／または累算）のために転送することができる。ｎビットのＭＡＣユニット１４０は、ｎビット乗算器、２ｎビット加算器、および２ｎビット累算器を含むことができる。（例えば、ＰＥにおける）複数のＭＡＣユニット１４０またはＭＡＣユニットのアレイ１４０は、並列積分、畳み込み、相関、行列乗算、データ分類、および／またはデータ解析タスクのため、シストリックアレイの形で配置することができる。

本明細書に記載する様々なシステムおよび／またはデバイスを、コンピューティングシステムに実装することができる。図１Ｄは、代表的なコンピューティングシステム１５０のブロック図を示している。いくつかの実施形態では、図１Ａのシステムは、コンピューティングシステム１５０の処理装置１５６（またはプロセッサ１５６）の少なくとも一部を形成することができる。コンピューティングシステム１５０は、例えば、スマートフォン、他の移動電話、タブレットコンピュータ、ウェアラブルコンピューティングデバイス（例えば、スマートウォッチ、眼鏡、ヘッドマウントディスプレイ）、デスクトップコンピュータ、ラップトップコンピュータなどのデバイス（例えばコンシューマデバイス）として実装するか、あるいは分散型コンピューティングデバイスを実装することができる。コンピューティングシステム１５０は、ＶＲ、ＡＲ、ＭＲ体験を提供するために実装することができる。いくつかの実施形態では、コンピューティングシステム１５０は、プロセッサ１５６、記憶デバイス１５８、ネットワークインターフェース１５１、ユーザ入力デバイス１５２、およびユーザ出力デバイス１５４など、従来の専用またはカスタムのコンピュータ構成要素を含むことができる。

ネットワークインターフェース１５１は、（ローカル／リモート）サーバまたはバックエンドシステムのネットワークインターフェースも接続される、ローカル／ワイドエリアネットワーク（例えば、インターネット）に対する接続を提供することができる。ネットワークインターフェース１５１は、有線インターフェース（例えば、イーサネット）、ならびに／あるいはＷｉ－Ｆｉ、ブルートゥース、またはセルラーデータネットワーク規格（例えば、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなど）などの様々なＲＦデータ通信規格を実装する無線インターフェースを含むことができる。

ユーザ入力デバイス１５２は、ユーザがコンピューティングシステム１５０に信号を提供するのに用いることができる、任意のデバイス（または複数のデバイス）を含むことができ、コンピューティングシステム１５０は、特定のユーザ要求または情報を示すものとして信号を解釈することができる。ユーザ入力デバイス１５２は、キーボード、タッチパッド、タッチスクリーン、マウスもしくは他のポインティングデバイス、スクロールホイール、クリックホイール、ダイアル、ボタン、スイッチ、キーパッド、マイクロフォン、センサ（例えば、モーションセンサ、視線追跡センサなど）などのいずれかまたは全てを含むことができる。

ユーザ出力デバイス１５４は、コンピューティングシステム１５０がユーザに情報を提供するのに用いることができる、任意のデバイスを含むことができる。例えば、ユーザ出力デバイス１５４は、コンピューティングシステム１５０によって生成されるかまたは該システムに送達される画像を表示する、ディスプレイを含むことができる。ディスプレイは、例えば、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）を含む発光ダイオード（ＬＥＤ）、投影システム、陰極線管（ＣＲＴ）などの様々な画像生成技術を、サポートしている電子部品（例えば、デジタル・アナログもしくはアナログ・デジタル変換器、信号プロセッサなど）とともに組み込むことができる。入力および出力両方のデバイスとして機能する、タッチスクリーンなどのデバイスを使用することができる。ユーザ出力デバイス１５４は、ディスプレイに加えてまたはディスプレイの代わりに提供することができる。例としては、インジケータ光、スピーカ、触覚「ディスプレイ」デバイス、プリンタなどが挙げられる。

いくつかの実現例としては、コンピュータプログラム命令を非一時的なコンピュータ可読記憶媒体に格納する、マイクロプロセッサ、記憶装置、およびメモリなどの電子構成要素が挙げられる。本明細書に記載する特徴の多くは、コンピュータ可読記憶媒体として符号化されたプログラム命令のセットとして指定される、プロセスとして実現することができる。これらのプログラム命令は、１つまたは複数のプロセッサによって実行されると、プログラム命令に示されている様々な動作をプロセッサに実施させる。プログラム命令またはコンピュータコードの例としては、コンパイラによって作成されるものなどの機械コード、およびインタープリタを使用してコンピュータ、電子構成要素、またはマイクロプロセッサによって実行される、より高次のコードを含むファイルが挙げられる。好適なプログラミングを通して、プロセッサ１５６は、コンピューティングシステム１５０に対して、サーバまたはクライアントによって実施されるものとして本明細書に記載する機能性、またはメッセージ管理サービスと関連付けられた他の機能性のいずれかを含む、様々な機能性を提供することができる。

コンピューティングシステム１５０は例示であり、変形および修正が可能であることが認識されるであろう。本開示と関連して使用されるコンピュータシステムは、本明細書には具体的に記載しない他の能力を有することができる。更に、コンピューティングシステム１５０について、特定のブロックを参照して記載しているが、該ブロックは説明の便宜上定義されているものであり、構成部品の特定の物理的配置を示唆しようとするものではないことが理解されるべきである。例えば、異なるブロックを、同じ設備に、同じサーバラックに、または同じマザーボード上に配置することができる。更に、ブロックは必ずしも物理的に別個の構成要素に対応していなくてもよい。ブロックは、例えば、プロセッサをプログラミングするか、または適切な制御回路類を提供することによって、様々な動作を実施するように構成することができ、様々なブロックは、初期の構成がどのように得られるかに応じて再構成可能であってもなくてもよい。本開示の実現例は、回路類およびソフトウェアの任意の組み合わせを使用して実装される電子デバイスを含む、様々な装置で実現することができる。

Ｂ．ニューラルネットワークの層のための複数の出力を生成するための方法およびデバイス
本明細書の開示は、アレイをサブアレイに区画化し、サブアレイのうちの１つに処理要素のグループを割り当てることによってアレイ中に構成される複数の出力を生成するためのシステムおよび方法を含むがそれらに限定されない、ニューラルネットワークの層のための複数の出力を生成するためのシステム、方法、およびデバイスの実施形態を含む。いくつかの実施形態では、ＡＩアクセラレータは、大きい畳み込みに対して最適化されるが、より小さい畳み込みに対しては効率が悪くなる。低いエネルギーおよびレイテンシで高い精度を達成するために、高スループットを与えながら小さい畳み込みを扱うことに効率的であるようにＡＩアクセラレータを構成することができる。したがって、大きい畳み込みに対して最適化されたＡＩアクセラレータを実現する代わりに、本開示のシステム、方法、およびデバイスによって実現されるＡＩアクセラレータは、より小さい畳み込みで効率を維持しながら、高いスループットおよび／または低いレイテンシを与えることが可能である。例として、ＡＩアクセラレータは、ＡｃｃｌＸ×ｏｕｔＹ×ＡｃｃｌＹ（例えば、ＧＥＭＭ用語におけるＭ×Ｎ×Ｋ）のサイズまたは次元の一般行列乗算（ＧＥＭＭ）演算をサポートすることができる。入力オペランドおよび／または対応する出力にしたがって以下の畳み込みマッピングをフレキシブルに採用することができる。
１．デフォルト設定による畳み込み／ＧＥＭＭ演算のマッピング。出力は、ＡｃｃｌＸ×ｏｕｔＹブロックにタイル表示されてもよく、入力オペランドのＡｃｃｌＸ×ＡｃｃｌＹチャンクとｏｕｔＹ×ＡｃｃｌＹチャンクとを使用して更新されてもよい。
２．小さいフィーチャカウントを用いた畳み込み／ＧＥＭＭ演算のマッピング。出力は、ＡｃｃｌＸ／２×ＯｕｔＹ／２ブロックにタイル表示されてもよく、入力オペランドのＡｃｃｌＸ／２×ＡｃｃｌＹ／２チャンクとＯｕｔＹ／２×ＡｃｃｌＹ／２チャンクとを使用して更新されてもよい。
３．小さい入力フィーチャカウントを用いた畳み込み／ＧＥＭＭ演算のマッピング。出力は、ＡｃｃｌＸ×ＯｕｔＹ／２ブロックにタイル表示されてもよく、入力オペランドのＡｃｃｌＸ×ＡｃｃｌＹ／２チャンクとＯｕｔＹ／２×ＡｃｃｌＹ／２チャンクとを使用して更新されてもよい。
４．小さい出力フィーチャカウントを用いた畳み込み／ＧＥＭＭ演算のマッピング。出力は、ＡｃｃｌＸ／２×ＯｕｔＹブロックにタイル表示されてもよく、入力オペランドのＡｃｃｌＸ／２×ＡｃｃｌＹ／２チャンクとＯｕｔＹ×ＡｃｃｌＹ／２チャンクとを使用して更新されてもよい。

様々な畳み込みマッピングは、大きい畳み込みに対して最適化された単一の畳み込み構成と比較して、広範囲のＧＥＭＭ／畳み込み次元についてＡＩアクセラレータの計算スループットを高レベルにすることを可能にすることができる。

いくつかの態様では、ＣＮＮベースのＡＩアクセラレータ上で畳み込み／ＧＥＭＭ演算を実施するときのエネルギー非効率の１つの発生源は入力オペランドの反復されるフェッチである。いくつかの実施形態では、呼び出しにわたって持続する静的オペランドを保持するために、「ｒ」個のレジスタまたはフリップフロップを各処理要素（ＰＥ）に加えることができる。これにより、システムは、例えば、畳み込み／ＧＥＭＭの低減次元がＡｃｃｌＹ×ｒよりも小さいかまたはＡｃｃｌＹ×ｒに等しいときに、静的オペランドの冗長フェッチを回避することを可能にすることができる。

静的オペランドの複数のフェッチを回避する上記の技術と同様に、ＧＥＭＭＭがＡｃｃｌＸよりも大きいが、入力フィーチャカウントがＡｃｃｌＹ×「ｒ」個よりも小さい場合、ストリーミングオペランドがフェッチされるべき回数を低減することができる。この場合、ストリーミングオペランドの再利用カウントを最高「ｒ」回まで増加することができる。

図２Ａは、本開示の例示の一実現例による、ＡＩに関連する処理を実施するためのデータの表現を示す図である。図２Ａを参照すると、ＡＩアクセラレータ（または「アクセラレータ」）は、（Ｍ×Ｋ）の入力行列２１１を入力データとして、および（Ｋ×Ｎ）のカーネル行列２１２をカーネル情報として受信することができ、（Ｍ×Ｎ）の畳み込み出力行列２１３を出力データとして生成するための畳み込みを実施することができる。いくつかの実施形態では、ＡＩアクセラレータは、入力行列２１１からの１つの行とカーネル行列２１２からの対応する列とに対してドット積演算２１４を実施することによって、（Ｍ×Ｎ）の畳み込み出力行列２１３を生成することができる。いくつかの実施形態では、アクセラレータは、ＧＥＭＭアルゴリズムを使用することによって（Ｍ×Ｎ）の畳み込み出力行列２１３を生成することができる。いくつかの実施形態では、入力行列２１１は、ニューラルネットワークの層に対する、サイズＫのＭ個のデータチャンクで割った入力データストリーム（例えば、画像データ）を表してもよい。いくつかの実施形態では、入力データはチャネルの数に関連付けられてもよい（例えば、ＲＧＢデータの場合、チャネルの数は３つである）。いくつかの実施形態では、カーネル行列は、各カーネルがニューラルネットワークの層に対してＫの重みから成る、Ｎ個のカーネルを表してもよい。

ＡＩアクセラレータを設計する際に、大きい畳み込み（例えば、図２Ａに示されているように、大きい出力サイズ（Ｍ×Ｎ）の畳み込み）に対して最適化を実施することができる。１つの手法では、ＡＩアクセラレータは、大きいサイズ（例えば、大きいデータアレイ形状および／または次元）を有するデータの畳み込みに対して最適化を与えることができるが、より小さい畳み込み（例えば、（Ｍ×Ｎ）よりも小さい出力サイズの畳み込み）に対しては効率または利用率が悪くなる。例えば、ＡＩアクセラレータ中の入力データチャンクの数Ｍおよび／またはカーネルの数Ｎが比較的小さいとき、ＡＩアクセラレータの一部分（例えば、処理要素（ＰＥ）を含む回路類または乗累算器（ＭＡＣ）回路類）は、実際のまたは有効な出力を処理していないことがあり、したがって冗長処理に対応し、それにより消費電力が増加する。

この問題を解決するために、いくつかの実現例では、大きい畳み込みに対してのみ最適化されたアクセラレータを構築する代わりに、アクセラレータは、より小さい畳み込みに対して効率を維持すると同時に、より大きい畳み込みに対して高いスループットと低いレイテンシとを与えることができる。例えば、大きい畳み込み出力を、処理要素（ＰＥ）のアレイの固定された次元に適合することができるより小さい畳み込み出力に区画化またはスプリットすることができる（図１ＢのＰＥ１２０参照）。より小さい畳み込み出力に割り当てられたＰＥのグループによって、より小さい畳み込み出力の各々を生成することができる。このように、より小さい畳み込み出力はＰＥアレイの固定された次元に適合することができるので、ＰＥアレイ中の全てのＰＥを実行することなしに、かかるより小さい出力に対する畳み込みを実施することができる。いくつかの実施形態では、ＭおよびＮの各々が１よりも大きい整数である、（Ｍ×Ｎ）の次元のＰＥアレイについて、大きい畳み込み出力を、以下のより小さい畳み込み出力の例示的なタイプ、すなわち、（１）（Ｍ×Ｎ）の畳み込み出力行列、（２）（Ｍ／２×Ｎ）の畳み込み出力行列、（３）（Ｍ×Ｎ／２）の畳み込み出力行列、および（４）（Ｍ／２×Ｎ／２）の畳み込み出力行列のうちの１つに区画化（またはスプリットまたは分割）することができる。いくつかの実施形態では、（１）（Ｍ×Ｎ）の畳み込み出力行列を生成することであって、出力が、ＰＥアレイ（例えば、全アレイ）の（Ｍ×Ｎ）のブロックに割り当てられるか、またはタイル表示され、アクセラレータへのオペランドとして（Ｍ×Ｋ）の入力行列と（Ｋ×Ｎ）のカーネル行列とを使用して更新される、（Ｍ×Ｎ）の畳み込み出力行列を生成すること、（２）（Ｍ／２×Ｎ）の畳み込み出力行列を生成することであって、出力が、ＰＥアレイの（Ｍ／２×Ｎ）のブロックに割り当てられるか、またはタイル表示され、アクセラレータへのオペランドとして（Ｍ／２×Ｋ／２）の入力行列と（Ｋ／２×Ｎ）のカーネル行列とを使用して更新される、（Ｍ／２×Ｎ）の畳み込み出力行列を生成すること、（３）（Ｍ×Ｎ／２）の畳み込み出力行列を生成することであって、出力が、ＰＥアレイの（Ｍ×Ｎ／２）のブロックに割り当てられるか、またはタイル表示され、アクセラレータへのオペランドとして（Ｍ×Ｋ／２）の入力行列と（Ｋ／２×Ｎ／２）のカーネル行列とを使用して更新される、（Ｍ×Ｎ／２）の畳み込み出力行列を生成すること、および（４）（Ｍ／２×Ｎ／２）の畳み込み出力行列を生成することであって、出力が、ＰＥアレイの（Ｍ／２×Ｎ／２）のブロックに割り当てられるか、またはタイル表示され、アクセラレータへのオペランドとして（Ｍ／２×Ｋ／２）の入力行列と（Ｋ／２×Ｎ／２）のカーネル行列とを使用して更新される、（Ｍ／２×Ｎ／２）の畳み込み出力行列を生成することとを行うために、より小さい畳み込み出力の各タイプが生成または更新されてもよい。ＰＥアレイの各ブロックは１つのＰＥ（または複数のＰＥ）を含んでもよい。

更に、畳み込み演算を実施する際の入力データとカーネルとの反復アクセスおよび／または処理に関して、消費電力および遅延が増加することがある。呼び出し（例えば、畳み込み演算の呼び出し）にわたって持続するアクセラレータへのオペランドは「静的」オペランドと呼ぶことができる。図２Ａを参照すると、行列中の各カーネルは畳み込み演算中に変化しないので、カーネル行列中の各カーネル（例えば、カーネル値またはカーネル要素）は、（カーネルに対応する畳み込み出力行列の列を出力するための）畳み込み演算中に静的オペランドであることができる。例えば、図２Ａを参照すると、カーネル行列２１２中のカーネル２１６は、カーネル２１６に対応する畳み込み出力行列２１３の列２１７を出力するための畳み込み演算中に静的オペランドである。一方、ＡＩに関連する処理（例えば、畳み込み演算）のある動作中に変化するアクセラレータへのオペランドをストリーミングオペランドと呼ぶことができる。例えば、入力行列２１１中のＭ個のデータチャンクは、畳み込み出力行列２１３の列２１７を出力するための畳み込み演算中にストリーミングオペランドであることができる。

冗長演算の問題を解決するために、いくつかの実施形態では、静的オペランドを保持するためにメモリ（例えば、いくつかのレジスタ、フリップフロップ回路（例えば、ＦＬＯＰ）、またはラッチ）が各ＰＥ－１２０に追加されてもよく、それにより、記憶デバイス１２６からの記憶デバイス（例えば、ＳＲＡＭ）からのフェッチの数を低減することによってエネルギーが低減される。いくつかの実施形態では、キャッシュまたはバッファメモリが静的オペランドを保持するメモリとして使用されてもよい。いくつかの実施形態では、畳み込み／ＧＥＭＭの低減されたサイズ（例えば次元）がＫ×Ｒよりも小さいかまたはＫ×Ｒに等しいとき、静的オペランドの冗長フェッチを回避するように、カーネルデータ（例えば、カーネル行列２１２）を静的オペランドとして保持するために、Ｒ個のＦＬＯＰが各ＰＥに追加されてもよい。

本開示に記載するシステムおよび方法は、知られているシステムおよび方法に勝るいくつかの利点を含む。第１に、いくつかの実施形態では、本開示は、高いスループットを与えながら低いエネルギーおよびレイテンシを達成するための小さい畳み込み（例えば、と比較して、比較的小さいサイズの出力を生成する畳み込み）を扱うための解決策を提供する。第２に、いくつかの実施形態では、本開示は、より大きい畳み込み出力をそれから区画化することができる、より小さい畳み込み出力の様々なタイプ（例えば、４つのタイプ）または構成を提供する。この区画化によって、広範囲のＧＥＭＭ／畳み込み次元に対してＡＩアクセラレータの計算スループットを比較的高くすることを可能にすることができる。第３に、各ＰＥへのローカルメモリ（またはバッファ）の追加は、十分なスループットを与え、またエネルギーを節約するために、より小さい数のＰＥを展開することができるように、モジュラー構造を可能にすることができる。更に、ローカルメモリのかかる追加は、メモリ（例えば、図１ＢのＳＲＡＭ１２６）からの（例えば、定常データの）冗長フェッチを回避することによって、データ移動コストを削減することができる。

図２Ｂ～図２Ｅは、本開示の１つまたは複数の例示の一実現例による、ニューラルネットワークの層のための複数の出力を生成するための、ＡＩに関連する処理を実施するための複数の処理要素（ＰＥ）を含むデバイスの実施形態を示すブロック図である。

図２Ｂを参照すると、いくつかの実施形態では、アクセラレータ２２０は、アクセラレータ１０８の１つまたは複数の要素（図１Ｂを参照）を含んでもよく、（Ｍ×Ｎ）のＰＥアレイまたは行列を含むことができる。いくつかの実施形態では、ＰＥアレイ中のＰＥの数は１ｋまたは２ｋであってもよい。いくつかの実施形態では、（例えば、図１Ａのプロセッサ１２４の１つまたは複数の特徴を有する）アクセラレータのプロセッサは、最適エネルギー消費を考慮して、ＰＥの数および／またはアレイ次元を決定し得る。いくつかの実施形態では、プロセッサは、異なる入力ストリーム２２３と異なるオペランドデータ２２４との対象であるアクセラレータ２２０の消費電力の測定データおよび／または推定に基づいて、ＰＥの数および／またはアレイ次元を決定し得る。

いくつかの実施形態では、アクセラレータ２２０において、入力ストリーム２２３が記憶デバイス１２６から読み取られ、出力され、またはアクセスされてもよい（例えば、図１Ｂを参照）。いくつかの実施形態では、入力ストリーム２２３は、（Ｍ×Ｋ）の入力行列中に表されおよび／または構成されたデータを含むかまたは提供してもよい（図２Ａを参照）。いくつかの実施形態では、入力ストリーム２２３はＰＥ２２２のそれぞれの行のためのバッファ２２１に格納されてもよい。例えば、各バッファ２２１は、ＰＥ２２２の対応する行のための入力ストリーム２２３の一部分を格納してもよい。入力ストリーム２２３は、ＰＥ２２２の１つの行（水平のバンクもしくはグループ）に方向付けることができ、ＰＥのうちの１つもしくは複数にわたって共有するか、またはそれぞれのＰＥに対する入力としてのデータ部分に区画化することができる。オペランドデータ２２４は、ＰＥの列（垂直のバンクもしくはグループ）に方向付けるかまたは提供することができる。いくつかの実施形態では、オペランドデータ２２４は、（Ｋ×Ｎ）のカーネル行列（図２Ａを参照）中に表されおよび／または構成されてもよい。いくつかの実施形態では、オペランドデータ２２４は、重みストリームにおける重み（または重み情報）を含むことができるカーネルデータを含んでもよい。列のＰＥの各々は、同じオペランド情報を共有するか、または対応するオペランド情報を受信してもよい。各標的のＰＥに対する（入力ストリーム２２３からの）入力および／または重みは、（例えば、他のＰＥを通過せずに）標的のＰＥに（例えば、記憶デバイス１２６から）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの行もしくは列に沿って）標的のＰＥにルーティングすることができる。各ＰＥの出力は、ＰＥアレイの外に（例えば、他のＰＥを通過せずに）直接ルーティングすることができる、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの列に沿って）ＰＥアレイを出るようにルーティングすることができる。ＰＥの各列の出力は、それぞれの列の加算器回路類において合算または加算し、出力データ２２５として出力することができる。いくつかの実施形態では、出力データ２２５は、（Ｍ×Ｎ）の畳み込み出力行列（図２Ａを参照）中に表されおよび／または構成されてもよい。いくつかの実施形態では、出力データ２２５は、それぞれのＰＥの列に対するバッファ（例えば、図１Ｂのバッファ１３０）に格納されてもよい。バッファは、受信した出力を記憶デバイス１２６に提供、転送、ルーティング、書き込み、および／または格納することができる（例えば、図１Ｂを参照）。いくつかの実施形態では、記憶デバイス１２６（図１Ｂを参照）に格納された出力（例えば、ニューラルネットワークの１つの層からの活性化データ）を、記憶デバイス１２６から検索するかまたは読み取ることができ、後の時間における（ニューラルネットワークの後続の層の）処理のため、ＰＥ１２０のアレイに対する入力として使用することができる。

いくつかの実施形態では、（Ｍ×Ｎ）の次元をもつＰＥアレイは、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信してもよい。いくつかの実施形態では、複数の出力は、第１のアレイ（図示されていない）中に構成される複数の畳み込み出力（例えば、ＰＥによって実施された畳み込み演算によって生成される出力）であってもよい。プロセッサは、出力の第１のアレイの次元をＰＥアレイの次元（例えば、図２ＢのＰＥアレイについての（Ｍ×Ｎ））と比較してもよい。プロセッサは、比較することの結果にしたがって、（例えば、１つの第１のアレイの次元が対応するＰＥアレイの次元よりも大きいかまたはそれに等しいことの決定に応答して）、第１のアレイをＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有する各サブアレイに区画化してもよい。

いくつかの実施形態では、第１のアレイの区画化は静的に構成されてもよい。例えば、プロセッサは、第１のアレイを、（例えば、第１のアレイよりも大きい畳み込み出力と比較してより小さい畳み込み出力をサポートする）以下の例示的なタイプのサブアレイ、すなわち、（１）（Ｍ×Ｎ）の畳み込み出力行列（図２Ｂを参照）、（２）（Ｍ／２×Ｎ）の畳み込み出力行列（図２Ｃを参照）、（３）（Ｍ×Ｎ／２）の畳み込み出力行列（例えば、図２Ｄを参照）、および（４）（Ｍ／２×Ｎ／２）の畳み込み出力行列（図２Ｂを参照）のうちの少なくとも１つに区画化（またはスプリットまたは分割またはマップ）してもよい。いくつかの実施形態では、区画化は、例えばプロセッサ１２４によって、例えば状態機械を使用して動的に構成されてもよい。

図２Ｂを参照すると、（Ｍ×Ｎ）のサブアレイを提供するために第１のアレイを区画化（またはスプリットまたは分割またはマッピング）することに応答して、プロセッサは、（Ｍ×Ｎ）の畳み込み出力行列をＰＥアレイ（例えば、全アレイ）の（Ｍ×Ｎ）のブロック２２７に割り当ててもよい。ＰＥアレイの各ブロックは１つまたは複数のＰＥを含むことができる。いくつかの実施形態では、（Ｍ×Ｎ）の畳み込み出力行列は、（Ｍ×Ｎ）のブロック２２７にタイル表示またはマッピングされ、（Ｍ×Ｋ）の入力ストリーム２２３と（Ｋ×Ｎ）のオペランドデータ２２４とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ×Ｎ）の畳み込み出力行列に割り当てられた（Ｍ×Ｎ）のブロック２２７の各ＰＥは、（Ｍ×Ｋ）の入力ストリーム２２３と（Ｋ×Ｎ）のオペランドデータ２２４との一部分を使用して（Ｍ×Ｎ）の畳み込み出力行列の対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ×Ｎ）のブロック２２７の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に格納してもよい。いくつかの実施形態では、バッファ１３０は（Ｍ×Ｎ）のアレイまたは行列中に構成されてもよく、および／または、例えばＰＥの各列の１つに対してＮ個のバッファ１３０を含んでもよい。いくつかの実施形態では、アクセラレータ２２０は、バッファに格納された（Ｍ×Ｎ）の出力データ２２５を記憶デバイス１２６に書き込んでもよい（図１Ｂを参照）。

図２Ｃを参照すると、（Ｍ／２×Ｎ）のサブアレイを提供するために第１のアレイを区画化（またはスプリットまたは分割またはマッピング）することに応答して、プロセッサは、（Ｍ／２×Ｎ）の畳み込み出力行列をＰＥアレイの（Ｍ／２×Ｎ）のブロック２３７に割り当ててもよい。ＰＥアレイの各ブロックは１つまたは複数のＰＥを含むことができる。いくつかの実施形態では、（Ｍ／２×Ｎ）の畳み込み出力行列は、（Ｍ／２×Ｎ）のブロック２３７にタイル表示またはマッピングされ、（Ｍ／２×Ｋ／２）の入力ストリーム２３３と（Ｋ／２×Ｎ）のオペランドデータ２３４とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）の畳み込み出力行列に割り当てられた（Ｍ×Ｎ）のブロック２３７の各ＰＥは、（Ｍ／２×Ｋ／２）の入力ストリーム２３３と（Ｋ／２×Ｎ）のオペランドデータ２３４との一部分を使用して（Ｍ／２×Ｎ）の畳み込み出力行列の対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）のブロック２３７の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に格納してもよい。いくつかの実施形態では、アクセラレータ２２０は、バッファに保持または格納された（Ｍ／２×Ｎ）の次元決定された出力データ２３５を記憶デバイス１２６に書き込んでもよい（図１Ｂを参照）。

図２Ｄを参照すると、（Ｍ×Ｎ／２）のサブアレイを提供するために第１のアレイを区画化（またはスプリットまたは分割またはマッピング）したことに応答して、プロセッサは、（Ｍ×Ｎ／２）の畳み込み出力行列をＰＥアレイの（Ｍ×Ｎ／２）のブロック２４７に割り当ててもよい。ＰＥアレイの各ブロックは１つまたは複数のＰＥを含むことができる。いくつかの実施形態では、（Ｍ×Ｎ／２）の畳み込み出力行列は、（Ｍ×Ｎ／２）のブロック２４７にタイル表示され、（Ｍ×Ｋ／２）の入力ストリーム２４３と（Ｋ／２×Ｎ／２）のオペランドデータ２４４とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ×Ｎ／２）の畳み込み出力行列に割り当てられた（Ｍ×Ｎ／２）のブロック２４７の各ＰＥは、（Ｍ×Ｋ／２）の入力ストリーム２４３と（Ｋ／２×Ｎ／２）のオペランドデータ２４４との一部分を使用して（Ｍ×Ｎ／２）の畳み込み出力行列の対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ×Ｎ／２）のブロック２４７の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に格納してもよい。いくつかの実施形態では、アクセラレータ２２０は、バッファに保持または格納された（Ｍ×Ｎ／２）の次元決定された出力データ２４５を記憶デバイス１２６に書き込んでもよい（図１Ｂを参照）。

図２Ｅを参照すると、（Ｍ／２×Ｎ／２）のサブアレイを提供するために第１のアレイを区画化（またはスプリットまたは分割またはマッピング）したことに応答して、プロセッサは、（Ｍ／２×Ｎ／２）の畳み込み出力行列をＰＥアレイの（Ｍ／２×Ｎ／２）のブロック２５７に割り当ててもよい。ＰＥアレイの各ブロックは１つまたは複数のＰＥを含むことができる。いくつかの実施形態では、（Ｍ／２×Ｎ／２）の畳み込み出力行列は、（Ｍ／２×Ｎ／２）のブロック２５７にタイル表示され、（Ｍ／２×Ｋ／２）の入力ストリーム２５３と（Ｋ／２×Ｎ／２）のオペランドデータ２５４とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）の畳み込み出力行列に割り当てられた（Ｍ／２×Ｎ／２）のブロック２５７の各ＰＥは、（Ｍ／２×Ｋ／２）の入力ストリーム２５３と（Ｋ／２×Ｎ／２）のオペランドデータ２５４との一部分を使用して（Ｍ／２×Ｎ／２）の畳み込み出力行列の対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）のブロック２５７の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に格納してもよい。いくつかの実施形態では、アクセラレータ２２０は、バッファに保持または格納された（Ｍ／２×Ｎ／２）の次元決定された出力データ２５５を記憶デバイス１２６に書き込んでもよい（図１Ｂを参照）。

図２Ｆは、本開示の例示の一実現例による、ニューラルネットワークの層のための複数の出力を生成するためのＡＩに関連する処理を実施するための処理装置（ＰＥ）の一実施形態のブロック図である。

図２Ｆを参照すると、いくつかの実施形態では、ＰＥ２６０は第１のメモリ２６１と第２のメモリ２６２とを含んでもよい。いくつかの実施形態では、ＰＥ２６０は、（１）第１のメモリ２６１に格納された入力ストリーム２２３データの第１のベクトルと、（２）オペランドデータ２２４の第２のベクトルとのドット積２６３を実施または計算するために（例えば、図１ＣのＭＡＣユニット１４０の１つまたは複数の特徴を有する）ＭＡＣユニットを含んでもよい。ＰＥ２６０のＭＡＣユニットは、ドット積演算の結果を格納するための累算器２６４を含んでもよい。別のＰＥ２６５は同様の構成を有する。各ＰＥに対応する、入力ストリームとオペランドデータとに対する畳み込み演算の完了（例えば、入力ストリームからのベクトルとオペランドデータからのベクトルとのドット積を計算することの完了）に応答して、ＰＥ（図２Ｆの２６０または２６５）は畳み込み演算の対応する結果をアウトフロップ２６６の対応する列位置に出力してもよい。いくつかの実施形態では、同じ行のＰＥからの畳み込み演算の結果を出力したことに応答して、アウトフロップ２６６（例えば、１つまたは複数のレジスタまたはフロップフロップデバイス）は畳み込み演算の結果をバッファ２６７および２６８の対応する列位置（または列バンク）に書き込んでもよい。

いくつかの実施形態では、第１のメモリ２６１および第２のメモリ２６２の各々は、静的オペランドを保持するためのＦＬＯＰ（フリップフロップまたはレジスタ）またはラッチの数を含んでもよく、それにより、（例えば、記憶デバイス１２６からの）フェッチの数を低減することによってエネルギーが低減される。いくつかの実施形態では、キャッシュまたはバッファメモリ（例えば、ＳＲＡＭ）は第１のメモリ２６１および第２のメモリ２６２の各々として使用されてもよい。いくつかの実施形態では、第２のメモリは、最高（Ｋ×Ｒ）の次元決定されたオペランドを格納してもよく、ＲはＮよりも小さいかまたはＮに等しい。例えば、第１のメモリ２６１および第２のメモリ２６２の各々は最高３２バイトのデータを格納してもよい。この構成を用いて、各ＰＥは、畳み込み／ＧＥＭＭの低減されたサイズもしくは次元がＫ×Ｒよりも小さいかまたはＫ×Ｒに等しいとき、（例えばＳＲＡＭからの）静的オペランドの冗長フェッチを回避するように、最高（Ｋ×Ｒ）の次元決定されたカーネルデータ（例えば、カーネル行列２１２）を静的オペランドとして保持することができる。

同様に、いくつかの実施形態では、第１のメモリ２６１は、最高（Ｓ×Ｋ）の入力ストリームを格納してもよく、ＳはＭよりも小さいかまたはＭに等しい。この構成を用いて、各ＰＥは、Ｓが１よりも大きいとき、入力ストリームデータが（例えばＳＲＡＭから）フェッチされるべき回数を低減するように、最高（Ｓ×Ｋ）の入力ストリームデータ（例えば、入力行列２１１）を保持することができる。この場合、入力ストリームデータを、例えばＳＲＡＭから新しい入力ストリームデータをフェッチすることなしに、最高Ｓ回再利用することができる。

図２Ｇは、本開示の例示の一実現例による、ＰＥをＡＩに関連する処理の出力のサブアレイに割り当てるための方法の一実施形態を示すブロック図である。図２Ｇを参照すると、いくつかの実施形態では、アクセラレータ２７０は、（Ｍ×Ｎ）のＰＥアレイまたは行列と、入力ストリームバッファ２７１とを含んでもよい。いくつかの実施形態では、アクセラレータ２７０の各ＰＥ２７２は図２ＦのＰＥ２６０と同様の構成を有してもよい。いくつかの実施形態では、（Ｍ×Ｎ）の次元をもつＰＥアレイに対して、プロセッサは、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信してもよい。例えば、図２Ｇを参照すると、（Ｍ／２×２Ｎ）のアレイ（図示されていない）に複数の出力が構成される場合、プロセッサは、（Ｍ／２×２Ｎ）のアレイの次元を（Ｍ×Ｎ）の次元決定されたＰＥアレイの次元と比較する。（Ｍ／２×２Ｎ）のアレイの列次元、すなわち、２Ｎが、ＰＥの対応する次元、すなわち、Ｎよりも大きいかまたはＮに等しいという決定に応答して、プロセッサは、（Ｍ／２×２Ｎ）のアレイを、（Ｍ×Ｎ）のＰＥアレイに適合するように２つのサブアレイに、例えば、第１のサブアレイおよび第２のサブアレイの各々が（Ｍ／２×Ｎ）の次元を有し、それらがＰＥアレイ（Ｍ×Ｎ）の次元よりも小さいかまたはそれに等しくなるように、第１のサブアレイと第２のサブアレイとに区画化してもよい。

再び図２Ｇを参照すると、（Ｍ／２×２Ｎ）のアレイを（Ｍ／２×Ｎ）の第１のサブアレイと（Ｍ／２×Ｎ）の第２のサブアレイとに区画化（またはスプリットまたは分割またはマッピング）することに応答して、プロセッサは、（Ｍ／２×Ｎ）の第１のサブアレイをＰＥアレイの（Ｍ／２×Ｎ）のブロック２７７に割り当て、（Ｍ／２×Ｎ）の第２のサブアレイをＰＥアレイの（Ｍ／２×Ｎ）のブロック２７８に割り当ててもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）の第１のサブアレイは、（Ｍ／２×Ｎ）のブロック２７７にタイル表示またはマッピングされ、（Ｍ／２×Ｋ）の入力ストリーム２７３と（Ｋ×Ｎ）のオペランドデータ２７５とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）の第１のサブアレイに割り当てられた（Ｍ／２×Ｎ）のブロック２７７の各ＰＥは、（Ｍ／２×Ｋ）の入力ストリーム２７３と（Ｋ×Ｎ）のオペランドデータ２７４との一部分を使用して（Ｍ／２×Ｎ）の第１のサブアレイの対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）のブロック２７７の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に（Ｍ／２×Ｎ）の出力データ２７６として格納してもよい。同様に、いくつかの実施形態では、（Ｍ／２×Ｎ）の第２のサブアレイは、（Ｍ／２×Ｎ）のブロック２７８にタイル表示またはマッピングされ、（Ｍ／２×Ｋ）の入力ストリーム２７３と（Ｋ×Ｎ）のオペランドデータ２７５とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）の第２のサブアレイに割り当てられた（Ｍ／２×Ｎ）のブロック２７８の各ＰＥは、（Ｍ／２×Ｋ）の入力ストリーム２７３と（Ｋ×Ｎ）のオペランドデータ２７５との一部分を使用して（Ｍ／２×Ｎ）の第２のサブアレイの対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ）のブロック２７８の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に（Ｍ／２×Ｎ）の出力データ２７９として格納してもよい。

いくつかの実施形態では、（Ｍ／２×Ｎ）のブロック２７７のＰＥと（Ｍ／２×Ｎ）のブロック２７８のＰＥとのための入力データ構造はプロセッサによって決定されてもよい。プロセッサは、区画化にしたがって、入力データの特定の部分を様々なサブアレイ中のＰＥにどのように方向付けるかまたはルーティングするかを決定してもよい。いくつかの実施形態では、プロセッサは、（Ｍ／２×Ｎ）のブロック２７７と（Ｍ／２×Ｎ）のブロック２７８との間で共有および処理されるべき入力データの共通の部分を識別してもよい。例えば、プロセッサは、（Ｍ／２×Ｋ）の入力ストリーム２７３を共通の部分として識別し、アクセラレータ２７０に（Ｍ／２×Ｋ）の入力ストリーム２７３を（Ｍ／２×Ｎ）のブロック２７７と（Ｍ／２×Ｎ）のブロック２７８の両方に方向付け、シフト、またはルーティングさせてもよい。いくつかの実施形態では、プロセッサは、（Ｍ／２×Ｎ）のブロック２７７のために使用される入力データの一部分を識別してもよい。例えば、プロセッサは、（Ｋ×Ｎ）のオペランドデータ２７４を（Ｍ／２×Ｎ）のブロック２７７のために使用される入力データの一部分として識別してもよく、アクセラレータ２７０に（Ｋ×Ｎ）のオペランドデータ２７４を（Ｍ／２×Ｎ）のブロック２７７に方向付け、シフト、またはルーティングさせることができる。同様に、プロセッサは、（Ｋ×Ｎ）のオペランドデータ２７５を（Ｍ／２×Ｎ）のブロック２７８のために使用される入力データの一部分として識別してもよく、アクセラレータ２７０に（Ｋ×Ｎ）のオペランドデータ２７５を（Ｍ／２×Ｎ）のブロック２７８に方向付け、シフト、またはルーティングさせることができる。

いくつかの実施形態では、（Ｍ／２×Ｎ）のブロック２７７の各ＰＥの第２のメモリ２６２（図２Ｆを参照）は、ＳＲＡＭからの静的オペランドの冗長フェッチを回避するように、（Ｋ×Ｎ）のオペランドデータ２７４から最高（Ｋ×Ｒ）のオペランド（ＲはＮよりも小さいかまたはＮに等しい）を格納してもよい。同様に、（Ｍ／２×Ｎ）のブロック２７８の各ＰＥの第２のメモリ２６２（図２Ｆを参照）は、ＳＲＡＭからの静的オペランドの冗長フェッチを回避するように、（Ｋ×Ｎ）のオペランドデータ２７５から最高（Ｋ×Ｒ）のオペランド（ＲはＮよりも小さいかまたはＮに等しい）を格納してもよい。

いくつかの実施形態では、（Ｍ／２×Ｎ）のブロック２７７の各ＰＥの第１のメモリ２６１（図２Ｆを参照）は、（Ｍ／２×Ｋ）の次元決定またはサイズ決定された入力ストリーム２７３から最高（Ｓ×Ｋ）の次元決定またはサイズ決定された入力ストリーム（ＳはＭよりも小さいかまたはＭに等しい）を格納してもよく、それにより、ＳＲＡＭから新しい入力ストリームデータをフェッチすることなしに、入力ストリームデータを最高Ｓ回再利用する。同様に、（Ｍ／２×Ｎ）のブロック２７８の各ＰＥの第１のメモリ２６１（図２Ｆを参照）は、（Ｍ／２×Ｋ）の次元決定またはサイズ決定された入力ストリーム２７３から最高（Ｓ×Ｋ）の次元決定またはサイズ決定された入力ストリーム（ＳはＭよりも小さいかまたはＭに等しい）を格納してもよく、それにより、ＳＲＡＭから新しい入力ストリームデータをフェッチすることなしに、入力ストリームデータを最高Ｓ回再利用する。

図２Ｈは、本開示の例示の一実現例による、異なる（例えば、分離されたかまたは別個の）位置における２つのＰＥのグループをＡＩに関連する処理の出力に割り当てるための方法の一実施形態のブロック図である。図２Ｈを参照すると、いくつかの実施形態では、（Ｍ×Ｎ）の次元をもつＰＥアレイに対して、プロセッサは、（入力ストリーム２８１、２８２に対応する）２つの別個の入力データを受信してもよく、それらの各々は、ニューラルネットワークの層のために、アレイ中に構成されたそれぞれの複数の出力を生成するために使用される。例えば、図２Ｈを参照すると、プロセッサは、（Ｍ／２×Ｎ／２）の第１の出力アレイ（図示されていない）と（Ｍ／２×Ｎ／２）の第２の出力アレイ（図示されていない）とのそれぞれに対応する２つの入力データを受信してもよく、それらの両方は、ＰＥアレイ（Ｍ×Ｎ）の次元よりも小さいかまたはそれに等しい次元を有する。（Ｍ／２×Ｎ／２）の第１の出力アレイと（Ｍ／２×Ｎ／２）の第２のサブアレイとを識別することに応答して、プロセッサは、（Ｍ／２×Ｎ／２）の第１の出力アレイをＰＥアレイの（Ｍ／２×Ｎ／２）のブロック２８７に割り当て、（Ｍ／２×Ｎ／２）の第２の出力アレイをＰＥアレイの（Ｍ／２×Ｎ／２）のブロック２８８に割り当ててもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）の第１の出力アレイは、（Ｍ／２×Ｎ／２）のブロック２８７にタイル表示またはマッピングされ、（Ｍ／２×Ｋ／２）の入力ストリーム２８１と（Ｋ／２×Ｎ／２）のオペランドデータ２８３とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）の第１の出力アレイに割り当てられた（Ｍ／２×Ｎ／２）のブロック２８７の各ＰＥは、（Ｍ／２×Ｋ／２）の入力ストリーム２８１と（Ｋ／２×Ｎ／２）のオペランドデータ２８３との一部分を使用して（Ｍ／２×Ｎ／２）の第１の出力アレイの対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）のブロック２８７の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に（Ｍ／２×Ｎ／２）の出力データ２８５として格納してもよい。同様に、いくつかの実施形態では、（Ｍ／２×Ｎ／２）の第２の出力アレイは、（Ｍ／２×Ｎ／２）のブロック２８８にタイル表示またはマッピングされ、（Ｍ／２×Ｋ／２）の入力ストリーム２８２と（Ｋ／２×Ｎ／２）のオペランドデータ２８４とを使用して更新されてもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）の第２の出力アレイに割り当てられた（Ｍ／２×Ｎ／２）のブロック２８８の各ＰＥは、（Ｍ／２×Ｋ／２）の入力ストリーム２８２と（Ｋ／２×Ｎ／２）のオペランドデータ２８４との一部分を使用して（Ｍ／２×Ｎ／２）の第２の出力アレイの対応する出力を生成または更新してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）のブロック２８８の各ＰＥは、対応する生成または更新された出力を対応するバッファ（例えば、図１Ｂのバッファ１３０）に（Ｍ／２×Ｎ／２）の出力データ２８６として格納してもよい。

いくつかの実施形態では、（Ｍ／２×Ｎ／２）のブロック２８７と（Ｍ／２×Ｎ／２）のブロック２８８とのＰＥのための入力データ構造はプロセッサによって決定されてもよい。いくつかの実施形態では、第１および第２の出力アレイのための２つの入力データが互いに別個であることを識別することに応答して、プロセッサは、（Ｍ／２×Ｎ／２）のブロック２８７と（Ｍ／２×Ｎ／２）のブロック２８８（例えば、ＰＥのサブアレイとして）との間に入力データの共通の部分がないことを決定してもよい。いくつかの実施形態では、（Ｍ／２×Ｎ／２）のブロック２８７と（Ｍ／２×Ｎ／２）のブロック２８８との間に入力データの共通の部分がないという決定に応答して、プロセッサは、（Ｍ／２×Ｎ／２）の第１の出力アレイと（Ｍ／２×Ｎ／２）の第２の出力アレイとを、異なる（例えば、別個のまたは分離された）位置におけるＰＥの２つのサブアレイ、例えば、ＰＥアレイの（Ｍ／２×Ｎ／２）のブロック２８７とＰＥアレイの（Ｍ／２×Ｎ／２）のブロック２８８とに割り当ててもよい。本開示のいくつかの実施形態では、デバイス（例えば、図２Ｂのアクセラレータ２２０）は、デバイスのプロセッサ（例えば、図１Ａのプロセッサ１２４）と処理装置（ＰＥ）アレイ（例えば、図２Ｂの（Ｍ×Ｎ）のＰＥアレイ）とを含んでもよい。ＰＥアレイは複数のＰＥ（例えば、図２ＢのＰＥ２２２）を含んでもよい。プロセッサは、ニューラルネットワークの層の１つまたは複数のニューロン／ノードのための複数の出力を生成するための入力データを受信するように構成されてもよく、複数の出力は第１のアレイ中に構成される。いくつかの実施形態では、複数の出力は、ニューラルネットワークの層のための畳み込み演算の出力（図２Ａを参照）であってもよい。プロセッサは、第１のアレイの次元をＰＥアレイ（例えば、図２Ｂの（Ｍ×Ｎ））の次元と比較するように構成されてもよい。プロセッサは、比較することの結果にしたがって、第１のアレイを、それぞれＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有するサブアレイに区画化するように構成されてもよい。プロセッサは、ＰＥアレイ中のＰＥの第１のグループ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７７）をサブアレイのうちの第１のサブアレイに割り当てるように構成されてもよい。サブアレイのうちの第１のサブアレイ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７７）に割り当てられたＰＥの第１のグループの各ＰＥは、入力データの一部分（例えば、図２Ｇの（Ｍ／２×Ｋ）の入力ストリーム２７３、（Ｋ×Ｎ）のオペランドデータ２７４）を使用して複数の出力の対応する出力を生成するように構成されてもよい。

いくつかの実施形態では、ＰＥアレイは二次元Ｍ×Ｎアレイ（図２Ｂ～図２Ｅおよび図２Ｇ～図２Ｈを参照）であってもよい。ＭおよびＮの各々は１よりも大きい整数である。プロセッサは、第１のアレイをＭ×Ｎアレイ（図２Ｂを参照）、Ｍ×Ｎ／２アレイ（図２Ｄを参照）、Ｍ／２×Ｎアレイ（図２Ｃを参照）、Ｍ／２×Ｎ／２アレイ（図２Ｅを参照）および／または様々な次元の他のアレイのうちの１つまたは複数を提供するために区画化するように構成されてもよい。

いくつかの実施形態では、プロセッサは、第１の次元における第１のアレイのサイズ（例えば、図２Ｇの（Ｍ／２×２Ｎ）のアレイの２Ｎ）が第１の次元におけるＰＥアレイのサイズ（例えば、図２Ｇの（Ｍ×Ｎ）のＰＥアレイのＮ）よりも大きいかどうかを決定するように構成されてもよい。第１の次元における第１のアレイのサイズが第１の次元におけるＰＥアレイのサイズよりも大きいことを決定したことに応答して、プロセッサは、第１のアレイをサブアレイのうちの第１のサブアレイと第２のサブアレイとに区画化するように構成されてもよい。プロセッサは、第１のサブアレイをＰＥアレイ中のＰＥの第１のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７７）に割り当て、第２のサブアレイをＰＥの第１のグループとは異なるＰＥアレイ中のＰＥの第２のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７８）に割り当てるように構成されてもよい。

いくつかの実施形態では、プロセッサは更に、ＰＥの第１および第２のグループの両方によって使用されるべき入力データの共通の部分（例えば、図２Ｇの（Ｍ／２×Ｋ）の入力ストリーム２７３）を識別するように構成されてもよい。プロセッサは更に、入力データの共通の部分（例えば、図２Ｇの（Ｍ／２×Ｋ）の入力ストリーム２７３）をＰＥの第１および第２のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７７および（Ｍ／２×Ｎ）のブロック２７８）に方向付け、ルーティングまたはシフトするように構成されてもよい。

いくつかの実施形態では、プロセッサは更に、ＰＥの第１のグループによって使用されるべき入力データの第１の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７４）と、ＰＥの第２のグループによって使用されるべき入力データの第２の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７５）とを識別するように構成されてもよい。プロセッサは更に、入力データの第１の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７４）をＰＥの第１のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７７）に方向付け、ルーティングまたはシフトするように構成されてもよい。プロセッサは更に、入力データの第２の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７５）をＰＥの第２のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７８）に方向付け、ルーティングまたはシフトするように構成されてもよい。

いくつかの実施形態では、入力データは、（例えば、図２Ａの入力行列２１１の要素を表す）第１の複数の入力値と（例えば、図２Ａのカーネル行列２１２の要素を表す）第２の複数の入力値とを含んでもよい。ＰＥの第１のグループの各ＰＥ（例えば、図２ＦのＰＥ２６０）は、第１のバッファメモリ（例えば、図２Ｆの第１のメモリ２６１）、第２のバッファメモリ（例えば、図２Ｆの第１のメモリ２６２）、および／または乗累算器（ＭＡＣ）回路類（例えば、図１ＣのＭＡＣユニット１４０）を含んでもよい。複数の出力の対応する出力を生成する際に、ＰＥの第１のグループの各ＰＥは、第１の複数の入力値の第１の値（例えば、図２Ｆの第１のベクトル）と第２の複数の入力値の第２の値（例えば、図２Ｆの第２のベクトル）とを受信するように構成されてもよい。ＰＥの第１のグループの各ＰＥ（例えば、図２ＦのＰＥ２６０）は、第１の値および第２の値（例えば、図２Ｆの第１のベクトルおよび第２のベクトル）をそれぞれ第１のバッファメモリおよび第２のバッファメモリ（例えば、図２Ｆの第１のメモリ２６１および第２のメモリ２６２）に格納するように構成されてもよい。ＰＥの第１のグループの各ＰＥは、ＭＡＣ回路類を介して、第１の値と第２の値との間の第１のドット積演算の結果（例えば、図２Ｆのドット積２６３）を生成するように構成されてもよい。

いくつかの実施形態では、各ＰＥは、複数の第１の入力値からの値の第１の数のセット（例えば、図２ＦのＳ個の第１のベクトル）を第１のバッファメモリ（例えば、図２Ｆの第１のメモリ２６１）に格納するように構成されてもよい。各ＰＥは、ＭＡＣ回路類を介して、（ｉ）第１のバッファメモリに格納された値の第１の数のセットの各々と、（ｉｉ）第２のバッファメモリに格納された第２の値（例えば、図２Ｆの第２のメモリ２６２に格納された第２のベクトル）とのドット積（例えば、ドット積演算の結果）を計算するように構成されてもよい。各ＰＥは、第１の数の計算されたドット積（例えば、図２ＦのＳ個のドット積）をニューラルネットワークの層のための畳み込み演算の出力として出力するように構成されてもよい。

いくつかの実施形態では、各ＰＥは、複数の第２の入力値からの値の第２の数のセット（例えば、図２ＦのＲ個の第２のベクトル）を第２のバッファメモリに（例えば、図２Ｆの第２のメモリ２６２）格納するように構成されてもよい。各ＰＥは、ＭＡＣ回路類を介して、（ｉ）第１のバッファメモリに格納された第１の値（例えば、図２Ｆの第１のメモリ２６１に格納された第１のベクトル）と、（ｉｉ）第２のバッファメモリに格納された値の第２の数のセットの各々とのドット積（例えば、ドット積演算の結果）を計算するように構成されてもよい。各ＰＥは、第２の数の計算されたドット積（例えば、図２ＦのＲ個のドット積）をニューラルネットワークの層のための畳み込み演算の出力として出力するように構成されてもよい。

いくつかの実施形態では、第１の複数の入力値は、ニューラルネットワークの層に対する入力データストリーム（例えば、図２Ａの入力行列２１１）と重み（例えば、図２Ａのカーネル行列２１２）とのうちの一方を表してもよい。第２の複数の入力値は、ニューラルネットワークの層に対する入力データのストリームと重みとの他方を表してもよい。

図２Ｉは、本開示の例示の一実現例による、ニューラルネットワークの層のための複数の出力を生成するためのプロセスを示すフローチャートである。いくつかの実施形態では、本方法は、プロセッサによって、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信することであって、複数の出力が第１のアレイ中に構成された、入力データを受信すること（２９１）を含む。本方法は、プロセッサによって、第１のアレイの次元を複数の処理装置（ＰＥ）を含むＰＥアレイの次元と比較すること（２９２）を含むことができる。本方法は、比較することの結果にしたがって、プロセッサによって、第１のアレイをサブアレイに区画化すること（２９３）を含むことができる。サブアレイの各々は、ＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有してもよい。本方法は、プロセッサによって、ＰＥアレイ中のＰＥの第１のグループをサブアレイのうちの第１のサブアレイに割り当てること（２９４）を含んでもよい。本方法は、サブアレイのうちの第１のサブアレイに割り当てられたＰＥの第１のグループの各ＰＥによって、入力データの一部分を使用して複数の出力の対応する出力を生成することを含むことができる。

２９１の更なる詳細では、またいくつかの実施形態では、アクセラレータのプロセッサ（例えば、図１Ａのプロセッサ１２４）は、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信し、複数の出力は第１のアレイ中に構成される。いくつかの実施形態では、複数の出力は、ニューラルネットワークの層のための畳み込み演算の出力（図２Ａを参照）であってもよい。例えば、図２Ｇを参照すると、第１のアレイは（Ｍ／２×２Ｎ）の次元を有してもよい。

２９２の更なる詳細では、またいくつかの実施形態では、プロセッサは、第１のアレイの次元を複数の処理装置（ＰＥ）（例えば、図２ＢのＰＥ２２２）を含むＰＥアレイ（例えば、図２Ｂの（Ｍ×Ｎ）のＰＥアレイ）の次元（例えば、図２Ｂの（Ｍ×Ｎ））と比較する。いくつかの実施形態では、ＰＥアレイは二次元Ｍ×Ｎアレイ（図２Ｂ～図２Ｅおよび図２Ｇ～図２Ｈを参照）であってもよく、ＭおよびＮの各々は１よりも大きい整数であってもよい。いくつかの実施形態では、プロセッサは、第１の次元における第１のアレイのサイズ（例えば、図２Ｇの（Ｍ／２×２Ｎ）のアレイの２Ｎ）が第１の次元におけるＰＥアレイのサイズ（例えば、図２Ｇの（Ｍ×Ｎ）のＰＥアレイのＮ）よりも大きいかどうかを決定されてもよい。

２９３の更なる詳細では、またいくつかの実施形態では、比較することの結果にしたがって、プロセッサは、第１のアレイをサブアレイに区画化してもよい。いくつかの実施形態では、サブアレイの各々は、ＰＥアレイの次元よりも小さいかまたはそれに等しい次元を有してもよい。例えば、図２Ｇでは、第１のサブアレイおよび第２のサブアレイの各々は、ＰＥアレイの次元（すなわち、Ｍ×Ｎ）よりも小さいかまたはそれに等しい（Ｍ／２×Ｎ）の次元を有する。いくつかの実施形態では、第１の次元における第１のアレイのサイズ（例えば、図２Ｇの（Ｍ／２×２Ｎ）のアレイ中の２Ｎ）が第１の次元におけるＰＥアレイのサイズ（例えば、図２Ｇの（Ｍ×Ｎ）のＰＥアレイ中のＮ）よりも大きいことを決定することに応答して、プロセッサは、第１のアレイをサブアレイのうちの第１のサブアレイと第２のサブアレイとに区画化してもよい（例えば、図２Ｇでは、（Ｍ／２×２Ｎ）のアレイは、２つの（Ｍ／２×Ｎ）のサブアレイに区画化される）。

２９４の更なる詳細では、またいくつかの実施形態では、プロセッサは、ＰＥアレイ中のＰＥの第１のグループ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７７）をサブアレイのうちの第１のサブアレイ（例えば、図２Ｇの（Ｍ／２×Ｎ）のアレイ）に割り当ててもよい。いくつかの実施形態では、プロセッサは、第１のサブアレイをＰＥアレイ中のＰＥの第１のグループに割り当て、第２のサブアレイ（例えば、図２Ｇの（Ｍ／２×Ｎ）のアレイ）をＰＥアレイ中のＰＥの第２のグループ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７８）に割り当ててもよい。第１の次元とは異なる第２の次元におけるＰＥの第１のグループ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７７）の位置は、第２の次元におけるＰＥの第２のグループ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７８）の位置と異なってもよい。

いくつかの実施形態では、プロセッサは、ＰＥの第１および第２のグループの両方によって使用されるべき入力データの共通の部分（例えば、図２Ｇの（Ｍ／２×Ｋ）の入力ストリーム２７３）を識別してもよい。プロセッサは、入力データの共通の部分（例えば、図２Ｇの（Ｍ／２×Ｋ）の入力ストリーム２７３）をＰＥの第１および第２のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７７および（Ｍ／２×Ｎ）のブロック２７８）に方向付け、ルーティングまたはシフトしてもよい。

いくつかの実施形態では、プロセッサは、ＰＥの第１のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７７）によって使用されるべき入力データの第１の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７４）と、ＰＥの第２のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７８）によって使用されるべき入力データの第２の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７５）とを識別してもよい。プロセッサは、入力データの第１の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７４）をＰＥの第１のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７７）に方向付け、ルーティング、またはシフトしてもよい。プロセッサは、入力データの第２の部分（例えば、図２Ｇの（Ｋ×Ｎ）のオペランドデータ２７５）をＰＥの第２のグループ（例えば、図２Ｇの（Ｍ／２×Ｎ）のブロック２７８）に方向付け、ルーティング、またはシフトしてもよい。

２９５の更なる詳細では、サブアレイのうちの第１のサブアレイ（例えば、図２ＧのＰＥの（Ｍ／２×Ｎ）のブロック２７７）に割り当てられたＰＥの第１のグループの各ＰＥは、入力データ（例えば、図２Ｇの（Ｍ／２×Ｋ）の入力ストリーム２７３および（Ｋ×Ｎ）のオペランドデータ２７４）の一部分を使用して複数の出力の対応する出力を生成してもよい。いくつかの実施形態では、入力データは、第１の複数の入力値（例えば、図２Ａの入力行列２１１）と第２の複数の入力値（例えば、図２Ａのカーネル行列２１２）とを含んでもよい。いくつかの実施形態では、第１の複数の入力値は、ニューラルネットワークの層に対する入力データストリーム（例えば、図２Ａの入力行列２１１）と重み（例えば、図２Ａのカーネル行列２１２）とのうちの一方を表してもよい。いくつかの実施形態では、第２の複数の入力値は、ニューラルネットワークの層に対する入力データのストリームと重みとのうちの他方を表してもよい。ＰＥの第１のグループの各ＰＥによって複数の出力の対応する出力を生成する際に、各ＰＥは第１の複数の入力値の第１の値（例えば、図２Ｆの第１のベクトル）と第２の複数の入力値の第２の値（例えば、図２Ｆの第２のベクトル）とを受信してもよい。各ＰＥは、第１の値および第２の値を前記各ＰＥのそれぞれ第１のバッファメモリおよび第２のバッファメモリ（例えば、図２Ｆの第１のメモリ２６１および第２のメモリ２６２）に格納してもよい。各ＰＥの乗累算器（ＭＡＣ）回路類（例えば、図１ＣのＭＡＣユニット１４０）は、第１の値と第２の値との第１のドット積（例えば、図２Ｆのドット積２６３）を生成または計算してもよい。

いくつかの実施形態では、各ＰＥの第１のバッファメモリ（例えば、図２Ｆの第１のメモリ２６１）は、第１の複数の入力値からの値の第１の数のセット（例えば、図２ＦのＳ個の第１のベクトル）を格納してもよい。ＭＡＣ回路類は、（ｉ）各ＰＥの第１のバッファメモリに格納された値の第１の数のセットの各々と、（ｉｉ）各ＰＥの第２のバッファメモリに格納された第２の値（例えば、図２Ｆの第２のメモリ２６２に格納された第２のベクトル）とのドット積を計算してもよい。計算されたドット積の第１の数（例えば、図２ＦのＳ個のドット積）はニューラルネットワークの層のための畳み込み演算の出力であってもよい。

いくつかの実施形態では、各ＰＥの第２のバッファメモリ（例えば、図２Ｆの第２のメモリ２６２）は、複数の第２の入力値からの値の第２の数のセット（例えば、図２ＦのＲ個の第２のベクトル）を格納してもよい。ＭＡＣ回路類は、（ｉ）前記各ＰＥの第１のバッファメモリに格納された第１の値（例えば、図２Ｆの第１のメモリ２６１に格納された第１のベクトル）と、（ｉｉ）各ＰＥの第２のバッファメモリに格納された値の第２の数のセットの各々とのドット積を計算し、出力してもよい。計算されたドット積の第２の数（例えば、図２ＦのＲ個のドット積）は、ニューラルネットワークの層のための畳み込み演算の出力であってもよい。

いくつかの例示的な実現例について記載してきたが、上記は例示であって限定ではなく、例として提示されていることが明白である。特に、本明細書に提示する例の多くには、方法行為またはシステム要素の特定の組み合わせが関与するが、それらの行為および要素は、同じ目的を遂行するために他の形で組み合わせることができる。１つの実現例に関連して考察される行為、要素、および特徴は、他の１つまたは複数の実現例における類似の役割から除外されないものとする。

本明細書に開示する実施形態と関連して記載される、様々なプロセス、動作、例示の論理、論理ブロック、モジュール、および回路を実現するのに使用される、ハードウェアおよびデータ処理構成要素は、汎用シングルもしくはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラマブル論理デバイス、離散的ゲートもしくはトランジスタ論理、離散的ハードウェア構成要素、または本明細書に記載の機能を実施するように設計された上記のものの任意の組み合わせを用いて、実現または実施されてもよい。汎用プロセッサは、マイクロプロセッサ、または任意の従来のプロセッサ、コントローラ、マイクロコントローラ、もしくは状態機械であってもよい。プロセッサはまた、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連動した１つもしくは複数のマイクロプロセッサ、または他の任意のかかる構成など、コンピューティングデバイスの組み合わせとして実現されてもよい。いくつかの実施形態では、特定のプロセスおよび方法は、所与の機能に特異的な回路類によって実施されてもよい。メモリ（例えば、メモリ、メモリユニット、記憶デバイスなど）は、本開示に記載する様々なプロセス、層、およびモジュールを完成させるかもしくは容易にする、データおよび／またはコンピュータコードを格納する、１つまたは複数のデバイス（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク記憶装置など）を含んでもよい。メモリは、揮発性メモリもしくは不揮発性メモリであるかまたはそれらを含んでもよく、本開示に記載する様々なアクティビティおよび情報構造をサポートする、データベース構成要素、オブジェクトコード構成要素、スクリプト構成要素、または他の任意のタイプの情報構造を含んでもよい。例示的実施形態によれば、メモリは、処理回路を介してプロセッサに通信可能に接続され、本明細書に記載の１つもしくは複数のプロセスを（例えば、処理回路および／またはプロセッサによって）実行するためのコンピュータコードを含む。

本開示は、様々な動作を遂行するための任意の機械可読媒体上における、方法、システム、およびプログラム製品を想到する。本開示の実施形態は、既存のコンピュータプロセッサを使用して、またはこの目的もしくは別の目的のために組み込まれる、適切なシステムのための専用コンピュータプロセッサによって、または配線接続システムによって、実現されてもよい。本開示の範囲内の実施形態は、格納された機械実行可能命令もしくはデータ構造を保持するかまたは有する、機械可読媒体を備えるプログラム製品を含む。かかる機械可読媒体は、汎用もしくは専用コンピュータ、またはプロセッサを有する他の機械によってアクセスすることができる、任意の利用可能な媒体であることができる。例として、かかる機械可読媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、または他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、あるいは機械実行可能命令またはデータ構造の形態で所望のプログラムコードを保持または格納するのに使用することができ、汎用もしくは専用コンピュータまたはプロセッサを有する他の機械でアクセスすることができる、他の任意の媒体を含むことができる。上記のものの組み合わせはまた、機械可読媒体の範囲に含まれる。機械実行可能命令は、例えば、汎用コンピュータ、専用コンピュータ、または専用処理機械に、特定の機能または機能群を実施させる、命令およびデータを含む。

本明細書で使用する用語および専門用語は、説明のためのものであって限定とみなされるべきではない。本明細書における、「～を含む」、「～を備える」、「～を有する」、「～を含有する」、「～を伴う」、「～によって特徴付けられる」、「～を特徴とする」およびそれらの変形の使用は、該用語とともに列挙される項目、それらの等価物、および追加の項目、ならびに排他的に該用語とともに列挙される項目から成る代替実現例を網羅することを意味する。一実現例では、本明細書に記載するシステムおよび方法は、記載する要素、行為、または構成要素のうちの１つ、２つ以上の各組み合わせ、または全てから成る。

単数形で言及される本明細書のシステムおよび方法の実現例または要素または行為に対する任意の言及は、複数のこれらの要素を含む実現例も包含することができ、本明細書の任意の実現例または要素または行為に対する複数形での任意の言及は、単一の要素のみを含む実現例も包含することができる。単数形または複数形での言及は、本明細書に開示されるシステムもしくは方法、それらの構成要素、行為、または要素を、単数または複数の構成に限定しようとするものではない。任意の情報、行為、または要素に基づいた任意の行為または要素に対する言及は、行為または要素が、任意の情報、行為、または要素に少なくとも部分的に基づく場合の実現例を含むことができる。

本明細書に開示する任意の実現例は、他の任意の実現例または実施形態と組み合わせることができ、「ある実現例」、「いくつかの実現例」、「一実現例」などに対する言及は、必ずしも相互に排他的ではなく、実現例と関連して記載する特定の特徴、構造、または特性が、少なくとも１つの実現例または実施形態に含まれ得ることを示すものとする。かかる用語は、本明細書で使用するとき、必ずしも全てが同じ実現例を指すものではない。任意の実現例は、本明細書に開示する態様および実現例と一致する任意の手法で、他の任意の実現例と包括的または排他的に組み合わせることができる。

図面、詳細な説明、または任意のクレームにおける技術的特徴に参照符号が付される場合、参照符号は、図面、詳細な説明、およびクレームの了解度を向上するために含まれるものである。したがって、参照符号が存在してもしなくても、任意のクレーム要素の範囲に対する限定的影響を何ら有さない。

本明細書に記載するシステムおよび方法は、それらの特性から逸脱することなく、他の特定の形態で具体化されてもよい。「約」、「およそ」、「実質的に」、または他の程度を表す用語に対する言及は、別段の明示がない限り、所与の測定値、単位、または範囲から±１０％の変動を含む。結合された要素は、直接または介在要素を用いて、互いに電気的、機械的、または物理的に結合することができる。本明細書に記載するシステムおよび方法の範囲は、したがって、上述の記載ではなく添付のクレームによって示され、クレームの等価物の意味および範囲内にある変更は包含される。

「結合された」という用語およびその変形は、２つの部材を直接または間接的に互いに接合することを含む。かかる接合は、静的（例えば、恒久的もしくは固定）または可動（例えば、除去可能もしくは解放可能）であってもよい。かかる接合は、互いに直接結合され、または互いに対して結合された２つの部材によって、別個の介在部材および互いに結合された任意の追加の中間部材を使用して互いに結合された２つの部材によって、あるいは２つの部材の一方とともに単一の単位体として一体的に形成された介在部材を使用して互いに結合された２つの部材によって、達成されてもよい。「結合された」またはその変形が、追加の用語によって修正された場合（例えば、直接結合された）、上述の「結合された」の包括的定義は、追加の用語の平易な言葉の意味によって修正され（例えば、「直接結合された」は、任意の別個の介在部材を有さない２つの部材の接合を意味する）、それによって上述の「結合された」の包括的定義よりも狭い定義になる。かかる結合は機械的、電気的、または流体的であってもよい。

「または」に対する言及は包括的と解釈することができるので、「または」を使用して記載されるいずれの用語も、記載される用語の単一、２つ以上、および全てのいずれかを示すことができる。「『Ａ』および『Ｂ』のうち少なくとも１つ」は、「Ａ」のみ、「Ｂ」のみ、ならびに「Ａ」および「Ｂ」の両方を含むことができる。「備える」または他のオープンな用語と併せて使用されるかかる言及は、追加の項目を含むことができる。

様々な要素のサイズ、寸法、構造、形状、および比率、パラメータの値、取付け構造、材料使用、色、向きにおける変形例など、記載される要素および行為の修正は、本明細書に開示する主題の教示および利点から実質的に逸脱することなく行うことができる。例えば、一体的に形成されるものとして示される要素は、複数の部分または要素で構築することができ、要素の位置を反転させるかまたは別の形で変動させることができ、離散的要素または位置の性質もしくは数を改変または変更することができる。他の置換、修正、変更、および省略も、本開示の範囲から逸脱することなく、開示の要素および動作の設計、動作条件、および配置に対して行うことができる。

本明細書における要素の位置に対する言及（例えば、「上側」、「下側」、「上方」、「下方」）は単に、図面における様々な要素の向きを説明するために使用されるものである。様々な要素の向きは、他の例示的実施形態によって異なってもよく、かかる変形は本開示に包含されるものとする。

Claims

ニューラルネットワークの層のための複数の出力を生成するための方法であって、
プロセッサによって、ニューラルネットワークの層のための複数の出力を生成するための入力データを受信することであって、前記複数の出力が第１のアレイ中に構成された、入力データを受信することと、
前記プロセッサによって、前記第１のアレイの次元を、複数の処理装置（ＰＥ）を含むＰＥアレイの次元と比較することと、
前記比較することの結果にしたがって、前記プロセッサによって、前記第１のアレイを、それぞれ前記ＰＥアレイの前記次元よりも小さいかまたはそれに等しい次元を有するサブアレイに区画化することと、
前記プロセッサによって、前記ＰＥアレイ中のＰＥの第１のグループを前記サブアレイのうちの第１のサブアレイに割り当てることと、
前記サブアレイのうちの前記第１のサブアレイに割り当てられたＰＥの前記第１のグループの各ＰＥによって、前記入力データの一部分を使用して前記複数の出力の対応する出力を生成することと
を含む、方法。
前記ＰＥアレイは、ＭおよびＮの各々が１よりも大きい整数である、二次元Ｍ×Ｎアレイであり、
前記第１のアレイを前記区画化することが、前記第１のアレイをＭ×Ｎアレイ、Ｍ×Ｎ／２アレイ、Ｍ／２×Ｎアレイ、またはＭ／２×Ｎ／２アレイのうちの１つまたは複数に区画化することを含む、請求項１に記載の方法。
第１の次元における前記第１のアレイのサイズが前記第１の次元における前記ＰＥアレイのサイズよりも大きいかどうかを決定することと、
前記第１の次元における前記第１のアレイの前記サイズが前記第１の次元における前記ＰＥアレイの前記サイズよりも大きいことを決定したことに応答して、
前記第１のアレイを前記サブアレイのうちの前記第１のサブアレイと第２のサブアレイとに区画化することと、
前記第１のサブアレイを前記ＰＥアレイ中のＰＥの前記第１のグループに割り当て、前記第２のサブアレイを前記ＰＥアレイ中のＰＥの第２のグループに割り当てることであって、前記第１の次元とは異なる第２の次元におけるＰＥの前記第１のグループの位置が前記第２の次元におけるＰＥの前記第２のグループの位置とは異なる、割り当てることと
を更に含む、請求項１に記載の方法。
ＰＥの前記第１と第２のグループの両方によって使用されるべき前記入力データの共通の部分を識別することと、
前記入力データの前記共通の部分をＰＥの前記第１および第２のグループにシフトすることと
を更に含む、請求項３に記載の方法。
ＰＥの前記第１のグループによって使用されるべき前記入力データの第１の部分と、ＰＥの前記第２のグループによって使用されるべき前記入力データの第２の部分とを識別することと、
前記入力データの前記第１の部分をＰＥの前記第１のグループにシフトすることと、
前記入力データの前記第２の部分をＰＥの前記第２のグループにシフトすることと
を更に含む、請求項３に記載の方法。
前記複数の出力が、前記ニューラルネットワークの前記層のための畳み込み演算の出力であり、
前記入力データが第１の複数の入力値と第２の複数の入力値とを含み、
ＰＥの前記第１のグループの各ＰＥによって、前記複数の出力の前記対応する出力を生成することが、
前記各ＰＥによって、前記第１の複数の入力値の第１の値と、前記第２の複数の入力値の第２の値とを受信することと、
前記各ＰＥによって、前記第１の値および前記第２の値をそれぞれ前記各ＰＥの第１のバッファメモリおよび第２のバッファメモリに格納することと、
前記各ＰＥの乗累算器（ＭＡＣ）回路類によって、前記第１の値と前記第２の値との第１のドット積を生成することであって、
前記第１の複数の入力値が、前記ニューラルネットワークの前記層に対する入力データストリームと重みとのうちの一方を表し、
前記第２の複数の入力値が、前記ニューラルネットワークの前記層に対する入力データストリームと重みとのうちの他方を表す、第１のドット積を生成することと
を含む、請求項１に記載の方法。
第１の複数の入力値からの値の第１の数のセットが前記各ＰＥの前記第１のバッファメモリに格納され、
（ｉ）前記各ＰＥの前記第１のバッファメモリに格納された値の前記第１の数のセットの各々と、（ｉｉ）前記各ＰＥの前記第２のバッファメモリに格納された前記第２の値とのドット積が、前記ＭＡＣ回路類によって計算され、
前記第１の数の計算されたドット積が前記ニューラルネットワークの前記層のための畳み込み演算の出力である、請求項６に記載の方法。
前記第２の複数の入力値からの値の第２の数のセットが前記各ＰＥの前記第２のバッファメモリに格納され、
（ｉ）前記各ＰＥの前記第１のバッファメモリに格納された前記第１の値と、（ｉｉ）前記各ＰＥの前記第２のバッファメモリに格納された値の前記第２の数のセットの各々とのドット積が、前記ＭＡＣ回路類によって計算され、
前記第２の数の計算されたドット積が前記ニューラルネットワークの前記層のための畳み込み演算の出力である、請求項６に記載の方法。
ニューラルネットワークの層のための複数の出力を生成するためのデバイスであって、
プロセッサと、
複数の処理装置（ＰＥ）を含むＰＥアレイと
を含み、前記プロセッサは、
複数の出力が第１のアレイ中に構成された、ニューラルネットワークの層のための前記複数の出力を生成するための入力データを受信し、
前記第１のアレイの次元を前記ＰＥアレイの次元と比較し、
前記比較することの結果にしたがって、前記第１のアレイを、それぞれ前記ＰＥアレイの前記次元よりも小さいかまたはそれに等しい次元を有するサブアレイに区画化し、
前記ＰＥアレイ中のＰＥの第１のグループを前記サブアレイのうちの第１のサブアレイに割り当てるように構成され、
前記サブアレイのうちの前記第１のサブアレイに割り当てられたＰＥの前記第１のグループの各ＰＥが、前記入力データの一部分を使用して前記複数の出力の対応する出力を生成するように構成された、デバイス。
前記ＰＥアレイは、ＭおよびＮの各々が１よりも大きい整数である、二次元Ｍ×Ｎアレイであり、
前記プロセッサが、前記第１のアレイをＭ×Ｎアレイ、Ｍ×Ｎ／２アレイ、Ｍ／２×Ｎアレイ、またはＭ／２×Ｎ／２アレイのうちの１つまたは複数に区画化するように構成された、請求項９に記載のデバイス。
前記プロセッサは、第１の次元における前記第１のアレイのサイズが前記第１の次元における前記ＰＥアレイのサイズよりも大きいかどうかを決定するように構成され、
前記第１の次元における前記第１のアレイの前記サイズが前記第１の次元における前記ＰＥアレイの前記サイズよりも大きいことを決定したことに応答して、前記プロセッサが、
前記第１のアレイを前記サブアレイのうちの前記第１のサブアレイと第２のサブアレイとに区画化し、
前記第１のサブアレイを前記ＰＥアレイ中のＰＥの前記第１のグループに割り当て、前記第２のサブアレイをＰＥの前記第１のグループとは異なる前記ＰＥアレイ中のＰＥの第２のグループに割り当てるように構成された、請求項９に記載のデバイス。
前記プロセッサが更に、
ＰＥの前記第１と第２のグループの両方によって使用されるべき前記入力データの共通の部分を識別し、
前記入力データの前記共通の部分をＰＥの前記第１および第２のグループにシフトするように構成された、請求項１１に記載のデバイス。
前記プロセッサが更に、
ＰＥの前記第１のグループによって使用されるべき前記入力データの第１の部分と、ＰＥの前記第２のグループによって使用されるべき前記入力データの第２の部分とを識別し、
前記入力データの前記第１の部分をＰＥの前記第１のグループにシフトし、
前記入力データの前記第２の部分をＰＥの前記第２のグループにシフトするように構成された、請求項１１に記載のデバイス。
前記複数の出力がニューラルネットワークの前記層のための畳み込み演算の出力であり、
前記入力データが第１の複数の入力値と第２の複数の入力値とを含み、
ＰＥの前記第１のグループの各ＰＥが、第１のバッファメモリと、第２のバッファメモリと、乗累算器（ＭＡＣ）回路類とを含み、
前記複数の出力の前記対応する出力を生成することにおいて、ＰＥの前記第１のグループの各ＰＥが、
前記第１の複数の入力値の第１の値と、前記第２の複数の入力値の第２の値とを受信し、
前記第１の値および前記第２の値をそれぞれ前記第１のバッファメモリおよび前記第２のバッファメモリに格納し、
前記ＭＡＣ回路類を介して、前記第１の値と前記第２の値との第１のドット積を生成するように構成され、
前記第１の複数の入力値が、前記ニューラルネットワークの前記層に対する入力データストリームと重みとのうちの一方を表し、
前記第２の複数の入力値が、前記ニューラルネットワークの前記層に対する入力データストリームと重みとのうちの他方を表す、請求項９に記載のデバイス。
前記各ＰＥが、
前記第１の複数の入力値からの値の第１の数のセットを前記第１のバッファメモリに格納し、
前記ＭＡＣ回路類を介して、（ｉ）前記第１のバッファメモリに格納された値の前記第１の数のセットの各々と、（ｉｉ）前記第２のバッファメモリに格納された前記第２の値とのドット積を計算し、
前記第１の数の計算されたドット積を前記ニューラルネットワークの前記層のための畳み込み演算の出力として出力するように構成された、請求項１４に記載のデバイス。