JP2022539660A

JP2022539660A - 畳み込みからの早期抜け出しのためのシステム、方法、およびデバイス

Info

Publication number: JP2022539660A
Application number: JP2021570850A
Authority: JP
Inventors: ガネシュヴェンカテーシュ，; リャンジェンライ，; ピアスイ－ジェンチャン，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-11
Filing date: 2020-07-08
Publication date: 2022-09-13
Also published as: EP3997621A1; CN114041141A; US20210012178A1; WO2021007337A1; KR20220031018A

Abstract

本明細書の開示は、畳み込みからの早期抜け出しのためのシステム、方法、およびデバイスを含む。実施形態によっては、少なくとも１つの処理要素（ＰＥ）回路が、オペランドのセットによるドット積演算に対応するニューラルネットワークのノードに対して、オペランドのセットのサブセットを使用して計算を実施して、オペランドのセットのサブセットのドット積値を生成するように構成されている。少なくとも１つのＰＥ回路は、オペランドのセットのサブセットのドット積値を閾値と比較し得る。少なくとも１つのＰＥ回路は、少なくともこの比較の結果に基づき、ニューラルネットワークのノードを活性化すべきかどうかを判断することができる。【選択図】図１Ａ

Description

本開示は、概して、ニューラルネットワークに関する処理に関し、ニューラルネットワークに関するＡＩアクセラレータにおける畳み込みからの早期抜け出しを含むが、これに限定されるわけではない。

機械学習は、例えば、コンピュータビジョン、画像処理などを含む様々な異なるコンピューティング環境で実装されている。機械学習システムの中には、ニューラルネットワーク（例えば、人工ニューラルネットワーク）を組み込み得るものがある。しかし、このようなニューラルネットワークの実装は、処理の観点からもエネルギー効率の観点からも、計算上、高価なものになる可能性がある。

本発明により、畳み込みからの早期抜け出しの方法を提供し、この方法は、オペランドのセットによるドット積演算に対応するニューラルネットワークのノードに対して、少なくとも１つの処理要素（ＰＥ）回路によって、オペランドのセットのサブセットを使用して、オペランドのセットのサブセットのドット積値を生成するように計算を実施することと、少なくとも１つのＰＥ回路によって、オペランドのセットのサブセットのドット積値を閾値と比較することと、少なくとも１つのＰＥ回路によって、少なくとも比較の結果に基づき、ニューラルネットワークのノードを活性化すべきかどうかを判断することと、を含む。

実施形態によっては、方法は、場合により、少なくとも１つのＰＥ回路によって、計算を実施する対象のオペランドのセットのサブセットを特定することを含む。実施形態によっては、方法は、場合により、部分ドット積値が少なくとも閾値よりも小さな数になるのをもたらすいくつかのオペランドを選択して、オペランドのセットのサブセットにすることを含む。実施形態によっては、方法は、場合により、部分ドット積値が少なくとも閾値よりも大きな数になるのをもたらすいくつかのオペランドを選択して、オペランドのセットのサブセットにすることを含む。

場合によっては、方法は、計算を実施する対象のオペランドのセットを配列し直すことを含む。実施形態によっては、方法は、場合により、ニューラルネットワークのニューラルネットワークグラフを配列し直すことによって、オペランドのセットを配列し直すことを含む。実施形態によっては、方法は、場合により、ニューラルネットワークのニューラルネットワークグラフの少なくともいくつかのノードまたは層のオペランドを配列し直すことを含む。実施形態によっては、方法は、場合により、少なくともニューラルネットワークの出力の望ましい精度に基づいて閾値を設定することを含む。実施形態によっては、方法は、場合により、オペランドのセットの全てを使用するのではなく、少なくとも、オペランドのセットのサブセットを使用して計算を実施することによって実現可能な省力化レベルに基づいて、閾値を設定することを含む。実施形態によっては、オペランドのセットとしては、場合により、ノードの重みまたはカーネル（例えば、カーネル要素）が挙げられる。

本発明により、更に、畳み込みからの早期抜け出しのためのデバイスを提供し、このデバイスとしては、オペランドのセットによるドット積演算に対応するニューラルネットワークのノードに対して、オペランドのセットのサブセットを使用して、オペランドのセットのサブセットのドット積値を生成するように計算を実施することと、オペランドのセットのサブセットのドット積値を閾値と比較することと、少なくともこの比較の結果に基づいて、ニューラルネットワークのノードを活性化すべきかどうかを判断することと、を実施するように構成された少なくとも１つの処理要素（ＰＥ）回路が挙げられる。

実施形態によっては、少なくとも１つのＰＥ回路は、場合により、計算を実施する対象のオペランドのセットのサブセットを特定するように更に構成されている。実施形態によっては、少なくとも１つのＰＥ回路は、場合により、部分ドット積値が少なくとも閾値よりも小さな数になるのをもたらすいくつかのオペランドを選択して、オペランドのセットのサブセットにするように更に構成されている。実施形態によっては、少なくとも１つのＰＥ回路は、場合により、部分ドット積値が少なくとも閾値よりも大きな数になるのをもたらすいくつかのオペランドを選択して、オペランドのセットのサブセットにするように更に構成されている。

実施形態によっては、デバイスとしては、場合により、計算を実施する対象のオペランドのセットを配列し直すように構成されたプロセッサが更に挙げられる。実施形態によっては、プロセッサは、場合により、ニューラルネットワークのニューラルネットワークグラフを配列し直すことによって、オペランドのセットを配列し直すように構成されている。実施形態によっては、デバイスとしては、場合により、ニューラルネットワークのニューラルネットワークグラフの少なくともいくつかのノードまたは層のオペランドを配列し直すように構成されたプロセッサが挙げられる。実施形態によっては、デバイスとしては、場合により、少なくともニューラルネットワークの出力の望ましい精度に基づいて、閾値を設定するように構成されたプロセッサが更に挙げられる。実施形態によっては、プロセッサは、場合により、オペランドのセットの全てを使用するのではなく、少なくとも、オペランドのセットのサブセットを使用して計算を実施することによって実現可能な省力化レベルに基づいて、閾値を設定するように構成されている。実施形態によっては、オペランドのセットとしては、場合により、ノードの重みまたはカーネルが挙げられる。

上記および他の態様ならびに実現例について、以下で詳細に考察する。上述の情報および以下で詳述する説明は、様々な態様および実現例の実例を含み、特許請求する態様および実現例の性質ならびに特徴を理解するための概観または枠組みを提供する。図面は、様々な態様および実現例の例示ならびに更なる理解を提供し、本明細書に組み込まれるとともに本明細書の一部を構成する。

添付図面は縮尺通りに描かれることを意図しない。様々な図面における同様の参照番号および記号は同様の要素を示す。明瞭にするため、全ての図面において全ての構成要素に符号が付されるわけではない。

本開示の例示の一実現例による、人工知能（ＡＩ）に関連する処理を実施するシステムの一実施形態を示すブロック図である。本開示の例示の一実現例による、人工知能（ＡＩ）に関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例による、人工知能（ＡＩ）に関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例による、代表的なコンピューティングシステムを示すブロック図である。本開示の例示の一実現例による、畳み込みからの早期抜け出しのためのデバイスを示すブロック図である。本開示の例示の一実現例による、畳み込みからの早期抜け出しのプロセスを示すフローチャートである。

特定の実施形態を詳細に示す図面に移る前に、本開示は、明細書に記載されるかまたは図面に例示される、詳細もしくは方法論に限定されないことが理解されるべきである。また、本明細書で使用する専門用語は、単に説明のためのものであって限定とみなされるべきでないことが理解されるべきである。

以下の本発明の様々な実施形態についての説明を読むために、本明細書のセクションおよびそれらそれぞれの内容について、次の説明が有用であり得る。
セクションＡは、本発明のシステム、方法、およびデバイスの一実施形態を実践または実現するのに有用な、環境、システム、構成、および／または他の態様について記載する。
セクションＢは、畳み込みからの早期抜け出しのデバイス、システム、および方法の実施形態について記載する。

Ａ．人工知能に関連する処理のための環境
システム、デバイス、および／または方法の実施形態の詳細についてセクションＢで考察する前に、システム、デバイス、および／または方法の特定の実施形態を実践もしくは実現するのに有用な、環境、システム、構成、および／または他の態様について考察するのが有用であり得る。ここで図１Ａを参照すると、人工知能（ＡＩ）に関連する処理を実施するためのシステムの一実施形態が示される。概要では、システムは、入力データ１１０を使用してＡＩに関連する処理を実施することができる、１つまたは複数のＡＩアクセラレータ１０８を含む。ＡＩアクセラレータ１０８として参照しているが、場合によっては、ニューラルネットワークアクセラレータ（ＮＮＡ）、ニューラルネットワークチップもしくはハードウェア、ＡＩプロセッサ、ＡＩチップなどと呼ばれる。ＡＩアクセラレータ１０８は、入力データ１１０および／またはパラメータ１２８（例えば、重みおよび／またはバイアス情報）にしたがって、ＡＩに関連する処理を実施して、出力データ１１２を出力または提供することができる。ＡＩアクセラレータ１０８は、１つもしくは複数のニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）、１つもしくは複数のプロセッサ２４、および／または１つもしくは複数の記憶デバイス１２６を含むことができ、ならびに／あるいは実装することができる。

上述の要素または構成要素はそれぞれ、ハードウェア、またはハードウェアとソフトウェアの組み合わせの形で実装される。例えば、これらの要素または構成要素はそれぞれ、任意のアプリケーション、プログラム、ライブラリ、スクリプト、タスク、サービス、プロセス、あるいはデジタルおよび／またはアナログ要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子）を含むことができる回路類などのハードウェア上で実行する、任意のタイプおよび形態の実行可能命令を含むことができる。

入力データ１１０は、ＡＩアクセラレータ１０８のニューラルネットワーク１１４を構成、調整、訓練、および／または活性化するための、ならびに／あるいはプロセッサ１２４によって処理するための、任意のタイプもしくは形態のデータを含むことができる。ニューラルネットワーク１１４は、場合によっては、人工ニューラルネットワーク（ＡＮＮ）と呼ばれる。ニューラルネットワークの構成、調整、および／または訓練は、履歴データなど、（例えば、入力データ１１０としての）訓練データセットがニューラルネットワークに提供されて処理される、機械学習のプロセスを指すかあるいは含むことができる。調整または構成は、ニューラルネットワーク１１４を訓練または処理して、ニューラルネットワークが精度を改善するのを可能にすることを指すかまたは含むことができる。ニューラルネットワーク１１４の調整または構成は、例えば、ニューラルネットワーク１１４に関する問題のタイプもしくは所望の目標に対して成功することが証明されているアーキテクチャを使用した、ニューラルネットワークの設計、形成、構築、合成、および／または確立を含むことができる。場合によっては、１つまたは複数のニューラルネットワーク１１４は、同じもしくは類似のベースラインモデルで開始してもよいが、調整、訓練、または学習プロセスの間、ニューラルネットワーク１１４の結果は、ベースラインモデルであるかあるいは異なる目標もしくは目的のために調整または訓練された異なるニューラルネットワークよりも高いレベルの精度および信頼性で、特定のタイプの入力を処理し、特定のタイプの出力を生成するように、各ニューラルネットワーク１１４を調整することができるような、十分に異なるものであることができる。ニューラルネットワーク１１４の調整は、各ニューラルネットワーク１１４に対して異なるパラメータ１２８を設定すること、各ニューラルネットワーク１１４に対してパラメータ１１４を異なるように微調整すること、または異なる重み（例えば、ハイパーパラメータ、もしくは学習率）、テンソルフローなどを割り当てることを含むことができる。したがって、ニューラルネットワークならびに／あるいはシステムの調整または訓練プロセスおよび目標に基づいて、ニューラルネットワーク１１４に対して適切なパラメータ１２８を設定することで、システム全体の性能を改善することができる。

ＡＩアクセラレータ１０８のニューラルネットワーク１１４は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、深層畳み込みネットワーク、順伝播型ニューラルネットワーク（例えば、多層パーセプトロン（ＭＬＰ））、深層順伝播型ニューラルネットワーク、放射基底関数ニューラルネットワーク、コホネン自己組織化ニューラルネットワーク、回帰型ニューラルネットワーク、モジュール型ニューラルネットワーク、長期／短期メモリニューラルネットワークなど、任意のタイプのニューラルネットワークを含むことができる。ニューラルネットワーク１１４は、自然言語処理など、データ（例えば、画像、音声、映像）処理、オブジェクトもしくは特徴認識、レコメンダ機能、データもしくは画像分類、データ（例えば、画像）解析などを実施するために展開または使用することができる。

一例として、また１つまたは複数の実施形態では、ニューラルネットワーク１１４は、畳み込みニューラルネットワークとして構成することができ、または畳み込みニューラルネットワークを含むことができる。畳み込みニューラルネットワークは、それぞれ異なる目的に役立ち得る、１つもしくは複数の畳み込みセル（またはプーリング層）およびカーネルを含むことができる。畳み込みニューラルネットワークは、畳み込みカーネル（場合によっては、単に「カーネル」と呼ばれる）を含み、組み込み、および／または使用することができる。畳み込みカーネルは入力データを処理することができ、プーリング層は、例えば、ｍａｘなどの非線形関数を使用して、データを単純化し、それによって不要な特徴を低減することができる。畳み込みニューラルネットワークを含むニューラルネットワーク１１４は、画像、音声、または任意のデータの認識もしくは他の処理を容易にすることができる。例えば、（例えば、センサからの）入力データ１１０を、ファンネルを形成する畳み込みニューラルネットワークの畳み込み層に渡して、入力データ１１０の検出された特徴を圧縮することができる。畳み込みニューラルネットワークの第１の層は第１の特性を検出することができ、第２の層は第２の特性を検出することができ、その先も同様である。

畳み込みニューラルネットワークは、視覚心像、音声情報、および／または他の任意のタイプもしくは形態の入力データ１１０を解析するように構成された、深層順伝播型人工ニューラルネットワークのタイプであることができる。畳み込みニューラルネットワークは、最小限の前処理を使用するように設計された、多層パーセプトロンを含むことができる。畳み込みニューラルネットワークは、重み共有アーキテクチャおよび翻訳不変性特性に基づいて、シフト不変または空間不変人工ニューラルネットワークを含むことができ、またはそのように呼ぶことができる。畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムと比較して相対的に少ない前処理を使用することができるので、畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムのためにマニュアル設計されてもよいフィルタを自動的に学習して、ニューラルネットワーク１１４の構成、確立、またはセットアップと関連付けられた効率を改善することによって、他のデータ分類／処理技術と比べて技術的利点を提供することができる。

ニューラルネットワーク１１４は、ニューロンもしくはノードの、入力層１１６および出力層１２２を含むことができる。ニューラルネットワーク１１４はまた、ニューロンもしくはノードの、畳み込み層、プーリング層、全結合層、および／または正規化層を含むことができる、１つまたは複数の隠れ層１１８、１１９を有することができる。ニューラルネットワーク１１４では、各ニューロンは、前の層におけるいくつかの位置から入力を受信することができる。全結合層では、各ニューロンは、前の層の全ての要素からの入力を受信することができる。

ニューラルネットワーク１１４の各ニューロンは、前の層の受容野からの入力値に何らかの関数を適用することによって、出力値を計算することができる。入力値に適用される関数は、重みのベクトルおよびバイアス（一般的には実数）によって指定される。ニューラルネットワーク１１４における（例えば、訓練フェーズ中の）学習は、バイアスおよび／または重みを漸増的に調節することによって進行することができる。重みのベクトルおよびバイアスは、フィルタと呼ぶことができ、入力の何らかの特徴（例えば、特定の形状）を表すことができる。畳み込みニューラルネットワークの際立った特徴は、多くのニューロンが同じフィルタを共有できることである。これにより、各受容野が独自のバイアスおよび重みのベクトルを有するのではなく、単一のバイアスおよび重みの単一のベクトルを、該フィルタを共有する全ての受容野にわたって使用することができるので、メモリフットプリントが低減される。

例えば、畳み込み層では、システムは、畳み込み演算を入力層１１６に適用して、結果を次の層に渡すことができる。畳み込みは、個々のニューロンの応答をエミュレートして刺激を入力することができる。各畳み込みニューロンは、その受容野に対してのみデータを処理することができる。畳み込み演算は、全結合順伝播型ニューラルネットワークと比較して、ニューラルネットワーク１１４で使用されるニューロンの数を低減することができる。したがって、畳み込み演算は、自由パラメータの数を低減して、より少ないパラメータでネットワークをより深層化することを可能にすることができる。例えば、入力データ（例えば、画像データ）サイズにかかわらず、同じ共有重みをそれぞれ有するサイズ５×５のタイリング領域は、２５個のみの学習可能パラメータを使用してもよい。このように、畳み込みニューラルネットワークを有する第１のニューラルネットワーク１１４は、逆伝播を使用することによって多くの層を有する従来の多層ニューラルネットワークを訓練する際の、勾配消失または発散の問題を解決することができる。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、１つまたは複数のプーリング層を含むことができる。１つまたは複数のプーリング層は、ローカルプーリング層またはグローバルプーリング層を含むことができる。プーリング層は、１つの層におけるニューロンクラスタの出力を組み合わせて、次の層における単一のニューロンとすることができる。例えば、最大プーリングは、前の層におけるニューロンのクラスタそれぞれからの最大値を使用することができる。別の例は、前の層におけるニューロンのクラスタそれぞれからの平均値を使用することができる、平均プーリングである。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、全結合層を含むことができる。全結合層は、１つの層の全てのニューロンを別の層の全てのニューロンに結合することができる。ニューラルネットワーク１１４は、畳み込み層で重みを共有して構成することができ、それは同じフィルタが層内の各受容野に使用されることを指すことができ、それにより、メモリフットプリントが低減され、第１のニューラルネットワーク１１４の性能が改善される。

隠れ層１１８、１１９は、入力データ（例えば、仮想現実システムなどからのセンサデータ）に基づいて、情報を検出するように調整または構成されるフィルタを含むことができる。システムがニューラルネットワーク１１４（例えば、畳み込みニューラルネットワーク）の各層を通るにつれて、システムは、第１の層からの入力を翻訳し、変換された入力を第２の層に出力することができ、その先も同様である。ニューラルネットワーク１１４は、検出、処理、および／または計算されるオブジェクトもしくは情報のタイプ、ならびに入力データ１１０のタイプに基づいて、１つまたは複数の隠れ層１１８、１１９を含むことができる。

いくつかの実施形態では、畳み込み層は、ニューラルネットワーク１１４（例えば、ＣＮＮとして構成される）のコアビルディングブロックである。層のパラメータ１２８は、小さい受容野を有するが、入力ボリュームの深さ全体を通って延在する、学習可能なフィルタ（またはカーネル）のセットを含むことができる。順方向パスの間、各フィルタは、入力ボリュームの幅および高さにわたって畳み込まれて、フィルタのエントリと入力との間のドット積を計算し、該フィルタの二次元活性化マップを作成する。結果として、ニューラルネットワーク１１４は、入力のある空間位置である特定のタイプの特徴を検出すると活性化する、フィルタを学習させることができる。深さ次元に沿って全てのフィルタの活性化マップを積み重ねることで、畳み込み層の全出力ボリュームが形成される。したがって、出力ボリュームの全てのエントリは、入力の小さい領域に注目し、同じ活性化マップのニューロンとパラメータを共有する、ニューロンの出力として解釈することもできる。畳み込み層では、ニューロンは、前の層の制限されたサブエリアから入力を受信することができる。一般的に、サブエリアは正方形形状のもの（例えば、サイズ５×５）である。ニューロンの入力エリアはその受容野と呼ばれる。そのため、全結合層では、受容野は前の層全体である。畳み込み層では、受容エリアは前の層全体よりも小さいものであり得る。

第１のニューラルネットワーク１１４は、（例えば、入力データ１１０に基づいて、オブジェクト、イベント、ワード、および／または他の特徴の確率を検出もしくは決定することによって）入力データ１１０を検出、分類、セグメント化、および／または翻訳するように訓練することができる。例えば、ニューラルネットワーク１１４の第１の入力層１１６は、入力データ１１０を受信し、入力データ１１０を処理してデータを第１の中間出力に変換し、第１の中間出力を第１の隠れ層１１８に伝達することができる。第１の隠れ層１１８は、第１の中間出力を受信し、第１の中間出力を処理して第１の中間出力を第２の中間出力に変換し、第２の中間出力を第２の隠れ層１１９に伝達することができる。第２の隠れ層１１９は、第２の中間出力を受信し、第２の中間出力を処理して第２の中間出力を第３の中間出力に変換し、第３の中間出力を、例えば出力層１２２に伝達することができる。出力層１２２は、第３の中間出力を受信し、第３の中間出力を処理して第３の中間出力を出力データ１１２に変換し、出力データ１１２を（例えば、場合によっては、ユーザに対するレンダリングのため、格納のためなど、後処理エンジンに）伝達することができる。出力データ１１２は、例として、オブジェクト検出データ、強化／翻訳／拡張されたデータ、推奨、分類、および／またはセグメント化されたデータを含むことができる。

再び図１Ａを参照すると、ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６を含むことができる。記憶デバイス１２６は、ＡＩアクセラレータ１０８と関連付けられた任意のタイプもしくは形態のデータを、格納、保持、または維持するように、設計または実装することができる。例えば、データは、ＡＩアクセラレータ１０８によって受信される入力データ１１０、および／または出力データ１１２（例えば、次のデバイスもしくは処理段階に出力される前）を含むことができる。データは、ニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階のいずれかに使用される、またはいずれかからの、中間データを含むことができる。データは、記憶デバイス１２６から読み取るかまたはアクセスすることができる、ニューラルネットワーク１１４のニューロンに入力される、また該ニューロンで処理する、１つもしくは複数のオペランドを含むことができる。例えば、データは、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。データは、記憶デバイス１２６に書き込み、またそこに格納することができる、ニューラルネットワーク１１４のニューロンからの出力データを含むことができる。例えば、データは、記憶デバイス１２６に転送するかもしくは書き込み、格納することができる、ニューラルネットワーク１１４の１つもしくは複数のニューロン（またはノード）および／または層のための、活性化データ、改良もしくは更新されたデータ（例えば、訓練段階などからの重み情報および／またはバイアス情報、活性化関数情報、および／または他のパラメータ１２８）を含むことができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は１つまたは複数のプロセッサ１２４を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する入力データを前処理するための、ならびに／あるいはニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する出力データを後処理するための、任意の論理、回路類、および／または処理構成要素（例えば、マイクロプロセッサ）を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８の１つもしくは複数の演算を構成、制御、および／または管理するための、論理、回路類、処理構成要素、および／または機能性を提供することができる。例えば、プロセッサ１２４は、ニューラルネットワーク１１４と関連付けられたデータまたは信号を受信して、（例えば、ニューラルネットワーク１１４の演算を実装する回路類に対するクロックゲート制御を介して）消費電力を制御または低減してもよい。別の例として、プロセッサ１２４は、（例えば、ＡＩアクセラレータ１０８の様々な構成要素における、例えば並列の）別個の処理のため、（例えば、ＡＩアクセラレータ１０８の同じ構成要素における、異なる時間もしくは段階での）逐次処理のため、あるいは記憶デバイスの異なるメモリスライスに、または異なる記憶デバイスに格納するため、データを区画化および／または再配置してもよい。いくつかの実施形態では、プロセッサ１２４は、特定の重み、活性化関数、および／またはパラメータ情報の識別、選択、ならびに／あるいはニューラルネットワーク１１４のニューロンおよび／または層へのロードによって、特定の文脈に対して演算を行い、特定のタイプの処理を提供し、ならびに／あるいは特定のタイプの入力データをアドレスするように、ニューラルネットワーク１１４を構成することができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は、ディープラーニングおよび／またはＡＩワークロードを扱うかもしくは処理するように、設計および／または実装される。例えば、ＡＩアクセラレータ１０８は、人工ニューラルネットワーク、マシンビジョン、および機械学習を含む人工知能用途のため、ハードウェアアクセラレーションを提供することができる。ＡＩアクセラレータ１０８は、ロボティックス関連、物のインターネット（ＩｏＴ）関連、または他のデータ集約的もしくはセンサ駆動のタスクを扱う演算向けに構成することができる。ＡＩアクセラレータ１０８は、マルチコアまたは複数の処理要素（ＰＥ）設計を含んでもよく、人工現実（例えば、仮想、拡張、もしくは混合現実）システム、スマートフォン、タブレット、およびコンピュータなど、様々なタイプおよび形態のデバイスに組み込むことができる。ＡＩアクセラレータ１０８の特定の実施形態は、少なくとも１つのデジタル信号プロセッサ（ＤＳＰ）、コプロセッサ、マイクロプロセッサ、コンピュータシステム、プロセッサのヘテロジニアスコンピューティング構成、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／または特定用途向け集積回路（ＡＳＩＣ）を含むかあるいはそれらを使用して実装することができる。ＡＩアクセラレータ１０８は、トランジスタベース、半導体ベース、および／または量子コンピューティングベースのデバイスであることができる。

次に図１Ｂを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイスなどのメモリ）、１つまたは複数のバッファ、複数の処理要素（ＰＥ）回路またはＰＥ回路のアレイ、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

ＡＩアクセラレータ１０８において実装されたニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）では、ニューロンは、様々な形態を取ることができ、処理要素（ＰＥ）またはＰＥ回路と呼ぶことができる。ニューロンは、対応するＰＥ回路として実装することができ、ニューロンで起こり得る処理／活性化は、ＰＥ回路で実施することができる。ＰＥは接続されて、異なるパターンが異なる機能的目的に役立つ、特定のネットワークパターンまたはアレイとなる。人工ニューラルネットワークのＰＥは、（例えば、半導体の実現例の実施形態では）電気的に動作し、アナログ、デジタル、またはハイブリッドのいずれかであってもよい。生体シナプスの作用に匹敵するために、ＰＥ間の接続に、適正なシステム出力を作成するように校正または「訓練」することができる、乗法的な重みを割り当てることができる。

ＰＥは、（例えば、ニューロンのマッカロック－ピッツモデルを表す）次式に関して定義することができる。
ζ＝Σ_ｉｗ_ｉｘ_ｉ（１）
ｙ＝σ（ζ）（２）
式中、ζは入力の重み付き合計（例えば、入力ベクトルおよびタップ重みベクトルの内積）であり、σ（ζ）は重み付き合計の関数である。重みおよび入力要素がベクトルｗおよびｘを形成する場合、重み付き合計ζは単純なドット積となる。
ζ＝ｗ・ｘ（３）
これは、活性化関数（例えば、閾値比較の場合）または伝達関数のどちらかと呼ばれることがある。いくつかの実施形態では、１つまたは複数のＰＥはドット積エンジンと呼ばれる場合がある。ニューラルネットワーク１１４に対する入力（例えば、入力データ１１０）ｘは、入力空間からのものであることができ、出力（例えば、出力データ１１２）は出力空間の一部である。いくつかのニューラルネットワークでは、出力空間Ｙは、｛０，１｝のように単純なものであってもよく、または複雑な多次元（例えば、複数チャネル）空間（例えば、畳み込みニューラルネットワークの場合）であってもよい。ニューラルネットワークは、入力空間の自由度ごとに１つの入力、および出力空間の自由度ごとに１つの出力を有する傾向がある。

いくつかの実施形態では、ＰＥは、シストリックアレイとして配置および／または実装することができる。シストリックアレイは、セルまたはノードと呼ばれる、ＰＥなどの結合されたデータ処理装置（ＤＰＵ）のネットワーク（例えば、ホモジニアスネットワーク）であることができる。各ノードまたはＰＥは、上流側の隣接するノードまたはＰＥから受信したデータの関数として、部分結果を独立して計算することができ、結果を自身に格納することができ、結果を例えば下流側に渡すことができる。シストリックアレイは、特定用途向けに構成されたハードワイヤードまたはソフトウェアであることができる。ノードまたはＰＥは、固定された同一のものであることができ、シストリックアレイの相互接続はプログラム可能であることができる。シストリックアレイは同期型データ転送に依存することができる。

再び図１Ｂを参照すると、ＰＥ１２０に対する入力ｘは、記憶デバイス１２６（例えば、ＳＲＡＭ）から読み取られるかまたはアクセスされる、入力ストリーム１３２の一部であることができる。入力ストリーム１３２は、ＰＥの１つの行（水平のバンクもしくはグループ）に方向付けることができ、ＰＥのうち１つもしくは複数にわたって共有するか、またはそれぞれのＰＥに対する入力としてのデータ部分（重なり合うもしくは重なり合わないデータ部分）に区画化することができる。重みストリーム（例えば、記憶デバイス１２６から読み取られる）における重み１３４（もしくは重み情報）は、ＰＥの列（垂直のバンクもしくはグループ）に方向付けるかまたは提供することができる。列のＰＥはそれぞれ、同じ重み１３４を共有するか、または対応する重み１３４を受信してもよい。標的のＰＥそれぞれに対する入力および／または重みは、（例えば、他のＰＥを通過せずに）標的のＰＥに（例えば、記憶デバイス１２６から）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの行もしくは列に沿って）ルーティングすることができる。各ＰＥの出力は、ＰＥアレイの外に（例えば、他のＰＥを通過せずに）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの列に沿って）ＰＥアレイを出るようにルーティングすることができる。ＰＥの各列の出力は、それぞれの列の加算器回路類において合算または加算し、ＰＥのそれぞれの列に対するバッファ１３０に提供することができる。バッファ１３０は、受信した出力を記憶デバイス１２６に提供、転送、ルーティング、書込み、および／または格納することができる。いくつかの実施形態では、記憶デバイス１２６によって格納された出力（例えば、ニューラルネットワークの１つの層からの活性化データ）を、記憶デバイス１２６から検索するかまたは読み取り、後の時間における（ニューラルネットワークの後続層の）処理のため、ＰＥ１２０のアレイに対する入力として使用することができる。特定の実施形態では、記憶デバイス１２６によって格納された出力を、ＡＩアクセラレータ１０８に対する出力データ１１２として、記憶デバイス１２６から検索するかまたは読み取ることができる。

次に図１Ｃを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａおよび図１Ｂに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数のＰＥ１２０、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

いくつかの実施形態では、ＰＥ１２０は、１つもしくは複数の乗累算（ＭＡＣ）ユニットまたは回路１４０を含むことができる。１つまたは複数のＰＥは、場合によっては、（単独でまたは集合的に）ＭＡＣエンジンと呼ぶことができる。ＭＡＣユニットは、乗累算を実施するように構成される。ＭＡＣユニットは、乗算器回路、加算器回路、および／または累算器回路を含むことができる。乗累算は、２つの数字の積を計算し、その積を累算器に加える。ＭＡＣ演算は、累算器オペランドａ、ならびに入力ｂおよびｃに関連して、次のように表すことができる。
ａ←ａ＋（ｂ×ｃ）（４）
いくつかの実施形態では、ＭＡＣユニット１４０は、組み合わせ論理に実装された乗算器とそれに続く加算器（例えば、組み合わせ論理を含むもの）、ならびに結果を格納する累算器レジスタ（例えば、順序および／または組み合わせ論理を含むもの）を含んでもよい。累算器レジスタの出力は、加算器の１つの入力にフィードバックすることができるので、各クロックサイクルにおいて、乗算器の出力を累算器レジスタに加算することができる。

上述したように、ＭＡＣユニット１４０は、乗算および加算両方の機能を実施することができる。ＭＡＣユニット１４０は２つの段階で演算することができる。ＭＡＣユニット１４０は、最初に、第１の段階で所与の数（入力）の積を計算し、結果を第２の段階の演算（例えば、加算および／または累算）のために転送することができる。ｎビットのＭＡＣユニット１４０は、ｎビット乗算器、２ｎビット加算器、および２ｎビット累算器を含むことができる。（例えば、ＰＥにおける）複数のＭＡＣユニット１４０またはＭＡＣユニットのアレイ１４０は、並列積分、畳み込み、相関、行列乗算、データ分類、および／またはデータ解析タスクのため、シストリックアレイの形で配置することができる。

本明細書に記載する様々なシステムおよび／またはデバイスを、コンピューティングシステムに実装することができる。図１Ｄは、代表的なコンピューティングシステム１５０のブロック図を示している。いくつかの実施形態では、図１Ａのシステムは、コンピューティングシステム１５０の処理装置１５６（またはプロセッサ１５６）の少なくとも一部を形成することができる。コンピューティングシステム１５０は、例えば、スマートフォン、他の移動電話、タブレットコンピュータ、ウェアラブルコンピューティングデバイス（例えば、スマートウォッチ、眼鏡、ヘッドマウントディスプレイ）、デスクトップコンピュータ、ラップトップコンピュータなどのデバイス（例えばコンシューマデバイス）として実装するか、あるいは分散型コンピューティングデバイスを実装することができる。コンピューティングシステム１５０は、ＶＲ、ＡＲ、ＭＲ体験を提供するために実装することができる。いくつかの実施形態では、コンピューティングシステム１５０は、プロセッサ１５６、記憶デバイス１５８、ネットワークインターフェース１５１、ユーザ入力デバイス１５２、およびユーザ出力デバイス１５４など、従来の専用またはカスタムのコンピュータ構成要素を含むことができる。

ネットワークインターフェース１５１は、（ローカル／リモート）サーバまたはバックエンドシステムのネットワークインターフェースも接続される、ローカル／ワイドエリアネットワーク（例えば、インターネット）に対する接続を提供することができる。ネットワークインターフェース１５１は、有線インターフェース（例えば、イーサネット）、ならびに／あるいはＷｉ－Ｆｉ、ブルートゥース、またはセルラーデータネットワーク規格（例えば、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなど）などの様々なＲＦデータ通信規格を実装する無線インターフェースを含むことができる。

ユーザ入力デバイス１５２は、ユーザがコンピューティングシステム１５０に信号を提供するのに用いることができる、任意のデバイス（または複数のデバイス）を含むことができ、コンピューティングシステム１５０は、特定のユーザ要求または情報を示すものとして信号を解釈することができる。ユーザ入力デバイス１５２は、キーボード、タッチパッド、タッチスクリーン、マウスもしくは他のポインティングデバイス、スクロールホイール、クリックホイール、ダイアル、ボタン、スイッチ、キーパッド、マイクロフォン、センサ（例えば、モーションセンサ、視線追跡センサなど）などのいずれかまたは全てを含むことができる。

ユーザ出力デバイス１５４は、コンピューティングシステム１５０がユーザに情報を提供するのに用いることができる、任意のデバイスを含むことができる。例えば、ユーザ出力デバイス１５４は、コンピューティングシステム１５０によって生成されるかまたは該システムに送達される画像を表示する、ディスプレイを含むことができる。ディスプレイは、例えば、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）を含む発光ダイオード（ＬＥＤ）、投影システム、陰極線管（ＣＲＴ）などの様々な画像生成技術を、サポートしている電子部品（例えば、デジタル・アナログもしくはアナログ・デジタル変換器、信号プロセッサなど）とともに組み込むことができる。入力および出力両方のデバイスとして機能する、タッチスクリーンなどのデバイスを使用することができる。ユーザ出力デバイス１５４は、ディスプレイに加えてまたはディスプレイの代わりに提供することができる。例としては、インジケータ光、スピーカ、触覚「ディスプレイ」デバイス、プリンタなどが挙げられる。

いくつかの実現例としては、コンピュータプログラム命令を非一時的なコンピュータ可読記憶媒体に格納する、マイクロプロセッサ、記憶装置、およびメモリなどの電子構成要素が挙げられる。本明細書に記載する特徴の多くは、コンピュータ可読記憶媒体として符号化されたプログラム命令のセットとして指定される、プロセスとして実現することができる。これらのプログラム命令は、１つまたは複数のプロセッサによって実行されると、プログラム命令に示されている様々な動作をプロセッサに実施させる。プログラム命令またはコンピュータコードの例としては、コンパイラによって作成されるものなどの機械コード、およびインタープリタを使用してコンピュータ、電子構成要素、またはマイクロプロセッサによって実行される、より高次のコードを含むファイルが挙げられる。好適なプログラミングを通して、プロセッサ１５６は、コンピューティングシステム１５０に対して、サーバまたはクライアントによって実施されるものとして本明細書に記載する機能性、またはメッセージ管理サービスと関連付けられた他の機能性のいずれかを含む、様々な機能性を提供することができる。

コンピューティングシステム１５０は例示であり、変形および修正が可能であることが認識されるであろう。本開示と関連して使用されるコンピュータシステムは、本明細書には具体的に記載しない他の能力を有することができる。更に、コンピューティングシステム１５０について、特定のブロックを参照して記載しているが、該ブロックは説明の便宜上定義されているものであり、構成部品の特定の物理的配置を示唆しようとするものではないことが理解されるべきである。例えば、異なるブロックを、同じ設備に、同じサーバラックに、または同じマザーボード上に配置することができる。更に、ブロックは必ずしも物理的に別個の構成要素に対応していなくてもよい。ブロックは、例えば、プロセッサをプログラミングするか、または適切な制御回路類を提供することによって、様々な動作を実施するように構成することができ、様々なブロックは、初期の構成がどのように得られるかに応じて再構成可能であってもなくてもよい。本開示の実現例は、回路類およびソフトウェアの任意の組み合わせを使用して実装される電子デバイスを含む、様々な装置で実現することができる。

Ｂ．畳み込みからの早期抜け出しの方法およびデバイス
本明細書の開示は、畳み込みからの早期抜け出しのシステム、方法、およびデバイスの実施形態を含む。具体的には、本開示の少なくともいくつかの態様は、ニューラルネットワークの層内のノードにおける広範囲のドット積演算に対する早期抜け出し戦略を対象にする。通常、ノードにおいて、１または０（数ある値、範囲などの中でも特に）に対する活性化は、ノードに対して実施されたドット積演算に基づくことができる（例えば、ＭＡＣユニットまたはエンジンによって）。例えば、ドット積演算が（例えば、閾値よりも）正または大きい計算値をもたらす場合、ノードは、１に対する活性化を与えるか出力し得、ドット積演算が（例えば、閾値よりも）負または低い計算値をもたらす場合、ノードは、０に対する活性化を与えるか出力し得る。多くの要素（例えば、多数の値または要素を含むベクトルまたは行列）によるドット積演算の場合、ドット積演算を計算することは、計算上手間が掛かり、時間が掛かり、かつ／または電力効率が悪い場合があり得る。

本明細書に記載の実現例によれば、ベクトルまたは行列の要素の全てでドット積演算を実施するのではなく、本明細書に記載の実施形態では、要素のサブセット（例えば、ベクトルまたは行列の値のサブセット）に対して部分ドット積を計算するノードを提供する。要素のサブセットに対して計算された部分ドット積は、閾値（例えば、閾値の値または基準値）と比較され得る。閾値は、ベクトルの要素のそれぞれに対して完全ドット積演算を実施すべきか否かを判断するために設定され得る。閾値は、出力の精度と消費電力の削減とのバランスを考慮して選択され得る。サブセットに対して計算されたドット積と閾値との比較に基づいて、ノードは、完全ドット積演算の計算を見送ることができ、それにより、ノードにおける処理（例えば、畳み込みまたはドット積演算）からの早期抜け出しを可能にする。このような処理削減は、消費電力削減をもたらし得る。

実施形態によっては、プロセッサ１４０は、部分ドット積を計算する対象の要素のサブセットを選択し得る。プロセッサ１４０は、部分和積が選択された閾値を有意に上回るかまたは有意に下回る可能性を高めるのに、最大の負を引き起こす値または最大の正を引き起こす値（全ての要素のサブセットとしての）のいずれかを最初に計算することができるように、要素の値（例えば、重みまたはカーネル）を比較して配列し直すことによって、要素のサブセットを選択し得、これにより、より早い抜け出しを可能にし、省力化を強化することができる。部分ドット積に対する値の配列し直しは、例えば、ニューラルネットワークグラフの配列し直しを介して実装され得る（例えば、ＰＥ１２０のアレイにマップされるか、または実装されるように）。閾値は、例えば、ニューラルネットワークの出力／結果の精度と省力化レベルとの妥協またはバランスに基づいて、調整、決定、または選択され得る。

ここで図２Ａを参照すると、畳み込みからの早期抜け出しのためのデバイス２００のブロック図が示されている。図２Ａに示されている構成要素の少なくともいくつかは、図１Ｂに示され、これまで述べた構成要素に類似し得る。例えば、デバイス２００としては、ＡＩアクセラレータ１０８であってもよいか、それを挙げることができる。デバイス２００は、複数の処理要素（ＰＥ）回路２０２のアレイを含み得、これらは、セクションＡに記載のＰＥ回路１２０といくつかの点で類似し得る。同様に、デバイス２００は、記憶デバイス２０４と重み２０６とを含み得、これらは、上記の記憶デバイス１２６、重み１３４にそれぞれいくつかの点で類似し得る。以下により詳しく述べるが、プロセッサ１２４および／またはＰＥ回路２０２は、ドット積演算を用いてドット積値を計算する対象のオペランドサブセット（例えば、ベクトルまたは行列オペランドの要素のサブセット）を特定するように構成され得る。ＰＥ回路２０２は、オペランドサブセットを用いてドット積値を計算するように構成され得る。ＰＥ回路２０２は、ドット積値を閾値と比較し得る。ＰＥ回路２０２は、この比較に基づいて、完全オペランドのセットを用いてドット積値を計算すべきかどうかを判断し得る。

デバイス２００は、記憶デバイス２０４（例えば、メモリ）を含むとして示される。記憶デバイス２０４としては、データを格納するように設計または実装された任意のデバイス、構成要素、要素、またはサブシステムであってもよいか、それらを挙げることができる。記憶デバイス２０４は、記憶デバイス２０４に書き込まれたデータを保持することによってデータを格納することができる。データは、その後、記憶デバイス２０４から取り出され得る（例えば、デバイス２００の他の要素または構成要素によって）。実現例によっては、記憶デバイス２０４としては、スタティックランダムアクセスメモリ（ＳＲＡＭ）を挙げることができる。記憶デバイス２０４は、ニューラルネットワークに関するデータ（例えば、ニューラルネットワークの様々な層に関するデータまたは情報、ニューラルネットワークのそれぞれの層内の様々なノードに関するデータまたは情報など）を格納するように設計または実装され得る。例えば、データとしては、記憶デバイス２０４に伝達されるか書き込まれ、格納され得る、ニューラルネットワークの１つもしくは複数のニューロン（またはノード）および／または層に関する、活性化データまたは情報、改良もしくは更新されたデータ（例えば、訓練段階などからの重み情報および／またはバイアス情報、活性化関数情報、および／または他のパラメータ）を挙げることができる。以下により詳細に述べるが、ＰＥ回路２０２は、記憶デバイス２０４からのデータを使用して、ニューラルネットワークに対して中間データまたは出力を生成するように構成されることができる。

デバイス２００は、複数のＰＥ回路２０２を含むとして示される。各ＰＥ回路２０２は、ある点で上記のＰＥ回路１２０と同様であり得る。ＰＥ回路２０２は、データソースから入力データを読み取り、１つまたは複数の計算を実施し（例えば、重みストリームを使用して）、対応するデータを生成するように設計または実装され得る。入力データとしては、入力ストリーム（例えば、記憶デバイス２０４からの）、活性化ストリーム（例えば、ニューラルネットワークの前の層またはノードから生成された）などを挙げることができる。実施形態によっては、ＰＥ回路２０２のうちの少なくともいくつかが、ニューラルネットワークの様々な層（または層内のノード）に相当し得る。例えば、入力層に相当するＰＥ回路２０２があり得、出力層に相当し得るＰＥ回路２０２もあり得、更に隠れ層に相当し得るＰＥ回路２０２もあり得る。少なくとも１つのＰＥ回路２０２が、ドット積演算に対応するニューラルネットワークのノードに相当し得る。実施形態によっては、複数のＰＥ回路２０２が、ドット積演算に対応するニューラルネットワークのノードに相当し得る。このようなＰＥ回路２０２は、ドット積演算に関わる計算を実施するのを担うことができる。実施形態によっては、ＰＥ回路２０２は、オペランドのセットによるドット積演算に関わる計算を実施するように構成され得る。オペランドとしては、活性化データ、入力データ、重み、カーネルなど、またはそれらの要素であってもよいかそれらを挙げることができる。

実現例によっては、ドット積演算としては、２つのベクトル（例えば、第１のベクトルと第２のベクトル）からの値が互いに掛け合わされ、合計されることによる数学演算としてもよいかそれを挙げることができる。例えば、第１のベクトルは、入力ベクトルとしてもよく、第２のベクトルは、カーネルとしてもよい。カーネルが、記憶デバイス２０４に格納され得る一方、入力ベクトルとしては、ＰＥ回路２０２によって生成された（例えば、ニューラルネットワークの１つまたは複数の層からの計算時に）値としてもよいかそれを挙げることができる。例えば、このようなドット積演算は、以下の式１に示す例にしたがうものであり得る。
［ＡＢＣＤ］・［ＥＦＧＨ］＝Ａ×Ｅ＋Ｂ×Ｆ＋Ｃ×Ｇ＋Ｄ×Ｈ式１
実現例によっては、ドット積演算としては、ベクトルからの値にスカラー（例えば、記憶デバイス２０４からの重み）を掛け、合計することによる数学演算としてもよいかそれを挙げることができる。例えば、このようなドット積演算は、以下の式２に示す例にしたがうものであり得る。
［Ａ］・［ＥＦＧＨ］＝Ａ×Ｅ＋Ａ×Ｆ＋Ａ×Ｇ＋Ａ×Ｈ式２
式１および式２の実施形態のそれぞれで、ドット積演算では、別の要素を掛けたベクトルの要素の和に相当する値を計算することができる。ベクトルの長さに応じて、ドット積演算は、計算上、手間の掛かるものになり得る。

ＰＥ回路２０２は、ドット積演算の計算を実施する対象のオペランドサブセットを特定するように構成され得る。図１Ａに示すように、また実現例によっては、ＡＩアクセラレータ１０８が１つまたは複数のプロセッサ１２４を含み得る。プロセッサ１２４は、オペランドのセットから、ドット積演算の計算を実施する対象のオペランドサブセットを選択するように構成され得る。プロセッサ１２４は、オペランドの相対値に基づきオペランドサブセットを選択するように構成され得る。これまで述べたように、オペランドとしては、入力値に掛けるカーネル値もしくは重み値、または入力値を挙げることができる。プロセッサ１２４は、どのオペランドの値が最も正、すなわち大きいか（例えば、基準値、例えば０に対して）に基づき、オペランドサブセットを選択するように構成され得る。例えば、ノードからの出力が、高（すなわち「１」）に活性化する場合、プロセッサ１２４は、最も正（すなわち最も小さな負）の値を有するオペランドを選択するように構成され得る。別の例として、ノードからの出力が低（すなわち、ゼロ「０」）である場合、プロセッサ１２４は、最も小さな正（すなわち最も負）の値を有するオペランドを選択するように構成され得る。プロセッサ１２４は、入力値またはカーネル値もしくは重み値を使用して、最も正または最も負の値を特定するように構成され得る。例えば、入力値が同様（すなわちほぼ同じ）であるが、カーネル内の値にばらつきがある場合、プロセッサ１２４は、カーネルからの値（例えば、重みが最も重い、重みが最も軽い、重みが最も正、重みが最も負などである、カーネル内の値）に基づき、オペランドを選択するように構成され得る。

実現例によっては、プロセッサ１２４は、オペランドのセットを配列し直して、計算を実施する対象のオペランドサブセットを選択するように構成され得る。上により詳しく述べたように、ニューラルネットワークグラフは、ニューラルネットワークの表現であり得る。ニューラルネットワークグラフは、所与のノードに対して処理されるオペランドがあるメモリ位置のポインタ（またはアドレス）のセットを含むかそれに対応し得る（またはそれで表され得る）。アドレスまたはポインタは、記憶デバイス２０４内の位置に相当し得る。プロセッサ１２４は、ニューラルネットワークグラフに対応付けられた、オペランドに対応する１つまたは複数のポインタ（またはアドレス）を修正するかまたは選択することによって、オペランドのセットからのオペランドを配列し直すか（例えば、ベクトル内で）、またはオペランドのセットからサブセットを選択するように構成され得る。プロセッサ１２４は、オペランドを配列し直しかつ／または選択することができ、それに応じて、オペランドのセットのサブセットに対して処理するか演算を実施する対象である、ニューラルネットワークグラフにマップされるかまたは構成されたノード（またはＰＥ）を配列し直しかつ／または選択することができる。ポインタ（またはアドレス）を修正することにより、プロセッサ１２４は、オペランドのセットおよび／またはニューラルネットワークグラフを配列し直すように構成され得る。これにより、プロセッサ１２４は、例えば、ニューラルネットワークの特定のノードに対してオペランドが格納されているメモリ位置にアドレスおよび／またはポインタを修正、配列し直す、または更新することによって、ニューラルネットワークグラフを修正することができる。実現例によっては、プロセッサ１２４は、オペランドを配列し直し（例えば、ニューラルネットワークグラフにマップされている、アレイ、行列、シーケンス、順番、または他の配置もしくは構成で）、ドット積演算に相当する計算を実施する対象のオペランドを特定するように構成され得る。プロセッサ１２４は、例えば、昇順もしくは降順のサイズ、値、または大きさ（絶対数を含む）でオペランドを配列し直すことができる。プロセッサ１２４は、オペランド対（例えば、入力データまたは活性化データ、また対応する重み値および／またはカーネル値）を維持しながら、オペランドを配列し直すように構成され得る。

実現例によっては、まず最大の負を引き起こす値および／または最大の正を引き起こす値を計算することができる。例えば、プロセッサ１２４は、オペランドのそれぞれの絶対数にしたがってオペランドを配列し直すことができる。このようにして、オペランドは、例えば、降順で配列し直され、最も大きな絶対数（例えば、最も正および／または最も負）の値が最初に並べられ、ゼロに最も近い値が最後に並べられる。以下でより詳しく述べるが、プロセッサ１２４は、部分ドット積値を計算する対象のオペランドサブセットを選択するように構成され得る。プロセッサ１２４は、まず最大の負を引き起こす値および／または最大の正を引き起こす値を計算することができるように、最も正または最も負を有するオペランドサブセット（例えば、最も大きな絶対数を有するオペランドサブセット）を選択することができる。実施形態によっては、プロセッサは、その絶対数が、所定の（絶対数の）閾値よりも大きいオペランドを選択することができる。

プロセッサ１２４は、オペランドサブセットに含める対象のいくつかのオペランドを完全オペランドのセットから選択するように構成され得る。以下により詳しく述べるが、ＰＥ回路２０２は、オペランドサブセットに対してドット積演算を実施して、第１の（部分）ドット積値を生成するように構成され得る。ＰＥ回路２０２は、第１の閾値（例えば、部分ドット積値または演算の際の閾値）との第１のドット積値の比較を実施するように構成され得る。第１の閾値は、ドット積値に適合する、ドット積値によって満たされる、またはドット積値を超えると、完全オペランドのセットのドット積演算からの特定の結果のかなりの確からしさを示す、値であってもよい。特定の結果としては、例えば、完全オペランドのセットに対する完全／完璧ドット積演算に規定の閾値の充足を挙げることができる。計算効率と計算精度との望ましいバランスに基づき、サブセットに対して、いくつかのオペランドが変えられ得る。例えば、ＰＥ回路２０２がより多くのオペランド（例えば、より大きなオペランドサブセット）に対してドット積演算を計算する場合、特定の結果の見込みの精度が上がる可能性がある一方、それに応じて、計算効率が下げる可能性がある。これに対して、ＰＥ回路２０２がより少ないオペランド（より小さなオペランドサブセット）に対してドット積演算を計算する場合、計算効率が上がる一方、それに応じて、特定の結果の見込みの精度が下がる可能性がある。本明細書に記載のシステムおよび方法が実装される環境に応じて、いくつかのオペランドの選択が、精度と計算効率とのバランスに基づき変えられ得る（精度がより重要である場合にはより多くのオペランドの選択、またその逆も同様）。

プロセッサ１２４は、ＰＥ回路２０２がドット積演算に相当する計算を実施することになる対象のオペランドサブセットを、完全オペランドのセットから選択するように構成され得る。例えば、式１に含まれる例を使用して、プロセッサ１２４は、ＰＥ回路２０２がドット積に相当する計算を実施することになる対象のオペランドサブセット－［ＡＤ］［ＥＨ］－を、完全オペランドのセット－［ＡＢＣＤ］［ＥＦＧＨ］－から選択するように構成され得る。このように、プロセッサは、配列し直しに続いて、またはオペランドサブセットの選択がなされた他のステップに続いて、オペランド対（ＡＥ）および（ＤＨ）を維持するように構成され得る。プロセッサ１２４は、オペランドを並べ替えることによって（例えば、昇順または降順で）、オペランドを配列し直すことによって、ニューラルネットワークグラフを配列し直すことによって、などで、オペランドサブセットを選択するように構成され得る。プロセッサ１２４は、最も高い／最も低い値を有するオペランドサブセットを選択することができる。プロセッサ１２４は、部分ドット積演算を実施する対象のオペランドサブセットをＰＥ回路２０２に割り当てかつ／または与えるように構成され得る。

ＰＥ回路２０２は、そのオペランドサブセットに対して部分ドット積演算を実施するように構成され得る。ＰＥ回路２０２は、式１（または式２）にしたがって部分ドット積演算を実施するように構成され得る。上の例を続けると、ＰＥ回路２０２は、オペランドサブセット－［ＡＤ］［ＥＨ］－に対して、部分ドット積演算に相当する計算を実施して、閾値との比較の対象となる部分ドット積値（例えば、Ａ×Ｅ＋Ｄ×Ｈ）を生成するように構成され得る。このように、１回目の繰り返し時に、オペランドのそれぞれに対して完全ドット積演算を計算するのではなく、ＰＥ回路２０２は、閾値を満たす可能性が最も高いものである、オペランドサブセット（例えば、対応する完全／完璧ドット積値が対応する閾値を超えると予想されるような、第１の閾値が満たされる特定のタイプの値を有するオペランド、および／または対応する完全／完璧ドット積値が対応する閾値より低くなると予想されるような、第１の閾値が満たされる一定のタイプの値を有するオペランドなど）に対して部分ドット積演算を実施するように構成され得る。

実現例によっては、早期抜け出しの際の基準は、計算値（例えば、部分ドット積）の勾配の測定値または値であってもよい。プロセッサ１２４は、例えば、絶対数に基づくオペランドの配列し直しに続いてまたはその前に、勾配計算値を計算するように構成され得る。プロセッサ１２４は、様々なオペランドサブセットまたは大きくなるオペランドサブセットに対応する計算値の勾配を計算することができる。プロセッサ１２４は、完全ドット積値を計算するまたは早期抜け出しを実施すべきか否かを判断するのに向けて、勾配の値が上向き傾向であるかまたは下向き傾向であるかを判断するように構成され得る。例えて言うなら、負値の場合（例えば、０に対する活性化を設定する場合）、計算値がすでに負であり、もっと負になり続ける場合（またはもっと正になり続ける場合）計算値のこのような勾配または傾向（および／または絶対数閾値）は、早期抜け出しの際の基準として使用され得る。

ＰＥ回路２０２は、比較器に、オペランドサブセットに対するドット積値を適用する、送信する、送る、それとも与えるように構成され得る。比較器は、ドット積値を第１の閾値と比較するように構成され得る。閾値は、ドット積値（オペランドサブセットに対する）が比較される一定のまたは所定の数または値であってもよい。第１の閾値は、完璧オペランドのセットに所定の閾値を満たす、完璧オペランドのセット（例えば、辛うじてサブセットではなく）に対して計算されたドット積値の見込みにしたがって設定され得る。例えば、第１の閾値は、完璧オペランドのセットが、サブセットのそれとは異なる、閾値に関わる結果、決定、または成果をもたらしそうでないような閾値が十分に大きく（または小さく）設定され得る。

いくつかのオペランドの選択と同様に、第１の閾値も特定の成果の発生の見込みの望ましい精度に基づき設定され得る（例えば、完璧オペランドのセットに合わせて決定または構成された第２の閾値の充足）。第１の閾値は、望ましい精度に応じてより大きな（または小さな）値に設定され得る。実施形態によっては、プロセッサ１２４またはコンピュータは、オペランドサブセットに対するドット積値が所定のまたは事前規定の余裕、量、値、または距離だけ第１の閾値を超えるかまたはそれを下回ると、第１の閾値が満たされたと考え得る。実施形態によっては、オペランドサブセットに対するドット積値が所定のまたは事前規定の余裕、量、値、または距離だけ第１の閾値を超えるかまたはそれを下回ることが予想されるようなオペランドサブセットが選択される。

ＡＩアクセラレータ１０８は、オペランドサブセットに対するドット積値を第１の閾値と比較するように構成され得る。実現例によっては、ＡＩアクセラレータ１０９としては、比較器を挙げることができる。比較器は、２つの値を比較するように構成された任意のデバイス、構成要素、または要素であってもよい。ＰＥ回路２０２が、ドット積値を入力として比較器に与えることができる。比較器は、比較に基づき、出力を生成するように構成され得る（例えば、ドット積値が第１の閾値を満たす場合は高）。比較器は、オペランドサブセットに対するドット積値を第１の閾値と比較するように構成され得る。比較の結果に基づき（例えば、ドット積値が第１の閾値を満たすか否か）、ＰＥ回路２０２は、完全オペランドのセットに対して完全ドット積演算を選択的に実施することができる。オペランドサブセットに対するドット積値が第１の閾値を満たすと（または、特定のまたは十分な余裕、量、値、もしくは距離だけ第１の閾値を満たす）、ＰＥ回路２０２は、完全オペランドのセットに対してドット積値の計算を見送る場合がある。しかし、実施形態によっては、オペランドサブセットに対するドット積値が第１の閾値を満たさなければ（または、特定のまたは十分な余裕、量、値、または距離だけ第１の閾値を満たす）（例えば、第２の閾値との比較で）、ＰＥ回路２０２は、完全オペランドのセットに対してドット積値を計算し得る。この点に関して、ＰＥ回路２０２は、比較の結果に基づき、完全オペランドのセットに対してドット積値を計算すべきかどうかを判断するように構成され得る。

実現例によっては、ＰＥ回路２０２は、オペランドサブセットおよび／または計算値の測定勾配に対する計算値（例えば、ドット積値）を比較器に与えるように構成され得る。比較器は、例えば、勾配（例えば、増加または減少の割合）を勾配閾値と比較するように構成され得る。例えば、勾配により、計算値が負の傾向にある（または正の傾向にある）ことが分かる場合、勾配は、第２の閾値を満たす完全ドット積（例えば、完全オペランドのセットに対する）の見込みの指標としてもよい。比較器は、測定勾配値との比較に向けて１つまたは複数の閾値を維持することができる。比較器は、測定勾配値（例えば、様々なオペランドサブセットなどに対する）を、比較器によって維持された閾値と比較するように構成され得る。

比較器は、比較（例えば、取るに足りない閾値とのドット積値の）に基づき、活性化信号を出力するように構成され得る。実現例によっては、比較器からの出力は、閾値が満たされたときの初期設定信号または初期設定値であり得、閾値が満たされなければ、比較器は、初期設定値とは異なる信号値を出力し得る。これにより、比較器は、比較に基づき、様々な値（例えば、活性化信号）に活性化し得る。活性化信号は、場合によっては高い値（例えば、「１」、分数、小数値など）になることがある。また場合によっては、活性化信号は、低い値（例えば、「０」、異なる分数、異なる小数値など）になることがある。実施形態によっては、活性化信号に応答して、ＰＥ回路２０２は、完全オペランドのセットに対してドット積演算を実施することができる。ＰＥ回路２０２は、活性化信号を特定したのに応答して、完全オペランドのセットに対してドット積演算の計算を実施することができる（例えば、式１または式２にしたがって）。実現例によっては、ＰＥ回路２０２は、完全オペランドのセットに対してドット積値を出力するように構成され得る。ＰＥ回路２０２は、ドット積値を記憶デバイスに書き込むことや、ドット積値を外部デバイスに送信する、送る、それとも与えることなどができる。実現例によっては、ＰＥ回路２０２は、ドット積値を比較器（第１の閾値で使用されるのと同じ比較器でも異なる比較器でもよい）に与えるように構成され得、今度は比較器が第２の閾値とのドット積値の比較を実施することができる。

実施形態によっては、ＰＥ回路２０２は、オペランドの追加処理（例えば、オペランドに対する追加のドット積演算）が必要であるかどうか、または早期抜け出しが起こり得るかどうかを示す追加情報を生成することができる。このような情報を保持するまたは伝えるのに、出力バッファの１ビットまたは複数ビットが割り当てられるかまたは使用され得る。例えば、ＰＥ回路２０２は、所与の畳み込みで複数回の累積通過を実施し得る。例として図２に示す実施形態を使用すると、ＰＥ回路２０２の各列は、異なる出力カーネルとして働くことができる。各列には、それら自体の条件ビット（それぞれの比較器からの活性化信号に基づき規定され得る）があり得、この条件ビットは、更なるドット積演算が必要であるのか、または実施されることになるのかを規定するか示すことができる。早期抜け出しに進むことができる列もあれば（例えば、部分ドット積を計算した後）、早期抜け出しに進むことができない（例えば、追加のドット積演算を実施することに進み得る）列もあり、これは使用されるオペランドにより決まってくるものであり得る。これにより、出力バッファにおける列に対するビット条件は、早期抜け出しが実施されるか否かを示すのに使用され得る。これらの条件ビットのそれぞれは、早期抜け出しまたは追加のドット積演算を実施する際にそれぞれの列を制御するかまたはゲートするのに使用され得る。

本明細書に記載の実施形態によれば、第１の閾値との完全オペランドのセットのサブセットに対するドット積値の比較に基づき、完全オペランドのセットに対してドット積演算の計算を選択的に実施するように構成され得る。それにより、ＡＩアクセラレータ１０８は、ＰＥ回路２０２が完全オペランドのセットに対してドット積演算を計算することができる場合を限定することによって、計算上のエネルギーを節約するように構成され得る。また、ＡＩアクセラレータ１０８の速さ、処理量、および／またはパフォーマンスは、計算を実施する対象のオペランド数を限定することによって改善されるか高められ得る。

ここで図２Ｂを参照すると、畳み込み（または畳み込み演算もしくは畳み込みプロセス）からの早期抜け出しの方法２１０の流れ図が示されている。方法２１０の機能は、ＡＩアクセラレータ１０８および／またはデバイス２００などの図１Ａ～図２Ａに記載の構成要素を使用して実装され得るか、または構成要素によって実施され得る。手短にまとめると、プロセッサ１２４がオペランドサブセットを特定することができる（２１５）。ＰＥ回路が、オペランドサブセットを使用して、ドット積演算の計算を実施することができる（２２０）。ＰＥ回路がドット積値を閾値と比較し得る（２２５）。ＰＥ回路は、この比較に基づき、ノードを活性化すべきかどうかを判断することができる（２３０）。

（２１５）を更に詳しく見ると、また実施形態によっては、方法２１０は、オペランドのサブセットを特定することを含む。実施形態によっては、１つまたは複数のＰＥ回路２０２がドット積演算の計算を実施する対象のオペランドのセットのサブセットを特定することができる。オペランドのセットとしては、入力データとしてもよいか、それを挙げることができる。入力データとしては、ニューラルネットワークの層（における計算または活性化）から取り出されたデータ（例えば、ＰＥ回路２０２から上流のノードからの活性化データ）としてもよい。オペランドとしては、入力データに掛けられるかそれとも適用されることになる、ＰＥ回路２０２に相当するノードの重み（または、カーネル、バイアス情報、もしくは他の情報）を挙げることができる。カーネルとしては、対応する入力データに適用されることになる複数の重みまたは要素を挙げることができる。

実現例によっては、ＰＥ回路２０２が、オペランドサブセットに含めるべきいくつかのオペランドを選択することができる。ＰＥ回路２０２は、閾値（例えば、第１の閾値）に基づき、このいくつかのオペランドを選択することができる。例えば、ＰＥ回路２０２は、オペランドサブセットに対して計算された部分ドット積値が、部分ドット積値が比較される対象の第１の閾値よりも（少なくとも）小さい数（または大きい数）になるのをもたらす、いくつかのオペランドを選択することができる。以下により詳しく述べるが、ＰＥ回路２０２は、（ステップ（２１５）で選択された）オペランドサブセットを使用して、ドット積値の計算を実施することができる。ＰＥ回路２０２は、少なくとも、第１の閾値よりも小さな（または大きな）部分ドット積値をもたらす、いくつかのオペランドを選択することができる。このように、いくつかのオペランドとは、ＰＥ回路２０２が部分ドット積値を計算する際、成果を示す第１の閾値を満たしても満たさなくてもよい数であってもよい。

オペランドサブセットに含める対象のいくつかのオペランドを特定、決定、それとも選択するのに対して、ＰＥ回路２０２は、サブセットに含める対象のオペランドをオペランドのセットから選択することができる。ＰＥ回路２０２は、プロセッサ１２４がオペランドのセットを配列し直す（例えば、選択に向けてオペランドのセットをランク付けする）のを受けて、オペランドを選択することができる。プロセッサ１２４は、オペランドを並べ替えることによって（例えば、オペランドの値の昇順もしくは降順で、またはオペランドの値のタイプにしたがって）、オペランドのセットを配列し直すことができる。プロセッサ１２４は、対応する重み（またはカーネル値）によってオペランドを並べ替える、入力値（例えば、ニューラルネットワークの前のノードからの活性化データ）によってオペランドを並べ替えることなどができる。プロセッサ１２４は、オペランドの位置（例えば、メモリまたは他の記憶デバイス２０４におけるそれぞれのオペランドのアドレス）を示すポインタ（ニューラルネットワークグラフ内のまたはそれにマップされた）を修正することによって、オペランドを配列し直すことができる。プロセッサ１２４は、メモリ内のそれぞれのオペランドに対してアドレスを変えることによってオペランドを配列し直すことができる（アドレスは、ニューラルネットワークのニューラルネットワークグラフに示されるか、マップされる）。実現例によっては、プロセッサ１２４は、オペランドのうちの少なくともいくつかを配列し直す場合がある（例えば、最も高い値または最も低い値ではないオペランドを維持するかまたは無視する一方で、最も高い値または最も低い値にしたがって、オペランドを配列し直す、すなわちランク付けする）。この点に関して、プロセッサ１２４は、ニューラルネットワークのニューラルネットワークグラフのノードまたは層のうちの少なくともいくつかに対してオペランドを配列し直すことができる（例えば、ニューラルネットワークグラフの他のノードまたは層に対してオペランドを維持しながら）

オペランドの配列し直し（例えば、ランク付け）に続いて、ＰＥ回路２０２は、オペランドサブセットに含める対象のオペランドを選択することができる。ＰＥ回路２０２は、第１の閾値が満たされる方式に基づき、オペランドを選択することができる。例えば、ドット積値が第１の閾値を超えると第１の閾値が満たされる場合、ＰＥ回路２０２は、オペランドサブセットに含めるべき最も大きな値を有するオペランドを選択することができる。同様に、ドット積値が第１の閾値を下回ると第１の閾値が満たされる場合、ＰＥ回路２０２は、オペランドサブセットに含めるべき最も小さな値を有するオペランドを選択することができる。ＰＥ回路２０２は、サブセットに含める対象の最も大きな値（または最も小さな値）を有するオペランドを選択することができるが、それは、このようなオペランドに対するドット積演算の計算が、全てのオペランドに対するドット積演算が第２の閾値を満たすと考えられる（例えば、第１の閾値を構成する、較正する、または決定するのに使用される）ことを示すことがもっとありそうであるからである。

実現例によっては、プロセッサ１２４が第１の閾値を設定し得る。全てのオペランドに対するドット積値が第２の閾値を満たす見込みが、一定のレベルまたは精度（例えば、８０％）を上回るような第１の閾値が設定され得る。例えば、完全オペランドのセットに対するドット積値が第２の閾値を上回ると第２の閾値が満たされる場合、第１の閾値が、オペランドのセットからの全てのオペランドが第２の閾値を下回るドット積値をもたらすことが起こりそうにないほど高く設定され得る。同様に、完全オペランドのセットに対するドット積値が第２の閾値を下回ると第２の閾値が満たされる場合、第１の閾値が、オペランドのセットからの全てのオペランドが第２の閾値を上回ることが起こりそうにないほど低く設定され得る。プロセッサ１２４は、ニューラルネットワークの出力の望ましい精度に基づき、閾値（例えば、第１の閾値）を設定することができる。実施形態によっては、プロセッサ１２４は、ニューラルネットワークの出力の望ましい精度を上げるように、第２の閾値に近付けて第１の閾値を設定しかつ／または選択したオペランドのサブセットを大きくすることができる。結果として、それにしたがって、計算量および消費電力が上がる可能性がある。同様に、プロセッサ１２４は、ニューラルネットワークの出力の望ましい精度を下げるように、第２の閾値から更に離して第１の閾値を設定しかつ／または選択したオペランドのサブセットを小さくすることができる。結果として、それにしたがって、計算量および消費電力が下がる可能性がある。これにより、ＰＥ回路２０２は、省力化レベルと望ましい精度とのバランスに基づき、第１の閾値を設定することができる。

（２２０）をより詳しく見てみると、また実施形態によっては、方法２１０は、オペランドサブセットを使用して、ドット積演算の計算を実施することを含む。実現例によっては、ドット積演算に対応するニューラルネットワークのノードに対する少なくとも１つのＰＥ回路２０２が、オペランドサブセット（例えば、ステップ（２１５）で特定された）を使用して、ドット積値の計算を実施することができる。ＰＥ回路２０２は、上記の式１または式２にしたがってドット積演算を実施することができる。ＰＥ回路２０２がオペランドサブセットからの入力値および対応するカーネルまたは重み値を使用して、ドット積演算を実施することができる。ＰＥ回路２０２は、このサブセットからのオペランドを使用してドット積演値を計算することができる。

（２２５）をより詳しく見てみると、また実施形態によっては、方法２１０は、ドット積値を（第１の）閾値と比較することを含む。実現例によっては、ＰＥ回路が、オペランドのセットのサブセット（例えば、ステップ（２２０）で特定された）のドット積値を、ＰＥ回路２０２またはプロセッサ１２４によって選択された第１の閾値と比較し得る。ＰＥ回路２０２が、このドット積値を比較器に与えることができる。比較器は、この比較にドット積値および第１の閾値を使用することができる。比較器は、この比較に基づき、活性化信号を出力することができる。比較器は、ドット積値が第１の閾値を満たさないと、またはドット積値が第１の閾値を満たすと、活性化信号を出力し得る。比較器は、活性化信号に対して第１の値を出力し得る（例えば、ドット積値が第１の閾値を満たすと）。比較器は、ドット積値が第１の閾値を満たさなければ、活性化信号に対して、それとは異なる値を出力し得る。活性化信号とは、高い信号または高い値（例えば、「１」、小数、分数など）とすることができる。初期設定信号とは、低い信号または低い値（例えば、「０」、異なる小数、異なる分数など）とすることができる。

（２３０）をより詳しく見てみると、また実施形態によっては、方法２１５は、比較に基づき、ノードを活性化すべきかどうかを判断することを含む。実現例によっては、プロセッサ１２４が、少なくとも比較の結果に基づき、オペランドのセット全体に対してドット積演算を実施するようＰＥを活性化すべきかどうかを判断する。ＰＥ回路１２４が、活性化信号（例えば、比較器からの）の値にしたがってＰＥを活性化することができる。活性化信号の値を受けて、ＰＥ回路２０２は、完全オペランドのセットに対して計算を実施することができる。ＰＥ回路２０２は、異なるドット積値を生成するように、完全オペランドのセットに対してドット積演算の計算を実施することができる。実現例によっては、ＰＥ回路２０２は、メモリにドット積値を格納し（例えば、メモリのアドレスへの書込み演算を実施することによって）、ＡＩアクセラレータ１０８の異なる構成要素に（例えば、異なる比較器に、同じ比較器に、など）ドット積値を出力する、ドット積値を外部デバイスに出力することなどができる。実現例によっては、ＰＥ回路２０２は、ドット積値を第２の閾値と比較し得る。この点に関して、ＰＥ回路２０２は、実施形態によっては、オペランドサブセットを使用した部分ドット積演算に基づき、完全オペランドのセットに対してドット積演算の計算を選択的に実施することができる。

いくつかの例示的な実現例について記載してきたが、上記は例示であって限定ではなく、例として提示されていることが明白である。特に、本明細書に提示する例の多くには、方法行為またはシステム要素の特定の組み合わせが関与するが、それらの行為および要素は、同じ目的を遂行するために他の形で組み合わせることができる。１つの実現例に関連して考察される行為、要素、および特徴は、他の１つまたは複数の実現例における類似の役割から除外されないものとする。

本明細書に開示する実施形態と関連して記載される、様々なプロセス、動作、例示の論理、論理ブロック、モジュール、および回路を実現するのに使用される、ハードウェアおよびデータ処理構成要素は、汎用シングルもしくはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラマブル論理デバイス、離散的ゲートもしくはトランジスタ論理、離散的ハードウェア構成要素、または本明細書に記載の機能を実施するように設計された上記のものの任意の組み合わせを用いて、実現または実施されてもよい。汎用プロセッサは、マイクロプロセッサ、または任意の従来のプロセッサ、コントローラ、マイクロコントローラ、もしくは状態機械であってもよい。プロセッサはまた、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連動した１つもしくは複数のマイクロプロセッサ、または他の任意のかかる構成など、コンピューティングデバイスの組み合わせとして実現されてもよい。いくつかの実施形態では、特定のプロセスおよび方法は、所与の機能に特異的な回路類によって実施されてもよい。メモリ（例えば、メモリ、メモリユニット、記憶デバイスなど）は、本開示に記載する様々なプロセス、層、およびモジュールを完成させるかもしくは容易にする、データおよび／またはコンピュータコードを格納する、１つまたは複数のデバイス（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク記憶装置など）を含んでもよい。メモリは、揮発性メモリもしくは不揮発性メモリであるかまたはそれらを含んでもよく、本開示に記載する様々なアクティビティおよび情報構造をサポートする、データベース構成要素、オブジェクトコード構成要素、スクリプト構成要素、または他の任意のタイプの情報構造を含んでもよい。例示的実施形態によれば、メモリは、処理回路を介してプロセッサに通信可能に接続され、本明細書に記載の１つもしくは複数のプロセスを（例えば、処理回路および／またはプロセッサによって）実行するためのコンピュータコードを含む。

本開示は、様々な動作を遂行するための任意の機械可読媒体上における、方法、システム、およびプログラム製品を想到する。本開示の実施形態は、既存のコンピュータプロセッサを使用して、またはこの目的もしくは別の目的のために組み込まれる、適切なシステムのための専用コンピュータプロセッサによって、または配線接続システムによって、実現されてもよい。本開示の範囲内の実施形態は、格納された機械実行可能命令もしくはデータ構造を保持するかまたは有する、機械可読媒体を備えるプログラム製品を含む。かかる機械可読媒体は、汎用もしくは専用コンピュータ、またはプロセッサを有する他の機械によってアクセスすることができる、任意の利用可能な媒体であることができる。例として、かかる機械可読媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、または他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、あるいは機械実行可能命令またはデータ構造の形態で所望のプログラムコードを保持または格納するのに使用することができ、汎用もしくは専用コンピュータまたはプロセッサを有する他の機械でアクセスすることができる、他の任意の媒体を含むことができる。上記のものの組み合わせはまた、機械可読媒体の範囲に含まれる。機械実行可能命令は、例えば、汎用コンピュータ、専用コンピュータ、または専用処理機械に、特定の機能または機能群を実施させる、命令およびデータを含む。

本明細書で使用する用語および専門用語は、説明のためのものであって限定とみなされるべきではない。本明細書における、「～を含む」、「～を備える」、「～を有する」、「～を含有する」、「～を伴う」、「～によって特徴付けられる」、「～を特徴とする」およびそれらの変形の使用は、該用語とともに列挙される項目、それらの等価物、および追加の項目、ならびに排他的に該用語とともに列挙される項目から成る代替実現例を網羅することを意味する。一実現例では、本明細書に記載するシステムおよび方法は、記載する要素、行為、または構成要素のうちの１つ、２つ以上の各組み合わせ、または全てから成る。

単数形で言及される本明細書のシステムおよび方法の実現例または要素または行為に対する任意の言及は、複数のこれらの要素を含む実現例も包含することができ、本明細書の任意の実現例または要素または行為に対する複数形での任意の言及は、単一の要素のみを含む実現例も包含することができる。単数形または複数形での言及は、本明細書に開示されるシステムもしくは方法、それらの構成要素、行為、または要素を、単数または複数の構成に限定しようとするものではない。任意の情報、行為、または要素に基づいた任意の行為または要素に対する言及は、行為または要素が、任意の情報、行為、または要素に少なくとも部分的に基づく場合の実現例を含むことができる。

本明細書に開示する任意の実現例は、他の任意の実現例または実施形態と組み合わせることができ、「ある実現例」、「いくつかの実現例」、「一実現例」などに対する言及は、必ずしも相互に排他的ではなく、実現例と関連して記載する特定の特徴、構造、または特性が、少なくとも１つの実現例または実施形態に含まれ得ることを示すものとする。かかる用語は、本明細書で使用するとき、必ずしも全てが同じ実現例を指すものではない。任意の実現例は、本明細書に開示する態様および実現例と一致する任意の手法で、他の任意の実現例と包括的または排他的に組み合わせることができる。

図面、詳細な説明、または任意のクレームにおける技術的特徴に参照符号が付される場合、参照符号は、図面、詳細な説明、およびクレームの了解度を向上するために含まれるものである。したがって、参照符号が存在してもしなくても、任意のクレーム要素の範囲に対する限定的影響を何ら有さない。

本明細書に記載するシステムおよび方法は、それらの特性から逸脱することなく、他の特定の形態で具体化されてもよい。「約」、「およそ」、「実質的に」、または他の程度を表す用語に対する言及は、別段の明示がない限り、所与の測定値、単位、または範囲から±１０％の変動を含む。結合された要素は、直接または介在要素を用いて、互いに電気的、機械的、または物理的に結合することができる。本明細書に記載するシステムおよび方法の範囲は、したがって、上述の記載ではなく添付のクレームによって示され、クレームの等価物の意味および範囲内にある変更は包含される。

「結合された」という用語およびその変形は、２つの部材を直接または間接的に互いに接合することを含む。かかる接合は、静的（例えば、恒久的もしくは固定）または可動（例えば、除去可能もしくは解放可能）であってもよい。かかる接合は、互いに直接結合され、または互いに対して結合された２つの部材によって、別個の介在部材および互いに結合された任意の追加の中間部材を使用して互いに結合された２つの部材によって、あるいは２つの部材の一方とともに単一の単位体として一体的に形成された介在部材を使用して互いに結合された２つの部材によって、達成されてもよい。「結合された」またはその変形が、追加の用語によって修正された場合（例えば、直接結合された）、上述の「結合された」の包括的定義は、追加の用語の平易な言葉の意味によって修正され（例えば、「直接結合された」は、任意の別個の介在部材を有さない２つの部材の接合を意味する）、それによって上述の「結合された」の包括的定義よりも狭い定義になる。かかる結合は機械的、電気的、または流体的であってもよい。

「または」に対する言及は包括的と解釈することができるので、「または」を使用して記載されるいずれの用語も、記載される用語の単一、２つ以上、および全てのいずれかを示すことができる。「『Ａ』および『Ｂ』のうち少なくとも１つ」は、「Ａ」のみ、「Ｂ」のみ、ならびに「Ａ」および「Ｂ」の両方を含むことができる。「備える」または他のオープンな用語と併せて使用されるかかる言及は、追加の項目を含むことができる。

様々な要素のサイズ、寸法、構造、形状、および比率、パラメータの値、取付け構造、材料使用、色、向きにおける変形例など、記載される要素および行為の修正は、本明細書に開示する主題の教示および利点から実質的に逸脱することなく行うことができる。例えば、一体的に形成されるものとして示される要素は、複数の部分または要素で構築することができ、要素の位置を反転させるかまたは別の形で変動させることができ、離散的要素または位置の性質もしくは数を改変または変更することができる。他の置換、修正、変更、および省略も、本開示の範囲から逸脱することなく、開示の要素および動作の設計、動作条件、および配置に対して行うことができる。

本明細書における要素の位置に対する言及（例えば、「上側」、「下側」、「上方」、「下方」）は単に、図面における様々な要素の向きを説明するために使用されるものである。様々な要素の向きは、他の例示的実施形態によって異なってもよく、かかる変形は本開示に包含されるものとする。

Claims

畳み込みからの早期抜け出しの方法であって、
オペランドのセットによるドット積演算に対応するニューラルネットワークのノードに対して、少なくとも１つの処理要素（ＰＥ）回路によって、前記オペランドのセットのサブセットを使用して計算を実施して、前記オペランドのセットの前記サブセットのドット積値を生成することと、
前記少なくとも１つのＰＥ回路によって、前記オペランドのセットの前記サブセットの前記ドット積値を閾値と比較することと、
前記少なくとも１つのＰＥ回路によって、少なくとも前記比較の結果に基づき、前記ニューラルネットワークの前記ノードを活性化すべきかどうかを判断することと、を含む、方法。
前記計算を実施するために、前記少なくとも１つのＰＥ回路によって、前記オペランドのセットの前記サブセットを特定することを更に含む、請求項１に記載の方法。
部分ドット積値を少なくとも前記閾値よりも小さな数にするいくつかのオペランドを選択して、前記オペランドのセットの前記サブセットにすることを更に含む、請求項１または２に記載の方法。
部分ドット積値を少なくとも前記閾値よりも大きな数にするいくつかのオペランドを選択して、前記オペランドのセットの前記サブセットにすることを更に含む、請求項１から３のいずれか一項に記載の方法。
前記計算を実施するために前記オペランドのセットを配列し直すことであって、前記ニューラルネットワークのニューラルネットワークグラフを配列し直すことによって前記オペランドが配列し直される、前記オペランドのセットを配列し直すことを更に含む、請求項１から４のいずれか一項に記載の方法。
前記ニューラルネットワークのニューラルネットワークグラフのノードまたは層の少なくともいくつかのオペランドを配列し直すことを更に含み、前記閾値が、前記オペランドのセットの全てを使用するのではなく、前記オペランドのセットの前記サブセットを使用して前記計算を実施することによって実現可能な省力化レベルに基づいて設定される、請求項１から５のいずれか一項に記載の方法。
少なくとも前記ニューラルネットワークの出力の望ましい精度に基づき、前記閾値を設定することを更に含む、請求項１から６のいずれか一項に記載の方法。
前記オペランドのセットは、前記ノードの重みまたはカーネルを含む、請求項１から７のいずれか一項に記載の方法。
畳み込みからの早期抜け出し用のデバイスであって、
オペランドのセットによるドット積演算に対応するニューラルネットワークのノードに対して、前記オペランドのセットのサブセットを使用して計算を実施して、前記オペランドのセットの前記サブセットのドット積値を生成することと、
前記オペランドのセットの前記サブセットの前記ドット積値を閾値と比較することと、
少なくとも前記比較の結果に基づき、前記ニューラルネットワークの前記ノードを活性化すべきかどうかを判断することと、を実施するように構成された、少なくとも１つの処理要素（ＰＥ）回路を備える、デバイス。
前記少なくとも１つのＰＥ回路が、前記計算を実施するために前記オペランドのセットの前記サブセットを特定するように更に構成されている、請求項９に記載のデバイス。
前記少なくとも１つのＰＥ回路が、部分ドット積値を少なくとも前記閾値よりも低い数にするいくつかのオペランドを選択して、前記オペランドのセットの前記サブセットにするように更に構成されている、請求項９または１０に記載のデバイス。
前記少なくとも１つのＰＥ回路が、部分ドット積値を少なくとも前記閾値よりも大きな数にするいくつかのオペランドを選択して、前記オペランドのセットの前記サブセットにするように更に構成されている、請求項９から１１のいずれか一項に記載のデバイス。
前記計算を実施するために前記オペランドのセットを配列し直すように構成されたプロセッサを更に備え、前記ニューラルネットワークのニューラルネットワークグラフを配列し直すことによって前記オペランドのセットが配列し直される、請求項９から１２のいずれか一項に記載のデバイス。
前記ニューラルネットワークのニューラルネットワークグラフのノードまたは層の少なくともいくつかのオペランドを配列し直すように構成されたプロセッサであって、少なくとも、前記オペランドのセットの全てを使用するのではなく、前記オペランドのセットの前記サブセットを使用して前記計算を実施することによって実現可能な省力化レベルに基づき、前記閾値を設定するように構成されているプロセッサを更に備える、請求項９から１３のいずれか一項に記載のデバイス。
少なくとも、前記ニューラルネットワークの出力の望ましい精度に基づき、前記閾値を設定するように構成されたプロセッサを更に備える、請求項９から１４のいずれか一項に記載のデバイス。