JP2022539495A

JP2022539495A - 負および正の値に対する非対称スケーリングファクタをサポートするシステムおよび方法

Info

Publication number: JP2022539495A
Application number: JP2021571015A
Authority: JP
Inventors: ガネシュヴェンカテーシュ，; ピアスイ－ジェンチャン，
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2019-07-12
Filing date: 2020-07-09
Publication date: 2022-09-12
Also published as: US20210012202A1; CN113994347A; EP3997561A1; WO2021011320A1; KR20220031101A

Abstract

本明細書の開示は、負および正の値に対する非対称スケーリングファクタをサポートするシステム、方法、およびデバイスを含む。デバイスは、シフト回路類および乗算回路類を有する回路を含むことができる。回路は、乗算回路類を介して、第１の値および第２の値を乗算することを含む、ニューラルネットワークに対する計算を実施するように構成することができる。回路は、シフト回路類を介して、乗算の結果を決定されたビット数分シフトすることを含む、ニューラルネットワークに対する計算を実施するように構成することができる。回路は、第１の値の符号ビットが負の場合は乗算の結果を、第１の値の符号ビットが正の場合はシフトの結果を出力することを含む、ニューラルネットワークに対する計算を実施するように構成することができる。【選択図】図１Ｂ

Description

本開示は、全体として、ニューラルネットワークにおける計算に関し、ニューラルネットワークの値に対する非対称スケーリングファクタをサポートするシステムおよび方法を含むがそれらに限定されない。

人工知能（ＡＩ）処理は、異なる形態の活性化関数を使用することができる。活性化関数は、１セットの入力を所与として、ノードの出力をニューラルネットワークに生成することができる。活性化関数は、入力のセットに基づいて、正または負どちらかの値を出力することができる。活性化関数は、正の値を有するニューラルネットワークの１つまたは複数のニューロン、および負の値を有するニューラルネットワークの１つまたは複数のニューロンを活性化させることができる。

負および正の値に対する非対称スケーリングファクタをサポートするデバイス、システム、および方法が本明細書において提供される。回路は、例えば乗累算器回路類（ＭＡＣ）において、正の値および負の値に対して非対称スケーリングファクタを提供するように、ハードウェア構成要素を有して設計され構成されてもよい。一例では、回路は、複数の値（例えば、重み値、活性化値）を受信する乗算器構成要素を含んでもよい。回路は、乗算器構成要素に提供される少なくとも１つの値の符号を決定する、比較器構成要素を含んでもよい。例えば、比較器構成要素は、乗算器構成要素に提供される活性化値の符号を決定してもよい。値の符号に応答して、回路は、正の値対負の値に対して異なるスケーリングを提供してもよい。例えば、正の値に応答して、回路は、乗算器の結果をシフト構成要素または回路に提供して、結果を所定のビット数分シフトしてもよい。回路は、シフト構成要素または回路の結果をマルチプレクサ構成要素に提供して、回路に対する出力を生成してもよい。負の値に応答して、回路は、乗算器の結果をマルチプレクサ構成要素（例えば、シフト演算を有さない）に提供して、回路に対する出力を生成してもよい。したがって、回路は、正の値対負の値に対して異なるスケーリングファクタを提供してもよい。

本発明の第１の態様によれば、シフト回路類および乗算回路類を備え、ニューラルネットワークに対する計算を実施するように構成された、回路を備え、乗算回路類を介して、第１の値および第２の値を乗算することと、シフト回路類を介して、乗算の結果を決定されたビット数分シフトすることと、第１の値の符号ビットが負の場合は乗算の結果を、第１の値の符号ビットが正の場合はシフトの結果を出力することと、を含む、デバイスが提供される。

回路は、ニューラルネットワークの現在または特定の層に対する計算を実施するように構成されてもよい。

回路はマルチプレクサを含んでもよい。回路は、マルチプレクサを介して、第１の値の符号ビットにしたがって、乗算の結果またはシフトの結果を出力するように構成されてもよい。第１の値は、ニューラルネットワークの第１の層（例えば、前もしくは以前の層）に対する活性化を含んでもよい。決定されたビット数は、ニューラルネットワークの第１の層に対する、活性化関数のスケーリングファクタの２進数の指数に対応してもよい。活性化関数は、漏れのある正規化線形ユニット（ＲｅＬｕ）関数を含んでもよい。決定されたビット数はｍであってもよく、ｍは１以上の整数であってもよい。決定されたビット数は２であってもよい。

回路は更に、第１の値の符号ビットが負または正のどちらであるかを決定するように構成された、比較器回路類を含んでもよい。回路は、累算器回路類を備える乗累算器（ＭＡＣ）回路類を含んでもよい。回路は更に、出力の結果をＭＡＣ回路類の累算器回路類に提供するように構成されてもよい。ニューラルネットワークに対する計算は更に、乗算回路類を介して、第３の値および第４の値の第２の乗算を行うことを含んでもよい。ニューラルネットワークに対する計算は更に、シフト回路類を介して、第２の乗算の結果に対して、決定されたビット数分の第２のシフトを行うことを含んでもよい。ニューラルネットワークに対する計算は更に、第３の値の符号ビットが負の場合は第２の乗算の結果の、第３の値の符号ビットが正の場合は第２のシフトの結果の、第２の出力を行うことを含んでもよい。ニューラルネットワークに対する計算は更に、第２の出力の結果をＭＡＣ回路類の累算器回路類に提供することを含んでもよい。

本発明の第２の態様によれば、回路の乗算回路類によって、ニューラルネットワークに対する第１の値および第２の値を乗算することと、回路のシフト回路類によって、乗算の結果を決定されたビット数分シフトすることと、回路によって、第１の値の符号ビットが負の場合は乗算の結果を、第１の値の符号ビットが正の場合はシフトの結果を出力することと、を含む、方法が提供される。

方法は、回路のマルチプレクサを介して、第１の値の符号ビットに基づいて、乗算の結果またはシフトの結果を出力することを含んでもよい。第１の値は、ニューラルネットワークの第１のまたは前の層に対する活性化を含んでもよい。決定されたビット数は、ニューラルネットワークの第１の層に対する、活性化関数のスケーリングファクタの２進数の指数に対応してもよい。活性化関数は、漏れのある正規化線形ユニット（ＲｅＬｕ）関数を含んでもよい。所定のビット数はｍであってもよく、ｍは１以上の整数であってもよい。決定されたビット数は２であってもよい。

方法は更に、回路の比較器回路類によって、第１の値の符号ビットが負または正のどちらであるかを決定することを含んでもよい。方法は更に、出力の結果を回路の累算器回路類に提供することを含んでもよい。方法は更に、乗算回路類を介して、第３の値および第４の値に対して第２の乗算を行うことを含んでもよい。方法は更に、シフト回路類を介して、第２の乗算の結果に対して、決定されたビット数分の第２のシフトを行うことを含んでもよい。方法は更に、第３の値の符号ビットが負の場合は第２の乗算の結果の、第３の値の符号ビットが正の場合は第２のシフトの結果の、第２の出力を行うことを含んでもよい。方法は更に、第２の出力の結果を回路の累算器回路類に提供することを含んでもよい。

例示の実現例について以下で詳細に考察する。以下で詳述する説明は、様々な例示の実現例の実例を含み、特許請求する態様および実現例の性質ならびに特徴を理解するための概観または枠組みを提供する。図面は、様々な態様および実現例の例示ならびに更なる理解を提供し、本明細書に組み込まれるとともに本明細書の一部を構成する。

添付図面は縮尺通りに描かれることを意図しない。様々な図面における同様の参照番号および記号は同様の要素を示す。明瞭にするため、全ての図面において全ての構成要素に符号が付されるわけではない。

本開示の例示の一実現例による、人工知能（ＡＩ）に関連する処理を実施するシステムの一実施形態を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例による、ＡＩに関連する処理を実施するデバイスの一実施形態を示すブロック図である。本開示の例示の一実現例によるコンピューティング環境を示すブロック図である。本開示の例示の一実現例による、負および正の値に対する非対称スケーリングファクタに関するシステムを示すブロック図である。本開示の例示の一実現例による活性化関数を示すグラフである。本開示の例示の一実現例による、負および正の値に対する非対称スケーリングファクタに関するプロセスまたは方法を示すフローチャートである。

特定の実施形態を詳細に示す図面に移る前に、本開示は、明細書に記載されるかまたは図面に例示される、詳細もしくは方法論に限定されないことが理解されるべきである。また、本明細書で使用する専門用語は、単に説明のためのものであって限定とみなされるべきでないことが理解されるべきである。

以下の本発明の様々な実施形態についての説明を読むために、本明細書のセクションおよびそれらそれぞれの内容について、次の説明が有用であり得る。

セクションＡは、本発明のシステム、方法、およびデバイスの一実施形態を実践または実現するのに有用な、環境、システム、構成、および／または他の態様について記載する。

セクションＢは、負および正の値に対する非対称スケーリングファクタをサポートするデバイス、システム、および方法の実施形態について記載する。

セクションＡ．人工知能に関連する処理のための環境

システム、デバイス、および／または方法の実施形態の詳細についてセクションＢで考察する前に、システム、デバイス、および／または方法の特定の実施形態を実践もしくは実現するのに有用な、環境、システム、構成、および／または他の態様について考察するのが有用であり得る。ここで図１Ａを参照すると、人工知能（ＡＩ）に関連する処理を実施するためのシステムの一実施形態が示される。概要では、システムは、入力データ１１０を使用してＡＩに関連する処理を実施することができる、１つまたは複数のＡＩアクセラレータ１０８を含む。ＡＩアクセラレータ１０８として参照しているが、場合によっては、ニューラルネットワークアクセラレータ（ＮＮＡ）、ニューラルネットワークチップもしくはハードウェア、ＡＩプロセッサ、ＡＩチップなどと呼ばれる。ＡＩアクセラレータ１０８は、入力データ１１０および／またはパラメータ１２８（例えば、重みおよび／またはバイアス情報）にしたがって、ＡＩに関連する処理を実施して、出力データ１１２を出力または提供することができる。ＡＩアクセラレータ１０８は、１つもしくは複数のニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）、１つもしくは複数のプロセッサ、および／または１つもしくは複数の記憶デバイス１２を含むことができ、ならびに／あるいは実装することができる。

上述の要素または構成要素はそれぞれ、ハードウェア、またはハードウェアとソフトウェアの組み合わせの形で実装される。例えば、これらの要素または構成要素はそれぞれ、任意のアプリケーション、プログラム、ライブラリ、スクリプト、タスク、サービス、プロセス、あるいはデジタルおよび／またはアナログ要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子）を含むことができる回路類などのハードウェア上で実行する、任意のタイプおよび形態の実行可能命令を含むことができる。

入力データ１１０は、ＡＩアクセラレータ１０８のニューラルネットワーク１１４を構成、調整、訓練、および／または活性化するための、ならびに／あるいはプロセッサ１２４によって処理するための、任意のタイプもしくは形態のデータを含むことができる。ニューラルネットワーク１１４は、場合によっては、人工ニューラルネットワーク（ＡＮＮ）と呼ばれる。ニューラルネットワークの構成、調整、および／または訓練は、履歴データなど、（例えば、入力データ１１０としての）訓練データセットがニューラルネットワークに提供されて処理される、機械学習のプロセスを指すかあるいは含むことができる。調整または構成は、ニューラルネットワーク１１４を訓練または処理して、ニューラルネットワークが精度を改善するのを可能にすることを指すかまたは含むことができる。ニューラルネットワーク１１４の調整または構成は、例えば、ニューラルネットワーク１１４に関する問題のタイプもしくは所望の目標に対して成功することが証明されているアーキテクチャを使用した、ニューラルネットワークの設計を含むことができる。場合によっては、１つまたは複数のニューラルネットワーク１１４は、同じもしくは類似のベースラインモデルで開始してもよいが、調整、訓練、または学習プロセスの間、ニューラルネットワーク１１４の結果は、ベースラインモデルであるかあるいは異なる目標もしくは目的のために調整または訓練された異なるニューラルネットワークよりも高いレベルの精度および信頼性で、特定のタイプの入力を処理し、特定のタイプの出力を生成するように、各ニューラルネットワーク１１４を調整することができるような、十分に異なるものであることができる。ニューラルネットワーク１１４の調整は、各ニューラルネットワーク１１４に対して異なるパラメータ１２８を設定すること、各ニューラルネットワーク１１４に対してパラメータ１２８を異なるように微調整すること、または異なる重み（例えば、ハイパーパラメータ、もしくは学習率）、テンソルフローなどを割り当てることを含むことができる。したがって、ニューラルネットワークならびに／あるいはシステムの調整または訓練プロセスおよび目標に基づいて、ニューラルネットワーク１１４に対して適切なパラメータ１２８を設定することによって、このことがシステム全体の性能を改善することができる。

ＡＩアクセラレータ１０８のニューラルネットワーク１１４は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、深層畳み込みネットワーク、順伝播型ニューラルネットワーク（例えば、多層パーセプトロン（ＭＬＰ））、深層順伝播型ニューラルネットワーク、放射基底関数ニューラルネットワーク、コホネン自己組織化ニューラルネットワーク、回帰型ニューラルネットワーク、モジュール型ニューラルネットワーク、長期／短期メモリニューラルネットワークなど、任意のタイプのニューラルネットワークを含むことができる。ニューラルネットワーク１１４は、自然言語処理など、データ（例えば、画像、音声、映像）処理、オブジェクトもしくは特徴認識、レコメンダ機能、データもしくは画像分類、データ（例えば、画像）解析などを実施するために展開または使用することができる。

一例として、また１つまたは複数の実施形態では、ニューラルネットワーク１１４は、畳み込みニューラルネットワークとして構成することができ、または畳み込みニューラルネットワークを含むことができる。畳み込みニューラルネットワークは、それぞれ異なる目的に役立ち得る、１つもしくは複数の畳み込みセル（またはプーリング層）およびカーネルを含むことができる。畳み込みニューラルネットワークは、畳み込みカーネル（場合によっては、単に「カーネル」と呼ばれる）を含み、組み込み、および／または使用することができる。畳み込みカーネルは入力データを処理することができ、プーリング層は、例えば、ｍａｘなどの非線形関数を使用して、データを単純化し、それによって不要な特徴を低減することができる。畳み込みニューラルネットワークを含むニューラルネットワーク１１４は、画像、音声、または任意のデータの認識もしくは他の処理を容易にすることができる。例えば、（例えば、センサからの）入力データ１１０を、ファンネルを形成する畳み込みニューラルネットワークの畳み込み層に渡して、入力データ１１０の検出された特徴を圧縮することができる。畳み込みニューラルネットワークの第１の層は第１の特性を検出することができ、第２の層は第２の特性を検出することができ、その先も同様である。

畳み込みニューラルネットワークは、視覚心像、音声情報、および／または他の任意のタイプもしくは形態の入力データ１１０を解析するように構成された、深層順伝播型人工ニューラルネットワークのタイプであることができる。畳み込みニューラルネットワークは、最小限の前処理を使用するように設計された、多層パーセプトロンを含むことができる。畳み込みニューラルネットワークは、重み共有アーキテクチャおよび翻訳不変性特性に基づいて、シフト不変または空間不変人工ニューラルネットワークを含むことができ、またはそのように呼ぶことができる。畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムと比較して相対的に少ない前処理を使用することができるので、畳み込みニューラルネットワークは、他のデータ分類／処理アルゴリズムのためにマニュアル設計されてもよいフィルタを自動的に学習して、ニューラルネットワーク１１４の構成、確立、またはセットアップと関連付けられた効率を改善することによって、他のデータ分類／処理技術と比べて技術的利点を提供することができる。

ニューラルネットワーク１１４は、ニューロンもしくはノードの、入力層１１６および出力層１２２を含むことができる。ニューラルネットワーク１１４はまた、ニューロンもしくはノードの、畳み込み層、プーリング層、全結合層、および／または正規化層を含むことができる、１つまたは複数の隠れ層１１８、１１９を有することができる。ニューラルネットワーク１１４では、各ニューロンは、前の層におけるいくつかの位置から入力を受信することができる。全結合層では、各ニューロンは、前の層の全ての要素からの入力を受信することができる。

ニューラルネットワーク１１４の各ニューロンは、前の層の受容野からの入力値に何らかの関数を適用することによって、出力値を計算することができる。入力値に適用される関数は、重みのベクトルおよびバイアス（一般的には実数）によって指定される。ニューラルネットワーク１１４における（例えば、訓練フェーズ中の）学習は、バイアスおよび／または重みを漸増的に調節することによって進行することができる。重みのベクトルおよびバイアスは、フィルタと呼ぶことができ、入力の何らかの特徴（例えば、特定の形状）を表すことができる。畳み込みニューラルネットワークの際立った特徴は、多くのニューロンが同じフィルタを共有できることである。これにより、各受容野が独自のバイアスおよび重みのベクトルを有するのではなく、単一のバイアスおよび重みの単一のベクトルを、該フィルタを共有する全ての受容野にわたって使用することができるので、メモリフットプリントが低減される。

例えば、畳み込み層では、システムは、畳み込み演算を入力層１１６に適用して、結果を次の層に渡すことができる。畳み込みは、個々のニューロンの応答をエミュレートして刺激を入力することができる。各畳み込みニューロンは、その受容野に対してのみデータを処理することができる。畳み込み演算は、全結合順伝播型ニューラルネットワークと比較して、ニューラルネットワーク１１４で使用されるニューロンの数を低減することができる。したがって、畳み込み演算は、自由パラメータの数を低減して、より少ないパラメータでネットワークをより深層化することを可能にすることができる。例えば、入力データ（例えば、画像データ）サイズにかかわらず、同じ共有重みをそれぞれ有するサイズ５×５のタイリング領域は、２５個のみの学習可能パラメータを使用してもよい。このように、畳み込みニューラルネットワークを有する第１のニューラルネットワーク１１４は、逆伝播を使用することによって多くの層を有する従来の多層ニューラルネットワークを訓練する際の、勾配消失または発散の問題を解決することができる。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、１つまたは複数のプーリング層を含むことができる。１つまたは複数のプーリング層は、ローカルプーリング層またはグローバルプーリング層を含むことができる。プーリング層は、１つの層におけるニューロンクラスタの出力を組み合わせて、次の層における単一のニューロンとすることができる。例えば、最大プーリングは、前の層におけるニューロンのクラスタそれぞれからの最大値を使用することができる。別の例は、前の層におけるニューロンのクラスタそれぞれからの平均値を使用することができる、平均プーリングである。

ニューラルネットワーク１１４（例えば、畳み込みニューラルネットワークで構成される）は、全結合層を含むことができる。全結合層は、１つの層の全てのニューロンを別の層の全てのニューロンに結合することができる。ニューラルネットワーク１１４は、畳み込み層で重みを共有して構成することができ、それは同じフィルタが層内の各受容野に使用されることを指すことができ、それにより、メモリフットプリントが低減され、第１のニューラルネットワーク１１４の性能が改善される。

隠れ層１１８、１１９は、入力データ（例えば、仮想現実システムなどからのセンサデータ）に基づいて、情報を検出するように調整または構成されるフィルタを含むことができる。システムがニューラルネットワーク１１４（例えば、畳み込みニューラルネットワーク）の各層を通るにつれて、システムは、第１の層からの入力を翻訳し、変換された入力を第２の層に出力することができ、その先も同様である。ニューラルネットワーク１１４は、検出、処理、および／または計算されるオブジェクトもしくは情報のタイプ、ならびに入力データ１１０のタイプに基づいて、１つまたは複数の隠れ層１１８、１１９を含むことができる。

いくつかの実施形態では、畳み込み層は、ニューラルネットワーク１１４（例えば、ＣＮＮとして構成される）のコアビルディングブロックである。層のパラメータ１２８は、小さい受容野を有するが、入力ボリュームの深さ全体を通って延在する、学習可能なフィルタ（またはカーネル）のセットを含むことができる。順方向パスの間、各フィルタは、入力ボリュームの幅および高さにわたって畳み込まれて、フィルタのエントリと入力との間のドット積を計算し、該フィルタの二次元活性化マップを作成する。結果として、ニューラルネットワーク１１４は、入力のある空間位置である特定のタイプの特徴を検出すると活性化する、フィルタを学習させることができる。深さ次元に沿って全てのフィルタの活性化マップを積み重ねることで、畳み込み層の全出力ボリュームが形成される。したがって、出力ボリュームの全てのエントリは、入力の小さい領域に注目し、同じ活性化マップのニューロンとパラメータを共有する、ニューロンの出力として解釈することもできる。畳み込み層では、ニューロンは、前の層の制限されたサブエリアから入力を受信することができる。一般的に、サブエリアは正方形形状のもの（例えば、サイズ５×５）である。ニューロンの入力エリアはその受容野と呼ばれる。そのため、全結合層では、受容野は前の層全体である。畳み込み層では、受容エリアは前の層全体よりも小さいものであり得る。

第１のニューラルネットワーク１１４は、（例えば、入力データ１１０に基づいて、オブジェクト、イベント、ワード、および／または他の特徴の確率を検出もしくは決定することによって）入力データ１１０を検出、分類、セグメント化、および／または翻訳するように訓練することができる。例えば、ニューラルネットワーク１１４の第１の入力層１１６は、入力データ１１０を受信し、入力データ１１０を処理してデータを第１の中間出力に変換し、第１の中間出力を第１の隠れ層１１８に伝達することができる。第１の隠れ層１１８は、第１の中間出力を受信し、第１の中間出力を処理して第１の中間出力を第２の中間出力に変換し、第２の中間出力を第２の隠れ層１１９に伝達することができる。第２の隠れ層１１９は、第２の中間出力を受信し、第２の中間出力を処理して第２の中間出力を第３の中間出力に変換し、第３の中間出力を出力層１２２に伝達することができる。出力層１２２は、第３の中間出力を受信し、第３の中間出力を処理して第３の中間出力を出力データ１１２に変換し、出力データ１１２を（例えば、場合によっては、ユーザに対するレンダリングのため、格納のためなど、後処理エンジンに）伝達することができる。出力データ１１２は、例として、オブジェクト検出データ、強化／翻訳／拡張されたデータ、推奨、分類、および／またはセグメント化されたデータを含むことができる。

再び図１Ａを参照すると、ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６を含むことができる。記憶デバイス１２６は、ＡＩアクセラレータ１０８と関連付けられた任意のタイプもしくは形態のデータを、格納、保持、または維持するように、設計または実装することができる。例えば、データは、ＡＩアクセラレータ１０８によって受信される入力データ１１０、および／または出力データ１１２（例えば、次のデバイスもしくは処理段階に出力される前）を含むことができる。データは、ニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階のいずれかに使用される、またはいずれかからの、中間データを含むことができる。データは、記憶デバイス１２６から読み取るかまたはアクセスすることができる、ニューラルネットワーク１１４のニューロンに入力される、また該ニューロンで処理する、１つもしくは複数のオペランドを含むことができる。例えば、データは、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。データは、記憶デバイス１２６に書き込み、またそこに格納することができる、ニューラルネットワーク１１４のニューロンからの出力データを含むことができる。例えば、データは、記憶デバイス１２６に転送するかもしくは書き込み、格納することができる、ニューラルネットワーク１１４の１つもしくは複数のニューロン（またはノード）および／または層のための、活性化データ、改良もしくは更新されたデータ（例えば、重み情報および／またはバイアス情報、活性化関数情報、および／または他のパラメータ１２８）を含むことができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は１つまたは複数のプロセッサ１２４を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する入力データを前処理するための、ならびに／あるいはニューラルネットワーク１１４またはＡＩアクセラレータ１０８のうち任意の１つもしくは複数に対する出力データを後処理するための、任意の論理、回路類、および／または処理構成要素（例えば、マイクロプロセッサ）を含むことができる。１つまたは複数のプロセッサ１２４は、ニューラルネットワーク１１４またはＡＩアクセラレータ１０８の１つもしくは複数の演算を構成、制御、および／または管理するための、論理、回路類、処理構成要素、および／または機能性を提供することができる。例えば、プロセッサ１２４は、ニューラルネットワーク１１４と関連付けられたデータまたは信号を受信して、（例えば、ニューラルネットワーク１１４の演算を実装する回路類に対するクロックゲート制御を介して）消費電力を制御または低減してもよい。別の例として、プロセッサ１２４は、（例えば、ＡＩアクセラレータ１０８の様々な構成要素における）別個の処理のため、（例えば、ＡＩアクセラレータ１０８の同じ構成要素における、異なる時間での）逐次処理のため、あるいは記憶デバイスの異なるメモリスライスに、または異なる記憶デバイスに格納するため、データを区画化および／または再配置してもよい。いくつかの実施形態では、プロセッサ１２４は、特定の重み、活性化関数、および／またはパラメータ情報の識別、選択、ならびに／あるいはニューラルネットワーク１１４のニューロンおよび／または層へのロードによって、特定の文脈に対して演算を行い、特定のタイプの処理を提供し、ならびに／あるいは特定のタイプの入力データをアドレスするように、ニューラルネットワーク１１４を構成することができる。

いくつかの実施形態では、ＡＩアクセラレータ１０８は、ディープラーニングおよび／またはＡＩワークロードを扱うかもしくは処理するように、設計および／または実装される。例えば、ＡＩアクセラレータ１０８は、人工ニューラルネットワーク、マシンビジョン、および機械学習を含む人工知能用途のため、ハードウェアアクセラレーションを提供することができる。ＡＩアクセラレータ１０８は、ロボティックス、物のインターネット、および他のデータ集約的またはセンサ駆動のタスクを扱う演算向けに構成することができる。ＡＩアクセラレータ１０８は、マルチコアまたは複数の処理要素（ＰＥ）設計を含んでもよく、人工現実（例えば、仮想、拡張、もしくは混合現実）システム、スマートフォン、タブレット、およびコンピュータなど、様々なタイプおよび形態のデバイスに組み込むことができる。ＡＩアクセラレータ１０８の特定の実施形態は、少なくとも１つのデジタル信号プロセッサ（ＤＳＰ）、コプロセッサ、マイクロプロセッサ、コンピュータシステム、プロセッサのヘテロジニアスコンピューティング構成、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／または特定用途向け集積回路（ＡＳＩＣ）を含むかあるいはそれらを使用して実装することができる。ＡＩアクセラレータ１０８は、トランジスタベース、半導体ベース、および／または量子コンピューティングベースのデバイスであることができる。

次に図１Ｂを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数の記憶デバイス１２６（例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイスなどのメモリ）、１つまたは複数のバッファ、複数の処理要素（ＰＥ）回路またはＰＥ回路のアレイ、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

ＡＩアクセラレータ１０８において実装されたニューラルネットワーク１１４（例えば、人工ニューラルネットワーク）では、ニューロンは、様々な形態を取ることができ、処理要素（ＰＥ）またはＰＥ回路と呼ぶことができる。ＰＥは接続されて、異なるパターンが異なる機能的目的に役立つ、特定のネットワークパターンまたはアレイとなる。人工ニューラルネットワークのＰＥは、（例えば、半導体の実現例では）電気的に動作し、アナログ、デジタル、またはハイブリッドのいずれかであってもよい。生体シナプスの作用に匹敵するために、ＰＥ間の接続に、適正なシステム出力を作成するように校正または「訓練」することができる、乗法的な重みを割り当てることができる。

ＰＥは、（例えば、ニューロンのマッカロック－ピッツモデルを表す）次式に関して定義することができる。
ζ＝Σ_ｉｗ_ｉｘ_ｉ（１）
ｙ＝σ（ζ）（２）
式中、ζは入力の重み付き合計（例えば、入力ベクトルおよびタップ重みベクトルの内積）であり、σ（ζ）は重み付き合計の関数である。重みおよび入力要素がベクトルｗおよびｘを形成する場合、重み付き合計ζは単純なドット積となる。
ζ＝ｗ・ｘ（３）

これは、活性化関数（例えば、閾値比較の場合）または伝達関数のどちらかと呼ばれることがある。いくつかの実施形態では、１つまたは複数のＰＥはドット積エンジンと呼ばれる場合がある。ニューラルネットワーク１１４に対する入力（例えば、入力データ１１０）ｘは、入力空間からのものであることができ、出力（例えば、出力データ１１２）は出力空間の一部である。いくつかのネットワークネットワークでは、出力空間Ｙは、｛０，１｝のように単純なものであってもよく、または複雑な多次元（例えば、複数チャネル）空間（例えば、畳み込みニューラルネットワークの場合）であってもよい。ニューラルネットワークは、入力空間の自由度ごとに１つの入力、および出力空間の自由度ごとに１つの出力を有する傾向がある。

再び図１Ｂを参照すると、ＰＥ１２０に対する入力ｘは、記憶デバイス１２６（例えば、ＳＲＡＭ）から読み取られる、入力ストリーム１３２の一部であることができる。入力ストリーム１３２は、ＰＥの１つの行（水平のバンクもしくはグループ）に方向付けることができ、ＰＥのうち１つもしくは複数にわたって共有するか、またはそれぞれのＰＥに対する入力としてのデータ部分（重なり合うもしくは重なり合わない部分）に区画化することができる。重みストリーム１３４（例えば、記憶デバイス１２６から読み取られる）における重み１３４（もしくは重み情報）は、ＰＥの列（垂直のバンクもしくはグループ）に方向付けるかまたは提供することができる。列のＰＥはそれぞれ、同じ重み１３４を共有するか、または対応する重み１３４を受信してもよい。標的のＰＥそれぞれに対する入力および／または重みは、標的のＰＥに（例えば、記憶デバイス１２６から）直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの行もしくは列に沿って）ルーティングすることができる。各ＰＥの出力は、ＰＥアレイの外に直接ルーティングすることができ、あるいは１つもしくは複数のＰＥを通して（例えば、ＰＥの列に沿って）ＰＥアレイを出るようにルーティングすることができる。ＰＥの各列の出力は、それぞれの列の加算器回路類において合算または加算し、ＰＥのそれぞれの列に対するバッファ１３０に提供することができる。バッファ１３０は、受信した出力を記憶デバイス１２６に提供、転送、ルーティング、書込み、および／または格納することができる。いくつかの実施形態では、記憶デバイス１２６に格納された出力（例えば、ニューラルネットワークの１つの層からの活性化データ）を、記憶デバイス１２６から検索するかまたは読み取り、後の時間における（ニューラルネットワークの後続層の）処理のため、ＰＥ１２０のアレイに対する入力として使用することができる。いくつかの実施形態では、記憶デバイス１２６に格納された出力を、ＡＩアクセラレータ１０８に対する出力データ１１２として、記憶デバイス１２６から検索するかまたは読み取ることができる。

次に図１Ｃを参照すると、ＡＩに関連する処理を実施するためのデバイスの例示の一実施形態が示される。概要では、デバイスは、例えば、図１Ａおよび図１Ｂに関連して上述した１つまたは複数の特徴を有する、ＡＩアクセラレータ１０８を含むかまたはそれに対応することができる。ＡＩアクセラレータ１０８は、１つまたは複数のＰＥ１２０、他の論理または回路類（例えば、加算器回路類）、ならびに／あるいは他の構造または構成（例えば、相互接続、データバス、クロック回路類、電力ネットワーク）を含むことができる。上述の要素または構成要素はそれぞれ、ハードウェア、または少なくともハードウェアとソフトウェアの組み合わせの形で実装される。ハードウェアは、例えば、回路要素（例えば、１つもしくは複数のトランジスタ、論理ゲート、レジスタ、メモリデバイス、抵抗素子、導電素子、容量素子、および／またはワイヤもしくは導電性コネクタ）を含むことができる。

いくつかの実施形態では、ＰＥ１２０は、１つもしくは複数の乗累算（ＭＡＣ）ユニットまたは回路１４０を含むことができる。１つまたは複数のＰＥは、場合によっては、ＭＡＣエンジンと呼ぶことができる。ＭＡＣユニットは、乗累算を実施するように構成される。ＭＡＣユニットは、乗算器回路、加算器回路、および／または累算器回路を含むことができる。乗累算は、２つの数字の積を計算し、その積を累算器に加える。ＭＡＣ演算は、累算器ａ、ならびに入力ｂおよびｃに関連して、次のように表すことができる。
ａ←ａ＋（ｂ×ｃ）（４）

いくつかの実施形態では、ＭＡＣユニット１４０は、組み合わせ論理に実装された乗算器とそれに続く加算器（例えば、組み合わせ論理を含むもの）、ならびに結果を格納する累算器レジスタ（例えば、順序および／または組み合わせ論理を含むもの）を含んでもよい。累算器レジスタの出力は、加算器の１つの入力にフィードバックすることができるので、各クロックサイクルにおいて、乗算器の出力をレジスタに加算することができる。

上述したように、ＭＡＣユニット１４０は、乗算および加算両方の機能を実施することができる。ＭＡＣユニット１４０は２つの段階で演算することができる。ＭＡＣユニット１４０は、最初に、第１の段階で所与の数（入力）の積を計算し、結果を第２の段階の演算（例えば、加算および／または累算）のために転送することができる。ｎビットのＭＡＣユニット１４０は、ｎビット乗算器、２ｎビット加算器、および２ｎビット累算器を含むことができる。

本明細書に記載する様々なシステムおよび／またはデバイスを、コンピューティングシステムに実装することができる。図１Ｄは、代表的なコンピューティングシステム１５０のブロック図を示している。いくつかの実施形態では、図１Ａのシステムは、コンピューティングシステム１５０の処理装置１５６の少なくとも一部を形成することができる。コンピューティングシステム１５０は、例えば、スマートフォン、他の移動電話、タブレットコンピュータ、ウェアラブルコンピューティングデバイス（例えば、スマートウォッチ、眼鏡、ヘッドマウントディスプレイ）、デスクトップコンピュータ、ラップトップコンピュータなどのデバイス（例えばコンシューマデバイス）として実装するか、あるいは分散型コンピューティングデバイスを実装することができる。コンピューティングシステム１５０は、ＶＲ、ＡＲ、ＭＲ体験を提供するために実装することができる。いくつかの実施形態では、コンピューティングシステム１５０は、プロセッサ１５６、記憶デバイス１５８、ネットワークインターフェース１５１、ユーザ入力デバイス１５２、およびユーザ出力デバイス１５４など、従来の専用またはカスタムのコンピュータ構成要素を含むことができる。

ネットワークインターフェース１５１は、（ローカル／リモート）サーバまたはバックエンドシステムのネットワークインターフェースも接続される、ローカル／ワイドエリアネットワーク（例えば、インターネット）に対する接続を提供することができる。ネットワークインターフェース１５１は、有線インターフェース（例えば、イーサネット）、ならびに／あるいはＷｉ－Ｆｉ、ブルートゥース、またはセルラーデータネットワーク規格（例えば、３Ｇ、４Ｇ、５Ｇ、６０ＧＨｚ、ＬＴＥなど）などの様々なＲＦデータ通信規格を実装する無線インターフェースを含むことができる。

ユーザ入力デバイス１５２は、ユーザがコンピューティングシステム１５０に信号を提供するのに用いることができる、任意のデバイス（または複数のデバイス）を含むことができ、コンピューティングシステム１５０は、特定のユーザ要求または情報を示すものとして信号を解釈することができる。ユーザ入力デバイス１５２は、キーボード、タッチパッド、タッチスクリーン、マウスもしくは他のポインティングデバイス、スクロールホイール、クリックホイール、ダイアル、ボタン、スイッチ、キーパッド、マイクロフォン、センサ（例えば、モーションセンサ、視線追跡センサなど）などのいずれかまたは全てを含むことができる。

ユーザ出力デバイス１５４は、コンピューティングシステム１５０がユーザに情報を提供するのに用いることができる、任意のデバイスを含むことができる。例えば、ユーザ出力デバイス１５４は、コンピューティングシステム１５０によって生成されるかまたは該システムに送達される画像を表示する、ディスプレイを含むことができる。ディスプレイは、例えば、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）を含む発光ダイオード（ＬＥＤ）、投影システム、陰極線管（ＣＲＴ）などの様々な画像生成技術を、サポートしている電子部品（例えば、デジタル・アナログもしくはアナログ・デジタル変換器、信号プロセッサなど）とともに組み込むことができる。入力および出力両方のデバイスとして機能する、タッチスクリーンなどのデバイスを使用することができる。出力デバイス１５４は、ディスプレイに加えてまたはディスプレイの代わりに提供することができる。例としては、インジケータ光、スピーカ、触覚「ディスプレイ」デバイス、プリンタなどが挙げられる。

いくつかの実現例としては、コンピュータプログラム命令をコンピュータ可読記憶媒体に格納する、マイクロプロセッサ、記憶装置、およびメモリなどの電子構成要素が挙げられる。本明細書に記載する特徴の多くは、コンピュータ可読記憶媒体として符号化されたプログラム命令のセットとして指定される、プロセスとして実現することができる。これらのプログラム命令は、１つまたは複数のプロセッサによって実行されると、プログラム命令に示されている様々な動作をプロセッサに実施させる。プログラム命令またはコンピュータコードの例としては、コンパイラによって作成されるものなどの機械コード、およびインタープリタを使用してコンピュータ、電子構成要素、またはマイクロプロセッサによって実行される、より高次のコードを含むファイルが挙げられる。好適なプログラミングを通して、プロセッサ１５６は、コンピューティングシステム１５０に対して、サーバまたはクライアントによって実施されるものとして本明細書に記載する機能性、またはメッセージ管理サービスと関連付けられた他の機能性のいずれかを含む、様々な機能性を提供することができる。

コンピューティングシステム１５０は例示であり、変形および修正が可能であることが認識されるであろう。本開示と関連して使用されるコンピュータシステムは、本明細書には具体的に記載しない他の能力を有することができる。更に、コンピューティングシステム１５０について、特定のブロックを参照して記載しているが、該ブロックは説明の便宜上定義されているものであり、構成部品の特定の物理的配置を示唆しようとするものではないことが理解されるべきである。例えば、異なるブロックを、同じ設備に、同じサーバラックに、または同じマザーボード上に配置することができる。更に、ブロックは必ずしも物理的に別個の構成要素に対応していなくてもよい。ブロックは、例えば、プロセッサをプログラミングするか、または適切な制御回路類を提供することによって、様々な動作を実施するように構成することができ、様々なブロックは、初期の構成がどのように得られるかに応じて再構成可能であってもなくてもよい。本開示の実現例は、回路類およびソフトウェアの任意の組み合わせを使用して実装される電子デバイスを含む、様々な装置で実現することができる。

セクションＢ．負および正の値に対する非対称スケーリングファクタをサポートする方法およびデバイス

本明細書の開示は、負および正の値に対する非対称スケーリングファクタに関するシステム、方法、およびデバイスの実施形態を含む。例えば、いくつかの実施形態では、乗累算器回路類（ＭＡＣ）において、正の値および負の値に対して非対称スケーリングファクタを提供する、１つもしくは複数のハードウェア構成要素または回路類を有する回路を設計することができる。ハードウェア構成要素または回路類は、乗算回路類、シフト回路類、比較器回路類、および／またはマルチプレクサを含むことができる。乗算回路類は、例えば活性化関数のニューラルネットワーク演算（例えば、畳み込みまたは乗算演算）に対する、重みおよび活性化値などの値（オペランドとも呼ばれる）を受信することができる。乗算回路類は、重み値を用いて活性化値を、例えばこれらの値をともに乗算することによって、スケーリングすることができる。乗算回路類は、値を乗算した結果をシフト回路類およびマルチプレクサに提供して、非対称スケーリングをサポートすることができる。シフト回路類は、乗算の結果を決定されたビット量分シフトして、結果を修正するかまたは更にスケーリングし、シフトされた（例えば、元の乗算結果に対して非対称にスケーリングされた）結果をマルチプレクサに提供することができる。比較器回路類は、少なくとも１つの値またはオペランド（例えば、ニューラルネットワークの１つの層に対する重み値、もしくはニューラルネットワークの前の層からの活性化値）の符号、あるいは１つの層に対する演算もしくは活性化関数の出力の予測符号を決定し、マルチプレクサの選択信号として使用される符号指示信号を生成することができる。例えば、正の値に応答して、回路は、マルチプレクサを介して、活性化関数にしたがって第１のスケーリングファクタに基づくものとして、シフト回路類からのシフト結果を出力することができる。第１のスケーリングファクタは、活性化値（場合によっては、活性化と呼ばれる）の絶対値を２のＮ乗（Ｎは、シフト回路類によって実施されるビットシフトの数）で乗算したものを指すことができる。負の値に応答して、回路は、マルチプレクサを介して、活性化関数にしたがって第２のスケーリングファクタに基づくものとして、乗算回路類の結果（例えば、乗算の結果）を出力することができる。第２のスケーリングファクタは、例えば、活性化値の絶対値を指すことができる。したがって、回路は、少なくとも１つの値またはオペランドの符号（あるいは乗算演算または活性化関数の出力）に応答して、正の値対負の値に対して異なるスケーリングファクタを提供することができる。

回路によって生成、提供、選択、および／または採用されたスケーリングファクタは、異なるタイプの誤り訂正の間のトレードオフもしくはバランスを含むかまたは表すことができる。例えば、回路によって適用されるスケーリングファクタは、量子化誤差および切り出し誤差の組み合わせを低減するかもしくは最小限に抑えるように、選択または決定することができる。しかしながら、量子化誤差を補償または訂正する場合、スケーリングファクタが切り出し誤差に悪影響を与える場合があり、切り出し誤差を補償または訂正する場合、スケーリングファクタが量子化誤差に悪影響を与える場合がある。例えば、固定小数点表示の場合、より大きいスケーリングファクタは、より大きい量子化誤差（例えば、０からスケーリングファクタまでのビット数は固定のため）を代償に、より小さい切り出し誤差を提供するかまたはもたらすことができる（例えば、より大きい数を表すことができるため）。入力がスカラー数で乗算される、ニューラルネットワークのノードにおける活性化の場合、数字は負の値なので、対応する出力は、正の値対負の数字の場合とは異なる傾斜を有する場合がある。したがって、正の値に対する１つのタイプの誤差を補償または訂正する場合、負の値に対する誤差係数が増加する場合があり、負の値に対する１つのタイプの誤差を補償または訂正する場合、正の値に対する誤差係数が増加する場合があるので、負の値または正の値のどちらかが損なわれる可能性がある。例えば、スケーリングファクタが、正の要素に対する量子化および切り出し誤差の組み合わせを最小限に抑えるように選択された場合、同じスケーリングファクタを採用することによって生じる不必要に大きいダイナミックレンジにより、負の要素に対する誤差の合計は大きくなり得る。

本明細書に記載するシステム、方法、およびデバイスは、例えば、機械学習用途などであるがそれに限定されない用途に対する量子化誤差および切り出し誤差の組み合わせを低減するかまたは最小限に抑える、負および正の値に対する非対称スケーリングファクタを提供することができる。正の値および負の値は、量子化誤差および切り出し誤差の組み合わせを低減するかまたは最小限に抑え、ニューラルネットワークの演算、活性化関数、および／またはプロセスによって計算もしくは生成される、負の値または正の値どちらかを損なわないように、異なるファクタまたは演算（例えば、乗算、ビットシフト、もしくは両方）によってスケーリングすることができる。回路は、ハードウェアのオーバーヘッドを低減するかまたは最小限に抑えて、非対称スケーリングファクタを提供するように、ＭＡＣユニットまたはエンジンにおいて構成することができる。例えば、回路は、オペランド（例えば、重み値および活性化値）を受信し、負および正の値に対する非対称スケーリングファクタを提供する出力を生成する、乗算器回路類、シフト回路類、比較器要素、および／またはマルチプレクサ要素を含むことができる。例えば、乗算器回路類は、第１の値および第２の値（例えば、重み値、活性化値）を乗算することができる。乗算器回路類は、乗算結果をシフト回路類およびマルチプレクサに提供することができる。シフト回路類は、乗算結果を所定のビット数分シフトすることができ、シフト結果をマルチプレクサに提供することができる。比較器は、値のうち少なくとも１つの符号（例えば、正または負）を決定することができ、符号指示をマルチプレクサに提供することができる。したがって、マルチプレクサは、乗算結果、シフト結果、および少なくとも１つの値の符号指示を受信することができる。いくつかの実施形態では、値の符号に応答して、マルチプレクサは、乗算結果またはシフト結果を出力することができる。例えば、正の符号に応答して、マルチプレクサは、正のスケーリングファクタ（例えば、重み値を２のＮ乗で乗算した値（Ｎは、シフト回路類によって実施されるビットシフトの数））で乗算またはスケーリングした活性化値を表すシフト結果を出力することができ、また負の符号に応答して、マルチプレクサは、負のスケーリングファクタ（例えば、重み値の値）で乗算またはスケーリングした活性化値を表す乗算結果を出力することができる。いくつかの実施形態では、正および負のスケーリングファクタは予め定めることができる。例えば、いくつかの実施形態では、正および負のスケーリングファクタは、２のべき乗の関係を有するように設定することができる。一例として、正のスケーリングファクタはｋ（２^Ｎ）であることができ、負のスケーリングファクタはｋであることができ、ｋは、任意の値（例えば、整数、小数、またはその他）であることができる。したがって、回路は、正の値に対する第１のスケーリングファクタと、負の値に対する第２の異なるスケーリングファクタとを提供することができる。

次に図２Ａを参照すると、負および正の値に対する非対称スケーリングファクタを提供する、システム２００の一実施形態が示されている。概要では、システム２００は、乗算回路類２０４、シフト回路類２０６、比較器回路類２０８、および／またはマルチプレクサ２２０を有する、回路２０２を含むことができる。回路２０２は、回路に提供される少なくとも１つの値の符号に部分的に基づいて、正の値および負の値に対する非対称スケーリングファクタを提供することができる。

回路２０２は、図１Ａに関して上述したプロセッサ１２４などであるがそれに限定されない、プロセッサを含むことができる。いくつかの実施形態では、回路２０２は、図１Ｂに関して上述したＡＩアクセラレータ１０８の構成要素または部分であることができる。いくつかの実施形態では、回路２０２は、図１ＢのＰＥ１２０など、ＡＩアクセラレータシステムの処理要素（ＰＥ）の構成要素または部分であることができる。回路２０２は、ＭＡＣユニット１４０（例えば、図１Ｃに関連して記載したようなもの）であるかまたはそれを含むことができる。回路２０２は、ＡＩに関連する処理を実施するように構成することができる。例えば、回路２０２は、図１ＡのＡＩアクセラレータ１０８のニューラルネットワーク１１４などの、ニューラルネットワークを構成、調整、訓練、および／または活性化するのに使用される、出力データを提供するように構成することができる。いくつかの実施形態では、回路２０２は、図１Ｄに関して上述したコンピューティングシステム１５０の構成要素または部分であることができる。回路２０２はメモリを含むことができる。例えば、回路２０２は、１つまたは複数のプロセッサと結合されたメモリを含むことができる。メモリは、一例として、スタティックランダムアクセスメモリ（ＳＲＡＭ）を含むことができる。いくつかの実施形態では、メモリは、図１Ａ～図１Ｂの記憶デバイス１２６または図１Ｄの記憶装置１５８を含むか、それと同じであるか、または実質的に同様であることができる。

乗算回路類２０４は、ハードウェア、またはハードウェアとソフトウェアの組み合わせを含むか、あるいはそれらの形で実装することができる。乗算回路類２０４はＭＡＣユニット１４０の乗算器に対応することができる。いくつかの実施形態では、乗算回路類２０４は、少なくとも２つの値（例えば、２進数の形態もしくは他の形態）を乗算する、乗算器または電子回路を含むことができる。乗算回路類２０４は、ベクトルの（例えば、行列の）ドット積を取るかまたは作成するか、あるいは少なくとも２つの行列（例えば、重み行列、活性化行列）に対してドット積の合計を実施する、電子回路を含むことができる。ドット積は、オペランド（例えば、ベクトル、行列、および／または他の入力もしくは値を含むことができる）に対するドット積演算の実施の結果または出力を指すことができる。乗算回路類２０４は、例えば、入力ストリーム、重みストリーム、および／または回路２０２に対する他の形態の入力から、２つの値２１０を受信するように構成することができ、それぞれの値２１０を乗算して乗算結果２０５を生成することができる。乗算結果２０５は、例えば、少なくとも２つの値の積またはベクトルのドット積を含むか、あるいはそれに対応することができる。例えば、乗算回路類２０４は、活性化値２１０を重み値２１０で乗算することによって、重み値２１０を用いて活性化値２１０をスケーリングすることができる。乗算回路類２０４は、乗算結果２０５をシフト回路類２０６およびマルチプレクサ２２０に提供して、非対称スケーリングをサポートすることができる。

シフト回路類２０６は、ハードウェア、またはハードウェアとソフトウェアの組み合わせを含むか、あるいはそれらの形で実装することができる。シフト回路類２０６は、乗算結果２０５の１つまたは複数のビット２１２をシフト、スケーリング、増加、減少、または別の形で修正してシフト結果２０７を生成する、電子回路類を含むことができる。シフト回路類２０６は、乗算結果２０５の１つまたは複数のビットを第１もしくは第２の方向でシフトし、シフト方向および／またはシフトの決定されたビット数２１２に部分的に基づいて、乗算結果２０５をスケーリング（例えば、増加、減少）する、ビットシフト演算を実現するように構成することができる。シフト回路類２０６は、決定されたビット数２１２によって乗算結果２０５をスケーリングして、乗算結果２０５に対する非対称スケーリングを提供することができる。例えば、シフト回路類２０６は、シフトファクタまたはスケールファクタに対応する決定されたビット数２１２の分、乗算結果をシフトすることができる。決定されたビット数２１２は１を超える整数であることができる。一実施形態では、一例として、（例えば、スケールファクタ２^２＝４を提供するかまたはそれに寄与するため）決定されたビット数２１２は２に等しいものであり得る。いくつかの実施形態では、決定されたビット数２１２は、図１Ａのニューラルネットワーク１１４などであるがそれに限定されない、ニューラルネットワークの第１の層に対する活性化関数のスケーリングファクタの一部を形成する、２進数の指数に等しいスケーリング量に翻訳する。いくつかの実施形態では、活性化関数は、漏れのある正規化線形ユニット（ＲｅＬｕ）関数を含むことができる。シフト回路類２０６は、乗算回路類２０４からの乗算結果２０５を決定されたビット数２１２の分シフトして、シフト結果２０７を生成するように構成することができる。シフト結果２０７は、乗算結果２０５を更にスケーリングしたものに対応することができる。シフト結果２０７は、図１Ａのニューラルネットワーク１１４などであるがそれに限定されない、ニューラルネットワークの少なくとも１つの層に対する活性化関数（例えば、ＲｅＬｕ関数）の一部である、２進数の指数を含むスケーリングファクタを組み込むことができる。

比較器回路類２０８は、ハードウェア、またはハードウェアとソフトウェアの組み合わせを含むか、あるいはそれらの形で実装することができる。いくつかの実施形態では、比較器回路類２０８は、少なくとも１つの値２１０（第１の入力として）を基準値（第２の入力として）と比較し、どちらの入力の方が大きいかを示す符号指示信号２０９を生成するように構成された、比較器または電子回路を含むことができる。例えば、比較器回路類２０８は、第１の値２１０ａを基準信号と比較して、第１の値２１０ａの符号を、または第１の値２１０ａが正もしくは負のどちらかを決定するように構成することができる。比較器回路類２０８は、少なくとも１つの値２１０の符号ビットまたは符号を基準値と比較し、それぞれの値２１０ａが正もしくは負のどちらであるかを示す符号指示信号２０９を生成するように構成された、比較器または電子回路を含むことができる。本明細書で言及するように、正または負であるものとして言及される値２１０の符号ビットは、値２１０がそれぞれ正もしくは負である（またはその符号を有する）こと、ならびに／あるいは符号ビットが、値２１０がそれぞれ正もしくは負である（またはその符号を有する）ことを示す値を有することを意味する。

マルチプレクサ２２０は、ハードウェア、またはハードウェアとソフトウェアの組み合わせを含むか、あるいはそれらの形で実装することができる。マルチプレクサ２２０は、複数の入力を含み、それぞれの入力の間で選択し、選択された入力を出力ラインに転送するように構成することができる。マルチプレクサの出力ラインは、回路２０２の出力２２２と同じであるかまたはそれに対応することができる。マルチプレクサ２２０は、選択信号または比較器回路類２０８から受信した符号指示信号２０９に部分的に基づいて、入力の間で選択することができる。例えば、マルチプレクサ２２０は、乗算結果２０５を乗算回路類２０４から受信するように構成された入力と、シフト結果２０７をシフト回路類２０６から受信するように構成された入力と、符号指示信号２０９を比較器回路類２０８から受信するように構成された入力とを含むことができる。マルチプレクサ２２０は、符号指示信号２０９に部分的に基づいて、乗算結果２０５またはシフト結果２０７を選択することができる。いくつかの実施形態では、マルチプレクサ２２０は、符号指示信号２０９、および値２１０が正または負のどちらであるかに少なくとも部分的に基づいて、乗算結果２０５もしくはシフト結果２０７に対応するかまたはそれに等しい出力２２２を生成することができる。

いくつかの実施形態では、回路２０２は、累算器回路類を有する乗累算器（ＭＡＣ）回路類を含むことができる。例えば、回路２０２は、図１Ｃに関して上述した１つまたは複数のＭＡＣユニット１４０を含むことができる。回路２０２は、出力２２２をＭＡＣユニット１４０の加算器および／または累算器に提供することができ、そこで出力２２２を処理することができる。マルチプレクサ２２０の少なくとも１つの出力は、回路２０２の出力２２２をＭＡＣユニット１４０の加算器および／または累算器に提供することができる。

本明細書に記載するような値２１０は、ＡＩに関連する処理のためにニューラルネットワークで使用される、重み値または活性化値を含むことができる。例えば、値２１０は、図１Ａのニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階、ノード、および／または層のいずれかで使用される、あるいはそこからの中間データなど、本明細書に記載する任意の形態のデータを含むことができる。値２１０は、例えば、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。例えば、値２１０は、図１Ｂに関して上述した入力ストリーム１３２などであるがそれに限定されない、入力ストリームからの値またはデータを含むことができる。値２１０は、２つのベクトル（例えば、重み行列のベクトル、活性化行列のベクトル）のカーネルまたはドット積を含むことができる。いくつかの実施形態では、値２１０は、重み値、重みのスケーリングファクタ、重み行列、または重みストリームによって提供される他の任意の重み情報を含む。例えば、値２１０は、図１Ｂに関して上述した重み１３４など、ニューラルネットワークの第１の層に対する重みを含むことができる。値は、活性化値、活性化のスケーリングファクタ、活性化行列、または他の任意の活性化情報を含むことができる。

次に図２Ｂを参照すると、漏れのある正規化線形ユニット（ＲｅＬｕ）活性化関数のグラフ２４０の一実施形態が提供される。本明細書に記載する回路２０２は、漏れのあるＲｅＬｕ活性化関数を含む非対称スケーリングファクタを提供することができる。グラフ２４０は、一例として、畳み込みまたはドット積演算の結果を示すことができる。例示的な一実施形態では、グラフ２４０は次式の畳み込み演算（Ｃ）によって表すことができる。
Ｃ＝（Ｗ_{ｓｃａｌｉｎｇ}×Ｗ_ｉｎｔ）×（Ａ_{ｓｃａｌｉｎｇ}×Ａ_ｉｎｔ）＝（Ｗ_{ｓｃａｌｉｎｇ}×Ａ_{ｓｃａｌｉｎｇ}）×（Ａ_{ｓｃａｌｉｎｇ}×Ａ_ｉｎｔ）（５）

式中、Ｃは畳み込み演算の出力を表し、Ｗ_{ｓｃａｌｉｎｇ}は重みのスカラースケーリングファクタを表し、Ｗ_ｉｎｔは重み値の行列の整数表示を表し、Ａ_{ｓｃａｌｉｎｇ}は活性化のスカラースケーリングファクタを表し、Ａ_ｉｎｔは活性化値の行列の整数表示を表す。重みのスケーリングファクタは、それが表すことができる重みの上限を決定するかまたは表すことができる。例えば、重みのスケーリングファクタが１に等しく、８ビットの線形量子化が仮定される場合、最大重み出力は１×１２７＝１２７に等しいものであり得る。活性化のスケーリングファクタは類似の結果を提供することができる。グラフ２４０に示すように、（活性化関数の出力の）正の値２４２は負の値２４４とは異なる傾斜を有することができる。回路２０２は、正の値２４２対負の値２４４に対して異なるスケーリングファクタを組み込んだ、出力２２２を生成することができる。いくつかの実施形態では、正の値２４２対負の値２４４に提供されるスケーリングファクタの差は、２のべき乗の関係を有することができる。例えば、正の値２４２に対する重みのスカラースケーリングファクタ（Ｗ_{ｓｃａｌｉｎｇ}）は、負の値２４４に対する重みのスカラースケーリングファクタ（Ｗ_{ｓｃａｌｉｎｇ}）の４倍であることができる。本明細書に記載する回路２０２は、正の値２４２に対する第１のスケーリングファクタと、負の値２４４に対する第２の異なるスケーリングファクタとを提供することができる。一実施形態では、ニューラルネットワークの現在のまたは特定の層に対するドット積を合計する間、（前の層からの）第１の値２１０ａまたは活性化値が例えば、（対応する活性化関数出力が正の値２４２と予測されるように）正の値であるものと決定された場合、回路２０２によって生成される出力２２２を２ビットシフトすることができる。マルチプレクサ２２０は、第１の値２１０ａまたは活性化値が正の値２４２であると比較器回路類２０８が決定するのに応答して、シフト結果２０７を回路２０２の出力２２２に提供することができる。出力２２２は、ニューラルネットワークの少なくとも１つの層の活性化関数に対する量子化誤差および切り出し誤差の組み合わせを低減するかまたは最小限に抑えるように、スケーリングおよび／または生成することができる。

本開示は、活性化関数の特定の活性化値および／または出力に関する正の値に対するスカラースケーリングファクタが、負の値に対するスケーリングファクタよりも大きいものであり得ることについて考察することができる。例えば、他のいくつかの活性化値、カーネル、および／または活性化関数に関して、逆もまた真であり得る。例えば、いくつかのシナリオでは、活性化関数のいくつかの活性化値および／または出力に関する負の値に対するスカラースケーリングファクタは、正の値に対するスケーリングファクタよりも大きいものであり得る。

次に図２Ｃを参照すると、正および負の値に対する非対称スケーリングファクタを提供する方法２５０が提供される。概要では、方法２５０は、回路を確立すること（２５２）と、第１の値を受信すること（２５４）と、第２の値を受信すること（２５６）と、値を乗算すること（２５８）と、乗算結果をシフトすること（２６０）と、値の符号を決定すること（２６２）と、出力を生成すること（２６４）とを含むことができる。

演算２５２で、いくつかの実施形態では、乗算回路類２０４、シフト回路類２０６、比較器回路類２０８、および／またはマルチプレクサ２２０を有するように、回路２０２を確立、提供、および／または構成することができる。乗算回路類２０４は、複数の値２１０を受信し、乗算結果２０５を生成する、乗算回路類または回路構成要素を含むことができる。例えば、乗算回路類２０４は複数の入力を含むことができ、各入力は少なくとも１つの値２１０を受信するように構成される。いくつかの実施形態では、乗算結果２０５は、例えば、ドット積または畳み込み出力を含むことができる。乗算回路類２０４は、乗算結果２０５をシフト回路類２０６およびマルチプレクサ２２０に送信するように構成することができる。例えば、乗算回路類２０４は１つまたは複数の出力を含むことができ、１つまたは複数の出力は、乗算結果２０５を、シフト回路類２０６の少なくとも１つの入力およびマルチプレクサ２２０の少なくとも１つの入力に提供するように構成される。シフト回路類２０６は、値を決定されたもしくは規定のビット数分修正またはシフトし、シフト結果２０７を生成する、ならびに／あるいは値（例えば、乗算結果２０５）を決定されたもしくは規定のファクタでスケーリングしてシフト結果２０７を生成する、シフト回路、ビット単位演算子、順序論理、および／または回路構成要素を含むことができる。シフト回路類２０６は、シフト結果２０７をマルチプレクサに提供するように構成することができる。例えば、シフト回路類２０６は、シフト結果２０７をマルチプレクサ２２０の少なくとも１つの入力に提供するように構成された、少なくとも１つの出力を含むことができる。

比較器回路類２０８は、１つまたは複数の値２１０を受信するように構成することができ、値２１０の性質を決定することができる。例えば、比較器回路類２０８は、第１の値２１０ａおよび／または第２の値２１０ｂを受信するように構成された、少なくとも１つの入力を含むことができる。比較器回路類２０８は、値２１０の符号または符号ビットが正もしくは負のどちらであるかを決定する比較器または回路構成要素を含み、それぞれの値２１０の符号を示す符号指示信号２０９を生成することができる。比較器回路類２０８は、符号指示信号をマルチプレクサに提供するように構成することができる。例えば、比較器回路類２０８は、符号指示信号２０９をマルチプレクサ２２０の少なくとも１つの入力に提供するように構成された、少なくとも１つの出力を含むことができる。マルチプレクサ２２０は、１つまたは複数の入力（例えば、符号指示信号２０９、乗算結果２０５、シフト結果）を受信し、回路２０２に対する出力２２２を提供する、１つまたは複数の回路構成要素を含むことができる。例えば、マルチプレクサ２２０は、符号指示信号２０９に部分的に基づいて、乗算結果２０５とシフト結果２０７との間で選択することができ、符号指示信号２０９に応答して、乗算結果２０５またはシフト結果２０７のどちらかを出力することができる。マルチプレクサ２２０は、少なくとも１つの値２１０またはオペランドの符号（あるいは乗算演算または活性化関数の出力）に応答して、正の値対負の値に対して異なるスケーリングファクタを提供することができる。例えば、シフト回路類２０６は第１のスケーリングファクタを提供することができ、乗算回路類２０４は第２のスケーリングファクタを提供することができる。マルチプレクサ２２０は、符号指示信号２０９に部分的に基づいて、シフト回路類２０６からのシフト結果２０７と乗算回路類２０４からの乗算結果２０５との間で選択して、正の値２１０対負の値２１０に対して異なるスケーリングファクタを提供することができる。

演算２５４で、第１の値２１０ａを受信することができる。乗算回路類２０４は、第１の値２１０ａを少なくとも１つのストリームから受信するか、または記憶デバイス（例えば、図１Ｂの記憶デバイス１２６）から読み取ることができる。第１の値２１０ａは、図１Ａのニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階のいずれかに使用される、またはいずれかからの中間データなど、本明細書に記載する任意の形態のデータを含むことができる。データは、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。例えば、第１の値２１０ａは、重みストリームによって提供される、重み値、重みのスケーリングファクタ、または重み行列を含むことができる。第１の値２１０ａは、ニューラルネットワークの現在または特定の層に対する重みを含むことができる。例えば、第１の値２１０ａは、図１Ｂに関して上述した重み１３４を含むことができる。第１の値２１０ａは、活性化値、活性化のスケーリングファクタ、または活性化行列を含むことができる。第１の値２１０ａは、ニューラルネットワークの第１のまたは前の層（例えば、現在のもしくは特定の層の前の層）に対する活性化値を含むことができる。いくつかの実施形態では、第１の値２１０ａは、入力データ、カーネル情報、またはバイアス情報を含むことができる。例えば、第１の値２１０ａは、図１Ｂに関して上述した入力ストリーム１３２などであるがそれに限定されない、入力ストリームから受信することができる。

演算２５６で、第２の値２１０ｂを受信することができる。第２の値２１０ｂは、図１Ａのニューラルネットワーク１１４および／またはプロセッサ１２４の処理段階のいずれかに使用される、またはいずれかからの中間データなど、本明細書に記載する任意の形態のデータを含むことができる。データは、記憶デバイス１２６に格納し、そこから読み取るかまたはアクセスすることができる、入力データ、重み情報、および／またはバイアス情報、活性化関数情報、ならびに／あるいは１つもしくは複数のニューロン（またはノード）のためのパラメータ１２８、および／またはニューラルネットワーク１１４の層を含むことができる。乗算回路類２０４は、第１の値２１０ａとは異なる第２の値２１０ｂを受信することができる。例えば、第２の値２１０ｂは、第１の値２１０と比較して異なるタイプの値を含むことができる。いくつかの実施形態では、第１の値２１０ａが、重み値、重みのスケーリングファクタ、重み行列、バイアス情報、またはカーネル情報を含む場合、第２の値２１０ｂは、活性化値、活性化のスケーリングファクタ、または活性化行列を含むことができる。いくつかの実施形態では、第１の値２１０ａが、活性化値、活性化のスケーリングファクタ、または活性化行列を含む場合、第２の値２１０ｂは、重み値、重みのスケーリングファクタ、重み、バイアス情報、またはカーネル情報を含むことができる。いくつかの実施形態では、乗算回路類２０４は、第２の値２１０ｂを少なくとも１つのストリームから受信するか、または記憶デバイス（例えば、図１Ｂの記憶デバイス１２６）から読み取ることができる。例えば、第２の値２１０ｂは、重みストリームによって提供される、重み値、重みのスケーリングファクタ、または重み行列を含むことができる。第２の値２１０ｂは、ニューラルネットワークの第１の層に対する重みを含むことができる。例えば、第２の値２１０ｂは、図１Ｂに関して上述した重み１３４を含むことができる。第２の値２１０ｂは、活性化値、活性化のスケーリングファクタ、または活性化行列を含むことができる。いくつかの実施形態では、第２の値２１０ｂは、入力データ、カーネル情報、またはバイアス情報を含むことができる。例えば、第２の値２１０ｂは、図１Ｂに関して上述した入力ストリーム１３２などであるがそれに限定されない、入力ストリームから受信することができる。

演算２５８で、値２１０ａ、２１０ｂを乗算することができる。乗算回路類２０４は、ニューラルネットワークに対する計算において、第１の値２１０ａおよび第２の値２１０ｂを乗算することができる。乗算回路類２０４は、第２の値２１０ｂによる第１の値２１０ａの乗算を実施して、乗算結果２０５を生成するように構成することができる。いくつかの実施形態では、第１の値２１０ａは活性化値を含むことができ、第２の値２１０ｂは重み値を含むことができる。乗算回路類２０４は、活性化値２１０を重み値２１０で乗算することによって、活性化値２１０をスケーリングすることができる。乗算結果２０５は、第１の値２１０ａおよび第２の値２１０ｂの積を含むことができる。乗算結果２０５は、活性化値２１０を重み値２１０で乗算またはスケーリングした積を含むことができる。いくつかの実施形態では、第１および第２の値２１０ａ、２１０ｂは、値の行列を含むかまたはそれに対応することができる。いくつかの実施形態では、第１および第２の値２１０ａ、２１０ｂは、行列の整数表示を含むかまたはそれに対応することができる。乗算回路類２０４は、第１の値２１０ａおよび第２の値２１０ｂのドット積を実施するかまたは取って、乗算結果２０５を生成することができる。いくつかの実施形態では、乗算回路類２０４は、第１の値２１０ａおよび第２の値２１０ｂのドット積の合計を実施して、乗算結果２０５を生成することができる。乗算回路類２０４は、乗算結果２０５をシフト回路類２０６の少なくとも１つの入力に提供するように構成された、少なくとも１つの出力を含むことができる。いくつかの実施形態では、第１の値２１０ａが、ニューラルネットワークの第１のまたは前の層（例えば、現在のもしくは特定の層の前の層）に対する活性化値を含む場合、乗算回路類２０４の出力は、ニューラルネットワークの第１のまたは前の層の活性化に少なくとも部分的に基づくか、あるいはそれに対応することができる。乗算回路類２０４は、乗算結果２０５をマルチプレクサ２２０の少なくとも１つの入力に提供するように構成された、少なくとも１つの出力を含むことができる。

演算２６０で、１つまたは複数の実施形態では、乗算結果２０５をシフトすることができる。シフト回路類２０６は、乗算の結果２０５（例えば、ビット形態）を決定されたビット数２１２（またはビット位置）の分シフトすることができる。いくつかの実施形態では、シフト回路類２０６は、乗算結果２０５を受信することができ、乗算結果２０５を決定されたビット数２１２の分シフトすることによって、乗算結果２０５を修正するかまたは更にスケーリングすることができる。決定されたビット数２１２はＭによって表すことができ、Ｍは整数１（または正もしくは負の他の任意の整数値）であることができる。一実施形態では、決定されたビット数２１２は２に等しいものであることができ、したがってＭは２に等しいものであり得る。いくつかの実施形態では、決定されたビット数２１２は、ニューラルネットワークの第１の（または前の）層に対する活性化関数における、スケーリングファクタ（例えば、２進数の指数）に翻訳または寄与することができる。活性化関数は、漏れのある正規化線形ユニット（ＲｅＬｕ）関数を含むことができるがそれに限定されない。ビット２１２のシフトは、シフトの方向および／または所定のビット数２１２に部分的に基づいて、乗算結果２０５をスケーリングまたは修正することができる。例えば、シフト回路類２０６は、乗算結果２０５のビットを第１の方向（例えば、左方向＜＜）にＭビット分シフトして、乗算結果２０５をスケーリングする（例えば、結果を２^Ｍで乗算する）か、あるいは乗算結果２０５のビットを第２の方向（例えば、右方向＞＞）にＭビット分シフトして、乗算結果２０５をスケーリングする（例えば、結果を２^Ｍで除算する）ことができる。いくつかの実施形態では、シフト回路類２０６は、乗算結果２０５を左方向に２ビット分シフトするかまたは更にスケーリングして、乗算結果２０５を４でスケーリングし、シフト結果２０７を生成することができる。シフト回路類２０６は、シフト結果２０７をマルチプレクサ２２０の少なくとも１つの入力に提供するように構成された、少なくとも１つの出力を含むことができる。

演算２６２で、いくつかの実施形態では、値２１０の符号を決定することができる。回路２０２の比較器回路類２０８は、第１の値２１０ａの符号ビットまたは値／符号が負または正のどちらであるかを決定することができる。いくつかの実施形態では、回路２０２の比較器回路類２０８は、第２の値２１０ｂの符号ビットまたは値／符号が負または正のどちらであるかを決定することができる。回路２０２の比較器回路類２０８は、演算または活性化関数の出力の予測符号／値が負または正のどちらであるかを決定することができる。第１の値２１０ａの符号ビットは、第１の値２１０ａが正または負であることを示すことができる。第２の値２１０ｂの符号ビットは、第２の値２１０ｂが正または負であることを示すことができる。比較器回路類２０８は、基準信号を第１の値２１０ａの符号ビットまたは第２の値２１０ｂの符号ビットと比較することができる。いくつかの実施形態では、基準信号はゼロ（または他の）値を含むことができ、比較器回路類２０８は、第１の値２１０ａまたは第２の値２１０ｂを基準信号と比較して、それぞれの値２１０が（例えば、基準信号に対して）正または負のどちらであるかを決定することができる。いくつかの実施形態では、基準信号はゼロビット値（例えば、０）を含むことができ、比較器回路類２０８は、第１の値２１０ａの符号ビットまたは第２の値２１０の符号ビットをゼロ基準信号と比較して、それぞれの値２１０が正または負のどちらであるかを決定することができる。例えば、第１の値２１０ａまたは第２の値２１０ｂがゼロ基準信号よりも大きい場合、比較器回路類２０８は、正の値の指示を出力することができる。第１の値２１０ａまたは第２の値２１０ｂがゼロ基準信号以下である場合、比較器回路類２０８は、負の値の指示を出力することができる。

比較器回路類２０８は、それぞれの値２１０が正または負のどちらであるかを示す符号指示信号２０９を生成することができる。例えば、比較器回路類２０８は、第１の値２１０ａが正または負のどちらであるかを示す符号指示信号２０９を生成することができる。いくつかの実施形態では、比較器回路類２０８は、第２の値２１０ｂが正または負のどちらであるかを示す符号指示信号２０９を生成することができる。比較器回路類２０８は、符号指示信号２９０をマルチプレクサ２２０の少なくとも１つの入力に提供するように構成された、少なくとも１つの出力を含むことができる。

演算２６４で、いくつかの実施形態では、出力信号２２２を生成することができる。いくつかの実施形態では、回路２０２は、第１の値２１０ａの符号ビットが負の場合は乗算の結果２０５を、第１の値２１０ａの符号ビットが正の場合はシフトの結果２０７を出力することができる。回路２０２は、少なくとも１つの値２１０の符号に部分的に基づいて、複数の入力の間で選択する、マルチプレクサ２２０を含むことができる。マルチプレクサ２２０は、複数の入力と少なくとも１つの出力とを含むことができ、セレクタ入力に部分的に基づいて、少なくとも１つの入力に提供された値をそのそれぞれの出力に選択的に提供することができる。例えば、マルチプレクサ２２０は、乗算結果２０５を乗算回路類２０４から、シフト結果２０７をシフト回路類２０６から、また符号指示信号２０９を比較器回路類２０８から受信することができる。回路２０２は、マルチプレクサ２２０を介して、第１の値２１０ａの符号ビットに基づいて、乗算の結果２０５およびシフトの結果２０７を出力することができる。

回路２０２は、マルチプレクサ２２０を使用して、少なくとも１つの値２１０またはオペランドの符号（あるいは乗算演算または活性化関数の出力）に応答して、正の値対負の値に対して異なるスケーリングファクタを提供することができる。いくつかの実施形態では、符号指示信号２０９が正の値を示すのに応答して、マルチプレクサ２２０は、活性化関数にしたがって第１のスケーリングファクタに基づくものとして、シフト結果２０７をシフト回路類２０６から出力することができる。第１のスケーリングファクタは、重み値２１０の絶対値を２のＮ乗（Ｎは、シフト回路類２０６によって実施されるビットシフトの数）で乗算したものを指すことができる。マルチプレクサ２２０は、乗算結果２０５に対してスケーリングされた第１のスケーリング出力２２２として、シフト結果２０７を回路２０２の出力２２２に提供することができる。いくつかの実施形態では、符号指示信号２０９が負の値を示すのに応答して、回路２０２は、活性化関数にしたがって第２のスケーリングファクタに基づくものとして、乗算回路類２０４の結果２０５（例えば、乗算の結果）を出力する。第２のスケーリングファクタは、例えば、重み値２１０の絶対値を指すことができる。マルチプレクサ２２０は、シフト結果２０７に対してスケーリングされた第２のスケーリング出力２２２として、乗算結果２０５を回路２０２の出力２２２に提供することができる。したがって、回路２０２は、それぞれの値２１０が正の値２１０または負の値２１０であることに部分的に基づいて、異なるスケーリングファクタを提供することによって、正の値２１０および負の値２１０に対する非対称スケーリングをサポートすることができる。

いくつかの実施形態では、符号指示信号２０９は、マルチプレクサ２２０を使用して、乗算回路類２０４からの乗算結果２０５とシフト回路類２０６からのシフト結果２０７との間で選択するのに使用することができる、セレクタ入力を含むかまたはそれに対応することができる。符号指示信号２０９によって示される値または符号に応答して、マルチプレクサは、乗算結果２０５またはシフト結果２０７のどちらかを回路２０２の出力２２２に提供することができる。いくつかの実施形態では、符号指示信号２０９は、第１の値２１０ａが正の値であることを示すことができ、マルチプレクサ２２０は、シフト回路類２０６からのシフト結果２０７を回路２０２の出力２２２として提供することができる。例えば、回路２０２は、第１の値２１０ａが正の値であると決定し、シフト結果２０７を出力して、例えば、図１ＢのＡＩアクセラレータ１０８の処理要素１２０によって出力された、正の要素または正の値に対する量子化誤差および切り出し誤差の組み合わせを最小限に抑えるかまたは低減することができる。

いくつかの実施形態では、符号指示信号２０９は、第１の値２１０ａが負の値であることを示すことができ、これに応答して、マルチプレクサ２２０は、乗算回路類２０４からの乗算結果２０５を回路２０２の出力２２２として提供することができる。例えば、回路２０２は、第１の値２１０ａが負の値であると決定し、これに応答して、乗算結果２０５を出力して、例えば、図１ＢのＡＩアクセラレータ１０８の処理要素１２０によって出力された、負の要素または負の値に対する量子化誤差および切り出し誤差の組み合わせを最小限に抑えるかまたは低減することができる。

回路２０２の出力２２２を、ニューラルネットワークにフィードバックし、図１ＡのＡＩアクセラレータ１０８のニューラルネットワーク１１４などの、ニューラルネットワークを構成、調整、訓練、および／または活性化するのに使用することができる。いくつかの実施形態では、回路２０２は、後続の値２１０を受信することができ、出力２２２を継続して生成して、正の値および負の値に対する非対称スケーリングファクタを提供することができる。例えば、回路２０２は、乗算回路類２０４を介して、第３の値２１０および第４の値２１０または後続の値２１０それぞれについて、第２の乗算および後続の乗算を実施することができる。回路２０２は、シフト回路類２０６を介して、第２の乗算の結果２０５について所定のビット数２１２の分、または後続の乗算の結果２０５について所定のビット数２１２の分、第２のシフトまたは後続のシフトを実施することができる。回路２０２は、第３の値２１０の符号ビットが負の場合は第２の乗算の結果２０５の、第３の値２１０の符号ビットが正の場合は第２のシフトの結果２０７の、第２の出力を実施することができる。回路２０２は、第２の出力の結果２２２を回路２０２の累算器回路類１４０に提供することができる。いくつかの実施形態では、回路２０２は、後続の値２１０の符号ビットが負の場合は後続の乗算の後続の結果２０５の、後続の値２１０の符号ビットが正の場合は後続のシフトの結果２０７の、後続の出力を実施することができる。回路２０２は、後続の出力の後続の結果２２２を回路２０２の累算器回路類１４０に提供することができる。

いくつかの実施形態では、回路２０２は、マルチプレクサ２２０を通して、出力の結果または出力２２２を回路２０２の累算器回路類に提供することができる。例えば、回路２０２は、累算器回路類を有する乗累算器（ＭＡＣ）回路類を含むことができる。累算器回路類を有する乗累算器（ＭＡＣ）回路類は、図１Ｃに関して上述したＭＡＣユニット１４０と同じまたは実質的に同様であることができる。回路２０２は、１つまたは複数の出力２２２を、ＭＡＣユニット１４０の累算器回路類または累算器レジスタに提供して処理することができる。

本開示は、値２１０、または値２１０の符号もしくは符号ビットが正または負のどちらであるかを決定して、異なる量によってスケーリングされた出力の間で選択することについて記載していることがあるが、これは単なる例であり、いかなる形でも限定しようとするものではないことが理解されるべきである。例えば、（例えば、正負の構成において）正および負の値の間で決定する代わりに、本発明のシステム、方法、およびデバイスは、（例えば、大小の構成において）値が基準値または閾値よりも大きいか小さいか（またはそれに対して正か負か）を決定することを含み、同様に、異なる量スケーリングされた出力の間で選択を実施することができる。例えば、比較器回路類２０８は、かかる決定を実施するように構成することができ、他の回路類または要素は、本明細書で考察した正負の構成の実施形態と同様の方式で動作するように適合させることができる。更に、正負の構成での特定の実施形態では、正の値および負の値が互いに切り替えられるか反転されてもよい場合、同様の演算を実施することができる。同様に、大小の構成での特定の実施形態では、大きい値および小さい値が互いに切り替えられるか反転されてもよい場合、同様の演算を実施することができる。

いくつかの例示的な実現例について記載してきたが、上記は例示であって限定ではなく、例として提示されていることが明白である。特に、本明細書に提示する例の多くには、方法行為またはシステム要素の特定の組み合わせが関与するが、それらの行為および要素は、同じ目的を遂行するために他の形で組み合わせることができる。１つの実現例に関連して考察される行為、要素、および特徴は、他の１つまたは複数の実現例における類似の役割から除外されないものとする。

本明細書に開示する実施形態と関連して記載される、様々なプロセス、動作、例示の論理、論理ブロック、モジュール、および回路を実現するのに使用される、ハードウェアおよびデータ処理構成要素は、汎用シングルもしくはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他のプログラマブル論理デバイス、離散的ゲートもしくはトランジスタ論理、離散的ハードウェア構成要素、または本明細書に記載の機能を実施するように設計された上記のものの任意の組み合わせを用いて、実現または実施されてもよい。汎用プロセッサは、マイクロプロセッサ、または任意の従来のプロセッサ、コントローラ、マイクロコントローラ、もしくは状態機械であってもよい。プロセッサはまた、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連動した１つもしくは複数のマイクロプロセッサ、または他の任意のかかる構成など、コンピューティングデバイスの組み合わせとして実現されてもよい。いくつかの実施形態では、特定のプロセスおよび方法は、所与の機能に特異的な回路類によって実施されてもよい。メモリ（例えば、メモリ、メモリユニット、記憶デバイスなど）は、本開示に記載する様々なプロセス、層、およびモジュールを完成させるかもしくは容易にする、データおよび／またはコンピュータコードを格納する、１つまたは複数のデバイス（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク記憶装置など）を含んでもよい。メモリは、揮発性メモリもしくは不揮発性メモリであるかまたはそれらを含んでもよく、本開示に記載する様々なアクティビティおよび情報構造をサポートする、データベース構成要素、オブジェクトコード構成要素、スクリプト構成要素、または他の任意のタイプの情報構造を含んでもよい。例示的実施形態によれば、メモリは、処理回路を介してプロセッサに通信可能に接続され、本明細書に記載の１つもしくは複数のプロセスを（例えば、処理回路および／またはプロセッサによって）実行するためのコンピュータコードを含む。

本開示は、様々な動作を遂行するための任意の機械可読媒体上における、方法、システム、およびプログラム製品を想到する。本開示の実施形態は、既存のコンピュータプロセッサを使用して、またはこの目的もしくは別の目的のために組み込まれる、適切なシステムのための専用コンピュータプロセッサによって、または配線接続システムによって、実現されてもよい。本開示の範囲内の実施形態は、格納された機械実行可能命令もしくはデータ構造を保持するかまたは有する、機械可読媒体を備えるプログラム製品を含む。かかる機械可読媒体は、汎用もしくは専用コンピュータ、またはプロセッサを有する他の機械によってアクセスすることができる、任意の利用可能な媒体であることができる。例として、かかる機械可読媒体は、ＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、または他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、あるいは機械実行可能命令またはデータ構造の形態で所望のプログラムコードを保持または格納するのに使用することができ、汎用もしくは専用コンピュータまたはプロセッサを有する他の機械でアクセスすることができる、他の任意の媒体を含むことができる。上記のものの組み合わせはまた、機械可読媒体の範囲に含まれる。機械実行可能命令は、例えば、汎用コンピュータ、専用コンピュータ、または専用処理機械に、特定の機能または機能群を実施させる、命令およびデータを含む。

本明細書で使用する用語および専門用語は、説明のためのものであって限定とみなされるべきではない。本明細書における、「～を含む」、「～を備える」、「～を有する」、「～を含有する」、「～を伴う」、「～によって特徴付けられる」、「～を特徴とする」およびそれらの変形の使用は、該用語とともに列挙される項目、それらの等価物、および追加の項目、ならびに排他的に該用語とともに列挙される項目から成る代替実現例を網羅することを意味する。一実現例では、本明細書に記載するシステムおよび方法は、記載する要素、行為、または構成要素のうちの１つ、２つ以上の各組み合わせ、または全てから成る。

単数形で言及される本明細書のシステムおよび方法の実現例または要素または行為に対する任意の言及は、複数のこれらの要素を含む実現例も包含することができ、本明細書の任意の実現例または要素または行為に対する複数形での任意の言及は、単一の要素のみを含む実現例も包含することができる。単数形または複数形での言及は、本明細書に開示されるシステムもしくは方法、それらの構成要素、行為、または要素を、単数または複数の構成に限定しようとするものではない。任意の情報、行為、または要素に基づいた任意の行為または要素に対する言及は、行為または要素が、任意の情報、行為、または要素に少なくとも部分的に基づく場合の実現例を含むことができる。

本明細書に開示する任意の実現例は、他の任意の実現例または実施形態と組み合わせることができ、「ある実現例」、「いくつかの実現例」、「一実現例」などに対する言及は、必ずしも相互に排他的ではなく、実現例と関連して記載する特定の特徴、構造、または特性が、少なくとも１つの実現例または実施形態に含まれ得ることを示すものとする。かかる用語は、本明細書で使用するとき、必ずしも全てが同じ実現例を指すものではない。任意の実現例は、本明細書に開示する態様および実現例と一致する任意の手法で、他の任意の実現例と包括的または排他的に組み合わせることができる。

図面、詳細な説明、または任意のクレームにおける技術的特徴に参照符号が付される場合、参照符号は、図面、詳細な説明、およびクレームの了解度を向上するために含まれるものである。したがって、参照符号が存在してもしなくても、任意のクレーム要素の範囲に対する限定的影響を何ら有さない。

本明細書に記載するシステムおよび方法は、それらの特性から逸脱することなく、他の特定の形態で具体化されてもよい。「約」、「およそ」、「実質的に」、または他の程度を表す用語に対する言及は、別段の明示がない限り、所与の測定値、単位、または範囲から±１０％の変動を含む。結合された要素は、直接または介在要素を用いて、互いに電気的、機械的、または物理的に結合することができる。本明細書に記載するシステムおよび方法の範囲は、したがって、上述の記載ではなく添付のクレームによって示され、クレームの等価物の意味および範囲内にある変更は包含される。

「結合された」という用語およびその変形は、２つの部材を直接または間接的に互いに接合することを含む。かかる接合は、静的（例えば、恒久的もしくは固定）または可動（例えば、除去可能もしくは解放可能）であってもよい。かかる接合は、互いに直接結合され、または互いに対して結合された２つの部材によって、別個の介在部材および互いに結合された任意の追加の中間部材を使用して互いに結合された２つの部材によって、あるいは２つの部材の一方とともに単一の単位体として一体的に形成された介在部材を使用して互いに結合された２つの部材によって、達成されてもよい。「結合された」またはその変形が、追加の用語によって修正された場合（例えば、直接結合された）、上述の「結合された」の包括的定義は、追加の用語の平易な言葉の意味によって修正され（例えば、「直接結合された」は、任意の別個の介在部材を有さない２つの部材の接合を意味する）、それによって上述の「結合された」の包括的定義よりも狭い定義になる。かかる結合は機械的、電気的、または流体的であってもよい。

「または」に対する言及は包括的と解釈することができるので、「または」を使用して記載されるいずれの用語も、記載される用語の単一、２つ以上、および全てのいずれかを示すことができる。「『Ａ』および『Ｂ』のうち少なくとも１つ」は、「Ａ」のみ、「Ｂ」のみ、ならびに「Ａ」および「Ｂ」の両方を含むことができる。「備える」または他のオープンな用語と併せて使用されるかかる言及は、追加の項目を含むことができる。

様々な要素のサイズ、寸法、構造、形状、および比率、パラメータの値、取付け構造、材料使用、色、向きにおける変形例など、記載される要素および行為の修正は、本明細書に開示する主題の教示および利点から実質的に逸脱することなく行うことができる。例えば、一体的に形成されるものとして示される要素は、複数の部分または要素で構築することができ、要素の位置を反転させるかまたは別の形で変動させることができ、離散的要素または位置の性質もしくは数を改変または変更することができる。他の置換、修正、変更、および省略も、本開示の範囲から逸脱することなく、開示の要素および動作の設計、動作条件、および配置に対して行うことができる。

本明細書における要素の位置に対する言及（例えば、「上側」、「下側」、「上方」、「下方」）は単に、図面における様々な要素の向きを説明するために使用されるものである。様々な要素の向きは、他の例示的実施形態によって異なってもよく、かかる変形は本開示に包含されるものとする。

Claims

シフト回路類および乗算回路類を備え、ニューラルネットワークに対する計算を実施するように構成された、回路を備え、
前記乗算回路類を介して、第１の値および第２の値を乗算することと、
前記シフト回路類を介して、前記乗算の結果を決定されたビット数分シフトすることと、
前記第１の値の符号ビットが負の場合は前記乗算の前記結果を、前記第１の値の前記符号ビットが正の場合は前記シフトの結果を出力することと、を含む、デバイス。
前記回路がマルチプレクサを更に備え、
前記回路が、前記第１の値の前記符号ビットにしたがって前記マルチプレクサを介して、前記乗算の前記結果および前記シフトの前記結果を出力するように構成された、請求項１に記載のデバイス。
前記第１の値が前記ニューラルネットワークの第１の層に対する活性化を含み、好ましくは、前記決定されたビット数が、前記ニューラルネットワークの前記第１の層に対する、活性化関数のスケーリングファクタの２進数の指数に対応し、また好ましくは、前記活性化関数が漏れのある正規化線形ユニット（ＲｅＬｕ）関数を含む、請求項１または２に記載のデバイス。
前記決定されたビット数がｍであり、ｍが１よりも大きい整数であり、好ましくは前記決定されたビット数が２である、請求項１から３のいずれか一項に記載のデバイス。
前記回路が更に、前記第１の値の前記符号ビットが負または正のどちらであるかを決定するように構成された比較器回路類を含む、請求項１から４のいずれか一項に記載のデバイス。
前記回路が、累算器回路類を備える乗累算器（ＭＡＣ）回路類を含み、
前記回路が更に、前記出力の結果を前記ＭＡＣ回路類の前記累算器回路類に提供するように構成された、請求項１から５のいずれか一項に記載のデバイス。
前記ニューラルネットワークに対する前記計算が更に、
前記乗算回路類を介して、第３の値および第４の値の第２の乗算を行うことと、
前記シフト回路類を介して、前記第２の乗算の結果に対して前記決定されたビット数分の第２のシフトを行うことと、
前記第３の値の符号ビットが負の場合は前記第２の乗算の前記結果の、前記第３の値の前記符号ビットが正の場合は前記第２のシフトの結果の、第２の出力を行うことと、
前記第２の出力の結果を前記ＭＡＣ回路類の前記累算器回路類に提供することと、を含む、請求項６に記載のデバイス。
回路の乗算回路類によって、ニューラルネットワークに対する第１の値および第２の値を乗算することと、
前記回路のシフト回路類によって、前記乗算の結果を決定されたビット数分シフトすることと、
前記回路によって、前記第１の値の符号ビットが負の場合は前記乗算の前記結果を、前記第１の値の前記符号ビットが正の場合は前記シフトの結果を出力することと、を含む、方法。
前記回路のマルチプレクサを介して、前記第１の値の前記符号ビットに基づいて、前記乗算の前記結果または前記シフトの前記結果を出力することを含む、請求項８に記載の方法。
前記第１の値が前記ニューラルネットワークの第１の層に対する活性化を含み、好ましくは、前記決定されたビット数が、前記ニューラルネットワークの前記第１の層に対する、活性化関数のスケーリングファクタの２進数の指数に対応し、また好ましくは、前記活性化関数が漏れのある正規化線形ユニット（ＲｅＬｕ）関数を含む、請求項８または９に記載の方法。
所定のビット数がｍであり、ｍが１を超える整数である、請求項８から１０のいずれか一項に記載の方法。
前記決定されたビット数が２である、請求項１１に記載の方法。
前記回路の比較器回路類によって、前記第１の値の前記符号ビットが負または正のどちらであるかを決定することを更に含む、請求項８から１２のいずれか一項に記載の方法。
前記出力の結果を前記回路の累算器回路類に提供することを更に含む、請求項８から１３のいずれか一項に記載の方法。
前記乗算回路類を介して、第３の値および第４の値の第２の乗算を行うことと、
前記シフト回路類を介して、前記第２の乗算の結果に対して、所定のビット数分の第２のシフトを行うことと、
前記第３の値の符号ビットが負の場合は前記第２の乗算の前記結果の、前記第３の値の前記符号ビットが正の場合は前記第２のシフトの結果の、第２の出力を行うことと、
前記第２の出力の結果を前記回路の前記累算器回路類に提供することと、を更に含む、請求項１４に記載の方法。