JP2023026404A

JP2023026404A - スキップロジックを有するビット単位の積和累積

Info

Publication number: JP2023026404A
Application number: JP2022128737A
Authority: JP
Inventors: 柯文昇; Wen Sheng Ke; 邱硯晟; yan sheng Qiu; 洪哲民; Zhe Min Hong; 張孟凡; Meng Fan Zhang
Original assignee: Taiwan Semiconductor Manufacturing Co TSMC Ltd
Current assignee: Taiwan Semiconductor Manufacturing Co TSMC Ltd
Priority date: 2021-08-13
Filing date: 2022-08-12
Publication date: 2023-02-24
Anticipated expiration: 2042-08-12
Also published as: CN115469825A; DE102022105152A1; KR20230025325A; TWI815404B; JP7420880B2; TW202307646A; US20230053294A1

Abstract

【課題】ワード単位の入力及びビット単位の重みで入力ベクトルと重みベクトルの積の部分和累積を実行するための方法、装置及びシステムを提供する。【解決手段】方法は、ワード単位の入力及びビット単位の重みで複数の入力ベクトル及び複数の重みベクトルの積に部分和累積を行って、部分累積積和を生成するステップ１１０と、部分累積積和をしきい値条件と比較するステップ１３０と、部分累積積和がしきい値条件を満たす場合、和累積の複数の残りの計算をスキップすることを指示するようにスキップインジケータをアサートするステップ１４０と、を含む。【選択図】図１３

Description

本開示内容は、データ処理方法、装置及びシステムに関する。

乗算累積器は、ワード単位及びビット単位で入力データと対応する重みデータを乗算するために利用可能である。この操作の出力は、人工知能ネットワークにおいてノードの間の接続を形成するために利用可能である。この場合に、乗算累積の出力を活性化関数に提供することができる。活性化関数は正規化線形ユニット又はＲｅＬＵ活性化関数である。関数の入力が０よりも小さい場合、０を返し、そうでなければ、値を返す。

本開示内容は、ワード単位の入力及びビット単位の重みで入力ベクトルと重みベクトルの積に部分和累積を行って、部分累積積和を生成するステップと、部分累積積和をしきい値条件と比較するステップと、部分累積積和がしきい値条件を満たす場合、和累積の残りの計算をスキップすることを指示するようにスキップインジケータをアサートするステップと、を含むデータ処理方法を含有する。

本開示内容は、それぞれ１組のＭ個の入力ベクトルに１組のＭ個の重みベクトルの第１の重みビットを乗算して１組目のＭ個の積を計算し、１組目のＭ個の積を加算して第１の積和を計算し、且つ積和出力ピン群にて第１の積和を提供するための乗算累積回路ブロックと、積和出力ピン群に結合される累積器入力ピン群を含み、累積器入力ピン群にて第１の値を受信し、第１の値を累積器回路ブロック内の累積値に加算して第１の値を累積して累積値を置き換え、且つ累積値出力ピン群にて累積値を提供するための累積器回路ブロックと、累積値出力ピン群に結合される累積値入力ピン群を含み、累積値をしきい値と比較し、しきい値を満たす場合、スキップピンにあるスキップ信号をアサートするためのスキップ回路ブロックと、スキップピンにスキップ信号があるか否かをチェックし、スキップ信号がアサートされていない場合、乗算累積回路ブロックが前記組のＭ個の重みベクトルの次の重みビットを処理するようにし、スキップ信号がアサートされた場合、前記組のＭ個の重みベクトルの残りの部分の処理を停止し、出力準備完了信号をアサートし、且つ累積値を活性化回路に提供するための制御回路ブロックと、を備えるデータ処理装置を含有する。

本開示内容は、それぞれビット単位の重みで入力ノードと入力の複数の重みベクトルの複数の積を計算し、各積の総和を求めて各ビットの積和を計算し、各ビットに対するビット値の位置に基づいて積和を重み付けし、且つ積和を累積して累積積和とするための乗算累積装置と、積和をしきい値と比較し、前記しきい値に達した場合にスキップ信号をアサートするためのスキップモジュールと、スキップ信号がアサートされていない場合、乗算累積装置が重みベクトルの次のビットを処理するようにし、スキップ信号がアサートされた場合、乗算累積装置が重みベクトルの残りの部分の処理を中止するようにするための制御ロジック装置と、累積積和の値に基づいて入力ノードの畳み込み値を判定する活性化装置と、を備えるデータ処理システムを含有する。

図面に合わせて、以下の詳細な記述に基づいて本開示内容の各態様を最もよく理解することができるであろう。業界における標準的な慣行に従い、各種の特徴が縮尺通りに描かれているわけではないことに留意されたい。実際には、明らかに検討するために、各種の特徴の寸法は任意に増減可能である。
幾つかの実施例による機械学習において画像データを処理する時によく使用される３×３畳み込みの実例を説明する。より一般的な形態で幾つかの実施例による図１で説明された概念を説明する。幾つかの実施例によるＲｅＬＵ活性化関数を説明する。幾つかの実施例によるハードウェアにおいてＭＡＣをアルゴリズムで実現するための入力データ、重みベクトル及びＭＡＣのバイナリ表現を説明する。幾つかの実施例によるビット単位で入力値及び重みベクトルを処理するための数式を説明する。幾つかの実施例による入力Ｉ及び重みベクトルＷのサンプル計算を説明する。幾つかの実施例によるスキップ評価及び活性化特徴を説明する。幾つかの実施例によるスキップ評価及び活性化特徴を説明する。幾つかの実施例によるスキップ評価及び活性化特徴を説明する。幾つかの実施例によるスキップ評価及び活性化特徴を説明する。幾つかの実施例によるスキップ評価及び活性化特徴を説明する。幾つかの実施例によるスキップ評価及び活性化特徴を説明する。幾つかの実施例によるスキップ評価及び活性化特徴のプロセスフローチャート１００を説明する。幾つかの実施例によるＭＡＣスキップ回路の回路ブロック図を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の回路ブロック図を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の回路ブロック図を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の回路ブロック図を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の操作を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の操作を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の操作を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の操作を説明する各種の図面である。幾つかの実施例によるＭＡＣスキップ回路の操作を説明する各種の図面である。幾つかの実施例によるスキップモジュールにしきい値を提供することを説明するフローチャートである。幾つかの実施例によるスキップモジュールにしきい値を提供することを説明するフローチャートである。幾つかの実施例による状態機械モデル及び信号値を説明する。幾つかの実施例による状態機械モデル及び信号値を説明する。幾つかの実施例による状態機械モデル及び信号値を説明する。幾つかの実施例によるＭＡＣスキップ回路を含むシステム図を説明する。幾つかの実施例によるＭＡＣスキップ回路によるエネルギー消費の低減のテストデータの結果を説明する。

以下に開示される内容は、発明の異なる特徴の多くの異なる実施例又は実例を実現するために提供される。以下、本開示内容を簡略化するためにコンポーネント及び配置の特定の実例を記述する。勿論、これらは単なる実例であり、制限するためのものではない。例えば、以下の記述において、第２の特徴の上方又は上に第１の特徴を形成することは、第１の特徴と第２の特徴を直接接触させるように形成する実施例を含んでもよく、第１の特徴と第２の特徴が直接接触しないことを可能にするように第１の特徴と第２の特徴の間に追加の特徴を形成する実施例を含んでもよい。また、本開示内容では、各実例において素子の符号又はアルファベットを繰り返してよい。この繰り返しは、簡単且つ明瞭にするためであり、それ自身が検討される各種の実施例及び／又は構成の間の関係を指定しない。理解すべきなのは、信号は高１又は低０としてアサートされてよく、文脈又は慣例により別途規定されていない限り、本明細書に使用される「１」は「アサート」を示すと理解され、且つ、文脈又は慣例により別途規定されていない限り、本明細書に使用される「０」は「アサートされていない」を示すと理解される。装置及び設計によるが、当業者は必要に応じてこれらの信号を容易に変換することができる。

人工ニューラルネットワーク分野では、機械学習により入力データを取得し、入力データに何らかの計算を実行してから、活性化関数を適用してデータを処理する。活性化関数の出力は、実質的に入力データを簡略化して表現したものである。入力データは、ノード層におけるデータノードであってよい。図１は、３×３畳み込みの実例を説明し、この実例は、通常、機械学習における画像データを処理するために用いられる。画像１０は、単一の画素１１からなる。画像は、例えば赤－緑－青（ｒｅｄ－ｇｒｅｅｎ－ｂｌｕｅ；ＲＧＢ）又は色相－彩度－輝度（ｈｕｅ－ｓａｔｕｒａｔｉｏｎ－ｌｕｍｉｎｅｓｃｅｎｃｅ；ＨＳＬ）などの色空間で示されてよく、各色空間変数の１つの値は画素毎に割り当てられる。画像のノード１２は、３×３の画素ブロックであり、ノード１２における各画素１１は、ノード１２の画素１１の各色空間変数の入力値Ｉ_１－９を有する。３×３畳み込みにおける可能な計算の１つとしては、積和計算を使用し、各入力値Ｉ_１－９にそれぞれ重みマトリックス１４の重み値Ｗ_１－９を乗算する。乗算を行う度に、各積の演算の総和を維持することができる。このような積和計算は、乗算累積演算／計算（ｍｕｌｔｉｐｌｙａｃｃｕｍｕｌａｔｅｃｏｍｐｕｔａｔｉｏｎ／ｃａｌｃｕｌａｔｉｏｎ；ＭＡＣ）１６と呼ばれてよい。演算２０に含まれるＭＡＣ１６の出力は、演算２０に含まれる活性化関数１８に提供される。３×３畳み込みにおいて、使用される活性化関数は、通常、正規化線形活性化関数（正規化線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）又はＲｅＬＵ）である。ＲｅＬＵは、出力ｙ＝ｍａｘ（０，ｘ）の区分的関数であり、ｘはＭＡＣ１６の結果である。従って、全ての負の値は０に設定され、非ゼロ値は入力の線形恒等式である。

図２は、より一般的な形態で、即ち、任意の長さの入力ノードに対する形態で図１で説明された概念を説明する。各入力Ｉ_０～Ｉ_Ｎ－１にそれぞれ重みベクトルＷ_０～Ｗ_Ｎ－１を乗算する。続いて、積和計算（ＭＡＣ）ではこれらの値の総和を求め、且つＲｅＬＵ活性化関数を実行する。出力ＯはＲｅＬＵ活性化関数の出力である。

図３は、ＲｅＬＵ活性化関数のグラフ及びＲｅＬＵ活性化関数の区分的関数の表現を説明する。図３におけるグラフに示すように、ｘ≦０の全ての値に対して、ｙの値＝０であり、ｘ＞０の全ての値に対して、ｙの値＝ｘである。この場合に、ｘの値が０に等しい場合、どの関数を使用しても、出力が「０」である（従って、関数がｙ＝｛ｘ，ｘ≧０｜０，ｘ｝であると規定された場合）ことに留意されたい。ＲｅＬＵ活性化関数に何らかの修正を行ってよい。

今まで、既に一般的な意味でこれらの計算を検討した。例えば、汎用プロセッサで実行される、簡単なｆｏｒループを含めたコンピュータプログラムを書き込むことができ、このループにより、ＩＮＰＵＴアレイ及びＷＥＩＧＨＴアレイにＭＡＣを実行し、続いてＭＡＣの出力をＲｅＬＵに伝達し、例えば以下のロジックが挙げられる。カウンタを整数で０に初期化する。蓄積変数（例えばＭＡＣ）を０に初期化する。長さがｎであるとともに入力値が付いているＩＮＰＵＴアレイを提供する。長さがｎであるとともに符号付き重み値が付いているＷＥＩＧＨＴアレイを提供する。カウンタ＝０、カウンタ＜ｎの場合、カウンタ＋＋｛ＭＡＣ＝ＭＡＣ＋（ＩＮＰＵＴ［カウンタ］＊ＷＥＩＧＨＴ［カウンタ］）。｝出力＝（０，ＭＡＣ）の最大値である。出力値を提供する。

大規模のデータセットについて、汎用プロセッサでの実行効率が低下する。効率を高めるには、このアルゴリズムは、例えば特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ；ＡＳＩＣ）又はフィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ；ＦＰＧＡ）などの専用ハードウェアで実現されてよい。しかしながら、専用ハードウェア（例えば特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ；ＡＳＩＣ））でこのロジックを実現することは、デジタルロジックブロックでバイナリ数学を使用することに関わる。ここで、ハードウェアでＭＡＣ（及びＲｅＬＵ）を実現する文脈において記述する。ハードウェアによる実現は、ＭＡＣの計算に関わり、且つバイナリフォーマットでＲｅＬＵを実現する。

図４は、ハードウェアにおいてＭＡＣをアルゴリズムで実現するための入力データ、重みベクトル及びＭＡＣのバイナリ表現を説明する。以下、スキップモジュールと組み合わせてハードウェアによる実現をより詳細に検討する。ノードにおけるデータポイントについて、入力データは、例えば振幅などの符号値のないノードとして表される。入力データの長さはＮビットである。例えば、Ｎは、４ビット、８ビット、１６ビットなどであってよい。例えば、Ｎが８である場合、各入力値は、０と２５５の間にある。重みベクトルは、２の補数形式の符号付き重み値である。従って、負の数は、最上位ビット（ｍｏｓｔｓｉｇｎｉｆｉｃａｎｔｂｉｔ；ＭＳＢ）で１から始まる。各重みベクトルの長さはＫビットである。Ｎは、Ｋと等しくてもよく、又は異なる値であってもよい。例えば、Ｋが８ビットである場合、各重み値は－１２８と１２７の間にあってよい。符号では、入力値について、ｉ個目の入力がノードにおける入力データポイントの入力インデックスに対応する。各重みは、対応する重みベクトルのｉ個目の重みインデックスを有するようになる。換言すれば、ｉ個目の入力とｉ個目の重みベクトルの間には、一対一の関連性が存在する。これに比べれば、各入力又は各重みベクトルの第ｊビットは左から右へであるため、ＭＳＢは第０ビットであり、最下位ビット（ｌｅａｓｔｓｉｇｎｉｆｉｃａｎｔｂｉｔ；ＬＳＢ）は入力の第Ｎ－１ビット、及び重みベクトルの第Ｋ－１ビットである。ＮとＫは異なる値であってもよいため、入力データにおけるｊ個目の位置の総数は、重みベクトルのｊ個目の位置と異なる可能性がある。符号の実例として、ｉ＝２及びｊ＝５のＩ_ｉ，ｊビットは、第３の入力データの第６ビットに対応する。これに類似し、ｉ＝３及びｊ＝４のＷ_ｉ，ｊビットは、第４の重みベクトルの第５ビットに対応する。図４に示すように、ＭＡＣにより生成されたビットの総数は、Ｎ＋Ｋ＋Ｍの対数（２を底とする）を最も近い整数に丸めたものに等しい。例えば、ノードにおける入力数が９であり（例えば、９ポイントの畳み込みに対応する）、且つＮ及びＫがそれぞれ８である場合、ＭＡＣの出力におけるビット数は８＋８＋Ｒｏｕｎｄｕｐ（ｌｏｇ_２９）＝２０となる。この値は、同じくＲｏｕｎｄｕｐ（Ｎ＋Ｋ＋ｌｏｇ_２Ｍ）として表されてもよい。

図５は、ビット単位で入力値及び重みベクトルを処理するための数式を説明する。具体的には、各入力値と重みベクトルの各ビットを乗算し、且つ反復する度にその総和を求める。等式の左側は、ｉ個の入力と対応するｉ個の重みベクトルの和積の一般式である。実行される数学はバイナリ数学であるため、重みベクトルの符号ビットを処理するための第１項及び残りのビットを処理するための第２項を含む等式の右側に分解可能である。

第１項は、Ｎビット符号無し入力と各符号付きＫビット重みベクトルの符号ビットの和積を表す。図４に示すように、重みベクトルのＭＳＢは符号ビットを格納し、且つ、ビットｊ＝０であるため、重みベクトルの第０ビットとして表される。第１項により入力に重みベクトルの第０ビット（符号ビットを表す）を乗算し、且つ結果に第０ビットのビット値を乗算すると、２^Ｋ－１となる。続いて前記結果を負の値として記録する。実質的には、入力と符号ビットの間の積により重みベクトルの最大の負値性が確立される。例えば、重みベクトルが８ビットで負である場合、符号ビットは、２^７ビット値のうちの「１」を表す。これは、入力の２の補数を取り、それを７回左シフトさせたことに相当する。これは、入力Ｉ_ｉごとに反復して実行され、第１項は、全てのこれらの積の和結果を表す。対応する重みベクトルが負でない場合、ゼロが追加される。

第２項は、２つの入れ子総和演算を含む。内部総和は、重みベクトルＷ_ｉのうちの各々の残りのｊビットの総和を表し、それに入力Ｉ_ｉを乗算し、更に重みベクトルＷ_ｉのうちの対応する第ｊビットのビット値を乗算する。外部総和は、各入力Ｉ_ｉ及び重みベクトルＷ_ｉに対して内部総和を繰り返し、且つ全てのこれらの総和を加算する。

図６は、入力Ｉ及び重みベクトルＷのサンプル計算を説明し、Ｍ＝１、Ｎ＝８、Ｋ＝８である。Ｉ_０＝７７（０１００１１０１）及びＷ_０＝－１１６（１０００１１００）である。総和式

において、第１項は、－１・（０１００１１０１）・（１・２^７）＝１０１１００１１・２^７＝１１０１１００１１０００００００に調整可能である（符号ビットは追加の先頭「１」で埋め込まれていることに留意されたい）。第２項は、７７・（０・２^６）＋７７・（０・２^５）＋７７・（０・２^４）＋７７・（１・２^３）＋７７・（１・２^２）＋７７・（０・２^１）＋７７・（０・２^０）＝７７・２^３＋７７・２^２＝６１６（００１００１１０１０００）＋３０８（０００１００１１０１００）＝９２４（００１１１００１１１００）に調整可能である。第１項と第２項を加算して和の－８９３２（１１０１１１０１０００１１１００）を得る。

この実例から分かるように、重みベクトルが負である場合、ビット単位数学により、重みベクトルを入力の－１２８倍に設定し、続いて、後続のビットについて、最終結果に達するまでに正の部分を負の数に加算する（その負の数を小さくする）。

重みベクトルが正の場合、第１項は「０」となり、第２項は、重みベクトルの残りのビットのビット単位総和となり、負の重みベクトルについて示された状況に類似する。

図７～図１２について、スキップ評価及び活性化特徴（スキップモジュールとも呼ばれる）を検討し、適合する活性化関数（例えばＲｅＬＵ活性化関数）とともに使用される場合、入力ノードのＭＡＣ和積累積器及び対応する重みベクトルの計算複雑さが簡略化される。前述したように、例えば、ＲｅＬＵ活性化関数は、ＭＡＸ（０，ｉｎｐｕｔ）の出力を提供し、入力がＭＡＣ積和に等しい。重みベクトルのビットを反復して処理するため、ＭＡＣ積和は一連の部分累積により判定される。従って、特定の反復の後の部分累積積和が永遠に正にならない（又は活性化関数の条件を永遠に満たすことはない）場合、残りの計算をスキップしてよいと判定することができる。

ビット単位で重みベクトルＷを反復して処理する場合、反復する度に、部分積和累積の出力を、重みベクトルＷの残りのビットの各々に対して仮定された「最悪状況」のシーンと比較してよい。「最悪状況」は、最も多くの計算サイクルが発生する状況であり、即ち、スキップ条件が発生しない状況である。ここで、最悪状況は、重みベクトルＷの全ての残りのビットが１であると仮定された場合である。これは、例えば、８ビットの重みベクトルＷ_ｉについて、Ｗ_ｉが負である（即ち、Ｗ_ｉ，０＝１で始まる）場合、０よりも小さい最小の負の数は－１（バイナリでの全ての１）であることを意味する。また、Ｗ_ｉが正である（即ち、Ｗ_ｉ，０＝０で始まる）場合、最大の数は１２７である（残りのビットはバイナリでの全ての１である）。

図７は、任意の与えられた反復ｎの重みベクトルの「未知」の部分を考慮した総和公式３０を説明する。図７の公式は、図５における公式と類似する公式を説明する。一般的な積和累積公式３１を含み、この公式３１は、符号ビット和項３２及び重みベクトルの残りのビットの入れ子総和に分解される。残りのビットの入れ子総和は、重みベクトルの前のｎビット（ｎ＞０）に対する第１の入れ子和項３４及び重みベクトルの残りのＫ－１ビットに対する第２の入れ子和項３６に分解される。反復ｎについて、第１の入れ子和項３４は、第ｎビットを処理した後の重みベクトルの既知のｎビットの和積であり、第２の入れ子和項３６は、重みベクトルＷからの残りのｎ＋１ビット～残りのＫ－１ビットといった残りのビットを含有する。前述したように、幾つかの実施例において、未知の重みベクトルビットについて、全てのビットが１に等しいという「最悪状況」と仮定してよい。重みベクトルをＭＳＢからＬＳＢへビット単位で処理するにつれて、より多くの実際の重みベクトルが既知になり、且つ未知の仮定された重みベクトルのビット桁数は、反復する度に減少する。

図８～図１２は、幾つかの実施例によるスキップモジュールの適用を説明する。特に、図８～図１２は、如何に図１３のフローチャート（以下に検討）に基づいて図７の総和公式を実現するかを論証する。図８～図１２のそれぞれは、１組のＮ＝８ビットを有するＭ＝９の入力ベクトルＩ_ｉ、及びＫ＝８ビットを有するＭ＝９の重みベクトルＷ_ｉを説明する。論証するために、各入力ベクトルの値は、ランダムに生成されたものであり、それぞれ７７、１３８、１７９、７６、１７５、１５９、１５３、２１２、１２８である。論証するために、各重みベクトルの値は、ランダムに生成されたものであり、それぞれ－１１６、７６、９０、－８３、３３、－８、－６０、－９８、－２２である。これらの数のそれぞれのバイナリ表現も図８～図１２で説明される。

図８及び図９は、反復ｎ＝０の総和公式３０の計算を説明する。反復ｎ＝０の場合、総和公式は、第１の重みビットｊ＝０で調整される。図８は、各入力ベクトルに各重みベクトルの符号ビットを乗算し、更に符号ビットのビット値（２^７）を乗算することを説明する。重みベクトルが正である場合、符号ビットのビット値は「０」であり、「０」が発生する。重みベクトルが負である場合、符号ビットのビット値は「１」であり、発生値が入力ベクトルの負の数に２^７を乗算したものに等しい。これらの積を加算する。図８に説明されるように、これらの積の和は、－１０３，０４０である。この値は、可能な最も小さい負の累積値である。重みベクトルの他のビットが全て「０」である場合、出力値は１０３，０４０である。重みベクトルの任意の残りのビットが「１」である場合、前記値によって、負の累積値がそれ程小さくなくなる。従って、全ての他の操作が累積値に影響を与えないか又は正の影響しか与えない。

図９は、残りの２項の処理を説明する。第１の入れ子和項３４（図７を参照）には何の操作も発生せず、ｊ＝１の場合に総和を求め始めるからである。この場合、ｎ＝１であれば、ｊ＝０であるため、第１項には何の値も発生しない。第２の入れ子和項３６が「最悪状況」であると仮定すれば、前述したように、これは、最も多くの計算サイクルを招く状況である。最終の累積積和が０よりも大きい場合、最も多くの計算サイクルが発生する。従って、残りの重みベクトルの各ビットが「１」であると仮定した場合、最悪状況を採用してよい。その値は十進法による１２７であるため、各入力値に仮定された各重みベクトルの値１２７を乗算し、続いて加算し、数１６４，７１９が得られる。この最悪状況の和を累積値の－１０３，０４０と比較すれば、最終値が－１０３，０４０＋１６４，７１９＝６１，６７９と高い可能性があることが分かる。この値が負ではなく、即ち活性化関数が実行された後の結果が非ゼロ値であるため、より多くのビットを処理する必要がある。

図１０は総和を説明し、ｎ＝１であり、即ち、ｊ＝０、１である。ｊ＝０の場合、－１０３，０４０であると計算された。ｊ＝１の場合、第１の入れ子和項３４（図７を参照）では、各入力ベクトルＩ_ｉに、対応する重みベクトル（即ち、Ｗ_ｉ，１）におけるｊ＝１ビットを乗算し、且つこの値に１ビットのビット値を乗算する（２^{Ｋ－ｊ－１}－＞２^{８－１－１}－＞２^６）。従って、Ｗ_ｉ，１＝０の場合、発生値は０となり、Ｗ_ｉ，１＝１の場合、発生値は、対応する入力に２^６を乗算したものとなる。これらは、第１の入れ子和項３４の外部総和に基づいて計算してから総和を求めたものである。この実例において、和が４８，４４８に等しい。この値をｊ＝０値に加算する場合、総和は－５４，５９２である。

図１０の第２の入れ子和項３６が「最悪状況」であると仮定し、前述したように、これは、最も多くの計算サイクルを招く状況であり、即ち、重みベクトルの残りの未知のビットがそれぞれ「１」であると仮定する。ｎ＝１の場合、この値は十進法による６３であるため、各入力値に仮定された各重みベクトルの値６３を乗算し、続いて加算し、数８１，７１１が得られる。この最悪状況の和を累積値の－５４，５９２と比較すれば、最終値が－５４，５９２＋８１，７１１＝２７，１１９と高い可能性があることが分かる。この値が負ではなく、即ち、活性化関数が実行された後の結果が非ゼロ値であるため、より多くのビットを処理する必要がある。重みベクトルの第２のビット（ｊ＝１）が実際に最悪状況ではないため、累積値と最悪状況値の間の第２のビットを処理した後の差の－２７，１１９は、上記第１のビットのみを処理した後の差の－６１，６７９よりも小さいことに留意されたい。

図１１は総和を説明し、ｎ＝２であり、即ち、ｊ＝０、１、２である。ｊ＝０、１の場合、－５４，５９２であると計算された。ｊ＝２の場合、第１の入れ子和項３４（図７を参照）では、各入力ベクトルＩ_ｉに、対応する重みベクトル（即ち、Ｗ_ｉ，２）におけるｊ＝２ビットを乗算し、且つこの値に２ビットのビット値を乗算する（２^{Ｋ－ｊ－１}－＞２^{８－２－１}－＞２^５）。従って、Ｗ_ｉ，２＝０の場合、発生値は０となり、Ｗ_ｉ，２＝１の場合、発生値は、対応する入力に２^５を乗算したものである。これらは、第１の入れ子和項３４の外部総和に基づいて計算してから総和を求めたものである。この実例において、和が１７，２１６に等しい。この値をｊ＝０，１の場合の値に加算した場合、総和は－３７，３７６である。

図１１の第２の入れ子和項３６が「最悪状況」であると仮定し、前述したように、これは、最も多くの計算サイクルを招く状況であり、即ち、重みベクトルの残りの未知のビットがそれぞれ「１」であると仮定する。ｎ＝２の場合、この値は十進法による３１であるため、各入力値に仮定された各重みベクトルの値３１を乗算し、続いて加算し、数４０，２０７が得られる。この最悪状況の和を累積値の－３７，３７６と比較すれば、最終値が－３７，３７６＋４０，２０７＝２，８３１と高い可能性があることが分かる。この値が負ではなく、即ち、活性化関数が実行された後の結果が非ゼロ値であるため、より多くのビットを処理する必要がある。

図１２は総和を説明し、ｎ＝３であり、即ち、ｊ＝０、１、２、３である。ｊ＝０の場合、－３７，３７６であると計算された。ｊ＝１の場合、第１の入れ子和項３４（図７を参照）では、各入力ベクトルＩ_ｉに、対応する重みベクトル（即ち、Ｗ_ｉ，３）におけるｊ＝３ビットを乗算し、且つこの値に３ビットのビット値を乗算する（２^{Ｋ－ｊ－１}－＞２^{８－３－１}－＞２^４）。従って、Ｗ_ｉ，３＝０の場合、発生値は０となり、Ｗ_ｉ，３＝１の場合、発生値は、対応する入力に２^４を乗算したものである。これらは、第１の入れ子和項３４の外部総和に基づいて計算してから総和を求めたものである。この実例において、和が８，８００に等しい。この値をｊ＝０、１、２の場合の値に加算した場合、総和は－２８，５７６である。

図１２の第２の入れ子和項３６が「最悪状況」であると仮定し、前述したように、これは、最も多くの計算サイクルを招く状況であり、即ち、重みベクトルの残りの未知のビットがそれぞれ「１」であると仮定する。ｎ＝３の場合、この値は十進法による１５であるため、各入力値に仮定された各重みベクトルの値１５を乗算し、続いて加算し、数１９，４５５が得られる。この最悪状況の和を累積値の－２８，５７６と比較すれば、最終値が－２８，５７６＋１９，４５５＝－９１２１と高い可能性があることが分かる。この値は「最悪状況」の場合に対して負であるため、重みベクトルの任意の残りの値によっても負でない値が発生することはないと判定することができる。換言すれば、ｎ＝４、５、６、７の重みベクトルの残りのビットには何の値もなく、これによって負でない積和の累積が発生する。重みベクトルの任意の残りの未処理ビットの累積値が常に負であるため、ＲｅＬＵ活性化関数に伝達された場合、結果は常に０となる。従って、任意の更なるビットを処理することは、リソースの浪費を招く。この場合、スキップモジュールは、スキップ信号を活性化し、次の入力ブロックを処理する。

図１３は、スキップ評価及び活性化特徴のプロセスフローチャート１００を説明する。操作１１０において、ＭＡＣ和積累積の一部として、ワード単位の入力及びビット単位の重みで部分和累積を実行する。この方式は、前述したように、符号無し入力値（任意のビット長さ）全体にビット単位で符号付き重みベクトルを乗算する。部分和累積態様は、重みベクトルをビット単位で処理する反復プロセスを反映する。従って、操作１１０において、重みベクトルの１つのビットを処理する。操作１２０において、スキップ条件に対して部分累積積和を評価する。スキップ条件は、対応する活性化関数に基づくものであってよい。例えば、幾つかの実施例において、活性化関数はＲｅＬＵ活性化関数であってよく、よって、ＭＡＣ和積累積の出力が負である場合、活性化関数の出力がゼロとなる。従って、スキップ条件によって、部分累積積和を評価してＭＡＣ和積が正であるか又は負であるかを予測することができる。幾つかの実施例において、スキップ条件は、予め定義されたしきい値に基づくものであってもよい（例えば図２３Ａ及び図２３Ｂ及びそれに付けられた記述を参照）。他の実施例において、残りの未処理重みビットに対する予測に基づいてスキップ条件を動的に計算してもよい。

操作１３０において、部分累積積和がスキップ条件を満たすと判定した場合、操作１４０において、後続の操作をスキップしてよいことを指示するように信号をアサートする。後続の操作は、例えばメモリアクセス読み取り操作（例えば、入力又は重み値のロードなど）又は計算操作（例えば、後続の反復）を含んでよい。操作１３０において部分累積積和がスキップ条件を満たしていないと判定した場合、操作１５０において全ての重みビットを処理したか否かを判定する。全ての重みビットを処理し終わった場合、処理が終了し、且つ、操作１６０において部分累積積和がＭＡＣ和積出力として累積された。操作１６０において出力を判定した後、操作１７０において活性化関数を出力に適用する。操作１５０において、全ての重みビットが処理されたわけではない場合、操作１８０において次の重みビットに進み、且つこのプロセスは操作１１０から繰り返される。操作１４０の後、スキップ条件を満たすとともに、後続の操作をスキップするように前記信号をアサートした場合、出力は選択的に累積積和とされてよく、且つ出力に操作１７０における活性化関数を実行してよいことに留意されたい。

図１４は、ＭＡＣスキップ回路２００のハードウェア実装の高度回路ブロック図を説明する。幾つかの実施例において、ＭＡＣスキップ回路２００は、単一の半導体基板で実現されてよい。他の実施例において、ＭＡＣスキップ回路２００は、複数の半導体基板で実現されてよく、且つ相互接続する必要がある。入力フリップフロップ（ｆｌｉｐ－ｆｌｏｐ；ＦＦ）２１０は、符号無し入力ベクトル２０５から入力値を取得する。重みフリップフロップ２２０は、符号付き重みベクトル２１５から入力を取得する。入力ベクトル２０５に、乗算器２２５により重みベクトル２１５の次のビットを乗算する。次のビットが第１のビットである場合、結果を２の補数形式に変換し、且つ加算ブロック２３０により左シフト部分和のビット２５５ａ（「０」に初期化）に加算し、続いて新たな部分和２３５ａとして記憶し、そうでなければ、結果を加算ブロック２３０により左シフト部分和のビット２５５ａに加算する。重みベクトル２１５の全てのビットが処理された場合、部分和２３５ａを出力２４０とする。そうでなければ、反復する度に、スキップモジュール２４５により部分和２３５ａを評価してスキップ条件が存在するか否かを判定する。スキップ条件が存在する場合、スキップ信号をアサートする。スキップ条件が存在しない場合、スキップ信号がアサートされるか又は残りのＫビットが処理し終わるまでに、重みベクトルのＫビットのうちの各ビットに対して前記プロセスを再度繰り返す。スキップ信号がアサートされた場合、部分和２３５ａを出力２４０としてもよく、修正して出力２４０としてもよく、又はゼロを出力２４０としてもよい。

図１５は、幾つかの実施例によるＭＡＣスキップ回路２００のより詳細なブロック図を説明する。類似する参照符号は、上記した図１４について検討されたＭＡＣスキップ回路２００と類似する素子を表すために用いられる。同じラベルを有するピンは結合される（例えば、「ｘ」と付けられた出力ピンは、「ｘ」と付けられた入力ピンに結合される）ことを理解されたい。ＩＮＰＵＴベクトル２０５は、１組のＭ個のＮビットベクトルを含む。ＩＮＰＵＴベクトル２０５からＩＮＰＵＴフリップフロップ（ＦｌｉｐＦｌｏｐ；ＦＦ）２１０への矢印線にある斜線は、１本の線が複数の線を説明するために用いられることを表す。幾つかの実施例において、Ｍ本の線がＩＮＰＵＴＦＦ２１０に向かい、１本の線が各入力ベクトル２０５に用いられる可能性がある。幾つかの実施例において、Ｍ個のベクトルのそれぞれはＮ本の線を有し、又はＮ×Ｍ本の線がＩＮＰＵＴＦＦ２１０に向かう可能性がある。これらの実施例において、Ｍ個のベクトルの各ビットを並行して処理してよい。入力ベクトル２０５は、１回に１ビットずつラッチしてもよく、又はワード単位で、例えば１回に８ビットずつラッチしてもよい。

ＩＮＰＵＴＦＦ２１０は、入力ベクトル２０５をＭＡＣスキップ回路２００にラッチするためのフリップフロップ回路ブロックである。ＩＮ＿ＬＡＴピンは、ＩＮＰＵＴＦＦ２１０にラッチ信号入力を提供し、活性化時に、前記ラッチ信号入力によってＩＮＰＵＴＦＦ２１０がＩＮＰＵＴベクトル２０５をＩＮＰＵＴＦＦ２１０にラッチする。ＲＳＴピンは、ＩＮＰＵＴＦＦ２１０のリセット信号入力に用いられ、各種のブロックに提供可能な汎用リセット信号に対応し、ＭＡＣスキップ回路２００（ＩＮＰＵＴＦＦ２１０を含む）の状態を初期／リセット状態に戻す。幾つかの実施例において、ＩＮＰＵＴＦＦ２１０は、各入力ベクトル２０５の各ビットに対応するように、十分なフリップフロップ状態、即ちＭ×Ｎ個のフリップフロップ状態を含む。フリップフロップは、一連のレジスタに配置されてよく、例えば、１つのＮビットレジスタは、各々のＭ個の入力ベクトル２０５に用いられる。

ＷＥＩＧＨＴＦＦ２２０は、重みベクトル２１５をＭＡＣスキップ回路２００にラッチするためのフリップフロップ回路ブロックである。Ｗ＿ＬＡＴピンは、ＷＥＩＧＨＴＦＦ２２０にラッチ信号入力を提供し、活性化時に、前記ラッチ信号入力によってＷＥＩＧＨＴＦＦ２２０が重みベクトル２１５をＷＥＩＧＨＴＦＦ２２０にラッチする。ＲＳＴピンは、ＷＥＩＧＨＴＦＦ２２０のリセット信号入力に用いられ、各種のブロックに提供可能な汎用リセット信号に対応し、ＭＡＣスキップ回路２００（ＷＥＩＧＨＴＦＦ２２０を含む）の状態を初期／リセット状態に戻す。幾つかの実施例において、ＷＥＩＧＨＴＦＦ２２０は、全ての重みベクトル２１５をラッチし、Ｍ個のＫビット重みベクトル２１５を格納するために十分なフリップフロップ状態、即ちＭ×Ｋ個のフリップフロップ状態を有する。他の実施例において、ＷＥＩＧＨＴＦＦ２２０は、１回に各重みベクトル２１５の１ビットだけラッチし、ＭＳＢから開始し、即ちＫ個のフリップフロップ状態を有する。ＷＥＩＧＨＴＦＦ２２０の出力には、各重みベクトル２１５の同じビット値の各重みビットに対する並行出力が含まれてよい。

乗算器２２５は、ビット単位でＩＮＰＵＴＦＦ２１０にラッチされている各ＩＮＰＵＴベクトル２０５とＷＥＩＧＨＴＦＦ２２０にラッチされている対応する各重みベクトル２１５を乗算するための乗算器回路ブロックである。換言すれば、毎回各重みベクトル２１５の１ビットのみと、対応する入力ベクトル２０５とを乗算する。乗算器２２５はＦｌｏｗ＿Ｔｈｒｕピンも含み、活性化時に、前記Ｆｌｏｗ＿Ｔｈｒｕピンにより、ＷＥＩＧＨＴＦＦ２２０からのビット値に関係なく、乗算器２２５が入力ベクトル２０５を通過するようにする。

図１４の加算ブロック２３０は、加算器２３０ａと累積器２３０ｂに分解される。加算器２３０ａは、各ビット単位の重みによる入力ベクトル２０５を加算するための加算器回路ブロックである。図に説明されるように、加算器ツリー回路ブロックを使用するが、他のタイプの加算器を使用してもよい。加算器のストラテジーとしてはキャリーを保持する。加算器２３０ａの出力ビット数は、各入力ベクトルのビット数（Ｎ）及び入力ベクトル数（Ｍ）に関連している。加算器は、Ｎ＋Ｒｏｕｎｄｕｐ（ｌｏｇ_２Ｍ）ビットを出力する。従って、９個の８ビット入力ベクトルの例示的な畳み込みに対して、加算器は、８＋４＝１２ビットを出力する。加算器２３０ａの出力ピンは、累積器２３０ｂの入力ピンに結合される。

累積器２３０ｂは、実質的に入力の和積とビットシフトの前の和積を加算する２×１加算器回路ブロックであり、且つそれを累積器２３０ｂの別の入力ピンにフィードバックする。累積器２３０ｂは、ＡＤＤ（加算）ピンを含み、活性化時に、前記ＡＤＤピンは、累積器２３０ｂが２つの入力を減算せずに２つの入力を加算するように指示する。累積器２３０ｂの出力は、シフトレジスタ２３５の入力ピン及びスキップモジュール２４５の入力ピンに提供される。

シフトレジスタ２３５は、シフト能力を有するレジスタに配置されている複数のフリップフロップを含む。シフトレジスタ２３５は、ＳＨＩＦＴ入力ピン２５５を含み、活性化時に、前記ＳＨＩＦＴ入力ピン２５５によってシフトレジスタ２３５がシフトレジスタ２３５におけるコンテンツを左シフトさせる。シフトレジスタ２３５は、累積器２３０ｂの出力をシフトレジスタ２３５にラッチするようにラッチ信号入力を提供するためのＡＣＣ＿ＬＡＴピンも含む。ＲＳＴピンは、シフトレジスタ２３５のリセット信号入力であり、ＭＡＣスキップ回路２００（シフトレジスタ２３５を含む）の状態を初期／リセット状態に戻すように提供可能である汎用リセット信号に対応する。

スキップモジュール２４５は、スキップ条件が発生したか否かを判定する回路ブロックである。スキップモジュールの細部について、後述で図１７を参照してより詳細に検討する。スキップモジュール２４５は、累積器２３０ｂの出力を受信する入力ピン及びコントローラ２６０にスキップ信号を提供可能な出力ピン２５０（ＳＫＩＰピン２５０）を含む。ＲＳＴピンは、スキップモジュール２４５のリセット信号入力に用いられ、ＭＡＣスキップ回路２００（スキップモジュール２４５を含む）の状態を初期／リセット状態に戻すように提供可能な汎用リセット信号に対応する。

コントローラ２６０は、状態機械を含むとともに、上記図１５の各種の回路ブロックの間のインタラクションを制御するように必要な信号を駆動する回路ブロックである。続いてコントローラ２６０をより詳細に検討する。

図１６は、コントローラ２６０回路ブロックを説明するブロック図である。コントローラ２６０は、有限状態機械（ｆｉｎｉｔｅｓｔａｔｅｍａｃｈｉｎｅ；ＦＳＭ）３０５回路ブロック、状態ロジック３１０回路ブロック、カウンタ（ｃｏｕｎｔｅｒ；ＣＮＴ）３１５回路ブロック、カウンタロジック（ＣＮＴｌｏｇｉｃ）３２０回路ブロック、復号化状態フリップフロップ（ｓｔａｔｅｆｌｉｐｆｌｏｐ；ＳＦＦ）３２５回路ブロック、制御信号用のロジック３３０回路ブロック及びジャンプ（ｊｕｍｐ；ＪＭＰ）ロジック３３５回路ブロックを含む、複数のサブ回路ブロックを含む。コントローラ２６０は、ピン２５０からのＳＫＩＰ信号入力、ＳＴＡＲＴ信号入力、ＮＥＸＴ信号入力及びＲＳＴ信号入力を受信するためのピンを有し、各信号入力は、同名のピンにて受信される。コントローラ２６０は、ＩＮ＿ＬＡＴ信号、Ｗ＿ＬＡＴ信号、ＡＣＣ＿ＬＡＴ信号、ＡＤＤ信号、ピン２５５からのＳＨＩＦＴ信号、ＳＫＩＰＦＦ＿ＬＡＴ信号、ＳＫＩＰＳＲ＿ＬＡＴ信号、ＳｋｉｐＳＨＩＦＴ信号、Ｆｌｏｗ＿Ｔｈｒｕ信号及びＯＵＴ＿ＲＤＹ信号を含む制御信号を提供するためのピンを有し、各信号は同名のピンにて提供される。これらの制御信号は、制御信号用のロジック３３０により提供される。

ＳＫＩＰピン２５０は、スキップモジュール２４５からの信号を受信し、後述でより詳細に検討する。ＮＥＸＴピンは、コントローラ２６０が状態機械中の次の状態に入るべきか否かを指示するための信号を受信する。ＮＥＸＴピンにより受信した信号は、状態機械が次のステップを続けるべきであることを指示するように切り替え可能である。ＮＥＸＴピンにより受信した信号は、システムの外部に由来する可能性があり、且つシステムの制御に寄与する。ＳＴＡＲＴピンは、状態機械が第１の状態から第２の状態に移動すべきであることを指示する信号を受信する。ロジックによりＳＴＡＲＴピン信号とＮＥＸＴ切り替えを組み合わせることができ、よってＳＴＡＲＴ＝１及びＮＥＸＴ切り替えの場合、状態機械が次の状態に入る。ＳＴＡＲＴピンにより受信した信号は、システムの外部に由来する可能性があり、且つシステムの制御に寄与する。ＲＳＴピンは、コントローラ２６０が全てのラッチ及び状態を初期状態にリセットすべきか否かを指示するための信号を受信する。ＲＳＴピンにより受信した信号は、システムの外部に由来する可能性があり、且つシステムの制御に寄与する。

ＩＮ＿ＬＡＴピン、Ｗ＿ＬＡＴピン、ＡＣＣ＿ＬＡＴピン、ＡＤＤピン、ＳＨＩＦＴピン２５５、ＳＫＩＰＦＦ＿ＬＡＴピン、ＳＫＩＰＳＲ＿ＬＡＴピン、ＳｋｉｐＳＨＩＦＴピン及びＦｌｏｗ＿Ｔｈｒｕピンについて、上記で検討された各種の回路ブロックの対応するピンをもって検討する。ＯＵＴ＿ＲＤＹピンは信号を提供し、活性化時に、前記信号は、ＭＡＣスキップ回路２００の出力を、例えば活性化機能（例えばＲｅＬＵ活性化機能）を実現する回路により取得するか又はこの回路に提供する準備ができていることを指示する。

ＦＳＭ３０５は、現在の状態及び次の状態を判定する回路ブロックであり、現在の状態はＳＴピンにて出力され、現在の実施例において、これらのＳＴピンは、以下に図２４Ａ及び図２４Ｂについて記述される状態図で代表される８種類の可能な状態の１つの３つのピン＜０：２＞を含んでよい。現在の状態、ＳＴＡＲＴピンの値、ＲＳＴピンの値、ＪＭＰ０ピンの値、ＪＭＰ１ピンの値及びＮＥＸＴピンの値の切り替えに基づき、次の状態を生成してＳＴピンに置く。

ＳＴピンは、状態ロジック３１０回路ブロックの同名のピンに結合される。状態ロジック３１０ブロックは、ＳＴピン及びＮＥＸＴピンを使用してピンＳＴ＿ｄにホットメソッドで置かれた復号化出力を判定し、８個のピンを含む。ホットメソッドによる復号化により、８種類の可能な状態のそれぞれを出力条件に変換し、１回に１つの出力ピンのみが高であり、他方が低に維持されることで、１つのピンが可能な状態のそれぞれに効果的に割り当てられる。ＮＥＸＴピンは、活性化時に状態ロジック３１０に信号を発して新たな入力を探す。

カウンタ（ｃｏｕｎｔｅｒ；ＣＮＴ）３１５回路ブロックは、ビット単位で重み値を処理しやすくするように重みベクトルのビット位置に追跡するためのカウンタを生成する回路ブロックである。ＣＮＴ３１５のＣＮＴピンは、＜０：Ｋ’＞ピンを含み、Ｋ’はＲｏｕｎｄｕｐ（ｌｏｇ_２Ｋ）に等しい。ＣＮＴ３１５モジュールの出力値は、ＣＮＴｐｌｕｓピンに応じて変化する。ＣＮＴｐｌｕｓピンが活性化する時、ＣＮＴピンは変化し、値を出力し、この値は前の出力に１を加算したものに等しい。ＲＳＴピンはピンであり、活性化時に、ＣＮＴ３１５をリセットし、ＣＮＴピンの値をゼロに調整する。

ＣＮＴロジック３２０回路ブロックは、状態ロジック３１０回路ブロックに類似する回路ブロックである。ＣＮＴロジック３２０回路ブロックは、ＣＮＴ３１５回路ブロックに結合される同名のピンを有し、且つ、ピンＣＮＴ＿ｄにおいて、ホットメソッドで復号化出力を提供する。ＣＮＴ＿ｄのピン数は、＜０：Ｋ＞であり、Ｋは、前述した通り、重みベクトル２１５のビット数である。ＮＥＸＴピンは、活性化時にＣＮＴロジック３２０に信号を発してＣＮＴで新たな入力を探す。

状態フリップフロップ（ｓｔａｔｅｆｌｉｐｆｌｏｐ；ＳＦＦ）３２５回路ブロックは、フリップフロップを含む回路ブロックであり、このフリップフロップは、状態ロジック３１０回路ブロックからの復号化状態ピンに存在する各値を記憶するために用いられる。例えば、ＳＦＦ３２５は、各復号化状態ピン用のＤ型フリップフロップを含んでよい。その代わりに、他のフリップフロップのタイプを使用してもよい。ＳＴ＿ｄｌａｔピンは、ラッチ信号を制御信号のロジック３３０に伝送することができる。

制御信号回路ブロック用のロジック３３０は、ＳＴ＿ｄｌａｔ用のピン、ＣＮＴ＿ｄ用のピン、ＮＥＸＴ用のピン、ＲＳＴ用のピン、ＣＮＴｐｌｕｓ用のピン及びＩＮ＿ＬＡＴ、Ｗ＿ＬＡＴ、ＡＣＣ＿ＬＡＴ、ＡＤＤ、ピン２５５からのＳＨＩＦＴ信号、ＳｋｉｐＦＦ＿ＬＡＴ、ＳｋｉｐＳＲ＿ＬＡＴ、ＳｋｉｐＳＨＩＦＴ、Ｆｌｏｗ＿Ｔｈｒｕ及びＯＵＴ＿ＲＤＹ用のピンを有する回路ブロックである。これらの同名のピンの信号は、以下に記述される状態図及び状態テーブルに基づいてロジックゲートにより生成する。

ジャンプ（ｊｕｍｐ；ＪＭＰ）ロジック３３５回路ブロックは、ＣＮＴ又はＣＮＴ＿ｄピンに結合されるピン、ＳＴ又はＳＴ＿ｄピンに結合されるピン、ＲＳＴピンに結合されるピン、ＮＥＸＴピンに結合されるピン及びＳＫＩＰピン２５０に結合されるピンを有する回路ブロックである。ＪＭＰロジック３３５は、ＦＳＭ３０５のＪＭＰ０ピンに結合されるＪＭＰ０ピン及びＦＳＭ３０５のＪＭＰ４ピンに結合されるＪＭＰ４ピンも有する。ＪＭＰロジック３３５としては、以下の２つの条件のいずれかが真である場合にＪＭＰ０ピンを活性化するロジックを使用する。１つ目は、ＲＳＴ＝０ＡＮＤＮＥＸＴ切り替えＡＮＤＣＮＴ＝１の場合であり、又は、２つ目は、ＳＫＩＰ＝１の場合である。ＪＭＰロジック３３５は、ＲＳＴ＝０ＡＮＤＮＥＸＴ切り替えＡＮＤＣＮＴ！＝７の場合にＪＭＰ４ピンを活性化するロジックを使用する。選択的に、ＪＭＰ０又はＪＭＰ４ピンの活性化は、現在の状態が７である場合に限られる可能性がある。これは、ＳＴ又はＳＴ＿ｄピンから取得されてもよく、ホットピンにより復号化したＳＴ＿ｄ＜７＞ピンなどの特定のＳＴ＿ｄピンから取得されてもよい。ＪＭＰロジック３３５回路ブロックは、前記ロジックを実現する形態の１つに過ぎないことを理解されたい。前記ロジックは、付加状態としてロジック３３０又は有限状態機械に統合されてもよい。

図１７は、幾つかの実施例によるスキップモジュール２４５回路ブロックのブロック図を説明する。スキップモジュール２４５回路ブロックは、図７の数式、図８～図１２の実例又は図１３のフローチャートに基づき、他のロジック／回路ブロックにより実現されてよい。スキップモジュール２４５は、入力和フリップフロップ（ｉｎｐｕｔｓｕｍｆｌｉｐｆｌｏｐ；ＩＳ＿ＦＦ）３５０、シフトレジスタ３５５、減算器３６０、比較器３６５、絶対値（ａｂｓｏｌｕｔｅｖａｌｕｅ；Ａｂｓ）回路ブロック３７０及びスキップフリップフロップ（ｓｋｉｐｆｌｉｐｆｌｏｐ；ＳｋｉｐＦＦ）３７５回路ブロックを含む、複数のサブ回路ブロックを含む。スキップモジュール２４５は、ＳｋｉｐＳＨＩＦＴピン、ＳｋｉｐＳＲ＿ＬＡＴピン、ＳｋｉｐＦＦ＿ＬＡＴピン、ＲＳＴピン、入力和ピン群、累積積和ピン群及びＳＫＩＰピン２５０を含む。これらのピンは、同名の信号を提供又は受信し、且つ以上に記載のＭＡＣスキップ回路２００の同名のピンに結合される。

ＩＳ＿ＦＦ３５０回路ブロックは、フリップフロップを利用してＩＳピンからの入力和を記憶することができる回路ブロックである。ＳｋｉｐＦＦ＿ＬＡＴピンは、入力和をＩＳ＿ＦＦ３５０にラッチするための信号を提供することができる。ＲＳＴピンは、ＩＳ＿ＦＦ３５０を初期化状態にリセットするための信号を提供することができる。ＩＳ＿ＦＦ３５０のビット数は、ＩＮＰＵＴベクトル２０５のビット数Ｎに入力ベクトル数Ｍの対数（２を底とする）（Ｒｏｕｎｄｕｐ（ｌｏｇ_２Ｍ））を加算したものに等しくされてよい。ＩＳ＿ＦＦ３５０の出力ピンは、シフトレジスタ３５５及び減算器３６０に結合されて減数とされてよい。

シフトレジスタ３５５回路ブロックは、左シフトを実行可能なレジスタを利用した回路ブロックである。ＳｋｉｐＳＨＩＦＴピンは、活性化時に左シフトをトリガする。ＳｋｉｐＳＲ＿ＬＡＴピンにより、活性化時にＩＳ＿ＦＦ３５０からの入力和（ＩｎｐｕｔＳｕｍ；ＩＳ）をシフトレジスタ３５５にラッチする。ＲＳＴピンは、シフトレジスタ３５５を初期化状態にリセットするための信号を提供することができる。シフトレジスタ３５５のビット数は、ＩＮＰＵＴベクトル２０５のビット数Ｎに重みベクトル２１５のビット数Ｋを加算して入力ベクトル数Ｍの対数（２を底とする）（Ｒｏｕｎｄｕｐ（ｌｏｇ_２Ｍ））を加算したものに等しくされてよい。シフトレジスタ３５５の出力ピンは、減算器３６０に結合されて被減数とされてよい。

減算器３６０は、ＩＳ＿ＦＦ３５０の値を取り、且つシフトレジスタ３５５の値からこの値を減算して出力Ｂを計算する。減算器３６０は、出力ピンを介して出力Ｂを比較器３６５に提供する。

絶対値（ａｂｓｏｌｕｔｅｖａｌｕｅ；Ａｂｓ）回路ブロック３７０は、累積積和（ａｃｃｕｍｕｌａｔｅｄｐｒｏｄｕｃｔｓｕｍ；ＡＰＳ）を取得し、絶対値を計算し且つそれを出力Ａとして比較器３６５に提供するための回路ブロックである。Ａｂｓ回路ブロック３７０は、これらの機能の対応するピンを含む。Ａｂｓ回路ブロック３７０は、選択的に１組のＴＨピンを介してしきい値ＴＨを取得するために用いられてよく、スキップ条件の発見可能性を向上又は低下させるために、前記しきい値ＴＨをＡＰＳの絶対値に加算してしきい値オフセットとしてよい。これらの実施例において、Ａｂｓ回路ブロック３７０は、出力Ａを比較器３６５に提供する前に出力Ａにしきい値ＴＨを加減するための加算器を含んでよい。以下、図２３Ａ及び図２３Ｂを参照してしきい値ＴＨをより詳細に検討する。

比較器３６５回路ブロックは、出力Ａと出力Ｂを比較する回路ブロックである。出力Ａが出力Ｂよりも大きい場合、スキップ条件が発見される。比較器は、これらの値の対応するピンを含む。スキップ条件は、ＳｋｉｐＦＦ３７５回路ブロックに結合されるＳｋｉｐ＿ＬＡＴピンにて提供される。ＳｋｉｐＦＦ３７５回路ブロックは、フリップフロップを含む回路ブロックであり、Ｓｋｉｐ＿ＬＡＴピンにある信号により活性化する時、このフリップフロップはＳＫＩＰ出力ピン２５０をラッチする。

図１５のＭＡＣスキップ回路２００の操作は、図１５、図１６及び図１７における回路ブロック図を参照しながら、図１８～図２２における例示的な状況により論証されてよい。図１８は、上記で図８において使用される入力ベクトル及び重みベクトルと同じものを説明する。入力ベクトルは、ＩＮＰＵＴＦＦ２１０にラッチされる。重みベクトルの第１のＭＳＢビットは、ＷＥＩＧＨＴＦＦ２２０にラッチされる。図１８において、重み値に関係なく、Ｆｌｏｗ＿Ｔｈｒｕピンは乗算器２２５で活性化され、入力ベクトルが乗算器２２５を流れることを可能にする。これは、各入力ベクトルに「１」を乗算することに相当する。続いて入力ベクトルは加算器２３０ａにより加算し、且つ入力和０１０１０００１０００１（１２９７）をスキップモジュール２４５に提供する。入力和は、ＩＳ＿ＦＦ３５０にラッチされる。前述したように、ＩＳ＿ＦＦ３５０のビット数Ｎ_ＩＳ＝Ｋ＋Ｒｏｕｎｄｕｐ（ｌｏｇ_２Ｍ）である。入力和の最高位Ｎ_ＩＳ－Ｋ＋１ビットは、シフトレジスタ３５５にラッチされる。これは、入力和を２^Ｎ _ＩＳ ^－Ｋ＋１で割ることに相当し、この場合に２^７である。このようにする理由は、入力ベクトルと重みベクトルのＭＳＢの積の計算が完全に重み付けされていないからである。各サイクルで部分累積積和を１つの位置だけ移動させる。同様に、各サイクルでシフトレジスタを１つの位置だけ移動させる。従って、入力和の最高位Ｎ_ＩＳ－Ｋ＋１ビットにより同一の乗算器で比較するように確保することができる。

例えば、重みビットのＭＳＢの部分累積積和は、

に等しく、続いてそのビット値２^７を乗算する。残りの未処理の重みは、

に調整可能である。最悪の場合、各重みビットは１である。従って、上記式は、

に書き直すことができ、ＩＳは、全ての重みビットが１である状況と同じである。ＩＳを分解し、これはＩＳ・１２７に相当する。部分累積積和のビット値がまだシフトされていないため、ＩＳ・１２７を１２８で割り、ＩＳ－ＩＳ／１２８を計算することで得られ、例えば、

である。

従って、スキップしきい値ＳＴＨは、入力和の最高位Ｎ_ＩＳ－Ｋ＋１ビットをシフトレジスタ３５５に代入することで計算することができ、前述したように、これは、入力和を１２８で割ることに相当する。続いてシフトレジスタ３５５を入力和から減算してＳＴＨを得ることができる。

図１９において、第１の重みビットを処理する。各入力にそれぞれ重みベクトルのＭＳＢのうちの対応する１つを乗算する。続いて、これらの積を加算して、００１１００１００１０１（８０５）を得る。第１のビットが符号ビットであるため、初期化の累積積和（即ち、０）からこの値（ＡＤＤ＝０）を減算し、累積積和を２の補数形式に変更する。被減数としてのＩＳ＿ＦＦ０１０１０００１０００１（１２９７）から減数としてのシフトレジスタ１０１０（１０）を減算することでスキップしきい値（ＳＴＨ）を計算する。スキップ条件が現れたか否かを判定するために、ＳＴＨ０１０１０００００１１１（１２８７）と累積積和の絶対値００１１００１００１０１（８０５）を比較する。条件Ａ＞Ｂを満たしていないため、後続のサイクルで次の重みビットを処理する。

図２０において、累積積和が左シフトし、且つ第２の重みビットを処理する。各入力のいずれにも重みベクトルの次のビットのうちの対応する１つを乗算する。続いてこれらの積を加算して、００１０１１１１０１０１（７５７）を得る。この値をシフト累積積和に加算して、１１１１１１１１１１００１０１０１０１１（－８５３）を得る。従って、累積積和は

に等しい。シフトレジスタ３５５もシフトし、且つそれをＩＳ＿ＦＦ３５０から再度減算してスキップしきい値ＳＴＨ０００００００００１００１１１１１１０１（１２７７）を探し出す。このようにする理由は、最悪の状況が

であり、ＩＳ・６３に等しいからである。シフトレジスタ３５５は、この前にＩＳを１２８で割ったものであるが、累積積和が一回シフトしたため、シフトレジスタ３５５も一回シフトし、６４で割るものとなる。値ＩＳ・６３／６４は、ＩＳ－ＩＳ／６４を計算することで得られる。又は、入力和の最高位Ｎ_ＩＳ－Ｋビットは、シフトレジスタ３５５にラッチされてよく、これは、ＩＳを６４で割ることに相当する。スキップ条件が発生したか否かを判定するために、ＳＴＨ０００００００００１００１１１１１１０１（１２７７）と累積積和の絶対値００１１０１０１０１０１（８５３）を比較する。条件Ａ＞Ｂを満たしていないため、後続のサイクルで次の重みビットを処理する。

図２１において、累積積和が左シフトし、且つ第２の重みビットを処理する。各入力のいずれにも重みベクトルの次のビットのうちの対応する１つを乗算する。続いてこれらの積を加算して、００１００００１１０１０（５３８）を得る。この値をシフト累積積和に加算して、１１１１１１１１１０１１０１１１００００（－１１６８）を得る。従って、累積積和は、

に等しい。シフトレジスタ３５５もシフトし、且つそれをＩＳ＿ＦＦ３５０から再度減算して、スキップしきい値ＳＴＨ０００００００００１００１１１０１００１（１２５７）を探し出す。このようにする理由は、最悪の状況が

であり、ＩＳ・３１に等しいからである。シフトレジスタ３５５は、この前にＩＳを６４で割ったものであるが、累積積和が一回シフトしたため、シフトレジスタも一回シフトし、３２で割るものとなる。値ＩＳ・３１／３２は、ＩＳ－ＩＳ／３２を計算することで得られる。又は、入力和の最高位Ｎ_ＩＳ－Ｋ－１ビットは、シフトレジスタ３５５にラッチされてよく、これは、ＩＳを３２で割ることに相当する。スキップ条件が発生したか否かを判定するために、ＳＴＨ０００００００００１００１１１０１００１（１２５７）と累積積和の絶対値０１００１００１００００（１１６８）を比較する。条件Ａ＞Ｂを満たしていないため、後続のサイクルで次の重みビットを処理する。

図２２において、累積積和が左シフトし、且つ第３の重みビットを処理する。各入力のいずれにも重みベクトルの次のビットのうちの対応する１つを乗算する。続いてこれらの積を加算して、００１０００１００１１０（５５０）を得る。この値をシフト累積積和に加算して、１１１１１１１１１００１０００００１１０（－１７８６）を得る。従って、累積積和は、

に等しい。シフトレジスタ３５５もシフトし、且つそれをＩＳ＿ＦＦ３５０から減算してスキップしきい値ＳＴＨ０００００００００１００１１０００００１（１２１７）を探し出す。このようにする理由は、最悪の状況が

であり、ＩＳ・１５に等しいからである。シフトレジスタ３５５は、この前にＩＳで３２で割ったものであるが、累積積和が一回シフトしたため、シフトレジスタも一回シフトし、１６で割るものとなる。値ＩＳ・１５／１６は、ＩＳ－ＩＳ／１６を計算することで得られる。又は、入力和の最高位Ｎ_ＩＳ－Ｋ－２ビットは、シフトレジスタ３５５にラッチされてよく、これは、ＩＳを１６で割ることに相当する。スキップ条件が発生したか否かを判定するために、ＳＴＨ０００００００００１００１１１０１００１（１０００００００００１００１１０００００１（１２１７）と累積積和の絶対値０１１０１１１１１０１０（１７８６）を比較する。条件Ａ＞Ｂを満たすため、重みビットの残りの処理を中止し、且つ、活性化関数（例えばＲｅＬＵ活性化関数）を実現する回路に出力を提供することができる。

しきい値に達していないと仮定すれば、殆ど同じ形で次のサイクルを続けて処理する。各入力に重みベクトルの次のビットを乗算する。続いてこれらの積を加算して、加算器２３０ａの出力を得る。続いてこの値をシフト累積積和に加算して、

を得る。シフトレジスタ３５５もシフトし、且つそれをＩＳ＿ＦＦ３５０から再度減算してスキップしきい値を探し出す。このようにする理由は、最悪の状況が

であり、ＩＳ・７に等しいからである。シフトレジスタは、この前にＩＳを１６で割ったものであるが、累積積和が一回シフトしたため、シフトレジスタも一回シフトし、８で割るものとなる。ＩＳ－ＩＳ／８を計算することで値ＩＳ・７／８が得られる。又は、入力和の最高位Ｎ_ＩＳ－Ｋ－３ビットは、シフトレジスタ３５５にラッチされてよく、これは、ＩＳを８で割ることに相当する。スキップ条件が発生したか否かを判定するために、ＳＴＨと累積積和の絶対値を比較する。

しきい値に達していないと仮定すれば、同じ形で次のサイクルを続けて処理する。各入力に重みベクトルの次のビットを乗算する。続いてこれらの積を加算して、加算器２３０ａの出力を得る。続いてこの値をシフト累積積和に加算して、

であり、ＩＳ・３に等しいからである。シフトレジスタは、この前にＩＳを８で割ったものであるが、累積積和が一回シフトしたため、シフトレジスタも一回シフトし、４で割るものとなる。ＩＳ－ＩＳ／４を計算することで値ＩＳ・３／４が得られる。又は、入力和の最高位Ｎ_ＩＳ－Ｋ－４ビットは、シフトレジスタ３５５にラッチされてよく、これは、ＩＳを４で割ることに相当する。スキップ条件が発生したか否かを判定するために、ＳＴＨと累積積和の絶対値を比較する。

であり、ＩＳに等しいからである。シフトレジスタは、この前にＩＳを４で割ったものであるが、累積積和が一回シフトしたため、シフトレジスタも一回シフトし、２で割るものとなる。ＩＳ－ＩＳ／２を計算することで値ＩＳ・１／２が得られる。又は、入力和の最高位Ｎ_ＩＳ－Ｋ－５ビットは、シフトレジスタ３５５にラッチされてよく、これは、ＩＳを２で割ることに相当する。スキップ条件が発生したか否かを判定するために、ＳＴＨと累積積和の絶対値を比較する。

しきい値に達していないと仮定すれば、同じ形で次のサイクルを続けて処理する。重みビット数Ｋが８に等しくなる場合、この実例に示すように、未知の重み値がなくなるため、これは最後のサイクルとなる。各入力に重みベクトルの次のビットを乗算する。続いてこれらの積を加算して、加算器２３０ａの出力を得る。続いてこの値をシフト累積積和に加算して、

を得る。全ての重みビットが処理されたため、活性化関数（例えば、ＲｅＬＵ活性化関数）を実現する回路に出力を提供する。

図２３Ａ及び図２３Ｂを参照されたく、しきい値ＴＨの使用を説明するフローチャートを示し、図１７に示す通りである。前述したように、Ａｂｓ（累積積和）＞ＳＴＨの場合、スキップ条件を検出する。しきい値ＴＨは付加値であってよく、スキップ条件を回避するために必要とされる条件を緩和することに利用可能である。前述したように、例えば、ＳＴＨの計算は、重みベクトルの最悪状況の仮定に基づくものである。重みベクトルのビットが全て「１」である可能性が殆どないため、しきい値ＴＨを加算することで要件を緩和すれば、受け入れられない誤差量（例えば、しきい値ＴＨを加算すれば、スキップすべきではない値をスキップしてしまうことになるため、誤差が発生する可能性がある）を招くことなく、計算エネルギーをより少なくする。

図２３Ａにおいて、幾つかの実施例において、しきい値ＴＨは、重みベクトルの幾つかの統計的特性及び許容誤差に基づく予め定義された値であってよい。例えば、既知の許容誤差によって最悪状況の緩和が可能となる場合、しきい値ＴＨは、入力和の除算部分に等しくされてよい。例えば、しきい値は、入力和を４、８又は１６で割ったものに等しくされてよい。他の実施例において、しきい値ＴＨは、累積積和（ａｃｃｕｍｕｌａｔｅｄｐｒｏｄｕｃｔｓｕｍ；ＡＰＳ）に基づく予め定義された値であってよい。例えば、しきい値ＴＨは、自身のＡｂｓ（ＡＰＳ）の一部を加算したもの、例えばＡｂｓ（ＡＰＳ）＋Ａｂｓ（ＡＰＳ）／８に等しくされてよい。更に別の実施例において、しきい値ＴＨは、値１２８又は他の値などの定数であってよい。操作４０５において、しきい値ＴＨは、上記した任意の条件などの所定の条件に基づいて計算される。これらの実施例において、しきい値ＴＨは、定数であるか、又は入力和又はＡＰＳなどの利用可能な数値の１つに基づいて計算される。操作４１０において、ＴＨは、比較器３６５に入る前にＡｂｓ（ＡＰＳ）に加算される。実際には、比較器３６５はＡ＋ＴＨ＞Ｂ？又はＡ＞Ｂ－ＴＨ？を判定する。ＴＨは、Ａｂｓ（ＡＰＳ）に加算されるように示されているが、減算器３６０に入る前に、被減数（ＩＳ＿ＦＦ）からＴＨを減算するか、又は（シフトレジスタ３５５から）減数に加算してもよいことに留意されたい。

図２３Ｂでは、幾つかの実施例において、しきい値ＴＨは、幾つかの外部要素に基づいて計算される動的値であってもよく、又は以上に記載の所定の成分に本明細書で検討される動的成分を加算したものであってもよい。例えば、計算装置のリソース（電池、電源、メモリ、処理の利用可能性など）が低ければ、しきい値を増やしてよい。操作４５５において、低計算リソース、高温、失敗した冷却条件、運動などの幾つかの外部要素を含む条件を検出する。操作４６０において、計算エネルギーを低下させるようにＴＨを増やす。ＴＨが増やされると、スキップ条件をトリガする可能性も増やされる。幾つかの実施例において、ＴＨは、以上に記載の所定のＴＨに基づくものであってよいが、計算エネルギーを更に低下させるように後で調整される。ＴＨを増やすことによって誤差が増やされるという潜在的な悪影響を引き起こす。他の実施例において、ＴＨは０に等しくされてよい。操作４６５において、より多くの計算リソースを使用可能にするように条件が既に回復又は変更されたと検出した。操作４７０において、計算エネルギーを増やすとともに誤差を減少するようにＴＨを低下させる。

図２４Ａ、図２４Ｂ及び図２５において、状態に関する情報を提供する。この情報は、実際に使用される部材の運転パラメータ及び特性に応じて変化する可能性があることを理解されたい。例えば、シフトレジスタは、ラッチ信号が特定の形でシフト信号と相互作用するように、組み合わせロジックを使用してよい。別の実例として、幾つかのハードウェアにおいて、乗算器２２５及び加算器２３０ａ回路ブロックは、スタンドアローン状態がなく直ちに計算し始めることができる。図２４Ａは状態図を提供し、図２４Ｂは各状態の期間中に完成した基本プロセスを記述する。簡単にするために、本明細書におけるＣＮＴは、０と７の間の値を有する。ここの７は値Ｋ－１であり、Ｋ＝８であり、各重みベクトルにおけるビット数である。Ｋが異なる数であれば、値「７」を適切に置き換えてよいことを理解されたい。

状態０では、ＭＡＣがアイドルであり、Ｓｋｉｐがアイドルであり、メモリがアイドルである。状態０は準備完了状態である。他の状態に関する計算が完了した場合、戻り状態でもある。任意の他の状態でＲＳＴ信号をアサートした場合も、戻り状態である。図２５に示すように、状態０では、ＯＵＴ＿ＲＤＹ信号が高であり、累積積和は活性化関数に用いることができる。＆＆ＳＴＡＲＴ＝１によってＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態１に入る。

状態１では、メモリは入力ベクトル２０５を読み取り、且つＭＡＣスキップ回路２００のピンにそれらの値を提供する。入力ベクトル２０５をＩＮＰＵＴＦＦ２１０にラッチする。従って、ＩＮＰＵＴ＿ＦＦ２１０の出力は、直ちに乗算器２２５回路ブロックに用いられる出力を有するようになる。Ｆｌｏｗ＿Ｔｈｒｕピンはアクティブ状態にあり、入力ベクトル２０５が乗算器２２５回路ブロックを経由して加算器２３０ａへ流れることを可能にする。加算器２３０ａは、入力ベクトル２０５を加算し、入力和（ｉｎｐｕｔｓｕｍ；ＩＳ）を生成してスキップモジュール２４５に提供する。図２５に示すように、状態１では、ＩＮ＿ＬＡＴピンはアクティブ状態にあり、Ｆｌｏｗ＿Ｔｈｒｕピンはアクティブ状態にある。ＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態２に入る。

状態２では、入力和ＩＳをスキップモジュール２４５のＩＳ＿ＦＦ３５０にラッチする。図２５に示すように、状態２では、Ｆｌｏｗ＿Ｔｈｒｕピンはアクティブ状態にあり、ＳｋｉｐＦＦ＿ＬＡＴピンはアクティブ状態にある。ＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態３に入る。

状態３では、メモリは、ＷＥＩＧＨＴＦＦ２２０にラッチされた重みベクトル２１５のＭＳＢを読み取る。スキップモジュール２４５において、ＩＳの最高位Ｎ_ＩＳ－Ｋ＋１ビットをシフトレジスタ３５５にラッチする。図２５に示すように、状態３では、Ｗ＿ＬＡＴピンはアクティブ状態にあり、ＳｋｉｐＳＲ＿ＬＡＴピンはアクティブ状態にある。ＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態４に入る。

状態４では、入力ベクトル２０５は、ＩＮＰＵＴＦＦ２１０により提供され、現在の重みビットは、ＷＥＩＧＨＴＦＦ２２０により乗算器２２５回路ブロックに提供され、前記乗算器２２５回路ブロックは、入力ベクトル２０５に現在の重みビットを乗算して出力を加算器２３０ａに提供する。積和を累積器２３０ｂに提供する。幾つかの実施例において、前の状態で積和を提供してもよい（例えば、ラッチ操作を行うと、直ちに入力を乗算器２２５に提供する）。ＣＮＴ＝０の場合、ＡＤＤ信号は非アクティブ状態にあり、且つ積和を減算し、積和が負とすべきであるため、この積和は、重みベクトル２１５の符号ビットの積和を表す。ＣＮＴ＝０の場合、部分累積積和は０である。ＣＮＴ！＝０の場合、部分積和は、前の状態７から転移した。累積器がシフトレジスタ２３５からの部分累積積和ＡＰＳと現在の積和を加算した後、累積器２３０ｂの出力ピンは準備完了となる。続いて現在のビットが処理されたことを表すようにカウンタが増える。図２５に示すように、状態４では、ＣＮＴ＿ｐｌｕｓピンはアクティブ状態にある。ＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態５に入る。

状態５では、新たな累積積和ＡＰＳをシフトレジスタ２３５にラッチし、且つスキップモジュール２４５に提供し、スキップモジュール２４５は、比較器３６５回路ブロックを介してＡｂｓ（ＡＰＳ）とＳＴＨを比較する。図２５に示すように、状態５では、ＡＣＣ＿ＬＡＴピンはアクティブ状態にあり、累積積和ＡＰＳをラッチすることを表す。ＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態６に入る。

状態６では、スキップ比較の結果をＳｋｉｐＦＦ３７５にラッチする。図２５に示すように、状態６では、ＳＫＩＰ＿ＬＡＴピンはアクティブ状態にある（ＣＮＴ＝７の場合、全てのビットが処理されたため、この場合を除く）。ＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態７に入る。

状態７では、ＣＮＴ！＝７の場合、シフトレジスタ２３５は、次の重みビットを処理するために準備するように左シフトし、メモリは、重みベクトルの次のビットを読み取り、且つ重みベクトルの次のビットをＷＥＩＧＨＴＦＦ２２０にラッチする。＆＆ＣＮＴ！＝７によりＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態４に入る。これは、まだ他の重みビットを処理する必要があり、且つスキップがアサートされていないことを表す。＆＆ＣＮＴ＝７によりＲＳＴ＝０＆＆ＮＥＸＴをトリガすると、状態０に入り、全ての重みビットが処理されたことを表す。ＣＮＴの値に関係なく、ＳＫＩＰ＝１の場合も、状態０に入り、残りの重みビットに対する更なる処理を中止する。図２５に示すように、状態７では、（ＣＮＴ！＝７）Ｗ＿ＬＡＴ、ＡＣＣ＿ＳＨＩＦＴピンはシフトレジスタ２３５のシフトを表すようにアクティブ状態にあり、ＳｋｉｐＳＨＩＦＴピンはアクティブ状態にある。

図２６は、ＭＡＣスキップ回路を使用したシステム５００のシステム図である。メモリ５０５は、ＭＡＣスキップ回路２００に入力データ及び重みを提供するようにＭＡＣスキップ回路２００に結合される。メモリ５０５は、非一時的なコンピュータ読み取り可能データを記憶するための任意の適切なメモリ装置及び媒体であってよい。コントローラ５１０、例えば畳み込みコントローラ５１０は、ＭＡＣスキップ回路２００及びメモリ５０５に結合される。コントローラ５１０は、ＭＡＣスキップ回路２００の操作を指示するように、例えばＳＴＡＲＴ及びＮＥＸＴ制御信号などの制御信号及びロジックを提供する。ＭＡＣスキップ回路２００は、コントローラ５１０のＯＵＴ＿ＲＥＡＤＹ信号などの状態信号も提供する。コントローラ５１０は、メモリ５０５がどの入力及び重みをＭＡＣスキップ回路に提供するかも指示する。活性化関数５１５は、ＭＡＣスキップ回路２００の出力を採用し、且つＲｅＬＵ活性化関数などの活性化関数を出力に適用する。続いて結果をメモリ５０５に記憶し戻すとともにコントローラ５１０に提供することができる。

図２７は、一連のサンプルテストの結果を説明する。この図は、累積部分和が実行される各データポイントに必要なエネルギーを説明する。楕円形の破線は、スキップモジュールがない場合に処理して生成した累積部分和を囲む。図示するように、累積部分和がゼロよりも大きい場合、スキップモジュールを使用して累積部分和を計算するためのエネルギーは、スキップモジュールを使用しない場合のエネルギーよりも大きい。しかしながら、累積部分和がただ適当に０よりも小さい場合、スキップモジュールを使用する時に必要とするエネルギーは遥かに少ない。この実例において、スキップモジュールを使用する場合に平均エネルギー節約が約１２．２％である。１０％～４０％のエネルギー節約を実現することができる。

上記ＭＡＣプロセスの計算複雑さは、入力及び重みベクトル数Ｍの増加につれて高くなる。ＲｅＬＵ活性化関数は、ＭＡＣの出力値が正の場合のみにＭＡＣの出力値を記憶し、ＭＡＣの出力値が負の場合にゼロを記憶することが既知であれば、実施例により、入力データの残りの処理を選択的にスキップすることで計算能力を節約可能な処理方法、回路及びシステムを提供する。実施例において、積和を反復して計算する。反復する度に、スキップ機能ブロックは部分累積積和を評価する。部分累積積和が負であり、残りの操作によって結果を正にすることができない場合、残りの計算をスキップする。残りの計算をスキップすることで、計算サイクルの減少及びメモリ呼び出しの減少が達成される。

一実施例は、ワード単位の入力及びビット単位の重みで入力ベクトルと重みベクトルの積に部分和累積を行って、部分累積積和を生成するステップと、部分累積積和をしきい値条件と比較するステップと、部分累積積和がしきい値条件を満たす場合、和累積の残りの計算をスキップすることを指示するようにスキップインジケータをアサートするステップと、を含むデータ処理方法である。

実施例において、方法は、入力ベクトルと重みベクトルの少なくとも１つのビット位置の積の部分和累積をスキップするステップを更に含む。実施例において、しきい値条件は、動的に計算されたしきい値条件である。実施例において、部分累積積和が負であり、且つ残りの１組の未知の重みビットによって部分累積積和を正にすることができない場合、スキップインジケータをアサートする。実施例において、残りの１組の未知の重みビットは、１であると仮定される。実施例において、方法は、部分累積積和に対して活性化関数を実行し、活性化関数の出力が０又は部分累積積和の大きい値に等しいことを記録するステップを更に含む。実施例において、方法は、部分累積積和がしきい値条件よりも小さい場合、ワード単位の入力及びビット単位の重みで入力ベクトル及び重みベクトルの残りの部分の積に第２の部分和累積を行って、第２の部分累積積和を生成するステップを更に含む。

別の実施例は、それぞれ１組のＭ個の入力ベクトルに１組のＭ個の重みベクトルの第１の重みビットを乗算して１組目のＭ個の積を計算し、１組目のＭ個の積を加算して第１の積和を計算し、且つ積和出力ピン群にて第１の積和を提供するための乗算累積回路ブロックと、積和出力ピン群に結合される累積器入力ピン群を含み、累積器入力ピン群にて第１の値を受信し、第１の値を累積器回路ブロック内の累積値に加算して第１の値を累積して累積値を置き換え、且つ累積値出力ピン群にて累積値を提供するための累積器回路ブロックと、累積値出力ピン群に結合される累積値入力ピン群を含み、累積値をしきい値と比較し、しきい値を満たす場合、スキップピンにあるスキップ信号をアサートするためのスキップ回路ブロックと、スキップピンにスキップ信号があるか否かをチェックし、スキップ信号がアサートされていない場合、乗算累積回路ブロックが前記組のＭ個の重みベクトルの次の重みビットを処理するようにし、スキップ信号がアサートされた場合、前記組のＭ個の重みベクトルの残りの部分の処理を停止し、出力準備完了信号をアサートし、且つ累積値を活性化回路に提供するための制御回路ブロックと、を備えるデータ処理装置である。

実施例において、スキップ回路ブロックは、処理される前記組のＭ個の重みベクトルの重みビット位置に対して複数回シフトしたシフト入力和を入力和から減算してしきい値を計算し、且つしきい値と累積値を比較するための減算回路ブロックを含む。実施例において、しきい値は第１のしきい値であり、減算回路ブロックは、更に第１のしきい値と累積値を比較する前に第２のしきい値を累積値に加算して累積値を変化させるために用いられる。実施例において、第２のしきい値は、一定値、入力和又は累積値に基づく派生値又は環境変数に基づく動的値であり、前記環境変数は、パワー状態、電池状態、ハードウェア状態又はリソース状態を含む。実施例において、累積器回路ブロックは、ＡＤＤピンを含み、ＡＤＤピンにより制御される時に累積値から第１の値を減算するために用いられ、制御回路ブロックは、更に第１の重みビットが前記組のＭ個の重みベクトルの最上位ビットに対応する場合、ＡＤＤピンを介して累積器回路ブロックが第１の値を減算するように制御するために用いられる。実施例において、装置は、前記組のＭ個の入力ベクトルを記憶するための入力ラッチ回路ブロックと、前記組のＭ個の重みビットを記憶するための重みビットラッチ回路ブロックと、第１の積和を計算するための乗算ブロック及び加算器ツリーを含む乗算累積回路ブロックと、を更に備える。

別の実施例は、それぞれビット単位の重みで入力ノードと入力の複数の重みベクトルの複数の積を計算し、各積の総和を求めて各ビットの積和を計算し、各ビットに対するビット値の位置に基づいて積和を重み付けし、且つ積和を累積して累積積和とするための乗算累積装置と、積和をしきい値と比較し、前記しきい値に達した場合にスキップ信号をアサートするためのスキップモジュールと、スキップ信号がアサートされていない場合、乗算累積装置が重みベクトルの次のビットを処理するようにし、スキップ信号がアサートされた場合、乗算累積装置が重みベクトルの残りの部分の処理を中止するようにするための制御ロジック装置と、累積積和の値に基づいて入力ノードの畳み込み値を判定する活性化装置と、を備えるデータ処理システムである。

実施例において、スキップモジュールは、各重みビットを処理した後に積和を評価するために用いられる。実施例において、入力ノードの全ての入力の入力和に基づいてスキップモジュールのしきい値を計算する。実施例において、入力和からビットシフト入力和を減算することでスキップモジュールのしきい値を計算し、前記ビットシフト入力和は、現在評価される重みビットのビット位置に対応するビット数だけシフトする。実施例において、しきい値は第１のしきい値であり、スキップモジュールは、更に第２のしきい値を積和の絶対値に加算するとともに、第１のしきい値と比較し、絶対値が第１のしきい値よりも大きい場合、スキップ信号をアサートするために用いられる。実施例において、第２のしきい値は、積和に基づく現在の値、入力ノードの全ての入力の入力和又は一定値の所定のしきい値である。実施例において、第２のしきい値は、環境要素に基づく動的しきい値であり、環境要素は、パワー状態、電池容量、計算リソースの利用可能性又はハードウェア故障のうちの１つ又は複数を含む。

当業者が本開示内容の各態様をより良く理解できるように、上記で複数の実施例の特徴を概説した。当業者であれば、本明細書で紹介された実施例と同じ目的及び／又は同じメリットを実現するように、他のプロセス及び構造を設計又は修正するための基礎として本開示内容を容易に使用することができると理解すべきである。当業者であれば、このような等価構造は、本開示内容の精神及び範疇から逸脱しておらず、且つ本開示内容の精神及び範疇から逸脱しない限り、これらの等価構造に様々な変化、代替及び変更を行うことができることも意識すべきである。

１０画像
１１画素
１２ノード
１４重みマトリックス
１６乗算累積演算／計算
１８活性化関数
２０演算
３０総和公式
３１公式
３２符号ビット和項
３４第１の入れ子和項
３６第２の入れ子和項
１００プロセスフローチャート
１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０操作
２００ＭＡＣスキップ回路
２０５ベクトル
２１０フリップフロップ
２１５重みベクトル
２２０フリップフロップ
２２５乗算器
２３０加算ブロック
２３０ａ加算器
２３０ｂ累積器
２３５ａ部分和
２３５シフトレジスタ
２４０出力
２４５スキップモジュール
２５０ピン
２５５ピン
２５５ａビット
２６０コントローラ
３０５有限状態機械
３１０状態ロジック
３１５カウンタ
３２０カウンタロジック
３２５状態フリップフロップ
３３０ロジック
３３５ジャンプロジック
３５０入力和フリップフロップ
３５５シフトレジスタ
３６０減算器
３６５比較器
３７０回路ブロック
３７５スキップフリップフロップ
４０５、４１０、４５５、４６０、４６５、４７０操作
５００システム
５０５メモリ
５１０コントローラ
５１５活性化関数

Claims

ワード単位の入力及びビット単位の重みで複数の入力ベクトル及び複数の重みベクトルの積に部分和累積を行って、部分累積積和を生成するステップと、
前記部分累積積和をしきい値条件と比較するステップと、
前記部分累積積和が前記しきい値条件を満たす場合、和累積の複数の残りの計算をスキップすることを指示するようにスキップインジケータをアサートするステップと、
を含むデータ処理方法。
前記部分累積積和が負であり、且つ１組の残りの未知の重みビットによって前記部分累積積和を正にすることができない場合、前記スキップインジケータをアサートする請求項１に記載の方法。
前記部分累積積和に対して活性化関数を実行し、前記活性化関数の出力が０又は前記部分累積積和の大きい値に等しいことを記録するステップを更に含む請求項１又は２に記載の方法。
前記部分累積積和が前記しきい値条件よりも小さい場合、前記ワード単位の入力及びビット単位の重みで前記入力ベクトル及び前記重みベクトルの残りの部分の積に第２の部分和累積を行って、第２の部分累積積和を生成するステップを更に含む請求項１又は２に記載の方法。
それぞれ１組のＭ個の入力ベクトルに１組のＭ個の重みベクトルの複数の第１の重みビットを乗算して１組目のＭ個の積を計算し、前記１組目のＭ個の積を加算して第１の積和を計算し、且つ積和出力ピン群にて前記第１の積和を提供するための乗算累積回路ブロックと、
前記積和出力ピン群に結合される累積器入力ピン群を含み、前記累積器入力ピン群にて第１の値を受信し、前記第１の値を前記累積器回路ブロック内の累積値に加算して前記第１の値を累積して前記累積値を置き換え、且つ累積値出力ピン群にて前記累積値を提供するための累積器回路ブロックと、
前記累積値出力ピン群に結合される累積値入力ピン群を含み、前記累積値をしきい値と比較し、前記しきい値を満たす場合、スキップピンにてスキップ信号をアサートするためのスキップ回路ブロックと、
前記スキップピンに前記スキップ信号があるか否かをチェックし、前記スキップ信号がアサートされていない場合、前記乗算累積回路ブロックが前記組のＭ個の重みベクトルの次の重みビットを処理するようにし、前記スキップ信号がアサートされた場合、前記組のＭ個の重みベクトルの残りの部分の処理を停止し、出力準備完了信号をアサートし、且つ前記累積値を活性化回路に提供するための制御回路ブロックと、
を備えるデータ処理装置。
前記スキップ回路ブロックは、
処理される前記組のＭ個の重みベクトルの重みビット位置に対して複数回シフトしたシフト入力和を入力和から減算して前記しきい値を計算し、且つ前記しきい値と前記累積値を比較するための減算回路ブロックを含む請求項５に記載の装置。
前記累積器回路ブロックは、加算ピンを含み、前記加算ピンにより制御される時に前記累積値から前記第１の値を減算するために用いられ、前記制御回路ブロックは、更に前記第１の重みビットが前記組のＭ個の重みベクトルの複数の最上位ビットに対応する場合、前記加算ピンを介して前記累積器回路ブロックが前記第１の値を減算するように制御するために用いられる請求項５又は６に記載の装置。
前記組のＭ個の入力ベクトルを記憶するための入力ラッチ回路ブロックと、
前記組のＭ個の重みビットを記憶するための重みビットラッチ回路ブロックと、を更に備え、
前記乗算累積回路ブロックは、前記第１の積和を計算するための乗算ブロック及び加算器ツリーを含む請求項５又は６に記載の装置。
それぞれビット単位の重みで入力ノードと入力の複数の重みベクトルの複数の積を計算し、各積の総和を求めて各ビットの積和を計算し、各ビットに対するビット値の位置に基づいて前記積和を重み付けし、且つ前記積和を累積して累積積和とするための乗算累積装置と、
前記積和をしきい値と比較し、前記しきい値に達した場合にスキップ信号をアサートするためのスキップモジュールと、
前記スキップ信号がアサートされていない場合、前記乗算累積装置が前記重みベクトルの次のビットを処理するようにし、前記スキップ信号がアサートされた場合、前記乗算累積装置が前記重みベクトルの複数の残りの部分の処理を中止するようにするための制御ロジック装置と、
前記累積積和の値に基づいて前記入力ノードの畳み込み値を判定する活性化装置と、
を備えるデータ処理システム。
前記しきい値は第１のしきい値であり、前記スキップモジュールは、更に第２のしきい値を前記積和の絶対値に加算するとともに、前記第１のしきい値と比較し、前記絶対値が前記第１のしきい値よりも大きい場合、前記スキップ信号をアサートするために用いられ、
前記第２のしきい値は、前記積和に基づく現在の値、前記入力ノードの全ての入力の入力和又は一定値の所定のしきい値である請求項９に記載のシステム。