JP2023084094A

JP2023084094A - 面積高効率畳み込みブロック

Info

Publication number: JP2023084094A
Application number: JP2022164865A
Authority: JP
Inventors: ボイドリチャード; Boyd Richard; トマ－イイバシレ; Toma-Ii Vasile; パグリアルカ; Puglia Luca; ビロゾルト; Biro Zsolt
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-12-06
Filing date: 2022-10-13
Publication date: 2023-06-16
Also published as: US20220092399A1

Abstract

【課題】回路面積を削減し、電力消費を改善し、不足を削減する回路及びシステムを提供する【解決手段】ニューラルネットワークのためのハードウェアアクセラレータにおいて、並列乗算を実装するために擬似乗算回路を使用する畳み込みブロックは、並列に配置された複数の擬似乗算回路を有する積和回路を含む。各擬似乗算回路は、重みのセットと入力のセットとを受信し、入力に、各入力についての夫々の重みを乗算する。乗算の結果は、その後、１つ又は複数の累積回路２１０によって総和すなわち累積される。活性化出力を生成するために任意の最終演算２３０が適用される前に、バイアスと呼ばれる追加のパラメータも、加算器２２０を用いて加算される。【選択図】図２

Description

本開示は、概して、コンピュータモデリング及びニューラルネットワークに関し、特に、ニューラルネットワーク実装を改善することに関する。

時とともに、コンピュータビジョン等のますます複雑なニューラルネットワーク応用が、そのようなニューラルネットワークを実装するハードウェアに対するますます複雑な需要をもたらしている。ニューラルネットワークは、高い正確性を達成することができるが、多くの場合、高い計算量を必要とし、これは、汎用ニューラルネットワークアクセラレータにとってさえ有効に提供することが困難であり得る。

これらのネットワークにおいて使用される計算の１つのタイプは、畳み込みブロックである。畳み込みは、２つの入力セットの積の総和を含み、この総和の後、典型的なニューラルネットワークでは、活性化関数（例えば、ＲｅＬＵ）等の追加の演算が実行され得る。アクセラレータでは、これらの畳み込みブロックは、入力セットの乗算及び後続の総和を実行するために大規模並列構造において実装されることがあり、これにより、回路内で実装するために大きい面積が要求され得る。

加えて、専用ハードウェアアクセラレータ等のニューラルネットワークハードウェア実装では、一度に（例えば、１クロックサイクル内で）１つの「入力」（例えば、コンピュータビジョン応用における画像、又は画像の一部分）を処理することが可能である複数の層が存在し得る。例えば、入力層は、典型的には３つの色チャネルによって記述される、画像の１×１、２×２、３×３、４×４、５×５、又はより大きい部分を受信してよく、初期処理層は、１クロックサイクル内でその入力についての出力チャネルの完全なセットを生成し得る。しかしながら、ネットワークは、多くの場合、これらの入力のうちの１つよりも多くを一度に受信及び処理する１つ又は複数の次元削減層を含む。それゆえ、削減後、典型的な固定機能ハードウェアアクセラレータ（例えば、ハードコード層アーキテクチャを有する）では、次元削減後の結果として得られるデータは、典型的には、上流層ほど頻繁に更新されず、これにより下流層が不足するとともに非効率的に使用される可能性があり、スループット及び動作時間が低減する。特に、これは、別個の固定ハードウェアが上流及び下流の処理層に対してプロビジョニングされるアーキテクチャにおいて起こり得る。結果として、典型的な下流層は、非効率的に利用され得る。

それゆえ、固定アーキテクチャアクセラレータについてのそのような畳み込みブロックの面積要件を低減し、ニューラルネットワークの下流の処理を改善し、回路ダウンタイムを削減することが必要とされる。

実施形態は、添付図面とともに、以下の詳細な説明によって容易に理解されるであろう。この説明を容易にするように、同様の参照符号は同様の構造要素を指す。実施形態は、添付の図面の図において、限定ではなく例示として示される。

１つの実施形態に係る、ニューラルネットワークにおける畳み込み層の一例である。

１つの実施形態に係る、並列乗算を実装するために擬似乗算回路を使用する例示の畳み込みブロックを示す図である。

１つの実施形態に係る、擬似乗算回路３００を使用する畳み込みブロックの別の例を示す図である。

１つの実施形態に係る擬似乗算回路を示す図である。

次元削減層を有する例示のニューラルネットワークモデルアーキテクチャを示す図である。

次元削減後の不足を低減する畳み込み層の一例を示す図である。

１つの実施形態に係る、前のネットワーク層の重み及び入力活性値をローテーションさせることを含むネットワークの例示の時系列を示す図である。１つの実施形態に係る、前のネットワーク層の重み及び入力活性値をローテーションさせることを含むネットワークの例示の時系列を示す図である。１つの実施形態に係る、前のネットワーク層の重み及び入力活性値をローテーションさせることを含むネットワークの例示の時系列を示す図である。１つの実施形態に係る、前のネットワーク層の重み及び入力活性値をローテーションさせることを含むネットワークの例示の時系列を示す図である。

１つの実施形態に係る、本明細書において開示されるもののような専用ハードウェアにおける実装のためにニューラルネットワークを最適化する例示のフローチャートを示す図である。

例示のコンピュータモデル推論及びコンピュータモデルトレーニングを示す図である。

例示のニューラルネットワークアーキテクチャを示す図である。

本明細書において開示される実施形態のうちのいずれかに係る、コンピュータモデルをトレーニング、解析、又は実装するために使用される１つ又は複数のコンポーネントを含み得る例示のコンピューティングデバイスのブロック図である。

概略
本明細書において、計算域を削減し、ニューラルネットワークの次元削減後の畳み込みブロックの再使用を改善する回路においてニューラルネットワークを実装する手法が説明される。

本明細書において、ニューラルネットワークの畳み込み層を実装する畳み込みブロックのために多くの場合に使用される積和（ＭＡＣ）回路を実装する改善された回路が開示される。ＭＡＣ回路は、擬似乗算回路を使用して、入力活性値にそれぞれの重みを乗算する。２の補数算術において或る数に負が乗算される場合、その数は反転され、その後「１」が加算される。乗算回路内で２の補数算術を完了するのではなく、擬似乗算回路は、数と重みとの乗算を実行し、２の補数算術を完了することなく負の重みの反転を適用する。その代わりに、回路において適用される負の重みごとに、乗算結果が累積されると、２の補数算術が完了される。１つの実施形態では、ＭＡＣ回路は、「バイアス」パラメータについての加算を含み、これは、２の補数算術の完了を考慮するために変更される。バイアスパラメータの変更は、ネットワークを設計するソフトウェアによって実行されてよく、畳み込みブロックにおける負の重みの数に基づいてバイアスを増加させることによってバイアスが擬似乗算回路を考慮することが可能になり、それゆえ、バイアスパラメータが構想上で回路アーキテクチャと同時設計され、負の重みについて２の補数を完全にすることが可能になる。

追加の実施形態では、擬似乗算回路は、入力活性値をビットシフトすることによって乗算を適用し、それにより、モデル正確性を著しく制限することなく面積要件が更に削減される。様々な実施形態において、重み値は、擬似乗算回路の最大（又は最小）重み範囲に対するシフトの大きさを定義するために符号化され得る。ビットシフトを実装するために、回路は、擬似乗算回路の最大（又は最小）範囲に対する入力活性値の初期ビットシフトを含み、後続して、符号化された重みの大きさのビットシフトを適用してよい。重みは、負のビット及び０ビットを用いて符号化されてもよい。

追加の実施形態では、畳み込みブロックは、次元削減後の不足を低減する。畳み込み層は、チャネル重みのセットを入力活性値のセットに適用して、層出力のセットを生成する。畳み込みブロック回路は、構成可能であり、チャネル重みのセットのサブセットを入力活性値に適用して、チャネルバッファに記憶された現在のチャネル出力を生成する。各クロックサイクルにおいて、チャネル重みのサブセットは、畳み込みブロック回路によって選択及び適用され、それゆえ、畳み込みは、複数のクロックサイクルにわたってチャネル重みのフルセットを通して「ローテーション」し、畳み込みブロック回路の再使用が可能になる。重みサブセットの全てがローテーションされた後（例えば、複数のクロックサイクルの最後において）、チャネルバッファは、層出力を出力することができる。更なる実施形態では、畳み込みブロックは、畳み込みブロックの数及び複数のクロックサイクルがネットワークにおける前の次元削減の関数であるようにプロビジョニングされる。それゆえ、例えば、ネットワークの次元がＮだけ削減される場合、次元削減後の畳み込み層への結果として得られる入力は、Ｎクロックサイクルごとのみで変更してよく、畳み込み層における畳み込みブロックが、畳み込みブロックの数がチャネル重みの数（例えば、チャネルについての複数のチャネル）をＮで除算した数であるようにプロビジョニングされることが可能になる。

畳み込み層におけるＭＡＣ回路のための面積を削減し、畳み込みブロックを再使用し、次元削減後の回路の不足を低減することによって、ニューラルネットワークのためのハードウェアアクセラレーションの要求されるサイズ及び有効性を劇的に改善することができる。加えて、これらの手法は、ニューラルネットワークのソフトウェア－ハードウェア同時設計の有効な手段を表してよい。ネットワークをトレーニングにおいて、又は特定の回路における実装のためのトレーニングされたネットワークの準備において、ソフトウェアは、ハードウェア設計を「認識」し、それゆえ、並列擬似乗算回路の最適化、及びチャネル畳み込みを最適化するためにローテーションする重みを使用する次元削減後のより少ない畳み込みブロックのプロビジョニングを首尾よく可能にするＭＡＣ回路についての重み値（例えば、バイアス又は符号化された重み値）を決定してよい。

説明の目的で、例示的な実装の十分な理解を提供するために、特定の数、材料、及び構成が記載される。しかしながら、本開示は特定の詳細を伴うことなく実施され得ること、及び／又は、本開示が説明される態様の一部のみで実施され得ることが当業者には明らかとなるであろう。他の例では、例示的な実装を不明瞭にしないように、周知の特徴は省略又は簡略化されている。

以下の詳細な説明においては、本明細書の一部をなす添付の図面への参照がなされる。添付の図面において、実施され得る実施形態が例示によって示される。他の実施形態が利用されてよいこと、及び本開示の範囲から逸脱することなく、構造的又は論理的変更がなされ得ることを理解されたい。したがって、以下の詳細な説明は、限定する意味で捉えられるべきではない。

様々な動作が、特許請求される主題を理解する際に最も役立つ態様で、複数の別個のアクション又は動作として順番に説明され得る。しかしながら、説明の順序は、これらの動作が必ずしも順序に依存していることを示唆するように解釈されるべきではない。特に、これらの動作は、提示された順序で実行されなくてもよい。説明される動作は、説明される実施形態とは異なる順序で実行されてよい。様々な追加の動作が実行されてよく、及び／又は、説明される動作は追加の実施形態において省略されてよい。

本開示の目的で、「Ａ及び／又はＢ」という文言は、（Ａ）、（Ｂ）又は（Ａ及びＢ）を意味する。本開示の目的で、「Ａ、Ｂ、及び／又はＣ」という文言は、（Ａ）、（Ｂ）、（Ｃ）、（Ａ及びＢ）、（Ａ及びＣ）、（Ｂ及びＣ）又は（Ａ、Ｂ、及びＣ）を意味する。「間」という用語が測定範囲を参照して使用される場合、測定範囲の両端の値が含まれる。「ａ」、「ａｎ」及び「ｔｈｅ」の意味は、複数の参照を含む。「ｉｎ」の意味は、「ｉｎ」及び「ｏｎ」を含む。

説明は、「一実施形態では」又は「実施形態において」という文言を使用するが、これらは各々、同じ又は異なる実施形態のうちの１つ又は複数を指してよい。さらに、本開示の実施形態に関して使用される「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」等の用語は、同義語である。本開示は、「上方」、「下方」、「上」、「底」及び「側」等の視点に基づく説明を使用してよいが、そのような説明は、論述を容易にするために使用されており、開示された実施形態の応用を限定することを意図するものではない。添付の図面は必ずしも縮尺どおりに描画されているわけではない。「実質的に」、「近い」、「およそ」、「付近」、及び「約」という用語は、一般的に、目標値の±２０％内であることを指す。別段に指定されない限り、共通のオブジェクトを記述するための序数詞「第１」、「第２」、及び「第３」等の使用は、単に同様の対象の異なるインスタンスが参照されていることを指し、そのように記述されたオブジェクトが時間的、空間的のいずれかでの所与のシーケンス、ランキング形式、又は他の任意の方法におけるものでなければならないことを示唆することを意図するものではない。

以下の詳細な説明では、例示的な実装の様々な態様は、当業者が自身の研究の本質を他の当業者に伝達するために共通して利用する用語を使用して説明される。
保留された２の補数算術を有する畳み込みブロック

図１は、１つの実施形態に係る、ニューラルネットワークにおける畳み込み層の一例である。図９～図１０に関して以下で論述されるように、コンピュータモデルは、典型的には、入力を処理して出力を予測するのに使用されるパラメータを含む。そのようなコンピュータモデルは、入力データに基づいて様々な出力を予測するために、重みを含むパラメータを学習するように反復的にトレーニングされ得る。図１０において更に論述されるように、ニューラルネットワークにおける個々の層は、入力活性値を受信し、入力活性値を処理して層の出力活性値を生成し得る。図１は、畳み込み層１１０の一例であり、畳み込み層１１０において、チャネル重み１２０のセットが入力活性値１００に適用されて、畳み込み出力１４０のセットが生成される。

畳み込み層１１０において、チャネル重みは、データの「チャネル」の形式の追加の（又はより少ない）特徴を生成するために入力活性値１００に適用されてよい。各チャネルについての出力は、時として畳み込みフィルタとも称される畳み込みカーネルを入力活性値に適用することによって生成されてよい。典型的には、畳み込みカーネルは、入力活性値行列内の各それぞれの入力値の、結果として得られる出力活性値に対するそれぞれの寄与度を示す重みの行列を含む。図１において示されている例では、畳み込み層１１０への入力活性値１００は、２×２×３行列である。これは、例えば、画像の２ピクセル×２ピクセル部分を受信するニューラルネットワークへの入力層を表してよく、ここで、各ピクセルは、ピクセルの赤色、緑色、及び青色輝度を記述する３つの値を含む。それゆえ、入力画像について、赤－緑－青色空間における３つの色値は、入力活性値１００におけるピクセルごとの情報の３つの別個のチャネルである。簡潔にするために、この例では、畳み込み層は、１×１フィルタサイズを適用して、８つの出力チャネル１３０を生成する。この例では、畳み込み層１１０は、ピクセルの各々にチャネル重み１２０のセットを適用して、ピクセルの各々についての出力チャネル１３０を生成し、畳み込み出力の２×２×８行列を形成する。それゆえ、ピクセルの出力チャネルごとの入力活性値は、それぞれのピクセルについて３つのチャネルを含む。

様々な実装において、入力活性値及び重みは、ネットワークにおいて、ビット単位で特定のサイズを有してよい。例えば、入力活性値（及び同様に、対応する前の層にとっての出力活性値）は、４ビット、８ビット、又は１６ビットの幅であってよく、同様に、重みは、４、８、１６等のような適したビット数によって表され得る。以下で更に論述されるように、活性値及び重みを表すのに使用されるビット数それら自体は、ニューラルネットワークのトレーニングされる態様であってよい。本明細書において論述されるようなアーキテクチャは、更なる正確性及び削減された面積も提供し、それにより、より少ないビット（及びそれゆえ削減された回路）がネットワーク内の層を有効に表すことが可能になる。

チャネルについてのフィルタ重み１２２は、畳み込み層によって処理される入力活性値ごとの重みを含む。図１において示されているように、チャネルごとのフィルタ重み１２２は、１×１フィルタ及び入力活性値１００の３つのチャネルに対応する１×１×３行列である。その場合、畳み込み層１１０についての畳み込みを実行するために、各出力チャネル１３０は、それぞれの入力活性値１００をチャネルについてのフィルタ重み１２２に適用することによって決定される。チャネル重み１２０のセットは、典型的には、入力活性値１００に適用されるフィルタの各々についての（及び各々が出力チャネル１３０におけるチャネルをもたらす）フィルタ重み１２２のセットを含む。畳み込み層１１０についての計算を完了するために、チャネルについてのフィルタ重みのセットは、入力活性値１００におけるピクセルの各々に（１×１フィルタの場合）適用される。入力活性値１００をそれぞれのフィルタ重み１２２と乗算した後、その結果は累積され、各フィルタは、それぞれの出力チャネルをもたらす前に入力活性値を正規化又は更に処理するために、追加のパラメータ又は処理を含んでよい。この比較的単純な例においても、畳み込み出力の２×２×８セットをもたらすために、累積及び更なる処理の前に３つのフィルタ重みに３つの入力活性値が乗算され、畳み込み出力１４０を生成するために９６（２×２×８×３）回の潜在的な乗算演算がもたらされる。例えば３×３又は５×５フィルタサイズ等のより大きいフィルタサイズを用いるより複雑なネットワークでは、乗算演算の数は急速に膨張し得る。

図２は、１つの実施形態に係る、並列乗算を実装するために擬似乗算回路を使用する例示の畳み込みブロックを示している。畳み込みブロックは、擬似乗算回路２００のセットを含む積和回路を含んでよい。各擬似乗算回路２００は、入力を受信し、入力に、その入力についてのそれぞれの重みを乗算する。図２において示されているように、擬似乗算回路２００は、擬似乗算回路２００Ａ及び擬似乗算回路２００Ｂから、擬似乗算回路２００Ｎまで、並列に配置されてよい。乗算の結果は、その後、１つ又は複数の累積回路２１０によって総和（すなわち、累積）される。活性化出力を生成するために任意の最終演算２３０が適用される前に、バイアスと呼ばれる追加のパラメータも、加算器２２０を用いて加算されてよい。

一般に、数は、２の補数表現の負の数を使用してそのような回路において表され、それにより、負の数は、先頭の最上位ビットによって指定される（例えば、これは、値が負である場合に１であり、値が正である場合に０である）。例えば、１つのビットを用いて符号を表すとともに３つのビットを用いて大きさを表すことによって、４つのビットが、符号付き値のために使用されてよい。それゆえ、０の値は００００として表され、１は０００１として表され、－１は１１１１として表される。２の補数表現の１つの利点は、数が直接加算され得るので、それにより、－１及び＋１の加算が４ビットカウンタをオーバーフローさせ、００００の値をもたらし、結果として０が得られることである。しかしながら、２の補数の１つの複雑性は、値の符号を変更するには、ビットの反転及び１の加算を必要とすることである。例えば、＋５を－５に変換するために、０１０１は１０１０の値に反転され、１が加算されて１０１１がもたらされる。結果として、畳み込みブロックを実装する典型的な積和回路において、負の重みが入力に適用される場合、負の符号を適用することには、負の重みを適切に考慮するために乗算及び加算の両方が必要とされる。

図２において示されている畳み込みブロックにおける並列乗算を改善するために、擬似乗算回路は、それぞれの入力に、関連付けられた重みを乗算し、負の重みの場合、２の補数表現を完全にする値の加算を保留している間に入力を反転させる。例えば、０１１０として表される＋６に－１が乗算されると、０１１０から１００１に反転され、この１００１は、２の補数表現において－６ではなく－７である。結果として、擬似乗算回路２００は、乗算を適用し、１の補数算術を完全にする（例えば、完了する）ために追加の加算を伴うことなく、符号の変更を考慮することによって簡略化される。２の補数を完了するために、後の時点で回路内で、例えば加算器２２０のバイアス加算に、追加の値が加算されてよい。別個の加算器２２０によって加算されるものとして示されているが、バイアスは、累積回路２１０において加算される値のうちの１つとして含まれてよい。それゆえ、バイアスは、擬似乗算回路において負の重みの各々を考慮するための量によって変更されてよい。１つの実施形態では、以下で更に論述されるように、変更済みのバイアスは、ニューラルネットワークがそのような擬似乗算回路２００を含む回路上で実行されるように構成される場合に決定される。

１つの累積回路２１０が図２において示されているが、様々な実施形態において、複数の累積回路が、擬似乗算回路２００Ａ～Ｎの結果を累積するのに使用されてよい。それゆえ、累積は、入力カーネルのサイズ及びクロック頻度に依存して１つ又は複数のフェーズ又はクロックサイクルにおいて実行されてよい。

畳み込みブロックの結果を出力する前に、追加の回路によって、追加の演算２３０も実行されてよい。例えば、バイアス加算後の、入力からの累積された重み付き値は、その場合、値を出力値に変換するために活性化関数に適用されてよい。畳み込みブロック内では、回路は、３２ビット整数等の拡張された範囲において、又は浮動小数点値として、値を表し得るが、畳み込みブロックの出力は、より小さい範囲の値（例えば、４、８、又は１６ビットの符号なし整数）に限定されてよい。この出力は、畳み込みブロックの活性化を表してもよく、上記で記載されたような入力サイズと同様のサイズに限定されてよい。バイアスされた累積値を出力範囲にマッピングするのに活性化関数が使用されてよい。活性化関数は、線形関数又は非線形関数であってよく、活性化の例としては、とりわけ、正規化線形活性化関数、シグモイド関数、双曲線正接が挙げられる。

それゆえ、これらの擬似乗算回路２００は、並列乗算の面積を削減し、さらに、回路のタイミングを改善し、（乗算段階における負の重みについての追加の加算が省略されるので）並列乗算を完了するために必要とされる時間量を削減し得る。

図３は、１つの実施形態に係る、擬似乗算回路３００を使用する畳み込みブロックの別の例を示している。図２の例と同様に、擬似乗算回路は、入力及びそれぞれの重みを受信し、出力を生成する。図３は、重みの大きさ及び重みの負のビットを別々に適用する擬似乗算回路を示している。この例示の実施形態では、擬似乗算回路は、（例えば、入力の符号を変更することなく）重みの大きさを用いて入力の乗算を実行する部分乗算回路を含む。幾つかの実施形態では、入力は、符号なし整数であり、この場合、部分乗算回路は、それぞれの重みの大きさを用いて入力の符号なし乗算を実行し得る。重みの負のビットに対処するために、乗算回路の結果は、反転回路に提供され、当該反転回路は、負のビットが設定される（例えば、負のビットが１である）場合に結果を反転する。それゆえ、反転回路の結果は、重みを用いる入力の不完全な２の補数（例えば、負の重みについての不完全な算術を用いる）の乗算である。この不完全な２の補数乗算の結果は、累積回路３１０に提供される。それゆえ、複数の擬似乗算回路は各々、不完全な２の補数の結果を累積回路３１０に提供し、累積回路３１０は、結果を累積し、累積された結果を加算器３２０に提供する。図２に関して記載されたように、バイアス３５０は、別個の加算器３２０を介してではなく累積回路３１０の一部として加算されてよい。図３において示されているように、トレーニングされた畳み込み層によって決定されるようなトレーニングされたバイアス３３０は、累積回路３１０の結果に加算されるべきバイアス３５０を生成するために２の補数の加算３４０によって変更されてよい。１つの実施形態では、２の補数の加算３４０の値（それゆえ、トレーニングされたバイアス３３０が増加した量）は、擬似乗算回路における負の重みの数に基づく。この例では、擬似乗算回路ごとの負のビットは、トレーニングされたバイアス３３０に加算されるようにルーティングされてもよい（図示せず）。この例では、各負のビットは、トレーニングされたバイアス３３０に１を加算する。

別の実施形態では、バイアスは、擬似乗算回路を含む畳み込みブロック上での畳み込み層の実装を考慮するようにトレーニングした後にソフトウェアにおいて増加する。言い換えれば、トレーニングされたバイアス３３０は、コンピュータモデルが、擬似乗算回路を含むハードウェアにおける実行のために準備されている場合、オフラインで変更されてよい。この状況では、畳み込みブロック（例えば、本明細書において論述される様々な実施形態のＭＡＣ回路）によって受信されるバイアス３５０は、ハードウェア畳み込みブロックによって更に変更されなくてよく、これは、その変更が既に実行されているためである。この例では、擬似乗算回路３００は、不完全な２の補数を生成してよく、算術は、２の補数算術を完了するために、モデルトレーニング又は実行ソフトウェアによって変更されるバイアス値によって完了されてよい。

図４は、１つの実施形態に係る擬似乗算回路を示している。図４の実施形態は、図２及び図３に関して論述されたような畳み込みブロック等の積和回路において使用されてよい。図４の実施形態では、擬似乗算回路は、入力データに対してビットシフト演算（単に「ビットシフト」又は「シフト」とも称される）を介して乗算を実装する。ビットシフトを使用することによって、乗算を実装するために必要とされる面積及び電力要件は、完全な乗算演算に対して著しく削減され、これは、上記で論述されたような保留された２の補数の加算との組み合わせにおいて実装される場合に特に削減される。この手法は、動作中の回路についての重み値の再プログラミング、それゆえ、擬似乗算回路４００を使用する畳み込みブロック（又はＭＡＣ）の再使用も可能にする。そのような再プログラミング及び再使用は、重みを固定する典型的な最適化されたアーキテクチャを用いると可能ではなく、一方、典型的な再プログラミング可能ＭＡＣ回路は、より低速であり、より低いスループットを有する。最終的に、乗算をビットシフトとして実装することによって、重みは、必要とされるシフトの数に対して符号化されてよく、それにより、重みを記憶、送信、又は操作するためのメモリ及び回路要件が低減される。

それゆえ、ビットシフトは、２のべき乗である重みを入力に適用してよい。指数部は、（典型的には最上位ビットに向かう左向きのシフトとして示される）正であってもよいし、（典型的には最下位ビットに向かう右向きのシフトとして示される）負であってもよい。例えば、擬似乗算回路４００によって大きさとして使用される許容可能な重みの値は、２^４、２^３、２^２、２^１、２^０、２^－１、２^－２、２^－５等を含んでよい。これらの重みを有効に実装するために、トレーニング中、コンピュータモデルは、重みが２のべき乗である大きさのみを有し得るという制約を用いてトレーニングされてよい。別の例として、コンピュータモデルは、より連続的な重み範囲を用いてトレーニングされてよく、当該重み範囲は、その後、ビットシフトを使用して擬似乗算回路における実装のための重み範囲に変換又は符号化される。別の例として、コンピュータモデルは、より連続的な重み範囲を用いて（例えば、浮動値として）初期的にトレーニングされ、その後、重みを実装のために２のべき乗に制約するために微調整されてよい。

擬似乗算回路４００は、ともに乗算されるべき入力４１０及び重み４２０を受信する。図４において示されている実施形態では、重み４２０は、大きさ、負のビット、及び０ビットを含むように符号化される。１つの例として、Ｍが重みの大きさを符号化するビットの数である場合、重み４２０は、ビット［０－Ｍ_－１］における重みの大きさ、ビット［Ｍ］における負のビット、及び重み４２０のビット［Ｍ_＋１］における０ビットを符号化してよい。他の順序化及び重み符号化方式が、対応して異なる回路構成とともに使用されてもよい。

１つの実施形態では、重み４２０の大きさは、最大シフト回路４３０によって実行されるような最大シフトに対して実行するためのビットシフトの数を符号化する。この実施形態では、入力４１０は、まず、擬似乗算回路４００が実行するように構成される重みの最大範囲にシフトされる。言い換えれば、「最大シフト」は、（例えば、重みが０である場合）重み４２０による、擬似乗算回路４００によって実行され得る最大乗算を表す。それゆえ、最大シフト回路４３０は、擬似乗算回路４００についての重みの最大範囲に入力４１０を位置決めするために、入力に対してビットシフトを実行する回路である。

この例では、入力は、最大量だけ初期的にシフトされ、その後、重み４２０の大きさは、入力４１０を最大量に対する或る量だけシフトさせるために使用される。重み４２０の大きさの、最大シフトされた入力４１０への適用は、ビットシフト回路４４０によって実行される。ビットシフト回路４４０は、最大シフト回路４３０の出力を受信し、これを、重みの大きさの量だけシフトさせるように構成される。重みの最大値及び範囲は、ニューラルネットワークにおける畳み込みブロックについてトレーニングされた重みに基づいて、擬似乗算回路４００において決定及び実装されてよい。例えば、トレーニング中のネットワークは、畳み込みブロックについての重みが２^４～２^－２の範囲にわたり得ることを決定してよい。この例では、大きさについての符号化済みビットの数は、３であってよく、それによりシフトが８の範囲（０００～１１１として表される数０～７）を有することが可能になる。この例では、乗算回路は、ビットを、２^８の範囲で２^４の最大値にシフトするように構成されてよく、それにより、値は、［２^４～２^－３］の範囲内で乗算（シフト）され得る。したがって、最大シフトは、符号化された大きさに基づく更なるシフトのための開始位置として使用される。

図４において示されている実施形態は初期的に最大シフトを適用しているが、他の実施形態では、最小シフトが（範囲に対して値を最小化するために）初期的に適用され、重みの大きさに基づく後続のビットシフトが、入力の値を増加させる。それに応じて、初期シフトは、擬似乗算回路４００の重み範囲の最後に入力をシフトさせるために適用されてよく、重みのシフトの大きさは、重み範囲の最後に対して適用されてよい。

この実施形態では、擬似乗算回路４００において使用される重み４２０は、大きさ、負のビット、及び０ビットを含むように符号化される。上記で論述されたように、大きさは、乗算の大きさをビットシフト演算の数として表す。言い換えれば、大きさｎは、入力４１０に２^ｎ乗算を適用するためのビットシフト演算として適用される。１つの実施形態では、図４において示されているように、大きさは、最大シフトに対するシフトを適用するために符号化される。符号化された重みの大きさは、その場合、ニューラルネットワークにおける畳み込みブロックのための値のトレーニングされた重みの２を底とする対数（ｌｏｇ_２）である。例えば、この実施形態の符号化された重みの大きさは、重み＝ｌｏｇ_２（ａｂｓ（重み））によって定義される。

重みの大きさがビットシフト回路４４０によって適用された後、ビットシフト回路４４０の出力は、反転回路４５０によって受信され、反転回路４５０は、重み４２０の負のビットに基づいて反転を適用する。例えば、反転回路４５０は、負のビットが正である場合に適用されるＸＯＲ回路として実装されてよい。図４において示されているように、擬似乗算回路４００は、負の値を適用するために反転を適用するが、２の補数の負の値を完全にするための加算を含まない。上記で論述されたように、２の補数の加算を保留すること（及び不完全な２の補数の結果を生成すること）は、削減された複雑度の擬似乗算回路をもたらすことができる。

ビットシフトは０を直接指定し得ないので、０ビットは、より有効に、かつビットシフトにおいて０値を表すことに対して削減された回路複雑度で、０値を指定し得る。重みの０ビットが設定される場合に、０ビットを適用し、擬似乗算回路から０を出力するのに、ゼロ化回路が使用されてよい。この例では、重みの０ビットがアクティブである場合に、０値を出力として選択することによって、０ビットを適用するのに、マルチプレクサ（ＭＵＸ）４６０が使用されてよい。アクティブではない場合、ＭＵＸ４６０は、例えば、累積回路（例えば、図２及び図３において示されているような）に進むために、反転回路４５０からの結果を出力する。他の構成では、０ビットは、最大シフト回路４３０に入る前に入力４１０をゼロ化すること等によって、擬似乗算回路の結果をゼロ化するための他の方法において実装されてよい。別の例として、０ビットは、０ビットが示される場合に電力使用量を削減するために０重みが実装される場合、シフト及び反転回路を更に無効化するために実装されてよい。

さらに、０の重みは、他の構成において特別に指定された０ビットを伴うことなく実装されてよい。例えば、０重みは、ビットシフト回路４４０の出力のレジスタ長を超過するビットシフトの大きさを用いて実装されてよい。

重みを２のべき乗として符号化した実験では、符号化されていない重みに対する回路の合成は、回路面積の４６％の改善をもたらした。加えて、２の補数算術を保留した実験では、２の補数の保留は、加算を保留した入力点／乗算の数に依存して２９％～３４％回路面積を削減した。
アクティブなチャネル重みを用いる再使用可能畳み込みブロック

図５は、次元削減層５３０を有する例示のニューラルネットワークモデルアーキテクチャを示している。図５の例示のネットワークでは、２×２×１次元入力データ（例えば、画像における２×２ピクセルエリア）が処理されて、１つの１×１×４出力５６０がもたらされる。この例では、畳み込み層５１０は、入力データ５００の１×１領域のチャネルに対して動作する１×１畳み込み層である。例えば、１×１領域は、入力データ５００に関連付けられた入力画像の単一のピクセルを記述し得る。ピクセルは、ピクセルごとにデータの３つのチャネルをともに形成する、赤色、緑色、及び青色値によって記述され得る（図５において示されていない）。様々なネットワークにおいて、入力データ５００及び様々なネットワーク層の次元は、当該技術分野において既知であるように異なってよい。

ネットワークにおいて表されるようなデータの次元は、データがネットワークにおいて処理されるにつれて追加のチャネルを追加又は除去することによって、増加又は減少し得る。入力のセットごとに層によって生成される活性値の数は、その層についてのチャネルの数と称され得る。多くのニューラルネットワークにおいて、畳み込み層５１０等のネットワークの層は、入力活性値の次元を増加させ得る一方、次元削減層５３０等の他の層は、入力活性値の次元を削減し得る。例えば、図５において示されている畳み込み層５１０は、入力データ５００から出力データの８つのチャネルを作成する。したがって、畳み込み層５１０の結果は、この例では２×２×８行列として表される、活性化値５２０のセットである。

概念上では畳み込み層５１０が入力データ５００を活性化値５２０に変換するが、実用時には、畳み込み層は、典型的には、チャネル重みを入力データ５００の異なる部分に適用することによって活性化値５２０を生成する。図５の例では、同じチャネル重み５１５が、入力データ５００の各１×１部分に適用されて、活性化値５２０のその部分が生成される。それゆえ、入力データ５００は、順次ロードされ、活性化値５２０の完全なセットを順次生成するのに使用されてよい。プロビジョニングされた入力データ５００及び畳み込みの計算を実行するための畳み込みブロックのプロビジョニングされた数に依存して、活性化値５２０のより多くの又はより少ない部分が、ニューラルネットワークを実装するハードウェアによって一度に生成されてよい。

１つの実施形態では、畳み込み層５１０は、上記で論述されたように、擬似乗算回路を含む畳み込みブロックのうちの任意のものによってハードウェアにおいて実装されてよい。この例では、１つの処理周期（例えば、クロックティック）内で、１つの１×１ピクセルのデータが、畳み込み層５１０に入力され、畳み込み層５１０は、チャネル重み５１５のセットを適用して、活性化値５２０の１×１×８部分を生成する。この例では、１クロックサイクル内で入力５００についての出力の８つのチャネルを実行するために、８つの畳み込みブロック（チャネルごとに１つずつ）が、そのチャネルについてのそれぞれの入力及び重みを処理するのに使用されてよい。各畳み込みブロックは、上記で論述されたもの等の積和回路として実装されてよい。この例の畳み込み層による１つの１×１部分の処理は、図５においてシェーディングされている。結果として、これは、活性化値のセットを完了するための計算を実行する回路が入力データ５００の様々な部分のために使用されるので、畳み込み層５１０からの完全な活性化値５２０を累積するために複数のクロックサイクルを必要とし得る。この例では、入力データ５００は、各クロックサイクルでローテーションされてよく、チャネル重み５１５は、同じ畳み込みが入力データ５００の異なる部分に適用されるときに一定に留まってよい。他の実施形態では、異なる重みが、入力データ５００の異なる領域に適用されてよい。

図５において示されている例等の多くのニューラルネットワークは、活性化行列の次元を削減する次元削減層５３０（プーリング層等）を含んでよい。チャネルの数は畳み込み層のチャネルの数を変更することによって層間で削減され得る一方、この例では、次元削減層５３０は、入力データの次元を２×２から１×１に削減する。より一般的に述べると、次元削減層５３０は、その入力活性化値５２０の次元を、入力データ５００がネットワークの前の層によって処理される頻度に対してその出力活性化値５４０に削減する。すなわち、次元削減層５３０の入力（活性化値５２０）は、畳み込み層５１０についてのクロックサイクルの数に基づく頻度において更新されて、入力データ５００の全ての必要とされる部分が受信及び処理され、次元削減層５３０が動作する活性化値５２０が作成される。図５の例では、畳み込み層５１０が２×２入力データの各１×１部分に適用されるために、４クロックサイクルが使用される。したがって、次元削減層５３０はデータの結果として得られる２×２領域全体を必要とするので、次元削減層５３０は、４クロックサイクルのうちの１つでのみ、新たなデータに対して動作し得る。それゆえ、次元削減層５３０の後、活性化値５４０の次元は、活性化値５２０に対して削減され、入力データ５００がより前の層によって処理される頻度によって制限され得る。

結果として、専用ハードウェアがチャネル重み５５５を有する畳み込み層５５０等の後続の層のためにプロビジョニングされる場合、後続の層は、畳み込み層５５０がチャネル重み５５５を用いて活性化値５４０を処理して活性化出力５６０を生成するので、多くの場合に不足し得る。すなわち、活性化値５４０は入力データ５００の頻度及び畳み込み層５１０に基づいて変更するので、畳み込み層５５０は、より迅速に（例えば、１クロックサイクルにおいて）活性化値５４０を完全に処理し、後続して、次回に次元削減層５３０の出力が更新される（この例では、４クロックサイクル毎）まで、不足する。

多くの実装において、ネットワークは、ネットワークを通して多くの回数、次元を増加又は減少させ得る。例えば、画像の領域は、画像内でオブジェクト認識、オブジェクト追跡等を実行するために２５６×２５６又は１２８×１２８ピクセル領域としてニューラルネットワークに提供されてよく、これにより、最終的に３２×３２又は１６×１６ブロック領域を処理するために次元が削減され得る。これは、次元削減の影響を倍増させ、ハードウェアアクセラレータにおいてネットワークの後の部分における層をパイプライン化することを試みる回路についてのそのような層の著しい不足を引き起こし得る。

図６は、次元削減後の不足を低減する畳み込み層の一例を示している。図６において示されている畳み込み層は、例えば、ネットワークの任意の部分において、使用されてよく、ここで、畳み込み層への入力活性値は、畳み込み層の畳み込みブロックの処理時間よりも低い頻度で更新される。言い換えれば、入力活性値が、畳み込みブロックが畳み込み層についてのデータを処理し得る１つよりも多くのクロックサイクルの間に一定に留まり得る場合である。

図６における畳み込み層は、回路の必要とされる実効的な面積を削減し、アップタイム頻度を増加させるそのような層のために必要とされる回路を削減する手法を示している。畳み込み層の全てのチャネルについての畳み込みブロック（すなわち、入力のセットと、重みのセットとの間で乗算を実行する回路、例えば、積和回路）をプロビジョニングする（すなわち、ハードウェアにおいてインスタンス化する）のではなく、表面積を削減するために、畳み込み層は、畳み込み層におけるチャネルの数よりも少ない畳み込みブロック６４０を使用してよい。むしろ、各畳み込みブロック６４０は、異なるクロックサイクルにおいて異なる重みセットを適用するように構成されている。各クロックサイクルにおいて、チャネル重み６００のサブセットが適用され、それにより、複数のクロックサイクル（例えば、入力活性値６１０の更新頻度）にわたって、出力チャネルの完全なセットが生成される。

畳み込み層は、ネットワークの１つ又は複数の前の層から入力活性値６１０のセットを受信する。例えば、次元削減層５３０からの出力である。同様に、畳み込み層は、畳み込み層についての出力チャネルの完全なセットについての重みを定義するチャネル重み６００のセットを受信（又はこれにアクセス）する。チャネル重み６００のセットは、固定であってもよいし、特定のニューラルネットワーク構成に従って再プログラミングされ得るプログラマブルレジスタに記憶されてもよい。

チャネルセレクタ６２０が、チャネル重みのサブセットを、畳み込みブロック６４０によって適用されるべき現在のチャネル重み６３０として選択する。それゆえ、特定のクロックサイクルにおいて各畳み込みブロックによって適用される重みは、現在のチャネル重み６３０のそれぞれのチャネル重みに対応する。各畳み込みブロック６４０は、フィルタ重み（例えば、図１のフィルタ重み１２２によって示されたような１つの出力チャネルについての重み）の１つのセットを使用して入力活性値６１０のセットに対して１回の畳み込み（例えば、任意選択で追加のパラメータを用いる、乗算及び累積）を実行するように構成された回路である。畳み込みブロック６４０は、畳み込みを実行する任意の適した積和回路を含んでよく、これは、上記で論述された擬似乗算回路のうちの任意のものを含んでよい。

図６の例では、２つの畳み込みブロック６４０が、入力活性値６１０が（例えば、ネットワークにおける前の次元削減に起因して）２クロックサイクルの間に一定である畳み込み層のためにプロビジョニングされる。この例では、チャネル重み６００は、４つのチャネル重みＷ_０～Ｗ_３を含む。チャネルセレクタ６２０は、２つのチャネル重み（プロビジョニングされた畳み込みブロック６４０の各々に１つが対応する）のサブセットを選択する。各クロックサイクルにおいて、チャネルセレクタ６２０は、チャネル重み６００の異なるサブセットを選択してよい。１つの例では、チャネルセレクタは、クロックサイクルを使用して、畳み込みブロック６４０によって適用されるべきチャネル重み６００の異なるサブセットを選択するマルチプレクサである。それゆえ、この例では、第１のクロックサイクル中、チャネルセレクタ６２０は、チャネル重み６００のセットから重みＷ_０，１の第１のサブセットを選択してよい。第２のクロックサイクル中、チャネルセレクタは、チャネル重み６００のセットから重みＷ２，３の第２のサブセットを選択してよい。

各クロックサイクルにおいて、プロビジョニングされた畳み込みブロック６４０は、受信された現在のチャネル重み６３０を入力活性値６１０に適用して、対応するチャネルについての関連畳み込み計算を実行する。この例では、第１のクロックサイクルにおける第１の畳み込みブロック６４０は、現在のチャネル重みＷ_０を適用し、第１のクロックサイクルにおける第２の畳み込みブロック６４０は、現在のチャネル重みＷ_１を適用する。畳み込みブロック６４０の出力は、現在のチャネル出力６５０と指定され、チャネルセレクタ６２０によって選択されるチャネルのサブセットに関連してチャネルバッファ６６０に記憶される。例えば、重みＷ０及びＷ１が現在のチャネル重み６３０である場合、現在のチャネル出力６５０は、畳み込み層の出力のチャネル０及び１に対応するチャネルバッファ６６０における位置に記憶される。チャネルバッファ６６０は、出力チャネルの完全なセットがアセンブルされ、層出力６７０として出力され得るまで、チャネルの値を記憶してよい。

次のクロックサイクルでは、チャネルセレクタ６２０は、例えば重みＷ２，３を選択するために、チャネル重み６００の別のサブセットを現在のチャネル重み６３０として選択する。畳み込みブロック６４０は、チャネルごとにそれぞれの重みを適用し、現在のチャネル出力６５０は、選択されたサブセットに対応するする位置におけるチャネルバッファ６６０に、ここではチャネル２及び３に、記憶される。チャネル重み６００のサブセットを通してサイクルするための複数のクロックサイクルの後、チャネル出力の完全なセットは、チャネルバッファ６６０にロードされてよい。結果として、この例では、入力活性値６１０が一定であるクロックサイクルにわたって、畳み込みブロック６４０は、チャネル重み６００のフルセットを受信し、入力活性値６１０に適用する。

結果として、畳み込み層を実装するためにプロビジョニングされる畳み込みブロック６４０の数は、チャネルの数、及び入力活性値６１０が（例えば、ネットワークにおけるより前の層の次元削減の関数として）一定に保たれ得るクロックサイクルの数に基づいてよい。図５において示されたように、４の係数を有する次元削減（例えば、２×２が１×１に削減される）が、畳み込み層５５０への入力が一定に保たれ得る同様の数のクロックサイクル（例えば、４）をもたらし得る。それゆえ、一般に、畳み込み層を実装するのに使用される畳み込みブロックの数は削減され得るとともに、チャネルごとに完全な畳み込みブロックが層において実装されることを必要としない。むしろ、回路においてプロビジョニングされる畳み込みブロックの数（したがって、並列に適用され得るチャネルのサブセットのサイズ）は、層についてのチャネルの総数を、ネットワークの前の部分の次元削減で除算した数（例えば、入力活性値が一定であり得るクロックサイクルの数）であってよい。複数の次元削減層がネットワークにおいてより前で適用される場合、ブロックの数は、畳み込み層の前に行われる組み合わせた削減を考慮してよい。例えば、１つの層が次元を２だけ削減し、別の層が４だけ削減する場合、層における畳み込みブロックのプロビジョニングに関連した次元削減は、８（２×４）であってよい。それゆえ、この例を続けると、層についてのチャネルのフルセットが３２個のチャネルを有し、前の層が８の次元削減係数を有する（したがって、入力活性値６１０が８クロックサイクルの間一定に留まり得る）場合、４つの畳み込みブロックが使用され得る（３２個のチャネルが８の削減係数で除算される）。

このようにして重みをローテーションさせ、それに応じて回路についての畳み込みブロックをプロビジョニングすることによって、ネットワークのこれらの下流の部分のためのプロビジョニングされた回路面積は、著しく削減され、その一方、回路の利用率が高まる。任意の数のこれらの畳み込みブロック又は層が、全体としてのネットワークの設計に基づいて直列又は並列で配置されてよい。

図７Ａ～図７Ｄは、様々な実施形態に係る、前のネットワーク層の重み及び入力活性値をローテーションさせることを含むネットワークの例示の時系列を示している。各図７Ａ～図７Ｄは、単純な例示のネットワークの層の入力及び活性値を示しており、これらの図において、畳み込み層７１０は、入力データ７００のセットを受信して、活性値７２０のセットを生成し、活性値７２０は、次元削減層７３０によって処理されて、活性値７４０が生成される。この例では、次元削減層７３０は、活性値７２０の４つのセットを受信して、活性値７２０の次元を、４の係数によって、２×２から１×１まで削減する。活性値７４０は、畳み込み層７５０に入力され、畳み込み層７５０は、重みのローテーションするサブセットを使用して、畳み込み層７５０についての最終出力活性値７７０を生成する。畳み込み層７５０は、例えば、図６に関して論述された回路を用いて、実装されてよい。図７Ａ～図７Ｄの例は、次元削減層７３０への入力を生成し、ローテーションする現在のチャネル重み７５５を使用して畳み込み層７５０の出力についてのチャネルバッファ７６０内のチャネルを生成するのに使用される複数のクロックサイクルを示している。この例では、畳み込み層７５０によって適用されるべき完全なチャネル重みセットは、４つのチャネルを含む。同様にこの例において示されているように、畳み込み層７５０は、各クロックサイクルにおいて１つのチャネル重みセットを処理するために１つの畳み込みブロックを含んでよい。上記で論述されたように、回路は、チャネルの数を次元削減の量で除算すること、この場合では畳み込み層７５０についての４つのチャネルを４の次元削減で除算することに基づいて、畳み込みブロックの数をプロビジョニングされてよい。

一般に、図７Ａにおいて示されている回路アーキテクチャは、多数のシーケンス入力データ７００をストリーミング／パイプライン化するために使用されてよい。入力データ７００の１つの２×２領域が図７Ａ～図７Ｄにおいて示されているが、典型的な応用では、入力データの前のセットがネットワーク（又はネットワークの第１の層）によって処理された後に、新たな入力データ７００がロードされる。画像処理アプリケーションの１つの例として、入力データ７００の各セットは、ネットワーク全体によって処理され得る画像のエリア又は部分を表してよい。例えば、２×２入力データ７００のスライディング「ウィンドウ」がネットワークに入力されてよい。回路がパイプライン化されるので、ネットワークの各更なる部分は、入力データ７００の異なるセットに対して同時に動作してよい。例えば、畳み込み層７１０が入力データ７００の第１のセットに対して動作して活性値７２０を生成する一方で、２×２入力データ７００の第２のセットは、活性値７４０を作成するために、事前に次元削減層７３０によって処理及び変換されている場合がある。同様に、２×２入力データの第３のセットは、出力活性値７７０として出力されるために畳み込み層７５０によってその処理を完了している場合がある。その意味において、ネットワーク回路は、入力データ７００のセットを「ストリーミング」又は「パイプライン化」してよい。この例では、次元削減層７３０のために十分なデータをアセンブルするために必要とされるクロックサイクルの数は、入力データ７００のセットがモデルの更なる層に渡される頻度を決定してよい。この例では、次元削減層７３０は、畳み込み層７１０からの出力チャネルの４つのセットを消費し、それにより、４の係数によって前の層の次元が削減される。図７Ａ～図７Ｄに関して論述されるネットワークにおける例示のデータ処理は、４クロックサイクルにわたって行われ、入力データ７００の新たな２×２ブロックの処理を表す。

図７Ａにおいて示されている第１のクロックサイクルへの移行時、活性値７４０は、入力データの前のセットに対して動作する次元削減層７３０の出力から更新され、同様に、畳み込み層７５０からの出力活性値７７０は、前のチャネルバッファ７６０から更新されてよい。

図７Ａにおいて示されているように、第１のクロックサイクル中、畳み込み層７１０は、ロードされた入力データ７００の第１の部分に適用される。この例では、畳み込み層７１０は、重みを適用し、入力データ７００の入力１×１領域からの出力の８つのチャネルを生成する回路を含む。この例では、畳み込み層７１０は、１クロックサイクルにおいて入力データ７００の関連部分を完全に処理して、その入力データ７００についてのフルセットチャネル活性値を生成するために十分な畳み込みブロックを（例えば、並列で）含んでよい。（第２のクロックサイクルを示す）図７Ｂによって示されているように、畳み込み層７１０は、第２のクロックサイクルにおいて入力データ７００の第２の別個の部分を処理してよい。対照的に、畳み込み層７１０が各クロックサイクルにおいて完全に異なる入力データを受信及び処理するが、畳み込み層７５０は、各クロックサイクルにおいてフルチャネル重みのサブセットを適用する。図７Ａにおいて示されているように、畳み込み層７５０によって適用されるべき現在のチャネル重み７５５は、現在のチャネル重みの第１のサブセットである。畳み込み層７５０の出力は、チャネルバッファ７６０に記憶される。

図７Ｂにおいて示されている第２のクロックサイクルにおいて、入力データ７００の新たな部分が畳み込み層７１０によって処理されて、活性値７２０の別のセットが生成される。一方、チャネル重みの第２のサブセットが、畳み込み層７５０によって適用されるべき現在のチャネル重み７５５として選択されて、チャネルバッファ７６０に記憶される第２のチャネル出力が生成される。図７Ｃ及び図７Ｄにおいて示されているように、入力データ７００の第３の部分及び第４の部分が畳み込み層７１０によって処理される一方、チャネル重みの第３のサブセット及び第４のサブセットは、選択された現在のチャネル重みであり、第３のチャネル及び第４のチャネルは、それぞれ、第３のクロックサイクル及び第４のクロックサイクルにおいてチャネルバッファ７６０に記憶される。

図７Ａ～図７Ｄにおいて示されているように、ロードされた入力データ７００の部分は畳み込み層７１０によって各クロックサイクルで完全に消費されてよく、スループットを制御するために読み出し／書き込みタイミング及び畳み込み層７１０についての畳み込みブロックのプロビジョニングを可能にする一方、次元削減に起因して、後の層は、より低い頻度で新たなデータを受信してよく、１クロックサイクルにおいて活性値を完全に消費するために十分な畳み込みブロックをプロビジョニングするのではなく、畳み込み層７５０等のこれらの層は、より少ない回路を使用し、その代わりに、ローテーションするチャネル重みを使用して畳み込みブロックを再使用してよい。この手法は、ハードウェアアクセラレータが、より効果的に、かつより小さい表面積で、ニューラルネットワークにおいてデータを能率化及び処理することを可能にする。上記で論述された擬似乗算回路及び符号化された重みの符号化等の他の手法と併せて、そのような回路は、著しく、そのような回路の実効面積を削減し、回路利用率を高め得る。

したがって、ニューラルネットワークアクセラレータを改善するこれらの手法は、個々に、又は互いと組み合わせて使用されてよい。例えば、図７Ａ～図７Ｄにおいて示されているもの等のネットワークは、畳み込み層７１０又は畳み込み層７５０を処理するハードウェアにおいて擬似乗算回路を実装してよく、その各々は、負の重みごとに保留された１の補数の加算を含んでよく、更なる実施形態では、ビットシフトを使用して乗算を実行し、及び／又は、図４に関して論述されたように符号化された重み値を使用してよい。
ハードウェア－ソフトウェア同時設計

図８は、１つの実施形態に係る、本明細書において開示されるもののような専用ハードウェアにおける実装のためにニューラルネットワークを最適化する例示のフローチャートを示している。例えば、図８は、上記で開示された回路とともに使用するトレーニングされたコンピュータモデルを最適化し、他の実施形態では、コンピュータモデルを使用して、回路の構造及び最適化を決定するためにコンピュータシステムによって使用されてよく、モデルのトレーニングを変更するためにモデルの特性を使用することを含み得る手法を示している。

図８のフローの単純な例では、ネットワークを最適化するコンピュータシステムは、ニューラルネットワークの畳み込み層についての重み及びバイアスパラメータ等のニューラルネットワークのパラメータを識別し（８１０）、上記で論述されたような畳み込みブロックのうちの任意のもの等のネットワーク／層が実装される回路の特性も識別する（８２０）。１つの実施形態では、コンピュータシステムは、また、ニューラルネットワークをトレーニングしてよい（８００）。幾つかの実施形態では、ニューラルネットワークは、回路の特性に基づいてトレーニングされてよく、その一方他の実施形態では、回路の特性は、トレーニングされたニューラルネットワークパラメータ（例えば、論理構造及びプロセス）を、ハードウェア回路を実装する際に使用する値に「変換」するのに使用される。

したがって、１つの例示の実施形態では、ネットワークを実装する回路は、図４に関して論述されたようにビットシフト乗算を実装してよく、ここで、ハードウェアにおいて適用され得る重みは、２のべき乗である。この例では、ニューラルネットワークは、重みがビットシフト演算によって実装可能であるように２のべき乗でなければならないという制約を用いてトレーニング（又は微調整）されてよい（８００）。別の例として、ネットワークの活性化層間でデータを転送することが利用可能であるビットの数は、表面積及びネットワークの複雑度を低減するように変更されてもよい。例えば、層についての活性化値は、ネットワークの回路間で転送されるデータの複雑度を低減するために、かつネットワークが実装される設計された回路の複雑度に基づいて、１、２、４、６、又は８ビット又は当業者によって決定される別の長さとしてネットワークにおいて指定されてよい。１つの例では、ビットは、ネットワークの活性化層間で符号なしであってよく、それにより、４ビットの符号なし値についての活性化値は、範囲［０－１５］内の整数を含み得る。この例では、また、活性化値の制限範囲は、ニューラルネットワークのパラメータをトレーニング又は微調整するのに使用されて、実装回路の特性がネットワークトレーニングに直接組み込まれてよい。ネットワーク特性の追加のタイプも使用されてよい。

トレーニングされたニューラルネットワークパラメータを使用して、パラメータは、指定された特性を有する回路における実装のために変更されてよい（８３０）。例えば、畳み込み層のチャネルごと（例えば、個々の畳み込みフィルタごと）に、トレーニングされたニューラルネットワークは、重みのセット及びバイアス（及び追加のパラメータ）を指定してよい。

擬似乗算回路を実装する回路においてフィルタを実装するために、トレーニングされたニューラルネットワークによって指定されるようなバイアスは、擬似乗算回路によって実行される不完全な（保留される）２の補数乗算を考慮するために変更されてよい。したがって、バイアスは、回路において実装されるようなバイアスが２の補数乗算を完全にするように変更されてよい。負の値が適用される場合に２の補数表現が正しくない（すなわち、符号を逆にする反転が１の加算で完了されない）ので、バイアスは、ネットワーク内の負の重みの数に基づく量だけ増加されてよい。この例では、畳み込みブロックについてのバイアスは、ネットワークのその畳み込みフィルタ（すなわち、特定のチャネル）における負の重みの各々について１だけ増加されてよい。それゆえ、［０．５，０．２，－０．３，－０．７，０．１，０．３，０．８，０．２５，－１］の重み及び＋２のバイアスを有するフィルタは、重みセット内の３つの負の重みのために、バイアスを、３だけ増加させて、＋５の変更済みのバイアスにしてよい。擬似乗算回路を使用して畳み込みブロックにおいて実装される場合、＋５の変更済みのバイアスは、負の重みが活性値を反転させる場合、３つの欠落した加算演算のために正しい。

同様に、ビットシフト演算を適用する回路において畳み込みフィルタを実装するために、ネットワークの重みは、そのようなフィルタを使用する畳み込みブロックにおける実行のために変更又は符号化されてよい。例えば、重みは、最も近い２のべき乗に調整又は近似されてよい。別の例では、上記で記載されたように、重みは、トレーニングされた重みを２のべき乗に既に制約するようにトレーニングされてよい（８００）。加えて、重みは、ビットシフト回路への適用のために符号化されてよい。上記で論述され、図４において示されたように、１つの実施形態では、重みは、負のビット及び０ビットを有する大きさとして擬似乗算回路のために表されてよい。ネットワークからの重みを符号化するために、重みを２のべき乗の重みとして表されるものとして決定した後に（例えば、トレーニングされたネットワーク重みが２のべき乗として近似される場合）、大きさは、回路によって適用される初期シフトに対して必要とされるシフトの数に基づいて符号化されてよい。例えば、符号化された重みの大きさは、上記で論述されたように重みの２を底とする対数によって決定されてよい。

幾つかの実施形態では、回路それ自体は、例えばニューラルネットワークパラメータに基づいて、プロセスの一部として設計されてよい。１つの実施形態では、システムは、次元削減ブロックを識別し、図５～図７Ｄに関して論述されたように、実装回路のための畳み込みブロックをプロビジョニングする（８４０）。例えば、ネットワークは、次元削減ブロックがネットワークの次元を削減する場合、及びそれゆえ更なる層が不足し得る／それらの層への入力が複数のクロックサイクルの間一定に留まり得る場合を決定するために解析され得る。この状況では、それらの層についての畳み込みブロックは、ブロックが上記で論述されたように各クロックサイクルに対して層についての重みのサブセットを適用し得るように、削減されてよい。この実施形態では、ニューラルネットワークを実装するハードウェア回路は、クロックサイクルにわたる重みローテーションを含み、それゆえ、不足を低減しながら回路のための面積を削減するように設計される。ネットワークの各層は、回路の前の層の次元削減、及び、その層についての入力が、その層についてのプロビジョニング８４０のための畳み込みブロックの数を決定するために一定に留まり得るクロックサイクルの数に基づいて解析され得る。ネットワークの特性を決定し、畳み込みブロックをプロビジョニングした後、回路は、例えば、回路合成ツールを介して、生成されて（８５０）、製造されるべき回路のための個々のレジスタ、ゲート回路等がプロビジョニングされてよい。

最終的に、ハードウェア上でニューラルネットワークを実行するために、変更されたパラメータは、物理回路上での実行のために提供される（８６０）。
例示のコンピュータモデリング

図９は、例示のコンピュータモデル推論及びコンピュータモデルトレーニングを示している。コンピュータモデル推論は、出力又はモデル出力９２０を生成するための、コンピュータモデル９１０の入力データ９００のセットへの適用を指す。コンピュータモデル９１０は、モデルパラメータとも称される、モデルのパラメータに基づいてモデル出力９２０を決定する。モデルのパラメータは、典型的には、以下で論述されるように、トレーニングデータ、及びそれぞれのトレーニングデータについてのモデルの所望の出力を使用して、モデルパラメータの最適化を発見するトレーニングプロセスに基づいて決定されてよい。コンピュータモデルの出力は、入力データ９００に基づくとともに、モデルトレーニングにおいて使用される前の例示のデータに基づく予測値であるので、「推論」と称されてよい。

入力データ９００及びモデル出力９２０は、特定のユースケースに従って異なる。例えば、コンピュータビジョン及び画像解析のために、入力データ９００は、７５×７５ピクセル等の特定の解像度を有する画像、又は体積を記述する点群であってよい。他の応用では、入力データ９００は、オブジェクトに関する情報を表す、疎ベクトル等のベクトルを含んでよい。例えば、レコメンドシステムにおいて、そのようなベクトルは、ユーザ－オブジェクトインタラクションを表してよく、それにより、疎ベクトルは、ユーザによってポジティブに評価される個々の項目を示す。加えて、入力データ９００は、例えば、入力オブジェクトの様々な特徴を表すか、又は、コンピュータモデル９１０へのオブジェクトの入力の前の入力オブジェクトの前処理を表す、入力オブジェクトの別のタイプの処理されたバージョンであってよい。１つの例として、１０２４×１０２４解像度画像が処理され、６４×６４の個々の画像部分に細分され、これらの個々の画像部分は、コンピュータモデル９１０によって処理される入力データ９００である。別の例として、上記で論述された疎ベクトル等の入力オブジェクトは、オブジェクトをコンピュータモデル９１０における入力データ９００として表すのに使用され得る入力オブジェクトの埋め込み又は別のコンパクト表現を決定するために処理されてよい。入力オブジェクトについてのそのような追加の処理は、それら自体、データの学習された表現であってよく、それにより、別のコンピュータモデルは、入力オブジェクトを処理して、コンピュータモデル９１０についての入力データ９００として使用される出力を生成する。ここでは更には論述されないが、そのような更なるコンピュータモデルは、コンピュータモデル９１０を用いて独立して又は共同でトレーニングされてよい。

上記で記載されたように、モデル出力９２０は、コンピュータモデル９１０の特定の応用に依存し、レコメンドシステム、コンピュータビジョンシステム、分類システム、ラベリングシステム、天候予測、自律制御、及び他の任意のタイプのモデリング出力／予測を表してよい。

コンピュータモデル９１０は、上記で記載されたように、入力データ９００からモデル出力９２０を生成する特性及び関数を記述する様々なモデルパラメータを含む。特に、モデルパラメータは、モデル構造、モデル重み、及びモデル実行環境を含んでよい。モデル構造は、例えば、特定のタイプのコンピュータモデル９１０、並びにその構造及び編成を含んでよい。例えば、モデル構造は、複数の層から構成され得るニューラルネットワークを指定してよく、モデルパラメータは、ニューラルネットワーク内に含まれる個々のタイプの層及び層間の接続（例えば、いずれの層の出力がいずれの他の層への入力を構成するのか）を記述してよい。そのようなネットワークは、例えば、特徴抽出層、畳み込み層、プーリング／次元削減層、活性化層、出力／予測層等を含んでよい。幾つかの例ではモデル構造はコンピュータモデルの設計者によって決定されてよい一方、他の例では、モデル構造それ自体が、トレーニングプロセスを介して学習されてよく、それゆえ、モデルの特定の「モデルパラメータ」を形成してよい。

モデル重みは、コンピュータモデル９１０が入力データ９００をモデル出力９２０に処理する際に用いる値を表してよい。コンピュータモデル９１０の各部分又は層がそのような重みを有してよい。例えば、重みは、入力を処理するための値を決定して、モデルの特定の部分において出力を決定するのに使用されてよい。言い換えれば、モデル重みは、入力データ９００の値又は活性値を決定する閾値をモデルについての出力としていかに組み合わせ、又は操作するのかを記述してよい。１つの例として、畳み込み層は、典型的には、その層への入力のセットに適用されるべき、畳み込みカーネルとも称される、畳み込み「重み」のセットを含む。これらは後続して、典型的には「バイアス」パラメータとともに、畳み込み層についての出力を生成するための他の変換の重みと、組み合わされる。

モデル実行パラメータは、モデルについての実行条件を記述するパラメータを表す。特に、モデルの態様は、コンピュータモデルを実行する様々なタイプのハードウェア又は回路上で実装されてよい。例えば、モデルの一部は、汎用回路（例えば、汎用ＣＰＵ）、特定のコンピュータモデル機能のために特殊化された回路（例えば、ＧＰＵ又はプログラマブル積和回路）又は特定のコンピュータモデルアプリケーションのために特別に設計された回路等の様々なタイプの回路において実装されてよい。幾つかの構成では、コンピュータモデル９１０の異なる部分は、異なるタイプの回路上で実装されてよい。以下で論述されるように、モデルのトレーニングは、コンピュータモデル（例えば、同時トレーニングされる）の特定の態様のために使用されるハードウェアのタイプを最適化することを含んでもよいし、コンピュータモデルについての他のパラメータがモデルを実行する構成を考慮することなく決定された後に決定されてもよい。別の例では、実行パラメータは、プロセス内の特定の点において利用可能である値範囲、タスクを実行するために利用可能である動作等のような、モデルの異なる部分において利用可能であるプロセス又は関数のタイプを決定又は限定してもよい。

それゆえ、コンピュータモデルトレーニングは、コンピュータモデル９４０についてのモデルパラメータの値を決定又は「トレーニング」するのに使用されてよい。トレーニング中、モデルパラメータは、（時として損失関数とも称される）コスト関数を改善することを求める最適化関数に基づいてモデルパラメータを改善する、モデルパラメータ（例えば、個々の重み、活性化値、モデル実行環境等）の値を「学習」するように最適化される。トレーニングの前に、コンピュータモデル９４０は、ランダム初期化、他の若しくは同様のコンピュータモデルに基づいて選択される初期値、又は他の手段等によって、様々な方法において選択され得る初期値を有するモデルパラメータを有する。トレーニング中、モデルパラメータは、前のモデルパラメータに対してコスト／損失関数を改善するための最適化関数に基づいて変更される。

多くのアプリケーションにおいて、トレーニングデータ９３０は、コンピュータモデル９４０をトレーニングするために使用されるべきデータセットを含む。データセットは、コンピュータモデル９４０の特定の応用及び目的に従って異なる。教師あり学習タスクにおいて、トレーニングデータは、典型的には、トレーニングデータ、及びトレーニングデータに対するモデルの所望の出力を記述するトレーニングデータラベルのセットを含む。例えば、オブジェクト分類タスクの場合、トレーニングデータは、個々の画像を含んでよく、ここでは、画像内の個々の部分、領域又はピクセルがオブジェクトの分類を用いてラベル付けされる。このタスクの場合、トレーニングデータは、犬及び人物を描写するトレーニングデータ画像と、犬及び人物を含む画像の領域をラベル付けするトレーニングデータラベルとを含んでよく、それにより、コンピュータモデルは、それぞれ、その画像の同じ部分を犬及び人物として同様にラベル付けするように学習するように意図される。

コンピュータモデルをトレーニングするために、トレーニングモジュール（図示せず）は、トレーニング入力９３０をコンピュータモデル９４０に適用して、所与のトレーニング入力９３０についてのモデルによって予測される出力を決定する。トレーニングモジュールは、示されていないが、モデルのパラメータを所与としてその入力及び出力に従ってコンピュータモデルを実行し、結果に基づいてモデルパラメータを変更することによって、コンピュータモデルのトレーニングを実行するために使用されるコンピューティングモジュールである。トレーニングモジュールは、コンピュータモデル９４０の実際の実行環境を適用してもよいし、実行環境の結果をシミュレートして、例えば、コンピュータモデルの性能、ランタイム、メモリ、又は回路面積（例えば、専用ハードウェアが使用される場合い）を推定してもよい。トレーニングモジュールは、トレーニングデータ及びモデル評価とともに、図１１において示されている例示のコンピューティングデバイス１１００等の１つ又は複数の処理デバイスによってソフトウェア及び／又はハードウェアにおいてインスタンス化されてよい。様々な例において、トレーニングプロセスは、分散／クラウドコンピューティングシステム等、互いに組み合わせて複数のコンピューティングシステムによって実行されてもよい。

コンピュータモデル９４０についての現在のモデルパラメータに従ってトレーニング入力を処理した後、モデルの予測された出力は、評価され（９５０）、コンピュータモデルは、コスト関数に関して評価され、トレーニングモデルの最適化関数を使用して最適化される。最適化関数に依存して、モデル評価後の特定のトレーニングプロセス及びトレーニングパラメータは、コンピュータモデルの最適化関数を改善するために更新される。教師ありトレーニング（すなわち、トレーニングデータラベルが利用可能である）において、コスト関数は、トレーニングデータラベルに対してモデルの予測された出力を評価し、データについての「既知」のラベルに対する予測の相対コスト又は損失を評価してよい。これは、コンピュータモデルによる正しい予測の頻度の尺度を提供し、適合率（偽陽性の頻度）及び再現率（偽陰性の頻度）等の様々な方法において測定され得る。幾つかの状況におけるコスト関数は、モデルの他の特性、例えば、モデル複雑度、処理速度、メモリ要件、物理回路特性（例えば、電力要件、回路スループット）並びに（例えば、これらのモデルパラメータを評価又は変更するための）コンピュータモデル構造及び実行環境の他の特性を評価してもよい。

コスト関数の結果を決定した後、最適化関数は、モデルパラメータの変更を決定して、トレーニングデータについてのコスト関数を改善する。多くのそのような最適化関数は、当業者に既知である。多くのそのような手法は、モデルのパラメータに関してコスト関数を区別し、それゆえコスト関数を改善するモデルパラメータへの変更を決定する。モデルパラメータを変更するアルゴリズムを含む最適化関数についてのパラメータは、最適化関数についてのトレーニングパラメータである。例えば、最適化アルゴリズムは、当該技術分野において使用され、モデルの特定の使用のために適切である、勾配降下（又はその変形）、モメンタムベース最適化、又は他の最適化手法を使用してよい。それゆえ、最適化アルゴリズムは、モデルパラメータに対するパラメータ更新を決定する。幾つかの実装では、トレーニングデータは、バッチ処理され、パラメータ更新は、トレーニングデータのバッチに反復的に適用される。例えば、モデルパラメータは、初期化され、その後、データの第１のバッチに適用されて、モデルパラメータに対する第１の変更が決定されてよい。その後、データの第２のバッチは、変更されたモデルパラメータを用いて評価されて、モデルパラメータに対する第２の修正が決定されてよく、典型的には、利用可能なトレーニングデータの量又はモデルパラメータにおける増分的な改善が閾値未満である（例えば、追加のトレーニングデータがもはやモデルパラメータの改善を継続しない）ことのいずれかに基づいて、停止点まで以降も同様である。追加のトレーニングパラメータは、トレーニングデータについてのバッチサイズ、バリデーションデータとして使用するためのトレーニングデータの部分、パラメータ更新のステップサイズ、モデルの学習レート等を記述してよい。大域最適値を決定する、又は微分不可能モデルパラメータ空間に対処するのに追加の技法が使用されてもよい。

図１０は、例示のニューラルネットワークアーキテクチャを示している。一般に、ニューラルネットワークは、入力層１０１０、１つ又は複数の隠れ層１０２０、及び出力層１０３０を含む。ネットワークの各層におけるデータについての値は、一般的に、ネットワークの１つ又は複数の前の層に基づいて決定される。ネットワークの各層は、ネットワークのその層の出力値を表す「活性値」と称される値のセットを生成し、ネットワークの次の層への入力であってよい。入力層１０１０について、活性値は、典型的には、入力データの値であるが、入力層１０１０は、入力データの表現を生成するための１つ又は複数の変換を通して変更されるものとして入力データを表してよい。例えば、レコメンドシステムにおいて、ユーザとオブジェクトとの間のインタラクションは、疎行列として表されてよい。個々のユーザ又はオブジェクトは、その後、そのユーザ又はオブジェクトに関連する疎行列におけるデータの変換として入力層１０１０として表されている。ニューラルネットワークは、別のコンピュータモデル（又は幾つか）の出力を、その入力層１０１０として受信してもよく、それにより、図１０において示されているニューラルネットワークの入力層１０１０は、別のコンピュータモデルの出力である。それに応じて、各層は、ネットワークの１つ又は複数の前の層の活性値を表す「入力活性値」とも称される入力のセットを受信し、ネットワークのその層の活性値を表す「出力活性値」とも称される出力のセットを生成してよい。言い換えれば、１つの層の出力活性値は、ネットワークの別の層（ネットワークの１０３０の最終出力層を除く）の入力活性値になる。

ニューラルネットワークの各層は、典型的には、行列においてその出力活性値（すなわち、その出力とも称される）を表し、これは、ネットワークの特定の構造に従って１、２、３、又はｎ次元であってよい。図１０において示されているように、各層の次元は、層の設計に従って異なってよい。出力層１０３０の次元は、モデルによって行われる予測の特性に依存する。例えば、マルチオブジェクト分類のためのコンピュータモデルは、アレイ内の各位置が入力層１０１０についての異なる分類の尤度を表す１次元アレイを有する出力層１０３０を生成してよい。画像の部分の分類についての別の例では、入力層１０１０は、５１２×５１２等の解像度を有する画像であってよく、出力層は、出力層１０３０が入力ピクセルの各々にｎ分類予測を提供する５１２×５１２×ｎ行列であってよく、それにより、出力層１０３０における入力層１０１０における各ピクセルの対応する位置は、そのピクセルについての分類予測に対応するｎ次元アレイである。

隠れ層１０２０は、有効に出力層１０３０を生成することを支援する様々な方法において入力層１０１０を様々に特徴付ける出力活性値を提供する。それゆえ、隠れ層は、入力層１０１０の追加の特徴又は特性を提供するために考慮されてよい。２つの隠れ層が図１０において示されているが、実用時には、任意の数の隠れ層が、様々なニューラルネットワーク構造において提供されてよい。

各層は、一般的に、ニューラルネットワークの１つ又は複数の前の層の出力活性値（これは、評価されている層への入力活性値であると考慮され得る）に基づいてその活性化行列における位置の出力活性化値を決定する。各層は、関数を入力活性値に適用して、その活性値を生成する。そのような層は、全結合層（例えば、全ての入力が層の全ての出力に接続される）、畳み込み層、逆畳み込み層、プーリング層、及びリカレント層を含んでよい。線形結合、畳み込みカーネル、活性化関数、プーリング等を含む様々なタイプの関数が層によって適用されてよい。層の関数のパラメータは、層の活性化入力から層についての出力活性値を決定するのに使用され、典型的には、モデルトレーニングプロセス中に変更される。前の層の特定の部分の寄与度を記述するパラメータは、典型的には、重みと称される。例えば、幾つかの層では、関数は、その層についての活性値を決定するためのそれぞれの重みを用いる各入力の乗算である。ニューラルネットワークの場合、それゆえ、全体としてのモデルについてのパラメータは、個々の層の各々についてのパラメータを含んでよく、大規模ネットワークでは、数百、数千、数百万、又はそれよりも多くの異なるパラメータを含むことができる。

ニューラルネットワークをトレーニングする１つの例として、コスト関数は、出力層１０３０において評価される。層ごとにパラメータの変更を決定するために、各前の層のパラメータは、それぞれの変更を決定するために評価されてよい。１つの例では、コスト関数（又は「誤差」）は、逆伝搬され、それにより、パラメータは、入力層１０１０に達するまで、シーケンスにおいて層ごとに最適化アルゴリズムによって評価される。
例示のデバイス

図１１は、本明細書において開示される実施形態のうちのいずれかに係る、コンピュータモデルをトレーニング、解析、又は実装するために使用される１つ又は複数のコンポーネントを含み得る例示のコンピューティングデバイス１１００のブロック図である。例えば、コンピューティングデバイス１１００は、コンピュータモデルをトレーニングするトレーニングモジュールを含んでよく、コンピューティングデバイス１１００の機能を実行するトレーニングされたコンピュータモデルを含んでよく、幾つかの状況では、コンピュータモデルを実行する専用ハードウェア及び／又はソフトウェアを含んでよい。

複数のコンポーネントがコンピューティングデバイス１１００内に含まれるものとして図１１において示されているが、これらのコンポーネントのうちの任意の１つ又は複数は、応用に適している場合、省略又は重複されてよい。幾つかの実施形態では、コンピューティングデバイス１１００内に含まれるコンポーネントのうちの幾つか又は全ては、１つ又は複数のマザーボードに取り付けられてよい。幾つかの実施形態では、これらのコンポーネントのうちの幾つか又は全ては、単一のシステムオンチップ（ＳｏＣ）ダイ上に製造される。

加えて、様々な実施形態において、コンピューティングデバイス１１００は、図１１において示されているコンポーネントのうちの１つ又は複数を含まなくてよいが、コンピューティングデバイス１１００は、１つ又は複数のコンポーネントに結合するためのインターフェース回路を含んでよい。例えば、コンピューティングデバイス１１００は、ディスプレイデバイス１１０６を含まなくてよいが、ディスプレイデバイス１１０６が結合され得るディスプレイデバイスインターフェース回路（例えば、コネクタ及びドライバ回路）を含んでよい。例の別のセットでは、コンピューティングデバイス１１００は、オーディオ入力デバイス１１２４又はオーディオ出力デバイス１１０８を含まなくてよいが、オーディオ入力デバイス１１２４又はオーディオ出力デバイス１１０８が結合され得るオーディオ入力又は出力デバイスインターフェース回路（例えば、コネクタ及び支持回路）を含んでよい。

コンピューティングデバイス１１００は、処理デバイス１１０２（例えば、１つ又は複数の処理デバイス）を含んでよい。本明細書において使用される場合、「処理デバイス」又は「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理して、当該電子データをレジスタ及び／又はメモリに記憶され得る他の電子データに変換する任意のデバイス又はデバイスの部分を指し得る。処理デバイス１８０２は、１つ又は複数のデジタル信号プロセッサ（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、暗号プロセッサ（ハードウェア内で暗号アルゴリズムを実行する専用プロセッサ）、サーバプロセッサ、又は他の任意の適した処理デバイスを含んでよい。コンピューティングデバイス１１００は、メモリ１１０４を含んでよく、メモリ１１０４それ自体は、揮発性メモリ（例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ））、不揮発性メモリ（例えば、リードオンリメモリ（ＲＯＭ））、フラッシュメモリ、ソリッドステートメモリ、及び／又はハードドライブ等の１つ又は複数のメモリデバイスを含んでよい。メモリ１１０４は、本明細書において論述されるように方法及び機能を実行する処理デバイスによって実行可能な命令を含んでよい。そのような命令は、様々なタイプのメモリにおいてインスタンス化されてよく、メモリは、１つ又は複数の非一時媒体上で記憶された命令として不揮発性メモリを含んでよい。幾つかの実施形態では、メモリ１１０４は、処理デバイス１１０２とダイを共有するメモリを含んでよい。このメモリは、キャッシュメモリとして使用されてよく、埋め込みダイナミックランダムアクセスメモリ（ｅＤＲＡＭ）又はスピン注入トルク磁気ランダムアクセスメモリ（ＳＴＴ－ＭＲＡＭ）を含んでよい。

幾つかの実施形態では、コンピューティングデバイス１１００は、通信チップ１１１２（例えば、１つ又は複数の通信チップ）を含んでよい。例えば、通信チップ１１１２は、コンピューティングデバイス１１００との間でのデータの転送のためのワイヤレス通信を管理するように構成され得る。「ワイヤレス」という用語及びその派生形は、非固体媒体を通して変調された電磁放射の使用を通して、データを通信し得る回路、デバイス、システム、方法、技法、通信チャネル等を説明するために使用されてよい。この用語は、関連付けられたデバイスが幾つかの実施形態ではワイヤを含まないことがあるが、関連付けられたデバイスがワイヤを一切含まないことを示唆するものではない。

通信チップ１１１２は、多くのワイヤレス規格又はプロトコルのうちの任意のものを実装してよく、これらは、限定ではないが、Ｗｉ－Ｆｉ（登録商標）（ＩＥＥＥ８０２．１１ファミリ）、ＩＥＥＥ８０２．１６規格（例えば、ＩＥＥＥ８０２．１６‐２００５修正）を含む米国電気電子技術者協会（ＩＥＥＥ）規格、任意の修正、更新及び／又は改定（例えば、アドバンストＬＴＥプロジェクト、ウルトラモバイルブロードバンド（ＵＭＢ）プロジェクト（「３ＧＰＰ（登録商標）２」とも称される）等）を含むロングタームエボリューション（ＬＴＥ）プロジェクトを含む。ＩＥＥＥ８０２．１６準拠のブロードバンドワイヤレスアクセス（ＢＷＡ）ネットワークは、一般的に、ＷｉＭＡＸ（登録商標）（ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓを表す頭字語）ネットワークと称され、これはＩＥＥＥ８０２．１６規格に対する適合性と相互運用性のテストに合格した製品の認証マークである。通信チップ１１１２は、移動通信用グローバルシステム（ＧＳＭ（登録商標））、汎用パケット無線サービス（ＧＰＲＳ）、ユニバーサル移動体通信システム（ＵＭＴＳ）、高速パケットアクセス（ＨＳＰＡ）、発展型ＨＳＰＡ（Ｅ－ＨＳＰＡ）、又はＬＴＥネットワークに従って動作してよい。通信チップ１１１２は、ＧＳＭ（登録商標）エボリューション用エンハンストデータ（ＥＤＧＥ）、ＧＳＭＥＤＧＥ無線アクセスネットワーク（ＧＥＲＡＮ）、ユニバーサル地上波無線アクセスネットワーク（ＵＴＲＡＮ）又は発展型ＵＴＲＡＮ（Ｅ－ＵＴＲＡＮ）に従って動作してよい。通信チップ１１１２は、符号分割多重アクセス（ＣＤＭＡ）、時分割多重アクセス（ＴＤＭＡ）、デジタルエンハンストコードレス電気通信（ＤＥＣＴ）、エボリューションデータオプティマイズド（ＥＶ－ＤＯ）及びそれらの派生物、並びに３Ｇ、４Ｇ、５Ｇ及びそれ以降のものとして指定される他の任意のワイヤレスプロトコルに従って動作してよい。通信チップ１１１２は、他の実施形態では、他のワイヤレスプロトコルに従って動作してよい。コンピューティングデバイス１１００は、ワイヤレス通信を容易にするための、及び／又は（ＡＭ又はＦＭ無線送信等の）他のワイヤレス通信を受信するためのアンテナ１１２２を含んでよい。

幾つかの実施形態では、通信チップ１１１２は、電気、光又は他の任意の適した通信プロトコル（例えば、Ｅｔｈｅｒｎｅｔ（登録商標））等の有線通信を管理してよい。上記で記載されたように、通信チップ１１１２は、複数の通信チップを含んでよい。例えば、第１の通信チップ１１１２は、Ｗｉ－Ｆｉ（登録商標）又はＢｌｕｅｔｏｏｔｈ（登録商標）等のより短距離のワイヤレス通信に専用であってよく、第２の通信チップ１１１２は、全地球測位システム（ＧＰＳ）、ＥＤＧＥ、ＧＰＲＳ、ＣＤＭＡ、ＷｉＭＡＸ（登録商標）、ＬＴＥ、ＥＶ－ＤＯ又は他のもの等のより長距離のワイヤレス通信に専用であってよい。幾つかの実施形態では、第１の通信チップ１１１２は、ワイヤレス通信に専用であってよく、第２の通信チップ１１１２は、有線通信に専用であってよい。

コンピューティングデバイス１１００は、バッテリ／電源回路１１１４を含んでよい。バッテリ／電源回路１１１４は、１つ又は複数のエネルギー貯蔵デバイス（例えば、バッテリ又はコンデンサ）及び／又はコンピューティングデバイス１１００とは別個のエネルギー源（例えば、ＡＣ線電力）にコンピューティングデバイス１１００のコンポーネントを結合するための回路を含んでよい。

コンピューティングデバイス１１００は、ディスプレイデバイス１１０６（又は上記で論述されたように、対応するインターフェース回路）を含んでよい。ディスプレイデバイス１１０６は、例えば、ヘッドアップディスプレイ、コンピュータモニタ、プロジェクタ、タッチスクリーンディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ、又はフラットパネルディスプレイ等の任意の視覚的インジケータを含んでよい。

コンピューティングデバイス１１００は、オーディオ出力デバイス１１０８（又は上記で論述されたように、対応するインターフェース回路）を含んでよい。オーディオ出力デバイス１１０８は、例えば、スピーカ、ヘッドセット、又はイヤフォン等の可聴インジケータを生成する任意のデバイスを含んでよい。

コンピューティングデバイス１１００は、オーディオ入力デバイス１１２４（又は上記で論述されたように、対応するインターフェース回路）を含んでよい。オーディオ入力デバイス１１２４は、マイクロフォン、マイクロフォンアレイ、又はデジタル機器（例えば、楽器デジタルインターフェース（ＭＩＤＩ）出力を有する機器）等の、音を表す信号を生成する任意のデバイスを含んでよい。

コンピューティングデバイス１１００は、ＧＰＳデバイス１１１８（又は上記で論述されたように、対応するインターフェース回路）を含んでよい。ＧＰＳデバイス１１１８は、衛星ベースシステムと通信してよく、当該技術分野において既知であるように、コンピューティングデバイス１１００のロケーションを受信してよい。

コンピューティングデバイス１１００は、他の出力デバイス１１１０（又は上記で論述されたように、対応するインターフェース回路）を含んでよい。他の出力デバイス１１１０の例としては、オーディオコーデック、ビデオコーデック、プリンタ、情報を他のデバイスに提供するための有線若しくはワイヤレス送信機、又は追加の記憶デバイスが挙げられ得る。

コンピューティングデバイス１１００は、他の入力デバイス１１２０（又は上記で論述されたように、対応するインターフェース回路）を含んでよい。他の入力デバイス１１２０の例としては、加速度計、ジャイロスコープ、コンパス、画像キャプチャデバイス、キーボード、マウス等のカーソル制御デバイス、スタイラス、タッチパッド、バーコードリーダ、クイックレスポンス（ＱＲ）コードリーダ、任意のセンサ、又は無線周波数識別（ＲＦＩＤ）リーダが挙げられ得る。

コンピューティングデバイス１１００は、ハンドヘルド又はモバイルコンピューティングデバイス（例えば、携帯電話、スマートフォン、モバイルインターネットデバイス、音楽プレーヤ、タブレットコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、ウルトラブックコンピュータ、携帯情報端末（ＰＤＡ）、ウルトラモバイルパーソナルコンピュータ等）、デスクトップコンピューティングデバイス、サーバ又は他のネットワーク接続コンピューティングコンポーネント、プリンタ、スキャナ、モニタ、セットトップボックス、エンターテイメントコントロールユニット、車両制御ユニット、デジタルカメラ、デジタルビデオレコーダ、又はウェアラブルコンピューティングデバイス等の任意の所望のフォームファクタを有してよい。幾つかの実施形態では、コンピューティングデバイス１１００は、データを処理する他の任意の電子デバイスであってよい。
選択例

以下の段落は、本明細書において開示された実施形態のうちの様々な例を提供する。

例１は、積和関数を実装する回路を提供し、前記回路は、擬似乗算回路のセットであって、各擬似乗算回路は、被乗数（例えば、活性値）及び乗数（例えば、重み）を受信し、不完全な２の補数算術を用いて前記被乗数に前記乗数を乗算することによって出力を生成するように構成されている、擬似乗算回路のセットと、前記擬似乗算回路のセットに結合され、前記擬似乗算回路のセットの前記出力及び前記擬似乗算回路のセットの２の補数算術を完全にするための値を累積するように構成された累積回路とを備える。

例２は、前記２の補数算術を完全にするために加算される前記値がバイアスパラメータである、例１の回路を提供する。

例３は、前記バイアスパラメータが構成可能である、例２の回路を提供する。

例４は、前記２の補数算術を完全にするために加算される前記値が、前記擬似乗算回路のセットによって受信される負の乗数の数に基づく、例１～３の回路のいずれかを提供する。

例５は、前記回路が、前記値を加算して、前記２の補数算術を完全にするように構成されている加算器回路を更に備える、例１～４の回路のいずれかを提供する。

例６は、前記被乗数が符号なし整数である、例１～５の回路のいずれかを提供する。

例７は、前記乗数が２のべき乗である、例１～６の回路のいずれかを提供する。

例８は、前記擬似乗算回路のセットが、ビットシフト演算を用いて前記乗算を実行するように構成されている、例１～７の回路のいずれかを提供する。

例９は、前記擬似乗算回路が、初期シフトに対して前記ビットシフト演算を適用する前に、最大又は最小重み範囲への前記初期シフトを用いて乗算を実行するように構成されている、例８の回路を提供する。

例１０は、前記乗数が、前記ビットシフト演算についてのシフトの数を記述する大きさを含むように符号化される、例８～９の回路のいずれかを提供する。

例１１は、前記擬似乗算回路が、前記乗数の大きさを前記被乗数と乗算するように構成された第１の部分と、前記第１の部分に結合され、前記第１の部分の前記出力を受信し、前記乗数が負である場合に前記第１の部分の結果を反転させるように構成された第２の部分であって、前記第２の部分の前記出力が、前記擬似乗算回路の前記出力である、第２の部分とを有する、例１～１０の回路のいずれかを提供する。

例１２は、前記乗数が、大きさ、負のビット、及び０ビットとして符号化される、例１～１１のいずれかの回路を提供する。

例１３は、ニューラルネットワークの畳み込み層を実装する回路を提供し、前記畳み込み層は、チャネル重みのセットを、入力活性値のセットに適用して、層出力のセットを生成し、前記回路は、前記チャネル重みのセットのサブセットを、複数のクロックサイクルのクロックサイクルごとの現在のチャネル重みとして選択するように構成されたチャネルセレクタ回路と、前記現在のチャネル重みを受信し、前記現在のチャネル重みを入力活性値のセットに適用し、前記現在のチャネル重みについての現在のチャネル出力を生成するように構成された畳み込みブロックのセットと、前記現在のチャネル出力を前記層出力のセットのサブセットとして記憶し、前記複数のクロックサイクルの後に層出力の前記セットを出力するように構成されたチャネルバッファとを備える。

例１４は、前記畳み込みブロックのセットにおける畳み込みブロックの数が、前記チャネル重みのセットにおけるチャネル重みの数未満である、例１３の回路を提供する。

例１５は、畳み込みブロックの数が、前記チャネル重みの数を前記複数のクロックサイクルで除算した数に実質的に等しい、例１３～１４の回路のいずれかを提供する。

例１６は、前記入力活性値のセットが、前記複数のクロックサイクル中に一定である、例１３～１５の回路のいずれかを提供する。

例１７は、前記入力活性値のセットが、前記ニューラルネットワークの１つ又は複数の前の層によって生成される、例１３～１６の回路のいずれかを提供する。

例１８は、前記１つ又は複数の前の層が、次元削減層を含む、例１７の回路を提供する。

例１９は、前記複数のクロックサイクルにおけるクロックサイクルの数が、前記次元削減層の前記次元削減に基づく、例１８の回路を提供する。

例２０は、前記１つ又は複数の前の層が、前記複数のクロックサイクルの各クロックサイクルについての出力を生成する少なくとも１つの層を含む、例１７～１９のいずれかの回路を提供する。

例２１は、前記１つ又は複数の前の層が、前記複数のクロックサイクルの各クロックサイクルで異なる入力を受信する少なくとも１つの層を含む、例１７～２０のいずれかの回路を提供する。

例２２は、前記畳み込みブロックのセットのうちの１つ又は複数が、例１～１２のいずれかの前記回路を含む、例１３～２１の回路を提供する。

例２３は、ハードウェアアクセラレータにおいて畳み込み層についてのパラメータを実装する方法を提供し、前記方法は、ニューラルネットワークの畳み込み層のパラメータを識別する段階であって、前記パラメータは、重みのセット、及びそれぞれの入力のセットを乗算した前記重みのセットの累積された結果に加算されるべきバイアスを含む、識別する段階と、前記畳み込み層が、負の値を有する前記重みのセットの数に基づいて前記バイアスを増加させる段階、又は、前記１つ又は複数の回路によって実行可能である最大乗算に対する前記重みの大きさを表すために前記重みのセットを符号化する段階によって実行される１つ又は複数の回路の特性に基づいて前記畳み込み層の前記パラメータを変更する段階とを備える。

例２４は、前記バイアスを増加させ、前記重みのセットを符号化することによって、前記パラメータを変更する段階を更に備える、例２３の方法を提供する。

例２５は、前記バイアスが増加され、前記方法が、擬似乗算回路のセットに前記重みのセット及び増加された変更済みのバイアスを提供する段階であって、前記擬似乗算回路が、不完全な２の補数算術を用いて前記重みのセットの各々にそれぞれの入力を乗算し、前記乗算演算の結果を累積し、前記変更済みのバイアスを加算するように構成されている、提供する段階を更に備える、例２３～２４の方法のいずれかを提供する。

例２６は、前記重みが符号化され、前記方法が、前記符号化された重みのセットを乗算回路のセットに提供する段階であって、前記乗算回路が各々、入力を受信し、前記符号化された重みのセットからそれぞれの符号化された重みを受信し、前記最大乗算を前記入力に適用し、前記最大乗算が適用された後に前記それぞれの符号化された重みを適用するように構成されている、提供する段階を更に備える、例２３～２５の方法のいずれかを提供する。

例２７は、削減係数によって入力の次元を削減する前記１つ又は複数の回路における１つ又は複数の次元削減層を識別する段階と、前記畳み込み層についてのチャネルの数を前記削減係数で除算することによって前記回路についての畳み込みブロックの数を決定する段階と、前記１つ又は複数の回路についての前記畳み込みブロックの数をプロビジョニングして、各クロックサイクルに対する前記畳み込みブロックの数に対する前記重みのセットのサブセットを適用する段階であって、前記重みのセットの前記サブセットは、複数のクロックサイクルの各クロックサイクルで変化する、プロビジョニングする段階とを更に備える、例２３～２６の方法のいずれかを提供する。

要約書で説明される事項を含む、示された本開示の実装の上記の説明は、包括的であること、又は開示された厳密な形式に本開示を限定することを意図するものではない。本開示の特定の実装及び例が例示の目的で本明細書において説明されている一方で、当業者が認識するように、様々な均等の変形が本開示の範囲内で可能である。これらの変形は、上記の詳細な説明に鑑みて、本開示に対して行われてよい。
［他の可能な項目］
［項目１］
畳み込みニューラルネットワークの積和関数を実装する回路であって、
複数の擬似乗算回路であって、各擬似乗算回路は、被乗数及び乗数を受信し、不完全な２の補数算術を用いて前記被乗数に前記乗数を乗算することによって出力を生成するように構成されている、複数の擬似乗算回路と、
前記複数の擬似乗算回路に結合され、前記複数の擬似乗算回路の前記出力を累積して、累積出力を生成するように構成された累積回路と、
前記累積回路に結合され、前記累積出力に値を加算して、前記複数の擬似乗算回路の前記２の補数算術を完全にするように構成された加算器回路と
を備える、回路。
［項目２］
前記２の補数算術を完全にするために加算される前記値は、バイアスパラメータである、項目１に記載の回路。
［項目３］
前記２の補数算術を完全にするために加算される前記値は、前記複数の擬似乗算回路によって受信される負の乗数の数に基づく、項目１に記載の回路。
［項目４］
前記不完全な２の補数算術は、前記擬似乗算回路内で加算を伴うことなく前記被乗数を反転させることによって、前記被乗数の符号を変更することを含む、項目１に記載の回路。
［項目５］
前記２の補数算術を完全にするために加算される前記値は、前記複数の擬似乗算回路によって適用される負の乗数の数である、項目１に記載の回路。
［項目６］
前記複数の擬似乗算回路は、ビットシフト演算を用いて前記乗算を実行するように構成されている、項目１に記載の回路。
［項目７］
前記擬似乗算回路は、初期シフトに対して前記ビットシフト演算を適用する前に、最大又は最小重み範囲への前記初期シフトを用いて乗算を実行するように構成されている、項目６に記載の回路。
［項目８］
前記乗数は、前記ビットシフト演算についてのシフトの数を記述する大きさを含むように符号化される、項目６に記載の回路。
［項目９］
前記擬似乗算回路は、
前記乗数の大きさを前記被乗数と乗算するように構成された第１の部分と、
前記第１の部分に結合され、前記第１の部分の前記出力を受信し、前記乗数が負である場合に前記第１の部分の結果を反転させるように構成された第２の部分であって、前記第２の部分の前記出力は、前記擬似乗算回路の前記出力である、第２の部分と
を有する、項目１に記載の回路。
［項目１０］
ニューラルネットワークの畳み込み層を実装する回路であって、前記畳み込み層は、複数のチャネル重みを、入力活性値のセットに適用して、複数の層出力を生成し、前記回路は、
前記複数のチャネル重みのサブセットを、複数のクロックサイクルのクロックサイクルごとの現在のチャネル重みとして選択するように構成されたチャネルセレクタ回路と、
前記現在のチャネル重みを受信し、前記現在のチャネル重みを入力活性値のセットに適用し、前記現在のチャネル重みについての現在のチャネル出力を生成するように構成された畳み込みブロックのセットと、
前記現在のチャネル出力を前記複数の層出力のサブセットとして記憶し、前記複数のクロックサイクルの後に層出力の前記セットを出力するように構成されたチャネルバッファと
を備える、回路。
［項目１１］
前記畳み込みブロックのセットにおける畳み込みブロックの数は、前記チャネル重みのセットにおけるチャネル重みの数未満である、項目１０に記載の回路。
［項目１２］
畳み込みブロックの数は、前記チャネル重みの数を前記複数のクロックサイクルで除算した数に等しい、項目１０に記載の回路。
［項目１３］
前記入力活性値のセットは、前記複数のクロックサイクル中に一定である、項目１０に記載の回路。
［項目１４］
前記入力活性値のセットは、前記ニューラルネットワークの１つ又は複数の前の層によって生成される、項目１０に記載の回路。
［項目１５］
前記１つ又は複数の前の層は、次元削減層を含み、前記複数のクロックサイクルにおけるクロックサイクルの数は、前記次元削減層の前記次元削減に基づく、項目１４に記載の回路。
［項目１６］
前記１つ又は複数の前の層は、前記複数のクロックサイクルのクロックサイクルごとに出力を生成する少なくとも１つの層を含む、項目１４に記載の回路。
［項目１７］
前記１つ又は複数の前の層は、前記複数のクロックサイクルの各クロックサイクルで異なる入力を受信する少なくとも１つの層を含む、項目１４に記載の回路。
［項目１８］
ハードウェアアクセラレータにおいてニューラルネットワークの畳み込み層についてのパラメータを実装する方法であって、
前記ニューラルネットワークの畳み込み層のパラメータを識別する段階であって、前記パラメータは、複数の重み、及びそれぞれの複数の入力を乗算した前記複数の重みの累積された結果に加算されるべきバイアスを含む、識別する段階と、
前記畳み込み層が、
負の値を有する前記複数の重みの数に基づいて前記バイアスを増加させる段階、又は、
前記１つ又は複数の回路によって実行可能である最大乗算に対する前記重みの大きさを表すために前記複数の重みを符号化する段階
によって実行される１つ又は複数の回路の特性に基づいて前記畳み込み層の前記パラメータを変更する段階と
を備える、方法。
［項目１９］
前記バイアスは増加され、前記方法は、
擬似乗算回路のセットに前記重みのセット及び増加された変更済みのバイアスを提供する段階であって、前記擬似乗算回路は、
不完全な２の補数算術を用いて前記重みのセットの各々にそれぞれの入力を乗算して、複数の乗算結果を生成し、
前記複数の乗算結果を累積し、
前記変更済みのバイアスを加算する
ように構成されている、提供する段階
を更に備える、項目１８に記載の方法。
［項目２０］
前記重みは符号化され、前記方法は、
前記符号化された重みのセットを乗算回路のセットに提供する段階であって、前記乗算回路は各々、
入力を受信し、
前記符号化された重みのセットからそれぞれの符号化された重みを受信し、
前記最大乗算を前記入力に適用し、
前記最大乗算が適用された後に前記それぞれの符号化された重みを適用する
ように構成されている、提供する段階
を更に備える、項目１８に記載の方法。
［項目２１］
削減係数によって入力の次元を削減する前記１つ又は複数の回路における１つ又は複数の次元削減層を識別する段階と、
前記畳み込み層についてのチャネルの数を前記削減係数で除算することによって前記１つ又は複数の回路についての畳み込みブロックの数を決定する段階と、
前記１つ又は複数の回路についての前記畳み込みブロックの数をプロビジョニングして、各クロックサイクルに対する前記畳み込みブロックの数に対する前記重みのセットのサブセットを適用する段階であって、前記重みのセットの前記サブセットは、複数のクロックサイクルの各クロックサイクルで変化する、プロビジョニングする段階と
を更に備える、項目１８に記載の方法。
［項目２２］
ハードウェアアクセラレータにおいてニューラルネットワークの畳み込み層を実装するためのハードウェアパラメータを決定するシステムであって、前記システムは、
前記ニューラルネットワークの前記畳み込み層のトレーニングされたパラメータを受信することであって、前記トレーニングされたパラメータは、それぞれの複数の入力を乗算され、累積されるべき複数の重みを含む、受信することと、
ハードウェアアクセラレータ上で前記畳み込み層を実装するための前記ハードウェアパラメータを、
負の値を有する前記複数の重みの数に基づいて乗算結果を累積した後に、前記ハードウェアアクセラレータによって加算されるべき値を決定すること、又は、
前記ハードウェアアクセラレータによって実行可能である最大乗算に対する前記複数の重みの大きさを表すために前記複数の重みを符号化すること
によって決定することと
を行うように構成された１つ又は複数の処理要素を備える、システム。
［項目２３］
前記トレーニングパラメータは、バイアス値を含み、前記ハードウェアアクセラレータによって加算されるべき前記決定された値は、前記バイアス値に、負の値を有する前記複数の重みの前記数を加算した値である、項目２２に記載のシステム。
［項目２４］
前記ニューラルネットワークは、前記畳み込み層の前に次元削減を含み、前記畳み込み層は、複数のチャネル出力を生成する複数の畳み込みフィルタを含み、前記１つ又は複数の処理要素は、
前記次元削減に基づいて前記ハードウェアアクセラレータの前記畳み込み層についてプロビジョニングされるべき畳み込みブロックの数を決定するように更に構成されている、項目２２に記載のシステム。
［項目２５］
前記畳み込みブロックの決定された数は、前記畳み込み層への前記入力が前記ハードウェアアクセラレータにおいて一定に保たれるクロックサイクルの数に基づく、項目２４に記載のシステム。

Claims

畳み込みニューラルネットワークの積和関数を実装する回路であって、
複数の擬似乗算回路であって、各擬似乗算回路は、被乗数及び乗数を受信し、不完全な２の補数算術を用いて前記被乗数に前記乗数を乗算することによって出力を生成するように構成されている、複数の擬似乗算回路と、
前記複数の擬似乗算回路に結合され、前記複数の擬似乗算回路の前記出力を累積して、累積出力を生成するように構成された累積回路と、
前記累積回路に結合され、前記累積出力に値を加算して、前記複数の擬似乗算回路の前記２の補数算術を完全にするように構成された加算器回路と
を備える、回路。
前記２の補数算術を完全にするために加算される前記値は、バイアスパラメータである、請求項１に記載の回路。
前記２の補数算術を完全にするために加算される前記値は、前記複数の擬似乗算回路によって受信される負の乗数の数に基づく、請求項１に記載の回路。
前記不完全な２の補数算術は、前記擬似乗算回路内で加算を伴うことなく前記被乗数を反転させることによって、前記被乗数の符号を変更することを含む、請求項１に記載の回路。
前記２の補数算術を完全にするために加算される前記値は、前記複数の擬似乗算回路によって適用される負の乗数の数である、請求項１に記載の回路。
前記複数の擬似乗算回路は、ビットシフト演算を用いて前記乗算を実行するように構成されている、請求項１に記載の回路。
前記擬似乗算回路は、初期シフトに対して前記ビットシフト演算を適用する前に、最大又は最小重み範囲への前記初期シフトを用いて乗算を実行するように構成されている、請求項６に記載の回路。
前記乗数は、前記ビットシフト演算についてのシフトの数を記述する大きさを含むように符号化される、請求項６に記載の回路。
前記擬似乗算回路は、
前記乗数の大きさを前記被乗数と乗算するように構成された第１の部分と、
前記第１の部分に結合され、前記第１の部分の前記出力を受信し、前記乗数が負である場合に前記第１の部分の結果を反転させるように構成された第２の部分であって、前記第２の部分の前記出力は、前記擬似乗算回路の前記出力である、第２の部分と
を有する、請求項１～８のいずれか１項に記載の回路。
ニューラルネットワークの畳み込み層を実装する回路であって、前記畳み込み層は、複数のチャネル重みを、入力活性値のセットに適用して、複数の層出力を生成し、前記回路は、
前記複数のチャネル重みのサブセットを、複数のクロックサイクルのクロックサイクルごとの現在のチャネル重みとして選択するように構成されたチャネルセレクタ回路と、
前記現在のチャネル重みを受信し、前記現在のチャネル重みを入力活性値のセットに適用し、前記現在のチャネル重みについての現在のチャネル出力を生成するように構成された畳み込みブロックのセットと、
前記現在のチャネル出力を前記複数の層出力のサブセットとして記憶し、前記複数のクロックサイクルの後に層出力の前記セットを出力するように構成されたチャネルバッファと
を備える、回路。
前記畳み込みブロックのセットにおける畳み込みブロックの数は、前記チャネル重みのセットにおけるチャネル重みの数未満である、請求項１０に記載の回路。
畳み込みブロックの数は、前記チャネル重みの数を前記複数のクロックサイクルで除算した数に等しい、請求項１０に記載の回路。
前記入力活性値のセットは、前記複数のクロックサイクル中に一定である、請求項１０に記載の回路。
前記入力活性値のセットは、前記ニューラルネットワークの１つ又は複数の前の層によって生成される、請求項１０に記載の回路。
前記１つ又は複数の前の層は、次元削減層を含み、前記複数のクロックサイクルにおけるクロックサイクルの数は、前記次元削減層の次元削減に基づく、請求項１４に記載の回路。
前記１つ又は複数の前の層は、前記複数のクロックサイクルのクロックサイクルごとに出力を生成する少なくとも１つの層を含む、請求項１４に記載の回路。
前記１つ又は複数の前の層は、前記複数のクロックサイクルの各クロックサイクルで異なる入力を受信する少なくとも１つの層を含む、請求項１４～１６のいずれか１項に記載の回路。
ハードウェアアクセラレータにおいてニューラルネットワークの畳み込み層についてのパラメータを実装する方法であって、
前記ニューラルネットワークの畳み込み層のパラメータを識別する段階であって、前記パラメータは、複数の重み、及びそれぞれの複数の入力を乗算した前記複数の重みの累積された結果に加算されるべきバイアスを含む、識別する段階と、
前記畳み込み層が、
負の値を有する前記複数の重みの数に基づいて前記バイアスを増加させる段階、又は、
１つ又は複数の回路によって実行可能である最大乗算に対する前記複数の重みの大きさを表すために前記複数の重みを符号化する段階
によって実行される前記１つ又は複数の回路の特性に基づいて前記畳み込み層の前記パラメータを変更する段階と
を備える、方法。
前記バイアスは増加され、前記方法は、
擬似乗算回路のセットに前記複数の重みのセット及び増加された変更済みのバイアスを提供する段階であって、前記擬似乗算回路は、
不完全な２の補数算術を用いて前記複数の重みのセットの各々にそれぞれの入力を乗算して、複数の乗算結果を生成し、
前記複数の乗算結果を累積し、
前記変更済みのバイアスを加算する
ように構成されている、提供する段階
を更に備える、請求項１８に記載の方法。
前記複数の重みは符号化され、前記方法は、
前記符号化された複数の重みのセットを乗算回路のセットに提供する段階であって、前記乗算回路は各々、
入力を受信し、
前記符号化された複数の重みのセットからそれぞれの符号化された重みを受信し、
前記最大乗算を前記入力に適用し、
前記最大乗算が適用された後に前記それぞれの符号化された重みを適用する
ように構成されている、提供する段階
を更に備える、請求項１８に記載の方法。
削減係数によって入力の次元を削減する前記１つ又は複数の回路における１つ又は複数の次元削減層を識別する段階と、
前記畳み込み層についてのチャネルの数を前記削減係数で除算することによって前記１つ又は複数の回路についての畳み込みブロックの数を決定する段階と、
前記１つ又は複数の回路についての前記畳み込みブロックの数をプロビジョニングして、各クロックサイクルに対する前記畳み込みブロックの数に対する前記複数の重みのセットのサブセットを適用する段階であって、前記複数の重みのセットの前記サブセットは、複数のクロックサイクルの各クロックサイクルで変化する、プロビジョニングする段階と
を更に備える、請求項１８～２０のいずれか１項に記載の方法。
ハードウェアアクセラレータにおいてニューラルネットワークの畳み込み層を実装するためのハードウェアパラメータを決定するシステムであって、前記システムは、
前記ニューラルネットワークの前記畳み込み層のトレーニングされたパラメータを受信することであって、前記トレーニングされたパラメータは、それぞれの複数の入力を乗算され、累積されるべき複数の重みを含む、受信することと、
ハードウェアアクセラレータ上で前記畳み込み層を実装するための前記ハードウェアパラメータを、
負の値を有する前記複数の重みの数に基づいて乗算結果を累積した後に、前記ハードウェアアクセラレータによって加算されるべき値を決定すること、又は、
前記ハードウェアアクセラレータによって実行可能である最大乗算に対する前記複数の重みの大きさを表すために前記複数の重みを符号化すること
によって決定することと
を行うように構成された１つ又は複数の処理要素を備える、システム。
前記トレーニングされたパラメータは、バイアス値を含み、前記ハードウェアアクセラレータによって加算されるべき前記決定された値は、前記バイアス値に、負の値を有する前記複数の重みの前記数を加算した値である、請求項２２に記載のシステム。
前記ニューラルネットワークは、前記畳み込み層の前に次元削減を含み、前記畳み込み層は、複数のチャネル出力を生成する複数の畳み込みフィルタを含み、前記１つ又は複数の処理要素は、
前記次元削減に基づいて前記ハードウェアアクセラレータの前記畳み込み層についてプロビジョニングされるべき畳み込みブロックの数を決定するように更に構成されている、請求項２２又は２３に記載のシステム。
前記畳み込みブロックの決定された数は、前記畳み込み層への前記入力が前記ハードウェアアクセラレータにおいて一定に保たれるクロックサイクルの数に基づく、請求項２４に記載のシステム。