JP2023076026A

JP2023076026A - 半導体装置

Info

Publication number: JP2023076026A
Application number: JP2021189169A
Authority: JP
Inventors: 和昭寺島; Kazuaki Terajima; 淳中村; Atsushi Nakamura; 学小池; Manabu Koike
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-06-01
Also published as: CN116151321A; DE102022212269A1; KR20230075349A; US20230162013A1

Abstract

【課題】ニューラルネットワークの処理において量子化誤差を低減することができる半導体装置を提供する。【解決手段】一実施の形態の半導体装置は、ニューラルネットワークの処理を実行するものである。第１のシフトレジスタは、第１のバッファから順次入力された複数の出力データをビットシフトによって量子化することで、複数の量子化入力データを順次生成する。積和演算器は、複数のパラメータと、第１のシフトレジスタからの複数の量子化入力データとを積和演算することで演算データを生成する。第２のシフトレジスタは、積和演算器からの演算データをビットシフトによって逆量子化することで出力データを生成し、当該出力データを第１のバッファに格納する。【選択図】図２

Description

本発明は、半導体装置に関し、例えば、ニューラルネットワークの処理を実行する半導体装置に関する。

特許文献１（特開２０１９－４０４０３号公報）には、ＣＮＮ（Convolutional Neural Network）における畳み込み演算の演算量を低減するため、統合係数テーブルを用いて演算を行う畳み込み演算処理回路を有する画像認識装置が示される。統合係数テーブルは、Ｎ×Ｎのデータを保持し、Ｎ×Ｎのデータのそれぞれは、係数およびチャネル番号で構成される。畳み込み演算処理回路は、入力画像と係数とのＮ×Ｎの積演算を並列に実行する積演算回路と、当該積演算結果に対してチャネル番号毎の累積加算演算を行い、その加算演算結果をチャネル番号毎の出力レジスタに格納するチャネル選択回路と、を有する。

特開２０１９－４０４０３号公報

ＣＮＮ等のニューラルネットワークでは、学習によって、例えば３２ビット等の浮動小数点数のパラメータ、具体的には、重みパラメータおよびバイアスパラメータが得られる。ただし、推論時に、浮動小数点数のパラメータを用いて積和演算を行うと、積和演算器（ＭＡＣ（Multiply ACcumulate operation）回路と呼ぶ）の回路面積、処理負荷、消費電力、実行時間は、増加し得る。さらに、パラメータおよび演算結果の一時バッファからのリードまたはライトに伴い、必要とされるメモリ容量およびメモリ帯域幅は増加し、消費電力も増加し得る。

そこで、近年では、入力データや、３２ビット等の浮動小数点数のパラメータを、８ビット以下の整数に量子化した上で、推論を行う方式が着目されている。この場合、ＭＡＣ回路は少ないビット数での整数演算を行えばよいため、ＭＡＣ回路の回路面積、処理負荷、消費電力、実行時間を減らすことが可能になる。ただし、量子化を用いる場合、量子化の粒度によって量子化誤差が変化し、それに応じて、推論の精度も変化し得る。このため、量子化誤差を低減するための効率的な仕組みが求められる。また、より少ないハードウエアのリソースと時間で推論を行わせるためには、メモリ帯域幅を減らすことが求められる。

その他の課題と新規な特徴は、本明細書の記載および添付図面から明らかになるであろう。

そこで、一実施の形態の半導体装置は、ニューラルネットワークの処理を実行し、第１のバッファと、第１のシフトレジスタと、積和演算器と、第２のシフトレジスタと、を備える。第１のバッファは、出力データを保持する。第１のシフトレジスタは、第１のバッファから順次入力された複数の出力データをビットシフトによって量子化することで、複数の量子化入力データを順次生成する。積和演算器は、複数のパラメータと、第１のシフトレジスタからの複数の量子化入力データとを積和演算することで演算データを生成する。第２のシフトレジスタは、積和演算器からの演算データをビットシフトによって逆量子化することで出力データを生成し、当該出力データを第１のバッファに格納する。

一実施の形態の半導体装置を用いることで、ニューラルネットワークにおける量子化誤差を効率的に低減するための仕組みを提供できる。

図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図２は、図１におけるニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図３は、図２に示したニューラルネットワークエンジンによって処理されるニューラルネットワークの構成例を示す概略図である。図４は、実施の形態２による半導体装置において、ニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図５は、図４におけるバッファコントローラの動作例を説明する模式図である。図６は、実施の形態３による半導体装置において、主要部の構成例を示す概略図である。図７は、図６におけるニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図８は、実施の形態４による半導体装置において、ニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。

以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

以下、実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。

（実施の形態１）
＜半導体装置の概略＞
図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図１に示す半導体装置１０は、例えば、一つの半導体チップで構成されるＳｏＣ（System on Chip）等である。当該半導体装置１０は、代表的には、車両のＥＣＵ（Electronic Control Unit）等に搭載され、ＡＤＡＳ（Advanced Driver Assistance System）の機能を提供する。

図１に示す半導体装置１０は、ニューラルネットワークエンジン１５と、ＣＰＵ（Central Processing Unit）等のプロセッサ１７と、単数または複数のメモリＭＥＭ１，ＭＥＭ２と、システムバス１６とを有する。ニューラルネットワークエンジン１５は、ＣＮＮを代表とするニューラルネットワークの処理を実行する。メモリＭＥＭ１はＤＲＡＭ（Dynamic Random Access Memory）等であり、メモリＭＥＭ２はキャッシュ用のＳＲＡＭ（Static Random Access Memory）等である。システムバス１６は、ニューラルネットワークエンジン１５、メモリＭＥＭ１，ＭＥＭ２およびプロセッサ１７を互いに接続する。

メモリＭＥＭ１は、例えば画素値からなる複数のデータＤＴと、複数のパラメータＰＲとを保持する。パラメータＰＲには、重みパラメータＷＰと、バイアスパラメータＢＰとが含まれる。メモリＭＥＭ２は、ニューラルネットワークエンジン１５の高速キャッシュメモリとして用いられる。例えば、メモリＭＥＭ１内の複数のデータＤＴは、予めメモリＭＥＭ２にコピーされたのち、ニューラルネットワークエンジン１５で用いられる。

ニューラルネットワークエンジン１５は、複数のＤＭＡ（Direct Memory Access）コントローラＤＭＡＣ１，ＤＭＡＣ２と、ＭＡＣユニット２０と、バッファＢＵＦｉと、を備える。ＭＡＣユニット２０は、複数のＭＡＣ回路２１、すなわち複数の積和演算器を備える。ＤＭＡコントローラＤＭＡＣ１は、例えば、メモリＭＥＭ１と、ＭＡＣユニット２０内の複数のＭＡＣ回路２１との間のシステムバス１６を介したデータ転送を制御する。ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２と、ＭＡＣユニット２０内の複数のＭＡＣ回路２１との間のデータ転送を制御する。

例えば、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から複数の重みパラメータＷＰを順次読み出す。一方、ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２から、予めコピーされた複数のデータＤＴを順次読み出す。ＭＡＣユニット２０内の複数のＭＡＣ回路２１のそれぞれは、ＤＭＡコントローラＤＭＡＣ１からの複数の重みパラメータＷＰと、ＤＭＡコントローラＤＭＡＣ２からの複数のデータＤＴとを積和演算する。また、詳細は後述するが、複数のＭＡＣ回路２１のそれぞれは、積和演算結果を、適宜、バッファＢＵＦｉに格納する。

＜ニューラルネットワークエンジンの詳細＞
図２は、図１におけるニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図２に示すニューラルネットワークエンジン１５は、図１で述べたように、ＭＡＣユニット２０と、バッファＢＵＦｉと、２個のＤＭＡコントローラＤＭＡＣ１，ＤＭＡＣ２と、を備える。図２におけるＭＡＣユニット２０では、図１で述べた複数のＭＡＣ回路２１の中の１個のＭＡＣ回路２１を代表として、当該ＭＡＣ回路２１周りの詳細な構成例が示される。ＭＡＣユニット２０は、ＭＡＣ回路２１に加えて、マルチプレクサＭＵＸ１と、前段シフトレジスタＳＲＥＧ１と、後段シフトレジスタＳＲＥＧ２と、デマルチプレクサＤＭＵＸ１と、を備える。

バッファＢＵＦｉは、例えば、３２ビット幅×Ｎ個（Ｎは２以上の整数）のフリッププロップで構成される。バッファＢＵＦｉの入力側にはデマルチプレクサＤＭＵＸ２が設けられ、バッファＢＵＦｉの出力側にはマルチプレクサＭＵＸ２が設けられる。バッファＢＵＦｉは、後段シフトレジスタＳＲＥＧ２から２個のデマルチプレクサＤＭＵＸ１，ＤＭＵＸ２を介して出力される出力データＤＴｏを保持する。当該出力データＤＴｏのビット幅は、例えば、３２ビットである。

デマルチプレクサＤＭＵＸ１は、後段シフトレジスタＳＲＥＧ２からの出力データＤＴｏを、ＤＭＡコントローラＤＭＡＣ２を介してメモリＭＥＭ２に格納するか、デマルチプレクサＤＭＵＸ２を介してバッファＢＵＦｉに格納するかを選択する。デマルチプレクサＤＭＵＸ１は、バッファＢＵＦｉが選択された場合には、３２ビット幅の出力データＤＴｏを出力し、メモリＭＥＭ２が選択された場合には、例えば、３２ビット中の下位８ビット等の出力データＤＴｏを出力する。この際に、出力データＤＴｏにおける残りの２４ビットは、後述する前段シフトレジスタＳＲＥＧ１および後段シフトレジスタＳＲＥＧ２を用いた量子化／逆量子化によって、ゼロとなるように制御される。

デマルチプレクサＤＭＵＸ２は、デマルチプレクサＤＭＵＸ１からの３２ビット幅の出力データＤＴｏを、３２ビット幅×Ｎ個のバッファＢＵＦｉ内のどの位置に格納するかを選択する。より詳細には、バッファＢＵＦｉは、図１に示したように、複数のＭＡＣ回路２１に対して共通に設けられ、複数のＭＡＣ回路２１からの出力データＤＴｏを、デマルチプレクサＤＭＵＸ２によって選択された位置に格納する。

前段シフトレジスタＳＲＥＧ１は、バッファＢＵＦｉから２個のマルチプレクサＭＵＸ２，ＭＵＸ１を介して順次入力された複数の出力データＤＴｏをビットシフトによって量子化することで、複数の量子化入力データＤＴｉを順次生成する。詳細には、まず、マルチプレクサＭＵＸ２は、３２ビット幅×Ｎ個のバッファＢＵＦｉ内のいずれか１個の位置に保持される出力データＤＴｏを選択し、例えば、当該出力データＤＴｏの下位８ビット等を、中間データＤＴｍとしてマルチプレクサＭＵＸ１へ出力する。

また、マルチプレクサＭＵＸ２は、このような処理を、バッファＢＵＦｉ内の位置を変えながら時系列的に順次行うことで、複数の出力データＤＴｏと等価な複数の中間データＤＴｍを順次出力する。マルチプレクサＭＵＸ１は、メモリＭＥＭ２からＤＭＡコントローラＤＭＡＣ２を介して読み出された８ビット幅のデータＤＴか、バッファＢＵＦｉからマルチプレクサＭＵＸ２を介して読み出された８ビット幅の中間データＤＴｍかを選択し、選択したデータを前段シフトレジスタＳＲＥＧ１へ出力する。

前段シフトレジスタＳＲＥＧ１は、例えば、８ビット幅のレジスタである。前段シフトレジスタＳＲＥＧ１は、マルチプレクサＭＵＸ１からのデータを、２^ｍ（ｍはゼロ以上の整数）である量子化係数Ｑｉを用いて量子化することで、８ビットの整数（ＩＮＴ８）形式である量子化入力データＤＴｉを生成する。すなわち、前段シフトレジスタＳＲＥＧ１は、入力されたデータに対してｍビットの左シフトを行うことで、入力されたデータに量子化係数Ｑｉを乗算する。８ビットによって、１０進数で０～２５５が表現できるとすると、量子化係数Ｑｉ、すなわちシフト量“ｍ”は、例えば、量子化入力データＤＴｉが２５５に近い値となるように定められる。

ＭＡＣ回路２１は、メモリＭＥＭ１からＤＭＡコントローラＤＭＡＣ１を介して順次読み出された複数の重みパラメータＷＰと、前段シフトレジスタＳＲＥＧ１からの複数の量子化入力データＤＴｉとを積和演算することで演算データＤＴｃを生成する。学習によって得られる重みパラメータＷＰは、通常、３２ビットの浮動小数点数（ＦＰ３２）で表現される１よりも小さい値である。このようなＦＰ３２形式の重みパラメータＷＰは、予め、２^ｎ（ｎはゼロ以上の整数）である量子化係数Ｑｗを用いてＩＮＴ８形式に量子化された上で、メモリＭＥＭ１に格納される。

ＭＡＣ回路２１は、ＩＮＴ８形式である２個の入力データを乗算する乗算器と、当該乗算器の乗算結果を累積加算する累積加算器とを備える。ＭＡＣ回路２１によって生成される演算データＤＴｃは、例えば１６ビット以上の整数、ここでは、３２ビットの整数（ＩＮＴ３２）形式である。

なお、ＭＡＣ回路２１は、より詳細には、累積加算器による累積加算結果に対してバイアスパラメータＢＰを加算する加算器と、その加算結果に対して活性化関数を演算する演算器とを備える。そして、ＭＡＣ回路２１は、バイアスパラメータＢＰの加算と活性化関数の演算とを行った結果を、演算データＤＴｃとして出力する。以降では、記載の簡略化のため、当該バイアスパラメータＢＰの加算と活性化関数の演算とを無視して説明を行う。

後段シフトレジスタＳＲＥＧ２は、例えば、３２ビット幅のレジスタである。後段シフトレジスタＳＲＥＧ２は、ＭＡＣ回路２１からの演算データＤＴｃをビットシフトによって逆量子化することで出力データＤＴｏを生成する。そして、後段シフトレジスタＳＲＥＧ２は、当該出力データＤＴｏを２個のデマルチプレクサＤＭＵＸ１，ＤＭＵＸ２を介してバッファＢＵＦｉに格納する。

詳細には、後段シフトレジスタＳＲＥＧ２は、演算データＤＴｃに逆量子化係数ＱＲを乗算することで、ＩＮＴ３２形式である出力データＤＴｏを生成する。逆量子化係数ＱＲは、前述した量子化係数Ｑｉ（＝２^ｍ），Ｑｗ（＝２^ｎ）を用いて、例えば、１／（Ｑｉ×Ｑｗ）、すなわち、２^{－（ｍ＋ｎ）}である。この場合、後段シフトレジスタＳＲＥＧ２は、演算データＤＴｃに対して、ｋ（＝ｍ＋ｎ）ビットの右シフトを行うことで、演算データＤＴｃを逆量子化する。

なお、シフト量“ｋ”は、必ずしも“ｍ＋ｎ”である必要はない。この場合、出力データＤＴｏは、本来の値に対して２^ｉ倍（ｉは正または負の整数）だけ異なる値になり得る。ただし、この場合、ニューラルネットワークにおける最終的な結果が得られる前のいずれかの段階で、当該２^ｉ倍のズレは、後段シフトレジスタＳＲＥＧ２での右シフトまたは左シフトによって補正され得る。

また、デマルチプレクサＤＭＵＸ１，ＤＭＵＸ２は、１個の入力を複数の出力にそれぞれ接続する複数のスイッチで構成され得る。同様に、マルチプレクサＭＵＸ１，ＭＵＸ２は、複数の入力をそれぞれ１個の出力に接続する複数のスイッチで構成され得る。デマルチプレクサＤＭＵＸ１，ＤＭＵＸ２を構成する複数のスイッチのオン／オフは、選択信号ＳＤＸ１，ＳＤＸ２によって制御される。マルチプレクサＭＵＸ１，ＭＵＸ２を構成する複数のスイッチのオン／オフは、選択信号ＳＭＸ１，ＳＭＸ２によって制御される。

選択信号ＳＤＸ１，ＳＤＸ２，ＳＭＸ１，ＳＭＸ２は、例えば、ニューラルネットワークエンジン１５を制御するファームウェア等によって生成される。当該ファームウェアは、ユーザによって予め設定またはプログラミングされるニューラルネットワークの構造に基づいて、図示しないニューラルネットワークエンジン１５の制御回路を介して選択信号ＳＤＸ１，ＳＤＸ２，ＳＭＸ１，ＳＭＸ２を適宜生成する。

前段シフトレジスタＳＲＥＧ１のシフト量“ｍ”は、シフト信号ＳＦ１によって制御され、後段シフトレジスタＳＲＥＧ２のシフト量“ｋ”は、シフト信号ＳＦ２によって制御される。シフト信号ＳＦ１，ＳＦ２も、ファームウェアおよび制御回路によって生成される。この際に、ユーザは、シフト量“ｍ”，“ｋ”を任意に定めることが可能である。

図３は、図２に示したニューラルネットワークエンジンによって処理されるニューラルネットワークの構成例を示す概略図である。図３に示すニューラルネットワークは、縦続接続される３層の畳み込み層２５［１］，２５［２］，２５［３］と、その後段に接続されるプーリング層２６とを備える。畳み込み層２５［１］は、例えば、メモリＭＥＭ２に保持される入力マップＩＭのデータＤＴを入力として畳み込み演算を行うことで、特徴マップＦＭ［１］のデータを生成する。

畳み込み層２５［２］は、畳み込み層２５［１］で得られる特徴マップＦＭ［１］のデータを入力として畳み込み演算を行うことで、特徴マップＦＭ［２］のデータを生成する。同様に、畳み込み層２５［３］は、畳み込み層２５［２］で得られる特徴マップＦＭ［２］のデータを入力として畳み込み演算を行うことで、特徴マップＦＭ［３］のデータを生成する。プーリング層２６は、畳み込み層２５［３］で得られる特徴マップＦＭ［３］のデータを入力としてプーリング処理を行う。

このようなニューラルネットワークを対象として、図２のニューラルネットワークエンジン１５は、例えば、次のような処理を行う。まず、事前準備として、学習によって得られるＦＰ３２形式の重みパラメータＷＰは、ＩＮＴ８形式に量子化された上でメモリＭＥＭ１に格納される。具体的には、ＩＮＴ８形式の重みパラメータＷＰは、ＦＰ３２形式の重みパラメータＷＰに量子化係数Ｑｗ（＝２^ｎ）を乗算したのち整数に丸めることで作成される。

畳み込み層２５［１］において、ＭＡＣ回路２１は、メモリＭＥＭ１から順次読み出されたＩＮＴ８形式の複数の重みパラメータＷＰ［１］を入力する。また、ＭＡＣ回路２１は、メモリＭＥＭ２から順次読み出されたＩＮＴ８形式の複数のデータＤＴを、マルチプレクサＭＵＸ１および前段シフトレジスタＳＲＥＧ１を介して入力する。この際に、前段シフトレジスタＳＲＥＧ１は、複数のデータＤＴのそれぞれに対して量子化係数Ｑｉ［１］（＝２^ｍ１）（ｍ１は０以上の整数）を用いた量子化、すなわち左シフトを行うことで、複数の量子化入力データＤＴｉ［１］を生成する。なお、メモリＭＥＭ２からの複数のデータＤＴは、入力マップＩＭを構成するデータである。

ＭＡＣ回路２１は、メモリＭＥＭ１からの複数の重みパラメータＷＰ［１］と、前段シフトレジスタＳＲＥＧ１からの複数の量子化入力データＤＴｉ［１］とを順次積和演算すること等で、ＩＮＴ３２形式の演算データＤＴｃ［１］を出力する。後段シフトレジスタＳＲＥＧ２は、演算データＤＴｃ［１］に逆量子化係数ＱＲ［１］を乗算することで、出力データＤＴｏ［１］を生成する。逆量子化係数ＱＲ［１］は、例えば、１／（Ｑｗ・Ｑｉ［１］）である。この場合、後段シフトレジスタＳＲＥＧ２は、右シフトを行う。

このようにして得られる出力データＤＴｏ［１］は、特徴マップＦＭ［１］を構成する複数のデータの中の１個となる。後段シフトレジスタＳＲＥＧ２は、当該出力データＤＴｏ［１］をデマルチプレクサＤＭＵＸ１，ＤＭＵＸ２を介してバッファＢＵＦｉの所定の位置に格納する。その後、ＭＡＣ回路２１は、他の複数のデータＤＴを対象に同様の処理を行うことで、特徴マップＦＭ［１］を構成する複数のデータの中の他の１個を生成する。当該他の１個のデータも、バッファＢＵＦｉの所定の位置に格納される。また、複数のＭＡＣ回路２１が並行して同様の処理を行うことで、バッファＢＵＦｉには、特徴マップＦＭ［１］を構成する全てのデータが格納される。

畳み込み層２５［２］において、ＭＡＣ回路２１は、メモリＭＥＭ１から読み出されたＩＮＴ８形式の複数の重みパラメータＷＰ［２］を入力する。また、ＭＡＣ回路２１は、バッファＢＵＦｉからマルチプレクサＭＵＸ２を介して順次読み出された複数の中間データＤＴｍを、マルチプレクサＭＵＸ１および前段シフトレジスタＳＲＥＧ１を介して入力する。この際に、前段シフトレジスタＳＲＥＧ１は、複数の中間データＤＴｍのそれぞれに対して量子化係数Ｑｉ［２］（＝２^ｍ２）（ｍ２は０以上の整数）を用いた量子化、すなわち左シフトを行うことで、複数の量子化入力データＤＴｉ［２］を生成する。バッファＢＵＦｉからの複数の中間データＤＴｍは、特徴マップＦＭ［１］を構成するデータである。

このように、図２の構成例では、バッファＢＵＦｉを設けることで、特徴マップＦＭ［１］を構成するデータを、メモリＭＥＭ２ではなく、バッファＢＵＦｉに格納することができる。これにより、メモリＭＥＭ２へのアクセス頻度が下がり、必要なメモリ帯域幅を削減することが可能になる。

ＭＡＣ回路２１は、メモリＭＥＭ１からの複数の重みパラメータＷＰ［２］と、前段シフトレジスタＳＲＥＧ１からの複数の量子化入力データＤＴｉ［２］とを順次積和演算すること等で、ＩＮＴ３２形式の演算データＤＴｃ［２］を出力する。後段シフトレジスタＳＲＥＧ２は、演算データＤＴｃ［２］に逆量子化係数ＱＲ［２］を乗算することで、出力データＤＴｏ［２］を生成する。逆量子化係数ＱＲ［２］は、例えば、１／（Ｑｗ・Ｑｉ［２］）である。この場合、後段シフトレジスタＳＲＥＧ２は、右シフトを行う。

このようにして得られる出力データＤＴｏ［２］は、特徴マップＦＭ［２］を構成する複数のデータの中の１個となる。後段シフトレジスタＳＲＥＧ２は、当該出力データＤＴｏ［２］をデマルチプレクサＤＭＵＸ１，ＤＭＵＸ２を介してバッファＢＵＦｉに格納する。そして、畳み込み層２５［１］の場合と同様にして、バッファＢＵＦｉには、特徴マップＦＭ［２］を構成する全てのデータが格納される。

畳み込み層２５［３］においても、畳み込み層２５［２］の場合と同様の処理が行われる。この際に、前段シフトレジスタＳＲＥＧ１では量子化係数Ｑｉ［３］（＝２^ｍ３）が用いられ、後段シフトレジスタＳＲＥＧ２では、逆量子化係数ＱＲ［３］、例えば、１／（Ｑｗ・Ｑｉ［３］）が用いられる。ただし、畳み込み層２５［３］では、畳み込み層２５［１］，２５［２］の場合と異なり、特徴マップＦＭ［３］を構成する出力データＤＴｏ［３］は、デマルチプレクサＤＭＵＸ１およびＤＭＡコントローラＤＭＡＣ２を介してメモリＭＥＭ２に格納される。その後、例えば、図１に示したプロセッサ１７は、メモリＭＥＭ２に格納される特徴マップＦＭ［３］に対して、プーリング処理を行う。

このような動作において、出力データＤＴｏの値は、通常、畳み込み層２５［１］，２５［２］，２５［３］を経る毎に小さくなっていく。この場合、出力データＤＴｏの値が小さくなった分だけ、前段シフトレジスタＳＲＥＧ１の量子化係数Ｑｉを大きくすることが可能になる。ここで、量子化誤差を低減するためには、量子化入力データＤＴｉがＩＮＴ８形式の整数範囲に収まるように、量子化係数Ｑｉを可能な限り大きい値に定めることが望ましい。このため、例えば、量子化係数Ｑｉ［２］（＝２^ｍ２）および量子化係数Ｑｉ［３］（＝２^ｍ３）において、ｍ２＜ｍ３となるように定めると、量子化誤差を低減できる。

ただし、量子化誤差の低減方法は、必ずしもｍ２＜ｍ３となるように定める方法に限らず、他の方法であってもよい。いずれの方法を用いた場合でも、前段シフトレジスタＳＲＥＧ１のシフト量“ｍ”および後段シフトレジスタＳＲＥＧ２のシフト量“ｋ”を、ユーザによる設定またはプログラミングに応じて適切に定めることで、対応することが可能である。また、逆量子化係数ＱＲも、１／（Ｑｗ・Ｑｉ）に限らず、適宜変更可能である。この場合、前述したように、２^ｉ倍のズレが生じ得るが、当該２^ｉ倍のズレは、最終的な結果、すなわち特徴マップＦＭ［３］を構成する出力データＤＴｏ［３］を対象に、後段シフトレジスタＳＲＥＧ２によって補正されればよい。

＜実施の形態１の主要な効果＞
以上、実施の形態１による半導体装置では、前段シフトレジスタＳＲＥＧ１および後段シフトレジスタＳＲＥＧ２を設けることで、代表的には、ニューラルネットワークにおける量子化誤差を効率的に低減するための仕組みを提供できる。その結果、ニューラルネットワークを用いた推論の精度を十分に維持することが可能になる。さらに、バッファＢＵＦｉを設けることで、メモリ帯域幅を減らすことができる。そして、量子化による処理負荷の低減や、必要なメモリ帯域幅の削減等によって、推論に要する時間を短縮することが可能になる。

なお、比較例として、前段シフトレジスタＳＲＥＧ１および後段シフトレジスタＳＲＥＧ２と、バッファＢＵＦｉとが設けらない場合を想定する。この場合、例えば、畳み込み層２５［１］，２５［２］で得られる特徴マップＦＭ［１］，ＦＭ［２］のデータをメモリＭＥＭ２に格納する必要性が生じる。さらに、プロセッサ１７を用いた量子化／逆量子化の処理等が別途必要とされる。その結果、メモリ帯域幅が増加し、また、プロセッサ１７の処理が必要とされるため、推論に要する時間も増加し得る。

（実施の形態２）
＜ニューラルネットワークエンジンの詳細＞
図４は、実施の形態２による半導体装置において、ニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図５は、図４におけるバッファコントローラの動作例を説明する模式図である。図４に示すニューラルネットワークエンジン１５ａは、図２に示した構成例と異なり、バッファＢＵＦｉの入力側にライト用のバッファコントローラ３０ａを備え、バッファＢＵＦｉの出力側にリード用のバッファコントローラ３０ｂを備える。

各バッファコントローラ３０ａ，３０ｂは、後段シフトレジスタＳＲＥＧ２からデマルチプレクサＤＭＵＸ１を介して出力される出力データＤＴｏのビット幅を可変制御する。具体的には、図５に示されるように、各バッファコントローラ３０ａ，３０ｂは、出力データＤＴｏのビット幅を、モード信号ＭＤに基づいて、例えば、３２ビット、１６ビット、８ビット、４ビットといった２^ｊビットの中のいずれか一つに制御する。

各バッファコントローラ３０ａ，３０ｂは、出力データＤＴｏのビット幅が３２ビットに制御された場合、物理的に３２ビット幅で構成されるバッファＢＵＦｉを、３２ビット幅のバッファとして、バッファＢＵＦｉへのライト／リードを制御する。一方、各バッファコントローラ３０ａ，３０ｂは、出力データＤＴｏのビット幅が１６ビットに制御された場合、３２ビット幅で構成されるバッファＢＵＦｉを１６ビット幅×２個のバッファとみなして、ライト／リードを制御する。同様に、各バッファコントローラ３０ａ，３０ｂは、出力データＤＴｏのビット幅が８ビットまたは４ビットに制御された場合、バッファＢＵＦｉを８ビット幅×４個のバッファまたは４ビット幅×８個のバッファとみなす。

例えば、出力データＤＴｏのビット幅が８ビットに制御された場合、各バッファコントローラ３０ａ，３０ｂは、３２ビット幅で構成されるバッファＢＵＦｉに対して、ＭＡＣ回路２１から後段シフトレジスタＳＲＥＧ２等を介して入力される４回分の出力データＤＴｏ１～ＤＴｏ４を格納できる。これにより、バッファＢＵＦｉを効率的に使用でき、バッファＢＵＦｉへのライト／リードに伴う消費電力を減らすことが可能になる。

特に、図３に示したようなニューラルネットワークの場合、畳み込み層２５［１］～２５［３］を経る毎に、出力データＤＴｏの値が小さくなるように制御することができる。この場合、畳み込み層２５［１］～２５［３］を経る毎に、出力データＤＴｏのビット幅を小さくすることが可能である。なお、ライト用のバッファコントローラ３０ａは、例えば、複数のデマルチプレクサを組み合わせること等で構成され得る。同様に、リード用のバッファコントローラ３０ｂは、例えば、複数のマルチプレクサを組み合わせること等で構成され得る。

＜実施の形態２の主要な効果＞
以上、実施の形態２による半導体装置を用いることで、実施の形態１で述べた各種効果と同様の効果が得られる。これに加えて、バッファコントローラ３０ａ，３０ｂを設けることで、バッファＢＵＦｉを効率的に使用することが可能になる。

（実施の形態３）
＜半導体装置の概略＞
図６は、実施の形態３による半導体装置において、主要部の構成例を示す概略図である。図６に示す半導体装置１０ｂは、図１と同様の構成を備えることに加えて、ニューラルネットワークエンジン１５ｂ内にバッファＢＵＦｃを備える。バッファＢＵＦｃは、フリップフロップ等で構成されるバッファＢＵＦｉと異なり、例えばＳＲＡＭ等で構成される。例えば、バッファＢＵＦｉの容量は、数１０ｋバイト以下であり、バッファＢＵＦｃの容量は、数Ｍバイト以上である。

＜ニューラルネットワークエンジンの詳細＞
図７は、図６におけるニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図７に示すニューラルネットワークエンジン１５ｂは、図２の構成例と比較して、次の３点が異なっている。１点目の相違点として、バッファＢＵＦｉに加えてバッファＢＵＦｃが追加されている。バッファＢＵＦｃは、後段シフトレジスタＳＲＥＧ２のビット幅と同じビット幅で構成され、例えば、３２ビット幅でアクセスされる。

２点目の相違点として、バッファＢＵＦｉは、後段シフトレジスタＳＲＥＧ２のビット幅よりも少ないビット幅で構成され、例えば、１６ビット幅で構成される。３点目の相違点として、ＭＡＣユニット２０ｂは、バッファＢＵＦｃの追加に伴い、図２の場合とは異なるデマルチプレクサＤＭＵＸ１ｂおよびマルチプレクサＭＵＸ１ｂを備える。デマルチプレクサＤＭＵＸ１ｂは、後段シフトレジスタＳＲＥＧ２からの出力データＤＴｏを、メモリＭＥＭ２、バッファＢＵＦｉまたはバッファＢＵＦｃのいずれに格納するかを、選択信号ＳＤＸ１ｂに基づいて選択する。バッファＢＵＦｉが選択された場合、バッファＢＵＦｉには、例えば、３２ビットの出力データＤＴｏの中の下位１６ビット等が格納される。

マルチプレクサＭＵＸ１ｂは、メモリＭＥＭ２に保持されるデータＤＴ、バッファＢＵＦｉに保持される出力データＤＴｏ、またはバッファＢＵＦｃに保持される出力データＤＴｏのいずれかを、選択信号ＳＭＸ１ｂに基づいて選択して前段シフトレジスタＳＲＥＧ１へ出力する。バッファＢＵＦｉに保持される出力データＤＴｏは、図２の場合と同様に中間データＤＴｍ１となる。同様に、バッファＢＵＦｃに保持される出力データＤＴｏは、中間データＤＴｍ２となる。データＤＴ、中間データＤＴｍ１，ＤＴｍ２は、共に、８ビット幅等で構成される。

以上のような構成において、同一面積での容量は、バッファＢＵＦｉよりもバッファＢＵＦｃの方が大きい。一方、アクセス速度は、バッファＢＵＦｉの方がバッファＢＵＦｃよりも速い。ここで、出力データＤＴｏのビット幅が大きい場合、必要とされるバッファの容量も大きくなる。ただし、バッファを全てフリップフロップで構成すると、高速化を図れるが、面積の増大が懸念される。そこで、ここでは、２個のバッファＢＵＦｉ，ＢＵＦｃを設け、２個のバッファＢＵＦｉ，ＢＵＦｃを、出力データＤＴｏのビット幅、言い換えれば、有効ビット幅に応じて切り替える。

出力データＤＴｏのビット幅が１６ビットよりも大きい場合、出力データＤＴｏの格納先としてバッファＢＵＦｃが選択される。一方、出力データＤＴｏのビット幅が１６ビット以下の場合、出力データＤＴｏの格納先としてバッファＢＵＦｉが選択される。実施の形態２で述べたように、出力データＤＴｏのビット幅は、畳み込み層を経る毎に小さくなってもよい。この場合、畳み込み層の初段側では、バッファＢＵＦｃを用い、畳み込み層の最終段側では、バッファＢＵＦｉを用いることが可能である。

＜実施の形態３の主要な効果＞
以上、実施の形態３による半導体装置を用いることで、実施の形態１で述べた各種効果と同様の効果が得られる。これに加えて、２個のバッファＢＵＦｉ，ＢＵＦｃを設けることで、面積と速度のバランスを向上させることが可能になる。

（実施の形態４）
＜ニューラルネットワークエンジンの詳細＞
図８は、実施の形態４による半導体装置において、ニューラルネットワークエンジン周りの詳細な構成例を示す回路ブロック図である。図８に示すニューラルネットワークエンジン１５ｃは、図２の構成例と比較して、次の２点が異なっている。１点目の相違点として、バッファＢＵＦｉに加えてバッファＢＵＦｉ２が追加されている。バッファＢＵＦｉ２は、例えば、８ビット幅×Ｍ個のフリップフロップで構成される。バッファＢＵＦｉ２は、ＭＡＣ回路２１の一方の入力から分岐することで得られるパラメータ、例えば、重みパラメータＷＰを保持する。

２点目の相違点として、ＭＡＣユニット２０ｃは、バッファＢＵＦｉ２の追加に伴い、更に、マルチプレクサＭＵＸ３を備える。マルチプレクサＭＵＸ３は、メモリＭＥＭ１に保持される重みパラメータＷＰ、またはバッファＢＵＦｉ２に保持される重みパラメータＷＰｘのいずれかを、選択信号ＳＭＸ３に基づいて選択してＭＡＣ回路２１へ出力する。

一つの畳み込み層に対するニューラルネットワークエンジン１５ｃの処理では、複数の重みパラメータＷＰが繰り返し用いられる。例えば、図３に示した特徴マップＦＭ［１］内の一つのデータを得る際に、ある複数の重みパラメータＷＰが用いられ、その後、特徴マップＦＭ［１］内の他の一つのデータを得る際に、同じ値を有する複数の重みパラメータＷＰが用いられる。このため、複数の重みパラメータＷＰを２回目以降に使用する際に、複数の重みパラメータＷＰをバッファＢＵＦｉ２から読み出すことで、メモリＭＥＭ１へのアクセス頻度を下げることができる。

＜実施の形態４の主要な効果＞
以上、実施の形態４による半導体装置を用いることで、実施の形態１で述べた各種効果と同様の効果が得られる。これに加えて、バッファＢＵＦｉ２を設けることで、メモリＭＥＭ１へのアクセス頻度を下げ、必要なメモリ帯域幅を削減することが可能になる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

１０，１０ｂ半導体装置
１５，１５ａ，１５ｂ，１５ｃニューラルネットワークエンジン
１６システムバス
１７プロセッサ
２０，２０ｂ，２０ｃＭＡＣユニット
２１ＭＡＣ回路
２５［１］，２５［２］，２５［３］畳み込み層
２６プーリング層
３０ａ，３０ｂバッファコントローラ

Claims

ニューラルネットワークの処理を実行する半導体装置であって、
出力データを保持する第１のバッファと、
前記第１のバッファから順次入力された複数の前記出力データをビットシフトによって量子化することで、複数の量子化入力データを順次生成する第１のシフトレジスタと、
複数のパラメータと、前記第１のシフトレジスタからの前記複数の量子化入力データとを積和演算することで演算データを生成する積和演算器と、
前記積和演算器からの前記演算データをビットシフトによって逆量子化することで前記出力データを生成し、前記出力データを前記第１のバッファに格納する第２のシフトレジスタと、
を備える、
半導体装置。
前記複数のパラメータを保持するメモリを更に備え、
前記複数のパラメータは、予め量子化された上で前記メモリに格納されており、
前記複数の量子化入力データおよび前記複数のパラメータのそれぞれは、８ビット以下の整数である、
請求項１記載の半導体装置。
前記第１のバッファは、フリップフロップで構成される、
請求項１記載の半導体装置。
前記出力データを保持し、ＳＲＡＭで構成される第２のバッファと、
前記出力データを前記第１のバッファまたは前記第２のバッファのいずれに格納するかを選択するデマルチプレクサと、
前記第１のバッファに保持される前記出力データまたは前記第２のバッファに保持される前記出力データのいずれかを選択して前記第１のシフトレジスタへ出力するマルチプレクサと、
を更に備える、
請求項３記載の半導体装置。
前記第１のバッファのビット幅は、前記第２のシフトレジスタのビット幅よりも少なく、
前記第２のバッファのビット幅は、前記第２のシフトレジスタのビット幅と同じである、
請求項４記載の半導体装置。
前記出力データのビット幅を可変制御するバッファコントローラを更に備える、
請求項１記載の半導体装置。
一つの半導体チップで構成される半導体装置であって、
ニューラルネットワークの処理を実行するニューラルネットワークエンジンと、
複数のデータと、複数のパラメータとを保持する単数または複数のメモリと、
プロセッサと、
前記ニューラルネットワークエンジン、前記メモリおよび前記プロセッサを互いに接続するバスと、
を備え、
前記ニューラルネットワークエンジンは、
出力データを保持する第１のバッファと、
前記第１のバッファから順次入力された複数の前記出力データをビットシフトによって量子化することで、複数の量子化入力データを順次生成する第１のシフトレジスタと、
前記メモリからの前記複数のパラメータと、前記第１のシフトレジスタからの前記複数の量子化入力データとを積和演算することで演算データを生成する積和演算器と、
前記積和演算器からの前記演算データをビットシフトによって逆量子化することで前記出力データを生成し、前記出力データを前記第１のバッファに格納する第２のシフトレジスタと、
を備える、
半導体装置。
前記複数のパラメータは、予め量子化された上で前記メモリに格納されており、
前記複数の量子化入力データおよび前記複数のパラメータのそれぞれは、８ビット以下の整数である、
請求項７記載の半導体装置。
前記第１のバッファは、フリップフロップで構成される、
請求項７記載の半導体装置。
前記ニューラルネットワークエンジンは、
前記出力データを保持し、ＳＲＡＭで構成される第２のバッファと、
前記出力データを前記第１のバッファまたは前記第２のバッファのいずれに格納するかを選択するデマルチプレクサと、
前記第１のバッファに保持される前記出力データまたは前記第２のバッファに保持される前記出力データのいずれかを選択して前記第１のシフトレジスタへ出力するマルチプレクサと、
を更に備える、
請求項９記載の半導体装置。
前記第１のバッファのビット幅は、前記第２のシフトレジスタのビット幅よりも少なく、
前記第２のバッファのビット幅は、前記第２のシフトレジスタのビット幅と同じである、
請求項１０記載の半導体装置。
前記ニューラルネットワークエンジンは、前記出力データのビット幅を可変制御するバッファコントローラを更に備える、
請求項７記載の半導体装置。