JP2024048282A

JP2024048282A - 半導体装置

Info

Publication number: JP2024048282A
Application number: JP2022154238A
Authority: JP
Inventors: 和昭寺島; Kazuaki Terajima; 淳中村; Atsushi Nakamura; ラゼスギミレ; Ghimire Rajesh
Original assignee: Renesas Electronics Corp
Current assignee: Renesas Electronics Corp
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2024-04-08
Also published as: US20240104034A1; CN117785119A; DE102023126257A1

Abstract

【課題】ニューラルネットワークの処理時間を短縮可能な半導体装置を提供する。【解決手段】メモリＭＥＭ２は、並列アクセスが可能なｎ個のバンクＢＫ［１］～ＢＫ［ｎ］を有し、画素データＤｉ／Ｄｏを記憶する。入力用ＤＭＡコントローラＤＭＡＣ２iは、メモリＭＥＭ２が記憶している画素データＤｉを、ｎ個の入力チャネルＣＨｉ［１］～ＣＨｉ［ｎ］を用いてｎ個の積和演算器ＭＡＣ［１］～ＭＡＣ［ｎ］にそれぞれ転送する。シーケンスコントローラ２１は、第１の入力チャネルに、入力バンクにおける第１の画素空間内の画素データを第１の積和演算器に転送させ、第２の入力チャネルに、同じ入力バンクにおける第２の画素空間内の画素データを第２の積和演算器に転送させるように、入力用ＤＭＡコントローラＤＭＡＣ２iを制御する。【選択図】図２

Description

本発明は、半導体装置に関し、例えば、ニューラルネットワークの処理を実行する半導体装置に関する。

特許文献１には、複数のバンクを有するメモリを用いて、畳み込みニューラルネットワークを構成する複数の中間層についての演算を行う方法が示される。当該方法では、複数の中間層毎に、入力データおよび出力データに要求される転送量と転送速度に基づいて、入力データの格納元または出力データの格納先となるバンクの割り当てが適切に定められる。

特開２０１９－２０７４５８号公報

例えば、ＣＮＮ（Convolutional Neural Network）等のニューラルネットワークの処理では、半導体装置に搭載される複数のＤＭＡ（Direct Memory Access）コントローラおよび複数の積和演算器等を用いて膨大な演算処理が実行される。具体的には、ＤＭＡコントローラは、例えば、メモリが記憶している、ある畳み込み層の画素データおよび重みパラメータを積和演算器に転送することで、積和演算器に積和演算を行わせる。また、ＤＭＡコントローラは、積和演算器による演算結果を、次の畳み込み層の画素データとして、メモリに転送する。半導体装置は、このような処理を繰り返し実行する。

このような半導体装置では、多様なニューラルネットワークの構成に柔軟に対応するため、シンプルなコマンドに基づいて動作する場合が多い。例えば、特許文献１に示されるように、入力データの格納元のメモリバンクと出力データの格納先のメモリバンクとを指定するコマンドが挙げられる。しかしながら、このようなコマンドに基づいて複数の積和演算器に積和演算を行わせる場合、必ずしも、複数の積和演算器を効率的に利用できないことがある。その結果、ニューラルネットワークの処理時間が想定よりも増大するおそれがあった。

後述する実施の形態は、このようなことに鑑みてなされたものであり、その他の課題と新規な特徴は、本明細書の記載および添付図面から明らかになるであろう。

一実施の形態の半導体装置は、ｎを２以上の整数として、メモリと、ｎ個の積和演算器と、入力用ＤＭＡコントローラと、出力用ＤＭＡコントローラと、シーケンスコントローラと、を備える。メモリは、並列アクセスが可能なｎ個のバンクを有し、画素データを記憶する。ｎ個の積和演算器のそれぞれは、複数の画素データと複数の重みパラメータとを積和演算する。入力用ＤＭＡコントローラは、メモリが記憶している画素データを、ｎ個の入力チャネルを用いてｎ個の積和演算器にそれぞれ転送する。出力用ＤＭＡコントローラは、ｎ個の積和演算器からの画素データを、ｎ個の出力チャネルを用いてメモリにそれぞれ転送する。シーケンスコントローラは、第１の入力チャネルに、入力バンクにおける第１の画素空間内の画素データを第１の積和演算器に転送させ、第２の入力チャネルに、同じ入力バンクにおける第２の画素空間内の画素データを第２の積和演算器に転送させるように、入力用ＤＭＡコントローラを制御する。

一実施の形態の半導体装置を用いることで、ニューラルネットワークの処理時間を短縮することが可能になる。

図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図２は、図１におけるニューラルネットワークエンジンの詳細な構成例を示す図である。図３は、図１および図２におけるニューラルネットワークエンジンの模式的な構成例および動作例を示す図である。図４は、図１および図２におけるニューラルネットワークエンジンの、図３の場合とは異なる模式的な構成例および動作例を示す図である。図５は、図４に示したニューラルネットワークエンジンと図９に示したニューラルネットワークエンジンとの動作を比較した一例を示すタイミングチャートである。図６は、実施の形態２による半導体装置において、図１におけるニューラルネットワークエンジンの詳細な構成例を示す図である。図７は、図６における動作設定テーブルの構成例を示す概略図である。図８は、図６におけるシーケンスコントローラの動作例を示すフロー図である。図９は、比較例となるニューラルネットワークエンジンの模式的な構成例および動作例を示す図である。

以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下の実施の形態において、要素の数等（個数、数値、量、範囲等を含む）に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

さらに、以下の実施の形態において、その構成要素（要素ステップ等も含む）は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。

以下、実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。

（実施の形態１）
＜半導体装置の概略＞
図１は、実施の形態１による半導体装置において、主要部の構成例を示す概略図である。図１に示す半導体装置１０は、例えば、一つの半導体チップで構成されるＳｏＣ（System on Chip）等である。当該半導体装置１０は、代表的には、車両のＥＣＵ（Electronic Control Unit）等に搭載され、ＡＤＡＳ（Advanced Driver Assistance System）の機能を提供する。当該半導体装置１０は、システムバス１５と、ニューラルネットワークエンジン１６と、プロセッサ１７と、メモリＭＥＭ１，ＭＥＭ２と、メモリバス１８と、を備える。

プロセッサ１７は、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）等である。システムバス１５は、ニューラルネットワークエンジン１６、メモリＭＥＭ１，ＭＥＭ２およびプロセッサ１７を互いに接続する。ニューラルネットワークエンジン１６は、ＣＮＮを代表とするニューラルネットワークの処理を実行する。プロセッサ１７は、例えば、メモリＭＥＭ１が記憶している所定のプログラムを実行することで、ニューラルネットワークエンジン１６の制御を含めて、半導体装置１０に所定の機能を担わせる。

メモリＭＥＭ１は、ＤＲＡＭ（Dynamic Random Access Memory）等であり、メモリＭＥＭ２は、キャッシュ用のＳＲＡＭ（Static Random Access Memory）等である。メモリＭＥＭ１は、例えば複数の画素データからなる画像データＤＴと、コマンドＣＭＤ１およびパラメータＰＲと、を記憶している。パラメータＰＲには、複数の重みパラメータからなるカーネルＫＲと、バイアスパラメータＢＰとが含まれる。コマンドＣＭＤ１は、ニューラルネットワークエンジン１６の動作を制御するためのものである。

メモリＭＥＭ２は、ニューラルネットワークエンジン１６の高速キャッシュメモリとして用いられる。メモリＭＥＭ２は、ｎを２以上の整数として、並列アクセスが可能なｎ個のバンクＢＫ［１］～ＢＫ［ｎ］を有する。メモリＭＥＭ２は、ニューラルネットワークエンジン１６への画素データＤｉおよびニューラルネットワークエンジン１６からの画素データＤｏを記憶する。

例えば、メモリＭＥＭ１内の画像データＤＴ、すなわち画素データは、予め、システムバス１５を介してメモリＭＥＭ２内の所定のバンクＢＫ［１］～ＢＫ［ｎ］にコピーされたのち、ニューラルネットワークエンジン１６で用いられる。メモリバス１８は、ニューラルネットワークエンジン１６とメモリＭＥＭ２とを接続する。メモリバス１８は、例えば、クロスバースイッチ等によってｎ個のバンクＢＫ［１］～ＢＫ［ｎ］への並列アクセスを可能にするＡＸＩ（Advanced eXtensible Interface）バス等である。

ニューラルネットワークエンジン１６は、複数のＤＭＡコントローラＤＭＡＣ１，ＤＭＡＣ２と、ＭＡＣユニット２０と、シーケンスコントローラ２１とを備える。ＭＡＣユニット２０は、詳細は後述するが、ｎ個の積和演算器を備える。ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１とＭＡＣユニット２０との間の、システムバス１５を介したデータ転送を制御する。詳細には、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１が記憶しているカーネルＫＲ、すなわち重みパラメータ等を、ＭＡＣユニット２０に転送する。また、ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１が記憶しているコマンドＣＭＤ１を、シーケンスコントローラ２１に転送する。

ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２とＭＡＣユニット２０との間の、メモリバス１８を介したデータ転送を制御する。具体的には、ＤＭＡコントローラＤＭＡＣ２は、メモリＭＥＭ２が記憶している画素データＤｉを、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を用いてＭＡＣユニット２０に転送する。これによって、ＭＡＣユニット２０は、ＤＭＡコントローラＤＭＡＣ１からのカーネルＫＲと、ＤＭＡコントローラＤＭＡＣ２からの画素データＤｉとの積和演算を実行する。さらに、詳細は省略するが、ＭＡＣユニット２０は、積和演算結果へのバイアスパラメータＢＰの加算や、当該加算結果に対する活性化関数の演算等を行ってもよい。

このような演算によって、ＭＡＣユニット２０は、特徴マップ内の各特徴データとなる画素データＤｏを生成する。ＤＭＡコントローラＤＭＡＣ２は、当該ＭＡＣユニット２０からの画素データＤｏを、ｎ個のチャネルＣＨ［１］～ＣＨ［ｎ］を用いてメモリＭＥＭ２に転送する。これに伴いＭＥＭ２に書き込まれた画素データＤｏは、次の畳み込み層でＭＡＣユニット２０に入力される画素データＤｉとなる。

シーケンスコントローラ２１は、ＤＭＡコントローラＤＭＡＣ１からのコマンドＣＭＤ１、または、プロセッサ１７からシステムバス１５を介して入力されたコマンドＣＭＤ２に基づいて、ニューラルネットワークエンジン１６の動作シーケンス等を制御する。その一つとして、シーケンスコントローラ２１は、ＤＭＡコントローラＤＭＡＣ２を制御する。

＜ニューラルネットワークエンジンの詳細＞
図２は、図１におけるニューラルネットワークエンジンの詳細な構成例を示す図である。図２において、ＭＡＣユニット２０は、ｎ個の積和演算器ＭＡＣ［１］～ＭＡＣ［ｎ］を備える。ＤＭＡコントローラＤＭＡＣ１は、メモリＭＥＭ１から、コマンドＣＭＤ１およびカーネルＫＲを含む情報を読み出す。ＤＭＡコントローラＤＭＡＣ１は、読み出したカーネルＫＲをｎ個の積和演算器ＭＡＣ［１］～ＭＡＣ［ｎ］の少なくとも１個に転送し、読み出したコマンドＣＭＤ１を、レジスタＲＥＧに書き込む。この際に、ＤＭＡコントローラＤＭＡＣ１には、転送元であるメモリＭＥＭ１のアドレス範囲と、転送先である積和演算器ＭＡＣ［１］～ＭＡＣ［ｎ］、詳細には、各入力レジスタのアドレスとが設定される。

図１に示したＤＭＡコントローラＤＭＡＣ２は、詳細には、図２に示されるように、入力用ＤＭＡコントローラＤＭＡＣ２ｉと、出力用ＤＭＡコントローラＤＭＡＣ２ｏとを有する。入力用ＤＭＡコントローラＤＭＡＣ２ｉは、ｎ個の入力チャネルＣＨｉ［１］～ＣＨｉ［ｎ］を有し、出力用ＤＭＡコントローラＤＭＡＣ２ｏは、ｎ個の出力チャネルＣＨｏ［１］～ＣＨｏ［ｎ］を有する。

入力用ＤＭＡコントローラＤＭＡＣ２ｉは、メモリＭＥＭ２が記憶している画素データＤｉを、ｎ個の入力チャネルＣＨｉ［１］～ＣＨｉ［ｎ］を用いてｎ個の積和演算器ＭＡＣ［１］～ＭＡＣ［ｎ］にそれぞれ転送する。すなわち、ｍを１～ｎのいずれかの整数とした場合、入力チャネルＣＨｉ［ｍ］の転送先は、積和演算器ＭＡＣ［ｍ］、詳細には、その入力レジスタに定められる。積和演算器ＭＡＣ［ｍ］は、入力チャネルＣＨｉ［ｍ］を用いて転送された複数の画素データＤｉと、ＤＭＡコントローラＤＭＡＣ１を用いて転送されたカーネルＫＲ、詳細にはカーネルＫＲを構成する複数の重みパラメータとを積和演算する。

出力用ＤＭＡコントローラＤＭＡＣ２ｏは、ｎ個の積和演算器ＭＡＣ［１］～ＭＡＣ［ｎ］からの画素データＤｏを、ｎ個の出力チャネルＣＨｏ［１］～ＣＨｏ［ｎ］を用いてメモリＭＥＭ２にそれぞれ転送する。すなわち、入力用ＤＭＡコントローラＤＭＡＣ２ｉの場合と同様に、出力チャネルＣＨｏ［ｍ］の転送元は、積和演算器ＭＡＣ［ｍ］、詳細には、その出力レジスタに定められる。

シーケンスコントローラ２１は、レジスタＲＥＧに書き込まれたコマンドＣＭＤ１、または、プロセッサ１７からのコマンドＣＭＤ２に基づいて、入力用ＤＭＡコントローラＤＭＡＣ２ｉおよび出力用ＤＭＡコントローラＤＭＡＣ２ｏを制御する。コマンドＣＭＤ１，ＣＭＤ２では、例えば、入力される画素データＤｉの転送元となる入力バンク（ＩＢＫと呼ぶ）と、出力される画素データＤｏの転送先となる出力バンク（ＯＢＫと呼ぶ）とが指定される。

シーケンスコントローラ２１は、当該コマンドＣＭＤ１，ＣＭＤ２に基づいて、入力チャネルＣＨｉ［１］～ＣＨｉ［ｎ］の転送元、具体的には、入力バンクＩＢＫおよび入力バンクＩＢＫ内のアドレス範囲を、設定信号ＳＴ－ＣＨｉ［１］～ＳＴ－ＣＨｉ［ｎ］を用いてそれぞれ設定する。同様に、シーケンスコントローラ２１は、当該コマンドＣＭＤ１，ＣＭＤ２に基づいて、出力チャネルＣＨｏ［１］～ＣＨｏ［ｎ］の転送先、具体的には、出力バンクＯＢＫおよび出力バンクＯＢＫ内のアドレス範囲を、設定信号ＳＴ－ＣＨｏ［１］～ＳＴ－ＣＨｏ［ｎ］を用いてそれぞれ設定する。

＜ニューラルネットワークエンジン（比較例）の構成および動作＞
図９は、比較例となるニューラルネットワークエンジンの模式的な構成例および動作例を示す図である。比較例となるニューラルネットワークエンジンでは、図９に示されるように、画素データＤｉの入力バンクＩＢＫとなるバンクＢＫ［ｍ］が定められると、入力チャネルＣＨｉ［ｍ］、積和演算器ＭＡＣ［ｍ］および出力チャネルＣＨｏ［ｍ］は、一義的に定められる。ただし、入力バンクＩＢＫと出力バンクＯＢＫとは、異なっている必要がある。このため、出力チャネルＣＨｏ［ｍ］は、メモリバス１８を介して出力バンクＯＢＫ、すなわち転送先のバンクを任意に選択可能となっている。

図９の例では、ｋを、ｍを除く１～ｎのいずれかの整数として、出力バンクＯＢＫは、バンクＢＫ［ｋ］に定められる。また、特許文献１に記載されるように、画素データＤｏのデータ量が多い場合には、出力バンクＯＢＫとして、２個のバンクＢＫ［ｋ］，ＢＫ［ｑ］を指定することも可能である。この場合、出力チャネルＣＨｏ［ｍ］は、画素データＤｏをバンクＢＫ［ｋ］に書き込んだのち、余剰の画素データＤｏをバンクＢＫ［ｑ］に書き込む。

さらに、次の畳み込み層において、データ転送速度が要求される場合にも、出力バンクＯＢＫとして、２個のバンクＢＫ［ｋ］，ＢＫ［ｑ］を指定することが可能である。この場合、出力チャネルＣＨｏ［ｍ］は、例えば、画素データＤｏを２個のバンクＢＫ［ｋ］，ＢＫ［ｑ］に分散して書き込む。次の畳み込み層では、２個の積和演算器ＭＡＣ［ｋ］，ＭＡＣ［ｑ］は、それぞれ、当該２個のバンクＢＫ［ｋ］，ＢＫ［ｑ］を入力バンクＩＢＫとして、並列に積和演算処理を行う。

また、図９では、ある畳み込み層において、３×３のカーネルＫＲを用いた場合の具体的な処理内容の一例が示される。カーネルＫＲは、９個の重みパラメータＷ１～Ｗ９で構成される。入力バンクＩＢＫであるバンクＢＫ［ｍ］は、この例では、６×６の画素データＤｉ１１～Ｄｉ１６，Ｄｉ２１～Ｄｉ２６，…，Ｄｉ６１～Ｄｉ６６を記憶している。ここでは、画素データＤｉｘｙの“ｘ”は、行番号を表し、“ｙ”は列番号を表す。

入力チャネルＣＨｉ［ｍ］は、例えば、バンクＢＫ［ｍ］における３×３の画素空間ＡＲ２２、言い換えればアドレス空間に含まれる画素データＤｉ１１～Ｄｉ１３，Ｄｉ２１～Ｄｉ２３，Ｄｉ３１～Ｄｉ３３を読み出し、積和演算器ＭＡＣ［ｍ］に転送する。画素空間ＡＲ２２は、画素データＤｉ２２を中心とする３×３の画素空間である。積和演算器ＭＡＣ［ｍ］は、当該画素空間ＡＲ２２に含まれる９個の画素データＤｉと、カーネルＫＲを構成する９個の重みパラメータＷ１～Ｗ９とを積和演算する。出力チャネルＣＨｏ［ｍ］は、積和演算結果である画素データＤｏ２２を、出力バンクＯＢＫであるバンクＢＫ［ｋ］の所定の位置、すなわち所定のアドレスに書き込む。

続いて、入力チャネルＣＨｉ［ｍ］は、バンクＢＫ［ｍ］における画素空間ＡＲ２３に含まれる画素データＤｉ１２～Ｄｉ１４，Ｄｉ２２～Ｄｉ２４，Ｄｉ３２～Ｄｉ３４を読み出し、積和演算器ＭＡＣ［ｍ］に転送する。画素空間ＡＲ２３は、画素空間ＡＲ２３を列方向に１回スライドさせた空間であり、画素データＤｉ２３を中心とする３×３の画素空間である。積和演算器ＭＡＣ［ｍ］は、画素空間ＡＲ２３に含まれる画素データＤｉと、カーネルＫＲとを積和演算する。出力チャネルＣＨｏ［ｍ］は、積和演算結果である画素データＤｏ２３を、バンクＢＫ［ｋ］において、画素データＤｏ２２と列方向で隣接する位置、すなわち隣接するアドレスに書き込む。

以降、画素空間ＡＲ２３を１回スライドさせた空間である画素空間ＡＲ２４を対象に同様の処理が行われ、続いて、画素空間ＡＲ２３を１回スライドさせた空間である画素空間ＡＲ２５を対象に同様の処理が行われる。その結果、画素データＤｏ２２～Ｄｏ２５は、列方向に順に並んで配置される。

以上のような畳み込み演算処理を、入力バンクＩＢＫであるバンクＢＫ［ｍ］における６×６の画素データＤｉに対して行うと、出力バンクＯＢＫであるバンクＢＫ［ｋ］には、６×６の画素データＤｏが、図９に示されるような配置で書き込まれる。すなわち、出力バンクＯＢＫにおける６×６の画素データＤｏ１１～Ｄｏ１６，Ｄｏ２１～Ｄｏ２６，…，Ｄｏ６１～Ｄｏ６６は、入力バンクにおける６×６の画素データＤｉと整合するように配置される。

なお、この例では、出力バンクＯＢＫにおける６×６の画素データＤｏは、パディングを用いて生成される。例えば、画素データＤｏ１１を生成する際には、入力バンクＩＢＫにおいて画素データＤｉ１１を中心とする３×３の画素空間が定められ、存在しない画素データＤｉは例えばゼロでパディングされる。また、次の畳み込み層では、例えば、バンクＢＫ［ｋ］の画素データＤｏを画素データＤｉとして、すなわち、バンクＢＫ［ｋ］を入力バンクＩＢＫとして、図９の場合と同様の処理が行われる。

しかしながら、このような方式では、ｎ個中の１個の入力チャネルＣＨｉ［ｍ］、積和演算器ＭＡＣ［ｍ］および出力チャネルＣＨｏ［ｍ］のみが動作するため、ニューラルネットワークエンジン１６の利用効率が低下し得る。その結果、ニューラルネットワークの処理時間が増大するおそれがあった。

＜ニューラルネットワークエンジン（実施の形態１）の構成および動作＞
図３は、図１および図２におけるニューラルネットワークエンジンの模式的な構成例および動作例を示す図である。図３の例では、シーケンスコントローラ２１は、入力チャネルＣＨｉ［ｍ］に、入力バンクＩＢＫであるバンクＢＫ［ｍ］における例えば画素空間ＡＲ２３内の画素データＤｉを積和演算器ＭＡＣ［ｍ］に転送させる。さらに、これと並行して、シーケンスコントローラ２１は、図９の場合と異なり、別の入力チャネルＣＨｉ［ｊ］に、バンクＢＫ［ｍ］における次の画素空間ＡＲ２４内の画素データＤｉを積和演算器ＭＡＣ［ｊ］に転送させる。なお、ｊは、ｍを除く１～ｎのいずれかの整数である。

積和演算器ＭＡＣ［ｍ］は、入力チャネルＣＨｉ［ｍ］からの画素空間ＡＲ２３内の画素データＤｉ１２～Ｄｉ１４，Ｄｉ２２～Ｄｉ２４，Ｄｉ３２～Ｄｉ３４と、カーネルＫＲを構成する重みパラメータＷ１～Ｗ９とを積和演算する。これと並行して、図９の場合と異なり、積和演算器ＭＡＣ［ｊ］は、入力チャネルＣＨｉ［ｊ］からの画素空間ＡＲ２４内の画素データＤｉ１３～Ｄｉ１５，Ｄｉ２３～Ｄｉ２５，Ｄｉ３３～Ｄｉ３５と、カーネルＫＲを構成する重みパラメータＷ１～Ｗ９とを積和演算する。

そして、シーケンスコントローラ２１は、出力チャネルＣＨｏ［ｍ］に、積和演算器ＭＡＣ［ｍ］からの、画素空間ＡＲ２３を対象とした画素データＤｏ２３を、出力バンクＯＢＫであるバンクＢＫ［ｋ］に転送させる。さらに、これと並行して、シーケンスコントローラ２１は、図９の場合と異なり、出力チャネルＣＨｏ［ｊ］に、積和演算器ＭＡＣ［ｊ］からの、画素空間ＡＲ２４を対象とした画素データＤｏ２４を、別の出力バンクＯＢＫであるバンクＢＫ［ｑ］に転送させる。

このように、シーケンスコントローラ２１は、画素空間をスライドさせる毎に、画素空間内の画素データＤｉが、複数、ここでは２個の積和演算器ＭＡＣ［ｍ］，ＭＡＣ［ｊ］に分散して転送されるように、入力用ＤＭＡコントローラＤＭＡＣ２ｉを制御する。具体例として、シーケンスコントローラ２１は、設定信号ＳＴ－ＣＨｉ［ｍ］を用いて、入力チャネルＣＨｉ［ｍ］に、バンクＢＫ［ｍ］の図示しない画素空間ＡＲ１１から図示しない画素空間ＡＲ６５まで、１つ飛ばしのステップ幅で順次転送させるように設定する。同様に、シーケンスコントローラ２１は、設定信号ＳＴ－ＣＨｉ［ｊ］を用いて、入力チャネルＣＨｉ［ｊ］に、図示しない画素空間ＡＲ１２から図示しない画素空間ＡＲ６６まで、１つ飛ばしのステップ幅で順次転送させるように設定する。

これにより、複数、ここでは２個の入力チャネルＣＨｉ［ｍ］，ＣＨｉ［ｊ］、積和演算器ＭＡＣ［ｍ］，ＭＡＣ［ｊ］および出力チャネルＣＨｏ［ｍ］，ＣＨｏ［ｊ］を並行して動作させることが可能になる。その結果、ニューラルネットワークエンジン１６の利用効率を高めることができ、ニューラルネットワークの処理時間を短縮することが可能になる。

図４は、図１および図２におけるニューラルネットワークエンジンの、図３の場合とは異なる模式的な構成例および動作例を示す図である。図３において、次の畳み込み層では、例えば、画素データＤｏ１１～Ｄｏ１３，Ｄｏ２１～Ｄｏ２３，Ｄｏ３１～Ｄｏ３３からなる画素空間を用いて積和演算を行う必要がある。しかしながら、図３に示した方式では、当該画素データＤｏ１１～Ｄｏ１３，Ｄｏ２１～Ｄｏ２３，Ｄｏ３１～Ｄｏ３３は、出力バンクＯＢＫである２個のバンクＢＫ［ｋ］，ＢＫ［ｑ］に分散して書き込まれている。このため、次の畳む込み層での処理に先立って、データの並び替え等が必要とされ得る。

そこで、図４では、シーケンスコントローラ２１は、図３の場合と同様に、出力チャネルＣＨｏ［ｍ］に、積和演算器ＭＡＣ［ｍ］からの、画素空間ＡＲ２３を対象とした画素データＤｏ２３を、出力バンクＯＢＫであるバンクＢＫ［ｋ］に転送させる。これと並行して、シーケンスコントローラ２１は、図３の場合と異なり、出力チャネルＣＨｏ［ｊ］に、積和演算器ＭＡＣ［ｊ］からの、画素空間ＡＲ２４を対象とした画素データＤｏ２４を、バンクＢＫ［ｑ］ではなくバンクＢＫ［ｋ］に転送させる。

この際に、シーケンスコントローラ２１は、出力チャネルＣＨｏ［ｍ］からの画素データＤｏ２３と、出力チャネルＣＨｏ［ｊ］からの画素データＤｏ２４とが、バンクＢＫ［ｋ］のアドレス空間上で隣接して配置されるように、出力用ＤＭＡコントローラＤＭＡＣ２ｏを制御する。具体例として、バンクＢＫ［ｋ］の１番目のアドレスを＃Ａ［１］、最後のアドレスを＃Ａ［ｘ］とする。

この場合、シーケンスコントローラ２１は、設定信号ＳＴ－ＣＨｏ［ｍ］を用いて、出力チャネルＣＨｏ［ｍ］に、＃Ａ［１］から＃Ａ［ｘ－１］まで１つ飛ばしのステップ幅で順次転送させるように設定する。また、シーケンスコントローラ２１は、設定信号ＳＴ－ＣＨｏ［ｊ］を用いて、出力チャネルＣＨｏ［ｊ］に、＃Ａ［２］から＃Ａ［ｘ］まで１つ飛ばしのステップ幅で順次転送させるように設定する。

これにより、図４に示されるように、出力バンクＯＢＫであるバンクＢＫ［ｋ］において、入力バンクＩＢＫであるバンクＢＫ［ｍ］の場合と同様の配置で、画素データＤｏ１１～Ｄｏ１６，…，Ｄｏ６１～Ｄｏ６６を書き込みことができる。これにより、データの並び替え等が不要となり、結果として、ニューラルネットワークの処理時間をより短縮することが可能になる。

図５は、図４に示したニューラルネットワークエンジンと図９に示したニューラルネットワークエンジンとの動作を比較した一例を示すタイミングチャートである。図５に示されるように、図９に示した方式では、１個の入力チャネルＣＨｉ［ｍ］、積和演算器ＭＡＣ［ｍ］および出力チャネルＣＨｏ［ｍ］を用いた一連の処理サイクルＴｃ２が繰り返し実行される。一方、図４に示した方式では、２個の入力チャネルＣＨｉ［ｍ］，ＣＨｉ［ｊ］、積和演算器ＭＡＣ［ｍ］，ＭＡＣ［ｊ］および出力チャネルＣＨｏ［ｍ］，ＣＨｏ［ｊ］を用いた一連の処理サイクルＴｃ１が繰り返し実行される。

その結果、図４に示した方式を用いることで、図９に示した方式を用いる場合と比較して、ニューラルネットワークの処理時間を短縮することが可能になり、理想的には、半分程度に短縮することが可能になる。なお、ここでは、２個の積和演算器ＭＡＣ［ｍ］，ＭＡＣ［ｊ］に分散する方式を示したが、同様にして、３個以上の積和演算器に分散することも可能である。

＜実施の形態１の主要な効果＞
以上、実施の形態１の方式では、１個の入力バンクＩＢＫにおける各画素空間が、複数の積和演算器で分散して処理されるように入力用ＤＭＡコントローラＤＭＡＣ２ｉを制御することで、ニューラルネットワークの処理時間を短縮することが可能になる。さらに、複数の積和演算器からの各画素データが１個の出力バンクＯＢＫ内で隣接して配置されるように出力用ＤＭＡコントローラＤＭＡＣ２ｏを制御することで、ニューラルネットワークの処理時間をより短縮することが可能になる。

（実施の形態２）
＜ニューラルネットワークエンジンの詳細＞
図６は、実施の形態２による半導体装置において、図１におけるニューラルネットワークエンジンの詳細な構成例を示す図である。図６に示されるニューラルネットワークエンジン１６は、図２に示した構成例とは、シーケンスコントローラ２１ａの構成および動作が若干異なっている。シーケンスコントローラ２１ａは、図２の場合と同様に、レジスタＲＥＧからのコマンドＣＭＤ１、またはプロセッサ１７からのコマンドＣＭＤ２を入力する。

コマンドＣＭＤ１，ＣＭＤ２には、単数または複数の入力バンクＩＢＫの識別子と、単数または複数の出力バンクＯＢＫの識別子とが含まれる。シーケンスコントローラ２１ａは、当該単数または複数の入力バンクＩＢＫの識別子に基づいて単数または複数の入力チャネルを定める。そして、シーケンスコントローラ２１ａは、当該定めた単数または複数の入力チャネルを除く入力チャネルの中から分散用として用いる単数または複数の入力チャネルを定める。

具体例として、コマンドＣＭＤ１，ＣＭＤ２によって、バンクＢＫ［１］を入力バンクＩＢＫとし、バンクＢＫ［２］を出力バンクＯＢＫとする動作と、バンクＢＫ［３］を入力バンクＩＢＫとし、バンクＢＫ［４］を出力バンクＯＢＫとする動作とが指示された場合を想定する。この場合、シーケンスコントローラ２１ａは、入力バンクＩＢＫの識別子である２個のバンクＢＫ［１］，ＢＫ［３］の識別子に基づいて２個の入力チャネルＣＨｉ［１］，ＣＨｉ［３］を一義的に定める。そして、シーケンスコントローラ２１ａは、当該２個の入力チャネルＣＨｉ［１］，ＣＨｉ［３］を除く入力チャネルの中から分散用となる２個の入力チャネル、例えば、ＣＨｉ［２］，ＣＨｉ［４］を定める。

また、シーケンスコントローラ２１ａは、図４に示したような動作モードである分散モードの有効／無効を定めるイネーブル信号ＭＤ－ＥＮを入力する。ここで、例えば、バンクＢＫ［ｍ］を入力バンクＩＢＫとし、バンクＢＫ［ｋ］を出力バンクＯＢＫとするコマンドが入力された場合を想定する。シーケンスコントローラ２１ａは、分散モードが有効の場合には、図４に示したような動作を行わせ、分散モードが無効の場合には、図９に示したような動作を行わせる。また、シーケンスコントローラ２１ａは、分散モードが有効の場合には、予め記憶している動作設定テーブル２３に基づいて、入力用ＤＭＡコントローラＤＭＡＣ２ｉおよび出力用ＤＭＡコントローラＤＭＡＣ２ｏの設定内容を定める。

図７は、図６における動作設定テーブルの構成例を示す概略図である。図７に示される動作設定テーブル２３には、予め、入力コマンドと、当該入力コマンドに対応する動作設定内容とが登録される。シーケンスコントローラ２１ａは、例えば、バンクＢＫ［ｍ］を入力バンクＩＢＫとし、バンクＢＫ［ｋ］を出力バンクＯＢＫとするコマンドを入力した場合、動作設定テーブル２３に基づいて、入力チャネルへの設定信号ＳＴ－ＣＨｉ［ｍ］，ＳＴ－ＣＨｉ［ｊ］および出力チャネルへの設定信号ＳＴ－ＣＨｏ［ｍ］，ＳＴ－ＣＨｏ［ｊ］を出力する。

図８は、図６におけるシーケンスコントローラの動作例を示すフロー図である。図８において、シーケンスコントローラ２１ａは、コマンドＣＭＤ１，ＣＭＤ２を入力する（ステップＳ１０１）。具体例として、シーケンスコントローラ２１ａは、バンクＢＫ［ｍ］を入力バンクＩＢＫとし、バンクＢＫ［ｋ］を出力バンクＯＢＫとするコマンドを入力する。続いて、シーケンスコントローラ２１ａは、イネーブル信号ＭＤ－ＥＮに基づいて、分散モードの有効／無効を判定する（ステップＳ１０２）。

ステップＳ１０２で分散モードが無効の場合（“Ｎｏ”の場合）、シーケンスコントローラ２１ａは、通常の動作を設定する（ステップＳ１０７）。すなわち、シーケンスコントローラ２１ａは、図９に示したように、入力チャネルＣＨｉ［ｍ］に、入力バンクＩＢＫであるバンクＢＫ［ｍ］における例えば画素空間ＡＲ２３内の画素データＤｉと次の画素空間ＡＲ２４内の画素データＤｉとを、同じ積和演算器ＭＡＣ［ｍ］に転送させる。また、シーケンスコントローラ２１ａは、出力チャネルＣＨｏ［ｍ］に、積和演算器ＭＡＣ［ｍ］からの画素データＤｏ２３，Ｄｏ２４を出力バンクＯＢＫであるバンクＢＫ［ｋ］に転送させる。

ステップＳ１０２で分散モードが有効の場合（“Ｙｅｓ”の場合）、シーケンスコントローラ２１ａは、入力したコマンドをキーに動作設定テーブル２３を参照することで（ステップＳ１０３）、動作設定テーブル２３へのコマンドの登録有無を判定する（ステップＳ１０４）。ステップＳ１０４でコマンドが動作設定テーブル２３に登録無しの場合（“Ｎｏ”の場合）、シーケンスコントローラ２１ａは、通常の動作を設定する（ステップＳ１０７）。

ステップＳ１０４でコマンドが動作設定テーブル２３に登録有りの場合（“Ｙｅｓ”の場合）、シーケンスコントローラ２１ａは、入力用ＤＭＡコントローラＤＭＡＣ２ｉ、ひいては出力用ＤＭＡコントローラＤＭＡＣ２ｏにおける空きのチャネルを決定する（ステップＳ１０５）。すなわち、シーケンスコントローラ２１ａは、入力バンクＩＢＫ、例えばバンクＢＫ［ｍ］に基づいて一義的に定められる入力チャネルＣＨｉ［ｍ］を除く入力チャネルを空きとみなし、空きの入力チャネルの中から分散用の入力チャネルＣＨｉ［ｊ］を定める。なお、入力チャネルが定められると、積和演算器および出力チャネルも一義的に定められる。

そして、シーケンスコントローラ２１ａは、動作設定テーブル２３に基づいて、各入力チャネルＣＨｉ［ｍ］，ＣＨｉ［ｊ］および各出力チャネルＣＨｏ［ｍ］，ＣＨｏ［ｊ］に設定信号を出力する（ステップＳ１０６）。なお、図７の例では、１個の入力バンクＩＢＫと１個の出力バンクＯＢＫとを指定するコマンドが登録されたが、例えば、１個の入力バンクＩＢＫと２個の出力バンクＯＢＫとを指定するコマンドと、対応する動作設定内容とを登録することで、当該コマンドに対して分散モードを適用することも可能である。

＜実施の形態２の主要な効果＞
以上、実施の形態２の方式を用いることでも、実施の形態１で述べた各種効果と同様の効果が得られる。また、プロセッサ１７等に対して、分散モード用の特殊なコマンドを設けずとも、ニューラルネットワークエンジン１６に分散モードでの動作を行わせることが可能になる。さらに、例えば、消費電力を低減したい場合には、分散モードを無効化し、処理時間を短縮したい場合には、分散モードを有効化するといった使い分けを行うことが可能になる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

１０半導体装置
１５システムバス
１６ニューラルネットワークエンジン
１７プロセッサ
１８メモリバス
２０ＭＡＣユニット
２１，２１ａシーケンスコントローラ
ＡＲ画素空間
ＢＫバンク
ＣＨｉ入力チャネル
ＣＨｏ出力チャネル
ＣＭＤコマンド
ＤＭＡＣ１，ＤＭＡＣ２ＤＭＡコントローラ
Ｄｉ，Ｄｏ画素データ
ＩＢＫ入力バンク
ＭＡＣ積和演算器
ＭＤ－ＥＮイネーブル信号
ＭＥＭ１，ＭＥＭ２メモリ
ＯＢＫ出力バンク
Ｗ重みパラメータ

Claims

ｎを２以上の整数として、並列アクセスが可能なｎ個のバンクを有し、画素データを記憶するメモリと、
それぞれが複数の画素データと複数の重みパラメータとを積和演算するｎ個の積和演算器と、
前記メモリが記憶している画素データを、ｎ個の入力チャネルを用いて前記ｎ個の積和演算器にそれぞれ転送する入力用ＤＭＡ（Direct Memory Access）コントローラと、
前記ｎ個の積和演算器からの画素データを、ｎ個の出力チャネルを用いて前記メモリにそれぞれ転送する出力用ＤＭＡコントローラと、
前記入力用ＤＭＡコントローラおよび前記出力用ＤＭＡコントローラを制御するシーケンスコントローラと、
を備え、
前記ｎ個のバンクの中のいずれか１個を入力バンクとし、前記ｎ個の入力チャネルの中のいずれか２個を第１の入力チャネルおよび第２の入力チャネルとし、前記第１の入力チャネルおよび前記第２の入力チャネルの転送先である積和演算器をそれぞれ第１の積和演算器および第２の積和演算器とした場合に、
前記シーケンスコントローラは、前記第１の入力チャネルに、前記入力バンクにおける第１の画素空間内の画素データを前記第１の積和演算器に転送させ、前記第２の入力チャネルに、前記入力バンクにおける第２の画素空間内の画素データを前記第２の積和演算器に転送させるように、前記入力用ＤＭＡコントローラを制御する、
半導体装置。
請求項１記載の半導体装置において、
前記ｎ個のバンクの中の他のいずれか１個を出力バンクとし、前記第１の積和演算器および前記第２の積和演算器を転送元とする出力チャネルをそれぞれ第１の出力チャネルおよび第２の出力チャネルとした場合に、
前記シーケンスコントローラは、前記第１の出力チャネルに、前記第１の積和演算器からの画素データを前記出力バンクに転送させ、前記第２の出力チャネルに、前記第２の積和演算器からの画素データを前記出力バンクに転送させるように、前記出力用ＤＭＡコントローラを制御する、
半導体装置。
請求項２記載の半導体装置において、
前記第２の画素空間は、前記第１の画素空間を１回スライドさせた画素空間であり、
前記シーケンスコントローラは、前記第１の出力チャネルからの画素データと、前記第２の出力チャネルからの画素データとが、前記出力バンクのアドレス空間上で隣接して配置されるように、前記出力用ＤＭＡコントローラを制御する、
半導体装置。
請求項１記載の半導体装置において、
前記シーケンスコントローラは、単数または複数の前記入力バンクの識別子を含んだコマンドを入力し、前記単数または複数の入力バンクの識別子に基づいて単数または複数の前記第１の入力チャネルを定め、前記単数または複数の第１の入力チャネルを除く入力チャネルの中から単数または複数の前記第２の入力チャネルを定める、
半導体装置。
請求項１記載の半導体装置において、
前記シーケンスコントローラは、
前記入力バンクの識別子を含んだコマンドと、分散モードの有効／無効を定めるイネーブル信号とを入力し、
前記分散モードが有効の場合、前記第１の入力チャネルに、前記入力バンクにおける前記第１の画素空間内の画素データを前記第１の積和演算器に転送させ、前記第２の入力チャネルに、前記入力バンクにおける前記第２の画素空間内の画素データを前記第２の積和演算器に転送させ、
前記分散モードが無効の場合、前記第１の入力チャネルに、前記入力バンクにおける前記第１の画素空間内の画素データと前記第２の画素空間内の画素データとを、前記第１の積和演算器に転送させる、
半導体装置。
一つの半導体チップで構成される半導体装置であって、
ニューラルネットワークの処理を実行するニューラルネットワークエンジンと、
重みパラメータを記憶する第１のメモリと、
ｎを２以上の整数として、並列アクセスが可能なｎ個のバンクを有し、画素データを記憶する第２のメモリと、
プロセッサと、
前記ニューラルネットワークエンジン、前記第１のメモリおよび前記プロセッサを互いに接続するシステムバスと、
前記ニューラルネットワークエンジンと前記第２のメモリとを接続するメモリバスと、
を備え、
前記ニューラルネットワークエンジンは、
それぞれが複数の画素データと複数の重みパラメータとを積和演算するｎ個の積和演算器と、
前記第１のメモリが記憶している重みパラメータを前記ｎ個の積和演算器に転送する第１のＤＭＡ（Direct Memory Access）コントローラと、
前記第２のメモリが記憶している画素データを、ｎ個の入力チャネルを用いて前記ｎ個の積和演算器にそれぞれ転送する第２の入力用ＤＭＡコントローラと、
前記ｎ個の積和演算器からの画素データを、ｎ個の出力チャネルを用いて前記第２のメモリにそれぞれ転送する第２の出力用ＤＭＡコントローラと、
前記第２の入力用ＤＭＡコントローラおよび前記第２の出力用ＤＭＡコントローラを制御するシーケンスコントローラと、
を備え、
前記ｎ個のバンクの中のいずれか１個を入力バンクとし、前記ｎ個の入力チャネルの中のいずれか２個を第１の入力チャネルおよび第２の入力チャネルとし、前記第１の入力チャネルおよび前記第２の入力チャネルの転送先である積和演算器をそれぞれ第１の積和演算器および第２の積和演算器とした場合に、
前記シーケンスコントローラは、前記第１の入力チャネルに、前記入力バンクにおける第１の画素空間内の画素データを前記第１の積和演算器に転送させ、前記第２の入力チャネルに、前記入力バンクにおける第２の画素空間内の画素データを前記第２の積和演算器に転送させるように、前記入力用ＤＭＡコントローラを制御する、
半導体装置。
請求項６記載の半導体装置において、
前記ｎ個のバンクの中の他のいずれか１個を出力バンクとし、前記第１の積和演算器および前記第２の積和演算器を転送元とする出力チャネルをそれぞれ第１の出力チャネルおよび第２の出力チャネルとした場合に、
前記シーケンスコントローラは、前記第１の出力チャネルに、前記第１の積和演算器からの画素データを前記出力バンクに転送させ、前記第２の出力チャネルに、前記第２の積和演算器からの画素データを前記出力バンクに転送させるように、前記出力用ＤＭＡコントローラを制御する、
半導体装置。
請求項７記載の半導体装置において、
前記第２の画素空間は、前記第１の画素空間を１回スライドさせた画素空間であり、
前記シーケンスコントローラは、前記第１の出力チャネルからの画素データと、前記第２の出力チャネルからの画素データとが、前記出力バンクのアドレス空間上で隣接して配置されるように、前記出力用ＤＭＡコントローラを制御する、
半導体装置。
請求項６記載の半導体装置において、
前記シーケンスコントローラは、単数または複数の前記入力バンクの識別子を含んだコマンドを入力し、前記単数または複数の入力バンクの識別子に基づいて単数または複数の前記第１の入力チャネルを定め、前記単数または複数の第１の入力チャネルを除く入力チャネルの中から単数または複数の前記第２の入力チャネルを定める、
半導体装置。
請求項６記載の半導体装置において、
前記シーケンスコントローラは、
前記入力バンクの識別子を含んだコマンドと、分散モードの有効／無効を定めるイネーブル信号とを入力し、
前記分散モードが有効の場合、前記第１の入力チャネルに、前記入力バンクにおける前記第１の画素空間内の画素データを前記第１の積和演算器に転送させ、前記第２の入力チャネルに、前記入力バンクにおける前記第２の画素空間内の画素データを前記第２の積和演算器に転送させ、
前記分散モードが無効の場合、前記第１の入力チャネルに、前記入力バンクにおける前記第１の画素空間内の画素データと前記第２の画素空間内の画素データとを、前記第１の積和演算器に転送させる、
半導体装置。