JP2022022876A

JP2022022876A - 畳み込みニューラルネットワーク処理装置

Info

Publication number: JP2022022876A
Application number: JP2020118737A
Authority: JP
Inventors: ソクイチン; Tsewei Chen; 政美加藤; Masami Kato; しおり脇野; Shiori Wakino
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-02-07
Also published as: EP3940603A1; US11900577B2; US20220012856A1

Abstract

【課題】従来の畳み込み処理又は点方向の畳み込み処理と、深さ方向の畳み込み処理と、の双方を行うハードウェアの処理効率を向上させる。
【解決手段】複数の階層のうち処理対象階層における複数のチャネルのデータの少なくとも一部を保持するデータ保持手段と、それぞれが、前記処理対象階層の１つのチャネルのデータと、処理対象階層に対応する係数と、を用いた積和演算を並列に行う、複数の演算手段と、を備える。処理対象階層における処理を特定する情報に基づいて、データ保持手段に格納された処理対象階層における１つのチャネルのデータを、複数の演算手段のうちの１つの演算手段に入力する第１の処理を行うか、複数の演算手段のそれぞれに並列に入力する第２の処理を行うか、を選択する。
【選択図】図１

Description

本発明は、畳み込みニューラルネットワーク処理装置に関し、特に、畳み込みニューラルネットワークに従う処理を行うためのハードウェアに関する。

近年、深層学習の進歩により、画像認識の精度が上がっている。畳み込みニューラルネットワーク（Convolutional Neural Networks、ＣＮＮ）は、深層学習に用いられる手法として知られている。ＣＮＮは様々なアプリケーションに適用されているが、ＣＮＮを用いた処理においては多くの積和演算を行うことが要求される。このため、ＣＮＮを携帯端末又は車載機器等の組み込みシステムに実装する場合、特徴データ及び重み係数の転送量を削減する、又は積和演算を効率的に行うことにより、処理時間を短縮することが求められる。

非特許文献１は、計算量を削減するための技術として、深さ方向の畳み込み処理（Depthwise Convolution）を、点方向の畳み込み処理（Pointwise Convolution）と組み合わせて用いることを提案している。また、特許文献１、非特許文献２、及び非特許文献３は、深さ方向の畳み込み処理をハードウェアで実現する方法を提案している。

米国特許第１０３６０４７０号明細書

Andrew G. Howard, et al., "MobileNets: Efficient convolutional neural networks for mobile vision applications.", CoRR, abs/1704.04861 (2017). Bing Liu, et al. "An FPGA-Based CNN Accelerator Integrating Depthwise Separable Convolution.", Electronics, 2019, vol. 8, p. 281. Yunxuan Yu, et al. "Light-OPU: An FPGA-based overlay processor for lightweight convolutional neural networks." Proceedings of the 2020 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, p. 122 (2020).

従来の畳み込み処理と深さ方向の畳み込み処理の双方を短い時間で行うことができるハードウェアが依然として求められている。例えば、特許文献１及び非特許文献２に記載の手法では、重み係数の一部をゼロにして従来の畳み込み処理を行うことで深さ方向の畳み込み処理を実現しているため、計算量を削減可能な深さ方向の畳み込み処理のメリットが十分に活用されていなかった。

本発明は、従来の畳み込み処理又は点方向の畳み込み処理と、深さ方向の畳み込み処理と、の双方を行うハードウェアの処理効率を向上させることを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る処理装置は以下の構成を備える。すなわち、
複数の階層を有する畳み込みニューラルネットワークにおける演算を行う処理装置であって、
前記複数の階層のうち処理対象階層における複数のチャネルのデータの少なくとも一部を保持するデータ保持手段と、
それぞれが、前記処理対象階層の１つのチャネルのデータと、前記処理対象階層に対応する係数と、を用いた積和演算を並列に行う、複数の演算手段と、
前記処理対象階層における処理を特定する情報に基づいて、前記データ保持手段に格納された前記処理対象階層における１つのチャネルのデータを、前記複数の演算手段のうちの１つの演算手段に入力する第１の処理を行うか、前記複数の演算手段のそれぞれに並列に入力する第２の処理を行うか、を選択する選択手段と、
を備えることを特徴とする。

従来の畳み込み処理又は点方向の畳み込み処理と、深さ方向の畳み込み処理と、の双方を行うハードウェアの処理効率を向上できる。

一実施形態に係る畳み込み処理のフローチャート。一実施形態に係る畳み込みニューラルネットワークの構造例を示す図。一実施形態に係る画像処理装置の構成例を示すブロック図。一実施形態に係る処理装置の構成例を示すブロック図。一実施形態における畳み込み処理の手順について説明する図。一実施形態に係る畳み込み処理のフローチャート。一実施形態に係る処理装置の構成例を示すブロック図。一実施形態における畳み込み処理の手順について説明する図。畳み込みニューラルネットワークと畳み込み処理の関係を説明する図。一実施形態に係る処理装置の構成例を示すブロック図。一実施形態に係る処理装置の構成例を示すブロック図。畳み込みニューラルネットワークのパイプライン処理を説明する図。ブロック単位の畳み込み処理のための疑似コードの例を示す図。一実施形態に係る処理装置の構成例を示すブロック図。一実施形態で行われる畳み込み処理について説明する図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
本発明の一実施形態は、畳み込みニューラルネットワークにおける演算を行う処理装置に関する。まず、このような処理装置を利用して画像処理を行う画像処理装置について説明する。図３は、このような画像処理装置３００の一構成例を示すブロック図である。

保存部３０２は、画像データを保存することができる。保存部３０２は、画像データの他に、プログラム又はその他のデータを保存してもよい。保存部３０２は、例えばハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＣＤ－ＲやＤＶＤ、メモリーカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティック、ｘＤピクチャーカード、又はＵＳＢメモリ等であってもよい。また、後述するＲＡＭ３０８の一部を保存部３０２として用いることもできる。さらに、保存部３０２は仮想的に構成されていてもよく、例えば、後述する通信部３０３を介して接続された外部機器が有する記憶装置を保存部３０２として用いてもよい。

表示部３０４は、画像処理前若しくは画像処理後の画像、又はＧＵＩ等の画像を表示する装置である。表示部３０４としては、例えばＣＲＴ又は液晶ディスプレイ等を用いることができる。表示部３０４は、ケーブル等を介して接続された、画像処理装置３００の外部にあるディスプレイ装置であってもよい。

入力部３０１は、ユーザからの指示又はデータの入力を受け付ける装置である。入力部３０１は、例えば、キーボード、ポインティング装置、又はボタン等である。なお、表示部３０４と入力部３０１とが同一装置であってもよい。例えば、タッチスクリーン装置が表示部３０４及び入力部３０１として機能してもよく、この場合、タッチスクリーンに対する入力を、入力部３０１への入力として扱うことができる。

ＣＰＵ３０６は、画像処理装置３００全体の動作を制御する。ＲＯＭ３０７及びＲＡＭ３０８は、画像処理装置３００による処理に必要なプログラム、データ、及び作業領域等をＣＰＵ３０６に提供する。後述する処理に必要なプログラムが保存部３０２又はＲＯＭ３０７に格納されている場合、プログラムはＲＡＭ３０８に読み込まれてから実行される。通信部３０３を経由して画像処理装置３００がプログラムを受信する場合、プログラムは、保存部３０２に記録された後にＲＡＭ３０８に読み込まれるか、又は通信部３０３から直接ＲＡＭ３０８に読み込まれ、そして実行される。図３には１つのＣＰＵ３０６のみが示されているが、画像処理装置３００は複数のＣＰＵを有していてもよい。

画像処理部３０９は、ＣＰＵ３０６からのコマンドに従って、保存部３０２に書き込まれた画像データを読み出し、画像データに対して画素値のレンジを調整する処理を行い、その結果得られた画像データをＲＡＭ３０８に書き込むことができる。

ＣＮＮ処理部３０５は、畳み込みニューラルネットワークにおける演算を行う処理装置に相当する。ＣＮＮ処理部３０５は、畳み込みニューラルネットワークにおける演算を、ＲＡＭ３０８などに格納された処理対象画像に対して行うことができる。具体的には、ＣＮＮ処理部３０５は、後述する図１のフローチャートに従い、ＲＡＭ３０８に保存された画像データに対して、積和演算を含む畳み込み処理（フィルタ処理、ステップＳ１０１～Ｓ１１６）を行うことができる。そしてＣＮＮ処理部３０５は、得られた結果を保存部３０２（又はＲＡＭ３０８）に出力する。

ＣＰＵ３０６は、処理対象画像に対して畳み込みニューラルネットワークにおける演算を行うことにより得られた処理結果に基づいて、処理対象画像に対する画像処理を行うことができる。例えば、ＣＰＵ３０６は、畳み込み処理の結果に基づき、画像データ（静止画像、又は複数のフレーム画像を有する動画像）に対する画像補正処理又は画像認識処理のような画像処理を行うことができる。ＣＰＵ３０６は、得られた画像処理の結果を、ＲＡＭ３０８に保存することができる。本実施形態によれば、ＣＮＮ処理部３０５による処理を効率的に行うことができるため、処理対象画像が画像処理装置３００に入力されてから、ＣＰＵ３０６が処理対象画像に対する画像処理を完了するまでの時間を短縮できる。このため、本実施形態に係る画像処理装置は、画像に対するリアルタイム処理を行うために有利である。

通信部３０３は、機器間の通信を行うためのインターフェース（Ｉ／Ｆ）である。なお、図３において、入力部３０１、保存部３０２、及び表示部３０４は全て１つの画像処理装置３００内に含まれている。しかしながら、分散して配置された各部が、所定の通信方式に従う通信路で接続され、画像処理システムを形成していてもよい。画像処理装置３００は、上記以外の様々な構成要素を有していてもよいが、その説明は省略する。

（ネットワークの構成）
図２は、畳み込みニューラルネットワーク（以下、単にネットワークと呼ぶことがある）の構造の一例を示す。ネットワークは、複数の階層（レイヤ）を有しており、それぞれの階層には１以上のチャネルのデータ（例えば１以上の特徴画像）が存在する。そして、前階層のデータに対して所定の処理を行うことにより、後階層のデータが生成される。畳み込みニューラルネットワークにおいては、少なくとも１つの処理対象階層のデータに対して畳み込み処理を含む処理を行うことにより、処理対象階層の次の階層のデータが生成される。各階層のデータが画像に限られるわけではないが、以下では、畳み込みニューラルネットワークにおける演算が処理対象画像に対して行われる場合について説明する。この場合、ネットワークの中間にある処理対象階層におけるデータは、畳み込みニューラルネットワークにおける演算の過程で得られる特徴画像である。

本発明の一実施形態に従う処理装置は、このような構造を有するネットワークにおける演算を行うことができる。ネットワークの構造は、各階層の情報（積和演算の計算量、特徴画像のサイズ及び枚数、及び処理の種類等）により表すことができる。図２に示すネットワークの階層数は４であり、それぞれの階層をレイヤ１～４と呼ぶ。それぞれの階層には４つのチャネルが存在し、それぞれのチャネルには１枚の特徴画像が含まれている。さらに、１枚の特徴画像には複数の特徴データ（例えば特徴画像の各画素の画素データ）が含まれている。

ネットワークにおける演算においては、学習により得られた重み係数と、特徴画像の画素データと、を用いた畳み込み処理が行われる。畳み込み処理は積和演算であり、複数の乗算と累積加算を含んでいる。図２において矢印は積和演算を意味する。

処理対象階層の次の階層の特徴画像を計算するための畳み込み処理は、処理対象階層の特徴画像と、処理対象階層に対応する係数を用いて行われる。多くの畳み込み処理において、１枚の特徴画像を計算するためには、処理対象階層の複数枚の特徴画像の情報が用いられる。このような積和演算は、式（１）に従って行うことができる。

上式において、変数ｎは次階層の特徴画像の番号であり、変数ｍは処理対象階層の特徴画像の番号である。処理対象階層には特徴画像がＩＣ枚あり、ｍ枚目の特徴画像はＩ（ｍ）であり、Ｉ_ｉ，ｊ（ｍ）はｍ枚目の特徴画像の座標（ｉ，ｊ）における特徴データ（画素値）である。重み係数（Ｗ_０，０（ｍ，ｎ）～Ｗ_{Ｘ－１，Ｙ－１}（ｍ，ｎ））はＸ×Ｙ個あり、算出しようとする特徴画像によって異なる。次階層の特徴データを計算するための積和演算回数はＩＣ×Ｘ×Ｙ回である。Ｏ_ｉ，ｊ（ｎ）は特徴データ単位の積和演算結果であり、Ｏ（ｎ）は複数のＯ_ｉ，ｊ（ｎ）が含まれている、処理対象階層の特徴画像全体に対する畳み込み処理の結果である。変数ｉ，ｊは特徴データの座標を意味する。畳み込み処理の後に、ネットワーク構造に基づいて、積和演算結果Ｏ_ｉ，ｊ（ｎ）を用いた活性化処理又はプーリング処理等を行うことにより、次階層の特徴画像が得られる。

点方向の畳み込み処理においては、式（１）の重み係数（Ｗ_０，０（ｍ，ｎ）～Ｗ_{Ｘ－１，Ｙ－１}（ｍ，ｎ））の個数が１×１個になる。また、深さ方向の畳み込み処理においては、積和演算の計算式は式（２）により表される。

深さ方向の畳み込み処理において、次階層の特徴画像を生成するために必要な、処理対象階層の特徴画像の枚数は１枚であるため、変数ｍを変数ｎで代替し、変数ｍを省略することができる。式（２）ではＸ×Ｙ個の重み係数（Ｗ_０，０（ｎ）～Ｗ_{Ｘ－１，Ｙ－１}（ｎ））が用いられ、これは式（１）で用いられるの重み係数の個数の１／ＩＣ倍である。また、次階層の特徴データを計算するための積和演算回数はＸ×Ｙ回であり、式（１）の計算量の１／ＩＣ倍になる。

図２はまた、ネットワークの各階層に対応する畳み込み処理の種類と、畳み込み処理で用いるフィルタのサイズとを示している。レイヤ１における畳み込み処理は、３×３のサイズを有するフィルタを用いた畳み込み処理である。レイヤ１における畳み込み処理は深さ方向の畳み込み処理ではなく、レイヤ２の１枚の特徴画像を生成するために、レイヤ１のそれぞれの特徴画像が用いられる。具体的には、レイヤ１においては、式（１）に基づいて複数枚の特徴画像２０１と重み係数を用いて畳み込み処理を行うことにより、レイヤ２の複数枚の特徴画像２０２が生成される。図９は、ネットワークと畳み込み処理の例を示す。レイヤ１にある４枚の特徴画像９０１の同じ位置から特徴データが抽出され、抽出された特徴データを用いて積和演算が行われる。その結果が、レイヤ２の特徴画像９０２の同じ位置の特徴データとなる。

レイヤ２における畳み込み処理も、３×３のサイズを有するフィルタを用いた畳み込み処理である。一方で、レイヤ２における畳み込み処理は深さ方向の畳み込み処理であり、レイヤ３の１枚の特徴画像を生成するために、レイヤ２の１枚の特徴画像が用いられる。このように、レイヤ２における畳み込み処理の計算量は、レイヤ１より少ない。具体的には、レイヤ２では、式（２）に基づいて複数枚の特徴画像２０２と重み係数とを用いて畳み込み処理を行うことにより、レイヤ３にある複数枚の特徴画像２０３が生成される。

レイヤ３における畳み込み処理は、深さ方向の畳み込み処理ではないが、用いられるフィルタのサイズは１×１である。具体的には、レイヤ３では、式（１）に基づいて複数枚の特徴画像２０３と重み係数とを用いた畳み込み処理を行うことにより、レイヤ４にある複数枚の特徴画像２０４が生成される。このように、各フィルタ及び特徴画像は階層的に構成されており、階層毎に畳み込み処理の種類及びフィルタサイズが異なっていてもよい。また、ネットワークにおける演算処理は階層順に行うことができる。

（処理装置の構成）
以下で、本発明の一実施形態に係る処理装置の構成例について、図４を参照して説明する。図４の下側は、本発明の一実施形態に係る処理装置である、ＣＮＮ処理部３０５の構成を示す。ＣＮＮ処理部３０５は、制御部４０１、保持部４０２、特徴データ保持部４０３、係数保持部４０４、読み出し部４０５、畳み込み処理部４０６、後処理部４０７、及び結果保持部４０８を備える。

保持部４０２は、特徴画像（特徴データ）、重み係数、及びネットワーク構造情報を保持することができる。例えば、保持部４０２は、入力された全ての特徴画像（例えばレイヤ１の全ての特徴画像２０１）を、保存部３０２又はＲＡＭ３０８から読み出して保持することができる。また、保持部４０２は、畳み込み処理部４０６及び後処理部４０７により得られた特徴画像（例えばレイヤ２の全ての特徴画像２０２）を、結果保持部４０８から読み出して保持することができる。さらに、保持部４０２は、畳み込み処理に用いる全ての重み係数を、保存部３０２から読み出して保持することができる。ネットワーク構造情報は、ネットワークの構造を表す情報であり、保存部３０２から読み出すことができる。以下の説明において、ネットワーク構造情報は、各階層のチャネル数の情報と、各階層における処理を特定する情報を有している。各階層における処理を特定する情報は、畳み込み処理の種類、すなわち深さ方向の畳み込み処理を行うか否かを示すことができる。

特徴データ保持部４０３は、処理対象階層における複数のチャネルのデータの少なくとも一部を保持する。本実施形態において、特徴データ保持部４０３は処理対象階層の特徴画像Ｉ（ｍ）を保持する。特徴データ保持部４０３には、後述する１ステップの処理で用いられる特徴画像が保持部４０２から転送される。係数保持部４０４は、処理対象階層における積和演算に用いる係数の少なくとも一部を保持することができる。本実施形態において、係数保持部４０４は畳み込み処理に用いるフィルタの重み係数Ｗ_ｘ，ｙ（ｍ，ｎ）を保持する。図２に示されるように、フィルタのサイズは階層ごとに設定可能である。係数保持部４０４には、後述する１ステップの処理で用いられる重み係数が保持部４０２から転送される。特徴データ保持部４０３及び係数保持部４０４の少なくとも一方はメモリであってもよく、このメモリは畳み込み処理部４０６又は演算コア４１６とともに同じチップ上に設けられていてもよい。

畳み込み処理部４０６は、式（１）又は式（２）に基づいて、重み係数と特徴データとを用いて畳み込み処理の結果を計算する。図４の上側には、畳み込み処理部４０６の詳細構成を示す。畳み込み処理部４０６は、複数の畳み込みサブユニット４１０を有している。それぞれの畳み込みサブユニット４１０は、それぞれが、処理対象階層の１つのチャネルのデータと、処理対象階層に対応する係数と、を用いた積和演算を並列に行う。それぞれの畳み込みサブユニット４１０は、演算コア４１６、特徴データ格納ユニット４１１、係数格納ユニット４１２、及び結果格納ユニット４１５を備え、特徴データと重み係数との積を累積する機能を有している。演算コア４１６は、積和演算のために用いられる乗算器４１３及び加算器４１４を有している。

例えば、１つの特徴画像に対する畳み込み処理を行う場合、特徴データ格納ユニット４１１及び係数格納ユニット４１２のそれぞれには、読み出し部４０５によってこの特徴画像の特徴データ及び畳み込み処理に用いる重み係数が順次供給される。すなわち、畳み込み処理の結果を表す画像のうちの１画素のデータを算出するために必要な、特徴データ及び重み係数が、特徴データ格納ユニット４１１及び係数格納ユニット４１２に供給される。乗算器４１３には、特徴データ格納ユニット４１１及び係数格納ユニット４１２から、特徴データ及び重み係数が１つずつ供給される。そして、乗算器４１３が計算した特徴データと重み係数との積が加算器４１４によって累積されることで、畳み込み処理の結果を表す画像のうち１画素のデータが算出される。結果格納ユニット４１５は、畳み込み処理の結果を表す画像の各画素について、乗算器４１３が計算した積の累積値を格納することができる。このような処理を、畳み込み処理の結果を表す画像の各画素について繰り返すことにより、畳み込み処理の結果を表す画像の各画素のデータが算出される。

後処理部４０７は、畳み込み処理部４０６が算出した畳み込み処理の結果に基づいて、次階層の特徴画像Ｉ（ｎ）を生成する。例えば、後処理部４０７は、畳み込み処理の結果に対して活性化処理及びプーリング処理を行うことができる。なお、後処理部４０７の代わりに、ＣＰＵ３０６等の他の処理部が活性化処理又はプーリング処理を行ってもよい。また、活性化処理とプーリング処理の一方又は双方が省略されてもよい。結果保持部４０８は、後処理部４０７による処理結果、すなわち次階層の特徴画像Ｉ（ｎ）を保持する。

読み出し部４０５は、複数の畳み込みサブユニット４１０のうちの１つの畳み込みサブユニット４１０に入力する第１の処理を行うか、複数の畳み込みサブユニット４１０のそれぞれに並列に入力する第２の処理を行うか、を選択する。読み出し部４０５は、処理対象階層における処理を特定する情報に基づいてこのような選択を行う。処理対象階層における処理を特定する情報は、読み出し部４０５が保持部４０２から取得するネットワーク構造情報に示される。例えば、読み出し部４０５は、枠４２０に示されるように、ネットワーク構造に応じて、式（１）に従う畳み込み処理を行うか、式（２）に従う深さ方向の畳み込み処理を行うかを選択する。

また、読み出し部４０５は、特徴データ保持部４０３及び係数保持部４０４から複数の畳み込みサブユニット４１０へのデータ供給制御を行うことができる。式（１）に従う畳み込み処理を行う場合、読み出し部４０５は第２の処理を選択する。この場合、読み出し部４０５は、処理対象階層における１つのチャネルのデータ（例えば特徴画像Ｉ（ｍ））を、複数の畳み込みサブユニット４１０のそれぞれに入力する制御を行う。また、式（２）に従う畳み込み処理を行う場合、読み出し部４０５は第１の処理を選択する。この場合、読み出し部４０５は、処理対象階層における１つのチャネルのデータ（例えば特徴画像Ｉ（ｍ））を、複数の畳み込みサブユニット４１０のうちの１つに入力する制御を行う。読み出し部４０５は、畳み込みサブユニット４１０又は演算コア４１６へ入力されるデータの特徴データ保持部４０３内のアドレスを指定することができる。具体的には、読み出し部４０５は、特徴データ保持部４０３と係数保持部４０４との特定のデータにアクセスするためのメモリ内アドレスを生成して畳み込みサブユニット４１０に転送することで、特徴データ及び重み係数の読み出しを制御することができる。このようなアドレス発行部として機能する読み出し部４０５は、畳み込みサブユニット４１０又は演算コア４１６とともに同じチップ上に設けられていてもよい。

次に、ＣＮＮ処理部３０５が行う処理の流れを、図１のフローチャートを参照して説明する。以下のステップＳ１０１～Ｓ１１６は、制御部４０１に含まれるＣＰＵ又はシーケンサー等が行うことができる。以下では、処理対象階層の複数の特徴画像のことをそれぞれ入力特徴画像と呼ぶ。また、処理対象階層の処理を行うことで生成される、処理対象階層の次の階層の複数の特徴画像のことをそれぞれ出力特徴画像と呼ぶ。

ステップＳ１０１で、制御部４０１は、ネットワークにおける演算の対象となる入力画像（例えばレイヤ１の複数枚の特徴画像）と、重み係数と、ネットワーク構造情報と、をＲＡＭ３０８から読み出し、保持部４０２に保持する。

ステップＳ１０２で、制御部４０１は、レイヤのループを開始する。最初のループにおいては、最初の階層（レイヤ１）が処理対象階層として選択される。後のループにおいては、次の階層（レイヤ２以降）が処理対象階層として選択される。

ステップＳ１０３で、制御部４０１は、保持部４０２に保持されているネットワーク構造情報に基づいて、深さ方向の畳み込み処理を行うかどうかを判断する。深さ方向の畳み込み処理を行わない場合、処理はステップＳ１０５に進む。深さ方向の畳み込み処理を行う場合、処理はステップＳ１１４に進む。

ステップＳ１０５で、制御部４０１は、畳み込み処理の結果を蓄積する、結果格納ユニット４１５のそれぞれの初期化を行う。制御部４０１は、結果格納ユニット４１５に保持されている処理結果をゼロに設定することにより、初期化を行うことができる。

ステップＳ１０６で、制御部４０１は入力特徴画像のループを開始する。最初のループにおいては、１枚目の入力特徴画像を処理対象として用いる処理が行われる。後のループにおいては、次の入力特徴画像（２枚目以降）を用いた処理が行われる。

ステップＳ１０７で、制御部４０１は、一部の入力特徴画像を保持部４０２から読み出し、特徴データ保持部４０３に転送する。また、制御部４０１は、一部の重み係数を保持部４０２から読み出し、係数保持部４０４に転送する。上述のように、制御部４０１は、１ステップの処理で用いられる特徴画像及び重み係数を、特徴データ保持部４０３及び係数保持部４０４に転送することができる。ここで、１ステップの処理とは、１回の入力特徴画像のループにおけるステップＳ１０８における畳み込み処理、又はステップＳ１１６における畳み込み処理のことを指す。深さ方向の畳み込み処理を行わない場合において、ステップＳ１０８では、１枚の共通の入力特徴画像と、各畳み込み処理に対応する複数セットの重み係数が用いられる。このため、制御部４０１は、ステップＳ１０６～Ｓ１０９のループで処理対象となっている１枚の入力特徴画像を特徴データ保持部４０３に転送することができる。また、制御部４０１は、処理対象となっている１枚の入力特徴画像に対して行う畳み込み処理の重み係数を、係数保持部４０４に転送することができる。転送時間を短縮するため、重み係数と特徴画像は並列に転送することができるが、転送帯域が十分にある場合等において、重み係数と入力画像を順番に転送してもよい。

ステップＳ１０８で、畳み込み処理部４０６は、制御部４０１からの制御信号に従って、特徴データ保持部４０３に保持されている入力特徴画像及び係数保持部４０４に保持されている重み係数を用いて、畳み込み処理を行う。本実施形態において、複数の畳み込みサブユニット４１０のそれぞれには、処理対象となっている共通の入力特徴画像が入力される。また、複数の畳み込みサブユニット４１０のそれぞれには、互いに異なる重み係数を入力することができる。１つの畳み込みサブユニット４１０には、複数の出力特徴画像のうち対応する出力特徴画像を生成するために行う畳み込み処理の重み係数が入力される。このように、それぞれの畳み込みサブユニット４１０は、共通の入力特徴画像に対して、異なる重み係数を用いた畳み込み処理を並列に行うことができる。

より具体的に説明すると、特徴データ格納ユニット４１１及び係数格納ユニット４１２は、読み出し部４０５の制御に従って、特徴データ保持部４０３及び係数保持部４０４に格納されている特定の特徴データ及び重み係数を格納する。演算コア４１６のそれぞれは、入力された１つのデータと１つの係数との積を算出し、算出された積を累計することにより、積和演算を行うことができる。したがって、特徴データ格納ユニット４１１及び係数格納ユニット４１２からのデータ供給は、複数の演算コア４１６のそれぞれにデータ及び係数が１つずつ入力されるように制御される。特徴データ格納ユニット４１１及び係数格納ユニット４１２に格納されている特徴データ及び重み係数を用いた積和演算を繰り返すことにより、畳み込み処理の結果を表す画像のうち１画素のデータを算出することができる。読み出し部４０５は、入力特徴画像に対する畳み込み処理の結果が得られるように、特徴データ保持部４０３及び係数保持部４０４からの特徴データ及び重み係数の読み出し順序を制御することができる。

ステップＳ１０９で、制御部４０１は、入力特徴画像のループの終了判定をする。全ての入力特徴画像の処理が終わっていない場合、処理はステップＳ１０７に戻り、次の入力特徴画像を用いた処理が行われる。このように、ステップＳ１０７において共通する１つのチャネルのデータを特徴データ保持部４０３から複数の畳み込みサブユニット４１０に並列に入力することが、処理対象階層における複数のチャネルのデータのそれぞれについて繰り返される。

ステップＳ１０９において、全ての入力特徴画像の処理が終わっている場合、処理はステップＳ１１０に進む。このとき、畳み込みサブユニット４１０のそれぞれは、順次入力された処理対象階層におけるそれぞれのチャネルのデータを用いて、処理対象階層の次の階層における１つのチャネルに対応する演算結果を出力している。すなわち、１つの畳み込みサブユニット４１０は、各ループにおいて複数の入力特徴画像のそれぞれに対する畳み込み処理を行い、その結果を結果格納ユニット４１５に蓄積している。こうして、結果格納ユニット４１５は、複数の入力特徴画像のそれぞれに対する畳み込み処理の結果が累積されたデータを格納することができる。結果格納ユニット４１５が格納しているデータは、複数の入力特徴画像に対する、チャネル（深さ）方向への次元を有するフィルタを用いた畳み込み処理（例えば点方向の畳み込み処理、又は３×３×３フィルタを用いた三次元畳み込み処理）の結果に相当する。

ステップＳ１１０で、後処理部４０７は、制御部４０１からの制御信号に従って、結果格納ユニット４１５に保持されている畳み込み処理の結果に基づいて活性化処理を行う。後処理部４０７は、例えば、式（３）に従って活性化処理の結果を計算することができる。
ｆ（ｘ）＝
０（ｘ＜０）
ｘ（ｘ≧０） ……（３）
式（３）において、ｆ（ｘ）は活性化関数であり、ｘは入力データである。この例では活性化関数としてＲｅＬＵ（Rectified Linear Unit）を用いているが、活性化関数がＲｅＬＵに限られるわけではない。例えば、活性化関数として他の非線形の関数、又は量子化関数を用いてもよい。また、後処理部４０７は、必要に応じて、ネットワーク構造情報に示される階層の情報に応じて、活性化処理の結果に基づいてプーリング処理を行うことで、出力特徴画像のサイズを調整してもよい。

後処理部４０７は、結果格納ユニット４１５に保持されている畳み込み処理の結果に対するこのような処理により、出力特徴画像を生成し、結果保持部４０８に格納することができる。後処理部４０７は、複数の結果格納ユニット４１５のそれぞれに保持されている畳み込み処理の結果に対してこのような処理を行うことができる。結果として、結果保持部４０８には、複数の結果格納ユニット４１５のそれぞれに保持されている畳み込み処理の結果にそれぞれ対応する、複数の出力特徴画像が格納される。

ステップＳ１１１で、制御部４０１は、結果保持部４０８に格納されている出力特徴画像を、保持部４０２に格納する。この出力特徴画像は、処理対象階層の次の階層の特徴画像である。

ステップＳ１１３で、制御部４０１は、レイヤのループの終了判定を行う。全ての階層の処理が終わった場合、畳み込み処理は終了する。そうでない場合、処理はステップＳ１０３に戻り、処理対象階層が変更され、次の階層の処理が開始される。この場合、ステップＳ１１１で保持部４０２に格納された出力特徴画像が、次の階層の処理における入力特徴画像として用いられる。

ステップＳ１１４で、制御部４０１は、ステップＳ１０５と同様に結果格納ユニット４１５のそれぞれの初期化を行う。

ステップＳ１１５では制御部４０１は、一部の入力特徴画像を保持部４０２から読み出し、特徴データ保持部４０３に転送する。また、制御部４０１は、一部の重み係数を保持部４０２から読み出し、係数保持部４０４に転送する。深さ方向の畳み込み処理を行う場合において、ステップＳ１１６では、複数枚の入力特徴画像と、各入力特徴画像に対応する複数セットの重み係数が用いられる。このため、制御部４０１は、ステップＳ１１６で処理対象となる複数枚の入力特徴画像を特徴データ保持部４０３に転送することができる。また、制御部４０１は、複数セットの重み係数を、係数保持部４０４に転送することができる。ステップＳ１０７と同様、重み係数と特徴画像は並列に転送されてもよいし、順番に転送されてもよい。

ステップＳ１１６で、畳み込み処理部４０６は、制御部４０１からの制御信号に従って、特徴データ保持部４０３に保持されている入力特徴画像及び係数保持部４０４に保持されている重み係数を用いて、畳み込み処理を行う。本実施形態においては、１つのチャネルのデータが対応する１つの畳み込みサブユニット４１０に入力されるように、特徴データ保持部４０３に格納された処理対象階層における複数のチャネルのデータが複数の畳み込みサブユニット４１０に並列に入力される。このように、複数の畳み込みサブユニット４１０のそれぞれには、対応する互いに異なる入力特徴画像が入力される。また、複数の畳み込みサブユニット４１０のそれぞれには、互いに異なる重み係数を入力することができる。このように、それぞれの畳み込みサブユニット４１０は、互いに異なる入力特徴画像に対して、互いに異なる重み係数を用いた畳み込み処理を並列に行うことができる。読み出し部４０５は、畳み込み処理に用いるデータが異なることを除き、ステップＳ１０８と同様に特徴データ保持部４０３及び係数保持部４０４からの特徴データ及び重み係数の読み出し順序を制御することができる。また、演算コア４１６も、ステップＳ１０８と同様に積和演算を行うことができる。こうして、複数の畳み込みサブユニット４１０のそれぞれは、処理対象階層における１つのチャネルのデータを用いて、処理対象階層の次の階層における１つのチャネルに対応する演算結果を出力することができる。

ステップＳ１１７及びＳ１１８は、ステップＳ１１０及びＳ１１１と同様に行うことができ、出力特徴画像の生成及び格納が行われる。

以上のように、深さ方向の畳み込み処理を行う場合には、ステップＳ１０６～Ｓ１０９のループを省略することができるため、処理効率を向上させることができる。

（畳み込み処理の例）
本実施形態の構成によれば、複数枚の特徴画像を並列に処理することができる。以下に、図１のフローチャートに従う処理について、図５に示す例に従ってさらに説明する。図５は、図２に示す２つの階層（レイヤ２及びレイヤ３）の処理を行う様子を示す。ここでは、４枚の特徴画像を並列に処理する例について説明する。図５において、実線のブロックは各ステップにおける処理対象を示し、実線の矢印は各ステップで行われる畳み込み処理を示す。

図５（Ａ）はレイヤ２の処理を表す。ステップＳ１０３では深さ方向の畳み込み処理を行うと判断され、処理はステップＳ１１４に進む。ステップＳ１１６では、４枚の入力特徴画像のそれぞれが、複数の畳み込みサブユニット４１０のうち対応する１つに並列に入力される。複数の畳み込みサブユニット４１０のそれぞれは、対応する入力特徴画像に対して深さ方向の畳み込み処理を行い、こうして４枚の出力特徴画像が並列に生成される。レイヤ２の畳み込み処理は、１ステップで完了する。

図５（Ｂ）～（Ｅ）はレイヤ３の処理を表す。ステップＳ１０３では深さ方向の畳み込み処理を行わないと判断され、処理はステップＳ１０５に進む。その後、４枚の入力特徴画像が、１枚ずつ、共通の入力特徴画像として複数の畳み込みサブユニット４１０に並列に入力される。畳み込みサブユニット４１０のそれぞれは、順次入力される４枚の入力特徴画像に対して畳み込み処理を行って処理結果を蓄積することを繰り返し、こうして４枚の出力特徴画像が並列に生成される。すなわち、１つの畳み込みサブユニット４１０が、特徴画像（３，１）、特徴画像（３，２）、特徴画像（３，３）、及び特徴画像（３，４）に対する畳み込み処理を順次行い、処理結果を累積することを通して、特徴画像（４，１）が生成される。レイヤ３の畳み込み処理は４ステップで完了し、所要の処理時間及び計算量はレイヤ２の４倍となる。

以上では、処理並列度（畳み込みサブユニット４１０の数）と出力特徴画像の枚数が一致する場合について説明したが、処理並列度と出力特徴画像の枚数は異なっていてもよい。一例として、処理並列度より出力特徴画像の枚数の方が多い場合に、処理装置がＰＥ_ｎｕｍ個の畳み込みサブユニット４１０を有し、処理並列度（ＰＥ_ｎｕｍ）より出力特徴画像の枚数の方が多い場合について説明する。まず、ＰＥ_ｎｕｍ枚（例えば１枚目～ＰＥ_ｎｕｍ枚目）の出力特徴画像を生成するようにステップＳ１０５～Ｓ１１１（又はステップＳ１１４～Ｓ１１８）の処理を行うことができる。その後、次のＰＥ_ｎｕｍ枚（例えばＰＥ_ｎｕｍ＋１枚目～２×ＰＥ_ｎｕｍ枚目）の出力特徴画像を生成するようにステップＳ１０５～Ｓ１１１（又はステップＳ１１４～Ｓ１１８）の処理を繰り返すことができる。このような繰り返し処理により、処理並列度より多い枚数の出力特徴画像を生成することができる。なお、特徴画像の枚数が処理並列度の倍数である場合について実施形態３以降で説明するが、特徴画像の枚数は処理並列度の倍数でなくてもよい。

以上のように、ステップＳ１０３で深さ方向の畳み込み処理を行うかどうかを判断することにより、通常の畳み込み処理と深さ方向の畳み込み処理との双方を効率的に処理することができる。特に、深さ方向の畳み込み処理を行う際に、複数の演算器を並列に使用可能なため、従来技術より短い時間で処理を終わらせることが可能となる。

［実施形態１の変形例］
ＣＮＮ処理部３０５の構成は図４に示す構成に限られない。図１０を参照して、ＣＮＮ処理部３０５の別の構成例を説明する。この構成例においてＣＮＮ処理部３０５は、それぞれが複数の演算コア４１６のうちの１つに対応する、複数の特徴データ格納ユニット４１１を備える。上述のとおり、複数の演算コア４１６のそれぞれは、処理対象階層の１つのチャネルのデータと、処理対象階層に対応する係数と、を用いた積和演算を並列に行うことができる。この構成例に係るＣＮＮ処理部３０５は、演算コア４１６への入力を複数のソースから選択することができるマルチプレクサ（ＭＵＸ）を備える。このようなＭＵＸは、第１の処理と第２の処理とを切り替えることができる。ＭＵＸは、演算コア４１６とともに同じチップ上に設けられていてもよい。

図１０には、ＰＥ_ｎｕｍ個の畳み込みサブユニット４１０が示されている。図１０に示すように、１つの畳み込みサブユニット１は、対応する特徴データ格納ユニット１、係数格納ユニット１、演算コア１、及び結果格納ユニット１を有している。ここで、演算コア１への入力データは、対応する特徴データ格納ユニット１から転送される。また、演算コア２～ＰＥ_ｎｕｍへの入力データは、特徴データ格納ユニット１、又は対応する特徴データ格納ユニット２～ＰＥ_ｎｕｍから入力され、入力元はＭＵＸ１００１により切り替えられる。本変形例においてＭＵＸ１００１は、ネットワークの構造に応じて、一部の演算コア４１６への特徴データの入力を選択することが可能である。

例えば、深さ方向の畳み込み処理を行わない第２の処理において、複数の特徴データ格納ユニット４１１のうちの１つの特徴データ格納ユニット４１１は、複数の演算コア４１６のそれぞれに、処理対象階層における共通の１つのチャネルのデータを供給する。すなわち、読み出し部４０５は、１個の特徴データを特徴データ格納ユニット１に転送し、ＰＥ_ｎｕｍセットの重み係数を係数格納ユニット１～ＰＥ_ｎｕｍに転送する。ＭＵＸ１００１を用いた入力選択の結果、ＰＥ_ｎｕｍ個の演算コア４１６への入力が同じになり、共通の特徴データが特徴データ格納ユニット１から演算コア１～ＰＥ_ｎｕｍへと転送される。それぞれの演算コア４１６は、同じ特徴データと異なる重み係数とを用いて積和演算を行い、ＰＥ_ｎｕｍ個の畳み込み処理の結果を算出する。

一方で、深さ方向の畳み込み処理を行う第１の処理において、複数の特徴データ格納ユニット４１１のそれぞれは、対応する演算コア４１６に、処理対象階層における１つのチャネルのデータを供給する。すなわち、読み出し部４０５は異なる特徴データを特徴データユニット１～ＰＥ_ｎｕｍに転送し、ＰＥ_ｎｕｍセットの重み係数を係数格納ユニット１～ＰＥ_ｎｕｍに転送する。ＭＵＸ１００１を用いた入力選択の結果、ＰＥ_ｎｕｍ個の演算コア４１６への入力は異なるようになり、異なる特徴データが特徴データ格納ユニット１～ＰＥ_ｎｕｍから演算コア１～ＰＥ_ｎｕｍへと転送される。それぞれの演算コア４１６は、異なる特徴データと異なる重み係数とを用いて積和演算を行い、ＰＥ_ｎｕｍ個の畳み込み処理の結果を算出する。

［実施形態２］
実施形態１では、深さ方向の畳み込み処理を行わない場合に、共通の入力特徴画像が複数の畳み込みサブユニット４１０に並列に入力された。実施形態２では、深さ方向の畳み込み処理を行わない場合に、１枚の出力特徴画像を並列処理により生成するように、互いに異なる入力特徴画像が複数の畳み込みサブユニット４１０に並列に入力される。以下では、実施形態１とは異なる構成について説明する。実施形態１と同様の構成には同じ参照符号が付されており、説明は省略される。

図７の下側は、実施形態２に係る処理装置である、ＣＮＮ処理部３０５の構成を示す。本実施形態に係る処理装置は、複数の畳み込みサブユニット４１０のそれぞれによる演算結果を累積する総和計算ユニット７０１をさらに有している。総和計算ユニット７０１は、複数枚の入力特徴画像に対する畳み込み処理の結果の総和を計算することができる。総和計算ユニット７０１が、並列して生成された畳み込み処理の結果を累計する構成を有することにより、出力特徴画像の生成を並列に行うことができる。

読み出し部４０５は実施形態１と同様に、ネットワーク構造に応じて、式（１）に従う畳み込み処理を行うか、式（２）に従う深さ方向の畳み込み処理を行うかを選択するが、枠７０２に示されるように処理順序は実施形態１とは異なっている。

総和計算ユニット７０１は、複数の畳み込みサブユニット４１０のそれぞれによる演算結果を累積する。また、総和計算ユニット７０１は、処理対象階層における処理を特定する情報に応じて、第１の処理を行うか、第２の処理を行うか、を選択する。第１の処理では、複数の畳み込みサブユニット４１０のそれぞれによる演算結果が処理対象階層の次の階層におけるそれぞれのチャネルに対応する演算結果として出力される。式（２）に従う深さ方向の畳み込み処理を行う場合には第１の処理が選択され、総和計算ユニット７０１は、複数の畳み込みサブユニット４１０のそれぞれによる演算結果を処理対象階層の次の階層におけるそれぞれの特徴画像に対応するデータとして出力する。また、第２の処理においては、総和計算ユニット７０１により得られた演算結果が次の階層における１つのチャネルに対応する演算結果として出力される。式（１）に従う畳み込み処理を行う場合には第２の処理が選択され、総和計算ユニット７０１は複数の畳み込みサブユニット４１０のそれぞれによる演算結果を累積し、累積結果を次の階層における１つの特徴画像に対応するデータとして出力する。

本実施形態におけるＣＮＮ処理部３０５が行う処理の流れを、図６のフローチャートを参照して説明する。ステップＳ１０１～Ｓ１０３は実施形態１と同様に行われる。

ステップＳ１０５も実施形態１と同様に行われる。ステップＳ６０２で制御部４０１は出力特徴画像のループを開始する。最初のループにおいては、１枚目の出力特徴画像を処理対象として用いる処理が行われる。後のループにおいては、次の出力特徴画像（２枚目以降）を用いた処理が行われる。

ステップＳ１０７で、制御部４０１は、一部の入力特徴画像及び一部の重み係数を、保持部４０２から読み出して特徴データ保持部４０３及び係数保持部４０４に転送する。本実施形態で深さ方向の畳み込み処理を行わない場合、ステップＳ１０８では、複数枚の入力特徴画像と、各入力特徴画像に対応する複数セットの重み係数が用いられる。このため、制御部４０１は、ステップＳ１０８で処理対象となる複数枚の入力特徴画像を特徴データ保持部４０３に転送することができる。また、制御部４０１は、複数セットの重み係数を、係数保持部４０４に転送することができる。実施形態１とは異なり、転送される入力特徴画像の枚数はステップＳ１０３での選択結果により変化しない。

ステップＳ１０８で、畳み込み処理部４０６は、畳み込み処理に用いるデータが異なることを除き、実施形態１と同様に、特徴データ保持部４０３に保持されている入力特徴画像及び係数保持部４０４に保持されている重み係数を用いて、畳み込み処理を行う。本実施形態においては、１つのチャネルのデータが対応する１つの畳み込みサブユニット４１０に入力されるように、特徴データ保持部４０３に格納された処理対象階層における複数のチャネルのデータが複数の畳み込みサブユニット４１０に並列に入力される。このように、複数の畳み込みサブユニット４１０のそれぞれには、互いに異なる入力特徴画像が入力される。また、複数の畳み込みサブユニット４１０のそれぞれには、互いに異なる重み係数を入力することができる。このように、それぞれの畳み込みサブユニット４１０は、互いに異なる入力特徴画像に対して、互いに異なる重み係数を用いた畳み込み処理を並列に行うことができる。

本実施形態のステップＳ１０８では、さらに総和計算ユニット７０１が、複数の畳み込みサブユニット４１０のそれぞれから出力された、入力特徴画像と重み係数とを用いた畳み込み処理結果を、加算しながら累積する。このように、総和計算ユニット７０１は、複数の入力特徴画像のそれぞれに対する畳み込み処理の結果が累積されたデータを生成することができる。こうして生成されたデータは、複数の入力特徴画像に対する、チャネル（深さ）方向への次元を有するフィルタを用いた畳み込み処理（例えば点方向の畳み込み処理、又は３×３×３フィルタを用いた三次元畳み込み処理）の結果に相当する。ステップＳ１０３での選択結果により、総和計算ユニット７０１が畳み込み処理結果の総和を計算して出力するか否かが決定される。

ステップＳ６０５で、制御部４０１は、出力特徴画像のループの終了判定をする。全ての出力特徴画像に対応する畳み込み処理の結果が生成されていない場合、処理はステップＳ１０７に戻り、次の出力特徴画像を生成するための畳み込み処理が行われる。全ての出力特徴画像に対応する畳み込み処理の結果が生成されている場合、処理はステップＳ１１０に進む。

ステップＳ１１０で、後処理部４０７は、実施形態１と同様に、総和計算ユニット７０１が生成した畳み込み処理の結果に基づいて出力特徴画像を生成する。ステップＳ１１１及びＳ１１３は実施形態１と同様に行われる。

深さ方向の畳み込み処理を行う場合に行われるステップＳ１１４～Ｓ１１８の処理は、実施形態１と同様である。上記のように、ステップＳ１１６において総和計算ユニット７０１は、畳み込み処理の結果の総和を計算せず、複数の畳み込みサブユニット４１０のそれぞれによる演算結果を処理対象階層の次の階層におけるそれぞれの特徴画像に対応するデータとして出力する。

（畳み込み処理の例）
本実施形態の構成によっても、複数枚の特徴画像を並列に処理することができる。以下に、図６のフローチャートに従う処理について、図９に示す例に従ってさらに説明する。図８は、図５と同様に、図２に示す２つの階層（レイヤ２及びレイヤ３）の処理を行う様子を示す。

図８（Ａ）はレイヤ２の処理を表す。ここでは、実施形態１と同様に深さ方向の畳み込み処理が行われる。

図８（Ｂ）～（Ｅ）はレイヤ３の処理を表す。ステップＳ１０３では深さ方向の畳み込み処理を行わないと判断され、処理はステップＳ１０５に進む。図８（Ｂ）では、４枚の入力特徴画像が、１枚ずつ、複数の畳み込みサブユニット４１０に並列に入力される。畳み込みサブユニット４１０のそれぞれが入力された入力特徴画像に対して畳み込み処理を行い、総和計算ユニット７０１が畳み込み処理結果の総和を計算することにより、並列処理により１枚の出力特徴画像が生成される。すなわち、畳み込みサブユニット４１０のそれぞれが、特徴画像（３，１）、特徴画像（３，２）、特徴画像（３，３）、又は特徴画像（３，４）に対する畳み込み処理を並列に行い、処理結果を累積することを通して、特徴画像（４，１）が生成される。同様の処理を異なる重み係数を用いて行うことにより、図８（Ｃ）～（Ｅ）に示すように、特徴画像（４，２）、特徴画像（４，３）、及び特徴画像（４，４）が順次生成される。レイヤ３の畳み込み処理は４ステップで完了し、所要の処理時間及び計算量はレイヤ２の４倍となる。なお、入力特徴画像が４枚以上ある場合、複数の畳み込みサブユニット４１０に対して、４枚以上の入力特徴画像を並列に入力することができる。

以上では、処理並列度（畳み込みサブユニット４１０の数）と入力特徴画像の枚数が一致する場合について説明したが、処理並列度と入力特徴画像の枚数は異なっていてもよい。一例として、処理並列度より入力特徴画像の枚数の方が多い場合に、処理装置がＰＥ_ｎｕｍ個の畳み込みサブユニット４１０を有し、処理並列度（ＰＥ_ｎｕｍ）より出力特徴画像の枚数の方が多い場合について説明する。式（１）に従う畳み込み処理を行う場合には、まずＰＥ_ｎｕｍ枚（例えば１枚目～ＰＥ_ｎｕｍ枚目）の入力特徴画像を用いた、それぞれの出力特徴画像に対応する畳み込み処理の結果を生成するように、ステップＳ６０２～Ｓ６０５の処理を行うことができる。その後、次のＰＥ_ｎｕｍ枚（例えばＰＥ_ｎｕｍ＋１枚目～２×ＰＥ_ｎｕｍ枚目）の入力特徴画像を用いた、それぞれの出力特徴画像に対応する畳み込み処理の結果を生成するように、ステップＳ６０２～Ｓ６０５の処理を繰り返すことができる。このとき、１枚目～ＰＥ_ｎｕｍ枚目の入力特徴画像を用いた畳み込み処理の結果と、ＰＥ_ｎｕｍ＋１枚目～２×ＰＥ_ｎｕｍ枚目の入力特徴画像を用いた畳み込み処理の結果と、を累積することができる。このようにして、１枚目～２×ＰＥ_ｎｕｍ枚目の入力特徴画像を用いた畳み込み処理の結果を得ることができる。このような繰り返し処理により、全ての入力特徴画像を用いた畳み込み処理の結果に基づく、出力特徴画像を得ることができる。式（２）に従う畳み込み処理を行う場合は、実施形態１と同様に行うことができる。なお、特徴画像の枚数は処理並列度の倍数であってもよいし、処理並列度の倍数でなくてもよい。

［実施形態２の変形例］
ＣＮＮ処理部３０５の構成は図６に示す構成に限られない。図１１を参照して、ＣＮＮ処理部３０５の別の構成例を説明する。この構成例においてＣＮＮ処理部３０５は、それぞれが複数の演算コア４１６のうちの１つに対応する、複数の結果格納ユニット４１５を備える。上述のとおり、複数の演算コア４１６のそれぞれは、処理対象階層の１つのチャネルのデータと、処理対象階層に対応する係数と、を用いた積和演算を並列に行うことができる。この構成例に係るＣＮＮ処理部３０５は、複数の演算コア４１６を用いて得られた複数の出力のうち１つを選択することができるマルチプレクサ（ＭＵＸ）を備える。このようなＭＵＸは、第１の処理と第２の処理とを切り替えることができる。ＭＵＸは、演算コア４１６とともに同じチップ上に設けられていてもよい。

図１１には、ＰＥ_ｎｕｍ個の畳み込みサブユニット４１０が示されている。ＰＥ_ｎｕｍ個の畳み込みサブユニットは、それぞれ対応する特徴データ格納ユニット、係数格納ユニット、演算コア、及び結果格納ユニットを有している。読み出し部４０５は、互いに異なる特徴データを特徴データ格納ユニット１～ＰＥ_ｎｕｍに転送し、互いに異なる重み係数を係数格納ユニット１～ＰＥ_ｎｕｍに転送することができる。演算コア１～ＰＥ_ｎｕｍへの入力データは、対応する特徴データ格納ユニット１～ＰＥ_ｎｕｍから転送される。この場合、ＰＥ_ｎｕｍ個の演算コア４１６のそれぞれは、入力された特徴データと対応する重み係数とを用いて畳み込み処理の結果を算出し、こうしてＰＥ_ｎｕｍ個の畳み込み処理の結果が得られる。総和計算ユニット７０１は、ＰＥ_ｎｕｍ個の畳み込み処理の結果を足し合わせる。

本変形例においてＭＵＸ１１０１は、ネットワークの構造に応じて、結果格納ユニット１への入力を選択することが可能である。具体的には、演算コア１からの出力と、複数の演算コア４１６からの出力に基づく総和計算ユニット７０１からの出力と、から選択された出力が、結果格納ユニット１へと入力される。

例えば、深さ方向の畳み込み処理を行わない第２の処理において、複数の演算コア４１６のそれぞれは、総和計算ユニット７０１に演算結果を出力し、総和計算ユニット７０１は、積算の結果を複数の結果格納ユニット４１５のうちの１つに出力する。すなわち、ＭＵＸ１１０１を用いた入力選択の結果、総和計算ユニット７０１によって足し合わせられたＰＥ_ｎｕｍ個の畳み込み処理の結果が、処理結果格納ユニット１に入力される。この場合、結果格納ユニット２～ＰＥ_ｎｕｍは使用されない。

一方で、深さ方向の畳み込み処理を行う第１の処理において、複数の演算コア４１６のそれぞれは、対応する結果格納ユニット４１５に演算結果を出力する。すなわち、ＭＵＸ１１０１を用いた入力選択の結果、ＰＥ_ｎｕｍ個の畳み込み処理の結果のそれぞれが、結果格納ユニット１～ＰＥ_ｎｕｍに入力される。

［実施形態３］
上述の実施形態において、図１又は図６に示される各ステップは順番に処理された。しかしながら、パイプライン処理を行うことができるハードウェアを用いることにより、パイプライン処理により各実施形態に係る処理を行ってもよい。以下では、実施形態１に係る処理をパイプライン処理を用いて行う場合について、図１２を参照して説明する。以下では、ＰＥ_ｎｕｍ枚の出力特徴画像を並列に生成することができるハードウェアを用いる場合について説明する。また、簡略化のために入力特徴画像の枚数ＯＣ＝２ＰＥ_ｎｕｍである場合について説明するが、入力特徴画像の数は特に限定されない。

図１２（Ａ）は、深さ方向の畳み込み処理を行わない場合の例を示す。この例において、入力特徴画像はＩＣ枚であり、出力特徴画像はＯＣ枚である。０サイクルからＴサイクルまでの時間では、１枚目の入力特徴画像と、畳み込み処理に用いられる重み係数と、が転送される。Ｔサイクルから２Ｔサイクルまでの時間では、２枚目の入力特徴画像と畳み込み処理に用いられる重み係数とが転送されるとともに、１枚目の入力特徴画像に対する重み係数の乗算が行われる。２Ｔサイクルから３Ｔサイクルまでの時間では、３枚目の入力特徴画像と畳み込み処理に用いられる重み係数とが転送され、２枚目の入力特徴画像に対する重み係数の乗算が行われ、１枚目の入力特徴画像に対する乗算結果の累積が行われる。３Ｔサイクルから（ＩＣ＋２）×Ｔサイクルまでの時間で同じような処理が繰り返され、ＰＥ_ｎｕｍ個の畳み込み処理の結果が得られる。（ＩＣ＋２）×Ｔサイクルから（ＩＣ＋３）×Ｔサイクルまでの時間では、ＩＣ枚の入力特徴画像に対する畳み込み処理により得られたＰＥ_ｎｕｍ個の結果をそれぞれ用いた活性化処理が行われる。こうして、ＰＥ_ｎｕｍ個の出力特徴画像（１枚目～（ＯＣ／２）枚目）の出力特徴画像が生成される。同様の処理をもう一度行うことにより、さらに（ＯＣ／２）＋１枚目～ＯＣ枚目の出力特徴画像を得ることができる。

図１２（Ｂ）は、深さ方向の畳み込み処理を行う場合の例を示す。この例において、入力特徴画像の枚数はＩＣ枚、出力特徴画像の枚数はＯＣ枚であり、ＩＣ＝ＯＣ＝２ＰＥ_ｎｕｍである。０サイクルからＴサイクルまでの時間では、１枚目～ＰＥ_ｎｕｍ枚目の入力特徴画像と畳み込み処理に用いられる重み係数とが転送される。Ｔサイクルから２Ｔサイクルまでの時間では、ＰＥ_ｎｕｍ＋１枚目～ＩＣ枚目の入力特徴画像と畳み込み処理に用いられる重み係数とが転送され、１枚目～ＰＥ_ｎｕｍ枚目の入力特徴画像に対する重み係数の乗算が行われる。２Ｔサイクルから３Ｔサイクルまでの時間では、ＰＥ_ｎｕｍ＋１枚目～ＩＣ枚目の入力特徴画像に対する重み係数の乗算が行われ、１枚目～ＰＥ_ｎｕｍ枚目の入力特徴画像に対する乗算結果の累積が行われる。３Ｔサイクルから４Ｔサイクルまでの時間では、ＰＥ_ｎｕｍ＋１枚目～ＩＣ枚目の入力特徴画像に対する乗算結果の累積が行われる。また、１枚目～ＰＥ_ｎｕｍ枚目の入力特徴画像に対する畳み込み処理により得られたＰＥ_ｎｕｍ個の結果をそれぞれ用いた活性化処理が行われ、ＰＥ_ｎｕｍ個の出力特徴画像（１枚目～ＩＣ／２）枚目）の出力特徴画像が生成される。４Ｔサイクルから５Ｔサイクルまでの時間では、ＰＥ_ｎｕｍ＋１枚目～ＩＣ枚目の入力特徴画像に対する畳み込み処理により得られたＰＥ_ｎｕｍ個の結果をそれぞれ用いた活性化処理が行われる。こうして、ＰＥ_ｎｕｍ個の出力特徴画像（ＩＣ／２＋１枚目～ＩＣ枚目）の出力特徴画像が生成される。

図５の例と同じように、深さ方向の畳み込み処理を行う場合の処理時間は、深さ方向の畳み込み処理を行わない場合より短くなっている。

［実施形態４］
上述の実施形態においては、特徴画像単位で畳み込み処理が行われた。例えば、実施形態１のステップＳ１０７では、特徴画像が特徴データ保持部４０３に転送された。しかしながら、データ転送及び畳み込み処理を特徴画像ごとに行う必要はない。例えば、ブロック単位の転送により特徴画像が複数回に分けて転送されてもよいし、畳み込み処理がブロック単位で行われてもよい。

ブロック単位の処理を行う場合に、ステップＳ１０７における保持部４０２へのアクセス時間に相当するデータ転送時間をＴ_ｍで表し、ステップＳ１０８における畳み込み処理の時間をＴ_ｃで表す。深さ方向の畳み込み処理を行わない場合、Ｔ_ｍ及びＴ_ｃは以下の式（４）及び（５）で表すことができる。

また、深さ方向の畳み込み処理を行う場合、ＩＣとＯＣは同じ値になり、Ｔ_ｍ及びＴ_ｃは以下の式（６）及び（７）で表すことができる。

式（４）～（７）において、各パラメータの意味は以下のとおりである。畳み込み処理で用いるフィルタの重み係数のサイズ、及び特徴画像の画素データのサイズは、ネットワーク構造情報に示される階層の情報等によって異なる可能性がある。このため、ブロックサイズ及びフィルタサイズ等を、個数ではなくビットを用いて表現している。
ＩＣ：入力特徴画像の枚数
ＯＣ：出力特徴画像の枚数
ＩＮ×ＩＭ：入力ブロックサイズ（ビット）
ＯＮ×ＯＭ：出力ブロックサイズ（ビット）
Ｘ×Ｙ：フィルタサイズ（ビット）
ＢＷ_ＦＭ：特徴画像の転送帯域（ビット／時間）
ＢＷ_Ｗ：重み係数の転送帯域（ビット／時間）
ＭＡＣ_ＰＥ：畳み込み処理の演算器の積和演算処理の並列度
ＰＥ_ｎｕｍ：畳み込み処理の演算器の個数

Ｔ_ｃはフィルタサイズに比例する。パイプライン処理を行う場合、１サイクルの処理時間はＴ_ｍとＴ_ｃの最大値となる。

図１３は、ブロック単位の処理のための疑似コードを示す。ループの構成は図１のフローチャートと同様だが、ブロック処理のためのループが追加されている。なお、処理並列度より出力特徴画像の枚数の方が多い場合には、まずブロック単位の処理により、ＰＥ_ｎｕｍ枚（１枚目～ＰＥ_ｎｕｍ枚目）の出力特徴画像を生成することができる。そして、さらなるブロック単位の処理により、ＰＥ_ｎｕｍ枚（ＰＥ_ｎｕｍ＋１枚目以降）の出力特徴画像を生成することを繰り返すことができる。また、別の方法として、全ての出力特徴画像の１つ目のブロックの特徴データを生成した後で、全ての出力特徴画像の２つ目以降のブロックの特徴データを生成してもよい。

図１４は、ブロック単位の処理を行うために利用可能なＣＮＮ処理部３０５の構成例を示す。特徴データ保持部１４０１は、入力特徴画像と出力特徴画像とを保持できる。このような構成において制御部４０１は、後処理部４０７による処理結果を特徴データ保持部４０３に保持し、これを次の階層の特徴画像として扱う。最初の階層の処理を行う際には、制御部４０１は一部の入力特徴画像を保持部４０２から読み出し、特徴データ保持部４０３に転送する。一方で、２番目以降の階層の処理を行う際には、特徴データ保持部４０３に保持されているデータが入力特徴画像として用いられる。本構成例に係るＣＮＮ処理部３０５は、特徴データ保持部１４０１以外は実施形態１に係るＣＮＮ処理部３０５と同様であるが、特徴データ及び畳み込み処理の結果等はブロック単位で転送される。

このような構成において深さ方向の畳み込み処理を行わないと判定された場合、複数個のブロックの入力特徴画像を用いて１個のブロックの出力特徴画像が生成される。一方で、深さ方向の畳み込み処理を行う場合、１個のブロックの入力特徴画像を用いて１個のブロックの出力特徴画像が生成される。

このようなブロック単位の処理を行う構成は、特徴データを部分的に処理することができ、柔軟性が高いため、様々なサイズの入力画像を処理することができる。このような場合においても、深さ方向の畳み込み処理を高い効率で行うことができる。

［その他の実施形態］
上述の実施形態では、階層毎に畳み込み処理の種類及びフィルタサイズが異なる例について説明した。一方で、１つの階層において用いられるフィルタ又は特徴データが複数のグループに分類され、グループ毎に畳み込み処理の種類及びフィルタサイズが異なっていてもよい。このような場合も、上述の実施形態に係る処理装置は、グループ毎に処理を切り替えることができる。すなわち、上述の実施形態において、処理対象階層における積和演算で用いられる特徴データ及びフィルタの重み係数が複数のグループに分類されていてもよい。この場合、処理対象階層の処理において、処理しようとするグループごとに第１の処理を行うか第２の処理を行うかを選択することができる。

上述の実施形態では、３×３のサイズを有するフィルタを用いて深さ方向の畳み込み処理を行う例について説明した。しかしながら、上述の実施形態に係る処理装置は、同じ構成のハードウェアを用いて、異なるサイズを有するフィルタを用いた畳み込み処理を行うことができる。このため、用いられるフィルタのサイズは３×３に限定されず、５×５又は７×７であってもよい。また、用いられるフィルタは、拡張畳み込み（Dilated Convolution）処理用のゼロ係数が含まれているフィルタであってもよい。すなわち、畳み込み処理部４０６は、拡張畳み込み処理に用いるフィルタの重み係数を用いて積和演算を行うことができる。畳み込みサブユニット４１０は、供給された特徴データ及び係数データを１つずつ積和演算する構成を有しており、任意のサイズのフィルタを用いた畳み込み処理が可能である。上述の実施形態は、任意のサイズのフィルタを用いた畳み込み処理と、深さ方向の畳み込み処理と、の組み合わせ等にも対応できる。

図１５は、ネットワークと畳み込み処理との関係の例を示す。深さ方向の畳み込み処理を行うレイヤ１５０１の処理では、枠４２０の左側のモードが選択され、拡張畳み込み処理用のフィルタを用いて深さ方向の畳み込み処理が並列に行われる。レイヤ１５０１で用いられるフィルタは、３×３のフィルタが拡張されたものであり、５×５のサイズを有している。活性化処理を行うレイヤ１５０２では、ＲｅＬＵ等の処理が行われる。点方向の畳み込み処理を行うレイヤ１５０３の処理では、深さ方向の畳み込み処理が行われないため、枠４２０の右側のモードが選択され、１×１のフィルタを用いた畳み込み処理が行われる。

実施形態１では、１つの入力特徴画像を同時に処理する例について説明したが、複数の入力特徴画像が同時に処理されてもよい。例えば、一部の畳み込みサブユニット４１０が特徴画像（３，１）を用いた処理を行っている間に、他の畳み込みサブユニット４１０が特徴画像（３，２）を用いた処理を行ってもよい。また、実施形態２では、１つの出力特徴画像を並列処理により生成する例について説明したが、複数の出力特徴画像が同時に生成されてもよい。例えば、一部の畳み込みサブユニット４１０が特徴画像（４，１）を生成している間に、他の畳み込みサブユニット４１０が特徴画像（４，２）を生成してもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

４０１：制御部、４０２：保持部、４０３：特徴データ保持部、４０４：係数保持部、４０５：読み出し部、４０６：畳み込み処理部、４０７：後処理部、４０８：結果保持部、４１０：畳み込みサブユニット、４１１：特徴データ格納ユニット、４１２：係数格納ユニット、４１３：乗算器、４１４：加算器、４１５：結果格納ユニット、４１６：演算コア

Claims

複数の階層を有する畳み込みニューラルネットワークにおける演算を行う処理装置であって、
前記複数の階層のうち処理対象階層における複数のチャネルのデータの少なくとも一部を保持するデータ保持手段と、
それぞれが、前記処理対象階層の１つのチャネルのデータと、前記処理対象階層に対応する係数と、を用いた積和演算を並列に行う、複数の演算手段と、
前記処理対象階層における処理を特定する情報に基づいて、前記データ保持手段に格納された前記処理対象階層における１つのチャネルのデータを、前記複数の演算手段のうちの１つの演算手段に入力する第１の処理を行うか、前記複数の演算手段のそれぞれに並列に入力する第２の処理を行うか、を選択する選択手段と、
を備えることを特徴とする処理装置。
前記第２の処理では、前記処理対象階層における前記複数のチャネルのそれぞれ１つについて、該１つのチャネルのデータを前記データ保持手段から前記複数の演算手段に並列に入力することを繰り返すことを特徴とする、請求項１に記載の処理装置。
前記第２の処理において、前記複数の演算手段のそれぞれは、順次入力された前記処理対象階層におけるそれぞれのチャネルのデータを用いて、前記処理対象階層の次の階層における１つのチャネルに対応する演算結果を出力することを特徴とする、請求項２に記載の処理装置。
それぞれが前記複数の演算手段のうちの異なる１つに対応する、複数のデータ格納手段をさらに備え、
前記第１の処理において、前記複数のデータ格納手段のそれぞれは、対応する前記演算手段に、前記処理対象階層における前記１つのチャネルのデータを供給し、
前記第２の処理において、前記複数のデータ格納手段のうちの１つのデータ格納手段は、前記複数の演算手段のそれぞれに、前記処理対象階層における共通の前記１つのチャネルのデータを供給する
ことを特徴とする、請求項１から３のいずれか１項に記載の処理装置。
複数の階層を有する畳み込みニューラルネットワークにおける演算を行う処理装置であって、
前記複数の階層のうち処理対象階層における複数のチャネルのデータの少なくとも一部を保持するデータ保持手段と、
それぞれが、前記処理対象階層の１つのチャネルのデータと、前記処理対象階層に対応する係数と、を用いた積和演算を並列に行う、複数の演算手段と、
前記複数の演算手段のそれぞれによる演算結果を累積する累積手段と、
前記処理対象階層における処理を特定する情報に基づいて、前記複数の演算手段のそれぞれによる演算結果を前記処理対象階層の次の階層におけるそれぞれのチャネルに対応する演算結果として出力する第１の処理を行うか、前記累積手段により得られた演算結果を前記次の階層における１つのチャネルに対応する演算結果として出力する第２の処理を行うか、を選択する選択手段と、
を備えることを特徴とする処理装置。
前記第２の処理では、１つのチャネルのデータが対応する１つの前記演算手段に入力されるように、前記データ保持手段に格納された前記処理対象階層における複数のチャネルのデータが前記複数の演算手段に並列に入力される、請求項５に記載の処理装置。
それぞれが前記複数の演算手段のうちの１つに対応する、複数の結果格納手段をさらに備え、
前記第１の処理において、前記複数の演算手段のそれぞれは、対応する前記結果格納手段に前記演算結果を出力し、
前記第２の処理において、前記複数の演算手段のそれぞれは、前記累積手段に前記演算結果を出力し、前記累積手段は、前記累積の結果を前記複数の結果格納手段のうちの１つに出力する
ことを特徴とする、請求項５又は６に記載の処理装置。
前記第１の処理では、１つのチャネルのデータが対応する１つの前記演算手段に入力されるように、前記データ保持手段に格納された前記処理対象階層における複数のチャネルのデータが前記複数の演算手段に並列に入力される、請求項１から７のいずれか１項に記載の処理装置。
前記第１の処理において、前記複数の演算手段のそれぞれは、前記処理対象階層における１つのチャネルのデータを用いて、前記処理対象階層の次の階層における１つのチャネルに対応する演算結果を出力することを特徴とする、請求項１から８のいずれか１項に記載の処理装置。
前記処理対象階層における積和演算に用いる係数の少なくとも一部を保持する係数保持手段と、
前記データ保持手段及び前記係数保持手段から前記複数の演算手段へのデータ供給を制御する供給制御手段と、をさらに備え、
前記複数の演算手段のそれぞれは、入力された１つの前記データと１つの前記係数との積を算出し、算出された積を累計することにより、前記積和演算を行う
ことを特徴とする、請求項１から９のいずれか１項に記載の処理装置。
前記処理対象階層における積和演算で用いられる前記データ及び前記係数が複数のグループに分類されており、
前記選択手段は、積和演算に用いる前記データ及び前記係数の前記グループに基づいて、前記第１の処理を行うか、前記第２の処理を行うか、を選択することを特徴とする、請求項１から１０のいずれか１項に記載の処理装置。
前記係数は畳み込み処理に用いるフィルタの重み係数であり、前記フィルタのサイズは前記階層ごとに設定可能であることを特徴とする、請求項１から１１のいずれか１項に記載の処理装置。
前記係数は拡張畳み込み処理に用いるフィルタの重み係数であることを特徴とする、請求項１から１１のいずれか１項に記載の処理装置。
前記データ保持手段はメモリであり、
前記演算手段は乗算器と加算器とを備える演算コアを備え、
前記メモリと前記演算コアとが設けられたチップを備えることを特徴とする、請求項１から１１のいずれか１項に記載の処理装置。
前記選択手段は、
前記演算コアへと入力されるデータの前記メモリ内のアドレスを指定する、前記チップに設けられたアドレス発行部を備える
ことを特徴とする、請求項１４に記載の処理装置。
前記選択手段は、
前記演算コアへの入力を複数のソースから選択する、若しくは複数の前記演算コアからの出力のうち１つの出力を選択する、前記チップに設けられたマルチプレクサを備える
ことを特徴とする、請求項１４に記載の処理装置。
前記畳み込みニューラルネットワークに従う演算は処理対象画像に対して行われ、
前記処理対象階層におけるデータは、前記畳み込みニューラルネットワークに従う演算の過程で得られる特徴画像である
ことを特徴とする、請求項１から１６のいずれか１項に記載の処理装置。
前記処理対象画像に対して前記畳み込みニューラルネットワークに従う演算を行うように、前記複数の演算手段を制御する制御手段と、
前記処理対象画像に対して前記畳み込みニューラルネットワークに従う演算を行うことにより得られた処理結果に基づいて、前記処理対象画像に対する画像処理を行う画像処理手段と、
をさらに備えることを特徴とする、請求項１７に記載の処理装置。