JP2023073824A

JP2023073824A - 演算装置、情報処理方法、及びプログラム

Info

Publication number: JP2023073824A
Application number: JP2021186520A
Authority: JP
Inventors: ソクイチン; Tsewei Chen; 政美加藤; Masami Kato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-05-26
Also published as: US20230154174A1

Abstract

【課題】ゼロ値を有するデータ列に対する畳み込み演算処理の効率を向上させ、処理に要する消費電力又は処理時間を削減する。【解決手段】処理対象ブロック内のデータ配列を保持する。フィルタ処理に用いるフィルタの重み係数を保持する。処理対象ブロックに対応して設定された、処理対象ブロック内の参照範囲内のデータがゼロ値であるか否かを判定する。処理対象ブロック内の複数の位置のそれぞれにおけるデータと重み係数との畳み込み演算結果を生成する。判定結果に応じて、畳み込み演算結果を生成する際に、データと重み係数との積和演算の少なくとも一部を行うか否かを制御する。【選択図】図１

Description

本発明は演算装置、情報処理方法、及びプログラムに関し、特に畳み込みニューラルネットワークを用いた演算処理に関する。

畳み込みニューラルネットワーク（Convolutional Neural Networks, ＣＮＮ）は深層学習に用いられている。畳み込みニューラルネットワークの各階層では、畳み込み演算と活性化処理とが行われることが多い。畳み込み演算結果が負の値の場合、活性化処理結果はゼロになるため、各階層で得られる特徴マップにはゼロ値が多く含まれている。特許文献１は、ｎ×ｎサイズのフィルタとｎ×ｎサイズの部分領域との畳み込み演算を行う際に、部分領域におけるゼロ値の割合が大きい場合には処理をスキップすることで、消費電力を低減することを提案している。また、特許文献２は、畳み込み演算において、フィルタの重み係数又はデータ値がゼロである場合に積演算を省略することを開示している。特許文献３も、畳み込み演算において、特徴画像の画素データがゼロである場合に積演算を省略することを開示している。

米国特許出願公開第２０１９／０１１４５３２号明細書米国特許出願公開第２０１９／０１４７３２４号明細書米国特許第９８１８０５９号明細書

特許文献１の方法では、部分領域をスライドしながらゼロ値の割合の判定を繰り返すため、判定に要する処理負荷が大きくなる可能性がある。また、特許文献２及び３の方法でも、特徴マップの画素ごとにゼロ値の判定を繰り返すため、判定に要する処理負荷が大きくなる可能性がある。

本発明は、ゼロ値を有するデータ配列に対する畳み込み演算処理の効率を向上させ、処理に要する消費電力又は処理時間を削減することを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る演算装置は以下の構成を備える。すなわち、所定サイズの処理対象ブロック内のデータ配列に対するフィルタ処理を行う演算装置であって、前記処理対象ブロック内のデータ配列を保持するデータ保持手段と、前記フィルタ処理に用いるフィルタの重み係数を保持する係数保持手段と、前記処理対象ブロックに対応して設定された、前記処理対象ブロック内の参照範囲内のデータがゼロ値であるか否かを判定する判定手段と、前記処理対象ブロック内の複数の位置のそれぞれにおけるデータと重み係数との畳み込み演算結果を生成する処理手段と、前記判定手段による判定結果に応じて、前記処理手段が、前記畳み込み演算結果を生成する際に、前記データと前記重み係数との積和演算の少なくとも一部を行うか否かを制御する制御手段と、を備えることを特徴とする。

本発明は、ゼロ値を有するデータ配列に対する畳み込み演算処理の効率を向上させ、処理に要する消費電力又は処理時間を削減することができる。

一実施形態に係る処理のフローチャート。一実施形態に係るニューラルネットワークの構造例を示す図。一実施形態に係る処理装置の構成例を示すブロック図。一実施形態に係るＣＮＮ処理部の構成例を示すブロック図。畳み込み処理及び参照範囲の一例を示す図。一実施形態に係る積和演算の処理例を示す図。一実施形態に係る積和演算の処理例を示す図。畳み込み処理及び参照範囲の一例を示す図。畳み込み処理及び参照範囲の一例を示す図。一実施形態に係る処理のフローチャート。参照範囲の一例を示す図。ニューラルネットワークと畳み込み演算の関係を示す図。参照範囲の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

本発明の一実施形態に係る演算装置は、所定サイズの処理対象ブロック内のデータ配列に対するフィルタ処理を行うことができる。図３は、本発明の一実施形態に係る演算装置である、畳み込みニューラルネットワーク処理装置の一構成例を示すブロック図である。このような処理装置は、例えば、画像に対してニューラルネットワークを用いた処理を行うことができる。このような処理装置が行うことのできる処理の具体例としては、画像中の被写体の検出処理、画像中の被写体の識別処理、画像に対する領域分割処理等、画像に対する高解像度化処理等が挙げられる。このような処理は、例えば、画像をニューラルネットワークに入力することにより得られる特徴マップを用いて行うことができる。

入力部３０１は、ユーザからの指示、又はデータを受け付ける装置である。入力部３０１は、例えば、キーボード、ポインティング装置、又はボタン等であってもよい。

データ保存部３０２は画像データのようなデータを保存することができる。データ保存部３０２は、例えば、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ、メモリーカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティック、ｘＤピクチャーカード、又はＵＳＢメモリなどであってもよい。データ保存部３０２は、プログラム又はその他のデータを保存してもよい。なお、後述するＲＡＭ３０８の一部がデータ保存部３０２として用いられてもよい。

通信部３０３は、機器間の通信を行うためのインタフェース（Ｉ／Ｆ）である。処理装置３００は、通信部３０３を介して、他の装置とデータを交換することができる。なお、処理装置３００は、通信部３０３を介して接続された記憶装置を、仮想的なデータ保存部として、すなわちデータ保存部３０２として用いてもよい。

表示部３０４は、ユーザなどに対して情報を表示する装置である。表示部３０４は、例えば、画像処理前又は画像処理後の画像を表示すること、又はＧＵＩなどのその他の画像を表示することができる。表示部３０４は、例えば、ＣＲＴ又は液晶ディスプレイなどであってもよい。表示部３０４は、ケーブルなどで接続された、処理装置３００の外部にある装置であってもよい。なお、入力部３０１及び表示部３０４が同一装置であってもよく、例えば、入力部３０１及び表示部３０４はタッチスクリーン装置であってもよい。この場合、タッチスクリーン上での入力は、入力部３０１への入力に相当する。

ＣＮＮ処理部３０５は、後述する図１のフローチャートに従い、画像に対してニューラルネットワークを用いた処理（Ｓ１０１～Ｓ１１７）を行うことができる。ＣＮＮ処理部３０５が行う処理には、畳み込み演算を用いたフィルタ処理が含まれている。ＣＮＮ処理部３０５は、画像処理部３０９によってＲＡＭ３０８に保存された画像処理の結果に対して、ニューラルネットワークを用いた処理を行ってもよい。ＣＮＮ処理部３０５は、処理結果をデータ保存部３０２（又はＲＡＭ３０８）に出力することができる。この処理結果は、ＣＰＵ３０６による画像処理又は画像認識処理のような各種の処理のために用いることができる。もっとも、このようなＣＮＮ処理部３０５は、画像処理以外の用途で用いられてもよく、すなわち図３に示されるＣＮＮ処理部３０５以外の構成は、本発明にとって必須ではない。なお、ＣＮＮ処理部３０５は、静止画像又は動画像に対してフィルタ処理を行うことができる。ＣＮＮ処理部３０５は、例えば、動画像が含む複数のフレームのそれぞれに対してフィルタ処理を行うことができる。この場合、ＣＰＵ３０６は、動画像に対する画像処理又は画像認識を行うことができる。

ＣＰＵ３０６は、処理装置３００全体の動作を制御する。また、ＣＰＵ３０６は、ＣＮＮ処理部３０５によって生成され、データ保存部３０２又はＲＡＭ３０８に保存されている処理結果に基づいて、画像処理又は画像認識処理のような各種の処理を行うことができる。ＣＰＵ３０６は、これらの処理結果をＲＡＭ３０８に保存することができる。

ＲＯＭ３０７及びＲＡＭ３０８は、ＣＰＵ３０６による処理に必要なプログラム、データ、及び作業領域などを、ＣＰＵ３０６に提供する。ＣＰＵ３０６による処理に必要なプログラムはデータ保存部３０２又はＲＯＭ３０７に格納されていてもよく、データ保存部３０２又はＲＯＭ３０７からＲＡＭ３０８に読み込まれてもよい。また、データ処理装置３００は通信部３０３を介してプログラムを受信してもよい。この場合、プログラムは、いったんデータ保存部３０２に記録された後にＲＡＭ３０８に読み込まれてもよいし、通信部３０３からＲＡＭ３０８に直接読み込まれてもよい。いずれの場合であっても、ＣＰＵ３０６はＲＡＭ３０８に読み込まれたプログラムを実行することができる。

画像処理部３０９は、画像データに対する画像処理を行うことができる。例えば、画像処理部３０９は、ＣＰＵ３０６からの指示に従って、データ保存部３０２に書き込まれている画像データを読み出し、画素値のレンジ調整を行い、処理結果をＲＡＭ３０８に書き込むことができる。

図３に示す処理装置３００は、上記の各部を内部に有している。上記の各部は、互いにデータを送受信できるように接続されている。しかしながら、例えば入力部３０１、データ保存部３０２、及び表示部３０４を含む各部は、公知の通信方式に従う通信路で互いに接続されていてもよい。すなわち、一実施形態に係るデータ処理装置は、物理的に分かれている複数の装置によって構成されていてもよい。

また、図３に示す処理装置３００は１つのＣＰＵ３０６を有しているが、複数のＣＰＵを有していてもよい。さらに、処理装置３００が有する各部（例えばＣＮＮ処理部３０５及び画像処理部３０９）のうちの少なくとも一部の機能が、ＣＰＵ３０６がプログラムに従って動作することにより実現されてもよい。

処理装置３００は、図３に示されていない様々な構成要素を有していてもよいが、その説明は省略する。

（ニューラルネットワークの構造例）
上記のとおり、ＣＮＮ処理部３０５は、データ配列に対してフィルタを用いたフィルタ処理を行うことができる。また、ＣＮＮ処理部３０５は、複数の階層を含むニューラルネットワークに従う処理を行うことができ、少なくとも１つの階層でこのようなフィルタ処理を行うことができる。フィルタ処理には、畳み込み演算が含まれ、畳み込み演算には複数回の積和演算が含まれる。なお、以下において、１回の積和演算は、１つのデータと１つのフィルタ係数との積演算及びこの積を累積する演算のセットのことを指す。また、１回の畳み込み演算は、特定のデータ配列（例えば特徴画像の局所領域）にフィルタを畳み込むことで１つの出力データを得る演算のことを指し、複数回の積和演算を含んでいる。以下では、特徴画像に対してフィルタ処理を行う場合について説明する。特徴画像は、各画素についての画素データをデータ配列として有している。

以下では、ＣＮＮ処理部３０５が用いるニューラルネットワークの一例を説明する。ニューラルネットワークの一種であるＣＮＮは、複数の階層（レイヤ）が階層的に接続された構造を有する。各階層は、複数枚の特徴画像を含んでいてもよい。以下では、前階層の特徴画像に対し、対応する処理を行うことで得られた特徴画像のことを、次階層の特徴画像と呼ぶ。なお、以下では特徴画像が２次元である場合について説明するが、特徴画像は１次元であってもよいし、３次元以上の高次の特徴画像であってもよい。

例えば、次階層の特徴画像は、前階層の特徴画像に対するフィルタ処理を用いて計算されてもよい。このフィルタ処理では、前階層に対応するフィルタ係数で構成されるフィルタを用いることができる。次階層の複数の特徴画像のそれぞれは、対応するフィルタを用いたフィルタ処理により生成することができる。また、次階層の１枚の特徴画像を計算するために、前階層の複数枚の特徴画像が用いられてもよい。例えば、前階層の複数枚の特徴画像のそれぞれに対して、対応するフィルタを用いたフィルタ処理を行い、得られた複数の処理結果に基づいて次階層の１枚の特徴画像を得ることができる。

例えば、フィルタ処理後の特徴画像（Ｏ_ｉ，ｊ（ｎ））は、前階層の特徴画像（Ｉ_ｉ，ｊ（ｍ））と、フィルタ係数（Ｗ_０，０（ｍ，ｎ）～Ｗ_{Ｘ－１，Ｙ－１}（ｍ，ｎ））と、を用いて、式（１）に従って算出できる。ここで、ｉ，ｊは特徴画像の座標を示す。また、ｘ，ｙはフィルタの座標を示す。ｎは次階層の特徴画像の番号である。また、ｍは前階層の特徴画像の番号であり、前階層の特徴画像はＩＣ枚である。フィルタ係数は、前階層の特徴画像ごとに、及び次階層の特徴画像ごとに、異なっており、１つの特徴画像の組み合わせについてＸ×Ｙ個ある。

上記のように、次階層の１つの特徴画像の１つの画素データを計算するための畳み込み演算で行われる積和演算回数はＭ×Ｘ×Ｙ回である。このように、フィルタは複数のフィルタ係数を有しており、フィルタ処理後の特徴画像の各画素の画素値は、前階層の特徴画像の対応する画素周辺の画素群の画素値と、フィルタが有するフィルタ係数と、の畳み込み演算により得られる。

このようなフィルタ処理により得られた特徴画像Ｏ_ｉ，ｊ（ｎ）に対して、さらに活性化処理又はプーリング処理などの処理を行うことにより、次階層の特徴画像を算出することができる。活性化処理は、式（２）に従って行うことができる。式（２）において、ｆ（・）はＲｅＬｕ（Rectified Linear Unit）の関数であり、変数ｘは入力データである。

式（２）に従う活性化処理を行う場合、畳み込み演算結果が負の値の場合には活性化処理結果はゼロとなる。この場合、前階層の特徴画像の対応する位置の画素データはゼロとなり、次階層での積和演算にもゼロ値が入力される。特徴画像の画素データがゼロの場合、このデータは畳み込み演算の結果に寄与しないため、このデータを用いた積和演算を省略しても結果は影響を受けない。

図２は、ニューラルネットワークの具体的な構造例を示す。図２に示すニューラルネットワークにおいては、階層数は４であり、各階層（レイヤ）には４枚の特徴画像が含まれる。それぞれの階層の特徴画像は、特徴画像ごとに定められているフィルタを、特徴画像の画素データに適用することにより得られたフィルタ処理結果に基づいて得られる。ここで、フィルタのフィルタ係数は、公知の学習技術に従って予め得られている。また、フィルタを適用するフィルタ処理は畳み込み演算を含んでおり、すなわち複数の乗算及び累積加算を含んでいる。図２において、矢印は畳み込み演算を示す。

レイヤ１では、式（１）及び式（２）に基づいて、複数枚の特徴画像２０１とフィルタ係数とを用いたフィルタ処理により、レイヤ２の複数枚の特徴画像２０２が生成される。レイヤ２では、同様に複数枚の特徴画像２０２とフィルタ係数とを用いたフィルタ処理により、レイヤ３の複数枚の特徴画像２０３が生成される。レイヤ３でも、同様に複数枚の特徴画像２０３とフィルタ係数とを用いたフィルタ処理により、レイヤ４の複数枚の特徴画像２０４が生成される。このように、フィルタ処理は階層順に行われている。図１２に示されるように、レイヤ１にある４枚の特徴画像１２０１の同じ位置から複数の画素データが抽出され、フィルタ処理及び活性化処理が行われる。処理結果は、レイヤ２の特徴画像１２０２の一部の画素データになる。

図２にはさらに、各階層におけるフィルタ処理の種類とフィルタサイズとが示されている。レイヤ１、レイヤ２、及びレイヤ３では、それぞれサイズ３×３、サイズ５×５、及びサイズ７×７のフィルタを用いたフィルタ処理が行われる。このように、階層毎にフィルタ処理に用いるフィルタのサイズが異なっていてもよい。

畳み込みニューラルネットワークの構造を示すネットワーク構造情報は、ＲＡＭ３０８に格納されていてもよい。このネットワーク構造情報は、例えば、階層の数、各階層の特徴画像の数、各階層で行われるフィルタ処理の種類、各階層で行われる活性化処理及びプーリング処理の種類、などを含んでいてもよい。

図４は、ＣＮＮ処理部３０５の機能構成例を示す。本実施形態において、ＣＮＮ処理部３０５は、所定サイズの処理対象ブロック内のデータ配列に対するフィルタ処理を行うことができる。ＣＮＮ処理部３０５は、係数保持部４０３、特徴データ保持部４０５、データ選択部４０８、ゼロ判定部４０９、及び畳み込み処理部４０７を有する。また、後述するように、ＣＮＮ処理部３０５は、制御部４０１、データ保持部４０２、読み出し部４０３、参照範囲設定部４０６、活性化処理部４１０、及び結果保持部４１１を有していてもよい。

データ保持部４０２は、データ保存部３０２の一部のデータを保持する。係数保持部４０３は、フィルタ処理に用いるフィルタの重み係数（フィルタ係数）を保持する。例えば、係数保持部４０５は、データ保持部４０２から取得したフィルタ係数Ｗ_ｘ，ｙ（ｍ，ｎ）を保持することができる。特徴データ保持部４０５は、処理対象ブロック内のデータ配列を保持する。例えば、特徴データ保持部４０５は、特徴画像Ｉ（ｍ）の一部の画素データを保持することができる。このフィルタ係数は、畳み込みニューラルネットワークの重み係数の一部である。

参照範囲設定部４０６は、処理対象ブロックに対応する参照範囲を設定する。参照範囲は、処理対象ブロックの大きさ及びフィルタの大きさに応じて予め定められていてもよい。参照範囲設定部４０６は、１以上の参照範囲を設定することができ、少なくとも１つの参照範囲は、図５（Ｂ）（Ｃ）に示す参照範囲５０４，５０５のように、処理対象ブロックよりも小さい。参照範囲の詳細については後述する。

畳み込み処理部４０７は、処理対象ブロック内の複数の位置のそれぞれにおけるデータとフィルタの重み係数（フィルタ係数）との畳み込み演算結果を生成する。本実施形態において、畳み込み処理部４０７は、入力特徴画像内の処理対象ブロックに対してフィルタを畳み込む畳み込み演算を行うことができ、入力特徴画像に対するフィルタ処理結果を生成することができる。例えば、畳み込み処理部４０７は、式（１）に従って、フィルタ係数と画素データとを用いて畳み込み演算結果を得ることができる。本実施形態において、畳み込み演算部４０７は、制御部４０１からの制御信号に従って、特徴データ保持部４０５に保持されている画素データと、係数保持部４０３に保持されているフィルタ係数とを用いて、畳み込み演算結果を算出する。

畳み込み処理部４０７は、複数の畳み込み処理ユニット４１２を有している。それぞれの畳み込み処理ユニット４１２は、画素データとフィルタ係数との積を累積する積和演算を行うことができる。また、複数の畳み込み処理ユニット４１２は、処理対象ブロック内の複数の位置について、並列に積和演算を行うことができる。畳み込み処理ユニット４１２は、演算コア４１８、特徴データ格納ユニット４１３、係数格納ユニット４１４、及び結果格納ユニット４１７を有している。積和演算に用いられる乗算器４１５及び加算器４１６は演算コア４１８に含まれている。もっとも、一実施形態においては、１つの畳み込み処理ユニット４１２を用いて、処理対象ブロック内の複数の位置のそれぞれについて順次積和演算を行ってもよい。畳み込み処理部４０７による処理の詳細については後述する。

データ選択部４０８は、畳み込み処理部４０７による処理に用いられる画素データを畳み込み処理部４０７に転送する。また、データ選択部４０８は、ゼロ判定部４０９による判定結果に応じて処理対象ブロック内の複数の位置における積和演算の少なくとも一部を行うか否かを制御する。ゼロ判定部４０９は、処理対象ブロックに対応して参照範囲設定部４０６によって設定された、処理対象ブロック内の参照範囲内のデータがゼロ値であるか否かを判定する。データ選択部４０８及びゼロ判定部４０９の制御に従って、畳み込み処理部４０７は、処理対象ブロックに対するフィルタ処理結果を生成するための積和演算の一部を省略することができる。言い換えれば、畳み込み処理部４０７は、畳み込み演算を部分的に行うことで、処理対象ブロックに対するフィルタ処理結果を生成することができる。本実施形態においては、データ選択部４０８が、参照範囲内のデータがゼロ値であると判定した場合、畳み込み処理部４０７は、処理対象ブロック内の複数の位置のそれぞれにおける、データと重み係数との積和演算の少なくとも一部を省略することができる。データ選択部４０８及びゼロ判定部４０９による処理の詳細については後述する。

なお、本明細書におけるゼロ値は、以下の実施形態においてはゼロそのものであるが、畳み込み演算結果に対する影響が小さい、絶対値が所定値以下（例えば１以下）の数であってもよい。また、参照範囲内のデータがゼロ値であるとは、以下の実施形態においては参照範囲内のデータが全てゼロであることを意味する。一方で、参照範囲内のデータがゼロ値であるとは、特許文献１のように、ゼロの数が所定割合以上（例えば８５％以上）であり畳み込み演算結果に対する影響が小さいことを意味していてもよい。

活性化処理部４１０は、フィルタ処理の結果に対してさらに活性化処理を行う。活性化処理部４１０は、例えば式（２）に従って活性化処理結果を計算することができる。もっとも、活性化処理の種類は特に限定されず、活性化処理部４１０は他の非線形の関数又は量子化関数を用いた活性化処理を行ってもよい。また、活性化処理部４１０は、ネットワーク構造情報に応じて、活性化処理の結果に基づいてプーリング処理を行うことにより、出力特徴画像のサイズを調整してもよい。場合により、活性化処理とプーリング処理との両方又は一方を省略してもよい。

結果保持部４１１は、活性化処理部４１０により得られた処理結果を保持する。読み出し部４０３は、特徴データ保持部４０５及び係数保持部４０３にアクセスするためのアドレスを、ゼロ判定部４０９及び畳み込み処理部４０７に転送する。ゼロ判定部４０９及び畳み込み処理部４０７は、このアドレスに従って、特徴データ保持部４０５から画素データを読み出すこと、又は係数保持部４０３からフィルタ係数を読み出すことができる。

なお、これらの処理が専用の処理部によって行われる必要はない。例えば、活性化処理及びプーリング処理がＣＰＵ３０６によって行われてもよい。また、参照範囲設定部４０６、ゼロ判定部４０８、及びデータ選択部４０８のうちの１以上の処理が、ＣＰＵ３０６によって行われてもよい。

図１は、ＣＮＮ処理部３０５が行う情報処理方法のフローチャートの一例である。Ｓ１０１～Ｓ１１７に示される制御処理は、制御部４０１（例えば制御部４０１が有するＣＰＵ又はシーケンサーなど）が行うことができる。以下、図１を参照して、本実施形態における畳み込みニューラルネットワークを用いた処理の各ステップについて説明する。

Ｓ１０１で制御部４０１は、入力特徴画像、フィルタ処理に用いるフィルタ係数、及びネットワーク構造情報をＲＡＭ３０８から読み出し、データ保持部４０２に保持する。図２の例において、入力特徴画像はＲＧＢ＋Ｄ（深度）各プレーンの画像であってもよいし、画像に対してフィルタ処理を行うことにより得られた特徴画像であってもよい。

Ｓ１０２では、階層ごとのループが開始する。Ｓ１０２で制御部４０１は、最初の階層を選択することができる。以下の説明においては、Ｓ１０２で選択された階層のことを前階層、前階層の次の階層のことを次階層と呼ぶ。各階層についてＳ１０３～Ｓ１１６の処理を順番に行うことにより、畳み込みニューラルネットワークを用いた処理の結果を得ることができる。

Ｓ１０３では、ブロックごとのループが開始する。本実施形態では、次階層の各出力特徴画像は、複数の特徴画像ブロックに分割されている。また、１枚の出力特徴画像の特徴画像ブロックの画素データは、前階層の入力特徴画像の対応する特徴画像ブロックの画素データを用いて算出される。例えば、図５（Ａ）の例では、出力特徴画像５０２の特徴画像ブロック５１２の画素データは、複数の入力特徴画像５０１のそれぞれの特徴画像ブロック５０３に対するフィルタ処理により得られる。この例では、出力特徴画像の特徴画像ブロックは重ならずに隣接するが、入力特徴画像の特徴画像ブロックは互いに重なるように整列する。それぞれの特徴画像ブロックは、処理対象ブロックに相当する。

Ｓ１０３では、出力特徴画像の１つの特徴画像ブロック（例えば特徴画像ブロック５１２）が選択される。また、出力特徴画像のこの特徴画像ブロックにおける画素データを算出するために用いられる、入力特徴画像の対応する特徴画像ブロック（例えば特徴画像ブロック５０３）も選択される。Ｓ１０４～Ｓ１１５では、複数の出力特徴画像に共通する１つの特徴画像ブロックが選択され、選択された特徴画像ブロックにおける、各出力特徴画像の画素データが算出される。この際には、選択された特徴画像ブロックにおける、各入力特徴画像の画素データが参照される。各特徴画像ブロックについてＳ１０４～Ｓ１１５の処理を順番に行うことにより、次階層の各出力特徴画像を得ることができる。

Ｓ１０４では、次階層の出力特徴画像ごとのループが開始する。Ｓ１０５～Ｓ１１４では、Ｓ１０３で選択された特徴画像ブロックにおける、１枚の出力特徴画像の画素データが算出される。このように、次階層の複数の出力特徴画像のそれぞれについて、画素データが順番に計算される。

Ｓ１０５で制御部４０１は、畳み込み処理部４０７の結果格納ユニット４１７に保持されている畳み込み演算結果を初期化する。例えば制御部４０１は、畳み込み演算結果をゼロに設定することができる。

Ｓ１０６では、前階層の入力特徴画像ごとのループが開始する。Ｓ１０７～Ｓ１１１では、１枚の入力特徴画像のうち、Ｓ１０３で選択された特徴画像ブロックに対して、フィルタ処理が行われる。Ｓ１０７～Ｓ１１１の処理を順番に行うことにより、各入力特徴画像に対するフィルタ処理が行われる。Ｓ１０７～Ｓ１１１のループは、Ｓ１０４で選択された出力特徴画像を得るために参照される入力特徴画像ごとに行うことができる。

Ｓ１０７で参照範囲設定部４０６は、画素データのゼロ値の参照範囲を設定する。参照範囲設定部４０６による参照範囲の設定方法については後述する。

Ｓ１０８で制御部４０１は、入力特徴画像の一部をデータ保持部４０２から読み出し、特徴データ保持部４０５に転送する。制御部４０１は、Ｓ１０６で選択された入力特徴画像のうち、Ｓ１０３で選択された特徴画像ブロックにおける画素データを、特徴データ保持部４０５に転送することができる。また、制御部４０１は、フィルタ係数の一部をデータ保持部４０２から読み出し、係数保持部４０３に転送する。制御部４０１は、Ｓ１０４で選択された出力特徴画像を得るために、Ｓ１０６で選択された入力特徴画像に対して行うフィルタ処理のためのフィルタ係数を、係数保持部４０３に転送することができる。このように、Ｓ１０８において、制御部４０１は、Ｓ１０９～１１１で行う畳み込み演算で参照される画素データ及びフィルタ係数を、データ保持部４０２から読み出すことができる。

Ｓ１０９でゼロ判定部４０９は、入力特徴画像の参照範囲内の全ての画素データがゼロかどうかを判定する。参照範囲内の全ての画素データがゼロの場合、処理はＳ１１０に進む。そうでない場合、処理はＳ１１１に進む。

Ｓ１１０で畳み込み処理部４０７は、Ｓ１０６で選択された入力特徴画像のうち、Ｓ１０３で選択された特徴画像ブロックに対する畳み込み演算結果を生成する。この畳み込み演算結果は、特徴画像ブロック内の複数の位置のそれぞれについての、画素データとフィルタ係数との積和演算結果によって構成される。Ｓ１１０において、畳み込み処理部４０７は、特徴画像ブロック内の位置について、第１の処理で畳み込み演算結果を取得する。具体的には、Ｓ１１０において畳み込み演算部４０７は、特徴画像ブロック内の複数の位置のそれぞれについての、画素データとフィルタ係数との積和演算の一部を省略することができる。Ｓ１１０の具体的な処理については後述する。

Ｓ１１１で畳み込み処理部４０７は、Ｓ１０６で選択された入力特徴画像のうち、Ｓ１０３で選択された特徴画像ブロックに対する畳み込み演算結果を生成する。Ｓ１１１において畳み込み処理部４０７は、Ｓ１１０とは異なる第２の処理で畳み込み演算結果を取得する。例えば、畳み込み処理部４０７は、特徴画像ブロック内の複数の位置のそれぞれについての、画素データとフィルタ係数との積和演算を、省略せずに行うことができる。

Ｓ１１２で制御部４０１は、入力特徴画像のループの終了判定をする。全ての入力特徴画像についての処理が終わった場合、処理はＳ１１３に進む。そうでない場合、処理はＳ１０７に戻り、次の入力特徴画像についての処理が開始される。

Ｓ１１２からＳ１１３に進む際には、結果格納ユニット４１７には、Ｓ１０６で選択された入力特徴画像に対するフィルタ処理結果が画素毎に累積されている。例えば、結果格納ユニット４１７には、Ｓ１０４で選択された出力特徴画像のうち、Ｓ１０３で選択された特徴画像ブロックの各画素についての、式（１）に従う画素データＯ_ｉ，ｊ（ｎ）が格納されていてもよい。

Ｓ１１３で活性化処理部４１０は、制御部４０１からの制御信号に従って、結果格納ユニット４１７に保持されているフィルタ処理結果に基づいて活性化処理を行う。

Ｓ１１４で制御部４０１は、活性化処理部４１０による処理結果をデータ保持部４０２に格納する。データ保持部４０２に格納された処理結果は、Ｓ１０４で選択された出力特徴画像のうち、Ｓ１０３で選択された特徴画像ブロックの画素データに相当する。このように格納された出力特徴画像の画素データは、次の階層の処理を行う際の入力特徴画像の画素データとして用いられる。

Ｓ１１５で制御部４０１は、出力特徴画像についてのループの終了判定をする。全ての出力特徴画像についての処理が終わった場合、処理はＳ１１６に進む。そうでない場合、処理はＳ１０５に戻り、次の出力特徴画像についての処理が開始される。

Ｓ１１６で制御部４０１は、特徴画像ブロックについてのループの終了判定をする。全て特徴画像ブロックについての処理が終わった場合、処理はＳ１１７に進む。そうでない場合、処理はＳ１０４に戻り、次の特徴画像ブロックについての処理が開始される。

Ｓ１１７で制御部４０１は、階層についてのループの終了判定をする。全ての階層についての処理が終わった場合、図１の処理は終了する。そうでない場合、Ｓ１０３に戻り、次の階層についての処理が開始される。

（本実施形態による処理例）
本実施形態によれば、フィルタ処理における計算量を削減することができるため、フィルタ処理の処理効率を向上させることができる。本実施形態による処理効率の向上について、図５～７を参照して説明する。本実施形態に係る処理装置は、複数枚の特徴画像に含まれる複数の画素データを並列に処理することが可能であるが、以下では、図２に示す４階層の畳み込みニューラルネットワークを用いた処理を行う場合について説明する。図２において、実線のブロックは処理対象を示し、実線の矢印は処理対象に関連する畳み込み演算を示す。

図５（Ａ）は、レイヤ１の特徴画像（入力特徴画像）に対してフィルタ処理を行い、レイヤ２の特徴画像（出力特徴画像）を生成する処理の例を示す。このフィルタ処理では、３×３サイズのフィルタが用いられ、したがってカーネルサイズは３×３である。入力特徴画像５０１は複数個の特徴画像ブロック５０３に分かれており、順番に処理される。入力特徴画像５０１の特徴画像ブロック５０３には、５×５個の画素データが含まれている。また、特徴画像ブロック５０３を用いたフィルタ処理（及び活性化処理等のさらなる処理）により、出力特徴画像５０２の特徴画像ブロック５１２が得られる。特徴画像ブロック５１２には、３×３個の画素データが含まれている。また、図５（Ｂ）（Ｃ）には、ゼロ値の参照範囲の例として、点線に囲まれている５×４の領域である参照範囲５０４と、５×３の領域である参照範囲５０５とが示されている。

図６（Ａ）～（Ｃ）に示す処理例において、ブロック６０１は入力特徴画像の特徴画像ブロックであり、５×５のサイズ及び２５個の画素データを有している。それぞれの画素には、１～２５の異なる番号が付されている。ブロック６０１に対し、３×３フィルタを用いた、縦ストライド１、横ストライド１のフィルタ処理を行うこの処理例においては、９個の３×３カーネル６０２～６１０（カーネル１～カーネル９）が用いられる。カーネル６０２～６１０はそれぞれ、隣接するカーネルとオーバーラップしており、一部の画素データを共有している。図６（Ａ）（Ｃ）において、白色の画素は画素データがゼロ値であることを意味し、ハッチングされた画素は画素データがゼロ値ではないことを意味する。

本実施形態において、９個のカーネル６０２～６１０は、９個の畳み込み処理ユニット４１２で並列処理される。また、それぞれのカーネル６０２～６１０の中の画素データは順番に処理される。また、カーネル６０２～６１０に対しては同じフィルタが適用される。したがって、畳み込み処理ユニット４１２は、それぞれに入力されるデータ（例えばカーネル６０２～６１０の左上の画素データ）と共通の重み係数（例えばフィルタの左上の重み係数）との積和演算を並列に行うことができる。

図６（Ａ）（Ｃ）に示す例のように、参照範囲５０４内の画素データが全てゼロ値である場合、カーネル６０２～６０４の下２ラインと、カーネル６０５～６１０の３ラインの画素データは全てゼロ値となる。言い換えれば、カーネル６０２～６１０について、非ゼロ値が含まれるのは上１ラインのみである。また、カーネル６０２～６１０について、下２ラインはゼロ値を有し、これらの画素データを用いた積和演算はフィルタ処理結果に影響しない。したがって、本実施形態において、９個の畳み込み処理ユニット４１２は、図６（Ｂ）の矢印６１１で示されるように、対応するカーネルの上１ラインの画素データのみを処理する。例えば、畳み込み処理ユニット４１２は、画素１～画素９のそれぞれに、対応するフィルタ係数を乗算して、得られた積を累積する代わりに、画素１～画素３のそれぞれにのみ、対応するフィルタ係数を乗算し、得られた積を累積する。このように、畳み込み処理ユニット４１２は、処理対象ブロック内の複数の位置の全てについて、共通の第１の処理で畳み込み演算結果を取得することができる。このような構成によれば、それぞれの畳み込み処理ユニット４１２は、３回の積和演算を行う一方で、６回の積和演算を省略することができる。

なお、この実施形態では、カーネル６０５～６１０について上１ラインの画素データを用いた処理も行われるが、演算結果はゼロになるため、この処理結果はフィルタ処理結果に影響しない。もっとも、カーネル６０５～６１０について上１ラインの画素データを用いた処理を省略してもよい。この場合、９個の畳み込み処理ユニット４１２のうち、カーネル６０５～６１０を処理する畳み込み処理ユニット４１２を、ブロック６０１に対する演算処理を行わないように制御することができる。

Ｓ１１０における処理は以上のように行うことができる。すなわち、Ｓ１０９において参照領域の画素データが全てゼロだと判定されているため、畳み込み演算は部分的に行われる。すなわち、並列に動作するそれぞれの畳み込み処理ユニット４１２は、各カーネルの３つの画素データと３つのフィルタ係数との積和演算を行い、各カーネルの残りの６つの画素データと６つのフィルタ係数の積和演算は行わない。上記のように、各カーネルの残り６つの画素データはゼロであるため、この画素データを用いた演算を行わなくてもフィルタ処理結果には影響しない。Ｓ１１０においては、フィルタ係数の数（この例では９個）より少ない回数（この例では３回）の積和演算により畳み込み演算結果が取得されている。また、畳み込み処理ユニット４１２は、複数のフィルタ係数のうちの一部のみを用いて、順次データとフィルタ係数との積和演算を行っている。また、畳み込み処理ユニット４１２は、複数の重み係数のそれぞれを用いて、順次データと重み係数との積和演算を行っている。

この際、積和演算に用いられる係数データは、フィルタ係数保持部４０３から畳み込み処理部４０７に供給される。また、積和演算に用いられる画素データは、ゼロ判定部４０９からデータ選択部４０８を介して畳み込み処理部４０７に供給される。ここで、データ選択部４０８は、ゼロ判定部４０９による判定結果に応じて、フィルタ係数保持部４０３から畳み込み処理部４０７への画素データの供給を制御することができる。すなわち、データ選択部４０８は、特定の画素データを用いた積和演算を行い、特定の画素データを用いた積和演算を省略するように、畳み込み処理部４０７を制御することができる。例えば、データ選択部４０８は、積和演算に用いる画素データのみを畳み込み処理部４０７に供給することにより、畳み込み処理部４０７による積和演算を制御してもよい。さらに、ゼロ判定部４０９による判定結果に従い、積和演算に用いるフィルタ係数のみがフィルタ係数保持部４０３から畳み込み処理部４０７へと転送されるように、フィルタ係数の転送が制御されてもよい。

また、図５（Ｃ）に示す参照範囲５０５のように、参照範囲のサイズが５×３であってもよい。参照範囲５０５内の画素データが全てゼロ値である場合、カーネル６０２～６０４の下１ラインと、カーネル６０５～６０７の下２ラインと、カーネル６０８～６１０の３ラインと、の画素データは全てゼロ値となる。したがって、本実施形態において、９個の畳み込み処理ユニット４１２は、対応するカーネルの上２ラインの画素データのみを処理することができる。なお、この実施形態では、カーネル６０５～６０７について中央ラインの画素データを用いた処理、及びカーネル６０８～６１０について上２ラインの画素データを用いた処理も行われる。しかしながら、これらの画素データを用いた演算結果はゼロになるため、この処理結果はフィルタ処理結果に影響しない。

このように、様々なサイズの参照範囲を設定することができる。一方で、上記の説明より、参照範囲が大きいほど計算量削減の効果が大きいことが理解できるだろう。

一方で、図７（Ａ）に示す例のように、参照範囲５０４内の画素データが全てゼロ値であると判定されない場合、９個の畳み込み処理ユニット４１２は、図７（Ｂ）の矢印６１１で示されるように、対応するカーネルの上１ラインの画素データのみを処理する。すなわち、図７（Ｃ）に示されるカーネル７０２～７１０について全ての画素データを用いた演算処理が最後まで行われる。Ｓ１１１における処理はこのように行うことができる。すなわち、畳み込み処理ユニット４１２は、特徴画像ブロック内の複数の位置の全てについて、一部の積和演算を省略する第１の処理とは異なる、共通の第２の処理で畳み込み演算結果を取得することができる。また、Ｓ１１０における第１の処理と、Ｓ１１１における第２の処理とでは、互いに異なる回数の積和演算により畳み込み演算結果が取得されることになる。Ｓ１１１においては、フィルタ係数の数（この例では９個）に等しい回数（この例では９回）の積和演算により畳み込み演算結果が取得されている。

以上のように、本実施形態によれば、参照範囲内の全てのデータがゼロ値かどうかが判定され、判定結果に従って畳み込み演算結果を得るための積和演算の一部が省略される。このため、計算量を削減できるとともに畳み込み演算処理の効率が向上し、処理に要する消費電力及び処理時間を削減することができる。本実施形態においては、フィルタサイズよりも大きい参照範囲についてデータがゼロ値であるかどうかが判定される。言い換えれば、参照範囲についての判定結果に基づいて、複数回の畳み込み演算のそれぞれを制御することができる。このため、計算量の削減が容易となる。

特に本実施形態においては、入力特徴画像のブロックサイズと異なるサイズを有する参照範囲が用いられた。このため、ブロック内の全ての画素データがゼロでなくても、計算量を削減することができる。また、本実施形態の構成によれば、カーネル内のデータが全てゼロ値ではない場合であっても、矢印６１１に示されるように積和演算の一部を省略することにより、計算量を削減するとともに処理を高速化することができる。このような構成は、図４に示されるように、複数の畳み込み処理ユニットが並列して互いに異なるカーネルに対する処理を行う場合に特に有効である。すなわち、それぞれの畳み込みユニットにおいて、ゼロ値を有する画素データの乗算を省略する、又はゼロ値が多いカーネルに対する畳み込み演算を省略する判断を行う場合、それぞれの畳み込み処理ユニットの処理時間が変動する。このため、複数の畳み込み処理ユニットが同期して動作するためにはさらなる回路が必要になる可能性がある。一方で、本実施形態の構成によれば、図６（Ａ）～（Ｃ）を参照して説明したように、複数の畳み込み処理ユニットを同期して動作させながらも、計算量を削減することが可能となる。

また、特許文献１の方法によれば、カーネルに少数の非ゼロ値が存在する場合にも畳み込み演算がスキップされるため、演算精度が下がる可能性がある。一方で、上述した実施形態のように、参照範囲内の全てのデータがゼロ値かどうかを判定し、判定結果に従って畳み込み演算結果を得るための積和演算の一部を省略する構成によれば、フィルタ処理の精度を保つことができる。

［変形例］
上述の実施形態では１つの参照範囲内の画素データがゼロ値であるかどうかが判定されたが、２つ以上の参照範囲が用いられてもよい。例えば、ゼロ判定部４０９は、複数の参照範囲のそれぞれについて、参照範囲内のデータがゼロ値であるか否かを判定してもよい。そして、ゼロ判定部４０９が、特定の参照範囲内のデータがゼロ値であると判定した場合、畳み込み処理部４０７は、特徴画像ブロック内の位置について、特定の参照範囲に対応する回数の積和演算により畳み込み演算結果を取得することができる。

また、上述の実施形態では、参照範囲内の画素データがゼロ値である場合に、入力特徴画像の特徴画像ブロックに対する畳み込み演算結果を得る際に、畳み込み演算を部分的に行った。一方で、入力特徴画像の特徴画像ブロックに対する畳み込み演算結果を得る際に、畳み込み演算を省略してもよい。以下ではこのような場合について説明する。

この場合、図１のＳ１０９の処理の代わりに、図１０に示すように、Ｓ１００１～Ｓ１００２の処理を行うことができる。以下では、図１１（Ａ）（Ｂ）に示すように２つの参照範囲が用いられる場合について説明する。上述の実施形態における参照範囲と同じように、第１の参照範囲１１２１は入力特徴画像の特徴画像ブロック１１０１よりも小さいサイズを有する。また、第２の参照範囲１１２２は入力特徴画像の特徴画像ブロック１１０１のサイズと同じである。第１の参照範囲１１２１は第２の参照範囲１１２２に含まれている。また、この例でも、図６（Ａ）～（Ｃ）と同様に３×３サイズのフィルタを用いたフィルタ処理が行われるものとする。

Ｓ１０８の後に行われるＳ１００１では、ゼロ判定部４０９は入力特徴画像の第１の参照範囲内の全ての画素データがゼロかどうかを判定する。第１の参照範囲内の全ての画素データがゼロの場合、処理はＳ１００２に進む。そうでない場合、処理はＳ１１１に進み、畳み込み演算が行われる。

Ｓ１００２では、ゼロ判定部４０９は入力特徴画像の第２の参照範囲内の全ての画素データがゼロかどうかを判定する。第２の参照範囲内の全ての画素データがゼロの場合、畳み込み演算結果はゼロになるため、処理はＳ１１２に進む。この場合、畳み込み演算は省略される。このように、特徴画像ブロックと同サイズの参照範囲について、参照範囲内のデータがゼロ値であると判定された場合、畳み込み処理部４０７は、積和演算を行わずにゼロ値を畳み込み演算結果として取得する。この場合、第２の参照範囲に対応する積和演算の回数は０回である。

入力特徴画像の第２の参照範囲内の全ての画素データがゼロであると判定されなかった場合、処理はＳ１１０に進む。この場合、第１の参照範囲内の全ての画素データはゼロであると判定されているが、第２の参照範囲内の全ての画素データがゼロであるとは判定されていない。Ｓ１１０では、上述の実施形態と同様に、畳み込み演算を部分的に行うことにより畳み込み演算結果が算出される。この場合には、図６（Ａ）～（Ｃ）と同様に畳み込み演算結果を取得することができる。図６（Ａ）の場合、第１の参照範囲に対応する積和演算の回数は３回である。

図１のフローチャートに従って処理を行う場合、特徴画像ブロック１１０１の全ての画素データがゼロ値であっても、畳み込み演算結果を得るために畳み込み演算が部分的に行われる。一方で、図１０のフローチャートに従って処理を行う場合、特徴画像ブロック１１０１の全ての画素データがゼロ値であれば、処理はＳ１００１からＳ１００２に進む。また、Ｓ１００２で第２の参照範囲内のデータが全てゼロだと判定されるため、畳み込み演算結果を得る際に畳み込み演算が省略される。一方で、図６（Ａ）又は図７（Ａ）に示す特徴画像ブロックを処理する場合には、Ｓ１１０又はＳ１１１で完全な又は部分的な畳み込み演算が行われる。このように、第２の参照範囲内の、すなわち入力特徴画像の特徴画像ブロック内の画素データがゼロ値であるかどうかを判断することにより、フィルタ処理において全ての畳み込み演算を省略し、計算量を削減することが可能になる。一方で、この構成によれば、部分的に畳み込み演算を行うことも可能であるため、計算量をさらに削減することが可能になる。

さらに、入力特徴画像の特徴画像ブロックより小さい複数の参照範囲が用いられてもよい。例えば、図１３（Ａ）～（Ｄ）には、図５（Ａ）と同様に、５×５サイズの特徴画像ブロックに対して３×３サイズのフィルタを用いたフィルタ処理を行う例が示されている。ここで、図１３（Ａ）に示すように、特徴画像ブロック１３０１において５×５サイズの参照範囲１３１２内の画素データが全てゼロ値である場合、フィルタ処理において畳み込み演算を省略することができる。一方で、参照範囲１３１１内の画素データが全てゼロ値であるとは判定されない場合、図１３（Ｂ）に示すように、より小さい参照範囲１３１２を用いることができる。すなわち、特徴画像ブロック１３０２において５×４サイズの参照範囲１３１２内の画素データが全てゼロ値である場合、各カーネルの上１ラインの画素データのみを用いて積和演算を行うことができる。同様に、参照範囲１３１２内の画素データが全てゼロ値であるとは判定されない場合、図１３（Ｂ）に示すように、より小さい参照範囲１３１３を用いることができる。すなわち、特徴画像ブロック１３０３において５×３サイズの参照範囲１３１３内の画素データが全てゼロ値である場合、各カーネルの上２ラインの画素データのみを用いて積和演算を行うことができる。また、参照範囲１３１３内の画素データが全てゼロ値であるとは判定されない場合、各カーネルの全ての画素データを用いて積和演算が行われる。

以上のように、畳み込み演算結果を得るための積和演算の回数は、参照範囲内の画素データが全てゼロ値であるか否かに応じて変更することができる。また、畳み込み演算結果を得るための積和演算の回数は、画素データが全てゼロ値であると判定された参照範囲に応じて変更することができる。さらに、画素データが全てゼロ値であると判定された参照範囲に応じて、各画素データを用いた積和演算の順序が変更されてもよい。

畳み込み演算の処理時間は、図１３（Ａ）の場合には一番短くなり、図１３（Ｂ）の場合はより長く、図１３（Ｃ）の場合はさらに長く、図１３（Ｄ）の場合は最も長くなる。制御部４０１は、特徴画像ブロックが上記のどれに当てはまるのかを判定し、判定結果に基づいて各畳み込み処理ユニット４１２による畳み込み演算の処理時間を判定することができる。この場合、畳み込み処理部４０７は、制御部４０１からの制御信号に基づいて、判定された処理時間に応じたタイミングで、必要な画素データ及びフィルタ係数を取得し、畳み込み演算の結果を得ることができる。複数の参照パターンを用いることで、様々な分布を有する特徴画像に対して、積和演算を省略できる確率を上げることができる。

上記の処理は、特徴画像ブロックのサイズ及びフィルタサイズが異なる場合にも適用可能である。図８（Ａ）は、前階層がレイヤ２（フィルタサイズが５×５）の例を示す。この例では、出力特徴画像の特徴画像ブロックのサイズが３×３になるように、入力特徴画像の特徴画像ブロックのサイズが調整される。具体的には、フィルタサイズがＭ×Ｍで、出力特徴画像の特徴画像ブロックのサイズがＹ×Ｙの場合、入力特徴画像の特徴画像ブロックのサイズは（Ｙ＋Ｍ－１）×（Ｙ＋Ｍ－１）にすることができる。なお、出力特徴画像の特徴画像ブロックのサイズは、畳み込み処理ユニット４１２の数以下となるように設定することができる。この場合、出力特徴画像の特徴画像ブロックの各画素の画素データを、複数の畳み込み処理ユニット４１２により並列に算出することができる。

図８（Ａ）に示すフィルタ処理では、５×５サイズのフィルタが用いられ、したがってカーネルサイズは５×５である。入力特徴画像５０１は複数個の特徴画像ブロック８０１に分かれており、順番に処理される。特徴画像ブロック８０１には、７×７個の画素データが含まれている。また、特徴画像ブロック８０１を用いたフィルタ処理（及び活性化処理等のさらなる処理）により、出力特徴画像５０２の特徴画像ブロック８１２が得られる。特徴画像ブロック８１２には、３×３個の画素データが含まれている。図８（Ｂ）には、７×６サイズの参照範囲８０２が点線に囲まれた領域として示されている。この例において、Ｓ１０９で参照範囲８０２内の画素データが全てゼロ値であると判定される場合には、フィルタ処理において、各カーネルの上１ラインの画素データを用いた積和演算が行われる。なお、参照範囲のサイズは、７×７、７×５、７×４、又は７×３に設定することもできる。

図９（Ａ）は、前階層がレイヤ３（フィルタサイズが７×７）の例を示す。入力特徴画像５０１は複数個の特徴画像ブロック９０１に分かれており、順番に処理される。特徴画像ブロック９０１には、９×９個の画素データが含まれている。また、特徴画像ブロック８０１を用いたフィルタ処理（及び活性化処理等のさらなる処理）により、出力特徴画像５０２の特徴画像ブロック９１２が得られる。特徴画像ブロック９１２には、３×３個の画素データが含まれている。また、図９（Ｂ）には９×８サイズの参照範囲９０２が点線に囲まれた領域として示されている。この例において、Ｓ１０９で参照範囲９０２内の画素データが全てゼロ値であると判定される場合には、フィルタ処理において、各カーネルの上１ラインの画素データを用いた積和演算が行われる。なお、参照範囲のサイズは、９×９、９×７、９×６、９×５、９×４、又は９×３に設定することもできる。

以上の説明により、フィルタのサイズにかかわらず、参照範囲内のデータがゼロ値か否かを判定することで、フィルタ処理において一部の積和演算を省略することが可能になる。

本実施形態において、処理対象ブロックに対応する参照範囲は予め定められていてもよいが、参照範囲設定部４０６が参照範囲を決定してもよい。例えば参照範囲設定部４０６は、処理対象ブロックのサイズとフィルタサイズとに基づいて参照範囲を決定することができる。一例として、参照範囲設定部４０６は、入力特徴画像の特徴画像ブロックのうち上１行を除いた領域を、参照範囲として決定することができる。この参照範囲内のデータがゼロ値である場合、図６（Ａ）～（Ｃ）と同様に、フィルタ処理において、各カーネルの上１行を用いた積和演算を行い、各カーネルの残りの行を用いた積和演算を省略することができる。また、参照範囲設定部４０６は、入力特徴画像の特徴画像ブロックのうち上Ｎ行（フィルタサイズＭ×Ｍの場合、Ｎ＜Ｍ）を除いた領域を、参照範囲として決定することができる。この参照範囲内のデータがゼロ値である場合、フィルタ処理において、各カーネルの上Ｎ行を用いた積和演算を行い、各カーネルの残りの行を用いた積和演算を省略することができる。

本明細書では、参照範囲は特徴画像ブロックの下側に設定された矩形領域であるが、参照範囲の設定方法はこれに限られない。例えば、参照範囲は、入力特徴画像の特徴画像ブロックのうち左１列を除いた領域であってもよい。この参照範囲内のデータがゼロ値である場合、フィルタ処理において、各カーネルの左１列を用いた積和演算を行い、各カーネルの残りの列を用いた積和演算を省略することができる。

また、図５（Ｂ）（Ｃ）を参照して説明したように、参照範囲が大きいほど計算量を大きく削減することができるものの、参照範囲が小さいほど参照範囲内のデータがゼロ値になる可能性が高くなる。そこで、参照範囲設定部４０６は、入力されるデータ配列（特徴画像）に応じて参照範囲を選択してもよい。例えば、参照範囲設定部４０６は、特徴画像におけるゼロ値の出現頻度がより多い場合にはより大きな参照範囲を、より少ない場合にはより小さな参照範囲を設定することができる。このように、参照範囲設定部４０６は、入力されるデータ配列に応じて、処理時間が一番短くなるように、又は削減できる計算量が一番多くなるように、参照範囲を選択してもよい。

上記の実施形態において、ゼロ判定部４０９は、処理対象ブロックの参照範囲内のデータがゼロ値であるかどうかを判定した。一方で、前階層の特徴画像を算出する際に活性化処理後のデータがゼロ値であるかどうかを記録してもよい。この場合、ゼロ判定部４０９は、次階層の特徴画像を算出する際にこの記録に基づいて参照範囲内のデータがゼロ値であるかどうかを判定してもよい。また、ゼロ判定部４０９は、特徴データ保持部４０５又はデータ保持部４０２に処理対象ブロック内のデータ配列が格納されたことに応じて、参照範囲内のデータがゼロ値であるか否かを判定してもよい。例えば、ゼロ判定部４０９は、特徴データ保持部４０５又はデータ保持部４０２に特徴画像が格納された際に、参照範囲内のデータがゼロ値になるかどうかを判定することができる。この判定結果は、処理対象ブロックに対するフィルタ処理を行う際に参照することができる。例えば、ゼロ判定部４０９は、特徴画像におけるゼロ値の位置に基づいて、画素データがゼロ値である領域を計算してもよい。そして、ゼロ判定部４０９は、この領域と参照範囲とを比較することにより、参照範囲内のデータがゼロ値であるかどうかを判定してもよい。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

４０３：係数保持部、４０５：特徴データ保持部、４０６：参照範囲設定部、４０７：畳み込み処理部、４０８：データ選択部、４０９：ゼロ判定部

Claims

所定サイズの処理対象ブロック内のデータ配列に対するフィルタ処理を行う演算装置であって、
前記処理対象ブロック内のデータ配列を保持するデータ保持手段と、
前記フィルタ処理に用いるフィルタの重み係数を保持する係数保持手段と、
前記処理対象ブロックに対応して設定された、前記処理対象ブロック内の参照範囲内のデータがゼロ値であるか否かを判定する判定手段と、
前記処理対象ブロック内の複数の位置のそれぞれにおけるデータと重み係数との畳み込み演算結果を生成する処理手段と、
前記判定手段による判定結果に応じて、前記処理手段が、前記畳み込み演算結果を生成する際に、前記データと前記重み係数との積和演算の少なくとも一部を行うか否かを制御する制御手段と、
を備えることを特徴とする演算装置。
前記判定手段が、前記参照範囲内のデータがゼロ値であると判定した場合、前記処理手段は、前記処理対象ブロック内の複数の位置のそれぞれにおける、前記データと前記重み係数との積和演算の少なくとも一部を省略する
ことを特徴とする、請求項１に記載の演算装置。
１以上の前記参照範囲が設定され、少なくとも１つの前記参照範囲は前記処理対象ブロックよりも小さいことを特徴とする、請求項１又は２に記載の演算装置。
前記判定手段が、前記参照範囲内のデータがゼロ値であると判定した場合、前記処理手段は、前記処理対象ブロック内の位置について、第１の処理で畳み込み演算結果を取得し、
前記判定手段が、前記参照範囲内のデータがゼロ値ではないと判定した場合、前記処理手段は、前記処理対象ブロック内の位置について、第２の処理で畳み込み演算結果を取得する
ことを特徴とする、請求項１から３のいずれか１項に記載の演算装置。
前記判定手段が、前記参照範囲内のデータがゼロ値であると判定した場合、前記処理手段は、前記処理対象ブロック内の複数の位置の全てについて、共通の第１の処理で畳み込み演算結果を取得し、
前記判定手段が、前記参照範囲内のデータがゼロ値ではないと判定した場合、前記処理手段は、前記処理対象ブロック内の複数の位置の全てについて、共通の第２の処理で畳み込み演算結果を取得する
ことを特徴とする、請求項１から４のいずれか１項に記載の演算装置。
前記第１の処理及び前記第２の処理は、互いに異なる回数の積和演算により前記畳み込み演算結果を取得する処理であることを特徴とする、請求項４又は５に記載の演算装置。
前記第１の処理は、前記重み係数の数より少ない回数の積和演算により前記畳み込み演算結果を取得する処理であり、
前記第２の処理は、前記重み係数の数に等しい回数の積和演算により前記畳み込み演算結果を取得する処理である
ことを特徴とする、請求項４から６のいずれか１項に記載の演算装置。
前記判定手段は、複数の参照範囲のそれぞれについて、前記参照範囲内のデータがゼロ値であるか否かを判定し、
前記判定手段が、特定の参照範囲内のデータがゼロ値であると判定した場合、前記処理手段は、前記処理対象ブロック内の位置について、前記特定の参照範囲に対応する回数の積和演算により前記畳み込み演算結果を取得する
ことを特徴とする、請求項１から７のいずれか１項に記載の演算装置。
前記判定手段は、前記処理対象ブロックと同サイズの参照範囲について、前記参照範囲内のデータがゼロ値であるか否かを判定し、
前記判定手段が、前記処理対象ブロックと同サイズの参照範囲内のデータがゼロ値であると判定した場合、前記処理手段は、積和演算を行わずにゼロ値を前記畳み込み演算結果として取得する
ことを特徴とする、請求項８に記載の演算装置。
前記制御手段は、前記判定手段による判定結果に応じて、前記データ保持手段から前記処理手段への前記データの供給を制御することを特徴とする、請求項１から９のいずれか１項に記載の演算装置。
前記処理手段は、複数の積和演算手段を有し、
前記複数の積和演算手段は、前記処理対象ブロック内の複数の位置について、並列に積和演算を行うように構成されていることを特徴とする、請求項１から１０のいずれか１項に記載の演算装置。
前記複数の積和演算手段は、それぞれに入力されるデータと共通の重み係数との積和演算を並列に行うことを特徴とする、請求項１１に記載の演算装置。
前記判定手段が、前記参照範囲内のデータがゼロ値ではないと判定した場合、前記複数の積和演算手段は、複数の重み係数のそれぞれを用いて、順次データと重み係数との積和演算を行い、
前記判定手段が、前記参照範囲内のデータがゼロ値であると判定した場合、前記複数の積和演算手段は、前記複数の重み係数のうちの一部のみを用いて、順次データと重み係数との積和演算を行うことを特徴とする、請求項１２に記載の演算装置。
前記処理対象ブロックのサイズ及び前記フィルタのサイズに基づいて前記参照範囲を設定する設定手段をさらに備えることを特徴とする、請求項１から１３のいずれか１項に記載の演算装置。
前記フィルタ処理の結果に対してさらに活性化処理を行う活性化処理手段をさらに備えることを特徴とする、請求項１から１４のいずれか１項に記載の演算装置。
前記判定手段は、前記データ保持手段に前記処理対象ブロック内のデータ配列が格納されたことに応じて、前記参照範囲内のデータがゼロ値であるか否かを判定することを特徴とする、請求項１から１５のいずれか１項に記載の演算装置。
前記演算装置は、畳み込みニューラルネットワークを用いた処理を行うように構成されており、
前記データ配列は、畳み込みニューラルネットワークを用いて処理される特徴画像であり、
前記重み係数は、畳み込みニューラルネットワークの重み係数の一部であることを特徴とする、請求項１から１６のいずれか１項に記載の演算装置。
所定サイズの処理対象ブロック内のデータ配列に対するフィルタ処理を行う演算装置が行う情報処理方法であって、
前記処理対象ブロックに対応して設定された、前記処理対象ブロック内の参照範囲内のデータがゼロ値であるか否かを判定する工程と、
判定結果に応じて、畳み込み演算結果を生成する際に、前記データと重み係数との積和演算の少なくとも一部を行うか否かを制御する工程と、
前記制御に従って、前記処理対象ブロック内の複数の位置のそれぞれにおける前記データと前記重み係数との畳み込み演算結果を生成する工程と、
を含むことを特徴とする情報処理方法。
所定サイズの処理対象ブロック内のデータ配列に対するフィルタ処理を行うコンピュータに、
前記処理対象ブロックに対応して設定された、前記処理対象ブロック内の参照範囲内のデータがゼロ値であるか否かを判定する工程と、
判定結果に応じて、前記処理対象ブロック内の複数の位置のそれぞれにおける前記データと重み係数との畳み込み演算結果を生成する処理手段に対して、畳み込み演算結果を生成する際に前記データと前記重み係数との積和演算の少なくとも一部を行うか否かを制御する工程と、
を行わせるためのプログラム。