JP2024004400A

JP2024004400A - データ処理装置及びその方法

Info

Publication number: JP2024004400A
Application number: JP2022104051A
Authority: JP
Inventors: ソクイチン; Tsewei Chen; 政美加藤; Masami Kato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-01-16

Abstract

【課題】参照するデータの範囲を拡大してフィルタ処理を行うケースにおいて、該フィルタ処理で用いるフィルタ係数の転送量を削減するための技術を提供すること。【解決手段】転送されたフィルタのフィルタ係数を保持し、該保持されたフィルタ係数を順に読み出して、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成し、該拡大フィルタにおけるフィルタ係数を用いて畳み込み演算を行う。【選択図】図４

Description

本発明は、データに対してフィルタによる処理を実行するデータ処理装置及びその方法に関するものである。

近年、深層学習の進歩により、画像認識の精度が上がっている。畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、深層学習に用いられる手法として知られている。

ＣＮＮでは、複数のレイヤが階層的に接続されており、各レイヤの中には複数枚の特徴画像がある。図２に、レイヤ数が「４」で、各レイヤの中に特徴画像が４枚あるＣＮＮのネットワーク構成の一例を示す。ＣＮＮでは、特徴画像の画素（特徴データ）に対して、学習したフィルタ係数（重み係数）を用いてフィルタ処理の結果を計算する。フィルタ処理は積和演算であり、複数の乗算と累積加算を含んでいる。図２の矢印は積和演算を意味する。

現レイヤの中の特徴画像は前レイヤの中の特徴画像と前レイヤに対応するフィルタ係数を用いて計算する。現レイヤの中の１枚の特徴画像を計算するためには、前レイヤの中の複数枚の特徴画像の情報が必要である。現レイヤの中の特徴画像を求めるための積和演算は以下の式（１）に従って行われる。

ここで、ｎは現レイヤ中の特徴画像のインデックスであり、ｍ（ｍ＝１～Ｍ）は前レイヤ中の特徴画像のインデックスである。Ｏｉ，ｊ（ｎ）は、現レイヤにおけるインデックス＝ｎの特徴画像中の位置（ｉ，ｊ）における特徴データ（積和演算結果）を示す。Ｉｉ，ｊ（ｍ）は、前レイヤにおけるインデックス＝ｍの特徴画像中の位置（ｉ，ｊ）における特徴データを示す。Ｃｘ，ｙ（ｍ，ｎ）は、現レイヤにおけるインデックス＝ｎの特徴画像と前レイヤにおけるインデックス＝ｍの特徴画像中の位置（ｘ、ｙ）の特徴データとの間のフィルタ係数を示す。式（１）では、フィルタ係数（Ｃ０，０（ｍ，ｎ）～ＣＸ－１，Ｙ－１（ｍ，ｎ））は（Ｘ×Ｙ）個あり、特徴画像によって異なる。Ｘ，Ｙは参照範囲を示す変数である。現レイヤの特徴データを計算するための積和演算回数は（Ｍ×Ｘ×Ｙ）回である。

フィルタ処理をした後に、ネットワーク構造に基づき、積和演算結果Ｏｉ，ｊ（ｎ）を用いてバッチノーマライゼーションや活性化処理やプーリング等の処理を行い、現レイヤの特徴画像を計算する。

ＣＮＮは画像分割にも適用されている。非特許文献１に記載の拡張畳み込み処理（ＤｉｌａｔｅｄＣｏｎｖｏｌｕｔｉｏｎ）は、画像分割の精度を向上させるための技術である。拡張畳み込み処理を行う場合、積和演算は以下の式（２）に従って行われる。

ここで、変数Ｄは拡張畳み込み処理の倍率である。変数Ｄが１の場合、式（２）は式（１）と同じ式になる。変数Ｄの値が大きいほど、前レイヤの特徴画像における参照範囲が広い。拡張した後に、参照範囲は（Ｘ×Ｙ）から〔Ｄ×（Ｘ－１）＋１〕×〔Ｄ×（Ｙ－１）＋１〕になる。この演算では、フィルタ係数を飛ばさずに処理するが、特徴画像の特徴データを（Ｄ－１）個おきに処理するため、水平方向または垂直方向の特徴データを飛ばしながら参照する。

ＣＮＮは積和演算の回数が多いため、携帯端末や車載機器等の組み込みシステムに適用する場合、特徴データとフィルタ係数の転送量を削減し、積和演算を効率的に行い、全体的な処理時間を短縮しなければならない。特許文献１では、複数の特徴データを並列に処理する構成が提案されている。

特開２０１８－６７１５４号公報

Ｙ．Ｗｅｉ，ｅｔａｌ．，"ＲｅｖｉｓｉｔｉｎｇＤｉｌａｔｅｄＣｏｎｖｏｌｕｔｉｏｎ：ＡＳｉｍｐｌｅＡｐｐｒｏａｃｈｆｏｒＷｅａｋｌｙ－ａｎｄＳｅｍｉ－ＳｕｐｅｒｖｉｓｅｄＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ，" ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１８．

特許文献１に記載の手法では、複数の異なる特徴データと共通のフィルタ係数を用いて出力データを並列に計算する。しがしながら、非特許文献１に記載の拡張畳み込み処理（ＤｉｌａｔｅｄＣｏｎｖｏｌｕｔｉｏｎ）のような処理をする場合、前レイヤにおける特徴画像の特徴データを飛ばしながら参照することができない。特徴データを保持するためのレジスタを飛ばし先の特徴データを保持するためのレジスタと繋げる必要があるため、制御と配線が複雑になる。また、拡張畳み込み処理のためにフィルタサイズを大きくし、フィルタを拡張する場合、フィルタ係数の転送量が大きくなるという課題がある。

本発明では、参照するデータの範囲を拡大してフィルタ処理を行うケースにおいて、該フィルタ処理で用いるフィルタ係数の転送量を削減するための技術を提供する。

本発明の一様態によれば、データ処理装置に、転送されたフィルタのフィルタ係数を保持する保持手段と、前記保持手段に保持されたフィルタ係数を順に読み出して、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成する生成手段と、前記拡大フィルタにおけるフィルタ係数を用いて畳み込み処理を行う演算手段とを備えることを特徴とする。

本発明によれば、参照するデータの範囲を拡大してフィルタ処理を行うケースにおいて、該フィルタ処理で用いるフィルタ係数の転送量を削減することができる。

データ処理装置によるフィルタ処理のフローチャート。階層型ニューラルネットワーク（ＣＮＮ）の構成例を示す図。データ処理装置のハードウェア構成例を示すブロック図。処理部３０５の構成例を示すブロック図。拡張フィルタにおける有効係数と処理時間の例を示す図。拡張前後のフィルタの例を示す図。処理部３０５の構成例を示すブロック図。階層型ニューラルネットワークにおける畳み込み処理の一例を示す図。ステップＳ１０８における処理の詳細を示すフローチャート。拡張前のフィルタのサイズが３×３で、拡張畳み込み処理の倍率Ｄ＝２の例を示す図。特徴データ保持部４０２、フィルタ係数保持部４０４、畳み込み演算部４０６の詳細な構成例を示すブロック図。畳み込み演算部４０６の構成例を示す図。拡張フィルタにおける有効係数と処理時間の例を示す図。特徴データ保持部４０２、フィルタ係数保持部４０４、畳み込み演算部４０６の詳細な構成例を示すブロック図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
まず、複数のデータに対してフィルタ処理を行うフィルタ処理装置として機能するデータ処理装置のハードウェア構成例について、図３のブロック図を用いて説明する。このようなデータ処理装置には、ＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末装置、などのコンピュータ装置を適用することができる。

入力部３０１は、キーボード、マウス、タッチパネル画面などのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ３０６に対して入力することができる。

保存部３０２は、各種のコンピュータプログラムやデータを保存するためのメモリ装置である。保存部３０２には、例えば、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＣＤ－ＲやＤＶＤ、メモリーカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティック、ｘＤピクチャーカード、ＵＳＢメモリを適用することができる。保存部３０２に保存されているコンピュータプログラムには、データ処理装置が行うものとして後述する各処理をＣＰＵ３０６や処理部３０５に実行もしくは制御させるためのコンピュータプログラムが含まれている。

通信部３０３は、外部の装置との間のデータ通信を行う。例えば通信部３０３は、保存部３０２に保存されているものとして後述する各種の情報を外部の装置から受信して該保存部３０２に保存してもよい。

表示部３０４は、液晶画面やタッチパネル画面を有する表示装置であり、ＣＰＵ３０６や処理部３０５による処理結果を画像や文字などでもって表示することができる。なお、表示部３０４はデータ処理装置が有することに限らず、データ処理装置の外部装置としてもよく、その場合は、表示部３０４は、有線もしくは無線の通信を介してデータ処理装置と通信可能に該データ処理装置に接続される。また、入力部３０１と表示部３０４と一体化させてタッチパネル画面を構成してもよい。

処理部３０５は、ＣＰＵ３０６による制御に従って、ＲＡＭ３０８に格納されているデータに対してフィルタ係数を用いた積和演算を行うことで該データに対するフィルタ処理を行う。そして処理部３０５は、フィルタ処理を行ったデータ（フィルタ処理結果）をＲＡＭ３０８、保存部３０２などのメモリ装置に格納する。

ＣＰＵ３０６は、ＲＡＭ３０８やＲＯＭ３０７に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ３０６は、データ処理装置全体の動作制御を行うとともに、データ処理装置が行うものとして後述する各処理を実行もしくは制御する。なお、図３では、ＣＰＵ３０６の個数を１としているが、ＣＰＵ３０６の個数は２以上であってもよい。

ＲＯＭ３０７には、データ処理装置の起動プログラムや設定データなど、書き換え不要の情報が格納されている。ＲＡＭ３０８は、ＲＯＭ３０７や保存部３０２からロードされたコンピュータプログラムやデータ、通信部３０３が外部の装置から受信したデータ、処理部３０５から出力されたフィルタ処理結果、を格納するためのエリアを有する。さらにＲＡＭ３０８は、ＣＰＵ３０６や処理部３０５が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ３０８は、各種のエリアを適宜提供することができる。なお、ＲＡＭ３０８における一部のエリアを保存部３０２として利用しても良い。

また、データ処理装置が外部の装置からコンピュータプログラムを通信部３０３を介して受信する場合、該コンピュータプログラムを一旦保存部３０２に保存した後でＲＡＭ３０８に読み込むもしくは通信部３０３から直接ＲＡＭ３０８に読み込んで実行する。

画像処理部３０９は、ＣＰＵ３０６による制御に従って、保存部３０２に保存されている画像を読みだして該画像における各画素の画素値のレンジ調整等の画像処理を行い、該画像処理を行った画像（画像処理結果）を保存部３０２やＲＡＭ３０８に出力する。

なお、本実施形態で説明する各種のデータの取得元や出力先は一例であり、本実施形態で説明するデータの取得元や出力先に限定することを意図するものではない。また、図３では、入力部３０１、保存部３０２、表示部３０４が全て１つの装置内に含まれる構成を示しているが、これらの機能部が公知の通信方式による通信路で接続されており、全体としてこのような構成となっているのであっても構わない。このように、図３に示した構成は、以下に説明するフィルタ処理を実施可能な装置に適用可能な構成の一例であり、各種の変形／変更が可能である。

次に、処理部３０５がフィルタ処理で用いる階層型ニューラルネットワーク（ＣＮＮ）の構成例について、図２を用いて説明する。図２に示す階層型ニューラルネットワークは、レイヤ１、レイヤ２、レイヤ３、レイヤ４の４つのレイヤを有し、それぞれのレイヤは４つの特徴画像を有し、それぞれの特徴画像は、複数の特徴データを含む。図２では、レイヤＬ（Ｌ＝１，２，３，４）における特徴画像を「特徴画像（Ｌ，ｉ）」（ｉ＝１，２，３，４）と表記している。ｉは特徴画像のインデックスである。前レイヤにおける特徴画像（入力特徴画像）の特徴データとフィルタ係数（重み係数）との積和演算（フィルタ処理）である畳み込み処理を行うことで、現レイヤにおける特徴画像（出力特徴画像）を生成する。フィルタ処理における積和演算（式（２））で使用するフィルタ係数（重み係数）Ｃを、後述する式（４）の拡大後（拡張後）のフィルタにおけるフィルタ係数Ｃ’に置き換えた積和演算を以下の式（３）に示す。

式（３）において式（１）や式（２）と共通する変数については上記の通りであるから、その説明は省略する。フィルタ係数Ｃ’ｘ，ｙ（ｍ，ｎ）を以下の式（４）に示す。

ｘ，ｙがＤの倍数の場合、フィルタ係数Ｃ’ｘ，ｙ（ｍ，ｎ）の値はフィルタ係数Ｃｘ／Ｄ，ｙ／Ｄ（ｍ，ｎ）と同じであり、有意の値（有効係数）である。一方、ｘ，ｙがＤの倍数ではない場合、フィルタ係数Ｃ’ｘ，ｙ（ｍ，ｎ）の値は０になり、計算が省略されることを意味する。ここで、

は床関数であり、Ｘ以下の最大の整数を出力する。また、図２には、各レイヤに対するＤの値（拡張畳み込み処理の倍率）を示している。拡張前のフィルタのサイズは２×２であり、４個のフィルタ係数を有する。拡張前後のフィルタの例を図６に示す。拡張畳み込み処理の倍率はネットワークの階層毎に異なる。

レイヤ１の拡張畳み込み処理の倍率は１であるので、枠６０１内に示す如く、拡張の前後でフィルタは拡張（拡大）されず、よって、拡張の前後でフィルタ処理（畳み込み処理）は変わらない。

レイヤ２の拡張畳み込み処理の倍率は２であるので、枠６０２内に示す如く、拡張後（拡大後）のフィルタのサイズは３×３になる。拡張前のフィルタにおいて縦横に隣接するフィルタ係数間には（拡大の倍率－１）に相当する個数、すなわち１個の０が係数として挿入される。

レイヤ３の拡張畳み込み処理の倍率は４であるので、枠６０３内に示す如く、拡張後（拡大後）のフィルタのサイズは５×５になり、拡張前のフィルタにおいて縦横に隣接するフィルタ係数間には（倍率－１）＝３個の０が挿入される。

次に、各レイヤにおける特徴画像の生成について説明する。式（３）に基づいてレイヤ１における複数枚の特徴画像とフィルタ係数とを用いた積和演算を行うことで、レイヤ２における複数枚の特徴画像を生成する。次に、式（３）に基づいてレイヤ２における複数枚の特徴画像とフィルタ係数とを用いた積和演算を行うことで、レイヤ３における複数枚の特徴画像を生成する。次に、式（３）に基づいてレイヤ３における複数枚の特徴画像とフィルタ係数とを用いた積和演算を行うことで、レイヤ４における複数枚の特徴画像を生成する。

階層型ニューラルネットワークにおける畳み込み処理の一例を図８に示す。図８に示す如く、レイヤ１の４枚の特徴画像８０１において同じ位置（黒塗りの矩形で示した位置）から特徴データを抽出する。該特徴データとフィルタ係数との積和演算の結果を、次のレイヤ（レイヤ２）の特徴画像８０２において該位置と同じ位置（黒塗りの矩形で示した位置）の特徴データとして求める。

次に、上記の処理部３０５の構成例を、図４のブロック図を用いて説明する。制御部４０１は、処理部３０５全体の動作制御を行う。データ保持部４０８は、特徴画像における特徴データ、それぞれのフィルタに対応するフィルタ係数、階層型ニューラルネットワークの構造に係る情報である構造情報（各レイヤにおける積和演算の計算量、特徴画像のサイズ、枚数等）を保持している。

特徴データ保持部４０２は、データ転送部４０９によってデータ保持部４０８から転送された特徴画像におけるそれぞれの特徴データを保持するためのメモリである。フィルタサイズ拡張部４０３は、データ転送部４０９によってデータ保持部４０８から転送されたフィルタ係数をフィルタ係数保持部４０４に格納する。そしてフィルタ係数拡張部４０３は、該格納したフィルタ係数を「現レイヤに対応する倍率」に従って拡張（拡大）した拡張フィルタ（拡大フィルタ）を生成し、該生成した拡張フィルタ（係数）をフィルタ係数保持部４０４に格納する。

畳み込み演算部４０６は、特徴データ保持部４０２に格納されている特徴画像と、フィルタ係数保持部４０４に格納されている拡張フィルタの係数と、を用いて上記の式（３）に従った演算処理（フィルタ処理）を行う。

ここで、特徴データ保持部４０２、フィルタ係数保持部４０４はシフトレジスタであり、データ保持部４０８はＳＲＡＭであるものとする。

活性化・プーリング処理部４０７は、畳み込み演算部４０６による演算処理の結果に対して活性化・プーリング処理を行い、該活性化・プーリング処理の結果を、現レイヤにおけるフィルタ処理結果である特徴画像として出力する。

特徴データは上記の如く特徴データ保持部４０２に保持され、順番に移動させて出力される。特徴データを特徴データ保持部４０２におけるレジスタに保持する場合、積和演算を式（２）に従って行うと、特徴データを飛ばしながら参照することが困難であるため、本実施形態では、フィルタを拡張した拡張フィルタを用いて式（３）の積和演算を行う。

特徴データ保持部４０２、フィルタ係数保持部４０４、畳み込み演算部４０６の詳細な構成例について、図１１のブロック図を用いて説明する。特徴データ保持部４０２は、特徴画像におけるそれぞれの特徴データを保持するために、複数個の特徴データ格納ユニット１１０４を有する。フィルタ係数保持部４０４は、フィルタにおけるそれぞれのフィルタ係数を保持するために、複数個のフィルタ係数格納ユニット１１０５を有する。特徴データ格納ユニット１１０４は、隣接する特徴データ格納ユニット１１０４に特徴データを転送することができる。従来の拡張畳み込み処理の式（式（２））では、特徴データを飛ばして参照するため、特徴データ格納ユニット１１０４は隣接しない特徴データ格納ユニットに特徴データを転送する必要があり、そのための制御と配線が複雑になる。これに対し、本実施形態では、式（３）に従って拡張畳み込み処理を行うため、特徴データを飛ばして転送する必要がなく、そのための制御と配線が、従来よりもシンプルになる。

畳み込み演算部４０６は、特徴データ保持部４０２およびフィルタ係数保持部４０４からデータを読み出すためのアドレス（それぞれ特徴データ格納ユニット１１０４およびフィルタ係数格納ユニット１１０５を指定する）を設定する。そして畳み込み演算部４０６における乗算器１１０１は、以下の演算を行う。すなわち、特徴データ保持部４０２において設定されたアドレスから読みだされた特徴データと、フィルタ係数保持部４０４において設定されたアドレスから読みだされたフィルタ係数と、を用いて上記の式（３）における乗算演算を行う。畳み込み演算部４０６における加算器１１０２は、乗算器１１０１における乗算結果を用いて上記の式（３）における加算演算を行い、該加算演算の結果を格納ユニット１１０３に格納されている加算演算の結果に累積加算して該格納ユニット１１０３に格納する。

次に、本実施形態に係るデータ処理装置によるフィルタ処理について、図１のフローチャートに従って説明する。ステップＳ１０１では、制御部４０１は、保存部３０２から、「複数枚の画像特徴（入力画像特徴）の特徴データ」、「各フィルタのフィルタ係数」、「構造情報」を読み出して、データ保持部４０８に格納する。

ステップＳ１０２～Ｓ１１３の処理は、階層型ニューラルネットワークにおける各レイヤについて行われる。図２の例では、レイヤ１，２，３，４の順にそれぞれのレイヤについてステップＳ１０２～Ｓ１１３の処理が行われる。

ステップＳ１０３では、制御部４０１は、データ保持部４０８に格納されている構造情報に応じて、拡張畳み込み処理の倍率Ｄを設定する。本実施形態では、同じレイヤの倍率Ｄは同じであるものとするが、同じレイヤでも特徴画像ごとに倍率Ｄを設定しておき、着目特徴画像に適用するフィルタは該着目特徴画像に対して設定されている倍率Ｄに応じて拡大するようにしてもよい。また、特徴画像を複数のグループに分けておき、グループ毎に倍率Ｄを設定しておき、着目特徴画像に適用するフィルタは該着目特徴画像が属するグループに対して設定されている倍率Ｄに応じて拡大するようにしてもよい。

ステップＳ１０４～Ｓ１１２の処理は、現レイヤにおけるそれぞれの特徴画像（出力特徴画像）について行われる。図２の例では、現レイヤ（インデックス＝Ｌのレイヤ）における特徴画像（Ｌ，１）、特徴画像（Ｌ，２）、特徴画像（Ｌ，３）、特徴画像（Ｌ，４）、のそれぞれについて、ステップＳ１０４～Ｓ１１２の処理が行われる。

ステップＳ１０５では、制御部４０１は、畳み込み演算部４０６における格納ユニット１１０３に保持されている畳み込み処理の結果を０に初期化する。ステップＳ１０６～Ｓ１０９の処理は、前レイヤにおけるそれぞれの特徴画像（入力特徴画像）について行われる。

ステップＳ１０７では、データ転送部４０９は、一部の入力特徴画像と一部のフィルタ係数をデータ保持部４０８から読み出す。そして、データ転送部４０９は読み出した一部の入力特徴画像を特徴データ保持部４０２に転送し、一部のフィルタ係数をフィルタ係数保持部４０４に転送し、拡張畳み込み処理の倍率を読み出し部４０５とフィルタサイズ拡張部４０３とに転送する。

ステップＳ１０８では、フィルタサイズ拡張部４０３は、転送されたフィルタ係数をフィルタ係数保持部４０４に格納する。そして、該格納したフィルタ係数を、ステップＳ１０３で設定された倍率に従って拡張した拡張フィルタを生成し、該拡張フィルタのフィルタ係数をフィルタ係数保持部４０４に格納する。また、畳み込み演算部４０６は、特徴データ保持部４０２に転送された入力特徴画像と、フィルタ係数保持部４０４に格納された拡張フィルタのフィルタ係数と、を用いて上記の式（３）に従った畳み込み処理（フィルタ処理）を行う。ステップＳ１０８では、ステップＳ１１４～Ｓ１２０の処理を行う。ステップＳ１０８の詳細については後述する。

ステップＳ１１０に処理が進んだ時点で、前レイヤにおけるすべての入力特徴画像についての畳み込み処理が完了している。ステップＳ１１０では、活性化・プーリング処理部４０７は、前レイヤにおけるすべての入力特徴画像の畳み込み処理の結果に対して、以下の式（５）に従って活性化処理を行う。

ここで、ｆ（）は活性化関数であり、ｘは、畳み込み処理の結果である。この例では、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を用いて活性化関数を実現したが、活性化関数はＲｅＬＵに限らず、他の非線形の関数または量子化関数で実現してもよい。次に、活性化・プーリング処理部４０７は、レイヤの情報に応じて、活性化処理結果に基づいてプーリング処理を行い、必要に応じて出力特徴画像のサイズを調整する。

ステップＳ１１１では、活性化・プーリング処理部４０７は、ステップＳ１１０における処理で生成された出力特徴画像を、次のレイヤにおける出力特徴画像を求めるための入力特徴画像として用いるべく特徴データ保持部４０２に格納する。上記のような処理を行うことで、次のレイヤにおけるそれぞれの特徴画像（出力特徴画像）を生成することができる。

図１のフローチャートに従った処理では、フィルタ係数をフィルタ係数保持部４０４に転送した後に該フィルタ係数を拡張するため、拡張後のフィルタ係数を転送する場合より転送量が少なくて済む、という効果がある。

次に、上記のステップＳ１０８における特徴画像の特徴データと拡張フィルタにおけるフィルタ係数との畳み込み演算処理の詳細（ステップＳ１１４～Ｓ１２０）について説明する。

ステップＳ１１４では、フィルタサイズ拡張部４０３は、データ転送部４０９によりデータ保持部４０８から転送されたフィルタ係数をフィルタ係数保持部４０４に格納する。そして、格納したフィルタ係数を、ステップＳ１０３で設定された倍率Ｄに従って拡張した拡張フィルタを生成する。具体的には、拡張前のフィルタにおけるフィルタ係数Ｃｘ，ｙ（ｍ，ｎ）に基づいて拡張フィルタにおけるフィルタ係数Ｃ’ｘ，ｙ（ｍ，ｎ）を計算する。

ステップＳ１１５では、フィルタサイズ拡張部４０３は、ステップＳ１１４で生成した拡張フィルタのフィルタ係数をフィルタ係数保持部４０４に格納する。ステップＳ１１６～Ｓ１２０の処理は、特徴データとフィルタ係数の組ごとに行われる。

ステップＳ１１７では、畳み込み演算部４０６は、特徴データ保持部４０２およびフィルタ係数保持部４０４からデータを読み出すためのアドレス、つまり、式（４）のｘ、ｙに対応するアドレスを設定する。そして、特徴データとフィルタ係数の読み出される順番を決定する。

ステップＳ１１８では、畳み込み演算部４０６における乗算器１１０１は、特徴データ保持部４０２において設定されたアドレスから特徴データを読み出し、フィルタ係数保持部４０４において設定されたアドレスからフィルタ係数を読み出す。

複数個の特徴データは複数個の特徴データ格納ユニット１１０４に保持されている。特徴データ保持部４０２は、特徴データ格納ユニット１１０４に保持されている特徴データを隣接する特徴データ格納ユニット１１０４に転送することで、特徴データを出力する。

ステップＳ１１９では、畳み込み演算部４０６における乗算器１１０１は、ステップＳ１１８で読み出された特徴データとステップＳ１１８で読み出されたフィルタ係数とを用いて上記の式（３）における乗算演算を行う。畳み込み演算部４０６における加算器１１０２は、乗算器１１０１における乗算結果を用いて上記の式（３）における加算演算を行う。そして、該加算演算の結果を処理結果格納ユニット１１０３に格納されている加算演算の結果に累積加算して該処理結果格納ユニット１１０３に格納する。処理がステップＳ１０９に進んだ時点で処理結果格納ユニット１１０３に格納されている加算演算結果が、１枚の入力特徴画像に対応する畳み込み処理結果であるので、この畳み込み処理結果がステップＳ１１０における処理対象となる。

このように、本実施形態に係るデータ処理装置は、特徴データを一つずつ参照しながら拡張フィルタを効率的に処理することが可能である。図５の枠５０１に、拡張フィルタにおける有効係数（非０のフィルタ係数）と処理時間の例を示す。倍率Ｄ＝２であり、拡張前後のフィルタの例を図６の枠６０２に示す。

時間軸を１ｎｓ－１０ｎｓで表現する。１ｎｓでは、特徴画像における左上の特徴データＩｉ，ｊ（ｍ）とフィルタ係数Ｃ０，０（ｍ、ｎ）との積を計算し、畳み込み処理の累積値の初期値にする。２ｎｓでは、特徴画像における特徴データＩ’ｉ＋１，ｊ（ｍ）とフィルタ係数０との積を計算し、該積を累積値に加算する。３ｎｓでは、特徴画像における右上の特徴データＩ’ｉ＋２，ｊ（ｍ）とフィルタ係数Ｃ１，０（ｍ、ｎ）との積を計算し、該積を累積値に加算する。４ｎｓ－６ｎｓでは、特徴画像における特徴データとフィルタ係数０との積を計算し、該積を累積値に加算する。７ｎｓでは、特徴画像における左下の特徴データＩ’ｉ，ｊ＋２（ｍ）とフィルタ係数Ｃ０，１（ｍ、ｎ）との積を計算し、該積を累積値に加算する。８ｎｓでは、特徴画像における特徴データＩ’ｉ＋１，ｊ＋２（ｍ）とフィルタ係数０との積を計算し、該積を累積値に加算する。９ｎｓでは、特徴画像における右下の特徴データＩ’ｉ＋２，ｊ＋２（ｍ）とフィルタ係数Ｃ’１，１（ｍ、ｎ）との積を計算し、該積を累積値に加算する。１０ｎｓでは、累積値を畳み込み処理結果として出力する。

なお、フィルタ係数が０の場合、特徴データとフィルタ係数０との積を計算し、該積を累積値に加算すると説明したが、演算コスト削減のため、特徴データとフィルタ係数０との積を計算して該積を累積値に加算する処理は省いてもよい。

そしてＣＰＵ３０６は、上記のような階層型ニューラルネットワークにおける最終レイヤ（図２の例ではレイヤ４）からの出力結果に基づいて、画像処理結果を得る。例えば、階層型ニューラルネットワークの入力レイヤ（図２の例ではレイヤ１）に撮像画像（動画像における各フレームの画像や静止画像）を入力して該階層型ニューラルネットワークの上記演算処理を行うことで最終レイヤから出力される出力結果を得たとする。この場合、ＣＰＵ３０６は、該出力結果に基づき、撮像画像に対する画像処理または画像認識を行う。ＣＰＵ３０６により処理された画像処理または画像認識の結果は、ＲＡＭ３０８や保存部３０２等に格納される。

このように、本実施形態によれば、特徴データを１つずつ処理しながら拡張畳み込み処理を行うことができる。また、拡張後のフィルタではなく、拡張前のフィルタの係数を転送するため、フィルタ係数の転送量は増加しない。特に、階層的に多数の畳み込み処理を処理するＣＮＮでは効果がより大きい。

［第２の実施形態］
以下では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。本実施形態に係る処理部３０５の構成例を、図７のブロック図に示す。図７においては、図４に示した機能部と同じ機能部には同じ参照番号を付しており、説明は適宜省略する。

フィルタ係数保持部７０１は、データ転送部４０９によってデータ保持部４０８から読み出されたフィルタ係数を保持するためのメモリである。フィルタサイズ拡張部７０２は、フィルタ係数保持部７０１に格納されているフィルタ係数から、現レイヤに対応する倍率に従って拡張した拡張フィルタを生成して出力する。演算部４０６は、特徴データ保持部４０２に格納されている特徴データと、フィルタサイズ拡張部７０２が出力するフィルタ係数と、を用いて上記の式（３）に従った演算処理（フィルタ処理）を行う。

本実施形態に係るデータ処理装置によるフィルタ処理は、第１の実施形態と以下の点で相違する。ステップＳ１０７では、データ転送部４０９は、データ保持部４０８から入力特徴画像におけるそれぞれの特徴データを読み出して特徴データ保持部４０２に転送する。また、データ転送部４０９は、データ保持部４０８からフィルタ係数を読み出してフィルタ係数保持部７０１に転送する。また、データ転送部４０９は、拡張畳み込み処理の倍率を読み出し部４０５とフィルタサイズ拡張部４０３とに転送する。

本実施形態では、ステップＳ１０８では、図９に示すステップＳ９０１～Ｓ９０７の処理を行う。ステップＳ９０１では、データ転送部４０９により転送された特徴データを特徴データ保持部４０２に格納する。またデータ転送部４０９は、フィルタ係数保持部７０１にフィルタ係数を転送して格納する。ステップＳ９０２～Ｓ９０７の処理は、特徴データとフィルタ係数の組ごとに行われる。

ステップＳ９０３では、畳み込み演算部４０６は、特徴データ保持部４０２およびフィルタ係数保持部７０１からデータを読み出すためのアドレス、つまり、式（４）のｘ、ｙに対応するアドレスを設定する。そして、特徴データとフィルタ係数の読み出される順番を決定する。ここで、畳み込み演算部４０６は、ｘ，ｙが両方とも倍率Ｄの倍数になる場合に限って、該ｘ、ｙに対応するアドレスをフィルタサイズ拡張部７０２に通知する。

ステップＳ９０４では、畳み込み演算部４０６の乗算器１１０１は、特徴データ保持部４０２において設定されたアドレスから特徴データを読み出す。また、拡張部７０２は、畳み込み演算部４０６からアドレスの通知があれば、フィルタ係数保持部７０１において該通知されたアドレスからフィルタ係数を読み出す。

ステップＳ９０５では、フィルタサイズ拡張部７０２は、畳み込み演算部４０６からアドレスの通知があれば、フィルタ係数保持部７０１から読み出したフィルタ係数を出力し、該通知がなければ、フィルタ係数として「０」を出力する。フィルタサイズ拡張部７０２から出力されたフィルタ係数を順に並べて形成されるフィルタが「拡張前のフィルタをＤ倍したサイズの拡張フィルタ」となる。つまり、本実施形態では、フィルタ係数保持部７０１には拡張前のフィルタを保持しておき、フィルタサイズ拡張部７０２は、該拡張前のフィルタ係数から拡張フィルタを生成し、該生成した拡張フィルタにおけるフィルタ係数を出力している。

ステップＳ９０６では、畳み込み演算部４０６における乗算器１１０１は、ステップＳ９０４で読み出された特徴データと、ステップＳ９０５でフィルタサイズ拡張部７０２から出力されたフィルタ係数と、を用いて上記の式（３）における乗算演算を行う。畳み込み演算部４０６における加算器１１０２は、乗算器１１０１における乗算結果を用いて上記の式（３）における加算演算を行い、該加算演算の結果を処理結果格納ユニット１１０３に格納されている加算演算の結果に累積加算する。また、その結果を該処理結果格納ユニット１１０３に格納する。

このように、拡張前のフィルタにおけるフィルタ係数をデータ保持部４０８からフィルタ係数保持部７０１に転送するため、拡張後のフィルタのフィルタ係数を転送する場合より転送量が少ない。また、本実施形態では、第１の実施形態と異なり、フィルタ係数保持部７０１は、拡張後のフィルタにおけるフィルタ係数ではなく、拡張前のフィルタにおけるフィルタ係数を保持するため、第１の実施形態よりも、メモリのサイズが削減される。

本実施形態に係るデータ処理装置では、特徴データを一つずつ参照しながら拡張前のフィルタを効率的に処理することが可能である。図５の枠５０２に、ステップＳ９０５に相当するフィルタ係数と処理時間の例を示す。拡張畳み込み処理の倍率Ｄ＝２であり、拡張前後のフィルタ係数の例を図６の枠６０２に示す。第１の実施形態と同様に、１０ステップ（１０ｎｓ）に分けて処理する。

処理順番は第１の実施形態と同様であるが、拡張前のフィルタ係数を保持するため、２ｎｓｎ、４－６ｎｓ、８ｎｓでは、ｘ，ｙが両方とも倍率Ｄの倍数になるわけではないため、フィルタ係数が０になる。しかし、本実施形態では、０のフィルタ係数をメモリに保持しなくてもよく、拡張畳み込み処理は処理可能である。

第１および第２の実施形態では、特徴データ保持部４０２、フィルタ係数保持部４０４、フィルタ係数保持部７０１、はシフトレジスタであり、データ保持部４０８はＳＲＡＭであると説明した。しかしながら、システムの全体構成に合わせて、シフトレジスタをＳＲＡＭで代用し、ＳＲＡＭをＤＲＡＭ等で代用しても良い。

［第３の実施形態］
第１の実施形態では、活性化・プーリング処理部４０７で活性化処理を実施する形態について説明したが、他の機能部が活性化処理を実行してもよく、例えば、ＣＰＵ３０６が活性化処理を実行してもよい。これは他の処理についても同様で、処理の主体は上記で説明した主体に限らない。

また、図４，７，１１，１２において、メモリとして機能する機能部（保持部や格納ユニットなど）を除く各機能部は、ハードウェアで実装してもよいし、一部若しくは全部をソフトウェア（コンピュータプログラム）で実装してもよい。後者の場合、このコンピュータプログラムは保存部３０２に格納されており、ＣＰＵ３０６や処理部３０５（制御部４０１）が該コンピュータプログラムを実行することで、対応する機能部の機能を実現させることができる。

また、第１の実施形態では、階層型ニューラルネットワークのネットワーク構造に応じて、活性化・プーリング処理を実行する形態について説明したが、場合によっては、活性化・プーリング処理の一方または両方を省略することもある。

また、第１の実施形態では、畳み込み演算部４０６が、乗算器１１０１、加算器１１０２、処理結果格納ユニット１１０３のセットを１セット有しているものとして説明した。しかし、畳み込み演算部４０６は、乗算器１１０１、加算器１１０２、処理結果格納ユニット１１０３のセットを複数セット有していてもよく、その場合、それぞれのセットを並列に動作させることで処理の高速化を図ってもよい。

乗算器１１０１、加算器１１０２、格納ユニット１１０３のセットを４セット有している演算部４０６の構成例を図１２に示す。このような構成によれば、共通のフィルタ係数と複数個の特徴データを並列に処理することで、拡張畳み込み処理の処理効率を高めることができる。

また、第１の実施形態では、拡張前のフィルタのサイズ（フィルタの高さと幅）が２×２の例について説明したが、このサイズに限定するものではなく、任意のサイズで良い。図１０に拡張前のフィルタのサイズ（フィルタの高さと幅）が３×３であり、拡張畳み込み処理の倍率Ｄ＝２の例を示す。拡張後のフィルタのサイズは５×５になる。

また、第１の実施形態では、拡張畳み込み処理の倍率Ｄが１、２、４で、フィルタのサイズが２×２の例について説明したが、これらの数値に限るものではなく、任意の拡張畳み込み処理の倍率と任意のサイズでも良い。

また、第１の実施形態では、図１１に示す複数個の特徴データ格納ユニット１１０４でデータを転送すると説明したが、図１１と異なる構成で処理しも良い。図１４に、高速化のための特徴データ保持部４０２、フィルタ係数保持部４０４、畳み込み演算部４０６の詳細構成を示す。

図１４において、特徴データ保持部４０２は、複数個の特徴データ格納ユニット１４０１で構成されている。また、フィルタ係数保持部４０４は、複数個のフィルタ係数格納ユニット１４０２で構成されている。特徴データ格納ユニット１４０１は、隣接する上下左右の特徴データ格納ユニット１４０１にデータを転送することができるため、フィルタ係数が０の場合、処理を省略することができる。

図１３の枠１３０１に、有効係数情報と処理時間の例を示す。拡張畳み込み処理の倍率Ｄが２であり、拡張前後のフィルタ係数の例を、図６の枠６０２に示す。処理対象となった７つのフィルタ係数はフィルタ係数の処理順番１３０２の通りに読み出される。

時間軸を１ｎｓ－８ｎｓで表現する。１ｎｓでは、左上の特徴データＩ’_ｉ，ｊ（ｍ）とフィルタ係数Ｃ_０，０（ｍ）の積を計算し、畳み込み処理の累積値の初期値にする。２ｎｓでは、特徴データＩ’_{ｉ＋１，ｊ}（ｍ）とフィルタ係数０の積を計算し、積を累積値に加算する。３ｎｓでは、右上の特徴データＩ’_{ｉ＋２，ｊ}（ｍ）とフィルタ係数Ｃ_１，０（ｍ）の積を計算し、積を累積値に加算する。

４ｎｓでは、第１の実施形態と異なり、３ｎｓで処理した特徴データの下にある特徴データＩ’_{ｉ＋２，ｊ＋１}（ｍ）とフィルタ係数０の積を計算し、積を累積値に加算する。

５ｎｓでは、右下の特徴データＩ’_{ｉ＋２，ｊ＋２}（ｍ）とフィルタ係数Ｃ_１，１（ｍ）の積を計算する。６ｎｓでは、特徴データＩ’_{ｉ＋１，ｊ＋２}（ｍ）とフィルタ係数０の積を計算し、積を累積値に加算する。７ｎｓでは、左下の特徴データＩ’_{ｉ＋０，ｊ＋２}（ｍ）とフィルタ係数Ｃ’_０，１（ｍ）の積を計算し、積を累積値に加算する。

８ｎｓでは、累積値を畳み込み処理の結果として出力する。

以上の説明により、特徴データ格納ユニット１４０１は、隣接する上下左右の特徴データ格納ユニット１４０１にデータを転送することができるため、処理時間を第１の実施形態より短くすることができる。

また、上記の各実施形態において使用した数値、演算方法、処理の実行タイミング等は、具体的な説明を行うために一例として挙げたものであり、各実施形態がこれらの一例に限定されることを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

４０１制御部
４０２特徴データ保持部
４０３フィルタサイズ拡張部
４０４フィルタ係数保持部
４０５読み出し部
４０６畳み込み演算部
４０７活性化・プーリング処理部
４０８データ保持部
４０９データ転送部

Claims

転送されたフィルタのフィルタ係数を保持する保持手段と、
前記保持手段に保持されたフィルタ係数を順に読み出して、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成する生成手段と、
前記拡大フィルタにおけるフィルタ係数を用いて畳み込み演算を行う畳み込み演算手段と
を備えることを特徴とするデータ処理装置。
前記生成手段は、前記生成した拡大フィルタのフィルタ係数をメモリに格納することを特徴とする請求項１に記載のデータ処理装置。
前記生成手段は、前記保持手段に保持されたフィルタ係数をメモリに格納し、該メモリに格納したフィルタ係数を用いてフィルタのサイズを拡大した拡大フィルタを生成することを特徴とする請求項１に記載のデータ処理装置。
前記生成手段は、前記保持されたフィルタ係数に係数０を加えて前記拡大フィルタを生成することを特徴とする請求項１ないし３の何れか１項に記載のデータ処理装置。
前記生成手段は、前記保持されたフィルタにおいて縦横に隣接するフィルタ係数間に拡大の倍率に応じた個数の０を係数として挿入した拡大フィルタを生成することを特徴とする請求項４に記載のデータ処理装置。
前記生成手段は、レイヤごとに、該レイヤについて拡大フィルタを生成することを特徴とする請求項１ないし５の何れか１項に記載のデータ処理装置。
前記畳み込み演算手段は、前記レイヤごとに、前記生成手段が該レイヤについて生成した拡大フィルタにおけるフィルタ係数を用いて、該レイヤに対応する畳み込み処理を行うことを特徴とする請求項６に記載のデータ処理装置。
前記生成手段は、前記レイヤに対応する倍率に応じて前記保持されたフィルタのフィルタサイズを拡大した拡大フィルタを生成することを特徴とする請求項６または７に記載のデータ処理装置。
前記生成手段は、畳み込み処理を行うデータに適用するフィルタを、該データに対して設定されている倍率に応じて拡大した拡大フィルタを生成することを特徴とする請求項６または７に記載のデータ処理装置。
前記生成手段は、畳み込み処理を行うデータに適用するフィルタを、該データが属するグループに対して設定されている倍率に応じて拡大した拡大フィルタを生成することを特徴とする請求項６または７に記載のデータ処理装置。
前記レイヤは、階層型ニューラルネットワークにおける各レイヤであり、前記データは該レイヤにおける特徴画像に含まれるそれぞれの特徴データであり、前記フィルタ係数は該レイヤに対応する重み係数であることを特徴とする請求項９または１０に記載のデータ処理装置。
前記畳み込み演算手段は、前記畳み込み演算の結果に対して、活性化処理および／またはプーリング処理を行うことを特徴とする請求項１ないし１１の何れか１項に記載のデータ処理装置。
データ処理装置が行うデータ処理方法であって、
前記データ処理装置の保持手段が、転送されたフィルタのフィルタ係数を保持する保持工程と、
前記データ処理装置の生成手段が、前記保持工程で保持されたフィルタ係数を順に読み出して、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成する生成工程と、
前記データ処理装置の畳み込み演算手段が、前記拡大フィルタにおけるフィルタ係数を用いて畳み込み演算を行う畳み込み演算工程と
を備えることを特徴とするデータ処理方法。
コンピュータを、請求項１ないし１２の何れか１項に記載のデータ処理装置の各手段として機能させるためのコンピュータプログラム。