JP2021144428A

JP2021144428A - データ処理装置、データ処理方法

Info

Publication number: JP2021144428A
Application number: JP2020042183A
Authority: JP
Inventors: ソクイチン; Tsewei Chen; 政美加藤; Masami Kato
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-09-24
Also published as: US20210287070A1

Abstract

【課題】参照するデータの範囲を拡大してフィルタ処理を行うケースにおいて、該フィルタ処理で用いるフィルタ係数の転送量を削減するための技術を提供すること。【解決手段】転送されたフィルタのフィルタ係数を保持し、該保持されたフィルタ係数を順に読み出しながら、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成し、該拡大フィルタにおけるフィルタ係数を用いて畳み込み処理を行う。【選択図】図４

Description

本発明は、フィルタ処理技術に関するものである。

近年、深層学習の進歩により、画像認識の精度が上がっている。畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は、深層学習に用いられる手法として知られている。

ＣＮＮでは、複数のレイヤが階層的に接続されており、各レイヤの中には複数枚の特徴画像がある。図２に、レイヤ数が「４」で、各レイヤの中に特徴画像が４枚あるＣＮＮのネットワーク構成の一例を示す。ＣＮＮでは、特徴画像の画素（特徴データ）に対して、学習したフィルタ係数（重み係数）を用いてフィルタ処理の結果を計算する。フィルタ処理は積和演算であり、複数の乗算と累積加算を含んでいる。図２の矢印は積和演算を意味する。

現レイヤの中の特徴画像は前レイヤの中の特徴画像と前レイヤに対応するフィルタ係数を用いて計算する。現レイヤの中の１枚の特徴画像を計算するためには、前レイヤの中の複数枚の特徴画像の情報が必要である。現レイヤの中の特徴画像を求めるための積和演算は以下の式（１）に従って行われる。

ここで、ｎは現レイヤ中の特徴画像のインデックスであり、ｍ（ｍ＝１〜Ｍ）は前レイヤ中の特徴画像のインデックスである。Ｏ_ｉ，ｊ（ｎ）は、現レイヤにおけるインデックス＝ｎの特徴画像中の位置（ｉ，ｊ）における特徴データ（積和演算結果）を示す。Ｉ_ｉ，ｊ（ｍ）は、前レイヤにおけるインデックス＝ｍの特徴画像中の位置（ｉ，ｊ）における特徴データを示す。Ｃ_ｘ，ｙ（ｍ，ｎ）は、現レイヤにおけるインデックス＝ｎの特徴画像と前レイヤにおけるインデックス＝ｍの特徴画像中の位置（ｘ、ｙ）の特徴データとの間のフィルタ係数を示す。式（１）では、フィルタ係数（Ｃ_０，０（ｍ，ｎ）〜Ｃ_{Ｘ−１，Ｙ−１}（ｍ，ｎ））は（Ｘ×Ｙ）個あり、特徴画像によって異なる。Ｘ，Ｙは参照範囲を示す変数である。現レイヤの特徴データを計算するための積和演算回数は（Ｍ×Ｘ×Ｙ）回である。

フィルタ処理をした後に、ネットワーク構造に基づき、積和演算結果Ｏ_ｉ，ｊ（ｎ）を用いて活性化処理やプーリング等の処理を行い、現レイヤの特徴画像を計算する。

ＣＮＮは画像分割にも適用されている。非特許文献１に記載の拡張畳み込み処理（ＤｉｌａｔｅｄＣｏｎｖｏｌｕｔｉｏｎ）は、画像分割の精度を向上させるための技術である。拡張畳み込み処理を行う場合、積和演算は以下の式（２）に従って行われる。

ここで、変数Ｄは拡張畳み込み処理の倍率である。変数Ｄが１の場合、式（２）は式（１）と同じ式になる。変数Ｄの値が大きいほど、前レイヤの特徴画像における参照範囲が広い。拡張した後に、参照範囲は（Ｘ×Ｙ）から〔Ｄ×（Ｘ−１）＋１〕×〔Ｄ×（Ｙ−１）＋１〕になる。この演算では、フィルタ係数を飛ばさずに処理するが、特徴画像の特徴データを（Ｄ−１）個おきに処理するため、水平方向または垂直方向の特徴データを飛ばしながら参照する。

ＣＮＮは積和演算の回数が多いため、携帯端末や車載機器等の組み込みシステムに適用する場合、特徴データとフィルタ係数の転送量を削減し、積和演算を効率的に行い、全体的な処理時間を短縮しなければならない。特許文献１では、複数の特徴データを並列に処理する構成が提案されている。

特開２０１８−６７１５４号公報

Ｙ．Ｗｅｉ，ｅｔａｌ．，"ＲｅｖｉｓｉｔｉｎｇＤｉｌａｔｅｄＣｏｎｖｏｌｕｔｉｏｎ：ＡＳｉｍｐｌｅＡｐｐｒｏａｃｈｆｏｒＷｅａｋｌｙ− ａｎｄＳｅｍｉ− ＳｕｐｅｒｖｉｓｅｄＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ，" ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１８．

特許文献１に記載の手法では、複数の異なる特徴データと共通のフィルタ係数を用いて出力データを並列に計算する。しがしながら、非特許文献１に記載の拡張畳み込み処理（ＤｉｌａｔｅｄＣｏｎｖｏｌｕｔｉｏｎ）のような処理をする場合、前レイヤにおける特徴画像の特徴データを飛ばしながら参照することができない。特徴データを保持するためのレジスタを飛ばし先の特徴データを保持するためのレジスタと繋げる必要があるため、制御と配線が複雑になる。また、拡張畳み込み処理のためにフィルタサイズを大きくし、フィルタを拡張する場合、フィルタ係数の転送量が大きくなるという課題がある。本発明では、参照するデータの範囲を拡大してフィルタ処理を行うケースにおいて、該フィルタ処理で用いるフィルタ係数の転送量を削減するための技術を提供する。

本発明の一様態は、転送されたフィルタのフィルタ係数を保持する保持手段と、前記保持手段に保持されたフィルタ係数を順に読み出しながら、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成する生成手段と、前記拡大フィルタにおけるフィルタ係数を用いて畳み込み処理を行う演算手段とを備えることを特徴とする。

本発明の構成によれば、参照するデータの範囲を拡大してフィルタ処理を行うケースにおいて、該フィルタ処理で用いるフィルタ係数の転送量を削減することができる。

データ処理装置によるフィルタ処理のフローチャート。階層型ニューラルネットワーク（ＣＮＮ）の構成例を示す図。データ処理装置のハードウェア構成例を示すブロック図。処理部３０５の構成例を示すブロック図。拡張フィルタにおける有効係数と処理時間の例を示す図。拡張前後のフィルタの例を示す図。処理部３０５の構成例を示すブロック図。階層型ニューラルネットワークにおける畳み込み処理の一例を示す図。ステップＳ１０８における処理の詳細を示すフローチャート。拡張前のフィルタのサイズが３×３で、拡張畳み込み処理の倍率Ｄ＝２の例を示す図。保持部４０２、保持部４０４、演算部４０６の詳細な構成例を示すブロック図。演算部４０６の構成例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
まず、複数のデータに対してフィルタ処理を行うフィルタ処理装置として機能するデータ処理装置のハードウェア構成例について、図３のブロック図を用いて説明する。このようなデータ処理装置には、ＰＣ（パーソナルコンピュータ）、スマートフォン、タブレット端末装置、などのコンピュータ装置を適用することができる。

入力部３０１は、キーボード、マウス、タッチパネル画面などのユーザインターフェースであり、ユーザが操作することで各種の指示をＣＰＵ３０６に対して入力することができる。

保存部３０２は、各種のコンピュータプログラムやデータを保存するためのメモリ装置である。保存部３０２には、例えば、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＣＤ−ＲやＤＶＤ、メモリーカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティック、ｘＤピクチャーカード、ＵＳＢメモリを適用することができる。保存部３０２に保存されているコンピュータプログラムには、データ処理装置が行うものとして後述する各処理をＣＰＵ３０６や処理部３０５に実行もしくは制御させるためのコンピュータプログラムが含まれている。

通信部３０３は、外部の装置との間のデータ通信を行う。例えば通信部３０３は、保存部３０２に保存されているものとして後述する各種の情報を外部の装置から受信して該保存部３０２に保存してもよい。

表示部３０４は、液晶画面やタッチパネル画面を有する表示装置であり、ＣＰＵ３０６や処理部３０５による処理結果を画像や文字などでもって表示することができる。なお、表示部３０４はデータ処理装置が有することに限らず、データ処理装置の外部装置としてもよく、その場合は、表示部３０４は、有線もしくは無線の通信を介してデータ処理装置と通信可能に該データ処理装置に接続される。また、入力部３０１と表示部３０４と一体化させてタッチパネル画面を構成してもよい。

処理部３０５は、ＣＰＵ３０６による制御に従って、ＲＡＭ３０８に格納されているデータに対してフィルタ係数を用いた積和演算を行うことで該データに対するフィルタ処理を行う。そして処理部３０５は、フィルタ処理を行ったデータ（フィルタ処理結果）をＲＡＭ３０８、保存部３０２などのメモリ装置に格納する。

ＣＰＵ３０６は、ＲＡＭ３０８やＲＯＭ３０７に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ３０６は、データ処理装置全体の動作制御を行うとともに、データ処理装置が行うものとして後述する各処理を実行もしくは制御する。なお、図３では、ＣＰＵ３０６の個数を１としているが、ＣＰＵ３０６の個数は２以上であってもよい。

ＲＯＭ３０７には、データ処理装置の起動プログラムや設定データなど、書き換え不要の情報が格納されている。ＲＡＭ３０８は、ＲＯＭ３０７や保存部３０２からロードされたコンピュータプログラムやデータ、通信部３０３が外部の装置から受信したデータ、処理部３０５から出力されたフィルタ処理結果、を格納するためのエリアを有する。さらにＲＡＭ３０８は、ＣＰＵ３０６や処理部３０５が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ３０８は、各種のエリアを適宜提供することができる。なお、ＲＡＭ３０８における一部のエリアを保存部３０２として利用しても良い。

また、データ処理装置が外部の装置からコンピュータプログラムを通信部３０３を介して受信する場合、該コンピュータプログラムを一旦保存部３０２に保存した後でＲＡＭ３０８に読み込むもしくは通信部３０３から直接ＲＡＭ３０８に読み込んで実行する。

画像処理部３０９は、ＣＰＵ３０６による制御に従って、保存部３０２に保存されている画像を読みだして該画像における各画素の画素値のレンジ調整等の画像処理を行い、該画像処理を行った画像（画像処理結果）を保存部３０２やＲＡＭ３０８に出力する。

なお、本実施形態で説明する各種のデータの取得元や出力先は一例であり、本実施形態で説明するデータの取得元や出力先に限定することを意図するものではない。また、図３では、入力部３０１、保存部３０２、表示部３０４が全て１つの装置内に含まれる構成を示しているが、これらの機能部が公知の通信方式による通信路で接続されており、全体としてこのような構成となっているのであっても構わない。このように、図３に示した構成は、以下に説明するフィルタ処理を実施可能な装置に適用可能な構成の一例であり、各種の変形／変更が可能である。

次に、処理部３０５がフィルタ処理で用いる階層型ニューラルネットワーク（ＣＮＮ）の構成例について、図２を用いて説明する。図２に示す階層型ニューラルネットワークは、レイヤ１、レイヤ２、レイヤ３、レイヤ４の４つのレイヤを有し、それそれのレイヤは４つの特徴画像を有し、それぞれの特徴画像は、複数の特徴データを含む。図２では、レイヤＬ（Ｌ＝１，２，３，４）における特徴画像を「特徴画像（Ｌ，ｉ）」（ｉ＝１，２，３，４）と表記している。ｉは特徴画像のインデックスである。前レイヤにおける特徴画像（入力特徴画像）の特徴データとフィルタ係数（重み係数）との積和演算（フィルタ処理）である畳み込み処理を行うことで、現レイヤにおける特徴画像（出力特徴画像）を生成する。フィルタ処理における積和演算（式（２））で使用するフィルタ係数（重み係数）Ｃを、後述する式（４）の拡大後（拡張後）のフィルタにおけるフィルタ係数Ｃ’に置き換えた積和演算を以下の式（３）に示す。

式（３）において式（１）や式（２）と共通する変数については上記の通りであるから、その説明は省略する。フィルタ係数Ｃ’_ｘ，ｙ（ｍ，ｎ）を以下の式（４）に示す。

ｘ，ｙがＤの倍数の場合、フィルタ係数Ｃ’_ｘ，ｙ（ｍ，ｎ）の値はフィルタ係数Ｃ_{ｘ／Ｄ，ｙ／Ｄ}（ｍ，ｎ）と同じであり、有意の値（有効係数）である。一方、ｘ，ｙがＤの倍数ではない場合、フィルタ係数Ｃ’_ｘ，ｙ（ｍ，ｎ）の値は０になり、計算が省略されることを意味する。ここで、

は床関数であり、Ｘ以下の最大の整数を出力する。また、図２には、各レイヤに対するＤの値（拡張畳み込み処理の倍率）を示している。拡張前のフィルタのサイズは２×２であり、４個のフィルタ係数を有する。拡張前後のフィルタの例を図６に示す。拡張畳み込み処理の倍率はネットワークの階層毎に異なる。

レイヤ１の拡張畳み込み処理の倍率は１であるので、枠６０１内に示す如く、拡張の前後でフィルタは拡張（拡大）されず、よって、拡張の前後でフィルタ処理（畳み込み処理）は変わらない。

レイヤ２の拡張畳み込み処理の倍率は２であるので、枠６０２内に示す如く、拡張後（拡大後）のフィルタのサイズは３×３になり、拡張前のフィルタにおいて縦横に隣接するフィルタ係数間には（倍率−１）＝１個の０が挿入される。

レイヤ３の拡張畳み込み処理の倍率は４であるので、枠６０３内に示す如く、拡張後（拡大後）のフィルタのサイズは５×５になり、拡張前のフィルタにおいて縦横に隣接するフィルタ係数間には（倍率−１）＝３個の０が挿入される。

次に、各レイヤにおける特徴画像の生成について説明する。式（３）に基づいてレイヤ１における複数枚の特徴画像とフィルタ係数とを用いた積和演算を行うことで、レイヤ２における複数枚の特徴画像を生成する。次に、式（３）に基づいてレイヤ２における複数枚の特徴画像とフィルタ係数とを用いた積和演算を行うことで、レイヤ３における複数枚の特徴画像を生成する。次に、式（３）に基づいてレイヤ３における複数枚の特徴画像とフィルタ係数とを用いた積和演算を行うことで、レイヤ４における複数枚の特徴画像を生成する。

階層型ニューラルネットワークにおける畳み込み処理の一例を図８に示す。図８に示す如く、レイヤ１の４枚の特徴画像８０１において同じ位置（黒塗りの矩形で示した位置）から特徴データを抽出し、該特徴データとフィルタ係数との積和演算の結果を、次のレイヤ（レイヤ２）の特徴画像８０２において該位置と同じ位置（黒塗りの矩形で示した位置）の特徴データとして求める。

次に、上記の処理部３０５の構成例を、図４のブロック図を用いて説明する。制御部４０１は、処理部３０５全体の動作制御を行う。保持部４０８は、特徴画像における特徴データ、それぞれのフィルタに対応するフィルタ係数、階層型ニューラルネットワークの構造に係る情報である構造情報（各レイヤにおける積和演算の計算量、特徴画像のサイズ、枚数等）を保持している。

保持部４０２は、制御部４０１による制御に従って保持部４０８から読みだされた特徴画像におけるそれぞれの特徴データを保持するためのメモリである。拡張部４０３は、制御部４０１による制御に従って保持部４０８から転送されたフィルタを保持部４０４に格納する。そして拡張部４０３は、該格納したフィルタを「現レイヤに対応する倍率」に従って拡張（拡大）した拡張フィルタ（拡大フィルタ）を生成し、該生成した拡張フィルタを保持部４０４に格納する。

演算部４０６は、保持部４０２に格納されている特徴画像と、保持部４０４に格納されている拡張フィルタと、を用いて上記の式（３）に従った演算処理（フィルタ処理）を行う。

処理部４０７は、演算部４０６による演算処理の結果に対して活性化・プーリング処理を行い、該活性化・プーリング処理の結果を、現レイヤにおける特徴画像として出力する。

特徴データは上記の如く保持部４０２に保持され、順番に移動させて出力される。特徴データを保持部４０２におけるレジスタに保持する場合、積和演算を式（２）に従って行うと、特徴データを飛ばしながら参照することが困難であるため、本実施形態では、フィルタを拡張した拡張フィルタを用いて式（３）の積和演算を行う。

保持部４０２、保持部４０４、演算部４０６の詳細な構成例について、図１１のブロック図を用いて説明する。保持部４０２は、特徴画像におけるそれぞれの特徴データを保持するために、複数個の格納ユニット１１０４を有する。保持部４０４は、フィルタにおけるそれぞれのフィルタ係数を保持するために、複数個の格納ユニット１１０５を有する。格納ユニット１１０４は、隣接する格納ユニット１１０４に特徴データを転送することができる。従来の拡張畳み込み処理の式（式（２））では、特徴データを飛ばして参照するため、格納ユニット１１０４は隣接しない格納ユニットに特徴データを転送する必要があり、そのための制御と配線が複雑になる。これに対し、本実施形態では、式（３）に従って拡張畳み込み処理を行うため、特徴データを飛ばして転送する必要がなく、そのための制御と配線が、従来よりもシンプルになる。

演算部４０６は、保持部４０２および保持部４０４からデータを読み出すためのアドレス（それぞれ格納ユニット１１０４および格納ユニット１１０５）を設定する。そして演算部４０６における乗算器１１０１は、保持部４０２において設定されたアドレスから読みだされた特徴データと、保持部４０４において設定されたアドレスから読みだされたフィルタ係数と、を用いて上記の式（３）における乗算演算を行う。演算部４０６における加算器１１０２は、乗算器１１０１における乗算結果を用いて上記の式（３）における加算演算を行い、該加算演算の結果を格納ユニット１１０３に格納されている加算演算の結果に累積加算して該格納ユニット１１０３に格納する。

次に、本実施形態に係るデータ処理装置によるフィルタ処理について、図１のフローチャートに従って説明する。ステップＳ１０１では、制御部４０１は、保存部３０２から、「複数枚の画像特徴（入力画像特徴）の特徴データ」、「各フィルタのフィルタ係数」、「構造情報」を読み出して、保持部４０８に格納する。

ステップＳ１０２〜Ｓ１１３の処理は、階層型ニューラルネットワークにおける各レイヤについて行われる。図２の例では、レイヤ１，２，３，４の順にそれぞれのレイヤについてステップＳ１０２〜Ｓ１１３の処理が行われる。

ステップＳ１０３では、制御部４０１は、保持部４０８に格納されている構造情報に応じて、拡張畳み込み処理の倍率Ｄを設定する。本実施形態では、同じレイヤの倍率Ｄは同じであるものとするが、同じレイヤでも特徴画像ごとに倍率Ｄを設定しておき、着目特徴画像に適用するフィルタは該着目特徴画像に対して設定されている倍率Ｄに応じて拡大するようにしてもよい。また、特徴画像を複数のグループに分けておき、グループ毎に倍率Ｄを設定しておき、着目特徴画像に適用するフィルタは該着目特徴画像が属するグループに対して設定されている倍率Ｄに応じて拡大するようにしてもよい。

ステップＳ１０４〜Ｓ１１２の処理は、現レイヤにおけるそれぞれの特徴画像（出力特徴画像）について行われる。図２の例では、現レイヤ（インデックス＝Ｌのレイヤ）における特徴画像（Ｌ，１）、特徴画像（Ｌ，２）、特徴画像（Ｌ，３）、特徴画像（Ｌ，４）、のそれぞれについて、ステップＳ１０４〜Ｓ１１２の処理が行われる。

ステップＳ１０５では、制御部４０１は、演算部４０６における格納ユニット１１０３に保持されている畳み込み処理の結果を０に初期化する。ステップＳ１０６〜Ｓ１０９の処理は、前レイヤにおけるそれぞれの特徴画像（入力特徴画像）について行われる。

ステップＳ１０７では、制御部４０１は、保持部４０８から入力特徴画像におけるそれぞれの特徴データを読み出して保持部４０２に転送する。また、制御部４０１は、保持部４０８からフィルタにおけるそれぞれのフィルタ係数を読み出して拡張部４０３に転送する。

ステップＳ１０８では、拡張部４０３は、転送されたフィルタを保持部４０４に格納し、該格納したフィルタを、ステップＳ１０３で設定された倍率に従って拡張した拡張フィルタを生成し、該拡張フィルタを保持部４０４に格納する。そして、演算部４０６は、保持部４０２に転送された入力特徴画像と、保持部４０４に格納された拡張フィルタと、を用いて上記の式（３）に従った畳み込み処理（フィルタ処理）を行う。ステップＳ１０８では、ステップＳ１１４〜Ｓ１２０の処理を行う。ステップＳ１０８の詳細については後述する。

ステップＳ１１０に処理が進んだ時点で、前レイヤにおけるすべての入力特徴画像についての畳み込み処理が完了している。ステップＳ１１０では、処理部４０７は、前レイヤにおけるすべての入力特徴画像の畳み込み処理の結果に対して、以下の式（５）に従って活性化処理を行う。

ここで、ｆ（）は活性化関数であり、ｘは、畳み込み処理の結果である。この例では、ReLU（Rectified Linear Unit）を用いて活性化関数を実現したが、活性化関数はReLUに限らず、他の非線形の関数または量子化関数で実現してもよい。次に、処理部４０７は、レイヤの情報に応じて、活性化処理結果に基づいてプーリング処理を行い、必要に応じて出力特徴画像のサイズを調整する。

ステップＳ１１１では、処理部４０７は、ステップＳ１１０における処理で生成された出力特徴画像を、次のレイヤにおける出力特徴画像を求めるために入力特徴画像として用いるべく保持部４０２に格納する。上記のような処理を行うことで、次のレイヤにおけるそれぞれの特徴画像（出力特徴画像）を生成することができる。

図１のフローチャートに従った処理では、フィルタを保持部４０４に転送した後に該フィルタを拡張するため、拡張後のフィルタを転送する場合より転送時間が短くすむ、という効果がある。

次に、上記のステップＳ１０８における特徴画像の特徴データと拡張フィルタにおけるフィルタ係数との畳み込み演算処理の詳細（ステップＳ１１４〜Ｓ１２０）について説明する。

ステップＳ１１４では、拡張部４０３は、保持部４０８から転送されたフィルタを保持部４０４に格納し、該格納したフィルタを、ステップＳ１０３で設定された倍率Ｄに従って拡張した拡張フィルタを生成する。具体的には、拡張前のフィルタにおけるフィルタ係数Ｃ_ｘ，ｙ（ｍ，ｎ）に基づいて拡張フィルタにおけるフィルタ係数Ｃ’_ｘ，ｙ（ｍ，ｎ）を計算する。

ステップＳ１１５では、拡張部４０３は、ステップＳ１１４で生成した拡張フィルタを保持部４０４に格納する。ステップＳ１１６〜Ｓ１２０の処理は、特徴データとフィルタ係数の組ごとに行われる。

ステップＳ１１７では、演算部４０６は、保持部４０２および保持部４０４からデータを読み出すためのアドレス、つまり、式（４）のｘ、ｙに対応するアドレスを設定して、特徴データとフィルタ係数の読み出される順番を決定する。

ステップＳ１１８では、演算部４０６における乗算器１１０１は、保持部４０２において設定されたアドレスから特徴データを読み出し、保持部４０４において設定されたアドレスからフィルタ係数を読み出す。

複数個の特徴データは複数個の格納ユニット１１０４に保持されている。保持部４０２は、格納ユニット１１０４に保持されている特徴データを隣接する格納ユニット１１０４に転送することで、特徴データを出力する。

ステップＳ１１９では、演算部４０６における乗算器１１０１は、ステップＳ１１８で読みだされた特徴データとステップＳ１１８で読みだされたフィルタ係数とを用いて上記の式（３）における乗算演算を行う。演算部４０６における加算器１１０２は、乗算器１１０１における乗算結果を用いて上記の式（３）における加算演算を行い、該加算演算の結果を格納ユニット１１０３に格納されている加算演算の結果に累積加算して該格納ユニット１１０３に格納する。処理がステップＳ１０９に進んだ時点で格納ユニット１１０３に格納されている加算演算結果が、１枚の入力特徴画像に対応する畳み込み処理結果であるので、この畳み込み処理結果がステップＳ１１０における処理対象となる。

このように、本実施形態に係るデータ処理装置は、特徴データを一つずつ参照しながら拡張フィルタを効率的に処理することが可能である。図５の枠５０１に、拡張フィルタにおける有効係数（非０のフィルタ係数）と処理時間の例を示す。倍率Ｄ＝２であり、拡張前後のフィルタの例を図６の枠６０２に示す。

時間軸を１ｎｓ−１０ｎｓで表現する。１ｎｓでは、特徴画像における左上の特徴データＩ_ｉ，ｊ（ｍ）とフィルタ係数Ｃ_０，０（ｍ、ｎ）との積を計算し、畳み込み処理の累積値の初期値にする。２ｎｓでは、特徴画像における特徴データＩ’_{ｉ＋１，ｊ}（ｍ）とフィルタ係数０との積を計算し、該積を累積値に加算する。３ｎｓでは、特徴画像における右上の特徴データＩ’_{ｉ＋２，ｊ}（ｍ）とフィルタ係数Ｃ_１，０（ｍ、ｎ）との積を計算し、該積を累積値に加算する。４ｎｓ−６ｎｓでは、特徴画像における特徴データとフィルタ係数０との積を計算し、該積を累積値に加算する。７ｎｓでは、特徴画像における左下の特徴データＩ’_{ｉ，ｊ＋２}（ｍ）とフィルタ係数Ｃ_０，１（ｍ、ｎ）との積を計算し、該積を累積値に加算する。８ｎｓでは、特徴画像における特徴データＩ’_{ｉ＋１，ｊ＋２}（ｍ）とフィルタ係数０との積を計算し、該積を累積値に加算する。９ｎｓでは、特徴画像における右下の特徴データＩ’_{ｉ＋２，ｊ＋２}（ｍ）とフィルタ係数Ｃ’_１，１（ｍ、ｎ）との積を計算し、該積を累積値に加算する。１０ｎｓでは、累積値を畳み込み処理結果として出力する。

なお、フィルタ係数が０の場合、特徴データとフィルタ係数０との積を計算し、該積を累積値に加算すると説明したが、演算コスト削減のため、特徴データとフィルタ係数０との積を計算して該積を累積値に加算する処理は省いてもよい。

そしてＣＰＵ３０６は、上記のような階層型ニューラルネットワークにおける最終レイヤ（図２の例ではレイヤ４）からの出力結果に基づいて、画像処理結果を得る。例えば、階層型ニューラルネットワークの入力レイヤ（図２の例ではレイヤ１）に撮像画像（動画像における各フレームの画像や静止画像）を入力して該階層型ニューラルネットワークの上記演算処理を行うことで最終レイヤから出力される出力結果を得たとする。この場合、ＣＰＵ３０６は、該出力結果に基づき、撮像画像に対する画像処理または画像認識を行う。ＣＰＵ３０６により処理された画像処理または画像認識の結果は、ＲＡＭ３０８や保存部３０２等に格納される。

このように、本実施形態によれば、特徴データを１ずつ処理しながら拡張畳み込み処理を行うことができる。また、拡張後のフィルタではなく、拡張前のフィルタを転送するため、フィルタの転送量は増加しない。特に、階層的に多数の畳み込み処理を処理するＣＮＮでは効果がより大きい。

［第２の実施形態］
以下では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。本実施形態に係る処理部３０５の構成例を、図７のブロック図に示す。図７において図４に示した機能部と同じ機能部には同じ参照番号を付しており、説明は適宜省略する。

保持部７０１は、制御部４０１による制御に従って保持部４０８から読みだされたフィルタを保持するためのメモリである。拡張部７０２は、保持部７０１に格納されているフィルタから、現レイヤに対応する倍率に従って拡張した拡張フィルタを生成して出力する。演算部４０６は、保持部４０２に格納されている特徴データと、拡張部７０２が出力するフィルタ係数と、を用いて上記の式（３）に従った演算処理（フィルタ処理）を行う。

本実施形態に係るデータ処理装置によるフィルタ処理は、第１の実施形態と以下の点で相違する。ステップＳ１０７では、制御部４０１は、保持部４０８から入力特徴画像におけるそれぞれの特徴データを読み出して保持部４０２に転送する。また、制御部４０１は、保持部４０８からフィルタを読み出して保持部７０１に転送する。

本実施形態では、ステップＳ１０８では、図９に示すステップＳ９０１〜Ｓ９０７の処理を行う。ステップＳ９０１では、制御部４０１は、保持部４０２に転送した特徴データを保持部４０２に格納する。また制御部４０１は、保持部７０１に転送したフィルタを保持部７０１に格納する。ステップＳ９０２〜Ｓ９０７の処理は、特徴データとフィルタ係数の組ごとに行われる。

ステップＳ９０３では、演算部４０６は、保持部４０２および保持部７０１からデータを読み出すためのアドレス、つまり、式（４）のｘ、ｙに対応するアドレスを設定して、特徴データとフィルタ係数の読み出される順番を決定する。ここで、演算部４０６は、ｘ，ｙが両方とも倍率Ｄの倍数になる場合に限って、該ｘ、ｙに対応するアドレスを拡張部７０２に通知する。

ステップＳ９０４では、演算部４０６の乗算器１１０１は、保持部４０２において設定されたアドレスから特徴データを読み出す。また、拡張部７０２は、演算部４０６からアドレスの通知があれば、保持部７０１において該通知されたアドレスからフィルタ係数を読み出す。

ステップＳ９０５では、拡張部７０２は、演算部４０６からアドレスの通知があれば、保持部７０１から読みだしたフィルタ係数を出力し、該通知がなければ、フィルタ係数として「０」を出力する。拡張部７０２から出力されたフィルタ係数を順に並べて形成されるフィルタが「拡張前のフィルタをＤ倍したサイズの拡張フィルタ」となる。つまり、本実施形態では、保持部７０１には拡張前のフィルタを保持しておき、拡張部７０２は、該拡張前のフィルタから拡張フィルタを生成し、該生成した拡張フィルタにおけるフィルタ係数を出力している。

ステップＳ９０６では、演算部４０６における乗算器１１０１は、ステップＳ９０４で読みだされた特徴データと、ステップＳ９０５で拡張部７０２から出力されたフィルタ係数と、を用いて上記の式（３）における乗算演算を行う。演算部４０６における加算器１１０２は、乗算器１１０１における乗算結果を用いて上記の式（３）における加算演算を行い、該加算演算の結果を格納ユニット１１０３に格納されている加算演算の結果に累積加算して該格納ユニット１１０３に格納する。

このように、拡張前のフィルタにおけるフィルタ係数を保持部４０８から保持部７０１に転送するため、拡張後のフィルタのフィルタ係数を転送する場合より転送時間が短い。また、本実施形態では、第１の実施形態と異なり、保持部７０１は拡張後のフィルタにおけるフィルタ係数ではなく、拡張前のフィルタにおけるフィルタ係数を保持するため、第１の実施形態よりも、メモリのサイズが削減される。

本実施形態に係るデータ処理装置では、特徴データを一つずつ参照しながら拡張前のフィルタを効率的に処理することが可能である。図５の枠５０２にステップＳ９０５に相当するフィルタ係数と処理時間の例を示す。拡張畳み込み処理の倍率Ｄ＝２であり、拡張前後のフィルタ係数の例を図６の枠６０２に示す。第１の実施形態と同様に、１０ステップ（１０ｎｓ）に分けて処理する。

処理順番は第１の実施形態と同様であるが、拡張前のフィルタ係数を保持するため、２ｎｓｎ、４−６ｎｓ、８ｎｓでは、ｘ，ｙが両方とも倍率Ｄの倍数になるわけではないため、フィルタ係数が０になる。しかし、本実施形態では、０のフィルタ係数をメモリに保持しなくてもよく、拡張畳み込み処理は処理可能である。

［第３の実施形態］
第１の実施形態では、処理部４０７で活性化処理を実施する形態について説明したが、他の機能部が活性化処理を実行してもよく、例えば、ＣＰＵ３０６が活性化処理を実行してもよい。これはほかの処理についても同様で、処理の主体は上記で説明した主体に限らない。

また、図４，７，１１，１２において、メモリとして機能する機能部（保持部や格納ユニットなど）を除く各機能部はハードウェアで実装してもよいし、一部若しくは全部をソフトウェア（コンピュータプログラム）で実装してもよい。後者の場合、このコンピュータプログラムは保存部３０２に格納されており、ＣＰＵ３０６や処理部３０５（制御部４０１）が該コンピュータプログラムを実行することで、対応する機能部の機能を実現させることができる。

また、第１の実施形態では、階層型ニューラルネットワークのネットワーク構造に応じて、活性化・プーリング処理を実行する形態について説明したが、場合によっては、活性化・プーリング処理の両方または一方を省略することもある。

また、第１の実施形態では、演算部４０６が乗算器１１０１、加算器１１０２、格納ユニット１１０３のセットを１セット有しているものとして説明した。しかし、演算部４０６は、乗算器１１０１、加算器１１０２、格納ユニット１１０３のセットを複数セット有してもよく、その場合、それぞれのセットを並列に動作させることで処理の高速化を図ってもよい。

乗算器１１０１、加算器１１０２、格納ユニット１１０３のセットを４セット有している演算部４０６の構成例を図１２に示す。このような構成によれば、共通のフィルタ係数と複数個の特徴データを並列に処理することで、拡張畳み込み処理の処理効率を高めることができる。

また、第１の実施形態では、拡張前のフィルタのサイズ（フィルタの高さと幅）が２×２の例について説明したが、このサイズに限定するものではなく、任意のサイズで良い。図１０に拡張前のフィルタのサイズ（フィルタの高さと幅）が３×３であり、拡張畳み込み処理の倍率Ｄ＝２の例を示す。拡張後のフィルタのサイズは５×５になる。

また、第１の実施形態では、拡張畳み込み処理の倍率Ｄが１、２、４で、フィルタのサイズが２×２の例について説明したが、これらの数値に限るものではなく、任意の拡張畳み込み処理の倍率と任意のサイズでも良い。

また、上記の各実施形態において使用した数値、演算方法、処理の実行タイミング等は、具体的な説明を行うために一例として挙げたものであり、各実施形態がこれらの一例に限定されることを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

４０１：制御部４０２：保持部４０３：拡張部４０４：保持部４０６：演算部４０７：処理部４０８：保持部

Claims

転送されたフィルタのフィルタ係数を保持する保持手段と、
前記保持手段に保持されたフィルタ係数を順に読み出しながら、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成する生成手段と、
前記拡大フィルタにおけるフィルタ係数を用いて畳み込み処理を行う演算手段と
を備えることを特徴とするデータ処理装置。
前記生成手段は、前記生成した拡大フィルタのフィルタ係数をメモリに格納することを特徴とする請求項１に記載のデータ処理装置。
前記生成手段は、前記保持手段に保持されたフィルタ係数をメモリに格納し、該メモリに格納したフィルタ係数を用いてフィルタのサイズを拡大した拡大フィルタを生成することを特徴とする請求項１に記載のデータ処理装置。
前記生成手段は、前記保持されたフィルタ係数に係数０を加えて前記拡大フィルタを生成することを特徴とする請求項１ないし３の何れか１項に記載のデータ処理装置。
前記生成手段は、前記保持されたフィルタ係数において縦横に隣接するフィルタ係数間に（拡大の倍率−１）個の０を係数として挿入した拡大フィルタを生成することを特徴とする請求項４に記載のデータ処理装置。
前記生成手段は、レイヤごとに、該レイヤについて拡大フィルタを生成することを特徴とする請求項１ないし５の何れか１項に記載のデータ処理装置。
前記演算手段は、前記レイヤごとに、前記生成手段が該レイヤについて生成した拡大フィルタにおけるフィルタ係数を用いて、該レイヤに対応する畳み込み処理を行うことを特徴とする請求項６に記載のデータ処理装置。
前記生成手段は、前記レイヤに対応する倍率に応じて前記転送されたフィルタのサイズを拡大した拡大フィルタを生成することを特徴とする請求項６または７に記載のデータ処理装置。
前記生成手段は、畳み込み処理を行うデータに適用するフィルタを、該データに対して設定されている倍率に応じて拡大した拡大フィルタを生成することを特徴とする請求項６または７に記載のデータ処理装置。
前記生成手段は、畳み込み処理を行うデータに適用するフィルタを、該データが属するグループに対して設定されている倍率に応じて拡大した拡大フィルタを生成することを特徴とする請求項６または７に記載のデータ処理装置。
前記レイヤは、階層型ニューラルネットワークにおける各レイヤであり、前記データは該レイヤにおける特徴画像に含まれるそれぞれの特徴データであり、前記フィルタ係数は該レイヤに対応する重み係数であることを特徴とする請求項９または１０に記載のデータ処理装置。
前記演算手段は、前記畳み込み処理の結果に対して、活性化処理および／またはプーリング処理を行うことを特徴とする請求項１ないし１１の何れか１項に記載のデータ処理装置。
データ処理装置が行うデータ処理方法であって、
前記データ処理装置の保持手段が、転送されたフィルタのフィルタ係数を保持する保持工程と、
前記データ処理装置の生成手段が、前記保持工程で保持されたフィルタ係数を順に読み出しながら、前記転送されたフィルタのサイズを拡大した拡大フィルタを生成する生成工程と、
前記データ処理装置の演算手段が、前記拡大フィルタにおけるフィルタ係数を用いて畳み込み処理を行う演算工程と
を備えることを特徴とするデータ処理方法。
コンピュータを、請求項１ないし１２の何れか１項に記載のデータ処理装置の前記生成手段、前記演算手段として機能させるためのコンピュータプログラム。