JP7444585B2

JP7444585B2 - 認識装置、認識方法

Info

Publication number: JP7444585B2
Application number: JP2019206347A
Authority: JP
Inventors: 政美加藤; 克彦森; 修野村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2024-03-06
Anticipated expiration: 2039-11-14
Also published as: JP2021081790A

Description

本発明は、認識技術に関するものである。

ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（以下ＣＮＮと略記する）に代表される階層的な演算手法（深層学習技術に基づくパターン認識手法）が認識対象の変動に対して頑健なパターン認識を可能にする手法として注目されている。例えば、非特許文献１では様々な応用例・実装例が開示されている。

しかしながら、ＣＮＮのような強力な演算手法を利用した場合であっても、認識対象の撮影環境（コントラストやボケ等）によっては十分な認識性能を引き出せない場合がある。

撮影環境の大きな変動に対応する手法として、特許文献１には、撮影デバイスの撮影条件を所定期間毎に変化させて画像中の顔検出確率を向上させる手法が開示されている。また、特許文献２には、顔検出の結果に基づいて撮像デバイスのゲインや露光時間を制御し、検出した人物の属性認識処理に好適な条件で画像データを再取得する手法が開示されている。

特開2014-127999号公報特開2017-098746号公報

ＹａｎｎＬｅＣｕｎ，ＫｏｒａｙＫａｖｕｋｖｕｏｇｌｕａｎｄＣｌeｍｅｎｔＦａｒａｂｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｉｎＶｉｓｉｏｎ，Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ（ＩＳＣＡＳ'１０），ＩＥＥＥ，２０１０，

特許文献１に開示されている手法は、撮影条件を所定期間毎に変更するだけであり、パターン認識にとって常に最適な画像取得となるわけではない。また、特許文献２に開示されている手法は、撮影条件を変更するテーブルを事前に決定しておく必要があり、撮影環境の多様な変動に対して最適な条件の変更テーブルを決定することは困難である。また、最適な撮影条件が同一フレーム画像の領域毎に異なる場合に対応することができない。本発明では、データに対するロバストな認識を可能にする技術を提供する。

本発明の一様態は、階層型ニューラルネットワークを用いて、撮像デバイスにより撮像された撮像画像からそれぞれの階層の特徴マップを生成し、該特徴マップに基づいて該撮像画像に対する認識結果を取得する認識手段と、
前記階層型ニューラルネットワークにおいて前記撮像画像を入力する階層により近い階層の特徴マップに基づいて、前記撮像デバイスにおけるセンサ面からのデータの取得条件を制御する制御手段と
を備えることを特徴とする。

本発明の構成によれば、データに対するロバストな認識を可能にする技術を提供することができる。

認識装置２０１のより詳細な構成を示すブロック図。画像処理システムの構成例を示すブロック図。処理部１０１の論理的な処理構造を含む認識装置２０１の構成例を示すブロック図。演算処理３０３～３０７を実現するための構成を示すブロック図。画像処理システムによるパターン認識処理の動作を示すタイミングチャート。（ａ）は積層デバイスの例を示す図、（ｂ）はロジック層６２の一例を示す図。認識装置２０１の構成例を示すブロック図。ロジック層６２に対応する制御データの一例を示す図。認識装置２０１の動作を示すフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
先ず、本実施形態に係る画像処理システムの構成例について、図２のブロック図を用いて説明する。本実施形態に係る画像処理システムは、撮像デバイスを用いて物体を撮像した撮像画像から該物体を認識すると共に、該認識のために該撮像画像から抽出した特徴に基づいて該撮像デバイスからの撮像画像の取得条件を制御する。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｓｅｓｓｉｎｇＵｎｉｔ）２０５は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０６やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０７に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ２０５は、画像処理システム全体の動作制御を行うと共に、画像処理システムが行うものとして後述する各処理を実行若しくは制御する。

ＲＯＭ２０６には、画像処理システムの起動プログラムや設定データ、画像処理システムが行うものとして後述する各処理をＣＰＵ２０５に実行若しくは制御させるためのコンピュータプログラムやデータが格納されている。ＲＯＭ２０６に格納されているコンピュータプログラムやデータは、ＣＰＵ２０５による制御に従って適宜ＲＡＭ２０７にロードされ、ＣＰＵ２０５による処理対象となる。

ＲＡＭ２０７は、ＲＯＭ２０６からロードされたコンピュータプログラムやデータを格納するためのエリア、ＤＭＡＣ２０８により認識装置２０１から転送されたデータを格納するためのエリア、を有する。さらにＲＡＭ２０７は、ＣＰＵ２０５が各種の処理を実行する際に用いるワークエリアを有する。このようにＲＡＭ２０７は、各種のエリアを適宜提供することができる。

ＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｌｅｒ）２０８は、画像処理システムにおけるデータ転送を制御するものであり、例えば、認識装置２０１とＲＡＭ２０７との間のデータ転送を制御する。

次に、認識装置２０１について説明する。認識装置２０１は、撮像デバイス２０２、認識処理部２０３、ＲＡＭ２０４を有する。撮像デバイス２０２は、光学系、光電変換デバイス、該光電変換デバイスのセンサ面（センシング領域）に並ぶ画素に対応するフォトダイオードからの出力を読み出すための信号線および増幅器、該光電変換デバイスを制御するドライバ回路、該光電変換デバイスからのアナログ画像信号をディジタル画像信号に変換するＡ／Ｄ変換部、等を有する。光電変換デバイスは、ＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）やＣＭＯＳ（ＣｏｍｐｌｉｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）等のセンサである。

光学系を介して外界から入光した光は光電変換デバイスにてアナログ画像信号に変換され、該アナログ画像信号はＡＤコンバータにてディジタル画像信号に変換され、該ディジタル画像信号は撮像画像として認識処理部２０３に入力される。

認識処理部２０３は、撮像デバイス２０２を制御すると共に、該撮像デバイス２０２から取得した撮像画像に含まれている物体を認識してその位置を認識結果として取得する。

ＲＡＭ２０４は、認識処理部２０３が各種の処理を行うために用いるワークエリア、ＤＭＡＣ２０８により転送されたデータを格納するためのエリア、等の各種のエリアを適宜提供する。

認識装置２０１は、ＣＰＵ２０５からの指示に従って撮像や認識等の動作を行い、該認識の結果をＲＡＭ２０４に格納する。ＤＭＡＣ２０８はＲＡＭ２０４に格納された認識の結果をＲＡＭ２０７に転送し、ＣＰＵ２０５は、ＲＡＭ２０７に転送された認識の結果に基づいて各種の処理を実行する。

認識装置２０１のより詳細な構成について、図１のブロック図を用いて説明する。処理部１０１は、撮像デバイス２０２から取得した撮像画像から特徴を抽出し、該特徴（演算の中間結果）をメモリ１０３に格納し、該格納した特徴を用いて次の演算を行う、という一連の処理を繰り返すことで、該撮像画像から階層的に特徴を抽出する。そして処理部１０１は、撮像画像から最終的に抽出された特徴に基づく認識結果（撮像画像に対する認識結果）を、例えばＲＡＭ２０４に格納する。さらに処理部１０１は、撮像画像から階層的に抽出された特徴を用いて、撮像デバイス２０２からの撮像画像の取得条件を制御するための制御データを生成し、該生成した制御データを処理部１０５に出力する。

処理部１０５は、処理部１０１からの制御データに基づいて撮像デバイス２０２を制御することで、撮像デバイス２０２から処理部１０１が撮像画像を取得する取得条件を制御する。

例えば、処理部１０５は、制御データに従って、光電変換後の信号に対するゲインや光電変換デバイス（フォトダイオード等）の電荷の蓄積時間（露光時間）、Ａ／Ｄ変換部のＡ／Ｄ変換の特性等を制御する。本実施形態では、光電変換デバイスにおけるセンサ面を複数の領域に分割した場合におけるそれぞれの分割領域をブロックと称し、処理部１０５は、ブロック単位で取得条件を制御する。

近年の半導体積層実装技術の実用化に伴い、制御ロジックをセンサ面に対して積層実装することでブロック単位や画素単位の読み出し制御を実現する事が可能になった。本実施形態に適用可能な積層デバイスの例を図６（ａ）に示す。光電変換素子を実装するセンサ層６１（光電変換デバイスに対応）に対し、読み出し制御ロジックを実装するロジック層６２（処理部１０５に対応）、大規模なメモリ及びその制御部を実装するメモリ層６３（メモリ１０３に対応）を積層する。各層の間では貫通ビア等により信号を伝達する。

ロジック層６２の一例を図６（ｂ）に示す。ロジック層６２には、センサ層６１における各ブロックに対応する制御回路ｃｔ（１，１）～ｃｔ（ｎ，ｎ）が設けられており、制御回路ｃｔは、該制御回路ｃｔに対応するブロックからのデータの読み出しを制御する。図６（ｂ）は、センサ面におけるｎ個×ｎ個のブロックのそれぞれについて取得条件（ゲインや露光時間等）を制御するための構成を示している。つまり画像中のｎ個×ｎ個の部分画像のそれぞれについて撮像特性を制御することができる。

なお、本実施形態では、処理部１０１もロジック層６２やメモリ層６３に実装するものとする。センサ層６１に対して積層実装することで、より少ない遅延で制御データを処理部１０５にフィードバックすることができる。撮影環境や対象が高速に変化する場合、より少ない画像フレーム遅延で撮像デバイス２０２を制御することが望まれる。

制御部１０２は、認識装置２０１が有する処理部１０１、処理部１０５、の動作制御を行う。処理部１０１の論理的な処理構造を含む認識装置２０１の構成例について、図３のブロック図を用いて説明する。処理部１０１は、認識ネットワーク３０２とセンサ制御ネットワーク３１３とを有する。

認識ネットワーク３０２は、撮像デバイス２０２が撮像した撮像画像３０１中の特定物体を認識し、該認識した特定物体の位置を表す認識結果を出力する階層型ニューラルネットワークであり、本実施形態では５層のＣＮＮであるものとして説明する。

センサ制御ネットワーク３１３は、認識ネットワーク３０２内で生成された特徴マップから制御データを生成する階層型ニューラルネットワークであり、本実施形態では２層のＣＮＮであるものとして説明する。

先ず、認識ネットワーク３０２について説明する。３０３～３０７のそれぞれは、畳み込み演算、活性化関数演算、プーリング演算等を含む演算処理を表しており、図４に示す構成で実装可能な処理である。図４に示す構成については後述する。特徴マップ（ＦｅａｔｕｒｅＭａｐ）３０８～３１１は、ＣＮＮにおける中間層と呼ばれる特徴マップであり、特徴マップ３１２は、ＣＮＮにおける最終層と呼ばれる特徴マップである。それぞれの特徴マップは、撮像画像３０１から階層的に抽出された２次元のデータであり、メモリ１０３に格納される。

特徴マップ３０８は撮像画像３０１に対する演算処理３０３によって得られた特徴マップであり、特徴マップ３０９は、特徴マップ３０８から演算処理３０４によって得られた特徴マップである。特徴マップ３１０は、特徴マップ３０９から演算処理３０５によって得られた特徴マップであり、特徴マップ３１１は、特徴マップ３１０から演算処理３０６によって得られた特徴マップである。特徴マップ３１２は、特徴マップ３１１から演算処理３０７によって得られた特徴マップであり、撮像画像３０１に対する認識結果でもある。

ここで、撮像画像３０１に対して認識ネットワーク３０２が行う２次元ＣＮＮ演算の詳細について説明する。畳み込み演算のカーネル（係数マトリクス）サイズがｃｏｌｕｍｎＳｉｚｅ×ｒｏｗＳｉｚｅ、前階層の特徴マップ数がＬの場合、以下の式（１）に示すような積和演算により一つの特徴マップを算出する。

ｉｎｐｕｔ（ｘ，ｙ）：２次元座標（ｘ、ｙ）での参照画素値
ｏｕｔｐｕｔ（ｘ，ｙ）：２次元座標（ｘ、ｙ）での演算結果
ｗｅｉｇｈｔ（ｃｏｌｕｍｎ，ｒｏｗ）：２次元座標（ｘ＋ｃｏｌｕｍｎ、ｙ＋ｒｏｗ）での重み係数
Ｌ：前階層の特徴マップ数
ｃｏｌｕｍｎＳｉｚｅ：２次元コンボリューションカーネルの水平方向サイズ
ｒｏｗＳｉｚｅ：２次元コンボリューションカーネルの垂直方向サイズ
２次元ＣＮＮ演算では、式（１）に従って複数のコンボリューションカーネルを画素単位で走査しながら積和演算を繰り返し、最終的な積和演算結果を非線形変換（活性化処理）することで特徴マップを算出する。また、生成した特徴マップをプーリング処理により縮小して次の階層で参照する場合もある。特徴マップ３０８～３１２のそれぞれは、対応する一つの階層内に複数存在し、異なる重み係数群に対応して異なる特性の特徴マップが生成される。

２次元ＣＮＮ演算で使用する重み係数は事前の学習により定めるデータセットである。該重み係数は、バックプロパゲーション等の学習手法により、学習データと教師データ（正解を示すデータ）を用いて、画像処理システム外の学習装置（汎用のコンピュータなど）で事前に学習して収集しておく。

次に、演算処理３０３～３０７を実現するための構成について、図４のブロック図を用いて説明する。データバッファ４０１は、畳み込み演算の参照データとなる前階層の特徴マップのデータ（式（１）におけるｉｎｐｕｔ（ｘ，ｙ））の全てあるいはその一部をメモリ１０３から取得してバッファリングするためのメモリ回路である。

乗算器４０２および累積加算器４０３はそれぞれ、乗算および累積加算を行う回路であり、式（１）の演算は、乗算器４０２および累積加算器４０３によって行われる。データバッファ４０４は、事前に学習によって得られた重み係数（式（１）におけるｗｅｉｇｈｔ（ｃｏｌｕｍｎ，ｒｏｗ））の全てあるいは一部をメモリ１０３から所定の単位で読み出してバッファリングするメモリ回路である。乗算器４０２は、データバッファ４０４に格納されている重み係数を用いて乗算演算を行う。

活性化処理器４０５は、式（１）に示す畳み込み演算結果（ｏｕｔｐｕｔ（ｘ，ｙ））に対してＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ，Ｒｅｃｔｉｆｉｅｒ）等の非線形関数を適用する演算を行う回路である。

プーリング処理器４０６は、特徴マップを最大値フィルタ等の空間フィルタを用いて縮小し、該縮小した特徴マップをメモリ１０３に格納する回路である。プーリング処理しない場合、活性化処理器４０５による演算結果をメモリ１０３に格納する。プーリング処理する場合は、プーリング処理器４０６による処理結果をメモリ１０３に格納する。ここで格納する特徴マップが現階層の特徴マップとなる。現階層の特徴マップの算出が終了すると、そのデータを前階層の特徴マップとして次の階層の特徴マップの算出に用いる。このように、メモリ１０３に格納する特徴マップを順次参照しながら、複数の階層の特徴マップを算出する。制御部１０２が図４に示した各機能部の動作を制御して階層的な特徴抽出処理（２次元ＣＮＮ演算処理）を実現する。

ＣＮＮはこのように複数の階層に渡る特徴抽出を繰り返すことで識別対象の変動にロバストな認識処理を実現する。各階層の特徴抽出結果に従って、最終層における演算処理である演算処理３０７によって撮像画像３０１における所望の物体の存在を判定する。最終層の特徴マップ３１２が認識結果を表現する。特徴マップ３１２が表す認識結果は、例えば撮像画像３０１内の所望の物体の存在確率を２次元の情報として表現する信頼度マップとして出力される。なお、最終層における演算処理である演算処理３０７は前述した畳み込み演算ではなく、全結合型のニューラルネットワークや線形判別器で実装することもある。

また、各階層の特徴マップ３０８～３１１は撮像画像３０１に対する特徴抽出結果を表現する。一般的には、下位層（撮像画像３０１を入力する層により近い階層）の特徴マップはエッジ等のローレベルの特徴を示し、上位層（認識結果により近い階層）の特徴マップは抽象度の高い特徴を示す。各特徴マップはパターン認識の対象や学習方法によって特性が異なる。

次にセンサ制御ネットワーク３１３について説明する。センサ制御ネットワーク３１３は、制御データを処理部１０５に回帰する演算ネットワークである。３１４，３１５のそれぞれは、演算処理３０３～３０７のそれぞれと同様、畳み込み演算、活性化関数演算、プーリング演算等を含む演算処理を表しており、図４に示す構成で実装可能な処理である。

本実施形態に係るセンサ制御ネットワーク３１３は、認識ネットワーク３０２における下位層の特徴マップ３０８を入力とし、該特徴マップ３０８から回帰データとしての制御データを生成する。特徴マップを認識ネットワーク３０２と共有することで回帰性能の向上・学習の容易化を期待すると共に、全体の演算コストを削減することができる。また、本実施形態では認識ネットワーク３０２と類似するネットワーク構造でセンサ制御ネットワーク３１３を構成しているため、図４に示す構成を認識ネットワーク３０２とセンサ制御ネットワーク３１３とで共有することができる。その結果、認識用の回路とは別個に制御データの生成用の回路を設ける必要はない。

特徴マップ３１６は、特徴マップ３０８から演算処理３１４によって得られた特徴マップであり、特徴マップ３１７は特徴マップ３１６から演算処理３１５によって得られた特徴マップである。特徴マップ３１７は、制御データとして処理部１０５に回帰される。

制御データは、センサ面に並ぶ各画素（撮像素子）の空間位置に対応する取得条件を指定するデータであり、例えば、特徴マップ内の位置に対応する画素のゲインや露光時間の指定に対応するデータとなる。制御データは、制御対象が１種類かつスカラー値で制御する場合、一枚の特徴マップで良い。制御対象が複数ある場合や制御パラメータがベクトルデータの場合は、制御データは複数の特徴マップとなる。

図６（ｂ）のロジック層６２に対応する制御データの一例を図８に示す。図８に示す制御データは複数枚の特徴マップで構成されており、そのうちの１枚の特徴マップ２１８におけるｒｇ（ｎ，ｎ）はｃｔ（ｎ，ｎ）に対応するブロックに対応する取得条件を表している。図８では、取得条件の値を濃淡で表現しており、取得条件の値とは、例えば、ゲインに対応する。

なお、センサ制御ネットワーク３１３についても認識ネットワーク３０２と同様、画像処理システム外のコンピュータ等で事前に学習により重み係数を取得しておく。ここでの学習も認識ネットワーク３０２の学習と同様に教師データを利用して、認識ネットワーク３０２と連携して学習を行う。学習は更にセンサの特性を考慮してバックプロパゲーション等を利用して学習する。

処理部１０５は、センサ制御ネットワーク３１３で回帰された制御データに従って撮像デバイス２０２の光電変換デバイスにおける各画素を制御する（例えばセンサ面における画素からのデータのゲインを、対応する取得条件の値に応じて制御する）。これにより処理部１０１は、認識処理に適した撮像画像を撮像デバイス２０２から取得することができる。ここで得られる撮像画像は人が観測して内容を理解・鑑賞するための画像とは異なり、認識処理の精度向上に好適な画像となる。

なお、本実施形態では、センサ制御ネットワーク３１３における演算処理３１４はプーリング処理を含んでおり、その結果、特徴マップ３０８を縮小した特徴マップ３１６が得られ、演算処理３１５は該特徴マップ３１６を対象にして行われる。従って制御データ（特徴マップ３１７）のサイズは撮像画像３０１のサイズよりも小さい。即ち、複数の画素を単位とするブロック毎に取得条件を制御することになる。プーリングの割合などは処理部１０５で制御可能なブロックサイズを考慮して予め設定しておく。

画像処理システムによるパターン認識処理の動作について、図５のタイミングチャートを用いて説明する。図５において「認識ネットワークＸ」は認識ネットワーク３０２のＸ回目の動作を表しており、「センサ制御ネットワークＹ」はセンサ制御ネットワーク３１３のＹ回目の動作を表している。図５では、３フレーム分の撮像画像のそれぞれについて認識ネットワーク３０２およびセンサ制御ネットワーク３１３による処理が行われる様子を示している。

認識ネットワーク１とセンサ制御ネットワーク１とは並行して実行される。センサ制御ネットワーク１による処理結果として制御データ５０７が得られ、認識ネットワーク２は、「該制御データ５０７に応じた取得条件で撮像デバイス２０２から得られた次のフレームの撮像画像」に対して実行される。センサ制御ネットワーク２は認識ネットワーク２と並行して実行される。

センサ制御ネットワーク２による処理結果として制御データ５０８が得られ、認識ネットワーク３は、「該制御データ５０８に応じた取得条件で撮像デバイス２０２から得られた次のフレームの撮像画像」に対して実行される。センサ制御ネットワーク３は認識ネットワーク３と並行して実行される。

センサ制御ネットワーク３による処理結果として制御データ５０９が得られ、認識ネットワーク４は、「該制御データ５０９に応じた取得条件で撮像デバイス２０２から得られた次のフレームの撮像画像」に対して実行される。

認識装置２０１の動作について、図９のフローチャートに従って説明する。なお、図９の各ステップにおける処理の詳細については上記の通りであるから、ここでは簡単に説明する。

ステップＳ９０１では、認識ネットワーク３０２は、撮像デバイス２０２からの撮像画像を入力として、該撮像画像から階層的に特徴を抽出することで該撮像画像に対する認識処理を行う。

ステップＳ９０１における階層的な特徴抽出において特定の階層の特徴マップが得られると（図３の例では特徴マップ３０８が得られると）、ステップＳ９０２の処理が開始される。ステップＳ９０２では、センサ制御ネットワーク３１３は、特定の階層の特徴マップを入力として、上記の処理を行うことで制御データを生成し、該生成した制御データを処理部１０５に対して出力する。そしてステップＳ９０３では、処理部１０５は、センサ制御ネットワーク３１３から取得した制御データに基づいて、撮像デバイス２０２からの撮像画像の取得条件をブロックごとに制御する。

ステップＳ９０４では、制御部１０２は終了指示を受けたか否かを判断する。例えば、ユーザが不図示の操作部を操作して入力した終了指示を制御部１０２が取得しても良いし、特定の条件が満たされたことをＣＰＵ２０５が検知した場合にＣＰＵ２０５が発行した終了指示をＤＭＡＣ２０８によって制御部１０２に転送しても良い。

この判断の結果、制御部１０２が終了指示を受けた場合には、図９のフローチャートに従った処理は終了し、制御部１０２が終了指示を受けていない場合には、処理は図９のフローチャートの先頭に戻る。

このように、センサ制御ネットワークは撮影対象の状況変化に応じて順次認識に適した撮影条件を設定し、認識ネットワークは該撮影条件に応じて高精度な認識処理を実行する。このように、本実施形態によれば、撮影環境に応じて認識に最適な画像を取得することが可能になり、認識精度の高い認識技術を実現することができる。

［第２の実施形態］
本実施形態を含む以下の各実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。本実施形態に係る認識装置２０１の構成例について、図７のブロック図を用いて説明する。図７に示した構成は、図１に示した構成に画像補正処理部７０６を加えた構成となっている。また、撮像デバイス２０２から出力される撮像画像は処理部１０１だけでなく画像補正処理部７０６にも入力され、処理部１０１から出力される制御データは処理部１０５だけでなく画像補正処理部７０６にも入力される。

第１の実施形態では、撮像デバイス２０２が出力する撮像画像は認識処理に好適な画像として読み出されるため、人が観測する画像としては好ましくない。例えば、監視カメラ等においては、検出した物体を事後に人が確認するなどのケースがある。

本実施形態では、画像補正処理部７０６は、撮像デバイス２０２から出力された撮像画像（つまり認識処理に好適な撮像画像）を、処理部１０１から出力された制御データに基づいて、人が観測する際に自然な画像に変換する。画像の変換は制御データが表す撮影条件であるゲインや露光時間に基づいて予め定めるアルゴリズムに従って変換することが可能である（いわゆる現像処理と呼ばれる画像処理を拡張することで対応が可能である）。また、画像補正処理部７０６もＣＮＮ等を利用して学習データに基づいて画像を変換するなどの手法を用いても良い。その場合、図４に示す構成をそのまま利用することができ、構成上追加となる回路が不要である。

画像補正処理部７０６により変換された撮像画像の出力先は特定の出力先に限らず、画像処理システムの内外の表示部であっても良いし、画像処理システムの内外のメモリであっても良い。このように、本実施形態によれば、パターン認識に好適な画像の取得を実現すると共に、人が観測可能な画像を出力することができる。

［第３の実施形態］
第１の実施形態では、２次元の画像センサを用いた構成を例に取り説明したが、センサは２次元の画像センサに限らず、センシングするデータの次元数やモダリティが異なる様々なセンサを用いた構成であっても良い。このようなセンサとしては、例えば、マイクロフォンや電波センサなどが挙げられる。つまり、第１の実施形態は、センサから取得したデータから階層的に特徴を抽出し、該抽出の結果に基づいて該データに対する認識結果を取得すると共に、該抽出の結果に基づいて該センサからのデータの取得条件を制御する、という構成の一例に過ぎない。

また、第１の実施形態では、ブロック単位で取得条件を制御するケースについて説明したが、制御単位はブロックに限らず、画素であっても良いし、センサ面全体であっても良い。センサ面を単位に取得条件を制御する場合、センサ制御ネットワーク３１３の最終層の特徴マップを線形判別器に通した結果を制御データとしても良いし、該特徴マップに対してグローバルプーリング処理を施した結果を制御データとしても良い。

また、第１の実施形態では、センサ制御ネットワーク３１３は、認識ネットワーク３０２の下位層の特徴マップを入力としていたが、入力する特徴マップは下位層の特徴マップに限らない。例えばセンサ制御ネットワーク３１３は、認識ネットワーク３０２の上位層の特徴マップを入力としても良いし、認識ネットワーク３０２の各階層の特徴マップから選択された階層の特徴マップを入力としても良い。該選択は制御部１０２が行っても良いし、ユーザが不図示の操作部を操作して行っても良いし、特定の形態に限らない。

また、認識ネットワーク３０２やセンサ制御ネットワーク３１３の階層構造（階層の数や階層内の特徴マップの数など）は、認識対象や制御対象等に応じて適宜変更可能である。

また、センサ制御ネットワーク３１３は、認識ネットワーク３０２の特徴マップではなく撮像デバイス２０２からの出力（撮像画像）を入力しても良い。その場合もセンサ制御ネットワーク３１３の学習時には認識ネットワーク３０２を利用して学習する。

また、第１の実施形態では、最終層でパターン認識の信頼度や制御データを生成するケースについて説明したが、これに限らず、例えば、中間層の特徴マップを直接参照してパターン認識の信頼度や制御データを生成するようにしても良い。

また、第１の実施形態では、撮像画像中の物体の位置を検出する画像処理システムについて説明したが、画像処理システムが行うタスクはこれに限らず、例えば、撮像画像中の物体の属性の認識や、撮像画像の内容の認識等、様々な認識を行うようにしても良い。

また第１の実施形態では、階層的に特徴を抽出するためにＣＮＮを用いたが、これに限らない。つまり、ＭｕｌｔｉＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＲｅｓｔｒｉｃｔｅｄＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅｓ、ＣａｐｓｕｌｅＮｅｔｗｏｒｋ等の他の様々な階層的手法を用いて階層的に特徴を抽出するようにしても良い。また、ＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋ等の再帰的手法を用いても良い。

第１の実施形態では、図４に示す構成をハードウェアで実装するケースについて説明したが、一部の構成、例えば、乗算器４０２、累積加算器４０３、活性化処理器４０５、プーリング処理器４０６をソフトウェア（コンピュータプログラム）で実装しても良い。この場合、このソフトウェアはＲＯＭ２０６に格納しておき、ＤＭＡＣ２０８によってＲＡＭ２０４に転送して制御部１０２が実行することで、対応する機能部の機能を実現させることができる。

また第１の実施形態では、図６に示す積層デバイスを適用したが、各積層への実装機能はコストや性能を考慮して様々な形態が可能である。また、読み出し制御の遅延が問題にならない応用の場合、認識ネットワーク３０２及びセンサ制御ネットワーク３１３を積層せずに異なるデバイス上に実装しても良い。

また第１の実施形態では、純粋な認識処理に適用したケースについて説明したが、近年提案されている深層学習技術を応用した手法では、特定のパターンを認識するだけではなく、パターンの変形・変換等に利用する手法も提案されている。よって第１の実施形態はこれらの手法に適用することも可能である。

なお、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：処理部１０２：制御部１０３：メモリ１０５：処理部２０２：撮像デバイス

Claims

階層型ニューラルネットワークを用いて、撮像デバイスにより撮像された撮像画像からそれぞれの階層の特徴マップを生成し、該特徴マップに基づいて該撮像画像に対する認識結果を取得する認識手段と、
前記階層型ニューラルネットワークにおいて前記撮像画像を入力する階層により近い階層の特徴マップに基づいて、前記撮像デバイスにおけるセンサ面からのデータの取得条件を制御する制御手段と
を備えることを特徴とする認識装置。
前記制御手段は、前記階層型ニューラルネットワークにおいて前記撮像画像を入力する階層により近い階層の特徴マップに基づいて、前記取得条件を制御するための制御データを生成し、該制御データに基づいて前記取得条件を制御することを特徴とする請求項１に記載の認識装置。
前記制御手段は、前記階層型ニューラルネットワークにおいて前記撮像画像を入力する階層により近い階層の特徴マップから、階層型ニューラルネットワークを用いて前記制御データを生成することを特徴とする請求項２に記載の認識装置。
前記認識手段が用いる階層型ニューラルネットワークおよび前記制御手段が用いる階層型ニューラルネットワークはＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋであることを特徴とする請求項３に記載の認識装置。
前記制御手段は、前記センサ面を分割した分割領域ごとに前記取得条件を制御することを特徴とする請求項１乃至４の何れか１項に記載の認識装置。
更に、
前記撮像画像を、前記取得条件を制御するためのデータに基づいて補正する補正手段を備えることを特徴とする請求項１ないし５のいずれか１項に記載の認識装置。
前記撮像デバイスは光電変換デバイスを含み、前記制御手段は、該光電変換デバイスの電荷の蓄積時間を制御することを特徴とする請求項１ないし６のいずれか１項に記載の認識装置。
前記撮像デバイスは光電変換デバイスを含み、前記制御手段は、該光電変換デバイスによる光電変換後の信号に対するゲインを制御することを特徴とする請求項１ないし７のいずれか１項に記載の認識装置。
前記撮像デバイスは、アナログ画像信号をディジタル画像信号に変換するＡ／Ｄ変換部を含み、前記制御手段は、該Ａ／Ｄ変換部によるＡ／Ｄ変換の特性を制御することを特徴とする請求項１ないし８のいずれか１項に記載の認識装置。
前記認識手段が用いる階層型ニューラルネットワークと、前記制御手段が用いる階層型ニューラルネットワークと、で使用する回路を共有することを特徴とする請求項３に記載の認識装置。
認識装置が行う認識方法であって、
前記認識装置の認識手段が、階層型ニューラルネットワークを用いて、撮像デバイスにより撮像された撮像画像からそれぞれの階層の特徴マップを生成し、該特徴マップに基づいて該撮像画像に対する認識結果を取得する認識工程と、
前記認識装置の制御手段が、前記階層型ニューラルネットワークにおいて前記撮像画像を入力する階層により近い階層の特徴マップに基づいて、前記撮像デバイスにおけるセンサ面からのデータの取得条件を制御する制御工程と
を備えることを特徴とする認識方法。
認識装置のコンピュータを、請求項１乃至１０の何れか１項に記載の認識装置の各手段として機能させるためのコンピュータプログラム。