JP2023156864A

JP2023156864A - 画像処理装置、画像処理方法

Info

Publication number: JP2023156864A
Application number: JP2022066493A
Authority: JP
Inventors: 政美加藤; Masami Kato; ソクイチン; Tsewei Chen; しおり脇野; Shiori Wakino; 幹吉永; Motoki Yoshinaga
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2023-10-25
Also published as: US20230334820A1; CN116916143A

Abstract

【課題】撮影姿勢の変動に効率的に対応可能な相関演算を可能にするための技術を提供すること。
【解決手段】第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成し、前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する。第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成し、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行い、前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する。
【選択図】図１

Description

本発明は、画像処理技術に関するものである。

コンボリューショナルニューラルネットワーク（以下ＣＮＮと略記する）に代表される階層的な演算手法（深層学習技術に基づくパターン認識手法）が認識対象の変動に対して頑健なパターン認識手法として注目されている。例えば、非特許文献１では様々な応用例・実装例が開示されている。

ＣＮＮの応用例として、ＣＮＮにより算出した特徴量間の相互相関を利用した物体追尾処理方法が提案されている（非特許文献２など）。一方、高い演算コストを要するＣＮＮを高速に処理するための専用処理装置が提案されている（特許文献１など）。

特開２０１９－７４９６７号公報

ＹａｎｎＬｅＣｕｎ，ＫｏｒａｙＫａｖｕｋｖｕｏｇｌｕａｎｄＣｌｅｍｅｎｔＦａｒａｂｅｔ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓｉｎＶｉｓｉｏｎ，Ｐｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ（ＩＳＣＡＳ’１０），ＩＥＥＥ，２０１０，ＬｕｃａＢｅｒｔｉｎｅｔｔｏ，ＪａｃｋＶａｌｍａｄｒｅ，ＪｏａｏＦ．Ｈｅｎｒｉｑｕｅｓ，ＡｎｄｒｅａＶｅｄａｌｄｉ，ＰｈｉｌｉｐＨ．Ｓ．Ｔｏｒｒ：Ｆｕｌｌｙ－ＣｏｎｖｏｌｕｔｉｏｎａｌＳｉａｍｅｓｅＮｅｔｗｏｒｋｓｆｏｒＯｂｊｅｃｔＴｒａｃｋｉｎｇ、ＥＣＣＶ２０１６Ｗｏｒｋｓｈｏｐｓ

非特許文献２に開示の追尾処理方法では、ＣＮＮの係数の代わりに対象物のＣＮＮ特徴量を与えて畳み込み演算処理を実行することで、ＣＮＮ特徴量間の高精度な相互相関値を算出する。画像における異なるフレーム間の局所的な相互相関値を利用することで、動画像において特定の物体を追尾する等の応用に適用することが可能である。

一方、追尾処理においては、撮影装置の姿勢（正立撮影、縦撮り撮影、逆撮り撮影）に応じて、対象物の画角内の向きが大きく変わる場合がある。このような場合、撮影装置の姿勢に応じて入力画像を回転して処理することで、撮影装置の姿勢によらず追尾処理を継続することができる。

しかしながら、入力画像の回転処理を装置で実行させると、処理時間が増加する・処理のための大きなバッファメモリが必要となる等、廉価なシステムにおいては処理コストの増加が問題となる。本発明では、撮影姿勢の変動に効率的に対応可能な相関演算を可能にするための技術を提供する。

本発明の一様態は、第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成する第１生成手段と、前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する登録手段と、第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成する第２生成手段と、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行う演算手段と、前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する検出手段とを備えることを特徴とする。

本発明の構成によれば、撮影姿勢の変動に効率的に対応可能な相関演算を可能にする。

相関演算部２０１のハードウェア構成例を示すブロック図。画像処理装置のハードウェア構成例を示すブロック図。演算処理部１０２の動作を示すブロック図。演算処理部１０２および変換処理部１０５が処理するＣＮＮの動作を示す図。特徴マップからのテンプレート特徴の取得を示す図。撮影姿勢が変わる場合における従来のテンプレート特徴の抽出及び相関演算を示す図。撮影姿勢が変わる場合における第１の実施形態に係るテンプレート特徴の抽出及び相関演算を示す図。回転処理部１０７の構成例を示すブロック図。バッファ１０３におけるメモリ領域の構成例を示す図。画像処理装置の動作を示すフローチャート。ラインバッファを利用して処理する場合のＣＮＮの特徴面の例を模式的に説明する図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態に係る画像処理装置は、第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成し、前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する。そして画像処理装置は、第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成し、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行い、前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する。以下では、このような画像処理装置の一例について説明する。

先ず、本実施形態に係る画像処理装置のハードウェア構成例について、図２のブロック図を用いて説明する。本実施形態に係る画像処理装置には、静止画像や動画像を撮像可能な撮像装置、スマートフォン、該撮像装置が搭載されたタブレット端末装置やパーソナルコンピュータ、などのデバイスが適用可能である。

画像入力部２０２は、光学系、ＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）又はＣＭＯＳ（ＣｏｍｐｌｉｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）センサ等の光電変換デバイス、該光学系や該光電変換デバイスの動作制御を行うドライバー回路、Ａ／Ｄコンバータ、画像処理回路等を有する撮影部である。外界の光は光学系を透過して光電変換デバイスに入光し、該光電変換デバイスは該入光した光に応じてアナログ画像信号を出力し、該アナログ画像信号はＡ／Ｄコンバータによってディジタル画像信号に変換される。該ディジタル画像信号は画像処理回路にてデモザイク処理、色処理などの処理を経て撮影画像に変換される。つまり画像入力部２０２は、撮影画像を入力画像として取得する。

取得部２１０は、自身の姿勢を画像処理装置の姿勢として計測する姿勢センサを有し、該姿勢センサにより計測された姿勢を示す姿勢情報を出力する。本実施形態では一例として、取得部２１０は、姿勢センサにより計測された姿勢が、撮影部の光軸に直交する４方向のうち何れの方向であるかを示す姿勢情報を取得して出力する。つまり、取得部２１０は、対象物に対する撮影部の向き（正立、縦持ち、逆持ち）に関する情報を取得する。つまり、撮影部の向きとは、ユーザの該画像処理装置の保持方向に対応し、正立撮影、縦撮り撮影、逆撮り撮影のいずれかに対応する。

相関演算部２０１は、画像入力部２０２が取得した入力画像に基づいてテンプレート特徴を取得して登録するための登録処理、画像入力部２０２が取得した入力画像と該登録されたテンプレート特徴とに基づく相関演算処理、などの各種の処理を行う。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｓｅｓｓｉｎｇＵｎｉｔ）２０３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０４やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０５に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりＣＰＵ２０３は、画像処理装置全体の動作制御を行うと共に、画像処理装置が行うものとして説明する各種の処理を実行もしくは制御する。

ＲＯＭ２０４には、画像処理装置の設定データ、画像処理装置の起動に係るコンピュータプログラムやデータ、画像処理装置の基本動作に係るコンピュータプログラムやデータ、などが格納されている。またＲＯＭ２０４には、画像処理装置が行うものとして説明する各種の処理をＣＰＵ２０３に実行もしくは制御させるためのコンピュータプログラムやデータも格納されている。

ＲＡＭ２０５は、画像入力部２０２から入力された入力画像を格納するためのエリア、取得部２１０が取得した姿勢情報を格納するためのエリア、相関演算部２０１から出力されたデータを格納するためのエリア、を有する。さらにＲＡＭ２０５は、ＲＯＭ２０４からロードされたコンピュータプログラムやデータを格納するためのエリア、ＣＰＵ２０３が各種の処理を実行する際に用いるワークエリア、を有する。このようにＲＡＭ２０５は、各種のエリアを適宜提供することができる。ＲＡＭ２０５は、たとえば、大容量なＤＲＡＭ（ＤｙｎａｍｉｃＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成する。

ＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｌｅｒ）２０６は、画像入力部２０２またはＲＡＭ２０５と相関演算部２０１との間のデータ転送を制御する。

ユーザインターフェース部２０８は、ボタン、スイッチ、タッチパネルなどのユーザインターフェースを有し、ユーザが操作することで各種の指示（例えば追尾対象の指示）をＣＰＵ２０３に対して入力することができる。また、ユーザインターフェース部２０８は、本装置による処理結果（例えば追尾処理の結果）を表示するための表示画面（液晶画面やタッチパネル画面など）を有する。

画像入力部２０２、取得部２１０、相関演算部２０１、ＣＰＵ２０３、ＲＯＭ２０４、ＲＡＭ２０５、ＤＭＡＣ２０６、ユーザインターフェース部２０８、は何れもシステムバス２０７に接続されている。

相関演算部２０１は、ＣＰＵ２０３からの指示に従って上記の相関演算処理を行って、入力画像における物体（ここでは説明上、追尾対象物体とする）の位置の尤度を示す検出マップを生成する。該検出マップはＣＰＵ２０３によってＲＡＭ２０５に格納される。ＣＰＵ２０３は、ＲＡＭ２０５に格納された検出マップに基づく該追尾対象物体の追尾処理結果を利用して様々なアプリケーションを提供する。例えば、追尾処理結果を画像入力部２０２にフィードバックして、追尾対象物体の追尾のための光学系のフォーカスの制御等に利用する。なお、相関演算部２０１による相関演算に基づいて生成される検出マップの利用方法は特定の利用方法に限らない。また、以下の説明で登場する様々なマップについて、その利用方法は以下に説明する特定の利用方法に限らない。

次に、相関演算部２０１のハードウェア構成例について、図１のブロック図を用いて説明する。Ｉ／Ｆ部１０１は、システムバス２０７を介してＣＰＵ２０３やＤＭＡＣ２０６がアクセス可能なインターフェースであり、相関演算部２０１はＩ／Ｆ部１０１を介して外部とのデータの送受信を行う。

バッファ１０３には、ＣＮＮの各層（各階層）について、該層における重み係数（ＣＮＮ係数）の二次元配列（係数パターン）が格納されており、バッファ１０３は、該係数パターンを低遅延で供給可能なバッファ（メモリ装置）である。

またバッファ１０３には、変換処理部１０５により得られる「ＣＮＮの最終層のＣＮＮ特徴の二次元配列（特徴マップ）」における局所的な領域内のＣＮＮ特徴群がテンプレート特徴として格納される。ＣＰＵ２０３は、変換処理部１０５が求めてバッファ１０４に格納した「ＣＮＮの最終層の特徴マップ」をＩ／Ｆ部１０１を介して読み出し、該読み出した特徴マップにおける局所的な領域内のＣＮＮ特徴群をテンプレート特徴として抽出する。そしてＣＰＵ２０３は、該抽出したテンプレート特徴を、取得部２１０が取得した姿勢情報に応じて回転させ、該回転させたテンプレート特徴をＩ／Ｆ部１０１を介してバッファ１０３に格納する。

バッファ１０４は、変換処理部１０５により得られる特徴マップを低遅延で格納可能なバッファ（メモリ装置）である。バッファ１０３やバッファ１０４は、例えば高速なメモリやレジスタなどで実装可能である。なお、図１ではバッファ１０３およびバッファ１０４はそれぞれ別個のバッファとしているが、１つのバッファにおいてそれぞれ別個のメモリ領域としてもよい。

回転処理部１０７は、ＣＰＵ２０３からＩ／Ｆ部１０１を介して係数パターンおよび姿勢情報を取得した場合には、該取得した係数パターンを、該取得した姿勢情報に応じて回転させてから演算処理部１０２に供給する。例えば、姿勢情報が「縦持ち」であることを示している場合（つまり画像入力部２０２が取得した入力画像が縦取りの場合）、回転処理部１０７は、係数パターンを時計回りに９０度回転させてから演算処理部１０２に供給する。

一方、回転処理部１０７は、ＣＰＵ２０３からＩ／Ｆ部１０１を介してテンプレート特徴および姿勢情報を取得した場合には、該取得したテンプレート特徴を、該取得した姿勢情報に応じて回転させてから演算処理部１０２に供給する。例えば、姿勢情報が「縦持ち」であることを示している場合（つまり画像入力部２０２が取得した入力画像が縦取りの場合）、回転処理部１０７は、テンプレート特徴を時計回りに９０度回転させてから演算処理部１０２に供給する。

演算処理部１０２は畳み込み演算を行い、変換処理部１０５は、演算処理部１０２による畳み込み演算の結果を非線形変換する。なお、変換処理部１０５における非線形変換には周知の活性化処理であるReLU（Rectified Linear Unit）やシグモイド関数等を利用する。ReLUを利用する場合、閾値処理で実現可能であり、シグモイド関数を利用する場合、ルックアップテーブル等により値を変換する。制御部１０６は、相関演算部２０１における各種の動作制御を行う。

次に、演算処理部１０２および変換処理部１０５が処理するＣＮＮの動作（特徴マップを生成するための処理）について、図４（ａ）を用いて説明する。ＣＮＮでは、入力画像４０１と係数パターン４０２との畳み込み演算４０３が行われ、該畳み込み演算４０３の結果に対して非線形変換４０４が行われて特徴マップ４０５が生成される。

ここで、畳み込み演算のカーネル（フィルタ係数マトリクス）サイズがｃｏｌｕｍｎＳｉｚｅ×ｒｏｗＳｉｚｅ、ＣＮＮにおいて処理する対象の層の前の層の特徴マップの数がＬの場合、以下に示すような畳み込み演算に基づいて１つの特徴マップが算出される。

ｉｎｐｕｔ（ｘ，ｙ）：２次元座標（ｘ、ｙ）での参照画素値
ｏｕｔｐｕｔ（ｘ，ｙ）：２次元座標（ｘ、ｙ）での演算結果
ｗｅｉｇｈｔ（ｃｏｌｕｍｎ，ｒｏｗ）：座標（ｘ＋ｃｏｌｕｍｎ、ｙ＋ｒｏｗ）でのＣＮＮ係数
Ｌ：前の層の特徴マップ数
ｃｏｌｕｍｎＳｉｚｅ、ｒｏｗＳｉｚｅ：２次元コンボリューションカーネルの水平・垂直方向サイズ
一般的にＣＮＮにおける演算処理では、上記の式に従って複数のコンボリューションカーネルを入力画像の画素単位で走査しながら積和演算を繰り返し、最終的な積和演算結果を非線形変換（活性化処理）することで特徴マップを算出する。即ち、複数の空間フィルタ演算とその総和に対する非線形演算とにより、１つの特徴マップの画素データが生成される。本実施形態では、ＣＮＮ係数が空間フィルタ係数に相当する。また、実際には層毎に複数の特徴マップが生成される。

演算処理部１０２は乗算器と累積加算器とを有し、該乗算器と該累積加算器とにより、上記の式で示した畳み込み演算を実行する。そして変換処理部１０５は、該畳み込み演算の結果を非線形変換して特徴マップを生成する。通常のＣＮＮでは、以上の処理を、生成する特徴マップの数分繰り返して処理する。

次に、特徴マップからのテンプレート特徴の取得について、図５を用いて説明する。図５ではＣＮＮの最終層から３つの特徴マップ５０１が得られたケースについて示している。この場合、ＣＰＵ２０３は、３つの特徴マップ５０１のそれぞれから、３画素ｘ３画素のサイズを有する領域（空間的な小領域）内の特徴群（ＣＮＮ特徴群）をテンプレート特徴５０２として抽出する。この場合、テンプレート特徴５０２のデータサイズは９となる。「空間的な小領域」の位置は、予め指定された対象物の位置である。例えば、物体追尾処理の場合、テンプレート特徴は追尾対象物の特徴量となる。このようなテンプレート特徴と特徴マップとの相関（相関マップ）を利用することで、追尾対象物の位置を知ることができる。即ち、入力画像中の高い相関を示す位置を該入力画像中における追尾対象物の位置と判定することができる。

次に、演算処理部１０２および変換処理部１０５が処理するＣＮＮの動作（テンプレート特徴を用いた相関演算を含む各種の演算処理）について、図４（ｂ）を用いて説明する。ＣＮＮでは、入力画像４０６と係数パターン４０７との畳み込み演算４０８が行われ、該畳み込み演算４０８の結果に対して非線形変換４０９が行われて特徴マップ４１０が生成される。ここでは、特徴マップ４１０は３つの特徴マップであるものとし、登録済みのテンプレート特徴４１１は図５の３つのテンプレート特徴５０２であるものとする。次に、ＣＮＮでは、特徴マップ４１０（３つの特徴マップ）と、テンプレート特徴４１１（３つのテンプレート特徴５０２）と、の畳み込み演算４１２を行うことで、特徴マップ４１０とテンプレート特徴４１１との相関を演算する。畳み込み演算４１２を特徴マップ内で繰り返して行うことで、図５の場合、３つの特徴マップから３種類の相関マップが相関マップ４１３として算出される。ここでの相関演算は入力の特徴マップに対する出力マップの結合が１対１である所謂depth wise型のＣＮＮ演算処理と動作は同じである（上記の式においてＬ＝１）。該処理の内容は非特許文献２等に記載のsiam相関演算手法である。次に、ＣＮＮでは、相関マップ４１３と係数パターン４１４との畳み込み演算４１５が行われ、該畳み込み演算４１５の結果に対して非線形変換４１６が行われて特徴マップ（検出マップ）４１７が生成される。特徴マップ４１７は一枚の特徴マップである。相関マップ４１３に対してＣＮＮ処理（畳み込み演算および非線形変換）を行うことで、相関関係を明確化し、対象物をより安定的に検出することを可能にする検出マップを得ることができる。検出マップにおける各要素の値（要素値）は、該要素がテンプレート特徴に対応する対象物を構成する要素である尤度（確からしさ）を表している。よって、検出マップにおける要素値がピークとなる位置を、該テンプレート特徴に対応する対象物の位置と判定することができる。

図４（ｂ）に示した動作を、例えば、動画像に含まれる各フレームや、定期的若しくは不定期的に撮像される複数の静止画像のそれぞれについて行うことで、テンプレート特徴に対応する対象物の位置を画像毎に検出可能にするマップを生成することができる。つまり特定の対象物を複数の画像において追尾することを可能にするマップを生成することが可能になる。

次に、本実施形態に係る画像処理装置の動作について、図１０のフローチャートに従って説明する。ステップＳ１００１では、ＣＰＵ２０３は、相関演算部２０１の動作に必要な各種の初期化処理を行う。

ステップＳ１００２では、ＣＰＵ２０３は、相関演算部２０１の動作に必要な各種の動作パラメータをＲＯＭ２０４から読み出してＲＡＭ２０５に格納する。なお、動作パラメータの取得元はＲＯＭ２０４に限らない。

ステップＳ１００３では、ＣＰＵ２０３は、テンプレート特徴を生成してバッファ１０３に格納するか否かを判断する。例えば、テンプレート特徴を新規にバッファ１０３に登録する場合には、「テンプレート特徴を生成してバッファ１０３に格納する」と判断する。また例えば、バッファ１０３に格納されているテンプレート特徴を新たなテンプレート特徴に更新する場合にも、「テンプレート特徴を生成してバッファ１０３に格納する」と判断する。

このような判断の結果、「テンプレート特徴を生成してバッファ１０３に格納する」と判断した場合には、処理はステップＳ１００４に進む。一方、「テンプレート特徴を生成してバッファ１０３に格納する」と判断しない場合には、処理はステップＳ１００８に進む。ステップＳ１００４では、ＣＰＵ２０３は、取得部２１０が取得した撮影部の向きを示す姿勢情報を取得する。

ステップＳ１００５では、ＣＰＵ２０３は、バッファ１０３に格納されている係数パターンをＩ／Ｆ部１０１を介して取得する。そしてＣＰＵ２０３はＤＭＡＣ２０６を制御して、該取得した係数パターンと、ステップＳ１００４で取得した姿勢情報と、画像入力部２０２が取得した入力画像（該姿勢情報が示す撮影姿勢で撮影された撮影画像）と、を相関演算部２０１に対して出力する。Ｉ／Ｆ部１０１を介して相関演算部２０１に入力された入力画像はバッファ１０４に格納される。回転処理部１０７は、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得した係数パターンを、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得した姿勢情報に応じて回転させる。例えば、姿勢情報が、撮影部が「縦持ち」であることを示している場合（つまり画像入力部２０２が取得した入力画像が縦取りの場合）、係数パターンを時計回りに９０度回転させる。演算処理部１０２は、バッファ１０４に格納された入力画像と、回転処理部１０７によって回転させた係数パターンと、の畳み込み演算を行う。変換処理部１０５は、演算処理部１０２による畳み込み演算の結果を非線形変換して特徴マップを生成する（第１生成）。該生成した特徴マップをバッファ１０４に格納する。以降、演算処理部１０２による「バッファ１０４に格納された特徴マップ（前の層に対応する特徴マップ）と、回転処理部１０７によって回転させた係数パターンと、の畳み込み演算」および変換処理部１０５による「演算処理部１０２による畳み込み演算の結果を非線形変換して特徴マップを生成し、該生成した特徴マップをバッファ１０４に格納する処理」、をＣＮＮの最終層に向けて各層について行うことで、ＣＮＮの各層における特徴マップをバッファ１０４に格納する。そしてＣＰＵ２０３は、バッファ１０４に格納されている「ＣＮＮの最終層における特徴マップ」をＩ／Ｆ部１０１を介して取得する。そして、該取得した特徴マップにおいて対象物に対応する局所的な領域内のＣＮＮ特徴群をテンプレート特徴として取得する。

ステップＳ１００６では、ＣＰＵ２０３は、ステップＳ１００５で取得したテンプレート特徴を、ステップＳ１００４で取得した姿勢情報に応じて回転させる（回転処理部１０７による係数パターンの回転に対する逆回転をテンプレート特徴に対して行う）。例えば、姿勢情報が「縦持ち」であることを示している場合（つまり画像入力部２０２が取得した入力画像が縦取りの場合）、ステップＳ１００５で取得したテンプレート特徴を反時計回りに９０度回転させる。ステップＳ１００７では、ＣＰＵ２０３は、ステップＳ１００６において逆回転させたテンプレート特徴を、Ｉ／Ｆ部１０１を介してバッファ１０３に格納する。

ステップＳ１００８では、ＣＰＵ２０３は、取得部２１０が取得した姿勢情報を取得する。ここで、ステップＳ１００８で取得する姿勢情報は、ステップＳ１００４で取得した姿勢情報に対応する計測タイミングとは異なる計測タイミングで姿勢センサによって計測された撮影部の姿勢を示す情報である。

ステップＳ１００９では、ＣＰＵ２０３は、バッファ１０３に格納されている係数パターンおよびテンプレート特徴をＩ／Ｆ部１０１を介して取得する。そしてＣＰＵ２０３はＤＭＡＣ２０６を制御して、該取得した係数パターンおよびテンプレート特徴と、ステップＳ１００８で取得した姿勢情報と、画像入力部２０２が取得した入力画像（該姿勢情報が示す撮影姿勢で撮影された撮影画像）と、を相関演算部２０１に対して出力する。Ｉ／Ｆ部１０１を介して相関演算部２０１に入力された入力画像はバッファ１０４に格納される。回転処理部１０７は、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得した係数パターンを、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得した姿勢情報に応じて回転させる。演算処理部１０２は、バッファ１０４に格納された入力画像と、回転処理部１０７によって回転させた係数パターンと、の畳み込み演算を行う。変換処理部１０５は、演算処理部１０２による畳み込み演算の結果を非線形変換して特徴マップを生成（第２生成）し、該生成した特徴マップをバッファ１０４に格納する。以降、演算処理部１０２による「バッファ１０４に格納された特徴マップ（前の層に対応する特徴マップ）と、回転処理部１０７によって回転させた係数パターンと、の畳み込み演算」および変換処理部１０５による「演算処理部１０２による畳み込み演算の結果を非線形変換して特徴マップを生成し、該生成した特徴マップをバッファ１０４に格納する処理」、をＣＮＮの最終層に向けて各層について行うことで、ＣＮＮの各層における特徴マップをバッファ１０４に格納する。また、回転処理部１０７は、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得したテンプレート特徴を、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得した姿勢情報に応じて回転させる。例えば、姿勢情報が「縦持ち」であることを示している場合（つまり画像入力部２０２が取得した入力画像が縦取りの場合）、回転処理部１０７は、テンプレート特徴を時計回りに９０度回転させる。そして演算処理部１０２は、回転させたテンプレート特徴と、バッファ１０４に格納されている「ＣＮＮの最終層における特徴マップ」と、の畳み込み演算を行うことで、該特徴マップと該テンプレート特徴との相関を示す相関マップを求める。次に、上記の「演算処理部１０２および変換処理部１０５による、入力画像に対する階層的な畳み込み演算および非線形変換」と同様の処理を相関マップに対して行うことでＣＮＮの最終層から得られるマップを検出マップとして求める。

ステップＳ１０１０では、ＣＰＵ２０３は、相関演算部２０１にて求めた検出マップをＩ／Ｆ部１０１を介して該相関演算部２０１から取得し、該取得した検出マップをＲＡＭ２０５に格納する。

ステップＳ１０１１では、ＣＰＵ２０３は、処理の終了条件が満たされたか否かを判断する。例えば、ユーザがユーザインターフェース部２０８を操作して処理の終了指示を入力した場合には、処理の終了条件が満たされたと判断する。また例えば、図１０のフローチャートに従った処理を開始してからの経過時間が規定時間に達した場合や、ステップＳ１００３～Ｓ１０１０の処理の繰返し回数が規定回数に達した場合には、処理の終了条件が満たされたと判断する。このように、処理の終了条件は特定の条件に限らない。

このような判断の結果、処理の終了条件が満たされた場合には、図１０のフローチャートに従った処理は終了する。一方、処理の終了条件が満たされていない場合には、処理はステップＳ１００３に進む。

次に、本実施形態の特徴について説明する。先ず、撮影姿勢が変わる場合における従来のテンプレート特徴の抽出及び相関演算について、図６を用いて説明する。入力画像６０１は、対象物６０２を縦撮りで撮影した撮影画像である。以下では、このような入力画像６０１からテンプレート特徴を生成して登録するケースについて説明する。なお、縦撮りの場合も画像入力部２０２が出力する入力画像は横長のラスタ画像であるものとする（入力画像内で対象物が回転して撮像されている）。

この場合、先ず撮影姿勢（この場合は縦撮り）に応じて入力画像６０１を回転させ、該回転させた入力画像６０３に対して係数パターン６０４を用いたＣＮＮ処理を行って特徴マップを取得する。係数パターン６０４は正立の対象物に対する学習によって得られるものであるため、撮影姿勢が正立の場合と同様の特徴マップの抽出を行うためには入力画像６０１を回転させる必要がある。そして、取得した特徴マップから対象物６０６の位置における領域の特徴をテンプレート特徴６０５として抽出する（図６では説明上意図的にずらしているが、テンプレート特徴６０５の実際の位置は対象物６０６の位置である）。そしてこの場合、テンプレート特徴６０５が、後段の相関演算のために登録される。

テンプレート特徴６０５の登録後に、新たな縦撮りの入力画像６０７が入力されると、該入力画像６０７の撮影姿勢に応じて該入力画像６０７を回転させ、該回転させた入力画像６０８に対して係数パターンを用いたＣＮＮ処理を行って特徴マップを取得する。そして、取得した特徴マップと、先に登録したテンプレート特徴６０５と、から相関マップ６０９を生成し、該相関マップ６０９から検出マップ６１０を生成する。

対象物６０６に対して撮影姿勢が正立である入力画像６１２の場合、画像の回転は不要である。この場合、該入力画像６１２に対して係数パターンを用いてＣＮＮ処理を行って特徴マップを取得し、該特徴マップと、先に登録したテンプレート特徴６０５と、から相関マップ６１４を生成し、該相関マップ６１４から検出マップ６１５を生成する。

従来ではこのように、撮影姿勢に応じて入力画像を回転させて処理していた。しかし、一般に入力画像の画素数は多いため、入力画像の回転処理に要する処理時間が増大する・入力画像の回転処理のためのバッファメモリが増大する等、処理コストが増大する。一般的に縦横画像変換にはフレームメモリが必要であり、例えば、廉価な撮影装置では大きな課題となる。

これに対し、本実施形態において、撮影姿勢が変わる場合でのテンプレート特徴の抽出及び相関演算について、図７を用いて説明する。対象物を縦撮りで撮影した入力画像７０１の場合、入力画像７０１を回転する代わりに係数パターン７０２を時計回りに９０度回転させ、該回転させた係数マップ７０２と入力画像７０１とを用いたＣＮＮ処理を行うことで特徴マップを生成する。そして特徴マップにおける対象物の領域内のＣＮＮ特徴群をテンプレート特徴７０４ａとして取得する。そしてこのテンプレート特徴７０４ａを、登録時の撮影姿勢に応じて回転させて登録する。具体的には、テンプレート特徴７０４ａを反時計回りに９０度回転（係数マップ７０２の回転方向とは逆の回転方向に９０度回転）させたテンプレート特徴７０４ｂを登録する。この場合、以下に説明するように、相関演算時には、撮影姿勢によらずに常に登録したテンプレート７０４ｂを用いて相関演算を実行することが可能になる。

相関演算時における撮影姿勢が縦撮りである新たな入力画像７０５が得られたとする。この場合、係数マップ７０６を時計回りに９０度回転させ、該回転させた係数マップ７０６と入力画像７０５とを用いたＣＮＮ処理を行うことで特徴マップ７０９を取得する。そして、該取得した特徴マップ７０９と、先の登録したテンプレート特徴７０４ｂを時計回りに９０度回転させたテンプレート特徴７０８と、の相関演算を行って相関マップ７１１を生成する。そして、相関マップ７１１に対して（時計回りに９０度回転させた係数マップ７１０を用いて）ＣＮＮ処理を行って、検出マップを生成する。

一方、相関演算時における撮影姿勢が正立の姿勢である入力画像７１２が得られたとする。この場合、回転させない係数パターン７１３と入力画像７１２とを用いたＣＮＮ処理を行うことで特徴マップ７１６を取得する。そして、該取得した特徴マップ７１６と、先の登録したテンプレート特徴７０４ｂと、の相関演算を行って相関マップ７１８を生成する。そして、相関マップ７１８に対して（回転させない係数パターン７１７を用いて）ＣＮＮ処理を行って、検出マップを生成する。

また、相関演算時における撮影姿勢が入力画像７０１とは逆方向の縦撮りである入力画像７１９が得られたとする。この場合、反時計回りに９０度回転させた係数パターン７２０と入力画像７１９とを用いたＣＮＮ処理を行うことで特徴マップ７２３を取得する。そして、該取得した特徴マップ７２３と、先の登録したテンプレート特徴７０４ｂを反時計回りに９０度回転させたテンプレート特徴７２２と、の相関演算を行って相関マップ７２５を生成する。そして、相関マップ７２５に対してＣＮＮ処理（反時計回りに９０度回転させた係数パターン７２４を用いて）を行って、検出マップを生成する。

このように、テンプレート特徴の登録時における撮影姿勢に応じてテンプレート特徴を回転させて登録することで、ハードウェアによる係数回転の仕組みを利用して、撮影姿勢によらず適切な相関マップを算出することができる。

次に、回転処理部１０７が行う係数パターンやテンプレート特徴の回転について説明する。回転処理部１０７が行う回転処理とは、係数パターンやテンプレート特徴といった二次元配列の回転処理であり、これは、二次元配列からの要素の読み出し順を変更することでなされる。

図３に示す如く、Ｉ／Ｆ部１０１を介してＣＰＵ２０３から取得した３ｘ３の係数パターンはバッファ３０３に格納され、バッファ１０４から読み出した３ｘ３単位の特徴マップはバッファ３０４に格納される。

係数パターンを格納するバッファ３０３は９個のレジスタ（Ｃ_０，０、Ｃ_０，１、Ｃ_０，２、Ｃ_１，０、Ｃ_１，１、Ｃ_１，２、Ｃ_２，０、Ｃ_２，１、Ｃ_２，２）を有する。９個のレジスタのそれぞれには、３ｘ３の係数パターンにおいて対応する位置のＣＮＮ係数が格納される。つまり、レジスタＣ_０，０には係数パターンにおいて最上行の左端のＣＮＮ係数が格納される。Ｃ_０，１には係数パターンにおいて最上行の中央のＣＮＮ係数が格納される。Ｃ_０，２には係数パターンにおいて最上行の右端のＣＮＮ係数が格納される。また、レジスタＣ_１，０には係数パターンにおいて中央行の左端のＣＮＮ係数が格納される。Ｃ_１，１には係数パターンにおいて中央行の中央のＣＮＮ係数が格納される。Ｃ_１，２には係数パターンにおいて中央行の右端のＣＮＮ係数が格納される。また、レジスタＣ_２，０には係数パターンにおいて最下行の左端のＣＮＮ係数が格納される。Ｃ_２，１には係数パターンにおいて最下行の中央のＣＮＮ係数が格納される。Ｃ_２，２には係数パターンにおいて最下行の右端のＣＮＮ係数が格納される。

特徴マップを格納するバッファ３０４は９個のレジスタ（Ｆ_０，０、Ｆ_０，１、Ｆ_０，２、Ｆ_１，０、Ｆ_１，１、Ｆ_１，２、Ｆ_２，０、Ｆ_２，１、Ｆ_２，２）を有する。９個のレジスタのそれぞれには、３ｘ３の特徴マップにおいて対応する位置のＣＮＮ特徴が格納される。つまり、レジスタＦ_０，０には特徴マップにおいて最上行の左端のＣＮＮ特徴が格納される。Ｆ_０，１には特徴マップにおいて最上行の中央のＣＮＮ特徴が格納される。Ｆ_０，２には特徴マップにおいて最上行の右端のＣＮＮ特徴が格納される。また、レジスタＦ_１，０には特徴マップにおいて中央行の左端のＣＮＮ特徴が格納される。Ｆ_１，１には特徴マップにおいて中央行の中央のＣＮＮ特徴が格納される。Ｆ_１，２には特徴マップにおいて中央行の右端のＣＮＮ特徴が格納される。また、レジスタＦ_２，０には特徴マップにおいて最下行の左端のＣＮＮ特徴が格納される。Ｆ_２，１には特徴マップにおいて最下行の中央のＣＮＮ特徴が格納される。Ｆ_２，２には特徴マップにおいて最下行の右端のＣＮＮ特徴が格納される。

演算処理部１０２（乗算器３０１）は、バッファ３０３に格納されている係数パターンに基づいて回転処理部１０７から出力されるＣＮＮ係数データ列と、バッファ３０４に格納されている特徴マップと、の積和演算を行う。また、演算処理部１０２（累積加算器３０２）は、該積和演算の結果の累積加算を行うことで上記の式に従った畳み込み演算を実現する。

後述するように、回転処理部１０７は、バッファ３０３に格納されている係数パターンの各ＣＮＮ係数を、姿勢情報に応じて決まる順序で読み出し、該読み出したＣＮＮ係数を、該読み出した順番で並べた一次元のデータ列（ＣＮＮ係数データ列）を出力する。つまり、ＣＮＮ係数データ列における先頭からｎ（１≦ｎ≦９）番目のＣＮＮ係数は、バッファ３０３に格納されている係数パターンからｎ番目に読み出されたＣＮＮ係数である。

また乗算器３０１は、バッファ３０４における９個のレジスタをラスターデータ順（Ｆ_０，０、Ｆ_０，１、Ｆ_０，２、Ｆ_１，０、Ｆ_１，１、Ｆ_１，２、Ｆ_２，０、Ｆ_２，１、Ｆ_２，２の順）で参照し、該参照したレジスタに登録されているＣＮＮ特徴を読み出す。

そして乗算器３０１は、ＣＮＮ係数データ列におけるｎ（１≦ｎ≦９）番目のＣＮＮ係数と、バッファ３０４からｎ番目に読み出されたＣＮＮ特徴と、の乗算結果を求め、求めた９個の乗算結果を累積加算することで、一つの空間フィルタ演算を完了する。実際にはＣＮＮの結合関係に応じて、複数の係数と複数の特徴面に対応するデータの累積和を算出する。即ち、前階層の複数の特徴面に対する空間フィルタ演算を特徴面に対して実行する。従って空間フィルタの数は全階層の特徴面数×処理対象の特徴面数となる。

このような場合に、回転処理部１０７によって係数パターンを回転させる場合について説明する。なお、上記の通り、係数パターンもテンプレート特徴も同じ二次元配列であるから、以下の説明はテンプレート特徴の回転にも同様に適用可能である。

回転処理部１０７の構成例について、図８のブロック図を用いて説明する。係数選択部８０２は、ＣＰＵ２０３からＩ／Ｆ部１０１を介して取得した姿勢情報と対応付けて係数選択テーブル８０３に登録されている読み出し順を取得する。係数選択テーブル８０３には、例えば、撮影姿勢に応じて４種類の読み出し順が格納されている。例えば、姿勢情報が「縦持ち」であることを示している場合、係数パターン８０１を時計回りに９０度回転させる。然るに、係数選択テーブル８０３には、「縦持ち」を示す姿勢情報と、読み出し順「Ｃ_２，０、Ｃ_１，０、Ｃ_０，０、Ｃ_２，１、Ｃ_１，１、Ｃ_０，１、Ｃ_２，２、Ｃ_１，２、Ｃ_０，２」と、が対応付けて登録されている。

そして係数選択部８０２は、バッファ３０３が有する９個のレジスタを、該取得した読み出し順で参照する。例えば、姿勢情報が「縦持ち」であることを示している場合、係数パターン８０１を時計回りに９０度回転させる。然るに、バッファ３０３が有する９個のレジスタを「Ｃ_２，０、Ｃ_１，０、Ｃ_０，０、Ｃ_２，１、Ｃ_１，１、Ｃ_０，１、Ｃ_２，２、Ｃ_１，２、Ｃ_０，２」の順で参照する。そして係数選択部８０２は、参照した順にレジスタに格納されているＣＮＮ係数を読み出し、該読み出したＣＮＮ係数を、該読み出した順番で並べた一次元のデータ列（ＣＮＮ係数データ列）を出力する。なお、レジスタを「Ｃ_２，０、Ｃ_１，０、Ｃ_０，０、Ｃ_２，１、Ｃ_１，１、Ｃ_０，１、Ｃ_２，２、Ｃ_１，２、Ｃ_０，２」の順で参照し、該参照したレジスタに格納されているＣＮＮ係数を読み出し、該読み出したＣＮＮ係数を該読み出した順番でラスターデータ順に並べた３ｘ３のパターンは、バッファ３０３が保持している係数パターン８０１を時計回りに９０度回転させた係数パターンとなっている。然るに、レジスタを「Ｃ_２，０、Ｃ_１，０、Ｃ_０，０、Ｃ_２，１、Ｃ_１，１、Ｃ_０，１、Ｃ_２，２、Ｃ_１，２、Ｃ_０，２」の順で参照し、該参照したレジスタに格納されているＣＮＮ係数を読み出し、該読み出したＣＮＮ係数を、該読み出した順番で並べた一次元のデータ列（ＣＮＮ係数データ列）は、バッファ３０３が保持している係数パターン８０１を時計回りに９０度回転させた係数パターンとなっている。つまり、データ配列の次元数が違うだけである。

そして係数選択テーブル８０３は、このようにして取得したＣＮＮ係数データ列を乗算器３０１に対して出力する。なお、ＣＮＮ係数データ列の生成は乗算器３０１が行うようにしても良い。

なお、係数選択部８０２は、バッファ３０３をレジスタで構成する場合には、その出力を順番に選択するセレクタで構成することができる。このように、回転処理部１０７は、比較的小さいデータ量の係数選択テーブル８０３と係数選択のセレクタと、を用いて構成することができ、回転処理部１０７に必要なコストの上昇は僅かである。また、複数種類のカーネルサイズに対応する場合、カーネルの種類に応じて、係数選択テーブル８０３に格納する情報と係数選択部８０２の構成を変更するだけで良い。

次に、バッファ１０３におけるメモリ領域の構成例について、図９を用いて説明する。図９は、図４の例におけるバッファ１０３のメモリ領域の構成例を示しており、メモリ領域９０１には係数パターン４０２／係数パターン４０７が格納されており、メモリ領域９０２には係数パターン４１４が格納されている。また、メモリ領域９０３には、テンプレート特徴４１１が格納されている。

メモリ領域９０１やメモリ領域９０２に格納されている係数パターンは、制御部１０６による制御に基づいて、規定の単位（図８の例では３ｘ３の単位）でバッファ３０３に転送される。また、メモリ領域９０３に格納されているテンプレート特徴は、制御部１０６による制御に基づいて、規定の単位（図８の例では３ｘ３の単位）でバッファ３０３に転送される。

このような構成により、係数パターンやテンプレート特徴の回転を実現させることができる。例えば、図７においてテンプレート特徴７０４ａを回転させたテンプレート特徴７０４ｂをバッファ１０３に格納する場合、テンプレート特徴７０４ａにおいてラスターデータ順に並んでいる要素６，３，０，７，４，１，８，５，２を、要素０，１，２，３，４，５，６，７，８の順に読み出して、ラスターデータ順に要素０，１，２，３，４，５，６，７，８が並んでいる３ｘ３のテンプレート特徴７０４ｂを形成し、該テンプレート特徴７０４ｂをバッファ１０３に格納する。連続する画像に対して相関演算を実行する場合、撮影姿勢に変動があった場合にも、姿勢情報の設定だけで撮影姿勢に対応した処理を実行することができる。

このように、本実施形態によれば、テンプレート特徴の生成時における撮影姿勢に応じてテンプレート特徴を正立方向に回転して格納するので、相関演算時は撮影姿勢に応じて相関演算を効率的に実行することができる。つまり、相関演算時は撮影姿勢にかかわらず、撮影画像の回転を要さず、係数マップの回転機構を利用してテンプレート特徴を処理することができる。即ち共通のハードウェアでＣＮＮ処理と相関演算を姿勢変動に対応して処理することができる。

これにより、本実施形態に係る画像処理装置を対象物の追尾処理に適用した場合、撮影姿勢が変わる場合（例えば、画像処理装置の持ち方を変えながら撮影する場合）であっても、特別な処理無く対象物をスムーズに追尾することができる。

なお、本実施形態では、画像処理装置は画像入力部２０２を有するものとして説明したが、これに限らず、画像入力部２０２は外付けの装置であっても良い。例えば、画像処理装置は、外部の画像入力部２０２から有線もしくは無線のネットワークを介して受信した入力画像を元に上記の各種の処理を実行するようにしても良い。

同様に、画像処理装置は姿勢情報を取得する取得部２１０を有するものとして説明したが、これに限らず、取得部２１０は外付けの装置であっても良い。例えば、画像処理装置は、外部の取得部２１０から有線もしくは無線のネットワークを介して受信した姿勢情報を用いて上記の各種の処理を実行するようにしても良い。

また、本実施形態では、撮影姿勢の計測に姿勢センサを用いたが、撮影姿勢を取得するための方法は特定の方法に限らない。例えば、複数枚の撮影画像から撮影姿勢を推定しても良いし、他の種類のセンサを用いて撮影姿勢を計測しても良いし、幾つかの手法を組み合わせて撮影姿勢を取得するようにしても良い。また、ユーザがユーザインターフェース部２０８を操作して姿勢情報を入力するようにしても良い。

また、本実施形態では、階層的な空間フィルタ演算のためにＣＮＮを用いたが、階層的な空間フィルタ演算は特定の手法に限らず、例えば、他の種類の階層型ニューラルネットワークを用いて実施しても構わない。

また、相関演算部２０１が行うものとして説明した各種の処理を、ＣＰＵ２０３、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサが実行しても良い。

［第２の実施形態］
本実施形態では、第１の実施形態との差分について説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとする。第１の実施形態では、各層における特徴マップをバッファ１０４に格納していたが、その場合、バッファ１０４に要求される容量が増大する。特に各層の特徴マップの枚数が多い場合には容量の増大が問題となる。そこで、階層毎の処理ではなく小領域毎に複数の階層を跨いで処理する構成でも良い。この場合、各層の処理を規定の単位（例えばライン単位）で処理する。これにより、例えば、図４に例示した階層的な処理の中間結果である特徴マップ４１０や相関マップ４１３を格納することを考える。すると、（バッファ１０４に格納する場合）は、（空間フィルタ演算に必要なライン数×マップの数）に対応するメモリ領域をバッファ１０４に確保して処理可能である。すなわち、バッファ１０４をライン単位の循環バッファとして利用して階層的なネットワークを処理する。

図１１は、ラインバッファを利用して処理する場合のＣＮＮの特徴面の例を模式的に説明する図である。１１０１は入力画像４０６に対する循環ラインバッファ、１１０２は特徴マップ４１０に対する循環ラインバッファ、１１０３は相関マップ４１３に対する循環ラインバッファを示している。なお、図１１は空間フィルタのサイズが３×３の場合の例を示している。最終層の検出マップ４１７を保持するためのメモリは全ての結果を保持するフレームバッファで構成する。例えば特徴マップ４１０については、入力画像４０６のラインバッファ１１０１にフィルタ処理可能な参照データが蓄積されたのちに１ライン分の畳み込み演算を実行する。循環ラインバッファ１１０１～１１０３をそれぞれライン単位で循環しながら特徴マップや相関マップを算出する。演算処理部１０２はライン単位で処理する特徴面を切り替えながら階層を跨いでネットワークを処理することになる。

ラインバッファで処理するための制御は、例えば制御部１０６が司り、入力画像のライン毎に畳み込み演算４０８、４１２，４１５をステップＳ１００９で順次行う。このような処理は例えば特許第5184824号に開示されている構成で実現することができる。

なお、畳み込み演算時は姿勢情報に従って、回転処理部１０７にＣＮＮ係数の回転方向を指定する。本実施形態では、テンプレート特徴は登録時の撮影姿勢にかかわらず常に正立の状態で登録するため、相関演算時は撮影姿勢に応じてすべての層で同じ回転を指定して良い。つまり、複数の層を跨いで相関演算を処理する場合も撮影姿勢の変動に対応して層間で特別な処理を行うことなく効率的に処理することができる。

［第３の実施形態］
第１，２の実施形態では、二次元配列の回転を該二次元配列の要素の読み出し順を変更することで実施していたが、二次元配列の回転は他の方法でもって実施しても良い。例えば、ハードウェアによる回転機構により二次元配列を回転させるようにしても良い。

また、複数角度に回転させた二次元配列を予め作成してＲＡＭ２０５に保持しておき、該予め作成した複数の二次元配列のうち姿勢情報に応じた１つを選択して使用するようにしても良い。例えば、時計回りに９０度回転させた二次元配列、反時計回りに９０度回転させた二次元配列、時計回り／反時計回りに１８０度回転させた二次元配列、を予め作成しておく。そして、例えば姿勢情報が時計回りの縦撮りを示す場合には、時計回りに９０度回転させた二次元配列を選択し、姿勢情報が反時計回りの縦撮りを示す場合には、反時計回りに９０度回転させた二次元配列を選択する。

また、第１，２の実施形態では、テンプレート特徴は、特徴マップにおける局所的な領域から抽出されたＣＮＮ特徴のマップであるものとしたが、これに限らず、特徴マップに基づいて得られるＣＮＮ特徴のマップであれば良い。たとえば、テンプレート特徴は、特徴マップにおける一部の領域から抽出されたＣＮＮ特徴を加工したマップであっても良い。

また、第１，２の実施形態では、テンプレート特徴の登録では、撮影姿勢に応じて正立したテンプレート特徴に変換して登録するものとして説明したが、撮影姿勢にかかわらず、予め定める特定の向きに変換して登録するようにしても良い。但しこの場合、例えば相関マップ４１３を算出する場合のテンプレート特徴の回転が、他の畳み込み演算と異なるように制御する必要がある。

また、第１，２の実施形態では、テンプレート特徴の取得時の画像と相関演算対象の画像が異なる場合について説明したが、テンプレート特徴の取得時の画像と相関演算対象の画像とが同じであっても良い。

また、図１に示した回転処理部１０７、演算処理部１０２、変換処理部１０５やそれらに含まれる１以上の機能部はハードウェアで実装しても良いし、ソフトウェアで実装しても良い。後者の場合、このソフトウェアは制御部１０６やＣＰＵ２０３によって実行され、これにより、対応する機能部の機能が実現される。

また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の画像処理装置、画像処理方法、及びコンピュータプログラムを含む。

（項目１）
第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成する第１生成手段と、
前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する登録手段と、
第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成する第２生成手段と、
前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行う演算手段と、
前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する検出手段と
を備えることを特徴とする画像処理装置。

（項目２）
前記第１生成手段は、前記フィルタ係数を前記第１姿勢情報に応じて回転させて設定し、
前記登録手段は、前記取得したテンプレート特徴を、前記第１生成手段による前記フィルタ係数の回転とは逆に回転させて登録することを特徴とする項目１に記載の画像処理装置。

（項目３）
前記第２生成手段は、前記フィルタ係数を前記第２姿勢情報に応じて回転させて設定し、
前記演算手段は、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２生成手段による前記フィルタ係数の回転に合わせて回転させたテンプレート特徴と、の相関演算を行うことを特徴とする項目２に記載の画像処理装置。

（項目４）
前記登録手段は、前記第１特徴マップにおける前記対象物の領域内の特徴をテンプレート特徴として取得することを特徴とする項目１乃至３の何れか１項目に記載の画像処理装置。

（項目５）
前記第１生成手段は、前記第１配列で設定されたフィルタ係数と前記第１撮影画像との畳み込み演算に基づいて前記第１特徴マップを生成し、
前記第２生成手段は、前記第２配列で設定されたフィルタ係数と前記第２撮影画像との畳み込み演算に基づいて前記第２特徴マップを生成することを特徴とする項目１乃至４の何れか１項目に記載の画像処理装置。

（項目６）
前記演算手段は、前記第２特徴マップと、前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の畳み込み演算により前記相関演算を行うことを特徴とする項目１乃至５の何れか１項目に記載の画像処理装置。

（項目７）
前記畳み込み演算は、階層型ニューラルネットワークを用いて実行されることを特徴とする項目５または６に記載の画像処理装置。

（項目８）
前記畳み込み演算は、前記階層型ニューラルネットワークの層ごとに規定の単位で行われることを特徴とする項目７に記載の画像処理装置。

（項目９）
前記検出手段は、前記相関演算の結果に基づいて、前記第２撮影画像における前記対象物の位置の尤度を示す検出マップを生成することを特徴とする項目１乃至８の何れか１項目に記載の画像処理装置。

（項目１０）
さらに、
前記検出マップに応じて撮影に係る制御を行う手段を備えることを特徴とする項目９に記載の画像処理装置。

（項目１１）
さらに、
前記第１撮影画像及び前記第２撮影画像として撮影した画像を取得する手段を備えることを特徴とする項目１乃至１０の何れか１項目に記載の画像処理装置。

（項目１２）
さらに、
前記第１姿勢情報及び前記第２姿勢情報を取得する手段を備えることを特徴とする項目１乃至１１の何れか１項目に記載の画像処理装置。

（項目１３）
画像処理装置が行う画像処理方法であって、
前記画像処理装置の第１生成手段が、第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成する第１生成工程と、
前記画像処理装置の登録手段が、前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する登録工程と、
前記画像処理装置の第２生成手段が、第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成する第２生成工程と、
前記画像処理装置の演算手段が、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行う演算工程と、
前記画像処理装置の検出手段が、前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する検出工程と
を備えることを特徴とする画像処理方法。

（項目１４）
コンピュータを、項目１乃至１２の何れか１項目に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：Ｉ／Ｆ部１０２：演算処理部１０３：バッファ１０４：バッファ１０５：変換処理部１０６：制御部１０７：回転処理部

Claims

第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成する第１生成手段と、
前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する登録手段と、
第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成する第２生成手段と、
前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行う演算手段と、
前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する検出手段と
を備えることを特徴とする画像処理装置。
前記第１生成手段は、前記フィルタ係数を前記第１姿勢情報に応じて回転させて設定し、
前記登録手段は、前記取得したテンプレート特徴を、前記第１生成手段による前記フィルタ係数の回転とは逆に回転させて登録することを特徴とする請求項１に記載の画像処理装置。
前記第２生成手段は、前記フィルタ係数を前記第２姿勢情報に応じて回転させて設定し、
前記演算手段は、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２生成手段による前記フィルタ係数の回転に合わせて回転させたテンプレート特徴と、の相関演算を行うことを特徴とする請求項２に記載の画像処理装置。
前記登録手段は、前記第１特徴マップにおける前記対象物の領域内の特徴をテンプレート特徴として取得することを特徴とする請求項１に記載の画像処理装置。
前記第１生成手段は、前記第１配列で設定されたフィルタ係数と前記第１撮影画像との畳み込み演算に基づいて前記第１特徴マップを生成し、
前記第２生成手段は、前記第２配列で設定されたフィルタ係数と前記第２撮影画像との畳み込み演算に基づいて前記第２特徴マップを生成することを特徴とする請求項１に記載の画像処理装置。
前記演算手段は、前記第２特徴マップと、前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の畳み込み演算により前記相関演算を行うことを特徴とする請求項１に記載の画像処理装置。
前記畳み込み演算は、階層型ニューラルネットワークを用いて実行されることを特徴とする請求項５に記載の画像処理装置。
前記畳み込み演算は、前記階層型ニューラルネットワークの層ごとに規定の単位で行われることを特徴とする請求項７に記載の画像処理装置。
前記検出手段は、前記相関演算の結果に基づいて、前記第２撮影画像における前記対象物の位置の尤度を示す検出マップを生成することを特徴とする請求項１に記載の画像処理装置。
さらに、
前記検出マップに応じて撮影に係る制御を行う手段を備えることを特徴とする請求項９に記載の画像処理装置。
さらに、
前記第１撮影画像及び前記第２撮影画像として撮影した画像を取得する手段を備えることを特徴とする請求項１に記載の画像処理装置。
さらに、
前記第１姿勢情報及び前記第２姿勢情報を取得する手段を備えることを特徴とする請求項１に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の第１生成手段が、第１撮影画像の撮影姿勢を示す第１姿勢情報に基づく第１配列で設定されたフィルタ係数を該第１撮影画像に適用して第１特徴マップを生成する第１生成工程と、
前記画像処理装置の登録手段が、前記第１特徴マップに基づいて対象物に対応するテンプレート特徴を取得し、該テンプレート特徴を前記第１姿勢情報に基づく配列で登録する登録工程と、
前記画像処理装置の第２生成手段が、第２撮影画像の撮影姿勢を示す第２姿勢情報に基づく第２配列で設定されたフィルタ係数を該第２撮影画像に適用して第２特徴マップを生成する第２生成工程と、
前記画像処理装置の演算手段が、前記第２特徴マップと、前記登録されたテンプレート特徴を前記第２姿勢情報に基づく配列で設定されたテンプレート特徴と、の相関演算を行う演算工程と、
前記画像処理装置の検出手段が、前記相関演算の結果に基づいて前記第２撮影画像から前記対象物を検出する検出工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。