JP2023086022A

JP2023086022A - 画像処理装置、撮像装置、画像処理方法

Info

Publication number: JP2023086022A
Application number: JP2021200395A
Authority: JP
Inventors: 雄二郎添田; Yujiro Soeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2023-06-21

Abstract

【課題】撮像画像からユーザの意図を考慮した追尾対象の再検出を実施するための技術を提供すること。【解決手段】撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する。撮像画像中の追尾対象の追尾が成功していないと判定された場合には、該占有度および該特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う。【選択図】図３

Description

本発明は、撮像画像からの追尾対象の検出領域の再検出技術に関するものである。

画像から物体を検出する物体検出処理が、デジタルカメラ等の撮像装置の機能に応用されている。これまで物体検出処理は、人物の顔や顔器官（瞳、鼻、口）、人物の全身などの特定のカテゴリの物体に対して行われるものが多かった。近年、深層学習の発達に伴い、様々なカテゴリの物体の情報を用いて物体らしさを学習させることで、動物や乗り物など、不特定のカテゴリの物体（以下、不特定物体）を検出する技術が実現されてきている。

デジタルカメラにおいては、物体検出処理は、検出した物体を被写体として自動的に合焦するオートフォーカス（ＡＦ）技術に応用されている。ＡＦ技術の１つに、同一の被写体に継続的に合焦する追尾機能がある。追尾機能は、追尾対象を連続する画像中において同定する機能であるが、追尾対象が他の物体に遮蔽されて見えなくなってしまった等の場合には、追尾対象を消失してしまう。追尾対象を消失してしまった場合、再検出を行う必要がある。追尾対象の消失時における再検出方法として、特許文献１には、探索範囲のサイズを拡大して追尾対象の追尾特徴量をもとに再探索を実行する技術が開示されている。

特開２００９－１７２７１号公報

しかしながら、追尾特徴量のみによる同定を行う場合、追尾対象が動物のように物体全体が似たようなテクスチャを持つ場合、再検出前後で物体サイズが変化していると、追尾対象（追尾部位）が変化してしまう可能性がある。さらに、追尾対象が不特定物体で消失した際に再検出を実行した場合、多数の不特定物体が検出されるので、その中からユーザの意図通りに元の追尾対象を検出することは難しい。本発明は、撮像画像からユーザの意図を考慮した追尾対象の再検出を実施するための技術を提供する。

本発明の一様態は、撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する登録手段と、撮像画像中の追尾対象の追尾が成功していないと判定された場合には、前記占有度および前記特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う再検出手段とを備えることを特徴とする。

本発明によれば、撮像画像からユーザの意図を考慮した追尾対象の再検出を実施することができる。

撮像装置１００の構成例を示すブロック図。（ａ）は撮像装置１００のハードウェア構成例を示すブロック図、（ｂ）は画像解析装置２００および学習装置７００のハードウェア構成例を示すブロック図。撮像装置１００の機能構成例を示すブロック図。撮像装置１００が行う処理のフローチャート。ステップＳ４０１における処理の詳細を示すフローチャート。ニューラルネットワークの構成例を示す図。検出領域の占有度について説明する図。撮像画像の一例を示す図。記憶部２１８に格納された占有度および追尾特徴の一例を示す図。追尾特徴の一例を示す図。学習装置７００の機能構成例を示すブロック図。学習装置７００によるニューラルネットワークの学習処理のフローチャート。学習データの作成方法を説明する図。（ａ）は第１画像の一例を示す図、（ｂ）は第２画像の一例を示す図。撮像装置１００の機能構成例を示すブロック図。撮像画像の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
本実施形態では、動画像における各フレームの画像や定期的若しくは不定期的に撮像された静止画像を撮像画像として取得し、該撮像画像から検出／再検出した追尾対象（オブジェクトの一部若しくは全部）を追尾する追尾処理や、該追尾対象を被写体として自動的に合焦するＡＦ処理を行う撮像装置について説明する。

図１に示す如く、本実施形態に係る撮像装置１００は、撮像画像に対して各種の解析処理を行って、「追尾対象の画像領域」の検出／再検出を行う画像解析装置２００を有する。また、撮像装置１００には、該画像解析装置２００が上記の動作を実施するために使用するニューラルネットワークの学習処理を行う学習装置７００が接続されている。

まず、撮像装置１００のハードウェア構成例について、図２（ａ）のブロック図を用いて説明する。なお、図２（ａ）には、以下の説明に関連する主な構成を示しており、撮像装置１００が図２（ａ）に示した装置以外の装置を含むことを排除するものではない。

演算処理装置１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及び／又はＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサと、該プロセッサのワークエリアを有するメモリと、を有する。演算処理装置１０１は、記憶装置１０２に保存されているコンピュータプログラムやデータを用いて各種の処理を実行することで、撮像装置１００（画像解析装置２００を含む）や学習装置７００の動作制御を行う。

記憶装置１０２は、磁気記憶装置、半導体メモリ等のストレージデバイスである。記憶装置１０２には、撮像装置１００（画像解析装置２００を含む）や学習装置７００の動作制御を演算処理装置１０１に行わせるためのコンピュータプログラムやデータが保存されている。また、記憶装置１０２には、撮像画像をファイルとして保存することができる。

撮像部１０５は、レンズ、絞り、外界からの光をアナログ信号に変換するＣＣＤやＣＭＯＳ等の撮像素子、該アナログ信号をデジタル信号に変換するＡ／Ｄ変換器、該デジタル信号に基づいて撮像画像を生成する生成回路を有する。さらに撮像部１０５は、絞りを制御する装置、フォーカスを制御する装置、等を有する。撮像部１０５において、撮像素子は、レンズを介して入光した光を光電変換によりアナログ信号に変換し、Ａ／Ｄ変換器は、該アナログ信号をディジタル信号に変換し、生成回路は該デジタル信号に基づいて撮像画像を生成して出力する。また撮像部１０５は、演算処理装置１０１からの指示に応じてＡＦ機能、ＡＥ機能、ＡＷＢ機能等を実施する。撮像部１０５により定期的若しくは不定期的に撮像された静止画像、もしくは撮像部１０５により撮像された動画像における各フレームの画像は、撮像画像として記憶装置１０２に保存される。

画像解析装置２００は、撮像部１０５により生成された撮像画像から追尾対象の検出／再検出を行う。演算処理装置１０１は、画像解析装置２００により検出／再検出された追尾対象を追尾する追尾処理や、該追尾対象を被写体として自動的に合焦するＡＦ処理を行うべく、撮像部１０５を制御する。

入力装置１０３は、マウス、キーボード、タッチパネルデバイス、ボタン等のユーザインターフェースであり、ユーザが操作することで各種の指示を演算処理装置１０１に対して入力することができる。

出力装置１０４は、液晶パネルなどの表示画面を有する装置であり、演算処理装置１０１による処理結果を画像や文字などでもって該表示画面に表示させる。本実施形態では、液晶パネルとしての出力装置１０４の表示画面に、タッチパネルデバイスとしての入力装置１０３を重ねてタッチパネル画面を構成する。タッチパネル画面は、演算処理装置１０１による処理結果を画像や文字などでもって表示すると共に、ユーザからの操作入力を受け付ける。

図２（ａ）に示した演算処理装置１０１、記憶装置１０２、撮像部１０５、画像解析装置２００、入力装置１０３、出力装置１０４、は何れもシステムバス１０７に接続されている。なお、撮像装置１００は、例えば、各種の装置間で通信を行うためのＩ／Ｏ部を有しても良い。Ｉ／Ｏ部は例えば、メモリーカード、ＵＳＢケーブル等の入出力部、有線、無線等による送受信部である。

次に、画像解析装置２００および学習装置７００のハードウェア構成例について、図２（ｂ）のブロック図を用いて説明する。本実施形態では説明を簡単にするために、画像解析装置２００および学習装置７００は何れも同じハードウェア構成（図２（ｂ））を有するものとして説明する。しかし、画像解析装置２００および学習装置７００のそれぞれのハードウェア構成は異なっていても良い。

演算処理装置１３０は、ＣＰＵ及び／又はＧＰＵ等のプロセッサと、該プロセッサのワークエリアを有するメモリと、を有する。演算処理装置１３０は、記憶装置１３１に保存されているコンピュータプログラムやデータを用いて各種の処理を実行することで、画像解析装置２００／学習装置７００全体の動作制御を行う。

記憶装置１３１は、磁気記憶装置、半導体メモリ等のストレージデバイスである。記憶装置１３１には、画像解析装置２００／学習装置７００の動作制御を演算処理装置１３１に行わせるためのコンピュータプログラムやデータが保存されている。

Ｉ／Ｆ１３２は、有線および／または無線のネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。画像解析装置２００のＩ／Ｆ１３２は、学習装置７００との間のデータ通信を行うための通信インターフェースである。学習装置７００のＩ／Ｆ１３２は、画像解析装置２００との間のデータ通信を行うための通信インターフェースである。演算処理装置１３０、記憶装置１３１、Ｉ／Ｆ１３２は何れもシステムバス１３３に接続されている。

次に、撮像装置１００の機能構成例について、図３のブロック図を用いて説明する。以下では、図３に示した各機能部を処理の主体として説明する場合がある。しかし、実際には、図３に示した機能部のうち追尾部２１９、ＡＦ処理部２２０、記憶部２１８を除く各機能部の機能を演算処理装置１３０に実現させるためのコンピュータプログラムを該演算処理装置１３０が実行することで、該機能部の機能が実現される。同様に、図３に示した機能部のうち追尾部２１９、ＡＦ処理部２２０の機能を演算処理装置１０１に実現させるためのコンピュータプログラムを該演算処理装置１０１が実行することで、該追尾部２１９、該ＡＦ処理部２２０の機能が実現される。

取得部２１０は、撮像部１０５により生成された撮像画像を取得する。例えば、取得部２１０は、撮像部１０５により生成されたフルＨＤ（１９２０画素×１２８０画素）の撮像画像をリアルタイム（６０フレーム毎秒）で取得する。

取得部２３０は、取得部２１０が取得した撮像画像中のオブジェクトや該オブジェクトの一部（頭部、腕、足等）に係る情報を取得する。取得部２３０の機能構成例を図３（ｂ）のブロック図に示す。

抽出部２１１ａは、取得部２１０が取得した撮像画像から特徴量（物体特徴量）を抽出する。推定部２１２ａは、抽出部２１１ａが撮像画像から抽出した物体特徴量を用いて、該撮像画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定（検出）する。これにより推定部２１２ａは、撮像画像から推定した検出領域ごとに、該撮像画像における該検出領域の位置（中心位置、左上隅の位置等）、該検出領域のサイズ（縦サイズ及び横サイズ）、該検出領域に含まれる対象のオブジェクトらしさを表す尤度を取得する。以降、「特徴量」は、「特徴ベクトル」または「画像特徴」と同義である。

推定部２１３ａは、推定部２１２ａが撮像画像から推定したそれぞれの検出領域について、抽出部２１１ａが該撮像画像から抽出した物体特徴量を用いて、該撮像画像におけるオブジェクトの画像領域のうち該検出領域が占める割合を占有度として推定する。

抽出部２１４ａは、推定部２１２ａが撮像画像から推知したそれぞれの検出領域について、該検出領域に対応する特徴量（追尾特徴量）を抽出する。選択部２４０は、推定部２１２ａが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。そして選択部２４０は、該選択した検出領域について推定部２１３ａが推定した占有度、該選択した検出領域について抽出部２１４ａが抽出した追尾特徴量、を記憶部２１８に格納（登録）する。選択部２４０は、選択部２１５、入力部２１６、入力部２１７を有する。

入力部２１６は、取得部２１０が取得した撮像画像を出力装置１０４の表示画面上に表示させて、該撮像画像における追尾対象の位置を指示するユーザ操作を受け付ける。ユーザが入力装置１０３を操作して該撮像画像における追尾対象の位置を指示すると、入力部２１６は、該位置の画像座標を取得する。

入力部２１７は、ユーザが入力装置１０３を操作して入力した追尾対象の占有度の範囲（占有度範囲）を取得する。選択部２１５は、入力部２１６が取得した画像座標と、入力部２１７が取得した占有度範囲と、に基づいて、推定部２１２ａが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。そして選択部２１５は、追尾対象の検出領域について推定部２１３ａが推定した占有度、追尾対象の検出領域について抽出部２１４ａが抽出した追尾特徴量、を記憶部２１８に格納（登録）する。

追尾部２１９は、記憶部２１８に格納された追尾対象の検出領域の追尾特徴量と、選択部２１５が選択した追尾対象の検出領域もしくは再検出部２５０によって再検出された追尾対象の画像領域と、を用いて、取得部２１０が取得した撮像画像における該追尾対象を追尾する追尾処理を実行する。追尾処理については周知であるため、追尾処理に係る詳細な説明は省略する。

ＡＦ処理部２２０は、取得部２１０が取得した撮像画像において追尾部２１９が追尾している追尾対象の画像領域に対して、ＡＦ処理を実行する。ＡＦ処理については周知であるため、ＡＦ処理に係る詳細な説明は省略する。

判定部２２１は、追尾部２１９における追尾対象の追尾処理が成功しているか否かを判定する。再検出部２５０は、判定部２２１が「追尾部２１９における追尾対象の追尾処理が成功していない（失敗している）」と判定した場合に、撮像画像から追尾対象の再検出を行う。再検出部２５０の機能構成例を図３（ｃ）のブロック図に示す。

図３（ｃ）において、抽出部２１１ｂ、推定部２１２ｂ、推定部２１３ｂ、抽出部２１４ｂ、はそれぞれ、抽出部２１１ａ、推定部２１２ａ、推定部２１３ａ、抽出部２１４ａ、と同様に動作する。つまり再検出部２５０は、取得部２３０と同様、撮像画像からそれぞれの検出領域について占有度および追尾特徴量を取得する。

処理部２２２は、それぞれの検出領域について取得した占有度および追尾特徴量を、記憶部２１８に格納された追尾対象の検出領域の占有度および追尾特徴量と比較して、該それぞれの検出領域のうち追尾対象の検出領域を特定（再検出）する。

次に、このような撮像装置１００において追尾処理を実施するために該撮像装置１００が行う処理について、図４のフローチャートに従って説明する。ステップＳ４０１では、撮像画像に含まれているオブジェクトの全体若しくは一部のうち追尾対象の検出領域について占有度および追尾特徴量を記憶部２１８に格納するための処理が行われる。ステップＳ４０１における処理の詳細について、図５のフローチャートに従って説明する。

ステップＳ５０１では、取得部２１０は、撮像部１０５により生成された撮像画像を取得する。この撮像画像は、例えば、各画素におけるＲ（赤）の画素値、Ｇ（緑）の画素値、Ｂ（青）の画素値が何れも８ビットで表現されるＲＧＢカラー画像のビットマップデータである。

ステップＳ５０２では、抽出部２１１ａは、ステップＳ５０１で取得部２１０が取得した撮像画像から物体特徴量を抽出する。撮像画像から物体特徴量を抽出するための方法には様々な方法を適用することができるが、本実施形態では、抽出部２１１ａは、ニューラルネットワークを用いて撮像画像から物体特徴量を抽出する。撮像画像から物体特徴量を抽出するために用いるニューラルネットワークの構成例を図６に示す。

抽出部２１１ａは、畳み込み層とプーリング層とを繰り返すことにより、認識タスクを行うニューラルネットワークである。抽出部２１１ａは、複数の畳み込み層５１１、５１３、５１５と、複数のプーリング層５１２、５１４と、を有し、これらの層によって、入力画像（撮像画像）５３０から物体特徴量を抽出する。

畳み込み層では、入力画像または特徴マップに対して、例えば３×３サイズのフィルタを複数チャネル設定し、注目画素を中心に畳み込み演算を行い、複数チャネルに対応する複数の特徴マップ５５１、５５３、５５５を出力する。

プーリング層では、畳み込み層から出力された特徴マップを縮小した縮小特徴マップ５５２、５５４を生成する。２×２の範囲でプーリングを行う場合、特徴マップは１／４倍に縮小される。プーリングには最大値プーリングや平均値プーリングなどの方法を用いることができる。

なお、抽出部２１１ａに適用可能なニューラルネットワークの構成は図６に示した構成に限らず、例えば、図６で示したニューラルネットワークよりも多層にしても構わないし、チャネル数を変更しても構わない。

ステップＳ５０３では、推定部２１２ａは、ステップＳ５０２で抽出部２１１ａが撮像画像から抽出した物体特徴量を用いて、該撮像画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。この推定で推定部２１２ａは、撮像画像から推定した検出領域ごとに、該検出領域の位置、該検出領域のサイズ、オブジェクトらしさを表す尤度、を推定する。

本実施形態では、推定部２１２ａもニューラルネットワークを用いて撮像画像から検出領域を推定する。図６を例にとると、特徴マップ５５５を全結合層５５６に入力することで、検出領域（検出枠）の位置、サイズ、尤度を出力し、これにより検出領域の推定を実現する。

ステップＳ５０４では、推定部２１３ａは、ステップＳ５０３で推定部２１２ａが撮像画像から推定したそれぞれの検出領域について占有度を推定する。本実施形態では、推定部２１３ａもニューラルネットワークを用いてそれぞれの検出領域の占有度を推定する。図６を例にとると、特徴マップ５５５を全結合層５５６に入力することで、検出領域の占有度を出力する。

ここで、占有度についてより詳細に説明する。検出領域の占有度とは、撮像画像中のオブジェクトの画像領域を該検出領域がどの程度捉えているかを表す度合いである。図７に示す具体例を用いて、検出領域の占有度について説明する。図７では、オブジェクトの一例として犬を用いている。

図７では、撮像画像６００には犬の画像領域６０１が含まれており、推定部２１２ａは、該犬の全身を含む検出領域６０２と、該犬の一部である頭部の検出領域６０３と、を推定している。

検出領域６０２は、画像領域６０１の全部を捉えており、画像領域６０１において該検出領域６０２が占める割合は１００％であるので、推定部２１３ａは、検出領域６０２の占有度は「１．０」と推定する。

検出領域６０３は、画像領域６０１の一部を捉えており、画像領域６０１において該検出領域６０３が占める割合が２０％であるとすると、推定部２１３ａは、検出領域６０３の占有度は「０．２」と推定する。

ステップＳ５０５では、抽出部２１４ａは、ステップＳ５０３で推定部２１２ａが撮像画像から推知したそれぞれの検出領域について、該検出領域に対応する追尾特徴量を抽出する。本実施形態では、抽出部２１４ａもニューラルネットワークを用いて撮像画像からそれぞれの検出領域について追尾特徴量を抽出する。図６を例にとると、抽出部２１４ａは、特徴マップ５５５のようなマップ形式の特徴マップを追尾特徴量として取得する。追尾特徴量のマップサイズは、ここでは幅、高さ、チャネルを１×１×Ｃ（Ｃは任意の自然数）とする。本実施形態では、ニューラルネットワークにより抽出された追尾特徴量を用いて説明するが、これに限らず輝度値、ＲＧＢ値、それらのヒストグラム、ＳＩＦＴ特徴量、ＳＵＲＦ特徴量などを追尾特徴量として用いても良い。

ステップＳ５０６では、選択部２１５は、入力部２１６が取得した画像座標と、入力部２１７が取得した占有度範囲と、に基づいて、ステップＳ５０３で推定部２１２ａが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。

選択部２１５による追尾対処の検出領域の選択処理について、図８（ａ）を例にとり説明する。撮像画像６１０において検出領域６１１～６１６はそれぞれ、推定部２１２ａが撮像画像６１０から推定した検出領域である。

検出領域６１１は、犬の検出領域であり、検出領域６１２は該犬の一部である頭部の検出領域である。検出領域６１３は樹木の検出領域であり、検出領域６１４は該樹木の一部である花群の検出領域であり、検出領域６１５，６１６はそれぞれ該花群における花の検出領域である。点６１７は、ユーザが入力装置１０３を操作して追尾対象の位置として指示した指示位置を示す。

入力部２１６は、点６１７に対応する画像座標を取得する。また、入力部２１７は、ユーザが入力装置１０３を操作して入力した「追尾対象の占有度として許容可能な範囲」を占有度範囲として取得する。

選択部２１５は、検出領域６１１～６１６のうち、占有度が占有度範囲に含まれており且つ点６１７の画像座標を内包する検出領域を追尾対象の検出領域として選択する。「占有度が占有度範囲に含まれており且つ点６１７の画像座標を内包する検出領域」が複数存在する場合には、該複数存在する検出領域のうち点６１７の画像座標に最も近接する検出領域を追尾対象の検出領域として選択する。また、点６１７の画像座標を内包する検出領域が存在しない場合には、占有度が占有度範囲に含まれている検出領域のうち、点６１７の画像座標に最も近接する検出領域を追尾対象の検出領域として選択する。

図８（ａ）の例では、点６１７を内包する検出領域は検出領域６１１のみである。ここで、占有度範囲が「０．０１～０．６」である場合、検出領域６１１は点６１７を内包しているものの、占有度は１．０であり、占有度範囲には含まれていないため、検出領域６１１は追尾対象の検出領域として選択されない。このような場合、占有度範囲に含まれている占有度の検出領域のうち点６１７に最も近接する検出領域を追尾対象の検出領域として選択する。図８（ａ）の例では、検出領域６１２の占有度（０．２）は占有度範囲に含まれており、且つ検出領域６１１を除く検出領域６１２～６１６の中で検出領域６１２が点６１７に最も近接している検出領域である。よって、検出領域６１２が追尾対象の検出領域として選択される。

ステップＳ５０７では、選択部２１５は、推定部２１３ａがステップＳ５０４で推定した追尾対象の検出領域の占有度、抽出部２１４ａがステップＳ５０５で抽出した追尾対象の検出領域の追尾特徴量、を記憶部２１８に格納（登録）する。記憶部２１８に格納された占有度および追尾特徴量の一例を図９に示す。

図４に戻って、次に、ステップＳ４０２では、追尾部２１９は、記憶部２１８に格納された追尾対象の検出領域の追尾特徴量と、選択部２１５が選択した追尾対象の検出領域もしくは再検出部２５０によって再検出された追尾対象の画像領域と、を用いて、取得部２１０が取得した撮像画像における該追尾対象を追尾する追尾処理を実行する。

ステップＳ４０３では、判定部２２１は、追尾部２１９における追尾処理が成功しているか否かを判定する。追尾部２１９における追尾処理が成功しているか否かを判定するための判定基準には様々な判定基準が考えられ、特定の判定基準に限らない。本実施形態では、判定部２２１は、撮像画像から取得部２３０が取得したそれぞれの検出領域の追尾特徴量と、記憶部２１８に格納されている追尾対象の追尾特徴量と、の類似度を求める。そして判定部２２１は、撮像画像から取得部２３０が取得した追尾特徴量のうち記憶部２１８に格納されている追尾対象の追尾特徴量との類似度が閾値以上となる追尾特徴量が１以上存在する場合、「追尾部２１９における追尾処理が成功している」と判定する。一方、判定部２２１は、撮像画像から取得部２３０が取得した追尾特徴量のうち記憶部２１８に格納されている追尾対象の追尾特徴量との類似度が閾値以上となる追尾特徴量がない場合、「追尾部２１９における追尾処理は成功していない（失敗）」と判定する。

「追尾部２１９における追尾処理は成功していない（失敗）」と判定される状況の一例を図８（ｂ）に示す。図８（ｂ）に示す如く、追尾対象である犬が他のオブジェクトである樹木の物陰に隠れてしまった場合、撮像画像には犬の追尾特徴量との類似度が閾値以上となる追尾特徴量の検出領域が存在しない。よってこの場合、「追尾部２１９における追尾処理は成功していない（失敗）」と判定される。

このような判定の結果、追尾部２１９における追尾処理が成功していると判定された場合には、処理はステップＳ４０４に進む。一方、追尾部２１９における追尾処理は成功していないと判定された場合には、処理はステップＳ４０６に進む。

ステップＳ４０４では、演算処理装置１０１は、撮像装置１００の動作の終了条件が満たされているか否かを判断する。例えば、ユーザが入力装置１０３を操作して撮像装置１００の動作の停止指示を入力したり、撮像装置１００の電源をオフにするなどの操作を行うと、演算処理装置１０１は、撮像装置１００の動作の終了条件が満たされたと判定する。

撮像装置１００の動作の終了条件が満たされたと判定された場合には、図４のフローチャートに従った処理は終了する。一方、撮像装置１００の動作の終了条件が満たされていないと判定した場合には、処理はステップＳ４０５に進む。

ステップＳ４０５では、取得部２１０は、撮像部１０５により生成された撮像画像を取得する。そして処理はステップＳ４０２に進み、追尾部２１９は、ステップＳ４０５で取得部２１０が取得した撮像画像に対して追尾処理を実行する。

ステップＳ４０６では、抽出部２１１ｂは、ステップＳ５０２と同様にして、取得部２１０が取得した撮像画像から物体特徴量を抽出する。ステップＳ４０７では、推定部２１２ｂは、ステップＳ５０３と同様にして、抽出部２１１ｂが撮像画像から抽出した物体特徴量を用いて、該撮像画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。これにより推定部２１２ｂは、撮像画像から推定した検出領域ごとに、該検出領域の位置、該検出領域のサイズ、オブジェクトらしさを表す尤度、を取得する。

ステップＳ４０８では、推定部２１３ｂは、ステップＳ５０４と同様にして、推定部２１２ｂが撮像画像から推定したそれぞれの検出領域について占有度を推定する。ステップＳ４０９では、抽出部２１４ｂは、ステップＳ５０５と同様にして、推定部２１２ｂが撮像画像から推知したそれぞれの検出領域について、該検出領域に対応する追尾特徴量を抽出する。

ここで、ステップＳ４０９の処理の終了時に、図８（ｃ）に示す如く、撮像画像から検出領域６２１～６２６が推定部２１２ｂによって推定されたとする。検出領域６２５は、犬の検出領域であり、検出領域６２６は該犬の一部である頭部の検出領域である。検出領域６２１は樹木の検出領域であり、検出領域６２２は該樹木の一部である花群の検出領域であり、検出領域６２３，６２４はそれぞれ該花群における花の検出領域である。このときの検出領域６２１～６２６のそれぞれの占有度および追尾特徴量の一例を図１０に示す。「ＮＯ．」は各検出領域の参照番号、「ＩＤ」は各検出領域に固有の識別番号である。各検出領域の追尾特徴量は、追尾対象の追尾特徴量と同様のマップ形式を取り、そのマップサイズは、ここでは、幅、高さ、チャネルを１×１×Ｃとする。

ステップＳ４１０では、処理部２２２は、撮像画像から追尾対象の検出領域の再検出を行う。まず処理部２２２は、記憶部２１８から、追尾対象の検出領域の占有度ＯＣＣ_Ｔを取得する。そして処理部２２２は、下記の式に示す如く、撮像画像中の検出領域のうち、占有度ＯＣＣ_Ｔに基づく範囲に含まれる占有度を求めた検出領域を、候補検出領域とする。

ＯＣＣ_Ｔ－α＜ＯＣＣ_ＩＤ＜ＯＣＣ_Ｔ＋α
ＯＣＣ_ＩＤは、撮像画像から推定されたそれぞれの検出領域の占有度である。αは、追尾対象の検出領域の占有度の変動の許容範囲に関する値であり、例えばここでは、０．０５とする。ＯＣＣ_Ｔ＝０．２の場合、０．１５＜ＯＣＣ_ＩＤ＜０．２５を満たすＯＣＣ_ＩＤに対応する検出領域が候補検出領域となる。図１０では、占有度が０．２０である検出領域６２２と占有度が０．１８の検出領域６２６の２つが候補検出領域となる。

次に処理部２２２は、候補検出領域のうち、記憶部２１８から取得した追尾対象の追尾特徴量との相関値が閾値（≧０）以上且つ最も高い追尾特徴量の候補検出領域を、追尾対象の検出領域として決定する。図１０の例では、処理部２２２は、追尾対象の追尾特徴量Ｆ_Ｔ（１、１、Ｃ）と、検出領域６２２の追尾特徴量Ｆ_２（１、１、Ｃ）と、の相関値Ｘ１を求める。また、処理部２２２は、追尾対象の追尾特徴量Ｆ_Ｔ（１、１、Ｃ）と、検出領域６２６の追尾特徴量Ｆ_６（１、１、Ｃ）と、の相関値Ｘ２を求める。そして処理部２２２は、相関値Ｘ１が相関値Ｘ２よりも高く、且つ相関値Ｘ１が閾値以上であれば、検出領域６２２を追尾対象の検出領域として決定する。一方、処理部２２２は、相関値Ｘ２が相関値Ｘ１よりも高く、且つ相関値Ｘ２が閾値以上であれば、検出領域６２６を追尾対象の検出領域として決定する。なお、相関値Ｘ１および相関値Ｘ２の何れも閾値未満であれば、再検出部２５０は、追尾対象の検出領域の決定は行わず、次に入力される撮像画像について同様の処理を行って追尾対象の検出領域の再検出を行う。本実施形態では、再検出部２５０は、追尾対象の検出領域の再検出を開始してから予め設定された期間内に入力されるそれぞれの撮像画像について追尾対象の検出領域の再検出を行う。再検出部２５０は、追尾対象の検出領域の再検出を開始してから予め設定された期間内に入力されるそれぞれの撮像画像について追尾対象の検出領域の再検出を行っても追尾対象の検出領域が決定できなかった場合には、再検出失敗として動作を終了する。

よって、ステップＳ４１０における再検出処理の結果、追尾対象の検出領域が決定できた場合には、処理はステップＳ４０２に進み、追尾対象の検出領域が決定できなかった場合には、処理はステップＳ４１１に進む。

ステップＳ４１１では、再検出部２５０は、追尾対象の検出領域の再検出を開始してから予め設定された期間（所定時間）が経過したか否かを判断する。この判断の結果、追尾対象の検出領域の再検出を開始してから予め設定された期間（所定時間）が経過した場合には、図４のフローチャートに従った処理は終了する。一方、追尾対象の検出領域の再検出を開始してから未だ予め設定された期間（所定時間）経過していない場合には、処理はステップＳ４１０に進む。

このように、本実施形態では、撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録しておく。そして、撮像画像中の追尾対象の追尾が成功していないと判定された場合には、該登録しておいた占有度および特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う。

図８（ｃ）に示す如く、犬が図８（ａ）の撮像画像（記憶部２１８に格納した占有度および追尾特徴量の取得元である撮像画像）における犬よりも画面奥方向に移動していた場合、図８（ｃ）の犬のサイズは図８（ａ）の犬のサイズと比べて相対的に小さくなる。ここで、図８（ｃ）における犬全体のサイズが図８（ａ）における犬頭部のサイズと同程度のサイズであるとする。この場合、犬頭部および犬全体のそれぞれの追尾特徴量は比較的類似したものになるため、追尾特徴量のみを用いて追尾対象の検出を行っていると、図８（ｃ）における犬全体を犬頭部と誤って再検出する可能性がある。その場合、再検出前後で追尾対象が犬頭部から犬全体に変化してしまう。本実施形態では、追尾特徴量に加えて占有度を用いて追尾対象の再検出を行うので、記憶部２１８に格納した占有度および追尾特徴量の取得元である撮像画像から追尾対象のサイズが変化した場合であっても、追尾対象を安定的に再検出することができる。

さらに、図８（ｃ）において不特定物体の検出を行うと、犬や樹木及びそれらの部分など多数の検出領域が推定されるので、それらの検出領域の中から追尾特徴量のみで追尾対象の検出領域を特定するのは難しい。しかし、追尾対象が不特定物体であっても、追尾特徴量に加えて占有度を用いて追尾対象の再検出を行うことで、追尾対象を安定的に再検出することができる。

次に、上記の抽出部２１１ａ／２１１ｂ、推定部２１２ａ／２１２ｂ、推定部２１３ａ／２１３ｂ、抽出部２１４ａ／２１４ｂにて用いられるニューラルネットワークの学習処理を行う学習装置７００について説明する。

以下では、抽出部２１１ａおよび抽出部２１１ｂに共通の説明を行う場合には、抽出部２１１ａおよび抽出部２１１ｂをまとめて抽出部２１１と称する。同様に、推定部２１２ａおよび推定部２１２ｂに共通の説明を行う場合には、推定部２１２ａおよび推定部２１２ｂをまとめて推定部２１２と称する。同様に、推定部２１３ａおよび推定部２１３ｂに共通の説明を行う場合には、推定部２１３ａおよび推定部２１３ｂをまとめて推定部２１３と称する。同様に、抽出部２１４ａおよび抽出部２１４ｂに共通の説明を行う場合には、抽出部２１４ａおよび抽出部２１４ｂをまとめて抽出部２１４と称する。

本実施形態に係る学習装置７００の機能構成例について、図１１のブロック図を用いて説明する。なお、図１１の抽出部２１１、推定部２１２、推定部２１３は何れも学習装置７００による学習対象として示したものであって、これらの機能部を学習装置７００が有することを示したものではない。

以下では、図１１に示した機能部（抽出部２１１、推定部２１２、推定部２１３、記憶部７０１を除く）を処理の主体として説明する場合がある。しかし実際には、これらの機能部の機能を演算処理装置１３０に実行させるためのコンピュータプログラムを該演算処理装置１３０が実行することで、該機能部の機能が実現される。

記憶部７０１には、抽出部２１１、推定部２１２、推定部２１３にて用いられるニューラルネットワークの学習に用いる学習データが格納されている。学習データには、学習画像、該学習画像中のオブジェクトの全体もしくは一部の画像領域である基準領域の位置（中心位置、左上隅の位置など）およびサイズ（縦サイズおよび横サイズ）を示す領域情報、該基準領域の占有度、のセットが複数含まれている。

取得部７０２は、記憶部７０１から学習データを取得する。取得部７０３は、取得部７０２が取得した学習データに含まれている学習画像を取得する。抽出部２１１は、取得部７０３が取得した学習画像から物体特徴量を抽出する。

推定部２１２は、抽出部２１１が学習画像から抽出した物体特徴量を用いて、該学習画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。これにより推定部２１２は、学習画像から推定した検出領域ごとに、該学習画像における該検出領域の位置（中心位置、左上隅の位置等）、該検出領域のサイズ（縦サイズおよび横サイズ）、該検出領域に含まれる対象のオブジェクトらしさを表す尤度、を求める。

推定部２１３は、抽出部２１２が学習画像から推定したそれぞれの検出領域について、該学習画像におけるオブジェクトの全体の画像領域を包含する画像領域のうち該検出領域が占める割合を占有度として推定する。

算出部７０７は、推定部２１２が学習画像から推定した検出領域の位置およびサイズと、該学習画像とセットになっている領域情報が示す基準領域の位置およびサイズと、の間の誤差（位置の誤差およびサイズの誤差に基づく誤差）を領域誤差として求める。算出部７０７は、「位置の誤差」として、例えば、検出領域の位置と基準領域の位置との間の距離を求める。また算出部７０７は、「サイズの誤差」として、例えば、検出領域の縦サイズと基準領域の縦サイズとの差分と、検出領域の横サイズと基準領域の横サイズとの差分と、の和を求める。そして例えば、算出部７０７は、「位置の誤差」と「サイズの誤差」との和を、全ての検出領域について求め、全ての検出領域について求めた和の総和を領域誤差として求める。

算出部７０８は、推定部２１３が学習画像から推定した検出領域ごとの占有度と、基準領域ごとの占有度と、の差分を占有度誤差として求める。学習部７０９は、算出部７０７が求めた領域誤差および算出部７０８が求めた占有度誤差が小さくなるように、抽出部２１１、推定部２１２、推定部２１３で用いるニューラルネットワークのパラメータを更新する。ニューラルネットワークのパラメータは、例えば、該ニューラルネットワークにおける畳込み層及び全結合層の重み係数である。このような更新処理により、ニューラルネットワークの学習処理を実現させる。

上記の学習装置７００によるニューラルネットワークの学習処理について、図１２のフローチャートに従って説明する。ステップＳ８０１では、取得部７０２は、記憶部７０１から学習データを取得する。取得部７０３は、取得部７０２が取得した学習データに含まれている学習画像を取得する。学習データは事前に作成して記憶部７０１に格納されている。ここで、学習データの作成方法について、図１３を用いて説明する。学習データの作成は学習装置７００が行っても良いし、他の装置が行っても良い。

図１３（ａ）において、人物１３５０を含む学習画像１３００には、人物１３５０の全身の画像領域１３１０、人物１３５０の頭部の画像領域１３２０、人物１３５０の胴体の画像領域１３３０、人物１３５０の下半身の画像領域１３４０、が設定されている。

図１３（ｂ）の人物１４５０をクローズアップして撮像した学習画像１４００には、人物１４５０の頭部の画像領域１４０２、人物１４５０の胴体の画像領域１４０３、学習画像１４００における人物１４５０の全体を含む画像領域１４０４、が設定されている。

図１３（ｃ）の自動車１５５０を含む学習画像１５００には、自動車１５５０の全体を含む画像領域１５０１、ヘッドライトの画像領域１５０２，１５０３、タイヤの画像領域１５０４，１５０５、フロントガラスの画像領域１５０６、が設定されている。

図１３（ｄ）において、猫１６５０を含む学習画像１６００には、猫１６５０の全身の画像領域１６０１、頭部の画像領域１６０２、右目の画像領域１６０３、左目の画像領域１６０４、胴体の画像領域１６０５、が設定されている。

学習画像上におけるオブジェクトの画像領域やオブジェクトの一部の画像領域の設定は、例えばユーザが入力装置１０３のようなユーザインターフェースを用いて手動で行っても良いし、検出器により検出された画像領域を設定することで行っても良い。また、検出器により検出された画像領域をユーザが手動で修正しても良い。

このようにして学習画像に対して設定されたオブジェクトの画像領域やオブジェクトの一部の画像領域の位置およびサイズを示す領域情報が該学習画像とセットで学習データに登録される。なお、オブジェクトによっては画像領域の回転方向および回転角度を示す回転情報を学習データに含めても良い。

また、学習画像中のオブジェクトの全体の画像領域の面積（画素数）に対する「オブジェクトの全体の画像領域もしくはオブジェクトの一部の画像領域」の面積の割合を該画像領域の占有度として求め、該占有度を該学習画像とセットで学習データに登録する。

図１３（ａ）の例では、人物１３５０の全身の画像領域１３１０の面積に対する該画像領域１３１０の面積の割合を該画像領域１３１０の占有度として求める（この場合の占有度は１．０となる）。また、人物１３５０の全身の画像領域１３１０の面積に対する頭部の画像領域１３２０の面積の割合を画像領域１３２０の占有度として求める。また、画像領域１３１０の面積に対する胴体の画像領域１３３０の面積の割合を画像領域１３３０の占有度として求める。また、画像領域１３１０の面積に対する下半身の画像領域１３４０の面積の割合を画像領域１３４０の占有度として求める。図１３（ａ）の例では、下半身の画像領域１３４０の面積は画像領域１３１０の面積の半分ぐらいであるから、画像領域１３４０の占有度は０．５と算出される。

図１３（ｂ）の例のように、人物１４５０をクローズアップして撮像した学習画像１４００の場合には、人物１４５０の一部の画像領域１４０４は存在するものの、人物１４５０の全身の画像領域が存在しない。このような場合には、ユーザが人物１４５０の全身の画像領域に対する画像領域１４０４の占有度を目測で推測して入力する。そして、頭部の画像領域１４０２の占有度を求める際には、画像領域１４０４の面積に対する画像領域１４０２の面積の割合と、画像領域１４０４の占有度と、の積を画像領域１４０２の占有度として求める。また、胴体の画像領域１４０３の占有度を求める際には、画像領域１４０４の面積に対する画像領域１４０３の面積の割合と、画像領域１４０４の占有度と、の積を画像領域１４０３の占有度として求める。また、ユーザが頭部の画像領域１４０２および胴体の画像領域１４０３の占有度を目測で推測して入力しても良い。

図１３（ｃ）の例では、自動車１５５０の全体を含む画像領域１５０１の面積に対する該画像領域１５０１の面積の割合を該画像領域１５０１の占有度として求める。また、画像領域１５０１の面積に対する自動車１５５０のヘッドライトの画像領域１５０２の面積の割合を該画像領域１５０２の占有度として求める。また、画像領域１５０１の面積に対する自動車１５５０のヘッドライトの画像領域１５０３の面積の割合を該画像領域１５０３の占有度として求める。また、画像領域１５０１の面積に対する自動車１５５０のタイヤの画像領域１５０４の面積の割合を該画像領域１５０４の占有度として求める。また、画像領域１５０１の面積に対する自動車１５５０のタイヤの画像領域１５０５の面積の割合を該画像領域１５０５の占有度として求める。また、画像領域１５０１の面積に対する自動車１５５０のフロントガラスの画像領域１５０６の面積の割合を画像領域１５０６の占有度として求める。

図１３（ｄ）の例では、猫１６５０の全身の画像領域１６０１の面積に対する該画像領域１６０１の面積の割合を該画像領域１６０１の占有度として求める。また、画像領域１６０１の面積に対する猫１６５０の頭部の画像領域１６０２の面積の割合を該画像領域１６０２の占有度として求める。また、画像領域１６０１の面積に対する猫１６５０の右目の画像領域１６０３の面積の割合を該画像領域１６０３の占有度として求める。また、画像領域１６０１の面積に対する猫１６５０の左目の画像領域１６０４の面積の割合を該画像領域１６０４の占有度として求める。また、画像領域１６０１の面積に対する猫１６５０の胴体の画像領域１６０５の面積の割合を該画像領域１６０５の占有度として求める。

検出するオブジェクトの種別（カテゴリ）を限定して検出領域を推定したい場合には、限定した種別のオブジェクトの学習データを準備すればよい。例えば、人物を検出したい場合には、人物の学習データを準備すればよく、自動車を検出したい場合には自動車の学習データを準備すればよい。検出するオブジェクトの種別を限定せずに検出領域を推定したい場合には、様々な種別のオブジェクトの学習データを準備すればよい。

例えば、図１３に示した人物、自動車、猫に加えて、電車、飛行機、昆虫、鳥、犬など様々な種別のオブジェクトの学習データを準備すればよい。このように様々な種別のオブジェクトの学習データを準備し、適切に学習処理が実行できれば、学習データに含まれていない種別のオブジェクトも検出可能となる。例えば、魚の学習データがなくても、魚らしさを検出することができるので、魚の検出が可能となる。

図１２に戻って、次に、ステップＳ８０２では、抽出部２１１は、ステップＳ８０１で取得部７０３が取得した学習画像から、学習中のニューラルネットワークを用いて、物体特徴量を抽出する。

ステップＳ８０３では、推定部２１２は、ステップＳ８０２で学習画像から抽出された物体特徴量と、学習中のニューラルネットワークと、を用いて、該学習画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。

ステップＳ８０４では、推定部２１３は学習中のニューラルネットワークを用いて、ステップＳ８０３で抽出部２１２が学習画像から推定したそれぞれの検出領域について占有度を推定する。

ステップＳ８０５では、算出部７０７は、推定部２１２が学習画像から推定した検出領域の位置およびサイズと、該学習画像とセットになっている領域情報が示す基準領域の位置およびサイズと、に基づいて領域誤差を求める。例えば、算出部７０７は、推定部２１２で推定した検出領域の中心座標およびサイズの、学習データ中の対応する基準領域の中心座標およびサイズに対するずれ量（例えば二乗誤差）を足し合わせて求める。

ステップＳ８０６では、算出部７０８は、学習画像におけるそれぞれの検出領域について、推定部２１３が推定した該検出領域の占有度と、該学習画像とセットになっている対応領域の占有度と、の差分（例えば二乗誤差）を求める。そして算出部７０８は、学習画像におけるそれぞれの検出領域について求めた差分の総和を占有度誤差として求める。

ステップＳ８０７では、学習部７０９は、算出部７０７が求めた領域誤差と算出部７０８が求めた占有度誤差との和（損失値）が小さくなるように、抽出部２１１、推定部２１２、推定部２１３で用いるニューラルネットワークのパラメータを更新する。該パラメータの更新には、例えば、誤差逆伝搬法を用いることができる。

ステップＳ８０８では、学習部７０９は、学習の終了条件が満たされたか否かを判断する。学習の終了条件には様々な条件があり、特定の条件に限らない。例えば、学習の終了条件には、損失値が閾値以下、損失値の変化率が閾値以下、パラメータの更新回数が閾値以上、等がある。また例えば、パラメータ更新のための学習データとは別に精度検証用の学習データを用意しておき、上記のステップＳ８０１～ステップＳ８０７の処理を行って、損失値の総和が閾値以下になった場合に学習の終了条件が満たされたと判断するようにしても良い。

このような判断の結果、学習の終了条件が満たされたと判断した場合には、図１２のフローチャートに従った処理は終了し、学習の終了条件は満たされていないと判断した場合には、処理はステップＳ８０１に進む。

次に、抽出部２１４に係る学習について説明する。記憶部７０１には、抽出部２１４の学習用のデータ（学習データ）が格納されている。抽出部２１４の学習データには、同じオブジェクトを含む２枚の学習画像、該学習画像中の追尾対象の画像領域の位置（中心位置、左上隅の位置など）およびサイズ（縦サイズおよび横サイズ）を示す領域情報、該画像領域の占有度、のセットが複数含まれている。占有度の定義は上記の通りである。以下では、抽出部２１４の学習データに含まれている２枚の学習画像のうち一方を第１画像、他方を第２画像と称する。

図１４に第１画像および第２画像の一例を示す。図１４（ａ）は第１画像の一例を示し、図１４（ｂ）は第２画像の一例を示す。第１画像および第２画像には追尾対象のオブジェクト１７０１、非追尾対象のオブジェクト１７０２、の両方が含まれている。非追尾対象は追尾対象と類似する外見を有するオブジェクトである。このように、抽出部２１４の学習データには、追尾対象、該追尾対象と外見が類似している非追尾対象、の両方を含む２枚の学習画像が含まれている。

第１画像中の追尾対象１７０１の画像領域１７０５および第２画像中の追尾対象１７０１の画像領域１７０７、のそれぞれの位置やサイズは学習データに含まれている領域情報で規定されている。第１画像中の非追尾対象１７０２の画像領域１７０６および第２画像中の非追尾対象１７０２の画像領域１７０８、のそれぞれの位置やサイズは、抽出部２１１および推定部２１２によって第１画像および第２画像のそれぞれから得られる。

そして抽出部２１４は、第１画像から追尾対象１７０１の画像領域１７０５および非追尾対象１７０２の画像領域１７０６の追尾特徴量を取得し、第２画像から追尾対象１７０１の画像領域１７０７の追尾特徴量を取得する。

そして学習部７０９は、第１画像中の追尾対象の追尾特徴量と第２画像中の追尾対象の追尾特徴量との特徴量間距離が短くなるように、且つ第１画像中の追尾対象の追尾特徴量と該第１画像中の非追尾対象の追尾特徴量との間の特徴量間距離が長くなるように、抽出部２１４で用いるニューラルネットワークのパラメータを更新する。該パラメータの更新には、例えば、誤差逆伝搬法を用いることができる。図１４の例では、学習部７０９は、画像領域１７０５の追尾特徴量と画像領域１７０７の追尾特徴量との間の特徴量間距離が短くなるように、且つ画像領域１７０５の追尾特徴量と画像領域１７０６の追尾特徴量との間の特徴量間距離が長くなるように、抽出部２１４で用いるニューラルネットワークのパラメータを更新する。なお、学習データとして様々な種別のオブジェクトを含む画像を用意することで、不特定物体の追尾に適用可能な追尾特徴量を取得することができる。

このように、本実施形態によれば、不特定物体の追尾対象を一時的に消失したとしても、画像内に追尾対象が復帰した際に追尾対象を再検出することができる。その際、再検出時に追尾対象の占有度を用いることで、画像内に追尾特徴量が似ている他の物体が存在したとしても、占有度が異なっていれば追尾対象を正確に再検出することができる。さらに、占有度を利用することで、追尾対象がオブジェクトの全体であれば該オブジェクトの全体を再検出し、追尾対象がオブジェクトの一部であれば該一部を再検出することができる。そのため、ユーザの意図した追尾対象を追尾したり該追尾対象に合焦したりすることができる。

［第２の実施形態］
以下では、第１の実施形態との差分について説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。第１の実施形態では、ユーザが入力した画像座標および占有度範囲を用いて追尾対象の検出領域を特定し、該特定した検出領域について占有度および追尾特徴量を記憶部２１８に登録した。

本実施形態では、撮像装置１００における撮像パラメータに対応する占有度と、ユーザが入力した画像座標と、を用いて追尾対象の検出領域を特定し、該特定した検出領域について占有度および追尾特徴量を記憶部２１８に登録する。

本実施形態に係る撮像装置１００の機能構成例を図１５のブロック図に示す。図１５において図３に示した機能部と同様の機能部には同じ参照番号を付しており、該機能部に係る説明は省略する。また以下では、図１５に示した各機能部を処理の主体として説明する場合がある。しかし、実際には、図１５に示した機能部のうち追尾部２１９、ＡＦ処理部２２０、記憶部２１８を除く各機能部の機能を演算処理装置１３０に実現させるためのコンピュータプログラムを該演算処理装置１３０が実行することで、該機能部の機能が実現される。同様に、図１５に示した機能部のうち追尾部２１９、ＡＦ処理部２２０の機能を演算処理装置１０１に実現させるためのコンピュータプログラムを該演算処理装置１０１が実行することで、該追尾部２１９、該ＡＦ処理部２２０の機能が実現される。

まず、撮像装置１００の撮像パラメータについて説明する。撮像パラメータとしては、絞り値、露光時間、ＡＦフレームサイズ、ＩＳＯ感度、Ｂｖ値などが使用できる。以下では、具体的な説明を行うために、一例として、撮像装置１００の撮像パラメータが「撮像部１０５のレンズの絞り値」であるケースについて説明する。しかし、撮像装置１００の撮像パラメータが「撮像部１０５のレンズの絞り値」以外であっても、以下の説明は同様に適用可能である。絞り値は画像の明るさとボケ具合を制御する設定値の一つで、Ｆ１．４、Ｆ２、Ｆ２．８、Ｆ４、Ｆ５．６、Ｆ８、Ｆ１１、Ｆ１６のように表され、設定値の数値が小さいと、絞りの大きさが大きくなるため、撮像される画像が明るくなり、被写界深度が浅くなる。一方、設定値の数値が大きいと、絞りの大きさが小さくなるため、撮像される画像が暗くなり、被写界深度が深くなる。絞り値を小さくして被写界深度を浅くし、ピントが合う範囲を限定することで、主要被写体が背景から浮かび上がり、結果として印象的な撮像画像が得られる。逆に、絞り値を大きくして被写界深度を深くし、ピントが合う範囲を広くすることで、多くの被写体をボケることなく撮像画像内に収めることができる。

選択部９４０は、推定部２１２ａが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。そして選択部９４０は、該選択した検出領域について推定部２１３ａが推定した占有度、該選択した検出領域について抽出部２１４ａが抽出した追尾特徴量、を記憶部２１８に格納（登録）する。選択部２４０は、選択部９１５、入力部２１６、入力部９１７を有する。

選択部９１５は、入力部２１６が取得した画像座標、入力部９１７が取得した撮像パラメータとしての絞り値、に基づいて、推定部２１２ａが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。選択部９１５は、様々な絞り値に対応する占有度を保持している。例えば、選択部９１５は、Ｆ１．４以下の絞り値に対応する占有度として「０．１」、Ｆ８以上の絞り値に対応する占有度として「１．０」を保持している。また、選択部９１５は、絞り値Ｆ１．４と絞り値Ｆ８の間の絞り値に対応する占有度は、絞り値Ｆ１．４に対応する占有度「０．１」と絞り値Ｆ８に対応する占有度「１．０」とを用いた線形補間により求める。

入力部９１７は、ユーザが入力装置１０３を用いて入力した絞り値を入力する。このときユーザが操作する入力装置１０３には、例えば、撮像装置１００のハードウェアダイヤルが適用可能である。

選択部９４０による追尾対処の検出領域の選択処理について、図１６（ａ）を例にとり説明する。撮像画像１８００において検出領域１８０２～１８０４はそれぞれ、推定部２１２ａが撮像画像１８００から推定した検出領域である。

検出領域１８０２は、馬１８０１の全体を含む検出領域であり、検出領域１８０３は該馬１８０１の一部である頭部の検出領域であり、検出領域１８０４は樹木の検出領域である。点１８０５は、ユーザが入力装置１０３を操作して追尾対象の位置として指示した指示位置を示す。ここで、推定部２１３ａが検出領域１８０２について求めた占有度は「１．０」、検出領域１８０３について求めた占有度は「０．３」であるとする。

入力部２１６は、点１８０５に対応する画像座標を取得する。また、入力部９１７は、ユーザが入力装置１０３を操作して入力した「絞り値」を取得する。選択部９１５は、入力部９１７が取得した絞り値と関連付けて保持している占有度ＯＣＣ_Ｔを特定する。また選択部９１５は、検出領域１８０２～１８０４のうち、点１８０５に対応する画像座標を包含する検出領域を候補として特定する。図１６（ａ）のケースでは、点１８０５に対応する画像座標を包含する検出領域は検出領域１８０２であるから検出領域１８０２が候補として特定される。なお、点１８０５に対応する画像座標を包含する検出領域が複数存在する場合には、該複数存在する検出領域のうち占有度が最も大きい検出領域が候補として特定される。そして選択部９１５は、候補として特定された検出領域、該候補として特定された検出領域に含まれる検出領域、のうち占有度が占有度ＯＣＣ_Ｔである検出領域を、追尾対象の検出領域として選択する。なお、選択部９１５は、候補として特定された検出領域、該候補として特定された検出領域に含まれる検出領域、のうち占有度が占有度ＯＣＣ_Ｔである検出領域が複数存在する場合には、該複数存在する検出領域のうち、入力部２１６が取得した画像座標に最も近い検出領域を追尾対象の検出領域とする。

例えば、入力部９１７が取得した絞り値がＦ２．８であった場合、Ｆ２．８に対応する占有度は０．３である。検出領域１８０２～１８０４のうち点１８０５に対応する画像座標を包含する検出領域は検出領域１８０２のみであるから、検出領域１８０２が候補として特定される。そして、候補として特定された検出領域１８０２、該検出領域１８０２に含まれる検出領域１８０３、のうち、占有度が０．３の検出領域は検出領域１８０３のみであるから、選択部９１５は、該検出領域１８０３を追尾対象の検出領域として選択する。

また例えば、入力部９１７が取得した絞り値がＦ８であった場合、Ｆ８に対応する占有度は１．０である。検出領域１８０２～１８０４のうち点１８０５に対応する画像座標を包含する検出領域は検出領域１８０２のみであるから、検出領域１８０２が候補として特定される。そして、候補として特定された検出領域１８０２、該検出領域１８０２に含まれる検出領域１８０３、のうち、占有度が１．０の検出領域は検出領域１８０２のみであるから、選択部９１５は、該検出領域１８０２を追尾対象の検出領域として選択する。

なお、候補として特定された検出領域、該候補として特定された検出領域に含まれる検出領域、のうちＯＣＣ_Ｔ－α＜ＯＣＣ_ＩＤ＜ＯＣＣ_Ｔ＋αを満たす占有度ＯＣＣ_ＩＤの検出領域を追尾対象の検出領域として選択するようにしても良い。

このように、絞り値が大きい場合は占有度の大きい検出領域、絞り値が小さい場合は占有度の小さい検出領域を追尾対象の検出領域として選択する。これは、絞り値を小さくするときは合焦範囲を限定したい、絞り値を大きくするときは合焦範囲を広くしたいというユーザの意図に対応する。

そして、記憶部２１８に追尾対象の占有度および追尾特徴量を登録した後に取得部２１０が取得した撮像画像が図１６（ｂ）に示す如く、図１６（ａ）の馬１８０１が右方向に移動して撮像画像中央に位置する樹木に隠れて一旦該撮像画像から消失するとする。図１８（ｃ）、（ｄ）に示した撮像画像は、図１６（ｂ）の撮像画像の後に取得部２１０が取得した撮像画像であり、馬１８０１が樹木の右側から再び現れた撮像画像である。

絞り値の設定がＦ２．８である場合、図１６（ｃ）に示す如く馬１８０１の頭部の検出領域１８５０が追尾対象の検出領域として再検出されるので、該再検出された頭部の検出領域１８５０に合焦することになる。これにより、結果として頭部より背景方向にある馬１８０１の胴体や樹木がぼけた撮像画像が得られる。このような撮像画像は、背景から馬１８０１の頭部が浮かび上がり、印象的な撮像画像となる。

一方、絞り値の設定がＦ８である場合、図１６（ｄ）に示す如く馬１８０１の全体の検出領域１８６０が追尾対象の検出領域として再検出される。然るに、このような撮像画像では、該再検出された馬１８０１の全体がはっきり見えるようになり、結果として、馬１８０１の躍動感が伝わるような撮像画像が得られる。

このように、追尾対象を選択する際の占有度設定を絞り値と連動させることで、追尾対象を確実に検出することができるとともに、ユーザの意図した表現の撮像画像を取得することができるようになる。

上記の如く、本実施形態では、撮像パラメータは絞り値以外であっても良い。例えば、露光時間に応じて占有度の選択基準を変更する方法も考えられる。露光時間が長くなると被写体ブレや手ブレの量が大きくなるため、撮像画像をミクロ的に見てしまうと、ブレの影響が強く出る。したがって、露光時間がより長い場合には、占有度がより大きい検出領域を優先的に追尾対象の検出領域として選択した方がよい。

その他、ＡＦフレームサイズに応じて占有度の選択基準を変更する方法も考えられる。ＡＦフレームサイズが小さいときは、被写体の一部に限定して合焦させたいというユーザの意図があるとみなせるので、ＡＦフレームサイズが小さいほど、占有度がより小さい検出領域を追尾対象の検出領域として優先的に選択した方がよい。逆に、ＡＦフレームサイズが大きいときは、被写体全体に合焦させたいというユーザの意図があるとみなせるので、ＡＦフレームサイズが大きいほど、占有度がより大きい検出領域を追尾対象の検出領域として優先的に選択した方がよい。

このように、本実施形態では、不特定物体の追尾対象を一時的に消失したとしても、画像内に追尾対象が復帰した際に追尾対象を再検出することができる。また、占有度設定を撮像パラメータと連動させることで、ユーザの意図した表現の撮像画像が得られるようにオブジェクトを追尾対象にすることができる。

［第３の実施形態］
第１の実施形態や第２の実施形態では、追尾対象の検出領域に対して追尾処理やＡＦ処理を行うケースについて説明した。しかし、追尾対象の検出領域に対して行う処理は追尾処理やＡＦ処理に限らず、適正露出に制御するオートエクスポージャー処理（ＡＥ処理）や光源に対して色調補正を行うオートホワイトバランス処理（ＡＷＢ処理）などの他の処理であっても良い。また、追尾対象の検出領域に対して複数の処理を適用しても良い。

また、図１の構成では、学習装置７００は撮像装置１００とは別個の装置であるものとして説明したが、撮像装置１００と学習装置７００とを一体化させて１台の撮像装置１００を構成しても良い。

また、上記の実施形態にて説明した撮像装置の動作は、「外部の撮像装置により撮像された撮像画像から追尾対象の検出領域を検出／再検出する画像処理装置」にも同様に適用可能である。このような画像処理装置は、例えば、検出／再検出した追尾対象の検出領域を該撮像装置に通知することで、該撮像装置に該追尾対象の検出領域に対する追尾処理やＡＦ処理等を実行させることができる。また、このような画像処理装置は、検出／再検出した追尾対象の検出領域に係る情報を外部の装置に保持するようにしても良い。

また、上記の実施形態では、図３，１１，１５に示した各機能部（記憶部２１８や記憶部７０１を除く）はソフトウェア（コンピュータプログラム）で実装したケースについて説明した。しかし、図３，１１，１５に示した各機能部の一部若しくは全部をハードウェアで実装しても構わない。

また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ（情報）の送信先／送信元／格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。

また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

２１０：取得部２１５：選択部２１６：入力部２１７：入力部２１８：記憶部２１９：追尾部２２０：ＡＦ処理部２２１：判定部２３０：取得部２４０：選択部２５０：再検出部

Claims

撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する登録手段と、
撮像画像中の追尾対象の追尾が成功していないと判定された場合には、前記占有度および前記特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う再検出手段と
を備えることを特徴とする画像処理装置。
前記再検出手段は、
撮像画像から検出されたオブジェクトもしくは該オブジェクトの一部の検出領域について占有度および特徴量を求め、該撮像画像から検出された検出領域のうち、前記登録手段が登録した占有度に基づく範囲に含まれる占有度の画像領域であって、前記登録手段が登録した特徴量との相関値が最も高い特徴量の画像領域を、追尾対象の画像領域として再検出することを特徴とする請求項１に記載の画像処理装置。
前記登録手段は、
撮像画像からオブジェクトの全体若しくは一部の画像領域を検出領域として検出し、該検出した検出領域のうち、ユーザ操作に応じて選択された検出領域の占有度および特徴量を登録することを特徴とする請求項１または２に記載の画像処理装置。
前記登録手段は、ユーザが入力した占有度範囲に含まれる占有度の検出領域であって、ユーザが指示した画像座標を内包する検出領域の占有度および特徴量を登録することを特徴とする請求項３に記載の画像処理装置。
前記登録手段は、ユーザが入力した画像座標に基づいて特定される検出領域のうち、ユーザが入力した撮像パラメータに応じた占有度の検出領域もしくは該占有度に基づく占有度範囲に含まれる占有度の検出領域の占有度および特徴量を登録することを特徴とする請求項３に記載の画像処理装置。
撮像画像を撮像する撮像手段と、
請求項１ないし５の何れか１項に記載の画像処理装置と、
前記撮像画像中の追尾対象の画像領域に対して処理を実行する処理手段と
を備えることを特徴とする撮像装置。
前記処理は、追尾処理、ＡＦ処理、ＡＥ処理、ＡＷＢ処理、を含むことを特徴とする請求項６に記載の撮像装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の登録手段が、撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する登録工程と、
前記画像処理装置の再検出手段が、撮像画像中の追尾対象の追尾が成功していないと判定された場合には、前記占有度および前記特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う再検出工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１ないし５の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。