JP2023086022A - 画像処理装置、撮像装置、画像処理方法 - Google Patents
画像処理装置、撮像装置、画像処理方法 Download PDFInfo
- Publication number
- JP2023086022A JP2023086022A JP2021200395A JP2021200395A JP2023086022A JP 2023086022 A JP2023086022 A JP 2023086022A JP 2021200395 A JP2021200395 A JP 2021200395A JP 2021200395 A JP2021200395 A JP 2021200395A JP 2023086022 A JP2023086022 A JP 2023086022A
- Authority
- JP
- Japan
- Prior art keywords
- image
- area
- occupancy
- detection
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
【課題】 撮像画像からユーザの意図を考慮した追尾対象の再検出を実施するための技術を提供すること。【解決手段】 撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する。撮像画像中の追尾対象の追尾が成功していないと判定された場合には、該占有度および該特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う。【選択図】 図3
Description
本発明は、撮像画像からの追尾対象の検出領域の再検出技術に関するものである。
画像から物体を検出する物体検出処理が、デジタルカメラ等の撮像装置の機能に応用されている。これまで物体検出処理は、人物の顔や顔器官(瞳、鼻、口)、人物の全身などの特定のカテゴリの物体に対して行われるものが多かった。近年、深層学習の発達に伴い、様々なカテゴリの物体の情報を用いて物体らしさを学習させることで、動物や乗り物など、不特定のカテゴリの物体(以下、不特定物体)を検出する技術が実現されてきている。
デジタルカメラにおいては、物体検出処理は、検出した物体を被写体として自動的に合焦するオートフォーカス(AF)技術に応用されている。AF技術の1つに、同一の被写体に継続的に合焦する追尾機能がある。追尾機能は、追尾対象を連続する画像中において同定する機能であるが、追尾対象が他の物体に遮蔽されて見えなくなってしまった等の場合には、追尾対象を消失してしまう。追尾対象を消失してしまった場合、再検出を行う必要がある。追尾対象の消失時における再検出方法として、特許文献1には、探索範囲のサイズを拡大して追尾対象の追尾特徴量をもとに再探索を実行する技術が開示されている。
しかしながら、追尾特徴量のみによる同定を行う場合、追尾対象が動物のように物体全体が似たようなテクスチャを持つ場合、再検出前後で物体サイズが変化していると、追尾対象(追尾部位)が変化してしまう可能性がある。さらに、追尾対象が不特定物体で消失した際に再検出を実行した場合、多数の不特定物体が検出されるので、その中からユーザの意図通りに元の追尾対象を検出することは難しい。本発明は、撮像画像からユーザの意図を考慮した追尾対象の再検出を実施するための技術を提供する。
本発明の一様態は、撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する登録手段と、撮像画像中の追尾対象の追尾が成功していないと判定された場合には、前記占有度および前記特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う再検出手段とを備えることを特徴とする。
本発明によれば、撮像画像からユーザの意図を考慮した追尾対象の再検出を実施することができる。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
本実施形態では、動画像における各フレームの画像や定期的若しくは不定期的に撮像された静止画像を撮像画像として取得し、該撮像画像から検出/再検出した追尾対象(オブジェクトの一部若しくは全部)を追尾する追尾処理や、該追尾対象を被写体として自動的に合焦するAF処理を行う撮像装置について説明する。
本実施形態では、動画像における各フレームの画像や定期的若しくは不定期的に撮像された静止画像を撮像画像として取得し、該撮像画像から検出/再検出した追尾対象(オブジェクトの一部若しくは全部)を追尾する追尾処理や、該追尾対象を被写体として自動的に合焦するAF処理を行う撮像装置について説明する。
図1に示す如く、本実施形態に係る撮像装置100は、撮像画像に対して各種の解析処理を行って、「追尾対象の画像領域」の検出/再検出を行う画像解析装置200を有する。また、撮像装置100には、該画像解析装置200が上記の動作を実施するために使用するニューラルネットワークの学習処理を行う学習装置700が接続されている。
まず、撮像装置100のハードウェア構成例について、図2(a)のブロック図を用いて説明する。なお、図2(a)には、以下の説明に関連する主な構成を示しており、撮像装置100が図2(a)に示した装置以外の装置を含むことを排除するものではない。
演算処理装置101は、CPU(Central Processing Unit)及び/又はGPU(Graphics Processing Unit)等のプロセッサと、該プロセッサのワークエリアを有するメモリと、を有する。演算処理装置101は、記憶装置102に保存されているコンピュータプログラムやデータを用いて各種の処理を実行することで、撮像装置100(画像解析装置200を含む)や学習装置700の動作制御を行う。
記憶装置102は、磁気記憶装置、半導体メモリ等のストレージデバイスである。記憶装置102には、撮像装置100(画像解析装置200を含む)や学習装置700の動作制御を演算処理装置101に行わせるためのコンピュータプログラムやデータが保存されている。また、記憶装置102には、撮像画像をファイルとして保存することができる。
撮像部105は、レンズ、絞り、外界からの光をアナログ信号に変換するCCDやCMOS等の撮像素子、該アナログ信号をデジタル信号に変換するA/D変換器、該デジタル信号に基づいて撮像画像を生成する生成回路を有する。さらに撮像部105は、絞りを制御する装置、フォーカスを制御する装置、等を有する。撮像部105において、撮像素子は、レンズを介して入光した光を光電変換によりアナログ信号に変換し、A/D変換器は、該アナログ信号をディジタル信号に変換し、生成回路は該デジタル信号に基づいて撮像画像を生成して出力する。また撮像部105は、演算処理装置101からの指示に応じてAF機能、AE機能、AWB機能等を実施する。撮像部105により定期的若しくは不定期的に撮像された静止画像、もしくは撮像部105により撮像された動画像における各フレームの画像は、撮像画像として記憶装置102に保存される。
画像解析装置200は、撮像部105により生成された撮像画像から追尾対象の検出/再検出を行う。演算処理装置101は、画像解析装置200により検出/再検出された追尾対象を追尾する追尾処理や、該追尾対象を被写体として自動的に合焦するAF処理を行うべく、撮像部105を制御する。
入力装置103は、マウス、キーボード、タッチパネルデバイス、ボタン等のユーザインターフェースであり、ユーザが操作することで各種の指示を演算処理装置101に対して入力することができる。
出力装置104は、液晶パネルなどの表示画面を有する装置であり、演算処理装置101による処理結果を画像や文字などでもって該表示画面に表示させる。本実施形態では、液晶パネルとしての出力装置104の表示画面に、タッチパネルデバイスとしての入力装置103を重ねてタッチパネル画面を構成する。タッチパネル画面は、演算処理装置101による処理結果を画像や文字などでもって表示すると共に、ユーザからの操作入力を受け付ける。
図2(a)に示した演算処理装置101、記憶装置102、撮像部105、画像解析装置200、入力装置103、出力装置104、は何れもシステムバス107に接続されている。なお、撮像装置100は、例えば、各種の装置間で通信を行うためのI/O部を有しても良い。I/O部は例えば、メモリーカード、USBケーブル等の入出力部、有線、無線等による送受信部である。
次に、画像解析装置200および学習装置700のハードウェア構成例について、図2(b)のブロック図を用いて説明する。本実施形態では説明を簡単にするために、画像解析装置200および学習装置700は何れも同じハードウェア構成(図2(b))を有するものとして説明する。しかし、画像解析装置200および学習装置700のそれぞれのハードウェア構成は異なっていても良い。
演算処理装置130は、CPU及び/又はGPU等のプロセッサと、該プロセッサのワークエリアを有するメモリと、を有する。演算処理装置130は、記憶装置131に保存されているコンピュータプログラムやデータを用いて各種の処理を実行することで、画像解析装置200/学習装置700全体の動作制御を行う。
記憶装置131は、磁気記憶装置、半導体メモリ等のストレージデバイスである。記憶装置131には、画像解析装置200/学習装置700の動作制御を演算処理装置131に行わせるためのコンピュータプログラムやデータが保存されている。
I/F132は、有線および/または無線のネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。画像解析装置200のI/F132は、学習装置700との間のデータ通信を行うための通信インターフェースである。学習装置700のI/F132は、画像解析装置200との間のデータ通信を行うための通信インターフェースである。演算処理装置130、記憶装置131、I/F132は何れもシステムバス133に接続されている。
次に、撮像装置100の機能構成例について、図3のブロック図を用いて説明する。以下では、図3に示した各機能部を処理の主体として説明する場合がある。しかし、実際には、図3に示した機能部のうち追尾部219、AF処理部220、記憶部218を除く各機能部の機能を演算処理装置130に実現させるためのコンピュータプログラムを該演算処理装置130が実行することで、該機能部の機能が実現される。同様に、図3に示した機能部のうち追尾部219、AF処理部220の機能を演算処理装置101に実現させるためのコンピュータプログラムを該演算処理装置101が実行することで、該追尾部219、該AF処理部220の機能が実現される。
取得部210は、撮像部105により生成された撮像画像を取得する。例えば、取得部210は、撮像部105により生成されたフルHD(1920画素×1280画素)の撮像画像をリアルタイム(60フレーム毎秒)で取得する。
取得部230は、取得部210が取得した撮像画像中のオブジェクトや該オブジェクトの一部(頭部、腕、足等)に係る情報を取得する。取得部230の機能構成例を図3(b)のブロック図に示す。
抽出部211aは、取得部210が取得した撮像画像から特徴量(物体特徴量)を抽出する。推定部212aは、抽出部211aが撮像画像から抽出した物体特徴量を用いて、該撮像画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定(検出)する。これにより推定部212aは、撮像画像から推定した検出領域ごとに、該撮像画像における該検出領域の位置(中心位置、左上隅の位置等)、該検出領域のサイズ(縦サイズ及び横サイズ)、該検出領域に含まれる対象のオブジェクトらしさを表す尤度を取得する。以降、「特徴量」は、「特徴ベクトル」または「画像特徴」と同義である。
推定部213aは、推定部212aが撮像画像から推定したそれぞれの検出領域について、抽出部211aが該撮像画像から抽出した物体特徴量を用いて、該撮像画像におけるオブジェクトの画像領域のうち該検出領域が占める割合を占有度として推定する。
抽出部214aは、推定部212aが撮像画像から推知したそれぞれの検出領域について、該検出領域に対応する特徴量(追尾特徴量)を抽出する。選択部240は、推定部212aが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。そして選択部240は、該選択した検出領域について推定部213aが推定した占有度、該選択した検出領域について抽出部214aが抽出した追尾特徴量、を記憶部218に格納(登録)する。選択部240は、選択部215、入力部216、入力部217を有する。
入力部216は、取得部210が取得した撮像画像を出力装置104の表示画面上に表示させて、該撮像画像における追尾対象の位置を指示するユーザ操作を受け付ける。ユーザが入力装置103を操作して該撮像画像における追尾対象の位置を指示すると、入力部216は、該位置の画像座標を取得する。
入力部217は、ユーザが入力装置103を操作して入力した追尾対象の占有度の範囲(占有度範囲)を取得する。選択部215は、入力部216が取得した画像座標と、入力部217が取得した占有度範囲と、に基づいて、推定部212aが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。そして選択部215は、追尾対象の検出領域について推定部213aが推定した占有度、追尾対象の検出領域について抽出部214aが抽出した追尾特徴量、を記憶部218に格納(登録)する。
追尾部219は、記憶部218に格納された追尾対象の検出領域の追尾特徴量と、選択部215が選択した追尾対象の検出領域もしくは再検出部250によって再検出された追尾対象の画像領域と、を用いて、取得部210が取得した撮像画像における該追尾対象を追尾する追尾処理を実行する。追尾処理については周知であるため、追尾処理に係る詳細な説明は省略する。
AF処理部220は、取得部210が取得した撮像画像において追尾部219が追尾している追尾対象の画像領域に対して、AF処理を実行する。AF処理については周知であるため、AF処理に係る詳細な説明は省略する。
判定部221は、追尾部219における追尾対象の追尾処理が成功しているか否かを判定する。再検出部250は、判定部221が「追尾部219における追尾対象の追尾処理が成功していない(失敗している)」と判定した場合に、撮像画像から追尾対象の再検出を行う。再検出部250の機能構成例を図3(c)のブロック図に示す。
図3(c)において、抽出部211b、推定部212b、推定部213b、抽出部214b、はそれぞれ、抽出部211a、推定部212a、推定部213a、抽出部214a、と同様に動作する。つまり再検出部250は、取得部230と同様、撮像画像からそれぞれの検出領域について占有度および追尾特徴量を取得する。
処理部222は、それぞれの検出領域について取得した占有度および追尾特徴量を、記憶部218に格納された追尾対象の検出領域の占有度および追尾特徴量と比較して、該それぞれの検出領域のうち追尾対象の検出領域を特定(再検出)する。
次に、このような撮像装置100において追尾処理を実施するために該撮像装置100が行う処理について、図4のフローチャートに従って説明する。ステップS401では、撮像画像に含まれているオブジェクトの全体若しくは一部のうち追尾対象の検出領域について占有度および追尾特徴量を記憶部218に格納するための処理が行われる。ステップS401における処理の詳細について、図5のフローチャートに従って説明する。
ステップS501では、取得部210は、撮像部105により生成された撮像画像を取得する。この撮像画像は、例えば、各画素におけるR(赤)の画素値、G(緑)の画素値、B(青)の画素値が何れも8ビットで表現されるRGBカラー画像のビットマップデータである。
ステップS502では、抽出部211aは、ステップS501で取得部210が取得した撮像画像から物体特徴量を抽出する。撮像画像から物体特徴量を抽出するための方法には様々な方法を適用することができるが、本実施形態では、抽出部211aは、ニューラルネットワークを用いて撮像画像から物体特徴量を抽出する。撮像画像から物体特徴量を抽出するために用いるニューラルネットワークの構成例を図6に示す。
抽出部211aは、畳み込み層とプーリング層とを繰り返すことにより、認識タスクを行うニューラルネットワークである。抽出部211aは、複数の畳み込み層511、513、515と、複数のプーリング層512、514と、を有し、これらの層によって、入力画像(撮像画像)530から物体特徴量を抽出する。
畳み込み層では、入力画像または特徴マップに対して、例えば3×3サイズのフィルタを複数チャネル設定し、注目画素を中心に畳み込み演算を行い、複数チャネルに対応する複数の特徴マップ551、553、555を出力する。
プーリング層では、畳み込み層から出力された特徴マップを縮小した縮小特徴マップ552、554を生成する。2×2の範囲でプーリングを行う場合、特徴マップは1/4倍に縮小される。プーリングには最大値プーリングや平均値プーリングなどの方法を用いることができる。
なお、抽出部211aに適用可能なニューラルネットワークの構成は図6に示した構成に限らず、例えば、図6で示したニューラルネットワークよりも多層にしても構わないし、チャネル数を変更しても構わない。
ステップS503では、推定部212aは、ステップS502で抽出部211aが撮像画像から抽出した物体特徴量を用いて、該撮像画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。この推定で推定部212aは、撮像画像から推定した検出領域ごとに、該検出領域の位置、該検出領域のサイズ、オブジェクトらしさを表す尤度、を推定する。
本実施形態では、推定部212aもニューラルネットワークを用いて撮像画像から検出領域を推定する。図6を例にとると、特徴マップ555を全結合層556に入力することで、検出領域(検出枠)の位置、サイズ、尤度を出力し、これにより検出領域の推定を実現する。
ステップS504では、推定部213aは、ステップS503で推定部212aが撮像画像から推定したそれぞれの検出領域について占有度を推定する。本実施形態では、推定部213aもニューラルネットワークを用いてそれぞれの検出領域の占有度を推定する。図6を例にとると、特徴マップ555を全結合層556に入力することで、検出領域の占有度を出力する。
ここで、占有度についてより詳細に説明する。検出領域の占有度とは、撮像画像中のオブジェクトの画像領域を該検出領域がどの程度捉えているかを表す度合いである。図7に示す具体例を用いて、検出領域の占有度について説明する。図7では、オブジェクトの一例として犬を用いている。
図7では、撮像画像600には犬の画像領域601が含まれており、推定部212aは、該犬の全身を含む検出領域602と、該犬の一部である頭部の検出領域603と、を推定している。
検出領域602は、画像領域601の全部を捉えており、画像領域601において該検出領域602が占める割合は100%であるので、推定部213aは、検出領域602の占有度は「1.0」と推定する。
検出領域603は、画像領域601の一部を捉えており、画像領域601において該検出領域603が占める割合が20%であるとすると、推定部213aは、検出領域603の占有度は「0.2」と推定する。
ステップS505では、抽出部214aは、ステップS503で推定部212aが撮像画像から推知したそれぞれの検出領域について、該検出領域に対応する追尾特徴量を抽出する。本実施形態では、抽出部214aもニューラルネットワークを用いて撮像画像からそれぞれの検出領域について追尾特徴量を抽出する。図6を例にとると、抽出部214aは、特徴マップ555のようなマップ形式の特徴マップを追尾特徴量として取得する。追尾特徴量のマップサイズは、ここでは幅、高さ、チャネルを1×1×C(Cは任意の自然数)とする。本実施形態では、ニューラルネットワークにより抽出された追尾特徴量を用いて説明するが、これに限らず輝度値、RGB値、それらのヒストグラム、SIFT特徴量、SURF特徴量などを追尾特徴量として用いても良い。
ステップS506では、選択部215は、入力部216が取得した画像座標と、入力部217が取得した占有度範囲と、に基づいて、ステップS503で推定部212aが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。
選択部215による追尾対処の検出領域の選択処理について、図8(a)を例にとり説明する。撮像画像610において検出領域611~616はそれぞれ、推定部212aが撮像画像610から推定した検出領域である。
検出領域611は、犬の検出領域であり、検出領域612は該犬の一部である頭部の検出領域である。検出領域613は樹木の検出領域であり、検出領域614は該樹木の一部である花群の検出領域であり、検出領域615,616はそれぞれ該花群における花の検出領域である。点617は、ユーザが入力装置103を操作して追尾対象の位置として指示した指示位置を示す。
入力部216は、点617に対応する画像座標を取得する。また、入力部217は、ユーザが入力装置103を操作して入力した「追尾対象の占有度として許容可能な範囲」を占有度範囲として取得する。
選択部215は、検出領域611~616のうち、占有度が占有度範囲に含まれており且つ点617の画像座標を内包する検出領域を追尾対象の検出領域として選択する。「占有度が占有度範囲に含まれており且つ点617の画像座標を内包する検出領域」が複数存在する場合には、該複数存在する検出領域のうち点617の画像座標に最も近接する検出領域を追尾対象の検出領域として選択する。また、点617の画像座標を内包する検出領域が存在しない場合には、占有度が占有度範囲に含まれている検出領域のうち、点617の画像座標に最も近接する検出領域を追尾対象の検出領域として選択する。
図8(a)の例では、点617を内包する検出領域は検出領域611のみである。ここで、占有度範囲が「0.01~0.6」である場合、検出領域611は点617を内包しているものの、占有度は1.0であり、占有度範囲には含まれていないため、検出領域611は追尾対象の検出領域として選択されない。このような場合、占有度範囲に含まれている占有度の検出領域のうち点617に最も近接する検出領域を追尾対象の検出領域として選択する。図8(a)の例では、検出領域612の占有度(0.2)は占有度範囲に含まれており、且つ検出領域611を除く検出領域612~616の中で検出領域612が点617に最も近接している検出領域である。よって、検出領域612が追尾対象の検出領域として選択される。
ステップS507では、選択部215は、推定部213aがステップS504で推定した追尾対象の検出領域の占有度、抽出部214aがステップS505で抽出した追尾対象の検出領域の追尾特徴量、を記憶部218に格納(登録)する。記憶部218に格納された占有度および追尾特徴量の一例を図9に示す。
図4に戻って、次に、ステップS402では、追尾部219は、記憶部218に格納された追尾対象の検出領域の追尾特徴量と、選択部215が選択した追尾対象の検出領域もしくは再検出部250によって再検出された追尾対象の画像領域と、を用いて、取得部210が取得した撮像画像における該追尾対象を追尾する追尾処理を実行する。
ステップS403では、判定部221は、追尾部219における追尾処理が成功しているか否かを判定する。追尾部219における追尾処理が成功しているか否かを判定するための判定基準には様々な判定基準が考えられ、特定の判定基準に限らない。本実施形態では、判定部221は、撮像画像から取得部230が取得したそれぞれの検出領域の追尾特徴量と、記憶部218に格納されている追尾対象の追尾特徴量と、の類似度を求める。そして判定部221は、撮像画像から取得部230が取得した追尾特徴量のうち記憶部218に格納されている追尾対象の追尾特徴量との類似度が閾値以上となる追尾特徴量が1以上存在する場合、「追尾部219における追尾処理が成功している」と判定する。一方、判定部221は、撮像画像から取得部230が取得した追尾特徴量のうち記憶部218に格納されている追尾対象の追尾特徴量との類似度が閾値以上となる追尾特徴量がない場合、「追尾部219における追尾処理は成功していない(失敗)」と判定する。
「追尾部219における追尾処理は成功していない(失敗)」と判定される状況の一例を図8(b)に示す。図8(b)に示す如く、追尾対象である犬が他のオブジェクトである樹木の物陰に隠れてしまった場合、撮像画像には犬の追尾特徴量との類似度が閾値以上となる追尾特徴量の検出領域が存在しない。よってこの場合、「追尾部219における追尾処理は成功していない(失敗)」と判定される。
このような判定の結果、追尾部219における追尾処理が成功していると判定された場合には、処理はステップS404に進む。一方、追尾部219における追尾処理は成功していないと判定された場合には、処理はステップS406に進む。
ステップS404では、演算処理装置101は、撮像装置100の動作の終了条件が満たされているか否かを判断する。例えば、ユーザが入力装置103を操作して撮像装置100の動作の停止指示を入力したり、撮像装置100の電源をオフにするなどの操作を行うと、演算処理装置101は、撮像装置100の動作の終了条件が満たされたと判定する。
撮像装置100の動作の終了条件が満たされたと判定された場合には、図4のフローチャートに従った処理は終了する。一方、撮像装置100の動作の終了条件が満たされていないと判定した場合には、処理はステップS405に進む。
ステップS405では、取得部210は、撮像部105により生成された撮像画像を取得する。そして処理はステップS402に進み、追尾部219は、ステップS405で取得部210が取得した撮像画像に対して追尾処理を実行する。
ステップS406では、抽出部211bは、ステップS502と同様にして、取得部210が取得した撮像画像から物体特徴量を抽出する。ステップS407では、推定部212bは、ステップS503と同様にして、抽出部211bが撮像画像から抽出した物体特徴量を用いて、該撮像画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。これにより推定部212bは、撮像画像から推定した検出領域ごとに、該検出領域の位置、該検出領域のサイズ、オブジェクトらしさを表す尤度、を取得する。
ステップS408では、推定部213bは、ステップS504と同様にして、推定部212bが撮像画像から推定したそれぞれの検出領域について占有度を推定する。ステップS409では、抽出部214bは、ステップS505と同様にして、推定部212bが撮像画像から推知したそれぞれの検出領域について、該検出領域に対応する追尾特徴量を抽出する。
ここで、ステップS409の処理の終了時に、図8(c)に示す如く、撮像画像から検出領域621~626が推定部212bによって推定されたとする。検出領域625は、犬の検出領域であり、検出領域626は該犬の一部である頭部の検出領域である。検出領域621は樹木の検出領域であり、検出領域622は該樹木の一部である花群の検出領域であり、検出領域623,624はそれぞれ該花群における花の検出領域である。このときの検出領域621~626のそれぞれの占有度および追尾特徴量の一例を図10に示す。「NO.」は各検出領域の参照番号、「ID」は各検出領域に固有の識別番号である。各検出領域の追尾特徴量は、追尾対象の追尾特徴量と同様のマップ形式を取り、そのマップサイズは、ここでは、幅、高さ、チャネルを1×1×Cとする。
ステップS410では、処理部222は、撮像画像から追尾対象の検出領域の再検出を行う。まず処理部222は、記憶部218から、追尾対象の検出領域の占有度OCCTを取得する。そして処理部222は、下記の式に示す如く、撮像画像中の検出領域のうち、占有度OCCTに基づく範囲に含まれる占有度を求めた検出領域を、候補検出領域とする。
OCCT-α<OCCID<OCCT+α
OCCIDは、撮像画像から推定されたそれぞれの検出領域の占有度である。αは、追尾対象の検出領域の占有度の変動の許容範囲に関する値であり、例えばここでは、0.05とする。OCCT=0.2の場合、0.15<OCCID<0.25を満たすOCCIDに対応する検出領域が候補検出領域となる。図10では、占有度が0.20である検出領域622と占有度が0.18の検出領域626の2つが候補検出領域となる。
OCCIDは、撮像画像から推定されたそれぞれの検出領域の占有度である。αは、追尾対象の検出領域の占有度の変動の許容範囲に関する値であり、例えばここでは、0.05とする。OCCT=0.2の場合、0.15<OCCID<0.25を満たすOCCIDに対応する検出領域が候補検出領域となる。図10では、占有度が0.20である検出領域622と占有度が0.18の検出領域626の2つが候補検出領域となる。
次に処理部222は、候補検出領域のうち、記憶部218から取得した追尾対象の追尾特徴量との相関値が閾値(≧0)以上且つ最も高い追尾特徴量の候補検出領域を、追尾対象の検出領域として決定する。図10の例では、処理部222は、追尾対象の追尾特徴量FT(1、1、C)と、検出領域622の追尾特徴量F2(1、1、C)と、の相関値X1を求める。また、処理部222は、追尾対象の追尾特徴量FT(1、1、C)と、検出領域626の追尾特徴量F6(1、1、C)と、の相関値X2を求める。そして処理部222は、相関値X1が相関値X2よりも高く、且つ相関値X1が閾値以上であれば、検出領域622を追尾対象の検出領域として決定する。一方、処理部222は、相関値X2が相関値X1よりも高く、且つ相関値X2が閾値以上であれば、検出領域626を追尾対象の検出領域として決定する。なお、相関値X1および相関値X2の何れも閾値未満であれば、再検出部250は、追尾対象の検出領域の決定は行わず、次に入力される撮像画像について同様の処理を行って追尾対象の検出領域の再検出を行う。本実施形態では、再検出部250は、追尾対象の検出領域の再検出を開始してから予め設定された期間内に入力されるそれぞれの撮像画像について追尾対象の検出領域の再検出を行う。再検出部250は、追尾対象の検出領域の再検出を開始してから予め設定された期間内に入力されるそれぞれの撮像画像について追尾対象の検出領域の再検出を行っても追尾対象の検出領域が決定できなかった場合には、再検出失敗として動作を終了する。
よって、ステップS410における再検出処理の結果、追尾対象の検出領域が決定できた場合には、処理はステップS402に進み、追尾対象の検出領域が決定できなかった場合には、処理はステップS411に進む。
ステップS411では、再検出部250は、追尾対象の検出領域の再検出を開始してから予め設定された期間(所定時間)が経過したか否かを判断する。この判断の結果、追尾対象の検出領域の再検出を開始してから予め設定された期間(所定時間)が経過した場合には、図4のフローチャートに従った処理は終了する。一方、追尾対象の検出領域の再検出を開始してから未だ予め設定された期間(所定時間)経過していない場合には、処理はステップS410に進む。
このように、本実施形態では、撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録しておく。そして、撮像画像中の追尾対象の追尾が成功していないと判定された場合には、該登録しておいた占有度および特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う。
図8(c)に示す如く、犬が図8(a)の撮像画像(記憶部218に格納した占有度および追尾特徴量の取得元である撮像画像)における犬よりも画面奥方向に移動していた場合、図8(c)の犬のサイズは図8(a)の犬のサイズと比べて相対的に小さくなる。ここで、図8(c)における犬全体のサイズが図8(a)における犬頭部のサイズと同程度のサイズであるとする。この場合、犬頭部および犬全体のそれぞれの追尾特徴量は比較的類似したものになるため、追尾特徴量のみを用いて追尾対象の検出を行っていると、図8(c)における犬全体を犬頭部と誤って再検出する可能性がある。その場合、再検出前後で追尾対象が犬頭部から犬全体に変化してしまう。本実施形態では、追尾特徴量に加えて占有度を用いて追尾対象の再検出を行うので、記憶部218に格納した占有度および追尾特徴量の取得元である撮像画像から追尾対象のサイズが変化した場合であっても、追尾対象を安定的に再検出することができる。
さらに、図8(c)において不特定物体の検出を行うと、犬や樹木及びそれらの部分など多数の検出領域が推定されるので、それらの検出領域の中から追尾特徴量のみで追尾対象の検出領域を特定するのは難しい。しかし、追尾対象が不特定物体であっても、追尾特徴量に加えて占有度を用いて追尾対象の再検出を行うことで、追尾対象を安定的に再検出することができる。
次に、上記の抽出部211a/211b、推定部212a/212b、推定部213a/213b、抽出部214a/214bにて用いられるニューラルネットワークの学習処理を行う学習装置700について説明する。
以下では、抽出部211aおよび抽出部211bに共通の説明を行う場合には、抽出部211aおよび抽出部211bをまとめて抽出部211と称する。同様に、推定部212aおよび推定部212bに共通の説明を行う場合には、推定部212aおよび推定部212bをまとめて推定部212と称する。同様に、推定部213aおよび推定部213bに共通の説明を行う場合には、推定部213aおよび推定部213bをまとめて推定部213と称する。同様に、抽出部214aおよび抽出部214bに共通の説明を行う場合には、抽出部214aおよび抽出部214bをまとめて抽出部214と称する。
本実施形態に係る学習装置700の機能構成例について、図11のブロック図を用いて説明する。なお、図11の抽出部211、推定部212、推定部213は何れも学習装置700による学習対象として示したものであって、これらの機能部を学習装置700が有することを示したものではない。
以下では、図11に示した機能部(抽出部211、推定部212、推定部213、記憶部701を除く)を処理の主体として説明する場合がある。しかし実際には、これらの機能部の機能を演算処理装置130に実行させるためのコンピュータプログラムを該演算処理装置130が実行することで、該機能部の機能が実現される。
記憶部701には、抽出部211、推定部212、推定部213にて用いられるニューラルネットワークの学習に用いる学習データが格納されている。学習データには、学習画像、該学習画像中のオブジェクトの全体もしくは一部の画像領域である基準領域の位置(中心位置、左上隅の位置など)およびサイズ(縦サイズおよび横サイズ)を示す領域情報、該基準領域の占有度、のセットが複数含まれている。
取得部702は、記憶部701から学習データを取得する。取得部703は、取得部702が取得した学習データに含まれている学習画像を取得する。抽出部211は、取得部703が取得した学習画像から物体特徴量を抽出する。
推定部212は、抽出部211が学習画像から抽出した物体特徴量を用いて、該学習画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。これにより推定部212は、学習画像から推定した検出領域ごとに、該学習画像における該検出領域の位置(中心位置、左上隅の位置等)、該検出領域のサイズ(縦サイズおよび横サイズ)、該検出領域に含まれる対象のオブジェクトらしさを表す尤度、を求める。
推定部213は、抽出部212が学習画像から推定したそれぞれの検出領域について、該学習画像におけるオブジェクトの全体の画像領域を包含する画像領域のうち該検出領域が占める割合を占有度として推定する。
算出部707は、推定部212が学習画像から推定した検出領域の位置およびサイズと、該学習画像とセットになっている領域情報が示す基準領域の位置およびサイズと、の間の誤差(位置の誤差およびサイズの誤差に基づく誤差)を領域誤差として求める。算出部707は、「位置の誤差」として、例えば、検出領域の位置と基準領域の位置との間の距離を求める。また算出部707は、「サイズの誤差」として、例えば、検出領域の縦サイズと基準領域の縦サイズとの差分と、検出領域の横サイズと基準領域の横サイズとの差分と、の和を求める。そして例えば、算出部707は、「位置の誤差」と「サイズの誤差」との和を、全ての検出領域について求め、全ての検出領域について求めた和の総和を領域誤差として求める。
算出部708は、推定部213が学習画像から推定した検出領域ごとの占有度と、基準領域ごとの占有度と、の差分を占有度誤差として求める。学習部709は、算出部707が求めた領域誤差および算出部708が求めた占有度誤差が小さくなるように、抽出部211、推定部212、推定部213で用いるニューラルネットワークのパラメータを更新する。ニューラルネットワークのパラメータは、例えば、該ニューラルネットワークにおける畳込み層及び全結合層の重み係数である。このような更新処理により、ニューラルネットワークの学習処理を実現させる。
上記の学習装置700によるニューラルネットワークの学習処理について、図12のフローチャートに従って説明する。ステップS801では、取得部702は、記憶部701から学習データを取得する。取得部703は、取得部702が取得した学習データに含まれている学習画像を取得する。学習データは事前に作成して記憶部701に格納されている。ここで、学習データの作成方法について、図13を用いて説明する。学習データの作成は学習装置700が行っても良いし、他の装置が行っても良い。
図13(a)において、人物1350を含む学習画像1300には、人物1350の全身の画像領域1310、人物1350の頭部の画像領域1320、人物1350の胴体の画像領域1330、人物1350の下半身の画像領域1340、が設定されている。
図13(b)の人物1450をクローズアップして撮像した学習画像1400には、人物1450の頭部の画像領域1402、人物1450の胴体の画像領域1403、学習画像1400における人物1450の全体を含む画像領域1404、が設定されている。
図13(c)の自動車1550を含む学習画像1500には、自動車1550の全体を含む画像領域1501、ヘッドライトの画像領域1502,1503、タイヤの画像領域1504,1505、フロントガラスの画像領域1506、が設定されている。
図13(d)において、猫1650を含む学習画像1600には、猫1650の全身の画像領域1601、頭部の画像領域1602、右目の画像領域1603、左目の画像領域1604、胴体の画像領域1605、が設定されている。
学習画像上におけるオブジェクトの画像領域やオブジェクトの一部の画像領域の設定は、例えばユーザが入力装置103のようなユーザインターフェースを用いて手動で行っても良いし、検出器により検出された画像領域を設定することで行っても良い。また、検出器により検出された画像領域をユーザが手動で修正しても良い。
このようにして学習画像に対して設定されたオブジェクトの画像領域やオブジェクトの一部の画像領域の位置およびサイズを示す領域情報が該学習画像とセットで学習データに登録される。なお、オブジェクトによっては画像領域の回転方向および回転角度を示す回転情報を学習データに含めても良い。
また、学習画像中のオブジェクトの全体の画像領域の面積(画素数)に対する「オブジェクトの全体の画像領域もしくはオブジェクトの一部の画像領域」の面積の割合を該画像領域の占有度として求め、該占有度を該学習画像とセットで学習データに登録する。
図13(a)の例では、人物1350の全身の画像領域1310の面積に対する該画像領域1310の面積の割合を該画像領域1310の占有度として求める(この場合の占有度は1.0となる)。また、人物1350の全身の画像領域1310の面積に対する頭部の画像領域1320の面積の割合を画像領域1320の占有度として求める。また、画像領域1310の面積に対する胴体の画像領域1330の面積の割合を画像領域1330の占有度として求める。また、画像領域1310の面積に対する下半身の画像領域1340の面積の割合を画像領域1340の占有度として求める。図13(a)の例では、下半身の画像領域1340の面積は画像領域1310の面積の半分ぐらいであるから、画像領域1340の占有度は0.5と算出される。
図13(b)の例のように、人物1450をクローズアップして撮像した学習画像1400の場合には、人物1450の一部の画像領域1404は存在するものの、人物1450の全身の画像領域が存在しない。このような場合には、ユーザが人物1450の全身の画像領域に対する画像領域1404の占有度を目測で推測して入力する。そして、頭部の画像領域1402の占有度を求める際には、画像領域1404の面積に対する画像領域1402の面積の割合と、画像領域1404の占有度と、の積を画像領域1402の占有度として求める。また、胴体の画像領域1403の占有度を求める際には、画像領域1404の面積に対する画像領域1403の面積の割合と、画像領域1404の占有度と、の積を画像領域1403の占有度として求める。また、ユーザが頭部の画像領域1402および胴体の画像領域1403の占有度を目測で推測して入力しても良い。
図13(c)の例では、自動車1550の全体を含む画像領域1501の面積に対する該画像領域1501の面積の割合を該画像領域1501の占有度として求める。また、画像領域1501の面積に対する自動車1550のヘッドライトの画像領域1502の面積の割合を該画像領域1502の占有度として求める。また、画像領域1501の面積に対する自動車1550のヘッドライトの画像領域1503の面積の割合を該画像領域1503の占有度として求める。また、画像領域1501の面積に対する自動車1550のタイヤの画像領域1504の面積の割合を該画像領域1504の占有度として求める。また、画像領域1501の面積に対する自動車1550のタイヤの画像領域1505の面積の割合を該画像領域1505の占有度として求める。また、画像領域1501の面積に対する自動車1550のフロントガラスの画像領域1506の面積の割合を画像領域1506の占有度として求める。
図13(d)の例では、猫1650の全身の画像領域1601の面積に対する該画像領域1601の面積の割合を該画像領域1601の占有度として求める。また、画像領域1601の面積に対する猫1650の頭部の画像領域1602の面積の割合を該画像領域1602の占有度として求める。また、画像領域1601の面積に対する猫1650の右目の画像領域1603の面積の割合を該画像領域1603の占有度として求める。また、画像領域1601の面積に対する猫1650の左目の画像領域1604の面積の割合を該画像領域1604の占有度として求める。また、画像領域1601の面積に対する猫1650の胴体の画像領域1605の面積の割合を該画像領域1605の占有度として求める。
検出するオブジェクトの種別(カテゴリ)を限定して検出領域を推定したい場合には、限定した種別のオブジェクトの学習データを準備すればよい。例えば、人物を検出したい場合には、人物の学習データを準備すればよく、自動車を検出したい場合には自動車の学習データを準備すればよい。検出するオブジェクトの種別を限定せずに検出領域を推定したい場合には、様々な種別のオブジェクトの学習データを準備すればよい。
例えば、図13に示した人物、自動車、猫に加えて、電車、飛行機、昆虫、鳥、犬など様々な種別のオブジェクトの学習データを準備すればよい。このように様々な種別のオブジェクトの学習データを準備し、適切に学習処理が実行できれば、学習データに含まれていない種別のオブジェクトも検出可能となる。例えば、魚の学習データがなくても、魚らしさを検出することができるので、魚の検出が可能となる。
図12に戻って、次に、ステップS802では、抽出部211は、ステップS801で取得部703が取得した学習画像から、学習中のニューラルネットワークを用いて、物体特徴量を抽出する。
ステップS803では、推定部212は、ステップS802で学習画像から抽出された物体特徴量と、学習中のニューラルネットワークと、を用いて、該学習画像中のオブジェクトの全体の画像領域や該オブジェクトの一部の画像領域を検出領域として推定する。
ステップS804では、推定部213は学習中のニューラルネットワークを用いて、ステップS803で抽出部212が学習画像から推定したそれぞれの検出領域について占有度を推定する。
ステップS805では、算出部707は、推定部212が学習画像から推定した検出領域の位置およびサイズと、該学習画像とセットになっている領域情報が示す基準領域の位置およびサイズと、に基づいて領域誤差を求める。例えば、算出部707は、推定部212で推定した検出領域の中心座標およびサイズの、学習データ中の対応する基準領域の中心座標およびサイズに対するずれ量(例えば二乗誤差)を足し合わせて求める。
ステップS806では、算出部708は、学習画像におけるそれぞれの検出領域について、推定部213が推定した該検出領域の占有度と、該学習画像とセットになっている対応領域の占有度と、の差分(例えば二乗誤差)を求める。そして算出部708は、学習画像におけるそれぞれの検出領域について求めた差分の総和を占有度誤差として求める。
ステップS807では、学習部709は、算出部707が求めた領域誤差と算出部708が求めた占有度誤差との和(損失値)が小さくなるように、抽出部211、推定部212、推定部213で用いるニューラルネットワークのパラメータを更新する。該パラメータの更新には、例えば、誤差逆伝搬法を用いることができる。
ステップS808では、学習部709は、学習の終了条件が満たされたか否かを判断する。学習の終了条件には様々な条件があり、特定の条件に限らない。例えば、学習の終了条件には、損失値が閾値以下、損失値の変化率が閾値以下、パラメータの更新回数が閾値以上、等がある。また例えば、パラメータ更新のための学習データとは別に精度検証用の学習データを用意しておき、上記のステップS801~ステップS807の処理を行って、損失値の総和が閾値以下になった場合に学習の終了条件が満たされたと判断するようにしても良い。
このような判断の結果、学習の終了条件が満たされたと判断した場合には、図12のフローチャートに従った処理は終了し、学習の終了条件は満たされていないと判断した場合には、処理はステップS801に進む。
次に、抽出部214に係る学習について説明する。記憶部701には、抽出部214の学習用のデータ(学習データ)が格納されている。抽出部214の学習データには、同じオブジェクトを含む2枚の学習画像、該学習画像中の追尾対象の画像領域の位置(中心位置、左上隅の位置など)およびサイズ(縦サイズおよび横サイズ)を示す領域情報、該画像領域の占有度、のセットが複数含まれている。占有度の定義は上記の通りである。以下では、抽出部214の学習データに含まれている2枚の学習画像のうち一方を第1画像、他方を第2画像と称する。
図14に第1画像および第2画像の一例を示す。図14(a)は第1画像の一例を示し、図14(b)は第2画像の一例を示す。第1画像および第2画像には追尾対象のオブジェクト1701、非追尾対象のオブジェクト1702、の両方が含まれている。非追尾対象は追尾対象と類似する外見を有するオブジェクトである。このように、抽出部214の学習データには、追尾対象、該追尾対象と外見が類似している非追尾対象、の両方を含む2枚の学習画像が含まれている。
第1画像中の追尾対象1701の画像領域1705および第2画像中の追尾対象1701の画像領域1707、のそれぞれの位置やサイズは学習データに含まれている領域情報で規定されている。第1画像中の非追尾対象1702の画像領域1706および第2画像中の非追尾対象1702の画像領域1708、のそれぞれの位置やサイズは、抽出部211および推定部212によって第1画像および第2画像のそれぞれから得られる。
そして抽出部214は、第1画像から追尾対象1701の画像領域1705および非追尾対象1702の画像領域1706の追尾特徴量を取得し、第2画像から追尾対象1701の画像領域1707の追尾特徴量を取得する。
そして学習部709は、第1画像中の追尾対象の追尾特徴量と第2画像中の追尾対象の追尾特徴量との特徴量間距離が短くなるように、且つ第1画像中の追尾対象の追尾特徴量と該第1画像中の非追尾対象の追尾特徴量との間の特徴量間距離が長くなるように、抽出部214で用いるニューラルネットワークのパラメータを更新する。該パラメータの更新には、例えば、誤差逆伝搬法を用いることができる。図14の例では、学習部709は、画像領域1705の追尾特徴量と画像領域1707の追尾特徴量との間の特徴量間距離が短くなるように、且つ画像領域1705の追尾特徴量と画像領域1706の追尾特徴量との間の特徴量間距離が長くなるように、抽出部214で用いるニューラルネットワークのパラメータを更新する。なお、学習データとして様々な種別のオブジェクトを含む画像を用意することで、不特定物体の追尾に適用可能な追尾特徴量を取得することができる。
このように、本実施形態によれば、不特定物体の追尾対象を一時的に消失したとしても、画像内に追尾対象が復帰した際に追尾対象を再検出することができる。その際、再検出時に追尾対象の占有度を用いることで、画像内に追尾特徴量が似ている他の物体が存在したとしても、占有度が異なっていれば追尾対象を正確に再検出することができる。さらに、占有度を利用することで、追尾対象がオブジェクトの全体であれば該オブジェクトの全体を再検出し、追尾対象がオブジェクトの一部であれば該一部を再検出することができる。そのため、ユーザの意図した追尾対象を追尾したり該追尾対象に合焦したりすることができる。
[第2の実施形態]
以下では、第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。第1の実施形態では、ユーザが入力した画像座標および占有度範囲を用いて追尾対象の検出領域を特定し、該特定した検出領域について占有度および追尾特徴量を記憶部218に登録した。
以下では、第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。第1の実施形態では、ユーザが入力した画像座標および占有度範囲を用いて追尾対象の検出領域を特定し、該特定した検出領域について占有度および追尾特徴量を記憶部218に登録した。
本実施形態では、撮像装置100における撮像パラメータに対応する占有度と、ユーザが入力した画像座標と、を用いて追尾対象の検出領域を特定し、該特定した検出領域について占有度および追尾特徴量を記憶部218に登録する。
本実施形態に係る撮像装置100の機能構成例を図15のブロック図に示す。図15において図3に示した機能部と同様の機能部には同じ参照番号を付しており、該機能部に係る説明は省略する。また以下では、図15に示した各機能部を処理の主体として説明する場合がある。しかし、実際には、図15に示した機能部のうち追尾部219、AF処理部220、記憶部218を除く各機能部の機能を演算処理装置130に実現させるためのコンピュータプログラムを該演算処理装置130が実行することで、該機能部の機能が実現される。同様に、図15に示した機能部のうち追尾部219、AF処理部220の機能を演算処理装置101に実現させるためのコンピュータプログラムを該演算処理装置101が実行することで、該追尾部219、該AF処理部220の機能が実現される。
まず、撮像装置100の撮像パラメータについて説明する。撮像パラメータとしては、絞り値、露光時間、AFフレームサイズ、ISO感度、Bv値などが使用できる。以下では、具体的な説明を行うために、一例として、撮像装置100の撮像パラメータが「撮像部105のレンズの絞り値」であるケースについて説明する。しかし、撮像装置100の撮像パラメータが「撮像部105のレンズの絞り値」以外であっても、以下の説明は同様に適用可能である。絞り値は画像の明るさとボケ具合を制御する設定値の一つで、F1.4、F2、F2.8、F4、F5.6、F8、F11、F16のように表され、設定値の数値が小さいと、絞りの大きさが大きくなるため、撮像される画像が明るくなり、被写界深度が浅くなる。一方、設定値の数値が大きいと、絞りの大きさが小さくなるため、撮像される画像が暗くなり、被写界深度が深くなる。絞り値を小さくして被写界深度を浅くし、ピントが合う範囲を限定することで、主要被写体が背景から浮かび上がり、結果として印象的な撮像画像が得られる。逆に、絞り値を大きくして被写界深度を深くし、ピントが合う範囲を広くすることで、多くの被写体をボケることなく撮像画像内に収めることができる。
選択部940は、推定部212aが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。そして選択部940は、該選択した検出領域について推定部213aが推定した占有度、該選択した検出領域について抽出部214aが抽出した追尾特徴量、を記憶部218に格納(登録)する。選択部240は、選択部915、入力部216、入力部917を有する。
選択部915は、入力部216が取得した画像座標、入力部917が取得した撮像パラメータとしての絞り値、に基づいて、推定部212aが撮像画像から推定した検出領域のうち追尾対象の検出領域を選択する。選択部915は、様々な絞り値に対応する占有度を保持している。例えば、選択部915は、F1.4以下の絞り値に対応する占有度として「0.1」、F8以上の絞り値に対応する占有度として「1.0」を保持している。また、選択部915は、絞り値F1.4と絞り値F8の間の絞り値に対応する占有度は、絞り値F1.4に対応する占有度「0.1」と絞り値F8に対応する占有度「1.0」とを用いた線形補間により求める。
入力部917は、ユーザが入力装置103を用いて入力した絞り値を入力する。このときユーザが操作する入力装置103には、例えば、撮像装置100のハードウェアダイヤルが適用可能である。
選択部940による追尾対処の検出領域の選択処理について、図16(a)を例にとり説明する。撮像画像1800において検出領域1802~1804はそれぞれ、推定部212aが撮像画像1800から推定した検出領域である。
検出領域1802は、馬1801の全体を含む検出領域であり、検出領域1803は該馬1801の一部である頭部の検出領域であり、検出領域1804は樹木の検出領域である。点1805は、ユーザが入力装置103を操作して追尾対象の位置として指示した指示位置を示す。ここで、推定部213aが検出領域1802について求めた占有度は「1.0」、検出領域1803について求めた占有度は「0.3」であるとする。
入力部216は、点1805に対応する画像座標を取得する。また、入力部917は、ユーザが入力装置103を操作して入力した「絞り値」を取得する。選択部915は、入力部917が取得した絞り値と関連付けて保持している占有度OCCTを特定する。また選択部915は、検出領域1802~1804のうち、点1805に対応する画像座標を包含する検出領域を候補として特定する。図16(a)のケースでは、点1805に対応する画像座標を包含する検出領域は検出領域1802であるから検出領域1802が候補として特定される。なお、点1805に対応する画像座標を包含する検出領域が複数存在する場合には、該複数存在する検出領域のうち占有度が最も大きい検出領域が候補として特定される。そして選択部915は、候補として特定された検出領域、該候補として特定された検出領域に含まれる検出領域、のうち占有度が占有度OCCTである検出領域を、追尾対象の検出領域として選択する。なお、選択部915は、候補として特定された検出領域、該候補として特定された検出領域に含まれる検出領域、のうち占有度が占有度OCCTである検出領域が複数存在する場合には、該複数存在する検出領域のうち、入力部216が取得した画像座標に最も近い検出領域を追尾対象の検出領域とする。
例えば、入力部917が取得した絞り値がF2.8であった場合、F2.8に対応する占有度は0.3である。検出領域1802~1804のうち点1805に対応する画像座標を包含する検出領域は検出領域1802のみであるから、検出領域1802が候補として特定される。そして、候補として特定された検出領域1802、該検出領域1802に含まれる検出領域1803、のうち、占有度が0.3の検出領域は検出領域1803のみであるから、選択部915は、該検出領域1803を追尾対象の検出領域として選択する。
また例えば、入力部917が取得した絞り値がF8であった場合、F8に対応する占有度は1.0である。検出領域1802~1804のうち点1805に対応する画像座標を包含する検出領域は検出領域1802のみであるから、検出領域1802が候補として特定される。そして、候補として特定された検出領域1802、該検出領域1802に含まれる検出領域1803、のうち、占有度が1.0の検出領域は検出領域1802のみであるから、選択部915は、該検出領域1802を追尾対象の検出領域として選択する。
なお、候補として特定された検出領域、該候補として特定された検出領域に含まれる検出領域、のうちOCCT-α<OCCID<OCCT+αを満たす占有度OCCIDの検出領域を追尾対象の検出領域として選択するようにしても良い。
このように、絞り値が大きい場合は占有度の大きい検出領域、絞り値が小さい場合は占有度の小さい検出領域を追尾対象の検出領域として選択する。これは、絞り値を小さくするときは合焦範囲を限定したい、絞り値を大きくするときは合焦範囲を広くしたいというユーザの意図に対応する。
そして、記憶部218に追尾対象の占有度および追尾特徴量を登録した後に取得部210が取得した撮像画像が図16(b)に示す如く、図16(a)の馬1801が右方向に移動して撮像画像中央に位置する樹木に隠れて一旦該撮像画像から消失するとする。図18(c)、(d)に示した撮像画像は、図16(b)の撮像画像の後に取得部210が取得した撮像画像であり、馬1801が樹木の右側から再び現れた撮像画像である。
絞り値の設定がF2.8である場合、図16(c)に示す如く馬1801の頭部の検出領域1850が追尾対象の検出領域として再検出されるので、該再検出された頭部の検出領域1850に合焦することになる。これにより、結果として頭部より背景方向にある馬1801の胴体や樹木がぼけた撮像画像が得られる。このような撮像画像は、背景から馬1801の頭部が浮かび上がり、印象的な撮像画像となる。
一方、絞り値の設定がF8である場合、図16(d)に示す如く馬1801の全体の検出領域1860が追尾対象の検出領域として再検出される。然るに、このような撮像画像では、該再検出された馬1801の全体がはっきり見えるようになり、結果として、馬1801の躍動感が伝わるような撮像画像が得られる。
このように、追尾対象を選択する際の占有度設定を絞り値と連動させることで、追尾対象を確実に検出することができるとともに、ユーザの意図した表現の撮像画像を取得することができるようになる。
上記の如く、本実施形態では、撮像パラメータは絞り値以外であっても良い。例えば、露光時間に応じて占有度の選択基準を変更する方法も考えられる。露光時間が長くなると被写体ブレや手ブレの量が大きくなるため、撮像画像をミクロ的に見てしまうと、ブレの影響が強く出る。したがって、露光時間がより長い場合には、占有度がより大きい検出領域を優先的に追尾対象の検出領域として選択した方がよい。
その他、AFフレームサイズに応じて占有度の選択基準を変更する方法も考えられる。AFフレームサイズが小さいときは、被写体の一部に限定して合焦させたいというユーザの意図があるとみなせるので、AFフレームサイズが小さいほど、占有度がより小さい検出領域を追尾対象の検出領域として優先的に選択した方がよい。逆に、AFフレームサイズが大きいときは、被写体全体に合焦させたいというユーザの意図があるとみなせるので、AFフレームサイズが大きいほど、占有度がより大きい検出領域を追尾対象の検出領域として優先的に選択した方がよい。
このように、本実施形態では、不特定物体の追尾対象を一時的に消失したとしても、画像内に追尾対象が復帰した際に追尾対象を再検出することができる。また、占有度設定を撮像パラメータと連動させることで、ユーザの意図した表現の撮像画像が得られるようにオブジェクトを追尾対象にすることができる。
[第3の実施形態]
第1の実施形態や第2の実施形態では、追尾対象の検出領域に対して追尾処理やAF処理を行うケースについて説明した。しかし、追尾対象の検出領域に対して行う処理は追尾処理やAF処理に限らず、適正露出に制御するオートエクスポージャー処理(AE処理)や光源に対して色調補正を行うオートホワイトバランス処理(AWB処理)などの他の処理であっても良い。また、追尾対象の検出領域に対して複数の処理を適用しても良い。
第1の実施形態や第2の実施形態では、追尾対象の検出領域に対して追尾処理やAF処理を行うケースについて説明した。しかし、追尾対象の検出領域に対して行う処理は追尾処理やAF処理に限らず、適正露出に制御するオートエクスポージャー処理(AE処理)や光源に対して色調補正を行うオートホワイトバランス処理(AWB処理)などの他の処理であっても良い。また、追尾対象の検出領域に対して複数の処理を適用しても良い。
また、図1の構成では、学習装置700は撮像装置100とは別個の装置であるものとして説明したが、撮像装置100と学習装置700とを一体化させて1台の撮像装置100を構成しても良い。
また、上記の実施形態にて説明した撮像装置の動作は、「外部の撮像装置により撮像された撮像画像から追尾対象の検出領域を検出/再検出する画像処理装置」にも同様に適用可能である。このような画像処理装置は、例えば、検出/再検出した追尾対象の検出領域を該撮像装置に通知することで、該撮像装置に該追尾対象の検出領域に対する追尾処理やAF処理等を実行させることができる。また、このような画像処理装置は、検出/再検出した追尾対象の検出領域に係る情報を外部の装置に保持するようにしても良い。
また、上記の実施形態では、図3,11,15に示した各機能部(記憶部218や記憶部701を除く)はソフトウェア(コンピュータプログラム)で実装したケースについて説明した。しかし、図3,11,15に示した各機能部の一部若しくは全部をハードウェアで実装しても構わない。
また、上記の各実施形態で使用した数値、処理タイミング、処理順、処理の主体、データ(情報)の送信先/送信元/格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。
また、以上説明した各実施形態の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態の一部若しくは全部を選択的に使用しても構わない。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
210:取得部 215:選択部 216:入力部 217:入力部 218:記憶部 219:追尾部 220:AF処理部 221:判定部 230:取得部 240:選択部 250:再検出部
Claims (9)
- 撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する登録手段と、
撮像画像中の追尾対象の追尾が成功していないと判定された場合には、前記占有度および前記特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う再検出手段と
を備えることを特徴とする画像処理装置。 - 前記再検出手段は、
撮像画像から検出されたオブジェクトもしくは該オブジェクトの一部の検出領域について占有度および特徴量を求め、該撮像画像から検出された検出領域のうち、前記登録手段が登録した占有度に基づく範囲に含まれる占有度の画像領域であって、前記登録手段が登録した特徴量との相関値が最も高い特徴量の画像領域を、追尾対象の画像領域として再検出することを特徴とする請求項1に記載の画像処理装置。 - 前記登録手段は、
撮像画像からオブジェクトの全体若しくは一部の画像領域を検出領域として検出し、該検出した検出領域のうち、ユーザ操作に応じて選択された検出領域の占有度および特徴量を登録することを特徴とする請求項1または2に記載の画像処理装置。 - 前記登録手段は、ユーザが入力した占有度範囲に含まれる占有度の検出領域であって、ユーザが指示した画像座標を内包する検出領域の占有度および特徴量を登録することを特徴とする請求項3に記載の画像処理装置。
- 前記登録手段は、ユーザが入力した画像座標に基づいて特定される検出領域のうち、ユーザが入力した撮像パラメータに応じた占有度の検出領域もしくは該占有度に基づく占有度範囲に含まれる占有度の検出領域の占有度および特徴量を登録することを特徴とする請求項3に記載の画像処理装置。
- 撮像画像を撮像する撮像手段と、
請求項1ないし5の何れか1項に記載の画像処理装置と、
前記撮像画像中の追尾対象の画像領域に対して処理を実行する処理手段と
を備えることを特徴とする撮像装置。 - 前記処理は、追尾処理、AF処理、AE処理、AWB処理、を含むことを特徴とする請求項6に記載の撮像装置。
- 画像処理装置が行う画像処理方法であって、
前記画像処理装置の登録手段が、撮像画像中の追尾対象の画像領域もしくは該追尾対象が属するオブジェクトの画像領域における該追尾対象の画像領域の割合を示す占有度と、該追尾対象の特徴量と、を登録する登録工程と、
前記画像処理装置の再検出手段が、撮像画像中の追尾対象の追尾が成功していないと判定された場合には、前記占有度および前記特徴量に基づいて、撮像画像から追尾対象の画像領域の再検出を行う再検出工程と
を備えることを特徴とする画像処理方法。 - コンピュータを、請求項1ないし5の何れか1項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021200395A JP2023086022A (ja) | 2021-12-09 | 2021-12-09 | 画像処理装置、撮像装置、画像処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021200395A JP2023086022A (ja) | 2021-12-09 | 2021-12-09 | 画像処理装置、撮像装置、画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023086022A true JP2023086022A (ja) | 2023-06-21 |
Family
ID=86776069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021200395A Pending JP2023086022A (ja) | 2021-12-09 | 2021-12-09 | 画像処理装置、撮像装置、画像処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023086022A (ja) |
-
2021
- 2021-12-09 JP JP2021200395A patent/JP2023086022A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3477931B1 (en) | Image processing method and device, readable storage medium and electronic device | |
CN110149482B (zh) | 对焦方法、装置、电子设备和计算机可读存储介质 | |
EP3757890A1 (en) | Method and device for image processing, method and device for training object detection model | |
JP6501092B2 (ja) | オブジェクトセグメンテーションのための前景マスク補正のための画像処理装置及び方法 | |
US8417059B2 (en) | Image processing device, image processing method, and program | |
CN105323425B (zh) | 融合图像系统中的场景运动校正 | |
JP6655878B2 (ja) | 画像認識方法及び装置、プログラム | |
US8928736B2 (en) | Three-dimensional modeling apparatus, three-dimensional modeling method and computer-readable recording medium storing three-dimensional modeling program | |
JP4373840B2 (ja) | 動物体追跡方法、動物体追跡プログラムおよびその記録媒体、ならびに、動物体追跡装置 | |
CN110493527B (zh) | 主体对焦方法、装置、电子设备和存储介质 | |
WO2009098894A1 (ja) | 電子カメラおよび画像処理方法 | |
WO2019221013A4 (en) | Video stabilization method and apparatus and non-transitory computer-readable medium | |
US20150213611A1 (en) | Image processing apparatus that identifies image area, and image processing method | |
US10013632B2 (en) | Object tracking apparatus, control method therefor and storage medium | |
CN110191287B (zh) | 对焦方法和装置、电子设备、计算机可读存储介质 | |
JP2005165984A (ja) | 人物顔の頭頂部検出方法及び頭頂部検出システム並びに頭頂部検出プログラム | |
CN113610865B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US9323981B2 (en) | Face component extraction apparatus, face component extraction method and recording medium in which program for face component extraction method is stored | |
TW202001783A (zh) | 影像分析方法、電子系統以及非暫態電腦可讀取記錄媒體 | |
JP2011071925A (ja) | 移動体追尾装置および方法 | |
JP2023086022A (ja) | 画像処理装置、撮像装置、画像処理方法 | |
JP6555940B2 (ja) | 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法 | |
JP2005165983A (ja) | 人物顔のあご検出方法及びあご検出システム並びにあご検出プログラム | |
CN110610171A (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
JP2016152467A (ja) | 追尾装置、追尾方法及び追尾プログラム |