JP2017200088A

JP2017200088A - 被写体追跡装置およびその制御方法、撮像装置、プログラム

Info

Publication number: JP2017200088A
Application number: JP2016090348A
Authority: JP
Inventors: 広明栗栖; Hiroaki Kurisu
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2017-11-02
Anticipated expiration: 2036-04-28
Also published as: JP6685823B2

Abstract

【課題】撮像された画像に関連する距離情報と、被写体に係る奥行き方向の位置変化の検出情報を用いることで被写体追跡の精度を向上させること。【解決手段】撮像装置は被写体追跡部を備える。被写体検出部５０１は撮像画像内の被写体領域を検出する。マッチング部５０２は第１の被写体候補領域の情報として複数の評価値と領域情報を出力する。焦点検出用信号処理部２２４は、撮像光学系における各焦点検出領域のデフォーカス量を算出する。光軸ベクトル算出部５０４はデフォーカス量を取得し、撮像画像内における被写体の奥行き方向の位置変化を示す光軸ベクトルを算出する。距離・ベクトル比較部５０５は、算出されたデフォーカス量と光軸ベクトルに基づいて第２の被写体候補領域を出力する。被写体領域決定部５０３は、第２の被写体候補領域に基づいて第１の被写体候補領域から絞り込んだ領域を、被写体追跡用の被写体領域として決定する。【選択図】図５

Description

本発明は、撮像装置等に用いられる被写体追跡処理の技術に関する。

動画像から特定の被写体画像を抽出して被写体を追跡する技術は、画像内の被写体人物の顔領域や人体領域の特定等に利用されている。例えば、通信会議、マン・マシン・インターフェイス、セキュリティ、任意の被写体を追跡するためのモニタ・システム、画像圧縮等の多くの分野で使用可能である。

ユーザが指定した撮像画像内の被写体の画像を抽出して追跡し、被写体に対する焦点状態や露出状態を最適化する技術がある（特許文献１参照）。一般的なテンプレートマッチングの技術では、タッチパネル等の入力インターフェイスを用いてユーザが画像内で任意に指定した領域を基準としてテンプレート画像が登録される。テンプレート画像と最も類似度が高いか、または相違度が低い領域を画像内において推定し、特定の被写体を追跡する処理が行われる。画素パターンの類似性を評価尺度として用いる方法は、追跡対象とその他の被写体（背景等）において部分領域の画素パターンが類似していると、誤った被写体を対象として追跡が行われる可能性がある。また、色ヒストグラムの類似性を評価尺度に利用する方法は、追跡対象とその他の被写体において部分領域の色の割合が類似していると、誤った被写体を対象として追跡が行われる可能性がある。

被写体追跡を正確に行うために距離情報を利用した技術が提案されている。特許文献２には追跡対象の距離情報を利用して、撮像装置と追跡対象の被写体の間に存在する別の被写体（遮蔽被写体）の領域を検出し、遮蔽被写体に焦点を合わせないようにする技術が開示されている。

特開２００１−６０２６９号公報特開２０１４−２０２８７５号公報特開２００２−２５１３８０号公報

従来の技術では被写体追跡が困難な撮影シーンがあり、被写体追跡の精度が充分に得られない場合がある。例えば、追跡対象の被写体（以下、主被写体と呼ぶ）に対して、画素パターンや色ヒストグラム等が類似する被写体（以下、類似被写体と呼ぶ）が存在するシーンを想定する。撮像装置の光軸方向（撮影方向）にて主被写体と類似被写体との距離差が小さい場合、主被写体と類似被写体とを距離情報で差別化することが困難となる。また、撮像装置から見た場合に主被写体が類似被写体に遮蔽されて姿が見えない間に主被写体が撮像装置の光軸方向に移動するシーンを想定する。追跡対象の乗り移りの検出や、再び出現した主被写体の追跡が困難になる可能性がある。

本発明は、撮像された画像に関連する距離情報と、被写体に係る奥行き方向の位置変化の検出情報を用いることで被写体追跡の精度を向上させることを目的とする。

本発明の一実施形態に係る装置は、画像データおよび該画像データに関連する距離情報を取得して画像内の被写体の追跡処理を行う被写体追跡装置であって、前記画像データおよび距離情報を取得する取得手段と、前記画像データから被写体の画像を検出して被写体領域に係る複数の第１の候補領域の情報を出力する第１の検出手段と、前記距離情報および画像内における前記被写体の奥行き方向の位置変化から被写体領域に係る第２の候補領域の情報を出力する第２の検出手段と、前記第１および第２の候補領域の情報を取得し、前記第２の候補領域により前記複数の第１の候補領域から絞り込んだ領域を被写体追跡に用いる被写体領域として決定する決定手段と、を備える。

本発明によれば、撮像された画像に関連する距離情報と、被写体に係る奥行き方向の位置変化の検出情報を用いることで被写体追跡の精度を向上させることができる。

本発明の実施形態に係る撮像装置を例示する外観図である。本発明の実施形態に係る撮像装置の構成例を示すブロック図である。撮像光学系の瞳と撮像素子の光電変換部との関係を示す模式図である。本発明の第１実施形態における被写体追跡処理を含む全体のフローチャートである。本発明の第１実施形態における被写体追跡処理部を示すブロック図である。マッチング処理を模式的に示す図である。被写体の像面位置とフォーカスレンズ位置の像面変換値の時間変化を示す図である。被写体領域と焦点検出領域を示す図である。被写体追跡処理を示すフローチャートである。第２の被写体候補領域の検出処理を示すフローチャートである。２つの被写体が同距離に存在する場合に被写体追跡を示す図である。２つの被写体のデフォーカス量と光軸ベクトル量の時間変化を示す図である。２つの被写体がすれ違う際の被写体追跡を示す図である。２つの被写体のデフォーカス量と光軸ベクトル量の時間変化を示す図である。本発明の第２実施形態における被写体追跡処理部を示すブロック図である。本発明の第２実施形態における焦点検出領域を示す図である。

以下、添付図面を参照して、本発明の例示的な実施形態を詳細に説明する。各実施形態の撮像装置は、撮像面位相差検出方式の焦点検出が可能な構成を有し、画像データに関連する距離情報と後述の光軸ベクトル情報（位置変化ベクトルの光軸成分の情報）を用いて被写体追跡の演算を行う。なお、以下の各実施形態に説明する構成は単なる例示であり、本発明は実施形態に記載された構成に限定されない。

［第１実施形態］
図１および図２を参照して、本実施形態における撮像装置について説明する。図１は撮像装置１０１の外観を示す斜視図である。撮像装置１０１の光軸方向は、撮像装置１０１内の撮像面１０２に対して法線方向となる奥行き方向１０３である。図２は、撮像装置２００の構成例を示すブロック図である。撮像装置２００は、撮像光学系を介して撮像素子により撮像された被写体の画像データ（動画像や静止画像のデータ）を記録媒体に記録する機能を有する。記録媒体はテープや固体メモリ、光ディスクや磁気ディスク等の各種メディアである。撮像装置２００はデジタルスチルカメラやビデオカメラ等であるが、これらに限定されるものではない。

撮影レンズ２０１は、固定レンズ２０２、絞り２０３、フォーカスレンズ２０４を備えるレンズユニットである。絞り制御部２１１は、絞り２０３を駆動することにより、絞り２０３の開口径を調整して撮影時の光量調節を行う。フォーカス制御部２１２は、撮影レンズ２０１の焦点ずれ量に基づいてフォーカスレンズ２０４の駆動量を決定する。焦点調節用レンズであるフォーカスレンズ２０４を移動させることにより、焦点調節状態が制御される。レンズ制御部２１３は、フォーカス制御部２１２を介してフォーカスレンズ２０４の移動を制御し、自動焦点調節制御が実現される。図２にはフォーカスレンズ２０４を単レンズで簡略的に示しているが、通常複数のレンズで構成される。絞り制御部２１１やフォーカス制御部２１２はレンズ制御部２１３によって制御される。詳しくは後述するが、フォーカスレンズ２０４は主被写体に対して常に焦点を合わせ続けるように駆動制御される。

撮影レンズ２０１を構成する光学部材を介して入射した被写界光は、撮像素子２２１の受光面上に結像する。撮像素子２２１は、被写体像（光学像）を信号電荷に光電変換する光電変換素子であり、ＣＣＤ（電荷結合素子）イメージセンサやＣＭＯＳ（相補型金属酸化膜半導体）イメージセンサにより構成される。撮像素子２２１の各光電変換部に蓄積された信号電荷は、タイミングジェネレータ２２２が出力する駆動パルスにより、信号電荷に応じた電圧信号として順次読み出される。

撮像素子２２１は、１つのマイクロレンズを共有する複数の光電変換部を備え、複数の視差画像を生成することで、撮像面位相差検出方式の焦点検出が可能な構成となっている。複数の光電変換部は、例えば第１の光電変換部および第２の光電変換部であり、一対の視差画像データを取得可能である。撮像素子２２１については図３を参照して後述する。

撮像信号処理部２２３は、撮像素子２２１の出力信号を取得して処理し、バス２３１を介してＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）２６１に画像信号を記憶する。焦点検出用信号処理部２２４は、撮像素子２２１から出力された焦点検出用の信号を取得して処理する。焦点検出用信号処理部２２４が行う、撮像面位相差検出方式の焦点検出方法については後述する。

ＳＤＲＡＭ２６１に格納された画像信号は、バス２３１を介して表示制御部２４１によって読み出され、表示部２４２は画像信号にしたがって画像表示を行う。また、画像信号の記録を行う動作モードにおいて記録媒体制御部２５１は、ＳＤＲＡＭ２６１から画像信号を読み出して記録媒体２５２に記録する制御を行う。

カメラ制御部２２５はメインＣＰＵ（中央演算処理装置）を備え、カメラシステムの各部の制御を統括する。ＲＯＭ（リード・オンリ・メモリ）２６２にはカメラ制御部２２５が実行する制御プログラムおよび制御に必要な各種データ等が格納されている。フラッシュＲＯＭ２６３には、ユーザ設定情報等のカメラ動作に関する各種設定情報等が格納されている。

カメラ制御部２２５は、焦点検出用信号処理部２２４から出力されるデフォーカス量をフォーカスレンズ駆動量に変換してレンズ制御部２１３に伝達する。レンズ制御部２１３はサブＣＰＵを備え、フォーカス制御部２１２に指示してフォーカスレンズ２０４の移動を制御する。またカメラ制御部２２５は、ユーザが操作部を用いて行った操作指示を受け付けて各部の動作を制御する。例えば、カメラ制御部２２５は操作指示や画素信号の大きさに基づき、撮像素子２２１の蓄積時間、撮像素子２２１から撮像信号処理部２２３へ出力を行う際のゲインの設定値、タイミングジェネレータ２２２の設定値を決定する。画素信号は、一時的にＳＤＲＡＭ２６１に蓄積された画像データに係る画素信号である。

被写体追跡部２７１は、主被写体の追跡処理を実行する。被写体追跡部２７１は被写体追跡において視差画像から算出可能な、距離情報と、位置変化ベクトルの光軸成分（以下、光軸ベクトルと呼ぶ）を用いた演算を行う。本実施形態では追跡精度を高めるために距離情報を使用するが、より精度を高めるために、撮像面位相差検出方式の焦点検出方法を用いる。つまり、被写体追跡部２７１は毎フレームの被写体の追跡結果を出力可能であるため、同様に毎フレームの距離情報を算出することができように、同じ撮像面から視差画像を取得する処理が行われる。被写体追跡部２７１の追跡結果は、バス２３１を介して各モジュールへ伝えられる。被写体追跡部２７１の追跡結果はカメラ制御部２２５、レンズ制御部２１３を介してフォーカス制御部２１２に伝達され、撮像画像内の主被写体領域に対する自動焦点検出および焦点調節制御が実現される。主被写体領域とは、追跡対象となる主被写体の画像領域である。また、絞り制御部２１１は、特定の被写体領域の輝度値を用いた露出制御を行う。被写体追跡部２７１が追跡している主被写体の表示については、主被写体の画像領域を矩形枠等で表示部２４２が画面に表示する。なお、被写体追跡部２７１には、ＳＤＲＡＭ２６１に蓄積された撮像画像のデータがバス２３１を介して送られる。被写体追跡部２７１は撮影時刻の異なる複数の画像を用いて主被写体を追跡し、追跡結果として主被写体を示す部分領域を抽出する。

次に図３を参照して、撮像光学系の瞳と撮像素子の光電変換部との関係を説明する。図３に例示する撮像素子は、２次元的に配列されたｍ×ｎ個のセンサ部で構成される。図３の断面部３０１は、撮像素子２２１の一部を示している。各センサ部３０２には、マイクロレンズ３０３と２つの光電変換部（３０４，３０５）が配置されている。第１の光電変換部３０４および第２の光電変換部３０５の各出力信号を取得して、撮像面位相差検出方式による自動焦点調節に用いる像信号を生成可能である。

図３は、撮像光学系の瞳３０６の異なる領域（３０７，３０８）と各光電変換部との対応関係を示している。第１の瞳部分領域３０７と第２の瞳部分領域３０８は、光軸を挟んで位置している。各領域を通過した光束は、奥行き方向１０３の軸、つまり光軸を中心に各センサ部３０２に配置されたマイクロレンズ３０３を介して、２つの光電変換部（３０４、３０５）によりそれぞれ受光される。第１の瞳部分領域３０７を通過した光束は、マイクロレンズ３０３を介して第１の光電変換部３０４が受光する。また第２の瞳部分領域３０８を通過した光束は、マイクロレンズ３０３を介して第２の光電変換部３０５が受光する。各センサ部に設けられた２つの光電変換部により、撮像用の信号と焦点検出用の信号を取得できる。すなわち、２つの光電変換部（３０４，３０５）の出力を加算することで、撮像画像のデータが取得される。図２の撮像信号処理部２２３は撮像信号を画像信号（画像データ）として整える。また、２つの光電変換部（３０４，３０５）の出力を各々扱うことにより、視点の異なる２つの画像（視差画像）を取得できる。第１の光電変換部３０４の出力から第１の視差画像が得られ、第２の光電変換部３０５の出力から第２の視差画像が得られる。図２の焦点検出用信号処理部２２４は、一対の視差画像の信号を用いて焦点検出の演算を行う。

本実施形態では、２つの光電変換部の出力を加算して取得される画像信号の画像をＡ＋Ｂ像と呼称する。２つの光電変換部の出力から各々取得される画像信号の画像をＡ像、Ｂ像と呼称する。なお、位相差信号の生成方法については本実施形態の方法に限定されず、他の方法を用いてもよい。例えば、２つの光電変換部の加算出力により取得されるＡ＋Ｂ像の信号から、一方の光電変換部の出力により取得されるＡ像またはＢ像の信号を減算し、他方のＢ像またはＡ像の信号を生成することができる。

ここで、焦点検出用信号処理部２２４が行う、撮像面位相差検出方式の焦点検出方法について説明する。撮像面位相差検出では、設定した焦点検出領域に対して撮像素子２２１から焦点検出用の一対の像信号、例えばＡ像の信号とＢ像の信号が取得される。次に焦点検出用信号処理部２２４は、取得された像信号間の相関量を算出する。相関量を求める演算は、焦点検出領域内の各走査ラインにおいてそれぞれ行われる。焦点検出用信号処理部２２４は相関量から相関変化量を算出し、相関変化量に基づいて２像のずれ量を算出する。この２像のずれ量に、所定の換算係数を乗算することでデフォーカス量に変換することができる。このとき、カメラ制御部２２５は自動焦点検出に使用する撮影パラメータ情報を取得する。撮影パラメータはカメラ本体部またはレンズ部のメモリに記憶されている。撮影パラメータとは、撮影レンズ２０１内の絞り２０３の絞り情報や、カメラ本体部内の撮像素子２２１のセンサゲイン等の情報である。本実施形態の構成に依らず、カメラの構成に応じて必要な情報を適宜取得してもよい。撮影パラメータに基づいて、焦点検出用の信号生成に係る処理や、焦点検出を行う領域が設定できるように、カメラ制御部２２５は必要な情報を提供する。本実施形態における焦点検出領域は、画面全体を２次元的に等分割して設定されている。

次に、図４から図１４を用いて、撮像装置の動作について説明する。まず、図４を参照し、被写体追跡処理を含む全体の処理の流れを説明する。以下の処理は、カメラ制御部２２５のＣＰＵが実行するプログラムにしたがって実現される。

撮像装置は露光を行い、撮像素子２２１は光像を電気信号に変換する（Ｓ４０１）。処理Ｓ４０２およびＳ４０３と、処理Ｓ４０４およびＳ４０５は並列処理として実行される。撮像信号処理部２２３は、撮像素子２２１から読み出した撮像画像（Ａ＋Ｂ像）の信号を画像信号に変換する（Ｓ４０２）。取得されたＡ＋Ｂ像の画像信号はＳＤＲＡＭ２６１に格納される（Ｓ４０３）。一方、撮像素子２２１により取得された視差画像（Ａ像、Ｂ像）の各信号は焦点検出用信号処理部２２４に入力される（Ｓ４０４）。焦点検出用信号処理部２２４はＡ像とＢ像のずれ量を検出してデフォーカス量を算出する（Ｓ４０５）。

処理Ｓ４０３、Ｓ４０５の後、判定処理Ｓ４０６へ進む。カメラ制御部２２５はモードを判定する。ユーザが追跡モードを選択している場合（Ｓ４０６でＹＥＳ）、処理Ｓ４０７へ進み、追跡モードが選択されていない場合（Ｓ４０６でＮＯ）には判定処理Ｓ４０８へ移行する。追跡モードは、撮像装置が主被写体の追跡処理を行うモードである。撮像画像とデフォーカス情報に基づいて被写体追跡部２７１は被写体追跡処理を行う（Ｓ４０７）。判定処理Ｓ４０８にてカメラ制御部２２５は、電源のＯＮ／ＯＦＦを判定する。ユーザが電源をＯＦＦ操作するとシステムの動作が終了する（Ｓ４０８でＹＥＳ）。また電源のＯＦＦ操作が行われない場合（Ｓ４０８でＮＯ）、再び処理Ｓ４０１に戻り露光が行われる。

続いて図５を参照し、被写体追跡処理について説明する。図５は本実施形態の被写体追跡を説明するブロック図である。被写体追跡部２７１は、撮像された画像（Ａ＋Ｂ像）を処理する第１の処理部と、デフォーカス情報を処理する第２の処理部を備える。第１の処理部は、被写体検出部５０１、マッチング部５０２、被写体領域決定部５０３を備える。ＳＤＲＡＭ２６１から逐次供給される撮像画像（Ａ＋Ｂ像）に基づいて、被写体検出部５０１、マッチング部５０２は第１の被写体候補領域を抽出する。また、第２の処理部は、光軸ベクトル算出部５０４、距離・ベクトル比較部５０５を備える。第２の処理部は、被写体追跡性能を向上させるために、視差画像（Ａ像、Ｂ像）に基づいて焦点検出用信号処理部２２４が算出したデフォーカス情報を使って第２の被写体候補領域を抽出する。第１および第２つの被写体候補領域に基づいて被写体領域決定部５０３は主被写体を追跡する。追跡の結果として、画像中の特定被写体を示す部分領域が抽出される。

本実施形態では、焦点検出用信号処理部２２４が算出したデフォーカス情報を用いる被写体追跡処理を例示して説明するが、本発明は、画像における被写体の深さに対応する情報としてさまざまな実施形態での適用が可能である。つまり、被写体の深さに対応するデータが示す情報（深さ情報）は、画像内における撮像装置から被写体までの被写体距離を直接的に表すか、または画像内の被写体の被写体距離や深さの相対関係を表す情報であればよい。以下、各処理部の詳細を説明する。

図５の被写体検出部５０１は、撮像画像（Ａ＋Ｂ像）を取得して目的とする被写体を検出し、被写体追跡の追跡対象とする。撮像画像のデータは、撮像信号処理部２２３が出力してＳＤＲＡＭ２６１に記憶されている。被写体検出部５０１は、例えば顔検出を行い、画像内の被写体領域として人物の顔領域を特定する。検出方法としては、公知の顔検出方法を用いる。顔に関する知識（肌色情報、目・鼻・口等のパーツ）を利用する方法と、ニューラルネットに代表される学習アルゴリズムにより顔検出のための識別器を構成する方法等がある。また顔検出では、認識率向上のためにこれらを組み合わせて顔認識を行うのが一般的である。具体的には特許文献３に記載のウェーブレット変換と画像特徴量を利用して顔検出する方法がある。これに限らず、タッチパネルやボタン等を含む入力インターフェイス部を用いて、ユーザ（操作者）が、画像に含まれる任意の被写体画像を追跡対象に指定する構成としてもよい。その場合、被写体検出部５０１はユーザの操作により指定された位置情報に基づき、撮像画像内の被写体領域を検出して検出情報をマッチング部５０２に出力する。検出により特定された被写体領域は主被写体の画像領域として設定される。

マッチング部５０２は、被写体検出部５０１の検出情報を取得して、検出された被写体領域をテンプレートとして登録する。マッチング部５０２は、テンプレートと、ＳＤＲＡＭ２６１から逐次供給される画像の部分領域とのマッチング処理を行い、複数の評価値と領域情報を第１の被写体候補領域の情報として出力する。マッチング方式は多種多様に存在するが、本実施形態では、画素パターンの相違度に基づくテンプレートマッチング法を適用する。テンプレートマッチング法の詳細に関して図６を用いて説明する。

図６（Ａ）は、テンプレートマッチングにおける被写体モデル（テンプレート）の例を示す。マッチング部５０２は、目的とする主被写体の領域を示す画像６０１の画素パターンを特徴量として扱う。図６（Ａ）は画像６０１の特徴量６０２をマトリクスで表現した例を示し、画素データの輝度信号を特徴量とする。特徴量をT(i,j)と表記し、テンプレート領域内の座標を（i,j）、水平画素数をＷ、垂直画素数をＨと表記する。特徴量T(i,j)は下記式で表現される。

図６（Ｂ）は、主被写体を探索する場合の画像情報を例示し、マッチング処理を行う範囲の画像６０３を示す。探索画像における座標は、（x,y）で表現する。マッチングの評価値を取得するための部分領域６０４を矩形枠で示す。部分領域６０４の特徴量６０５については、図６（Ａ）のテンプレートと同様に画像データの輝度信号を特徴量とする。特徴量をS(i,j)と表記し、部分領域６０４内の座標を（i,j）、水平画素数をＷ、垂直画素数をＨと表記する。特徴量S(i,j)は、下記式で表現される。

テンプレート領域と部分領域６０４との類似性を評価する演算方法として、差分絶対和、いわゆるＳＡＤ（Sum of Absolute Difference）値を用いる方法がある。ＳＡＤ値（V(x,y)と記す）は、下記式により算出される。

マッチング部５０２は、部分領域６０４を探索範囲の画像６０３の左上から順に１画素ずつずらしながら、ＳＡＤ値V(x,y)を演算する。算出されたＳＡＤ値V(x,y)が最小値を示す座標（x,y）はテンプレートと最も類似した位置を示す。つまり、ＳＡＤ値V(x,y)が最小値を示す位置は、探索画像において主被写体が存在する可能性の高い位置である。

特徴量として輝度信号の１次元の情報を用いる例を説明したが、明度・色相・彩度の信号等の３次元の情報を特徴量として扱ってもよい。また、マッチングの評価値の演算方法としてＳＡＤ値に関して説明したが、正規化相互相関いわゆるＮＣＣ（Normalized Cross-Correlation）等の、異なる演算方法を用いてもよい。本発明の適用上、テンプレートマッチングに限定されず、ヒストグラムの類似性に基づくヒストグラムマッチング等の他のマッチング方式であってもよい。

図５の被写体領域決定部５０３は、マッチング部５０２より複数の評価値と領域情報を取得し、主被写体の候補領域から最も評価値が小さい領域を被写体領域として決定する。しかし、主被写体と画素パターンや色ヒストグラムが似ている類似被写体が主被写体の近くにいる場面では類似被写体領域の評価値が小さくなってしまうことがある。その対策として、焦点検出用信号処理部２２４から出力されるデフォーカス量を利用して主被写体と類似被写体を区別する方法がある。しかし、この方法では主被写体と類似被写体が光軸方向にて近くにいる場面や、主被写体が類似被写体とすれ違って一時的に撮像面上からいなくなった間に光軸方向に移動する場面にて、主被写体と類似被写体とを区別することが難しい。つまりデフォーカス情報のみでは主被写体と類似被写体の判別に限界がある。そこで本実施形態では、デフォーカス情報に加えて、被写体の光軸ベクトルを参照することにより、追跡性能をさらに向上させることができる。

図７を参照して、光軸ベクトル算出部５０４について説明する。光軸ベクトルとは、撮像面上の各焦点検出領域内に存在する被写体像の位置変化ベクトルの光軸成分を指す。図７は任意の焦点検出領域における被写体にピントが合う像面位置とフォーカスレンズ位置を、像面値に変換した値の時間変化を例示する。横軸は時間軸であり、縦軸は像面値を表わす。各時刻t1,t2において、フォーカスレンズ位置を黒塗りの円形記号で表わし、被写体にピントが合う位置を黒塗りの四角形記号で表わしている。

任意の焦点検出領域を、x方向にｃ番目であってy方向にｒ番目の焦点検出領域としてその位置を(c,r)により表記する。任意の焦点検出領域での過去（時刻t1）のデフォーカス量をDpre(c,r)と表記し、当該焦点検出領域での現在（時刻t2）のデフォーカス量をDcur(c,r)と表記する。光軸ベクトルをv(c,r)と表記し、フォーカスレンズ２０４の駆動量を像面値に変換した値をLと表記する。図７より、光軸ベクトルv(c,r)は下記式で算出される。

なお、フォーカスレンズ２０４の駆動量については、当該駆動量をデフォーカス量に変換する換算係数と、フォーカスレンズ２０４の駆動量１パルスあたりの繰り出し量を乗算することで像面値Lに変換することができる。フォーカスレンズ駆動量からデフォーカス量への換算係数や１パルスあたりの繰り出し量の情報はＲＯＭ２６２に格納されているので、カメラ制御部２２５は必要に応じてバス２３１を介して取得できる。また、焦点検出用信号処理部２２４が算出したデフォーカス量はフォーカスレンズ２０４の駆動量へ変換することができる。

図８を参照して、フォーカスレンズ２０４の駆動量の決定方法を説明する。図８は被写体８０１の追跡を説明する画像例を示す。画像内の被写体領域８０２は、１フレーム前に被写体領域決定部５０３が決定した被写体領域であり、その重心点を点８０３で示す。矩形領域は重心点８０３を内包する焦点検出領域８０４である。被写体８０１を追跡する際の、フォーカスレンズ２０４の駆動量については、被写体領域８０２の重心点８０３を内包する焦点検出領域８０４において算出されたデフォーカス量を反映してカメラ制御部２２５が決定する。この時、主被写体に対するデフォーカス量はＳＤＲＡＭ２６１に貯蓄し続けるので、一定時間のデフォーカス量の時間傾向に基づいて近似曲線を算出することにより、次の被写体位置を予測することができる。予測位置に基づいてフォーカスレンズ２０４の駆動量を決定することができる。

ところで、動画撮影モード等の場合、単位時間における焦点検出用の視差画像サンプリング数が多い。このようなモードに関しては、光軸ベクトルの絶対量が小さいため、焦点検出誤差によるノイズの影響を受ける可能性がある。そこで本実施形態では、光軸ベクトル算出部５０４により算出された光軸ベクトルはＳＤＲＡＭ２６１に記憶され、数フレームに亘る移動平均値として更新していく処理が行われる。これにより、ノイズを低減させた光軸ベクトルを算出することができる。なお、ノイズの低減方法は移動平均法に限定されず、数フレームの間にＳＤＲＡＭ２６１へ記憶されたデフォーカス量に対し、ローパスフィルタ処理を行う方法がある。このようにデフォーカス量の変化を平滑化してから光軸ベクトルを算出する各種の方法を用いてもよい。

図５の距離・ベクトル比較部５０５は、ＳＤＲＡＭ２６１に記憶された被写体のデフォーカス量および光軸ベクトルと、各焦点検出領域におけるデフォーカス量および光軸ベクトルとが一致しているか否かを判定する。以下、判定用の閾値について説明する。デフォーカス量と光軸ベクトルの閾値は、マッチング部５０２から出力される複数の評価値と、各領域の中心点座標の分散値に基づいて決定され、追跡信頼性に応じて動的に設定される。具体的には、マッチング部５０２から出力されるN個の評価値のうち、座標に対応するｉ番目の評価値をViと表記し、N個の評価値のうちで最小の評価値をVminと表記する。対象領域の中心座標（Ciと記す）に基づいて、下記式から評価値重心座標（Gと記す）が算出される。

評価値Viは、最小の評価値Vminで除算することで正規化される。また、先述したように評価値Viはテンプレートとの差分を意味するため、値が小さいほどテンプレートとの類似度が高い。そこで、評価値Viで重みづけした評価値重心座標Gを算出するために、中心座標Ciを、正規化した評価値Vi/Vminで除算し、その総和をNで除算して平均化する演算が行われる。下記式のように、評価値重心座標Gと各領域の中心座標Ciとのユークリッド距離を、各評価値Viで重みづけした合計値を求める演算が行われ、追跡信頼性評価値（Rと記す）が算出される。

追跡信頼性評価値Rは分散値であるので、値が小さいほど第１の被写体候補領域座標のばらつきが小さく追跡の信頼性が高くなる。したがって、追跡信頼性評価値Rが小さいときには、高い評価値をもつ領域が密集しており、類似被写体を主被写体と間違える可能性が低い。そのため距離・ベクトル比較部５０５は判定用の閾値を変更し、デフォーカス量と光軸ベクトルの一致度を判定するための許容範囲を広げて、デフォーカス量と光軸ベクトルの影響を小さくする。こうすることで、誤測距による影響を軽減させることができる。反対に、追跡信頼性評価値Rが大きいときには、高い評価値をもつ領域がばらついており、類似被写体を誤追跡する可能性が高くなる。そのため距離・ベクトル比較部５０５は判定用の閾値を変更し、デフォーカス量と光軸ベクトル量の一致度を判定するための許容範囲を狭めて、デフォーカス量と光軸ベクトルの影響を大きくする。なお、評価値重心座標Gと追跡信頼性評価値Rについて評価値Viで重みづけを行う方法を説明したが、この方法に限定されない。重みづけを行わない方法や他の方法を用いてもよい。

次に、図９、図１０のフローチャートを参照して、図５の被写体追跡部２７１が行う被写体追跡処理を詳細に説明する。まず図９を用いて被写体追跡の概要を説明する。判定処理Ｓ９０１で被写体追跡部２７１は、テンプレート画像の有無を判定する。ユーザが追跡モードを選択した時点から初期フレームであればテンプレート画像が無いので、この場合（Ｓ９０１でＮＯ）、処理Ｓ９０２へ進む。テンプレート画像が既に存在する場合には、処理Ｓ９０６以降および処理Ｓ９０９以降の並行処理が実行される。

テンプレート画像を登録する必要があると判定された場合、ＳＤＲＡＭ２６１の撮像画像（Ａ＋Ｂ像）のデータは被写体追跡部２７１に入力される（Ｓ９０２）。被写体検出部５０１は、入力された撮像画像に基づいて画像上の特徴量から被写体検出を行う（Ｓ９０３）。検出された被写体領域はテンプレートとして登録される（Ｓ９０４）。初期フレームにおける被写体追跡処理では、テンプレートの登録のみが行われる。判定処理Ｓ９０５に進み、追跡モードの終了判定が行われる。ここで、追跡モードを終了すると（Ｓ９０５でＹＥＳ）、被写体追跡モードが終了する。追跡モードの終了が判定されない場合には、判定処理Ｓ９０１に戻る。

被写体追跡を開始してから２フレーム以降にはテンプレート画像が存在するので、処理Ｓ９０６および処理Ｓ９０９に進む。処理Ｓ９０６で入力される撮像画像（Ａ＋Ｂ像）に対して、テンプレートに基づいてマッチング部５０２はマッチング処理を実行し（Ｓ９０７）、第１の被写体候補領域を検出する（Ｓ９０８）。

一方、処理Ｓ９０９では、焦点検出用信号処理部２２４から被写体追跡部２７１にデフォーカス情報が入力される。光軸ベクトル算出部５０４は光軸ベクトルを算出し、距離・ベクトル比較部５０５は第２の被写体候補領域を検出する（Ｓ９１０）。第２の被写体候補領域の検出方法の詳細については後述する。

処理Ｓ９０８、Ｓ９１０の後、処理Ｓ９１１へ進み、第２の被写体候補領域から第１の被写体候補領域の絞り込みが行われる。被写体追跡に距離情報を付加するために、テンプレートマッチングに基づく第１の被写体候補領域（Ｓ９０８の出力）の中心点のうち、距離・ベクトル比較部５０５が検出した第２の被写体候補領域（Ｓ９１０の出力）内に存在する点が抽出される。第１の被写体候補領域は、評価値が小さいほどテンプレートとの類似度が高い。そのため処理Ｓ９１２では、絞り込みにより残った第１の被写体候補領域の中で最も評価値が小さい被写体候補領域を被写体領域決定部５０３が被写体領域として決定する。

ところで、被写体領域決定部５０３は常に被写体領域を決定できるとは限らない。例えば、被写体の形状や色分布が大きく変化してマッチング部５０２から出力される評価値が所定値よりも小さい場合には、被写体領域を決定できない。また、処理Ｓ９１１において第１の被写体候補領域と第２の被写体候補領域との間で一致する領域が無いために第１の被写体候補領域が無くなった場合には、被写体領域を決定できない。このように、被写体領域を決定できない状態をLOST状態と定義する。被写体領域決定部５０３において被写体領域を決定できる状態をFIND状態と定義する。判定処理Ｓ９１３ではFIND／LOST状態の判定が行われ、処理がＳ９１４、Ｓ９１７にそれぞれ分岐する。

FIND状態のときに処理Ｓ９１４へ進み、被写体のテンプレート画像が最新の被写体画像に更新される。その後、被写体に焦点を合わせ続けるためにフォーカスレンズ２０４の駆動量を決定する必要がある。フォーカスレンズ２０４の駆動量は、被写体領域決定部５０３が決定した主被写体領域における重心位置のデフォーカス量に基づいて決定される（Ｓ９１５）。この時、フォーカスレンズ２０４の駆動量を像面値に換算した値は、被写体の光軸ベクトルの大きさと同じである。このため、フォーカスレンズ２０４の駆動量は被写体の光軸ベクトルとしてＳＤＲＡＭ２６１に記憶される（Ｓ９１６）。そして判定処理Ｓ９０５へ進む。一方、判定処理Ｓ９１３にて判定結果がLOST状態のときには、主被写体領域が決まらず主被写体に対するデフォーカス量が不明である。このため、フォーカスレンズ２０４の駆動が停止される（Ｓ９１７）。LOST状態が所定時間（判定用の閾値時間）以上続いたか否かが判定される（Ｓ９１８）。LOST状態が所定時間以上続いた場合（Ｓ９１８でＹＥＳ）、被写体のテンプレートが削除される（Ｓ９１９）。テンプレートの削除後に判定処理Ｓ９０１に戻り、判定結果（ＮＯ）により、再びテンプレートの登録が行われる（Ｓ９０４）。また、LOST状態が所定時間未満である場合（Ｓ９１８でＮＯ）、テンプレートを保持したままで、判定処理Ｓ９０５へ移行する。なお、本実施形態では判定処理Ｓ９１８で所定時間以上のLOST状態を判定条件として採用しているが、その他の条件に変更してもよい。

続いて、図１０のフローチャートを参照し、距離・ベクトル比較部５０５における第２の被写体候補領域の決定方法を説明する。距離・ベクトル比較部５０５は、設定した複数の焦点検出領域に対して１つずつ演算処理を実行し、各焦点検出領域が主被写体領域であるか、またはその他の領域であるかを判別する。まず、光軸ベクトル算出部５０４は入力されたデフォーカス量に基づいて光軸ベクトルを算出する（Ｓ１００１）。この後、１フレーム前の状態がFIND状態であったかLOST状態であったかが判定される（Ｓ１００２）。１フレーム前の状態がFIND状態であった場合（Ｓ１００２でＹＥＳ）、判定処理Ｓ１００３に進み、１フレーム前の状態がLOST状態であった場合（Ｓ１００２でＮＯ）、判定処理Ｓ１００６に進む。判定処理Ｓ１００３では、算出されたデフォーカス量が所定範囲以内であるかどうかが判定される。デフォーカス量が所定範囲以内である場合（Ｓ１００３でＹＥＳ）、判定処理Ｓ１００４に進み、デフォーカス量が所定範囲以内でない場合（Ｓ１００３でＮＯ）、処理Ｓ１００８に移行する。

判定処理Ｓ１００４では、処理Ｓ１００１で算出された光軸ベクトルと、図９の処理Ｓ９１６でＳＤＲＡＭ２６１に記憶された主被写体の光軸ベクトルとが比較される。これらの光軸ベクトル同士の方向および大きさが一致していると判定された場合、処理Ｓ１００５に進み、方向または大きさが一致していないと判定された場合には処理Ｓ１００８へ移行する。ここで光軸ベクトルが一致するとは、光軸ベクトルの方向が同じであり、かつ処理Ｓ１００１で算出された光軸ベクトルとＳＤＲＡＭ２６１に記憶された主被写体の光軸ベクトルとの大きさの差が所定の閾値以下であることとする。つまり、判定処理Ｓ１００４での光軸ベクトルは、焦点検出領域に対応する被写体の光軸方向の速度を意味するので、同じ被写体の追尾が継続している間、光軸ベクトルの方向が一致しており、光軸ベクトルの大きさの差は小さい。

処理Ｓ１００５にて距離・ベクトル比較部５０５は、判定対象である焦点検出領域を主被写体領域と見なし、第２の被写体候補領域とする。また、判定処理Ｓ１００３、Ｓ１００４にてどちらかの一方でも条件を満たさない場合、距離・ベクトル比較部５０５は判定対象の焦点検出領域を主被写体以外の被写体領域であると見なす（Ｓ１００８）。先述したように、撮像装置は常に主被写体に焦点を合わせ続けているため、判定処理Ｓ１００３でデフォーカス量が所定範囲外であると判定された場合には主被写体を捉えていないと見なされる。また判定処理Ｓ１００４で光軸ベクトルの方向または大きさが一致していないと判定された場合にも主被写体を捉えていないと見なされる。

一方、判定処理Ｓ１００２の判定結果がLOST状態である場合、判定処理Ｓ１００６、Ｓ１００７が実行される。判定処理Ｓ１００６、Ｓ１００７の処理内容はそれぞれ、判定処理Ｓ１００３、Ｓ１００４と同様である。判定処理Ｓ１００６にて、算出されたデフォーカス量が小さく、所定範囲以内である場合、処理Ｓ１００５に進む。デフォーカス量が所定範囲外である場合には判定処理Ｓ１００７に進み、判定対象の焦点検出領域における光軸ベクトルとＳＤＲＡＭ２６１に記憶された主被写体の光軸ベクトルとの方向および大きさが比較される。これらの光軸ベクトルの方向および大きさが一致した場合、処理Ｓ１００５へ進み、光軸ベクトルの方向または大きさが一致していない場合には処理Ｓ１００８へ進む。処理Ｓ１００５、Ｓ１００８の後、判定処理Ｓ１００９に進み、設定した全ての焦点検出領域について処理が終了したか否かについて判定が行われる。全ての焦点検出領域について終了した場合には、一連の処理を終えるが、未終了の場合には処理Ｓ１００１に戻って処理を続行する。

次に図１１から図１４を参照して具体例を説明する。図１１、図１２は１フレーム前の状態がFIND状態である場合（図１０の判定処理Ｓ１００２でＹＥＳ）の第２の被写体候補領域の決定方法に関する説明図である。図１１は２匹の類似する犬（被写体）がいる場面を例示する。右側の犬を主被写体１１０１とし、左側の犬を類似被写体１１０２とする。

図１１（Ａ）は、画面奥から手前に移動する主被写体１１０１に対して、その左側で同じ場所に停留する類似被写体１１０２を撮影するシーンを例示する。主被写体１１０１に対する焦点検出領域１１０３と類似被写体に対する焦点検出領域１１０４をそれぞれ矩形枠で示す。図１１（Ｂ）は、マッチング部５０２から出力される第１の被写体候補領域の中心点１１０５を黒塗りの三角形記号で示す。

図１２（Ａ）は主被写体１１０１、類似被写体１１０２の位置に対するそれぞれの焦点検出領域１１０３、１１０４におけるデフォーカス量の時間変化を例示する。横軸は時間軸であり、縦軸はデフォーカス量を表す。図１２（Ｂ）は、焦点検出領域１１０３、１１０４におけるそれぞれの光軸ベクトルの時間変化を例示する。横軸は時間軸であり、縦軸は光軸ベクトルを表す。光軸の向きとしては、撮像装置から見た場合に奥方向を正方向とし、手前方向を負方向とする。主被写体１１０１については円形の記号で示し、類似被写体１１０２については四角形の記号で示している。

図１２（Ａ）では、同じ場所に停留している類似被写体１１０２に関するデフォーカス量が時間的に変化している。その理由は、フォーカスレンズ２０４が主被写体１１０１に合わせて移動しているためである。図１２（Ａ）の２本の一点鎖線はデフォーカス量の閾値１２０１を示している。デフォーカス量が２本の一点鎖線の間の範囲内にある場合に主被写体と見なすことができるが、類似被写体に関するデフォーカス量が当該範囲内に入る期間をＴ１に示す。期間Ｔ１では、主被写体および類似被写体に関するデフォーカス領域が閾値１２０１内に収まっているので、両者を区別することができない。そこで、図１２（Ｂ）に示す光軸ベクトルの時間傾向、つまり期間Ｔ１での主被写体および類似被写体に関する光軸ベクトルの相違から両者を区別することができる。図１２（Ｂ）のように光軸方向において動かない類似被写体１１０２では、その光軸ベクトル量がゼロ近辺を維持する。これに対して、光軸手前方向に移動する主被写体１１０１では、その光軸ベクトル量がゼロでない値Ｖ１を維持する。そのため、類似被写体と主被写体とを判別することができる。図１１（Ｂ）には、光軸ベクトル量がＶ１を維持する焦点検出領域を抽出することで得られる第２の被写体候補領域１１０６を長方形枠で示している。

以上の処理では、複数の被写体に関するデフォーカス量の時間変化と光軸ベクトルの時間変化に基づき、第１の被写体候補領域と第２の被写体候補領域をすり合わせることで主被写体と類似被写体を正確に区別できる。すなわち、デフォーカス量の時間変化だけでは区別が困難な主被写体と類似被写体を、光軸ベクトルの時間変化に基づいて判別することによって、主被写体の正確な追跡を実現できる。

続いて図１３、図１４の具体例を用いて、１フレーム前の状態がLOST状態である場合（図１０の判定処理Ｓ１００２でＮＯ）の被写体領域判定について説明する。図１３は、奥から手前に主被写体１３０１が進んできており、類似被写体１３０２が画面の右側から左側へ横切っているシーンを例示する。撮影開始時刻ｔ１を起点として図１３（Ａ）は時刻ｔ２で撮影された画像を示し、図１３（Ｂ）は時刻ｔ３で撮影された画像を示す。図１３（Ｃ）は時刻ｔ４で撮影された画像を示す。「ｔ１＜ｔ２＜ｔ３＜ｔ４」とする。

図１３（Ａ）では主被写体１３０１の領域１３０３が決定され、FIND状態である。主被写体に対する焦点検出領域１３０４と類似被写体１３０２に対する焦点検出領域１３０５をそれぞれ示す。図１３（Ｂ）では類似被写体１３０２が主被写体１３０１に重なっており、主被写体１３０１が隠れるので、撮影画面上で見えなくなる。このため、LOST状態となる。図１３（Ｃ）では再び主被写体１３０１が出現する。

図１４（Ａ）は各被写体に対する焦点検出領域１３０４、１３０５におけるデフォーカス量の時間変化を例示する。図１４（Ｂ）は、焦点検出領域１３０４、１３０５におけるそれぞれの光軸ベクトルの時間変化を例示する。各軸の設定は図１２と同じである。期間Ｔ２、Ｔ３、Ｔ４については、図１３（Ａ）から（Ｃ）の各シーンに対応している。つまり、図１３（Ａ）の撮影時刻ｔ２は期間Ｔ２内の時刻であり、図１３（Ｂ）の撮影時刻ｔ３は期間Ｔ３内の時刻である。図１３（Ｃ）の撮影時刻ｔ４は期間Ｔ４内の時刻である。

期間Ｔ２においてデフォーカス量の変化と光軸ベクトルの変化は図１１に示したFIND状態のシーンと同様である。しかし、期間Ｔ３では、手前を横切る類似被写体１３０２によって主被写体１３０１が隠れる。このため、主被写体１３０１についてはデフォーカス量と光軸ベクトル量を共に算出できなくなる。また、LOST状態ではフォーカスレンズ２０４の駆動が停止するので、光軸方向に移動していない類似被写体１３０２に関するデフォーカス量は一定値になる。

期間Ｔ４では、主被写体１３０１が再び撮影画面に出現し、デフォーカス量１４０１、光軸ベクトル量１４０２が取得される。つまり図１３（Ｃ）の焦点検出領域１３０６におけるデフォーカス量と光軸ベクトル量が取得され、これらは一度見失った主被写体が再び出現した時に正確に追跡できた場合に存在すると想定される結果である。期間Ｔ４ではフォーカスレンズ２０４が停止していて、主被写体１３０１が手前に進んでくるため、デフォーカス量は絶対量が大きくなっていく。このためデフォーカス量１４０１だけでは、焦点検出領域１３０６を主被写体の領域と見なすことは困難である。一方、図１４（Ｂ）に示す光軸ベクトル量は、期間Ｔ２と期間Ｔ４とで主被写体の光軸ベクトルが向きおよび大きさ（Ｖ２）ともに一致していることがわかる。このように期間Ｔ３、Ｔ４でのLOST状態において、すべての焦点検出領域に対して光軸ベクトル量がＶ２となる領域を探し続けることで、再び第２の被写体候補領域を決定できる。すなわち、主被写体が類似被写体によって隠れてしまうシーンの場合にデフォーカス量の時間変化だけでは特定が困難な主被写体を、光軸ベクトルの時間変化に基づいて識別することができる。第２の被写体候補領域が決定された後の処理については、図１１、図１２で示したFIND状態の場合の処理と同様であるため、その詳細な説明を省略する。なお図１２（Ｂ）、図１４（Ｂ）のグラフは、主被写体が等速運動を行っている状況を示す。これに限らず、光軸ベクトルの時間変化の傾向から近似式を生成して予測することで主被写体の加速度運動への対応も可能である。

本実施形態によれば、撮像面全体の距離情報と位置変化ベクトルの光軸成分（光軸ベクトル情報）を追跡のための情報に利用することで、追跡精度の向上を実現できる。主被写体と画素パターンや色ヒストグラムが類似している類似被写体に対して主被写体が光軸方向に近づいて来る場合や、光軸方向に移動している主被写体に対して類似被写体が手前を横切る場合でも主被写体の追跡処理を正確に行える。

［第２実施形態］
以下、本発明の第２実施形態について説明する。まず、本実施形態と第１実施形態との相違について説明する。第２実施形態では、第１実施形態に対して演算量を削減し、処理効率を上げることを目的とする。第１実施形態では撮像面全体を複数の小領域に分割して焦点検出を行ったが、本実施形態ではマッチング部５０２から出力される第１の被写体候補領域の座標に基づいて焦点検出領域を決定する。この方法を用いることで、第１の被写体候補領域が一か所または狭い範囲に集中しているときには焦点検出領域の数が減り、演算処理量を低減できる。なお、本実施形態における撮像装置の構成は図２の構成と同様であるため、既に使用した符号を用いることで、それらの詳細な説明を省略する。

図１５は、本実施形態の被写体追跡部２７１の構成例を示すブロック図である。第１実施形態ではマッチング部５０２から出力される複数の評価値と領域情報が被写体領域決定部５０３にのみ入力されていた。本実施形態では複数の評価値と領域情報がカメラ制御部２２５にも入力される。焦点検出用信号処理部２２４は、これらの情報に基づいて焦点検出領域を設定し、算出したデフォーカス情報を光軸ベクトル算出部５０４に出力する。光軸ベクトル算出部５０４以降の処理については第１実施形態と同様であるため、その説明を省略する。

図１６を参照して、マッチング部５０２の出力に基づく焦点検出領域の設定方法を説明する。図１６は２つの被写体を撮影するシーンの画像例を示す。焦点検出用信号処理部２２４は、マッチング部５０２から出力される複数の領域情報に基づき、各領域の中心座標をそれぞれ示す中心点群１６０１、１６０４を算出する。中心点群１６０１は、第１の被写体の画像に対応する複数の領域の中心座標をそれぞれ示し、中心点群１６０４は、第２の被写体の画像に対応する複数の領域の中心座標をそれぞれ示す。中心点群に基づいて焦点検出領域が設定される。具体的には、図１６に示すように予め画面全体に小領域が配置され、それぞれの小領域に対して中心点群１６０１を内包する領域が仮焦点検出領域１６０２（実線の太線枠参照）として設定される。この段階で仮焦点検出領域１６０２とする理由は、被写体の大きさが考慮されていないためである。そこで被写体のそれぞれの中心点が持つ領域情報を考慮して、小領域を含む焦点検出領域１６０３が設定される。例えば、中心点群１６０４の１つは、領域１６０５の領域情報を持っているため、仮焦点検出領域（実線の太線枠参照）の上に位置する２つの小領域１６０６、１６０７の一部が領域１６０５に含まれる。よって、２つの小領域１６０６、１６０７は焦点検出領域１６０３に追加される。このように、より広く設定される焦点検出領域１６０３内に存在する小領域に対して、焦点検出用信号処理部２２４は相関演算を行い、デフォーカス量を算出する。

本実施形態では、図１６のように中心点群が密集している場合に、中心点がそれぞれ有する領域情報から焦点検出領域を設定することで、焦点検出領域１６０３の数を必要最小限に抑えることができる。これにより、焦点検出領域１６０３以外の領域については相関演算を行う必要が無いので、演算負荷を低減できる。本実施形態によれば、焦点検出の処理効率を向上させることができる。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２００‥‥‥撮像装置
２０４‥‥‥フォーカスレンズ
２１２‥‥‥フォーカス制御部
２１３‥‥‥レンズ制御部
２２１‥‥‥撮像素子
２２４‥‥‥焦点検出用信号処理部
２２５‥‥‥カメラ制御部
２７１‥‥‥被写体追跡部

Claims

画像データおよび該画像データに関連する距離情報を取得して画像内の被写体の追跡処理を行う被写体追跡装置であって、
前記画像データおよび距離情報を取得する取得手段と、
前記画像データから被写体の画像を検出して被写体領域に係る複数の第１の候補領域の情報を出力する第１の検出手段と、
前記距離情報および画像内における前記被写体の奥行き方向の位置変化から被写体領域に係る第２の候補領域の情報を出力する第２の検出手段と、
前記第１および第２の候補領域の情報を取得し、前記第２の候補領域により前記複数の第１の候補領域から絞り込んだ領域を被写体追跡に用いる被写体領域として決定する決定手段と、を備えることを特徴とする被写体追跡装置。
前記第１の検出手段は、
前記画像データを取得して被写体を検出する被写体検出手段と、
前記画像データおよび前記被写体検出手段の検出情報を取得してマッチング処理を行い、前記第１の候補領域の情報として複数の評価値と領域情報を出力するマッチング手段と、を有し、
前記第２の検出手段は、
前記距離情報を取得して画像内における前記被写体の奥行き方向の位置変化を示す位置変化ベクトルを算出する算出手段と、
検出された複数の被写体領域に係る前記距離情報および位置変化ベクトルを比較して前記第２の候補領域の情報を出力する比較手段と、を有することを特徴とする請求項１に記載の被写体追跡装置。
前記取得手段は、視差を有する複数の視差画像のデータから前記距離情報を取得して、前記第２の検出手段に出力し、
前記比較手段は、記憶手段に記憶された過去の撮像画像内の被写体領域に対応する前記距離情報および位置変化ベクトルと、現在の撮像画像内の被写体領域に対応する前記距離情報および位置変化ベクトルとを比較し、前記距離情報の差および前記位置変化ベクトルの差がそれぞれ閾値以下である被写体領域を、前記第２の候補領域に決定することを特徴とする請求項２に記載の被写体追跡装置。
前記視差画像のデータから焦点検出用の信号を生成して撮像光学系に係るデフォーカス量を算出する信号処理手段と、
前記信号処理手段からデフォーカス量を取得して前記撮像光学系の焦点調節の制御を行う制御手段と、を備え、
前記第２の検出手段は、前記距離情報として前記信号処理手段からデフォーカス量を取得することを特徴とする請求項３に記載の被写体追跡装置。
前記信号処理手段は、撮像画像内に設定された複数の焦点検出領域にてデフォーカス量を算出し、前記制御手段は前記撮像光学系のフォーカスレンズの駆動制御を行い、
前記算出手段は、前記信号処理手段が過去および現在に算出したデフォーカス量と前記フォーカスレンズの駆動量から前記位置変化ベクトルを算出することを特徴とする請求項４に記載の被写体追跡装置。
前記比較手段は、被写体の特定が行われている第１の状態にて、前記デフォーカス量が閾値以下であって、かつ、過去の撮像画像内の被写体領域に対応する位置変化ベクトルと、現在の撮像画像内の被写体領域に対応する位置変化ベクトルとの差が閾値以下である被写体領域を前記第２の候補領域として決定することを特徴とする請求項４または５に記載の被写体追跡装置。
前記比較手段は、被写体の特定が行われていない第２の状態にて、前記デフォーカス量が閾値以下であるか、または、過去の撮像画像内の被写体領域に対応する位置変化ベクトルと、現在の撮像画像内の被写体領域に対応する位置変化ベクトルとの差が閾値以下である被写体領域を前記第２の候補領域として決定することを特徴とする請求項４または５に記載の被写体追跡装置。
前記比較手段は、前記記憶手段に記憶された複数の前記位置変化ベクトルを取得し、当該位置変化ベクトルの時間変化の傾向から現在の被写体領域に対応する位置変化ベクトルを識別する処理を行うことを特徴とする請求項３から７のいずれか１項に記載の被写体追跡装置。
前記比較手段は、前記マッチング手段による前記複数の評価値と領域情報を取得して被写体追跡の信頼性評価値を算出し、前記距離情報の差および前記位置変化ベクトルの差の判定にそれぞれ用いる前記閾値を前記信頼性評価値に対応する値に変更することを特徴とする請求項３から８のいずれか１項に記載の被写体追跡装置。
前記制御手段は、前記決定手段により決定された被写体領域の重心が位置する焦点検出領域におけるデフォーカス量を取得して前記フォーカスレンズの駆動量を決定することを特徴とする請求項５に記載の被写体追跡装置。
請求項１から１０のいずれか１項に記載の被写体追跡装置を備える撮像装置。
複数のマイクロレンズと、各マイクロレンズに対応する複数の光電変換部を有する撮像素子と、
撮像画像内に設定される複数の焦点検出領域に対応する前記複数の光電変換部が出力する信号を取得して、複数の像のずれ量からデフォーカス量を算出し、前記デフォーカス量からフォーカスレンズの駆動量を算出して該フォーカスレンズの駆動制御により焦点調節を行う焦点調節制御手段を備えることを特徴とする請求項１１に記載の撮像装置。
前記焦点調節制御手段は、前記複数の焦点検出領域のうち、前記第１の候補領域に対応して設定される前記焦点検出領域におけるデフォーカス量を算出し、前記第１の候補領域に対応しない前記焦点検出領域については焦点検出の演算処理を行わないことを特徴とする請求項１２に記載の撮像装置。
画像データおよび該画像データに関連する距離情報を取得して画像内の被写体の追跡処理を行う被写体追跡装置にて実行される制御方法であって、
前記画像データおよび距離情報を取得する工程と、
第１の検出手段が前記画像データから被写体の画像を検出して被写体領域に係る複数の第１の候補領域の情報を出力する工程と、
第２の検出手段が前記距離情報および画像内における前記被写体の奥行き方向の位置変化から被写体領域に係る第２の候補領域の情報を出力する工程と、
決定手段が前記第１および第２の候補領域の情報を取得し、前記第２の候補領域により前記複数の第１の候補領域から絞り込んだ領域を被写体追跡に用いる被写体領域として決定する工程と、を有することを特徴とする被写体追跡装置の制御方法。
請求項１４の各工程を被写体追跡装置のコンピュータに実行させるプログラム。