JP2011146827A

JP2011146827A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2011146827A
Application number: JP2010004542A
Authority: JP
Inventors: Masaya Kinoshita; 雅也木下; Yutaka Yoneda; 豊米田; Takashi Kametani; 敬亀谷; Kazuki Aisaka; 一樹相坂
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-01-13
Filing date: 2010-01-13
Publication date: 2011-07-28

Abstract

【課題】より安定して被写体を追尾できるようにする。
【解決手段】被写体マップ生成部７１は、入力画像から所定の特徴の特徴量を抽出し、特徴量により求められる入力画像の各領域の被写体らしさを示す合成特徴量マップを生成し、重み係数を用いて、各特徴の合成特徴量マップを合成して被写体マップを生成する。被写体領域選択部７３は、被写体マップを用いて、入力画像上の追尾対象の被写体が含まれる被写体領域を特定する。マッチング処理部７５は、合成特徴量マップ上において、前フレームの合成特徴量マップ上の被写体領域と同じ位置の領域と最も相関の高い最大類似領域を検索し、重み係数算出部７６は、その検索結果に応じて、合成特徴量マップの空間方向に重みの異なる重み係数を算出する。このとき、最大類似領域内の重みを大きくすれば、高精度に被写体を検出できる。本発明は、撮像装置に適用することができる。
【選択図】図２

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、被写体をより安定して追尾できるようにした画像処理装置および方法、並びにプログラムに関する。

近年、シャッタ操作がされる前にユーザに対して提示される、いわゆるプレビュー画像を撮像する場合など、複数の画像が連続して撮像される場合に、撮像された画像上にある、ユーザにより選択された被写体を追尾する機能を有する撮像装置が知られている。そのような撮像装置には、追尾された被写体の位置に応じて、焦点位置や明るさ等の撮像に関するパラメータを最適なものに調整する機能を有するものもある。

被写体を追尾する手法としては、例えば入力画像の所定のフレームにおいて、最初にユーザにより選択された被写体の一部の領域から輝度情報や色情報等の特徴量を抽出し、それ以降の後のフレームにおいて、その特徴量と一致する特徴量を有する領域を検索する手法がある（例えば、特許文献１参照）。すなわち、この手法では、後のフレームの入力画像において、最初に被写体として選択された領域と同じ位置の領域近傍から、被写体の領域の特徴量と一致する特徴量の領域が検索され、その結果得られた領域が後のフレームの被写体の領域とされる。

特開２００６−７２３３２号公報

しかしながら、上述した手法では、最初にユーザによって選択された被写体の一部の領域から抽出された特徴量を基に被写体を追尾するので、被写体全体の何れかの位置の座標または一部の領域しか同定できず、被写体全体を安定して追尾することはできなかった。

また、被写体の撮像時には、被写体への照明光（例えば、色温度、照度等）や被写体の姿勢、入力画像上の被写体のサイズ（撮像装置と被写体との距離）等の被写体の状態が変化する場合もある。そのような場合、ユーザにより選択された被写体のうち、追尾に用いられる部位の領域から得られる特徴量が変化すると、入力画像上における被写体の領域を特定することができなくなり、被写体の追尾に失敗してしまう。

例えば、特徴量として、ユーザにより選択された被写体の一部の領域から色情報が抽出される場合、その色情報を有する領域が被写体として追尾されることになる。ところが、被写体が回転する等して、追尾に用いられる領域が隠れてしまうと、その色情報を有する領域が入力画像上に存在しなくなり、被写体を追尾できなくなってしまう。このような追尾の失敗は、特徴量としての輝度情報や色情報の出にくい低照度の環境下でも起こり得る。

本発明は、このような状況に鑑みてなされたものであり、より安定して被写体を追尾することができるようにするものである。

本発明の一側面の画像処理装置は、連続する複数フレームの入力画像のそれぞれについて、前記入力画像上の特定の被写体が含まれる領域を特定する画像処理装置であって、予め定められた複数の第１の特徴ごとに、前記入力画像から前記第１の特徴の特徴量を抽出して、前記特徴量により求まる前記入力画像の各領域における前記被写体らしさを示す合成特徴量マップを生成する生成手段と、前記第１の特徴ごとの前記合成特徴量マップを、合成重み係数を用いて線形結合し、前記入力画像の各領域における前記被写体らしさを示す被写体マップを生成する被写体マップ生成手段と、前記被写体マップを用いて、前記被写体マップにおいて最も前記被写体らしい領域である被写体領域を特定することで、前記入力画像上の前記被写体が含まれる領域を特定する被写体領域特定手段と、前記合成特徴量マップにおける前記被写体領域と同じ位置の領域を、合成リファレンスマップとして保持するリファレンスマップ保持手段と、処理対象フレームの前記合成特徴量マップ上において、前記処理対象フレームよりも前のフレームの前記合成リファレンスマップと最も相関の高い合成最大類似領域を検索するマッチング処理手段と、前記処理対象フレームの前記合成特徴量マップの前記合成最大類似領域内の画素の画素値に乗算される前記合成重み係数が、前記合成特徴量マップの前記合成最大類似領域外にある画素の画素値に乗算される前記合成重み係数よりも大きくなるように、前記合成重み係数を算出する係数算出手段とを備える。

前記被写体領域特定手段には、前記被写体マップの各画素の画素値に対する閾値処理を行って、前記被写体マップにおいて、前記被写体領域の候補となる被写体候補領域を抽出する候補領域抽出手段と、前記被写体マップ上の前記被写体候補領域から第２の特徴の特徴量を抽出し、前記第２の特徴の特徴量を示す領域情報を生成する領域情報算出手段と、前記処理対象フレームの前記被写体候補領域のうち、前記領域情報が前記前のフレームの前記被写体領域とされた前記被写体候補領域の前記領域情報と最も近い前記被写体候補領域を、前記処理対象フレームの前記被写体領域として選択する被写体領域選択手段とを設けることができる。

前記生成手段には、前記入力画像から前記第１の特徴の特徴量を抽出して、前記入力画像の各領域における前記第１の特徴の特徴量を示す特徴量マップを生成する特徴量マップ生成手段と、複数の帯域ごとに、前記特徴量マップから前記帯域の成分を抽出して、前記帯域の成分を示す帯域特徴量マップを生成する帯域特徴量マップ生成手段と、前記第１の特徴ごとに、帯域重み係数を用いて前記帯域特徴量マップを線形結合し、前記合成特徴量マップを生成する合成特徴量マップ生成手段とを設けることができる。

前記リファレンスマップ保持手段には、前記帯域特徴量マップにおける前記被写体領域と同じ位置の領域を帯域リファレンスマップとして保持させ、前記マッチング処理手段には、前記処理対象フレームの前記帯域特徴量マップ上において、前記前のフレームの前記帯域リファレンスマップと最も相関の高い帯域最大類似領域を検索させ、前記係数算出手段には、前記処理対象フレームの前記帯域特徴量マップの前記帯域最大類似領域内の画素の画素値に乗算される前記帯域重み係数が、前記帯域特徴量マップの前記帯域最大類似領域外にある画素の画素値に乗算される前記帯域重み係数よりも大きくなるように、前記帯域重み係数を算出させることができる。

本発明の一側面の画像処理方法またはプログラムは、連続する複数フレームの入力画像のそれぞれについて、前記入力画像上の特定の被写体が含まれる領域を特定する画像処理方法またはプログラムであって、予め定められた複数の第１の特徴ごとに、前記入力画像から前記第１の特徴の特徴量を抽出して、前記特徴量により求まる前記入力画像の各領域における前記被写体らしさを示す合成特徴量マップを生成し、前記第１の特徴ごとの前記合成特徴量マップを、合成重み係数を用いて線形結合し、前記入力画像の各領域における前記被写体らしさを示す被写体マップを生成し、前記被写体マップを用いて、前記被写体マップにおいて最も前記被写体らしい領域である被写体領域を特定することで、前記入力画像上の前記被写体が含まれる領域を特定し、前記合成特徴量マップにおける前記被写体領域と同じ位置の領域を、合成リファレンスマップとして保持し、処理対象フレームの前記合成特徴量マップ上において、前記処理対象フレームよりも前のフレームの前記合成リファレンスマップと最も相関の高い合成最大類似領域を検索し、前記処理対象フレームの前記合成特徴量マップの前記合成最大類似領域内の画素の画素値に乗算される前記合成重み係数が、前記合成特徴量マップの前記合成最大類似領域外にある画素の画素値に乗算される前記合成重み係数よりも大きくなるように、前記合成重み係数を算出するステップを含む。

本発明の一側面においては、連続する複数フレームの入力画像のそれぞれについて、前記入力画像上の特定の被写体が含まれる領域を特定する画像処理が行われる場合に、予め定められた複数の第１の特徴ごとに、前記入力画像から前記第１の特徴の特徴量が抽出されて、前記特徴量により求まる前記入力画像の各領域における前記被写体らしさを示す合成特徴量マップが生成され、前記第１の特徴ごとの前記合成特徴量マップが、合成重み係数が用いられて線形結合され、前記入力画像の各領域における前記被写体らしさを示す被写体マップが生成され、前記被写体マップが用いられて、前記被写体マップにおいて最も前記被写体らしい領域である被写体領域が特定されることで、前記入力画像上の前記被写体が含まれる領域が特定され、前記合成特徴量マップにおける前記被写体領域と同じ位置の領域が、合成リファレンスマップとして保持され、処理対象フレームの前記合成特徴量マップ上において、前記処理対象フレームよりも前のフレームの前記合成リファレンスマップと最も相関の高い合成最大類似領域が検索され、前記処理対象フレームの前記合成特徴量マップの前記合成最大類似領域内の画素の画素値に乗算される前記合成重み係数が、前記合成特徴量マップの前記合成最大類似領域外にある画素の画素値に乗算される前記合成重み係数よりも大きくなるように、前記合成重み係数が算出される。

本発明の一側面によれば、より安定して被写体を追尾することができる。

本発明を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。被写体追尾部の構成例を示すブロック図である。被写体マップ生成部の構成例を示すブロック図である。被写体候補領域矩形化部の構成例を示すブロック図である。被写体領域選択部の構成例を示すブロック図である。被写体追尾処理について説明するフローチャートである。被写体マップ生成処理について説明するフローチャートである。被写体マップ生成処理の具体例を示す図である。リファレンスマップについて説明する図である。マッチング処理について説明する図である。画素ごとの帯域重み係数について説明する図である。被写体候補領域矩形化処理について説明するフローチャートである。被写体候補領域矩形化処理の具体例について説明する図である。被写体領域選択処理について説明するフローチャートである。被写体の抽出について説明する図である。コンピュータのハードウェアの構成例を示すブロック図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

［画像処理装置の構成例］
図１は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。

画像処理装置１１は、例えば、動きのある被写体を撮影するデジタルビデオカメラや、デジタルスチルカメラなどの撮像装置に備えられる。

画像処理装置１１は、光学系３１、イメージャ３２、デジタル信号処理部３３、制御部３４、レンズ駆動部３５、インターフェース制御部３６、およびユーザインターフェース３７から構成される。

光学系３１は、図示せぬ撮像レンズを含む光学系などからなり、光学系３１に入射した光は、CCD（Charge Coupled Device）等の撮像素子で構成されるイメージャ３２に入射する。イメージャ３２は、光学系３１から入射した光を光電変換することで、被写体を撮像する。撮像により得られた電気信号（アナログ信号）は、図示せぬA/D（Analog to Digital）変換部によりデジタル信号の画像データに変換され、デジタル信号処理部３３に供給される。

デジタル信号処理部３３は、イメージャ３２からの画像データに対して所定の信号処理を施し、図示せぬ符号化処理部やメモリ、制御部３４などに画像データを出力する。デジタル信号処理部３３は、前処理部５１、デモザイク処理部５２、YC生成部５３、解像度変換部５４、および被写体追尾部５５を備えている。

前処理部５１は、前処理として、イメージャ３２からの画像データに対し、Ｒ，Ｇ，Ｂの黒レベルを所定のレベルにクランプするクランプ処理や、Ｒ，Ｇ，Ｂの色チャンネル間の補正処理等を施す。デモザイク処理部５２は、前処理部５１により前処理された画像データに対し、画像データの各画素がＲ，Ｇ，Ｂ全ての色成分を有するように、画素の色成分を補完するデモザイク処理を施す。

YC生成部５３は、デモザイク処理部５２によりデモザイク処理された、Ｒ，Ｇ，Ｂの画像データから、輝度（Ｙ）信号および色（Ｃ）信号を生成（分離）する。解像度変換部５４は、YC生成部５３で処理された画像データに対して、解像度変換処理を実行し、制御部３４や図示せぬ符号化処理部に供給する。

被写体追尾部５５は、YC生成部５３によって生成された輝度信号および色信号からなる画像データに基づいて、画像データにより表示される入力画像から被写体を検出し、被写体を追尾する被写体追尾処理を実行する。

被写体追尾部５５は、被写体追尾処理の結果得られた、入力画像における被写体が含まれる領域を表す被写体枠についての情報を制御部３４に供給する。

制御部３４は、インターフェース制御部３６から供給される制御信号に応じて、画像処理装置１１の各部を制御する。

例えば、制御部３４は、デジタル信号処理部３３に、各種の信号処理に用いられるパラメータ等を供給するとともに、デジタル信号処理部３３からの、各種の信号処理の結果得られたデータ（画像データを含む）を取得し、インターフェース制御部３６に供給する。

また、制御部３４は、光学系３１を構成する撮像レンズを駆動させたり、絞りなどを調節させたりするための制御信号をレンズ駆動部３５に供給する。さらに制御部３４は、イメージャ３２による入力画像の撮像も制御する。

ユーザインターフェース３７は、ユーザが画像処理装置１１に対する指示を入力するときに操作されるボタンやスイッチ等の入力装置、ユーザに対して情報を提供（表示）するLCD（Liquid Crystal Display）やマイクロホン等の出力装置などから構成される。

例えば、ユーザインターフェース３７は、ユーザインターフェース３７としてのボタンが操作されると、その操作に応じた制御信号を、インターフェース制御部３６を介して制御部３４に供給する。また、ユーザインターフェース３７は、インターフェース制御部３６を介して制御部３４から供給された制御信号（データ）に応じた情報を、ユーザインターフェース３７としてのLCDに表示する。例えば、LCDには、入力画像と、入力画像上の被写体を対象とした被写体追尾処理の結果である被写体枠とが表示される。

［被写体追尾部の構成例］
次に、図２を参照して、図１の被写体追尾部５５の構成例について説明する。

図２の被写体追尾部５５は、被写体マップ生成部７１、被写体候補領域矩形化部７２、被写体領域選択部７３、リファレンスマップ保持部７４、マッチング処理部７５、および重み係数算出部７６から構成される。

被写体マップ生成部７１には、図１のイメージャ３２により時間的に連続して撮像され、前処理部５１乃至YC生成部５３により処理された複数の入力画像が順次供給される。被写体マップ生成部７１は、入力画像が有する輝度や色等の予め定められた特徴ごとに、入力画像の各領域における特徴の特徴量を示す特徴量マップを生成する。

また、被写体マップ生成部７１は、互いに異なる複数の帯域（空間周波数帯域）について、各特徴について生成した特徴量マップから、それらの帯域成分を抽出して帯域特徴量マップを生成し、リファレンスマップ保持部７４およびマッチング処理部７５に供給する。

この帯域特徴量マップは、入力画像の各領域における特徴の特徴量の特定帯域成分を示すマップである。換言すれば、帯域特徴量マップは、入力画像の特定の帯域成分に含まれる特徴の特徴量を示している。

被写体マップ生成部７１は、生成された特徴ごとの各帯域の帯域特徴量マップを、重み係数算出部７６から供給された重み係数を用いて線形結合することにより、合成特徴量マップを生成し、リファレンスマップ保持部７４およびマッチング処理部７５に供給する。

この合成特徴量マップは、各特徴の特徴量から求まる入力画像の各領域における被写体らしさを示すマップである。なお、ここでいう被写体とは、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体をいう。したがって、被写体は必ずしも人物に限られる訳ではない。

また、被写体マップ生成部７１は、特徴ごとの合成特徴量マップを、重み係数算出部７６から供給された重み係数を用いて線形結合することにより、被写体マップを生成し、被写体候補領域矩形化部７２に供給する。このようにして得られる被写体マップの各領域の値（画素の画素値）は、入力画像の各領域の被写体らしさを示している。

被写体候補領域矩形化部７２は、被写体マップ生成部７１からの被写体マップにおいて、被写体の候補となる領域、つまり被写体らしい領域を含む矩形領域（以下、被写体候補領域とも称する）を求め、その矩形領域の位置を示す座標情報を生成する。

また、被写体候補領域矩形化部７２は、被写体マップを用いて、各被写体候補領域が有する特定の特徴の特徴量を示す領域情報を生成し、各被写体候補領域の座標情報と領域情報を被写体領域選択部７３に供給する。

被写体領域選択部７３は、被写体候補領域矩形化部７２からの座標情報および領域情報を用いて、被写体候補領域のうちの何れかを、追尾対象となる被写体が含まれる領域（以下、被写体領域と称する）として選択する。被写体領域選択部７３は、被写体領域の位置を示す座標情報を、制御部３４およびリファレンスマップ保持部７４に供給する。

被写体領域選択部７３から出力される座標情報により示される被写体領域は、被写体マップにおいて、最も追尾対象の被写体らしい領域である。すなわち、被写体追尾部５５では、被写体マップ上において、ユーザが注目すると推定される任意の被写体らしい領域が、ユーザにより指定された追尾対象の被写体の領域の候補（被写体領域候補）とされる。そして、それらの被写体候補領域のなかから、最も追尾対象の被写体らしい領域が、被写体領域として選択され、被写体マップ上の被写体領域と同じ位置にある入力画像の領域が、追尾対象の被写体が含まれる領域として特定される。

なお、以下においては、被写体マップ上の被写体領域と同じ位置にある入力画像上の領域を、単に被写体領域とも称することとする。また、追尾対象となる被写体は、ユーザにより指定されたものに限らず、最初のフレームにおいて、被写体候補領域のうち、例えば領域の面積が最大であるなど、最も被写体らしさの評価が高いものが被写体領域とされ、その被写体領域に含まれる被写体が追尾対象とされてもよい。

リファレンスマップ保持部７４は、メモリ８１を備えており、被写体マップ生成部７１からの帯域特徴量マップおよび合成特徴量マップと、被写体領域選択部７３からの座標情報とを用いてリファレンスマップを生成し、メモリ８１に記録させる。

具体的には、リファレンスマップ保持部７４は、帯域特徴量マップにおける被写体領域と同じ位置の領域を切り出して、切り出された領域を帯域特徴量マップのリファレンスマップとする。同様に、リファレンスマップ保持部７４は、合成特徴量マップにおける被写体領域と同じ位置の領域を切り出して、切り出された領域を合成特徴量マップのリファレンスマップとする。

なお、以下、帯域特徴量マップおよび合成特徴量マップのリファレンスマップを、それぞれ帯域リファレンスマップ、および合成リファレンスマップとも称する。

マッチング処理部７５は、メモリ８１に記録されたリファレンスマップを用いてマッチング処理を行い、被写体マップ生成部７１からの帯域特徴量マップおよび合成特徴量マップから、リファレンスマップと最も相関の高い（類似する）領域を検索し、その検索結果を重み係数算出部７６に供給する。

すなわち、処理対象の現フレームの帯域特徴量マップにおいて、現フレームの１つ前の前フレームの帯域リファレンスマップと最も類似の度合いの高い領域が検索される。また、現フレームの合成特徴量マップにおいて、前フレームの合成リファレンスマップと最も類似の度合いの高い領域が検索される。

重み係数算出部７６は、マッチング処理部７５からの検索結果に基づいて、帯域特徴量マップの重み係数（以下、帯域重み係数とも称する）、および合成特徴量マップの重み係数（以下、合成重み係数とも称する）を算出し、被写体マップ生成部７１に供給する。

［被写体マップ生成部の構成例］
また、図２の被写体マップ生成部７１は、より詳細には、図３に示すように構成される。

すなわち、被写体マップ生成部７１は、特徴量マップ生成部１１１、帯域特徴量マップ生成部１１２、帯域特徴量マップ合成部１１３、および合成特徴量マップ合成部１１４から構成される。

特徴量マップ生成部１１１は、入力画像の各領域から、輝度や色などの特徴の特徴量を抽出して、抽出した特徴量を示す特徴量マップを生成し、帯域特徴量マップ生成部１１２に供給する。

帯域特徴量マップ生成部１１２は、特徴量マップ生成部１１１からの各特徴量マップについて、特徴量マップから特定の帯域成分を抽出して帯域特徴量マップを生成し、帯域特徴量マップ合成部１１３、リファレンスマップ保持部７４、およびマッチング処理部７５に供給する。帯域特徴量マップは、各特徴について、帯域ごとに生成される。

帯域特徴量マップ合成部１１３は、帯域特徴量マップ生成部１１２からの帯域特徴量マップを、重み係数算出部７６からの帯域重み係数を用いて合成し、合成特徴量マップを生成する。すなわち、同じ特徴の帯域特徴量マップが、帯域重み係数を用いた重み付き加算により線形結合され、その特徴の合成特徴量マップとされる。

帯域特徴量マップ合成部１１３は、特徴ごとに生成した合成特徴量マップを、合成特徴量マップ合成部１１４、リファレンスマップ保持部７４、およびマッチング処理部７５に供給する。

合成特徴量マップ合成部１１４は、帯域特徴量マップ合成部１１３からの合成特徴量マップを、重み係数算出部７６からの合成重み係数を用いて合成し、被写体マップを生成する。合成特徴量マップ合成部１１４は、生成した被写体マップを被写体候補領域矩形化部７２に供給する。

［被写体候補領域矩形化部の構成例］
また、図２の被写体候補領域矩形化部７２は、より詳細には、図４に示すように構成される。

すなわち、被写体候補領域矩形化部７２は、２値化処理部１３１、ラベリング処理部１３２、矩形領域座標算出部１３３、および領域情報算出部１３４から構成される。

２値化処理部１３１は、被写体マップ生成部７１の合成特徴量マップ合成部１１４から供給された被写体マップにおける、入力画像の各画素に対応する情報を、所定の閾値に基づいて０または１の何れかの値に２値化し、ラベリング処理部１３２に供給する。

なお、以下においては、被写体マップ、特徴量マップ、帯域特徴量マップ、および合成特徴量マップのそれぞれにおける各領域（位置）を画素といい、その領域に対応する情報（値）を画素値ということとする。

例えば、被写体マップの画素の画素値は、その画素と同じ位置にある入力画像の画素（領域）の被写体らしさの度合いを示している。特に、２値化後の被写体マップにおいては、画素値が「１」である画素が、被写体らしい領域であり、画素値が「０」である画素は、被写体ではない領域（例えば、背景の領域）であるとされる。つまり、２値化後の被写体マップは、入力画像における被写体らしい領域を示している。

ラベリング処理部１３２は、２値化処理部１３１から供給された、２値化された被写体マップにおいて、互いに隣接する、画素値が「１」である画素からなる領域を連結領域とし、各連結領域に対してラベリングを行う。連結領域は、被写体領域の候補となる領域であり、例えばラベリングでは、各連結領域に対して、それらの連結領域を特定する番号が付加される。ラベリング処理部１３２は、ラベリングされた被写体マップを矩形領域座標算出部１３３に供給する。

矩形領域座標算出部１３３は、ラベリング処理部１３２からの被写体マップにおいて、連結領域を含む（囲む）矩形領域を被写体候補領域とし、各被写体候補領域の位置を示す座標情報を領域情報算出部１３４に供給する。

領域情報算出部１３４は、矩形領域座標算出部１３３からの座標情報と、合成特徴量マップ合成部１１４からの被写体マップとを用いて、被写体候補領域ごとに領域情報を生成し、各被写体候補領域の座標情報と領域情報を被写体領域選択部７３に供給する。

［被写体領域選択部の構成例］
次に、図５を参照して、図２の被写体領域選択部７３の構成例について説明する。

被写体領域選択部７３は、領域情報比較部１５１、被写体領域決定部１５２、および領域情報記録部１５３から構成される。

領域情報比較部１５１は、領域情報算出部１３４から供給された、処理対象の現フレームの各被写体候補領域の領域情報と、領域情報記録部１５３に記録されている、現フレームの１フレーム前の被写体領域の領域情報とを比較する。また、領域情報比較部１５１は、各被写体候補領域についての領域情報の比較結果と、領域情報算出部１３４からの座標情報とを被写体領域決定部１５２に供給する。

被写体領域決定部１５２は、領域情報比較部１５１からの比較結果に基づいて、現フレームの被写体候補領域のうち、１フレーム前の被写体領域の領域情報と最も近い領域情報を有する被写体候補領域を、現フレームの被写体領域とする。すなわち、領域情報を指標とした場合に、前フレームの被写体領域と最も相関の高い（類似する）被写体候補領域が、現フレームの被写体領域とされる。

被写体領域決定部１５２は、決定した現フレームの被写体領域の座標情報を制御部３４およびリファレンスマップ保持部７４に供給するとともに、現フレームの被写体領域の領域情報を、領域情報記録部１５３に供給する。領域情報記録部１５３は、被写体領域決定部１５２からの領域情報を記録するとともに、記録している領域情報を領域情報比較部１５１に供給する。

［被写体追尾処理の説明］
ところで、ユーザが画像処理装置１１に画像を撮像させようとする場合、ユーザは、ユーザインターフェース３７を操作して、画像を撮像する処理の開始を指示する。すると、制御部３４は、インターフェース制御部３６を介してユーザインターフェース３７から供給された制御信号に応じて、画像処理装置１１の各部を動作させる。

例えば、制御部３４は、イメージャ３２に入力画像を撮像させるとともに、デジタル信号処理部３３に入力画像に対する前処理等の各種の処理を実行させ、デジタル信号処理部３３から入力画像を取得する。そして、制御部３４は、取得した各フレームの入力画像を、順次、インターフェース制御部３６を介してユーザインターフェース３７に供給し、表示させる。

これにより、ユーザは、いわゆるプレビュー画像として、ユーザインターフェース３７に表示された入力画像を見ながら構図を決定し、ユーザインターフェース３７を操作して、静止画像等の撮像を指示することができる。

このとき、ユーザは、ユーザインターフェース３７としてのボタンを操作して、画像処理装置１１の動作モードを、追尾すべき被写体を囲む枠が表示される被写体追尾処理モードに遷移させることができる。被写体追尾処理モードへの遷移が指示され、ユーザにより入力画像上の所望の領域が、被写体の領域として指定されると、被写体追尾部５５は、指定された被写体を追尾する被写体追尾処理を開始し、入力画像の各フレームにおける被写体領域を特定する。

そして、制御部３４は、被写体追尾部５５から、被写体領域の位置を示す座標情報の供給を受けると、その座標情報に基づいて、被写体領域を表す枠を、ユーザインターフェース３７に供給し、表示させる。これにより、ユーザインターフェース３７には、入力画像とともに被写体領域の枠が表示されることになる。

次に、図６のフローチャートを参照して、被写体追尾部５５により行なわれる被写体追尾処理について説明する。この被写体追尾処理は、上述したように、被写体追尾処理モードにおいて、ユーザにより被写体の領域が指定されると開始される。

ステップＳ１１において、被写体マップ生成部７１は、被写体マップ生成処理を行って被写体マップを生成し、被写体候補領域矩形化部７２に供給する。

ここで、図７乃至図１１を参照して、ステップＳ１１の処理に対応する被写体マップ生成処理の詳細について説明する。図７は、被写体マップ生成処理について説明するフローチャートである。

図７のステップＳ３１において、被写体マップ生成部７１の特徴量マップ生成部１１１は、処理対象の現フレームの入力画像から、輝度や色等の特徴ごとに特徴量マップを生成し、帯域特徴量マップ生成部１１２に供給する。

具体的には、図８に示されるように、入力画像２００から、輝度に関する情報を示す輝度の特徴量マップＦ₁、色に関する情報を示す色の特徴量マップＦ₂乃至Ｆ_K、エッジに関する情報を示すエッジの特徴量マップＦ_(K+1)乃至Ｆ_Mの合計Ｍ種類の特徴量マップが生成される。

例えば、輝度の特徴量マップＦ₁においては、入力画像の各画素から得られる輝度成分（輝度信号）Ｙが、入力画像の画素と同じ位置にある特徴量マップＦ₁の画素の画素値とされる。つまり、輝度の特徴量マップＦ₁は、輝度を特徴とする、入力画像の各領域の輝度値を示す特徴量マップである。

また、色の特徴量マップＦ₂乃至Ｆ_Kにおいては、例えば、入力画像の各画素から得られる色成分（色信号）Ｒ，Ｇ，Ｂが、入力画像の画素と同じ位置にある特徴量マップの画素の画素値とされる。この場合、Ｋ＝４とされ、特徴量マップＦ₂乃至Ｆ₄のそれぞれは、入力画像の画素のＲ成分、Ｇ成分、およびＢ成分のそれぞれを特徴とする、入力画像の各領域の各色成分の画素値を示す特徴量マップとされる。

さらに、エッジの特徴量マップＦ_(K+1)乃至Ｆ_Mにおいては、例えば、入力画像の各画素における０度、４５度、９０度、および１３５度の方向のエッジ強度が、入力画像の画素と同じ位置にある特徴量マップの画素の画素値とされる。この場合、４つのエッジの方向ごとに、その方向のエッジの強さを特徴とする、入力画像の各領域のエッジ強度を示す特徴量マップが生成される。

なお、上述した特徴量マップについて、画素のＲ，Ｇ，Ｂの各成分の値の平均値を特徴量マップＦ₁の特徴量としてもよいし、色差成分Ｃｒ，Ｃｂや、Lab色空間におけるａ*座標成分およびｂ*座標成分を色の特徴量マップＦ₂乃至Ｆ_Kの特徴量としてもよい。また、０度、４５度、９０度、および１３５度以外の方向のエッジ強度をエッジの特徴量マップＦ_(K+1)乃至Ｆ_Mの特徴量としてもよい。

ステップＳ３２において、帯域特徴量マップ生成部１１２は、各特徴量マップについて、特徴量マップから特定の帯域成分を抽出して帯域特徴量マップを生成し、帯域特徴量マップ合成部１１３、リファレンスマップ保持部７４、およびマッチング処理部７５に供給する。

具体的には、図８に示されるように、輝度の特徴量マップＦ₁における輝度情報（画素値）から、所定の帯域１乃至帯域Ｎの輝度情報が抽出され、それらの帯域の輝度情報を示す帯域特徴量マップＲ₁₁乃至Ｒ_1Nが生成される。

また、色の特徴量マップＦ₂乃至Ｆ_Kにおける色情報（画素値）から、所定の帯域１乃至帯域Ｎの色情報が抽出され、それらの帯域の色情報を示す帯域特徴量マップＲ₂₁乃至Ｒ_2N，…，Ｒ_K1乃至Ｒ_KNが生成される。

さらに、エッジの特徴量マップＦ_(K+1)乃至Ｆ_Mにおけるエッジ情報（画素値）から、所定の帯域１乃至帯域Ｎのエッジ情報が抽出され、それらの帯域のエッジ情報を示す帯域特徴量マップＲ_(K+1)1乃至Ｒ_(K+1)N，…，Ｒ_M1乃至Ｒ_MNが生成される。このように、帯域特徴量マップ生成部１１２は、（Ｍ×Ｎ）種類の帯域特徴量マップを生成する。

ここで、帯域特徴量マップ生成部１１２の処理の一例について説明する。

例えば、帯域特徴量マップ生成部１１２は、特徴量マップを用いて、互いに解像度の異なる複数の特徴量マップを生成し、それらの特徴量マップをその特徴量のピラミッド画像とする。例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成され、レベルＬ１のピラミッド画像が最も解像度が高く、レベルＬ１からレベルＬ８まで順番にピラミッド画像の解像度が低くなるものとする。

この場合、特徴量マップ生成部１１１により生成された特徴量マップが、レベルＬ１のピラミッド画像とされる。また、レベルＬｉ（但し、１≦ｉ≦７）のピラミッド画像における、互いに隣接する４つの画素の画素値の平均値が、それらの画素と対応するレベルＬ（ｉ＋１）のピラミッド画像の１つの画素の画素値とされる。したがって、レベルＬ（ｉ＋１）のピラミッド画像は、レベルＬｉのピラミッド画像に対して縦横半分（割り切れない場合は切り捨て）の画像となる。

また、帯域特徴量マップ生成部１１２は、複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて各特徴量の差分画像をＮ枚生成する。なお、各階層のピラミッド画像は、それぞれ大きさ（画素数）が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。

例えば、帯域特徴量マップ生成部１１２は、各階層の特徴量のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つの特徴量の差分画像が得られる。

具体的には、例えば、レベルＬ６およびレベルＬ３の組み合わせの差分画像が生成される場合、レベルＬ６のピラミッド画像が、レベルＬ３のピラミッド画像の大きさに合わせてアップコンバートされる。つまり、アップコンバート前のレベルＬ６のピラミッド画像の１つの画素の画素値が、その画素に対応する、アップコンバート後のレベルＬ６のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルＬ６のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルＬ３のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。

このようにして得られたＮ個の差分画像のそれぞれが、さらに必要に応じて入力画像と同じ大きさにアップコンバートされ、帯域１乃至帯域Ｎの帯域特徴量マップとされる。

このように、差分画像を生成することで、特徴量マップにバンドパスフィルタを用いたフィルタ処理を施すように、特徴量マップから特定の帯域成分の特徴量を抽出することができる。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の画素値の差、つまり入力画像における所定の画素における特徴の特徴量と、その画素の周囲の平均的な特徴量との差分を示している。

例えば、特徴が輝度である場合には、差分画像（帯域特徴量マップ）の画素値は、入力画像の所定領域の輝度と、その周囲の領域の平均的な輝度の差を示している。一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像（帯域特徴量マップ）において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。同様に、他の特徴についても、周囲と比べて特徴量の差が大きい領域は、ユーザの目を引く領域であるので、より被写体らしい領域であるといえる。

なお、以上の説明において、特徴量マップから抽出される帯域の幅は、差分画像を生成する際のピラミッド画像の各階層の組み合わせによって決まるが、この組み合わせは任意に決定される。また、所定の帯域成分の特徴量の抽出は、上述した差分画像による手法に限らず、他の手法を用いるようにしてもよい。

図７のフローチャートの説明に戻り、ステップＳ３３において、マッチング処理部７５は、帯域特徴量マップ生成部１１２から供給された帯域特徴量マップＲ_mn（但し、１≦ｍ≦Ｍ，１≦ｎ≦Ｎ）と、メモリ８１に記録されている帯域リファレンスマップとのマッチング処理を行う。

例えば、図９に示すように、帯域特徴量マップ生成部１１２では、Ｍ種類の各特徴について、Ｎ個の帯域ごとに、合計（Ｍ×Ｎ）個の帯域特徴量マップＲ_mnが得られる。また、帯域特徴量マップ合成部１１３では、Ｍ種類の各特徴について、帯域特徴量マップが合成されて得られた合成特徴量マップＣ_m（但し、１≦ｍ≦Ｍ）が得られる。

そして、リファレンスマップ保持部７４のメモリ８１には、各合成特徴量マップＣ_mにおける入力画像上の被写体領域ＣＲと同じ位置の領域が、合成リファレンスマップＲＦＣ_m（但し、１≦ｍ≦Ｍ）として記録されている。また、メモリ８１には、各帯域特徴量マップＲ_mnにおける入力画像上の被写体領域ＣＲと同じ位置の領域が、帯域リファレンスマップＲＦＲ_mn（但し、１≦ｍ≦Ｍ，１≦ｎ≦Ｎ）として記録されている。

ここで、メモリ８１に記録されている帯域リファレンスマップおよび合成リファレンスマップは、処理対象の現フレームよりも１つ前のフレームの帯域特徴量マップと合成特徴量マップから得られたものである。

マッチング処理部７５は、帯域特徴量マップ生成部１１２から、現フレームの帯域特徴量マップＲ_mnが供給されると、その帯域特徴量マップＲ_mnから、メモリ８１から読み出した前フレームの帯域リファレンスマップＲＦＲ_mnと最も類似する領域を検索する。

例えば、図１０に示すように、マッチング処理部７５は、帯域特徴量マップＲ_mn上の処理対象となる領域ＥＲ_mn（但し、１≦ｍ≦Ｍ，１≦ｎ≦Ｎ）の位置を図中、左上から右下までずらしながら、各領域ＥＲ_mnと帯域リファレンスマップＲＦＲ_mnとのマッチングを行なう。

具体的には、マッチング処理部７５は、領域ＥＲ_mn内の各画素について、領域ＥＲ_mnの画素の画素値と、その画素と同じ位置にある帯域リファレンスマップＲＦＲ_mnの画素の画素値との差分の絶対値を求め、各画素について求めた差分の絶対値の総和（差分絶対値和）を求める。

マッチング処理部７５は、帯域特徴量マップＲ_mnの各領域ＥＲ_mnのうち、帯域リファレンスマップとの差分絶対値和が最小となる領域を、最大類似領域ＭＥＲ_mn（但し、１≦ｍ≦Ｍ，１≦ｎ≦Ｎ）とする。そして、マッチング処理部７５は、最大類似領域ＭＥＲ_mnの位置を示す情報を、マッチング処理の結果として重み係数算出部７６に供給する。

これにより、（Ｍ×Ｎ）個の帯域特徴量マップＲ_mnについて、それぞれ最大類似領域ＭＥＲ_mnが特定され、それらの最大類似領域を示す情報が、重み係数算出部７６に供給される。なお、マッチング処理として、差分絶対値和を利用する場合を例として説明したが、その他、差分二乗和等を利用したマッチング処理や、ヒストグラムマッチング、テンプレートマッチングなど、帯域リファレンスマップと最も類似する領域が特定できれば、どのような処理であってもよい。

図７のフローチャートの説明に戻り、ステップＳ３４において、重み係数算出部７６は、マッチング処理部７５から供給された帯域特徴量マップのマッチング処理の結果に基づいて、各帯域特徴量マップの帯域重み係数ｗ_mn（但し、１≦ｍ≦Ｍ，１≦ｎ≦Ｎ）を算出する。

例えば、図１１に示すように、重み係数算出部７６は、帯域特徴量マップＲ_mnの画素のうち、最大類似領域ＭＥＲ_mn内にない画素の帯域重み係数ｗ_mnを予め定められた値αとする。また、重み係数算出部７６は、帯域特徴量マップＲ_mnの最大類似領域ＭＥＲ_mn内にある画素の帯域重み係数ｗ_mnを、値αよりも大きい予め定められた値βとする。

重み係数算出部７６は、このように画素ごとに定めた値αまたはβを、現フレームにおいて帯域特徴量マップＲ_mnの各画素に乗算される、画素ごとの帯域重み係数ｗ_mnとし、帯域特徴量マップ合成部１１３に供給する。

このように、帯域特徴量マップの最大類似領域内の画素の帯域重み係数を、最大類似領域外の画素の帯域重み係数よりも大きい値とすることで、帯域特徴量マップを合成して合成特徴量マップを生成する場合に、最大類似領域の重みをより大きくすることができる。

最大類似領域は、現フレームの帯域特徴量マップにおいて、前フレームの被写体領域と最も類似する領域、つまり最も相関の高い領域であるから、現フレームの入力画像において、最大類似領域と同じ領域に、被写体がある可能性が高い。

そこで、前フレームの被写体領域との相関がより高く、被写体がある可能性が高い領域に対して、より大きい重みがつけられるように帯域重み係数を定めれば、より高精度に被写体を検出できる合成特徴量マップが得られるようになる。

なお、画素ごとの帯域重み係数ｗ_mnとされる値αおよびβは、（Ｍ×Ｎ）個の帯域特徴量マップごとに同じ値とされてもよいし、特徴ごとや帯域ごとに異なる値とされてもよい。また、同じ帯域特徴量マップにおいても、最大類似領域から離れた位置にある画素ほど帯域重み係数の値が小さくなるなど、画素の位置によって帯域重み係数の値が異なるようにしてもよい。

図７のフローチャートの説明に戻り、ステップＳ３５において、帯域特徴量マップ合成部１１３は、帯域特徴量マップ生成部１１２からの帯域特徴量マップを、重み係数算出部７６からの帯域重み係数群Ｗ_Rに基づいて特徴ごとに合成する。帯域特徴量マップ合成部１１３は、合成により得られた合成特徴量マップを、合成特徴量マップ合成部１１４、リファレンスマップ保持部７４、およびマッチング処理部７５に供給する。

具体的には、図８に示されるように、輝度の帯域特徴量マップＲ₁₁乃至Ｒ_1Nが、帯域特徴量マップごとの重みである帯域重み係数ｗ₁₁乃至ｗ_1Nにより重み付き加算され、合成特徴量マップＣ₁とされる。

より詳細には、合成特徴量マップＣ₁上の注目する画素を注目画素とすると、注目画素と同じ位置にある帯域特徴量マップＲ₁₁乃至Ｒ_1Nの画素の画素値のそれぞれに、帯域重み係数ｗ₁₁乃至ｗ_1Nが乗算される。そして、帯域重み係数が乗算された各画素値の総和が、注目画素の画素値とされる。

輝度の帯域特徴量マップと同様にして、色の帯域特徴量マップＲ₂₁乃至Ｒ_2N，…，Ｒ_K1乃至Ｒ_KNが、帯域特徴量マップごとの重みである帯域重み係数ｗ₂₁乃至ｗ_2N，…，ｗ_K1乃至ｗ_KNにより重み付き加算され、合成特徴量マップＣ₂乃至Ｃ_Kとされる。

また、エッジの帯域特徴量マップＲ_(K+1)1乃至Ｒ_(K+1)N，…，Ｒ_M1乃至Ｒ_MNが、帯域特徴量マップごとの重みである帯域重み係数ｗ_(K+1)1乃至ｗ_(K+1)N，…，ｗ_M1乃至ｗ_MNにより重み付き加算され、合成特徴量マップＣ_K+1乃至Ｃ_Mとされる。

このように、帯域特徴量マップ合成部１１３は、Ｍ種類の合成特徴量マップを生成する。なお、より詳細には、各合成特徴量マップは、画素の画素値が、例えば０から２５５までの間の値となるように正規化される。また、１回目の被写体マップ生成処理においては、帯域重み係数群Ｗ_Rの各帯域重み係数ｗ_mnは全て１とされ、帯域特徴量マップは、重みなしで加算される。

ステップＳ３６において、マッチング処理部７５は、帯域特徴量マップ合成部１１３から供給された合成特徴量マップＣ_m（但し、１≦ｍ≦Ｍ）と、メモリ８１に記録されている合成リファレンスマップＲＦＣ_m（但し、１≦ｍ≦Ｍ）とのマッチング処理を行う。

ここで、合成特徴量マップＣ_mのマッチング処理では、帯域特徴量マップのマッチング処理と同様の処理が行われる。

すなわち、例えば、マッチング処理部７５は、合成特徴量マップＣ_m上の処理対象となる領域ＥＣ_m（但し、１≦ｍ≦Ｍ）の位置をずらしながら、領域ＥＣ_mと合成リファレンスマップＲＦＣ_mとの画素の画素値の差分絶対値和を求める。そして、マッチング処理部７５は、合成特徴量マップＣ_mの各領域ＥＣ_mのうち、合成リファレンスマップとの差分絶対値和が最小となる領域を、最大類似領域ＭＥＣ_m（但し、１≦ｍ≦Ｍ）とする。マッチング処理部７５は、最大類似領域ＭＥＣ_mの位置を示す情報をマッチング処理の結果として、重み係数算出部７６に供給する。

ステップＳ３７において、重み係数算出部７６は、マッチング処理部７５から供給された合成特徴量マップのマッチング処理の結果に基づいて、各合成特徴量マップの合成重み係数ｗ_m（但し、１≦ｍ≦Ｍ）を算出し、合成特徴量マップ合成部１１４に供給する。

ここで、合成重み係数ｗ_mの算出では、帯域重み係数の算出と同様の処理が行われる。すなわち、重み係数算出部７６は、合成特徴量マップＣ_mの画素のうち、最大類似領域ＭＥＣ_m内にない画素の合成重み係数ｗ_mを予め定められた値αとする。また、重み係数算出部７６は、合成特徴量マップＣ_mの最大類似領域ＭＥＣ_m内の画素の合成重み係数ｗ_mを、値αよりも大きい予め定められた値βとする。

なお、合成重み係数ｗ_mの値とされる予め定められた値αおよびβは、帯域重み係数ｗ_mnとされる値αおよびβと同じ値とされるが、異なる値とされるようにしてもよい。また、合成特徴量マップＣ_mごとの合成重み係数ｗ_mとされる値αおよびβは、合成特徴量マップによって異なる値とされるようにしてもよい。

このように、合成重み係数の算出時においても、帯域重み係数の算出と同じように、前フレームの被写体領域との相関が高い領域の重みがより大きくなるようにすることで、より高精度に被写体を検出できる被写体マップが得られるようになる。

ステップＳ３８において、合成特徴量マップ合成部１１４は、帯域特徴量マップ合成部１１３からの合成特徴量マップを、重み係数算出部７６からの合成重み係数群Ｗ_Cに基づいて合成することで、被写体マップを生成し、被写体候補領域矩形化部７２に供給する。

具体的には、図８に示されるように、合成特徴量マップＣ₁乃至Ｃ_Mは、重み係数算出部７６からの合成重み係数ｗ₁乃至ｗ_Mが用いられて線形結合され、さらに、得られたマップが正規化されて被写体マップ２０１とされる。

すなわち、これから求めようとする被写体マップ上の注目する画素を注目画素とすると、注目画素と同じ位置にある各合成特徴量マップの画素の画素値に、合成特徴量マップごとの合成重み係数が乗算され、合成重み係数の乗算された画素値の総和が、注目画素の画素値とされる。さらに、このようにして求められた被写体マップの各画素の画素値が、例えば０から２５５までの間の値となるように正規化されて、最終的な被写体マップとされる。

なお、１回目の被写体マップ生成処理においては、合成重み係数群Ｗ_Cの各合成重み係数は全て１とされ、合成特徴量マップは、重みなしで線形結合される。

被写体マップが生成されると、被写体マップ生成処理は終了し、その後、処理は、図６のステップＳ１２に進む。

図６のフローチャートの説明に戻り、ステップＳ１２において、被写体候補領域矩形化部７２は、被写体候補領域矩形化処理を行って、被写体マップ生成部７１から供給された被写体マップ上の被写体候補領域を決定する。

ここで、図１２および図１３を参照して、被写体候補領域矩形化処理の詳細について説明する。図１２は、被写体候補領域矩形化処理について説明するフローチャートであり、図１３は、被写体候補領域矩形化処理の具体例を示す図である。

図１２のフローチャートのステップＳ５１において、被写体候補領域矩形化部７２の２値化処理部１３１は、合成特徴量マップ合成部１１４から供給された被写体マップの各画素の画素値を閾値処理により２値化し、ラベリング処理部１３２に供給する。

より具体的には、２値化処理部１３１は、図１３に示すように、０から２５５までの間の値である被写体マップ２０１の各画素の画素値に対して、例えば、閾値「１２７」より小さい値の画素値を０とし、閾値「１２７」より大きい値の画素値を１とする。

これにより、図１３の上から２番目に示される２値化マップ２０２が得られる。図１３で示される２値化マップ２０２は、２値化された被写体マップであり、２値化マップ２０２においては、白で示される部分が、画素値が１である画素を示しており、黒で示される部分が、画素値が０である画素を示している。なお、ここでは、閾値を１２７であるものとしたが、他の値であってもよい。

ステップＳ５２において、ラベリング処理部１３２は、２値化処理部１３１からの２値化マップ２０２に対してモルフォロジー演算等を行なって、２値化マップ２０２上の被写体の領域を矩形化し、得られた連結領域に対してラベリングを行なう。

すなわち、ラベリング処理部１３２は、２値化マップ２０２（２値化された被写体マップ）において、互いに隣接する、画素値が１である画素からなる連結領域に対してラベリングを行う。例えば、図１３の上から３番目に示されるように、２値化マップ２０２上の連結領域２１１にラベル「１」が付加され、連結領域２１２にラベル「２」が付加される。ラベリング処理部１３２は、ラベリングされた２値化マップ（被写体マップ）を、矩形領域座標算出部１３３に供給する。

ステップＳ５３において、矩形領域座標算出部１３３は、ラベリング処理部１３２から供給された２値化マップ２０２上の各連結領域を囲む矩形領域を被写体候補領域とし、被写体候補領域の位置を示す座標情報を生成する。

具体的には、図１３の上から４番目に示されるように、２値化マップ２０２において、ラベル「１」が付加された連結領域２１１を外側から囲む矩形枠（外接枠）２２１が検出され、被写体候補領域とされる。そして、例えば、その被写体候補領域の図中、左上および右下の頂点の座標が求められ、その座標が座標情報とされる。

また、ラベル「２」が付加された連結領域２１２を外側から囲む矩形枠２２２が検出されて被写体候補領域とされ、その被写体候補領域の図中、左上および右下の頂点の座標が座標情報として生成される。

矩形領域座標算出部１３３は、各被写体候補領域の座標情報を生成すると、それらの座標情報を領域情報算出部１３４に供給する。

ステップＳ５４において、領域情報算出部１３４は、矩形領域座標算出部１３３からの座標情報と、合成特徴量マップ合成部１１４からの被写体マップとを用いて、各被写体候補領域の領域情報を算出する。

例えば、領域情報算出部１３４は、被写体候補領域のサイズ（大きさ）や、被写体マップにおける被写体候補領域の中心位置の座標を領域情報として算出する。

また、領域情報算出部１３４は、被写体マップ上の被写体候補領域内の画素の画素値の積分値（総和）や、被写体マップ上の被写体候補領域内の画素の画素値のピーク値（最大値）を、領域情報として算出する。

領域情報算出部１３４は、各被写体候補領域について領域情報を算出すると、得られた各被写体候補領域の領域情報と座標情報を被写体領域選択部７３に供給し、被写体候補領域矩形化処理は終了する。そして、その後、処理は、図６のステップＳ１３へと進む。

図６のフローチャートの説明に戻り、ステップＳ１３において、被写体領域選択部７３は、被写体領域選択処理を行って、被写体候補領域のなかから被写体領域とするものを選択する。

ここで、図１４のフローチャートを参照して、ステップＳ１３の被写体領域選択処理の詳細について説明する。

ステップＳ７１において、領域情報比較部１５１は、領域情報算出部１３４からの各被写体候補領域の領域情報と、領域情報記録部１５３に記録されている１フレーム前の被写体領域の領域情報とを比較する。そして、領域情報比較部１５１は、その比較結果と、領域情報算出部１３４からの各被写体候補領域の座標情報とを、被写体領域決定部１５２に供給する。

具体的には、例えば、領域情報として、被写体候補領域のサイズが算出された場合、領域情報比較部１５１は、各被写体候補領域のサイズ、つまり被写体候補領域を囲む矩形枠の大きさと、１フレーム前の被写体領域のサイズとを比較する。この場合、例えば、被写体候補領域のサイズと、被写体領域のサイズの差の絶対値が比較結果として得られる。

また、例えば、領域情報として、被写体候補領域の中心位置の座標が求められ、その中心位置の座標と、１フレーム前の被写体領域の中心位置の座標が比較された場合、それらの中心位置間の距離が、比較結果として得られる。

さらに、領域情報として、被写体候補領域内の画素の画素値のピーク値や積分値が求められた場合には、それらの被写体候補領域のピーク値や積分値と、１フレーム前の被写体領域のピーク値や積分値との差の絶対値が、比較の結果として得られることになる。

ステップＳ７２において、被写体領域決定部１５２は、領域情報比較部１５１からの比較結果に基づいて、被写体候補領域の何れかを、処理対象の現フレームにおける被写体領域として選択する。すなわち、特定の特徴、つまり領域情報を指標とした場合に、現フレームの被写体候補領域のうち、前フレームの被写体領域との相関が最も高い被写体候補領域が、現フレームの被写体領域とされる。

具体的には、例えば、比較の結果として得られた、被写体領域に対する被写体候補領域のサイズの差、中心位置間の距離、ピーク値の差、積分値の差などの領域情報の差の絶対値が最も小さい被写体候補領域が、被写体領域として選択される。

また、被写体領域決定部１５２は、現フレームの被写体領域を決定すると、領域情報比較部１５１から供給された、被写体領域とされた被写体候補領域の座標情報を、制御部３４およびリファレンスマップ保持部７４に供給する。さらに、被写体領域決定部１５２は、その被写体領域の領域情報を領域情報記録部１５３に供給して記録させ、被写体領域選択処理は終了する。そして、その後、処理は図６のステップＳ１４に進む。

なお、１回目の被写体領域選択処理においては、領域情報記録部１５３には、１フレーム前の被写体領域の領域情報は記録されていないので、被写体追尾処理の開始時にユーザによって選択された初期選択領域を含む被写体候補領域が被写体領域とされる。

図６のフローチャートの説明に戻り、ステップＳ１４において、リファレンスマップ保持部７４は、帯域特徴量マップ生成部１１２から供給された帯域特徴量マップと、被写体領域決定部１５２からの被写体領域の座標情報とを用いて、帯域リファレンスマップを生成する。

具体的には、リファレンスマップ保持部７４は、図９を参照して説明したように、現フレームの帯域特徴量マップＲ_mnにおける入力画像上の被写体領域と同じ領域を切り出して、帯域リファレンスマップＲＦＲ_mn（但し、１≦ｍ≦Ｍ，１≦ｎ≦Ｎ）とする。リファレンスマップ保持部７４は、生成した帯域リファレンスマップをメモリ８１に供給し、記録させる。この帯域リファレンスマップは、次フレームの帯域重み係数の算出に用いられる。

ステップＳ１５において、リファレンスマップ保持部７４は、帯域特徴量マップ合成部１１３から供給された合成特徴量マップと、被写体領域決定部１５２からの被写体領域の座標情報とを用いて、合成リファレンスマップを生成する。

すなわち、帯域リファレンスマップの生成と同様に、リファレンスマップ保持部７４は、現フレームの合成特徴量マップＣ_mにおける入力画像上の被写体領域と同じ領域を切り出して、合成リファレンスマップＲＦＣ_m（但し、１≦ｍ≦Ｍ）とする。リファレンスマップ保持部７４は、生成した合成リファレンスマップをメモリ８１に供給し、記録させる。この合成リファレンスマップは、次フレームの合成重み係数の算出に用いられる。

ステップＳ１５において、合成リファレンスマップが生成されると、その後、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、次のフレームについての被写体追尾処理が実行され、この処理が１フレームごとに繰り返される。

このようにして、被写体追尾部５５は、フレームごとに、そのフレームの帯域特徴量マップと合成特徴量マップについて、それらのマップにおける前フレームの被写体領域と相関の高い領域を検出し、その検出結果に応じて帯域重み係数および合成重み係数を定める。すなわち、帯域特徴量マップおよび合成特徴量マップにおいて、より相関の高い領域の重みが、より大きくなるように帯域重み係数および合成重み係数が定められる。したがって、前フレームの被写体領域とより相関の高い領域が大きく重み付けされる被写体マップが生成される。

この被写体マップを用いた被写体の検出では、直前のフレームの被写体領域とより相関の高い領域が、適応的に重要視され続ける。そのため、被写体に照射される光が変化する場合や、被写体の姿勢が変化する場合など、被写体の状態が変動するような環境下でも、最初に指定された領域の特徴量を用いて追尾を行なう従来の手法と比べて、被写体をより安定して追尾することができる。

しかも、被写体マップは、入力画像から抽出された複数の特徴の特徴量から生成されるため、いくつかの特徴の特徴量が大きく変化しても、他の特徴の特徴量の変化が小さければ、充分な精度で被写体を検出することができ、安定した追尾が可能となる。

また、被写体領域は、被写体全体を含むように決定されるので、被写体の一部の領域の状態が変動するような環境下でも、被写体をより安定して追尾することができる。

特に、従来の被写体追尾の手法において、被写体領域内の何れかの座標（またはその座標を含む一部領域）が同定されるような場合では、被写体全体を追尾することができず、AF（Auto Focus）やAE（Auto Exposure）、ACC（Auto Color Control）の検波枠を正しく設定することができなかった。また、被写体領域内で特徴量が同一である同一特徴量領域が同定されるような場合では、上述の場合よりは検波枠を設定する精度を上げることができるが、同一特徴量領域は、被写体領域のごく一部に過ぎないことが多く、充分な検波精度は得られなかった。

一方、本発明の被写体追尾処理によれば、被写体全体を含む被写体領域を同定できるので、検波精度を上げることができ、ひいては、追尾結果を様々なアプリケーションに適用することが可能となる。

また、従来の被写体追尾の手法には、例えば、人間の全体像を学習により辞書に登録する等して、人間を検出・追尾するものもあるが、辞書に登録されていない人間以外の被写体を追尾することはできない。さらに、辞書に登録される情報（画像）の量は膨大な量となるため、装置規模が大きくなってしまう。

これに対して、本発明の被写体追尾処理によれば、任意の被写体を検出・追尾することができる上に、辞書等に膨大な量の情報を登録する必要がないので、装置規模をコンパクトにすることができる。

なお、選択した被写体領域において最も特徴的な合成特徴量マップが適応的に重視されるように、各合成特徴量マップに重みを付けて被写体マップを生成する手法も考えられる。この手法によれば、画像上に単一の被写体がある場合や、画像上に互いに類似する被写体がない場合には、容易に目的とする被写体を検出し続けることができる。しかしながら、目的とする被写体と特徴が類似する別の被写体が画像上にある場合には、被写体の誤検出が生じてしまうことがある。

例えば、図１５の矢印Ｆ１１に示すような入力画像が撮像され、矢印Ｆ１２に示す被写体マップが得られたとする。矢印Ｆ１１に示す入力画像には、いくつかのオブジェクトが前景として並べられており、矢印Ｆ１２に示す被写体マップでは、これらのオブジェクトの特徴の特徴量が類似しているため、各オブジェクトの領域の画素の画素値がある程度大きな値となっている。

そして、このようにして得られた被写体マップから、矢印Ｆ１３に示すように、被写体候補領域ＬＲ１乃至被写体候補領域ＬＲ３を含む、複数の被写体候補領域が検出されたとする。ここで、例えばユーザにより指定された追尾すべき被写体が、被写体候補領域ＬＲ１に含まれているとする。

このとき、被写体候補領域ＬＲ１と被写体候補領域ＬＲ２のサイズが近いと、被写体候補領域ＬＲ１を被写体領域として選択すべきところを、被写体候補領域ＬＲ２が選択されてしまうという誤検出が生じる可能性がある。

また、例えば、入力画像において、いくつかのオブジェクトが互いに重なっていると矩形化に失敗し、被写体候補領域ＬＲ３のように、複数のオブジェクトを含む領域が１つの被写体候補領域とされてしまうことがある。

このとき、被写体候補領域の画素の画素値の積分値が領域情報とされ、被写体候補領域ＬＲ３の積分値が、被写体候補領域ＬＲ１の積分値と近い場合には、被写体候補領域ＬＲ３が選択されてしまうという誤検出が生じる可能性もある。

これに対して、図２の被写体追尾部５５では、帯域特徴量マップや合成特徴量マップごとに、現フレームにおいて、前フレームの被写体領域と最も相関の高い領域が検出され、それらの領域が適応的に重視される被写体マップが生成される。

このように、各マップの空間方向に重みをつければ、画像上に追尾すべき被写体と特徴が類似する被写体があるような場合であっても、追尾すべき被写体の領域の画素値のみが大きくなるような被写体マップを得ることができる。これにより、特徴的な合成特徴量マップ全体の重みを大きくする場合と比べて、より確実に目的とする被写体を検出することができるようになる。

なお、上述した説明においては、特徴量として、輝度成分、色成分、およびエッジ強度を用いるものとしたが、これに限らず、例えば、動き情報等を加えるようにしてもよい。また、用いられる特徴量は、例えば、輝度成分と色成分のような、相補的な関係にあるものが好適であり、適宜、選択されるようにしてもよい。

また、以上においては、（Ｍ×Ｎ）個の帯域特徴量マップ、およびＭ個の合成特徴量マップのそれぞれについて、重み係数を算出するようにしたが、一部のマップの重み係数のみを、適宜算出するようにしてもよい。例えば、合成特徴量マップＣ₁乃至Ｃ_MのＭ個の合成特徴量マップの合成重み係数のみを算出するようにしてもよい。このような場合、画像処理装置１１における演算量を抑えることができる。

さらに、処理対象の現フレームにおいて、前フレームの被写体領域を含む所定の大きさの領域のみを処理対象領域として、帯域特徴量マップや合成特徴量マップのマッチング処理を行うようにしてもよい。そのような場合、処理対象領域の大きさや位置を、前フレームにおける追尾すべき被写体のサイズ（大きさ）や、被写体の移動速度に応じて変化させれば、より効率よく、かつより確実に相関の高い領域を検出することができる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７、ハードディスクや不揮発性のメモリなどよりなる記録部３０８、ネットワークインターフェースなどよりなる通信部３０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１を駆動するドライブ３１０が接続されている。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，５５被写体追尾部，７１被写体マップ生成部，７２被写体候補領域矩形化部，７３被写体領域選択部，７４リファレンスマップ保持部，７５マッチング処理部，７６重み係数算出部，１１１特徴量マップ生成部，１１２帯域特徴量マップ生成部，１１３帯域特徴量マップ合成部，１１４合成特徴量マップ合成部

Claims

連続する複数フレームの入力画像のそれぞれについて、前記入力画像上の特定の被写体が含まれる領域を特定する画像処理装置であって、
予め定められた複数の第１の特徴ごとに、前記入力画像から前記第１の特徴の特徴量を抽出して、前記特徴量により求まる前記入力画像の各領域における前記被写体らしさを示す合成特徴量マップを生成する生成手段と、
前記第１の特徴ごとの前記合成特徴量マップを、合成重み係数を用いて線形結合し、前記入力画像の各領域における前記被写体らしさを示す被写体マップを生成する被写体マップ生成手段と、
前記被写体マップを用いて、前記被写体マップにおいて最も前記被写体らしい領域である被写体領域を特定することで、前記入力画像上の前記被写体が含まれる領域を特定する被写体領域特定手段と、
前記合成特徴量マップにおける前記被写体領域と同じ位置の領域を、合成リファレンスマップとして保持するリファレンスマップ保持手段と、
処理対象フレームの前記合成特徴量マップ上において、前記処理対象フレームよりも前のフレームの前記合成リファレンスマップと最も相関の高い合成最大類似領域を検索するマッチング処理手段と、
前記処理対象フレームの前記合成特徴量マップの前記合成最大類似領域内の画素の画素値に乗算される前記合成重み係数が、前記合成特徴量マップの前記合成最大類似領域外にある画素の画素値に乗算される前記合成重み係数よりも大きくなるように、前記合成重み係数を算出する係数算出手段と
を備える画像処理装置。
前記被写体領域特定手段は、
前記被写体マップの各画素の画素値に対する閾値処理を行って、前記被写体マップにおいて、前記被写体領域の候補となる被写体候補領域を抽出する候補領域抽出手段と、
前記被写体マップ上の前記被写体候補領域から第２の特徴の特徴量を抽出し、前記第２の特徴の特徴量を示す領域情報を生成する領域情報算出手段と、
前記処理対象フレームの前記被写体候補領域のうち、前記領域情報が前記前のフレームの前記被写体領域とされた前記被写体候補領域の前記領域情報と最も近い前記被写体候補領域を、前記処理対象フレームの前記被写体領域として選択する被写体領域選択手段と
を備える
請求項１に記載の画像処理装置。
前記生成手段は、
前記入力画像から前記第１の特徴の特徴量を抽出して、前記入力画像の各領域における前記第１の特徴の特徴量を示す特徴量マップを生成する特徴量マップ生成手段と、
複数の帯域ごとに、前記特徴量マップから前記帯域の成分を抽出して、前記帯域の成分を示す帯域特徴量マップを生成する帯域特徴量マップ生成手段と、
前記第１の特徴ごとに、帯域重み係数を用いて前記帯域特徴量マップを線形結合し、前記合成特徴量マップを生成する合成特徴量マップ生成手段と
を備える
請求項２に記載の画像処理装置。
前記リファレンスマップ保持手段は、前記帯域特徴量マップにおける前記被写体領域と同じ位置の領域を帯域リファレンスマップとして保持し、
前記マッチング処理手段は、前記処理対象フレームの前記帯域特徴量マップ上において、前記前のフレームの前記帯域リファレンスマップと最も相関の高い帯域最大類似領域を検索し、
前記係数算出手段は、前記処理対象フレームの前記帯域特徴量マップの前記帯域最大類似領域内の画素の画素値に乗算される前記帯域重み係数が、前記帯域特徴量マップの前記帯域最大類似領域外にある画素の画素値に乗算される前記帯域重み係数よりも大きくなるように、前記帯域重み係数を算出する
請求項３に記載の画像処理装置。
連続する複数フレームの入力画像のそれぞれについて、前記入力画像上の特定の被写体が含まれる領域を特定する画像処理装置であり、
予め定められた複数の第１の特徴ごとに、前記入力画像から前記第１の特徴の特徴量を抽出して、前記特徴量により求まる前記入力画像の各領域における前記被写体らしさを示す合成特徴量マップを生成する生成手段と、
前記第１の特徴ごとの前記合成特徴量マップを、合成重み係数を用いて線形結合し、前記入力画像の各領域における前記被写体らしさを示す被写体マップを生成する被写体マップ生成手段と、
前記被写体マップを用いて、前記被写体マップにおいて最も前記被写体らしい領域である被写体領域を特定することで、前記入力画像上の前記被写体が含まれる領域を特定する被写体領域特定手段と、
前記合成特徴量マップにおける前記被写体領域と同じ位置の領域を、合成リファレンスマップとして保持するリファレンスマップ保持手段と、
処理対象フレームの前記合成特徴量マップ上において、前記処理対象フレームよりも前のフレームの前記合成リファレンスマップと最も相関の高い合成最大類似領域を検索するマッチング処理手段と、
前記処理対象フレームの前記合成特徴量マップの前記合成最大類似領域内の画素の画素値に乗算される前記合成重み係数が、前記合成特徴量マップの前記合成最大類似領域外にある画素の画素値に乗算される前記合成重み係数よりも大きくなるように、前記合成重み係数を算出する係数算出手段と
を備える画像処理装置の画像処理方法であって、
前記生成手段が、前記入力画像から前記合成特徴量マップを生成し、
前記マッチング処理手段が、前記処理対象フレームの前記合成特徴量マップから前記合成最大類似領域を検索し、
前記係数算出手段が、前記合成最大類似領域の検索結果から前記合成重み係数を算出し、
前記被写体マップ生成手段が、前記合成重み係数を用いて、前記合成特徴量マップを線形結合して前記被写体マップを生成し、
前記被写体領域特定手段が、前記被写体マップを用いて前記入力画像上の前記被写体が含まれる領域を特定する
ステップを含む画像処理方法。
連続する複数フレームの入力画像のそれぞれについて、前記入力画像上の特定の被写体が含まれる領域を特定する画像処理用のプログラムであって、
予め定められた複数の第１の特徴ごとに、前記入力画像から前記第１の特徴の特徴量を抽出して、前記特徴量により求まる前記入力画像の各領域における前記被写体らしさを示す合成特徴量マップを生成し、
前記第１の特徴ごとの前記合成特徴量マップを、合成重み係数を用いて線形結合し、前記入力画像の各領域における前記被写体らしさを示す被写体マップを生成し、
前記被写体マップを用いて、前記被写体マップにおいて最も前記被写体らしい領域である被写体領域を特定することで、前記入力画像上の前記被写体が含まれる領域を特定し、
前記合成特徴量マップにおける前記被写体領域と同じ位置の領域を、合成リファレンスマップとして保持し、
処理対象フレームの前記合成特徴量マップ上において、前記処理対象フレームよりも前のフレームの前記合成リファレンスマップと最も相関の高い合成最大類似領域を検索し、
前記処理対象フレームの前記合成特徴量マップの前記合成最大類似領域内の画素の画素値に乗算される前記合成重み係数が、前記合成特徴量マップの前記合成最大類似領域外にある画素の画素値に乗算される前記合成重み係数よりも大きくなるように、前記合成重み係数を算出する
ステップを含む処理をコンピュータに実行させるプログラム。