JP5429564B2

JP5429564B2 - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP5429564B2
Application number: JP2010070494A
Authority: JP
Inventors: 雅也木下
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2014-02-26
Anticipated expiration: 2030-03-25
Also published as: JP2011205387A

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、より簡単かつ確実に特定の被写体を検出することができるようにした画像処理装置および方法、並びにプログラムに関する。

近年のデジタルスチルカメラやデジタルビデオカメラには、撮像された画像から人の顔を検出する顔検出機能が標準的に備えられていることが多くなってきている。これらのカメラには、検出された顔の位置に応じて、フォーカスや明るさ等の各種の処理のパラメータを最適化する機能を持つものもある。

例えば、顔の検出には、画像上の処理対象の領域が、特有の情報量空間において、予め学習により用意された辞書とどの程度類似しているかを求める検出器が利用される（例えば、特許文献１参照）。この検出器では、求められた辞書との類似度が所定のレベル以上である場合に、処理対象の領域が顔の領域であるとされる。なお、このような検出器では、顔検出に用いる辞書を他の辞書に替えることで、人の顔だけでなく、犬や猫の顔を検出することも原理的には実現可能である。

また、監視カメラ等の分野では、撮像された画像から人体全体を検出する機能が搭載された監視カメラもある。現状では、回路規模等の制約から、人体検出機能が搭載された小型カメラは存在しないが、近年の飛躍的なＬＳＩ（Large Scale Integration）集積率やＤＳＰ（Digital Signal Processor）の高速化から、近い将来での実現が予想される。

特開２００５−１５７６７９号公報

ところで、近年では、上述した検出器を用いれば、高精度に目的とする被写体を画像から検出することができるようになってきているが、検出器の原理上、辞書との類似度が低い被写体は検出することができない。そのため、検出対象の被写体の動きや姿勢などによっては、画像から目的とする被写体を検出することができなくなってしまう場合がある。

例えば、人の顔を検出する検出器では、顔がカメラの正面を向いている場合は、高い検出率で顔を検出することはできるが、その人が下を向いたり横を向いたり、後ろを振り返ったりすると、顔の検出ができなくなってしまう。

また、全身のシルエットの特徴を辞書として、人の体全体を検出する検出器では、人が立っている状態では高確率で人体を検出できるが、人が座ったりしゃがんだりした場合には、人体を検出することができなくなってしまう。

なお、辞書を利用する検出器による検出では、人の顔や体全体に限らず、犬や猫などを検出する場合にも、姿勢の変動や顔の向きの変化により目的とする被写体が検出できなくなってしまう。特に、姿勢等が大きく変化する人体や犬、猫などを検出対象とする場合、姿勢変動等による検出率の低下が顕著になる。

本発明は、このような状況に鑑みてなされたものであり、より簡単かつ確実に特定の被写体を検出することができるようにするものである。

本発明の一側面の画像処理装置は、入力画像から第１の特徴の特徴量を抽出して、前記入力画像から予め定められた被写体の第１の部位が含まれる第１の検出領域を検出するとともに、前記第１の検出領域の検出の第１の信頼度を算出する第１の被写体検出手段と、前記入力画像から第２の特徴の特徴量を抽出して、前記入力画像から前記第１の部位とは異なる前記被写体の第２の部位が含まれる第２の検出領域を検出するとともに、前記第２の検出領域の検出の第２の信頼度を算出する第２の被写体検出手段と、前記第１の信頼度が第１の閾値以上であり、かつ前記第２の信頼度が第２の閾値以上である場合、前記第１の検出領域と前記第２の検出領域の相対的な位置およびサイズの関係を示す相対関係情報を生成して記録し、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第１の検出領域の検出結果と、前記相対関係情報とを用いて前記第２の検出領域を求める検出領域算出手段とを備える。

前記第１の被写体検出手段には、前記被写体の前記第１の部位が含まれる画像と、前記被写体の前記第１の部位が含まれていない画像とを用いた学習により得られた辞書を予め記録させ、前記第１の特徴の特徴量と前記辞書とを用いて前記第１の検出領域を検出させることができる。

前記入力画像は、時間的に連続して撮像された複数フレームの画像とされ、前記第２の被写体検出手段には、現フレームの前記入力画像の所定の領域の前記第２の特徴の特徴量と、前記現フレームの１つ前のフレームの前記入力画像の前記第２の検出領域の前記第２の特徴の特徴量とを比較させることで、前記現フレームの前記第２の検出領域を検出させることができる。

前記第２の被写体検出手段には、前記入力画像から第３の特徴の特徴量を抽出させて、前記入力画像の各領域における被写体らしさを示す被写体マップを生成させ、前記被写体マップにより特定される前記入力画像の被写体らしい被写体候補領域の前記第２の特徴の特徴量と、前記前のフレームの前記第２の検出領域の前記第２の特徴の特徴量とを比較させることで、前記第２の検出領域を検出させることができる。

前記第２の被写体検出手段には、前記前のフレームにおいて、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満であった場合、前記現フレームにおいて、前記被写体候補領域のうち、前記検出領域算出手段により求められた前記前のフレームの前記第２の検出領域から定まる領域を含む前記被写体候補領域を、前記第２の検出領域とさせることができる。

画像処理装置には、前記入力画像を表示する表示手段と、前記第１の信頼度に応じた表示形式で、前記入力画像上に前記第１の検出領域を囲む枠を表示させるとともに、前記第２の信頼度に応じた表示形式で、前記入力画像上に前記第２の検出領域を囲む枠を表示させる制御手段とをさらに設けることができる。

画像処理装置には、前記第１の信頼度および前記第２の信頼度に基づいて、前記入力画像を撮像する撮像手段のフォーカス制御、露出制御、または前記入力画像の符号化のビットレート制御を行なう制御手段をさらに設けることができる。

本発明の一側面の画像処理方法またはプログラムは、入力画像から第１の特徴の特徴量を抽出して、前記入力画像から予め定められた被写体の第１の部位が含まれる第１の検出領域を検出するとともに、前記第１の検出領域の検出の第１の信頼度を算出し、前記入力画像から第２の特徴の特徴量を抽出して、前記入力画像から前記第１の部位とは異なる前記被写体の第２の部位が含まれる第２の検出領域を検出するとともに、前記第２の検出領域の検出の第２の信頼度を算出し、前記第１の信頼度が第１の閾値以上であり、かつ前記第２の信頼度が第２の閾値以上である場合、前記第１の検出領域と前記第２の検出領域の相対的な位置およびサイズの関係を示す相対関係情報を生成して記録し、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第１の検出領域の検出結果と、前記相対関係情報とを用いて前記第２の検出領域を求めるステップを含む。

本発明の一側面においては、入力画像から第１の特徴の特徴量が抽出されて、前記入力画像から予め定められた被写体の第１の部位が含まれる第１の検出領域が検出されるとともに、前記第１の検出領域の検出の第１の信頼度が算出され、前記入力画像から第２の特徴の特徴量が抽出されて、前記入力画像から前記第１の部位とは異なる前記被写体の第２の部位が含まれる第２の検出領域が検出されるとともに、前記第２の検出領域の検出の第２の信頼度が算出され、前記第１の信頼度が第１の閾値以上であり、かつ前記第２の信頼度が第２の閾値以上である場合、前記第１の検出領域と前記第２の検出領域の相対的な位置およびサイズの関係を示す相対関係情報が生成されて記録され、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第１の検出領域の検出結果と、前記相対関係情報とが用いられて前記第２の検出領域が求められる。

本発明の一側面によれば、より簡単かつ確実に特定の被写体を検出することができる。

本発明を適用した画像処理装置の一実施の形態の構成を示す図である。制御部の構成例を示す図である。被写体検出部の構成例を示す図である。被写体検出部の構成例を示す図である。被写体検出処理を説明するフローチャートである。相対位置情報と相対サイズ情報について説明する図である。検出領域の算出について説明する図である。検出領域の算出について説明する図である。被写体を囲む枠の表示例を示す図である。顔検出処理を説明するフローチャートである。人検出処理を説明するフローチャートである。画像処理装置の他の構成例を示す図である。被写体追尾部の構成例を示す図である。被写体検出処理を説明するフローチャートである。被写体追尾処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

〈第１の実施の形態〉
［画像処理装置の構成］
図１は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。

画像処理装置１１は、例えば、動きのある被写体を撮像するデジタルビデオカメラや、デジタルスチルカメラなどの撮像装置に備えられる。

画像処理装置１１は、光学系３１、イメージャ３２、デジタル信号処理部３３、表示部３４、制御部３５、レンズ駆動部３６、インターフェース制御部３７、およびユーザインターフェース３８から構成される。

光学系３１は、図示せぬ撮像レンズを含む光学系などからなり、光学系３１に入射した光は、CCD（Charge Coupled Device）等の撮像素子で構成されるイメージャ３２に入射する。イメージャ３２は、光学系３１から入射した光を光電変換することで、被写体を撮像する。撮像により得られた電気信号（アナログ信号）は、図示せぬA/D（Analog to Digital）変換部によりデジタル信号の画像データに変換され、デジタル信号処理部３３に供給される。

デジタル信号処理部３３は、イメージャ３２からの画像データに対して所定の信号処理を施し、図示せぬメモリや表示部３４、制御部３５などに画像データを出力する。デジタル信号処理部３３は、前処理部５１、デモザイク処理部５２、YC生成部５３、解像度変換部５４、被写体検出部５５、被写体検出部５６、およびＣＯＤＥＣ５７を備えている。

前処理部５１は、前処理として、イメージャ３２からの画像データに対し、Ｒ，Ｇ，Ｂの黒レベルを所定のレベルにクランプするクランプ処理や、Ｒ，Ｇ，Ｂの色チャンネル間の補正処理等を施す。デモザイク処理部５２は、前処理部５１により前処理された画像データに対し、画像データの各画素がＲ，Ｇ，Ｂ全ての色成分を有するように、画素の色成分を補完するデモザイク処理を施す。

YC生成部５３は、デモザイク処理部５２によりデモザイク処理された、Ｒ，Ｇ，Ｂの画像データから、輝度（Ｙ）信号および色（Ｃ）信号を生成（分離）する。解像度変換部５４は、YC生成部５３で処理された画像データに対して、解像度変換処理を実行する。

被写体検出部５５は、YC生成部５３によって生成された輝度信号および色信号からなる画像データに基づいて、画像データにより表示される入力画像から被写体としての人の顔を検出し、その検出結果を制御部３５に供給する。被写体検出部５６は、YC生成部５３によって生成された画像データに基づいて、入力画像から被写体としての人の体全体を検出し、その検出結果を制御部３５に供給する。

ＣＯＤＥＣ５７は、YC生成部５３または解像度変換部５４で生成された画像データを必要に応じて符号化し、図示せぬメモリに記録させたり、符号化された画像データを復号したりする。ＣＯＤＥＣ５７で復号された画像データ、または解像度変換部５４で得られた画像データは、表示部３４に供給されて表示される。表示部３４は、例えば液晶ディスプレイなどからなり、制御部３５の制御に従ってデジタル信号処理部３３から供給された入力画像を表示する。

制御部３５は、インターフェース制御部３７から供給される制御信号に応じて、画像処理装置１１の各部を制御する。

例えば、制御部３５は、デジタル信号処理部３３に、各種の信号処理に用いられるパラメータ等を供給するとともに、デジタル信号処理部３３からの、各種の信号処理の結果得られたデータを取得し、インターフェース制御部３７に供給する。

また、制御部３５は、光学系３１を構成する撮像レンズを駆動させたり、絞りなどを調節させたりするための制御信号をレンズ駆動部３６に供給する。さらに制御部３５は、イメージャ３２による入力画像の撮像も制御する。

ユーザインターフェース３８は、ユーザが画像処理装置１１に対する指示を入力するときに操作されるボタンやスイッチ、マイクロホン等の入力装置、ユーザに対して情報を提供するランプやスピーカ等の出力装置などから構成される。

例えば、ユーザインターフェース３８は、ユーザインターフェース３８としてのボタンが操作されると、その操作に応じた制御信号を、インターフェース制御部３７を介して制御部３５に供給する。

［制御部の構成］
また、図１の制御部３５には、より詳細には、図２に示されるように統合処理部８１およびデバイス制御処理部８２が設けられている。

制御部３５の統合処理部８１には、被写体検出部５５による人の顔の検出結果である検出領域Ａと、その検出結果の信頼度ＲＡ、および被写体検出部５６による人体の検出結果である検出領域Ｂと、その検出結果の信頼度ＲＢが供給される。

ここで、検出領域Ａは、入力画像上における人の顔が含まれる領域であり、検出領域Ｂは、入力画像上における人体が含まれる領域である。また、検出領域Ａが人の顔の領域らしいほど、信頼度ＲＡの値は大きくなり、同様に、検出領域Ｂが人体の領域らしいほど、信頼度ＲＢの値も大きくなる。

統合処理部８１は、被写体検出部５５および被写体検出部５６から供給された検出領域および信頼度に基づいて、最終的な人の顔の検出領域Ａ’と信頼度ＲＡ’、および最終的な人体の検出領域Ｂ’と信頼度ＲＢ’を生成し、デバイス制御処理部８２に供給する。

また、統合処理部８１は、供給された信頼度ＲＡおよび信頼度ＲＢが、予め定めた閾値以上である場合、つまり検出領域Ａと検出領域Ｂの検出結果の信頼度がある程度高い場合、相対位置情報と相対サイズ情報を生成し、内蔵するメモリ９１に記録させる。

ここで、相対位置情報とは、検出領域Ａと検出領域Ｂの相対的な位置関係を示す情報であり、相対サイズ情報とは、検出領域Ａと検出領域Ｂの相対的なサイズ関係を示す情報である。これらの相対位置情報と相対サイズ情報は、最終的な検出領域Ａ’や検出領域Ｂ’の算出に適宜用いられる。

デバイス制御処理部８２は、統合処理部８１から供給された検出領域や信頼度に基づいて、表示部３４に表示される入力画像上に、被写体としての顔や人体全体を囲む枠を表示させたり、オートフォーカス制御や入力画像の符号化の制御をしたりする。

［被写体検出部の構成］
さらに、図１の被写体検出部５５および被写体検出部５６は、より詳細には、図３および図４に示すように構成される。

図３は、入力画像から被写体としての人の顔を検出する被写体検出部５５の構成例を示す図である。被写体検出部５５は、縮小部１２１、輝度差分算出部１２２、比較部１２３、および判定部１２４から構成される。

縮小部１２１には、YC生成部５３で処理された、時間的に連続して撮像された複数フレームの入力画像が順番に供給される。縮小部１２１は、供給された入力画像を特定の大きさに縮小し、輝度差分算出部１２２に供給する。

輝度差分算出部１２２は、縮小部１２１から供給された入力画像上の所定の領域を比較領域とし、比較領域から予め定められた所定の特徴の特徴量を抽出する。例えば、輝度差分算出部１２２は、比較領域内の特定の画素のペアについて、それらの画素の輝度値の差分を、画素ペアの特徴量として算出し、比較部１２３に供給する。輝度差分算出部１２２では、比較領域内の予め定められた複数の画素ペアのそれぞれについて、特徴量が算出される。

比較部１２３は、輝度差分算出部１２２から供給された比較領域の各特徴量と、予め学習により生成された辞書とを比較し、その比較結果を判定部１２４に供給する。判定部１２４は、比較部１２３から供給された各比較領域の比較結果に基づいて、入力画像上の人の顔の領域である検出領域Ａを特定する。また、判定部１２４は、検出領域Ａとされた比較領域についての比較部１２３による比較結果を信頼度ＲＡとして、検出領域Ａおよび信頼度ＲＡを統合処理部８１に供給する。

図４は、入力画像から被写体としての人の体を検出する被写体検出部５６の構成例を示す図である。被写体検出部５６は、縮小部１５１、ヒストグラム算出部１５２、比較部１５３、および判定部１５４から構成される。

縮小部１５１には、YC生成部５３で処理された、時間的に連続して撮像された複数フレームの入力画像が順番に供給され、縮小部１２１は、供給された入力画像を特定の大きさに縮小し、ヒストグラム算出部１５２に供給する。

ヒストグラム算出部１５２は、縮小部１５１から供給された入力画像上の所定の領域を比較領域として、比較領域から予め定められた所定の特徴の特徴量を抽出する。例えば、ヒストグラム算出部１５２は、比較領域内の各領域の輝度勾配のヒストグラムを、比較領域の特徴量として算出し、比較部１５３に供給する。

比較部１５３は、ヒストグラム算出部１５２から供給された比較領域の各特徴量と、予め学習により生成された辞書とを比較し、その比較結果を判定部１５４に供給する。判定部１５４は、比較部１５３から供給された各比較領域の比較結果に基づいて、入力画像上の人体の領域である検出領域Ｂを特定する。また、判定部１５４は、検出領域Ｂとされた比較領域についての比較部１５３による比較結果を信頼度ＲＢとして、検出領域Ｂおよび信頼度ＲＢを統合処理部８１に供給する。

［被写体検出処理の説明］
ところで、ユーザが画像処理装置１１に画像を撮像させようとする場合、ユーザは、ユーザインターフェース３８を操作して、画像を撮像する処理の開始を指示する。すると、制御部３５は、インターフェース制御部３７を介してユーザインターフェース３８から供給された制御信号に応じて、画像処理装置１１の各部を動作させる。

例えば、制御部３５は、イメージャ３２に入力画像を撮像させるとともに、デジタル信号処理部３３に入力画像に対する前処理等の各種の処理を実行させ、各フレームの入力画像を、順次、表示部３４に表示させる。

これにより、ユーザは、いわゆるプレビュー画像として、表示部３４に表示された入力画像を見ながら構図を決定し、ユーザインターフェース３８を操作して、静止画像等の撮像を指示することができる。

このとき、画像処理装置１１は、被写体検出処理を行って、撮像された入力画像から予め定められた特定の被写体、つまり人を検出し、入力画像上の人の顔と、人全体とのそれぞれを囲む枠を表示させる。

以下、図５のフローチャートを参照して、画像処理装置１１による被写体検出処理について説明する。

ステップＳ１１において、被写体検出部５５は顔検出処理を行って、供給された入力画像から人の顔を検出し、その検出結果である検出領域Ａと信頼度ＲＡを統合処理部８１に供給する。また、ステップＳ１２において、被写体検出部５６は人検出処理を行って、供給された入力画像から人体を検出し、その検出結果である検出領域Ｂと信頼度ＲＢを統合処理部８１に供給する。なお、これらの顔検出処理および人検出処理の詳細は後述する。

ステップＳ１３において、統合処理部８１は、被写体検出部５５から供給された、検出領域Ａの信頼度ＲＡが予め定めた閾値ｔｈＡ以上であり、かつ被写体検出部５６から供給された、検出領域Ｂの信頼度ＲＢが予め定めた閾値ｔｈＢ以上であるかを判定する。すなわち、入力画像からの人の顔の検出結果と、人の体の検出結果との両方が、ある程度信頼できるものであるか否かが判定される。

ステップＳ１３において、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢであると判定された場合、ステップＳ１４において、統合処理部８１は、検出領域Ａおよび検出領域Ｂを用いて、相対位置情報および相対サイズ情報を算出する。

例えば、図６の左側に示すように、ｎ番目のフレーム（以下、フレームｎと称する）の入力画像Ｐ（ｎ）に、立った状態で正面を向いた人が含まれていたとする。そして、入力画像Ｐ（ｎ）から、人の顔の検出結果として矩形状の検出領域Ａが得られ、人の体の検出結果として矩形状の検出領域Ｂが得られたとする。

また、図６中、右側に示すように、検出領域Ａの図中、縦方向の長さ（以下、適宜、高さとも称する）、および横方向の長さ（以下、適宜、幅とも称する）が、それぞれＡｈ（ｎ）およびＡｗ（ｎ）であり、検出領域Ｂの高さおよび幅が、Ｂｈ（ｎ）およびＢｗ（ｎ）であるとする。

このような場合、統合処理部８１は、検出領域Ａと検出領域Ｂとを用いて、それらの検出領域の相対的な位置関係を示す相対位置情報と、検出領域の相対的なサイズの関係を示す相対サイズ情報を算出する。

具体的には、統合処理部８１は、検出領域Ａの図中、左上の頂点を点Ａｏ（ｎ）とし、検出領域Ｂの図中、左上の頂点を点Ｂｏ（ｎ）として、点Ａｏ（ｎ）を始点とし、点Ｂｏ（ｎ）を終点とするベクトルＰ_ＡＢ（ｎ）を算出する。

このベクトルＰ_ＡＢ（ｎ）は、入力画像の特定の位置を原点とするｘｙ座標系における点Ａｏ（ｎ）と点Ｂｏ（ｎ）のｘ成分の差、およびｙ成分の差から求まる２次元のベクトルであり、点Ａｏ（ｎ）から見た点Ｂｏ（ｎ）の相対的な位置を示すものである。

同様にして、統合処理部８１は、点Ｂｏ（ｎ）を始点とし、点Ａｏ（ｎ）を終点とするベクトルＰ_ＢＡ（ｎ）を算出し、これらのベクトルＰ_ＡＢ（ｎ）およびベクトルＰ_ＢＡ（ｎ）を相対位置情報とする。なお、ベクトルＰ_ＢＡ（ｎ）は、ベクトルＰ_ＡＢ（ｎ）と方向（向き）が反対のベクトルであり、点Ｂｏ（ｎ）から見た点Ａｏ（ｎ）の相対的な位置を示すものである。

なお、以下、入力画像上において、検出領域の幅方向をｘ方向とも称し、検出領域の高さ方向をｙ方向とも称することとする。

また、統合処理部８１は、検出領域Ａの幅Ａｗ（ｎ）を、検出領域Ｂの幅Ｂｗ（ｎ）で除算して得られる相対幅Ｓ_ＡＢ_ｗ（ｎ）、検出領域Ａの高さＡｈ（ｎ）を検出領域Ｂの高さＢｈ（ｎ）で除算して得られる相対高さＳ_ＡＢ_ｈ（ｎ）を算出する。

さらに、統合処理部８１は、検出領域Ｂの幅Ｂｗ（ｎ）を、検出領域Ａの幅Ａｗ（ｎ）で除算して得られる相対幅Ｓ_ＢＡ_ｗ（ｎ）、検出領域Ｂの高さＢｈ（ｎ）を検出領域Ａの高さＡｈ（ｎ）で除算して得られる相対高さＳ_ＢＡ_ｈ（ｎ）を算出する。

このようにして得られた相対幅Ｓ_ＡＢ_ｗ（ｎ）＝Ａｗ（ｎ）／Ｂｗ（ｎ）と、相対高さＳ_ＡＢ_ｈ（ｎ）＝Ａｈ（ｎ）／Ｂｈ（ｎ）は、それぞれ検出領域Ｂを基準としたときの検出領域Ａの相対的な幅と高さを示している。

同様に、相対幅Ｓ_ＢＡ_ｗ（ｎ）＝Ｂｗ（ｎ）／Ａｗ（ｎ）と相対高さＳ_ＢＡ_ｈ（ｎ）＝Ｂｈ（ｎ）／Ａｈ（ｎ）は、それぞれ検出領域Ａを基準としたときの検出領域Ｂの相対的な幅と高さを示している。相対幅Ｓ_ＢＡ_ｗ（ｎ）および相対高さＳ_ＢＡ_ｈ（ｎ）は、相対幅Ｓ_ＡＢ_ｗ（ｎ）および相対高さＳ_ＡＢ_ｈ（ｎ）の逆数となっている。

統合処理部８１は、これらの相対幅Ｓ_ＡＢ_ｗ（ｎ）、相対高さＳ_ＡＢ_ｈ（ｎ）、相対幅Ｓ_ＢＡ_ｗ（ｎ）、および相対高さＳ_ＢＡ_ｈ（ｎ）を相対サイズ情報とする。

検出領域Ａの信頼度ＲＡと、検出領域Ｂの信頼度ＲＢがある程度高い場合、そのフレームの入力画像上の検出領域Ｂ内に被写体としての人の体が含まれ、検出領域Ａ内にその人の顔が含まれている可能性が極めて高いことになる。また、検出領域Ａと検出領域Ｂは、同じ被写体の互いに異なる領域であるので、それらの領域の相対的な位置関係や相対的な大きさ（サイズ）は、大きく変化しないはずである。

そこで、検出領域Ａと検出領域Ｂの両方とも、その検出の信頼度が高い場合に、それらの検出領域の相対位置情報と相対サイズ情報を求めておけば、検出対象となる人の顔と、その人の体全体の正確な位置や大きさの関係を把握することができる。

そうすれば、後のフレームにおいて、何れか一方の検出対象の被写体の部位が検出できなかったとしても、そのフレームの他方の検出対象の部位の検出結果と、求めておいた相対位置情報および相対サイズ情報とを用いて、検出できなかった部位の位置と大きさを特定することができる。

図５のフローチャートの説明に戻り、処理対象のフレームの相対位置情報と相対サイズ情報が算出されると、処理はステップＳ１４からステップＳ１５に進む。

ステップＳ１５において、統合処理部８１は、算出した相対位置情報と相対サイズ情報を、メモリ９１に供給して記録させることで、メモリ９１内に記録されている相対位置情報と相対サイズ情報を更新する。また、統合処理部８１は、検出領域Ａまたは検出領域Ｂの何れか一方の高さと幅もメモリ９１に供給し、記録させる。例えば、以下においては、検出領域Ａの高さと幅が記録されるものとする。

なお、メモリ９１内に記録され、検出領域Ａまたは検出領域Ｂの推定に用いられる相対位置情報および相対サイズ情報は、１フレーム分の相対位置情報と相対サイズ情報であってもよいし、複数フレーム分のものであってもよい。

また、統合処理部８１は、被写体としての人の顔の検出領域Ａも、人の体の検出領域Ｂもある程度の信頼度で検出されたので、それらの検出領域Ａと検出領域Ｂを、最終的な顔と人体の検出結果である検出領域Ａ’および検出領域Ｂ’とする。

このようにして相対位置情報および相対サイズ情報が更新されると、その後、処理はステップＳ２０へと進む。

また、ステップＳ１３において、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢではないと判定された場合、ステップＳ１６において、統合処理部８１は、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ＜ｔｈＢであるか否かを判定する。すなわち、検出領域Ａはある程度信頼できるものであるが、検出領域Ｂはあまり信頼できないものであるかが判定される。

例えば検出領域Ａとして正面を向いた人の顔を検出し、検出領域Ｂとして立った状態の人の体全体を検出することが想定されている場合、被写体としての人がしゃがむなどして姿勢変動が生じると、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ＜ｔｈＢとなることがある。

ステップＳ１６において、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ＜ｔｈＢであると判定された場合、ステップＳ１７において、統合処理部８１は、被写体としての人の体が含まれる最終的な検出領域Ｂ’を算出する。

すなわち、統合処理部８１は、信頼度が低いとされた検出領域Ｂを、被写体検出部５５からの検出領域Ａと、メモリ９１に記録されている検出領域Ａ、相対位置情報、および相対サイズ情報とを用いて推定し、その推定結果を最終的な人体の検出領域Ｂ’とする。

例えば、図７の左側に示すように、フレーム（ｎ＋１）の入力画像Ｐ（ｎ＋１）に、しゃがんだ状態で正面を向いた人が含まれていたとする。そして、入力画像Ｐ（ｎ＋１）から、人の顔の検出結果として矩形状の検出領域Ａが得られ、人の体の領域については、人の姿勢変動があったため、信頼度ＲＢが低く、正しく検出されなかったとする。

また、メモリ９１には、処理対象のフレーム（ｎ＋１）よりも時間的に前のフレームｎの相対位置情報、相対サイズ情報、および検出領域Ａの高さと幅が記録されていたとする。

そのような場合、図７の右側に示すように、統合処理部８１は、入力画像Ｐ（ｎ＋１）上の人の体が含まれる領域、つまり検出領域Ｂ’を算出する。検出領域Ｂ’を推定するには、検出領域Ｂ’の位置、高さ、および幅が分かればよい。

まず、統合処理部８１は、相対位置情報であるベクトルＰ_ＡＢ（ｎ）のｘ成分に、処理対象のフレーム（ｎ＋１）の検出領域Ａの幅Ａｗ（ｎ＋１）と、メモリ９１に記録されているフレームｎの検出領域Ａの幅Ａｗ（ｎ）との比Ａｗ（ｎ＋１）／Ａｗ（ｎ）を乗算する。そして、統合処理部８１は、乗算の結果得られた値を、フレーム（ｎ＋１）のベクトルＰ_ＡＢ（ｎ＋１）のｘ成分とする。

同様に、統合処理部８１は、ベクトルＰ_ＡＢ（ｎ）のｙ成分に、フレーム（ｎ＋１）の検出領域Ａの高さＡｈ（ｎ＋１）と、メモリ９１に記録されているフレームｎの検出領域Ａの高さＡｈ（ｎ）との比Ａｈ（ｎ＋１）／Ａｈ（ｎ）を乗算し、ベクトルＰ_ＡＢ（ｎ＋１）のｙ成分とする。

そして、統合処理部８１は、このようにして得られたベクトルＰ_ＡＢ（ｎ＋１）と、検出領域Ａの図中、左上の点Ａｏ（ｎ＋１）の位置とから、フレーム（ｎ＋１）の検出領域Ｂ’の左上の点Ｂｏ’（ｎ＋１）を求める。すなわち、点Ａｏ（ｎ＋１）をベクトルＰ_ＡＢ（ｎ＋１）の始点としたときのベクトルＰ_ＡＢ（ｎ＋１）の終点の位置が、点Ｂｏ’（ｎ＋１）とされる。この点Ｂｏ’（ｎ＋１）の位置により、検出領域Ｂ’の位置が特定される。

次に、統合処理部８１は、メモリ９１に記録されている相対サイズ情報である相対幅Ｓ_ＢＡ_ｗ（ｎ）に、フレーム（ｎ＋１）の検出領域Ａの幅Ａｗ（ｎ＋１）を乗算することで、検出領域Ｂ’の幅Ｂｗ’（ｎ＋１）を算出する。また、統合処理部８１は、メモリ９１に記録されている相対サイズ情報である相対幅Ｓ_ＢＡ_ｈ（ｎ）に、フレーム（ｎ＋１）の検出領域Ａの高さＡｈ（ｎ＋１）を乗算することで、検出領域Ｂ’の高さＢｈ’（ｎ＋１）を算出する。

このようにして算出された、点Ｂｏ’（ｎ＋１）の位置と、検出領域Ｂ’の幅Ｂｗ’（ｎ＋１）および高さＢｈ’（ｎ＋１）から、最終的な検出領域Ｂ’の位置および大きさを得ることができる。

このように、人の顔の検出領域Ａはある程度の信頼度で検出されたが、人の体の検出領域Ｂはあまり高い信頼度で検出されなかった場合、統合処理部８１は、検出された検出領域Ａをそのまま最終的な検出領域Ａ’とし、検出領域Ｂ’は検出領域Ａを用いて算出する。

図５のフローチャートの説明に戻り、検出領域Ｂ’が算出されて、最終的な検出領域Ａ’および検出領域Ｂ’が得られると、処理はステップＳ１７からステップＳ２０へと進む。

一方、ステップＳ１６において、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ＜ｔｈＢでないと判定された場合、ステップＳ１８において、統合処理部８１は、信頼度ＲＡ＜ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢであるか否かを判定する。すなわち、検出領域Ｂはある程度信頼できるものであるが、検出領域Ａはあまり信頼できないものであるかが判定される。

例えば検出領域Ａとして正面を向いた人の顔を検出し、検出領域Ｂとして立った状態の人の体全体を検出することが想定されている場合、被写体としての人が横を向くなど顔の向きを変えると、信頼度ＲＡ＜ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢとなることがある。

ステップＳ１８において、信頼度ＲＡ＜ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢであると判定された場合、ステップＳ１９において、統合処理部８１は、被写体としての人の顔が含まれる最終的な検出領域Ａ’を算出する。

すなわち、統合処理部８１は、信頼度が低いとされた検出領域Ａを、被写体検出部５６からの検出領域Ｂと、メモリ９１に記録されている検出領域Ａ、相対位置情報、および相対サイズ情報とを用いて推定し、その推定結果を最終的な人の顔の検出領域Ａ’とする。

例えば、図８の左側に示すように、フレーム（ｎ＋１）の入力画像Ｐ（ｎ＋１）に、立った状態で横を向いている人が含まれていたとする。そして、入力画像Ｐ（ｎ＋１）から、人の体の検出結果として矩形状の検出領域Ｂが得られ、人の顔の領域については、顔の向きの変動があったため、信頼度ＲＡが低く、正しく検出されなかったとする。

そのような場合、図８の右側に示すように、統合処理部８１は、入力画像Ｐ（ｎ＋１）上の人の顔が含まれる領域、つまり検出領域Ａ’を算出する。検出領域Ａ’を推定するには、検出領域Ａ’の位置、高さ、および幅が分かればよい。

まず、統合処理部８１は、メモリ９１に記録されているフレームｎの検出領域Ａの幅Ａｗ（ｎ）および高さＡｈ（ｎ）と、フレームｎの相対幅Ｓ_ＢＡ_ｗ（ｎ）および相対高さＳ_ＢＡ_ｈ（ｎ）とから、フレームｎの検出領域Ｂの幅Ｂｗ（ｎ）および高さＢｈ（ｎ）を算出する。すなわち、相対幅Ｓ_ＢＡ_ｗ（ｎ）に幅Ａｗ（ｎ）が乗算されて幅Ｂｗ（ｎ）とされ、相対高さＳ_ＢＡ_ｈ（ｎ）に高さＡｈ（ｎ）が乗算されて高さＢｈ（ｎ）とされる。

そして、統合処理部８１は、相対位置情報であるベクトルＰ_ＢＡ（ｎ）のｘ成分に、処理対象のフレーム（ｎ＋１）の検出領域Ｂの幅Ｂｗ（ｎ＋１）と、求めた幅Ｂｗ（ｎ）との比Ｂｗ（ｎ＋１）／Ｂｗ（ｎ）を乗算し、ベクトルＰ_ＢＡ（ｎ＋１）のｘ成分とする。

また、統合処理部８１は、相対位置情報であるベクトルＰ_ＢＡ（ｎ）のｙ成分に、処理対象のフレーム（ｎ＋１）の検出領域Ｂの高さＢｈ（ｎ＋１）と、求めた高さＢｈ（ｎ）との比Ｂｈ（ｎ＋１）／Ｂｈ（ｎ）を乗算し、ベクトルＰ_ＢＡ（ｎ＋１）のｙ成分とする。

さらに、統合処理部８１は、このようにして得られたベクトルＰ_ＢＡ（ｎ＋１）と、検出領域Ｂの図中、左上の点Ｂｏ（ｎ＋１）の位置とから、フレーム（ｎ＋１）の検出領域Ａ’の左上の点Ａｏ’（ｎ＋１）を求める。この点Ａｏ’（ｎ＋１）の位置により、検出領域Ａ’の位置が特定される。

次に、統合処理部８１は、メモリ９１に記録されている相対サイズ情報である相対幅Ｓ_ＡＢ_ｗ（ｎ）に、フレーム（ｎ＋１）の検出領域Ｂの幅Ｂｗ（ｎ＋１）を乗算することで、検出領域Ａ’の幅Ａｗ’（ｎ＋１）を算出する。また、統合処理部８１は、メモリ９１に記録されている相対サイズ情報である相対幅Ｓ_ＡＢ_ｈ（ｎ）に、フレーム（ｎ＋１）の検出領域Ｂの高さＢｈ（ｎ＋１）を乗算することで、検出領域Ａ’の高さＡｈ’（ｎ＋１）を算出する。

このようにして算出された、点Ａｏ’（ｎ＋１）の位置と、検出領域Ａ’の幅Ａｗ’（ｎ＋１）および高さＡｈ’（ｎ＋１）から、最終的な検出領域Ａ’の位置および大きさを得ることができる。

このように、人体の検出領域Ｂはある程度の信頼度で検出されたが、人の顔の検出領域Ａはあまり高い信頼度で検出されなかった場合、統合処理部８１は、検出された検出領域Ｂをそのまま最終的な検出領域Ｂ’とし、検出領域Ａ’は検出領域Ｂを用いて算出する。

図５のフローチャートの説明に戻り、検出領域Ａ’が算出されて、最終的な検出領域Ａ’および検出領域Ｂ’が得られると、処理はステップＳ１９からステップＳ２０へと進む。

また、ステップＳ１８において、信頼度ＲＡ＜ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢでないと判定された場合、ステップＳ２０乃至ステップＳ２３の処理は行われず、処理はステップＳ２４に進む。すなわち、検出領域Ａの信頼度ＲＡも、検出領域Ｂの信頼度ＲＢもともに低く、入力画像から被写体としての人の顔も体も検出できなかった場合、入力画像上に、被写体としての人の顔や体全体を囲む枠は表示されない。

ステップＳ１５、ステップＳ１７、またはステップＳ１９において最終的な検出領域Ａ’および検出領域Ｂ’が得られると、ステップＳ２０において統合処理部８１は、最終的な検出領域と、検出領域に対する信頼度とからなる検出領域情報をデバイス制御処理部８２に出力する。

例えば、信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢである場合、統合処理部８１は、検出領域Ａと検出領域Ｂを、そのまま検出領域Ａ’および検出領域Ｂ’とし、信頼度ＲＡ’を信頼度が高い旨の「１」とし、信頼度ＲＢ’も信頼度が高い旨の「１」とする。

信頼度ＲＡ≧ｔｈＡかつ、信頼度ＲＢ＜ｔｈＢである場合、統合処理部８１は、検出領域Ａをそのまま検出領域Ａ’とし、信頼度ＲＡ’を信頼度が高い旨の「１」とする。また、統合処理部８１は、ステップＳ１７の計算で得られた領域を検出領域Ｂ’とし、信頼度ＲＢ’を信頼度が低い旨の「０」とする。

信頼度ＲＡ＜ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢである場合、統合処理部８１は、検出領域Ｂをそのまま検出領域Ｂ’とし、信頼度ＲＢ’を信頼度が高い旨の「１」とする。また、統合処理部８１は、ステップＳ１９の計算で得られた領域を検出領域Ａ’とし、信頼度ＲＡ’を信頼度が低い旨の「０」とする。

統合処理部８１は、検出領域Ａ’、検出領域Ｂ’、信頼度ＲＡ’、および信頼度ＲＢ’が得られると、それらを検出領域情報としてデバイス制御処理部８２に供給する。

ステップＳ２１において、デバイス制御処理部８２は、統合処理部８１から供給された検出領域情報に基づいて表示部３４を制御し、入力画像上の人の顔と、人の体とのそれぞれを囲む枠を表示させる。このとき、デバイス制御処理部８２は、人の顔を囲む枠と人の体を囲む枠とを、それらの検出領域の信頼度に応じた表示形式で表示させる。

例えば、信頼度ＲＡ’および信頼度ＲＢ’がともに「１」であり、人の顔も体も検出の信頼度が高い場合、図９の左側に示すように、デバイス制御処理部８２は、入力画像Ｐ（ｎ）上に、人の顔を囲む実線の枠ＦＡと、その人の体全体を囲む実線の枠ＦＢを表示させる。

また、信頼度ＲＡ’が「１」であり、信頼度ＲＢ’が「０」である場合、つまり人の顔の検出の信頼度は高いが、人体の検出の信頼度は低い場合、図９の中央に示すように、デバイス制御処理部８２は、入力画像Ｐ（ｎ）上に、人の顔を囲む実線の枠ＦＡと、その人の体全体を囲む点線の枠ＦＢを表示させる。

さらに、信頼度ＲＡ’が「０」であり、信頼度ＲＢ’が「１」である場合、つまり人の顔の検出の信頼度は低いが、人体の検出の信頼度は高い場合、図９の右側に示すように、デバイス制御処理部８２は、入力画像Ｐ（ｎ）上に、人の顔を囲む点線の枠ＦＡと、その人の体全体を囲む実践の枠ＦＢを表示させる。

このように検出領域の信頼度に応じて、検出対象となる被写体の顔や体、つまり検出領域Ａ’や検出領域Ｂ’を囲む枠を、実線と点線などの異なる表示形式で表示すれば、ユーザは、検出対象のどの部位が高精度に検出されているかを容易に把握することができる。

なお、図９では、信頼度に応じた表示形式として、枠を実線または点線で表示させる例について説明したが、これらの枠が信頼度によって異なる表示形式で表示されれば、どのように表示されてもよい。例えば、信頼度に応じて、表示させる枠の線種や色、太さを変化させてもよいし、枠が点滅表示されるようにしてもよい。

図５のフローチャートの説明に戻り、ステップＳ２２において、デバイス制御処理部８２は、統合処理部８１からの検出領域情報に基づいてＣＯＤＥＣ５７を制御し、入力画像の符号化におけるビットレート制御を行なう。

例えば、イメージャ３２により撮像された入力画像が符号化されて図示せぬメモリに記録される場合、ＣＯＤＥＣ５７は、YC生成部５３等で生成された入力画像を符号化し、メモリに記録させる。このとき、デバイス制御処理部８２は、検出領域情報に基づいて、信頼度の高い領域により多くの符号が割り当てられるように、入力画像上の各領域の符号量、つまりビットレートを制御する。

具体的には、図９の図中、左側に示したように、信頼度ＲＡ’および信頼度ＲＢ’がともに「１」であり、人の顔も体も検出の信頼度が高い場合、デバイス制御処理部８２は、入力画像Ｐ（ｎ）上の人の顔と人体の領域に、より多くの符号が割り当てられるようにビットレート制御を行う。すなわち、検出領域Ａ’および検出領域Ｂ’の両方の領域に、より多くの符号が割り当てられるようにされる。

また、図９の中央に示すように、信頼度ＲＡ’だけが「１」であり、人の顔の検出の信頼度は高いが、人体の検出の信頼度は低い場合、デバイス制御処理部８２は、検出領域Ａ’、つまり人の顔の領域により多くの符号が割り当てられるようにビットレート制御を行う。

さらに、図９の右側に示すように、信頼度ＲＢ’だけが「１」であり、人の顔の検出の信頼度は低いが、人体の検出の信頼度は高い場合、デバイス制御処理部８２は、検出領域Ｂ’、つまり人の体全体の領域に、より多くの符号が割り当てられるようにビットレート制御を行う。

このように、検出領域の信頼度に応じてビットレート制御を行なうことで、入力画像上のより被写体らしい領域に、より多くの符号を割り当てることができ、被写体の画質を特に向上させることができる。これにより、入力画像の見映えをよりよくすることができる。

ステップＳ２３において、デバイス制御処理部８２は、統合処理部８１からの検出領域情報に基づいてレンズ駆動部３６を制御し、オートフォーカス制御を行なう。

例えば、図９の図中、左側に示したように、信頼度ＲＡ’および信頼度ＲＢ’がともに「１」であり、人の顔も体も検出の信頼度が高かったとする。この場合、デバイス制御処理部８２は、入力画像Ｐ（ｎ）の人全体の領域のコントラストにより、オートフォーカス制御が行なわれるように、デジタル信号処理部３３に光学系３１のレンズを移動させるべき距離を算出させる。そして、デバイス制御処理部８２は、デジタル信号処理部３３による算出結果に基づいてレンズ駆動部３６を制御し、被写体としての人に焦点が合うように、レンズを移動させる。

また、図９の中央に示すように、信頼度ＲＡ’だけが「１」であり、人の顔の検出の信頼度は高いが、人体の検出の信頼度は低かったとする。この場合、デバイス制御処理部８２は検出領域Ａ’、つまり人の顔の領域のコントラストによりオートフォーカス制御が行なわれるように、デジタル信号処理部３３に光学系３１のレンズの移動距離を算出させ、その算出結果によりレンズ駆動部３６にレンズを移動させる。これにより、人の顔に焦点が合うようにレンズが移動される。

さらに、図９の右側に示すように、信頼度ＲＢ’だけが「１」であり、人の顔の検出の信頼度は低いが、人体の検出の信頼度は高かったとする。この場合、デバイス制御処理部８２は検出領域Ｂ’、つまり人体の領域のコントラストによりオートフォーカス制御が行なわれるように、デジタル信号処理部３３に光学系３１のレンズの移動距離を算出させ、その算出結果によりレンズ駆動部３６にレンズを移動させる。

なお、信頼度の高い領域を利用してオートフォーカス制御を行なうと説明したが、信頼度の高い領域を利用して露出制御や色調補正など、他の処理が行われるようにしてもよい。例えば、顔の検出の信頼度のみが高い場合には、顔の明るさが特定の明るさとなるように露出補正が行なわれる。また、人体の検出の信頼度が高い場合には、人の体全体が特定の明るさとなるように露出補正が行なわれる。

また、以上においては、信頼度ＲＡ’と信頼度ＲＢ’を２値とする例について説明したが、これらの信頼度を多値とするようにしてもよい。そのような場合、信頼度ＲＡ’と信頼度ＲＢ’の値に応じて、オートフォーカス制御、ビットレート制御、露出補正などの多段階の制御が可能となる。

ステップＳ２３においてオートフォーカス制御が行なわれるか、またはステップＳ１８において、信頼度ＲＡ＜ｔｈＡかつ、信頼度ＲＢ≧ｔｈＢでないと判定されると、ステップＳ２４において、画像処理装置１１は、処理を終了するか否かを判定する。例えば、ユーザによりユーザインターフェース３８が操作され、入力画像の撮像の終了が指示されると、処理を終了すると判定される。

ステップＳ２４において、処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、次のフレームの入力画像について人の顔と体を囲む枠を表示する処理が行われる。

これに対して、ステップＳ２４において、処理を終了すると判定された場合、画像処理装置１１は行なっている処理を終了し、被写体検出処理は終了する。

このようにして画像処理装置１１は、ある程度の信頼度で入力画像から人の顔と体全体の領域が検出された場合には、それらの検出領域から相対位置情報と相対サイズ情報を算出し、検出領域、相対位置情報、および相対サイズ情報を記録しておく。そして、画像処理装置１１は、人の顔と体全体のうち、何れか一方の検出結果の信頼度が低い場合には、他方の検出結果と、記録している検出領域、相対位置情報、および相対サイズ情報を用いて、信頼度の低い検出領域を推定する。

このように、相対位置情報および相対サイズ情報と、信頼度の高い検出領域の検出結果とを用いれば、被写体の姿勢変動等により、一部の領域がうまく検出できなくなっても、より少ない処理量で簡単に、かつより確実に目的とする領域を検出することができる。これにより、被写体の検出結果を用いたオートフォーカス制御等の各処理を、より安定して、高精度に行うことができる。

例えば、比較的安価な検出器を２つ用いて、目的とする被写体の検出を行なえば、同じ検出器を１つだけ用いて被写体の検出を行なう場合と比べて、より高精度で安定して被写体を検出することができる。

なお、以上においては、被写体の検出すべき領域として、人の顔と、人の体全体の領域を例として説明したが、検出対象となる被写体は、人に限らず、どのようなものであってもよく、例えば犬や猫などの動物の顔と、その動物の体全体とが検出対象とされてもよい。また、検出対象となる領域は、例えば動物の顔と、動物の手足など、同じ被写体の異なる領域であればよく、一方の検出対象の領域に、他方の検出対象の領域が含まれる必要もないし、検出対象とされる領域は、３以上であってもよい。

さらに、メモリ９１に記録され、検出領域の算出に用いられる相対位置情報と相対サイズ情報は、処理対象のフレームよりも前のフレームから得られたものであればよく、検出領域の算出に、複数の相対位置情報と相対サイズ情報が用いられてもよい。例えば、複数の相対位置情報と相対サイズ情報が検出領域の算出に用いられる場合、それらの相対位置情報と相対サイズ情報の平均値や重み付き加算により得られた値が用いられて、検出領域が算出される。

［顔検出処理の説明］
次に、図１０および図１１を参照して、図５のステップＳ１１およびステップＳ１２の処理に対応する顔検出処理と人検出処理について説明する。

まず、図１０のフローチャートを参照して、図５のステップＳ１１の処理に対応する顔検出処理について説明する。

ステップＳ５１において、縮小部１２１は、デジタル信号処理部３３の前処理部５１乃至YC生成部５３で処理された入力画像を、予め定められた縮小倍率で縮小し、輝度差分算出部１２２に供給する。

例えば、顔検出処理の開始時には縮小倍率は１とされ、実質的に縮小は行なわれず、ステップＳ５１の処理が繰り返されるたびに、より入力画像が小さく縮小されていくようにされる。

ステップＳ５２において、輝度差分算出部１２２は、縮小部１２１から供給された入力画像から、比較領域を選択する。

ステップＳ５３において、輝度差分算出部１２２は、入力画像上の比較領域内の特定の画素のペアの輝度値の差分を特徴量として算出し、比較部１２３に供給する。

例えば、比較領域内において、Ｍ個の特徴量ＴＦ（１）乃至特徴量ＴＦ（Ｍ）（但しＭは整数）の算出に用いられる、Ｍ個の画素のペアＰＦ（１）乃至ペアＰＦ（Ｍ）が予め定められている。輝度差分算出部１２２は、Ｍ個の画素ペアのそれぞれについて、画素のペアＰＦ（ｍ）（但し、１≦ｍ≦Ｍ）を構成する２つの画素の輝度値の差分を算出し、得られた輝度値の差分を特徴量ＴＦ（ｍ）とする。

ステップＳ５４において、比較部１２３は、輝度差分算出部１２２から供給されたＭ個の特徴量ＴＦ（１）乃至特徴量ＴＦ（Ｍ）と、予め記録している辞書とを用いて、処理対象となっている比較領域に対する顔の領域らしさのスコアＳＰを算出する。

ここで、比較部１２３が記録している辞書は、Ｍ個の画素のペアＰＦ（１）乃至ペアＰＦ（Ｍ）のそれぞれについて、アダブースト等の学習により求められた閾値θ（１）乃至閾値θ（Ｍ）と、重みα（１）乃至重みα（Ｍ）とからなる。

例えば、比較部１２３に記録されている辞書は、画像から人の顔を検出するための辞書であるので、その辞書の生成時、つまりアダブースト等の学習時には、予め用意された人の顔の画像と、人の顔でない画像とが学習サンプルである学習画像とされる。

そして、各学習画像について、Ｍ個の画素のペアの特徴量が求められ、画素のペアＰＦ（ｍ）ごとに、人の顔の学習画像の特徴量ＴＦ（ｍ）と、人の顔でない学習画像の特徴量ＴＦ（ｍ）とを分離（判別）する閾値θ（ｍ）が求められる。例えば、ペアを構成する画素の位置関係は、平均的な人の顔の画像上において、目の位置と額の位置や、頭の位置と額の位置にある画素などとされる。また、各画素のペアＰＦ（ｍ）の重みα（ｍ）は、例えば、より人の顔の画像と、そうでない画像とを正確に分離できるペアほど大きくなるように定められる。

比較部１２３は、このようにして得られたＭ個の閾値θ（ｍ）および重みα（ｍ）からなる辞書を予め記録しており、この辞書を用いて比較領域のスコアＳＰを算出する。

具体的には、比較部１２３は、画素のペアＰＦ（ｍ）ごとに、得られた特徴量ＴＦ（ｍ）と、記録している閾値θ（ｍ）とを弱識別器ｈ（ｘｍ）に代入する。

ここで、弱識別器ｈ（ｘｍ）は、特徴量ＴＦ（ｍ）から閾値θ（ｍ）を減算して得られる値が正、つまりＴＦ（ｍ）−θ（ｍ）＞０であれば数値「１」を出力し、ＴＦ（ｍ）−θ（ｍ）≦０であれば数値「０」を出力する関数である。

換言すれば、比較領域から抽出されたペアＰＦ（ｍ）の特徴量ＴＦ（ｍ）が閾値θ（ｍ）より大きく、画素のペアＰＦ（ｍ）だけに注目すれば、比較領域には人の顔が含まれていると推定される場合、弱識別器ｈ（ｘｍ）の値は「１」となる。逆に、特徴量ＴＦ（ｍ）が閾値θ（ｍ）以下であり、画素のペアＰＦ（ｍ）だけに注目すれば、比較領域には人の顔が含まれていないと推定される場合、弱識別器ｈ（ｘｍ）の値は「０」となる。

比較部１２３は、各画素のペアＰＦ（ｍ）について、特徴量と閾値を弱識別器ｈ（ｘｍ）に代入すると、代入の結果得られた弱識別器ｈ（ｘｍ）に、そのペアＰＦ（ｍ）の重みα（ｍ）を乗算し、重みα（ｍ）が乗算された弱識別器ｈ（ｘｍ）の総和を算出する。そして、このようにして算出された弱識別器の総和が比較領域のスコアＳＰとされる。このスコアＳＰの値は、処理対象の比較領域が人の顔の領域らしいほど大きい値となる。

比較部１２３は、このようにして算出された比較領域のスコアＳＰを、判定部１２４に供給する。

ステップＳ５５において、判定部１２４は、比較部１２３から供給された比較領域のスコアＳＰが、予め定められた閾値θＬより大きいか否かを判定する。

ステップＳ５５において、スコアＳＰが閾値θＬ以下である場合、比較領域には人の顔は含まれていないとされ、処理はステップＳ５７に進む。

これに対して、ステップＳ５５において、スコアＳＰが閾値θＬを超えると判定された場合、ステップＳ５６において、比較部１２３は、処理対象の比較領域は、人の顔の領域、つまり検出領域Ａであるとする。より詳細には、処理対象となっている入力画像は、元の入力画像を所定の縮小倍率で縮小したものであるので、縮小前の元の入力画像における、処理対象の比較領域に対応する領域が検出領域Ａとされる。つまり比較領域を所定の縮小倍率の逆数で拡大した領域が、検出領域Ａとされる。

ステップＳ５６において比較領域が検出領域Ａとされたか、またはステップＳ５５においてスコアＳＰが閾値θＬ以下であると判定された場合、ステップＳ５７において、被写体検出部５５は、入力画像上の全ての領域を比較領域としたか否かを判定する。

被写体検出部５５では、各大きさ（スケール）に縮小された入力画像について、入力画像上の全領域が比較領域とされるように、比較領域の位置をずらしながら、比較領域からの人の顔の検出が行なわれる。

ステップＳ５７において、まだ全ての領域を比較領域としていないと判定された場合、処理はステップＳ５２に戻り、上述した処理が繰り返される。すなわち、次の比較領域が選択され、その比較領域が人の顔の領域であるか否かが判定される。

一方、ステップＳ５７において、全ての領域を比較領域としたと判定された場合、ステップＳ５８において、被写体検出部５５は、予め定められた全てのスケールの入力画像で、人の顔の検出を行なったか否かを判定する。すなわち、予め定められた全ての縮小倍率で入力画像を縮小し、縮小された入力画像を対象として人の顔の検出を行なったか否かが判定される。

ステップＳ５８において、まだ全てのスケールで顔の検出を行なっていないと判定された場合、処理はステップＳ５１に戻り、上述した処理が繰り返される。すなわち、所定の縮小倍率で入力画像が縮小され、得られた所定のスケールの入力画像が処理対象とされて、人の顔の検出が行なわれる。このように、各スケールの入力画像を処理対象として人の顔の検出を行なうことで、入力画像から任意の大きさの人の顔を検出することができる。

これに対して、ステップＳ５８において、全てのスケールで顔の検出を行なったと判定された場合、ステップＳ５９において、判定部１２４は、入力画像から検出された人の顔の領域、つまり検出領域Ａと、検出領域Ａの信頼度ＲＡを統合処理部８１に出力する。

例えば、判定部１２４は、検出領域Ａとされた比較領域のスコアＳＰをそのまま信頼度ＲＡとする。また、検出領域Ａとされた比較領域が複数ある場合、それらの複数の比較領域を、それぞれ検出領域Ａとしてもよいし、それらの複数の比較領域のうち、スコアＳＰの高い順に、予め定められた数の比較領域を検出領域Ａとするようにしてもよい。検出領域Ａが複数検出された場合には、それらの検出領域Ａについて、図５の被写体検出処理におけるステップＳ１３乃至ステップＳ２１の処理が行われることになる。

判定部１２４が、顔の検出により得られた検出領域Ａと信頼度ＲＡを出力すると、顔検出処理は終了し、その後、処理は図５のステップＳ１２へと進む。

このようにして、被写体検出部５５は、入力画像を縮小させながら、入力画像の各領域を比較領域として、比較領域から抽出された特徴量と辞書とを用いて人の顔を検出する。このように、辞書を用いて人の顔を検出することで、比較的安価で目的とする被写体を入力画像から検出することができる。

［人検出処理の説明］
次に、図１１のフローチャートを参照して、図５のステップＳ１２の処理に対応する人検出処理について説明する。

なお、ステップＳ９１およびステップＳ９２の処理は、図１０のステップＳ５１およびステップＳ５２の処理と同様であるので、その説明は省略する。

すなわち、前処理部５１乃至YC生成部５３で処理された入力画像が、縮小部１５１により所定の縮小倍率で縮小され、縮小された入力画像上の所定の領域が、ヒストグラム算出部１５２により比較領域として選択される。

なお、人検出に用いられる比較領域は、人の顔の検出に用いられる比較領域と同じ大きさであってもよいし、異なる大きさであってもよい。例えば、ヒストグラム算出部１５２では、５画素×５画素の領域を１つのセルとして、入力画像が複数のセルに分割され、さらに互いに隣接する３×３の合計９個のセルが１つのブロックとされる。そして、入力画像上の互いに隣接する４０個のブロックからなる領域が比較領域とされる。

ステップＳ９３において、ヒストグラム算出部１５２は、比較領域内のセルごとの輝度の勾配ヒストグラムを求めることで特徴量を算出し、比較部１５３に供給する。

具体的には、ヒストグラム算出部１５２は、比較領域内のセルについて、画素の差分を求めることで、セル内の各画素の輝度勾配を算出する。そして、ヒストグラム算出部１５２は、比較領域内のセルごとに、輝度勾配の所定の値の範囲をビンとし、そのビンの範囲内の輝度勾配を有するセル内の画素数をビンの頻度値とする勾配ヒストグラムを生成する。

さらにヒストグラム算出部１５２は、３セル×３セルからなる矩形状のブロックごとに、そのブロック内のセルの勾配ヒストグラムを正規化する。

すなわち、ヒストグラム算出部１５２は、１つのブロックについて、セルごとの勾配ヒストグラムの各ビンの頻度値のそれぞれを要素とする１つのベクトルＶを求める。例えば、勾配ヒストグラムに９つのビンがあるとすれば、１つのブロックは９個のセルから構成されるので、ベクトルＶは、各セルの各ビンの頻度値を要素とする８１（＝９×９）次元のベクトルなる。

ヒストグラム算出部１５２は、８１次元のベクトル空間におけるベクトルＶの長さを求め、ブロック内の各セルのビンの頻度値を、得られたベクトルＶの長さで除算することにより、ブロック内の各セルの勾配ヒストグラムを正規化する。

このような正規化により得られた勾配ヒストグラムの１つのビンの頻度値が、１つの特徴量とされる。したがって、１つのブロックからは８１次元の特徴量が得られ、４０ブロックで構成される比較領域からは、３２４０（＝８１×４０）次元の特徴量が得られることになる。

ステップＳ９４において、比較部１５３は、ヒストグラム算出部１５２から供給された比較領域の特徴量と、予め記録している辞書とを用いて、処理対象となっている比較領域に対する人の体の領域らしさのスコアＳＢを算出し、判定部１５４に供給する。

ここで、比較部１５３が記録している辞書は、比較部１２３に記録されている辞書と同様にしてアダブースト等の学習処理により得られた、画像から人の体の領域を検出するための辞書である。この辞書は、人の体の領域か否かを判別するための特徴量ごとの閾値と重みとからなる。

比較部１５３は、比較領域の特徴量ごとに、特徴量と、その特徴量についての辞書としての閾値とを弱識別器に代入し、得られた弱識別器の値に特徴量ごとの辞書としての重みを乗算し、重みが乗算された弱識別器の総和をスコアＳＢとする。

なお、ここでの弱識別器から出力される値、つまり弱識別器の値は、図１０のステップＳ５４の処理と同様に、特徴量から閾値を減算した値が「０」を超える場合に「１」とされ、特徴量から閾値を減算した値が「０」以下の場合に「０」とされる。すなわち、ステップＳ９４では、比較領域の大きさと、特徴量の算出方法、および特徴量の数が異なるだけで、基本的にはステップＳ５４と同様の処理が行われる。

このようにして比較領域のスコアＳＢが算出されると、その後、ステップＳ９５乃至ステップＳ９９の処理が行われて人検出処理は終了するが、これらの処理は図１０のステップＳ５５乃至ステップＳ５９の処理と同様であるので、その説明は省略する。

すなわち、比較領域のスコアＳＢが予め定められた閾値よりも大きい場合、その比較領域は、入力画像上の人の体全体が含まれる領域である検出領域Ｂとされ、その検出領域Ｂとされた比較領域のスコアＳＢが、そのまま検出領域Ｂの信頼度ＲＢとされる。

検出領域Ｂと信頼度ＲＢが、判定部１５４から統合処理部８１に出力されて人検出処理が終了すると、その後、処理は図５のステップＳ１３へと進む。

このようにして、被写体検出部５６は、入力画像を縮小させながら、入力画像の各領域を比較領域として、比較領域から抽出された特徴量と辞書とを用いて人の体を検出する。このように、辞書を用いて人の体を検出することで、比較的安価で目的とする被写体を入力画像から検出することができる。

〈第２の実施の形態〉
［画像処理装置の構成］
なお、以上においては、学習により得られた辞書を用いて被写体を検出する例について説明したが、入力画像から目的とする被写体を検出できる方法であれば、どのような方法で被写体の検出が行なわれてもよい。

例えば、連続する２つのフレームの入力画像を用いて動き検出をすることで、入力画像から背景に対して動いている物体を検出し、その物体を検出対象の被写体とするようにしてもよいし、入力画像から人の顔や体の輪郭を検出対象の被写体として抽出してもよい。

また、例えば、各フレームの入力画像の被写体を追尾する追尾装置により、目的とする被写体を検出するようにしてもよい。そのような場合、例えば、画像処理装置１１は図１２に示すように構成される。

すなわち、画像処理装置１１は、光学系３１、イメージャ３２、デジタル信号処理部３３、表示部３４、制御部３５、レンズ駆動部３６、インターフェース制御部３７、およびユーザインターフェース３８から構成される。なお、図１２において、図１における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。

図１２の画像処理装置１１と、図１の画像処理装置１１とは、図１２のデジタル信号処理部３３に、図１の被写体検出部５６に代えて被写体追尾部１８１が設けられている点で異なり、他の点では共通する。

被写体追尾部１８１は、被写体追尾処理を行って、各フレームの入力画像から、指定された被写体の領域、例えば被写体としての人の体全体の領域を検出領域Ｂとして検出する。

［被写体追尾部の構成］
被写体追尾部１８１は、より詳細には、図１３に示すように構成される。

被写体追尾部１８１は、被写体マップ生成部２１１、被写体候補領域矩形化部２１２、被写体領域選択部２１３、リファレンスマップ保持部２１４、マッチング処理部２１５、および重み係数算出部２１６から構成される。

被写体マップ生成部２１１には、イメージャ３２により時間的に連続して撮像され、前処理部５１乃至YC生成部５３により処理された複数の入力画像が順次供給される。

被写体マップ生成部２１１は、入力画像が有する輝度や色等の予め定められた特徴ごとに、入力画像の各領域における特徴の特徴量を抽出し、抽出した特徴量から、入力画像の各領域における被写体らしさを示す合成特徴量マップを生成する。

具体的には、被写体マップ生成部２１１は、輝度を特徴とする合成特徴量マップを生成する場合、入力画像の各領域の輝度値を示す輝度の特徴量マップを生成する。そして、被写体マップ生成部２１１は、輝度の特徴量マップから、互いに異なる複数の帯域（空間周波数帯域）成分を抽出して帯域特徴量マップとし、各帯域特徴量マップを所定の重み係数により重み付き加算（線形結合）して合成特徴量マップとする。

ここで、帯域特徴量マップは、入力画像の各領域における特徴の特徴量の特定帯域成分を示すマップである。換言すれば、帯域特徴量マップは、入力画像の特定の帯域成分に含まれる特徴の特徴量を示している。

また、合成特徴量マップは、各特徴の特徴量から求まる入力画像の各領域における被写体らしさを示すマップである。なお、ここでいう被写体とは、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体をいう。したがって、被写体は必ずしも人物に限られる訳ではない。

このようにして得られた特徴ごとの合成特徴量マップは、被写体マップ生成部２１１からリファレンスマップ保持部２１４およびマッチング処理部２１５に供給される。

また、被写体マップ生成部２１１は、特徴ごとの合成特徴量マップを、重み係数算出部２１６から供給された重み係数を用いて線形結合することにより、被写体マップを生成し、被写体候補領域矩形化部２１２に供給する。このようにして得られる被写体マップの各領域の値（画素の画素値）は、入力画像の各領域の被写体らしさを示している。

被写体候補領域矩形化部２１２は、被写体マップ生成部２１１からの被写体マップにおいて、検出対象の被写体の候補となる領域、つまり被写体らしい領域を含む矩形領域（以下、被写体候補領域とも称する）を求め、その矩形領域の位置を示す座標情報を生成する。

また、被写体候補領域矩形化部２１２は、被写体マップを用いて、各被写体候補領域が有する特定の特徴の特徴量を示す領域情報を生成し、各被写体候補領域の座標情報と領域情報を被写体領域選択部２１３に供給する。

被写体領域選択部２１３は、被写体候補領域矩形化部２１２からの座標情報および領域情報を用いて、被写体候補領域のうちの何れかを、検出対象（追尾対象）となる被写体が含まれる領域である検出領域Ｂとして選択する。

より詳細には、被写体マップ上において、ユーザが注目すると推定される任意の被写体らしい領域が、ユーザにより指定された検出対象の被写体の領域、つまり人の体全体の領域の候補（被写体候補領域）とされる。そして、それらの被写体候補領域のなかから、最も検出対象の被写体らしい領域が選択され、その領域と同じ位置にある入力画像の領域が、検出領域Ｂとして特定される。なお、以下においては、入力画像上の検出領域Ｂと同じ位置にある被写体マップ上の領域を、単に検出領域Ｂとも称することとする。

また、被写体領域選択部２１３は、検出領域Ｂの検出結果に基づいて、信頼度ＲＢを算出し、検出領域Ｂと信頼度ＲＢを統合処理部８１に供給するとともに、検出領域Ｂをリファレンスマップ保持部２１４に供給する。

リファレンスマップ保持部２１４は、メモリ２２１を備えており、被写体マップ生成部２１１からの合成特徴量マップと、被写体領域選択部２１３からの検出領域Ｂとを用いてリファレンスマップを生成し、メモリ２２１に記録させる。具体的には、リファレンスマップ保持部２１４は、合成特徴量マップにおける検出領域Ｂと同じ位置の領域を切り出して、切り出された領域をリファレンスマップとする。

マッチング処理部２１５は、メモリ２２１に記録されたリファレンスマップを用いてマッチング処理を行い、被写体マップ生成部２１１からの合成特徴量マップから、リファレンスマップと最も相関の高い（類似する）領域を検索し、その検索結果を重み係数算出部２１６に供給する。すなわち、処理対象の現フレームの合成特徴量マップにおいて、現フレームより１つ前のフレーム（以下、前フレームとも称する）のリファレンスマップと最も類似の度合いの高い領域が検索される。

重み係数算出部２１６は、マッチング処理部２１５からの検索結果に基づいて、合成特徴量マップの重み係数（以下、合成重み係数とも称する）を算出し、被写体マップ生成部２１１に供給する。

［被写体検出処理の説明］
次に、図１４のフローチャートを参照して、図１２の画像処理装置１１により行なわれる被写体検出処理について説明する。

なお、画像処理装置１１による被写体検出処理開始時においては、ユーザによりユーザインターフェース３８が操作され、被写体追尾部１８１が検出対象（追尾対象）とすべき被写体、つまり人の体の領域（以下、初期選択領域と称する）が指定される。制御部３５は、インターフェース制御部３７を介してユーザインターフェース３８から取得した、検出対象とすべき初期選択領域を、被写体追尾部１８１に供給する。

被写体検出処理が開始されると、ステップＳ１３１において顔検出処理が行われる。なお、この顔検出処理は、図５のステップＳ１１の顔検出処理と同じ処理であるので、その説明は省略する。

ステップＳ１３２において、被写体追尾部１８１は、被写体追尾処理を行って、入力画像から、被写体としての人の体の領域を検出し、その結果得られた検出領域Ｂと信頼度ＲＢを統合処理部８１に出力する。なお、被写体追尾処理の詳細は、後述する。

被写体追尾処理が行われると、その後、ステップＳ１３３乃至ステップＳ１４４の処理が行われて被写体検出処理は終了するが、これらの処理は図５のステップＳ１３乃至ステップＳ２４の処理と同様の処理であるため、その説明は省略する。

このようにして、画像処理装置１１は、入力画像から人の顔と体の領域を検出し、それらの検出結果から、最終的な顔の領域である検出領域Ａ’と、最終的な人の体の領域である検出領域Ｂ’とを得る。このように、目的とする被写体の互いに異なる領域をそれぞれ検出することで、より少ない処理量で簡単に、かつより確実に目的とする被写体を検出することができる。

［被写体追尾処理の説明］
さらに、図１５のフローチャートを参照して、図１４のステップＳ１３２の処理に対応する被写体追尾処理について説明する。

ステップＳ１７１において、被写体マップ生成部２１１は、前処理部５１乃至YC生成部５３で処理された入力画像から、合成特徴量マップを生成し、リファレンスマップ保持部２１４およびマッチング処理部２１５に供給する。

合成特徴量マップは、Ｒ，Ｇ，Ｂなどの色成分、輝度、各エッジの方向などの特徴ごとに生成される。例えば、エッジの特定方向を特徴として、合成特徴量マップが生成される場合、入力画像に対するフィルタ処理が行われ、入力画像の各領域の特定方向のエッジ強度を特徴量とする特徴量マップが生成される。

そして、その特徴量マップから、互いに解像度（画素数）の異なる特徴量マップが生成され、それらのなかの任意の２つの特徴量マップの差分が帯域特徴量マップとして求められる。なお、帯域特徴量マップの生成に用いられる特徴量マップは、互いに解像度、つまり画素数が異なるので、適宜アップサンプリングが行なわれる。

このようにして得られた帯域特徴量マップの画素の画素値は、入力画像における所定の画素における特徴の特徴量と、その画素の周囲の平均的な特徴量との差分を示している。

例えば、特徴が輝度である場合、帯域特徴量マップの画素値は、入力画像の所定領域の輝度と、その周囲の領域の平均的な輝度の差を示している。一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各帯域特徴量マップにおいて、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示している。

さらに、このようにして得られた複数の帯域特徴量マップが、所定の重み係数により重み付き加算され、合成特徴量マップとされる。なお、各帯域特徴量マップも解像度が異なるので、入力画像の大きさ（解像度）に合わせて適宜アップサンプリングが行われる。合成特徴量マップの画素の画素値は、その画素と同じ位置にある入力画像の画素の被写体の領域らしさを示しており、画素値が大きいほど、より被写体の領域らしいとされる。

ステップＳ１７２において、マッチング処理部２１５は、被写体マップ生成部２１１から供給された特徴ごとの合成特徴量マップと、メモリ２２１に記録されているリファレンスマップとのマッチング処理を行う。

例えば、合成特徴量マップは、複数の特徴ごとに生成されるが、メモリ２２１には、これらの合成特徴量マップにおける、入力画像上の検出領域Ｂと同じ位置の領域が、各特徴のリファレンスマップとして記録されている。ここで、メモリ２２１に記録されている特徴ごとのリファレンスマップは、処理対象の現フレームよりも１つ前の前フレームの合成特徴量マップと検出領域Ｂの検出結果とから得られたものである。

マッチング処理部２１５は、現フレームの特徴ごとの合成特徴量マップが供給されると、それらの特徴ごとに、合成特徴量マップから、メモリ２２１から読み出された前フレームのリファレンスマップと最も類似する領域を検索する。

例えば、マッチング処理部２１５は、合成特徴量マップ上の処理対象とする領域をずらしながら、処理対象の領域内の各画素について、その領域内の画素の画素値と、その画素と同じ位置にあるリファレンスマップの画素の画素値との差分の絶対値を求める。そして、マッチング処理部２１５は、処理対象の領域内の各画素について求めた差分の絶対値の総和（差分絶対値和）を求める。

マッチング処理部２１５は、合成特徴量マップ上の各領域のうち、求めた差分絶対値和が最小となる領域を最大類似領域とし、最大類似領域を示す情報をマッチング処理の結果として重み係数算出部２１６に供給する。

なお、マッチング処理として、差分絶対値和を利用する場合を例として説明したが、その他、差分二乗和等を利用したマッチング処理や、ヒストグラムマッチング、テンプレートマッチングなど、合成特徴量マップと最も類似する領域が特定できれば、どのような処理であってもよい。

ステップＳ１７３において、重み係数算出部２１６は、マッチング処理部２１５から供給されたマッチング処理の結果に基づいて、特徴ごとに、各特徴の合成特徴量マップの合成重み係数を算出する。

例えば、重み係数算出部２１６は、合成特徴量マップの画素のうち、最大類似領域内にない画素の合成重み係数を予め定められた値Ｗαとし、合成特徴量マップ上の最大類似領域内にある画素の合成重み係数を、値Ｗαよりも大きい予め定めた値Ｗβとする。

重み係数算出部２１６は、このように画素ごとに定めた値Ｗαまたは値Ｗβを、処理対象の現フレームにおいて合成特徴量マップの各画素に乗算される、画素ごとの合成重み係数とし、被写体マップ生成部２１１に供給する。

このように、合成特徴量マップの最大類似領域内の画素の合成重み係数を、最大類似領域外の画素の合成重み係数よりも大きい値とすることで、合成特徴量マップを合成して被写体マップを生成する場合に、最大類似領域の重みをより大きくすることができる。

最大類似領域は、現フレームの合成特徴量マップにおいて、前フレームの検出領域Ｂに対応する合成特徴量マップの領域と最も類似する領域、つまり最も相関の高い領域であるから、現フレームの入力画像において、最大類似領域と同じ領域に、被写体がある可能性が高い。

そこで、前フレームの検出領域Ｂとの相関がより高く、被写体がある可能性が高い領域に対して、より大きい重みがつけられるように合成重み係数を定めれば、より高精度に被写体を検出できる被写体マップが得られるようになる。

なお、画素ごとの合成重み係数とされる値Ｗαおよび値Ｗβは、各特徴の合成特徴量マップごとに同じ値とされてもよいし、特徴ごとに異なる値とされてもよい。また、同じ合成特徴量マップにおいても、最大類似領域から離れた位置にある画素ほど合成重み係数の値が小さくなるなど、画素の位置によって合成重み係数の値が異なるようにしてもよい。

ステップＳ１７４において、被写体マップ生成部２１１は、重み係数算出部２１６から供給された特徴ごとの合成重み係数を用いて、各特徴の合成特徴量マップを重み付き加算することで、被写体マップを生成し、被写体候補領域矩形化部２１２に供給する。すなわち、各合成特徴量マップの同じ位置にある画素の画素値に合成重み係数が乗算され、合成重み係数が乗算された画素値の総和が求められ、得られた値が、それらの画素と同じ位置にある被写体マップの画素の画素値とされる。

このようにして得られた被写体マップの画素の画素値は、その画素と同じ位置にある入力画像の画素の被写体の領域らしさを示しており、画素値が大きいほど、より被写体の領域らしいとされる。

ステップＳ１７５において、被写体候補領域矩形化部２１２は、被写体マップ生成部２１１からの被写体マップから被写体候補領域を抽出し、各被写体候補領域の座標情報を生成する。

例えば、被写体候補領域矩形化部２１２は、被写体マップを所定の閾値により２値化する。２値化では、被写体マップにおいて、閾値以上の画素値を有する画素の画素値が「１」とされ、閾値よりも小さい画素値を有する画素の画素値が「０」とされる。したがって、２値化後の被写体マップにおいて、画素値が「１」である領域は被写体らしい領域であり、画素値が「０」である領域は、被写体ではない領域、例えば背景の領域であるとされる。

また、被写体候補領域矩形化部２１２は、２値化後の被写体マップにおいて、互いに隣接する、画素値が「１」である画素からなる領域を囲む（含む）矩形領域を被写体候補領域とし、各被写体候補領域の位置を示す座標情報を生成する。

さらに、被写体候補領域矩形化部２１２は、各被写体候補領域について、被写体候補領域のサイズ（大きさ）や、被写体マップにおける被写体候補領域の中心位置の座標を領域情報として算出する。

なお、領域情報は、その他、２値化前の被写体マップ上の被写体候補領域内の画素の画素値の積分値（総和）や、２値化前の被写体マップ上の被写体候補領域内の画素の画素値のピーク値（最大値）などとされてもよい。

被写体候補領域矩形化部２１２は、各被写体候補領域の座標情報と領域情報とを被写体領域選択部２１３に供給する。

ステップＳ１７６において、被写体領域選択部２１３は、被写体候補領域矩形化部２１２から供給された各被写体候補領域の座標情報と領域情報とを用いて、被写体候補領域の何れかを人の体の含まれる検出領域Ｂとして選択する。

例えば、被写体領域選択部２１３は、前フレームの検出領域Ｂとされた被写体候補領域の領域情報を保持しておき、保持している前フレームの領域情報と、現フレームの被写体候補領域の領域情報とを比較する。

具体的には、領域情報として、被写体候補領域のサイズが算出された場合、各被写体候補領域のサイズ、つまり被写体候補領域を囲む矩形枠の大きさと、１フレーム前の検出領域Ｂのサイズとの差の絶対値が比較結果として求められる。

また、例えば、領域情報として、被写体候補領域の中心位置の座標が求められ、その中心位置の座標と、１フレーム前の検出領域Ｂの中心位置の座標が比較された場合、それらの中心位置間の距離が、比較結果として求められる。

さらに、領域情報として、被写体候補領域内の画素の画素値のピーク値や積分値が求められた場合には、それらの被写体候補領域のピーク値や積分値と、１フレーム前の検出領域Ｂのピーク値や積分値との差の絶対値が、比較結果として求められる。

被写体領域選択部２１３は、得られた領域情報の比較結果に基づいて、領域情報を指標とした場合に、現フレームの被写体候補領域のうち、前フレームの検出領域Ｂとの相関が最も高い被写体候補領域を、現フレームの検出領域Ｂとする。

具体的には、例えば、比較結果として得られた、検出領域Ｂに対する被写体候補領域のサイズの差、中心位置間の距離、ピーク値の差、積分値の差などの領域情報の差の絶対値が最も小さい被写体候補領域が、現フレームの検出領域Ｂとして選択される。

なお、１回目の被写体追尾処理においては、被写体領域選択部２１３には、１フレーム前の検出領域Ｂの領域情報は記録されていないので、被写体検出処理の開始時にユーザによって選択された初期選択領域を含む被写体候補領域が検出領域Ｂとされる。

また、より詳細には、処理対象の現フレームより１つ前の前フレームにおいて、信頼度ＲＢ＜ｔｈＢであった場合、つまり図１４のステップＳ１３７において検出領域Ｂ’が算出された場合、検出領域Ａ’から初期選択領域が求められる。

すなわち、前フレームにおいて求められた検出領域Ａ’自体や、検出領域Ａ’の中心位置、検出領域Ｂ’自体や検出領域Ｂ’の中心位置が初期選択領域とされる。そして、現フレームの被写体候補領域のうち、求められた初期選択領域が含まれる被写体候補領域が、現フレームにおける検出領域Ｂとされる。なお、初期選択領域が含まれる被写体候補領域が複数ある場合には、例えば初期選択領域との距離が最も短い被写体候補領域が、検出領域Ｂとされる。

このように、前フレームの検出領域Ｂの検出の信頼度が低い場合には、信頼度の高い検出領域Ａから初期選択領域を求め、被写体追尾処理にリセットをかけることで、より安定して被写体の追尾動作を行なうことができる。

ステップＳ１７７において、被写体領域選択部２１３は、検出領域Ｂとして選択された被写体候補領域の信頼度ＲＢを算出する。

具体的には、被写体領域選択部２１３は、前フレームの検出領域Ｂの位置やサイズを記録しており、現フレームの検出領域Ｂと、前フレームの検出領域Ｂとの位置の変動量から信頼度ＲＢを算出する。例えば、検出領域Ｂの位置の変動量が小さいほど信頼度ＲＢは高い値とされ、変動量が所定の閾値を超えると、信頼度ＲＢが急激に低くなるようにされる。

また、例えば、現フレームの検出領域Ｂと、前フレームの検出領域Ｂとのサイズの変動量から信頼度ＲＢが算出されてもよい。さらに、入力画像における検出領域Ｂ内の画素の輝度値や色差成分の平均値が求められ、現フレームと前フレームの平均値の差から信頼度ＲＢが算出されるようにしてもよい。

さらに、マッチング処理において、合成特徴量マップ上の各領域の差分絶対値和が算出された場合には、各合成特徴量マップの差分絶対値和の深さの平均値や、差分絶対値和の深さを重み付き加算して得られる値から、信頼度ＲＢが算出されるようにしてもよい。

このように、検出領域Ｂに関する情報を時間方向に比較して信頼度ＲＢを算出すれば、より信用度の高い信頼度ＲＢを得ることができる。

信頼度ＲＢが算出されると、被写体領域選択部２１３は、現フレームの検出領域Ｂの領域情報と、検出領域Ｂの位置やサイズを記録する。また、被写体領域選択部２１３は、検出領域Ｂと信頼度ＲＢを統合処理部８１に供給するとともに、検出領域Ｂをリファレンスマップ保持部２１４に供給する。

ステップＳ１７８において、リファレンスマップ保持部２１４は、被写体マップ生成部２１１から供給された各特徴の合成特徴量マップと、被写体領域選択部２１３から供給された検出領域Ｂとを用いて、リファレンスマップを生成する。

すなわち、リファレンスマップ保持部２１４は、現フレームの各特徴の合成特徴量マップについて、合成特徴量マップにおける入力画像上の検出領域Ｂと同じ領域を切り出してリファレンスマップとし、メモリ２２１に記録させる。これらの特徴ごとのリファレンスマップは、次フレームの合成重み係数の算出に用いられる。

リファレンスマップが生成されると、被写体追尾処理は終了し、その後、処理は図１４のステップＳ１３３へと進む。

このようにして被写体追尾部１８１は、被写体追尾処理を行って、入力画像から検出対象の被写体を検出する。被写体追尾処理では、検出対象の被写体の検出に、前のフレームの検出領域Ｂの領域情報を用いるようにしたので、辞書を用いる場合と比べてより簡単に、かつより安価で被写体を検出することができ、画像処理装置１１をより低コストで実現することができる。

なお、以上においては、被写体追尾処理の方法として、被写体候補領域の領域情報と、前フレームの検出領域Ｂの領域情報とを比較する方法を例として説明したが、前フレームの検出領域Ｂに関する情報を利用する方法であれば、どのような方法であってもよい。

例えば、入力画像から、領域情報などの特定の特徴の特徴量を抽出して用いる場合、入力画像の各領域から抽出された特徴量と、前フレームの検出領域Ｂから抽出された特徴量とを比較することにより現フレームの検出領域Ｂを検出するようにしてもよい。この場合、例えば、入力画像上の領域のうち、前フレームの検出領域Ｂの特徴量との類似の度合いが最も大きい領域、つまり特徴量の差分絶対値が最小となる領域が現フレームの検出領域Ｂとされる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７、ハードディスクや不揮発性のメモリなどよりなる記録部３０８、ネットワークインターフェースなどよりなる通信部３０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１を駆動するドライブ３１０が接続されている。

以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU３０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１画像処理装置，３３デジタル信号処理部，３４表示部，３５制御部，５５被写体検出部，５６被写体検出部，８１統合処理部，８２デバイス制御処理部，１８１被写体追尾部

Claims

入力画像から第１の特徴の特徴量を抽出して、前記入力画像から予め定められた被写体の第１の部位が含まれる第１の検出領域を検出するとともに、前記第１の検出領域の検出の第１の信頼度を算出する第１の被写体検出手段と、
前記入力画像から第２の特徴の特徴量を抽出して、前記入力画像から前記第１の部位とは異なる前記被写体の第２の部位が含まれる第２の検出領域を検出するとともに、前記第２の検出領域の検出の第２の信頼度を算出する第２の被写体検出手段と、
前記第１の信頼度が第１の閾値以上であり、かつ前記第２の信頼度が第２の閾値以上である場合、前記第１の検出領域と前記第２の検出領域の相対的な位置およびサイズの関係を示す相対関係情報を生成して記録し、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第１の検出領域の検出結果と、前記相対関係情報とを用いて前記第２の検出領域を求める検出領域算出手段と
を備える画像処理装置。
前記第１の被写体検出手段は、前記被写体の前記第１の部位が含まれる画像と、前記被写体の前記第１の部位が含まれていない画像とを用いた学習により得られた辞書を予め記録し、前記第１の特徴の特徴量と前記辞書とを用いて前記第１の検出領域を検出する
請求項１に記載の画像処理装置。
前記入力画像は、時間的に連続して撮像された複数フレームの画像であり、
前記第２の被写体検出手段は、現フレームの前記入力画像の所定の領域の前記第２の特徴の特徴量と、前記現フレームの１つ前のフレームの前記入力画像の前記第２の検出領域の前記第２の特徴の特徴量とを比較することで、前記現フレームの前記第２の検出領域を検出する
請求項２に記載の画像処理装置。
前記第２の被写体検出手段は、前記入力画像から第３の特徴の特徴量を抽出して、前記入力画像の各領域における被写体らしさを示す被写体マップを生成し、前記被写体マップにより特定される前記入力画像の被写体らしい被写体候補領域の前記第２の特徴の特徴量と、前記前のフレームの前記第２の検出領域の前記第２の特徴の特徴量とを比較することで、前記第２の検出領域を検出する
請求項３に記載の画像処理装置。
前記第２の被写体検出手段は、前記前のフレームにおいて、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満であった場合、前記現フレームにおいて、前記被写体候補領域のうち、前記検出領域算出手段により求められた前記前のフレームの前記第２の検出領域から定まる領域を含む前記被写体候補領域を、前記第２の検出領域とする
請求項４に記載の画像処理装置。
前記入力画像を表示する表示手段と、
前記第１の信頼度に応じた表示形式で、前記入力画像上に前記第１の検出領域を囲む枠を表示させるとともに、前記第２の信頼度に応じた表示形式で、前記入力画像上に前記第２の検出領域を囲む枠を表示させる制御手段と
をさらに備える請求項１に記載の画像処理装置。
前記第１の信頼度および前記第２の信頼度に基づいて、前記入力画像を撮像する撮像手段のフォーカス制御、露出制御、または前記入力画像の符号化のビットレート制御を行なう制御手段をさらに備える
請求項１に記載の画像処理装置。
入力画像から第１の特徴の特徴量を抽出して、前記入力画像から予め定められた被写体の第１の部位が含まれる第１の検出領域を検出するとともに、前記第１の検出領域の検出の第１の信頼度を算出する第１の被写体検出手段と、
前記入力画像から第２の特徴の特徴量を抽出して、前記入力画像から前記第１の部位とは異なる前記被写体の第２の部位が含まれる第２の検出領域を検出するとともに、前記第２の検出領域の検出の第２の信頼度を算出する第２の被写体検出手段と、
前記第１の信頼度が第１の閾値以上であり、かつ前記第２の信頼度が第２の閾値以上である場合、前記第１の検出領域と前記第２の検出領域の相対的な位置およびサイズの関係を示す相対関係情報を生成して記録し、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第１の検出領域の検出結果と、前記相対関係情報とを用いて前記第２の検出領域を求める検出領域算出手段と
を備える画像処理装置の画像処理方法であって、
前記第１の被写体検出手段が、前記入力画像から前記第１の検出領域を検出するとともに、前記第１の信頼度を算出し、
前記第２の被写体検出手段が、前記入力画像から前記第２の検出領域を検出するとともに、前記第２の信頼度を算出し、
前記検出領域算出手段が、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値以上である場合、前記相対関係情報を生成して記録し、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第２の検出領域を求める
ステップを含む画像処理方法。
入力画像から第１の特徴の特徴量を抽出して、前記入力画像から予め定められた被写体の第１の部位が含まれる第１の検出領域を検出するとともに、前記第１の検出領域の検出の第１の信頼度を算出し、
前記入力画像から第２の特徴の特徴量を抽出して、前記入力画像から前記第１の部位とは異なる前記被写体の第２の部位が含まれる第２の検出領域を検出するとともに、前記第２の検出領域の検出の第２の信頼度を算出し、
前記第１の信頼度が第１の閾値以上であり、かつ前記第２の信頼度が第２の閾値以上である場合、前記第１の検出領域と前記第２の検出領域の相対的な位置およびサイズの関係を示す相対関係情報を生成して記録し、前記第１の信頼度が前記第１の閾値以上であり、かつ前記第２の信頼度が前記第２の閾値未満である場合、前記第１の検出領域の検出結果と、前記相対関係情報とを用いて前記第２の検出領域を求める
ステップを含む処理をコンピュータに実行させるプログラム。