JP2014120139A

JP2014120139A - 画像処理装置およびその制御方法、撮像装置、および表示装置

Info

Publication number: JP2014120139A
Application number: JP2012277446A
Authority: JP
Inventors: Ryosuke Tsuji; 良介辻
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-12-19
Filing date: 2012-12-19
Publication date: 2014-06-30
Anticipated expiration: 2032-12-19
Also published as: JP6087615B2

Abstract

【課題】例えば顔検出と人体検出のように、画像の異なる特徴量に基づく複数の被写体検出方法を併用する場合に、検出方法の切り替わりが検出結果に与える変化を抑制する。
【解決手段】画像の異なる特徴量に基づく複数の検出方法によって所定の被写体の領域を検出する。複数の検出方法で検出されている被写体については、優先する検出方法による検出結果に基づいて所定の被写体の領域に関する情報を出力する。優先しない検出方法でのみ検出されている被写体については、優先する検出方法による検出結果を、その被写体についての過去の検出結果の差異に関する情報を用いて変換して所定の被写体の領域に関する情報を出力する。
【選択図】図１

Description

本発明は、画像処理装置およびその制御方法、撮像装置、および表示装置に関する。

画像から特定の被写体パターンを有する領域を自動的に検出する画像処理技術は非常に有用である。例えばデジタルカメラやデジタルビデオカメラといった撮像装置では、人物の顔領域のような特定の被写体パターンを有する領域を撮影画像から検出し、検出された領域に焦点や露出を最適化させることが実現されている。

例えば、特許文献１には、画像中の顔の位置を検出し、顔に焦点を合わせ、顔に最適な露出で撮影する撮影装置が記載されている。また、特許文献２には、画像から人物の上半身を検出し、人物を計数する画像処理装置が記載されている。

特開２００５−３１８５５４号公報特開２００９−２１１３１１号公報

しかしながら、特許文献１に記載の方法では、人物が後ろ向きの場合や顔に装飾品を付けている場合など、顔の特徴が画像から十分に得られない場合は、顔検出ができない。また、特許文献２に記載の方法では、人物が後ろ向きであっても顔に装飾品を付けていても検出できる一方で、一般的でない姿勢を取っている人物や、上半身領域の一部が隠蔽されている人物は検出できない。このように、検出方法に応じて検出が得意な（検出率および精度が高い）場合や、苦手な（検出率および／または精度が低い）場合は異なる。

そこで、検出を苦手とする状況を軽減させ検出率や検出精度を向上させるために、異なる検出方法を併用することが考えられる。例えば、顔検出できなかった被写体に対して、人体検出結果から顔領域を検出することにより、検出率を向上させることができるであろう。

しかし、ある検出方法による検出結果から、別の検出方法による検出結果へ切り替える場合、両者が一致しているとは限らないため、切り替えをユーザに意識させてしまうことがある。例えば、検出されている顔を示す表示（代表的には枠状の表示であるため、顔枠とも呼ばれる）をＥＶＦ画像などに重畳表示する場合、検出方法の切り替わり時に顔枠の位置や大きさが変わるとユーザに違和感を与えてしまう。

本発明はこのような課題に鑑みてなされたものであり、画像の異なる特徴量に基づく複数の被写体検出方法を併用する場合に、検出方法の切り替わりが検出結果に与える変化を抑制することを目的とする。

上述の目的は、特徴量に基づいて画像から所定の被写体の領域を検出する第１の検出手段と、第１の検出手段とは異なる特徴量に基づいて画像から所定の被写体の領域を検出する第２の検出手段と、第１の検出手段および第２の検出手段の検出結果のうち、同一被写体についての検出結果の差異に関する情報を保持する保持手段と、第１の検出手段および第２の検出手段の検出結果に基づいて、画像から検出された所定の被写体の領域に関する情報を出力する出力手段と、を有し、出力手段は、第１の検出手段および第２の検出手段の両方で検出されている被写体については、第１の検出手段による検出結果に基づいて所定の被写体の領域に関する情報を出力し、第１の検出手段で検出されず第２の検出手段で検出されている被写体については、被写体について保持手段に保持されている情報を用いて第２の検出手段による検出結果を変換して所定の被写体の領域に関する情報を出力する、ことを特徴とする画像処理装置によって達成される。

本発明によれば、例えば顔検出と人体検出のように、画像の異なる特徴量に基づく複数の被写体検出方法を併用する場合に、検出方法の切り替わりが検出結果に与える変化を抑制することができる。

本発明の実施形態に係る画像処理装置を適用した撮像装置の機能構成例を示すブロック図本発明の実施形態における検出結果統合部の機能構成例を示すブロック図本発明の実施形態における検出結果統合部の動作を説明するためのフローチャート本発明の実施形態におけるフレーム内相関判定部の処理を説明するための模式図本発明の実施形態における検出結果統合部の効果を説明するための模式図

以下、図面を参照して本発明の例示的な実施形態について詳細に説明する。なお、以下の実施形態は、本発明に係る画像処理装置を撮像装置の一例としてのデジタルスチルカメラにおける被写体追跡機能に適用した場合について説明するが、本発明はこの特定の実施形態に限定されない。本発明に係る画像処理装置は、通信会議、マン・マシン・インタフェース、セキュリティ、人間の顔を追跡する監視システム、画像圧縮など、多くの分野で使用することができる。

また、撮像装置はデジタルスチルカメラを含め、任意の撮像装置ならびに撮像装置を内蔵する装置に適用可能である。非限定的な具体例には、携帯電話機、パーソナルコンピュータ、ゲーム機、メディアプレーヤ、ナビゲーションシステム、自動車、家電製品等が含まれる。

図１は本実施形態に係るデジタルスチルカメラ１００の機能構成例を示すブロック図である。本実施形態では検出する被写体領域を人物の顔領域とする。そして、画像の異なる特徴量から被写体領域を検出する複数の検出方法は、人物の顔のパターンから顔領域を検出する方法（顔検出）と、人体の輪郭パターンから人体領域を検出し、人体領域から顔領域を検出する方法（人体検出）とする。顔検出部１０９（第１の検出手段）が顔検出を、人体検出部１１０（第２の検出手段）が人体検出を実施する。

撮像レンズ１０１によって被写体像を表す光線が集光され、ＣＣＤイメージセンサやＣＭＯＳイメージセンサなどである撮像素子１０２に入射する。撮像素子１０２は、入射した光線の強度に応じた電気信号を画素単位で出力する。この電気信号は、撮像素子１０２で撮像された被写体像を示すアナログの映像信号である。

撮像素子１０２から出力された映像信号はアナログ信号処理部１０３に供給され、相関二重サンプリング（ＣＤＳ）等のアナログ信号処理を適用される。アナログ信号処理部１０３から出力された映像信号は、Ａ／Ｄ変換部１０４においてデジタルデータの形式に変換され、制御部１０５及び画像処理部１０６に入力される。

制御部１０５は、ＣＰＵやマイクロコントローラなどであり、デジタルスチルカメラ１００の動作を中央制御する。具体的には、制御部１０５は、ＲＯＭに記憶されたプログラムコードをＲＡＭの作業領域に展開して順次実行することで、デジタルスチルカメラ１００の各部を制御する。

画像処理部１０６は、入力されたデジタル形式の映像信号に対して、ガンマ補正、ホワイトバランス処理などの画像処理を適用する。なお、画像処理部１０６は、通常の画像処理に加え、後述する検出結果統合部１１１から供給される、画像中の特定の被写体領域に関する情報を用いた画像処理を行う機能も有する。

画像処理部１０６から出力された映像信号は、表示部１０７に送られる。表示部１０７は、例えばＬＣＤや有機ＥＬディスプレイであり、映像信号を表示する。デジタルスチルカメラ１００は、撮像素子１０２で時系列的に逐次撮像した画像（ライブビュー画像）を表示部１０７に逐次表示させることで、表示部１０７を電子ビューファインダ（ＥＶＦ）として機能させることができる。また、後述する検出結果統合部１１１により抽出された被写体領域の位置などをライブビュー画像上などに表示することができる。

また、画像処理部１０６から出力された映像信号は、例えば着脱可能なメモリーカードである記録媒体１０８に記録される。なお、映像信号の記録先は、デジタルスチルカメラ１００の内蔵メモリや、通信インターフェイスにより通信可能に接続された外部装置であってもよい。なお、図１では便宜上、表示部１０７と記録媒体１０８に同じ画像が出力されるように記載しているが、実際には両者は異なっていてもよく、一般には記録媒体１０８に記録される画像の方が表示部１０７に表示される画像よりも解像度が高い（画素数が多い）。

画像処理部１０６から出力された映像信号は、顔検出部１０９にも供給される。顔検出部１０９は、画像から所定の被写体領域として人物の顔領域を検出する。画像中に複数の人物の顔が存在する場合は、人数分の顔領域を検出する。顔検出部１０９における検出方法としては、公知の顔検出方法を用いる。顔検出の公知技術は、顔に関する知識（肌色情報、目・鼻・口などのパーツ）を利用する方法とニューラルネットに代表される学習アルゴリズムにより顔検出のための識別器を構成する方法などがある。また、顔検出では、認識率向上のためにこれらを組み合わせて顔認識を行うのが一般的である。具体的には特開２００２−２５１３８０号広報に記載のウェーブレット変換と画像特徴量を利用して顔検出する方法などが挙げられる。顔検出部１０９による検出結果（顔領域の位置、大きさ、信頼度など）は後述する検出結果統合部１１１に供給される。

画像処理部１０６から出力された映像信号は、人体検出部１１０にも供給される。人体検出部１１０は、画像から所定の被写体領域として人体の上半身領域（人体領域）を検出する。画像中に複数の人物が存在する場合は、その人数分の人体領域を検出する。人体検出部１１０における検出方法として、特開２００９−２１１３１１号公報により記述されている方法を例として挙げる。本例では、局所的な上半身の輪郭のエッジ強度を局所特徴量として検出される。画像から特徴量を抽出する方法としては、Ｓｏｂｅｌフィルタ、Ｐｒｅｗｉｔｔフィルタ、Ｈａａｒフィルタなどを様々な方法がある。抽出された局所特徴量を人物判別器で上半身、非上半身を判別する。人物判別器における判別は、ＡｄａＢｏｏｓｔ学習などのような機械学習に基づき実施される。人体検出部１１０による検出結果（人体領域の位置、大きさ、信頼度など）は後述する検出結果統合部１１１に供給される。

検出結果統合部１１１では、顔検出部１０９と人体検出部１１０との検出結果のうち、同一被写体に対する検出結果を統合して、制御部１０５や画像処理部１０６へ出力する。また、検出結果統合部１１１では、異なる時刻における被写体領域の検出結果のうち、同一の被写体に対する検出結果の対応付けを行う。つまり、検出結果統合部１１１は、時間方向で同一被写体に対する検出結果の判定を行う被写体追跡機能を実現する。検出結果統合部１１１の構成および動作の詳細に関しては、後述する。

制御部１０５は、撮像素子１０２で撮像する際の焦点状況や露出状況などの撮像条件を制御する。具体的には、制御部１０５は、Ａ／Ｄ変換部１０４から出力された映像信号に基づいて、撮像レンズ１０１の焦点制御機構や露出制御機構（いずれも図示しない）を制御する。例えば、焦点制御機構は撮像レンズ１０１を光軸方向へ駆動させるアクチュエータなどであり、露出制御機構は絞りやシャッタを駆動させるアクチュエータなどである。

制御部１０５は、この焦点制御機構や露出制御機構の制御に、検出結果統合部１１１から供給された被写体領域の抽出結果の情報を用いることができる。具体的には、被写体領域のコントラスト値を用いた焦点制御や、被写体領域の輝度値を用いた露出制御を行う。したがって、デジタルスチルカメラ１００では、撮像画像における特定の被写体領域を考慮した撮像処理を行うことができる。また、制御部１０５は、撮像素子１０２の出力タイミングや出力画素など、撮像素子１０２の読み出し制御も行う。

次に、検出結果統合部１１１の詳細について説明する。図２は、本実施形態における検出結果統合部１１１の機能構成例を示すブロック図である。
顔検出結果取得部２０１では、顔検出部１０９から検出結果を取得する。検出結果として、検出された顔領域の数と、各顔領域の画像中の位置、大きさ、および検出結果の信頼度などが取得される。

人体検出結果取得部２０２では、人体検出部１１０から検出結果を取得する。検出結果として、検出された人体領域の数と、各人体領域の画像中の位置、大きさ、および検出結果の信頼度などが取得される。

領域推定部２０３（推定手段）は、人体検出結果取得部２０２が取得した人体検出結果から、顔領域を推定する。人体検出結果から顔領域を推定する方法に特に制限は無いが、例えば人体領域として、上半身や胸部から上の人体形状を検出している場合、人体領域の形状から頭部領域を判別することが可能である。頭部領域と顔領域との大きさや位置の関係については統計的に予め求めておくことができるため、頭部領域が判別できれば、顔領域の位置やサイズを推定することができる。あるいは、顔検出部１０９と人体検出部１１０との検出領域の関係に基づき、線形変換により推定してもよい。

フレーム内相関判定部２０４は、顔検出結果取得部２０１で取得された顔領域の検出結果と、領域推定部２０３により推定された顔領域の位置や大きさの類似性に基づき、同一の被写体に対する検出結果を特定する。なお、顔検出部１０９と人体検出部１１０は、同じ画像に対して検出処理を実行するものとする。フレーム内相関判定部２０４はまた、顔検出結果取得部２０１で取得された顔領域の検出結果と、領域推定部２０３により推定された顔領域の位置や大きさから、変換情報を生成して変換情報保持部２０６に保存する。変換情報は、人体検出結果から推定された顔領域と、顔検出結果である顔領域との差異を示す情報であり、例えば位置（例えば中心位置や頂点の位置）や大きさの差（例えば水平方向、垂直方向における大きさの比や画素数の差）を示す情報であってよい。もちろん、他の任意の情報（例えば幾何変形関数のような情報）であってよい。

フレーム間相関判定部２０５では、現在のフレーム内相関判定部２０４による検出結果と直前の検出結果統合部１１１による検出結果において、同一の被写体に対する検出結果を特定する。ここで用いる、現在のフレーム内相関判定部２０４による検出結果とは、顔検出部１０９により顔領域が、人体検出部１１０により人体領域がそれぞれ検出されている被写体については顔領域である。また、人体領域のみが検出されている被写体については、領域推定部２０３により推定された顔領域に相当する領域である。

変換情報保持部２０６（保持手段）は、顔領域と人体領域の両方が検出されている被写体に対して、人体検出部１１０の検出領域（人体領域）から顔検出部１０９の検出領域（顔領域）に相当する部分領域に変換するための情報を保持する。この変換情報は、フレーム間相関判定部２０５により時間方向の対応付けができた（追尾できた）被写体ごとに有するものとする。

検出領域決定部２０７は、フレーム内相関判定部２０４およびフレーム間相関判定部２０５で得られた情報および、変換情報保持部２０６に保持された情報に基づき、検出結果統合部１１１の出力となる検出領域を決定する。検出領域決定部２０７、フレーム内相関判定部２０４、およびフレーム間相関判定部２０５は出力手段を構成する。検出領域決定部２０７は、顔検出部１０９によって顔領域が検出されている被写体に関しては、人体検出部１１０の検出結果にかかわらず顔検出部１０９が検出した顔領域を検出領域に決定する。

検出領域決定部２０７は、人体検出部１１０によって人体領域が検出されているが、顔検出部１０９では顔領域画検出されていない被写体に関しては、変換情報保持部２０６に保持された変換情報に基づいて人体領域から変換した領域を検出領域に決定する。上述の通り、変換情報保持部２０６は、被写体ごとに変換情報を保持しており、フレーム間相関判定部２０５の結果に基づいて特定された被写体に対応する変換情報を用いて人体領域から顔領域に相当する領域を得る。

以上のように、検出結果統合部１１１では、同一の被写体に対する顔検出部１０９と人体検出部１１０の検出結果の統合、および時間方向の検出結果の対応付け（被写体追跡）に基づいて、検出領域を特定する情報（例えば大きさおよび位置）を出力する。

検出結果統合部１１１の処理の詳細に関し、図３に示したフローチャートを参照してさらに説明する。図３に示す全体の処理は、顔検出および人体検出を行った画像の例えばそれぞれについて実施される。

まず、顔検出結果取得部２０１および人体検出結果取得部２０２により、顔検出部１０９および人体検出部１１０から検出結果を取得する（Ｓ３０１）。また、領域推定部２０３により、人体領域から顔領域に相当する領域を推定する。

次いで、フレーム内相関判定部２０４により、顔検出結果と人体検出結果のうち、同一被写体に関する検出結果を統合するための相関判定処理を行う（Ｓ３０２）。
ここで、図４を参照して、同一被写体に関する顔検出結果と人体検出結果を特定する処理に関して説明する。画像４０１〜４０５は便宜上異なる参照数字を付しているが、同一画像である。また、撮影画像には３人の人物が含まれており、左から順に被写体Ａ、被写体Ｂ、被写体Ｃとする。４０６から４１８は、各処理過程での検出領域を示す。

画像４０１は、顔検出部１０９の検出結果を模式的に示している。ここでは、被写体Ａ，Ｂは顔検出され、被写体Ｃは後ろ向きのため顔検出されなかったものとする。顔検出された被写体Ａ，Ｂには、例えば検出された顔領域に対応する顔枠４０６，４０７を示している。

画像４０２は、人体検出部１１０の検出結果を模式的に示している。ここでは、被写体Ｂ，Ｃは人体領域が検出され、被写体Ａは姿勢の影響により人体領域が検出されなかったものとする。人体検出された被写体Ｂ，Ｃには、例えば検出された人体領域に対応する人体枠４０８，４０９を示している。

画像４０３は、人体検出部１１０の検出結果から、領域推定部２０３が顔領域に相当する部分領域を推定した結果を模式的に示している。点線の顔枠４１０，４１１は、人体枠４０８，４０９内の人体領域からそれぞれ推定された顔領域を示している。

画像４０４は、フレーム間相関判定部２０５における処理を模式的に示している。画像４０４には、顔検出結果である顔領域と、人体検出結果から推定された顔領域が、それぞれ実線と点線の顔枠４０６，４０７，４１０，４１１で示されている。
フレーム間相関判定部２０５は、顔検出結果の顔領域と人体検出結果から推定された顔領域とについて、大きさおよび形状の少なくとも一方と、位置についての類似度を算出する。そして、フレーム間相関判定部２０５は、類似度が所定の閾値以上の場合である検出結果の組を、同一被写体に対する検出結果であると判定し、類似度が所定の閾値未満の検出結果の組は異なる被写体に対する検出結果であると判定する。従って、画像４０４の例では、顔枠４０７と４１０は同一被写体に対する検出結果と判定され、その他の組み合わせは、異なる被写体に対する検出結果として判定される。

画像４０５は、フレーム間相関判定部２０５の判定結果に従い、顔検出結果と人体検出結果を統合した顔検出結果を模式的に示している。被写体Ａは、顔検出部１０９による顔検出結果を有するため、顔検出結果を採用する。被写体Ｂは、顔検出部１０９による顔検出結果と、人体検出部１１０による人体検出結果の両方を有するが、やはり顔検出部１０９による顔検出結果を採用する。被写体Ｃは人体検出部１１０による人体検出結果のみを有するため、人体検出結果から推定した顔領域を顔検出結果として採用する。したがって、顔枠４０６，４０７は顔検出結果取得部２０１で取得された顔領域に、顔枠４１１’は領域推定部２０３により推定された顔領域に、それぞれ対応している。

図３に戻り、Ｓ３０２におけるフレーム内相関判定により、顔検出結果と人体検出結果に基づく顔領域とを統合した後、フレーム間相関判定を行う（Ｓ３０３）。フレーム間相関判定では、直前の検出結果統合部１１１の処理結果と、現在のフレーム間相関判定結果のうち、同一被写体に関する処理結果を特定する。

Ｓ３０２におけるフレーム内相関判定では、同じ時刻に撮影された画像（同一画像）に対して異なる検出方法を適用した結果の相関判定であったのに対し、Ｓ３０３におけるフレーム間相関判定は、異なる時刻に撮影された画像に対する検出結果の相関判定である。フレーム間相関判定は、フレーム内相関判定と同様に行うことができる。フレーム間相関判定により、同一被写体に対する検出結果を時間方向で特定できる。異なる時間に撮影された画像間において同一被写体の検出結果であることが特定できていることは、その被写体を追跡できていることと同義である。

Ｓ３０４以降の処理は被写体ごとに実施する。フレーム内相関判定部２０４は、Ｓ３０２のフレーム内相関判定の結果に基づき、現在検出されている被写体のうち、処理対象の被写体が、顔検出部１０９による顔検出結果を有しているか判定する（Ｓ３０４）。

対象の被写体が顔検出部１０９による顔検出結果を有していると判定された場合（Ｓ３０４，ＹＥＳ）、フレーム内相関判定部２０４は顔検出結果を優先して検出領域決定部２０７に出力する。これは、顔検出部１０９により検出された顔領域の方が、人体検出結果から推定された顔領域より精度が高い（信頼性が高い）からである。検出領域決定部２０７は、この被写体に関しては顔検出部１０９による顔検出結果を検出結果統合部１１１の出力と決定する（Ｓ３０５）。

次いでフレーム内相関判定部２０４は、対象の被写体が人体検出結果を有するかを判定する（Ｓ３０６）。人体検出結果を有する場合は（Ｓ３０６，ＹＥＳ）、変換情報保持部２０６に、人体検出結果から顔検出結果に相当する顔領域への変換情報を変換情報保持部２０６に保持する（Ｓ３０７）。人体検出結果を有しない場合（Ｓ３０６，ＮＯ）および、変換情報を保持した場合は、Ｓ３１０で、検出されている全ての被写体について処理を行ったか判定し、未処理の被写体があればＳ３０４に戻って上述の処理を繰り返す。全ての被写体についてＳ３０４からの処理が終わっていれば、処理を終了する。

一方で、検出された被写体が顔検出結果を有さない（人体検出結果のみを有する）と判定された場合（Ｓ３０４，ＮＯ）、Ｓ３０８に処理を進める。Ｓ３０８で検出領域決定部２０７は、変換情報保持部２０６に保持された変換情報に基づき、人体検出結果から推定された顔領域を、顔検出結果による顔領域に相当する領域に変換する。そして、変換した顔領域の情報を、検出結果統合部１１１の出力とする。フレーム間相関判定部２０５により、同一被写体を時間方向に追跡できているため、現在の画像で検出されている被写体と同一被写体について過去に保持した変換情報が参照可能である。

変換情報が保持されていない被写体（例えば、顔検出結果が得られたことがない被写体）については、Ｓ３０８において変換情報を参照することができない。検出領域決定部２０７は、変換情報が存在しない被写体については、被写体ごとに動的に更新される変換情報ではなく、予め決められた変換情報に基づいて変換を行ってもよい。

なお、変換情報に対して信頼度を付与し、人体検出結果のみが得られている被写体に関して過去に保持した変換情報を参照する際、変換情報の信頼度が閾値より高い場合のみ参照するようにしても良い。信頼度が閾値以下であれば、予め定めた変換情報を用いるようにすることができる。変換情報に対する信頼度の例としては、変換情報を更新した時間から、参照する時間までの期間があげられる。期間が長くなるほど、信頼度は低く算出されるものとする。あるいは、変換情報を生成した際の、顔検出結果および人体検出結果の信頼度があげられる。いずれか一方でも信頼度が低いと、変換情報の信頼度は低く算出されるものとする。また、信頼度に基づいて変換情報を参照する度合を可変にしてもよい。信頼度が高いほど保持した変換情報に基づく変換に近く、信頼度が低いほど予め設定された固定の変換情報に基づく変換に近くなるように、補間して変換情報を用いて変換を実施する。

図５を参照して、変換情報保持部２０６に保持した変換情報の利用効果に関して説明する。
図５（ａ）は、ある被写体についての経時的な顔検出および人体検出結果を示す。５１０が顔検出部１０９による顔検出結果である顔領域、５１１が人体検出結果、５１２は人体検出結果より推定した顔領域を示す。

時刻ｎに撮影された画像５０１では、顔検出結果および人体検出結果の双方が得られており、顔検出結果である顔領域５１０と、人体検出結果から推定された顔領域５１２とは位置及び大きさにがほぼ同じである。

時刻ｎ＋１に撮影された画像５０２でもまた顔検出結果および人体検出結果の双方が得られているが、被写体がやや下を向いたことにより、顔検出結果である顔領域５１０と、人体検出結果に基づき推定された顔領域５１２との相違が大きくなった状態である。

時刻ｎ＋２に撮影された画像５０３は被写体がさらに下を向いたことで、顔検出ができなくなり、人体検出結果のみが得られるようになった状態である。従って、人体検出結果５１１と、人体検出結果から推定された顔領域５１２のみが示されている。

顔検出結果と人体検出結果がこのように経時変化した場合において、検出結果統合部１１１（検出領域決定部２０７）が変換情報を利用しないとすると、統合結果として図５（ｂ）に示す結果が得られる。
画像５０１では、顔検出結果が得られているため、顔検出部１０９により検出された顔領域５１０が検出結果統合部１１１の出力として採用される。画像５０２でも、顔検出結果が得られているため、同様に顔検出結果が検出結果統合部１１１の出力として採用される。画像５０３では、人体検出結果のみしか得られていないため、人体検出結果から推定した顔領域５１２が検出結果統合部１１１の出力として採用される。

この場合、時刻ｎ＋１において、顔検出結果である顔領域５１０と、人体検出結果に基づき推定された顔領域５１２との相違が大きくなった状態から、時刻ｎ＋２で人体検出結果から推定された顔領域５１２に切り替わっているため、変化が大きい。例えば検出結果統合部１１１の出力する領域を示すマーク（たとえば、顔領域５１０や５１２に対応する枠表示）をＥＶＦ画像に重畳表示する場合、時刻ｎ＋１と時刻ｎ＋２とではマークの大きさと位置が変化し、ユーザに違和感を与えてしまう。また、検出結果統合部１１１の出力する領域に対して露出条件を最適化したり合焦させたりする場合には、露出条件や合焦位置が大きく変化してしまう場合もある。

一方、保持した変換情報を利用した場合に得られる検出統合結果を図５（ｃ）に示す。画像５０１と５０２では顔検出部１０９の検出結果である顔領域５１０が検出結果統合部１１１の出力として採用されるため、変換情報を利用しない図５（ｂ）の場合と変わりはない。ただし、個々の時刻において、顔領域５１０と５１２との情報から、顔領域５１２を顔領域５１０に変換するための変換情報が変換情報保持部２０６に保持される。時刻ｎ＋２の画像５０３において、人体検出結果から推定された顔領域５１２が採用された際に、検出領域決定部２０７は、変換情報保持部２０６に保持された時刻ｎ＋１における変換情報を参照して顔領域５１２の位置や大きさを変換する。例えば変換情報が顔領域５１２と５１０との位置と大きさの差であれば、時刻ｎ＋２で得られた顔領域５１２の位置と大きさに対し、時刻ｎ＋１で得られている差を適用することで、変換後の顔領域５１２’が得られる。

このように、変換情報を用いることで、検出方法の切り替わり時の被写体領域の変化を抑制することができる。そのため、上述したマーク表示の目立つ変化や、露出条件や合焦制御に与える影響を抑制することができる。

以上説明したように本実施形態によれば、顔検出と人体検出のように異なる特徴量に基づく検出手段を用いた方法であっても、時間方向に対して採用する検出結果が切り替わった場合に、検出領域が不要に変化する問題が軽減される。つまり、時間方向で安定した検出領域が取得可能となる。

（他の実施形態）
上述した実施形態では本発明に係る画像処理装置を撮像装置の被写体追跡機能に適用した場合を例示したが、上述の通り他の機能ならびに装置にも適用可能である。例えば、外部機器や記録媒体などから供給される画像（再生データ）を表示する表示装置に適用してもよい。表示装置では、再生データを被写体領域の検出を行うデータとし、上述の被写体検出ならびに被写体追跡処理を行えばよい。そして表示装置におけるマイクロコントローラなどの制御部は、被写体検出や追跡処理により得られた被写体の情報（画像中の被写体の位置、大きさなど）に基づいて、画像を表示する際の表示条件を制御することができる。具体的には、画像中の被写体の位置に、被写体を示す情報（枠など）の重畳表示や、被写体部分の輝度や色情報に応じた表示画像の輝度や色合いなどの制御を行うことができる。

なお、上述の実施形態では、複数の検出方法として、検出率が低いが検出精度が高い第１の方法（顔検出）と、検出率が高いが検出精度が低い第２の方法（人体検出）とを用いた場合を説明した。従って、検出精度が高い第１の方法で検出結果が得られている（検出に成功している）場合には、第２の方法で検出結果が得られていても、前者を優先して用いていた。従って、第２の方法でのみ検出結果のみ得られていた被写体について第１の方法で検出結果が得られるようになった場合、検出さえた被写体領域の大きさや位置に目立つ差があっても、第１の方法の検出結果が用いられる。

一方、第１の方法と第２の方法とで検出精度に有意な差がない場合には、第１の方法での検出結果から第２の方法での検出結果に切り替える場合および、その逆の場合のいずれについても、上述した変換情報を用いるようにしてもよい。

上述の実施形態では、第２の方法は例えば、第１の検出方法で検出すべき領域（ここでは顔領域）を包含する領域、特には第１の検出方法で検出すべき領域の位置を特定もしくは推定可能な領域を検出する方法であった。しかし、第１の方法と第２の方法がいずれも顔領域を直接検出する方法であってもよい。

また、上述の実施形態において、検出された人体領域から人物の顔位置を推定することができるように、顔検出部１０９が顔検出を行う範囲を包含する範囲で人体検出部１１０が人体検出を行うようにしてもよい。

また、上述した実施形態における記述は、一例を示すものであり、これに限定するものではない。上述した実施形態における構成及び動作に関しては、適宜変更が可能である。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

特徴量に基づいて画像から所定の被写体の領域を検出する第１の検出手段と、
前記第１の検出手段とは異なる特徴量に基づいて前記画像から所定の被写体の領域を検出する第２の検出手段と、
前記第１の検出手段および前記第２の検出手段の検出結果のうち、同一被写体についての検出結果の差異に関する情報を保持する保持手段と、
前記第１の検出手段および前記第２の検出手段の検出結果に基づいて、前記画像から検出された前記所定の被写体の領域に関する情報を出力する出力手段と、を有し、
前記出力手段は、
前記第１の検出手段および前記第２の検出手段の両方で検出されている被写体については、前記第１の検出手段による検出結果に基づいて前記所定の被写体の領域に関する情報を出力し、
前記第１の検出手段で検出されず前記第２の検出手段で検出されている被写体については、該被写体について前記保持手段に保持されている前記情報を用いて前記第２の検出手段による検出結果を変換して前記所定の被写体の領域に関する情報を出力する、
ことを特徴とする画像処理装置。
前記第２の検出手段が、前記第１の検出手段が検出する所定の被写体の領域を包含する領域を検出するとともに、
前記第２の検出手段の検出結果から、前記第１の検出手段が検出する所定の被写体の領域に相当する領域を推定する推定手段をさらに有し、
前記保持手段および前記出力手段が、前記推定手段が推定した領域を前記第２の検出手段の検出結果として用いることを特徴とする請求項１記載の画像処理装置。
前記第１の検出手段が検出する所定の被写体の領域が人物の顔領域であり、前記第２の検出手段が検出する所定の被写体の領域が人体領域であることを特徴とする請求項２記載の画像処理装置。
前記保持手段が保持する情報が、前記第２の検出手段の検出結果から、前記第１の検出手段の検出結果へ変換するための情報であることを特徴とする請求項１から請求項３のいずれか１項に記載の画像処理装置。
前記出力手段は、前記第１の検出手段で検出されず前記第２の検出手段で検出されている被写体について前記情報が前記保持手段に保持されていない場合、予め定められた情報を用いて前記第２の検出手段による検出結果を変換して前記所定の被写体の領域に関する情報を出力することを特徴とする請求項１から請求項４のいずれか１項に記載の画像処理装置。
前記保持手段で保持している前記情報は信頼度が付与されており、
前記出力手段は、前記第１の検出手段で検出されず前記第２の検出手段で検出されている被写体について前記保持手段に保持されている前記情報に付与された信頼度が所定の閾値よりも高い場合に該保持されている情報を用い、前記所定の閾値以下の場合には予め定められた情報を用いて前記変換を行うことを特徴とする請求項１から請求項５のいずれか１項に記載の画像処理装置。
前記出力手段は、前記信頼度が高いほど前記保持された情報による変換に近く、前記信頼度が低いほど前記予め定められた情報に基づく変換に近くなるように、補間した情報を用いて前記変換を行うことを特徴とする請求項６に記載の画像処理装置。
前記画像を撮影する撮像手段と、
請求項１から請求項７のいずれか１項に記載の画像処理装置と、
前記撮像手段の撮像条件を、前記画像処理装置の前記出力手段が出力する前記所定の被写体の領域に関する情報に応じて制御する制御手段と、
を有することを特徴とする撮像装置。
前記画像を取得する取得手段と、
請求項１から請求項７のいずれか１項に記載の画像処理装置と、
前記画像を表示する際の表示条件を、前記画像処理装置の前記出力手段が出力する前記所定の被写体の領域に関する情報に応じて制御する制御手段と、
を有することを特徴とする表示装置。
第１の検出手段が、特徴量に基づいて画像から所定の被写体の領域を検出する第１の検出工程と、
第２の検出手段が、前記第１の検出工程とは異なる特徴量に基づいて前記画像から所定の被写体の領域を検出する第２の検出工程と、
出力手段が、前記第１の検出工程および前記第２の検出工程における検出結果に基づいて、前記画像から検出された前記所定の被写体の領域に関する情報を出力する出力工程を有し、
前記出力工程において前記出力手段は、
前記第１の検出手段および前記第２の検出手段の両方で検出されている被写体については、前記第１の検出手段による検出結果に基づいて前記所定の被写体の領域に関する情報を出力し、
前記第１の検出手段で検出されず前記第２の検出手段で検出されている被写体については、該被写体についての前記第１の検出工程および前記第２の検出工程における過去の検出結果の差異に関する情報を用いて前記第２の検出工程による検出結果を変換し、前記所定の被写体の領域に関する情報を出力する、
ことを特徴とする画像処理装置の制御方法。
コンピュータを請求項１から請求項７のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。