JP4881272B2

JP4881272B2 - 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム

Info

Publication number: JP4881272B2
Application number: JP2007260365A
Authority: JP
Inventors: 淳松井; クリピングデルサイモン; 隆松本
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-10-03
Filing date: 2007-10-03
Publication date: 2012-02-22
Anticipated expiration: 2027-10-03
Also published as: JP2009093230A

Description

本発明は、顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムに係り、特に効率的で高精度な顔画像検出を実現するための顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムに関する。

従来より、映像等に映っている顔の検出手法としては、音声認識や動作認識、顔表情認識、対象物認識、又はそれらを組み合わせた技術が有効な手段であることが知られており、そのための顔画像検出システムが用いられている。

また、入力画像が動画像である場合には、動画像の連続性を利用した対象物の検出及び追跡を実現する手法において、入力映像に含まれる不連続点を考慮した動画像追跡手法が存在する（例えば、非特許文献１参照。）。

この非特許文献１に示されている手法は、顔領域の予測モデルを、過去の顔検出結果の履歴（顔追跡結果）に基づく確率分布と、過去の履歴に因らない普遍的な確分布とを、ある一定の割合で混合した併用モデルで表現している。ここで、入力映像に不連続点が含まれるとき、前者の確率分布に基づく予測は破綻し顔検出に失敗するが、後者の確率分布は一般に十分に広い範囲を網羅するよう設計されるため、ある一定の割合で後者の確率分布を予測に利用することによって、前者の予測機構の破綻及び顔検出の失敗を回避することが可能となる。
Ｍ．ＩｓａｒｄａｎｄＡ．Ｂｌａｋｅ，"ＩＣＯＮＤＥＮＳＡＴＩＯＮ：Ｕｎｉｆｙｉｎｇｌｏｗ−ｌｅｖｅｌａｎｄｈｉｇｈ−ｌｅｖｅｌｔｒａｃｋｉｎｇｉｎａｓｔｏｃｈａｓｔｉｃｆｒａｍｅｗｏｒｋ，"Ｐｒｏｃ．ｏｆＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，ｖｏｌ．１，ｐｐ．８９３−９０８，１９９８年）

しかしながら、上述した従来手法である複数の予測モデルを併用する方法では、予め定めた確率的な配分に応じて、２つ又はそれ以上の異なる確率的予測モデルを選択して処理が実行される。また、複数の予測モデルのうち、過去の検出結果の履歴を用いないモデルは、充分に広い範囲を網羅する必要があるため、一般にその計算コストは過去の検出結果の履歴を用いるモデルに比べて大きくなってしまう。

したがって、処理全体の計算コストに対する要求水準が高い場合、各々のモデルの選択比を決定する結合重み（パラメータ）は、入力映像に含まれる不連続点の発生頻度等を考慮して最適な値に調整する必要があるが、一般にその発生頻度は事前に予測することが非常に困難であり、当該重みは経験的に尤もらしい値に固定する他にないため、非効率となっている。

また、実際に与えられる動画像は、放送映像の編集点等、連続性が破綻する箇所が不規則に含まれている場合が多いため、それらの不連続点を高精度に検出する機構が必要となる。

本発明は、上述した問題点に鑑みなされたものであり、効率的で高精度な顔画像検出を実現するための顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、入力映像の各時刻における顔領域を検出する顔画像検出装置において、予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録部と、与えられた入力映像信号から静止画像データを取得する画像取得部と、前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測部と、前記顔領域予測部により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索部と、前記顔領域探索部より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録部により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定部と、前記顔領域探索部により得られる顔領域探索結果から前記静止画像データに存在するある１つの顔に対して探索された複数の顔領域を統合して１つの顔領域を生成する顔領域統合部とを有し、前記顔領域予測部は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定部により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、前記顔領域探索部は、前記顔領域統合部より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする。

請求項１記載の発明によれば、効率的で高精度な顔画像検出を実現することができる。また、逐次モンテカルロ法を適用することで、高精度に確率分布の更新処理を実現することができる。また、二つの異なる予測モデル（過去の検出結果の履歴にもとづく計算コストが軽い予測モデルと、当該履歴を破棄し新たに予測を行う計算コストが重いモデル）を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減することができる。また、顔領域を統合することで、より正確な顔領域を取得することができる。更に、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、処理時間を効率的に削減することができる。

請求項２に記載された発明は、入力映像の各時刻における顔領域を検出するための顔画像検出方法において、与えられた入力映像信号から静止画像データを取得する画像取得ステップと、予め設定される顔領域を予測するための顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測ステップと、前記顔領域予測ステップにより予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索ステップと、前記顔領域探索ステップより得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータとに基づいて顔画像の不連続性を判定する不連続性判定ステップと、前記顔領域探索ステップにより得られる顔領域探索結果から前記静止画像データに存在するある１つの顔に対して探索された複数の顔領域を統合して１つの顔領域を生成する顔領域統合ステップとを有し、前記顔領域予測ステップは、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定ステップにより得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、前記顔領域探索ステップは、前記顔領域統合ステップより得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする。

請求項２記載の発明によれば、効率的で高精度な顔画像検出を実現することができる。また、逐次モンテカルロ法を適用することで、高精度に確率分布の更新処理を実現することができる。また、二つの異なる予測モデル（過去の検出結果の履歴にもとづく計算コストが軽い予測モデルと、当該履歴を破棄し新たに予測を行う計算コストが重いモデル）を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減することができる。また、顔領域を統合することで、より正確な顔領域を取得することができる。更に、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、処理時間を効率的に削減することができる。

請求項３に記載された発明は、入力映像の各時刻における顔領域を検出する顔画像検出プログラムにおいて、コンピュータを、予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録手段、与えられた入力映像信号から静止画像データを取得する画像取得手段、前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測手段、前記顔領域予測手段により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索手段、前記顔領域探索手段より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録手段により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定手段、及び、前記顔領域探索手段により得られる顔領域探索結果から前記静止画像データに存在するある１つの顔に対して探索された複数の顔領域を統合して１つの顔領域を生成する顔領域統合手段として機能させ、前記顔領域予測手段は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定手段により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、前記顔領域探索手段は、前記顔領域統合手段より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする。

請求項３記載の発明によれば、効率的で高精度な顔画像検出を実現することができる。また、逐次モンテカルロ法を適用することで、高精度に確率分布の更新処理を実現することができる。また、二つの異なる予測モデル（過去の検出結果の履歴にもとづく計算コストが軽い予測モデルと、当該履歴を破棄し新たに予測を行う計算コストが重いモデル）を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減することができる。また、顔領域を統合することで、より正確な顔領域を取得することができる。また、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、処理時間を効率的に削減することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に顔画像検出を実現することができる。

本発明によれば、効率的で高精度な顔画像検出を実現することができる。

＜本発明の概要＞
本発明は、入力映像の各時刻における顔領域を検出する場合において、過去の検出結果の履歴と、動画像の連続性を仮定した予測モデルを用いて未来の時刻における顔領域を予測し、検証すべき対象である顔領域の候補を確率的な可能性の高い部分領域に絞り込むことによって、処理全体の計算コストを効果的に削減し、処理時間の削減を実現する。

つまり、本発明は、動画像の連続性を利用した探索空間の絞り込みと処理の高速化を実現する技術として、特に具体的な推定対象である顔領域を規定する各パラメータを確率変数と見なし、それらの確率分布を逐次的に予測し、当該確率分布を積分（周辺化）して得られる統計的指標（逐次周辺尤度）に基づいて入力映像の時間的連続性を検査する。

更に、入力映像に存在する不連続点（時間的連続性が破綻する時刻）を検知した上で、当該確率分布を検知した不連続点において自動的に再初期化することによって、当該不連続点における顔領域の予測失敗を回避し、その結果、所望の顔検出精度を保持しつつ計算量を効率的に削減して効率化を実現する。

また、本発明は、例えば放送番組の編集点等、入力映像に時間的不連続点が含まれる場合において、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の破棄（再初期化）との２つの異なる処理過程を、ベイズ推定を理論的背景とする統計的評価基準に基づいて最適なタイミングで自動的に切り替える手法である。以下にその概要を説明する。

＜パラメータの確率分布の逐次学習＞
本発明では、顔候補領域の中心位置（ｘ，ｙ）及び大きさｒの時刻ｔにおける値で構成されるベクトルｕ_ｔ＝（ｘ_ｔ，ｙ_ｔ，ｒ_ｔ）を確率変数と捉え、時刻ｔまでに与えられた画像の系列：Ｄ_１：ｔ＝（Ｄ_１，Ｄ_２，・・・，Ｄ_ｔ）に対応するｕ_ｔの系列ｕ_０：ｔ＝（ｕ_０，ｕ_１，・・・，ｕ_ｔ）の事後確率分布Ｐ（ｕ_０：ｔ｜Ｄ_１：ｔ）を推定する。

また、推定した事後確率分布をもとに、各々の時刻における顔領域の推定値ｕ^＾ _ｔ ^［ｊ］を以下に示す式（１）で算出する。

また、ベイズ公式より、事後確率分布の逐次更新則は、以下に示す式（２）で与えられる。

ここで、事後確率分布Ｐ（ｕ_０：ｔ｜Ｄ_１：ｔ）は、一般に複雑な分布となるため、上述した式（１）の積分を解析的に求めることは非常に困難である。そこで、本発明では、逐次モンテカルロ法を用いて事後確率分布を近似する（なお、逐次モンテカルロ法の詳しい内容については、例えば、伊庭幸人他，統計科学のフロンティア１２，「計算統計ＩＩ−マルコフ連鎖モンテカルロ法とその周辺−」，岩波書店，ｐｐ．２９３−３２４を参照）。

まず、直接的に標本を抽出可能な提案分布π（ｕ_０：ｔ）を用意し、同一かつ独立なＮ個の標本サンプルを抽出する（式（３））。

また、上述した式（３）に示すように抽出したサンプルを用いて、上述した式（２）の事後確率分布を以下に示す式（４）で近似する。

ここで、上述した式（４）において、δ（ｘ）は、クロネッカーのデルタ関数を表す。また、ｗ^〜 _０：ｔ ^（ｉ）は、提案分布π（ｕ_０：ｔ）と事後確率分布Ｐ（ｕ_０：ｔ｜Ｄ_１：ｔ）との間の誤差を補正するサンプル重みであり、以下に示す式（５）、式（６）で定義される。

ここで、与えられた画像に複数の顔が存在するとき、上述した式（４）で求まる顔領域の分布は、各々の顔に対応する複数のピークを持つ多峰性分布を形成する。したがって、ｊ番目の顔領域の推定値（すなわち、ｊ番目の顔検出結果）であるｕ^＾ _ｔ ^［ｊ］は、上述した式（４）を構成するｗ^〜 _０：ｔ ^（ｉ）で重み付けされた標本ｕ^（ｉ） _０：ｔをクラスタリングし、その結果得られたｊ番目のグループＧｊに対しての期待値として以下に示す式（７）のように与えられる。

なお、上述した式（７）の分母に登場する正規化項Ｐ（Ｄ_ｔ｜Ｄ_{１：ｔ−１}）_Ｇｊは、ｊ番目の顔領域に対しての過去の画像系列Ｄ_{１：ｔ−１}に対する現時刻の画像Ｄ_ｔの整合性を定量的に示す統計量（周辺尤度）であり、先に抽出したｕ_０：ｔの標本を用いて以下に示す式（８）で求められる。

ここで、ｊ番目の顔領域に対してＤ_１：ｔを生成する過程がある時刻において不連続な挙動を示すとき、すなわち、与えられた画像系列に映像編集等による不連続点が含まれるとき、上述した式（７）で与えられる周辺尤度の値はそれに対応して瞬間的に減少する。

そこで、本発明では、例えば、入力画像系列の不連続点に対する周辺尤度の時間的変化を利用して、各々のグループＧｊについて計算した周辺尤度の全てがある閾値ｅを下回った場合に、過去の画像系列に基づいて予測した分布を破棄し、一様分布で再初期化を行う。

具体的には、以下に示すｕ_０：ｔの提案分布である式（９）の各標本についての逐次更新項π（ｕ_ｓ｜ｕ^（ｉ） _{０：ｓ−１}）を、各々の時刻における周辺尤度の値にしたがって動的に切り替える（式（１０））。

ここで、上述した式（１０）において、｜Ω｜は、ｕ_ｔの定義域Ω上の標本点の総数（連続的な顔領域候補のパラメータを離散化した際の組み合わせの総数）である。

上述したように、重みを最適化するかわりに、二つの異なる予測モデル（過去の検出結果の履歴に基づく計算コストが軽い予測モデル、履歴を破棄し新たに予測を行う計算コストが重いモデル）を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減し顔検出処理の効率化を図ることができる。

＜実施の形態＞
次に、上述した特徴を有する本発明における顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムを好適に実施した形態について、図面を用いて説明する。

図１は、顔画像検出装置の一構成例を示す図である。図１に示す顔画像検出装置１は、記録媒体部１０と、画像取得部２０と、顔領域予測部３０と、顔領域探索部４０と、顔領域統合部５０と、不連続性判定部６０とを有するよう構成されている。

記録媒体部１０は、予め設定される顔領域を予測するための顔領域予測パラメータΣや、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータΘ、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータε等の各種情報を記録する。

また、記録媒体部１０は、記録されている各種情報のうち、顔領域予測パラメータを顔領域予測部３０に出力し、顔検出パラメータを顔領域探索部４０に出力して、不連続性判定パラメータを不連続性判定部６０に出力する。

なお、顔領域予測パラメータΣの具体的形態としては、例えば３×３の実対称行列を用いることができる。図２は、顔領域予測パラメータΣの具体例を示す図である。例えば、図２に示すように、０．０１の対角行列等を設定することができる。なお、数値については特に限定されるものではない。また、不連続性判定パラメータεの具体的形態としては、例えば非負のスカラー値を設定することができ、例えばε＝０．２〜２．０で設定することができ、特にε＝０．４が好ましい。

また、顔検出パラメータΘの具体的形態としては、例えば顔領域探索部の具体的アルゴリズムと実装方法に依存して設定することができる（例えば、ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ，“ＯｐｅｎＳｏｕｒｃｅＣｏｍｐｕｔｅｒＶｉｓｉｏｎＬｉｂｒａｒｙ，”ｈｔｔｐ：／／ｗｗｗ．ｉｎｔｅｌ．ｃｏｍ／ｔｅｃｈｎｏｌｏｇｙ／ｃｏｍｐｕｔｉｎｇ／ｏｐｅｎｃｖ／，２００６年を参照）。つまり、顔検出パラメータΘは、顔と非顔を判別できる手法であれば何でもよく、その手法及びアルゴリズムに付随するパラメータ値の集合が設定される。

画像取得部２０は、与えられた入力映像信号から計算機可読な状態の静止画像データ（入力画像データ）を取得する。また、画像取得部２０は、取得した静止画像データを顔領域探索部４０に出力する。

なお、画像取得部２０は、静止画像データを取得する際、例えば顔領域探索部４０からの画像取得フラグを受信し、そのフラグを受信したタイミング（時刻）において、入力映像信号にデジタイズ処理を行い、メモリ空間に展開されたデータ配列等の計算機可読な状態で取得し、取得した入力画像データを顔領域探索部４０に出力する。

顔領域予測部３０は、記録媒体部１０から予め設定された顔領域予測パラメータを用いて顔領域探索部４０から得られる顔領域探索結果から顔領域を予測する。また、顔領域予測部３０は、予測した顔領域予測結果を顔領域探索部４０に出力する。

ここで、顔領域予測部３０における顔領域予測動作について図を用いて説明する。図３は、顔領域予測部における予測例を説明するための図である。

図３に示すように、それぞれの大きさ顔領域を予測する場合、例えばある時間ｔにおける入力画像Ｄｔから予め設定された顔領域（矩形）の大きさｒ毎の顔領域候補を生成し（Ｐ（ｕ_ｔ｜ｕ_ｔ−１，Ｄ_{１：ｔ−１}）、１画像中におけるそれぞれの顔領域候補において、顔の特徴点等を基準に顔領域であるか否か（ＹＥＳ，ＮＯ）を顔検出パラメータΘに基づいて判定し（Ｐ（Ｄ_ｔ｜ｕ_ｔ）＝１／（１＋ｅｘｐ（−βＨ（ｕ_ｔ）＋γ））：尤度関数の定義式の一実施例）、その判定結果として顔と検出された部分（領域）を出力する。

これにより、顔候補領域の中心位置（ｘ，ｙ）及び大きさｒの時刻ｔにおける値で構成されるベクトルｕ_ｔの事後確率分布Ｐ（ｕ_ｔ｜Ｄ_１：ｔ）を（Ｐ（Ｄ_ｔ｜ｕ_ｔ）Ｐ（ｕ_ｔ｜ｕ_ｔ-1，Ｄ_{１：ｔ−１}））／Ｐ（Ｄ_ｔ｜Ｄ_{１：ｔ−１}）とし、前入力画像の検出結果ｕ_ｔ−１を用いて、次の入力画像Ｄｔ（このとき、ｔ＝ｔ＋１）の顔領域候補の選定を行う。これにより、効率的に候補の場所を特定することができる。また、顔領域予測部３０は、不連続性判定部６０からの不連続点判定検知結果に基づいて、顔が前画像と不連続であると判定されている場合には、不連続点における予測確率分布の再初期化を行ってから顔領域候補の選定を行う。なお、顔領域予測部３０における具体的な動作説明は後述する。

顔領域探索部４０は、顔領域予測部３０から与えられる、顔領域の位置及び大きさに関する予測分布から抽出したサンプル（顔領域予測結果）について、入力画像データと顔検出パラメータを用いて算出した尤度Ｐ（Ｄ_ｔ｜ｕ_ｔ）に基づいて各々のサンプルの重みを補正する。また、顔領域探索部４０は、補正して得られた結果（顔領域探索結果）を顔領域予測部３０及び顔領域統合部５０に出力する。

また、顔領域探索部４０は、顔領域統合部５０から受け取った顔領域統合結果に基づいて、個々の顔領域についての周辺尤度（連続性に関する統計的評価指標）を計算し、その結果（連続性評価値）を不連続性判定部６０に出力する。

ここで、顔領域探索部４０における動作説明について図を用いて説明する。図４は、顔領域探索部における動作例を示す図である。なお、図４においては、顔領域予測部３０の構成についても示している。

顔領域探索部４０では、今まで蓄積された顔認識における特徴点と学習データを用いて分類（線形結合）を行う。なお、蓄積されるサンプルには、顔画像として正確に認識されているサンプル（Ｐｏｓｉｔｉｖｅｓａｍｐｌｅｓ）と、顔画像に属さないで検出されたサンプル（Ｎｅｇａｔｉｖｅｓａｍｐｌｅｓ）とが存在する。

これらの画像は特徴点が抽出されており、それらの学習データを用いたアンサンブルラーニング（Ｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ）により以下の式（１０）に示すように分類を行う。

また、顔領域探索部は、分類された各クラスの画像と、サーチアルゴリズム（Ｓｅａｒｃｈａｌｇｏｒｉｔｈｍ）により選定された顔領域候補とに基づいて顔検出を行い、ある１つの顔に対して複数の領域が抽出された場合にリージョンマージング（Ｒｅｇｉｏｎｍｅｒｇｉｎｇ）を行って最終的に画像結果を出力する。

また、顔領域探索部４０は、連続性評価値と、予め記録媒体部１０から読み出した不連続性判定パラメータの大小関係を判定し、その判定結果（不連続点検知結果）を顔領域予測部３０に出力する。

これにより、次の時刻の顔候補領域に付随したパラメータの確率分布を逐次モンテカルロ法を用いて予測し、予測確率が低い候補領域を探索空間から削除することによって、顔検出処理を高速化することができる。また、推定した予測確率分布から導かれる周辺尤度を用いて、入力映像の不連続性の判定、及び、検知した不連続点における予測確率分布の再初期化を自動的に行うことができる。なお、顔領域探索部４０における具体的な動作説明は後述する。

顔領域統合部５０は、与えられた顔領域探索結果を個々の顔に対応するクラスに分類し、その結果（顔領域統合結果）を顔領域探索部４０に返すと同時に、個々のクラス毎に算出した顔領域パラメータの期待値、すなわち、顔検出結果を出力する。

なお、顔領域統合部５０は、顔領域探索部４０により得られる顔領域探索結果から入力画像に存在するある１つの顔に対して複数の顔領域が探索された場合には、統合して１つの顔領域を生成する。これにより、より正確な顔領域を取得することができる。なお、顔領域統合部５０における具体的な動作説明は後述する。

不連続性判定部６０は、顔領域探索部４０が算出した連続性評価値と、予め記録媒体部１０から読み出した不連続性判定パラメータの大小関係を判定し、その判定結果（不連続点検知結果）を顔領域予測部３０に出力する。なお、不連続性判定部６０における具体的な動作説明は後述する。

次に、上述した顔領域予測部３０、顔領域探索部４０、顔領域統合部５０、不連続性判定部６０における各構成の具体的な動作（処理手順）について説明する。

＜顔領域予測部３０における顔領域予測処理手順＞
まず、顔領域予測部３０における顔領域予測処理手順についてフローチャートを用いて説明する。図５は、顔領域予測処理手順の一例を示すフローチャートである。

顔領域予測部３０は、顔画像検出装置１のシステム起動時に記録媒体部１０から顔領域予測パラメータΣを読み込む（Ｓ０１）。次に、顔画像検出装置１の起動直後、又は不連続点検出部５０から得られる不連続点検出結果を取得し（Ｓ０２）、不連続点検知結果が１であるか否かを判断する（Ｓ０３）。

ここで、不連続点検知結果が１である場合（Ｓ０３において、ＹＥＳ）、顔領域の予測確率分布を上述した式（１０）右辺下段に示すように一様分布で初期化（再初期化）する（Ｓ０４）。

また、Ｓ０３の処理において、不連続点検知結果が１でない場合（Ｓ０３において、ＮＯ）、つまり、不連続点検知結果が０である場合で、かつ、連続性評価値が不連続性判定パラメータより大きい場合には、現時刻において取得した入力画像データに対する顔領域の予測確率分布を上述した式（１０）の右辺上段に示すように、直前の時刻における各々の顔領域探索結果ｕ_ｔ−１ ^（ｉ）を中心とし（Ｓ０５）、顔領域予測パラメータＳを分散にもつ正規分布とし（Ｓ０６）、その分布から新たに抽出したサンプルｕ_ｔ ^（ｉ）の集合を顔領域予測結果とする（Ｓ０７）。

次に、Ｓ０４又はＳ０７に得られた顔領域予測結果を顔領域探索部４０に出力する（Ｓ０８）。また、顔領域探索部４０に出力した顔領域探索結果があったか否かを判断し（Ｓ０９）、顔領域探索結果がなかった場合（Ｓ０９において、ＮＯ）、顔領域探索結果が得られるまで待機する。

また、Ｓ０９の処理において、顔領域探索結果が得られた場合（Ｓ０９において、ＹＥＳ）、処理を終了するか否かを判断し（Ｓ１０）、処理を終了しない場合（Ｓ１０において、ＮＯ）、Ｓ０２に戻り後続の処理を行う。また、処理を終了する場合（Ｓ１０において、ＹＥＳ）、顔領域予測処理を終了する。
＜顔領域探索部４０における顔領域探索処理手順＞
次に、顔領域探索部４０における顔領域探索処理手順についてフローチャートを用いて説明する。図６は、顔領域探索処理手順の一例を示すフローチャートである。

まず、顔画像検出装置１の起動時に記録媒体部１０から顔検出パラメータを読み込み（Ｓ１１）、画像取得部２０に画像取得フラグを出力する（Ｓ１２）。次に、画像取得部２０から送られる入力画像データに対し、顔領域予測部が生成した顔領域予測結果の各々のサンプルｕ_ｔ ^（ｉ）に対する重みｗ^〜 _ｔ ^（ｉ）を、上述した式（５）及び式（６）に示すような数式を用いて更新する（Ｓ１３）。

また、Ｓ１３の処理により更新した各々のサンプルと重みの集合を顔領域探索結果として顔領域予測部３０、顔領域統合部５０に出力する（Ｓ１４）。

また、顔領域統合部５０から顔領域統合結果を受け取った後、各々のグループＧｊについて周辺尤度Ｐ（Ｄ_ｔ｜Ｄ_{１：ｔ−１}）_Ｇｊを上述した式（８）に示すような数式を用いて計算し（Ｓ１５）、その結果を不連続点判定部に出力する（Ｓ１６）。

ここで、顔領域予測部３０から次の時刻に対応する顔領域予測結果があったか否かを判断し（Ｓ１７）、顔領域予測結果がなかった場合（Ｓ１７において、ＮＯ）、顔領域予測結果が得られるまで待機する。

また、Ｓ１７の処理において、顔領域予測結果が得られた場合（Ｓ１７において、ＹＥＳ）、処理を終了するか否かを判断し（Ｓ１８）、処理を終了しない場合（Ｓ１８において、ＮＯ）、Ｓ１３に戻り後続の処理を行う。また、処理を終了する場合（Ｓ１８において、ＹＥＳ）、顔領域探索処理を終了する。

なお、顔画像探索部４０の具体例としては、与えられた画像の中の任意の部分領域の画像についての顔らしさを定量的に評価できるものであればよい。したがって、例えば、Ｖｉｏｌａ＆Ｊｏｎｅｓらが提案している多数の矩形差分特徴で構成された多様な判別器を多段接続する方法等を用いることができる（例えば、Ｐ．Ｖｉｏｌａ、Ｐ．，ａｎｄＭ．Ｊｏｎｅｓ，“ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｕｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ，”Ｐｒｏｃ．ＣＶＰＲ２００１，Ｖｏｌ．１，ｐｐ．５１１−５１８等を参照）。

＜顔領域探索結果統合部５０における顔領域探索結果統合処理手順＞
次に、顔領域探索結果統合部５０における顔領域探索結果統合処理手順についてフローチャートを用いて説明する。図７は、顔領域探索結果統合処理手順の一例を示すフローチャートである。

まず、顔画像探索部４０から顔領域探索結果｛ｕ_０：ｔ ^（ｉ）｝を受け取り（Ｓ２１）、個々のベクトルｕ_０：ｔ ^（ｉ）有限個のグループに分類（クラスタリング）する（Ｓ２２）。

次に、分類した結果、すなわち、個々のベクトルｕ_０：ｔ ^（ｉ）が属するグループＧｊの情報（顔領域統合結果）を顔領域探索部４０に出力する（Ｓ２３）。また、分類した結果に基づいて個々のグループＧｊに関するｕ_ｔ ^（ｉ）の期待値を例えば式（７）に示すような数式を用いて計算し（Ｓ２４）、その結果（顔検出結果）を出力する(Ｓ２５)。

なお、上述したベクトルｕ_０：ｔ ^（ｉ）の分類（クラスタリング）を行うアルゴリズムは、例えば各々の標本が対応する顔を正しく判別できる手法であればよく、例えば、ベクトルｕが張る３次元空間でのユークリッド距離について、ｋ−ｍｅａｎｓ法で分類する方法等が利用可能である。

＜不連続性判定部６０における不連続性判定処理手順＞
次に、不連続性判定部６０における不連続性判定処理手順についてフローチャートを用いて説明する。図８は、不連続性判定処理手順の一例を示すフローチャートである。

まず、記録媒体部１０から不連続性判定パラメータεを読み込む（Ｓ３１）。次に、顔領域探索部４０から送られる連続性評価値Ｐ（Ｄ_ｔ｜Ｄ_{１：ｔ−１}）と不連続性判定パラメータεの大小関係により、例えば上述した式（１０）の右辺の何れかの状態にあるか否かを示す不連続点検知結果（０の場合：式（１０）の右辺上段、１の場合：式（１０）右辺下段）を判定する（Ｓ３２）。

具体的には、例えば「連続性評価値Ｐ（Ｄ_ｔ｜Ｄ_{１：ｔ−１}）＞不連続性判定パラメータε」の関係にある場合、不連続点検出結果を０とし、それ以外の場合を１とする。

また、判定結果の不連続点検知結果を顔領域予測部３０に出力する（Ｓ３３）。上述した処理により効率的で高精度な顔画像検出を実現することができる。具体的には、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、従来の手法に比べてシステム全体の処理時間を効率的に削減することができる。

また、顔検出の出力に基づくベイズ推定の理論的枠組みを活用することにより、対象物の検出や追跡、入力映像の不連続点の自動検知、及び、予測確率分布の再初期化までの一連の処理を新たな特徴量計算や推論機構を必要とすることなく統一的に実現することができる。

＜実行プログラム＞
ここで、上述した顔画像検出装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェイスを備えたコンピュータによって構成することができる。

したがって、顔画像検出装置１が有する記録媒体部１０、画像取得部２０、顔領域予測部３０、顔領域探索部４０、顔領域統合部５０、及び、不連続性判定部６０における各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、顔画像検出処理を実現することができる。次に、本発明における実行プログラムによる処理手順についてフローチャートを用いて説明する。

＜顔画像検出処理手順＞
図９は、本実施形態における顔画像検出処理手順の一例を示すフローチャートである。なお、後述する処理手順においては、記録媒体部に予め設定される顔領域を予測するための顔領域予測パラメータΣや、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータΘ、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータε等の各種情報が記録されている。

まず、入力映像信号から入力画像データ（静止画像データ）を取得する（Ｓ４１）。次に、入力画像データの中から顔領域を予測する（Ｓ４２）。なお、具体的には、顔領域の位置及び大きさに関する予測分布からサンプル（顔領域予測結果）を抽出する。

次に、抽出されたサンプルについて、入力画像データと顔検出パラメータを用いて算出した尤度Ｐ（Ｄ_ｔ｜ｕ_ｔ）に基づいて各々のサンプルの重みを補正し、入力データの顔領域を探索する（Ｓ４３）。また、顔領域探索結果を個々の顔に対するクラスに分類し（Ｓ４４）、分類により統合された顔検出結果を出力する（Ｓ４５）。

次に、次の入力画像データがあるか否かを判断し（Ｓ４６）、次の入力画像データがある場合（Ｓ４６において、ＹＥＳ）、顔領域統合結果に基づいて個々の顔領域についての周辺尤度（連続性評価値）を計算し（Ｓ４７）、連続性評価値及び不連続性判定パラメータを用いて不連続点を検知する（Ｓ４８）。

また、Ｓ４８の処理が終了後、Ｓ４２の処理に戻り、不連続性検知結果に基づいて、Ｓ４２以降の処理を継続して行う。これにより、Ｓ４２の処理等で不連続性検知結果を踏まえて処理を行うことで、効率的に高精度な処理を実現することができる。

＜比較例＞
ここで、本発明手法と、従来手法との比較例について説明する。図１０は、本発明手法と、従来手法との比較例の一例を示す図である。なお、以下に示す説明においては、本発明手法（以下、Ｐｒｏｐｏｓｅｄと呼ぶ）の有効性を検証するため、ＯｐｅｎＣＶ（以下、Ｂａｓｅｌｉｎｅと呼ぶ）との比較実験を例にする。

ここで、評価データは、ＴＲＥＣＶＩＤ２００７ｄｅｖｅｌｏｐｍｅｎｔｄａｔａ（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｄｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇｙ，ＴｈｅＴＲＥＣＶＩＤ２００７ｅｖａｌｕａｔｉｏｎ，ｈｔｔｐ：／／ｗｗｗ−ｎｌｐｉｒ．ｎｉｓｔ．ｇｏｖ／ｐｒｏｊｅｃｔｓ／ｔｖ２００７／ｔｖ２００７．ｈｔｍｌ）から抽出した５０ショットを編集し、４９ヵ所の不連続点を含む計５００フレームの動画像を用意した。評価データに出現した正面顔の領域を手動で抽出した結果を正解データとし、位置と大きさについて１０％の誤差を許容する条件で各々の顔検出結果を評価した。

また、ＳＭＣ（ＳｅｑｕｅｎｔｉａｌＭｏｎｔｅＣａｒｌｏ：逐次モンテカルロ）における粒子の総数は、５００個とする。なお、尤度関数のパラメータの値は、ＮＨＫニュース映像から抽出した顔のサンプル画像２５，０００枚、非顔のサンプル画像５０，０００枚に基づく最尤推定値（β＝３．１４，γ＝３．２１）に設定した。

ここで、評価データに対して、各々の手法を様々な閾値で実行した結果が図１０に示されている。なお、図１０（ａ）の縦軸は適合率（Ｆ−ｍｅａｓｕｒｅ）を示し、横軸は検知速度（フレーム／秒）を示している。また、図１０（ｂ）には、それぞれの結果のうち、Ｆ値が最大となった設定における再現率，適合率，Ｆ値，処理時間を示す。

図１０（ａ）、（ｂ）に示すように、本発明手法は従来手法と略同じ検出制度を約２．５倍の処理速度で実現できていることがわかる。なお、図１０（ｂ）に示すように発明手法の検出処理の履歴を詳細に調べたところ、４９個存在する不連続点（編集点）の全ての箇所で正しく再初期化が行われたことがわかった。

つまり、動画像を対象とした顔検出の問題において、観測データの時間的連続性を反映した逐次周辺尤度を導出し、シーン境界の自動検知と確立分布の自動再初期化を実現することができる。また、放送映像から抽出した評価データを用いた比較実験の結果、各フレームを独立かつ一様に操作した場合と比べて同等の顔検出精度を保ったまま処理速度を約２．５倍に改善することができる。

上述したように本発明によれば、高速に高精度な顔画像認識を実現することができる。具体的には、動画像における顔画像検出処理において、次の時刻の顔候補領域に付随したパラメータの確率分布を逐次モンテカルロ法を用いて予測し、予測確率が低い候補領域を探索空間から削除することによって、顔検出処理を高速化することができる。また、推定した予測確率分布から導かれる周辺尤度を用いて、入力映像の不連続性の判定、及び、検知した不連続点における予測確率分布の再初期化を自動的に行うことができる。

以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

顔画像検出装置の一構成例を示す図である。顔領域予測パラメータΣの具体例を示す図である。顔領域予測部における予測例を説明するための図である。顔領域探索部における動作例を示す図である。顔領域予測処理手順の一例を示すフローチャートである。顔領域探索処理手順の一例を示すフローチャートである。顔領域探索結果統合処理手順の一例を示すフローチャートである。不連続性判定処理手順の一例を示すフローチャートである。本実施形態における顔画像検出処理手順の一例を示すフローチャートである。本発明手法と、従来手法との比較例の一例を示す図である。

符号の説明

１顔画像検出装置
１０記録媒体部
２０画像取得部
３０顔領域予測部
４０顔領域探索部
５０顔領域統合部
６０不連続性判定部

Claims

入力映像の各時刻における顔領域を検出する顔画像検出装置において、
予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録部と、
与えられた入力映像信号から静止画像データを取得する画像取得部と、
前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測部と、
前記顔領域予測部により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索部と、
前記顔領域探索部より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録部により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定部と、
前記顔領域探索部により得られる顔領域探索結果から前記静止画像データに存在するある１つの顔に対して探索された複数の顔領域を統合して１つの顔領域を生成する顔領域統合部とを有し、
前記顔領域予測部は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定部により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、
前記顔領域探索部は、前記顔領域統合部より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする顔画像検出装置。
入力映像の各時刻における顔領域を検出するための顔画像検出方法において、
与えられた入力映像信号から静止画像データを取得する画像取得ステップと、
予め設定される顔領域を予測するための顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測ステップと、
前記顔領域予測ステップにより予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索ステップと、
前記顔領域探索ステップより得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータとに基づいて顔画像の不連続性を判定する不連続性判定ステップと、
前記顔領域探索ステップにより得られる顔領域探索結果から前記静止画像データに存在するある１つの顔に対して探索された複数の顔領域を統合して１つの顔領域を生成する顔領域統合ステップとを有し、
前記顔領域予測ステップは、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定ステップにより得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、
前記顔領域探索ステップは、前記顔領域統合ステップより得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする顔画像検出方法。
入力映像の各時刻における顔領域を検出する顔画像検出プログラムにおいて、
コンピュータを、
予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録手段、
与えられた入力映像信号から静止画像データを取得する画像取得手段、
前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測手段、
前記顔領域予測手段により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索手段、
前記顔領域探索手段より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録手段により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定手段、及び、
前記顔領域探索手段により得られる顔領域探索結果から前記静止画像データに存在するある１つの顔に対して探索された複数の顔領域を統合して１つの顔領域を生成する顔領域統合手段として機能させ、
前記顔領域予測手段は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定手段により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、
前記顔領域探索手段は、前記顔領域統合手段より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする顔画像検出プログラム。