JP4881272B2 - 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム - Google Patents

顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム Download PDF

Info

Publication number
JP4881272B2
JP4881272B2 JP2007260365A JP2007260365A JP4881272B2 JP 4881272 B2 JP4881272 B2 JP 4881272B2 JP 2007260365 A JP2007260365 A JP 2007260365A JP 2007260365 A JP2007260365 A JP 2007260365A JP 4881272 B2 JP4881272 B2 JP 4881272B2
Authority
JP
Japan
Prior art keywords
face area
face
prediction
discontinuity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007260365A
Other languages
English (en)
Other versions
JP2009093230A (ja
Inventor
淳 松井
クリピングデル サイモン
隆 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2007260365A priority Critical patent/JP4881272B2/ja
Publication of JP2009093230A publication Critical patent/JP2009093230A/ja
Application granted granted Critical
Publication of JP4881272B2 publication Critical patent/JP4881272B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムに係り、特に効率的で高精度な顔画像検出を実現するための顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムに関する。
従来より、映像等に映っている顔の検出手法としては、音声認識や動作認識、顔表情認識、対象物認識、又はそれらを組み合わせた技術が有効な手段であることが知られており、そのための顔画像検出システムが用いられている。
また、入力画像が動画像である場合には、動画像の連続性を利用した対象物の検出及び追跡を実現する手法において、入力映像に含まれる不連続点を考慮した動画像追跡手法が存在する(例えば、非特許文献1参照。)。
この非特許文献1に示されている手法は、顔領域の予測モデルを、過去の顔検出結果の履歴(顔追跡結果)に基づく確率分布と、過去の履歴に因らない普遍的な確分布とを、ある一定の割合で混合した併用モデルで表現している。ここで、入力映像に不連続点が含まれるとき、前者の確率分布に基づく予測は破綻し顔検出に失敗するが、後者の確率分布は一般に十分に広い範囲を網羅するよう設計されるため、ある一定の割合で後者の確率分布を予測に利用することによって、前者の予測機構の破綻及び顔検出の失敗を回避することが可能となる。
M.Isard and A.Blake,"ICONDENSATION:Unifying low−level and high−level tracking in a stochastic framework,"Proc. of European Conference on Computer Vision,vol.1,pp.893−908,1998年)
しかしながら、上述した従来手法である複数の予測モデルを併用する方法では、予め定めた確率的な配分に応じて、2つ又はそれ以上の異なる確率的予測モデルを選択して処理が実行される。また、複数の予測モデルのうち、過去の検出結果の履歴を用いないモデルは、充分に広い範囲を網羅する必要があるため、一般にその計算コストは過去の検出結果の履歴を用いるモデルに比べて大きくなってしまう。
したがって、処理全体の計算コストに対する要求水準が高い場合、各々のモデルの選択比を決定する結合重み(パラメータ)は、入力映像に含まれる不連続点の発生頻度等を考慮して最適な値に調整する必要があるが、一般にその発生頻度は事前に予測することが非常に困難であり、当該重みは経験的に尤もらしい値に固定する他にないため、非効率となっている。
また、実際に与えられる動画像は、放送映像の編集点等、連続性が破綻する箇所が不規則に含まれている場合が多いため、それらの不連続点を高精度に検出する機構が必要となる。
本発明は、上述した問題点に鑑みなされたものであり、効率的で高精度な顔画像検出を実現するための顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、入力映像の各時刻における顔領域を検出する顔画像検出装置において、予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録部と、与えられた入力映像信号から静止画像データを取得する画像取得部と、前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測部と、前記顔領域予測部により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索部と、前記顔領域探索部より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録部により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定部と、前記顔領域探索部により得られる顔領域探索結果から前記静止画像データに存在するある1つの顔に対して探索された複数の顔領域を統合して1つの顔領域を生成する顔領域統合部とを有し、前記顔領域予測部は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定部により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、前記顔領域探索部は、前記顔領域統合部より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする。
請求項1記載の発明によれば、効率的で高精度な顔画像検出を実現することができる。また、逐次モンテカルロ法を適用することで、高精度に確率分布の更新処理を実現することができる。また、二つの異なる予測モデル(過去の検出結果の履歴にもとづく計算コストが軽い予測モデルと、当該履歴を破棄し新たに予測を行う計算コストが重いモデル)を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減することができる。また、顔領域を統合することで、より正確な顔領域を取得することができる。更に、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、処理時間を効率的に削減することができる。
請求項に記載された発明は、入力映像の各時刻における顔領域を検出するための顔画像検出方法において、与えられた入力映像信号から静止画像データを取得する画像取得ステップと、予め設定される顔領域を予測するための顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測ステップと、前記顔領域予測ステップにより予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索ステップと、前記顔領域探索ステップより得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータとに基づいて顔画像の不連続性を判定する不連続性判定ステップと、前記顔領域探索ステップにより得られる顔領域探索結果から前記静止画像データに存在するある1つの顔に対して探索された複数の顔領域を統合して1つの顔領域を生成する顔領域統合ステップとを有し、前記顔領域予測ステップは、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定ステップにより得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、前記顔領域探索ステップは、前記顔領域統合ステップより得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする。
請求項記載の発明によれば、効率的で高精度な顔画像検出を実現することができる。また、逐次モンテカルロ法を適用することで、高精度に確率分布の更新処理を実現することができる。また、二つの異なる予測モデル(過去の検出結果の履歴にもとづく計算コストが軽い予測モデルと、当該履歴を破棄し新たに予測を行う計算コストが重いモデル)を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減することができる。また、顔領域を統合することで、より正確な顔領域を取得することができる。更に、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、処理時間を効率的に削減することができる。
請求項に記載された発明は、入力映像の各時刻における顔領域を検出する顔画像検出プログラムにおいて、コンピュータを、予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録手段、与えられた入力映像信号から静止画像データを取得する画像取得手段、前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測手段、前記顔領域予測手段により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索手段前記顔領域探索手段より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録手段により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定手段、及び、前記顔領域探索手段により得られる顔領域探索結果から前記静止画像データに存在するある1つの顔に対して探索された複数の顔領域を統合して1つの顔領域を生成する顔領域統合手段として機能させ、前記顔領域予測手段は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定手段により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、前記顔領域探索手段は、前記顔領域統合手段より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする
請求項記載の発明によれば、効率的で高精度な顔画像検出を実現することができる。また、逐次モンテカルロ法を適用することで、高精度に確率分布の更新処理を実現することができる。また、二つの異なる予測モデル(過去の検出結果の履歴にもとづく計算コストが軽い予測モデルと、当該履歴を破棄し新たに予測を行う計算コストが重いモデル)を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減することができる。また、顔領域を統合することで、より正確な顔領域を取得することができる。また、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、処理時間を効率的に削減することができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に顔画像検出を実現することができる。
本発明によれば、効率的で高精度な顔画像検出を実現することができる。
<本発明の概要>
本発明は、入力映像の各時刻における顔領域を検出する場合において、過去の検出結果の履歴と、動画像の連続性を仮定した予測モデルを用いて未来の時刻における顔領域を予測し、検証すべき対象である顔領域の候補を確率的な可能性の高い部分領域に絞り込むことによって、処理全体の計算コストを効果的に削減し、処理時間の削減を実現する。
つまり、本発明は、動画像の連続性を利用した探索空間の絞り込みと処理の高速化を実現する技術として、特に具体的な推定対象である顔領域を規定する各パラメータを確率変数と見なし、それらの確率分布を逐次的に予測し、当該確率分布を積分(周辺化)して得られる統計的指標(逐次周辺尤度)に基づいて入力映像の時間的連続性を検査する。
更に、入力映像に存在する不連続点(時間的連続性が破綻する時刻)を検知した上で、当該確率分布を検知した不連続点において自動的に再初期化することによって、当該不連続点における顔領域の予測失敗を回避し、その結果、所望の顔検出精度を保持しつつ計算量を効率的に削減して効率化を実現する。
また、本発明は、例えば放送番組の編集点等、入力映像に時間的不連続点が含まれる場合において、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の破棄(再初期化)との2つの異なる処理過程を、ベイズ推定を理論的背景とする統計的評価基準に基づいて最適なタイミングで自動的に切り替える手法である。以下にその概要を説明する。
<パラメータの確率分布の逐次学習>
本発明では、顔候補領域の中心位置(x,y)及び大きさrの時刻tにおける値で構成されるベクトルu=(x,y,r)を確率変数と捉え、時刻tまでに与えられた画像の系列:D1:t=(D,D,・・・,D)に対応するuの系列u0:t=(u,u,・・・,u)の事後確率分布P(u0:t|D1:t)を推定する。
また、推定した事後確率分布をもとに、各々の時刻における顔領域の推定値u [j]を以下に示す式(1)で算出する。
また、ベイズ公式より、事後確率分布の逐次更新則は、以下に示す式(2)で与えられる。
ここで、事後確率分布P(u0:t|D1:t)は、一般に複雑な分布となるため、上述した式(1)の積分を解析的に求めることは非常に困難である。そこで、本発明では、逐次モンテカルロ法を用いて事後確率分布を近似する(なお、逐次モンテカルロ法の詳しい内容については、例えば、伊庭幸人他,統計科学のフロンティア12,「計算統計II−マルコフ連鎖モンテカルロ法とその周辺−」,岩波書店,pp.293−324を参照)。
まず、直接的に標本を抽出可能な提案分布π(u0:t)を用意し、同一かつ独立なN個の標本サンプルを抽出する(式(3))。
また、上述した式(3)に示すように抽出したサンプルを用いて、上述した式(2)の事後確率分布を以下に示す式(4)で近似する。
ここで、上述した式(4)において、δ(x)は、クロネッカーのデルタ関数を表す。また、w 0:t (i)は、提案分布π(u0:t)と事後確率分布P(u0:t|D1:t)との間の誤差を補正するサンプル重みであり、以下に示す式(5)、式(6)で定義される。
ここで、与えられた画像に複数の顔が存在するとき、上述した式(4)で求まる顔領域の分布は、各々の顔に対応する複数のピークを持つ多峰性分布を形成する。したがって、j番目の顔領域の推定値(すなわち、j番目の顔検出結果)であるu [j]は、上述した式(4)を構成するw 0:t (i)で重み付けされた標本u(i) 0:tをクラスタリングし、その結果得られたj番目のグループGjに対しての期待値として以下に示す式(7)のように与えられる。
なお、上述した式(7)の分母に登場する正規化項P(D|D1:t−1Gjは、j番目の顔領域に対しての過去の画像系列D1:t−1に対する現時刻の画像Dの整合性を定量的に示す統計量(周辺尤度)であり、先に抽出したu0:tの標本を用いて以下に示す式(8)で求められる。
ここで、j番目の顔領域に対してD1:tを生成する過程がある時刻において不連続な挙動を示すとき、すなわち、与えられた画像系列に映像編集等による不連続点が含まれるとき、上述した式(7)で与えられる周辺尤度の値はそれに対応して瞬間的に減少する。
そこで、本発明では、例えば、入力画像系列の不連続点に対する周辺尤度の時間的変化を利用して、各々のグループGjについて計算した周辺尤度の全てがある閾値eを下回った場合に、過去の画像系列に基づいて予測した分布を破棄し、一様分布で再初期化を行う。
具体的には、以下に示すu0:tの提案分布である式(9)の各標本についての逐次更新項π(u|u(i) 0:s−1)を、各々の時刻における周辺尤度の値にしたがって動的に切り替える(式(10))。
ここで、上述した式(10)において、|Ω|は、uの定義域Ω上の標本点の総数(連続的な顔領域候補のパラメータを離散化した際の組み合わせの総数)である。
上述したように、重みを最適化するかわりに、二つの異なる予測モデル(過去の検出結果の履歴に基づく計算コストが軽い予測モデル、履歴を破棄し新たに予測を行う計算コストが重いモデル)を、統計的評価基準に基づき最適なタイミングで切り替えることによって、後者のモデルを用いる頻度を必要最小限に抑え、その結果、システム全体の計算コストを効果的に削減し顔検出処理の効率化を図ることができる。
<実施の形態>
次に、上述した特徴を有する本発明における顔画像検出装置、顔画像検出方法、及び顔画像検出プログラムを好適に実施した形態について、図面を用いて説明する。
図1は、顔画像検出装置の一構成例を示す図である。図1に示す顔画像検出装置1は、記録媒体部10と、画像取得部20と、顔領域予測部30と、顔領域探索部40と、顔領域統合部50と、不連続性判定部60とを有するよう構成されている。
記録媒体部10は、予め設定される顔領域を予測するための顔領域予測パラメータΣや、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータΘ、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータε等の各種情報を記録する。
また、記録媒体部10は、記録されている各種情報のうち、顔領域予測パラメータを顔領域予測部30に出力し、顔検出パラメータを顔領域探索部40に出力して、不連続性判定パラメータを不連続性判定部60に出力する。
なお、顔領域予測パラメータΣの具体的形態としては、例えば3×3の実対称行列を用いることができる。図2は、顔領域予測パラメータΣの具体例を示す図である。例えば、図2に示すように、0.01の対角行列等を設定することができる。なお、数値については特に限定されるものではない。また、不連続性判定パラメータεの具体的形態としては、例えば非負のスカラー値を設定することができ、例えばε=0.2〜2.0で設定することができ、特にε=0.4が好ましい。
また、顔検出パラメータΘの具体的形態としては、例えば顔領域探索部の具体的アルゴリズムと実装方法に依存して設定することができる(例えば、Intel Corporation,“Open Source Computer Vision Library,”http://www.intel.com/technology/computing/opencv/,2006年を参照)。つまり、顔検出パラメータΘは、顔と非顔を判別できる手法であれば何でもよく、その手法及びアルゴリズムに付随するパラメータ値の集合が設定される。
画像取得部20は、与えられた入力映像信号から計算機可読な状態の静止画像データ(入力画像データ)を取得する。また、画像取得部20は、取得した静止画像データを顔領域探索部40に出力する。
なお、画像取得部20は、静止画像データを取得する際、例えば顔領域探索部40からの画像取得フラグを受信し、そのフラグを受信したタイミング(時刻)において、入力映像信号にデジタイズ処理を行い、メモリ空間に展開されたデータ配列等の計算機可読な状態で取得し、取得した入力画像データを顔領域探索部40に出力する。
顔領域予測部30は、記録媒体部10から予め設定された顔領域予測パラメータを用いて顔領域探索部40から得られる顔領域探索結果から顔領域を予測する。また、顔領域予測部30は、予測した顔領域予測結果を顔領域探索部40に出力する。
ここで、顔領域予測部30における顔領域予測動作について図を用いて説明する。図3は、顔領域予測部における予測例を説明するための図である。
図3に示すように、それぞれの大きさ顔領域を予測する場合、例えばある時間tにおける入力画像Dtから予め設定された顔領域(矩形)の大きさr毎の顔領域候補を生成し(P(u|ut−1,D1:t−1)、1画像中におけるそれぞれの顔領域候補において、顔の特徴点等を基準に顔領域であるか否か(YES,NO)を顔検出パラメータΘに基づいて判定し(P(D|u)=1/(1+exp(−βH(u)+γ)):尤度関数の定義式の一実施例)、その判定結果として顔と検出された部分(領域)を出力する。
これにより、顔候補領域の中心位置(x,y)及び大きさrの時刻tにおける値で構成されるベクトルuの事後確率分布P(u|D1:t)を(P(D|u)P(u|ut-1,D1:t−1))/P(D|D1:t−1)とし、前入力画像の検出結果ut−1を用いて、次の入力画像Dt(このとき、t=t+1)の顔領域候補の選定を行う。これにより、効率的に候補の場所を特定することができる。また、顔領域予測部30は、不連続性判定部60からの不連続点判定検知結果に基づいて、顔が前画像と不連続であると判定されている場合には、不連続点における予測確率分布の再初期化を行ってから顔領域候補の選定を行う。なお、顔領域予測部30における具体的な動作説明は後述する。
顔領域探索部40は、顔領域予測部30から与えられる、顔領域の位置及び大きさに関する予測分布から抽出したサンプル(顔領域予測結果)について、入力画像データと顔検出パラメータを用いて算出した尤度P(D|u)に基づいて各々のサンプルの重みを補正する。また、顔領域探索部40は、補正して得られた結果(顔領域探索結果)を顔領域予測部30及び顔領域統合部50に出力する。
また、顔領域探索部40は、顔領域統合部50から受け取った顔領域統合結果に基づいて、個々の顔領域についての周辺尤度(連続性に関する統計的評価指標)を計算し、その結果(連続性評価値)を不連続性判定部60に出力する。
ここで、顔領域探索部40における動作説明について図を用いて説明する。図4は、顔領域探索部における動作例を示す図である。なお、図4においては、顔領域予測部30の構成についても示している。
顔領域探索部40では、今まで蓄積された顔認識における特徴点と学習データを用いて分類(線形結合)を行う。なお、蓄積されるサンプルには、顔画像として正確に認識されているサンプル(Positive samples)と、顔画像に属さないで検出されたサンプル(Negative samples)とが存在する。
これらの画像は特徴点が抽出されており、それらの学習データを用いたアンサンブルラーニング(Ensemble learning)により以下の式(10)に示すように分類を行う。
また、顔領域探索部は、分類された各クラスの画像と、サーチアルゴリズム(Search algorithm)により選定された顔領域候補とに基づいて顔検出を行い、ある1つの顔に対して複数の領域が抽出された場合にリージョンマージング(Region merging)を行って最終的に画像結果を出力する。
また、顔領域探索部40は、連続性評価値と、予め記録媒体部10から読み出した不連続性判定パラメータの大小関係を判定し、その判定結果(不連続点検知結果)を顔領域予測部30に出力する。
これにより、次の時刻の顔候補領域に付随したパラメータの確率分布を逐次モンテカルロ法を用いて予測し、予測確率が低い候補領域を探索空間から削除することによって、顔検出処理を高速化することができる。また、推定した予測確率分布から導かれる周辺尤度を用いて、入力映像の不連続性の判定、及び、検知した不連続点における予測確率分布の再初期化を自動的に行うことができる。なお、顔領域探索部40における具体的な動作説明は後述する。
顔領域統合部50は、与えられた顔領域探索結果を個々の顔に対応するクラスに分類し、その結果(顔領域統合結果)を顔領域探索部40に返すと同時に、個々のクラス毎に算出した顔領域パラメータの期待値、すなわち、顔検出結果を出力する。
なお、顔領域統合部50は、顔領域探索部40により得られる顔領域探索結果から入力画像に存在するある1つの顔に対して複数の顔領域が探索された場合には、統合して1つの顔領域を生成する。これにより、より正確な顔領域を取得することができる。なお、顔領域統合部50における具体的な動作説明は後述する。
不連続性判定部60は、顔領域探索部40が算出した連続性評価値と、予め記録媒体部10から読み出した不連続性判定パラメータの大小関係を判定し、その判定結果(不連続点検知結果)を顔領域予測部30に出力する。なお、不連続性判定部60における具体的な動作説明は後述する。
次に、上述した顔領域予測部30、顔領域探索部40、顔領域統合部50、不連続性判定部60における各構成の具体的な動作(処理手順)について説明する。
<顔領域予測部30における顔領域予測処理手順>
まず、顔領域予測部30における顔領域予測処理手順についてフローチャートを用いて説明する。図5は、顔領域予測処理手順の一例を示すフローチャートである。
顔領域予測部30は、顔画像検出装置1のシステム起動時に記録媒体部10から顔領域予測パラメータΣを読み込む(S01)。次に、顔画像検出装置1の起動直後、又は不連続点検出部50から得られる不連続点検出結果を取得し(S02)、不連続点検知結果が1であるか否かを判断する(S03)。
ここで、不連続点検知結果が1である場合(S03において、YES)、顔領域の予測確率分布を上述した式(10)右辺下段に示すように一様分布で初期化(再初期化)する(S04)。
また、S03の処理において、不連続点検知結果が1でない場合(S03において、NO)、つまり、不連続点検知結果が0である場合で、かつ、連続性評価値が不連続性判定パラメータより大きい場合には、現時刻において取得した入力画像データに対する顔領域の予測確率分布を上述した式(10)の右辺上段に示すように、直前の時刻における各々の顔領域探索結果ut−1 (i)を中心とし(S05)、顔領域予測パラメータSを分散にもつ正規分布とし(S06)、その分布から新たに抽出したサンプルu (i)の集合を顔領域予測結果とする(S07)。
次に、S04又はS07に得られた顔領域予測結果を顔領域探索部40に出力する(S08)。また、顔領域探索部40に出力した顔領域探索結果があったか否かを判断し(S09)、顔領域探索結果がなかった場合(S09において、NO)、顔領域探索結果が得られるまで待機する。
また、S09の処理において、顔領域探索結果が得られた場合(S09において、YES)、処理を終了するか否かを判断し(S10)、処理を終了しない場合(S10において、NO)、S02に戻り後続の処理を行う。また、処理を終了する場合(S10において、YES)、顔領域予測処理を終了する。
<顔領域探索部40における顔領域探索処理手順>
次に、顔領域探索部40における顔領域探索処理手順についてフローチャートを用いて説明する。図6は、顔領域探索処理手順の一例を示すフローチャートである。
まず、顔画像検出装置1の起動時に記録媒体部10から顔検出パラメータを読み込み(S11)、画像取得部20に画像取得フラグを出力する(S12)。次に、画像取得部20から送られる入力画像データに対し、顔領域予測部が生成した顔領域予測結果の各々のサンプルu (i)に対する重みw (i)を、上述した式(5)及び式(6)に示すような数式を用いて更新する(S13)。
また、S13の処理により更新した各々のサンプルと重みの集合を顔領域探索結果として顔領域予測部30、顔領域統合部50に出力する(S14)。
また、顔領域統合部50から顔領域統合結果を受け取った後、各々のグループGjについて周辺尤度P(D|D1:t−1Gjを上述した式(8)に示すような数式を用いて計算し(S15)、その結果を不連続点判定部に出力する(S16)。
ここで、顔領域予測部30から次の時刻に対応する顔領域予測結果があったか否かを判断し(S17)、顔領域予測結果がなかった場合(S17において、NO)、顔領域予測結果が得られるまで待機する。
また、S17の処理において、顔領域予測結果が得られた場合(S17において、YES)、処理を終了するか否かを判断し(S18)、処理を終了しない場合(S18において、NO)、S13に戻り後続の処理を行う。また、処理を終了する場合(S18において、YES)、顔領域探索処理を終了する。
なお、顔画像探索部40の具体例としては、与えられた画像の中の任意の部分領域の画像についての顔らしさを定量的に評価できるものであればよい。したがって、例えば、Viola&Jonesらが提案している多数の矩形差分特徴で構成された多様な判別器を多段接続する方法等を用いることができる(例えば、P.Viola、P., and M.Jones,“Rapid Object Detection using a Boosted Cascade of Simple Features,”Proc.CVPR2001,Vol.1,pp.511−518等を参照)。
<顔領域探索結果統合部50における顔領域探索結果統合処理手順>
次に、顔領域探索結果統合部50における顔領域探索結果統合処理手順についてフローチャートを用いて説明する。図7は、顔領域探索結果統合処理手順の一例を示すフローチャートである。
まず、顔画像探索部40から顔領域探索結果{u0:t (i)}を受け取り(S21)、個々のベクトルu0:t (i)有限個のグループに分類(クラスタリング)する(S22)。
次に、分類した結果、すなわち、個々のベクトルu0:t (i)が属するグループGjの情報(顔領域統合結果)を顔領域探索部40に出力する(S23)。また、分類した結果に基づいて個々のグループGjに関するu (i)の期待値を例えば式(7)に示すような数式を用いて計算し(S24)、その結果(顔検出結果)を出力する(S25)。
なお、上述したベクトルu0:t (i)の分類(クラスタリング)を行うアルゴリズムは、例えば各々の標本が対応する顔を正しく判別できる手法であればよく、例えば、ベクトルuが張る3次元空間でのユークリッド距離について、k−means法で分類する方法等が利用可能である。
<不連続性判定部60における不連続性判定処理手順>
次に、不連続性判定部60における不連続性判定処理手順についてフローチャートを用いて説明する。図8は、不連続性判定処理手順の一例を示すフローチャートである。
まず、記録媒体部10から不連続性判定パラメータεを読み込む(S31)。次に、顔領域探索部40から送られる連続性評価値P(D|D1:t−1)と不連続性判定パラメータεの大小関係により、例えば上述した式(10)の右辺の何れかの状態にあるか否かを示す不連続点検知結果(0の場合:式(10)の右辺上段、1の場合:式(10)右辺下段)を判定する(S32)。
具体的には、例えば「連続性評価値P(D|D1:t−1)>不連続性判定パラメータε」の関係にある場合、不連続点検出結果を0とし、それ以外の場合を1とする。
また、判定結果の不連続点検知結果を顔領域予測部30に出力する(S33)。上述した処理により効率的で高精度な顔画像検出を実現することができる。具体的には、計算コストが比較的重い再初期化の処理を統計的な評価基準に基づいて必要最小限の頻度に抑えることにより、従来の手法に比べてシステム全体の処理時間を効率的に削減することができる。
また、顔検出の出力に基づくベイズ推定の理論的枠組みを活用することにより、対象物の検出や追跡、入力映像の不連続点の自動検知、及び、予測確率分布の再初期化までの一連の処理を新たな特徴量計算や推論機構を必要とすることなく統一的に実現することができる。
<実行プログラム>
ここで、上述した顔画像検出装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェイスを備えたコンピュータによって構成することができる。
したがって、顔画像検出装置1が有する記録媒体部10、画像取得部20、顔領域予測部30、顔領域探索部40、顔領域統合部50、及び、不連続性判定部60における各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、顔画像検出処理を実現することができる。次に、本発明における実行プログラムによる処理手順についてフローチャートを用いて説明する。
<顔画像検出処理手順>
図9は、本実施形態における顔画像検出処理手順の一例を示すフローチャートである。なお、後述する処理手順においては、記録媒体部に予め設定される顔領域を予測するための顔領域予測パラメータΣや、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータΘ、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータε等の各種情報が記録されている。
まず、入力映像信号から入力画像データ(静止画像データ)を取得する(S41)。次に、入力画像データの中から顔領域を予測する(S42)。なお、具体的には、顔領域の位置及び大きさに関する予測分布からサンプル(顔領域予測結果)を抽出する。
次に、抽出されたサンプルについて、入力画像データと顔検出パラメータを用いて算出した尤度P(D|u)に基づいて各々のサンプルの重みを補正し、入力データの顔領域を探索する(S43)。また、顔領域探索結果を個々の顔に対するクラスに分類し(S44)、分類により統合された顔検出結果を出力する(S45)。
次に、次の入力画像データがあるか否かを判断し(S46)、次の入力画像データがある場合(S46において、YES)、顔領域統合結果に基づいて個々の顔領域についての周辺尤度(連続性評価値)を計算し(S47)、連続性評価値及び不連続性判定パラメータを用いて不連続点を検知する(S48)。
また、S48の処理が終了後、S42の処理に戻り、不連続性検知結果に基づいて、S42以降の処理を継続して行う。これにより、S42の処理等で不連続性検知結果を踏まえて処理を行うことで、効率的に高精度な処理を実現することができる。
<比較例>
ここで、本発明手法と、従来手法との比較例について説明する。図10は、本発明手法と、従来手法との比較例の一例を示す図である。なお、以下に示す説明においては、本発明手法(以下、Proposedと呼ぶ)の有効性を検証するため、OpenCV(以下、Baselineと呼ぶ)との比較実験を例にする。
ここで、評価データは、TRECVID2007 development data(National Institude of Standards and Technology,The TRECVID 2007 evaluation,http://www−nlpir.nist.gov/projects/tv2007/tv2007.html)から抽出した50ショットを編集し、49ヵ所の不連続点を含む計500フレームの動画像を用意した。評価データに出現した正面顔の領域を手動で抽出した結果を正解データとし、位置と大きさについて10%の誤差を許容する条件で各々の顔検出結果を評価した。
また、SMC(Sequential Monte Carlo:逐次モンテカルロ)における粒子の総数は、500個とする。なお、尤度関数のパラメータの値は、NHKニュース映像から抽出した顔のサンプル画像25,000枚、非顔のサンプル画像50,000枚に基づく最尤推定値(β=3.14,γ=3.21)に設定した。
ここで、評価データに対して、各々の手法を様々な閾値で実行した結果が図10に示されている。なお、図10(a)の縦軸は適合率(F−measure)を示し、横軸は検知速度(フレーム/秒)を示している。また、図10(b)には、それぞれの結果のうち、F値が最大となった設定における再現率,適合率,F値,処理時間を示す。
図10(a)、(b)に示すように、本発明手法は従来手法と略同じ検出制度を約2.5倍の処理速度で実現できていることがわかる。なお、図10(b)に示すように発明手法の検出処理の履歴を詳細に調べたところ、49個存在する不連続点(編集点)の全ての箇所で正しく再初期化が行われたことがわかった。
つまり、動画像を対象とした顔検出の問題において、観測データの時間的連続性を反映した逐次周辺尤度を導出し、シーン境界の自動検知と確立分布の自動再初期化を実現することができる。また、放送映像から抽出した評価データを用いた比較実験の結果、各フレームを独立かつ一様に操作した場合と比べて同等の顔検出精度を保ったまま処理速度を約2.5倍に改善することができる。
上述したように本発明によれば、高速に高精度な顔画像認識を実現することができる。具体的には、動画像における顔画像検出処理において、次の時刻の顔候補領域に付随したパラメータの確率分布を逐次モンテカルロ法を用いて予測し、予測確率が低い候補領域を探索空間から削除することによって、顔検出処理を高速化することができる。また、推定した予測確率分布から導かれる周辺尤度を用いて、入力映像の不連続性の判定、及び、検知した不連続点における予測確率分布の再初期化を自動的に行うことができる。
以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
顔画像検出装置の一構成例を示す図である。 顔領域予測パラメータΣの具体例を示す図である。 顔領域予測部における予測例を説明するための図である。 顔領域探索部における動作例を示す図である。 顔領域予測処理手順の一例を示すフローチャートである。 顔領域探索処理手順の一例を示すフローチャートである。 顔領域探索結果統合処理手順の一例を示すフローチャートである。 不連続性判定処理手順の一例を示すフローチャートである。 本実施形態における顔画像検出処理手順の一例を示すフローチャートである。 本発明手法と、従来手法との比較例の一例を示す図である。
符号の説明
1 顔画像検出装置
10 記録媒体部
20 画像取得部
30 顔領域予測部
40 顔領域探索部
50 顔領域統合部
60 不連続性判定部

Claims (3)

  1. 入力映像の各時刻における顔領域を検出する顔画像検出装置において、
    予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録部と、
    与えられた入力映像信号から静止画像データを取得する画像取得部と、
    前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測部と、
    前記顔領域予測部により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索部と、
    前記顔領域探索部より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録部により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定部と
    前記顔領域探索部により得られる顔領域探索結果から前記静止画像データに存在するある1つの顔に対して探索された複数の顔領域を統合して1つの顔領域を生成する顔領域統合部とを有し、
    前記顔領域予測部は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定部により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、
    前記顔領域探索部は、前記顔領域統合部より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする顔画像検出装置。
  2. 入力映像の各時刻における顔領域を検出するための顔画像検出方法において、
    与えられた入力映像信号から静止画像データを取得する画像取得ステップと、
    予め設定される顔領域を予測するための顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測ステップと、
    前記顔領域予測ステップにより予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索ステップと、
    前記顔領域探索ステップより得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータとに基づいて顔画像の不連続性を判定する不連続性判定ステップと
    前記顔領域探索ステップにより得られる顔領域探索結果から前記静止画像データに存在するある1つの顔に対して探索された複数の顔領域を統合して1つの顔領域を生成する顔領域統合ステップとを有し、
    前記顔領域予測ステップは、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定ステップにより得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、
    前記顔領域探索ステップは、前記顔領域統合ステップより得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする顔画像検出方法。
  3. 入力映像の各時刻における顔領域を検出する顔画像検出プログラムにおいて、
    コンピュータを、
    予め設定される顔領域を予測するための顔領域予測パラメータ、与えられた画像が顔である可能性を定量的に評価するための顔検出パラメータ、及び、入力映像信号に含まれる編集点等の時間的不連続点を検知するための不連続性判定パラメータを少なくとも記録する記録手段、
    与えられた入力映像信号から静止画像データを取得する画像取得手段、
    前記顔領域予測パラメータを用いて前記静止画像データから顔領域を予測する顔領域予測手段、
    前記顔領域予測手段により予測された顔領域予測結果に基づいて顔領域を探索する顔領域探索手段
    前記顔領域探索手段より得られる顔領域から算出される周辺尤度を用いた入力画像の連続性を示す連続性評価値と、前記記録手段により記録された不連続性判定パラメータとに基づいて、顔画像の不連続性を判定する不連続性判定手段、及び、
    前記顔領域探索手段により得られる顔領域探索結果から前記静止画像データに存在するある1つの顔に対して探索された複数の顔領域を統合して1つの顔領域を生成する顔領域統合手段として機能させ、
    前記顔領域予測手段は、連続区間を対象とした顔領域の予測と、不連続点における予測確率分布の再初期化による顔領域の予測とを前記不連続性判定手段により得られる不連続点の検知結果に基づき、切り替えて顔領域の予測を行い、
    前記顔領域探索手段は、前記顔領域統合手段より得られる顔領域統合結果に基づいて個々の顔領域についての前記周辺尤度を計算することを特徴とする顔画像検出プログラム。
JP2007260365A 2007-10-03 2007-10-03 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム Expired - Fee Related JP4881272B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007260365A JP4881272B2 (ja) 2007-10-03 2007-10-03 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007260365A JP4881272B2 (ja) 2007-10-03 2007-10-03 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム

Publications (2)

Publication Number Publication Date
JP2009093230A JP2009093230A (ja) 2009-04-30
JP4881272B2 true JP4881272B2 (ja) 2012-02-22

Family

ID=40665204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007260365A Expired - Fee Related JP4881272B2 (ja) 2007-10-03 2007-10-03 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム

Country Status (1)

Country Link
JP (1) JP4881272B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5096211B2 (ja) * 2008-03-31 2012-12-12 富士フイルム株式会社 確率分布構築方法、確率分布構築装置、および確率分布構築プログラム、並びに被写体検出方法、被写体検出装置、および被写体検出プログラム
JP5719230B2 (ja) * 2011-05-10 2015-05-13 キヤノン株式会社 物体認識装置、物体認識装置の制御方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546117B1 (en) * 1999-06-10 2003-04-08 University Of Washington Video object segmentation using active contour modelling with global relaxation

Also Published As

Publication number Publication date
JP2009093230A (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
WO2020146501A1 (en) Surgical workflow and activity detection based on surgical videos
Zliobaite et al. Adaptive preprocessing for streaming data
US20170236055A1 (en) Accurate tag relevance prediction for image search
JP4132589B2 (ja) オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置
CN111373417A (zh) 与基于度量学习的数据分类相关的设备及其方法
CN107077609B (zh) 用于检测在空间上不同的时间模式的非参数化模型
JP2017228068A (ja) 機械学習管理プログラム、機械学習管理方法および機械学習管理装置
JP5235691B2 (ja) 情報処理装置及び情報処理方法
KR20060129366A (ko) 온라인 학습을 통한 연속적 안면 인식
US11825278B2 (en) Device and method for auto audio and video focusing
JP2009110503A (ja) 対話システムにおける統計的分類のための最適な選択戦略の方法及びシステム
US20190156125A1 (en) Characterizing Content with a Predictive Error Representation
Bermingham et al. A probabilistic stop and move classifier for noisy GPS trajectories
US20050246317A1 (en) Matching engine
CN113380413A (zh) 一种构建无效再通fr预测模型的方法和装置
CN113963303A (zh) 图像处理方法、视频识别方法、装置、设备及存储介质
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
JP4881272B2 (ja) 顔画像検出装置、顔画像検出方法、及び顔画像検出プログラム
US11354936B1 (en) Incremental clustering for face recognition systems
KR102339478B1 (ko) Dna 정보를 이용한 얼굴 추정 방법, 이를 수행하기 위한 기록 매체 및 장치
AU2021251463B2 (en) Generating performance predictions with uncertainty intervals
Isupova et al. Anomaly detection in video with Bayesian nonparametrics
Arbab-Zavar et al. On hierarchical modelling of motion for workflow analysis from overhead view

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111202

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4881272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees