JP2006146922A

JP2006146922A - テンプレート方式の顔検出方法

Info

Publication number: JP2006146922A
Application number: JP2005332473A
Authority: JP
Inventors: Byoung-Chul Ko; ビョン−チュル、コー; Jong-Chang Lee; 鍾昌李; Hyun-Sik Shim; 賢植沈
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-11-17
Filing date: 2005-11-17
Publication date: 2006-06-08
Also published as: US20060104517A1; KR20060055064A; KR100624481B1

Abstract

【課題】映像情報から顔を検出する際の、照明の変化や顔の表情の変化、顔隠しなどに対して過剰に反応しないで正確な顔検出が可能なテンプレート方式の顔検出方法を提供する。
【解決手段】テンプレート方式の顔検出方法は、顔データベースから平均顔データを生成し、生成された平均顔データに対してウェーブレット変換を行い、変換された顔平均データの高周波成分及び低周波成分のうち、照明に敏感な低周波成分を除去するステップと、高周波成分のうちの水平方向の成分及び垂直方向の成分のみを用いてテンプレートを生成するステップと、映像が入力された場合に、上記テンプレートを使用して初期の顔の位置を検索し、上記テンプレートと現在のフレームにおける顔位置に相当する高周波ウェーブレット係数とを線形結合し、線形結合により得られたテンプレートを、次のフレームのためのテンプレートとして使用して顔を検出するステップとを有する。
【選択図】図１

Description

本発明は、リアルタイムで顔領域を検出する方法に関し、詳細には、顔テンプレートを生成し、環境（状況）に適合させて顔テンプレートの係数を変化させることで、肌の色や照明の変化に関係なく顔を検出し、ビデオ会議システムや監視システム、顔認識システムなどの多様な分野に使用可能なテンプレート方式の顔検出方法に関する。

顔検出技術は、顔認識、ビデオ監視、ビデオ会議のような多様な分野に不可欠な技術であり、近年、様々な顔検出方法が提案（研究）されてきた。

顔検出の第１の段階としては、映像（画像）中に顔が存在するか否かを判別し、顔が存在する場合には、顔の正確な位置を検出する。しかしながら、映像に含まれる顔（顔データ）は、映像に含まれる顔のサイズがそれぞれ異なり、カメラに対する多様な角度（angle）の顔が存在し、ポーズや顔の表情の変化、顔隠し（部分的な顔隠し）、照明変化、肌の色、顔の特長等に起因して、正確な顔検出を行うことは難しい。

また、一般的な顔検出方法は、知識方式の顔検出方法、特徴方式の顔検出方法、神経網を用いた顔検出方法、及びテンプレート方式の顔検出方法などに大きく分けられる。

知識方式の顔検出方法は、顔の特徴に関する知識（事前に格納された知識情報）を利用する方法であって、顔の各要素間に規則（基準）を予め定義し、候補顔領域が、このような規則を満足するか否かを判別し、当該候補領域が顔であるか否かを決定する。しかしながら、この知識方式の顔検出方法は、顔の特徴等によって上述の顔の各要素間に規則が大きく変化することから、該規則を定義することが難しく、効率的な方法であるとは言えない。

また、特徴方式の顔検出方法は、顔の色（色相）や顔の境界線等の顔の特徴情報を利用する方法であり、特に、顔の色相に基づいた方法が最も多く使用されている。この顔検出方法は、処理時間が短く、処理速度が速いという長所を有するが、照明による色相成分の変化に敏感であり、背景（背景色）が顔の色相成分と類似している場合には、背景と顔とを正確に識別できないという短所がある。

また、神経網（神経回路網；neural network）方式の顔検出方法は、多様な顔情報及び非顔情報を学習データとして定義し、神経網を介して学習させた後、入力された候補顔領域が実際の顔なのか否かを決定する方法である。この神経網方式の方法は、高精度、高信頼性を有するが、学習及び算出に長い時間がかかり、リアルタイム顔検出には、適さない課題を有している。

また、近年、SVM（Support Vector Machine）やAdaboostのようなパターン認識装置（回路）を使用する方法が多用されている。しかしながら、ＳＶＭは、サポートベクトル（Support Vector）の数と特徴ベクトルの次元によって検索結果と検出結果とが大きく左右されるため、リアルタイム処理による顔検出には適さない。また、Adaboostは、SVMに比べて検出時間が短いが、検出性能及び算出時間が学習処理段階（learning stage）によって左右されるという短所を有する。

最後に、テンプレート方式の顔検出方法は、顔に関するいくつかの標準顔パターンを定義し、１つの入力映像に対して定義された複数の標準顔パターンをマッチング（入力映像と各標準顔パターンとを一対一でマッチングさせ、最も正確に整合する入力映像の部分を顔として判別する。

特許文献１には、テンプレート方式顔検出技術が提案されている。

該特許文献１では、映像取得手段であるカメラにより取得された映像（画像）が顔検出及び追跡システムに入力される。入力された映像に対して検出誤差（検出エラー）減少のための光補正などの前処理を行い、カラー（肌の色）を有する顔候補領域を求める。そして、求められた顔候補領域に対してウェーブレット（wavelet）変換を行った後、ウェーブレット変換された顔映像を用いてウェーブレットテンプレートを求める。そして、このウェーブレットテンプレートを平均顔映像から予め求められたウェーブレット顔テンプレートとマッチング（若しくは比較）させて、顔を検出する。ウェーブレットテンプレートのマッチングにより、顔が検出された後、顔を構成する要素（目、眉毛、口、鼻など）を検出して、これを予め用意した顔楕円にマッピング（mapping）し、最終的な顔領域を確定する（求める）。そして、以前の（前回取得した）３つの顔位置情報を用いて次の映像における顔位置を予測して追跡している。

このように、テンプレート方式の顔検出方法は、シンプルな計算で、かつ正確な性能を有するので、処理速度が速く、高精度の顔検出が可能であるが、顔の傾き（angle）やサイズ、光の変化または雑音（ノイズ）などに敏感であるため、例えば、顔と背景とを識別することが困難となるという短所を有する。
大韓民国特許出願公開第１０−２００４−４２０５１号明細書

本発明は、前述のような問題点を解決するためになされたもので、その目的は、映像情報から顔を検出する際に、ノイズや照明（光）の変化、顔の表情の変化、顔隠しなどに対して過剰に反応せずに（あまり敏感とならないで）、安定した顔検出が可能なテンプレート方式の顔検出方法を提供することにある。

前記目的を達成するために、本発明の１つの側面としてのテンプレート方式の顔検出方法は、複数の人種の様々な顔映像（顔画像）が含まれた学習顔映像を取得して、テンプレートマッチングのための平均顔データを生成し、生成された平均顔データをウェーブレット変換して、水平方向及び垂直方向の２つの高周波成分のみを含むテンプレート(顔テンプレート)を生成するステップと、入力映像の中に含まれる様々なサイズの顔を全て検出するために、入力映像を縮小（down sampling）し、縮小された入力映像に対してウェーブレット変換を行うステップと、ウェーブレット変換された入力映像とウェーブレット変換されたテンプレートとをマッチングし、マッチングの整合性が高い、すなわち整合点数が最も高い領域を顔領域として特定（指定）するステップとを有することを特徴とする。

また上記顔検出方法において、顔領域が特定された後に、当該顔領域から水平方向及び垂直方向のウェーブレット高周波の係数値を抽出し、上記テンプレートと抽出された上記係数値との線形結合を行うステップとを有するように構成することが好ましい。

本発明によれば、顔検出におけるマッチング時間の短縮及び正確度を高めるために、テンプレートは、ウェーブレット変換され、かつウェーブレット変換された映像（平均顔データ）の高周波成分及び低周波成分のうち、照明に敏感な低周波成分を除去した高周波成分のみを使用して生成される。すなわち、高周波成分のうち、実際に顔の重要な要素を含む水平方向の高周波成分及び垂直方向の高周波成分だけをテンプレートとして使用する。

さらに、入力映像に含まれる人の顔の形状、皮膚の色、照明などに対し、上記テンプレートが可変的に変化する必要がある。このため、本発明では、正確な顔検出を行うために、映像入力時間によって可変的に係数値が変わるようにしている。そして、入力映像に対しても同様にウェーブレット変換を行い、入力映像のサイズを縮小して、予め定義されたテンプレートとウェーブレット変換され、かつ縮小された入力映像のそれぞれの周波数成分（水平方向の高周波成分及び垂直方向の高周波成分）とをマッチングする。

したがって、顔検出のための計算時間（処理時間）が短縮され、照明変化及び人種（肌の色）に関係なく正確に顔検出を行うことが可能になる。

すなわち、本発明の顔検出方法は、照明の変化及び表情の変化などに過剰に反応しない（ノイズや光の変化にあまり敏感とならないで）顔検出を行うことが可能になるので、例えば、多様な人種が使用する携帯電話端末機などを介したビデオ会議（テレビ電話）などに適用可能であり、また、多様な照明環境下で動作する家庭用ロボットの視覚装置及びテレマティックス（自動車などの移動体に通信システムを組み合わせて、リアルタイムに情報サービスを提供するサービス）関連の眠気防止システムなどに適用することが可能になる。

以下、本発明の好適な実施形態について添付図面を参照しながら詳細に説明する。下記の説明において、本発明の要旨のみを明瞭にするために、公知の機能や構成についての詳細な説明は、適宜省略する。

本発明の実施形態におけるテンプレート方式の顔検出方法を説明する。

図１は、本実施形態におけるテンプレート方式の顔検出方法の全体的なフローチャートである。図１に示すように、多様な人種が含まれた顔映像（若しくは複数の顔映像）をデータベースから取得して、平均顔（平均顔データ）を生成する（ステップＳ１）。そして、平均顔をグレイ映像（Gray Image;濃淡画像）に変換した後、ウェーブレット変換を行う。そして、ウェーブレット変換されたグレイ映像の平均顔のうち、水平方向及び垂直方向の２つの高周波成分のみを有するテンプレートを生成する（ステップＳ２）。

映像が入力されたならば、入力映像に対してダウンサンプリングを行い、少なくとも１つ以上の段階に縮小した後（ステップＳ３）、当該縮小された入力映像に対してウェーブレット変換を行う（ステップＳ４）。

次に、このようにウェーブレット変換された入力映像とウェーブレット変換されたテンプレートとのマッチングを行う（ステップＳ５）。そして、マッチングの度合い、すなわち、整合点数が閾値より高いか否かを判別して（ステップＳ６）、閾値より高い場合には、当該整合点数の中で最も高い整合点数に対応する領域を顔領域として指定（特定）する（ステップＳ７）。

その後、検出された顔領域から水平方向及び垂直方向のウェーブレット高周波の係数値を抽出して、抽出された係数値は、ウェーブレット変換されたテンプレートに線形結合される（ステップＳ８）。

また、フレーム毎に、テンプレートの係数値と現在のフレームにおける顔領域の係数値との間の最小テンプレート誤差を測定し、テンプレート誤差が閾値を超過するか否かを判別する（ステップＳ９）。テンプレート誤差が閾値を超過していない場合には、顔追跡のために、現在検出された顔の中心から横（幅）ｍ、縦（高さ）ｎのサイズだけ拡張させた位置を、次回の候補顔の位置として推定する（ステップＳ１０）。

一方、テンプレート誤差が閾値を超過する場合には、突然な動きや顔隠し、または急激な照明の変化と判別し、テンプレートの係数値を新しいテンプレートの値に再設定し（ステップＳ１１）、探索窓（探索領域）を拡大した後に（ステップＳ１２）、次のテンプレートマッチングを行うために、次の顔位置及び次の対象を指定（特定）する（ステップＳ１３）。

次に、ウェーブレット変換を用いたテンプレート（顔テンプレート）の生成過程について詳細に説明する。

本実施形態では、平均顔は、顔テンプレートを生成するために、ウェーブレット変換される。

まず、平均顔（平均顔情報）を生成するために、白人、東洋人、黒人が含まれた英国Ｓｕｒｒｅｙ大学と米国ＣＭＵ（Carnegie Mellon University）の公開用顔データベースから、各顔において眉毛から上唇まで縦（幅）横（高さ）が同じサイズの顔領域を切り出して、学習データを生成する。なお、このように眉毛から上唇までを切り出す理由は、表情変化にあまり敏感に反応しない顔テンプレートを生成するためである。そして、各顔を切り出して平均顔を生成し、生成された平均顔を４０×４０のサイズに正規化する。

次に、このように生成された平均顔をグレイ（gray）映像に変換し、グレイ（gray）映像に変換された平均顔に対してさらにウェーブレット変換を行う。ウェーブレット変換は、入力映像を垂直方向、水平方向及び対角線方向の高周波成分と低周波成分とに分解すると同時に、ダウンサンプリングする。

本実施形態では、マッチング時間を短縮するために、ウェーブレット変換を２回行い、映像（入力映像と平均顔）のサイズを１／４に縮小（ダウンサンプリング）して使用する。平均顔に対して２回の（２段階の）ウェーブレット変換を行うと、実際の平均顔は、４０×４０のサイズから１／４に減少した１０×１０のサイズに縮小（ダウンサンプリング）され、３つの水平方向、垂直方向及び対角線方向の高周波成分と１つの低周波成分とに分解される。なお、これら４つの周波数成分のうち、一般的に対角線成分を含む高周波成分は、顔テンプレートとしては使用しないので除去される。

さらに、本実施形態では、低周波成分は、照明変化に対して高周波成分より敏感であるため、当該低周波成分を除去し、高周波成分のみを使用することによって、マッチング時間を短縮し、且つ精度度を高めている。

ここで、本実施形態における２つの高周波のみを使用したテンプレートを用いた顔検出の性能を測定するために、水平方向及び垂直方向の２つの高周波とともに１つの低周波を使用したテンプレートを用いた場合と、２つの高周波のみを使用したテンプレートを用いた場合との比較結果を以下に示す。

入力映像（テスト映像）は、照明変化、急激な動作、表情変化等の様々な変化を含む６つの動映像で構成されている。

図２は、本実施形態におけるテンプレート方式の顔検出方法と、異なるテンプレート方式の顔検出方法、すなわち低周波成分を含むテンプレートを用いた顔検出に対する実験結果を示すグラフである。

図２に示すように、低周波成分、水平方向及び垂直方向の高周波成分の３つのテンプレートＬ＋（Ｈｘ、Ｈｙ）を使用した場合には、顔検出率は平均６２％であるのに対して、水平方向及び垂直方向の高周波成分のみの２つのテンプレート（Ｈｘ、Ｈｙ）を使用した場合の顔検出率は、平均８９％と高い性能を示した。これは、低周波成分が、相対的に光成分を多く含んでいるので、照明変化に対してテンプレートの係数値の変化程度が高周波成分に比べて相対的に大きいからである。

また、人種別顔検出でも同様に、黒人と白人の場合には、相対的に皮膚色の明るさの差が大きいため、低周波成分を使用する場合は、顔検出率を低下させる結果となった。したがって、低周波成分は、高周波成分だけを使用した場合よりも顔検出性能を低下させ、且つ顔の色の明るさや光の変化に敏感であることが分かった。

次に、テンプレートマッチングのための入力映像の縮小処理（down-sampling）について詳細に説明する。

様々なサイズで入力される顔のサイズに対して、正確な顔マッチングのための方法として、例えば、それぞれのサイズに適合する複数のテンプレートを予め定義したり、１つのテンプレートだけを定義し、入力映像のサイズを縮小させながらマッチングを行う方法がある。

本実施形態では、小さい容量のメモリで処理を可能にするために、後者を選択して、入力映像を縮小し、テンプレートマッチングを行っている。

入力映像の縮小比率は、縮小段階数（縮小ステップ数）が多いほど、マッチング結果が正確であるが、リアルタイム処理には適さないので、本実施形態では、１００％、８０％、６０％、４０％の４つのサイズに入力映像を縮小した。

このような場合、例えば、携帯電話のビデオフォーマットであるＱＣＩＦ（１７６×１４４）サイズの映像が入力されると、最大９０×９０画素の顔から最小３０×３０画素の顔まで検出可能となる。

次に、本実施形態のテンプレートマッチングについて詳細に説明する。

テンプレートマッチングは、縮小された４つのサイズの入力映像に対して、各々２回のウェーブレット変換を行って１／４のサイズに縮小（ダウンサンプリング）する。そして、１／４に縮小された各々の入力映像に対して、予め定義された２つの高周波テンプレートを、位置を変動させながら一対一でマッチングするタスクである。このような処理過程により、入力映像の特定領域と２つのテンプレート間の類似値（類似度）の合計が閾値以上なら、これを候補顔領域として判別する。

そして、当該マッチングは、各々４つの映像（縮小率が１００％、８０％、６０％、４０％の各々の映像）に対して独立的に行われ、４つの映像における類似値の合計のうち、最も類似値が高い領域を顔領域として選択し、これをさらに縮小前のオリジナル映像に拡大し、実際の顔サイズを算出する。

テンプレートマッチングは、最初のフレームでは、映像全体に対して行われるが、２番目のフレームからは、前回の顔位置から探索窓（search window）を設定し、探索窓内でだけマッチングを行い、検出時間を短縮させている。

そして、本実施形態の探索窓のサイズは、縮小比率が１００％（オリジナルサイズの入力映像を使用する）の場合には、顔サイズの±６倍（顔サイズの６倍に拡大した検索窓、若しくは１／６に縮小した検索窓）に設定し、８０％縮小の場合には、顔サイズの±５倍に設定し、６０％縮小の場合には、顔サイズの±４倍に設定し、４０％縮小の場合には、顔サイズの±２倍に設定する。

次に、顔テンプレートの変形（変化）過程を詳細に説明する。

顔テンプレートを用いた顔検出方法には、基本的に３つの異なる方法がある。

第１の方法としては、予め定義された固定テンプレートを使用する顔検出方法がある。

固定顔テンプレートを使用する顔検出方法は、ビデオ全体（映像全体）の顔のサイズ及び形状が同一である場合には良好な性能を発揮することができるが、個々人で異なる顔の構造を有すること、また、照明の変化及び顔の角度の変化などにより、固定したテンプレートを用いたマッチング方法の正確性は、低下する。

この固定テンプレートを用いた顔検出方法を簡単に数式で表現すると、以下の数式１となる。

ここで、ｎは、フレームの数であり、Ｔ_ｎ＋１は、次のフレームで使われるテンプレートであり、Ｔは、予め定義されたテンプレートを表している。

次に、第２の方法としては、可変的な顔テンプレートを生成する顔検出方法である。

可変的な顔テンプレートの生成方法は、固定された１つのテンプレートを使用するものでなく、最初のフレームにおいて色合い（color、色情報）を用いて顔を検索し、この情報を用いて個人（個別）のテンプレートを生成した後に、生成された個人のテンプレートを、以後の連続フレームのためのテンプレートとして使用する方法である。しかしながら、この方法においても一度生成されたテンプレートは、固定的に使われるため（テンプレートが変化しないで使用されるため）、以後のフレームにおける照明、角度、表情の変化に敏感となる。

この第２の方法を簡単に数式で表現すると、以下の数式となる。

ここで、Ｔ_１は、最初のフレームで定義されたテンプレートを表している。

第３の方法としては、フレーム毎に顔テンプレートを更新する顔検出方法がある。

フレーム毎に顔テンプレートを更新する方法は、最初のフレームで顔領域を検索し、これを初期の顔テンプレートとして設定した後、フレーム毎に現在の顔領域を用いて次回の顔テンプレートを更新する方法であって、急激な照明の変化や顔の変化以外、すなわち緩やかな照明及び顔の変化などでは、最初（元）の顔テンプレートとの誤差が小さいため、比較的良い結果を得ることができる。しかしながら、顔領域のテンプレート値は、照明や顔の動き、表情などの変化によって連続的に変化する。また、フレームの数が増加すればするほど、更新された次のテンプレートが初期の顔テンプレートとは異なる値を有するようになり、フレームが増加するほど、地域的極小（local minima；局所最小解）に陥る可能性が大きくなり、結果的には、正確な顔を探し損ねる主要な原因になる。

また、急激な顔表情の変化、動き、照明変化などにより、顔テンプレート値が変化した後、次のフレームで元の映像に戻ってきた場合には、テンプレートの値が既に他の値に変化しているため、全く異なる対象を顔領域として検出する可能性がある。

この第３の方法を簡単に数式で表現すると、以下の数式となる。

ここで、Ｔ（Ｉ（ｘ、ｙ））は、ｎ番目のフレームで検索した顔位置を表している。

したがって、本実施形態では、ウェーブレット変換された固定顔テンプレートＴを使用して初期の顔位置を検索し、次のフレームからは、固定顔テンプレートを、現在のフレームの顔位置に相当する高周波ウェーブレット係数Ｔ（Ｉｎ（ｘ、ｙ））と線形結合させたテンプレートを、次のフレームのための顔テンプレートＴｎ＋１として使用する。この方法を簡単に数式で表現すると、以下の数式となる。

ここで、固定テンプレートと現在のフレームの顔領域に相当するウェーブレット係数との間には、加重値（ｗ_１、ｗ_２）を設定しなければならないが、これを求めるために、６つの異なる入力映像（実験ビデオ）について、各々の加重値変化の実験を実施した。

図３は、本実施形態の加重値の変化に伴う検出率の変化を示すグラフ（検証結果グラフ）である。

図３に示すように、加重値比率が１：０の場合は、顔テンプレートの変形（変化）において予め定義された固定テンプレートを使用するケースに相当し、加重値比率が０：１の場合は、フレーム毎に顔テンプレートを更新するケースに相当する。この検証では、固定テンプレートＴと新しいフレームにおける顔領域Ｔ（Ｉｎ（ｘ、ｙ））との間に、０．５：０．５の加重値を与えた場合に、９１％の検出率が得られ、最も良い性能を示した。したがって、本実施形態では、固定テンプレートと新しいテンプレートとの間の加重値を０．５：０．５に決定（設定）する（上記数式４に示すように、固定テンプレートの係数値と新しいテンプレートとにそれぞれ０．５を掛けて加えるように、加重値を０．５：０．５とする）。

しかしながら、顔の固有の特徴を維持するために、固定テンプレートを考慮するとしても、顔の速い動きや顔隠し、急激な照明変化に起因して顔テンプレートの値が大きく変化する。そこで、検出の誤差を防止するために、フレーム毎に固定テンプレートＴと新しく生成されたテンプレート間の最小平均エラー（ＭＡＥ：Mean Absolute Error）を測定（検出）し、基準閾値を超過する場合には、次のフレームにおいて、新しい顔テンプレートＴｎ＋１を固定テンプレートＴに再設定（reset）し、映像全体においてさらに顔領域を探索する。

これを数式で表現すると、以下の数式となる。

図４は、本実施形態の皮膚色が異なる人種及び照明変化にあまり敏感に反応せずに高精度の顔検出が可能であることを示すための映像である。

特に当該図４は、照明変化が激しく、肌の色が濃い（黒人等）が含まれた連続フレームにおける顔検出結果と、検出された顔領域を拡大した結果を示している。

図５は、各フレームにおいて新しく形成（生成）されたテンプレート係数値の変化を示すグラフであり、フレーム２４５〜３４０で使用されたテンプレートのウェーブレット係数値の変化を示している。当該グラフから解るように、顔の表情や照明が激しく変化しても、固有の顔テンプレートの値からウェーブレット係数値が大きく変化しないことが解る。

以上のように、本実施形態の顔検出方法は、照明の変化等に関係なく、従来の顔検出に比べて比較的正確に顔を検出することが可能になった。さらには、本実施形態の顔テンプレートは、個人に適合させて再調整することが可能であり、顔追跡のための次の候補顔の位置決定が迅速かつ、正確に行うことが可能になる。

以上において説明した本発明は、本発明が属する技術の分野における通常の知識を有する者であれば、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であるので、上述した実施例及び添付された図面に限定されるものではない。

本発明の実施形態におけるテンプレート方式の顔検出方法を示すフローチャートである。本発明の実施形態におけるテンプレート方式の顔検出方法と、本発明とは異なる他のテンプレート方式による顔検出方法との比較実験結果を示すグラフである。本発明の実施形態おいて、加重値の変化に伴う顔検出率の実験結果を示すグラフである。本発明の実施形態において、皮膚の色が異なる人種及び照明変化に対して敏感に反応せずに顔検出が可能であることを示すための映像である。本発明の実施形態における、各フレームにおいて新しく形成されたテンプレート係数値の変化を示すグラフである。

符号の説明

２４５、２８０、３１０、３５０・・・フレーム

Claims

顔データベースに格納された複数の顔データから生成され、かつウェーブレット変換された平均顔データの水平方向及び垂直方向の高周波成分のみを含むテンプレートを生成するステップと、
前記入力映像を縮小し、縮小された前記入力映像に対してウェーブレット変換を行うステップと、
前記ウェーブレット変換された入力映像と前記テンプレートとのマッチングマッチングを行い、整合性の最も高い領域を顔領域として検出するステップとを有することを特徴とするテンプレート方式の顔検出方法。
検出された前記顔領域から水平方向及び垂直方向のウェーブレット高周波の係数値を抽出して、抽出された前記係数値と前記テンプレートとを線形結合するステップと、
顔追跡のために、次回の候補顔の位置を決定するステップとをさらに有することを特徴とする請求項１に記載のテンプレート方式の顔検出方法。
前記テンプレートと現在のフレームの顔領域の前記係数値との線形結合のための加重値比率は、０．５：０．５であることを特徴とする請求項２に記載のテンプレート方式の顔検出方法。
フレーム毎に前記テンプレートの係数値と現在のフレームの顔領域の係数値との間の最小平均誤差を検出し、前記最小平均誤差が閾値以上の場合には、突然な動き、顔隠し、または急激な照明の変化が生じたと判別して、前記テンプレートの係数値を新しいテンプレートの値に再設定するステップをさらに有することを特徴とする請求項２に記載のテンプレート方式の顔検出方法。
検出された現在の顔領域の中心から横ｍ、縦ｎのサイズだけ拡張させた位置を、前記次回の候補顔の位置とすることを特徴とする請求項２に記載のテンプレート方式の顔検出方法。
前記テンプレートを生成するステップは、
複数の人種の映像が含まれる学習顔映像データを取得して、テンプレートマッチングのための前記平均顔データを生成するステップと、
生成された前記平均顔データをウェーブレット変換して、ウェーブレット変換された前記平均顔データの水平方向及び垂直方向の２つの高周波成分を含む前記テンプレートを生成するステップとを有することを特徴とする請求項１に記載のテンプレート方式の顔検出方法。
前記テンプレートを生成するステップは、
前記平均顔データに対してウェーブレット変換を行い、ウェーブレット変換された前記平均顔データの高周波成分及び低周波成分のうち、該低周波成分を除去するステップと、
ウェーブレット変換された前記平均顔データの前記高周波成分のうち、水平方向の高周波成分及び垂直方向の成分のみをテンプレートとして定義するステップとを有することを特徴とする請求項６に記載のテンプレート方式の顔検出方法。
前記平均顔データに対するウェーブレット変換は、２回行われ、ウェーブレット変換が行われた前記平均顔データは、元の映像の１／４サイズの水準に縮小されることを特徴とする請求項１に記載のテンプレート方式の顔検出方法。
前記入力映像は、１００％、８０％、６０％、４０％の割合で縮小されることを特徴とする請求項１に記載のテンプレート方式の顔検出方法。
顔データベースに格納された顔データから平均顔データを生成し、生成された平均顔データに対してウェーブレット変換を行い、ウェーブレット変換された前記平均顔データの高周波成分及び低周波成分のうち、該低周波成分を除去するステップと、
ウェーブレット変換された前記平均顔データの高周波成分における水平方向成分及び垂直方向の成分のみを用いてテンプレートを生成するステップと、
映像が入力され場合に、前記テンプレートを使用して初期の顔位置を検索し、前記テンプレートと現在のフレームにおける顔位置に相当する高周波ウェーブレット係数とを線形結合し、前記線形結合により得られたテンプレートを、次のフレームのためのテンプレートとして使用して顔を検出するステップとを有することを特徴とするテンプレート方式の顔検出方法。
前記顔を検出するステップは、入力映像を段階的に縮小するステップと、
縮小された入力映像に対してウェーブレット変換を行うステップと、
ウェーブレット変換された前記入力映像と前記テンプレートの各周波数成分とをマッチングして、顔領域を特定するステップとを有することを特徴とする請求項１０に記載のテンプレート方式の顔検出方法。
特定された前記顔領域から水平方向及び垂直方向のウェーブレット高周波の係数値を抽出して、抽出された前記係数値と前記テンプレートとの線形結合を行うステップと、
顔追跡のために、次回の候補顔の位置を決定するステップとをさらに有することを特徴とする請求項１１に記載のテンプレート方式の顔検出方法。
フレーム毎に前記テンプレートの係数値と現在のフレームの顔領域の係数値との間の最小平均誤差を検出し、前記最小平均誤差が閾値以上の場合には、突然な動き、顔隠し、または急激な照明の変化が生じたと判別して、前記テンプレートの係数値を新しいテンプレートの値に再設定するステップをさらに有することを特徴とする請求項１２に記載のテンプレート方式の顔検出方法。