JP3938257B2

JP3938257B2 - 顔のような領域を検出する方法および装置、ならびに観察者トラッキングディスプレイ

Info

Publication number: JP3938257B2
Application number: JP01363499A
Authority: JP
Inventors: ヒホングキ; スティブンホリマンニコラス; エズラデービッド
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-01-23
Filing date: 1999-01-21
Publication date: 2007-06-27
Anticipated expiration: 2019-01-21
Also published as: GB9801550D0; US6504942B1; DE69906403T2; EP0932114B1; DE69906403D1; EP0932114A2; GB2333590A; EP0932114A3; JPH11288459A

Description

【０００１】
【発明の属する技術分野】
本発明は、カラー画像の顔のような（ｆａｃｅ−ｌｉｋｅ）領域を検出するための方法および装置に関する。このような方法は、例えば、観察者トラッキング自動立体ディスプレイと関連し得る画像トラッキングシステムの初期化ステージで、画像内の顔を検出し、ターゲット画像をキャプチャするための他の方法と関連して使用され得る。このような方法および装置は、例えば、皮膚の色の検出、顔の検出および認識、安全監視、ビデオおよび画像圧縮、ビデオ会議、マルチメディアデータベース検索、ならびにコンピュータゲームにおいて広範囲に応用される。
【０００２】
本発明はまた、自動立体型の観察者トラッキングディスプレイに関する。
【０００３】
【従来の技術】
自動立体ディスプレイは、ビューアが、２つの視野ウィンドウにおいて、目でこのようなディスプレイを観察することによって、立体対を形成する２つの個別の画像を見ることを可能にする。このようなディスプレイの例は、欧州特許第０６０２９３４号、欧州特許第０６５６５５５号、欧州特許第０７０８３５１号、欧州特許第０７２６４８２号、および欧州特許第０８２９７４３号に開示されている。添付の図面の図１は、公知のタイプの観察者トラッキング自動立体ディスプレイの例を示す。
【０００４】
ディスプレイは、トラッキングシステム２と協働するディスプレイシステム１を有する。トラッキングシステム２は、センサ信号をトラッキングプロセッサ４に与えるトラッキングセンサ３を有する。トラッキングプロセッサ４は、センサ信号から観察者位置データ信号を得、観察者位置データ信号は、ディスプレイシステム１のディスプレイ制御プロセッサ５に与えられる。プロセッサ５は、位置データ信号をウィンドウ操縦信号に変換し、これをトラッキング機能を備えた（ｔｒａｃｋｅｄ）３Ｄディスプレイ７の操縦機構６に与える。このように、観察者の目に対する視野ウィンドウは、観察者の頭の動きに従うように操縦され、動作範囲内で、観察者の目を適切な視野ウィンドウ内に維持する。
【０００５】
欧州特許第０８７７２７４号および英国特許第２３２４４２８号は、観察者トラッキング自動立体ディスプレイ用の、待ち時間が短く、更新（ｕｐｄａｔｅ）周波数が高く、および測定精度が適切な観察者ビデオトラッキングシステムを開示する。添付の図面の図２は、システムの一例を示す。このシステムは、トラッキングセンサ３が、６０Ｈｚのフィールドレートで動作するＳｏｎｙＸＣ９９９ＮＴＳＣビデオカメラを有し、トラッキングプロセッサ４にマウス８が設けられ、プロセッサ４が、１５０Ｍｈｚで動作するＲ４４００プロセッサならびにカメラ３によってキャプチャされた各フィールドについての６４０×２４０絵素（画素）の解像度を有するビデオディジタイザおよびフレームストアが設けられたＩｎｄｙシリーズのシリコングラフィックスエントリーレベルマシンを有する点で、添付の図面の図１に示すシステムと異なる。カメラ３は、ディスプレイ７の上部に配置され、ディスプレイの前に座っている観察者の方を向いている。観察者とカメラ３との通常の距離は、約０．８５メートルであり、この距離において、観察者は、水平方向すなわちＸ方向に約４５０ｍｍ内で、運動の自由度を有する。カメラによって形成される画像内の２つの画素間の距離は、Ｘ方向およびＹ方向のそれぞれにおいて約０．６７ｍｍおよび１．２１ｍｍである。Ｙ解像度は、各インターレースされたフィールドが個別に使用されるため、半分になる。
【０００６】
添付の図面の図３は、プロセッサ４によって行われるトラッキング方法を一般的な用語で示す。この方法は、初期化ステージ９に続いてトラッキングステージ１０を含む。初期化ステージ９では、ターゲット画像または「テンプレート」は、カメラ３からの画像の一部を格納することによってキャプチャされる。ターゲット画像は、一般に、添付の図面の図４に参照符号１１で示す観察者の目の領域を含む。ターゲット画像またはテンプレート１１がうまくキャプチャされるとすぐに、観察者トラッキングがトラッキングステージ１０において行われる。
【０００７】
グローバルターゲットまたはテンプレート検索はステップ１２で行われ、カメラ３によって生成される全画像内のターゲット画像の位置を検出する。ターゲット画像が見いだされると、動き検出はステップ１３で行われ、その後ローカルターゲットまたはテンプレート検索がステップ１４で行われる。テンプレートマッチングステップ１２および１４は、テンプレート内のターゲット画像と、テンプレートが上に重ねられた各サブセクションとを相関させることによって行われる。最良の相関値は、所定の閾値と比較され、ステップ１５でトラッキングが失われたたどうかをチェックする。トラッキングが失われた場合、制御は、グローバルテンプレートマッチングステップ１２に戻る。トラッキングが失われていなければ、制御はステップ１３に戻る。
【０００８】
動き検出１３およびローカルテンプレートマッチング１４は、トラッキングループを形成し、トラッキングループは、トラッキングが維持される限り行われる。動き検出ステップは、差分法（ｄｉｆｆｅｒｅｎｔｉａｌｍｅｔｈｏｄ）によって位置データを提供する。差分法は、連続したフィールド間のターゲット画像の動きを決定し、これを先のフィールドに関して前ステップにおけるローカルテンプレートマッチングで見いだされた位置に加える。
【０００９】
初期化ステージ９は、トラッキングが始まる前に、観察者のターゲット画像またはテンプレートを得る。欧州特許第０８７７２７４号および英国特許第２３２４４２８号に開示される初期化ステージは、対話型方法を用いる。対話型方法において、ディスプレイ７は、入力されるビデオ画像を表示し、例えば、プロセッサ４において実現される画像生成器は、添付の図面の図５に示すように、ボーダー画像またはグラフィカルガイド１６をディスプレイ上に生成する。例えば、マウス８の一部を形成するユーザ作動可能な制御は、ボーダー画像内の画像領域のキャプチャを手動によって駆動することを可能にする。
【００１０】
観察者は、必要なテンプレートサイズであるボーダー画像と共に、ディスプレイ７上の自分自身の画像を観察する。観察者は、自分の両目の間の中間点をグラフィカルガイド１６の中央線に合わせ、例えば、マウスボタンまたはキーボードのキーを押すことによって、システムがテンプレートをキャプチャするように作動させる。あるいは、この位置合わせは、マウス８を用いてグラフィカルガイド１６を所望の場所までドラッグすることによっても成し遂げられ得る。
【００１１】
このような対話型テンプレートキャプチャ技術の利点は、観察者が、受け入れ可能な位置合わせ精度でテンプレートを選択することが可能なことである。これには、人の顔の認識および目の領域などの目的の画像領域の選択が含まれる。人の視覚にとってはこのプロセスは簡単なことであるが、このようなテンプレートキャプチャは、様々な照明条件下で異なる年齢、性別、目の形、および皮膚の色を有する可能な限りすべてのタイプの人々が与えられると、コンピュータには困難である。
【００１２】
Ｓｕｗａら、「ＡＶｉｄｅｏＱｕａｌｉｔｙＩｍｐｒｏｖｅｍｅｎｔＴｅｃｈｎｉｑｕｅｆｏｒＶｉｄｅｏＰｈｏｎｅａｎｄＶｉｄｅｏＣｏｎｆｅｒｅｎｃｅＴｅｒｍｉｎａｌ」、ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＶｉｓｕａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ、１９９３年９月２１から２２日、オーストラリア、メルボルンは、皮膚の色の統計学的モデルに基づいて顔の領域を検出する技術を開示している。この技術は、顔の領域の色および輝度が、規定された領域に存在し、顔がビデオフレーム内の所定量の空間を占有することを想定している。色が領域内にあり、サイズが公知のサイズ内にある画素からなる色領域を検索することによって、顔領域が見いだされ得る。しかし、皮膚の色に関する色空間範囲は、光源、方向および輝度の変化によって変化する。色空間はまた、異なる皮膚の色についても変化する。従って、この技術は、各特定の応用およびシステムに対して、皮膚の色空間を較正することを必要するため、応用が制限される。
【００１３】
Ｓｗａｉｎら、「ＣｏｌｏｒＩｎｄｅｘｉｎｇ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、７：１、１１から３２頁、１９９１年は、多色物体の色ヒストグラムを用いて、大きなモデルのデータベース内に色インデクシングを提供することを開示している。次に、例えば、Ｓａｋｏら、「Ｒｅａｌ−ＴｉｍｅＦａｃｉａｌ−ＦｅａｔｕｒｅＴｒａｃｋｉｎｇｂａｓｅｄｏｎＭａｔｃｈｉｎｇＴｅｃｈｎｉｑｕｅｓａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｓ」、１２ＩＡＰＲＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｅｎｔＲｅｃｏｇｎｉｔｉｏｎの議事録、エルサレム、１９９４年１０月６から１３日、ＩＩ巻、３２０から３２４頁によって開示されるように、顔の領域などの既知の物体の位置を見いだすために「ヒストグラムバックプロジェクション」として公知の技術が用いられる。しかし、この技術は、顔の色ヒストグラムなどの所望のターゲットに関する知識を必要とし、ターゲット画像の充分な画素が、画像の他の部分の画素とは異なる場合にのみ作用する。従って、制御された背景を提供することが必要とされ、照明の変化に対応するさらなる技術が必要である。
【００１４】
Ｃｈｅｎら、「ＦａｃｅＤｅｔｅｃｔｉｏｎｂｙＦｕｚｚｙＰａｔｔｅｒｎＭａｔｃｈｉｎｇ」、ＩＥＥＥ（０−８１８６−７０４２−８）、５９１から５９６頁、１９９５年は、「皮膚の色分布関数」（ＳＫＤＦ）として公知のモデルを用いた皮膚の色の抽出に主として基づくファジーパターンマッチング方法を使用して、入力画像内の顔のような領域を検出する技術を開示している。この技術は、まず、Ｗｙｓｚｅｃｈｉら、「ＣｏｌｏｒＳｃｉｅｎｃｅ」、ＪｏｈｎＷｉｌｅｙ＆ＳｏｎｓＩｎｃ．１９８２年に開示されるように、ＲＧＢをファーンスワース色空間に変換する。ＳＣＤＦは、人の顔を含むサンプル画像の大きなセットを集め、人間のビューアによって画像内の皮膚領域を選択することによって構築される。次に、皮膚領域に現れる色空間の各色の周波数（ｆｒｅｑｕｅｎｃｙ）を調べるために、学習プログラムが適用される。次に、ＳＣＤＦは統一され、色がどの程度皮膚の色と同じであるかを見積もるために用いられる。領域が皮膚領域の可能性が高いとして抽出されると、その領域は、それぞれが１０×１２個の正方形セルを含む予め確立された顔の形状モデルに基づいてさらに分析される。しかし、この技術の問題点は、ＳＣＤＦが、照明条件の変化によって変化し得ることである。
【００１５】
【発明が解決しようとする課題】
上記のような従来技術では、様々な照明条件下で異なる年齢、性別、目の形、および皮膚の色を有する様々なのタイプの人々について、カラー画像における顔の候補を見いだすことは困難であった。
【００１６】
よって、本発明の目的は、広範囲な照明条件において、カラー較正の必要なく適用可能で、公知の技術よりも信頼性の高い且つ計算要件が大幅に減少された簡便な方法および装置を提供することである。また、異なる年齢、性別、および皮膚の色の人々の画像における顔の候補を認識することができ、例えば明るい色の眼鏡をかけている場合にも対応できる方法および装置を提供することである。さらに、非常に効率的であり、リアルタイムで実現され、低コストの商業的な応用に使用できる方法および装置を提供することである。また、本発明の他の目的は、上記のような顔を検出する装置を含む観察者トラッキングディスプレイを提供することである。
【００１７】
【課題を解決するための手段】
本発明の第１の局面によると、カラー画像の顔のような領域を検出する方法であって、彩度を平均化することによって該カラー画像の解像度を低下させるステップであって、解像度が低下した画像を形成するステップと、所定の形状を有する該解像度が低下した画像の領域であって、該所定の形状を取り囲む該解像度が低下した画像の部分の彩度とは実質的に異なる実質的に均一な彩度を有する該解像度が低下した画像の領域を検索するステップとを包含する方法が提供される。
【００１８】
前記カラー画像が複数の絵素を含み、前記解像度が、前記所定の形状が２から３個の解像度が低下した絵素にわたるように低下されてもよい。
【００１９】
前記カラー画像が、Ｍ×Ｎ絵素の長方形アレイを含み、前記解像度が低下した画像が、（Ｍ／ｍ）×（Ｎ／ｎ）絵素を含み、それぞれが、該カラー画像のｍ×ｎ絵素に対応し、該解像度が低下した画像の各絵素の彩度が、以下の式
【００２０】
【数２】

【００２１】
で表されてもよく、ここで、ｆ（ｉ，ｊ）が、該ｍ×ｎ絵素（３２）のｉ番目の列およびｊ番目の行の絵素の彩度である。前記方法は、ストアに前記彩度を格納するステップを含んでいてもよい。
【００２２】
前記解像度が低下した絵素のそれぞれの彩度と、少なくとも１つの隣接した解像度が低下した絵素の彩度とを比較することによって、該解像度が低下した絵素のそれぞれに均一値が割り当てられてもよい。
【００２３】
以下の式が満たされる場合、各均一値に第１の値が割り当てられ、
（ｍａｘ（Ｐ）−ｍｉｎ（Ｐ））／ｍａｘ（Ｐ）≦Ｔ
ここで、ｍａｘ（Ｐ）およびｍａｘ（Ｐ）が、それぞれ、前記解像度が低下した絵素および前記または各隣接した絵素の彩度の最大および最小であり、Ｔが閾値であり、該式が満たされない場合、該第１の値とは異なる第２の値が該各均一値に割り当てられる。Ｔが実質的に０．１５に等しくてもよい。
【００２４】
前記または各隣接した解像度が低下した絵素には均一値が割り当てられず、各均一値が前記ストアに格納されてもよい。
【００２５】
前記所定の形状が２または３個の解像度が低下した絵素にわたるように、前記解像度が低下され、前記方法が、さらに、前記第１の値の均一値が、１つの解像度が低下した絵素、２つの垂直または水平に隣接した解像度が低下した絵素、および絵素の長方形の２×２アレイのいずれか１つに割り当てられ、前記第２の値の均一値が、周囲の解像度が低下した絵素のそれぞれに割り当てられるとき、顔のような領域の検出を示すことを含んでいてもよい。
【００２６】
前記または各隣接した解像度が低下した絵素には均一値が割り当てられず、各均一値が前記ストアに格納され、検出が、前記第１および第２の値とは異なる第３の値を前記ストアに格納することによって示されてもよい。
【００２７】
前記検索ステップが、前記解像度低下を繰り返し、前記カラー画像絵素に対して前記解像度が低下した絵素がシフトした状態で、少なくとも１回は検索をすることを含んでいてもよい。
【００２８】
彩度が、以下の式で、赤色、緑色および青色成分から得られ（２１）、
（ｍａｘ（Ｒ，Ｇ，Ｂ）−ｍｉｎ（Ｒ，Ｇ，Ｂ））／ｍａｘ（Ｒ，Ｇ，Ｂ）
ここで、ｍａｘ（Ｒ、Ｇ、Ｂ）およびｍｉｎ（Ｒ、Ｇ、Ｂ）が、それぞれ、該赤色、緑色および青色成分の最大値および最小値である。
【００２９】
前記方法は、前記カラー画像をキャプチャするステップを含んでいてもよい。
【００３０】
前記キャプチャステップは、前記カラー画像が、ビデオカメラによってキャプチャされることを含み、前記解像度低下ステップおよび検索ステップが、該ビデオカメラからの異なるビデオフィールドまたはフレームに対して繰り返されてよい。
【００３１】
前記キャプチャステップにおいて、第１のカラー画像が、顔の位置の予想範囲を照射している間にキャプチャされ、第２のカラー画像が、周辺光を用いてキャプチャされ、該第２のカラー画像が該第１のカラー画像から減算されてカラー画像を形成してもよい。
【００３２】
本発明の第２の局面によると、カラー画像の顔のような領域を検出するための装置であって、彩度を平均化することによって該カラー画像の解像度を低下させ、解像度が低下した画像を形成し、所定の形状を有する該解像度が低下した画像の領域であって、該所定の形状を取り囲む該解像度が低下した画像の部分の彩度とは実質的に異なる実質的に均一な彩度を有する該解像度が低下した画像の領域を検索するように配置されているデータプロセッサを含む装置が提供される。
【００３３】
本発明の第３の局面によると、本発明の第２の局面による装置を含む観察者トラッキングディスプレイが提供される。
【００３４】
以下作用について説明する。
【００３５】
人の皮膚は、均一な彩度を有する傾向があることは公知である。本発明の方法および装置は、この特性を利用し、カラー画像における顔の候補を見いだす効果的な方法を提供する。広範囲な照明条件は、カラー較正の必要なく適応されるので、この技術は、公知の技術よりもより信頼があり、便利である。画像の彩度の解像度を低下させることによって、計算要件は大幅に減少し、比較的簡単な方法が使用され得る。平均化によって、顔領域の彩度の均一性が向上するので、この技術は、異なる年齢、性別、および皮膚の色の人々の画像における顔の候補を認識することができ、明るい色の眼鏡をかけている場合にも対応できる。この技術は非常に効率的であるため、リアルタイムで実現され、低コストの商業的な応用に使用され得る。
【００３６】
この技術は、欧州特許第０８７７２７４号および英国特許第２３２４４２８号に開示されている画像トラッキングシステムに関する添付の図面の図３に示す初期ステージ９において使用され得る。さらに、この技術は、例えば、米国特許第５１６４９９２号、米国特許第５０１２５２２号、Ｔｕｒｋら、「ＥｉｇｅｎｆａｃｅｓｆｏｒＲｅｃｏｇｎｉｔｉｏｎ」、Ｊｏｕｒｎａｌ１ｏｆＣｏｇｎｉｔｉｖｅＮｅｕｒｏｓｃｉｅｎｃｅ、３巻１号、７０から８６頁、１９９１年、Ｙｕｉｌｌｅら、「ＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎｆｒｏｍＦａｃｅｓｕｓｉｎｇＤｅｆｏｒｍａｂｌｅＴｅｍｐｌａｔｅｓ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、８（２）、９９から１１１頁、１９９２年、およびＹａｎｇら、ＨｕｍａｎＦａｃｅＤｅｔｅｃｔｉｏｎｉｎＣｏｍｐｌｅｘＢａｃｋｇｒｏｕｎｄ」、ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２７巻１号、５３から６３頁、１９９４年に開示されているように、２ステージの顔検出および認識技術の第１の部分として使用され得る。このような２ステージ技術において、第１のステージは、顔のおよその位置を見つけだし、第２のステージは、各候補の顔領域をさらに分析し、顔の存在を確認し、目、鼻および唇などの正確な顔だちを抽出する。第１のステージは、高い精度を必要としないので、迅速なアルゴリズムで実現され得る。第２のステージで分析されなければならない画像領域の数は、第１のステージで限定される。これは有利である。なぜなら、第２のステージは、一般に、より複雑なアルゴリズムを必要とするため、より計算負荷が高い（ｃｏｍｐｕｔｉｎｇ−ｉｎｔｅｎｓｉｖｅ）からである。
【００３７】
【発明の実施の形態】
本発明を添付の図面を参照しながら実施例を用いてさらに説明する。尚、図面全体にわたって、同様の参照符号は同様の部分を指す。
【００３８】
図６は、画素化カラー画像の顔のような領域をビデオ画像シーケンスから自動的に検出および見い出す方法を流れ図で示す。ビデオ画像シーケンスは、例えば、上記で図２を参照しながら記載したタイプのビデオカメラによってリアルタイムで提供され得る。方法は、図３に示す初期化ステージ９の一部としてリアルタイムで動作し得る。
【００３９】
ステップ２０において、赤、緑、青（ＲＧＢ）フォーマットの最新のディジタル画像が得られる。例えば、このステップは、ビデオカメラからのビデオデータの最新フィールドをフィールドストアに格納することを含み得る。ステップ２１において、ビデオ画像は、ＲＧＢフォーマットからＨＳＶフォーマットに変換され、各画素の彩度を得る。実際には、ステップ２１においてＳ成分のみを得るだけで充分であり、このＳ成分は、フィールドストア内でＲＧＢ画素データまたはその１つの成分を上書きし、メモリ要件を最小にするために用いられ得る。
【００４０】
ＲＧＢフォーマットは、カメラセンサおよびディスプレイ蛍光体が作用する様式から生じるハードウェア指向の色方式である。ＨＳＶフォーマットは、色相彩度輝度（ＨＳＩ）および色相明度彩度（ＨＬＳ）を含むいくつかのフォーマットの１つであり、色合い、陰、およびトーンの概念により密接に関連する。ＨＳＶフォーマットにおいて、色相は、光の波長（例えば、赤色と黄色との間の区別）によって説明される色を示し、彩度は、存在する色の量（例えば、赤色およびピンク色との間の区別）、ならびに明度、輝度または値は、光の量（例えば、暗い赤色と明るい赤色との間、または暗い灰色と明るい灰色との間の区別）を示す。これらの値がプロットされ得る「空間」は、例えば、図７に示すように、円錐形もしくは六角錐形またはダブルコーンとして示され得る。ここで、円錐軸は、黒から白への中間色の進行であり、軸からの距離は彩度を示し、軸の周りの方向または角度は色相を示す。
【００４１】
人の皮膚の色は、血液（赤色）およびメラニン（黄色、茶色）の組合せによって形成される。皮膚の色は、これらの２つの極端な色相間に存在し、いくぶんか飽和しているが、極端に飽和してはいない。人の顔の彩度成分は、比較的均一である。
【００４２】
ビデオ画像データをＲＧＢフォーマットからＨＳＶ、ＨＳＩまたはＨＬＳフォーマットに変換するためのいくつかの技術が存在する。彩度成分を抽出する任意の技術が用いられ得る。例えば、変換は、彩度成分Ｓに対して、以下の式に従って行われ得る。
ｍａｘ（Ｒ，Ｇ，Ｂ）＝０のとき、Ｓ＝０
ｍａｘ（Ｒ，Ｇ，Ｂ）が０でないとき、
Ｓ＝（ｍａｘ（Ｒ，Ｇ，Ｂ）−ｍｉｎ（Ｒ，Ｇ，Ｂ））／ｍａｘ（Ｒ，Ｇ，Ｂ）
【００４３】
変換ステップ２１の次に、彩度成分の空間画像解像度は、ステップ２２における平均化によって低下する。図２を参照しながら上述したように、ディスプレイからの観察者の顔のおよその距離は、各ビデオ画像における顔のおよそのサイズが分かるように既知である。解像度は、大人の観察者の顔が、図６に示す各寸法において、約２から３画素を占有するように低下する。以下、これを成し遂げる技術をさらに詳細に記載する。
【００４４】
ステップ２３は、ステップ２２からの解像度が低下した画像において、異なる彩度を有する解像度が低下した画素の領域によって取り囲まれた、所定のサイズおよび形状の均一な彩度を有する領域または「ブロブ（ｂｌｏｂｓ)」を検出する。これを成し遂げる技術についても以下さらに詳細に記載する。ステップ２４は、顔の候補または顔のような領域が見いだされたかどうかを検出する。見いだされなかった場合には、ステップ２０から２４が繰り返される。ステップ２４が少なくとも１つの候補が見いだされたことを確認すると、ステップ２３で検出された均一なブロブまたは各均一なブロブの位置がステップ２５で出力される。
【００４５】
図８は、画像解像度の低下ステップ２２をさらに詳細に示す。図８（ａ）の参照符号３０は、ステップ２０に与えられる画像の画素構造を示す。空間解像度は、Ｍ×Ｎ個の正方形または長方形画素の規則正しい長方形アレイとして示す。空間解像度は、平均化によって低下し、図８（ｂ）の参照符号３１で示す（Ｍ／ｍ）×（Ｎ／ｎ）画素のアレイを得る。画素３０のアレイは、それぞれが構造３０のｍ×ｎ画素を含む、画素３２の「ウィンドウ」または長方形ブロックに効果的に分割される。画素のＳ値は、ｆ（ｉ，ｊ）（０≦ｉ＜ｍおよび０≦ｊ＜ｎの場合）として図８に示す。ウィンドウの平均彩度値Ｐは、以下の式で計算される。
【００４６】
【数３】

【００４７】
図面に示す実施態様において、空間解像度の低下は、大人の観察者の顔が、各寸法における解像度が低下した画素の約２から３個を占有するようになる。
【００４８】
ステップ２３は、均一状態または値Ｕを解像度が低下したそれぞれの画素に割当て、顔のような領域を示す均一値のパターンを検出することを含む。均一値は、画素およびその近傍の彩度に応じて、１または０である。図９（ａ）は、平均化された彩度値Ｐ₀を有する画素を示す（参照符号３５）。図９（ｂ）に参照符号３６で示す彩度値Ｐ₀の均一値Ｕは、Ｐ₀および３つの近傍画素の平均化された彩度値Ｐ₁、Ｐ₂およびＰ₃から計算される。均一値の割当ては、左上の画素３７から始まり、一番上の行の終わりから２番目の画素３８に均一値が割り当てられるまで左から右に進む。このプロセスは、各行について上から下へと終わりから２番目の行まで繰り返される。このように画素を「走査」し、均一値が計算された画素の右および下の近傍画素を用いることによって、メモリ容量が効率的に使用され得るようにストアに上書きすることによって、平均彩度値Ｐを均一値Ｕで置き換えることが可能であり、均一値のためにさらにメモリ容量を提供する必要はない。
【００４９】
均一状態Ｕは、以下のように計算される。
（ｆｍａｘ−ｆｍｉｎ）／ｆｍａｘ≦Ｔのとき、Ｕ＝１
（ｆｍａｘ−ｆｍｉｎ）／ｆｍａｘ＞Ｔのとき、Ｕ＝０
ここで、Ｔは、例えば、典型的な値０．１５を有する所定の閾値、ｆｍａｘは、Ｐ₀、Ｐ₁、Ｐ₂、およびＰ₃の最大値であり、ｆｍｉｎは、Ｐ₀、Ｐ₁、Ｐ₂、およびＰ₃の最小値である。
【００５０】
均一値の割当てが完了すると、アレイ３６は、解像度が減少した画素の彩度の均一を示す０および１のパターンを含む。ステップ２３は、顔のような領域を検出するために０および１の特定のパターンを探す。図１０は、均一値の４つのパターンおよびそれらのパターンに対応する、ビデオ画像内の顔候補のような画素彩度パターンの一例を示す。図１０は、均一ブロブを参照符号４０で示す。ここで、暗い領域は、顔のような領域を示すための充分な均一性を有する平均化された彩度値を示す。周りの明るい領域または正方形は、均一な彩度画素を取り囲み、実質的に異なる彩度を有する領域を示す。均一値の対応するパターンは、参照符号４１で示され、均一値０を有する画素ロケーションで完全に取り囲まれている、均一値１を有する画素ロケーションを含む。
【００５１】
同様に、図１０は、他の顔のような領域を参照符号４２で示し、対応する均一値のパターンを参照符号４３で示す。この場合、２つの水平に隣接する画素ロケーションは、均一値１を有し、且つ均一値０を有する画素ロケーションによって完全に取り囲まれている。図１０は、均一値が参照符号４５で示され、２つの垂直に隣接した画素ロケーションが、均一値１を有し、且つ均一値０を有する画素ロケーションによって取り囲まれている第３のパターンを参照符号４４で示す。
【００５２】
図１０に参照符号４６で示す第４のパターンは、均一値０を有する画素ロケーションによって完全に取り囲まれている均一値１を有する４（２×２）個の画素ロケーションの正方形ブロックを有する。従って、図１０で参照符号４１、４３、４５および４７で示す均一値のパターンのいずれかが起こるときは常に、ステップ２３は、顔のような領域または候補が見いだされたことを示す。これらのパターンの検索は効率的に行われ得る。例えば、画素ロケーションの均一値は、各行において左から右、およびフィールドの上から下に走査することによって順にチェックされる。均一値１が検出されると、現在の画素ロケーションの右および下にある近隣画素ロケーションが調べられる。これらの均一値の少なくとも１つがまた１であり、領域が均一値０によって取り囲まれている場合、可能性のある顔候補に対応するパターンが見いだされる。次に、対応する画素ロケーションは、均一値を、例えば、１または０以外の値（例えば、２の値）で置き換えることによってマークされ得る。可能性のある顔候補が見いだされなかった場合を除いて、候補の位置が出力される。
【００５３】
パターン４０、４２、４４および４６の外観は、解像度が低下した画素３６の構造に対する顔のような領域の実際の位置によって影響され得る。図１１は、参照符号４９で示す解像度が低下した２×２の画素サイズを有する顔のような領域についての例を示す。円５０によって示される顔のような領域が、２×２のブロックをほぼ中心とする場合、均一な値のパターン４７が得られ、検出は正しい。しかし、参照符号５１で示すように、顔が水平および垂直方向に半画素だけシフトしている場合には、顔のような領域の中央部分は、参照符号５１で示すように、周りの領域とは異なる均一値を有し得る。これは、結果として、純粋な候補の検出に失敗することになり得る。
【００５４】
このような起こりうる問題を避けるために、ステップ２１から２４は、画像データの同じビデオフィールドまたは１つまたはそれ以上の連続したビデオフィールドに対して繰り返され得る。しかし、ステップ２１から２４が繰り返される度に、解像度が低下した画素のアレイ３１の位置は、カラー画像画素のアレイ３０に対して変化する。これを図１２に示す。図１２において、画像全体は参照符号５２で示し、画像平均化による空間解像度の低下に使用される領域は参照符号５３で示す。平均化は、図８に示すのと同様に行われるが、開始位置は変化する。特に、図８の第１画素に対する開始位置は、画像全体５２の左上の角５４であるが、図１２はその後に行われる平均化を示す。ここでは、開始位置は、水平方向に左上の角から量Ｓｘだけ右にシフトし、垂直方向に量Ｓｙだけ下にシフトしている。ここで、
０＜Ｓｘ＜ｍ、および０＜Ｓｙ＜ｎ
である。
【００５５】
各画像は、ＳｘおよびＳｙのすべての組合せが用いられ、ｍ×ｎプロセスが行われるように、繰り返し処理され得る。しかし、実際には、特に、顔のような領域の検出があまり正確である必要がない応用においては、すべての開始位置を用いる必要はない。例えば、顔のような領域の検出が、上述したように、２ステッププロセスの第１のステップを形成する場合、ＳｘおよびＳｙの値は、以下のようなよりまばらなセットの組合せから選択され得る。
Ｓｘ＝ｉｘ（ｍ／ｋ）、およびＳｙ＝ｊｘ（ｎ／ｌ）
ここで、ｉ、ｊ、ｋおよびｌは、以下の関係を満足する整数である。
０≦ｉ＜ｋ
０≦ｊ＜ｌ
１≦ｋ＜ｍ
１≦ｌ＜ｎ
これは、全部でｋ×ｌの組合せとなる。
【００５６】
上記のように、ステップ２１から２４は、同じ画像または連続した画像上の異なる開始位置で繰り返され得る。リアルタイム画像処理については、連続した画像についてステップを繰り返すことが必要または好適であり得る。方法は、非常に迅速に行われ得、画像内に存在する顔の候補の数によって、１０Ｈｚと６０Ｈｚとの間のフィールドレートでリアルタイムで行われ得る。従って、およそほんの数秒以下の短い期間内で、すべての可能な位置がテストされ得る。
【００５７】
図６に示す方法は、図２に示す方法のように、任意の適切なハードウェアにおいて行われ得る。上記のように、トラッキングプロセッサ４は、図６の方法を、図３に示す初期化ステージ９の一部として実行するようにプログラムされることが可能である。データ処理は、Ｒ４４００プロセッサおよび関連のメモリによって行われ、プロセッサ４は、図２に示すように、彩度値、解像度が低下した画素の平均化された彩度値、および均一値を格納するためのビデオディジタイザおよびフレームストアを含む。
【００５８】
図６に示す方法は、周辺光を含む均一な照明で良好に作用し、アクティブな光源を用いることによって、良好でない照明条件下での応用に適用され得る。この方法は、特別な照明を必要とせず、観察者の照明の変化に対しても非常に回復が速いが、図２の初期化ステージ９においてはアクティブな光源を用いて、次の観察者トラッキング中にスイッチオフしてもよい。トラッキングは非常に強力で、特別な照明を必要としないからである。
【００５９】
図１３は、アクティブな照明を提供するように改変された図２に示すタイプのディスプレイを示す。アクティブな光源は、プロセッサ４によって制御されるシンクロナイザを有するフラッシュライト５５を含む。フラッシュライト５５は、ディスプレイ７の上およびセンサ３の隣りなど、適切な位置に配置され、観察者の顔を照射する。
【００６０】
図１４は、ビデオトラッキングシステム２、特にデータプロセッサ４をさらに詳細に示す。データプロセッサは、ＣＰＵバス５７に接続された中央処理装置（ＣＰＵ）５６を有する。システムメモリ５８は、バス５７に接続され、データプロセッサを作動するためのシステムソフトウェアをすべて含む。
【００６１】
ビデオカメラ３は、ビデオディジタイザ５９に接続され、ビデオディジタイザ５９は、データバス６０、シンクロナイザを有するフラッシュライト５５、ＣＰＵ５６、および、オプションのビデオディスプレイ６１が設けられているときには、ビデオディスプレ６１に接続されている。フレームストア６２は、データバス６０およびＣＰＵバス５７に接続されている。
【００６２】
アクティブな照明を用いない実施態様では、フレームストアは、１つのフィールドの容量をもつだけでよい。６４０×２４０画素のフィールド解像度を有する上記のビデオカメラ３の場合、２４ビットのＲＧＢカラー信号に対しては、６４０×２４０×３＝４６０８００バイトの容量が必要である。アクティブな照明を用いる実施態様については、フレームストア６２は、２つのフィールドのビデオデータの容量（即ち、９２１６００バイト）を有する。
【００６３】
使用時には、フラッシュライト５５は、ビデオカメラ３およびビデオディジタイザ５９と同期され、フラッシュライトは、画像がキャプチャされているときに、適切なタイミングでスイッチオンまたはオフされる。
【００６４】
フラッシュライト５５は、観察者の顔に光を当てて、分布の均一性を高めるために用いられる。フラッシュライト５５が周辺光よりもはるかに強い場合、顔の輝度は、フラッシュライト５５によって主に決定される。しかし、強力な光源を用いると、過飽和状態の画像を生成する傾向があり、この場合、多くの物体が、顔のような領域として誤って検出され得る。さらに、強力なフラッシュライトの使用は、観察者にとって不快であり、目に損傷を与え得る。
【００６５】
従って、フラッシュライト５５は、中庸な強度であるのがよい。この場合、周辺光の影響は、純粋な顔のような領域を検出する信頼性を向上させるために減少される必要があり得る。
【００６６】
図６に示す方法は、１つがフラッシュライト５５を照射した状態で得られ、もう１つが周辺光のみで得られる２つの連続したフレームのビデオ画像データを比較するように改変され得る。従って、これらのフレームのうちの最初のフレームは、周辺光およびフラッシュライト５５の両方の影響を含んでいる。従って、この最初の画像Ｉ（ａ＋ｆ）は、２つの成分を含むものと見なされ得る。
Ｉ（ａ＋ｆ）＝Ｉ（ａ）＋Ｉ（ｆ）
ここで、Ｉ（ａ）は、周辺光のみで得られた画像で、Ｉ（ｆ）は、唯一の光源がフラッシュライト５５である場合に生成されるであろう画像である。これは、以下のように書き直され得る。
Ｉ（ｆ）＝Ｉ（ａ＋ｆ）−Ｉ（ａ）
従って、ステップ２１またはステップ２２において、画像画素データまたは解像度が低下したデータを減算することによって、フラッシュライト５５による背景の過飽和の影響が低減され得る。さらなる低減は、フラッシュライト５５が、観察者の顔によって占有される可能性の高い領域に主に光を方向づけることを確実にすることによって得られ得る。
【００６７】
【発明の効果】
上記のように、本発明の方法および装置によれば、人の皮膚が均一な彩度を有するという特性を利用し、カラー画像における顔の候補を見いだす方法が提供される。広範囲な照明条件は、カラー較正の必要なく適応されるので、この技術は、公知の技術よりもより信頼があり、便利である。画像の彩度の解像度を低下させることによって、計算要件は大幅に減少し、比較的簡単な方法が使用され得る。平均化によって、顔領域の彩度の均一性が向上するので、この技術は、異なる年齢、性別、および皮膚の色の人々の画像における顔の候補を認識することができ、明るい色の眼鏡をかけている場合にも対応できる。この技術は非常に効率的であるため、リアルタイムで実現され、低コストの商業的な応用に使用され得る。
【００６８】
本発明によるこのような方法は、例えば、観察者トラッキング自動立体ディスプレイと関連し得る画像トラッキングシステムの初期化ステージで、画像内の顔を検出し、ターゲット画像をキャプチャするための他の方法と関連して使用することができる。このような方法および装置は、例えば、皮膚の色の検出、顔の検出および認識、安全監視、ビデオおよび画像圧縮、ビデオ会議、マルチメディアデータベース検索、ならびにコンピュータゲームにおいて広範囲に適用可能である。
【図面の簡単な説明】
【図１】公知のタイプの観察者トラッキング自動立体ディスプレイの概略ブロック図である。
【図２】本発明が適用され得る観察者トラッキングディスプレイの概略ブロック図である。
【図３】図２のディスプレイにおける観察者トラッキングを示す流れ図である。
【図４】図３に示す方法によってキャプチャされる典型的なターゲット画像（（ａ））またはテンプレート（（ｂ））を示す。
【図５】図２のディスプレイによるテンプレートキャプチャ中のディスプレイの外観を示す。
【図６】本発明の実施態様を構成する顔のような領域を検出する方法を示す流れ図である。
【図７】色相彩度値（ＨＳＶ、ｈｕｅｓａｔｕｒａｔｉｏｎｖａｌｕｅ）色方式を示す図である。
【図８】図６に示す方法における平均化による画像解像度低下を示す図であり、（ａ）は与えられた画像構造であり、（ｂ）は平均化によって空間解像度が低下された画素構造を示す。
【図９】（ａ）および（ｂ）は、図６に示す方法における均一値の計算を説明する図である。
【図１０】図６に示す方法における顔候補の選択に用いられるパターンを示す図であり、（ａ）〜（ｄ）は均一値の４つのパターン、およびそれらのパターンに対応するビデオ画像内の顔候補のような画素彩度パターンの一例を示す。
【図１１】顔の異なる位置の、図６に示す方法に対する影響を示す図であり、（ａ）は顔のような領域が２×２のブロックをほぼ中心とする場合を示し、（ｂ）は顔のような領域が水平および垂直方向に半画素だけシフトしている場合を示す。
【図１２】異なる顔の位置を収容する、図６に示す方法への改変を示す図である。
【図１３】本発明が適用される観察者トラッキングディスプレイの概略ブロック図である。
【図１４】本発明の方法を実施するための、図１３のディスプレイのビデオトラッキングシステムのシステムブロック図である。
【符号の説明】
１ディスプレイシステム
２トラッキングシステム
３トラッキングセンサ
４トラッキングプロセッサ
５ディスプレイ制御プロセッサ
６操縦機構
７トラッキング機能を備えた３Ｄディスプレイ
８マウス
９初期化ステージ
１０トラッキングステージ
１１テンプレート

Claims

Ｍ×Ｎ個の絵素の長方形アレイを含むカラー画像をキャプチャするビデオカメラの出力から得られるカラー画像から顔のような領域を検出する方法であって、
顔の位置の予想範囲に光を照射している間に前記ビデオカメラによってキャプチャされた第１のフレームのカラー画像から、周辺光を用いてキャプチャされた前記第１のフレームに連続する第２のフレームのカラー画像を減算することによってカラー画像を形成するステップと、
該ステップにて形成されたカラー画像の前記各絵素の彩度を平均化することによって、（Ｍ／ｍ）×（Ｎ／ｎ）個のウィンドウを含む解像度が低下した画像を形成するステップと、
該解像度が低下した画像において、所定の形状を有する領域であって、該領域を取り囲む部分の彩度とは異なる均一な彩度を有する領域を検索するステップとを包含し、
前記検索するステップは、前記解像度が低下した画像における前記ウィンドウのそれぞれの彩度と、該ウィンドウの少なくとも１つの隣接したウィンドウの彩度とを比較し、次式
（ｍａｘ（Ｐ）−ｍｉｎ（Ｐ））／ｍａｘ（Ｐ）≦Ｔ
（ここで、ｍａｘ（Ｐ）およびｍｉｎ（Ｐ）が、それぞれ、前記ウィンドウまたは前記隣接したウィンドウの彩度の最大および最小であり、Ｔが閾値である）
が満たされる場合に、前記ウィンドウのそれぞれに均一値として第１の値を割り当て、前記式が満たされない場合に、前記各均一値として、前記第１の値とは異なる第２の値を割り当てて、前記均一値としての前記第１の値が、前記解像度が低下した画像における１つの前記ウィンドウ、２つの垂直または水平に隣接した前記ウィンドウ、および前記ウィンドウの長方形の２×２アレイのいずれか１つに割り当てられ、前記均一値としての第２の値が、前記領域を取り囲む部分の各ウィンドウのそれぞれに割り当てられるとき、顔のような領域の検出を示すことを特徴とする、方法。
前記解像度が低下した画像の前記各ウィンドウの彩度Ｐが、以下の式

で表され、ここで、ｆ（ｉ，ｊ）が、前記ｍ×ｎ個の絵素のｉ番目の列およびｊ番目の行の絵素の彩度である、請求項１に記載の方法。
ストアに前記彩度を格納するステップを含む、請求項２に記載の方法。
前記式におけるＴが０．１５に等しい、請求項１に記載の方法。
前記解像度が低下した画像における前記ウィンドウまたは前記隣接したウィンドウに均一値が割り当てられると、前記格納ステップにおいて、前記各均一値が前記対応する彩度の代わりに前記ストアに格納される、請求項３に記載の方法。
ストアに前記彩度または前記均一値を格納するステップを含み、該格納するステップにおいて、前記対応する彩度または均一値の代わりに、前記第１および第２の値とは異なる第３の値を該ストアに格納し、該格納によって顔のような領域の検出が示される、請求項１に記載の方法。
前記検索ステップが、異なるカラー画像に対して前記解像度低下を繰り返し、前記カラー画像の絵素に対して前記ウィンドウがシフトした状態で、少なくとも１回は検索をすることを含む、請求項１から６のいずれか１つに記載の方法。
前記彩度が、以下の式で、赤色、緑色および青色成分から得られ、
（ｍａｘ（Ｒ，Ｇ，Ｂ）−ｍｉｎ（Ｒ，Ｇ，Ｂ））／ｍａｘ（Ｒ，Ｇ，Ｂ）
ここで、ｍａｘ（Ｒ、Ｇ、Ｂ）およびｍｉｎ（Ｒ、Ｇ、Ｂ）が、それぞれ、該赤色、緑色および青色成分の最大値および最小値である、請求項１から７のいずれか１つに記載の方法。
前記解像度低下ステップおよび前記検索ステップが、前記ビデオカメラからの異なるビデオフィールドまたはフレームに対して繰り返される、請求項１に記載の方法。
Ｍ×Ｎ個の絵素の長方形アレイを含むカラー画像をキャプチャするビデオカメラと、該ビデオカメラのフレームタイミングに同期して顔の位置の予想範囲に光を照射するフラッシュライトと、前記ビデオカメラによってキャプチャされたカラー画像から顔のような領域を検出するためのデータプロセッサとを有する装置であって、
該データプロセッサが、
前記ビデオカメラによって、前記フラッシュライトにより顔の位置の予想範囲に光を照射している間にキャプチャされた第１のフレームのカラー画像から、周辺光を用いてキャプチャされた前記第１のフレームに連続する第２のフレームのカラー画像を減算することによってカラー画像を形成する手段と、
該手段によって形成されたカラー画像の前記各絵素の彩度を平均化することによって、（Ｍ／ｍ）×（Ｎ／ｎ）個のウィンドウを含む解像度が低下した画像を形成する画像形成手段と、
該画像形成手段によって得られる解像度が低下した画像において、所定の形状を有する領域であって、該領域を取り囲む部分の彩度とは異なる均一な彩度を有する領域を検索する検索手段とを備え、
前記検索手段は、前記解像度が低下した画像における前記ウィンドウのそれぞれの彩度と、該ウィンドウの少なくとも１つの隣接したウィンドウの彩度とを比較し、次式
（ｍａｘ（Ｐ）−ｍｉｎ（Ｐ））／ｍａｘ（Ｐ）≦Ｔ
（ここで、ｍａｘ（Ｐ）およびｍｉｎ（Ｐ）が、それぞれ、前記ウィンドウまたは前記隣接したウィンドウの彩度の最大および最小であり、Ｔが閾値である）
が満たされる場合に、前記ウィンドウのそれぞれに均一値として第１の値を割り当て、前記式が満たされない場合に、前記各均一値として、前記第１の値とは異なる第２の値を割り当てて、前記均一値としての前記第１の値が、前記解像度が低下した画像における１つの前記ウィンドウ、２つの垂直または水平に隣接した前記ウィンドウ、および前記ウィンドウの長方形の２×２アレイのいずれか１つに割り当てられ、前記均一値としての第２の値が、前記領域を取り囲む部分の各ウィンドウのそれぞれに割り当てられるとき、顔のような領域の検出を示すことを特徴とする、装置。
請求項１０に記載の装置を有する観察者トラッキングディスプレイ。