JP2012512478A

JP2012512478A - 顔姿勢推定を提供するための方法、装置、およびコンピュータプログラム

Info

Publication number: JP2012512478A
Application number: JP2011541628A
Authority: JP
Inventors: ジアーンウェイリー; コーンチャオワーン; レイシュイ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2008-12-30
Filing date: 2009-12-14
Publication date: 2012-05-31
Also published as: WO2010076621A1; US20100166317A1; RU2011130626A; US8396263B2; EP2370932B1; KR20110100666A; EP2370932A4; CN102272774A; EP2370932A1; CN102272774B

Abstract

顔検出のために顔姿勢推定を提供するための方法。画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用することと、決定した粗姿勢情報に少なくとも部分的に基づいて、顔候補の精密姿勢情報を決定することと、精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いることと、を含んでもよい。本方法に対応する装置およびコンピュータプログラムも提供される。
【選択図】図８

Description

本発明の実施形態は、主に画像処理技術に関し、より具体的には、顔姿勢推定（Face Pose Estimation）を実現する方法や装置、コンピュータプログラムに関する。

背景

顔検出や顔認識は、ますます重要な技術になってきている。例えば顔検出は、バイオメトリクスやユーザインターフェース、ゲームなどにおいて有用であり、また、モバイル分野においてコミュニティにアクセスするためのコンテンツを作成するなど様々な分野において有用であろう。また、顔検出は、メタデータ標準化等の構想に関しても、将来は重要になり得る。

顔検出技術は、改善を続けているが、多くの現在の方法は、高い計算能力を必要とする。例えば、様々なスケールで横断的に画像を走査することによって顔を検出する統計的方法はそのようなものである。また、顔検出性能の不足という問題を抱えているものもある。例えば、構造ベースの方法は、顔検出に関して比較的高い誤警報を出してします。さらに、統計的顔検出機構によっては、多視点顔検出（multi-view face detection）は、正面を向いている顔の検出に比べて性能が劣化してしまう。別の複雑な問題として、ある光景の中に複数の顔が含まれている場合、これらがカメラに対して常に同じ方向に向いているとは限らず、これは顔検出に悪影響を及ぼしうる。例えば、面内回転（例えば顔から観察者への軸に沿って回転する顔）は、場合によっては顔検出を複雑にしうる。

機器の開発への努力は、要求に応じて素早くコンテンツを作成し、コンテンツを格納し、および/またはコンテンツを受信する能力を増強し続けている。また、現代世界において、（例えば携帯電話等のモバイル電子機器のような）電子機器は、ますます普遍的になってきており、このような機器の能力を引き出すためのインターフェース機構やアクセス機構の改善の努力も活発である。このような要因のため、顔検出の分野において更なる改善を提供することが望ましい。

いくつかの例の概要

ゆえに、改善された顔検出機構を可能にするための方法、装置、およびコンピュータプログラムが提供される。ある例示的実施形態では、統計的および構造的顔検出方法のある特徴を、その両方に関する利益を享受すると共に、これらに関する不利益を減少させるように、融合して利用することができる機構が提供される。したがって、本発明の実施形態は、様々な条件下であっても、顔を検出するための比較的ロバストな能力を提供することができる。

例示的実施形態では、顔検出に使用するための顔姿勢推定を提供する方法が提供される。この方法は、画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用することと、前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定することと、前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いることと、を含んでもよい。

別の例示的実施形態では、顔検出に使用するための顔姿勢推定を提供するコンピュータプログラム製品が提供される。コンピュータプログラム製品は、コンピュータ実行可能プログラムコード命令がその中に格納された少なくとも１つのコンピュータ可読ストレージ媒体を含む。前記コンピュータ実行可能プログラムコード命令は、画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用するためのプログラムコード命令と、前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定するためのプログラムコード命令と、前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いるためのプログラムコード命令と、を含んでもよい。

別の例示的実施形態では、顔検出に使用するための顔姿勢推定を提供する装置が提供される。この装置はプロセッサを備えてもよい。このプロセッサは、画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用し、前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定し、前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いるように構成されうる。

さらに別の例示的実施形態では、顔検出に使用するための顔姿勢推定を提供する装置が提供される。この装置は、画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用する手段と、前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定する手段と、前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いる手段と、を含んでもよい。

本発明の実施形態は、例えば、モバイル環境または固定的接続環境で用いるための方法、装置、およびコンピュータプログラムを提供することができる。結果として、例えば、コンピューティング機器のユーザは、顔検出について改善された能力を享受しうる。

本発明について概括的に説明したところで、添付の図面を参照されたい。これらの図面は、必ずしも一定の縮尺で描かれているとは限らない。
本発明の例示的実施形態に従う、複数のセクタへの回転面の分割の例を図示する。本発明の例示的実施形態に従う、姿勢評価のための統計的機構の例を示す。本発明の例示的実施形態に従う、顔検出のための構造的方法および統計的方法の融合の一例を図示する。本発明の例示的実施形態に従う、顔検出のための構造的方法および統計的方法の融合の一例を図示するブロック図である。本発明の例示的実施形態に従う、プッシュスイッチベースの姿勢推定器の例を図示する。本発明の例示的実施形態に従う、顔姿勢推定を提供する装置のブロック図を図示する。本発明の例示的実施形態に関連して、粗姿勢評価部を使用して達成されうる粗姿勢評価の例を示す。本発明の例示的実施形態に従って顔検出に使用するための顔姿勢推定を提供する例示的方法に従うフローチャートである。

いくつかの実施例の詳細説明

次に、本発明のいくつかの実施形態について、添付の図面を参照して以下により詳しく説明する。これらの図面において、本発明の実施形態のいくつかが示されるが、全てが示されるわけではない。当然ながら、本発明の様々な実施形態は、多くの異なる形式で具現化されてもよく、本明細書に記載の実施形態に限定されるように解釈されるべきではない。むしろ、これらの実施形態は、適用される法的必要条件を満たすように提供される。同一の参照番号は、明細書において同一の要素を指す。本明細書で使用する際、用語の「データ」、「コンテンツ」、「情報」、および類似の用語は、本発明の実施形態に従って送信、受信、および/または格納可能であるデータを指すように互いに言い換えられうる。さらに、用語の「例示的」は、本明細書で使用する際、任意の定性的評価を伝えるために提供されるのではなく、代わりに、単に、例を示すことを伝えるためだけに提供される。さらに、本明細書において、遠近を表わす用語は、任意の特定の位置や定量化可能な位置を表わすのではなく、互いにある点から近いおよび遠い物体を指すように相対的な意味で使用される。したがって、任意のこのような用語の使用は、本発明の実施形態の思想および範囲を制限するように解釈されるべきではない。

本発明のいくつかの実施形態は、顔検出および/または顔認識に関連して改善を行い得る機構を提供することができる。この点に関し、例えば、ある実施形態は、リアルタイムまたはほぼリアルタイムの顔検出スキームを提供することができ、このスキームは、メタデータ割り当て、バイオメトリクス、ゲーム、およびハンドヘルド型機器または他のコンピューティング機器上の多くのアクティビティに適切でありうる。

撮影された多くの画像について、画像における１人または複数の個人は、そのそれぞれの姿勢や顔の見え方を規定する様々な異なる面内および面外回転を有しうる。画像における顔姿勢を規定するこれらの回転は、顔検出および顔認識を複雑にしうる。応答に関する２つの基礎的なカテゴリが、これらの状況に対処する様々な技術について開発されている。この点に関し、第１のカテゴリは、複数のトレーニングされた検出器を使用する姿勢評価を含む。この手法では、複数の顔検出器が、それぞれ対応する姿勢を有するトレーニングセットを与えられて、トレーニングされる。これらのトレーニングセットは、様々な異なる量の面内および/または面外回転（例えば様々な姿勢）に向いた複数の顔を含む。次いで、トレーニングされた検出器に複数の画像パッチを通すことを試みてもよい。ある画像パッチが通過し、かつ顔と認識する検出器は、その顔に対応する姿勢を示しうる。図1は、20個のセクタへの回転面の分割の例を示す。セクタ毎に、対応する姿勢を有する顔に基づいて、顔検出器がトレーニングされうる。図1から分かるように、各セクタは、特定の面内回転および特定の面外回転を規定する。全てのセクタを処理し、かつ各セクタの許容範囲を考慮することによって、20個のトレーニングされた検出器は、画像内の様々な異なる姿勢を有する顔を検出し、多視点顔検出アプリケーションやシステムにおいて顔姿勢情報の推定を提供することが可能でありうる。

しかし、この手法の不利点の１つとして、この手法がある姿勢の範囲を提供するだけで、必ずしも正確な姿勢情報を提供するわけではないことが挙げられる。加えて、セクタの数と、検出器のトレーニングにおける収束困難性との間にはトレードオフが存在する。例えば、図1のセクタAは、面内回転で−４５度から４５度の姿勢変動を対象とする。したがって、検出器をトレーニングするためのトレーニング例を提供するためのトレーニングデータベースは、その領域内における変化をカバーするように多くの例を含まなければならないが、それによって、比較的大きなパターン変動に起因して、トレーニング中の収束困難性がもたらされうる。この不利点は、収束を容易にするために、セクタの数を増加させることによって部分的に解決されうる。しかし、セクタの数を増加させる（例えば２倍にする）ことによって、姿勢評価に消費される時間が対応して増加しうる（例えば２倍）。消費される時間の増加は、リアルタイムシステムについては許容できないことがある。

多視点顔検出に対するアプローチの別のカテゴリは、姿勢分類部をトレーニングすることによる、姿勢評価を含んでもよい。ある画像パッチについて、姿勢が、最初に、姿勢分類部によって推定されうる。次いで、画像パッチは、画像パッチが顔を含むか否かを検証するために、分類された姿勢に対応する顔検出器に送信される。20個のセクタ（例えばセクタA）を含む図1の例示的実施形態では、姿勢分類部は、対応する20個の姿勢を区別するようにトレーニングされる。また、この手法も、正確な姿勢の代わりに、姿勢の範囲のみを提供する。一方、20個もの姿勢を区別するように個々の姿勢分類部をトレーニングすることは、パターン分析において古典的困難である、複数のカテゴリ分類問題に関連するため、実現するのが困難なタスクになりうる。場合によっては、20個の姿勢分類部をトレーニングし、各分類部を使用して、１つの姿勢および残りの姿勢を分析することが可能であろう。しかし、この解決法も、時間を消費する可能性があるため、リアルタイムシナリオにおいてそれほど有用ではあり得ない。

したがって、本発明の実施形態は、トレーニング収束における困難性、姿勢評価における粗さ又は精度欠如、および姿勢評価における低時間効率に関連する問題を対処することを対象としうる。具体的には、本発明の実施形態は、顔検出について、構造ベースおよび統計ベースの特有の融合を提供することができる。この点に関し、本発明の実施形態は、最初に、統計的方法を使用して粗い姿勢判断を用い、その後、構造的方法を使用した精密姿勢判断を用いて、顔の画像パッチを分析しうる。次いで、（例えば垂直方向に回転した）正規化データを使用して、画像パッチにおける顔の存在を（例えば別の統計的方法を使用して）分析しうる。したがって、いくつかの実施形態は、姿勢ベースの顔検出アプリケーションを実行する前に、精密姿勢判断を提供する。したがって、本発明の実施形態は、顔ベースのアプリケーションのために、比較的少ない計算負荷の増加で、精密姿勢情報を提供することができる。一般的に、本発明の実施形態は、プッシュスイッチベースの顔評価部に関連すると言い表すことができる。というのも、２つの異なる方法の間で情報がプッシュされ、方法スイッチが元の方法へ情報をプッシュして戻すからである。

顔検出は、場合によっては、検出器を形成する分類部のカスケードを使用して達成されうる。これについて、図1の例において示すように、20個の異なる検出器が、弱分類部（weak classifier）をカスケード接続することによって形成されうる。弱分類部は、真分類（true classification）に若干だけ相関する分類部として定義されうる。反対に、強分類部（strong classification）は、真分類に任意に十分相関する分類部でありうる。弱分類部は、強分類部よりも作成するのが容易でありうる。しかし、複数の弱分類部は、場合によっては、より低コストで、強分類部が提供する結果と同程度でありうる結果を提供することができる。

図2は、図1の例と併用して使用されうる姿勢評価のために用いうる機構を図示する。n個の検出器（例えば図1の例では20個の検出器）は、対応するトレーニング姿勢に類似する特徴を有する顔を検出するために、特定の姿勢またはある領域の姿勢を有する顔についてトレーニングされた弱分類部のカスケード式の組から構成されうる。したがって、各検出器は、対応する特定の姿勢についてトレーニングされうる。したがって、例えば、画像パッチが検出器1を通過し、顔検出をもたらす場合、検出された顔は、検出器をトレーニングするために使用されたトレーニング顔に関連付けられた姿勢に類似する対応する姿勢（例えば姿勢1）を有すると考えられ得る。一方、画像パッチが検出器1に関連して顔検出を生成しない場合であっても、その画像パッチは、依然として、他の検出器（例えば検出器2から検出器nのいずれか）のうちの１つ以上について対応する姿勢を有する顔検出を生成しうる。ゆえに、動作中、画像パッチは、様々な対応する姿勢を有する可能な顔を検出するように構成された多視点顔検出器を実現するために、検出器の全てに入力されうる。可能な顔毎の姿勢情報は、顔を検出した検出器に基づいて同時に判断可能でありうる。

顔検出は、顔ベースのアプリケーションの中心となるため、顔検出を実行する前に、最初に姿勢情報を決定することは有益でありうる。姿勢判断の実行は、最初に、図2に示す機構等の統計的方法を使用して、比較的粗く行われてもよい。次いで、決定した粗姿勢情報に基づいて、精密姿勢情報が、構造ベースの方法を使用して達成されてもよく、これによって、統計的方法および構造的方法が融合される。図3は、例示的実施形態に従う、顔検出のための構造的方法および統計的方法の融合の一例を図示する。これについて、図3に示すように、姿勢評価の統計的方法20（例えば図2の初期段階に類似する）は、各々がカスケード式の一連の弱分類部を備えるいくつかの検出器によって実行されてもよく、この場合、各検出器は、特定領域の姿勢に対応する（例えば面外回転角度および/または面内回転角度の所定の領域を対象とする）。

画像パッチを統計的方法20に通した結果として、粗姿勢情報22が、精密姿勢情報26を得るために、構造的方法24に通されうる。パッチを正規化した後、統計的方法28（例えば図2の実施形態からの残りの段階または部分に類似する）が、正規化されたパッチ30に用いられ、オーバーヘッドコストを大幅に増加させることなく、比較的正確でかつロバストでありうる顔検出出力32を提供することができる。

図3に示す実施形態の特徴的な側面は、姿勢評価部を形成するための、いくつかの弱分類部を備える検出器と構造ベースの方法との組み合わせに関する。したがって、本発明のある実施形態は、粗い姿勢判断について図2の統計的方法の１つまたは複数の初期段階を用い、次いで、精密姿勢判断を実行するために構造的方法を用いることによって実現されうる。顔検出のための統計的方法の残りの弱分類部のいくつかまたは全部は、それぞれの検出器において、対応する顔検出のために使用されうる。しかし、それとは別の一般的統計的方法が、図2に示す統計的方法の部分を使用する代わりに、図4に示すように、図3の統計的方法20および統計的方法28に関連する処理のために使用されてもよい。

図4は、例示的画像パッチについて図3を参照して説明した例のブロック図を示す。画像パッチ40は、統計的方法42を使用して、粗い姿勢判断のために分析されうる。例えば、粗い姿勢判断は、面内回転の約90度から135度の間と、ほぼゼロの面外回転とを有する姿勢を示して達成されうる。次いで、構造的方法44を用いて、135度の面内回転およびゼロの面外回転の精密姿勢判断を得ることができる。次いで、画像パッチ46は、正規化のために垂直方向に回転されてもよく、別の統計的方法48（または同じ統計的方法の一部分）が、顔検出のために用いられてもよい。図2〜図4から分かるように、本発明の実施形態は、別の姿勢分類部を必要とせずに、顔ベースのアプリケーションのために顔検出を実行しうる。したがって、本発明の例示的実施形態の時間効率は、既存の方法よりも向上しうる。

図5は、本発明の例示的実施形態に従う、プッシュスイッチベースの姿勢推定器の例を図示する。図5に示すように、所定の画像パッチでは、統計ベースの方法（例えば上記図3に関連して説明したような、適応ブースト（adaptive boosting; Adaboost）ベースの統計的方法50）が、初めに、粗い姿勢推定52のために用いられてもよい。粗い姿勢推定52は、精密姿勢評価56をもたらすために、構造ベースの検出方法54に提供されうる。パッチは、構造ベースのスキームによって垂直方向に回転され、顔検出、顔認識等のために、Adaboostベースの統計的方法50に押し戻されうる。

上述のように、Adaboostは、本発明の実施形態に関連して用いられ得る統計的方法の例でありうる。統計的方法の他の例として、Gentle-Boost、RealBoost、FloatBoost、および/またはその同等方法を挙げることができる。一方、例示的構造的方法は、それぞれの異なる面内回転角度の対象を提供する様々な異なる向きにおける検出器を用いること、および画像特徴がそれに対して比較されうる異なる向きの顔テンプレートを用いることを含んでもよい。場合によっては、構造ベースのスキームを用いた結果は、分析された画像パッチが垂直方向に回転されることでありうる。

図6は、本発明の例示的実施形態に従う、顔検出のための顔姿勢推定を可能にする装置の略ブロック図の一例を図示する。本発明の例示的実施形態について図6を参照して説明し、図6では、顔検出のための顔姿勢推定を可能にする装置の一定の要素が表示される。図6の装置は、例えば、モバイル端末（例えば携帯電話機、ゲーム機、携帯情報端末（personal digital assistant; PDA）、および/またはその同等物）または移動型または固定型の両方である多種多様の他の機器（例えばネットワーク機器、パーソナルコンピュータ、ラップトップコンピュータ、デジタルカメラ、またはその同等物）で用いられ得る。また、実施形態は、複数の機器の組み合わせに対して用いられてもよい。したがって、本発明のいくつかの実施形態は、完全に単一の機器において具現化されうるか、またはクライアント/サーバ関係にある機器によって具現化されうる。さらに、後述する機器または要素が必須でなくてもよく、実施形態によってはいくつかを省略してもよいことに留意されたい。

図6を参照すると、顔検出のための顔姿勢推定を可能にする装置が提供される。装置は、プロセッサ70、ユーザインターフェース72、通信インターフェース74、およびメモリ機器76を含んでもよいか、あるいはそれらと通信しうる。メモリ機器76には、例えば、揮発性および/または不揮発性メモリが含まれてもよい。メモリ機器76は、本発明の例示的実施形態に従う様々な機能を装置が実行することを可能にする情報、データ、アプリケーション、命令、またはその同等物を格納するように構成されうる。例えば、メモリ機器76は、プロセッサ70による処理のための入力データをバッファリングするように構成されうる。付加的または代替的に、メモリ機器76は、プロセッサ70による実行のための命令を格納するように構成されうる。さらに別の代替として、メモリ機器76は、情報および/またはメディアコンテンツを格納する複数のデータベースのうちの１つであってもよい。

プロセッサ70は、多数の異なる方式で具現化されうる。例えば、プロセッサ70は、処理要素、コプロセッサ、コントローラ、または例えば、特定用途向け集積回路（application specific integrated circuit; ASIC）、フィールドプログラマブルゲートアレイ（field programmable gate array; FPGA）、ハードウェアアクセラレ−タ、またはその同等物等の集積回路を含む様々な他の処理機器等の、様々な処理手段として具現化されうる。例示的実施形態では、プロセッサ70は、メモリ機器76に格納された命令、あるいはプロセッサ70にアクセス可能な命令を実行するように構成されうる。したがって、ハードウェアもしくはソフトウェア方法によって、またはそれらの組み合わせによって構成されるかにかかわらず、プロセッサ70は、本発明の実施形態に従う動作を実行するとともに、適宜構成されることができるエンティティを表わしうる。したがって、プロセッサ70がASIC、FPGA、またはその同等物として具現化される場合、プロセッサ70は、本明細書に説明する動作を実行するために具体的に構成されたハードウェアでありうる。代替として、プロセッサ70がソフトウェア命令の実行器として具現化される場合、命令は、汎用処理要素でありうるプロセッサ70を、本明細書に説明するアルゴリズムおよび動作を実行するように具体的に構成してもよい。

一方、通信インターフェース74は、ネットワークおよび/または装置と通信する任意の他の機器もしくはモジュールからデータを受信および/またはそこにデータを送信するように構成される、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組み合わせのいずれかによって具現化された機器または回路等の任意の手段でありうる。この点に関し、通信インターフェース74は、例えば、アンテナ（または、多重アンテナ）と、無線通信ネットワークとの通信を可能にする支援ハードウェアおよび/またはソフトウェアとを含んでもよい。固定的接続環境では、通信インターフェース74は、代替的または付加的に、有線通信を支援しうる。したがって、通信インターフェース74は、ケーブル、デジタル加入者線（digital subscriber line; DSL）、汎用シリアルバス（universal serial bus; USB）、イーサネット（登録商標）、および/または他の機構を介して通信を支援するための通信モデムおよび/または他のハードウェア/ソフトウェアを含んでもよい。

ユーザインターフェース72は、ユーザインターフェース72においてユーザ入力に関する情報を受信するべく、および/または可聴、視覚的、機械的、または他の出力をユーザに提供するべく、プロセッサと通信しうる。したがって、ユーザインターフェース72には、例えば、キーボード、マウス、ジョイスティック、ディスプレイ、タッチスクリーン、マイクロホン、スピーカ、または他の入力/出力機構が含まれてもよい。装置がサーバまたはいくつかの他のネットワーク機器として具現化される例示的実施形態では、ユーザインターフェース72は、制限されうるか、または排除されうる。しかし、装置がモバイル端末またはパーソナルコンピュータとして具現化される実施形態では、ユーザインターフェース72は、機器または要素の中でもとりわけ、スピーカ、マイクロホン、ディスプレイ、およびキーボード、またはその同等物のうちのいずれかまたは全てを含んでもよい。

例示的実施形態では、プロセッサ70は、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および場合によっては候補回転部86として具現化されうるか、それらを含んでもよいか、あるいはそれらを制御しうる。しかし、候補回転部86は、いくつかの事例において、精密姿勢評価部82の一部であってもよい。粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および候補回転部86の各々は、後述するように、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および候補回転部86のそれぞれの対応する機能を実行するように構成される、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組み合わせで具現化された機器または回路等の任意の手段（例えばソフトウェアの制御化で動作するプロセッサ70、本明細書に説明する動作を実行するように具体的に構成されたASICまたはFPGAとして具現化されたプロセッサ70、またはそれらの組み合わせ）でありうる。

例示的実施形態では、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および候補回転部86のうちのいずれかまたは全ては、顔検出サービスのそれぞれの部分を提供するための命令、コード、モジュール、アプリケーションを含んでもよい。しかし、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および候補回転部86に関連付けられたコード、回路、および/または命令が、必ずしもモジュール式である必要がないことに留意されたい。さらに、後述するように、場合によっては、粗姿勢評価部80および顔検出器84の各々は、同じ統計ベース方法またはスキームの部分（例えば一連のカスケード検出器を含む）を実装してもよく、場合によっては、実装された部分が重複してもよい。いくつかの実施形態では、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および候補回転部86の間の通信は、プロセッサ70を介して実行される。しかし、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、および候補回転部86は、代替として、相互に直接通信するか、または他の実施形態では、相互に通信しなくてもよい。

例示的実施形態では、粗姿勢評価部80は、特定の画像パッチ内で識別された顔の推定姿勢を決定するために、信頼ベースまたは統計ベースによる顔検出方法に基づく、トレーニングされた一連の検出器を用いる。しかし、粗姿勢評価部80は、統計ベースの方法の検出器の分類手段の全てを実装しない。代わりに、選択された数だけの分類手段を用いて、検出器の分類手段の全ての使用を回避することにより、比較的短時間で姿勢の大まかな推定を決定しうる。

顔関連のアプリケーションの画像パッチの場合、典型的なトレーニング済み検出器を使用して、画像パッチが顔を含んでいるか否かを判断することができる。しかし、典型的な統計ベースの方法スキームにおけるトレーニング済み検出器の数および検出器の中のトレーニングされた分類部の対応する数の場合、分類部の全てを使用して画像パッチを分析すると、時間効率が低くなり得る。したがって、本発明の実施形態は、用いられる統計的方法のトレーニングされた分類部によって判断された姿勢情報を精密化するために、構造的方法と組み合わせて、装備されるトレーニング済み分類部の全てよりも少ない数の分類部を利用して姿勢判断を行ってもよい。したがって、粗姿勢評価部80は、粗姿勢評価を迅速に実行するように構成されうることができ、検出速度を改善することによって、改善されたリアルタイム性能を可能にしうる。

粗姿勢評価部80は、比較的小さい姿勢変動を含むトレーニングのために使用されたデータを用いるように構成されうる。比較的小さい姿勢変動がトレーニングデータに示されるとしても、トレーニング範囲を超える顔の場合、その対応する姿勢に対して所定の顔を正確に分類する確率は、比較的高く、これは、トレーニングデータと評価された顔との間の類似性が、外見と構造との両方において最も高いからである。

例示的な統計ベースの方法は、複数の検出器を含んでもよく、その各々の検出器は、m個のカスケードを有するトレーニングされた検出器D_n= {C1, C₂, …, C_m }である。ここで、カスケードC_i= {W₁, W₂, …, W_t}は、t個の弱分類部を有するi番目のカスケードである。実施形態によっては、各検出器における弱分類部の数は1,000個を超える。各弱分類部は、典型的には、試験画像パッチが、対応する分類部に関連付けられた姿勢を有する顔である可能性が高い度合いを標示する信頼スコアに寄与しうる。例として、Gentle-Boost統計的方法では、W_iの定義は、

でありえる。また式中、P₊およびP_-は、ある分割された範囲における正の確率および負の確率である。これは、さらに、

と記述することができる。

したがって、W_iは、実際は、特定の分割範囲における、測定のための正規化されたスコアであり、確率がドミナントである。信頼スコアが大きい場合、分析される画像パッチが、対応する分類部に関連付けられた姿勢を有する顔を含む可能性が高い。検出器D_jにおける各弱分類部W_jiは、スコアに寄与し、スコアは、ルール（例えば以下の総和ルール）と融合されて、以下の確実な信頼スコアを生成する。

式中、Nは、姿勢評価に使用する弱分類部の数である。

したがって、画像パッチIの姿勢は、

によって決定されうる。

弱分類部をN個だけ（例えば一例では6個）実装することによって、姿勢は、姿勢推定のための各トレーニングされた検出器の弱分類部のうちの一部（例えば一例では、最初の6個の弱分類部のみ）を利用することによって判断されうる。したがって、追加の姿勢分類部をトレーニングする必要はなく、依然として、比較的高速な性能を達成することができる。したがって、粗姿勢評価部80は、比較的良好な（粗くはあるが）姿勢評価性能の達成に使用される信頼スコアを得るために、統計ベースの分析スキームの各検出器の分類部の選択された部分を実装するように構成される。

図7は、粗姿勢評価部80を使用して達成されうる粗姿勢評価を示す。特に、図7に示すように、いくつかの実施形態では、収束性能は、検出器の対象領域を狭くすることを許すことによって、少なくとも部分的に向上しうる。例えば、面内回転-45度から45度を対象とする図1におけるセクタは、このような領域において確実な姿勢検出および顔検出を可能にするために、比較的多い量のトレーニングデータを必要としうる。本発明の例示的実施形態では、対象領域は、面内回転の-15度から15度に減らされている。これは、回転した顔を、精密姿勢評価部82によって構造的方法により較正することができるからである。すなわち、-15度から15度より外の対象範囲から-15度から15度内への対象範囲を表す顔の回転は、構造的方法によって達成されうる。したがって、本発明の実施形態に従うトレーニング済み検出器は、顔の大きな回転を検出する能力を有する必要はない。ゆえに、実際は、粗姿勢評価部80は、各検出器においてより少ない分類部を実装しうる（例えばNは、より小さくなり得る）。

精密姿勢評価部82は、特定の画像パッチにおいて検出された顔の姿勢の比較的正確な情報を含む精密姿勢情報を提供するために、構造ベースの分析スキームを実装するように構成されうる。構造ベースの分析スキームは、上述の例のうちの１つでありうるか、または任意の他の構造ベースの分析スキームでありうる。いくつかの実施形態は、統計的スキームを使用して粗姿勢情報を推定しうるが、構造ベースのスキームを利用することによって、粗姿勢情報の精密化が可能になり得る。例えば、顔の回転が比較的大きい場合、顔は、粗姿勢評価部80により（例えば対応する姿勢に関連付けられた検出器の分類部により）用いられた統計ベースの方法を使用することのみでは、正確に分類されるという高い尤度を持たない可能性がある。これは、良好な収束を実現にするために、トレーニングデータにおいては、概して小さな姿勢変動のみが使用されているからである。そこで本発明の実施形態は、精密な姿勢情報を得るために、構造ベースの分析スキームを利用する。

いくつかの実施形態では、顔は、顔検出を可能にするために、垂直方向に回転されうる。場合によっては、精密姿勢評価部82の動作の前または後のいずれかに、候補回転部86によって達成されうる。垂直方向への回転は、その顔候補の姿勢情報を比較的高精度で得るために行われうる。顔候補を垂直方向に合わせることによって、構造的方法は、画像パッチの構造的特徴を分析することがより良好に可能になり、正確な姿勢情報を決定することができる。

粗姿勢評価部80に使用された統計ベースの分析スキームを使用して、精密姿勢判断を行った画像パッチを更に垂直方向に合わせたものについて、顔検出器84が顔候補を検出するように構成されうる。場合によっては、顔検出器84は、粗姿勢評価部80が最初に使用しなかった残りのカスケード弱分類部の全てまたは一部を使用しうる。しかし、他の場合では、統計的方法を用いる無関係の組の検出器を用いてもよい。処理中、顔候補が検出された後、候補回転部86は、検出された候補を垂直方向に回転してもよく、その後、顔検出器84は、候補が顔に対応するか否かをより容易かつ迅速に判断しうる。例示的実施形態では、図6の装置は、本明細書に説明する分析に使用するための画像データを受信するために、メディア取り込みモジュール（例えばカメラ）と通信しうる。しかし、代替実施形態では、図6の装置は、ストレージ（例えばメモリ機器76）または別の機器から画像を受信してもよい。

上述のように、いくつかの実施形態では、粗姿勢評価部80および顔検出器84は、Adaboostまたは別の統計ベースの分析スキームを利用しうる。しかし、Adaboostは、単に、粗姿勢評価部80および顔検出器84の具体的な実装の一例であり、代替として、他の機構を用いてもよい。Adaboost（適応ブースト）は、性能を改善するために他の学習機構と併用して利用されうる機械学習アルゴリズムである。例示的実施形態では、Adaboostは、姿勢評価のための構造ベースの分析スキームと併用して使用されうる。次いで、比較的小さい姿勢変動を有する顔データセットを使用してトレーニングされたAdaboostと関連付けられた検出器から選択された分類部を使用して、粗姿勢情報を決定した後、構造ベースの分析スキームは、精密姿勢情報を提供するために姿勢情報を精密化し、対応する画像パッチを垂直方向に回転させてもよい。次いで、他のAdaboost分類部を用いて、垂直方向に回転した画像上の顔検出を完了させてもよい。

構造ベースの分析スキームによる画像の垂直回転によって、大きな回転角度を有するトレーニングデータを、統計ベースの分析スキームにより利用する必要が無くなりだろう。したがって、各検出器においてトレーニングを必要とする弱分類部が少なくなり、検出器は、収束をより迅速に達成しうる。統計ベースの分析スキームを使用して粗姿勢情報を最初に入手するいくつかの実施形態によると、構造ベースの分析スキームの検索範囲は、正確な回転角度を探索するために精密化される。したがって、入力された画像パッチのサイズに基づいて、適切な演算が構成され、より良好な構造情報が得られ、構造ベースの分析スキームの効率が改善されうる。さらに、本発明のいくつかの実施形態は、顔検出を強化するために姿勢情報を決定することについて、統計ベースの分析スキームと構造ベースの分析スキームとを融合する。

本発明の実施形態は、場合によっては、顔ベースのアプリケーションにおいて追加の計算負荷を加えずに、比較的正確に姿勢推定を達成するのに必要な時間を短縮しうる。これについて、本明細書に説明するプッシュスイッチベースの顔姿勢評価部は、確実な姿勢推定のために、統計ベースの分析スキームと構造ベースの分析スキームとの両方を融合する。したがって、例えば、検出器トレーニングにおける収束性能が改善されてもよく、姿勢測定が迅速かつ正確に判断されてもよく、追加の姿勢分類部のトレーニングを必要とせずにこれらを行う。

場合によっては、精密姿勢評価部82が用いる構造ベースの分析スキームは、精密姿勢情報の判断のために目の位置を利用しうる。したがって、精密姿勢情報は、目が可視的ではない顔回転については判断不可能でありうる。このような状況では、粗姿勢情報のみが提供されうる。

本発明の実施形態は、多視点顔検出および顔認識に関連して利用されてもよく、また、携帯電話機動作、ゲーム、およびコンピュータを使用するタスクの実行のためにユーザインターフェースを提供するために、人間/コンピュータインターフェース（human-computer interface; HCI）アプリケーションに関連して利用されうる。

図8は、本発明のある例示的実施形態に従う、システム、方法、およびプログラム製品のフローチャートである。フローチャートの各ブロックまたはステップ、ならびにフローチャートにおけるブロックの組み合わせを、１つ以上のコンピュータプログラム命令を含むハードウェア、ファームウェア、および/またはソフトウェア等の様々な手段によって実装してもよいことを理解されたい。例えば、上述の手順のうちの１つ以上は、コンピュータプログラム命令によって具現化されうる。この点に関し、上述の手順を具現化するコンピュータプログラム命令は、モバイル端末または本発明の実施形態を用いる他の装置のメモリ機器に格納されてもよく、モバイル端末または他の装置におけるプロセッサによって実行されてもよい。理解されるように、このような任意のコンピュータプログラム命令を、コンピュータまたは他のプログラム可能な装置（すなわち、ハードウェア）にロードしてシステムを構成し、その結果、コンピュータ（例えばプロセッサを介する）または他のプログラム可能な装置上で実行する命令は、フローチャートのブロックまたはステップにおいて特定される機能を実装する手段を生成する。また、これらのコンピュータプログラム命令は、コンピュータ（例えばプロセッサまたは別のコンピューティング機器）または他のプログラム可能な装置を特定の手法で機能させることが可能なコンピュータ可読メモリに格納され、その結果、コンピュータ可読メモリに格納された命令は、フローチャートのブロックまたはステップにおいて特定される機能を実装する命令手段を含む製品をもたらす。また、コンピュータプログラム命令を、コンピュータまたは他のプログラム可能な装置にロードすることによって、コンピュータまたは他のプログラム可能な装置上で、コンピュータ実装によるプロセスをもたらすように一連の動作ステップを実行させ、その結果、コンピュータまたは他のプログラム可能な装置上で実行する命令は、フローチャートのブロックまたはステップにおいて特定される機能を実装するステップを提供することができる。

したがって、フローチャートのブロックまたはステップは、特定の機能を実行する手段の組み合わせ、特定の機能を実行するためのステップの組み合わせ、および特定の機能を実行するためのプログラム命令手段に対応する。また、フローチャートのうちの１つ以上のブロックまたはステップならびにフローチャートにおけるブロックまたはステップの組み合わせを、特定の機能またはステップあるいは特殊用途のハードウェアおよびコンピュータ命令の組み合わせを実行する特殊用途のハードウェアベースのコンピュータシステムによって実装してもよいことも理解されたい。

例えば、図8に図示するように、顔検出のための姿勢評価を提供するための方法の一実施形態は、動作100において、画像中の顔候補の粗姿勢情報を決定するために、検出器（例えば統計ベースの分析スキームに関連付けられる）における分類部の選択した部分を利用することを含んでもよい。この方法は、動作110において、決定した粗姿勢情報に少なくとも部分的に基づいて、（例えば構造ベースの分析スキームを用いることによって、）顔候補の精密姿勢情報を決定することと、動作120において、顔候補が顔に対応するか否かを判断するために、精密姿勢情報に少なくとも部分的に基づいて顔検出を実行するために、検出器（例えば統計ベースの分析スキームに関連付けられる）における分類部の別の部分を用いることとをさらに含んでもよい。

いくつかの実施形態では、この方法は、さらなる任意選択の処理を含んでもよく、その例は、図8において点線で示される。任意選択の処理は、様々な代替実施形態では、任意の順番で、および/または相互に組み合わせて実行されてもよい。例えば、この方法は、動作115において、顔検出を実行する前に、画像を垂直方向に回転させる動作をさらに含んでもよい。

いくつかの実施形態では、後述するように、上記動作のうちの一定の動作を修正してもよく、またはさらに強化してもよい。以下の修正または強化の各々が、単独で、または本明細書に説明する特徴の中の任意の特徴と組み合わせて、上記動作に含まれてもよいことを理解されたい。例えば、構造ベースの分析スキームを用いて顔候補の精密姿勢情報を決定することは、顔テンプレートを利用することを含む。場合によっては、統計ベースの分析スキームは、Adaboostでありうる。例示的実施形態では、分類部の選択した部分を利用することは、統計ベースの分析スキームの前記検出器のＮ個の初期分類部を利用することを含んでもよい。代替的または付加的に、統計ベースの分析スキームの別の部分を用いることは、粗姿勢情報を決定するために使用されなかった残りの分類部の少なくとも一部分を利用することを含んでもよい。

例示的実施形態では、上記図8の方法を実行する装置は、上述の動作（100〜120）のいくつかまたは各々を実行するように構成されるプロセッサ（例えばプロセッサ70）を備えてもよい。プロセッサは、例えば、ハードウェアにより実装される論理機能を実行し、格納された命令を実行し、または動作の各々を実行するためのアルゴリズムを実行することによって、処理（100〜120）を実行するように構成されうる。代替として、本装置は、上述の動作の各々を実行する手段を備えてもよい。例示的実施形態によると、動作100〜120を実行する手段の例は、例えば、プロセッサ70、粗姿勢評価部80、精密姿勢評価部82、顔検出器84、候補回転部86、および/または上述の情報を処理するためにプロセッサ70によって実行されるアルゴリズムを含んでもよい。

本明細書に記載される本発明に関して、前述の説明および関連図面に提示された教示の利益を有する多くの修正および他の実施形態が、本発明に関する当業者の心に浮かぶだろう。ゆえに、本発明が、開示された特定の実施形態に限定されないこと、ならびに添付の請求項は、上記の修正や他の実施形態をその範囲内に含むように意図されることを理解されたい。さらに、前述の説明および関連する図面は、要素および/または機能の特定の例示的組み合わせを用いて例示的実施形態を説明するが、要素および/または機能の異なる組み合わせが、添付の請求項の範囲から逸脱することなく、代替実施形態によって提供されうることを理解されたい。例えば、要素および/または機能の、上文に明示的に説明するものとは異なる組み合わせも、添付の請求項のいくつかに記載されうるように想定されている。本明細書において特定の用語が用いられるが、これらの用語は、一般的および記述的な意味においてのみ使用され、限定する目的で使用されない。

Claims

画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用し、
前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定し、
前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いる、
ように構成されたプロセッサを備える、装置。
前記プロセッサは、前記顔検出を実行する前に、前記画像を垂直方向に回転させるようにさらに構成される、請求項１に記載の装置。
前記プロセッサは、前記検出器が用いる統計ベースの分析スキームとして、適応ブーストを用いるように構成される、請求項１に記載の装置。
前記プロセッサは、顔テンプレートを利用することによって、前記顔候補の精密姿勢情報を決定するように構成される、請求項１に記載の装置。
前記プロセッサは、統計ベースの分析スキームにおいて前記検出器のＮ個の初期分類部を利用することによって、分類部の前記選択した部分を利用するように構成される、請求項１に記載の装置。
前記プロセッサは、前記粗姿勢情報を決定するために使用されなかった残りの分類部の少なくとも一部分を利用することによって、前記分類部の別の部分を用いるように構成される、請求項１に記載の装置。
前記装置はモバイル端末からなる、請求項１に記載の装置。
前記プロセッサは、前記顔に関して顔認識を実行するように構成される、請求項１に記載の装置。
画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用することと、
前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定することと、
前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いることと、
を含む、方法。
前記顔検出を実行する前に、前記画像を垂直方向に回転させることをさらに含む、請求項９に記載の方法。
前記顔候補の精密姿勢情報を決定することは、顔テンプレートを利用することを含む、請求項９に記載の方法。
分類部の前記選択した部分を利用することは、統計ベースの分析スキームにおいて前記検出器のＮ個の初期分類部を利用することを含む、請求項９に記載の方法。
前記分類部の別の部分を用いることは、前記粗姿勢情報を決定するために使用されなかった残りの分類部の少なくとも一部分を利用することを含む、請求項９に記載の方法。
コンピュータ実行可能プログラムコード命令を有する少なくとも１つのコンピュータ可読ストレージ媒体を備えるコンピュータプログラム製品であって、前記コンピュータ実行可能プログラムコード命令は、
画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用するためのプログラムコード命令と、
前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定するためのプログラムコード命令と、
前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いるためのプログラムコード命令と、
を含む、コンピュータプログラム製品。
前記顔検出を実行する前に、前記画像を垂直方向に回転させるためのプログラムコード命令をさらに含む、請求項１４に記載のコンピュータプログラム製品。
前記顔候補の精密姿勢情報を決定するためプログラムコード命令は、顔テンプレートを利用するための命令を含む、請求項１４に記載のコンピュータプログラム製品。
分類部の前記選択した部分を利用するためのプログラムコード命令は、統計ベースの分析スキームにおいて前記検出器のＮ個の初期分類部を利用するための命令を含む、請求項１４に記載のコンピュータプログラム製品。
前記分類部の別の部分を用いるためのプログラムコード命令は、前記粗姿勢情報を決定するために使用されなかった残りの分類部の少なくとも一部分を利用するための命令を含む、請求項１４に記載のコンピュータプログラム製品。
画像中の顔候補の粗姿勢情報を決定するために、検出器における分類部の選択した部分を利用する手段と、
前記決定した粗姿勢情報に少なくとも部分的に基づいて、前記顔候補の精密姿勢情報を決定する手段と、
前記精密姿勢情報に少なくとも部分的に基づいて顔検出を実行し、前記顔候補が顔に一致するか否かを判断するために、前記検出器における前記分類部の別の部分を用いる手段と、
を備える、装置。
前記顔検出を実行する前に、前記画像を垂直方向に回転させる手段をさらに備える、請求項１９に記載の装置。