JP6411510B2

JP6411510B2 - 無制約の媒体内の顔を識別するシステムおよび方法

Info

Publication number: JP6411510B2
Application number: JP2016539261A
Authority: JP
Inventors: カナウジアアトゥール; ラマナサンナラヤナン; ウンチェテ
Original assignee: Avigilon Fortress Corp
Current assignee: Avigilon Fortress Corp
Priority date: 2013-12-19
Filing date: 2014-12-19
Publication date: 2018-10-24
Anticipated expiration: 2034-12-19
Also published as: EP3084682A1; CN106068514B; CN106068514A; KR20160101973A; US9449432B2; AU2014368997A1; EP3084682B1; WO2015095733A1; US20160314345A1; IL246209B; CA2934514A1; CA2934514C; IL246209A0; KR102174595B1; MX358833B; MX2016007868A; EP3084682A4; JP2017506379A; US20150178554A1; ZA201604115B

Description

（関連出願の相互参照）
本出願は、開示全体が参照により本明細書に組み込まれている２０１３年１２月１９日出願の米国特許仮出願第６１／９１８，２０５号明細書および２０１４年３月２０日出願の米国特許仮出願第６１／９６８，０１５号明細書の利益を主張するものである。

本開示は、媒体内の画像を認識するシステムおよび方法に関し、より詳細には、顔面認識に関する。

カメラは、移動デバイス、監視センサ、および警ら車両で一般的になってきた。そのようなカメラは、移動性のため、様々な無制約の状態で個人の画像を記録することができる。つまり、演出された顔写真とは対照的に、無制約の状態で記録される個人の顔は、照明の変化（例えば、自然および人工）、個人の顔の属性（例えば、年齢、顔面の毛、眼鏡）、視野角（例えば、ピッチおよびヨー）、遮蔽（例えば、標識、樹木など）などのため、大きく変動する可能性がある。例えば、違反者は、混雑したイベントで違法行為を実行することがある。行為の時間前後、その場に居合わせた人が、自身の移動カメラを使用してイベントを記録しながら、違反者の画像を捕捉する可能性がある。追加として、イベントを監視する防犯カメラが、異なる（例えば、高所の）視野から、違反者の画像を捕捉する可能性がある。同時的に、異なる視野および遮蔽を有する複数のカメラによって、違反者の画像が捕捉されている可能性がある。これらの記録は、カメラの操作者、ソーシャル・ネットワーキング・ウェブサイト、および報道機関から法執行当局によってアクセスすることができる。しかし、様々な記録から違反者を識別する試みには、莫大な量の画像データをふるいにかけることが必要となる可能性がある。

本開示は、個人の顔の３次元（３Ｄ）モデルを、個人の異なる画像に基づいて決定するステップを含む方法を提供する。この方法はまた、顔の異なる姿勢に対応する３Ｄモデルから複数の２次元（２Ｄ）パッチを抽出するステップを含む。さらに、この方法は、複数の２Ｄパッチの異なる組合せを使用して顔の複数の特徴部分であるシグニチャを生成するステップを含み、複数のシグニチャは、異なる角度からの３Ｄモデルのそれぞれの見え方に対応する。

追加として、本開示は、プロセッサと、記憶システムと、プロセッサによる実行のためにコンピュータ可読ハードウェア記憶デバイス上に記憶されたプログラム命令とを含む顔面認識システムを提供する。プログラム命令は、個人の顔の３次元（３Ｄ）モデルを、個人の異なる画像に基づいて決定するプログラム命令を含む。プログラム命令はまた、顔の異なる姿勢に対応する３Ｄモデルから複数の２次元（２Ｄ）パッチを抽出するプログラム命令を含む。さらに、プログラム命令は、複数の２Ｄパッチの異なる組合せを使用して顔の複数の特徴部分であるシグニチャを生成するプログラム命令を含み、複数のシグニチャは、異なる角度からの３Ｄモデルのそれぞれの見え方に対応する。

本明細書に組み込まれて本明細書の一部を構成する添付の図面は、本教示を示し、本説明とともに、本開示の原理を説明する働きをする。

本開示の態様によるシステムおよびプロセスを実施する例示的な環境のブロック図である。本開示の態様による例示的な顔面認識システムの機能ブロック図である。本開示の態様による顔を認識する例示的なプロセスの流れ図である。本開示の態様による顔面認識システムを使用して属性ベース表現を判定する例示的なプロセスの流れ図である。本開示の態様による顔面認識システムを使用して属性を判定する例示的なプロセスの流れ図である。本開示の態様による顔面認識システムを使用してマルチビューＰＥＰシグニチャを判定する例示的なプロセスの流れ図である。

厳密な構造上の精度、細部、および縮尺を維持するのではなく、本教示の理解を容易にするために、図のいくつかの細部は簡略化して描かれていることに留意されたい。

本開示は、表現情報内の画像を認識するシステムおよび方法に関し、より詳細には、顔面認識に関する。本開示の態様によれば、このシステムおよび方法を使用して、個人の顔の属性ベース表現に基づいて画像内で個人を認識することができる。属性ベース表現は、画像から抽出された２Ｄパッチおよび個人の顔を意味的に特徴付ける属性（例えば、性別、年齢、民族性など）を使用して決定されるマルチビュー確率的弾性部分（「マルチビューＰＥＰ」）シグニチャを含む。マルチビューＰＥＰシグニチャは、３Ｄモデルから抽出された２Ｄ顔パッチから構築される属性特有ＰＥＰモデルを使用して決定される。ＰＥＰモデルとは、局所的空間的外観特徴に基づくガウス混合モデルである。３Ｄモデルは、写真、ビデオ、および／またはスケッチ内の個人の画像から得られる顔の異なる姿勢から構築される。有利には、属性ベース表現は、視点、照射、加齢、および表情のために個人の顔で生じる幾何学上、構造上、かつ測光上の変動性を補償しながら、個人の顔を他の顔から一意的に判別するために使用することができる変動しない特徴を保護する。

本発明の態様によれば、属性ベース表現は、ベースとする顔の特徴（例えば、加齢、姿勢、照射、および表情）を正規化する。属性ベース表現および特徴は、相互依存することができ、属性ベース表現のパラメータは、正規化に使用されるモデルに強く影響し、逆も同様である。したがって、属性ベース表現は、部分表現に対応するパラメータの集合に対して繰返し最適化することによって決定される。

さらに、本発明の態様によれば、属性ベース表現の２つの構成要素（マルチビューＰＥＰシグニチャおよび属性）は、異なる抽象化レベルで情報を符号化する。マルチビューＰＥＰシグニチャがベースとする３Ｄモデルは、極端な変動をモデル化することによって２Ｄ画像ベースのＰＥＰ表現の制限に打ち勝つように正規化され、極端な変動の場合、不十分な訓練例が利用可能であり、変動を補償するための正確な統計モデルを学習することができない。さらに、属性ベース表現の各構成要素を構築するために使用される領域の知識は、変動するソースから独立して抽出され、属性ベース表現内で相補型の事前制約として実施される。

本開示の属性ベース表現は、多くの利点を提供する。第１に、マルチビューＰＥＰシグニチャを作成するために使用されるＰＥＰモデルは、姿勢の不変性を提供する。第２に、ＰＥＰモデルは「顔以外」のパッチを暗示的に識別するため、マルチビューＰＥＰシグニチャは、直接モデル化することができない遮蔽および低解像度データなどの顔の変動を補償する。第３に、マルチビューＰＥＰシグニチャは、非視覚媒体（例えば、近赤外、似顔絵など）に対応するモデルを使用することによって、赤外および／または異種データを同化することができる。第４に、マルチビューＰＥＰシグニチャは、画像特徴に対する統計的に学習した回帰機能を使用してすべての年齢層に拡張することができる。第５に、マルチビューＰＥＰシグニチャは、照射および表情の変化に対する復元力を提供する。つまり、照射および表情による変動は、マルチビューＰＥＰシグニチャを判定するとき、顔の再照明および表情の中性化によって除去される。本開示の態様によれば、不十分な照射（影または飽和）を有するあらゆるパッチおよび強い顔面表情に対応するものは、マルチビューＰＥＰシグニチャ内で重みが軽減されるため、マルチビューＰＥＰから抽出される２Ｄ画像パッチには、そのような変動がない。

当業者には理解されるように、本発明は、方法、システム、またはコンピュータ・プログラム製品として実施することができる。したがって、本発明は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、またはソフトウェアおよびハードウェアの態様を組み合わせる実施形態の形をとることができ、本明細書ではすべてを全体として「回路」、「モジュール」、または「システム」と呼ぶことができる。さらに、本発明は、媒体内で実施されるコンピュータ使用可能プログラム・コードを有するコンピュータ使用可能記憶媒体上のコンピュータ・プログラム製品の形をとることができる。

任意の適したコンピュータ使用可能またはコンピュータ可読媒体を利用することができる。コンピュータ使用可能またはコンピュータ可読媒体は、例えば、それだけに限定されるものではないが、電子、磁気、光学、電磁、赤外、または半導体システム、装置、デバイス、または伝搬媒体とすることができる。コンピュータ可読媒体のより具体的な例（非排他的な一覧）は、１つまたは複数のワイヤを有する電気的接続、携帯型のコンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、光ファイバ、携帯型のコンパクト・ディスク読取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶デバイス、インターネットもしくはイントラネットに対応するものなどの伝送媒体、または磁気記憶デバイスを含むはずである。コンピュータ使用可能またはコンピュータ可読媒体はさらに、プログラムが印刷された紙または別の適した媒体とすることもでき、プログラムは、例えば紙または他の媒体の光学走査を介して電子的に捕捉することができ、次いで必要な場合、コンパイル、解釈、または他の方法で適切に処理することができ、次いでコンピュータ・メモリ内に記憶することができることに留意されたい。本明細書では、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによって使用するためのプログラムまたは命令実行システム、装置、もしくはデバイスに接続されるプログラムを、収容、記憶、通信、伝搬、または輸送することができる任意の媒体とすることができる。コンピュータ使用可能媒体は、ベースバンド内に、または搬送波の一部として、それとともに実施されるコンピュータ使用可能プログラム・コードを有する伝搬されたデータ信号を含むことができる。コンピュータ使用可能プログラム・コードは、それだけに限定されるものではないが、インターネット、有線、光ファイバ・ケーブル、ＲＦなどを含む任意の適当な媒体を使用して伝送することができる。

本発明の動作を実施するコンピュータ・プログラム・コードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向のプログラミング言語で書くことができる。しかし、本発明の動作を実施するコンピュータ・プログラム・コードはまた、「Ｃ」プログラミング言語などの従来の手続き型プログラミング言語または類似のプログラミング言語で書くこともできる。プログラム・コードは、完全にユーザのコンピュータ上で、スタンドアロン型ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を通してユーザのコンピュータに接続することができ、または外部コンピュータに接続することができる（例えば、インターネットを通してインターネット・サービス・プロバイダを使用する）。

本発明について、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図および／またはブロック図を参照して以下に説明する。流れ図および／またはブロック図の各ブロック、ならびに流れ図および／またはブロック図内のブロックの組合せは、コンピュータ・プログラム命令によって実施することができることが理解されよう。コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、流れ図および／またはブロック図の１つまたは複数のブロック内に指定された機能／動作を実施する手段を作成するように、これらのコンピュータ・プログラム命令を、汎用コンピュータ、特殊目的コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供することで、マシンを作り出すことができる。

これらのコンピュータ・プログラム命令はまた、コンピュータ可読メモリ内に記憶された命令が、流れ図および／またはブロック図の１つまたは複数のブロック内に指定された機能／動作を実施する命令を含む製品を作り出すように、コンピュータ可読メモリ内に記憶することができ、コンピュータまたは他のプログラム可能なデータ処理装置に特定の様態で機能するように指示することができる。

コンピュータ・プログラム命令はまた、コンピュータまたは他のプログラム可能装置上で実行される命令が、流れ図および／またはブロック図の１つまたは複数のブロック内に指定された機能／動作を実施するステップを提供するように、コンピュータ実施プロセスを作製するために、コンピュータまたは他のプログラム可能データ処理装置上へロードされ、コンピュータまたは他のプログラム可能装置上で一連の動作ステップを実行させることができる。

図１は、本開示の態様による方法およびシステムを実施する例示的な環境１００である。環境１００は、顔面認識システム１０５および画像ソース１１０を含む。本開示の態様によれば、顔面認識システム１０５は、個人の画像を含む様々な表現情報（例えば、静止画、動画、ビデオ、図面など）を摂取（例えば、取得）し、顔面認識のための個人の顔のモデル（例えば、ＰＥＰモデル）を生成するシステムである。このシステムは、モデルから情報を抽出し、抽出した情報を使用して、他の表現情報内で個人を認識する。画像ソース１１０は、ビデオ、写真、ピクチャなどの画像データを捕捉および／または記憶するデバイスまたはシステムである。実施形態では、画像ソース１１０は、表現情報データベースである。追加または別法として、画像ソース１１０は、１つまたは複数の画像センサ（例えば、カメラ）である。

本開示の態様によれば、顔面認識システム１０５は、本明細書に記載するプロセスおよび機能を実行するハードウェアおよびソフトウェアを含む。特に、顔面認識システム１０５は、演算デバイス１３０、入出力（Ｉ／Ｏ）デバイス１３３、記憶システム１３５、およびデバイス選択器１３７を含む。Ｉ／Ｏデバイス１３３は、個人が演算デバイス１３０と対話することを可能にする任意のデバイス（例えば、ユーザ・インターフェース）および／または演算デバイス１３０が任意のタイプの通信リンクを使用して１つもしくは複数の他の演算デバイスと通信することを可能にする任意のデバイスを含むことができる。Ｉ／Ｏデバイス１３３は、例えば、手持ち式デバイス、ＰＤＡ、タッチスクリーン・ディスプレイ、ハンドセット、キーボードなどとすることができる。

記憶システム１３５は、情報およびプログラム命令を記憶するコンピュータ可読不揮発性ハードウェア記憶デバイスを備えることができる。例えば、記憶システム１３５は、１つまたは複数のフラッシュ・ドライブおよび／またはハード・ディスク・ドライブとすることができる。本開示の態様によれば、記憶デバイス１３５は、画像データベース１３６、領域知識データベース１３７、およびモデル・データベース１３８を含む。画像データベース１３６は、画像ソース１１０から取得した表現情報を記憶することができる。領域知識データベース１３７は、表現情報からの意味情報（例えば、性別、民族性、年齢、顔の形状、皮膚タイプ、顔面特徴など）を抽出し、顔をモデル化するために適用することができる所定のモデルおよび人体測定情報（例えば、異なる性別、民族性、および年齢に対応する形状、特徴、釣り合い、筋肉組織、および肌理）の集まりを含む。モデル・データベース１３８は、個人の３Ｄ顔モデルと、３Ｄ顔モデルから抽出された２Ｄパッチと、属性ベース表現を含む抽出された属性とを含む。

実施形態では、演算デバイス１３０は、１つまたは複数のプロセッサ１３９と、１つまたは複数のメモリ・デバイス１４１（例えば、ＲＡＭおよびＲＯＭ）と、１つまたは複数のＩ／Ｏインターフェース１４３と、１つまたは複数のネットワーク・インターフェース１４４とを含む。メモリ・デバイス１４１は、プログラム命令の実行中に用いられるローカル・メモリ（例えば、ランダム・アクセス・メモリおよびキャッシュ・メモリ）を含むことができる。追加として、演算デバイス１３０は、少なくとも１つの通信チャネル（例えば、データ・バス）を含み、演算デバイス１３０は、この通信チャネルによって、Ｉ／Ｏデバイス１３３、記憶システム１３５、およびデバイス選択器１３７と通信する。プロセッサ１３９は、メモリ・デバイス１４１および／または記憶システム１３５内に記憶することができるコンピュータ・プログラム命令（例えば、オペレーティング・システムおよび／またはアプリケーション・プログラム）を実行する。

さらに、本開示の態様によれば、プロセッサ１３９は、本明細書に記載するプロセスの１つまたは複数を実行するために、摂取モジュール１５１、分析モジュール１５３、モデル化モジュール１５５、抽出モジュール１５９、および整合モジュール１６３のコンピュータ・プログラム命令を実行することができる。摂取モジュール１５１、分析モジュール１５３、モデル化モジュール１５５、および抽出モジュール１５９、および整合モジュール１６３は、メモリ・デバイス１４１および／または記憶システム１３５内のプログラム命令の１つまたは複数の集合として、別個のモジュールまたは組み合わせたモジュールとして実施することができる。追加として、摂取モジュール１５１、分析モジュール１５３、モデル化モジュール１５５、および抽出モジュール１５９、および整合モジュール１６３は、別個の専用プロセッサとして、または単一もしくはいくつかのプロセッサとして、これらのモジュールの機能を提供するために実施することができる。

本開示の実施形態によれば、摂取モジュール１５１は、演算デバイス１３０に、画像ソース１１０からの表現情報を取得させ、表現情報内に含まれる画像を改善させる（例えば、解像度、ぼけ、およびコントラストを改善させる）。追加として、摂取モジュール１５１は、演算デバイスに、画像内の顔を検出および追跡させる（例えば、顔および目検出アルゴリズムを使用する）。

分析モジュール１５３は、演算デバイス１３０に、摂取モジュール１５１によって検出された顔から属性を抽出させる。属性は、顔の特徴を意味的に記述する。実施形態では、属性は、個人の性別、年齢、民族性、髪の色、顔面形状、髪の色などに関連付けられた導出された特徴である。有利には、属性は、個人の外観を記述する柔軟な領域適応語彙を提供し、それによって検索時間およびデータ記憶要件を低減させることによって、マルチビューＰＥＰシグニチャからの効率的な索引付けおよび回収を可能にする。

モデル化モジュール１５５は、演算デバイス１３０に、個人の顔の３Ｄモデルを作成または決定させる。本開示の態様によれば、３Ｄモデルは、３Ｄ姿勢（例えば、ヨーおよびピッチの量子化された空間）のすべての変動に対して生成される姿勢認識確率的弾性部分（ＰＥＰ）ベースのモデルであり、変動する視野および照明条件下で広範囲の媒体モダリティに見られる顔の形状、肌理、およびダイナミクスを簡潔に符号化する。追加として、本開示の態様によれば、モデル化モジュール１５５は、３Ｄモデルを再照明し、３Ｄモデル内で捕捉された顔面表情を中性化し、３Ｄモデルによって表現される個人の年齢を修正し、３Ｄモデルに関連付けられた顔面の装飾および遮蔽を補償することができる。さらに、モデル化モジュールは、領域知識（例えば、領域知識データベース１３７内）を使用して、３Ｄモデルから欠けている情報（例えば、皮膚の肌理および遮蔽されたパッチ）を埋めることができる。

抽出モデル１５９は、コンピュータ・デバイスに、２Ｄパッチを使用するマルチビューＰＥＰ顔シグニチャと、様々な人口層（例えば、民族性、性別、年齢層など）を特徴付ける意味属性とを生成させる。本開示の態様によれば、抽出モデルは、複数の姿勢からの３Ｄモデルからの投影図から２Ｄパッチを決定する。これらの姿勢は、３Ｄモデルの直視（例えば、正面図からゼロのピッチおよびゼロのヨー）に対して、ピッチ（例えば、−１０度〜＋１０度）およびヨー（例えば、−１０度〜＋１０度）を有する複数の事前定義された視野角範囲内とすることができる。これらの投影図を組み合わせて、姿勢に対応する密に重複する２Ｄ顔パッチから、マルチビューＰＥＰシグニチャを提供する。言い換えれば、それぞれのマルチビューＰＥＰ顔シグニチャ内に含まれるデータ量は、利用可能な表現情報の品質および／または数量とともに変化しない。したがって、マルチビューＰＥＰ顔シグニチャは、追加の画像からの情報を組み込むことによって、表現のサイズを増大させることなく、漸増的に改良することができる。

追加として、本開示の態様によれば、抽出モジュール１５９は、それぞれのマルチビューＰＥＰ顔シグニチャに対する不確実性メトリックを決定する。不確実性メトリックは、それぞれのマルチビューＰＥＰ顔シグニチャ内で２Ｄパッチの品質を特徴付ける。抽出モジュール１５９は、３Ｄモデルから導出することができる「顔のような」測度を使用して演算される不確実性メトリックを決定する。例えば、このメトリックは、特定のマルチビューＰＥＰ顔シグニチャに対応するパッチのうち、顔以外の部分を含む割合に対応することができる。

さらに、本開示の態様によれば、マルチビューＰＥＰ顔シグニチャは、利用可能な画像の解像度に適応することができる。実施形態では、マルチビューＰＥＰ顔シグニチャは、顔画像上で利用可能な解像度に自動的に調整される。したがって、利用可能な解像度が大きければ大きいほど、顔の表現がより詳細になり、解像度が低ければ低いほど、顔の表現が詳細でなくなる。

さらに、本開示の態様によれば、抽出モジュール１５９は、それぞれのマルチビューＰＥＰ顔シグニチャを１つまたは複数の属性に関連付ける。実施形態では、抽出モジュール１５９は、それぞれのマルチビューＰＥＰ顔シグニチャに１つまたは複数の顔属性（例えば、民族性、年齢、性別、卵形、丸形などの顔の固有の様相）を付加する。したがって、本開示の属性ベース表現は、関連付けられた属性を使用して、顔の効率的な索引付けおよび回収を可能にする。

整合モジュール１６３は、演算デバイスに、モデル化モジュール１５５によって決定される個人の顔の属性ベース表現に基づいて、顔画像が個人の画像にマッチするかどうかを判定させる。本開示の態様によれば、マッチ（整合）は、マルチビュー確率的弾性部分（「マルチビューＰＥＰ」）シグニチャの各構成要素に対して決定される不確実性メトリックに基づいて行われる。追加として、本開示の態様によれば、整合モジュール１６３は、領域適応を使用して、撮像モダリティにわたってマルチビューＰＥＰ顔シグニチャをマッチさせる。実施形態では、モダリティは、とりわけＲＧＢスペクトル、赤外、ハイパースペクトル、および図面（例えば、スケッチおよび漫画）を含む。

実施形態では、領域知識データベース１３７は、顔面計測、顔超解像ツール、属性特有の３Ｄ形状モデル、属性特有のマルチビューＰＥＰ、属性抽出ツール、特徴選択前例、顔面動作ユニット・コード化システム、および領域適応ツールという、顔面認識システム１０５によって参照することができる情報を含むことができる。顔面計測は、人口統計的顔面情報を特徴付け、加齢および表情による構造的変化にわたって変動しない顔面特徴を識別する人体計測測定値の統計（平均および標準偏差）である。３Ｄ顔モデルから推定される人体計測測定値は、整合モジュール１５５によってマッチスコアを判定するとき、ならびに分析モジュール１５３によって属性を決定するために、使用することができる。顔超解像ツールは、顔画像の画素レベルの細部を強調するための模範画像に構成要素ベースでマッチする。顔超解像ツールは、モデル化モジュール１５５による表現を構築するための改善された顔面特徴抽出を提供する。属性特有の３Ｄ形状モデルは、民族性、性別、および年齢に基づく３Ｄ顔形状の変動の異なる部分空間モデル化モードである。これらは、モデル化モジュール１５５による包括的３Ｄ顔形状と比較すると、３Ｄ形状に適合するより有益な前例を提供する。属性特有のマルチビューＰＥＰは、共通の属性（例えば、性別、民族性、および年齢層）を有する個人の画像から密にサンプリングされたパッチのガウス混合モデル（ＧＭＭ）である。これらは、整合モジュール１６３によるマッチに使用される個人化された統計モデルを提供する。属性抽出ツールは、分析モジュール１５３によって顔画像から属性を検出するための判別モデルである（深い学習および構造化された予測に基づく）。属性抽出ツールは、これらの属性の不確実性をモデル化して、顔の有意味の様相に沿ったマッチを可能にする。特徴選択前例は、例えば加齢、姿勢、および照射の変化による顔面特徴の不変性の違い、ならびに強調された部分ベース表現およびマッチを実現するための、深い学習に基づく特徴選択である。これらは、該当する最も大きい判別特徴を判定するための抽出モジュール１５９によるより速い特徴抽出を可能にする。顔面動作ユニット・コード化システムは、モデル化モジュール１５５によって表情による顔の変形をモデル化するための顔面筋肉組織のダイナミクスの普遍的に適用可能な中間表現である。顔面動作ユニット・コード化システムは、顔面筋肉組織の明示的かつ正確なモデル化を提供する。領域適応ツールは、加齢、姿勢、および照射の変化にわたって領域シフトをモデル化する学習済みツールである。

演算デバイス１３０は、その上に設置されたコンピュータ・プログラム命令を実行することが可能な任意の汎用演算製品（例えば、パーソナル・コンピュータ、サーバなど）を含むことができることに留意されたい。しかし、演算デバイス１３０は、本明細書に記載するプロセスを実行することができる様々な可能な同等の演算デバイスを単に代表するものである。この点で、実施形態では、演算デバイス１３０によって提供される機能性は、汎用および／または特殊目的ハードウェアおよび／またはコンピュータ・プログラム命令の任意の組合せとすることができる。各実施形態では、プログラム命令およびハードウェアは、それぞれ標準的なプログラミングおよびエンジニアリング技法を使用して作成することができる。

図２は、本開示の態様による顔面認識システム１０５の例示的なプロセスの機能上の流れ図を示す。顔面認識システム１０５は、前述のものと同じとすることができる摂取モジュール１５１、分析モジュール１５３、モデル化モジュール１５５、抽出モジュール１５９、および整合モジュール１６３を含む。本開示の態様によれば、摂取モジュール１５１は、画像ソース（例えば、画像ソース１１０）から受け取った表現情報を評価する。表現情報は、個人の写真、ビデオ、および／または図面（例えば、スケッチ）を含むことができる。実施形態では、表現情報を評価するステップは、画像を含む表現情報の縮尺、顔の被写域（例えば、画像内の姿勢に基づく画像内の顔の部分）、解像度、モダリティ（例えば、表現情報タイプ）、および／または品質を定義する情報を決定するステップを含む。顔の縮尺は、画像解像度を特徴付け、摂取モジュール１５１によって抽出される細部のレベルを決定する。受け取った画像および関連付けられた評価情報は、後の参照および処理のためにデータベース（例えば、画像データベース１３６）内に記憶することができる。

追加として、本開示の態様によれば、摂取モジュール１５１は、受け取った表現情報内に含まれる画像を改善する。実施形態では、画像を改善するステップは、ぼけを低減させるステップと、コントラストを改善するステップと、画像解像度を増大させるステップとを含む。例えば、撮像モジュール１５１は、大きい姿勢可変顔データセットからの模範構造（目、口、顔の輪郭など）に基づいて最適のぼけカーネルを推定することによって、ぼけを低減させることができる。ぼけカーネル推定は、ぼけた顔画像に最も近い模範を識別するステップ（例えば、領域知識データベース１３７内）と、ぼけた顔および最も近い模範の勾配を取り入れる正則化プロセスを実行するステップとを伴う。さらに、改善するステップは、統計的な学習および幾何形状を使用して照射条件をモデル化することによって画像を再照明するステップを含むことができる。追加として、摂取モジュール１５１は、ヒストグラム平坦化を実行することによって、画像のコントラストを増大させることができる。さらに、摂取モジュール１５１は、顔ハルシネーション技法を使用して、低解像度データから高解像画像を生成することができる。

本開示の態様によれば、摂取モジュール１５１はまた、受け取った画像内に含まれる顔を検出および追跡する。実施形態では、摂取モジュール１５１は、特徴局所化技法を使用して画像内の顔の目および口を検出し、全体的な頭部姿勢推定を判定する。例えば、摂取モジュール１５１は、ＭＩＬＴｒａｃｋ型アルゴリズムを使用する対象の外観のオンライン適応に基づき、正のサンプルと負のサンプルとの平均信頼度間のマージンを最大化することによって特徴選択を改良する、オンライン判別特徴選択（ＯＤＦＳ）手法を用いることができる。ＯＤＦＳ手法は、背景サンプルの信頼度を抑制しながら標的サンプルの信頼度を最大化する特徴を選択する。ＯＤＦＳ手法では、最も正しい正のサンプルにより大きい重みを与え、背景サンプルには分類子の更新中に小さい分類子を割り当て、それによって、縮尺、姿勢、照射、および動きぼけの変化にわたって雑然とした背景からの前景の標的の有効な分離を容易にする。追加として、摂取モジュール１５１は、顔追跡の精度をさらに改善するために、ビデオ内の社会的コンテキストのモデル化を利用する教師なし顔検出適応方法を使用して、顔を検出および追跡することができる。

本発明の態様によれば、摂取モジュール１５１はまた、顔面特徴局所化および追跡を実行する。特徴局所化を使用して、画像内の個人の頭部の姿勢を推定し、その姿勢に基づいて、目、口、および顔の位置（例えば、襟ぐり、あご先、および生え際）に対応する基準点を判定することができる。実施形態では、摂取モジュール１５１は、教師あり降下方法（ＳＤＭ）を使用する。ＳＤＭは、訓練データからの形状または外観のいかなるモデルの学習も必要としないノンパラメトリック形状モデルから構成される。訓練段階で、ＳＤＭは、訓練画像内でランドマークを使用し、ランドマーク位置で特徴を抽出する。ＳＤＭは、すべての正規化最小２乗関数の平均を最小化する一続きの包括的な降下方向およびバイアス項を、訓練データから学習する。有利には、ＳＤＭベースの顔面特徴局所化および追跡は、他のそのような方法と比較すると、演算上非常に簡単であり（１フレームにつき４行列乗算）、大きい姿勢変動（例えば、±６０°のヨー、±９０°のロール、および±３０°のピッチ）、遮蔽、および劇的な照射の変化によって顔面ランドマークを追跡することを容易にする。

本開示の態様によれば、分析モジュール１５３は、領域知識（例えば、領域知識データベース１３７）に基づいて摂取モジュール１５１によって検出および追跡される画像内の顔から属性を判定する。属性は、整合モジュール１６３によって顔同士の類似性を評価するための中間表現空間を提供する。実施形態では、低レベルの特徴は、場面内の測光および幾何学上の変化による摂動によって強く影響されるのに対して、記述可能な顔面属性の空間は、顔同士の対応関係を確立するためにより汎用化可能なメトリックを提供する。属性は、摂取モジュール１５１によって検出された個人の顔内の基準点を、領域知識（例えば、領域知識１３７）の所定のライブラリ内に含まれる特徴の基準とすることによって判定することができる。基準点は、例えば顔の姿勢および加齢によって生じうる個人の顔の変動を補償する。実施形態では、特徴局所化は、３Ｄ頭部姿勢推定および顔面属性推論に使用される。判別モデルは、媒体内の顔画像からの属性の確率的推論に使用される。例えば、学習済みモデルは、粗い顔面属性（例えば、性別、民族性、および年齢）と細かい顔面属性（例えば、髪型および髪の色、眉の形状、目の色、ならびに口髭）との両方を検出するために使用される。分析モジュール１５３は、顔の属性を記憶することができ、顔の属性は、後の参照および処理のためにデータベース（例えば、画像データベース１３６）内に記憶することができる。

本開示の態様によれば、モデル化モジュール１５５は、分析モジュール１５３によって決定された基準点および属性から３Ｄモデルを決定する。実施形態では、３Ｄモデルは、変動する視野および照明条件下で広範囲の媒体モダリティに見られる顔の形状、肌理、およびダイナミクスを符号化する。３Ｄモデルは、３Ｄ姿勢（ヨーおよびピッチの量子化された空間）のすべての変動に対して生成され、顔から抽出された人口統計学的属性（性別、民族性、および年齢層）にしたがって特殊化される、姿勢認識確率的弾性部分（ＰＥＰ）ベースのモデルから構成される。

実施形態では、事前定義されたパラメータが、２Ｄ画像を３Ｄ顔形状にマッピングする。３Ｄモデルは、まず、包括的３Ｄメッシュに適合され、次いで、人口統計学的属性（性別および民族性）に基づいて、属性特有モデルに適合するように繰返し改良される。マッピングは、例えば、３Ｄ形状と、描写された２Ｄ画像と、対応するカメラ・パラメータとを含むルックアップ・テーブルとすることができる。例えば、任意の姿勢（例えば、±７０度のヨーおよび±２５度のピッチの範囲内）の画像の場合、モデル化モジュール１５５は、２Ｄ基準点から頭部姿勢を大まかに推定することができる。モデル化モジュール１５５は、顔の３Ｄ形状を識別して、３Ｄモデルに対する初期推定を選択するために使用された類似の基準特徴構成を有する包括的３Ｄモデルを選択することができる（例えば、領域知識データベース１３７から）。この選択された３Ｄモデルを使用して、モデル化モジュール１５５は、次いで、適合アルゴリズム（例えば、勾配降下）を使用して、３Ｄ顔モデルの顔面の位置合わせおよび形状を改良することができる。

追加として、本開示の態様によれば、モデル化モジュール１５５は、３Ｄモデルを再照明する。実施形態では、モデル化モジュール１５５は、３Ｄ顔再照明アルゴリズムを使用して、線形部分空間を生成するために使用される訓練例を拡張することによって、制御されていない照射条件下で得られた画像に行きわたるのに十分な照射変動により、現実的なシナリオに対応する。例えば、モデル化モジュール１５５は、照射データベース（例えば、ＣＭＵＰＩＥデータベース）を使用して、多くの異なる照射条件および姿勢下で個人の外観を捕捉することができる。

さらに、本開示の態様によれば、モデル化モジュール１５５は、３Ｄモデルの表情を中性化する。実施形態では、表情を中性化するために、モデル化モジュール１５５は、非線形多様体ベースの手法を使用して、いくつかの１Ｄ多様体（それぞれ変形モード、すなわち笑顔、驚き、怒りなどを表現する）の組合せとして、３Ｄ顔面変形をモデル化する。例えば、中性の顔は、高次元空間内の中心点であると見なされるのに対して、表情が変動する同じ個人の顔は、その空間の近傍内の点であると想定される可能性がある。表情を中性化するために、モデル化モジュール１５５は、個々の点同士の暗示的な構造関係を捕捉する低次元空間を使用することができる。これらは、非線形多様体を構成する。非線形多様体上の座標は、「活動化レベル」と呼ばれるそのモードに沿った顔面変形の大きさに対応する。疎なデータ点からの構造推論（例えば、Ｎ−Ｄテンソル投票）を可能にする演算フレームワークに基づく非線形多様体の学習を使用して、モデル化モジュール１５５は、各点における多様体の局所的な法線空間および接線空間を推定することができる。推定された接線ベクトルにより、モデル化モジュール１５５は、非線形多様体上を直接ナビゲートすることが可能になる。例えば、モデル化モジュール１５５は、異なる顔面表情下の対象の３Ｄ顔面走査から構成されるデータベース（例えば、Ｂｏｓｐｈｏｒｕｓデータセット）を、多様体を構築する際の訓練データとして使用することができる。

さらに、モデル化モジュール１５５による中性化はまた、本開示の態様による顔の３Ｄモデルを判定することによって暗示的に実行される。つまり、３Ｄモデルは、すべての顔パッチを、３Ｄモデルが基づく中性顔画像からの対応するパッチに対するその近似を示す生成確率に関連付ける。したがって、３Ｄモデルは、顔の表情によって影響される顔パッチの重みを軽減する。

また、本開示の態様によれば、モデル化モジュール１５５は、３Ｄモデルによって表現される個人の加齢を判定する。加齢の影響は、形状（例えば、頭蓋の成長、たるみ特徴）と、肌理の変動（例えば、皮膚のしわ）との組合せとして特徴付けることができる。実施形態では、モデル化モジュール１５５は、３Ｄ形状および肌理モデルを外挿して加齢を補償する。例えば、モデル化モジュール１５５は、異なる年齢層（例えば、１０代（２０歳未満）、若年成人（２０〜３５歳）、中年成人（３５〜５０歳）、および老年成人（５０歳以上））に対するＰＥＰモデルを判定することができる。年齢層ベースのＰＥＰモデルは、年齢層にわたってパッチベースの外観変動を特徴付ける統一されたフレームワークを提供する。実施形態では、モデル化モジュール１５５は、姿勢にわたって十分な顔加齢データセットを欠くため、年齢層ベースのＰＥＰモデルの学習を、その年齢層に属する対象の正面顔画像を使用する正面姿勢ビンに制限する。

とりわけ、本開示の態様によれば、モデル化モジュール１５５によって判定される３Ｄモデルは、顔面の装飾および遮蔽を補償する。顔面の装飾および遮蔽は、属性ベースの顔表現下で暗示的に除去される。つまり、３Ｄモデルは、顔面の装飾および遮蔽のない顔を使用して構築される。したがって、モデル内の構成要素の高い確率に基づいて選択されたパッチは、顔面の毛がなく、訓練例パッチの外観に類似した外観をもつパッチである。例えば、３Ｄモデルを判定する際、モデル化モジュール１５５は、皮膚肌理モデル化を使用して、画像から２Ｄ皮膚パッチを選択的に抽出し、３Ｄメッシュの全体的な皮膚の肌理を更新する。したがって、３Ｄモデルの皮膚は顔面の毛を欠く。代わりに、分析モジュール１５２によって判定される個人に対する属性は、顔面の毛の存在を特徴付けるものであり、これを使用して、３Ｄモデルを特徴付けることができる。

本開示の態様によれば、抽出モジュール１５９は、異なる姿勢範囲に対応する３Ｄモデルから２Ｄパッチを抽出する。実施形態では、抽出モジュール１５９は、複数の姿勢ビンのそれぞれに対して描写された画像から２Ｄパッチを密にサンプリングする。２Ｄパッチは、様々なサイズ（例えば、解像度）を有することができる。例えば、抽出モジュール１５９は、複数のサイズ・レベル（例えば、１０）で２Ｄパッチを抽出することができ、各サイズ・レベルは、各レベルで累進的に小さくなる（例えば、８０％）。さらに、各レベルに対して、抽出モジュール１５９は、段階的に顔画像からサンプリングされるはずの２Ｄパッチを抽出する（例えば、各段階は、２Ｄパッチ幅の２分の１である）。姿勢ビンがどのように取り込まれるか（例えば、観察された画像からのパッチ、回帰を使用して外挿されたパッチ、または正規化された３Ｄモデルから描写されたパッチを使用する）に応じて、２Ｄパッチを判定するために使用されるそれぞれのデータの数量および／または数量に基づいて、異なる不確実性メトリックが姿勢ビンに関連付けられる。

本開示の態様によれば、整合モジュール１６３は、入力画像（例えば、イベントにおける違反者の捕捉画像）と、抽出モジュール１５９によって抽出された２Ｄパッチとの間のマッチを判定する。入力画像とギャラリー表現情報との間の類似性は、それらの表現の異種シグニチャ間のマッチスコアとして演算される。実施形態では、整合モジュール１６３は、索引付けとマッチ体系との組合せを使用して、マルチビューＰＥＰシグニチャをマッチさせ、それぞれの構成要素の不確実性を補償する。本開示の態様によれば、顔を記述する視覚属性は、顔同士の類似性を評価するための中間表現空間を提供する。低レベルの特徴は、場面内の測光および幾何学上の変化による摂動によって強く影響されるのに対して、記述可能な顔面属性の空間は、顔同士の対応関係を確立するためにより汎用化可能なメトリックを提供する。

図３〜６の流れ図は、本開示の様々な実施形態によるシステム、デバイス、方法、およびコンピュータ・プログラム製品の可能な実装形態の機能性および動作を示す。図３〜６の流れ図内の各ブロックは、プログラム命令のモジュール、セグメント、または部分を表すことができ、プログラム命令は、図示の機能および動作を実施するための１つまたは複数のコンピュータ実行可能な命令を含む。いくつかの代替実装形態では、流れ図の特定のブロックに示す機能および／または動作は、図３〜６に示す順序以外で行うことができる。例えば、必要とされる機能性に応じて、連続して示す２つのブロックを実質上同時に実行することができ、または時として、それらのブロックを逆の順序で実行することができる。流れ図の各ブロックおよびブロック内のブロックの組合せは、指定の機能もしくは動作を実行する特殊目的ハードウェア・ベースのシステムまたは特殊目的ハードウェアおよびコンピュータ命令の組合せによって実施することができることにも留意されたい。

図３は、本開示の態様による画像を摂取し、モデル化し、抽出し、かつマッチさせる、例示的なプロセス３００の流れ図を示す。図３のステップは、図１の顔面認識システム（例えば、顔面認識システム１０５）を使用して実施することができ、例えば画像ソース（例えば、画像ソース１１０）から画像を取得し、取得した画像を処理して顔面認識を実行することができる。

ステップ３０３で、顔面認識システム（例えば、摂取モジュール１５１による）は、個人の１つまたは複数の画像を取得する。例えば、顔面認識システムは、個人の顔の画像を含む複数の異なる画像を、カメラおよび／または画像データベースなどの画像ソース（例えば、画像ソース１１０）から取得することができる。画像は、顔面認識システムによる参考および処理のために、データベース（例えば、画像データベース１３６）内に記憶することができる。

ステップ３０５で、顔面認識システム（例えば、分析モジュール１５３による）は、画像から属性を判定する。本発明の態様によれば、属性は、対象の特徴を意味的に記述する。実施形態では、属性は、事前定義された情報およびモデル（例えば、領域知識データベース１３７）に基づいて決定される。

ステップ３０７で、顔面認識システム（例えば、モデル化モジュール１５５による）は、画像を使用して個人の顔の３Ｄモデルを決定する。例えば、モデル化モジュール１５５は、ステップ３０５で決定した属性に基づいてライブラリ（例えば、領域知識データベース１３７）から３Ｄメッシュを選択し、ステップ３０３で取得した画像のパッチをこのメッシュに取り込むことができる。実施形態では、顔面認識システムは、複数の画像からの情報を欠く３Ｄモデルの要素を識別することができる。３Ｄモデルが要素のいずれかを欠く場合、顔面認識ツールは、対象または標的個人の属性に類似した属性を有する個人からコンパイルした領域知識（例えば、領域知識データベース１３７）を使用して、識別された要素に対する情報を提供することができる。

ステップ３０９で、顔面認識システム（例えば、モデル化モジュール１５５による）は、ステップ３０７で判定した３Ｄモデルを正規化する。正規化は、３Ｄモデルによって表現される顔における照明変動を正規化するために３Ｄモデルを再照明するステップを含むことができる。追加として、正規化は、本明細書に前述したように、３Ｄモデルによって表現される顔の表情を中性化するステップと、３Ｄモデルによって表現される顔の年齢を修正するステップと、３Ｄモデルに関連付けられた顔面の装飾および遮蔽を補償するステップとを含むことができる。

ステップ３１１で、顔面認識システム（例えば、抽出モジュール１５９による）は、顔の異なる姿勢に対応するステップ３０９で正規化した３Ｄモデルから２Ｄパッチを抽出する。例えば、それぞれの異なる姿勢は、３Ｄモデルのそれぞれの視野角範囲に対応することができる。各視野角範囲に対して、顔面認識システムは、複数の可視パッチを決定し、これらのパッチの情報をそれぞれの視野角範囲に関連付けてデータベース（例えば、モデル・データベース１３８）内に記憶することができる。

ステップ３１３で、顔面認識システム（例えば、抽出モジュール１５９による）は、ステップ３１１で使用した異なる姿勢に対するマルチビューＰＥＰシグニチャを決定する。実施形態では、マルチビューＰＥＰシグニチャは、異なる角度からの３Ｄモデルのそれぞれの視野角範囲に対応する。実施形態では、顔面認識システムは、複数の追加の顔画像を使用して、マルチビューＰＥＰシグニチャを繰返し改良する。しかし、本発明の態様によれば、それぞれのマルチビューＰＥＰシグニチャは、追加の顔画像の数にかかわらず、固定のサイズを有する。また、本発明の態様によれば、顔面認識システムは、マルチビューＰＥＰシグニチャのうち、顔の他の特徴に対して最も大きい判別特徴を有する顔の部分に対応する１つを決定する。実施形態では、最も大きい判別特徴を有する顔の部分の決定は、顔面特徴選択を実行するための訓練データを有する重畳ニューラル・ネットワークを使用して行われる。例えば、訓練データに基づいて、重畳ニューラル・ネットワークを使用して、各部分に対する不確実性メトリックを決定し、最も小さい不確実性メトリックを有する顔の対応する部分を選択することができる。

ステップ３１５で、顔面認識システム（例えば、抽出モジュール１５９による）は、ステップ３０５で決定した属性でマルチビューＰＥＰシグニチャを索引付ける。実施形態では、特定のマルチビューＰＥＰシグニチャに対して、属性を構成要素マルチビューＰＥＰシグニチャとして処理されるベクトルに変換することによって、属性を索引付けることができる。例えば、索引付けは、最適化変換コード化方法を使用して実行することができる。

ステップ３１７で、顔面認識システム（例えば、抽出モジュール１５９による）は、１つまたは複数の不確実性メトリックをそれぞれのマルチビューＰＥＰシグニチャに関連付ける。不確実性メトリックは、それぞれのマルチビューＰＥＰシグニチャを生成するために使用される情報の品質に基づいて判定された値（例えば、遮蔽、顔面の装飾、照明、および視野角による）とすることができる。マルチビューＰＥＰシグニチャは、ステップ３１５で判定したそれぞれの属性およびステップ３１７で判定したそれぞれの不確実性メトリックに関連付けて、データベース（例えば、モデル・データベース１３８）内に記憶することができる。

ステップ３１９で、顔面認識システム（例えば、整合モジュール１６３による）は、ステップ３０５で決定した属性、ステップ３１５で決定したマルチビューＰＥＰシグニチャ、およびステップ３１７で決定した不確実性メトリックに基づいてモデル化された個人の顔に、入力画像がマッチするかどうかを判定する。実施形態では、判定は、入力画像の解像度に基づいて複数のシグニチャの解像度を修正するステップを含む。追加として、実施形態では、判定は、複数の撮像モダリティを使用してマッチを実行するステップを含む。例えば、マッチは、可視スペクトル画像、赤外画像、および／または図面に対応するＰＥＰシグニチャを使用して実行することができる。

図４は、本開示の態様による顔面認識システム（例えば、顔面認識システム１０５）を使用して属性ベース表現を判定する流れ図を示す。顔面認識システムは、本明細書に前述したものと同じとすることができる。ステップ４０３で、顔面認識システムは、１つまたは複数のソース（例えば、画像ソース１１０）から、個人の１つまたは複数の画像４０５を受け取る。ステップ４０７で、顔面認識システム（例えば、モデル化モジュール１５５を使用する）は、個人の顔の３Ｄモデルを決定する。３Ｄモデルは、受け取った画像から抽出された個人の属性（例えば、性別、年齢、民族性など）に基づいて選択される標準的な形状に基づくことができる（例えば、分析モジュール１５３を使用する）。さらに、顔面認識システムは、本明細書に前述したように、モデルを再照明し、顔の表情を正規化し、かつ／または顔を加齢させることによって、３Ｄモジュール内の個人の顔面表現を修正することができる。

ステップ４０９で、顔面認識システム１０５（例えば、抽出モジュール１５９を使用する）は、３Ｄモデルの複数の異なる姿勢に対応する２Ｄパッチを抽出することによって、ステップ４０７で決定した３ＤモデルからマルチビューＰＥＰシグニチャを決定する。それぞれの姿勢は、ピッチおよびヨー範囲の異なる組合せに基づく３Ｄモデルの視野角に対応することができる。例えば、第１の組合せは、−１５度〜１５度のピッチ範囲および１０度〜４０度のヨー範囲を含むことができ、第２の組合せは、−１０度〜＋１０度のピッチ範囲および−９０度〜−７５度のヨー範囲を含むことができ、第３の組合せは、−１０度〜＋１０度のピッチ範囲および−４５度〜−１５度のヨー範囲を含むことができ、第４の組合せは、−１０度〜＋１０度のピッチ範囲および−１５度〜＋１５度のヨー範囲を含むことができ、第５の組合せは、−１０度〜＋１０度のピッチ範囲および＋１５度〜＋４５度のヨー範囲を含むことができ、第６の組合せは、−１０度〜＋１０度のピッチ範囲および＋７５度〜＋９０度のヨー範囲を含むことができ、第７の組合せは、−４０度〜−１０度のピッチ範囲および−１５度〜＋１５度のヨー範囲を含むことができる。本開示の態様によれば、マルチビューＰＥＰシグニチャは、複数の画像モダリティ４１３（例えば、可視スペクトル、赤外、およびスケッチ／漫画）に対して決定される。

ステップ４１５で、顔面認識システム（例えば、抽出モデル１５９を使用する）は、ステップ４０９で使用した異なる姿勢（例えば、姿勢０〜８）に対して決定されたそれぞれのマルチビューＰＥＰシグニチャにそれぞれ対応する複数のビン４１７（例えば、ビン０〜８）を取り込む。追加として、それぞれのビン４１７は、１つまたは複数の属性４１９によって索引付けられる。さらに、それぞれのビン４１７は、それぞれの不確実性メトリック４２１に関連付けられる。本開示の態様によれば、個人の画像と異なる姿勢に対して決定されたマルチビューＰＥＰシグニチャとの間の類似性に基づいて、個人を識別することができる。

図５は、本開示の態様による顔面認識システム（例えば、顔面認識システム１０５）によって属性を決定する流れ図を示す。属性は、顔面認識システムの分析モジュール１５３によって決定することができ、顔面認識システムは、本明細書で先に論じたものと同じとすることができる。ステップ５０３で、分析モジュール１５３は、本明細書に前述したように、画像内の個人の顔を検出することができる。検出した顔は、姿勢に関連付けることができる。ステップ５０５で、分析モジュール１５３は、本明細書に前述したように、ステップ５０３で検出した顔の中の基準点を決定することができる。ステップ５０７で、分析モジュール１５３は、ステップ５０５で決定した基準点に基づいて、顔の中から２Ｄパッチを決定することができる。

さらに、ステップ５０９で、分析モジュール１５３は、ステップ５０３で検出した顔の属性（例えば、姿勢）およびステップ５０７で判定した２Ｄパッチを分類することができる。例えば、顔および２Ｄパッチに基づいて、分析モジュール１５３は、「男性」、「白色人種」、「尖った鼻」、および「眼鏡」という意味を画像に関連付ける線形分類子を使用する。意味はそれぞれ、判定の確実性に対応するそれぞれの意味の関連付けられた重みを有することができる。例えば、「男性」という意味に関連付けられた重みは、画像内の個人の性別が確かに男性であると分析モジュール１５３が判定したときにより大きくなり、画像内の個人の性別が明らかに男性であるとは言えないと分析モジュール１５３が判定したときは、この重みを小さくすることができる。実施形態では、確実性は、画像内の基準点と基準データ（例えば、領域知識データベース１３７内）との比較によって判定される類似性に基づいて判定することができる。

実施形態では、分析モジュール１５３は、頭部姿勢のヨーおよびピッチ値の範囲に対応する姿勢特有ＰＥＰ表現を識別する重畳ニューラル・ネット（ＣＮＮ）を使用して、属性を判定する。ステップ５０７で姿勢特有の部分に基づいて画像を２Ｄパッチに分解することによって、重畳ニューラル・ネットの後の訓練が実質上より容易になる。したがって、分析モジュール１５３は、姿勢が正規化された特徴を、比較的小さいデータセットから判定することができる。低レベルの特徴に加えて、１対の表現間の対応関係（または整合）を確立するために使用される画像パッチは、３Ｄ姿勢（ヨーおよびピッチ）に依存しており、重畳ニューラル・ネットを使用して各３Ｄ姿勢に対して独立して学習することができる。さらに、分析モジュール１５３は、意味的に位置合わせされた部分パッチに基づく入力層を有するように深い重畳ネットワークを増大させるモデルを使用することができる。このモデルは、特定の姿勢下で特定の属性に特有の特徴を学習する。分析モジュール１５３は、次いで、そのようなネットワークによって作製された属性を組み合わせて、姿勢が正規化された深い表現を構築することができる。分析モジュールは、変動する解像度、品質、および条件（例えば、年齢、姿勢、照射）を有する媒体に対応するように訓練されたマルチビューＰＥＰベースの表現内に深い学習アーキテクチャを統合する。

図６は、本開示の態様によるマルチビューＰＥＰシグニチャを判定するために顔面認識システム（例えば、顔面認識システム１０５）によって実行されるプロセスに対する流れ図を示す。属性は、抽出モジュール１５９によって判定することができ、抽出モジュール１５９は、本明細書で先に論じたものと同じとすることができる。

ステップ６０３で、抽出モジュール１５９は、３Ｄモデルから局所記述子を抽出する。３Ｄモデルは、前述したものと同じとすることができる。ステップ６０５で、抽出モジュール１５９は、ＰＥＰモデルの構成要素を判定する。本発明の態様によれば、訓練画像（例えば、画像データベース１３６内）から、モデル化モジュール１５５は、ガウス構成要素を球状に制約するガウス混合モデルを使用する空間的外観局所記述子を抽出する。抽出モジュール１５９は、期待値最大化（ＥＭ）を使用してパラメータを判定することができる。ＰＥＰモデルは実質上、部分ベース表現に基づいて姿勢変動を処理し、変動しない局所記述子を使用して他の要因からの変動を処理する。

ステップ６０７で、抽出モジュール１５９は、ステップ６０５で判定したＰＥＰモデルの構成要素の中から最尤部分記述子を判定する。例えば、判定したＰＥＰモデルの各ガウス構成要素（顔部分を表現する）は、モデルのパラメータから生じたその構成要素に対して最も高い尤度を有する局所画像記述子を選択する。

ステップ６０９で、抽出モジュール１５９は、ステップ６０７で判定した最尤部分記述子からＰＥＰシグニチャを判定する。最終的な表現を判定するために、抽出モジュール１５９は、すべての構成要素からの選択された記述子を連結することができる。実世界条件を処理するために、抽出モジュール１５９は、上記のＰＥＰモデルを姿勢認識ＰＥＰモデルに拡張し、それによってモデル化モジュール１５５は、ヨー−ピッチ姿勢空間を異なる姿勢ビンに離散化し、それぞれに対して異なるＰＥＰモデルおよび表現を取得する。すべてのＰＥＰモデルの集合から、より広範囲の姿勢変動をより有効にモデル化することができる集合ＰＥＰ表現が得られる。抽出モジュール１５９は、集合内の各個人ＰＥＰ表現に対するメトリックを学習し、各個人ＰＥＰモデルに対する入力顔画像の生成確率を自然に採用して、各個人ＰＥＰ表現上で定義されたメトリックを適応的に重み付けする。

対象のすべての追加の顔画像によって、抽出モジュール１５９は、ソフトマックス集約を採用して部分記述子を集約させる。各最尤部分記述子の重みが、対応する部分に関連付けられた記述子の確率を使用して多項ソフトマックス関数によって設定される場合、すべての顔画像からすべての最尤部分記述子の加重和を取得することによって、ＰＥＰモデルは、記述子の増分的かつ可逆性の更新を可能にする。同時に、各最尤部分記述子の確率を記録することで、追加の新しい画像からの最尤記述子を追加することによって、または既存の表現を作製するために使用された既存の画像の部分集合から最尤記述子を除去することによって、すべての元画像にアクセスする必要なく、既存の表現を柔軟に更新することが可能になる。さらに、ソフトマックス集約ベースの更新は、姿勢認識ＰＥＰ表現のサイズを固定することを可能にする。

本発明の態様によれば、姿勢認識ＰＥＰベースの２Ｄ表現は、３つの部分からなる表現であり、各部分は、可視スペクトルからの画像、近赤外スペクトルからの画像、および似顔絵（または漫画）に対するものである。各タイプの表現に対して、抽出モジュール１５９は不確実性メトリックを推定し、この不確実性メトリックは、生成確率に基づいてパッチから導出されたシグニチャに関連付けられる。そのような不確実性メトリックは、個人に対するシグニチャの正確なマッチを支援することができる。

本開示は、本出願に記載する特定の実施形態に関して限定されるものではなく、実施形態は、様々な態様の例示として意図される。当業者には明らかなように、本開示の精神および範囲から逸脱することなく、多くの修正および変更を加えることができる。上記の説明から、本明細書に挙げたものに加えて、本開示の範囲内の機能上同等の方法および装置が、当業者には明らかである。そのような修正および変更は、添付の特許請求の範囲の範囲内であることが意図される。本開示は、添付の特許請求の範囲と、そのような特許請求の範囲が与えられる均等物の完全な範囲とに関してのみ、限定されるものとする。本明細書に使用する術語は、特定の実施形態について説明することのみを目的とし、限定することが意図されるものではないことも理解されたい。

本明細書での実質上あらゆる複数形および／または単数形の用語の使用に対して、当業者であれば、文脈および／または適用例に対して適当に、複数形から単数形へ解釈し、かつ／または単数形から複数形へ解釈することができる。はっきりさせるために、様々な単数形／複数形の置換えは、本明細書に明確に記載することができる。

全体として、本明細書、特に添付の特許請求の範囲（例えば、添付の特許請求の範囲の本文）で使用される用語は、概して、「オープン」用語として意図されることが、当業者には理解されよう（例えば、「含む（ｉｎｃｌｕｄｉｎｇ）」という用語は、「含むがそれだけに限定されるものではない（ｉｎｃｌｕｄｉｎｇｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ）」として解釈されるべきであり、「有する（ｈａｖｉｎｇ）」という用語は、「少なくとも有する（ｈａｖｉｎｇａｔｌｅａｓｔ）」として解釈されるべきであり、「含む（ｉｎｃｌｕｄｅｓ）」という用語は、「含むがそれだけに限定されるものではない（ｉｎｃｌｕｄｅｓｂｕｔｉｓｎｏｔｌｉｍｉｔｅｄｔｏ）」として解釈されるべきであり、以下同様である）。導入される特許請求の範囲の記載の特有の数が意図される場合、そのような意図は、特許請求の範囲内に明示的に記載され、そのような記載がない場合、そのような意図は存在しないことが、当業者にはさらに理解されよう。例えば、理解を支援するために、以下の添付の特許請求の範囲は、特許請求の範囲の記載を導入するための「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」および「１つまたは複数（ｏｎｅｏｒｍｏｒｅ）」という導入語句の使用を含むことができる。しかし、そのような語句の使用は、不定冠詞「ａ」または「ａｎ」による特許請求の範囲の記載の導入により、同じ特許請求の範囲が「１つまたは複数」または「少なくとも１つ」という導入語句と「ａ」または「ａｎ」などの不定冠詞とを含むときでも、そのような導入された特許請求の範囲の記載を含むあらゆる特定の特許請求の範囲が、１つのそのような記載を含む実施形態のみに限定されることを示唆すると解釈されるべきではない（例えば、「ａ」および／または「ａｎ」は、「少なくとも１つ」または「１つまたは複数」を意味すると解釈されるべきである）。同じことが、特許請求の範囲の記載を導入するために使用される定冠詞の使用にも当てはまる。追加として、導入される特許請求の範囲の記載の特有の数が明示的に記載される場合でも、そのような記載は、少なくとも記載の数を意味すると解釈されるべきであることが、当業者には認識されよう（例えば、他の修飾語のない「２つの記載」という明白な記載は、少なくとも２つの記載または２つ以上の記載を意味する）。さらに、「Ａ、Ｂ、およびＣなどの少なくとも１つ」に類似の規定が使用される例では、全体として、そのような構造は、当業者にはその規定が理解される意味で意図される（例えば、「Ａ、Ｂ、およびＣの少なくとも１つを有するシステム」は、Ａだけを有するシステム、Ｂだけを有するシステム、Ｃだけを有するシステム、ＡとＢを合わせて有するシステム、ＡとＣを合わせて有するシステム、ＢとＣを合わせて有するシステム、ならびに／またはＡ、Ｂ、およびＣを合わせて有するシステムなどを含むが、それだけに限定されないはずである）。「Ａ、Ｂ、またはＣなどの少なくとも１つ」に類似の規定が使用される例では、全体として、そのような構造は、当業者にはその規定が理解される意味で意図される（例えば、「Ａ、Ｂ、またはＣの少なくとも１つを有するシステム」は、Ａのみを有するシステム、Ｂのみを有するシステム、Ｃのみを有するシステム、ＡとＢを合わせて有するシステム、ＡとＣを合わせて有するシステム、ＢとＣを合わせて有するシステム、ならびに／またはＡ、Ｂ、およびＣを合わせて有するシステムなどを含むが、それだけに限定されないはずである）。説明、特許請求の範囲、または図面にかかわらず、２つ以上の代替用語を示す事実上あらゆる離接的接続詞および／または句は、用語の１つ、用語のいずれか、または両方の用語を含む可能性を企図すると理解されるべきであることが、当業者にはさらに理解されよう。例えば、「ＡまたはＢ」という語句は、「Ａ」または「Ｂ」または「ＡおよびＢ」の可能性を含むと理解される。追加として、本開示の特徴または態様について、マーカッシュ群の点から説明される場合、それによって本開示は、マーカッシュ群のあらゆる個々の部材または部材の小群の点からも説明されることが、当業者には理解されよう。

様々な態様および実施形態について本明細書に開示したが、他の態様および実施形態が当業者には明らかである。本明細書に開示する様々な態様および実施形態は、例示を目的とするものであり、限定することを意図するものではなく、真の範囲および精神は、以下の特許請求の範囲によって示される。

Claims

個人の顔の３次元（３Ｄ）モデルを、該個人の複数の異なる画像に基づいて決定するステップと、
前記顔の異なる姿勢に対応する該３Ｄモデルから複数の２次元（２Ｄ）パッチを抽出するステップと、
複数の前記２Ｄパッチの異なる組合せを使用して、異なる角度からの該３Ｄモデルのそれぞれの見え方に対応する前記顔の複数の特徴部分であるシグニチャを生成するステップと
を有する方法。
プロセッサと、
記憶システムと、
該プロセッサによる実行のためにコンピュータ可読ハードウェア記憶デバイス上に記憶されたプログラム命令と、を備え、
該プログラム命令が、
個人の顔の３次元（３Ｄ）モデルを、該個人の複数の異なる画像に基づいて決定するプログラム命令と、
前記顔の異なる姿勢に対応する該３Ｄモデルから複数の２次元（２Ｄ）パッチを抽出するプログラム命令と、
複数の該２Ｄパッチの異なる組合せを使用して該顔の複数の特徴部分であるシグニチャを生成するプログラム命令とを含み、前記複数のシグニチャが、異なる角度からの前記３Ｄモデルのそれぞれの見え方に対応する
顔面認識システム。
前記３Ｄモデルを決定することが、
前記複数の画像において前記個人の顔の一部の情報を欠く前記３Ｄモデルの要素を識別することと、
前記個人の属性に類似した属性を有する個人からコンパイルした領域知識を使用して、該識別された要素に対する該情報を提供することを含む請求項２に記載のシステム。
前記３Ｄモデルの照明変動を正規化することによって、前記３Ｄモデルを修正することをさらに含む請求項２に記載のシステム。
前記個人の前記複数の異なる画像から得られる顔面表情を正規化することをさらに含む請求項２に記載のシステム。
前記個人の年齢に基づいて前記３Ｄモデルを修正することをさらに含む請求項２に記載のシステム。
前記個人の特徴を表す前記個人の複数の属性を決定することをさらに含む請求項２に記載のシステム。
前記複数の属性に基づいて前記複数のシグニチャを索引付けることをさらに含む請求項７に記載のシステム。
前記複数のシグニチャに対するそれぞれの不確実性値を決定することをさらに含み、
該不確実性値は、対応する前記シグニチャ内に含まれる複数の２Ｄパッチの品質に基づく値である請求項２に記載のシステム。
顔画像が前記複数のシグニチャの少なくとも１つにマッチするか否かを判定することをさらに含む請求項２に記載のシステム。
前記顔画像がマッチするか否かを判定する場合に、前記顔画像の解像度に基づいて前記複数のシグニチャの解像度を変更する請求項１０に記載のシステム。
前記顔画像がマッチするか否かを判定する場合に、複数の撮像モダリティを使用してマッチするか否かを判定することを含む請求項１０に記載のシステム。
前記顔の前記複数のシグニチャは、前記個人の複数の追加の顔画像を使用して繰返し改良されることを含む請求項２に記載のシステム。
前記顔の前記複数のシグニチャは、追加の顔画像の数にかかわらず、固定のデータ量のサイズを有する請求項２に記載のシステム。
前記複数のシグニチャに対し不確実性メトリックがそれぞれ対応するか否かを判定することと、
前記複数のシグニチャを前記対応する不確実性メトリックに関連付けることと
をさらに含む請求項２に記載のシステム。
前記複数のシグニチャのうち、最も大きい判別特徴を有する前記顔の部分に対応する前記シグニチャを決定することをさらに含む請求項２に記載のシステム。