JP5552519B2

JP5552519B2 - 顔特徴ベクトルの構築

Info

Publication number: JP5552519B2
Application number: JP2012230281A
Authority: JP
Inventors: エリックソレムジャン; ルーソンマイケル
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2011-12-20
Filing date: 2012-09-28
Publication date: 2014-07-16
Anticipated expiration: 2032-09-28
Also published as: JP2013131209A; US20130155063A1; TWI484444B; WO2013095727A1; CN103198292A; AU2012227166B2; TW201327478A; CA2789887C; KR101481225B1; KR20130071341A; AU2012227166A1; EP2608108A1; US8593452B2; CA2789887A1

Description

本開示は、一般に、顔認識の分野に関する。より具体的には、本開示は、複数のタイプの顔認識記述子を組み合わせて、単一の要素である顔特徴ベクトルにするための多数の技術を説明する。顔特徴ベクトルは、顔認識の用途に用いることができる。そのような用途の例として、ｉＰｈｏｔｏ（登録商標）及びＡｐｅｒｔｕｒｅ（登録商標）において画像（スチル画像及びビデオ画像）を管理し、ソートし、注釈を付けることが挙げられるが、これらに限定されるものではない。（ＩＰＨＯＴＯ及びＡＰＥＲＴＵＲＥはＡｐｐｌｅＩｎｃ．社の登録商標である。）

一般論として、顔認識演算は、人物の顔を走査し、そこから特定のパラメータのセットを抽出又は検出し、これらのパラメータを、既に識別情報が割り当てられているかそうでなければ知られている既知の顔データのライブラリと照合する。新たな画像のパラメータが比較されるデータ・セットは、モデルによって特徴付け又は記述される場合が多い。実際には、これらのモデルは、パラメータ・セットのグループを定めるものであり、所与のグループに入る全ての画像は、同一人物のものとして分類される。

ロバスト（例えば、画像ノイズ、人物のポーズ、及び場面の照度に対して安定である）且つ正確（例えば、高い認識率をもたらす）であるためには、特定のパラメータ・セットは、典型的な人物内での変動に対して繰り返し可能で不変であると同時に、ある人物を別の人物と区別することが可能な方法で、顔を記述する情報をコード化する必要がある。この必要性は、全ての顔認識システムが直面する中心的な問題である。従って、ロバスト且つ正確な顔認識をもたらすパラメータのセットを定めるための機構（方法、装置、及びシステム）を特定することが有益である。

種々の実施形態においては、本発明は、デジタル画像において検出された顔を識別するのに用いることができる新規な顔特徴ベクトルを生成するための装置（例えば、パーソナル・コンピュータ）、方法、及びコンピュータ・プログラム・コードを提供する。本方法は、コンピュータ・プログラム・コードを実施（又は実行）して、（例えば、顔検出技術によって）第１の画像における第１の顔についてランドマーク検出情報を得ることを含む。ランドマーク検出情報を第１及び第２の形状モデルに適用して第１及び第２の形状特徴ベクトルを生成し、第１及び第２のテクスチャ・モデルに適用して第１及び第２のテクスチャ特徴ベクトルを生成することができる。これらの４つの特徴ベクトルの全てを組み合わせて、顔特徴ベクトルを形成することができる。

１つの実施形態においては、第１の形状モデルは、検出された顔の二次元形状モデルであり、第２の形状モデルは、検出された顔の三次元形状モデルである。第１及び第２の形状モデルは、互いに独立に線形又は非線形とすることができる。

別の実施形態においては、ランドマーク検出情報は、第１及び第２のテクスチャ特徴ベクトルを生成するのに用いられる前に、正規化することができる。幾つかの実施形態においては、第１のテクスチャ特徴ベクトルは、正規化されたランドマーク検出情報内の特定の領域に基づくものとすることができる（この領域は、正規化されたランドマーク検出情報の全てより少ない情報を含む）。

更に別の実施形態においては、正規化されたランドマーク検出情報を用いて第２のテクスチャ特徴ベクトルを生成する前に、正規化されたランドマーク検出情報にモーフィング演算を適用することができる。

更にまた別の実施形態においては、こうした２つの顔特徴ベクトルを比較することによって、類似性測度を決定することができる。この類似性測度を用いて、２つの顔特徴ベクトルが同じ顔を表す可能性が高いかどうかを判定することができる。この実施形態及び類似の実施形態においては、類似性測度は、マハラノビス距離測度に基づくことができる。

１つの実施形態による顔特徴ベクトル生成及び実行時顔認識の演算をブロック図形式で示す。１つの実施形態による形状モデル及びテクスチャ・モデルの合成をブロック図形式で示す。別の実施形態による顔特徴ベクトル生成の演算をブロック図形式で示す。１つの実施形態によるローカル画像記述子の演算を示す。１つの実施形態による密な画像記述子の演算を示す。１つの実施形態による密な歪み画像記述子の領域を示す。１つの実施形態による顔特徴ベクトルの構造を示す。１つの実施形態による顔認識演算をフローチャート形式で示す。１つの実施形態による開示された顔特徴ベクトルの識別性能を示す例示的な受信者操作特性（ＲＯＣ）曲線を示す。本開示による１つ又はそれ以上の演算を実装するのに用いることができる例示的な電子装置をブロック図形式で示す。

本開示は、顔認識パラメータ・セットを決定して適用するためのシステム、方法、及びコンピュータ可読媒体に関する。一般に、顔認識識別子の固有の組み合わせを特定して、従来技術の認識手法に比べてよりロバスト（例えば、画像ノイズ、人物のポーズ、及び場面の照度に対して安定である）且つより正確（例えば、高い認識率をもたらす）であることが見出された「顔特徴ベクトル」を構築するための技術が開示される。より具体的には、顔特徴ベクトルは、形状記述子とテクスチャ記述子との組み合わせによって生成することができる。１つの実装形態においては、顔特徴ベクトルは、顔の二次元（２Ｄ）形状と、顔の三次元（３Ｄ）形状と、顔の全体即ちグローバルなテクスチャと、細部即ちローカルなテクスチャ情報（例えば皮膚の色）とを記述する情報を含む。

以下の説明においては、本発明の概念が完全に理解されるように、多数の具体的な詳細が説明目的で示される。当業者には公知である詳細によって本発明を不明確にしないように、この記述の一部として、本開示の図面の幾つかは、構造及び装置をブロック図の形式で表す。さらに、本開示において用いられる言葉は、主として読みやすさ及び教示の目的で選択されたものであり、本発明の主題を画定又は制限するために選択されたものではなく、こうした本発明の主題を判断するためには特許請求の範囲に頼る必要がある。本開示における「１つの実施形態」又は「一実施形態」への言及は、その実施形態に関連して説明された特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれていることを意味しており、「１つの実施形態」又は「一実施形態」への複数の言及が必ずしも全て同一の実施形態を指していると理解すべきではない。

当然のことながら、いずれかの実際の実装形態の開発においては（いずれかの開発プロジェクトなどで）、開発者の特定の目的（例えば、システム関連及びビジネス関連の制約への適合）を達成するために多数の意思決定が行われなければならず、これらの目的は実装形態ごとに変わることになる。同様に当然のことながら、こうした開発努力は、複雑且つ時間のかかるものとなる可能性があるが、それにも関わらず、本開示の利益を有する顔認識分野の当業者にとっては通常業務に当たることになる。

図１を参照すると、１つの実施形態による顔特徴ベクトル生成及び実行時顔認識の演算１００が、ブロック図形式で示される。始めに、入力画像１０５が顔検出器１１０に従って処理され、ランドマーク画像１１５が生成される。本明細書において用いられるときには、「ランドマーク画像」という用語は、ランドマーク点が検出された顔の画像を指す。ランドマーク特徴は、目、眉、鼻、口、及び頬といった１つ又はそれ以上の顔の特徴の位置を含むことができる。入力画像１０５は、例えば、デジタル・スチル・カメラ又はビデオ・カメラから得られた画像とすることができる。顔検出器１１０は、設計者の目的／制約に適したいずれかの方法を用いることができる。例示的な顔検出技術は、知識ベース、特徴不変、テンプレート・マッチング、及び外観ベースの方法を含むが、これらに限定されるものではない。顔を検出するための正確な方法は、以下の説明にとって重要なものではないため、本明細書ではこの演算に関してこれ以上説明しない。限定されるものではないが、１つの実施形態においては、ランドマーク画像１１５は、検出される特徴が目立つグレースケール画像とすることができる。説明を簡単にするために、以下においては、入力画像（例えば画像１０５）は単一の顔のみを含むものと仮定される。しかしながら、開示される技術は本来こうした限定を含むものではないことを理解されたい。

ランドマーク画像１１５は、１つ又はそれ以上の形状モデル１２０及び１つ又はそれ以上のテクスチャ・モデル１２５に適用することができる。示されるように、形状モデル１２０は形状記述子１３０を生成し、テクスチャ・モデル１２５はテクスチャ記述子１３５を生成する。形状モデル１２０及びテクスチャ・モデル１２５は、典型的には、既知の画像のライブラリを用いてオフラインで生成され、互いに独立に線形又は非線形とすることができることを認識すべきである。これらのモデルはまた、ランドマーク点がそれ自体の外観モデルを有する「幾何学的制約のある部分に基づくモデル（geometry constrained part-based model）」を含むことができる。記述子１３０及び１３５は、ブロック１４０に従って、開発者の目的及び／又は制約を満たすいずれかの方法で組み合わせることができる。一例として、演算１４０は、与えられた形状記述子及びテクスチャ記述子の各々を連結することができる。別の実施形態においては、演算１４０は、記述子要素の線形組み合わせのセットを生成することができる。更に別の実施形態においては、形状記述子１３０をある方法で組み合せ、テクスチャ記述子１３５をそれとは異なる方法で組み合わせて、その各々の組み合わせを連結することができる。更に別の実施形態においては、１つ又はそれ以上の記述子をそれぞれのモデルによって生成されたものとして組み合わせ、一方他の記述子は、組み合わされる前に付加的な処理（例えば、次元縮小、平滑化など）を経るようにすることができる。どのように組み合わされた場合でも、演算１４０の結果は顔特徴ベクトル１４５である。顔特徴ベクトル１４５は、ストレージ１５０内（例えば、永続的な磁気又は固体ディスク・ユニット）に保持することができる。実際上は、顔特徴ベクトル１４５は、入力画像１０５内に（例えば、そのメタデータ内に）組み込むこと、及び／又は、画像１０５を参照する別個のデータ・ストア内に保持することができる。

顔特徴ベクトル１４５は、生成されると、（例えば、画像１０５内の）対応する画像の顔を識別するために、アプリケーション１５５によって用いることができる。例えば、アプリケーション１５５は、関連する顔特徴ベクトル＜ｆ＞が顔‘Ｆ’と関連付けられている又は識別される画像１６０を取り出すことができる。顔特徴ベクトル１４５は、取り出されると、顔特徴ベクトル＜ｆ＞と比較する１６５ことができ、（例えば何らかの都合のよい測度によって）両者が十分に類似している場合には、画像１０５は、顔‘Ｆ’を含んでいると言うことができる。１つの実施形態においては、アプリケーション１５５は、ユーザ・レベルのグラフィックス・アプリケーション（例えばｉＰｈｏｔｏ又はＡｐｅｒｔｕｒｅ）とすることができる。別の実施形態においては、アプリケーション１５５は、ユーザ・レベルのアプリケーションによって用いることができる顔認識フレームワークに組み込むことができる。更に別の実施形態においては、アプリケーション１５５の幾つか又は全てを、専用の画像処理ハードウェアに組み込むことができる。

図２を参照すると、形状モデル１２０は、二次元（２Ｄ）モデル２００及び三次元（３Ｄ）モデル２０５（それぞれ２Ｄ及び３Ｄの形状記述子２１０及び２１５を生成する）を含み、一方、テクスチャ・モデル１２５は、グローバル・テクスチャ・モデル２２０及びローカル・テクスチャ・モデル２２５（それぞれグローバル及びローカルのテクスチャ記述子２３０及び２３５を生成する）を含んでいることが分かる。

１つの実施形態においては、２Ｄモデル２００、３Ｄモデル２０５、及びグローバル・テクスチャ・モデル２００は、以下の形態の線形モデル、即ち、

とすることができ、ここで、

（これ以降ベクトルｉと記載する）は、（モデルが形状モデルであるかテクスチャ・モデルであるかに応じて）画像又は画像点を表し、Ｂは、基底ベクトル（通常、直交する）のセットを表し、

（これ以降ベクトルｃと記載する）は、モデル係数のセットを表し、

（これ以降ベクトルｍと記載する）は、（モデルが形状モデルであるかテクスチャ・モデルであるかに応じて）平均形状ベクトル又は平均テクスチャ・ベクトルを表す。（トレーニング）画像のセットが与えられると、例えば、主成分分析（ＰＣＡ）、独立成分分析（ＩＣＡ）、線形判別分析（ＬＤＡ）、弾性バンチ・グラフ・マッチング（ＥＢＧＭ）、トレース変換、アクティブ外観モデル（２Ｍ）、ベイズ・フレームワーク、サポート・ベクター・マシン（ＳＶＭ）、隠れマルコフ・モデル（Ｈ８）、及び固有顔といったあらゆる技術を用いて、基底ベクトルＢ及び平均形状／テクスチャ・ベクトルｍを決定することができる。Ｂを構成する基底ベクトルの数が、モデルの正確性をある程度まで決定する。従って、Ｂの大きさは、所望の正確性を達成するように設計者が選択することができる。１つの実装形態においては、１０個の基底ベクトルで十分な場合があるが、別の実装形態においては、２０、５０、又は７５個の基底ベクトルが必要となる場合がある。

図３を参照すると、顔特徴ベクトル構築演算３００の１つの実施形態に関するブロック図が示される。図１及び図２に関して上述されたように、入力画像１０５が、ランドマーク画像１１５を生成する顔検出器１１０に与えられる。例示された実施形態においては、ランドマーク画像１１５は、２Ｄ及び３Ｄの形状モデル２００及び２０５に直接与えることができる。これらのモデルを数式１によって特徴づけることができると仮定すると、２Ｄ形状モデル２００については、ベクトルｉはランドマーク画像１１５を表し、Ｂは２Ｄモデルの基底ベクトルのセットを表し、ベクトルｃは２Ｄモデル係数（即ち、２Ｄ記述子２１０）のセットを表し、ベクトルｍは平均２Ｄ形状ベクトルを表す。同様に、３Ｄ形状モデル２０５については、ベクトルｉは同じくランドマーク画像１１５を表し、Ｂは３Ｄモデル基底ベクトルのセットを表し、ベクトルｃは３Ｄモデル係数（即ち、３Ｄ記述子２１５）のセットを表し、ベクトルｍは平均３Ｄ形状ベクトルを表す。

次に、正規化された画像３１０を生成するために、ランドマーク画像１１５に正規化演算３０５を施すことができる。当業者であれば、正規化演算３０５は、画像のランドマーク特徴（例えば、眉、目、鼻、口及び顎）を所与のサイズのフレーム内における特定の位置に現れるように調整することができる処理を指すことが分かるであろう。

正規化されると、画像３１０は、グローバル・テクスチャ記述子２３０を生成するために、グローバル・テクスチャ・モデル２２０に与えることができる。数式１がグローバル・テクスチャ・モデル２２０を特徴づけるものである場合には、ベクトルｉは正規化された画像３１０を表し、Ｂはテクスチャ・モデルの基底ベクトルのセットを表し、ベクトルｃはテクスチャ・モデル係数（即ち、グローバル・テクスチャ記述子２３０）のセットを表し、ベクトルｍは平均テクスチャ・ベクトルを表す。

２Ｄモデル２００、３Ｄモデル３００、及びグローバル・テクスチャ・モデル２２０についての基底ベクトル（Ｂ）及び平均ベクトル（ベクトルｍ）をオフラインで決定し、それらを実行時の使用のために格納した後で、数式１をベクトルｃについて解くことによって、（２Ｄ記述子２１０、３Ｄ記述子２１５、及びグローバル・テクスチャ記述子２３０を表す）モデル係数を決定することができる。Ｂは必ずしも正方行列ではないため、ベクトルｃを決定するための数式１の単純な代数的解法を利用できない場合がある。従って、ベクトルｃは、多くの最適化手続きのうちのいずれか１つによって実行時に決定することができる。こうした手続きの１つは、以下の関係、即ち、

を評価することである。

例として、ランドマーク画像１１５及び正規化された画像３０５の各々が、（１２８×１２８）の要素配列によって表される場合には、ベクトルｉは（１６，３８４×１）のベクトルになることが、数式１からわかる。さらに、‘ｎ１’がＢにおける基底ベクトルの数を表す場合には、Ｂは（１６，３８４×ｎ１）の行列であり、ベクトルｍは（１６，３８４×１）のベクトルである。この例においては、２Ｄ記述子２１０、３Ｄ記述子２１５、及びグローバル・テクスチャ記述子２３０は、（ｎ１×１）のベクトルである。１つの実施形態においては、３Ｄモデル係数は、「３ＤＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎ」という名称の同時係属中の米国特許出願番号第１３／２９９，２１１号において説明されている技術を用いて得ることができる。

再び図３を参照すると、正規化された画像３１０は、ローカル・テクスチャ・モデル２２５にも与えることができる。図示されるように、ローカル・テクスチャ・モデル２２５自体は、ローカル画像記述子３１５、密な画像記述子３２０、及び密な歪み画像記述子３２５を含むことができる。

図４ａを参照すると、１つの実施形態においては、ローカル画像記述子３１５は、ランドマーク特徴のうちの１つ又はそれ以上の周囲の小領域又はタイル４００のテクスチャに基づくものとすることができる（図４ａにおいては例示的な領域の１つのみが挙げられている）。タイルの正確な数は、画像の解像度及び設計者の目的／制約によって決まるが、（１２８×１２８）の正規化された画像の場合には、１０から２０のタイルで十分であることが分かっている。各々のタイルの大きさは、トレーニング・データに基づいて決定することができ、一定数のスケールで変わる可能性があり、その場合における各々の点は、異なる大きさの複数のタイルをもつことがある。実際に用いられる設定は、（確立された設計制約の範囲内で）最良の認識性能をもたらすものに基づくことができることが理解されるであろう。例として、ローカル画像記述子は、勾配ヒストグラム（ＨｏＧ）、スピードアップ・ロバスト特徴（ＳＵＲＦ）、スケール不変な特徴変換（ＳＩＦＴ）、バイナリ・ロバストＢｉｎａｒｙＲｏｂｕｓｔＩｎｄｅｐｅｎｄｅｎｔＥｌｅｍｅｎｔａｒｙＦｅａｔｕｒｅｓ（ＢＲＩＥＦ）、及びＯｒｉｅｎｔｅｄＢＲＩＥＦ（ＯＲＢ）などのベクトル勾配演算子、又は同様のタイプの記述子に従って、生成することができる。図４ｂを参照すると、１つの実施形態においては、密な画像記述子３２０は、画像全体に基づいて画像記述子を決定する。例えば、画像３０５を覆う複数の領域（例えば、５×４のグリッドのような２０個の領域４０５）の各々に、選択された記述子算（例えば、ＨｏＧ又はＳＩＦＴ）を適用することができる。ローカル画像記述子３１５の結果は、ｊ要素記述子である。密な画像記述子の結果は、ｋ要素記述子である。

ローカル画像記述子３１５と密な画像記述子３２０の両方が、勾配ベクトル記述子を用いるものとして説明されたが、これは必須ではない。例えば、強度に基づく記述子及び画像テクスチャ・ベースなどの他の記述子を用いることもできる。さらに、ローカル画像記述子３１５が１つの手法（例えば強度）を用い、密な画像記述子３２０が別の手法（例えば勾配ベクトル）を用いてもよい。

正規化された画像３１０を直接的に用いることに加えて、ローカル・テクスチャ・モデル２２５は、画像３１０の歪みバージョンを用いてもよい。再び図３を参照すると、正規化された画像３１０を歪み演算子又は変形演算子３３０に適用して、歪み画像又は変形画像３３５を生成することができる。１つの実施形態においては、歪み演算子３３０は、歪み画像３３５が対象者の顔の真正面像に近づくように、面外回転によって顔を調整する。図５を参照すると、密な画像記述子３２０を生成することについて説明された演算と同様に、密な画像記述子３２０に関して上述されたように歪み画像３３５の全体を領域単位で（例えば５００）評価することができる。１つの実施形態においては、密な歪み画像記述子は、ｌ要素記述子である。演算は同様であるが、密な歪み画像記述子３２５は、密な画像記述子３２０を生成するのに用いられるものと同じ技術又は同じ数の領域／タイルを用いる必要はない。

再び図３を参照すると、組み合わせ演算３４０は、生成されたローカル画像記述子、密な画像記述子、及び密な歪み画像記述子のいずれか２つ、いずれか３つ、又はいずれかの組み合わせを組み合わせて、中間のローカル・テクスチャ記述子３４５を生成することができる。組み合わせ演算３４０は、各々の記述子の全体、若しくは各々の記述子の一部のみを扱うことができ、又は、１つの記述子の全体と別の記述子の一部のみとを扱うことが〔００２２〕を参照のこと）、組み合わせ演算３４０は、ローカル画像記述子（ｊ要素）、密な画像記述子（ｋ要素）、及び密な歪み画像記述子（ｌ要素）の各々の連結とすることができる。このような実施形態においては、中間のローカル・テクスチャ記述子３４５は、（ｊ＋ｋ＋ｌ）である。１つの実装形態においては、

である。

この記述子の大きさを実時間でより演算し易い値に減らすために、次元縮小演算３５０を行って、ローカル・テクスチャ記述子２３５を生成することができる。代替的に、次元縮小は、３４０において個々の構成要素（３１５、３２０、３２５）を組み合わせる前に、これらの構成要素に対して行うことができる。次元縮小は、以下のように、すなわち、

として表現することができる変換と見なすことができ、ここで、

（これ以降ベクトルｙと記載する）は、ローカル・テクスチャ記述子２３５を表し、Ｍは、所望の変換を行う基底ベクトル（通常、直交する）のセットを表し、

（これ以降ベクトルｘと記載する）は、中間のローカル・テクスチャ記述子３４５を表す。顔の大規模な集合についてベクトルｙの分布を知っている場合には、実質的に同じ情報を表す、より少ない数の要素（次元）を識別及び保持することができる。変換行列Ｍは、既知の多数の最適化技術（例えば、メトリック学習、特徴選択、又は主成分分析）のいずれかを用いて、オフラインで決定することができる。決定されると、Ｍは、実行時の使用のために格納することができる。上記で始めた数値例を続けると、中間のローカル・テクスチャ記述子３４５（ベクトルｘ）が３，０００個の要素を有し、Ｍがこの次元をｎ２次元まで縮小する場合には、ベクトルｙは（ｎ２×１）のベクトルであり、Ｍは（ｎ２×３，０００）の行列であり、ベクトルｘは（３，０００×１）のベクトルである。

再度図３を参照すると、記述子２１０、２１５、２３０、及び２３５の各々が決定された後で、演算子１４０によってこれらの記述子を組み合わせて、顔特徴ベクトル１４５を作成することができる。図６に示されるように、顔特徴ベクトルは、２Ｄ形状記述子２１０のためのフィールド（６００）と、３Ｄ形状記述子２１５のためのフィールド（６０５）と、グローバル・テクスチャ記述子２３０のためのフィールド（６１０）と、ローカル・テクスチャ記述子２３５のためのフィールド（６１５）とを含むことができる。

再び、上記で始めた数値例を参照すると、２Ｄモデル２００、３Ｄモデル２０５、及びグローバル・テクスチャ・モデル２２０が、数式１によって与えられる形式の線形モデルであり、モデル入力画像が（１２８×１２８）の要素から成り、２Ｄモデル、３Ｄモデル、及びグローバル・テクスチャ・モデルの各々にｎ１の基底ベクトルが存在する場合には、例示的なモデル・パラメータは、表１に示されるようなものになる。

さらに、ローカル画像記述子３１５、密な画像記述子３２０、及び密な歪み画像記述子３２５の組み合わせが、３，０００要素を有する中間のローカル・テクスチャ記述子３４５を生成し、次元縮小演算３５０が、数式３によって特徴付けられて、次元の数をｎ２次元に縮小する場合には、次元縮小演算３５０についての例示的なモデル・パラメータは、表２に示されるようなものになる。

最後に、組み合わせ演算子１４０が２Ｄ記述子２１０、３Ｄ記述子２１５、グローバル・テクスチャ記述子２３０、及びローカル・テクスチャ記述子２３５の各々を連結する場合には、顔特徴ベクトル１４５は、（（３ｎ１＋ｎ２）×１）のベクトルである。

図７を参照すると、１つの実施形態による顔特徴を用いる顔認識演算７００が示される。始めに、未知及び既知の顔／身元についての顔特徴ベクトルを得る（ブロック７０５及び７１０）。次いで、これらのベクトルに類似性評価基準を適用し（ブロック７１５）、評価基準が一致するどうかを判定する検査が行われる（ブロック７２０）。２つの顔特徴ベクトルが十分に類似している場合には（ブロック７２０の「はい」分岐）、未知の顔特徴ベクトルが既知の顔特徴ベクトルに関連する同一の身元を表しているとの判定を行うことができる（ブロック７２５）。２つの顔特徴ベクトルが一致するほど十分に類似していない場合には（ブロック７２０の「いいえ」分岐）、別の既知の顔特徴ベクトルが利用可能であるかどうかを判定する検査がさらに行われる（ブロック７３０）。既知の身元に関連する顔特徴ベクトルがそれ以上存在しない場合には（ブロック７３０の「いいえ」分岐）、未知の顔特徴ベクトル（即ち、ブロック７０５による動作の間に得られたもの）は、未知の顔に対応すると結論付けることができる（ブロック７３５）。既知の身元に関連する顔特徴ベクトルがさらに存在する場合には（ブロック７３０の「はい」分岐）、例えばストレージ１５０から「次の」既知の顔特徴ベクトルを得ることができ（ブロック７４０）、その後、演算７００はブロック７１５で再開する。

１つの実施形態においては、類似性評価基準（ブロック７１５を参照のこと）は、ハミング距離の線に沿った距離評価基準とすることができる。本明細書において説明される顔特徴ベクトルのような大きな次元のベクトルの場合には、数式４で記述されるマハラノビス距離測度が有効な類似性測度となることが分かった。

ここで、ベクトルｘは第１の顔特徴ベクトル（例えば未知の顔に関連する顔特徴ベクトル）を表し、ベクトルｙは第２の顔特徴ベクトル（例えば既知の顔に関連する顔特徴ベクトル）を表し、Ｓ（）は類似性又は比較演算を表し、Ｗは重み行列を表す。本質的に、重み行列Ｗは、比較演算の際に、顔特徴ベクトルにおける各々の要素がどの程度重要又は有意であるかを特定する。既知の身元に関連する大量の顔特徴ベクトルを用いて、評価基準学習技術を適用し、Ｗをオフラインで決定することができる。Ｗが分かると、Ｗは、図７による実行時の使用のために格納することができる。例として、顔特徴ベクトルが５００個の要素を有する場合、即ち（５００×１）のベクトルによって表される場合には、Ｗは、（５００×５００）要素の重み行列となる。

図８を参照すると、受信者操作特性（ＲＯＣ）曲線８００は、顔特徴ベクトルを構成する個々の構成要素、即ち（１）標準的な２Ｍ記述子（８１０）、密な勾配記述子（８１５）、ローカル勾配記述子（８２０）、及び密な歪み勾配記述子（８２５）を単独で用いた場合に対する、本明細書に開示される顔特徴ベクトル（８０５）の性能を示す。図から分かるように、本開示による顔特徴ベクトルの使用によって、これらの他の記述子より高い性能が得られている。

ここで図９を参照すると、本発明の一実施形態による例示的な電子装置９００の簡略化された機能ブロック図が示される。電子装置９００は、プロセッサ９０５、ディスプレイ９１０、ユーザ・インターフェース９１５、グラフィックス・ハードウェア９２０、デバイス・センサ９２５（例えば、近接センサ／環境光センサ、加速度計、及び／又はジャイロスコープ）、マイクロフォン９３０、１つ又はそれ以上の音声コーデック９３５、１つ又はそれ以上のスピーカ９４０、通信回路９４５、デジタル画像取り込みユニット９５０、１つ又はそれ以上の映像コーデック９５５、メモリ９６０、ストレージ９６５、及び通信バス９７０を含むことができる。電子デバイス９００は、例えば、携帯情報端末（ＰＤＡ）、携帯音楽プレーヤ、携帯電話、ノートブック型コンピュータ、ラップトップ型コンピュータ、又はタブレット型コンピュータとすることができる。

プロセッサ９０５は、装置９００によって行われる多数の関数の演算（例えば、顔特徴ベクトル構築及び実行時顔認識の演算１００又は顔認識演算７００など）を実行又は制御するのに必要な命令を実行することができる。プロセッサ９０５は、例えば、ディスプレイ９１０を駆動し、ユーザ・インターフェース９１５からユーザ入力を受信することができる。ユーザ・インターフェース９１５によって、ユーザはデバイス９００と対話することができるようになる。例えば、ユーザ・インターフェース９１５は、ボタン、キーパッド、ダイアル、クリックホイール、キーボード、表示スクリーン、及び／又はタッチ・スクリーンといった様々な形態をとることができる。プロセッサ９０５はまた、例えば、携帯装置において見られるようなシステム・オン・チップとすることができ、専用グラフィックス処理ユニット（ＧＰＵ）を含むことができる。プロセッサ９０５は、縮小命令セット・コンピュータ（ＲＩＳＣ）若しくは複合命令セット・コンピュータ（ＣＩＳＣ）アーキテクチャ、又は他のいずれかの適切なアーキテクチャに基づくものとすることができ、１つ又はそれ以上の処理コアを含むことができる。グラフィックス・ハードウェア９２０は、グラフィックスを処理するための専用計算ハードウェア、及び／又は、グラフィックス情報を処理する支援プロセッサ９０５とすることができる。１つの実施形態においては、グラフィックス・ハードウェア９２０は、プログラム可能グラフィックス処理ユニット（ＧＰＵ）を含むことができる。

センサ及びカメラ回路９５０は、少なくとも一部が１つ又はそれ以上の映像コーデック９５５及び／又はプロセッサ９０５及び／又はグラフィックス・ハードウェア９２０によって及び／又は回路９５０内に組み込まれた専用画像処理ユニットによって処理される場合がある、スチル画像及びビデオ画像を取り込むことができる。そのようにして取り込まれた画像は、メモリ９６０及び／又はストレージ９６５に格納することができる。メモリ９６０は、装置の機能を実施するプロセッサ９０５及びグラフィックス・ハードウェア９２０によって用いられる１つ又はそれ以上の異なるタイプの媒体を含むことができる。例えば、メモリ９６０は、メモリ・キャッシュ、読み出し専用メモリ（ＲＯＭ）、及び／又はランダム・アクセス・メモリ（ＲＡＭ）を含むことができる。ストレージ９６５は、音声、画像、及び映像ファイル、コンピュータ・プログラム命令又はソフトウェア、選択情報、デバイス・プロファイル情報、並びに他のいずれかの適切なデータを保持するための媒体を含む。ストレージ９６５は、例えば、（固定、フロッピー（登録商標）、及び取り外し可能の）磁気ディスク及びテープ、ＣＤ−ＲＯＭ及びデジタル・ビデオ・ディスク（ＤＶＤ）などの光媒体、並びに、電気的プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）及び電気的消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）などの半導体メモリ・デバイスを含む、１つ又はそれ以上の永続的ストレージ媒体を含むことができる。メモリ９６０及びストレージ９６５を用いて、１つ又はそれ以上のモジュールに編成され、いずれかの所望のコンピュータ・プログラミング言語で書かれたコンピュータ・プログラム命令又はコードを、有形に保持することができる。例えばプロセッサ９０５によって実行されたときに、こうしたコンピュータ・プログラム・コードは、本明細書において説明された１つ又はそれ以上の方法を実装することができる。

特許請求の範囲から逸脱することなく、材料、構成要素、回路要素の様々な変更、及び、例示された演算方法の詳細の様々な変更が可能である。例えば、本明細書において説明されたモデルは線形の形態であったが、そのような限定は、開示された技術に固有のものではない。さらに、種々のモデルは異なるものとすることができ、幾つかのモデルを線形とし、他のモデルを非線形とすることができる。それに加えて、組み合わせ演算（例えば１４０及び３４０）は、連結演算に限定されるものではなく、それらが同じものである必要もない。設計者の目的に即したあらゆる組み合わせを用いることができる。例えば、線形組み合わせ、記述子の値のサブセットの選択、及びその加重組み合わせは、全て実現可能である。また、モデル記述子の次元が次元縮小を必要としない場合（例えば、演算３１５、３２０、及び３２５）には、この演算を行う必要はない。

最後に、上記の説明は例示的なものであるように意図されており、限定することを意図ものではないことを理解されたい。例えば、上述の実施形態は、互いに組み合わせて用いることができる。上記の説明を検討すれば、当業者には他の多くの実施形態が明らかであろう。従って、本発明の範囲は、特許請求の範囲を参照することによって、並びにそのような特許請求の範囲が適用される等価物の十分な範囲によって、決定されるべきである。特許請求の範囲においては、「含む（including）」及び「特徴とする（in which）」という用語は、「含む（comprising）」及び「特徴とする（wherein）」というそれぞれの用語の平易な英語と等価な用語として用いられる。

１００：顔特徴ベクトル生成及び実行時顔認識の演算
１０５：入力画像
１１０：顔検出器
１１５：ランドマーク画像
１２０：形状モデル
１２５：テクスチャ・モデル
１３０：形状記述子
１３５：テクスチャ記述子
１４０：演算
１４５：顔特徴ベクトル
１５０：ストレージ
１５５：アプリケーション
１６０：画像
１６５：比較
２００：２Ｄ形状モデル
２０５：３Ｄ形状モデル
２１０：２Ｄ形状記述子
２１５：３Ｄ形状記述子
２２０：グローバル・テクスチャ・モデル
２２５：ローカル・テクスチャ・モデル
２３０：グローバル・テクスチャ記述子
２３５：ローカル・テクスチャ記述子
３００：顔特徴ベクトル構築演算
３０５：正規化演算
３１０：正規化された画像
３１５：ローカル画像記述子
３２０：密な画像記述子
３２５：密な歪み画像記述子
３３０：歪み演算子
３３５：歪み画像
３４０：組み合わせ演算
３４５：中間のローカル・テクスチャ記述子
３５０：次元縮小演算
４００：タイル
４０５、５００：領域
６００：２Ｄ形状フィールド
６０５：３Ｄ形状フィールド
６１０：グローバル・テクスチャ・フィールド
６１５：ローカル・テクスチャ・フィールド
８００：受信者操作特性曲線
８０５：顔特徴ベクトル
８１０：標準的な２Ｍ記述子
８１５：密な勾配記述子
８２０：ローカル勾配記述子
８２５：歪み勾配記述子
９００：電子装置
９０５：プロセッサ
９１０：ディスプレイ
９１５：ユーザ・インターフェース
９２０：グラフィックス・ハードウェア
９２５：デバイス・センサ
９３０：マイクロフォン
９３５：音声コーデック
９４０：スピーカ
９４５：通信回路
９５０：デジタル画像取り込みユニット（センサ／カメラ回路）
９５５：映像コーデック
９６０：メモリ
９６５：ストレージ
９７０：通信バス

Claims

第１の画像における第１の顔についてランドマーク検出情報を取得するコンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、正規化されたランドマーク検出情報を生成するコンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第１の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク検出情報を前記第１の顔の二次元モデルに適用することを含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第２の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク検出情報を前記第１の顔の三次元モデルに適用すること含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第１のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、少なくとも部分的に前記正規化されたランドマーク検出情報に基づいて、第１のテクスチャ・モデル特徴ベクトルを生成することを含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク検出情報に基づいて、第２のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、少なくとも部分的に、前記正規化されたランドマーク検出情報と特定のモーフィング演算とに基づいて、歪みランドマーク検出情報を生成することを含む当該コンピュータ・コードと、
前記第１の形状モデル特徴ベクトルと、前記第２の形状モデル特徴ベクトルと、前記第１のテクスチャ・モデル特徴ベクトルと、前記第２のテクスチャ・モデル特徴ベクトルとを組み合わせて、第１の顔特徴ベクトルを形成するコンピュータ・コードと、
前記第１の顔特徴ベクトルをストレージ装置に格納するコンピュータ・コードと、
を含むことを特徴とする、永続的コンピュータ可読媒体。
第１のテクスチャ・モデル特徴ベクトルを生成するための前記コンピュータ・コードは、
前記正規化されたランドマーク検出情報における、前記正規化されたランドマーク検出情報の全てより少ない複数の領域を識別し、
前記複数の領域に基づいて、第１のテクスチャ・モデル特徴ベクトルを生成する、
ためのコンピュータ・コードを含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
第２のテクスチャ・モデル特徴ベクトルを生成するための前記コンピュータ・コードは、少なくとも部分的に前記歪みランドマーク検出情報に基づいて、第２のテクスチャ・モデル特徴ベクトルを生成するためのコンピュータ・コードを含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
第２のテクスチャ・モデル特徴ベクトルを生成するための前記コンピュータ・コードは、前記第１のテクスチャ・モデル特徴ベクトルと前記第２のテクスチャ・モデル特徴ベクトルとを組み合わせて第１の顔特徴ベクトルを形成するための前記コンピュータ・コードを実施する前に、前記第２のテクスチャ・モデル特徴ベクトルの次元を縮小するためのコンピュータ・コードをさらに含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
ランドマーク検出情報を取得するための前記コンピュータ・コードは、前記第１の画像における前記第１の顔についてのランドマーク検出情報を顔検出演算によって取得するためのコンピュータ・コードを含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
前記第１の形状モデル特徴ベクトルと、前記第２の形状モデル特徴ベクトルと、前記第１のテクスチャ・モデル特徴ベクトルと、及び前記第２のテクスチャ・モデル特徴ベクトルとを組み合わせるための前記コンピュータ・コードは、前記第１の形状モデル特徴ベクトルと、前記第２の形状モデル特徴ベクトルと、前記第１のテクスチャ・モデル特徴ベクトルと、前記第２のテクスチャ・モデル特徴ベクトルとを連結するためのコンピュータ・コードを含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
前記第１の顔特徴ベクトルをストレージ装置に格納するための前記コンピュータ・コードは、
前記第１の顔特徴ベクトルを前記第１の画像のメタデータに組み込み、
前記第１の顔特徴ベクトルをもつ前記第１の画像をストレージ装置内に格納する、
ためのコンピュータ・コードを含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
前記ストレージ装置から前記第１の顔特徴ベクトルを取り出し、
前記ストレージ装置から、既知の人物にさらに対応する第２の顔特徴ベクトルを取り出し、
前記第１の顔特徴ベクトルと前記第２の顔特徴ベクトルを比較して類似値を生成し、
前記類似値が一致していることを示す場合には、前記第１の顔が前記既知の人物に対応していると判定する、
ためのコンピュータ・コードをさらに含むことを特徴とする、請求項１に記載の永続的コンピュータ可読媒体。
複数の画像が格納されたストレージ装置と、
前記ストレージ装置に通信可能に結合されており、請求項１に記載のコンピュータ・コードが格納された、メモリと、
前記ストレージ装置及び前記メモリに通信可能に結合されており、前記メモリに格納された前記コンピュータ・コードを取り出して実行するように構成された、プログラム可能制御ユニットと、
を含む電子装置。
第１の画像における第１の顔について、前記第１の顔の複数の態様を識別するランドマーク画像を取得するコンピュータ・コードと、
少なくとも部分的に前記ランドマーク画像に基づいて、正規化されたランドマーク画像を生成するコンピュータ・コードと、
少なくとも部分的に前記正規化されたランドマーク画像に基づいて、歪みランドマーク画像を生成するコンピュータ・コードと、
少なくとも部分的に前記ランドマーク画像に基づいて、第１の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク画像を前記第１の顔の二次元モデルに適用することを含む当該コンピュータ・コードと、
少なくとも部分的に前記ランドマーク画像に基づいて、第２の形状モデル特徴ベクトルを生成するコンピュータ・コードであって、前記ランドマーク画像を前記第１の顔の三次元モデルに適用することを含む当該コンピュータ・コードと、
少なくとも部分的に前記正規化されたランドマーク画像に基づいて、第１のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、前記正規化されたランドマーク画像内の複数の領域に対して勾配ベクトル演算を用いることを含む当該コンピュータ・コードと、
少なくとも部分的に前記歪みランドマーク画像に基づいて、第２のテクスチャ・モデル特徴ベクトルを生成するコンピュータ・コードであって、少なくとも部分的に前記正規化されたランドマーク画像に基づいて第１及び第２の記述子を生成し、少なくとも部分的に前記歪みランドマーク画像に基づいて第３の記述子を生成することを含む当該コンピュータ・コードと、
前記第１の形状モデル特徴ベクトルと、前記第２の形状モデル特徴ベクトルと、前記第１のテクスチャ・モデル特徴ベクトルと、前記第２のテクスチャ・モデル特徴ベクトルとを組み合わせて、第１の顔特徴ベクトルを形成するコンピュータ・コードと、
前記第１の顔特徴ベクトルをストレージ装置に格納するコンピュータ・コードと、
を含むことを特徴とする、永続的コンピュータ可読媒体。
前記複数の領域は、前記正規化されたランドマーク画像の全てより少ないことを特徴とする、請求項１０に記載の永続的コンピュータ可読媒体。
第２のテクスチャ・モデル特徴ベクトルを生成するための前記コンピュータ・コードは、前記第１、第２、及び第３の記述子を組み合わせて、前記第２のテクスチャ・モデル特徴ベクトルを形成するためのコンピュータ・コードをさらに含むことを特徴とする、請求項１０に記載の永続的コンピュータ可読媒体。
前記第１、第２、及び第３の記述子を組み合わせるための前記コンピュータ・コードは、前記組み合わされた第１、第２、及び第３の記述子の次元を縮小するためのコンピュータ・コードをさらに含むことを特徴とする、請求項１２に記載の永続的コンピュータ可読媒体。
複数の画像が格納されたストレージ装置と、
前記ストレージ装置に作動可能に結合されており、請求項１０に記載のコンピュータ・コードが格納された、メモリと、
前記ストレージ装置及び前記メモリに通信可能に結合されており、前記メモリに格納された前記コンピュータ・コードを実行するように構成された、プログラム可能制御装置と、
を含むコンピュータ・システム。