JP5953097B2

JP5953097B2 - イメージ位置合わせのための最適勾配追求

Info

Publication number: JP5953097B2
Application number: JP2012098291A
Authority: JP
Inventors: シャオミン・リュウ; フレドリック・ウィルソン・ウィーラー; ピーター・ヘンリー・トュー; ジーリン・トュー
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2012-04-24
Filing date: 2012-04-24
Publication date: 2016-07-20
Anticipated expiration: 2032-04-24
Also published as: JP2013228765A

Description

本開示は、全般的にはイメージ位置合わせに関し、いくつかの実施形態では、顔イメージを位置合わせする技法に関する。

モデルベースのイメージ登録／位置合わせは、コンピュータビジョンで重要な話題であり、モデルベースのイメージ登録／位置合わせでは、モデルが、イメージに対するモデルの距離が最小化されるように変形される。具体的には、顔位置合わせは、さまざまな実用的能力（たとえば、顔特徴検出、ポーズ矯正（ｐｏｓｅｒｅｃｔｉｆｉｃａｔｉｏｎ）、および顔アニメーション）を可能にし、ポーズ、照明、表情、および隠蔽における顔外見変動に起因する科学的課題を提示するので、重要である。以前の技法は、ＡＳＭ（ＡｃｔｉｖｅＳｈａｐｅＭｏｄｅｌ）を含み、ＡＳＭは、統計的形状モデルを物体クラスにあてはめる。ＡＳＭは、ＡＡＭ（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）に拡張され、ＡＡＭは、顔位置合わせに使用されてきた。ＡＡＭベースのモデルあてはめ中に、外見モデルから合成された外見インスタンスと入力イメージからのワープされた外見との間の平均二乗誤差が、形状パラメータおよび／または外見パラメータを反復して更新することによって最小化される。ＡＡＭは、対象の小さい集合に対して学習し、あてはめる間は適度によく機能することができるが、大きいデータセットに対してトレーニングされる時および／またはモデル学習中には見られなかった対象にあてはめる時に、その性能は、すばやく劣化する。

ＡＡＭなどの生成モデルベースの手法に加えて、識別モデルベースの位置合わせ手法もある。ＢＡＭ（ＢｏｏｓｔｅｄＡｐｐｅａｒａｎｃｅＭｏｄｅｌ）は、ＡＡＭと同一の形状モデルを利用するが、完全に異なる外見モデルを利用し、この外見モデルは、本質的に２クラスクラシファイヤであり、正しくワープされたイメージおよび不正にワープされたイメージの集合から識別的に学習される。モデルあてはめ中に、ＢＡＭは、勾配方向に沿って形状パラメータを更新することによってクラシファイヤスコアを最大化することを目指す。ＢＡＭは、ＡＡＭと比較して、見られていないイメージへのあてはめによりよく一般化されることが示されたが、１つの潜在的な問題は、学習された２進クラシファイヤが、形状パラメータを摂動させている間の凹スコア面を保証できないことである。言い替えると、勾配方向に沿った移動は、必ずしも位置合わせを改善しない。ＢＲＭ（ＢｏｏｓｔｅｄＲａｎｋｉｎｇＭｏｄｅｌ）は、学習を介して凸性を強制することによってこの問題を軽減する。一方が他方よりよい位置合わせであるワープされたイメージの対を使用して、ＢＲＭは、すべてのトレーニング対内の２つのワープされたイメージを正しくランキングすることを試みるスコア関数を学習する。ＢＲＭは、以前の技法に対するある利益を提供する場合があるが、イメージ位置合わせにおけるさらなる改善を、下で説明するように達成することができる。

米国特許出願公開第２００８／０３１０７５９号明細書

独創的に特許請求される本発明と同一の範囲のある種の態様を、下で示す。これらの態様が、単に、現在開示される主題のさまざまな実施形態がとることのできるある形態の短い要約を読者に提供するために提示されることと、これらの態様が本発明の範囲を限定することが意図されていないこととを理解されたい。実際に、本発明は、下で示されない可能性があるさまざまな態様を含むことができる。

ここで開示される主題の実施形態は、一般に、イメージ位置合わせに関するものとすることができる。一実施形態では、方法は、人の顔イメージを獲得することと、顔イメージの顔特徴の突き止めを容易にするために包括的顔メッシュを顔イメージに位置合わせするのに識別顔位置合わせモデルを使用することとを含む。識別顔位置合わせモデルは、生成形状モデルコンポーネントおよび識別外見モデルコンポーネントを含むことができる。識別外見モデルコンポーネントは、所与のイメージの形状パラメータの関数であるスコア関数であって、形状パラメータのスコア関数の勾配方向と形状パラメータの理想的位置合わせ移動方向との間の角度を最小化することを試みるスコア関数を推定するために、トレーニングデータを用いてトレーニング済みであるものとすることができる。

もう１つの実施形態では、システムは、複数の格納されたルーチンを有するメモリデバイスと、複数の格納されたルーチンを実行するように構成されたプロセッサとを含む。複数の格納されたルーチンは、トレーニングイメージの集合にアクセスするように構成されたルーチンと、位置合わせスコア関数の勾配方向と所望の位置合わせへの理想的移動方向との間の角度を最小化する位置合わせスコア関数を学習するためにトレーニングイメージの集合を使用して外見モデルをトレーニングするように構成されたルーチンとを含むことができる。

追加の実施形態では、製造品は、実行可能命令をその上に格納された１つまたは複数の固定コンピュータ可読媒体を含む。実行可能命令は、人間の顔を含むイメージにアクセスするように適合された命令と、識別顔位置合わせモデルを使用して人間の顔を位置合わせするように適合された命令とを含むことができる。識別顔位置合わせモデルは、位置合わせスコア関数の勾配方向と位置合わせスコア関数の最大値の方向で指すベクトルとの間の角度を最小化する位置合わせスコア関数を推定するためにトレーニングされた識別外見モデルを含むことができる。

上で注記した特徴のさまざまな洗練が、本明細書で説明される主題のさまざまな態様に関して存在する可能性がある。さらなる特徴を、これらのさまざまな態様に組み込むこともできる。これらの洗練および追加の特徴は、個別にまたは任意の組合せで存在することができる。たとえば、示される実施形態のうちの１つまたは複数に関して下で議論されるさまざまな特徴を、本開示の説明される実施形態のいずれにも、単独でまたは任意の組合せで組み込むことができる。やはり、上で提示された短い要約は、請求される主題に対する限定を伴わずに、読者を、本明細書で開示される主題のある種の態様および文脈に慣れさせることだけが意図されたものである。

本技法の上記および他の特徴、態様、および利益は、次の詳細な説明が添付図面を参照して読まれる時によりよく理解されるようになり、添付図面では、同様の符号が、図面全体を通じて同様の部分を表す。

本開示の実施形態による顔形状テンプレートを示す図である。ＢＲＭを介して学習された凸位置合わせスコア関数の例を示す図である。本開示の実施形態による、勾配方向が理想的な移動方向によりよく位置合わせされた位置合わせスコア関数を示す図である。本開示の実施形態による、観察イメージと、顔形状テンプレートを利用してワープされた顔イメージとの例を示す図である。本開示の実施形態による、特徴パラメータ化を用いてワープされた顔イメージの例を示す図である。本開示の実施形態による、外見モデルによって使用できる長方形特徴タイプの例を示す図である。本開示の実施形態による特徴テンプレートの例を示す図である。本開示の実施形態による、位置合わせスコア関数を推定するプロセスを全般的に示す図である。本開示の実施形態による、学習アルゴリズムによって選択される上位１５個のハール特徴（Ｈａａｒｆｅａｔｕｒｅ）を示す図である。本開示の実施形態による、学習アルゴリズムによって選択される上位１５個のハール特徴（Ｈａａｒｆｅａｔｕｒｅ）を示す図である。本開示の実施形態による、図８および９の学習アルゴリズムによって選択された上位１００個のハール特徴の空間密度マップを示す図である。本開示の実施形態による、データセットからの例のイメージを示す図である。本開示の実施形態による、データセットからの例のイメージを示す図である。本開示の実施形態による、データセットからの例のイメージを示す図である。本開示の実施形態の学習アルゴリズムのランキング性能をＢＲＭのランキング性能と比較するグラフを示す図である。本開示の実施形態の学習アルゴリズムの角度推定性能をＢＲＭの角度推定性能と比較するグラフを示す図である。本開示の実施形態の学習アルゴリズムの位置合わせ速度性能をＢＲＭの位置合わせ速度性能と比較するグラフを示す図である。本開示の実施形態による、顔分析プロセスの例を示す図である。本開示の実施形態による、本開示で説明される機能性を提供するプロセッサベースのデバイスまたはシステムを示すブロック図である。

現在開示される主題の１つまたは複数の特定の実施形態を、下で説明する。これらの実施形態の簡潔な説明を提供するために、実際の実施態様のいくつかの特徴が、本明細書で説明されない場合がある。すべてのそのようの実際の実施態様の開発において、すべての工学プロジェクトまたは設計プロジェクトと同様に、実施態様ごとに異なる可能性があるシステム関連制約およびビジネス関連制約の遵守などの開発者の特定の目標を達成するために、多数の実施態様固有の判断を行わなければならないことを了解されたい。さらに、そのような開発努力は、複雑で時間のかかるものである可能性があるが、それでも、本開示の利益を有する当業者にとって設計、製作、および製造の日常的仕事であることを了解されたい。本技法のさまざまな実施形態の要素を紹介する時に、冠詞「ａ」、「ａｎ」、「ｔｈｅ」、および「ｓａｉｄ」は、１つまたは複数のその要素があることを意味することが意図されている。用語「ｃｏｍｐｒｉｓｉｎｇ（含む）」、「ｉｎｃｌｕｄｉｎｇ（含む）」、および「ｈａｖｉｎｇ（有する）」は、包含的であることが意図され、リストされた要素以外の追加要素があってもよいことを意味する。

イメージ位置合わせは、イメージ特徴（たとえば、顔特徴）を正確に突き止めることを可能にするためにランドマークベースの包括的なメッシュをイメージ（たとえば、顔イメージ）に移動し、変形するプロセスである。いくつかの位置合わせモデルは、形状モデルコンポーネントおよび外見モデルコンポーネントを含む。イメージを与えられて、イメージの形状を定量化するために、ランドマークポイントを突き止めることができる。たとえば、顔イメージ位置合わせでは、形状モデルが、顔特徴（たとえば、鼻の先端、口の角など）に対応するランドマークポイントを含むことができる。図１に示された例の平均形状１０は、ランドマークポイント１４および線分１６によって定義される複数の三角形１２を含むことができる。

外見モデルは、一般に、図２および図３に全般的に表されているように、学習された位置合わせスコア関数を含むことができる。ＢＲＭを介して学習された位置合わせスコア関数の例を、全般的に図２にグラフ２０として示す。この凹関数では、グランドトルース（ｇｒｏｕｎｄ−ｔｒｕｔｈ）形状パラメータ２２が、関数の最大値２４（すなわち、所望の位置合わせ）を表し、各線２６は、それぞれの線２６上の他の点と等しい大きさの点を表す。さまざまな摂動された形状パラメータ２８のスコアは、勾配方向３２を有する要素３０としてグラフ化される。しかし、ＢＲＭでは、勾配方向３２が、それでも、現在の形状パラメータ要素３０から始まる、グランドトルース形状パラメータ２２（すなわち、値２４）を指すベクトル３４に関して比較的大きい角度３６を有する可能性がある。したがって、ＢＲＭでは、形状パラメータを勾配方向３２に沿って更新することができるが、ＢＲＭでの位置合わせプロセスは、比較的大きい角度３６に起因して、最適化中に入り組んだ経路をたどる可能性がある。これは、逸脱の可能性を増やすだけではなく、位置合わせの速度をも下げる。

この問題に対処するために、本技法の一実施形態は、その代わりに、下で説明するＯＧＰＭ（ＯｐｔｉｍａｌＧｒａｄｉｅｎｔＰｕｒｓｕｉｔＭｏｄｅｌ）を使用して、形状モデルコンポーネントおよび外見モデルコンポーネントをも含む識別位置合わせモデルを学習する。ＢＡＭおよびＢＲＭと同一の形状表現を使用して、ＯＧＰＭ外見モデルコンポーネント（位置合わせスコア関数でもある）の学習が、非常に異なる目的を伴って定式化される。特に、図３のグラフ４０によって全般的に表されるように、外見モデルは、さまざまな摂動された形状パラメータ２８（符号３０によって絵図的に表される）での勾配３２が、理想的な移動方向（すなわち、グランドトルース形状パラメータを直接に指すベクトル３４）に関して最小限の角度３６を有する位置合わせスコア関数を学習することを目指す。スコア関数は、それぞれがワープされたイメージ領域内の１つの局所的特徴に作用する弱関数（ｗｅａｋｆｕｎｃｔｉｏｎ）の集合を含むかこれからなるものとすることができる。目的関数は、各弱関数を特徴候補の大きいプールから増分式の形で推定できるように定式化される。モデルあてはめ中に、初期形状パラメータを有するイメージを考慮して、勾配上昇（ｇｒａｄｉｅｎｔａｓｃｅｎｔ）が、勾配方向で形状パラメータを更新することによって実行され、この勾配方向は、ＯＧＰＭでは、勾配３２とベクトル３４との間の角度３６の最適化に起因して理想的移動方向により似ていると期待される。現在開示される位置合わせモデルの追加の詳細を、下で提供する。顔モデルおよび顔位置合わせに関係するある種の実施形態を、説明のために下で説明するが、やはり、他のイメージコンテキスト（すなわち、顔以外）でのモデルおよび位置合わせ技法の使用も考えられることに留意されたい。
顔モデル
ＢＡＭおよびＢＲＭに似て、一実施形態の顔モデルは、生成形状モデルコンポーネントおよび識別外見モデルコンポーネントからなり、またはこれを含む。形状モデルに関して、ランドマークベースの形状表現が、イメージの顔形状を記述する人気のある形であることに留意されたい。すなわち、２Ｄランドマークの集合｛ｘ_i，ｙ_i｝_i=1,…_,vを、たとえば目の角、口の角、鼻の先端などの主要な顔特徴の上に配置することができる。これらのランドマークの連結は、イメージの形状観察ｓ＝［ｘ₁，ｙ₁，ｘ₂，ｙ₂，…，ｘ_v，ｙ_v］^Tを形成する。各イメージが手作業でランドマークのラベルを付けられる顔データベースを与えられて、形状観察の集合全体を、形状モデルのトレーニングデータとして扱うことができる。一実施形態では、形状モデルを、観察集合に対する主成分分析（ＰＣＡ）を介して学習されたＰＤＭ（ＰｏｉｎｔＤｉｓｔｒｉｂｕｔｉｏｎＭｏｄｅｌ）とすることができる。したがって、学習された生成ＰＤＭは、

として特定の形状インスタンスを表すことができ、ここで、ｓ₀およびｓ_iは、それぞれ、ＰＤＭ学習から生じる平均形状および第ｉｓｈａｐｅｂａｓｉｓである。形状パラメータを、ｐ＝［ｐ₁，ｐ₂，…，ｐ_n］^Tによって与えることができる。ＡＡＭの形状コンポーネントに似て、最初の４つのｓｈａｐｅｂａｓｅをトレーニングして、大域的な並進および回転を表すことができ、残りのｓｈａｐｅｂａｓｅは、顔形状の固定的ではない変形を表すことができる。

図４に示されているように、平均形状座標系からイメージ観察５２内の座標へのワープ関数４８は、区分的アフィンワープとして定義される。

Ｗ（ｘ⁰，ｙ⁰；ｐ）＝［１ｘ⁰ ｙ⁰］ａ（ｐ）（２）
ここで、（ｘ⁰，ｙ⁰）は、平均形状領域内の画素座標４６であり、ａ（ｐ）＝［ａ₁（ｐ）ａ₂（ｐ）］は、ｓ₀およびｓ（ｐ）内の各三角形対を関係付ける一意の３×２アフィン変換行列である。形状パラメータｐを与えられて、三角形１２ごとにａ（ｐ）を計算することができる。しかし、各画素（ｘ⁰，ｙ⁰）がどの三角形に属するのかの知識は、先験的に既知なので、ワープを、単純なテーブルルックアップを介して効率的に実行することができる。このワープ関数４８を使用して、任意の顔イメージ５２を平均形状（全体的に、符号５０および５６によって１画素について表される）にワープすることができ、この顔イメージ５２は、符号５８によって全体的に表される形状正規化された顔イメージＩ（Ｗ（ｘ；ｐ））をもたらし、外見モデルは、この形状正規化された顔イメージＩ（Ｗ（ｘ；ｐ））から学習される。

外見モデルの一実施形態を、図５〜７を参照してよりよく理解することができる。特に、図５に、パラメータ化された特徴７２を有するワープされたイメージ７０の例を示す。図６に、外見モデルによって使用できる５つの特徴タイプ７４（特徴タイプ７６、７８、８０、８２、および８４として個々にラベルを付けられている）を示す。さらに、図７は、概念イメージテンプレートＡ（符号９２）を全体的に表す。

一実施形態の外見モデルは、形状正規化された顔イメージＩ（Ｗ（ｘ；ｐ））に対して計算されるｍ個の局所特徴

の集合によって記述される。一実施形態の局所特徴は、ハール様長方形特徴（たとえば、特徴７２）とすることができ、このハール様長方形特徴は、計算効率に関する利益を提供することができる（たとえば、インテグラルイメージ（ｉｎｔｅｇｒａｌｉｍａｇｅ）技法に起因する）。長方形特徴を、

のように計算することができ、ここで、Ａは、イメージテンプレート９２である。テンプレートとワープされたイメージとの間の内積は、インテグラルイメージを使用して長方形特徴を計算することと同等である。図５に示されているように、イメージテンプレートＡを、（α，β，γ，δ，τ）によってパラメータ化することができ、ここで、（α，β）は、左上角であり、γおよびδは、幅および高さであり、τは、特徴タイプ７４である。
位置合わせ学習
外見モデル表現を紹介したので、我々は、これから本技法の外見モデルをどのようにトレーニングするのかに移る。一実施形態では、外見モデルは、モデルあてはめステージ中に使用される位置合わせスコア関数を含み、またはこれからなるものとすることができる。まず、ｐを、式（１）の形状モデルの現在の位置合わせを表す所与のイメージの形状パラメータとして表すことができる。一実施形態では、外見モデル学習の目標を、ラベルを付けられたトレーニングデータから、ｐに関して最大化された時に正しい位置合わせの形状パラメータをもたらすようになるスコア関数Ｆ（ｐ）を学習することを目指すことと述べることができる。具体的には、この目標を使用して、ｐ₀がイメージの正しい位置合わせに対応する形状パラメータである場合に、Ｆは、

になるものでなければならない。

上の式を与えられて、Ｆ（ｐ）を、勾配上昇を介して最適化することができる。すなわち、Ｆが微分可能であると仮定することによって、形状パラメータを、初期パラメータｐ⁽⁰⁾から開始して各位置合わせ反復で反復して更新することができる。

ただし、λはステップサイズである。ｋ回の反復の後に、位置合わせプロセスが収束する時に、位置合わせは、ユークリッド距離‖ｐ^(k)−ｐ₀‖が事前定義のしきい値未満である場合に成功と考えられる。

式（５）から、

が形状パラメータｐの移動方向を示すことは明白である。そのような移動の最終的な目的地はｐ₀なので、理想的な移動方向は、ｐから始まりｐ₀を指すベクトルでなければならず、このベクトルを

と表す。

同様に、最悪の移動方向は、

の反対方向すなわち

である。したがって、スコア関数Ｆの学習中には、

が、理想的な移動方向

にできる限り似た方向、またはこれと同等に、最悪の移動方向

にできる限り似ていない方向を有することが望まれる。具体的には、２つの単位ベクトルの間の内積であり、この２つのベクトルの間の角度の余弦応答（ｃｏｓｉｎｅｒｅｓｐｏｎｓｅ）でもあるクラシファイヤ

を定義する場合に、

が得られる。実際には、Ｈ（ｐ）が上の式に示されているように必ず１または−１と等しくなることは、ほとんどない。したがって、Ｈクラシファイヤを学習する目的関数を、

として定式化することができ、ここでは、理想的な移動方向

だけが使用される。というのは、この理想的な移動方向が、

からの制約をも表すことができるからである。ここから、

を、明瞭さのために

として単純化する。この目的関数は、本質的に、その勾配方向が、すべてのトレーニングデータのすべての可能な形状パラメータｐで理想的な移動方向に関して最小の角度を有する関数Ｆを推定することを目指すものである。

一実施形態では、目的関数（９）を最小化する解を、図８に示され下で説明される形で提供することができる。まず、位置合わせスコア関数が、単純な加法モデル

を使用すると仮定し、ここで、ｆ_i（ｐ）は、１つの長方形特徴

に作用する弱関数である。したがって、Ｆの勾配も、加法的な形

である。これを式（７）に代入することによって、

が得られる。Ｈ関数を再帰的な形で書くことができるという事実を考慮すると、増分推定を使用して、目的関数（９）を最小化することができる。すなわち、トレーニングサンプルの集合と、それから長方形特徴を選択できる仮説空間とを定義することによって、各弱関数ｆ_iを、反復して推定し、ターゲット関数Ｆに増分的に加算することができる。一実施形態の学習プロセスの例の諸部分の追加の詳細を、下で説明する。

一実施形態の外見学習では、トレーニングサンプルは、Ｎ次元のワープされたイメージＩ（Ｗ（ｘ；ｐ））である。顔イメージＩ_iごとに手作業でラベルを付けられたランドマーク｛ｓ_i｝を有する顔データベース｛Ｉ_i｝_i∈_[1,K]を与えられて、式（１）を使用して、グランドトルース形状パラメータｐ_0,iを計算し、その後、ランダム摂動によって複数の「不正な」形状パラメータ｛ｐ_j,i｝_j∈_[1,U]を合成することができる。下の式（１２）は、摂動の一例を説明し、ここで、ｖは、各要素が［−１，１］内で一様に分布するｎ次元ベクトルであり、μは、ＰＤＭ内のすべてのｓｈａｐｅｂａｓｅのベクトル化された固有値であり、摂動インデックスσは、摂動の範囲を制御する一定のスケールであり、○は、２つの等しい長さのベクトルの要素ごとの積を表す。

ｐ_j,i＝ｐ_i＋σｖ○μ （１２）
そしてワープされたイメージＩ_i（Ｗ（ｘ；ｐ_j,i））の集合を、学習用の肯定的トレーニングサンプル（ｙ_i＝１）として扱うことができる。理想的な移動方向と一緒に、これが、我々のトレーニングセットを構成することができる。

一実施形態では、弱関数ｆ_iは、

と定義され、ここで、ｇ_i＝±１であり、正規化する定数は、ｆ_iが［−１，１］の範囲内に留まることを保証する。この選択は、複数の考慮事項に基づくものとすることができる。第１に、ｆ_iは、Ｆが微分可能関数であると仮定されるので、微分可能でなければならない。第２に、各関数ｆ_iが１つの長方形特徴

だけに作用することが望まれる場合がある。平均形状空間内で、長方形特徴のすべての可能な位置、サイズ、およびタイプは、そこから各反復で最良の特徴を選択できる仮説空間

を形成する。

位置合わせスコア関数（１０）を学習する１つの手順が、下の表のアルゴリズム１として提供される。

このアルゴリズムは、一実施形態に従って図８にも全体的に示され、図８では、プロセス９６が、上の式（１３）からサンプル９８の集合に基づいて位置合わせスコア関数を推定する。

特に、プロセス９６では、位置合わせスコア関数Ｆを、ブロック１００（上のアルゴリズムのステップ１に対応する）で初期化することができる。弱関数ｆ_tを、上のアルゴリズムのステップ３で説明した形でブロック１０２であてはめることができる。仮説空間全体が網羅的に検索されるので、上のアルゴリズムのステップ３が、最も計算集中型のステップであることに留意されたい。ステップ３では、最良の特徴が、ブーストベースの学習での弱いクラシファイヤのＬ²距離ではなく、１に関するＨのＬ²距離に基づいて選択される。その後、クラシファイヤ関数Ｈを、ブロック１０４（上のアルゴリズムのステップ４に対応する）でｆ_tを用いて更新することができ、ｆ_tを、ブロック１０６で位置合わせスコア関数に加算することができる（上のアルゴリズムのステップ５に対応する）。このアルゴリズムのステップ３〜５を、図８のブロック１０８および１１０とリターンループ１１２とによって全体的に表されるように、各ｔについて繰り返すことができる（上のステップ２に対応する）。その最後に、プロセス９６は、ブロック１１４で、弱関数の集合の和と等しい位置合わせスコア関数の推定値を返すことができる。

本質的に、スコア関数Ｆの学習は、特徴の集合

、しきい値｛ｔ_i｝、および特徴符号｛ｇ_i｝の学習と同等である。実用的な実施態様では、それぞれｇ_i＝＋１およびｇ_i＝−１をセットし、両方の場合の最適しきい値を推定することができる。最終的に、ｇ_iは、どのケースがより小さい誤差を有するのか（式１５）に基づいてセットされる。最適しきい値を、誤差が最小化される特徴値

の範囲内での二分検索によって推定することができる。

３つ組

の最終的な集合を、形状モデル｛ｓ_i｝_i=1,…_,nと一緒に、本明細書ではＯＧＰＭ（ＯｐｔｉｍａｌＧｒａｄｉｅｎｔＰｕｒｓｕｉｔＭｏｄｅｌ）と称する。一実施形態で学習アルゴリズムによって選択される上位１５個の特徴を、図９および１０に示す。特に、図９は、学習アルゴリズムによって選択される上位５個のハール特徴１２０の表現１１８を提供し、図１０は、学習アルゴリズムによって選択される次の１０個のハール特徴１２６の表現１２４を提供する。同一の実施形態の学習アルゴリズムによって選択される上位１００個のハール特徴の空間密度マップ１３０も、図１１に提供される。多数の選択された特徴が、顔特徴の境界に位置合わせされていることに留意されたい。
顔位置合わせ
一実施形態で、ＯＧＰＭを、下で説明する形で、初期形状パラメータｐ⁽⁰⁾（０回目の反復で）を有する所与のイメージＩの顔にあてはめることができる。式（５）に示されているように、位置合わせを、勾配上昇手法を使用することによって反復的に実行することができる。式（３）、（１０）、および（１４）から、ｐに関するＦの導関数が

であることがわかり、ここで、▽Ｉは、Ｗ（ｘ；ｐ）での評価されるイメージの勾配であり、

は、ｐでの評価されるワープのヤコビアンである。ＢＡＭの位置合わせ手順、計算の複雑さ、および

の効率的実施態様に関する議論を、Xioaming Liuによる"Discriminative Face Alignment"(IEEE Trans. On Pattern Analysis and Machine Intelligence, 31(11):1941-1954, November 2009)と題された出版物に見出すことができる。しかし、ＢＡＭベースのフィルタリングとは異なって、本技法は、単純な静的定数ではなく、線形検索を介して動的に判定されるステップサイズλを使用する。すなわち、各反復で、ある範囲内の最適λが、更新された形状パラメータが現在のスコア関数値Ｆ（ｐ）を最大に増やすことができるように探される。
実験結果
次の実験結果は、３つの公に使用可能なデータベースすなわち、ＮＤ１データベース、ＦＥＲＥＴデータベース、およびＢｉｏＩＤデータベースからの９６４個のイメージを含む実験データセットを使用して入手された。９６４個のイメージのそれぞれが、３３個の手作業でラベルを付けられたランドマークを含む。トレーニングプロセスの速度を高めるために、この実験において、イメージセットは、顔の幅がセットにわたって約４０画素になるようにダウンサンプリングされた。ＮＤ１データベース、ＦＥＲＥＴデータベース、およびＢｉｏＩＤデータベースのサンプルイメージ１３４を、それぞれ図１２、１３、および１４に示す。下の表１に示されているように、すべてのイメージが、３つのオーバーラップしないデータセットに区分された。セット１は、２つのデータベースからの４００個のイメージ（被験者あたり１つのイメージ）を含んだ。セット２は、セット１内のＮＤ１データベースと同一の被験者からの、３３４個の異なるイメージを含んだ。セット３は、ＢｉｏＩＤデータベース内の２３人の被験者からの、トレーニングに一度も使用されなかった２３０個のイメージを含んだ。セット１は、モデル学習用のトレーニングセットとして使用され、３つのセットのすべてが、モデルあてはめをテストするのに使用された。そのような区分の動機づけは、一般化能力のさまざまなレベルを実験することであった。たとえば、セット２を、見られた被験者の見られていないデータとしてテストすることができ、セット３を、見られていない被験者の見られていないデータ（より挑戦的なケースであり、実用応用のシナリオにより似ている）としてテストすることができる。

実験では、上で説明したＯＧＰＭアルゴリズムが、２つの考慮事項に基づいてＢＲＭと比較された。第１に、ＯＧＰＭアルゴリズムを、ＢＲＭの拡張と考えることができる。第２に、ＢＲＭが、ＢＡＭなどの他の識別イメージ位置合わせ技法をしのぐことが示された。モデル学習中に、ＢＲＭとＯＧＰＭとの両方が、セット１の４００個のイメージからトレーニングされた。ＢＲＭは、セット１から合成された２４０００（＝４００×１０×６）個のトレーニングサンプルを使用し、各イメージは、１０個のプロファイル線を合成し、各線は、６つの均等な間隔のサンプルを有した。比較して、ＯＧＰＭは、１２０００個のトレーニングサンプルを使用し、各イメージは、式（１２）に従って３０個のサンプルを合成した。すべての合成されたサンプルが、ＢＲＭのように１つのプロファイル線から選択された複数のサンプルではなく、ランダムに拡散され、より少ないトレーニングサンプルを用いてよい性能を達成することを可能にするので、ＯＧＰＭについて、より少ないサンプルを使用することができた。セット１イメージの手作業でラベルを付けられたランドマークは、Xiaoming Liu et al.による"Face Model Fitting on Low Resolution Images"(Proc. Of the British Machine Vision Conference(BMVC), vol.3, pp.1079-1088, 2006)と題された出版物に記載の自動モデル洗練手法を使用して改善された。モデル学習の後に、ＢＲＭとＯＧＰＭとの両方の形状モデルコンポーネントは、９つのｓｈａｐｅｂａｓｅを有するＰＤＭであり、その外見モデル（すなわち、位置合わせスコア関数）は、１００個の弱クラシファイヤ／関数を有した。

ＢＲＭは、ワープされたイメージの対を正しくランキングすることによって、学習されたスコア関数の凸性を改善することを目指す。ＯＧＰＭは、スコア関数が、凸であるだけではなく、勾配方向とグランドトルース形状パラメータを指すベクトルとの間の最小の角度をも有しなければならないという意味で、ＢＲＭを拡張する。したがって、凸性は、ＢＲＭとＯＧＰＭとの両方のスコア関数を評価するためのよいメトリックである。ＢＲＭに似て、実験での凸性は、ワープされたイメージの正しくランキングされた対のパーセンテージを計算することによって測定された。セット１およびセット２を与えられて、対の２つのそれぞれのセットが合成され、ＢＲＭおよびＯＧＰＭのランキング性能がテストされた。図１５のグラフ１４０によって示されるように、摂動インデックスσは、イメージ対の摂動の量を制御する（式１２を参照されたい）。両方のセットについて、ＢＲＭとは異なって、ＯＧＰＭがその目的関数でランキングを直接には利用しないという事実を除いて、ＯＧＰＭは、ＢＲＭに非常に似たランキング性能を達成した。ＢＲＭは、摂動が非常に小さい（σ＝１）時にわずかによりよい性能を示した。しかし、これが、主にトレーニングデータ内のラベル付けの誤りに帰する可能性があると思われる。というのは、ラベル付けされたランドマークの小さい摂動を、かなりよい位置合わせとして扱うこともでき、これがランキングをよりむずかしくするからである。

凸性測定に加えて、我々は、勾配方向とグランドトルース形状パラメータを指すベクトルとの間の角度の推定値をも検証した。この角度の最小化は、Ｈ（ｐ）関数によって表される、ＯＧＰＭの目的関数である。前述のランキング実験に似て、セット１を与えられて、我々は、さまざまな摂動インデックスσを使用して、ワープされたイメージの６つのセットをランダムに合成した。その後、セット内のイメージごとに、我々は、Ｈ（ｐ）スコアを計算し、各セットの平均スコアを図１６のグラフ１５０にプロットした。同様の実験が、セット２についても行われた。ＯＧＰＭおよびＢＲＭは、類似するランキング性能を有するが、ＯＧＰＭは、セット１と２との両方についてより大きい関数スコアを達成し、したがってより小さい勾配角度を達成する。これは、ＢＲＭによって行われるように、目的としてランキング性能を使用することが、最適の角度推定を保証せず、ＯＧＰＭによって行われるように、目的関数として勾配角度を直接に使用することを、よりよい位置合わせスコア関数を得るために使用できることを実証するものである。

位置合わせ実験では、モデルあてはめアルゴリズムが、複数の初期ランドマークを有する各イメージに対して実行され、位置合わせ結果が評価された。初期ランドマークは、式（１２）を使用して、すなわち、その範囲がＰＤＭトレーニング中のｓｈａｐｅｂａｓｉｓの固有値の倍数（σ）と等しい独立の一様分布によってグランドトルースランドマークをランダムに摂動させることによって生成された。あるイメージへのあてはめが終了した後に、位置合わせ性能が、位置合わせされたランドマークとグランドトルースランドマークとの間の結果の二乗平均平方根誤差（ＲＭＳＥ）によって測定された。

我々は、ＯＰＧＭとＢＲＭとの両方を使用して、３つすべてのセットについて位置合わせ実験を行った。上の表２は、画素に関するＲＭＳＥ結果を示し、各要素は、ある特定の摂動インデックスσでの２０００回を超える試行の平均値である。したがって、セット１、２、および３の各イメージは、それぞれ５回、６回、および９回のランダム試行を用いてテストされた。ＯＧＰＭおよびＢＲＭは、同一の条件の下でテストされた。たとえば、両方のアルゴリズムが、同一のランダム試行を用いて初期化され、終了条件も同一であった。すなわち、位置合わせ反復は、位置合わせスコアＦ（ｐ）をさらに高めることができない場合、または連続する反復の間のランドマーク差（ＲＭＳＥ）が、前に説明した実験での０．０５画素などの事前定義のしきい値より小さい場合に、終了された。

表２から、３つすべてのセットについて、ＯＧＰＭがＢＲＭよりよい位置合わせ性能を達成できたことがわかる。初期摂動が、σ＝６または８など（実用的応用例では最も挑戦的なケースである）、比較的大きい時に、性能利益がより多かったことに留意されたい。テストイメージが非常に低解像度であったという事実を考慮すると、これは、実質的な性能改善を表す。３つのデータセットの中で比較すると、トレーニングセット（セット１）での性能利益は、他の２つのデータセットと比較して大きかった。

より小さい勾配角度の１つの強みは、位置合わせ中により少ない反復で収束する能力である。図１７に、ＯＧＰＭおよびＢＲＭがσ＝８の時にセット３で収束するために実験で必要とした反復の回数を示すヒストグラム１６０を提供する。平均して、ＯＧＰＭがＢＲＭより早く収束できることがわかる。実験では、ＯＧＰＭの反復の平均回数は５．４７であったが、ＢＲＭの反復の平均回数は６．４０であった。同様に、セット１について、σ＝８の時に、ＯＧＰＭの反復の平均回数は５．０８であったが、ＢＲＭの反復の平均回数は６．０９であった。

本開示で説明されるイメージ位置合わせ技法を、所望の結果を達成するために多数の他の処理技法と共に使用することができる。たとえば、図１８に全体的に示されているように、一実施形態によれば、開示されるイメージ位置合わせ技法を、顔分析プロセス１７０で使用することができる。例として、そのようなプロセス１７０は、ブロック１７２および１７４によって全体的に示されるように、イメージを受け取ることと、イメージ内の１つまたは複数の顔を検出することとを含むことができる。検出された顔を、ブロック１７６によって全体的に示されるように、現在開示される技法を介してなど、位置合わせすることができる。その後、イメージ内の人を識別するために位置合わせされた顔を基準データと比較することによる顔認識のためまたはポーズ推定のためなど、位置合わせされた顔をブロック１７８で分析することができる。

最後に、本開示で説明される機能性（たとえば、イメージ検出、位置合わせ、および分析）を、コンピュータなどのプロセッサベースのシステムによって実行できることに留意されたい。そのようなシステムの例を、一実施形態に従って図１９で提供する。図示されたプロセッサベースのシステム１８４を、本明細書で説明される機能性のすべてまたは一部を実施するソフトウェアを含むさまざまなソフトウェアを実行するように構成された、パーソナルコンピュータなどの汎用コンピュータとすることができる。その代わりに、プロセッサベースのシステム１８４は、とりわけ、システムの一部として提供される特殊化されたソフトウェアおよび／またはハードウェアに基づいて本技法のすべてまたは一部を実施するように構成された、メインフレームコンピュータ、分散コンピューティングシステム、または特定用途向けコンピュータもしくは特定用途向けワークステーションを含むことができる。さらに、プロセッサベースのシステム１８４は、現在開示される機能性の実施を容易にするために、単一のプロセッサまたは複数のプロセッサのいずれかを含むことができる。

一般に、プロセッサベースのシステム１８４は、システム１８４のさまざまなルーチンおよび処理機能を実行できる、中央処理装置（ＣＰＵ）などのマイクロコントローラまたはマイクロプロセッサ１８６を含むことができる。たとえば、マイクロプロセッサ１８６は、さまざまなオペレーティングシステム命令ならびにあるプロセスを果たすように構成されたソフトウェアルーチンを実行することができる。ルーチンを、メモリ１８８（たとえば、パーソナルコンピュータのランダムアクセスメモリ（ＲＡＭ））または１つもしくは複数のマスストレージデバイス１９０（たとえば、内蔵もしくは外付けのハードドライブ、ソリッドステートストレージデバイス、光ディスク、磁気ストレージデバイス、または任意の他の適切なストレージデバイス）など、１つまたは複数の固定コンピュータ可読媒体を含む製造品内に格納しまたはこれによって提供することができる。さらに、マイクロプロセッサ１８６は、コンピュータベースの実施態様で本技法の一部として提供されるデータなど、さまざまなルーチンまたはソフトウェアプログラムの入力として提供されるデータを処理する。

そのようなデータを、メモリ１８８またはマスストレージデバイス１９０内に格納し、またはこれによって提供することができる。その代わりに、そのようなデータを、１つまたは複数の入力デバイス１９２を介してマイクロプロセッサ１８６に提供することができる。入力デバイス１９２は、キーボード、マウス、または類似物などの手動入力デバイスを含むことができる。さらに、入力デバイス１９２は、有線もしくは無線のイーサネット（商標）カード、無線ネットワークアダプタ、または、ローカルエリアネットワークもしくはインターネットなどの任意の適切な通信ネットワーク１９８を介する他のデバイスとの通信を容易にするように構成されたさまざまなポートもしくはデバイスのうちのいずれかなどのネットワークデバイスを含むことができる。そのようなネットワークデバイスを介して、システム１８４は、システム１８４に近接するものであれシステム１８４から遠隔であれ、他のネットワーク化された電子システムとデータを交換し、通信することができる。ネットワーク１９８は、スイッチ、ルータ、サーバまたは他のコンピュータ、ネットワークアダプタ、通信ケーブルなどを含む、通信を容易にするさまざまなコンポーネントを含むことができる。

１つまたは複数の格納されたルーチンに従ってデータを処理することによって得られた結果など、マイクロプロセッサ１８６によって生成された結果を、ディスプレイ１９４またはプリンタ１９６などの１つまたは複数の出力デバイスを介してオペレータに提供することができる。表示されたまたは印刷された出力に基づいて、オペレータは、追加処理または代替処理を要求するか、入力デバイス１９２を介するなど、追加データまたは代替データを提供することができる。プロセッサベースのシステム１８４のさまざまなコンポーネントの間の通信を、通常、チップセットと、システム１８４のコンポーネントを電気的に接続する１つまたは複数のバスまたは相互接続とを介して達成することができる。

本発明の技術的効果は、顔イメージおよび非顔イメージの位置合わせに関する速度、効率、および正確さの改善を含む。本発明のある特徴だけが、図示され、本明細書で説明されたが、多数の修正形態および変更を、当業者は思い浮かべるであろう。したがって、添付の特許請求の範囲が、本発明の真の範囲に含まれるものとしてすべてのそのような修正形態および変更を包含することが意図されていることを理解されたい。

１０平均形状
１２三角形
１４ランドマークポイント
１６線分
２０グラフ
２２グランドトルース形状パラメータ
２４最大値
２６線
２８摂動された形状パラメータ
３０要素
３２勾配方向
３４ベクトル
３６角度
４０グラフ
４６画素座標
４８ワープ関数
５２イメージ観察
５８形状正規化された顔イメージ
７０ワープされたイメージ
７２パラメータ化された特徴
７４特徴タイプ
７６特徴タイプ
７８特徴タイプ
８０特徴タイプ
８２特徴タイプ
８４特徴タイプ
９２概念イメージテンプレートＡ
９６プロセス
９８サンプル
１１８表現
１２０上位５個のハール特徴
１２４表現
１２６次の１０個のハール特徴
１３０空間密度マップ
１３４サンプルイメージ
１４０グラフ
１５０グラフ
１６０ヒストグラム
１７０顔分析プロセス
１８４プロセッサベースのシステム
１８６マイクロコントローラまたはマイクロプロセッサ
１８８メモリ
１９０マスストレージデバイス
１９２入力デバイス
１９４ディスプレイ
１９６プリンタ
１９８通信ネットワーク

Claims

人の顔イメージを獲得することと、
システムのプロセッサによって実行されるソフトウェアを介して、前記顔イメージの顔特徴の突き止めを容易にするために包括的顔メッシュを前記顔イメージに位置合わせするのに識別顔位置合わせモデルを使用することであって、前記識別顔位置合わせモデルは、生成形状モデルコンポーネントおよび識別外見モデルコンポーネントを含み、前記識別外見モデルコンポーネントは、所与のイメージの形状パラメータの関数であるスコア関数であって、前記形状パラメータの前記スコア関数の勾配方向と前記形状パラメータの理想的位置合わせ移動方向との間の角度を最小化することを試みる前記スコア関数を推定するために、トレーニングデータを用いてトレーニング済みである、使用することと
を含む方法。
前記識別外見モデルコンポーネントは、前記トレーニングデータのすべての形状パラメータｐについて
と定義される目的関数を介して前記スコア関数を推定するためにトレーニングデータを用いてトレーニング済みであり、Ｆは、スコア関数であり、
は、それぞれ前記勾配方向および前記理想的位置合わせ移動方向を表す２つの単位ベクトルの間の内積と等しいクラシファイヤである、請求項１記載の方法。
前記目的関数を最小化することは、それぞれがそれぞれの単一の長方形顔特徴に作用する弱関数を合計することを含む、請求項２記載の方法。
前記プロセッサによって実行される追加ソフトウェアを介して、位置合わせに続いて前記顔イメージに対して顔認識を実行することを含む、請求項１乃至３のいずれかに記載の方法。
前記人の前記顔イメージを獲得することは、前記人の前記顔を検出するためにイメージデータを分析することを含む、請求項１乃至４のいずれかに記載の方法。
前記トレーニングデータを用いて前記識別外見モデルをトレーニングすることを含む、請求項１記載の方法。
勾配上昇を介して前記スコア関数を最適化することを含む、請求項６記載の方法。
複数の顔イメージの顔イメージごとにグランドトルース形状パラメータを計算することと、
前記グランドトルース形状パラメータのランダム摂動によって顔イメージごとに複数の変更された顔パラメータを合成することと
を含む、請求項６記載の方法。
前記トレーニングデータは、前記変更された形状パラメータに基づくワープされたイメージの集合と、前記ワープされたイメージの理想的移動方向とを含む、請求項８記載の方法。
複数のルーチンをその中に格納されたメモリデバイスと、
前記メモリデバイス内に格納された前記複数のルーチンを実行するように構成されたプロセッサであって、前記複数のルーチンは、
トレーニングイメージの集合にアクセスするように構成されたルーチンと、
位置合わせスコア関数の勾配方向と所望の位置合わせへの理想的移動方向との間の角度を最小化する前記位置合わせスコア関数を学習するためにトレーニングイメージの前記集合を使用して外見モデルをトレーニングするように構成されたルーチンと
を含む、プロセッサと
を含むシステム。
前記複数のルーチンは、
トレーニングイメージの前記集合のイメージごとにグランドトルース形状パラメータを判定するように構成されたルーチンと、
前記グランドトルース形状パラメータから派生する複数の形状パラメータを合成するように構成されたルーチンと
を含む、請求項１０記載のシステム。
前記複数の形状パラメータを合成するように構成された前記ルーチンは、ランダム摂動を介して前記複数の形状パラメータを合成するように構成されたルーチンを含む、請求項１１記載のシステム。
前記外見モデルをトレーニングするように構成された前記ルーチンは、前記位置合わせスコア関数を初期化することと、単一の長方形特徴に作用する複数の弱関数を反復して推定することと、前記複数の弱関数の推定値を前記位置合わせスコア関数に増分的に加算することとによって前記位置合わせスコア関数を学習するルーチンを含む、請求項１０または１２に記載のシステム。
前記複数の弱関数を反復して推定することは、１に関するクラシファイヤ関数の最小二乗距離に基づいて前記複数の弱関数の弱関数をあてはめることを含む、請求項１３記載のシステム。
トレーニングイメージの前記集合は、顔イメージの集合を含み、トレーニングイメージの前記集合にアクセスするように構成された前記ルーチンは、顔イメージの前記集合にアクセスするように構成されたルーチンを含み、トレーニングイメージの前記集合を使用して前記外見モデルをトレーニングするように構成された前記ルーチンは、顔イメージの前記集合を使用して前記外見モデルをトレーニングするように構成されたルーチンを含む、請求項１０乃至１４のいずれかに記載のシステム。
前記メモリデバイスは、光ディスク、ランダムアクセスメモリ、またはハードドライブのうちの少なくとも１つを含む、請求項１０乃至１５のいずれかに記載のシステム。
実行可能命令をその上に格納された１つまたは複数の固定コンピュータ可読媒体であって、前記実行可能命令は、
人間の顔を含むイメージにアクセスするように適合された命令と、
位置合わせスコア関数の勾配方向と前記位置合わせスコア関数の最大値の方向で指すベクトルとの間の角度を最小化する前記位置合わせスコア関数を推定するためにトレーニングされた識別外見モデルを含む識別顔位置合わせモデルを使用して前記人間の顔を位置合わせするように適合された命令と
を含む、１つまたは複数の固定コンピュータ可読媒体。
前記１つまたは複数の固定コンピュータ可読媒体は、少なくとも集合的に前記実行可能命令をその上に格納された複数の固定コンピュータ可読媒体を含む、請求項１７記載のコンピュータ可読媒体。
前記１つまたは複数の固定コンピュータ可読媒体は、光ディスク、磁気ディスク、ソリッドステートディスク、またはそのある組合せを含む、請求項１７または１８に記載のコンピュータ可読媒体。
前記１つまたは複数の固定コンピュータ可読媒体は、コンピュータのランダムアクセスメモリを含む、請求項１７乃至１９のいずれかに記載のコンピュータ可読媒体。