JP2018520444A - 顔の位置合わせのための方法 - Google Patents

顔の位置合わせのための方法 Download PDF

Info

Publication number
JP2018520444A
JP2018520444A JP2018500757A JP2018500757A JP2018520444A JP 2018520444 A JP2018520444 A JP 2018520444A JP 2018500757 A JP2018500757 A JP 2018500757A JP 2018500757 A JP2018500757 A JP 2018500757A JP 2018520444 A JP2018520444 A JP 2018520444A
Authority
JP
Japan
Prior art keywords
landmark
location
image
face
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018500757A
Other languages
English (en)
Other versions
JP6584629B2 (ja
Inventor
チュゼル、オンセル
マークス、ティム
タンベ、サリル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018520444A publication Critical patent/JP2018520444A/ja
Application granted granted Critical
Publication of JP6584629B2 publication Critical patent/JP6584629B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/754Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

顔の位置合わせのための方法は、まず、プロトタイプ形状を有する顔のランドマークロケーションの組に初期ロケーションを大域的に位置合わせして、大域位置合わせパラメーターを得て、次に、大域位置合わせパラメーターに従って、初期ロケーション及び画像を、画像の座標フレームから、プロトタイプ形状の座標フレームにワープして、ワープされたランドマークロケーション及びワープされた顔画像を得ることによって、顔画像、及び初期ランドマークロケーションの組に対し作用する。特徴は、ワープされたランドマークロケーションにおいてワープされた顔画像から抽出され、回帰関数が特徴に適用され、プロトタイプ形状の座標フレームにおいて更新されたランドマークロケーションが得られる。最終的に、プロトタイプ形状の座標フレームにおける更新されたランドマークロケーションは、画像の座標フレームにワープされ、更新されたランドマークロケーションが得られる。

Description

本発明は、包括的には、コンピュータービジョン及びその用途に関し、より詳細には、画像において顔を位置合わせすることに関する。
当該技術分野において既知であるように、顔の位置合わせは、1組の所定の顔ランドマークに対応する画像内のピクセルを位置特定することを指す。各ランドマークは、鼻の先端、眼の端、眉毛のアーチ及び唇の曲率等の特定の顔特徴に関連付けられる。
顔の位置合わせは、一般に、顔認識、顔追跡、顔姿勢推定、表情解析及び顔モデリング、並びにヒューマン−コンピューターインターフェース(HCI:Human-computer interfaces)等の多くのコンピュータービジョン用途にとって重要である。さらに、顔の位置合わせは、運転者監視及び先進運転支援システム(ADAS:Advanced driver assistance systems)等の車両に関連した用途において有用である。顔の位置合わせは、姿勢、表情、照明及び遮蔽物等の要因の大きな変動に起因して困難な問題である。
顔の位置合わせに対する従来のアプローチは、アクティブ形状モデル(ASM:Active Shape Model)、アクティブ外観モデル(AAM:Active Appearance Model)又は制約付きローカルモデル(CLM:Constrained Local Model)等の様々な方法を用いてきた。CLMは、互いに対するランドマークのロケーションを制約する、ランドマークのロケーションに対する明示的な共同制約、例えば部分空間形状モデルを有する。CLMを基にして、ガウス−ニュートン変形可能パーツモデル(GN−DPM:Gauss-Newton Deformable Part Model)は、ガウス−ニュートン最適化を用いて外観モデル及びグローバル形状モデルを共同で当てはめる。
近年、顔の位置合わせにおける焦点が、弁別的方法に向かってシフトしている。これらの方法の際立った特徴は、明示的な回帰関数が学習されることである。回帰関数は、以前に推定された顔ランドマークロケーションにおいて抽出された特徴に基づいて、ランドマークロケーションの推定値を更新する。
ツリーベースの回帰方法は、ランドマークロケーションを迅速に推定することができる。1つのツリーベースの方法において、ランダムフォレスト回帰を用いて、ランドマークロケーションの最終推定値のための線形回帰関数を共同で学習することにより、1組のローカルバイナリ特徴を学習することができる。ランダムフォレスト回帰は、トレーニング時点において多数の決定木を構築する。別の方法は、勾配ブースティングツリーアルゴリズムを用いて回帰木のアンサンブルを学習する。
教師あり降下法(SDM:Supervised Descent Method))において、回帰関数のカスケードは、スケール不変特徴変換(SIFT:Scale Invariant Feature Transform)を用いて抽出された特徴に対し作用して、推定ランドマークロケーションを反復的に更新する。SDMでは、ランドマークのロケーションにおいて明示的な顔形状制約が存在しない。これは、隣接する顔ランドマークのロケーションが、回帰中に隔たっていく場合があるため、理想的ではない。
さらに、SDMにおいて、同じ線形回帰関数は、面内及び面外の双方の頭部回転を含む、表情及び姿勢における全ての生じ得る変動にわたって機能しなくてはならない。これは、大きく、多岐にわたるトレーニングデータセットを必要とし、また、学習された回帰関数を強制的に汎用にするため、正確度が限られる。
本発明の実施形態は、大域的に位置合わせされた回帰を用いた、顔の位置合わせ、すなわち、画像内の顔ランドマークのロケーションの推定のための方法を提供する。本方法は、大域位置合わせ教師あり降下法(GA−SDM:Globally Aligned Supervised Descent Method)と呼ばれる。GA−SDMは、反復としても知られる、K個のステージのカスケードとして動作する。各ステージは、大域位置合わせステップ及び回帰関数を含む。
本方法は、例えば、カメラを用いて、又は以前に捕捉された画像を得て、顔の画像を取得する。本方法への入力は、初期ランドマークロケーションと呼ばれる、ランドマークのロケーションの組の初期推定値を含む。初期ランドマークロケーションの組は、プロトタイプ形状を有する顔ランドマークロケーションの組に対し大域的に位置合わせされ、大域位置合わせパラメーターが得られる。初期ランドマークロケーションの組及び画像は、大域位置合わせパラメーターに従って、画像の座標フレームから、プロトタイプ形状の座標フレームにワープされ、ワープされたランドマークロケーション及びワープされた顔画像が得られる。
ワープされたランドマークロケーションにおけるワープされた顔画像から特徴が抽出される。回帰関数が特徴に適用され、プロトタイプ形状の座標フレームにおける更新されたランドマークロケーションが得られる。次に、プロトタイプ形状の座標フレームにおける更新されたランドマークロケーションが、画像の元の座標フレームにワープされ、取得された画像において、更新されたランドマークロケーションが得られる。
位置合わせ精度を改善するために、好ましい実施形態は、各反復において異なる回帰関数を用いながら、K回の反復にわたってステップを繰り返す。
ランドマークロケーションは、ヒューマン−マシンインタラクション、ビデオ会議、ゲーム、アニメーション、視線追跡、感情解析及び健康監視と、運転者監視及び先進運転支援システム(ADAS)等の自動車に関連した用途と、顔認識、表情認識及び合成、並びに超解像度撮像を含む多数のコンピュータービジョンタスクとを含む複数の用途において用いることができる。顔の位置合わせは、表情の多くのバリエーションが存在するとき、並びに姿勢の多くのバリエーション、例えば、面内回転として知られる画像平面内の回転、及び面外回転として知られる画像平面外の回転が存在するときに特に困難となる。
この問題に対処するために、本発明のいくつかの実施形態は、以後、単に「エキスパート」と呼ばれるL個のGA−SDM回帰エキスパートの混合を提供する。l∈{1,...,L}である各エキスパートEは、カスケードのK個のステージの各々について異なる回帰関数{W,b}を含む。ここで、W及びbは、それぞれ、回帰関数の係数及び偏りを表す。
各エキスパートは、ランドマークロケーション、例えば、鼻の先端及び眼の端を大域的に位置合わせするための独自のプロトタイプ形状を有する。これにより、各エキスパートが、姿勢及び表情の共同空間の異なる部分に特化することを可能にする。いくつかの実施形態では、カスケードの各ステージにおけるエキスパートごとに別個の回帰モデルが学習される。いくつかの実施形態は、精度を増大させるために、弁別的な位置合わせフレームワーク内の変形制約も提供する。
本方法によって用いられる特徴は、
(1)本方法を、定義された大域変換の特化されたクラスに対し不変にする、回帰の各反復前の大域位置合わせステップと、
(2)回帰がプロトタイプ顔形状からの特徴ロケーションの偏差にペナルティを課すことを可能にする特徴ベクトルへの拡張と、
(3)各エキスパートが、入力データの異なるサブセットを位置合わせすることに特化した独自の回帰関数、例えば、姿勢及び表情の特定の範囲を有する、カスケードの各ステージにおけるエキスパート混合回帰と、
(4)エキスパートによって用いられるプロトタイプ顔形状を学習するためのアフィン不変クラスタリング手順と、
を含むことができる。
本発明の実施形態による、画像のための顔の位置合わせの概略図である。 本発明の実施形態による、GA−SDM方法のk番目の反復を用いた顔の位置合わせのための方法の流れ図である。 図2Aに示す方法に対応する擬似コードのブロック図である。 本発明の実施形態による、GA−SDMのK回の反復を用いた顔の位置合わせの流れ図である。 本発明の実施形態による、GA−SDM回帰エキスパート(以後、「エキスパート」)の混合を適用することの1回の反復の流れ図である。 各々が特定の姿勢又は表情に特化されたエキスパートの混合の概略図である。 図4Aの方法のK回の反復の擬似コードのブロック図である。
図1に示すように、本発明の実施形態は、大域的に位置合わせされた回帰を用いた顔の位置合わせ100の方法を提供する。当該技術分野において、顔の位置合わせは、顔ランドマークの組に対応する画像内のピクセルを位置特定するプロセスを指す。各ランドマークは、鼻の先端、眼の端、並びに眉毛及び唇の端等の顔の特定のロケーションに関連付けられる。ランドマークロケーションが正しくない場合、顔の位置合わせは、本質的に、ランドマークロケーションを画像内のそれらの正しいロケーションに更新する。
本方法への入力101は、画像I、及びこの画像に関連付けられた初期ランドマークロケーションxの組である。画像は、カメラによって取得することができる(106)か、又は他の手段によって若しくは他のソース、例えばメモリ転送若しくは無線若しくは無線通信から得ることができる。本明細書に記載の方法及びプロセスは、本質的に、画像と初期ランドマークロケーションの組とに対し作用する。
初期ランドマークロケーションは、例えば、顔のパーツの検出アルゴリズム又は顔検出アルゴリズムを用いて手動で又は自動でマーキングすることができる。後者の場合、初期ランドマークロケーションは、トレーニング顔画像の組からの各ランドマークの平均ロケーションであり、これらは、バウンディングボックスに合うように並進及びスケーリングされる。ランドマークの初期ロケーションは正確にマーキングされる必要がないことに留意されたい。
初期ランドマークロケーションx101は、画像I内の全ての顔ランドマークのロケーションの初期推定値を表す。位置合わせ後、位置合わせされたランドマークロケーションxK+1102は、顔の画像Iの上に重ね合わされて示される。
図2Aは、本発明の実施形態による、大域位置合わせ及び回帰を用いた、GA−SDMのステージk200と呼ぶ1回の反復の流れ図を示す。画像Iにおける初期ランドマークロケーションx101を、プロトタイプ顔形状
Figure 2018520444
103のランドマークロケーションに大域的に位置合わせし(110)、位置合わせパラメーターA111を生成する。好ましい実施形態では、以下で説明するように、プロトタイプ顔形状がトレーニング画像から学習される。他の実施形態では、プロトタイプ顔形状は、例えば、既存の2D又は3D顔モデルから得られるか又は適合され得る。
画像I及びランドマークロケーションxは、位置合わせパラメーターA111に従ってワープされ(120)、プロトタイプ顔形状の座標フレームで表される画像I’及びランドマークロケーション
Figure 2018520444
121が生成される。これらのロケーションを用いて、プロトタイプ顔形状の座標フレームで表されるワープされた画像I’から特徴
Figure 2018520444
131が抽出される(130)。
k番目の回帰関数が適用され(140)、プロトタイプ顔形状の座標フレームにおける更新されたランドマークロケーション
Figure 2018520444
141が生成される。更新されたランドマークロケーションは、次にワープされ、パラメーターAを用いた位置合わせ変換の逆数を表す
Figure 2018520444
を用いて画像の座標フレームに戻される。これにより、元の画像Iの座標フレームにおいて、更新されたランドマークロケーションxk+1151が得られる。図2A及び他の図面に示されるステップは、当該技術分野において既知のメモリ及び入出力インターフェースに接続されたプロセッサにおいて実行することができる。
図2Bは、図2Aの流れ図に対応するGA−SDMの1回の反復(ステージk)のための擬似コードを示す。擬似コードにおいて用いられるステップ及び変数は、本明細書及び図面において記載される。
図3に示すように、GA−SDM手順は、より良好な位置合わせのために各ステージにおいて異なる回帰関数を用いてK回反復される(104)。本方法は、ステージk=1において、入力画像Iと、画像内のランドマークロケーションの初期推定値x101とを用いて開始する。これらは、GA−SDMの第1のステージ、すなわち、k=1であるGA−SDMのステージk200に対する入力105として用いられる。GA−SDMはK個のステージ(K≧1)にわたって反復される。ステージkの出力は、ランドマークロケーションの更新された推定値xk+1151である。k<Kであるとき、ステージ番号kは1だけインクリメントされ、前のステージの出力xk+1151は、現在のステージの入力x105となる。GA−SDMの(k=Kであるときの)ステージKの終了時に、更新されたランドマークロケーションxk+1151は、GA−SDMの最終出力である、位置合わせされたランドマークロケーションxK+1102として用いられる。
図4Aは、本発明の好ましい実施形態による、GA−SDM回帰エキスパート(以後、「エキスパート」)の混合を適用することの1回の反復(ステージk)を示す。各々が独自のプロトタイプ形状
Figure 2018520444
を有するL個のエキスパートE154が存在する。ここで、l∈{1,...,L}である。画像I及びランドマークロケーションx105について、ゲーティング関数α(x)161が計算される(160)。ランドマークロケーションxは、GA−SDMの1つのステージ(ステージk)200を用いて各エキスパートEによって位置合わせされ(155)、元の画像Iの座標フレームにおいて表される更新されたランドマークロケーション
Figure 2018520444
156が得られる。次に、エキスパートの出力の加重平均が求められ(170)、更新されたランドマークロケーションxk+1171が生成される。
図4Bは、各々が特定の範囲の姿勢又は表情に特化されたL=5個のエキスパートにそれぞれ対応する5つのプロトタイプ顔形状
Figure 2018520444
190を概略的に示す。矢印180は、5つのエキスパートに対する各画像のランドマークロケーションの割り当て重みを示す。
本発明の方法は、好ましい実施形態が、現在推定されている特徴ロケーションの組において計算されるスケール不変特徴変換(SIFT)特徴に対し回帰のカスケードを行うという点で、従来技術による教師あり降下法(SDM)に関連している。
本発明の方法は、複数の方法で従来技術によるSDMに対し改善を加える。従来のSDMにおいて、学習された線形回帰関数は、広範にわたる入力姿勢における顔を扱うことが可能でなくてはならない。
代わりに、本発明では、回帰ステップの前に、カスケードの各ステージにおいて大域位置合わせステップを用いる。これによって、本発明の方法が、大域変換のクラス全体に対して不変になる。いくつかの実施形態では、全ての可能な2Dアフィン変換のクラスを用いる。結果として、本発明の回帰関数は、姿勢における多くの大域変動を補正する必要がなく、それによって、回帰関数は、ランドマークロケーションにおける、より小さな変動を扱うように精密に調整することができる。
従来のSDMは、複数のランドマークのロケーションを共同で制限するための明示的な大域制約を有しない。本発明の方法は、プロトタイプ顔形状からのランドマークロケーションの偏差にペナルティを課すことによってこの問題に対処する。本発明では、プロトタイプランドマークロケーションと、現在推定されているランドマークロケーションとの差を、モデルの厳密性を決定するスカラーによって重み付けしたものを含めるように特徴ベクトルを拡張することによって、回帰フレームワークにおいてこれを達成する。この顔形状の(すなわち、ランドマークロケーションの)大域正則化によって、特徴が隔たっていくことを防ぐ。
姿勢及び表情の変動に対処するように本発明のモデルの柔軟性を更に改善するために、カスケードの各ステージにおける単純な線形回帰関数を、エキスパート混合線形回帰関数と置き換える。混合における各エキスパートは、異なるプロトタイプ顔形状に対応し、例えば、各エキスパート関数は、異なる範囲の面外頭部回転(out-of-plane head rotations)及び表情を扱うことができる。
ここで、本発明の方法に関連する従来の教師あり降下法(SDM)及び本明細書において用いられる表記について説明する。
Iを顔の画像とし、xを画像座標内のp個の顔ランドマークのロケーションの2p×1ベクトルとする。xにおけるp個のランドマークロケーションの各々において、d次元特徴ベクトル、例えば、d=128が抽出される。φ(I,x)をpd×1の統合された特徴ベクトルとする。これは、ランドマークロケーションxにおける画像Iから抽出されたp個の特徴記述子の連結である。いくつかの実施形態では、特徴は、スケール不変特徴変換(SIFT)特徴である。他の実施形態では、特徴は、勾配方向ヒストグラム(HOG:Histogram of Oriented Gradients)特徴である。
画像Iにおけるランドマークロケーションxの現在の推定値を所与とすると、SDMは、位置合わせ問題を、更新ベクトルΔxを求めることとして定式化し、それによって、更新された1組のランドマークロケーションx+Δxにおいて求められた特徴は、画像内のグランドトゥルースランドマークロケーション
Figure 2018520444
の組において求められた特徴に、より良好に合致する。
対応する誤差を更新ベクトルΔxの関数として表すことができる。
Figure 2018520444
ここで、
Figure 2018520444
である。関数fはニュートンの方法によって最小化することができる。それは、ヘシアン及びヤコビ関数の計算を必要とし、このために、fは2回微分可能でなくてはならない。一方、この微分可能条件は、常に成り立つとは限らない場合があり、φがSIFT演算子である場合、明らかに成り立たない。したがって、その方法は、ヤコビ及びヘシアン行列の計算的に複雑な数値計算を必要とし、結果としての最小化手順の収束は低速である。
これは、明示的なヘシアン及びヤコビ計算の代わりに学習された降下方向を用いてxを連続して更新することによってSDMにおいて対処される。学習された降下方向を計算するのに用いられる線形関数及び特徴ベクトルの形態のための動機は、ニュートンの方法から得られる。
(1)に対する二次テイラー近似は以下となる。
Figure 2018520444
ここで、Jはxに関するfのヤコビ行列であり、Hはfのヘシアン行列である。連鎖法則によって、以下の式が成り立つ。
Figure 2018520444
ここで、Jφはxに関するφのヤコビであり、φ=φ(I,x)と定義する。
ニュートンステップは以下となる。
Figure 2018520444
ここで、ヘシアン及びヤコビからの引数xを省いてφに対する依存を強調する。
式(4)は、多変量線形回帰によって近似される。
Figure 2018520444
ここで、係数W及び偏りbはxの値に依拠しない。
SDMは、トレーニングデータを用いて、K個の線形回帰{W,b}のカスケードを学習する。ここで、k=1,...,Kである。次に、学習された回帰を、カスケードの以前のステージによって出力されたランドマークロケーションにおいて計算された特徴に順次適用することによって、位置合わせが達成される。
Figure 2018520444
回帰{W,b}を学習するために、トレーニングデータにおけるN個の顔の画像が、全てのトレーニング画像をM回繰り返すことによって拡張される。毎回、異なるランダム変位によってグランドトゥルースランドマークロケーションを摂動させる。グランドトゥルースランドマークロケーション
Figure 2018520444
を有するこの拡張されたトレーニングセット(i=1,...,MN)内の各画像Iについて、ランドマークが、ランダム変位
Figure 2018520444
によって摂動される。次に、L損失関数
Figure 2018520444
を最小限にすることによって第1の回帰関数(k=1)が学習される。
ランダム摂動を用いるのではなく、後の回帰{W,bk=2,...,Kをトレーニングすることによって、更新ベクトル
Figure 2018520444
は、回帰カスケードの前回のステージ後の残余となる。
ここで、本発明のモデルを説明する。本発明のモデルは、従来技術の位置合わせの正確度及びロバスト性を大幅に改善する。好ましい実施形態は、
回帰の各ステージの前の大域位置合わせステップと、
回帰に対する学習された変形制約と、
カスケードの各ステージにおける、単一の線形回帰ではないエキスパート混合回帰と、
を用いる。
大域位置合わせ(Global Alignment)
従来のSDMにおける回帰関数が、多岐にわたる顔の姿勢及び表情について顔ランドマークを位置合わせするように学習するために、トレーニングデータは、可能な変動の空間を覆うのに十分な顔の例を含まなくてはならない。
任意の姿勢において顔を位置合わせできることが所望の特性であるが、そのような機能を学習することは、全ての可能な顔姿勢を含むトレーニングデータを収集する(又は合成する)ことを必要とする。さらに、学習することは、トレーニングセット内に大きな変動が存在するときに、より困難なタスクとなり、このため、十分に複雑な回帰モデル(機能形式及び特徴数)が必要とされるか、又は全てのこれらの姿勢を位置合わせするために位置合わせ方法の正確度が損なわれる。
原則として、モデルの複雑度を高めることにより、汎化性能が悪化する。これにより、限られた範囲の姿勢について顔を位置合わせすることを学習する、より単純な又はより正則化されたモデルが、全ての姿勢に関してトレーニングされた汎用位置合わせモデルよりも、これらの姿勢について良好に機能することができることが提案される。
単純な例として、顔画像の複数の面内回転を用いてトレーニングされた回帰関数ではなく、顔の単一の直立画像を用いてトレーニングされる回帰関数を検討する。顔の単一の直立画像を用いてトレーニングされる回帰関数の場合、回帰関数は、直立姿勢についてルートを有しなくてはならないのに対し、顔画像の複数の面内回転を用いてトレーニングされた回帰関数の場合、回帰関数は、全ての面内回転についてルートを有しなくてはならない。
大域位置合わせによる本発明の目標は、任意の姿勢における顔を位置合わせすることを依然として可能にしながら、姿勢のより小さな組において各回帰をトレーニングすることである。これを行うために、各ステージの回帰関数の前に大域位置合わせステップを適用する。
大域位置合わせ教師あり降下法(GA−SDM)
図2A、図2B及び図3は、大域位置合わせ教師あり降下法(GA−SDM)と呼ぶ、大域位置合わせ及び回帰を用いて顔を位置合わせするための本発明の方法を示す。図2Aは、本方法の1回の反復(ステージk)のステップの流れ図を示し、図2Bは、対応する擬似コードを示す。
図3は、(K個のステージを有する)GA−SDM法全体のための流れ図を示す。本方法におけるステップは、当該技術分野において既知のメモリ及び入出力インターフェースに接続されたプロセッサにおいて行うことができる。擬似コードにおいて用いられる全ての変数が本明細書に記載される。
図2A及び図2Bに記載される方法を、GA−SDMの1つのステージ、ステージkと呼ぶ。これはなぜなら、好ましい実施形態において、本方法がK回(ここで、K≧1)反復され、各反復kがGA−SDMのステージkと呼ばれるためである。図3は、K個のステージを含むGA−SDM法全体を示す。一方、図2A及び図2Bに記載される方法は、独立型の方法として1回のみ行われる場合がある。これは、K=1であるGA−SDMの特殊な事例である。
GA−SDMのステージkへの入力は、プロトタイプ顔形状
Figure 2018520444
103のランドマークロケーションのベクトルと、{W,b}によって定義される線形回帰関数と、顔の画像Iと、画像内の特定された顔ランドマークの初期ロケーションxとである。ここで、以下で更に説明するように、W及びbはそれぞれ、回帰関数の係数及び偏りを表す。
プロトタイプ顔形状
Figure 2018520444
103は、p個の顔ランドマークのロケーションを含む2p×1ベクトルである。いくつかの実施形態では、プロトタイプ形状
Figure 2018520444
は、全ての画像に正準ロケーション及びスケールを共有させるために各トレーニング画像に均等スケーリング及び並進変換が適用された後の、トレーニングデータの組にわたる各ランドマークの平均ロケーションを含む。
好ましい実施形態は、以下で説明するように、大域位置合わせのための関数のクラスとしてアフィン変換を用いるが、他の実施形態は大域変換の他のクラスを用いてもよい。回帰の各ステージkにおいて、プロトタイプランドマークロケーション
Figure 2018520444
への二乗距離の和を最小限にするために、前回の回帰ステージによって推定されたランドマークロケーションxを変換するアフィン変換A111を求める(110)。
Figure 2018520444
ここで、Aは全てのアフィン変換の組を表す。
変換Aを用いて、画像I及びランドマークロケーションx101をプロトタイプ形状座標フレーム:I’=A(I)及び
Figure 2018520444
にワープする(120)。ここで、ランドマークロケーションのベクトルの変換A(x)及び画像のワープA(I)の双方に同じアフィン変換演算子Aを用いることによって僅かに記号の濫用を行うことに留意されたい。
次に、プロトタイプ座標フレームにおける推定ランドマークロケーション
Figure 2018520444
におけるワープされた画像I’から、特徴、例えば、SIFT特徴を抽出し(130)、線形回帰を適用する(140)。
Figure 2018520444
次に、
Figure 2018520444
、すなわち変換Aの逆数を用いてワープして、画像座標に戻す(150)。画像座標フレームにおいて、更新されたランドマークロケーション151を出力する。これらは
Figure 2018520444
によって与えられる。
いくつかの実施形態では、線形回帰140は、カーネル回帰、ツリー回帰、回帰フォレスト、又はニューラルネットワーク回帰等の別のタイプの回帰関数と置き換えられてもよい。
変形制約の学習
ランドマークロケーションを追跡するための従来のSDMは、近傍のランドマークの回帰挙動に対する明示的な制約を有しておらず、これにより、ランドマークが隔たっていく可能性が生じる。通常、これは、ランドマークの自由形態の変形に対する明示的な制約又はペナルティを導入することによって最適化設定において対処するべき単純な問題である。
低速となり得る最適化手順を利用するのではなく、回帰関数を用いて順方向予測の速度の利点を維持したい。回帰フレームワーク内の制約の効果を達成するために、回帰モデルがランドマークロケーションを制約することを学習することを可能にする更なる特徴を用いる。
式(1)におけるコスト項
Figure 2018520444
の形態で軟制約を用いる。
Figure 2018520444
これにより、ランドマークロケーションがプロトタイプ形状
Figure 2018520444
から隔たっていくときの二次ペナルティが課される。重みλは、プロトタイプ形状からのロケーションの偏差に対する制約の厳密さを制御する。制約された最適化において、「軟」制約は、制約が満たされない量にペナルティを課す項である。
この制約されたfのためのニュートンステップは、
Figure 2018520444
であり、ここで、Hは、xに関するfのヘシアン行列であり、Jφはxに関するφのヤコビである。(5)によって(4)を近似したように、線形回帰関数によって、この制約付きニュートンステップ(11)を近似することができる。
Figure 2018520444
ここで、制約付き特徴ベクトル
Figure 2018520444
は、以下となる。
Figure 2018520444
制約なしSDMにおけるように、トレーニングデータを用いて回帰係数W及び偏りbを学習することができる。制約付きの式(12)と式(5)における制約なし回帰モデルとの間の唯一の差は、制約付きバージョンにおいて、プロトタイプ形状ランドマークロケーションからのランドマークロケーションの偏差を符号化する更なる特徴
Figure 2018520444
を含めるように特徴ベクトルを拡張することである。
制約付き回帰は、関連付けられた回帰係数のための負値を学習することによって、プロトタイプ形状に向けてランドマークロケーションを動かすことを学習する。学習された係数のノルムは、カスケードの初期回帰ステージの場合により大きく、後のステージにおいてより小さい。これにより、ランドマークロケーションがそれらの最終的な値に収束するにつれ、変形に対し課される制約が弱くなる。
重みλをWに組み込み、
Figure 2018520444
をbに組み込み、
Figure 2018520444
ではなくxを有する特徴ベクトルφのみを展開することが可能であることに留意されたい。一方、式(13)におけるような差分ベクトル形式を維持する。これは、以下に説明するような正則化されたトレーニングにとって重要になる。
表記を統一するために、展開された特徴ベクトルφを単純にφと呼ぶ。そのようにして、式(5)〜式(9)、図2A、及び図2Bのアルゴリズム1を変更なしで制約付きモデルに適用する。φを用いる以下の式は、同様に、制約付きモデルに適用されるとみなすことができる。
好ましい実施形態は、展開された特徴ベクトルを、SDMの単純な拡張ではなく、本発明のGA−SDMの一部として用いることに留意されたい。このため、好ましい実施形態では、特徴
Figure 2018520444
は、式(9)におけるように、プロトタイプ座標フレーム内のランドマークロケーション
Figure 2018520444
(すなわち、ワープされたランドマークロケーション)におけるワープされた画像I’から抽出される。このため、好ましい実施形態において、展開された特徴ベクトルにおける追加の特徴は、実際に、プロトタイプ形状ランドマークロケーションからのワープされたランドマークロケーション
Figure 2018520444
の偏差を符号化した、形式
Figure 2018520444
を有する。
GA−SDM回帰エキスパートの混合
上記で説明した大域位置合わせは、本発明のモデルが、顔のアフィン変換に対し不変の回帰関数を学習することを可能にする。それでも、例えば、面外回転及び表情に起因した、顔画像データにおける残りの変動が大きいため、単一の回帰関数が全ての顔を正確に位置合わせすることは困難である。
特に、画像の通常のトレーニングセットは、大きな面外回転又は極端な表情を有する顔よりもはるかに多くの無表情の正面の顔を含む。したがって、これらのトレーニングデータから導出されたプロトタイプ顔(例えば、平均顔)は、無表情の正面の顔に非常に近く、回帰関数は、より極端な姿勢及び表情について、あまり良好に機能しない傾向にある。
好ましい実施形態は、エキスパート混合回帰モデルを用いる。エキスパート混合回帰モデルでは、各エキスパートが、可能な姿勢及び表情の異なるサブセットに特化された回帰関数を有する。各エキスパートのサブセットは、エキスパートのためのプロトタイプ形状によって求められる。L個のプロトタイプ形状
Figure 2018520444
を構築し、それによって、データセット内のN個の顔の各々のグランドトゥルースランドマークロケーション
Figure 2018520444
が、プロトタイプ形状ランドマークのうちの1つと良好に位置合わせされる。プロトタイプ形状の決定は、以下の最適化問題として表すことができる。
Figure 2018520444
ここで、各
Figure 2018520444
は、可能なプロトタイプ形状を表す2p×1ベクトルであり、すなわちp個の顔ランドマークのロケーションである。
Figure 2018520444
は、変換のクラス全体、例えば、全ての可能なアフィン変換の組を表すのに対し、Aは、その組のメンバーである1つの特定の変換を表す。
変換
Figure 2018520444
のクラスが恒等変換のみを含む場合、この問題は、ランドマークロケーションに基づくトレーニングサンプルのユークリッドクラスタリングに還元される。
Figure 2018520444
がアフィン変換のクラスである場合、これをアフィン不変クラスタリング(affine-invariant clustering)と呼ぶ。この場合、式(14)は、全ての変換及びプロトタイプ形状にゼロを割り当てるゼロ解を回避するためにプロトタイプ形状又は変換に対する更なる制約が必要となる同種最適化(homogeneous optimization)問題である。さらに、目的関数は、形状の共同最適化、及び形状へのトレーニングサンプルの割り当てに起因して非凸である。この問題を、2つの凸部分問題(convex sub-problems)に分割し、これらを反復的に解く。
第1の部分問題は、プロトタイプ形状
Figure 2018520444
が固定であると仮定して、全てのトレーニング顔画像nを、
Figure 2018520444
を介してプロトタイプ形状のうちの1つに割り当てる。この問題は、トレーニング顔ごとに独立して解くことができる。最適な割り当ては、顔のグランドトゥルースランドマークロケーションを、最小位置合わせ誤差でアフィン位置合わせすることができるプロトタイプ形状である。
第2の部分問題はプロトタイプ形状について解く。各プロトタイプ形状は、そのプロトタイプ形状に割り当てられた全てのトレーニング顔のグランドトゥルースロケーション
Figure 2018520444
にわたって二乗アフィン位置合わせ誤差の和を最小にするランドマークロケーションを含む。
Figure 2018520444
縮退を回避するために、プロトタイプ形状に対し線形制約を用いる。いくつかの実施形態では、これらの制約は、例えば、右の眉毛のランドマークの平均ロケーションと同様に左の眉毛のランドマークの平均ロケーション、および、唇のランドマークの平均垂直ロケーションが固定されることを強制する。これらの制約は、行列Cの行が、ランドマークロケーションのベクトル
Figure 2018520444
から眉毛及び唇のランドマークの座標を選択するとともに、行列Cの行に対応するベクトルmの行が、固定された平均ロケーションを符号化するように、行列C及びベクトルmを選択することによって、式(17)を用いて表すことができる。この最適化は、線形制約を有する二次問題(quadratic problem)であり、最適解は、線形系を解くことによって計算される。2つの最適化部分問題は、割り当てが変化しなくなるまで交互に解かれる。通常、収束には20回〜30回の反復で十分である。
図4Cは、本発明の好ましい実施形態による、GA−SDM回帰エキスパート、以後「エキスパート」の混合を適用するための方法である疑似コードアルゴリズム2を示す。本方法は、カスケードのステージと呼ぶK回の反復を含む。
図4Aは、本方法のステージkと呼ぶ1回の反復の流れ図を示す。ステージkへの入力は、画像I及び初期ランドマークロケーションx105である。l=1,...,LであるエキスパートEごとに、本発明のGA−SDMのステージk200が適用され(155)、各エキスパートの更新されたランドマークロケーション
Figure 2018520444
156が得られる。割り当てα(x)161は、以下に詳細に説明されるように、式(20)及び式(21)に従って求められ、L個のエキスパートの出力の重み付き平均170は、以下のように求められる。
Figure 2018520444
これは、式(22)として以下に説明される。次に、更新されたランドマークロケーションxk+1が出力される(171)。
各エキスパートEは、L個のプロトタイプ形状うちの1つに対応する、すなわち、l∈{1,...,L}である。回帰カスケードの各ステージにおいて、エキスパートEごとに別個の回帰が存在する。このため、プロトタイプ形状ロケーション
Figure 2018520444
に加えて、各エキスパートEは、カスケードのK個のステージの各々について回帰関数
Figure 2018520444
を有する。
Figure 2018520444
カスケードの各ステージkにおいて、各エキスパートEが、そのエキスパートのプロトタイプ形状ロケーション
Figure 2018520444
及び回帰関数
Figure 2018520444
を入力として用いて、アルゴリズム1(図2B)、すなわち、GA−SDMのステージkを実行する。
Figure 2018520444
式(19)における表記は、
Figure 2018520444
がアルゴリズム1に対する入力(これは、図2Bに詳述されるように、GA−SDMのステージkである)として提供され、
Figure 2018520444
が結果としての出力であることを示す。各エキスパートEのためのゲーティング関数は、ランドマークロケーションxと、各プロトタイプ形状のランドマークロケーション
Figure 2018520444
との間の大域位置合わせ誤差ε(x)のソフトマックス変換によって与えられるソフト割り当てα(x)である。ソフト割り当ては、以下を用いて計算される。
Figure 2018520444
ここで、
Figure 2018520444
であり、ソフトマックス関数は範囲(0,1)内の実数値を返す。
ここで、式(8)において、
Figure 2018520444
は、全てのアフィン変換の組を表す。いくつかの実施形態では、
Figure 2018520444
は、大域変換の異なるクラスを表し得る。スコアα(x)の高い値は、ロケーションxの現在の推定値が、l番目のエキスパートのプロトタイプ形状に近く、このため、Eから得られる回帰結果が高い重みを割り当てられることを示す。図4Bにおいて、モデル内のエキスパートに対する2つの顔の割り当て重みを示す。
カスケードの各ステージkにおいて、本発明の混合エキスパート位置合わせ方法は、全てのエキスパートの回帰関数をランドマークロケーションxの開始推定値に適用し、次に、ゲーティング関数α(x)に従って出力を平均し、ランドマークロケーションxk+1の更新された推定値を得る。
Figure 2018520444
エキスパートのトレーニング
好ましい実施形態において、エキスパートの回帰関数は、N個の顔画像の組と、これらのN個の画像の各々における顔ランドマークのグランドトゥルースロケーションとを含むトレーニングデータを用いて学習される。エキスパートEの回帰関数を学習するために、トレーニングデータ内のN個の顔画像が、異なるランダム変位によってグランドトゥルースランドマークロケーションを毎回摂動させて、全てのトレーニング画像をM回繰り返すことによって拡張される。グランドトゥルースランドマークロケーション
Figure 2018520444
を有するこの拡張されたトレーニングセットにおける画像I(i=1,...,MN)ごとに、ランドマークをランダムオフセット
Figure 2018520444
だけ変位させる。全てのエキスパートEごとに、式(20)及び式(21)を用いて、プロトタイプ形状
Figure 2018520444
へのi番目のサンプルの摂動されたランドマークロケーションのソフト割り当て
Figure 2018520444
を計算する。
Figure 2018520444
このソフト割り当てを計算する間、
Figure 2018520444
が、プロトタイプ形状
Figure 2018520444
のランドマークロケーションに対するi番目のサンプルの摂動されたランドマークロケーションを最も良好に割り当てる式(21)からの大域(アフィン)変換を表すものとする。
Figure 2018520444
を用いて、グランドトゥルースランドマークロケーション及び変位ベクトルを、エキスパートEのプロトタイプ座標フレームに変換する。
Figure 2018520444
次に、第1の回帰関数(k=1)は、チコノフ正則化L損失関数を最小にすることによって学習される。
Figure 2018520444
l及びkごとに、正則化項の重みγを、例えば2分割交差検証を用いた対数空間におけるグリッドサーチにより、選択することができる。
ランダム摂動を用いるのではなく、後の回帰{W,bk=2,...,Kをトレーニングするために、ターゲット
Figure 2018520444
は、カスケードの前回のステージの残余である。
トレーニングにおいて、回帰関数は、大きな残余を生成するいくつかのサンプルについて多岐にわたる可能性がある。これらの外れ値の当てはめを回避するために、各ステージkにおいて、トレーニングセットから最も大きな残余を有するサンプルの2%を除去する。交差検証誤差をこれ以上低減することができなくなるまでトレーニングすることによって、回帰ステージKの数を選択する。
トレーニングセットの主要な変形方向に沿ってグランドトゥルース顔ランドマークロケーションをランダムに摂動させることによって、トレーニングサンプルが生成される。これらは主要成分解析により求められる。さらに、ランダム回転、並進及び不均等スケーリングをランドマークロケーションに適用し、i.i.d(独立同分布(independent and identically distributed))ガウス雑音を加える。このトレーニングセットのためのカスケードモデル(通例、K=3個〜4個のステージ)を学習した後、小さな量のi.i.dガウス雑音のみからなるトレーニングセットを用いて第2のカスケードモデルを学習し、このモデルをオリジナルモデルに付加する。第2のモデルは、1個〜2個のステージを有し、精密な位置合わせを改善する。
発明の効果
各々が、大域位置合わせと、それに続く回帰とを含む1つ以上の(K≧1)ステップからなる正確な顔の位置合わせ方法が説明される。さらに、L個のGA−SDM回帰エキスパートの混合を説明した。各エキスパートは、ランドマークロケーションをそのプロトタイプ形状に大域的に位置合わせし、カスタマイズされた回帰モデルを学習することによって、姿勢及び表情の共同空間の異なる部分に特化している。また、変形制約を弁別的位置合わせフレームワーク内に含める方法も提示する。拡張的な評価は、提案される方法が最新技術を大幅に改善することを示す。

Claims (29)

  1. 顔の位置合わせの方法であって、
    顔の画像と、該画像に関連付けられた初期ランドマークロケーションの組とを取得するステップと、
    前記初期ランドマークロケーションの組を、プロトタイプ形状を有する顔のランドマークロケーションの組に大域的に位置合わせして、大域位置合わせパラメーターを得るステップと、
    前記大域位置合わせパラメーターに従って、前記初期ランドマークロケーションの組及び前記画像の座標フレームからの前記画像を前記プロトタイプ形状の座標フレームにワープして、ワープされたランドマークロケーション及びワープされた顔画像を得るステップと、
    前記ワープされたランドマークロケーションにおける前記ワープされた顔画像から特徴を抽出するステップと、
    前記特徴に回帰関数を適用して、前記プロトタイプ形状の前記座標フレームにおける更新されたランドマークロケーションを得るステップと、
    前記プロトタイプ形状の前記座標フレームにおける前記更新されたランドマークロケーションを前記画像の前記座標フレームにワープして、前記画像内の更新されたランドマークロケーションを得るステップと、
    を含み、前記ステップはプロセッサが実行する、方法。
  2. 請求項1に記載のステップをK回の反復にわたって適用することを更に含み、ここで、K≧1であり、前記画像は全ての反復について用いられ、各反復k>1において、前記初期ランドマークロケーションの組は、反復k−1中に用いられた前記画像内の前記更新されたランドマークロケーションである、請求項1に記載の方法。
  3. 前記エキスパート回帰関数は、各反復kにおいて異なる、請求項2に記載の方法。
  4. L個の大域位置合わせ教師あり降下法回帰エキスパート(複数のエキスパート)の組を更に含み、
    前記画像は全てのエキスパートによって用いられ、
    各エキスパートは、異なるプロトタイプ形状及び異なる回帰関数に関連付けられ、
    ゲーティング関数は、前記L個のエキスパートの各々について割り当て重みを生成し、
    前記L個のエキスパートの各々について、請求項1に記載のステップが実行され、更新された顔ランドマークロケーションのL個の組が得られ、
    前記更新された顔ランドマークロケーションのL個の組が、前記割り当て重みを用いて加重平均として結合され、前記更新された顔ランドマークロケーションが得られる、請求項1に記載の方法。
  5. 請求項4に記載の方法をK回の反復にわたって適用することを更に含み、ここで、K≧1であり、前記画像は全ての反復について用いられ、各反復k>1において、前記初期ランドマークロケーションは、反復k−1において得られた前記更新されたランドマークロケーションである、請求項4に記載の方法。
  6. エキスパートごとに、前記回帰関数は各反復において異なる、請求項5に記載の方法。
  7. 前記方法は、感情解析のために用いられる、請求項1に記載の方法。
  8. 前記方法は、超解像度撮像のために用いられる、請求項1に記載の方法。
  9. 前記方法は、先進運転支援システムによって用いられる、請求項1に記載の方法。
  10. 前記方法は、ビデオ会議のためのものである、請求項1に記載の方法。
  11. 前記画像はカメラによって取得される、請求項1に記載の方法。
  12. 前記初期ランドマークロケーションは、顔検出アルゴリズムを用いて求められる、請求項1に記載の方法。
  13. 前記初期ランドマークロケーションは、顔パーツ検出アルゴリズムを用いて求められる、請求項1に記載の方法。
  14. 前記大域位置合わせパラメーターは、2Dアフィン変換を表す、請求項1に記載の方法。
  15. 前記プロトタイプ形状は、トレーニングデータの組にわたる各ランドマークの平均ロケーションを含む、請求項1に記載の方法。
  16. 前記L個のエキスパートの前記プロトタイプ形状は、最適化問題を解いて、トレーニングデータの組における前記ランドマークの前記ロケーションのアフィン不変クラスタリングを得ることによって求められる、請求項4に記載の方法。
  17. 前記抽出することは、スケール不変特徴変換(SIFT)特徴を用いる、請求項1に記載の方法。
  18. 前記抽出することは、勾配方向ヒストグラム(HOG)特徴を用いる、請求項1に記載の方法。
  19. 前記特徴は、前記プロトタイプ形状のランドマークロケーションからの前記ワープされたランドマークロケーションの偏差
    Figure 2018520444
    を符号化する更なる特徴を含み、λは、前記プロトタイプ形状からの前記ロケーションの偏差に対する前記制約の厳密さを制御する重みであり、
    Figure 2018520444
    は前記ワープされたランドマークロケーションのベクトルであり、
    Figure 2018520444
    は、前記プロトタイプ形状の前記ランドマークロケーションのベクトルであり、kは前記方法の反復をインデックス付けする、請求項1に記載の方法。
  20. 前記回帰関数は線形関数である、請求項1に記載の方法。
  21. 前記回帰関数は回帰フォレストである、請求項1に記載の方法。
  22. l∈{1,...,L}である各エキスパートEのゲーティング関数αは、ランドマークロケーションxと、エキスパートEの前記プロトタイプ形状
    Figure 2018520444
    の前記ランドマークロケーションとの間の大域位置合わせ誤差ε(x)のソフトマックス変換であり、
    Figure 2018520444
    ここで、エキスパートEの前記大域位置合わせ誤差は
    Figure 2018520444
    であり、ここで、
    Figure 2018520444
    は、大域変換のクラスを表し、Aは、特定の変換を表し、kは、前記方法の反復をインデックス付けする、請求項4に記載の方法。
  23. 前記大域変換のクラスは、全ての可能な2Dアフィン変換のクラスである、請求項22に記載の方法。
  24. 前記回帰関数は、トレーニングデータの組を用いて学習され、該トレーニングデータの組は、顔のN個の画像の組と、該N個の画像の各々における前記顔ランドマークのグランドトゥルースロケーションとを含む、請求項1に記載の方法。
  25. 前記回帰関数は、顔のN個の画像の組と、これらのN個の画像の各々における前記顔ランドマークのグランドトゥルースロケーションとを含むトレーニングデータの組を用いて学習され、
    前記トレーニングデータは、全てのトレーニング画像をM回繰り返すことによって拡張され、拡張されたトレーニングデータの組が生成され、
    i=1,...,MNである、前記拡張されたトレーニングの組内の各画像Iについて、画像Iは、オフセット
    Figure 2018520444
    だけ変位したグランドトゥルースランドマークロケーション
    Figure 2018520444
    を有し、
    前記回帰関数は、L損失関数
    Figure 2018520444
    を最小化して、線形回帰関数パラメーターW、bを得ることによって学習され、ここで、W及びbは、それぞれ前記回帰関数の係数及び偏りを表し、φは、前記特徴を表す、請求項3に記載の方法。
  26. 前記オフセット
    Figure 2018520444
    は、ランダムに決定される、請求項25に記載の方法。
  27. 反復k=1において、前記オフセット
    Figure 2018520444
    は、ランダムに決定され、
    各反復k≧2において、前記オフセット
    Figure 2018520444
    は、前回の反復後の残余である、請求項25に記載の方法。
  28. 各エキスパートの前記回帰関数は、N個のトレーニング顔画像の組と、該N個のトレーニング顔画像の各々における顔ランドマークのグランドトゥルースロケーションとを含むトレーニングデータの組を用いて学習され、
    前記トレーニングデータは、全てのトレーニング顔画像をM回繰り返すことによって拡張され、拡張されたトレーニングデータの組が生成され、
    i=1,...,MNである前記拡張されたトレーニングデータの組内の各画像Iについて、画像Iは、オフセット
    Figure 2018520444
    だけ変位されたグランドトゥルースランドマークロケーション
    Figure 2018520444
    を有し、
    エキスパートごとに、前記回帰関数は、L損失関数
    Figure 2018520444
    を最小化することによって学習され、
    ここで、
    Figure 2018520444
    は、エキスパートlの前記回帰関数のパラメーターであり、
    Figure 2018520444
    であり、
    Figure 2018520444
    は、前記グランドトゥルースランドマークロケーション
    Figure 2018520444
    及び前記画像の前記座標フレームからの変位ベクトル
    Figure 2018520444
    を、エキスパートlのための前記プロトタイプの前記座標フレームに変換する変換であり、
    Figure 2018520444
    は、エキスパートlのための前記プロトタイプの前記座標フレームにおける前記変位されたランドマークロケーション
    Figure 2018520444
    から計算された、エキスパートlのための割り当て重みであり、γは正則化項重みである、請求項4に記載の方法。
  29. 反復k=1において、前記オフセット
    Figure 2018520444
    は、ランダムに決定され、各反復k≧2において、前記オフセット
    Figure 2018520444
    は、前回の反復後の残余である、請求項28に記載の方法。
JP2018500757A 2015-09-21 2016-07-25 顔の位置合わせのための方法 Active JP6584629B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/859,469 US9633250B2 (en) 2015-09-21 2015-09-21 Method for estimating locations of facial landmarks in an image of a face using globally aligned regression
US14/859,469 2015-09-21
PCT/JP2016/072461 WO2017051608A1 (en) 2015-09-21 2016-07-25 Method for face alignment

Publications (2)

Publication Number Publication Date
JP2018520444A true JP2018520444A (ja) 2018-07-26
JP6584629B2 JP6584629B2 (ja) 2019-10-02

Family

ID=56889122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018500757A Active JP6584629B2 (ja) 2015-09-21 2016-07-25 顔の位置合わせのための方法

Country Status (5)

Country Link
US (1) US9633250B2 (ja)
JP (1) JP6584629B2 (ja)
CN (1) CN108027878B (ja)
DE (1) DE112016004266B4 (ja)
WO (1) WO2017051608A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020027129A1 (ja) * 2018-07-31 2020-02-06 株式会社デンソー 瞳孔推定装置および瞳孔推定方法
JP2020526834A (ja) * 2017-11-16 2020-08-31 三菱電機株式会社 コンピュータベースシステム及びコンピュータベース方法
JP2021064343A (ja) * 2019-10-16 2021-04-22 株式会社デンソー 行動認識装置、行動認識方法、及び情報生成装置

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928405B2 (en) * 2014-01-13 2018-03-27 Carnegie Mellon University System and method for detecting and tracking facial features in images
US10134177B2 (en) * 2015-01-15 2018-11-20 Samsung Electronics Co., Ltd. Method and apparatus for adjusting face pose
US10121055B1 (en) * 2015-09-08 2018-11-06 Carnegie Mellon University Method and system for facial landmark localization
TWI797699B (zh) * 2015-12-22 2023-04-01 以色列商應用材料以色列公司 半導體試樣的基於深度學習之檢查的方法及其系統
CN107103271A (zh) * 2016-02-23 2017-08-29 芋头科技(杭州)有限公司 一种人脸检测方法
JP6563858B2 (ja) * 2016-06-02 2019-08-21 株式会社デンソーアイティーラボラトリ 特徴点位置推定装置、特徴点位置推定システム、特徴点位置推定方法、および特徴点位置推定プログラム
CN106682598B (zh) * 2016-12-14 2021-02-19 华南理工大学 一种基于级联回归的多姿态的人脸特征点检测方法
US10332312B2 (en) * 2016-12-25 2019-06-25 Facebook, Inc. Shape prediction model compression for face alignment
US11093796B2 (en) * 2017-03-29 2021-08-17 International Business Machines Corporation Entity learning recognition
US10783394B2 (en) 2017-06-20 2020-09-22 Nvidia Corporation Equivariant landmark transformation for landmark localization
TW201931179A (zh) 2017-07-13 2019-08-01 美商美國資生堂公司 用於虛擬面部化妝之移除與模擬、快速面部偵測及標記追蹤、降低輸入視訊之延遲及振動的系統與方法,以及用於建議化妝之方法
CN108875492B (zh) * 2017-10-11 2020-12-22 北京旷视科技有限公司 人脸检测及关键点定位方法、装置、系统和存储介质
CN107766851A (zh) * 2017-12-06 2018-03-06 北京搜狐新媒体信息技术有限公司 一种人脸关键点定位方法及定位装置
CN108090470B (zh) 2018-01-10 2020-06-23 浙江大华技术股份有限公司 一种人脸对齐方法及装置
CN108197593B (zh) * 2018-01-23 2022-02-18 深圳极视角科技有限公司 基于三点定位方法的多尺寸人脸表情识别方法及装置
EP3746981A1 (en) * 2018-02-02 2020-12-09 Koninklijke Philips N.V. Correcting standardized uptake values in pre-treatment and post-treatment positron emission tomography studies
DE102018002224A1 (de) 2018-03-19 2018-08-09 Daimler Ag Verfahren sowie System zum Ermitteln von Raumkoordinaten von Landmarken eines Kopfes einer Person
CN108446672B (zh) * 2018-04-20 2021-12-17 武汉大学 一种基于由粗到细脸部形状估计的人脸对齐方法
US10607108B2 (en) * 2018-04-30 2020-03-31 International Business Machines Corporation Techniques for example-based affine registration
CN109002769A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 一种基于深度神经网络的牛脸对齐方法及系统
US11003892B2 (en) * 2018-11-09 2021-05-11 Sap Se Landmark-free face attribute prediction
US10997473B2 (en) * 2018-11-27 2021-05-04 International Business Machines Corporation Object localization based on spatial relationships
US10846518B2 (en) * 2018-11-28 2020-11-24 National Yunlin University Of Science And Technology Facial stroking detection method and system thereof
US10949649B2 (en) 2019-02-22 2021-03-16 Image Metrics, Ltd. Real-time tracking of facial features in unconstrained video
WO2020248789A1 (en) * 2019-06-11 2020-12-17 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for facial landmark detection using facial component-specific local refinement
CN111161355B (zh) * 2019-12-11 2023-05-09 上海交通大学 多视图相机位姿和场景的纯位姿解算方法及系统
CN111523480B (zh) * 2020-04-24 2021-06-18 北京嘀嘀无限科技发展有限公司 一种面部遮挡物的检测方法、装置、电子设备及存储介质
CN112184593A (zh) * 2020-10-14 2021-01-05 北京字跳网络技术有限公司 关键点确定方法、装置、设备和计算机可读介质
CN112233207A (zh) * 2020-10-16 2021-01-15 北京字跳网络技术有限公司 图像处理方法、装置、设备和计算机可读介质
CN116150668B (zh) * 2022-12-01 2023-08-11 中国矿业大学 一种基于双级对齐部分迁移网络的旋转设备故障诊断方法
CN117315745B (zh) * 2023-09-19 2024-05-28 中影年年(北京)科技有限公司 基于机器学习的面部表情捕捉方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013228765A (ja) * 2012-04-24 2013-11-07 General Electric Co <Ge> イメージ位置合わせのための最適勾配追求

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155399B2 (en) * 2007-06-12 2012-04-10 Utc Fire & Security Corporation Generic face alignment via boosting
WO2009152430A2 (en) * 2008-06-12 2009-12-17 Repligen Corporation Methods of treatment of bipolar disorder
CN101763507B (zh) * 2010-01-20 2013-03-06 北京智慧眼科技发展有限公司 人脸识别方法及人脸识别系统
US8306257B2 (en) * 2011-01-31 2012-11-06 Seiko Epson Corporation Hierarchical tree AAM
CN103443804B (zh) * 2011-03-31 2019-02-19 英特尔公司 面部标志检测方法
US9928406B2 (en) * 2012-10-01 2018-03-27 The Regents Of The University Of California Unified face representation for individual recognition in surveillance videos and vehicle logo super-resolution system
US20140185924A1 (en) 2012-12-27 2014-07-03 Microsoft Corporation Face Alignment by Explicit Shape Regression
CN104050628B (zh) * 2013-03-11 2017-04-12 佳能株式会社 图像处理方法和图像处理装置
US9208567B2 (en) * 2013-06-04 2015-12-08 Apple Inc. Object landmark detection in images
CN103577815B (zh) * 2013-11-29 2017-06-16 中国科学院计算技术研究所 一种人脸对齐方法和系统
US9361510B2 (en) * 2013-12-13 2016-06-07 Intel Corporation Efficient facial landmark tracking using online shape regression method
US9928405B2 (en) * 2014-01-13 2018-03-27 Carnegie Mellon University System and method for detecting and tracking facial features in images
US9317785B1 (en) * 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
KR102077260B1 (ko) * 2014-08-08 2020-02-13 삼성전자주식회사 확룔 모델에 기반한 신뢰도를 이용하여 얼굴을 인식하는 방법 및 장치
KR101997500B1 (ko) * 2014-11-25 2019-07-08 삼성전자주식회사 개인화된 3d 얼굴 모델 생성 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013228765A (ja) * 2012-04-24 2013-11-07 General Electric Co <Ge> イメージ位置合わせのための最適勾配追求

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020526834A (ja) * 2017-11-16 2020-08-31 三菱電機株式会社 コンピュータベースシステム及びコンピュータベース方法
WO2020027129A1 (ja) * 2018-07-31 2020-02-06 株式会社デンソー 瞳孔推定装置および瞳孔推定方法
JP2021064343A (ja) * 2019-10-16 2021-04-22 株式会社デンソー 行動認識装置、行動認識方法、及び情報生成装置
WO2021075348A1 (ja) * 2019-10-16 2021-04-22 株式会社デンソー 行動認識装置、行動認識方法、及び情報生成装置
JP7120258B2 (ja) 2019-10-16 2022-08-17 株式会社デンソー 行動認識装置、及び行動認識方法

Also Published As

Publication number Publication date
DE112016004266B4 (de) 2024-06-06
CN108027878A (zh) 2018-05-11
DE112016004266T5 (de) 2018-07-05
US20170083751A1 (en) 2017-03-23
WO2017051608A1 (en) 2017-03-30
CN108027878B (zh) 2022-04-12
JP6584629B2 (ja) 2019-10-02
US9633250B2 (en) 2017-04-25

Similar Documents

Publication Publication Date Title
JP6584629B2 (ja) 顔の位置合わせのための方法
Kulkarni et al. Picture: A probabilistic programming language for scene perception
Patel et al. Latent space sparse and low-rank subspace clustering
Wang et al. Graph matching with adaptive and branching path following
Bône et al. Learning distributions of shape trajectories from longitudinal datasets: a hierarchical model on a manifold of diffeomorphisms
Xiong et al. Supervised descent method for solving nonlinear least squares problems in computer vision
Deutsch et al. Zero shot learning via multi-scale manifold regularization
Lee et al. Tensor-based AAM with continuous variation estimation: Application to variation-robust face recognition
KR20210021147A (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
JP2008544404A (ja) 薄板スプライン変換を用いて非剛体運動をモデル化するための直接的方法
CN109544603B (zh) 基于深度迁移学习的目标跟踪方法
Tuzel et al. Robust face alignment using a mixture of invariant experts
JP2005025748A (ja) 立体結合顔形状の位置合わせ
Wimmer et al. Learning local objective functions for robust face model fitting
JP6387831B2 (ja) 特徴点位置検出装置、特徴点位置検出方法および特徴点位置検出プログラム
Meier et al. Efficient Bayesian local model learning for control
Sun et al. Deep Evolutionary 3D Diffusion Heat Maps for Large-pose Face Alignment.
CA2643865A1 (en) Method and system for locating landmarks on 3d models
Tong et al. Semi-supervised facial landmark annotation
CN112348164A (zh) 用残差变分自编码器无监督解纠缠表示学习的装置和系统
Camassa et al. A geodesic landmark shooting algorithm for template matching and its applications
Langs et al. Modeling the structure of multivariate manifolds: Shape maps
US20240013357A1 (en) Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method
CN111444962B (zh) 一种基于耦合卷积稀疏编码的跨模态图像匹配方法
JP7161111B2 (ja) 重みマスク生成装置、重みマスク生成方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190903

R150 Certificate of patent or registration of utility model

Ref document number: 6584629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250