CN108027878A - 用于面部对齐的方法 - Google Patents
用于面部对齐的方法 Download PDFInfo
- Publication number
- CN108027878A CN108027878A CN201680053624.7A CN201680053624A CN108027878A CN 108027878 A CN108027878 A CN 108027878A CN 201680053624 A CN201680053624 A CN 201680053624A CN 108027878 A CN108027878 A CN 108027878A
- Authority
- CN
- China
- Prior art keywords
- image
- landmark
- face
- prototype
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000001815 facial effect Effects 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 22
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 13
- 238000012417 linear regression Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000000844 transformation Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 241000764238 Isis Species 0.000 claims 1
- 210000000887 face Anatomy 0.000 description 14
- 230000008921 facial expression Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000012368 scale-down model Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 210000004709 eyebrow Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003094 perturbing effect Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003778 catagen phase Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/754—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种用于面部对齐的方法通过以下处理对面部图像和一组初始地标位置进行操作:首先使初始位置全局地对齐到具有原型形状的面部的一组地标位置,以获得全局对齐参数,然后根据全局对齐参数,从图像的坐标系向原型形状的坐标系扭曲初始位置和图像,以获得扭曲后的地标位置和扭曲后的面部图像。在扭曲后的地标位置处从扭曲后的面部图像提取特征,并且向特征应用回归函数,以获得在原型形状的坐标系中的更新后的地标位置。最后,原型形状的坐标系中的更新后的地标位置扭曲到图像的坐标系,以获得更新后的地标位置。
Description
技术领域
本发明总体涉及计算机视觉及其应用,并且更具体地涉及对齐图像中的面部。
背景技术
如领域中众所周知的,面部对齐是指确定与一组预定义面部地标对应的图像中的像素的位置。各地标与诸如鼻子的尖端、眼角、眉毛的拱以及嘴唇的弯曲部这样的特定面部特征关联。
面部对齐对于诸如面部识别、面部跟踪、面部姿态估计、面部表情分析和面部建模以及人机界面(HCI)这样的许多计算机视觉应用通常是重要的。另外,面部对齐在诸如驾驶员监测和高级驾驶员辅助系统(ADAS)这样的车辆相关用途中是有用的。面部对齐由于诸如姿态、面部表情、照明以及遮挡的因素的大变化而是难题。
面部对齐的先前方案使用诸如主动形状模型(ASM)、主动外观模型(AAM)或受约束局部模型(CLM)这样的各种方法。CLM具有对地标的位置(例如子空间形状模型)的明确联合约束,其约束地标相对于彼此的位置。基于CLM,Gauss-Newton可变形部分模型(GN-DPM)使用Gauss-Newton优化联合地拟合外观模型和全局形状模型。
近来,面部对齐中的关注点已经转移到辨别方法。这些方法的显著特征是学习明确的回归函数。回归函数基于在先前估计的面部地标位置提取的特征来更新地标位置的估计。
基于树的回归方法可以快速估计地标位置。在一个基于树的方法中,使用随机森林回归可以学习一组局部二元特征以联合地学习用于地标位置的最终估计的线性回归函数。随机森林回归在训练时构造大量决策树。另一个方法使用梯度推进树算法来学习回归树的全体。
在有监督下降法(SDM)中,回归函数的级联对利用尺度不变特征变换(SIFT)提取的特征进行操作,以迭代地更新估计地标位置。在SDM中,没有明确的面部形状约束存在于地标的位置上。这不是理想的,因为相邻面部地标的位置在回归期间会漂移散开。
此外,在SDM中,同一线性回归函数必须跨包括平面内和平面外头部旋转这两者在内的面部表情和姿态的所有可能变化上工作。这需要大的且变化的训练数据集,而且要求所学习的回归函数为通用的,从而限制了精度。
发明内容
本发明的实施方式提供了一种使用全局对齐回归来进行面部对齐的方法,即,估计图像中的面部地标的位置。该方法被称为全局对齐的有监督下降法(GA-SDM)。GA-SDM作为K个阶段的级联(还被称为迭代)来操作,其中,各阶段包括全局对齐步骤和回归函数。
方法例如使用摄像头或获得先前捕捉的图像来获取图像。对方法的输入包括一组地标位置的初始估计,被称为初始地标位置。将该一组初始地标位置全局地对齐到具有原型形状的面部的一组地标位置,以获得全局对齐参数。根据全局对齐参数,将一组初始地标位置和图像从图像的坐标系扭曲到原型形状的坐标系,以获得扭曲后的地标位置和扭曲后的面部图像。
在扭曲后的地标位置处从扭曲后的面部图像提取特征。对特征应用回归函数,以获得在原型形状的坐标系中的更新后的地标位置。然后,将原型形状的坐标系中的更新后的地标位置扭曲到图像的原始坐标系,以获得在所获取图像中的更新后的地标位置。
为了提高对齐精度,优选实施方式在各迭代处使用不同回归函数的同时将步骤重复K个迭代。
地标位置可以用于若干应用中,包括:人机交互、视频会议、游戏、动画片、视线跟踪、情感分析以及健康监测;诸如驾驶员监测和高级驾驶员辅助系统(ADAS)的汽车相关用途;以及包括面部识别、面部表情识别和合成以及超分辨率成像的大量计算机视觉任务。在存在面部表情的大变化和姿态的大变化(例如,被称为平面内旋转的图像平面内的旋转和被称为平面外旋转的图像平面外的旋转)时,面部对齐特别具有挑战性。
为了解决该问题,本发明的一些实施方式提供在下文中被简称为“专家”的L个GA-SDM回归专家的混合。各专家El(其中,l∈{1,…,L})对于级联的K个阶段中的每个阶段包括不同的回归函数{W,b},其中,W和b分别表示回归函数的系数和偏置。
各专家具有用于全局对齐地标位置的自己的原型形状(例如,鼻子尖端和眼角)。这使得各专家能够在姿态和表情的联合空间的不同部分中专门化。在一些实施方式中,在级联的各阶段处对于各专家学习单独的回归模型。一些实施方式还在区分性对齐框架内提供变形约束,以提高精度。
方法所用的特征可以包括:
(1)在回归的各迭代之前的全局对齐步骤,其使方法对于已定义的全局变换的指定类不变;
(2)特征向量的扩展,其使得回归能够对从原型面部形状的特征位置的偏差进行处罚;
(3)在级联的各阶段处的专家混合回归,其中,各专家具有自己的回归函数,该回归函数被专门化以对齐输入数据的不同子集,例如,姿态和表情的特定范围;以及
(4)用于学习由专家使用的原型面部形状的仿射不变聚类过程。
附图说明
[图1]图1是根据本发明的实施方式的用于图像的面部对齐的示意图。
[图2A]图2A是根据本发明的实施方式的使用我们的GA-SDM方法的第k个迭代的用于面部对齐的方法的流程图;
[图2B]图2B是与图2A所示的方法对应的伪代码的框图;
[图3]图3是根据本发明的实施方式的使用GA-SDM的K个迭代的面部对齐的流程图;
[图4A]图4A是根据本发明的实施方式的应用GA-SDM回归专家(下文中为“专家”)的混合的一个迭代的流程图;
[图4B]图4B是各为特定姿态或面部表情特化的专家的混合的示意图;以及
[图4C]图4C是图4A的方法的K个迭代的伪代码的框图。
具体实施方式
如图1所示,我们发明的实施方式提供了一种使用全局对齐回归的用于面部对齐的方法100。在本领域中,面部对齐是指确定与一组面部地标对应的图像中的像素的位置的处理。各地标与诸如鼻子的尖端、眼角以及眉毛角和嘴唇角的这样面部上的特定位置关联。如果地标位置不正确,那么面部对齐将地标位置大致更新到它们在图像中的正确位置。
对方法的输入101是图像I和与图像关联的一组初始地标位置x1。图像可以由摄像头来获取106或由其他手段或从其他源来获得,例如,存储器转移或无线或无线通信。这里所描述的方法和过程基本上对图像和一组初始地标位置进行操作。
初始地标位置可以被人工标记或自动标记,例如使用面部部分检测算法或面部检测算法。在后者的情况下,初始地标位置是来自一组训练面部图像的各地标的平均位置,该一组训练面部图像被平移并缩放以适合边界框。注意,不需要精确标记地标的初始位置。
初始地标位置x1 101表示图像I中的每个面部地标的位置的初始估计。在对齐之后,对齐后的地标位置xK+1 102被示出为叠加在面部的图像I上。
图2A示出了根据本发明的实施方式的使用全局对齐和回归的GA-SDM 200的我们称为阶段k的一个迭代的流程图。使图像I中的初始地标位置xk101全局对齐110到原型面部形状103的地标位置,以产生对齐参数Ak 111。在优选实施方式中,如下所述,从训练图像学习原型面部形状。在其他实施方式中,原型面部形状例如可以从现有2D或3D面部模型来获得或调整。
根据对齐参数Ak111扭曲120图像I和地标位置xk,以产生在原型面部形状的坐标系中表达的图像I′和地标位置x′k 121。这些位置用于从在原型面部形状的坐标系中表达的扭曲后的图像I′提取130特征φ′k=φ(I′,x′k)131。
应用140第k个回归函数,以产生在原型面部形状的坐标系中的更新后的地标位置x′k+1141。然后使用表示利用参数Ak的对齐变换的倒数的将更新后的地标位置扭曲回图像的坐标系。这产生在原始图像I的坐标系中的更新后的地标位置xk+1 151。如本领域中已知的,图2A和其他附图所示的步骤可以在连接到存储器和输入/输出接口的处理器中执行。
图2B示出了与图2A中的流程图对应的用于GA-SDM的一个迭代(阶段k)的伪代码。这里和附图中描述用于伪代码中的步骤和变量。
如图3所示,为了更佳对齐在各阶段处使用不同回归函数将GA-SDM过程迭代104K次。方法在阶段k=1处利用输入图像I和图像中的地标位置的初始估计x1 101开始。这些用作对GA-SDM的第一阶段(即,GA-SDM的阶段k 200,其中,k=1)的输入105。将GA-SDM迭代K个阶段(K≥1)。阶段k的输出是地标位置的更新后的估计xk+1 151。在k<K时,将阶段数k增量1,并且先前阶段的输出xk+1 151变成当前阶段的输入xk105。在GA-SDM的阶段K结束时(在k=K时),更新后的地标位置xk+1 151用作GA-SDM的最终输出、对齐后的地标位置xK+1 102。
图4A是根据本发明的优选实施方式的、应用GA-SDM回归专家(下文中为“专家”)的混合的一个迭代(阶段k)。存在L个专家El,各专家具有其自己的原型形状154,其中,l∈{1,…,L}。对于图像I和地标位置xk105,计算160选通函数αl(xk)161。使用GA-SDM的一个阶段(阶段k)200由各专家El对齐155地标位置xk,以获得在原始图像I的坐标系中表达的更新后的地标位置156。然后,确定170专家的输出的加权平均,以产生更新后的地标位置xk+1171。
图4B示意性示出了5个原型面部形状190,其分别与L=5个专家对应,各专家对于特定范围的姿态或面部表情专门化。箭头180示出了将各图像的地标位置的权重分配给五个专家。
我们的方法与现有技术的有监督下降法(SDM)的关联在于:优选实施方式对在当前估计的特征位置处计算的尺度不变特征变换(SIFT)特征执行回归的级联。
我们的方法以多个方式改进了现有技术的SDM。在传统SDM中,所学习的线性回归函数必须能够应对宽范围的输入姿态中的面部。
相反,我们在回归步骤之前,在级联的各阶段处使用全局对齐步骤,这使得我们的方法对于全局变换的整个类不变。在一些实施方式中,我们使用所有可能2D仿射变换的类。因此,我们的回归函数不需要修正姿态的许多全局变化,使得回归函数可以被微调以应对地标位置的较小的变化。
传统SDM没有用于联合地限制多个地标的位置的明确全局约束。我们的方法通过处罚地标位置与原型面部形状的偏差来解决该问题。我们通过将特征向量扩展为包括由确定模型的刚性的标量加权的、原型地标位置与当前估计的地标位置之间的差异在回归框架中实现了这一点。面部形状(即,地标位置)的该全局正则化防止了特征漂移散开。
为了进一步提高我们模型应对姿态和表情的变化的灵活性,我们用专家混合线性回归函数替换级联的各阶段处的简单线性回归函数。混合中的各专家与不同的原型面部形状对应,例如,各专家函数可以应对不同范围的平面外头部旋转和面部表情。
我们现在描述与我们的方法有关的传统有监督下降法(SDM)和这里所用的标记。
假设I为面部的图像,并且假设x为图像坐标中的p个面部地标的位置的2p×1向量。在x中的p个地标位置的每个地标位置处,提取d维特征向量,例如,d=128。假设φ(I,x)为pd×1合并特征向量,其为从地标位置x处的图像I提取的p个特征描述符的联结。在一些实施方式中,特征是尺度不变特征变换(SIFT)特征。在其他实施方式中,特征是有向梯度直方图(HOG)特征。
在给定图像I中的地标位置xk的当前估计的情况下,SDM将对齐问题公式化为确定更新向量Δx,使得在更新后的一组地标位置xk+Δx处确定的特征较好地匹配在图像中的一组地面真实地标位置处确定的特征。
对应的误差可以被表达为更新向量Δx的函数:
其中,函数f可以由Newton法来最小化。这需要计算Hessian函数和Jacobian函数,为此要求f可两次微分。然而,该可微分性条件无法总是保持,并且在φ是SIFT运算符时明确地不保持。因此,该方法需要Jacobian和Hessian矩阵的在计算上复杂的数值计算,并且所得到的最小化过程的收敛是缓慢的。
这通过使用所学习的下降方向来连续更新xk在SDM中来解决,而不是明确的Hessian和Jacobian计算。用于计算所学习的下降方向的线性函数和特征向量的形式的动机遵循Newton法。
对(1)的二阶Taylor近似为:
其中,Jf是f关于x的Jacobian矩阵,并且H是f的Hessian矩阵。由链式法则,
其中,Jφ是φ关于x的Jacobian,并且我们定义φk=φ(I,xk)。
Newton步骤为:
其中,我们省略来自Hessian和Jacobian的自变量xk,以强调对φk的依赖。
算式(4)由以下多元线性回归来近似:
Δx=Wkφk+bk, (5)
其中,系数Wk和偏置bk不依赖xk的值。
SDM使用训练数据来学习K个线性回归{Wk,bk}的级联,其中,k=1,…,K。然后,通过向在由级联的先前阶段输出的地标位置处计算的特征依次应用所学习的回归来实现对齐:
为了学习回归{Wk,bk},通过将每个训练图像重复M次来增强训练数据中的N个面部图像,每次将地面真实地标位置扰动不同的随机位移。针对具有地面真实地标位置的增强后的训练集(I=1,…,MN)中的各图像Ii,地标被扰动随机位移然后通过使L2损失函数最小化来学习第一回归函数(k=1):
不是使用随机扰动,为了训练稍后的回归{Wk,bk}k=2,…,K,更新向量是回归级联的先前阶段之后的残差。
我们现在描述我们的模型。我们的模型大幅改进了现有技术的对齐精确性和鲁棒性。优选实施方式使用:
回归的各阶段之前的全局对齐步骤;
对回归的所学习的变形约束;以及
在级联的各阶段处的专家回归的混合,而不是单个线性回归。
全局对齐
为了使传统SDM中的回归函数学习对于各种面部姿态和表情对齐面部地标,训练数据必须包含覆盖可能变化的空间的面部的足够示例。
虽然能够在任意姿态处对齐面部是期望特性,但学习这种函数需要收集(或合成)包含所有可能面部姿态的训练数据。另外,学习当在训练集中存在大变化时是更困难的任务,因此需要足够复杂的回归模型(功能形式和特征数),或者对齐方法为了对齐所有这些姿态而损害精度。
一般说来,提高模型的复杂性导致较差的泛化性能。这暗示了学习对于有限范围的姿态对齐面部的较简单或较正则化的模型对于这些姿态可以比在所有姿态上进行了训练的一般对齐模型效果好地执行。
作为简单示例,考虑使用面部的单个直立图像训练的回归函数,而不是使用面部图像的多个平面内旋转训练的回归函数。在前者的情况下,回归函数必须对于直立姿态具有根,而在后者的情况下,回归函数必须对于每个平面内旋转具有根。
我们的关于全局对齐的目标是在仍然能够对齐任意姿态中的面部的同时,在姿态的较小组上训练各回归。为此,我们在各阶段的回归函数之前应用全局对齐步骤。
全局对齐的有监督下降法(GA-SDM)
图2A、图2B以及图3示出了我们称为全局对齐的有监督下降法(GA-SDM)的、使用全局对齐和回归来对齐面部的我们的方法。图2A示出了方法的一个迭代(阶段k)的步骤的流程图,并且图2B示出了对应的伪代码。
图3示出了用于(具有K个阶段的)整个GA-SDM方法的流程图。如本领域中已知的方法中的步骤可以在连接到存储器和输入/输出接口的处理器中执行。这里描述用于伪代码中的所有变量。
我们将图2A和图2B中描述的方法称为GA-SDM的一个阶段(阶段k)。这是因为在优选实施方式中,将方法迭代K次(其中,K≥1),并且各迭代k被称为GA-SDM的阶段k。图3示出了包括K个阶段的整个GA-SDM方法。然而,图2A和图2B中描述的方法可以作为单独的方法仅执行一次,这是K=1的GA-SDM的特殊情况。
对GA-SDM的阶段k的输入是原型面部形状103的地标位置的向量、由{Wk,bk}定义的线性回归函数、面部的图像I以及图像中的已识别的面部地标的初始位置xk,其中,如以下进一步描述的,Wk和bk分别表示回归函数的系数和偏置。
原型面部形状103是包含p个面部地标的位置的2p×1向量。在一些实施方式中,原型形状包括为了使所有图像共享规范位置和尺度而向各训练图像应用了均匀尺度和平移变换之后的、一组训练数据上的各地标的平均位置。
优选实施方式如以下所描述的使用仿射变换作为用于全局对齐的函数的类,尽管其他实施方式可以使用全局变换的其他类。在回归的各阶段k,我们确定110仿射变换Ak111,其将由回归的先前阶段估计的地标位置xk变换,以使到距原型地标位置x的平方距离之和最小化:
其中,A表示所有仿射变换的组。
我们使用变换Ak来将图像I和地标位置xk 101扭曲120到原型形状坐标系中:I′=Ak(I)并且x′k=Ak(xk)。请注意,我们在这里通过将同一仿射变换运符Ak用于对地标位置的向量的变换Ak(xk)以及图像的扭曲Ak(I)这两者来稍微地滥用该标记。
接着,我们从在原型坐标系中的估计地标位置x′k处的扭曲后的图像I′提取130特征,例如SIFT特征,并且应用140线性回归
x′k+1=x′k+Wkφ(I′,x′k)+bk. (9)
然后,我们使用(变换Ak的倒数)扭曲150回到图像坐标。我们输出由给出的在图像坐标系中的更新后的地标位置151。
在一些实施方式中,线性回归140可以被其他回归函数替换,诸如核回归、树回归、回归森林或神经网络回归。
学习变形约束
用于跟踪地标位置的传统SDM对相邻地标的回归行为没有明确约束,这引入了地标可能漂移散开的可能性。通常,这将为通过引入对地标的自由形式变形的明确约束或处罚而在优化设置中处理的简单问题。
不是使用可能缓慢的优化过程,我们希望维持使用回归函数的正向预测的速度优点。为了在回归框架内实现约束的效果,我们使用允许回归模型学习来约束地标位置的附加特征。
我们使用算式(1)中的成本项的形式的软约束:
在地标位置从原型形状漂移时要求二次处罚。权重λ控制对位置从原型形状的偏差的约束的严格性。在受约束优化中,“软”约束是以不满足约束的量进行处罚的项。
用于该受约束f的Newton步骤是
其中,H是fc的关于x的Hessian矩阵,并且Jφ是φ的关于x的Jacobian。正如我们通过(5)对(4)进行近似,我们可以通过线性回归函数近似该受约束Newton步骤(11):
其中,受约束特征向量为
如在无约束SDM中,我们可以使用训练数据来学习回归系数Wk和偏置bk。受约束算式(12)与算式(5)中的无约束回归模型之间的唯一差异在于:在受约束版本中,我们将特征向量扩展为包括附加特征其对地标位置从原型形状地标位置的偏差进行编码。
受约束回归通过学习用于所关联的回归系数的负值来学习以使地标位置朝原型形状移动。所学习的系数的范数对于级联的初始回归阶段较大,但在稍后的阶段中较小,这随着地标位置收敛到它们的最终值而对变形加以较弱的约束。
注意,可以将权重λ并入到Wk中,并且将并入到bk中,并且仅展开具有xk的特征向量φ*而不是然而,我们保持如算式(13)的差分向量形式,这对于以下所描述的正则化训练变得重要。
为了统一标记,将所展开的特征向量φ*简称为φ。这样,算式(5-9)、图2A以及图2B的算法1在不修改的情况下应用于受约束模型。使用φ的以下算式可以类似地被认为适用于受约束模型。
注意,优选实施方式使用所展开的特征向量作为我们的GA-SDM的一部分,而不是将其用作SDM的简单扩展。由此,在优选实施方式中,如在算式(9)中,在原型坐标系中的地标位置x′k(即,扭曲后的地标位置)处从扭曲后的图像I′提取特征φ(I′,x′k)。由此,在优选实施方式中,所展开的特征向量中的附加特征实际上具有形式其对扭曲后的地标位置x′k从原型形状地标位置的偏差进行编码。
GA-SDM回归专家的混合
以上所描述的全局对齐允许我们的模型学习对于面部的仿射变换不变的回归函数。仍然,面部图像数据中的剩余变化,例如由于面外旋转和面部表情而产生的,大至足以使单个回归函数精确地对齐所有面部具有挑战性。
特别地,通常的图像训练集包括比具有大的平面外旋转或极端表情的面部更多的、具有中性面部表情的正面面部。因此,从这些训练数据得到的原型面部(例如,平均面部)非常接近于具有中性表情的正面面部,并且回归函数倾向于对于较极端的姿态和表情不那么良好地工作。
优选实施方式使用专家混合回归模型,其中,各专家具有对于可能姿态和表情的不同子集专门化的回归函数。各专家的子集由用于该专家的原型形状来确定。我们构造L个原型形状使得数据集中的N个面部中的每个面部的地面真实地标位置与原型形状地标中的一个原型形状地标良好地对齐。原型形状的确定可以被表达为优化问题
其中,各是2p×1向量,其表示可能的原型形状,即,p个面部地标的位置。
表示整个变换类,例如,一组所有可能仿射变换,而A表示是作为该组的成员的一个具体变换。
如果变换类仅包含恒等变换,那么该问题简化为基于地标位置的对训练样本的Euclidean聚类。
在是仿射变换类时,我们将这称为仿射不变聚类。在这种情况下,算式(14)是同质优化问题,其中,为了避免零解,需要对原型形状或变换的另外约束,在零解中给所有变换和原型形状分配零。而且,由于形状的联合优化和训练样本到形状的分配,目标函数是非凸的。我们将该问题分为两个凸子问题,我们通过迭代来对其求解。
第一子问题经由下式向原型形状中的一个原型形状分配每个训练面部图像n:
假定原型形状为固定的。该问题可以对于各训练面部独立地求解。最优分配是面部的地面真实地标位置可以以最小的对齐误差仿射对齐到的原型形状。
第二子问题对于原型形状求解。各原型形状包括在被分配到该原型形状的所有训练面部的地面真实位置上使平方仿射对齐误差的和最小化的地标位置:
为了避免退化,我们使用对原型形状的线性约束。在一些实施方式中,这些约束要求例如如右眉毛的地标的平均位置,左眉毛的地标的平均位置以及嘴唇地标的平均垂直位置是固定的。这些约束可以通过以下方式使用算式(17)来表达:选择矩阵C和向量m,使得矩阵C的行从地标位置的向量选择眉毛和嘴唇地标的坐标,并且与矩阵C的行对应的向量m的行对固定平均位置编码。该优化是具有线性约束的二次问题,其中,通过对线性系通求解来计算最优解。交替对两个优化子问题求解,直到分配不变化为止;通常,20-30个迭代对于收敛是足够的。
图4C示出了根据本发明的优选实施方式的作为用于应用GA-SDM回归专家(下文中为“专家”)的混合的方法的伪代码算法2。方法包括我们称为级联的阶段的K个迭代。
图4A示出了方法的、我们称为阶段k的一个迭代的流程图。对阶段k的输入是图像I和初始地标位置xk 105。对于各专家El(其中,l=1,...,L),应用155我们的GA-DSM的阶段k200,以产生各专家的更新后的地标位置156。如以下详细描述的,根据算式(20)和(21)确定分配αl(xk)161,并且将L个专家的输出的加权平均170确定为:
这在以下将被作为算式(22)来说明。然后,输出171更新后的地标位置xk+1。
各专家El与L个原型形状中的一个原型形状对应:l∈{1,…,L}。在回归级联的各阶段,对于各专家El存在单独的回归。因此,除了原型形状位置之外,各专家El对于级联的K个阶段中的每个阶段具有回归函数
在级联的各阶段k,各专家El将该专家的原型形状位置和回归函数用作输入来执行算法1(图2B),即,GA-SDM的阶段k:
算法(19)中的标记指示被提供作为算法1(其为GA-SDM的阶段k,如图2B中详细说明的)的输入,并且是得到的输出。用于各专家El的选通函数是由地标位置xk与各原型形状的地标位置之间的全局对齐误差εl(xk)的softmax变换给出的软分配αl(xk)。软分配使用下式来计算:
其中,并且 (21)
softmax函数返回在范围(0,1)内的实数值。
这里,如在算式(8)中,表示一组所有仿射变换。在一些实施方式中,可以表示全局变换的不同类。得分αl(xk)的高值指示位置xk的当前估计接近于第l个专家的原型形状,并且因此,从El获得的回归结果被分配高的权重。在图4B中,我们示出了向模型中的专家分配两个面部的权重。
在级联的各阶段k,我们的专家混合对齐方法向地标位置xk的起始估计应用每个专家的回归函数,然后根据选通函数αl(xk)对输出求平均,以获得地标位置xk+1的更新后的估计:
训练专家
在优选实施方式中,使用训练数据来学习专家的回归函数,该训练数据包括一组N个面部图像和这N个图像中的每个图像中的面部地标的地面真实位置。为了学习专家El的回归函数,通过将每个训练图像重复M次来增强训练数据中的N个面部图像,每次将地面真实地标位置扰动不同的随机位移。针对具有地面真实地标位置的增强后的训练集(I=1,…,MN)中的各图像Ii,我们将地标位移随机偏移量对于每个专家El,我们使用算式(20)和(21)来计算到原型形状的第i个样本的已扰动地标位置的软分配
在计算该软分配的同时,我们假设表示将第i个样本的经扰动的地标位置最佳地对齐到原型形状的地标位置的来自算式(21)的全局(仿射)变换。我们使用来将地面真实地标位置和位移向量变换到专家El的原型坐标系中:
然后通过使Tikhonov正则化L2损失函数最小化来学习第一回归函数(k=1):
对于各l和k,可以选择正则化项权重γ,例如使用2倍交叉验证经由在对数空间中进行网格搜索。
不是使用随机扰动,为了训练稍后的回归{Wk,bk}k=2,…,K,目标是级联的先前阶段的残差。
在训练中,回归函数可以对于产生大残差的一些样本发散。为了避免拟合这些离群值,在各阶段k,我们从训练集去除具有最大残差的样本的2%。我们通过训练直到无法进一步降低交叉验证误差为止,来选择回归阶段K的数量。
通过沿着训练集的主变形方向随机扰动地面真实面部位置来生成训练样本,这些方向经由主分量分析来确定。另外,我们向地标位置应用随机旋转、平移以及各向异性缩放,并且添加i.i.d.(独立并且等同分布的)Gaussian噪声。在学习用于该训练集的级联模型(通常K=3-4个阶段)之后,我们使用仅由小量的i.i.d.Gaussian噪声构成的训练集来学习级联模型,并且将该模型附加到原始模型。第二模型具有1-2个阶段,并且改善了精密对齐。
本发明的有益效果
描述了由一个或更多个(K≥1)步骤构成的精确的面部对齐方法,各个步骤包括全局对齐,之后是回归。另外,我们描述了L个GA-SDM回归专家的混合。通过将地标位置全局对齐到其原型形状并学习定制的回归模型,各专家在姿态和表情的联合空间的不同部分中专门化。我们还提出了一种在区分性的对齐框架内包括变形约束的方法。范围广泛的评价示出了所提出的方法大幅改善了现有技术。
Claims (29)
1.一种用于面部对齐的方法,该方法包括以下步骤:
获取面部的图像和与所述图像关联的一组初始地标位置;
将所述一组初始地标位置全局地对齐到具有原型形状的面部的一组地标位置,以获得全局对齐参数;
根据所述全局对齐参数,将所述一组初始地标位置和所述图像从所述图像的坐标系扭曲到所述原型形状的坐标系,以获得扭曲后的地标位置和扭曲后的面部图像;
在所述扭曲后的地标位置从所述扭曲后的面部图像提取特征;
对所述特征应用回归函数,以获得在所述原型形状的所述坐标系中的更新后的地标位置;以及
将在所述原型形状的所述坐标系中的所述更新后的地标位置扭曲到所述图像的所述坐标系,以获得在所述图像中的更新后的地标位置,其中,所述步骤在处理器中执行。
2.根据权利要求1所述的方法,所述方法还包括:
将权利要求1的所述步骤应用达K个迭代,其中,K≥1,其中,所述图像用于所有迭代,并且其中,在各迭代K>1处,所述一组初始地标位置是在迭代k-1期间使用的所述图像中的所述更新后的地标位置。
3.根据权利要求2所述的方法,其中,所述专家回归函数在各迭代k处不同。
4.根据权利要求1所述的方法,还包括一组L个全局对齐的有监督下降法回归专家,
其中,所述图像被所有专家使用,
其中,各专家与不同的原型形状和不同的回归函数关联,
其中,选通函数产生用于所述L个专家中的每个专家的权重,
其中,对于所述L个专家中的每个专家,执行权利要求1的所述步骤,产生L组更新后的面部地标位置,
并且其中,使用所述分配权重将所述L组更新后的面部地标位置组合为加权平均,以获得所述更新后的面部地标位置。
5.根据权利要求4所述的方法,所述方法还包括:
将权利要求4的所述方法应用达K个迭代,其中,K≥1,其中,所述图像用于所有迭代,并且其中,在各迭代K>1处,所述一组初始地标位置是在迭代k-1处获得的所述更新后的地标位置。
6.根据权利要求5所述的方法,其中,对于各专家,所述回归函数在各迭代处不同。
7.根据权利要求1所述的方法,其中,所述方法用于情感分析。
8.根据权利要求1所述的方法,其中,所述方法用于超分辨率成像。
9.根据权利要求1所述的方法,其中,所述方法由高级驾驶员辅助系统使用。
10.根据权利要求1所述的方法,其中,所述方法用于视频会议。
11.根据权利要求1所述的方法,其中,所述图像由摄像头来获取。
12.根据权利要求1所述的方法,其中,使用面部检测算法来确定所述初始地标位置。
13.根据权利要求1所述的方法,其中,使用面部部分检测算法来确定所述初始地标位置。
14.根据权利要求1所述的方法,其中,所述全局对齐参数表示2D仿射变换。
15.根据权利要求1所述的方法,其中,所述原型形状包括各地标在一组训练数据上的平均位置。
16.根据权利要求4所述的方法,其中,通过对获得一组训练数据中的所述地标的所述位置的仿射不变聚类的优化问题求解,来确定所述L个专家的所述原型形状。
17.根据权利要求1所述的方法,其中,所述提取使用尺度不变特征变换SIFT特征。
18.根据权利要求1所述的方法,其中,所述提取使用有向梯度直方图HOG特征。
19.根据权利要求1所述的方法,其中,所述特征包括对所述扭曲后的地标位置从所述原型形状的地标位置的偏差进行编码的附加特征,其中,λ是控制对所述位置从所述原型形状的偏差的所述约束的严格性的权重,x′k是所述扭曲后的地标位置的向量,并且是所述原型形状的所述地标位置的向量,并且k对所述方法的迭代进行索引。
20.根据权利要求1所述的方法,其中,所述回归函数为线性函数。
21.根据权利要求1所述的方法,其中,所述回归函数为回归森林。
22.根据权利要求4所述的方法,其中,各专家El的所述选通函数αl是地标位置xk与专家El的所述原型形状的所述地标位置之间的全局对齐误差εl(xk)的softmax变换,其中l∈{1,...,L}:
<mrow>
<msup>
<mi>&alpha;</mi>
<mi>l</mi>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<msup>
<mi>&epsiv;</mi>
<mi>l</mi>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>l</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>L</mi>
</msubsup>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<msup>
<mi>&epsiv;</mi>
<mi>l</mi>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
其中,针对专家El的所述全局对齐误差为
其中,表示全局变换的类,A表示具体变换,并且k对所述方法的迭代进行索引。
23.根据权利要求22所述的方法,其中,所述全局变换的类是所有可能2D仿射变换的类。
24.根据权利要求1所述的方法,其中,使用一组训练数据来学习所述回归函数,所述一组训练数据包括面部的一组N个图像和所述N个图像中的每个图像中的所述面部地标的地面真实位置。
25.根据权利要求3所述的方法,其中,使用一组训练数据来学习所述回归函数,所述一组训练数据组包括面部的一组N个图像和所述N个图像中的每个图像中的所述面部地标的地面真实位置,
其中,通过每个训练图像重复M次来增强所述训练数据,以产生一组经增强的训练数据,
其中,对于所述一组经增强的训练数据中的各图像Ii,对于i=1,…,MN,图像Ii具有位移了偏移量的地面真实地标位置
并且其中,通过使以下L2损失函数最小化来学习所述回归函数,
<mrow>
<mo>{</mo>
<msub>
<mi>W</mi>
<mi>k</mi>
</msub>
<mo>,</mo>
<msub>
<mi>b</mi>
<mi>k</mi>
</msub>
<mo>}</mo>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
</munder>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>M</mi>
<mi>N</mi>
</mrow>
</munderover>
<mo>|</mo>
<mo>|</mo>
<mi>&Delta;</mi>
<msub>
<mover>
<mi>x</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>W</mi>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>x</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>&Delta;</mi>
<msub>
<mover>
<mi>x</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>b</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
以获得线性回归函数参数Wk、bk,其中,Wk和bk分别表示所述回归函数的系数和偏置,并且φ表示所述特征。
26.根据权利要求25所述的方法,其中,随机确定所述偏移量
27.根据权利要求25所述的方法,
其中,在迭代k=1处,随机确定所述偏移量并且
其中,在各迭代k≥2处,所述偏移量是先前迭代之后的残差。
28.根据权利要求4所述的方法,
其中,使用一组训练数据来学习各专家的所述回归函数,所述一组训练数据包括一组N个训练面部图像和所述N个训练面部图像中的每个训练面部图像中的面部地标的地面真实位置,
其中,通过每个训练面部图像重复M次来增强所述训练数据,以产生一组经增强的训练数据,
其中,对于所述一组经增强的训练数据中的各图像Ii,对于i=1,…,MN,图像Ii具有位移了偏移量的地面真实地标位置
其中,对于各专家,通过使以下L2损失函数最小化来学习所述回归函数
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mo>{</mo>
<msubsup>
<mi>W</mi>
<mi>k</mi>
<mi>l</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>b</mi>
<mi>k</mi>
<mi>l</mi>
</msubsup>
<mo>}</mo>
<mo>=</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>arg</mi>
<munder>
<mi>min</mi>
<mrow>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
</mrow>
</munder>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mi>M</mi>
<mi>N</mi>
</mrow>
</msubsup>
<msubsup>
<mi>&alpha;</mi>
<mi>i</mi>
<mi>l</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
<mi>&Delta;</mi>
<msubsup>
<mover>
<mi>x</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
<mi>l</mi>
</msubsup>
<mo>-</mo>
<mi>W</mi>
<mi>&phi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>I</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msubsup>
<mover>
<mi>x</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
<mi>l</mi>
</msubsup>
<mo>-</mo>
<mi>&Delta;</mi>
<msubsup>
<mover>
<mi>x</mi>
<mo>^</mo>
</mover>
<mi>i</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mi>b</mi>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>+</mo>
<mi>&gamma;</mi>
<mo>&lsqb;</mo>
<mo>|</mo>
<mo>|</mo>
<mi>W</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mo>|</mo>
<mo>|</mo>
<mi>b</mi>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mi>F</mi>
<mn>2</mn>
</msubsup>
<mo>&rsqb;</mo>
<mo>,</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,是专家l的所述回归函数的参数,其中,
并且
其中,是将所述地面真实地标位置和位移向量从所述图像的所述坐标系变换到用于专家l的所述原型的所述坐标系中的变换,
其中,是从用于专家l的所述原型的所述坐标系中的经位移的地标位置计算的、用于专家l的分配权重,并且γ是正则化项权重。
29.根据权利要求28所述的方法,其中,在迭代k=1处,随机确定所述偏移量并且其中,在各迭代k≥2处,所述偏移量是先前迭代之后的残差。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/859,469 US9633250B2 (en) | 2015-09-21 | 2015-09-21 | Method for estimating locations of facial landmarks in an image of a face using globally aligned regression |
US14/859,469 | 2015-09-21 | ||
PCT/JP2016/072461 WO2017051608A1 (en) | 2015-09-21 | 2016-07-25 | Method for face alignment |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108027878A true CN108027878A (zh) | 2018-05-11 |
CN108027878B CN108027878B (zh) | 2022-04-12 |
Family
ID=56889122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680053624.7A Active CN108027878B (zh) | 2015-09-21 | 2016-07-25 | 用于面部对齐的方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9633250B2 (zh) |
JP (1) | JP6584629B2 (zh) |
CN (1) | CN108027878B (zh) |
DE (1) | DE112016004266B4 (zh) |
WO (1) | WO2017051608A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184593A (zh) * | 2020-10-14 | 2021-01-05 | 北京字跳网络技术有限公司 | 关键点确定方法、装置、设备和计算机可读介质 |
CN112233207A (zh) * | 2020-10-16 | 2021-01-15 | 北京字跳网络技术有限公司 | 图像处理方法、装置、设备和计算机可读介质 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928405B2 (en) * | 2014-01-13 | 2018-03-27 | Carnegie Mellon University | System and method for detecting and tracking facial features in images |
US10134177B2 (en) * | 2015-01-15 | 2018-11-20 | Samsung Electronics Co., Ltd. | Method and apparatus for adjusting face pose |
US10121055B1 (en) * | 2015-09-08 | 2018-11-06 | Carnegie Mellon University | Method and system for facial landmark localization |
TWI797699B (zh) * | 2015-12-22 | 2023-04-01 | 以色列商應用材料以色列公司 | 半導體試樣的基於深度學習之檢查的方法及其系統 |
CN107103271A (zh) * | 2016-02-23 | 2017-08-29 | 芋头科技(杭州)有限公司 | 一种人脸检测方法 |
JP6563858B2 (ja) * | 2016-06-02 | 2019-08-21 | 株式会社デンソーアイティーラボラトリ | 特徴点位置推定装置、特徴点位置推定システム、特徴点位置推定方法、および特徴点位置推定プログラム |
CN106682598B (zh) * | 2016-12-14 | 2021-02-19 | 华南理工大学 | 一种基于级联回归的多姿态的人脸特征点检测方法 |
US10332312B2 (en) * | 2016-12-25 | 2019-06-25 | Facebook, Inc. | Shape prediction model compression for face alignment |
US11093796B2 (en) * | 2017-03-29 | 2021-08-17 | International Business Machines Corporation | Entity learning recognition |
US10783394B2 (en) | 2017-06-20 | 2020-09-22 | Nvidia Corporation | Equivariant landmark transformation for landmark localization |
JP7200139B2 (ja) | 2017-07-13 | 2023-01-06 | 株式会社 資生堂 | 仮想顔化粧の除去、高速顔検出およびランドマーク追跡 |
CN108875492B (zh) * | 2017-10-11 | 2020-12-22 | 北京旷视科技有限公司 | 人脸检测及关键点定位方法、装置、系统和存储介质 |
US12008464B2 (en) * | 2017-11-16 | 2024-06-11 | Adobe Inc. | Neural network based face detection and landmark localization |
US11170301B2 (en) * | 2017-11-16 | 2021-11-09 | Mitsubishi Electric Research Laboratories, Inc. | Machine learning via double layer optimization |
CN107766851A (zh) * | 2017-12-06 | 2018-03-06 | 北京搜狐新媒体信息技术有限公司 | 一种人脸关键点定位方法及定位装置 |
CN108090470B (zh) * | 2018-01-10 | 2020-06-23 | 浙江大华技术股份有限公司 | 一种人脸对齐方法及装置 |
CN108197593B (zh) * | 2018-01-23 | 2022-02-18 | 深圳极视角科技有限公司 | 基于三点定位方法的多尺寸人脸表情识别方法及装置 |
US20210049793A1 (en) * | 2018-02-02 | 2021-02-18 | Koninklijke Philips N.V. | Correcting standardized uptake values in pre-treatment and post-treatment positron emission tomography studies |
DE102018002224A1 (de) | 2018-03-19 | 2018-08-09 | Daimler Ag | Verfahren sowie System zum Ermitteln von Raumkoordinaten von Landmarken eines Kopfes einer Person |
CN108446672B (zh) * | 2018-04-20 | 2021-12-17 | 武汉大学 | 一种基于由粗到细脸部形状估计的人脸对齐方法 |
US10607108B2 (en) * | 2018-04-30 | 2020-03-31 | International Business Machines Corporation | Techniques for example-based affine registration |
CN109002769A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 一种基于深度神经网络的牛脸对齐方法及系统 |
JP2020018474A (ja) * | 2018-07-31 | 2020-02-06 | 株式会社デンソー | 瞳孔推定装置および瞳孔推定方法 |
US11003892B2 (en) * | 2018-11-09 | 2021-05-11 | Sap Se | Landmark-free face attribute prediction |
US10997473B2 (en) * | 2018-11-27 | 2021-05-04 | International Business Machines Corporation | Object localization based on spatial relationships |
US10846518B2 (en) * | 2018-11-28 | 2020-11-24 | National Yunlin University Of Science And Technology | Facial stroking detection method and system thereof |
US10949649B2 (en) | 2019-02-22 | 2021-03-16 | Image Metrics, Ltd. | Real-time tracking of facial features in unconstrained video |
EP3973449A4 (en) * | 2019-06-11 | 2022-08-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | METHOD AND SYSTEM FOR RECOGNIZING FACIAL FEATURES USING FACIAL COMPONENT-SPECIFIC LOCAL REFINEMENTS |
JP7120258B2 (ja) * | 2019-10-16 | 2022-08-17 | 株式会社デンソー | 行動認識装置、及び行動認識方法 |
CN111161355B (zh) * | 2019-12-11 | 2023-05-09 | 上海交通大学 | 多视图相机位姿和场景的纯位姿解算方法及系统 |
JP7499346B2 (ja) | 2020-03-20 | 2024-06-13 | ヒンジ ヘルス, インコーポレイテッド | 逆運動学に基づいた関節の回転の推測 |
CN111523480B (zh) * | 2020-04-24 | 2021-06-18 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN116150668B (zh) * | 2022-12-01 | 2023-08-11 | 中国矿业大学 | 一种基于双级对齐部分迁移网络的旋转设备故障诊断方法 |
CN117315745B (zh) * | 2023-09-19 | 2024-05-28 | 中影年年(北京)科技有限公司 | 基于机器学习的面部表情捕捉方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080310759A1 (en) * | 2007-06-12 | 2008-12-18 | General Electric Company | Generic face alignment via boosting |
WO2009152430A2 (en) * | 2008-06-12 | 2009-12-17 | Repligen Corporation | Methods of treatment of bipolar disorder |
CN101763507A (zh) * | 2010-01-20 | 2010-06-30 | 北京智慧眼科技发展有限公司 | 人脸识别方法及人脸识别系统 |
US20120195495A1 (en) * | 2011-01-31 | 2012-08-02 | Derek Shiell | Hierarchical Tree AAM |
JP2013228765A (ja) * | 2012-04-24 | 2013-11-07 | General Electric Co <Ge> | イメージ位置合わせのための最適勾配追求 |
CN103443804A (zh) * | 2011-03-31 | 2013-12-11 | 英特尔公司 | 面部标志检测方法 |
CN103577815A (zh) * | 2013-11-29 | 2014-02-12 | 中国科学院计算技术研究所 | 一种人脸对齐方法和系统 |
US20140185924A1 (en) * | 2012-12-27 | 2014-07-03 | Microsoft Corporation | Face Alignment by Explicit Shape Regression |
CN104050628A (zh) * | 2013-03-11 | 2014-09-17 | 佳能株式会社 | 图像处理方法和图像处理装置 |
US20140355821A1 (en) * | 2013-06-04 | 2014-12-04 | Apple Inc. | Object Landmark Detection in Images |
US20150169938A1 (en) * | 2013-12-13 | 2015-06-18 | Intel Corporation | Efficient facial landmark tracking using online shape regression method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928406B2 (en) * | 2012-10-01 | 2018-03-27 | The Regents Of The University Of California | Unified face representation for individual recognition in surveillance videos and vehicle logo super-resolution system |
US9928405B2 (en) * | 2014-01-13 | 2018-03-27 | Carnegie Mellon University | System and method for detecting and tracking facial features in images |
US9317785B1 (en) * | 2014-04-21 | 2016-04-19 | Video Mining Corporation | Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers |
KR102077260B1 (ko) * | 2014-08-08 | 2020-02-13 | 삼성전자주식회사 | 확룔 모델에 기반한 신뢰도를 이용하여 얼굴을 인식하는 방법 및 장치 |
KR101997500B1 (ko) * | 2014-11-25 | 2019-07-08 | 삼성전자주식회사 | 개인화된 3d 얼굴 모델 생성 방법 및 장치 |
-
2015
- 2015-09-21 US US14/859,469 patent/US9633250B2/en active Active
-
2016
- 2016-07-25 CN CN201680053624.7A patent/CN108027878B/zh active Active
- 2016-07-25 JP JP2018500757A patent/JP6584629B2/ja active Active
- 2016-07-25 WO PCT/JP2016/072461 patent/WO2017051608A1/en active Application Filing
- 2016-07-25 DE DE112016004266.3T patent/DE112016004266B4/de active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080310759A1 (en) * | 2007-06-12 | 2008-12-18 | General Electric Company | Generic face alignment via boosting |
WO2009152430A2 (en) * | 2008-06-12 | 2009-12-17 | Repligen Corporation | Methods of treatment of bipolar disorder |
CN101763507A (zh) * | 2010-01-20 | 2010-06-30 | 北京智慧眼科技发展有限公司 | 人脸识别方法及人脸识别系统 |
US20120195495A1 (en) * | 2011-01-31 | 2012-08-02 | Derek Shiell | Hierarchical Tree AAM |
CN103443804A (zh) * | 2011-03-31 | 2013-12-11 | 英特尔公司 | 面部标志检测方法 |
JP2013228765A (ja) * | 2012-04-24 | 2013-11-07 | General Electric Co <Ge> | イメージ位置合わせのための最適勾配追求 |
US20140185924A1 (en) * | 2012-12-27 | 2014-07-03 | Microsoft Corporation | Face Alignment by Explicit Shape Regression |
CN104050628A (zh) * | 2013-03-11 | 2014-09-17 | 佳能株式会社 | 图像处理方法和图像处理装置 |
US20140355821A1 (en) * | 2013-06-04 | 2014-12-04 | Apple Inc. | Object Landmark Detection in Images |
CN103577815A (zh) * | 2013-11-29 | 2014-02-12 | 中国科学院计算技术研究所 | 一种人脸对齐方法和系统 |
US20150169938A1 (en) * | 2013-12-13 | 2015-06-18 | Intel Corporation | Efficient facial landmark tracking using online shape regression method |
Non-Patent Citations (3)
Title |
---|
CAO XUDONG ET AL: "Face Alignment by Explicit Shape Regression", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 * |
KAZEMI VAHID ET AL: "One Millisecond Face Alignment with an Ensemble of Regression Trees", 《2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
XUDONG CAO ET AL: "Face alignment by Explicit Shape Regression", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184593A (zh) * | 2020-10-14 | 2021-01-05 | 北京字跳网络技术有限公司 | 关键点确定方法、装置、设备和计算机可读介质 |
CN112233207A (zh) * | 2020-10-16 | 2021-01-15 | 北京字跳网络技术有限公司 | 图像处理方法、装置、设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
DE112016004266T5 (de) | 2018-07-05 |
CN108027878B (zh) | 2022-04-12 |
US9633250B2 (en) | 2017-04-25 |
WO2017051608A1 (en) | 2017-03-30 |
DE112016004266B4 (de) | 2024-06-06 |
JP6584629B2 (ja) | 2019-10-02 |
US20170083751A1 (en) | 2017-03-23 |
JP2018520444A (ja) | 2018-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108027878B (zh) | 用于面部对齐的方法 | |
Dai et al. | A 3d morphable model of craniofacial shape and texture variation | |
Sun et al. | Compositional human pose regression | |
CN108460338B (zh) | 人体姿态估计方法和装置、电子设备、存储介质、程序 | |
Bône et al. | Learning distributions of shape trajectories from longitudinal datasets: a hierarchical model on a manifold of diffeomorphisms | |
Xiong et al. | Supervised descent method for solving nonlinear least squares problems in computer vision | |
Guo et al. | A generalized and robust method towards practical gaze estimation on smart phone | |
EP1057137A1 (en) | Rapid convolution based large deformation image matching via landmark and volume imagery | |
US20170154214A1 (en) | Locating and tracking fingernails in images | |
CN109544603B (zh) | 基于深度迁移学习的目标跟踪方法 | |
JP2008544404A (ja) | 薄板スプライン変換を用いて非剛体運動をモデル化するための直接的方法 | |
US9489768B2 (en) | Semantic dense 3D reconstruction | |
Brunet et al. | Feature-driven direct non-rigid image registration | |
CN108335327B (zh) | 摄像机姿态估计方法和摄像机姿态估计装置 | |
Mohd Asaari et al. | Adaptive Kalman Filter Incorporated Eigenhand (AKFIE) for real-time hand tracking system | |
CN108154176B (zh) | 一种针对单一深度图像的3d人体姿态估计算法 | |
CN111260702B (zh) | 激光三维点云与ct三维点云配准方法 | |
Wang et al. | Joint head pose and facial landmark regression from depth images | |
Costen et al. | Sparse models for gender classification | |
CN109886091B (zh) | 基于带权重局部旋度模式的三维人脸表情识别方法 | |
Krüger et al. | Statistical appearance models based on probabilistic correspondences | |
WO2015068417A1 (ja) | 画像照合システム、画像照合方法およびプログラム | |
Barthélemy et al. | Decomposition and dictionary learning for 3D trajectories | |
Langs et al. | Modeling the structure of multivariate manifolds: Shape maps | |
Zimmer et al. | Imposing temporal consistency on deep monocular body shape and pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |