CN108027878A

CN108027878A - 用于面部对齐的方法

Info

Publication number: CN108027878A
Application number: CN201680053624.7A
Authority: CN
Inventors: O·图兹尔; T·马克斯; S·丹部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-09-21
Filing date: 2016-07-25
Publication date: 2018-05-11
Anticipated expiration: 2036-07-25
Also published as: DE112016004266T5; CN108027878B; US9633250B2; WO2017051608A1; DE112016004266B4; JP6584629B2; US20170083751A1; JP2018520444A

Abstract

一种用于面部对齐的方法通过以下处理对面部图像和一组初始地标位置进行操作：首先使初始位置全局地对齐到具有原型形状的面部的一组地标位置，以获得全局对齐参数，然后根据全局对齐参数，从图像的坐标系向原型形状的坐标系扭曲初始位置和图像，以获得扭曲后的地标位置和扭曲后的面部图像。在扭曲后的地标位置处从扭曲后的面部图像提取特征，并且向特征应用回归函数，以获得在原型形状的坐标系中的更新后的地标位置。最后，原型形状的坐标系中的更新后的地标位置扭曲到图像的坐标系，以获得更新后的地标位置。

Description

用于面部对齐的方法

技术领域

本发明总体涉及计算机视觉及其应用，并且更具体地涉及对齐图像中的面部。

背景技术

如领域中众所周知的，面部对齐是指确定与一组预定义面部地标对应的图像中的像素的位置。各地标与诸如鼻子的尖端、眼角、眉毛的拱以及嘴唇的弯曲部这样的特定面部特征关联。

面部对齐对于诸如面部识别、面部跟踪、面部姿态估计、面部表情分析和面部建模以及人机界面(HCI)这样的许多计算机视觉应用通常是重要的。另外，面部对齐在诸如驾驶员监测和高级驾驶员辅助系统(ADAS)这样的车辆相关用途中是有用的。面部对齐由于诸如姿态、面部表情、照明以及遮挡的因素的大变化而是难题。

面部对齐的先前方案使用诸如主动形状模型(ASM)、主动外观模型(AAM)或受约束局部模型(CLM)这样的各种方法。CLM具有对地标的位置(例如子空间形状模型)的明确联合约束，其约束地标相对于彼此的位置。基于CLM，Gauss-Newton可变形部分模型(GN-DPM)使用Gauss-Newton优化联合地拟合外观模型和全局形状模型。

近来，面部对齐中的关注点已经转移到辨别方法。这些方法的显著特征是学习明确的回归函数。回归函数基于在先前估计的面部地标位置提取的特征来更新地标位置的估计。

基于树的回归方法可以快速估计地标位置。在一个基于树的方法中，使用随机森林回归可以学习一组局部二元特征以联合地学习用于地标位置的最终估计的线性回归函数。随机森林回归在训练时构造大量决策树。另一个方法使用梯度推进树算法来学习回归树的全体。

在有监督下降法(SDM)中，回归函数的级联对利用尺度不变特征变换(SIFT)提取的特征进行操作，以迭代地更新估计地标位置。在SDM中，没有明确的面部形状约束存在于地标的位置上。这不是理想的，因为相邻面部地标的位置在回归期间会漂移散开。

此外，在SDM中，同一线性回归函数必须跨包括平面内和平面外头部旋转这两者在内的面部表情和姿态的所有可能变化上工作。这需要大的且变化的训练数据集，而且要求所学习的回归函数为通用的，从而限制了精度。

发明内容

本发明的实施方式提供了一种使用全局对齐回归来进行面部对齐的方法，即，估计图像中的面部地标的位置。该方法被称为全局对齐的有监督下降法(GA-SDM)。GA-SDM作为K个阶段的级联(还被称为迭代)来操作，其中，各阶段包括全局对齐步骤和回归函数。

方法例如使用摄像头或获得先前捕捉的图像来获取图像。对方法的输入包括一组地标位置的初始估计，被称为初始地标位置。将该一组初始地标位置全局地对齐到具有原型形状的面部的一组地标位置，以获得全局对齐参数。根据全局对齐参数，将一组初始地标位置和图像从图像的坐标系扭曲到原型形状的坐标系，以获得扭曲后的地标位置和扭曲后的面部图像。

在扭曲后的地标位置处从扭曲后的面部图像提取特征。对特征应用回归函数，以获得在原型形状的坐标系中的更新后的地标位置。然后，将原型形状的坐标系中的更新后的地标位置扭曲到图像的原始坐标系，以获得在所获取图像中的更新后的地标位置。

为了提高对齐精度，优选实施方式在各迭代处使用不同回归函数的同时将步骤重复K个迭代。

地标位置可以用于若干应用中，包括：人机交互、视频会议、游戏、动画片、视线跟踪、情感分析以及健康监测；诸如驾驶员监测和高级驾驶员辅助系统(ADAS)的汽车相关用途；以及包括面部识别、面部表情识别和合成以及超分辨率成像的大量计算机视觉任务。在存在面部表情的大变化和姿态的大变化(例如，被称为平面内旋转的图像平面内的旋转和被称为平面外旋转的图像平面外的旋转)时，面部对齐特别具有挑战性。

为了解决该问题，本发明的一些实施方式提供在下文中被简称为“专家”的L个GA-SDM回归专家的混合。各专家E^l(其中，l∈{1，…，L})对于级联的K个阶段中的每个阶段包括不同的回归函数{W,b}，其中，W和b分别表示回归函数的系数和偏置。

各专家具有用于全局对齐地标位置的自己的原型形状(例如，鼻子尖端和眼角)。这使得各专家能够在姿态和表情的联合空间的不同部分中专门化。在一些实施方式中，在级联的各阶段处对于各专家学习单独的回归模型。一些实施方式还在区分性对齐框架内提供变形约束，以提高精度。

方法所用的特征可以包括：

(1)在回归的各迭代之前的全局对齐步骤，其使方法对于已定义的全局变换的指定类不变；

(2)特征向量的扩展，其使得回归能够对从原型面部形状的特征位置的偏差进行处罚；

(3)在级联的各阶段处的专家混合回归，其中，各专家具有自己的回归函数，该回归函数被专门化以对齐输入数据的不同子集，例如，姿态和表情的特定范围；以及

(4)用于学习由专家使用的原型面部形状的仿射不变聚类过程。

附图说明

[图1]图1是根据本发明的实施方式的用于图像的面部对齐的示意图。

[图2A]图2A是根据本发明的实施方式的使用我们的GA-SDM方法的第k个迭代的用于面部对齐的方法的流程图；

[图2B]图2B是与图2A所示的方法对应的伪代码的框图；

[图3]图3是根据本发明的实施方式的使用GA-SDM的K个迭代的面部对齐的流程图；

[图4A]图4A是根据本发明的实施方式的应用GA-SDM回归专家(下文中为“专家”)的混合的一个迭代的流程图；

[图4B]图4B是各为特定姿态或面部表情特化的专家的混合的示意图；以及

[图4C]图4C是图4A的方法的K个迭代的伪代码的框图。

具体实施方式

如图1所示，我们发明的实施方式提供了一种使用全局对齐回归的用于面部对齐的方法100。在本领域中，面部对齐是指确定与一组面部地标对应的图像中的像素的位置的处理。各地标与诸如鼻子的尖端、眼角以及眉毛角和嘴唇角的这样面部上的特定位置关联。如果地标位置不正确，那么面部对齐将地标位置大致更新到它们在图像中的正确位置。

对方法的输入101是图像I和与图像关联的一组初始地标位置x₁。图像可以由摄像头来获取106或由其他手段或从其他源来获得，例如，存储器转移或无线或无线通信。这里所描述的方法和过程基本上对图像和一组初始地标位置进行操作。

初始地标位置可以被人工标记或自动标记，例如使用面部部分检测算法或面部检测算法。在后者的情况下，初始地标位置是来自一组训练面部图像的各地标的平均位置，该一组训练面部图像被平移并缩放以适合边界框。注意，不需要精确标记地标的初始位置。

初始地标位置x₁ 101表示图像I中的每个面部地标的位置的初始估计。在对齐之后，对齐后的地标位置x_K+1 102被示出为叠加在面部的图像I上。

图2A示出了根据本发明的实施方式的使用全局对齐和回归的GA-SDM 200的我们称为阶段k的一个迭代的流程图。使图像I中的初始地标位置x_k101全局对齐110到原型面部形状103的地标位置，以产生对齐参数A_k 111。在优选实施方式中，如下所述，从训练图像学习原型面部形状。在其他实施方式中，原型面部形状例如可以从现有2D或3D面部模型来获得或调整。

根据对齐参数A_k111扭曲120图像I和地标位置x_k，以产生在原型面部形状的坐标系中表达的图像I′和地标位置x′_k 121。这些位置用于从在原型面部形状的坐标系中表达的扭曲后的图像I′提取130特征φ′_k＝φ(I′，x′_k)131。

应用140第k个回归函数，以产生在原型面部形状的坐标系中的更新后的地标位置x′_k+1141。然后使用表示利用参数A_k的对齐变换的倒数的将更新后的地标位置扭曲回图像的坐标系。这产生在原始图像I的坐标系中的更新后的地标位置x_k+1 151。如本领域中已知的，图2A和其他附图所示的步骤可以在连接到存储器和输入/输出接口的处理器中执行。

图2B示出了与图2A中的流程图对应的用于GA-SDM的一个迭代(阶段k)的伪代码。这里和附图中描述用于伪代码中的步骤和变量。

如图3所示，为了更佳对齐在各阶段处使用不同回归函数将GA-SDM过程迭代104K次。方法在阶段k＝1处利用输入图像I和图像中的地标位置的初始估计x₁ 101开始。这些用作对GA-SDM的第一阶段(即，GA-SDM的阶段k 200，其中，k＝1)的输入105。将GA-SDM迭代K个阶段(K≥1)。阶段k的输出是地标位置的更新后的估计x_k+1 151。在k<K时，将阶段数k增量1，并且先前阶段的输出x_k+1 151变成当前阶段的输入x_k105。在GA-SDM的阶段K结束时(在k＝K时)，更新后的地标位置x_k+1 151用作GA-SDM的最终输出、对齐后的地标位置x_K+1 102。

图4A是根据本发明的优选实施方式的、应用GA-SDM回归专家(下文中为“专家”)的混合的一个迭代(阶段k)。存在L个专家E^l，各专家具有其自己的原型形状154，其中，l∈{1，…，L}。对于图像I和地标位置x_k105，计算160选通函数α^l(x_k)161。使用GA-SDM的一个阶段(阶段k)200由各专家E^l对齐155地标位置x_k，以获得在原始图像I的坐标系中表达的更新后的地标位置156。然后，确定170专家的输出的加权平均，以产生更新后的地标位置x_k+1171。

图4B示意性示出了5个原型面部形状190，其分别与L＝5个专家对应，各专家对于特定范围的姿态或面部表情专门化。箭头180示出了将各图像的地标位置的权重分配给五个专家。

我们的方法与现有技术的有监督下降法(SDM)的关联在于：优选实施方式对在当前估计的特征位置处计算的尺度不变特征变换(SIFT)特征执行回归的级联。

我们的方法以多个方式改进了现有技术的SDM。在传统SDM中，所学习的线性回归函数必须能够应对宽范围的输入姿态中的面部。

相反，我们在回归步骤之前，在级联的各阶段处使用全局对齐步骤，这使得我们的方法对于全局变换的整个类不变。在一些实施方式中，我们使用所有可能2D仿射变换的类。因此，我们的回归函数不需要修正姿态的许多全局变化，使得回归函数可以被微调以应对地标位置的较小的变化。

传统SDM没有用于联合地限制多个地标的位置的明确全局约束。我们的方法通过处罚地标位置与原型面部形状的偏差来解决该问题。我们通过将特征向量扩展为包括由确定模型的刚性的标量加权的、原型地标位置与当前估计的地标位置之间的差异在回归框架中实现了这一点。面部形状(即，地标位置)的该全局正则化防止了特征漂移散开。

为了进一步提高我们模型应对姿态和表情的变化的灵活性，我们用专家混合线性回归函数替换级联的各阶段处的简单线性回归函数。混合中的各专家与不同的原型面部形状对应，例如，各专家函数可以应对不同范围的平面外头部旋转和面部表情。

我们现在描述与我们的方法有关的传统有监督下降法(SDM)和这里所用的标记。

假设I为面部的图像，并且假设x为图像坐标中的p个面部地标的位置的2p×1向量。在x中的p个地标位置的每个地标位置处，提取d维特征向量，例如，d＝128。假设φ(I,x)为pd×1合并特征向量，其为从地标位置x处的图像I提取的p个特征描述符的联结。在一些实施方式中，特征是尺度不变特征变换(SIFT)特征。在其他实施方式中，特征是有向梯度直方图(HOG)特征。

在给定图像I中的地标位置x_k的当前估计的情况下，SDM将对齐问题公式化为确定更新向量Δx，使得在更新后的一组地标位置x_k+Δx处确定的特征较好地匹配在图像中的一组地面真实地标位置处确定的特征。

对应的误差可以被表达为更新向量Δx的函数：

其中，函数f可以由Newton法来最小化。这需要计算Hessian函数和Jacobian函数，为此要求f可两次微分。然而，该可微分性条件无法总是保持，并且在φ是SIFT运算符时明确地不保持。因此，该方法需要Jacobian和Hessian矩阵的在计算上复杂的数值计算，并且所得到的最小化过程的收敛是缓慢的。

这通过使用所学习的下降方向来连续更新x_k在SDM中来解决，而不是明确的Hessian和Jacobian计算。用于计算所学习的下降方向的线性函数和特征向量的形式的动机遵循Newton法。

对(1)的二阶Taylor近似为：

其中，J_f是f关于x的Jacobian矩阵，并且H是f的Hessian矩阵。由链式法则，

其中，J_φ是φ关于x的Jacobian，并且我们定义φ_k＝φ(I,xk)。

Newton步骤为：

其中，我们省略来自Hessian和Jacobian的自变量x_k，以强调对φ_k的依赖。

算式(4)由以下多元线性回归来近似：

Δx＝W_kφ_k+b_k， (5)

其中，系数W_k和偏置b_k不依赖x_k的值。

SDM使用训练数据来学习K个线性回归{W_k,b_k}的级联，其中，k＝1,…,K。然后，通过向在由级联的先前阶段输出的地标位置处计算的特征依次应用所学习的回归来实现对齐：

为了学习回归{W_k,b_k}，通过将每个训练图像重复M次来增强训练数据中的N个面部图像，每次将地面真实地标位置扰动不同的随机位移。针对具有地面真实地标位置的增强后的训练集(I＝1,…,MN)中的各图像I_i，地标被扰动随机位移然后通过使L₂损失函数最小化来学习第一回归函数(k＝1)：

不是使用随机扰动，为了训练稍后的回归{W_k,b_k}_k＝2,…,K，更新向量是回归级联的先前阶段之后的残差。

我们现在描述我们的模型。我们的模型大幅改进了现有技术的对齐精确性和鲁棒性。优选实施方式使用：

回归的各阶段之前的全局对齐步骤；

对回归的所学习的变形约束；以及

在级联的各阶段处的专家回归的混合，而不是单个线性回归。

全局对齐

为了使传统SDM中的回归函数学习对于各种面部姿态和表情对齐面部地标，训练数据必须包含覆盖可能变化的空间的面部的足够示例。

虽然能够在任意姿态处对齐面部是期望特性，但学习这种函数需要收集(或合成)包含所有可能面部姿态的训练数据。另外，学习当在训练集中存在大变化时是更困难的任务，因此需要足够复杂的回归模型(功能形式和特征数)，或者对齐方法为了对齐所有这些姿态而损害精度。

一般说来，提高模型的复杂性导致较差的泛化性能。这暗示了学习对于有限范围的姿态对齐面部的较简单或较正则化的模型对于这些姿态可以比在所有姿态上进行了训练的一般对齐模型效果好地执行。

作为简单示例，考虑使用面部的单个直立图像训练的回归函数，而不是使用面部图像的多个平面内旋转训练的回归函数。在前者的情况下，回归函数必须对于直立姿态具有根，而在后者的情况下，回归函数必须对于每个平面内旋转具有根。

我们的关于全局对齐的目标是在仍然能够对齐任意姿态中的面部的同时，在姿态的较小组上训练各回归。为此，我们在各阶段的回归函数之前应用全局对齐步骤。

全局对齐的有监督下降法(GA-SDM)

图2A、图2B以及图3示出了我们称为全局对齐的有监督下降法(GA-SDM)的、使用全局对齐和回归来对齐面部的我们的方法。图2A示出了方法的一个迭代(阶段k)的步骤的流程图，并且图2B示出了对应的伪代码。

图3示出了用于(具有K个阶段的)整个GA-SDM方法的流程图。如本领域中已知的方法中的步骤可以在连接到存储器和输入/输出接口的处理器中执行。这里描述用于伪代码中的所有变量。

我们将图2A和图2B中描述的方法称为GA-SDM的一个阶段(阶段k)。这是因为在优选实施方式中，将方法迭代K次(其中，K≥1)，并且各迭代k被称为GA-SDM的阶段k。图3示出了包括K个阶段的整个GA-SDM方法。然而，图2A和图2B中描述的方法可以作为单独的方法仅执行一次，这是K＝1的GA-SDM的特殊情况。

对GA-SDM的阶段k的输入是原型面部形状103的地标位置的向量、由{W_k，b_k}定义的线性回归函数、面部的图像I以及图像中的已识别的面部地标的初始位置x_k，其中，如以下进一步描述的，W_k和b_k分别表示回归函数的系数和偏置。

原型面部形状103是包含p个面部地标的位置的2p×1向量。在一些实施方式中，原型形状包括为了使所有图像共享规范位置和尺度而向各训练图像应用了均匀尺度和平移变换之后的、一组训练数据上的各地标的平均位置。

优选实施方式如以下所描述的使用仿射变换作为用于全局对齐的函数的类，尽管其他实施方式可以使用全局变换的其他类。在回归的各阶段k，我们确定110仿射变换A_k111，其将由回归的先前阶段估计的地标位置x_k变换，以使到距原型地标位置x的平方距离之和最小化：

其中，A表示所有仿射变换的组。

我们使用变换A_k来将图像I和地标位置x_k 101扭曲120到原型形状坐标系中：I′＝A_k(I)并且x′_k＝A_k(x_k)。请注意，我们在这里通过将同一仿射变换运符A_k用于对地标位置的向量的变换A_k(x_k)以及图像的扭曲A_k(I)这两者来稍微地滥用该标记。

接着，我们从在原型坐标系中的估计地标位置x′_k处的扭曲后的图像I′提取130特征，例如SIFT特征，并且应用140线性回归

x′_k+1＝x′_k+W_kφ(I′，x′_k)+b_k. (9)

然后，我们使用(变换A_k的倒数)扭曲150回到图像坐标。我们输出由给出的在图像坐标系中的更新后的地标位置151。

在一些实施方式中，线性回归140可以被其他回归函数替换，诸如核回归、树回归、回归森林或神经网络回归。

学习变形约束

用于跟踪地标位置的传统SDM对相邻地标的回归行为没有明确约束，这引入了地标可能漂移散开的可能性。通常，这将为通过引入对地标的自由形式变形的明确约束或处罚而在优化设置中处理的简单问题。

不是使用可能缓慢的优化过程，我们希望维持使用回归函数的正向预测的速度优点。为了在回归框架内实现约束的效果，我们使用允许回归模型学习来约束地标位置的附加特征。

我们使用算式(1)中的成本项的形式的软约束：

在地标位置从原型形状漂移时要求二次处罚。权重λ控制对位置从原型形状的偏差的约束的严格性。在受约束优化中，“软”约束是以不满足约束的量进行处罚的项。

用于该受约束f的Newton步骤是

其中，H是f_c的关于x的Hessian矩阵，并且J_φ是φ的关于x的Jacobian。正如我们通过(5)对(4)进行近似，我们可以通过线性回归函数近似该受约束Newton步骤(11)：

其中，受约束特征向量为

如在无约束SDM中，我们可以使用训练数据来学习回归系数W_k和偏置b_k。受约束算式(12)与算式(5)中的无约束回归模型之间的唯一差异在于：在受约束版本中，我们将特征向量扩展为包括附加特征其对地标位置从原型形状地标位置的偏差进行编码。

受约束回归通过学习用于所关联的回归系数的负值来学习以使地标位置朝原型形状移动。所学习的系数的范数对于级联的初始回归阶段较大，但在稍后的阶段中较小，这随着地标位置收敛到它们的最终值而对变形加以较弱的约束。

注意，可以将权重λ并入到W_k中，并且将并入到b_k中，并且仅展开具有x_k的特征向量φ*而不是然而，我们保持如算式(13)的差分向量形式，这对于以下所描述的正则化训练变得重要。

为了统一标记，将所展开的特征向量φ*简称为φ。这样，算式(5-9)、图2A以及图2B的算法1在不修改的情况下应用于受约束模型。使用φ的以下算式可以类似地被认为适用于受约束模型。

注意，优选实施方式使用所展开的特征向量作为我们的GA-SDM的一部分，而不是将其用作SDM的简单扩展。由此，在优选实施方式中，如在算式(9)中，在原型坐标系中的地标位置x′_k(即，扭曲后的地标位置)处从扭曲后的图像I′提取特征φ(I′，x′_k)。由此，在优选实施方式中，所展开的特征向量中的附加特征实际上具有形式其对扭曲后的地标位置x′_k从原型形状地标位置的偏差进行编码。

GA-SDM回归专家的混合

以上所描述的全局对齐允许我们的模型学习对于面部的仿射变换不变的回归函数。仍然，面部图像数据中的剩余变化，例如由于面外旋转和面部表情而产生的，大至足以使单个回归函数精确地对齐所有面部具有挑战性。

特别地，通常的图像训练集包括比具有大的平面外旋转或极端表情的面部更多的、具有中性面部表情的正面面部。因此，从这些训练数据得到的原型面部(例如，平均面部)非常接近于具有中性表情的正面面部，并且回归函数倾向于对于较极端的姿态和表情不那么良好地工作。

优选实施方式使用专家混合回归模型，其中，各专家具有对于可能姿态和表情的不同子集专门化的回归函数。各专家的子集由用于该专家的原型形状来确定。我们构造L个原型形状使得数据集中的N个面部中的每个面部的地面真实地标位置与原型形状地标中的一个原型形状地标良好地对齐。原型形状的确定可以被表达为优化问题

其中，各是2p×1向量，其表示可能的原型形状，即，p个面部地标的位置。

表示整个变换类，例如，一组所有可能仿射变换，而A表示是作为该组的成员的一个具体变换。

如果变换类仅包含恒等变换，那么该问题简化为基于地标位置的对训练样本的Euclidean聚类。

在是仿射变换类时，我们将这称为仿射不变聚类。在这种情况下，算式(14)是同质优化问题，其中，为了避免零解，需要对原型形状或变换的另外约束，在零解中给所有变换和原型形状分配零。而且，由于形状的联合优化和训练样本到形状的分配，目标函数是非凸的。我们将该问题分为两个凸子问题，我们通过迭代来对其求解。

第一子问题经由下式向原型形状中的一个原型形状分配每个训练面部图像n：

假定原型形状为固定的。该问题可以对于各训练面部独立地求解。最优分配是面部的地面真实地标位置可以以最小的对齐误差仿射对齐到的原型形状。

第二子问题对于原型形状求解。各原型形状包括在被分配到该原型形状的所有训练面部的地面真实位置上使平方仿射对齐误差的和最小化的地标位置：

为了避免退化，我们使用对原型形状的线性约束。在一些实施方式中，这些约束要求例如如右眉毛的地标的平均位置，左眉毛的地标的平均位置以及嘴唇地标的平均垂直位置是固定的。这些约束可以通过以下方式使用算式(17)来表达：选择矩阵C和向量m，使得矩阵C的行从地标位置的向量选择眉毛和嘴唇地标的坐标，并且与矩阵C的行对应的向量m的行对固定平均位置编码。该优化是具有线性约束的二次问题，其中，通过对线性系通求解来计算最优解。交替对两个优化子问题求解，直到分配不变化为止；通常，20-30个迭代对于收敛是足够的。

图4C示出了根据本发明的优选实施方式的作为用于应用GA-SDM回归专家(下文中为“专家”)的混合的方法的伪代码算法2。方法包括我们称为级联的阶段的K个迭代。

图4A示出了方法的、我们称为阶段k的一个迭代的流程图。对阶段k的输入是图像I和初始地标位置x_k 105。对于各专家E^l(其中，l＝1，...，L)，应用155我们的GA-DSM的阶段k200，以产生各专家的更新后的地标位置156。如以下详细描述的，根据算式(20)和(21)确定分配α^l(x_k)161，并且将L个专家的输出的加权平均170确定为：

这在以下将被作为算式(22)来说明。然后，输出171更新后的地标位置x_k+1。

各专家E^l与L个原型形状中的一个原型形状对应：l∈{1,…,L}。在回归级联的各阶段，对于各专家E^l存在单独的回归。因此，除了原型形状位置之外，各专家E^l对于级联的K个阶段中的每个阶段具有回归函数

在级联的各阶段k，各专家E^l将该专家的原型形状位置和回归函数用作输入来执行算法1(图2B)，即，GA-SDM的阶段k：

算法(19)中的标记指示被提供作为算法1(其为GA-SDM的阶段k，如图2B中详细说明的)的输入，并且是得到的输出。用于各专家E^l的选通函数是由地标位置x_k与各原型形状的地标位置之间的全局对齐误差ε^l(x_k)的softmax变换给出的软分配α^l(x_k)。软分配使用下式来计算：

其中，并且 (21)

softmax函数返回在范围(0,1)内的实数值。

这里，如在算式(8)中，表示一组所有仿射变换。在一些实施方式中，可以表示全局变换的不同类。得分α^l(x_k)的高值指示位置x_k的当前估计接近于第l个专家的原型形状，并且因此，从E^l获得的回归结果被分配高的权重。在图4B中，我们示出了向模型中的专家分配两个面部的权重。

在级联的各阶段k，我们的专家混合对齐方法向地标位置x_k的起始估计应用每个专家的回归函数，然后根据选通函数α^l(x_k)对输出求平均，以获得地标位置x_k+1的更新后的估计：

训练专家

在优选实施方式中，使用训练数据来学习专家的回归函数，该训练数据包括一组N个面部图像和这N个图像中的每个图像中的面部地标的地面真实位置。为了学习专家E^l的回归函数，通过将每个训练图像重复M次来增强训练数据中的N个面部图像，每次将地面真实地标位置扰动不同的随机位移。针对具有地面真实地标位置的增强后的训练集(I＝1,…,MN)中的各图像I_i，我们将地标位移随机偏移量对于每个专家E^l，我们使用算式(20)和(21)来计算到原型形状的第i个样本的已扰动地标位置的软分配

在计算该软分配的同时，我们假设表示将第i个样本的经扰动的地标位置最佳地对齐到原型形状的地标位置的来自算式(21)的全局(仿射)变换。我们使用来将地面真实地标位置和位移向量变换到专家E^l的原型坐标系中：

然后通过使Tikhonov正则化L₂损失函数最小化来学习第一回归函数(k＝1)：

对于各l和k，可以选择正则化项权重γ，例如使用2倍交叉验证经由在对数空间中进行网格搜索。

不是使用随机扰动，为了训练稍后的回归{W_k,b_k}_k＝2,…,K，目标是级联的先前阶段的残差。

在训练中，回归函数可以对于产生大残差的一些样本发散。为了避免拟合这些离群值，在各阶段k，我们从训练集去除具有最大残差的样本的2％。我们通过训练直到无法进一步降低交叉验证误差为止，来选择回归阶段K的数量。

通过沿着训练集的主变形方向随机扰动地面真实面部位置来生成训练样本，这些方向经由主分量分析来确定。另外，我们向地标位置应用随机旋转、平移以及各向异性缩放，并且添加i.i.d.(独立并且等同分布的)Gaussian噪声。在学习用于该训练集的级联模型(通常K＝3-4个阶段)之后，我们使用仅由小量的i.i.d.Gaussian噪声构成的训练集来学习级联模型，并且将该模型附加到原始模型。第二模型具有1-2个阶段，并且改善了精密对齐。

本发明的有益效果

描述了由一个或更多个(K≥1)步骤构成的精确的面部对齐方法，各个步骤包括全局对齐，之后是回归。另外，我们描述了L个GA-SDM回归专家的混合。通过将地标位置全局对齐到其原型形状并学习定制的回归模型，各专家在姿态和表情的联合空间的不同部分中专门化。我们还提出了一种在区分性的对齐框架内包括变形约束的方法。范围广泛的评价示出了所提出的方法大幅改善了现有技术。

Claims

1.一种用于面部对齐的方法，该方法包括以下步骤：

获取面部的图像和与所述图像关联的一组初始地标位置；

将所述一组初始地标位置全局地对齐到具有原型形状的面部的一组地标位置，以获得全局对齐参数；

根据所述全局对齐参数，将所述一组初始地标位置和所述图像从所述图像的坐标系扭曲到所述原型形状的坐标系，以获得扭曲后的地标位置和扭曲后的面部图像；

在所述扭曲后的地标位置从所述扭曲后的面部图像提取特征；

对所述特征应用回归函数，以获得在所述原型形状的所述坐标系中的更新后的地标位置；以及

将在所述原型形状的所述坐标系中的所述更新后的地标位置扭曲到所述图像的所述坐标系，以获得在所述图像中的更新后的地标位置，其中，所述步骤在处理器中执行。

2.根据权利要求1所述的方法，所述方法还包括：

将权利要求1的所述步骤应用达K个迭代，其中，K≥1，其中，所述图像用于所有迭代，并且其中，在各迭代K>1处，所述一组初始地标位置是在迭代k-1期间使用的所述图像中的所述更新后的地标位置。

3.根据权利要求2所述的方法，其中，所述专家回归函数在各迭代k处不同。

4.根据权利要求1所述的方法，还包括一组L个全局对齐的有监督下降法回归专家，

其中，所述图像被所有专家使用，

其中，各专家与不同的原型形状和不同的回归函数关联，

其中，选通函数产生用于所述L个专家中的每个专家的权重，

其中，对于所述L个专家中的每个专家，执行权利要求1的所述步骤，产生L组更新后的面部地标位置，

并且其中，使用所述分配权重将所述L组更新后的面部地标位置组合为加权平均，以获得所述更新后的面部地标位置。

5.根据权利要求4所述的方法，所述方法还包括：

将权利要求4的所述方法应用达K个迭代，其中，K≥1，其中，所述图像用于所有迭代，并且其中，在各迭代K>1处，所述一组初始地标位置是在迭代k-1处获得的所述更新后的地标位置。

6.根据权利要求5所述的方法，其中，对于各专家，所述回归函数在各迭代处不同。

7.根据权利要求1所述的方法，其中，所述方法用于情感分析。

8.根据权利要求1所述的方法，其中，所述方法用于超分辨率成像。

9.根据权利要求1所述的方法，其中，所述方法由高级驾驶员辅助系统使用。

10.根据权利要求1所述的方法，其中，所述方法用于视频会议。

11.根据权利要求1所述的方法，其中，所述图像由摄像头来获取。

12.根据权利要求1所述的方法，其中，使用面部检测算法来确定所述初始地标位置。

13.根据权利要求1所述的方法，其中，使用面部部分检测算法来确定所述初始地标位置。

14.根据权利要求1所述的方法，其中，所述全局对齐参数表示2D仿射变换。

15.根据权利要求1所述的方法，其中，所述原型形状包括各地标在一组训练数据上的平均位置。

16.根据权利要求4所述的方法，其中，通过对获得一组训练数据中的所述地标的所述位置的仿射不变聚类的优化问题求解，来确定所述L个专家的所述原型形状。

17.根据权利要求1所述的方法，其中，所述提取使用尺度不变特征变换SIFT特征。

18.根据权利要求1所述的方法，其中，所述提取使用有向梯度直方图HOG特征。

19.根据权利要求1所述的方法，其中，所述特征包括对所述扭曲后的地标位置从所述原型形状的地标位置的偏差进行编码的附加特征，其中，λ是控制对所述位置从所述原型形状的偏差的所述约束的严格性的权重，x′_k是所述扭曲后的地标位置的向量，并且是所述原型形状的所述地标位置的向量，并且k对所述方法的迭代进行索引。

20.根据权利要求1所述的方法，其中，所述回归函数为线性函数。

21.根据权利要求1所述的方法，其中，所述回归函数为回归森林。

22.根据权利要求4所述的方法，其中，各专家E^l的所述选通函数α^l是地标位置x_k与专家E^l的所述原型形状的所述地标位置之间的全局对齐误差ε^l(x_k)的softmax变换，其中l∈{1，...，L}：

<mrow> <msup> <mi>&alpha;</mi> <mi>l</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&epsiv;</mi> <mi>l</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </msubsup> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&epsiv;</mi> <mi>l</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> <mo>,</mo> </mrow>

其中，针对专家E^l的所述全局对齐误差为

其中，表示全局变换的类，A表示具体变换，并且k对所述方法的迭代进行索引。

23.根据权利要求22所述的方法，其中，所述全局变换的类是所有可能2D仿射变换的类。

24.根据权利要求1所述的方法，其中，使用一组训练数据来学习所述回归函数，所述一组训练数据包括面部的一组N个图像和所述N个图像中的每个图像中的所述面部地标的地面真实位置。

25.根据权利要求3所述的方法，其中，使用一组训练数据来学习所述回归函数，所述一组训练数据组包括面部的一组N个图像和所述N个图像中的每个图像中的所述面部地标的地面真实位置，

其中，通过每个训练图像重复M次来增强所述训练数据，以产生一组经增强的训练数据，

其中，对于所述一组经增强的训练数据中的各图像I_i，对于i＝1,…,MN，图像I_i具有位移了偏移量的地面真实地标位置

并且其中，通过使以下L₂损失函数最小化来学习所述回归函数，

<mrow> <mo>{</mo> <msub> <mi>W</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>k</mi> </msub> <mo>}</mo> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>M</mi> <mi>N</mi> </mrow> </munderover> <mo>|</mo> <mo>|</mo> <mi>&Delta;</mi> <msub> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <mi>W</mi> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>-</mo> <mi>&Delta;</mi> <msub> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>b</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

以获得线性回归函数参数W_k、b_k，其中，W_k和b_k分别表示所述回归函数的系数和偏置，并且φ表示所述特征。

26.根据权利要求25所述的方法，其中，随机确定所述偏移量

27.根据权利要求25所述的方法，

其中，在迭代k＝1处，随机确定所述偏移量并且

其中，在各迭代k≥2处，所述偏移量是先前迭代之后的残差。

28.根据权利要求4所述的方法，

其中，使用一组训练数据来学习各专家的所述回归函数，所述一组训练数据包括一组N个训练面部图像和所述N个训练面部图像中的每个训练面部图像中的面部地标的地面真实位置，

其中，通过每个训练面部图像重复M次来增强所述训练数据，以产生一组经增强的训练数据，

其中，对于各专家，通过使以下L₂损失函数最小化来学习所述回归函数

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>{</mo> <msubsup> <mi>W</mi> <mi>k</mi> <mi>l</mi> </msubsup> <mo>,</mo> <msubsup> <mi>b</mi> <mi>k</mi> <mi>l</mi> </msubsup> <mo>}</mo> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>arg</mi> <munder> <mi>min</mi> <mrow> <mi>W</mi> <mo>,</mo> <mi>b</mi> </mrow> </munder> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>M</mi> <mi>N</mi> </mrow> </msubsup> <msubsup> <mi>&alpha;</mi> <mi>i</mi> <mi>l</mi> </msubsup> <mo>|</mo> <mo>|</mo> <mi>&Delta;</mi> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>-</mo> <mi>W</mi> <mi>&phi;</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>-</mo> <mi>&Delta;</mi> <msubsup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mi>b</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>&gamma;</mi> <mo>&lsqb;</mo> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <mi>b</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>&rsqb;</mo> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，是专家l的所述回归函数的参数，其中，

并且

其中，是将所述地面真实地标位置和位移向量从所述图像的所述坐标系变换到用于专家l的所述原型的所述坐标系中的变换，

其中，是从用于专家l的所述原型的所述坐标系中的经位移的地标位置计算的、用于专家l的分配权重，并且γ是正则化项权重。

29.根据权利要求28所述的方法，其中，在迭代k＝1处，随机确定所述偏移量并且其中，在各迭代k≥2处，所述偏移量是先前迭代之后的残差。