CN110490158A

CN110490158A - 一种基于多级模型的鲁棒人脸对齐方法

Info

Publication number: CN110490158A
Application number: CN201910784678.6A
Authority: CN
Inventors: 王华彬; 乔彪; 钱鹏方; 程睿; 施余峰; 王旭东; 张忠帝; 成鸿儒; 陶亮
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-22
Anticipated expiration: 2039-08-23
Also published as: CN110490158B

Abstract

本发明公开一种基于多级模型的鲁棒人脸对齐方法，首先利用基于对抗学习的STNs(ASTN)来解决由面部检测器引起的初始化问题，例如旋转和尺度变化，以便获得更好的人脸边界框用于人脸对齐；然后使用沙漏网络来获得人脸特征的初始位置以及它们的相应分数；此外，还提供一种基于样例的形状字典，旨在根据具有高分的的特征点找出那些低分的特征点，通过结合脸部形状约束，由遮挡或背景混乱而导致的人脸特征错位可以得到显著改善。

Description

一种基于多级模型的鲁棒人脸对齐方法

技术领域

本发明涉及人脸对齐技术，具体涉及一种基于多级模型的鲁棒人脸对齐方法。

背景技术

人脸对齐或人脸特征点检测旨在确定一组预定义的人类面部标志，例如眼角，眉毛和鼻尖。人脸对齐是高级视觉任务的重要基础，例如：人脸识别、表情识别、面部动画和3D人脸建模。尽管这些任务已经取得了很大的进展，但由于大视角人脸变化、光照条件、复杂的表情和部分遮挡，人脸对齐仍然具有挑战性。

最近，基于热图回归的卷积神经网络(CNNs)已经实现了显着的进步。沙漏网络是一种流行的人类姿势估计方法，使用重复的下采样和上采样模块来提取多个尺度的特征，堆叠沙漏网络及其变体已经引入人脸对齐领域并实现了最先进的性能。然而，现有的方法对人脸结构先验模型的建模效率仍然很低，当人脸图像遭受严重遮挡时，这些方法的性能都会严重下降，而且遮挡在现实生活中是最常见和多样的，所以这一问题很难解决。

现有的人脸对齐模型已尝试在部分遮挡下对人脸进行处理，例如鲁棒级联姿态回归(RCPR)等等，对于每个回归阶段，人脸图像被分成一个3×3网格，只有一个非遮挡人脸被用来预测特征点，外观来推断遮挡，抑制遮挡特征点的影响；利用形状索引的外观来估计每个特征点的遮挡水平，并且从基于样本的形状字典中的相似形状重建人脸形状。尽管这些方法在检测遮挡的特征方面表现出优越的性能，但它们在扩展性和鲁棒性仍然存在很多的问题。第一个限制是缺乏对真实图像大规模特征点的真实遮挡注释。提供遮挡注释的任务通常是耗时的，涉及大量繁琐的手工操作。另外，由于在不受约束的真实环境中人类面部外观固有的复杂变化，使用人脸外观形状字典难以恢复被遮挡的外观。

另一个挑战是由人脸检测器产生的人脸图像初始化问题，这在以往的研究中很少受到关注。人脸对齐通过面部检测器对面部矩形进行预处理。但是，由于重度遮挡或模糊，人脸检测器可能无法获得适当的面部矩形。如果初始图像具有不同的尺度和旋转，许多人脸对齐方法的性能将会严重下降。Lv等人提出一种具有两阶段重新初始化的深度神经网络，以解决初始化和特征检测的问题。在此方法中，STN作为子网嵌入，由于其复杂的架构和端到端的学习策略，STN在训练期间很难受到监督，或者更糟糕的是，它对最终坐标回归的性能产生负面影响。Yang训练一个简单的回归网络来检测19个面部特征点，并通过Procrustes分析定义相似性变换，此外，通过仿射变换去除了刚性转变。但是，在极端遮挡的情况下，即使是最先进的算法也无法正确定位特征点。更糟糕的是，特征点的不准确标记导致仿射变换参数的不准确预测。

简言之，现有的人脸对齐模型均存有对应的缺陷。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于多级模型的鲁棒人脸对齐方法。

技术方案：本发明的一种基于多级模型的鲁棒人脸对齐方法，包括以下步骤：

(1)使用基于生成对抗网络GAN的空间变换ASTN来进行人脸图像预处理；基于生成对抗网络GAN的空间变换网络包括生成网络G和判别网络D，生成网络G包括定位网络、生成器和采样器，定位网络包括四个残余块和一个全局平均池化层，通过叠加残差增加特征通道和提取高层次的识别特征，利用全局平均池化层和1×1卷积层对变换参数τ_θ进行回归，对于二维仿射变换，变换参数τ_θ是2乘3的矩阵：

式(1)是指将人脸图片输入到空间变换网络输出得到相应变换参数θ_ij，θ_ij为人脸图像经过STN后得到的变换参数；

生成器在输入图像中生成对应于输出图像中的每个像素的网络G，采样器使用转换参数τ_θ并将其应用于输入图像，即：

假设(x^s,y^s)为输入图像的源坐标，(x^t,y^t)为输出图像的目标坐标，则变换过程定义为:

判别网络D的损失函数表示如下：

其中I_real是没有旋转、缩放和不必要背景的真实图像，I_fake是一个设计的具有旋转，缩放和不必要背景的人脸图像；判别网络D在预测生成的人脸图像为零的同时，自动预测真实人脸图像；

利用判别网络D，对抗性损失定义为：

生成器的损失函数定义为：

L_G＝α‖τ^{^} _θ-τ^* _θ‖+βL_A (5)

其中是由生成器回归的参数，是正确标注变换参数，超参数α和β用于平衡不同的损失，对生成器G进行优化，通过回归一个更精确的参数来欺骗鉴别器D，从而提高空间变换的学习效率；最终目标函数表示为：

其整个训练过程如下：

(2)采用基于热图回归的卷积神经网络CNNs来进行人脸特征检测；

对于一张图像I，通过CNNs训练得到L的热图H(I)，其中L是每张脸的特征点数；通过取最大值的位置，从热图中解码出预测特征点的位置，如下所示

其中l为特征点的索引和对应的热图，x(l)给出了第l个特征点的坐标；

上述训练过程中，通过在特征的真实标注位置放置高斯峰值来创建一个特征的真实热图，每个特征点均是根据热图中相应的强度值进行加权的，同时具有较强局部信息的更可靠的特征点被赋予高权重，遮挡下的特征点被赋予较低的权重；所述权重的分配过程表示为：

其中score_l(k,t)是第l个热图中坐标(k,t)的值，r决定用于计算分数的矩形的大小，坐标(X_l,Y_l)给出了第一个特征点的预测位置；

根据所分配的权重将预测的特征点分为两类：可靠的特征点和遮挡的特征点，可靠特征点的坐标和权重作为后续形状细化阶段的初始信息；

(3)结合CNNs和稀疏形状约束来纠正未对齐的特征点；

稀疏形状模型的目标表述为

argmin||S-D_sα||₂+λ||α||₂(9)

其中S是2L×1向量，具有预测归一化形状的L个特征点的坐标；Ds是N×2L矩阵，即样本大小为N的形状字典.α是形状重建系数，λ是正则化参数；

根据每个特征点的初始坐标和权重设置阈值来区分可靠特征点和未对齐特征点，因此，对于每个形状S得到一个二元向量V，如果V的第l个分量是1，那么第l个特征点就被认为是可靠的；

基于可靠的特征点其搜索过程表述为：

其中V^*＝diag(V)，V的目标是迫使搜索过程忽略不对齐的特征点，而强调高权重的特征点；⊙指示在字典中搜索最相似的形状；(V^*S⊙V^*D_S)用于从自适应形状字典V^*D_S中搜索距离V*S最近的k个样本形状；然后用与k最接近的形状重构出未对齐的部分形状，用最小二乘法计算出重构系数。

其整个训练过程如下：

本发明首先利用基于对抗学习的STNs(ASTN)来解决由面部检测器引起的初始化问题，例如旋转和尺度变化，以便获得更好的人脸边界框用于人脸对齐；然后使用沙漏网络来获得人脸特征的初始位置以及它们的相应分数；此外，还提供一种基于样例的形状字典，旨在根据具有高分的的特征点找出那些低分的特征点，通过结合脸部形状约束，由遮挡或背景混乱而导致的人脸特征错位可以得到显著改善。

有益效果：与现有技术相比，本发明具有以下优点：

1)利用基于对抗学习的空间变换网络来为人脸对齐提供质量好的初始面部图像。

2)根据两级沙漏网络获得的热图强度，设计了一种测量预测特征点位置质量的评分方案

3)使用基于样本的形状字典来施加几何约束。具有高分的特征点用于从形状字典中搜索相似的形状，用相似的形状对得分低的特征点进行形状重构细化。

附图说明

图1为本发明中网络架构图；

图2为本发明中ASTN的体系结构示意图；

图3为本发明中通过步两阶段沙漏网络获得的输出图；

图4为本发明中基于最近样本形状的人脸形状重建示意图；

图5为实施例中基于最小样本形状的人脸形状重建结果对比示意图；

图6为实施例中采用使用300-W数据集的实验结果示意图；

图7为实施例中使用300-W数据集的人脸对其结果CED曲线图；

图8为实施例中使用COFW数据集的MSM输出示意图；

图9为实施例中使用COFW数据集的人脸对齐结果的CED曲线图；

图10为实施例中使用WFLW数据集输出示意图；

图11为实施例中使用WFLW数据集的ASTN输出示意图；

图12为实施例中使用不同结构的WFLW数据集比较CED曲线。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明的一种基于多级模型的鲁棒人脸对齐方法，包括以下步骤：

(1)使用基于生成对抗网络GAN的空间变换来进行人脸图像预处理；基于生成对抗网络GAN包括生成网络G和判别网络D，生成网络G包括定位网络、生成器和采样器，如图2所示，定位网络包括四个残余块和一个全局平均池化层，通过叠加残差增加特征通道和提取高层次的识别特征，利用全局平均池化层和1×1卷积层对变换参数τ_θ进行回归，对于二维仿射变换，变换参数τ_θ是2乘3的矩阵：

生成器网络在输入图像中生成对应于输出图像中的每个像素的网络G，采样器使用转换参数τ_θ并将其应用于输入图像，即：

判别网络D的损失函数表示如下：

利用判别网络D，对抗性损失定义为：

生成器的损失函数定义为：

L_G＝α‖τ^{^} _θ-τ^* _θ‖+βL_A (5)

其中是由生成器回归的参数，是正确标注变换参数，超参数α和β用于平衡不同的损失，最终目标函数表示为：

如图3所示，通过两阶段沙漏网络获得的示例输出，其第一行显示检测到的地标位置，而第二行显示相应的热图。热图中的非遮挡地标具有比遮挡的更高的强度值。

(3)结合CNNs和稀疏形状约束来纠正未对齐的特征点；

稀疏形状模型的目标表述为

argmin||S-D_sα||₂+λ||α||₂ (9)

基于可靠的特征点其搜索过程表述为：

实施例：

(1)数据集

本实施例在几个具有挑战性的数据集上进行了评估，包括最近发布的300-W，COFW和WFLW。

1)300-W：300-W是目前使用最广泛的数据集。它是由四个数据集组成的，包括AFW，LFPW，HELEN和IBUG数据集，每个人脸图像都注有68个特征点。训练集由AFW，LFPW训练集和HELEN训练集组成，共计3148个图像。测试集由三部分组成：公共集，挑战集和全集。公共集包括LPFW测试集和HELEN测试集，总共产生554个图像。挑战集，即IBUG数据集，包含135个图像。全集包含689幅图像的常见集和挑战集的完整集合。

2)300-W私有测试集：300W私有测试集是在300-W数据集之后引入的，用于300-WChallenge基准测试。它由300个室内图像和300个室外图像组成，每个图像使用与300-W相同的注释方案注释68个特征点。

3)COFW:COFW数据集主要关注闭塞性。训练集由1345张图像组成，测试集由507张不同遮挡方式的人脸组成，每张脸都有29个特征点。在本实施例中使用68个特征点的重新注释版本来与其他方法进行比较。

4)WFLW它包含10000张人脸(7500张用于训练，2500张用于测试)，98个完全手工标注的特征点和相应的人脸边界框。与上述属性集相比，WFLW包含了丰富的属性注释，如遮挡、姿态、化妆、模糊和光照属性信息。

(2)评估指标

本实施例使用归一化的均平方根误差(NRMSE)，累积误差分布(CED)曲线，曲线下面积(AUC)和故障率来测量特征点位置错误率。

其中N为总图像数目，L为给定人脸的总特征点数，P_ij和G_ij分别表示预测位置和特征点真值位置。d_i是归一化参数。实验结果使用不同的d_i定义:眼球中心之间的距离(瞳孔间)和外眼角之间的距离(眼球间)。

对于300-W、300-W测试集和COFW数据集，NRMSE(瞳距)大于0.08的图像被认为是失败的。对于WFLW数据集，在其之后，NRMSE(瞳距)大于等于0.1的图像被认为是失败的。

(3)实施例细节

此处独立训练了三种模型：ASTN，沙漏网和人脸形状字典。对于ASTN，通过提供的边界框裁剪面部图像，并将其调整为128×128分辨率。通过随机翻转，旋转(±30°)，缩放(±10％)和颜色抖动来应用数据增强。该网络通过Adam随机优化[49]进行优化，初始学习率为0.0005，并在400个周期后减半。训练共使用1000个周期。小批量大小设置为16。沙漏网络按照类似的程序进行训练，不同之处在于网络的输入图像由人脸图像真实边界框裁剪，训练应用总共300个周期。在100个时期之后，学习率降低到一半。这两个网络都是在PyTorch[50]中实现的。

如图5所示，本实施例基于最小样本形状的人脸形状重建方法，其计算结果采用COFW数据集，Fusion表示结果包含沙漏网络结果的高置信度特征点。

在人脸形状字典训练过程中，使用Menpo数据集的300-W训练集和半正面人脸训练，训练68点人脸形状字典。此外，WFLW训练集用于训练98点人脸形状字典。首先，用瞳孔的特征真值坐标和中点坐标进行仿射变换，使人脸具有正则性。然后，通过将每个特征点的坐标转换为一个128x128的空间，对人脸形状进行归一化。利用k均值算法对归一化后的人脸形状进行聚类，减少了空间冗余，提高了计算效率。

如图5所示，本实施测试了不同字典大小N和不同数量k的人脸形状进行重构。最后，N和k分别是设置成500和100。因此，在大小为500的字典中，100个最相似的形状重建人脸形状。采用最小二乘法和岭回归法计算重建系数。岭回归的正则化参数设置为60。

此处，模型是在配备NVIDIA GTX1080(8GB)GPU和英特尔核心7500CPU@3.4GHzx4的普通台式机上实验的。训练ASTN和沙漏网络分别需要8小时和6小时左右。Python实现过程中的图像平均速度为14FPS,CNN部分(ASTN和沙漏网络)大约花费50ms，每张图像的形状重构大约花费20ms。

(4)使用300-W数据集的实验

表1

使用300-W数据集的人脸对齐结果的NRMSE(％)

在表I中，将结果与显式形状回归方法(ESR)进行了比较,监督下降法(SDM)，鲁棒级联回归(RCPR)，粗到细自编码网络(CFAN)，学习局部二进制特征(LBF)，任务约束深度卷积网络(TCDCN)，由粗到细形状搜索(CFSS)、记忆下降法(MDM)，重复循环-细化网络(RAR)，深度对齐网络(DAN)，两阶段重新初始化网络(TSR)、堆叠沙漏网络(SHN)、边界感知方法(LAB)、深度初始化的由粗到细集成回归树(DCFE)和深度初始化的三维集成回归树(3DDE)，以及姿态适应树突状卷积神经网络(PCD-CNN)和样式聚合网络(SAN)。具体实验结果如图6所示，本发明示例输出使用300-W数据集，为说明清楚，图6中将检测到的关键点连接起来，以显示点状的人脸形状。

使用300-W私有测试集对人脸对齐结果计算瞳距正则化的均平方根误差，结果如表2和图7所示。

表2

使用300-W私有测试集对人脸对齐结果计算瞳距正则化的均平方根误差(％)、失败率(％)和AUC

对于300-W的挑战子集，MSM实现了6.97％的瞳孔间距NRMSE和4.83％的双眼间距NRMSE，实验结果证明MSM在大姿态、光照和遮挡等困难场景下对人脸的鲁棒性。再者，使用8个堆叠沙漏模块的网络架构，与MSM中两个固定沙漏模块相比，LAB的计算开销要大得多。对于公共子集和300-W的全集，使用基于UNET网络的3DDE和使用两个堆叠的沙漏模块的MSM可以获得相似的瞳孔间距NRMSE值，其中MSM在公共子集和全集中分别获得略高和略低的NRMSE值。

对于300-W的私有测试集，NRMSE、故障率和AUC的比较如表2所示，除了DCFE达到了0.5242的AUC，而MSM达到了0.5262的MSM外，MSM outper在NRMSE值、错误率和AUC上形成了所有其他方法。

图7显示了使用300-W私有测试集的MSM结果，比较了DAN获得的CED曲线，以及其他先有方法。如图7所示，与其他方法相比，本发明获得了最低的点对点NRMSE值。

(5)使用COFW数据集进行实验

为了评估本发明MSM方法对各种人脸图像遮挡的鲁棒性COFW数据集作为现有最先进的人脸对齐方法的一个具有挑战性的数据集。表3对RCPR、TCDCN、分层可变的组件模型(HPM)、CFSS、SHN、关节多视图人脸对齐方法(JMFA)和LAB等方法进行了比较。

表3

使用COFW数据集的面部对准结果的NRMSE(％)和失败率(％)

本发明是在300-W的数据集上进行训练的，总共有3148张人脸训练图像。从表3可3看出，本发明的瞳孔间距NRMSE值5.55％最低，眼间NRMSE值3.95％最低，失败率为0.99％，接近SHN的0％。这些都反映了MSM在重度遮挡下人脸管理中的有效性.JMFA略高于MSM法。训练集，总共9360个面部图像，几乎是MSM图像的三倍。

图9为相应的CED曲线，表明本发明在COFW数据集上大大优于其他方法(包括分段感知组件模型SAPM)。从COFW获得的示例结果在图8中给出。

(6)使用WFLW数据集进行实验

该数据集的特征点标注不同于上述数据集，WFLW数据集中的所有图像都由98点手工标注。综合分析现有的最先进的方法，数据集包含各种类型的挑战，包括大姿态，光照，模糊，遮挡和过多的干扰背景等。

由于WFLW是一个新发布的数据集，本实施例将该方法与ESR、SDM、CFSS、深度变异杠杆网络(DVLN)、LAB和3DDE等方法进行了比较。本实施例报告了NRMSE(眼间)，失败率和AUC的测试集和六个子集的WFLW。

表4使用WFLW数据集的人脸对齐方法的NRMSE(％)、FAILURERATE(％)和AUC

如表4所示，本发明MSM方法优于基于NRMSE、故障率和AUC的所有其他最先进的方法。使用WFLW数据集的MSM结果如图10所示。

(7)关于消融研究的实验结果

此处用不同的配置来评估所提出的方法。该框架由几个关键组件组成，包括ASTN、沙漏网络和基于样本的人脸形状重建。在基于COFW和WFLW数据集的框架内，对其有效性进行了验证。为进一步评估ASTN的鲁棒性，引入一个50层残差网络(Res-50)来验证ASTN是否能够有效地协调基于回归的方法。由于本实施例中，Res-50要求输入图像的大小为224x224，因此Res-50中的平均池化内核大小从7调整为4，网络输入的大小为128x128。所有消融实验结果均以眼间距作为正则化因子。对提出的各组成部分进行了分析，即，用ASTN(标记为ASTN)、沙漏网络(标记为HG)和形状重构(标记为SR)，比较它们的NRMSE和错误率。

表5使用不同配置的WFLW数据集的NRMSE(％)比较

表6使用具有不同结构的COFW数据集的NRNME(％)和失败率(％)的比较

表5和表6显示在COFW和WFLW数据集上评估的不同框架配置获得的NRMSE值和失效率。

当与ASTN结合使用时，Res-50网络将NRMSE从4.76％降低到4.23％，沙漏网络将NRMSE从4.64％降低到4.34％。结果表明，由于STN可以去除每个人脸的平移、缩放和旋转变化，从而进一步降低回归目标中的方差，本发明可有效地将人脸图像正则化为标准的姿态，同时删除不必要的背景，并对WFLW数据集的每个子集都有一定的改进。

该实施例结果表明，在各种困难情况下，评分方案和面部形状重建方法可用于精确定位困难关键点，而不仅仅是在遮挡的情况下。在图12中，CED曲线显示表示本发明MSM方法的ASTN+HG+SR优于其他两种配置，其ASTN方法在WFLW数据集上获得的输出示例展示在图11中

通过一系列实施例看出，本发明的一种多阶段鲁棒人脸对齐方法，基于STNs、CNNs和基于样本的形状约束的优点，利用ASTN的鲁棒空间变换，将输入图像扭曲到一种对对齐友好的状态；沙漏网络为包含丰富特征信息的特征点提供精确定位；引入热图的强度来区分对齐的特征点和遮挡的的特征点，并同时确定每个对齐特征点的权重；最后，在这些对齐的特征点的帮助下，通过稀疏的形状约束对未对齐的特征点进行细化。

为提高计算效率，本发明采用K均值算法学习一个紧凑的人脸形状字典，利用具有挑战性的数据集(300-W、COFW和WFLW)进行了大量的实验和消融研究，实验结果和分析表明，与其他现有技术相比，性能更加优越。

Claims

1.一种基于多级模型的鲁棒人脸对齐方法，其特征在于：包括以下步骤：

生成器在输入图像中生成对应于输出图像中的每个像素的网络G，采样器使用转换参数τ_θ并将其应用于输入图像；假设(x^s,y^s)为输入图像的源坐标，(x^t,y^t)为输出图像的目标坐标，则变换过程定义为:

判别网络D的损失函数表示如下：

其中I_real是没有旋转、缩放和不必要背景的真实图像，I_fake是一个设计的具有旋转、缩放和不必要背景的人脸图像；判别网络D在预测生成的人脸图像为零的同时，自动预测真实人脸图像；

利用判别网络D，对抗性损失定义为：

生成器的损失函数定义为：

对于图像I，通过CNNs训练得到L的热图H(I)，其中L是每张脸的特征点数；通过取最大值的位置，从热图中解码出预测特征点的位置，如下所示

(3)结合CNNs和稀疏形状约束来纠正未对齐的特征点；

稀疏形状模型的目标表述为

argmin||S-D_sα||₂+λ||α||₂ (9)

基于可靠的特征点其搜索过程表述为：