CN110532928A

CN110532928A - 基于面部区域规范化和可变形沙漏网络的面部关键点检测方法

Info

Publication number: CN110532928A
Application number: CN201910784089.8A
Authority: CN
Inventors: 王华彬; 程睿; 戴瑞; 兰江浩; 钱鹏方; 李鑫; 李�诚; 吴云志; 陶亮
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-12-03
Anticipated expiration: 2039-08-23
Also published as: CN110532928B

Abstract

本发明公开一种基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，首先通过使用从卷积神经网络输出的变换参数，将具有不同姿势的人脸转换为规范状态；然后引入可变形残差块以增强自适应建模相关性的能力。

Description

基于面部区域规范化和可变形沙漏网络的面部关键点检测方法

技术领域

本发明涉及人脸检测技术，具体涉及一种基于面部区域规范化和可变形沙漏网络的面部关键点检测方法。

背景技术

面部关键点检测，也称为人脸对齐，旨在定位一组预定义的面部关键点。这是许多面向人脸的视觉任务的关键步骤，如人脸识别^[1]，人脸动画模拟^[2]，表情识别^[3]和三维人脸重建^[4]。虽然近十年来已经取得了重大进展，但由于面部外观变化复杂，例如大角度姿态，极端光照，夸张表情和部分遮挡，实现鲁棒的面部对齐依然具有挑战性。

凭借着对局部特征的强大表示，堆叠沙漏网络^[5]极大地提升了关键点检测任务的性能，如人脸对齐，人体姿态估计和手部姿态估计等。虽然现有方法取得了较好的效果，但由于基于热图回归的网络将每个关键点的预测视为一项独立任务，且传统卷积核的感受野有限，因此沙漏模型及其变体难以学习脸部外观的整体结构。通常这些方法易于在遮挡场景中预测不合理的面部形状。

作为面部关键点检测的先前步骤，面部检测目的在于获得适当的面部区域。然而，在一些不受控的情况下，例如严重遮挡或低图像质量，面部检测器性能有限通常不能提供最适合的面部区域。

不准确的面部区域会降低关键点检测的性能。相反，具有规范的姿态和尺度的人脸图像对关键点检测是有利的。因此，面部区域规范化步骤，旨在消除尺度、旋转和平移差异，在面部关键点检测任务中起重要作用。规范化步骤可以显著减少回归坐标的难度。常规方法通常基于仿射变换实现面部区域规范化。首先检测几个基准关键点，然后基于检测到的关键点和平均形状的关键点，通过普氏分析计算仿射变换的参数。由于仍然需要检测关键点，这些方法具有和许多面部对齐算法类似缺点，即遮挡敏感，并且不能基于预测错误的关键点执行准确的仿射变换。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于面部区域规范化和可变形沙漏网络的面部关键点检测方法。

技术方案：本发明一种基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，包括以下步骤

(1)面部区域规范化网络，即通过卷积神经网络一次性直接输出仿射变换参数，然后增加由关键点指导的损失函数；通过仿射变换参数对输入的人脸图像执行仿射变换得到摆正姿态的人脸图像；

网络结构依次包括第一卷积层、四个残差块、第二卷积层和全连接层；通过该网络学习从面部图像到仿射变换参数的映射；其中所得仿射映射包含一个代表旋转、平移和缩放的6个参数；

(2)在沙漏网络中增加可变形残差块得到可变形沙漏网络，然后通过可变形沙漏网络对步骤(1)预处理后的人脸图像进行关键点检测；沙漏网络具有多层次结构，逐层地从输入图像提取更抽象的高级语义特征，最终在网络末端输出n 个热图，且n对应关键点的数量，每个热图中响应值最高的像素位置即代表所预测的对应关键点的位置。

进一步的，步骤(1)中网络结构具体如下：

第一卷积层为步长为2且填充为1的3×3卷积层，第二卷积层为步长为1且填充为0的3×3卷积层，全连接层中包括有256个隐藏单元；如表1所示。

表1本发明中简化的面部区域规范化网络的体系结构

层	输入形状大小	输出形状大小
			Conv1	96963	484816
RB1	484816	242432
			RB2	242432	121264
RB3	121264	66128
			RB4	66128	33256
Conv2	33256	11256
			FC	11256	116

其中，“Conv”表示卷积层，“RB”表示残差块，“FC”表示全连接层。

进一步的，步骤(1)中的仿射变换过程可以表示为：

其中，是网络学习到的一个2×3矩阵对应的二维仿射变换参数形式；α是尺度因子，θ是旋转角度，(t_x,t_y)是平移向量；(x^o,y^o)和 (x^t,y^t)分别是图像的原始坐标和变换坐标，并采用损失函数如下：

其中Θ是预测参数，X_src和X_dst分别是输入图像和变换图像中关键点的真值坐标；T(Θ,X_src)表示使用预测参数的输入图像的仿射变换。

进一步的，步骤(2)中可变形残差块为：

x_n+1＝H(x_n)+F(x_n,W_n).

其中x_n+1和x_n是第n个残差块的输出和输入特征图，H(x_n)是等值映射，W_n是卷积核的权重；F由批量归一化，整流线性单元，两个1×1卷积层和3×3卷积层组成。可变形沙漏网络的具体架构为：依次包括两个卷积层、可变形残差块、两个卷积层、沙漏模块、两个卷积层。

有益效果：本发明首先通过使用从卷积神经网络输出的变换参数，将具有不同姿势的人脸转换为规范状态；然后引入可变形残差块以增强自适应建模相关性的能力。

与现有技术相比，本发明具有以下优点：(1)通过使用卷积神经网络直接输出变换参数，简化了通过使用预测关键点和平均形状进行普氏分析来规范化面部区域的传统过程；由此具有不同姿态的人脸可以被转换为规范状态，这对于之后的面部关键点检测有利。

(2)通过可变形残差块替换沙漏模型中的传统残差块，得到可变形沙漏网络；与原始沙漏模型相比，可变形沙漏网络得到了较大的性能提升，仅增加较小的计算成本，具有几乎相同的参数量。

附图说明

图1为现有面部规范方法和本发明简化面部规范方法的流程对比图；

图2为现有面部规范方法和本发明简化面部规范方法的输出图像对比图；

图3为本发明中可变形残差块与原始残差块的比较示意图；

图4为实施例中在300W数据集上的输出结果；

图5为实施例中在WFLW数据集上的输出结果；

图6为实施例中标准卷积和可变形卷积示意图；

图7为实施例中一个3×3可变形卷积的处理过程示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明一种基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，包括以下步骤：

(1)面部区域规范化网络，即通过卷积神经网络一次性直接输出仿射变换参数；

网络结构依次包括第一卷积层、四个残差块、第二卷积层和全连接层；通过该网络学习从面部图像到仿射变换参数的映射；

网络结构具体如下：第一卷积为层步长为2且填充为1的3×3卷积层，第二卷积层为步长为1且填充为0的为3×3卷积层；全连接层中包括有256个隐藏单元。

数学上，仿射变换参数为：

其中α是尺度因子，θ是旋转角度，(t_x,t_y)是平移向量。

仿射变换过程表示为：

并采用关键点指导的损失函数如下：

其中Θ是预测的仿射变换参数，X_src和X_dst分别是输入图像和变换图像中关键点的真值坐标；T(Θ,X_src)表示使用预测参数对输入图像进行的仿射变换。

相比于现有的L2损失函数：

其中Θ和Θ^*分别为预测的和真值参数。实际上，由于仿射参数的每个分量大小差异较大，L2损失函数并不合适，因为它们不能模拟仿射参数每个分量不同的重要性。而本发明的损失函数中，对六个仿射变换系数的监督被转换为对面部关键点的监督，因此每个系数被认为是同等重要的。

如图1所示，图1(a)为传统的面部区域规范化方法，该方法首先通过卷积神经网络检测关键点，然后通过检测到的关键点与平均形状之间进行普氏分析来估计仿射变换参数；图1(b)为步骤(1)中简化的面部区域规范化，本发明中该方法一次性通过卷积网络输出变形参数，而不依赖于关键点检测和普氏分析。

如图2所示，图2(a)为输入图像，图2(b)为使用传统规范化方法得到的面部图像，图2(c)为使用本发明中简化规范化方法得到的面部图像。

(2)在沙漏网络中增加可变形残差块得到可变形沙漏网络，然后通过可变形沙漏网络对步骤(1)预处理后的人脸图像进行关键点检测；沙漏网络具有多层次结构，逐层地从输入图像提取更抽象的高级语义特征，最终在网络末端输出n 个热图，且n对应关键点的数量，每个热图响应值最高的像素位置即代表所预测的对应关键点的位置。

传统卷积操作是对输入图像的每个位置进行基于规则格点位置的采样，然后对于采样到的图像值做卷积并作为该位置的输出。通过端到端的梯度反向传播学习，系统将会得到一个用矩阵表示的卷积核的权重。因而，标准卷积中的规则格点采样导致网络难以适应几何形变。

最近可变形卷积网络的提出有效的缓解了这个限制，通过对卷积核中每个采样点的位置都增加一个偏移量，卷积核就可以在当前位置附近随意的采样，而不再局限于规则格点。这样扩展后的卷积操作被称为可变形卷积。标准卷积和可变形卷积在图6中有简要的展示。一个3×3可变形卷积的处理过程如图7所示。

基于可变形卷积，在原始沙漏网络中增加可变形残差块得到可变形沙漏网络，然后通过可变形沙漏网络进行关键点检测。

如图3所示，其中可变形残差块为：

x_n+1＝H(x_n)+F(x_n,W_n).

其中x_n+1和x_n是第n个残差块的输出和输入特征图，H(x_n)是等值映射，W_n是卷积核的权重；F由批量归一化，整流线性单元，两个1×1卷积层和3×3卷积层组成。可变形沙漏网络的详细结构如表2所示。

层	输入形状大小	输出形状大小
			Conv1	1281283	12812864
Conv2	12812864	128128128
			Pool	128128128	6464128
Conv3	6464128	6464128
			Conv4	6464128	6464256
HG	6464256	6464256
			Conv5	6464256	6464128
Upsample	6464128	128128128
			Conv6	128128128	128128n

其中，“Conv”表示卷积层，“Pool”，“HG”表示沙漏模块，“Upsample”表示上采样。

可变形沙漏网络具有多层次结构，可以逐层的从输入图像提取更抽象的高级语义特征，最终在网络末端输出n个热图(高斯热力图，n为对应关键点的数量)，每个热图中响应值最高的像素位置即代表所预测的对应关键点的位置。

实施例

(1)数据集

本实施例两个公开数据集(300-W和WFLW)上评估所提出的方法。

(1.1)300-W数据集

300-W是用于评估二维面部关键点检测方法性能的最广泛的数据集。它由 4437个面部图像和68点注释的关键点组成，其中3148个用于训练，1289个用于测试。测试集分为三个部分：普通集(554图像)，挑战集(135图像)和300-W 私有测试集(600图像)。所有测试图像在完全不受约束的条件下收集，并且在姿势，表情和光照等方面具有较大的变化。

(1.2)WFLW数据集

WFLW被认为是最具挑战性的数据集。它包含10000张面部图像和98点注释的关键点，其中7500个用于训练，2500个用于测试。与上述数据集相比，WFLW由六个具有丰富属性注释(即姿势，表情，光照，化妆，遮挡和模糊) 的子集组成，用于综合分析算法性能。

(2)评估指标

为验证本发明的鲁棒性，本实施例基于三个指标报告实验结果：归一化平均误差(NME)，失败率(FR)和CED曲线下面积(AUC)。

NME计算预测的面部形状和真值面部形状之间的归一化均方根误差。具体地，假设S和分别是面部的预测和真值形状，单个面部形状的误差NME的定义可以表示如下：

其中L是面部形状中的关键点数量。X_l和分别是每个关键点的预测和地面实况坐标。d是归一化因子。

本实施例基于归一化因子的两个不同定义来报告相应的实验结果：眼睛中心之间的真值距离和外眼角之间的真值距离。

失败率FR基于平均误差NME值计算。平均误差NME值大于ε的图像被视为失败，对于300-W数据集，阈值ε设置为0.08，对于WFLW数据集设置为0.1。

(3)实验细节

用于训练的所有面部图像均由真值边界框裁剪，对于本实施例中的人脸区域规范化网络和可变形沙漏网络，分辨率分别调整为96×96和128×128分辨率。此处可变形沙漏网络仅使用单个沙漏模块作为网络骨干。

数据增强有以下几种：随机旋转(±30°)，平移(±10％)，水平翻转(50％)，缩放(±20％)和颜色抖动。上述两个网络均从随机参数开始从头训练。

损失函数为均方误差损失(MSE)，优化器为Adam随机优化器。对于这两个网络，初始学习速率均设置为2.5e-4，迷你批量大小设置为12.人脸区域规范化网络的最大迭代次数为400000，可变形沙漏网络的最大迭代次数为 100000。每经过80000和20000次迭代，人脸区域规范化网络和可变形沙漏网络的学习率分别降低一半。这两个网络均由PyTorch实现，在Ubuntu下使用英伟达GTX1080Ti图形处理器进行训练。在测试期间，每个图像被测试两次，即对水平翻转的图像也进行一次测试，最后将两个结果的平均值作为最终结果。

(4)在300-W数据集的实验结果

如表2和表3所示，本实施例分别与最先进的方法比较眼中心和外眼角的平均误差NME。本实施的基准是单个普通沙漏网络，标记为“HG”，本发明方法标记为“proposed”。

由表2和表3可以看出，本发明方法优于现有方法，本发明获得的平均误差为3.78％。在挑战子集上我们的方法实现了7.21％的平均误差，挑战子集具有各种不受控制的因素，例如遮挡，大角度姿态和极端表情，说明本发明所提出的方法鲁棒性良好。此外，本实施例还在300-W私有测试集上验证了外眼角平均误差的结果，得到失败率和曲线下面积如表4所示，本发明实现了最好的性能。图 4展示了300W数据集上的一些典型输出结果。

表2 300-W数据集上的双眼中心误差结果

方法	普通集	挑战集	全集
				LBF	4.95	11.98	6.32
TCDCN	4.80	8.60	5.54
				DAN	4.42	7.57	5.03
TSR	4.36	7.56	4.99
				DCFE	3.83	7.54	4.55
HG(基准)	4.43	7.56	5.04
				proposed	3.78	7.21	4.32

表3 300-W数据集上的外眼角误差结果

方法	普通集	挑战集	全集
				PCD-CNN	3.67	7.62	4.44
SAN	3.34	6.60	3.98
				LAB	2.98	5.19	3.49
DCFE	2.76	5.22	3.24
				ODN	3.56	6.67	4.17
HG(基准)	3.22	5.23	3.76
				proposed	2.69	4.91	3.14

表4 在300-W私有数据集上的平均误差、失败率以及曲线下面积的结果

方法	NME	FR	AUC
				CFSS	-	12.30	0.4132
MDM	5.05	6.80	0.4532
				DAN	4.30	2.67	0.4700
SHN	4.05	-	-
				DCFE	3.88	1.83	0.5242
HG(基准)	4.25	2.23	0.4975
				proposed	3.86	1.69	0.5250

(5)在WFLW上的实验结果

如表5所示，本实施例与现有的面部关键点检测算法对比了平均误差NME，失败率FR和曲线下面积AUC。本发明方法优于所有其他方法。与基准(单个普通沙漏模型)相比，本发明方法分别将平均误差，曲线下面积值提高了26.1％和 26.5％。对于失败率，本发明方法与基准方法相比降低了近60％。WFLW数据集的输出结果如图5所示。

表5WFLW上NME，FR和AUC对比结果

综上所述，本发明中的简化的面部区域归一化方法不依赖于检测关键点以及普氏分析；并且通过可变形残差块了增强沙漏网络对几何变换建模的能力该可变形残差块替换了沙漏模型HG中的标准瓶颈块，得到可变形沙漏网络。通过上述若干实验可知本发明的方法在具有挑战性的数据集(包括300W和WFLW数据集) 上实现了良好的性能。

Claims

1.一种基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，其特征在于：包括以下步骤

卷积神经网络结构依次包括第一卷积层、四个残差块、第二卷积层和全连接层；通过该网络学习从面部图像到仿射变换参数的映射；

(2)在沙漏网络中增加可变形残差块得到可变形沙漏网络，然后通过可变形沙漏网络对步骤(1)预处理后的人脸图像进行关键点检测；沙漏网络具有多层次结构，逐层地从输入图像提取更抽象的高级语义特征，最终在网络末端输出n个热图，且n对应关键点的数量，每个热图响应值最高的像素位置即代表所预测的对应关键点的位置。

2.根据权利要求1所述的基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，其特征在于：步骤(1)中的网络结构具体如下：

第一卷积层为步长为2且填充为1的3×3卷积层，第二卷积层为步长为1且填充为0的3×3卷积层，全连接层中包括有256个隐藏单元。

3.根据权利要求1所述的基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，其特征在于：步骤(1)中仿射变换过程表示为：

其中，是网络学习到的一个2×3矩阵对应的二维仿射变换参数形式；α是尺度因子，θ是旋转角度，(t_x,t_y)是平移向量；(x^o,y^o)和(x^t,y^t)分别是图像的原始坐标和变换坐标，并采用损失函数如下：

其中Θ是预测参数，X_src和X_dst分别是输入图像和变换图像中关键点的真值坐标；T(Θ,X_src)表示使用预测参数对输入图像进行的仿射变换。

4.根据权利要求1所述的基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，其特征在于：步骤(2)中可变形残差块为：

x_n+1＝H(x_n)+F(x_n,W_n).

其中x_n+1和x_n是第n个残差块的输出和输入特征图，H(x_n)是等值映射，W_n是卷积核的权重；F由批量归一化，整流线性单元，两个1×1卷积层和3×3卷积层组成。

5.根据权利要求1所述的基于面部区域规范化和可变形沙漏网络的面部关键点检测方法，其特征在于：所述步骤(2)中可变形沙漏网络的具体架构为：依次包括两个卷积层、残差块、两个卷积层、沙漏模块、两个卷积层。