CN110188730B

CN110188730B - 基于mtcnn的人脸检测与对齐方法

Info

Publication number: CN110188730B
Application number: CN201910491272.9A
Authority: CN
Inventors: 金长龙; 王荣生; 田金钊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2022-12-23
Anticipated expiration: 2039-06-06
Also published as: CN110188730A

Abstract

本申请实施例提供了一种基于MTCNN的人脸检测与对齐方法，包括：将输入图像进行缩放得到多个分辨率的金字塔图像层；滑动扫描得到候选窗口；通过P‑Net神经网络对候选窗口进行人脸筛选得到第一筛选人脸；对P‑Net神经网络进行焦点损失训练输出第一检测人脸；通过R‑Net神经网络对第一检测人脸进行人脸筛选得到第二筛选人脸；对R‑Net神经网络进行焦点损失训练输出第二检测人脸；通过O‑Net神经网络对第二检测人脸进行人脸检测和对齐得到第三检测人脸和人脸关键点；对O‑Net神经网络进行交叉熵损失训练输出人脸区域坐标和人脸关键点坐标。本申请将训练焦点集中在错误分类的样本上，提高了人脸检测与对齐的准确度。

Description

基于MTCNN的人脸检测与对齐方法

技术领域

本申请涉及人脸检测与对齐技术领域，尤其涉及一种基于MTCNN的人脸检测与对齐方法。

背景技术

随着人工智能的发展，人脸识别在众多领域得到了越来越广泛地应用，人脸检测与对齐是人脸识别过程中的重要步骤，其中，人脸检测是指识别出一张图像中是否包含人脸，人脸对齐是指定为人脸关键点，如眼睛、鼻子、嘴巴等。

MTCNN(Multi-Task Convolutional Neural Network，多任务卷积神经网络)是进行人脸检测与对齐的一种神经网络算法，MTCNN为了精确地探测面部，并尽可能多地排除复杂背景下类似面部的困难负样本，就需要在训练中加入大量的负样本。而非面部背景的复杂多样和人脸前景的稀缺，就导致了人脸检测算法面临极端的前景背景不平衡，导致人脸检测与对齐的准确度有限。

发明内容

本申请提供了一种基于MTCNN的人脸检测与对齐方法，以解决人脸检测与对齐准确度不高的问题。

本申请提供了一种基于MTCNN的人脸检测与对齐方法方法，该方法包括：

将输入图像进行缩放得到多个分辨率的金字塔图像层；

通过固定大小的窗口对多个所述金字塔图像层分别进行滑动扫描，得到多个候选窗口；

通过P-Net神经网络对所述候选窗口进行人脸筛选，得到第一筛选人脸；

根据所述第一筛选人脸对所述P-Net神经网络进行焦点损失训练，得到所述P-Net神经网络输出的第一检测人脸；

通过R-Net神经网络对所述第一检测人脸进行人脸筛选，得到第二筛选人脸；

根据所述第二筛选人脸对所述R-Net神经网络进行焦点损失训练，得到所述R-Net神经网络输出的第二检测人脸；

通过O-Net神经网络对所述第二检测人脸进行人脸检测和对齐，得到第三检测人脸和人脸关键点；

根据所述第三检测人脸和人脸关键点对所述O-Net神经网络进行交叉熵损失训练，得到所述O-Net神经网络输出人脸区域坐标和人脸关键点坐标。

可选地，根据所述第一筛选人脸对所述P-Net神经网络进行焦点损失训练，得到所述P-Net神经网络输出的第一检测人脸，包括：

利用焦点损失函数对所述第一筛选人脸进行分类训练；

判断所述第一筛选人脸的分类结果变化是否在预设范围内；

如果所述第一筛选人脸的分类结果变化在预设范围内，输出所述P-Net神经网络从所述第一筛选人脸中筛选出的第一检测人脸。

可选地，所述焦点损失函数为：

其中，m表示所述第一筛选人脸的个数，p_t表示所述第一筛选人脸分类正确的概率，α_t表示所述第一筛选人脸分类的权重，γ为焦点系数。

可选地，通过P-Net神经网络对所述候选窗口进行人脸筛选，得到第一筛选人脸，包括：

对所述候选窗口进行特征正则化；

对特征正则化后的候选窗口进行卷积层计算；

对卷积计算后的候选窗口进行全连接层计算，得到所述候选窗口的分类结果。

可选地，根据所述第一筛选人脸对所述P-Net神经网络进行焦点损失训练，得到所述P-Net神经网络输出的第一检测人脸，之前还包括：对所述第一筛选人脸进行非极大值抑制。

可选地，将输入图像进行缩放得到多个分辨率的金字塔图像层，之前还包括：建立人脸检测与对齐的数据集。

可选地，建立人脸检测与对齐的数据集，包括：

通过与ground-truth并集分之交集的大小来确定负样本、正样本和部分面部样本本；

将标注有人脸关键点的人脸图像作为关键点回归样本；

建立包含所述负样本、正样本、部分面部样本和关键点回归样本的数据集。

可选地，建立人脸检测与对齐的数据集，还包括：

将所述负样本、正样本、部分面部样本和关键点回归样分别进行翻转处理得到对应的镜面样本；

将所述负样本、正样本、部分面部样本、关键点回归样本和镜面样本的图像对比度、亮度、色相和饱和度分别进行随机处理，得到对应的调色样本；

将所述负样本、正样本、部分面部样本、关键点回归样本、镜面样本和调色样本的像素值进行归一化处理，得到扩充数据集。

本申请提供的基于MTCNN的人脸检测与对齐方法的有益效果包括：

本申请通过对MTCNN的P-Net神经网络、R-Net神经网络和O-Net神经网络进行焦点损失训练，得到新的P-Net神经网络、R-Net神经网络和O-Net神经网络，从而构建成焦点MTCNN，通过焦点损失能够将训练焦点集中在错误分类的样本上，提高了人脸检测与对齐的准确度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于MTCNN的人脸检测与对齐方法的流程示意图；

图2为本申请实施例提供的一种P-Net神经网络训练的流程示意图；

图3为本申请实施例提供的一种不同焦点系数下的焦点损失曲线示意图；

图4为本申请实施例提供的一种R-Net神经网络训练的流程示意图；

图5为本申请实施例提供的一种O-Net神经网络训练的流程示意图；

图6为本申请实施例提供的一种不同平衡因子α下的样本分类正确率示意图；

图7为本申请实施例提供的一种基于焦点损失的MTCNN与现有MTCNN的样本分类正确率对比示意图；

图8为本申请实施例提供的一种人脸关键点评估对比示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

参见图1，为本申请实施例提供的一种基于MTCNN的人脸检测与对齐方法的流程示意图，如图1所示，本申请实施例提供的基于MTCNN的人脸检测与对齐方法，包括以下步骤：

步骤S100：建立人脸检测与对齐的数据集。

本申请实施例中，使用WIDER FACE(自然场景无约束人脸)作为面部分类和面部边界框回归的训练数据集，使用CelebA(CelebFaces Attributes Dataset，名人面部关键点标注和面部属性数据集)作为面部关键点训练集。

利用WIDER FACE制作图像数据样本：(a)负样本、(b)正样本和(c)部分面部，通过与ground-truth(背景真值)的IoU(并集分之交集)大小来确定每种样本的比例范围，见表1：

表1

数据种类	与ground-truth的IoU
		(a)负样本	<0.3
(b)正样本	>0.65
		(c)部分面部样本	0.4～0.65

利用CelebA制作图像数据样本：(d)关键点回归。(d)是带有人脸关键点标注的数据集。

(a)和(b)可用于人脸分类任务，(b)和(c)可用于边界框回归(BBox reg)，(d)可用于人脸关键点定位。

建立包含上述(a)、(b)、(c)、(d)四种样本的数据集。进一步的，本申请实施例还对数据集进行了扩充及归一化处理，包括以下步骤：

将负样本、正样本、部分面部样本和关键点回归样分别进行翻转处理得到对应的镜面样本；将负样本、正样本、部分面部样本、关键点回归样本和镜面样本的图像对比度、亮度、色相和饱和度分别进行随机处理，得到对应的调色样本；将负样本、正样本、部分面部样本、关键点回归样本、镜面样本和调色样本的像素值进行归一化处理，得到扩充数据集。其中，对(d)样本进行翻转处理后，(d)样本中的人脸关键点也随之翻转。归一化处理的内容是将RGB通道的每个像素值减去127.5，并除以128将图像像素值规范到[-1,1]区间。

步骤S110：将输入图像进行缩放得到多个分辨率的金字塔图像层。

本步骤中，输入图像为步骤S100得到的扩充数据集中的样本。将输入图像按照多个比例范围进行缩放得到多个分辨率的金字塔图像层。

步骤S120：通过固定大小的窗口对多个金字塔图像层分别进行滑动扫描，得到多个候选窗口。

固定大小的窗口可选为12×12像素，对多个金字塔图像层分别进行滑动扫描，可提取到不同分辨率的图像。

步骤S130：通过P-Net神经网络对候选窗口进行人脸筛选，得到第一筛选人脸。

通过MTCNN中的P-Net神经网络对候选窗口进行人脸筛选，可初步判断出候选窗口是否包含人脸，通过P-Net神经网络筛选出的人脸窗口，称为第一筛选人脸。

本申请在P-Net神经网络的卷积层之前，对候选窗口进行特征正则化处理，可使用更大的学习率，并增加网络性能。

步骤S140：根据第一筛选人脸对P-Net神经网络进行焦点损失训练，得到P-Net神经网络输出的第一检测人脸。

参见图2，为本申请实施例提供的一种P-Net神经网络训练的流程示意图，如图2所示，根据步骤S130得到第一筛选人脸后，进行的P-Net神经网络训练包括以下步骤：

步骤S401：对第一筛选人脸进行非极大值抑制。

通过非极大值抑制，去除步骤S130得到的重叠大的窗口。

步骤S402：利用焦点损失函数对第一筛选人脸进行分类训练。

分类训练是训练面部分类功能，面部分类是判断一个图像是不是人脸，这是个一二分类问题，可用使用交叉熵损失函数(CE Loss)：

(1)式中，m是样本的个数，即第一筛选人脸的个数，p_i是一个图像是人脸的概率，即第一筛选人脸分类正确的概率，

是标注标签p(ground-truth label),其中，1表示人脸，0表示非人脸。

本申请实施例中，焦点损失函数为在交叉熵损失函数上改进的函数，改进过程如下：

对(1)式进行轻微的变形，令：

(2)式中，p_t表示样本分类正确的概率。则L_face,CE为：

通常，解决类别不平衡的一个方法是增加一个CE平衡因子α∈[0,1]，对于正负类别分别赋予α和1-α的权重。在实践中，α可以通过负类频率设置或者被视为超参数，通过交叉验证来设置。为了方便，本文用公式(2)定义p_t的方式来定义α_t，则加入α平衡后的L_face,CE为：

这个Loss是CE Loss的简单扩展，也是下文Face Classification Loss(面部分类损失)的原始形式。

在训练过程中遇到的类别不平衡损害了模型训练。容易分类的简单样本，特别是简单的负样本，累加了大部分的损失并主导梯度。虽然加入α平衡后在一定层度上平衡了正负样本，但它没有区分简单/复杂样本。因此，本文定义的面部分类损失为：

其中，γ为焦点系数。

通过焦点损失训练，能够降低容易分类的人脸样本在训练过程中返回损失的比重，更加专注于挖掘难以分类的人脸样本。

步骤S403：判断第一筛选人脸的分类结果变化是否在预设范围内。

在P-Net神经网络训练过程中，绘制焦点损失曲线，参见图3，为本申请实施例提供的一种不同焦点系数下的焦点损失曲线示意图，其中，横坐标为概率，纵坐标为损失值。随着训练的进行，曲线不断下降，当纵坐标稳定，即第一筛选人脸的分类结果变化在预设范围内时，可结束对P-Net神经网络的训练，其中，预设范围可根据实际目标进行设置，例如，1％或者0.5％。

步骤S404：如果第一筛选人脸的分类结果变化在预设范围内，输出P-Net神经网络从第一筛选人脸中筛选出的第一检测人脸。

根据步骤S403得到焦点损失曲线中，纵坐标稳定，结束对P-Net神经网络的训练，输出P-Net神经网络经过训练后，从第一筛选人脸中筛选出的第一检测人脸。

如果第一筛选人脸的分类结果变化不在预设范围内，则返回步骤S130继续训练。

步骤S150：通过R-Net神经网络对第一检测人脸进行人脸筛选，得到第二筛选人脸。

通过MTCNN中的R-Net神经网络对第一检测人脸进一步筛选，得到第二筛选人脸。

步骤S160：根据第二筛选人脸对R-Net神经网络进行焦点损失训练，得到R-Net神经网络输出的第二检测人脸。

参见图4，为本申请实施例提供的一种R-Net神经网络训练的流程示意图，如图4所示，根据步骤S150得到第二筛选人脸后，进行的R-Net神经网络训练包括以下步骤：

步骤S601：对第二筛选人脸进行非极大值抑制。

步骤S602：利用焦点损失函数对第二筛选人脸进行分类训练。

步骤S603：判断第二筛选人脸的分类结果变化是否在预设范围内。

步骤S604：如果第二筛选人脸的分类结果变化在预设范围内，输出P-Net神经网络从第二筛选人脸中筛选出的第二检测人脸。

如果第二筛选人脸的分类结果变化不在预设范围内，则返回步骤S150继续训练。

步骤S601-S604的训练过程与步骤S401-S404相同，可参照步骤S401-S404中的训练过程进行训练。

步骤S170：通过O-Net神经网络对第二检测人脸进行人脸检测和对齐，得到第三检测人脸和人脸关键点。

通过MTCNN中的O-Net神经网络对第二检测人脸进一步筛选，得到第三检测人脸，并识别出第三检测人脸关键点。

步骤S180：根据第三检测人脸和人脸关键点对O-Net神经网络进行交叉熵损失训练，得到O-Net神经网络输出人脸区域坐标和人脸关键点坐标。

参见图5，为本申请实施例提供的一种O-Net神经网络训练的流程示意图，如图5所示，根据步骤S170得到第三检测人脸和人脸关键点后，进行的O-Net神经网络训练包括以下步骤：

步骤S801：对第三检测人脸进行非极大值抑制。

步骤S802：利用交叉熵损失函数对第三检测人脸进行分类训练。

交叉熵损失函数即为公式(1)。

步骤S803：判断第三检测人脸的分类结果变化是否在预设范围内。

步骤S804：如果第三检测人脸的分类结果变化在预设范围内，输出第三检测人脸的人脸区域坐标和人脸关键点坐标。

如果第三检测人脸的分类结果变化不在预设范围内，则返回步骤S170继续训练。

本申请实施例提供的基于MTCNN的人脸检测与对齐方法在实施时，对平衡因子α和焦点系数γ的进行了多个组合实验，平衡因子α的选取主要基于图6，参见图6为本申请实施例提供的一种不同平衡因子α下的样本分类正确率示意图，图6中，横坐标为falsepositive(负样本)数量，纵坐标为true positive rate(正确分类概率)。

α＝0.5相当于不添加平衡因子，α＝0.6，α＝0.7的实验效果均优于不添加平衡因子。因此，选取α＝0.6，α＝0.7与焦点系数γ进行组合，平衡因子α和焦点系数γ的组合参见表2：

表2

α	γ	Cont Accuracy
			0.6	0	0.7172
0.6	1	0.7303
			0.6	2	0.7331
0.6	5	0.7210
			0.7	0	0.7193
0.7	0.5	0.7262
			0.7	1	0.7335
0.7	2	0.7330
			0.7	5	0.7227

由表2可知，不同的γ对网络的性能均有不同的提升，但最优的结果并不是γ＝5，可以得出，适当的γ值对降低容易分类样本的损失来优化网络训练比较有效，当γ取值过大时，会过度惩罚容易分类样本的损失，损害了神经网络对全局数据的学习。

参见图7，为本申请实施例提供的一种基于焦点损失的MTCNN与现有MTCNN的样本分类正确率对比示意图，图7中，横坐标为false positive(负样本)数量，纵坐标为truepositive rate(正确分类概率)。

α＝0.7，γ＝1，焦点MTCNN，即本申请的MTCNN，面部分类性能优于现有MTCNN。

本申请对于人脸关键点定位的效果与快速关键点回归的算法ESR(显示形状回归算法)、RCPR(robust cascade position regression，鲁棒级联位置回归算法)、SDM(Supervised Descent Method,监督下降法)、TCDCN(Tasks-Constrained DeepConvolutional Network,任务受限的深卷积网络算法)进行了对比，如图8所示，本申请在关键点定位的精度方面也高于现有MTCNN。可见，尽管在损失函数的权重设置中，加大了对面部分类和面部边界框回归的权重，但本申请将更多精力放在硬样本上，大量容易的样本降低了面部分类损失函数在总体损失中的权重，进而面部边界框回归损失和关键点回归损失的权重在简单中得到了提升。因此，本申请的面部关键点的精度率高于现有MTCNN。

由上述实施例可见，本申请通过对MTCNN的P-Net神经网络、R-Net神经网络和O-Net神经网络进行焦点损失训练，得到新的P-Net神经网络、R-Net神经网络和O-Net神经网络，从而构建成焦点MTCNN，通过焦点损失能够将训练焦点集中在错误分类的样本上，提高了人脸检测与对齐的准确度。

由于以上实施方式均是在其他方式之上引用结合进行说明，不同实施例之间均具有相同的部分，本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

需要说明的是，在本说明书中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的结构、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种结构、物品或者方法所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里发明的公开后，将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种基于MTCNN的人脸检测与对齐方法，其特征在于，包括：

将输入图像进行缩放得到多个分辨率的金字塔图像层；

根据所述第一筛选人脸对所述P-Net神经网络进行焦点损失训练，得到所述P-Net神经网络输出的第一检测人脸，其中，所述焦点损失训练的焦点损失函数为：

其中，m表示所述第一筛选人脸的个数，p_t表示所述第一筛选人脸分类正确的概率，α_t表示所述第一筛选人脸分类的权重，γ为焦点系数；

2.如权利要求1所述的基于MTCNN的人脸检测与对齐方法，其特征在于，根据所述第一筛选人脸对所述P-Net神经网络进行焦点损失训练，得到所述P-Net神经网络输出的第一检测人脸，包括：

利用焦点损失函数对所述第一筛选人脸进行分类训练；

判断所述第一筛选人脸的分类结果变化是否在预设范围内；

3.如权利要求1所述的基于MTCNN的人脸检测与对齐方法，其特征在于，通过P-Net神经网络对所述候选窗口进行人脸筛选，得到第一筛选人脸，包括：

对所述候选窗口进行特征正则化；

对特征正则化后的候选窗口进行卷积层计算；

4.如权利要求1所述的基于MTCNN的人脸检测与对齐方法，其特征在于，根据所述第一筛选人脸对所述P-Net神经网络进行焦点损失训练，得到所述P-Net神经网络输出的第一检测人脸，之前还包括：对所述第一筛选人脸进行非极大值抑制。

5.如权利要求1所述的基于MTCNN的人脸检测与对齐方法，其特征在于，将输入图像进行缩放得到多个分辨率的金字塔图像层，之前还包括：建立人脸检测与对齐的数据集。

6.如权利要求5所述的基于MTCNN的人脸检测与对齐方法，其特征在于，建立人脸检测与对齐的数据集，包括：

通过与背景真值并集分之交集的大小来确定负样本、正样本和部分面部样本；

将标注有人脸关键点的人脸图像作为关键点回归样本；

7.如权利要求6所述的基于MTCNN的人脸检测与对齐方法，其特征在于，建立人脸检测与对齐的数据集，还包括：