CN111898406A

CN111898406A - 基于焦点损失和多任务级联的人脸检测方法

Info

Publication number: CN111898406A
Application number: CN202010506172.1A
Authority: CN
Inventors: 杨绿溪; 王驭扬; 徐琴珍; 俞菲; 李春国; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-11-06
Anticipated expiration: 2040-06-05
Also published as: CN111898406B

Abstract

本发明公开了一种基于焦点损失和多任务级联的人脸检测方法，属于计算机视觉技术领域。本发明使用深度学习技术，将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测。首先基于深度学习构建多任务级联卷积神经网络模型，对多任务损失函数进行焦点损失优化；并在网络训练阶段使用在线困难样本挖掘和多尺度训练优化。采用我们设计的人脸检测方法可以有效提高在各种无约束场景中进行人脸检测的平均精度。

Description

基于焦点损失和多任务级联的人脸检测方法

技术领域

本发明属于计算机视觉技术领域，特别是涉及基于焦点损失和多任务级联的人脸检测方法。

背景技术

自七十年代以来，人脸识别就成为了计算机视觉领域的研究热点之一。传统的人脸识别方法通过手工提取特征，这种方法在对无约束场景中的各种复杂人脸情况进行检测时，有很大的局限性，无法满足实际的应用需求。随着深度学习的兴起，基于卷积神经网络的深度学习方法开始展现出其优越性，基于手工特征和机器学习的传统方法开始被大型数据集训练的深层神经网络所取代。

人脸检测是人脸识别的第一步，也是人脸识别系统中最重要的模块之一。它是目标检测的一种特殊场景，同时也是目标检测中最重要和最受关注的研究场景。将卷积神经网络应用到目标检测是目前的研究趋势之一。目前网络上已经能够提供许多公开的大规模人脸数据集，这些数据集中的图像包含了现实世界中的各种复杂情况。使用这些公开数据集来训练神经网络模型，能够实现很高的人脸检测精度。

针对人脸检测问题，已经出现了一系列基本的基于卷积神经网络的算法，包括区域卷积神经网络算法、级联卷积神经网络算法等等。如今人脸检测可以很容易地检测到近距离正面的人脸。而对于一些无约束不可控的人脸检测问题依然面临很大的挑战，如遮挡、姿势、表情和光照条件等诸多因素都会导致人脸外观的视觉变化，并可能严重影响人脸检测的准确性。在复杂环境下，比如人口较密集的公共场所，如服务大厅、室外广场等，对于大量不同的人员进行准确及时的人脸检测，相关的方法还需要进一步的研究改进。另外在进行人脸检测时经常会出现类别失衡问题，因为在一张输入图像中，人脸这个需检测的目标所占比例一般远小于背景所占比例，在人脸检测中，认为人脸为正样本，背景等为负样本，所以该分类问题中以负样本为主，带来了类别不平衡问题。因此人脸检测方法的研究依然具有重大意义。

基于深度学习的人脸检测方法的主要思想是使用卷积神经网络，用人脸数据集训练深度神经网络，让网络学习到人脸的图像特征并用来检测图像中的所有人脸。同时在复杂的场景下，单独的人脸检测往往无法拥有很好的性能，因为人脸检测是目标检测的一种最常见的特例，不考虑其人脸的特殊性，会忽视人脸相对于普通目标的生物特征。因此可以考虑人脸检测和后续人脸对齐之间的内在联系，将人脸属性识别作为辅助，利用深度卷积神经网络在人脸检测同时考虑人脸对齐，来提高整体的检测性能。

发明内容

为了解决无约束场景中人脸检测的问题，本发明提供基于焦点损失和多任务级联的人脸检测方法，使用深度学习人脸检测技术，针对复杂场景下的人脸检测问题，将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测，为达此目的，本发明提供基于焦点损失和多任务级联的人脸检测方法，具体步骤如下：

(1)构建多任务级联卷积神经网络模型，对多任务损失函数进行焦点损失优化，具体步骤为：

步骤1.1：先将输入图片调整为不同比例的大小，建立一个图像金字塔，构建多任务级联卷积神经网络第一层建议网络，它是一个全卷积网络，作为人脸区域的区域建议网络用来生成候选框，对于不同缩放比例的图像金字塔，将输入图片resize到大小为12*12，利用全卷积神经网络将输入经过三个卷积层进行初步特征提取，获得候选建议窗口以及它们的边框回归向量，然后使用边框回归向量用来校准候选窗口，再用非极大值抑制合并高度重叠的候选窗口，使用全卷积输出1*1*32的特征，这一步的输出只有N个边界框坐标信息的四个参数和分类得分，坐标信息的四个参数通过边框回归支路的输出进行修正，分类得分为人脸分类支路的输出，代表它是人脸的概率，再对人脸的分类损失函数采取焦点损失优化，得到的人脸分类损失函数

和回归损失函数

分别为：

其中p_i表示网络预测结果中样本是人脸的概率，

表示表示真实分类标签，α表示不同类别的权重系数，γ表示焦点损失的聚焦参数，

表示回归目标并从网络获得，

为真实边界框坐标，各有四个参数，包括边界框的左顶点坐标、高度和宽度，因此

从而得到该层卷积神经网络目标函数为：

其中N是训练样本数量，δ表示该任务在多任务中的重要性权重参数，β代表样本类型；

步骤1.2：构建多任务级联卷积神经网络第二层细化网络，相比建议网络增加了一个全连接层，能对输入数据做更进一步的筛选，从而达到高精度过滤和人脸区域优化的效果；将输入图片resize到大小为24*24，上一步的所有候选窗口都被送到该网络，进一步挑选并去除大量的错误候选，然后再用边框回归进行校准，同样再使用非极大值抑制对候选窗进行合并，在最后一个卷积层之后使用了一个128维的全连接层，保留更多的图像特征，这一步的输出只有M个边界框坐标信息的四个参数和分类得分，坐标信息的四个参数也通过边框回归支路的输出进行修正，同样对人脸的分类损失函数采取焦点损失优化，得到的人脸分类损失函数

和回归损失函数

以及该层卷积神经网络目标函数为分别为：

其中参数定义与步骤1.1中相同；

步骤1.3：构建多任务级联卷积神经网络第三层输出网络，相比细化网络再多加一个卷积层，使用更复杂的网络对模型性能进行优化，将输入图片resize到大小为48*48，多加的一层卷积层利用更多的监督信息来识别面部的区域，并对人的面部特征点进行回归，最终输出5个确定的人脸关键点的位置，在网络结构的最后同样是一个更大的256维全连接层，输出包含P个边界框坐标信息的四个参数、分类得分和人脸关键点的位置信息，同样对人脸的分类损失函数采取焦点损失优化，得到的人脸分类损失函数

回归损失函数

和人脸关键点定位损失函数

以及该层卷积神经网络目标函数为分别为：

其中

和

的参数定义与步骤1.1中相同，

表示从网络中获得的人脸特征点坐标参数，

为真实人脸特征点坐标，因为需要检测的人脸特征为人脸上的5个特征点，包括左眼、右眼、鼻子、嘴左边界和嘴右边界，因此一共有10个参数，

目标函数增加了人脸关键点定位损失函数，参数定义不变。

任务级联卷积神经网络模型，对多任务损失函数进行焦点损失优化，

(2)在网络训练阶段使用在线困难样本挖掘和多尺度训练优化；

步骤2.1：网络进入训练阶段，进行在线困难样本挖掘。将输入的训练数据分为小批量，在每个小批量中，在前向传播阶段计算所有样本的损失，并对它们进行排序，并选择其中的前70％作为困难样本。然后只计算后向传播阶段的困难样本的梯度，根据这些损失最大的70％样本来后向传播更新网络模型的权重参数；

步骤2.2：在训练网络时使用多尺度训练方式，在训练过程中，在训练过程中通过resize调整原始图像的大小，为每张图像设计一个多比例的表示，这样在测试过程中模型对于检测很多低分辨率的人脸目标会更加适应，使用标准的随机梯度下降算法以端到端的方式来训练，将训练得到的网络模型用于人脸检测。

有益效果：本发明提供基于焦点损失和多任务级联的人脸检测方法，该方法使用深度学习人脸检测技术，针对无约束场景下的人脸检测问题，将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测。首先构建多任务级联卷积神经网络模型，并对多任务损失函数进行焦点损失优化，最后在网络训练阶段使用在线困难样本挖掘和多尺度训练优化。采用我们设计的人脸检测方法可以有效提高在各种无约束场景中进行人脸检测的平均精度。

附图说明

图1为本发明基于焦点损失和多任务级联的人脸检测方法流程图；

图2为基于焦点损失和多任务级联的人脸检测网络模型结构图；

图3为WIDER FACE数据集中的简单难度子集下，本发明与其他方法的P-R曲线；

图4为WIDER FACE数据集中的中等难度子集下，本发明与其他方法的P-R曲线；

图5为WIDER FACE数据集中的困难难度子集下，本发明与其他方法的P-R曲线；

图6为FDDB数据集下检测评分以离散方式，本发明与其他方法的ROC曲线；

图7为FDDB数据集下检测评分以连续方式，本发明与其他方法的ROC曲线；

图8为本发明在测试图片下的人脸检测效果图；

图9为本发明在测试图片下的人脸检测效果图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供基于焦点损失和多任务级联的人脸检测方法，使用深度学习人脸检测技术，针对复杂场景下的人脸检测问题，将焦点损失与多任务级联卷积神经网络相结合来进行人脸检测。

下面结合附图，应用具体的公共领域中最具挑战性的人脸检测基准数据集，对本发明基于焦点损失和多任务级联的人脸检测方法的具体实施方式作进一步详细说明，其中图1为本发明基于焦点损失和多任务级联的人脸检测方法流程图，图2为基于焦点损失和多任务级联的人脸检测网络模型结构图，图3为WIDER FACE数据集中的简单难度子集下，本发明与其他方法的P-R曲线，图4为WIDER FACE数据集中的中等难度子集下，本发明与其他方法的P-R曲线，图5为WIDER FACE数据集中的困难难度子集下，本发明与其他方法的P-R曲线，图6为FDDB数据集下检测评分以离散方式，本发明与其他方法的ROC曲线，图7为FDDB数据集下检测评分以连续方式，本发明与其他方法的ROC曲线，图8为本发明在测试图片下的人脸检测效果图，图9为本发明在测试图片下的人脸检测效果图。

步骤1：先将输入图片调整为不同比例的大小，建立一个图像金字塔。构建多任务级联卷积神经网络第一层建议网络，作为人脸区域的区域建议网络用来生成候选框。对于不同缩放比例的图像金字塔，将输入图片resize到大小为12*12，利用全卷积神经网络将输入经过三个卷积层进行初步特征提取，获得候选建议窗口以及它们的边框回归向量。然后使用边框回归向量用来校准候选窗口，再用非极大值抑制合并高度重叠的候选窗口。使用全卷积输出1*1*32的特征。输出边界框坐标信息的四个参数和分类得分，坐标信息的四个参数通过边框回归支路的输出进行修正。再对人脸的分类损失函数采取焦点损失优化。

步骤2：构建多任务级联卷积神经网络第二层细化网络，将输入图片resize到大小为24*24，上一步的所有候选窗口都被送到该网络，进一步挑选并去除大量的错误候选，然后再用边框回归进行校准，同样再使用非极大值抑制对候选窗进行合并。在最后一个卷积层之后使用了一个128维的全连接层，保留更多的图像特征。输出边界框坐标信息的四个参数和分类得分，坐标信息的四个参数也通过边框回归支路的输出进行修正。同样对人脸的分类损失函数采取焦点损失优化。

步骤3：构建多任务级联卷积神经网络第三层输出网络。将输入图片resize到大小为48*48，多加一层卷积层利用更多的监督信息来识别面部的区域，并对人的面部特征点进行回归，最终输出5个确定的人脸关键点的位置。在网络结构的最后是一个更大的256维全连接层。输出包含边界框坐标信息的四个参数、分类得分和人脸关键点的位置信息。同样对人脸的分类损失函数采取焦点损失优化。

步骤4：至此，如图2的训练网络已经搭建完成，网络进入训练阶段。先在WIDERFACE数据集下进行实验验证。WIDER FACE数据集共收集了32203张图像中的393703张有标签的人脸，其中50％的人脸根据图像的难度分为三个子集进行测试，40％用于训练，10％用于验证。在训练过程中，使用四种不同的数据注释。第一是人脸负样本，指与任何真实人脸的交并比小于0.3的区域；第二是人脸正样本，指与真实人脸的交并比大于0.7的区域；第三是部分人脸，指与真实人脸的交并比在0.3到0.7之间的区域；第四是人脸坐标，标注人脸中的5个坐标点。正样本和负样本用于人脸分类任务，正样本和部分人脸用于边框回归，人脸坐标用于人脸关键点定位。输入WIDER FACE数据集的训练数据，采取在线困难样本挖掘和多尺度训练策略，在配置有2颗Intel Xeon Gold 6132处理器，2块NVIDIA Tesla P100显卡，128G内存的服务器上对模型进行训练。将本发明方法与现有的其他人脸检测方法(多任务级联MTCNN，人脸检测器Faceness，多通道特征ACF)进行对比，对于WIDER FACE的三种测试集(简单，中等，困难)分别画出精确率-召回率(P-R)曲线图，如图3、图4、图5所示。

步骤5：再对基于焦点损失和多任务级联的人脸检测网络模型在FDDB数据集下进行实验验证。FDDB数据集一共有5171张被标记的人脸，包含在2845个图像中。FDDB有两种对图像中的检测结果进行评分的方法：离散评分法和连续评分法。在离散评分准则下，如果检测区域与有标注的人脸区域的交并比大于0.5，则为检测区域分配1分，否则为0分。在连续评分准则下，将检测区域与有标注的人脸区域的交并比用作检测区域的分数。输入FDDB数据集的训练数据，采取在线困难样本挖掘和多尺度训练策略，在服务器上对模型进行训练。将本发明方法与现有的其他人脸检测方法(多任务级联MTCNN，人脸检测器Faceness，多通道特征ACF)进行对比，对于离散和连续两种评分方式，分别画出ROC曲线图，如图6和7所示。

步骤6：将训练好的网络用于人脸检测，部分测试图片的人脸检测效果如图8和图9所示，从图中可以清楚地看到图片中的人脸都被检测了出来，检测定位十分准确。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.基于焦点损失和多任务级联的人脸检测方法，具体步骤如下，其特征在于：

和回归损失函数

分别为：

其中p_i表示网络预测结果中样本是人脸的概率，

表示回归目标并从网络获得，

从而得到该层卷积神经网络目标函数为：

其中N是训练样本数量，δ表示该任务在多任务中的重要性权重参数，β代表样本类型；步骤1.2：构建多任务级联卷积神经网络第二层细化网络，相比建议网络增加了一个全连接层，能对输入数据做更进一步的筛选，从而达到高精度过滤和人脸区域优化的效果；将输入图片resize到大小为24*24，上一步的所有候选窗口都被送到该网络，进一步挑选并去除大量的错误候选，然后再用边框回归进行校准，同样再使用非极大值抑制对候选窗进行合并，在最后一个卷积层之后使用了一个128维的全连接层，保留更多的图像特征，这一步的输出只有M个边界框坐标信息的四个参数和分类得分，坐标信息的四个参数也通过边框回归支路的输出进行修正，同样对人脸的分类损失函数采取焦点损失优化，得到的人脸分类损失函数