CN110263774A

CN110263774A - 一种人脸检测方法

Info

Publication number: CN110263774A
Application number: CN201910761999.4A
Authority: CN
Inventors: 殷绪成; 杨博闻; 杨春
Original assignee: Zhuhai Wisdom Electronic Technology Co Ltd
Current assignee: Zhuhai Wisdom Electronic Technology Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-09-20
Anticipated expiration: 2039-08-19
Also published as: US10984224B2; US20210056293A1; CN110263774B

Abstract

本发明公开了一种人脸检测方法，包括以下步骤：1、输入图像首先通过图像金字塔按照一定的比例缩放到不同的大小，然后以滑动窗口的方式依次通过第一级网络，粗略的预测出人脸的坐标和人脸的置信度以及人脸的朝向，之后，按照置信度排名过滤掉大部分的负样本，并将剩下的图像块送入第二级网络；2、第二级网络进一步过滤掉非人脸的样本并回归出更加精确的位置坐标，给出人脸朝向的预测结果；3、角度仲裁机制将结合前两个网络的预测结果对每个样本的旋转角度做出最终仲裁；4、每个图像块按照角度仲裁机制所仲裁的结果转正，然后送入第三级网络做精调，以预测出关键点的位置。本发明实现了将任意旋转角度的人脸对齐到了标准人脸的位置。

Description

一种人脸检测方法

技术领域

本发明涉及计算机视觉领域的人脸检测技术领域，具体涉及一种人脸检测方法。

背景技术

人脸检测在身份认证、安防、媒体和娱乐等领域有着广泛的应用，人脸检测问题起源于人脸识别，是实现人脸识别的关键步骤，特别是在开放场景中，由于人脸在姿态、光照、尺度等方面的多样性，给人脸及其关键点检测带来巨大挑战，在过去的十多年里，计算机视觉领域涌现出大量的方法来提高机器检测人脸的能力，传统的人脸检测方法根据实现机理可以分为基于几何特征的方法，基于肤色模型的方法和基于统计理论的方法，其中，基于几何特征的方法主要利用人类面部器官体现出的几何特征实现人脸检测；基于肤色模型的方法认为人脸的肤色与非人脸区域具有显著区别；基于统计理论的方法是利用统计分析与机器学习的方法来寻找出人脸样本与非人脸样本各自的统计特征，再使用各自的特征构建分类器，这类方法包括子空间方法，神经网络方法，支持向量机方法，隐马尔可夫模型方法和Boosting方法，随着近年来算力和数据的空前增加，基于CNN的方法全面超越了前述的传统方法，很多方法被提出用来解决非约束场景下人脸检测的问题。

本发明聚焦于解决平面旋转不变的人脸及其关键点检测问题，相比于俯仰和侧脸，平面旋转的人脸具有与正面人脸相同的语义信息，因此解决这一问题对于后续的人脸识别、面部分析等工作具有重要意义。为了解决旋转不变的人脸检测，Huang Chang等人在2007年论文（Huang C , Ai H , Li Y , et al. High-Performance Rotation InvariantMultiview Face Detection[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2007, 29(4):671-686.）采用分而治之的策略，即对于不同角度的人脸采用不同的检测器，每个检测器只对一个小范围内的旋转人脸鲁棒，去他们的综合结果作为最后的预测输出。STN（Jaderberg M, Simonyan K, Zisserman A, et al.Spatial Transformer Networks[J]. 2015.）通过在训练中学习旋转矩阵实现对目标的旋转不变性，但这种方法同时只对一个目标有效。最近，Shi等人2018年的论文（Shi X , ShanS , Kan M , et al. Real-Time Rotation-Invariant Face Detection withProgressive Calibration Networks[J]. 2018.）提出用级联的方法，由粗到精的学习旋转角度，从而达到对人脸检测的旋转不变，但其检测结果仍然需要额外的关键点信息来实现人脸对齐。

Sun Yi等人的论文（Sun Y , Wang X , Tang X . Deep Convolutional NetworkCascade for Facial Point Detection[C]// Computer Vision and PatternRecognition, 2013 IEEE Conference on. IEEE, 2013.）首次将深度学习引入人脸关键点检测任务，TCDCN（Zhang Z , Luo P , Loy C C , et al. Facial Landmark Detectionby Deep Multi-task Learning[C]// European Conference on Computer Vision.Springer, Cham, 2014.）利用和人脸关键点紧密相关的表情、性别等属性提高对关键点检测的鲁棒性，但是这些方法都与人脸检测分离，使得这类方法对前一步的检测结果具有较大的依赖，HyperFace（Ranjan R, Patel V M, Chellappa R. HyperFace: A Deep Multi-task Learning Framework for Face Detection, Landmark Localization, PoseEstimation, and Gender Recognition[J]. IEEE Transactions on Pattern Analysis& Machine Intelligence, 2018, PP(99):1-1.）将更多的属性标签加入训练任务，通过多任务学习提高关键点回归的准确度，然而，过多的学习任务带来了更大的计算量和更多的运行时间，对于人脸检测这种对实时性要求很高的任务来说，这种方法显然有很多局限性。

级联的思想在传统方法中就得到了广泛的应用，例如Adboost类的方法，随着CNN的崛起，多阶段级联的CNN方法也应运而生，与单阶段的方法如SSD（Liu W , Anguelov D ,Erhan D , et al. SSD: Single Shot MultiBox Detector[J]. 2015.）和YOLO（Redmon J, Divvala S , Girshick R , et al. You Only Look Once: Unified, Real-TimeObject Detection[J]. 2015.）相比，级联的结构可以在不明显降低性能的同时大幅提高方法的运行速度。原理在于在级联网络中，大多数的负样本可以被前面的网络过滤掉，使得后面的网络只聚焦在提高对困难样本的分类能力上，这种策略可以显著节省网络参数和计算量。

发明内容

针对现有技术的不足，本发明的目的是提供一种人脸检测方法，该检测方法实现了在检测人脸的同时预测人脸平面旋转角度，然后根据旋转角度将人脸转正，在此基础上回归出人脸面部特征的关键点。

为实现本发明的目的，采取以下的技术方案：一种人脸检测方法，包括以下步骤：

步骤1、输入图像首先通过图像金字塔按照一定的比例缩放到不同的大小，然后以滑动窗口的方式依次通过第一级网络，粗略的预测出人脸的坐标和人脸的置信度以及人脸的朝向（人脸的朝向可以为：朝上、朝下、朝左或朝右），之后，按照置信度排名过滤掉大部分的负样本，并将剩下的图像块送入第二级网络；

步骤2、第二级网络进一步过滤掉非人脸的样本并回归出更加精确的位置坐标，给出人脸朝向的预测结果；

步骤3、角度仲裁机制将结合前两个网络的预测结果对每个样本的旋转角度做出最终仲裁；

步骤4、最后每个图像块按照角度仲裁机制所仲裁的结果转正，并送入第三级网络做最后的精调，以预测出关键点的位置。

所述第一级网络和第二级网络均包括：人脸/非人脸分类任务、人脸边界框回归任务和角度分类任务的训练任务；所述第三级网络包括：人脸/非人脸分类任务、人脸边界框回归任务和人脸关键点回归任务的训练任务；

人脸分类损失函数定义为交叉熵损失函数：

，

其中，表示训练样本的分类标注，下标f表示人脸分类任务，当输入为正样本时，，否则，，其中，为人脸分类预测结果，log表示自然对数，角度分类损失函数定义为：

，

其中，表示训练数据的旋转方向标注，当输入样本的旋转角度落在第个旋转角度附近时，，否则，在训练中，表示四种不同的旋转角度，表示网络预测输入样本落在第个角度的概率，log表示自然对数，人脸边界框的回归采用欧式距离损失函数，边界框的回归目标包括以下四项，分别表示四个坐标的相对偏移量：

，

其中，表示左上点横坐标的相对偏移量，表示左上点纵坐标的相对偏移量，表示右下点横坐标的相对偏移量，表示右下点纵坐标的相对偏移量，和表示预测的宽和高，分别表示训练数据中每个人脸边框的左上点坐标和右下点坐标，分别表示网络预测的边框的左上点坐标和右下点坐标。

通过如下的关键点损失函数来训练人脸的关键点位置：

，

其中，表示训练进程中每个簇的大小，表示每张人脸上关键点个数，表示训练中第n张人脸两只眼睛的连线与图片横轴的夹角，cos表示余弦三角函数，表示第n张人脸第m个关键点预测值与真实值之间的距离，表示二范数，表示大姿态惩罚项，其计算过程如下：1）将除鼻尖外的四个关键点相互连接构成四条边界线；2）计算鼻尖到其最近边界线的相对距离；3）判断鼻尖是否超出边界；4）如果鼻尖在边界内，则w_n=1-，否则，w_n=1。

角度仲裁机制预先设置一个阈值，当第二级网络的预测结果高于该阈值或者第二级网络人脸朝向的预测结果的最高置信度与第一级网络人脸朝向的预测结果的最高置信度相同时，取人脸朝向的预测结果作为最终的预测结果，否则，考察第一级网络中置信度排前两名的人脸朝向的预测结果和第二级网络中置信度排前两名的人脸朝向的预测结果，是否有交集，如果有，则取该交集作为最终的预测结果。

本发明所要解决的关键技术问题是：解决开放场景下任意旋转角度的人脸及其关键点检测问题，在非约束的开放场景中，由于成像设备和被成像人脸随机的相对位置关系，人脸图像可能存在任意的旋转角度，旋转的多样性带来了人脸特征表现的多样性，并伴随有复杂的背景噪声，这给检测工作以及在此基础上的关键点定位带来了巨大的挑战。本发明旨在检测人脸的同时预测人脸平面旋转角度，然后根据旋转角度将人脸转正，在此基础上回归出人脸面部特征的关键点。

本发明的优点和有益效果：

本发明采用级联卷积神经网络的结构，将人脸检测和关键点定位任务在旋转场景下融合，将角度预测和人脸检测任务相结合，实现了同时对旋转角度、人脸分类、人脸边界框回归和关键点定位。本发明输出的结果通过简单的相似变换即可实现将任意旋转的人脸对齐到标准人脸的位置，与此同时，本方法在保持小尺寸模型的情况下可以实现在通用CPU上实时的运行速度，对于移动计算工程部署具有重要的实际意义。

附图说明

图1为本发明总体框架流程实例图。

图2为本发明在AFLW数据集上的测试对比结果。

图3为本发明的测试效果图。

具体实施方式

实施例

下面结合具体实施方式对本发明作进一步的说明。

针对开放的应用场景，本发明结合深度学习方法和级联的思想，提出了旋转鲁棒的人脸及其关键点检测器，深度学习的思想已经被很多方法证明在特征提取方面具有其他方法无法比拟的优势，特别是在非约束场景下，基于深度学习的方法可以更好的提取海量训练样本的特征，此外，级联作为一种可以追溯到传统机器学习的思想方法，近年来被广泛应用于深度学习领域，特别是在人脸检测和关键点检测领域，此外，通过角度仲裁的方式预测人脸的旋转角度，并通过引入姿态惩罚损失函数提高方法对困难样本的预测能力。

这里，首先介绍旋转不变的总体实现方案，总方案由三个相互级联的子网络组成，通过由粗到精的方法逐步提高对人脸检测的准确性，如图1所示，具体的，在测试过程中，输入图像首先通过图像金字塔按照一定的比例缩放到不同的大小，然后以滑动窗口的方式依次通过第一级网络，粗略的预测出人脸的坐标和人脸的置信度以及人脸的朝向（例如：朝上，朝下，朝左，朝右）。之后，按照置信度排名过滤掉大部分的负样本，并将剩下的图像块送入第二级网络，这一级网络进一步过滤掉非人脸的样本并回归出更加精确的位置坐标，同样的，也给出人脸朝向的预测结果，紧接着，角度仲裁机制将结合前两个网络的预测结果对每个样本的旋转角度做出最终仲裁，最后每个图像块按照仲裁的结果转正并送入最后一级网络做最后的精调，并预测出关键点的位置，值得注意的是，非极大抑制操作作为每一阶段的后处理操作来合并高度重合的候选框。

本发明将旋转人脸及其关键点的预测任务分解为多个简单任务，可以在保证旋转鲁棒的同时保持实时的运算速度，对于实际应用具有重要意义。在第一级网络和第二级网络中，角度分类与人脸/非人脸二分类以及边界框的回归是联合学习的，旋转角度分类任务的引入一方面有助于提高旋转人脸检测的召回率，另一方面由于提高了每个小范围角度内样本的聚合程度有助于提高边界框的回归精度。本方法将整个360°平面均分成四份，前两个网络聚焦在预测人脸的旋转角度属于这四类中的哪一类，相比于二分类和更细化的八分类，四分类可以在保证较高准确率的情况下保持更小的参数量。其中，第一级子网络采用全卷积的网络结构。其主要任务包括：从原图中提取候选框并对这些候选框属于人脸的置信度进行初步学习，同时回归边界框的四个坐标。对于第二级子网络，选择上一级的预测结果中人脸置信度高于某阈值的样本作为输入，这些样本中仍然包含大量的负样本，本阶段旨在提高其中正样本的置信度而降低负样本的置信度，从而达到进一步去除负样本的目的，除此之外，此网络也对每个输入样本的旋转方向进行二次预测，经过前两阶段的处理，大量的负样本已经被去除，并且每个保留的样本都包括两组旋转方向的预测结果，角度仲裁机制通过结合这两组输出给出最终的旋转角度预测结果。

本方法的训练过程包括四种任务，它们分别是：人脸/非人脸分类任务，人脸边界框回归任务，角度分类任务和人脸关键点回归任务，这些任务在每个阶段通过不同的权重结合在一起共同作用于每个网络，其中人脸分类损失函数被定义为交叉熵损失函数：

，

值得注意的是，本方法在关键点回归任务中，在传统欧式距离的基础上增加了对大姿态人脸的惩罚项，这主要是因为在现有的训练数据中，大姿态的人脸往往占比较低，导致模型对这类样本的关注度不够，造成训练结果对这些样本的预测结果误差较大，与此同时，根据现有训练数据的标注坐标（例如：左右眼、鼻尖和左右嘴角）的相对位置关系，可以抽取出那些姿态较大人脸的样本，因此本发明构造了如下的关键点损失函数用来训练人脸的关键点定位：

，

其中，表示训练进程中每个簇的大小，表示每张人脸上关键点个数，表示训练中第n张人脸两只眼睛的连线与图片横轴的夹角，cos表示余弦三角函数，表示第n张人脸第m个关键点预测值与真实值之间的距离，表示二范数，表示对第n个训练样本的大姿态惩罚项，其计算过程如下：1）将除鼻尖外的四个关键点相互连接构成四条边界线；2）计算鼻尖到其最近边界线的相对距离；3）判断鼻尖是否超出边界；4）如果鼻尖在边界内，则w_n=1-，否则，w_n=1，这种重定义权重的策略可以使网络将更多的注意力放在大姿态样本中。

角度仲裁机制用来综合前两个网络对人脸旋转角度的预测结果，相互级联的网络结构对错误预测结果的传导也是级联的，这将导致前面的错误结果在后面的阶段无法挽回，在本方法中，前两个网络的角度分类任务是完全相同的，都是在四种朝向范围内做分类预测，不同的是第二级网络输入的样本包含更多的正样本因此具有更可信的预测结果，角度仲裁机制通过设置一个预定义的阈值来结合前两个角度预测结果，具体的，当第二个网络的预测结果高于该阈值或者前两个网络的置信度最高的两个预测结果相同时，本发明取第二级网络的预测作为最终的结果，否则考察两个网络前两名最可信的预测结果是否有交集，如果有，则取它们的交集作为预测结果。

（1）本发明使用的数据集；

FDDB（Vidit Jain and Erik Learned-Miller. 2010. FDDB: A Benchmark for FaceDetection in Unconstrained Settings. Technical Report UM-CS-2010-009.University of Massachusetts, Amherst.）包括2845张自然场景中的图片，其中标注有5171个人脸框，是用于测试人脸检测的通用数据集，但是其中大部分人脸的姿态是典型的，也就是旋转角度较小，为了测试本发明的方法具有旋转不变性，本发明将原数据集的图片分别逆时针旋转90°、180°和270°，结合数据中本身的旋转角度，旋转增广后数据基本可以涵盖整个平面的各个角度，本发明使用本数据集用于评估人脸框检测效果。

AFLW（Martin Köstinger, Wohlhart P , Roth P M , et al. AnnotatedFacial Landmarks in the Wild: A large-scale, real-world database for faciallandmark localization[C]// IEEE International Conference on Computer VisionWorkshops, ICCV 2011 Workshops, Barcelona, Spain, November 6-13, 2011. IEEE,2011.）包括25993张人脸，它们在姿态、遮挡和光照等方面具有多样性，采用本数据集用于测试本发明的关键点检测效果。

（2）测试过程；

本发明的测试和测试均采用Caffe深度学习框架，训练中采用随机梯度下降法进行优化，具体的，三个子网络的训练批量大小分别设置为400，300和200，初始学习率设置为0.01，并在每20,000迭代轮数后递减为原来的十分之一，总的迭代轮数为200,000，权重衰减参数设置为5×10^-4，动量参数为0.9，PReLU作为激活函数接在卷积操作和全连接操作后面。

训练数据来自多个数据源，其中人脸检测和角度分类的数据来自WIDER FACE中典型姿态的样本，这部分姿态人脸的平面偏转角度在±30°之间，人脸关键点的训练数据主要来自CelebA数据集，对于第一个网络，本发明从原图上随机裁剪出候选框作为训练数据，这些候选框根据与真实标注的交并比（IoU）划分成正类、负类和部分类，具体的，IoU>0.7的样本为正类，IoU<0.3的样本为负类，0.4<IoU<0.7的样本为部分类，正类和负类用来训练人脸/非人脸二分类任务，正类和部分类用来训练人脸候选框回归和人脸旋转角度分类任务。第二个网络的训练数据采用相同的划分策略，但数据来源于第一个网络在原数据集上的预测输出，对于第三级网络，需要使用前两个网络在CelebA数据集上裁剪出包含有关键点的图像作为训练样本，在训练过程中，正类、负类、部分类和关键点数据的比例设置为2:3:1:2，此外，为了保证旋转角度分类的训练数据平衡分布，本发明设计了随机旋转层，该层用来在训练中动态随机的旋转输入人脸图像，同时对其标签进行相应的变换，保证在每一个训练批次中各类角度数据的数量占比相同，需要说明的是，随机旋转层仅会将输入图像旋转0°、90°、180°或270°，因为正面人脸数据本身具有小范围的旋转角度，因此引入随机旋转层后的训练数据可以涵盖平面内的所有旋转角度，此外，该层的引入也大幅减少了数据准备的时间和训练中的内存占用。

（3）测试结果；

为了评估本发明的有效性，在上述提到的数据集中分别进行了人脸检测和关键点定位的测试，本发明与目前主流的人脸检测方法进行了对比测试，在人脸检测任务中，本发明选择了复杂度更高，特征表达能力更强的通用目标算法SSD（Liu W , Anguelov D , Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. 2015.）和Faster-RCNN（Ren S ,He K , Girshick R , et al. Faster R-CNN: Towards Real-Time Object Detectionwith Region Proposal Networks[J]. 2015.），以及其他流行的方法在FDDB数据集上进行了对比测试，结果表明本方法在不同旋转角度在误检率一定的情况下保持较高的召回率，特别是对比其他的级联神经网络例如PCN（Shi X , Shan S , Kan M , et al. Real-TimeRotation-Invariant Face Detection with Progressive Calibration Networks[J].2018.）在相同测试集上本发明的方法高出1.8个百分点，在关键点定位的评估测试中，本发明同样选择了若干关键点检测方法在相同的测试集上进行对比，测试结果如图2所示，结果表明本发明的方法在归一化平均误差方面保持了较低的水平，在不同旋转角度的关键点测试集上均可以达到较低的错误率，证明了本发明旋转鲁棒的优势。

此外，为了验证联合学习对于测试结果的有效性，本发明进行了消融测试，分别对比了是否联合训练人脸检测和角度分类以及是否联合训练人脸检测和关键点定位的对比测试，测试表明加入角度分类任务和关键点定位任务都有助于提高人脸检测的效果，可以解释为两种任务的特征在实现共享的同时，相互关联的多个任务在学习的过程中通过特征和权重层面的共享实现对单个任务性能的提高，为了验证大姿态惩罚损失函数的有效性，本发明在AFLW上对比了使用该损失函数与使用普通L2损失函数训练的模型的平均误差，测试表明引入后的关键点的平均误差从引入前的7.9%降低到了7.5%，本发明在通用CPU和GPU上测试了本方法的推理速度，在CPU和GPU上可以分别达到23FPS和60FPS的速度。

本发明提出了一种新型的旋转鲁棒的人脸及其关键点检测方法，通过三个相互级联的卷积神经网络同时实现旋转角度预测、人脸检测和关键点的定位，测试效果如图3所示，通过引入角度仲裁机制和大姿态惩罚损失函数提高对角度的预测的准确度以及大姿态人脸关键点的定位效果。

上列详细说明是针对本发明可行实施例的具体说明，该实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。

Claims

1.一种人脸检测方法，其特征在于，包括以下步骤：

步骤1、把输入的图像通过图像金字塔，并按照一定比例缩放成不同大小的图像，然后以滑动窗口的方式依次通过第一级网络，粗略的预测出人脸的坐标和人脸的置信度以及第一级网络人脸朝向的预测结果，按照置信度排名以过滤掉负样本，再将过滤掉负样本之后剩下的图像块样本送入第二级网络；

步骤2、第二级网络进一步过滤掉非人脸的样本，并回归出更加精确的位置坐标，以得出第二级网络人脸朝向的预测结果；

步骤3、角度仲裁机制结合第一级网络人脸朝向的预测结果和第二级网络人脸朝向的预测结果，对每个图像块样本的旋转角度做出最终仲裁；

步骤4、按照角度仲裁机制所仲裁的旋转角度，把每个图像块样本转正，并送入第三级网络做精调，以预测出人脸的关键点的位置；

人脸分类损失函数定义为交叉熵损失函数：

其中，表示训练数据的旋转方向标注，当输入样本的旋转角度落在第个旋转角度时，，否则，，在训练中，，T表示四种不同的旋转角度，表示网络预测输入样本落在第个角度的概率，log表示自然对数，人脸边界框的回归采用欧式距离损失函数，边界框的回归目标包括以下四项，分别表示四个坐标的相对偏移量：

其中，表示左上点横坐标的相对偏移量，表示左上点纵坐标的相对偏移量，表示右下点横坐标的相对偏移量，表示右下点纵坐标的相对偏移量，和表示预测的宽和高，分别表示训练数据中每个人脸边框的左上点坐标和右下点坐标，分别表示网络预测的边框的左上点坐标和右下点坐标；

通过如下的损失函数来训练人脸的关键点位置：

，

其中，表示训练进程中每个簇的大小，表示每张人脸上关键点个数，表示训练中第n张人脸两只眼睛的连线与图片横轴的夹角，cos表示余弦三角函数，表示第n张人脸第m个关键点预测值与真实值之间的距离，表示二范数，表示对第n个训练样本的大姿态惩罚项，具体计算过程如下：1）将除鼻尖外的四个关键点相互连接构成四条边界线；2）计算鼻尖到其最近边界线的相对距离；3）判断鼻尖是否超出边界；4）如果鼻尖在边界内，则w_n=1- ，否则，w_n=1。

2.根据权利要求1所述的人脸检测方法，其特征在于，所述角度仲裁机制预先设置一个阈值，当第二级网络的预测结果高于该阈值或者第二级网络人脸朝向的预测结果的最高置信度与第一级网络人脸朝向的预测结果的最高置信度相同时，取人脸朝向的预测结果作为最终的预测结果，否则，考察第一级网络中置信度排前两名的人脸朝向的预测结果和第二级网络中置信度排前两名的人脸朝向的预测结果，是否有交集，如果有，则取该交集作为最终的预测结果。

3.根据权利要求1所述的人脸检测方法，其特征在于，所述人脸的朝向为：朝上、朝下、朝左或朝右。