CN107886074B

CN107886074B - 一种人脸检测方法以及人脸检测系统

Info

Publication number: CN107886074B
Application number: CN201711115415.3A
Authority: CN
Inventors: 晋兆龙; 赵波; 陈卫东
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2020-05-19
Anticipated expiration: 2037-11-13
Also published as: WO2019091271A1; CN107886074A

Abstract

本发明揭示一种人脸检测方法以及人脸检测系统。所述人脸检测方法包括如下步骤：建立卷积神经网络框架，所述卷积神经网络框架至少包括：候选区域生成网络、修正网络以及多信息输出网络；将积神经网络框架与一数据准备模块连接；运行候选区域生成网络、生成多个第一人脸候选区域框；运行修正网络，筛选第一人脸候选区域框，对余留的第一人脸候选区域框进行位置修正并进行非极大抑制；运行多信息输出网络，筛选第一人脸候选区域框，对余留的第一人脸候选区域框进行位置修正并进行非极大抑制，输出余留的第一人脸候选区域框以及第一人脸候选区域框对应的人脸特征点以及人脸姿态。

Description

一种人脸检测方法以及人脸检测系统

技术领域

本发明涉及软件开发技术领域，尤其涉及一种人脸检测方法以及人脸检测系统。

背景技术

目前人脸检测主要有两大方向，一种是采用特征加分类器的传统人脸检测方式，比如广泛应用的VJ人脸检测器；另一种是基于深度学习框架的人脸检测方式。

传统的特征加分类器的人脸检测方法主要有两个缺陷，一是对尺寸、角度、画质等因素敏感，检测效果的鲁棒性不够，二是在大图上检测小脸的速度不够快。而采用深度学习框架的人脸检测方式在检测效果上有很大的提升，如今先进的检测方法能够在控制误检的情况下检测出低于20像素×20像素的人脸，且对于角度变化和画质有很好的鲁棒性。但是这种方式通常速度较慢，大部分方法即使有图形处理器(GPU)加速也很难达到实时检测的要求。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种人脸检测方法以及人脸检测系统。

根据本发明的一个方面提供一种人脸检测方法，所述人脸检测方法包括如下步骤：S10：建立卷积神经网络框架，所述卷积神经网络框架至少包括：候选区域生成网络、修正网络以及多信息输出网络，其中，该步骤中包括如下步骤：训练所述候选区域生成网络、修正网络以及多信息输出网络；将所述候选区域生成网络、修正网络以及多信息输出网络依次级联；S20：将所述卷积神经网络框架与一数据准备模块连接，其中，所述数据准备模块用于获取源图像，并根据所述候选区域生成网络、修正网络以及多信息输出网络的需求对源图像进行处理；S30：所述数据准备模块按照所述候选区域生成网络的图像输入格式要求将所述源图像中的待检测图像进行格式转换并发送至所述候选区域生成网络后，运行所述候选区域生成网络、生成多个第一人脸候选区域框；S40：所述数据准备模块根据所述步骤S30中的第一人脸候选区域框获取图像数据，运行所述修正网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制；S50：所述数据准备模块根据所述步骤S40中的第一人脸候选区域框获取图像数据，运行所述多信息输出网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制，输出余留的所述第一人脸候选区域框以及所述第一人脸候选区域框对应的人脸特征点以及人脸姿态；

所述多信息输出网络的训练包括如下步骤：

由winderface数据集中获取人脸正负样本以及人脸框回归值样本；

由CelebA数据集中获取人脸特征点样本；

由AFLW数据集中获取人脸姿态样本；

根据所述人脸正负样本、人脸框回归值样本、人脸特征点样本以及人脸姿态样本进行多任务联合训练，其中，分类的损失函数为：

上式中，p_i为所述多信息输出网络在所述人脸正负样本中的预测值，

是所述人脸正负样本的标签；

框位置的损失函数为：

上式中，

为所述多信息输出网络在所述人脸框回归值样本中的预测值，

为人脸框回归值样本的标注值；

人脸特征点的损失函数为：

上式中，

为所述多信息输出网络在所述人脸特征点样本中的预测值，

为人脸特征点样本的标注值；

人脸姿态的损失函数为：

上式中，

为所述多信息输出网络在所述人脸姿态样本中的预测值，

为人脸姿态样本的标注值；

联合训练的总损失函数为：

上式中N为样本个数，α_j表示任务的权重，

表示样本是否为人脸，

表示各个任务的损失函数。

优选地，所述卷积神经网络框架还包括人物全身识别网络，所述人物全身识别网络与所述多信息输出网络级联，且与所述数据准备模块连接；所述人脸检测方法还包括如下步骤：S601：根据所述步骤S50中输出的第一人脸候选区域框所在区域，扩大得到人物全身区域框；S602：所述数据准备模块根据所述步骤S601中的人物全身区域框获取图像数据，运行人物全身识别网络，筛选所述人物全身区域框，对余留的所述人物全身区域框修正后输出。

优选地，所述步骤S30包括如下步骤：S301：由所述数据准备模块根据所述源图像中的待检测图像构建图像金字塔；S302：计算所述待检测图像上所有第一尺寸的像素区域的得分和位置修正值；S303：将所述得分大于预设的第一阈值的像素区域作为第二人脸候选区域框，并进行非极大抑制；S304：重复上述步骤S302和步骤S303直至所述图像金字塔中的所有金字塔层均被处理；S305：所述数据准备模块将所有所述第二人脸候选区域框映射至所述待检测图像上并进行非极大抑制后，生成多个所述第一人脸候选区域框。

优选地，在所述步骤S301中构建的所述图像金字塔的每一层所述金字塔层均按照0.709的缩放比例逐层缩放构建；所述步骤S305中，所述数据准备模块将所述步骤S304中获取的所有所述第二人脸候选区域框按照所述缩放比例映射至所述待检测图像内。

优选地，所述联合训练总损失函数中，分类训练的权重为1，框位置训练的权重为0.5，人脸特征点训练的权重为1，人脸姿态训练的权重为1。

优选地，所述人脸特征点包括左眼、右眼、鼻尖、左嘴角和右嘴角。

优选地，所述人脸姿态包括旋转角、俯仰角和偏航角。

优选地，所述候选区域生成网络、修正网络、多信息输出网络以及人物全身识别网络的卷积层层数均不超过4层。

根据本发明的另一个方面，还提供一种人脸检测系统，所述人脸检测系统包括：数据准备模块，用于获取源图像，并对源图像进行处理；卷积神经网络框架，所述卷积神经网络框架与所述数据准备模块连接，其中，所述卷积神经网络框架至少包括依次级联的候选区域生成网络、修正网络以及多信息输出网络；其中，所述候选区域生成网络用于生成多个第一人脸候选区域框；所述修正网络用于对所述候选区域生成网络运行后生成的所述第一人脸候选区域框进行筛选，对筛选后余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制；所述多信息输出网络用于对所述修正网络运行后生成的所述第一人脸候选区域框进行筛选、对筛选后余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制以及输出余留的所述第一人脸候选区域框以及所述第一人脸候选区域框对应的人脸特征点以及人脸姿态；

所述卷积神经网络框架还被配置成执行如下步骤：

由CelebA数据集中获取人脸特征点样本；

由AFLW数据集中获取人脸姿态样本；

是所述人脸正负样本的标签；

框位置的损失函数为：

上式中，

为人脸框回归值样本的标注值；

人脸特征点的损失函数为：

上式中，

为所述多信息输出网络在所述人脸特征点样本中的预测值，

为人脸特征点样本的标注值；

人脸姿态的损失函数为：

上式中，

为所述多信息输出网络在所述人脸姿态样本中的预测值，

为人脸姿态样本的标注值；

联合训练的总损失函数为：

上式中N为样本个数，α_j表示任务的权重，

表示样本是否为人脸，

表示各个任务的损失函数。

优选地，所述人脸检测系统还包括人物全身识别网络，所述人物全身识别网络与所述多信息输出网络级联，并且连接所述数据准备模块；所述人物全身识别网络用于对所述多信息输出网络运行后生成的所述第一人脸候选区域框进行扩大得到人物全身区域框，并且筛选所述人物全身区域框，对余留的所述人物全身区域框修正后输出。

相比于现有技术，本发明实施例提供的人脸检测方法以及人脸检测系统中通过增加一数据准备膜块，并将数据准备模块与三个网络级联而成的卷积神经网络框架连接；经过卷积神经网络框架中候选区域生成网络、修正网络以及多信息输出网络的依次运行后能够输出人脸区域，人脸特征点、人脸姿态。在保证人脸检测效果的同时，图像裁切、图像缩放、图像归一化、图像通道分离、数据类型转化、非极大抑制等操作函数都是由数据准备模块所完成的，每个网络的数据统一由数据准备模块提供，这样可以保证绝大部分的计算由GPU完成，CPU仅负责少量的逻辑控制和结果分析，并且在检测的过程中不涉及额外的内存到显存的拷贝，从而充分利用了GPU加速，极大地提升了检测速度GPU优化。

此外，还可以通过与一人物全身识别网络级联后进一步对人物全身进行设别。

可见，该人脸检测方法至少具有如下有益效果：

a、速度快；在有GPU(例如Nvidia GTX1080)加速的情况下，在1920×1080(1080p)的分辨率上检测20×20像素的人脸可以达到50FPS以上，完全满足实时检测的需求。

b、人脸检测定位效果比传统的特征加分类器的方式要好很多。

c、输出信息丰富；不仅有人脸区域，还可以输出人脸特征点、人脸姿态甚至使人物全身，对后续的分析有很大帮助。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的一个实施例的人脸检测方法的流程图；

图2为本发明的一个实施例的人脸检测方法中建立卷积神经网络框架的流程图；

图3为本发明的一个实施例的人脸检测方法中描述人脸姿态的三个角度的示意图；

图4为本发明的一个实施例的人脸检测方法中运行候选区域生成网络阶段的流程图；

图5为本发明的一个实施例的人脸检测方法中运行人物全身识别网络后的流程图；

图6为本发明的一个实施例的人脸检测方法在FDDB上的检测结果；以及

图7为本发明的一个实施例的人脸检测系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员应意识到，没有特定细节中的一个或更多，或者采用其它的方法、组元、材料等，也可以实践本发明的技术方案。在某些情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本发明。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

依据本发明的主旨构思，本发明的一种人脸检测方法包括如下步骤：S10：建立卷积神经网络框架，所述卷积神经网络框架至少包括：候选区域生成网络、修正网络以及多信息输出网络，其中，该步骤中包括如下步骤：训练所述候选区域生成网络、修正网络以及多信息输出网络；将所述候选区域生成网络、修正网络以及多信息输出网络依次级联；S20：将所述卷积神经网络框架与一数据准备模块连接，其中，所述数据准备模块用于获取源图像，并根据所述候选区域生成网络、修正网络以及多信息输出网络的需求对源图像进行处理；S30：所述数据准备模块按照所述候选区域生成网络的图像输入格式要求将所述源图像中的待检测图像进行格式转换并发送至所述候选区域生成网络后，运行所述候选区域生成网络、生成多个第一人脸候选区域框；S40：所述数据准备模块根据所述步骤S30中的第一人脸候选区域框获取图像数据，运行所述修正网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制；S50：所述数据准备模块根据所述步骤S40中的第一人脸候选区域框获取图像数据，运行所述多信息输出网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制，输出余留的所述第一人脸候选区域框以及所述第一人脸候选区域框对应的人脸特征点以及人脸姿态。

下面结合附图和实施例对本发明的技术内容进行进一步地说明。

请参见图1，其示出了本发明的一个实施例的人脸检测方法的流程图。具体来说，本发明的人脸检测方法主要用于监控图像中的人脸检测。如图1所示，在本发明的实施例中，该人脸检测方法包括如下步骤：

步骤S10：建立卷积神经网络框架。具体来说，在本发明的实施例中，整个卷积神经网络框架的建立采用C++来实现。所述卷积神经网络框架至少包括：候选区域生成网络、修正网络以及多信息输出网络。候选区域生成网络、修正网络以及多信息输出网络中每个网络的卷积层层数均不超过4层，以保证每个网络的运行速度。请参见图2，其示出了本发明的一个实施例的人脸检测方法中建立卷积神经网络框架的流程图。如图2所示，在步骤S10中包括如下步骤：

步骤S101：训练所述候选区域生成网络、修正网络以及多信息输出网络。具体来说，所述候选区域生成网络用于负责生成第一人脸候选区域框，所述修正网络用于对所述候选区域生成网络得到的第一人脸候选区域框进行筛选，去除大部分非人脸区域，并进行一定的位置修正。其中，所述候选区域生成网络和所述修正网络的训练可以是如KaipengZhang,Zhanpeng Zhang,Zhifeng Li.Joint Face Detection and Alignment usingMulti-task Cascaded Convolutional Networks.IEEE Signal Processing Letters,vol.23,no.10,pp.1499-1503,2016.文献中提到的。

所述多信息输出网络用于根据所述修正网络输出的人脸区域做进一步的判定和精确定位，同时输出人脸特征点和人脸姿态。具体来说，所述多信息输出网络的数据从三个公开数据集准备，所述多信息输出网络的训练包括如下步骤：

由winderface数据集中获取人脸正负样本以及人脸框回归值样本。该人脸正负样本和人脸框回归值样本是利用所述候选区域生成网络和修正网络分别从widerface数据集中得到的。

由CelebA数据集中获取人脸特征点样本。在本发明实施例中，人脸特征点包括左眼、右眼、鼻尖、左嘴角和右嘴角。

由AFLW数据集中获取人脸姿态样本。在本发明实施例中，所述人脸姿态包括三个角度，分别为旋转角、俯仰角和偏航角。请参见图3，其示出了本发明的一个实施例的人脸检测方法中描述人脸姿态的三个角度的示意图。如图3所示，旋转角是指顺着箭头B方向旋转的角度，俯仰角是指顺着箭头C方向旋转的角度，偏航角是指顺着箭头D方向旋转的角度。其中，当上述角度均为零时，表示图像中的人脸正对监控画面；当上述角度为负值是表示沿上述箭头的反方向进行了旋转。

进而，根据所述人脸正负样本、人脸框回归值样本、人脸特征点样本以及人脸姿态样本进行多任务联合训练。

其中，分类的损失函数为：

是所述人脸正负样本的标签；

框位置的损失函数为：

上式中，

为人脸框回归值样本的标注值；

人脸特征点的损失函数为：

上式中，

为所述多信息输出网络在所述人脸特征点样本中的预测值，

为人脸特征点样本的标注值；

人脸姿态的损失函数为：

上式中，

为所述多信息输出网络在所述人脸姿态样本中的预测值，

为人脸姿态样本的标注值；

联合训练的总损失函数为：

上式中N为样本个数，α_j表示任务的权重，

表示样本是否为人脸，

表示各个任务的损失函数。

在本发明的优选实施例中，分类训练的权重为1，框位置训练的权重为0.75，人脸特征点训练的权重为0.75，人脸姿态训练的权重为0.5。

步骤S102：将所述候选区域生成网络、修正网络以及多信息输出网络依次级联。

步骤S20：将所述卷积神经网络框架与一数据准备模块连接。具体来说，所述数据准备模块用于获取源图像，并根据所述候选区域生成网络、修正网络以及多信息输出网络的需求对源图像进行处理，其可以是一个虚拟模块或者也可以是一个实体的电子器件。具体来说，数据准备模块可以由一块提前开辟的显存和一系列操作函数构成，其中，操作函数包括图像裁切、图像缩放、图像归一化、图像通道分离、数据类型转化、非极大抑制等函数。在本发明的一个实施例中，数据准备模块可以是图形处理器(GPU)，上述操作函数都可以由作为数据准备模块的图形处理器(GPU)来完成。

源图像是指监控设备捕捉的原始图像。源图像直接加载到数据准备模块，数据准备模块分别与上述训练完成的候选区域生成网络、修正网络以及多信息输出网络连接。每个网络运行前向数据准备模块请求所需的数据，数据准备模块根据网络的输入要求将图像数据各自的需求对源图像进行处理后、转换成指定格式存放到指定位置，数据就位后各个网络就开始运行。此外，数据准备模块还可以获取各个网络运行后的结果。

步骤S30：所述数据准备模块按照所述候选区域生成网络的图像输入格式要求将所述源图像中的待检测图像进行格式转换并发送至所述候选区域生成网络后，运行所述候选区域生成网络、生成多个第一人脸候选区域框。具体来说，请参见图4，其示出了本发明的一个实施例的人脸检测方法中运行候选区域生成网络阶段的流程图。如图4所示，在此步骤中，还包括如下步骤：

步骤S301：由所述数据准备模块根据所述源图像中的待检测图像构建图像金字塔。其中，图像金字塔即为由原始图像按照相同的比例多个缩放，形成的多个金字塔层所构成，例如以3层金字塔层为例，最底层(第一层)为原始图像，第二层图像为第一层图像按照A比例缩放后形成的图像，第三层图像为第二层图像按照A比例缩放后形成的图像，在此不予赘述。在本发明的实施例中，所述步骤S301中构建的图像金字塔的每一层所述金字塔层均按照0.709的缩放比例逐层缩放构建。

步骤S302：计算所述待检测图像上所有第一尺寸的像素区域的得分和位置修正值。在此实施例中，第一尺寸为12×12像素的模板区域。即在此步骤中，计算待检测图像上输入图像上所有12×12像素的模板区域的得分和位置修正值。其中，得分和位置修正值的计算由所述候选区域生成网络自动根据其训练的结果进行计算。

步骤S303：将所述得分大于预设的第一阈值的像素区域作为第二人脸候选区域框，并进行非极大抑制。

步骤S304：重复上述步骤S302和步骤S303直至所述图像金字塔中的所有金字塔层均被处理。

步骤S305：所述数据准备模块将所有所述第二人脸候选区域框映射至所述待检测图像上并进行非极大抑制后，生成多个所述第一人脸候选区域框。具体来说，在此步骤中，所述数据准备模块将所述步骤S304中获取的所有所述第二人脸候选区域框按照所述缩放比例(即上述的0.709的缩放比例)映射至所述待检测图像内进行非极大抑制，以此生成第一人脸候选区域框。该第一人脸候选区域框即为所述候选区域生成网络最终生成的人脸候选区域。

步骤S40：所述数据准备模块根据所述步骤S30中的第一人脸候选区域框获取图像数据，并按照所述修正网络的输入要求对图像数据处理后存放到指定位置。然后运行所述修正网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制。其中，筛选的方式与上述步骤S30类似地，在修正网络的训练结果下，计算步骤S30中筛选后的各个第一人脸候选区域框的得分，将得分低于设定阈值的第一人脸候选区域框删除。

步骤S50：所述数据准备模块根据所述步骤S40中的第一人脸候选区域框获取图像数据，运行所述多信息输出网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制，输出余留的所述第一人脸候选区域框以及所述第一人脸候选区域框对应的人脸特征点以及人脸姿态。其中，筛选的方式与上述步骤S30和步骤S40类似地，在多信息输出网络的训练结果下，计算步骤S40中筛选后的各个第一人脸候选区域框的得分，将得分低于设定阈值的第一人脸候选区域框删除。

进一步地，在本发明实施例中，所述卷积神经网络框架还包括人物全身识别网络。所述人物全身识别网络与所述多信息输出网络级联，且与所述数据准备模块连接。其中，所述人物全身识别网络的基本结构与上述多信息输出网络相同，只是最后的输出减少为2个，即人的置信度和框位置的回归值。损失函数的计算公式与上述多信息输出网络一样，不同之处在于，联合训练中的分类训练的权重为1，框位置训练的权重为1。

进而，如图1所示，所述人脸检测方法还包括如下步骤：

步骤S601：根据所述步骤S50中输出的第一人脸候选区域框所在区域，扩大得到一人物全身区域框。其中，该步骤中的人物全身区域框是在第一人脸候选区域框的基础上按照经验值扩大得到一个粗略的人物全身区域框。进而，还需执行步骤S602。

步骤S602：所述数据准备模块根据所述步骤S601中的人物全身区域框获取图像数据，按照人物全身识别网络的输入要求处理图像数后存放到指定位置。然后运行人物全身识别网络，筛选所述人物全身区域框，对余留的所述人物全身区域框修正后输出。其中，筛选的方式与上述步骤S30、S40和S50类似地，在人物全身识别网络的训练结果下，计算数据准备模块存放的根据步骤S601的执行结果得到各个人物全身区域框的得分，将得分低于设定阈值的人物全身区域框删除。进而，将余留的人物全身区域框修正后输出。

经过上述步骤S10至步骤S602处理后的输出的图像如图5所示。图5中虚线框A1为上述步骤S50输出的第一人脸候选区域框，虚线框A2为上述步骤S602输出的人物全身区域框。其中，虚框框A1上方的数字99为步骤S50执行后计算得到的虚框框A1对应的第一人脸候选区域框的得分；(2.0，-5.5，-22.5)分别代表该第一人脸候选区域框内的表示人脸姿态的旋转角、俯仰角和偏航角的角度，即旋转角为2.2、俯仰角为-5.5、偏航角为-22.5。类似地，虚框框A2上方的数字99为步骤S602执行后计算得到的虚框框A2对应的人物全身区域框的得分。

结合上述步骤S10至步骤S602可见，本发明的优选实施例中，对监控图像中的人脸检测的步骤总结如下：

将视频图像形成图像金字塔，将图像金字塔作为本发明中网络的输入。

第一个网络(候选区域生成网络)负责生成第一人脸候选区域框。主要采用三个级联的卷积层来获得第一候选区域和回归向量。再根据回归向量来筛选和合并第一人脸候选区域框，可以剔除大量的非人脸区域。其中，卷积层的卷积核均采用3x3卷积。

第二个网络(修正网络)的输入为第一个网络(候选区域生成网络)得到的第一人脸候选区域框和回归向量。第二个网络(修正网络)在此基础上进行必要的位置调整，类似地，也送入三个级联的卷基层进行进一步的非人脸区域去除。其中，前两个卷积层的卷积核采用3x3卷积，第三个卷积层的卷积核为2x2卷积。

第三个网络(多信息输出网络)根据第二个网络(修正网络)输出的第一人脸候选区域框做进一步的判定和精确定位，采用四个级联的卷积层和一个全连接层，同时输出人脸特征点和人脸姿态。其中，前两个卷积层的卷积核采用3x3卷积，后两个卷积层的卷积核为2x2卷积。

第四个网络根据第三个网络(多信息输出网络)确定下来的第一人脸候选区域框，在视频图像上生成对应的人上半身和全人候选框，采用两个级联的卷积层来获得人的位置。其中，卷积层的卷积核均采用3x3卷积。

由上述图1至图5所示实施例可见，本发明实施例提供的人脸检测方法中通过增加一数据准备膜块，并将数据准备模块与三个网络级联而成的卷积神经网络框架连接；经过卷积神经网络框架中候选区域生成网络、修正网络以及多信息输出网络的依次运行后能够输出人脸区域，人脸特征点、人脸姿态。在保证人脸检测效果的同时，图像裁切、图像缩放、图像归一化、图像通道分离、数据类型转化、非极大抑制等操作函数都是由数据准备模块所完成的，每个网络的数据统一由数据准备模块提供，这样可以保证绝大部分的计算由GPU完成，CPU仅负责少量的逻辑控制和结果分析，并且在检测的过程中不涉及额外的内存到显存的拷贝，从而充分利用了GPU加速，极大地提升了检测速度GPU优化。

可见，该人脸检测方法至少具有如下有益效果：

b、人脸检测定位效果比传统的特征加分类器的方式要好很多；如图所示，利用该方法进行检测在FDDB上的检测结果可以在图6中查看。

进一步地，请参见图7，其示出了本发明的一个实施例的人脸检测系统的结构示意图。具体来说，本发明还提供一种人脸检测系统，用于实现上述人脸检测方法。如图7所示，所述人脸检测系统主要包括：数据准备模块1和卷积神经网络框架。其中，数据准备模块1用于获取源图像，并对源图像进行处理。所述卷积神经网络框架与数据准备模块1连接。

如图7所示，所述卷积神经网络框架至少包括依次级联的候选区域生成网络21、修正网络22以及多信息输出网络23。候选区域生成网络21、修正网络22以及多信息输出网络23分别与数据准备模块1连接。其中，候选区域生成网络21用于生成多个第一人脸候选区域框。修正网络22用于对候选区域生成网络21运行后生成的第一人脸候选区域框进行筛选，对筛选后余留的第一人脸候选区域框进行位置修正并进行非极大抑制。多信息输出网络23用于对修正网络22运行后生成的第一人脸候选区域框进行筛选、对筛选后余留的第一人脸候选区域框进行位置修正并进行非极大抑制以及输出余留的第一人脸候选区域框以及第一人脸候选区域框对应的人脸特征点以及人脸姿态。

进一步地，在图7所示的实施例中，所述人脸检测系统还包括人物全身识别网络24。人物全身识别网络24与多信息输出网络23级联，并且连接数据准备模块1。人物全身识别网络24用于对多信息输出网络23运行后生成的第一人脸候选区域框进行扩大得到人物全身区域框，并且筛选上述人物全身区域框，对余留的人物全身区域框修正后输出。

综上所述，本发明实施例提供的人脸检测方法以及人脸检测系统中通过增加一数据准备膜块，并将数据准备模块与三个网络级联而成的卷积神经网络框架连接；经过卷积神经网络框架中候选区域生成网络、修正网络以及多信息输出网络的依次运行后能够输出人脸区域，人脸特征点、人脸姿态。在保证人脸检测效果的同时，图像裁切、图像缩放、图像归一化、图像通道分离、数据类型转化、非极大抑制等操作函数都是由数据准备模块所完成的，每个网络的数据统一由数据准备模块提供，这样可以保证绝大部分的计算由GPU完成，CPU仅负责少量的逻辑控制和结果分析，并且在检测的过程中不涉及额外的内存到显存的拷贝，从而充分利用了GPU加速，极大地提升了检测速度GPU优化。

可见，该人脸检测方法至少具有如下有益效果：

虽然本发明已以可选实施例揭示如上，然而其并非用以限定本发明。本发明所属技术领域的技术人员，在不脱离本发明的精神和范围内，当可作各种的更动与修改。因此，本发明的保护范围当视权利要求书所界定的范围为准。

Claims

1.一种人脸检测方法，其特征在于，所述人脸检测方法包括如下步骤：

S10：建立卷积神经网络框架，所述卷积神经网络框架至少包括：候选区域生成网络、修正网络以及多信息输出网络，其中，该步骤中包括如下步骤：

训练所述候选区域生成网络、修正网络以及多信息输出网络；

将所述候选区域生成网络、修正网络以及多信息输出网络依次级联；

S20：将所述卷积神经网络框架与一数据准备模块连接，其中，所述数据准备模块用于获取源图像，并根据所述候选区域生成网络、修正网络以及多信息输出网络的需求对源图像进行处理；

S30：所述数据准备模块按照所述候选区域生成网络的图像输入格式要求将所述源图像中的待检测图像进行格式转换并发送至所述候选区域生成网络后，运行所述候选区域生成网络、生成多个第一人脸候选区域框；

S40：所述数据准备模块根据所述步骤S30中的第一人脸候选区域框获取图像数据，运行所述修正网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制；

S50：所述数据准备模块根据所述步骤S40中的第一人脸候选区域框获取图像数据，运行所述多信息输出网络，筛选所述第一人脸候选区域框，对余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制，输出余留的所述第一人脸候选区域框以及所述第一人脸候选区域框对应的人脸特征点以及人脸姿态；

所述多信息输出网络的训练包括如下步骤：

由CelebA数据集中获取人脸特征点样本；

由AFLW数据集中获取人脸姿态样本；

是所述人脸正负样本的标签；

框位置的损失函数为：

上式中，

为人脸框回归值样本的标注值；

人脸特征点的损失函数为：

上式中，

为所述多信息输出网络在所述人脸特征点样本中的预测值，

为人脸特征点样本的标注值；

人脸姿态的损失函数为：

上式中，

为所述多信息输出网络在所述人脸姿态样本中的预测值，

为人脸姿态样本的标注值；

联合训练的总损失函数为：

上式中N为样本个数，α_j表示任务的权重，

表示样本是否为人脸，

表示各个任务的损失函数。

2.如权利要求1所述的人脸检测方法，其特征在于，所述卷积神经网络框架还包括人物全身识别网络，所述人物全身识别网络与所述多信息输出网络级联，且与所述数据准备模块连接；所述人脸检测方法还包括如下步骤：

S601：根据所述步骤S50中输出的第一人脸候选区域框所在区域，扩大得到人物全身区域框；

S602：所述数据准备模块根据所述步骤S601中的人物全身区域框获取图像数据，运行人物全身识别网络，筛选所述人物全身区域框，对余留的所述人物全身区域框修正后输出。

3.如权利要求1所述的人脸检测方法，其特征在于，所述步骤S30包括如下步骤：

S301：由所述数据准备模块根据所述源图像中的待检测图像构建图像金字塔；

S302：计算所述待检测图像上所有第一尺寸的像素区域的得分和位置修正值；

S303：将所述得分大于预设的第一阈值的像素区域作为第二人脸候选区域框，并进行非极大抑制；

S304：重复上述步骤S302和步骤S303直至所述图像金字塔中的所有金字塔层均被处理；

S305：所述数据准备模块将所有所述第二人脸候选区域框映射至所述待检测图像上并进行非极大抑制后，生成多个所述第一人脸候选区域框。

4.如权利要求3所述的人脸检测方法，其特征在于，在所述步骤S301中构建的所述图像金字塔的每一层所述金字塔层均按照0.709的缩放比例逐层缩放构建；所述步骤S305中，所述数据准备模块将所述步骤S304中获取的所有所述第二人脸候选区域框按照所述缩放比例映射至所述待检测图像内。

5.如权利要求1所述的人脸检测方法，其特征在于，所述联合训练的总损失函数中，分类训练的权重为1，框位置训练的权重为0.5，人脸特征点训练的权重为1，人脸姿态训练的权重为1。

6.如权利要求1所述的人脸检测方法，其特征在于，所述人脸特征点包括左眼、右眼、鼻尖、左嘴角和右嘴角。

7.如权利要求1所述的人脸检测方法，其特征在于，所述人脸姿态包括旋转角、俯仰角和偏航角。

8.一种人脸检测系统，其特征在于，所述人脸检测系统包括：

数据准备模块，用于获取源图像，并对源图像进行处理；

卷积神经网络框架，所述卷积神经网络框架与所述数据准备模块连接，其中，所述卷积神经网络框架至少包括依次级联的候选区域生成网络、修正网络以及多信息输出网络；其中，

所述候选区域生成网络用于生成多个第一人脸候选区域框；

所述修正网络用于对所述候选区域生成网络运行后生成的所述第一人脸候选区域框进行筛选，对筛选后余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制；

所述多信息输出网络用于对所述修正网络运行后生成的所述第一人脸候选区域框进行筛选、对筛选后余留的所述第一人脸候选区域框进行位置修正并进行非极大抑制以及输出余留的所述第一人脸候选区域框以及所述第一人脸候选区域框对应的人脸特征点以及人脸姿态；

所述卷积神经网络框架还被配置成执行如下步骤：

由CelebA数据集中获取人脸特征点样本；

由AFLW数据集中获取人脸姿态样本；

是所述人脸正负样本的标签；

框位置的损失函数为：

上式中，

为人脸框回归值样本的标注值；

人脸特征点的损失函数为：

上式中，

为所述多信息输出网络在所述人脸特征点样本中的预测值，

为人脸特征点样本的标注值；

人脸姿态的损失函数为：

上式中，

为所述多信息输出网络在所述人脸姿态样本中的预测值，

为人脸姿态样本的标注值；

联合训练的总损失函数为

上式中N为样本个数，α_j表示任务的权重，

表示样本是否为人脸，

表示各个任务的损失函数。

9.如权利要求8所述的人脸检测系统，其特征在于，所述人脸检测系统还包括人物全身识别网络，所述人物全身识别网络与所述多信息输出网络级联，并且连接所述数据准备模块；所述人物全身识别网络用于对所述多信息输出网络运行后生成的所述第一人脸候选区域框进行扩大得到人物全身区域框，并且筛选所述人物全身区域框，对余留的所述人物全身区域框修正后输出。