CN109886153B

CN109886153B - 一种基于深度卷积神经网络的实时人脸检测方法

Info

Publication number: CN109886153B
Application number: CN201910089315.0A
Authority: CN
Inventors: 殷光强; 向凯; 王志国; 王春雨
Original assignee: Sichuan Dianke Weiyun Information Technology Co ltd
Current assignee: Sichuan Dianke Weiyun Information Technology Co ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2021-11-02
Anticipated expiration: 2039-01-30
Also published as: CN109886153A

Abstract

一种基于深度卷积神经网络的实时人脸检测方法，所述方法包括：融合数据集信息，创建人脸数据并将人脸数据按比例划分为训练集、测试集及验证集；对步骤一获取的数据集进行标签制作，将数据集真实标签变成txt文件；对步骤二获取的数据集进行数据增强；构建端到端的非级联结构深度卷积神经网络；将步骤三处理后的数据放入步骤四构建的卷积神经网络进行训练并结合随机梯度下降方法优化整个模型的损失函数；设定类别置信度阈值，再将步骤五输出的测试部分数据集和实际的视频数据输入深度卷积神经网络进行性能测试。本发明更好的兼具时间和性能两个优势，对人脸角度、光照强度及遮挡程度有更好的适应性,有效提高了人脸检测的鲁棒性和网络的泛化能力。

Description

一种基于深度卷积神经网络的实时人脸检测方法

技术领域

本发明涉及计算机视觉领域和深度学习领域的目标检测方法，具体是指一种基于深度卷积神经网络的实时人脸检测方法。

背景技术

人脸识别系统以人脸识别技术为核心，是一项新兴的生物识别技术，是当今国际科技领域攻关的高精尖技术。它广泛采用区域特征分析方法，融合了计算机图像处理技术与生物统计学原理于一体，利用计算机图像处理技术从视频中提取人像特征点，利用生物统计学的原理进行分析建立数学模型，具有广阔的发展前景。人脸检测是自动人脸识别系统中的一个关键环节。但是由于人脸具有相当复杂的细节变化，不同的外貌如脸形、肤色等，不同的表情如眼、嘴的开与闭等；人脸的遮挡，如眼镜、头发和头部饰物以及其他外部物体等；成像角度的不同造成人脸的多姿态，如平面内旋转、深度旋转以及上下旋转，其中深度旋转影响较大；光照的影响，如图像中的亮度、对比度的变化和阴影等；图像的成像条件，如摄像设备的焦距、成像距离，图像获得的途径等等。这些内在因素及外在因素的变化使得人脸检测成为人脸识别系统中一个复杂的具有挑战性的模式检测问题。

早期的人脸检测方法是利用人工提取特征，训练分类器，进行人脸检测。例如opencv源码中自带的人脸检测器就是利用haar特征进行的人脸检测。这类方法的缺点就是在环境变化强烈的时候检测效果不理想，例如弱光条件，人脸不全。而从现有的通用的目标检测方法中继承过来的人脸检测方法。例如利用faster-RCNN来检测人脸，效果不错，可以轻微适应环境变化和人脸不全等问题，但是时间消耗、计算能力和设备存储消耗非常高。鉴于以上两种方法的优劣势，就有人专门研究了人脸检测的方法，同时规避了以上两种的劣势，兼具时间和性能两个优势。级联结构的卷积神经网络,例如，cascadeCNN，MTCNN。级联结构即每一个阶段由一个网络组成，使用中需要对这些网络进行分阶段的训练测试，这样的方式显然不是一种端对端的学习方式。即使级联结构的神经网络在性能和时间上比传统方法有优势，但仍然存在网络复杂度高、训练测试运行效率低、误检漏检严重、泛化能力弱、对极端条件适应性差等问题。

发明内容

本发明的目的在于提供一种基于深度卷积神经网络的实时人脸检测方法，该方法采用端到端的非级联结构，不仅能更好的兼具时间和性能两个优势，还对人脸角度、光照强度及遮挡程度有更好的适应性,有效地提高了人脸检测的鲁棒性和网络的泛化能力，极大地较低了人脸检测的误检和漏检，并且在复杂场景下达到了实时检测效果，该方法的速度不会随着视频或图片的人脸数量增多而变慢。

本发明通过下述技术方案实现：

一种基于深度卷积神经网络的实时人脸检测方法，所述检测方法的步骤包括：

步骤一、融合数据集信息，创建人脸数据并将人脸数据按比例划分为训练集、测试集及验证集；

步骤二、对步骤一获取的数据集进行标签制作，将数据集真实标签变成一个个txt文件，txt文件名与相匹配的图片同名；

步骤三、对步骤二中经过标签制作后的数据进行数据增强；

步骤四、构建端到端的非级联结构深度卷积神经网络，所述深度卷积神经网络包括一个主干及两个特征提取支路，所述主干及特征提取支路共计含有26个卷积层和5个最大值池化层；

步骤五、将经过步骤三处理后的数据放入步骤四构建的卷积神经网络进行训练，验证部分数据集和模型，结合随机梯度下降方法来优化整个模型的损失函数；

步骤六、设定类别置信度阈值，再将步骤五输出的测试部分数据集和实际的视频数据输入深度卷积神经网络得到输出；

步骤七：将视频的每一帧输入到经过性能测试后的深度卷积神经网络进行检测，运行该深度卷积神经网络的系统自动保存视频中每一帧检测结果，以及从视频中检测到的人脸部分，以jpg格式的图片存在本地磁盘。

进一步的，所述数据集包括WIDER FACE、FDDB、CelebA。

WIDER FACE总共32203图像，393703标注人脸，目前难度最大，各种难点比较全面：尺度，姿态，遮挡，表情，化妆，光照等；

FDDB总共2845图像，5171标注人脸，人脸非约束环境，人脸的难度较大，有面部表情，双下巴，光照变化，穿戴，夸张发型，遮挡，低分辨率以及失焦等难点；

CelebA，是现目前人脸检测领域中，最大最全的数据集，广泛用于人脸相关的各种计算机视觉训练任务。其包含10,177个名人身份的202,599张人脸图片，每张图片都做好了特征标记，包含人脸标注框、5个人脸特征点坐标以及40个属性标记。

进一步的，所述步骤二中txt文件里面数据存放格式：

(1)每一行代表了一张人脸；每一行包含五个数值，每个数值之间用空格分开；

(2)第一个数代表了人脸这个类别，有别于背景；

(3)第二个数，第三个数代表了真实标注的中心点横纵坐标，第二个数及第三个数都进行了归一化操作；

(4)第四个数，第五个数代表了真实标注的长宽，第四个数及第五个数都进行了归一化操作。

进一步的，所述数据增强步骤为：

(1)颜色的数据增强，包括饱和度、亮度、曝光度、色调、对比度等方面。增强颜色变换，能让模型更好的适应真实场景下的天气光照等不可抗力因素。

(2)尺度的变换，每一轮送入模型进行训练的图片尺寸都会随便改成32整倍数大小。所述尺寸选择包括10种，分别是384、416、448、480、512、544、576、608、640、672。增加尺度的变换，能使模型更好的适应不同分辨率的视频图片和不同尺寸的人脸。

(3)角度的变换，图片每次随机旋转0～10度或者水平翻转或者垂直翻转。增加角度变换，能使模型更好的适应真实环境，有效的检测偏头歪头低头抬头等姿态下的人脸。

(4)随机噪声干扰，在原来的图片的基础上，随机叠加一些高斯噪声。

(5)随机模糊干扰，在原来的图片的基础上，减少各像素点值的差异实现图片模糊，实现像素的平滑化。添加随机干扰，有助于增强模型对外界环境的抗干扰性。

进一步的，所述步骤五的实现过程包括：

(1)设置参数：基础学习率、批次大小、最大迭代次数；

(2)将训练集中的数据输入深度卷积神经网络，按照相关参数构建SGD优化器；

(3)通过SGD优化器来优化整个模型的损失函数，调整神经网络权重参数，直到设定的循环次数完成。

进一步的，所述损失函数为:

其中进行训练的一共有五部分loss，他们分配的权重不同，分别是λ_noobj、λ_obj、λ_class、λ_coord、0.01。

进一步的，所述损失函数采用多类的对数损失。

本发明与现有技术相比，具有的有益效果为：

(1)本发明通过构建端到端的非级联结构深度卷积神经网络，该网络只含有26个卷积层和5个最大值池化层，构造简单，实现简单。

(2)本发明为了检测多尺度人脸同时为提高检测系统的召回率，分别设计了具有不同卷积层的两个旁路，使用浅层的特征，来检测小尺寸人脸；使用深层的特征，来检测中大尺寸人脸，从而能够提升检测性能。网络可以在给定的图像/视频上实时检测人脸并给出人脸在图像/视频上的具体位置。

(3)本发明能使用的是一种端到端的非级联结构人脸检测方法，不仅能更好的兼具时间和性能两个优势，还对人脸角度、光照强度及遮挡程度有更好的适应性,有效地提高了人脸检测的鲁棒性和网络的泛化能力，极大地较低了人脸检测的误检和漏检，并且在复杂场景下达到了实时检测效果，该方法的速度不会随着视频或者图片的人脸数量增多而变慢。

附图说明

图1为本发明的实现流程。

图2为本发明的深度卷积神经网络模型结构图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

本发明为了克服现有技术的缺陷，公开了一种基于深度卷积神经网络的实时人脸检测方法，如图1所示，所述人脸检测方法包括以下步骤：

步骤三、对步骤二中经过标签制作后的数据进行数据增强；

步骤六、设定类别置信度阈值，再将步骤五输出的测试部分数据集和实际的视频数据输入深度卷积神经网络得到输出。

实施例2：

本实施例在实施例1的基础上，公开了的训练数据集的一种优选结构，该方法使用了现有人脸检测领域3大标准数据集：WIDER FACE、FDDB、CelebA。WIDER FACE总共32203图像，393703标注人脸，目前难度最大，各种难点比较全面：尺度，姿态，遮挡，表情，化妆，光照等。FDDB总共2845图像，5171标注人脸，人脸非约束环境，人脸的难度较大，有面部表情，双下巴，光照变化，穿戴，夸张发型，遮挡，低分辨率以及失焦等难点；CelebA，是现目前人脸检测领域中，最大最全的数据集，广泛用于人脸相关的各种计算机视觉训练任务。其包含10,177个名人身份的202,599张人脸图片，每张图片都做好了特征标记，包含人脸标注框、5个人脸特征点坐标以及40个属性标记。

将上述三个标准数据集融合在一起，得到了大约23.7万张含有人脸的照片，随后将其划分为训练集、测试集及验证集，占比依次为50％，40％，10％；所述训练集用来训练模型，所述测试集用来测试训练好之后的模型的性能，所述验证集用于控制训练过程中模型的参数防止模型过拟合。

得到数据集后，我们进行标签制作，这些数据集虽然提供了真实标签，但是不满足我们的模型设计，我们通过转换，将这些真实标签变成一个个txt文件，txt文件名与相匹配的图片同名，txt文件里面数据存放格式：

(2)第一个数代表了人脸这个类别，有别于背景；

(3)第二个数，第三个数代表了真实标注的中心点横纵坐标，这两个数是归一化之后的；

(4)第四个数，第五个数代表了真实标注的长宽，这两个数也是归一化之后的。

优选的，把jpg格式的图片和txt格式的标签文件放在同一个目录下，且标签与图片同名。同时使用三个list文件来区分训练集/验证集/测试集，名字分别是train_images.list,valid_images.list,test_images.list，文件中存放的是图片的绝对路径。

实施例3：

本实施例在实施例1的基础上，公开了的数据增强优选结构，在实际中，标签数据是很珍贵的，数量可能根本没有达到能够让你训练出一个满足要求的模型。这时候数据增强就会显得特别重要。其次，数据增强能有效提高模型的泛化能力，提升模型的鲁棒性，让模型性能更稳定，效果更出彩。在本发明中，一共使用了5类数据增强方法：

(2)尺度的变换，每一轮送入模型进行训练的图片尺寸都会随便改成32整倍数大小，共计10种尺寸选择。分别是384，416，448，480，512，544，576，608，640，672。增加尺度的变换，能使模型更好的适应不同分辨率的视频图片和不同尺寸的人脸。

实施例4：

本实施例在实施例1的基础上，公开了端到端的非级联结构深度卷积神经网络，如图2所示，所述深度卷积神经网络共包含了26个卷积层，5个最大值池化层，网络构造简单，实现简单。在本发明实施例中设置了使用SGD类型的算法来求解优化。其次设置了基础学习率为0.001，批次大小为32，最大迭代次数10万，然后通过step的方式，在迭代过程中，对基础学习率进行调整。

将416×416×3大小的图片输入网络，首先经过三conv1。conv1卷积层安置了32个大小为3×3的卷积核，以及固定填充padding为1；经过归一化操作(batch normalization)和非线性激活(relu)后输入到池化层max pool1，pool1具有2×2×32的卷积核，步长为2，得到208×208×32的特征矩阵。

再经过三层卷积，分别为conv2，conv3，conv4。Conv3卷积层安置了64个大小为3×3的卷积核，以及固定填充padding为1；conv4卷积层和conv2_1的设置相同；conv3卷积层安置了32个大小为1×1的卷积核，以及固定填充padding为0。经过归一化操作(batchnormalization)和非线性激活(relu)后输入到池化层max pool2，pool2具有2×2×64的卷积核，步长为2，得到104×104×64的特征矩阵。

再经过三层卷积，分别为conv5，conv6，conv7。Conv5卷积层安置了128个大小为3×3的卷积核，以及固定填充padding为1；conv7卷积层和conv5的设置相同；conv6卷积层安置了64个大小为1×1的卷积核，以及固定填充padding为0。经过归一化操作(batchnormalization)和非线性激活(relu)后输入到池化层maxpool3，pool3具有2×2×128的卷积核，步长为2，得到52×52×128的特征矩阵。

再经过五层卷积，分别为conv8，conv9，conv10，conv11,conv12。Conv8卷积层安置了256个大小为3×3的卷积核，以及固定填充padding为1；conv10,conv12卷积层和conv8的设置相同；conv9卷积层安置了128个大小为1×1的卷积核，以及固定填充padding为0；conv11和conv9设置相同。经过归一化操作(batch normalization)和非线性激活(relu)后输入到池化层max pool4，pool4具有2×2×256的卷积核，步长为2，得到26×26×256的特征矩阵。

再经过三层卷积，分别为conv13，conv14，conv15。Conv13卷积层安置了512个大小为3×3的卷积核，以及固定填充padding为1；conv15卷积层和conv13的设置相同；conv14卷积层安置了256个大小为1×1的卷积核，以及固定填充padding为0。经过归一化操作(batchnormalization)和非线性激活(relu)后输入到池化层maxpool5，pool5具有2×2×512的卷积核，步长为2，得到13×13×512的特征矩阵。

再经过三层卷积，分别为conv16，conv17，conv18。Conv16卷积层安置了1024个大小为3×3的卷积核，以及固定填充padding为1；conv18卷积层和conv16的设置相同；conv17卷积层安置了512个大小为1×1的卷积核，以及固定填充padding为0。得到13×13×1024的特征矩阵。

支路1：

再经过三层卷积，分别为conv19，conv20，conv21。Conv19卷积层安置了512个大小为3×3的卷积核，以及固定填充padding为1；conv21卷积层和conv19的设置相同；conv20卷积层安置了256个大小为1×1的卷积核，以及固定填充padding为0。经过归一化操作(batchnormalization)和非线性激活(relu)后输入到池化层max pool3，pool3具有2×2×512的卷积核，步长为2，得到26×26×512的特征矩阵。经过尺度变化操作后(REORG)，得到13×13×1024的特征矩阵。

支路2：

经过尺度变化操作后(REORG)，得到13×13×1024的特征矩阵。

三条路经过矩阵维度合并操作后(CONTACT)得到13×13×3096的特征矩阵,随后经过两层卷积，分别为conv22，conv23.conv22卷积层安置了1024个大小为3×3的卷积核，以及固定填充padding为1；conv23卷积层安置了30个大小为1×1的卷积核，以及固定填充padding为0。最终得到13×13×30的特征矩阵。其中30的计算公式如下：

filters＝5×(classes+4+1)＝5*(1+4+1)＝30，这里只有1个类别，人。

CONTACT代表了张量合并操作，把3个支路所产生的张量合并在一起；DETECTION代表了检测结果输出操作。

优选的，由于网络是全卷积网络，使得网络输入可以是任意尺寸，可以是灰度可以是彩色，可以是图片可以是视频。

实施例5：

本实施例在实施例4的基础上，公开了的一种模型优化方法，使用上述的训练、验证部分数据集和模型，结合随机梯度下降方法来优化整个模型的损失函数。

该发明中使用的模型损失函数：

其中进行训练的一共有五部分loss，他们分配的权重不同，分别是λ_noobj、λ_obj、λ_class、λ_coord、0.01。在本发明，这4个待定参数值分别设为0.5,5,1,1。

部分1：若没有任何物体中心落入边界框中，则为0，此时我们希望预测含有物体的置信度Ci越小越好。然而，大部分边界框都没有物体，积少成多，造成loss的第1部分与第3部分的不平衡，因此，loss的第一部分权重为0.5。

部分2：若有物体落入边界框中，则计算预测边界框含有物体的置信度Ci和真实物体与边界框IoU的损失，我们希望两差值越小损失越低。

部分3：对于每个格子而言，只能包含同种物体。若格子中包含物体，我们希望预测正确的类别的概率越接近于1越好，而错误类别的概率越接近于0越好。loss第4部分中，若中c为正确类别，则值为1，若非正确类别，则值为0。

部分4：为边界框位置与大小的损失函数，为了使用大小差别比较大的边界框差别减小，我们对宽高都进行开根。

部分5：最后一项只用在训练早期阶段。在循环次数未达到5000次时，使用。

在经过大约6.3万次(batchsize＝32)的迭代后，模型的loss几乎不在下降，低到0.1左右，停止训练。

实施例6：

本实施例在实施例1的基础上，公开了一种模型测试方法，设定类别置信度阈值为0.45，所述类别置信度阈值的设定，目的为了过滤掉绝大部分背景，提升人脸检测的准确性；接着使用上述的测试部分数据集，以及我们从1080P监控探头下获取的视频数据，对训练完成的模型进行性能测试。

在测试时，我们将送入模型的每一帧/一张照片尺寸固定到512x512，我们的方法在NVIDIA GTX1080 GPU上能以22ms的速度高效处理一帧/一张照片，大约45FPS，完全满足实时要求。

优选的，该发明还提供了检测结果自动保存系统，该系统会自动保存视频中每一帧检测结果，以及从视频中检测到的人脸部分，以jpg格式的图片存在本地磁盘。保存的结果命名合理，让人看到就知道图片的来源和内容，该命名可以根据实际更改。保存结果还可以选择是否压缩以及压缩比，如果无损保存将获得最好的图像质量，有损保存能节约磁盘资源。该系统还会统计检测的时长，出现的人脸数量等信息。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于深度卷积神经网络的实时人脸检测方法，其特征在于：所述检测方法的步骤包括：

步骤一、融合包括WIDER FACE、FDDB、CelebA的数据集信息，创建人脸数据并将人脸数据按比例划分为训练集、测试集及验证集；

步骤二、对步骤一获取的数据集进行标签制作，将数据集真实标签变成一个个txt文件，txt文件名与相匹配的图片同名；所述txt文件里面数据存放格式：

(2)第一个数代表了人脸这个类别，有别于背景；

(3)第二个数、第三个数代表了真实标注的中心点横纵坐标，第二个数及第三个数都进行了归一化操作；

(4)第四个数、第五个数代表了真实标注的长宽，第四个数及第五个数都进行了归一化操作；

步骤三、对步骤二中经过标签制作后的数据进行数据增强，所述数据增强方法包括：

(1)颜色的数据增强；

(2)尺度的变换：将每一轮送入模型进行训练的图片尺寸随机更改为32整倍数大小；

(3)角度的变换，图片每次随机旋转0～10度或者水平翻转或者垂直翻转；

(4)随机噪声干扰，在原来的图片的基础上，随机叠加一些高斯噪声；

(5)随机模糊干扰，在原来的图片的基础上，减少各像素点值的差异实现图片模糊，实现像素的平滑化；

步骤五、将经过步骤三处理后的数据放入步骤四构建的卷积神经网络进行训练，验证部分数据集和模型，结合随机梯度下降方法来优化整个模型的损失函数，实现过程包括：

(1)设置参数；基础学习率、批次大小、最大迭代次数；

(3)通过SGD优化器来优化整个模型的损失函数，调整神经网络权重参数，直到设定的循环次数完成；

步骤六、设置类别置信度阈值，再将步骤五输出的测试部分数据集和实际的视频数据输入深度卷积神经网络进行性能测试；

2.根据权利要求1所述的一种基于深度卷积神经网络的实时人脸检测方法，其特征在于：所述损失函数为: