CN111401290A

CN111401290A - 一种人脸检测方法及系统、计算机可读存储介质

Info

Publication number: CN111401290A
Application number: CN202010215081.2A
Authority: CN
Inventors: 孙超
Original assignee: Hangzhou Boya Hongtu Video Technology Co ltd
Current assignee: Hangzhou Boya Hongtu Video Technology Co ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-10

Abstract

本发明公开了一种人脸检测方法及系统、计算机可读存储介质，检测方法包括读取待检测的目标图像，以目标图像作为输入，提取目标图像的底层特征，以底层特征作为输入，提取目标图像的高层特征，将底层特征和高层特征进行融合，得到融合后的特征，基于融合后的特征对目标图像进行人脸检测；该系统包括图像读取模块、基础网络、额外特征提取网络、特征融合网络及特征融合网络；计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行，以实现本发明一个或多个实施例的人脸检测方法或本发明一个或多个实施例的人脸检测系统。本发明创新将底层特征和高层特征融合起来，可显著提升人脸检测系统性能，特别适用于检测小人脸的情形。

Description

一种人脸检测方法及系统、计算机可读存储介质

技术领域

本发明涉及人脸检测技术领域，更为具体来说，本发明为一种人脸检测方法及系统、计算机可读存储介质。

背景技术

人脸检测系统已经成为识别监控系统中的重要组成部分，特别是对于小人脸(Small)的识别和识别，目前，人脸检测系统最常用的方法是SSD(Single Shot MultiBoxDetector，单步多目标检测)，但是传统使用的SSD方案往往会存在过分依赖位置和细节信息导致误检问题或过分依赖语义信息导致漏检问题，在面对图像中的人脸尺寸较小的情况或图像中的人脸数量较多的情况时，或者这两种情况同时存在时，现有的SSD方式出现漏检或误检的可能性往往会更高。

因此，如何能够同时解决现有人脸检测存在的漏检问题和误检问题，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

为了解决常规的SSD方案容易出现人脸漏检或人脸误检的问题，本发明提供了一种人脸检测方法及系统、计算机可读存储介质，创新将底层特征和高层特征进行有效地融合，从而彻底解决现有技术存在的问题。

为实现上述的技术目的，本发明一些实施例公开了一种人脸检测方法，该方法包括如下步骤：

读取待检测的目标图像；

以所述目标图像作为输入，提取目标图像的底层特征；

以所述底层特征作为输入，提取目标图像的高层特征；

将所述底层特征和所述高层特征进行融合，得到融合后的特征；

基于融合后的特征对目标图像进行人脸检测。

进一步地，该方法还包括对待检测的目标图像设置密集先验框的步骤；

基于融合后的特征对各个先验框内的目标图像进行人脸检测。

进一步地，在提取目标图像的底层特征的过程包括：

对目标图像中的数据进行多次卷积处理、多次激活函数处理及多次最大池化处理，将最后一次激活函数处理后的输出特征作为底层特征。

进一步地，在提取目标图像的高层特征的过程包括：

对底层特征中的数据进行最大池化处理、多次卷积和激活函数处理后得到第一额外特征；

对所述第一额外特征中的数据进行多次卷积和激活函数处理后得到第二额外特征；

对所述第二额外特征中的数据进行多次卷积和激活函数处理后得到第三额外特征；

其中，所述高层特征包括所述第一额外特征、所述第二额外特征以及所述第三额外特征。

进一步地，通过如下的方式得到融合后的特征：

对所述第三额外特征中的数据进行多次卷积和激活函数处理后得到第一输入特征；

将经过反卷积处理的第一输入特征与经过卷积处理和激活函数处理的第二额外特征进行融合，再对融合得到的特征进行激活函数处理后得到第二输入特征；

将经过反卷积处理的第二输入特征与经过卷积处理和激活函数处理的第一额外特征进行融合，再对融合得到的特征进行激活函数处理后得到第三输入特征；

将经过反卷积处理的第三输入特征与经过卷积处理和激活函数处理的底层特征进行融合，再对融合得到的特征进行激活函数处理后得到第四输入特征；

然后基于所述第一输入特征、所述第二输入特征、所述第三输入特征及所述第四输入特征对目标图像进行人脸检测。

进一步地，各特征融合过程中，均采用逐点相加的方式进行。

本发明还提供了一种人脸检测系统，该人脸检测系统包括：

图像读取模块，用于读取待检测的目标图像；

基础网络，用于以所述目标图像作为输入、提取目标图像的底层特征；

额外特征提取网络，用于以所述底层特征作为输入、提取目标图像的高层特征；

特征融合网络，用于将所述底层特征和所述高层特征进行融合、得到融合后的特征；

检测网络，用于基于融合后的特征对目标图像进行人脸检测。

进一步地，该系统包括先验框设置模块；

所述先验框设置模块，用于对待检测的目标图像设置密集先验框；

所述检测网络，还用于基于融合后的特征对各个先验框内的目标图像进行人脸检测。

进一步地，所述基础网络包括多个卷积层、多个激活函数层及多个最大池化层；

所述额外特征提取网络包括多个卷积层、多个激活函数层及多个最大池化层；

所述特征融合网络包括多个卷积层、多个激活函数层、多个反卷积层及融合模块；

所述卷积层用于进行卷积处理；

所述激活函数层用于进行激活函数处理；

所述最大池化层用于进行最大池化处理；

所述融合模块用于进行特征融合。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行，以实现本发明一个或多个实施例所述的人脸检测方法或本发明一个或多个实施例所述的人脸检测系统。

本发明的有益效果为：本发明创新将具有更多位置、细节的底层特征和具有更强语义信息的高层特征融合起来，可显著提升人脸检测系统性能，特别适用于检测小人脸的情形，从而彻底解决现有SSD方案存在的问题。

与现有的SSD算法相比，本发明并没有直接将低层特征和高层特征送入检测网络，而是创新将底层特征和高层特征联系起来，通过高层特征和底层特征进行特征融合的方式来加强上下文联系，将融合得到的特征来进行人脸框的预测，同时可有效地利用具有更多位置、细节(高分辨率)的底层特征和具有更强语义信息的高层特征，所以本发明能够显著提高对小人脸的辨析度，本发明具有人脸识别更准确、识别更全面等突出优点。

附图说明

图1示出了本发明一些实施例的人脸检测方法的流程示意图。

图2示出了本发明一些实施例的人脸检测系统的网络总体结构示意图。

图3示出了本发明一些实施例的基础网络的工作原理示意图。

图4示出了本发明一些实施例的额外特征提取网络的工作原理示意图。

图5示出了本发明一些实施例的特征融合网络的工作原理示意图。

图6示出了本发明一些实施例的检测网络的工作原理示意图。

图7示出了本发明另一些实施例的人脸检测过程示意图。

图8示出了本发明①、SSD网络②的测试结果精度与召回率曲线示意图(在WIDERFACE VAL EASY子集上，分类IOU阈值设置为0.5)。

图9示出了本发明①、SSD网络②的测试结果精度与召回率曲线示意图(在WIDERFACE VAL MEDIUM子集上，分类IOU阈值设置为0.5)。

图10示出了本发明①、SSD网络②的测试结果精度与召回率曲线示意图(在WIDERFACE VAL HARD子集上，分类IOU阈值设置为0.5)。

具体实施方式

下面结合说明书附图对本发明具体提供的一种人脸检测方法及系统、计算机可读存储介质进行详细的解释和说明。

首先，本发明一些实施例需要对训练数据进行处理，具体可包括如下步骤。

步骤100，获取用于训练的数据，本发明一些实施例可采用公开数据集wider facetrain(广阔场景的人脸训练数据集)作为训练数据集。

步骤101，对训练数据集中的数据进行筛选：先对各个原始图像进行尺度变换(resize)，使原始图像具有设定的尺寸大小，并且对原始图像上预先标注好的标注框进行相同比例的尺度变换(缩放)，将不满足要求的人脸标注框过滤掉，将剩余的标注框信息保留；在具体实施过程中，假设原始图像大小为640×640，如果原图上有一个10×8和6×4大小的人脸标注框，经过尺度变换后原始图像变为320×320大小，标注框变为5×4和3×2大小，如果满足要求的人脸标注框的长边不小于4，5×4的标注框长边大于4，将这个标注框保留下来，但是3×2这个标注框长边小于4，所以就将它过滤掉，其中小于4表示小于4像素。

步骤102，进行数据扩增：先以RGB(红、绿、蓝)的格式读入训练数据集中的图像，紧接将颜色空间转为HSV(色调、饱和度、明度)空间，进行颜色空间扩增，包括进行亮度扩增、对比度扩增及饱和度扩增，再将扩增后的数据转到RGB空间，然后进行图像扩增，进行图像扩增时例如可以先是设计一个大于原图大小的随机图像，把原图随机放入这个图像中，并且将其余位置的像素设为127.5，图像扩增完成后，再进行图像的随机裁剪，在进行随机裁剪时，可先是随机选取裁剪框的大小，接着根据框的大小来确定裁剪框的坐标，其中，假设从原图上随机裁取一个人脸框，框的高是原图高的0.3倍到1倍之间的随机值，框的宽是原图宽的0.3倍到1倍之间的随机值，它的左上角坐标是原图宽和裁剪框宽的差值和原图高和裁剪框高的差值，然后计算裁剪框和标注框的交并比，再根据交并比对这些裁剪框来进行筛选，裁剪图像，同时更新标注框信息，将交并比大于阈值的裁剪框保留下来和标注框一起作为正样本，其中，交并比是裁剪框和标注框相交部分的面积、裁剪框面积加上标注框面积减去上述相交部分的面积的比值；最后，进行镜像扩增，镜像扩增的对象是扩增后的图像和原图图像，扩增后的人脸框和原始标注框。

步骤103，对经过扩增的数据进行预处理：与SSD(Single Shot MultiBoxDetector，单步多目标检测)算法不同，本发明一些实施例例如可以将图像变换为320×320大小，完成尺度变换后，再进行维度变换，将其变为NCHW大小的四维数组作为网络输入，其中，N表示的是batch size(批处理尺寸)大小，C表示的是图片的通道数，H表示输入图片的高度，W表示输入图片的宽度，在本发明的一些优选的实施例中，上述的N可以为16、C可以为3、H可以为320、W可以为320。

其次，本发明构建用于人脸检测的各个网络，再将经过处理后的训练数据输入到网络中；当然，本发明一些实施例也可先构建网络后再对训练数据进行处理；其中，本发明的网络构建过程例如可以包括如下步骤。

步骤200，构建基础网络：如图3所示，本发明一些实施例基础网络可以由卷积层、激活函数层及最大池化层组成，其用于提取底层特征，在构建基础网络时先构建卷积层，紧随其后构建激活函数层，本发明中使用ReLU(非线性单元)作为激活函数，之后，再次构建卷积层和激活函数层，激活函数层构建后，构建最大池化层来进行特征压缩和降低计算量；最大池化层构建后，再次交替构建卷积层、激活函数层、卷积层、激活函数层、最大池化层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层、最大池化层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层，至此已经完成基础网络层10个卷积层、10个激活函数层及3个最大池化层的构建，本发明可将最后一层激活函数层的输出特征作为底层特征，其输出维度为16×512×40×40，底层特征的分辨率较高，能够识别出几乎所有的人脸，避免漏检问题发生。

步骤201，构建额外特征提取网络：如图4所示，额外特征提取网络可以由卷积层、激活函数层及最大池化层组成，其用于提取高层特征，在构建额外特征提取网络时以底层特征作为输入，构建最大池化层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层、卷积层、激活函数层，至此已经完成额外特征提取网络7个卷积层、7个激活函数层及1个最大池化层的构建，将第三个激活函数层输出的特征、第五个激活函数层输出的特征及最后一个激活函数层输出的特征分别作为高层特征，各高层特征输出维度依次为16×512×20×20、16×1024×10×10、16×512×5×5，这些高层特征经过的卷积较多，语义性更高、噪声少，可有效提高小人脸检测准确性。

步骤202，构建特征融合网络：如图5所示，特征融合网络可由卷积层、激活函数层及反卷积层组成，用于将图像的底层特征和高层特性进行融合。第一次特征融合是将输出维度为16×512×5×5特征图上的特征信息融入到输出维度为16×1024×10×10特征图中，第二次特征融合是将融合后的16×1024×10×10特征图上的特征融入到输出维度为16×512×20×20特征图中，第三次特征融合是将融合后的16×512×20×20特征图上的特征信息融入到输出维度为16×512×40×40特征图中；具体如图5所示，第一次特征融合是先将5×5特征图上的特征进行3×3卷积、并可使用修正线性单元进行激活，然后再次进行3×3卷积和激活，激活完成后再进行两个分支操作，一个分支进入检测网络，另一个分支可先通过反卷积的方式将特征图从5×5上采样到10×10大小，然后和经过两次3×3卷积和一次激活的10×10的特征图上的特征进行逐点相加(Eltwise-SUM)操作，即进行第一次特征融合，这样的10×10特征图上就同时包含了原有的特征信息和5×5特征图上的特征信息，再对融合后的特征进行两个分支操作，一个分支使用修正线性单元进行激活后进入检测网络中，另一个分支进行下个特征融合；第二次特征融合，是先将经过融合后的10×10通过反卷积的方式进行上采样到20×20大小，接着和经过两次3×3卷积和一次激活的到20×20的特征图上的特征融合，这样融合后的特征图就同时包含了20×20、10×10、5×5的特征信息，再对融合后的特征进行两个分支操作，一个分支使用修正线性单元进行激活后进入检测网络中，另一个分支进行下次特征融合；第三次特征融合，是先将经过融合后的20×20特征图上特征通过反卷积的方式进行上采样到40×40大小，接着和经过两次3×3卷积和一次激活的到40×40的特征图上的底层特征进行特征融合，这样融合后的特征图就同时包含了40×40，20×20，10×10，5×5的特征信息。最后，对融合后的特征使用修正线性单元进行激活后再送入到检测网络中。

步骤203，构建检测网络，如图6所示，检测网络包括多个卷积层，本发明一些实施例的检测网络由8个卷积层组成，并且是并行的8个卷积层，用于通过输入的融合后的40×40特征图上的特征、融合后的20×20特征图上的特征、融合后的10×10特征图上的特征以及5×5特征图上的特征进行人脸检测。

最后，本发明通过处理后的训练数据对构建的各个网络进行训练：本发明对超参数进行设置，在本发明一些实施例中，可设置最大迭代次数为200000次，设置0-159999次的学习率为0.001，160000-179999次的学习率为0.0001，180000-200000次的学习率为0.00001，并且可设置优化器为随机梯度下降法，之后设置训练5000次保存一次模型，再设置权重衰减因子为0.1，动量因子为0.9；此外，在进行训练时还需对损失层参数进行设置，首先设置交并比阈值来划分正负样本，在本发明中设置阈值为0.5，接着可以使用SOFTMAXLOSS(分类损失函数)和SMOOTH_L1 LOSS(回归损失函数)来分别计算人脸分类和回归的损失；参数设置完成之后，网络便根据设置的参数来进行训练，训练过程中，网络根据设置的损失层参数计算损失，优化器根据这些损失来调整优化网络的权重；此外，进行训练时，判断迭代次数是否等于保存模型的迭代次数，如果是，保存模型后继续训练，反之，不保存模型继续训练，同时判断迭代次数是否等于最大迭代次数，如果是保存模型，结束训练，反之，继续训练；本发明一些实施例在wider face val(广阔场景的人脸验证数据集)上进行实施，实施时以RGB的方式读入图像，并将输入数据进行维度变换传入到网络中；还需对训练后的网络进行评估，进行评估时，还需设置参数对候选目标进行筛选，首先设置置信阈值，进行评估时为尽量保证召回率(检测到正确人脸的个数和标签中人脸个数的比例)，本次发明中设置为0.01，接着对筛选后的目标根据置信值大小进行排序，可选取前1000个目标作为候选目标，之后对剩下的目标进行非极大值筛选(根据阈值将候选框之间重叠部分比例大于该阈值的小目标过滤掉)，本发明使用0.45作为非极大值阈值，非极大值筛选过后，根据置信值选取前500个目标作为最终的输出目标；本发明的一些实施例将在320×320尺度上人脸长边小于50像素的人脸定义为Small(即小人脸)，人脸长边在50到80范围内的人脸定义为Medium(即中等人脸)，人脸中长边在80像素以上的人脸定义为Large(即大人脸)，最后输出的精度(检测到正确人脸的个数和检测到的人脸个数的比例)召回率曲线如图8、9、10中的①所示，在相同评估参数下，基于SSD的人脸检测精度召回率曲线如图8、9、10中的②所示，其中，WIDER FACE VAL EASY子集表示广阔场景的人脸简单评估子集，WIDER FACEVAL MEDIUM子集表示广阔场景的人脸中等难度评估子集，WIDER FACE VAL HARD子集表示广阔场景的人脸困难评估子集，从图中可知(曲线横坐标表示的是召回率，曲线纵坐标表示对应的精度)，本发明提出的特征融合和先验框密集策略结合的网络无论在精度还是召回率上都要远远领先于SSD网络。同时，为了证明本发明对于小人脸的检测效果优于SSD，因此分别在分类IOU(intersect over union，交并比)阈值0.6、0.7、0.8、0.9、1.0下在widerface val数据集上来进行人脸检测，检测结果下表所示。显而易见地，本发明所提供的特征融合和先验框密集策略的人脸检测算法，在0.6、0.7、0.8、0.9、1.0阈值下，无论是检测到的总人脸数还是小尺寸的人脸数，都远远超过SSD算法，这主要归功于本发明提供的特征融合网络与先验框密集策略，这同时也验证了本发明的有效性。

如图1所示，本发明的一些实施例提供了一种人脸检测方法，可明显提升人脸检测的准确率以及效率；该人脸检测方法可以包括如下的步骤，具体说明如下。

步骤S1，以RGB方式读取待检测的目标图像后进行维度变换，如图7所示，本发明一些改进的方案中还包括对待检测的目标图像设置密集先验框的步骤，能够使本发明提高检测人脸的召回率、识别出更多的人脸，进一步解决漏检问题；在本发明的一些实施例中，可以在后续的融合后的底层特征对应的各个图像上实施先验框密集策略。

步骤S2，以维度变换后的目标图像作为输入，提取目标图像的底层特征；本发明的一些实施例在提取目标图像的底层特征的过程包括：对目标图像中的数据进行多次卷积处理、多次激活函数处理及多次最大池化处理，将最后一次激活函数处理后的输出特征作为底层特征。

步骤S3，以底层特征作为输入，提取目标图像的高层特征，本发明的一些实施例在提取目标图像的高层特征的过程包括：对底层特征中的数据进行最大池化处理、多次卷积和激活函数处理后得到第一额外特征，对第一额外特征中的数据进行多次卷积和激活函数处理后得到第二额外特征，对第二额外特征中的数据进行多次卷积和激活函数处理后得到第三额外特征，其中，高层特征包括第一额外特征、第二额外特征以及第三额外特征。

步骤S4，将底层特征和高层特征进行融合，得到融合后的特征，而且各特征融合过程中，均可采用逐点相加的方式进行。本发明的一些实施例通过如下的方式得到融合后的特征：对第三额外特征中的数据进行多次卷积和激活函数处理后得到第一输入特征，将经过反卷积处理的第一输入特征与经过卷积处理和激活函数处理的第二额外特征进行融合，再对融合得到的特征进行激活函数处理后得到第二输入特征，将经过反卷积处理的第二输入特征与经过卷积处理和激活函数处理的第一额外特征进行融合，再对融合得到的特征进行激活函数处理后得到第三输入特征，将经过反卷积处理的第三输入特征与经过卷积处理和激活函数处理的底层特征进行融合，再对融合得到的特征进行激活函数处理后得到第四输入特征。

步骤S5，最后基于融合后的特征对目标图像进行人脸检测，本发明一些实施例中基于第一输入特征、第二输入特征、第三输入特征及第四输入特征对目标图像进行人脸检测。本发明一些改进的方案中基于融合后的特征对各个先验框内的目标图像进行人脸检测，例如可以对融合底层特征对应特征图(维度可以为16×512×40×40)实施先验框密集策略，本发明一些实施例采用了27个先验框，27个先验框可以通过如下方式设置：在原始感受野中心位置生成一个32×32大小的先验框，再根据横纵比1：2生成两个不同边长的先验框，通过向上或向下偏移像素的方式在原有中心点的基础上又生成15个中心点，然后根据这16个中心点生成16个边长为4的先验框，紧接着再以原始感受野中心位置为基准，通过向上或向下偏移像素的方式生成4个中心点，然后根据这4个中心点位置生成4个边长为8的先验框和4个边长为16的先验框，这样在每个原始感受野内就生成了27个先验框；本发明一些实施例在融合后的40×40特征图上实施先验框密集策略，因此其每个感受野内包含27个先验框，因此该层特征图上进行分类和回归的卷积核个数为54和108，其余三层特征图上可以不使用密集策略、每个感受野内只有3个先验框，所以用于分类和回归的卷积核个数为6和12，如图6所示。

本发明的一些实施例可通过设置置信阈值对网络输出目标进行筛选，如图7所示，实施时为尽量保证召回率(检测到正确人脸的个数和标签中人脸个数的比例)，置信阈值可设置为0.01，对各输出目标的置信值进行排序筛选，再过滤掉大于置信阈值的候选目标，过滤掉非极大值(NMS)阈值的候选目标，从而输出最终目标。

如图2所示，本发明的另一些实施例中提供了一种人脸检测系统，该人脸检测系统可以包括图像读取模块、先验框设置模块、基础网络、额外特征提取网络、特征融合网络及检测网络。图像读取模块，用于读取待检测的目标图像；先验框设置模块，用于对待检测的目标图像设置密集先验框；如图3所示，基础网络，用于以目标图像作为输入、提取目标图像的底层特征，基础网络包括多个卷积层、多个激活函数层及多个最大池化层，本发明一些实施例的基础网络包括10个卷积层、10个激活函数层及3个最大池化层，并可以将最后一层激活函数层的输出特征作为底层特征，其输出维度为16×512×40×40；如图4所示，额外特征提取网络，用于以底层特征作为输入、提取目标图像的高层特征，额外特征提取网络包括多个卷积层、多个激活函数层及多个最大池化层，本发明一些实施例的额外特征提取网络包括7个卷积层、7个激活函数层及1个最大池化层，并可将第三个激活函数层输出的特征、第五个激活函数层输出的特征及最后一个激活函数层输出的特征分别作为高层特征，分别为第一额外特征、第二额外特征及第三额外特征，各高层特征输出维度依次为16×512×20×20、16×1024×10×10、16×512×5×5；如图5所示，特征融合网络，用于将底层特征和高层特征进行融合、得到融合后的特征，特征融合网络包括多个卷积层、多个激活函数层、多个反卷积层及融合模块，第一次特征融合是将输出维度为16×512×5×5特征图上的特征信息融入到输出维度为16×1024×10×10特征图中，第二次特征融合是将融合后的16×1024×10×10特征图上的特征融入到输出维度为16×512×20×20特征图中，第三次特征融合是将融合后的16×512×20×20特征图上的特征信息融入到输出维度为16×512×40×40特征图中；具体如图5所示，第一次特征融合是先将5×5特征图上的特征进行3×3卷积、并可使用修正线性单元进行激活，然后再次进行3×3卷积和激活，以得到第一输入特征，激活完成后再对第一输入特征进行两个分支操作，一个分支进入检测网络，另一个分支可先通过反卷积的方式将特征图从5×5上采样到10×10大小，然后和经过两次3×3卷积和一次激活的10×10的特征图上的特征进行逐点相加(Eltwise-SUM)操作，即进行第一次特征融合，这样的10×10特征图上就同时包含了原有的特征信息和5×5特征图上的特征信息，以得到第二输入特征，再对融合后的特征(第二输入特征)进行两个分支操作，一个分支使用修正线性单元进行激活后进入检测网络中，另一个分支进行下个特征融合；第二次特征融合，是先将经过融合后的10×10通过反卷积的方式进行上采样到20×20大小，接着和经过两次3×3卷积和一次激活的到20×20的特征图上的特征融合，这样融合后的特征图就同时包含了20×20，10×10，5×5的特征信息，以得到第三输入特征，再对融合后的特征(第三输入特征)进行两个分支操作，一个分支使用修正线性单元进行激活后进入检测网络中，另一个分支进行下次特征融合；第三次特征融合，是先将经过融合后的20×20特征图上特征通过反卷积的方式进行上采样到40×40大小，接着和经过两次3×3卷积和一次激活的到40×40的特征图上的底层特征进行特征融合，这样融合后的特征图就同时包含了40×40，20×20，10×10，5×5的特征信息，以得到第四输入特征。最后，对融合后的特征使用修正线性单元进行激活，将第一、第二、第三、第四输入特征送入到检测网络中；其中，卷积层用于进行卷积处理，激活函数层用于进行激活函数处理，最大池化层用于进行最大池化处理，融合模块用于进行特征融合；如图6所示，检测网络，用于基于融合后的特征对目标图像进行人脸检测，还用于基于融合后的特征对各个先验框内的目标图像进行人脸检测。

本发明还有一些实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行，以实现本发明一个或多个实施例中的人脸检测方法或人脸检测系统。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM，Random AccessMemory)，只读存储器(ROM，Read-Only Memory)，可擦除可编辑只读存储器(EPROM，Erasable Programmable Read-Only Memory，或者闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM，Compact Disc Read-Only Memory)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA，Programmable Gate Array)，现场可编程门阵列(FPGA，Field Programmable Gate Array)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸检测方法，其特征在于，该方法包括如下步骤：

读取待检测的目标图像；

以所述目标图像作为输入，提取目标图像的底层特征；

以所述底层特征作为输入，提取目标图像的高层特征；

基于融合后的特征对目标图像进行人脸检测。

2.根据权利要求1所述的人脸检测方法，其特征在于，还包括对待检测的目标图像设置密集先验框的步骤；

3.根据权利要求1或2所述的人脸检测方法，其特征在于，在提取目标图像的底层特征的过程包括：

4.根据权利要求3所述的人脸检测方法，其特征在于，在提取目标图像的高层特征的过程包括：

5.根据权利要求4所述的人脸检测方法，其特征在于，通过如下的方式得到融合后的特征：

6.根据权利要求5所述的人脸检测方法，其特征在于，各特征融合过程中，均采用逐点相加的方式进行。

7.一种人脸检测系统，其特征在于，该系统包括：

图像读取模块，用于读取待检测的目标图像；

8.根据权利要求7所述的人脸检测系统，其特征在于，该系统包括先验框设置模块；

9.根据权利要求7或8所述的人脸检测系统，其特征在于，

所述基础网络包括多个卷积层、多个激活函数层及多个最大池化层；

所述卷积层用于进行卷积处理；

所述激活函数层用于进行激活函数处理；

所述最大池化层用于进行最大池化处理；

所述融合模块用于进行特征融合。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行，以实现如权利要求1-6中任一权利要求所述的人脸检测方法或权利要求7-9中任一权利要求所述的人脸检测系统。