CN112949507B

CN112949507B - 人脸检测方法、装置、计算机设备及存储介质

Info

Publication number: CN112949507B
Application number: CN202110249117.3A
Authority: CN
Inventors: 薛全华; 张国辉; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2024-05-10
Anticipated expiration: 2041-03-08
Also published as: CN112949507A

Abstract

本发明涉及人工智能技术领域，尤其涉及一种人脸检测方法、装置、设备及存储介质。该人脸检测方法包括获取预先训练好的人脸检测模型；获取待检测的彩色图和深度图，并分别对彩色图和深度图进行归一化处理，得到彩色图对应的第一标准图像以及深度图对应的第二标准图像；将归一化处理后的第一标准图像以及第二标准图像同时输入至人脸检测模型中进行人脸检测，得到目标检测层输出的人脸检测结果；其中，Senet特征融合层用于将特征提取层提取到的第一标准图像对应的第一图像特征和第二标准图像对应的第二图像特征进行多模态特征融合，并将融合特征图输入至多尺度特征融合层中进行多尺度特征融合。该人脸检测方法可有效提高人脸检测精度。

Description

人脸检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种人脸检测方法、装置、计算机设备及存储介质。

背景技术

人脸检测是围绕自动人脸图像分析的所有应用的基础。人脸检测属于目标检测领域，但通用目标检测通常模型比较大，速度较慢。目前人脸检测一般使用rgb图检测或者深度信息人脸图进行检测(即3d检测)。相对于使用深度摄像头所采集到的深度度进行人脸检测来说，使用rgb图进行人脸检测检测对不同环境的要求较高，易受环境因素的影响，如光照(强光、弱光、逆光、阴阳光)的影响。

一般地，人脸检测若应用在活体检测时，采用rgb图进行人脸检测也不能很好地鉴别人脸，如电子屏脸、纸张(曲面、平面)脸等。而如果只使用深度图进行人脸检测，对于过近距离或过远距离的人脸，深度信息误差比较大，从而也会导致人脸检测精度不足。

发明内容

本发明实施例提供一种人脸检测方法、装置、计算机设备及存储介质，以解决传统采用单独的RGB图或深度图进行人脸检测时，由于外界干扰因素的影响，导致人脸检测精度不足的问题。

一种人脸检测方法，包括：

获取预先训练好的人脸检测模型；其中，所述人脸检测模型包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层；

获取待检测的彩色图和深度图，并分别对所述彩色图和深度图进行归一化处理，得到所述彩色图对应的第一标准图像以及深度图对应的第二标准图像；

将归一化处理后的第一标准图像以及第二标准图像同时输入至所述人脸检测模型中进行人脸检测，得到所述目标检测层输出的人脸检测结果；其中，所述Senet特征融合层用于将所述特征提取层提取到的所述第一标准图像对应的第一图像特征和所述第二标准图像对应的第二图像特征进行多模态特征融合，并将融合特征图输入至所述多尺度特征融合层中进行多尺度特征融合。

一种人脸检测装置，包括：

模型获取模块，用于获取预先训练好的人脸检测模型；其中，所述人脸检测模型包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层；

归一化模块，用于获取待检测的彩色图和深度图，并分别对所述彩色图和深度图进行归一化处理，得到所述彩色图对应的第一标准图像以及深度图对应的第二标准图像；

人脸检测模块，用于将归一化处理后的第一标准图像以及第二标准图像同时输入至所述人脸检测模型中进行人脸检测，得到所述目标检测层输出的人脸检测结果；其中，所述Senet特征融合层用于将所述特征提取层提取到的所述第一标准图像对应的第一图像特征和所述第二标准图像对应的第二图像特征进行多模态特征融合，并将融合特征图输入至所述多尺度特征融合层中进行多尺度特征融合。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述人脸检测方法的步骤。

一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述人脸检测方法的步骤。

上述人脸检测方法、装置、计算机设备及存储介质中，首先获取预先训练好的人脸检测模型，该人脸检测模型包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层，然后获取待检测的彩色图和深度图，并分别对所述彩色图和深度图进行归一化处理，以排除干扰因素保证后续图像处理的有效性和准确性，最后再将归一化处理后的第一标准图像以及第二标准图像同时输入至预先训练好的人脸检测模型中进行人脸检测，以通过特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层对第一标准图像以及第二标准图像进行处理，即将特征提取层提取到的第一标准图像对应的第一图像特征和第二标准图像对应的第二图像特征输入至Senet特征融合层中，以使Senet特征融合层对彩色图和深度图进行多模态特征的抽取融合，将彩色图和深度图中有效的特征信息放大并融合，保证网络的学习速率，且可有效解决传统人脸检测采用单独的彩色图或深度图进行人脸检测易受外界干扰导致人脸检测精度低的问题，以抽取各模态的重要特征并放大，提升模型学习精度，进而提升回归精度。然后，通过多尺度特征融合层使浅层特征图与深层特征图有机融合起来，进一步提升检测精度。最后，通过将多尺度特征融合层输出的多尺度待检测特征图输入至目标检测层进行人脸检测，输出人脸检测结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中人脸检测方法的一应用环境示意图；

图2是本发明一实施例中人脸检测方法的一流程图；

图3是图2中步骤S203的一具体流程图；

图4是图3中步骤S303的一具体流程图；

图5是本发明一实施例中人脸检测模型的网络架构图；

图6是图2中步骤S202的一具体流程图；

图7是本发明一实施例中人脸检测方法的一流程图；

图8是本发明一实施例中人脸检测装置的一示意图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该人脸检测方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种人脸检测方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取预先训练好的人脸检测模型；其中，人脸检测模型包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层。

其中，Senet特征融合层为通过Senet网络实现的特征融合层，该Senet(Squeeze-and-Excitation Networks)网络的核心思想在于通过Senet网络根据网络的loss损失学习特征权重，以增加有效的特征图权重，减小无效或效果小的特征图权重小的方式训练模型达到更好的结果。多尺度特征融合层用于将低层级的特征上采样后通过侧边连接与相邻层级的特征融合。该特征提取层包括但不限于通过mobilenet网络、SpineNet网络或darknet53网络实现。需要说明的是，本实施例中的Senet特征融合层与多尺度特征融合层可采用相同融合网络实现或不同融合网络实现，此处不做限定。

S202：获取待检测的彩色图和深度图，并分别对彩色图和深度图进行归一化处理，得到彩色图对应的第一标准图像以及深度图对应的第二标准图像。

其中，该人脸检测模型整个架构采取top down/bottom up的方式构建，top down指彩色图和深度图随着特征提取分辨率越来越低；bottom up指通过低层级的特征上采样后通过侧边连接与相邻层级的特征融合。

具体地，本实施例中通过tof摄像头采集待检测的彩色图和深度图，该彩色图即为三通道的彩色空间图。该深度图是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。

可以理解地，为避免图像对比度不足(图像像素亮度分布不平衡)从而对后续处理带来干扰以及防止由于图像像素之间跨度过大，导致边缘像素可能会被抹掉的情况，本实施例中，通过分别对彩色图和深度图进行归一化处理，以使图像像素平稳，排除干扰因素，保证后续图像处理的有效性和准确性。

S203：将归一化处理后的第一标准图像以及第二标准图像同时输入至人脸检测模型中进行人脸检测，得到目标检测层输出的人脸检测结果。其中，所述Senet特征融合层用于将特征提取层提取到的第一标准图像对应的第一图像特征和第二标准图像对应的第二图像特征进行多模态特征融合，并将融合后的特征图输入至多尺度特征融合层中进行多尺度特征融合。

具体地，将归一化处理后的第一标准图像以及第二标准图像同时输入至人脸检测模型中进行人脸检测，即通过将特征提取层对待测图像进行特征提取输出的多尺度的特征图输入至Senet特征融合层中，以使Senet特征融合层度对相同尺度的彩色图和深度图进行多模态特征的抽取融合，将彩色图和深度图中有效的特征信息放大并融合，保证网络的学习速率，且有效解决传统人脸检测采用单独的彩色图或深度图进行人脸检测易受外界干扰导致人脸检测精度低的问题，以抽取各模态的重要特征并放大，提升模型学习精度，进而提升回归精度。然后，将融合特征图输入至多尺度特征融合层中，以通过多尺度特征融合层使浅层特征图与深层特征图有机融合起来，进一步提升检测精度。最后，通过将多尺度特征融合层输出的多尺度待检测特征图输入至目标检测层进行人脸检测，输出人脸检测结果。

本实施例中，首先获取预先训练好的人脸检测模型，该人脸检测模型包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层，然后获取待检测的彩色图和深度图，并分别对彩色图和深度图进行归一化处理，以排除干扰因素保证后续图像处理的有效性和准确性，最后再将归一化处理后的第一标准图像以及第二标准图像同时输入至预先训练好的人脸检测模型中进行人脸检测，以通过特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层对第一标准图像以及第二标准图像进行处理，即将特征提取层提取到的第一标准图像对应的第一图像特征和第二标准图像对应的第二图像特征输入至Senet特征融合层中，以使Senet特征融合层对彩色图和深度图进行多模态特征的抽取融合，将彩色图和深度图中有效的特征信息放大并融合，保证网络的学习速率，且可有效解决传统人脸检测采用单独的彩色图或深度图进行人脸检测易受外界干扰导致人脸检测精度低的问题，以抽取各模态的重要特征并放大，提升模型学习精度，进而提升回归精度。然后，通过多尺度特征融合层使浅层特征图与深层特征图有机融合起来，进一步提升检测精度。最后，通过将多尺度特征融合层输出的多尺度待检测特征图输入至目标检测层进行人脸检测，输出人脸检测结果。

在一实施例中，特征提取层包括基于mobilenetv2网络实现；目标检测层基于yolov3网络实现；其中，mobilenetv2网络通过去掉网络的第一层卷积层以及网络最后阶段的除第一个卷积层以外的其他卷积层，与Senet特征融合层连接。

具体地，由于传统yolov3的backbone网络采用DarkNet53网络，而DarkNet53网络中的卷积计算量较大。故本实施例中采用mobilenetv2网络作为yolov3的backbone网络，该mobilenetv2网络由于其使用深度可分离卷积的思想并结合反转残差结构实现，使得该mobilenetv2网络可有效减少卷积的计算量，提高网络计算效率且可提高网络检测的准确率。

可以理解地是，进一步结合本案的实际应用场景即人脸检测对mobilenetv2网络进行重构，即通过删除原始mobilenetv2网络的第一层卷积层以及最后一个stage阶段中除第一个卷积操作外的其他卷积层，以构建新的网络架构，使原有的适用于分类任务mobilenetv2网络适用于本案中人脸检测所包含的回归任务，并在最大程度保留原有特征信息的同时，平衡分类任务和回归任务，降低分类的任务的影响，从而提高回归精度。

在一实施例中，如图3所示，步骤S203中，即将归一化处理后的第一标准图像以及第二标准图像同时输入至人脸检测模型中进行人脸检测，得到目标检测层输出的人脸检测结果，具体包括如下步骤：

S301：将第一标准图像和第二标准图像分别输入至特征提取层中进行特征提取，得到第一标准图像对应的多尺度的第一图像特征以及第二标准图像对应的多尺度的第二图像特征。

其中，该第一标准图像对应的多尺度的第一图像特征与第二标准图像对应的多尺度的第二图像特征所包含的特征尺度一致，例如第一标准图像对应的第一图像特征所包含的特征尺度包括13*13、26*26以及52*52，则第二标准图像对应的第二图像特征所包含的特征尺度也包括13*13、26*26以及52*52。

S302：将相同尺度的第一图像特征以及第二图像特征输入至Senet特征融合层进行多模态特征融合处理，得到多尺度的融合特征图。

具体地，将相同尺度的所述第一图像特征以及所述第二图像特征输入至Senet特征融合层进行多模态特征融合处理，如上述示例，即将13*13的特征尺度的第一标准图像对应的第一图像特征与第二标准图像对应的第二图像特征进行特征融合，将26*26的特征尺度的第一标准图像对应的第一图像特征与第二标准图像对应的第二图像特征进行特征融合，将52*52的特征尺度的第一标准图像对应的第一图像特征与第二标准图像对应的第二图像特征进行特征融合。

S303：将多尺度的融合特征图输入至多尺度特征融合层进行多尺度特征融合处理，得到多尺度的待检测特征图。

具体地，通过将多尺度的融合特征图输入至多尺度特征融合层进行多尺度特征融合处理，即将上层低层级的特征图上采样后并通过侧边连接与相邻层级的特征融合，以使浅层特征图与深层特征图有机融合起来，进一步提升检测精度

S304：将多尺度的待检测特征图输入至目标检测层中进行人脸检测，得到人脸检测结果。

具体地，该目标检测层对多尺度的待检测特征图进行目标检测与传统yolov3网络进行目标检测的过程相同，即通过在网络中将三个先验框作为滑动窗口，以在三种不同尺度的特征图上进行预测，即可实现对其对应尺度的特征图进行应急车道的检测与识别，并输出包括三个预测人脸框的坐标以及该预测人脸框对应的人脸置信度，此次不再详述。该先验框是预先通过对应急车道图像对应的真实标注框，采用kmeans聚类算法进行聚类得到的。先验框是对预测的对象范围进行约束，并加入尺寸先验经验，从而可以有效解决对象多尺度的问题。

在一实施例中，多尺度特征融合层包括上采样模块、多尺度特征融合模块以及特征输出模块；多尺度的待检测特征图包括浅层尺度的浅层特征图和多个深层尺度的深层特征图；如图4所示，步骤S403中，即将多尺度的融合特征图输入至多尺度特征融合层进行多尺度特征融合处理，得到多尺度的待检测特征图，具体包括如下步骤：

S401：将浅层特征图输入至特征输出模块进行特征提取，输出浅层尺度的待检测特征图。

示例性地，此处以将该人脸检测方法应用在yolvV3网络为例进行说明，由于yolvV3网络的网络架构限制，其对应的特征骨干层即通过mobilenetv2网络实现的特征提取层的输出包括三个特征尺度(分辨率)的特征图，即低分辨率特征图、中分辨率特征图以及高分辨率特征图。

其中，多尺度的待检测特征图包括浅层尺度的浅层特征图和多个深层尺度的深层特征图；其中，浅层特征图即指浅层尺度即高分辨率的特征。深层特征图即指中分辨率以及低分辨率的特征图。

具体地，该特征输出模块包括CBL模块以及与该CBL模块相连的卷积模块(Conv)，通过将该浅层特征图输入至特征输出模块中，依次经过CBL模块和卷积模块进行特征提取，即可输出该浅层特征图对应的待检测特征图。

S402：将深层特征图输入至多尺度特征融合模块中，与多尺度特征融合模块所接收到的上采样模块提取上层特征图所得到的上采样特征进行融合，输出多个深层尺度的深层融合特征；其中，上采样特征与深层特征图的特征尺度一致。

S403：将每一深层融合特征输入至特征输出模块进行特征提取，输出多个深层尺度的待检测特征图。

具体地，将深层特征图(如y2、y3)输入至多尺度特征融合模块中，并与上采样模块输出的对应尺度的上采样特征进行融合，即可输出融合后的特征图，再将每一融合后的特征图输入至特征输出模块进行特征提取，即可输出该尺度对应的待检测特征图。可以理解地，通过将特征提取层输出的对应尺度的特证图与上层特征图的上采样特征进行融合，当前的特征图就可以获得“过去”层的信息，使浅层特征图与深层特征图有机融合起来，有利于提升检测精度。

示例性地，假设假设深层特征图的特征尺度为y2＝19*19*C1(通道)，上采样层对接受到的浅层特征图即38*38采用步长为2的卷积层进行处理，得到上采样层输出的上采样特征即19*19*C2，将两者输入至融合模块进行concat处理，即可得到对应的融合特征19*19(C1+C2)。

具体地，多尺度特征融合层包括上采样模块、多尺度特征融合模块以及特征输出模块。示例性地，如图5的网络的局部架构图(输出三个不同尺度的待检测特征图)所示，该网络中包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层(图中未示出)；其中，多尺度特征融合层包括上采样模块、多尺度特征融合模块以及特征输出模块；特征输出模块包括依次连接的CBL模块和卷积(conv)模块；上采样模块用于对接受到的上层Conv2D输出的特征图进行处理，输出上采样特征；多尺度特征融合模块用于对上采样模块和特征提取层输出的特征进行融合；特征输出模块用于对接收到的本层Conv2D输出的特征进行提取；Conv2D用于对接收到的特征提取层或融合模块输出的特征进行处理，并将得到的中间特征分别输入至本层的特征输出模块中以及下层中的上采样模块。需要说明的是，该特征输出模块输出的特征图即为待检测特征图。特征输出模块用于对接收到的本层Conv2D输出的特征进行处理，得到多个尺度的待检测特征(即图3中的y1、y2以及y3，图中的y1、y2以及y3的分辨率逐渐降低)；其中，CBL模块包括卷积(Conv)+批归一化(BN)+激活函数(Leaky_relu)。

可以理解地是，通过将低分辨率特征图进行Conv2D卷积以及上采样模块处理后得到上采样特征，并与中分辨率特征图进行融合(例如直接叠加)，再经过Conv2D以及特征输出模块的特征提取得到低分辨率的待检测特征图即y3；同理，将中分辨率特征图进行Conv2D卷积以及上采样模块处理后得到上采样特征，并与高分辨率特征图进行融合(融合)，再经过Conv2D以及特征输出模块的特征提取得到中分辨率的待检测特征图即y2，最后将低分辨率的待检测特征图、中分辨率的待检测特征图以及高分辨率(即高分辨率特征图)的待检测特征图即y1，输入至目标检测层进行人脸检测，以得到人脸检测结果。

在一实施例中，如图6所示，步骤S202中，即分别对彩色图和深度图进行归一化处理，得到彩色图对应的第一标准图像以及深度图对应的第二标准图像，具体包括如下步骤：

S601：将彩色图转化为RGB通道的彩色图。

具体地，由于当前采用opencv工具读取彩色图时，其读取的图像通道为为BGR通道，故需要将BGR转化为RGB通道，可采用opencv工具中的cvtColor(img,cv2.COLOR_BGR2RGB)函数即可。

S602：对RGB通道的彩色图的色彩空间进行归一化处理，获取第一预设像素区间的第一标准图像。

其中，通过对图像的RGB色彩空间进行归一化处理，可有效去除光照和阴影等干扰因素的影响。

具体地，假设RGB代表原图像某点的像素值，r、g、b表示归一化之后的值，则r＝R/(R+G+B)；g＝G/(R+G+B)；b＝B/(R+G+B)；

S603：对深度图进行直方图归一化处理，获取第二预设像素区间的深度图对应的第二标准图像

具体地，由于深度图的像素并没有分布在[0,255](即第二预设像素区间)区间内，而是分布在[0,255]的子区间内，此时的图像并不清晰即图像对比度不足。故本实施例中通过直方图归一化的方式，将它的像素分布从[0,255]的子区间变为[0,255]范围内，有效增加图像的清晰度。

示例性地，像素点的取值范围从[c,d]转换到[a,b]的算法如下：

其中，x_in表示输入的待转换的像素值，x_out表示归一化后的像素值，此处a取0，b取255，可根据实际需要设定，此处不做限定。

在一实施例中，如图7所示，步骤S201中，即获取预先训练好的人脸检测模型该方法还包括如下步骤：

S701：构建人脸检测网络；其中，人脸检测网络包括依次连接的特征提取层、Senet特征融合层以及目标检测层。

具体地，该人脸检测网络的架构与人脸检测模型架构保持一致，均包括依次连接的特征提取层、Senet特征融合层以及目标检测层，对于每一层的定义与步骤S201保持一致，为避免重复，此处不再赘述。

S702：采集待训练的彩色图和深度图，并对待训练的彩色图和深度图增加噪点，得到彩色图对应的第一噪点图以及深度图对应的第二噪点图。

具体地，由于本实施例中采用tof摄像头采集图像，而通常实际情况下下深度图和rgb图(彩色图)的分辨率不一致，而且并非完全对齐，故本实施例中，通过对待训练的彩色图和深度图增加噪点，以使后续进行人脸检测时的结果更加贴合实际，进而提高检测的准确率。

S703：分别对第一噪点图和第二噪点图进行归一化处理，得到第一噪点图对应的第一训练图像以及第二噪点图对应的第二训练图像。

具体地，步骤S703的图像归一化步骤与步骤S202保持一致，为避免重复，此处不再赘述。

S704：将归一化处理后的第一训练图像以及第二训练图像同时输入至人脸检测网络中进行训练，得到人脸检测模型。

具体地，步骤步骤S704的人脸训练步骤与步骤S703进行人脸检测保持一致，为避免重复，此处不再赘述。

可以理解地，在训练过程中通过基于目标目标检测层输出的预测结果与实际标注结果计算模型损失以便根据模型损失不断对模型进行更新优化，直至模型收敛，以得到人脸检测模型。

在一实施例中，步骤S702具体为：对彩色图和深度图进行非对齐处理，得到第一噪点图以第二噪点图。

具体地，通过对彩色图和深度图进行非对齐处理，得到第一噪点图以第二噪点图，该非对齐处理即对彩色图和深度图进行水平偏移和旋转变换实现，具体实现方式如下：

1)偏移实现：通过对任意的水平、垂直方向偏移x,y像素，其中x,y满足-Δ＜x,y＜Δ，于本实施例中，Δ取5像素。

水平偏移流程：若设置的x>0，则深度图向右偏移x像素，rgb图保持不动，同时裁减掉rgb和深度两个图像左侧的x像素，以得到第一噪点图以第二噪点图。同理，若设置的x<0，则深度图向左偏移x像素，rgb图保持不动，同时裁减掉rgb和深度两个图像右侧的x像素。

垂直方向偏移流程：若设置的y>0，则深度图向上偏移y像素，rgb图保持不动，同时裁减掉rgb和深度两个图像下侧的y像素，以得到第一噪点图以第二噪点图。同理，若设置的y<0，则深度图向下偏移y像素，rgb图保持不动，同时裁减掉rgb和深度两个图像上的y像素。

2)旋转变换：

假设某一像素点(x₀,y₀)变换后为(x₁,y₁)。图像宽为W，高为H，θ为变换角度，满足-Δ_θ＜θ＜Δ_θ，于本实施例中，Δ_θ取10°，其变换公式如下：

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种人脸检测装置，该人脸检测装置与上述实施例中人脸检测方法一一对应。如图8所示，该人脸检测装置包括模型获取模块10、归一化模块20以及人脸检测模块30。各功能模块详细说明如下：

模型获取模块10，用于获取预先训练好的人脸检测模型；其中，人脸检测模型包括依次连接的特征提取层、Senet特征融合层、多尺度特征融合层以及目标检测层；

归一化模块20，用于获取待检测的彩色图和深度图，并分别对彩色图和深度图进行归一化处理，得到彩色图对应的第一标准图像以及深度图对应的第二标准图像；

人脸检测模块30，用于将归一化处理后的第一标准图像以及第二标准图像同时输入至人脸检测模型中进行人脸检测，得到目标检测层输出的人脸检测结果；其中，Senet特征融合层用于将特征提取层提取到的第一标准图像对应的第一图像特征和第二标准图像对应的第二图像特征进行多模态特征融合，并将融合后的特征图输入至多尺度特征融合层中进行多尺度特征融合。。

具体地，图像识别模型包括与第一骨干网络相连的掩膜层以及与掩膜层相连的识别网络。

具体地，特征提取层包括基于mobilenetv2网络实现；目标检测层基于yolov3网络实现；其中，mobilenetv2网络通过去掉网络的第一层卷积层以及网络最后阶段的除第一个卷积层以外的卷积层，与Senet特征融合层连接。

具体地，人脸检测模块包括特征提取单元、多模态特征融合单元、多尺度特征融合单元和人脸检测单元。

特征提取单元，用于将第一标准图像和第二标准图像分别输入至特征提取层中进行特征提取，得到第一标准图像对应的多尺度的第一图像特征以及第二标准图像对应的多尺度的第二图像特征；

多模态特征融合单元，用于将相同尺度的所述第一图像特征以及所述第二图像特征输入至Senet特征融合层进行多模态特征融合处理，得到多尺度的融合特征图；

多尺度特征融合单元，用于将多尺度的融合特征图输入至多尺度特征融合层进行多尺度特征融合处理，得到多尺度的待检测特征图；

人脸检测单元，用于将多尺度的待检测特征图输入至目标检测层中进行人脸检测，得到人脸检测结果。

具体地，多尺度特征融合层包括上采样模块、多尺度特征融合模块以及特征输出模块；多尺度的待检测特征图包括浅层尺度的浅层特征图和多个深层尺度的深层特征图；多尺度特征融合单元包括浅层特征图输出子单元、深层特征图输出子单元和待检测特征图输出子单元。

浅层特征图输出子单元，用于将浅层特征图输入至特征输出模块进行特征提取，输出浅层尺度的待检测特征图；

深层特征图输出子单元，用于将深层特征图输入至多尺度特征融合模块中，与多尺度特征融合模块所接收到的上采样模块提取上层特征图所得到的上采样特征进行融合，输出多个深层尺度的深层融合特征；其中，上采样特征与深层特征图的特征尺度一致；

待检测特征图输出子单元，用于将每一深层融合特征输入至特征输出模块进行特征提取，输出多个深层尺度的待检测特征图。

具体地，归一化模块包括通道转换单元、第一归一化单元和第二归一化单元。

通道转换单元，用于将彩色图转化为RGB通道的彩色图；

第一归一化单元，用于对RGB通道的彩色图的色彩空间进行归一化处理，获取第一预设像素区间的第一标准图像；

第二归一化单元，用于对深度图进行直方图归一化处理，获取第二预设像素区间的第二标准图像。

具体地，该人脸检测装置还包括人脸检测网络构建模块、训练图像采集模块、归一化模块以及训练模块。

人脸检测网络构建模块，用于构建人脸检测网络；其中，人脸检测网络包括依次连接的特征提取层、Senet特征融合层以及目标检测层；

训练图像预处理模块，用于采集待训练的彩色图和深度图，并对待训练的彩色图和深度图增加噪点，得到彩色图对应的第一噪点图以及深度图对应的第二噪点图；

归一化模块，用于分别对第一噪点图和第二噪点图进行归一化处理，得到第一噪点图对应的第一训练图像以及第二噪点图对应的第二训练图像；

训练模块，用于将归一化处理后的第一训练图像以及第二训练图像同时输入至人脸检测网络中进行训练，得到人脸检测模型。

具体地，训练图像预处理模块具体为对彩色图和深度图进行非对齐处理，得到第一噪点图以第二噪点图。

关于人脸检测装置的具体限定可以参见上文中对于人脸检测方法的限定，在此不再赘述。上述人脸检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行人脸检测方法过程中生成或获取的数据，如图像识别模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的人脸检测方法的步骤，例如图2所示的步骤S201-S203，或者图3至图7中所示的步骤。或者，处理器执行计算机程序时实现人脸检测装置这一实施例中的各模块/单元的功能，例如图8所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中人脸检测方法的步骤，例如图2所示的步骤S201-S203，或者图3至图7中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述人脸检测装置这一实施例中的各模块/单元的功能，例如图8所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种人脸检测方法，其特征在于，包括：

获取待检测的彩色图和深度图，并分别对所述彩色图和深度图进行归一化处理，得到所述彩色图对应的第一标准图像以及所述深度图对应的第二标准图像；

将归一化处理后的所述第一标准图像以及所述第二标准图像同时输入至所述人脸检测模型中进行人脸检测，得到所述目标检测层输出的人脸检测结果；其中，所述Senet特征融合层用于将所述特征提取层提取到的所述第一标准图像对应的第一图像特征和所述第二标准图像对应的第二图像特征进行多模态特征融合，并将融合后的特征图输入至所述多尺度特征融合层中进行多尺度特征融合；

所述将归一化处理后的第一标准图像以及第二标准图像同时输入至所述人脸检测模型中进行人脸检测，得到所述目标检测层输出的人脸检测结果，包括，

将所述第一标准图像和所述第二标准图像分别输入至所述特征提取层中进行特征提取，得到所述第一标准图像对应的多尺度的第一图像特征以及所述第二标准图像对应的多尺度的第二图像特征；

将相同尺度的所述第一图像特征以及所述第二图像特征输入至所述Senet特征融合层进行多模态特征融合处理，得到多尺度的融合特征图；

将所述多尺度的融合特征图输入至所述多尺度特征融合层进行多尺度特征融合处理，得到多尺度的待检测特征图；所述将所述多尺度的融合特征图输入至所述多尺度特征融合层进行多尺度特征融合处理包括，将上层低层级的特征图上采样后并通过侧边连接与相邻层级的特征融合，使浅层特征图与深层特征图融合；

将所述多尺度的待检测特征图输入至所述目标检测层中进行人脸检测，得到所述人脸检测结果。

2.如权利要求1所述人脸检测方法，其特征在于，所述特征提取层包括基于mobilenetv2网络实现；所述目标检测层基于yolov3网络实现；其中，所述mobilenetv2网络通过去掉网络的第一层卷积层以及网络最后阶段的除第一个卷积层以外的卷积层，与所述Senet特征融合层连接。

3.如权利要求1所述人脸检测方法，其特征在于，所述多尺度特征融合层包括上采样模块、多尺度特征融合模块以及特征输出模块；所述多尺度的待检测特征图包括浅层尺度的浅层特征图和多个深层尺度的深层特征图；

所述将所述多尺度的融合特征图输入至所述多尺度特征融合层进行多尺度特征融合处理，得到多尺度的待检测特征图，包括：

将所述浅层特征图输入至所述特征输出模块进行特征提取，输出浅层尺度的待检测特征图；

将所述深层特征图输入至所述多尺度特征融合模块中，与所述多尺度特征融合模块所接收到的所述上采样模块提取上层特征图所得到的上采样特征进行融合，输出多个深层尺度的深层融合特征；其中，所述上采样特征与所述深层特征图的特征尺度一致；

将每一所述深层融合特征输入至所述特征输出模块进行特征提取，输出多个所述深层尺度的待检测特征图。

4.如权利要求1所述人脸检测方法，其特征在于，所述分别对所述彩色图和深度图进行归一化处理，得到所述彩色图对应的第一标准图像以及所述深度图对应的第二标准图像，包括：

将所述彩色图转化为RGB通道的彩色图；

对所述RGB通道的彩色图的色彩空间进行归一化处理，获取第一预设像素区间的第一标准图像；

对所述深度图进行直方图归一化处理，获取第二预设像素区间的第二标准图像。

5.如权利要求1所述人脸检测方法，其特征在于，所述获取预先训练好的人脸检测模型，包括：

构建人脸检测网络；其中，所述人脸检测网络包括依次连接的特征提取层、Senet特征融合层以及目标检测层；

采集待训练的彩色图和深度图，并对所述待训练的彩色图和深度图增加噪点，得到所述彩色图对应的第一噪点图以及所述深度图对应的第二噪点图；

分别对所述第一噪点图和第二噪点图进行归一化处理，得到所述第一噪点图对应的第一训练图像以及所述第二噪点图对应的第二训练图像；

将归一化处理后的第一训练图像以及第二训练图像同时输入至所述人脸检测网络中进行训练，得到所述人脸检测模型。

6.如权利要求5所述人脸检测方法，其特征在于，所述对所述待训练的彩色图和深度图增加噪点，得到所述彩色图对应的第一噪点图以及所述深度图对应的第二噪点图，包括：

对所述彩色图和所述深度图进行非对齐处理，得到所述第一噪点图以及所述第二噪点图。

7.一种人脸检测装置，其特征在于，包括：

人脸检测模块，用于将归一化处理后的第一标准图像以及第二标准图像同时输入至所述人脸检测模型中进行人脸检测，得到所述目标检测层输出的人脸检测结果；其中，所述Senet特征融合层用于将所述特征提取层提取到的所述第一标准图像对应的第一图像特征和所述第二标准图像对应的第二图像特征进行多模态特征融合，并将融合特征图输入至所述多尺度特征融合层中进行多尺度特征融合；所述将归一化处理后的第一标准图像以及第二标准图像同时输入至所述人脸检测模型中进行人脸检测，得到所述目标检测层输出的人脸检测结果，包括，将所述第一标准图像和所述第二标准图像分别输入至所述特征提取层中进行特征提取，得到所述第一标准图像对应的多尺度的第一图像特征以及所述第二标准图像对应的多尺度的第二图像特征；将相同尺度的所述第一图像特征以及所述第二图像特征输入至所述Senet特征融合层进行多模态特征融合处理，得到多尺度的融合特征图；将所述多尺度的融合特征图输入至所述多尺度特征融合层进行多尺度特征融合处理，得到多尺度的待检测特征图；所述将所述多尺度的融合特征图输入至所述多尺度特征融合层进行多尺度特征融合处理包括，将上层低层级的特征图上采样后并通过侧边连接与相邻层级的特征融合，使浅层特征图与深层特征图融合；将所述多尺度的待检测特征图输入至所述目标检测层中进行人脸检测，得到所述人脸检测结果。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述人脸检测方法的步骤。

9.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述人脸检测方法的步骤。