CN111611934A

CN111611934A - 一种人脸检测模型生成和人脸检测方法、装置及设备

Info

Publication number: CN111611934A
Application number: CN202010441569.7A
Authority: CN
Inventors: 张玏; 李骊; 董晶; 金博; 王鹏
Original assignee: Add Subtract Information Technology Shenzhen Co ltd; Beijing HJIMI Technology Co Ltd
Current assignee: Add Subtract Information Technology Shenzhen Co ltd; Beijing HJIMI Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-01

Abstract

本申请实施例提供一种人脸检测方法、装置及设备，通过确定待进行人脸检测的图像组；合并提取到的各张目标图像的特征图得到第一目标特征图；对第一目标特征图进行特征提取得到第二目标特征图，第二特征图由多个预设维度的向量构成；确定预先设置的图像组中与向量关联的各个锚点区域，并根据向量分别计算每个锚点区域的信息组；根据第二特征图中各个向量关联的每个锚点区域的信息组确定图像组的候选人脸区域；基于第一特征图中匹配候选人脸区域的特征区域生成图像组的人脸检测结果(人脸检测结果包括图像组中的人脸区域和人脸区域的活体检测结果)的方式，达到了在实现人脸检测的同时实现对人脸的活体检测的目的。

Description

一种人脸检测模型生成和人脸检测方法、装置及设备

技术领域

本发明涉及人脸检测技术领域，更具体地说，涉及一种人脸检测模型生成和人脸检测方法、装置及设备。

背景技术

自上个世纪以来，生物特征识别技术已经取得了长远的发展。指纹识别、虹膜识别、声纹识别以及人脸识别等技术正变得越来越成熟，并逐渐地应用到人们的生产和生活之中。其中，人脸识别技术由于其数据的直观性和易获取性，已经成为当下最流行的生物特征识别技术之一。

长期以来，人们对于人脸识别技术所关心的主要是其识别的准确性问题，即它能否将处于不同拍摄环境下的同一张人脸识别出来，以及它能否区分开两个相似但并不相同的人脸。然而，在实际应用的过程中，人脸识别技术的安全性问题逐渐显露了出来，如何在进行人脸识别时滤除掉一些人为的欺骗性手段，成为了现在的一个热门研究方向。常见的人脸识别欺骗手段包括照片、视频、面具和头模等方式，前两种通常为二维平面，而后两种则会呈现出三维的立体展现形式。

用于抵御那些出现在生物特征识别技术中的欺骗手段的方法通常被称为活体检测技术，其目的是判断获取到的生物特征是否属于一个真实的、有生命的个体。而对于人脸识别技术来说，如果想要将人脸识别技术其应用到手机解锁、门禁、刷脸支付等具有安全等级要求的使用场景中，应用于人脸识别的活体检测技术当然是必不可少的。

发明内容

有鉴于此，本申请提供一种人脸检测模型生成和人脸检测方法、装置及设备，以达到在实现人脸检测的同时实现对人脸的活体检测的目的。技术方案如下：

一种人脸检测方法，包括：

确定待进行人脸检测的图像组，所述图像组由同一帧下的多张目标图像构成，各张所述目标图像的数据模态互不相同；

合并提取到的各张所述目标图像的特征图得到第一目标特征图；

对所述第一目标特征图进行特征提取得到第二目标特征图，所述第二特征图由多个预设维度的向量构成；

确定预先设置的所述图像组中与向量关联的各个锚点区域，并根据所述向量分别计算每个所述锚点区域的信息组，所述信息组包括第一信息、第二信息和第三信息，所述第一信息表征所述图像组在所述锚点区域中存在人脸的可能性，所述第二信息表征所述图像组中所述锚点区域和人脸区域之间的偏移量，所述第三信息表征所述图像组中所述锚点区域和人脸区域中人脸关键点之间的偏移量；

根据所述第二特征图中各个所述向量关联的每个所述锚点区域的信息组确定所述图像组的候选人脸区域；

对所述候选人脸区域进行处理生成所述图像组的人脸检测结果，所述人脸检测结果包括所述图像组中的人脸区域和所述人脸区域的活体检测结果。

优选的，所述确定待进行人脸检测的图像组，包括：

获取待进行人脸检测的原始图像组，所述原始图像组由同一帧下的多张第一图像构成，所述多张第一图像包括彩色图像、红外图像和深度图像中的至少两种图像；

对所述第一图像进行预处理得到所述第一图像对应第二图像；

对所有所述第二图像的像素值进行归一化处理得到每张所述第二图像对应的目标图像。

优选的，所述第一图像为彩色图像，所述对所述第一图像进行预处理得到所述第一图像对应第二图像，包括：

确定所述第一图像中的第一像素点集合和第二像素点集合，所述第一像素点集合包括所述第一图像中在YCbCr空间的Y通道上的值最大的预设数量个像素点，所述第二像素点集合包括所述第一图像中在YCbCr空间的Cb通道上的值位于第一数值范围且在Cr通道上的值位于第二数值范围的各个像素点；

计算所述第一像素点集合中的所有像素点分别在RGB图像的每个通道的平均值；

针对所述第一图像中的每个像素点，根据该像素点是否属于所述第二像素点集合的结果以及该像素点在所述通道的平均值，计算该像素点在所述通道的目标通道值得到所述第一图像对应的第二图像。

优选的，所述合并提取到的各张所述目标图像的特征图得到第一目标特征图，包括：

将所述目标图像输入至与其数据模态对应的初级特征提取层得到所述目标图像的特征图，不同数据模态对应不同的初级特征提取层，所述初级特征提取层由两个卷积层构成，所述初级特征提取层用于提取图像的初级特征；

对各个所述目标图像的特征图在通道维度上进行合并得到第一目标特征图。

优选的，所述对所述第一目标特征图进行特征提取得到第二目标特征图，包括：

将所述第一目标特征图输入至主干网络得到深层次特征图，所述主干网络用于提取深层特征，所述主干网络由5个连续的残差模块和2个最大池化层构成，每个所述残差模块包含两个堆叠的卷积层以及附带的Batch Norm层和ReLU层；

将所述深层次特征图输入至RPN网络的第一卷积层得到第二目标特征图，所述第一卷积层用于将所述深层次特征图转换成由多个预设维度的向量构成的特征图。

优选的，所述确定预先设置的所述图像组中与向量关联的各个锚点区域，并根据所述向量分别计算每个所述锚点区域的信息组，包括：

将所述第二目标特征图输入所述RPN网络的的第二卷积层，得到所述第二目标特征图中每个所述向量的第一信息组，所述向量的第一信息组包括根据所述向量计算的预先设置的所述图像组中与所述向量关联的每个锚点区域的第一信息；

将所述第二目标特征图输入所述RPN网络的的第三卷积层，得到所述第二目标特征图中每个所述向量的第二信息组，所述向量的第二信息组包括根据所述向量计算的预先设置的所述图像组中与所述向量关联的每个锚点区域的第二信息；

将所述第二目标特征图输入所述RPN网络的的第三卷积层，得到所述第二目标特征图中每个所述向量的第三信息组，所述向量的第三信息组包括根据所述向量计算的预先设置的所述图像组中与所述向量关联的每个锚点区域的第三信息。

优选的，所述根据所述第二特征图中各个所述向量关联的每个所述锚点区域的信息组确定所述图像组的候选人脸区域，包括：

检测所述向量关联的所述锚点区域的第一信息是否超过第一预设值；

如果所述向量关联的所述锚点区域的第一信息超过所述第一预设值，根据所述向量关联的所述锚点区域的第三信息检测根据所述向量关联的所述锚点区域预测的初始人脸区域的人脸头部转角是否超过第二预设值；

若根据所述向量关联的所述锚点区域的第三信息检测根据所述向量关联的所述锚点区域预测的初始人脸区域的人脸头部转角未超过第二预设值，根据所述向量关联的所述锚点区域的第二信息检测根据所述向量关联的所述锚点区域预测的初始人脸区域中人脸图像是否满足预设条件；

如果根据所述向量关联的所述锚点区域的第二信息检测根据所述向量关联的所述锚点区域预测的初始人脸区域中人脸图像满足所述预设条件，将根据所述向量关联的所述锚点区域预测的初始人脸区域确定为一个所述图像组的候选人脸区域。

优选的，所述对所述候选人脸区域进行处理生成所述图像组的人脸检测结果，所述人脸检测结果包括所述图像组中的人脸区域和所述人脸区域的活体检测结果，包括：

将各个所述候选人脸区域映射到所述深层次特征图得到每个所述候选人脸区域映射到所述深层次特征图的特征区域；

分别将每个所述特征区域转换成一个预设长度的第一特征向量；

对所述特征区域的深层特征进行提取得到每个所述特征区域的第二特征向量；

针对每个所述特征区域，根据该特征区域的第一特征向量和第二特征向量得到该特征区域的第三特征向量；

根据所述特征区域的第一特征向量确定所述原图组中的人脸区域以及利用所述特征区域的第三特征向量确定所述人脸区域的活体检测结果。

一种人脸检测装置，包括：

图像组确定单元，用于确定待进行人脸检测的图像组，所述图像组由同一帧下的多张目标图像构成，各张所述目标图像的数据模态互不相同；

第一目标特征生成单元，用于合并提取到的各张所述目标图像的特征图得到第一目标特征图；

第二目标特征生成单元，用于对所述第一目标特征图进行特征提取得到第二目标特征图，所述第二特征图由多个预设维度的向量构成；

信息组生成单元，用于确定预先设置的所述图像组中与向量关联的各个锚点区域，并根据所述向量分别计算每个所述锚点区域的信息组，所述信息组包括第一信息、第二信息和第三信息，所述第一信息表征所述图像组在所述锚点区域中存在人脸的可能性，所述第二信息表征所述图像组中所述锚点区域和人脸区域之间的偏移量，所述第三信息表征所述图像组中所述锚点区域和人脸区域中人脸关键点之间的偏移量；

候选人脸区域确定单元，用于根据所述第二特征图中各个所述向量关联的每个所述锚点区域的信息组确定所述图像组的候选人脸区域；

人脸检测结果生成单元，用于对所述候选人脸区域进行处理生成所述图像组的人脸检测结果，所述人脸检测结果包括所述图像组中的人脸区域和所述人脸区域的活体检测结果。

一种设备，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现所述人脸检测方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种人脸活体检测模型的训练方法流程图；

图2为本申请实施例提供的一种对第一图像进行预处理得到第一图像对应第二图像的方法流程图；

图3为本申请实施例提供的一种人脸活体识别模型训练过程示意图；

图4为本申请实施例提供的一种待训练人脸活体识别模型预测图像组样本的人脸检测结果的方法流程图；

图5为本申请实施例提供的一种主干网络结构示意图；

图6为本申请实施例提供的一种RPKPN模块的结构示意图；

图7为本申请实施例提供的一种人脸检测的方法流程图；

图8为本申请实施例提供的一种人脸检测装置的结构示意图；

图9为本申请实施例提供的一种人脸检测方法所适用于的服务器的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

基于上述背景技术可知，对于人脸识别技术来说，如果想要将人脸识别技术其应用到手机解锁、门禁、刷脸支付等具有安全等级要求的使用场景中，应用于人脸识别的活体检测技术当然是必不可少的。

现有的应用于人脸识别的活体检测技术及其缺点主要包括：

1.基于单一的彩色图像，对图像中的人脸进行活体判断，主要考察其细节纹理是否与真人所拍摄的人脸图像相同。该方法的主要缺点是数据来源单一，容易受到光照、运动模糊等因素的影响，且对三维面具和头模类攻击的抵抗性较差，鲁棒性不强。

2.基于多帧连续图像，对图像中的人脸进行活体判断，主要考察图像中的人脸是否存在真实人脸所具有的细微表情变化。该方法的主要缺点是依赖于多帧数据，导致活体判断的时间较长，且容易受到视频攻击的干扰。

3.基于声音、脉搏、体温等图像数据之外的生物特征数据，辅助进行活体判别。该方法的主要缺点是需要额外的输入设备，应用成本较高。

除上述3点以外，现有的应用于人脸识别的活体检测技术通常都会被设计成一个独立于人脸识别系统的单独的模块，不仅会产生很多的时间和内存消耗、不利于实际部署，而且不能在实现人脸识别的同时实现活体检测。

为解决现有的应用于人脸识别的活体检测技术存在的问题，本申请实施例提出一种人脸检测方法、装置及设备，通过3D深感摄像头所拍摄到的彩色图像、红外图像以及深度图像，对图像中的人脸进行活体判断。该方法只依赖于同一帧下的上述三张图像，数据来源多样，判断时间短，鲁棒性强。且同一个人脸目标在不同模态的图像数据中会表现出不同的特性，更有利于进行活体判断。除此之外，考虑到一个人脸识别系统中通常至少包括人脸特征提取和人脸检测这两个模块，本发明还将该活体检测方法融合到了人脸检测模块中，与人脸检测模块共享了大部分的网络结构，以减少计算量和内存使用，达到在实现人脸检测的同时直接判断出检测出的人脸是否为活体的目的。

本申请实施例提供的一种人脸检测方法可以由人脸活体检测模型实现，即，通过人脸活体检测模型对待进行人脸检测的图像组进行人脸检测得到图像组的人脸检测结果，该人脸检测结果包括图像组中人脸区域和人脸区域的活体检测结果。为了便于对本申请实施例提供的一种人脸检测方法的理解，现结合图1对本申请实施例提供的人脸活体检测模型的训练方法进行详细说明。

如图1所示，该方法包括：

S101、确定图像组样本，图像组样本由同一帧下的多张目标图像样本构成，各张目标图像样本的数据模态互不相同；

本申请实施例中，可以确定图像组样本，图像组样本由同一帧下的多张目标图像样本构成，各张目标图像样本的数据模态互不相同。

图像的数据模态(Modality)可以理解为对于同一个对象采用不同描述方式所得到的不同类型的图像数据，例如对于同一个对象拍摄的彩色图像、红外图像、深度图像等。

本申请实施例中，图像组样本中的多张目标图像样本包括彩色图像、红外图像和深度图像中的至少两种图像。

作为本申请实施例的一种优选实施方式，多张目标图像样本包括彩色图像、红外图像和深度图像。

作为本申请实施例的另一种优选实施方式，多张目标图像样本包括彩色图像和红外图像。

作为本申请实施例的又一种优选实施方式，多张目标图像样本包括彩色图像和深度图像。

作为本申请实施例的又一种优选实施方式，多张目标图像样本包括红外图像和深度图像。

本申请实施例中，确定待进行人脸检测的图像组包括：获取待进行人脸检测的原始图像组，原始图像组由同一帧下的多张第一图像构成，多张第一图像包括彩色图像、红外图像和深度图像中的至少两种图像；对第一图像进行预处理得到第一图像对应第二图像；对所有第二图像的像素值进行归一化处理得到每张第二图像对应的目标图像。

本申请实施例可以由3D深感摄像头的三个传感器在同一时刻拍摄得到三张图像(为了便于区分，将此处的图像称为第一图像)，这三张第一图像构成一个原始图像组，这三张第一图像分别是彩色图像，红外图像和深度图像。由于这三张第一图像是在同一时刻下拍摄到的，且具有相同的照相机视点(相机的所有传感器在近似相同的位置上进行拍摄)，因此这三张图像中的像素点可以认为是一一对应的，目标人脸在这三张图片中处于相同的位置。其中，彩色图像可以是RGB彩色图像。

由于三张输入图像属于不同的模态，拥有各自不同的属性，在输入到同一个人脸活体检测模型中进行人脸活体检测之前需要分别进行对应的前处理操作。即，分别对这三张第一图像中的每张第一图像进行预处理得到每张第一图像对应的第二图像。

对于RGB彩色图像，鉴于其易受环境光照影响以及相机偏色影响的特性，本申请实施例中使用改进的自动白平衡算法来减弱该影响。具体地，可以采用改进的全反射理论算法进行实现。在原始的全反射算法中，会先找出彩色图像中像素值之和最大的像素点，记为白点，然后用白点对彩色图像中的所有像素点进行映射，将其缩放到[0,255]之间，以还原图像的真实色彩。不过，这种白平衡方法所找到的白点可能不够稳定，导致算法的结果差异性较大，且过于泛化，并不针对人脸图像的问题。因此，本申请实施例对其进行了改进，改进后的主要步骤为请参见图2提供的一种对第一图像进行预处理得到第一图像对应第二图像的方法流程图。有关图3的详细描述请参见下文，在此不做限定。

对于红外图像，受限于传感器的最大发射功率，较远处的物体在图像中会明显更暗，像素值更小，这可能会影响到较远处人脸的检出率，因此，需要使用直方图均衡化算法(领域内经典算法)对其进行前处理，平衡红外图像的总体亮度。

对于深度图像，该图像中的每一个像素点的值都代表了真实世界中的目标点与深度传感器之间的距离。由于深度传感器本身存在测距误差，且距离越远误差越大，当误差达到一定程度后可能会出现对人脸活体的误判，因此，本发明中对深度图像的像素值进行了截断，将代表的距离大于预设距离的所有像素点的像素值置零。除了去除较远点外，由于人脸是一个连续的面，其深度值分布总会处在一个连续的较小范围内(一般为30mm左右)，因此本发明中根据人脸在深度图像中的这一特性，先计算出深度图像的直方图，然后根据直方图将深度图像中像素值连续性较小的点(比如，连续区域小于20mm)全部置零，以实现对明显的非人脸区域的排除。

本申请实施例，预设距离可以为1.5米，以上仅仅是本申请实施例提供的预设距离的优选内容，有关预设距离的具体内容，发明人可根据自己的需求进行设置，在此不做限定。

由于彩色图像、红外图像和深度图像的像素取值范围差异很大，为保证数值稳定，在完成对三种图像的前处理得到彩色图像对应的第二图像、红外图像对应的第二图像和深度图像对应的第二图像之后，还需要将这三张第二图像的像素值全部归一化到[0,1]之间，以得到彩色图像对应的目标图像、红外图像对应的目标图像和深度图像对应的目标图像，这三张目标图像构成对应原始图像的图像组。

本申请实施例中，人脸活体检测模型的输入为图像组；对图像组标定目标人脸检测结果后，可以将该携带目标人脸检测结果的图像样本作为用来训练人脸活体检测模型的图像组样本，相应的，图像组样本中的每张目标图像可以称为目标图像样本，通过多个图像组样本对待训练人脸活体检测模型进行训练可以得到人脸活体检测模型。

通过标注图像组中的人脸区域以及标注人脸区域是否为活体实现对图像组标注人脸检测结果的目的，即，对图像组标注的人脸检测结果包括图像组中的人脸区域和对该人脸区域标记的活体信息，活体信息可能为活体或非活体。对图像组标注的人脸检测结果可认为是图像组携带的目标人脸检测结果。

S102、将图像组样本输入至待训练人脸活体检测模型得到图像组样本的人脸检测结果，以人脸检测结果趋近于图像组样本携带的目标人脸检测结果为训练目标，反向调节待训练人脸活体检测模型生成人脸活体检测模型。

本申请实施例中，将图像组样本输入至待训练人脸活体检测模型后，该待训练人脸活体检测模型得到对该图像组样本的人脸检测结果，并以该人脸检测结果趋近于该图像组样本携带的目标人脸检测结果为训练目标，返向调节待训练人脸活体检测模型的参数直到该待训练人脸活体检测模型达到收敛得到人脸活体检测模型。

图2为本申请实施例提供的一种对第一图像进行预处理得到第一图像对应第二图像的方法流程图。

如图2所示，该方法包括：

S201、确定第一图像中的第一像素点集合和第二像素点集合，第一像素点集合包括第一图像中在YCbCr空间的Y通道上的值最大的预设数量个像素点，第二像素点集合包括第一图像中在YCbCr空间的Cb通道上的值位于第一数值范围且在Cr通道上的值位于第二数值范围的各个像素点；

本申请实施例，首先将RGB彩色图像转换到YCbCr空间中，以其Y通道上的值为亮度值，统计出RGB彩色图像中Y值最大的前预设数量个的点，记为第一像素点集合M。针对人脸图像任务，由于人脸皮肤区域的颜色在YCbCr空间中比在RGB空间中更容易区分，因此本发明中根据经验数值，将YCbCr图像中Cb通道上的值位于第一数值范围且Cr通道上的值位于第二数值范围的所有像素点记为第二像素点集合F。

本申请实施例，统计出RGB彩色图像中Y值最大的前预设数量个的点记为第一像素点集合M可以为统计出RGB彩色图像中Y值最大的前3％的点记为第一像素点集合M。

第一数值范围可以为大于等于77小于等于127，第二数值范围可以为大于等于133小于等于172。以上仅仅是本申请实施例提供的第一数值范围和第二数值范围的优选内容，有关第一数值范围和第二数值范围的具体内容，发明人可根据自己的需求进行设置，在此不做限定。

S202、计算第一像素点集合中的所有像素点分别在RGB图像的每个通道的平均值；

仍以上述为例，将集合M和集合F的点对应到RGB彩色图像中，并分别在R、G、B三个通道上对集合M中点的像素值求和取平均，得到在R通道的平均值R_max、在G通道的平均值G_max和在B通道的平均值B_max。

S203、针对第一图像中的每个像素点，根据该像素点是否属于第二像素点集合的结果以及该像素点在通道的平均值，计算该像素点在通道的目标通道值得到第一图像对应的第二图像。

本申请实施例中，可以利用如下公式对RGB彩色图像中的每一个像素点(该RGB彩色图像中像素点在R通道的值为R_old，在G通道的值为G_old，在B通道的值为B_old)进行更新：

基于上述公式即可得到白平衡后的新RGB彩色图像(该新的RGB彩色图像中像素点在R通道的值为R_new，在G通道的值为G_new，在B通道的值为B_new)，即，若第一图像为RGB彩色图像，该新的RGB彩色图像即为该第一图像对应的第二图像。其中，f(F)为分段函数，当像素点属于集合F时，f(F)＝1；当像素点不属于集合F时，f(F)＝0.8。f(F)的目的在于人为地调暗彩色图中可能的人脸区域之外的背景区域，突出图像重点，有利于之后的特征提取操作。

图3为本申请实施例提供的一种人脸活体识别模型训练过程示意图。图4为本申请实施例提供的一种待训练人脸活体识别模型预测图像组样本的人脸检测结果的方法流程图。结合图3-4，本申请实施例提供的待训练人脸活体检测模型对图像组样本进行检测得到图像组样本的人脸检测结果的过程包括：

S401、待训练人脸活体识别模型接收图像组样本，图像组样本携带目标人脸检测结果；

本申请实施例，图像组样本包括三张目标图像样本，这三张目标图像样本分别为彩色图像对应的目标图像、红外图像对应的目标图像和深度图像对应的目标图像。

S402、待训练人脸活体识别模型合并提取到的图像组样本中各张目标图像样本的特征图得到第一目标特征图；

本申请实施例，由于图像组样本中三张目标图像具有不同的模态，使用同一个深度学习模型对它们提取特征容易造成模型在训练阶段下不收敛，因此，本发明提供的待训练人脸活体识别模型先使用三个相互独立的分支网络分别提取它们的特征得到每张目标图像的特征图，然后将得到的这三张目标图像的特征图进行合并得到第一目标特征图。

本申请可以将每个分支网络称为一个初级特征提取层，这三个分支网络在模型结构上相同，如图3所示，每个分支网络均是由两个带有Batch Norm(领域内经典算法)和ReLU(领域内经典算法)的卷积层堆叠而成(Batch Norm和ReLU省略未画出)，分支网络用于提取输入到该分支网络的图像的初级特征得到图像的特征图。

在人脸活体检测模型的训练开始阶段，本发明中首先利用ImageNet数据集对彩色图像对应的分支网络的卷积层进行预训练，然后把预训练后的参数复制到红外图像对应的分支网络和深度图像对应的分支网络，完成对这三个分支网络的参数初始化。其中，ImageNet是一个庞大的彩色图像分类数据集，用它进行对模型进行预训练有助于增强模型的性能。

本申请实施例，可以将对应彩色图像的分支网络提取到的彩色图像对应的目标图像的特征图称为彩色特征图，将对应红外图像的分支网络提取到的红外图像对应的目标图像的特征图称为红外特征图，将对应深度图像的分支网络提取到的深度图像对应的目标图像的特征图称为深度特征图，其中，可以将彩色特征图、红外特征图和深度特征图看成是三种不同的特征图。

在预训练结束后的正式训练阶段，本发明中受Dropout算法(领域内经典算法)思想的启发，于每次训练迭代待训练人脸活体检测模型时，先随机地将彩色特征图、红外特征图和深度特征图中的一种特征图的值全部置零，之后在将这三种特征图在通道维度上进行合并得到第一目标特征图。

需要说明的是，在部署阶段(即，人脸活体检测模型应用阶段)则略过这一步，在通过三个分支网络得到彩色特征图、红外特征图和深度特征图后，直接合并这三种特征图得到第一目标特征图。由于这种类Dropout算法在训练时抹去了一部分的特征，增强了对模型的正则化，因此在训练阶段结束后可以得到更好的模型性能。

S403、待训练人脸活体识别模型对第一目标特征图进行特征提取得到第二目标特征图，第二特征图由多个预设维度的向量构成；

本申请实施例，在得到第一目标特征图会继续通过一个主干网络来提取更深层次的特征得到深层次特征图，如图5所示，主干网络由5个连续的残差模块和2个最大池化层构成，每个残差模块中都包含两个堆叠的卷积层以及附带的Batch Norm和ReLU，并使用shortcut来确保模型在训练阶段能够收敛。

在深度学习中，更深的网络代表了更强的特征提取能力，不过，为了加快人脸活体检测模型的检测的速度，主干网络中总共只有10个卷积层，和分支网络一样，主干网络也使用ImageNet数据集进行预训练以达到参数初始化的目的。

RPKPN模块是本发明中改进的一种RPN(Region Proposal Network)网络，针对人脸活体检测任务，增加了一个分支用于标定人脸关键点，如图6所示，假定主干网络提取出的深层次特征图为M，其维度尺寸为C*H*W，将其输入到RPKPN模块中后，首先经过一个卷积核大小为3*3的第一卷积层进行处理，在略微增大其感受野的同时将其转化为H*W个256维的向量，这些向量可以拼成一个新的维度尺寸为256*H*W的第二目标特征图M₂。由于卷积神经网络的特性，深层次特征图M以及第二目标特征图M₂上的每一个像素点都与图像组样本的一块区域存在一一映射关系，因此，只要知道了待检测目标(人脸)在深层次特征图M或第二目标特征图M₂上的位置，就可以推断出待检测目标在图像组样本上的位置。

S404、待训练人脸活体识别模型确定预先设置的图像组样本中与向量关联的各个锚点区域，并根据向量分别计算每个锚点区域的信息组，信息组包括第一信息、第二信息和第三信息，第一信息表征图像组样本在锚点区域中存在人脸的可能性，第二信息表征图像组样本中锚点区域和人脸区域之间的偏移量，第三信息表征图像组样本中锚点区域和人脸区域中人脸关键点之间的偏移量；

本申请实施例，将第二目标特征图M₂分别输入到RPKPN模块的第二卷积层、第三卷积层和第四卷积层，其中，第二卷积层、第三卷积层和第四卷积层的卷积核大小均为1*1。

本申请实施例，针对第二目标特征图中的每个向量，预先在图像组样本中设置有与该向量关联的多个锚点区域，第二卷积层用于针对H*W个特征向量中的每一个向量，根据该向量确定图像组样本上与该向量关联的每一个锚点区域的第一信息，锚点区域的第一信息可以为锚点区域的目标得分，该锚点区域的目标得分表征图像组在锚点区域中存在人脸的可能性。其中，第二卷积层用于针对H*W个特征向量中的每一个向量，将该向量转换成图像组样本上与该向量关联的每一个锚点区域的第一信息。

本申请实施例，针对一个向量，可以确定该向量的第一信息组，该向量的第一信息组包括图像组样本中与该向量关联的每个锚点区域的第一信息。

第三卷积层用于针对H*W个特征向量中的每一个向量，根据该向量确定图像组样本上与该向量关联的每一个锚点区域的第二信息，与向量关联的锚点区域的第二信息表征图像组样本中该锚点区域与人脸区域(该人脸区域是根据该向量和该锚点区域预测出的图像组样本中的人脸区域)之间的偏移量。具体的，是将向量转化为图像组样本上与该向量关联的每一个锚点区域的第二信息。

本申请实施例，针对一个向量，可以确定该向量的第二信息组，该向量的第二信息组包括图像组样本中与该向量关联的每个锚点区域的第二信息。

第四卷积层用于针对H*W个特征向量中的每一个向量，根据该向量确定图像组样本上与该向量关联的每一个锚点区域的第三信息，锚点区域的第三信息表征的锚点区域的左上角与人脸区域内人脸关键点(该人脸关键点是根据该向量和该锚点区域预测出的图像组样本中的人脸区域内的人脸关键点)之间的偏移量。

本申请实施例，针对一个向量，可以确定该向量的第三信息组，该向量的第三信息组包括图像组样本中与该向量关联的每个锚点区域的第三信息。

需要说明的是，针对一个向量，可以确定图像组样本中与该向量关联的各个锚点区域，对于每个锚点区域利用该向量计算出的该锚点区域的第一信息、第二信息和第三信息可以构成该锚点区域相对于该向量的信息组。

本申请实施例中，偏移量可以为坐标偏移量，锚点(anchor)指的是在图像组样本上预先设置好的与第二目标特征图M₂中的每一个像素点所对应的一组形态大小各异的方框，每一个像素点对应9个锚点，一共有H×W×9个锚点。每个人脸区域的人脸关键点有四个，分别是左眼中心、右眼中心、鼻尖和嘴巴中心。

在训练阶段，本发明中使用Softmax损失函数(领域内经典算法)对锚点区域的目标得分进行前景/背景的二分类监督训练，使用Smooth L1损失函数(领域内经典算法)对人脸区域与锚点区域之间的坐标偏移量以及锚点区域内人脸关键点的坐标偏移量进行回归的监督训练。

S405、待训练人脸活体识别模型根据第二特征图中各个向量关联的每个锚点区域的信息组确定图像组样本的候选人脸区域；

本申请实施例，针对每个向量，确定与该向量关联的各个锚点区域，针对每个锚点区域均计算出该锚点区域相对于该向量的信息组(即，该锚点区域相对于该向量的第一信息、第二信息和第三信息)后，针对每个向量执行以下过程：确定与该向量关联的各个锚点区域，从与该向量关联的各个锚点区域中选取第一信息超过第一预设值的各个锚点区域，进而针对选取出的每个锚点区域的第二信息和第三信息计算出位于图像组样本中与该锚点区域对应的人脸区域和人脸关键点。由于这些人脸区域和人脸关键点比较初级(为了便于区分暂时将此处的人脸区域称为初始人脸区域，人脸关键点为初始人脸区域中的人脸关键点)，坐标精度不高，因此它们只能被用来当作待检测人脸区域和大致的人脸关键点，还不能作为最终的人脸检测结果。

本申请实施例中，第一预设值可以为0.5，以上仅仅是本申请实施例提供的第一预设值的优选内容，有关第一预设值的具体内容，发明人可根据自己的需求进行设置，在此不做限定。

本发明中将在此处对初始人脸区域进行两次筛选，第一次筛选基于RPKPN中得到的初始人脸区域中的人脸关键点，先将两眼中心点连成一条直线，再将鼻尖和嘴巴中心点连成一条直线，如果两条直线的交点距任意一个眼睛中心点的距离小于两眼间距的0.2倍，或者两眼中心点间的连线与水平线相差超过45度，说明该初始人脸区域中的人脸的头部转角超过第二预设值，不适合进行活体检测或者人脸识别任务，应该予以舍去。第二次筛选基于初始人脸区域和深度图像(由于彩色图像、红外图像和深度图像上的像素点是一一对应的，因此它们的锚点区域、初始人脸区域的位置也是一样的)，如果一个深度图像中的初始人脸区域在其正下方区域中的大部分像素点的值都为零，或者在其左右区域中的大部分像素点的值都不为零的话，说明该初始人脸区域中很可能没有人脸或者只有人脸的一小部分，确定该初始人脸区域中人脸图像不满足预设条件，这样的初始人脸区域也应该舍去，进而将进行两次筛选后剩余的每个初始人脸区域看成是一个候选人脸区域。即，将进行两次筛选后未被舍去的每个初始人脸区域看成是一个候选人脸区域。

需要说明的是，如果既不存在两条直线的交点距任意一个眼睛中心点的距离小于两眼间距的0.2倍的情况，也不存在两眼中心点间的连线与水平线相差超过45度的情况，则认为该初始人脸区域中的人脸的头部转角未超过第二预设值。

若深度图像中的初始人脸区域既不存在在其正下方区域中的大部分像素点的值都为零，也不存在在其左右区域中的大部分像素点的值都不为零的情况，则认为该初始人脸区域中人脸满足预设条件。

S406、待训练人脸活体识别模型对候选人脸区域进行处理生成图像组的人脸检测结果，人脸检测结果包括图像组中的人脸区域和人脸区域的活体检测结果；

本申请实施例，确定图像组样本上的各个候选人脸区域后，就可以根据图像组样本中的图像与深层次特征图M在像素尺寸上的比例关系，将各个候选人脸区域映射到深层次特征图M上，得到每个候选人脸区域映射到深层次特征图M上的特征区域，即：

其中，W_M和H_M分别是深层次特征图M的宽和高，W_1n和H_1n分别是图像组样本中图像的宽和高，(x_1n,y_1n)代表图像组样本的图像上的某一点，x_M,y_M代表深层次特征图M上对应的点，

代表向上取整。

本申请实施例，在得到候选人脸区域，并确定候选人脸区域映射到深层次特征图M上的特征区域后，就可以通过检测深层特征图上的人脸区域间接地实现对图像组样本上的人脸区域的检测。

具体的，可以按照特征区域在深层特征图上的位置，从深层特征图上截取出所有的特征区域，对于每一个特征区域分别执行如下过程：使用多重RoI池化将其转化为一个预设长度的第一特征向量。多重RoI池化是本发明中为了增加人脸特征的信息量而改进的RoI池化方法，RoI池化首先将特征区域等分成49个小块(7*7)，并在每一个小块上做最大池化，由于深层特征图共有C个通道，因此RoI池化可以将该特征区域转化为一个维度尺寸为C*7*7的新特征图，而多重RoI池化则是在RoI的最大池化的基础上增加了平均池化，可以将特征区域转化为一个维度尺寸为2C*7*7的新特征图；随后，将由多重RoI池化所得到的新特征图2C*7*7输入到一个全连接层中，就得到了一个预设长度的第一特征向量V(本发明中预设长度设为512)。

一般情况下，由于从深层次特征图M中所截取出的特征区域比较小，其表征能力并不强，而人脸活体图像与人脸非活体图像之间又极为相似，因此仅靠用于人脸检测的网络结构并不能很好地实现对人脸是活体人脸与非活体人脸的划分。这里，本发明中引入了一个额外的特征增强模块，由一个线性插值层、两个残差模块和一个全连接层构成，用于进一步提取深层次特征图M中各候选人脸区域的深层特征得到每个特征区域的第二特征向量，并针对每个特征区域，将该特征区域的第二特征向量和该特征区域的第一特征向量进行合并得到该特征区域的第三特征向量Vc，V和Vc共同用于解决待检测人脸区域的人脸活体检测问题。在特征增强模块中，线性插值层可以增大深层次特征图中候选人脸区域的尺寸，并输出固定大小的新人脸特征图(128*128)，有助于之后的人脸活体判断。

本申请实施例，特征区域的第一特征向量V与第三特征向量Vc可以用于最终的人脸定位与人脸活体判断。具体地，第一特征向量V用于回归任务，第三特征向量Vc用于分类任务，将第三特征向量Vc输入到第一全连接层，第一全连接层可以将Vc转化为3维的类别得分向量，并输出这个3维的类别得分向量，这3维的类别得分向量中的每一维向量分别代表人脸活体、人脸假体以及背景；将第一特征向量V输入到第二全连接层，第二全连接层用于将第一特征向量V转化为4维的人脸区域坐标偏移量并输出；将第一特征向量V输入到第三全连接层，第三全连接层用于将第一特征向量V转化为8维的人脸关键点坐标偏移量并输出。

基于第一全连接层输出的3维的类别得分向量，使用改进后的Softmax损失函数对该3维的类别得分向量与图像组样本携带的类别真值之间进行误差计算，同样对整个待训练人脸活体识别网络进行反传和优化。改进后的Softmax损失函数的公式如下：

其中，x_i表示向量Vc的第i个元素值，x_y表示在向量Vc中与类别真值序号相同位置上的元素值，r与回归损失函数中一样，代表候选人脸区域与图像组样本中图像的面积比值的平方根，所带来的效果也与回归损失函数中的类似。

针对第二全连接层输出的4维的人脸区域坐标偏移量/第三全连接层输出的8维的人脸关键点坐标偏移量，使用由本发明中改进后的Smooth L1损失函数对坐标偏移量与图像组样本携带的坐标偏移量真值之间进行误差计算，便可以实现对整个待训练人脸活体检测模型的反传和优化。改进后的Smooth L1损失函数的公式如下：

其中，u代表类别，u＝0代表背景，u＝1代表人脸活体，u＝2代表人脸假体，t^u表示类别为u时的人脸区域偏移量或者人脸关键点偏移量的预测值，v表示人脸区域偏移量真值或者人脸关键点偏移量真值，r代表候选人脸区域与图像组样本中图像的面积比值的平方根，x，y，w，h分别代表候选人脸区域的左上角x坐标，左上角y坐标，宽以及高的偏移量，k_x和k_y代指人脸关键点的x和y坐标。[u≠0]在u＝0时值为0，在u≠0时值为1。改进后的SmoothL1损失函数由于引入了人脸区域与图像组样本中图像的比例关系，使得待训练人脸活体检测模型在训练时更关心离摄像头比较近的、比较清晰的人脸的坐标位置及关键点位置，与之前的模型设计保持了一致性，在训练结果上会优于标准的Smooth L1损失函数。

S407、待训练人脸活体识别模型以人脸检测结果趋近于目标人脸检测结果为训练目标，反向调节该待训练人脸活体识别模型中的参数，以生成人脸活体识别模型。

本申请实施例中，图像组样本还需要携带的类别真值和坐标偏移量真值，其中坐标偏移量真值包括人脸区域偏移量真值和人脸关键点偏移量真值，类别真值为人脸区域真实类别。

训练阶段结束后，在部署阶段，可以直接将向量V和向量Vc用与训练阶段中相同的方法分别转化为8维的人脸关键点坐标偏移量、4维的人脸区域坐标偏移量和3维的类别得分向量作为结果向量，再根据这些向量获得人脸区域在图像组中图像上的位置坐标、人脸关键点的坐标以及人脸区域的类别得分，达到一步检测出图像组中图像的人脸的位置以及判断其图像组中图像的人脸是活体人脸还是假体人脸的目的。

基于上述提供的人脸活体检测模型的训练过程的介绍，现对本申请实施例提供的根据人脸活体检测模型实现对人脸检测的方法进行详细说明，具体请参见图7。

如图7所示，该方法包括：

S701、确定待进行人脸检测的图像组，图像组由同一帧下的多张目标图像构成，各张目标图像的数据模态互不相同；

本申请实施例，接收待进行人脸检测的图像组，该图像组由同一帧下的多张目标图像构成，各张目标图像的数据模态互不相同。

S702、合并提取到的各张目标图像的特征图得到第一目标特征图；

S703、对第一目标特征图进行特征提取得到第二目标特征图，第二特征图由多个预设维度的向量构成；

S704、确定预先设置的图像组中与向量关联的各个锚点区域，并根据向量分别计算每个锚点区域的信息组，信息组包括第一信息、第二信息和第三信息，第一信息表征图像组在锚点区域中存在人脸的可能性，第二信息表征图像组中锚点区域和人脸区域之间的偏移量，第三信息表征图像组中锚点区域和人脸区域中人脸关键点之间的偏移量；

S705、根据第二特征图中各个向量关联的每个锚点区域的信息组确定图像组的候选人脸区域；

S706、对候选人脸区域进行处理生成图像组的人脸检测结果，人脸检测结果包括图像组中的人脸区域和人脸区域的活体检测结果。

需要说明的是，本申请实施例人脸活体检测模型在实现对图像组的人脸活体检测的过程中，在生成彩色特征图、红外特征图和深度特征图后，并不需要随机将其中一种特征图置零后在进行彩色特征图、红外特征图和深度特征图的合并以得到第一目标特征图，而是直接对生成的彩色特征图、红外特征图和深度特征图进行合并得到第一目标特征图，进而基于第一目标特征图执行后续过程。

本申请实施例可以直接将第一全连接层输出的3维的类别得分向量，第二全连接层输出的4维的人脸区域坐标偏移量以及第三全连接层输出的8维的人脸关键点坐标偏移量作为结果向量，进而根据结果向量获得人脸区域在图像组中图像上的位置坐标、人脸关键点的坐标以及人脸区域的类别得分，根据人脸区域的类别得分获知人脸区域的活体类别，以达到检测出图像组中图像的人脸的位置以及判断其图像组中图像的人脸是活体人脸还是假体人脸的目的。

图8为本申请实施例提供的一种人脸检测装置的结构示意图。如图8所示，该装置包括：

图像组确定单元81，用于确定待进行人脸检测的图像组，图像组由同一帧下的多张目标图像构成，各张目标图像的数据模态互不相同；

第一目标特征生成单元82，用于合并提取到的各张目标图像的特征图得到第一目标特征图；

第二目标特征生成单元83，用于对第一目标特征图进行特征提取得到第二目标特征图，第二特征图由多个预设维度的向量构成；

信息组生成单元84，用于确定预先设置的图像组中与向量关联的各个锚点区域，并根据向量分别计算每个锚点区域的信息组，信息组包括第一信息、第二信息和第三信息，第一信息表征图像组在锚点区域中存在人脸的可能性，第二信息表征图像组中锚点区域和人脸区域之间的偏移量，第三信息表征图像组中锚点区域和人脸区域中人脸关键点之间的偏移量；

候选人脸区域确定单元85，用于根据第二特征图中各个向量关联的每个锚点区域的信息组确定图像组的候选人脸区域；

人脸检测结果生成单元86，用于对候选人脸区域进行处理生成图像组的人脸检测结果，人脸检测结果包括图像组中的人脸区域和人脸区域的活体检测结果。

本申请实施例还提供一种设备，该设备至少一个存储器和至少一个处理器；存储器存储有程序，处理器调用存储器存储的程序，程序用于实现的人脸检测方法。

本申请实施例中，该设备可以为服务器，下面以人脸检测方法应用于服务器为例，对本申请实施例提供的一种人脸检测方法所适用于的服务器的硬件结构进行详细说明。

本申请实施例提供的一种人脸检测方法可应用于服务器，该服务器可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。

可选的，图9示出了本申请实施例提供的一种人脸检测方法所适用于的服务器的硬件结构框图，参照图9，服务器的硬件结构可以包括：处理器91，存储器92，通信接口93和通信总线94；

在本发明实施例中，处理器91、存储器92、通信接口93、通信总线94的数量均可以为至少一个，且处理器91、存储器92、通信接口93通过通信总线94完成相互间的通信；

处理器91可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器92可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，程序用于：

确定待进行人脸检测的图像组，图像组由同一帧下的多张目标图像构成，各张目标图像的数据模态互不相同；

合并提取到的各张目标图像的特征图得到第一目标特征图；

对第一目标特征图进行特征提取得到第二目标特征图，第二特征图由多个预设维度的向量构成；

确定预先设置的图像组中与向量关联的各个锚点区域，并根据向量分别计算每个锚点区域的信息组，信息组包括第一信息、第二信息和第三信息，第一信息表征图像组在锚点区域中存在人脸的可能性，第二信息表征图像组中锚点区域和人脸区域之间的偏移量，第三信息表征图像组中锚点区域和人脸区域中人脸关键点之间的偏移量；

根据第二特征图中各个向量关联的每个锚点区域的信息组确定图像组的候选人脸区域；

对候选人脸区域进行处理生成图像组的人脸检测结果，人脸检测结果包括图像组中的人脸区域和人脸区域的活体检测结果。

有关程序的功能可参见上文对本申请实施例提供的一种自动化测试案例生成方法的详细描述，在此不做赘述。

进一步的，本申请实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行上述人脸检测方法。

有关计算机可执行指令的具体内容可参见上文对本申请实施例提供的一种人脸检测方法的详细描述，在此不做赘述。

以上对本发明所提供的一种人脸检测方法、装置及设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人脸检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定待进行人脸检测的图像组，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一图像为彩色图像，所述对所述第一图像进行预处理得到所述第一图像对应第二图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述合并提取到的各张所述目标图像的特征图得到第一目标特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第一目标特征图进行特征提取得到第二目标特征图，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定预先设置的所述图像组中与向量关联的各个锚点区域，并根据所述向量分别计算每个所述锚点区域的信息组，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二特征图中各个所述向量关联的每个所述锚点区域的信息组确定所述图像组的候选人脸区域，包括：

8.根据权利要求7所述的方法，其特征在于，所述对所述候选人脸区域进行处理生成所述图像组的人脸检测结果，所述人脸检测结果包括所述图像组中的人脸区域和所述人脸区域的活体检测结果，包括：

9.一种人脸检测装置，其特征在于，包括：

10.一种设备，其特征在于，包括：至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述存储器存储的程序，所述程序用于实现如权利要求1-7任意一项所述的人脸检测方法。