CN113610071A

CN113610071A - 人脸活体检测方法、装置、电子设备及存储介质

Info

Publication number: CN113610071A
Application number: CN202111180614.9A
Authority: CN
Inventors: 李运涛; 韩晶; 童志军; 丁小羽
Original assignee: Nanjing Yuemian Technology Co ltd; Shenzhen Yixin Vision Technology Co ltd
Current assignee: Nanjing Yuemian Technology Co ltd; Shenzhen Yixin Vision Technology Co ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2021-11-05
Anticipated expiration: 2041-10-11
Also published as: CN113610071B

Abstract

本申请适用于人工智能领域，提供了人脸活体检测方法、装置、电子设备及存储介质。人脸活体检测方法包括：获取人脸检测图像，人脸检测图像包括人脸的红外图像和深度图像；对红外图像进行特征提取，得到全局红外分类特征和局部红外分类特征；对深度图像进行特征提取，得到全局深度分类特征和局部深度分类特征；对全局红外分类特征以及全局深度分类特征进行特征拼接，得到全局多模态特征，对局部红外分类特征以及局部深度分类特征进行特征拼接，得到局部多模态特征；将各分类特征分别输入对应的分类器，得到对应分类结果；若分类结果满足预设条件，则确定人脸检测图像中的人脸为活体人脸。通过多个维度的特征互补，提高人脸活体检测的准确度。

Description

人脸活体检测方法、装置、电子设备及存储介质

技术领域

本申请属于人工智能领域，尤其涉及人脸活体检测方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的不断发展，利用人的生物特性进行身份识别得到了广泛的应用，由于人脸识别具有主动性、非侵犯性等优势，在生物特征识别中扮演着重要的角色。比如刷脸支付、人脸手机解锁，高铁刷脸进站和3D人脸识别门锁等等。但是，采用仿冒人脸（例如人脸照片、视频、人脸面具、人脸头模）来攻击人脸识别系统的现象越来越普遍，给人脸识别技术带来了越来越多的挑战。因此，识别人脸图像是否是活体人脸是抵挡仿冒人脸攻击的必要途径。现有的人脸活体检测方法不能适应不同环境下的活体人脸检测，因而人脸识别的准确度不高。

发明内容

有鉴于此，本申请实施例提供了人脸活体检测方法、装置、电子设备及存储介质，可以适应不同环境下的人脸活体检测，从而提高人脸识别的准确度。

本申请实施例的第一方面提供了一种人脸活体检测方法，包括：

获取人脸检测图像，所述人脸检测图像包括人脸的红外图像和深度图像；

对所述红外图像进行特征提取，得到全局红外分类特征以及局部红外分类特征；对所述深度图像进行特征提取，得到全局深度分类特征以及局部深度分类特征；

对所述全局红外分类特征以及全局深度分类特征进行特征拼接，得到全局多模态特征，对所述局部红外分类特征以及局部深度分类特征进行特征拼接，得到局部多模态特征；

将所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征分别输入对应的分类器，得到所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征，分别对应的分类结果；

若所述分类结果满足预设条件，则确定所述人脸检测图像中的人脸为活体人脸。

在一种可能的实现方式中，所述对所述红外图像进行特征提取，得到全局红外分类特征以及局部红外分类特征；对所述深度图像进行特征提取，得到全局深度分类特征以及局部深度分类特征，包括：

根据所述红外图像得到全局红外图像和局部红外图像，根据所述深度图像得到全局深度图像和局部深度图像；

将所述全局红外图像输入全局红外网络模型，得到全局红外分类特征；将所述局部红外图像输入局部红外网络模型，得到局部红外分类特征；将所述全局深度图像输入全局深度网络模型，得到全局深度分类特征；将所述局部深度图像输入局部深度网络模型，得到局部深度分类特征。

在一种可能的实现方式中，所述局部红外图像包括左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像；所述局部红外网络模型包括第一红外模型、第二红外模型、第三红外模型以及第四红外模型；将所述局部红外图像输入局部红外网络模型，得到局部红外分类特征，包括：

将所述左眼所在区域的图像输入第一红外模型，得到第一红外特征，将所述右眼所在区域的图像输入第二红外模型，得到第二红外特征，将所述鼻子所在区域的图像输入第三红外模型，得到第三红外特征，将所述嘴巴所在区域的图像输入第四红外模型，得到第四红外特征；

将所述第一红外特征、所述第二红外特征、所述第三红外特征以及所述第四红外特征相加，得到局部红外分类特征。

在一种可能的实现方式中，在所述获取人脸检测图像之前，所述方法还包括：

获取训练样本，所述训练样本包括红外训练图像和深度训练图像；

基于所述红外训练图像得到全局红外分类模型和局部红外分类模型，基于所述深度训练图像得到全局深度分类模型和局部深度分类模型；

基于所述红外训练图像和深度训练图像对应的全局多模态特征和局部多模态特征，对所述全局红外分类模型、局部红外分类模型、全局深度分类模型和局部深度分类模型进行联合训练，得到全局红外网络模型、局部红外网络模型、全局深度网络模型和局部深度网络模型。

在一种可能的实现方式中，所述局部红外分类模型包括第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型，基于所述红外训练图像得到局部红外分类模型，包括：

确定每个所述红外训练图像中的左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像；

根据每个所述红外训练图像中的左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像、嘴巴所在区域的图像，以及预设面积计算规则，分别确定所述红外训练图像中的第一区域图像、第二区域图像、第三区域图像以及第四区域图像，所述红外训练图像中的左眼所在区域的图像位于所述第一区域图像内，右眼所在区域的图像位于所述第二区域图像内，鼻子所在区域的图像位于所述第三区域图像内，嘴巴所在区域的图像位于所述第四区域图像内；

采用每个所述红外训练图像中的左眼所在区域的图像以及第一区域图像训练第一分类模型，得到第一局部红外模型，采用每个所述红外训练图像中的右眼所在区域的图像以及第二区域图像训练所述第一分类模型，得到第二局部红外模型，采用每个所述红外训练图像中的鼻子所在区域的图像以及第三区域图像训练所述第一分类模型，得到第三局部红外模型，采用每个所述红外训练图像中的嘴巴所在区域的图像以及第四区域图像训练所述第一分类模型，得到第四局部红外模型。

在一种可能的实现方式中，基于所述红外训练图像得到全局红外分类模型，包括：

基于所述红外训练图像以及损失函数

对初始模型进行训练，得到全局红外分类模型，其中，

，s1表示全局红外分类模型对应的得分，s2表示局部红外分类模型对应的得分，s3表示全局深度分类模型对应的得分，s4表示局部深度分类模型对应的得分，

表示损失函数的平衡调节因子。

在一种可能的实现方式中，所述分类结果为分类得分，若所述分类结果满足预设条件，则确定所述人脸检测图像中的人脸为活体人脸，包括：

根据所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征，分别对应的得分，以及每个得分对应的权重，计算置信度；

若所述置信度满足预设条件，则确定所述人脸检测图像中的人脸为活体人脸。

本申请实施例的第二方面提供了一种人脸活体检测装置，包括：

获取模块，用于获取人脸检测图像，所述人脸检测图像包括人脸的红外图像和深度图像；

提取模块，用于对所述红外图像进行特征提取，得到全局红外分类特征以及局部红外分类特征；对所述深度图像进行特征提取，得到全局深度分类特征以及局部深度分类特征；

拼接模块，用于对所述全局红外分类特征以及全局深度分类特征进行特征拼接，得到全局多模态特征，对所述局部红外分类特征以及局部深度分类特征进行特征拼接，得到局部多模态特征；

分类模块，用于将所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征分别输入对应的分类器，得到所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征，分别对应的分类结果；

检测模块，用于若所述分类结果满足预设条件，则确定所述人脸检测图像中的人脸为活体人脸。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的人脸活体检测方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的人脸活体检测方法。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的人脸活体检测方法。

本申请实施例与现有技术相比存在的有益效果是：通过获取人脸的红外图像和深度图像，得到全局红外分类特征、局部红外分类特征、全局深度分类特征以及局部深度分类特征。在提取各分类特征后，将各分类特征输入对应的分类器，得到对应的分类结果，若分类结果满足预设条件，则确定人脸检测图像中的人脸为活体人脸。由于分类结果是根据各分类特征得到的，而各分类特征反映人脸不同维度和不同拍摄方式的人脸特征，从而在采集的人脸图像存在特征缺失的场景下，仍然可以实现人脸活体检测，实现多个维度的特征的互补，从而可以适应不同场景下的人脸活体检测，提高人脸活体检测的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请一实施例提供的人脸活体检测方法的实现流程示意图；

图2是本申请实施例提供的人脸活体检测方法中各网络模型的处理流程图；

图3是本申请实施例提供的局部红外网络模型的结构图；

图4是本申请实施例提供的人脸图像的区域划分示意图；

图5是本申请实施例提供的人脸活体检测装置示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

另外，在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

现有的人脸活体检测方法不能适应不同环境下的活体人脸检测，因而人脸识别的准确度不高。为此，本申请提供一种人脸活体检测方法，通过获取人脸的红外图像和深度图像，得到全局红外分类特征、局部红外分类特征、全局深度分类特征以及局部深度分类特征。在提取各分类特征后，将各分类特征输入对应的分类器，得到对应的分类结果，若分类结果满足预设条件，则确定人脸检测图像中的人脸为活体人脸。由于分类结果是根据各分类特征得到的，而各分类特征反映人脸不同维度和不同拍摄方式的人脸特征，从而在采集的人脸图像存在特征缺失的场景下，仍然可以实现人脸活体检测，实现多个维度的特征的互补，从而可以适应不同场景下的人脸活体检测，提高人脸活体检测的准确度。

下面对本申请提供的人脸活体检测方法进行示例性说明。

请参阅附图1，本申请一实施例提供的人脸活体检测方法包括：

S101：获取人脸检测图像，所述人脸检测图像包括人脸的红外图像和深度图像。

具体地，人脸检测图像包括对同一个人脸拍摄得到的红外图像和深度图像，红外图像是由红外摄像头拍摄得到的视频流或者图像帧，深度图像是由深度摄像头拍摄得到的视频流或者图像帧。

在一种可能的实现方式中，红外图像和深度图像是同时拍摄得到的，在进行人脸检测时，红外图像和深度图像所采用的人脸检测框和人脸特征点相同。

S102：对所述红外图像进行特征提取，得到全局红外分类特征以及局部红外分类特征；对所述深度图像进行特征提取，得到全局深度分类特征以及局部深度分类特征。

具体地，全局红外分类特征表示红外图像的全局特征，局部红外分类特征表示红外图像的局部特征，全局深度分类特征表示深度图像的全局特征，局部深度分类特征表示深度图像的局部特征。局部特征可以是眼睛所在区域的图像、鼻子所在区域的图像或者嘴巴所在区域的图像中的任意一个或多个图像的特征。

在一种可能的实现方式中，对红外图像和深度图像进行特征提取之前，对红外图像和深度图像进行预处理，预处理可以是利用中值绝对偏差将红外图像和深度图像转换到预设大小的数据（例如8比特数据），并基于预设分辨率，对转换后的图像进行裁剪，得到预设尺寸的图像。

在一种可能的实现方式中，对红外图像的预处理包括：通过人脸检测得到红外图像上的人脸框，确定人脸框中的7个特征点，7个特征点分别是4个眼角所在的位置、鼻尖所在的位置、以及2个嘴角所在的位置。在得到7个特征点后，将7个特征点与预设模板对齐，根据预设模板对人脸框进行裁剪，得到像素为256*256的图像。

在一种可能的实现方式中，对深度图像的预处理包括：将深度图像外扩1.2倍，根据设定的深度值的上限和深度值的下限，将外扩后的图像中，大于深度值的上限的区域以及小于深度值下限的区域的深度值都设为0，其余区域的深度值保持不变。之后，将深度值不为0的区域的深度值作为有效值，计算有效值的中位数。在得到中位数后，计算各区域的深度值与中位数的绝对偏差，将各区域的深度值替换为对应的绝对偏差，从而得到去中心化后的图像。在得到去中心化的图像后，对去中心化的图像进行归一化，得到归一化后的图像。具体地，根据公式

以及公式

计算归一化后的图像中各区域的深度值，其中，xnew表示归一化后的图像中各区域的x轴的深度值，x表示中心化图像中对应区域的x轴的深度值，xmax表示中心化图像中x轴的深度值的最大值，xmin表示中心化图像中x轴的深度值的最小值，ymew表示归一化后的图像中各区域的y轴的深度值，y表示中心化图像中对应区域的y轴的深度值，ymin表示中心化图像中y轴的深度值的最小值，ymax表示中心化图像中y轴的深度值的最大值。

在一种可能的实现方式中，如图2所示，对红外图像进行预处理，得到全局红外图像，裁剪红外图像的一部分得到局部红外图像。对深度图像进行预处理，得到全局深度图像，裁剪深度图像的一部分得到局部红外图像。

将全局红外图像输入全局红外网络模型，得到全局红外分类特征；将局部红外图像输入局部红外网络模型，得到局部红外分类特征；将全局深度图像输入全局深度网络模型，得到全局深度分类特征；将局部深度图像输入局部深度网络模型，得到局部深度分类特征。

在一种可能的实现方式中，全局红外网络模型以及全局深度网络模型的网络结构是Resnet34网络结构。得到全局红外图像以及全局深度图像后，对全局红外图像以及全局深度图像分别进行归一化。将归一化后的全局红外图像输入全局红外网络模型，全局红外网络模型输出的数据是256维的数据，该输出的数据再经过全局池化层以及全连接层，得到全局红外分类特征。将归一化后的全局深度图像输入全局深度网络模型，全局深度网络模型输出的数据是256维的数据，该输出的数据再经过全局池化层以及全连接层，得到全局深度分类特征。

在一种可能的实现方式中，局部红外图像包括左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像。局部红外网络模型包括第一红外模型、第二红外模型、第三红外模型以及第四红外模型。如图3所示，在对红外图像进行裁剪得到局部红外图像后，将红外图像中的左眼所在区域的图像输入第一红外模型，得到第一红外特征，将右眼所在区域的图像输入第二红外模型，得到第二红外特征，将鼻子所在区域的图像输入第三红外模型，得到第三红外特征，将嘴巴所在区域的图像输入第四红外模型，得到第四红外特征。将第一红外特征、第二红外特征、第三红外特征以及第四红外特征相加，得到局部红外分类特征。

在一种可能的实现方式中，第一红外模型、第二红外模型、第三红外模型以及第四红外模型的结构是MobileNet结构。将左眼所在区域的图像输入第一红外模型，第一红外模型输出的数据再经过全连接层，得到第一红外特征。将右眼所在区域的图像输入第二红外模型，第二红外模型输出的数据再经过全连接层，得到第二红外特征。将鼻子所在区域的图像输入第三红外模型，第三红外模型输出的数据再经过全连接层，得到第三红外特征。将嘴巴所在区域的图像输入第四红外模型，第四红外模型输出的数据再经过全连接层，得到第四红外特征。其中，各全连接层输出的数据可以是256维的数据。

在一种可能的实现方式中，局部深度分类特性的提取方法与局部红外分类特征的提取方法类似。具体地，局部深度图像包括左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像。局部深度网络模型包括第一深度模型、第二深度模型、第三深度模型以及第四深度模型。将左眼所在区域的图像输入第一深度模型，得到第一深度特征，将右眼所在区域的图像输入第二深度模型，得到第二深度特征，将鼻子所在区域的图像输入第三深度模型，得到第三深度特征，将嘴巴所在区域的图像输入第四深度模型，得到第四深度特征。将第一深度特征、第二深度特征、第三深度特征以及第四深度特征相加，得到局部深度分类特征。

在一种可能的实现方式中，第一深度模型、第二深度模型、第三深度模型以及第四深度模型的结构是MobileNet结构。将左眼所在区域的图像输入第一深度模型，第一深度模型输出的数据再经过全连接层，得到第一深度特征。将右眼所在区域的图像输入第二深度模型，第二深度模型输出的数据再经过全连接层，得到第二深度特征。将鼻子所在区域的图像输入第三深度模型，第三深度模型输出的数据再经过全连接层，得到第三深度特征。将嘴巴所在区域的图像输入第四深度模型，第四深度模型输出的数据再经过全连接层，得到第四深度特征。其中，各全连接层输出的数据可以是256维的数据。

S103：对所述全局红外分类特征以及全局深度分类特征进行特征拼接，得到全局多模态特征，对所述局部红外分类特征以及局部深度分类特征进行特征拼接，得到局部多模态特征。

如图2所示，在一种可能的实现方式中，全局红外网络模型输出的全局红外分类特征与全局深度网络模型输出的全局深度分类特征拼接，局部红外网络模型输出的局部红外分类特征与局部深度网络模型输出的局部深度分类特征进行拼接。

S104：将所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征分别输入对应的分类器，得到所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征，分别对应的分类结果。

其中，各分类器输出的分类结果可以是得分，也可以是活体人脸的判断结果。

如图2所示，全局红外分类特征输入对应的分类器，输出全局红外得分；局部红外分类特征输入对应的分类器，输出局部红外得分；全局深度分类特征输入对应的分类器，输出全局深度得分；局部深度分类特征输入对应的分类器，输出局部深度得分；全局多模态特征输入对应的分类器，输出全局多模态得分；局部多模态特征输入对应的分类器，输出局部多模态得分，从而使得各分类器不受其他分类器的影响，可以单独进行分类。

S105：若所述分类结果满足预设条件，则确定所述人脸检测图像中的人脸为活体人脸。

在一种可能的实现方式中，分类结果是得分，若各得分满足预设条件，则确定人脸检测图像中的人脸是活体人脸。

在一种可能的实现方式中，根据全局红外分类特征、局部红外分类特征、全局深度分类特征、局部深度分类特征、全局多模态特征、局部多模态特征，分别对应的得分，以及每个得分对应的权重，计算置信度；若置信度满足预设条件，则确定人脸检测图像中的人脸为活体人脸。其中，置信度是对各得分与对应的权重的乘积相加后得到的。

在一种可能的实现方式中，设定第一阈值和第二阈值，若各分类特征对应的得分中，存在大于第一阈值的得分，则输出最大得分，或者输出大于第一阈值的得分的平均值，并输出人脸检测图像中的人脸为活体人脸的判断结果。若存在小于第二阈值的得分，则输出最小得分，或者输出小于第二阈值的得分的平均值，并输出人脸检测图像的人脸不是活体人脸的判断结果。否则，根据全局红外分类特征、局部红外分类特征、全局深度分类特征、局部深度分类特征、全局多模态特征、局部多模态特征，分别对应的得分，以及每个得分对应的权重，计算置信度并输出，根据置信度确定人脸检测图像中的人脸是否为活体人脸。

上述实施例中，通过获取人脸的红外图像和深度图像，得到全局红外分类特征、局部红外分类特征、全局深度分类特征以及局部深度分类特征。在提取各分类特征后，将各分类特征输入对应的分类器，得到对应的分类结果，若分类结果满足预设条件，则确定人脸检测图像中的人脸为活体人脸。由于分类结果是根据各分类特征得到的，而各分类特征反映人脸不同维度和不同拍摄方式的人脸特征，从而在采集的人脸图像存在特征缺失的场景下，例如，在其中一个维度的特征缺失或者一种拍摄方式的拍摄效果不好的场景下，仍然可以实现人脸活体检测，实现多个维度的特征的互补，从而可以适应不同场景下的人脸活体检测，提高人脸活体检测的准确度。

在进行人脸活体检测之前，需要对进行特征提取的各网络模型进行训练。

具体地，获取训练样本，训练样本包括红外训练图像和深度训练图像，红外训练图像和深度训练图像是对多个人脸图像进行拍摄得到的。同一个人脸对应的红外训练图像和深度训练图像为同一组训练样本，同一个人脸对应的红外训练图像和深度训练图像是在同一时刻拍摄得到的。

在获取训练样本后，基于红外训练图像得到全局红外分类模型和局部红外分类模型，基于深度训练图像得到全局深度分类模型和局部深度分类模型。具体地，将红外训练图像作为训练样本对初始模型进行训练，得到全局红外分类模型。对红外图像进行裁剪，得到训练样本，采用训练样本对初始模型进行训练，得到局部红外分类模型。将深度训练图像作为训练样本对初始模型进行训练，得到全局深度分类模型。对深度训练图像进行裁剪，得到训练样本，采用训练样本对初始模型进行训练，得到局部深度分类模型。

其中，在训练全局红外分类模型时，根据损失函数

对初始模型进行训练，得到全局红外分类模型，其中，

，称为调和平均数，s1表示全局红外分类模型对应的得分，s2表示局部红外分类模型对应的得分，s3表示全局深度分类模型对应的得分，s4表示局部深度分类模型对应的得分，

表示损失函数的平衡调节因子。s1、s2、s3、s4是同一组训练样本对应的得分，当其中一个分支能够正确抵挡攻击时，可以通过调和平均数，减弱其他分支的损失贡献。

采用上述损失函数，在训练过程中，当s2、s3、s4中的任一个接近于0时，损失函数中的

接近于1，从而使得s1在四个分类模型中占有较大权重。由于s2、s3、s4在中的任一个接近于0时，说明人脸图像可能是仿冒人脸的图像，此时将s1设为较大权重，可以提高全局红外分类模型的识别准确度。当s2、s3、s4大于预设值时，损失函数中的

较小，从而使得s1在四个分类模型中占有较小权重。由于s2、s3、s4大于预设值时，说明人脸图像可能是活体人脸的图像，此时将s1设为较小权重，可以防止全局红外分类模型对应的得分对分类结果的影响。

同理，在训练局部红外分类模型时，损失函数为

，

其中，

，

表示损失函数的平衡调节因子。

在训练全局深度分类模型时，损失函数为

，

其中，

，

表示损失函数的平衡调节因子。

在训练局部深度分类模型时，损失函数为

，

其中，

，

表示损失函数的平衡调节因子。

需要说明的是，也可以仅在训练上述四个分类模型中的其中一个或两个分类模型时，采用上述损失函数。

采用上述损失函数，可以调节不同分类模型对应的置信度，在人脸检测图像存在部分缺失数据时，仍然可以根据其他数据以及其他网络模型进行人脸活体检测。

在一种可能的实现方式中，局部红外分类模型包括第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型。第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型是单独训练得到的。

具体地，确定每个红外训练图像中的左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像。根据每个红外训练图像中的左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像、嘴巴所在区域的图像，以及预设面积计算规则，分别确定红外训练图像中的第一区域图像、第二区域图像、第三区域图像以及第四区域图像。所述训练图像中的左眼所在区域的图像位于第一区域图像内，右眼所在区域的图像位于第二区域图像内，鼻子所在区域的图像位于所述第三区域图像内，嘴巴所在区域的图像位于第四区域图像内。采用每个红外训练图像中的左眼所在区域的图像以及第一区域图像训练第一分类模型，得到第一局部红外模型，采用每个红外训练图像中的右眼所在区域的图像以及第二区域图像训练第一分类模型，得到第二局部红外模型，采用每个红外训练图像中的鼻子所在区域的图像以及第三区域图像训练第一分类模型，得到第三局部红外模型，采用每个红外训练图像中的嘴巴所在区域的图像以及第四区域图像训练第一分类模型，得到第四局部红外模型。

由于红外训练图像中的左眼所在区域的图像位于第一区域图像内，右眼所在区域的图像位于第二区域图像内，鼻子所在区域的图像位于第三区域图像内，嘴巴所在区域的图像位于第四区域图像内，说明第一区域图像包含比左眼所在区域的图像更多的特征，第二区域图像包含比右眼所在区域的图像更多的特征，第三区域图像包含比鼻子所在区域的图像更多的特征，第四区域图像包含比嘴巴所在区域的图像更多的特征。因此，采用每个红外训练图像中的右眼所在区域的图像以及第二区域图像训练第一分类模型，得到第二局部红外模型，采用每个红外训练图像中的鼻子所在区域的图像以及第三区域图像训练第一分类模型，得到第三局部红外模型，采用每个红外训练图像中的嘴巴所在区域的图像以及第四区域图像训练第一分类模型，得到第四局部红外模型，可以防止在模型训练过程中遗漏细节特征，提高了训练得到的第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型的准确度。

在一种可能的实现方式中，根据预设面积计算规则分别确定红外训练图像中的第一区域图像、第二区域图像、第三区域图像以及第四区域图像的过程如下。

如图4所示，在拍摄得到红外训练图像后，对红外训练图像进行预处理，将预处理后的图像划分为m个区域。m个区域中，以左眼为中心的区域是左眼所在区域的图像41。以右眼为中心的区域右眼所在区域的图像42。以鼻子为中心的区域是鼻子所在区域的图像43。以嘴巴为中心的区域是嘴巴所在区域的图像44。左眼所在区域的图像41、右眼所在区域的图像42、鼻子所在区域的图像43以及嘴巴所在区域的图像44为四个预定义图像。除了预定义图像所在的区域之外，预处理后的图像还包括m-4个区域。例如，图4中将预处理后的图像分为11个区域。除了预定义图像所在的区域之外，预处理后的图像还包括区域45、区域46、区域47、区域48、区域49、区域410以及区域411。其中，11个区域的划分过程可以是，首先将预处理后的图像平均划分为9个区域，再从9个区域中分割出4个预定义图像，其中，鼻子所在区域的图像与其中一个区域重合，得到11个区域。

对于预定义图像之外的区域中，根据面积比计算公式，计算每个区域与相邻的预定义图像的面积比。例如，对于区域46，计算区域46与图像41、图像42以及图像43三个相邻的预定义图像的面积比。计算每个区域与相邻的预定义图像的面积比后，得到与每个区域对应的最大的面积比，将最大的面积比对应的预定义图像与对应的区域关联。对于相互关联的预定义图像和区域，取两者的最小外接矩形，将该最小外接矩形所在的区域作为候选区域，则各候选区域均包括其中一个预定义图像，各候选区域与对应的区域的最大面积比对应。对候选区域的图像进行缩放，使得缩放后所得到的图像的大小与预定义图像的大小相等。其中，面积比的计算公式为

，S_out表示需要计算面积比的区域的面积，S_in表示与需要计算面积比的区域相邻的其中一个预定义图像的面积。

在得到预定义图像以及候选区域后，对各候选区域对应的最大面积比归一化，再将预定义图像的面积比设为1，对所有面积比排序，将排序在前N的候选区域的图像作为训练图像。训练图像中，包括左眼所在区域的训练图像为第一区域图像，包括右眼所在区域的图像为第二区域图像，包括鼻子所在区域的训练图像为第三区域图像，包括嘴巴所在区域的图像为第四区域图像。

在一种可能的实现方式中，局部深度分类模型包括第一局部深度模型、第二局部深度模型、第三局部深度模型以及第四局部深度模型。第一局部深度模型、第二局部深度模型、第三局部深度模型以及第四局部深度模型是单独训练得到的。第一局部深度模型、第二局部深度模型、第三局部深度模型以及第四局部深度模型的训练过程，与上述第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型的训练过程相同，在此不再赘述。

在得到全局红外分类模型、局部红外分类模型、全局深度分类模型和局部深度分类模型之后，基于红外训练图像和深度训练图像对应的全局多模态特征和局部多模态特征，对全局红外分类模型、局部红外分类模型、全局深度分类模型和局部深度分类模型进行联合训练，得到全局红外网络模型、局部红外网络模型、全局深度网络模型和局部深度网络模型。联合训练局部红外分类模型的过程是联合训练第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型的过程，训练后得到第一红外模型、第二红外模型、第三红外模型以及第四红外模型。联合训练局部深度分类模型的过程是联合训练第一局部深度模型、第二局部深度模型、第三局部深度模型以及第四局部深度模型的过程，训练后得到第一深度模型、第二深度模型、第三深度模型以及第四深度模型。

在一种可能的实现方式中，在对全局红外分类模型、局部红外分类模型、全局深度分类模型和局部深度分类模型进行联合训练时，同步对全局多模态特征对应的分类器、局部多模态特征对应的分类器进行训练。

通过先单独训练得到全局红外分类模型、局部红外分类模型、全局深度分类模型和局部深度分类模型，再联合训练得到全局红外网络模型、局部红外网络模型、全局深度网络模型和局部深度网络模型，可以在保证各网络模型可以独立进行人脸活体检测的情况下，又强化各网络模型之间的关联性，以达到更好的人脸活体检测效果，提升了算法的鲁棒性。

其中，红外训练图像和深度训练图像对应的全局多模态特征，是对红外训练图像进行特征提取后所得的特征，与深度训练图像进行特征提取后所得到的特征进行拼接后得到的。红外训练图像和深度训练图像对应的局部多模态特征，是对红外训练图像中的局部图像进行特征提取后所得的特征，与深度训练图像中对应的局部图像进行特征提取后所得到的特征进行拼接后得到的。其中，进行拼接的红外训练图像和深度训练图像是同一组训练样本。局部图像是指左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像。

在一种可能的实现方式中，在对全局红外分类模型、局部红外分类模型、全局深度分类模型和局部深度分类模型进行训练时，仍然采用跨模态聚焦损失函数。在对全局多模态特征对应的分类器、局部多模态特征对应的分类器进行训练时，采用二分类交叉熵损失函数。通过结合二分类交叉熵损失函数以及跨模态聚焦损失函数，可以达到较好的分类效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的人脸活体检测方法，图5示出了本申请实施例提供的人脸活体检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

如图5所示，人脸活体检测装置包括，

获取模块51，用于获取人脸检测图像，所述人脸检测图像包括人脸的红外图像和深度图像；

提取模块52，用于对所述红外图像进行特征提取，得到全局红外分类特征以及局部红外分类特征；对所述深度图像进行特征提取，得到全局深度分类特征以及局部深度分类特征；

拼接模块53，用于对所述全局红外分类特征以及全局深度分类特征进行特征拼接，得到全局多模态特征，对所述局部红外分类特征以及局部深度分类特征进行特征拼接，得到局部多模态特征；

分类模块54，用于将所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征分别输入对应的分类器，得到所述全局红外分类特征、所述局部红外分类特征、所述全局深度分类特征、所述局部深度分类特征、所述全局多模态特征、所述局部多模态特征，分别对应的分类结果；

检测模块55，用于若所述分类结果满足预设条件，则确定所述人脸检测图像中的人脸为活体人脸。

在一种可能的实现方式中，所述提取模块52具体用于：

在一种可能的实现方式中，所述局部红外图像包括左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像；所述局部红外网络模型包括第一红外模型、第二红外模型、第三红外模型以及第四红外模型；所述提取模块52具体还用于：

在一种可能的实现方式中，所述人脸活体检测装置还包括训练模块，所述训练模块用于：

在一种可能的实现方式，所述局部红外分类模型包括第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型，所述训练模块具体用于：

在一种可能的实现方式，所述训练模块具体用于：

基于所述红外训练图像以及损失函数

对初始模型进行训练，得到全局红外分类模型，其中，

表示损失函数的平衡调节因子。

在一种可能的实现方式，所述分类结果为分类得分，所述检测模块具体用于：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图6是本申请实施例提供的电子设备的结构示意图。所述电子设备可以是桌上型计算机、笔记本、掌上电脑等计算设备。

如图6所示，该实施例的电子设备包括：处理器61、存储器62以及存储在所述存储器62中并可在所述处理器61上运行的计算机程序63。所述处理器61执行所述计算机程序63时实现上述人脸活体检测方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器11执行所述计算机程序13时实现上述各装置实施例中各模块/单元的功能，例如图5所示获取模块51至检测模块55的功能。

示例性的，所述计算机程序63可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器62中，并由所述处理器61执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序63在所述电子设备中的执行过程。

本领域技术人员可以理解，图6仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器61可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器62可以是所述电子设备的内部存储单元，例如电子设备的硬盘或内存。所述存储器62也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器62还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述存储器62用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器62还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种人脸活体检测方法，其特征在于，包括：

若所述分类结果满足预设条件，则确定所述人脸检测图像中的所述人脸为活体人脸。

2.如权利要求1所述的方法，其特征在于，所述对所述红外图像进行特征提取，得到全局红外分类特征以及局部红外分类特征；对所述深度图像进行特征提取，得到全局深度分类特征以及局部深度分类特征，包括：

3.如权利要求2所述的方法，其特征在于，所述局部红外图像包括左眼所在区域的图像、右眼所在区域的图像、鼻子所在区域的图像以及，嘴巴所在区域的图像；所述局部红外网络模型包括第一红外模型、第二红外模型、第三红外模型以及第四红外模型；将所述局部红外图像输入局部红外网络模型，得到局部红外分类特征，包括：

4.如权利要求3所述的方法，其特征在于，在所述获取人脸检测图像之前，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述局部红外分类模型包括第一局部红外模型、第二局部红外模型、第三局部红外模型以及第四局部红外模型，基于所述红外训练图像得到局部红外分类模型，包括：

6.如权利要求4所述的方法，其特征在于，基于所述红外训练图像得到全局红外分类模型，包括：

基于所述红外训练图像以及损失函数

对初始模型进行训练，得到全局红外分类模型，其中，

表示损失函数的平衡调节因子。

7.如权利要求1所述的方法，其特征在于，所述分类结果为分类得分，若所述分类结果满足预设条件，则确定所述人脸检测图像中的所述人脸为活体人脸，包括：

8.一种人脸活体检测装置，其特征在于，包括：

检测模块，用于若所述分类结果满足预设条件，则确定所述人脸检测图像中的所述人脸为活体人脸。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。