CN113792581A

CN113792581A - 一种活体检测方法、装置及电子设备

Info

Publication number: CN113792581A
Application number: CN202110881598.XA
Authority: CN
Inventors: 赵礼翔; 童志军; 丁小羽
Original assignee: Nanjing Yuemian Technology Co ltd; Shenzhen Yixin Vision Technology Co ltd
Current assignee: Nanjing Yuemian Technology Co ltd; Shenzhen Yixin Vision Technology Co ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-12-14

Abstract

本申请实施例提供的活体检测方法，预先联合自监督学习和有监督学习生成了深度预测模型，在进行检测时，获取包括待检测对象的人脸的图像，将包括待检测对象的人脸的图像输入至深度预测模型，得到包括待检测对象的人脸的图像对应的伪深度图，根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果。本申请实施例，通过伪深度图进行活体检测，可以有效的区分真人和照片的差异，不需要用户配合完成指定动作即可过滤掉纸张攻击，能够提高用户的体验。除此之外，联合自监督学习和有监督学习训练深度预测模型，可以提高深度预测模型预测伪深度图时的精度，进而提高活体判断的准确度。

Description

一种活体检测方法、装置及电子设备

技术领域

本申请属于活体检测技术领域，尤其涉及一种活体检测方法、装置及电子设备。

背景技术

人脸识别技术目前已经广泛应用于移动支付、设备解锁、门禁管理等多种场景。人脸识别是基于人的脸部特征信息进行身份识别的，不法分子可能利用非正常手段获取用户的视频和照片，利用电子设备播放视频或照片，或者将照片打印在纸张上，冒充用户进行身份识别并成功通过验证。因此，在进行人脸识别时需要判断被识别的人脸是活体还是视频或照片，以保证人脸识别系统的安全性。

利用电子设备播放视频或照片属于屏幕类的攻击，将照片打印在纸张上属于纸张攻击。对于屏幕类的攻击，可以通过将人脸识别系统的摄像装置设置为近红外相机来过滤掉此类攻击。

对于纸张攻击，可以通过用户配合完成如眨眼、张嘴、摇头等指定动作来过滤掉此类攻击，由于需要用户配合，导致用户的体验不佳。

发明内容

针对上述技术问题，本申请实施例提供一种活体检测方法、装置及电子设备，在进行人脸识别时不需要用户配合完成指定动作即可过滤掉纸张攻击，能够提高用户的体验。

第一方面，本申请实施例提供了一种活体检测方法，该方法包括：

获取包括待检测对象的人脸的图像；

将包括待检测对象的人脸的图像输入至深度预测模型，得到包括待检测对象的人脸的图像对应的伪深度图，伪深度图反映人脸中多个位置之间在深度上的相对关系，深度预测模型是根据第一训练集与第二训练集生成的，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；

根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果。

结合第一方面，在第一方面的某些实现方式中，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象在同一时刻获取的。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果，包括：根据包括待检测对象的人脸的图像对应的伪深度图和包括待检测对象的人脸的图像，确定待检测对象的检测结果。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，根据包括待检测对象的人脸的图像对应的伪深度图和包括待检测对象的人脸的图像，确定待检测对象的检测结果，包括：

分别获取包括待检测对象的人脸的图像对应的伪深度图、包括待检测对象的人脸的图像中与人脸相关的特征信息，根据与人脸相关的特征信息确定待检测对象的检测结果。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，与人脸相关的特征信息包括全局特征信息和局部特征信息中的至少一个，全局特征信息包括整个人脸区域的特征信息，局部特征信息包括人脸中局部区域的特征信息。

结合第一方面和上述实现方式，在第一方面的某些实现方式中，包括待检测对象的人脸的图像包括第一图像与第二图像，第一图像与第二图像是基于双目相机获取的，包括待检测对象的人脸的图像对应的伪深度图包括第一伪深度图和第二伪深度图，第一图像与第一伪深度图对应，第二图像与第二伪深度图对应。

第二方面，本申请实施例提供了一种训练模型的方法，该方法包括：

获取第一训练集与第二训练集，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；

根据第一训练集与第二训练集，训练深度预测模型。

结合第二方面，在第二方面的某些实现方式中，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象在同一时刻获取的。

第三方面，本申请实施例提供了一种活体检测的装置，该装置包括：

获取模块，用于获取包括待检测对象的人脸的图像；

处理模块，用于将包括待检测对象的人脸的图像输入至深度预测模型，得到包括待检测对象的人脸的图像对应的伪深度图，伪深度图反映人脸中多个位置之间在深度上的相对关系，深度预测模型是根据第一训练集与第二训练集生成的，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果。

第四方面，本申请实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的活体检测方法或如第二方面所述的训练模型的方法。

第五方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如第一方面所述的活体检测方法或如第二方面所述的训练模型的方法。

第六方面，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，当所述计算机程序产品在计算机上运行时，实现如第一方面所述的活体检测方法或如第二方面所述的训练模型的方法。

本申请实施例提供的活体检测方法，预先根据第一训练集与第二训练集生成了深度预测模型，在进行检测时，获取包括待检测对象的人脸的图像，将包括待检测对象的人脸的图像输入至深度预测模型，得到包括待检测对象的人脸的图像对应的伪深度图，根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果。

真实的人脸中各个器官之间的相对深度是不同的，而纸张中人脸的各个器官之间的相对深度难以达到与真实的人脸相近的水平，伪深度图能够反映人脸中多个位置之间在深度上的相对关系，因此，通过伪深度图进行活体检测，可以有效的区分真人和照片的差异，不需要用户配合完成指定动作即可过滤掉纸张攻击，能够提高用户的体验。

除此之外，根据第一训练集生成深度预测模型属于自监督学习，根据第二训练集生成深度预测模型属于有监督学习，本申请实施例在训练深度预测模型时，联合了自监督学习和有监督学习，基于自监督学习训练深度预测模型时不需要预先生成伪深度图，在自监督学习训练的深度预测模型的基础上进行有监督学习，可以减少需要预先生成的伪深度图的数量，避免需要预先生成的伪深度图的数量不足，从而提高深度预测模型的泛化性。此外，还可以预先有针对性的生成伪深度图，弥补自监督学习在某些成像条件下的不足。总之，相比于自监督学习或有监督学习，本申请实施例提供的方法可以提高深度预测模型预测伪深度图时的精度，进而提高活体判断的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种训练模型的方法的流程示意图；

图2是本申请实施例提供的一种活体对应的伪深度图的示意图；

图3是本申请实施例提供的一种非活体对应的伪深度图的示意图；

图4是本申请实施例提供的一种活体检测方法的流程示意图；

图5是本申请实施例提供的一种生成伪深度图的流程示意图；

图6是本申请实施例提供的一种拼接图像的流程示意图；

图7是本申请实施例提供的一种根据全局特征信息进行判断的流程示意图；

图8是本申请实施例提供的一种根据局部特征信息进行判断的流程示意图；

图9是本申请实施例提供的一种训练模型的装置的结构示意图；

图10是本申请实施例提供的一种活体检测的装置的结构示意图；

图11是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上，“至少一个”、“一个或多个”是指一个、两个或两个以上。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

人脸识别技术目前已经广泛应用于移动支付、设备解锁、门禁管理等多种场景，人脸识别系统进行人脸识别时，被识别的对象可能是真人、利用电子设备播放的视频或照片、打印在纸张上的照片。利用电子设备播放视频或照片属于屏幕类的攻击，将照片打印在纸张上属于纸张攻击。

基于红外成像原理，人脸识别系统受到屏幕类的攻击时无法成像，因此，可以通过将人脸识别系统中的摄像头设置为近红外相机来过滤掉屏幕类的攻击。对于纸张攻击，可以通过用户配合完成如眨眼、张嘴、摇头等指定动作来过滤掉此类攻击，由于需要用户配合，导致用户的体验不佳。

目前，无需用户配合的静默活体检测的方法通常可以分为两类。第一类是提取出攻击图像的纹理、图像质量等与活体图像的差异，以及各种攻击漏出的边框等信息来判断。该类方法主要是直接提取出双目红外图像的特征，如传统的局部二值模式(local binarypattern，LBP)特征、直方图特征等，或者是训练一个神经网络提取出特征，基于提取的特征来区分被识别的对象是活体或非活体，该类方法容易将某些相似度高的攻击样本误判成活体。

第二类是通过活体和非活体在视差或深度上的差异进行判断。这类方法又可以划分为两种。第一种方法是预测部分关键点的深度，并基于部分关键点的深度判断被识别的对象是否为活体。该种方法首先对双目红外相机进行标定，得到双目红外相机的内参，然后检测出双目红外相机拍摄的图像中的多个人脸关键点，且认为这些人脸关键点是匹配的，进而估计出双目相机的外参，得到这些人脸关键点的深度值，最后提取出这些关键点的深度值特征来判断被识别的对象是否为活体，该种方法的前提是双目图像的关键点是匹配的，然而关键点的估计本身存在着误差，会导致误差的累积，影响预测深度的精度，最终影响活体判断的精度。

第二种方法是基于立体匹配的方法预测出人脸区域的深度图，提取出深度图的特征，结合深度图的特征和摄像头拍摄的双目红外图像的特征，判断被识别的对象是否为活体。其中立体匹配又可以细分为传统方法和基于深度学习的方法。传统方法通常依赖一些人工经验值，鲁棒性通常较差。

基于深度学习的方法有以下多种，比如，基于立体匹配网络(SpatialTransformer Networks，STN)预测出双目深度图，并基于深度图和双目红外图像的全局特征判断被识别的对象是否为活体，该方法属于自监督学习方法。在强光条件或其它某些成像条件下，人脸部分区域可能会变成无纹理区域。此时，仅使用自监督学习方法生成的深度图在活体和非活体上并无明显的区分度，影响了活体判断的精度。另外，该方法仅使用全局特征判断被识别的对象是否为活体，精度较低。

比如，基于运动恢复结构算法(Structure from Motion，SfM)或训练好的神经网络模型，输入双目红外图像，生成对应的伪深度图，将伪深度图和三维信息模板图进行比对，判断被识别的对象是否为活体。该方法在训练神经网络模型的过程中，使用了预先生成的伪深度图，属于有监督学习。仅使用有监督学习预测生成的伪深度图和预先生成的伪深度图之间可能存在较大的误差，比如基于该方法生成的平面纸张的伪深度图中人脸多个位置之间仍存在深度上的相对关系，影响了后续活体判断的精度。而且，有监督学习方法需要预先生成大量的伪深度图，在预先生成的伪深度图的数量不足时，基于有监督学习方法得到的神经网络模型的泛化性较差，影响活体判断的精度。另外，三维信息模板图并不一定能包括所有的人脸三维信息情况，可能会造成比对的误差，也会影响后续活体判断的精度。

鉴于已有方法存在一些缺陷，本申请根据立体匹配和深度学习提出了一种活体检测的方法，该方法联合自监督学习和有监督学习预先训练了深度预测模型。在活体检测时，获取包括被检测对象的人脸的图像，将包括被检测对象的人脸的图像输入到深度预测模型，得到对应的伪深度图，根据对应的伪深度图进行活体判断。

除此之外，本申请实施例在训练深度预测模型时，联合了自监督学习和有监督学习，基于自监督学习训练深度预测模型时不需要预先生成伪深度图，在自监督学习训练的深度预测模型的基础上进行有监督学习，可以减少需要预先生成的伪深度图的数量，避免需要预先生成的伪深度图的数量不足，从而提高深度预测模型的泛化性。此外，还可以预先有针对性的生成伪深度图，弥补自监督学习在某些成像条件下的不足。总之，相比于自监督学习或有监督学习，本申请实施例提供的方法可以提高深度预测模型预测伪深度图时的精度，进而提高活体判断的准确度。

以下结合图1对本申请实施例提供的训练模型的方法100进行说明。如图1所示，该方法100包括：

S101：获取第一训练集与第二训练集，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成。

S102：根据第一训练集与第二训练集，训练深度预测模型。

本申请实施例中，深度预测模型的训练由两部分构成：自监督学习训练和自监督学习与有监督学习联合训练，以下分别详细说明。

(1)自监督学习

首先对自监督学习的原理进行说明。自监督学习是根据第一训练集进行学习的，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的。

将每对包括人脸的图像分为左路图像和右路图像，获取左路图像和右路图像的视角是不同的，即左路图像和右路图像在成像平面中的位置不同，比如，将人眼想象成双目相机，竖起一根手指放在前方作为目标对象，分别闭上左眼或右眼去观察目标对象，此时，目标对象在成像平面中的位置发生了移动。由于左路图像和右路图像存在位置上的差异，可以通过计算两个图像对应点间的位置偏差来恢复出目标对象的三维几何信息，进而得到目标对象的深度图。

每对包括人脸的图像可以是在不同时刻获取的，也可以是在同一时刻获取的。由于对象可能处于运动状态，先获取每对包括人脸的图像中的一张图像，再获取另一张图像时，两张图像之间在时序上存在差异，两张图像中同一个对象的姿势可能不相同，计算两个图像对应点间的位置偏差时容易产生误差。在同一时刻获取每对包括人脸的图像时，能够避免两张图像之间在时序上的差异，提高计算的准确度。

自监督学习估计出的深度图通常是伪深度图，即深度值并非是真实物理世界中的深度值，尽管如此，伪深度还是可以反映出人脸中多个位置之间在深度上的相对关系，比如鼻子到嘴巴的相对深度值和眼睛到嘴巴的相对深度值是不一样的，通过伪深度图可以有效的表征真人和照片的差异。

以下对自监督学习的学习过程进行说明。

a.获取第一训练集。

第一训练集可以是利用双目相机针对同一个对象获取的，也可以是利用单目相机平行移动拍摄同一个对象获取的。对象包括真人和打印在纸张上的照片。真人为活体，打印在纸张上的照片为非活体。

在每对包括人脸的图像中选择一路图像作为源图像，另一路图像作为监督的目标图像，源图像和目标图像可以互换。

b.设源图像为I_s，目标图像为I_d，将源图像I_s输入到深度预测神经网络模型，预测出源图像I_s对应的深度图D_s。

深度预测神经网络模型是一种编码-解码(encoder-decoder)的网络结构，输出的深度图D_s和输入的源图像I_s尺寸保持一致，encoder-decoder的网络结构选择可以有很多种，比如segnet，unet，unet++，RefineNet等。

c.将源图像I_s输入到姿态预测模型，预测出源图像I_s相对于目标图像I_d的姿态变换信息T_d→s，其中姿态变换信息T_d→s包括旋转角度和平移信息。

d.结合预测的深度图D_s和姿态变换信息T_d→s，估计出目标图像I_d在源图像I_s中对应的像素坐标，通过双线性插值获得估计的目标图像I_s→d。

I_s→d＝I_s<proj(D_s,T_d→s,K)>

其中，K为相机内参，proj表示将源图像I_s的深度图D_s转换为3D点云，再通过预测的姿态变换信息T_d→s，将源图像I_s的3D点云转换到目标图像I_d的3D点云，结合相机内参K得到目标图像I_d在源图像I_s上对应的2D坐标点。<>表示由2D坐标点双线性插值得到估计的目标图像I_s→d。由于这里估计的是伪深度图，因此，无需标定相机的内参，定义一组相机内参即可。

e.计算估计出的目标图像I_s→d和目标图像I_d的光度一致性误差损失，作为自监督学习训练模块的损失函数：

L_p＝pe(I_d,I_s→d)

其中，pe(I_a,I_b)＝0.5α(1-SSIM(I_a,I_b))+(1-α)||I_a-I_b||₁，通常设置α＝0.85，SSIM为结构相似性损失函数，‖‖₁为L1损失函数。

(2)有监督学习

首先对有监督学习的原理进行说明。有监督学习是根据第二训练集进行学习的。第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成。包括人脸的图像与预先生成的伪深度图一一对应。有监督学习通常先获取包括人脸的图像，预先生成包括人脸的图像对应的伪深度图，然后以包括人脸的图像为输入，以预先生成的包括人脸的图像对应的伪深度图作为监督的目标进行学习。

以下对有监督学习的学习过程进行说明。

a.获取包括人脸的图像，获取的对象包括真人和打印在纸张上的照片。获取的方式可以是利用双目相机获取的，也可以是利用单目相机平行移动拍摄获取的。

b.预先为每一张包括人脸的图像生成伪深度图。如图2所示，基于3D人脸重建算法(prnet)预先生成真人21(活体)的伪深度图22，伪深度图22是立体的。如图3所示，对于打印在纸张上的照片31(非活体)，通过人工辅助的方法，预先生成打印在纸张上的照片31的伪深度图32，将伪深度图32的像素的所有值置为0，用黑色表示。

c.定义L1损失函数(L1 loss)，L1 loss的输入为深度预测模型预测出的伪深度图，目标target为步骤b中预先生成的伪深度图。将L1 loss作为有监督学习训练模块的损失函数：

L₁＝‖pred-target‖₁

其中，pred为深度预测模型预测出的伪深度图，若输入的样本为活体，则target为基于prnet得到的伪深度图，若输入的样本为非活体，则target为全部置0的伪深度图。

(3)自监督学习与有监督学习联合训练

在前述自监督学习的损失函数L_p的基础上，加入L1 loss，完成整个深度预测模型的训练。定义整个训练的损失函数为L＝λ·L_p+(1-λ)·L₁，其中λ控制自监督学习和有监督学习的损失函数权重。从该损失函数的公式可以看出，若λ取0，则整个损失函数退化成有监督学习的损失函数，若λ取1，则整个损失函数退化成自监督学习的损失函数。

自监督学习与有监督学习联合训练的过程如下。

基于Adaw优化器训练20个周期(epoch)，一个epoch就是将所有训练样本训练一次的过程。当一个epoch的样本(也就是所有的训练样本)数量可能太过庞大时，可以将样本分成多批来进行训练。每批样本的大小可以设为128。

将前10个epoch的λ设置为1，学习率设为1e-4，即前10个epoch仅训练自监督学习模块。10个epoch训练完成后，训练好的深度预测模型的参数W为整个优化目标提供了一个较好的初始值，此时由深度预测模型估计的伪深度图满足了自监督学习模块的约束条件，已经具有判别被识别对象是否为活体的特征。

将后10个epoch的λ设置为0.5，学习率设为1e-5，将第一训练集与第二训练集作为整体训练集，联合自监督学习和有监督学习进行训练。有监督学习训练的目标是希望估计的伪深度图向预定义的目标伪深度图逼近，预定义的目标伪深度图在活体和非活体上的区分性是显著的，因此，为了进一步提升特征的判别性，在后10个epoch加入有监督学习损失函数。

然而，有监督学习模块估计出的深度图在自监督学习模块可能不是最优的，即模型参数W使得L₁降低时，有可能会使得L_p升高，两者联合优化可以达到一个整体的均衡。联合训练的优势是在满足自监督学习的约束条件下，使得估计出的伪深度图尽可能朝着有监督学习模块的监督学习目标去逼近，使得估计出的伪深度图在活体和非活体上更加有区分度。

在深度预测模型训练好之后，可以在人脸识别时利用深度预测模型进行活体检测。以下结合图4对本申请实施例提供的活体检测方法400进行说明。如图4所示，该方法400包括：

S401：获取包括待检测对象的人脸的图像。

S402：将包括待检测对象的人脸的图像输入至深度预测模型，得到包括待检测对象的人脸的图像对应的伪深度图，伪深度图反映人脸中多个位置之间在深度上的相对关系，深度预测模型是根据第一训练集与第二训练集生成的，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成。

S403：根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果。

本申请实施例中，基于人脸识别系统的摄像装置，获取包括待检测对象的人脸的图像。待检测对象可能是真人，也可能是照片中的人。

摄像装置可以是单目相机，也可以是双目相机。双目相机可以是近红外相机和可见光相机。也可以是两个近红外相机。当双目相机是近红外相机和可见光相机时，由可见光相机获取的图像需要先转换为灰度图再进行检测。为了简洁，以下将“包括待检测对象的人脸的图像”简称为“红外图像”。

当摄像装置为单目相机时，红外图像为单张图像。当摄像装置为双目相机时，红外图像包括两张图像，分别为左路图像和右路图像，左路图像对应于第一图像，右路图像对应于第二图像。

以双目相机为例进行说明，将左路图像和右路图像输入到深度预测模型，如图5所示，得到与左路图像对应的左路伪深度图，与右路图像对应的右路伪深度图。左路伪深度图对应于第一伪深度图，右路伪深度图对应于第二伪深度图。本申请实施例，估计的是整个人脸区域对应的伪深度图，不局限于某些关键点位置深度的估计，无人工经验值，鲁棒性较好。

在得到左路伪深度图与右路伪深度图之后，可以根据左路伪深度图与右路伪深度图中的特征信息，确定待检测对象的检测结果。

在第一种实现方式中，获取左路伪深度图与右路伪深度图中与人脸相关的特征信息，根据与人脸相关的特征信息判断待检测对象是活体或者非活体。

在第二种实现方式中，获取左路伪深度图与右路伪深度图中与人脸相关的特征信息，并且获取左路图像和右路图像中与人脸相关的特征信息，根据与人脸相关的特征信息判断待检测对象是活体或者非活体。

其中，与人脸相关的特征信息包括全局特征信息和局部特征信息中的至少一个，即可以只获取全局特征信息，或者只获取局部特征信息，或者获取全局特征信息和局部特征信息。全局特征信息包括整个人脸区域的特征信息，整个人脸区域包括人脸的轮廓与人脸的轮廓之内的区域，还可以包括人脸的轮廓之外的预设范围的区域。局部特征信息包括人脸中局部区域的特征信息，比如鼻子、眼睛等关键位置的特征信息。

以下，结合第二种实现方式，以及与人脸相关的特征信息包括全局特征信息和局部特征信息，进行详细说明。

(1)如图6所示，将i路图像和i路伪深度图拼接成一个两通道的图像，得到i路的双通道拼接图像。i表示{左，右}。

(2)基于多任务卷积神经网络(Joint Face Detection and Alignment usingMulti-task Cascaded Convolutional Networks，MTCNN)定位i路红外图像的人脸区域，人脸区域在红外图像和伪深度图中的坐标是一样的，定位出红外图像的人脸区域后，可以基于相同的坐标定位得到伪深度图的人脸区域，优化定位人脸区域的流程。

提取i路红外图像的人脸区域和i路伪深度图的人脸区域，生成i路的人脸区域的拼接图像。将i路的人脸区域的拼接图像输入全局分类网络，如图7所示，得到i路的活体判断结果1。

(3)基于MTCNN定位i路红外图像的5个人脸关键点(左眼、右眼、鼻子、左嘴角、右嘴角)，对每个关键点提取一个局部区域，得到i路红外图像的5个局部区域图像和i路伪深度图的5个局部区域图像。

具体如下：将原图像归一化到N*N大小的分辨率，对于第j个关键点扣取局部区域，以关键点的坐标为中心点，扣取(ratio*N,ratio*N)大小的区域，若超出边界，则通过复制边界上的像素值来补齐，其中j表示前述5个关键点中某一个关键点，ratio取值范围为(0-1)，比如可以取0.25。

将i路红外图像中的局部区域图像与i路伪深度图中对应的局部区域图像拼接，生成5个i路的局部区域的拼接图像。左眼、右眼、鼻子、左嘴角、右嘴角的拼接图像分别对应于局部区域1、局部区域2、局部区域3、局部区域4、局部区域5。

(4)定义5个卷积神经网络，分别为patch net1、patch net2、patch net3、patchnet4、patch net5，这5个卷积神经网络可以是完全一样的网络结构，也可以是完全不一样的网络结构，也可以是部分相同的网络结构，只要保证每个卷积神经网络的输入(1*2*N*N)和输出(1*2)是一样的即可，即输出都是活体或者非活体的判断结果。

(5)如图8所示，patch net1、patch net2、patch net3、patch net4、patch net5分别与局部区域1、局部区域2、局部区域3、局部区域4、局部区域5对应，将5个i路的局部区域的拼接图像分别输入到5个卷积神经网络，输出1*2的判别特征1-判别特征5，对5个判断特征求平均值，最后经过softmax函数，得到i路的活体判断结果2。

(6)经过步骤(1)至步骤(5)，左路和右路都会得到活体判断结果1和活体判断结果2。因此，最后共有4个活体判断结果，当判断结果为活体的比例大于或等于预设阈值时，确定待检测对象为活体。例如，比例设置为100％，则4个活体判断结果均为活体时，确定待检测对象为活体，否则，待检测对象为非活体。

本申请实施例中，全局分类网络和局部分类网络的功能是提取图像中的特征信息。网络结构的选择可以有很多种，比如各种经典网络及其变体：Inception、ResNet、ShuffleNet、MobileNet等。

本申请实施例结合了红外图像和伪深度图的全局特征信息和局部特征信息，进一步提高了活体判断的精度。

以上对本申请实施例提供的训练模型的方法和活体检测的方法进行了说明，以下对本申请实施例提供的装置和电子设备进行说明。

图9为本申请实施例提供的训练模型的装置，该装置900包括获取模块901、处理模块902。

获取模块901，用于获取第一训练集与第二训练集，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成。

处理模块902，用于根据第一训练集与第二训练集，训练深度预测模型。

特别地，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象在同一时刻获取的。

应理解的是，本申请实施例的装置900可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logicdevice，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图1所示的训练模型的方法，通过软件实现图1所示的训练模型的方法时，装置900及其各个模块也可以为软件模块。

图10为本申请实施例提供的活体检测的装置100，该装置100包括获取模块1001、处理模块1002。

获取模块1001，用于获取包括待检测对象的人脸的图像；

处理模块1002，用于将包括待检测对象的人脸的图像输入至深度预测模型，得到包括待检测对象的人脸的图像对应的伪深度图，伪深度图反映人脸中多个位置之间在深度上的相对关系，深度预测模型是根据第一训练集与第二训练集生成的，第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；根据包括待检测对象的人脸的图像对应的伪深度图，确定待检测对象的检测结果。

特别地，处理模块1002，还用于根据包括待检测对象的人脸的图像对应的伪深度图和包括待检测对象的人脸的图像，确定待检测对象的检测结果。

特别地，处理模块1002，还用于分别获取包括待检测对象的人脸的图像对应的伪深度图、包括待检测对象的人脸的图像中与人脸相关的特征信息，根据与人脸相关的特征信息确定待检测对象的检测结果。

特别地，与人脸相关的特征信息包括全局特征信息和局部特征信息中的至少一个，全局特征信息包括整个人脸区域的特征信息，局部特征信息包括人脸中局部区域的特征信息。

特别地，包括待检测对象的人脸的图像包括第一图像与第二图像，第一图像与第二图像是基于双目相机获取的，包括待检测对象的人脸的图像对应的伪深度图包括第一伪深度图和第二伪深度图，第一图像与第一伪深度图对应，第二图像与第二伪深度图对应。

应理解的是，本申请实施例的装置100可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logicdevice，PLD)实现，上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice，CPLD)，现场可编程门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现图4所示的活体检测方法，通过软件实现图4所示的活体检测方法时，装置100及其各个模块也可以为软件模块。

图11为本申请实施例提供的一种电子设备110的结构示意图。如图11所示，该设备110包括处理器1101、存储器1102、通信接口1103和总线1104。其中，处理器1101、存储器1102、通信接口1103通过总线1104进行通信，也可以通过无线传输等其他手段实现通信。该存储器1102用于存储指令，该处理器1101用于执行该存储器1102存储的指令。该存储器1102存储程序代码1021，且处理器1101可以调用存储器1102中存储的程序代码1021执行图1所示的训练模型的方法或者图4所示的活体检测方法。

应理解，在本申请实施例中，处理器1101可以是CPU，处理器1101还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

该存储器1102可以包括只读存储器和随机存取存储器，并向处理器1101提供指令和数据。存储器1102还可以包括非易失性随机存取存储器。该存储器1102可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

该总线1104除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图11中将各种总线都标为总线1104。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive，SSD)。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种活体检测方法，其特征在于，所述方法包括：

获取包括待检测对象的人脸的图像；

将所述包括待检测对象的人脸的图像输入至深度预测模型，得到所述包括待检测对象的人脸的图像对应的伪深度图，所述伪深度图反映人脸中多个位置之间在深度上的相对关系，所述深度预测模型是根据第一训练集与第二训练集生成的，所述第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，所述第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；

根据所述包括待检测对象的人脸的图像对应的伪深度图，确定所述待检测对象的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述包括待检测对象的人脸的图像对应的伪深度图，确定所述待检测对象的检测结果，包括：

根据所述包括待检测对象的人脸的图像对应的伪深度图和所述包括待检测对象的人脸的图像，确定所述待检测对象的检测结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述包括待检测对象的人脸的图像对应的伪深度图和所述包括待检测对象的人脸的图像，确定所述待检测对象的检测结果，包括：

分别获取所述包括待检测对象的人脸的图像对应的伪深度图、所述包括待检测对象的人脸的图像中与人脸相关的特征信息；

根据所述与人脸相关的特征信息确定所述待检测对象的检测结果。

4.根据权利要求3所述的方法，其特征在于，所述与人脸相关的特征信息包括全局特征信息和局部特征信息中的至少一个，所述全局特征信息包括整个人脸区域的特征信息，所述局部特征信息包括人脸中局部区域的特征信息。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述包括待检测对象的人脸的图像包括第一图像与第二图像，所述第一图像与所述第二图像是基于双目相机获取的，所述包括待检测对象的人脸的图像对应的伪深度图包括第一伪深度图和第二伪深度图，所述第一图像与所述第一伪深度图对应，所述第二图像与所述第二伪深度图对应。

6.一种训练模型的方法，其特征在于，所述方法包括：

获取第一训练集与第二训练集，所述第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，所述第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；

根据所述第一训练集与所述第二训练集，训练深度预测模型。

7.根据权利要求6所述的方法，其特征在于，所述第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象在同一时刻获取的。

8.一种活体检测装置，其特征在于，所述装置包括：

获取模块，用于获取包括待检测对象的人脸的图像；

处理模块，用于将所述包括待检测对象的人脸的图像输入至深度预测模型，得到所述包括待检测对象的人脸的图像对应的伪深度图，所述伪深度图反映人脸中多个位置之间在深度上的相对关系，所述深度预测模型是根据第一训练集与第二训练集生成的，所述第一训练集由多对包括人脸的图像组成，每对包括人脸的图像是针对同一个对象获取的，所述第二训练集由多个包括人脸的图像以及多个预先生成的伪深度图组成；根据所述包括待检测对象的人脸的图像对应的伪深度图，确定所述待检测对象的检测结果。

9.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至7中任一项所述的方法。