CN111597938B

CN111597938B - 活体检测、模型训练方法及装置

Info

Publication number: CN111597938B
Application number: CN202010376824.4A
Authority: CN
Inventors: 唐东凯; 曾定衡; 赵立军
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2022-02-22
Anticipated expiration: 2040-05-07
Also published as: CN111597938A

Abstract

本发明提供了一种活体检测、模型训练方法及装置，其中活体检测方法包括：截取视频中对应预设颜色的人脸图像，视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到；对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像；对至少两个第一特征图像进行合并处理得到第二特征图像，对第二特征图像进行特征处理，输出目标特征图像；对目标特征图像进行激活处理，输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值；根据两个概率值进行活体判断。本发明可以基于光线进行活体验证，同时采用深度可分离卷积的技术训练出轻量级的活体检测网络，在保证活体人脸检测准确性的基础上提高检测效率。

Description

活体检测、模型训练方法及装置

技术领域

本发明涉及生物特征识别技术领域，尤其涉及一种活体检测、模型训练方法及装置。

背景技术

近年来，人脸识别因为快速性、有效性和用户友好性，逐渐成为一种新的加密方式，在金融支付、安防等领域都有着广泛的应用。然而人脸识别系统也面临着被不法分子恶意攻击的风险，比如使用打印的人脸照片，提前录制的人脸视频，甚至3D的人脸模型，这些攻击手段对人脸识别系统的安全性带来了隐患。人脸防欺诈的方法也叫做活体检测，主要是判断人脸是否为活体，常见的活体检测主要是基于动作的活体检测和静默活体检测。基于动作的活体检测需要用户进行摇头、眨眼、张嘴等动作，根据用户的这些动作来判断是否为活体。静默活体检测并不需要用户去做一系列动作，而是采用双目摄像头或红外摄像头获取到用户人脸信息的深度或红外图像，从而根据深度图像或红外图像去判断是否为活体。基于动作的方法需要用户去做指定的动作，用户友好性不足，而静默活体需要依赖于硬件(如摄像头)，成本较高。

另外，随着移动互联网的发展，移动支付等场景也越来越多，人脸识别也常常用于移动端，而移动端常常对模型大小、识别速度性能有所要求，所以人脸防欺诈的方式也有了新的挑战，常常要求活体检测的模型尽可能的小，且识别速度也要尽可能的快。

综上，现有的活体检测方法存在用户友好性不足、成本高以及活体检测模型不便于在移动端部署的问题。

发明内容

本发明实施例提供一种活体检测、模型训练方法及装置，以解决现有技术中活体检测方法存在用户友好性不足、成本高以及活体检测模型不便于在移动端部署的问题。

为了解决上述问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供一种活体检测方法，包括：

截取视频中对应预设颜色的人脸图像，所述视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到；

对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像；

对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；

对所述目标特征图像进行激活处理，输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值；

根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断。

第二方面，本发明实施例提供一种活体检测的模型训练方法，包括：

获取多个包括活体人脸的第一视频以及多个包括非活体人脸的第二视频；

针对每个第一视频和每个第二视频，截取对应预设颜色的人脸图像，所述第一视频和所述第二视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到，并根据所截取的人脸图像生成包括至少两帧人脸图像的图像组合，所述图像组合中的每帧人脸图像分别对应于不同预设颜色；

将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型。

第三方面，本发明实施例提供一种活体检测装置，包括：

截取模块，用于截取视频中对应预设颜色的人脸图像，所述视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到；

第一输出模块，用于对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像；

处理模块，用于对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；

第二输出模块，用于对所述目标特征图像进行激活处理，输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值；

判断模块，用于根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断。

第四方面，本发明实施例提供一种活体检测的模型训练装置，包括：

获取模块，用于获取多个包括活体人脸的第一视频以及多个包括非活体人脸的第二视频；

生成模块，用于针对每个第一视频和每个第二视频，截取对应预设颜色的人脸图像，所述第一视频和所述第二视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到，并根据所截取的人脸图像生成包括至少两帧人脸图像的图像组合，所述图像组合中的每帧人脸图像分别对应于不同预设颜色；

训练模块，用于将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型。

第五方面，本发明实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述处理器，用于读取存储器中的程序实现上述的活体检测方法或者活体检测的模型训练方法中的步骤。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的活体检测方法或者活体检测的模型训练方法中的步骤。

本发明技术方案，通过截取视频中在至少两种不同预设颜色的光线下分别拍摄人脸所得到的图像，将所截取的人脸图像分别进行卷积处理，输出第一特征图像，对至少两个第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像，最后利用活体检测模型判断目标特征图像的活体概率值进行活体检测，相对于采用可见光或者红外光进行活体检测的现有技术而言，由于采用至少两种不同颜色的人脸，能够提高活体检测的准确率，而且可以提升用户的体验效果，同时对两种颜色进行一系列卷积处理和活体判断的方式可以保证活体人脸检测的准确性。

附图说明

图1表示本发明实施例活体检测方法示意图；

图2表示本发明实施例进行活体检测的流程框图；

图3表示本发明实施例活体检测方法的一实施流程图；

图4表示本发明实施例活体检测的模型训练方法示意图；

图5表示本发明实施例活体检测装置示意图；

图6表示本发明实施例活体检测的模型训练装置示意图；

图7表示本发明又一实施例的活体检测装置结构图；

图8表示本发明又一实施例的活体检测的模型训练装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种活体检测方法，如图1所示，包括：

步骤101、截取视频中对应预设颜色的人脸图像，所述视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到。

本发明实施例的活体检测方法，首先需要获取在至少两种不同预设颜色的光线下拍摄人脸所得到的视频，其中在拍摄视频时，当用户点击开始录制时，首先会进行人脸检测，判断检测框里是否包括人脸，若是则执行录制，否则就输出检测不到人脸的提示信息。在执行录制时电子设备的显示屏可以发出至少两种不同预设颜色的光线，在至少两种不同预设颜色的光线下，摄像头进行人脸采集获取视频。在获取视频之后，可以基于拍摄的视频截取在至少两种不同预设颜色的光线下分别拍摄的人脸图像。

步骤102、对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像。

在获取视频中的在至少两种不同预设颜色的光线下分别拍摄的人脸图像后，可以根据与不同预设颜色的光线对应的人脸图像，分别进行卷积处理，输出第一特征图像。

其中，在输出第一特征图像时，需要针对在每种预设颜色的光线下分别拍摄的人脸图像，分别截取至少一帧人脸图像，然后在至少一帧人脸图像中选择出一帧图像。即可以截取两帧或者两帧以上的人脸图像，然后筛选出一帧图像。可选的，为了节省操作步骤，也可以在进行图像截取时仅截取一帧图像。

然后根据至少两帧人脸图像分别进行卷积处理，输出第一特征图像。这里所采用的卷积处理方式为深度可分离卷积，进而实现通过轻量级的卷积方式输出第一特征图像。

步骤103、对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像。

在确定至少两个第一特征图像之后，需要对至少两个第一特征图像进行合并处理，在对至少两个第一特征图像合并后可以输出第二特征图像，然后根据第二特征图像进行特征处理，输出目标特征图像。该过程同样采用可分离卷积处理的方式，实现减少参数，提升目标特征图像的输出效率。

步骤104、对所述目标特征图像进行激活处理，输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值。

在获取目标特征图像之后，可以采用softmax激活函数对目标特征图像进行激活处理，从而输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值。

步骤105、根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断。

在获取与活体标签对应的第一概率值和与非活体标签对应的第二概率值之后，可以基于第一概率值和第二概率值，对视频中的人脸进行判断，得出视频中的人脸是否为活体人脸的结果。

上述实施过程，可以通过截取视频中在至少两种不同预设颜色的光线下分别拍摄人脸所得到的图像，将所截取的人脸图像采用活体检测模型进行活体检测，可以实现基于光线进行活体验证提升了用户的体验效果，保证了活体人脸检测的准确性，同时通过轻量级的深度可分离卷积方式可以达到移动端可用的效果，且定位速度较快可以满足移动端实时性的要求。

可选的，在本发明一实施例中，所述截取视频中对应预设颜色的人脸图像之前，包括：

控制显示屏在预设时长内以预设顺序依次发出至少两种预设颜色的光线，并在所述预设时长内拍摄所述视频；

所述截取视频中对应预设颜色的人脸图像，包括：

将所述视频进行分帧，在每个预设颜色的帧序列中分别选取人脸图像；

其中，所述至少两种预设颜色为区别于黑/白颜色的颜色集合中的至少两种颜色。

在针对视频进行人脸图像的截取时，需要在检测框中检测到人脸图像时，控制显示屏在预设时长内以预设顺序依次发出至少两种预设颜色的光线，这里预设颜色的光线为区别于黑/白颜色的光线，且各预设颜色的光线按照预设顺序依次发出，每种预设颜色的光线可持续一定时长。在显示屏以预设顺序依次发出至少两种预设颜色的光线的预设时长内，控制摄像头执行拍摄以获取视频。在获取视频之后，可以将视频进行分帧处理，以在每个预设颜色的帧序列中获取人脸图像，此时在每个预设颜色的帧序列中所获取的人脸图像的数目至少为一帧。

其中，所述预设时长可以为1秒、2秒等，所述预设颜色的光线至少为两种，本实施例优选地采用红、绿、蓝等最常见的光，其可以实现最优的效果，当然，在其他实施例中也可以为黄、紫等其他颜色的光。进一步而言，本实施例在发出不同预设颜色的光线时，可以以白光开始，白光结尾，这样可以比较容易分割视频帧，进而在进行机器视觉识别时能够较容易的识别出开始时间和结束时间。

下面以预设颜色为三种，且为红、绿、蓝为例对截取人脸图像的过程进行举例阐述。当检测到人脸时，显示屏会依次发出白、红、绿、蓝、白的不同光线，其中以白光开始，白光结尾，但白光并不参与人脸图像获取的过程。在显示屏依次发出不同光线时，进行视频的录制，然后将录制的视频进行分帧，在红光、绿光和蓝光的帧序列中分别选取至少一帧图像，并将人脸区域裁剪出来，去除掉背景的干扰，以获取人脸图像。上述实施过程，通过不同的光线打在活体人脸、照片人脸、屏幕人脸、3D头模上是有所不同的特性，可以基于光线进行人脸图像的采集并根据采集的图像进行活体检测，无需用户做出指定动作，也不需要其他的硬件设备来支撑，具有简单方便和提升用户友好性的效果。

可选的，在本发明一实施例中，对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像，包括：

针对每个预设颜色的光线，分别截取至少一帧人脸图像，并筛选出用于进行卷积处理的一帧人脸图像；

将至少两帧人脸图像分别进行分辨率调整，获取具有第一分辨率的至少两帧人脸图像；

对具有第一分辨率的至少两帧人脸图像分别进行多层深度可分离卷积处理，生成至少两个具有第二分辨率和预设通道数的所述第一特征图像；

其中，所述第二分辨率小于所述第一分辨率。

在针对每一种预设颜色的光线所拍摄的人脸图像输出第一特征图像时，需要在每个预设颜色的光线下所拍摄的人脸图像中分别截取至少一帧人脸图像，然后在至少一帧人脸图像中进行筛选，以获取可用于进行卷积处理的一帧人脸图像，由于预设颜色的光线至少为两种，因此可以获取至少两帧人脸图像。然后针对所获取的至少两帧人脸图像分别进行分辨率的调整，获取具有第一分辨率的至少两帧人脸图像。其中所获取的原始人脸图像为具有三通道数的图像。

基于具有第一分辨率的至少两帧人脸图像，采用深度可分离卷积技术对每帧人脸图像进行多层卷积处理，输出与每帧人脸图像分别对应的具有第二分辨率和预设通道数的第一特征图像。需要说明的是，本申请的深度可分离卷积可以把标准卷积分解成深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)，进而可以在损失精度不多的情况下大幅度降低参数量和计算量的技术效果。其中本申请的深度卷积处理可以采用CNN(Convolutional Neural Networks，卷积神经网络)，而在CNN的卷积过程中，本申请的卷积层可以是一个由三维的数据结构所组成的，即本申请的feature map(三维的特征图像)可以为多张二维的平面图片通过堆叠形成。

其中，第一分辨率可为112*112，第二分辨率可以是14*14，预设通道数为40。如图2所示，下面以预设颜色的种类为三种，对第一特征图像的生成过程举例阐述：

首先，将三种预设颜色的光线分别对应的一帧人脸图像进行分辨率调整，获取三帧分辨率为112*112的人脸图像，其中每一帧人脸图像的通道数为3，在进行分辨率调整之后可以得到112*112*3的彩色的特征图像。

其次，将三张不同光线的人脸图像送入三个分支，其中本实施例的三个分支的结构可以相同或在其他实施例中可以不相同，其中，本实施例的人脸图像经过6层的block层处理，最终处理成为分辨率是14*14，通道为40的第一特征图像。其中本实施例经过6层block层的处理过程即为采用深度可分离卷积技术进行处理的过程。需要说明的是，本实施例图2中的block为卷积块，其可以是一系列卷积的组合，比如(1*1，3*3，1*1)等多个不同卷积核的卷积集合，本实施例的Bneck是指一系列的block的组合。

具体而言，本实施例每个分支的Bneck对基于112*112*3的彩色图像输出第一特征图像的具体过程包括：首先对112*112*3的彩色图像进行第一层的卷积处理可以输出56*56*16的图像，即此时的卷积处理调整了分辨率和通道数。然后进行第二层和第三层的卷积处理，分别可以输出28*28*24的图像，第二层和第三层的处理虽然所输出的图像的分辨率和通道数相同，但是经过第三层的处理可以便于特征提取。再经过第四层、第五层和第六层的卷积处理，分别可以输出14*14*40的图像，第四层、第五层和第六层的处理虽然所输出的图像的分辨率和通道数相同，但是经过第五层和第六层的处理可以进一步便于特征提取。需要说明的是，每一层的卷积处理均包括深度卷积和逐点卷积。

需要说明的是，实际使用中，分支结构的数量为三个，理论上二个，四个，五个都可以，不同分支对应不同的颜色输入，通过分支结构的配合，可以实现不同精确度需求的活体检测。

上述处理过程，通过对各预设颜色的光线下分别对应的人脸图像依次进行分辨率调整、采用深度可分离卷积技术进行多层卷积处理，可以输出对应的第一特征图像，以便用于后续的活体检测。

本实施例通过在不同预设颜色的光线下截取人脸图像，可以基于光线进行准确的活体人脸识别，通过采用深度可分离卷积处理进行第一特征图像的生成，可以实现采用轻量级活体检测模型进行处理，在保证活体检测准确度的基础上，提高检测效率。

可选的，在本发明一实施例中，所述对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像，具体包括：

将至少两个所述第一特征图像按照通道数进行合并处理，输出所述第二特征图像；

对所述第二特征图像进行两层深度可分离卷积处理输出第三特征图像；

对所述第三特征图像进行全局平均池化，输出第四特征图像；

通过全连接层对所述第四特征图像进行缩减通道数处理，输出所述目标特征图像。

换而言之，本实施例在获取至少两个第一特征图像之后，可以按照通道数对至少两个第一特征图像进行合并处理，通过合并处理可以实现通道数的叠加输出第二特征图像。然后对第二特征图像，再次采用深度可分离卷积技术进行两层深度可分离卷积处理，生成第三特征图像，针对第三特征图像进行GAP(Global average Pooling，全局平均池化)获取第四特征图像，最后通过FC(Fully Connected Layers，全连接层)对所生成的第四特征图像进行缩减通道数的处理，输出最终的目标特征图像。

请继续参见图2，下面以预设颜色的种类为三种，根据分辨率是14*14，通道为40的第一特征图像，生成目标特征图像的过程进行举例阐述：

首先，将三个分支的第一特征图像按照通道数进行合并输出14*14*120的第二特征图像。

其次，采用深度可分离卷积技术进行两层深度可分离卷积处理，最终得到4*4*256的第三特征图像，其中，在采用深度可分离卷积技术进行两层卷积处理时，分别执行深度卷积处理和逐点卷积处理，且经过一层卷积处理后得到7*7*196的图像，然后针对7*7*196的图像再次执行卷积处理得到4*4*256的第三特征图像。

然后对第三特征图像进行GAP处理得到1*1*256的第四特征图像。

最后经过一层全连接层输出1*1*2的目标特征图像。

不难看出，本实施例上述实施过程中通过深度可分离卷积进行处理，相较于常规的卷积操作，可以将参数数量减少1/9左右，进而以较低的运算成本获取目标特征图像，还可以提升目标特征图像的输出效率。

可选的，在本发明一实施例中，所述根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断，包括：

比较所述第一概率值和所述第二概率值的大小；

在所述第一概率值大于所述第二概率值时，确定所述视频中的人脸为活体人脸；

在所述第一概率值小于所述第二概率值时，确定所述视频中的人脸为非活体人脸；

其中，所述第一概率值和所述第二概率值之和为1。

在输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值之后，可以对第一概率值和第二概率值进行比较，判断第一概率值和第二概率值的大小。在第一概率值大于第二概率值的情况下，如第一概率值为0.9，第二概率值为0.1，此时可以确定视频中的人脸为活体人脸。在第一概率值小于第二概率值的情况下，如第一概率值为0.2，第二概率值为0.8，此时可以确定视频中的人脸为非活体人脸。

上述过程，通过将与活体标签对应的第一概率值和与非活体标签对应的第二概率值进行比较，可以准确的进行活体检测。

下面以一具体实施例对活体检测的过程进行阐述，如图3所示，包括：

步骤301、开启摄像头进行人脸检测，在检测到人脸时点击视频录制按钮。

步骤302、控制显示屏在预设时长内依次发出不同颜色的光线，并在预设时长内进行视频录制。

步骤303、将录制的视频进行分帧，在各颜色的帧序列中各选取一张图像，并将人脸区域裁剪出来。

步骤304、根据各颜色分别对应的人脸图像，进行活体检测，判断所录制的视频中的人脸是否为活体人脸。

上述过程根据不同的光线打在活体人脸、照片人脸、屏幕人脸、3D头模上是有所不同的特性，对活体人脸进行检测，不需要用户做出指定动作，也不需要其他的硬件设备来支撑，具有简单方便、用户友好性高的效果。

本发明实施例的活体检测方法，通过截取视频中在至少两种不同预设颜色的光线下分别拍摄人脸所得到的图像，将所截取的人脸图像采用通过深度可分离卷积技术训练的活体检测模型进行活体检测，可以实现基于光线进行活体验证提升了用户的体验效果，保证了活体人脸检测的准确性，同时由于采用轻量级活体检测模型达到了移动端可用的效果，且定位速度较快可以满足移动端实时性的要求。

本发明实施例还提供一种活体检测的模型训练方法，如图4所示，包括：

步骤401、获取多个包括活体人脸的第一视频以及多个包括非活体人脸的第二视频。

本发明实施例的活体检测的模型训练方法，首先需要采集进行模型训练的数据信息，其中数据信息包括多个第一视频以及多个第二视频，第一视频中包括活体人脸，第二视频中包括非活体人脸，非活体人脸可以为打印的人脸照片，对着屏幕录制的视频和3D头模。且第一视频和第二视频均是在至少两种不同预设颜色的光线下分别拍摄而成，具体可以为：在检测到人脸时显示屏发出至少两种不同预设颜色的光线，在至少两种不同预设颜色的光线下，摄像头进行人脸采集获取视频。

步骤402、针对每个第一视频和每个第二视频，截取对应预设颜色的人脸图像，所述第一视频和所述第二视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到，并根据所截取的人脸图像生成包括至少两帧人脸图像的图像组合，所述图像组合中的每帧人脸图像分别对应于不同预设颜色。

在获取多个包括活体人脸的第一视频以及多个包括非活体人脸的第二视频之后，可以针对每个第一视频和每个第二视频，截取在至少两种不同预设颜色的光线下分别拍摄的人脸图像，基于与每个第一视频和每个第二视频分别对应的在至少两种不同预设颜色的光线下分别拍摄的人脸图像，生成包括至少两帧分别对应于不同预设颜色的光线的人脸图像的图像组合。由于不同的光线打在活体人脸、照片人脸、屏幕人脸、3D头模上是有所不同的，因此可以基于光线进行人脸图像的采集并根据采集的图像进行活体检测模型的训练。

步骤403、将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型。

在针对每个第一视频和每个第二视频均生成图像组合之后，可以将多个图像组合输入训练模型，通过训练模型对图像组合进行深度可分离卷积处理和特征处理，以对训练模型进行训练，得到活体检测模型。

在进行卷积处理时，通过深度可分离卷积技术进行卷积处理，实现采用轻量级的处理方式减少参数，提升处理效率。

其中，在通过训练模型对多个图像组合进行处理以进行训练时，在与每个第一视频和每个第二视频对应的图像组合均进行处理后确定完成第一次训练，然后可以针对多个图像组合进行第二次训练。

上述过程，可以在多个第一视频和多个第二视频中提取训练数据，并依据深度可分离卷积技术进行卷积处理，可以实现基于光线进行活体验证提升了用户的体验效果，保证了活体人脸检测的准确性，同时达到了移动端可用的效果，且定位速度较快可以满足移动端实时性的要求。

可选的，在本发明一实施例中，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理时，可以对与多个第一视频和多个第二视频对应的多个图像组合按照预设顺序进行处理。其中，每一个第一视频对应于一个图像组合，每一个第二视频对应于一个图像组合。在对多个图像组合完成一次处理之后，表征完成训练模型的一次训练，这里的处理包括深度可分离卷积处理和特征处理。

在完成一次训练之后，若训练结果的准确率不能达到预设值，则表明训练结果不满足预设条件。其中，在对第一视频对应的图像组合进行深度可分离卷积处理和特征处理后，若输出非活体人脸的结果则表明训练结果错误，在对第一视频对应的图像组合进行深度可分离卷积处理和特征处理后，若输出活体人脸的结果则表明训练结果准确，在对第二视频对应的图像组合进行深度可分离卷积处理和特征处理后，若输出非活体人脸的结果则表明训练结果准确，在对第二视频对应的图像组合进行深度可分离卷积处理和特征处理后，若输出活体人脸的结果则表明训练结果错误。

在训练结果不满足预设条件时，需要对与多个第一视频和多个第二视频对应的多个图像组合按照预设顺序再次进行处理，以对训练模型再次训练，然后检测准确率是否能达到预设值，若不能则继续执行训练过程，以此类推，直至训练结果满足预设条件时停止执行模型训练。

上述过程，在每一次训练完成后通过检测准确率来确定训练结果是否满足预设条件，在不满足时继续执行训练过程，可以通过多次训练生成活体检测模型。

可选的，对与多个第一视频和多个第二视频对应的多个图像组合按照预设顺序进行处理时，可以将多个图像组合划分为预设数目个集合，并对预设数目个集合进行排序确定预设顺序，每个集合中包括至少两个图像组合；针对预设数目个集合，按照预设顺序，对每个集合中的图像组合执行深度可分离卷积处理和特征处理；其中，在对一个集合中的图像组合执行深度可分离卷积处理和特征处理后，调整卷积核参数，并根据调整后的卷积核参数对下一个集合中的图像组合执行深度可分离卷积处理和特征处理。

在对多个图像组合按照预设顺序进行深度可分离卷积处理和特征处理时，首先需要将多个图像组合划分为预设数目个集合，其中每个集合中所包含的图像组合的数目可以为2^N个，N为大于或者等于1的正整数，且每个集合中的图像组合的数目可以相同或者不同。进一步的，每个集合中的图像组合可以包括与第一视频对应的图像组合和与第二视频对应的图像组合，也可仅包括与第一视频对应的图像组合或者仅包括与第二视频对应的图像组合。其中，每个集合中的图像组合包括与第一视频对应的图像组合和与第二视频对应的图像组合为优选方案。

在得到预设数目个集合之后，可以将预设数目个集合进行排序以确定预设顺序，然后根据所确定的预设顺序，依次对每个集合中的图像组合执行深度可分离卷积处理和特征处理。针对每一个集合，在对该集合中的图像组合执行深度可分离卷积处理和特征处理后，可以进行一次卷积核参数的调整，并利用调整后的卷积核参数，针对下一个集合中的图像组合执行深度可分离卷积处理和特征处理。即完成一次训练需要执行多次的卷积核参数调整。

上述过程，通过针对每一个集合进行卷积核参数调整，可以利用调整后的卷积核参数执行后续的图像组合的深度可分离卷积处理和特征处理，以不断优化卷积核参数，进而优化训练过程。

可选的，在本发明一实施例中，所述通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，包括：

将输入所述训练模型的每个所述图像组合中的至少两帧人脸图像进行可分离卷积处理，得到与每帧人脸图像分别对应的第一特征图像；

对所述目标特征图像进行激活处理输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值，并根据所述第一概率值和所述第二概率值，对所述第一视频或所述第二视频中的人脸进行活体判断。

在针对图像组合执行深度可分离卷积处理和特征处理时，需要针对每个图像组合，确定图像组合中的至少两帧人脸图像分别对应的第一特征图像，确定第一特征图像时可以采用深度可分离卷积模式对每帧人脸图像进行多层可分离卷积处理，输出与每帧人脸图像分别对应的具有第二分辨率和预设通道数的第一特征图像。

然后针对每个图像组合，对至少两个第一特征图像进行合并处理，通过合并处理可以实现通道数的叠加生成第二特征图像，然后对生成的第二特征图像，采用深度可分离卷积技术进行两层卷积处理，生成第三特征图像，针对第三特征图像进行GAP获取第四特征图像，最后通过全连接层对所生成的第四特征图像进行缩减通道数的处理，输出最终的目标特征图像。

针对每个图像组合输出目标特征图像之后，可以对目标特征图像进行激活处理输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值，然后比较第一概率值和第二概率值，判断第一概率值和第二概率值的大小。在第一概率值大于第二概率值的情况下，判断结果为：人脸视频中的人脸为活体人脸。在第一概率值小于第二概率值的情况下，判断结果为：人脸视频中的人脸为非活体人脸。此时可以获取每个图像组合的判断准确度，进而可以获取训练结果的准确率。

上述过程，可以通过对图像组合执行深度可分离卷积处理和特征处理，以对第一视频或第二视频中的人脸进行活体判断，进而实现基于光线进行活体验证，提升了用户的体验效果。

本发明通过采用深度可分离卷积处理，相较于常规卷积处理而言可以将参数减少1/9左右，进而减少最终的模型大小。在具体的训练过程中，可以采用真实活体视频2000个，欺诈视频3000个(包括打印的人脸照片，对着屏幕录制的视频和3D的头模，比例为4:4:2)进行训练。另外还有200个视频作为测试集，本发明在测试集上的准确率达到95％以上。

需要额外说明的是，如图2所示，本发明用于活体检测的网络模型约为2.19M(Mbyte，兆字节)的大小，且可以基于pytoch编写的，并最终转换为ncnn格式，由此，可以构造成类ncnn的移动端(如手机)极致优化的高性能神经网络前向计算框架，基于ncnn，开发者能够将深度学习算法轻松移植到移动端高效执行，进而可以便于网络模型在移动端的部署，且本发明网络结构运算过程并不复杂，所以定位速度也在毫秒级别，经过CPU(centralprocessing unit，中央处理器)上测试可实现在200毫秒内定位，从而满足移动端实时性的要求。

本发明实施例活体检测的模型训练方法，可以针对真假活体对不同光线照射的差别，借鉴轻量级分类网络的方法，采用深度可分离卷积的技术，设计了一种轻量级的、模型较小的活体检测模型，达到了移动端可用的效果，且定位速度快，可以友好性的进行活体检测。

本发明实施例还提供一种活体检测装置，如图5所示，包括：

截取模块501，用于截取视频中对应预设颜色的人脸图像，所述视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到；

第一输出模块502，用于对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像；

处理模块503，用于对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；

第二输出模块504，用于对所述目标特征图像进行激活处理，输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值；

判断模块505，用于根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断。

可选的，该装置还包括：

拍摄模块，用于在截取模块截取视频中对应预设颜色的人脸图像之前，控制显示屏在预设时长内以预设顺序依次发出至少两种预设颜色的光线，并在所述预设时长内拍摄所述视频；

所述截取模块进一步用于：

可选的，所述第一输出模块包括：

筛选子模块，用于针对每个预设颜色的光线，分别截取至少一帧人脸图像，并筛选出用于进行卷积处理的一帧人脸图像；

获取子模块，用于将至少两帧人脸图像分别进行分辨率调整，获取具有第一分辨率的至少两帧人脸图像；

生成子模块，用于对具有第一分辨率的至少两帧人脸图像分别进行多层深度可分离卷积处理，生成至少两个具有第二分辨率和预设通道数的所述第一特征图像；

其中，所述第二分辨率小于所述第一分辨率。

可选的，所述处理模块包括：

第一输出子模块，用于将至少两个所述第一特征图像按照通道数进行合并处理，输出所述第二特征图像；

第二输出子模块，用于对所述第二特征图像进行两层深度可分离卷积处理输出第三特征图像；

第三输出子模块，用于对所述第三特征图像进行全局平均池化，输出第四特征图像；

第四输出子模块，用于通过全连接层对所述第四特征图像进行缩减通道数处理，输出所述目标特征图像。

可选的，所述判断模块包括：

比较子模块，用于比较所述第一概率值和所述第二概率值的大小；

第一确定子模块，用于在所述第一概率值大于所述第二概率值时，确定所述视频中的人脸为活体人脸；

第二确定子模块，用于在所述第一概率值小于所述第二概率值时，确定所述视频中的人脸为非活体人脸；

其中，所述第一概率值和所述第二概率值之和为1。

本发明实施例的活体检测装置，通过截取视频中在至少两种不同预设颜色的光线下分别拍摄人脸所得到的图像，将所截取的人脸图像采用通过深度可分离卷积技术训练的活体检测模型进行活体检测，可以实现基于光线进行活体验证提升了用户的体验效果，保证了活体人脸检测的准确性，同时达到了移动端可用的效果，且定位速度较快可以满足移动端实时性的要求。

本发明实施例还提供一种活体检测的模型训练装置，如图6所示，包括：

获取模块601，用于获取多个包括活体人脸的第一视频以及多个包括非活体人脸的第二视频；

生成模块602，用于针对每个第一视频和每个第二视频，截取对应预设颜色的人脸图像，所述第一视频和所述第二视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到，并根据所截取的人脸图像生成包括至少两帧人脸图像的图像组合，所述图像组合中的每帧人脸图像分别对应于不同预设颜色；

训练模块603，用于将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型。

可选的，所述训练模块包括：

第一处理子模块，用于将输入所述训练模型的每个所述图像组合中的至少两帧人脸图像进行可分离卷积处理，得到与每帧人脸图像分别对应的第一特征图像；

第二处理子模块，用于对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；

第三处理子模块，用于对所述目标特征图像进行激活处理输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值，并根据所述第一概率值和所述第二概率值，对所述第一视频或所述第二视频中的人脸进行活体判断。

本发明实施例的活体检测的模型训练装置，可以针对真假活体对不同光线照射的差别，借鉴轻量级分类网络的方法，采用深度可分离卷积的技术，设计了一种轻量级的、模型较小的活体检测模型，达到了移动端可用的效果，且定位速度快，可以友好性的进行活体检测。

参见图7，图7是本发明又一实施提供的活体检测装置的结构图，如图7所示，活体检测装置700包括：处理器701、存储器702及存储在存储器702上并可在处理器上运行的计算机程序，活体检测装置700中的各个组件通过总线接口703耦合在一起，计算机程序被处理器701执行时实现如下步骤：截取视频中对应预设颜色的人脸图像，所述视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到；对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像；对至少两个所述第一特征图像进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；对所述目标特征图像进行激活处理，输出与活体标签对应的第一概率值和与非活体标签对应的第二概率值；根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断。

可选的，计算机程序被处理器701执行时还用于：

控制显示屏在预设时长内以预设顺序依次发出至少两种预设颜色的光线，并在所述预设时长内拍摄所述视频；将所述视频进行分帧，在每个预设颜色的帧序列中分别选取人脸图像；其中，所述至少两种预设颜色为区别于黑/白颜色的颜色集合中的至少两种颜色。

可选的，计算机程序被处理器701执行时还用于：针对每个预设颜色的光线，分别截取至少一帧人脸图像，并筛选出用于进行卷积处理的一帧人脸图像；将至少两帧人脸图像分别进行分辨率调整，获取具有第一分辨率的至少两帧人脸图像；对具有第一分辨率的至少两帧人脸图像分别进行多层深度可分离卷积处理，生成至少两个具有第二分辨率和预设通道数的所述第一特征图像；其中，所述第二分辨率小于所述第一分辨率。

可选的，计算机程序被处理器701执行时还用于：将至少两个所述第一特征图像按照通道数进行合并处理，输出所述第二特征图像；对所述第二特征图像进行两层深度可分离卷积处理输出第三特征图像；对所述第三特征图像进行全局平均池化，输出第四特征图像；通过全连接层对所述第四特征图像进行缩减通道数处理，输出所述目标特征图像。

可选的，计算机程序被处理器701执行时还用于：比较所述第一概率值和所述第二概率值的大小；在所述第一概率值大于所述第二概率值时，确定所述视频中的人脸为活体人脸；在所述第一概率值小于所述第二概率值时，确定所述视频中的人脸为非活体人脸；其中，所述第一概率值和所述第二概率值之和为1。

参见图8，图8是本发明又一实施提供的活体检测的模型训练装置的结构图，如图8所示，活体检测的模型训练装置800包括：处理器801、存储器802及存储在存储器802上并可在处理器上运行的计算机程序，活体检测的模型训练装置800中的各个组件通过总线接口803耦合在一起，计算机程序被处理器801执行时实现如下步骤：获取多个包括活体人脸的第一视频以及多个包括非活体人脸的第二视频；针对每个第一视频和每个第二视频，截取对应预设颜色的人脸图像，所述第一视频和所述第二视频为在至少两种不同预设颜色的光线下分别拍摄人脸得到，并根据所截取的人脸图像生成包括至少两帧人脸图像的图像组合，所述图像组合中的每帧人脸图像分别对应于不同预设颜色；将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型。

可选的，计算机程序被处理器801执行时还用于：将输入所述训练模型的每个所述图像组合中的至少两帧人脸图像进行可分离卷积处理，得到与每帧人脸图像分别对应的第一特征图像；

本发明实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，处理器用于读取存储器中的程序实现上述活体检测方法或者上述活体检测的模型训练方法中实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述活体检测方法或者上述活体检测的模型训练方法中实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种活体检测方法，其特征在于，包括：

对至少两个所述第一特征图像按照通道数进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；其中，所述特征处理包括深度可分离卷积处理、全局平均池化处理和缩减通道处理；

根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断；

所述对不同预设颜色的光线对应的人脸图像分别进行卷积处理，输出第一特征图像，包括：

其中，所述第二分辨率小于所述第一分辨率。

2.根据权利要求1所述的方法，其特征在于，所述截取视频中对应预设颜色的人脸图像之前，包括：

所述截取视频中对应预设颜色的人脸图像，包括：

3.根据权利要求1-2任一项所述的方法，其特征在于，所述对所述第二特征图像进行特征处理，输出目标特征图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断，包括：

比较所述第一概率值和所述第二概率值的大小；

其中，所述第一概率值和所述第二概率值之和为1。

5.一种活体检测的模型训练方法，其特征在于，包括：

将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型；其中，所述特征处理包括深度可分离卷积处理、全局平均池化处理和缩减通道处理；

所述通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，包括：

6.一种活体检测装置，其特征在于，包括：

处理模块，用于对至少两个所述第一特征图像按照通道数进行合并处理得到第二特征图像，并对所述第二特征图像进行特征处理，输出目标特征图像；其中，所述特征处理包括深度可分离卷积处理、全局平均池化处理和缩减通道处理；

判断模块，用于根据所述第一概率值和所述第二概率值，对所述视频中的人脸进行活体判断；

所述第一输出模块具体用于：

其中，所述第二分辨率小于所述第一分辨率。

7.一种活体检测的模型训练装置，其特征在于，包括：

训练模块，用于将所述图像组合输入训练模型，通过所述训练模型对所述图像组合进行深度可分离卷积处理和特征处理，以对所述训练模型进行训练，得到活体检测模型；其中，所述特征处理包括深度可分离卷积处理、全局平均池化处理和缩减通道处理；

所述训练模块还具体用于：

8.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，其特征在于，

所述处理器，用于读取存储器中的程序实现包括如权利要求1至4中任一项所述的活体检测方法中的步骤；或者实现包括如权利要求5所述的活体检测的模型训练方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现包括如权利要求1至4中任一项所述的活体检测方法中的步骤；或者实现包括如权利要求5所述的活体检测的模型训练方法中的步骤。