CN111814567A

CN111814567A - 人脸活体检测的方法、装置、设备和存储介质

Info

Publication number: CN111814567A
Application number: CN202010531032.XA
Authority: CN
Inventors: 李勋宏; 施成斌; 闫楠
Original assignee: Shanghai Guotong Communications Technology Co ltd
Current assignee: Shanghai Youka Network Technology Co.,Ltd.
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-23

Abstract

本发明涉及人脸识别技术领域，具体涉及一种人脸活体检测的方法、装置、设备和存储介质。一种人脸活体检测的方法，包括：根据视频中的多个图像帧确定出多个动态图；其中，图像帧为人脸全局图像或者人脸局部区域图像；对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征；根据所述全局特征和局部特征确定所述动态图中的人脸为真实人脸的概率。本发明利用动态图；将动态图的全局特征和局部特征的结合来确定真实人脸概率，提高了真实人脸识别的准确率，提高了攻击的识别的能力，提高了抗攻击性能。

Description

人脸活体检测的方法、装置、设备和存储介质

技术领域

本发明涉及人脸识别技术领域，具体涉及一种人脸活体检测的方法、装置、设备和存储介质。

背景技术

人脸活体检测又称为人脸识别系统的反欺骗检测，而常见的欺骗攻击方式包括照片攻击、视频攻击和3D面具攻击等。真实人脸图像在摄像头下直接获取，而欺骗人脸图像的获取需要制作假人脸的及二次采集；真实人脸和欺骗的人脸之间存在一定的差异，主要体现在图像纹理信息、深度信息、运动信息、光谱信息等；利用真实人脸与欺骗人脸图像的这些差异可以设计不同的活体检测方法，从而对真假人脸作出判断。当前的人脸活体检测算法是提取单张图像的纹理特征进行研究，忽略原本视频中的时序信息，使得视频数据中的时序信息没有得到充分运用，从而在真假人脸的识别过程中会有失误的情况发生；比如用一张假的人脸的照片来对识别系统进行攻击，可能识别系统误认为假的照片就是真实的人脸。

发明内容

为此，本发明实施例提供一种人脸活体检测的方法、装置、设备和存储介质，以提高人脸活体检测的准确率，提高抗攻击性能。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，一种人脸活体检测的方法，包括：

根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征；

根据所述全局特征和局部特征确定所述动态图中的人脸为真实人脸的概率；

根据每一个动态图的真实人脸概率计算所述视频的真实人脸概率。

进一步地，根据每一个动态图的真实人脸概率来计算所述视频的真实人脸概率，包括

采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

p₁表示所述视频中的第一个动态图中的人脸为真实人脸的概率；

p₂表示所述视频中的第二个动态图中的人脸为真实人脸的概率；

p_N-T+1为所述视频中的第N-T+1个动态图中的人脸为真实人脸的概率。

进一步地，根据所述多个图像帧确定出多个动态图，包括：

一个视频中有N个图像帧；

如果将相邻的T个图像帧合成一个动态图，则动态图的数量为N-T+1。

进一步地，人脸局部区域图像为RGB图像；

人脸全局区域图像为HSV图像；

对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征，包括：

将所述动态图输入到CNN-LSTM结构中；得到对应的特征向量。

根据本发明实施例的第二方面，一种人脸活体检测的装置，包括：

动态图确定模块，用于根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

概率确定模块，用于对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征；

根据每一个动态图的真实人脸概率来计算所述视频的真实人脸概率。

进一步地，概率确定模块还用于，采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

进一步地，动态图确定模块还用于：

一个视频中有N个图像帧；

进一步地，

人脸局部区域图像为RGB图像；

人脸全局区域图像为HSV图像。

根据本发明实施例的第三方面，一种电子设备，所述电子设备包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

第三方面，本申请还提出了一种电子设备，包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行以下步骤：

根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

进一步地，根据每一个动态图的真实人脸概率来计算所述视频的真实人脸概率，包括：

采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

进一步地，根据所述多个图像帧确定出多个动态图，包括：

一个视频中有N个图像帧；

进一步地，人脸局部区域图像为RGB图像；

人脸全局区域图像为HSV图像；

将所述动态图输入到CNN-LSTM结构中；得到对应的特征向量。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述任一项所述的方法。本发明实施例具有如下优点：根据视频中的多个图像帧确定出多个动态图；对于任意的一个动态图，分别获取全局特征和局部特征；根据全局特征和局部特征确定所述动态图中的人脸为真实人脸的概率。本发明通过动态图；以及全局和局部的特征来确定活体检测，提高了识别真实人脸活体检测的准确性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施方式提供的一种人脸活体检测的方法流程图；

图2为本发明实施方式提供的基于动态图时序特征的人脸活体检测框架图；

图3为本发明实施方式提供的真实人脸、打印照片、剪切照片和重放视频的动态图的对比示意图；

图4为本发明实施方式提供的人脸的局部区域的示意图；

图5为本发明实施方式提供的人脸的五个关键点坐标示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于此，本申请提出了一种人脸活体检测的方法，参见附图1所示的人脸活体检测的方法流程图，该方法包括：

步骤S101，根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

动态图是通过编码视频帧的时间演化而得到，用于表示视频序列中图像帧的时空特征。将动态图作为视频的时空特征，因为动态图比光流多了空间特征，比单帧RGB图像多了图像序列的运动信息和帧图像之间的时间相关性。

利用RankSVM的方法生成动态图来表示空间特征和短时序特征；再利用深度卷积神经网络来学习动态图的空间特征；最后利用LSTM结构来学习长时序特征。

步骤S102，对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征；

本实施方式中，虽然整张人脸图像已经包含了丰富的信息，但是提取到的整张人脸特征很容易受到光照和姿势变化的影响，而局部人脸特征不容易受到光照和姿势变化的影响。因此本申请采用全局特征与局部特征融合的方法，可以充分利用全局信息与局部信息之间的互补关系。局部特征是指面部的一个局部的区域，包括嘴、眼睛、鼻子等。

步骤S103，根据所述全局特征和局部特征确定所述动态图中的人脸为真实人脸的概率；

步骤S104，根据每一个动态图的真实人脸概率计算所述视频的真实人脸概率。

本发明的上述的方法，采用了动态图，确定动态图中的人脸为真实人脸的概率，提高了真实的人脸识别的准确率。

在一种实施方式中，对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征时，将所述动态图输入到CNN-LSTM网络中，得到全局特征；

确定动态图中的人脸的局部区域的子动态图；将局部区域的子动态图输入到CNN-LSTM网络，得到人脸的局部特征。

分别得到全局特征和局部特征之后，再将所述全局特征和局部特征融合后输入到分类器，得到真实人脸的概率值。

其中，分类器可以采用softmax分类器实现。

参见附图2，从视频中检测人脸，其顺序还是原本视频帧的顺序，只是去除了多余的背景信息，保留了人脸区域；再将全局人脸(包括RGB和HSV)和局部人脸组件(包括眼睛、鼻子和嘴巴)的动态图分别输入到CNN-LSTM的网络结构中，即从动态图序列中提取出全局人脸和三个局部人脸组件深层次的时空特征。最后将全局特征和局部特征拼接起来，用来表示原本输入的视频，并将其输入到分类器中区分真实人脸与攻击人脸。

本申请中提到的动态图是通过RankSVM算法将整段视频优化得到，目的是使得视频中每一帧的先后顺序不变；假设一段视频有连续三帧A1、A2和A3，帧与帧之间两两相减得到六组值；如A1-A2、A2-A3、A1-A3、A3-A1、A3-A2和A2-A1。设A1-A2、A2-A3和A1-A3为负样本，A3-A1、A3-A2和A2-A1为正样本；用SVM找到一个超平面将上述的样本进行分类，证明帧与帧之间的排序是A1<A2<A3。这个超平面与A1、A2和A3点乘，三个帧之间的相关性S(A|d))，使得三个帧的排序为A1<A2<A3。

设视频I有T帧I1，…，IT，从每个帧It中提取的特征为

图像尺寸大小为m×n，并设帧t的平均图像Vt，公式如下：

设每次t的时间相关性S(d,Vt)＝<d,Vt〉；d∈Rm×n反映视频中帧的先后顺序。假设q>t，那么其时间相关性应为S(d,Vq)>S(d,Vt)，意味着这些较近的帧提供更多信息来表示视频。通过RankSVM公式计算可以求出最优解d，得到最后的优化函数，公式如下：

其中，μ＝2/T(T-1)为L2范数正则化误差。该目标函数的第一项

是RankSVM算法中常用的二次正则项。

第二个项μ∑_q＞tmax{0，1-S(d,v_q)+(d,v_t)}是损失函数，用计分函数来计算多少对q>t的错误排序。特别要注意的是，只有帧与帧之间的时间相关性大于一个单位才能被正确排序，如S(d，Vq)>S(d，Vt)+1。

在一种实施方式中，根据所述多个图像帧确定出多个动态图，包括：

一个视频中有N个图像帧；

对于一个给定的视频V＝{V1，V2，…，VN}，会生成N-T+1张动态图；

其中，T表示用于计算视频中动态图的相邻帧的数量；比如一个视频有30帧，取连续5帧合成一张动态图，则T＝5，共生成N-T+1＝30-5+1＝26张动态图；如果取30帧图像合成，就得到一张动态图。

对于一个给定的视频V＝{V1,V2,…,VN}，会生成N-T+1张动态图，其中T表示用于计算视频中动态图的相邻帧的数量，比如一个视频有30帧，取连续5帧合成一张动态图，则T＝5，共生成N-T+1＝30-5+1＝26张动态图，如果取30帧图像合成，就得到一张动态图。

真实人脸与攻击人脸的多帧RGB图像生成的动态图对比如图3所示。图中从左到右依次是真实人脸、打印照片、剪切照片和重放视频，后三列即为攻击人脸。从图中可以很容易地分辨出四种人脸的差异。对于照片攻击和视频攻击而言，动态图具有更突显的信息。除了空间信息外，动态图还可以反映视频中人脸运动的变化，还包含了时序信息。

在一种实施方式中，人脸局部区域图像为RGB图像；人脸全局区域图像为HSV图像。

其中，RGB颜色空间中的人脸局部区域比HSV颜色空间中的人脸局部区域更直观，所以人脸局部区域只使用了RGB颜色空间的动态图。

HSV颜色空间域的信息来区分视频攻击和真实人脸。因为攻击的媒体，如LCD显示屏，会使得原始视频颜色失真，将原始的颜色空间域投影到更小的颜色空间域上，便可以从狭窄的颜色饱和度上区分视频攻击与真实人脸视频的差别。因此，除了使用多帧RGB图像生成的动态图之外，本申请还使用包含色调、饱和度和亮度的多帧HSV颜色空间图像生成的动态图。

增加HSV颜色空间的图像生成的动态图，则有利于提高整体性能。多帧HSV图像生成的动态图如图3所示，其中从左到右依次是真实人脸的动态图、打印的照片的动态图、剪切照片的动态图和重放视频的动态图，这同样可以得到跟图3中RGB图像一样的结论，甚至在视频攻击效果上更明显，因为视频攻击的动态图中，更容易识别到人脸面部的异常抖动。

关于局部特征，参见附图4所示的人脸局部区域的动态图；在一种实施方式中，采用的人脸局部信息是从人脸上截取三个组件，即一双眼睛、鼻子和嘴巴；将对应的人脸区域生成相应的动态图，局部区域的动态图是由前后两帧相邻的RGB图像生成，其动态图生成过程与整张人脸的生成过程一致。

具体地，人脸的局部的区域的获取包括以下的步骤：

人脸局部区域的获取是通过MTCNN检测到每一帧人脸及其对应的五个关键点坐标来裁剪到局部区域，即所有人脸都通过裁剪和仿射变换进行对齐，最后将裁剪、对齐后的人脸缩放到256×256像素。

对齐的五个关键点坐标可表示为(xle,yle)，(xre,yre)，(xn,yn)，(xlm,ylm)，(xre,yre)；参见附图5：

对于眼睛区域，其宽度和高度分别为

和

其眼睛区域左上角的坐标如下：

对于鼻区，其宽度和高度分别为

和

其左上角的坐标如下：

对于嘴部区域，其宽度和高度都是(x_rm-x_lm)，其左上角的坐标如下：

在一种实施方式中，根据每一个动态图的真实人脸概率来计算所述视频的真实人脸概率时，采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；N为视频中连续的图像帧的数量；假设一个视频中有N个图像帧；如果将相邻的T个图像帧合成一个动态图，则动态图的数量为N-T+1。

p_v表示所述视频中的人脸为真实人脸的概率；

本实施方式中，有别于RGB颜色空间，使用HSV颜色空间域的信息来区分视频攻击和真实人脸。因为攻击的媒体(如LCD显示屏)会使得原始视频颜色失真，将原始的颜色空间域投影到更小的颜色空间域上，便可以从狭窄的颜色饱和度上区分视频攻击与真实人脸视频的差别。

因此，除了使用多帧RGB图像生成的动态图之外，本申请还使用包含色调、饱和度和亮度的多帧HSV颜色空间图像生成的动态图；如果增加HSV颜色空间的图像生成的动态图，则有利于提高整体性能。

多帧HSV图像生成的动态图如图4所示；其中，从左到右依次为真实人脸、打印照片、剪切照片和重放视频；这同样可以得到跟图2中RGB图像一样的结论，甚至在视频攻击效果上更明显，因为视频攻击中人脸面部的异常抖动，所以采用本申请的方法，更容易分辨出视频攻击这一类型，提高了活体人脸检测识别的抗攻击性能。

第二方面，本申请还提出了一种人脸活体检测的装置，包括：

其中，图像帧为人脸全局图像或者人脸局部区域图像；

在一种实施方式中，概率确定模块还用于：

将所述动态图输入到CNN-LSTM网络中，得到全局特征；

在一种实施方式中，概率确定模块还用于，采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

第三方面，本申请还提出了一种电子设备，包括至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

在一种实施方式中，处理器还用于：

将所述动态图输入到CNN-LSTM网络中，得到全局特征；

在一种实施方式中，处理器还用于：

采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

在一种实施方式中，处理器还用于：

一个视频中有N个图像帧；

第四方面，本申请还提出了一种计算机可读存储介质；所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行以下的步骤：

根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

在一种实施方式中，对于任意的一个动态图，分别获取所述动态图的全局特征和局部特征，包括：

将所述动态图输入到CNN-LSTM网络中，得到全局特征；

在一种实施方式中，根据每一个动态图的真实人脸概率来计算所述视频的真实人脸概率，包括：

采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

表示所述视频中的人脸为真实人脸的概率；

表示所述视频中的第一个动态图中的人脸为真实人脸的概率；

表示所述视频中的第二个动态图中的人脸为真实人脸的概率；

为所述视频中的第N-T+1个动态图中的人脸为真实人脸的概率。

一个视频中有N个图像帧；

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种人脸活体检测的方法，其特征在于，包括：

根据视频中的多个图像帧确定出多个动态图；

其中，图像帧为人脸全局图像或者人脸局部区域图像；

2.如权利要求1所述的人脸活体检测的方法，其特征在于，

将所述动态图输入到CNN-LSTM网络中，得到全局特征；

3.如权利要求1所述的人脸活体检测的方法，其特征在于，

根据每一个动态图的真实人脸概率来计算所述视频的真实人脸概率，包括：

采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

4.如权利要求1所述的人脸活体检测的方法，其特征在于，根据所述多个图像帧确定出多个动态图，包括：

一个视频中有N个图像帧；

5.如权利要求2所述的人脸活体检测的方法，其特征在于，人脸局部区域图像为RGB图像；人脸全局区域图像为HSV图像。

6.一种人脸活体检测的装置，其特征在于，包括：

其中，图像帧为人脸全局图像或者人脸局部区域图像；

7.如权利要求6所述的人脸活体检测的装置，其特征在于，概率确定模块还用于：

将所述动态图输入到CNN-LSTM网络中，得到全局特征；

8.如权利要求6所述的人脸活体检测的装置，其特征在于，

概率确定模块还用于，采用以下的公式来计算概率值：

其中，T表示连续相邻的T个图像帧合成一个动态图；

N为视频中连续的图像帧的数量；

p_v表示所述视频中的人脸为真实人脸的概率；

9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。