CN106599765A

CN106599765A - 基于对象连续发音的视-音频判断活体的方法及系统

Info

Publication number: CN106599765A
Application number: CN201510685214.1A
Authority: CN
Inventors: 李�诚; 彭义刚; 吴立威; 张伟; 旷章辉
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2015-10-20
Filing date: 2015-10-20
Publication date: 2017-04-26
Anticipated expiration: 2035-10-20
Also published as: CN106599765B

Abstract

本申请提供了一种基于对象连续发音的视-音频判断活体的方法，该方法包括：从对象连续发音的视-音频中提取对象视频特征和对象音频特征；确定所述对象视频特征和所述对象音频特征的相关性；以及将所述相关性与预定阈值相比较以判断所述对象是否是活体。本申请提供的判断活体的方法能够在无需得知判断对象的发音视-音频的语义的情况下，精准并可靠地判断对象是否是活体。

Description

基于对象连续发音的视-音频判断活体的方法及系统

技术领域

本申请涉及模式识别的技术领域，具体涉及基于对象连续发音的视-音频判断活体的方法及系统。

背景技术

近年来，虽然人脸识别技术在不断发展，但是在例如人脸识别移动支付、视频见证开户等的很多应用场合中，有必要判断当前人脸图像是来自于真人活体的人脸图像，还是照片或是录制的视频中的人脸图像。

现有技术中的人脸活体检测方法通过检测图像中的人脸的特有特征、深度层次，或通过检测人脸是否做出了指定动作来判定其是否是真人活体。例如，为了应对各种人脸欺骗方式，目前很多活体检测方法采用令待检测用户做出指定的动作(例如转头、眨眼、微笑等)，并通过检测这些动作的合理性来判断该用户是否是活体。

然而，人脸及其运动是每一个人特有的生物特征，在短期内不易发生较大改变，且不像指纹般具有隐秘性，因此人脸及其运动容易在无意识的情况下被他人大量采集。因此，基于以上考虑，在通过检测人脸运动以检测人的活体时，如果只检测一些简单、常用的动作，则容易出现安全问题。

发明内容

针对上述的现有技术中的至少一个或多个缺点和不足，本申请旨在提供一种高效并可靠判断对象是否是活体的方法及系统。

根据本申请的一方面，提供了一种方法，该方法包括：

从对象连续发音的视-音频中提取对象视频特征和对象音频特征；

确定所述对象视频特征和所述对象音频特征的相关性；以及

将所述相关性与预定阈值相比较以判断所述对象是否是活体。

根据本申请的一个实施方式，所述对象视频特征包括嘴部特征。

根据本申请的一个实施方式，确定所述对象视频特征和所述对象音频特征的相关性包括：

采集多个作为正样本的活体连续发音的视-音频；

提取每个所述正样本的视频特征及对应的音频特征；

分析所提取的每个所述正样本的视频特征及对应的音频特征以得到相关性参数；以及

根据所述相关性参数计算从所述对象连续发音的视-音频中提取对象视频特征和对象音频特征的所述相关性。

根据本申请的一个实施方式，确定预定阈值包括：

采集多个作为负样本的非活体连续发音的视-音频；

提取每个所述负样本的视频特征及对应的音频特征；

根据所述相关性参数计算所提取的每个所述负样本的视频特征及对应的音频特征的相关性以得到多个负样本相关性；

根据所述相关性参数确定所提取的每个所述正样本的视频特征及对应的音频特征的相关性以得到多个正样本相关性；以及

根据所述多个正样本相关性和所述多个负样本相关性确定所述预定阈值。

根据本申请的一个实施方式，从所述对象连续发音的视-音频中提取对象音频特征包括：

分析所述视-音频的音频分量以确定多个发音时间点；以及

确定所述多个发音时间点中的每个时间点处的音频信号幅值以生成所述对象音频特征。

根据本申请的一个实施方式，从所述对象连续发音的视-音频中提取对象视频特征包括：

确定所述多个发音时间点中的每个时间点所对应的所述视-音频的视频分量的图像帧；以及

提取所确定的每个图像帧中的所述对象的嘴部特征以形成所述对象视频特征。

根据本申请的一个实施方式，所述嘴部特征可根据所述对象的上下嘴唇的距离确定。

根据本申请的一个实施方式，所述分析的步骤包括：

将所述正样本的视频特征及对应的音频特征分别输入到第一深度神经网络和第二深度神经网络以分别获得第一输出和第二输出，其中所述第一输出是从所述视频特征中提取出的特征，并且所述第二输出是从所述音频特征中提取出的特征；以及

对所述第一输出和第二输出进行深度典型相关分析以获得所述相关性参数。

根据本申请的一个实施方式，对所述第一输出和第二输出进行深度典型相关分析以获得所述相关性参数还包括：对所述第一输出和第二输出进行深度典型相关分析获得所述正样本的视频特征的第三输出和所述对应的音频特征的第四输出,其中所述第三输出和所述第四输出分别用于调整所述第一深度神经网络和所述第二深度神经网络的网络参数。

根据本申请的另一方法，提供了一种系统，该系统包括：

特征提取装置，配置为从对象连续发音的视-音频中提取对象视频特征和对象音频特征；

相关性确定装置，配置为确定对象视频特征和对象音频特征的相关性；以及

判断装置，配置为将所述相关性与预定阈值相比较以判断所述对象是否是活体。

根据本申请的一个实施方式，所述相关性确定装置包括：

正样本集采集单元，采集多个作为正样本的活体连续发音的视-音频；

正样本特征提取单元，提取每个所述正样本的视频特征及对应的音频特征；

相关性分析单元，分析所提取的每个所述正样本的视频特征及对应的音频特征得到相关性参数；以及

相关性计算单元，根据所述相关性参数计算所述对象视频特征和所述对象音频特征的相关性。

根据本申请的一个实施方式，所述相关性分析单元将所述正样本的视频特征及对应的音频特征分别输入到第一深度神经网络和第二深度神经网络以分别获得第一输出和第二输出；以及对所述第一输出和第二输出进行深度典型相关分析以获得所述相关性参数，其中所述第一输出是从所述视频特征中提取出的特征，并且所述第二输出是从所述音频特征中提取出的特征。

根据本申请的一个实施方式，还包括阈值生成装置，所述阈值生成装置包括：

负样本采集单元，采集多个作为负样本的非活体连续发音的视-音频；

负样本特征提取单元，提取每个所述负样本的视频特征及对应的音频特征；

负样本相关性计算单元，根据所述相关性参数确定所提取的每个所述负样本的视频特征及对应的音频特征的相关性以得到多个负样本相关性；

正样本相关性计算单元，根据所述相关性参数计算所提取的每个所述正样本的视频特征及对应的音频特征的相关性以得到多个正样本相关性；以及

阈值生成单元，根据所述多个正样本相关性和所述多个负样本相关性确定所述预定阈值。

根据本申请的一个实施方式，所述特征提取装置包括音频特征提取单元，配置为：

分析所述对象的视-音频的音频分量以确定多个发音时间点；以及

根据本申请的一个实施方式，所述特征提取装置还包括视频征提取单元，配置为：

根据本申请的一个实施方式，所述嘴部特征根据所述对象的上下嘴唇的距离确定。

附图说明

图1示出了根据本申请一个实施方式的基于对象连续发音的视-音频判断活体方法流程图；

图2示出了根据本申请一个实施方式的形状特征点被用于标记脸部区域的示意图；

图3示出了根据本申请的一个实施方式的提取对象视频特征和音频特征的方法流程图；

图4示出了根据本申请的一个实施方式的相关性的确定的方法流程图；

图5示出了根据本申请的一个实施方式的确定预定阈值的方法流程图；

图6示出了根据本申请一个实施方式的基于对象连续发音的视-音频判断活体的系统；

图7示出了根据本申请一个实施方式的相关性确定装置的框图；以及

图8是适于用来实现本申请实施例的计算机系统的结构示意图。

具体实施方式

下面将参照附图描述本申请的各实施方式。以下描述包括各具体细节以帮助理解，但是这些具体细节应认为仅是示例性的。因此，本领域普通技术人员应该理解，在不背离本申请的精神和范围的情况下，可以对本文中描述的各实施方式做出各种改变和修改。另外，为了清楚和简明起见，可能省略了公知功能和结构的描述。

图1所示为根据本申请一个实施方式的基于对象连续发音的视-音频判断活体方法1000的流程图。如图1所示，在步骤S11中，从对象连续发音的视-音频中提取对象视频特征和对象音频特征；在步骤S12中，确定所述对象视频特征和对象音频特征的相关性；以及在步骤S13中，将相关性与预定阈值相比较以判断所述对象是否是活体。

当视-音频的采集来自于真人，即对象是活体时，该对象的口型与其发出的声音对应，并且在时间上是同步的，因此提取的对象视频特征和对象音频特征的相关性相对较高。相反，当视-音频的采集部分地或全部地来自于非真人，即对象例如为预先录制的音频和人脸照片的非活体时，提取的对象视频特征和对象音频特征的相关性相对较低。下面将结合实施方式具体描述上述步骤S11-S13。

步骤S11

可以通过各种采集设备来获取对象连续发音的视-音频，例如使用带有摄像头和麦克风的台式主机或者移动智能终端等。以对象视频特征是对象的嘴部特征的一种实施方式为例，对象视频特征的提取通过下述方法来实现。

首先，对视频分量中的每一帧图像进行人脸检测，以得到对象的脸部区域。对于检测到的脸部区域，可以使用特征点定位来标记出人脸图像形状特征点，从而将定位得到的形状特征点对齐到一个统一的标准形状特征点上，进而从归一化后的脸部区域中获得嘴部特征。例如，在图2中，21个形状特征点被用于标记脸部特征，其中，左右眼各6个，鼻子部位4个，嘴部5个。上唇的特征点位置为(x_t,y_t)，即图3中点14，下唇的特征点位置为(x_b,y_b)，即图2中点16。

接下来，通过上唇的特征点(x_t,y_t)和下唇的特征点(x_b,y_b)来计算每帧的对象嘴部特征。在这里，上下唇之间的距离被用来表征对象嘴部特征。需要理解的是，其他适合的特征表达也可以用来表征对象嘴部特征。

对视频分量重的每一帧图像重复上述步骤，得到的每一帧的对象嘴部特征被连接，从而得到整段视频分量的对象嘴部特征向量。

为了简化计算，也可以对视频中的图像帧进行间隔取样来提取嘴部特征。

在提取对象视频特征之后，以相同的采样间隔来对视频分量进行采样，以提取对象音频特征。可以首先对音频分量进行滤波处理以降低噪声的影响。滤波后的音频分量的每个采样点的幅值大小可以被用作对象音频特征。

在本申请的另一种实施方式中，可以先分析音频分量，仅提取发音点处的对象音频特征，并根据该发音点来提取对应的对象视频特征。

图3示出了根据本申请的一个实施方式的提取对象视频特征和音频特征的方法流程图。

在步骤S111中，分析视-音频的音频分量以确定多个发音时间点；在步骤S112中，确定多个发音时间点中的每个时间点处的音频信号幅值以生成对象音频特征；在步骤S113中，确定多个发音时间点中的每个时间点所对应的视-音频的视频分量的图像帧；以及在步骤S114中，提取所确定的每个图像帧中的对象的嘴部特征以形成对象视频特征。

本实施例中，通过不同方式来对视-音频进行采样，不但减少了不必要的计算和数据处理，还能够提取高度代表发音特征的采样点的视频特征和音频特征，以便于在随后的分析中更精准地计算相关性及进一步判定对象是否是活体。

步骤S12

图4示出了根据本申请的一个实施方式的相关性的确定的方法流程图。

在步骤S121，采集多个作为正样本的活体连续发音的视-音频。可以采集大量的真人在不同场景下按要求正常朗读指定文字的人脸正面头像的视-音频。这些采集到的视-音频中的视频和音频是匹配的，有较强的相关性，可以形成正样本集。

在步骤S122，提取每个正样本的视频特征及对应的音频特征。可以通过上述的步骤S11中的提取对象视频特征和音频特征相同的方法来提取每个正样本的视频特征d＝[d₁,…,d_n]∈Rⁿ及对应的音频特征，记为v＝[v₁,…,v_n]∈Rⁿ。其中，n为视频的总帧数。

在步骤S123，通过采集到的正样本的视频特征及对应的音频特征分析相关性系数。

在本申请的一种实施方式中，首先通过第一深度神经网络DNN1对每个样本的视频特征d进行特征变换，变换后的视频特征为并且通过第二深度神经网络DNN2对每个样本的音频特征v进行特征变换，变换后的音频特记为

接下来，对变换后的视频特征和音频特征进行深度典型相关分析。典型相关分析是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。通过典型相关分析得到作为相关性参数的投影向量W_P和W_Q，以及用于优化深度神经网络DNN1和DNN2的具体参数。

其中，深度典型相关分析的具体步骤为包括优化如下的典型相关分析问题：

其中，令

l为单位矩阵；α_P和α_Q为一个小正数，以保证Σ_PP和Σ_PQ的正定性；P1表示P矩阵与全1矩阵相乘。

在步骤S124中，通过使用相关性系数来计算对象视频特征和对象音频特征的所述相关性。

在本申请的一种实施方式中，可通过如下方法使用得到的相关性参数W_P和W_Q计算相关性：

通过使用优化后的第一深度神经网络DNN1对步骤S11中提取的对象视频特征进行特征变换，并将变换后的特征投影到相关性参数之一的向量W_P上，经过变换和投影后的视频特征记为

通过使用优化后的第二深度神经网络DNN2对步骤S11中提取的对象音频特征进行特征变换，并将变换后的特征投影到相关性参数的向量W_Q上，经过变换和投影后的音频特征记为

对象视频特征和音频特征的相关性可以通过下述公式来计算：

其中，

通过这种方式计算出的相关性的取值范围为-1～1，其中，当其取值越接近1时，对象视频特征和音频特征的相关性越高。经过特征变换和投影后的特征在保留了有效信息量的同时降低了维度，从而减少了计算量。

步骤S13

在步骤S13中，将相关性与预定阈值相比较以判断所述对象是否是活体。其中，用于与步骤S124中计算出的对象视频特征和音频特征的相关性相比较的预定阈值可以通过下述方法来确定。

图5示出了根据本申请的一个实施方式的确定预定阈值的方法流程图。

在步骤S131中，采集多个作为负样本的非活体连续发音的视-音频；在这里，负样本可以指的是一段不按要求朗读指定文字的人脸正面头像的音视频，或者指的是视频中包含人脸正面头像，但音频是另一人的画外音。这些视-音频中的视频和音频是不匹配的，相关性弱。

在步骤S132中，提取每个负样本的视频特征及对应的音频特征；可以通过上述的步骤S11中的提取对象视频特征和音频特征相同的方法来提取每个负样本的视频特征及对应的音频特征。

在步骤S133中，根据步骤S123中确定的相关性参数计算所提取的每个负样本的视频特征及对应的音频特征的相关性以得到多个负样本相关性。

在步骤S134中，根据步骤S123中确定的相关性参数确定步骤S122中所提取的每个正样本的视频特征及对应的音频特征的相关性以得到多个正样本相关性。

在步骤S135中，根据多个正样本相关性和多个负样本相关性确定预定阈值。例如，可以通过分类器来学习正样本集的正样本相关性和负样本集的负样本相关性，从而得到划分正负样本的分类阈值以作为预定阈值。当步骤S124中计算出的对象视频特征和对象音频特征的相关性大于该预定阈值时，判断对象为活体。

在本申请的实施方式中，预定阈值是通过对正样本和负样本的相关性学习得到的，并不是根据经验的认为设定，从而更符合实践。

图6示出了根据本申请一个实施方式的基于对象连续发音的视-音频判断活体的系统2000。如图6所示，系统2000可包括特征提取装置201、相关性确定装置202和判断装置203。特征提取装置201配置为从对象连续发音的视-音频中提取对象视频特征和对象音频特征。相关性确定装置202与特征提取装置201电通信并被配置为确定对象视频特征和对象音频特征的相关性。判断装置203电耦合于上述相关性确定装置202并被配置为将所述相关性与预定阈值相比较以判断所述对象是否是活体。关于特征提取装置201、相关性确定装置202和判断装置203的具体操作分别与上述步骤S11～13相同，因此省略其详细描述。

图7示意性地示出了根据本申请一个实施方式的相关性确定装置202的框图。如图7所示，相关性确定装置包括：正样本集采集单元2021，采集多个作为正样本的活体连续发音的视-音频；正样本特征提取单元2022，提取每个正样本的视频特征及对应的音频特征；相关性分析单元2023，分析所提取的每个正样本的视频特征及对应的音频特征得到相关性参数；以及相关性计算单元2024，根据相关性参数计算对象视频特征和对象音频特征的相关性。

下面参考图8，其示出了适于用来实现本申请实施例的计算机系统800的结构示意图。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括摄像头、麦克风、键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，上文参考流程图4-5描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元和装置可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的装置和单元也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的判断活体的方法。

与现有技术相比，上述公开的各个实施方式能够在不对所判断的对象连续发音的视-音频的视频分量或音频分量进行语义分析的情况下判断对象是否是活体。此外，在本申请的实施方式中所采用的正样本集和负样本集能够提高相关性系数和预定阈值的判定准确度，以进一步提高活体判断的准确度和可靠性。

以上参照附图对本申请的示例性的实施方案进行了描述。本领域技术人员应该理解，上述实施方案仅仅是为了说明的目的而所举的示例，而不是用来进行限制。凡在本申请的教导和权利要求保护范围下所作的任何修改、等同替换等，均应包含在本申请要求保护的范围内。

Claims

1.一种基于对象连续发音的视-音频判断活体的方法，包括：

确定所述对象视频特征和所述对象音频特征的相关性；以及

2.根据权利要求1所述的方法，其中，所述对象视频特征包括嘴部特征。

3.根据权利要求1所述的方法，其中，确定所述对象视频特征和所述对象音频特征的相关性包括：

采集多个作为正样本的活体连续发音的视-音频；

提取每个所述正样本的视频特征及对应的音频特征；

4.根据权利要求3所述的方法，还包括：

采集多个作为负样本的非活体连续发音的视-音频；

提取每个所述负样本的视频特征及对应的音频特征；

5.根据权利要求1-4中任意一项所述的方法，其中，从所述对象连续发音的视-音频中提取对象音频特征包括：

分析所述视-音频的音频分量以确定多个发音时间点；以及

6.根据权利要求5所述的方法，其中，从所述对象连续发音的视-音频中提取对象视频特征包括：

7.根据权利要求5所述的方法，其中，所述嘴部特征根据所述对象的上下嘴唇的距离确定。

8.根据权利要求3所述的方法，其中，分析所提取的每个所述正样本的视频特征及对应的音频特征的步骤包括：

将所述正样本的视频特征及对应的音频特征分别输入到第一深度神经网络和第二深度神经网络以分别获得第一输出和第二输出，其中所述第一输出是从所述视频特征中提取出的特征，所述第二输出是从所述音频特征中提取出的特征；以及

9.根据权利要求8所述的方法，其中，对所述第一输出和第二输出进行深度典型相关分析以获得所述相关性参数还包括：对所述第一输出和第二输出进行深度典型相关分析获得所述正样本的视频特征的第三输出和所述对应的音频特征的第四输出,其中所述第三输出和所述第四输出分别用于调整所述第一深度神经网络和所述第二深度神经网络的网络参数。

10.一种基于对象连续发音的视-音频判断活体的系统，包括：

11.根据权利要求10所述的系统，其中，所述对象视频特征包括嘴部特征。

12.根据权利要求10所述的系统，所述相关性确定装置包括：

13.根据权利要求12所述的系统，其中，所述相关性分析单元将所述正样本的视频特征及对应的音频特征分别输入到第一深度神经网络和第二深度神经网络以分别获得第一输出和第二输出；以及对所述第一输出和第二输出进行深度典型相关分析以获得所述相关性参数，其中所述第一输出是从所述视频特征中提取出的特征，所述第二输出是从所述音频特征中提取出的特征。

14.根据权利要求13所述的系统，其中，对所述第一输出和第二输出进行深度典型相关分析以获得所述相关性参数还包括：对所述第一输出和第二输出进行深度典型相关分析获得所述正样本的视频特征的第三输出和所述对应的音频特征的第四输出,其中所述第三输出和所述第四输出分别用于调整所述第一深度神经网络和所述第二深度神经网络的网络参数。

15.根据权利要求10所述的系统，还包括阈值生成装置，所述阈值生成装置包括：

16.根据权利要求10-15中任意一项所述的系统，其中，所述特征提取装置包括音频特征提取单元，配置为：

17.根据权利要求16所述的系统，其中，所述特征提取装置还包括视频征提取单元，配置为：

18.根据权利要求10所述的系统，其中，所述嘴部特征根据所述对象的上下嘴唇的距离确定。