CN111881726A

CN111881726A - 一种活体检测方法、装置及存储介质

Info

Publication number: CN111881726A
Application number: CN202010542685.8A
Authority: CN
Inventors: 孔志飞; 赵幸福; 曾定衡; 赵立军
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-11-03
Anticipated expiration: 2040-06-15
Also published as: CN111881726B

Abstract

本发明提供一种活体检测方法、装置及存储介质，包括：获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据；基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；对所述目标图像帧数据进行唇语识别，获得第一识别结果，对所述音频特征数据进行音频识别，获得第二识别结果；基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。本发明实施例可以提高活体检测的精度。

Description

一种活体检测方法、装置及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种活体检测方法、装置及存储介质。

背景技术

活体检测是在一些身份验证场景确定对象真实生理特征的方法，在人脸识别应用中，活体检测能通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位和人脸追踪等技术，验证用户是否为真实活体本人操作。活体检测可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而帮助用户甄别欺诈行为，保障用户的利益。

目前，可使用唇部信息来进行活体检测，比如，采用语音模型进行音频特征的识别，以及采用唇语模型进行视频特征的识别，并分别将音频特征的识别结果和视频特征的识别结果与给定信息进行比对，根据比对结果甄别欺诈行为。

然而，在进行唇语识别时，由于视频文件中可能会存在大量干扰信息，这些干扰信息会在一定程度上干扰到唇语识别的精度，因此，现有技术中活体检测存在检测精度比较低的问题。

此外，现有技术通常只采用其中一种方式进行活体检测，而受上述原因或者其他环境因素的影响，导致检测失败或者失误，而验证的真实性会进一步影响其他严重后果，比如无法安全使用设备、无法进行涉密操作等。

发明内容

本发明实施例提供一种活体检测方法、装置及存储介质，以解决现有技术中活体检测存在检测精度比较低的问题。

为了解决上述技术问题，本发明的具体实现方案如下：

第一方面，本发明实施例提供了一种活体检测方法。该方法包括：

获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据；

基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；其中，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；

基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；其中，所述目标图像帧数据包括所述图像帧数据中存在唇语的图像帧；

对所述目标图像帧数据进行唇语识别，获得第一识别结果，以及对所述音频特征数据进行音频识别，获得第二识别结果；

基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

第二方面，本发明实施例还提供一种活体检测装置。该活体检测装置包括：

第一获取模块，用于获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据；

确定模块，用于基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；其中，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；

截取模块，用于基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；其中，所述目标图像帧数据包括所述图像帧数据中存在唇语的图像帧；

第一识别模块，用于对所述目标图像帧数据进行唇语识别，获得第一识别结果，以及对所述音频特征数据进行音频识别，获得第二识别结果；

活体检测模块，用于基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

第三方面，本发明实施例还提供一种活体检测装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的活体检测方法的步骤。

第四方面，本发明实施例还提供一种活体检测方法，包括：

根据预设策略获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的目标图像帧数据、所述待检测对象的音频特征数据以及所述待检测对象的脸部区域的第一光流信息三者中的至少两种，得到用于进行活体检测的待处理数据；

对所述待处理数据分别进行处理获取与所述待处理数据对应的识别结果其中，对所述目标图像帧数据进行唇语识别处理获得的识别结果为第一识别结果，对所述音频特征数据进行音频识别处理获得的识别结果为第二识别结果，利用光流识别模型对所述第一光流信息进行识别处理获得的识别结果为第三识别结果；

基于所述获取的识别结果对所述待检测对象进行活体检测；

其中，所述目标图像帧数据包括所述待检测对象的唇部区域的图像帧数据中存在唇语的图像帧，所述目标图像帧数据基于目标帧序位置对所述图像帧数据进行截取获得，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置，所述目标帧序位置基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定。

第五方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的活体检测方法的步骤。

本发明实施例中，首先，获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据；然后，基于图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；其中，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；其中，所述目标图像帧数据包括所述图像帧数据中存在唇语的图像帧；最后，对所述目标图像帧数据进行唇语识别，获得第一识别结果，以及对所述音频特征数据进行音频识别，获得第二识别结果；基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

如此，通过基于图像帧数据和音频特征数据，采用预设特征融合模型确定用于表征所述图像帧数据中存在唇语的图像帧的起始帧序位置和/或结束帧序位置的目标帧序位置，并基于该目标帧序位置从图像帧数据中截取出存在唇语的目标图像帧数据，从而可以有效提高唇语识别的精度，进而提高活体检测的精度。

此外，本发明实施例通过至少两种活体识别结果进行综合检测的方式，提高检测的准确率和真实性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的活体检测方法的流程图之一；

图2是transformer模型的架构示意图；

图3是采用transformer模型中解码器decoder确定目标帧序位置的流程图；

图4是本发明实施例提供的活体检测方法的流程图之二；

图5是本发明实施例提供的活体检测方法的流程图之三；

图6是本发明实施例提供的活体检测方法的流程图之四；

图7是本发明实施例提供的活体检测装置的结构图之一；

图8是本发明实施例提供的活体检测装置的结构图之二；

图9是本发明实施例提供的活体检测装置的结构图之三；

图10是本发明实施例提供的活体检测装置的结构图之四；

图11是本发明实施例提供的活体检测装置的结构图之五；

图12是本发明实施例提供的活体检测装置的结构图之六。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种活体检测方法。参见图1，图1是本发明实施例提供的活体检测方法的流程图之一，如图1所示，包括以下步骤：

步骤101，获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据。

本实施例中，所述待检测对象可以理解为进行活体认证的对象，所述待检测对象的第一视频文件可以为所述待检测对象在进行活体认证时录制的视频文件，所述第一视频文件即包括音频，又包括视频帧数据。

该步骤中，可以首先获取待检测对象的第一视频文件，然后对所述第一视频文件进行预处理，获得所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据。

具体的，所述步骤101包括：

对待检测对象的第一视频文件进行音视频分离，获得所述待检测对象的视频帧数据和音频文件；

提取所述视频帧数据中包括所述待检测对象唇部区域的图像，获得所述图像帧数据，以及对所述音频文件进行特征提取，获得所述音频特征数据。

上述音频文件可以包括所述待检测对象进行活体认证时录制的语音信息，其可以是任意格式的文件，比如，可以为wav格式的文件。

可以对分离出的音频文件进行特征提取，获取音频特征数据。其中，所述音频特征数据可以为音频的滤波器组特性即(Filter bank features，Fbank)特征数据，也可以音频的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征数据。

由于MFCC特征数据相对于Fbank特征数据而言，其音频特征较少，且MFCC特征提取时计算量更大，因此，以下实施例中，所述音频特征数据将以Fbank特征数据为例进行说明。

上述视频帧数据可以包括所述待检测对象进行活体认证时拍摄的包括待测试对象人脸图像的视频帧。可以对上述视频帧数据中视频帧进行人脸识别等预处理，以从视频帧中分割提取出所述待检测对象的唇部区域的图像帧，获得所述待检测对象的唇部区域的图像帧数据。

步骤102，基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；其中，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置。

为了避免由于图像帧数据中唇语不明显而截取掉所述图像帧数据中存在唇语的图像帧的情况发生，提高唇语识别率，可以借助于音频特征数据，来确定目标帧序位置。也就是说，在确定目标帧序位置时，可以将存在语音的但唇语不明显的图像帧确定为存在唇语的图像帧。

可以基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型对所述图像帧数据和所述音频特征数据进行融合，并采用预设特征融合模型中的注意力机制确定目标帧序位置。具体的，可以分别基于所述图像帧数据和音频特征数据，采用预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置，并融合第一帧序位置和第二帧序位置，确定目标帧序位置。

在本实施例中，所述基于所述唇语特征数据和语音特征数据，采用所述预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置，具体可以包括如下步骤：

首先，采用所述预设特征融合模型中的唇语特征编码器encoder对唇语特征数据进行编码以获得编码后的唇语特征数据，并采用所述预设特征融合模型中的语音特征编码器encoder对语音特征数据进行编码以获得编码后的语音特征数据；

其次，提取所述图像帧数据的时间特征和语音特征数据中的时间信息，并采用所述预设特征融合模型中的注意力机制监测编码后的唇语特征数据和编码后的语音特征数据，以将编码后的唇语特征数据和编码后的语音特征数据进行时间对齐；

最后，监测编码后的唇语特征数据以确定所述第一帧序位置，并监测编码后的语音特征数据以确定所述第二帧序位置。

容易理解的是，本实施例可以基于目标帧序位置所指示的图像帧的数量最大化原则，来融合第一帧序位置和第二帧序位置，以确定所述目标帧序位置。其中，所述基于目标帧序位置所指示的图像帧的数量最大化原则，可以指的是保留的图像帧数量优先取越多越好，以确保关键的图像帧不会遗漏，保证分析结果的准确度。

需要特别说明的是，本实施例中所述预设特征融合模型可以为变换器transformer模型，也可以为顺序到顺序(sequence to sequence，seq2seq)模型，或者包括有注意力机制的其他模型。以下实施例中，所述预设特征融合模型将以transformer模型为例进行说明。

所述第一帧序位置包括所述图像帧数据中存在唇语的图像帧的第一起始帧序位置和/或第一结束帧序位置，所述第二帧序位置为所述音频特征数据对应的音频文件中存在语音的音频帧的第一起始帧序位置和/或第一结束帧序位置。

所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置。也就是说，所述目标帧序位置可以仅包括所述图像帧数据中存在唇语的图像帧的一个端点，该端点可以为起始端点即目标起始帧序位置，也可以为结束端点即目标结束帧序位置，所述目标帧序位置也可以包括图像帧数据中存在唇语的图像帧的两个端点，分别为起始端点和结束端点。

在采用transformer模型对所述图像帧数据和所述音频特征数据进行融合之前，可以采用两层三维卷积网络提取图像帧数据的时间特征，并使用ResNet进一步提取特征，获得唇语特征数据，并可以基于Fbank特征数据，采用ResNet进一步提取特征，获得语音特征数据。当然，所述图像帧数据的时间特征也可以在所述图像帧数据和所述音频特征数据融合过程中提取，这里不做具体限定。

然后，采用transformer模型对所述唇语特征数据和语音特征数据进行融合。具体的，参见图2，图2是transformer模型的架构示意图，如图2所示，transformer模型可以包括多个编码器encoder 201和解码器decode 202，每个编码器encoder 201的结构类似，因此图2中仅示出了一个编码器encoder 201和一个解码器decode 202。其中，编码器encoder201中包括两个子层，分别为多头注意力机制层和前馈网络层，里面设置有求和标准化模块对每个子层的数据进行求和，以及标准化处理。

该编码器encoder 201的输入可以是所述唇语特征数据，相应的，另一个编码器encoder 201的输入即是语音特征数据，该编码器encoder 201的输入可以是所述语音特征数据，相应的，另一个编码器encoder 201的输入即是唇语特征数据。

解码器decode 202可以包括三个子层，分别为蒙面多头注意力机制层、多头注意力机制层和前馈网络层，里面设置有求和标准化模块对每个子层的数据进行求和，以及标准化处理。

首先，可以采用transformer模型中唇语特征编码器encoder 201对所述唇语特征数据进行编码，获得编码后的唇语特征数据，并采用transformer模型中语音特征编码器encoder 201对所述语音特征数据进行编码，获得编码后的语音特征数据。

接着，参见图3，图3是采用transformer模型中解码器decoder确定目标帧序位置的流程图，如图3所示，可以基于图像帧数据的时间特征和语音特征数据中的时间信息，采用transformer模型中解码器decoder 202的第一子层蒙面多头注意力机制监测编码后的唇语特征数据和编码后的语音特征数据，以将编码后的唇语特征数据和编码后的语音特征数据进行时间对齐。此时，图像帧数据中图像帧的帧序与音频特征数据对应的音频文件中的音频帧的帧序对应，比如，图像帧的第1帧对应音频帧的第1帧，图像帧的第2帧对应音频帧的第2帧。时间对齐之后，采用transformer模型中解码器decoder 202的第二子层多头注意力机制分别监测编码后的唇语特征数据，以确定第一帧序位置，并同时监测编码后的语音特征数据，以确定第二帧序位置。

之后，本实施例可以采用transformer等预设特征融合模型中解码器decoder 202的求和标准化模块融合第一帧序位置和第二帧序位置，以确定目标帧序位置。具体的，可以采用目标帧序位置所指示的图像帧的数量最大化原则，来基于第一帧序位置和第二帧序位置，确定目标帧序位置。比如，第一帧序位置包括第一起始帧序位置和第一结束帧序位置，分别为第3帧和第80帧，第二帧序位置也包括第二起始帧序位置和第二结束帧序位置，分别为第5帧和第90帧；此时，由于第3帧至第90帧所指示的图像帧的数量最大，因此，确定目标帧序位置为第一起始帧序位置和第二起始帧序位置中帧序小的第3帧和第一结束帧序位置和第二结束帧序位置中帧序大的第90帧。这样，可以避免由于唇语不明显而截取掉图像帧数据中第80帧至第90帧的图像帧。

当然，在第一帧序位置仅包括第一起始帧序位置，而第二帧序位置仅包括第二结束帧序位置，或者第一帧序位置仅包括第一结束帧序位置，而第二帧序位置仅包括第二起始帧序位置的情况下，直接融合第一帧序位置和第二帧序位置，获得目标帧序位置中的两个端点。这样，也能通过目标帧序位置截取掉图像帧数据中一些干扰唇语识别的图像帧，提高活体检测的精度。

步骤103，基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；其中，所述目标图像帧数据包括所述图像帧数据中存在唇语的图像帧。

该步骤中，可以基于所述目标帧序位置从所述图像帧数据中截取有效图像帧，获得目标图像帧数据，该有效图像帧可以理解为存在唇语的图像帧，并丢弃干扰唇语识别的图像帧。

若所述目标帧序位置包括所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和目标结束帧序位置，则从所述图像帧数据中截取目标起始帧序位置至目标结束帧序位置的图像帧，作为目标图像帧数据。

若所述目标帧序位置仅包括所述图像帧数据中存在唇语的图像帧的目标起始帧序位置，则从所述图像帧数据中截取目标起始帧序位置至最后帧序位置的图像帧，作为目标图像帧数据。

若所述目标帧序位置仅包括所述图像帧数据中存在唇语的图像帧的目标结束帧序位置，则从所述图像帧数据中截取首个帧序位置至目标结束帧序位置的图像帧，作为目标图像帧数据。

举个例子来说，所述图像帧数据包括100帧图像，所述目标帧序位置指示所述图像帧数据中存在唇语的图像帧为第3帧至第90帧，此时，从所述图像帧数据中截取第3帧至第90帧的有效图像帧，获得目标图像帧数据。同时，也可以将图像帧数据中前面2帧图像和后面10帧图像作为干扰唇语识别的图像帧而丢弃。

步骤104，对所述目标图像帧数据进行唇语识别，获得第一识别结果，以及对所述音频特征数据进行音频识别，获得第二识别结果。

可以采用唇语识别模型对所述目标图像帧数据进行唇语识别，获得第一识别结果。其中，所述唇语识别模型可以是现有的或者新的可以识别唇语的模型，具体可以参照相关技术，这里不对其进行阐述。

以及可以采用音频识别模型对所述音频特征数据进行音频识别，获得第二识别结果。其中，所述音频识别模型可以是现有的或者新的可以识别音频的模型，具体可以参照相关技术，这里不对其进行阐述。

步骤105，基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

对所述待检测对象进行活体检测的认证结果可以有两种，第一种认证结果可以为活体认证成功，第二种认证结果可以为活体认证失败。

为了提高活体认证时的反欺诈效果，保证活体检测的精度，可以在第一识别结果和第二识别结果都正确的情况下，确定所述待检测对象活体认证成功，否则确定所述待检测对象活体认证失败。具体的，可以将所述第一识别结果与预设信息进行匹配，以及将所述第二识别结果与所述预设信息进行匹配；在所述第一识别结果与所述预设信息匹配成功，且所述第二识别结果与所述预设信息匹配成功的情况下，确定所述待检测对象活体认证成功；在所述第一识别结果与所述预设信息匹配失败，或者所述第二识别结果与所述预设信息匹配失败的情况下，确定所述待检测对象活体认证失败。

本实施例中，首先，获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据；然后，基于图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；其中，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；其中，所述目标图像帧数据包括所述图像帧数据中存在唇语的图像帧；最后，对所述目标图像帧数据进行唇语识别，获得第一识别结果，以及对所述音频特征数据进行音频识别，获得第二识别结果；基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

如此，通过基于图像帧数据和所述音频特征数据，采用预设特征融合模型确定用于表征所述图像帧数据中存在唇语的图像帧的起始帧序位置和/或结束帧序位置的目标帧序位置，并基于该目标帧序位置从图像帧数据中截取出存在唇语的目标图像帧数据，从而可以有效提高唇语识别的精度，进而提高活体检测的精度。

并且，本实施例可以甄别图像帧数据中不存在唇语的图像帧即干扰唇语识别的图像帧，使得该方法可以适用于复杂背景下的活体认证，从而可以提高活体检测的通过率。另外，通过对图像帧数据中截取的目标图像帧数据进行唇语识别，可以减少唇语识别的时间，从而可以减少活体检测的时间，提高活体检测的效率。

可选的，所述步骤105之前，所述方法还包括：

获取所述待检测对象的第一视频文件中的所述待检测对象的脸部区域的第一光流信息；

基于预先训练的光流识别模型对所述第一光流信息进行识别，获得第三识别结果；

所述步骤105具体包括：

基于所述第一识别结果、第二识别结果和第三识别结果，对所述待检测对象进行活体检测。

本实施例中，所述第一光流信息可以包括所述待检测对象的脸部区域的运动信息，其可以包括在观察成像平面上所述待检测对象的脸部区域中像素运动的瞬时速度。该瞬时速度可以通过所述待检测对象的脸部区域的图像帧数据中相邻序号的图像帧的像素，在时间域上的变化以及相邻序号的图像帧之间的相关性来计算。

具体的，获取待检测对象的第一视频文件中的所述待检测对象的脸部区域的图像帧数据，确定所述待检测对象的脸部区域中的像素分别在相邻序号的图像帧中的位置，基于这些位置之间的距离间隔，以及相邻序号的图像帧之间的时间间隔，从而可以计算出相邻序号的图像帧之间所述待检测对象的脸部区域中像素运动的瞬时速度，进而可以获得所述第一光流信息。

获得所述第一光流识别结果之后，可以将所述第一光流识别结果输入至预先训练的光流识别模型中，输出第三识别结果，所述第三识别结果可以包括两种情况，第一种情况可以表明所述待检测对象的第一视频文件不为预设视频，第二种情况可以表明所述待检测对象的第一视频文件为预设视频。其中，所述预设视频可以定义为欺诈视频，其包括使用3维人脸模型，面具，甚至使用人脸合成技术合成的平面照片等存在欺诈行为进行认证的视频。

具体的，首先，可以将所述第一光流信息输入至预先训练的光流识别模型中，所述预先训练的光流识别模型可以对所述第一光流信息进行特征提取，获得光流特征数据，比如，可以首先采用两层三维卷积网络提取第一光流信息的时间特征，然后使用残差网络(Residual Network，ResNet)进一步提取特征，获得光流特征数据。

然后，所述预先训练的光流识别模型可以采用二分类常用的全连接+分类网络(Softmax)的网络结构，对所述光流特征数据进行识别，在识别出所述光流特征数据满足预设条件的情况下，比如在识别出所述光流特征数据为0的情况下，则表明所述待检测对象的脸部区域未发生变动。在该种情况下，所述第一视频文件可能是使用了3维人脸模型，面具，甚至使用人脸合成技术合成的平面照片等存在欺诈行为进行认证的视频，即该第一视频文件为欺诈视频。否则，则表明所述待检测对象的脸部区域发生了变动，该第一视频文件不是使用了3维人脸模型，面具，甚至使用人脸合成技术合成的平面照片等存在欺诈行为进行认证的视频。

获得第三识别结果之后，所述第一识别结果和第二识别结果可以结合第三识别结果，对所述待检测对象进行活体检测。

本实施例中，由于待检测对象在进行活体认证时，所述待检测对象在说话过程中眼睛、脸部表情和肌肉都是会发生连续变动，因此，在待检测对象的第一视频文件中根据这些连续变动提取待检测对象的脸部区域的光流信息，以提取人脸整体的运动特征。并通过增加光流信息的识别，确切的说是增加待检测对象的脸部区域的光流信息的识别，对待检测对象的脸部区域进行检测，以识别出所述第一视频文件是否为欺诈视频。这样，可以额外检测出使用3维人脸模型，面具，甚至是使用人脸合成技术合成的平面照片等存在欺诈行为进行认证的视频，从而使得活体检测的反欺诈能力更全面，效果更好，并且综合活体检测能力非常强。

可选的，所述基于预先训练的光流识别模型对所述第一光流信息进行识别，获得第三识别结果之前，所述方法还包括：

获取训练对象的至少两个第二视频文件中的所述训练对象的脸部区域的至少两个第二光流信息；

针对所述至少两个第二光流信息中每个第二光流信息，基于所述第二光流信息对应的识别结果，为所述第二光流信息建立标签，获得所述第二光流信息的标签数据；

基于所述至少两个第二光流信息和所述至少两个第二光流信息对应的标签数据对预设模型进行训练，获得所述光流识别模型。

本实施例中，是对预设模型进行训练，获得光流识别模型的过程。

具体的，在使用光流识别模型之前，首先获取训练对象的至少两个第二视频文件，所述训练对象的数量可以是1个，也可以是多个，这里不做具体限定。所述第二视频文件中既包括欺诈视频，又包括非欺诈视频，所述欺诈视频是使用日常获得的常用欺诈手段制作的视频，比如使用3维人脸面具制作的视频，所述非欺诈视频是使用正常人脸制作的视频。

然后，获取每个第二视频文件中训练对象的脸部区域的第二光流信息，获得至少两个第二光流信息，其中，第二光流信息的获取方式与第一光流信息的获取方式类似，这里不对其进行赘述。

接着，针对所述至少两个第二光流信息中每个第二光流信息，基于所述第二光流信息对应的识别结果，为所述第二光流信息建立标签，获得所述第二光流信息的标签数据。其中，所述第二光流信息的标签数据包括两种，第一种为正样本的标签数据，即非欺诈视频的第二光流信息的标签数据，第二种为负样本的标签数据，即欺诈视频的第二光流信息的标签数据，即欺诈视频的第二光流信息的标签数据。

最后，将所述至少两个第二光流信息和所述至少两个第二光流信息对应的标签数据作为模型训练样本，对预设模型进行训练。具体的，将所述至少两个第二光流信息作为输入训练样本，将所述至少两个第二光流信息对应的标签数据作为输出训练样本，对预设模型进行训练，最终训练得到所述光流识别模型。

本实施例中，通过将所述至少两个第二光流信息和所述至少两个第二光流信息对应的标签数据作为模型训练样本对预设模型进行训练，得到所述光流识别模型，可以为第一光流信息的反欺诈识别奠定前提基础。

可选的，所述基于所述第一识别结果、第二识别结果和第三识别结果，对所述待检测对象进行活体检测，包括：

将所述第一识别结果与预设信息进行匹配，以及将所述第二识别结果与所述预设信息进行匹配；

在所述第一识别结果与所述预设信息匹配成功，所述第二识别结果与所述预设信息匹配成功，且所述第三识别结果表明所述待检测对象的第一视频文件不为预设视频的情况下，确定所述待检测对象活体认证成功；

在所述第一识别结果与所述预设信息匹配失败，或者所述第二识别结果与所述预设信息匹配失败，或者所述第三识别结果表明所述待检测对象的第一视频文件为预设视频的情况下，确定所述待检测对象活体认证失败。

本实施例中，所述第一识别结果为唇语识别的结果，所述第二识别结果为语音识别的结果，所述第三识别结果为光流信息识别的反欺诈结果。之后，如果唇语识别的结果和语音识别的结果均和预设信息匹配，且光流信息识别的反欺诈结果表明第一视频文件正常，即第一视频文件为非欺诈视频，则认为活体认证成功。否则，若唇语识别的结果和语音识别的结果有任何一个与预设信息不匹配，或者光流信息识别的反欺诈结果表明第一视频文件为欺诈视频，则活体认证失败。如此，可以提高活体认证时的反欺诈效果，保证活体检测的精度。

可选的，基于实施例一，所述步骤103之前，所述方法还包括：

对所述图像帧数据进行特征提取，获得所述待检测对象的唇语特征数据，以及对所述音频特征数据进行特征提取，获得所述待检测对象的语音特征数据；

采用所述预设特征融合模型将所述唇语特征数据和语音特征数据进行融合，获得融合结果；

在所述融合结果与预设信息匹配成功的情况下，则执行所述103步骤。

本实施例中，对所述图像帧数据进行特征提取，可以首先采用两层三维卷积网络提取图像帧数据的时间特征，然后使用ResNet进一步提取特征，获得唇语特征数据。其中，时间特征的提取是为了将编码后的唇语特征数据和编码后的语音特征数据进行时间对齐，使得图像帧数据中图像帧的帧序与音频特征数据对应的音频文件中的音频帧的帧序对应。

对所述音频特征数据进行特征提取，可以基于Fbank特征数据，采用ResNet进一步提取特征，获得语音特征数据。

所述预设特征融合模型可以为transformer模型，transformer模型可以包括多个编码器encoder和解码器decoder。具体的，可以分别采用encoder对唇语特征数据和语音特征数据进行编码，然后采用decoder对编码后的唇语特征数据和语音特征数据进行融合，获得融合结果。

所述融合结果可以表征融合唇语特征数据和语音特征数据之后的识别结果，其可以互补对音频文件和图像帧数据的识别结果，使得transformer模型具有比较高的识别率。

比如，对音频文件进行音频识别，仅能识别出“我X中国”，第二个文字无法识别，对图像帧数据进行唇语识别，仅能识别出“X爱中国”，第一个文字无法识别；此时，基于transformer模型融合唇语特征数据和语音特征数据之后获得的融合结果，可以互补对音频文件和图像帧数据的识别结果，融合结果为“我爱中国”。

基于transformer模型的高识别率特性，可以对第一视频文件进行快速筛选，将那些不合格的第一视频文件进行过滤，从而可以使得该方法适用于复杂背景下的活体认证，进而可以进一步提高活体检测的通过率。具体的，在所述融合结果与预设信息匹配成功的情况下，才执行步骤103，也就是说，在所述融合结果与预设信息匹配成功的情况下，才会基于该第一视频文件执行进一步的活体认证工作。否则，将该第一视频文件过滤，直接确定所述待检测对象活体认证失败。

需要说明的是，所述预设信息可以是活体认证时系统给定的信息，其可以给定任何信息，这里不做具体限定，比如系统给定的信息为“我爱中国”。

可选的，基于实施例一，所述步骤102包括：

基于所述唇语特征数据和语音特征数据，采用所述预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置；其中，所述第一帧序位置包括所述图像帧数据中存在唇语的图像帧的第一起始帧序位置和/或第一结束帧序位置，所述第二帧序位置为所述音频特征数据对应的音频文件中存在语音的音频帧的第二起始帧序位置和/或第二结束帧序位置；

基于所述第一帧序位置和第二帧序位置，确定所述目标帧序位置。

本实施例中，可以采用transformer模型对所述唇语特征数据和语音特征数据进行融合。具体的，所述transformer模型可以包括多个编码器encoder和解码器decoder。首先，可以采用transformer模型中唇语特征encoder对所述唇语特征数据进行编码，获得编码后的唇语特征数据，并采用transformer模型中语音特征encoder对所述语音特征数据进行编码，获得编码后的语音特征数据。

然后，可以基于图像帧数据的时间特征和语音特征数据中的时间信息，采用transformer模型中decoder的第二层多头注意力机制监测编码后的唇语特征数据和语音特征数据，以将编码后的唇语特征数据和编码后的语音特征数据进行时间对齐，此时，图像帧数据中图像帧的帧序与音频特征数据对应的音频文件中的音频帧的帧序对应，比如，图像帧的第1帧对应音频帧的第1帧，图像帧的第2帧对应音频帧的第2帧。时间对齐之后，监测编码后的唇语特征数据，以确定第一帧序位置，并同时监测编码后的语音特征数据，以确定第二帧序位置。

之后，可以采用transformer模型中decoder的另一层融合第一帧序位置和第二帧序位置。具体的，可以采用目标帧序位置所指示的图像帧的数量最大化原则，来基于第一帧序位置和第二帧序位置，确定目标帧序位置。比如，第一帧序位置包括第一起始帧序位置和第一结束帧序位置，分别为第3帧和第80帧，第二帧序位置也包括第二起始帧序位置和第二结束帧序位置，分别为第5帧和第90帧；此时，由于第3帧至第90帧所指示的图像帧的数量最大，因此，确定目标帧序位置为第一起始帧序位置和第二起始帧序位置中帧序小的第3帧和第一结束帧序位置和第二结束帧序位置中帧序大的第90帧。这样，可以避免由于唇语不明显而截取掉图像帧数据中第80帧至第90帧的图像帧。

需要说明的是，在唇语特征数据和语音特征数据足够多的情况下，transformer模型可以直接对所述唇语特征数据和语音特征数据进行融合，获得融合结果。当然，所述transformer模型在使用之前，也可以预先训练，以调整transformer模型中的使用参数。

具体的训练过程可以为：首先获取模型训练样本，所述模型训练样本包括唇语特征训练数据、语音特征训练数据和融合训练结果，所述唇语特征训练数据和语音特征训练数据为基于训练对象的第一视频文件提取的特征数据，融合训练结果为所述预设信息。然后，基于所述模型训练样本对transformer模型进行训练，以调整transformer模型中的使用参数。

此外，本实施例还可以对该预设特征融合模型进行训练，以transformer模型为例：首先，提供视频文件样本，同时，该视频文件样本中包括有包含唇部区域的图像帧数据、音频特征数据、图像帧数据中标记有第一帧序位置的第一标签、音频特征数据中标记有第二帧序位置的第二标签、所述第一标签标记有存在唇语的第一起始帧序位置和/或第一结束帧序位置、所述第二标签标记有存在音频帧的第二起始帧序位置和/或第二结束帧序位置，接着，以上述样本输入待训练的transformer模型，如图2所示，训练得到能用于识别第一帧序位置、第二帧序位置，且能用于基于其融合确定目标帧序位置的目标transformer模型。其中，具体的训练过程可执行如上所述的部分或全部的使用transformer模型的处理流程(如图3所示)，在此不作赘述。

本发明实施例还提供一种活体检测方法，参见图4，图4是本发明实施例提供的活体检测方法的流程图之二，如图4所示，流程如下：

步骤401，根据预设策略获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的目标图像帧数据、所述待检测对象的音频特征数据以及所述待检测对象的脸部区域的第一光流信息三者中的至少两种，得到用于进行活体检测的待处理数据；

步骤402，对所述待处理数据分别进行处理获取与所述待处理数据对应的识别结果；其中，对所述目标图像帧数据进行唇语识别处理获得的识别结果为第一识别结果，对所述音频特征数据进行音频识别处理获得的识别结果为第二识别结果，利用光流识别模型对所述第一光流信息进行识别处理获得的识别结果为第三识别结果；

步骤403，基于所述获取的识别结果对所述待检测对象进行活体检测；

其中，所述目标图像帧数据包括所述待检测对象的唇部区域的图像帧数据中存在唇语的图像帧，所述目标图像帧数据基于目标帧序位置对所述图像帧数据进行截取获得；所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；所述目标帧序位置基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定。

在步骤401中，当进行活体检测时，电子设备可以根据预设策略选择所对应的进行活体检测方式，其中，活体检测方式包括四种，第一种是基于唇语和音频的组合识别，第二种是基于唇语和光流信息的组合识别，第三种是基于音频和光流信息的组合识别，第四种是基于唇语、音频和光流信息的组合识别。

所述预设策略可以根据实际情况进行设置，可以设置为以下之一：

预设策略一，基于所述待检测对象的第一视频文件中的环境参数确定策略，比如，所述电子设备可以首先提取所述待检测对象的第一视频文件中的环境参数，其中，所述环境参数包括光线参数、噪音参数和背景人物参数等，然后基于提取的环境参数，确定预设策略。

比如，电子设备基于光线参数确定光线较弱的情况下，可以确定活体检测方式不选用光流信息识别，而选用唇语和音频的组合识别。又比如，电子设备基于噪音参数确定噪音较大的情况下，可以确定活体检测方式不选用音频识别，而选用唇语和光流信息的组合识别。还比如，电子设备基于背景人物参数确定活体检测环境下的人物较多而无法定位说话的待检测对象时，可以确定活体检测方式不选用唇语识别，而选用音频和光流信息的组合识别。亦或是，在确定环境参数不存在所设定的问题情况下，选用唇语、音频和光流信息的组合识别。

预设策略二，根据当前用户的身份特征确定策略。比如，当前用户如果是设备的常用用户，则可以采用其中两种进行简单的活体检测，以降低设备能耗和提高检测速率；或者，如果当前用户是设备的不常用用户，则可以设置三种方式进行高风险性的活体检测；或者如果当前用户的肤色人种不易辨认，则可以不使用光流体活体检测。

预设策略三，根据设备的使用周期，随机要求执行其中的两种或三种活体检测方式，通过这种方式，可以避免当前用户作弊，比如变更使用环境等参数，即避免每次在相同环境下一定使用相同的检测方法所存在的风险。

在活体检测方式确定之后，获取用于进行活体检测的待处理数据。其中，根据预设策略选择第一种活体检测方式时，获取目标图像帧数据和音频特征数据，根据预设策略选择第二种活体检测方式时，获取目标图像帧数据和第一光流信息，根据预设策略选择第三种活体检测方式时，获取音频特征数据和第一光流信息，根据预设策略选择第四种活体检测方式时，获取目标图像帧数据、音频特征数据和第一光流信息。

在步骤402中，活体检测方式确定并获取待处理数据之后，可以对所述待处理数据分别进行处理获取与所述待处理数据对应的识别结果，即可以获取第一识别结果、第二识别结果和第三识别结果的对应组合。比如，唇语和音频的组合识别，即只需要获取第一识别结果和第二识别结果，又比如，唇语和光流信息的组合识别，即只需要获取第一识别结果和第三识别结果，还比如，音频和光流信息的组合识别，即只需要获取第二识别结果和第三识别结果，亦或是，唇语、音频和光流信息的组合识别，获取第一识别结果、第二识别结果和第三识别结果。

在步骤403中，可以基于所述第一识别结果、第二识别结果和第三识别结果的对应组合，对所述待检测对象进行活体检测。

其中，基于第一识别结果和第二识别结果，以及基于第一识别结果、第二识别结果和第三识别结果，对所述待检测对象进行活体检测的具体过程在上述实施例中已经详细介绍，这里不再对其进行赘述。

针对第一识别结果和第三识别结果，对所述待检测对象进行活体检测，在所述第一识别结果与预设信息匹配成功，以及第三识别结果表明所述待检测对象的第一视频文件不为预设视频的情况下，则待检测对象活体认证成功，否则活体认证失败。

针对第二识别结果和第三识别结果，对所述待检测对象进行活体检测，在所述第二识别结果与预设信息匹配成功，以及第三识别结果表明所述待检测对象的第一视频文件不为预设视频的情况下，则待检测对象活体认证成功，否则活体认证失败。

本实施例中，通过预设策略选择活体检测方式，并基于相应的活体检测方式对待检测对象进行活体检测，可以提高活体检测的灵活性。此外，通过至少两种活体识别结果进行综合检测的方式，提高检测的准确率和真实性。

可选的，所述根据预设策略获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的目标图像帧数据之前，所述方法还包括：

采用预设特征融合模型将所述唇语特征数据和语音特征数据进行融合，获得融合结果；

在所述融合结果与预设信息匹配成功的情况下，则执行所述根据预设策略获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的目标图像帧数据的步骤。

本实施例的主要目的在于基于transformer模型的高识别率特性，对第一视频文件进行快速筛选，将那些不合格的第一视频文件进行过滤，从而可以使得该方法适用于复杂背景下的活体认证，进而可以进一步提高活体检测的通过率。其实现过程与上述类似，这里不再对其进行赘述。

基于所述唇语特征数据和语音特征数据，采用所述预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置；其中，所述第一帧序位置包括所述图像帧数据中存在唇语的图像帧的起始帧序位置和/或结束帧序位置，所述第二帧序位置为所述音频特征数据对应的音频文件中存在语音的音频帧的起始帧序位置和/或结束帧序位置；

本实施例的主要目的在于如何确定目标帧序位置，其实现过程与上述类似，这里不再对其进行赘述。

为了更好的理解整个过程，以下以唇语识别和音频识别的组合对待检测对象进行活体检测的方案为例进行详细说明，参见图5，图5是本发明实施例提供的活体检测方法的流程图之三，如图5所示，流程如下：

首先，获取待检测对象活体认证时的视频文件；

然后，对该视频文件进行音视频分离，获得所述待检测对象的视频帧数据以及音频文件；

接着，提取所述视频帧数据中包括所述待检测对象唇部区域的图像，获得图像帧数据；以及对所述音频文件进行特征提取，获得Fbank特征数据；

接着，基于图像帧数据和Fbank特征数据，采用特征融合模型如transformer模型，将图像帧数据和Fbank特征数据进行融合，获得融合结果；

具体的，对图像帧数据进行特征提取，获得所述待检测对象的唇语特征数据，以及对Fbank特征数据进行特征提取，获得所述待检测对象的语音特征数据；采用transformer模型将所述唇语特征数据和语音特征数据进行融合，获得融合结果。

同时，采用特征融合模型中的注意力机制，基于唇语特征数据，获得图像帧数据中存在唇语的端点；以及基于语音特征数据，获得音频文件中存在语音的端点；将图像帧序数据中存在唇语的端点和音频文件中存在语音的端点合并，产生图像帧数据中存在唇语的最终端点。

接着，确定融合结果是否与预设信息匹配；

若融合结果与预设信息匹配，则基于图像帧数据中存在唇语的最终端点，截取图标帧数据中存在唇语的有效帧，获得目标图像帧数据；若融合结果与预设信息不匹配，则确定活体认证失败；

接着，在融合结果与预设信息匹配的情况下，将目标图像帧数据作为唇语识别模型的输入，获得唇语识别结果；以及将Fbank特征数据作为音频识别模型的输入，获得语音识别结果；

接着，确定唇语识别结果是否与预设信息匹配；以及确定语音识别结果是否与预设信息匹配；

最后，若同时匹配，则确定活体认证成功；若任一者匹配失败，则活体认证失败。

本实施例中，通过确定用于表征所述图像帧数据中存在唇语的图像帧的起始帧序位置和/或结束帧序位置的目标帧序位置，并基于该目标帧序位置从图像帧数据中截取出存在唇语的目标图像帧数据，从而可以有效提高唇语识别的精度，进而提高活体检测的精度。

为了更好的理解整个过程，以下以唇语识别、音频识别和光流信息识别的组合对待检测对象进行活体检测的方案为例进行详细说明，参见图6，图6是本发明实施例提供的活体检测方法的流程图之四，如图6所示，流程如下：

首先，获取待检测对象活体认证时的视频文件；

接着，提取所述视频帧数据中包括所述待检测对象唇部区域的图像，获得图像帧数据；以及对所述音频文件进行特征提取，获得Fbank特征数据；同时，获取所述待检测对象的第一视频文件中的所述待检测对象的脸部区域的第一光流信息；

接着，确定融合结果是否与预设信息匹配；

接着，在融合结果与预设信息匹配的情况下，将目标图像帧数据作为唇语识别模型的输入，获得唇语识别结果；以及将Fbank特征数据作为音频识别模型的输入，获得语音识别结果；同时，基于预先训练的光流识别模型对所述第一光流信息进行识别，获得光流信息识别的反欺诈结果；

接着，确定唇语识别结果是否与预设信息匹配；以及确定语音识别结果是否与预设信息匹配；以及确定光流信息识别的反欺诈结果显示是否为欺诈视频；

最后，若同时匹配，且光流信息识别的反欺诈结果显示是非欺诈视频，则确定活体认证成功；若任一者匹配失败，或者光流信息识别的反欺诈结果显示是欺诈视频，则活体认证失败。

本实施例中，由于待检测对象在进行活体认证时，所述待检测对象在说话过程中眼睛、脸部表情和肌肉都是会发生连续变动，因此，在待检测对象的第一视频文件中根据这些连续变动提取待检测对象的脸部区域的光流信息，以提取人脸整体的运动特征。并通过增加光流信息的识别，确切的说是增加待检测对象的脸部区域的光流信息的识别，对待检测对象的脸部区域进行检测，以识别出所述第一视频文件是否为欺诈视频。这样，在提高活体检测精度的同时，还可以额外检测出使用3维人脸模型，面具，甚至是使用人脸合成技术合成的平面照片等存在欺诈行为进行认证的视频，从而使得活体检测的反欺诈能力更全面，效果更好，并且综合活体检测能力非常强。

参见图7，图7是本发明实施例提供的活体检测装置的结构图之一。如图7所示，活体认证装置700包括：

第一获取模块701，用于获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据；

确定模块702，用于基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置；其中，所述目标帧序位置用于表征所述图像帧数据中存在唇语的图像帧的目标起始帧序位置和/或目标结束帧序位置；

截取模块703，用于基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据；其中，所述目标图像帧数据包括所述图像帧数据中存在唇语的图像帧；

第一识别模块704，用于对所述目标图像帧数据进行唇语识别，获得第一识别结果，以及对所述音频特征数据进行音频识别，获得第二识别结果；

第一活体检测模块705，用于基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

可选的，参见图8，图8是本发明实施例提供的活体检测装置的结构图之二。如图8所示，基于图7所示的实施例，活体认证装置700还包括：

第四获取模块706，用于获取所述待检测对象的第一视频文件中的所述待检测对象的脸部区域的第一光流信息；

第二识别模块707，用于基于预先训练的光流识别模型对所述第一光流信息进行识别，获得第三识别结果；

所述第一活体检测模块705，具体用于基于所述第一识别结果、第二识别结果和第三识别结果，对所述待检测对象进行活体检测。

可选的，参见图9，图9是本发明实施例提供的活体检测装置的结构图之三。如图9所示，基于图8所示的实施例，活体认证装置700还包括：

第五获取模块708，用于获取训练对象的至少两个第二视频文件中的所述训练对象的脸部区域的至少两个第二光流信息；

建立标签模块709，用于针对所述至少两个第二光流信息中每个第二光流信息，基于所述第二光流信息对应的识别结果，为所述第二光流信息建立标签，获得所述第二光流信息的标签数据；

训练模块710，用于基于所述至少两个第二光流信息和所述至少两个第二光流信息对应的标签数据对预设模型进行训练，获得所述光流识别模型。

可选的，所述第一活体检测模块705包括：

匹配单元，用于将所述第一识别结果与预设信息进行匹配，以及将所述第二识别结果与所述预设信息进行匹配；

第一确定单元，用于在所述第一识别结果与所述预设信息匹配成功，所述第二识别结果与所述预设信息匹配成功，且所述第三识别结果表明所述待检测对象的第一视频文件不为预设视频的情况下，确定所述待检测对象活体认证成功；

第二确定单元，用于在所述第一识别结果与所述预设信息匹配失败，或者所述第二识别结果与所述预设信息匹配失败，或者所述第三识别结果表明所述待检测对象的第一视频文件为预设视频的情况下，确定所述待检测对象活体认证失败。

可选的，参见图10，图10是本发明实施例提供的活体检测装置的结构图之四。如图10所示，基于图7所示的实施例，活体认证装置700还包括：

特征提取模块711，用于对所述图像帧数据进行特征提取，获得所述待检测对象的唇语特征数据，以及对所述音频特征数据进行特征提取，获得所述待检测对象的语音特征数据；

融合模块712，用于采用所述预设特征融合模型将所述唇语特征数据和语音特征数据进行融合，获得融合结果；

触发模块713，用于在所述融合结果与预设信息匹配成功的情况下，触发所述截取模块703。

可选的，所述确定模块702包括：

第三确定单元，用于基于所述唇语特征数据和语音特征数据，采用所述预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置；其中，所述第一帧序位置包括所述图像帧数据中存在唇语的图像帧的第一起始帧序位置和/或第一结束帧序位置，所述第二帧序位置为所述音频特征数据对应的音频文件中存在语音的音频帧的第二起始帧序位置和/或第二结束帧序位置；

第四确定单元，用于基于所述第一帧序位置和第二帧序位置，确定所述目标帧序位置。

可选的，所述第一帧序位置包括所述第一起始帧序位置和第一结束帧序位置，所述第二帧序位置包括所述第二起始帧序位置和第二结束帧序位置；

其中，所述第四确定单元，具体用于将所述第一起始帧序位置和第二起始帧序位置中帧序小的起始帧序位置确定为所述目标起始帧序位置；以及将所述第一结束帧序位置和第二结束帧序位置中帧序大的结束帧序位置确定为所述目标结束帧序位置。

可选的，所述第三确定单元，具体用于：

采用所述预设特征融合模型中的唇语特征编码器对所述唇语特征数据进行编码以获得编码后的唇语特征数据，并采用所述预设特征融合模型中的语音特征编码器对所述语音特征数据进行编码以获得编码后的语音特征数据；

提取所述图像帧数据的时间特征和所述语音特征数据中的时间信息，并采用所述预设特征融合模型中的注意力机制监测编码后的唇语特征数据和编码后的语音特征数据，以将编码后的唇语特征数据和编码后的语音特征数据进行时间对齐；

监测编码后的唇语特征数据以确定所述第一帧序位置，并监测编码后的语音特征数据以确定所述第二帧序位置；

所述确定模块702还包括：

融合单元，用于基于所述目标帧序位置所指示的图像帧的数量最大化原则，采用所述预设特征融合模型中解码器融合所述第一帧序位置和第二帧序位置。

可选的，所述第一获取模块701包括：

分离单元，用于对待检测对象的第一视频文件进行音视频分离，获得所述待检测对象的视频帧数据和音频文件；

提取单元，用于提取所述视频帧数据中包括所述待检测对象唇部区域的图像，获得所述图像帧数据，以及对所述音频文件进行特征提取，获得所述音频特征数据。

上述活体检测装置700能实现上述活体检测方法实施例中的各个过程，并能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种活体检测装置，图11是本发明实施例提供的活体检测装置的结构图之五。如图11所示，活体认证装置1100包括：

第二获取模块1101，用于在进行活体检测时，根据预设策略获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的目标图像帧数据、所述待检测对象的音频特征数据以及所述待检测对象的脸部区域的第一光流信息三者中的至少两种，得到用于进行活体检测的待处理数据；

第三获取模块1102，用于对所述待处理数据分别进行处理获取与所述待处理数据对应的识别结果；其中，对所述目标图像帧数据进行唇语识别处理获得的识别结果为第一识别结果，对所述音频特征数据进行音频识别处理获得的识别结果为第二识别结果，利用光流识别模型对所述第一光流信息进行识别处理获得的识别结果为第三识别结果；

第二活体检测模块1103，用于基于所述获取的识别结果对所述待检测对象进行活体检测；

参见图12，图12是本发明实施例提供的活体检测装置的结构图之六，如图12所示，活体检测装置1200包括：处理器1201、存储器1202及存储在所述存储器1202上并可在所述处理器上运行的计算机程序，活体检测装置1200中的各个组件通过总线接口1203耦合在一起，所述计算机程序被所述处理器1201执行时实现如下步骤：

可选的，所述计算机程序被所述处理器1201执行时还用于：

所述计算机程序被所述处理器1201执行时还用于：

可选的，所述计算机程序被所述处理器1201执行时还用于：

在所述融合结果与预设信息匹配成功的情况下，则执行所述基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据的步骤。

可选的，所述计算机程序被所述处理器1201执行时还用于：

监测编码后的唇语特征数据以确定所述第一帧序位置，并监测编码后的语音特征数据以确定所述第二帧序位置。

其中，所述计算机程序被所述处理器1201执行时还用于：

基于所述目标帧序位置所指示的图像帧的数量最大化原则，采用所述预设特征融合模型中解码器融合所述第一帧序位置和第二帧序位置。

可选的，所述计算机程序被所述处理器1201执行时还用于：

所述计算机程序还被所述处理器1201执行时实现如下步骤：

对所述待处理数据分别进行处理获取与所述待处理数据对应的识别结果；其中，对所述目标图像帧数据进行唇语识别处理获得的识别结果为第一识别结果，对所述音频特征数据进行音频识别处理获得的识别结果为第二识别结果，利用光流识别模型对所述第一光流信息进行识别处理获得的识别结果为第三识别结果；

基于所述获取的识别结果对所述待检测对象进行活体检测；

本发明实施例还提供一种活体检测装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述活体检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述活体检测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种活体检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标帧序位置对所述图像帧数据进行截取，获得目标图像帧数据之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述图像帧数据和所述音频特征数据，采用预设特征融合模型确定目标帧序位置，包括：

基于所述唇语特征数据和语音特征数据，采用所述预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置；其中，所述第一帧序位置包括所述图像帧数据中存在唇语的图像帧的第一起始帧序位置和/或第一结束帧序位置，所述第二帧序位置包括所述音频特征数据对应的音频文件中存在语音的音频帧的第二起始帧序位置和/或第二结束帧序位置；

4.根据权利要求3所述的方法，其特征在于，所述第一帧序位置包括所述第一起始帧序位置和第一结束帧序位置，所述第二帧序位置包括所述第二起始帧序位置和第二结束帧序位置；

其中，所述基于所述第一帧序位置和第二帧序位置，确定所述目标帧序位置，包括：

将所述第一起始帧序位置和第二起始帧序位置中帧序小的起始帧序位置确定为所述目标起始帧序位置；以及将所述第一结束帧序位置和第二结束帧序位置中帧序大的结束帧序位置确定为所述目标结束帧序位置。

5.根据权利要求4所述的方法，其特征在于，所述基于所述唇语特征数据和语音特征数据，采用所述预设特征融合模型中的注意力机制，确定第一帧序位置和第二帧序位置，包括：

其中，所述将所述第一起始帧序位置和第二起始帧序位置中帧序小的起始帧序位置确定为所述目标起始帧序位置；以及将所述第一结束帧序位置和第二结束帧序位置中帧序大的结束帧序位置确定为所述目标结束帧序位置的步骤之前，还包括：

采用所述预设特征融合模型中解码器融合所述第一帧序位置和第二帧序位置。

6.根据权利要求1所述的方法，其特征在于，所述获取待检测对象的第一视频文件中的所述待检测对象的唇部区域的图像帧数据和所述待检测对象的音频特征数据，包括：

7.一种活体检测方法，其特征在于，包括：

基于所述获取的识别结果对所述待检测对象进行活体检测；

8.一种活体检测装置，其特征在于，包括：

第一活体检测模块，用于基于所述第一识别结果和第二识别结果，对所述待检测对象进行活体检测。

9.一种活体检测装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现包括如权利要求1至7中任一项所述的活体检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现包括如权利要求1至7中任一项所述的活体检测方法的步骤。