CN112733636A

CN112733636A - 活体检测方法、装置、设备和存储介质

Info

Publication number: CN112733636A
Application number: CN202011587469.1A
Authority: CN
Inventors: 时旭
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-30
Also published as: WO2022142521A1

Abstract

本申请提供一种活体检测方法、装置、设备和存储介质，该方法包括：获取待检测的多媒体数据；提取所述多媒体数据中的音频数据和视频数据；对所述音频数据进行语音识别，得到语音信息，以及对所述视频数据进行唇语识别，得到唇语信息；根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，并基于所述偏移信息验证所述多媒体数据是否来自于活体。本申请实现了显著提高了活体检测的准确率，漏检率下降，对于一些部分少量音画不同步的视频提供了容错率。节省了原来对大量音画不同步视频的标注成本。

Description

活体检测方法、装置、设备和存储介质

技术领域

本申请涉及多媒体信息技术领域，具体而言，涉及一种活体检测方法、装置、设备和存储介质。

背景技术

活体检测，是在一些身份验证场景确定对象真实生理特征的方法，基于唇语视频进行活体验证的应用场景中，一般通过实时获取用户当下的视频数据，然后基于视频内容检测是否符合活体的音画同步特点。

音画同步，一般是指播放器正在渲染的每一帧画面和正在播放的每一段声音都是严格对应起来，不存在人耳和肉眼可以分辨出来的偏差。

目前，音画同步检测方式通常使用大量标注的音画同步/不同步视频作为样本，通过神经网络训练得到模型，该模型可以针对输入的视频，输出同步分数，若同步分数大于阈值则判定为音画同步，反之音画不同步。

但是，上述方式具有如下缺陷：

1)视频音画不同步的情况很复杂，训练集很难覆盖复杂的场景。

2)模型输出的同步分数不准确，生产环境中经常遇到判断错误的案例。

3)通过分数与阈值的比较判断逻辑过于简单，容错性较低。

发明内容

本申请实施例的目的在于提供一种活体检测方法、装置、设备和存储介质，显著提高了活体检测的准确率，漏检率下降。

本申请实施例第一方面提供了一种活体检测方法，包括：获取待检测的多媒体数据；提取所述多媒体数据中的音频数据和视频数据；对所述音频数据进行语音识别，得到语音信息，以及对所述视频数据进行唇语识别，得到唇语信息；根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，并基于所述偏移信息验证所述多媒体数据是否来自于活体。

于一实施例中，所述对所述音频数据进行语音识别，得到语音信息，包括：对所述音频数据逐帧进行语音识别，获取所述音频数据的音频元素信息；提取所述音频元素信息中每个元素的音频起始帧序和音频终止帧序，所述语音信息包括：所述音频元素信息、所述音频起始帧序和所述音频终止帧序。

于一实施例中，所述对所述视频数据进行唇语识别，得到唇语信息，包括：对所述视频数据逐帧进行唇语识别，获取所述视频数据的唇语元素信息；提取所述唇语元素信息中每个元素的视频起始帧序和视频终止帧序，所述唇语信息包括：所述唇语元素信息、所述视频起始帧序和所述视频终止帧序。

于一实施例中，所述根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，包括：对所述语音信息进行数据标准化处理，并基于所述音频元素信息生成预设长度的音频元素字符串，对所述唇语信息进行数据标准化处理，并基于所述唇语元素信息生成所述预设长度的唇语元素字符串；分别将所述音频元素字符串和所述唇语元素字符串与预设字符串进行比对，并在所述音频元素字符串和所述唇语元素字符串均与所述预设字符串的语义匹配时，基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序，计算所述多媒体数据的偏移信息。

于一实施例中，所述基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序，计算所述多媒体数据的偏移信息，包括：针对所述音频元素字符串和所述唇语元素字符串，分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差，并分别计算每个所述元素字符的音频终止时间与视频终止时间之间的终止时间差；计算每个所述元素字符的所述起始时间差与所述终止时间差的时差平均值；计算全部所述元素字符的所述时差平均值的偏移平均值，所述偏移信息为所述偏移平均值。

于一实施例中，所述对所述语音信息进行数据标准化处理，并基于所述音频元素信息生成预设长度的音频元素字符串，对所述唇语信息进行数据标准化处理，并基于所述唇语元素信息生成所述预设长度的唇语元素字符串，包括：将所述音频元素信息转换为所述预设长度的所述音频元素字符串，将所述唇语元素信息转换为所述预设长度的所述唇语元素字符串；分别识别所述音频元素字符串和所述唇语元素字符串的位数，当识别位数小于第一阈值时，输出为识别错误；当所述识别位数大于或等于所述第一阈值，且小于第二阈值时，以第一预设值代替识别缺失的位；当所述识别位数大于或等于第二阈值时，基于所述音频元素信息、所述唇语元素信息的内容，通过匹配算法，提取匹配准确的位数。

于一实施例中，所述基于所述偏移信息验证所述多媒体数据是否来自于活体，包括：判断所述偏移信息是否在预设偏移范围内；若所述偏移信息在所述预设偏移范围内，输出所述多媒体数据来自于活体，否则，输出所述多媒体数据并非来自于活体。

本申请实施例第二方面提供了一种活体检测装置，包括：获取模块，用于获取待检测的多媒体数据；提取模块，用于提取所述多媒体数据中的音频数据和视频数据；识别模块，用于对所述音频数据进行语音识别，得到语音信息，以及对所述视频数据进行唇语识别，得到唇语信息；解析模块，用于根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，并基于所述偏移信息验证所述多媒体数据是否来自于活体。

于一实施例中，所述识别模块用于：对所述音频数据逐帧进行语音识别，获取所述音频数据的音频元素信息；提取所述音频元素信息中每个元素的音频起始帧序和音频终止帧序，所述语音信息包括：所述音频元素信息、所述音频起始帧序和所述音频终止帧序。

于一实施例中，所述识别模块用于：对所述视频数据逐帧进行唇语识别，获取所述视频数据的唇语元素信息；提取所述唇语元素信息中每个元素的视频起始帧序和视频终止帧序，所述唇语信息包括：所述唇语元素信息、所述视频起始帧序和所述视频终止帧序。

于一实施例中，所述解析模块用于：对所述语音信息进行数据标准化处理，并基于所述音频元素信息生成预设长度的音频元素字符串，对所述唇语信息进行数据标准化处理，并基于所述唇语元素信息生成所述预设长度的唇语元素字符串；分别将所述音频元素字符串和所述唇语元素字符串与预设字符串进行比对，并在所述音频元素字符串和所述唇语元素字符串均与所述预设字符串的语义匹配时，基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序，计算所述多媒体数据的偏移信息。

于一实施例中，所述解析模块还用于：判断所述偏移信息是否在预设偏移范围内；若所述偏移信息在所述预设偏移范围内，输出所述多媒体数据来自于活体，否则，输出所述多媒体数据并非来自于活体。

本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第一方面及其任一实施例的方法，以检测出多媒体数据是否来自于活体。

本申请实施例第四方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。

本申请提供的活体检测方法、装置、设备和存储介质，通过提取多媒体数据中的音频数据和视频数据，然后分别对音频数据进行语音识别，对视频数据进行唇语识别，进而得到语音信息和唇语信息，然后基于语音信息和唇语信息解析得到所述多媒体数据的偏移信息，进而基于所述偏移信息验证所述多媒体数据的是否来自于活体，如此，无需做大量样本标注，节约检测成本，而且综合考虑语音信息和唇语信息的特点，提高了活体检测的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的活体验证场景系统的示意图；

图3为本申请一实施例的活体检测方法的流程示意图；

图4为本申请一实施例的活体检测方法的流程示意图；

图5为本申请一实施例的活体检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以检测出多媒体数据的活体信息。

于一实施例中，电子设备1可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。

请参看图2，其为本申请一实施例的活体验证场景系统，包括：服务器20和用户端30。其中，服务器20可以藉由电子设备1实现，服务器20中可以包括：语音识别模块21和唇语识别模块22。在实际活体验证场景中，比如门禁系统，当用户触发身份验证时，服务器20生成随机文本信息，并显示在用户端30，以供用户朗读该随机文本信息，然后用户端30录制用户朗读的多媒体数据，并将多媒体数据上传至服务器20。服务器20基于多媒体数据进行后续的用户身份验证。

于一实施例中，上述基于多媒体数据进行后续的用户身份验证的方法也可以在用户端30执行。

其中，随机文本信息可以是预设长度的随机数字，比如可以是四位随机数字，可以通过一定策略避免相同数字连续出现，以降低识别难度。

然而在针对基于唇语视频进行活体验证的应用场景中，实际应用中往往出现有如下几种恶意攻击类型：

1、多媒体数据中的人物仅完成嘴部动作不发声，视频外有其他人读目标数字。

2、提前录制好音频，并用准备好的音频替换视频中的实际现场音频。

3、提前录制好视频和音频，识别目标数字后，组合四位数字音频和视频。

为了有效防止上述攻击视频带来的安全威胁，本实施例基于语音识别模块21和唇语识别模块22对多媒体数据进行综合分析，得到语音信息和唇语信息，并基于语音信息和唇语信息解析得到多媒体数据的偏移信息，进而基于所述偏移信息验证所述多媒体数据的是否来自于活体。

本实施例的活体检测方案，可以有效防止以上攻击视频，提高活体验证的安全性。

请参看图3，其为本申请一实施例的活体检测方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2所示的活体验证场景中，以准确检测出多媒体数据的是否来自于活体，提高活体验证的安全性。以服务器20执行该方法为例，该方法包括如下步骤：

步骤301：获取待检测的多媒体数据。

在本步骤中，多媒体数据可以是待验证的用户的实时视频资料，比如可以基于服务器20生成的随机文本内容供用户朗读，此处随机文本内容可以是四位随机数字，通过一定策略避免相同数字连续出现，以降低识别难度。以随机数字为例，用户对获取到的四位随机数字朗读，完成多媒体数据录制，并上传至服务器20。

于一实施例中，若由用户端执行该方法，则用户端获取到多媒体数据后，不需要上传。

步骤302：提取多媒体数据中的音频数据和视频数据。

在本步骤中，服务器20从用户上传的视频资料中提取音频数据，提取过程中可以指定音频采样率，并读取视频帧率作为视频数据。其中，音频数据包含语音信息，视频数据包含用户唇语动作的图像信息。

于一实施例中，可以按照预设音频采样率提取多媒体数据中的音频数据。预设的音频采样率可以由服务器20指定，该音频采样率可以准确的保留原多媒体数据中语音的相关特征，以供后续计算使用。

于一实施例中，可以按照预设视频帧率读取多媒体数据中的视频数据。预设的视频帧率是服务器20读取视频数据的帧率，该视频帧率需要保证读取到的视频数据保留了原多媒体数据中的视频特征，以供后续计算使用。

步骤303：对音频数据进行语音识别，得到语音信息，以及对视频数据进行唇语识别，得到唇语信息。

在本步骤中，可以基于神经网络算法，对用户对四位随机数朗读的音频数据逐帧进行语音识别，得到语音信息。并可以基于神经网络算法，对用户朗读四位随机数的视频数据逐帧进行唇语识别，即识别视频图像中的用户的唇语动作，获得唇语信息。

步骤304：根据语音信息和唇语信息解析得到音频数据和视频数据之间的偏移信息，并基于偏移信息验证多媒体数据的是否来自于活体。

在本步骤中，为了有效防止上述攻击视频带来的安全威胁，可以综合对语音信息和唇语信息在音画同步上的特征进行解析，得到多媒体数据的偏移信息，并基于偏移信息验证多媒体数据的是否来自于活体。

上述活体检测方法，通过提取多媒体数据中的音频数据和视频数据，然后分别对音频数据进行语音识别，对视频数据进行唇语识别，进而得到语音信息和唇语信息，然后基于语音信息和唇语信息解析得到多媒体数据的偏移信息，进而基于偏移信息验证多媒体数据的是否来自于活体，如此，无需做大量样本标注，节约检测成本，而且综合考虑语音信息和唇语信息的特点，提高了活体检测的准确度。可以有效防止以上攻击视频，提高活体验证的安全性。

请参看图4，其为本申请一实施例的活体检测方法，该方法可由图1所示的电子设备1来执行，并可以应用于如图2所示的活体验证场景中，以准确检测出多媒体数据的是否来自于活体，提高活体验证的安全性。该方法包括如下步骤：

步骤401：获取待检测的多媒体数据。详细参见上述实施例中对步骤301的描述。

步骤402：提取多媒体数据中的音频数据和视频数据。详细参见上述实施例中对步骤302的描述。

步骤403：对音频数据逐帧进行语音识别，获取音频数据的音频元素信息。

在本步骤中，可以基于神经网络算法，对用步骤402中获得的音频数据逐帧进行语音识别，获取用户朗读随机数的文本信息。

于一实施例中，语音识别过程可以如下：

4a)：采集预设数量的数字音频(比如人朗读数字0-9的音频)，并进行标注，区分训练集、验证集、测试集。

4b)：对训练集的音频进行神经网络训练，同时用验证集对训练过程的中间结果进行验证(实时调整训练参数)，当训练精度和验证精度达到一定阈值时，得到语音识别模型。

4c)：用测试集对步骤4b)中得到的语音识别模型测试，衡量模型的性能。

4d)：逐帧输入步骤402中获得的音频数据至语音识别模型，模型计算出音频数据的音频元素信息。

步骤404：提取音频元素信息中每个元素的音频起始帧序和音频终止帧序，语音信息中包括：音频元素信息、音频起始帧序和音频终止帧序。

在本步骤中，上述得到的音频元素信息中，至少包括每个元素的音频起始帧序和音频终止帧序，比如每个随机数字的音频起始帧序和音频终止帧序，将其从音频元素信息中提取出来。

步骤405：对视频数据逐帧进行唇语识别，获取视频数据的唇语元素信息。

在本步骤中，可以基于神经网络算法，对用步骤402中获得视频数据逐帧进行唇语识别，获取唇语元素信息。

于一实施例中，唇语识别的过程可以如下：

6a)：采集预设数量的数字唇语视频，比如可以是人在朗读数字0-9时拍摄的唇语图片，并进行特征标注，区分训练集、验证集、测试集。

6b)：对训练集的视频进行神经网络训练，同时用验证集对训练过程的中间结果进行验证(实时调整训练参数)，当训练精度和验证精度达到一定阈值时，得到唇语识别模型。

6c)：用测试集对步骤6b)中得到的唇语识别模型测试，衡量模型的性能。

6d)：逐帧将步骤402中获得的视频数据输入唇语识别模型，得到模型计算出的视频数据的唇语元素信息。

步骤406：提取唇语元素信息中每个元素的视频起始帧序和视频终止帧序，唇语信息包括：唇语元素信息、视频起始帧序和视频终止帧序。

在本步骤中，上述唇语元素信息中至少包括每个元素的视频起始帧序和视频终止帧序，比如用户朗读每个数字的视频起始帧序和视频终止帧序，将其从唇语元素信息中提取出来。

于一实施例中，步骤403-步骤404与步骤405-步骤406的执行顺序不做限定。

步骤407：对语音信息进行数据标准化处理，并基于音频元素信息生成预设长度的音频元素字符串，对唇语信息进行数据标准化处理，并基于唇语元素信息生成预设长度的唇语元素字符串。

在本步骤中，针对如图2所示的活体验证场景，用户录制的多媒体数据可能存在多种格式，内容也可能繁乱复杂，为了简化数据处理过程，在采集多媒体数据之前，服务器20先生成随机文本信息，比如四位随机数字，供用户朗读，进而录制朗读时的多媒体数据。在后续的数据处理中，需要对音频元素信息和唇语元素信息进行数据标准化处理，统一成长度固定的数字串。此处的预设长度就是服务器20生成随机数字的长度，比如服务器20生成的随机数字为四位，此处的预设长度就是四位。用户朗读的是四位随机数字，故需要将音频元素信息和唇语元素信息标准化为四位。四位随机数字更有利于检测结果的准确性。

于一实施例中，步骤407具体可以包括：将音频元素信息转换为预设长度的音频元素字符串，将唇语元素信息转换为预设长度的唇语元素字符串。分别识别音频元素字符串和唇语元素字符串的位数，当识别位数小于第一阈值时，输出为识别错误。当识别位数大于或等于第一阈值，且小于第二阈值时，以第一预设值代替识别缺失的位。当识别位数大于或等于第二阈值时，基于音频元素信息、唇语元素信息的内容，通过匹配算法，提取匹配准确的位数。

于一实施例中，以预设长度为四位为例，在对音频元素信息和唇语元素信息进行数据标准化处理时，可以过滤掉不足三位的错误结果，并以-1代替识别缺失的位。若位数超过四位，通过匹配算法算出识别准确的位，同样以-1代替识别不准确的位。

于一实施例中，以四位随机数字为例，数据标准化处理过程可以如下：首先分别将音频元素信息转换为四位的音频元素字符串，将唇语元素信息转换为四位的唇语元素字符串，分别判断音频元素字符串和唇语元素字符串的位数，当位数小于三位时，判断为识别错误，终止验证流程。当位数等于三位时，以-1代替识别缺失的位。当位数恰好等于四位，直接输出识别结果。当位数大于四位时，基于文本信息的内容，通过匹配算法，提取匹配准确的位，当匹配准确的位数小于四位时，以-1代替缺失的位。比如假设音频元素信息或者唇语元素信息内容为(12345)五位随机数字，而服务器20生成的四位随机数字为(1234)，则可以从(12345)中提取出内容和位数为(1234)的部分作为标准化处理的结果。

步骤408：分别将音频元素字符串和唇语元素字符串与预设字符串进行比对，并在音频元素字符串和唇语元素字符串均与预设字符串的语义匹配时，基于音频元素字符串、音频起始帧序、音频终止帧序、唇语元素字符串、视频起始帧序和视频终止帧序，计算多媒体数据的偏移信息。

于一实施例中，在音频元素字符串和唇语元素字符串均与预设字符串的语义匹配时，步骤408可以包括：

S81：针对音频元素字符串和元素字符串唇语元素字符串，分别计算每个元素的音频起始时间与视频起始时间之间的起始时间差，并分别计算每个元素的音频终止时间与视频终止时间之间的终止时间差。

在本步骤中，元素就是文本内容中的一个发音元素，四位随机数字为(1234)，那么1、2、3、4就是四个元素。可以遍历音频元素字符串和元素字符串唇语元素字符串，采用如下公式计算每个元素的：

音频起始时间：audio_start＝(audio_fstart/audio_sampling_rate)*1000。

音频终止时间：audio_end＝(audio_fend/audio_sampling_rate)*1000。

视频起始时间：lip_start＝(lip_fstart/fps)*1000。

视频终止时间：lip_end＝(lip_fend/fps)*1000。

然后计算每个元素的：

起始时间差：abs(lip_start–audio_start)。

终止时间差：abs(lip_end–audio_end)。

其中，audio_fstart为音频元素字符串中每个元素的音频起始帧序，audio_fend为音频元素字符串中每个元素的音频终止帧序，audio_sampling_rate音频采样率。lip_fstart为元素字符串唇语元素字符串中每个元素视频起始帧序，lip_fend为元素字符串唇语元素字符串中每个元素视频终止帧序，fps为预设的视频帧率。abs()为求绝对值。

S82：：计算每个元素的起始时间差与终止时间差的时差平均值。

在本步骤中，可以采用如下公式计算时差平均值：

diff_time＝(abs(lip_start–audio_start)+abs(lip_end–audio_end))/2。

其中，diff_time表示偏移量公式(单位ms)，其函数功能为返回两个时间变量之间的时间间隔，即计算两个时刻之间的时间差，此处diff_time的结果表示每个元素的时差平均值。

S83：：计算全部元素的时差平均值的偏移平均值，偏移信息为偏移平均值。

在本步骤中，可以对所有元素的时差平均值取均值，以四位随机数字为例，具体可以采用如下公式计算偏移平均值：

result＝(diff_time[0]+diff_time[1]+diff_time[2]+diff_time[3])/4。

其中，result为偏移平均值，diff_time[0]表示第1位数字的时差平均值，diff_time[1]表示第2位数字的时差平均值，diff_time[2]表示第3位数字的时差平均值，diff_time[3]表示第4位数字的时差平均值。

通过上述步骤S81至步骤S83，实现了基于音频元素字符串和唇语元素字符串，计算多媒体数据的偏移平均值，就是偏移信息。

步骤409：判断偏移信息是否在预设偏移范围内。若是，进入步骤410，否则进入步骤411。

在本步骤中，预设偏移范围可以经过实际测试数据统计得到，其可以表征活体录制的多媒体数据的特征。

步骤410：输出多媒体数据来自于活体。

在本步骤中，若偏移信息在预设偏移范围内，说明该多媒体数据的偏移信息足够小，是一般活体发出的实际行为产生的多媒体数据，则输出多媒体数据来自于活体。

步骤411：输出多媒体数据并非来自于活体。

在本步骤中，若偏移信息不在预设偏移范围内，说明当前的多媒体数据可能不是活体发出的行为，或者是恶意合成的攻击数据，则输出多媒体数据并非来自于活体，并且在如图2所示的活体验证场景中，本次验证不通过。可以发出警示。

上述活体检测方法，显著提高了活体检测的准确率，漏检率下降。对于一些部分少量音画不同步的视频提供了容错率。节省了原来对大量音画不同步视频的标注成本。

请参看图5，其为本申请一实施例的活体检测装置500，该装置应用于图1所示的电子设备1，并可以应用于如图2所示的活体验证场景中，以准确检测出多媒体数据的是否来自于活体，提高活体验证的安全性。该装置包括：获取模块501、提取模块502、识别模块503和解析模块504，各个模块的原理关系如下：

获取模块501，用于获取待检测的多媒体数据。详细参见上述实施例中对步骤301的描述。

提取模块502，用于提取多媒体数据中的音频数据和视频数据。详细参见上述实施例中对步骤302的描述。

识别模块503，用于对音频数据进行语音识别，得到语音信息，以及对视频数据进行唇语识别，得到唇语信息。详细参见上述实施例中对步骤303的描述。

解析模块504，用于根据语音信息和唇语信息解析得到音频数据和视频数据之间的偏移信息，并基于偏移信息验证多媒体数据的是否来自于活体。详细参见上述实施例中对步骤304的描述。

于一实施例中，识别模块503用于：对音频数据逐帧进行语音识别，获取音频数据的音频元素信息。提取音频元素信息中每个元素的音频起始帧序和音频终止帧序，语音信息包括：音频元素信息、音频起始帧序和音频终止帧序。

于一实施例中，识别模块503用于：对视频数据逐帧进行唇语识别，获取视频数据的唇语元素信息。提取唇语元素信息中每个元素的视频起始帧序和视频终止帧序，唇语信息包括：唇语元素信息、视频起始帧序和视频终止帧序。

于一实施例中，解析模块504用于：对语音信息进行数据标准化处理，并基于音频元素信息生成预设长度的音频元素字符串，对唇语信息进行数据标准化处理，并基于唇语元素信息生成预设长度的唇语元素字符串。分别将音频元素字符串和唇语元素字符串与预设字符串进行比对，并在音频元素字符串和唇语元素字符串均与预设字符串的语义匹配时，基于音频元素字符串、音频起始帧序、音频终止帧序、唇语元素字符串、视频起始帧序和视频终止帧序，计算多媒体数据的偏移信息。

于一实施例中，基于音频元素字符串、音频起始帧序、音频终止帧序、唇语元素字符串、视频起始帧序和视频终止帧序，计算多媒体数据的偏移信息，包括：针对音频元素字符串和唇语元素字符串，分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差，并分别计算每个元素字符的音频终止时间与视频终止时间之间的终止时间差。计算每个元素字符的起始时间差与终止时间差的时差平均值。计算全部元素字符的时差平均值的偏移平均值，偏移信息为偏移平均值。

于一实施例中，对语音信息进行数据标准化处理，并基于音频元素信息生成预设长度的音频元素字符串，对唇语信息进行数据标准化处理，并基于唇语元素信息生成预设长度的唇语元素字符串，包括：将音频元素信息转换为预设长度的音频元素字符串，将唇语元素信息转换为预设长度的唇语元素字符串。分别识别音频元素字符串和唇语元素字符串的位数，当识别位数小于第一阈值时，输出为识别错误。当识别位数大于或等于第一阈值，且小于第二阈值时，以第一预设值代替识别缺失的位。当识别位数大于或等于第二阈值时，基于音频元素信息、唇语元素信息的内容，通过匹配算法，提取匹配准确的位数。

于一实施例中，解析模块504还用于：判断偏移信息是否在预设偏移范围内。若偏移信息在预设偏移范围内，输出多媒体数据来自于活体，否则，输出多媒体数据并非来自于活体。

上述活体检测装置500的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种活体检测方法，其特征在于，包括：

获取待检测的多媒体数据；

提取所述多媒体数据中的音频数据和视频数据；

对所述音频数据进行语音识别，得到语音信息，以及对所述视频数据进行唇语识别，得到唇语信息；

根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，并基于所述偏移信息验证所述多媒体数据是否来自于活体。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行语音识别，得到语音信息，包括：

对所述音频数据逐帧进行语音识别，获取所述音频数据的音频元素信息；

提取所述音频元素信息中每个元素的音频起始帧序和音频终止帧序，所述语音信息包括：所述音频元素信息、所述音频起始帧序和所述音频终止帧序。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频数据进行唇语识别，得到唇语信息，包括：

对所述视频数据逐帧进行唇语识别，获取所述视频数据的唇语元素信息；

提取所述唇语元素信息中每个元素的视频起始帧序和视频终止帧序，所述唇语信息包括：所述唇语元素信息、所述视频起始帧序和所述视频终止帧序。

4.根据权利要求3所述的方法，其特征在于，所述根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，包括：

对所述语音信息进行数据标准化处理，并基于所述音频元素信息生成预设长度的音频元素字符串，对所述唇语信息进行数据标准化处理，并基于所述唇语元素信息生成所述预设长度的唇语元素字符串；

分别将所述音频元素字符串和所述唇语元素字符串与预设字符串进行比对，并在所述音频元素字符串和所述唇语元素字符串均与所述预设字符串的语义匹配时，基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序，计算所述多媒体数据的偏移信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序，计算所述多媒体数据的偏移信息，包括：

针对所述音频元素字符串和所述唇语元素字符串，分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差，并分别计算每个所述元素字符的音频终止时间与视频终止时间之间的终止时间差；

计算每个所述元素字符的所述起始时间差与所述终止时间差的时差平均值；

计算全部所述元素字符的所述时差平均值的偏移平均值，所述偏移信息为所述偏移平均值。

6.根据权利要求4所述的方法，其特征在于，所述对所述语音信息进行数据标准化处理，并基于所述音频元素信息生成预设长度的音频元素字符串，对所述唇语信息进行数据标准化处理，并基于所述唇语元素信息生成所述预设长度的唇语元素字符串，包括：

将所述音频元素信息转换为所述预设长度的所述音频元素字符串，将所述唇语元素信息转换为所述预设长度的所述唇语元素字符串；

分别识别所述音频元素字符串和所述唇语元素字符串的位数，当识别位数小于第一阈值时，输出为识别错误；

当所述识别位数大于或等于所述第一阈值，且小于第二阈值时，以第一预设值代替识别缺失的位；

当所述识别位数大于或等于第二阈值时，基于所述音频元素信息、所述唇语元素信息的内容，通过匹配算法，提取匹配准确的位数。

7.根据权利要求1所述的方法，其特征在于，所述基于所述偏移信息验证所述多媒体数据是否来自于活体，包括：

判断所述偏移信息是否在预设偏移范围内；

若所述偏移信息在所述预设偏移范围内，输出所述多媒体数据来自于活体，否则，输出所述多媒体数据并非来自于活体。

8.一种活体检测装置，其特征在于，包括：

获取模块，用于获取待检测的多媒体数据；

提取模块，用于提取所述多媒体数据中的音频数据和视频数据；

识别模块，用于对所述音频数据进行语音识别，得到语音信息，以及对所述视频数据进行唇语识别，得到唇语信息；

解析模块，用于根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息，并基于所述偏移信息验证所述多媒体数据是否来自于活体。

9.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至7中任一项所述的方法，以检测出多媒体数据是否来自于活体。

10.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至7中任一项所述的方法。