CN113505652A

CN113505652A - 活体检测方法、装置、电子设备和存储介质

Info

Publication number: CN113505652A
Application number: CN202110661492.9A
Authority: CN
Inventors: 孟嘉; 张东恒; 章健; 毕明伟; 邓新哲; 丁守鸿; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-15
Anticipated expiration: 2041-06-15
Also published as: WO2022262606A1; CN113505652B; US20230290187A1

Abstract

本申请实施例公开了一种活体检测方法、装置、电子设备和存储介质；本申请实施例可以当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据，对反射音频信号进行信号处理和时频分析，得到处理后音频信号的时频信息，并从视频数据提取待检测对象的运动轨迹信息，分别对时频信息和运动轨迹信息进行特征提取，得到待检测对象的音频特征和运动特征，再根据音频特征计算待检测对象的第一全局注意力信息，以及根据运动特征计算待检测对象的第二全局注意力，将第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于融合后全局信息确定待检测对象的活体检测结果。该方案可以有效地提高活体检测的准确性。

Description

活体检测方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种活体检测方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的快速发展，人脸识别技术不断地完善，人脸识别得到了更广泛的应用。但是，人脸识别系统很容易受到伪造人脸的攻击，比如，照片攻击或视频攻击等导致安全性问题。因此，在人脸识别前进行活体检测非常重要，可以有效地提高人脸识别的安全性。

其中，活体检测是在一些身份验证场景确定对象真实生理特征的方法，比如，在人脸识别应用中，活体检测能通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位和人脸追踪等技术，验证用户是否为真实活体本人操作，可以有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段。然而，现有的活体检测方案效果并不佳，大大地影响了人脸识别的准确性。

发明内容

本申请实施例提供一种活体检测方法、装置、电子设备和存储介质，可以有效地提高活体检测的准确性。

本申请实施例提供一种活体检测方法，包括：

当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；

对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；

分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；

根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；

将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

可选的，在一些实施例中，所述基于每一个图像帧的关键点信息，确定所述待检测对象的运动轨迹信息，可以包括：对相邻两个图像帧进行差分，得到相邻两个图像帧之间关键点信息的运动矢量；基于所述视频数据的所有运动矢量确定所述待检测对象的运动轨迹信息。

可选的，在一些实施例中，所述利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征对所述第二全局特征的注意力信息，得到第二全局注意力信息，可以包括：根据所述运动特征生成每个图像帧特征对应的第二查询向量、第二键向量和第二值向量；将每个图像帧特征的第二查询向量与第二全局特征的第二键向量进行点积，得到第二全局特征的自注意向量集；将所述第二全局特征的自注意向量集与第二全局特征对应的第二值向量相乘，将相乘后的结果进行加权求和，得到第二全局注意力信息。

相应的，本申请实施例还提供一种活体检测装置，包括：

获取单元，用于当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；

分析单元，用于对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；

提取单元，用于分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；

计算单元，用于根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；

融合单元，用于将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

可选的，在一些实施例中，所述获取单元，具体可以用于向待检测对象发射初始音频信号，并接收所述待检测对象反射回来的反射音频信号；采集所述待检测对象的视频数据。

可选的，在一些实施例中，所述活体检测装置还可以包括生成单元，如下：

所述生成单元，具体可以用于将多个音调的目标音频信号进行叠加，得到叠加后音频信号；对所述叠加后音频信号的载波频率进行随机化，生成初始音频信号。

可选的，在一些实施例中，所述分析单元可以包括增强子单元和分析子单元，如下：

所述增强子单元，用于对所述反射音频信号进行空域增强处理，得到空域增强信号；

所述分析子单元，用于对所述空域增强信号进行信号提取处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息。

可选的，在一些实施例中，所述增强子单元，具体可以用于对所述反射音频信号进行正交解调，得到解析信号；采用预设空域矩阵对所述解析信号进行空域增强处理，得到空域增强信号。

可选的，在一些实施例中，所述分析子单元，具体可以用于基于所述空域增强信号的时间轴对所述空域增强信号进行差分处理，得到差分后音频信号；基于所述差分后音频信号的幅度确定所述待检测对象在介质中的传播时间；根据所述传播时间从所述空域增强信号中提取目标音频信号，并对所述目标音频信号进行高通滤波处理，得到处理后音频信号；对所述处理后音频信号进行短时傅里叶变换，得到所述处理后音频信号的时频信息。

可选的，在一些实施例中，所述视频数据包括至少一个图像帧，所述分析单元可以包括检测子单元和确定子单元，如下：

所述检测子单元，用于对所述视频数据中每一个图像帧进行关键点检测，得到每一个图像帧对应的关键点信息；

所述确定子单元，用于基于每一个图像帧的关键点信息，确定所述待检测对象的运动轨迹信息。

可选的，在一些实施例中，所述确定子单元，具体可以用于对相邻两个图像帧进行差分，得到相邻两个图像帧之间关键点信息的运动矢量；基于所述视频数据的所有运动矢量确定所述待检测对象的运动轨迹信息。

可选的，在一些实施例中，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，所述计算单元可以包括第一计算子单元和第二计算子单元，如下：

所述第一计算子单元，用于在所述音频特征中插入第一全局特征，将所述第一全局特征作为所述处理后音频信号的一个音频帧特征；利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息；

所述第二计算子单元，用于在所述运动特征中插入第二全局特征，将所述第二全局特征作为所述视频数据的一个图像帧特征；利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征对所述第二全局特征的注意力信息，得到第二全局注意力信息。

可选的，在一些实施例中，所述第一计算子单元，具体可以用于根据所述音频特征生成每个音频帧特征对应的第一查询向量、第一键向量和第一值向量；将每个音频帧特征的第一查询向量与第一全局特征的第一键向量进行点积，得到第一全局特征的自注意向量集；将所述第一全局特征的自注意向量集与第一全局特征对应的第一值向量相乘，将相乘后的结果进行加权求和，得到第一全局注意力信息。

可选的，在一些实施例中，所述第二计算子单元，具体可以用于根据所述运动特征生成每个图像帧特征对应的第二查询向量、第二键向量和第二值向量；将每个图像帧特征的第二查询向量与第二全局特征的第二键向量进行点积，得到第二全局特征的自注意向量集；将所述第二全局特征的自注意向量集与第二全局特征对应的第二值向量相乘，将相乘后的结果进行加权求和，得到第二全局注意力信息。

可选的，在一些实施例中，所述活体检测装置还可以包括验证单元，所述验证单元可以包括第一验证子单元和第二验证子单元，如下：

所述第一验证子单元，用于根据所述音频特征计算所述待检测对象的第一注意力特征信息，以及根据所述运动特征计算所述待检测对象的第二注意力特征信息，所述第一注意力特征信息为关注所述音频特征之间相关性的特征信息，所述第二注意力特征信息为关注所述运动特征之间相关性的特征信息；

所述第二验证子单元，用于基于所述第一注意力特征信息和第二注意力特征信息对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确。

可选的，在一些实施例中，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，所述第一验证子单元，具体可以用于利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征之间相关性的注意力信息，得到第一注意力特征信息；利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征之间相关性的注意力信息，得到第二注意力特征信息。

可选的，在一些实施例中，所述第二验证子单元，具体可以用于利用训练后检测模型的解码网络，计算所述第一注意力特征信息和第二注意力特征信息之间的互注意力信息；利用训练后检测模型的验证网络对互注意力信息进行一致性验证，若验证结果通过，则确定所述活体检测结果正确。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种活体检测方法中的步骤。

此外，本申请实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本申请实施例提供的任一种活体检测方法中的步骤。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述活体检测方面的各种可选实现方式中提供的方法。

本实施例可以当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；然后，对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。该方案可以有效地提高活体检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的活体检测方法的场景示意图；

图1b是本申请实施例提供的活体检测方法的第一流程图；

图2a是本申请实施例提供的活体检测方法的第二流程图；

图2b是本申请实施例提供的活体检测方法的第三流程图；

图3是本申请实施例提供的活体检测装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的原理是以实施在一适当的运算环境中来举例说明。在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下该的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。本文该的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是某些实施例还包括没有列出的步骤或单元，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种活体检测方法、装置、电子设备和存储介质。其中，该活体检测装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

本申请实施例提供的活体检测方法涉及人工智能领域中的计算机视觉技术，可以利用人工智能的计算机视觉技术对时频信息和运动轨迹信息进行特征提取，再利用提取的特征对待检测对象进行活体判断，从而实现对待检测对象的活体检测。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉，并进一步进行图像处理，使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别等技术，还包括常见的人脸识别、人体姿态识别等生物特征识别技术。

例如，如图1a所示，首先，该集成了活体检测装置的服务器可以当接收到活体检测请求时，获取终端发送的待检测对象的反射音频信号和视频数据；然后，对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。由于该方案可以通过对反射音频信号进行信号处理和时频分析，并从视频数据提取运动轨迹信息，然后将时频信息和运动轨迹信息进行跨模态融合，从而有效地提高了活体检测的准确性。并在活体检测后进行了反射音频信号和视频数据的一致性判断，进一步提高了活体检测的准确性。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从活体检测装置的角度进行描述，该活体检测装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算机(Personal Computer，PC)等设备。

一种活体检测方法，包括：当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；然后，对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

如图1b所示，该活体检测方法的具体流程可以如下：

101、当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据。

其中，待检测对象可以指的是需要进行活体检测的对象，比如，可以为动物、人等等。反射音频信号可以指的是由待检测对象反射回来的音频信号，比如，可以由活体检测装置向待检测对象发射音频信号，并由活体检测装置接收音频信号到达待检测对象后反射回来的反射音频信号。视频数据可以指的是对待检测对象当前行为录制的视频。

在生物运动感知领域，通过分析目标活体(如人体)的四肢产生的微多普勒信号可以有助于识别人的行为、情绪、身高、体重甚至是性别。在音频信号分类研究领域，通过对含有微多普勒效应的音频声音信号进行分析，可以帮助区别目标的不同运动。比如，在穿墙雷达探测领域，由于墙体的存在并未改变目标微多普勒特征模式，因此，对反射回来的微多普勒信号进行分析可以估计出墙体背后的人的心跳、呼吸甚至是喉部的震动等等。又比如，在活体检测过程中，用户完成终端随机提示的动作(如，张嘴、摇头、点头或者其他手势等)，可以通过对回波信号(即反射回来的音频信号)进行调制和差分操作后，对信号的相位进一步进行短时傅里叶变换的时频分析，提取出微多普勒信号的有用信息，从而可以有效的区分不同动作类型和动作次数。然后，通过分析动作的视频数据，切割信号的有用区间。由于可以通过对回波信号处理，提取用户做动作过程中产生的微多普勒信号并变换成时频信号，对录制的视频进行动作检测，从而找到动作发生的时间区间，用该区间对时频信号进行切割，再利用切割后的信号和视频数据中提取到运动轨迹信息进行融合，利用融合后的信息对用户实现精准的活体检测。

其中，微多普勒效应可以指的是当目标存在相对于雷达的径向运动时，目标或是目标的组成还存在相对于雷达的小幅运动分量，这种现象叫做微动。这里的小幅是指相对于目标和雷达间的径向距离而言的。对于单散射目标来说，微动体现在目标的非匀速运动上的，对多散射目标来说，微动是体现在目标的非刚性上，非刚性是指目标各组成部分之间还有相对的运动。目标或目标上的任何结构部件除了质心平动以外还存在着震动、转动和加速运动等，这些微小运动都将在接收信号上引起额外的频率调制，并且在目标主体移动产生的多普勒频率偏移附近产生偏频。由于微多普勒的唯一性，微多普勒频移是不相同的。微多普勒信号三个重要的参数包括角频率、多普勒幅度和初始相位。

例如，具体可以向待检测对象发射初始音频信号，并接收所述待检测对象反射回来的反射音频信号，同时，采集所述待检测对象的视频数据。比如，具体可以利用音频输出设备向待检测对象发射初始音频信号，并利用音频输入设备接收所述待检测对象反射回来的反射音频信号，同时，利用图像采集设备采集所述待检测对象的视频信息。

比如，当活体检测装置集成在服务器时，可以由终端的音频输出设备向待检测对象发射初始音频信号，并由终端的音频输入设备接收所述待检测对象反射回来的反射音频信号，同时，由终端的图像采集设备采集所述待检测对象的视频信息，然后将终端的音频输入设备接收到的反射音频信号和图像采集设备采集到的视频信息发送给服务器，以便服务器的活体检测装置基于反射音频信号和视频数据对待检测对象进行活体检测。

比如，当活体检测装置集成在终端时，可以由终端的音频输出设备向待检测对象发射初始音频信号，并由终端的音频输入设备接收所述待检测对象反射回来的反射音频信号，同时，由终端的图像采集设备采集所述待检测对象的视频信息，然后由终端的活体检测装置基于反射音频信号和视频数据对待检测对象进行活体检测。

由于该方案可以利用终端上自有的音频输出设备、音频输出设备和图像采集设备等获取到活体检测所需的反射音频信号和视频数据，不需要额外的硬件设备，使得该方案可以在普通的移动终端上进行，而不需要依赖特殊的硬件，大大地节约了资源，提高了活体检测的便捷性、可实现性和可操作性。

其中，音频输出设备可以为听筒、扬声器等，音频输入设备可以为麦克风等，图像采集设备可以为摄像头等。

在向待检测对象发射初始音频信号之前，可以先生成初始音频信号。为了提高活体检测的准确性，产生的音频可以为多个音调的叠加，并且，为了抵抗音频重放攻击，可以将生成音频的载波频率随机化，攻击者无法通过重放以前录制的音频来绕过当前的检测。比如，具体可以将多个音调的目标音频信号进行叠加，得到叠加后音频信号；对所述叠加后音频信号的载波频率进行随机化，生成初始音频信号。

比如，多个音调的目标音频信号叠加可以为

其中2A是振幅，f_k是信号的载波频率，N是子载波的总数。

102、对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息。

例如，具体可以对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息。其中，所述处理后音频信号可以包括至少一个音频帧信号，所述视频数据可以包括至少一个图像帧。可选的，所述处理后音频信号可以包括多个音频帧信号，所述视频数据可以包括多个图像帧。

由于信号获取的质量对于活体检测的准确度至关重要。在实际的活体检测中，信号传播中引入的干扰和噪声将会弱化待检测对象反射回来的信号，影响活体检测的准确度，因此，为了增强来自待检测对象的反射音频信号，可以对反射音频信号进行空域增强处理，能够根据待检测对象所在的位置增强信号，抑制干扰和噪声，实现更准确的活体检测。例如，具体可以对所述反射音频信号进行空域增强处理，得到空域增强信号；对所述空域增强信号进行信号提取处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息。

其中，对所述反射音频信号进行空域增强处理的方式可以有很多种，比如，可以先对反射音频信号进行正交解调(IQ调制)，然后再去除其他路径的干扰信号，仅保留与待检测对象的运动有关的信号，再然后将与待检测对象的运动有关的信号进行空域增强处理。其中，IQ调制就是数据分为两路，分别进行载波调制，两路载波相互正交。I是in-phase(同相)，q是quadrature(正交)。

例如，步骤“对所述反射音频信号进行空域增强处理，得到空域增强信号”，具体可以包括：对所述反射音频信号进行正交解调，得到解析信号；采用预设空域矩阵对所述解析信号进行空域增强处理，得到空域增强信号。

其中，预设空域矩阵的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在电子设备中。此外，预设空域矩阵可以内置于电子设备中，或者，也可以保存在存储器中并发送给电子设备，等等。

比如，对接收到的反射音频信号进行正交解调，得到不同载波上的复信号x，即解析信号x。由于在活体检测过程中，待检测对象的动作对音频信号起到了调制的作用。反射音频信号由多条路径组成，包括来自待检测对象的反射路径、固体传播路径、空气传播路径和周围物体的反射路径。

音频输出设备播放的初始音频信号被视为载波信号，音频输入设备记录的反射音频信号视为经过相移调制的多个基带信号的叠加。由于生成的音频是具有不同频率的音频信号的叠加，因此，音频输出设备播放的音频可以看作不同频率的基带信号的叠加。由于记录的信号与播放的信号同步，可以利用相干检波对记录的信号进行解调，以求得载波频率上的基带信号的I(同相)分量和Q(正交)分量，得到的基带信号I(t)和Q(t)。为了提高识别的准确性，需要去除其他路径的干扰信号而仅保留与待检测对象运动有关的信号。动态干扰信号指其他附近移动物体反射的信号，可以将用于相干检波的低通滤波器设置截止频率，在解调基带信号的同时消除动态干扰，得到的复信号记为x，

x＝I(t)+Q(t)

随后采用空域信号增强处理方法将原始信号转换到距离域，设经过正交解调的信号表达式为x，则空域信号增强处理过程的表达式可以如下：

y＝Ax

其中，y是输出的空域增强信号，A是空域增强信号的导向矩阵(即预设空域矩阵)，表达式可以如下：

A＝[a(τ₁),a(τ₂),…,a(τ_S)]

a(τ)＝e^j2πfτ

其中，τ是超声波发出后到接受前在介质中的传播时间，f是信号频率，j是虚数单位，S是人为设定的信号可能的传播时间数量。经过上式处理后，输出的空域信号y中每一点代表来自不同空间位置的信号。

可选的，步骤“对所述空域增强信号进行信号提取处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息”，具体可以包括：基于所述空域增强信号的时间轴对所述空域增强信号进行差分处理，得到差分后音频信号；基于所述差分后音频信号的幅度确定所述待检测对象在介质中的传播时间；根据所述传播时间从所述空域增强信号中提取目标音频信号，并对所述目标音频信号进行高通滤波处理，得到处理后音频信号；对所述处理后音频信号进行短时傅里叶变换，得到所述处理后音频信号的时频信息。

比如，为了消除环境中的干扰，如直接从音频输出设备到音频输入设备的信号泄露等，可以对y沿时间轴进行差分，即

y′_t＝y_t+1-y_t

其中，t是空域增强信号的时间戳，随后，根据空域增强信号y′_t的幅度判断待检测对象的反射音频信号在介质中的传播时间，并提取出这个传播时间相应的信号进行高通滤波，然后，做短时傅里叶变换(Short Time Fourier Transform，STFT)，得到处理后音频信号的时频图，即处理后音频信号的时频信息。

其中，短时傅里叶变换可以指的是用一个时间宽度足够窄的固定窗函数w(t)与时间信号x(t)相乘以取出一段短时间间隔内是平稳的信号，接着对该段被取出的信号进行傅里叶变换以获取该时间宽度中信号频谱信息，最后让这个固定的窗函数w(t)沿着时间轴移动就可以获得信号在不同时刻的傅里叶变换，这些傅里叶变换的集合就可以描述信号的频谱随时间变化的关系。

可选的，为了进一步去除干扰，提高活体检测的准确性，可以通过分析动作的视频数据，对处理后音频信号的时频图进行切割，例如，具体可以基于视频数据对处理后音频信号的时频信息进行运动区间切割，得到切割后时频信息，则所述分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征，具体可以为：分别对所述切割后时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征。

由于仅仅基于音频信号的活体检测，在面对较为针对性的专业攻击时，安全性较低，而待检测对象的处理后音频信号的变化取决于待检测对象当前所做的动作，因此，可以提取视频数据中的运动信息，使得可以利用视觉模态中的运动信息进行结合判断，以提高活体检测的安全性和准确性。比如，所述视频数据包括至少一个图像帧，具体可以对所述视频数据中每一个图像帧进行关键点检测，得到每一个图像帧对应的关键点信息；基于每一个图像帧的关键点信息，确定所述待检测对象的运动轨迹信息。

可选的，步骤“基于每一个图像帧的关键点信息，确定所述待检测对象的运动轨迹信息”，具体可以包括：对相邻两个图像帧进行差分，得到相邻两个图像帧之间关键点信息的运动矢量；基于所述视频数据的所有运动矢量确定所述待检测对象的运动轨迹信息。

比如，以待检测对象目标区域中的目标部位为例，令{V₀,V₁,…,V_M}为采集到的视频序列，对每一图像帧进行目标区域检测和目标区域关键点定位，提取出每一图像帧中目标部位对应的K个关键点位置，得到{L₀,L₁,…,L_M}，其中第m帧图像的目标部位关键点序列L_m＝{P₁,P₂,…,P_K}，而P_k＝(x_k，y_k)为第k个关键点在该帧图像上的坐标。然后，对相邻图像帧的关键点序列做差分，得到两帧之间的运动矢量，即MV_m＝L_m+1-L_m。由此得到的运动矢量序列反映了目标部位进行行为动作，目标部位关键点的运动轨迹(motion trajectory){MV₀,MV₂,…,MV_M-1}。其中，对每一图像帧进行目标区域检测和目标区域关键点定位的方式可以有很多种，比如，可以利用多任务卷积神经网络(Multi-task convolutional neuralnetwork，MTCNN)，对目标区域检测与目标关键点检测等，在此不做详细说明。

103、分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征。

其中，由步骤102得到的处理后音频信号的时频信息(比如，时频图)可以表示为

其中，1表示X_u只有1个通道，即时频图是一张灰度图；F为时频图的高度，即该时频图表示短时傅里叶变换的频率分量个数；N为时频图的宽度，即短时傅里叶变换在时域的滑窗个数。

由步骤102得到的运动轨迹信息可以表示为

其中，2表示X_v有2个通道，分别为关键点坐标在两个坐标轴上的取值；K为每一图像帧上目标部位关键点的个数，M为视频数据中的图像帧数。

由于来自音频和视频模态的两个张量(Tensor)：

和

的最后一个维度分别代表了音频帧数(STFT滑窗个数)N和视频帧数M。由于两个模态的采样率和处理方式不一致，N和M通常也不一致，且音频帧和视频帧代表的时间长度也往往不一致。因此，为了有效融合两个模态的信息，可以利用本方案的跨模态信息融合方式，将来自不同模态的信息有效的融合。比如，可以先对所述时频信息和所述运动轨迹信息进行特征提取，再执行后续步骤。

例如，具体可以利用训练后检测模型的特征提取网络(比如，可以由两个由卷积神经网络组成)分别把两个Tensor处理成音频特征(UltrasoundEmbedding)

和运动特征(LipMotionEmbedding)

其中，所述音频特征可以包括至少一个音频帧对应的音频帧特征，所述运动特征可以包括至少一个图像帧对应的图像帧特征。

为了提高活体检测的效率，可以先对检测模型进行预训练，得到训练后检测模型，再利用训练后检测模型的特征提取网络，对所述时频信息和所述运动轨迹信息进行特征提取。可选的，该检测模型可以由多个训练样本训练而成。具体可以由其他设备进行训练后，提供给该活体检测装置，或者，也可以由该活体检测装置自行进行训练；即在利用训练后检测模型之前，该活体检测方法还可以包括：

获取多个训练样本；

利用检测模型对所述训练样本进行预测，得到预测检测结果；

计算所述预测检测结果和实际样本结果的损失，基于所述损失对检测模型进行收敛，得到训练后检测模型。

可选的，训练后检测模型可以由基于变压器的双向编码器表征(BidirectionalEncoder Representations from Transformers，BERT)模型构成，比如，训练后检测模型可以包括特征提取网络，两个编码网络(Transformer Encoder)、一个解码网络(TransformerDecoder)、检测网络以及验证网络等等。其中，检测网络和验证网络均可以为由全连接层组成的多层感知机。

104、根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息。

其中，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息。

例如，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，具体可以在所述音频特征中插入第一全局特征，将所述第一全局特征作为所述处理后音频信号的一个音频帧特征；利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息；在所述运动特征中插入第二全局特征，将所述第二全局特征作为所述视频数据的一个图像帧特征；利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征对所述第二全局特征的注意力信息，得到第二全局注意力信息。

可选的，步骤“利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息”，具体可以包括：根据所述音频特征生成每个音频帧特征对应的第一查询向量、第一键向量和第一值向量；将每个音频帧特征的第一查询向量与第一全局特征的第一键向量进行点积，得到第一全局特征的自注意向量集；将所述第一全局特征的自注意向量集与第一全局特征对应的第一值向量相乘，将相乘后的结果进行加权求和，得到第一全局注意力信息。

比如，训练后检测模型的第一编码网络包括至少一个第一注意力模块、至少一个第一前馈神经网络和至少一个第一残差模块。比如，将音频特征分别输入至多个第一表示子空间，采用第一注意力模块在各个第一表示子空间中对每个音频帧的音频帧特征进行特征提取，以在一个第一表示子空间中，第一注意力模块对每个音频帧的音频帧特征进行提取为例来说明，第一注意力模块对每个音频帧的音频帧特征进行降维，在降维后的音频帧特征中生成查询向量(Query，简称Q)、键向量(Key，简称K)和值向量(Value，简称V)，通过处理后音频信号中剩余的音频帧对目标音频帧计算自注意力向量，得到目标音频帧的初始上下文信息。

其中，目标音频帧的自注意机制输出的上下文信息的计算可以如下：

其中，q_i为目标音频帧的查询向量，K^T为目标音频帧的键向量，V为目标音频帧的值向量，d为目标音频帧的键向量的维数。

通过计算公式，可以看出目标音频帧的注意力向量即初始上下文信息可以通过该目标音频帧的三个向量进行计算得到，比如，可以通过剩余音频帧的键向量与目标音频帧的查询向量进行点积，得到目标音频帧的自注意向量集，将处理后音频信号中每个音频帧的自注意力向量集中的值再次进行降维，降维的方式可以为除以目标音频帧的键向量的平方根来实现。对目标音频帧的自注意向量集中的自注意向量与目标音频帧对应的值向量相乘，将相乘后的结果进行加权求和，得到处理后音频信号中选定的目标音频帧的自注意力输出，得到目标音频帧的初始上下文信息，重复通过上述步骤，完成对处理后音频信号中剩余音频帧的自注意力输出，最后得到处理后音频信号中的每个音频帧在不同第一表示子空间中的初始上下文信息。

然后，对各个第一表示子空间下的处理后音频信号中每个音频帧的初始上下文信息进行加权，比如，对每个音频帧在不同的第一表示子空间下的初始上下文信息进行拼接，对拼接后的每个音频帧的初始上下文信息进行加权，就得到融合所有第一表示子空间的每个音频帧的融合后初始上下文信息。接着，将得到每个音频帧的融合后初始上下文信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如，通过第一前馈神经将每个音频帧的融合后初始上下文信息输入到第一残差模块中进行求和与归一化，得到每个音频帧的自注意力信息，即每个音频帧的自注意力信息包括第一全局特征对应的第一全局注意力信息和每个音频帧特征对应的第一注意力特征信息。

在此需要说明的是，训练后检测模型的第一编码网络可以包括多个编码网络层，每个编码网络层可以包括第一注意力模块、第一前馈神经网络和第一残差模块。在对处理后音频信号中每个音频帧的音频帧特征信息进行解析得到每个音频帧的自注意力信息的过程中，可以通过多个编码网络层串联来得到。其中，编码网络层的个数需要根据实际应用需求来进行设定。

可选的，步骤“利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征对所述第二全局特征的注意力信息，得到第二全局注意力信息”，具体可以包括：根据所述运动特征生成每个图像帧特征对应的第二查询向量、第二键向量和第二值向量；将每个图像帧特征的第二查询向量与第二全局特征的第二键向量进行点积，得到第二全局特征的自注意向量集；将所述第二全局特征的自注意向量集与第二全局特征对应的第二值向量相乘，将相乘后的结果进行加权求和，得到第二全局注意力信息。

比如，训练后检测模型的第二编码网络包括至少一个第二注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。比如，将音频特征分别输入至多个第二表示子空间，采用第二注意力模块在各个第二表示子空间中对每个图像帧的图像帧特征进行特征提取，以在一个第二表示子空间中，第二注意力模块对每个图像帧的图像帧特征进行提取为例来说明，第二注意力模块对每个图像帧的图像帧特征进行降维，在降维后的图像帧特征中生成查询向量、键向量和值向量，通过视频数据中剩余的图像帧对目标图像帧计算自注意力向量，得到目标图像帧的初始上下文信息。

其中，目标图像帧的自注意机制输出的上下文信息的计算可以如下：

其中，q_i为目标图像帧的查询向量，K^T为目标图像帧的键向量，V为目标图像帧的值向量，d为目标图像帧的键向量的维数。

通过计算公式，可以看出目标图像帧的注意力向量即初始上下文信息可以通过该目标图像帧的三个向量进行计算得到，比如，可以通过剩余图像帧的键向量与目标图像帧的查询向量进行点积，得到目标图像帧的自注意向量集，将视频数据中每个图像帧的自注意力向量集中的值再次进行降维，降维的方式可以为除以目标图像帧的键向量的平方根来实现。对目标图像帧的自注意向量集中的自注意向量与目标图像帧对应的值向量相乘，将相乘后的结果进行加权求和，得到视频数据中选定的目标图像帧的自注意力输出，得到目标图像帧的初始上下文信息，重复通过上述步骤，完成对视频数据中剩余图像帧的自注意力输出，最后得到视频数据中的每个图像帧在不同第二表示子空间中的初始上下文信息。

然后，对各个第二表示子空间下的视频数据中每个图像帧的初始上下文信息进行加权，比如，对每个图像帧在不同的第二表示子空间下的初始上下文信息进行拼接，对拼接后的每个图像帧的初始上下文信息进行加权，就得到融合所有第二表示子空间的每个图像帧的融合后初始上下文信息。接着，将得到每个图像帧的融合后初始上下文信息通过第二前馈神经网络输入到第二残差模块进行特征提取。比如，通过第二前馈神经将每个图像帧的融合后初始上下文信息输入到第二残差模块中进行求和与归一化，得到每个图像帧的自注意力信息，即每个图像帧的自注意力信息包括第二全局特征对应的第二全局注意力信息和每个图像帧特征对应的第二注意力特征信息。

在此需要说明的是，训练后检测模型的第二编码网络可以包括多个编码网络层，每个编码网络层可以包括第二注意力模块、第二前馈神经网络和第二残差模块。在对视频数据中每个图像帧的图像帧特征信息进行解析得到每个图像帧的上下文特征信息的过程中，可以通过多个编码网络层串联来得到。其中，编码网络层的个数需要根据实际应用需求来进行设定。

105、将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

例如，具体可以将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息；基于所述融合后全局信息对所述待检测对象进行活体检测，得到所述待检测对象的活体检测结果。

比如，将所述第一全局注意力信息和第二全局注意力信息进行拼接，得到融合后全局信息；利用训练后检测模型的检测网络，对所述融合后全局信息进行二分类，根据分类结果确定所述待检测对象的活体检测结果。比如，训练后检测模型的检测网络具体可以为一个由全连接层(fully connected layers，FC layers)组成的多层感知机(Muti－LayerPerception，MLP)，进行二分类的活体检测判断，比如，活体(Live)或者假冒(Spoof)。

为了进一步提高活体检测的准确性，可以对所述反射音频信号和视频数据进行一致性判断，以确定跨模态特征是否一致。比如，步骤“基于所述融合后全局信息确定所述待检测对象的活体检测结果”之后，还可以包括：

根据所述音频特征计算所述待检测对象的第一注意力特征信息，以及根据所述运动特征计算所述待检测对象的第二注意力特征信息，所述第一注意力特征信息为关注所述音频特征之间相关性的特征信息，所述第二注意力特征信息为关注所述运动特征之间相关性的特征信息；基于所述第一注意力特征信息和第二注意力特征信息对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确。

可选的，步骤“根据所述音频特征计算所述待检测对象的第一注意力特征信息，以及根据所述运动特征计算所述待检测对象的第二注意力特征信息”，具体可以包括：

利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征之间相关性的注意力信息，得到第一注意力特征信息；利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征之间相关性的注意力信息，得到第二注意力特征信息。其中，计算所述待检测对象的第一注意力特征信息和第二注意力特征信息的具体过程可以详见步骤104。

可选的，步骤“基于所述第一注意力特征信息和第二注意力特征信息对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确”，具体可以包括：

利用训练后检测模型的解码网络，计算所述第一注意力特征信息和第二注意力特征信息之间的互注意力信息；利用训练后检测模型的验证网络对互注意力信息进行一致性验证，若验证结果通过，则确定所述活体检测结果正确。

比如，在得到音频帧特征的第一注意力特征信息和图像帧特征的第三注意力特征信息后，可以采用训练后语言模型的解码网络计算所述第一注意力特征信息和第二注意力特征信息之间的互注意力信息。其中，训练后语言模型的解码网络可以包括至少一个注意力模块、至少一个第三前馈神经网络和至少一个第三残差模块。比如，具体可以如下：

将第一注意力特征信息和第二注意力特征信息(包括多个注意力特征信息)分别输入至解码网络，在第一注意力特征信息中提取查询向量，在第二注意力特征信息中提取键向量和值向量。通过第一注意力特征信息和第二注意力特征信息计算互注意力进行解码。比如，可以通过第二注意力特征信息的键向量与第一注意力特征信息的查询向量进行点积，得到第一注意力特征信息的自注意向量集，将第一注意力特征信息的自注意力向量集中的值再次进行降维，降维的方式可以为除以第二注意力特征信息的键向量的平方根来实现。对第一注意力特征信息的自注意向量集中的自注意向量与第二注意力特征信息对应的值向量相乘，将相乘后的结果进行加权求和，得到文本描述信息中选定的目标字的自注意力输出，重复通过上述步骤，得到每个注意力特征信息的初始互注意力特征。然后，对每个注意力特征信息的初始互注意力特征进行加权，得到融合后初始互注意力特征。接着，将融合后初始互注意力特征通过第三前馈神经网络输入到第三残差模块进行特征提取，比如，融合后初始互注意力特征输入到第三残差模块中进行求和与归一化，得到互注意力特征。最后，将所述互注意力特征经过线性变换后得到互注意力信息。

在此需要说明的是，在计算所述第一注意力特征信息和第二注意力特征信息之间的互注意力信息的过程中，可以通过多个解码网络串联来得到。每比如，第一解码网络得到第一层互注意力特征，第二解码网络将第一层互注意力特征重复第一解码网络的步骤，得到第二层互注意力特征，依次类推，通过多层解码网络后得到最终输出的互注意力特征。其中，解码网络的个数根据实际应用需要来进行设定。

可选的，为了进一步提高活体检测的准确性，在活体检测过程中，除了要求用户完成活体检测装置提示的张嘴、摇头、点头或者其他手势等动作之外，还可以要求用户完成活体检测装置随机提示的语言动作(如读数字、读汉字、说成语等等)。比如，当活体检测装置要求用户完成的是语言动作(如读数字)时，可以根据用户完成该语言动作的唇动与反射音频信号是否一致判断是否活体，进一步对该用户完成语言动作时产生的语音进行识别，根据识别结果确定用户是否准确地完成活体检测装置提示的语言动作(如对用户读数字的语音进行识别，根据识别结果确定用户是否准确读取活体检测装置提示的数字)，以进一步提高活体检测的准确性。其中，语音识别的方式可以有很多种，在此不一一赘述。

可选的，在判断待检测对象为活体之后，可以对该待检测对象人脸识别，以确定该待检测对象的身份信息，从而提高人脸识别的准确性和安全性，进而将人脸识别应用于各类支付场景或者身份验证场景等等。

需要说明的是，为了提高活体检测的安全性，上述方法中数据存储均保存在区块链中。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

由上可知，本实施例可以当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；然后，对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。由于该方案可以通过对反射音频信号进行信号处理和时频分析，并从视频数据提取运动轨迹信息，然后将时频信息和运动轨迹信息进行跨模态融合，从而有效地提高了活体检测的准确性。并在活体检测后进行了反射音频信号和视频数据的一致性判断，进一步提高了活体检测的准确性。

根据上一个实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该活体检测装置具体集成在电子设备，电子设备具体为服务器，待检测对象具体为待检测用户，目标区域具体为人脸，目标部位具体为唇部，音频信号具体为超声波信号，为例进行说明。

(一)首先，可以对预设的检测模型进行训练，具体可以如下：

获取多个训练样本；利用检测模型对所述训练样本进行预测，得到预测检测结果；计算所述预测检测结果和实际样本结果的损失，基于所述损失对检测模型进行收敛，得到训练后检测模型。

(二)利用训练好的训练后检测模型，便可以对待检测对象进行活体检测，具体可以参见图2a和图2b。

如图2a所示，一种活体检测方法，具体流程可以如下：

201、当电子设备接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据。

例如，具体可以由终端向待检测对象发射初始音频信号，并由终端接收所述待检测对象反射回来的反射音频信号，同时，由终端采集所述待检测对象的视频数据，然后将终端接收到的反射音频信号和采集到的视频信息发送给服务器。比如，终端具体可以为手机。

比如，可以由终端的音频输出设备(如手机的听筒)向待检测对象发射初始音频信号，并由终端的音频输入设备(如手机的麦克风)接收所述待检测对象反射回来的反射音频信号，同时，由终端的图像采集设备(如手机的摄像头)采集所述待检测对象的视频信息，然后将终端的音频输入设备接收到的反射音频信号和图像采集设备采集到的视频信息发送给电子设备，以便电子设备的活体检测装置基于反射音频信号和视频数据对待检测对象进行活体检测。比如，可以采用听筒播放超声波信号，麦克风记录超声波信号，一旦扬声器开始播放超声波信号，麦克风就开始记录。记录的信号中包含被反射回来的超声波信号。然后，将录制的音频信号上传到服务器，服务器进行后续处理。

比如，在手机进行身份认证时，可以使用手机的扬声器播放难以察觉的超声波信号，并同时使用麦克风录制，用户完成指定动作造成的回波信号。然后，将麦克风录制的回波信号上传到服务器。由于该方案可以利用手机自有的听筒、扬声器、麦克风等获取到活体检测所需的反射音频信号和视频数据，不需要额外的硬件设备，使得该方案可以在普通的移动终端上进行，而不需要依赖特殊的硬件，大大地节约了资源，提高了活体检测的便捷性、可实现性和可操作性。

由于超声波的传播具有一定的方向性，当终端为手机时，可以选用位于手机顶部的听筒，算法效果优于位于手机底部的扬声器，因此可以选用听筒播放超声波音频信号。

比如，多个音调的目标音频信号叠加可以为

其中2A是振幅，f_k是信号的载波频率，N是子载波的总数。

对于载波频率f_k的选择，主要考虑以下两点：首先，不同终端(如手机)的频率响应不同，因此，需要选择频响较差的频率，因为人脸离手机的距离较小，而频响较好的频率可能会带来距离较远处的干扰。其次，为了避免相邻频率信号间的干扰，可以规定任意两个音调的频率间隔Δf至少为300Hz。并且，将生成音频的载波频率随机化，以抵抗音频重放攻击。因此，使得攻击者无法通过重放以前录制的音频来绕过该方案的检测。考虑到大多数人听不到频率高于18KHz的声音，而手机的音频硬件对高于21KHz声音的响应不太灵敏，因此，可以将超声波信号频率设置在18～21KHz的范围内。

202、电子设备对所述反射音频信号进行信号处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息。

例如，电子设备具体可以对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息。其中，所述反射音频信号可以包括至少一个音频帧信号。

由于信号获取的质量对于活体检测的准确度至关重要。在实际环境中，超声波信号传播中引入的干扰和噪声将会弱化人体信号，影响活体检测的准确度，因此，为了增强来自人脸的反射音频信号，可以对反射音频信号进行空域增强处理，能够根据人脸所在的位置增强信号，抑制干扰和噪声，实现更准确的活体检测。例如，电子设备具体可以对所述反射音频信号进行空域增强处理，得到空域增强信号；对所述空域增强信号进行信号提取处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息。

例如，电子设备具体可以对所述反射音频信号进行正交解调，得到解析信号；采用预设空域矩阵对所述解析信号进行空域增强处理，得到空域增强信号。

比如，对接收到的反射音频信号进行正交解调，得到不同载波上的复信号x，即解析信号x。具体过程可以如下所述。

由于在人脸认证过程中，用户的动作对超声波信号起到了调制的作用。反射音频信号由多条路径组成，包括来自人脸的反射路径、固体传播路径、空气传播路径和周围物体的反射路径。假设存在M条路径，麦克风录制的反射音频信号Rec(t)的表达式可以如下：

其中，i表示第i条路径，2A_i(t)表示声音信号在第i条路径中的振幅，

表示由传播延迟引起的相位偏移，

表示由系统延迟引起的相位偏移。

扬声器播放的初始音频信号被视为载波信号，麦克风记录的反射音频信号Rec(t)视为经过相移调制的多个基带信号的叠加。由于生成的超声波音频是具有不同频率的音频信号的叠加，因此扬声器播放的初始音频信号可以看作不同频率的基带信号的叠加。由于记录的信号与播放的信号同步，利用相干检波对记录的声音信号进行解调，可以由如下公式求得载波频率f_k上的基带信号的I(同相)分量和Q(正交)分量：

其中，F_low为低通滤波器，F_down为下采样函数。

利用公式cos(a)×cos(b)＝cos(a+b)/2+cos(a-b)/2，可以得到

然后，通过低通滤波器F_low除去R_k(t)×cos2πf_kt的高频项，再通过F_down下采样。然后将基带信号的I分量计算得到：

类似地，Q分量也可以计算得到：

接着，对于得到的基带信号I(t)和Q(t)，为了提高识别的准确性，需要去除其他路径的干扰信号而仅保留与嘴唇运动有关的信号。动态干扰信号指其他附近移动物体反射的信号。由于人体躯干的运动通常会导致50-200Hz范围内的信号频移，而嘴唇运动引起的最大频移通常不超过40Hz，因此，将用于相干检波的低通滤波器F_low的截止频率设置为40Hz，就可以在解调基带信号的同时消除动态干扰。

其中，A_lip(t)是嘴唇反射信号的幅度，d_lip是传播延迟，v是声音在空气中的传播速度，θ_lip是由系统延迟引起的相移。

再然后，通过空域增强处理定位到人体信号传播时间，然后只提取这个传播时间的信号从而去除静态干扰后，做零陷滤波和STFT变换。比如，可以采用空域信号增强处理方法将原始信号转换到距离域。

经过以上步骤，得到的复信号记为x，具体表达式可以如下：

x＝I(t)+Q(t)

则空域信号增强处理过程的表达式可以如下：

y＝Ax

A＝[a(τ₁),a(τ₂),…,a(τ_s)]

a(τ)＝e^j2πfτ

例如，电子设备具体可以基于所述空域增强信号的时间轴对所述空域增强信号进行差分处理，得到差分后音频信号；基于所述差分后音频信号的幅度确定所述待检测对象在介质中的传播时间；根据所述传播时间从所述空域增强信号中提取目标音频信号，并对所述目标音频信号进行高通滤波处理，得到处理后音频信号；对所述处理后音频信号进行短时傅里叶变换，得到所述处理后音频信号的时频信息。

比如，为了消除环境中的干扰，如直接从听筒到麦克风的信号泄露等，对y沿时间轴进行差分，即

y′_t＝y_t+1-y_t

其中，t是空域增强信号的时间戳，随后，根据空域增强信号y′_t的幅度判断待检测对象的反射音频信号在介质中的传播时间，然后只提取这个传播时间的信号进行高通滤波，得到处理后音频信号，最后通过短时傅里叶变换，得到处理后音频信号的时频图，即处理后音频信号的时频信息。其中，处理后音频信号的时频图是一种二维频谱，可以表示信号频谱随时间变化的图形，其纵轴为频率，横轴为时间。

可选的，为了进一步去除干扰，提高活体检测的准确性，可以通过分析动作的视频数据，对处理后音频信号的时频图进行切割，因为如果不对接收到的信号进行切割，从收到的信号中很难判断出哪一部分是用户的动作，哪一部分是其他干扰，例如：手指晃动、背景人员走动等。比如，以张闭嘴动作为例，切割流程可以如图2b所示，具体可以通过人脸检测和人脸关键点检测算法，定位到感兴趣的动作区域，如嘴部。通过分析张闭嘴的幅度，比如，嘴部关键点的高宽比，得到一个时序曲线。当该曲线的幅度上升和下降到设定的阈值时，判定为动作开始和结束的区间。在音视频同步后，即可切割出整段微多普勒特征图(即时频图)上对应该动作区间的有用信号片段，把张嘴前后的其他动作的信息去除掉。比如，通过对反射音频信号处理，提取用户做动作过程中产生的微多普勒信号并变换成时频信号，对录制的视频进行动作检测从而找到动作发生的时间区间，用该区间对时频信号进行切割。例如，具体可以对处理后音频信号的时频信息进行运动区间切割，得到切割后时频信息，则所述分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征，具体可以为：分别对所述切割后时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征。

203、电子设备从所述视频数据提取所述待检测对象的运动轨迹信息。

由于仅仅基于音频信号的活体检测，在面对较为针对性的专业攻击时，安全性较低，同时考虑到超声波信号的变化取决于用户所做的动作，因此，可以提取视频数据中的运动信息，使得可以利用视觉模态中的运动信息进行结合判断，以提高活体检测的安全性和准确性。比如，所述视频数据包括至少一个图像帧，电子设备具体可以对所述视频数据中每一个图像帧进行关键点检测，得到每一个图像帧对应的关键点信息；对相邻两个图像帧进行差分，得到相邻两个图像帧之间关键点信息的运动矢量；基于所述视频数据的所有运动矢量确定所述待检测对象的运动轨迹信息。

比如，以待检测用户人脸中唇部的唇动信息为例，令{V₀,V₁,…,V_M}为采集到的视频序列，对每一图像帧进行人脸检测和人脸关键点定位，提取出每一图像帧中唇部对应的K个关键点位置，得到{L₀,L₁,…,L_M}，其中第m帧图像的唇部关键点序列L_m＝{P₁,P₂,…,P_K}，而P_k＝(x_k，y_k)为第k个关键点在该帧图像上的坐标。然后，对相邻图像帧的关键点序列做差分，得到两帧之间的运动矢量，即MV_m＝L_m+1-L_m。由此得到的运动矢量序列反映了用户做张闭嘴动作时，唇部关键点的运动轨迹{MV₀,MV₂,…,MV_M-1}。

204、电子设备分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征。

其中，得到的处理后音频信号的时频信息(比如，时频图)可以表示为

其中，得到的运动轨迹信息可以表示为

由于来自音频和视频模态的两个张量(Tensor)：

和

的最后一个维度分别代表了音频帧数(STFT滑窗个数)N和视频帧数M。由于两个模态的采样率和处理方式不一致，N和M通常也不一致，且音频帧和视频帧代表的时间长度也往往不一致。因此，为了有效融合两个模态的信息，可以利用本方案的跨模态信息融合方式，将来自不同模态的信息有效的融合。

例如，电子设备具体可以利用训练后检测模型的特征提取网络(比如，可以由两个由卷积神经网络组成)分别把两个Tensor处理成音频特征

和运动特征

205、电子设备根据所述音频特征计算所述待检测对象的第一全局注意力信息。

其中，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息。例如，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，电子设备具体可以在所述音频特征中插入第一全局特征，将所述第一全局特征作为所述处理后音频信号的一个音频帧特征；利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息。

例如，电子设备具体可以根据所述音频特征生成每个音频帧特征对应的第一查询向量、第一键向量和第一值向量；将每个音频帧特征的第一查询向量与第一全局特征的第一键向量进行点积，得到第一全局特征的自注意向量集；将所述第一全局特征的自注意向量集与第一全局特征对应的第一值向量相乘，将相乘后的结果进行加权求和，得到第一全局注意力信息。具体过程可以详见上述实施例，在此不再赘述。

206、电子设备根据所述运动特征计算所述待检测对象的第二全局注意力信息。

其中，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息。例如，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，电子设备具体可以在所述音频特征中插入第一全局特征，将所述第一全局特征作为所述处理后音频信号的一个音频帧特征；利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息；在所述运动特征中插入第二全局特征，将所述第二全局特征作为所述视频数据的一个图像帧特征；利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征对所述第二全局特征的注意力信息，得到第二全局注意力信息。

例如，电子设备具体可以根据所述运动特征生成每个图像帧特征对应的第二查询向量、第二键向量和第二值向量；将每个图像帧特征的第二查询向量与第二全局特征的第二键向量进行点积，得到第二全局特征的自注意向量集；将所述第二全局特征的自注意向量集与第二全局特征对应的第二值向量相乘，将相乘后的结果进行加权求和，得到第二全局注意力信息。

207、电子设备将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

例如，电子设备具体可以将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息；基于所述融合后全局信息对所述待检测对象进行活体检测，得到所述待检测对象的活体检测结果。比如，将所述第一全局注意力信息和第二全局注意力信息进行拼接，得到融合后全局信息；利用训练后检测模型的检测网络，对所述融合后全局信息进行二分类，根据分类结果确定所述待检测对象的活体检测结果。比如，训练后检测模型的检测网络具体可以为一个由全连接层组成的多层感知机，进行二分类的活体检测判断，比如，活体或者假冒。

比如，两个Transformer Encoder(第一编码网络和第二编码网络)分别对提取到的两个特征(音频特征和运动特征)进行处理，如，可以利用Transformer的自注意力机制，所以第一编码网络的三个输入Q，K，V同为Embedding+Class Token(音频特征+第一全局特征)，第二编码网络的三个输入Q，K，V同为Embedding+Class Token(音频特征+第二全局特征)。其中，全局特征用来实现信息聚合。经Transformer Encoder输出的两个Class Token(第一全局注意力信息和第二全局注意力信息)会拼接在一起，再通过一个由全连接层组成的多层感知机(即检测网络)，进行二分类的活体检测判断(Live/Spoof)。

208、电子设备对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确。

为了进一步提高活体检测的准确性，可以对所述反射音频信号和视频数据进行一致性判断，以确定跨模态特征是否一致。比如，电子设备具体可以根据所述音频特征计算所述待检测对象的第一注意力特征信息，以及根据所述运动特征计算所述待检测对象的第二注意力特征信息，所述第一注意力特征信息为关注所述音频特征之间相关性的特征信息，所述第二注意力特征信息为关注所述运动特征之间相关性的特征信息；基于所述第一注意力特征信息和第二注意力特征信息对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确。

例如，电子设备具体可以利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征之间相关性的注意力信息，得到第一注意力特征信息；利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征之间相关性的注意力信息，得到第二注意力特征信息。然后，利用训练后检测模型的解码网络，计算所述第一注意力特征信息和第二注意力特征信息之间的互注意力信息；利用训练后检测模型的验证网络对互注意力信息进行一致性验证，若验证结果通过，则确定所述活体检测结果正确。

比如，经Transformer Encoder输出的两路Embeddings，再输入到一个Transformer Decoder进行一致性判断。其中，一致性可以指的是视频模态中的唇动的幅度，速度和时间等特征和音频模态下的特征是否一致。利用Transformer Decoder的互注意力机制，把音频特征作为K和V，把视频特征作为Q，作为Transformer Decoder的输入。同上，还可以利用了一个Match Token(匹配标签)，用来实现信息聚合。最终的一致性特征会聚合到该Match Token上，再通过另一个由全连接层组成的多层感知机(即验证网络)，进行二分类的一致性判断，比如，一致(Match)或者不一致(Not Match)。

具体过程可以详见上述实施例，在此不再赘述。

对于仅仅利用音频模态进行活体检测的方案，由于超声波信号的采集在实际过程中容易干扰和噪声的影响，造成信号质量的下降，而且完全基于超声波的活体检测在面对较为针对性的专业攻击时，由于信息量有限，安全性将大大降低。因此，本方案结合了视觉模态中的运动信息可以进行跨模态的交叉验证，并且可以利用检测模型的多任务网络同时完成活体检测分类任务和跨模态一致性判断任务，大大提高了活体检测的效率和准确性。

由于活体检测可以通过眨眼、摇头、微笑等组合动作，确保操作的是真实的活体人脸。活体检测可以结合人证合一技术，应用在互联网金融、税务、社保、电信、医疗等行业。比如，支付场景对人脸识别的精度要求极高，活体检测是保障安全及识别精准度的关键。又比如，在银行证券、金融保险、民生社保、在线教育、汽车金融、房屋租住、共享服务、新闻媒体、区块链等场景，需要用户进行远程身份验证来确认身份信息，通过对用户进行活体检测，可以有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而有效地甄别欺诈行为，保障用户的利益。

由上可知，本实施例可以当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；然后，对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。由于该方案可以对反射音频信号进行空域增强，以增强来自人体的反射音频信号，并从视频数据提取人体的运动信息，然后将超声波信号和运动信息进行跨模态融合，从而实现准确的活体检测。并在活体检测后进行了反射音频信号和视频数据的一致性判断，进一步提高了活体检测的准确性。该方案可以部署到普遍应用的移动设备上，不依赖特殊硬件，可以有效地防御翻拍、注入等攻击，提高现有人脸核验技术的安全性。该方案相对于仅仅利用了音频模态进行活体检测的方案而言，大大提高了活体检测的安全性和准确性。并且，该方案可以根据人脸所在的位置增强信号，抑制干扰和噪声，实现更准确的活体检测。

为了更好地实施以上方法，相应的，本申请实施例还提供一种活体检测装置，该活体检测装置具体可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

例如，如图3所示，该活体检测装置可以包括获取单元301、分析单元302、提取单元303、计算单元304和融合单元305，如下：

获取单元301，用于当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；

分析单元302，用于对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；

提取单元303，用于分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；

计算单元304，用于根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；

融合单元305，用于将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

可选的，在一些实施例中，所述获取单元301，具体可以用于向待检测对象发射初始音频信号，并接收所述待检测对象反射回来的反射音频信号；采集所述待检测对象的视频数据。

可选的，在一些实施例中，所述分析单元302可以包括增强子单元和分析子单元，如下：

可选的，在一些实施例中，所述视频数据包括至少一个图像帧，所述分析单元302可以包括检测子单元和确定子单元，如下：

可选的，在一些实施例中，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，所述计算单元304可以包括第一计算子单元和第二计算子单元，如下：

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例可以由获取单元301当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；然后，由分析单元302对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，由提取单元303分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再由计算单元304根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，由融合单元305将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。由于该方案可以通过对反射音频信号进行信号处理和时频分析，并从视频数据提取运动轨迹信息，然后将时频信息和运动轨迹信息进行跨模态融合，从而有效地提高了活体检测的准确性。并在活体检测后进行了反射音频信号和视频数据的一致性判断，进一步提高了活体检测的准确性。

此外，本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

当接收到活体检测请求时，获取待检测对象的反射音频信号和视频数据；然后，对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，并从所述视频数据提取所述待检测对象的运动轨迹信息；接着，分别对所述时频信息和所述运动轨迹信息进行特征提取，得到所述待检测对象的音频特征和运动特征；再根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，所述第一全局注意力信息为关注所述音频特征全局相关性的特征信息，所述第二全局注意力信息为关注所述运动特征全局相关性的特征信息；再然后，将所述第一全局注意力信息和第二全局注意力信息进行融合，得到融合后全局信息，并基于所述融合后全局信息确定所述待检测对象的活体检测结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种活体检测方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种活体检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种活体检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种活体检测方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种活体检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待检测对象的反射音频信号和视频数据，包括：

向待检测对象发射初始音频信号，并接收所述待检测对象反射回来的反射音频信号；

采集所述待检测对象的视频数据。

3.根据权利要求2所述的方法，其特征在于，所述向待检测对象发射初始音频信号之前，还包括：

将多个音调的目标音频信号进行叠加，得到叠加后音频信号；

对所述叠加后音频信号的载波频率进行随机化，生成初始音频信号。

4.根据权利要求1所述的方法，其特征在于，所述对所述反射音频信号进行信号处理，得到处理后音频信号，对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，包括：

对所述反射音频信号进行空域增强处理，得到空域增强信号；

对所述空域增强信号进行信号提取处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述反射音频信号进行空域增强处理，得到空域增强信号，包括：

对所述反射音频信号进行正交解调，得到解析信号；

采用预设空域矩阵对所述解析信号进行空域增强处理，得到空域增强信号。

6.根据权利要求4所述的方法，其特征在于，所述对所述空域增强信号进行信号提取处理，得到处理后音频信号，并对所述处理后音频信号进行时频分析，得到处理后音频信号的时频信息，包括：

基于所述空域增强信号的时间轴对所述空域增强信号进行差分处理，得到差分后音频信号；

基于所述差分后音频信号的幅度确定所述待检测对象在介质中的传播时间；

根据所述传播时间从所述空域增强信号中提取目标音频信号，并对所述目标音频信号进行高通滤波处理，得到处理后音频信号；

对所述处理后音频信号进行短时傅里叶变换，得到所述处理后音频信号的时频信息。

7.根据权利要求1所述的方法，其特征在于，所述视频数据包括至少一个图像帧，所述从所述视频数据提取所述待检测对象的运动轨迹信息，包括：

对所述视频数据中每一个图像帧进行关键点检测，得到每一个图像帧对应的关键点信息；

基于每一个图像帧的关键点信息，确定所述待检测对象的运动轨迹信息。

8.根据权利要求1所述的方法，其特征在于，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，所述根据所述音频特征计算所述待检测对象的第一全局注意力信息，以及根据所述运动特征计算所述待检测对象的第二全局注意力信息，包括：

在所述音频特征中插入第一全局特征，将所述第一全局特征作为所述处理后音频信号的一个音频帧特征；

利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息；

在所述运动特征中插入第二全局特征，将所述第二全局特征作为所述视频数据的一个图像帧特征；

利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征对所述第二全局特征的注意力信息，得到第二全局注意力信息。

9.根据权利要求8所述的方法，其特征在于，所述利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征对所述第一全局特征的注意力信息，得到第一全局注意力信息，包括：

根据所述音频特征生成每个音频帧特征对应的第一查询向量、第一键向量和第一值向量；

将每个音频帧特征的第一查询向量与第一全局特征的第一键向量进行点积，得到第一全局特征的自注意向量集；

将所述第一全局特征的自注意向量集与第一全局特征对应的第一值向量相乘，将相乘后的结果进行加权求和，得到第一全局注意力信息。

10.根据权利要求1所述的方法，其特征在于，所述基于所述融合后全局信息确定所述待检测对象的活体检测结果之后，还包括：

根据所述音频特征计算所述待检测对象的第一注意力特征信息，以及根据所述运动特征计算所述待检测对象的第二注意力特征信息，所述第一注意力特征信息为关注所述音频特征之间相关性的特征信息，所述第二注意力特征信息为关注所述运动特征之间相关性的特征信息；

基于所述第一注意力特征信息和第二注意力特征信息对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确。

11.根据权利要求10所述的方法，其特征在于，所述处理后音频信号包括至少一个音频帧信号，所述音频特征包括至少一个音频帧特征，所述视频数据包括至少一个图像帧，所述运动特征包括至少一个图像帧特征，所述根据所述音频特征计算所述待检测对象的第一注意力特征信息，以及根据所述运动特征计算所述待检测对象的第二注意力特征信息，包括：

利用训练后检测模型的第一编码网络，计算所述音频特征中每个音频帧特征之间相关性的注意力信息，得到第一注意力特征信息；

利用训练后检测模型的第二编码网络，计算所述运动特征中每个图像帧特征之间相关性的注意力信息，得到第二注意力特征信息。

12.根据权利要求10所述的方法，其特征在于，所述基于所述第一注意力特征信息和第二注意力特征信息对所述待检测对象的反射音频信号和视频数据进行一致性验证，根据验证结果确定所述活体检测结果是否正确，包括：

利用训练后检测模型的解码网络，计算所述第一注意力特征信息和第二注意力特征信息之间的互注意力信息；

利用训练后检测模型的验证网络对互注意力信息进行一致性验证，若验证结果通过，则确定所述活体检测结果正确。

13.一种活体检测装置，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12中任一项所述的活体检测方法中的步骤。

15.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至12任一项所述方法的步骤。