CN114821820A

CN114821820A - 活体检测方法、装置、计算机设备和存储介质

Info

Publication number: CN114821820A
Application number: CN202110064764.7A
Authority: CN
Inventors: 孟嘉; 姜峰; 丁守鸿; 李季檩; 黄渊; 王骞; 刘旦; 周满; 李琦; 沈超
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd; Wuhan University WHU
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd; Wuhan University WHU
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2022-07-29

Abstract

本申请涉及人工智能领域，提供一种活体检测方法、装置、计算机设备和存储介质。所述方法包括：输出运动指示信息和第一声波信号；第一声波信号指向按照所述运动指示信息运动的检测对象；获取针对运动的检测对象所采集的动作视频，根据所述动作视频中的动作幅度特征定位所述检测对象对应的动作区间；获取所述第一声波信号经过所述检测对象反射的第二声波信号，从所述第二声波信号中的目标运动信号中提取出声波运动特征；从所述声波运动特征中切割出与所述动作区间对应的声波运动特征；根据所述动作幅度特征和所述与所述动作区间对应的声波运动特征进行活体检测，得到所述检测对象的活体检测结果。采用本方法能够有效提高活体检测结果的准确性。

Description

活体检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种活体检测方法、装置、计算机设备、存储介质和存储介质。

背景技术

随着人工智能技术的迅速发展，在高速信息化时代，保护个人身份和信息安全十分重要，例如在终端解锁、在线支付、门禁等各种场景中需要对用户的身份进行验证。目前出现了一些生物特征识别技术，如指纹识别、人脸识别等。

在相关技术中，通过现场采集检测对象的图像，识别出图像中的生物特征进行活体检测以验证检测对象的身份。然而这种检测方式只关注图像方面的信息，容易被伪造攻击，活体检测结果的准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高活体检测结果的准确性的活体检测方法、装置、计算机设备和存储介质。

一种活体检测方法，所述方法包括：

输出运动指示信息和第一声波信号；所述第一声波信号指向按照所述运动指示信息运动的检测对象；

获取针对运动的所述检测对象所采集的动作视频，根据所述动作视频中的动作幅度特征定位所述检测对象对应的动作区间；

获取所述第一声波信号经过所述检测对象反射的第二声波信号，从所述第二声波信号中的目标运动信号中提取出声波运动特征；

从所述声波运动特征中切割出与所述动作区间对应的声波运动特征；

根据所述动作幅度特征和所述与所述动作区间对应的声波运动特征进行活体检测，得到所述检测对象的活体检测结果。

一种活体检测装置，所述装置包括：

数据输出模块，用于输出运动指示信息和第一声波信号；所述第一声波信号指向按照所述运动指示信息运动的检测对象；

动作视频处理模块，用于获取针对运动的所述检测对象所采集的动作视频，根据所述动作视频中的动作幅度特征定位所述检测对象对应的动作区间；

声波信号处理模块，用于获取所述第一声波信号经过所述检测对象反射的第二声波信号，从所述第二声波信号中的目标运动信号中提取出声波运动特征；

活体检测模块，用于从所述声波运动特征中切割出与所述动作区间对应的声波运动特征；根据所述动作幅度特征和所述与所述动作区间对应的声波运动特征进行活体检测，得到所述检测对象的活体检测结果。

在一个实施例中，动作视频处理模块还用于对所述动作视频进行动作检测，得到所述动作视频中的动作幅度特征；根据所述动作幅度特征确定检测对象的动作起始时间和动作结束时间；根据所述动作起始时间和所述动作结束时间定位所述检测对象对应的动作区间。

在一个实施例中，动作视频处理模块还用于分别对所述动作视频中的各视频帧进行关键点检测，得到各所述视频帧对应的动作关键点和动作区域；根据各所述视频帧对应的动作关键点和动作区域进行动作检测，分别得到各所述视频帧对应的动作特征；根据所述动作视频的时序和各所述视频帧对应的动作特征，获得所述动作视频对应的动作幅度特征。

在一个实施例中，声波信号处理模块还用于对所述第二声波信号进行信号解调，得到所述第二声波信号的分量信号；对所述分量信号进行干扰消除，得到所述第二声波信号中的目标运动信号；对所述目标运动信号进行特征提取，得到所述目标运动信号对应的声波运动特征。

在一个实施例中，声波信号处理模块还用于基于预设拦截频率对所述分量信号进行动态干扰消除，得到动态干扰消除后的分量信号；提取所述动态干扰消除后的分量信号中的静态分量，对所述静态分量进行静态干扰消除，得到所述第二声波信号中的目标运动信号。

在一个实施例中，活体检测模块还用于按照所述动作幅度特征的时序与所述声波运动特征的时序，将所述动作幅度特征与所述声波运动特征进行同步对齐；根据所述动作区间对应的动作起始时间和动作结束时间，对同步对齐后的所述声波运动特征进行切割，得到与所述动作区间对应的声波运动特征。

在一个实施例中，活体检测模块还用于对所述动作幅度特征进行动作检测，得到与所述动作幅度特征对应的第一动作类别；对与所述动作区间对应的声波运动特征进行动作检测，得到与所述动作区间对应的声波运动特征对应的第二动作类别；根据所述第一动作类别和所述第二动作类别以及所述运动指示信息，确定所述检测对象的活体检测结果。

在一个实施例中，活体检测模块还用于当所述第一动作类别与所述第二动作类别一致，且所述第一动作类别和所述第二动作类别与所述运动指示信息中的指示动作类别一致时，确定所述检测对象的活体检测结果通过。

在一个实施例中，活体检测模块还用于根据所述与所述动作区间对应的声波运动特征生成对应的声波时频图；将所述声波时频图输入至已训练的目标分类模型，通过所述目标分类模型对所述声波时频图进行特征提取，获得时频图特征；根据所述时频图特征对所述声波时频图进行动作分类，得到所述声波运动特征对应的第二动作类别。

在一个实施例中，上述活体检测装置还包括模型训练模块，用于获取样本声波时频图和样本标签；所述样本声波时频图是基于采集的所述第一声波信号经过样本对象反射的样本声波信号生成的，所述样本标签是所述样本声波时频图中针对所述样本对象的动作标注标签；将所述样本声波时频图输入至待训练的分类模型，通过所述待训练的分类模型提取所述样本声波时频图对应的样本时频图特征；根据所述样本时频图特征进行动作分类，得到预测动作类别；基于所述预测动作类别与所述样本标签的差异，调整所述分类模型的参数并继续训练，直至满足训练条件时结束训练，得到目标分类模型。

在一个实施例中，上述活体检测装置还包括姿态调整模块，用于获取所述检测对象对应的人脸图像；对所述人脸图像进行特征提取，获得人脸特征；根据所述人脸特征确定所述检测对象的人脸姿态；当所述人脸姿态不满足姿态条件时，输出姿态调整信息，以指示所述检测对象调整人脸姿态；所述数据输出模块还用于当所述人脸姿态满足姿态条件时，输出运动指示信息和第一声波信号。

在一个实施例中，上述活体检测装置还包括人脸识别模块，用于获取所述检测对象对应的人脸图像；提取所述人脸图像的当前人脸特征；基于所述当前人脸特征和所述检测对象对应的目标人脸特征，对所述人脸图像进行人脸识别，得到所述检测对象的人脸识别结果；上述活体检测装置还包括身份验证模块，用于根据所述人脸识别结果和所述活体检测结果，确定所述检测对象的身份验证结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；所述计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令时实现以下步骤：

上述活体检测方法、装置、计算机设备和存储介质，通过输出运动指示信息和第一声波信号，第一声波信号指向按照运动指示信息运动的检测对象，然后获取针对运动的检测对象采集的动作视频以及第一声波信号经过检测对象反射的第二声波信号。进而通过从动作视频中提取出动作幅度特征以及对应的动作区间，并从第二声波信号中提取出声波运动特征，以及从声波运动特征中提切割出与动作区间对应的声波运动特征后，通过结合动作幅度特征和与动作区间对应的声波运动特征进行活体检测，由此能够检测动作视频中的动作与反射的第二声波信号中的运动是否同步一致，以及是否与动作指示信息一致，从而能够从图像视觉层面和声波信号层面进行双重验证，有效提高了活体检测的精准度。

附图说明

图1为一个实施例中活体检测方法的应用环境图；

图2为一个实施例中活体检测方法的流程示意图；

图3为一个实施例中与动作视频的动作幅度特征对应的时序曲线图；

图4为一个实施例中声波运动特征的时频图；

图5为一个实施例中切割出与动作区间对应的声波运动特征的流程示意图；

图6为一个实施例中多种动作反射的声波信号所对应的时频图；

图7为一个实施例中训练目标分类力模型的流程示意图；

图8为一个实施例中活体检测的测试界面图；

图9为一个实施例中的人脸采集界面示意图；

图10为一个实施例中活体检测结果的结果展示界面示意图；

图11为另一个实施例中活体检测方法的流程示意图；

图12为另一个实施例中活体检测方法的流程示意图；

图13为一个实施例中活体检测装置的结构框图；

图14为一个实施例中计算机设备的内部结构图；

图15为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的活体检测方法，可以应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的活体检测方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

本申请提供的活体检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

其中，云计算(cloudcomputing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(InfrastructureasaService，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。

具体地，服务器104输出运动指示信息和第一声波信号至终端102。制度102包括扬声器102a和麦克风102b。终端102则输出运动指示信息，并通过扬声器102a输出第一声波信号，第一声波信号指向按照所述运动指示信息运动的检测对象。终端102通过摄像头采集针对运动的检测对象所对应的动作视频，以及通过麦克风102b采集第一声波信号经过检测对象反射的第二声波信号，并将动作视频和第二声波信号上传至服务器104。服务器104获取针对运动的检测对象所采集的动作视频，根据动作视频中的动作幅度特征定位所述检测对象对应的动作区间；并获取第一声波信号经过检测对象反射的第二声波信号，从第二声波信号中的目标运动信号中提取出声波运动特征；从所述声波运动特征中切割出与所述动作区间对应的声波运动特征。服务器104进而根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

可以理解，本申请各实施例中的活体检测方法，采用人工智能技术中的计算机视觉技术以及机器学习技术等，能够有效实现自动识别出视频中检测对象的动作类别，以及识别出反射的声波信号中的动作类别，以进行活体检测。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。可以理解，本申请正是使用计算机视觉技术，从视频中的图像帧中检测对象的动作类别。

机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。可以理解，在本申请一些实施例中使用到的分类模型，以及各领域分别对应的领域特定网络，就是使用基于人工智能的机器学习技术训练得到的，基于该机器学习技术训练得到的分类模型，能够更加精准地对图像中检测对象的动作类别进行分类，以对检测对象进行活体检测。

在一个实施例中，如图2所示，提供了一种活体检测方法，以该方法应用于计算机设备为例进行说明，该计算机设备具体可以是图1中的终端或服务器，可以理解的是，该方法还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，包括以下步骤：

S202，输出运动指示信息和第一声波信号；第一声波信号指向按照运动指示信息运动的检测对象。

可以理解，活体检测是在一些身份验证场景确定检测对象真实生理特征的方式。在人脸识别应用中，活体检测能通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位和人脸追踪等技术，验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段。

其中，运动指示信息，是用于指示检测对象按照指示的动作类别进行运动的信息。可以理解，动作类别是指检测对象的运动部位进行运动所对应的动作的类别，其中，运动部位是指检测对象的进行运动的部位，具体可以是局部的部位，也可以是全是的部位。例如，运动部位包括眼部、唇部、脸部、头部和手部中的至少一种。例如，动作类别可以包括张嘴、摇头、点头、眨眼、读数字等中的至少一种。

可以理解的是，运动指示信息的形式可以包括文本、图像、语音等中的至少一种。例如，文本形式的运动指示信息则是直接通过文本展示指示的动作；图像形式的运动指示信息，则是通过在图像中示意出指示的动作，语音形式的运动指示信息，则是通过语音输出指示的动作。

其中，声波是一种机械波，发声体产生的振动在空气或其他物质中的传播叫做声波，是声音的传播形式。声波信号是一种音频信号。具体地，第一声波信号为超声波信号。其中，超声波是指振动频率大于20000Hz以上的机械波，其每秒的振动频率较高，超出了人耳听觉的一般上限(20000Hz)，人们通常听不见超声波的传播。超声波信号的频率高、波长短，在一定距离内传播具有良好的束射性和方向性。

可以理解，检测对象，是至需要进行活体检测的任意一种对象。具体地，检测对象为人体或人脸。可以理解的是，在实际的场景中，检测对象可能是真实的人体或人脸，也可能是非真实的人体或人脸。例如，非真实的人体或人脸，包括实体照片、电子屏幕展示的图像、具有真实人脸特征的实体三维脸模等中的至少一种。本申请的各实施例中，正是需要检测出检测对象是否为真实的对象。

在进行活体检测的过程中，首先通过计算机设备输出运动指示信息和第一声波信号。具体地，可以通过服务器输出运动指示信息和第一声波信号至终端后，然后通过具有信息提示功能和具有超声波播放功能的终端，输出运动指示信息和第一声波信号，以指示检测对象按照运动指示信息进行运动。在另一个实施例中，也可以直接由具有信息提示功能和具有超声波播放功能的终端，输出运动指示信息和第一声波信号。

其中，第一声波信号指向按照运动指示信息运动的检测对象，也就是第一声波信号是朝着按照运动指示信息运动的检测对象进行传播的，由此使得第一声波信号经过运动的检测对象反射后，反射形成第二声波信号。可以理解的是，第一声波信号的信号类型是超声波信号，经过第一声波信号反射形成的第二声波信号的信号类型是也是超声波信号。

在一个实施例中，运动指示信息还用于指示检测对象在指定区域内，按照运动指示信息进行运动。其中，指定区域是指检测对象处于图像采集区域。例如，指定区域可以是检测对象距离终端的预设距离范围，或终端能够采集到检测对象的人脸区域图像的距离范围。

具体地，终端的显示屏中还可以显示图像采集区域，检测对象可以通过移动位置或调整姿态使得检测部位在图像采集区域内。图像采集区域中则可以展示采集到的检测对象的检测部位对应的画面，检测部位对应的画面具体可以是图像或视频。

在一个实施例中，在输出第一声波信号之前，还包括：获取预设音频信号；对预设音频信号进行载波频率随机化，生成第一声波信号。

其中，预设音频信号是预先配置的一段超声波信号。

计算机设备在输出第一声波信号之前，还可以通过信号生成器对预设音频信号进行载波频率随机化，生成第一声波信号并输出。具体地，计算机设备获取预设音频信号后，对预设音频信号进行载波频率随机化时，可以对预设音频信号进行音调叠加，具体表达式可以如下：

其中，2A是振幅，f_k是信号的载波频率，N是子载波的总数。我们利用随机数生成器生成频率f_k。为了避免相邻频率信号间的干扰，可以规定任意两个音调的频率间隔△f，例如频率间隔可以为至少300Hz。计算机设备对预设音频信号进行音调叠加和载波频率随波后，生成第一声波信号。通过将生成音频的载波频率随机化，以抵抗音频重放攻击。因此，攻击者无法通过重放以前录制的音频信号来通过基于活性检测的身份验证，有效保证了身份验证的准确性和安全性。

在其中一个实施例中，由于人耳听不到频率高于18KHz的音频信号，而大多数终端设备的音频硬件对高于21KHz声音的响应不太灵敏，因此可以将超声波信号的频率设置在18～21KHz的范围内，由此能够有效保证输出的音频信号为人耳听不见的声波信号，又能有效保证能够被终端的音频硬件所采集到，从而能够有效保证输出的第一声波信号的有效性，以进一步有效地对检测对象进行活体检测。

S204，获取针对运动的检测对象所采集的动作视频，根据动作视频中的动作幅度特征定位检测对象对应的动作区间。

可以理解，动作视频是指采集的连续的帧画面形成的视频。也就是采集的运动的检测对象所对应的连续的视频帧。其中，动作视频是按照时间顺序采集的，因此采集到的动作视频具有时序。

其中，动作区间，是指动作视频中的检测对象在进行运动的过程中，针对同一个连续动作的动作起始时间和动作结束时间所对应的时间区间。动作区间反映了检测对象进行运动的时间段。动作视频中检测对象进行运动的动作区间，可以为一个，也可以为多个。其中，多个即为两个或两个以上。

在对检测对象进行活体检测的过程中，通过终端输出运动指示信息和第一声波信号后，终端则开始实时采集检测对象对应的动作视频，同时还采集第一声波信号经过检测对象反射的第二声波信号。

计算机设备输出运动指示信息和第一声波信号后，则获取针对运动的检测对象所采集的动作视频以及第一声波信号经过检测对象反射的第二声波信号。具体地，计算机设备获取针对运动的检测对象所采集的动作视频后，首先对动作视频进行动作特征提取，以提取出动作视频对应的动作幅度特征。然后计算机设备根据动作视频的时序和对应的动作幅度特征，定位检测对象对应的动作区间。由此能够精准有效地从动作视频中检测出动作幅度特征以及相应的动作区间。

S206，获取第一声波信号经过检测对象反射的第二声波信号，从第二声波信号中的目标运动信号中提取出声波运动特征。

其中，第一声波信号经过检测对象反射的第二声波信号，是指输出的第一声波信号经过运动的检测对象反射后，形成的第二声波信号。第一声波信号的信号类型相同。可以理解，第一声波信号输出后，在传播的过程中会产生多条传播路径，因此，所采集的经过唇部反射的第二声波信号可能包括一些干扰声波信号。

可以理解，声波运动特征，是指采集的第二声波中反映检测对象进行运动的特征，这种特征是通过声波信号的特征反映出来的。以第二声波信号为超声波为例，超声波信号可以产生微多普勒效应，即当目标或检测对象存在相对于雷达或信号采集设备的径向运动时，目标或是目标的组成还存在相对于雷达的小幅运动分量，这种现象则为微动。其中，小幅是指相对于目标和雷达间的径向距离而言的。对于单散射目标来说，微动体现在目标的非匀速运动上的，对多散射目标来说，微动是体现在目标的非刚性上，非刚性是指目标各组成部分之间还有相对的运动。目标或目标上的任何结构部件除了质心平动以外还存在着震动、转动和加速运动等，这些微小运动都将在接收信号上引起额外的频率调制，并且在目标主体移动产生的多普勒频率偏移附近产生偏频。由于微多普勒的唯一性，微多普勒频移是不相同的，由此通过对第二声波信号进行处理，能够提取出第二声波信号中反映检测对象进行运动的特征。

具体地，计算机设备获取第一声波信号经过检测对象反射的第二声波信号后，则对第二声波信号进行信号调解处理，以去除第二声波信号中的一些干扰声波信号，仅保留与检测对象的运动部位有关的信号，从而从第二声波信号中提取出目标运动信号。接着，计算机设备则对提取的目标运动信号进行特征提取，得到与目标运动信号对应的声波运动特征。

S208，从声波运动特征中切割出与动作区间对应的声波运动特征。

可以理解，采集的动作视频是具有时序的连续的视频帧，采集的第二声波信号也是具有时序的连续的身边信号，因此动作视频和第二声波信号均分别携带相应的时间戳。

具体地，计算机设备从动作视频中提取出动作幅度特征以及对应的动作区间，并且从第二声波信号中提取出声波运动特征后，可以理解的是，动作视频对应的动作幅度特征，也是具有时序的与动作视频中的各视频帧分别对应的、连续的动作幅度特征。同理，第二声波信号对应的声波运动特征，也是具有时序的能够反映检测对象进行运动的连续的声波特征。

计算机设备则根据动作区间的起始时间和动作结束时间，在第二声波信号中查找与动作区间的起始时间和动作结束时间向对应的时间戳，然后从第二声波信号中的声波运动特征与动作区间对应的时间段切割出与动作区间对应的声波运动特征。切割出的声波运动特征，可以是与动作区间相对应的信号片段。当动作区间存在多个时，则切割出与多个动作区间分别对应的信号片段对应的声波运动特征。由此能够基于时序同步从第二声波信号中，切割出与动作视频中的动作区间相对应的声波运动特征。

S210，根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

其中，动作幅度特征可以从图像视觉层面上检测出检测对象是否为活体。声波运动特征可以从声波信号层面检测出检测对象是否为活体。

计算机设备从动作视频中提取出动作幅度特征以及对应的动作区间，并从第二声波信号中提取出声波运动特征，以及从声波运动特征中提切割出与动作区间对应的声波运动特征后，通过结合动作幅度特征和与动作区间对应的声波运动特征进行活体检测，由此能够检测动作视频中的动作与反射的第二声波信号中的运动是否同步一致，以及是否与动作指示信息一致，从而能够从图像视觉层面和声波信号层面进行双重验证，有效确保了检测对象的活体检测结果的准确度。

上述活体检测方法中，在活体检测时，通过输出运动指示信息和第一声波信号，第一声波信号指向按照运动指示信息运动的检测对象，然后获取针对运动的检测对象采集的动作视频以及第一声波信号经过检测对象反射的第二声波信号。计算机设备进而通过从动作视频中提取出动作幅度特征以及对应的动作区间，并从第二声波信号中提取出声波运动特征，以及从声波运动特征中提切割出与动作区间对应的声波运动特征后，通过结合动作幅度特征和与动作区间对应的声波运动特征进行活体检测，由此能够检测动作视频中的动作与反射的第二声波信号中的运动是否同步一致，以及是否与动作指示信息一致，从而能够从图像视觉层面和声波信号层面进行双重验证，有效提高了活体检测的精准度。

在一个实施例中，根据动作视频中的动作幅度特征定位检测对象对应的动作区间，包括：对动作视频进行动作检测，得到动作视频中的动作幅度特征；根据动作幅度特征确定检测对象的动作起始时间和动作结束时间；根据动作起始时间和动作结束时间定位检测对象对应的动作区间。

可以理解，由于动作视频中包括连续的具有时序的视频帧。其中，每一帧视频都携带有对应的时间戳。

计算机设备在获取针对检测对象所采集的动作视频后，对动作视频进行动作检测。具体地，计算机设备通过对动作视频中的每一帧视频帧都分别进行动作检测，得到每一帧视频帧对应的动作幅度特征。由此，可以根据每一帧视频帧携带的时间戳和对应的动作幅度特征，得到与动作视频对应的连续的具有时序的动作幅度特征。

例如，可以通过检测每一帧视频帧中检测对象的运动部位进行运动的幅度，例如可以根据运动部位在视频帧中所占的比例，得到运动部位的动作幅度值。然后将每一帧视频帧中运动部位的动作幅度值，按照时间戳的时序，就可以得到与动作视频的动作幅度特征对应的时序曲线图。

在一个实施例中，由于时序数据通常存在随机或误差的成分，为了更加清晰地分辨出时序数据中的规律，因此在得到动作幅度特征对应的时序曲线图后，还可以对时序曲线图进行平滑处理。具体地可以采用预设平滑函数，例如邻域平均值滤波器、直线滑动平均法等算法，对时序曲线进行平滑处理。然后根据预设的动作幅度阈值，当曲线从低到高上穿的动作幅度值达到第一动作幅度阈值时，则可以确定该时刻为动作开始的时刻。同理，当曲线从高到低下穿的动作幅度值到第二动作幅度阈值时，则可以确定该时刻为动作结束的时刻。

如图3所示，为一个实施例中与动作视频的动作幅度特征对应的时序曲线图的示意图。其中，横轴为时间，纵轴为动作幅度值。从图3的时序曲线图中可以看出，在时刻3a的位置，在时刻3a前后位置的动作幅度值，和时刻3b前后位置的动作幅度值变化明显较大，对于时刻3a，前后时刻从低到高上穿的动作幅度值较大，因此可以将时刻3a确定为动作起始时间，具体可以为张嘴时刻。对于时刻3b，前后时刻从高到低下穿的动作幅度值较大，因此可以将时刻3a确定为动作起始时间，具体可以为闭嘴时刻。该动作幅度特征对应的动作区间即为3a-3b对应的时段。

然后计算机设备可以根据动作幅度特征确定检测对象的动作起始时间和动作结束时间，也就是根据动作视频中各视频帧的幅度值，确定动作视频中检测对象开始运动的视频帧和结束运动的视频帧，然后将开始运动的视频帧对应的时间戳确定为动作起始时间，并将结束运动的视频帧对应的时间戳确定为动作结束时间。计算机设备进而就可以根据动作起始时间和动作结束时间，定位检测对象对应的动作区间。

本实施例中，通过对动作视频中的每一帧视频帧进行动作检测，然后根据每一帧视频帧的动作幅度特征，就能够有效地得到与动作视频对应的连续的具有时序的动作幅度特征，并且根据与动作视频对应的连续的具有时序的动作幅度特征，能够准确地识别出动作视频中检测对象进行运动的动作起始时间和动作结束时间，进而能够准确地定位出检测对象对应的动作区间。

在一个实施例中，对动作视频进行动作检测，得到动作视频中的动作幅度特征，包括：分别对动作视频中的各视频帧进行关键点检测，得到各视频帧对应的动作关键点和动作区域；根据各视频帧对应的动作关键点和动作区域进行动作检测，分别得到各视频帧对应的动作特征；根据动作视频的时序和各视频帧对应的动作特征，获得动作视频对应的动作幅度特征。

其中，关键点检测，是指对视频帧图像中的检测对象的运动部位的关键点进行检测。

计算机设备获取动作视频后，首先对动作视频中每一帧视频帧都进行关键点检测。具体地，计算机设备可以通过预设的关键点检测算法，首先对每一帧视频帧进行关键点识别，例如，对各视频帧进行人脸关键点识别，得到每一帧视频帧的人脸关键点。其中，人脸关键点可以包括五官关键点和轮廓关键点等，人脸关键点具体可以包括眼部、眉部、鼻部、唇部、耳部和下颌线部位等中的至少一个部位对应的关键点。

计算机设备识别出各视频帧中的人脸关键点后，根据连续的视频帧之间的人脸关键点变化，确定出各视频帧对应的动作关键点和动作区域。例如，当检测对象的唇部进行运动时，动作视频中每一帧视频帧中唇部关键点的位置分布是变化的。因此，根据连续的各视频帧中变化的人脸关键点，可以确定出动作关键点和动作区域，例如动作关键点可以为唇部关键点，对应的动作区域则为唇部区域。

计算机设备进而根据各视频帧对应的动作关键点和动作区域进行动作检测。具体地，通过根据每一帧视频帧对应的动作关键点和动作区域，确定动作特征。具体地，动作特征可以为动作幅度值。例如，动作幅度值可以为各视频帧中动作关键点相对应动作区域的比例，如动作关键点在动作区域中的宽高比。

然后计算机设备则可以根据动作视频的时序和各视频帧对应的动作特征，获得动作视频对应的动作幅度特征。由此能够准确地得到具有时序的与动作视频中的各视频帧分别对应的、连续的动作幅度特征。

在另一个实施例中，计算机设备还可以通过预先已训练的动作检测网络，对动作视频进行动作检测。其中，动作检测网络可以为基于深度学习算法预先训练的神经网络模型，具体地，动作检测网络可以采用基于CNN(Convolutional NeuralNetwork，卷积神经网络)模型、LSTM(LongShort-TermMemory，长短期记忆网络)模型、DNN(DeepNeuralNetwork，深度神经网络)模型和RNN(RecurrentNeuralNetwork，循环神经网络)模型等，也可以是多种神经网络模型的组合，本申请在此不作限定。

具体地，计算机设备将动作视频输入至已训练的动作检测网络，通过动作检测网络对动作视频中各视频帧进行特征提取以及目标检测，识别出各视频帧对应的动作关键点和感兴趣的动作区域。

然后根据各视频帧对应的动作关键点和动作区域进行动作检测，分别得到各视频帧对应的动作特征，进而根据动作视频的时序和各视频帧对应的动作特征，识别出动作视频对应的动作幅度特征以及对应的动作类别。具体地，计算机设备还可以对各视频帧中每个位置上动作开始的概率和动作结束的概率进行预测，得到动作开始概率序列、动作结束概率序列以及动作概率序列，进而基于动作开始概率序列、动作结束概率序列以及动作概率序列，预测每个动作对应的动作特征描述，得到概率最高的动作特征。从而根据概率最高的动作特征得到与动作视频的时序的和各视频帧对应的动作幅度特征。进一步地，计算机设备还可以直接通过动作检测网络输出动作时序曲线图，由此实现了对动作视频的时序动作检测。

在一个实施例中，从第二声波信号中的目标运动信号中提取出声波运动特征，包括：对第二声波信号进行信号解调，得到第二声波信号的分量信号；对分量信号进行干扰消除，得到第二声波信号中的目标运动信号；对目标运动信号进行特征提取，得到目标运动信号对应的声波运动特征。

其中，分量信号是模拟信号的信号分量，分量信号表示由信号分裂成两个或两个以上的部分。信号可分为同相分量和正交分量、直流分量和交流分量、偶分量和奇分量、正弦分量和脉冲分量等。其中，同相分量就是与矢量方向相同的信号分量；正交分量就是与矢量信号正交，即与同相分量相互垂直。第二声波信号的分量信号具体可以包括第二声波信号对应的同相分量和正交分量。

其中，目标运动信号，是指第二声波信号中仅与检测对象的运动部位相关的其中一部分信号。

可以理解的是，第一声波信号经过唇部反射的第二声波信号包括多条路径传播的声波信号，例如包括用户唇部的反射路径、固体(如用户的面部等)的传播路径、空气传播路径以及周围物体的反射路径等多条传播路径。其中包括一些干扰声波信号。因此计算机设备需要从第二声波信号中提取出仅与检测对象的运动部位相关的目标运动信号。

在活体检测的过程中，第一声波信号经过检测对象反射的第二声波信号包括多条路径传播。计算机设备获取第二声波信号后，可以利用干相检波对进行降频解调，例如进行降频解调，以调解出在预设载波频率上的基带信号。然后计算机设备通过消除多径干扰，从而提取出第二声波信号中仅与运动部位有关的目标运动信号。

具体地，计算机设备可以获取的第二声波信号进行微多普勒特征提取，以提取出第二声波中的目标运动信号对应的声波运动特征。声波运动特征即为所提取的微多普勒特征。其中，微多普勒特征中包括角频率、多普勒幅度和初始相位等参数。

例如，假设获取的第二声波信号Rec(t)中存在M条路径，获取的第二声波信号可用以下公式描述：

其中，i表示第i条路径，其中，N表示基信号的数量，k表示第k个基信号。2Ai(t)表示声波信号在第i条路径中的振幅，f_k表示载波频率，

表示由传播延迟引起的相位偏移，

表示由系统延迟引起的相位偏移。

通过扬声器输出的原始的第一声波信号可以视为载波信号，通过麦克风采集的第二声波信号Rec(t)可以视为经过相移调制的多个基带信号的叠加。由于生成的超声波信号是具有不同频率的音频信号的叠加，因此扬声器播放的音频可以看作不同频率的基带信号的叠加。由于采集的信号与播放输出的信号基本同步。因此可以利用相干检波对采集的第二声波信号进行解调，可以得到载波频率fk上第二声波信号的基带信号对应的同相分量I(t)和正交分量Q(t)。

其中，同相分量I(t)的表达式可以如下：

正交分量Q(t)的表达式可以如下：

其中，F_low为低通滤波器，F_down为下采样函数。同相分量I(t)中，R_k(t)×cos2πf_kt部分的表达式如下：

计算机设备然后通过低通滤波器F_low除去R_k(t)×cos2πf_kt的高频项，再通过F_down进行下采样。计算机设备进一步将第二声波信号的基带信号的同相分量I(t)进行调频计算，同相分量I(t)的计算公式可以如下：

同理，正交分量Q(t)的计算公式可以如下：

通过上述公式可以计算得到调解后的第二声波信号对应的同相分量I(t)和正交分量Q(t)。计算机设备通过基于得到的同相分量I(t)和正交分量Q(t)进行干扰消除处理后，计算机设备则进一步求取信号的相位，并对得到的相位进行STFT(Short-TimeFourierTransform，短时傅里叶变换)处理，就可以得到仅与检测对象的运动部位相关的目标运动信号。目标运动信号可以表示为：

signal＝I(t)+Q(t)

进一步地，目标运动信号的相位函数hD(t)可以表示为：

其中，初始相位即为hD(0)。当相位随着时间的变化而发生线性变化时，频率是一个固定的值。静态干扰也就是当相位不随时间发生变化时，频率就是0，也就是直流分量。静态干扰经过一个零陷滤波器后得到有效的抑制。零陷滤波器是带阻滤波器的一种，其阻带很窄，因此也称点阻滤波器，常用于去除固定频率分量或阻带很窄的地方。

然后，计算机设备通过对目标运动信号的相位函数h_D(t)进行求导，就可以得到目标运动信号对应的瞬时频率f_D(t)。瞬时频率f_D(t)可以表示为：

其中，瞬时频率f_D(t)即为角频率参数，通过瞬时频率f_D(t)则可以获得相应的多普勒幅度参数和初始相位参数。由此则根据角频率参数、多普勒幅度参数和初始相位参数得到目标运动信号对应的声波运动特征，从而能够有效地提取出基于微多普勒信号中的有用信息。

在经过短时傅里叶变换后，可以得到目标运动信号的时频图，目标运动信号的时频图即可以反映出目标运动信号对应的声波运动特征。目标运动信号的时频图，是一种二维频谱，可以表示目标运动信号频谱随时间变化的图形。例如，如图4所示，为一个实施例中声波运动特征的时频图，具体为通过对检测对象进行张嘴运动采集的反射的第二声波信号对应的时频图。其中，图4中时频图中的纵轴为频率，横轴为时间。时频图中颜色越浅或颜色越亮的地方，则表示声波信号的频率越高，谱密度越大。颜色越深或颜色越暗的地方，表示声波信号的频率越低，谱密度越下。从图4中可以看出，在第2s-4s时域中，以及第6s左右的时域中，对应的谱密度较大，表示该时域区间的张嘴幅度较大。

本实施例中，通过利用干相检波对获取的第二声波信号进行降频解调，能够有效地对采集的信号进行信号处理，以提取出第二声波信号的基带信号对应的声信号分量，通过进一步对声信号分量进行干扰消除，从而能够精准有效地提取出仅与检测对象的运动部位相关的目标运动信号。

在一个实施例中，对分量信号进行干扰消除，得到第二声波信号中的目标运动信号，包括：基于预设拦截频率对分量信号进行动态干扰消除，得到动态干扰消除后的分量信号；提取动态干扰消除后的分量信号中的静态分量，对静态分量进行静态干扰消除，得到第二声波信号中的目标运动信号。

其中，干扰消除包括动态干扰信号消除和静态干扰信号消除。例如，动态干扰信号是指活体检测环境中除验证对象外其他附近移动物体反射的信号；静态干扰信号包括活体检测环境中除验证对象外的固体传播路径、空气传播路径、以及附近静止物体等反射的信号。

对于得到的第二声波信号中的同相分量和正交分量，为了提高识别的准确性，需要去除其他路径的干扰信号以仅保留与检测对象的运动部位相关的信号。计算机设备对获取的第二声波信号进行信号解调，提取出第二声波信号的基带信号对应的声信号分量后，通过进一步对提取的分量信号进行干扰消除，计算机设备可以分别对分量信号进行动态干扰消除和静态干扰消除。

具体地，计算机设备可以设置滤波器的预设拦截频率，基于预设拦截频率对分量信号进行动态干扰消除，由此过滤掉动态干扰信号，从而得到动态干扰消除后的分量信号。其中，计算机设备还可以在解调第二声波信号的基带信号的同时消除动态干扰，也可以在解调第二声波信号得到对应的分量信号之后再进行动态干扰消除。

例如，由于人体躯干的运动通常会导致50-200Hz范围内的信号频移，人脸中五官的运动引起的最大频移通常不超过40Hz，比如嘴唇运动引起的最大频移通常不会超过40Hz。因此，根据活体检测的动作类型，将用于相干检波的低通滤波器F_low的截止频率设置为预设拦截频率。具体地，计算机设备还可以针对不同的动作类型分别设置不同的预设拦截频率。例如，针对唇部运动，预设拦截频率可以为40Hz。基于预设拦截频率对分量信号进行动态干扰消除，从而可以有效地过滤掉分量信号中的动态干扰信号。

在动态消除干扰之后，得到的分量信号是检测对象的运动部位反射的声波信号和静态干扰信号的叠加，计算机设备进一步对动态干扰消除后的分量信号进行静态干扰消除。

具体地，可以分别将同相分量I(t)表示为恒定的静态分量I_s(t)与运动部位反射的信号之和，将正交分量Q(t)表示为恒定的静态分量Q_s(t)与运动部位反射的信号之和，具体表达式分别如下：

其中，A_lip(t)是嘴唇反射信号的幅度，d_lip是传播延迟，v是声音在空气中的传播速度，θ_lip是由系统延迟引起的相移。进一步地，可以分别将同相分量I(t)和正交分量Q(t)的表达式简记为：

为了消除静态分量，可以进一步地计算同相分量I(t)的梯度I_g(t)，以及正交分量Q(t)的梯度Q_g(t)，具体表达式分别如下：

I_g(t)＝A_lip(t)cos(φ_lip(t))-A_lip(t)φ_lip(t)sinφ_lip(t))

Q_g(t)＝-A_lip(t)sin(φ_lip(t))-A_lip(t)φ_lip(t)cosφ_lip(t))

其中，I_g(t)表示同相分量I(t)的梯度，Q_g(t)表示正交分量Q(t)的梯度，A_lip(t)和Φ_lip(t)分别是A_lip(t)和Φ_lip(t)的微分系数。由于系数A_lip(t)与传播距离的平方成反比。当运动部位为检测对象的人脸部位或人脸中的五官部位时，检测对象的动作则比较微妙，因此A_lip(t)的值几乎不会变化，从而A_lip(t)的值近似零。

因此，同相分量I(t)对应的静态分量I_s(t)，和正交分量Q(t)对应的静态分量Q_s(t)可以表示分别为：

I_g(t)＝-A_lip(t)φ_lip(t)sin(φ_lip(t))

Q_g(t)＝-A_lip(t)φ_lip(t)cos(φ_lip(t))

最后使用最小均方误差消除I_g(t)和Q_g(t)的缓慢变化项，处理完成后，可以得到最终的表征检测对象的运动部位的目标运动信号，在运动部位没有运动的情况下I_g(t)和Q_g(t)的大小接近于零。

本实施例中，通过对提取出的声信号分量分别进行动态干扰消除和静态干扰消除，从而能够精准有效地提取出仅与检测对象的运动部位相关的目标运动信号。

在一个实施例中，从声波运动特征中切割出与动作区间对应的声波运动特征，包括：按照动作幅度特征的时序与声波运动特征的时序，将动作幅度特征与声波运动特征进行同步对齐；根据动作区间对应的动作起始时间和动作结束时间，对同步对齐后的声波运动特征进行切割，得到与动作区间对应的声波运动特征。

其中，第二声波信号可以是按照预设的音频信号的采样率采集获得的，因此第二声波信号中具有与采样点相对应的时间戳。同步对齐，是表示将动作视频和第二声波信号按照采集时间进行同步，例如，可以按照动作视频的初始时间戳或第二声波信号的初始时间戳，将动作视频和第二声波信号按照采集的时间戳进行同步对齐。

计算机设备从动作视频中提取出动作幅度特征和对应的动作区间，以及从第二声波信号的目标运动信号中提取出声波运动特征后，则将动作视频与第二声波信号进行同步，然后再根据动作区间的动作起始时间和动作结束时间，将该动作起始时间和动作结束时间在第二声波信号中进行对齐，也就是确定第二声波信号中与动作起始时间和动作结束时间分别对应的信号起始时刻和信号结束时刻。

具体地，计算机设备可以根据动作区间的动作起始时间和动作结束时间，乘以第二声波信号的采样率，得到动作起始时间和动作结束时间分别对应的音频信号的采样点位置，进而根据采样点位置确定第二声波信号中与动作起始时间和动作结束时间分别对应的信号起始时刻和信号结束时刻。

计算机设备进而根据第二声波信号中与动作起始时间和动作结束时间分别对应的信号起始时刻和信号结束时刻，对同步对齐后的声波运动特征进行切割，从而得到与动作区间对应的声波运动特征。

例如，如图5所示，为一个实施例中切割出与动作区间对应的声波运动特征的流程示意图。参照图5，计算机设备获取采集的动作视频52和第二声波信号54后，首先将动作视频和第二声波信号进行音视频同步，也就是按照开始采集的时间戳同步对齐。计算机设备对动作视频中每一帧视频帧进行关键点检测，得到各视频帧对应的关键点检测结果521。然后根据关键点得到每一帧视频帧对应的动作幅度值，进而得到动作视频对应的具有时序的动作幅度特征，并生成对应的动作幅度时序曲线56。根据动作幅度特征可以识别出动作起始时间5a和动作结束时间5b，以定位出动作区间5a-5b。同时，计算机设备对第二声波信号进行信号解调和特征提取，以从第二声波信号中的目标运动信号中提取出声波运动特征，并生成对应的声波时频图58，其中，图5中的声波时频图包括根据4个不同频段生成的声波时频图。计算机设备进而将声波时频图与动作幅度时序曲线进行同步对齐，然后根据动作区间5a-5b，从声波时频图中切割出与动作区间5a-5b对应的声波运动特征。即声波时频图中与动作起始时间5a和动作结束时间5b相对应的时频区间，由此能够有效地将声波运动特征与动作视频中的动作幅度特征对齐。

本实施例中，通过将动作视频和第二声波信号进行同步对齐，并从同步对齐后的声波运动特征中切割出与动作区间对应的声波运动特征，由此能够检测动作视频中的动作与反射的第二声波信号中的运动是否同步一致，从而能够从有效提高活体检测的精准度。

在一个实施例中，根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果，包括：对动作幅度特征进行动作检测，得到与动作幅度特征对应的第一动作类别；对与动作区间对应的声波运动特征进行动作检测，得到与动作区间对应的声波运动特征对应的第二动作类别；根据第一动作类别和第二动作类别以及运动指示信息，确定检测对象的活体检测结果。

其中，第一动作类别，是指从动作视频中识别出的动作类别。第二动作类别，是指从第二声波信号中识别出的动作类别。可以理解的是，第一动作类别与第二动作类别可能是一致的，也可能是不一致的。例如，当第一动作类别与第二动作类别不一致时，表示动作视频对应的动作和第二声波信号对应的动作是不一致的，例如可能遭受了视频伪造攻击。对于这种情况，则可以直接确定检测对象的活体检测不通过。

计算机设备对动作视频进行动作检测，得到动作幅度特征和相应的动作区间，以及从第二声波信号的目标运动信号中提取出声波运动特征，并从声波运动特征中分割出与运动区间对应的声波运动特征后，计算机设备则可以根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

计算机设备可以根据与动作幅度特征对应的第一动作类别和与声波运动特征对应的第二动作类别，以及与运动指示信息，确定检测对象的活体检测结果。具体地，计算机设备从动作视频中提取出动作幅度特征后，则对动作幅度特征进行动作检测，从而得到与动作幅度特征对应的第一动作类别。

计算机设备从声波运动特征中分割出与运动区间对应的声波运动特征后，则对与动作区间对应的声波运动特征进行动作检测，得到与动作区间对应的声波运动特征对应的第二动作类别。具体地，计算机设备可以通过对与动作区间对应的声波运动特征的时频图进行分类处理，得到对应的第二动作类别。

计算机设备进而根据第一动作类别和第二动作类别以及运动指示信息对应的指示动作类别，确定检测对象的活体检测结果。

本实施例中，通过结合第一动作类别和第二动作类别以及运动指示信息对应的指示动作类别，确定检测对象的活体检测结果，由此能够检测动作视频中的动作与反射的第二声波信号中的运动是否同步一致，从而能够从有效提高活体检测的精准度。

在一个实施例中，根据第一动作类别和第二动作类别以及运动指示信息，确定检测对象的活体检测结果，包括：当第一动作类别与第二动作类别一致，且第一动作类别和第二动作类别与运动指示信息中的指示动作类别一致时，确定检测对象的活体检测结果通过。

可以理解，通过基于单一层面的视觉层面进行活体检测，或基于单一层面的声波信号层面进行活体检测，都容易遭受视频伪造或攻击者的声波信号的攻击，因此，本申请各实施例中，通过结合视觉层面和声波信号层面进行活体检测，能够有效保证活体检测结果的精准度。

计算机设备根据动作幅度特征得到动作视频对应的第一动作类别，根据与运动区间对应的声波运动特征得到第二声波信号对应的第二动作类别后，进而根据第一动作类别和第二动作类别以及运动指示信息对应的指示动作类别，确定检测对象的活体检测结果。

具体地，当第一动作类别与第二动作类别不一致时，则确定检测对象的活体检测结果未通过。当第一动作类别与第二动作类别一致，但与运动指示信息对应的指示动作类别不一致时，仍确定检测对象的活体检测结果未通过。

只有当第一动作类别与第二动作类别一致，且第一动作类别和第二动作类别与运动指示信息中的指示动作类别一致时，确定检测对象的活体检测结果通过。也就是动作视频需要通过运动指示信息的检测，采集的第二声波信号也需要通过运动指示信息的检测，并且还需要通过动作视频和第二声波信号的动作一致性检测，只有当上述检测均通过时，才确定检测对象的活体检测结果通过。

本实施例中，通过将动作视频检测与声波信号检测进行和，由此能够有效结合视频的视觉与超声波信号两方面进行活体检测，有效弥补了单一视觉活体容易被伪造攻击的缺陷，从而能够有效高对检测对象的活体检测结果的准确性。

在一个实施例中，对与动作区间对应的声波运动特征进行动作检测，得到与动作区间对应的声波运动特征对应的第二动作类别，包括：根据与动作区间对应的声波运动特征生成对应的声波时频图；将声波时频图输入至已训练的目标分类模型，通过目标分类模型对声波时频图进行特征提取，获得时频图特征；根据时频图特征对声波时频图进行动作分类，得到声波运动特征对应的第二动作类别。

其中，时频图，是指在一幅图中表示信号的频率、幅度随时间的变化，也称为语谱图。例如，可以将音频信号进行傅里叶变换，然后以时间为横轴，频率为纵轴，用不同颜色表示赋值，即可绘制得到信号的时频图。具体地，时频图可以为时频能量图、时频功率谱密度图等中的任意一种。

例如，计算机设备可以通过对声波运动特征进行小波变换，得到时频谱函数，然后利用此时频谱函数将声波运动特征绘制生成对应的声波时频图。

其中，可以通过时频图中某一区域的颜色的深浅，表示某一频率某一时间的功率频谱密度较大，即表示该区域的能力大小。例如，颜色越深，表示相应区域的谱密度越小，颜色越浅或越亮，则表示相应区域的谱密度越大。

可以理解，目标分类模型是经过预先训练得到的机器学习模型。目标分类模型可以采用基于CNN(ConvolutionalNeuralNetwork，卷积神经网络)模型、LSTM(LongShort-TermMemory，长短期记忆网络)模型、DNN(DeepNeural Network，深度神经网络)模型和RNN(RecurrentNeuralNetwork，循环神经网络)模型等中的至少一种，也可以是多种神经网络模型的组合，例如基于CNN和LSTM模型结合的网络结构。本申请在此不作限定。

具体地，计算机设备根据声波运动特征生成对应的声波时频图后，将声波时频图输入至已训练的目标分类模型。进而通过目标分类模型对声波时频图进行特征提取，也就是提取声波时频图中图像层面的声波特征，从而获得时频图特征。时频图特征反映了声波时频图中声波信号对应的动作特征，声波时频图中不同图像区域的幅值和谱密度，可以表征不同类别的动作。

计算机设备进而通过目标分类模型根据时频图特征对声波时频图进行动作分类，从而得到声波运动特征对应的第二动作类别。通过目标分类模型对时频图进行分类处理，则可以从时频图中幅值和谱密度的分布情况，准确地识别出声波信号对应的动作类别。

例如，如图6所示，为一个实施例中多种动作反射的声波信号所对应的时频图，反映了声波信号频谱随时间的变化。图6中各时频图的纵轴为频率，横轴为时间。图6中分别展示了4种反射的声波信号对应的声波运动特征的时频图。每种反射的声波信号对应的时频图中，不同图像区域的幅值和谱密度，表征动作的类别不同。通过目标分类模型对时频图进行分类处理，则可以识别出声波信号对应的动作类别。其中，图6中的时频图(a)中的声波信号表示唇部运动，具体为唇部快速闭合，对应的动作类别为张嘴。时频图(b)中的声波信号表示唇部运动，具体为张嘴后持续一段时间闭合，对应的动作类别为张嘴。时频图(c)中的声波信号表示摇头三次，对应的动作类别则为摇头。时频图(d)中的声波信号表示点头三次，对应的动作类别则为点头。

在另一个实施例中，计算机设备还可以通过目标分类模型直接输出检测对象的活体检测结果。具体地，计算机设备通过目标分类模型对声波时频图进行分类，得到声波运动特征对应的第二动作类别后，然后目标分类模型根据第一动作类别、第二动作类别以及运动指示信息的只是动作类别，确定活体检测结果并输出，从而得到检测对象的活体检测结果。

在一个实施例中，目标分类模型通过训练步骤训练获得，训练步骤包括：获取样本声波时频图和样本标签；样本声波时频图是基于采集的第一声波信号经过样本对象反射的样本声波信号生成的，样本标签是样本声波时频图中针对样本对象的动作标注标签；将样本声波时频图输入至待训练的分类模型，通过待训练的分类模型提取样本声波时频图对应的样本时频图特征；根据样本时频图特征进行动作分类，得到预测动作类别；基于预测动作类别与样本标签的差异，调整分类模型的参数并继续训练，直至满足训练条件时结束训练，得到目标分类模型。

其中，样本声波时频图是用于训练目标分类模型的训练数据，样本标签是用于训练目标分类模型的训练标签。其中，样本声波时频图是基于采集的第一声波信号经过样本对象反射的样本声波信号生成的。可以理解，每一张样本声波时频图标注有对应的样本标签。样本标签是在采集得到样本声波时频图后，根据样本对象的真假对各样本声波时频图进行人工标注的标注标签。

样本对象反射的样本声波信号可以包括针对正样本声波信号、翻拍样本声波信号和伪造头模样本声波信号等中的至少一种。其中，正样本声波信号，是指针对真实的样本对象所采集的声波信号。翻拍样本声波信号，是指通过对屏幕中样本对象进行翻拍所采集的声波信号。伪造头模样本声波信号，是指通过对基于样本对象伪造的三维头模所采集的声波信号。

可以理解的是，正样本是真实准确的活体对应的声波信号。翻拍样本声波信号和伪造头模样本声波信号，也即负样本，均为伪造的非活体对应的声波信号。通过在训练数据中加入正样本和负样本，能够训练出分类准确度更高的分类模型。

可以理解，目标分类模型的训练步骤是不断迭代训练的过程。迭代训练，是指基于机器学习，重复反馈每一轮的训练结果并继续进行下一轮的训练的过程，目的是为了使待训练的分类模型不断拟合收敛，以接近并到达所需的目标或结果。具体地，训练方式包括但不限于有监督训练、半监督训练和无监督训练。

其中，训练条件是指满足模型训练的结束条件，例如训练条件可以是达到预设的迭代次数，也可以是调整参数后的分类模型对时频图的分类性能指标达到预设指标。例如，预设指标可以包括对时频图中的声波信号的动作类别的分类准确率等。

如图7所示，训练目标分类力模型的流程示意图。参照图7，计算机设备首先采集样本时频图。具体地，在采集样本时频图的过程中，由于不同信号输出和采集的终端的频率响应不同，首先需要进行频响自校准，以选择频响比较合适频率。例如对于手机终端，由于检测对象与手机终端的距离较小，则需要选择频响较差的频率，以减小距离干扰。然后计算机设备进行信号生成，例如将预设音频的载波频率随机化，随机生成超声波信号。通过信号输出和采集的终端进行信号发射，以输出第一声波信号，并指向按照样本动作指示信息进行运动的样本对象72。接着，终端进行信号接收，以采集第一声波信号经过样本对象反射的样本声波信号，参照对应的信号图74。然后对获取的样本声波信号进行I/O解调处理，也就是提取样本声波信号中的同相分量I和正交分量O，参照对应的信号图76。接着对提取的同相分量I和正交分量O分别进行差分/降噪处理，也就是进行差分处理和降噪处理。并进行STFT傅里叶变换，得到样本声波特征，参照对应的信号图78，并生成对应的样本时频图710。样本时频图标注有对应的样本标签。其中，样本对象反射的样本声波信号可以包括针对正样本声波信号、翻拍样本声波信号和伪造头模样本声波信号。参照图7，样本时频图中，包括正样本声波信号对应的样本时频图(710a)、翻拍样本声波信号对应的样本时频图(710b)和对应的伪造头模样本声波信号样本时频图(710c)。然后计算机设备则将样本时频图710和对应的样本标签，输入至分类模型712中进行训练，以训练得到具有对声波信号时频图进行动作分类能力的目标分类模型。

具体地，在训练分类模型的过程中，计算机设备首先将样本声波时频图输入至待训练的分类模型。然后，在每轮迭代训练中，计算机设备通过待训练的分类模型提取样本声波时频图对应的样本时频图特征。具体可以通过分类模型中的卷积网络对样本声波时频图进行多次卷积处理，以从多种图像层面提取样本声波时频图中的特征，提取出最终的样本时频图特征。

计算机设备进而根据样本时频图特征进行动作分类，得到预测动作类别。计算机设备进而基于预测动作类别与样本标签的差异，调整分类模型的参数并继续训练。当本轮未满足迭代停止条件时，则进入下一轮训练，并将下一轮作为本轮，继续通过分类模型提取样本声波时频图的样本时频图特征，并根据样本时频图特征进行分类，继续分类得到的本轮的预测动作类别训练本轮的分类模型，并继续进行迭代训练。

具体地，在调整分类模型的参数时，可以采用基于交叉熵损失函数、SGD(StochasticGradientDescent，随机梯度下降)算法求解分类模型的权重参数并进行调整。

在训练分类模型的过程中，还可以对采用标签平滑(LabelSmoothing)方式，对样本标签进行正则化处理。由此，标签平滑后的分布就相当于往真实分布中加入了噪声，避免模型对于正确标签过于自信，使得预测正负样本的输出值的差别减小，从而能够有效避免过拟合，提高分类模型的泛化能力。

进一步地，在训练分类模型的过程中，还可以对采用丢弃(Drop)机制，训练分类模型，即在基于深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。也就是在模型训练时随机让网络中某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但其权重需要保留下来，仅暂时不更新，在下次样本输入时可能需要参与处理。

当满足训练条件时则停止训练，从而得到训练好的目标分类模型。例如，训练条件可以为迭代训练30次。

可以理解，训练完成的目标分类模型，是一种具有对各种动作反射的声波信号对应的声波时频图进行动作分类的能力的机器学习模型，从而能够精准地识别声波时频图中所反映的动作的类别。

在另一个实施例中，目标分类模型提取出样本声波时频图对应的样本时频图特征，并根据样本时频图特征识别出对应的预测动作类别后，还进一步采用二分类算法，根据得到的预测动作类别进行活体分类，例如真活体或假活体，以得到活体检测的结果。

本实施例中，通过基于采集的样本对象反射的声波信号得到的样本声波时频图，以及相应的样本标签，训练针对声波时频图的目标分类模型，并根据预测动作类别与样本标签的差异逐步调整分类模型的参数，由此在参数调整过程中，使得分类模型能够更加精准地提取声波时频图中反映动作类别的时频图特征，进而能够训练得到对声波时频图的动作分类准确度较高的目标分类模型。

在一个实施例中，对基于超声波识别和动作视频识别结合进行活体检测的应用程序，以检测对象为人脸为例进行测试。如图8所示，为一个实施例中活体检测的测试界面图。测试界面中包括“录入对比源”、“一闪核身份验证”、“超声波识别”和“唇语活体”控件，以及应用标识、安全等级和测试信息等对应的配置信息。测试界面中还包括存图和存请求分别对应的设置按钮，存图的对应的设置按钮，用于保存测试过程中所采集的图像。存请求对应的设置按钮用于保存测试过程中触发的检测请求等测试请求。其中，测试信息，例如可以包括处理器数量、处理单元数量和反射对象数量。处理器数量具体可以为2，处理单元数量具体可以为120，反射对象数量具体可以为2。“录入比对源”，表示提交一张照片作为参照，例如模拟实际场景中的用户存档照，并与后续刷脸时实际检测到的人脸做1:1人脸比对。“一闪核身份验证”表示人脸识别功能。“超声波识别”表示通过检测对象运动反射的超声波进行活体检测的功能。“唇语活体”是指通过唇语口令反射的超声波进行活体检测的功能。指示动作，表示指示检测对象进行运动的动作类别。由于该超声波依赖于识别场景中产生的扰动，如果动作幅度太小，容易被环境杂波掩盖，因此可以选择张闭嘴作为配合检测的动作。

首先用户可以在测试界面中选择“超声波识别”开始活体检测。具体地，通过触发“超声波识别”按钮，进入到超声波识别的流程中，并展示人脸采集界面，如图9所示，为一个实施例中的人脸采集界面示意图。人脸采集界面中包括人脸采集区域9a和时频图展示区域9b。其中，人脸采集区域9a中包括当前人脸图像的预览框9a1、动作提示区域9a2和光线提示区域9a3。终端可以首先采集检测对象的人脸图像。当检测到人脸并稳定之后，终端则输出对动作指示信息和第一声波信号，并在人脸采集界面中的人脸图像的预览框9a1中展示采集的当前人脸图像。可以理解的是，基于保护用户真实人脸图像的隐私角度，对预览框9a1中的人脸图像中的眼睛部位进行了遮挡，在对人脸图像进行识别时，实际采集的人脸图像包括了眼睛部位。人脸图像预览框下方的动作提示区域9a2中，展示运动指示信息，以指示检测对象按照运动指示信息进行运动，即需要做张闭嘴动作。其中，运动指示信息具体可以为“请张嘴一次”。

进一步地，还可以在人脸采集界面中的光线提示区域9a3中展示当前光线的情况，例如当前光线是否适中。张嘴和闭嘴会对超声波信号分别产生一次扰动，因此下方显示的超声波时域图会实时产生相应的波动。终端则采集检测对象对应的动作视频以及反射的超声波信号，并在对反射的超声波信号进行解调和特征提取后，在时频图展示区域9b中展示采集的当前的超声波信号对应的时域图。进一步地，还可以在时频图展示区域9b中展示时间区域9b1，以在时间区域9b1中展示当前的超声波信号对应的时长信息，例如在时间区域9b1中展示的超声波信号的时长为5秒。通过对动作视频进行动作检测，根据动作幅度特征识别出动作起始时间和动作结束时间，识别出动作区间以及动作类别，即动作视频中动作的开始结束时间戳。然后识别反射的超声波信号的声波运动特征中的开始结束时间戳以及动作类别。将动作视频中动作的开始结束时间戳与声波运动特征中的开始结束时间戳进行一致性校验，以及对动作类别进行校验，以校验动作视频与反射的超声波信号中的动作是否同步，以提高活体检测结果的准确性。

通过结合动作视频和反射的超声波信号进行活体检测后，还可以展示返回的活体检测结果。如图10所示，为一个实施例中活体检测结果的结果展示界面示意图。其中，结果展示界面包括结果展示框10a、时频图展示区域10b和结果确认框10c。活体检测结果包括识别通过和识别未通过中的一种。当活体检测结果为识别通过时，还可以在时频图展示区域10b中展示反射的超声波信号对应的时频图。

在一个实施例中，如图11所示，提供了另一种活体检测方法，具体包括以下步骤：

S1102，获取检测对象对应的人脸图像。

S1104，对人脸图像进行特征提取，获得人脸特征；根据人脸特征确定检测对象的人脸姿态。

S1106，当人脸姿态不满足姿态条件时，输出姿态调整信息，以指示检测对象调整人脸姿态。

S1108，当人脸姿态满足姿态条件时，输出运动指示信息和第一声波信号；第一声波信号指向按照运动指示信息运动的检测对象。

S1110，获取针对运动的检测对象所采集的动作视频，根据动作视频中的动作幅度特征定位检测对象对应的动作区间。

S1112，获取第一声波信号经过检测对象反射的第二声波信号，从第二声波信号中的目标运动信号中提取出声波运动特征。

S1114，从声波运动特征中切割出与动作区间对应的声波运动特征。

S1116，根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

其中，人脸姿态是指采集对象的人脸的姿势和形态。人脸姿态包括人脸距离信息和人脸角度信息。人脸距离信息，表示人脸相对于图像采集设备的距离信息。人脸角度信息，表示人脸的面部朝向的角度信息。可以理解的是，姿态条件可以是人脸距离信息满足距离阈值，以及人类角度信息满足角度阈值。距离阈值和角度阈值均可以为预设的数值范围。

可以理解，当采集的人脸图像中的人脸角度偏差幅度较大或距离较远时，则需要矫正检测对象的人脸姿态，以采集高质量的动作视频和声波信号。

计算机设备在输出运动指示信息和第一声波信号之前，首先需要检测出检测对象的人脸是否满足姿态条件。具体地，计算机设备首先获取采集的检测对象对应的人脸图像，然后对人脸图像进行特征提取。具体可以采用预设的人脸检测算法提取人脸图像中的人脸特征，人脸特征具体可以为人脸关键点。

接着，计算机设备根据人脸特征确定检测对象对应的人脸框，根据人脸框占人脸图像的比例确定人脸距离信息。然后进一步根据人脸特征进行姿态估计，得到检测对象的人脸角度信息。具体地，可以，估计出人脸图像中人脸的三个旋转角度，即俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)，根据这三个旋转角度可以得到检测对象的人脸角度信息。

计算机设备则根据人脸距离信息和人脸角度信息判断当前的检测对象的人脸是否满足姿态条件。当人脸距离信息未满足距离阈值，或人脸角度信息未满足角度阈值中任一项不符合时，则确定人脸姿态不满足姿态条件。计算机设备则输出姿态调整信息。其中，姿态调整信息具体可以是文本形式信息，也可以是语音形式的信息。以通过姿态调整信息指示检测对象调整人脸姿态。

在另一个实施例中，当检测对象为人体时，且当采集图像的终端为手持设备时，计算机设备还可以对检测对象的握姿进行检测。其中，终端中安装有运动传感器，通过运动传感器可以检测出检测对象对终端的握姿。当握姿未满足预设的阈值时，计算机设备也则输出姿态调整信息，以提示检测对象调整握姿。例如，例，将检测对象低头使用终端时，终端靠近人体的胸腔，会造成震动干扰，因此需要提醒检测对象调整握姿，以矫正检测对象对终端的握姿。

检测对象调整人脸姿态后，则继续获取检测对象调整姿态后的人脸图像，并进行姿态检测。直到当人脸姿态满足姿态条件时，计算机设备则输出运动指示信息和第一声波信号，然后获取采集的检测对象对应的动作视频，和第一声波信号经过检测对象反射的第二声波信号。计算机设备进而提取动作视频中的动作幅度特征，并定位检测对象对应的动作区间。同时从第二声波信号中的目标运动信号中提取出声波运动特征，然后从声波运动特征中切割出与动作区间对应的声波运动特征。进而根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

本实施例中，通过对检测对象的人脸姿态进行调整，能够采集到质量更高的动作视频和第二声波信号，进而能够更加精准地对检测对象进行活体检测，能够有效提高活体检测结果的准确性。

在一个实施例中，如图12所示，提供了另一种活体检测方法，具体包括以下步骤：

S1202，输出运动指示信息和第一声波信号；第一声波信号指向按照运动指示信息运动的检测对象。

S1204，获取针对运动的检测对象所采集的动作视频，根据动作视频中的动作幅度特征定位检测对象对应的动作区间。

S1206，获取第一声波信号经过检测对象反射的第二声波信号，从第二声波信号中的目标运动信号中提取出声波运动特征。

S1208，从声波运动特征中切割出与动作区间对应的声波运动特征。

S1210，根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

S1212，获取检测对象对应的人脸图像。

S1214，提取人脸图像的当前人脸特征。

S1216，基于当前人脸特征和检测对象对应的目标人脸特征，对人脸图像进行人脸识别，得到检测对象的人脸识别结果。

S1218，根据人脸识别结果和活体检测结果，确定检测对象的身份验证结果。

其中，人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术。

可以理解，活体检测可以用于对检测对象进行身份验证。基于活体检测的身份验证包括两部分，即人脸识别部分和活体检测部分，只有当人脸识别检测和活体检测均通过时，才能确定检测对象的身份验证通过。

计算机设备可以首先对检测对象对应的人脸图像进行人脸识别，人脸识别成功后，再通过活体检测对检测对象的真实性进一步确认，以增强身份验证的准确性和安全性。人脸识别检测和活体检测也可以同时进行处理，还可以先进行活体检测，再进行人脸识别检测。本申请对人脸识别检测和活体检测的处理顺序不作限定。

具体地，在进行人脸识别的过程中，计算机设备可以基于身份验证指令获取检测对象的人脸图像，利用人脸识别算法提取人脸图像的当前人脸特征，并当前人脸特征和检测对象对应的目标人脸特征进行比对，以对人脸图像进行人脸识别。其中，人脸识别算法可以采用基于人脸特征点识别、基于整幅人脸图像进行人脸识别、基于神经网络模型进行识别、基于光照模型进行识别等算法。人脸识别为比较成熟的技术，在此不再赘述。

计算机设备对人脸图像进行人脸识别后，得到人脸识别结果。人脸识别结果包括人脸识别成功和人脸识别失败。在其中一个实施例中，还可以在人脸识别成功后，再输出运动指示信息和第一声波信号，以进一步对检测对象进行活体检测。

具体地，计算机设备获取采集的检测对象对应的动作视频，和第一声波信号经过检测对象反射的第二声波信号。计算机设备进而提取动作视频中的动作幅度特征，并定位检测对象对应的动作区间。同时从第二声波信号中的目标运动信号中提取出声波运动特征，然后从声波运动特征中切割出与动作区间对应的声波运动特征。进而根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

计算机设备进而人脸识别结果和活体检测结果，确定检测对象的身份验证结果。具体地，当人脸识别结果和活体检测结果中任意一项未通过，则确定检测对象的身份验证不通过。当人脸识别结果和活体检测结果均通过时，则确定检测对象的身份验证通过。

本实施例中，通过对检测对象进行人脸识别，同时对检测对象进行活体检测，因此能够有效地检测出检测对象的活体真实性。并且在活体检测中通过从动作视频提取视觉层面的动作幅度特征，并从反射的第二声波信号中提取音频信号层面的声波运动特征，从而能够有效地对检测对象进行多重身份验证，有效增提高身份验证的准确性和安全性。

本申请还提供一种应用场景，该应用场景应用上述的活体检测方法，用于实现在线支付的身份验证场景。具体地，当用户利用终端中运行的应用进行在线购物或付款时，通过对应的应用发起支付请求，用户在支付时需要进行身份验证，检测对象即为用户。终端基于支付请求生成身份验证指令，终端基于身份验证指令通过显示屏输出运动指示信息，并通过扬声器输出第一声波信号。在身份验证时，用户将人脸面向终端，并按照运动指示信息进行运动，使得第一声波信号指向运动的用户。例如，具体可以为脸部的运动。

终端输出运动指示信息和第一声波信号后，则通过终端摄像头采集用户进行运动的动作视频，同时通过终端的麦克风采集第一声波信号经过唇部反射的第二声波信号。终端进而提取动作视频中的动作幅度特征，并定位检测对象对应的动作区间。同时从第二声波信号中的目标运动信号中提取出声波运动特征，然后从声波运动特征中切割出与动作区间对应的声波运动特征。进而根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。在进行验证的过程中终端还采集用户的人脸图像，并对人脸图像进行人脸识别，然后根据活体检测结果和人脸识别结果确定身份验证结果。若身份验证结果为身份验证通过，终端则获取该支付请求的消费数值，并从当前请求支付的用户的数值账户中减去该消费数值，从而完成支付。

本申请还另外提供一种应用场景，该应用场景应用上述的活体检测方法，用于实现终端解锁。具体地，当用户对终端进行解锁时，对终端触发解锁请求。终端基于解锁请求生成身份验证指令，基于身份验证指令对用户进行身份验证。具体地，用户在解锁时，用户将人脸面向终端，终端则输出运动指示信息和第一声波信号。

终端输出运动指示信息和第一声波信号后，则通过终端摄像头采集用户进行运动的动作视频，同时通过终端的麦克风采集第一声波信号经过唇部反射的第二声波信号。终端进而提取动作视频中的动作幅度特征，并定位检测对象对应的动作区间。同时从第二声波信号中的目标运动信号中提取出声波运动特征，然后从声波运动特征中切割出与动作区间对应的声波运动特征。进而根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。在进行验证的过程中终端还采集用户的人脸图像，并对人脸图像进行人脸识别，然后根据活体检测结果和人脸识别结果确定身份验证结果。若身份验证结果为身份验证通过，终端则进行解锁处理，从而完成终端解锁。

可以理解的是，上述活体检测方法还可以适用于其他多种场景，在此不再赘述。

应该理解的是，虽然图2、11、12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、11、12中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图13所示，提供了一种活体检测装置1300，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据输出模块1302、动作视频处理模块1304、声波信号处理模块1306和活体检测模块1308，其中：

数据输出模块1302，用于输出运动指示信息和第一声波信号；第一声波信号指向按照运动指示信息运动的检测对象。

动作视频处理模块1304，用于获取针对运动的检测对象所采集的动作视频，根据动作视频中的动作幅度特征定位检测对象对应的动作区间。

声波信号处理模块1306，用于获取第一声波信号经过检测对象反射的第二声波信号，从第二声波信号中的目标运动信号中提取出声波运动特征。

活体检测模块1308，用于从声波运动特征中切割出与动作区间对应的声波运动特征；根据动作幅度特征和与动作区间对应的声波运动特征进行活体检测，得到检测对象的活体检测结果。

在一个实施例中，动作视频处理模块1304还用于对动作视频进行动作检测，得到动作视频中的动作幅度特征；根据动作幅度特征确定检测对象的动作起始时间和动作结束时间；根据动作起始时间和动作结束时间定位检测对象对应的动作区间。

在一个实施例中，动作视频处理模块1304还用于分别对动作视频中的各视频帧进行关键点检测，得到各视频帧对应的动作关键点和动作区域；根据各视频帧对应的动作关键点和动作区域进行动作检测，分别得到各视频帧对应的动作特征；根据动作视频的时序和各视频帧对应的动作特征，获得动作视频对应的动作幅度特征。

在一个实施例中，声波信号处理模块1306还用于对第二声波信号进行信号解调，得到第二声波信号的分量信号；对分量信号进行干扰消除，得到第二声波信号中的目标运动信号；对目标运动信号进行特征提取，得到目标运动信号对应的声波运动特征。

在一个实施例中，声波信号处理模块1306还用于基于预设拦截频率对分量信号进行动态干扰消除，得到动态干扰消除后的分量信号；提取动态干扰消除后的分量信号中的静态分量，对静态分量进行静态干扰消除，得到第二声波信号中的目标运动信号。

在一个实施例中，活体检测模块1308还用于按照动作幅度特征的时序与声波运动特征的时序，将动作幅度特征与声波运动特征进行同步对齐；根据动作区间对应的动作起始时间和动作结束时间，对同步对齐后的声波运动特征进行切割，得到与动作区间对应的声波运动特征。

在一个实施例中，活体检测模块1308还用于对动作幅度特征进行动作检测，得到与动作幅度特征对应的第一动作类别；对与动作区间对应的声波运动特征进行动作检测，得到与动作区间对应的声波运动特征对应的第二动作类别；根据第一动作类别和第二动作类别以及运动指示信息，确定检测对象的活体检测结果。

在一个实施例中，活体检测模块1308还用于当第一动作类别与第二动作类别一致，且第一动作类别和第二动作类别与运动指示信息中的指示动作类别一致时，确定检测对象的活体检测结果通过。

在一个实施例中，活体检测模块1308还用于根据与动作区间对应的声波运动特征生成对应的声波时频图；将声波时频图输入至已训练的目标分类模型，通过目标分类模型对声波时频图进行特征提取，获得时频图特征；根据时频图特征对声波时频图进行动作分类，得到声波运动特征对应的第二动作类别。

在一个实施例中，上述活体检测装置还包括模型训练模块，用于获取样本声波时频图和样本标签；样本声波时频图是基于采集的第一声波信号经过样本对象反射的样本声波信号生成的，样本标签是样本声波时频图中针对样本对象的动作标注标签；将样本声波时频图输入至待训练的分类模型，通过待训练的分类模型提取样本声波时频图对应的样本时频图特征；根据样本时频图特征进行动作分类，得到预测动作类别；基于预测动作类别与样本标签的差异，调整分类模型的参数并继续训练，直至满足训练条件时结束训练，得到目标分类模型。

在一个实施例中，上述活体检测装置还包括姿态调整模块，用于获取检测对象对应的人脸图像；对人脸图像进行特征提取，获得人脸特征；根据人脸特征确定检测对象的人脸姿态；当人脸姿态不满足姿态条件时，输出姿态调整信息，以指示检测对象调整人脸姿态；数据输出模块1302还用于当人脸姿态满足姿态条件时，输出运动指示信息和第一声波信号。

在一个实施例中，上述活体检测装置还包括人脸识别模块，用于获取检测对象对应的人脸图像；提取人脸图像的当前人脸特征；基于当前人脸特征和检测对象对应的目标人脸特征，对人脸图像进行人脸识别，得到检测对象的人脸识别结果；上述活体检测装置还包括身份验证模块，用于根据人脸识别结果和活体检测结果，确定检测对象的身份验证结果。

关于活体检测装置的具体限定可以参见上文中对于活体检测方法的限定，在此不再赘述。上述活体检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储运动指示信息、第一声波信号数据、动作视频、第二声波信号和活体检测结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种活体检测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏、摄像头、扬声器和麦克风。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种活体检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，可以用于输出运动指示信息。该计算机设备的摄像头用于采集检测对象的人脸图像和动作视频等中的至少一种。该计算机设备的扬声器用于输出第一声波信号。该计算机设备的麦克风用于采集第一声波信号经过检测对象反射的第二声波信号。

本领域技术人员可以理解，图14和图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random AccessMemory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandomAccessMemory，SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种活体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述动作视频中的动作幅度特征定位所述检测对象对应的动作区间，包括：

对所述动作视频进行动作检测，得到所述动作视频中的动作幅度特征；

根据所述动作幅度特征确定检测对象的动作起始时间和动作结束时间；

根据所述动作起始时间和所述动作结束时间定位所述检测对象对应的动作区间。

3.根据权利要求2所述的方法，其特征在于，所述对所述动作视频进行动作检测，得到所述动作视频中的动作幅度特征，包括：

分别对所述动作视频中的各视频帧进行关键点检测，得到各所述视频帧对应的动作关键点和动作区域；

根据各所述视频帧对应的动作关键点和动作区域进行动作检测，分别得到各所述视频帧对应的动作特征；

根据所述动作视频的时序和各所述视频帧对应的动作特征，获得所述动作视频对应的动作幅度特征。

4.根据权利要求1所述的方法，其特征在于，所述从所述第二声波信号中的目标运动信号中提取出声波运动特征，包括：

对所述第二声波信号进行信号解调，得到所述第二声波信号的分量信号；

对所述分量信号进行干扰消除，得到所述第二声波信号中的目标运动信号；

对所述目标运动信号进行特征提取，得到所述目标运动信号对应的声波运动特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述分量信号进行干扰消除，得到所述第二声波信号中的目标运动信号，包括：

基于预设拦截频率对所述分量信号进行动态干扰消除，得到动态干扰消除后的分量信号；

提取所述动态干扰消除后的分量信号中的静态分量，对所述静态分量进行静态干扰消除，得到所述第二声波信号中的目标运动信号。

6.根据权利要求1所述的方法，其特征在于，所述从所述声波运动特征中切割出与所述动作区间对应的声波运动特征，包括：

按照所述动作幅度特征的时序与所述声波运动特征的时序，将所述动作幅度特征与所述声波运动特征进行同步对齐；

根据所述动作区间对应的动作起始时间和动作结束时间，对同步对齐后的所述声波运动特征进行切割，得到与所述动作区间对应的声波运动特征。

7.根据权利要求1所述的方法，其特征在于，所述根据所述动作幅度特征和所述与所述动作区间对应的声波运动特征进行活体检测，得到所述检测对象的活体检测结果，包括：

对所述动作幅度特征进行动作检测，得到与所述动作幅度特征对应的第一动作类别；

对与所述动作区间对应的声波运动特征进行动作检测，得到与所述动作区间对应的声波运动特征对应的第二动作类别；

根据所述第一动作类别和所述第二动作类别以及所述运动指示信息，确定所述检测对象的活体检测结果。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一动作类别和所述第二动作类别以及所述运动指示信息，确定所述检测对象的活体检测结果，包括：

当所述第一动作类别与所述第二动作类别一致，且所述第一动作类别和所述第二动作类别与所述运动指示信息中的指示动作类别一致时，确定所述检测对象的活体检测结果通过。

9.根据权利要求7所述的方法，其特征在于，所述对与所述动作区间对应的声波运动特征进行动作检测，得到与所述动作区间对应的声波运动特征对应的第二动作类别，包括：

根据所述与所述动作区间对应的声波运动特征生成对应的声波时频图；

将所述声波时频图输入至已训练的目标分类模型，通过所述目标分类模型对所述声波时频图进行特征提取，获得时频图特征；

根据所述时频图特征对所述声波时频图进行动作分类，得到所述声波运动特征对应的第二动作类别。

10.根据权利要求9所述的方法，其特征在于，所述目标分类模型通过训练步骤训练获得，所述训练步骤包括：

获取样本声波时频图和样本标签；所述样本声波时频图是基于采集的所述第一声波信号经过样本对象反射的样本声波信号生成的，所述样本标签是所述样本声波时频图中针对所述样本对象的动作标注标签；

将所述样本声波时频图输入至待训练的分类模型，通过所述待训练的分类模型提取所述样本声波时频图对应的样本时频图特征；

根据所述样本时频图特征进行动作分类，得到预测动作类别；

基于所述预测动作类别与所述样本标签的差异，调整所述分类模型的参数并继续训练，直至满足训练条件时结束训练，得到目标分类模型。

11.根据权利要求1至10任意一项所述的方法，其特征在于，在所述输出运动指示信息和第一声波信号之前，所述方法还包括：

获取所述检测对象对应的人脸图像；

对所述人脸图像进行特征提取，获得人脸特征；

根据所述人脸特征确定所述检测对象的人脸姿态；

当所述人脸姿态不满足姿态条件时，输出姿态调整信息，以指示所述检测对象调整人脸姿态；

所述输出运动指示信息和第一声波信号，包括：

当所述人脸姿态满足姿态条件时，输出运动指示信息和第一声波信号。

12.根据权利要求1至10任意一项所述的方法，其特征在于，所述方法还包括：

获取所述检测对象对应的人脸图像；

提取所述人脸图像的当前人脸特征；

基于所述当前人脸特征和所述检测对象对应的目标人脸特征，对所述人脸图像进行人脸识别，得到所述检测对象的人脸识别结果；

根据所述人脸识别结果和所述活体检测结果，确定所述检测对象的身份验证结果。

13.一种活体检测装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。