CN111563244A

CN111563244A - 身份验证方法、装置、计算机设备和存储介质

Info

Publication number: CN111563244A
Application number: CN202010358730.4A
Authority: CN
Inventors: 王骞; 周满; 马欣贝; 李琦; 刘旋恺; 沈超; 孟嘉; 丁守鸿; 李季檩
Original assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd; Wuhan University WHU
Current assignee: Tsinghua University; Tencent Technology Shenzhen Co Ltd; Wuhan University WHU
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-21

Abstract

本申请涉及一种身份验证方法、装置、计算机设备和存储介质。所述方法包括：输出第一声波信号，所述第一声波信号指向按照验证口令运动的唇部；获取所述第一声波信号经过所述唇部反射的第二声波信号；基于所述第二声波信号中的唇部运动信号提取口令信号片段；对所述口令信号片段进行活性检测，当所述活性检测的结果表示唇部运动有效时，根据所述口令信号片段提取唇部运动特征；基于所述唇部运动特征以及与所述验证口令对应的注册唇部运动特征，确定身份验证结果。采用本方法能够有效提高身份验证的准确性和安全性。

Description

身份验证方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种身份验证方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的迅速发展，网络信息安全备受关注，越来越多的应用场景需要进行身份验证。例如在终端解锁、在线支付、门禁等场景中，需要对用户的身份进行验证，出现了语音识别、指纹识别和人脸识别等多种基于生物特征的身份验证方式。

传统的身份验证方式通常是将现场采集的生物特征与预先构建的生物特征进行比对。然而这种身份验证方式容易被攻击，例如攻击者可以通过生成对抗样本特征欺骗基于深度学习的识别系统，导致识别错误。攻击者还可以获取目标用户的人脸图像或视频合成攻击视频，以进行面部特征伪造攻击，传统的身份验证方式的准确性和安全性无法得到有效保障。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高身份验证方式的准确性和安全性的身份验证方法、装置、计算机设备和存储介质。

一种身份验证方法，所述方法包括：

输出第一声波信号，所述第一声波信号指向按照验证口令运动的唇部；

获取所述第一声波信号经过所述唇部反射的第二声波信号；

基于所述第二声波信号中的唇部运动信号提取口令信号片段；

对所述口令信号片段进行活性检测，当所述活性检测的结果表示唇部运动有效时，根据所述口令信号片段提取唇部运动特征；

基于所述唇部运动特征以及与所述验证口令对应的注册唇部运动特征，确定身份验证结果。

一种身份验证装置，所述装置包括：

信号输出模块，用于输出第一声波信号，所述第一声波信号指向按照验证口令运动的唇部；

信号获取模块，用于获取所述第一声波信号经过所述唇部反射的第二声波信号；

信号提取模块，用于基于所述第二声波信号中的唇部运动信号提取口令信号片段；

活性检测模块，用于对所述口令信号片段进行活性检测，当所述活性检测的结果表示唇部运动有效时，根据所述口令信号片段提取唇部运动特征；

身份验证模块，用于基于所述唇部运动特征以及与所述验证口令对应的注册唇部运动特征，确定身份验证结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取所述第一声波信号经过所述唇部反射的第二声波信号；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取所述第一声波信号经过所述唇部反射的第二声波信号；

上述身份验证方法、装置、计算机设备和存储介质，输出第一声波信号后，第一声波信号指向按照验证口令运动的唇部，由此能够有效获取第一声波信号经过唇部反射的第二声波信号。由于第二声波信号是在身份验证时通过验证对象基于验证口令反射得到的声波信号，因此能够有效确认用户的真实性。通过基于第二声波信号中的唇部运动信号提取口令信号片段并对口令信号片段进行活性检测，由此能够精准地识别出唇部运动信号的有效性。当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征，以有效提取出验证对象在进行身份验证过程中的动态的唇部运动特征。通过将唇部运动特征与验证口令对应的注册唇部运动特征进行比对，从而确定身份验证结果。通过获取难以伪造的用户实时的唇部运动信号，并提取对应的唇部运动特征身份验证，从而能够有效提高身份验证的准确性和安全性。

附图说明

图1为一个实施例中身份验证方法的应用环境图；

图2为一个实施例中终端与服务器之间进行身份验证的交互流程图；

图3为一个实施例中身份验证方法的流程示意图；

图4为一个实施例中提取唇部运动信号的步骤的流程示意图；

图5为一个实施例中对口令信号片段进行活性检测的步骤的流程示意图；

图6为另一个实施例中身份验证方法的流程示意图；

图7为一个具体的实施例中身份验证方法的流程示意图；

图8为一个实施例中身份验证装置的结构框图；

图9为另一个实施例中身份验证装置的结构框图；

图10为一个实施例中服务器的内部结构图；

图11为一个实施例中终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的方案涉及基于人工智能的生物特征识别、活体检测和语音识别等技术。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。语音技术(Speech Technology)的关键技术有语音分离(SS)和语音增强(SE)及自动语音识别技术(ASR)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请提供的身份验证方法，可应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的身份验证方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

在其中一个实施例中，计算机设备可以为终端，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、支付设备、智能家居设备和便携式可穿戴设备。用户使用终端进行身份验证时，终端输出第一声波信号后，用户通过唇部输出预设的验证口令；终端获取第一声波信号经过唇部反射的第二声波信号后，基于第二声波信号中的唇部运动信号提取口令信号片段；对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，提取唇部运动特征，并基于唇部运动特征以及与验证口令对应的注册唇部运动特征进行身份验证。

在其中一个实施例中，计算机设备可以为服务器。本申请提供的身份验证方法，可以应用于如图1所示的应用环境图，该应用环境包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端102通过网络与服务器104进行通信。服务器104通过终端102输出第一声波信号。也可以由终端102生成第一声波信号后，通过终端的扬声器播放第一声波信号。第一声波信号指向按照验证口令运动的唇部。通过终端102的麦克风采集第一声波信号经过唇部反射的第二声波信号，服务器104获取终端102采集的第二声波信号，进而基于第二声波信号中的唇部运动信号提取口令信号片段，并对口令信号片段进行活性检测。当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征。服务器104基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。其中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。参照图2，图2为一个实施例中终端与服务器之间进行身份验证的交互流程图。

在一个实施例中，如图3所示，提供了一种身份验证方法，以该应用于计算机设备来举例说明，该计算机设备具体可以是终端或者服务器。参照图3，身份验证方法包括以下步骤：

S302，输出第一声波信号，第一声波信号指向按照验证口令运动的唇部。

其中，第一声波信号为超声波信号。声波是一种机械波，发声体产生的振动在空气或其他物质中的传播叫做声波，是声音的传播形式。超声波是指振动频率大于20000Hz以上的机械波，其每秒的振动频率较高，超出了人耳听觉的一般上限(20000Hz)，人们通常听不见超声波的传播。超声波信号的频率高、波长短，在一定距离内传播具有良好的束射性和方向性。

具体地，计算机设备可以基于身份验证指令输出第一声波信号，具体可以通过终端的扬声器播放第一声波信号。在身份验证的过程中，通过终端的扬声器播放第一声波信号后，通过用户的唇部输出预设的验证口令。具体地，在身份验证时，用户可以通过唇部默念验证口令，第一声波信号朝着用户的唇部方向进行传播。第一声波信号则指向按照验证口令运动的唇部，表示第一声波信号朝着该唇部的方向传播，使得该唇部能够反射该第一声波信号形成第二声波信号。其中，验证口令可以包括多个字符或单词。口令可以表示验证的证据，用于识别验证对象能否通过特定的检测。

通过获取用户唇部反射的超声波信号对用户进行活体检测，能够有效验证用户身份的真实性。其中，活体检测是在一些身份验证场景确定对象真实生理特征的方法，在人脸识别应用中，活体检测能通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位和人脸追踪等技术，验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而帮助用户甄别欺诈行为，保障用户的利益。

在一个实施例中，在输出第一声波信号之前，还包括：获取预设音频信号；对预设音频信号进行载波频率随机化，生成第一声波信号。

其中，预设音频信号是预先配置的一段超声波信号。

计算机设备在输出第一声波信号之前，可以通过信号生成器对预设音频信号进行载波频率随机化，生成第一声波信号并输出。具体地，计算机设备获取预设音频信号后，对预设音频信号进行载波频率随机化时，可以对预设音频信号进行音调叠加，具体表达式可以如下：

其中，2A是振幅，f_k是信号的载波频率，N是子载波的总数。我们利用随机数生成器生成频率f_k。为了避免相邻频率信号间的干扰，可以规定任意两个音调的频率间隔△f，例如频率间隔可以为至少300Hz。计算机设备对预设音频信号进行音调叠加和载波频率随波后，生成第一声波信号。通过将生成音频的载波频率随机化，以抵抗音频重放攻击。因此，攻击者无法通过重放以前录制的音频信号来通过基于活性检测的身份验证，有效保证了身份验证的准确性和安全性。

在其中一个实施例中，由于人耳听不到频率高于18KHz的音频信号，而大多数终端设备的音频硬件对高于21KHz声音的响应不太灵敏，因此可以将超声波信号的频率设置在18～21KHz的范围内，由此能够有效保证输出的音频信号为人耳听不见的声波信号，又能有效保证能够被终端的音频硬件所采集到，从而能够有效保证输出的第一声波信号的有效性，以进一步有效地对用户进行基于活体检测的身份验证。

S304，获取第一声波信号经过唇部反射的第二声波信号。

其中，声波在传播的过程中遇到介质后，会发生声波的反射。当声波从一种媒质入射到声学特性不同的另一种媒质时，在两种媒质的分界面处将发生反射，使入射声波的一部分能量返回第一种媒质。第二声波信号则为第一声波信号经过用户的唇部反射得到的声波信号。

在身份验证的过程中，用于验证的终端是指向用户的面部的，第一声波信号输出后，用户念验证口令时，唇部会进行相应的运动。因此第一声波信号指向按照验证口令运动的唇部后，第一声波信号经过用户的唇部会产生反射，反射得到的声波信号则为第二声波信号。可以通过终端的麦克风采集第一声波信号经过唇部反射的第二声波信号。

在其中一个实施例中，用户说出验证口令时，可能会发出声音。如果用户在说出验证口令时发出了声音，采集到的信号则包含用户唇部反射的超声波信号和语音信号等多种信号，计算机设备则需要对采集的信号进行相应的信号处理，以对信号进行分离，仅提取出反射的超声波信号。具体地，计算机设备可以通过识别采集的信号的频率，根据预设的频段对采集的信号进行分离，从而提取出第一声波信号经过唇部反射的第二声波信号。例如，语音信号的频谱通常为100Hz～7kHz的范围，终端在采集身份验证过程中的信号时，可以在信号采样的过程中根据预设的采样阈值(如18kHz)采集用户唇部反射的信号，由此所采集的信号为过滤掉语音信号的超声波信号。

S306，基于第二声波信号中的唇部运动信号提取口令信号片段。

其中，第一声波信号输出后，在传播的过程中会产生多条传播路径，因此，所采集的经过唇部反射的第二声波信号包括一些干扰声波信号。

当用户在进行身份认证时，通过唇部依次输出包含一个或多个单词的验证口令。为了检测有效的唇部运动，需要将声音信号分割成与口令的每个单词相对应的信号片段。

其中，口令信号片段具体可以为验证口令中每个单词对应的声波信号信号片段。其中，多个为至少两个以上。验证口令中可以包括汉语、数字、英文等字符。单词表示一个独立含义的字符或字符串，具体可以为一个字或一个词语。

具体地，计算机设备获取第二声波信号后，通过对第二声波信号进行信号预处理和信号提取，提取第二声波信号中仅与用户的唇部运动所对应的唇部运动信号，进而基于第二声波信号中的唇部运动信号提取口令信号片段。具体地，计算机设备通过对唇部运动信号进行端点检测提取口令信号片段，例如可以采用VAD(Voice activity detection，语音活动检测)的方式，语音活动检测是一种用于语音处理的技术，目的是检测语音信号是否存在，通过对唇部运动信号进行端点检测以对唇部运动信号进行分段，从而提取出验证口令中的每个单词的片段。

S308，对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征。

其中，活性检测处理用于检测每个口令信号片段是否有效，活性检测的方式可以为通过对唇部运动对应的口令信号片段进行唇部运动检测，以确认口令信号片段是否为有效的唇部运动。通过对唇部运动的有效性进行判断，可以确定验证对象是否为真实的活体用户。唇部运动特征是一种生物特征，表示用户说话时用户人脸的唇部动作特征。由于每个用户的嘴唇运动具有独特性，攻击者难以伪造这种生物特征。

具体地，计算机设备可以通过预设的唇部运动检测模型对口令信号片段进行活性检测。计算机设备对每个单词对应的口令信号片段进行检测后，还可以对每个口令信号片段添加对应的检测标签。检测标签可以包括有效和无效两种标签。计算机设备进而利用每个口令信号片段的检测标签生成活性检测的结果。当有效的检测标签的数量达到预设阈值时，表示口令信号片段满足活性检测条件，则可以确定活性检测的结果表示唇部运动有效。例如在特定的环境中，由于信噪比可能较低，当有效的检测标签的数量过半时，即可确定活性检测的结果表示唇部运动有效。

在其中一个实施例中，当每个口令信号片段的检测标签均满足活性检测条件时，确定活性检测的结果表示唇部运动有效。

由于每个验证口令中的单词数量是已知的，因此需要对验证口令中每个单词对应的口令信号片段进行检测，得到每个口令信号片段的活性检测的结果。为了保证口令验证的有效性和安全性，只有验证口令中所有对应单词的片段都被检测到时，用户才算通过活性检测。具体地，当每个口令信号片段的检测标签均为有效的检测标签时，确定口令信号片段满足活性检测条件，此时则可以确定活性检测的结果表示唇部运动有效。

本实施例中，通过对所有的口令信号片段进行活性检测，能够精准有效地检测用户的唇部运动是否有效，进而能够有效增强身份验证的准确性和安全性。

当活性检测的结果表示唇部运动有效时，表示用户的唇部运动有效，即表示用户通过活性检测。计算机设备进一步根据口令信号片段提取唇部运动特征。

具体地，计算机设备对唇部运动信号对应的口令信号片段进行特征提取，具体可以将所有的口令信号片段融合后进行特征提取，得到用户的唇部运动特征。其中，提取的唇部运动特征可以是一种能量带时频特征。

在一个实施例中，根据口令信号片段提取唇部运动特征包括：将唇部运动信号对应的各个口令信号片段进行拼接，得到拼接后的唇部运动口令信号；对拼接后的唇部运动口令信号进行特征提取，得到唇部运动特征。

计算机设备提取得到第二声波信号中的多个口令信号片段，且活性检测的结果表示唇部运动有效后，进一步将所有单词对应的口令信号片段拼接在一起，得到拼接后的信号，进而对拼接后的信号进行特征提取，从而提取出唇部运动口令信号对应的唇部运动特征。

具体地，计算机设备将所有与单词相对应的口令信号片段进行融合拼接，得到拼接后的口令信号，并对拼接后的口令信号进行频域变换，得到频域变换后的口令信号。例如，对得到拼接后的口令信号后，可以利用窗口大小为1000ms，重叠大小为875ms的短时傅立叶变换将拼接后的信号从时域转换为频域。计算机设备进一步提取频域变换后的口令信号的能量带时频特征。例如可以首先将频谱中的能量值归一化到0-1之间；然后计算每个时间点0.03-0.99范围内的累计能量值，其中，累计能量值是所有频率累计能量值的一半；最后，获取所有频率的频域质心，并将所有时间点的频域质心组合在一起，得到能量带时频特征。得到的能量带时频特征即为唇部运动特征，从而能够有效地提取出唇部运动口令信号对应的唇部运动特征。

S310，基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。

其中，计算机设备中存储了验证对象的注册唇部运动特征。注册唇部运动特征是用户预先在注册时所认证的与验证口令对应的唇部运动特征。注册唇部运动特征用于对验证时所获取的唇部运动特征进行验证。

具体地，计算机设备获取用户在身份验证时的唇部运动特征后，将唇部运动特征和与验证口令对应的注册唇部运动特征进行比对，得到比对结果。具体地，计算机设备可以计算当前的唇部运动特征与注册唇部运动特征之间的相似度，根据相似度确定比对结果。比对结果包括比对一致和比对不一致，如当唇部运动特征与注册唇部运动特征之间的相似度达到相似度阈值时，则确定比对结果为比对一致。当比对结果为比对一致时，确定身份验证结果为验证成功；当比对结果为比对不一致时，确定身份验证结果为验证失败。通过获取用户验证时的唇部运动特征，将唇部运动特征与验证口令对应的注册唇部运动特进行比对，从而能够有效地对用户进行身份验证。

在其中一个实施例中，用户在注册过程中，利用提取的注册唇部运动特征构建用户认证文件，每个合法用户都有自己独特的文件。该用户认证文件用于利用在进行身份验证时，验证对应的验证对象是否合法。确认合法后，即当身份验证结果为验证成功时，计算机设备还可以利用本次身份验证所提取的唇部运动特征用来更新用户认证文件。具体地，计算机设备可以按照预设的权重将本次的唇部运动特征融入至用户认证文件的注册唇部运动特征中，以加强用户认证文件的有效性和安全性。由于用户嘴唇运动的独特性，攻击者几乎不可能通过冒充合法用户来绕过一致性验证。

上述身份验证方法中，计算机设备输出第一声波信号后，第一声波信号指向按照验证口令运动的唇部，由此能够有效获取第一声波信号经过唇部反射的第二声波信号。由于第二声波信号是在身份验证时通过验证对象基于验证口令反射得到的声波信号，因此能够有效确认用户的真实性。通过基于第二声波信号中的唇部运动信号提取口令信号片段并对口令信号片段进行活性检测，由此能够精准地识别出唇部运动信号的有效性。当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征，以有效提取出验证对象在进行身份验证过程中的动态的唇部运动特征。通过将唇部运动特征与验证口令对应的注册唇部运动特征进行比对，从而确定身份验证结果。通过获取难以伪造的用户实时的唇部运动信号，并提取对应的唇部运动特征身份验证，从而能够有效提高身份验证的准确性和安全性。

在一个实施例中，基于第二声波信号中的唇部运动信号提取口令信号片段包括：提取第二声波信号中的唇部运动信号；提取唇部运动信号中验证口令对应的口令信号片段。

其中，第一声波信号经过唇部反射的第二声波信号包括多条路径传播的声波信号，例如包括用户唇部的反射路径、固体(如用户的面部等)的传播路径、空气传播路径以及周围物体的反射路径等多条传播路径。其中包括一些干扰声波信号。因此计算机设备需要从第二声波信号中提取出仅与用户唇部运动相关的唇部运动信号。

具体地，计算机设备可以对获取的第二声波信号进行降频解调出基带信号，然后消除多径干扰以获得仅与唇部运动有关的声信号分量，从而提取出第二声波信号中的唇部运动信号。计算机设备对唇部运动信号进行端点检测提取口令信号片段，具体地，用户通过唇部念出验证口令时，按照验证口令依次说出验证口令中的单词。计算机设备提取出唇部运动信号后，进一步提取按照验证口令的单词对应的口令信号片段。由此准确有效地提取出所反射的超声波信号中仅与用户唇部运动相关的唇部运动信号以及验证口令对应的口令信号片段，从而能够对用户身份的真实性进行验证。

在一个实施例中，提取第二声波信号中的唇部运动信号包括：对第二声波信号进行信号解调，得到第二声波信号的分量信号；对分量信号进行干扰消除，得到第二声波信号中的唇部运动信号。

其中，分量信号是模拟信号的信号分量，分量信号表示由第二声波信号分裂成两个或两个以上的部分。信号可分为同相分量和正交分量、直流分量和交流分量、偶分量和奇分量、正弦分量和脉冲分量等。其中，同相分量就是与矢量方向相同的信号分量；正交分量就是与矢量信号正交(即与同相分量相互垂直)。第二声波信号的分量信号具体可以包括第二声波信号对应的同相分量和正交分量。

具体地，在人脸认证过程中，第一声波信号经过唇部反射的第二声波信号包括多条路径传播。计算机设备获取第二声波信号后，可以利用干相检波对进行降频解调，以获得仅与唇部运动有关的声信号分量。

例如，假设获取的第二声波信号Rec(t)中存在M条路径，获取的第二声波信号可用以下公式描述：

其中，i表示第i条路径，2Ai(t)表示声音信号在第i条路径中的振幅，

表示由传播延迟引起的相位偏移，

表示由系统延迟引起的相位偏移。

通过扬声器输出的原始的第一声波信号可以视为载波信号，通过麦克风采集的第二声波信号Rec(t)可以视为经过相移调制的多个基带信号的叠加。由于生成的超声波信号是具有不同频率的音频信号的叠加，因此扬声器播放的音频可以看作不同频率的基带信号的叠加。由于采集的信号与播放输出的信号基本同步。因此可以利用相干检波对采集的第二声波信号进行解调，可以得到载波频率f_k上第二声波信号的基带信号对应的分量信号。分量信号包括的同相分量I和正交分量Q，计算同相分量I和正交分量Q的表达式可以如下：

其中，F_low为低通滤波器，F_down为下采样函数。同相分量I中，R_k(t)×cos2πf_kt部分如下：

计算机设备然后通过低通滤波器F_low除去R_k(t)×cos2πf_kt的高频项，再通过F_down进行下采样。计算机设备进一步将第二声波信号的基带信号的同相分量I，同相分量I的计算公式可以如下：

同样地，正交分量Q的计算公式可以如下：

通过利用干相检波对获取的第二声波信号进行降频解调，能够有效地对采集的信号进行信号处理，以提取出第二声波信号的基带信号对应的声信号分量，通过进一步对声信号分量进行干扰消除，从而能够精准有效地提取出仅与用户唇部运动相关的唇部运动信号。

在一个实施例中，如图4所示，提取第二声波信号中的唇部运动信号的步骤，具体包括以下内容：

S402，对第二声波信号进行信号解调，得到第二声波信号的分量信号。

S404，基于预设拦截频率对分量信号进行动态干扰消除，得到动态干扰消除后的分量信号。

S406，提取动态干扰消除后的分量信号中的静态分量，对静态分量进行静态干扰消除，得到第二声波信号中的唇部运动信号。

其中，干扰消除包括对第二声波信号中的动态干扰信号和静态干扰信号，动态干扰信号是指身份验证环境中除验证对象外其他附近移动物体反射的信号；静态干扰信号包括身份验证环境中除验证对象外的固体传播路径、空气传播路径、以及附近静止物体等反射的信号。

对于得到的同相分量I和正交分量Q，为了提高识别的准确性，需要去除其他路径的干扰信号以仅保留与唇部运动有关的信号。计算机设备对获取的第二声波信号进行信号解调，提取出第二声波信号的基带信号对应的声信号分量后，通过进一步对提取的分量信号进行干扰消除，计算机设备可以分别对分量信号进行动态干扰消除和静态干扰消除。

具体地，计算机设备可以设置滤波器的预设拦截频率，基于预设拦截频率对分量信号进行动态干扰消除，由此过滤掉动态干扰信号，从而得到动态干扰消除后的分量信号。其中，计算机设备还可以在解调第二声波信号的基带信号的同时消除动态干扰，也可以在。例如解调第二声波信号得到对应的分量信号之后再进行动态干扰消除。由于人体躯干的运动通常会导致50-200Hz范围内的信号频移，而嘴唇运动引起的最大频移通常不超过40Hz，因此，将用于相干检波的低通滤波器F_low的截止频率设置为40Hz，从而可以有效地过滤掉分量信号中的动态干扰信号。

在动态消除干扰之后，得到的分量信号是用户唇部反射的声波信号和静态干扰信号的叠加，计算机设备进一步对动态干扰消除后的分量信号进行静态干扰消除。

具体地，可以将I/Q分量表示为恒定的静态分量I_s(t)/Q_s(t)与唇部反射的信号之和，具体表达式可以如下：

其中A_lip(t)是嘴唇反射信号的幅度，d_lip是传播延迟，v是声音在空气中的传播速度，θ_lip是由系统延迟引起的相移。还可以将其简记为：

为了消除静态分量，可以进一步地计算I/Q分量I_g(t)/Q_g(t)的梯度：

I_g(t)＝A_lip(t)cos(φ_lip(t))-A_lip(t)φ_lip(t)sinφ_lip(t))

Q_g(t)＝-A_lip(t)sin(φ_lip(t))-A_lip(t)φ_lip(t)cosφ_lip(t))

其中，A_lip(t)和Φ_lip(t)分别是A_lip(t)和Φ_lip(t)的微分系数。由于系数A_lip(t)与传播距离的平方成反比，而唇部运动比较微妙，因此A_lip(t)的值几乎不会变化，从而A_lip(t)的值近似零。因此，I_s(t)/Q_s(t)可以表示为：

I_g(t)＝-A_lip(t)φ_lip(t)sin(φ_lip(t))

Q_g(t)＝-A_lip(t)φ_lip(t)cos(φ_lip(t))

最后使用最小均方误差消除I_g(t)和Q_g(t)的缓慢变化项，处理完成后，最终可以得到表征用户的唇部运动信息的信号，在没有唇动的情况下I_g(t)和Q_g(t)的大小接近于零。通过对提取出的声信号分量分别进行动态干扰消除和静态干扰消除，从而能够精准有效地提取出仅与用户唇部运动相关的唇部运动信号。

在一个实施例中，提取唇部运动信号中验证口令对应的口令信号片段包括：对唇部运动信号进行语音活动检测，得到唇部运动信号中的各个单词的端点；根据各个单词的端点对唇部运动信号进行分段，得到各个单词对应的口令信号片段。

其中，端点是指音频信号当中的语音出现的开始点和语音消失的结束点，即端点包括音频信号的起点和终点。

计算机设备获取第二声波信号，并提取第二声波信号中与用户的唇部运动对应的唇部运动信号后，进一步对唇部运动信号进行语音活动检测，得到唇部运动信号中的各个单词的端点。进而根据各个单词的端点对唇部运动信号进行分段，并提取出各个单词对应的口令信号片段。

具体地，计算机设备可以利用语音活动检测算法对活跃语音段对应的唇部运动片段进行粗略地定位，进而基于预设的VAD阈值确定每个单词的端点，从而可以根据各个单词的端点对唇部运动信号进行分段，根据分段结果提取出各个单词对应的口令信号片段。通过识别唇部运动信号中各个单词对应的端点，提取出唇部运动信号中验证口令对应的口令信号片段，从而可以去掉静音部分和掉噪声部分，从而能够精准地提取出唇部运动信号中真正有效的口令信号片段。

在一个实施例中，端点包括起点和终点，根据各个单词的端点对唇部运动信号进行分段包括：获取唇部运动信号对应的包络特征；获取包络特征的包络差值，基于包络差值和预设阈值确定每个单词的起点和终点；根据单词的起点和终点提取各个单词对应的口令信号片段。

其中，包络特征是指唇部运动信号对应的频谱包络，频谱包络是将不同频率的振幅最高点连结起来形成的曲线，形成的曲线则为频谱包络线。频谱是许多不同频率的集合，形成一个很宽的频率范围，不同的频率其振幅可能不同。频谱包络可以包括振幅定点连接形成的曲线对应的上下包络，包络差值则可以表示为频谱包络的上下包络之间的差值。

用户唇部发出的语音信号是一个复杂的多频信号，各个频率成分具有不同的幅度。将信号按频率的大小加以排列，其顶端所连成的曲线为频谱包络。包络线的形状随所发的声音而变化的，频谱包络线的形状因人而异。频谱包络中包括多个特征参数，例如可以包括若干个峰和谷、频率和幅度等参数，这些参数可以用于语音端点识别。

计算机设备获取第二声波信号后，通过对第二声波信号进行信号解调和干扰消除，提取第二声波信号中与用户的唇部运动对应的唇部运动信号。由于消除干扰后，信号波形中两个连续单词之间存在明显的时间间隔，因此可以通过检测唇部运动信号。计算机设备则对唇部运动信号进行语音活动检测，定位各个单词的端点各个单词的端点对唇部运动信号进行分段。计算机设备可以利用语音活跃段检测算法粗略地定位嘴唇运动片段，然后基于信号包络实现单词分割。

具体地，计算机设备具体可以采用时域提取方式、频域提取方式或子带划分提取方式等，提取出唇部运动信号的频谱包络，由此可以从频谱包络中提取出唇部运动信号对应的包络特征。计算机设备获取包络特征的包络差值，基于包络差值和预设阈值确定每个单词的起点和终点，进而根据单词的起点和终点对唇部运动信号进行分段。

例如，可以用I_g(t)和Q_g(t)表示信号波形。计算机设备首先利用语音活动检测算法对干扰消除后的分量信号I_g(t)和Q_g(t)进行语音端点检测，对活跃语音段对应的唇部运动片段进行粗略地定位，使每个单词的起点和终点都在这些片段中。

为了准确定位每个单词的开始起点和终点，需要估计I_g(t)和Q_g(t)的上下包络，提取出唇部运动信号对应的包络特征。上下包络之间的差值会随着时间发生变化。例如当用户的唇部张开时，差值变大，当唇部合上时，差值接近零。可以预先为上下包络的差值设置一个阈值T_d，为一个单词的持续时间设置一个阈值T_w。当差异变得大于T_d时，信号点可能是单词的起点。相应地，当差异小于T_d并且当前位置与该单词起点之间的间隔大于T_w时，该信号点可以是单词的终点。通过反复测试调整T_d和T_w的值，以准确确定每个单词的起点和终点。

具体地，计算机设备获取包络特征的包络差值，基于包络差值和预设阈值T_d和T_w确定每个单词的起点和终点，根据单词的起点和终点对唇部运动信号进行分段，根据每个单词的起点和终点提取每个单词对应的口令信号片段，由此能够准确有效地提取出各个单词对应的口令信号片段。

在一个实施例中，对口令信号片段进行活性检测包括：将口令信号片段输入至已训练的唇部运动检测模型，通过唇部运动检测模型提取每个口令信号片段的唇部运动向量；根据唇部运动向量生成每个口令信号片段的检测标签；检测标签用于指示唇部运动是否有效；根据每个口令信号片段的检测标签输出活性检测的结果。

其中，唇部运动检测模型可以为基于深度学习算法预先训练的神经网络模型，神经网络模型比如CNN(Convolutional Neural Network，卷积神经网络)模型、LSTM(LongShort-Term Memory，长短期记忆网络)模型、DNN(Deep Neural Network，深度神经网络)模型和RNN(Recurrent Neural Network，循环神经网络)模型等，也可以是多种神经网络模型的组合。

计算机设备将提取得到的口令信号片段输入至唇部运动检测模型中，每个口令信号片段都可以视为特征向量，计算机设备则通过唇部运动检测模型提取每个口令信号片段的唇部运动向量。其中，可以通过唇部运动检测模型中的一个或多个特征提取层分别提取每个口令信号片段对应的一个或多个特征向量，并将提取的一个或多个特征向量进入连接融合，得到每个口令信号片段的唇部运动向量。

计算机设备可以根据所提取的唇部运动向量判断口令信号片段是否为有效的唇部运动，并对每个口令信号片段添加一个检测标签，检测标签则用于指示唇部运动是否有效。唇部运动检测模型进而基于每个口令信号片段的检测标签，生成本次身份验证中唇部运动信号的活性检测的结果，并将活性检测的结果输出。通过利用基于神经网络的唇部运动检测模型对口令信号片段进行活性检测，能够精准地识别验证对象的唇部运动是否有效，以有效地识别唇部运动信号的有效性，从而能够有效地验证活体用户的真实性。

在一个实施例中，唇部运动检测模型包括第一网络层和第二网络层以及特征连接层，对口令信号片段进行活性检测的步骤，具体包括以下内容：

S502，将口令信号片段输入至已训练的唇部运动检测模型。

S504，通过第一网络层提取口令信号片段的第一信号特征。

S506，通过第二网络层提取口令信号片段的第二信号特征。

S508，利用特征连接层对第一信号特征和第二信号特征进行特征连接，得到口令信号片段的唇部运动向量。

S510，根据唇部运动向量生成每个口令信号片段的检测标签；检测标签用于指示唇部运动是否有效；根据每个口令信号片段的检测标签输出活性检测的结果。

其中，基于神经网络的唇部运动检测模型包括第一网络层和第二网络层以及特征连接层，第一网络层和第二网络层是两种不同的神经网络，用于提取口令信号片段中不同的特征向量。例如，第一网络层可以为CNN模型，第二网络层可以为LSTM。

唇部运动检测模型还可以包括输入层，计算机设备首先通过输入层将口令信号片段输入至唇部运动检测模型。当第一网络层为CNN模型，第二网络层为LSTM模型时，由于输入到CNN网络层的特征向量的长度须一致，唇部运动检测模型的输入层可以将所有口令信号片段转换采样为128维特征向量，然后转换后的每个口令信号片段对应的向量输入至CNN网络层和LSTM网络层中。

其中，CNN网络层可以包括4个卷积层和2个最大池化层。卷积核提取按照时间顺序的唇部运动信号特征，并利用最大池层对特征图进行下采样，从而可以通过CNN提取出口令信号片段的第一信号特征，第一信号特征可以为时序采样特征。LSTM网络层可以包括多层神经网络，例如可以为两层，每层有64个隐藏的神经元。因此LSTM网络层可以作为具有64维输出的特征提取器，LSTM网络层的输出可以是一个16x128维的特征。通过LSTM网络层可以抽象出每个口令信号片段的时序上的特征，从而可以通过LSTM网络层提取出口令信号片段的第二信号特征，第二信号特征可以为基于时序的信号特征。

计算机设备提取出每个口令信号片段的第一信号特征和第二信号特征后，进一步通过唇部运动检测模型中的特征连接层对第一信号特征和第二信号特征进行特征连接。其中，特征连接层可以为全连接层，用于输出一个二维向量。通过特征连接层将第一信号特征和第二信号特征连接起来并进行融合，从而得到每个口令信号片段对应的唇部运动向量，生成的唇部运动向量可以用于表示每个口令信号片段的唇部运动是否有效。

本实施例中，通过包括多层网络层的唇部运动检测模型能够精准地对口令信号片段进行特征提取，由此能够准确有效地对用户的唇部运动信号进行活性检测，从而能够有效地验证活体用户的真实性。

在一个实施例中，如图6所示，提供了一种身份验证方法，具体包括以下步骤：

S602，获取验证对象的人脸图像。

S604，提取人脸图像的当前人脸特征。

S606，基于当前人脸特征和验证对象对应的目标人脸特征，对人脸图像进行人脸识别。

S608，当人脸识别成功时，输出第一声波信号，第一声波信号指向按照验证口令运动的唇部。

S610，获取第一声波信号经过唇部反射的第二声波信号。

S612，基于第二声波信号中的唇部运动信号提取口令信号片段。

S614，对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征。

S616，基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。

其中，人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术。

在对用户进行身份验证时，还可以首先对用户进行人脸识别，人脸识别成功后，再通过唇部运动检测对用户的身份进一步确认，以增强身份验证的准确性和安全性。

具体地，计算机设备可以基于身份验证指令获取验证对象的人脸图像，利用人脸识别算法提取人脸图像的当前人脸特征，并当前人脸特征和验证对象对应的目标人脸特征进行比对，以对人脸图像进行人脸识别。其中，人脸识别算法可以采用基于人脸特征点识别、基于整幅人脸图像图像识别、基于神经网络模型进行识别、基于光照模型进行识别等算法。人脸识别为比较成熟的技术，在此不再赘述。

计算机设备对人脸图像进行人脸识别后，得到人脸识别结果。人脸识别结果包括人脸识别成功和人脸识别失败。当人脸识别成功时，计算机设备输出第一声波信号，以进一步对用户进行唇部运动检测。具体地，计算机设备输出第一声波信号后，第一声波信号指向按照验证口令运动的唇部，以获取第一声波信号经过唇部反射的第二声波信号。由于第二声波信号是在身份验证时通过验证对象基于验证口令反射得到的声波信号，因此能够有效确认活体用户的真实性。通过基于第二声波信号中的唇部运动信号提取口令信号片段并对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征，通过将唇部运动特征与验证口令对应的注册唇部运动特征进行比对，从而确定身份验证结果。

本实施例中，通过首先对用户进行人脸识别后，再对用户进行唇部运动检测，因此能够有效确认活体用户的真实性。通过获取难以伪造的用户实时的唇部运动信号，并提取对应的唇部运动特征身份验证，从而能够有效提高身份验证的准确性。通过对用户进行双重身份验证，有效增强了身份验证的准确性和安全性。

在一个具体的实施例中，如图7所示，身份验证方法包括以下步骤：

S702，输出第一声波信号，第一声波信号指向按照验证口令运动的唇部。

S704，对第二声波信号进行信号解调，得到第二声波信号的分量信号。

S706，基于预设拦截频率对分量信号进行动态干扰消除，得到动态干扰消除后的分量信号。

S708，提取动态干扰消除后的分量信号中的静态分量，对静态分量进行静态干扰消除，得到第二声波信号中的唇部运动信号。

S710，对唇部运动信号进行语音活动检测，得到唇部运动信号中的各个单词的端点，根据各个单词的端点对唇部运动信号进行分段。

S712，获取唇部运动信号对应的包络特征，获取包络特征的包络差值，基于包络差值和预设阈值确定每个单词的起点和终点。

S714，根据单词的起点和终点提取各个单词对应的口令信号片段。

S716，将口令信号片段输入至已训练的唇部运动检测模型。

S718，通过第一网络层提取口令信号片段的第一信号特征。

S720，通过第二网络层提取口令信号片段的第二信号特征。

S722，利用特征连接层对第一信号特征和第二信号特征进行特征连接，得到口令信号片段的唇部运动向量。

S724，根据唇部运动向量生成每个口令信号片段的检测标签；检测标签用于指示唇部运动是否有效；根据每个口令信号片段的检测标签输出活性检测的结果。

S726，将唇部运动信号对应的各个口令信号片段进行拼接，对拼接后的唇部运动口令信号进行特征提取，得到唇部运动特征。

S728，基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。

上述身份验证方法中，获取第一声波信号经过唇部反射的第二声波信号后，通过对第二声波信号进行信号解调和干扰消除，由此能够精准地提取出第二声波信号中的唇部运动信号。通过语音活动检测能够准确地提取出唇部运动信号中的口令信号片段，利用唇部运动检测模型对口令信号片段进行活性检测，由此能够精准地识别出唇部运动信号的有效性。当活性检测的结果表示唇部运动有效时，通过对口令信号片段进行拼接以提取出唇部运动特征。通过基于唇部运动特征以及与验证口令对应的注册唇部运动特征，能够有效确定身份验证结果。通过获取难以伪造的用户实时的唇部运动信号，并提取对应的唇部运动特征身份验证，因此能够有效确认活体用户的真实性，从而能够有效提高身份验证的准确性和安全性。

本申请还提供一种应用场景，该应用场景应用上述的身份验证方法，用于实现在线支付。具体地，当用户利用终端中运行的应用进行在线购物或付款时，通过对应的应用发起支付请求，用户在支付时需要进行身份验证。终端基于支付请求生成身份验证指令，终端基于身份验证指令通过扬声器输出第一声波信号。在身份验证时，用户将人脸面向终端，用户可以通过唇部默念验证口令，第一声波信号则指向按照验证口令运动的用户的唇部。通过终端的麦克风获取第一声波信号经过唇部反射的第二声波信号。终端通过获取第二声波信号中的唇部运动信号，并提取口令信号片段。对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征。基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。若身份验证结果为身份验证通过，终端则获取该支付请求的消费数值，并从当前请求支付的用户的数值账户中减去该消费数值，从而完成支付。

本申请还另外提供一种应用场景，该应用场景应用上述的身份验证方法，用于实现终端解锁。具体地，当用户对终端进行解锁时，对终端触发解锁请求。终端基于解锁请求生成身份验证指令，基于身份验证指令对用户进行身份验证。具体地，终端通过扬声器输出第一声波信号。用户在解锁时，用户将人脸面向终端，用户通过唇部默念验证口令。第一声波信号则指向按照验证口令运动的用户的唇部。通过终端的麦克风获取第一声波信号经过唇部反射的第二声波信号。终端通过基于第二声波信号中的唇部运动信号提取口令信号片段。对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征。基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。若身份验证结果为身份验证通过，终端则进行解锁处理，从而完成终端解锁。可以理解的是，上述身份验证方法还可以适用于其他多种场景，在此不再赘述。

应该理解的是，虽然图3-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种身份验证装置800，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：信号输出模块802、信号获取模块804、信号提取模块806、活性检测模块808和身份验证模块810，其中：

信号输出模块802，用于输出第一声波信号，第一声波信号指向按照验证口令运动的唇部；

信号获取模块804，用于获取第一声波信号经过唇部反射的第二声波信号；

信号提取模块806，用于基于第二声波信号中的唇部运动信号提取口令信号片段；

活性检测模块808，用于对口令信号片段进行活性检测，当活性检测的结果表示唇部运动有效时，根据口令信号片段提取唇部运动特征；

身份验证模块810，用于基于唇部运动特征以及与验证口令对应的注册唇部运动特征，确定身份验证结果。

在一个实施例中，信号提取模块806还用于提取第二声波信号中的唇部运动信号；提取唇部运动信号中验证口令对应的口令信号片段。

在一个实施例中，信号提取模块806还用于对第二声波信号进行信号解调，得到第二声波信号的分量信号；对分量信号进行干扰消除，得到第二声波信号中的唇部运动信号。

在一个实施例中，信号提取模块806还用于基于预设拦截频率对分量信号进行动态干扰消除，得到动态干扰消除后的分量信号；提取动态干扰消除后的分量信号中的静态分量，对静态分量进行静态干扰消除，得到第二声波信号中的唇部运动信号。

在一个实施例中，信号提取模块806还用于对唇部运动信号进行语音活动检测，得到唇部运动信号中的各个单词的端点；根据各个单词的端点对唇部运动信号进行分段，得到各个单词对应的口令信号片段。

在一个实施例中，端点包括起点和终点，获取唇部运动信号对应的包络特征；获取包络特征的包络差值，基于包络差值和预设阈值确定每个单词的起点和终点；根据单词的起点和终点提取各个单词对应的口令信号片段。

在一个实施例中，活性检测模块808还用于将口令信号片段输入至已训练的唇部运动检测模型，通过唇部运动检测模型提取每个口令信号片段的唇部运动向量；根据唇部运动向量生成每个口令信号片段的检测标签；检测标签用于指示唇部运动是否有效；根据每个口令信号片段的检测标签输出活性检测的结果。

在一个实施例中，唇部运动检测模型包括第一网络层和第二网络层以及特征连接层，活性检测模块808还用于通过第一网络层提取口令信号片段的第一信号特征；通过第二网络层提取口令信号片段的第二信号特征；利用特征连接层对第一信号特征和第二信号特征进行特征连接，得到口令信号片段的唇部运动向量。

在一个实施例中，活性检测模块808还用于当每个口令信号片段的检测标签均满足活性检测条件时，确定活性检测的结果表示唇部运动有效。

在一个实施例中，活性检测模块808还用于将唇部运动信号对应的各个口令信号片段进行拼接，得到拼接后的唇部运动口令信号；对拼接后的唇部运动口令信号进行特征提取，得到唇部运动特征。

在一个实施例中，信号输出模块802还用于获取预设音频信号；对预设音频信号进行载波频率随机化，生成第一声波信号。

在一个实施例中，如图9所示，该装置还包括人脸识别模块801，用于获取验证对象的人脸图像；提取人脸图像的当前人脸特征；基于当前人脸特征和验证对象对应的目标人脸特征，对人脸图像进行人脸识别；信号输出模块802还用于当人脸识别成功时，输出第一声波信号。

关于身份验证装置的具体限定可以参见上文中对于身份验证方法的限定，在此不再赘述。上述身份验证装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储声波信号、验证口令、唇部运动特征、注册唇部运动特征等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种身份验证方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏、输入装置、扬声器和麦克风。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种身份验证方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10和图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种身份验证方法，其特征在于，所述方法包括：

获取所述第一声波信号经过所述唇部反射的第二声波信号；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二声波信号中的唇部运动信号提取口令信号片段包括：

提取所述第二声波信号中的唇部运动信号；

提取所述唇部运动信号中所述验证口令对应的口令信号片段。

3.根据权利要求2所述的方法，其特征在于，所述提取所述第二声波信号中的唇部运动信号包括：

对所述第二声波信号进行信号解调，得到所述第二声波信号的分量信号；

对所述分量信号进行干扰消除，得到所述第二声波信号中的唇部运动信号。

4.根据权利要求3所述的方法，其特征在于，所述对所述分量信号进行干扰消除，得到所述第二声波信号中的唇部运动信号包括：

基于预设拦截频率对所述分量信号进行动态干扰消除，得到动态干扰消除后的分量信号；

提取所述动态干扰消除后的分量信号中的静态分量，对所述静态分量进行静态干扰消除，得到所述第二声波信号中的唇部运动信号。

5.根据权利要求2所述的方法，其特征在于，所述提取所述唇部运动信号中所述验证口令对应的口令信号片段包括：

对所述唇部运动信号进行语音活动检测，得到所述唇部运动信号中的各个单词的端点；

根据各个单词的端点对所述唇部运动信号进行分段，得到各个单词对应的口令信号片段。

6.根据权利要求5所述的方法，其特征在于，所述端点包括起点和终点，所述根据各个单词的端点对所述唇部运动信号进行分段包括：

获取所述唇部运动信号对应的包络特征；

获取所述包络特征的包络差值，基于所述包络差值和预设阈值确定每个单词的起点和终点；

根据所述单词的起点和终点提取各个单词对应的口令信号片段。

7.根据权利要求1所述的方法，其特征在于，所述对所述口令信号片段进行活性检测包括：

将所述口令信号片段输入至已训练的唇部运动检测模型，通过所述唇部运动检测模型提取每个口令信号片段的唇部运动向量；

根据所述唇部运动向量生成每个口令信号片段的检测标签；所述检测标签用于指示唇部运动是否有效；

根据每个口令信号片段的检测标签输出所述活性检测的结果。

8.根据权利要求7所述的方法，其特征在于，所述唇部运动检测模型包括第一网络层和第二网络层以及特征连接层，所述通过所述唇部运动检测模型提取每个口令信号片段的唇部运动向量包括：

通过所述第一网络层提取所述口令信号片段的第一信号特征；

通过所述第二网络层提取所述口令信号片段的第二信号特征；

利用所述特征连接层对所述第一信号特征和所述第二信号特征进行特征连接，得到所述口令信号片段的唇部运动向量。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述每个口令信号片段的检测标签均满足活性检测条件时，确定所述活性检测的结果表示唇部运动有效。

10.根据权利要求1所述的方法，其特征在于，所述根据所述口令信号片段提取唇部运动特征包括：

将所述唇部运动信号对应的各个口令信号片段进行拼接，得到拼接后的唇部运动口令信号；

对所述拼接后的唇部运动口令信号进行特征提取，得到唇部运动特征。

11.根据权利要求1至10任意一项所述的方法，其特征在于，在所述输出第一声波信号之前，所述方法还包括：

获取预设音频信号；

对所述预设音频信号进行载波频率随机化，生成第一声波信号。

12.根据权利要求1至10任意一项所述的方法，其特征在于，所述方法还包括：

获取验证对象的人脸图像；

提取所述人脸图像的当前人脸特征；

基于所述当前人脸特征和所述验证对象对应的目标人脸特征，对所述人脸图像进行人脸识别；

当所述人脸识别成功时，输出第一声波信号。

13.一种身份验证装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。