CN109711350A

CN109711350A - 一种基于唇部运动和语音融合的身份认证方法

Info

Publication number: CN109711350A
Application number: CN201811621101.5A
Authority: CN
Inventors: 杨靖骁; 王骞; 陈艳姣; 周满; 王河钰
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-03
Anticipated expiration: 2038-12-28
Also published as: CN109711350B

Abstract

本发明所涉及的基于唇部运动和语音融合的身份认证方法，解决了现有单模态身份认证技术的缺陷，通过利用用户说话时的唇部运动和声音构建多模态身份认证系统，可以为用户提供更加安全、可靠、高效的保护。利用智能手机上的音频设备同时感知说话人的唇部运动和声音，并将这两种生物特征进行融合，利用从信号中提取出的特征来判别用户身份的合法性。

Description

一种基于唇部运动和语音融合的身份认证方法

技术领域

本发明属于身份认证和生物特征领域，特别涉及一种基于唇部运动和语音融合的身份认证方法。

背景技术

随着网络和通信技术的飞速发展，电子信息的安全性也变得越来越突出，人们对高可靠的身份认证技术的需求也日益增长。传统的身份认证系统使用密码、口令、智能卡、证件等基于知识和信任物的认证方式，其安全性受到威胁，存在丢失、被盗用和复制等诸多问题。由于人的生物特征的唯一性，并且有着随身携带、不易丢失等优点，所以基于生物特征的认证技术已经成为替代传统身份认证方式的最佳方案，并且已经成为当前研究领域重要的课题。

基于生物特征的身份认证技术，简单地说就是利用人体所固有的生物特征进行个人身份认证的技术。生物特征可以分为两类：生理特征和行为特征。生理特征是与生俱来的，多为先天性的(如指纹、虹膜、人脸等)；而行为特征则是习惯使然的，是人体行动时表现出的特征，多为后天性的(如笔迹、步态等)。然而，基于单一的生物特征的认证系统在实际应用中存在着鲁棒性不强、准确率不高、稳定性差和安全性弱等缺点。因此，生物特征领域出现了一种新方向，即多种生物特征融合。基于多生物特征融合的身份认证技术具有更高的准确率，并且能为用户提供更好的安全保障，同时能够适用于更加复杂的环境，大大提高了系统的实用性。

近年来，语音认证技术已经十分成熟，成为一种低成本、可靠和稳定的身份认证方法，在访问控制、取证和执法等领域中得到了广泛应用。特别是随着智能手机的发展，语音认证技术在移动应用中越来越受欢迎。然而，语音认证技术容易受到环境噪音的干扰，在嘈杂环境中，认证准确率会下降。另外，最近越来越多的研究证明语音认证系统容易遭受重放攻击，攻击者只需简单地重放预先录制或者机器合成的用户语音就可欺骗系统。除了重放攻击，攻击者还可以通过人为模仿用户语音达到相同的目的。这些缺陷都对语音认证系统的安全性和可靠性带来了很大的影响。

基于说话人唇部运动特征的认证技术作为一种新兴的认证技术，逐渐成为研究者的研究热点。由于嘴唇形状的多样性和说话方式的差异性，使得用户说话时的唇部运动方式可以作为一种生物特征来进行用户的身份认证，近年来关于基于唇部运动特征的身份认证技术的大量研究成果也证明了这种技术的可靠性与可行性。现有的唇部运动特征提取方法主要依靠视频，但是这种方法不仅对设备有要求，而且容易受到环境因素(例如光线)的影响。同时，近年来也有研究利用唇部运动和语音的混合特征来认证用户身份，但是这些系统利用不同形式的数据来捕获唇部运动和语音(视频捕获唇部运动，音频捕获语音)，由于视频和音频之间采样率的区别，使得二者之间很难实现完全的数据同步，另外，由于视频和音频之间的数据维度的差异性(视频为二维数据，音频为一维数据)，使得二者很难完美融合。

发明内容

本发明就是针对现有技术的不足，提供了一种操作简单、稳定性好，准确率高，安全性强的基于唇部运动和语音融合的身份认证方法。

为了实现上述目的，本发明所设计的基于唇部运动和语音融合的身份认证系统，其特征在于，包括以下步骤：

信号采集：利用智能手机的麦克风捕获用户的说话声音和扬声器发射的近超声波经唇部反射后的信号；

信号分离：将采集的信号拷贝为两份，其中一份用于获取唇部运动估计，另一份用于获取语音信号；

信号融合：唇部运动估计和语音信号进行融合；

特征提取：分割用户说话的片段，并对该片段信号进行特征提取，并构建用户模型；

决策：用户在进行认证时，输入注册口令，系统利用构建好的模型进行比对，得出判决结果。

进一步地，所述信号分离中，唇部运动估计的过程具体如下：

将其中一份采集的信号分别乘以发射信号的同相分量cos(2πft)和正交分量-sin(2πft)；

将得到的两个信号通过一个截止频率为40Hz的低通滤波器，获得包含有唇部运动信息的同相信号和正交信号；

消除信号中的干扰，得到唇部运动估计。

更进一步地，消除信号中的干扰具体过程如下：

将同相信号看作是由I_s(t)和I_d(t)这两部分的和构成，I_s(t)和I_d(t)分别表示由周围静止物体和说话人唇部反射的信号的叠加；I_s(t)是一个在小范围内缓慢波动的信号；

首先过滤信号中的直流分量；

然后利用MMSE(最小均方误差)算法最终消除I_s(t)，最后得到处理之后的近似同相信号；

正交信号的干扰消除与同相信号类似，再将本权利要求项中处理后的同相信号和正交信号分别作为一个复信号的虚部和实部重新组合，并求该组合后的复信号的能量以消除系统延迟干扰。

进一步地，对于信号分离步骤中的另一份信号，先使用一个截止频率为8kHz的低通滤波从混合信号中分离出语音信号；

再对分离出的语音信号进行降噪处理以获得纯净的语音信号。

进一步地，本系统中在数据阶段进行信号融合，具体过程如下：

将唇部运动估计看作是一个信号的包络，而语音信号则看作是这个信号的细节，按照频率倒谱中提取信号特征的方法重构出由唇部运动估计和语音信号构成的复合信号。

进一步地，所述分割用户说话的片段，并对该片段信号进行特征提取的具体过程如下：

首先利用VAD(voice activity detection)算法检测出可能的活动分段，再对这些分段进行组合和筛选，所述组合筛选过程如下：

首先根据每一个可能分段的极差和方差去除掉误判的分段，然后对筛选出来的分段进行组合，将之间间隔小于200ms的分段组合成一个新的分段，最后进行第二次筛选，去除掉时长不超过300ms的分段；之后对得到的分段按照帧长20ms，步长10ms进行分帧，对每一帧信号提取梅尔频率倒谱系数。

更进一步地，所述模型构建的具体过程如下：

采集样本的次数至少为3次；

对每个样本都按照上述的特征提取提取出13维的梅尔频率倒谱系数特征、13维的一阶差分以及13维的二阶差分，然后利用这些特征矩阵构建混合中心为32的高斯混合模型。

本发明的优点在于：

本发明在利用麦克风接收唇部反射的近超声波的同时也利用麦克风捕获用户说话时的声音，二者都包含在同一个音频序列中，之间不存在信号不同步、信号兼容性差等其他多模态系统中存在的问题，并且由于唇部运动估计信号的频率远小于语音信号的频率，利用唇部运动估计信号对语音信号进行规整，可以很好地将二者融合。另外，用户说话时的唇部运动和语音这两种生物特征能够很好地实现优势互补，将二者结合进行多模态的身份认证，可以很好地解决传统单模态的身份认证系统中的缺陷，具体表现在：

1)嘴唇形状和说话方式的多样性，使得其他人难以模仿指定用户说话时的唇部运动方式，可以很好地解决语音信号容易遭受重放攻击和模仿攻击的问题。

2)本系统利用近超声波感知唇部运动，不易受到周围环境噪音的干扰，解决了传统语音认证系统在噪声环境中准确率下降的问题。

3)用户说话时的语音相较于唇部运动具有更好的稳定性，可以解决单独使用唇部运动来认证用户身份存在的不稳定的问题。

附图说明

图1是本发明实施例的系统流程图。

图2是本发明实施例的唇部运动感知示例图。

图3是本发明实施例的相干检波流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述：

本发明主要基于多生物特征的采集与融合，考虑单一生物特征的优势和不足，提出的一种基于唇部运动和语音融合的身份认证方法。本方法利用现有智能手机上的音频设备完成对信号的采集，通过对唇部运动信息和语音信息的融合来为用户提供更加安全、可靠、高效的身份认证方案。

本发明提供的系统能够在部署在现有的智能手机上。实施例以用户的注册和认证过程为例对本发明的流程进行一个具体的阐述，参加图1，具体流程如下：

信号采集：利用智能手机上的音频设备同时完成对用户说话时的唇部运动和语音的采集，并将二者保存在同一个音频文件中。

具体的实施过程如下：

用户按照自身的使用习惯握持设备，并保证设备在嘴唇周围，如图2所示，当程序启动完成后，设备扬声器会持续发射近超声波，此时用户可以开始进行输入，扬声器在用户结束输入后停止发射近超声波，麦克风在用户输入时会同时捕获由唇部反射的近超声波和用户语音。用户输入结束的判断是当一段时间没有检测到用户输入，则认为用户已经完成输入。实际情况中也可以将输入时间设为一个定值，用户必须在规定时间内完成输入。在注册阶段，用户可以根据自身喜好设定任意的短语或句子作为口令；在认证阶段，用户需要使用注册时使用的口令作为输入。麦克风将用户语音和唇部反射的近超声波保存在同一个音频文件中，由于语音信号的频率一般小于8kHz，而本系统使用的近超声波频率至少为20kHz，二者之间存在较大的频率差异，不会出现信号覆盖的现象。

唇部运动估计：由于麦克风接收到的是唇部反射的近超声波和语音信号的融合，为了将二者分离，首先要将麦克风接收到的信号拷贝成完全相同的两份样本。对其中一份样本按照图3所示的流程进行相干检波获得唇部运动信号的同相信号和正交信号。然后消除信号中非唇部反射信号的干扰和系统延迟的干扰，获得唇部运动估计。

具体的实施过程如下：

将扬声器的采样率设为48kHz，发射一个频率为f＝20kHz，幅度为A＝1的近超声波信号A cos(2πft)，该信号在空间中自由传播，经过多条路径到达麦克风(从扬声器直接到麦克风，由周围物体反射到达麦克风，由唇部反射到达麦克风)，此时麦克风接收到的信号可表示为(这个信号没有考虑语音信号)，其中k表示第k条路径，2a_k(t)表示第k条路径上的信号的幅度，表示由第k条路径的信号的传播延迟所造成的相位偏移，θ_k(t)是由系统延迟造成的偶然相位偏移，这个相位偏移是随机的，无法预测的。麦克风的采样率可以和扬声器的采样率不一致，但是必须要满足奈奎斯特采样定律。

将信号R(t)拷贝成完全相同的两份，分别乘以发射信号的同相分量cos(2πft)和正交分量-sin(2πft)，结果分别为和对于每一条路径上的信号，都由两个频率的信号叠加而成，其中一个是由于唇部运动引起的频率偏移，另外一个是发射信号频率的两倍，经过大量的研究和实验发现前者最大值不超过40Hz，而后者至少为40kHz，于是，利用一个截止频率为40Hz的低通滤波器将前者分离出来，这样便得到了包含有唇部运动信息的同相信号和正交信号语音信号乘以同相分量或正交分量之后，频率范围也远大于40Hz，因此，通过相干检波也可以过滤掉麦克风接收到的语音信号，同时，将低通滤波器的截止频率设为40Hz也可以有效地消除周围其他运动物体的干扰，有相关研究已经证明周围其他运动物体的干扰所造成的频率偏移一般为[50，200]Hz。

经过相干检波之后得到的同相信号和正交信号中仍然包含有周围静止物体反射的信号和系统延迟对信号造成的干扰。系统延迟对信号的干扰存在于所有路径中，于是可以将同相信号看作是由I_s(t)和I_d(t)这两部分的和构成，它们分别表示由周围静止物体(如人脸，手臂等)和说话人唇部反射的信号的叠加。在理想情况下I_s(t)应该是一个常量，因为周围静止物体并没有发生运动，其对应的信号有恒定的相位，但是在实际情况中I_s(t)是一个在小范围内缓慢波动的信号，围绕一个常量进行变化，为了从同相分量中消除I_s(t)，首先利用信号的一阶差分过滤掉信号中的直流分量，然后利用MMSE(最小均方误差)算法消除这个微小的信号波动，最终消除I_s(t)，最后得到处理之后的同相信号近似为其中P_d表示由唇部反射的信号的路径集合；对正交信号做类似的处理可以得到处理，具体包括过滤掉正交信号中的直流分量，和对过滤之后的信号利用MMSE进行处理，处理之后的正交信号近似为之后，再将二者组合成一个复信号(由于θ_i(t)是系统延迟造成的偶然相位偏移，因此对所有路径上的信号来说都是相等的)，求这个复信号的能量即可消除系统延迟对信号造成的干扰。最后得到的唇部运动估计为这个估计是由唇部的每一部分的绝对运动和每两个部分之间的相对运动叠加而成。

语音信号预处理：对麦克风接收到的信号的另一份拷贝，需要从中分离出语音信号。

具体的实施过程如下：

由于语音信号频率一般小于8kHz，于是使用一个截止频率为8kHz的低通滤波器就可从混合信号中分离出语音信号，对分离出的语音信号进行降噪处理即可以获得纯净的语音信号。

信号融合：在多生物特征系统中，最重要的一个问题就是如何对获得的多种生物特征进行融合，目前按照信号处理的流程将信号融合分为以下几类——数据阶段的融合、特征阶段的融合、样本匹配阶段的融合以及决策阶段的融合。一般来说，融合的越早效果越好，因为早期的数据包含有更多信息，在本系统中融合是在数据阶段进行的。

具体的融合过程如下：

最后得到的唇部运动估计频率分布[0 80]Hz，而语音信号的频率分布在[858000]Hz，对于绝大多数语音信号来说，其频率远大于本系统中得到的唇部运动估计的频率，将唇部运动估计看作是一个信号的包络，而语音信号则看作是这个信号的细节，按照频率倒谱中提取信号特征的方法重构出由唇部运动估计和语音信号。

特征提取：融合之后的信号仍然存在大量的冗余，主要是静默段，即用户没有说话的片段，为了去除这些冗余，首先要分割出用户说话的片段，然后对这一段信号提取特征。

具体的实施过程如下：

首先利用VAD(voice activity detection)算法检测出可能的活动分段，然后对这些分段进行组合和筛选，最终得到真正的用户说话片段。组合筛选的过程包括：首先进行第一次筛选根据每一个可能分段的极差和方差利用设定阈值的方法去除掉误判的分段，因为真正的分段的极差和方差应该大于某一个阈值，然后对筛选出来的分段进行组合，将之间间隔小于200ms的分段组合成一个新的分段，最后进行第二次筛选，去除掉时长不超过300ms的分段。之后对得到的分段按照帧长20ms，步长10ms进行分帧，对每一帧信号提取MFCC(梅尔频率倒谱系数)。

用户模型构建：用户在注册时需要重复多次输入相同的内容以获得多个样本来构建用户模型。该模型的构建具体包括：

对每个样本都按照上述的步骤提取出13维的MFCC特征、13维的一阶差分以及13维的二阶差分，然后利用这些特征矩阵构建混合中心为32的GMM(高斯混合模型)。用户注册时需要重复输入的次数至少为3次。

决策：用户在进行认证时，输入注册时使用的口令，提取出融合信号的特征矩阵后与已经构建好的用户模型进行比对，得出最后的判决。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于唇部运动和语音融合的身份认证方法，其特征在于，包括以下步骤：

信号融合：唇部运动估计和语音信号进行融合；

特征提取：分割用户说话的片段，并对该片段信号进行特征提取，并构件用户模型；

2.根据权利要求1所述的基于唇部运动和语音融合的身份认证方法，其特征在于：所述信号分离中，唇部运动估计的过程具体如下：

消除信号中的干扰，得到唇部运动估计。

3.根据权利要求2所述的基于唇部运动和语音融合的身份认证方法，其特征在于：消除信号中的干扰具体过程如下：

将同相信号看作是由I_s(t)和I_d(t)这两部分的和构成，I_s(t)和I_d(t)分别表示由周围静止物体和说话人唇部反射的信号的叠加，I_s(t)是一个在小范围内缓慢波动的信号；

首先过滤信号中的直流分量；

4.根据权利要求1所述的基于唇部运动和语音融合的身份认证方法，其特征在于：

对于信号分离步骤中的另一份信号，先使用一个截止频率为8kHz的低通滤波从混合信号中分离出语音信号；

5.根据权利要求1所述的基于唇部运动和语音融合的身份认证方法，其特征在于：本系统中在数据阶段进行信号融合，具体过程如下：

6.根据权利要求1所述的基于唇部运动和语音融合的身份认证方法，其特征在于：所述分割用户说话的片段，并对该片段信号进行特征提取的具体过程如下：

7.根据权利要求6所述的基于唇部运动和语音融合的身份认证方法，其特征在于：所述模型构建的具体过程如下：

采集样本的次数至少为3次；