CN112927694B

CN112927694B - 一种基于融合声纹特征的语音指令合法性判别方法

Info

Publication number: CN112927694B
Application number: CN202110249305.6A
Authority: CN
Inventors: 宋军; 张芷馨; 刘欢; 胡祎伟; 黄邑灵
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-13
Anticipated expiration: 2041-03-08
Also published as: CN112927694A

Abstract

本发明提供一种基于融合声纹特征的语音指令合法性判别方法，包括：设备终端获取语音信号，并转化为文字；将文字与设备终端语音唤醒库中的唤醒词进行匹配，若文字与唤醒词匹配成功，则使用语音活动端点检测技术VAD对所述语音信号进行分离；对分离后的语音信号进行预处理；对预处理后的语音信号提取各个声纹特征，包括：CQCC特征、MFCC特征、LPCC特征和IMFCC特征；对各个声纹特征逐一串行合并，得到融合声纹特征；将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练，得到训练好的语音识别模型；利用训练好的语音识别模型检测语音攻击。本发明的有益效果：可以有效检测并防御恶意语音欺诈攻击设备终端，显著提高了终端可用性。

Description

一种基于融合声纹特征的语音指令合法性判别方法

技术领域

本发明涉及语音识别产品的安全领域，具体涉及一种基于融合声纹特征的语音指令合法性判别方法。

背景技术

语音活动端点检测技术(VAD)对语音指令进行分离，以去除噪音段对说话人声纹特征的影响。传统的VAD方法基于短时能量和短时平均过零率进行端点检测。

现有的大多数语音攻击检测方法采用单一的检测算法来检测某一种语音攻击，如申请号为CN201610220000.1的发明，采用长窗比例因子的回放语音攻击检测算法，检测的语音攻击只有语音重放攻击。然而现在的语音攻击多种多样，如重放攻击，模拟攻击，海豚攻击等等。只检测单一的语音攻击是完全不够的。

现有的语音攻击检测方法多数采用计算语音序列的相似度来抵御攻击，如申请号为CN201811621085.X的发明采用计算气爆音相似度的方式来判断语音是否为攻击语音，该方式计算较为复杂。本发明受卷积神经网络在图像识别领域中应用的启发，将融合声纹特征视为图像信息。以卷积神经网络模型为基础，对单一声纹特征逐一进行串行合并构建融合声纹特征。融合声纹特征符合卷积神经网络模型的输入特点，可以省略复杂的时序权重计算，提高模型的训练效率。

现有的语音攻击检测方法需要用户提供额外的身份认证。现有的一些语音攻击检测方法只针对某一具体的设备。

发明内容

有鉴于此，本发明提供了一种基于融合声纹特征的语音指令合法性判别方法，本发明采用了结合卷积神经网络(CNN)和循环神经网络(RNN)模型来提高语音段与噪音段分离的准确率。通过CNN从原始的语音输入中自动学习语音信号的最佳表示，并将学习到的语音信号中间表示放入RNN网络中进行学习及预测。经过VAD技术，可成功对语音段和噪音段进行分割，显著降低噪声对说话人声纹特征的影响。经过分离得到的噪音段将用于噪声音量检测，语音段将提取单一声纹特征。

本发明提供一种基于融合声纹特征的语音指令合法性判别方法，包括以下步骤：

S101：设备终端获取语音信号，并将所述语音信号转化为文字；

S102：将文字与设备终端语音唤醒库中的唤醒词进行匹配，若文字与唤醒词匹配成功，则进入步骤S103，否则流程结束；

S103：使用语音活动端点检测技术VAD对所述语音信号进行分离，得到分离后的语音信号；

S104：对分离后的语音信号进行预处理，得到预处理后的语音信号；

S105：对预处理后的语音信号提取各个声纹特征，包括：语音段常数Q变换倒谱系数CQCC特征、梅尔倒谱系数MFCC特征、语音段线性预测倒谱系数LPCC特征和语音段IMFCC特征；

S106：对各个声纹特征逐一串行合并，得到融合声纹特征；

S107：将所述融合声纹特征输入至结合注意力机制和MFM激活函数的ResNet网络进行训练，得到训练好的语音识别模型；

S108：利用训练好的语音识别模型检测语音攻击。

进一步地，步骤S104中，对分离后的语音信号进行预处理，具体包括：预加重处理、分帧处理和加窗处理；

预加重处理，具体如式(1)：

y(n)＝x(n)-0.97*x(n-1) (1)

式(1)中，x(n)为分离后的语音信号；y(n)为预加重后的信号；

分帧处理：将预加重信号每N个采样点组成一帧；N为预设值；

加窗处理：将每帧信号乘以窗函数，得到加窗后信号，具体如式(2)：

S_w(n)＝y(n)×W(n) (2)

式(2)中，W(n)为窗函数，S_w(n)为加窗后信号。

进一步地，步骤S105中，提取梅尔倒谱系数MFCC特征具体过程如下：

S201：对加窗后信号S_w(n)进行快速傅里叶变换，得到变换后的信号；

S202：对变换后的信号进行Mel滤波，得到滤波信号；

S203：计算滤波信号中每个滤波器组输出的对数能量；

S204：根据对数能量，使用离散余弦变换DCT求解梅尔倒谱系数MFCC特征。

进一步地，步骤S105中，提取语音段IMFCC特征具体过程为：将步骤S202中Mel滤波替换为IMel滤波，其余过程与提取梅尔倒谱系数MFCC特征保持不变，最终得到语音段IMFCC特征。

进一步地，步骤S105中提取语音段常数Q变换倒谱系数CQCC特征，具体过程为：对预处理后的语音信号进行CQT变换，得到CQT信号；根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征，如式(3)：

式(3)中，CQCC(p)为提取的语音段常数Q变换倒谱系数CQCC特征；l为均匀重新采样频率区间的标号；p＝0,1,...,L-1，L为均匀重新采样频率区间总数；X^CQ(l)为CQT信号。

进一步地，步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下：通过语音样本获取语音预测系数；根据所述语音预测系数，进行倒谱分析，得到语音段线性预测倒谱系数LPCC特征。

步骤S106中，对各个声纹特征进行合并前，还对其进行标准化处理；标准化如式(4)所示：

式(4)中，x′为一维的声纹特征向量；

为一维的声纹特征向量均值；s²为一维的声纹特征向量标准差。

本发明的有益效果是：本发明基于人声与机器声学特征的不同，利用合法语音指令与攻击语音指令声纹特征存在的差异性，分别提取待识别语音的MFCC、IMFCC、CQCC、LPCC和频率特征，并利用卷积神经网络将这些特征进行融合，得到语音的融合特征。利用融合特征判断语音指令的合法性，无需用户提供额外的身份认证，可以有效检测并防御恶意语音欺诈攻击，显著提高了系统的可用性。解决了已有研究方案中针对应用程序修改加密传感器数据导致技术缺乏一般性或影响应用程序有效性的问题；改进了实施访问控制策略导致的检测攻击范围较窄和借助外部硬件导致的应用局限性问题。

附图说明

图1是本发明一种基于融合声纹特征的语音指令合法性判别方法的流程示意图；

图2为语音段提取的工作流程图；

图3为去噪后的语音段预处理流程图；

图4为语音特征提取的工作流程图；

图5为特征融合流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

为了更好的解释说明，本发明先对相关专业概念进行释义如下：

(1)梅尔倒谱系数(MFCC)是语音识别领域中最常用的特征之一。它描述人类的听觉感知，以达到拟合人类听觉系统的目的。MFCC特征是一种将低频部分放大，将高频部分压缩，从而获得类似于人类听觉感知的特征。

(2)常数Q变换倒谱系数(CQCC)，它可有效捕获特殊迹象并寻找攻击语音与真实语音之间的差距。

(3)IMFCC特征，主要是为了解决不同设备发出攻击语音的差异度集中在低频部分而提出，可以减小播放设备不同带来的误差，突出真实语音和重放语音之间的差异。

(4)LPCC特征通常用于捕获通过说话者的声道特性表现出的说话者特定信息。

请参考图1，本发明提供的一种基于融合声纹特征的语音指令合法性判别方法，具体包括以下步骤：

设备终端可以为具备语音识别功能信号的终端，但对此不作限制；优选的，本发明中用百度短语音识别API将捕获到的音频识别为文字；

请参考图2，为语音段提取的工作流程图；优选的，百度语音识别API返回JSON格式的语音识别结果，提取“result”字段数据作为语音识别内容，并与语音唤醒词库中用户使用的唤醒词(如：“Hi，Siri”、“小爱同学”等)进行匹配。若匹配成功，则推断该音频样本需要进行识别检测，进入后续步骤；

优选的，本发明将语音信号转为wav格式，通过调用vad_extract.py脚本文件执行VAD技术，分离噪声及语音段，生成噪声及语音段的wav文件并存入原始语音所目录下；

通过组合使用Java提供的Runtime类和Process类的方法实现vad_extract.py脚本文件的跨平台调用；Runtime.getRuntime()返回当前应用程序的Runtime对象，该对象的exec()方法指示Java虚拟机创建一个子进程执行指定的可执行程序，并返回与该子进程对应的Process对象实例。VolumeDect类实现了将输入语音进行噪音段与语音段分离的功能，其中changeToWav函数将传入的arm音频转化为wav格式。VAD函数进行语音分离操作GetVolume函数为对外接口，传入带噪语音路径即可得到对应噪音及语音段的wav文件路径；这里也可以采用其他相关方法，不用以作限制；

优选的，预处理操作包括预加重操作、分帧处理和加窗处理；请参考图3，图3为去噪后语音段预处理流程图；

(1)预加重操作，减轻噪声对信号的影响，尤其是尖锐噪声，突出高频部分。同时消除发声过程中声带和嘴唇的震动效应，以补偿语音信号受发音系统抑制的高频部分。具体公式下，其中x(n)为原始信号，即n时刻的语音采样值；y(n)为预加重后信号；0.97为预加重系数；

y(n)＝x(n)-0.97·x(n-1)

(2)分帧处理。将语音信号中每N个采样点集合成一个观测单位，分帧过程中，让相邻两帧之间有一段重叠区域。此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。

(3)加窗处理。将每一帧乘以窗函数，以增加每一帧的左端和右端的连续性。其中W(n)是窗函数(通常为汉明窗)，S_w(n)是加窗后信号。

S_w(n)＝y(n)×W(n)

请参考图4，图4为语音特征提取流程图；提取MFCC特征具体如下：

(1)对加窗信号S_w(n)进行快速傅里叶变换，公式如下：

X_a(k)为快速傅里叶变换后的信号；k为语音信号帧数的序号；N表示傅里叶变换的点数；

(2)对傅里叶变换后的加窗信号进行Mel滤波；

(3)计算每个滤波器组输出的对数能量，公式如下：

i为滤波器组的编号；H_m(i)为三角滤波器的频率响应；M为滤波器组的总数；

(4)使用离散余弦变换(DCT)求出MFCC特征，公式如下：

C(n)为MFCC特征；M是三角滤波器个数；

提取IMFCC特征：IMFCC的提取过程与MFCC类似，主要区别在于将提取过程中的Mel滤波器组更换为IMel滤波器组。

取语音段常数Q变换倒谱系数(CQCC)特征：

(1)对预处理后的语音帧进行CQT变换。离散时域信号的CQT特征X^CQ(k，n)定义如下：

其中k＝1,2,...,K是频率窗的索引，

是a_k(n)的复共轭函数，N_k是可变窗函数的长度。基函数a_k(n)定义如下：

其中，f_k是窗k的中心频率，f_s是采样率，φ_k是相位偏移。比例因子C定义如下：

其中w(·)为窗函数。f_k定义如下：

其中f₁是最低频率区间的中心频率，B确定每个八度音程的箱数。

Q因子由下式给出：

对信号进行重建，对第一个k区间(低频)进行下采样操作和对剩余K-k区间(高频)进行上采样操作，f_k和f₁之间的距离的公式如下所示：

其中k＝1,2,...,K是频率窗索引。距离

是k的函数，寻找用于线性重采样的周期T_l。相当于确定k_l∈1,2,...,K的值，并得到T_l：

解决上述问题只需要关注第一个间隔音阶。一旦T_l在该间隔音程中被修复，较高的间隔音程的分辨率将比间隔音阶高出两倍。通过将第一个间隔音阶分割成具有周期T_l的d个相等部分，通过求解k_l可获得线性分辨率：

新的频率由下式给出：

该公式以间隔音阶作为单位，每一个间隔中均有不定个数的均匀样本，第j-1个间隔中含有的样本为2d个。信号重建的算法采用多相抗混叠滤波器和样本插值方法以均匀采样率F_l重新采样信号。

(2)提取CQCC，公式如下：

其中p＝0，1，...，L-1，l是均匀重新采样的频率区间。

提取语音段线性预测倒谱系数(LPCC)特征。第m个语音样本可以通过其前个样本的线性组合来预测，即：

S(m)≈a₁S(m-1)+a₂S(m-2)+…a_nS(m-n)

其中a₁，a₂，a₃...被称为线性预测系数，为一段连续语音分析帧上的常数。这些系数被用来预测语音样本。此外，预测误差(e(m))由下列公式计算得到：

其中S(m)和

分别是原始语音信号和预测语音信号。为了计算一组唯一的预测系数，根据(e(m))的最小均方误差(MSE)准则，求取MSE期望值E_m：

其中p是特定语音分析帧的数目。为了解决上述LPCC方程，必须使E_m对每一个a_k进行求偏导，其偏导数结果为0。

结果化简为：

表示成自相关形式(Yule-Walker方程)：

上式拆写为加权式子，即得到Toeplize矩阵,使用Levinson-Durbin算法来求解Toeplize矩阵。求出预测系数后，进行倒谱分析。最终，可以使用下列递推式，计算LPCC特征。

C₀＝log_en，p＝1

S106：对各个声纹特征逐一串行合并，得到融合声纹特征；

请参考图5，图5为特征融合流程图；优选的，以卷积神经网络模型为基础，对之前提取的单一声纹特征逐一进行串行合并构建融合声纹特征，各声纹特征进行融合时进行标准化处理，最终得到融合声纹特征。标准化如下所示：

式中，x′为一维的声纹特征向量；

将融合声纹特征传入改进后的ResNet，首先经过独立自注意力层，利用注意力机制帮助模型对输入值的每个部分赋予不同的权重，抽取出更加关键及重要的信息。然后特征经过激活函数为MFM的卷积层，MFM操作类似于生物识别中的局部特征选择，其通过不同滤波器在每个位置选择最优特征，在反向传播时导致0、1梯度来抑制或激活神经元。最后经过全连接层输出结果。

S108：利用训练好的语音识别模型检测语音攻击。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：本发明使用了一种基于融合声纹特征的语音指令合法性判别方案。本发明基于人声与机器声学特征的不同，利用合法语音指令与攻击语音指令声纹特征存在的差异性，分别提取待识别语音的MFCC、IMFCC、CQCC、LPCC和频率特征，并利用卷积神经网络将这些特征进行融合，得到语音的融合特征。利用融合特征判断语音指令的合法性，无需用户提供额外的身份认证，可以有效检测并防御恶意语音欺诈攻击，显著提高了系统的可用性。解决了已有研究方案中针对应用程序修改加密传感器数据导致技术缺乏一般性或影响应用程序有效性的问题；改进了实施访问控制策略导致的检测攻击范围较窄和借助外部硬件导致的应用局限性问题。

在不冲突的情况下，本发明中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：包括以下步骤：

S106：对各个声纹特征逐一串行合并，得到融合声纹特征；

S108：利用训练好的语音识别模型检测语音攻击。

2.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：

步骤S104中，对分离后的语音信号进行预处理，具体包括：预加重处理、分帧处理和加窗处理；

预加重处理，具体如式(1)：

y(n)＝x(n)-0.97*x(n-1) (1)

式(1)中，x(n)为分离后的语音信号；y(n)为预加重后的信号；

S_w(n)＝y(n)×W(n) (2)

式(2)中，W(n)为窗函数，S_w(n)为加窗后信号。

3.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中，提取梅尔倒谱系数MFCC特征具体过程如下：

S202：对变换后的信号进行Mel滤波，得到滤波信号；

S203：计算滤波信号中每个滤波器组输出的对数能量；

4.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中，提取语音段IMFCC特征具体过程为：将步骤S202中Mel滤波替换为IMel滤波，其余过程与提取梅尔倒谱系数MFCC特征保持不变，最终得到语音段IMFCC特征。

5.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中提取语音段常数Q变换倒谱系数CQCC特征，具体过程为：

对预处理后的语音信号进行CQT变换，得到CQT信号；根据CQT信号提取语音段常数Q变换倒谱系数CQCC特征，如式(3)：

6.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S105中提取语音段线性预测倒谱系数LPCC特征的具体过程如下：通过语音样本获取语音预测系数；根据所述语音预测系数，进行倒谱分析，得到语音段线性预测倒谱系数LPCC特征。

7.如权利要求1所述的一种基于融合声纹特征的语音指令合法性判别方法，其特征在于：步骤S106中，对各个声纹特征进行合并前，还对其进行标准化处理；标准化如式(4)所示：

式(4)中，x′为一维的声纹特征向量；