CN115620731A

CN115620731A - 一种语音特征提取与检测方法

Info

Publication number: CN115620731A
Application number: CN202211294811.8A
Authority: CN
Inventors: 赵雅琴; 丁沁宇; 吴龙文; 吕如晨; 杜杰朋; 左伊芮
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-17

Abstract

一种语音特征提取与检测方法，本发明涉及语音特征提取与检测方法。本发明的目的是为了解决现有自动说话人系统容易受到各种欺骗语音的攻击，自动说话人系统拦截不彻底、错误拦截，导致检测准确率低的问题。过程为：得到预处理后的语音信号的训练集和验证集；提取eCQSCC和FFV特征；得到训练好的eCQSCC特征+高斯混合模型和FFV特征+高斯混合模型；eCQSCC特征+高斯混合模型输出训练集的分数；FFV特征+高斯混合模型输出训练集的分数；获得预训练好的BosarisToolkit工具；得到训练好的BosarisToolkit工具；得到待测语音信号的融合结果。本发明用于语音特征提取与检测领域。

Description

一种语音特征提取与检测方法

技术领域

本发明涉及语音特征提取与检测方法。

背景技术

说话人识别技术是一种跨多领域知识的综合技术。由于不同人的声带、声道、甚至是口唇的形态不同，发声习惯不同，产生出来的声音会有不同程度的差异，这些差异或许很微小，但是在经过优秀的特征提取之后，这种差异会被逐渐放大，从而衍生出“声纹”这一生物特征。声纹特征像指纹特征或者眼睛的虹膜特征一样，在可靠性和唯一性这两方面能够做到较好的保证，这就使其满足了作为身份识别的生物特征的前提条件。所以现在的声纹识别技术在金融安全、社保安全、通信安全等安全领域以及智能家居方面都有了较多的使用。除此之外，国内流行的支付软件如支付宝、微信等也都设置了声纹锁进行用户信息的识别。

最近的几年里，在声纹识别技术的逐步发展下，已经在生产生活等各个领域给人们带来了便利。同时在机器学习的日益完善下，自动说话人认证系统也有了更高的识别率和更好的识别方法。但是与此同时，声纹合成技术也在逐步的提高，在这种情况下就会产生安全隐患，如果有人恶意的使用各种算法合成某一个人的声纹，那么就会对自动识别系统的安全带来巨大威胁。除此之外还有各种便携的小型的录音设备在被不断的研发出来，偷录某个人的声纹也会变得越来越简单。通过偷录然后回放，同样的会对用户的信息财产安全带来影响。而这种通过合成或者回放的音频来攻击自动识别系统的语音，统一称为欺骗语音。自动说话人系统容易受到各种欺骗语音的攻击，所以怎样对自动说话人认证系统进行防护也变得日益重要，欺骗检测(Spoof Detection,SD)的重要性不言而喻。

发明内容

本发明的目的是为了解决现有自动说话人系统容易受到各种欺骗语音的攻击，自动说话人系统拦截不彻底、错误拦截，导致检测准确率低的问题，而提出一种语音特征提取与检测方法。

一种语音特征提取与检测方法具体过程为：

步骤一、获取语音信号的音频数据库，将语音信号的音频数据库分为训练集和验证集；

步骤二、对语音信号的音频数据库中训练集和验证集分别进行预处理，得到预处理后的语音信号的训练集和验证集；

步骤三、对预处理后的语音信号的训练集和验证集提取eCQSCC特征；

步骤四、对预处理后的语音信号的训练集和验证集提取基频变化FFV特征；

步骤五、将预处理后的语音信号的训练集的eCQSCC特征输入高斯混合模型进行训练直至收敛，得到训练好的eCQSCC特征+高斯混合模型；

步骤六、将预处理后的语音信号的训练集的基频变化FFV特征输入高斯混合模型进行训练直至收敛，得到训练好的FFV特征+高斯混合模型；

步骤七、将训练集输入训练好的eCQSCC特征+高斯混合模型，eCQSCC特征+高斯混合模型输出训练集的分数；

步骤八、将训练集输入训练好的FFV特征+高斯混合模型，FFV特征+高斯混合模型输出训练集的分数；

步骤九、利用BosarisToolkit工具将步骤七输出的分数和步骤八输出的分数进行评分级融合，对融合过程训练，获得预训练好的BosarisToolkit工具，得到融合结果；

步骤十、将预处理后的语音信号的验证集的eCQSCC特征输入训练好的eCQSCC特征+高斯混合模型，eCQSCC特征+高斯混合模型输出验证集的分数；

将预处理后的语音信号的验证集的FFV特征输入训练好的FFV特征+高斯混合模型， FFV特征+高斯混合模型输出验证集的分数；

利用预训练好的BosarisToolkit工具将eCQSCC特征+高斯混合模型输出的验证集的分数和FFV特征+高斯混合模型输出的验证集的分数进行评分级融合，得到融合结果；当结果满足要求时，得到训练好的BosarisToolkit工具；当结果不满足要求时，继续执行步骤九；

步骤十一、对待测语音信号进行预处理，得到预处理后的待测语音信号；

对预处理后的待测语音信号提取eCQSCC特征，得到预处理后的待测语音信号的eCQSCC特征；

对预处理后的待测语音信号提取基频变化FFV特征，得到预处理后的待测语音信号的基频变化FFV特征；

步骤十二、将预处理后的待测语音信号的eCQSCC特征输入训练好的eCQSCC特征 +高斯混合模型进行检测，eCQSCC特征+高斯混合模型输出待测语音信号的分数；

步骤十三、将预处理后的待测语音信号的基频变化FFV特征输入训练好的FFV特征+高斯混合模型型进行检测，FFV特征+高斯混合模型输出待测语音信号的分数；

步骤十四、利用训练好的BosarisToolkit工具将eCQSCC特征+高斯混合模型输出的待测语音信号的分数和FFV特征+高斯混合模型输出的待测语音信号的分数进行评分级融合，得到待测语音信号的融合结果。

一种语音特征提取与检测方法具体过程为：

步骤四、将预处理后的语音信号的训练集的eCQSCC特征输入注意力机制模型进行训练；

步骤五、将预处理后的语音信号的验证集的eCQSCC特征输入注意力机制模型进行验证，当结果满足要求时，得到训练好的注意力机制模型；当结果不满足要求时，继续执行步骤四；

步骤六、获取LA场景下的待测语音信号，对待测语音信号进行预处理，得到预处理后的待测语音信号；

所述LA为逻辑访问；

步骤七、对预处理后的待测语音信号提取eCQSCC特征，得到预处理后的待测语音信号的eCQSCC特征；

步骤八、将预处理后的待测语音信号的eCQSCC特征输入训练好的注意力机制模型进行检测，得到待测语音信号的检测结果。

本发明的有益效果为：

本发明的目的是围绕回放欺骗语音攻击和合成欺骗语音攻击这两种攻击方式进行欺骗语音检测，进而提出一种语音特征提取与检测方法，并将该特征与韵律特征进行评分级融合，输入到基于注意力机制的深度残差神经网络中，完成欺骗语音检测。

其一，基于相位符号幅相谱的拓展恒常数Q对称子带倒谱系数(extendedConstant-Q Symmetric-subband Coefficients,eCQSCC)特征提取方法，在非线性信息上增加线性信息，获得了更好的性能。同时引入特征融合的思想，将本发明eCQSCC特征和基频变化 (Fundamental Frequency Variation,FFV)特征进行评分级融合，进一步提高本发明特征的欺骗检测性能。采用高斯混合模型进行检测，在PA场景获得6.78％的EER和0.133的t-DCF，在LA场景获得4.48％的EER和0.124的t-DCF。

其二，在提出的新型特征基础上，搭建一种具有残差结构的神经网络，使用网络进行特征的学习，在网络中增加通道注意力和空间注意力机制，进一步增强系统的欺骗语音检测能力。在使用添加注意力机制后的网络进行检测时，LA场景下获得0.04％的EER和0.001的t-DCF。强于ASVspoof2019挑战赛LA场景第一名。

附图说明

图1为eCQSCC特征提取框图；

图2a为FFT频率图；图2b为CQT频率图；

图3a为PA场景下EER的eCQSCC欺骗检测性能图；图3b为LA场景下的EER的 eCQSCC欺骗检测性能图；图3c为PA场景下的t-DCF的eCQSCC欺骗检测性能图；图 3d为LA场景下的t-DCF的eCQSCC欺骗检测性能图；

图4为FFV特征提取框图；图5为FFV加窗图；图6为FFV特征图；图7为FFV 滤波器图；

图8a为PA场景下的EER的FFV欺骗检测性能图；图8b为LA场景下的EER的FFV 欺骗检测性能图；图8c为PA场景下的t-DCF的FFV欺骗检测性能图；图8d为LA场景下的t-DCF的FFV欺骗检测性能图；

图9为特征融合系统框图；

图10a为PA场景下的EER的评分级融合后的欺骗检测性能图；图10b为LA场景下的EER的评分级融合后的欺骗检测性能图；图10c为PA场景下的t-DCF的评分级融合后的欺骗检测性能图；图10d为LA场景下的t-DCF的评分级融合后的欺骗检测性能图；

图11为SE模块结构图；图12为CBAM示意图；图13为残差块结构图；图14为增加注意力机制网络结构图；

图15a为PA场景下的EER的注意力机制下残差网络eCQSCC欺骗检测性能图；图 15b为LA场景下的EER的注意力机制下残差网络eCQSCC欺骗检测性能图；图15c为 PA场景下的t-DCF的注意力机制下残差网络eCQSCC欺骗检测性能图；图15d为LA场景下的t-DCF的注意力机制下残差网络eCQSCC欺骗检测性能图。

具体实施方式

具体实施方式一：本实施方式一种语音特征提取与检测方法具体过程为：

将预处理后的语音信号的验证集的FFV特征输入训练好的FFV特征+高斯混合模型，FFV特征+高斯混合模型输出验证集的分数；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中获取语音信号的音频数据库，将语音信号的音频数据库分为训练集和验证集；具体过程为：

选取ASVspoof 2019赛事数据库中部分回放语音数据作为音频数据库中回放语音数据集；

选取ASVspoof 2019赛事数据库中合成语音数据作为音频数据库中合成语音数据集；

回放语音数据集由二个音频集合构成，分别是训练集、验证集；

合成语音数据集由二个音频集合构成，分别是训练集、验证集；

ASVspoof 2019赛事数据库的音频同时包含物理访问(Physical Access,PA)欺骗检测和逻辑访问(Logical Access,LA)欺骗检测；其中，物理访问主要针对于各种回放语音欺骗的场景，逻辑访问则针对合成语音欺骗的场景；

本课题在ASVspoof 2019赛事数据库的基础上进行筛选，ASVspoof2019的音频同时包含物理访问(Physical Access,PA)欺骗检测和逻辑访问(Logical Access,LA)欺骗检测。其中，物理访问主要针对于各种回放语音欺骗的场景，逻辑访问则针对合成语音欺骗的场景。这两部分数据集都是基于VCTK数据库进行开发的，都由三个音频集合构成，分别是训练集、验证集和评价集。

对于回放语音，ASVspoof 2019PA部分的数据量大于ASVspoof 2019LA部分的数据量。这是因为ASVspoof 2019的语音回放欺骗攻击的数据集具有相对符合实际的录制场景，其中包括，距离、房间大小、室内外嘈杂程度等等。而受所使用计算机性能影响，在进行训练的时候，会出现计算机内存不足的情况，故这里筛选一部分PA的数据作为样本，在减少数据量的同时能够更好的对接下来所提的手工特征进行评估，由于在筛选的时候只会减少训练集的数量，所以说如果使用更少的训练样本获得更好的抗欺骗效果，那么证明此特征提取算法在SD方面具有一定的优势。根据不同的距离、房间大小、室内外嘈杂程度，PA可分为大约243种不同的组合方式，在这里，将每种组合后的音频都保留到100 个，不足100个的音频则保留原始数量。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤二中对语音信号的音频数据库中训练集和验证集分别进行预处理，得到预处理后的语音信号的训练集和验证集；具体过程为：

语音信号的高频成分在空气中的传输损耗高于低频成分，为弥补高频部分的损耗，保护声道的信息，需要对语音信号进行预加重，实现对高频部分的补偿。

采取一阶FIR高通滤波器来进行语音的预加重，传递函数为H(z)＝1-az^-1，a为预加重系数，取值范围在0.9到1之间，此处令a＝0.98；

语音信号具有非平稳性，其特征参数随时间而变化。宏观上，语音信号是口腔不断运动而导致声道变换产生的。声道改变，所发出的语音信号就会相应的发生改变。但在较短的时间内，声道的变化相对于语音信号的频率是非常缓慢的，即语音信号是短时平稳，所以需要在语音信号分帧后进行信号分析。一般情况下，小于50ms的帧长可以认为语音信号在帧内是平稳的，本文帧长取20ms。语音信号分帧处理等价于时域加矩形窗，该操作会导致频谱泄露。

步骤二一、对语音信号采取一阶FIR高通滤波器进行语音预加重，过程为：

H(z)＝1-az^-1

其中，a为预加重系数，取值范围在0.9到1之间，此处令a＝0.98；z表示Z变换； H(z)为传递函数；

步骤二二、采用汉明窗对语音预加重后的语音信号进行分帧处理，可以有效的减少频谱泄露；在帧间增加重叠，可以使整个语音的特征有较为平滑的变化，重叠部分占整个帧长的50％，使分帧处理后的信号帧长小于50ms，

汉明窗函数如下：

w(n′)＝0.54-0.46cos[2πn′/(N′-1)]

其中，0≤n′≤N′-1，n′表示窗中第n′个点，N′表示窗长，w(n′)表示汉明窗函数。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中对预处理后的语音信号的训练集和验证集提取eCQSCC特征；具体过程为：

本发明提出了基于相位符号幅相谱的拓展恒常数Q对称子带倒谱系数，提取框图如下：

图1中左侧部分未进行均匀重采样，为倍频程谱。而右侧部分进行均匀重采样为线性谱。融合线性谱与倍频程谱，可提高特征性能。

步骤三一、对预处理后的语音信号进行恒常数Q变换(Constant-Q Transform,CQT) 处理，得到恒常数Q变换后的语音信号；具体过程为：

在音乐中所有的音律都是由若干个八度的十二平均律来构成的，这十二个平均律对应着钢琴中的一个八度上面的十二个半音。在同一个音级上面，高八度音是低八度音频率的两倍。所以换句话来说，在音乐上来讲，声音是按指数的形式来分布的，而传统的傅里叶变换所得到的因频谱都是成线性分布的。这就导致这两者的频率点是不能够呈现一一对应的关系的，这样就会产生音阶频率估计错误的问题。CQT指的是带宽中心频率按照指数分布，同时和傅里叶变换的区别是每个滤波的带宽是不同的，这个带宽是由这一段的中心频率决定的。各段中心频率和这一段的带宽的比值始终是一个常量Q。此变换和传统的傅里叶变换不同，恒常数Q变换后的频率和音阶的频率具有相同的分布，在语音信号分析中具有相当重要的作用；

在传统的傅里叶变换里面，每一个滤波器的中心频率和带宽无关，在频率轴上是等间隔分布的，而且带宽也是相同的，CQT的滤波器则呈现倍频分布，这对音乐分析来说是相当有用的。所以CQT在这方面优势很大，在高频具有较高的时间分辨率，在低频具有较高的频率分辨率，其与傅里叶变换的区别如图2a、2b所示。

预处理后的语音信号为离散信号，对于离散信号，第k个频段的中心频率f_k可表示为

f_k＝2^(k-1)/bf₁

其中，f₁为最低频段的中心频率；b为一个八度内所包含的频谱线数，本文b＝96，表示每个八度内有96条频谱线，每个半音8条频率分量；

基于第k个频段中心频率f_k获得恒常数Q；恒常数Q变换(CQT)中心频率与带宽比为常量Q，表示为

其中，

为中心频率f_k处的带宽；

将预处理后的语音信号进行恒常数Q变换，表示为

其中，x(n)为预处理后的语音信号(时域信号)；N_k为随频率变换的窗口长度，满足N_k＝Q·f_s/f_k，k＝1,…,K；K为恒常数Q变换后的语音信号的频段的总数量；f_s为预处理后的语音信号的采样频率，X^cqt(k)为恒常数Q变换后的语音信号；j为叙述单位， j²＝-1；

为窗函数；

其中

采用汉明窗得到

步骤三二、基于步骤三一得到的恒常数Q变换后的语音信号，计算语音信号的幅相谱；具体过程为：

X^cqt(k)为复频谱，如下所示：

其中，|X^cqt(k)|和

分别表示x(n)的幅度谱和相位谱；

所述

通过计算X^cqt(k)的虚部与实部之比的反正切得到；

的值被包裹在-π～π之间，因此

可以看作是一个被包裹的相位；

对复频谱X^cqt(k)取对数，得到以e为底的对数尺度下的复频谱，表达式如下所示：

ln(X^cqt(k))的模如下所示：

则语音信号的幅相谱MPS(Magnitude Phase Spectrum,MPS)可以写为：

步骤三三、对步骤三二得到的语音信号的幅相谱划分对称子带(为了让每个子带长度不同，划分为M个子带)，对每个子带进行离散余弦变换，得到每个子带的特征；具体过程为：

直接对全频带进行DCT会忽略子带上的欺骗信息，将整个谱图分成一个个的子带，子带的宽度并不相同的，而是会根据子带的个数发生改变，其呈对称分布。

令子带数量为偶数，每个子带的长度由下式求出：

其中，

表示第

个子带的长度，

M表示子带的数量，这里取子带数M＝16，L_min表示最小子带的长度；

其中L_min求取方式如下所示：

其中，K为恒常数Q变换后的语音信号的频段的总数量，sum()表示求和；

则语音信号的幅相谱MPS谱图的第

个子带可表示为

其中，

表示中间变量，

表示幅相谱中第

个点，

表示幅相谱中第

个点，

表示语音信号的幅相谱MPS谱图的第

个子带；

与

分别满足

MPS谱图第

个子带的第l个频点可表示为

其中

对每个子带分别进行离散余弦变换DCT(Discrete Cosine Transform,DCT)；

其中，p表示子带的第p个频段，p＝1,2,…,P-1；

表示离散余弦变换DCT系数；

此时，第

个子带的特征

可表示

则预处理后的语音信号(时域信号)x(n)的MPS经对称子带划分后，取对数做DCT变换的特征；

则所有子带的特征表示

步骤三四、基于步骤三一得到的恒常数Q变换后的语音信号，对恒常数Q变换后的语音信号进行线性谱PMPS处理，得到线性谱PMPS处理后的语音信号；具体过程为：

MPS的提取过程中虽然运用了幅度和相位的模值并没有涉及符号问题。相位是指向量与实轴的夹角，故存在正负，考虑在MPS基础上增加相位符号信息以提高欺骗检测的力度。

倍频程谱如下所示：

其中，sign(·)表示的是对其取符号；

CQT变换获得的是倍频程谱，为进一步提取线性谱上信息，对X^PMPS(k)进行均匀重采样，将倍频程谱转换为线性谱信息(matlab)，结果用Y^PMPS(l′)表示；具体过程为：

用线性重采样周期T′将八度音阶(频域范围)分解为d等份，此处d取16；求解线性频率采样率F′：

利用多相抗混叠滤波器和样条插值方法以均匀采样率F′对信号X^PMPS(k)重建，结果用Y^PMPS(l′)表示；

对Y^PMPS(l′)进行全频带DCT(同步骤三三的“对每个子带分别进行离散余弦变换DCT (Discrete Cosine Transform,DCT)；”下的所有内容)，结果用

表示；

其中，p′表示全频带的第p′个频点；l′表示全频带的第l′个频点；

步骤三五、基于步骤三三和步骤三四进行动态信息提取，得到eCQSCC特征；具体过程为：

δ-δ表示加速度系数；δ表示速度系数，以N′点为一组进行运算，对上下N′点进行联系，而加速度系数则是在δ基础上进行N′点运算，这样能够动态的表示特征；这里N′取 3。

δ的计算公式如下：

其中，c_t″表示第t帧的信号特征；N′表示当前取的

或

的帧的个数；

δ-δ的计算公式表示为：

计算

的δ与δ-δ动态信息，则第t帧的eCQSCC特征可表示为：

这样生成的最终特征，既包含子带特征又能够兼具线性谱的整体特征，同时增加了相位的符号信息，也具有动态信息，理论上来说能够获得更多的欺骗信息。

采用高斯混合模型(Gaussian Mixture Model,GMM)对此特征进行欺骗语音检测，其检测结果如图3a、3b、3c、3d下所示：

可以看出在PA场景下，eCQSCC特征可以获得7.57％的EER以及0.155左右的t-DCF；在LA场景下，可以获得6.29％的EER以及0.17左右的t-DCF，性能表现优秀。

步骤四、对预处理后的语音信号的训练集和验证集提取基频变化FFV特征；具体过程为：

当人在说话的时候，气流使声门发生震动，这时候称为浊音，但当声门没有震动时，这时候称为清音。基音周期指的就是当人发出浊音的时候，声门每次开闭的时间。这样的震动周期就被称为基音周期，而它的倒数就被叫做基音频率。当人在发出浊音的时候，气流从人体肺部出发对声门进行冲撞，从而造成声门的张合，形成带有一定周期性的脉冲，这种脉冲经过声道的谐振作用和口唇的辐射，最终生成了我们所听到的语音信息。基音周期反应的就是这种声门周期性。

基音周期、基音频率是在进行语音信号分析中非常重要的参数，这是因为它能够反应说话人语音激励源的基本特性。在说话人相关的各种领域有着广泛的应用。

由于欺骗语音，特别是合成语音的语音韵律(这里指的是基音基频)，和真实语音有一定的出入，所以说可以用语音信号的韵律特征来进行欺骗语音检测。在进行合成语音的时候，假设其基频是恒定的，目标音高是通过源扬声器的平均频率或给定的文本输入来预测的。然而，实际上可能存在音高变化，预计合成语音的音高变化不会与自然语音相似。因此，语音信号的音高变化也是语音合成检测的重要线索。所以说，为了获得音高相关欺骗语音伪影，增加基频变化特征。

由于基音表示的是语音信号中的一阶谐波频率，可以认为是特征压缩的一种情况。为了利用两个相邻语音帧中的所有谐波都是等间隔的这一事实，并使用每个谱元素，Laskowski等人引入了一种新的音调变化估计方法。这使得帧级的基频变化(FundamentalFrequency Variation,FFV)特征本质上是多维的，可以使用GMM来建模。

基频变化FFV特征提取过程总体框图如图4所示；

逐步提取基频变化FFV特征的步骤如下：

将预处理后的语音信号的训练集和验证集输入基频变化FFV特征提取模型，

(a)使用两个汉宁窗口；

两个窗口分别对应左半部分和右半部，也就是上图中的F_L和F_R，再计算512点的快速傅里叶变换，到频域上观察。这两个窗口函数如图5所示，对应着图5中的“加窗”部分。

(b)通过计算同尺寸光谱|F_L|和|F_R|之间的消失点积，得到FFV光谱；

通过将点积归一化为∑|F_L|²×∑|F_R|²的平方根，得到FFV光谱能量无关表示的最终方程，如下式所示

-N/2+1≤n≤N/2，对于固定的α，

和

的512个点值通过使用线性插值来确定的：

其中

的有限512个采样点在以下位置等距排列：

其中r∈{-N/2,-N/2+1,…,-1,0,+1,…,N/2-2,N/2-1}，

两个窗口函数的峰值分离的原始值为

FFV特征如图6所示：

(c)从图6可以看到FFV频谱的维数非常高。在这里，将其经过一个由七个滤波器构成的滤波器组，能够降低特征的维数；

在7个过滤器中，一个是用于不变的音高，一个是用于缓慢和快速上升的音高，一个是用于缓慢和快速下降的音高，两个额外的过滤器用于不确定的音高；

FFV滤波器组如图7所示。梯形中心滤波器和两个矩形附加滤波器的设计是为了捕捉有意义的韵律变化。

由于无声帧FFV光谱有平坦的尾部，矩形附加滤波器被包括在滤波器组结构中。每个过滤器下面的区域被认为是统一的。该滤波器组将每个语音帧的特征维数从512减少到7。

(d)最后，利用离散余弦变换DCT对压缩后的FFV谱进行去相关处理；

最终的FFV系数可以使用基于GMM的技术以帧同步的方式建模。

其欺骗检测性能如图8a、8b、8c、8d所示：

相比较eCQSCC，FFV在欺骗检测领域的性能并不是特别的突出。但是引入FFV的理由主要有两点，一是因为FFV能够提供和幅度相位所不同的韵律信息，可以作为以幅度相位为主的eCQSCC特征的补充，二是因为FFV的特征维度很小，可以在整体维度增加不大的情况下，增加语音信号的信息量，从而提高系统的欺骗检测能力。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤九中利用BosarisToolkit工具将步骤七输出的分数和步骤八输出的分数进行评分级融合，对融合过程训练，获得预训练好的BosarisToolkit工具，得到融合结果；

具体过程为：

eCQSCC特征+GMM模型自己训练至收敛，FFV特征+GMM模型自己训练至收敛。两种模型会分别得到一个分数，正数为真实语音，负数为虚假语音，绝对值越大置信度越高。

BosarisToolkit工具输入的是真实语音与虚假语音在训练好的eCQSCC特征+高斯混合模型和训练好的FFV特征+高斯混合模型的得分与标签；

利用BosarisToolkit工具进行评分级融合，对融合过程训练，融合结果同样为得分，分正负，正数为真实语音，负数为虚假语音；

得到获得预训练好的BosarisToolkit工具。

对提取的特征进行评分级的融合，将不同的特征系统进行融合之后，能够进一步提高整体的性能，这样的系统拥有两个或多个系统的欺骗伪影，将融合后的系统进行欺骗检测，能够实现更好的欺骗检测性能。其框图如图9所示；

输入语音经过模型A和模型B的训练后，将模型A和模型B的得分进行融合，融合后的得分作为欺骗检测系统的整体得分进行欺骗语音的检测。

模型A与模型B均采用GMM，但具体采用特征不同。

输入语音经过多个模型的训练后，将各个模型的得分进行融合，融合后的得分作为欺骗检测系统的整体的分进行欺骗语音的检测。在这里有很多做法是将多个模型融合在一起，本文只进行两个模型的得分融合，致力于用更少的特征来得到更好的性能。模型A 与模型B均采用GMM，但具体采用特征不同。在已提出的eCQSCC的基础上进行信息的补充，这里选用的补充特征是FFV，由此得到的融合信息在评价集的PA和LA场景下的表现如图10a、10b、10c、10d所示；

从融合后的欺骗检测效果来看，融合后的系统对欺骗检测系统性能具有一定的提升，在回放语音欺骗场景下的提升效果较小，在合成语音欺骗场景下的提升比较明显。这也是与本文提出的特征有关，看出eCQSCC对于合成语音较为敏感，而对于回放语音的检测能力相对来说能差一些，所以说在进行系统融合之后，这种情况也体现了出来。

这里将使用GMM进行欺骗检测的部分经典特征性能进行汇总：

表2基于GMM的欺骗检测结果

从中可以看出，在基于GMM的多个特征中，基于eCQSCC和FFV的融合在评价集中取得了更好的结果。

除此之外还对比了近两三年已知的基于ASVspoof2019评价集数据库并使用高斯混合模型进行欺骗检测的特征的性能表现。

表3基于ASVspoof2019评价集的各特征性能

对比了几种利用ASVspoof2019数据库进行特征提取并使用GMM建模进行欺骗检测的方法，部分只做了一个场景下的(PA或LA)特征欺骗检测性能，没有做的部分这里用“-”表示(下同)。还有利用多个模型进行融合的系统。

在进行对比后可以发现，本文所提出的特征融合系统在GMM这种传统机器学习里具有良好的欺骗检测性能，在所对比的特征中的LA与PA场景下具有最高的性能，其原因在于本文特征结合了同时具有线性谱与倍频程谱的信息，又采用了PMPS，尤其是在LA 场景下具有更好的检测性能。

其它步骤及参数与具体实施方式一至四之一相同。

验证本发明结果的评价指标为：

计算等错误概率；具体过程为：

在语音欺骗攻击检测中常用的检测指标是等错误概率(Equal Error Rate,EER)，通常来说错误拒绝率(False Rejection Rate,FRR)越高，说明这个系统越严格，但是也会造成正常用户不能识别的问题，与之相对的错误接受率(False Acceptance Rate,FAR)越高用户识别通过就会更容易，但是欺骗攻击可乘之机也会随之增大。

错误拒绝率就是错误拒绝的人数在打分判定为相同用户人数中的占比，也就是：

其中，FRR(θ)表示错误拒绝率，N_{相同用户但判定得分≤θ}表示相同用户但判定得分小于θ的用户数量，即错误判断，θ表示判断阈值，N_{判定为相同用户}表示判定为相同用户的数量；

相对应的如果两端语音实际上并不是同一个用户，但是在判定打分的时候判定为相同的用户，那么这种情况就称之为错误接受；错误接受率可表示为：

其中，N_{不同用户但判定得分>θ}表示不同用户但判定得分大于θ的用户数量，即错误接受，N_{判定为不同用户}表示判定为不同用户的数量，FAR(θ)表示错误接受率；

根据等错误概率EER定义，等错误概率EER公式如下：

EER＝FRR(θ_EER)＝FAR(θ_EER)

其中，θ_EER表示等错误概率下的判断阈值，FRR(θ_EER)表示等错误概率下的错误拒绝率，FAR(θ_EER)表示等错误概率下的错误接受率；

级联检测代价函数；具体过程为：

在实际运用的时候，欺骗语音检测系统会和自动说话人认证系统进行级联。当用户进行身份验证的时候，会经过欺骗语音检测系统，检测该段语音是否为欺骗语音(回放或合成)，通过之后才能进行身份的确认，也可以先进行身份确认然后进行欺骗检测，这两者最后的输出是逻辑“与”的关系，有一个判定为“否”则整体就会判定为“否”。采用级联检测代价函数(tandem Detection Cost Function,t-DCT)更准确的描述系统性能。

检测代价函数(Detection Cost Function,DCF)的定义如下：

其中，C_miss是错误拒绝的代价，C_fa是错误接受的代价，

和

分别代表的是自动说话人认证系统的错误拒绝率和错误接受率；DCF的值越小，就代表ASV系统的性能越好；π_tar表示目标的先验概率；

将自动说话人认证系统和欺骗语音检测系统进行级联，综合考虑系统性能；级联检测代价函数定义为

其中，

表示是自动说话人认证系统错误拒绝的代价，

表示是自动说话人认证系统错误接受的代价，

表示欺骗语音检测系统错误拒绝的代价，

表示欺骗语音检测系统错误接受的代价，

表示自动说话人认证系统错误拒绝率，

表示自动说话人认证系统错误接受率，

表示欺骗语音检测系统错误拒绝率，

表示欺骗语音检测系统错误接受率，π_non表示非目标的先验概率，π_spoof表示欺骗攻击的先验概率；

其中在ASVspoof2019挑战中所使用的t-DCF参数如下表所示。

表1t-DCF代价函数参数值

具体实施方式六：本实施方式一种语音特征提取与检测方法具体过程为：

所述LA为逻辑访问(Logical Access,LA)；

具体实施方式七：本实施方式与具体实施方式六不同的是，所述步骤一中获取语音信号的音频数据库，将语音信号的音频数据库分为训练集和验证集；具体过程为：

ASVspoof 2019赛事数据库的音频同时包含物理访问(Physical Access,PA)欺骗检测和逻辑访问(Logical Access,LA)欺骗检测；

其中，物理访问主要针对于各种回放语音欺骗的场景，逻辑访问则针对合成语音欺骗的场景；

其它步骤及参数与具体实施方式七相同。

具体实施方式八：本实施方式与具体实施方式六或七不同的是，所述步骤二中对语音信号的音频数据库中训练集和验证集分别进行预处理，得到预处理后的语音信号的训练集和验证集；具体过程为：

H(z)＝1-az^-1

汉明窗函数如下：

w(n′)＝0.54-0.46cos[2πn′/(N′-1)]

其它步骤及参数与具体实施方式六或七相同。

具体实施方式九：本实施方式与具体实施方式六至八之一不同的是，所述步骤三中对预处理后的语音信号的训练集和验证集提取eCQSCC特征；具体过程为：

f_k＝2^(k-1)/bf₁

其中，δ_fk为中心频率f_k处的带宽；

将预处理后的语音信号进行恒常数Q变换，表示为

为窗函数；其中

采用汉明窗得到

X^cqt(k)为复频谱，如下所示：

其中，|X^cqt(k)|和

分别表示x(n)的幅度谱和相位谱；

所述

通过计算X^cqt(k)的虚部与实部之比的反正切得到；

的值被包裹在-π～π之间，因此

可以看作是一个被包裹的相位；

ln(X^cqt(k))的模如下所示：

则语音信号的幅相谱MPS(Magnitude Phase Spectrum,MPS)可以写为：

令子带数量为偶数，每个子带的长度由下式求出：

其中，

表示第

个子带的长度，

M表示子带的数量，这里取子带数 M＝16，L_min表示最小子带的长度；

其中L_min求取方式如下所示：

则语音信号的幅相谱MPS谱图的第

个子带可表示为

其中，

表示中间变量，

表示幅相谱中第

个点，

表示幅相谱中第

个点，

表示语音信号的幅相谱MPS谱图的第

个子带；

与

分别满足

MPS谱图第

个子带的第l个频点可表示为

其中

其中，p表示子带的第p个频段，p＝1,2,…,P-1；

表示离散余弦变换DCT系数；

此时，第

个子带的特征

可表示

则所有子带的特征表示

倍频程谱如下所示：

其中，sign(·)表示的是对其取符号；

表示；

δ的计算公式如下：

其中，c″_t表示第t帧的信号特征；N′表示当前取的

或

的帧的个数；

δ-δ的计算公式表示为：

计算

的δ与δ-δ动态信息，则第t帧的eCQSCC特征可表示为：

可以看出在LA场景下，可以获得6.29％的EER以及0.17左右的t-DCF，性能表现优秀。

其它步骤及参数与具体实施方式六至八之一相同。

具体实施方式十：本实施方式与具体实施方式六至九之一不同的是，所述注意力机制模型具体为：

注意力机制模型的网络结构依次为：输入层、第一卷积单元、第一BN层、第一ReLU层、第一卷积注意模块CBAM、第一残差单元、第二残差单元、第三残差单元、第四残差单元、第二卷积注意模块CBAM、平均池化层、FC层、softmax分类层；

所述第一卷积单元为第一二维卷积层；

所述第一残差单元依次包括：第一残差块、第二残差块、第三残差块；

所述第二残差单元依次包括：第四残差块、第五残差块、第六残差块、第七残差块；

所述第三残差单元依次包括：第八残差块、第九残差块、第十残差块、第十一残差块、第十二残差块、第十三残差块、第十四残差块、第十五残差块、第十六残差块、第十七残差块、第十八残差块、第十九残差块、第二十残差块、第二十一残差块、第二十二残差块、第二十三残差块、第二十四残差块、第二十五残差块、第二十六残差块、第二十七残差块、第二十八残差块、第二十九残差块、第三十残差块；

所述第四残差单元依次包括：第三十一残差块、第三十二残差块、第三十三残差块；

所述第一残差块至第三十三残差块中每个残差块的结构为：

每个残差块依次包括：输入层、第二二维卷积层、第二BN层、第二ReLU层、第三二维卷积层、第三BN层、第三ReLU层、输出层；

每个残差块的连接关系为：

特征图输入输入层，依次经过第二二维卷积层、第二BN层、第二ReLU层、第三二维卷积层、第三BN层，第三BN层输出的特征图与输入层输入的特征图共同输入第三 ReLU层，第三ReLU层输出特征图经输出层输出。

基于注意力机制的欺骗语音检测；

注意力机制：在卷积神经网络的每一个卷积层，都由一组滤波器在局部接受域中融合空间信息和通道信息。通过使用非线性的激活函数和进行下采样的操作，使得CNN能捕捉并获得全局的理论接受域。在网络的研究中一个重要不容忽视的问题就是怎么能让网络关注我们最需要、或者说是对最后结果贡献度最大的部分，只着重捕捉特征中区别性最大的属性，进一步提高网络的识别能力。

注意力机制就是在神经网络训练中常用的模块，在改进下已经有了多种不同的模式。但是每一种的核心都是相似的，都是为了让网络关注到更需要关注的地方。比如说在进行人脸识别的时候，更希望网络关注人脸信息，而不是空白区域，同理，在进行语音训练的受，希望网络能够更加注重每个人激励源、声道信息等独特的地方。注意力机制就是实现网络自适应注意的一个方式。注意力机制可以分为通道注意力机制，空间注意力机制，通道注意力和空间注意力的结合，自注意力机制等等多个种类。

获取卷积注意模块：2018年Woo等人提出了卷积注意模块(Convolutional BlockAttention Module,CBAM)，该模块综合了通道注意力机制和空间注意力机制，是对二者进行一个结合。在网络进行特征学习的时候只有任务相关的区域才是需要关心的。空间注意力机制的本质就是定位到主要目标并且进行一些相关的变换并且获得权重。GoogleDeepMind提出的空间变压器网络(Spatial Transformer Network,STN)，就是其中的一个典型的代表。它通过对输入的学习和形变，在预处理方面能够有更好的适应适应性。CBAM会对输入进来的特征层，分别进行通道注意力机制的处理和空间注意力机制的处理，如图12。

基于注意力残差网络的欺骗语音检测：本文中所使用的残差块的结构如图13所示，每一个残差块首先经过一个Conv2D层(16滤波器，卷积核的大小为3×3，步长为1，填充为1)，之后经过一个批标准化层和传统的Relu激活函数，而后在经过一个Conv2D 层(16滤波器，卷积核的大小为3×3，步长为1，填充为1)和一个批标准化层，通过直接将输入添加到输出来建立跳过连接，将结果再经过一个Relu激活函数后作为一个残差块的输出。这里并没有使用Dropout层，而是在整体网络中增加，作为正则化器减小整个模型的过拟合问题。

为了不破坏残差块之间的连接，这里将注意力模块分别设置在多个残差块之前和之后，也就是说不在残差块内部设置注意力模块，在四个残差块之前和之后各设置一个注意力机制模块，网络结构如图14所示；

注意力机制模块均是CBAM，而且在使用过程中去掉了最大池化。输入eCQSCC特征，在经过100轮的训练之后，欺骗检测性能如图15a、15b、15c、15d所示；

下表对比了近几年来的网络模型在欺骗检测领域的性能。

表4基于神经网络的欺骗检测性能对比

可以看出，利用本文所提特征和搭建的注意力机制神经网络，在LA场景下获得了优秀的性能EER与t-DCF分别低至0.04％与0.001，性能远远超过近几年的其他方法。另外ASVspoof2019挑战赛LA场景第一名方法的EER与t-DCF分别为0.22％与0.0069，弱于本文方法。

其它步骤及参数与具体实施方式六至九之一相同。

验证本发明结果的评价指标为：

计算等错误概率；具体过程为：

根据等错误概率EER定义，等错误概率EER公式如下：

EER＝FRR(θ_EER)＝FAR(θ_EER)

级联检测代价函数；具体过程为：

检测代价函数(Detection Cost Function,DCF)的定义如下：

其中，C_miss是错误拒绝的代价，C_fa是错误接受的代价，

和

其中，

表示是自动说话人认证系统错误拒绝的代价，

表示是自动说话人认证系统错误接受的代价，

表示欺骗语音检测系统错误拒绝的代价，

表示欺骗语音检测系统错误接受的代价，

表示自动说话人认证系统错误拒绝率，

表示自动说话人认证系统错误接受率，

表示欺骗语音检测系统错误拒绝率，

其中在ASVspoof2019挑战中所使用的t-DCF参数如下表所示。

表1t-DCF代价函数参数值

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种语音特征提取与检测方法，其特征在于：所述方法具体过程为：

步骤十二、将预处理后的待测语音信号的eCQSCC特征输入训练好的eCQSCC特征+高斯混合模型进行检测，eCQSCC特征+高斯混合模型输出待测语音信号的分数；

2.根据权利要求1所述的一种语音特征提取与检测方法，其特征在于：所述步骤一中获取语音信号的音频数据库，将语音信号的音频数据库分为训练集和验证集；具体过程为：

合成语音数据集由二个音频集合构成，分别是训练集、验证集。

3.根据权利要求2所述的一种语音特征提取与检测方法，其特征在于：所述步骤二中对语音信号的音频数据库中训练集和验证集分别进行预处理，得到预处理后的语音信号的训练集和验证集；具体过程为：

H(z)＝1-az^-1

其中，a为预加重系数；z表示Z变换；H(z)为传递函数；

步骤二二、采用汉明窗对语音预加重后的语音信号进行分帧处理，在帧间增加重叠使分帧处理后的信号帧长小于50ms，

汉明窗函数如下：

w(n′)＝0.54-0.46cos[2πn′/(N′-1)]

4.根据权利要求3所述的一种语音特征提取与检测方法，其特征在于：所述步骤三中对预处理后的语音信号的训练集和验证集提取eCQSCC特征；具体过程为：

步骤三一、对预处理后的语音信号进行恒常数Q变换处理，得到恒常数Q变换后的语音信号；具体过程为：

f_k＝2^(k-1)/bf₁

其中，f₁为最低频段的中心频率；b为一个八度内所包含的频谱线数；

基于第k个频段中心频率f_k获得恒常数Q；表示为

其中，δ_fk为中心频率f_k处的带宽；

将预处理后的语音信号进行恒常数Q变换，表示为

其中，x(n)为预处理后的语音信号；N_k为随频率变换的窗口长度，满足N_k＝Q·f_s/f_k，k＝1,…,K；K为恒常数Q变换后的语音信号的频段的总数量；f_s为预处理后的语音信号的采样频率，X^cqt(k)为恒常数Q变换后的语音信号；j为叙述单位，j²＝-1；

为窗函数；

其中

采用汉明窗得到

X^cqt(k)为复频谱，如下所示：

其中，|X^cqt(k)|和

分别表示x(n)的幅度谱和相位谱；

所述

通过计算X^cqt(k)的虚部与实部之比的反正切得到；

ln(X^cqt(k))的模如下所示：

则语音信号的幅相谱MPS可以写为：

步骤三三、对步骤三二得到的语音信号的幅相谱划分对称子带，对每个子带进行离散余弦变换，得到每个子带的特征；具体过程为：

令子带数量为偶数，每个子带的长度由下式求出：

其中，

表示第

个子带的长度，

M表示子带的数量，L_min表示最小子带的长度；

其中L_min求取方式如下所示：

则语音信号的幅相谱MPS谱图的第

个子带可表示为

其中，

表示中间变量，

表示幅相谱中第

个点，

表示幅相谱中第

个点，

表示语音信号的幅相谱MPS谱图的第

个子带；

与

分别满足

MPS谱图第

个子带的第l个频点可表示为

其中

对每个子带分别进行离散余弦变换DCT；

其中，p表示子带的第p个频段，p＝1,2,...,P-1；

表示离散余弦变换DCT系数；

此时，第

个子带的特征

可表示

则所有子带的特征表示

倍频程谱如下所示：

其中，sign(·)表示的是对其取符号；

对X^PMPS(k)进行均匀重采样，将倍频程谱转换为线性谱信息，结果用Y^PMPS(l′)表示；具体过程为：

用线性重采样周期T′将八度音阶分解为d等份；求解线性频率采样率F′：

对Y^PMPS(l′)进行全频带DCT，结果用

表示；

δ-δ表示加速度系数；δ表示速度系数；

δ的计算公式如下：

其中，c″_t表示第t帧的信号特征；N′表示当前取的

或

的帧的个数；

δ-δ的计算公式表示为：

计算

的δ与δ-δ动态信息，则第t帧的eCQSCC特征可表示为：

5.根据权利要求4所述的一种语音特征提取与检测方法，其特征在于：所述步骤九中利用BosarisToolkit工具将步骤七输出的分数和步骤八输出的分数进行评分级融合，对融合过程训练，获得预训练好的BosarisToolkit工具，得到融合结果；具体过程为：

得到获得预训练好的BosarisToolkit工具。

6.一种语音特征提取与检测方法，其特征在于：所述方法具体过程为：

所述LA为逻辑访问；

7.根据权利要求6所述的一种语音特征提取与检测方法，其特征在于：所述步骤一中获取语音信号的音频数据库，将语音信号的音频数据库分为训练集和验证集；具体过程为：

选取ASVspoof 2019赛事数据库中合成语音数据作为音频数据库中合成语音数据集；合成语音数据集由二个音频集合构成，分别是训练集、验证集。

8.根据权利要求7所述的一种语音特征提取与检测方法，其特征在于：所述步骤二中对语音信号的音频数据库中训练集和验证集分别进行预处理，得到预处理后的语音信号的训练集和验证集；具体过程为：

H(z)＝1-az^-1

其中，a为预加重系数；z表示Z变换；H(z)为传递函数；

汉明窗函数如下：

w(n′)＝0.54-0.46cos[2πn′/(N′-1)]

9.根据权利要求8所述的一种语音特征提取与检测方法，其特征在于：所述步骤三中对预处理后的语音信号的训练集和验证集提取eCQSCC特征；具体过程为：

f_k＝2^(k-1)/bf₁

基于第k个频段中心频率f_k获得恒常数Q；表示为

其中，

为中心频率f_k处的带宽；

将预处理后的语音信号进行恒常数Q变换，表示为

为窗函数；

其中

采用汉明窗得到

X^cqt(k)为复频谱，如下所示：

其中，|X^cqt(k)|和

分别表示x(n)的幅度谱和相位谱；

所述

通过计算X^cqt(k)的虚部与实部之比的反正切得到；

ln(X^cqt(k))的模如下所示：

则语音信号的幅相谱MPS可以写为：

令子带数量为偶数，每个子带的长度由下式求出：

其中，

表示第

个子带的长度，

M表示子带的数量，L_min表示最小子带的长度；

其中L_min求取方式如下所示：

则语音信号的幅相谱MPS谱图的第

个子带可表示为

其中，

表示中间变量，

表示幅相谱中第

个点，

表示幅相谱中第

个点，

表示语音信号的幅相谱MPS谱图的第

个子带；

与

分别满足

MPS谱图第

个子带的第l个频点可表示为

其中

对每个子带分别进行离散余弦变换DCT；

其中，p表示子带的第p个频段，p＝1,2,...,P-1；

表示离散余弦变换DCT系数；

此时，第

个子带的特征

可表示

则所有子带的特征表示

倍频程谱如下所示：

其中，sign(·)表示的是对其取符号；

对Y^PMPS(l′)进行全频带DCT，结果用

表示；

δ-δ表示加速度系数；δ表示速度系数；

δ的计算公式如下：

其中，c″_t表示第t帧的信号特征；N′表示当前取的

或

的帧的个数；

δ-δ的计算公式表示为：

计算

的δ与δ-δ动态信息，则第t帧的eCQSCC特征可表示为：

10.根据权利要求9所述的一种语音特征提取与检测方法，其特征在于：所述注意力机制模型具体为：

所述第一卷积单元为第一二维卷积层；

所述第一残差块至第三十三残差块中每个残差块的结构为：

每个残差块的连接关系为：

特征图输入输入层，依次经过第二二维卷积层、第二BN层、第二ReLU层、第三二维卷积层、第三BN层，第三BN层输出的特征图与输入层输入的特征图共同输入第三ReLU层，第三ReLU层输出特征图经输出层输出。