CN114639387A

CN114639387A - 基于重构群延迟-常数q变换语谱图的声纹欺诈检测方法

Info

Publication number: CN114639387A
Application number: CN202210221453.1A
Authority: CN
Inventors: 陈晨; 宋耀祖; 代博涵; 何勇军; 陈德运
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-17
Anticipated expiration: 2042-03-07
Also published as: CN114639387B

Abstract

本发明公开了一种声纹欺诈检测方法，将能量谱经由Q‑DCT和Q‑IDCT平滑处理的重构群延迟‑常数Q变换(以下称为RGD‑CQT)语谱图特征进行检测语音欺诈攻击的方法，解决了欺诈语音特征区分性不强及欺诈语音检测系统错误率高的问题。在训练时，先对语音序列进行填充或截取操作，进而将语音序列的每一位与索引序号加一的值进行相乘，获得新的语音序列。将两个语音序列分别进行常数Q变换(CQT,constant Q transform)，获得两个语谱图X和Y。分别提取两张语谱图的实部和虚部，对语谱图X进行Q‑DCT和Q‑IDCT，之后进行修改的群延迟的计算，最后进行归一化和取对数得到最终的语谱图。将其作为resnet18+cbam网络的输入；然后通过交叉熵损失和Adam优化器训练出一个最优的网络模型作为用于测试的模型。最终根据网络模型的分数，如果分数大于0则认为是真实语音，反之，则判断为欺诈语音。

Description

基于重构群延迟-常数Q变换语谱图的声纹欺诈检测方法

技术领域

本发明涉及欺诈语音检测领域，尤其涉及特征处理方面。

背景技术

近十年来，基于生物特征进行识别的身份认证技术在日常生活中的作用越来越重要。一些常见的生物特征识别技术，比如指纹识别、人脸识别和声纹识别等，均在多种场景中得到了广泛的应用。然而，任何生物识别系统都存在一定的漏洞，入侵者可以通过模仿和篡改特征等方式对生物识别系统进行欺诈攻击，对生物识别系统的安全性产生了严重的威胁。在生物识别领域，欺诈是指在生物识别系统的传感器上呈现出一个伪造的特征，进而对该系统进行非法攻击。例如，面部识别系统可以被冒认照片欺骗，指纹识别系统可以用塑胶伪造指纹进行欺骗。同理，说话人识别系统也容易受到各种程度的欺诈攻击。

语音技术已经成为人机交互的重要媒介。例如，现代语音助手可以非常方便地控制各种家用设备和应用程序，但这些设备极易受到欺诈语音的攻击。随着语音技术使用的日益广泛，说话人识别系统的安全问题受到越来越多的关注。欺诈攻击可分为四类：模仿、录音回放、语音合成和语音转换，这四种攻击方式都会严重影响说话人识别系统的性能。

在语音回放中，语音信号的时频表示必须要有较高的分辨率才能从特定的频谱区域中更好地提取出真实语音和欺骗语音的区别信息。常数Q变换(Constant Q Transform，CQT)指中心频率按指数规律分布，滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。该方法对较低的频率给出了较高的频率分辨率，对较高的频率给出了较高的时间分辨率。常作为语音欺骗检测中的声学特征。群延迟图特征(Group Delay Spectrogram，GD-gram)同样在语音欺诈检测领域具有显著的效果，因为其同时包含功率谱和相位谱信息，所以该特征能够使真实语音与欺骗语音的区别体现得更加明显。

现有研究的多种特征，如常数Q倒谱系数、线性频率倒谱系数、基于瞬时频率的耳蜗倒谱系数、单频滤波倒谱系数等特征。均忽视了特征重构的过程。在本专利中，我们用CQT替换GD-gram中的短时傅里叶变换阶段。并对CQT能量谱进行基于常数Q变换修改的离散余弦变换(以下称为Q-DCT)及其逆变换(以下称为Q-IDCT)的特征重构，进而产生最终的重构群延迟-常数Q变换(以下称为RGD-CQT)语谱图特征。

发明内容

针对现有欺诈语音检测方法中忽略特征重构重要性的问题，本发明提供了一种声纹欺诈检测方法。先对语音的CQT语谱图进行Q-DCT和Q-IDCT，再进行群延迟计算，求出最终特征；该特征极大程度的保存了语音信号中的人为因素；最后将该特征传入含有注意力机制的残差网络中，对待测语音进行评分，进而检测出一段语音是否是欺诈语音。

本发明的技术方案是：一种声纹欺诈检测方法，基于CQT修改的离散余弦变换压缩数据和基于CQT语谱图修改的群延迟信息进行检测语音欺诈攻击的方法，主要包括以下步骤：

步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作，使每一个语音序列的长度一致，输出长度为n的语音序列x(n)。

步骤2、将步骤1中读取的语音序列x(n)作为输入，计算y(n)＝x(n)×(n+1),n＝0,1,...,n。

步骤3、将步骤1和2中获得的序列x(n)和y(n)进行CQT变换，分别求出语谱图X和语谱图Y，然后将获得的语谱图X和语谱图Y分别提取其实部X_r,Y_r和虚部X_i,Y_i。

步骤4、将步骤3中获得的语谱图X取其能量谱，进行特征重构得到新的语谱图。

步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算，得到中间语谱图。

步骤6、将步骤5中获得的中间语谱图进行归一化、取对数处理，得到RGD-CQT语谱图。

步骤7、将步骤6中获得的RGD-CQT语谱图传入含有注意力机制的残差网络模型中进行训练，得到最优的网络模型。

步骤8、将步骤7中获得的最优网络模型作为测试模型，将待测语音传入该模型中，进而判断该语音是否是欺诈语音。

进一步地，步骤1中所述的预处理操作，是对每一个音频序列进行填充和截取；若序列长度小于规定长度则进行填充操作；若序列长度大于规定长度则进行截取操作，使这些序列的长度一致。

进一步地，步骤3中获取X_r,Y_r,X_i,Y_i的计算步骤为：1)对x(n)和y(n)分别进行CQT的计算，得到两个语谱图，语谱图X和语谱图Y。2)取出语谱图X的实部X_r和虚部X_i，取出语谱图Y的实部Y_r和虚部Y_i。

进一步地，步骤4中将语谱图X的能量谱进行特征重构的具体过程为：1)首先提取语谱图X的幅度谱X_mag；2)对幅度谱中X_mag每个元素求取平方，求出能量谱S；3)对这个能量谱S进行中值滤波，即把能量谱中每一个像素点的灰度值用该点的一个邻域中各点值的中值代替，从而消除孤立的噪声点。4)最后对能量谱S进行特征重构得到中间语谱图；其中特征重构中的一维Q-DCT推导过程为：

1)原始的CQT公式为：

其中，定义加窗后的声音序列为x(n)，n＝0,1,...,N_k-1，N_k为第k个频率下的采样点数；X(k)为频谱，Q是中心频率与带宽的比。

将长度为n的序列x(n)扩展为原来的2倍，{x[-N_k],x[-N_k+1],...,x[0],x[1],...,x[N_k-1]}；

其中，x'(m)∈{x[-N_k],x[-N_k+1],...,x[0],x[1],...,x[N_k-1]}。

2)将序列x'(m)向右平移

得：

3)对公式(3)中的

取正数，得到以下形式：

4)令

得到以下形式：

由上述推导过程可知，一维的Q-DCT如(6)式所示：

二维的Q-DCT是在一维的基础上，再进行一次Q-DCT，因此二维的Q-DCT公式(7)为：

其中，

和

分别时域和频域的采样点数。二维的Q-DCT计算可以看作是能量谱S分别左乘矩阵A和右乘矩阵B，得到新的语谱图X_dct，即X_dct＝AX_magB；然后对X_dct进行逆变换，即左乘A^-1和右乘B^-1，得到中间语谱图X，即X＝A^-1X_dctB^-1。

进一步地，步骤5中计算群延迟特征，得到GD语谱图，具体的计算公式为：

进一步地，步骤6中对群延迟特征进行归一化、取对数，具体计算过程为：1)对GD语谱图中的元素进行归一化，得到新的语谱MGD，计算公式为：

2)求出MGD语谱图中最大的元素max，再对MGD语谱图中的每个元素都除以语谱图中的最大值max，得到新的语谱图MGD_max，即

3)对语谱图MGD_max取对数，获得最终的特征RGD-CQT语谱图。

附图说明

图1：为根据本发明一些实施例的欺诈信号检测方法的流程图；

图2：为本发明中特征提取步骤具体过程示意图；

图3：为本发明中训练模型的网络结构图；

图4：为本发明方法在不同训练次数时对应的EER变化曲线图。

具体实施方式

下面将通过结合附图，对本发明中的技术方案进行详细清楚的描述，所描述的实施特例仅是本发明的一部分实施例。

实施例：

本发明是一种基于重构群延迟-常数Q变换(RGD-CQT)语谱图的声纹欺诈检测方法，该方法包含以下步骤：

步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作，使每一个语音序列的长度一致。

步骤2、将步骤1中读取的语音序列x(n)中的每个元素都乘上其下标加1，得到一个新的序列y(n)。

步骤3、将步骤2中获得的序列x(n)和y(n)进行CQT变换，分别求出语谱图X和语谱图Y，然后将获得的语谱图X和语谱图Y分别提取其实部X_r,Y_r和虚部X_i,Y_i.

步骤4、将步骤3中获得的语谱图X的能量谱S进行特征重构，得到新的语谱图。

步骤6、将步骤5中获得的中间语谱图进行归一化、取对数，得到最终的RGD-CQT特征。

步骤7、将步骤6中获得的最终特征传入含有注意力机制的残差网络模型中进行训练，得到最优的网络模型。

在本实施例中，所述步骤1的具体过程为：

步骤1-1、读取数据集中的录音文件，得到相应的语音序列x(n)，其中，录音文件的采样率为16000Hz。

步骤1-2、对每一条语音序列进行填充和截取操作，使所有语音序列统一为固定长度，统一的固定长度为64000。

在本实施例中，所述步骤2的具体过程为：

步骤2-1、生成1到64000的序列len。

步骤2-2、将x(n)与序列len进行点乘，得到新的序列y(n)。

在本实施例中，所述步骤3的具体过程为：

步骤3-1、将序列x(n)和序列y(n)进行常数Q变换，得到语谱图X和语谱图Y，两个语谱图的维度均为251×192。

步骤3-2、提取语谱图X的实部X_r和虚部X_i，提取语谱图Y的实部Y_r和虚部Y_i。其中，X_r,X_i,Y_r,Y_i的维度均为251×192。

在本实施例中，所述步骤4的具体过程为：

步骤4-1、先求出上述CQT语谱图X的幅度谱X_mag，然后对该幅度谱X_mag进行中值滤波，把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替，让周围的像素值接近真实值，从而消除孤立的噪声点。

步骤4-2、中值滤波后，对幅度谱进行平方，得到能量谱S，最后进行特征重构，得到平滑后的新的能量谱S。

在本实施例中，所述步骤5的具体过程为：

步骤5-1、利用上述的矩阵X_r,X_i,Y_r,Y_i,S进行群延迟计算，具体计算步骤为：

最终，求得中间语谱图MGD。

在本实施例中，所述步骤6的具体过程为：

步骤6-1、求出中间语谱图MGD中的最大值max，将MGD中的每个元素除以max，对MGD语谱图进行归一化。

步骤6-2、对归一化后的MGD语谱图取对数，获得最终的特征。该特征的维度为251×192。

在本实施例中，所述步骤7的具体过程为：

将步骤6中获得的特征，传入到含有注意力机制的残差网络中进行训练，获得性能最优的模型作为测试模型。

在本实施例中，所述步骤8的具体过程为：

将测试语音传入到步骤7中获得的模型中，计算得分，若得分大于0则判断测试语音是真实语音，反之，则为虚假语音。

实验结果：

(1)对比本专利所提出的RGD-CQT与其他方法的检测性能，对其进行定量分析。对比将从前端声学特征和后端模型展开，对比方法除了常数Q倒谱系数和高斯混合模型(CQCC+GMM)、线性频率倒谱系数和高斯混合模型(LFCC+GMM)外，前端声学特征还选择了CQCC特征拼接的段级特征、CQT语谱图、MGD语谱图。网络模型则选择了不包含注意力机制的ResNet-18与包含注意力机制的ResNet-18+CBAM。网络的目标函数采用交叉熵函数，优化器采用自适应矩估计(Adam，adaptive moment estimation)算法。根据上述实验设置，不同方法对应的系统性能情况如表1所示。根据表1可以看出：

(1)在开发集上，本文所提出方法RGD-CQT+ResNet-18+CBAM能够优于大多数方法，相对EER最多降低了90.8％。

(2)在评估集上，RGD-CQT特征的性能优于其他对比特征。当加入CBAM注意力机制后，性能能够有进一步的提升，相对EER最多降低了65.3％，这从性能上验证了本专利所提出方法的有效性。

(3)CQCC、CQT特征均在开发集具有理想性能，但在具有集外数据的评估集上性能不佳。与上述二者相比，RGD-CQT特征在开发集与评估集上均能取得较为理想性能，因此更适用于可能面对未知攻击的现实应用系统。。

表1：不同方法的性能对比

(2)本发明的重点是对经过CQT变换的特征，进一步提取有用信息，进而提高系统的性能。

(3)本发明通过对语音信号语谱图的分析，发现群延迟语谱图特征中包含能够明显判断欺诈语音的信息；其中，对语音的幅度谱进行特征提取，能够进一步提高系统性能，并且容易实现。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。因此，凡依据本发明所揭示的原理、思路所作的等同变化，仍属于本发明的保护范围之内。