CN111243621A

CN111243621A - 一种用于合成语音检测的gru-svm深度学习模型的构造方法

Info

Publication number: CN111243621A
Application number: CN202010034132.1A
Authority: CN
Inventors: 王宏霞; 黄婷; 何沛松
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05

Abstract

本发明公开了一种用于合成语音检测的GRU‑SVM深度学习模型的构造方法，包括步骤：提取训练语音每一帧的特征参数；构造训练语音的特征矩阵；构造GRU‑SVM深度学习模型；对GRU‑SVM深度学习模型进行softmax的回归。门控循环单元(GRU)神经网络用于克服循环神经网络(RNN)学习信息长期依赖时产生的梯度消失和爆炸问题。结合支持向量机(SVM)在softmax层进行分类之前起回归作用，本发明提出的GRU‑SVM深度学习模型能进一步提高合成语音的检测率。

Description

一种用于合成语音检测的GRU-SVM深度学习模型的构造方法

技术领域

本发明涉及语音取证技术领域，特别是一种用于合成语音检测的GRU-SVM深度学习模型的构造方法。

背景技术

随着人工智能时代的到来，人与人的交流方式逐渐多样化。数字音频作为最常用的交流媒介应用于日常工作和学习中。通过各种移动设备，人们可以完成对音频的传输和接收来完成信息交换。与此同时，语音合成技术的不断发展。语音合成技术，即将任意文本转换成语音的技术。该技术如果结合深度学习方法的合成技术能够很容易地合成出与某个目标说话人相同说话特征的语音。目前许多识别技术都不能识别出这类合成语音与真实说话人说出的自然语音，并容易将合成的语音认作自然语音，从而发生验证错误。若犯罪分子将该技术应用到实际场景中，将造成人员伤害与经济损失。为了解决这一问题人们提出了自动说话人验证系统，通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定，是一种对收到的说话人语音信号进行分析和提取，自动地确定说话人是否在所建立的说话人集合里面，并确定说话人是谁的过程。

文献“Speaker verification using Gaussian mixture model”(Jagtap,S.S.,Bhalke,D.G，International Conference on Pervasive Computing,pp.1–5,2015)提出了一种主流的机器学习分类器，该分类器使用高斯混合模型(GMM)进行特征分类。文献“Artificial neural networks as speech recognisers for dysarthric speech”(Shahamiri,S.R.,Salim,S.S.B.,Advanced Engineering Informatics 28(1),102-110,2014)，Shahamiri等人已经成功地将基于人工神经网络(ANN)的分类算法应用于语音识别。以GMM为代表的机器学习分类器的平均识别错误率始终保持在1％左右。基于神经网络模型的分类检测算法在检测已知攻击时表现较好，但在检测为止攻击时表现稍差。

发明内容

本发明的目的是提供一种用于合成语音检测的GRU-SVM深度学习模型的构造方法，以进一步提高合成语音检测的准确性。

实现本发明目的的技术方案为：

一种用于合成语音检测的GRU-SVM深度学习模型的构造方法，包括：

步骤一：提取训练语音每一帧的特征参数，包括

1.1将训练语音解码后进行预处理，所述预处理包括预加重、分帧和加窗；

1.2通过快速傅里叶变换，将时域信号转换为频域信号，再取模后平方得到谱线能量；

1.3放入m维的Mel滤波器组，计算出通过Mel滤波器的能量；

1.4取对数倒谱后DCT变换，得到MFCC特征；

1.5提取MFCC特征的一阶差分系数ΔMFCC，与MFCC特征组成2m维特征参数CC，

CC＝{(C₁,C₂,...C_m),(ΔC₁,ΔC₂,...ΔC_m)}，

其中，C_m表示第m维Mel滤波器输出的MFCC特征，ΔC_m表示第m维ΔMFCC；

步骤二：构造训练语音的特征矩阵，包括

2.1将每一个训练语音的所有帧的2m维特征参数CC构成一个特征矩阵；其中，帧数最大的那个训练语音的特征矩阵为L行2m列，L为其帧数；

2.2将帧数小于L的训练语音的特征矩阵，进行补0操作，使其特征矩阵为L行2m列；

步骤三：构造GRU-SVM深度学习模型，包括

3.1将每一个训练语音的特征序列(x₁,x₂...x_t-1,x_t)输入到具有3层隐藏层的GRU神经网络，依次计算相应的隐藏层，得到输出向量(y₁,y₂,...y_t-1,y_t)；所述训练语音的特征序列(x₁,x₂...x_t-1,x_t)中，x₁为训练语音的特征矩阵的第一行，x₂为训练语音的特征矩阵的第二行，…，x_t为训练语音的特征矩阵的第L行；

3.2将GRU的输出向量(y₁,y₂,...y_t-1,y_t)的y_t输入到SVM，完成SVM回归，得到GRU-SVM深度学习模型；

步骤四：对GRU-SVM深度学习模型进行softmax的回归，对回归后的输出进行交叉熵损失的计算，并通过最小化损失的方法进行优化，得到优化后的GRU-SVM深度学习模型。

选择合适的分类器从语音特征中学习相关信息是一个关键的问题，门控循环单元(GRU)神经网络用于克服循环神经网络(RNN)学习信息长期依赖时产生的梯度消失和爆炸问题。结合支持向量机(SVM)在softmax层进行分类之前起回归作用，本发明提出的GRU-SVM深度学习模型能进一步提高合成语音的检测率。

附图说明

图1为说话人识别系统流程图。

图2为GRU-SVM原理图。

图3为MFCC语音特征流程图。

图4为MFCC特征矩阵。

图5为训练过程中的预测准确率与损失率。

具体实施方式

典型的自动说话人识别系统主要包括语音预处理、特征提取、使用分类器训练出模型并识别检测的过程，如图1。

本发明利用基于GRU的模型能从大量语音功能中提取有用特征信息的方法，设计了一种GRU-SVM模型来检测合成语音的算法。在GRU的隐藏层输出数据之后，SVM在进行回归，softmax函数输出最终分类结果。本发明包括语音特征提取和GRU-SVM合成语音检测算法分类结果两个部分。

语音特征提取部分，主要步骤如下：

利用倒谱特征来进行说话人识别是目前最流行的方法之一，Mel频率倒谱分析是基于人的听觉机理，是常用的说话人识别并且优于其他倒谱系数的特征。MFCC先将线性频谱映射到基于听觉感知的Mel非线性频谱上，再转换到倒谱上。MFCC特征参数提取原理框图如图3所示。

步骤1：将语音编码解码后的每一帧数据进行预处理，预处理包括预加重、分帧、加窗等步骤。经过预处理后得到信号x_i，每一帧信号进行快速傅里叶变换，此步将时域信号转换为频域信号，再将其取模后平方得到谱线能量；然后放入20维(取20维时效果好)的Mel滤波器组，计算出通过Mel滤波器的能量，滤波器输出能量后再取对数倒谱后DCT变换，输出MFCC。输出的MFCC特征可由公式(1)表示：

公式(1)中，S(i,m)是Mel滤波器能量；m是指第m个Mel滤波器；i是指第i帧；n是DCT后的谱线。

步骤2：由于语音信号是时域连续的，分帧提取的特征信息只反映了本帧语音的特性，为了使特征更能体现时域连续性，可以在特征维度中增加前后帧信息的维度，本发明提取了MFCC的一阶差分系数ΔMFCC。

提取MFCC与ΔMFCC组成的40维特征参数形式：

CC＝{(C₁,C₂,...C_m),(ΔC₁,ΔC₂,...ΔC_m)} (2)

CC表示本发明提取的特征参数；m是指第m个Mel滤波器，本发明中m＝20。

步骤3:将所有语音通过叠加的方式组合形成一个L*40维的语音特征矩阵，L是所有训练音频样本中的最大帧长，40是MFCC特征维度。根据上述所得到的语音特征矩阵，进行GRU-SVM模型，特征输入需要进行处理。

对于得到的语音矩阵进行调整，如果音频样本中有样本的帧长短于L帧，将为该音频特征矩阵提供补0的操作。确保每个特征都是同样大小的矩阵。如图4所示。

通过上述所获特征集进行GRU-SVM深度学习模型生成，步骤如下：

步骤1：构建训练集(Xt)使用输入为批次和分帧数量(序列号)，通过GRU的门控机制学习特征参数。输入特征序列(x₁,x₂...x_t-1,x_t)，GRU计算相应的隐藏层(h₁,h₂...h_t-1,h_t)，并输出向量(y₁,y₂,...y_t-1,y_t)，门控机制由以下函数实现。

z_t＝σ(W_z·[h_t-1,x_t]) (3)

u_t＝σ(W_r·[h_t-1,x_t]) (4)

重置门，更新门和隐藏状态分别为等式(3)，(4)和(5)。其中σ(·)是Sigmoid函数。W_z是重置门的矩阵权重，W_r是更新门的矩阵权重，z_t表示重置门，u_t表示更新门。由此可构建GRU神经网络架构，本算法采用3层隐藏GRU神经网络层。

由于相对于LSTM的输入门，遗忘门，输出门，GRU的门函数比LSTM少，所以这里取神经网络输出的最后一层的输出。

步骤2：使用SVM模型接收上一步的输出，使用下面公式完成SVM回归，得到预测值模型。

其中，w，b_i为SVM回归的权重和偏置参数。

是SVM回归后的向量，y⁽ⁱ⁾是GRU训练后的输出向量。C是根据SVM核函数确定的常数(C>0)，N模型迭代的次数根据神经网络的情况确定，L是损失函数值。

步骤3:对预测模型进行softmax的回归，对回归后的输出进行交叉熵损失的计算，进行优化。(在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。)

为了验证所提出模型的性能，我们使用了LJ语音数据集。该数据集是一个公共领域的语音数据集，由来自单个发言人的13,100个简短音频片段组成，每个剪辑的长度从1到10秒不等，总长度约为24小时。另外关于合成语音数据库，我们使用了WaveGlow，一种基于流的可以从梅尔谱图生成高质量语音的网络，并且由于能够从Mel频谱图生成高质量语音。WaveGlow将Glow与WaveNet相结合，以提供快速，高效和高质量的音频合成，不需要使用自回归。WaveGlow训练过程简单而稳定。

在实验中，自然语音样本和合成语音样本的采样频率均为22.05kHz，均为标准单声道。我们使用python和tensorflow来提供所有模型并调整超参数。表1显示了实验环境的详细构造。

表1实验网络参数

在定义实验网络的超参数后，我们从两个数据库中一共选取16000个语音样本作为训练样本，并将其放入所提出的GRU-SVM网络训练方法中，然后保存训练好的模型。最后，从数据库中剩余的语音中选择8000个语音样本作为测试样本进行测试。

1.本发明方法的效果可以用过一些性能指标表现，主要包括：检测率(Accuracy)表示正负样本被正确分类的比例，虚警率(False alarm)(FPR)表示负类样本被分为正类样本在所有负类样本中的比例。漏警率(Missing alarm)(FNR)表示表示正类样本被分为负类样本在所有正类样本中的比例。

TP表示阳性样本具有正确的分类。TN表示分类正确的阴性样品。FP表示分类错误的阳性样本，FN表示分类错误的阴性样本。通常，检测率越高，FPR和FNR得分越低，分类器效果越好。

2.本发明报告了不同训练模型的检测率，如表2所示。在我们开发的数据库中，GRU网络和GRU-SVM网络的性能表现始终比以上的其他网络更出色。这表明我们基于GRU的模型更适用于合成语音检测。与其他方法相比，GRU-SVM模型的性能更好。平均检测率是指自然语音和合成语音的平均检测值，GRU-SVM为99.63％，GRU是99.55％，LSTM是99.28％，RNN是50.11％，线性SVM是97.40％。SVM在分类方面也具有良好的性能，这是由于SVM中具有核函数，对于线性不可分的数据具有强大的分类能力。随着时间步长的增加，RNN无法再连接特征信息，存在梯度爆炸的问题。所以RNN几乎将所有测试样本错误地分类为自然语音，这就是为什么RNN是自然语音中最好的。另外，因为合成语音是使用Mel频谱图功能合成的，这使得合成语音的特征比自然语音的更加有规律。虽然LSTM在检测合成语音方面是最好的，但在检测自然语音方面却不如GRU和GRU-SVM有效。在表3中也看到了相同的问题，除去RNN，GRU-SVM在众模型中，虚警率中表现最好。除LSTM外，GRU-SVM在漏检率这个指标中表现也最好。

3.图5(a)和图5(b)所示的是训练过程中的准确率和损失率，我们进一步将GRU和GRU-SVM进行比较。我们选择前4,000次迭代并进行统计。对于训练过程中的准确率如图5(a)，GRU-SVM比GRU早达到峰值，且GRU-SVM收敛过程更稳定。对于损失率，如图5(b)中所示，GRU-SVM也比GRU先到最低点，且GRU损失率的范围变化较大，尤其是在2000至2500次迭代之间。结果证明，GRU-SVM的收敛速度比GRU快。以上实验结果表明，该方法在合成语音检测中是可行和有效的。在GRU输出的隐藏层之后，SVM执行回归以控制特定特征空间中的整个特征数据，从而增强了特征并促进了后续分类。这是GRU-SVM模型成功的主要原因。

表2不同模型的准确率(％)

表3不同模型的虚警率与漏检率(％)

Claims

1.一种用于合成语音检测的GRU-SVM深度学习模型的构造方法，其特征在于，包括：

步骤一：提取训练语音每一帧的特征参数，包括

1.3放入m维的Mel滤波器组，计算出通过Mel滤波器的能量；

1.4取对数倒谱后DCT变换，得到MFCC特征；

1.5提取MFCC特征的一阶差分系数ΔMFCC，与MFCC特征组成2m维特征参数CC，CC＝{(C₁,C₂,...C_m),(ΔC₁,ΔC₂,...ΔC_m)}，

步骤二：构造训练语音的特征矩阵，包括

步骤三：构造GRU-SVM深度学习模型，包括