CN113488069A

CN113488069A - 基于生成式对抗网络的语音高维特征快速提取方法和装置

Info

Publication number: CN113488069A
Application number: CN202110761504.5A
Authority: CN
Inventors: 陈晋音; 陈若曦
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-08
Anticipated expiration: 2041-07-06

Abstract

本发明公开了一种基于生成式对抗网络的语音高维特征快速提取方法和装置，包括：获取语音信号，采用数据增强技术对语音信号增加模拟噪声，以构建数据池；从语音信号中提取MFCC，提取的MFCC与基频特征叠加形成级联特征；构建包含生成器、判别器以及分类器的生成式对抗网络，其中生成器对输入语音信号进行高维特征提取，判别器对输入的级联特征和提取的高维特征进行特征真伪分辨，分类器对输入的高维特征进行语音分类；利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数，提取参数确定的生成器用于语音高维特征快速提取。该方法能够实现声音序列语音高维特征的高效提取。

Description

基于生成式对抗网络的语音高维特征快速提取方法和装置

技术领域

本发明属于数据处理领域，具体涉及一种基于生成式对抗网络的语音高维特征快速提取方法和装置。

背景技术

MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)是声音处理领域最常见的声音特征，它是根据人的听觉机理发现的特征参数，与频率成非线性对应关系。MFCC系数较好地模拟了人耳听觉系统感知信号的能力，具有鲁棒性强、识别率高的特点，广泛应用于语音处理系统中。

深度学习以其优越的性能被广泛应用于图像分类、目标检测、生物信息、语音识别、自然语言处理等众多领域。部分研究者将深度学习应用于语音特征的提取，并取得了一定的成果。卷积神经网络(CNN)、循环神经网络(RNN)以及长短期记忆网络(LSTM)均可以被应用于语音特征提取。

作为近年来深度学习领域中一种较为先进的技术，生成式对抗网络(GAN)凭借着其优良的学习映射关系的能力在许多领域中取得了良好的结果，如图片合成、图片补全、文本生成和视频生成等应用。生成式对抗网络包括了两个深度模型结构：生成器模型和判别器模型。对于某种给定的信息，生成器模型可以通过一定的映射关系将该信息映射到某一特征空间中；判别器模型主要是对生成数据和真实数据进行真假判断。目前，已有将生成式对抗网络技术应用于语音合成、语音增强任务中，并取得较好结果。

尽管现有特征提取方法能达到较好的效果，但它们仍存在以下缺点和不足：(1)在语音特征提取过程中存在的普适性差，效率低和鲁棒性不强而无法适应实际场景下快速稳定准确提取高维特征。(2)直接通过深度学习模型提取MFCC特征可以实现端到端的特征提取，这简化了特征提取的步骤，但是目前的深度学习模型无法很好的拟合MFCC特征，同时也对于模型的训练成本和数据本身提出了更高的要求，在实际应用中也难以实现。

发明内容

鉴于上述，本发明提供了一种基于生成式对抗网络的语音高维特征快速提取方法和装置，通过充分利用生成式对抗网络的特征学习能力对于语音信号进行特征抽取，实现针对声音序列语音高维特征的高效提取。通过数据增强技术，模仿实际场景下可能产生的噪声对数据进行增强，从而实现对高维特征快速稳定的提取。

实施例提供的一种基于生成式对抗网络的语音高维特征快速提取方法，包括以下步骤：

获取语音信号，采用数据增强技术对语音信号增加模拟噪声，以构建数据池；从语音信号中提取MFCC，提取的MFCC与基频特征叠加形成级联特征；

构建包含生成器、判别器以及分类器的生成式对抗网络，其中生成器对输入语音信号进行高维特征提取，判别器对输入的级联特征和提取的高维特征进行特征真伪分辨，分类器对输入的高维特征进行语音分类；

利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数，提取参数确定的生成器用于语音高维特征快速提取。

优选地，所述语音信号的MFCC的提取过程包括：

对语音信号进行预加重、加窗分帧预处理后；对预处理后的语音信号进行离散傅里叶变换得到离散谱；将离散谱输入至Mel滤波器组，取对数后得到对数频谱；将对数频谱经过离散余弦变换到倒频谱域，得到的MFCC。

优选地，所述生成器包括二维卷积层、池化层。

优选地，所述判别器为二分类器，包括至少2层全连接层，激活函数采用softmax函数。

优选地，所述分类器包括二维卷积层，池化层和全连接层和残差卷积块。

优选地，在训练生成式对抗网络时，首先，固定生成器网络参数，采用交叉熵损失函数优化判别器网络参数；然后，固定判别器网络参数，采用交叉熵损失函数优化生成器网络参数；最后，固定生成器网络参数和判别器网络参数，采用交叉熵损失函数优化分类器网络参数。

第二方面，实施例提供的一种基于生成式对抗网络的语音高维特征快速提取装置，包括存储器，处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于生成式对抗网络的语音高维特征快速提取方法。

上述实施例提供的技术方案，具有的有益效果至少包括：

利用生成式对抗网络优良的学习映射关系的能力对于语音信号进行特征抽取，实现针对声音序列语音高维特征的高效提取，极大地提高了特征有效利用率和声纹识别的效率。通过数据增强技术，模仿实际场景下可能产生的噪声对数据进行增强，从而实现对高维特征快速稳定的提取。在数据集上的实验结果表明，该方法和装置具有良好的适用性和准确率，对语音信号的特征有良好的提取效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于生成式对抗网络的语音高维特征快速提取方法的流程图；

图2是实施例提供的基于生成式对抗网络的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的基于生成式对抗网络的语音高维特征快速提取方法的流程图；图2是实施例提供的基于生成式对抗网络的结构示意图。如图1和图2所示，实施例提供的基于生成式对抗网络的语音高维特征快速提取方法，主要技术构思为：搭建生成式对抗网络，利用其优秀的特征抽取能力提取语音信号的时序特征。交替训练生成器、判别器和分类器，使其达到最终的优化目标。在实现高效特征提取的同时，保证特征类标的准确性，使其能被分类器正确识别。具体包括以下步骤：

步骤1，构建训练数据集。

实施例中，获取语音信号，采用数据增强技术对语音信号增加各类实际场景下的模拟噪声，以构建数据池。数据池的构建可以通过以下公式表示：

X_n＝X+noise(X)_n，n∈N

其中，X表示输入的语音信号，noise(·)表示噪声添加函数，用于向输入语音信号中添加实际场景下的模拟噪声，N表示构建的实际场景下的模拟噪声的种类。数据池的数据经过生成器以提取高维特征。

实施例中，从语音信号中提取MFCC，提取的MFCC与基频特征叠加形成级联特征。MFCC通过手动的方式进行特征提取，特征提取的过程如下：

(a)对语音信号进行预加重、加窗分帧预处理。

预加重由传递函数为H(Z)＝1-αz^-1的一阶高通数字滤波器来实现，其中α为预加重系数，0.9<a<1.0。设n时刻的语音采样值为x(n)，经过预加重处理后的结果为y(n)＝x(n)-ax(n-1)。

语音信号的加窗分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33-100帧。一般的分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般为0-0.5。本项目中采用汉明窗，具体公式为：

(b)对预处理后的语音信号进行离散傅里叶变换(DFT)变换得到离散谱。离散傅里叶变换过程表示为：

其中，N为帧长。

(c)将离散谱输入至Mel滤波器组，取对数后得到对数频谱如下：

其中，Hm(k)为带通滤波器。

(d)将对数频谱经过离散余弦变换到倒频谱域，得到的MFCC如下：

将得到的MFCC特征与基频特征F0进行融合以生成级联特征，具体公式如下：

X^MFCC＝Concat(MFCC,F0)

Concat函数表示对矩阵的最后一维进行拼接操作。

步骤2，构建GAN模型。

实施例中，GAN模型包括生成器G、判别器D和分类器。其中，生成器主要由二维卷积层和池化层构成。它的输入为添加噪声的语音数据，输出为重构后接近真实样本分布的高维特征。利用tfleran中的库函数搭建卷积神经网络。conv_2d表示二维卷积网络，nb_filter表示卷积核的数量，filter_size表示卷积核的大小，max_pool_2d表示二维最大池化层，dropout表示抑制该层部分神经元的输出。

判别器是个二分类器，主要由三层全连接层构成，它需要判别语音数据是否符合MFCC音频特征的数据分布。因此判别器的输入为重构后的MFCC特征和原始MFCC特征，输出为0和1。其中0表示重构的特征分布不符合MFCC特征，1表示生成器的重构特征为真实特征。全连接层采用softmax函数作为激活函数，将每个元素取指数后进行归一化，最后输出模型的置信度。

分类器的主要由二维卷积层，池化层和全连接层和残差卷积块构成。分类器的输入为语音特征，输出语音的分类类标。

步骤3，交替训练生成器G和判别器D。

实施例中，采用数据池以及MFCC和F0的级联特征训练生成式对抗网络以实现高维特征的提取。对于上述生成式对抗网络的训练，生成器和判别器的训练交替进行，具体步骤如下：

判别器的输入为MFCC与基频的级联特征和重构的高维特征，用于判断重构的高维特征的分布是否属于声学特征。训练特征判别模型D参数的具体过程为：固定生成器G的参数，将生成器G输出的重构MFCC特征输入到判别器D，将得到的输出与0进行交叉熵计算损失；将原始MFCC特征输入到判别器D，将得到的输出与1进行交叉熵计算损失。该过程的优化目标为：

其中，x～p_data(x^MFCC)表示x采样自MFCC特征x^MFCC，

表示x采样自重构后的MFCC特征，G(·)表示生成器G的输出，D(·)表示判别器D的输出。

生成器的输入为语音信号，生成器直接对输入的语音信号提取高维的声学特征，输出为重构后的高维特征。训练生成器G的参数的具体过程为：固定D的参数，将原始语音信号输入生成器G，将重构后的特征输入到特征判别器D，得到的输出与1进行交叉熵计算损失，通过最小化上述损失反馈训练GAN-G的参数。

该过程的优化目标为：

其中，

表示x采样自重构后的MFCC特征。

分类器的损失函数定义为：

其中，CE表示交叉熵，y为语音信号x的真实类标，

为语音x对应的重构MFCC特征，C(·)表示分类器函数。

利用生成的训练数据集对GAN模型进行训练，在训练完成后用测试集进行测试，统计分类器的测试精度，即分类器对原特征和重构后特征分类精度，以及生成器对MFCC特征的处理效果，若经过生成器处理后的MFCC特征能够被语音识别分类器模型正确识别，则认为生成器的这次处理是有效的。若分类器的分类精度和生成器的处理效果达不到预设标准，则更改模型的参数继续训练模型。重复交替训练G和D，直到特征提取模型G和特征判别模型D实现纳什均衡，或者达到预设的迭代次数。实现纳什均衡的时候有：

通过判别器D与生成器G两者的对抗训练，实现上述的优化目标，使得生成器G产生的重构后的MFCC特征更加接近原始特征的分布，即实现了在最大程度保留原始信号特征的基础上进行特征提取和重构，同时使能被分类器正确识别。

步骤4，利用参数确定的生成器来进行语音高维特征快速提取。

当训练结束后，将语音信号输入至参数确定的生成器，进行语音高维特征快速提取。

实施例还提供了一种基于生成式对抗网络的语音高维特征快速提取装置，包括存储器，处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现上述基于生成式对抗网络的语音高维特征快速提取方法。

上述实施例提供的基于生成式对抗网络的语音高维特征快速提取方法和装置，利用生成式对抗网络优良的学习映射关系的能力对于语音信号进行特征抽取，实现针对声音序列语音高维特征的高效提取，极大地提高了特征有效利用率和声纹识别的效率。通过数据增强技术，模仿实际场景下可能产生的噪声对数据进行增强，从而实现对高维特征快速稳定的提取。在数据集上的实验结果表明，该算法具有良好的适用性和准确率，对语音信号的特征有良好的提取效果。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成式对抗网络的语音高维特征快速提取方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法，其特征在于，所述语音信号的MFCC的提取过程包括：

对语音信号进行预加重、加窗分帧预处理后；对预处理后的语音信号进行DFT变换得到离散谱；将离散谱输入至Mel滤波器组，取对数后得到对数频谱；将对数频谱经过离散余弦变换到倒频谱域，得到的MFCC。

3.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法，其特征在于，所述生成器包括二维卷积层、池化层。

4.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法，其特征在于，所述判别器为二分类器，包括至少2层全连接层，激活函数采用softmax函数。

5.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法，其特征在于，所述分类器包括二维卷积层，池化层和全连接层和残差卷积块。

6.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法，其特征在于，在训练生成式对抗网络时，首先，固定生成器网络参数，采用交叉熵损失函数优化判别器网络参数；然后，固定判别器网络参数，采用交叉熵损失函数优化生成器网络参数；最后，固定生成器网络参数和判别器网络参数，采用交叉熵损失函数优化分类器网络参数。

7.一种基于生成式对抗网络的语音高维特征快速提取装置，包括存储器，处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～6任一项所述的基于生成式对抗网络的语音高维特征快速提取方法。