CN109326302B

CN109326302B - 一种基于声纹比对和生成对抗网络的语音增强方法

Info

Publication number: CN109326302B
Application number: CN201811353760.5A
Authority: CN
Inventors: 钟艳如; 张家豪; 赵帅杰; 李芳�; 蓝如师; 罗笑南
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2022-11-08
Anticipated expiration: 2038-11-14
Also published as: CN109326302A

Abstract

本发明公开一种基于声纹比对和生成对抗网络的语音增强方法，1）建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统；2）训练声纹识别编码器提取目标说话者的声纹特征，得目标声纹特征；3）将带噪音频转化成语谱图送入噪声分离系统中的生成器中，得预测干净音频；4）将预测干净音频和真实干净音频送入噪声分离系统中的鉴别器训练；5）调整鉴别器权重参数，使鉴别器更好地分辨出真实干净音频和预测干净音频的区别，得到产生近乎真实的干净音频的生成器；6）将说话者的声音送入已经训练好的生成器中，生成预测干净语谱图，得到增强的语音信号。该方法规模小、计算低、易于移植、保持一定的空间不变性且去噪效果好。

Description

一种基于声纹比对和生成对抗网络的语音增强方法

技术领域

本发明涉及语音增强技术领域，具体是一种基于声纹比对和生成对抗网络的语音增强方法。

背景技术

随着社会的发展，电子产品的普及，人们对语音质量的要求越来越高。如何提高电子产品在嘈杂环境下的移动通信质量已经成为当下最热门的研究方向。而语音增强可以提高噪声环境下语音的质量和可理解性，语音增强不仅在助听器和人工耳蜗领域有着重要的应用，而且已成功应用于语音识别和说话人识别系统中的预处理阶段。

经典的语音增强的方法有谱减法、维纳滤波、基于统计模型的方法和子空间算法。自80年代以来，神经网络也被应用于语音增强。近些年，去噪自编码架构已被广泛采用。例如，循环去噪自编码在对音频信号上下文信息的处理上表现良好。最近长短期记忆网络也被应用于去噪任务。尽管上述这些方法都可以取得不错的效果，但是却需要大量的数据和计算量，难以移植到嵌入式设备。而且，这些方法往往依赖于训练集，输出的干净音频是基于训练集输出干净音频的平均值，会比较模糊，对细节的处理并不尽如人意。

发明内容

本发明的目的在于克服现有技术的不足，而提供一种基于声纹比对和生成对抗网络的语音增强方法，该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。

实现本发明目的的技术方案是：

一种基于声纹比对和生成对抗网络的语音增强方法，包括如下步骤：

1)建立三个语音数据库,分别对应声纹识别编码器、噪声分离系统和语音分离系统；

2)训练声纹识别编码器提取目标说话者的声纹特征，得到目标声纹特征；

3)将带噪的音频转化成语谱图送入噪声分离系统中的生成器中，生成器根据声纹识别编码器提取的目标声纹特征分离出目标说话者的声音，得到预测干净音频；

4)将步骤3)得到的预测干净音频和步骤1)语音分离系统中真实干净音频送入噪声分离系统中的鉴别器进行训练,使鉴别器分辨出说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布；

5)调整鉴别器权重参数，使鉴别器更好地分辨出真实干净音频和生成器产生的预测干净音频的区别，根据鉴别器区分结果更新生成器的权重参数，直至鉴别器分辨不出生成器产生的预测音频和真实的干净音频的区别，得到可以产生近乎真实的干净音频的生成器；

6)通过传声器收集说话者的声音，经短时傅里叶变换转化成语谱图送入已经训练好的生成器中，生成预测干净语谱图，再通过反短时傅里叶变换转化成语音模拟信号，语音模拟信号经扬声器播放出来，即得到增强的语音信号。

所述的声纹识别编码器为2000NISI Speaker Recongnition Evaluation语音库的声纹识别编码器；所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统；所述的语音分离系统为TIMIT语音库的语音分离系统。

步骤2)中，所述的声纹识别编码器提取目标说话人的声纹特征，具体是：将音频信号转换为宽度为25ms和步长为10ms的帧，经过mel滤波器对每帧进行滤波，并且从结果中提取尺寸为40的能量谱作为网络输入，在这些帧上构建固定长度的滑动窗口，并在每个窗口上运行长短期记忆网络，然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。

所述的生成器，是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，输入信号的语谱图经过卷积层后，参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上，一同输入长短期记忆层，最终，网络的输出是一段与输入语谱图维度相同的掩码(mask)，将输出掩码与输入语谱图相乘，即可得到输出音频的预测干净音频谱图

所述的鉴别器，是由一个2层的卷积网络和一个2层的全连接神经网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，生成器将生成的预测干净音频谱图

送入鉴别器，再将步骤1)中真实干净音频X送入鉴别器，训练鉴别器神经网络，鉴别器对生成器产生的预测干净音频谱图

判定为虚假数据给予低分(接近0),对步骤1)中真实干净音频X判定为真实数据给予高分(接近1)，以此学习真实数据和预测数据的分布，使鉴别器分辨出步骤6)中说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布。

所述的调整鉴别器权重参数，具体是将真实虚假的消息传递给生成器，生成器调整网络模型的参数，修正其输出的语谱图，使其更接近于真实的分布，消除被鉴别器判定为虚假的噪音信号，即使生成器产生的预测干净语谱图

可以“骗过”鉴别器，鉴别器判定生成器产生的预测干净语谱图是从TIMIT语音库中得到的真实干净音频的语谱图X，在神经网络反向传播的过程中，鉴别器能够更好地分辨出真实干净音频和生成器产生的预测干净音频的区别，也就是更好地找到真实干净音频的特征；同样的，生成器也会随着不断更新的鉴别器，调整其参数，使其产生的预测语谱图向着真实干净音频语谱图移动。

所述的生成器、鉴别器，相互博弈，相互对抗，生成对抗网络算法，算法公式如下：

为解决经典方法面临梯度消失的问题，采用最小二乘生成对抗网络the least-squares GAN代替交叉熵损失the cross-entropy loss，则：

上述公式中，G表示生成器(Generator)，D表示鉴别器(Discriminator)，V代表损失值，data表示步骤1)语音分离系统中真实干净音频的语音库，x表示data中抽取出的真实干净语音音频，noise表示步骤1)语音分离系统中的带噪音频语音库，n表示从noise中抽取与x对应的带噪音频，G(n)表示生成器对带噪语音进行去噪处理，得到预测干净音频

D(G(n))表示鉴别器对预测干净音频

进行判定为虚假数给予低分(接近0),对真实干净音频X判定为真实数据给予高分(接近1)。

本发明提供的一种基于声纹比对和生成对抗网络的语音增强方法，该方法规模小、计算更低、易于移植、保持一定的空间不变性且去噪效果好。

附图说明

图1为本发明方法的流程图；

图2为本发明中的声纹识别编码器示意图；

图3为本发明中的生成器示意图；

图4为本发明中的鉴别器示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，一种基于声纹比对和生成对抗网络的语音增强方法，包括如下步骤：

2000NISI Speaker Recongnition Evaluation语音库是声纹特征提取论文中最常用的数据集通常在文献中直接称为“CALLHOME”，它包含500中方言，分布在6中语言中：阿拉伯语、英语、德语、日语、普通话、西班牙语；

TIMIT语音库是由德州仪器(TI)、麻省理工学院(MIT)和斯坦福研究院(SRI)共同采集的声学-音素连续语音语料库，包含6300个句子，由来自美国8个主要方言地区630人每人说出给定10个句子，所有句子都在音素级别上进行了手动分割、标记，并按照7：3的比例将数据集划分为训练集(70％)和测试集(30％)；

100-nonspeech噪音库是由郭宁虎团队收集的100中非人声噪音。

使用2000NISI Speaker Recongnition Evaluation作为第一个数据库训练声纹识别编码器，使它可以很好的提取说话者的声纹特征(d-vector)。其次，需要三元组数据库来训练整个噪声分离系统，输入：①来自目标说话者的干净音频②带噪音频③来自目标说话者的参考音频；从TIMIT语音库中挑选干净音频并与噪音按照不同信噪比(SNR)合成带噪音频，最后在目标说话者除已使用的干净音频中随机选取一句参考音频组成三元组数据，作为第二数据库。

步骤2)中，所述的声纹识别编码器提取目标说话人的声纹特征，如图2所示，具体是：将音频信号转换为宽度为25ms和步长为10ms的帧，经过mel滤波器对每帧进行滤波，并且从结果中提取尺寸为40的能量谱作为网络输入，在这些帧上构建固定长度的滑动窗口，并在每个窗口上运行长短期记忆网络，然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征(d-vector)表示。

如图3所示，所述的生成器，是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，输入信号的语谱图经过卷积层后，参考音频的声纹特征(d-vector)会被逐帧拼接到卷积层的输出上，一同输入长短期记忆层，最终，网络的输出是一段与输入语谱图维度相同的掩码(mask)，将输出掩码与输入语谱图相乘，即可得到输出音频的预测干净音频谱图

如图4所示，所述的鉴别器，是由一个2层的卷积网络和一个2层的全连接神经网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，生成器将生成的预测干净音频谱图

D(G(n))表示鉴别器对预测干净音频

Claims

1.一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的声纹识别编码器为2000 NISI Speaker Recongnition Evaluation语音库的声纹识别编码器；所述的噪声分离系统为100-nonspeech噪音库的噪声分离系统；所述的语音分离系统为TIMIT语音库的语音分离系统。

3.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，步骤2)中，所述的声纹识别编码器提取目标说话人的声纹特征，具体是：将音频信号转换为宽度为25ms和步长为10ms的帧，经过mel滤波器对每帧进行滤波，并且从结果中提取尺寸为40的能量谱作为网络输入，在这些帧上构建固定长度的滑动窗口，并在每个窗口上运行长短期记忆网络，然后将长短期记忆网络最后帧输出作为该滑动窗口的声纹特征d-vector表示。

4.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的生成器，是由一个8层的卷积网络、一个1层的长短期记忆循环网络和一个2层的全连接网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，输入信号的语谱图经过卷积层后，参考音频的声纹特征d-vector会被逐帧拼接到卷积层的输出上，一同输入长短期记忆层，最终，网络的输出是一段与输入语谱图维度相同的掩码mask，将输出掩码与输入语谱图相乘，即可得到输出音频的预测干净音频谱图

5.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的鉴别器，是由一个2层的卷积网络和一个2层的全连接神经网络组成，每层都用Relu激活函数，最后一层全连接网络使用sigmoid激活函数，生成器将生成的预测干净音频谱图

判定为虚假数据给予低分，对步骤1)中真实干净音频X判定为真实数据给予高分，以此学习真实数据和预测数据的分布，使鉴别器分辨出步骤6)中说话者的声音通过噪声分离系统所生成的预测语谱图是否符合真实音频的分布。

6.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的调整鉴别器权重参数，具体是将真实虚假的消息传递给生成器，生成器调整网络模型的参数，修正其输出的语谱图，使其更接近于真实的分布，消除被鉴别器判定为虚假的噪音信号，即使生成器产生的预测干净语谱图

7.根据权利要求1所述的一种基于声纹比对和生成对抗网络的语音增强方法，其特征在于，所述的生成器、鉴别器，相互博弈，相互对抗，生成对抗网络算法，算法公式如下：

上述公式中，G表示生成器Generator，D表示鉴别器Discriminator，V代表损失值，data表示步骤1)语音分离系统中真实干净音频的语音库，x表示data中抽取出的真实干净语音音频，noise表示步骤1)语音分离系统中的带噪音频语音库，n表示从noise中抽取与x对应的带噪音频，G(n)表示生成器对带噪语音进行去噪处理，得到预测干净音频

D(G(n))表示鉴别器对预测干净音频

进行判定为虚假数给予低分,对真实干净音频X判定为真实数据给予高分。