CN109346087A

CN109346087A - 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置

Info

Publication number: CN109346087A
Application number: CN201811079831.7A
Authority: CN
Inventors: 赵峰; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2019-02-15
Anticipated expiration: 2038-09-17
Also published as: CN109346087B

Abstract

本发明涉及人工智能，提供了一种基于深度神经网络生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置，其中，基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法包括：根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；采用通用背景模型对训练后的生成对抗网络进行评估。通过本发明的技术方案，能够明显地提升对多个用户的语音数据进行分离的准确性，增强了语音处理效果。

Description

对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置。

背景技术

生成对抗网络基于极小极大博弈而设计的对抗网络框架，包括生成器和判别器，其中，生成器(如采用MLP(Multi-Layer Perceptron，即多层感知器)网络表示生成函数)可以生成伪造的样本，与真实样本同时输入判别器(如采用MLP网络)，判别器根据伪造样本(g(z),0)和真实样本(x,1)最大化判别真假的概率。生成器最大化判别器无法判别的概率，即最小化伪造样本的概率分布与真实数据的概率分布之间的“距离”。

相关技术中，生成对抗网络越来越多地应用于语音处理领域，但是，如何优化生成对抗网络的训练方法以进一步提高语音处理效果，成为亟待解决的技术问题。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置。

为了实现上述目的，本发明的技术方案提供了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法，应用于电子设备，包括：根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；采用通用背景模型对训练后的所述生成对抗网络进行评估。

本方案中，通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练，利用判别网络来对编码网络进行误差判别，注意判别网络的参数不变化，只是传递误差，传到编码网络更新编码网络的参数，使得生成数据更逼近真实数据，不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征，取得较好的语音增强效果，生成对抗网络包括串行的编码网络和判别网络，编码网络包括三层隐含层，并分别包含1024、1024、128个节点，激活函数分别是softplus、softplus、tanh，使得生成对抗网络的输出能够逼近于任何真实值。

其中，通用背景模型使用微软的声纹识别工具箱，记录使用步骤该工具箱包含了常规的基于GMM-UBM方法以及state-of-the-art的基于i-vector方法，另外对短时谱幅值最小和对基于深层神经网络进行评估，以确定生成对抗网络的训练效果。

另外，上述MFCC(Mel-Frequency Cepstral Coefficients)特征的获取主要包括两个关键步骤：转化到梅尔频率，然后进行倒谱分析。

首先，梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话，对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，这也是梅尔刻度的物理意义所在。

这一步的含义是：首先对时域信号进行傅里叶变换转换到频域，然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分，最后每个频率段对应一个数值。

其次，倒谱的含义是：对时域信号做傅里叶变换，然后取log，然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱，我们用的是功率倒谱。倒谱分析可用于将信号分解，两个信号的卷积转化为两个信号的相加。对应上图的频域信号，可以拆分成两部分的乘积：频谱的包络和频谱的细节。频谱的峰值即为共振峰，它决定了信号频域的包络，是辨别声音的重要信息，所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息，而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系，所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。

优选地，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练，具体包括：在对所述编码网络进行训练时，将所述编码网络的输出确定为噪声鲁棒瓶颈特征，并且将不包含噪声的语音数据标签作为唯一训练标签；在对所述判别网络进行训练时，将所述指定类型噪声确定为所述判别网络的训练标签。

本方案中，通过在对所述编码网络进行训练时，将所述编码网络的输出确定为噪声鲁棒瓶颈特征，并且将不包含噪声的语音数据标签作为唯一训练标签，并且在对所述判别网络进行训练时，将所述指定类型噪声确定为所述判别网络的训练标签，即最终根据编码网络生成的瓶颈特征作为说话人确认系统的输入来对语音增强效果进行评估，进而提升了生成对抗网络的语音处理效果。

优选地，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练，具体还包括：将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据；采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。

本方案中，通过将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据，并且采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练，不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征，取得较好的语音增强效果。

优选地，不含噪声的语音数据和所述MFCC特征组合为32条短语的一个批处理数据，并且设定训练迭代次数为30次～40次。

优选地，还包括：采用反向传播算法计算所述生成对抗网络的梯度；采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。

本方案中，反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。

每次迭代中的传播环节包含两步：

(1)前向传播阶段：训练输入送入网络以获得激励响应。

(2)反向传播阶段：将激励响应同训练输入对应的目标输出求差，从而获得隐层和输出层的响应误差。

对于每个突触上的权重，按照以下步骤进行更新：

(1)将输入激励和响应误差相乘，从而获得权重的梯度；

(2)将这个梯度乘上一个比例并取反后加到权重上。

(3)这个比例将会影响到训练过程的速度和效果，因此称为“训练因子”。梯度的方向指明了误差扩大的方向，因此在更新权重的时候需要对其取反，从而减小权重引起的误差。

另外，随机梯度下降算法每次从训练集中随机选择一个样本来进行学习，批量梯度下降算法每次都会使用全部训练样本，因此这些计算是冗余的，因为每次都使用完全相同的样本集。而随机梯度下降算法每次只随机选择一个样本来更新模型参数，因此每次的学习是非常快速的，并且可以进行在线更新。

优选地，在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前，还包括：获取包含语音数据和噪声数据的音频包；对所述音频包进行分帧加窗处理，并进行静音检测处理，以获得所述不含噪声的语音数据；利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。

本方案中，分别有纯净语音和加噪语音的音频数据，对语音进行分帧加窗(20ms帧长，10ms帧移)及静音检测VAD，利用提取音频的MFCC特征，编码网络的输入是11帧(窗口滑动选取前后五帧)57维MFCC特征，所以编码网络的输入层有57*11＝627个节点数据。

另外，生成对抗网络的损失函数的计算方法可以参考以下步骤：

损失函数为交叉熵函数：

其中，Xi代表输入特征，m为每个mini-batch的帧数，L_Ei和L_Di代表第i帧的训练标签。

最后，针对存在的判别网络收敛比编码网络快的问题，解决方法入下：

1、10dB、20dB的加噪语音去训练生成对抗网络，信噪比高，判别网络不容易区分加噪语音和纯净语音，增加判别网络训练难度。

2、在每次mini-batch训练过程中更新编码网络3次，以50％的概率来选择更新判别网络。

本发明的技术方案还提出了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置，包括存储器和处理器：所述存储器中包括基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序，所述基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序被所述处理器执行时实现如下步骤：

根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；

采用通用背景模型对训练后的所述生成对抗网络进行评估。

确认装置还包括：训练单元，用于根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；评估单元，用于采用通用背景模型对训练后的所述生成对抗网络进行评估。

优选地，所述训练单元具体包括：确定子单元，用于在对所述编码网络进行训练时，将所述编码网络的输出确定为噪声鲁棒瓶颈特征，并且将不包含噪声的语音数据标签作为唯一训练标签；所述确定子单元还用于：在对所述判别网络进行训练时，将所述指定类型噪声确定为所述判别网络的训练标签。

优选地，所述训练单元具体包括：组合子单元，用于将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据；所述训练单元还用于：采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。

优选地，还包括：计算单元，用于采用反向传播算法计算所述生成对抗网络的梯度；更新单元，用于采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。

每次迭代中的传播环节包含两步：

(1)前向传播阶段：训练输入送入网络以获得激励响应。

对于每个突触上的权重，按照以下步骤进行更新：

(1)将输入激励和响应误差相乘，从而获得权重的梯度；

(2)将这个梯度乘上一个比例并取反后加到权重上。

优选地，还包括：获取单元，用于获取包含语音数据和噪声数据的音频包；去噪单元，用于对所述音频包进行分帧加窗处理，并进行静音检测处理，以获得所述不含噪声的语音数据；提取单元，用于利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。

损失函数为交叉熵函数：

本发明的技术方案还提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述本发明的技术方案提出的任一项的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的步骤，因此具有上述本发明的第一方面的技术方案提出的任一项的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的全部有益效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的示意流程图；

图2为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1为一实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法的示意流程图。

如图1所示，该实施例中的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法包括以下步骤：步骤S102，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；步骤S104，采用通用背景模型对训练后的所述生成对抗网络进行评估。

每次迭代中的传播环节包含两步：

(1)前向传播阶段：训练输入送入网络以获得激励响应。

对于每个突触上的权重，按照以下步骤进行更新：

(1)将输入激励和响应误差相乘，从而获得权重的梯度；

(2)将这个梯度乘上一个比例并取反后加到权重上。

损失函数为交叉熵函数：

如图2所示，该实施例中基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置200包括：训练单元202，用于根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；评估单元204，用于采用通用背景模型对训练后的所述生成对抗网络进行评估。

优选地，所述训练单元202具体包括：确定子单元2022，用于在对所述编码网络进行训练时，将所述编码网络的输出确定为噪声鲁棒瓶颈特征，并且将不包含噪声的语音数据标签作为唯一训练标签；所述确定子单元2022还用于：在对所述判别网络进行训练时，将所述指定类型噪声确定为所述判别网络的训练标签。

优选地，所述训练单元202具体包括：组合子单元2024，用于将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据；所述训练单元202还用于：采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。

优选地，还包括：计算单元206，用于采用反向传播算法计算所述生成对抗网络的梯度；更新单元208，用于采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。。

每次迭代中的传播环节包含两步：

(1)前向传播阶段：训练输入送入网络以获得激励响应。

对于每个突触上的权重，按照以下步骤进行更新：

(1)将输入激励和响应误差相乘，从而获得权重的梯度；

(2)将这个梯度乘上一个比例并取反后加到权重上。

优选地，还包括：获取单元210，用于获取包含语音数据和噪声数据的音频包；去噪单元212，用于对所述音频包进行分帧加窗处理，并进行静音检测处理，以获得所述不含噪声的语音数据；提取单元214，用于利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。

损失函数为交叉熵函数：

以上结合附图详细说明了本发明的技术方案，本发明提出了一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置，通过根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络(即为上述生成器对应的网络)和判别网络分别轮流进行训练，利用判别网络来对编码网络进行误差判别，注意判别网络的参数不变化，只是传递误差，传到编码网络更新编码网络的参数，使得生成数据更逼近真实数据，不仅能够包含纯净语音和加噪语音之间的共同特征并且能够保留纯净语音不同部分的特征，取得较好的语音增强效果。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明的构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法，应用于电子设备，其特征在于，包括：

采用通用背景模型对训练后的所述生成对抗网络进行评估。

2.根据权利要求1所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法，其特征在于，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练，具体包括：

在对所述编码网络进行训练时，将所述编码网络的输出确定为噪声鲁棒瓶颈特征，并且将不包含噪声的语音数据标签作为唯一训练标签；

在对所述判别网络进行训练时，将所述指定类型噪声确定为所述判别网络的训练标签。

3.根据权利要求1所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法，其特征在于，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练，具体还包括：

将所述不含噪声的语音数据和所述MFCC特征组合为包含指定个数短语的批处理数据；

采用随机梯度下降算法和所述批处理数据对所述编码网络和所述判别网络分别轮流进行训练。

4.根据权利要求1至3中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法，其特征在于，还包括：

采用反向传播算法计算所述生成对抗网络的梯度；

采用随机梯度下降算法和所述梯度来更新所述生成对抗网络的参数。

5.根据权利要求1至3中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法，其特征在于，在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前，还包括：

获取包含语音数据和噪声数据的音频包；

对所述音频包进行分帧加窗处理，并进行静音检测处理，以获得所述不含噪声的语音数据；

利用隐马尔科夫模型开源工具包提取所述音频包中的MFCC特征。

6.一种基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置，

包括存储器和处理器：所述存储器中包括基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序，所述基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序被所述处理器执行时实现如下步骤：

采用通用背景模型对训练后的所述生成对抗网络进行评估。

7.根据权利要求6所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置，其特征在于，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练具体步骤包括：

8.根据权利要求6所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置，其特征在于，根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练还包括如下步骤：

9.根据权利要求6至8中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认装置，其特征在于，在根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练前，还包括：

获取包含语音数据和噪声数据的音频包；

10.一种计算机可读存储介质，其上存储有基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序，当基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认程序被处理器执行时，实现如权利要求1至5中任一项所述的基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认步骤。