CN109524020A

CN109524020A - 一种语音增强处理方法

Info

Publication number: CN109524020A
Application number: CN201811383558.7A
Authority: CN
Inventors: 张颖; 肖萌萌; 徐志京
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-03-26
Anticipated expiration: 2038-11-20
Also published as: CN109524020B

Abstract

本发明公开了一种语音增强处理方法，所述方法包括：基于语音数据与噪声数据形成训练样本；对所述训练样本进行预处理，得到处理后的去噪样本；将所述去噪样本进行分为多个批次的去噪样本，分别采用每一个批次的去噪样本对WGAN模进行训练，直至所述多个批次的去噪样本训练完成，得到最终的WGAN‑MBGD模型；采用最终的WGAN‑MBGD模型输出增强后的语音信号。应用本发明的实施例，生成对抗网络梯度不稳定的情况，收敛速度更迅速，同时运用小批量计算也降低了计算量，引入谱减因子和谱下限因子，通过减小频谱间的误差来减小残留噪声。

Description

一种语音增强处理方法

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音增强处理方法。

背景技术

近些年来，信息发展更为迅速，基于语音识别的人机交互系统更是成为研究主流，语音处理技术越来越多的应用到各大系统中。然而，这些设备通常会处于比较复杂的声学环境中，例如街道上的鸣笛声、音乐声、鸟叫声、风声等等，嘈杂的背景噪音往往使语音质量明显变差，导致语音指令无法被准确辨别，系统无法完成某种功能，极大的降低用户体验等问题。因而研究语音增强是具有现实意义的课题。

语音增强的目的主要是从含噪语音中去除复杂的背景噪声，并保证在语音信号不失真的条件下提升语音可懂度。由于语音信号是随机变化，且是非平稳的，因此处理起来相对困难。传统的语音增强算法大多是基于噪声估计，且处理的噪声类型单一，并不能很好的处理复杂背景下的语音去噪问题。随着神经网络的迅速发展，越来越多的神经网络模型也被应用到语音增强算法中。例如基于深度神经网络(deep neural network，DNN)的语音增强模型的网络层数较多，具有学习复杂的非线性函数能力，能够提取输入信号的高维数据信息，从而能有效处理不同类型下的噪声，泛化能力较好。但由于需要提取大量的语音特征，且每层网络节点的参数众多，导致训练时间非常缓慢。而生成对抗网络(generativeadversarial nets，GAN)的出现已经很好的解决了这个问题，GAN是一个端到端的网络模型，可以直接使用原始音频信息，从而极大的加快了网络的训练速度。然而训练中会出现不稳定的问题，导致生成器经常会出现无意义的输出。

发明内容

本发明的目的在于提供一种语音增强处理方法，旨在解决了生成对抗网络梯度不稳定的情况，收敛速度更迅速，同时运用小批量计算也降低了计算量。

为了实现上述目的，本发明提供一种语音增强处理方法，所述方法包括：

基于语音数据与噪声数据形成训练样本；

对所述训练样本进行预处理，得到处理后的去噪样本；

将所述去噪样本进行分为多个批次的去噪样本，分别采用每一个批次的去噪样本对WGAN模进行训练，直至所述多个批次的去噪样本训练完成，得到最终的WGAN-MBGD模型；

采用最终的WGAN-MBGD模型输出增强后的语音信号。

本发明的优选实施方式中，所述将所述去噪样本进行分为多个批次的去噪样本，分别采用每一个批次的去噪样本对WGAN模进行训练，直至所述多个批次的去噪样本训练完成，得到最终的WGAN-MBGD模型的步骤，包括：

将所述去噪样本进行分为多个批次；

基于GAN模型和所述去噪样本，构建Wasserstein距离函数，最小化Wasserstein距离，得到WGAN模型、WGAN生成器loss函数和WGAN判别器loss函数；针对每一批次去噪样本执行：对所述WGAN模型进行训练，得到均方误差、模型中的权值集合和偏置集合，其中，所述均方误差是依据样本输入下的期望输出和实际输出所得到的均方误差；

直至所述多个批次的去噪样本训练完成，得到最终的WGAN-MBGD模型。

本发明的优选实施方式中，所述基于语音数据与噪声数据形成训练样本的步骤，包括：

纯净语音数据与噪声数据相叠加得到训练样本。

本发明的优选实施方式中，所述对所述训练样本进行预处理，得到处理后去噪样本的步骤，包括：

基于语音数据与噪声数据形成训练样本，形成带噪语音信号，并对所述带噪语音信号进行短时傅里叶变换，得到变换信号；

通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值，以及改进的幅度谱减法算法的对所述变换信号进行处理，得到处理后的变换信号；

对所述处理后的变换信号进行反傅里叶变换，得到去噪样本。

本发明的优选实施方式中，所述通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值，以及改进的幅度谱减法算法的对所述变换信号进行处理，得到处理后的变换信号的步骤，包括：

通过改变半波整流本身算法的复杂度，加入谱谱减因子和谱下限因子，并通过噪声估计、语音信号，得到增强后的语音信号。

本发明的优选实施方式中，所述通过改变半波整流本身算法的复杂度，加入谱谱减因子和谱下限因子，并通过噪声估计、语音信号，得到增强后的语音信号的步骤，包括：

在语音信号的绝对值不小于噪声估计的绝对值与谱下限因子的乘积时，确定增强后的语音信号不变，否则，确定增强后的语音信号为噪声估计的绝对值与谱下限因子的乘积；

其中，所述语音信号为根据样本信号的绝对值、噪声估计和谱减因子所得到。

本发明提供的一种语音增强处理方法，有益效果如下：

(1)将小批量梯度下降算法MBGD与W生成对抗网络WGAN相结合的一种语音增强方法，基于GAN框架，利用二人零和博弈中的对抗性质，进行语音增强。语音增强算法采用的是W生成对抗网络，并结合小批量梯度下降算法进行优化，解决了GAN训练不稳定和模式崩溃的问题，同时又减小收敛所需的迭代次数，减少计算量，解决了生成对抗网络梯度不稳定的情况。

(2)传统的幅度谱减法是基于平稳条件下的语音，与实际环境并不相符，易造成处理后的信号中仍然含有“音乐噪声”，导致信号存在一定的失真现象。该方法在做减法处理时可以适量多减去一些噪声分量，减小噪声幅值，因此引入过减因子α，以更好的消除噪声谱峰幅值。谱峰存在的同时也存在波谷，针对波谷，可以引入谱下限因子β，以填充这些波谷峰值，缩小与谱峰间的差距，从而减少“音乐噪声”带来的干扰。改进后的算法在SSNR、PESQ和WSS上的性能有所提升，也表明改进的幅度谱减法在去噪的效果上得到了一定的提升。

(3)引入谱减因子和谱下限因子，通过减小频谱间的误差来减小残留噪声。

附图说明

图1是本发明实施例语音增强处理方法的一种流程图图。

图2是本发明实施例语音增强处理方法的另一张流程图图。

图3是本发明实施例语音增强处理方法的一种效果示意图。

图4是本发明实施例语音增强处理方法的另一种效果示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-4。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

具体的，如图1所示，本发明实施例提供了一种语音增强处理方法，所述方法包括：

S101，基于语音数据与噪声数据形成训练样本。

本发明实施例中，采用的带噪语音数据集是将纯净语音数据与噪声数据相叠加来实现，然后将此数据库作为神经网络的训练样本。纯净语音数据是基于TIMIT语音数据集构建的。随机选择了320条纯净语音数据集，其中男女生语音各160条。噪声数据集来自加性噪声和9种来自Aurora2的噪声数据集。在训练集中将280条纯净语音数据与各种类型噪声数据相加来构建多种条件的训练语音数据集。同时选择NOISEX-92中的白噪声、街道噪声和工业噪声3种噪声数据集与40条纯净语音数据叠加来构建不同条件的测试集。

所有实验所用的纯净语音数据集与噪声数据集使用16KHz进行采样，帧长设置为16ms，帧移设置为8ms。在实验过程中均使用预加重系数a为0.95的预加重滤波器对输入数据进行预处理。均使用对数能量谱特征作为语音特征，则该对数能量谱特征的向量维数是129。

S102，对所述训练样本进行预处理，得到处理后的去噪样本。

传统的幅度谱减法去噪实验中，选取TIMIT语音库中的数据“p232_104.wav”，语音内容为：“There will be no repeat of that performance，that I can guarantee.”作为纯净语音信号，并加入10db的街道噪声进行叠加，作为实验输入数据。对语音信号的幅度谱进行估计，从输入信号y(n)的幅度谱上来进行运算。将带噪信号y(n)经FFT变换后的结果用极坐标表示如：

忽略y(n)与d(n)的相位差，则y(n)的幅度谱为：

d(n)的幅度谱可以通过无音段中的平均幅度谱来进行估计，再结合d(n)的相位θ_y(e^jω)，可得到式：

经过上述处理后的语音信号令为0来进行处理，重新整理公式如式(1)所示：

半波整流法能够去除频域中的残留“音乐噪声”，则语音信号可表示为式(2)：

利用每个频率点上相邻分析帧的最小振幅来代替当前帧的幅值。当的幅值小于max|D_R(e^jω)|时，取相邻分析帧中的最小振幅值；当的幅值大于max|D_R(e^jω)|时，保持其幅值不变。其公式如式(3)：

得到传统的幅度谱减法去噪实验效果图。

如图2所示，为训练样本预处理的处理过程示意图，基于语音数据与噪声数据形成训练样本，形成带噪语音信号，并对所述带噪语音信号进行短时傅里叶变换，得到变换信号；通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值，以及改进的幅度谱减法算法的对所述变换信号进行处理，得到处理后的变换信号；对所述处理后的变换信号进行反傅里叶变换，进行语音样本去噪处理，得到去噪样本。

具体的，通过改变半波整流本身算法的复杂度，加入谱谱减因子和谱下限因子，并通过噪声估计、语音信号，得到增强后的语音信号。

在语音信号的绝对值不小于噪声估计的绝对值与谱下限因子的乘积时，确定增强后的语音信号不变，否则，确定增强后的语音信号为噪声估计的绝对值与谱下限因子的乘积；其中，所述语音信号为根据样本信号的绝对值、噪声估计和谱减因子所得到。该算法通过关于z的幅度谱噪声估计和增强后的信号三者的关系来实现(4)：

其中，设置的α值为2，β值为0.001。所引入的谱减因子和谱下限因子，通过减小频谱间的误差来减小残留噪声。

S103，将所述去噪样本进行分为多个批次的去噪样本，分别采用每一个批次的去噪样本对WGAN模进行训练，直至所述多个批次的去噪样本训练完成，得到最终的WGAN-MBGD模型。

使用基于小批量梯度下降的W生成对抗网络来进行语音增强，基于GAN模型，输入原始语音信号，输出增强语音信号。WGAN在GAN的基础上提出了Wasserstein距离：

由于Wasserstein距离定义中的无法直接求解，所以做一个转换：

在要求函数f的Lipschitz常数||f||_L不超过K的条件下，对所有可能满足条件的f取到的上界，然后再除以K。使用一组参数w来定义一系列可能的函数f_w，此时求解公式(6)可以近似变成求解如下形式(7)：

对于||f_w||_L≤K，限制神经网络f_θ的所有参数w_i不超过某个范围[-c,c]。最终得到如下目标函数：

WGAN中的判别器f_w做的是近似拟合Wasserstein距离，属于回归任务，所以将GAN最后一层的sigmoid去掉。

接下来生成器要近似地最小化Wasserstein距离，可以最小化L，由于Wasserstein距离的优良性质，不需要担心生成器梯度消失的问题。再考虑到L的第一项与生成器无关，就得到了WGAN的两个loss：

(WGAN生成器loss函数)

(WGAN判别器loss函数)

本领域技术人员可以理解的是，在对算法进行优化的时候，如果使用Adam，判别器的loss有时候会崩掉，当崩掉时，Adam给出的更新方向与梯度方向夹角的cos值就变成负数，更新方向与梯度方向南辕北辙，判别器的loss梯度是不稳定的，不适合用Adam这类基于动量的优化算法。

需要说明的是，对去噪样本分成多个批次，其中，每个批次的数量是相等的。具体的，再针对每一批次去噪样本执行：对WGAN模型进行训练，得到均方误差以及模型中的网络权值集合和偏置集合，其中，均方误差是依据样本输入下的期望输出和实际输出所得到的均方误差。直至判断是不是对所有有批次去噪样本执行完毕，如果是，则过程结束。

所以，采用小批量梯度下降(Mini-Batch Gradient Descent，MBGD)算法，即在更新每一参数时都只计算小部分训练样本的损失函数，称之为WGAN-MBGD。

具体的，MBGD算法是在全部样本里随机抽取多个样本，而m是训练总样本。其中，m个样本为：X₁,X₂,...,X_i,...,X_m。λ,b分别为网络中权值和偏置的集合，Y_i和A_i分别为第i个样本输入下的期望输出和实际输出。||·||为范数运算，均方误差为：

其中均方误差由梯度得▽C：

公式(10)利用m个样本数据估计出整体梯度，m越大时估计越准确。此时更新公式为如(11)、(12)，其中，η为一个正数，取值区间为[0,1]，η称为学习率。更新后权值λ'_k：

其中，λ_k是第k个样本的权值，是第i个样本的均方误差；更新后的偏置b'_k，其中，b_k是第k个样本的偏置。

优化时使用小批量梯度下降算法，每次使用小部分样本能够较大程度地减小收敛所需的迭代次数，在减小收敛的同时，又遍历了所有的样本，解决了生成对抗网络梯度不稳定的情况。在WGAN的基础上，融合小批量梯度下降MBGD算法，形成WGAN-MBGD模型，并基于WGAN-MBGD模型实现更快更稳定的语音增强。

S104，采用最终的WGAN-MBGD模型输出增强后的语音信号。

所有实验结果均使用信噪比SNR、饱和信噪比SSNR、主观语音质量评估PESQ和加权谱斜率距离测度WSS四种客观评价指标。SNR为4种不同的信噪比，分别是10db，5db，0db，-5db。SSNR的比值越大，代表语音质量较好。PESQ为语音质量评价中一种典型算法，与主观评价相似度较高，数值在-0.5～4.5范围内，该值的分数越高，则话音质量越好。WSS测量值越小，则意味着话音的可懂度较高。

如图3和4可以看出，WGAN-MBGD对于噪声有非常好的抑制效果，语音信号幅值均有所下降，为了能够进一步便于分析，选取TIMIT语音库中的数据“p232_104.wav”作为纯净语音信号，加入街道噪声，在-5db，0db，5db和10db下进行对比实验并讨论其语音增强算法的差异以及对噪声的抑制程度。

为了便于进一步的分析，故选择测试集中的白噪声、街道噪声和工业噪声3种噪声数据集与40条纯净语音数据叠加来构建不同条件的测试集数据，得出其客观指标实验结果，并将传统的语音增强方法与改进的进行对比。

表1

为能更好的验证WGAN-MBGD语音增强算法的可靠性，以TIMIT语料库中的数据“p232_104.wav”作为纯净的语音信号，以10db街道噪声为背景噪声，与传统的语音增强方法进行比较，计算出不同算法的客观评价指标：SSNR、PESQ和WSS，并以折线图的形式进行对比。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种语音增强处理方法，其特征在于，所述方法包括：

基于语音数据与噪声数据形成训练样本；

对所述训练样本进行预处理，得到处理后的去噪样本；

采用最终的WGAN-MBGD模型输出增强后的语音信号。

2.根据权利要求1所述的语音增强处理方法，其特征在于，所述将所述去噪样本进行分为多个批次的去噪样本，分别采用每一个批次的去噪样本对WGAN模进行训练，直至所述多个批次的去噪样本训练完成，得到最终的WGAN-MBGD模型的步骤，包括：

将所述去噪样本进行分为多个批次；

3.根据权利要求1或2所述的语音增强处理方法，其特征在于，所述基于语音数据与噪声数据形成训练样本的步骤，包括：

纯净语音数据与噪声数据相叠加得到训练样本。

4.根据权利要求3所述的语音增强处理方法，其特征在于，所述对所述训练样本进行预处理，得到处理后去噪样本的步骤，包括：

5.根据权利要求4所述的语音增强处理方法，其特征在于，所述通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值，以及改进的幅度谱减法算法的对所述变换信号进行处理，得到处理后的变换信号的步骤，包括：

6.根据权利要求5所述的语音增强处理方法，其特征在于，所述通过改变半波整流本身算法的复杂度，加入谱谱减因子和谱下限因子，并通过噪声估计、语音信号，得到增强后的语音信号的步骤，包括：

在语音信号的绝对值不小于噪声估计的绝对值与谱下限因子的乘积时，确定增强后的语音信号不变，否则，确定增强后的语音信号为噪声估计的绝对值与谱下限因子的乘积；其中，所述语音信号为根据样本信号的绝对值、噪声估计和谱减因子所得到。