CN104505100B

CN104505100B - 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Info

Publication number: CN104505100B
Application number: CN201510005690.4A
Authority: CN
Inventors: 孙蒙; 张雄伟; 李轶南
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2015-01-06
Filing date: 2015-01-06
Publication date: 2017-12-12
Anticipated expiration: 2035-01-06
Also published as: CN104505100A

Abstract

本发明公开了一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法，该方法对输入的时域信号经过加窗、分帧后，经傅里叶变换并取模得到该语句的幅度谱；估计得到稀疏的语音成分和噪声基矩阵W⁽ⁿ⁾；估计出语音分量和噪声分量后得到增强语音的估计；将鲁棒非负矩阵分解所得到的估计，与来自谱减SS和最小均方误差MMSE的估计，经过几何均值滤波模块融合，得到最终的幅度谱估计；利用幅度谱估计和含噪语音的相位重构出增强语音的时域信号。本发明不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类，与经典的基于平稳性假设的谱估计算法SS和MMSE相比，本发明不再依赖于这种平稳性假设，可以较准确的估计出平稳或突变噪声的频谱。

Description

一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

技术领域

本发明属于语音信号处理领域，尤其涉及一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法。

背景技术

语音增强无论对于提高语音信号的听觉效果，还是作为前端处理提高语音识别器的性能，都具有重要的意义。语音增强实施中的一个关键问题是噪声估计。为了估计噪声的频谱，人们提出了一些经典的算法，如谱减(Spectrum Subtraction,SS)、最小均方误差(Minimum Mean Square Error,MMSE)等，并已经广泛应用在语音通信中。然而，这些方法一般基于噪声的平稳性假设，对于非平稳突变噪声的频谱估计效果很差。

为了估计突变噪声的频谱，近年来基于字典学习的噪声估计模型不断涌现，考虑到功率谱或幅度谱的非负性，非负字典学习成为噪声估计的一种热门方法。然而，非负噪声字典学习一般都需要提供噪声频谱或语音频谱作为先验知识，才能取得较好的效果。如Duan等先利用纯噪声频谱学习出噪声字典，再将此字典用于被该噪声污染的语音信号的增强；Chen等先利用纯语音频谱学习出一个通用的语音字典，再将此字典用于被噪声污染的同类语音信号的增强。

上述两类方法在是否需要事先训练方面的特点为：谱减和最小均方误差算法不需要关于噪声和语音的数据来实施事前训练——即该类方法是无监督的；非负字典学习方法依赖于在噪声或语音数据上的事前的训练——即该类方法是有监督的。

发明内容

本发明实施例的目的在于提供一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法，旨在解决现有的有监督的语音增强算法局限于语音内容所属的语言、受限于说话人的变化受限于噪声的种类的问题。

本发明是这样实现的，一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法是这样实现的：

步骤一、对输入的时域信号y(n)，经过加窗、分帧后，对每帧实施短时傅里叶变换并取模得到该语句的幅度谱Y；

步骤二、利用鲁棒非负矩阵分解模块，估计得到稀疏的语音成分和噪声基矩阵W⁽ⁿ⁾；

步骤三、将加权，与含噪语音幅度谱Y和噪声基矩阵W⁽ⁿ⁾一起输入到分块非负矩阵分解模块中，估计出语音分量W^(s)H^(s)和噪声分量W⁽ⁿ⁾H⁽ⁿ⁾，经过维纳滤波后得到增强语音的估计

步骤四、将鲁棒非负矩阵分解所得到的估计，与来自谱减SS和最小均方误差MMSE的估计，经过几何均值滤波模块融合，得到最终的幅度谱估计；

步骤五、利用所得的幅度谱估计和含噪语音的相位，重构出增强语音的时域信号

进一步，W⁽ⁿ⁾和H⁽ⁿ⁾分别表示噪声的字典矩阵和激活系数矩阵，其中(n)指代的是噪声，S表示含噪语音的幅度谱图Y中去除噪声估计W⁽ⁿ⁾H⁽ⁿ⁾后的残留部分,W⁽ⁿ⁾，H⁽ⁿ⁾和S的更新公式如下：

W⁽ⁿ⁾←W⁽ⁿ⁾□((Y％(W⁽ⁿ⁾H⁽ⁿ⁾+S))*(H⁽ⁿ⁾)^T),

H⁽ⁿ⁾←H⁽ⁿ⁾□((W⁽ⁿ⁾)^T*(Y％(W⁽ⁿ⁾H⁽ⁿ⁾+S))),

S←S□(Y％(W⁽ⁿ⁾H⁽ⁿ⁾+S)),

其中，□和％是指元素相乘和相除。

进一步，对S初始化的方法为：

首先设置S＝0，然后运行W⁽ⁿ⁾和H⁽ⁿ⁾的迭代公式若干次，从而得到W⁽ⁿ⁾和H⁽ⁿ⁾的初始粗略估计，再通过对Y和W⁽ⁿ⁾H⁽ⁿ⁾对应元素的比值施加阈值η，

S＝(Y％(W⁽ⁿ⁾H⁽ⁿ⁾)≥η),

来决定每个时频点取0或1，阈值η的取值大于1。

进一步，所述的阈值η取值为2。

进一步，分块非负矩阵分解模块以含噪语音的幅度谱Y,干净语音幅度谱的初步估计和噪声基矩阵W⁽ⁿ⁾为输入,其最优化模型为：

其目标函数分为两部分的和，第一部分是含噪语音幅度谱Y与其重构W⁽ⁿ⁾H⁽ⁿ⁾+W^(s)H^(s)之间的KL散度；第二部分是以α加权后的干净语音幅度谱的初步估计与其重构W^(s)H^(s)之间的KL散度，W^(s),H^(s)和H⁽ⁿ⁾的迭代公式如下,

H⁽ⁿ⁾←H⁽ⁿ⁾□((W⁽ⁿ⁾)^T*(Y％(WH)),

其中，W:＝[W⁽ⁿ⁾W^(s)]和W^(s)的每一列在每次迭代后被归一化，α取值小于1，最终的幅度谱估计为

进一步，所述的α＝0.1。

进一步，几何均值滤波模块的几何滤波采用：

本发明的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法可以灵活运用于各类语音处理场景的：不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等，与经典的基于平稳性假设的谱估计算法SS和MMSE相比，本发明不再依赖于这种平稳性假设，可以较准确的估计出平稳或突变噪声的频谱。

附图说明

图1是本发明实施例提供的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法流程图；

图2是本发明实施例提供的鲁棒非负矩阵分解在机枪噪声估计的效果示意图(输入信噪比为-5dB)；

图3是本发明实施例提供的鲁棒非负矩阵分解RNMF与经典无监督算法SS和MMSE的效果对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

图1示出了本发明的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法流程，如图所示，本发明是这样实现的，一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法是这样实现的：

S101、对输入的时域信号y(n)，经过加窗、分帧后，对每帧实施短时傅里叶变换并取模得到该语句的幅度谱Y；

S102、利用鲁棒非负矩阵分解模块，估计得到稀疏的语音成分和噪声基矩阵W⁽ⁿ⁾；

S103、将加权，与含噪语音幅度谱Y和噪声基矩阵W⁽ⁿ⁾一起输入到分块非负矩阵分解模块中，估计出语音分量W^(s)H^(s)和噪声分量W⁽ⁿ⁾H⁽ⁿ⁾，经过维纳滤波后得到增强语音的估计

S104、将鲁棒非负矩阵分解所得到的估计，与来自谱减SS和最小均方误差MMSE的估计，经过几何均值滤波模块融合，得到最终的幅度谱估计；

S105、利用所得的幅度谱估计和含噪语音的相位，重构出增强语音的时域信号

W⁽ⁿ⁾←W⁽ⁿ⁾□((Y％(W⁽ⁿ⁾H⁽ⁿ⁾+S))*(H⁽ⁿ⁾)^T),

H⁽ⁿ⁾←H⁽ⁿ⁾□((W⁽ⁿ⁾)^T*(Y％(W⁽ⁿ⁾H⁽ⁿ⁾+S))),

S←S□(Y％(W⁽ⁿ⁾H⁽ⁿ⁾+S)),

其中，□和％是指元素相乘和相除。

进一步，对S初始化的方法为：

S＝(Y％(W⁽ⁿ⁾H⁽ⁿ⁾)≥η),

来决定每个时频点取0或1，阈值η的取值大于1。

进一步，所述的阈值η取值为2。

H⁽ⁿ⁾←H⁽ⁿ⁾□((W⁽ⁿ⁾)^T*(Y％(WH)),

进一步，所述的α＝0.1。

进一步，几何均值滤波模块的几何滤波采用：

本发明实施例用100句含噪语音验证本发明的方法的效果。这些含噪样本从TIMIT的男女说话人中随机选取，在不同信噪比条件下加噪声而成。测试了来自Noizuse-92的15种噪声birds,casino,cicadas,computerkeyboard,eatingchips,f16,factory1,factory2,frogs,jungle,machineguns,motorcycles,ocean,pink,volvo,其中既包含了像f16这样的平稳噪声，也包含了像machinegun和computer keyboard这样的非平稳噪声，以检验算法应对各类噪声的性能。本发明所提出的散度型鲁棒非负矩阵分解在噪声估计上的效果如下图2所示，图中选取了非平稳的机枪噪声作为例子，左上图为含噪语音幅度谱图，右上图为目标函数的收敛性验证，左中图为分解后提取的对应语音的稀疏部分，右中图为估计所得的噪声幅度谱图，左下为干净语音幅度谱图，右下为噪声幅度谱图.对比右中图和右下图，可以看到本发明的方法在噪声估计方面的良好效果。

为了量化的对比所提方法与经典算法的效果，将信噪比以3dB为间隔在-9到3dB之间取值，对每组实验分别计算PESQ分值、“信号失真度”(Signal-to-Distortion Ratio,SDR)和增强信号的信噪比(Signal-to-NoiseRatio,SNR)。这些指标的值越大，说明增强的效果越好.从可以看出，本发明所提出的方法“散度型鲁棒非负矩阵分解”在SDR和SNR指标上改进了经典算法；经过几何均值滤波后，所得增强效果在PESQ、SDR和SNR三个指标上都对经典算法有明显提高.

为了对比所提方法与有监督和半监督方法的效果，选择最新提出的有监督方法IPLCA和半监督方法WHLE作为标尺。对比结果如表1所示，可以看出本发明所提方法虽然没有利用任何先验知识或数据做预先的训练，但在PEDQ分值上可以超过半监督算法WHLE、逼近有监督方法IPLCA；而在SDR指标上，逼近了半监督算法WHLE的性能.

表1 本发明所提方法与最新的有监督方法和半监督方法的效果对比

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法，其特征在于，所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法包括：

步骤一、对输入的时域信号y(n)，经过加窗、分帧后，对每帧实施短时傅里叶变换并取模得到该帧的幅度谱Y；

步骤三、将加权，与含噪语音幅度谱Y和噪声基矩阵W⁽ⁿ⁾一起输入到分块非负矩阵分解模块中，估计出语音分量W^(s)：H^(s)和噪声分量W⁽ⁿ⁾H⁽ⁿ⁾，经过维纳滤波后得到增强语音的估计

W⁽ⁿ⁾和H⁽ⁿ⁾分别表示噪声的字典矩阵和激活系数矩阵，其中(n)指代的是噪声,S表示含噪语音的幅度谱图Y中去除噪声估计W⁽ⁿ⁾H⁽ⁿ⁾后的残留部分,W⁽ⁿ⁾,H⁽ⁿ⁾和S的更新公式如下：

其中，*和％是指元素相乘和相除。

2.如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法，其特征在于，对S初始化的方法为：

首先设置S＝0，然后运行W⁽ⁿ⁾和H⁽ⁿ⁾的迭代公式若干次,从而得到W⁽ⁿ⁾和H⁽ⁿ⁾的初始粗略估计，再通过对Y和W⁽ⁿ⁾H⁽ⁿ⁾对应元素的比值施加阈值η，

S＝(Y％(W⁽ⁿ⁾H⁽ⁿ⁾)≥η)，

来决定每个时频点取0或1，阈值η的取值大于1；

所述的阈值η取值为2。

3.如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法，其特征在于，分块非负矩阵分解模块以含噪语音的幅度谱Y,干净语音幅度谱的初步估计和噪声基矩阵W⁽ⁿ⁾为输入,其最优化模型为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mrow> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> </mrow> </munder> </mtd> <mtd> <mrow> <mi>K</mi> <mi>L</mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>|</mo> <mo>|</mo> <mo>&lsqb;</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>&rsqb;</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mi>K</mi> <mi>L</mi> <mi>D</mi> <mrow> <mo>(</mo> <mover> <mi>S</mi> <mo>^</mo> </mover> <mo>|</mo> <mo>|</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>W</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>r</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munder> <mi>&Sigma;</mi> <mi>f</mi> </munder> <msubsup> <mi>W</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>r</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>&ForAll;</mo> <mi>r</mi> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mrow> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msub> <mover> <mi>S</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>,</mo> </mrow> 1

<mrow> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msub> <mi>Y</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <msub> <mover> <mi>S</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>;</mo> </mrow>

其目标函数分为两部分的和，第一部分是含噪语音幅度谱Y与其重构W⁽ⁿ⁾H⁽ⁿ⁾+W^(s)：H^(s)之间的KL散度，W^(s)：，H^(s)和H⁽ⁿ⁾的迭代公式如下,

其中，W：＝[W⁽ⁿ⁾ W^(s)]和W^(s)：的每一列在每次迭代后被归一化，α取值小于1，最终的幅度谱估计为所述的α＝0.1。

4.如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法，其特征在于，几何均值滤波模块的几何滤波采用：