CN101441872A

CN101441872A - 利用受限非负矩阵分解对声学信号去噪

Info

Publication number: CN101441872A
Application number: CNA2008101748601A
Authority: CN
Inventors: 凯文·W·威尔森; 阿贾伊·迪瓦卡兰; 比克沙·罗摩克里希纳; 帕里斯·斯马拉格迪斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-11-19
Filing date: 2008-11-10
Publication date: 2009-05-27
Anticipated expiration: 2028-11-10
Also published as: EP2061028A2; JP2009128906A; US8015003B2; EP2061028A3; CN101441872B; US20090132245A1

Abstract

本发明涉及利用受限非负矩阵分解对声学信号去噪。一种对混合信号去噪的方法和系统。对所述混合信号应用受限非负矩阵分解(NMF)。NMF受到去噪模型的限制，其中所述去噪模型包括训练声学信号和训练噪声信号二者的训练基矩阵、以及这些训练基矩阵的权重的统计量。所述应用产生了所述混合信号的所述声学信号的基矩阵的权重。求取所述声学信号的所述基矩阵的所述权重与所述训练声学信号和所述训练噪声信号二者的训练基矩阵的乘积以重构所述声学信号。所述混合信号可以是语音和噪声。

Description

利用受限非负矩阵分解对声学信号去噪

技术领域

本发明总体上涉及声学信号处理，更具体地涉及从诸如语音的声学信号中去除附加的噪声。

背景技术

噪声

从诸如语音的声学信号中去除附加的噪声在电话、音频话音记录、以及电子话音通信中有多种应用。噪声广泛存在于城市环境、工厂、飞机、车辆等中。

时变噪声尤其难以去除，该时变噪声更准确地反映了环境中的真实噪声。通常，由使用静态噪声模型的抑制技术不能实现非平稳噪声的消除。诸如谱减法和维纳滤波的常规方法常规地使用静态的或缓慢变化的噪声估计，因此受限于平稳的或准平稳的噪声。

非负矩阵分解

非负矩阵分解(NMF)最优地求解了下式

V≈WH。

常规的NMF定义如下。从非负的M×N矩阵V开始，目标是使得矩阵V近似为两个非负矩阵W和H的乘积。当矩阵V由WH的乘积近似地重构时，误差被最小化。这提供了一种将信号V分解为非负矩阵的凸组合的思路。

当信号V是声谱图并且该矩阵是一组谱形(spectral shape)时，通过将矩阵的不同列与不同的声源关联起来，NMF能够将单通道混合的声音分离，参见Smaragdis等人于2005年10月6日提交的美国专利申请20050222840，“Method and system for separating multiple sound sourcesfrom monophonic input with non-negative matrix factor deconvolution”，通过引用将其合并于此。

当不同声学信号的声谱图足以区分开时，NMF对于将声音分离是有效的。例如，如果诸如笛子的声源仅生成谐音(harmonic sound)，并且诸如小鼓的另一声源仅生成非谐音(non-harmonic sound)，则一个声源的声谱图区别于另一声源的声谱图。

语音

语音包括谐音和非谐音。谐音在不同时间可具有不同的基频。语音可在很宽的频率范围上具有能量。非平稳噪声的频谱可能与语音的频谱类似。因此，在语音去噪应用中，其中一个“声源”是语音而另一个“声源”是附加噪声，语音模型和噪声模型之间的重叠降低了去噪的性能。

因此，期望使得非负矩阵分解适于对具有附加非平稳噪声的语音进行去噪这一问题。

发明内容

本发明的实施方式提供了一种用于对混合的声学信号进行去噪的方法和系统。更具体地说，该方法对语音信号进行去噪。去噪结合了统计语音模型和噪声模型而使用受限非负矩阵分解(NMF)。

附图说明

图1是根据本发明实施方式的对声学信号进行去噪的方法的流程图；

图2是图1的方法的训练阶段的流程图；以及

图3是图1的方法的去噪阶段的流程图。

具体实施方式

图1示出了根据本发明实施方式的对混合的声学信号和噪声信号进行去噪的方法100。该方法包括一次训练200和实时去噪300。

一次训练200的输入包括训练声学信号

101以及训练噪声信号

102。这些训练信号表示要进行去噪的信号的类型，例如，具有非平稳噪声的语音。应当理解的是，通过相应地改变训练信号，该方法适于对例如音乐的其他类型的声学信号进行去噪。训练的输出是去噪模型103。该模型可以存储在存储器中以供将来使用。

实时去噪的输入包括模型103和混合信号(V_mix)104，该混合信号例如是语音和非平稳噪声。去噪的输出是对混合信号的声学(语音)部分105的估计。

在一次训练期间，非负矩阵分解(NMF)210独立地应用于声学信号101和噪声信号102以产生模型103。

针对声学信号和语音信号，NMF 210分别独立地产生训练基矩阵(W^T)211-212和这些训练基矩阵的权重(H^T)213-214。确定权重213-214的统计量221-222，即均值和方差。训练语音信号和训练噪声信号的训练基矩阵211-212、均值和方差221-222形成去噪模型103。

在实时去噪期间，将根据本发明实施方式的受限非负矩阵分解(CNMF)应用于混合信号(V_mix)104。CNMF受到模型103的限制。具体地说，CNMF假设在训练期间获得的先验训练矩阵211精确地表示混合信号104的声学部分的分布。因此，在CNMF期间，基矩阵固定地是训练基矩阵211，并且在CNMF 310期间根据模型的先验统计量(均值和方差)221-222而最优地确定固定训练基矩阵211的权重(H_all)302。随后，通过求取最优权重302和先验基矩阵211的乘积可以重构输出语音信号105。

训练

在图2所示的训练200期间，我们得到大小为n_f×n_st的语音声谱图V_speech 101，以及大小为n_f×n_nt的噪声声谱图V_noise 102，其中n_f是频率单元(frequency bin)的数量，n_st是语音帧的数量，并且n_nt是噪声帧的数量。

如现有技术中所公知的，此处描述的声谱图形式的所有信号被数字化并被采样为多个帧。当我们提及声学信号时，具体是指已知的或可识别的音频信号，例如语音或音乐。对于本发明的目的，并不认为随机噪声是可识别的声学信号。混合信号104将声学信号与噪声合并。本发明的目的是去除这些噪声，使得仅保留可识别的声学部分105。

不同的目标函数得到不同形式的NMF。例如，矩阵V和WH之间Kullback-Leibler(KL)散度(记为D(V‖WH))对于声源分离很有效，参见Smaragdis等人的文献。因此，在我们的去噪发明的实施方式中，我们优先使用KL散度。推广到使用这些技术的其他目标函数是显而易见的，参见以下文献，即A.Cichocki、R.Zdunek以及S.Amari等人的“Newalgorithms for non-negative matrix factorization in applications to blindsource separation”，IEEE International Conference on Acoustics，Speech，andSignal Processing，2006，vol.5，pp.621-625，通过引用将其合并于此。

在训练期间，我们对语音声谱图101和噪声声谱图102分别应用NMF210以生成各自的基矩阵

和

以及各自的权重

和

我们分别使

和

最小化。矩阵W_speech和W_noise的大小均为n_f×n_b，其中n_b是代表每个源的基函数的数量。权重矩阵H_speech和H_noise的大小分别是n_b×n_st和n_b×n_nt，并代表训练基矩阵的时变激活(activation)水平。

我们根据经验来确定(220)权重矩阵

和的对数值的均值和方差统计量。具体地说，我们确定语音权重的均值μ_speech和方差Λ_speech221，以及噪声权重的均值μ_noise和方差Λ_noisew222。每个均值μ是长度为n_b的向量，并且每个方差Λ是n_b×n_b矩阵。

为了计算方便，我们选择隐含高斯表示。对数域比线性域产生更好的结果。这与线性域中的高斯表达既允许正值又允许负值是一致的，既允许正值又允许负值与对矩阵H的非负限制不一致。

我们将两组基矩阵211和213连接以形成大小为n_f×2n_b的矩阵W_all215。该组连接的基矩阵用于表示包含混合了语音和独立噪声的信号。我们还将统计量连接为μ_all＝[μ_speech；μ_noise]和Λ_all＝[Λ_speech0；0Λ_noise]。连接的基矩阵211和213以及连接的统计量221-222形成我们的去噪模型103。

去噪

在图3所示的实时去噪期间，基于矩阵精确地表示我们想要处理的语音和噪声的类型这一假设，我们使模型103的连接矩阵W_all215保持固定。

目标函数

我们的目的是确定使得下式最小化的最优权重H_all302

D_{reg} (V | | WH) = \underset{ik}{Σ} (V_{ik} \log \frac{V_{ik}}{{(WH)}_{ik}} + V_{ik} - {(WH)}_{ik}) - αL (H) - - - (1)

L (H_{all}) = - \frac{1}{2} \underset{k}{Σ} {{(\log H_{{all}_{ik}} - μ_{all})}^{T} Λ_{all}^{- 1} (\log H_{{all}_{ik}} - μ_{all}) - \log [{(2 π)}^{2 n_{b}} | Λ |]} - - - (2),

其中D_reg是正则化的KL散度目标函数，i是频率的索引，k是时间的索引，并且α是用于控制似然函数L(H)对整体目标函数D_reg的影响的可调节参数。当α为0时，式(1)等于KL散度目标函数。对于非零的α，存在与logH的联合高斯模型下的负log似然度成比例的附加的惩罚。该项使得所得到的矩阵H_all与在训练期间根据经验确定的矩阵H_speech和H_noise的统计量221-222相一致。变化的α使得我们能够控制在符合(fit)整体(观察到的混合的语音)与匹配“部分”的期望的统计量(语音和噪声统计量)之间的权衡，并实现该模型下的高似然度。

根据Cichocki等人的文献，权重矩阵H_all的乘法更新规则是

= - \frac{{(Λ_{all}^{- 1} \log H_{all})}_{αμ}}{H_{{all}_{αμ}}} - - - (3),

其中

表示用ε替换比一个小的正常数ε更小的括号内的任何值，以防止违反非负约束并避免除数是零。

我们使用训练基矩阵211和矩阵H_all的前n_b行，将去噪后的声谱图(例如干净语音105)重构(320)为

{\hat{V}}_{speech} = W_{speech} H_{all (1 : nb)} .

发明效果

根据本发明的实施方式的方法能够对存在非平稳噪声的语音进行去噪。与常规的利用平稳噪声模型进行去噪的维纳滤波相比，本发明的结果在大范围的噪声类型上显示出优越的性能。

尽管以优选实施方式为例描述了本发明，但应当理解的是，在本发明的精神和范围内可以做出各种其他的改变和修改。因此，所附权利要求的目的是涵盖落入本发明的真实精神和范围内的所有这种变型和修改。