CN1390348A

CN1390348A - 噪声抑制器

Info

Publication number: CN1390348A
Application number: CN00815729A
Authority: CN
Inventors: B·阿亚德
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1999-11-15
Filing date: 2000-11-14
Publication date: 2003-01-08
Anticipated expiration: 2020-11-14
Also published as: AU1527301A; WO2001037254A3; JP2003514264A; DE60026570T2; EP1242992A2; CN1161752C; FI19992453A; EP1242992B1; DE60026570T3; US7889874B1; DE60026570D1; WO2001037254A2; EP1242992B2

Abstract

一种抑制包含语音和噪声的信号中的噪声、以便提供噪声被抑制的语音信号的方法。对于噪声进行估值和对于语音连同某些噪声进行估值。被包括在语音连同某些噪声的估值中的噪声电平是可变的,以便把想要的噪声量包括在噪声被抑制的信号中。

Description

噪声抑制器

本发明涉及噪声抑制，以及具体地(但不唯一地)涉及对移动终端获取的语音信号中的噪声抑制。

当通信终端被使用来记录或发送包含语言的语音信号时，不可避免的是，通信终端中的话筒将从讲话人所位于的周围环境中拾取环境噪声或背景噪声。背景噪声降低收听者听见和理解语音的能力，以及在某些情形下，如果噪声电平足够高，它将阻止收听者听见除了背景噪声以外的任何其它声音。另外，这样的背景噪声对于通信终端中或相关的通信网络中的数字信号处理系统(诸如语音编码或语音识别)的性能可能具有负面影响。典型地，在通信终端中引入噪声抑制系统来限制背景噪声的影响。

多年来，噪声抑制是熟知的。已经提出了许多不同的方法来达到三个主要目的：

(i)抑制噪声而同时保留良好的语音质量；

(ii)与处理的噪声性质无关地快速收敛到最优解决方案；以及

(iii)改进对于非常低的语音-噪声比(SNR)时语音的可理解度。

一种基于线性最小平均平方误差(MMSE)准则的噪声抑制方法将参照图1进行描述。该方法作用在包含语音信号s(t)和噪声信号n(t)的带有噪声的语音信号x(t)上，x(t)＝s(t)+n(t)。带有噪声的语音信号x(t)是在时域中的。通过使用窗函数，把它变换成具有接连的帧号码k的一系列帧。然后，在方块10中，通过使用快速富立叶变换(FFT)把每个帧变换到频域，以便产生一系列带有噪声的语音帧，其中在频域中带有噪声的语音信号X(f，k)包含语音信号S(f，k)和噪声信号N(f，k)，这样，X(f，k)＝S(f，k)+N(f，k)。在频域中的帧包括多个频率仓(frequency bin)f。在频域中，MMSE方法包括使得以下的误差函数最小化：

ε²(f，k)＝E{(S(f，k)-(f，k))·(S(f，k)-(f，k)^*} (1)

其中E{·}是预期算子，(*)表示复数共轭，以及(f，k)代表输入语音信号的线性估值。误差ε²(f，k)，由公式1定义，代表在被包含在带有噪声的语音信号内的真正的语音分量与该语音分量的估值(f，k)(即，无噪声的语音分量)之间差值的平方。因此，使得ε²(f，k)最小化，就等价于得到语音分量的最好的可能的估值。(f，k)被给出为：

(f，k)＝G(f，k)·X(f，k) (2)

其中G(f，k)是增益系数。对于使得每个帧的ε²(f，k)最小化的相应的解，可以采取计算增益系数G(f，k)的形式，把G(f，k)与该帧的相关的输入频率仓相乘，以便产生估值的无噪声语音分量(f，k)。这个增益系数(被称为频域Wiener(维纳)滤波器)由以下的比值给出：

G (f, k) = \frac{E {S (f, k) \cdot X^{*} (f, k)}}{E {X (f, k) \cdot X^{*} (f, k)}} - - - (3)

Wiener滤波器G(f，k)是对于每个帧的每个频率仓f生成的。

噪声被抑制的帧然后在方块14中被变换回时域，然后被组合在一起，以便给出噪声被抑制的语音信号(t)。理想地，(t)＝s(t)。

当导出Wiener滤波器时，MMSE方法等价于正交性原理。这个原理规定：对于每个频率，输入信号X(f，k)正交于误差S(f，k)-(f，k)。这意味着：

E{(S(f，k)-(f，k))·X^*(f，k)}＝0 (4)

因为估值处理是线性的，通过估值带有噪声的信号(它包含信号分量和噪声分量)的信号分量，噪声的估值

(f，k)也被有效地得到。而且，以下的正交性关系也将是正确的：

E {(N (f, k) - \hat{N} (f, k)) \cdot X^{*} (f, k)} = 0 - - - (5)

其中

(f，k)表示噪声估值。由此也得出，对于每个频率，有以下的等式：

S (f, k) - \hat{S} (f, k) = \hat{N} (f, k) - N (f, k) - - - (6)

也就是，与噪声分量的估值 (f，k)有关的误差是和与估值的无噪声语音分量(f，k)有关的误差相同的。

在本文件的其余部分，采用以下的表示法：P_UV(f，k)是在U(f，k)和V(f，k)之间的交叉功率谱密度(P_UV(f，k)＝E{U(f，k)·V^*(f，k)})。P_UU(f，k)是U(f，k) 的功率谱密度(psd)，(P_UU(f，k)＝E{U(f，k)·U^*(f，k)})。

由于上述的正交性原理的结果，有可能得出对于交叉psd P_SX(f，k)的表示式，它是对于计算由公式3描述的Wiener滤波器所需要的：

P_{SX} (f, k) = E {(X (f, k) - \hat{N} (f, k)) \cdot X^{*} (f, k)} - - - (7)

而且，交叉psd P_NX(f，k)被给出为：

P_NX(f，k)＝E{(X(f，k)-(f，k))·X^*(f，k)} (8)

在记住明显的等式P_XX(f，k)＝P_SX(f，k)+P_NX(f，k)后，公式3，6，7和8引出和显示自适应计算的概念，因为公式3中的Wiener滤波器(P_SX(f，k)/P_XX(f，k))取决于估值的信号(f，k)(6，7)和(8)。

当得到最小值时，描述公式2中的误差的表示式取以下的形式：

ϵ_{\min}^{2} (f, k) = \frac{P_{SS} (f, k) \cdot P_{XX} (f, k) - | P_{SX} (f, k) |^{2}}{P_{XX} (f, k)} - - - (9)

显然，最小误差(即ε_min ²(f，k))只有在想要的信号S(f，k)完全与输入信号X(f，k)相干时才等于零(即，P_NN(f，k)趋近于零)。这是希望的。否则，当应用Wiener滤波器时有一个误差。这个误差的上限是P_SS(f，k)。这是不希望的。换句话说，无误差结果只有在输入信号X(f，k)中实际上无噪声时才得到。对于任何有限的噪声电平，得到有限的误差。由此得出，当在X(f，k)中没有语音信号S(f，k)时出现最坏情形的误差。

按照本发明的第一方面，提供一种在包含噪声的信号中抑制噪声以便提供噪声被抑制的信号的方法，其中对噪声作出估值，以及对语音连同某些噪声一起作出估值。

优选地，所述信号包括语音。

优选地，在语音连同某些噪声一起的估值中包括的噪声电平是可变的，以便把想要的噪声量包括在噪声被抑制的信号中。

噪声电平提供可接受的前后关系信息(contexti nformation)。

优选地，噪声电平低于语音的掩蔽极限，因此对于收听者是听不见的。替换地，噪声电平接近于语音的掩蔽极限，因此某些噪声前后关系信息被保留在信号中。

优选地，如果信号噪声比足够高，以使得噪声电平已提供可接受的前后关系信息电平或已低于掩蔽极限，则本方法并不抑制噪声。

优选地，估值的噪声是功率谱密度。

按照本发明的第二方面，提供一种生成用于噪声抑制的增益系数的方法，其中增益系数的第一估值自适应地产生，以及这个第一估值被使用来生成噪声估值，然后使用该噪声估值来生成增益函数的第二估值。

在这个方面，本发明提供了重要的优点。它有效地消除在按照本发明实施的噪声抑制器中对于话音活动性检测器(VAD)的需要。VAD基本上是一个能量检测器。它接收带有噪声的信号，把已滤波的信号的能量与预定的门限值进行比较，以及当门限值被超过时它表示在接收信号中存在语音。在许多语音编码/译码系统中，特别是在移动电信领域，VAD的运行可以改变处理语音信号中的背景噪声的方式。具体地，在没有检测到语音的时间间隔期间内，可以切断传输，以及在接收端生成所谓“悦耳的噪声”。因此，这种间断发送和话音活动性检测方案的使用使得噪声抑制的使用复杂化，导致不想要的效果。因此，消除对于话音活动检测器的需要和创建自动地适应于噪声条件改变的噪声抑制方案是高度希望的。因为本发明引入了一种其中获得语音和背景噪声的估值的噪声抑制方法，所以它实际上不需要判决：输入信号究竟包含语音和噪声还是只包含噪声。结果，VAD功能成为冗余的。

优选地，第一估值被使用来更新估值的噪声。

按照本发明的另一个方面，提供了按照本发明的第一方面运行的噪声抑制器、按照本发明的第二方面运行的噪声抑制器、按照本发明的第一和第二方面运行的噪声抑制器、包括按照本发明的第一和/或第二方面的噪声抑制器的无线终端、以及包括按照本发明的第一和/或第二方面的噪声抑制器的通信网。

优选地，通信终端是移动的。替换地，本发明可以在网络或固定的通信终端中使用。

按照本发明的另一个方面，提供了计算Wiener滤波器的方法，其中对语音和背景噪声作出估值，以及噪声远低于语音，以使得它整个地或部分地被掩盖成低于用户可听见的电平或可被觉察到。

优选地，该方法被用于频域中的噪声抑制。本方法可包括计算要被使用于噪声减小系统的Wiener滤波器的分子和分母。本说明书描述的噪声抑制系统特别适合于应用在包含单个传感器(例如话筒)的系统中。

优选地，滤波器是Wiener滤波器。优选地，它建立在包括语音和噪声的组合的周期曲线图的估值的基础上。优选地，本方法涉及连续更新噪声psd。

现在将参照附图仅仅作为例子来描述本发明的实施例，其中：

图1显示按照本发明的移动终端；

图2显示按照本发明的噪声抑制器；

图3显示人的听觉系统的依赖于频率和声级的掩蔽效果；

图4显示按照本发明的算法的方框图；以及

图5显示按照本发明的算法的功能性方框图。

在下面，符号P总的代表功率。在带撇的场合，即P′，它代表周期曲线；在不带撇的场合，即P，它代表功率谱密度(psd)。按照它们总的可接受的意义，术语“周期曲线”被使用来表示在短的时间间隔上计算的平均值，以及术语功率谱密度被使用来代表较长的时段的平均。

现在参照图1描述包括按照本发明的教导的噪声抑制器20的移动终端10的实施例。图1相应于按照现有技术的移动终端的安排，虽然这样的现有技术终端包括传统的现有技术噪声抑制器。移动终端和与其通信的无线通信系统按照全球移动电信系统(GSM)标准运行。

移动终端10包括发送(语音编码)支路12和接收(语音译码)支路14。在发送(语音编码)支路12，语音信号由话筒16拾取和由模拟-数字(A/D)变换器18采样，以及在噪声抑制器20中被进行噪声抑制，以便产生增强的信号。这需要估值背景噪声的频谱，以使得在采样的信号中的背景噪声可被抑制。典型的噪声抑制器在频域中运行。时域信号首先被变换成频域，这可以通过使用快速富立叶变换(FFT)有效地实现。在频域中，把话音活动性与背景噪声区分开，当没有话音活动性时，背景噪声的频谱被估值。然后，根据当前输入信号的频谱和背景噪声估值来计算噪声抑制增益系数。最后，通过使用逆FFT(IFFT)把信号变换回时域。

增强的(噪声被抑制的)信号被语音编码器22编码，以便提取一组语音参量，后者然后在信道编码器24中被编码，其中把冗余性添加到编码的语音信号中，以便提供某种程度的错误防护。最终得到的信号然后被上变频成射频(RF)信号，以及由发射/接收单元26发送。发射/接收单元26包括被连接到天线的双工滤波器(未示出)，以使得能够进行发送和接收。

在已公布的文件WO 97/22116中描述了适合于在图1的移动终端中使用的噪声抑制器。

为了延长电池寿命，在移动电信系统中典型地应用不同种类的、依赖于输入信号的低功率运行模式。这些安排通常被称为间断发送(DTX)。DTX的基本思想是在非语音时间间隔内断开语音编码/译码过程。典型地，产生某种悦耳的噪声信号，它仿造在发射端处的背景噪声，以作为对于实际的背景噪声的替代。

语音编码器22被连接到发送(TX)DTX处理器28。TX DTX处理器28从话音活动性检测器(VAD)30接收一个输入，它表示在作为噪声抑制器块20的输出而被提供的噪声抑制信号中是否有话音分量。如果在信号中检测到语音，则它的发送继续进行。如果没有检测到语音，则噪声抑制的信号的发送被停止，直至检测到语音为止。

在移动终端的接收(语音译码)支路14，RF信号被发射/接收单元26接收，以及从RF被下变频到基带信号。基带信号被信道译码器32进行信道译码。如果信道译码器在已信道译码的信号中检测到语音，则信号被语音译码器34进行语音译码。

移动终端也包括坏帧处理单元38以便来处理坏的(即弄乱的)帧。

由语音译码器产生的信号，不管是译码的语音、悦耳的噪声还是重复的和衰减的帧，都将由数字模拟变换器40从数字形式变换成模拟形式，然后通过扬声器或耳机42播放给收听者。

图2上显示噪声抑制器20的进一步的细节。它包括快速富立叶变换、增益系数或Wiener滤波器计算块、以及逆快速富立叶变换。噪声抑制是通过把帧与增益系数/Wiener滤波器相乘而在频域上执行的。

现在描述噪声抑制器20的运行。按照本发明，不是试图去估值在带有噪声的语音信号中的“真正的”语音分量S(f，k)，而是使用Wiener滤波器按照关系式S(f，k)+ξ.N(f，k)来估值语音与一定量的噪声的组合。这样建立的、修正的Wiener滤波器取以下形式：

G (f, k) = \frac{P_{(S + ξ \cdot N) X} (f, k)}{P_{XX} (f, k)}

= \frac{P_{SX} (f, k) + ξ \cdot P_{NX} (f, k)}{P_{SX} (f, k) + P_{NX} (f, k)} - - - (10)

假设语音和噪声分量是不相关的(也就是，在语音与噪声分量之间的交叉的psd必须等于零，P_SN(f，k)＝0)，公式10可被重新表示为以下形式：

G (f, k) = \frac{P_{SS} (f, k) + ξ \cdot P_{NN} (f, k)}{P_{SS} (f, k) + P_{NN} (f, k)} - - - (11)

下面说明因子ξ的作用。

如前所述，估值语音与一定量的噪声的组合的主要优点在于，应当具有较小的、与估值有关的误差。这个好处结合下面给出的公式12可变得更明显，这个公式规定在这种情形下得到的最小误差：

ϵ_{\min}^{2} (f, k) = {(1 - ξ)}^{2} \cdot \frac{P_{SS} (f, k) \cdot P_{NN} (f, k)}{P_{SS} (f, k) + P_{NN} (f, k)} - - - (12)

现在可以明白，当P_NN(f，k)趋向于零时，公式12趋向于零，这样，误差趋向于零，正如现有技术的情形那样。与现有技术一样，这是所希望的。然而，因为公式12包括(1-ξ)²的因子，它比起现有技术的情形更快速地达到零。另一方面，当P_NN(f，k)增加时，ε² _min趋向于(1一ξ)²·P_SS(f，k)。与现有技术一样，这是不希望的。然而，按照本发明的方法给出的误差总是小于先前所述的现有技术方法给出的误差。得出这个优点因为相乘因子(1-ξ)²总是用来减小误差量。而且，通过设置ξ为适当的数值，因子(1-ξ)²可被最小化，在这种情形下，误差被进一步最小化。

在本发明中，已经认识到：ξ的数值可被确定，以达到以下的结果：

1.给出乘积ξ·P_NN(f，k)的数值，它是被P_SS(f，k)“掩蔽的”。虽然计算出了组合的语音和噪声的估值，但收听者将只听见语音，因为乘积ξ·P_NN(f，k)低于他的听觉的可听见电平。这样，利用人的听觉系统的性质，允许连同被掩蔽的噪声周期曲线的最大值一起计算语音的周期曲线。可以把正好用来达到这个结果的ξ称为ξ₁。

“掩蔽”效果是人的听觉系统的一个性质，这有效地设置一个取决于频率和取决于声级的听觉下限或门限值。因此，低于掩蔽门限值的任何噪声或语音分量都不被收听者觉察(听见)。通常可接受的是，不管频率如何，掩蔽门限值比当前的输入电平低约13dB。图3上显示了这一点。按照本发明，为了估值纯语音信号(即，当尝试消除所有的背景噪声时)，把纯语音信号连同刚好低于掩蔽门限值的那部分噪声合起来进行估值是足够的。

2.允许自由选择输出端处噪声减小的电平。这可被使用来为远端收听者恢复信号的近端前后关系。可以把正好用来达到这个结果的ξ称为ξ₂。这意味着，可以这样选择ξ，以使得确保适当的噪声抑制，但也许可在接收端处在信号中保持一定的噪声分量，从而使背景噪声呈现为自然地代表在发射端的环境中存在的背景噪声。换句话说，有可能选择ξ的数值，以使得带有噪声的语音信号中的噪声分量由于掩蔽效果而不会完全被消除。

在实际情形中，语音信号是非稳态的，所以需要短期的估值。因此，不是使用psd函数，如公式11所示，而是由周期曲线来代替某些项。噪声也可能是非稳态的，但通常认为是稳态的，所以仍旧可以使用长期估值。因此，想要的Wiener滤波器的形式为：

G (f, k) = \frac{P_{SS}^{'} (f, k) + ξ \cdot P_{NN}^{'} (f, k)}{P_{SS}^{'} (f, k) + P_{NN} (f, k)} - - - (13)

应当指出，在公式13的分母中也有可能使用背景噪声功率谱密度项PNN。也应当看到，当在以上的公式13中使用ξ＝ξ₁时，项P′_SS(f，k)+ξ₁·P′_NN(f，k)代表语音周期曲线和掩蔽的噪声周期曲线的组合，以及当使用ξ＝ξ₂时，项P′_SS(f，k)+ξ₂·P′_NN(f，k)代表语音周期曲线和许可的噪声周期曲线的组合。分母P′_SS(f，k)+P_NN(f，k)分别包括语音周期曲线和噪声pnd。

对当前帧k的Wiener滤波器的计算是如下地根据先前的帧k-1来进行的。噪声psdP_NN(f，k-1)、语音周期曲线P′_SS(f，k-1)、和用于先前的帧的时间平均的帧的数目T(f，k-1)都是已知的。对于当前的帧k，输入语音和噪声周期曲线的组合|X(f，k)|²也是已知的。如果利用平方根或对数量度，则可以不使用P_NN(f，k-1)，而使用R_NN(f，k-1)或L_NN(f，k-1)，正如在本说明中后面描述的。

下面使用一种8步骤算法来计算Wiener滤波器。8步骤被显示于图4，以及被描述如下：

步骤1：估算语音和噪声周期曲线的组合 P’_SS(f，k)

这个周期曲线被如下地计算：

P’_SS(f，k)＝α·P′_SS(f，k-1)+(1-α)·|X(f，k)|² (14)

应当指出， P’_SS(f，k)是根据先前的语音周期曲线P′_SS(f，k-1)以及当前的带有噪声的语音信号量|X(f，k)|²，它是由因子α确定的。α的数值被选择为从带有噪声的语音信号|X(f，k)|²的当前的语音分量|S(f，k)|²中提供最大可能的贡献，但它被限于确保因子(1-α)·|N(f，k)|²(该因子代表将被包括在内的当前的噪声信号量)被和值α·P′_SS(f，k-1)+(1-α)·|S(f，k)|²掩蔽，该和值代表当前的语音周期曲线的估值。所以，应当看到，对于每个帧k的每个频率仓f必须重新计算遗忘因子α。也应当指出，在公式14中提到的因子(1-α)类似于ξ₁。

实际上，步骤1是通过使用频谱相减方法首先估值当前的语音周期曲线而实施的，该频谱相减方法是在“Suppression of AcousticNoise in Speech Using Spectral Subtraction(使用频谱相减抑制语音中的声音噪声)”，IEEE Trans.On Acoustics Speech andSignal Processing，vol.27，No.2，pp.113-120，April 1979中描述的。然后，掩蔽电平被设置为低于被估值的语音周期曲线值约13dB的数值。噪声周期曲线与语音周期曲线相同的方式被估值。α的数值然后通过使用掩蔽、噪声周期曲线和输入周期曲线而被计算。

步骤2：估值语音和噪声的组合psd P_XX(f，k)

这个psd代表输入的总功率，以及被如下地估值：

{\overset{&OverBar;}{P}}_{XX} (f, k) = α \cdot [P_{SS}^{'} (f, k - 1) + \frac{λ}{α} P_{NN} (f, k - 1)] + (1 - α) \cdot | X (f, k) |^{2} - - - (15)

这个psd组合了短期平均值(对于语音的周期曲线)和长期平均值(对于噪声的psd)。

步骤3：对Wiener滤波器的估值

公式11的Wiener滤波器可被重写为以下的形式：

G_{1} (f, k) = \frac{{\overset{&OverBar;}{P}}_{SS}^{'} (f, k)}{{\overset{&OverBar;}{P}}_{XX} (f, k)} - - - (16)

因此可以根据公式14和15的结果进行计算。因为₁(f，k)＝G₁(f，k)·X(f，k)，应当看到，估值的语音(f)包含语音和掩蔽的噪声部分。增益G₁(f，k)的最小值被设置为(1-α)。

步骤4：对噪声psd P_NN(f，k)的更新

为了更新噪声psd，使用在公式8中给出的理论结果，在必要时，用乘积(1-G₁(f，k))·|X(f，k)|²替换乘积(X(f，k)-(f，k))·X^*(f，k)。可以使用以下的三种方法：

(i)功率psd估值；

(ii)平方根psd估值；以及

(iii)对数psd估值。

在下面描述的所有的方法中，λ代表在0与1之间的遗忘因子。

(i)功率psd估值

这个方法使用正交性原理，以及它是基于Welch方法的，Welch方法被描述在“The Use of Fast Fourier Transform for theEstimation of Power Spectra：A Method Based on Time AveragingOver Short，Modified Periodograms(用于功率谱估值的快速富立叶变换的使用：基于修正的短周期曲线的时间平均的方法)”，IEEETrans.On Audio and Electroacoustics，vol.Au-15，No.2，pp.70-72，June 1967中。它使用按照下式的、被称为“指数时间平均”的技术：

P_NN(f，k)＝λ·P_NN(f，k-1)+(1-λ)·(1-G₁(f，k))·|X(f，k)|² (17)

其中G₁(f，k)是按照公式16计算的Wiener滤波器。

(ii)平方根psd估值

这个方法使用Welch方法的修正形式，以及它是基于幅度平均的：

R_NN(f，k)代表平均噪声幅度。

(iii)对数psd估值

这个方法使用对数域中的时间平均：

L_NN(f，k)是指对数功率域中的平均值。γ是欧拉常数，以及具有0.5772156649的数值。

在上述的三个方法的每个方法中，遗忘因子在更新噪声时起重要的作用，以及被加以定义以便在噪声幅度快速地变化时提供良好的psd估值。这是通过把λ与当前的输入周期曲线|X(f，k)|²与先前的帧中的噪声psd P_NN(f，k-1)之间的差值相联系而完成的。λ取决于数值T(f，k)，该数值规定对于时间平均所使用的帧的数目，以及被如下地确定：

以及λ可以如下地根据T(f，k)被得出：

λ = \frac{T (f, k)}{T (f, k) + 1} - - - (21)

应当指出，对于每个帧k和每个频率仓f，必须重新计算遗忘因子。显然，由于λ是步骤2中所需要的，它必须被计算以使得它对于该步骤是可供使用的。也应当看到，因为噪声psd连续地被更新，这就消除了噪声抑制器20中对话音活动性检测器的需求。

步骤5：对当前的语音周期曲线P′_SS(f，k)的估值

当前的语音周期曲线P′_SS(f，k)在算法中起重要的作用。对于当前的帧来估值这个P′_SS(f，k)，以使得它可被使用于下一个帧，也就是在公式14和15中被使用。如下所述，P′_SS(f，k)只应当包含语音，而不应当包含任何噪声。

实际上，在步骤3得出语音幅度估值(f，k)后，这个步骤需要P′_SS(f，k)的估值，它代表当前的语音周期曲线。

广泛地可被接受的是，P′_SS(f，k)可以简单地用平方估值的语音幅度代替，也就是：P′_SS(f，k)等于|S(f，k)|²的估值|(f，k)|²。不幸地，良好的估值(f，k)实际上并不意味着：对于|S(f，k)|²的良好的估值可以通过只取平方而得出。因此，按照本发明的方法寻求通过应用MMSE准则得出|S(f，k)|²|的更精确的估值P′_SS(f，k)。

通过考查组合的语音和噪声周期曲线，可以看到：

Y(f，k)＝|X(f，k)|²＝|S(f，k)|²+|N(f，k)|²+S^*(f，k)·N(f，k)+S(f，k)·N^*(f，k).

因此，|S(f，k)|²的良好的估值可以通过使得以下的误差(MMSE准则)最小化而得出：

X²(f，k)＝E{||S(f，k)|²-H(f，k)·Y(f，k)|²} (22)

其中H(f，k)·|X(f，k)|²代表语音周期曲线|S(f，k)|²的估值。

方程22的直接解需要高阶方程的解，但这个解可以通过假设语音和噪声是高斯过程并与零均值是非相关的而被简化，从而给出相应的高阶Wiener滤波器H(f，k)的近似值。在这个方法中使用的近似在下面公式23中呈现。(应当看到，在这一个阶段可以使用不同的近似而不背离本发明的原理的基本特性)。

H (f, k) = \frac{3 \cdot SNR (f, k) \cdot SNR (f, k) + SNR (f, k)}{3 \cdot SNR (f, k) \cdot SNR (f, k) + 6 \cdot SNR (f, k) + 3} - - - (23)

这里，SNR(f，k)是指信号噪声比，以及被如下地计算：

SNR (f, k) = \frac{G_{1} (f, k)}{1 - G_{1} (f, k)} - - - (24)

公式24是关联着Wiener滤波器和信号噪声比的已知函数的倒数。(Wiener＝SNR/(SNR+1))

因此，语音周期曲线被如下地计算：

P′_SS(f，k)＝H(f，k)·|X(f，k)|² (25)

步骤6：放大函数

在高的SNR条件下，当带有噪声的输入信号的语音分量比起噪声分量很大时，估值的Wiener滤波器G₁(f，k)趋向于1。而且，当语音对噪声的比值很高时，G₁(f，k)可被相当精确地估值。因此，可以具有良好的确信度：在步骤3确定的Wiener滤波器能提供最佳滤波，以及给出一个包含带有残余的(掩蔽的)噪声量的高度精确的语音估值₁(f)的输出。在这种情形下，当滤波器的增益接近于1时，提供小量的放大以使得增益仍旧接近于1是有利的。然而，附加的放大也应当被加以限制，以便确保Wiener滤波器增益在任何情形下不超过1。

另一方面，在其中带有噪声的输入信号中的语音分量小于噪声分量的情形下，相反的结果是正确的。Wiener滤波器增益是小的，并且很可能不会像在高SNR的条件下那样被精确地确定。在这种情形下，放大Wiener滤波器输出值并不是有利的，因而估值的Wiener滤波器应当保持为在步骤3中原先估值的形式。

考虑到在不同的SNR条件下存在的这两个相反的需要，步骤3中确定的Wiener滤波器按照下式被更新：

G_{a} (f, k) = G_{1} {(f, k)}^{Min [Kb (f), 1 - G_{1} (f, k)]} - - - (26)

从而，产生出在估值该最后输出时要被使用的Wiener滤波器G_a(f，k)。G_a(f，k)是G₁(f，k)的函数。

公式26利用这一事实：诸如y＝x^1-x(x＞0)的函数在x小于1时提供放大。所以，它满足在良好的SNR条件下提供更大的放大和在低的SNR的条件下提供低的放大的需要。

变量Kb(f)可以取0与1之间的数值，并且该变量是被包括在公式26中的指数中，以便使得能够使用对于不同的频带f的不同的(例如预定的)放大值，如果需要的话。

步骤7：选择噪声减小程度

在这个步骤中，选择想要的噪声减小程度。对于公式11中给定的Wiener滤波器，相应的理想的时间输出具有(t)＝s(t)+ξ·n(t)的形式。回忆带有噪声的输入信号具有x(t)＝s(t)+n(t)的形式，由滤波器提供的噪声减小理论上约为20·log[ξ]dB。通过考虑输入信号的噪声电平与输出信号(即在噪声抑制后获得的信号)的噪声电平的比值，这个结果可被证明是正确的。这个比值就是ξ·n(t)/n(t)，当以分贝形式的功率比值来表示时，它等于20·log[ξ]。因此，因子0＜ξ＜1对应于由滤波器引入的噪声减小。

选择想要的噪声减小程度和确定对于达到该噪声减小所必须的ξ的数值(例如，对于-12dB噪声减小，ξ＝0.25)后，确定因子η以使得：

G_{1} (f, k) + η \cdot (1 - G_{1} (f, k)) &DoubleLeftRightArrow; \frac{P_{s} (f, k) + ξ \cdot P_{n} (f, k)}{P_{s} (f, k) + P_{n} (f, k)} . - - - (27)

公式27给出一种把被最佳化成能够提供只包含掩蔽的噪声的输出的Wiener滤波器与能提供包含一定量的许可噪声的输出的Wiener滤波器相关联的方法。按照步骤1-3，Wiener滤波器G₁(f，k)被构建为可提供带有噪声的语音信号的语音分量加上可被该语音分量有效地掩蔽的噪声量的估值。因此，在那些在输出中一定量的噪声是被许可(想要)的条件下，Wiener滤波器必须随之被修正。在公式27中，G₁(f，k)代表在步骤3Wiener滤波器被最佳化，以便提供包含被语音掩蔽的噪声的输出。项

\frac{P_{s} (f, k) + ξ \cdot P_{n} (f, k)}{P_{s} (f, k) + P_{n} (f, k)}

代表提供噪声减小量ξ的Wiener滤波器，它产生包含语音和想要的/许可的噪声量的输出信号。项η·(1-G₁(f，k))因此代表未掩蔽的噪声量，并且在实际上是

\frac{P_{s} (f, k) + ξ \cdot P_{n} (f, k)}{P_{s} (f, k) + P_{n} (f, k)}

与G₁(f，k)之间的差值。考虑到G₁(f，k)包含的噪声值约等于(1-α)乘以在原先的带有噪声的语音信号中存在的噪声的事实，在α、η与ξ之间存在着以下的关系式：

1-α+η·αξ (28)

步骤8：对最终估值的Wiener滤波器的估值

通过使用公式16、26和28，施加到输入端上的最终的Wiener滤波器G(f，k)被给出为：

虽然在η取决于α，以及对于每个帧k的每个频率仓f，它具有不同的数值，但总的噪声减小程度被保持为约20·log[ξ]dB的恒定值。

替换地，步骤1到8可以通过使用包括信号噪声比的式子的式子来实施。在以上给出的步骤1-8的详细的实施方案中，讨论是建立在噪声psd函数、语音周期曲线和输入功率(周期曲线+psd)的基础之上的。然而，通过把公式11和/或公式13除以噪声psd，可以得出另一个表示式。这另一个表示式需要对(信号+掩蔽的噪声)对噪声的比值估值，而不是对语音周期曲线估值。

图5上显示了实施本发明的算法50。算法50被显示为可以划分成一组自适应处理过程的步骤52和一组非自适应处理过程的步骤54。自适应处理过程使用对Wiener滤波器的计算来重新计算Wiener滤波器。因此，对Wiener滤波器的计算的步骤对于自适应处理过程和非自适应处理过程是共同的。

这种Wiener滤波器计算也适用于在包括一个传感器和一个扬声器的组合的回声和噪声控制系统中使得残余回波最小化。

虽然显示和描述了本发明的优选实施例，但应当看到，这样的实施例只是通过实例描述的。例如，虽然本发明被描述为使用在位于移动终端的上行链路路径上的噪声抑制器中，它提供噪声抑制的信号给语音编码器，但本发明同样可使用于处在移动终端的下行链路路径上的噪声抑制器中，以便代替或附加到上行链路路径上的噪声抑制器上。在这种情形下，它可对由语音译码器提供的信号起作用。而且，虽然本发明被描述为用在移动终端中，但替换地，它可以存在有在通信网内的噪声抑制器中，无论是在与语音编码器或语音译码器相关的情况下进行使用。

对于本领域技术人员将出现各种变例、改变和替换，而不背离本发明的范围。因此，以下的权利要求打算覆盖属于本发明的精神和范围内的所有的这样的等同物或变例。

Claims

1.一种抑制在含有噪声的信号中的噪声以便提供噪声被抑制的信号的方法，其中对噪声进行估值，和对语音连同某些噪声一起进行估值。

2.按照权利要求1的方法，其中信号包括语音。

3.按照权利要求1或权利要求2的方法，其中被包括在语音连同某些噪声一起的估值中的噪声电平是可变的，从而可把想要的噪声量包括在噪声被抑制的信号中。

4.按照权利要求3的方法，其中噪声电平提供可接受的前后关系信息量。

5.按照任何前述的权利要求的方法，其中噪声电平低于语音的掩蔽极限，并且因而对于收听者是听不见的。

6.按照权利要求1到4的任一项的方法，其中噪声电平接近于语音的掩蔽极限，并且因而某些噪声前后关系信息被保留在信号中。

7.一种产生用于噪声抑制的增益系数的方法，其中该增益系数的第一估值是自适应地获得的，这个第一估值被使用来产生噪声估值，后者然后被使用来产生增益函数的第二估值。

8.按照权利要求7的方法，其中估值的噪声是功率谱密度。

9.按照权利要求7或权利要求8的方法，其中第一估值被使用来更新估值的噪声。