CN1169788A

CN1169788A - 谱削减噪声抑制方法

Info

Publication number: CN1169788A
Application number: CN96191661A
Authority: CN
Inventors: P·黑德尔
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1995-01-30
Filing date: 1996-01-12
Publication date: 1998-01-07
Anticipated expiration: 2016-01-12
Also published as: KR19980701735A; SE9500321D0; JPH10513273A; AU4636996A; WO1996024128A1; CN1110034C; KR100365300B1; EP0807305A1; AU696152B2; CA2210490C; FI973142A0; DE69606978D1; ES2145429T3; EP0807305B1; SE9500321L; SE505156C2; DE69606978T2; US5943429A; CA2210490A1; FI973142A

Abstract

本发明描述了一种在基于帧的数字通信系统中的谱削减噪声抑制方法。每一帧包括预先确定的N个声音样本,因此给予每一帧N级自由度。该方法由谱削减(150)函数

实现,该函数是基于非语音帧的背景噪声的功率谱密度的估计值(140)

和语音帧的功率谱密度的估计值(130)

的。通过一个将自由度数目减小到少于N的参数模型来近似(120)每一个语音帧。每一语音帧的功率谱密度的估计

根据近似参数模型来估计(130)。

Description

谱削减噪声抑制方法

技术背景

该发明涉及基于帧的数字通信系统中的噪声抑制，并且尤其涉及到这种系统中的谱削减噪声抑制方法。

发明背景

语音信号处理中的一个普遍问题是根据语音信号中噪声测量值来增强语音信号。一种基于单通道(麦克风)测量的语音增强的方法是使用采用谱削减技术的频域滤波[1]，[2]。在假设背景噪声是长时平稳的情况下(与语音相比)，背景噪声的模型通常在没有语音活动的时间间隔内被估计。于是，在有语音活动的数据帧期间，该估计后的噪声模型与一种估计后的含噪声语音模型被一起使用来加强语音。对于谱削减技术这些模型传统上以功率谱密度(PSD)的形式给出，该功率谱密度用经典的FFT方法来估计。

在移动话音应用中，上述方法中没有一种在其基本形式上可以给出具有满意的听觉质量的输出信号，也就是说

1.不失真的语音输出

2.噪声电平的足够减少

3.剩余噪声没有令人讨厌的人为效果

特别的，谱削减方法被已知为当2满足时妨碍了1或当1满足时妨碍了2。另外，在多数情况下，因为该方法引入了所谓的音乐噪声，3或多或少地被妨碍。

谱削减方法的以上缺陷是已知的，并且，在文献中针对特别的有噪声语音的情况，给出了这些基本算法的一些特别的修改。然而，至今仍未能针对通常满足1-3的景况设计出一种谱削减方法。

为了突出从含噪声数据中增强语音的困难，我们注意到谱削减方法是基于使用到来数据估计模型的滤波。如果这些估计的模型与潜在的真正的模型接近，那麽这是一个好的可行方法。然而，由于语音的短时平稳性(10～40ms)以及围绕移动话音应用(8000Hz采样频率，0.5-2.0s的噪声不变期，等)的实际情况，估计模型可能与潜在的现实大大的不同，并且因此使经过滤波的输出具有低的可听质量。

EP，A1，0588526描述了一种方法，其中或者用快速傅立叶变换(FFT)，或者用线形预测编码(LPC)来进行谱分析。

发明概要

该发明的一个目标是提供一种谱削减噪声抑制的方法，该方法不须牺牲可听质量而给出更好的噪声衰减。

该目标由权利要求1中的特征实现。

附图简要描述

该发明以及它的进一步的目标和有利之处可以通过参考下述连同附图一起所做的描述被更好的理解。其中：

图1是适用于执行该发明的方法的谱削减噪声抑制系统的方框图。

图2是一种可能被用于图1中的系统的声音活动检测器的状态图。

图3是语音帧的两个不同功率谱密度估计图。

图4是包括语音和背景噪声的采样声音信号的时域图。

图5是依照现有技术经过谱噪声削减后的图3中的信号的时域图。

图5是依照该发明经过谱噪声削减后的图3中的信号的时域图。以及

图7是举例说明该发明方法的流程图。

优选实施方案的详细描述

谱削减技术

考虑一帧被附加噪声削弱的语音

x(k)＝s(k)+v(k)k＝1，...，N

(1)

其中x(k)，s(k)和v(k)分别表示语音的含噪声测量值，语音和附加噪声，N表示一帧中采样的数目。

语音被假设为在帧内是平稳的，然而噪声被假设为是长时间平稳的，即在几帧期间内不变。v(k)不变的帧数由(＞＞1表示。另外，还假设语音活动是足够慢的，以使得在非语音活动期噪声模型可以被准确的估计。

分别用Φ_x(ω)，Φ_s(ω)，Φ_v(ω)表示测量值，语音和噪声的功率谱密度(PSD)，其中

Φ_x(ω)＝Φ_s(ω)+Φ_v(ω)(2)

知道了Φ_x(ω)和Φ_v(ω)，可以通过使用标准的谱削减方法估计出Φ_s(ω)和s(k)的值，参阅[2]，下面简略复习一下。

令(k)表示s(k)的估计，于是，

(k)＝F^-1(H(ω)X(ω))

(3)

X(ω)＝F(x(k))

其中F()表示一些线形变换，例如离散傅立叶变换(DFT)，其中H(w)是一个在ω∈(0，2π)上的实偶函数，使得O≤H(ω))≤1，函数H(w)依赖于Φ_x(ω)和Φ_v(ω)。由于H(ω)是实值的，

\hat{S} (ω) = H (ω) X (ω)

的相位等于削弱语音的相位。由于人耳对相位失真的不敏感而导致了实值H(ω)的使用。

通常Φ_x(ω)和Φ_v(ω)是不知道的，需要在H(ω)中由估计值和

替换。由于语音的非平稳性，Φ_x(ω)从单独一帧数据中估计，而Φ_v(ω)是用在τ语音空闲帧内的数据估计的。为了简单起见，假设有一个声音活动检测器(VAD)用来区别包含噪声的语音帧和仅含噪声的帧。假定Φ_v(ω)是在非语音活动期通过在几个帧上平均来估计的，例如，使用

{\hat{Φ}}_{v} {(ω)}^{l} = ρ {\hat{Φ}}_{v} {(ω)}^{l - 1} + (1 - ρ) {\bar{Φ}}_{v} (ω) - - - (4)

在(4)中，是基于上达并包括帧数l的数据的(滑动的)平均功率谱密度估计。 Φ_v(ω)是基于当前帧的估计。标量ρ∈(0，1)参照假定的v(k)的不变性而调整的。在τ帧上的平均值与ρ的粗略对应由下面隐式地给出，

\frac{2}{1 - ρ} = T - - - (5)

一种适当的PSD估计在下面给出(假定没有对背景噪声谱形状的先验假设。

{\overset{&OverBar;}{Φ}}_{v} (ω) = \frac{1}{N} V (ω) V^{*} (ω) - - - (6)

其中“*”表示共轭复数并且V(ω)＝F(v(k))，且F(.)＝FFT( )(快速傅立叶变换)， Φ_v(ω)是周期图，(4)中的

是平均周期图，两者都导致带有近似方差的渐进(N＞＞1)无偏PSD估计

Var ({\overset{&OverBar;}{Φ}}_{v} (ω)) \approx Φ_{v}^{2} (ω)

(7)

Var ({\hat{Φ}}_{v} (ω)) \approx \frac{1}{T} Φ_{v}^{2} (ω)

在语音活动期间(用Φ_x ²(ω)代替(7)中的Φ_v ²(ω)).，对于

一个相似于(7)的表达式成立。

在图1中以方框图的形式举例说明了适合于采用该发明方法的谱削减噪声抑制系统。从麦克风10，声音信号x(t)被传送到一个A/D转换器12.A/D转换器12以帧的形式{x(k)}将数字化的声音样本传送到变换方框14，例如，一种FFT(快速傅立叶变换)方框，其将每一帧转换成相应的频域帧{X(ω)}。经变换的帧经过方框16中的

滤波。这一步执行真正的谱削减。所产生的信号被反变换方框18变换回时域。结果是其中的噪声已被抑制的帧{(k)}。该帧可被传送到一个回声消除器20，之后被传送到一个语音编码器22。已编码语音信号然后被传送到一个信道编码器及调制器用来发送(这些单元没有示出)。

方框16中

的实际形式依赖于在PSD估计器24中形成的估计值以及所使用的这些估计值的分析表达式。不同表达式的例子在下一部分的表2中给出。下面描述的主要部分将集中于根据输入帧{x(k)}形成估计值

和的不同方法。

PSD估计器24由声音活动检测器(VAD)26控制，该检测器利用输入帧{x(k)}来判定该帧是包含语音(S)还是背景噪声(B)。在[5]，[6]中描述了一个恰当的VAD。该VAD可被实现为一个由图2中例示的4种状态的状态机。所产生的控制信号S/B被送到PSD估计器24。当VAD26显示语音(S)，状态21及状态22时，PSD估计器24将生成

。另一方面，当VAD26显示非语音活动(B)，状态20时，PSD估计器24将生成

后一个估计值将被用于在下一个语音帧序列期间(连同该序列的每一个帧的一起)生成

信号S/B也被传送到谱削减方框16。用这种方法，在语音或非语音帧期间，方框16可以采用不同的滤波器。在语音帧期间，

是上面提及的

的表达式。另一方面，在非语音帧期间可以是一个常量H(O≤H≤1)，该常量将背景声音电平降低到与经过噪声抑制后保留在语音帧中的背景声音电平一样的电平。通过这种方法，在语音和非语音帧期间接收到的噪声电平将会一样。

在(3)中的输出信号(k)被计算之前，在一个优选实施方案中，

随后可以根据下式被滤波

H_p(ω)max(0.1，W(ω) H(ω)) ω (8)表1：后滤波函数。

状态(st) H(ω) 说明

0 1(ω))

20 0.316(ω) 静音-10dB

21 警戒滤波(-3dB)

22

其中 H(ω)根据表1计算。标量0.1表明噪声低端是-20dB。

此外，信号S/B也被传送到语音编码器22。这使得能够对语音和背景声音采用不同编码。

PSD误差分析

明显的是与无噪声语音信号s(k)相比，强加在s(k)和v(k)上的平稳性假设对估计值(k)的准确程度产生限制。在这一部分，介绍一种谱削减方法的分析技术。它基于分别对PSD估计值

和

(见下面(11))的一阶近似，并结合引入偏差的准确性的近似(零阶近似)表达式。明显的，由于所使用的方法(传输函数H(ω)的选择)以及所涉及的PSD估计值的准确性，下面导出了估计信号值(k)的频域误差的表达式。由于人耳对相位失真的不敏感性，考虑由下式定义的PSD误差是适当的

{\overset{&OverBar;}{Φ}}_{s} (ω) = {\hat{Φ}}_{s} (ω) - Φ_{s} (ω) - - - (9)

其中

{\hat{Φ}}_{s} (ω) = \hat{H^{2}} (ω) Φ_{x} (ω)

注意到从建构上 Φ_s(ω)是描述已滤波的含噪声测量值幅度和语音信号幅度之间差值(在频域上)的误差项。

因此 Φ_s(ω)可以采用正值和负值，并且不是任何时域信号的PSD。在(10)中，

表示基于

和的H(w)的估计值。在这一节，分析被局限于功率削减(PS)的情况，[2]。对于

的其他选择可以以同样的方法分析(见附录A-C)。另外还介绍和分析了对

的新颖的选择(见附录D-G)。表2中给出了对H(ω)的不同的适当的选择。

表2：不同谱削减方法的例子：功率削减(PS)(标准PS，

对于δ＝1)，幅度削减(MS)，基于维纳滤波(WF)、最大相似性方法(ML)及相应于该发明的一个优选实施方案的改进功率削减的谱削减方法。

\hat{H} (ω)

{\hat{H}}_{δPS} (ω) = \sqrt{1 - δ {\hat{Φ}}_{v} (ω) / {\hat{Φ}}_{x} (ω)}

{\hat{H}}_{MS} (ω) = 1 - \sqrt{{\hat{Φ}}_{v} (ω) / {\hat{Φ}}_{x} (ω)}

{\hat{H}}_{WF} (ω) = \hat{H_{PS}^{2}} (ω)

{\hat{H}}_{ML} (ω) = \frac{1}{2} (1 + {\hat{H}}_{PS} (ω))

{\hat{H}}_{IPS} (ω) = \sqrt{\hat{G} (ω)} {\hat{H}}_{PS} (ω)

通过定义，H(ω)处于0≤H(ω)≤1，对于相应的表2中的估计值它并不必成立，因而在实际应用中，半波或全波修正[1]被使用。

为了进行分析，假设帧长度N是足够大的(N＞＞1)使得

和是近似无偏的。引入一阶偏差

{\hat{Φ}}_{x} (ω) = Φ_{x} (ω) + Δ_{x} (ω) - - - (11)

{\hat{Φ}}_{v} (ω) = Φ_{v} (ω) + Δ_{v} (ω)

其中Δ_x(ω)和Δ_v(ω)是零均值随机变量，使得

E[Δ_x(ω)/Φ_x(ω)]²＜＜1和E[Δv(ω)/Φ_v(ω)]²＜＜1。这里以及后文中符号E[。]表示统计期望值。另外，与帧长度相比，如果噪声的相关时间较短，E[( Φ_v(ω)^l-Φ_v(ω))( Φ_v(ω)^k-Φ_v(ω))]≈0对于l≠k，其中

Φ_v(ω)^l是基于第l帧中数据的估计值。这意味着Δ_x(ω)和Δ_v(ω)是近似独立的。否则，如果噪声是强相关的，假设Φ_v(ω)具有有限(＜＜N)数目的在频率ω₁，...，ω_n上的(强)峰值。那麽对于ω≠ω_jj＝1，...，n并且l≠k成立E[( Φ_v(ω)^l-Φ_v(ω))( Φ_v(ω)^k-Φ_v(ω))]≈0，并且对于ω≠ω_jj＝1，...，n，该分析仍然成立。

方程(II)意味着渐进(N＞＞l)无偏PSD估计值，例如周期图或平均周期图被使用。然而，使用渐进无偏PSD估计值，例如Blackman-Turkey PSD估计值，如果用下面两个方程式代替(11)，类似的分析也成立。

{\hat{Φ}}_{x} (ω) = Φ_{x} (ω) + Δ_{x} (ω) + B_{x} (ω)

和

{\hat{Φ}}_{v} (ω) = \bar{Φ_{v}} (ω) + Δ_{v} (ω) + B_{v} (ω)

其中，B_x(ω)和B_v(ω)分别是描述PSD估计值中渐进偏差的决定项。

另外，方程(11)意味着(9)中的 (在一阶近似中)是一个Δ_x(ω)和Δ_v(ω)的线形函数。下面，根据误差偏差( )和误差方差(Var( ))考虑了不同方法的性能。在下一部分中将给出的完全的推导。表1中其它谱削减方法的推导在附录A-G中给出。

对 (

当δ＝1)分析

从将(10)和表2中的

代入到(9)。利用泰勒级数展开(1+x)^-1 1-x并忽略高于一阶的偏差，给出一个简洁计算

{\overset{&OverBar;}{Φ}}_{s} (ω) \approx \frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω) - - - (12)

这里″ ″被用来表示近似相等，其中只有起决定作用的项被保留。量Δ_x(ω)和Δ_v(ω)是零均值随机变量，因而

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] (ω) \approx 0 - - - (13)

和

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) &cong; \frac{Φ_{v}^{2} (ω)}{Φ_{x}^{2} (ω)} Var ({\hat{Φ}}_{x} (ω)) + Var ({\hat{Φ}}_{v} (ω)) - - - (14)

为了继续，我们使用通常的结果，对于一个渐进无偏谱估计参阅(7)

Var (\hat{Φ} (ω)) \approx γ (ω) Φ^{2} (ω) - - - (15)

对于某些(可能频域相关)变量γ(ω)。例如，相应于γ(ω)≈1+(sinωN/Nsinω)²的周期图，对于N＞＞1。它减小到γ≈1结合(14)和(15)给出

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx γ Φ_{v}^{2} (ω) - - - (16)

对于

的结果

对于

的相似的计算得出(细节在附录A中给出)：

E [{\overset{&OverBar;}{Φ}}_{x} (ω)] \approx 2 Φ_{v} (ω) (1 - \sqrt{\frac{Φ_{x} (ω)}{Φ_{v} (ω)}})

和

Var ({\bar{Φ}}_{s} (ω)) \approx {(1 - \sqrt{1 + \frac{Φ_{s} (ω)}{Φ_{v} (ω)}})}^{2} γ Φ_{v}^{2} (ω)

对于的结果

对于

的计算给出(细节在附录B中给出)

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx - (1 - \frac{Φ_{v} (ω)}{Φ_{x} (ω)}) Φ_{v} (ω)

和

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx 4 {(1 - \frac{Φ_{v} (ω)}{Φ_{x} (ω)})}^{2} γ Φ_{v}^{2} (ω)

对于

的结果

对于的计算给出(细节在附录C中)：

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx \frac{1}{2} Φ_{v} (ω) - \frac{1}{4} {(\sqrt{Φ_{x} (ω)} - \sqrt{Φ_{s} (ω)})}^{2}

和

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx \frac{1}{16} {(1 + \sqrt{\frac{Φ_{x} (ω)}{Φ_{s} (ω)}})}^{2} γ Φ_{v}^{2} (ω)

对于

的结果

对

的计算给出(

由附录D中导出并在附录E中被分析)：

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx (\overset{&OverBar;}{G} (ω) - 1) Φ_{s} (ω)

和

Var ({\bar{Φ}}_{s} (ω)) \approx \bar{G^{2}} (ω)

\times {(\overset{&OverBar;}{G} (ω) + γ Φ_{v} (ω) \frac{Φ_{v} (ω) + 2 Φ_{x} (ω)}{Φ_{s}^{2} (ω) + γ Φ_{v}^{2} (ω)})}^{2} γ Φ_{v}^{2} (ω)

共同特征

对于所考虑的方法，注意到误差偏差仅依赖于对

的选择，而误差方差依赖于

的选择和所使用的PSD估计值的方差。例如，对于Φ_v(ω)的平均周期图估计，根据(7)有γ_v≈1/τ。另一方面，用单个帧周期图来估计Φ_x(ω)，有γ_x≈1。因此，对于τ＞＞1，在上面出现的方差公式中的，γ＝γ_x+γ_v中的起决定作用的项是γ_x，因此，主要误差来源是基于含噪声语音的单帧PSD估计。

在上面论述之后，接着为了改进谱削减技术，最好是降低γx的值(选择一个适当的PSD估计值，它是一种有尽可能好性能的近似无偏估计值)并选择一种“好”的谱削减技术(选择 )。该发明的一个关键思想是可以利用声道。的物理模型(将自由度的值从N(一帧中的采样数)减小到一个小于N的值将γ_x的值减小。众所周知的是s(k)可以被一种自回归(AR)模型(典型地阶数p≈10)准确地描述。这是下两个部分的主题。

另外，的准确性(并且，暗含地，

的准确性)依赖于的选取。

的新的、优选的选择在附录D-G中导出并被分析。

语音AR模拟

在该发明的一个优选实施方案中，s(k)被模拟为一个自回归(AR)过程。

s (k) = \frac{1}{A (q^{- 1})} ω (k) k = 1, . . ., N - - - (17)

其中A(q^-1)是一个首项系数为一的(第一项系数等于一)按后移操作方式的p阶多项式(q^-1ω(k)＝ω(k-1)，等)

A(q^-1)＝1+α₁q^-1+…+α_pq^-p (18)

ω(k)是方差为σ_ω ²的零均值白噪声。起初，仅考虑AR模型似乎受到限制。然而，用AR模型来做语音模拟是由声道的物理模型和，在此更重要的是，含噪声语音对估计模型准确性的物理限制两方面激发的。

在语音信号处理中，帧长度N可能没有大到足以为了减小方差并且仍然保持PSD估计值的无偏而在帧内允许平均技术的应用。因此，为了减小例如在公式(12)中的第一项的影响，声道的物理模型必须被使用。AR结构被应用在s(k)上，具体地

Φ_{x} (ω) = \frac{σ_{w}^{2}}{{| A (e^{iw}) |}^{2}} + Φ_{v} (ω) - - - (19)

另外，Φ_v(ω)可以用一个参数模型描述

Φ_{v} (ω) = σ_{v}^{2} \frac{{| B (e^{iw}) |}^{2}}{{| C (e^{iw}) |}^{2}} - - - (20)

其中B(q^-1)，and C(q^-1)分别是q阶和r阶多项式，与(18)中A(q^-1)的定义相似。为了简单起见，(20)中的一个参数噪声模型被用于下面的讨论中，其中参数模型的阶数是被估计的。然而，可以理解的是其它背景噪声模型也是可能的。结合(19)、(20)，可以示出

x (k) = \frac{D (q^{- 1})}{A (q^{- 1}) C (q^{- 1})} η (k) k = 1, . . ., N - - - (21)

其中η(k)方差为σ_η ²的零均值白噪声，D(q^-1)由下面的恒等式给出

σ_{η}^{2} {| D (e^{iw}) |}^{2} = σ_{w}^{2} {| C (e^{iw}) |}^{2} + σ_{v}^{2} {| B (e^{iw}) |}^{2} {| A (e^{iw}) |}^{2} - - - (22)

语音参数估计

当没有附加噪声出现时，(17)-(18)中的参数估计是简单的。注意到，在没有噪声的情况下，(22)右边的第二项消失，并且经过零极点对消后(21)减化成(17)。

这里，探索一种基于自相关方法的PSD估计值。这种做法的动机有4条。

●自相关方法是众所周知的。尤其是，估计的参数是最小相位的，它保证所产生滤波器的稳定性。

●使用Levinson算法，该方法就容易被实现，并且具有低的计算复杂性。

●一个最佳的程序包括一个非线性优化，明确地要求一些初始化程序。自相关方法一个也不需要。

●从实际的观点看，如果能将同样的估计程序分别用于削弱的

语音和纯语音(在可以得到时)，将是有利的。换句话说，该估计方法

应独立于操作的实际情景，即独立于语音与噪声的比例。

众所周知的是，一个ARMA模型(例如(21))可以被一个无限阶AR过程模拟。当可得到有限数目的数据来进行参数估计时，无限阶AR模型必须被截断，这里使用的模型是：

x (k) = \frac{1}{F (q^{- 1})} η (k) - - - (23)

其中F(q^-1)是 p阶的。适当的模型阶数遵循下面的讨论。如果它们的PSD是近似相等的，近似模型(23)接近于含噪声的语音过程，即

\frac{{| D (e^{iw} -) |}^{2}}{{| A (e^{iw}) |}^{2} {| C (e^{iw}) |}^{2}} \approx \frac{1}{{| F (e^{iw}) |}^{2}} - - - (24)

基于声道的物理模拟，通常认为p＝deg(A(q^-1))＝10。根据(24)可得到 p＝deg(F(q^-1))＞＞deg(A(q^-1))+deg(C(q^-1))＝p+γ，其中p+γ粗略的等于Φ_x(ω)中的峰值的数目。另一方面，使用AR模型模拟含噪声窄带过程需要 p＜＜N，来保证可信的PSD估计。概括为：

p+τ＜＜ p＜＜N

一种适当的最优准则由 p～

给定。根据上面的讨论，当N＞＞100时，可以期望参数方法是有成果的。也可从(22)得出结论噪声谱越平，允许越小的N值。即使p不足够大，也可期望参数法给出合理的结果。其原因是，根据误差方差，参数法显著地给出比基于周期图的方法(在典型的例子中，方差之间的比例等于1∶8；见下面)更准确的PSD估计，它显著地将减小输出中的人为效果如声调噪声。

参数PSD估计值被总结如下。为了计算AR参数

及(23)中的噪声方差，使用自相关方法及高阶AR模型(模型阶数 p＞＞p和p～

)。根据下列方程(25)，由估计的AR模型计算(在相应于(3)中的X(ω)的频带的N个离散点上)计算

{\hat{Φ}}_{x} (ω) = \frac{{\hat{σ}}_{η}^{2}}{{| \hat{F} (e^{iw}) |}^{2}} - - - (25)

于是，为了加强语音s(k)，使用了表2中考虑过的一种谱削减技术

下面在假设噪声是白噪声的情况下，采用参数PSD估计值(对于考虑过的非参数方法类似于(7))的方差的一个低阶近似式，和s(k)的傅立叶级数展开。于是

的渐进(对于数据的数目(N＞＞1)及模型阶数( p＞＞1))方差由下式给出：

Var ({\hat{Φ}}_{x} (ω)) \approx \frac{2 \overset{&OverBar;}{p}}{N} Φ_{x}^{2} (ω) - - - (26)

上述表达式对于纯(高阶)AR过程也是正确的。根据(26)，它直接地遵循γ_x≈2 p/N，根据前面提及的最优准则，其近似地等于γ_x 2/N，它应该和对于基于周期图的PSD估计值成立的γ_x≈1相比较。

作为一个例子，在移动免提通话环境中，可以假设噪声0.5s(以8000Hz采样，帧长度N＝256)不变，其给定τ≈15并由此得γ_v 1/15。此外，对于

\bar{P} = \sqrt{N}

我们有γ_x＝1/8

图3说明了相应于该发明，对于一个典型的语音帧，周期图PSD估计和参数PSD估计之间的差别。在此例中，N＝256(256个样本)并采用了具有10个参数的AR模型。注意到参数PSD估计

要比对应的周期图PSD估计平滑的多。

图4图示说明了5秒钟的在背景噪声下的语音的采样声音信号。图5图示说明了经过根据优先考虑高听觉质量的周期图PSD估计作谱削减之后的图4的信号。图6图示说明了根据该发明作基于参数PSD估计的谱削减之后的图4的信号。

图5和图6的比较表明通过相应于该发明的方法得到了显著的噪声抑制(大约10dB量级)(从上面结合图1的描述应当注意到，语音和非语音帧中减小的噪声电平是一样的。)另一个在图6中并不明显的差别是所产生的语音信号的失真程度比图5中的语音信号小。

对所有考虑过的方法，以PSD误差的偏差和方差表示的理论结果总结在表3中。

排序不同的方法是可能的。至少可以辨别两个怎样选择一个适当的方法的标准。

首先，对于低瞬时SNR，该方法最好具有低的方差以避免(k)中的声调人为因素。要做到这点偏差不增大是不可能，并且为了抑制(非放大)具有低瞬时SNR的频率域，该偏差项应该是负的(这样，使(9)中的

趋于0)。实现这一标准的侯选者分别是,MS，IPS和WF。

第二、对于高瞬时SNR，最好有低度的语音失真。此外，如果偏差项是起决定作用的，它应该是正的。ML， δPS，PS，IPS和(可能)WF满足第一条声明。只有对ML和WF，偏差项在MSE表达式中起决定作用，其中偏差项的符号对于ML是正的，对于WF是负的．因此ML，δPS，PS和IPS满足这一标准。

算法特点

在这部分，相应于该发明的谱削减方法的优选实施方案将参考图7来描述。

1.输入：x={x(k)|k=1，....N)。

2.设计变量

表3：对功率削减(PS) (标准PS，

对δ=1)、幅度削减(MS)、改进的功率削减(IPS)及基于维纳滤波(WF)和最大似然性(ML)方法的谱削减方法的偏差和方差表达式。瞬时SNR由SNR=Φ_s(ω)/Φ_v(ω)定义。对于PS,最佳削减因子 δ由(58)给定，对于IPS，

由(45)给定，其中Φ_x(ω)和Φ_v(ω)分别由

和代替。偏差方差

E[ Φ_s(ω)]/Φ_v(ω) Var( Φ_s(ω))/γΦ_v ²(ω)δPS 1-δ δ²MS

- 2 (\sqrt{1 + SNR} - 1)

{(\sqrt{1 + SNR} - 1)}^{2}

IPS

- \frac{γSNR}{γ + {SNR}^{2}}

{(\frac{{SNR}^{2}}{{SNR}^{2} + γ})}^{2} {(1 + 2 γ \frac{1 + SNR}{{SNR}^{2} + γ})}^{2}

WF

- \frac{SNR}{SNR + 1}

4 {(\frac{SNR}{SNR + 1})}^{2}

ML

\frac{1}{2} - \frac{1}{4} {(\sqrt{SNR + 1} - \sqrt{SNR})}^{2}

\frac{1}{16} {(1 + \sqrt{1 + \frac{1}{SNR}})}^{2}

p 有噪声语音模型阶数

的滑动平均修正因子。

3.对每一帧输入数据做：

(a)语音检测(步骤110)

如果VAD输出等于st＝21或st＝22，变量Speech被设为真，如果st＝20，Speech被设为假。如果VAD输出等于st＝O，那麽该算法被重新初始化。

(b)谱估计

如果Speech为真，就估计

i.对已调整的零均值输入数据{x(k)}施用自相关方法估计全极点模型(23)的系数(多项式系数

及方差 )(步骤120)。

ii.根据(25)计算

(25)(步骤130)。

否则估计

(步骤140)

i.使用(4)更改背景噪声谱模型，其中， Φ_v(ω)是基于已调整的零均值且经过汉宁汉明加窗的输入数据x的周期图。由于这里使用了经加窗的数据，但是是基于没有加窗的数据，

必须被适当的归一化。

的一个适当的初始值由乘以例如，一个比例因子0.25的第一帧的周期图的平均(在频率范围上)来设定，这意味着，一个先验白噪声假设被初始地强加在背景噪声上。

(c)谱削减(步骤150)

i.根据表1计算频率加权函数

ii.可能的后滤波，静音和噪声低端调整。

iii.利用(3)和零均值调整数据{x(k)}计算输出。数据{x(k)}可以是加窗的或不加窗的，这依赖于实际帧的重叠而定(矩形窗被用于非重叠帧，而汉明窗的使用带有50％的重叠)。

根据上面的讨论，很明显该发明在不牺牲听觉质量的情况下产生了显著的噪声削减。这一改进可以由用于语音和非语音帧的独立功率谱估计方法来解释。这些方法利用语音和非语音(背景噪声)信号的不同特点来减小各自功率谱估计的方差。

●对于非语音帧，由一种非参数功率谱估计方法来估计，例如一种基于FFT的周期图估计，它使用每一帧所有N个采样值。通过保留非语音帧的所有N级自由度，可以模拟更多种类的背景噪声。由于背景噪声被假设为在几个帧上保持不变，可以通过在几个非语音帧上平均功率谱估计来获得的方差的减小。

●对于语音帧，是由基于语音的一种参数模型的参数功率谱估计方法来估计的。在这种情况下，语音的特殊特性被用来减小语音帧的自由度(到参数模型中的参数个数)的数目。基于更少参数的模型减小了功率谱估计的方差。这种方法对语音帧是优选的，因为语音被假设为仅在一帧上是不变的。

在该技术领域中熟练的人士会理解，在不偏离由附加的权利要求定义的(该发明的)精神和范围的情况下，可以对该发明做各种的修正和改变。

附录A

的分析

并行对

的计算给出

{\overset{&OverBar;}{Φ}}_{s} (ω) = {(1 - \sqrt{\frac{{\hat{Φ}}_{v} (ω)}{{\hat{Φ}}_{x} (ω)}})}^{2} Φ_{x} (ω) - Φ_{s} (ω) - - - (27)

\approx (1 - \sqrt{\frac{Φ_{x} (ω)}{Φ_{x} (ω)}}) (2 Φ_{v} (ω) - \frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) + Δ_{v} (ω))

其中，在第二个相等处，泰勒级数展开

\sqrt{(1 + x)} \approx 1 + x / 2

也被使用。根据(27)，的期望值是非零的，由下式给定。

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx 2 Φ_{v} (ω) (1 - \sqrt{\frac{Φ_{x} (ω)}{Φ_{v} (ω)}}) - - - (28)

此外

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx

{(1 - \sqrt{\frac{Φ_{x} (ω)}{Φ_{v} (ω)}})}^{2} (\frac{Φ_{v}^{2} (ω)}{Φ_{x}^{2} (ω)} Var ({\hat{Φ}}_{x} (ω)) + Var ({\hat{Φ}}_{v} (ω))) - - - (29)

结合(29)和(15)

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx {(1 - \sqrt{1 + \frac{Φ_{s} (ω)}{Φ_{v} (ω)}})}^{2} γ Φ_{v}^{2} (ω) - - - (30)

附录B

的分析

在该附录里，PSD误差被得出以用于基于维纳滤波[12]的语音增强。在这种情况下，H(W)由下式给出，

{\hat{H}}_{WF} (ω) = \frac{{\hat{Φ}}_{s} (ω)}{{\hat{Φ}}_{s} (ω) + {\hat{Φ}}_{v} (ω)} = {\hat{H}}_{PS}^{2} - - - (31)

这里，是Φ_s(ω)的估计值，并且，第二个相等处遵循

{\hat{Φ}}_{s} (ω) = {\hat{Φ}}_{x} (ω) - {\hat{Φ}}_{v} (ω)

注意到

{\overset{&OverBar;}{H}}_{WF}^{2} (ω) \approx \frac{Φ_{s} (ω)}{Φ_{x}^{2} (ω)} (Φ_{s} (ω) + 2 {\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)}) - - - (32)

一种简单的计算给出

{\overset{&OverBar;}{Φ}}_{s} (ω) \approx (1 - \frac{Φ_{v} (ω)}{Φ_{x} (ω)})

\times (- Φ_{v} (ω) + 2 {\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)}) - - - (33)

根据(33)，它遵循

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx - (1 - \frac{Φ_{v} (ω)}{Φ_{x} (ω)}) Φ_{v} (ω) - - - (34)

和

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx 4 {(1 - \frac{Φ_{v} (ω)}{Φ_{x} (ω)})}^{2} γ Φ_{v}^{2} (ω) - - - (35)

附录C

的分析

用一种未知幅度和相位的决定性波形来描述语音，一种最大相似(ML)谱削减方法由下式定义。

{\overset{&OverBar;}{H}}_{ML} (ω) = \frac{1}{2} (1 + \sqrt{1 - \frac{{\hat{Φ}}_{v} (ω)}{{\hat{Φ}}_{v} (ω)}}) = \frac{1}{2} (1 + {\hat{H}}_{PS} (ω)) - - - (36)

将(11)代入(36)，直接计算给出：

{\bar{H}}_{ML} (ω) \approx \frac{1}{2} (1 + \sqrt{\frac{Φ_{s} (ω)}{Φ_{x} (ω)}} {(1 - \frac{Δ_{v} (ω)}{Φ_{s} (ω)} + \frac{Φ_{v} (ω)}{Φ_{x} (ω)} \frac{Δ_{x} (ω)}{Φ_{s} (ω)})}^{\frac{1}{2}})

\approx \frac{1}{2} (1 + \sqrt{\frac{Φ_{s} (ω)}{Φ_{x} (ω)}}) + \frac{1}{4} \frac{1}{\sqrt{Φ_{x} (ω) Φ_{s} (ω)}} (\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)) - - - (37)

其中，在第一等式处泰勒级数(l+x)^-1

1-x展开被使用，在第二等式处，泰勒级数展开

\sqrt{1 + x} \approx 1 + 1 / 2

。现在，直接计算PSD误差。将(37)代入(9)-(10)，忽略在

展开中的高于第一阶的偏差项)给出

{\overset{&OverBar;}{Φ}}_{s} (ω) \approx \frac{1}{4} {(1 + \sqrt{\frac{Φ_{s} (ω)}{Φ_{x} (ω)}})}^{2} Φ_{x} (ω) - Φ_{s} (ω)

+ \frac{1}{4} (1 + \sqrt{\frac{Φ_{x} (ω)}{Φ_{s} (ω)}}) (\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)) - - - (38)

根据(38)，它遵循

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx \frac{1}{4} {(1 + \sqrt{\frac{Φ_{s} (ω)}{Φ_{x} (ω)}})}^{2} Φ_{x} (ω) - Φ_{s} (ω)

= \frac{1}{2} Φ_{v} (ω) - \frac{1}{4} {(\sqrt{Φ_{x} (ω)} - \sqrt{Φ_{s} (ω)})}^{2}

其中，采用第二等式(2)，此外

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx \frac{1}{16} {(1 + \sqrt{\frac{Φ_{x} (ω)}{Φ_{s} (ω)}})}^{2} γ Φ_{v}^{2} (ω) - - - (40)

附录D

的推导

当和

精确得知，通过H_PS(ω)，PSD误差平方被最小化。H_PS(ω)是H_PS(ω)

和的被Φ_x(ω)和Φ_v(ω)分别替换所得。这种事实直接地遵循(9)和(10)，即

{\tilde{Φ}}_{s} (ω) = [H^{2} (ω) Φ_{x} (ω) - Φ_{s} (ω)]^{2} = 0,

其中(2)被用于最后等式。注意到在这种情况下，H(ω)是一个决定性量，而

是一个随机量。考虑到PSD估计的不确定性，这种事实，通常来说，不再成立。在本节，一种与数据无关的加权函数被得出以改进的性能。为此，考虑到如下形式的一种方差表达式(对于PS_ξ＝1，对于MS及

γ = γ_{x} + γ_{v}, ξ = (1 - \sqrt{1 + SNR})^{2})

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx ξγ Φ_{v}^{2} (ω) - - - (41)

变量γ仅依赖于所使用的PSD估计方法并不能被传递函数

的选取所影响。然而，第一个因子ξ，却依赖于

的选取。在本节，探索了一种数据无关加权函数 G(ω)，使得

\hat{H} (ω) = \sqrt{\bar{G} (ω)} \hat{H_{PS}} (ω)

最小化了平方后的PSD误差的期望值。即

\overset{&OverBar;}{G} (ω) = ar \overset{&OverBar;}{g} \min_{G (ω)} E {[{\overset{&OverBar;}{Φ}}_{s} (ω)]}^{2}

(42)

{\overset{&OverBar;}{Φ}}_{s} (ω) = G (ω) {\hat{H}}_{PS}^{2} (ω) Φ_{s} (ω) - Φ_{s} (ω)

在(42)中，G(ω)是一个一般加权函数。在我们继续之前，注意到如果加权函数G(ω)被允许是依赖于数据的，那麽将产生一类通常的谱削减技术，特殊情况下它包括许多通常使用的方法，例如，使用

G (ω) = \hat{H_{MS}^{2}} (ω) / \hat{H_{PS}^{2}} (ω)

的幅度削减。然而，这种观察几乎没有意义，因为具有数据相关的G(ω)的(42)的优化十分依赖于G(ω)的形式。因此，使用数据相关的加权函数的方法应该被逐个加以分析，因为，在这种情况下，没有通用的结果可以被得到。

为了最小化(42)，一种简单的计算给出

{\overset{&OverBar;}{Φ}}_{s} (ω) \approx (G (ω) - 1) Φ_{s} (ω)

+ G (ω) (\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)) - - - (43)

取PSD误差的平方值的期望并使用(41)给出

E {[{\overset{&OverBar;}{Φ}}_{s} (ω)]}^{2} \approx {(G (ω) - 1)}^{2} Φ_{s}^{2} (ω) + G^{2} (ω) γ Φ_{v}^{2} (ω) - - - (44)

方程(4)是G(ω)的二次方程并可以被解析地最小化，该结果给出

\overset{&OverBar;}{G} (ω) = \frac{Φ_{s}^{2} (ω)}{Φ_{s}^{2} (ω) + γ Φ_{v}^{2} (ω)}

= \frac{1}{1 + γ {(\frac{Φ_{v} (ω)}{Φ_{x} (ω) - Φ_{v} (ω)})}^{2}} - - - (45)

其中，在第二等式处(2)被应用。并不奇怪， G(ω)依赖于(未知的)PSD及变量γ。正如上面注意到的，无法用相应的估计值直接地替代(45)中的未知的PSD，并宣称所产生的修正的PS方法是最优的，即是最小化(42)的。然而，可以期望，在设计过程中，考虑到

的不确定性，修正后的PS方法将比标准PS好。由于上述的考虑，该修正后的PS方法由改进的功率削减(IPS)表示。在IPS方法在附录E中被分析之前，先进行下面的注释。

对于高的瞬时SNR(对于使得Φ_s(ω)/Φ_v(ω))》1的ω)根据(45)，得到 G(ω)

1并且，由于在这种情况下，归一化的误差方差

，见(41)是小的，可以认为IPS的性能是(非常)接近标准PS的性能的。另一方面，对于低瞬时SNR(对于ω使得γΦ_v ²(ω)＞＞Φ_s ²(ω)， G(ω)≈Φ_s ²(ω)/(γΦ_v ²(ω))l导出，参阅(43)

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx - Φ_{s} (ω) - - - (46)

和

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx \frac{Φ_{s}^{4} (ω)}{γ Φ_{v}^{2} (ω)} - - - (47)

然而，在低的SNR时，不能认为当(45)中的 G(ω)被

替换，即将(45)中的Φ_x(ω)和Φ_v(ω)用它们的估计值

分别替换时，(46)-(47)甚至是近似正确的。

附录E

的分析

在该附录中，分析了IPS方法。考虑到(45)，让

由(45)定义，并且使其中的Φ_x(ω)和Φ_v(ω)由相应的已估计的量替换。

它可以被表示为

{\overset{&OverBar;}{Φ}}_{s} (ω) \approx (\overset{&OverBar;}{G} (ω) - 1) Φ_{s} (ω)

+ \overset{&OverBar;}{G} (ω) (\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω))

\times (\overset{&OverBar;}{G} (ω) + γ Φ_{v} (ω) \frac{Φ_{v} (ω) + 2 Φ_{x} (ω)}{Φ_{s}^{2} (ω) + γ Φ_{v}^{2} (ω)}) - - - (48)

它可以与(43)比较。具体地，

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx (\overset{&OverBar;}{G} (ω) - 1) Φ_{s} (ω) - - - (49)

并且

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx {\overset{&OverBar;}{G}}^{2} (ω)

\times {(\overset{&OverBar;}{G} (ω) + γ Φ_{v} (ω) \frac{Φ_{v} (ω) + 2 Φ_{x} (ω)}{Φ_{s}^{2} (ω) + γ Φ_{v}^{2} (ω)})}^{2} γ Φ_{v}^{2} (ω) - - - (50)

对于高SNR，使得Φ_s(ω)/Φ_v(ω)＞＞1，可以对(49)-(50)。有一些深入理解。在这种情况下，可以表示

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx 0 - - - (51)

并且

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx (1 + 4 γ \frac{Φ_{v} (ω)}{Φ_{s} (ω)}) γ Φ_{v}^{2} (ω) - - - (52)

在(51)和(52)中忽略的项是O((Φ_v(ω)Φ_s(ω))²)阶的，因此，正如已声明的，在高SNR时，IPS的性能相似于PS的性能。另一方面，对于低SNR(对于ω使得Φ_s ²(ω/(γΦ_v ²(ω)＜＜1))，

\bar{G} (ω) \approx Φ_{s}^{2} (ω) / (γ Φ_{v}^{2} (ω))

，并且

E [{\overset{&OverBar;}{Φ}}_{s} (ω)] \approx - Φ_{s} (ω) - - - (53)

和

Var ({\overset{&OverBar;}{Φ}}_{s} (ω)) \approx 9 \frac{Φ_{s}^{4} (ω)}{γ Φ_{v}^{2} (ω)} - - - (54)

将(53)-(54)和相应的PS结果(13)和(16)比较，可以看出，对于低的瞬时SNR，通过使(9)中的

趋于0，与标准PS方法相比，IPS法显著地降低了

的方差。具体地，IPS和PS方差之间的比值是(

)阶的。也可以比较(53)-(54)和近似表达式(47)，注意到它们之间的比值等于9。

附录F

有最佳削减因子 δ的PS

功率谱削减方法的一个经常考虑到的修正是考虑

{\hat{H}}_{δPS} (ω) = \sqrt{1 - δ (ω) \frac{{\hat{Φ}}_{v} (ω)}{{\hat{Φ}}_{x} (ω)}} - - - (55)

其中δ(ω)是一个可能地依赖于频率的函数。特别的，对于一些常数δ＞1，在δ(ω)＝δ下，该方法常常被看作为具有过削减的功率削减。这一修正显著地降低了噪声电平并减小了声调的人为效果。另外，它显著地扭曲了语音，这使得该修正对于高质量语音增强变得无用。当δ＞＞1，这一事实可以容易地由(55)看出。因此，对于中等和低的语音-噪声比(在ω-域)，平方根符号下的表达式常常是负的并且因此矫正设备将把它设为0(半波矫正)，这意味着只有在SNR高的的频率段将会在(3)中的输出信号中(k)出现。由于非线性矫正设备的原因，现在的分析技术不能直接地使用于这种情况，并由于δ＞1导致具有较差的听觉质量的输出，该修正不被进一步研究。

然而，一个有趣的情形是当δ(ω)≤1的情形，这可以从下面渐进的讨论中看出。如同前面陈述的，当Φ_x(ω)和Φ_v(ω)是精确已知的，在最小化平方PSD误差情形下当δ(ω)＝1时，(55)是最佳的。另一方面，当Φ_x(ω)和Φ_v(ω)是完全未知时，即得不到它们的估计值，所能作的是通过噪声测量值本身来估计语音，即(k)＝x(k)相应于在δ＝0下(55)的使用。由于上面两个极端，可以期望，当未知的Φ_x(ω)和Φ_v(ω)分别由

替换时，对于一些在间隔0＜δ(ω)＜1间的δ(ω)，

的误差被最小化。

另外，在经验值中，相似于PSD误差，平均的谱失真改进方法就MS的削减因子做实验性的研究。在几个实验基础上，得出结论：最佳的削减因子最好地应该在从0.5到0.9的间隔内。

具体地，在这种情况下计算PSD误差，给出，

{\overset{&OverBar;}{Φ}}_{s} (ω) \approx (1 - δ (ω)) Φ_{v} (ω) + δ (ω) (\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)) - - - (56)

取得平方PSD误差的期望，给出

E {[{\overset{&OverBar;}{Φ}}_{s} (ω)]}^{2} \approx (1 - δ (ω))^{2} Φ_{v}^{2} (ω) + δ^{2} γ Φ_{v}^{2} (ω) - - - (57)

其中使用了(41)。公式(57)是δ(ω)的二次式，并可以被解析地最小化。用 δ表示该最佳值，结果表示为

\overset{&OverBar;}{δ} = \frac{1}{1 + γ} < 1 - - - (58)

注意到在(58)中γ是近似于与频率无关的(至少对N＞1) δ也是与频率无关的。特别的， δ是独立于Φ_x(ω)和Φ_v(ω)，这意味着

的方差和偏差直接地遵循(57)。

δ的值在某些(现实)情况中可以比1小的多。例如，再一次考虑γ_v＝1/τ和γ_x＝1，于是 δ由下式给定

\overset{&OverBar;}{δ} = \frac{1}{2} - \frac{1}{1 + 1 / 2 τ}

其中，清楚地，对于所有τ，它都小于0.5。在这种情况下， δ＜＜1这种事实指出在PSD估计值中的不确定性(并且，特别的指

中的不确定性)对输出质量(以PSD误差表示)有很大的影响。特别地，δ＜＜1的使用意味着从输入到输出信号，语音噪声比的改进是小的。

一个产生的问题是是否相似于附录D里IPS方法的加权函数一样，这里也存在一个与数据无关的加权函数 G(ω)。在附录G中，得出了这样一种方法(被表示为δIPS)。

附录G

的推导

在该附录里，我们探索一种与数据无关的加权因子 G(ω)，使得对于一些常数δ(0≤δ≤1)

\hat{H} (ω) = \sqrt{\bar{G} (ω)} \hat{H_{δPS}} (ω)

最小化平方后的PSD误差的期望，参阅(42)。简单的计算给出

Φ_s(ω)＝(G(ω)-l)Φ_s(ω)+(ω)(l-δ)Φ_v(ω)

G (ω) δ (\frac{Φ_{v} (ω)}{Φ_{x} (ω)} Δ_{x} (ω) - Δ_{v} (ω)) - - - (59)

平方后的PSD误差的期望由下面给出

E {[{\overset{&OverBar;}{Φ}}_{s} (ω)]}^{2} = {(G (ω) - 1)}^{2} Φ_{s}^{2} (ω) + G^{2} (ω) {(1 - δ)}^{2} Φ_{v}^{2} (ω)

2 (G (ω) - 1) Φ_{s} (ω) G (ω) (1 - δ) Φ_{v} (ω) + G^{2} (ω) δ^{2} γ Φ_{v}^{2} (ω) - - - (60)

(60)的右边是G(ω)二次式并可被解析地最小化。结果 G(ω)由下面给出 G(ω) ＝

\frac{Φ_{s}^{- 2} (ω) + Φ_{s} (ω) Φ_{v} (ω) (1 - δ)}{Φ_{s}^{2} (ω) + 2 Φ_{s} (ω) Φ_{v} (ω) (1 - δ) + {(1 - δ)}^{2} Φ_{v}^{2} (ω) + δ^{2} γ Φ_{v}^{2} (ω)}

= \frac{1}{2 + β {(\frac{Φ_{v} (ω)}{Φ_{x} (ω) - Φ_{v} (ω)})}^{2}} - - - (61)

其中，第二个等式处的β由下面给出

β = \frac{{(1 - δ)}^{2} + δ^{2} γ + (1 - δ) Φ_{s} (ω) / Φ_{v} (ω)}{1 + (1 - δ) Φ_{v} (ω) / Φ_{s} (ω)} - - - (62)

对于δ＝1，以上(61)-(62)变为IPS方法(45)，对于δ＝0，我们以标准PS结束。用相应的估计量

和，分别替换(61)-(62)中的Φ_s(ω)和Φ_v(ω)，将产生一种方法，以IPS方法的角度，它被表示为δIPS。对δIPS方法的分析相似于对IPS方法的分析，但需要很多的努力和冗长的简单计算，因此在这里被忽略。

参考文献

[1]S.F.Boll，″使用谱削减对语音的声学噪声的抑制″，IEEE关于声学、语音和信号处理的会议方集，卷.ASSP-27，4月1979，pp.113-120.

[2]J.S.Lim and A.V.Oppenheim，″含噪声语音的增强和带宽抑制″.IEEE会刊，卷.67，No.12，12月1979，pp.1586-1604.

[3]J.D.Gibson，B.Koo and S.D.Gray，″用于语音增强和编码目的的带色噪声滤波″，IEEE关于声学、语音和信号处理的会议文集，卷.ASSP-39，No.8，八月1991，pp.1732-1742.

[4]J.H.L Hansen and M.A.Clements，″语音识别用途的约束迭代语音增强″，IEEE信号处理文集，卷.39，No.4，4月1991，pp.795-805.[5]D.K.Freeman，G.Cosier，C.B.Southcott and I.Boid，″泛欧数字蜂窝移动电话服务的话音活动性检测器″，1989 IEEE声学、语音及信号处理国际会议，格拉斯哥，苏格兰，1989年三月23-26日，PP.369-372。6]PCT申请WO89/08910，英国电信PLC.