CN103559887B

CN103559887B - 用于语音增强系统的背景噪声估计方法

Info

Publication number: CN103559887B
Application number: CN201310538432.3A
Authority: CN
Inventors: 张勇; 刘轶
Original assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Current assignee: PKU-HKUST SHENZHEN-HONGKONG INSTITUTION
Priority date: 2013-11-04
Filing date: 2013-11-04
Publication date: 2016-08-17
Anticipated expiration: 2033-11-04
Also published as: CN103559887A

Abstract

本发明公开一种用于语音增强系统的背景噪声估计方法，包括如下步骤：对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换，得到目标信号的频域表示：Y(k,l)=X(k,l)+D(k,l)；将所述目标信号根据语音出现与否划分为语音出现状态H₁(k,l)和语音缺失状态H₀(k,l)，并按照如下公式分别估计噪声上述方法中，引入了残差噪声I_n(k,l)，残差噪声I_n(k,l)的本质是在噪声估计算法中引入反馈机制对估计的噪声进行自适应调节，因此解决了在语音出现状态下的噪声估计不准确的问题。

Description

用于语音增强系统的背景噪声估计方法

技术领域

本发明涉及语音增强处理技术领域，特别是涉及一种用于语音增强系统的背景噪声估计方法。

背景技术

在语音增强处理的过程中，比较关键的一步就是对背景噪声的估计。噪声估计过高，在滤除噪声时微弱语音将被去掉，使得经过增强处理的语音产生大的失真；而噪声估计过低，在滤除噪声后会残留过多的背景噪声。当背景噪声为平稳噪声时，通过对静音段的噪声功率谱取均值可得噪声的估计值。当背景噪声为非平稳噪声时，由于噪声随时间快速变化，噪声的估计就比较困难，要克服这个问题，需要对噪声进行连续跟踪与修正。

传统的噪声估计法是基于语音活动检测（Voice Activity Detector，VAD）的噪声估计方法。该方法在信噪比较高的情况下可以得到较好的噪声估计，但是在低信噪比的情况下，对语音信号的检测变得比较难，VAD的误检率很高，噪声估计不准确。

实际噪声通常是非平稳的，在语音存在期间噪声也可能发生变化，要想取得好的语音增强效果，就必须随时跟踪噪声的变化，及时更新噪声估计。Doblinger通过比较前帧带噪语音子带平滑功率谱最小值和后帧带噪语音子带平滑功率谱之间大小，对带噪语音子带平滑功率谱最小值每帧进行追踪和更新，并将其作为估计的噪声谱，该噪声谱估计方法计算效率高，能快速适应背景噪声的变化，但它直接把带噪语音子带平滑功率谱最小值作为估计的噪声谱，使得估计的噪声谱准确度不高，同时它会将带噪语音中语音电平的突然上升当作噪声电平突变的情况来处理，造成噪声的过估计。

Martin提出了基于最优平滑和最小统计的噪声估计算法，它依据带噪语音能量可以衰减到噪声能量级的思想，通过对平滑后的带噪语音的短时功率谱取最小值来获得噪声功率估计。然而，该方法在估计噪声时，当搜索窗较小时会削弱语音能量，当搜索窗太大时，其噪声估计更新较慢难以实时估计噪声。

Israel Cohen提出了改进的最小受控递归平均（Improved Minima ControlledRecursive Average，IMCRA）噪声估计法，其可以进行连续的噪声估计。算法使用一个时变频率依赖的平滑因子对过去信号帧的功率谱进行平均后估计噪声，该平滑因子依据语音信号存在概率调整。语音出现概率的估计基于高斯统计模型，但受平滑周期图的最小值控制控制。该算法包括两次平滑和最小值跟踪过程。第一次平滑过程对每个频带语音出现情况做粗略的估计，然后在第二次平滑过程中通过最小值跟踪剔除强语音分量，对噪声谱进行平滑。但是,现有的IMCRA噪声估计方法是在语音缺失段对噪声进行递归平滑而在语音段则对噪声的估计保持不变。然而，在实际情况中，噪声通常是非平稳的，即使在语音信号存在期间，噪声也可能会发生变化。

发明内容

基于此，有必要提供一种能够实时跟踪带噪语音中的噪声变化的背景噪声估计方法。

一种语音噪声估计方法，包括如下步骤：

对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换，得到目标信号的频域表示：Y(k,l)=X(k,l)+D(k,l)；其中Y(k,l)是带噪语音信号进行快速傅立叶变换变换后的频谱，X(k,l)是纯语音信号进行快速傅立叶变换变换后的频谱，D(k,l)是与语音信号无关的加性噪声进行快速傅立叶变换变换后的频谱；k表示频谱序号，l表示帧序号；

将所述目标信号根据语音出现与否划分为语音出现状态H₁(k,l)和语音缺失状态H₀(k,l)，并按照如下公式估计噪声：

H_{0} (k, l) : {\overset{&OverBar;}{λ}}_{d} (k, l + 1) = α_{d} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{d}) {| Y (k, l) |}^{2};

H_{1} (k, l) : {\overset{&OverBar;}{λ}}_{d} (k, l + 1) = α_{p} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{p}) {| I_{n} (k, l) |}^{2};

得到：

{\overset{&OverBar;}{λ}}_{d} (k, l + 1) = [α_{p} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{p}) {| I_{n} (k, l) |}^{2}] p (k, l) + [α_{d} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{d}) | Y {(k, l)}^{2} |] (1 - p (k, l))

其中：为第l+1帧的噪声估计，为第l帧的噪声估计，α_d和α_p为根据不同的背景噪声取不同的常数的平滑因子，|Y(k,l)|为目标信号的谱幅度，|I_n(k,l)|为残差信号的谱幅度；p(k,l)为语音信号出现概率；

所述残差信号为：

I_n(k,l)＝(1-G(k,l))|Y(k,l)|²；

其中：G(k,l)为语音增强系统中的谱增益函数。

在其中一个实施例中，所述短时傅立叶变换基于假定变换系数为复高斯分布的前提下。

在其中一个实施例中，进一步包括：

利用条件语音出现概率对噪声估计进行递归平均得到：

其中：

p(k,l)＝P(H₁(k,l)|Y(k,l))为语音存在概率。

在其中一个实施例中，进一步地，

φ = \{\begin{matrix} (1 - α_{p}) p (k, l) & p (k, l) &GreaterEqual; φ_{0} \\ 0 & p (k, l) < φ_{0} \end{matrix};

其中，φ₀为根据需要取常数的概率门限阈值。。

在其中一个实施例中，进一步对噪声估计进行偏差补偿：

{\hat{λ}}_{d} (k, l + 1) = β \cdot {\overset{&OverBar;}{λ}}_{d} (k, l + 1)

其中β为补偿因子，其定义为：

β = \frac{λ_{d} (k, l)}{E {{\overset{&OverBar;}{λ}}_{d} (k, l)}} |_{ξ (k, l) = 0};

λ_x(k,l)＝E{|X(k,l)|²|H₁(k,l)}，λ_d(k,l)＝E{|D(k,l)|²}，分别代表第k个频谱分量的方差，ξ(k,l)为先验信噪比；

ξ (k, l) = \frac{λ_{x} (k, l)}{λ_{d} (k, l)} .

在其中一个实施例中，α_p为0.998。

在其中一个实施例中，进一步包括最小受控估计的步骤，所述最小受控估计的步骤用于估计先验语音不存在概率q(k,l)，且p(k,l)+q(k,l)=1。

在其中一个实施例中，所述噪声估计方法基于采用维纳滤波法的语音增强系统，所述谱增益函数G(k,l)为：

G (k, l) = \frac{ξ (k, l)}{1 + ξ (k, l)};

ξ (k, l) = \frac{λ_{x} (k, l)}{λ_{d} (k, l)} .

在其中一个实施例中，所述噪声估计方法基于采用谱减法的语音增强系统，所述谱增益函数G(k,l)为：

G (k, l) = 1 - \frac{1}{γ (k, l)} .

式中λ_d(k,l)＝E{|D(k,l)|²}代表第k个频谱分量的方差，Y(k,l)是带噪语音信号进行快速傅里叶变换变换后的频谱，γ(k,l)定义为后验信噪比：

γ (k, l) = \frac{{| Y (k, l) |}^{2}}{λ_{d} (k, l)} .

在其中一个实施例中，所述噪声估计方法基于采用MMSE-LSA估计法的语音增强系统，所述谱增益函数G(k,l)为：

G (k, l) = \frac{ξ (k, l)}{1 + ξ (k, l)} \exp {\frac{1}{2} {&Integral;}_{v (k)}^{\infty} \frac{e^{- t}}{t} dt};

式中，λ_x(k,l)＝E{|X(k,l)|²|H₁(k,l)}，λ_d(k,l)＝E{|D(k,l)|²}，分别代表第k个频谱分量的方差，ξ(k,l)为先验信噪比；

ξ (k, l) = \frac{λ_{x} (k, l)}{λ_{d} (k, l)} .

上述方法中，引入了残差噪声I_n(k,l)，残差噪声I_n(k,l)的本质是在噪声估计算法中引入反馈机制对估计的噪声进行自适应调节，因此解决了在语音出现状态下的噪声估计不准确的问题。

附图说明

图1为噪声估计过程框图；

图2为一实施例的噪声估计方法流程图。

具体实施方式

如图1所示，为噪声估计框图。其过程大致如下。

对带噪语音进行包括增益处理在内的处理得到残差噪声。

依据该带噪语音和残差噪声分别处理语音出现状态和语音缺失状态下的实时噪声估计。

还可以包括最小受控估计的步骤。

如图2所示，一实施例的噪声估计方法流程图。该方法包括如下步骤。

步骤S101：对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换。

用x(n)和d(n)分别表示纯语音信号和非相关的加性噪声，令目标信号（带噪语音信号）为y(n)，即y(n)=x(n)+d(n)。对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换，在频域可以得到：

Y(k,l)=X(k,l)+D(k,l) (1)

式(1)中k表示频谱序号，l表示帧序号。

步骤S102：将所述目标信号根据语音出现与否划分为语音出现状态和语音缺失状态，并分别估计两种状态下的噪声。

对带噪语音信号根据语音是否存在划分为2个状态，并假设H₁(k,l)代表语音出现状态，H₀(k,l)代表语音缺失状态。同时，假定语音和噪声的短时傅立叶变换系数为复高斯分布的情况下，可以得到目标信号的条件概率密度函数：

f (Y (k, l) | H_{0} (k, l)) = \frac{1}{{πλ}_{d} (k, l)} \exp {- \frac{{| Y (k, l) |}^{2}}{λ_{d} (k, l)}} - - - (2)

f (Y (k, l) | H_{1} (k, l)) = \frac{1}{π (λ_{x} (k, l) + λ_{d} (k, l))} \exp {- \frac{{| Y (k, l) |}^{2}}{λ_{x} (k, l) + λ_{d} (k, l)}} - - - (3)

式(2)和式(3)中λ_x(k,l)＝E{|X(k,l)|²|H₁(k,l)}，λ_d(k,l)＝E{|D(k,l)|²}，分别代表第k个频谱分量的方差。

假定ξ(k,l)、γ(k,l)分别为先验信噪比和后验信噪比，其定义为：

ξ (k, l) = \frac{λ_{x} (k, l)}{λ_{d} (k, l)} - - - (4)

γ (k, l) = \frac{{| Y (k, l) |}^{2}}{λ_{d} (k, l)} - - - (5)

基于上述先验信噪比和后验信噪比的定义，后验信噪比的概率密度函数可以表示为：

f(γ(k,l)|H₀(k,l))＝e^-γ(k,l)u(γ(k,l)) (6)

f (γ (k, l) | H_{1} (k, l)) = \frac{1}{1 + ξ (k, l)} \cdot \exp {- \frac{γ (k, l)}{1 + ξ (k, l)}} u (γ (k, l)) - - - (7)

式(6)和式(7)中u(·)是单位阶跃函数，即当γ≥0时u(γ)＝1，其它情况下u(γ)＝0。

假设q(k,l)＝P(H₀(k,l))为先验语音不存在概率，定义p(k,l)＝P(H₁(k,l)|Y(k,l))为语音存在概率，定义Λ(k,l)为归一化的释然率，即：

Λ (k, l) = \frac{1 - q (k, l)}{q (k, l)} \frac{p (Y (k, l) | H_{1} (k, l))}{p (Y (k, l) | H_{0} (k, l))} - - - (8)

对语音存在概率应用贝叶斯定理可得：

P (H_{1} (k, l) | Y (k, l)) = \frac{p (k, l) \cdot P (Y (k, l) | H_{1} (k, l))}{p (k, l) \cdot P (Y (k, l) | H_{1} (k, l)) + q (k, l) \cdot P (Y (k, l) | H_{0} (k, l))} - - - (9)

由式(8)和式(9)可得：

p (k, l) = P (H_{1} (k, l) | Y (k, l)) = \frac{Λ (k, l)}{1 + Λ (k, l)} - - - (10)

将式(2)和式(3)代入式(8)和式(10)化简可得：

p (k, l) = {1 + \frac{q (k, l)}{1 - q (k, l)} (1 + ξ (k, l)) \exp (- v (k, l))}^{- 1} - - - (11)

式(11)中

v (k, l) = \frac{γ (k, l) ξ (k, l)}{1 + ξ (k, l)} .

对于噪声估计，针对2个状态的不同特点分别进行噪声估计。对语音缺失状态H₀(k,l)有：

H_{0} (k, l) : {\overset{&OverBar;}{λ}}_{d} (k, l + 1) = α_{d} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{d}) {| Y (k, l) |}^{2} - - - (12)

对语音出现状态H₁(k,l)则有：

H_{1} (k, l) : {\overset{&OverBar;}{λ}}_{d} (k, l + 1) = α_{p} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{p}) {| I_{n} (k, l) |}^{2} - - - (13)

式(13)中α_p为平滑因子，其为一个常数，I_n(k,l)为残差噪声，其定义为：

I_n(k,l)＝(1-G(k,l))|Y(k,l)|² (14)

式(14)中，G(k,l)定义为语音增强算法中的谱增益函数。

不同的语音增强系统，其对应的谱增益函数G(k,l)不同。例如，对于维纳滤波法，其增益函数为：

G (k, l) = \frac{ξ (k, l)}{1 + ξ (k, l)};

对于谱减法，其增益函数为：

G (k, l) = 1 - \frac{1}{γ (k, l)};

对于MMSE-LSA估计法，其增益函数为：

G (k, l) = \frac{ξ (k, l)}{1 + ξ (k, l)} \exp {\frac{1}{2} {&Integral;}_{v (k)}^{\infty} \frac{e^{- t}}{t} dt} .

结合输入信号的2状态划分，在语音出现不确定的条件下利用条件语音出现概率对噪声估计进行递归平均可以得到：

{\overset{&OverBar;}{λ}}_{d} (k, l + 1) = [α_{p} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{p}) {| I_{n} (k, l) |}^{2}] p (k, l) + [α_{d} {\overset{&OverBar;}{λ}}_{d} (k, l) + (1 - α_{d}) | Y {(k, l)}^{2} |] (1 - p (k, l)) - - - (15)

对式(15)化简可得：

其中，式(16)中有：

τ＝α_d+(α_p-α_d)p(k,l) (17)

φ = (1 - α_{p}) p (k, l) - - - (18)

从式(16)可以看到，相比于传统算法，新算法增加了残差噪声I_n(k,l)，I_n(k,l)考虑到了带噪语音中含有语音时的噪声变化。针对式(18)，我们可以进一步得到：

φ = \{\begin{matrix} (1 - α_{p}) p (k, l) & p (k, l) &GreaterEqual; φ_{0} \\ 0 & p (k, l) < φ_{0} \end{matrix} - - - (20)

式(20)和式(17)中，一个推荐值为φ₀＝0.99，α_p＝0.998，该值可以背景噪声的不同进行调整。

由式(16)可知，平滑系数受语音出现概率调节，而语音出现概率的估计基于带噪语音。同时语音出现概率也修正了纯净语音信号谱估计，因此在算法中往往取偏大值以避免语音失真，相应的利用式(16)估计噪声会噪声估计值偏小，因此需要在噪声估计中用一个偏差补偿系数。

{\hat{λ}}_{d} (k, l + 1) = β \cdot {\overset{&OverBar;}{λ}}_{d} (k, l + 1) - - - (21)

式(21)中为第l帧信号第k个频谱的估计噪声，β为补偿因子，其定义为：

β = \frac{λ_{d} (k, l)}{E {{\overset{&OverBar;}{λ}}_{d} (k, l)}} |_{ξ (k, l) = 0} - - - (22)

传统的方法由于在语音存在期间不对噪声进行更新，因此遇到此种情况，噪声就会被低估或高估，增强后的语音信号中就会含有比较多的残留噪声（噪声低估情况）或者造成严重的语音失真（噪声高估情况），无论哪种情况都会极大降低语音增强算法的增强效果。上述方法中，引入了残差噪声I_n(k,l)，残差噪声I_n(k,l)的本质是在噪声估计算法中引入反馈机制对估计的噪声进行自适应调节，因此解决了在语音出现状态下的噪声估计不准确的问题。

最小受控估计主要用于先验语音不存在概率的估计（即公式(11)中的q(k,l)计算）。先验语音不存在概率和先验语音存在概率的加和为1，也即p(k,l)+q(k,l)=1。这里用表示对的q(k,l)估计，并作为q(k,l)的值。通过获得先验语音不存在概率得到先验语音存在概率，继而完成前述计算。该估计方法包括两次平滑和最小值跟踪：第一次粗略估计每个频带语音出现情况，第二次平滑利用最小值跟踪剔除语音分量并用相对大的平滑窗进行平滑。p(k,l)并不限于利用q(k,l)计算获得，还可以采用其他公开或已知的技术。同时q(k,l)的计算也可以采用其他可行的方法。

令α_s(0＜α_s＜1)表示平滑系数，b表示长度为2w+1的归一化窗函数，并且则每帧噪声功率谱频域平滑定义如下：

S_{f} (k, l) = Σ_{i = - w}^{w} b (i) {| Y (k - i, l) |}^{2} - - - (23)

相应的时域一阶递归平滑为：

S(k,l)＝α_sS(k,l-1)+(1-α_s)S_f(k,l) (24)

S(k,l)的最小值在一个长度为D的有限窗内得到，因此对每个频点：

S_min(k,l)＝min{S(k,l′)|l-D+1≤l′≤l} (25)

定义γ_min(k,l)以及ζ(k,l)：

\begin{matrix} γ_{\min} (k, l) = \frac{{| Y (k, l) |}^{2}}{B_{\min} S_{\min} (k, l)} & ζ (k, l) = \frac{S (k, l)}{B_{\min} S_{\min} (k, l)} \end{matrix} - - - (26)

式(26)中B_min为一个独立于噪声功率谱的常数因子，其与D、α_s、w及谱分析参数相关，其定义为：

B_{\min} = \frac{λ_{d} (k, l)}{E {S_{\min} (k, l) | ξ (k, l) = 0}} - - - (27)

由于假设信号谱和噪声谱都服从高斯分布，则有可以得到γ_min(k,l)以及ζ(k,l)的概率密度函数：

f (γ_{\min} (k, l) | H_{0} (k, l)) \approx e^{- γ_{\min} (k, l)} u (γ_{\min} (k, l)) - - - (28)

f (ζ (k, l) | H_{0} (k, l)) \approx \frac{1}{{(2 / μ)}^{μ / 2} Γ (μ / 2)} ζ {(k, l)}^{μ / 2 - 1} \cdot \exp {- \frac{μζ (k, l)}{2}} u (ζ (k, l)) - - - (29)

式(29)中Γ(·)为伽玛函数，μ为等价自由度。

基于第一次平滑和最小值跟踪可以粗略估计每个频带语音出现情况，即：

式(30)中初始值γ₀和ζ₀满足：

P(γ_min(k,l)≥γ₀|H₀(k,l))＜ε (31)

P(ζ(k,l)≥ζ₀|H₀(k,l))＜ε (32)

由式(28)和式(29)，可以得到：

γ₀＝-logε (33)

ζ_{0} = \frac{1}{μ} F_{χ^{2}; μ}^{- 1} (1 - μ) - - - (34)

式(34)中表示自由度为μ的标准chi-square卷积分布函数。通常可以设ε＝0.01，μ＝0.32，因而由式(33)和式(34)计算可得γ₀＝4.6，ζ₀＝1.67。

经过第一次平滑后，第二次平滑只对包含主要噪声的功率谱分量进行平滑，设第一帧的初始值为然后对l＞0的信号帧结合第一次平滑中得到的语音检测结果在频域中对信号谱进行平滑，可以得到：

在进行频域平滑后，对平滑谱再进行一阶时域平滑：

\tilde{S} (k, l) = α_{s} \tilde{S} (k, l - 1) + (1 - α_{s}) {\tilde{S}}_{f} (k, l) - - - (36)

由式(35)和式(36)可以看出，在平滑过程中剔除较强语音分量能够改进最小值跟踪，特别是平滑系数α_s较大而搜索窗D较小时，可以减小最小值方差以及噪声功率增加时的延时，改进了噪声估计的跟踪能力。

设为第二次最小值跟踪结果，即：

{\tilde{S}}_{\min} (k, l) = \min {\tilde{S} (k, l) | l - D + 1 \leq l^{'} \leq l} - - - (37)

定义以及

\begin{matrix} {\tilde{γ}}_{\min} (k, l) = \frac{{| Y (k, l) |}^{2}}{B_{\min} {\tilde{S}}_{\min} (k, l)} & \tilde{ζ} (k, l) = \frac{S (k, l)}{B_{\min} {\tilde{S}}_{\min} (k,l)} \end{matrix} - - - (38)

由于在第一次平滑中采用了较小的值（ε＝0.01），因此噪声段的VAD影响可以忽略不计，也就是说在平滑过程中剔除强语音分量的影响是可以忽略的。因此，在语音缺失段以及的概率密度函数近似于γ_min(k,l)和ζ(k,l)的概率密度函数。因此，可以采用如下的先验语音缺失概率的软判决准则：

设定阈值γ₁满足：

P ({\tilde{γ}}_{\min} (k, l) > γ_{1} | H_{0} (k, l)) < ϵ_{1} &DoubleRightArrow; γ_{1} \approx - \log (ϵ_{1}) - - - (40)

通常设定ε₁＝0.05，γ₁＝3。

式(39)中假定或者时语音出现，即先验语音概率缺失，当且时语音缺失，即先验语音概率存在，

结合和的目的是防止当语音信号较弱时噪声估计变大，特别是当输入信噪比比较小时。当用提取弱语音分量，弱到小于ζ₀时，大部分语音分量被排除在平均过程之外，残留的语音分量由于与噪声功率相比很小，因而对噪声估计的影响不大。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种用于语音增强系统的背景噪声估计方法，包括如下步骤：

对目标信号利用窗函数分成相互叠加的帧并对每帧进行短时傅立叶变换，得到目标信号的频域表示：Y(k,l)＝X(k,l)+D(k,l)；其中Y(k,l)是带噪语音信号进行快速傅立叶变换后的频谱，X(k,l)是纯语音信号进行快速傅立叶变换后的频谱，D(k,l)是与语音信号无关的加性噪声进行快速傅立叶变换后的频谱；k表示频谱序号，l表示帧序号；

得到：

所述残差信号为：

I_n(k,l)＝(1-G(k,l))|Y(k,l)|²；

其中：G(k,l)为语音增强系统中的谱增益函数。

2.根据权利要求1所述的用于语音增强系统的背景噪声估计方法，其特征在于，所述短时傅立叶变换基于假定变换系数为复高斯分布的前提下。

3.根据权利要求2所述的用于语音增强系统的背景噪声估计方法，其特征在于，进一步包括：

利用条件语音出现概率对噪声估计进行递归平均得到：

其中：τ＝α_d+(α_p-α_d)p(k,l)、φ＝(1-α_p)p(k,l)、

p(k,l)＝P(H₁(k,l)|Y(k,l))为语音存在概率。

4.根据权利要求3所述的用于语音增强系统的背景噪声估计方法，其特征在于，进一步地，

其中，φ₀为根据需要取常数的概率门限阈值。

5.根据权利要求3所述的用于语音增强系统的背景噪声估计方法，其特征在于，进一步对噪声估计进行偏差补偿：

其中β为补偿因子，其定义为：

6.根据权利要求1所述的用于语音增强系统的背景噪声估计方法，其特征在于，进一步包括最小受控估计的步骤，所述最小受控估计的步骤用于估计先验语音不存在概率q(k,l)，且p(k,l)+q(k,l)＝1。

7.根据权利要求1所述的用于语音增强系统的背景噪声估计方法，其特征在于，所述噪声估计方法基于采用维纳滤波法的语音增强系统，所述谱增益函数G(k,l)为：

λ_x(k,l)＝E{|X(k,l)|²|H₁(k,l)}，λ_d(k,l)＝E{|D(k,l)|²}分别代表第k个频谱分量的方差，ξ(k,l)为先验信噪比；

8.根据权利要求1所述的用于语音增强系统的背景噪声估计方法，其特征在于，所述噪声估计方法基于采用谱减法的语音增强系统，所述谱增益函数G(k,l)为：

式中λ_d(k,l)＝E{|D(k,l)|²}代表第k个频谱分量的方差，Y(k,l)是带噪语音信号进行快速傅立叶变换变换后的频谱，γ(k,l)定义为后验信噪比：

9.根据权利要求1所述的用于语音增强系统的背景噪声估计方法，其特征在于，所述噪声估计方法基于采用MMSE-LSA估计法的语音增强系统，所述谱增益函数G(k,l)为：

式中，λ_x(k,l)＝E{|X(k,l)|²|H₁(k,l)}，λ_d(k,l)＝E{|D(k,l)|²}，分别代表第k个频谱分量的方差，ξ(k,l)为先验信噪比，γ(k,l)定义为后验信噪比；