CN1727860B

CN1727860B - 语音噪音抑制方法和语音噪音抑制器

Info

Publication number: CN1727860B
Application number: CN2005100922467A
Authority: CN
Inventors: K·克史达; F·诸葛; H·A·哈利勒; T·王; W·陈
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-06-15
Filing date: 2005-06-15
Publication date: 2010-05-05
Anticipated expiration: 2025-06-15
Also published as: DE602005000539T2; KR20060046450A; CN1727860A; KR101120679B1; DE602005000539D1; EP1607938B1; EP1607938A1; US20050278172A1; JP2006003899A; ATE353466T1; JP4861645B2; US7454332B2

Abstract

一种用于语音的增益受限的噪声抑制能在通话期间更准确地估计噪声，以减少噪声抑制中产生的音乐的人为噪音。通过将频谱增益G(m，k)应用到语音信号的每个短时频谱值S(m，k)上来操作噪声抑制，其中m是帧数目，以及k是频谱指数。频谱值被分组为频率分辨元，以及对每个被分类为“噪声分辨元”的分辨元估计噪声特性。能量参数在时域和频域中被平滑以便提高每个分辨元的噪声估计。基于当前信号频谱和噪声估计来计算增益因子G(m，k)，然后在其被应用到信号频谱值S(m，k)之前被平滑。首先，基于当前帧的噪声分辨元的数目与分辨元的总数之间的比值来计算噪声因子，其中零值噪声因子意味着仅仅对所有的频谱值使用了常数增益且其噪声因子意味着根本没有平滑。然后，该噪声因子被用于改变增益因子，例如通过截止频域中增益因子的高频分量。

Description

语音噪音抑制方法和语音噪音抑制器

技术领域

本发明主要涉及数字音频信号处理，尤其涉及在声音或语音中的噪声抑制。

背景技术

语音信号的噪声抑制(NS)对许多应用来说是有用的。在蜂窝电话中，例如，噪声抑制能够用于消除背景噪声，以便从噪声环境中建立的通话中提供更加容易清晰的语音。同样，噪声抑制能够提高无线电话会议、在线游戏中的语音聊天、基于互联网的语音消息和语音聊天、以及类似通信应用中的感性音质和语音可识度。因为记录环境不是理想的，所以对这些应用来说输入的音频信号典型地是噪声。进一步地，当在声音信号的编码或压缩技术(例如，通过Windows Media Voice编解码器，以及类似编解码器)之前使用时，噪声抑制能提高压缩性能。噪声抑制还能在语音识别之前应用，以提高识别准确度。

有一些公知的用于语音信号中的噪声抑制的技术，例如频谱相减和最小均方误差(MMSE)。几乎所有的这些公知技术抑制噪声都是通过将基于在语音信号中噪声估计的频谱增益G(m，k)应用到语音信号中的每个短时频谱值S(m，k)上，其中m是帧数，以及k是频谱指数。(参见，例如，S.F.Boll，A.V.Oppenheim，“Suppression of acoustic noise in speech using spectral subtraction，”IEEE Trans.Acoustics，Speech and Signal Processing，ASSP-27(2)，1979年4月；和RainerMartin，“Noise Power Spectral Density Estimation Based on Optimal Smoothing andMinimum Statistics，”IEEE Transactions on Speech and Audio Processing，Vol.9，No.pp.504-512，2001年7月.)将很低的频谱增益应用到被估计的包含噪声的频谱值中，以便抑制信号中的噪声。

不幸地，噪声抑制的应用可能将人为失真(可听的“人为产物”)引入语音信号中，例如因为噪声抑制所应用的频谱增益不是太大(消除了多于噪声的成份)就是太小(消除噪音完全失败)。许多NS技术所遭遇的人为产物被叫做音乐噪音，其中NS技术引入了可察觉的人为产物，其作为有旋律的音频信号模式在输入中并没有出现。在这些情况下，这样的音乐噪声除了使出现在输入信号中的语音表现不准确之外，还变得显著和分散注意的。

概述

在这里描述的语音噪声抑制设备中，引入新的增益受限技术，以提高噪声抑制精度并因此减少音乐噪声人为产物的发生。该技术在通话期间估计噪声频谱，而不仅仅在通话暂停期间，以便在长时间通话期间能保持噪声估计更为精确。进一步地，使用噪声估计平滑以达到更好的噪声估计。听音试验显示该增益受限的噪声抑制和噪声估计平滑技术有效地提高了语音信号的声音质量。

该增益受限的噪声抑制与平滑的噪声估计技术能够在噪声抑制设备中使用，该噪声抑制设备通过将频谱增益G(m，k)应用到每个短时频谱值S(m，k)中来实施。这里的m是帧数，以及k是频谱指数。

更尤其在噪声抑制设备的一个例子中，输入的声音信号被分割成帧.将分析窗口应用到每个帧中，然后通过使用快速傅立叶变换(FFT)将信号转换为频域信号S(m，k).将频谱值分组成N个分辨元以用于进一步的处理.当每个分辨元(bin)被分类为噪声分辨元时，对每个分辨元的噪声特性进行估计.在时域和频域中都对能量参数进行平滑，以得到更好的每个分辨元的噪声估计.基于当前信号频谱和噪声估计来计算增益因子G(m，k).在将增益因子应用到信号频谱S(m，k)之前，将增益平滑滤波器应用到平滑增益因子上.将修改后的信号频谱转换为时域以用于输出.

在将增益因子应用到频谱值之前，增益平滑滤波器执行两个步骤以平滑增益因子。首先，计算当前帧的噪声因子ξ(m)∈[0，1]。分辨元是基于噪声分辨元数和分辨元总数的比值来确定的。零值噪声因子ξ(m)＝0表示对所有的频谱值仅仅使用固定增益，而噪声因子ξ(m)＝1表示根本没有进行平滑。然后噪声因子被用于改变增益因子G(m，k)，以产生平滑增益因子Gs(m，k)。在噪声抑制设备的例子中，通过在G(m，k)上应用FFT来实现，然后截止高频分量。

本发明其它的特征和优点将通过参考附图从下面的实施例的详细描述中变得明显。

附图说明

图1是执行在这里所描述的增益受限噪声抑制技术的语音噪声抑制器的框图。

图2是说明在图1中语音噪声抑制器中执行的增益受限噪声抑制处理的流程图。

图3是说明在图2的增益受限噪声抑制处理中将叠加的窗口函数应用到输入的语音信号中的图表。

图4是显示在图2的增益受限噪声抑制处理中所执行的更新确定检测的流程图。

图5和6是显示基于在图2的增益受限噪声抑制处理中所执行的更新确定检测来对噪声统计进行更新(分别为平均数和方差)的流程图。

图7是适于实施图1的语音噪声抑制器的计算环境的框图。

详细描述

下面的描述将关注于在音频或语音处理系统中使用的增益受限噪声抑制技术。如图1所述，在用各种类型的音频信号处理器130处理噪声抑制的语音信号125的结果(例如编码或压缩，语音聊天或无线电话会议，语音识别等等)之前，在增益受限噪声抑制系统100中将该增益受限噪声抑制技术作为一个预处理(通过噪声抑制器120)应用到语音信号115中。音频信号处理器生成处理过的信号输出135(例如语音或音频信号，语音识别或其他分析参数等等)，其可以通过增益受限噪声抑制来改善(例如感性音质，识别或分析精度等等)。

1、具体说明

图2说明在噪声抑制器120(图1)中所执行的增益受限噪声抑制处理200。增益受限噪声抑制处理200从语音信号的输入210开始，例如麦克风或语音信号的记录。语音信号被数字化或以采样率F_s进行定时采样，其典型地是8000、11025、16000、22050Hz或其他适合应用的采样率。然后输入的语音信号具有时序格式或语音信号采样流，表示为x(i)。

在预增强阶段220上，该输入语音信号(x(i))被处理以增强语音，例如，通过高通滤波(虽然可以选择性地应用其他的增强形式).首先，帧被执行以将语音信号采样分组为预置长度N的帧，其可以是160个采样.所述帧语音信号表示为x(m，n)，其中m是帧数，n是在帧内采样数.适用于增强的合适高通滤波能够由下面的公式表示：

H(z)＝1+βz^-1

采用适宜的β值是-0.8。能够通过计算增强的语音信号x_h(m，n)来实现高通滤波器，x_h(m，n)作为与前述采样所对应的输入语音信号采样的加权移动平均值，按如下方程所述：

x_h(m，n)＝x(m，n)+βx(m，n-1)

然后在叠加阶段230和窗口阶段231中将窗口函数300(如图3所示)应用在语音增强信号的叠加帧函数上。在一个实施例中，下面给出了采用窗口长度(L＝256)和帧叠加(L_w＝48)的窗口函数w(n)：

w (n) = \{\begin{matrix} \frac{1}{2} (1 - \cos \frac{n}{L_{w}} π), 0 \leq n < L_{w} \\ 1, L_{w} \leq n < N \\ \frac{1}{2} (1 - \cos \frac{N + L_{w} - n - 1}{L_{w}} π), N \leq n < N + L_{w} \\ 0, N + L_{w} \leq n < L \end{matrix}\}

该窗口函数与增强的(高通滤波的)信号x_h(m，n-L_w)的叠加帧(x_w)相乘，如下面所给出的：

x_{w} (n) = \{\begin{matrix} x_{h} (m - 1, n + N - L_{W}), 0 \leq n < L_{w} \\ x_{h} (m, n), L_{w} \leq n < N + L_{w} \\ 0, N + L_{w} \leq n < L \end{matrix}\}

该乘法运算生成窗口函数s_w(m，n)，如下方程式所述：

s_w(m，n)＝x_w(n)w(n)，0≤n＜L

在窗口之后，通过频率分析(例如使用快速傅立叶变换(FFT)240或其他类似变换)将语音信号转换为频域。这会生成用于每个信号帧的一组频谱系数或频谱，如下述方程式：

S(m，k)＝FFT_L(s_w(m，n))

频谱系数是混合值，因此根据如下关系所示其即表示语音信号的频谱振幅(S_A)，也表示相位(S_P)：

S_A(m，k)＝|S(m，k)|

S_P(m，k)＝tan^-1S(m，k)

在接下来的处理中分析频谱振幅以提供在噪声抑制中所使用的更精确的增益估计，而相位被保持以用于逆FFT。

在阶段250-251中，对每个帧在频谱的能带上执行频域和时域平滑。首先按如下方程执行在频域上可调的窗口平滑：

S_{0} (m, k) = \frac{1}{2 k_{s} + 1} Σ_{k = k - k_{s}}^{k + k_{s}} S_{A}^{2} (m, k)

接下来的时域平滑按如下方程式所述：

S_{s} (m, k) = \{\begin{matrix} S_{0} (m, k), m = 0 \\ α S_{0} (m - 1, k) + (1 - α) S_{0} (m, k), m > 0 \end{matrix}\}

其中

α = \frac{\frac{γ}{N / F_{s}} - 1}{\frac{γ}{N / F_{s}} + 1}

这里，γ值是一个可以被任意选择以控制平滑的数值的参数。特别地，当γ值逼近比率(N/F_s)时，则α趋近于0，当应用上述时域平滑时导致较少的平滑。另一方面，当值变大(γ→∞)时，则α逼近于固定值，导致较多的平滑。

阶段260和261分别计算帧能量和历史最低能量。根据下面方程式来计算帧能量：

S_{E} (m) = Σ_{k = 0}^{k - 1} S_{s} (m, k)

通过下面方程式给出历史最低能量：

S_{\min} (m) = \min_{l = m - M + 1}^{m - 1} S_{E} (l)

其中M是常数参数，典型地表示为1或2秒。

在更新检测阶段262中，噪声抑制器120判断是否更新语音信号的噪声统计，其在频率分辨元基础上被追踪。噪声抑制器120将语音信号帧的频谱值分组为多个频率分辨元。在所描述的实施例中，频谱值(k)被分组为每个频率分辨元一个频谱值。然而，在可选择的实施例中，能够做出帧频谱值到频率分辨元的各种其它分组，例如每个频率分辨元多于一个的频谱值，或频谱值到频谱分辨元的不统一的分组。

图4说明了一个在更新检测阶段270(图2)中使用用噪声抑制120(图1)的过程400，以确定是否和怎样更新语音信号的噪声统计。在过程400中，噪声抑制器确定在当前语音信号帧中重置噪声统计，还确定是否更新每个频率分辨元的噪声统计。噪声抑制器在每个语音信号的帧上执行该过程。

首先，在确定是否重置噪声统计中，噪声抑制器对语音信号检测(判定410)帧能量是否低于历史最低能量的第一域值倍数(λ₁)(其通常表示语音中的暂停)，如下方程式所示：

S_E(m)＜λ_IS_min(m)

如果这样(在块415中)，噪声抑制器对帧到帧设置重置标记(R(m)＝1)，其表示噪声统计在当前帧中被重置。

另外，噪声抑制器接下来检测是否更新频率分辨元。对于该检测(判断420)，噪声抑制器检测帧能量是否低于历史最低能量的第二(较高)域值的倍数(λ₂)(其通常表示持续语音暂停)，如下方程式所示：

S_E(m)＜λ₂S_min(m)

如果这样，噪声抑制器对帧频率分辨元到帧频率分辨元设置更新标记(即，U(m，k)＝1).

另外(在“for”循环块430，460里)，噪声抑制器在每个频率分辨元上确定是否更新相应的频率分辨元。对每个频率分辨元来说，噪声抑制器检测帧能量是否低于先前帧中相应的频率分辨元的噪声平均值和噪声方差的函数(判断440)，如下方程式所示：

{\log S}_{E} (m) < S_{M} (m - 1, k) + λ_{3} \sqrt{S_{V} (m - 1, k)}

如果频率分辨元能量的对数低于先前帧中的频率分辨元的噪声平均值和噪声方差的阈值函数，那么在块445中噪声抑制器对频率分辨元到频率分辨元设置更新标记(U(m，k)＝1)。否则在块445中将当前频率分辨元的更新标记设置为没有更新的零(U(m，k)＝0)。

再次参考图2，在块263中噪声抑制器根据在块262中作出的更新判定来更新每个频率的噪声频谱统计。噪声统计跟踪包括噪声平均值和噪声方差的每个频率分辨元。

图5说明了用于更新语音信号帧的噪声平均值的过程500。在噪声平均值更新过程500的初始判断510中，噪声抑制器检测是否重置表示帧的噪声统计的重置标记(即，如果R(m)＝1)。如果是这样，噪声抑制器重置频率分辨元的噪声平均值计算结果(0≤k＜K)，如下方程式所示：

S_M(m，k)＝logS_S(m，k)

否则，如果没有设置帧的重置标记(R(m)≠1)，那么噪声抑制器根据它们的更新标记来更新频率分辨元的噪声平均值。在“for”循环520，550中，噪声抑制器检测每个频率分辨元的更新标记(判断530)。如果更新标记被设置(U(m，k)＝1)，用于频率分辨元的噪声平均值作为先前帧中频率分辨元的噪声平均值与当前帧频率分辨元的语音信号的加权和被更新，如下方程式所示：

S_M(m，k)＝α_MS_M(m-1，k)+(1-α_M)logS_S(m，k)

否则，频率分辨元的噪声平均值不被更新，并因此从先前帧中被转入，如下方程式所示：

S_M(m，k)＝S_M(m-1，k)

图6描述了用于更新语音信号帧的噪声方差的过程600。在噪声平均值更新过程600的初始判断610，噪声抑制器检测是否重置了表示帧噪声统计的重置标记(即，是否R(m)＝1)。如果是这样，噪声抑制器重置频率分辨元的噪声方差计算值(0≤k＜K)，如下方程式所示：

S_V(m，k)＝|logS_S(m，k)-S_M(m，k)|²

否则，如果没有设置帧的重置标记(R(m)≠1)，那么噪声抑制器根据它们的更新标记来更新频率分辨元的噪声方差。在“for”循环620，650中，噪声抑制器检测每个频率分辨元的更新标记(判断630)。如果更新标记被设置(U(m，k)＝1)，用于频率分辨元的噪声方差作为先前帧中频率分辨元的噪声方差与当前帧频率分辨元的语音信号的噪声方差的加权函数被更新，如下方程式所示：

S_V(m，k)＝α_VS_V(m-1，k)+(1-α_V)|logS_S(m，k)-S_M(m，k)|²

否则，频率分辨元的噪声方差不被更新，并因此从先前帧中被转入，如下方程式所示：

S_V(m，k)＝S_V(m-1，k)

再次参考图2，在增益受限噪声抑制处理200的接下来的阶段270-271中的噪声抑制器基于从阶段263中作为增益滤波器被提供的当前信号频谱和噪声估计来计算和平滑增益因子(G(m，k))，以便在阶段272中改变语音信号频谱。

在信噪比(SNR)增益滤波器阶段270中，噪声抑制器开始计算频率分辨元的SNR，如下方程式所示：

SNR (m, k) = \frac{S_{S} (m, k)}{\exp (S_{M} (m, k))}

然后噪声抑制器用SNR来计算用于增益抑制器的增益因子，如下所示：

G (m, k) = \sqrt{\frac{SNR (m, k) - γ_{a}}{γ_{b}}}

G (m, k) = \{\begin{matrix} G_{\min}, G (m, k) < G_{\min} \\ G (m, k), G_{\min} \leq G (m, k) < G_{\max} \\ G_{\max}, G_{\max} \leq G (m, k) \end{matrix}\}

在增益平滑阶段271中，噪声抑制器然后根据帧的“噪声”计算值(在这里称为“噪声因子”)来平滑增益因子，其中对更多的噪声帧提供的平滑比提供给语音帧的要强。噪声抑制器计算帧的噪声比，其作为噪声频率分辨元(即标记用于更新的分辨元)的数目与分辨元的总数之间的比值，如下所示：

R_{N} (m) = \frac{1}{K} Σ_{k = 0}^{K - 1} U (m, k)

噪声抑制器然后计算帧的平滑因子(在范围0到1之间)，如下所示：

M(m)＝(M_max-M_min)R_N(m)+M_min

M (m) = \{\begin{matrix} 0, M (m) < 0 \\ M (m), 0 \leq M (m) < 1 \\ 1,1 \leq M (m) \end{matrix}\}

在该实施例中，噪声抑制器提供频域中的平滑，使用FFT将增益滤波器转换为频域。对于频域转换来说，噪声抑制器一组从增益因子(G(m，k))中计算出扩展的增益因子(G′(m，k))，如下所示：

G^{'} (m, k) = \{\begin{matrix} G (m, k), 0 < k < K \\ G (m, L - k), K \leq k < L \end{matrix}\}

其中K示频率分辨元的数目。L典型地是2K。扩展的增益因子如此有效地从0到K-1复制增益因子，并从K到L-1复制增益因子的镜象。

然后噪声一直器通过扩展增益因子的FFT来计算增益频谱(g(Λ))，如下所示：

g(Λ)＝FFT(G′(m，k))

FFT生成具有混合值的频谱系数，从中按如下所示计算增益频谱的振幅和相位：

g_A(Λ)＝|g(Λ)|

g_P(Λ)＝tan^-1(g(Λ))

然后噪声抑制器通过增益频谱的零位高频分量来平滑增益滤波器。噪声抑制器基于所述数目上的平滑因子(M(m))和零位分量来保持若干增益频谱系数直到某一数目，其根据如下方程式：

N_g＝roundoff[(1-M(m))(k-1)]+1

如此以致

g_{A}^{'} (\overset{&OverBar;}{Λ}) = \{\begin{matrix} g_{A} (\overset{&OverBar;}{Λ}), 0 \leq \overset{&OverBar;}{Λ} < N_{g} \\ 0, N_{g} \leq \overset{&OverBar;}{Λ} \end{matrix}\}

然后提供逆FFT给该减少的增益频谱以便生成平滑增益滤波器，其通过：

G_S(m，k)＝IFFT(g′_A(Λ)，g_P(Λ))

该基于平滑的FFT有效地对近于零点的平滑因子(例如，具有在帧内由更新标记所标记的没有或少的“噪声”频率分辨元)进行少的或不进行平滑，并作为趋近于1的平滑因子对增益滤波器向常数进行平滑(例如，具有所有的或几乎所有的“噪声”分辨元)。因此，对零点平滑因子(M(m)＝0)来说，平滑增益滤波器是：

G_S(m，k)＝G(m，k)

而对于平滑因子等于1(M(m)＝1)来说，平滑增益滤波器是：

G_{s} (m, k) = \frac{1}{k} Σ_{i = 0}^{k - 1} G (m, i)

在接下来的阶段272中，噪声抑制器提供平滑的增益滤波器结果给语音信号帧的平谱振幅，如下所示：

S′_A(m，k)＝S_A(m，k)G_s(m，k)

作为噪声统计估计和平滑处理的结果，提供给噪声分辨元的增益因子应当相对于非噪声平率分辨元是比较低的，以便语音信号中的噪声被抑制。

在阶段280中，噪声抑制器提供逆变换给作为由增益滤波器改变的语音信号的频谱，如下所示：

y₀(m，n)＝IFFT_L(S′_A(m，k)，S_P(m，k))

然后在阶段281，282中提供叠加和预加重(高通滤波)的逆变换，以便生成噪声抑制器的最后输出290，如下公式所示：

y_{1} (m, n) = \{\begin{matrix} y_{0} (m - 1, n + N) + y_{0} (m, n), 0 \leq n < N - L \\ y_{0} (m, n), N - L \leq n < N \end{matrix}\}

y(m，n)＝y₁(m，n)-βy(m，n-1)

2、计算环境

上面所描述的噪声抑制系统100(图1)和增益受限噪声抑制处理200能在任何多种装置中能被实施，其中在所述装置中执行音频信号处理，包括在其他例子中的计算机；音频播放，传输和接收装置；便携音频播放器；音频会议；网络音频流应用等等。增益受限噪声抑制能够在硬件电路中(例如，在ASIC，FPGA等电路中)实施，还可以在如图7所示的计算机或其他计算环境中执行的音频处理软件中实施(不管在中央处理单元(CPU)中还是在数字信号处理器，音频卡等等中执行)。

图7描述了在其中可以适合实施所描述的增益受限噪声抑制的计算环境(700)的一般例子。计算环境(700)不打算建议关于本发明的使用范围或功能的任何限制，因为本发明可以在各种一般目的或特殊目的的计算环境中实施。

参考图7，计算环境(700)包括至少一个处理单元(710)和存储器(720)。在图7中，最基本的结构(730)包含在虚线内。处理单元(710)执行计算机可读指令并可以是真实的或虚拟的处理器。在多处理系统中，多处理单元执行计算机可读指令以增加处理能力。存储器(720)可以是易失性存储器(例如，寄存器，超高速缓冲存储器，RAM)，非易失性存储器(例如，ROM，EEPROM，闪存等)，或两者的一些组合。存储器(720)存储实施所述增益受限噪声抑制技术的软件(780)。

计算环境可以具有附加特征.例如，计算环境(700)包括存储器(740)，一个或多个输入装置(750)，一个或多个输出装置(760)，以及一个或多个通信连接(770).例如总线、控制器、或网络这样的互连机制(未显示)与计算环境(700)的各部分互连.典型地，操作体统软件(未显示)提供用于在计算环境(700)中执行其他软件的操作环境，并协调计算环境(700)各部分的活动.

存储器(740)可以是可拆卸或不可拆卸的，并包括磁盘，磁带或盒式磁带，CD-ROMs，CD-RWs，DVDs，或能用于存储信息并能在计算环境(700)中被访问的任何其他介质。存储器(740)存储用于可实施增益受限噪声抑制处理200(图2)的软件(780)的指令。

输入装置(750)可以是例如键盘、鼠标、笔、或跟踪球这样的触动式输入装置，声音输入装置，扫描装置，或其它可以向计算环境(700)提供输入的设备。对于音频来说，输入装置(750)可以式声卡或可以模拟或数字格式接收音频输入的类似装置，或可向计算环境提供音频采样的CD-ROM阅读器。输出装置(760)可以是显示器，打印机，扬声器，CD复写器，或其它可从计算环境(700)中提供输出的装置。

通信连接(770)通过通信介质与其他计算机构进行通信。通信介质传输诸如计算机可读质量、压缩音频或视频信息、或在调制数据信号中的其它数据这样的信息。调制数据信号是一个具有以在信号中编码信息这样的方式来设置或改变其一个或多个特征的信号。通过例子的方式，并不限制于，通信介质包括采用电子、光学、RF、红外线、声学、或其他载波来实施的有线或无线技术。

计算机可读介质的一般上下文中描述了此处的快述耳机虚拟化技术。计算机可读介质是可利用介质，其能在计算环境中被访问。通过例子的方式，并不限制于，通过计算环境(700)，计算机可读介质包括储存器(720)、存储器(740)、通信介质、以及上述任何的组合。

计算机可读指令的一般上下文中描述了此处的快速耳机虚拟化技术，例如它们包括在程序模块中，在目标真实或虚拟的处理上的计算环境中执行。通常，程序模块包括例行程序、程序、程序库、目标程序、分类、分量、数据结构等等，其可执行特别的任务或实施特别的抽象数据类型。程序模块的功能可以在各种实施例中所需的程序模块之间进行组合或分离。用于程序模块的计算机可读指令可以在本地或分布的计算环境中执行。

由于介绍的缘故，详细的描述中使用术语“确定”、“产生”、“调整”、和“应用”来描述在计算环境中计算机操作。这些术语是用于计算机执行操作的高级抽象，并不应该于人的行为相混淆。对应这些术语的现行计算机操作依据实施而改变。

考虑到本发明的原理可以应用到许多可能的实施例上，我们要求像下面权利要求及其等价的范围和精神下可以得到的那样的本发明所有实施例。

Claims

1.一种语音噪声抑制方法，包括：

将输入语音信号的帧转换为具有多个频谱值的频域表示；

将多个频率分辨元分类为噪声或非噪声；

计算用于频率分辨元的多个增益因子；

基于噪声分辨元数目与频率分辨元的总数之间的比值来计算噪声因子，从表现为非平滑的值到表现为平滑的值之间将增益因子变化为常数增益；

根据噪声因子来平滑增益因子；以及

通过将增益因子应用到相关的频谱值上来修正频谱值；以及

变换修正的频谱值以生成输出语音信号。

2.如权利要求1所述的语音噪声抑制方法，其中平滑增益因子包括：

将增益因子转换为频域表示；

根据噪声因子来截止增益因子频域表示的高频分量；以及

逆变换增益因子的频域表示。

3.如权利要求1所述的语音噪声抑制方法，其中分类频率分辨元包括：

计算帧能量；

跟踪用于频率分辨元的噪声平均值和方差的估计；

当帧能量低于先前帧的相应频率分辨元的噪声平均值和方差估计的函数时，将频率分辨元分类为噪声；以及

由于频率分辨元被分类为噪声，更新噪声平均值和方差的估计。

4.如权利要求3所述的语音噪声抑制方法，进一步包括：

平滑频谱值；以及

在计算帧能量和噪声平均值和方差的估计中使用平滑的频谱值。

5.如权利要求4所述的语音噪声抑制方法，其中平滑频谱值包括执行频谱值的时域和频域平滑。

6.如权利要求3所述的语音噪声抑制方法，进一步包括：

计算历史低帧能量测量；

如果帧能量测量低于历史低帧能量测量的第一阈值倍数，那么确定重置噪声平均值和方差的估计；

如果帧能量测量低于历史低帧能量测量的第二阈值倍数，那么确定更新频率分辨元的噪声平均值和方差的估计。

7.如权利要求3所述的语音噪声抑制方法，其中计算增益因子包括：

按照相应频率分辨元的噪声平均值和方差的估计以及频谱值的函数来计算增益因子。

8.语音噪声抑制器，包括：

装置，用于将输入语音信号的帧转换为具有多个频谱值的频域表示；

装置，用于将多个频率分辨元分类为噪声或非噪声；

装置，用于计算用于频率分辨元的多个增益因子；

装置，用于基于噪声分辨元数目与频率分辨元的总数之间的比值来计算噪声因子，从表现为非平滑的值到表现为平滑的值之间将增益因子变化为常数增益；

装置，用于根据噪声因子来平滑增益因子；以及

装置，用于通过将增益因子应用到相关的频谱值上来修正频谱值；以及

装置，用于变换修正的频谱值以生成输出语音信号。

9.如权利要求8所述的语音噪声抑制器，其中用于平滑增益因子的装置包括：

装置，用于将增益因子转换为频域表示；

装置，用于根据噪声因子来截止增益因子频域表示的高频分量；以及

装置，用于逆变换增益因子的频域表示。

10.如权利要求8所述的语音噪声抑制器，其中用于分类频率分辨元的装置包括：

装置，用于计算帧能量；

装置，用于跟踪用于频率分辨元的噪声平均值和方差的估计；

装置，用于当帧能量低于先前帧的相应频率分辨元的噪声平均值和方差估计的函数时，将频率分辨元分类为噪声；以及

装置，用于由于频率分辨元被分类为噪声，更新噪声平均值和方差的估计。

11.如权利要求10所述的语音噪声抑制器，进一步包括：

装置，用于平滑频谱值；以及

装置，用于在计算帧能量和噪声平均值和方差的估计中使用平滑的频谱值。

12.如权利要求11所述的语音噪声抑制器，其中用于平滑频谱值的装置包括用于执行频谱值的时域和频域平滑的装置。

13.如权利要求10所述的语音噪声抑制器，进一步包括：

装置，用于计算历史低帧能量测量；

装置，用于如果帧能量测量低于历史低帧能量测量的第一阈值倍数，那么确定重置噪声平均值和方差的估计；

装置，用于如果帧能量测量低于历史低帧能量测量的第二阈值倍数，那么确定更新频率分辨元的噪声平均值和方差的估计。

14.如权利要求10所述的语音噪声抑制器，其中用于计算增益因子的装置包括：

装置，用于按照相应频率分辨元的噪声平均值和方差的估计以及频谱值的函数来计算增益因子。