CN101369427A

CN101369427A - 通过组合的波束形成和后滤波的降噪

Info

Publication number: CN101369427A
Application number: CNA2008101473859A
Authority: CN
Inventors: 马库斯·巴克; 托拜厄斯·沃尔夫
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Nuance Communications Inc
Priority date: 2007-08-13
Filing date: 2008-08-13
Publication date: 2009-02-18
Anticipated expiration: 2028-08-13
Also published as: KR20090017435A; JP2009049998A; CN101369427B; EP2026597A1; US8180069B2; EP2026597B1; KR101526932B1; CA2638469A1; ATE448649T1; US20090067642A1; DE602007003220D1; JP5436814B2

Abstract

本发明涉及用于音频信号处理的方法，包括通过麦克风阵列检测音频信号以获得麦克风信号(y_m)；通过波束形成装置(11)处理麦克风信号(y_m)以获得波束形成的信号(A)；通过阻塞矩阵装置(12)处理麦克风信号(y_m)以获得每个麦克风信号(y_m)的噪声成分的功率密度(U_m)；处理每个麦克风信号(y_m)的噪声成分的功率密度(U_m)以从每个麦克风信号(y_m)的噪声成分(U_m)获得平均短时功率密度(V)；基于从每个麦克风信号(y_m)的噪声成分的功率密度(U_m)获得的平均短时功率密度(V)，估计波束形成的信号(A)的噪声成分(A_n)的功率密度并且基于波束形成的信号(A)的噪声成分(A_n)的估计的功率密度(

)，对波束形成的信号(A)进行后滤波以获得增强的波束形成的信号(P)。

Description

通过组合的波束形成和后滤波的降噪

技术领域

本发明涉及电子辅助通信环境中的音频信号的降噪技术。具体而言，本发明涉及麦克风信号的波束形成和波束形成的信号的后滤波以获得增强的声学信号，尤其是语音信号。

背景技术

相互发射和接收音频信号，尤其是语音信号的双方双向语音通信通常遭受背景噪声引起的音频信号的质量的衰减。噪声环境中的背景噪声可能严重影响声音交流的质量和可理解性，且在最坏情况，可能导致通信的完全中断。

一个突出的示例是交通工具中的免持语音通信。免持电话提供尤其用于机动车辆的舒适和安全的通信系统。在免持电话的情况下，强制抑制噪声以确保通信。例如由于车辆的速度和道路噪声，噪声信号的幅度和频率是随时间变化的。

在现有技术中，采用谱减法的单通道降噪方法是公知的。例如，语音信号通过某些子带滤波装置被分割成子带，且降噪算法被应用于每一个子带。然而，这些方法(大多数)限制于平稳噪声扰动(stationarynoise perturbation)和正信噪距离(positive signal-to-noise distance)。因为根据这些方法，扰动不能消除，而是抑制了被噪声影响的频谱分量，所以处理的语音信号失真。因而语音信号的可理解性通常不能得到充分改善。

在远距离谈话语音获取中改善信号质量的另一方法是利用多通道系统，即麦克风阵列，例如，如在“Microphone Arrays：Signal ProcessingTechniques and Applications”，eds.Brandstein，M.and Ward，D.，Springer，Berlin 2001中所描述的麦克风阵列。执行多个麦克风信号的波束形成以获得增强的声学信号。

当前的多通道系统主要使用所谓的“广义旁瓣相消器”(GSC)，例如，见“An alternative approach to linearly constrained adaptivebeamforming”，by Griffiths，L.J.and Jim，C.W.，IEEE Transactions onAntennas and Propagation，vol.30.，p.27，1982。GSC包括两个信号处理路径：具有阻塞矩阵和自适应噪声相消装置的第一(或下)自适应路径以及具有固定波束形成器的第二(或上)非自适应路径。

固定波束形成器例如使用固定波束图案通过用于时间延迟补偿的装置改善预处理的信号。自适应处理方法的特征在于系统操作过程中诸如滤波器系数之类的处理参数的持久自适应。GSC的下信号处理路径被优化以产生用于减去固定波束形成器的输出信号的残余噪声的噪声参考信号。降噪信号处理路径通常包括接收语音信号且用于产生噪声参考信号的阻塞矩阵。在最简单的实现中，阻塞矩阵执行对接收的信号的相邻通道的减法。

然而，由于用于自适应所需的有限的收敛时间，自适应波束形成器在随时间高度变换的扰动的情况中并不是很成功。另一方面，非平稳扰动在真实生活应用中是极其普遍的。

因而，需要用于在麦克风信号的波束形成的环境中进行降噪的改进的方法和系统。

发明内容

鉴于上述情况，在本发明中，提供一种用于音频信号处理的方法，包括：

通过麦克风阵列检测音频信号，尤其是语音信号，以获得麦克风信号(y_m)；

通过波束形成装置(11)处理麦克风信号(y_m)以获得波束形成的信号(A)；

通过阻塞矩阵装置(12)处理麦克风信号(y_m)以获得每个麦克风信号(y_m)的噪声成分(noise contribution)的(频谱)功率密度(U_m)；

处理每个麦克风信号(y_m)的噪声成分的功率密度(U_m)以从每个麦克风信号(y_m)的噪声成分的功率密度(U_m)获得平均短时功率密度(V)；

基于从每个麦克风信号(y_m)的噪声成分的功率密度(U_m)获得的平均短时功率密度(V)，估计波束形成的信号(A)的噪声成分(A_n)的(频谱)功率密度；以及

基于波束形成的信号(A)的噪声成分(A_n)的估计的(频谱)功率密度对波束形成的信号(A)进行后滤波以获得增强的波束形成的信号(P)。

麦克风阵列包括很多(M个)麦克风，具体而言，方向性麦克风。每个麦克风检测声音，例如，口头说话，并产生麦克风信号y_m(m＝1，..，M)。本发明的目的是通过降噪增强这些麦克风信号。为了获得该目的，麦克风信号被波束形成装置(例如本领域中已知的固定(非自适应)波束形成器)波束形成，且被设计成获得噪声信号的阻塞矩阵装置处理，所述噪声信号代表麦克风信号中存在的噪声。

在下面的描述中，假设在子带域中而不是离散时间域中执行信号处理。然而，原则上，本发明可应用于时间和频谱信号表达二者。对于子带体制中的处理，麦克风信号(y_m)可通过分析滤波器组分成子带以获得在时间k用于频率子带Ω_μ的子带信号

(虚数单元由j表示)。类似地，增强的波束形成的信号(P)可以被合成滤波器组滤波以获得增强的音频信号，例如，降噪的语音信号。

如本领域已知的，子带域中的波束形成的信号代表在时间k用于频率子带Ω_μ的离散傅立叶变换系数

波束形成装置的这个输出信号被后滤波以用于降噪。注意，波束形成的信号可以是已经通过阻塞矩阵装置获得的每个麦克风信号(y_m)的(功率密度)噪声成分的方式而获得的降噪的信号。例如，当通过采用延迟求和(delay-and-sum)的波束形成器的广义旁瓣相消器(GSC)实现时，对于获得的波束形成的信号每个麦克风信号的噪声成分已经被减去。在这种情况下，后滤波处理移除了在通过GSC对麦克风信号进行处理之后仍存在的残余噪声。

而且，可以采用自适应加权求和波束形成器，其组合M个麦克风的时间校准信号(time aligned signal)y_m，以通过采用滤波(波束形成)权重获得一个输出信号，该滤波权重不是在固定波束形成器情况下的与时间无关的权重，但是如有需要，该自适应加权求和波束形成器必须被重复地计算以例如维持所需方向中的灵敏度且最小化噪声源方向中的灵敏度。

本发明的一个本质特征在于基于波束形成的信号(A)的噪声成分(A_n)的估计的(频谱)功率密度实施波束形成的信号(A)的后滤波处理，其中基于获得的每个麦克风信号(y_m)的噪声成分的短时功率密度(V)获得估计的(频谱)功率密度

即

V (e^{j Ω_{μ}}, k) = \frac{1}{M} Σ_{m = 1}^{M} U_{m} (e^{j Ω_{μ}}, k) {U *}_{m} (e^{j Ω_{μ}}, k)

其中M表示麦克风的数目且星号表示共轭复数。在每个子带中，

表示麦克风信号y_m(1)中存在的噪声成分的(频谱)功率密度(在麦克风信号的子带滤波之后)。

与现有技术提出的解决方案相比，用于对波束形成的信号进行滤波的波束形成的信号的噪声成分的功率密度的估计的每个麦克风信号的噪声成分的平均短时功率密度的使用导致显著增强(降噪)的波束形成的信号。

对波束形成装置的输出进行后滤波的步骤优选地可以通过某些维纳类滤波器(Wiener like filter)实现。这种滤波器的滤波特征根据波束形成信号的噪声成分的估计的功率密度进行适应。

使用每个麦克风信号的噪声成分的平均短时功率密度以获得用于对波束形成装置的输出信号进行滤波的后滤波装置的滤波系数的有效方法是将每个麦克风信号(y_m)的噪声成分的短时功率密度(V)与在k时刻用于频带Ω_μ的实数因子

相乘，其中实数因子

被适应以满足期望值E的关系。

E {{\tilde{A}}_{n} (e^{j Ω_{μ}}, k)} = E {{| A (e^{{jΩ}_{μ}}, k) |}^{2}_{A_{s} (e^{j Ω_{μ}}, k) = 0}}

其中

和

分别表示波束形成的信号(A)的噪声成分(A_n)的估计的功率密度

波束形成信号(A)的噪声成分以及波束形成装置的期望输出信号的部分(A＝A_n+A_s)。如果处理的被麦克风阵列的M个麦克风探测的音频信号是语音信号，实数系数

的适应优选地仅在语音停顿，即理想地满足

A_{s} (e^{j Ω_{μ}}, k) = 0

的时段中实施。

如上所述，对波束形成的信号(A)进行后滤波的步骤可以包括(或由以下步骤组成)通过维纳滤波装置

对波束形成的信号(A)进行滤波以根据

P (e^{{jΩ}_{μ}}, k) = H (e^{{jΩ}_{μ}}, k) A (e^{{jΩ}_{μ}}, k)

获得增强的波束形成的信号(P)，其中

H (e^{{jΩ}_{μ}}, k) = 1 - {\hat{Y}}_{a} {(e^{j Ω_{μ}}, k)}^{- 1},

其中

表示用于

的估计，其中

是k时刻用于频率子带Ω_μ的波束形成的信号

的噪声成分。而

可以容易地从波束形成装置的输出获得，如上所述(也参见下面的详细描述)获得

的估计(即)。这样设计的维纳滤波器的采用导致具有稳定收敛特征的非常有效和可靠的后滤波。此外，通过上述维纳类滤波器的这种后滤波装置的实现在处理器负载和时间消耗方面是有利的。

根据一个优选实施例，根据最大后验估计，通过优化获得即用于的估计。最大后验估计的方法与最大似然方法密切相关并且在现有技术中已知(例如，见M.DeGroot，“OptimalStatistical Decisions”，McGraw-Hill，1970)。最大后验估计导致非常有效地减小波束形成的信号中存在的(残余)噪声的维纳滤波特性。而用于滤波器特性的第一估计由

给出，其中

{\tilde{Y}}_{a} (e^{{jΩ}_{μ}}, k) = {| A (e^{{jΩ}_{μ}}, k) |}^{2} / β (e^{{jΩ}_{μ}}, k) V (e^{{jΩ}_{μ}}, k)

(参见上面和下面的详细描述)，如下所述，能够通过最大后验估计的过程的方式进行优化。

在对数表达中，有：

{\tilde{Γ}}_{a} (e^{{jΩ}_{μ}}, k) = 10 \log {\tilde{Y}}_{a} (e^{{jΩ}_{μ}}, k) = Γ_{a} (e^{{jΩ}_{μ}}, k) + Δ (e^{{jΩ}_{μ}}, k)

其中估计的实际比率为

Γ_{a} (e^{{jΩ}_{μ}}, k) = 10 \log {{| A (e^{{jΩ}_{μ}}, k) |}^{2} {| A_{n} (e^{{jΩ}_{μ}}, k) |}^{- 2}},

且估计误差

Δ (e^{{jΩ}_{μ}}, k) = 10 \log {| A_{n} (e^{{jΩ}_{μ}}, k) | / {\tilde{A}}_{n} (e^{{jΩ}_{μ}}, k)}

是波束形成信号

的噪声成分的估计的功率密度的测量。在语音停顿

(Γ_{a} (e^{{jΩ}_{μ}}, k) = 0)

期间，估计误差

导致所谓的音乐噪声(musicalnoise)形式的伪迹。通过最大后验估计过程的方式获得估计

以减小音乐噪声。该过程的细节在下面的详细描述中描述。

本发明还提供计算机程序产品，该计算机程序产品包括一个或多个计算机可读媒介，该计算机可读媒介具有用于执行上述发明方法的示例的步骤的计算机可执行指令。

而且，此处提供一种信号处理装置，包括：

麦克风阵列，包括至少两个麦克风，所述至少两个麦克风被配置以获得检测的麦克风信号(y_m)；

波束形成装置，被配置成处理所述麦克风信号(y_m)以获得波束形成的信号(A)；

阻塞矩阵装置，被配置成处理所述麦克风信号(y_m)以获得每个麦克风信号(y_m)的噪声成分的功率密度(U_m)；

处理装置，被配置成处理每个麦克风信号(y_m)的噪声成分的功率密度(U_m)以从每个麦克风信号(y_m)的噪声成分的功率密度(U_m)获得平均短时功率密度(V)；

处理装置，被配置成基于从每个麦克风信号(y_m)的噪声成分的功率密度(U_m)获得的平均短时功率密度(V)，估计波束形成的信号(A)的噪声成分(A_n)的功率密度；以及

后滤波装置，被配置成基于所述波束形成的信号(A)的噪声成分(A_n)的估计的功率密度

对所述波束形成的信号(A)进行滤波以获得增强的波束形成的信号(P)。

信号处理装置还可以包括分析滤波器组，被配置成对麦克风信号(y_m)进行滤波以获得k时刻用于频率子带Ω_μ的子带信号

以及合成滤波器组，被配置成对增强的波束形成的信号(P)进行滤波以获得增强的音频信号(p)。

具体而言，信号可以包括广义旁瓣相消器，该广义旁瓣相消器包括波束形成装置、阻塞矩阵和处理装置，该处理装置被配置成输出通过阻塞矩阵装置的方式获得的降噪的波束形成的信号。

应当注意，信号处理装置也可以被配置成通过每个麦克风信号(y_m)的噪声成分的短时功率密度(V)与k时刻用于频率子带Ω_μ的实数因子

的乘积估计波束形成的信号(A)的噪声成分(A_n)的功率密度，该实数因子

被适应以满足期望值E的关系

E {{\tilde{A}}_{n} (e^{j Ω_{μ}}, k)} = E {{| A (e^{{jΩ}_{μ}}, k) |}^{2}_{A_{s} (e^{j Ω_{μ}}, k) = 0}}

其中

和

分别表示波束形成的信号(A)的噪声成分(A_n)的估计的功率密度、波束形成的信号(A)的噪声成分以及波束形成装置的期望输出信号的部分。

后滤波装置可以有利地是维纳类滤波器

H (e^{{jΩ}_{μ}}, k) = 1 - {\hat{Y}}_{a} {(e^{j Ω_{μ}}, k)}^{- 1},

其中

表示用于

的估计，其中

是k时刻用于频率子带Ω_μ的波束形成的信号

的噪声成分。具体而言，根据最大后验估计，可以通过优化获得

此处揭示的信号处理装置的示例可以有利地用在各种电子通信设备中。因而，提供包括信号处理装置的上述示例之一的语音识别或语音对话装置。此外，提供包括信号处理装置的上述示例之一的免持电话机。

将参考附图描述本发明的附加特征和优点。在描述中，对附图做出引用，附图旨在说明本发明的优选实施例。应当理解这些实施例不代表本发明的全部范围。

附图说明

图1示出此处揭示的方法的实例的基本步骤，该方法用于包括GSC处理和后滤波标量(post-filter scalar)的估计的降噪；

图2示出了根据包括GSC、MAP优化装置和后滤波装置的本发明的示例的信号处理装置的组成。

具体实施方式

如图1所示，通过麦克风阵列的M个麦克风(具体而言，方向性麦克风)获得的麦克风信号y_m(I)，m＝1，..，M被GSC(广义旁瓣相消器)处理1，其中I表示离散时间索引。GSC包括两个信号处理路径：具有阻塞矩阵和自适应噪声相消装置的第一自适应路径以及具有使用固定波束图案改善例如通过时间延迟补偿的方式进行预处理的信号的固定波束形成器的第二路径。所述阻塞矩阵被优化以产生用于减去固定波束形成器的输出信号的(残余)噪声的噪声参考信号。

如现有技术中已知的，通过GSC的方式，获得在k时刻用于频率子带Ω_μ的离散傅立叶变换(DFT)系数，即子带信号，

(虚数单元由j表示)。而且，对于每个通道m，获得作为被包括在使用的GSC中的阻塞矩阵所输出的子带信号的麦克风信号y_m(1)的噪声部分

U_{m} (e^{j Ω_{μ}}, k) .

本发明的基本特征在于基于阻塞矩阵的输出

和用于对GSC的输出

进行后滤波3的GSC的输出确定2后滤波标量以获得降噪的DFT系数

且最终获得降噪的音频信号(期望信号)p(1)。本发明尤其考虑的有效和可靠的确定。下面，参考图2描述信号处理和本发明的信号处理装置的示例的细节。

麦克风信号y_m(1)被分析滤波器组10处理以获得适于进一步处理的子带信号

分析滤波器组例如可以实现汉宁窗(Hanningwindowing)、汉明窗(Hamming windowing)或高斯窗(Gaussianwindowing)。子带信号被输入在GSC中，该GSC包括波束形成器11和阻塞矩阵12以及降噪装置13，该降噪装置13从子带信号

减去阻塞矩阵12获得的估计的噪声以获得降噪的离散傅立叶变换(DFT)系数

阻塞矩阵12是自适应型滤波装置。阻塞矩阵输出的所得的噪声信号将理想地完全阻隔输入信号内所需的或有用的信号。可以使用Walsh-Hadamard型阻塞矩阵或Griffiths-Jim阻塞矩阵。对于包括M＝2ⁿ个麦克风的阵列，尤其可以建立Walsh-Hadamard阻塞矩阵。

根据本发明，GSC的输出将经过某种处理以进一步减小残余噪声。后滤波器装置14可以以维纳滤波器或谱减法滤波器的形式实现。维纳类滤波器的滤波特性为：

H (e^{jΩ}) = 1 - {(\frac{S_{a_{s} a_{s}} (Ω) + S_{a_{n} a_{n}} (Ω)}{S_{a_{n} a_{n}} (Ω)})}^{- 1}

其中

和分别表示期望信号的自动功率密度谱和GSC的输出

中包含的噪声扰动。而且，假设期望信号和噪声扰动不相关。

上述公式的括号中给出的后验信噪比(SNR)通常通过本技术领域中已知的用于平稳扰动的时间平均进行估计。然而，本发明涉及时间相关的扰动的抑制。因而，必须获得用于后滤波标量的时间相关估计

Y_{a} (e^{{jΩ}_{μ}}, k) = \frac{{| A (e^{{jΩ}_{μ}}, k) |}^{2}}{{| A_{n} (e^{{jΩ}_{μ}}, k) |}^{2}}

(其中A_n表示A的噪声部分)，以用于GSC的输出的后滤波。

为了获得用于

的估计

必须通过估计A_n获得发声方向的信息。注意A可以直接从GSC的输出获得。A_n从阻塞矩阵12的输出信号获得。为了更加精确，根据本示例，通过图2的阶段15获得阻塞矩阵的输出信号的平均短时功率密度

V (e^{{jΩ}_{μ}}, k) = \frac{1}{M} Σ_{m = 1}^{M} U_{m} (e^{{jΩ}_{μ}}, k) {U *}_{m} (e^{{jΩ}_{μ}}, k)

其中星号表示复数共轭。通过实数因子

可以获得用于

的估计

即，

{\tilde{A}}_{n} (e^{{jΩ}_{μ}}, k) = β (e^{{jΩ}_{μ}}, k) V (e^{{jΩ}_{μ}}, k) .

根据本示例，实数因子

被适应以满足用于期望值E的关系

E {{\tilde{A}}_{n} (e^{j Ω_{μ}}, k)} = E {{| A (e^{{jΩ}_{μ}}, k) |}^{2}_{A_{s} (e^{j Ω_{μ}}, k) = 0}}

其中是GSC的输出

的期望信号的部分。因而得到

{\tilde{Y}}_{a} (e^{{jΩ}_{μ}}, k) = \frac{{| A (e^{{jΩ}_{μ}}, k) |}^{2}}{{| {\tilde{A}}_{n} (e^{{jΩ}_{μ}}, k) |}^{2}}

通过因子获得GSC的输出的功率密度的功率自适应16和阻塞矩阵。在图2的阶段17中确定后滤波标量的估计

。在阶段18中执行后滤波标量的优化。下面描述优化处理。

根据图2所示的本示例，后滤波装置14将基于噪声功率谱密度的最大后验(MAP)估计进行自适应。MAP估计能够容易地在对数表达中获得，且因而，用于后滤波标量的对数估计可以以公式表达为：

{\tilde{Γ}}_{a} (e^{{jΩ}_{μ}}, k) = 10 \log {\tilde{Y}}_{a} (e^{{jΩ}_{μ}}, k) = 10 \log \frac{{| A (e^{{jΩ}_{μ}}, k) |}^{2}}{{| A_{n} (e^{{jΩ}_{μ}}, k) |}^{2}} + 10 \log \frac{{| A (e^{{jΩ}_{μ}}, k) |}^{2}}{{| {\tilde{A}}_{n} (e^{{jΩ}_{μ}}, k) |}^{2}}

= 10 {\log Y}_{a} (e^{{jΩ}_{μ}}, k) + 10 \log δ (e^{{jΩ}_{μ}}, k)

= Γ_{a} (e^{{jΩ}_{μ}}, k) + Δ (e^{{jΩ}_{μ}}, k)

其中

代表估计误差。估计误差导致语音停顿期间所谓的音乐噪声伪迹。很明显，希望对该估计误差

进行最小化。

如下获得估计误差

的最小化。应当注意，假设

和

为随机变量表达。

对于给定的可观察量，即

数量被估计的概率，即

假设通过条件密度

(为简单起见，下面忽略自变量

)给出特定值。根据MAP的原理(细节参见E.

“Statistische Signale”，Springer Verlag，Berlin(Germany)，2001)，我们必须选择最大化

的Γ_a的值。

{\hat{Γ}}_{a} = \underset{Γ_{a}}{\arg \max ρ (Γ_{a} | {\tilde{Γ}}_{a})}

通过贝叶斯准则(Bayes rule)，条件密度ρ可以表达为：

其中

已知为先验密度。最大化要求：

基于经验研究，条件密度可以通过使用变量ψ_Δ的高斯分布来模拟：

ρ ({\tilde{Γ}}_{a} | Γ_{a}) = \frac{1}{\sqrt{2 π ψ_{Δ}}} \exp (- \frac{{({\tilde{Γ}}_{a} - Γ_{a})}^{2}}{2 ψ_{Δ}}) .

然后，假设期望信号和扰动的实数和虚数部分可以描述为平均自由高斯(average-free Gaussians)，同一变量

可以通过下式进行近似：

ρ (Γ_{a}) = \frac{1}{\sqrt{2 π ψ_{Γ_{a}} (ξ)}} \exp (- \frac{{(Γ_{a} - μ_{Γ_{a}} (ξ))}^{2}}{2 ψ_{Γ_{a}} (ξ)})

其中先验SNR为ξ＝Ψ_s/Ψ_n且

ψ_{Γ_{a}} (ξ) = Kξ / (1 + ξ)

且

μ_{Γ_{a}} (ξ) = 10 \log (ξ + 1),

其中K是变量

的上限。实验显示例如使用K＝50可以获得满意的结果。

上述最大化需求的解导致：

{\hat{Γ}}_{a} = \frac{Kξ {\tilde{Γ}}_{a} + (ξ + 1) ψ_{Δ} 10 \log (ξ + 1)}{Kξ + (ξ + 1) ψ_{Δ}}

从该公式可以容易得出标量估计

{\hat{Y}}_{a} = 10^{{\hat{Γ}}_{a} / 10} .

在上述等式中，即时后验SNR被表达为干扰测量值前验SNRξ以及变量Ψ_Δ的函数(注意，对于Ψ_Δ＝0，

{\hat{Γ}}_{a} = {\tilde{Γ}}_{a}

)。注意在Ψ_Δ→∞的极限中，获得标准维纳特性的滤波权重。而且，如果例如在语音停顿期间前验SNRξ可忽略，滤波器将被关闭以避免音乐噪声伪迹。

因此，为每个时刻k以及频率插入点Ω_μ获得用于后滤波装置14的上述维纳特性，如下：

H (e^{{jΩ}_{μ}}, k) = 1 - {\hat{Y}}_{a}^{- 1} (e^{{jΩ}_{μ}}, k) .

GSC的输出，即，DFT系数

被如上所述的自适应的后滤波装置14滤波。该滤波导致降噪的DFT系数

P (e^{{jΩ}_{μ}}, k) = H (e^{{jΩ}_{μ}}, k)

最后，采用合成滤波器组19以获得全带降噪音频信号p(1)。

为了实现上述方法，必须确定参数ξ、Ψ_Δ和K。对于变量

的上限K，已经证明约50的值是成功的。确定先验SNRξ的已知方法是以下论文中介绍的所谓的直接决定方法：Ephraim and Malah，“SpeechEnhancement Using a Minimum Mean-Square Error Short-Time SpectralAmplitude Estimator”，IEEE Transactions on Acoustics，Speech and SignalProcessing，vol.ASSP-32，No.6，December，1984。根据该方法，ξ可以估计为：

ξ (k) = a_{ξ} \frac{P (k - 1)}{{\hat{ψ}}_{n}} (1 - a_{ξ}) F [\frac{{| A (k) |}^{2}}{{\hat{ψ}}_{n}} - 1],

其中

F [x] = \{\begin{matrix} x, ifx > 0 \\ 0, else \end{matrix},

且P(k-1)表示时间k-1时后滤波装置14的输出的DFT系数的平方幅度。实数因子a_ξ是近似1的平滑因子，例如为0.98。

在语音停顿中不通过时间平滑的方式确定干扰的变量的估计。而是通过递归确定

为

{\hat{ψ}}_{n} (k) = a_{n} {\hat{ψ}}_{n} (k - 1) + (1 - a_{n}) {\tilde{A}}_{n} (k)

使用关于干扰的方向的空间信息。平滑因子a_n可以选自0.6至0.8。

最后，在语音停顿(即Ψ_s＝0)的过程中，根据

{\hat{ψ}}_{Δ} (k) = a_{Δ} (k) {\hat{ψ}}_{Δ} (k - 1) + (1 - a_{Δ} (k)) {({\tilde{Γ}}_{a} (k))}^{2},

其中

a_{Δ} (k) = \{\begin{matrix} a_{0}, if ψ_{s} = 0 \\ 0, else \end{matrix},

也被递归地确定，平滑因子a_n可以选自0.6至0.8。

所有上述实施例并不旨在限制目的，而是用作说明本发明的特征和优点的示例。应当理解某些或所有上述特征可以以不同的方式组合。