CN107039045B

CN107039045B - 用于语音增强的全局优化最小二乘后滤波

Info

Publication number: CN107039045B
Application number: CN201710063534.2A
Authority: CN
Inventors: 黄译腾; 亚历杭德罗·吕布斯; 简·斯科格隆; 威廉·巴斯蒂安·克雷杰
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-02-03
Filing date: 2017-02-03
Publication date: 2020-10-23
Anticipated expiration: 2037-02-03
Also published as: DE102017102134B4; JP6663009B2; US20170221502A1; DE102017102134A1; KR102064902B1; AU2017213807B2; KR20180069879A; US9721582B1; CA3005463A1; DE202017102564U1; CN107039045A; WO2017136532A1; GB2550455A; GB201701727D0; CA3005463C; JP2019508719A; AU2017213807A1

Abstract

提供了用于语音增强的全局优化最小二乘后滤波。用于麦克风阵列语音增强的现有后滤波方法有两个共同的缺陷。首先，这些方法假设噪声是白色的或者扩散的并且不能处理点干扰。其次，这些方法每次只使用两个麦克风来估算后滤波系数，对所有麦克风对执行取平均，以获得次佳解。所提出的方法描述了实施信号模型的后滤波方案，这些信号模型处理白噪声、扩散噪声和点干扰。所述方法还实施麦克风阵列中的麦克风的全局优化最小二乘法，以提供比现有传统方法更佳的方案。实验结果证明了所描述的方法在各种声学场景中均胜过传统方法。

Description

用于语音增强的全局优化最小二乘后滤波

背景技术

麦克风阵列逐渐被公认为用于抵抗不利声学环境中的语音采集的噪声、干扰和混响的有效工具。其应用包括：鲁棒语音识别、免提语音通信与电话会议、助听器，在此仅列举了几个例子。波束形成是一种提供一种形式的空间滤波的麦克风阵列处理技术：在衰减来自其它方向的信号的同时，接收来自特定方向的信号。虽然空间滤波是可能的，但是从信号重构来看在最小均方差(MMSE)含义上却不是最佳的。

一种后滤波的传统方法是多道维纳滤波器(MCWF)。该多道维纳滤波器可以分解为最小方差无失真响应(MVDR)波束成形器和单道后滤波器。目前公知的传统后滤波方法能够提高波束形成之后的语音质量；然而，这些现有方法有两个共同的局限或者缺陷。第一，这些方法假定相关噪声只是白色(不相干)噪声或者扩散噪声，因此这些方法不能解决点干扰。例如，在有多个人在说话而其中一个人是期望声源的环境中，点干扰是来自其他说话者的不需要的噪声。第二，这些现有方法采用的是每一次使用两个麦克风来估计后滤波系数然后再取所有麦克风对的平均的启发式技术，这会产生次佳结果。

发明内容

本发明内容以简化的形式介绍了对概念的选择，以便提供对本公开的某些方面的基本理解。本发明内容不是本公开的广泛概述，并不旨在识别本公开的关键或者决定性元素或者勾画本公开的范围。本发明内容仅呈现了本公开的概念中的一些作为下面提供的具体实施方式的前序。

大体上，本说明中描述的主题的一方面可以体现在方法、设备和计算机可读介质中。一种示例性设备包括：一个或者多个处理装置和存储指令的一个或者多个存储装置，所述指令在由所述一个或者多个处理装置执行时使所述一个或者多个处理装置实施一种示例性方法。一种示例性计算机可读介质包括用于实施一种示例性方法的指令的集合。本公开的一个实施例涉及一种用于估计系数值以减少后滤波器的噪声的方法，所述方法包括：经由麦克风阵列从环境中的声源接收音频信号；基于所接收到的音频信号，假设声场场景；基于所接收到的音频信号，计算固定的波束形成器系数；基于所假设的声场场景，确定协方差矩阵模型；基于所接收到的音频信号，计算协方差矩阵；估计所述声源的功率以找到使所确定的协方差矩阵模型与所计算得到的协方差矩阵之间的差最小化的方案；基于所估计的功率，计算并且应用后滤波系数；以及基于所接收到的音频信号和所述后滤波系数，生成输出音频信号。

在一个或者多个实施例中，本文中描述的方法可以可选地包括以下附加特征中的一项或者多项：假设多个声场场景以生成多个输出信号，其中，将所述多个所生成的多个输出信号进行比较，并且从所述多个所述生成的输出信号中选择具有最高信噪比的输出信号；对所述功率的所述估计是基于弗罗宾尼斯(Frobenius)范数，其中，所述弗罗宾尼斯范数是使用所述协方差矩阵的埃尔米特(Hermitian)对称来计算的；使用声源位置方法来确定所述声源中的至少一个声源的位置以假设所述声场场景、确定所述协方差矩阵模型、并且计算所述协方差矩阵；所述协方差矩阵模型是基于多个假设的声场场景生成的，其中，选择协方差矩阵模型以使减少噪声的目标函数最大化，以及其中，目标函数是所述最终输出音频信号的样本方差。

本公开的适用性的更大范围将在下面给出的具体实施方式中变得更显而易见。然而，应该理解的是，虽然描述了优选实施例，但是只是通过举例的方式来给出具体实施方式；对本领域的技术人员来说，在本公开的精神和范围内的各种变化和修改都会在具体实施方式中变得显而易见。

附图说明

对本领域的技术人员来说，结合所附权利要求书和附图，本公开的这些和其它目的、特征和特性将从下文的具体实施方式的学习中变得显而易见，这些附图构成了本说明书的一部分。在附图中：

图1是图示根据本文中描述的一个或者多个实施例的一种用于基于假设的声场场景生成经过后滤波的输出信号的示例性系统的功能框图。

图2是图示在示例性系统中由噪声环境生成的经波束形成的单道输出的功能框图。

图3是图示在示例性系统中基于假设的声场场景确定协方差矩阵模型的功能框图。

图4是图示频率仓(frequency bin)的后滤波估计的功能框图。

图5是图示根据本公开的实施例的计算频率仓的后滤波系数的示例性步骤的流程图。

图6图示麦克风阵列和与实验结果相关的声源的空间布置。

图7是图示示例性计算装置的框图。

本文中提供的小标题仅为了方便起见，并不一定影响权利要求书的范围或者含义。

具体实施方式

本公开大体上涉及用于音频信号处理的系统与方法。更具体地，本公开的方面涉及用于麦克风阵列语音增强的后滤波技术。

下面的描述为彻底理解和实现对本公开的描述提供了具体细节。然而，相关领域的技术人员应该明白的是，在没有许多这些细节的情况下，也可以实践本文中描述的实施例。同样，相关领域的技术人员还应该明白的是，本文中描述的示例性实施例可以包括本文未详细描述的许多其它明显特征。此外，在下文中可能未详细示出或者描述一些公知的结构或者功能，以避免不必要地使相关描述变得模糊。

1.引言

本公开的某些实施例和特征涉及用于后滤波音频信号的方法与系统，这些方法与系统利用信号模型，该信号模型不仅考虑了扩散与白噪声，而且还考虑了点干扰源。如下面将更详细描述的，这些方法与系统设计为实现麦克风阵列中的麦克风的全局优化最小二乘(LS)方案。在某些实施方式中，使用真实记录的对期望干扰源的脉冲响应，包括合成的扩散和白噪声，来估计所公开的方法的性能。该脉冲响应是动态系统针对称为脉冲的简单输入信号的输出或者反应。

图1图示了一种用于基于假设的声场场景(111)生成经过后滤波的输出信号(175)的示例性系统。假设的声场场景(111)是在噪声环境(105)中对噪声分量(106-108)的组成的确定。在该示例性实施例中，将一个假设的声场场景(111)输入至各种频率仓F1至Fn(165a-c)以生成输出/期望信号(175)。对于假设的声场场景(111)，将信号转化成频域。从一个频率到另一个频率独立地进行波束成形和后滤波。

在该示例性实施例中，假设的声场场景包括一个干扰源。在其它示例性实施例中，假设的声场场景可能更复杂，包括许多干扰场景。

同样，在其它示例性实施例中，可以确定多个假设的声场场景以生成多个输出信号。相关领域中的技术人员应该明白，多个声场场景可以是基于各种因素来假设的，诸如，可以是已知的或者确定的关于环境的信息。本领域的技术人员还应该明白，可以使用各种因素来确定输出信号的质量，诸如，测量信噪比(例如，如在下文中论述的实验中测量的)。在其它示例性实施例中，本领域的技术人员可以应用其它方法来假设声场场景和确定输出信号的质量。

图1图示了可以包括一个或者多个噪声分量(106-108)的噪声环境(105)。在环境(105)中的噪声分量(106-108)可以包括，例如，扩散噪声、白噪声、和/或点干扰噪声源。可以将环境(105)中的噪声分量(106-108)或者噪声源定位在不同位置处以按照各种功率/强度水平将噪声投射在各个方向上。每个噪声分量(106-108)生成音频信号，可以通过麦克风阵列(130)中的多个麦克风M1…Mn(115、120、125)来接收音频信号。为了清楚起见，在示例性图示中，将由环境(105)中的噪声分量(106-108)生成并且由麦克风阵列(130)中的麦克风(115、120、125)中的每一个接收的音频信号描述为单箭头109。

麦克风阵列(103)包括多个单独的全向性麦克风(115、120、125)。本实施例假设全向性麦克风。其它示例性实施例可以实施其它类型的麦克风，这些其它类型的麦克风可以改变协方差矩阵模型。由麦克风M1至Mn(115、120、125)(其中，“n”为任意整数)中的每一个麦克风接收到的音频信号(109)可以经由变换方法转换成频域，诸如，例如，离散时间傅里叶变换(DTFT)(116、121、126)。其它示例性转换方法可以包括，但不限于：FFT(快速傅里叶变换)或者STFT(短时傅里叶变换)。为了简单起见，经由与一个频率对应的DTFT(116、121、126)中的每一个生成的输出信号用单箭头来表示。例如，在第一频率仓F1(165a)处由麦克风M1(115)接收到的音频产生的DTFT音频信号表示为单箭头117a。

图1还图示了多个频率仓(165a-c)，该多个频率仓(165a-c)包含各种分量，并且每个频率仓的后滤波分量生成后滤波输出信号。例如，频率仓F1(165a)的后滤波分量(160a)生成第一频率仓(161a)的后滤波输出信号。将每个频率仓(165a-c)的输出信号输入至逆DTFT分量(170)以生成具有减少的不需要的噪声的最终时域输出/期望信号(175)。下面将对该示例性系统(100)中的频率仓(165a-c)的各种分量的细节与步骤进行更详细的说明。

2.信号模型

图2图示了由噪声环境(105)生成的经波束形成的单道输出(136a)。为了简单起见，已经从图2中省略了在此处未论述的整个系统100(如图1所示)的分量。噪声环境(105)包含生成如声音的输出的各种噪声分量(106-108)。在本示例性实施例中，噪声分量106输出期望声音，而噪声分量107和108输出不期望的声音，这些不期望的声音可以是白噪声、扩散噪声或者点干扰噪声的形式。各个噪声分量(106-108)均生成声音。然而，为了简单起见，将噪声分量(106-108)的合并输出用单箭头109来描述。基于麦克风的物理位置和环境噪声(109)内的传入音频信号的方向与强度，在阵列(130)中的麦克风(115、120、125)以各种时间间隔接收环境噪声(109)。对在麦克风(115、120、125)中的每个麦克风处接收到的音频信号进行转换(116、121、126)和波束形成(135a)以生成针对一个单频率的单道输出(137a)。将固定波束形成器(135a)的单道输出(137a)传送至后滤波器(160a)。传送用于生成波束形成滤波器(136a)的与下列等式(6)相关联的表示为h(jω)的波束形成系数(138a)，以计算出后滤波系数(155a)。

此处将对捕获环境噪声(109)并且生成经波束形成的单道输出信号(137a)和波束形成滤波器(136a)进行更详细的说明。假设M个元件(115、120、125)的麦克风阵列(130)用于捕获来自噪声声学环境(105)中的期望点声源(106)的信号s(t)，其中，M为任何整数值并且是阵列(130)中麦克风的数量。在时域中第m个麦克风的输出表示为：

x_m(t)＝g_s，m*s(t)+ψ_m(t)，m＝1，2，…，M， (1)

其中，g_s,m表示期望分量(106)对第m个麦克风(例如，125)的脉冲响应，*表示线性卷积，并且ψ_m(t)是不需要的加性噪声(即，由噪声分量107和108生成的声音)。

所公开的方法能够处理多个点干扰源；然而，为了清楚起见，在本文提出的示例中描述一个点干扰。加性噪声通常由三种不同类型的声音分量组成：1)来自点干扰源的相干噪声，v(t)；2)扩散噪声，u_m(t)；以及，3)白噪声，w_m(t)。同样：

其中，g_v，m是点噪声源对第m个麦克风的脉冲响应。在本示例性实施例中，将期望信号和这些噪声分量(106-108)假设为短时平稳的并且互不相关的。在其它示例性实施例中，可以包括不同的噪声分量。例如，包含四处移动的多个期望声源和目标期望声源的噪声环境可以在一段时间内交替。换言之，在拥挤的房间中，两个人边走边说。

在频域中，将等式(1)中的该普遍麦克风阵列信号模型转换为：

X_m(jω)＝G_s，m(jω)S(jω)+ψ(jω)

＝G_s，m(jω)S(jω)+G_v，m(jω)V(jω)+

U(jω)+W(jω)， (3)

其中，

ω为角频率，并且X_m(jω)、G_s，m(jω)、S(jω)、G_v，m(jω)、V(jω)、U(jω)、W(jω)分别为x_m(t)、g_s，m、s(t)、g_v，m、v(t)、u(t)和w(t)的离散时间傅里叶变换(DTFT)。虽然在该示例性实施例中采用了DFTF，但是不应该理解为限制本发明的范围。其它示例性实施例可以采用其它方法，诸如，STFT(短时傅里叶变换)或者FFT(快速傅里叶变换)。向量/矩阵形式的等式(3)如下：

x(jω)＝S(jω)g_s(jω)+V(jω)g_v(jω)+u(jω)+w(jω) (4)

其中，

(·)^T表示向量或者矩阵的转置矩阵。然后，将麦克风阵列空间协方差矩阵确定为：

其中，假设互相不相关的信号，

而且，E{·}、(·)^H和(·)^*分别表示数学期望值、向量或者矩阵的埃尔米特(Hermitian)转置矩阵以及复变量的共轭。

波束成形器(135a)通过有限脉冲响应(FIR)滤波器H_m(jω)(m＝1,2,···,M)对每个麦克风信号进行滤波，并且对结果求和来产生单道输出(137a)

和波束成形滤波器(136a)，其中

在等式(6)中，还对期望声源的协方差矩阵进行建模。由于期望源与干扰源均为点源，所以其模型与干扰源的模型相似。它们的不同之处在于它们相对于麦克风阵列的方向。

3.对噪声协方差矩阵进行建模

图3图示了基于假设的声场场景(111)确定协方差模型的步骤。为了简单起见，已经从图3中省略了在此处未论述的整个系统100(如图1所述)的分量。基于噪声环境(105)确定假设的声场场景(111)，并且将假设的声场场景(111)分别输入至每个频率仓(165a-c)的协方差模型(140a-c)。

在实际环境中，可能不知道噪声分量的组成，即，点干扰源的数量与位置、以及白噪声源或者扩散噪声源的存在。因此，对声场场景进行假设。上述的等式(2)表示具有一个点干扰源、扩散噪声、和白噪声的场景，从而产生四个未知数。如果该场景假设或者假定没有点干扰源而只有白噪声和扩散噪声，则可以简化上述的等式(5)，从而只产生三个未知数。

在等式(5)中，对三个与干扰/噪声相关的分量(106-108)进行如下建模：

(1)点干扰：由于点干扰源v(t)产生的协方差矩阵P_gv(jω)具有第一排名。通常，当存在混响或者该源在麦克风阵列的近场中时，脉冲响应向量g_v的复杂元素可以具有不同的量级。但是，如果只考虑了直接路径或者如果该点源在远场中，则：

这只包含了相对于到达公共参考点，干扰到达多个麦克风τ_v,m(m＝1,2,···,M)的时间差。

(2)扩散噪声：由于扩散噪声场具有同时在多个方向上传播相等功率的不相关噪声信号的特征，所以将扩散噪声场视为球面各向同性的或者柱面各向同性的。其协方差矩阵为：

其中，Γ_uu(ω)的第(p,q)个元素为：

d_pq为第p个麦克风与第q个麦克风之间的距离，c为声音的速度，并且J₀(·)为第一类的零阶贝塞尔(Bessel)函数。

(3)白噪声：加性白噪声的协方差矩阵只是加权的单位矩阵：

4.多道维纳滤波器(MCWF)、MVDR波束成形、与后滤波

当使用麦克风阵列来捕获期望的宽带声音信号(例如，语音和/或音乐)时，目的在于最小化在等式(6)中的Y(jω)与ω的S(jω)之间的距离。在MMSF意义上最佳的MCWF可以分解为MVDR波束成形器和其后的单道维纳滤波器(SMWF)：

其中，

分别为在MVDR波束形成器的输出处的期望信号和噪声的功率。这种分解会产生用于麦克风阵列语音采集的下列结构：将SCWF视为在MVDR波束形成器之后的后滤波器。

5.后滤波估计

图4图示了频率仓中的后滤波估计步骤。为了实施在等式(11)中给出的前端MVDR波束成形器和作为后处理器的SCWF，估计由麦克风信号计算出的协方差矩阵产生的信号与噪声协方差矩阵。首先以帧为单位将多道麦克风信号进行窗口化(例如，通过加权的重叠相加的分析窗口)，然后通过FFT进行转换以确定x(jω,i)，其中，i为帧索引。通过如下等式，动态地或者使用存储器部件对麦克风信号的协方差矩阵(145a)的估计进行递归更新：

其中，0<λ<1为遗忘因子。

再者，与等式(7)相似，可以忽略混响，从而产生：

其中，τ_s,m为期望信号相对于到达公共参考点而言到达第m个麦克风的时间差。

在另一个示例中，假定τ_s,m和τ_v,m二者均为已知的并且不会随着时间而变化。因此，根据等式(5)，通过使用等式(8)和等式(10)，在第i个时间帧处，可以将协方差矩阵模型(140a)确定为如下：

该等式允许基于等式(14)的左边与右边之间的差的Frobenius范数来定义判据。通过最小化这样的判据，可以推导出

的LS估计量。要注意的是，等式(14)中的矩阵是埃尔米特(Hermitian)矩阵。为了清楚起见，已经省略了该公式中的冗余信息。

对于M×M埃尔米特矩阵A＝[a_pq]，可以定义两个向量。其中一个向量为对角线元素，而另一个向量为三角形下部分的非对角线半向量化(odhv)：

可以将相同大小的多个N埃尔米特矩阵定义为：

通过使用这些符号，将等式(14)进行重组以得到：

其中，为了清楚起见，省略了参数jω，并且

此处，结果为M(M+1)/2等式和4个未知数。如果M≥3，则这会是超定问题。换言之，存在比未知数更多的等式。

上述误差判据可以表示为：

在估计声源(150a)的功率时使该判据最小化会产生：

其中，

表示复数/向量的实数部分。可以假设的是，

中的估计误差为IID(独立同分布)随机变量。从而，在计算后滤波系数(155a)过程中实施时，等式(21)中给出的LS(最小二乘)解在MMSE意义上是最佳的。如本公开所述的，将该估计值代入等式(11)会产生LS后滤波器(LSPF)(160a)。

在上述示例性实施例中，推导出的LS解假设M≥3。这是因为使用了由四种类型的声音信号组成的更普遍化的声场模型。在其它示例性实施例中，关于声场的附加信息是可用的，这样可以忽略某些类型的干扰信号(例如，无点干扰并且/或者仅有白噪声)，然后可以移除等式(19)中与这些可忽略声源对应的列，并且仍然可以利用M＝2来开发本公开所描述的LSPF。

图5是图示根据本公开的实施例的计算频率仓(165a)的后滤波系数的示例性步骤。下面在图5中的图示反映了上面公开的细节与上述数学概念的示例性实施方式。所公开的步骤仅通过图示的方式给出。对本领域的技术人员来说明显的是，在具体实施方式的精神和范围之内可以并行地或者以交替的序列来进行某些步骤。

参照图5，示例性步骤开始于步骤501。在步骤502中，经由麦克风阵列(130)从环境(105)中的声源(106-108)生成的噪声(109)接收音频信号。在步骤503中，假设声场场景(111)。在步骤504中，针对频率仓(165a)，基于接收到的音频信号(117a、122a、127a)，计算固定的波束形成器系数(138a)。在步骤505中，基于假设的声场场景(111)，确定协方差矩阵模型(140a)。在步骤506中，基于接收到的音频信号(117a、122a、127a)，计算协方差矩阵(145a)。在步骤507中，基于确定的协方差矩阵模型(140a)和计算得到的协方差矩阵(145a)，估计声源(150a)的功率。在步骤508中，基于估计的声源(150a)的功率和计算得到的固定波束形成器系数(138a)，计算后滤波系数(155a)。这些示例性步骤可以继续进入结束步骤509。可以对每个频率仓(165a-c)实施上述步骤以分别生成经过后滤波的输出信号(161a-c)。然后，可以对经过后滤波的信号(161a-c)进行转换(170)以生成最终输出/期望信号(175)。

如上所述，与本文所述的方法与系统相比，传统的后滤波方法不是最佳的并且具有缺陷。下面将对现有方法相对于本公开的局限性和缺陷进行说明。

(a)Zelinski后滤波(ZPF)假设：1)无点干扰，即

2)无扩散噪声，即

只有加性不相干白噪声。从而，将等式(19)简化为：

ZPF只使用等式(22)的底部odhv部分而非使用等式(21)计算

的最佳LS解，从而得到：

要注意的是，从等式(13)中得出

从而，等式(23)变为：

如果将LSPF的相同声场模型用于ZPF(例如，只有白干扰)，则可以看出，当M＝2时，ZPF和LSPF是等效的。然而，当M≥3时，它们在本质上是不同的。

(a)McCowan后滤波(MPF)假设：1)无点干扰，即

＝0，2)无加性白噪声，即

只有扩散噪声。在这些假设下，等式(19)变成：

要注意的是，从等式(9)中得出diag{Γ_uu}＝1_M×1。

等式(25)为超定体系。再者，MPF应用从等式(25)得出的与第p个麦克风和第q个麦克风对相对应的三个等式来形成像下面的子体系，而不是通过下面等式(21)来找到全局LS解：

其中，

针对

MPF方法对等式(26)求解：

由于存在M(M-1)/2个不同的麦克风对，所以最终的MPF估计值只是子体系的结果的平均值，如下：

在实践中，扩散噪声模型比白噪声模型更常见。当Γ_uu＝I_M×M时，可以将后者视为前者的特殊情况。但是，对等式(25)求解的MPF方法是启发式的，并且也不是最佳的。再者，如果LSPF使用了仅有扩散噪声模型，则当M＝2时，LSPF等效于MPF；而当M≥3时，它们在本质上是不同的。

(c)Leukimmiatis后滤波采用MPF中提出的算法来估计

Leukimmiatis等人仅仅解决了Zelinski后滤波和McCowan后滤波中的缺陷，(11)中的后滤波的分母应该为

而不是

6.实验结果

下面提供了已经进行的示例性语音增强实验的结果以验证本公开的LSPF方法与系统。图6图示了实验的麦克风阵列(610)和声源(620、630)的空间布置。在附图内的元素的位置并不旨在表达确切尺寸或者距离，这将在下面描述中提出。提供了考虑麦克风阵列(610)的前四个麦克风M1-M4(601-604)的一组实验，其中，各麦克风之间的间距为3cm。60dB混响时间为360ms。期望声源(620)位于阵列的舷侧(0°)，而干扰源(630)位于45°方向上。两者均距离阵列2m。将纯的、连续的16kHz/16比特语音信号用于这些点声源。期望声源(620)为女性说话者，而干扰源(630)为男性说话者。两种信号的发声部分均具有多个重叠部分。因此，对16kHz的脉冲响应进行重新采样，将这些冲击响应截断为4096个样本，并且生成球面各向同性的扩散噪声。在这些实验模拟中，使用了分布在较大球面上的72×36＝2592个点源。将这些信号截断为20s。

在上述实验中，定义三个全频段测量值来表征声场(下标SF)。即，信号干扰比(SIR)、信噪比(SNR)、和扩散白噪声比(DWR)，如下：

其中，

对于性能评估，可以对两个目标矩阵进行分析：信号干扰噪声比(SINR)和感知评估语音质量(PESQ)。分别计算每个麦克风处的SINR和PESQ，并且取SINR和PESQ的平均数作为输入的SINR和PESQ。近似地估计出输出SINR和PESQ(分别用SINRo和PESQo表示)。分析在输入测量值与输出测量值之间的差(即，delta值)。为了更好评估在输出处的噪声减少与语音失真的量，还要计算出干扰与噪声减少(INR)和仅期望语音的PESQ(dPESQ)。对于dPESQ，将经过处理的期望语音和纯语音传送至PESQ估计器。输出PESQ指示增强信号的质量，而dPESQ值量化了引进的语音失真的量。在本研究中，使用了Hu&Loizou提出的用于PESQ的Matlab代码。

为了避免MVDR(最小方差无失真响应)波束形成器中由于室内混响而引起的公知信号相消问题，将延迟与求和(D&S)波束形成器实施用于前端处理，并且与下列四种不同的后滤波算法进行比较：无后滤波、ZPE、MPE和LSPF。将只有D&S的实施方式用作基准。对于ZPE和MPE，已经采用了Leukimmiatis的校正。在下列三种不同的设置下进行测试：1)只有白噪声：SIRSF＝30dB，SNRSF＝5dB，DWRSF＝-30dB；2)只有扩散噪声：SIRSF＝30dB，SNRSF＝10dB，DWRSF＝30dB；3)混合噪声、干扰：SIRSF＝0dB，SNRSF＝10dB，DWRSF＝0dB。结果如下：

表1：麦克风阵列语音增强结果

Table1：Microphone array speech enhancement results.

在这些测试中，将平方根汉明窗和512点FFT用于STFT分析。两个邻近的窗口具有50％的重叠样本。使用加权的重叠相加方法来重构经过处理的信号。

在表1中概括了实验结果。首先，对只有白噪声的声场的结果进行分析。由于这是通过ZPF方法解决的声场的类型，所以SPF在抑制噪声和增强语音质量上起到了非常好的作用。然而，虽然所提出的LSPF以稍低的dPESQ引进了更大的语音失真，但却实现了更大的噪声减少并且提供了更高的输出PESQ。由于MPF的SINR增益低于ZPF和LSPF的SINR增益，所以MPF产生了虚高的INR。这意味着，MPF不仅大大地抑制了噪声，而且还抑制了语音信号。MPF的PESQ和dPESQ均低于LSPF的PESQ和dPESQ。

在第二种声场中，正如预期的，D&S波束形成器在处理扩散噪声上不太有效，并且ZPF的性能也降低了。在这种情况下，MPF的性能尚可，仍然是LSPF显然取得了最好的结果。

由于存在随时间变化的干扰语音源，第三种声场显然是最具有挑战性的情况。然而，LSPF在所有矩阵中均胜过了其它传统方法。

最后，值得注意的是，这些纯粹客观的性能评估结果与我们的少数同行实施的非正式监听测试中的四种技术的主观认知一致。

本公开描述了用于麦克风阵列应用的LS后滤波方法的方法与系统。与传统的后滤波技术不同，所描述的方法不仅考虑了扩散噪声和白噪声，而且还考虑了点干扰。而且，这是比传统方法更有效的开发由麦克风阵列采集到的信息的全局最优方案。此外，已经通过各种声学场景中的模拟验证并且量化了所公开的技术胜过现有方法的优点。

图7是示出计算装置(700)上的应用的高级框图。在基本配置(701)中，计算装置(700)通常包括一个或者多个处理器(710)、系统存储器(720)、和存储器总线(730)。该存储器总线用于在处理器与系统存储器之间进行通信。该配置还可以包括实施上述方法的独立后滤波部件(726)，或者可以集成到应用(722、723)中。

根据不同的配置，处理器(710)可以是微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)、或者其任何组合。处理器(710)可以包括一个或者多个级别的缓存(诸如，L1缓存(711)和L2缓存(712))、处理器核心(713)、和寄存器(714)。处理器核心(713)可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP Core)、或者其任何组合。存储控制器(716)可以是处理器(710)的独立部分或者内部部分。

根据期望的配置，系统存储器(720)可以是任何类型的，包括但不限于：易失性存储器(诸如，RAM)、非易失性存储器(诸如，ROM、闪速存储器等)或者其任何组合。系统存储器(720)通常包括操作系统(721)、一个或者多个应用(722)、和程序数据(724)。应用(722)可以包括后滤波部件(726)或者用于语音增强的全局优化最小二乘后滤波(723)的系统与方法。程序数据(724)包括存储指令，这些指令在由一个或者多个处理装置执行时实施针对上述方法和部件(723)的系统与方法。或者，可以经由后滤波部件(726)来执行该方法的指令与实施。在某些实施例中，应用(722)可以设置为在操作系统上(721)利用程序数据(724)来运行。

计算装置(700)可以具有附加特征或者功能、和附加接口以促进基本配置(701)与任何需要的装置和接口之间的通信。

系统存储器(720)是计算机存储介质的示例。计算机存储介质包括，但不限于：RAM、ROM、EEPROM、闪速存储器、或者其它存储器技术、CD-ROM、数字通用光盘(DVD)或者其它光存储装置、磁带盒、磁带、磁盘存储装置或者其它磁存储装置、或者可以用于存储需要的信息并且可以由计算装置700存取的任何其它介质。任何这种计算机存储介质可以是装置(700)的一部分。

计算装置(700)可以实施为小形状因子便携式(或者移动)电子装置的一部分，诸如，手机、智能电话、个人数字助理(PDA)、个人媒体播放器、平板计算机(平板)、无线网页浏览装置、个人耳机装置、专用于应用的装置、或者包括上述功能中的任何一种功能的混合装置。计算装置(700)还可以实施为个人计算机，包括膝上型计算机配置和非膝上型计算机配置二者。

上述的具体实施方式已经通过使用框图、流程图和/或示例陈述了装置和/或过程的各个实施例。这些框图、流程图和/或示例包含一种或者多种功能和/或操作，本领域技术人员应该理解的是，可以通过各种各样的硬件、软件、固件或者其任何虚拟组合来单独地和/或联合地实施这些框图、流程图和/或示例中的各个功能和/或操作。在一个实施例中，可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或者其它集成格式来实施本文所描述的主题的若干部分。然而，本领域技术人员将认识到，本文中描述的实施例的某些方面可以在集成电路中全部或者部分地等效实施为在一个或者多个计算机上运行的一个或者多个计算机程序、在一个或者多个处理器上运行的一个或者多个程序、固件、或者其任何虚拟组合；而且，根据本公开设计电路和/或写入用于软件和固件的代码应该在本领域技术人员的技术范围之内。此外，本领域技术人员应该明白的是，本文中描述的主题的机制能够被描述为各种形式的程序产品；而且，不管实际实施分配的非暂时性信号承载介质的具体类型，本文中描述的主体的图示实施例均可以适用。非暂时性信号承载介质的示例包括，但不限于：可记录型介质，诸如，软盘、硬盘驱动器、光碟(CD)、数字视频光盘(DVD)、数字磁带、计算机存储器等；以及，传输型介质，诸如，数字和/或模拟通信介质(例如，纤维光缆、波导、有线通信链路、无线通信链路等)。

相对于本文中的任何复数和/或单数术语的使用，本领域的技术人员可以根据上下文和/或应用从复数转化为单数和/或从单数转化为复数。为了清楚起见，可以在本文中清楚地陈述各种单数/复数置换。

因此，已经对主题的特定实施例进行了描述。其它实施例在以下权利要求书的范围内。在一些情况下，在权利要求书中叙述的动作可以按照不同的顺序来进行并且仍然可以实现期望的结果。此外，在附图中描述的过程并不一定需要按照图示的特定顺序或者先后顺序来实现期望的结果。在某些实施方式中，多任务处理和并行处理可能是有利的。

Claims

1.一种计算机实施的方法，包括：

经由麦克风阵列从环境中的声源接收音频信号；

基于所接收到的音频信号来假设多个声场场景以生成多个输出信号，包括假设点干扰、扩散噪声和白噪声；

基于所接收到的音频信号来计算固定的波束形成器系数；

基于所述多个输出信号来确定协方差矩阵模型；

基于所接收到的音频信号来计算协方差矩阵；

估计所述声源的功率以找到使所确定的协方差矩阵模型与所计算的协方差矩阵之间的差最小化的方案；

基于所估计的功率来计算并且应用后滤波系数；以及

基于所接收到的音频信号和所述后滤波系数来生成输出音频信号。

2.根据权利要求1所述的方法，其中，将多个所生成的输出信号进行比较，并且从多个所生成的输出信号中选择具有最高信噪比的输出信号作为最终输出信号。

3.根据权利要求1所述的方法，其中，对所述功率的所述估计是基于弗罗宾尼斯范数。

4.根据权利要求3所述的方法，其中，所述弗罗宾尼斯范数是使用所述协方差矩阵的埃尔米特对称来计算的。

5.根据权利要求1所述的方法，进一步包括：

使用声源位置方法来确定所述声源中的至少一个声源的位置以假设所述声场场景、确定所述协方差矩阵模型、并且计算所述协方差矩阵。

6.根据权利要求1所述的方法，其中，所述协方差矩阵模型是基于多个假设的声场场景生成的。

7.根据权利要求6所述的方法，其中，选择协方差矩阵模型以使减少噪声的目标函数最大化。

8.根据权利要求7所述的方法，其中，目标函数是所述最终输出音频信号的样本方差。

9.一种设备，包括：

一个或者多个处理装置和存储指令的一个或者多个存储装置，所述指令在由所述一个或者多个处理装置执行时使得所述一个或者多个处理装置：

经由麦克风阵列从环境中的声源接收音频信号；

基于所接收到的音频信号来假设声场场景以生成多个输出信号，包括假设点干扰、扩散噪声和白噪声；

基于所接收到的音频信号来计算固定的波束形成器系数；

基于所述多个输出信号来确定协方差矩阵模型；

基于所接收到的音频信号来计算协方差矩阵；

基于所估计的功率来计算并且应用后滤波系数；以及

10.根据权利要求9所述的设备，其中，将多个所生成的输出信号进行比较，并且从多个所生成的输出信号中选择具有最高信噪比的输出信号。

11.根据权利要求9所述的设备，其中，对所述功率的所述估计是基于弗罗宾尼斯范数。

12.根据权利要求11所述的设备，其中，所述弗罗宾尼斯范数是使用所述协方差矩阵的埃尔米特对称来计算的。

13.根据权利要求9所述的设备，进一步包括：

14.一种非暂时性计算机可读介质，包括用于以下的指令的集合：

经由麦克风阵列从环境中的声源接收音频信号；

基于所接收到的音频信号来计算固定的波束形成器系数；

基于所述多个输出信号来确定协方差矩阵模型；

基于所接收到的音频信号来计算协方差矩阵；

基于所估计的功率来计算并且应用后滤波系数；以及

15.根据权利要求14所述的非暂时性计算机可读介质，其中，将多个所生成的输出信号进行比较，并且从多个所生成的输出信号中选择具有最高信噪比的输出信号。

16.根据权利要求14所述的非暂时性计算机可读介质，其中，对所述功率的所述估计是基于弗罗宾尼斯范数。

17.根据权利要求16所述的非暂时性计算机可读介质，其中，所述弗罗宾尼斯范数是使用所述协方差矩阵的埃尔米特对称来计算的。