CN104781880A

CN104781880A - 用于提供通知的多信道语音存在概率估计的装置和方法

Info

Publication number: CN104781880A
Application number: CN201280076853.2A
Authority: CN
Inventors: 埃马努埃尔·哈贝茨; 马亚·塔塞斯卡
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2015-07-15
Anticipated expiration: 2032-09-03
Also published as: BR112015004625B1; BR112015004625A2; JP2015526767A; WO2014032738A1; US20150310857A1; EP2893532A1; JP6129316B2; RU2015112126A; EP2893532B1; US9633651B2; RU2642353C2; CN104781880B

Abstract

提供一种用于提供语音概率估计的装置。所述装置包括用于估计表示场景的声场是否包括语音或场景的声场是否不包括语音的第一概率的语音概率信息的第一语音概率估计器(110)。另外，所述装置包括用于根据所述语音概率信息输出语音概率估计的输出接口(120)。所述第一语音概率估计器(110)配置为至少基于关于声场的空间信息或场景的空间信息估计第一语音概率信息。

Description

用于提供通知的多信道语音存在概率估计的装置和方法

技术领域

本发明涉及音频信号处理，尤其涉及一种用于提供通知的多信道语音存在概率估计的装置和方法。

背景技术

音频信号处理变得越来越重要。特别是，在许多人机接口和通信系统中对免提语音捕捉有需要。内置声学传感器通常会接收到所需声音(例如，语音)和不需要的声音(例如，环境噪声，干扰语言，混响和传感器噪声)的混合。由于不需要的声音降低了所需声音的质量和清晰度，因此声学传感器信号可被处理(例如，过滤和求和)以提取出所需的源信号或，换句话说，减少不需要的声音信号。为了计算这种滤波器，通常要求对噪声功率谱密度(PSD)矩阵的精确估计。在实践中，噪声信号是不可观察的并且其PSD矩阵需要从带有噪音的声学传感器信号中估计。

单信道语音存在概率(SPP)估计器已经被用于估计噪声PSD(见，例如【1-5】)并且控制降噪和语音失真之间的权衡(见，例如【6,7】)。多信道后验SPP最近已经用于估计噪声PSD矩阵(见，例如【8】)。另外，所述SPP估计可用于减低设备的功耗。

在下文中，将考虑在多信道语音处理中行之有效的信号模型，其中M-元素阵列的每个声学传感器捕获所需信号和不需要的信号的累加混合。在第m个声学传感器接收到的信号可在如下时间-频率域中描述：

Y_m(k，n)＝X_m(k，n)+V_m(k，n), (1)

其中X_m(k，n)和V_m(k，n)分别表示第m个声学传感器的所需源信号和噪声分量的复频谱系数，并且n和k分别为时间和频率指数。

所需信号可以，例如，在整个麦克风空间地相干，并且噪声的空间相干性可以，例如，遵循理想的球形各向同性声场的空间相干性，见【24】。

换句话说，例如，X_m(k，n)可表示在第m个声学传感器的所需源信号的复频率系数，V_m(k，n)可表示在第m个声学传感器的噪声分量的复频谱系数，n可表示时间指数，并且k可以表示频率指数。

观察到的嘈杂声学传感器信号可写成矢量符号：

y(k，n)＝[Y₁(k，n)…Y_M(k，n)]^T (2)

并且y(k，n)的功率谱密度(PSD)矩阵被定义为

Φ_yy(k，n)＝E{y(k，n)y^H k，n)}， (3)

其中上标H表示矩阵的共轭转置。矢量x(k，n)和v(k，n)以及矩阵Φ_xx(k，n)和Φ_yy(k，n)也被类似地定义。所需的和不需要的信号被假定为互不相关和为零平均值，使得式(3)可写为：

Φ_yy(k，n)＝Φ_xx(k，n)+Φ_vv(k，n) (4)

以下标准的假设被引入在给定的时间频率点中关于所需信号(例如，语音信号)的存在：

H₀(k，n)：y(k，n)＝v(k，n)表示语音不存在，并且

H₁(k，n)：y(k，n)＝x(k，n)表示语音存在。

它可以，例如，理解为估计条件后验SPP，例如，p[H₁(k，n)]|y(k，n)。

假定将阵列的第i个麦克风作为参考，它可以，例如，理解来估计所需信号X_i(n，k)。

假设所需的和不需要的分量可被建模为复多元高斯随机变量，多信道SPP估计由下式给出(见【9】)：

p [H_{1} (k, n) | y (k, n)] = {1 + \frac{q (k, n)}{1 - q (k, n)} [1 + ξ (k, n)] e^{- \frac{β (k, n)}{1 + ξ (k, n)}}}^{- 1} - - - (5)

其中q(k，n)＝p[H₁(k，n)]表示先验语音存在概率(SPP)，并且

ξ (k, n) = tr {Φ_{vv}^{- 1} (k, n) Φ_{xx} (k, n)}, - - - (6)

β (k, n) = y^{H} (k, n) Φ_{vv}^{- 1} (k, n) Φ_{xx} (k, n) Φ_{vv}^{- 1} (k, n) y (k, n), - - - (7)

其中tr{·}表示迹算子。也可以衍生和使用假设另一种分布类型(例如，拉普拉斯分布)的另一种估计器。

仅在假设所需信号PSD矩阵为秩一【例如

Φ_{xx} (k, n) = φ_{x_{i} x_{i}} (k, n) γ (k, n) γ_{i}^{H} (k, n)

和并且Υ_i表示长度为M的列向量】，多信道SPP可通过将单信道SPP估计器应用于最小方差无失真响应(MDVR)波束成形器的输出。

现有的方法既可以使用固定的先验SPP【4,9】或依赖于单信道或多信道先验信噪比(SNR)(见【2,8,10】)的值。Cohen等人【10】使用基于所估计的单信道先验SNR的时间-频率分布的P_local(k，n)，P_global(k，n)以及P_frame(n)三个参数来计算由

q(k，n)＝P_local(k，n)P_global(k，n)P_frame(n)(8)给出的先验SPP。

这些参数利用语音存在在连续时间帧的邻近频点的强相关性。在现有技术的其它方法中(见【11】)，在对数能量域中计算参数。在现有技术的进一步的方法中(见【8】)，替代地，多信道先验SNR用于计算P_local(k，n)，P_global(k，n)以及P_frame(n)。

现有的SPP的估计器的主要缺点在于它们不能区分所需的声音和不需要的声音。

发明内容

本发明的目的在于提供用于提供通知的多信道语音存在概率估计的改进概念。本发明的目的由根据权利要求1所述的装置，根据权利要求19所述的方法以及根据权利要求20所述的计算机程序实现。

在下文中，我们将使用术语“场景”。场景是声场产生的环境。场景的空间信息可以，例如，包括产生声场的一个或多个声源的位置信息，声学传感器的位置信息，声源到声学传感器的接近度信息，关于是否检测到说话人或口的信息，和/或关于说话人或口是否在声学传感器附近的信息。

声场的特征可在于，例如，在环境(例如，声场存在的环境)中的每个位置的声压。例如，声场的特征可在于环境(例如，声场存在的环境)中的每个位置的声压的振幅。或者，声场的特征可在于，例如，当考虑到频谱域或时间-频率域时，环境，例如，声场存在的环境，中的每个位置的复声压。例如，表征所述声场的环境中的位置的声压可以，例如，由一个或多个声学传感器，例如，一个或多个麦克风，来记录。关于声场的空间信息可以，例如，包括到达矢量的方向或，例如，由记录环境中的位置的声压的一个或多个声学传感器的记录确定的直接扩散能量比，所述声压表征声场。

提供了一种用于提供语音概率估计的装置。所述装置包括用于估计语音概率信息的第一语音概率估计器(其可等于先验语音存在概率估计器)，其中，语音概率信息表示场景声场是包括语音或场景声场不包括语音的第一概率。此外，所述装置包括用于根据所述语音概率信息输出语音概率估计的输出接口。第一语音概率估计器被配置为至少基于关于声场的空间信息或场景的空间信息估计第一语音概率信息。

提出了利用在条件后验SPP的计算中从声学传感器信号和可能的非声学传感器信号中导出的先验信息克服现有技术的缺点的概念。特别是，利用了关于声场的空间信息，诸如，方向性，距离和位置。

可确定参数P_a，P_b和/或P_c，P_lobal(k，n),P_global(k，n)和/或P_frame(n)。

重要的是要注意，参数P_a，P_b和/或P_c以及其它已知参数(例如，P_local(k，n)，P_global(k，n)以及P_frame(n))的任意组合(例如，乘积，求和，加权求和)可用于通过使用组合器获得所述语音概率信息。这也意味着也有可能仅仅使用参数P_a，P_b或P_c来获得所述语音概率信息。

参数的含义将在下面作进一步解释。

可以使用参数的任何可能的组合，例如:

a)q＝P_c(例如，当物体在传感器附近时，假定P_c＝0.7。那么任何活动的声源(是否靠近)将被认为是所需的先验SPP1-0.7＝0.3。)

b)q＝P_aP_c(例如，当有物体在靠近传感器并且DDR足够高时，声音被认为是所需的。)

c)q＝P_bP_c(例如，当有物体在传感器附近并且声源的位置在感兴趣区域(例如，到达方向范围)内时，声音被认为是所需的。)

d)q＝P_aP_bP_c(例如，当有物体在传感器附近，观察到的声音的DDR足够高，并且声源的位置在感兴趣区域内时，声音被认为是所需的。)

根据一个实施方案，该装置可进一步包括用于估计表示场景声场是否包括语音或场景声场是否不包括语音的第二概率的语音概率的第二语音概率估计器。第二语音概率估计器可被配置为基于第一语音概率估计器估计的语音概率信息以及基于取决于声场的一个或多个声学传感器信号，来估计所述语音概率估计。

在另一个实施方案中，第一语音概率估计器可被配置为基于方向性信息估计语音概率信息，其中方向性信息表示声场的定向声音如何。或者或另外，第一语音概率估计器可被配置为基于位置信息估计语音概率信息，其中所述位置信息表示场景声源的至少一个位置。或者或另外，第一语音概率估计器被配置为基于接近度信息估计语音概率信息，其中所述接近度信息表示至少一个(可能)声音对象(sound object，发声对象)到至少一个接近度传感器的至少一个距离。

根据进一步的实施方案，第一语音概率估计器可被配置为通过确定直接扩散比率的直接扩散比率估计作为空间信息来估计语音概率估计，所述直接扩散比率表示声学传感器信号中包括的直达声与声学传感器信号中包括的扩散声的比率。

在另一个实施方案中，第一语音概率估计器可被配置为通过确定声学传感器信号中的由第一声学传感器p记录的第一声学信号，和声学传感器信号中的由第二声学传感器q记录的第二声学信号之间的复相干性的相干估计来确定直接扩散比率。第一语音概率估计器还可被配置为基于第一声学信号和第二声学信号之间的直达声的相移估计来确定直接扩散比率。

根据一个实施方案，第一语音概率估计器可被配置为通过应用以下公式来确定第一声学信号和第二声学信号之间的直接扩散比率估计

可以是相对于时间频率点(time-frequency bin)(k，n)的第一声学信号和第二声学信号之间的复相干性的相干性估计，其中n表示时间，并且其中k表示频率。

θ(k，n)可以是相对于时间频率点(k，n)的第一声学信号和第二声学信号之间的直达声的相移的相移估计，并且

Γ_pq，diff(k)可对应于纯扩散声场中的声学传感器p和声学传感器q之间的空间相干性。

函数Γ_pq，diff(k)可根据假定的扩散声场来测量或预先计算。

在另一个实施方案中，所述第一语音概率估计器可被配置为通过确定来估计所述第一语音概率信息，其中可为直接扩散比率估计，并且其中可以为代表所述直接扩散比率到0到与1之间的值的映射的映射函数。

在另一个实施方案中，映射函数可通过公式:

f [\hat{Γ} (k, n)] = l_{\max} - (l_{\max} - l_{\min}) \frac{10^{cρ / 10}}{10^{cρ / 10} + \hat{Γ} {(k, n)}^{ρ}}

来定义，

其中l_min可以是映射函数的最小值，其中l_max可以是映射函数的最大值，其中c可以是控制沿着Γ轴的偏移量的值，并且其中ρ可定义l_min和l_max之间的过渡的陡度。

根据进一步的实施方案，第一语音概率估计器可被配置为通过公式

来确定位置参数P_b，

其中，Ω是特殊位置，其中为估计位置，

其中是条件概率密度函数，并且

其中p(Ω)是Ω的先验概率密度函数，并且

其中是的概率密度函数，并且

ΣΩ表示与Ω的估计有关的不确定度，并且

R(Ω)是描述感兴趣区域的多维函数，其中0≤R(Ω)≤1。

在另一个实施方案中，第一语音概率估计器可被配置为通过应用以下公式来确定先验语音存在概率q(k，n)：

q (k, n) = f [Γ (k, n)] \cdot {&Integral;}_{- π}^{π} \frac{p (θ | \hat{θ}; σ) p (θ)}{p (\hat{θ})} R (θ) dθ

其中θ是特定到达方向，并且其中是估计的到达方向，

其中是条件概率密度函数，并且

其中p(θ)是θ的先验概率密度函数，并且

其中是的概率密度函数，并且

其中σ表示与θ的估计有关的不确定度，并且

其中是代表直接扩散比率估计到0和1之间的值的映射的映射函数，并且

其中R(θ)描述感兴趣区域的多维函数，其中0≤R(θ)≤1。

在进一步的实施方案中，第一语音概率估计器可被配置为确定接近度参数作为空间信息，其中当第一语音概率估计器从接近度传感器检测到在一定距离内有一个或多个可能声源时，接近度参数具有第一参数值，并且其中当第一语音概率估计器在接近度传感器的直接距离内没有检测到可能声源时，所述接近度参数具有第二参数值，第二参数值小于第一参数值。第一语音概率估计器被配置为当所述接近度参数具有第一参数值时，确定第一语音概率值作为语音概率信息，并且其中第一语音概率估计器被配置为当所述接近度参数具有第二参数值时，确定第二语音概率值作为语音概率信息，第一语音概率值表示声场包括语音的第一概率，其中所述第一概率大于声场包括语音的第二概率，所述第二概率由第二语音概率值表示。

在一个实施方案中，提供了一种用于确定噪声功率谱密度估计的装置，包括上述实施方案中任一项所述的装置，以及噪声功率谱密度估计单元。上述实施方案中任一项所述的装置可被配置为将语音概率估计提供给所述噪声功率谱密度估计单元。所述噪声功率谱密度估计单元可被配置为基于所述语音概率估计和多个输入音频信道，来确定所述噪声功率谱密度估计。

在进一步的实施方案中，提供了一种用于估计方向矢量(steeringvector，导向矢量)的装置，包括上述实施方案中任一项所述的装置以及方向矢量估计单元。上述实施方案中任一项所述的装置可被配置为将所述语音概率估计提供给所述方向矢量估计单元。所述方向矢量估计单元可被配置为基于所述语音概率估计和多个输入音频信道估计所述方向矢量。

根据另一个的实施方案，提供了一种用于多信道降噪的装置，包括上述实施方案中任一项所述的装置以及过滤单元。所述过滤单元可被配置为接收多个音频输入信道。上述实施方案中一项所述的装置可被配置为将所述语音概率信息提供给所述过滤单元。所述过滤单元可被配置为基于所述语音概率信息过滤多个音频输入信道以获得过滤后的音频信道。

在一个实施方案中，所述第一语音概率估计器可被配置为生成权衡参数，其中所述权衡参数取决于关于声场的空间信息或关于场景的空间信息。

根据一个进一步的实施方案，所述过滤单元可被配置为根据权衡参数过滤多个音频输入信道。

提出了盲目提取在整个阵列强烈相干的声音的概念。多信道噪声PSD矩阵估计器是基于后验SPP提出的。与现有技术相比，DDR的估计用于确定先验SPP。此外，它提出使用估计的DDR来控制PMWF的权衡参数。此外，它表明所提出的DDR控制的PMWF在分段SNR提高和PESQ改善方面优于MVDR波束成形器和WMF。

在一个实施方案中，提供了一种用于提供语音概率估计的方法，包括：

-估计表示声场是否包括语音或声场是否不包括语音的第一概率的语音概率信息，以及

-根据所述语音概率信息输出所述语音概率估计。

估计所述第一语音概率信息是至少基于关于所述声场的空间信息或场景的空间信息进行的。

此外，提供了一种用于当所述方法在计算机或信号处理器上执行时实现上述方法的计算机程序。

在所附权利要求中提供了实施方案。

附图说明

在下文中，本发明的实施方案参照附图进行了更详细的描述，其中，

图1示出了根据一个实施方案的用于提供语音概率估计的装置，

图2示出了根据另一个实施方案的用于提供语音概率估计的装置，

图3示出了根据一个实施方案的通知的多信道后验SPP估计器的方块图，

图4示出了根据一个实施方案的先验SPP估计器的方块图，

图5示出了根据一个实施方案的从DDRΓ到参数P_a:l_min＝0.2，l_max＝0.8，ρ＝2，c＝3的映射，

图6示出了根据一个实施方案的针对P_b使用用户/应用设置确定感兴趣区域的估计器的方块图，

图7示出了根据一个实施方案的针对P_b使用声学和非声学数据确定感兴趣区域的估计器的方块图，

图8示出了根据一个实施方案的用于确定噪声功率谱密度估计的装置，

图9示出了根据进一步的实施方案的所提出的噪声PSD矩阵估计器的方块图，

图10a示出了根据一个实施方案的用于估计方向矢量的装置，

图10b示出了根据一个实施方案的方向矢量估计器的方块图，

图11示出了根据一个实施方案的用于多信道降噪的装置，

图12示出了从DDR到权衡参数β＝1–Pa(l_min＝0，l_max＝5，ρ＝2，c＝0)的映射，

图13示出了用于稳定性(左)和串音噪声(右)的PESQ改善，

图14示出了用于稳定性(左)和串音噪声(右)的SNR增益，

图15示出了用于串音噪声(S_i＝11dB)的范例图，

图16示出了估计出的DDR以及相应的SPP(S_i＝11dB)。

具体实施方式

图1示出了根据一个实施方案的用于提供语音概率估计的装置。所述装置包括用于估计表示场景声场是否包括语音或场景声场是否不包括语音的第一概率的语音概率信息的第一语音概率估计器110。另外，所述装置包括用于根据所述语音概率信息输出语音概率估计的输出接口120。所述第一语音概率估计器110被配置为至少基于关于声场的空间信息或场景的空间信息估计第一语音概率信息。

场景是声场产生的环境。场景的空间信息可以，例如，包括产生声场的一个或多个声源的位置信息，声学传感器的位置信息，声源到声学传感器的接近度信息，关于是否检测到说话人或口的信息，和/或关于人的说话人或口是否在声学传感器附近的信息。

声场的空间信息可以是，例如，表示声场的定向声音如何的方向性信息。例如，所述方向性信息可以是如下所述的直接扩散比率(DDR)。

图2示出了根据另一个实施方案的用于提供语音概率估计的装置。所述装置包括第一语音概率估计器210和输出接口220。此外，所述装置还包括用于估计表示场景声场是否包括语音或场景声场是否不包括语音的第二概率的语音概率信息的第二语音概率估计器第二语音概率估计器215。所述第二语音概率估计器215被配置为基于第一语音概率估计器估计的语音概率信息以及基于取决于声场的一个或多个声学传感器信号，来估计所述语音概率估计。

出于这个目的，第一语音概率估计器接收关于声场的空间信息和/或场景的空间信息。然后所述第一语音概率估计器210估计表示场景声场是否包括语音或场景声场是否不包括语音的第一概率的语音概率信息。然后所述第一语音概率估计器210可将所述语音概率信息反馈到第二语音概率估计器215中。此外，所述第二语音概率估计器215还可以进一步接收一个或多个声学传感器信号。然后，所述第二语音概率估计器215基于第一语音概率估计器210估计的语音概率信息以及基于取决于声场的一个或多个声学传感器信号，来估计所述语音概率估计。

与现有技术相比，特别是，语音概率的估计是基于空间信息进行的。这显著改善了语音概率的估计。

现在，介绍关于在给出的时间-频率点中的所需语音信号的存在的假设，据此，

H₀(k,n):y(k,n)＝v(k,n)表示语音不存在，并且

H₁(k，n)：y(k，n)＝x(k，n)表示语音存在。

换句话说，H₀(k,n)表示语音不存在，而H₁(k，n)表示语音存在。

图3示出了通知的多信道SPP估计器的方块图。“条件后验SPP计算”模块可实现式(5)。

在图3中，模块310实现了“先验SPP计算”的实施。在图3的实施方案中，“先验SPP计算”模块310可以实现图2的第一语音概率估计器210的具体实现。此外，在图3中，模块315实现了“条件后验SPP的计算”的实施。在图3的实施方案中，“条件后验SPP的计算”模块315可实现图2的第二语音概率估计器215的具体实现。

根据具体实施方案的“先验SPP计算”模块310的实现如图4所示。在图4中，用户/应用程序设置可用于模块401，……,40P中的参数的计算。用户/应用程序设置还可以提供给组合器411。在此，通过使用声学或非声学传感器数据以及用户/应用程序设置来计算P参数。参数P1，……,Pp通过组合器411被组合(例如，加权求和，乘积，最大比值合并)来计算先验SPP q(k，n)。

在接下来的小节中，提出了可用来计算通知的多信道SPP所需的先验SPP的三个参数。

接下来，特别提出了基于方向性的参数P_a。

假设所需声音是有方向的并且不需要的声音是没有方向的是合理的假设。因此，参数用来表示所观察到的声音的方向是怎样的。测量声场的方向性的一种可能性是直接扩散比率(DDR)。DDR的估计可以通过如图【12】所示的复相干性(CC)得到。在声学传感器p和q处测量到的两个信号之间的CC在时间-频率域定义为

Γ_{pq} (k, n) = \frac{φ_{pq} (k, n)}{\sqrt{φ_{pp} (k, n) φ_{qq} (k, n)}}, - - - (9)

其中φ_pq(k，n)为交叉PSD，并且φ_pp(k，n)和φ_qq(k，n)为两个信号的自动PSDs。【12】中的DDR估计器是基于声场模型的，其中在任何位置上的声压以及时间-频率点被建模为由单一单色平面波和理想的扩散场代表的直达声的叠加。假设声学传感器为全方位声学传感器，CC函数可以表示为

Γ_{pq} (k) = \frac{Γ (k, n) e^{jθ (k, n)} + Γ_{pq, diff} (k)}{Γ (k, n) + 1}, - - - (10)

其中θ(k，n)为两个声学信号之间的直达声的相移，Γ(k，n)表示DDR，并且Γ_pq，diff(k)＝sin(k，d)/k，d是理想的球形各向同性声场的CC，K对应于频率指数k处的波数，并且d对应于声学传感器p和q之间的距离。函数Γ_pq，diff(k)也可能是由测量产生的。使用(9)计算Γ_pq(k)所需的PSD通过时间平均值进行近似，并且直达声的相移θ(k，n)可由估计的嘈杂PSD获得，例如，

现在DDRΓ(k，n)可以通过和所估计的相移表示为

根据应用或声学场景(室内或室外)，CC函数Γ_pq，diff(k)还可以由与另一噪声场对应的空间相干性代替。当两个以上声学传感器可用时，不同的声学传感器对获得的DDR估计可以组合。

显然，的低值表明定向源不存在，反之，的高值表明定向源存在。基于此观察，可用于计算记为Pa并且用于获得先验SPP的参数。通过

f [Γ (k, n)] = l_{\max} - (l_{\max} - l_{\min}) \frac{10^{cρ / 10}}{10^{cρ / 10} + Γ {(k, n)}^{p}}, - - - (12)

给出示例性映射函数，

其中，l_min和l_max确定函数所能实现的最小值和最大值，c(in dB)控制沿着Γ轴的偏移量，并且其中ρ定义l_min和l_max之间的过渡的陡度。

图5示出了从DDRΓ到参数Pa:l_min＝0.2,l_max＝0.8,ρ＝2,c＝3的映射(12)。

最后，参数由

给出。

先验SPP可以，例如，通过

或

得到。

映射函数的参数被选择为使得低DDR对应于低SPP，而高DDR对应于高SPP。

在下文中，特别基于位置和不确定度提出参数P_b。

根据实施方案，计算出了通过瞬时位置估计和相关的不确定度得到的参数。术语“位置”是一维位置(仅在到达方向上)，也指二维和三维位置。所述位置可以用直角坐标(例如，x,y和z位置)或球面坐标(例如，方位角，仰角和距离)来描述。

在特定条件下，例如，DDR，SNR，DOA，阵列几何以及用于位置参数和DDR的估计器，可建立在特定位置描述源的估计位置的概率分布的经验概率密度函数(PDF)。训练阶段用于计算这个经验PDF。然后，解析PDF(例如，在一维情况下的高斯PDF以及在二维和三维情况下的多元高斯PDF)拟合到针对每个源位置和特定条件的估计位置参数。

在这个例子中，所述PDF由表示，其中矩阵∑描述与Ω的估计相关的不确定度。根据所述数据，推导出将上述条件映射到所述不确定度∑的多维映射函数f∑。此外，边缘概率p(Ω)和同样也可以在所述训练阶段计算出。例如，p(Ω)可基于关于可能源位置的先验信息建模，而可在训练阶段通过观察所述估计来计算。

另外，感兴趣区域由函数R(Ω)定义。如果所述距离用作位置参数，可定义确定所需源的位置的最大和最小距离。或者，所需的距离范围可从深度传感器或飞行时间传感器自动提取。在这种情况下，所需范围可基于均值和深度分布的方差以及预定义的偏差和用户/应用定义的限制来选择。

所提出的参数的计算如下：

1.使用观察到的声学信号y(k，n)估计条件(例如，瞬时位置参数瞬时方向性D(k,n)，和SNR)。

2.i)通过用户/应用，见图6，或ii)通过分析声学和非声学传感器数据，见图7，来确定感兴趣区域的所需源。在后面一种情况中，由R(Ω，n)表示的感兴趣区域是时变的。例如，可以通过分析图像来确定说话人(多个)的口的位置。脸和物体检测以及说话人识别可用于确定所需的和不需要的声音源。所述应用允许通过用户接口在线选择所需声源/物体和不需要的声源/物体。所述先验P(Ω)可以通过用户/应用或分析非声学传感器来确定。

3.基于步骤1中计算出的条件和所述多维映射函数f∑确定感兴趣区域中的每个点的不确定度指标∑Ω。

4.所述参数通过

= \underset{Ω &Element; S}{&Integral;} \frac{p (\hat{Ω} | Ω; Σ_{Ω}) p (Ω)}{p (\hat{Ω})} R (Ω) dΩ, - - - (17)

来计算，

其中S定义考虑到的所有可能位置，R(Ω)是描述感兴趣区域的多维函数(0≤R(Ω)≤1)。方程(17)直接由(16)根据贝叶斯法则得到，并且允许通过使用在训练阶段估计出的PDF计算P_b.

在一维情况下，表示估计出的瞬时DOA并且σ(k，n)与相关的不确定度成比例。例如，如果使用线性声学传感器，在阵列的宽边估计出的DOA的精度高于在阵列端射估计出的DOA的精度。因此，所述不确定度较高并且因此端射方向相比于宽边方向的σ更大。还已知，DOA估计器的性能取决于SNR；低SNR水平产生较大的估计方差，因此与高SNR相比，产生较高的不确定度。在一维情况下，感兴趣区域可以，例如，被定义为：使得θ_min和θ_max之间活动的任何源被假定为所需的。

所述先验SPP可以，例如，通过组合参数P_a(k,m)和P_b(k,n)得到：

其中，所述f(Γ)由(12)给出。

图6示出了针对P_b使用用户/应用设置确定感兴趣区域的估计器的方块图。瞬时位置估计模块610被配置为估计所述瞬时位置。不确定度计算模块620被配置为进行不确定度计算。此外，参数计算模块630被配置为进行参数计算。

图7示出了针对P_b使用声学和非声学数据确定感兴趣区域的估计器的方块图。再次，瞬时位置估计模块710被配置为估计所述瞬时位置。不确定度计算模块720被配置为进行不确定度计算。此外，感兴趣区域确定模块725被配置为确定感兴趣区域。参数计算模块730被配置为进行参数计算。

在下文中，特别提出了基于接近度的参数P_c。

参数P_c是基于从物体与接近度传感器的接近度。在此，接近度传感器的数据映射到P_c(n)使得当物体紧靠接近度传感器时P_c(n)＝1，并且当没有物体紧靠接近度传感器时P_c(n)＝P_min，其中P_min为预先定义的下限。

表示接近度的参数P_c可由经典接近度传感器(如在许多智能机中使用的，见http://en.wikipedia.org/wiki/Proximity_sensor)衍生而来。或者，参数可基于深度传感器信息或飞行时间传感器，其能告知传感器的R米范围内有物体。

在具体实施方案中，P_c可作为接近度参数实现。第一语音概率估计器可实施映射以将接近度参数Pc映射到代表语音概率信息的值，例如，语音概率值。

当一个或多个可能声源在离接近度传感器一预定接近度时，所述接近度参数Pc可，例如，具有第一参数值，(例如，P_c＝0.60)。此外，当在离接近度传感器一预定距离处没有可能声源时，所述接近度参数Pc可，例如，具有小于第一参数值的第二参数值，(例如，P_c＝0.40)。所述接近度参数Pc可，例如，根据检测到的物体的接近度，取例如，0和1.0之间的任何值。

第一语音概率估计器可被配置为根据P_c确定第一语音概率值。

现在，总体考虑语音概率信息的确定。

重要的是要注意，参数P_a,P_b和/或P_c以及其它已知参数(例如，P_local(k，n)，P_global(k，n)和/或P_frame(n))的任意组合(例如，乘积，求和，加权求和)可通过组合器用于获得语音概率信息。这也意味着，也有可能仅使用P_a,P_b或P_c来获得语音概率信息。

可使用所述参数的任意可能组合，例如

a)q＝P_c(例如，当物体在传感器附近时，假定P_c＝0.7。那么任何活动的声源(是否靠近)将被认为是所需的1-0.7＝0.3的先验SPP。)

b)q＝P_aP_c(例如，当有物体在传感器附近并且DDR足够高时，声音被认为是所需的。)

在下文中，提出了上述概念的应用的实施方案。

现在，描述噪声PSD矩阵估计。

在【2】中，提出了基于单信道后验SPP使用软决策更新规则的最小值控制递归平均(MCRA)噪声PSD估计器。在此，先验SPP通过使用【8】来计算。在【4】中提出了类似的SPP估计器，其中使用了固定先验SPP和固定先验SNR而不是如【2】中的信号依赖量。Souden等人【8】提出了使用多信道SPP估计器【9】的多信道噪声PSD矩阵估计器。在【8】中，作者以类似于MCRA噪声PSD估计器的方式确定了所述先验SPP。

现有多信道SPP估计器的主要缺点是它们严重依赖于估计噪声PSD矩阵。如果，例如，空调被切换或远处的说话人开始说话，信号水平增加，并且所述SPP估计器将指示所述语音存在。

在这种情况下，相比于现有技术，实施方案允许需要和不需要之间的准确决策。

考虑到语音存在的不准确性，在一定的时间-频率点处用于噪声PSD矩阵的最小均方误差(MMSE)估计由【8】给出

EPv(k，n)v^H(k，n)|y(k，n)}＝p[H₀(k，n)|y(k，n)]E{v(k，n)v^H(k，n)|y(k，n)，H₀(k，n)}+p[H₁(k，n)|y(k，n)]E{v(k，n)v^H(k，n)|y(k，n)，H₁(k，n)}， (19)

其中p[H₀(k，n)|y(k，n)]表示所需要的语音不存在的条件概率和p[H₁(k，n)|y(k，n)]表示所需语音存在的条件概率。

图8示出了根据一个实施方案的用于确定噪声功率谱密度估计的装置。所述用于确定噪声功率谱密度估计的装置包括根据上述实施方案中任一项所述的用于提供语音概率估计的装置910，以及噪声功率谱密度估计单元920。用于提供语音概率估计的装置910被配置为将语音概率估计提供给所述噪声功率谱密度估计单元920。所述噪声功率谱密度估计单元920被配置为基于所述语音概率估计和多个输入音频信道确定所述噪声功率谱密度估计。

图9示出了根据进一步的实施方案的噪声PSD矩阵估计器的方块图。所述噪声PSD矩阵估计器包括“先验SPP计算”模块912。所述“先验SPP计算”模块912可包括用于提供语音概率估计的装置的第一语音概率估计器。此外，所述噪声PSD矩阵估计器包括“条件后验SPP计算”模块914。所述“条件后验SPP计算”模块914可为用于提供语音概率估计的装置的第二语音概率估计器。另外，所述噪声PSD矩阵估计器包括“噪声PSD矩阵估计”单元920。

根据实施方案，用来近似(19)的噪声估计技术是使用嘈杂观察的递归平均瞬时PSD矩阵的加权求和，例如，y(k,n)y^H(k,n)，以及前一帧噪声PSD的估计，如用于单信道情况的【2,4】中所描述，以及用于多信道情况的【9】中所描述。这个估计技术可表示为下式：

\begin{matrix} {\hat{Φ}}_{vv} (k, n) = p [H_{0} (k, n) | y (k, n)] (α_{v} (k, n) {\overset{T}{Φ}}_{vv} (k, n - 1) + [1 - α_{v} (k, n)] y (k, n) y^{H} (k, n)) \\ + p [H_{1} (k, n) | y (k, n)] {\hat{Φ}}_{vv} (k, n - 1), \end{matrix} - - - (20)

其中是估计的噪声PSD矩阵，并且0≤αv(k，n)＜1是一个选择的平滑参数。重新整理(20)得到以下更新规则：

{\hat{Φ}}_{vv} (k, n) = p [H_{0} (k, n) | y] (1 - α_{v} (k, n)) y (k, n) y^{H} (k, n) - - - (21)

+ (α_{v} (k, n) + p [H_{1} (k, n) | y (k, n)] [1 - α_{v} (k, n)]) {\hat{Φ}}_{vv} (k, n - 1)

= α^{'} (k, n) y (k, n) y^{H} (k, n) + [1 - α^{'} (k, n)] {\hat{Φ}}_{vv} (k, n - 1), - - - (22)

使得α′＝p[H₀(k，n)|y(k，n)][1-α_v(k，n)]

为了进一步减少从所需语音到噪声PSD矩阵估计的泄露，我们建议基于所估计的参数P1，…,Pp计算α_v(k，n)。

与图【4】中的算法相比，先验SPP是基于参数P1，…,Pp并且利用从声学以及非声学数据中推导出的时间，光谱和空间信息。所提出的噪声PSD矩阵估计器在图10中进行概述。

现在，根据一个实施方案提供了一种用于噪声PSD矩阵估计的方法。根据一个实施方案的噪声PSD矩阵估计器可被配置为实现这种方法。

1.计算参数P1，…,Pp。

2.使用参数P1，…,Pp为当前帧计算先验SPP q(k，n)。

3.基于参数P1，…,Pp确定平滑参数α_v(k，n)。

4.通过使用来自前一帧【例如，Φ_vv(k，n-1)】的所估计的噪声PSD矩阵以及当前估计Φ_yy(k，n)，根据(5)来估计p[H₁(k，n)|y(k，n)]，

{\hat{Φ}}_{yy} (k, n) = α_{y} (k, n) {\hat{Φ}}_{yy} (k, n - 1) + 1 [1 - α_{y} (k, n)] y (k, n) y^{H} (k, n), - - - (23)

其中α_y(k，n)表示平滑常数。

5.计算如下的递归平滑SPP：

\overset{&OverBar;}{p} (k, n) = α_{p} \overset{&OverBar;}{p} (k, n - 1) + (1 - α_{p}) p [H_{1} (k, n) | y (k, n)], - - - (24)

，其中α_p表示平滑常数。

6.当时，通过将p[H₁(k，n)|y(k，n)]设置为选择的最大值P_max避免PSD矩阵更新的停滞。

7.通过使用p[H₁(k，n)|y(k，n)]和(22)更新所述噪声矩阵。

在下文中，考虑了方向矢量估计。

图10a示出了用于估计方向矢量的装置。所述用于估计方向矢量的装置包括根据上述实施方案中任一项所述的用于提供语音概率估计的装置1010，以及方向矢量估计单元1020。用于提供语音概率估计的装置1010被配置为将所述语音概率估计提供给所述方向矢量估计单元1020。所述方向矢量估计单元1020被配置为基于所述语音概率估计和多个输入音频信道估计所述方向矢量。

图10b示出了根据进一步的实施方案的用于估计方向矢量的装置的方块图。用于估计方向矢量的装置包括“先验SPP估计”模块1012。所述“先验SPP估计模块”可为用于提供语音概率估计的装置的第一语音概率估计器。另外，用于估计方向矢量的装置包括“条件先验SPP估计”模块1014。所述“条件先验SPP估计”模块1014可为用于提供语音概率估计的装置的第二语音概率估计器。另外，用于估计方向矢量的装置包括“方向矢量估计”单元1020。

对于一些应用而言，还需增加所需定向源的方向矢量或取代噪声PSD矩阵。在【13】中，单信道SPP估计器用于计算两个声学传感器的方向矢量。与第i个声学传感器接收的所需信号相关的方向矢量定义为

\begin{matrix} γ_{i} (k, n) = \frac{E {x (k, n) X_{i}^{*} (k, n)}}{E {{| X_{i} (k, n) |}^{2}}} \\ = φ_{x_{i} x_{i}}^{- 1} (k, n) Φ_{xx} (k, n) u_{i}, \end{matrix} - - - (25)

其中，(·)_*表示共轭算子，

φ_{x_{i} x_{i}} (k, n) = E {| X_{i} (k, n) |^{2}}

和

显然，方向矢量可以通过采用第i列并将其除以第i个元素而得到。根据定义，方向矢量γ_i(k，n)的第i个元素等于1。

使用(4)，源PSD矩阵可表示为Φ_xx(k，n)＝Φ_yy(k，n)-Φ_vv(k，n)。因此方向矢量γ_i(k，n)可表示为

γ_{i} (k, n) = \frac{E {y (k, n) Y_{i}^{*} (k, n)} - E {v (k, n) V_{i}^{*} (k, n)}}{E {{| Y_{i} (k, n) |}^{2}} - E {{| V_{i} (k, n) |}^{2}}} . - - - (27)

分子中的项可作为矩阵和的第i列来获得，而分母中的项可作为列矢量和的第i个元素来获得。另外，方向矢量γ_i可通过计算矩阵对(Φ_yy，Φ_xx)的广义特征值分解来获得。对于第j个广义特征值和特征向量对(λ_j，b_j)来计算，下式成立，

Φ_yy(k，n)b_j＝λ_jb_j， (28)

，其可使用(4)写为

[Φ_xx(k，n)+Φ_vv(k，n)]b_j＝λ_ib_j. (29)

重新整理(29)，并且重新调用Φ_xx(即，)的秩一属性，其遵循

φ_{x_{i} x_{i}} (k, n) γ_{i} (k, n) γ_{i}^{H} (k, n) b_{j} = (λ_{j} - 1) Φ_{vv} (k, n) b_{j}, - - - (30)

其等于

γ_{i} (k, n) = \frac{λ_{j} - 1}{γ_{i}^{H} (k, n) b_{j} φ_{x_{i} x_{i}} (k, n)} Φ_{vv} (k, n) b_{j} . - - - (31)

从(31)可以得出结论，如果λ_j≠1，所述方向矢量_γi(k，n)代表特征向量的旋转和缩放版本。然而，由于秩一假设存在不等于1的独特的特征值λi并且因此所述特征向量b_j唯一地确定。最终，为了避免缩放模糊γ_i(k，n)，如下归一化：

γ_{i} (n, k) = \frac{Φ_{vv} (k, n) b_{j}}{[Φ_{vv} (k, n) b_{j}] i} - - - (32)

其中，[Φ_vv(k，n)b_j]_i是矢量[Φ_vv(k，n)b_j]_i的第i个元素。使用通知的多信道SPP估计器，所述方向矢量如下递归地估计

{\hat{γ}}_{i} (k, n) = α^{'} (k, n) γ_{i} (k, n) + [1 + α^{'} (k, n)] {\hat{γ}}_{i} (k, n - 1) - - - (33)

其中

{\hat{γ}}_{i} (k, n) = α^{'} (k, n) γ_{i} (k, n) + [1 - α^{'} (k, n)] {\hat{γ}}_{i} (k, n - 1) - - - (33)

，并且0＜αx(k，n)＜1为适当选择的平滑常数。所述平滑常数α_x是依赖于时间和频率的并且由P1,P2,…,P_P控制以在当，例如，SNR或DDR太低时最小化方向矢量的更新率。

在下文中，对多信道降噪进行了说明。

图11示出了根据一个实施方案的用于多信道降噪的装置。所述用于多信道降噪的装置包括根据上述实施方案中任一项所述的装置1110，以及过滤单元1120。所述过滤单元1120被配置为接收多个音频输入信道。用于提供语音概率估计的装置1110被配置为将所述语音概率信息提供给所述过滤单元1120。所述过滤单元1120被配置为基于所述语音概率信息过滤多个音频输入信道以获得过滤后的音频信道。

现在对根据实施方案的多信道降噪进行更详细的说明。

SPP估计器常被用于多信道降噪【6，7，14】的上下文中。根据实施方案的通知的多信道SPP估计器可类似地使用。另外，用于计算先验SPP的参数可用于控制降噪和语音失真之间的权衡。

将第i个声学传感器作为参考，时间-频率域参数多信道维纳滤波(PMWF)由【15-17】给出

h_{W, β} (k, n) = \frac{Φ_{vv}^{- 1} (k, n) Φ_{xx} (k, n)}{β (k, n) + tr {Φ_{vv}^{- 1} (k, n) Φ_{xx} (k, n)}} u_{i}, - - - (34)

，其中β(k，n)为权衡参数。

众所周知的(空间)滤波为参数多信道维纳滤波(PMWF)的特殊情况。例如，最小方差无失真响应(MVDR)滤波使用β＝0来获得的，并且所述多信道维纳滤波(MWF)是通过β＝1来获得的。应当指出的是，(34)可通过不同的方式来表示并且可以分解成MVDR滤波和单信道参数维纳滤波(见，例如【14,18】及其中的参考文献)。进一步的，所述空间滤波可通过方向矢量和PSD矩阵来表示。(34)中的主要优点是不需要依赖于与所需源相关的导向向量(a.k.a.阵列流形矢量或传播矢量)。

由第i个声学传感器接收的所需信号的估计由

{\hat{X}}_{i} (k, n) = h_{W, β}^{H} (k, n) y (k, n) . - - - (35)

获得。

根据语音出现的不确定度，所需信号的估计可根据

{\hat{X}}_{i} (k, n) = p [H_{1} (k, n) | y (k, n)] h_{W, β}^{H} (k, n) y (k, n) + p [H_{0} (k, n) | y (k, n)] G_{\min} (k) Y_{i} (k, n), - - - (36)

来获得，

其中在出现假阴性判断时，右手边的第二项减轻语音失真。当所需语音被假定为无效时，增益因子G_min(k)确定降噪的最大量。

如果MMSE估计器被应用于语音存在和不存在的情况下，并且在语音存在的情况下，其目的是最小化所需语音的失真，而在语音不存在的情况下，其目的是在滤波器的输出处最小化残留噪声，然后我们发现带权衡参数【6,7】的(34)

\begin{matrix} β (k, n) = \frac{p [H_{0} (k, n) | y (k, n)]}{p [H_{1} (k, n) | y (k, n)]} \\ = \frac{1 - p [H_{1} (k, n) | y (k, n)]}{p [H_{1} (k, n) | y (k, n)]} \end{matrix} - - - (37)

使得当后验SPPp[H₁(k，n)|y(k，n)]＝１时，β＝0(使得所述PWMF等于MVDR滤波)，并且当p[H₁(k，n)|y(k，n)]＝0.5时，β＝1(使得所述PWMF等于MWF滤波)，以及当所述后验SPPp[H₁(k，n)|y(k，n)]接近零时，β接近无穷大。因此，在后一种情况下，残余噪声功率也减少到零。

图12示出了从DDR到权衡参数β＝1–P_a(l_min＝0，l_max＝5，ρ＝2,c＝0)的映射。

至先验SPP的直接应用往往可能会导致所需信号的不必要的可听失真。本发明包括PMWF，其中权衡参数取决于参数P₁,P_p,…,P_F的组合(例如，加权求和，乘积，最大比值合并等)。用于合并参数的映射函数可以不同于用于计算先验SPP的映射函数。

例如，一个可以使用反应观察到的声音的方向性的参数P_a(k，n)来控制所述权衡参数，使得β(k，n)＝1-P_a(k，n)。选择参数l_min,l_max,ρ和c以使得当估计的DDR较低时我们得到β(k，n)＞1，以相比标准WMF实现较大量的降噪，并且当估计的DDR较高时，β(k，n)≈0(例如，约等于MVDR滤波【16】)以避免语音失真。用于权衡参数的映射函数的例子β在图12中描绘为β＝1-P_a(l_min＝0,l_max＝5,ρ＝2和c＝0)。

在更普遍的实施方案中，权衡参数β(k，n)至少取决于关于声场的空间信息和场景空间信息。

在具体的实施方案中，权衡参数β(k，n)由β(k，n)＝f[q(k，n)]定义，其中q表示第一语音概率估计器的输出。

在特定的实施方案中，权衡参数β(k，n)由β(k，n)＝1-f[Γ(k，n)]定义。

在下文中，根据PMWF的输出处实现的语音增强对所提出的算法的性能作出了评价。首先，描述了设置和性能测量。

对不同的SNR和300毫秒的混响时间进行了分析。使用了两种不同类型的噪声:具有长期PSD等于语音的长期PSD的稳定噪声和不稳定的串音噪声。在这两种情况下，噪声信号的CC对应于理想扩散场【21】的CC。

采样频率为16kHZ，并且帧长度为L＝512个样本。对于具有麦克风间距为d-2.3cm的M＝4的麦克风的均匀线阵列进行仿真。所需的信号通过对45秒的干净语音与通过采用图像源模型【22】的高效实现产生的房间脉冲响应(RIRs)进行卷积来得到。用于DDR估计的PSD通过对15个时间帧进行平均来近似。对于这些试验，我们使用了q和β的映射与图5和图12a中所示的参数。用于递归平均αv,αy和αp的平滑参数α分别选自0.75,0.8和0.9。对PESQ(语音质量的感知评价)的评分改善【23】在估计的噪声PSD矩阵导向的不同波束成形器的输出处的分段增益SNR进行了研究。PESQ改善被计算为的逆STFT的PESQ评分以及Y₁的逆STFT之间的差。所述分段SNR通过将信号分裂成10毫秒的非重叠线段并将得到的SNR值平均为dB来得到。在输入和输出处的分段SNR分别记为S_i和S_o。我们通过(36)并用i＝1来比较标准MVDR，维纳波束成形器，DDR控制的PMWF和所述估计之间的性能。

现在，将呈现出结果。在波束成形器的输出处的PESQ改善如图13中示出为输入SNR S_i的函数。可以看出，提出的MMSE估计器优于标准波束形成器。另外，DDR控制的PMWF执行得比具有固定权衡的两个波束成形器还要好。在串音噪声的情况下，所述算法导致PESQ的显著改善，这是由于它的非平稳性代表了很多算法的挑战性问题。对应的分段SNR增益如图14所示。

在第一麦克风处的所需源信号的频谱图，所接收到的噪声信号，标准MWF以及基于MMSE的估计如图15所示，作为11s的引用。从估计的DDR到先验SPP的对应映射如图16所示。可以看出，SPP在高频率也能正确估计，从而将语音信号保持在输入SNR较低的这些频率上。

虽然一些方面已经在装置的上下文中描述，但是很显然这些方面也代表了相应方法的说明，其中一块或一个设备对应于一个方法步骤或方法步骤的功能。类似地，方法步骤的上下文中描述的方面同样也代表了相应的块或相应装置的项目和功能。

本发明的分解信号可储存在数字存储介质中上或在传输介质，诸如，无线传输介质或有线传输介质，诸如互联网上传输。

根据某些实施要求，本发明的实施方案可在硬件或软件上实现。所述实施可采用具有电子可读控制信号存储在其上，与(能够与)可编程计算机系统协作的数字存储介质，例如，软盘，DVD，CD，ROM，EPROM或闪存，来执行，从而执行相应的方法。

根据本发明的一些实施方案，包括具有能够与可编程计算机系统协作的电子可读控制信号的非临时性数据载体，从而执行本文描述的方法之一。

通常，本发明的实施方案可作为具有程序代码的计算机程序产品来实现，所述程序代码在当计算机程序产品运行在计算机上时可操作用于其中一个方法。程序代码可以，例如，存储在机器可读载体上。

其它实施方案包括用于执行本文中描述的方法之一的计算机程序，所述计算机程序存储在机器可读载体上。

换句话说，因此，本发明的方法的一种实施方案是，当计算机程序运行在计算机上时，计算机程序具有用于执行本文中所描述的方法之一的程序代码。

因此，本发明的方法的进一步的实施方案是包括存储在其上用于执行本文中所描述的方法之一的计算机程序的数据载体(或数字存储介质，或计算机可读介质)。

因此，本发明方法的进一步的实施方案是表示用于执行本文中所描述的方法之一的计算机程序的数据流或信号序列。所述数据流或信号序列可以，例如，被配置为通过数据通信连接，例如，通过互联网转移。

进一步的实施方案包括处理装置，例如，计算机，或可编程逻辑器件，被配置为或适于执行本文中所描述的方法之一。

进一步的实施方案包括安装在计算机上的用于执行本文中所描述的方法之一的计算机程序。

在一些实施方案中，可编程逻辑器件(例如，现场可编程门阵列)可闷用于执行本文中所描述的方法的一些或全部功能。在一些实施例方案中，现场可编程门阵列可能与微处理器协作以执行本文中所描述的方法之一。通常，这些方法优选地由任意硬件装置执行。

上述实施方案仅用于说明本发明的原理。可以理解的是修改和安排的变化以及本文所描述的细节对本领域的技术人员来说将是显而易见的。因此，它是意图仅通过即将发生的专利权利要求的范围来限定而不是通过本文的实施方案的描述和解释的方式所呈现的具体细节来限定的。

参考文献

[1]I.Cohen and B.Berdugo,"Noise estimation by minima controlledrecursive averaging for robust speech enhancement,"IEEE Signal Process.Lett.,vol.9,no.1,pp.12-15,Jan.2002.

[2]I.Cohen,"Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging,"IEEE Trans.Speech AudioProcess.,vol.11,no.5,pp.466-475,Sep.2003.

[3]"Apparatus and method for computing speech absence probability,and apparatus and method removing noise using computation apparatus andmethod,"U.S.Patent No.US 7,080,007 B2,Jul.18,2006.

[4]T.Gerkmann and R.C.Hendriks,"Noise power estimation base onthe probability of speech presence,"in Proc.IEEE Workshop on Applicationsof Signal Processing to Audio and Acoustics,New Paltz,NY,2011.

[5]"Wind noise suppression,"US Patent Application Publication Pub.No.US 2011/0103615 Al,May 5,2011.

[6]K.Ngo,A.Spriet,M.Moonen,J.Wouters,and S.Jensen,"Incorporating the conditional speech presence probability in multi-channelWiener filter based noise reduction in hearing aids,"EURASIP Journal onApplied Signal Processing,vol.2009,p.7,2009.

[7]T.Yu and J.Hansen,"A speech presence microphone arraybeamformer using model based speech presence probability estimation,"inProc.IEEE Intl.Conf.on Acoustics,Speech and Signal Processing(ICASSP),2009,pp.213-216.

[8]M.Souden,J.Chen,J.Benesty,and S.Affes,"An integrated solutionfor online multichannel noise tracking and reduction,"IEEE Trans.Audio,Speech,Lang.Process.,vol.19,pp.2159-2169,2011.

[9]M.Souden,J.Chen,J.Benesty,and S.Affes,"Gaussian model-basedmultichannel speech presence probability,"IEEE Transactions on Audio,Speech,and Language Processing,vol.18,no.5,pp.1072-1077,July 2010.

[10]I.Cohen and B.Berdugo,“Microphone array post-filtering fornon-stationary noise suppression,”in Proc.IEEE Intl.Conf.on Acoustics,Speech and Signal Processing(ICASSP),Orlando,Florida,USA,May 2002,pp.901-904.

[11]"Method for estimating priori SAP based on statistical model,"USPatent Application Publication Pub.No.US 2008/0082328 Al,Apr.3,2008.

[12]O.Thiergart,G.D.Galdo,and E.A.P.Habets,"Signal-to-reverberant ratio estimation based on the complex spatial coherencebetween omnidirectional microphones,"in Proc.IEEE Intl.Conf.on Acoustics,Speech and Signal Processing(ICASSP),2012,pp.309-312.

[13]I.Cohen,"Relative transfer function identification using speechsignals,"IEEE Trans.Speech Audio Process.,vol.12,no.5,pp.451{459,Sep.2004.

[14]S.Gannot and I.Cohen,"Adaptive beamforming and postfiltering,"in Springer Handbook of Speech Processing,J.Benesty,M.M.Sondhi,and Y.Huang,Eds.Springer-Verlag,2007,ch.48.

[15]A.Spriet,M.Moonen,and J.Wouters,"Spatially pre-processedspeech distortion weighted multi-channel Wiener filtering for noise reduction,"Signal Processing,vol.84,no.12,pp.2367-2387,Dec.2004.

[16]J.Benesty,J.Chen,and Y.Huang,Microphone Array SignalProcessing.Berlin,Germany:Springer-Verlag,2008.

[17]S.Mehrez,J.Benesty,and S.Affes,"On optimal frequency-domainmultichannel linear filtering for noise redu

ction,"IEEE Trans.Audio,Speech,Lang.Process.,vol.18,no.2,pp.260-276,2010.

[18]J.Benesty,J.Chen,and E.A.P.Habets,Speech Enhancement in theSTFT Domain,ser.SpringerBriefs in Electrical and Computer Engineering.Springer-Verlag,2011.

[19]Henry Stark,John W.Woods:Probability and Random Processeswith Applications to Signal Processing

[20]A.Papoulis,U.Pillai:Probability,Random Variables and StochasticProcesses

[21]E.A.P.Habets,I.Cohen,and S.Gannot,"Generating nonstationarymultisensor signals under a spatial coherence constraint,"Journal Acoust.Soc.of America,vol.124,no.5,pp.2911-2917,Nov.2008

[22]E.A.P.Habets,"Room impulse response generator,"Tech.Rep.,Technische Universiteit Eindhoven,2006.

[23]A.Rix,J.Beerends,M.Hollier,and A.Hekstra,"Perceptualevaluation of speech quality(PESQ)-a new method for speech qualityassessment of telephone networks and codecs,"in Proc.IEEE Intl.Conf.onAcoustics,Speech and Signal Processing(ICASSP),2001,vol.2,pp.749-752.

[24]G.W.Elko,"Spatial coherence functions,"in Microphone Arrays:Signal Processing Techniques and Applications,M.Brandstein and D.Ward,Eds.,chapter 4,pp.61-85.Springer-Verlag,2001.

Claims

1.一种提供语音概率估计的装置，包括：

第一语音概率估计器(110；210；310)，用于估计表示场景的声场是否包括语音或所述场景的所述声场是否不包括语音的第一概率的语音概率信息，以及

输出接口(120；220)，用于根据所述语音概率信息输出所述语音概率估计，

其中，所述第一语音概率估计器(110；210；310)被配置为至少基于关于所述声场的空间信息或所述场景的空间信息估计第一语音概率信息。

2.根据权利要求1所述的装置，

其中，所述装置进一步包括第二语音概率估计器(215；315)，所述第二语音概率估计器用于估计表示所述声场是否包括语音或所述声场是否不包括语音的第二概率的语音概率信息，

其中，所述第二语音概率估计器(215；315)被配置为基于所述第一语音概率估计器(110；210；310)估计的语音概率信息以及基于取决于所述声场的一个或多个声学传感器信号，来估计所述语音概率估计。

3.根据权利要求1或2所述的装置，

其中，所述第一语音概率估计器(110；210；310)被配置为基于方向性信息估计语音概率信息，其中所述方向性信息表示所述声场的定向声音是怎样的，

其中，所述第一语音概率估计器(110；210；310)被配置为基于位置信息估计语音概率信息，其中所述位置信息表示所述场景的声源的至少一个位置，或者

其中，所述第一语音概率估计器(110；210；310)被配置为基于接近度信息估计语音概率信息，其中所述接近度信息表示至少一个可能声音对象到至少一个接近度传感器的至少一个接近度。

4.根据前述权利要求中任一项所述的装置，其中，所述第一语音概率估计器(110；210；310)被配置为通过确定直接扩散比率的直接扩散比率估计作为所述空间信息，来估计语音概率估计，所述直接扩散比率表示所述声学传感器信号中包括的直达声与所述声学传感器信号中包括的扩散声的比率。

5.根据权利要求4所述的装置，

其中，所述第一语音概率估计器(110；210；310)被配置为通过确定所述声学传感器信号中的第一声学信号和所述声学传感器信号中的第二声学信号之间的复相干性的相干性估计，来确定所述直接扩散比率，其中所述第一声学信号由第一声学传感器p记录，所述第二声学信号由第二声学传感器q记录，并且

其中，所述第一语音概率估计器(110；210；310)还被配置为基于所述第一声学信号和所述第二声学信号之间的直达声的相移的相移估计，来确定所述直接扩散比率。

6.根据权利要求5所述的装置，

其中，所述第一语音概率估计器(110；210；310)被配置为通过应用以下公式来确定所述第一声学信号和所述第二声学信号之间的所述直接扩散比率估计

其中，是关于时间频率点(k，n)的所述第一声学信号和所述第二声学信号之间的复相干性的相干性估计，其中n表示时间，并且其中k表示频率，

其中，θ(k，n)为关于时间频率点(k，n)的所述第一声学信号和所述第二声学信号之间的直达声的相移的相移估计，并且

其中，Γ_pq，diff(k)对应于纯扩散声场中的声学传感器p和声学传感器q之间的空间相干性。

7.根据权利要求4至6中任一项所述的装置，其中，所述第一语音概率估计器(110；210；310)被配置为通过确定来估计所述语音概率信息，

其中是所述直接扩散比率估计，并且

其中是代表所述直接扩散比率估计至0和1之间的值的映射的映射函数。

8.根据权利要求7所述的装置，其中，所述映射函数由以下公式定义：

f [\hat{Γ} (k, n)] = l_{\max} - (l_{\max} - l_{\min}) \frac{10^{cρ / 10}}{10^{cρ / 10} + \hat{Γ} {(k, n)}^{ρ}}

其中，l_min是所述映射函数的最小值，其中l_max是所述映射函数的最大值，其中c是用于控制沿着Γ轴的偏移量的值，并且其中ρ定义l_min和l_max之间的过渡的陡度。

9.根据前述权利要求中任一项所述的装置，其中，所述第一语音概率估计器(110；210；310)被配置为基于声源的估计位置的概率分布和基于感兴趣区域确定位置参数以获得所述语音概率信息。

10.根据权利要求9所述的装置，其中，所述第一语音概率估计器(110；210；310)被配置为通过应用以下公式来确定所述位置参数

其中，Ω是特定位置，其中为估计位置，

其中，是条件概率密度函数，并且

其中，p(Ω)是Ω的先验概率密度函数，并且

其中，是的概率密度函数，并且

其中，Σ_Ω表示与Ω的估计有关的不确定度，并且

其中，是描述感兴趣区域的多维函数，其中

11.根据权利要求4至7所述的装置，

其中，所述第一语音概率估计器(110；210；310)被配置为通过应用以下公式确定先验语音存在概率q(k，n)作为所述语音概率信息

其中θ是特定到达方向，并且其中是估计的到达方向，

其中，是条件概率密度函数，并且

其中，p(θ)是θ的先验概率密度函数，并且

其中，是的概率密度函数，并且

其中，σ表示与θ的估计有关的不确定度，并且

其中，代表所述直接扩散比率估计到0和1之间的值的映射，并且

其中，是描述感兴趣区域的多维函数，

其中，

12.根据前述权利要求中任一项所述的装置，其中，所述第一语音概率估计器(110；210；310)被配置为确定接近度参数作为所述空间信息，

其中，当所述第一语音概率估计器(110；210；310)从接近度传感器检测到预定距离内有一个或多个可能声源时，所述接近度参数具有第一参数值，并且其中，当所述第一语音概率估计器(110；210；310)在接近度传感器的直接接近内没有检测到可能声源时，所述接近度参数具有第二参数值，所述第二参数值小于所述第一参数值，并且

其中，所述第一语音概率估计器(110；210；310)被配置为当所述接近度参数具有所述第一参数值时，确定第一语音概率值作为所述语音概率信息，并且其中，所述第一语音概率估计器(110；210；310)被配置为当所述接近度参数具有所述第二参数值时，确定第二语音概率值作为所述语音概率信息，所述第一语音概率值表示所述声场包括语音的第一概率，其中所述第一概率大于所述声场包括语音的第二概率，所述第二概率由所述第二语音概率值表示。

13.一种用于确定噪声功率谱密度估计的装置，包括：

根据权利要求1至12中任一项所述的装置(910)，以及

噪声功率谱密度估计单元(920)，

其中，根据权利要求1至12中任一项所述的装置(910)被配置为将所述语音概率估计提供给所述噪声功率谱密度估计单元(920)，以及

其中，所述噪声功率谱密度估计单元(920)被配置为基于所述语音概率估计和多个输入音频信道，确定所述噪声功率谱密度估计。

14.根据权利要求13所述的装置，

其中，根据权利要求1至12中任一项所述的装置(910)被配置为计算一个或多个空间参数，所述一个或多个空间参数表示关于所述声场的空间信息，

其中，根据权利要求1至12中任一项所述的装置(910)被配置为通过使用所述一个或多个空间参数计算所述语音概率估计，并且

其中，所述噪声功率谱密度估计单元(920)被配置为通过根据所述语音概率估计更新以前的噪声功率谱密度矩阵，来确定所述噪声功率谱密度估计，从而获得更新后的噪声功率谱密度矩阵作为所述噪声功率谱密度估计。

15.一种用于估计方向矢量的装置，包括：

根据权利要求1至12中任一项所述的装置(1010)，以及

方向矢量估计单元(1020)，

其中，根据权利要求1至12中任一项所述的装置(1010)被配置为将所述语音概率估计提供给所述方向矢量估计单元(1020)，以及

其中，所述方向矢量估计单元(1020)被配置为基于所述语音概率估计和多个输入音频信道，估计所述方向矢量。

16.一种用于多信道降噪的装置，包括：

根据权利要求1至12中任一项所述的装置(1110)，以及

过滤单元(1120)，

其中，所述过滤单元(1120)被配置为接收多个音频输入信道，

其中，根据权利要求1至12中任一项所述的装置(1110)被配置为将所述语音概率信息提供给所述过滤单元(1120)，并且

其中，所述过滤单元(1120)被配置为基于所述语音概率信息过滤所述多个音频输入信道以获得过滤后的音频信道。

17.根据权利要求16所述的装置，其中，根据权利要求1至12中任一项所述的装置(1110)中的所述第一语音概率估计器(110；210；310)被配置为生成权衡参数，其中所述权衡参数取决于表示关于所述声场的空间信息或关于所述场景的空间信息的至少一个空间参数。

18.根据权利要求17所述的装置，其中，所述过滤单元(1120)被配置为根据所述权衡参数过滤所述多个音频输入信道。

19.一种用于提供语音概率估计的方法，包括：

估计表示声场是否包括语音或声场是否不包括语音的第一概率的语音概率信息，以及

根据所述语音概率信息输出所述语音概率估计，

其中，估计第一语音概率信息是至少基于关于所述声场的空间信息或关于场景的空间信息进行的。

20.一种计算机程序，用于在计算机或信号处理器上执行所述计算机程序时实施根据权利要求19所述的方法。