CN106339514A

CN106339514A - 从活动的音频源估计回响能量成分

Info

Publication number: CN106339514A
Application number: CN201510391261.5A
Authority: CN
Inventors: 施栋; D·古纳万; G·迪金斯; 李凯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2017-01-18

Abstract

本文公开的示例实施例涉及从音频源估计回响能量成分。公开了一种从活动的音频源估计回响能量成分的方法。该方法包括：确定活动的音频源与多个样本源之间的对应性，样本源中的每一个与自适应滤波模型相关联，基于经确定的对应性获得针对活动的音频源的自适应滤波模型，以及基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。还公开了相应的系统和计算机程序产品。

Description

从活动的音频源估计回响能量成分

技术领域

本文公开的示例实施例通常涉及回响能量估计，更具体地，涉及用于从活动的音频源估计回响能量的方法和系统。

背景技术

当在室内录制声音时，由诸如麦克风之类的声音采集端点录制的信号通常包括两个成分。一个成分通常被称为直接能量，并且另一个成分被称为回响能量。

直接能量从一个或多个声音源被直接传导至声音采集端点而没有被墙反弹或回响。音频源可以是产生声音的任何东西，诸如正在讲话的人、正在被某人演奏的乐器、由回放设备控制的扬声器等等。

回响能量也被声音源所产生。然而，该回响成分在其被诸如墙之类的对象反弹至少一次之后被采集。在声音的行进期间，声音的幅度被衰减。也在被诸如墙之类的物体反弹之后，声音的一些频带被墙的表面(部分地)吸收，改变了回响声音的频谱。考虑到回响声音在声音采集端点处的频谱和到达时间可能与直接传导的声音的频谱和到达时间相当不同；获得该两个成分以用于之后的处理是有利的，例如，用于反映针对该声音源的扩散性。

从音频源估计回响能量成分以及生成针对音频源的空间特征的现有的方法通常依赖先验知识或者对诸如回响时间(RT60)或者墙的吸收系数之类的房间的性质的估计，该回响时间(RT60)是直接声音的反射衰减60dB所需的时间。其结果是，现有的方法是耗时的并且在现实中不切实际的，因为通常没有关于房间声学的先验知识。

有鉴于此，在本领域中，用于从活动的音频源估计回响能量成分是需要的以用于改进精确度、可重复性和速度。

发明内容

为了解决前述和其它潜在的问题，本文公开的示例实施例提出了用于从活动的音频源估计回响能量成分的方法和系统。活动的音频源指示正在发出声音的源。

在一个方面，本文公开的示例实施例提供了从活动的音频源估计回响能量成分的方法。该方法包括：确定活动的音频源与多个样本源之间的对应性，样本源中的每一个与自适应滤波模型相关联，基于经确定的对应性获得针对活动的音频源的自适应滤波模型，以及基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。

在另一个方面，本文公开的示例实施例提供了用于从活动的音频源估计回响能量成分的系统。该系统包括：确定单元，被配置为确定活动的音频源与多个样本源之间的对应性，样本源中的每一个与自适应滤波模型相关联；自适应滤波模型获得单元，被配置为基于经确定的对应性获得针对活动的音频源的自适应滤波模型；以及回响能量成分估计单元，被配置为基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。

通过以上的描述，应当理解的是，被用来反映在听觉场景中针对每个声音源(扬声器)的扩散性(以及可能的距离)的回响能量估计可以根据本文公开的示例实施例而被改进。在房间以内的声音源可以被更好地建模和分组。这些模型随后提供了用于追踪讲话者的基础以及诸如会议注释以及语音分离的智能应用。通过利用自适应滤波模型特征化直接能量与回响能量之间的关系，回响能量可以以更高的准确度被估计。此外，具有鲁棒性的自适应滤波系数可以被用来表示源的回响路径并且被映射为扩散性。进而，为了实时地处理多个源，发展了有效的和简单的策略以通过使用其它空间特征在针对样本源的自适应滤波模型的每个模型之间进行切换。这将显著地增大了系统的鲁棒性并且加速了模型的适应，因而改进了处理速度。

附图说明

通过参照附图的以下详细描述，本文公开的示例实施例的上述和其它目的、特征和优点将变得更容易理解。在附图中，本文公开的示例实施例将以示例以及非限制性的方式进行说明，其中：

图1图示了根据示例实施例的从活动的音频源估计回响能量成分的方法的流程图；

图2图示了根据示例实施例的确定活动的音频源是否对应于若干样本源中的一个样本源的示例流程；

图3图示了根据示例实施例的具有在不同的位置的多个源以及带有三个麦克风的音频采集端点的听觉场景的示例；

图4图示了用在图3的音频采集端点中的示例心形麦克风的心形方向性；

图5图示了根据示例实施例的自适应滤波模型；

图6图示了根据示例实施例的用于自适应滤波模型更新的示例框图；

图7图示了根据另一示例实施例的自适应滤波模型；

图8图示了根据示例实施例的用于从活动的音频源估计回响能量成分的系统；以及

图9图示了适于实施本文公开的示例实施例的示例计算机系统的框图。

在全部附图中，相同或相应的附图标记指代相同或相应的部分。

具体实施方式

现在将参照附图中所示的各种示例实施例对本文公开的示例实施例的原理进行说明。应当理解，这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实施本文公开的示例实施例，而不意在以任何方式对范围进行限制。

本文公开的示例实施例利用诸如麦克风之类的至少一个音频采集端点以便于获得直接能量成分以及回响能量成分。通过将回响能量成分和直接能量成分建模为线性滤波器的输出和滤波器的输入，恰当的自适应滤波模型被用来近似相应的滤波系数，其随后被用作指示源有多回响的指标并且可以被进一步映射到扩散性测量。在真实应用中，通常包含多个源。因此，为了能够实时地在听觉场景中追踪在不同位置处的多个源，每个源被指派有自适应滤波模型以用于加速估计过程。附加地，发展了通过使用其它空间特征(例如角度、音量等)快速地在源之间切换的机构，使得一旦源是活动的，其对应的自适应滤波模型可以在短时间内被适应。

为了能够追踪多个源，每个源具有其自身的自适应模型，无论何时当该源是活动的时该自适应模型就被适应。针对每个源保持自适应模型的追踪有助于加速回响能量估计并且还提供了更高的鲁棒性和稳定度。

图1图示了根据示例实施例的从活动的音频源估计回响能量成分的方法100的流程图。在S101，确定活动的音频源是否对应于多个样本源中的一个样本源。活动的音频源例如可以是在房间内发出声音的源。样本源中的每个样本源与自适应滤波模型相关联。然而，在一开始并未提供样本源的情况下，应当确定活动的音频源不对应于任何样本源。

该确定步骤S101可以以不同方式被实现。例如，一些空间特征可以从由音频采集端点采集的活动的音频源提取。空间特征可以包括角度信息和幅度信息，角度信息指示活动音频源相对于音频采集端点的定向，幅度信息指示活动的音频源的响度或者音量。可替代地，步骤S101还可以被诸如相机之类的视频采集端点实现，其可以通过分析所采集到的图像获得特定源的空间信息。诸如红外检测之类的其它装置也可以被用来获得活动的音频源的空间特征。因此，活动的音频源的空间特征可以与样本源的那些空间特征相比较，以便于确定是否存在用于代表活动的音频源的样本源。

在步骤S102，基于经确定的对应性，获得针对活动的音频源的自适应滤波模型。例如，可以以两种方式获得自适应滤波模型。第一种方式可以依赖于在步骤S101的确定步骤：如果活动的音频源不对应任何样本源(这也包括不提供任何样本源的情况)，则创建对应于活动的音频源的样本源。经创建的样本源被指派有所采集的活动的音频源的空间特征，并且随后将指派有自适应滤波模型。

随后，与经创建的样本源相关联的自适应滤波模型被估计。该过程可以以不同方式被实施并且将在以下描述中详细阐述。

另一方面，第二种方式还可以依赖该确定步骤S101：如果活动的音频源对应于样本源中的一个样本源，与所对应的样本源相关联的活动的滤波模型可以被指派给活动的音频源。

在步骤S103，基于在步骤S102所获得的自适应滤波模型，从活动的音频源随时间估计回响能量成分。回响能量成分随时间的估计在更新自适应滤波模型上是有用的。其结果是，扩散性可以例如通过预定的映射从自适应滤波模型获得。

图2图示了根据实施例的确定活动的音频源是否对应于若干样本源中的一个样本源的示例流程200。为了快速选择针对活动的音频源的自适应滤波模型(通过找到恰当的样本源)并且继续适应其自适应滤波模型以用于估计回响能量成分，瞬时的空间特征被提取并且被用来从模型集合中选择对应的样本源模型。该选择过程可以是基于在线的。空间特征例如可以包括角度、音量和扩散性中的至少一个。角度指示特定音频源相对于音频采集端点的定向，音量指示音频源的响度，并且扩散性指示音频源有多回响。每个样本源模型可以是在线构建的，并具有其自身的平均空间特征。

在步骤S201，瞬时的空间特征可以直接通过音频采集端点(角度、音量)或者作为最大特征值与第二大特征值的比率(扩散性)而获得，该比率使用输入信号的协方差矩阵而计算。如图2所示，瞬时空间特征Ψ＝[θ ρ L]可以被提取，其中θ、ρ和L指示活动的音频源的角度、扩散性和音量。为了确定活动的源属于或者对应于哪个模型，在Ψ与第i个模型的空间特征(Ψ_i)之间的距离d_i在步骤S202中被计算为：

d_i＝|Ψ-Ψ_i|for i＝1,2…N (1)

其中N表示样本源模型的总数量。

在步骤S203，其空间特征最接近于Ψ的样本源模型k随后被选择。为了使得该选择具有更佳的鲁棒性，在步骤S204，在图2中所示的最小距离d_k与预定义阈值D_TH进行比较。如果最小距离比预定义阈值小，则确定活动的音频源对应于样本源k，因而样本源k的模型在步骤S206被拷贝至自适应滤波模型。否则，没有模型将被选择。

在步骤S103的自适应滤波估计将在以下进行讨论。声音通过至少一个音频采集设备从活动的音频源采集。在一个实施例中，可以提供以等边三角形拓扑布置的三个心形麦克风。在另一个实施例中，可以提供以等边三角形拓扑布置的三个全向麦克风。应当指出的是，可以提供更少的麦克风，诸如两个麦克风，或者更多的麦克风，诸如至少四个或更多麦克风，其以任何适当的形式布置，只要可以从这样的布置获得空间特征。可替代地，在另一实施例中，可以仅提供一个麦克风，以便于采集音频信号而没有空间特征。通常，针对多个麦克风以及针对单个麦克风的自适应滤波模型估计过程是不同的，并将在以下单独进行讨论。

针对多个麦克风的提取过程

在一个实施例中，如上所述，音频采集端点可以包括以等边三角形拓扑布置的三个心形麦克风。如图3所示，在每个麦克风对之间的角度差可以为120°。换言之，在音频采集端点310的麦克风311、312之间、麦克风312、313之间、麦克风313、311之间的角度差均为120°。在这样的布置中，麦克风311、312、313从彼此以一定距离物理地分开。较小的距离是有利的，因为由三个麦克风采集声音的准确度由距离所影响。

心形方向麦克风具有如图4所示的方向幅度响应。典型的心形麦克风在0°(例如，向前的方向)接收声音而没有衰减，而麦克风接收的声音随角度变化而衰减。心形麦克风在与0°相反的角度(即180°)接收具有最小音量的声音。

从三个麦克风的每个麦克风采集的声音根据它们的定向被相应地表示为L、R和S。三个心形麦克风除了它们的定向之外被假定为相同的。

L、R和S信号的时域版本可以被相应地表示为L(n)、R(n)和S(n)。因此，它们对应的频域版本可以被相应地转换为L(ω,k)、R(ω,k)和S(ω,k)，其中ω表示以半径表示的归一化的角度频率，并且k表示帧索引。帧长度l被选择为对应于20ms，这取决于采样率。在一个实施例中，对于采样率为48kHz的情况l被选择为960，这意味着20ms被采样960次，使得间距为1/48000秒。在以下讨论中，出于解释方便的原因，在大多情况下省略帧索引k。

麦克风阵列包括三个心形麦克风并且具有其幅度响应H(θ)，如：

H (θ) = [\begin{matrix} H_{L} (θ) \\ H_{R} (θ) \\ H_{S} (θ) \end{matrix}] = [\begin{matrix} 0.5 + 0.5 c o s (θ - π / 3) \\ 0.5 + 0.5 c o s (θ + π / 3) \\ 0.5 + 0.5 \cos (θ - π) \end{matrix}] - - - (2)

其中θ表示活动的源相对于具有预定义的向前方向为0°的音频采集端点的角度。H_L(θ)表示针对心形麦克风阵列的声道L的幅度响应，H_R(θ)表示针对心形麦克风阵列的声道R的幅度响应，并且H_S(θ)表示针对心型麦克风阵列的声道S的幅度响应。

可以假定的是，麦克风以足够小的距离被间隔开，使得每个麦克风信号中的相位差可以被忽略。因此，根据等式(2)，单个源的输入信号保持在角度θ可以被描述为：

X (ω) = [\begin{matrix} L (ω) \\ R (ω) \\ S (ω) \end{matrix}] = D (ω) H (θ) + r (ω) - - - (3)

其中X(ω)表示频域的输入信号，并且D(ω)表示频域中的音频源的直接信号。r(ω)＝[r_L(ω)r_R(ω)r_S(ω)]^T是代表回响的项。

在一个实施例中，可以假定的是在不同麦克风中的回响成分是不相关的以及零均值的，例如：

E [r (ω) r^{H} (ω)] = [\begin{matrix} σ_{r_{L}}^{2} (ω) & 0 & 0 \\ 0 & σ_{r_{R}}^{2} (ω) & 0 \\ 0 & 0 & σ_{r_{S}}^{2} (ω) \end{matrix}] = E [C_{r} (ω)] - - - (4)

其中C_r表示信号能量的协方差矩阵，并且E表示其预期。和表示在每个麦克风中的回响能量。

为了提取直接能量和回响能量，输入信号的协方差矩阵可以首先被计算为：

C(ω,k)＝βC(ω,k-1)+(1-α)X(ω,k)X^H(ω,k) (5)

其中C(ω,k)表示针对频率ω和帧索引k的协方差矩阵。α表示平滑因子。

在一个实施例中，α可以被设定为在从0.9到0.95的范围中的值，例如为0.9。因为音频信号包括直接能量成分和回响能量成分两者，因而信号能量的期待可以被表示为：

E [C (ω)] = E [C_{d} (ω)] + E [C_{r} (ω)] = σ_{d}^{2} (ω) H (θ) H^{H} (θ) + E [C_{r} (ω)] - - - (6)

其中表示预期的直接源能量的乘方，并且C_d(ω)表示直接源能量的协方差。

基于等式(6)，其示出了C(ω)的对角项的求和A(ω)可以被表示为：

\begin{matrix} A (ω) = E [C_{11} (ω)] + E [C_{22} (ω)] + E [C_{33} (ω)] \\ = σ_{d}^{2} (ω) [{0.5 + 0.5 \cos (θ - \frac{π}{3})}^{2} + {0.5 + 0.5 \cos (θ + \frac{π}{3})}^{2} \\ + {0.5 + 0.5 \cos (θ - π)}^{2}] + σ_{r_{L}}^{2} (ω) + σ_{r_{R}}^{2} (ω) + σ_{r_{S}}^{2} (ω) \\ = G_{1} (σ_{d}^{2} (ω)) + σ_{r_{L}}^{2} (ω) + σ_{r_{R}}^{2} (ω) + σ_{r_{S}}^{2} (ω) \\ = G_{1} (σ_{d}^{2} (ω)) + 3 σ_{r}^{2} (ω) \end{matrix} - - - (7)

其中G₁表示常数，并且表示在每个麦克风中的平均回响能量。E[C₁₁(ω)]表示针对在等式(4)中呈现的预期的协方差矩阵的第一列(声道L)和第一行(声道L)的预期的协方差。类似地，E[C₂₂(ω)]表示针对预期的协方差矩阵的第二列(声道R)和第二行(声道R)的预期的协方差，并且E[C₃₃(ω)]表示针对预期的协方差矩阵的第三列(声道S)和第三行(声道S)的预期的协方差。

在图3中所示的心形麦克风的直接导致等式(2)的特定布置中，常数G₁被计算为等于1.125。类似地，还可以示出C(ω)的上部非对角项的求和B(ω)可以被表达为：

\begin{matrix} B (ω) = E [C_{12} (ω)] + E [C_{13} (ω)] + E [C_{23} (ω)] \\ = σ_{d}^{2} (ω) [(0.5 + 0.5 \cos (θ - \frac{π}{3})) (0.5 + 0.5 \cos (θ + \frac{π}{3})) \\ + (0.5 + 0.5 \cos (θ - \frac{π}{3})) (0.5 + 0.5 \cos (θ - π)) \\ + (0.5 + 0.5 \cos (θ + \frac{π}{3})) (0.5 + 0.5 \cos (θ - π))] = G_{2} σ_{d}^{2} (ω) \end{matrix} - - - (8)

其中G₂表示常数(例如0.625)。E[C₁₂(ω)]表示针对在等式(4)中呈现的预期的协方差矩阵的第一列(声道L)和第二行(声道R)的预期的协方差。类似地，E[C₁₃(ω)]表示针对预期的协方差矩阵的第一列(声道L)和第三行(声道S)的预期的协方差，并且E[C₂₃(ω)]表示针对预期的协方差矩阵的第二列(声道R)和第三行(声道S)的预期的协方差。G₁和G₂的计算将在以下说明书中被说明。

因为麦克风被假设为非相关的，使得C_r(ω)的非对角项等于0，在该情况下，与A(ω)不同，B(ω)并不包括回响项。在图3所示的心形麦克风的直接导致等式(2)的特定布置中，常数G₂被计算为等于0.625。通过合并等式(7)和(8)，世界能量成分和回响能量成分可以被表达为：

[\begin{matrix} G_{1} & 3 \\ G_{2} & 0 \end{matrix}] \cdot [\begin{matrix} σ_{d}^{2} (ω) \\ σ_{r}^{2} (ω) \end{matrix}] = [\begin{matrix} A (ω) \\ B (ω) \end{matrix}] - - - (9)

可以从等式(9)中看出，直接能量成分和回响能量成分可以被写为：

[\begin{matrix} σ_{d}^{2} (ω) \\ σ_{r}^{2} (ω) \end{matrix}] = {[\begin{matrix} G_{1} & 3 \\ G_{2} & 0 \end{matrix}]}^{- 1} \cdot [\begin{matrix} A (ω) \\ B (ω) \end{matrix}] - - - (10)

如从等式(2)至(10)所导出的，直接能量成分和回响能量成分可以基于麦克风的布置(其确定G₁和G₂的值)以及麦克风的一个之间(C₁₁、C₂₂和C₃₃)或两个之间(C₁₂、C₁₃和C₂₃)的音频信号的线性关系而被提取。在该实施例中，线性关系可以被音频信号的协方差矩阵所反映，该协方差矩阵可以由等式(6)计算。

在以上所述的实施例中，可以假定的是在不同麦克风中的回响成分是不相关的以及零均值的。然而，回响声场的相干性(coherence)可以取决于频率并且在大多情况下是非零的。基于不同声场的相干性，复杂的声场相干性可以通告以下被生成：

Γ_{12} (ω) = \frac{C_{12} (ω)}{\sqrt{C_{11} (ω) \cdot C_{22} (ω)}} - - - (11)

Γ_{13} (ω) = \frac{C_{13} (ω)}{\sqrt{C_{11} (ω) \cdot C_{33} (ω)}} - - - (12)

Γ_{23} (ω) = \frac{C_{23} (ω)}{\sqrt{C_{22} (ω) \cdot C_{33} (ω)}} - - - (13)

其中Γ₁₂(ω)表示针对声道L和R的声场相干性，Γ₁₃(ω)表示针对声道L和S的声场相干性，并且Γ₂₃(ω)表示针对声道R和S的声场相干性。

对于相同的声场，Γ₁₂(ω)＝Γ₁₃(ω)＝Γ₂₃(ω)，因而它们在以下被指示为Γ(ω)。基于等式(6)，该协方差矩阵可以被表达为以下：

E [C_{11} (ω)] = Φ_{d d} (ω) H_{L} (θ) {H_{L}}^{H} (θ) + Φ_{r_{L} r_{L}} (ω) - - - (14)

E [C_{22} (ω)] = Φ_{d d} (ω) H_{R} (θ) {H_{R}}^{H} (θ) + Φ_{r_{R} r_{R}} (ω) - - - (15)

E [C_{33} (ω)] = Φ_{d d} (ω) H_{S} (θ) {H_{S}}^{H} (θ) + Φ_{r_{S} r_{S}} (ω) - - - (16)

\begin{matrix} E [C_{12} (ω)] = Φ_{d d} (ω) H_{L} (θ) {H_{R}}^{H} (θ) + Φ_{r_{L} r_{R}} (ω) \\ = Φ_{d d} (ω) H_{L} (θ) {H_{R}}^{H} (θ) + Γ (ω) Φ_{r r} (ω) \end{matrix} - - - (17)

\begin{matrix} E [C_{13} (ω)] = Φ_{d d} (ω) H_{L} (θ) {H_{S}}^{H} (θ) + Φ_{r_{L} r_{S}} (ω) \\ = Φ_{d d} (ω) H_{L} (θ) {H_{S}}^{H} (θ) + Γ (ω) Φ_{r r} (ω) \end{matrix} - - - (18)

\begin{matrix} E [C_{23} (ω)] = Φ_{d d} (ω) H_{R} (θ) {H_{S}}^{H} (θ) + Φ_{r_{R} r_{S}} (ω) \\ = Φ_{d d} (ω) H_{R} (θ) {H_{S}}^{H} (θ) + Γ (ω) Φ_{r r} (ω) \end{matrix} - - - (19)

其中Φ_dd(ω)表示直接能量成分，并且和的每一个表示回响能量成分的协方差矩阵项。Φ_rr(ω)表示在每个麦克风中的平均回响能量成分。等式(14)至(16)描述了针对回响矩阵的对角项自功率谱密度的计算，而等式(17)至(19)描述了针对回响矩阵的非对角项的互功率谱密度的计算。

等式(17)、(18)和(19)的简化的结果相应地基于等式(11)、(12)和(13)被导出。基于等式(14)到(19)，C(ω)的对角项的求和A(ω)以及C(ω)的上部非对角项的求和B(ω)可以被表达为：

A(ω)＝E[C₁₁(ω)]+E[C₂₂(ω)]+E[C₃₃(ω)] (20)

＝G₁Φ_dd(ω)+3Φ_rr(ω)

B(ω)＝E[C₁₂(ω)]+E[C₁₃(ω)]+E[C₂₃(ω)] (21)

＝G₂Φ_dd(ω)+3Γ(ω)Φ_rr(ω)

类似于等式(7)和(8)，考虑到麦克风阵列在音频采集过程期间是固定的，G₁和G₂表示两个常数，其可以通过以下等式被确定：

G₁＝H_L(θ)H_L ^H(θ)+H_R(θ)H_R ^H(θ)+H_S(θ)H_S ^H(θ) (22)

G₂＝H_L(θ)H_R ^H(θ)+H_L(θ)H_S ^H(θ)+H_R(θ)H_S ^H(θ) (23)

因此，基于等式(2)，针对示例麦克风布置，G₁和G₂可以被相应地计算为1.125和0.625。通过合并等式(20)和(21)，直接能量成分Φ_dd(ω)和回响能量成分Φ_rr(ω)可以被表达为：

[\begin{matrix} G_{1} & 3 \\ G_{2} & 3 Γ (ω) \end{matrix}] \cdot [\begin{matrix} Φ_{d d} (ω) \\ Φ_{r r} (ω) \end{matrix}] = [\begin{matrix} A (ω) \\ B (ω) \end{matrix}] - - - (24)

可以从等式(24)看出，直接能量成分Φ_dd(ω)和回响能量成分Φ_rr(ω)可以被写为：

[\begin{matrix} Φ_{d d} (ω) \\ Φ_{r r} (ω) \end{matrix}] = {[\begin{matrix} G_{1} & 3 \\ G_{2} & 3 Γ (ω) \end{matrix}]}^{- 1} \cdot [\begin{matrix} A (ω) \\ B (ω) \end{matrix}] - - - (25)

在该实施例中，Γ(ω)的值在从0到1的范围中。该值为0可以表示非相干声场，换言之，表示重度回响的房间。当Γ(ω)等于0时，回响能量成分的估计可以对应于基于等式(2)到(10)的计算。

该值为1可以表示相干声场，换言之，回响特性并不相对于频率而改变的空间。相干的声场可以是理想的声场，其仅可能在消声室中存在。在现实中，当房间的回响时间非常短或者源与麦克风之间的距离很小(例如，靠近讲话的情景)时，在这样的情况下，直接声音可能是支配的。

在一个实施例中，Γ(ω)＝sinc(2πf_sd_mic/c)，其中对于在0与1之间的情况而言Γ(ω)的值通过sinc函数确定，其中f_s表示频率，c表示声速，并且d_mic表示在两个相邻麦克风之间的距离。

在本文公开的一个示例实施例中，音频采集端点可以包括三个全向麦克风而不是三个心形麦克风。该三个全向麦克风的布置可以与以上所述并如图3所示的三个心形麦克风的布置相同。

不同于等式(2)，包括三个全向麦克风的麦克风阵列具有其幅度响应H(θ)为：

H (θ) = [\begin{matrix} H_{L} (θ) \\ H_{R} (θ) \\ H_{S} (θ) \end{matrix}] = [\begin{matrix} 1 \\ 1 \\ 1 \end{matrix}] - - - (26)

对于以上等式，G₁和G₂的值均为3。

图5图示了根据示例实施例的自适应滤波模型。回响模型可以使用FIR滤波器501，其被标示为h(ω)＝[h₀h₁…h_l-1]^T，如以上所述，其中l表示滤波器长度。例如，对于500ms的回响过程，滤波器长度被设置为25，其中每个帧的长度等于20ms。长于500ms的回响过程通常是优选的，因为较长的回响将被不同的模型更容易地识别。通过使用以下的常规的归一化最小均方(NLMS)算法，自适应滤波模型可以被导出。

{\hat{σ}}_{r}^{2} (ω) = h^{T} (ω, k - 1) Y (ω, k) - - - (27)

e (ω) = σ_{r}^{2} (ω) - {\hat{σ}}_{r}^{2} (ω) - - - (28)

h (ω, k) = h (ω, k - 1) + μ \frac{e (ω) Y (ω, k)}{| | Y (ω, k) | |^{2}} - - - (29)

其中μ表示被设定为0.1的适应步长。通常，μ的值可以在从0.05至0.2的范围中。Y表示滤波器阶数(tap)，即，表示由滤波器501估计的回响能量成分，并且e（ω）表示与之间的误差。

通过参考回图1，在步骤S102，如果活动的音频源并不对应任何现有的样本源，那么自适应滤波器501可以被设定为预定义的值或者前一时间帧的值，以用于初始化自适应滤波模型的近似。由自适应滤波器501生成的预期的回响能量成分与通过等式(10)计算的回响能量成分相比较。通过随时间最小化误差，自适应滤波器501可以针对特定的活动的音频源被优化，其对应于图1的步骤S103。

另一方面，如果存在被对应于活动音频源的一个样本源，与被对应的样本源相关联的自适应滤波模型可以被指派，以用于获得初始的滤波器501。其结果是，经指派的自适应滤波器将快速地完成适应过程或者忽略适应过程，并且与步骤S102和S103的情景相比，回响能量成分可以随时间被快速地估计。

应当指出的是，直接能量成分和回响能量成分和它们对应的模型可以并行地针对所有的频率槽(frequency bin)被独立地执行。总的回响模型可以被标示为：

R_model（ω）＝[h(ω_L)…h(ω_U)] (30)

其中ω_L和ω_U表示感兴趣的频率下限和上限。在一个实施例中，对于语音源，下限和上限可以被相应地限制为200Hz和8kHz，以便于节省计算资源。在另一实施例中，对于乐器源，下限和上限被设定值20Hz和20kHz，以便于传达音乐数据而不对细节做出妥协。

以上的示例实施例的总体流程可以由图6示出。在601，来自活动的音频源的声音被麦克风阵列采集，并且在602被变换为频域。在606，空间特征中的一些可以被提取以检查活动的音频源是否对应于库中现有的样本源。如果是，则可以在607将样本源中的一个指派给活动的音频源，其随后用于加速回响提取过程。另一方面，在603，直接能量成分和回响能量成分例如可以通过以上描述的等式(10)和(25)被提取。在604，从607或者从603获得恰当的自适应滤波模型，并且利用获得的自适应滤波模型实施回响估计。在605，响应于活动的音频源的任何空间变化，自适应滤波模型可以随时间被更新，其随后通过更新现有的样本源中的一个而被储存在库中。

利用以上描述的回响估计过程，包括若干样本源的库被用来储存对房间中的所有音频源预定义的或者即时地通过以上描述的算法(例如，等式(10)和(25))和框架(图5)学习到的对应的自适应滤波模型。其结果是，在例如远程会议中，当与会者正在讨论时，本文公开的方法能够快速地将与一个样本源相关联的自适应滤波模型指派给正在说话的与会者，并且易于估计其回响能量成分。该估计是快速的、精确的以及具有鲁棒性的，使得获得的回响能量成分以及直接能量成分可信，以用于本难以实现的诸如扩散性估计之类的后续处理。

针对单个麦克风的提取过程

之前的实施例利用多个麦克风，例如任何几何布置的两个或更多麦克风，并假设回响能量比直接能量更佳扩散或者维度更高。此外，在能量开始产生之后，回响能量在一定时间期间内在信号输入处比一般的扩散噪声(声噪声或电噪声)更大。

在本文公开的另一示例实施例中，仅有诸如全向麦克风之类的一个麦克风被用来采集声音。自适应滤波模型与图5所示的模型不同。该方法适于估计给定范围的回响响应。更具体地，比起音频源的瞬时功率谱变化的自然衰减或自相关，回响优选是更显著的。

在该实施例中，优选的是估计的能量信号是严格正的，并且直接信号和回响信号是不相关的。此外，可以假设干净的嗓音功率谱是很大地脉冲的，具有快速的开始以及比回响大得多的衰减率。例如，自然的嗓音的特征在100ms以内衰减至少20dB或30dB，100ms是普通的音节时间段的大约一半。这将对应于具有小于200ms的回响时间的房间。在该意义上，可以假设脉冲响应和回响特性表示严格正的滤波器，其表示信号能量的传播或衰减比基础的激励(嗓音)更慢。否则，回响对任何感知或信号处理而言应当具有低重要性。

然而，在该情况中要指出的是，误差信号e_t是非零均值高斯，其反而是图7中示出的用于干净的音频信号的脉冲信号。在一个实施例中，需要假设e_t是零均值(理想为高斯)以便于防止在所识别的FIR中的偏离。

如图7所示，通过将迁移时间帧的采集到的声音的能量X_t-1馈送到预定义的自适应滤波器701中并且降低自适应滤波器701的输出与所采集的当前时间帧的声音的能量X_t之间的差异，自适应滤波模型被估计。所采集的当前时间帧的声音的能量X_t可以通过以下等式被计算：

X_{t} = Σ_{i = 1}^{N} h_{i} X_{t - i} + e_{t} - - - (31)

其中h_i表示针对第i帧的滤波器系数。

前一时间帧的回响能量的估计可以通过等式(32)获得，并且当前时间帧(活动的音频源停止发出声音)与该估计之间的误差可以通过等式(33)获得：

{\hat{X}}_{t} = Σ_{i = 1}^{N} h_{i} X_{t - i} - - - (32)

e_{t} = X_{t} - {\hat{X}}_{t} - - - (33)

滤波器系数随后可以通过以下等式被计算：

h_i＝h_i+βe_tX_t-i，如果X_t<αX_t-1 (33)

其中α和β是两个系数，其在以下进行定义。

α可以被设定为使得允许有效地估计最大的回响时间常数，并且干净的音频能量的影响通过偏离和适应被减小。设定α的一个示例值以用于大约1秒的最大回响时间，在该情况下，对于20ms的更新速率，可以看出该值将表示每个帧中的衰减至少为1.2dB，或者在功率域中0.75的标量值。在20ms针对α的值的范围将从0.25(200ms)至0.9(3000ms)。对于不同的块尺寸，可以合适地计算α的值。应当指出的是，针对α使用较小的值减小了识别的滤波器系数的偏移以用于更小的回响时间。

β可以通过使用自适应滤波器的普通考虑而被设定。虽然可以考虑归一的LMS方法，要指出的是，当较大的误差值e_t支配该适应时(具有较小归一化)，通常将获得回响衰减滤波器的更好的估计。管理归一化和从归一化LMS到直接LMS的变换的方法是已知的，因而在此省略其描述。

根据本文公开的实施例，估计回响能量的能力可以被实现，而不需要将音频信号分为表示回响源和直接源的成分的特定阶段。例如，不需要像现有的方法那么多的明确的源分离、波束形成或去卷积处理。

图8图示了根据本文描述的示例实施例的用于从活动的音频源估计回响能量成分的系统800。如所示，该系统800包括：确定单元801，被配置为确定活动的音频源与多个样本源之间的对应性，样本源中的每一个与自适应滤波模型相关联；自适应滤波模型获得单元802，被配置为基于经确定的对应性获得针对活动的音频源的自适应滤波模型；以及回响能量成分估计单元803，被配置为基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。

在示例实施例中，自适应滤波模型获得单元802可以包括样本源创建单元和自适应滤波模型估计单元。响应于确定活动的音频源不对应任何样本源，该样本源创建单元可以被配置为创建对应于活动的音频源的样本源；并且自适应滤波模型估计单元可以被配置为估计与经创建的样本源相关联的自适应滤波模型。该系统还包括自适应滤波模型指派单元。响应于确定活动的音频源对应于样本源中的一个样本源，自适应滤波模型指派单元被配置为将与所对应的样本源相关联的自适应模型指派给活动的音频源。

在一些示例实施例中，系统800可以包括声音采集单元，其被配置为通过使用至少一个麦克风从活动的音频源采集声音；以及空间特征提取单元，其被配置为从所采集的声音提取空间特征，其中确定单元被配置为基于经提取的空间特征确定活动的音频源与多个样本源之间的对应性。

在另一示例实施例中，自适应滤波模型估计单元803可以包括声音变换单元，其被配置为将所采集的声音变换至频域中的音频信号；以及能量成分提取单元，其被配置为提取直接能量成分和回响能量成分，其中自适应滤波模型估计单元被配置为通过将直接能量成分和回响能量成分馈送至预定义的自适应滤波器并且降低自适应滤波器的输出与回响能量成分之间的差别而估计自适应滤波模型。在进一步的示例实施例中，能量成分提取单元可以被配置为基于麦克风的布置和在麦克风中的一个或两个麦克风之间的音频信号的线性关系，提取直接能量成分和回响能量成分。在又一个示例实施例中，至少一个麦克风包括三个麦克风，并且麦克风的布置包括处于等边三角形拓扑的三个方向性心形麦克风或者三个全向麦克风。

在一些其它的示例实施例中，自适应滤波模型估计单元803可以被配置为，通过将前一时间帧的所采集的声音的能量馈送至预定义的自适应滤波器并且降低自适应滤波器的输出与当前时间帧的所采集的声音的能量之间的差异，估计所述自适应滤波模型。在又一示例实施例中，至少一个麦克风包括用于从活动的音频源采集声音的全向麦克风。

在又一另外的示例实施例中，确定单元801可以包括选择单元，其被配置为从样本源中选择与活动的音频源空间上最接近一个样本源，其中该确定单元被配置为响应于在所选择的样本源与活动的音频源之间的距离在预定义的阈值以内而确定活动的音频源对应于所选择的样本源。

在一些其它的示例实施例中，空间特征包括角度、扩散性和音量中的至少一个。

为了清楚起见，系统800的一些可选部件在图8中并未示出。然而应当理解的是，如上述参照图1至7所描述的特征均适用于系统800。此外，系统800的部件可以是硬件模块或软件单元模块。例如，在一些实施例中，系统800可以部分地或完全地以软件/或固件实现，例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地，系统800可以部分地或完全地基于硬件实现，例如作为集成电路(IC)、应用专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围并不局限于该方面。

图9示出了适于实施本文公开的示例实施例的示例计算机系统900的框图。如图所示，计算机系统900包括中央处理单元(CPU)901，其能够根据存储在只读存储器(ROM)902中的程序或从存储区908加载到随机存取存储器(RAM)903的程序而执行各种处理。在RAM 903中，当CPU 901执行各种处理等等时，还根据所需存储有所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此相连。输入/输出(I/O)接口905也连接到总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网之类的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等，根据需要安装在驱动器910上，使得从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本文公开的示例实施例，上文参考图1至图7描述的过程可以被实现为计算机软件程序。例如，本文公开的示例实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序包含用于执行方法100的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。

一般而言，本文公开的各种示例实施例可以在硬件或专用电路、软件、逻辑、或其任何组合中实施。某些方面可以在硬件中实施，而其它方面可以在可由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本文公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其它图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本文公开的示例实施例包括计算机程序产品，其包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为执行上文描述方法的程序代码。

在本公开的上下文中，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存储存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于执行本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其它可编程的数据处理装置的处理器，使得程序代码在被计算机或其它可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上或在一个或多个远程计算机或服务器之间分布而执行。

另外，尽管操作以特定顺序被描绘，但这并不应该被理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理可能是有利的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例火灾任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及这些实施例的技术领域的技术人员将会想到此处阐明的其它示例实施例。

Claims

1.一种从活动的音频源估计回响能量成分的方法，包括：

确定在所述活动的音频源与多个样本源之间的对应性，所述样本源中的每个样本源与自适应滤波模型相关联；

基于经确定的对应性，获得针对所述活动的音频源的自适应滤波模型；以及

基于所述自适应滤波模型，从所述活动的音频源随时间估计所述回响能量成分。

2.根据权利要求1所述的方法，其中获得针对活动的音频源的自适应滤波模型包括：

响应于确定所述活动的音频源不对应所述样本源中的任何样本源：

创建对应于所述活动的音频源的样本源；以及

估计与经创建的样本源相关联的所述自适应滤波模型；

响应于确定所述活动的音频源对应于所述样本源中的一个样本源：

将与所对应的样本源相关联的所述自适应模型指派给所述活动的音频源。

3.根据权利要求2所述的方法，进一步包括：

通过使用至少一个麦克风来从所述活动的音频源采集声音；以及

从所采集的声音提取空间特征，

其中确定所述活动的音频源与所述多个样本源之间的对应性包括基于经提取的空间特征确定所述对应性。

4.根据权利要求3所述的方法，其中估计所述自适应滤波模型包括：

将所采集的声音变换至频域中的音频信号；

提取直接能量成分和回响能量成分；以及

通过以下估计所述自适应滤波模型：

将所述直接能量成分和所述回响能量成分馈送至预定义的自适应滤波器中，以及

降低所述自适应滤波器的输出与所述回响能量成分之间的差异。

5.根据权利要求4所述的方法，其中所述提取包括：

基于所述麦克风的布置和在所述麦克风中的一个或两个麦克风之间的所述音频信号的线性关系，提取所述直接能量成分和所述回响能量成分。

6.根据权利要求5所述的方法，其中所述至少一个麦克风包括以下中的一项：

以方向性心形拓扑布置的三个麦克风，或者

以等边三角拓扑布置的三个全向麦克风。

7.根据权利要求2所述的方法，其中估计所述自适应滤波模型包括：

通过将前一时间帧的所采集的声音的能量馈送至预定义的自适应滤波器来估计所述自适应滤波模型；以及

降低所述自适应滤波器的输出与当前时间帧的所采集的声音的能量之间的差异。

8.根据权利要求7所述的方法，其中所述至少一个麦克风包括用于从所述活动的音频源采集声音的全向麦克风。

9.根据权利要求1至8中任一项所述的方法，其中确定所述活动的音频源与所述多个样本源之间的对应性包括：

从所述样本源中选择与所述活动的音频源空间上最接近的一个样本源；以及

响应于所选择的样本源与所述活动的音频源之间的距离在预定义的阈值以内，确定所述活动的音频源对应于所选择的样本源。

10.根据权利要求3至8中任一项所述的方法，其中所述空间特征包括角度、扩散性和音量中的至少一个。

11.一种用于从活动的音频源估计回响能量成分的系统，包括：

确定单元，被配置为确定在所述活动的音频源与多个样本源之间的对应性，所述样本源中的每个样本源与自适应滤波模型相关联；

自适应滤波模型获得单元，被配置为基于经确定的对应性，获得针对所述活动的音频源的自适应滤波模型；以及

回响能量成分估计单元，被配置为基于所述自适应滤波模型，从所述活动的音频源随时间估计所述回响能量成分。

12.根据权利要求11所述的系统，其中所述自适应滤波模型获得单元包括：

样本源创建单元和自适应滤波模型估计单元，其中响应于确定所述活动的音频源不对应所述样本源中的任何样本源：

所述样本源创建单元被配置为创建与所述活动的音频源对应的样本源；并且

所述自适应滤波模型估计单元被配置为估计与经创建的样本源相关联的所述自适应滤波模型；以及

自适应滤波模型指派单元，其中响应于确定所述活动的音频源对应于所述样本源中的一个样本源：

所述自适应滤波模型指派单元被配置为将与所对应的样本源相关联的所述自适应模型指派给所述活动的音频源。

13.根据权利要求12所述的系统，进一步包括：

声音采集单元，被配置为通过使用至少一个麦克风来从所述活动的音频源采集声音；以及

空间特征提取单元，被配置为从所采集的声音提取空间特征，

其中所述确定单元被配置为基于经提取的空间特征确定所述活动的音频源与所述多个样本源之间的对应性。

14.根据权利要求13所述的系统，其中所述自适应滤波模型估计单元包括：

声音变换单元，被配置为将所采集的声音变换至频域中的音频信号；以及

能量成分提取单元，被配置为提取直接能量成分和所述回响能量成分，

其中所述自适应滤波模型估计单元被配置为：通过将所述直接能量成分和所述回响能量成分馈送至预定义的自适应滤波器并且降低所述自适应滤波器的输出与所述回响能量成分之间的差异，来估计所述自适应滤波模型。

15.根据权利要求14所述的系统，其中所述能量成分提取单元被配置为基于所述麦克风的布置和在所述麦克风中的一个或两个麦克风之间的所述音频信号的线性关系，提取所述直接能量成分和所述回响能量成分。

16.根据权利要求15所述的系统，其中所述至少一个麦克风包括以下中的一项：

以方向性心形拓扑布置的三个麦克风，或者

以等边三角拓扑布置的三个全向麦克风。

17.根据权利要求12所述的系统，其中所述自适应滤波模型估计单元被配置为，通过将前一时间帧的所采集的声音的能量馈送至预定义的自适应滤波器并且降低所述自适应滤波器的输出与当前时间帧的所采集的声音的能量之间的差异，来估计所述自适应滤波模型。

18.根据权利要求17所述的系统，其中所述至少一个麦克风包括用于从所述活动的音频源采集声音的全向麦克风。

19.根据权利要求11至18中的任一项所述的系统，其中所述确定单元包括：

选择单元，被配置为从所述样本源中选择与所述活动的音频源空间上最接近的一个样本源，

其中所述确定单元被配置为：响应于所选择的样本源与所述活动的音频源之间的距离在预定义的阈值以内，确定所述活动的音频源对应于所选择的样本源。

20.根据权利要求13至18中任一项所述的系统，其中所述空间特征包括角度、扩散性和音量中的至少一个。

21.一种用于从活动的音频源估计回响能量成分的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使得机器执行根据权利要求1至10中任一项所述的方法的步骤。