CN106339514A - 从活动的音频源估计回响能量成分 - Google Patents

从活动的音频源估计回响能量成分 Download PDF

Info

Publication number
CN106339514A
CN106339514A CN201510391261.5A CN201510391261A CN106339514A CN 106339514 A CN106339514 A CN 106339514A CN 201510391261 A CN201510391261 A CN 201510391261A CN 106339514 A CN106339514 A CN 106339514A
Authority
CN
China
Prior art keywords
source
audio
adaptive
filtering
activity
Prior art date
Application number
CN201510391261.5A
Other languages
English (en)
Inventor
施栋
D·古纳万
G·迪金斯
李凯
Original Assignee
杜比实验室特许公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杜比实验室特许公司 filed Critical 杜比实验室特许公司
Priority to CN201510391261.5A priority Critical patent/CN106339514A/zh
Priority claimed from EP16741755.9A external-priority patent/EP3320311B1/en
Publication of CN106339514A publication Critical patent/CN106339514A/zh

Links

Abstract

本文公开的示例实施例涉及从音频源估计回响能量成分。公开了一种从活动的音频源估计回响能量成分的方法。该方法包括:确定活动的音频源与多个样本源之间的对应性,样本源中的每一个与自适应滤波模型相关联,基于经确定的对应性获得针对活动的音频源的自适应滤波模型,以及基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。还公开了相应的系统和计算机程序产品。

Description

从活动的音频源估计回响能量成分

技术领域

[0001] 本文公开的示例实施例通常涉及回响能量估计,更具体地,涉及用于从活动的音 频源估计回响能量的方法和系统。

背景技术

[0002] 当在室内录制声音时,由诸如麦克风之类的声音采集端点录制的信号通常包括两 个成分。一个成分通常被称为直接能量,并且另一个成分被称为回响能量。

[0003] 直接能量从一个或多个声音源被直接传导至声音采集端点而没有被墙反弹或回 响。音频源可以是产生声音的任何东西,诸如正在讲话的人、正在被某人演奏的乐器、由回 放设备控制的扬声器等等。

[0004] 回响能量也被声音源所产生。然而,该回响成分在其被诸如墙之类的对象反弹至 少一次之后被采集。在声音的行进期间,声音的幅度被衰减。也在被诸如墙之类的物体反弹 之后,声音的一些频带被墙的表面(部分地)吸收,改变了回响声音的频谱。考虑到回响声 音在声音采集端点处的频谱和到达时间可能与直接传导的声音的频谱和到达时间相当不 同;获得该两个成分以用于之后的处理是有利的,例如,用于反映针对该声音源的扩散性。

[0005] 从音频源估计回响能量成分以及生成针对音频源的空间特征的现有的方法通常 依赖先验知识或者对诸如回响时间(RT60)或者墙的吸收系数之类的房间的性质的估计, 该回响时间(RT60)是直接声音的反射衰减60dB所需的时间。其结果是,现有的方法是耗 时的并且在现实中不切实际的,因为通常没有关于房间声学的先验知识。

[0006] 有鉴于此,在本领域中,用于从活动的音频源估计回响能量成分是需要的以用于 改进精确度、可重复性和速度。

发明内容

[0007] 为了解决前述和其它潜在的问题,本文公开的示例实施例提出了用于从活动的音 频源估计回响能量成分的方法和系统。活动的音频源指示正在发出声音的源。

[0008] 在一个方面,本文公开的示例实施例提供了从活动的音频源估计回响能量成分的 方法。该方法包括:确定活动的音频源与多个样本源之间的对应性,样本源中的每一个与自 适应滤波模型相关联,基于经确定的对应性获得针对活动的音频源的自适应滤波模型,以 及基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。

[0009] 在另一个方面,本文公开的示例实施例提供了用于从活动的音频源估计回响能量 成分的系统。该系统包括:确定单元,被配置为确定活动的音频源与多个样本源之间的对应 性,样本源中的每一个与自适应滤波模型相关联;自适应滤波模型获得单元,被配置为基于 经确定的对应性获得针对活动的音频源的自适应滤波模型;以及回响能量成分估计单元, 被配置为基于该自适应滤波模型从活动的音频源随时间估计回响能量成分。

[0010] 通过以上的描述,应当理解的是,被用来反映在听觉场景中针对每个声音源(扬 声器)的扩散性(以及可能的距离)的回响能量估计可以根据本文公开的示例实施例而被 改进。在房间以内的声音源可以被更好地建模和分组。这些模型随后提供了用于追踪讲话 者的基础以及诸如会议注释以及语音分离的智能应用。通过利用自适应滤波模型特征化直 接能量与回响能量之间的关系,回响能量可以以更高的准确度被估计。此外,具有鲁棒性的 自适应滤波系数可以被用来表示源的回响路径并且被映射为扩散性。进而,为了实时地处 理多个源,发展了有效的和简单的策略以通过使用其它空间特征在针对样本源的自适应滤 波模型的每个模型之间进行切换。这将显著地增大了系统的鲁棒性并且加速了模型的适 应,因而改进了处理速度。

附图说明

[0011] 通过参照附图的以下详细描述,本文公开的示例实施例的上述和其它目的、特征 和优点将变得更容易理解。在附图中,本文公开的示例实施例将以示例以及非限制性的方 式进行说明,其中:

[0012] 图1图示了根据示例实施例的从活动的音频源估计回响能量成分的方法的流程 图;

[0013] 图2图示了根据示例实施例的确定活动的音频源是否对应于若干样本源中的一 个样本源的示例流程;

[0014] 图3图示了根据示例实施例的具有在不同的位置的多个源以及带有三个麦克风 的音频采集端点的听觉场景的示例;

[0015] 图4图示了用在图3的音频采集端点中的示例心形麦克风的心形方向性;

[0016] 图5图示了根据示例实施例的自适应滤波模型;

[0017] 图6图示了根据示例实施例的用于自适应滤波模型更新的示例框图;

[0018] 图7图示了根据另一示例实施例的自适应滤波模型;

[0019] 图8图示了根据示例实施例的用于从活动的音频源估计回响能量成分的系统;以 及

[0020] 图9图示了适于实施本文公开的示例实施例的示例计算机系统的框图。

[0021] 在全部附图中,相同或相应的附图标记指代相同或相应的部分。

具体实施方式

[0022] 现在将参照附图中所示的各种示例实施例对本文公开的示例实施例的原理进行 说明。应当理解,这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实 施本文公开的示例实施例,而不意在以任何方式对范围进行限制。

[0023] 本文公开的示例实施例利用诸如麦克风之类的至少一个音频采集端点以便于获 得直接能量成分以及回响能量成分。通过将回响能量成分和直接能量成分建模为线性滤波 器的输出和滤波器的输入,恰当的自适应滤波模型被用来近似相应的滤波系数,其随后被 用作指示源有多回响的指标并且可以被进一步映射到扩散性测量。在真实应用中,通常包 含多个源。因此,为了能够实时地在听觉场景中追踪在不同位置处的多个源,每个源被指派 有自适应滤波模型以用于加速估计过程。附加地,发展了通过使用其它空间特征(例如角 度、音量等)快速地在源之间切换的机构,使得一旦源是活动的,其对应的自适应滤波模型 可以在短时间内被适应。

[0024] 为了能够追踪多个源,每个源具有其自身的自适应模型,无论何时当该源是活动 的时该自适应模型就被适应。针对每个源保持自适应模型的追踪有助于加速回响能量估计 并且还提供了更高的鲁棒性和稳定度。

[0025] 图1图示了根据示例实施例的从活动的音频源估计回响能量成分的方法100的流 程图。在S101,确定活动的音频源是否对应于多个样本源中的一个样本源。活动的音频源 例如可以是在房间内发出声音的源。样本源中的每个样本源与自适应滤波模型相关联。然 而,在一开始并未提供样本源的情况下,应当确定活动的音频源不对应于任何样本源。

[0026] 该确定步骤S101可以以不同方式被实现。例如,一些空间特征可以从由音频采集 端点采集的活动的音频源提取。空间特征可以包括角度信息和幅度信息,角度信息指示活 动音频源相对于音频采集端点的定向,幅度信息指示活动的音频源的响度或者音量。可替 代地,步骤S101还可以被诸如相机之类的视频采集端点实现,其可以通过分析所采集到的 图像获得特定源的空间信息。诸如红外检测之类的其它装置也可以被用来获得活动的音频 源的空间特征。因此,活动的音频源的空间特征可以与样本源的那些空间特征相比较,以便 于确定是否存在用于代表活动的音频源的样本源。

[0027] 在步骤S102,基于经确定的对应性,获得针对活动的音频源的自适应滤波模型。例 如,可以以两种方式获得自适应滤波模型。第一种方式可以依赖于在步骤S101的确定步 骤:如果活动的音频源不对应任何样本源(这也包括不提供任何样本源的情况),则创建对 应于活动的音频源的样本源。经创建的样本源被指派有所采集的活动的音频源的空间特 征,并且随后将指派有自适应滤波模型。

[0028] 随后,与经创建的样本源相关联的自适应滤波模型被估计。该过程可以以不同方 式被实施并且将在以下描述中详细阐述。

[0029] 另一方面,第二种方式还可以依赖该确定步骤S101 :如果活动的音频源对应于样 本源中的一个样本源,与所对应的样本源相关联的活动的滤波模型可以被指派给活动的音 频源。

[0030] 在步骤S103,基于在步骤S102所获得的自适应滤波模型,从活动的音频源随时间 估计回响能量成分。回响能量成分随时间的估计在更新自适应滤波模型上是有用的。其结 果是,扩散性可以例如通过预定的映射从自适应滤波模型获得。

[0031] 图2图示了根据实施例的确定活动的音频源是否对应于若干样本源中的一个样 本源的示例流程200。为了快速选择针对活动的音频源的自适应滤波模型(通过找到恰当 的样本源)并且继续适应其自适应滤波模型以用于估计回响能量成分,瞬时的空间特征被 提取并且被用来从模型集合中选择对应的样本源模型。该选择过程可以是基于在线的。空 间特征例如可以包括角度、音量和扩散性中的至少一个。角度指示特定音频源相对于音频 采集端点的定向,音量指示音频源的响度,并且扩散性指示音频源有多回响。每个样本源模 型可以是在线构建的,并具有其自身的平均空间特征。

[0032] 在步骤S201,瞬时的空间特征可以直接通过音频采集端点(角度、音量)或者作为 最大特征值与第二大特征值的比率(扩散性)而获得,该比率使用输入信号的协方差矩阵 而计算。如图2所示,瞬时空间特征W = [0 p L]可以被提取,其中0、P和L指示活 动的音频源的角度、扩散性和音量。为了确定活动的源属于或者对应于哪个模型,在W与 第i个模型的空间特征之间的距离山在步骤S202中被计算为:

[0033] 山=| W-W Jfor i = 1,2...N (1)

[0034] 其中N表示样本源模型的总数量。

[0035] 在步骤S203,其空间特征最接近于W的样本源模型k随后被选择。为了使得该 选择具有更佳的鲁棒性,在步骤S204,在图2中所示的最小距离d k与预定义阈值D TH进行比 较。如果最小距离比预定义阈值小,则确定活动的音频源对应于样本源k,因而样本源k的 模型在步骤S206被拷贝至自适应滤波模型。否则,没有模型将被选择。

[0036] 在步骤S103的自适应滤波估计将在以下进行讨论。声音通过至少一个音频采集 设备从活动的音频源采集。在一个实施例中,可以提供以等边三角形拓扑布置的三个心形 麦克风。在另一个实施例中,可以提供以等边三角形拓扑布置的三个全向麦克风。应当指 出的是,可以提供更少的麦克风,诸如两个麦克风,或者更多的麦克风,诸如至少四个或更 多麦克风,其以任何适当的形式布置,只要可以从这样的布置获得空间特征。可替代地,在 另一实施例中,可以仅提供一个麦克风,以便于采集音频信号而没有空间特征。通常,针对 多个麦克风以及针对单个麦克风的自适应滤波模型估计过程是不同的,并将在以下单独进 行讨论。

[0037] 针对多个耒克风的提取讨稈

[0038] 在一个实施例中,如上所述,音频采集端点可以包括以等边三角形拓扑布置的三 个心形麦克风。如图3所示,在每个麦克风对之间的角度差可以为120°。换言之,在音频 采集端点310的麦克风31U312之间、麦克风312、313之间、麦克风313、311之间的角度差 均为120°。在这样的布置中,麦克风311、312、313从彼此以一定距离物理地分开。较小的 距离是有利的,因为由三个麦克风采集声音的准确度由距离所影响。

[0039] 心形方向麦克风具有如图4所示的方向幅度响应。典型的心形麦克风在0° (例 如,向前的方向)接收声音而没有衰减,而麦克风接收的声音随角度变化而衰减。心形麦克 风在与〇°相反的角度(即180° )接收具有最小音量的声音。

[0040] 从三个麦克风的每个麦克风采集的声音根据它们的定向被相应地表示为L、R和 S。三个心形麦克风除了它们的定向之外被假定为相同的。

[0041] L、R和S信号的时域版本可以被相应地表示为L(n)、R(n)和S(n)。因此,它们对 应的频域版本可以被相应地转换为1(«,1〇、1?(«,1〇和5(«,1〇,其中《表示以半径表示 的归一化的角度频率,并且k表示帧索引。帧长度1被选择为对应于20ms,这取决于采样 率。在一个实施例中,对于采样率为48kHz的情况1被选择为960,这意味着20ms被采样 960次,使得间距为1/48000秒。在以下讨论中,出于解释方便的原因,在大多情况下省略帧 索引k。

[0042] 麦克风阵列包括三个心形麦克风并且具有其幅度响应H( 0 ),如:

[0043]

Figure CN106339514AD00081

{2|

[0044] 其中0表示活动的源相对于具有预定义的向前方向为0°的音频采集端点的角 度。扎(0 )表示针对心形麦克风阵列的声道L的幅度响应,HR( 0 )表示针对心形麦克风阵 列的声道R的幅度响应,并且Hs( 0 )表示针对心型麦克风阵列的声道S的幅度响应。

[0045] 可以假定的是,麦克风以足够小的距离被间隔开,使得每个麦克风信号中的相位 差可以被忽略。因此,根据等式(2),单个源的输入信号保持在角度0可以被描述为:

[0046]

Figure CN106339514AD00091

(3)

[0047] 其中X(co)表示频域的输入信号,并且D(co)表示频域中的音频源的直接信号。 r(«) = 表回响的项。

[0048] 在一个实施例中,可以假定的是在不同麦克风中的回响成分是不相关的以及零均 值的,例如:

[0049]

Figure CN106339514AD00092

(4)

[0050] 其中(;表示信号能量的协方差矩阵,并且E表示其预期。 ^

Figure CN106339514AD00093

)和

Figure CN106339514AD00094

I示在每个麦克风中的回响能量。

[0051 ] 为了提取直接能量和回响能量,输入信号的协方差矩阵可以首先被计算为:

[0052] C («,k) = 0 C («,k-1) + (1- a ) X («,k) XH («,k) (5)

[0053] 其中C(c〇, k)表示针对频率《和帧索引k的协方差矩阵。a表示平滑因子。

[0054] 在一个实施例中,a可以被设定为在从〇. 9到0. 95的范围中的值,例如为0. 9。因 为音频信号包括直接能量成分和回响能量成分两者,因而信号能量的期待可以被表示为:

[0055]

Figure CN106339514AD00095

(6)

[0056] 其中表示预期的直接源能量的乘方,并且Cd(co)表示直接源能量的协方 差。

[0057] 基于等式(6),其示出了 C(co)的对角项的求和A(co)可以被表示为:

[0058]

Figure CN106339514AD00096

[0059] 其中匕表示常数,并且表示在每个麦克风中的平均回响能量。E[Cn(co)] 表示针对在等式(4)中呈现的预期的协方差矩阵的第一列(声道L)和第一行(声道L)的 预期的协方差。类似地,E[C22(co)]表示针对预期的协方差矩阵的第二列(声道R)和第二 行(声道R)的预期的协方差,并且E[C 33(co)]表示针对预期的协方差矩阵的第三列(声道 S)和第三行(声道S)的预期的协方差。

[0060] 在图3中所示的心形麦克风的直接导致等式(2)的特定布置中,常数匕被计算为 等于1. 125。类似地,还可以示出C(co)的上部非对角项的求和B(co)可以被表达为:

[0061]

Figure CN106339514AD00101

[0062] 其中心表示常数(例如0.625)。£[(:12(«)]表示针对在等式(4)中呈现的预期 的协方差矩阵的第一列(声道L)和第二行(声道R)的预期的协方差。类似地,E[C 13(co)] 表示针对预期的协方差矩阵的第一列(声道L)和第三行(声道S)的预期的协方差,并且 E[C23(co)]表示针对预期的协方差矩阵的第二列(声道R)和第三行(声道S)的预期的协 方差。GJPG 2的计算将在以下说明书中被说明。

[0063] 因为麦克风被假设为非相关的,使得(;(《)的非对角项等于〇,在该情况下,与 A(co)不同,B(co)并不包括回响项。在图3所示的心形麦克风的直接导致等式(2)的特定 布置中,常数G2被计算为等于0.625。通过合并等式(7)和(8),世界能量成分#〇/);)和回 响能量成分0^(60)可以被表达为:

[0064]

Figure CN106339514AD00102

(9)

[0065] 可以从等式(9)中看出,直接能量成分orKw)和回响能量成分可以被写 为:

[0066]

Figure CN106339514AD00103

ao)

[0067] 如从等式(2)至(10)所导出的,直接能量成分和回响能量成分可 以基于麦克风的布置(其确定GJP G 2的值)以及麦克风的一个之间(C n、C22和C 33)或两 个之间(C12、C13和C23)的音频信号的线性关系而被提取。在该实施例中,线性关系可以被 音频信号的协方差矩阵所反映,该协方差矩阵可以由等式(6)计算。

[0068] 在以上所述的实施例中,可以假定的是在不同麦克风中的回响成分是不相关的以 及零均值的。然而,回响声场的相干性(coherence)可以取决于频率并且在大多情况下是 非零的。基于不同声场的相干性,复杂的声场相干性可以通告以下被生成:

Figure CN106339514AD00104

[0069]

[0070]

[0071]

Figure CN106339514AD00111

(13): V ,一,- V ,

[0072] 其中r 12(«)表示针对声道L和R的声场相干性,r 13(«)表示针对声道L和s 的声场相干性,并且r23(«)表示针对声道r和s的声场相干性。

[0073] 对于相同的声场,r12(«) = r13(«) = r23(«),因而它们在以下被指示为 r (c〇)。基于等式(6),该协方差矩阵可以被表达为以下: •• ttu,\ y " - rv: '

Figure CN106339514AD00112

、、.-- - / - t / v •• • y

[0080] 其中〇dd(«)表示直接能量成分,并且

Figure CN106339514AD00113

Figure CN106339514AD00114

的每一个表示回响能量成分的协方差矩阵项。 表示在每个麦克风中的平均回响能量成分。等式(14)至(16)描述了针对回响矩 阵的对角项自功率谱密度的计算,而等式(17)至(19)描述了针对回响矩阵的非对角项的 互功率谱密度的计算。

[0081] 等式(17)、(18)和(19)的简化的结果相应地基于等式(11)、(12)和(13)被导 出。基于等式(14)到(19),C(co)的对角项的求和A(co)以及C(co)的上部非对角项的求 和B〇)可以被表达为:

[0082] A («) = E [Cn («) ] +E [C22 («) ] +E [C33 («) ] (20)

[0083] = 6!〇^(«)+3〇"(«)

[0084] B («) = E [C12 («) ] +E [C13 («) ] +E [C23 («) ] (21)

[0085] = G2〇dd(«)+3r (o) Orr(o)

[0086] 类似于等式(7)和(8),考虑到麦克风阵列在音频采集过程期间是固定的,GJPG2 表示两个常数,其可以通过以下等式被确定:

[0087] Gi= HL( 9 )Hlh( 9 ) +HR( 9 )Hrh( 9 ) +HS( 9 )Hsh( 9 ) (22)

[0088] G2= H L ( 9 ) Hrh ( 9 ) +HL ( 9 ) Hsh ( 9 ) +HR ( 9 ) Hsh ( 9 ) (23)

[0089] 因此,基于等式(2),针对示例麦克风布置,匕和G 2可以被相应地计算为1. 125和 0.625。通过合并等式(20)和(21),直接能量成分〇dd(co)和回响能量成分〇"(«)可以 被表达为:

[0090]

Figure CN106339514AD00121

(24)

[0091] 可以从等式(24)看出,直接能量成分Odd(c〇)和回响能量成分〇"(«)可以被写 为:

[0092]

Figure CN106339514AD00122

(25)

[0093] 在该实施例中,r («)的值在从〇到1的范围中。该值为〇可以表示非相干声场, 换言之,表示重度回响的房间。当r(c〇)等于〇时,回响能量成分的估计可以对应于基于 等式⑵到(10)的计算。

[0094] 该值为1可以表示相干声场,换言之,回响特性并不相对于频率而改变的空间。相 干的声场可以是理想的声场,其仅可能在消声室中存在。在现实中,当房间的回响时间非常 短或者源与麦克风之间的距离很小(例如,靠近讲话的情景)时,在这样的情况下,直接声 音可能是支配的。

[0095] 在一个实施例中,r («) = sinc(2 Jr fscU/c),其中对于在0与1之间的情况而 言r («)的值通过sine函数确定,其中fs表示频率,c表示声速,并且(!"。表示在两个相 邻麦克风之间的距离。

[0096] 在本文公开的一个示例实施例中,音频采集端点可以包括三个全向麦克风而不是 三个心形麦克风。该三个全向麦克风的布置可以与以上所述并如图3所示的三个心形麦克 风的布置相同。

[0097] 不同于等式(2),包括三个全向麦克风的麦克风阵列具有其幅度响应H( 0 )为:

[0098]

Figure CN106339514AD00123

(26)

[0099] 对于以上等式,值均为3。

[0100] 图5图示了根据示例实施例的自适应滤波模型。回响模型可以使用FIR滤波器 501,其被标示为h(c〇) = &。1!1~1111]\如以上所述,其中1表示滤波器长度。例如,对于 500ms的回响过程,滤波器长度被设置为25,其中每个帧的长度等于20ms。长于500ms的回 响过程通常是优选的,因为较长的回响将被不同的模型更容易地识别。通过使用以下的常 规的归一化最小均方(NLMS)算法,自适应滤波模型可以被导出。

Figure CN106339514AD00124

[0104] 其中y表示被设定为0. 1的适应步长。通常,y的值可以在从0. 05至

[0101]

[0102]

[0103] 0. 2的范围中。Y表示滤波器阶数(tap),即,

Figure CN106339514AD00131

Figure CN106339514AD00132

表示由滤波器501估计的回响能量成分,并且e (w )表示(Tr2(Cx〇与斧(W)之间的误差。

[0105] 通过参考回图1,在步骤S102,如果活动的音频源并不对应任何现有的样本源,那 么自适应滤波器501可以被设定为预定义的值或者前一时间帧的值,以用于初始化自适应 滤波模型的近似。由自适应滤波器501生成的预期的回响能量成分份;)与通过等式(10) 计算的回响能量成分相比较。通过随时间最小化误差,自适应滤波器501可以针对 特定的活动的音频源被优化,其对应于图1的步骤S103。

[0106] 另一方面,如果存在被对应于活动音频源的一个样本源,与被对应的样本源相关 联的自适应滤波模型可以被指派,以用于获得初始的滤波器501。其结果是,经指派的自适 应滤波器将快速地完成适应过程或者忽略适应过程,并且与步骤S102和S103的情景相比, 回响能量成分可以随时间被快速地估计。

[0107] 应当指出的是,直接能量成分和回响能量成分和它们对应的模型可以并行地针对 所有的频率槽(frequency bin)被独立地执行。总的回响模型可以被标示为:

[0108] Rmcidel ( « ) = [h(0L)…h(0u)] (30)

[0109] 其中和《。表示感兴趣的频率下限和上限。在一个实施例中,对于语音源,下 限和上限可以被相应地限制为200Hz和8kHz,以便于节省计算资源。在另一实施例中,对于 乐器源,下限和上限被设定值20Hz和20kHz,以便于传达音乐数据而不对细节做出妥协。

[0110] 以上的示例实施例的总体流程可以由图6示出。在601,来自活动的音频源的声音 被麦克风阵列采集,并且在602被变换为频域。在606,空间特征中的一些可以被提取以检 查活动的音频源是否对应于库中现有的样本源。如果是,则可以在607将样本源中的一个 指派给活动的音频源,其随后用于加速回响提取过程。另一方面,在603,直接能量成分和回 响能量成分例如可以通过以上描述的等式(10)和(25)被提取。在604,从607或者从603 获得恰当的自适应滤波模型,并且利用获得的自适应滤波模型实施回响估计。在605,响应 于活动的音频源的任何空间变化,自适应滤波模型可以随时间被更新,其随后通过更新现 有的样本源中的一个而被储存在库中。

[0111] 利用以上描述的回响估计过程,包括若干样本源的库被用来储存对房间中的所有 音频源预定义的或者即时地通过以上描述的算法(例如,等式(10)和(25))和框架(图5) 学习到的对应的自适应滤波模型。其结果是,在例如远程会议中,当与会者正在讨论时,本 文公开的方法能够快速地将与一个样本源相关联的自适应滤波模型指派给正在说话的与 会者,并且易于估计其回响能量成分。该估计是快速的、精确的以及具有鲁棒性的,使得获 得的回响能量成分以及直接能量成分可信,以用于本难以实现的诸如扩散性估计之类的后 续处理。

[0112] 针对单个耒克风的提取讨稈

[0113] 之前的实施例利用多个麦克风,例如任何几何布置的两个或更多麦克风,并假设 回响能量比直接能量更佳扩散或者维度更高。此外,在能量开始产生之后,回响能量在一定 时间期间内在信号输入处比一般的扩散噪声(声噪声或电噪声)更大。

[0114] 在本文公开的另一示例实施例中,仅有诸如全向麦克风之类的一个麦克风被用来 采集声音。自适应滤波模型与图5所示的模型不同。该方法适于估计给定范围的回响响应。 更具体地,比起音频源的瞬时功率谱变化的自然衰减或自相关,回响优选是更显著的。

[0115] 在该实施例中,优选的是估计的能量信号是严格正的,并且直接信号和回响信号 是不相关的。此外,可以假设干净的嗓音功率谱是很大地脉冲的,具有快速的开始以及比回 响大得多的衰减率。例如,自然的嗓音的特征在l〇〇ms以内衰减至少20dB或30dB,100ms 是普通的音节时间段的大约一半。这将对应于具有小于200ms的回响时间的房间。在该意 义上,可以假设脉冲响应和回响特性表示严格正的滤波器,其表示信号能量的传播或衰减 比基础的激励(嗓音)更慢。否则,回响对任何感知或信号处理而言应当具有低重要性。

[0116] 然而,在该情况中要指出的是,误差信号^是非零均值高斯,其反而是图7中示出 的用于干净的音频信号的脉冲信号。在一个实施例中,需要假设 61是零均值(理想为高斯) 以便于防止在所识别的FIR中的偏离。

[0117] 如图7所示,通过将迀移时间帧的采集到的声音的能量Xtl馈送到预定义的自适 应滤波器701中并且降低自适应滤波器701的输出与所采集的当前时间帧的声音的能量X t 之间的差异,自适应滤波模型被估计。所采集的当前时间帧的声音的能量Xt可以通过以下 等式被计算:

[0118]

Figure CN106339514AD00141

(31)

[0119] 其中h表示针对第i帧的滤波器系数。

[0120] 前一时间帧的回响能量的估计可以通过等式(32)获得,并且当前时间帧(活动的 音频源停止发出声音)与该估计之间的误差可以通过等式(33)获得:

Figure CN106339514AD00142

[0121] (32)

[0122] (33)

[0123] 滤波器系数随后可以通过以下等式被计算:

[0124] 111=111+06人1,如果父 1〈€^1 (33)

[0125] 其中a和0是两个系数,其在以下进行定义。

[0126] a可以被设定为使得允许有效地估计最大的回响时间常数,并且干净的音频能量 的影响通过偏离和适应被减小。设定a的一个示例值以用于大约1秒的最大回响时间,在 该情况下,对于20ms的更新速率,可以看出该值将表示每个帧中的衰减至少为1. 2dB,或者 在功率域中0. 75的标量值。在20ms针对a的值的范围将从〇. 25 (200ms)至0. 9 (3000ms)。 对于不同的块尺寸,可以合适地计算a的值。应当指出的是,针对a使用较小的值减小了 识别的滤波器系数的偏移以用于更小的回响时间。

[0127] 0可以通过使用自适应滤波器的普通考虑而被设定。虽然可以考虑归一的LMS方 法,要指出的是,当较大的误差值e t支配该适应时(具有较小归一化),通常将获得回响衰 减滤波器的更好的估计。管理归一化和从归一化LMS到直接LMS的变换的方法是已知的, 因而在此省略其描述。

[0128] 根据本文公开的实施例,估计回响能量的能力可以被实现,而不需要将音频信号 分为表示回响源和直接源的成分的特定阶段。例如,不需要像现有的方法那么多的明确的 源分离、波束形成或去卷积处理。

[0129] 图8图示了根据本文描述的示例实施例的用于从活动的音频源估计回响能量成 分的系统800。如所示,该系统800包括:确定单元801,被配置为确定活动的音频源与多个 样本源之间的对应性,样本源中的每一个与自适应滤波模型相关联;自适应滤波模型获得 单元802,被配置为基于经确定的对应性获得针对活动的音频源的自适应滤波模型;以及 回响能量成分估计单元803,被配置为基于该自适应滤波模型从活动的音频源随时间估计 回响能量成分。

[0130] 在示例实施例中,自适应滤波模型获得单元802可以包括样本源创建单元和自适 应滤波模型估计单元。响应于确定活动的音频源不对应任何样本源,该样本源创建单元可 以被配置为创建对应于活动的音频源的样本源;并且自适应滤波模型估计单元可以被配置 为估计与经创建的样本源相关联的自适应滤波模型。该系统还包括自适应滤波模型指派单 元。响应于确定活动的音频源对应于样本源中的一个样本源,自适应滤波模型指派单元被 配置为将与所对应的样本源相关联的自适应模型指派给活动的音频源。

[0131] 在一些示例实施例中,系统800可以包括声音采集单元,其被配置为通过使用至 少一个麦克风从活动的音频源采集声音;以及空间特征提取单元,其被配置为从所采集的 声音提取空间特征,其中确定单元被配置为基于经提取的空间特征确定活动的音频源与多 个样本源之间的对应性。

[0132] 在另一示例实施例中,自适应滤波模型估计单元803可以包括声音变换单元,其 被配置为将所采集的声音变换至频域中的音频信号;以及能量成分提取单元,其被配置为 提取直接能量成分和回响能量成分,其中自适应滤波模型估计单元被配置为通过将直接能 量成分和回响能量成分馈送至预定义的自适应滤波器并且降低自适应滤波器的输出与回 响能量成分之间的差别而估计自适应滤波模型。在进一步的示例实施例中,能量成分提取 单元可以被配置为基于麦克风的布置和在麦克风中的一个或两个麦克风之间的音频信号 的线性关系,提取直接能量成分和回响能量成分。在又一个不例实施例中,至少一个麦克风 包括三个麦克风,并且麦克风的布置包括处于等边三角形拓扑的三个方向性心形麦克风或 者三个全向麦克风。

[0133] 在一些其它的示例实施例中,自适应滤波模型估计单元803可以被配置为,通过 将前一时间帧的所采集的声音的能量馈送至预定义的自适应滤波器并且降低自适应滤波 器的输出与当前时间帧的所采集的声音的能量之间的差异,估计所述自适应滤波模型。在 又一示例实施例中,至少一个麦克风包括用于从活动的音频源采集声音的全向麦克风。

[0134] 在又一另外的示例实施例中,确定单元801可以包括选择单元,其被配置为从样 本源中选择与活动的音频源空间上最接近一个样本源,其中该确定单元被配置为响应于在 所选择的样本源与活动的音频源之间的距离在预定义的阈值以内而确定活动的音频源对 应于所选择的样本源。

[0135] 在一些其它的示例实施例中,空间特征包括角度、扩散性和音量中的至少一个。

[0136] 为了清楚起见,系统800的一些可选部件在图8中并未示出。然而应当理解的是, 如上述参照图1至7所描述的特征均适用于系统800。此外,系统800的部件可以是硬件 模块或软件单元模块。例如,在一些实施例中,系统800可以部分地或完全地以软件/或 固件实现,例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地, 系统800可以部分地或完全地基于硬件实现,例如作为集成电路(1C)、应用专用集成电路 (ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围并不局限于该方面。

[0137] 图9示出了适于实施本文公开的示例实施例的示例计算机系统900的框图。如 图所示,计算机系统900包括中央处理单元(CPU)901,其能够根据存储在只读存储器 (ROM) 902中的程序或从存储区908加载到随机存取存储器(RAM) 903的程序而执行各种处 理。在RAM 903中,当CPU 901执行各种处理等等时,还根据所需存储有所需的数据。CPU 901、R0M 902和RAM 903经由总线904彼此相连。输入/输出(I/O)接口 905也连接到总 线 904。

[0138] 以下部件连接至I/O接口 905 :包括键盘、鼠标等的输入部分906 ;包括诸如阴极 射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907 ;包括硬盘等的存储部分 908 ;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经 由诸如因特网之类的网络执行通信处理。驱动器910也根据需要连接至I/O接口 905。可 拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等,根据需要安装在驱动器910上,使 得从其上读出的计算机程序根据需要被安装入存储部分908。

[0139] 特别地,根据本文公开的示例实施例,上文参考图1至图7描述的过程可以被实现 为计算机软件程序。例如,本文公开的示例实施例包括一种计算机程序产品,其包括有形地 包含在机器可读介质上的计算机程序,该计算机程序包含用于执行方法100的程序代码。 在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从 可拆卸介质911被安装。

[0140] 一般而言,本文公开的各种示例实施例可以在硬件或专用电路、软件、逻辑、或其 任何组合中实施。某些方面可以在硬件中实施,而其它方面可以在可由控制器、微处理器或 其它计算设备执行的固件或软件中实施。当本文公开的示例实施例的各方面被图示或描述 为框图、流程图或使用某些其它图形表示时,将理解此处描述的方框、装置、系统、技术或方 法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其 它计算设备,或其某些组合中实施。

[0141] 而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生 成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本文公开的示例 实施例包括计算机程序产品,其包括有形地实现在机器可读介质上的计算机程序,该计算 机程序包含被配置为执行上文描述方法的程序代码。

[0142] 在本公开的上下文中,机器可读介质可以是包含或存储用于或有关于指令执行系 统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可 读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半 导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有 一根或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存储存储器(RAM)、只读存储器 (ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适 的组合。

[0143] 用于执行本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些 计算机程序代码可以提供给通用计算机、专用计算机或其它可编程的数据处理装置的处理 器,使得程序代码在被计算机或其它可编程的数据处理装置执行的时候,引起在流程图和/ 或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为 独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上或 在一个或多个远程计算机或服务器之间分布而执行。

[0144] 另外,尽管操作以特定顺序被描绘,但这并不应该被理解为要求此类操作以示出 的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下, 多任务或并行处理可能是有利的。同样地,尽管上述讨论包含了某些特定的实施细节,但这 并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实 施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单 个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施 例火灾任意合适的子组合中实施。

[0145] 针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对 相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实 施例范围。此外,前述说明书和附图存在启发的益处,涉及这些实施例的技术领域的技术人 员将会想到此处阐明的其它示例实施例。

Claims (21)

1. 一种从活动的音频源估计回响能量成分的方法,包括: 确定在所述活动的音频源与多个样本源之间的对应性,所述样本源中的每个样本源与 自适应滤波模型相关联; 基于经确定的对应性,获得针对所述活动的音频源的自适应滤波模型;以及 基于所述自适应滤波模型,从所述活动的音频源随时间估计所述回响能量成分。
2. 根据权利要求1所述的方法,其中获得针对活动的音频源的自适应滤波模型包括: 响应于确定所述活动的音频源不对应所述样本源中的任何样本源: 创建对应于所述活动的音频源的样本源;以及 估计与经创建的样本源相关联的所述自适应滤波模型; 响应于确定所述活动的音频源对应于所述样本源中的一个样本源: 将与所对应的样本源相关联的所述自适应模型指派给所述活动的音频源。
3. 根据权利要求2所述的方法,进一步包括: 通过使用至少一个麦克风来从所述活动的音频源采集声音;以及 从所采集的声音提取空间特征, 其中确定所述活动的音频源与所述多个样本源之间的对应性包括基于经提取的空间 特征确定所述对应性。
4. 根据权利要求3所述的方法,其中估计所述自适应滤波模型包括: 将所采集的声音变换至频域中的音频信号; 提取直接能量成分和回响能量成分;以及 通过以下估计所述自适应滤波模型: 将所述直接能量成分和所述回响能量成分馈送至预定义的自适应滤波器中,以及 降低所述自适应滤波器的输出与所述回响能量成分之间的差异。
5. 根据权利要求4所述的方法,其中所述提取包括: 基于所述麦克风的布置和在所述麦克风中的一个或两个麦克风之间的所述音频信号 的线性关系,提取所述直接能量成分和所述回响能量成分。
6. 根据权利要求5所述的方法,其中所述至少一个麦克风包括以下中的一项: 以方向性心形拓扑布置的三个麦克风,或者 以等边三角拓扑布置的三个全向麦克风。
7. 根据权利要求2所述的方法,其中估计所述自适应滤波模型包括: 通过将前一时间帧的所采集的声音的能量馈送至预定义的自适应滤波器来估计所述 自适应滤波模型;以及 降低所述自适应滤波器的输出与当前时间帧的所采集的声音的能量之间的差异。
8. 根据权利要求7所述的方法,其中所述至少一个麦克风包括用于从所述活动的音频 源采集声音的全向麦克风。
9. 根据权利要求1至8中任一项所述的方法,其中确定所述活动的音频源与所述多个 样本源之间的对应性包括: 从所述样本源中选择与所述活动的音频源空间上最接近的一个样本源;以及 响应于所选择的样本源与所述活动的音频源之间的距离在预定义的阈值以内,确定所 述活动的音频源对应于所选择的样本源。
10. 根据权利要求3至8中任一项所述的方法,其中所述空间特征包括角度、扩散性和 音量中的至少一个。
11. 一种用于从活动的音频源估计回响能量成分的系统,包括: 确定单元,被配置为确定在所述活动的音频源与多个样本源之间的对应性,所述样本 源中的每个样本源与自适应滤波模型相关联; 自适应滤波模型获得单元,被配置为基于经确定的对应性,获得针对所述活动的音频 源的自适应滤波模型;以及 回响能量成分估计单元,被配置为基于所述自适应滤波模型,从所述活动的音频源随 时间估计所述回响能量成分。
12. 根据权利要求11所述的系统,其中所述自适应滤波模型获得单元包括: 样本源创建单元和自适应滤波模型估计单元,其中响应于确定所述活动的音频源不对 应所述样本源中的任何样本源: 所述样本源创建单元被配置为创建与所述活动的音频源对应的样本源;并且 所述自适应滤波模型估计单元被配置为估计与经创建的样本源相关联的所述自适应 滤波模型;以及 自适应滤波模型指派单元,其中响应于确定所述活动的音频源对应于所述样本源中的 一个样本源: 所述自适应滤波模型指派单元被配置为将与所对应的样本源相关联的所述自适应模 型指派给所述活动的音频源。
13. 根据权利要求12所述的系统,进一步包括: 声音采集单元,被配置为通过使用至少一个麦克风来从所述活动的音频源采集声音; 以及 空间特征提取单元,被配置为从所采集的声音提取空间特征, 其中所述确定单元被配置为基于经提取的空间特征确定所述活动的音频源与所述多 个样本源之间的对应性。
14. 根据权利要求13所述的系统,其中所述自适应滤波模型估计单元包括: 声音变换单元,被配置为将所采集的声音变换至频域中的音频信号;以及 能量成分提取单元,被配置为提取直接能量成分和所述回响能量成分, 其中所述自适应滤波模型估计单元被配置为:通过将所述直接能量成分和所述回响能 量成分馈送至预定义的自适应滤波器并且降低所述自适应滤波器的输出与所述回响能量 成分之间的差异,来估计所述自适应滤波模型。
15. 根据权利要求14所述的系统,其中所述能量成分提取单元被配置为基于所述麦克 风的布置和在所述麦克风中的一个或两个麦克风之间的所述音频信号的线性关系,提取所 述直接能量成分和所述回响能量成分。
16. 根据权利要求15所述的系统,其中所述至少一个麦克风包括以下中的一项: 以方向性心形拓扑布置的三个麦克风,或者 以等边三角拓扑布置的三个全向麦克风。
17. 根据权利要求12所述的系统,其中所述自适应滤波模型估计单元被配置为,通过 将前一时间帧的所采集的声音的能量馈送至预定义的自适应滤波器并且降低所述自适应 滤波器的输出与当前时间帧的所采集的声音的能量之间的差异,来估计所述自适应滤波模 型。
18. 根据权利要求17所述的系统,其中所述至少一个麦克风包括用于从所述活动的音 频源采集声音的全向麦克风。
19. 根据权利要求11至18中的任一项所述的系统,其中所述确定单元包括: 选择单元,被配置为从所述样本源中选择与所述活动的音频源空间上最接近的一个样 本源, 其中所述确定单元被配置为:响应于所选择的样本源与所述活动的音频源之间的距离 在预定义的阈值以内,确定所述活动的音频源对应于所选择的样本源。
20. 根据权利要求13至18中任一项所述的系统,其中所述空间特征包括角度、扩散性 和音量中的至少一个。
21. -种用于从活动的音频源估计回响能量成分的计算机程序产品,所述计算机程序 产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,所述计算机可 执行指令在被执行时使得机器执行根据权利要求1至10中任一项所述的方法的步骤。
CN201510391261.5A 2015-07-06 2015-07-06 从活动的音频源估计回响能量成分 CN106339514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510391261.5A CN106339514A (zh) 2015-07-06 2015-07-06 从活动的音频源估计回响能量成分

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201510391261.5A CN106339514A (zh) 2015-07-06 2015-07-06 从活动的音频源估计回响能量成分
EP16741755.9A EP3320311B1 (en) 2015-07-06 2016-07-06 Estimation of reverberant energy component from active audio source
PCT/US2016/041187 WO2017007848A1 (en) 2015-07-06 2016-07-06 Estimation of reverberant energy component from active audio source
US15/580,242 US10393571B2 (en) 2015-07-06 2016-07-06 Estimation of reverberant energy component from active audio source

Publications (1)

Publication Number Publication Date
CN106339514A true CN106339514A (zh) 2017-01-18

Family

ID=57826213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510391261.5A CN106339514A (zh) 2015-07-06 2015-07-06 从活动的音频源估计回响能量成分

Country Status (1)

Country Link
CN (1) CN106339514A (zh)

Similar Documents

Publication Publication Date Title
Scheibler et al. Pyroomacoustics: A python package for audio room simulation and array processing algorithms
Xiao et al. A learning-based approach to direction of arrival estimation in noisy and reverberant environments
JP6335985B2 (ja) マルチセンサ音源定位
JP2017102488A (ja) 源信号分離のためのシステム及び方法
Jarrett et al. Theory and applications of spherical microphone array processing
Cauchi et al. Combination of MVDR beamforming and single-channel spectral processing for enhancing noisy and reverberant speech
Woodruff et al. Binaural localization of multiple sources in reverberant and noisy environments
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
Kumatani et al. Microphone array processing for distant speech recognition: From close-talking microphones to far-field sensors
Aarabi The fusion of distributed microphone arrays for sound localization
Campbell et al. A matlab simulation of" shoebox" room acoustics for use in research and teaching
Berkhout et al. A new method to acquire impulse responses in concert halls
US7039200B2 (en) System and process for time delay estimation in the presence of correlated noise and reverberation
TWI530201B (zh) Sound extraction technology for extracting geometric information from arrival direction estimates
Aarabi et al. Phase-based dual-microphone robust speech enhancement
JP4157581B2 (ja) 音声認識装置
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
Wen et al. Blind estimation of reverberation time based on the distribution of signal decay rates
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
KR101905234B1 (ko) 풍 잡음 검출을 위한 방법 및 장치
US8271277B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
Mungamuru et al. Enhanced sound localization
Schwartz et al. Multi-microphone speech dereverberation and noise reduction using relative early transfer functions
JP5608678B2 (ja) パーティクルフィルタリングを利用した音源位置の推定
CN105068048B (zh) 基于空间稀疏性的分布式麦克风阵列声源定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination