CN110140359B

CN110140359B - 使用波束形成的音频捕获

Info

Publication number: CN110140359B
Application number: CN201780082116.6A
Authority: CN
Inventors: C·P·扬瑟; P·克基基安
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-01-03
Filing date: 2017-12-28
Publication date: 2021-10-29
Anticipated expiration: 2037-12-28
Also published as: JP7041157B6; EP3566462A1; RU2758192C2; BR112019013548A2; JP7041157B2; US10887691B2; CN110140359A; US20190342660A1; EP3566462B1; WO2018127450A1; JP2020503788A; RU2019124534A; RU2019124534A3

Abstract

一种音频捕获装置包括麦克风阵列(301)和波束形成器(303)，所述波束形成器被布置为生成波束形成的音频输出信号和噪声参考信号。第一和第二变换器(309、311)分别根据波束形成的音频输出信号和噪声参考信号的频率变换来生成第一和第二频域信号。差异处理器(313)生成时间频率瓦片差异量度，其针对给定频率指示第一频域信号的时间频率瓦片值的范数(幅值)的单调函数与针对第一频率的所述第二频域信号的时间频率瓦片值的范数的单调函数之间的差异。估计器(315)响应于针对频率阈值以上的频率的时间频率瓦片差异量度的组合差异值，生成指示音频输出信号是否包括点音频源的估计。

Description

使用波束形成的音频捕获

技术领域

本发明涉及使用波束形成的音频捕获，并且特别地但非排他地涉及使用波束形成的语音捕获。

背景技术

在过去几十年中，捕获音频，尤其是语音，已变得越来越重要。实际上，捕获语音对于包括电信、电话会议、游戏、音频用户接口等在内的各种应用已变得越来越重要。然而，在许多场景和应用中的问题是所需的语音源通常不是环境中的唯一音频源。相反，在典型的音频环境中，存在正在由麦克风捕获许多其他音频/噪声源。许多语音捕获应用程序面临的一个关键问题是如何在嘈杂的环境中最好地提取语音。为了解决这个问题，已经提出了许多不同的噪声抑制方法。

实际上，例如免提语音通信系统中的研究是几十年来备受关注的话题。第一个商业系统专注于专业(视频)会议系统，其具有低背景噪音和短混响时间。发现用于识别和提取期望音频源(例如期望的发言者)的特别有利的方法是基于来自麦克风阵列的信号的波束形成的使用。最初，麦克风阵列通常与聚焦固定波束一起使用，但后来自适应波束的使用变得更加流行。

在20世纪90年代后期，手机的免提系统开始引入。这些旨在用于许多不同的环境，包括混响房间和(较)高背景噪音水平。这种音频环境提供了显著更困难的挑战，并且特别是可能使形成的波束的调整变得复杂或劣化。

最初，针对这样的环境的音频捕获研究主要关注回声消除，并且后来关注噪声抑制。基于波束形成的音频捕获系统的示例在图1中示出。在该示例中，多个麦克风101的阵列被耦合到波束形成器103，波束形成器103生成音频源信号z(n)和一个或多个噪声参考信号x(n)。

在一些实施例中，麦克风阵列101可以仅包括两个麦克风，但通常包括更高的数量。

波束形成器103可以具体地是自适应波束形成器，其中可以使用合适的自适应算法将一个波束指向语音源。

例如，US 7146012和US 7602926公开了自适应波束形成器的示例，其关注于语音但是还提供包含(几乎)无语音的参考信号。

波束形成器通过在前向匹配滤波器中对接收信号进行滤波并将经滤波的输出相加而通过将麦克风信号的所需部分相干地相加来创建增强的输出信号z(n)。此外，输出信号在后向自适应滤波器中被滤波，所述后向自适应滤波器具有针对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异，并且滤波器的系数适于使误差信号最小化，从而造成音频波束朝向主导信号被操纵。生成的误差信号x(n)可以被认为是噪声参考信号，其特别适合于对增强的输出信号z(n)执行额外的噪声降低。

主信号z(n)和参考信号x(n)通常都被噪声污染。在两个信号中的噪声是相干的情况下(例如，当存在干扰点噪声源时)，可以使用自适应滤波器105来减少相干噪声。

为此目的，噪声参考信号x(n)被耦合到自适应滤波器105的输入，其中从音频源信号z(n)中减去输出以生成补偿信号r(n)。自适应滤波器105适于最小化补偿信号r(n)的功率，通常在期望音频源不活动时(例如，当没有语音时)并且这导致对相干噪声的抑制。

经补偿的信号被馈送到后处理器107，后处理器107基于噪声参考信号x(n)对补偿信号r(n)执行降噪。具体地，后处理器107使用短时傅立叶变换将补偿信号r(n)和噪声参考信号x(n)变换到频率域。然后，对于每个频率分箱，通过减去X(ω)的幅值谱的缩放版本来修改R(ω)的幅值。将得到的复光谱被变换回时域，以产生噪声已被抑制的输出信号q(n)。这种谱减法技术首先在下文中描述：S.F.Boll,“Suppression of Acoustic Noise inSpeech using Spectral Subtraction,”IEEE Trans.Acoustics,Speech and SignalProcessing，第27卷，第113–120页，1979年4月。

在WO2015139938A中描述了基于各个时间频率瓦片(tile)中的音频源信号和噪声参考信号的相对能量的噪声抑制的具体示例。

在许多场景和应用中，期望能够检测由波束形成器捕获的信号中的点音频源的存在。例如，在语音控制系统中，可能希望仅在实际捕获发言者的时间期间尝试检测语音命令。作为另一示例，可能期望通过在不存在语音的时间期间测量捕获的信号来确定噪声估计。

因此，针对波束形成器的可靠的点音频源检测器将是非常期望的。过去已经提出了各种点音频源检测算法，但是这些算法倾向于针对点音频源靠近麦克风阵列并且信噪比高的情况而开发。特别是，它们倾向于指向直接路径(可能还有早期反射)相对于后期反射、混响尾部以及实际来自其他源(包括漫反射背景噪声)的噪声占主导的场景。

因此，这种点音频源检测方法在不满足这些假设的环境中往往是次优的，并且实际上倾向于为许多实际应用提供次优性能。

实际上，一般音频捕获，特别是诸如语音增强(波束形成，去混响，噪声抑制)的过程，由于来自源的直接场的能量与反射语音和声学背景噪声的能量相比是小的，对于混响半径之外的源的难以令人满意地实现。

在许多音频捕获系统中，可以应用独立地能够适配音频源的多个波束形成器。例如，为了在音频环境中跟踪两个不同的发言者，音频捕获装置可以包括两个独立的自适应波束形成器。

实际上，尽管图1的系统是在许多场景中提供了非常有效的操作和有利的性能，但是其并不是在所有场景中都是最佳的。实际上，尽管许多传统系统，包括图1的示例，当所需音频源/发言者在麦克风阵列的混响半径内时，即对于所需音频源的直接能量(优选地显著地)强于所需音频源的反射能量的应用，提供非常好的性能，当不是这种情况时，其倾向于提供较不理想的结果。在典型的环境中，已经发现发言者通常应该在麦克风阵列的1-1.5米范围内。

然而，强烈期望基于音频的免提解决方案、应用和系统，其中用户可能距离麦克风阵列更远。例如，这对于许多通信和许多语音控制系统和应用都是期望的。提供语音增强的系统包括针对这种情况的去混响和噪声抑制，在该领域中称为超级免提系统。

更详细地说，当处理额外的漫射噪声和混响半径之外的期望的发言者时，可能会出现以下问题：

·波束形成器可能经常具有在期望语音的回声和漫射背景噪声之间进行区分方面存在问题，从而导致语音失真。

·自适应波束形成器可以朝向期望的发言者更慢地收敛。在自适应波束尚未收敛的时间期间，参考信号中将存在语音泄漏，导致在该参考信号用于非静态噪声抑制和消除的情况下的语音失真。当有更多所需的源前后交谈时，问题就会增加。

处理较慢收敛的自适应滤波器(由于背景噪声)的一种解决方案是补充这一点，其中若干固定波束瞄准不同方向，如图2中所示。但是，这种方法特别针对以下场景开发：在混响半径内存在期望的音频源。其对于混响半径之外的音频源可能效率较低，并且在这种情况下可能经常导致非鲁棒的解决方案，尤其是在还存在声学漫射背景噪声的情况下。

使用多个互通波束形成器来改善噪声和混响环境中非主导源的性能可以改善许多场景和系统中的性能。然而，在许多系统中，波束形成器之间的互通涉及检测点音频源是否存在于各个波束中。如前所述，这在许多实际系统中是一个非常具有挑战性的问题。

例如，典型的现有技术检测基于各个波束形成器的输出信号的功率比较。然而，对于在混响半径之外和/或信噪比太低的源，这种方法通常是失败的。

具体地，对于多波束形成系统，所提出的方法是实现一种控制器，该控制器使用各个波束的输出信号的功率的估计来选择要使用的一个波束。具体地，选择具有最大输出功率的波束。

如果期望的发言者在麦克风阵列的混响半径内，那么不同波束(针对不同方向)的输出功率的差异将趋于是大的，并且因此可以实现鲁棒的检测器，其也将活跃发言者的情况与仅噪声的情况区分开。例如，可以将最大功率与所有波束形成器输出的平均功率进行比较，并且如果该差值足够高，则可以认为语音被检测到。

但是，如果所需的发言者距离较远，特别是在混响半径之外，则会出现问题。

例如，由于(后期)反射的能量变得占主导地位，所有波束形成器输出的功率将开始彼此接近，并且最大功率和平均功率的比率接近于1。这将使基于这样的参数的检测不太可靠并且实际上在许多情况下使其变得不切实际。

而且，由于期望的发言者远离阵列，信噪比(SNR)降低，这将进一步加剧上述问题。对于漫射噪声，麦克风上的功率的预期值将是相等的。然而，瞬间地，会存在差异。这使得难以实现鲁棒且快速的语音估计器。

因此，改进的音频捕获方法将是有利的，并且特别地，提供改进的点音频源检测/估计的方法将是有利的。特别是，一种允许降低复杂性、增加灵活性、便于实现、降低成本、改进音频捕获、改进在混响半径之外捕获音频的适应性、降低噪声灵敏度、改进语音捕获、改进点音频源检测/估计可靠性、改进控制和/或改进性能的方法将是有利的。

发明内容

因此，本发明寻求单独地或以任何组合来优选地减弱、减轻或消除一个或多个上述缺点。

根据本发明的一个方面，提供了一种音频捕获装置，包括：麦克风阵列；至少第一波束形成器，其被布置为生成波束形成的音频输出信号和至少一个噪声参考信号；第一变换器，其用于根据所述波束形成的音频输出信号的频率变换来生成第一频域信号，所述第一频域信号由时间频率瓦片值表示；第二变换器，用于根据所述至少一个噪声参考信号的频率变换来生成第二频域信号，所述第二频域信号由时间频率瓦片值表示；差异处理器，其被布置为生成时间频率瓦片差异量度，针对第一频率的时间频率瓦片差异量度指示所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异；点音频源估计器，其用于生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计，所述点音频源估计器被布置为响应于针对高于频率阈值的频率的针对时间频率瓦片差异量度的组合差异值而生成所述点音频源估计。

本发明可以在许多场景和应用中提供改进的点音频源估计/检测。特别是，在以下场景中通常可以提供改进的估计：波束形成器进行适应的音频源的直接路径不是主导的。通常可以实现包括高度漫射噪声、混响信号和/或后期反射的场景的改进的性能。通常可以实现针对在更远距离处、特别是在混响半径之外的点音频源的改进的检测。

在许多实施例中，音频捕获装置可以包括输出单元，用于响应于波束形成的音频输出信号和点音频源估计而生成音频输出信号。例如，输出单元可以包括静音功能，当没有检测到点音频源时，该静音功能使输出静音。

波束形成器可以是自适应波束形成器，其包括自适应功能，用于调整波束形成滤波器的自适应脉冲响应(从而调整麦克风阵列的有效方向性)。

波束形成器可以是滤波及组合波束形成器。滤波及组合波束形成器可以包括用于每个麦克风的波束形成滤波器以及用于组合波束形成滤波器的输出以生成波束形成的音频输出信号的组合器。滤波及组合波束形成器可以具体地包括具有多个系数的有限响应滤波器(FIR)形式的波束形成滤波器。

所述第一和第二单调函数通常可以是单调递增函数，但在一些实施例中可以都是单调递减函数。

范数通常可以是L1或L2范数，即具体地，范数可以对应于时间频率瓦片值的幅值或功率量度。

时间频率瓦片可以具体地对应于一个时间片段/帧中的频率变换的一个二进制分箱。具体地，第一和第二变换器可以使用块处理来变换第一和第二信号的相继的片段。时间频率瓦片可以对应于一个片段/帧中的一组变换分箱(通常为一个)。

所述至少一个波束形成器可以包括两个波束形成器，其中，一个生成波束形成的音频输出信号，另一个生成噪声参考信号。所述两个波束形成器可以被耦合到麦克风阵列的不同且可能不相交的麦克风组。实际上，在一些实施例中，所述麦克风阵列可包括被耦合到不同波束形成器的两个单独的子阵列。所述子阵列(以及可能的波束形成器)可以处于不同的位置，可能彼此远离。具体地，所述子阵列(以及可能的波束形成器)可以在不同的设备中。

在本发明的一些实施例中，所述阵列中的仅有所述多个麦克风的子集可以被耦合到波束形成器。

根据本发明的任选特征，点音频源估计器被布置为响应于组合差异值超过阈值而检测波束形成的音频输出中的点音频源的存在。

该方法通常可以为波束形成器提供改进的点音频源检测，尤其是用于检测混响半径之外的点音频源，在混响半径之外直接场不是主导的。

根据本发明的任选特征，所述频率阈值不低于500Hz。

这可以进一步改善性能，并且例如在许多实施例和场景中可以确保在波束形成的音频输出信号值和用于确定点音频源估计的噪声参考信号值之间实现充分或改进的去相关。在一些实施例中，频率阈值有利地不低于1kHz、1.5kHz、2kHz、3kHz或甚至4kHz。

根据本发明的任选特征，所述差异处理器被布置为生成噪声相干性估计，所述噪声相干性估计指示波束形成的音频输出信号的幅值与至少一个噪声参考信号的幅值之间的相关性。所述第一单调函数和所述第二单调函数中的至少一个取决于噪声相干估计。

这可以进一步改善性能，并且具体地在许多实施例中可以特别地为具有较小麦克风间距离的麦克风阵列提供改进的性能。

当没有点音频源有效时(例如，在没有语音的时间段期间，即在语音源不活动时)，噪声相干性估计可以具体地是对波束形成的音频输出信号的幅值与噪声参考信号的幅值之间的相关性的估计。在一些实施例中，噪声相干估计可以基于波束形成的音频输出信号和噪声参考信号、和/或第一和第二频域信号来确定。在一些实施例中，可以基于单独的校准或测量过程来生成噪声相干性估计。

根据本发明的任选特征，所述差异处理器被布置为响应于噪声相干估计，相对于针对第一频率的第二频域信号的时间频率瓦片值的范数缩放针对第一频率的第一频域信号的时间频率瓦片值的范数。

这可以进一步改善性能，并且可以具体地在许多实施例中提供点音频源估计的改进的准确度。它还可以允许低复杂度的实现方式。

根据本发明的任选特征，所述差异处理器被布置为将频率ω_l针对时间t_k的时间频率瓦片差巨异量度生成为基本上如下：

d＝|Z(t_k,ω_l)|-γC(t_k,ω_l)|X(t_k,ω_l)|

其中，Z(t_k,ω_l)是针对波束形成的音频输出信号在时间t_K在频率ω_l的时间频率瓦片值；X(t_k,ω_l)为所述至少一个噪声参考信号在时间t_k在频率ω_l的时间频率瓦片值；C(t_k,ω_l)是在时间t_k在频率ω_l的噪声相干估计；并且γ是设计参数。

这可以在许多场景和实施例中提供特别有利的点音频源估计。

根据本发明的任选特征，所述差异处理器被布置为对波束形成的音频输出信号的时间频率瓦片值和至少一个噪声参考信号的时间频率瓦片值中的至少一个进行滤波。

这可以提供改进的点音频源估计。滤波可以是低通滤波，例如平均。

根据本发明的任选特征，所述滤波在频率方向和时间方向两者上进行。

这可以提供改进的点音频源估计。所述差异处理器可以被布置为在多个时间频率瓦片上对时间频率瓦片值进行滤波，所述过滤包括在时间和频率两者上不同的时间频率瓦片。

根据本发明的任选的特征，所述音频捕获装置包括多个波束形成器，所述多个波束形成器包括所述波束形成器；并且所述点音频源估计器用于针对所述多个波束形成器中的每个波束形成器生成点音频源估计；并且所述音频捕获装置还包括适配器，用于响应于点音频源估计来对所述多个波束形成器中的至少一个进行调整。

这可以进一步改善性能，并且可以具体地在许多实施例中为利用多个波束形成器的系统提供改进的调整性能。特别地，它可以允许系统的整体性能提供对当前音频场景的准确和可靠的调整，同时提供对此的变化的快速适应(例如，当出现新的音频源时)。

根据本发明的任选的特征，所述多个波束形成器包括第一波束形成器，所述第一波束形成器被布置为生成波束形成的音频输出信号和至少一个噪声参考信号；以及多个约束波束形成器，其被耦合到麦克风阵列，并且每个被配置为生成约束波束形成的音频输出和至少一个约束噪声参考信号；所述音频捕获装置还包括：波束差异处理器，其用于确定所述多个约束波束形成器中的至少一个的差异量度，所述差异量度指示由所述第一波束形成器和所述多个约束波束形成器中的至少一个形成的波束之间的差异；其中，所述适配器被布置为利用约束来调整约束波束形状参数，所述约束是约束波束形状参数仅针对所述多个约束波束形成器中的已经确定满足相似性准则的差异量度的约束波束形成器进行调整。

在许多实施例中，本发明可以提供改进的音频捕获。特别地，通常可以实现针对混响环境和/或音频源的改进的性能。该方法尤其可以在许多具有挑战性的音频环境中提供改进的语音捕获。在许多实施例中，所述方法可以提供可靠和精确的波束形成，同时提供对新的期望音频源的快速调整。该方法可以提供对例如噪声、混响和反射具有降低的灵敏度的音频捕获装置。特别是，通常可以实现在混响半径之外的音频源的改进捕获。

在一些实施例中，来自音频捕获装置的输出音频信号可以是响应于第一波束形成的音频输出和/或约束波束形成的音频输出而生成的。在一些实施例中，所述输出音频信号可以被生成为约束波束形成的音频输出的组合，并且具体地，可以使用对例如单个约束波束形成的音频输出进行选择的选择组合。

差异量度可以反映第一波束形成器与生成差异量度的约束波束形成器的形成波束之间的差异，例如测量为波束方向之间的差异。在许多实施例中，差异量度可以指示来自第一波束形成器和约束波束形成器的波束形成的音频输出之间的差异。在一些实施例中，差异量度可以指示第一波束形成器和约束波束形成器的波束形成滤波器之间的差异。差异量度可以是距离量度，例如被确定为第一波束形成器与约束波束形成器的波束形成滤波器的系数的矢量之间的距离的量度。

应当理解，相似性度量可以等同于差异量度，因为通过提供与两个特征之间的相似性有关的信息的相似性量度固有地也提供与这些之间的差异相关的信息，并且反之亦然。

相似性准则可以例如包括差异量度指示差异低于给定度量的要求，例如，可能需要具有用于增加差异的增加值的差异量度低于阈值。

波束形成器的调整可以通过调整波束形成器的波束形成滤波器的滤波器参数来实现，例如通过调整滤波器系数。调整可以寻求优化(最大化或最小化)给定的调整参数，例如，当检测到音频源时最大化输出信号电平或者仅在检测到噪声时使其最小化。调整可以寻求修改波束形成滤波器以优化测量参数。

根据本发明的任选特征，所述适配器被布置为仅对约束波束形成器调整约束波束形成参数，其中，点音频源估计指示约束波束形成的音频输出中存在点音频源。

这可以进一步改善性能，并且可以例如提供更鲁棒的性能，从而导致改进的音频捕获。

根据本发明的任选特征，所述适配器被布置为仅针对如下的约束波束形成器的约束波束形成参数进行适配：针对所述约束波束形成器，点音频源估计指示波束形成的音频输出包括点音频源的最高概率。

这可以在许多场景中提供改进的性能。

根据本发明的一个方面，提供了一种使用麦克风阵列捕获音频的操作方法，所述方法包括：至少第一波束形成器生成波束形成的音频输出信号和至少一个噪声参考信号；第一变换器根据波束形成的音频输出信号的频率变换来生成第一频域信号，所述第一频域信号由时间频率瓦片值表示；第二变换器根据所述至少一个噪声参考信号的频率变换来生成第二频域信号，所述第二频域信号由时间频率瓦片值表示；差异处理器生成时间频率瓦片差异量度，针对第一频率的时间频率瓦片差异量度指示针对所述第一时间频率的所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异；点音频源估计器生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计，所述点音频源估计器被布置为响应于针对高于频率阈值的频率的针对时间频率瓦片差异量度的组合差异值而生成点音频源估计。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。

附图说明

仅以范例的方式参考附图描述本发明的实施例，其中，

图1图示了波束形成的音频捕获系统的元件的示例；

图2图示了由音频捕获系统形成的多个波束的示例；

图3图示了根据本发明一些实施例的音频捕获装置的元件的示例；

图4图示了滤波及加和波束形成器的元件的示例；

图5图示了频域变换器的示例；

图6图示了根据本发明一些实施例的音频捕获装置的差异处理器元件的示例；

图7图示了根据本发明一些实施例的音频捕获装置的元件的示例；

图8图示了根据本发明一些实施例的音频捕获装置的元件的示例；

图9图示了根据本发明的一些实施例的适配音频捕获设备的约束波束形成器的方法的流程图的示例。

具体实施方式

以下描述集中于适用于基于波束形成的语音捕获音频系统的本发明的实施例，但是应当理解，所述方法适用于用于音频捕获的许多其他系统和场景。

图3图示了根据本发明一些实施例的音频捕获装置的一些元件的示例。

所述音频捕获装置包括麦克风阵列301，麦克风阵列301包括多个麦克风，所述麦克风被布置为捕获环境中的音频。

所述麦克风阵列301被耦合到波束形成器303(通常直接或经由回声消除器、放大器、数模转换器等，如本领域技术人员所熟知的)。

波束形成器303被布置为组合来自麦克风阵列301的信号，使得生成麦克风阵列301的有效定向音频灵敏度。因此，波束形成器303生成输出信号，称为波束形成的音频输出或波束形成的音频输出信号，其对应于环境中的音频的选择性捕获。波束形成器303是自适应波束形成器，并且可以通过设置波束形成器303的波束形成操作的参数(称为波束形成参数)来控制方向性，并且具体地通过设置波束形成滤波器的滤波器参数(通常是系数)来控制方向性。

因此，波束形成器303是自适应波束形成器，其中可以通过调整波束形成操作的参数来控制方向性。

波束形成器303具体地是滤波及组合(或者具体地，在大多数实施例中是滤波及加和)波束形成器。波束形成滤波器可以被应用到每个麦克风信号，并且经滤波的输出可以被组合，通常通过简单地相加在一起。

图4图示了基于仅包括两个麦克风401的麦克风阵列的滤波及加和波束形成器的简化示例。在该示例中，每个麦克风耦合到波束形成滤波器403、405，其输出在加法器407中求和以生成波束形成的音频输出信号。波束形成滤波器403、405具有脉冲响应f1和f2，其适于在给定方向上形成波束。应当理解，通常麦克风阵列将包括两个以上的麦克风，并且图通过还包括用于每个麦克风的波束形成滤波器，图4的示例很容易扩展到更多麦克风。

波束形成器303可以包括用于波束形成的这种滤波及加和架构(例如，在US7146012和US 7602926的波束形成器中)。应当理解，在许多实施例中，麦克风阵列301可以包括多于两个麦克风。此外，应当理解，波束形成器303包括用于如前所述地调整波束形成滤波器的功能。此外，在特定示例中，波束形成器303不仅生成波束形成的音频输出信号，还生成噪声参考信号。

在大多数实施例中，每个波束形成滤波器具有时域脉冲响应，其不是简单的狄拉克脉冲(对应于简单的延迟，并且因此对应于频域中的增益和相位偏移)，而是具有通常在不小于2、5、10或甚至30毫秒的时间区间上延伸的脉冲响应。

脉冲响应通常可以通过波束形成滤波器是具有多个系数的FIR(有限脉冲响应)滤波器来实现。在这样的实施例中，波束形成器303可以通过调整滤波器系数来调整波束形成。在许多实施例中，FIR滤波器可以具有对应于固定时间偏移(通常是采样时间偏移)的系数，其中通过调整系数值来实现调整。在其他实施例中，波束形成滤波器通常可以具有显著更少的系数(例如，仅两个或三个)，但是这些(也)的定时是可调整的。

具有扩展的脉冲响应而不是简单的可变延迟(或简单的频域增益/相位调整)的波束形成滤波器的特别的优点在于它允许波束形成器303不仅仅针对最强的、通常是直接的信号分量进行调整。相反，它允许波束形成器303进行调整以包括通常对应于反射的另外的信号路径。因此，所述方法允许在大多数真实环境中改进的性能，并且特别地允许改善反射和/或混响环境和/或针对远离麦克风阵列301的音频源的性能。

应当理解，可以在不同的实施例中使用不同的调整算法，并且技术人员将知道各种优化参数。例如，适配器303可以调整波束形状参数以最大化波束形成器303的输出信号值。作为具体示例，考虑波束形成器，其中利用前向匹配滤波器对接收的麦克风信号进行滤波，并且添加经滤波的输出。输出信号在后向自适应滤波器中被滤波，所述后向自适应滤波器具有对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异，并且滤波器的系数适于使误差信号最小化，从而得到最大输出功率。这可以还固有地根据误差信号生成噪声参考信号。这种方法的进一步细节可以在US 7146012和US 7602926中找到。

应注意，诸如US 7146012和US 7602926的方法基于调整是基于音频源信号z(n)和来自波束形成器的噪声参考信号x(n)，并且应该理解，相同的方法可以针对图3的波束形成器使用。

实际上，波束形成器303可以具体地是对应于图1中所示的并且在US 7146012和US7602926中公开的波束形成器的波束形成器。

波束形成器303被布置为生成波束形成的音频输出信号和噪声参考信号。

波束形成器303可以被布置为调整波束形成以捕获期望的音频源并且在波束形成的音频输出信号中表示该波束形成。它还可以生成噪声参考信号以提供剩余捕获音频的估计，即，它指示在没有期望音频源的情况下将捕获的噪声。

在如在US 7146012和US 7602926中公开的波束形成器303是波束形成器的示例中，可以如先前所描述的那样生成噪声参考，例如通过直接使用误差信号。然而，应当理解，在其他实施例中可以使用其他方法。例如，在一些实施例中，噪声参考可以被生成为来自(例如，全方向)麦克风的麦克风信号减去所生成的波束形成的音频输出信号，或者甚至是麦克风信号本身，以防该噪声参考麦克风远离其他麦克风并不包含所需的语音。作为另一示例，波束形成器303可以被布置为生成在生成波束形成的音频输出信号的波束的最大值的方向上具有零的第二波束，并且噪声参考可以被生成为由该互补的波束捕获的音频。

在一些实施例中，波束形成器303可包括两个子波束形成器，其可单独地生成不同的波束。在这样的示例中，子波束形成器中的一个可以被布置为生成波束形成的音频输出信号，而另一个子波束形成器可以被布置为生成噪声参考信号。例如，第一子波束形成器可以被布置为使输出信号最大化，从而导致主导源被捕获，而第二子波束形成器可以被布置为最小化输出水平，从而通常导致朝向主导源生成空值。因此，后一种波束形成的信号可以用作噪声参考。

在一些实施例中，两个子波束形成器可被以耦合并使用麦克风阵列301的不同麦克风。因此，在一些实施例中，麦克风阵列301可以由两个(或更多个)麦克风子阵列形成，每个麦克风子阵列被耦合到不同的子波束形成器并且被布置为单独地生成波束。实际上，在一些实施例中，子阵列甚至可以彼此远离地定位并且可以从不同位置捕获音频环境。因此，可以在一个位置处从麦克风子阵列生成波束形成的音频输出信号，而在不同的位置(并且通常在不同的设备中)从麦克风子阵列生成噪声参考信号。

在一些实施例中，诸如图1的噪声抑制之类的后处理可以通过输出处理器305将图1所示的输出处理器305应用于音频捕获装置的输出。这可以改善例如语音通信的性能。在这样的后处理中，可以包括非线性操作，尽管例如对于某些语音识别器而言可以更有利于将处理限制为仅包括线性处理。

在许多实施例中，可能需要估计点音频源是否存在于由波束形成器303生成的波束形成的音频输出中，即，可能需要估计波束形成器303是否已针对音频源进行调整以使得波束形成的音频输出信号包括点音频源。

声学中的音频点源可以被认为是源自空间中的点的声音源。在许多应用中，期望检测并捕获点音频源，例如人类发言者。在一些场景中，这样的点音频源可以是声学环境中的主导音频源，但是在其他实施例中，情况可能不是这样，即，期望的点音频源可以例如被漫射背景噪声主导。

点音频源具有以下特性：直接路径声音将倾向于以强相关性到达不同麦克风，并且实际上通常将以与路径长度的差异相对应的延迟(频域线性相位变化)捕获相同的信号。因此，当考虑由麦克风捕获的信号之间的相关性时，高相关性指示主导点源，而低相关性指示从许多不相关源接收捕获的音频。实际上，音频环境中的点音频源可以被认为是直接信号分量导致麦克风信号的高相关性的点音频源，并且实际上可以认为点音频源对应于空间相关的音频源。

然而，尽管可以通过确定麦克风信号的相关性来寻求检测点音频源的存在，但这往往是不准确的并且不能提供最佳性能。例如，如果点音频源(并且实际上直接路径分量)不是主导的，则检测将趋于不准确。因此，所述方法不适用于例如远离麦克风阵列(特别是在混响半径之外)的点音频源或者存在高水平的例如漫射噪声的点音频源。而且，这种方法仅仅指示是否存在点音频源但不反映波束形成器是否已适应该点音频源。

图3的音频捕获装置包括点音频源检测器307，点音频源检测器307被设置为生成指示波束形成的音频输出信号是否包括点音频源的点音频源估计。点音频源检测器307不是确定麦克风信号的相关性，而是基于波束形成的音频输出信号和波束形成器303生成的噪声参考信号来确定点音频源估计。

点音频源检测器307包括第一变换器309，其被布置为通过对波束形成的音频输出信号应用频率变换来生成第一频域信号。具体地，波束形成的音频输出信号被分成时间段/间隔。每个时间段/区间包括一组样本，其例如通过FFT变换为一组频域样本。因此，第一频域信号由频域样本表示，其中每个频域样本对应于特定时间区间(对应的处理帧)和特定频率间隔。在本领域中，每个这样的频率间隔和时间区间通常称为时间频率瓦片。因此，第一频域信号由针对多个时间频率瓦片中的每个的值表示，即由时间频率瓦片值表示。

点音频源检测器307还包括第二变换器311，其接收噪声参考信号。第二变换器311被布置为通过对噪声参考信号应用频率变换来生成第二频域信号。具体地，噪声参考信号被分成时间段/区间。每个时间段/区间包括一组样本，其例如通过FFT变换为一组频域样本。因此，第二频域信号由针对多个时间频率瓦片中的每个的值表示，即由时间频率瓦片值表示。

图5示出了第一和第二变换单元309、311的可能实现方式的功能元件的具体示例。在该示例中，串行到并行转换器生成2B样本的交叠块(帧)，然后通过快速傅里叶变换(FFT)进行Hanning窗口化并转换到频域。

波束形成的音频输出信号和噪声参考信号在下面分别称为z(n)和x(n)，并且第一和第二频域信号称为向量Z ^(M)(t_k)和X ^(M)(t_k)(每个向量包括针对给定处理/变换时间段/帧的所有M个频率瓦片值)。

在使用时，假设z(n)包括噪声和语音，而假设x(n)理想地仅包括噪声。此外，假设z(n)的噪声分量和x(n)是不相关的(假设分量在时间上是不相关的。然而，假设通常是平均幅度之间的关系，并且该关系可以由相干项表示，如稍后将描述的)。这样的假设在一些场景中倾向于是有效的；并且具体在许多实施例中，波束形成器303可以如图1中的示例中那样，包括自适应滤波器，其衰减或去除与噪声参考信号相关的波束形成的音频输出信号中的噪声。

在变换到频域之后，假设时间频率值的实部和虚部是高斯分布的。该假设通常是准确的，例如对于具有源自漫射声场的噪声、传感器噪声以及许多实际场景中经历的许多其他噪声源的场景。

第一变换器309和第二变换器311耦合到差异处理器313，所述差异处理器805被布置为针对各个瓦片频率生成时间频率瓦片差异量度。具体地，它可以针对由FFT生成的每个频率分箱的当前帧生成差异量度。差异量度是根据波束形成的音频输出信号和噪声参考信号(即第一和第二频域信号)的相应时间频率瓦片值生成的。

具体地，生成给定时间频率瓦片的差异量度以反映第一频域信号(即波束形成的音频输出信号)的时间频率瓦片值的范数的第一单调函数与第二频域信号(噪声参考信号)的时间频率瓦片值的范数的第二单调函数之间的差异。第一和第二单调函数可以相同或者可以不同。

范数通常可以是L1范数或L2范数。在大多数实施例中，这可以将时间频率瓦片差异量度确定为反映第一频域信号值的值的幅值或功率的单调函数与第二频域信号值的幅值或功率的单调函数之间的差异的差异指示。

单调函数通常可以是单调递增的，但在一些实施例中可以都是单调递减的。

应当理解，可以在不同的实施例中使用不同的差异量度。例如，在一些实施例中，可以通过将第一和第二函数的结果进行相减来简单地确定差异量度。在其他实施例中，它们可以进行相除以生成指示差异等的比率。

因此，所述差异处理器313针对每个时间频率瓦片生成时间频率瓦片差异量度，其中差异量度指示分别在该频率处的波束形成音频输出信号与噪声参考信号的相对水平。

差异处理器313被耦合到点音频源估计器315，所述点音频源器315响应于针对频率阈值之上的频率的时间频率瓦片差异量度的组合差异值而生成语音攻击估计。因此，所述点音频源估计器315通过组合针对给定频率上的频率的频率瓦片差异量度来生成点音频源估计。该组合可以具体地是在给定阈值频率上的所有时间频率瓦片差异量度的总和，或者例如包括频率相关加权的加权组合。

因此生成点音频源估计以反映在给定频率上波束形成的音频输出信号和噪声参考信号的水平之间的相对频率特定差异。阈值频率通常可以高于500Hz。

发明人已经认识到，这样的量度提供了点音频源是否包括在波束形成的音频输出信号中的强烈指示。实际上，他们已经意识到频率特定的比较以及对较高频率的限制在实践中提供了对点音频源存在的改进指示。此外，他们已经意识到该估计适用于声学环境和传统方法不能提供准确结果的场景中的应用。具体地，即使对于远离麦克风阵列301(并且在混响半径之外)并且存在强漫射噪声的非主导点音频源，所描述的方法也可以提供有利且准确的点音频源检测。

在许多实施例中，点音频源估计器315可以被布置为生成点音频源估计以简单地指示是否已经检测到点音频源。具体地，点音频源估计器315可以被布置为组合差异值超过阈值而指示已经检测到波束形成的音频输出信号中的点音频源的存在。因此，如果生成的组合差异值指示差异值高于给定阈值，则认为已在波束形成的音频输出信号中检测到点音频源。如果组合差异值低于阈值，则认为在波束形成的音频输出信号中未检测到点音频源。

因此，所描述的方法可以提供对所生成的波束形成的音频输出信号是否包括点源的低复杂度检测。

应当理解，这种检测可以用于许多不同的应用和场景，并且实际上可以以许多不同的方式使用。

例如，如前所述，输出处理器305可以使用点音频源估计/检测来调整输出音频信号。作为一个简单的示例，除非在波束形成的音频输出信号中检测到点音频源，否则可以将输出静音。作为另一示例，可以响应于点音频源估计来调整输出处理器305的操作。例如，可以根据点音频源存在的可能性来调整噪声抑制。

在一些实施例中，可以简单地将点音频源估计与音频输出信号一起提供为输出信号。例如，在语音捕获系统中，点音频源可以被认为是语音存在估计，并且这可以与音频信号一起提供。语音识别器可以具有音频输出信号，并且可以例如被布置为执行语音识别以便检测语音命令。语音识别器可以被布置为仅在点音频源估计指示存在语音源时执行语音识别。

在图3的示例中，音频捕获设备包括自适应控制器317，其被馈送以点声音源估计并且可以被布置为根据点音频源估计来控制波束形成器303的自适应性能。例如，在一些实施例中，波束形成器303的自适应可以被限制到点音频源估计指示存在点音频源的时间。这可以帮助波束形成器303适应期望的点音频源并减少噪声等的影响。应当理解，如稍后将描述的，点音频源估计可以有利地用于更复杂的自适应控制。

在下文中，将描述非常有利地确定点音频源估计的具体示例。

在该示例中，波束形成器303可以如先前所描述的那样适于聚焦在期望的音频源上，并且具体地关注语音源。它可以提供聚焦在源上的波束形成的音频输出信号，以及指示来自其他源的音频的噪声参考信号。波束形成的音频输出信号表示为z(n)，噪声参考信号表示为x(n)。z(n)和x(n)两者都可能通常被噪声污染，例如特别是漫射噪声。尽管以下描述将集中于语音检测，但是应当理解，它通常适用于点音频源。

设Z(t_k,ω_l)是对应于波束形成的音频输出信号(复)第一频域信号。这个信号由期望的语音信号Z_s(t_k,ω_l)和一个噪声信号Z_n(t_k,ω_l)的：

Z(t_k,ω_l)＝Z_s(t_k,ω_l)+Z_n(t_k,ω_l).

如果Z_n(t_k,ω_l)的幅值是已知的，则可以如下地导出变量d：

d(t_k,ω_l)＝|Z(t_k,ω_l)|-|Z_n(t_k,ω_l)|,

其表示语音幅值|Z_s(t_k,ω_l)|。

第二频域信号，即噪声参考信号x(n)的频域表示，可以由X_n(t_k,ω_l)表示。

可以假设z_n(n)和x(n)具有相等的方差，因为它们都表示漫反射噪声，并且通过加上(z_n)或减去(x_n)具有相等的方差的信号得到，因此Z_n(t_k,ω_l)和X_n(t_k,ω_l)的实部和虚部也有相同的差异。因此，在上面的公式中|Z_n(t_k,ω_l)|可以由|X_n(t_k,ω_l)|替代。

在没有语音的情况下(并且因此Z(t_k,ω_l)＝Z_n(t_k,ω_l))，这导致：

d(t_k,ω_l)＝|Z_n(t_k,ω_l)|-|X_n(t_k,ω_l)|,

其中，|Z_n(t_k,ω_l)|和|X_n(t_k,ω_l)|将是瑞利分布的，因为实部和虚部是高斯分布且独立的。

两个随机变量的差值的平均值等于平均值的差值，因此上面的时间频率瓦片差异量度的平均值将为零：

E{d}＝0.

两个随机信号差异的方差等于个体方差的和，因此：

var(d)＝(4-π)σ².

现在可以通过在(t_k,ω_l)平面中的L个独立值上对|Z_n(t_k,ω_l)|和|X_n(t_k,ω_l)|进行平均来减少方差，给出：

平滑(低通滤波)不会改变平均值，因此我们有：

两个随机信号差异的方差等于个体方差的和，

平均因此减少了噪声的方差。

因此，当不存在语音时测量的时间频率瓦片差的平均值是零。但是，在存在语音的情况下，平均值会增加。具体地，在语音分量的L个值上进行平均将具有更小的影响，因为|Z_s(t_k,ω_l)|的所有元素都是将是正的并且

E{|Z_s(t_k,ω_l)|}>0.

因此，当存在语音时，上述时间频率瓦片差异量度的平均值将高于零：

可以通过以大于1的过减因子γ的形式应用设计参数来修改时间频率瓦片差异量度：

在这种情况下，当没有语音时平均值

将低于零。但是，过减因子γ可以被选择为使得平均值

在存在语音的情况下倾向于高于零。

为了生成点音频源估计，可以例如通过简单求和来组合多个时间频率瓦片的时间频率瓦片差异量度。此外，所述组合可以被布置为仅包括针对高于第一阈值的频率的时间频率瓦片，并且可能仅针对低于第二阈值的时间频率瓦片。

具体地，点音频源估计可以被生成为：

该点音频源估计可以指示来自期望语音源的波束形成的音频输出信号中的能量相对于噪声参考信号中的能量的量。因此，它可以提供用于区分语音与漫射噪声的特别有利的措施。具体地，可以认为仅在e(t_k)为正时发现语音源存在。如果e(t_k)为负的，则认为没有发现期望的语音源。

应当理解，所确定的点音频源估计不仅指示点音频源(或者具体地是语音源)是否存在于捕获环境中，而是具体地提供关于这是否确实存在于波束形成的音频输出信号中的指示，即它还提供波束形成器303是否已针对该信号源进行调整的指示。

实际上，如果波束形成器303没有完全聚焦在期望的发言者上，则语音信号的一部分将存在于噪声参考信号x(n)中。对于US 7146012和US 7602926的自适应波束形成器，可以表明麦克风信号中所需源的能量之和等于波束形成的音频输出信号中的能量与噪声参考信号中的能量之和。在波束没有完全聚焦的情况下，波束形成的音频输出信号中的能量将减小并且噪声参考中的能量将增加。这将导致与完全聚焦的波束形成器相比针对e(t_k)显著较低的值。以这种方式，可以实现鲁棒的鉴别器。

应当理解，尽管以上描述举例说明了图3系统的方法的背景和益处，但是可以应用许多变化和修改而不偏离该方法。

应当理解，用于确定反映例如波束形成的音频输出信号和噪声参考信号的幅值之间的差异的差异量度的不同功能和方法可以在不同的实施例中使用。实际上，使用不同的范数或将不同的函数应用于范数可以提供具有不同属性的不同估计，但是仍然可以导致差异量度，其指示在给定时间频率瓦片中波束形成的音频输出信号与噪声参考信号之间的潜在差异。

因此，尽管先前描述的特定方法可以在许多实施例中提供特别有利的性能，但是取决于应用的特定特征，许多其他功能和方法可以在其他实施例中使用。

更一般地，差异量度可以被计算为：

d(t_k,ω_l)＝f₁(|Z(t_k,ω_l)|)-f₂(|X(t_k,ω_l)|)

其中，f₁(x)和f₂(x)可以被选择为适合各个实施例的特定偏好和要求的任何单调函数。通常，函数f₁(x)和f₂(x)将是单调递增或递减函数。还应当理解，可以使用其他范数(例如，L2范数)而不仅仅使用幅值。

时间频率瓦片差异量度在上述示例中表示第一频域信号的时间频率瓦片值的幅值(或其他范数)的第一单调函数f₁(x)与第二频域信号的时间频率瓦片值的幅值(或其他范数)的第二单调函数f₂(x)之间的差异。在一些实施例中，第一和第二单调函数可以是不同的函数。然而，在大多数实施例中，两个函数将是相同的。

此外，函数f₁(x)和f₂(x)中的一个或两个可以取决于各种其他参数和度量，例如麦克风信号的总平均功率水平、频率等。

用于确定差异量度的可能功能的示例包括例如：

d(t_k,ω_l)＝|Z(t_k,ω_l)|^α-γ·|X(t_k,ω_l)|^β

其中，α和β是设计参数，其中，典型地α＝β，例如，在以下公式中：

d(t_k,ω_l)＝{|Z(t_k,ω_l)|-γ.|X(t_k,ω_l)|}·σ(ω_l)

其中，σ(ω_l)是合适的加权函数，其用于提供差异量度和点音频源估计的所需谱特性。

应当理解，这些功能仅仅是示例性的，并且可以设想用于计算距离测量的许多其他公式和算法。

在上面的公式中，因子γ表示将差异量度向负值偏置的因子。应当理解，尽管具体示例通过应用于噪声参考信号时间频率瓦片的简单比例因子引入该偏置，但是许多其他方法也是可能的。

实际上，可以使用任何合适的方式来布置第一和第二函数f₁(x)和f₂(x)以便提供朝向负值的偏置。与前面的示例中一样，偏置具体地说是将生成差异量度的预期值的偏置，所述预期值在没有语音的情况下为负值。实际上，如果波束形成的音频输出信号和噪声参考信号都仅包含随机噪声(例如，样本值可以对称且随机地分布在平均值附近)，则差异量度的预期值将是负的而不是零。在前面的具体示例中，这是通过过减因子γ实现的，其在没有语音时导致负值。

基于所描述的考虑的点音频源检测器307的示例在图6中提供。在该示例中，波束形成的音频输出信号和噪声参考信号被提供给第一变换器309和第二变换器311，其生成对应的第一和第二频域信号。

例如，通过计算例如时域信号的交叠Hanning窗品化块的短时傅立叶变换(STFT)来生成频域信号。STFT通常是时间和频率两者的函数，并且由两个自变量t_k和ω_l表示，其中，t_k＝kB为离散时间，并且其中，k为帧索引，B帧移位，并且ω_l＝lω₀是(离散的)频率，其中，l为频率指数并且ω₀表示基本频率间隔。

在该频域变换之后，因此提供了具有长度的由矢量Z ^(M)(t_k)和X ^(M)(t_k)表示的频域信号。

频域变换在特定示例中被馈送到幅值单元601、603，其确定并输出两个信号的幅值，即它们生成值：

|Z ^(M)(t_k)|和|X ^(M)(t_k)|。

在其他实施例中，可以使用其他范数，并且处理可以包括应用单调函数。

幅值单元601、603被耦合到低通滤波器605，低通滤波器1005可以对幅值进行平滑。滤波/平滑可以在时域、频域中，或者通常有利地两者，即滤波可以在时间和频率维度上延伸。

经滤波的幅值信号/矢量

和

也将被称为

和

滤波器605被耦合到差异处理器313，所述差异处理器805被设置为确定时间频率瓦片差异量度。作为具体示例，所述差异处理器313可以生成时间频率瓦片差异量度，如下：

设计参数γ_n通常可以在1..2的范围内。

差异处理器313被耦合到点音频源估计器315，所述点音频源估计器315被馈送时间频率瓦片差异量度并且作为响应通过组合它们来前进到确定点音频源估计。

具体地，时间频率瓦片差异量度的总和

针对ω_l＝ω_low与ω_l＝ω_high之间的频率值可以被确定为：

在一些实施例中，可以从点音频源检测器307输出该值。在其他实施例中，可以将确定的值与阈值进行比较并且用于生成例如指示是否认为点音频源被检测到的二进制值。具体地，可以将值e(t_k)与零阈值进行比较，即，如果该值是负的，则认为没有检测到点音频源，并且如果它是正的，则认为已经在波束形成的音频输出信号中检测到点音频源。

在该示例中，点音频源检测器307包括对波束形成的音频输出信号的幅值时间频率瓦片值以及噪声参考信号的幅值时间频率瓦片值的低通滤波/平均。具体地，可以通过对相邻值执行平均来执行平滑。例如，可以将以下低通滤波应用于第一频域信号：

其中，(N＝1)W是3*3矩阵，权重为1/9。应当理解，当然可以使用N的其他值，并且类似地，在其他实施例中可以使用不同的时间区间。实际上，执行滤波/平滑的大小可以变化，例如取决于频率(例如，对于较高频率而不是较低频率应用较大的内核)。

实际上，可以理解，可以通过在时间方向(所考虑的相邻时间帧的数量)和频率方向(所考虑的相邻频率区的数量)上应用具有合适扩展的内核来实现滤波，并且实际上例如，对于不同的频率或不同的信号特性，可以改变这样的内核的大小。

此外，可以改变上述公式中由W(m,n)表示的不同内核，并且这可以类似地是动态变化，例如对于不同频率或响应于信号属性。

滤波不仅降低了噪声，因此提供了更准确的估计，而且特别是增加了语音和噪声之间的差异。实际上，滤波对噪声的影响比对点音频源的影响大得多，导致针对时间频率瓦片差异量度生成更大的差异。

发现波束形成的音频输出信号和用于波束形成器(例如图1的波束形成器)的(一个或多个)噪声参考信号之间的相关性随着频率的增加而减少。因此，响应于仅针对高于阈值的频率的时间频率瓦片差异量度，生成点音频源估计。这导致增加的去相关，并且因此当存在语音时，波束形成的音频输出信号和噪声参考信号之间的差异更大。这导致在波束形成的音频输出信号中更准确地检测点音频源。

在许多实施例中，通过将点音频源估计限制为仅基于不低于500Hz的频率的时间频率瓦片差异量度，或者在一些实施例中有利地不低于1kHz或甚至2kHz，已经发现了有利的性能。

然而，在一些应用或场景中，波束形成的音频输出信号和噪声参考信号之间的显著相关性可以保持甚至相对高的音频频率，并且实际上在一些场景中针对整个音频频带。

通过观察理想的球面各向同性漫射噪声场的特征可以理解这一点。当两个麦克风放置在距离为d的这样的场中并且分别具有麦克风信号U(t_k,ω_l)和U₂(t_k,ω_l)时，我们有：

E{|U₁(t_k,ω)|²}＝E{|U₂(t_k,ω)|²}＝2σ²

并且

其中，波数

(c是声速)和σ²是U₁(t_k,ω_l)和U₂(t_k,ω_l)的实部和虚部的方差，其是高斯分布的。

假设波束形成器是简单的2麦克风延迟及求和波束形成器并形成宽边波束(即延迟为零)。

我们可以写出：

Z(t_k,ω_l)＝U₁(t_k,ω_l)+U₂(t_k,ω_l),

并且针对噪声参考信号：

X(t_k,ω_l)＝U₁(t_k,ω_l)-U₂(t_k,ω_l).

对于我们得到的预期值，假设仅存在噪声：

类似地，针对E{|X(t_k,ω)|²}，我们得到：

E{|X(t_k,ω)|²}＝4σ²(1-sinc(kd)).

因此对于低频率，|Z_n(t_k,ω_l)|和|X_n(t_k,ω_l)|是不相等的。

在一些实施例中，点音频源检测器307可以被布置为补偿这种相关性。特别地，点音频源检测器307可以被布置为确定噪声相干估计C(t_k,ω_l)，其指示噪声参考信号的幅值与波束形成的音频输出信号的噪声分量的幅值之间的相关性。然后，时间频率瓦片差异量度的确定可以作为该相干性估计的函数。

实际上，在许多实施例中，点音频源检测器307可以被布置为基于以下预期幅值之间的比率来确定波束形成的音频输出信号和来自波束形成器的噪声参考信号的相干性：

其中，E{.}是期望算子。相干项指示波束形成的音频输出信号中的噪声分量的幅值与噪声参考信号的幅值之间的平均相关性。

由于C(t_k,ω_l)不依赖于麦克风的即时音频，而是取决于噪声声场的空间特性，即作为时间的函数C(t_k,ω_l)的变化远小于Z_n和X_n的时间变化。

结果是，通过在没有语音的时时段期间的时间上对|Z_n(t_k,ω_l)|和|X_n(t_k,ω_l)|平均可以相对准确地估计C(t_k,ω_l)。在US 7602926中公开了这样做的方法，其具体描述了一种方法，其中不需要显式语音检测来确定C(t_k,ω_l)。

应当理解，可以使用用于确定噪声相干性估计C(t_k,ω_l)的任何合适的方法。例如，可以执行校准，其中，指示发言者不说话，其中，针对每个时间频率瓦片将第一和第二频域信号与噪声相关估计C(t_k,ω_l)进行比较，简单地将其确定为第一频域信号与第二频域信号的时间频率瓦片值的平均比率。对于理想的球面各向同性漫射噪声场，也可以按照上述方法解析地确定相干函数。

因此，可以将先前时间频率瓦片差异量度视为上述差异量度的具体示例，其中相干函数被设置为恒定值1。

相干函数的使用可以允许该方法在较低频率下使用，包括在波束形成的音频输出信号与噪声参考信号之间存在相对强的相关性的频率。

应当理解，所述方法可以进一步有利地在许多实施例中还包括自适应消除器，其被布置为消除波束形成的音频输出信号的与至少一个噪声参考信号相关的信号分量。例如，类似于图1的示例，自适应滤波器可以将噪声参考信号作为输入，并且从波束形成的音频输出信号中减去输出。调整滤波器可以例如被布置为在不存在语音的时间区间期间最小化得到的信号的水平。

在下文中，将描述音频捕获设备，其中点音频源估计和点音频源检测器307与其他描述的元件互通，以提供特别有利的音频捕获系统。特别是，所述方法非常适合在嘈杂和混响环境中捕获音频源。它为以下应用提供了特别有利的性能：期望的音频源可以在混响半径之外，并且由麦克风捕获的音频可以由漫射噪声和晚期反射或混响主导。

图7图示了根据本发明一些实施例的这样的音频捕获装置的元件的示例。图3中系统的元件和方法可以对应于图7中的系统，如下所述。

音频捕获装置包括麦克风阵列701，其可以直接对应于图3的麦克风阵列301。在该示例中，麦克风阵列701被耦合到任选的回声消除器703，其可以消除源自与麦克风信号中的回声线性相关的声源(其参考信号可用)的回声。该源可以例如是扬声器。可以将调整滤波器与参考信号一起用作输入，并且从麦克风信号中减去输出以生成回波补偿信号。这可以针对每个单独的麦克风重复进行。

应当理解，回声消除器703是任选的，并且在许多实施例中可以简单地省略。

麦克风阵列701通常直接或通过回声消除器703(以及可能通过放大器，数模转换器等)耦合到第一波束形成器705，如本领域技术人员所熟知的。第一波束形成器705可以直接对应于图3的波束形成器303。

第一波束形成器705被布置为组合来自麦克风阵列701的信号，使得生成麦克风阵列701的有效定向音频灵敏度。因此，第一波束形成器705生成输出信号，称为第一波束形成的音频输出，其对应于环境中的音频的选择性捕获。第一波束形成器705是自适应波束形成器，并且可以通过设置第一波束形成器705的波束形成操作的参数(称为第一波束形成参数)来控制方向性。

第一波束形成器705耦合到第一适配器707，第一适配器1107被布置为调整第一波束形成参数。因此，第一适配器707被布置为适应第一波束形成器705的参数，使得可以操纵波束。

另外，音频捕获装置包括多个约束波束形成器709、711，每个约束波束形成器1109、1111被布置为组合来自麦克风阵列701的信号，使得生成麦克风阵列701的有效定向音频灵敏度。因此，约束波束形成器709、711中的每个被布置为生成音频输出，称为约束波束形成的音频输出，其对应于环境中的音频的选择性捕获。类似地，对于第一波束形成器705，约束波束形成器709、711是自适应波束形成器，其中每个约束波束形成器709、711的方向性可以通过设置约束波束形成器709、711的参数(称为约束波束形成参数)来控制。

因此，音频捕获装置包括第二适配器713，第二适配器1113被布置为适应多个约束波束形成器的约束波束形成参数，从而调整由这些波束形成的波束。

图3的波束形成器303可以直接对应于图7的第一约束波束形成器709。还应当理解，剩余的约束波束形成器711可以对应于第一波束形成器709，并且可以被认为是对其的实例化。

因此，第一波束形成器705和约束波束形成器709、711都是自适应波束形成器，可以针对其动态地调整所形成的实际波束。具体地，波束形成器705、709、711是滤波及组合器或者具体地，在大多数实施例中是滤波及求和)波束形成器。波束形成滤波器可以被应用到每个麦克风信号，并且经滤波的输出可以被组合，通常通过简单地相加在一起。

应当理解，图3的波束形成器303可以包括对应于波束形成器705、709、711中的任何一个，并且实际上对于图3的波束形成器303提供的评论同样适用于图7的第一波束形成器705和约束波束形成器709、711中的任何一个。

在许多实施例中，第一波束形成器705和约束波束形成器709、711的结构和实现方式可以是相同的，例如波束形成滤波器可以具有相同数量的系数等的FIR滤波器结构。

然而，第一波束形成器705和约束波束形成器709、711的操作和参数将是不同的，并且特别地，约束波束形成器709、711以第一波束形成器705不经受的方式被约束。具体地，约束波束形成器709、711的调整将不同于第一波束形成器705的调整，并且将特别地受到一些约束。

具体地，约束波束形成器709、711受到以下约束：调整(波束形成滤波器参数的更新)被约束到满足准则的情况，而第一波束形成器705将被允许即使在不满足这样的准则时也能够调整。实际上，在许多实施例中，可以允许第一适配器707始终调整波束形成滤波器，其不受第一波束形成器705捕获的音频的(或任何约束波束形成器709、711的)任何属性的约束。

稍后将更详细地描述用于调整约束波束形成器709、711的准则。

在许多实施例中，第一波束形成器705的调整速率高于约束波束形成器709、711的调整速率。因此，在许多实施例中，第一适配器707可以被布置为比第二适配器713更快地适应变化，因此第一波束形成器705可以比约束波束形成器709、711更新得更快。这可以例如通过对第一波束形成器705具有比对约束波束形成器709、711更高的截止频率的被最大化或最小化的值(例如，输出信号的信号水平或误差信号的幅值)的低通滤波来实现。作为另一示例，对于第一波束形成器705，波束形成参数(具体地，波束形成滤波器系数)的每次更新的最大改变可以比对于约束波束形成器709、711更高。

因此，在该系统中，通过不受该约束影响的自由运行的更快的调整波束形成器来补充仅在满足特定标准时缓慢地调整多个聚焦(调整约束)波束形成器。与自由运行的波束形成器相比，较慢且聚焦的波束形成器通常将提供比特定音频环境更慢但更准确和可靠的适应，然而自由运行的波束形成器通常能够在更大的参数间隔上快速调整。

在图7的系统中，这些波束形成器协同使用以提供改进的性能，这将在后面更详细地描述。

第一波束形成器705和约束波束形成器709、711耦合到输出处理器715，输出处理器1115接收来自波束形成器705、709、711的波束形成的音频输出信号。从音频捕获装置生成的确切输出将取决于各个实施例的特定偏好和要求。实际上，在一些实施例中，来自音频捕获装置的输出可以简单地包括来自波束形成器705、709、711的音频输出信号。

在许多实施例中，来自输出处理器715的输出信号被生成为来自波束形成器705、709、711的音频输出信号的组合。实际上，在一些实施例中，可以执行简单的选择组合，例如，选择音频输出信号，其中信噪比(或者简单地信号水平)是最高的。

因此，输出处理器715的输出选择和后处理可以是应用特定的和/或在不同的实现/实施例中是不同的。例如，可以提供所有可能的聚焦波束输出，可以基于用户定义的标准等进行选择(例如，选择最强的发言者)。

例如，对于语音控制应用，可以将所有输出转发到语音触发识别器，所述语音触发识别器被设置为检测特定的单词或短语以初始化语音控制。在这样的示例中，其中检测到触发词或短语的音频输出信号可以跟随触发短语被语音识别器用于检测特定命令。

对于通信应用，例如有利的是选择最强的音频输出信号，例如已经找到特定点音频源的存在。

在一些实施例中，诸如图1的噪声抑制之类的后处理，可以应用于音频捕获装置的输出(例如，通过输出处理器715)。这可以改善例如语音通信的性能。在这样的后处理中，可以包括非线性操作，尽管例如对于某些语音识别器而言可以更有利于将处理限制为仅包括线性处理。

在图7的系统中，采取特别有利的方法来基于第一波束形成器705和约束波束形成器709、711之间的协同互通和相互关系来捕获音频。

为此目的，音频捕获装置包括波束差异处理器717，其被布置为确定约束波束形成器709、711与第一波束形成器705中的一个或多个之间的差异量度。差异量度表示分别由第一波束形成器705和约束波束形成器709、711形成的波束之间的差异。因此，第一约束波束形成器709的差异量度可以指示由第一波束形成器705和第一约束波束形成器709形成的波束之间的差异。以这种方式，差异量度可以指示两个波束形成器705、709与相同音频源的匹配程度。

可以在不同的实施例和应用中使用不同的差异量度。

在一些实施例中，可以基于从不同波束形成器705、709、711生成的波束形成的音频输出来确定差异量度。作为示例，可以通过测量第一波束形成器705和第一约束波束形成器709的输出的信号水平并将它们彼此进行比较来简单地生成简单的差异量度。信号水平彼此越接近，差异量度越低(通常差异量度也将作为例如第一波束形成器705的实际信号水平的函数而增加)。

在许多实施例中，可以通过确定来自第一波束形成器705的波束形成的音频输出与第一约束波束形成器709之间的相关性来生成更合适的差异量度。相关值越高，差异量度越低。

替代地或者额外地，可以基于第一波束形成器705和第一约束波束形成器709的波束形成参数的比较来确定差异量度。例如，对于给定麦克风，第一波束形成器705的波束形成滤波器和第一约束波束形成器709的波束形成滤波器的系数可以由两个矢量表示。然后可以计算这两个矢量的差矢量的大小。可以对所有麦克风重复该过程，并且可以确定组合或平均幅值并将其用作距离量度。因此，所生成的差异量度反映了波束形成滤波器的系数对于第一波束形成器705和第一约束波束形成器709的不同程度，并且这被用作波束的差异量度。

因此，在图7的系统中，生成差异量度以反映第一波束形成器705和第一约束波束形成器709的波束形成参数之间的差异和/或这些波束形成的音频输出之间的差异。

应当理解，生成、确定和/或使用差异量度直接等同于生成、确定和/或使用相似性量度。实际上，通常可以认为一个是另一个的单调递减函数，因此差异量度也是相似度量(反之亦然)，通常一个简单地通过增加值来指示增加的差异而另一个通过减少值来实现这一点。

波束差处理器717被耦合到第二适配器713并为此提供差异量度。第二适配器713被布置为响应于差异量度来适配约束波束形成器709、711。具体地，第二适配器713被布置为仅针对已经确定了满足相似度准则的差异量度的约束波束形成器来调整约束波束形成参数。因此，如果没有针对给定的约束波束形成器709、711确定差异量度，或者如果给定的约束波束形成器709的确定的差异量度711指示第一波束形成器705和给定的约束波束形成器709、711的波束是不完全相似，则不进行调整。

因此，在图7的音频捕获装置中，约束波束形成器709、711在波束的调整方面受到约束。具体地，则它们被约束为仅在由约束波束形成器709、711形成的当前波束接近自由运行的第一波束形成器705正在形成的波束的情况下进行调整，即，个体约束波束形成器709、711仅在第一波束形成器705当前被调整为足够接近个体约束波束形成器709、711的情况下被调整。

其结果是约束波束形成器709、711的调整由第一波束形成器705的操作控制，使得由第一波束形成器705形成的波束有效地控制约束波束形成器709、711中的哪个被优化/调整。该方法可以具体地导致约束波束形成器709、711仅在期望的音频源接近约束波束形成器709、711的当前调整时倾向于被调整。

在实践中已经发现，当期望的音频源(在当前情况下为期望的发言者)在混响半径之外时，要求波束之间的相似性以允许调整的方法已经导致显著改善的性能。实际上，已经发现，特别是在具有非主导直接路径音频分量的混响环境中的弱音频源提供非常期望的性能。

在许多实施例中，对调整的约束可能受到进一步的要求。

例如，在许多实施例中，调整可以是对波束形成的音频输出的信噪比超过阈值的要求。因此，对个体约束波束形成器709、711的适配可以限于以下场景：其被充分调整并且调整所基于的信号反映了期望的音频信号。

应当理解，可以在不同的实施例中使用用于确定信噪比的不同方法。例如，麦克风信号的本底噪声可以通过跟踪经平滑的功率估计的最小值来确定，并且对于每个帧或时间区间，将瞬时功率与该最小值进行比较。作为另一示例，可以确定波束形成器的输出的噪声基底并将其与波束形成的输出的瞬时输出功率进行比较。

在一些实施例中，约束波束形成器709、711的调整被限制为在约束波束形成器709、711的输出中检测到语音分量时。这将为语音捕获应用提供改进的性能。应当理解，可以使用用于检测音频信号中的语音的任何合适的算法或方法。特别地，可以应用先前描述的点音频源检测器307的方法。

应当理解，图3-7的系统通常使用帧或块处理来操作。因此，定义了相继的的时间区间或帧，并且可以在每个时间区间内执行所描述的处理。例如，麦克风信号可以被划分到处理时间区间，并且对于每个处理时间区间，波束形成器705、709、711可以针对该时间区间生成波束形成的音频输出信号，确定差异量度，选择约束波束形成器709、711，以及更新/调整该约束波束形成器709、711等。在许多实施例中，处理时间区间可以有利地具有7毫秒到70毫秒之间的持续时间。

应当理解，在一些实施例中，不同的处理时间区间可以用于音频捕获装置的不同方面和功能。例如，用于调整的约束波束形成器709、711的差异量度和选择可以在比例如用于波束形成的处理时间区间更低的频率下执行。

在该系统中，调整还取决于波束形成的音频输出中的点音频源的检测。因此，音频捕获装置还可以包括已经参考图3描述的点音频源检测器307。

在许多实施例中，点音频源检测器307可以被布置为检测第二波束形成的音频输出中的点音频源，并且因此点音频源检测器307被耦合到约束波束形成器709、711，并且其接收来自它们的波束形成的音频输出信号。另外，其从它们接收噪声参考信号(为清楚起见，图7通过单线示出了波束形成的音频输出信号和噪声参考信号，即，图7的线可以被认为表示总线包括波束形成的音频输出信号和(一个或多个)噪声参考信号，以及例如波束形成参数)。

因此，图7的系统的操作的流程图取决于由点音频源检测器307根据先前描述的原理执行的点音频源估计。点音频源检测器307可以具体地布置成针对所有波束形成器705、709、711生成点音频源估计。

检测结果从点音频源检测器307传递到第二适配器713，第二适配器1113被设置为响应于此对调整适配。具体地，第二适配器713可以被布置为仅调整点音频源检测器307指示已经检测到点音频源的约束波束形成器709、711。

因此，音频捕获装置被布置为将约束波束形成器709、711的调整约束为使得约束波束形成器709、711仅在形成的源束中存在点音频源时被调整，并且所形成的波束接近于由第一波束形成器705形成的波束。因此，调整通常限于已经接近(期望的)点音频源的约束波束形成器709、711。该方法允许非常鲁棒和精确的波束形成，其在期望的音频源可能在混响半径之外的环境中执行得非常好。此外，通过操作和选择性地更新多个约束波束形成器709、711，可以通过相对快速的反应时间来补充这种鲁棒性和准确性，从而允许系统作为整体快速适应快速移动或新发生的声源。

在许多实施例中，音频捕获装置可以被布置为一次仅适配一个约束波束形成器709、711。因此，第二适配器713可以在每个调整时间区间中选择约束波束形成器709、711中的一个，并且仅通过更新波束形成参数来适应此。

单个约束波束形成器709、711的选择通常将在选择约束波束形成器709、711时自动发生，仅当所形成的当前波束接近于由第一波束形成器705形成的波束并且在波束中检测到点音频源时才进行调整。

然而，在一些实施例中，多个约束波束形成器709、711可以同时满足准则。例如，如果点音频源被定位为接近由两个不同的约束波束形成器709、711覆盖的区域(或者例如它位于所述区域的交叠区域中)，则可以在两个波束中检测点音频源，并且这些可以都是通过均朝向点音频源调整而被调整为彼此接近。

因此，在这样的实施例中，第二适配器713可以选择满足两个准则的约束波束形成器709、711中的一个并且仅调整该一个。这将降低两个波束针对相同的点音频源进行调整的风险，从而降低这些波束彼此干扰的操作风险。

实际上，在相应的差异量度必须足够低并且仅选择单个约束波束形成器709、711以进行调整(例如，在每个处理时间区间/帧中)的约束下对约束波束形成器709、711进行调整将导致调整在不同的约束波束形成器709、711之间被区分。这将倾向于导致约束波束形成器709、711适于覆盖不同的区域，其中自动选择最接近的约束波束形成器709、711以适应/跟随由第一波束形成器705检测的音频源。然而，与例如图2的方法不同，这些区域不是固定的和预定的，而是动态地和自动地形成的。

还应注意，这些区域可以取决于多个路径的波束形成，并且通常不限于到达区域的角度方向。例如，可以基于到麦克风阵列的距离来对区域进行区分。因此，术语区域可以被认为是指空间中音频源将导致满足差异量度的相似性要求的调整的位置。因此，它不仅考虑直接路径而且还考虑例如反射(如果它们在波束形成参数中被考虑并且特别是基于空间和时间方面两者(并且具体地取决于波束形成滤波器的全脉冲响应))。

单个约束波束形成器709、711的选择可以具体地响应于捕获的音频水平。例如，点音频源检测器307可以确定来自满足标准的约束波束形成器709、711的每个波束形成的音频输出的音频水平，并且第二适配器713可以选择导致最高的音频水平的约束波束形成器709、711。在一些实施例中，第二适配器713可以选择如下的约束波束形成器709、711：针对所述约束波束形成器，在波束形成的音频输出中检测到的点音频源具有最高值。例如，点音频源检测器307可以检测来自两个约束波束形成器709、711的波束形成的音频输出中的语音分量，并且第二适配器713可以前进到选择具有最高水平的语音分量的那个。

在许多实施例中，第二适配器713可以基于点音频源估计来选择波束形成器705、711，并且具体地可以选择如下的波束形成器709、711：针对所述波束形成器，点音频源估计提供点音频源存在的最高可能性。作为具体示例，它可以选择具有最高的以下组合值的波束形成器709、711：

在该方法中，因此执行约束波束形成器709、711的非常选择性的调整，导致这些仅在特定情况下进行调整。这通过约束波束形成器709、711提供了非常鲁棒的波束形成，从而改善了对期望音频源的捕获。然而，在许多场景中，波束形成中的约束还可能导致较慢的调整，并且实际上可能在许多情况下导致未检测到新的音频源(例如，新的发言者)或者仅针对其非常慢地调整。

图8示出了图7的音频捕获设备，但是增加了波束形成器控制器801，其被耦合到第二适配器713和点音频源检测器307。波束形成器控制器801被布置为在特定情况下初始化约束波束形成器709、711。具体地，波束形成器控制器801可以响应于第一波束形成器705初始化约束波束形成器709、711，并且具体地可以初始化约束波束形成器709、711中的一个以形成与第一波束形成器705的波束相对应的波束。

波束形成器控制器801具体地响应于第一波束形成器705的波束形成参数而设置约束波束形成器709、711中的一个的波束形成参数，此后称为第一波束形成参数。在一些实施例中，约束波束形成器709、711和第一波束形成器705的滤波器可以是相同的，例如它们可以具有相同的架构。作为具体示例，约束波束形成器709、711和第一波束形成器705的滤波器可以是具有相同长度(即，给定数量的系数)的FIR滤波器，并且来自第一波束形成器705的滤波器的当前调整的系数值可以简单地被复制到约束波束形成器709、711，即，可以将约束波束形成器709、711的系数设置为第一波束形成器705的值。以这种方式，约束波束形成器709、711将被初始化，具有与当前针对第一波束形成器705调整的相同的波束特性。

在一些实施例中，约束波束形成器709、711的滤波器的设置可以从第一波束形成器705的滤波器参数确定，但是不是直接使用它们，而是可以在应用之前调整它们。例如，在一些实施例中，可以修改FIR滤波器的系数以将约束波束形成器709、711的波束初始化为比第一波束形成器705的波束更宽(但是例如在相同方向上形成)。

在许多实施例中，波束形成器控制器801可以在一些情况下相应地利用与第一波束形成器705的初始波束对应的初始波束初始化约束波束形成器709、711中的一个。然后，系统可以如前所述继续处理约束波束形成器709、711，并且具体地可以在约束波束形成器709、711满足先前描述的标准时进行调整。

在不同的实施例中，用于初始化约束波束形成器709、711的准则可以是不同的。

在许多实施例中，如果在第一波束形成的音频输出中检测到点音频源的存在但是在任何约束波束形成的音频输出中没有检测到，则波束形成器控制器801可以被布置为初始化约束波束形成器709、711。

因此，点音频源检测器307可以确定点音频源是否存在于来自约束波束形成器709、711或第一波束形成器705的任何波束形成的音频输出中。每个波束形成的音频输出的检测/估计结果可以被转发到波束形成器控制器801，其可以对此进行评估。如果仅针对第一波束形成器705检测到点音频源，而不是针对任何约束波束形成器709、711检测到点音频源，则这可以反映以下情况：诸如发言者的点音频源存在并且被第一波束形成器705检测到，但是约束波束形成器709、711都没有检测到或已经针对所述点音频源进行调整。在这种情况下，约束波束形成器709、711可能从不(或仅非常慢地)针对点音频源进行调整。因此，约束波束形成器709、711中的一个被初始化以形成对应于点音频源的波束。随后，所述波束可能足够靠近点音频源，并且它(通常缓慢但可靠地)针对这个新的点音频源进行调整。

因此，所述方法可以组合并提供快速第一波束形成器705和可靠约束波束形成器709、711两者的有利效果。

在一些实施例中，波束形成器控制器801可以被布置为仅在约束波束形成器709、711的差异量度超过阈值时初始化约束波束形成器709、711。具体地，如果约束波束形成器709、711的最低确定的差异量度低于阈值，则不执行初始化。在这种情况下，约束波束形成器709、711的自适应可能更接近期望的情况，而第一波束形成器705的不太可靠的自适应更不准确并且可以被调整为更接近第一波束形成器705。因此，在差异量度足够低的这种情况下，允许系统尝试自动适应可能是有利的。

在一些实施例中，波束形成器控制器801可以具体地被布置为当针对第一波束形成器705和约束波束形成器709、711中的一个检测到点音频源但是针对它们的差异量度不满足相似性标准时初始化约束波束形成器709、711。具体地，如果在来自第一波束形成器705的波束形成的音频输出和在来自约束波束形成器709、711的波束形成的音频输出两者中检测到点音频源并且差异量度值超过阈值，则波束形成器控制器801可以被布置为响应于第一波束形成器705的波束形成参数来为第一约束波束形成器709、711设置波束形成参数。

这样的场景可能反映以下情况：约束波束形成器709、711可能已经适配并捕获点音频源，然而该点音频源不同于由第一波束形成器705捕获的点音频源。因此，它可以具体地反映约束波束形成器709、711可能已经捕获了“错误的”点音频源。因此，可以重新初始化约束波束形成器709、711以形成朝向期望点音频源的波束。

在一些实施例中，可以改变活动的约束波束形成器709、711的数量。例如，音频捕获设备可以包括用于形成可能相对大量的约束波束形成器709、711的功能。例如，它可以实现多达例如八个同时的约束波束形成器709、711。然而，为了减少例如功耗和计算负荷，并非所有这些都可以同时激活。

因此，在一些实施例中，从较大的波束形成器池中选择一组有效的约束波束形成器709、711。具体地，这可以在约束波束形成器709、711被初始化时完成。因此，在上面提供的示例中，约束波束形成器709、711的初始化(例如，如果在任何活动约束波束形成器709、711中没有检测到点音频源)可以通过初始化来自池中的非活动约束波束形成器709、711来实现，从而增加了活动约束波束形成器709、711的数量。

如果池中的所有约束波束形成器709、711当前都是活动的，则可以通过初始化当前活动的约束波束形成器709、711来完成约束波束形成器709、711的初始化。可以根据任何合适的准则来选择要初始化的约束波束形成器709、711。例如，可以选择具有最大差异量度或最低信号水平的约束波束形成器709、711。

在一些实施例中，响应于满足合适的准则，可以将约束波束形成器709、711停用。例如，如果差异量度增加到给定阈值以上，则可以停用约束波束形成器709、711。

用于控制根据上述许多示例的约束波束形成器709、711的适配和设置的具体方法由图9的流程图示出。

该方法在步骤901中通过初始化下一个处理时间区间(例如，等待下一个处理时间区间的开始，收集处理时间区间的一组样本等)开始。

步骤901之后是步骤903，其中，确定在约束波束形成器709、711的任何波束中是否检测到点音频源。

如果是，则该方法在步骤905继续，其中，确定差异量度是否满足相似性准则，并且具体地确定差异量度是否低于阈值。

如果是，则该方法在步骤907继续，其中，检测到点音频源的约束波束形成器709、711(或者在多于一个约束波束形成器709、711中检测到点音频源的情况下具有最大信号水平的波束形成器)被调整，即波束形成(滤波)参数被更新。

如果不是，则该方法在步骤909继续，其中，初始化约束波束形成器709、711，约束波束形成器709、711的波束形成参数根据第一波束形成器705的波束形成参数来设置。被初始化的约束波束形成器709、711可以是新的约束波束形成器709、711(即，来自非活动波束形成器池的波束形成器)或者可以是已经为其提供新的波束形成参数的已经激活的约束波束形成器709、711。

在步骤907和909之一之后，所述方法返回到步骤901并等待下一个处理时间区间。

如果在步骤903中检测到在任何约束波束形成器709、711的波束形成的音频输出中没有检测到点音频源，则该方法前进到步骤911，其中确定是否在第一个波束形成器705中检测到点音频源，即当前场景是否对应于点音频源由第一波束形成器705捕获但不由约束波束形成器709、711中的任一个捕获。

如果不是，则根本没有检测到点音频源，并且该方法返回到步骤901以等待下一个处理时间区间。

否则，所述方法前进到步骤913，其中，确定差异量度是否满足相似性准则，并且具体地，差异量度是否低于阈值(其可以是与步骤905中使用的阈值/标准相同的或者可以是不同的阈值/标准)。

如果是，则该方法前进到步骤915，其中，调整差异量度低于阈值的约束波束形成器709、711(或者如果不止一个约束波束形成器709、711满足标准，则可以选择具有例如最低差异量度的波束形成器709、711)。

否则，所述方法前进到步骤917，其中，初始化约束波束形成器709、711，约束波束形成器709、711的波束形成参数根据第一波束形成器705的波束形成参数来设置。被初始化的约束波束形成器709、711可以是新的约束波束形成器709、711(即，来自非活动波束形成器池的波束形成器)或者可以是已经为其提供新的波束形成参数的已经激活的约束波束形成器709、711。

在步骤915和917之一之后，所述方法返回到步骤901并等待下一个处理时间区间。

所描述的图7-9的音频捕获设备的方法可以在许多场景中提供有利的性能，并且特别地可以倾向于允许音频捕获设备动态地形成聚焦的、鲁棒的和准确的波束以捕获音频源。波束倾向于适于覆盖不同区域，并且该方法可以例如自动选择和调整最近的约束波束形成器709、711。

因此，与例如图2的方法不同，不需要直接施加对波束方向或滤波器系数的特定约束。相反，通过让约束波束形成器709、711仅在存在单个音频源主导时以及当其足够接近约束波束形成器709、711的波束时(有条件地)调整，可以自动地生成/形成单独的区域。这可以通过考虑直接场和(第一)反射的滤波器系数来具体确定。

应当注意，使用具有扩展脉冲响应的滤波器(与使用简单延迟滤波器，即单系数滤波器不同)也考虑到反射在直接场之后某个(特定)时间到达。因此，波束不仅由空间特性(直接场和反射从哪个方向到达)确定，而且还由时间特性确定(反射在直接场之后什么时间到达)。因此，对波束的引用不仅限于空间考虑，而且还反映波束形成滤波器的时间分量。类似地，对区域的引用包括波束形成滤波器的纯空间效应和时间效应。

因此，所述方法可以被认为形成通过第一波束形成器705的自由运行波束与约束波束形成器709、711的波束之间的距离量度的差异确定的区域。例如，假设约束波束形成器709、711具有聚焦在源上的波束(具有空间和时间特性两者)。假设源是静音的并且新的源变为活动的，第一波束形成器705适于聚焦于此。然后，具有时间空间特性的每个源使得第一波束形成器705的波束与约束波束形成器709、711的波束之间的距离不超过阈值可被认为是在约束波束形成器709、711的区域中。以这种方式，可以认为对第一约束波束形成器709的约束转换为空间约束。

用于自适应约束波束形成器的距离标准以及初始化波束的方法(例如，波束形成滤波器系数的复制)通常提供约束波束形成器709、711以在不同区域中形成波束。

该方法通常导致反映环境中音频源的存在的区域的自动形成，而不是如图2中的预定固定系统。这种灵活的方法允许系统基于时空特性，例如由反射引起的特性，这对于预定和固定的系统来说是非常困难和复杂的(因为这些特性取决于许多参数，例如尺寸、房间的形状和混响特性等)。

应当理解，为了清楚起见，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，显而易见的是，可以在不背离本发明的情况下使用不同功能电路、单元或处理器之间的任何合适的功能分布。例如，被示为由分别的处理器或控制器执行的功能可以由相同的处理器执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适设备的引用，而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实现，包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。这样，本发明可以在单个单元中实现，或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明，但是并不旨在将本发明限于这里阐述的特定形式。相反，本发明的范围仅受所附权利要求的限制。另外，尽管可能看起来结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管单独列出，但是多个设备、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实现。另外，尽管各个特征可以包括在不同的权利要求中，但是这些特征可以有利地组合，并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制，而是指示该特征在合适时同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序，并且特别地，方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是，可以以任何合适的顺序来执行这些步骤。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供用于地使示例清楚，不应被解释为以任何方式限制权利要求的范围。

Claims

1.一种音频捕获装置，包括：

麦克风阵列；

至少第一波束形成器，其被布置为生成波束形成的音频输出信号和至少一个噪声参考信号；

第一变换器(309)，其用于根据对所述波束形成的音频输出信号的频率变换来生成第一频域信号，所述第一频域信号由时间频率瓦片值表示；

第二变换器(311)，其用于根据所述至少一个噪声参考信号的频率变换来生成第二频域信号，所述第二频域信号由时间频率瓦片值表示；

差异处理器(313)，其被布置为生成时间频率瓦片差异量度，针对第一频率的时间频率瓦片差异量度指示针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异；

点音频源估计器(315)，其用于生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计，所述点音频源估计器(315)被布置为响应于针对高于频率阈值的频率的时间频率瓦片差异量度的组合差异值而生成所述点音频源估计。

2.根据权利要求1所述的音频捕获装置，其中，所述点音频源估计器(315)被布置为响应于所述组合差异值超过阈值而检测所述波束形成的音频输出中的点音频源的存在。

3.根据权利要求1所述的音频捕获装置，其中，所述频率阈值不低于500Hz。

4.根据权利要求1所述的音频捕获装置，其中，所述差异处理器(313)被布置为生成噪声相干估计，所述噪声相干估计指示所述波束形成的音频输出信号的幅值与所述至少一个噪声参考信号的幅值之间的相关性；并且所述第一单调函数和所述第二单调函数中的至少一个取决于所述噪声相干估计。

5.根据权利要求4所述的音频捕获装置，其中，所述差异处理器(313)被布置为响应于所述噪声相干估计而相对于针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数来缩放针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数。

6.根据权利要求1所述的音频捕获装置，其中，所述差异处理器(313)被布置为将针对时间t_k在频率ω_l的所述时间频率瓦片差异量度生成为基本如下：

d＝|Z(t_k，ω_l)|-γC(t_k，ω_l)|X(t_k，ω_l)|

其中，Z(t_k，ω_l)是针对所述波束形成的音频输出信号在时间t_k在频率ω_l的所述时间频率瓦片值；X(t_k，ω_l)是针对所述至少一个噪声参考信号在时间t_k在频率ω_l的所述时间频率瓦片值；C(t_k，ω_l)是在时间t_k在频率ω_l的噪声相干估计；并且γ是设计参数。

7.根据权利要求1所述的音频捕获装置，其中，所述差异处理器(313)被布置为对所述波束形成的音频输出信号的所述时间频率瓦片值和所述至少一个噪声参考信号的所述时间频率瓦片值中的至少一个进行滤波。

8.根据权利要求7所述的音频捕获装置，其中，所述滤波在频率方向和时间方向两者上进行。

9.根据权利要求1所述的音频捕获装置，包括多个波束形成器，所述多个波束形成器包括第一波束形成器；并且所述点音频源估计器(315)被布置为针对所述多个波束形成器中的每个波束形成器生成点音频源估计；并且所述音频捕获装置还包括适配器(713)，所述适配器用于响应于所述点音频源估计来调整所述多个波束形成器中的至少一个。

10.根据权利要求9所述的音频捕获装置，其中，所述多个波束形成器包括：第一波束形成器，其被布置为生成波束形成的音频输出信号和至少一个噪声参考信号；以及多个约束波束形成器，其被耦合到麦克风阵列，并且每个约束波束形成器被布置为生成约束波束形成的音频输出和至少一个约束噪声参考信号；所述音频捕获装置还包括：

波束差异处理器(717)，其用于确定针对所述多个约束波束形成器中的至少一个的差异量度，所述差异量度指示由所述第一波束形成器形成的波束与所述多个约束波束形成器中的至少一个形成的波束之间的差异；

其中，所述适配器(713)被布置为利用约束来调整约束波束形成参数，所述约束是约束波束形成参数仅针对所述多个约束波束形成器中的已经确定满足相似性准则的差异量度的约束波束形成器进行调整。

11.根据权利要求10所述的装置，其中，所述适配器(713)被布置为仅针对以下的约束波束形成器调整约束波束形成参数：针对所述约束波束形成器，所述点音频源估计指示所述约束波束形成的音频输出中存在点音频源。

12.根据权利要求10所述的装置，其中，所述适配器(713)被布置为仅针对以下的约束波束形成器调整约束波束形成参数：针对所述约束波束形成器，所述点音频源估计指示所述波束形成的音频输出包括点音频源的最高概率。

13.根据权利要求10所述的装置，其中，所述适配器(713)被布置为仅针对具有所述点音频源估计的最高值的约束波束形成器调整约束波束形成参数。

14.一种用于使用麦克风阵列来捕获音频的操作方法，所述方法包括：

至少第一波束形成器生成波束形成的音频输出信号和至少一个噪声参考信号；

第一变换器(309)根据所述波束形成的音频输出信号的频率变换来生成第一频域信号，所述第一频域信号由时间频率瓦片值表示；

第二变换器(311)根据所述至少一个噪声参考信号的频率变换来生成第二频域信号，所述第二频域信号由时间频率瓦片值表示；

差异处理器(313)生成时间频率瓦片差异量度，针对第一频率的时间频率瓦片差异量度指示针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异；

点音频源估计器(315)生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计，所述点音频源估计器(315)被布置为响应于针对高于频率阈值的频率的时间频率瓦片差异量度的组合差异值而生成所述点音频源估计。

15.一种包括计算机程序代码模块的计算机程序产品，当所述计算机程序代码模块在计算机上运行时，所述计算机程序代码模块适于执行根据权利要求14所述的方法。