CN102804809B

CN102804809B - 音频源定位

Info

Publication number: CN102804809B
Application number: CN201180010716.4A
Authority: CN
Inventors: R.M.M.德克西
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV; MediaTek Inc
Priority date: 2010-02-23
Filing date: 2011-02-16
Publication date: 2015-08-19
Anticipated expiration: 2031-02-16
Also published as: CN102804809A; RU2012140488A; US20130128701A1; RU2565338C2; US9025415B2; JP5746717B2; JP2013520858A; TR201808448T4; EP2540094B1; EP2540094A1; WO2011104655A1

Abstract

音频源定位装置接收来自麦克风阵列（101）的信号，参考处理器（105）生成具有不同方向性的至少三条参考束。生成两个声源的同时方向估计的估计处理器（107）包含组合至少三条参考束的信号的电路（401），该组合具有反映组合信号的音频束形的形状的波束形状参数和反映组合信号的音频束形的方向的波束方向参数。成本处理器（403）生成指示组合信号的能量的成本度量，并且最小化处理器（405）估计与成本度量的局部最小相对应的波束形状参数和波束方向参数的值。然后，方向处理器（407）从所确定参数值中确定两个声源的同时方向估计。可以实现两个同时声源的改进方向估计。

Description

音频源定位

技术领域

本发明涉及音频源定位，尤其但不排它地涉及使用具有三个或四个麦克风的麦克风阵列确定多个声源的方向的音频源定位。

背景技术

音频信号的高级处理在例如包括电信、内容分配等的许多领域中已经变得越来越重要。例如，在像免提通信和语音控制系统那样的一些应用中，来自多个麦克风的输入的复杂处理已经用于为包含麦克风的麦克风陈列提供可配置的定向灵敏度。作为另一个例子，远程会议应用可以使用音频束掌控（steering）来选择和隔离扬声器。特别是，来自麦克风阵列的信号的处理可以生成具有通过改变各个麦克风信号的组合的特性可以简单改变的方向的音频束。

高级音频处理应用中越来越重要的功能是估计各种声源的位置。的确，由于音频处理变得正被用在越来越复杂的音频环境中，因此常常希望能够估计两个同时声源的方向。例如，在远程会议情形下，两个扬声器可能同时起作用。这样的方向估计可以用于，例如，沿着所希望方向引导音频束或沿着与干扰声源相对应的方向提供缺口（notch）。在一些情形下，声源分开可能是重要的，并且可能基于两个声源的估计方向。

然而，估计两个同时声源的方向通常要比估计单个占优势声源的方向显著地更加困难。这样应用中的关键问题是如何在不同麦克风信号中分出来自不同声源的贡献的问题。传统的解决方案往往基于信号之间的区分，该区分基于两个信号的时间或频率特性的差异。例如，如果已知在某些时间间隔中两个声源之一占优势，则在这样的时间间隔期间可能只生成这个声源的方向估计。另一种做法是利用两个声源之间的频率差。例如，可以将快速傅立叶变换（FFT）应用于信号，并且可以假设在每个子带中，声源中的一个占优势。于是，可以为每个子带生成单个方向估计，并且可以通过对属于每个声源的子带求平均生成方向估计。

然而，在许多情形下这样的做法往往是次优的或不可靠的。尤其，这些做法依靠具有显著时间或频率差的两个声源音频信号，因此对于具有相似特性的信号往往失灵。即使对于相对不同的音频信号，由于可能难以确定在每个频率和/或时间间隔中哪个音频信号占优势，因此可能会发生显著恶化。例如，即使对于不同的音频信号，在每个子带中一个声源占优势的假设可能只适用于子带的一小部分。而且，传统的声源定位做法往往是复杂的并且资源要求高的。

因此，音频源定位的改进做法将会是有利的，尤其是，允许精度改进、对音频信号的相似特性的灵敏度降低、灵活性增大、实施方案方便、资源消耗降低、不同操作情形的性能改进和/或性能改进的做法将是有利的。

发明内容

于是，本发明试图优选地单独或以任何组合的方式减轻、缓和或消除一个或多个上述缺点。

按照本发明的一方面，提供了音频源定位装置，其包含：接收电路，用于接收来自包含至少三个麦克风的至少二维麦克风阵列的麦克风信号；参考电路，用于从三个麦克风信号中生成至少三条参考束的信号，该三条参考束具有不同方向性；以及估计电路，用于生成两个声源的同时方向估计，该估计电路包含：用于通过组合至少三条参考束的信号生成组合信号的电路，该组合具有反映组合信号的音频束形（beamform）的形状的波束形状参数和反映组合信号的音频束形的方向的波束方向参数；用于生成指示组合信号的能量度量的成本度量的电路；用于估计与成本度量的局部最小相对应的波束形状参数的波束形状参数值和波束方向参数的波束方向参数值的电路；以及用于确定作为波束形状参数值和波束方向参数值的函数的第一声源的第一方向估计和第二声源的第二方向估计的电路。

本发明可以在许多情形和应用中提供改进的两个同时声源的声源定位。两个方向估计的确定在许多情形下可能更加精确。尤其，该做法可以提供降低的对来自两个声源的音频的相似性的灵敏度。特别是，该做法可以允许根据空间特性确定方向，因此即使对于来自具有非常相似特性的两个声源的音频信号，也可以允许确定方向。而且，该做法可以以低复杂性和/或以低计算资源要求加以实现。

该做法尤其可以适用于音频信号的波长显著大于麦克风阵列的尺寸的系统。

该参考束可以是非自适应的，并且可以独立于捕获的信号和/或音频条件。该参考束可以是恒定的，并且可以通过来自至少三个麦克风的信号的恒定/非自适应组合加以生成。特别是，该参考束可以是特征波束或正交束。一条参考束可以是单极，而其余参考束可以是偶极。该偶极可以基本上是正交的。

该波束形状参数可以代表定向参考束相对于非定向参考束的相对权重。该波束方向参数可以代表不同定向参考束的相对权重。该参考束的不同定向特性可以反映，例如，如通过主瓣的主增益方向或平均方向所测量出的不同波束形状和/或不同波束方向。

依照本发明的一可选特征，该估计电路被安排成响应组合信号、波束形状参数的当前值和波束方向参数的当前值迭代地确定波束形状参数和波束方向参数的至少第一参数的更新值，并且从第一参数的更新值和当前值中生成第一参数的新值。

这可以在保持高性能的同时提供便利的实现方案和/或降低的复杂性。特别是，可以减少计算资源使用。而且可以允许实际的系统用于跟踪声源的运动。

依照本发明的一可选特征，该更新值依赖于成本度量关于第一参数的的导数值。

这可以提供改进的波束形状参数值和波束方向参数值的确定。尤其，可以允许更新值的适当符号的有效确定，并且，在一些实施例中，可以提供更新值的适当量度的有利确定。

依照本发明的一可选特征，估计电路被安排成独立地确定波束形状参数和波束方向参数两者的更新值。

这可以提供波束形状参数值和波束方向参数值的更有效和/或改进的更新。这些确定可以是独立的，这是因为一个参数的当前迭代的更新值不依赖于另一个参数的当前迭代的更新值。

依照本发明的一可选特征，估计电路被安排成将梯度搜索过程用于波束形状参数和波束方向参数的至少一个来估计局部最小。

依照本发明的一可选特征，估计电路被安排成将波束形状参数限制成小于至少三条参考束的第二和第三参考束的总权重的至少三条参考束的第一参考束的最大权重的数值。

这可以提供第一和第二方向估计的改进的确定。

依照本发明的一可选特征，该第一方向估计和该第二方向估计是平面内的二维方向估计，并且该估计电路被安排成对该第一方向估计和该第二方向估计补偿声源在平面之外的仰角。

这可以提供第一和第二方向估计的改进的确定。该补偿例如可以基于声源在该平面之上的假设和/或预定的仰角值。

依照本发明的一可选特征，该麦克风阵列是包含至少四个麦克风的三维麦克风阵列；该参考电路被安排成进一步生成第四参考束，并且该估计电路包含：用于通过组合第四参考束和至少三条参考束的至少两条其它参考束的信号生成进一个组合信号的电路，该组合具有反映进一个组合信号的音频束形的形状的进一个波束形状参数和反映进一个组合信号的进一个音频束形的方向的进一个波束方向参数；用于生成指示进一个组合信号的能量度量的进一个成本度量的电路；以及用于估计与进一个成本度量的局部最小相对应的进一个波束形状参数的进一个波束形状参数值和波束方向参数的进一个波束方向参数值的电路；并且其中，用于确定第一方向估计和第二方向估计的电路被安排成响应进一个波束形状参数值和进一个波束方向参数值进一步确定第一方向估计和第二方向估计。

这可以允许生成更精确的方向估计。尤其，可以允许生成三维方向估计和/或可以允许生成更精确的二维方向估计，这是因为这些都可以得到相对于二维方向估计的平面的估计仰角的补偿。根据一组参考束在一个平面内确定两个方向估计的相同做法可以用于使用不同的一组参考束在另一可能垂直的平面内确定另外两个方向估计。

该第四参考束特别可以是偶极，并且可以与参考束的其它偶极正交。

依照本发明的一可选特征，该波束形状参数值和该波束方向参数表征成本度量关于波束形状参数和波束方向参数的至少一个的导数是零的第一组三维点；并且该进一个波束形状参数值和该进一个波束方向参数值表征进一个成本度量关于进一个波束形状参数和进一个波束方向参数的至少一个的导数是零的第二组三维点；并且其中，该估计电路被安排成将第一方向估计和第二方向估计确定成包含在第一组三维点和第二组三维点两者中的至少两个三维点的方向估计。

这可以允许三维方向估计的精确和/或低复杂度确定。

依照本发明的一可选特征，该估计电路被安排成响应至少两个三维点对应于预定增益值的要求选择至少两个三维点。

这可以允许三维方向估计的精确和/或低复杂度确定。该预定增益值特别可以对应于归一化的增益值，以及该两个三维点可以被选成属于两组三维点以及属于单位球的那些点。

依照本发明的一可选特征，该估计电路被安排成将第一方向估计和第二方向估计确定成对于波束形状参数值和波束方向参数值成本函数关于波束形状参数和波束方向参数的至少一个的解析导数是零的方向估计。

这可以借助于相关成本函数的解析知识，利用信号值的实际算法最小化来允许两个同时声源的方向的有利确定。本发明可以利用与组合信号的能量度量有关的成本函数的实际和解析暗示来提供两个同时声源的方向估计的资源有效率的计算。

该方向估计可以在关于波束形状参数的导数和关于波束方向参数的导数两者都是零的准则下确定出。

依照本发明的一可选特征，至少三条参考束的第一参考束是单极，而至少三条参考束的至少第二参考束和第三参考束是方向不同的偶极。

这可以提供尤其有利的性能，并且可以允许只根据空间考虑为两个同时方向估计有效率和精确确定方向估计。第二和第三参考束可以是正交的。

依照本发明的一可选特征，该波束方向参数指示第二参考束相对于第三参考束的权重，以及该波束形状参数指示第一参考束相对于第二和第三参考束的权重。

这可以提供允许简化的解析评估并导致降低的用于从波束形状参数值和波束方向参数值中确定方向估计的复杂度函数的组合信号的尤其有效率的生成。

依照本发明的一可选特征，该组合基本上通过下式给出：

其中，y[k]代表组合信号的样本k，m[k]代表第一参考束的样本k，d_x[k]代表第二参考信号的样本k，d_y[k]代表第三参考信号的样本k，α是波束形状参数，并且 _s是波束方向参数。

这可以提供尤其有利的性能，并且可以允许只根据空间考虑为两个同时方向估计有效率和精确地确定方向估计。

按照本发明的一方面，提供了一种音频源定位的方法，其包括：接收来自包含至少三个麦克风的至少二维麦克风阵列的麦克风信号；从麦克风信号中生成至少三条参考束的信号，该三条参考束具有不同方向性；以及通过执行如下步骤生成两个声源的同时方向估计：通过组合至少三条参考束的信号生成组合信号，该组合具有反映组合信号的音频束形的形状的波束形状参数和反映组合信号的音频束形的方向的波束方向参数；生成指示组合信号的能量度量的成本度量；估计与成本度量的局部最小相对应的波束形状参数的波束形状参数值和波束方向参数的波束方向参数值；并且确定作为波束形状参数值和波束方向参数值的函数的第一声源的第一方向估计和第二声源的第二方向估计。

本发明的这些和其它方面、特征和优点可以从下文所述的实施例中变得明显并且参考下文所述的实施例得到澄清。

附图说明

将参考附图，只通过示例的方式描述本发明的实施例，在附图中：

图1例示依照本发明一些实施例的两个同时声源的声源定位装置的元件的例子；

图2例示麦克风阵列的麦克风配置的例子；

图3例示图1的装置生成的特征波束（Eigenbeam）的例子；

图4例示图1的装置的方向估计处理器的元件的例子；

图5例示权利要求1的装置生成的方向估计结果的例子；

图6例示权利要求1的装置生成的方向估计结果的例子；

图7例示权利要求1的装置生成的音频束的例子；

图8例示权利要求1的装置的方向估计的收敛性的例子；以及

图9例示图1的装置生成的特征波束的例子。

具体实施方式

图1例示依照本发明一些实施例的两个同时声源的声源定位装置的例子。该装置处理来自多个麦克风的信号，以便估计从麦克风到两个不同但同时声源的方向。该方向估计根据空间考虑来确定，而不依靠来自两个声源的音频信号的不同时间或空间特性。

图1的系统包含麦克风阵列101，在特定例子中，麦克风阵列101是二维麦克风阵列。麦克风阵列101包含未排列在单条一维线上的至少三个麦克风。在大多数实施例中，从一个麦克风到通过两个其它的麦克风的线的最短距离至少是这两个麦克风之间的距离的五分之一。

在该特定例子中，麦克风阵列101包含如图2所示在圆上均匀隔开的三个麦克风。

因此，在该例子中，使用了在平面几何中的至少三个（全方位或单向）传感器的圆形阵列。要懂得，在其它实施例中，可以使用麦克风的其它排列。还要懂得，对于使用超过三个麦克风的实施例，这些麦克风可以排列在非平面几何中，即，麦克风阵列可以是三维麦克风阵列。然而，如下描述将侧重于排列在方位面中的三个麦克风等距圆形阵列。

麦克风101与接收麦克风信号的接收电路103耦合。在图1的例子中，接收电路103被安排成如本领域的普通技术人员所熟知的那样放大、过滤和数字化麦克风信号。

接收电路103与参考处理器105耦合，参考处理器105被安排成从麦克风信号中生成至少三条参考束。该参考束是非自适应但是通过来自接收电路103的数字化麦克风信号的固定组合所生成的恒定束。在图1的例子中，参考处理器105生成三条正交特征波束。

在该例子中，麦克风阵列的三个麦克风是定向麦克风，并且特别是安排为使得主增益从连接各麦克风的位置形成的周界向外（因此，在该特定例子中，向圆形阵列的圆形的外面）指向的单向心形麦克风。单向心形麦克风的使用提供了对传感器噪声和传感器失配的灵敏度极大地得到降低的优点。然而，要懂得，在其它情形下，可以使用像全方位麦克风那样的其它麦克风类型。

将三个心形麦克风的响应分别表示成它们的主瓣（main-lobe）分别在Φ=0，2π/3和4π/3上的，和，其中θ和Φ是标准球面坐标角度。假设没有传感器噪声，则第个n心形麦克风响应在理想情况下通过下式给出：

第n个心形麦克风的幅度响应A_n和相位响应Ψ_n通过下式给出：

以及

。

在上面的方程中，c是声速，x _n和y _n是第n个麦克风的x坐标和y坐标。

使用：

和

其中r是圆形的半径，我们可以写出：

。

从三个心形麦克风中，可以使用将三个麦克风作为输入的3点离散傅立叶变换（DFT）生成三条正交特征波束。这种DFT产生三相模式，其中i=1，2，3：

其中和*表示复共轭运算符。

这些函数可以用于生成具有单极：

和两个正交偶极：

的三条参考束。

在矩阵记号中，这可以通过下式表示：

。

对于大于阵列尺寸的波长，可以忽略心形麦克风的相位分量，得出如下的特征波束响应：

。

这些特征波束的方向性图例示在图3中。

如图3所例示，第零阶特征波束E _m代表与球体相对应的单极响应，而其它特征波束代表与双球体相对应的第一阶特征波束。因此，两条第一阶特征波束是正交偶极。

因此，参考处理器105接收三个输入信号（以三个样本序列的形式），并从这些信号中生成三条参考束。在该例子中三条参考束具有不同方向特性，第一参考束基本上是非定向的，而第二和第三参考束是定向的，并且具有相同的波束形状但指向不同方向。

在每个采样时间上，从麦克风信号样本中为每条参考束生成信号样本。因此，如下描述考虑时间索引k的时间离散（采样）信号。参考处理器105从三个心形麦克风信号c₀[k]，c₁[k]和c₂[k]中生成单极信号m[k]和两个正交偶极信号d_x[k]，d_y[k]：

。

注意，从麦克风信号中生成参考束信号所需的处理是低复杂度的，并且代表低的计算资源需求。

将三个参考束信号m[k]，d_x[k]，d_y[k]馈入至估计处理器107，估计处理器107被安排成根据参考束信号生成两个同时声源的方向估计。图4更详细地并且依照本发明一些实施例例示估计处理器107的元件。

估计处理器107包含组合器401，组合器401接收参考束信号m[k]，d_x[k]，d_y[k]，并将这些信号组合成组合信号。该组合可以简单地是参考束信号的加权求和，即：

y[k]=z₁?m[k] + z₂?d_x[k] + z₃?d_y[k]，

在d_x[k]和d_y[k]对应于定向参考束而m[k]对应于非定向参考束的例子中，这可以重写为：

y[k]=z₁?m[k] + z₄?(z₅?d_x[k] + z₆?d_y[k])，

其中z₄·z₅=z₂并且z₄·z₆=z₃，以及z₅和z₆是满足准则(z₅)² + (z₆)²=1的标量值。因此，在该例子中，(z₄)²=(z₂)² + (z₃)²，并且z₅=z₂/z₄，z₆=z₃/z₄。

因此，在两条定向参考束除了它们的方向之外其它都相同的特定例子中，参数z₅和z₆控制主瓣的方向，即，由两条定向参考束的组合形成的音频束以及由三条定向参考束的组合形成的音频束的最大增益的方向。而且，由三条参考束的组合形成的所得音频束的形状通过参数z₁和z₄来控制。

因此，可以看到，参考束的加权组合导致分别反映/指示组合束的波束形状和方向的（至少一个）波束方向参数和（至少一个）波束形状参数。

在该特定例子中，该组合具体通过如下的组合来表示：

。

因此，在该特定例子中，z₁=α，z₄=1-α，z₅=cos( _s)，并且z₆=sin( _s)。

在第二和第三参考束是单位增益偶极的例子中，方括号中的求和简单地对应于沿着 _s的方向生成单位偶极。而且，由于第一参考束是单位单极，因此对z₁和z₄的限制保证了所得音频束是单位增益音频束。音频束的形状通过参数α来控制。特别是，对于α=1，所得音频束是单位单极，而对于α=0，所得音频束是沿着方向 _s的单位偶极。

的确，所得音频束图像下式那样给出：

其中，α是控制第一阶波束图形状的波束形状参数，而 _s是在方位平面内旋转波束图的波束方向参数。

因此，在该例子中，响应于设置第二参考束相对于第三参考束的权重（偶极的相对权重）的波束方向参数 _s和设置第一参考束（单极）相对于第二和第三参考束（即，相对于组合偶极）的权重的波束形状参数α作出显性组合。

然而，要懂得，在一些实施例中，波束形状参数和波束方向参数可能是分别反映波束形状和方向的间接参数。因此，该组合可能基于每一个可能反映波束形状和波束方向两者的特性的不同权重值。例如，组合操作可以直接使用权重z₁，z₂，z₃。因此，波束形状参数和波束方向参数无需显性使用，而是可能代表可以从显性用在组合中的特定物理权重值中导出的虚拟、理论或间接参数。因此，波束形状参数和波束方向参数可以是组合权重的函数。

将组合器与从组合信号中生成成本度量的成本处理器403耦合。生成成本度量作为组合信号的能量（特别是功率）的指示。在该特定例子中，简单地计算成本度量作为组合信号的功率：

。

要懂得，在许多实施例中，成本度量可被确定为低通滤波值，特别是可以在适当数量的样本上被平均化。

成本处理器403与最小化处理器405耦合，最小化处理器405被安排成估计与成本度量的局部最小相对应的波束形状参数的波束形状参数值和波束方向参数的波束方向参数值。因此，最小化处理器405确定导致成本函数达到局部最小的波束方向参数和波束形状参数的值。在一些情形下，局部最小也是与波束形状参数和波束方向参数值被确定为导致成本度量值最低并且由此组合信号的功率最低的情形相对应的全局最小。

在只有两个声源的情形下，最小值常常可能对应于两个声源的完全衰减，因此对应于组合信号的零功率。然而，在实际情形下，由于噪声、声音反射等，成本度量通常较高。

在特定情况下，最小化处理器405进一步与组合器401耦合，并且直接控制用于组合的波束形状参数和波束方向参数值。因此，在该例子中，成本函数的最小化通过最小化处理器405控制用于组合参考束信号的参数值来实现。

要懂得，可以使用确定导致成本函数最小的参数值的不同做法。例如，最小化处理器405可以生成一大组参数值并将这些参数值提供给组合器401，并且可以监视所得成本度量。

例如，对于每个采样时间，最小化处理器405可以生成包含波束形状参数值和波束方向参数值的大量参数集合。例如，可以生成α的值来自离散序列0，0.01，0.02，0.03，...，0.99和 _s的值来自离散序列1，π/100，2π/100，3π/100，...，99π/100的所有可能集合。对于这些集合的每一个，可以进行组合并可以计算成本度量。然后，最小化处理器405可以全面搜索成本度量值以找出最低值。然后，给出所希望波束形状参数值和波束方向参数值作为这个集合的值。

最小化处理器405与方向估计器407耦合，方向估计器407接收波束形状参数值和波束方向参数值。方向估计器407转到确定作为所接收波束形状参数值和波束方向参数值的函数的第一声源的第一方向估计和第二声源的第二方向估计。

方向估计器407特别基于导致成本度量最小的波束形状参数和波束方向参数的值也导致成本函数关于波束形状参数和波束方向参数的导数是零的事实。这个事实允许解析地/在理论上分析成本函数以得出表达声源的方向的函数，其为波束形状参数和波束方向参数的函数。因此，方向估计器407将使特定测量的成本度量最小的特定做法与这种操作允许解析函数用于从理论成本函数中计算方向估计的事实相组合。

因此，在该系统中，计算第一方向估计和第二方向估计作为对于波束形状参数值和波束方向参数值对应于成本函数关于波束形状参数和波束方向参数的至少一个的解析导数是零的方向估计。

在下文中将针对该例子的特定组合，即，针对下式描述示范性的解析导数：

。

然而，要懂得，也可以将相同的做法应用于其它组合和其它参数。

在该例子中，假设存在处在方位面内（即，处在麦克风阵列的平面内）的两个不同声源。

可以将成本函数定义成：

其中ε{?}表示平均（或低通滤波）操作。

假设两个定向源n_i[k]（i=1，2）在方位角 _ni上，则组合信号值由下式给出：

。

假设声音信号是不相关的，则得出：

其中和是是声源的方差。

然后，可以通过求关于波束形状参数α和波束方向参数s的微分来分析成本函数，得出：

其中

以及

其中

。

对于成本度量的局部最小，成本函数的导数是零。如可以看到的那样，对于上面的方程，如果则情况可能就是这样的，

其得出：

。

然而，这样的解对应于单声源方向，而假设的是在该情形下存在两个声源。而且，这个解可以示出为一个鞍点（saddle-point），于是，其不是稳定解。于是，忽略这个解。

还可以看到，当下式成立时，成本函数导数是零：

。

这导致：

，

其只有下式成立时才满足：

。

因此，上面的方程表达了成本函数是零的作为波束形状参数值和波束方向参数值的函数的声源的方向。由于成本函数对于局部最小值是零，因此被确定导致成本度量最小的波束形状参数值和波束方向参数值于是对应于成本函数导数是零的参数值。于是，可以将这些值插入上面的方程中，以便为两个源提供方向估计。

应该注意到，虽然上面的方程由于±运算引入了不确定性，但两个选项均是有效的。的确，选项之间的切换仅仅对应于在两个声源之间切换方向估计（即，索引i所指的声源之间的切换）。

因此，图1的系统为两个同时声源提供了有效率的方向估计。已经发现该做法提供了具有精确结果以及具有低复杂度和资源要求的高度有益性能。

在上面的特定例子中，使用了计算要求相对高的做法用于确定与成本度量的最小相对应的参数值。在下文中，将描述计算更有效率但高度精确和可靠的做法。

在如下的例子中，通过波束形状参数和波束方向参数值的迭代更新具体确定成本度量的局部最小。因此，根据当前值，针对每个新采样时间确定更新值，并将其添加至当前值，以生成用于随后采样时间的组合的参数值。因此，只为每个样本确定一个组合结果，并根据当前值，针对随后的采样时间确定新参数值。因此，该做法可能最初未提供正确的参数值，但将朝着正确值收敛。

该特定做法将梯度搜索过程用于波束形状参数和波束方向参数两者，但要懂得，梯度搜索在原则上只应用于参数中的一个参数。

因此，在该例子中，更新值依赖于成本函数的导数值。特别是，波束形状参数的更新值依赖于成本函数关于波束形状参数的导数值，并且波束方向参数的更新值依赖于成本函数关于波束方向参数的导数值。

更详细地，通过基于最陡下降更新的自适应算法生成对于值α和 _s的估计，其中更新步骤处于与成本函数的表面相反的方向。因此：

以及

其中^表示估计值， _q表示关于变量q的梯度，μ是控制自适应算法的动态行为的步长大小。

可以将导数（梯度）确定为：

以及

其中，如前所述的y[k]通过下式确定：

。

由于梯度计算取决于参考束信号m[k]，d_x[k]，d_y[k]的能量，因此将更新方程归一化常常是有益的。这可以得出：

以及

其中是被包括用于将自适应归一化的全方位响应的功率估计，ε是用于防止零除法的小值。

注意到，该做法使两个参数的更新值可以得到独立确定。尤其，一个参数的当前更新值不取决于另一个参数的当前更新值，而只取决于以前的值。

这种做法可以提供梯度搜索的高效做法和组合，以及计算方向估计的特定基于零导数做法导致了确定方向估计的精确做法但保持了低复杂度和低计算资源要求。

作为例子，已经针对如下三组源地点模拟了自适应算法：

注意到，对于每组声源，参数值的两个最佳解是有效的（两者具有零的成本函数值）。一个最佳解针对α的正值，而另一个最佳解针对α的负值。然而，两个解导致两个声源的相同定向估计。

在模拟中，使用了具有单位方差的两个无关高斯噪声序列源。此外，将无关噪声加入单极方差为0.0001和偶极方差为0.000058的单极信号和两个正交偶极信号中（对应于球面各向同性噪声场）。

方向估计 _ni的估计值的总平均结果（针对10000次独立运行）例示在图5和6中。与三组声源的组合信号相对应的波束图例示在图7中。如可以看到的那样，没有什么东西处在正确的方位角上。而且，显而易见，对于第1组，除了比例因子之外，波束图的形状与第3组相似。这个比例因子是由第1组的波束图由α的正值构成、而第3组的波束图由α的负值构成的事实引起的。对于在0与1之间的α值，波束图的主瓣具有单位增益因子。图8例示总平均成本度量的收敛性。

在一些实施例中，估计处理器107被安排将波束形状参数限制在降低的操作间隔上。该间隔特别可以将该值限制成导致第一参考束的最大权重小于至少三条参考束的第二和第三参考束的组合权重的权重。在特定例子中，这可以简单地通过要求α<1/2来达到。

将波束形状值限制成单极的权重小于组合两个单独参考束偶极所得的偶极保证了在方位面中存在至少两个缺口。

在前面的描述中，假设两个声源处在方位面内。特别是，参考束方程：

通过假设仰角参数θ等于π/2并且由此sin(θ)=1而得到简化。然而，在一些实施例中，将声源的仰角考虑进来可能是有利的。在这样的情况下，组合信号的波束形状可以通过下式来表示：

使用成本函数

以及

得出

，

其中每个声源的仰角用θ_ni表示。

求这个函数关于波束形状参数α和波束方向参数 _s的微分得出：

其中

以及

其中

。

因此，导数函数对应于针对二维情况确定的但修改成把仰角参数θ_ni考虑进来的函数。尤其，设置θ_ni=π/2导致上面的方程简化成前面导出的那些。

如之前那样，要求导数为零提供了与如下相对应的不稳定解：

因此，

。

忽略这个解提供如下解：

。

因此，如可以看到的那样，导数是零的要求导致像针对二维情况（其中假设声源处在方位面上）那样从参数值中确定方向估计的相应方程。然而，如例示的那样，方向估计被修改成也依赖于仰角。注意，如果使用以前简化的二维方程，则声源在方位面之外的仰角（麦克风阵列的仰角）导致在二维平面中引入误差。

在一些实施例中，因此可能对二维方向估计补偿声源在平面之外的仰角。作为简单例子，用户可以人工确定潜在源相对于麦克风阵列的仰角，并且可以人工输入仰角。例如，对于麦克风阵列位于会议桌中心的会议应用，可以确定与围桌而坐的人们的典型发言高度相对应的仰角，并将其馈送给装置。然后将这个仰角用作上面方程中的固定预定校准值。

这样的做法可以提高所确定方向估计的精度。然而，要懂得，对于许多实际应用，由声源的仰角引入的误差是微不足道的，可以简单地予以忽略。

在一些实施例中，该装置可以进一步配置成针对二维方向估计生成三维方向估计。特别是，除了方位角之外，也可以确定仰角。

在一些实施例中，参考处理器105被进一步安排成生成像沿着从第二和第三参考束的峰值增益形成的平面延伸出来的方向具有峰值增益的定向波束那样的第四参考束。这样的波束特别可以使用三维麦克风阵列生成。例如，除了x，y平面的三个麦克风M₁，M₂，M₃（参考图2）之外，该麦克风阵列可以进一步包含布置在z方向，即，z≠0的第四麦克风。

在特定例子中，该麦克风阵列可以包含放置在正四面体的各点上的四个麦克风。因此，可以使用对称球形麦克风排列。与平面麦克风阵列类似，在球形麦克风排列中使用定向（例如，心形）麦克风具有对传感器噪声和传感器失配的灵敏度极大降低的优点。

而且，在该例子中，参考处理器105可以组合信号来生成偶极的形状与第二和第三参考束的偶极相似的第四参考束。特别是，该偶极可以是正交的和除了取向（方向）之外都相同的部分。特别是，参考处理器105可以生成如下参考束：

其中θ是仰角，φ是方位角。因此，除了以前二维例子的三条参考束之外，还生成沿着z轴引导的第三偶极。该参考束例示在图9中。

然后，该装置可以转到首先根据前三条参考束，即，根据E _m，和执行如前所述的二维方向估计过程。

如上所证明，当下式成立时导数是零：

因此，基于前三条参考束的方向估计识别出三维空间中的一组点。上面的方程具体定义了与（旋转对称）锥体的外围相对应的一组点，其中锥体源于坐标系的中心。位于锥体外围上的点上的所有声源都导致零导数。与x-y平面相交的锥体外围的点对应于以前的二维估计。

该装置可以进一步转到根据第一、第二和第四参考束，即，根据E _m，和进行完全相同的操作。因此，针对这三条参考束确定导致成本函数零导数的第二组波束形状参数和波束方向参数值。该处理等效于针对x-y平面的处理，但对应于x-z平面。因此，确定的波束形状参数和波束方向参数值定义可能声源定位的第二锥体。

然后，该装置可以转到根据两个过程，因此根据x-y平面的波束形状参数和波束方向参数值和x-z平面的波束形状参数和波束方向参数值两者确定三维估计。

特别是，x-y平面估计导致x-y平面的成本函数的导数是零的第一组三维点（第一锥体），并且x-z平面估计导致x-z平面的成本函数的导数是零的第二组三维点（第二锥体）。由于声源位置必须满足两个要求，因此该组可能的声源位置对应于包括在两组点中的点。因此，该组可能的声源位置对应于两个锥体的交叉。因而，该组可能的声源位置定义三维空间中的两条直线，两者都源于坐标系的中心。

交点之间的选择可以根据它们对应于预定增益值，即，它们相对于坐标系的中心处在特定距离上的要求作出。特别是，在所有参考束都是单位增益波束的例子中，可以通过该组可能声源位置与单位球的交叉找出声源点。这导致两个特定点被确定出来。可以将该两点（x_i，y_i，z_i）（i=1，2）转换成球面坐标：

以及

其中arctan[·]是四象限反正切运算符。

因此，将第四参考束和等效处理用在两个平面中可以用于确定三维方向估计。

要懂得，所描述的做法可以使用三个平面的任何两个，即，三维方向估计可替代地可以基于E _m，和和E _m，和参考束组，或E _m，和和E _m，和参考束组。

在一些实施例中，可以对所有三个平面执行所述算法。然后，方向估计可以基于平面中估计角之差最大的两个平面。这是因为我们知道当两个声源的角度之差（在各自平面观察到）变得小时（例如，当α开始接近1/2时）该算法的自适应行为变得较差。因此，我们选择α/(α-1)最接近0（零）的两个平面。

要懂得，方向估计可以有利地用在许多情形下以及用于许多应用。例如，可以形成例如可用于响应方向估计掌控的定向束或零的声源分开的基础。例如，使用任何适当波束形成技术，可以在声源的估计方向上形成两条波束（当声源代表想要的信号时），或可以在声源的估计方向上形成两个零（当声源代表不希望的信号时）。

要懂得，为了清楚起见，上面的描述已经参照不同的功能电路、单元和处理器描述了本发明的实施例。然而，显而易见，可以不偏离本发明地使用不同功能电路、单元或处理器之间的任何适当功能分配。例如，例示成由分立电路、处理器或控制器执行的功能可以由相同电路、处理器或控制器执行。因此，对特定功能单元或电路的引用只是要被视作对提供所描述功能的适当部件的引用，而不是指示严格的逻辑或物理结构或组织。

本发明可以以包括硬件、软件、固件或它们的任何组合的任何适当形式加以实现。本发明可选地可以至少部分实现成运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明实施例的元件和组件可以在物理上、在功能上和在逻辑上以任何适当方式加以实现。的确，该功能可以实现在单个单元中，实现在多个单元中，或实现成其它功能单元的一部分。这样，本发明可以实现在单个单元中，或可以在物理上和在功能上分布在不同单元、电路和处理器之间。

术语电路、处理器、控制器等并不暗示特定结构或实施方案，而是可以以任何适当形式加以实现。特别是，电路例如可以是作为可执行代码实现在适当处理器上的处理算法。

尽管已经结合一些实施例描述了本发明，但本发明并非旨在限于这里阐述的特定形式。而是，本发明的范围只由所附权利要求书限定。另外，尽管一特征看上去是结合特定实施例加以描述的，但本领域技术人员要认识到，可以按照本发明组合所描述的实施例的各种特征。在权利要求书中，术语包含并不排除其它元件或步骤的存在。

而且，尽管分别列出，但多个部件、元件、电路或方法步骤可以例如由单个电路、单元或处理器加以实现。另外，尽管各个特征可以包括在不同的权利要求中，但可能可以有利地将它们组合，并且包括在不同权利要求中并不暗示特征的组合是不可行的和/或不利的。此外，一特征包括在一类权利要求中并不暗示局限于这个类别，而是指示该特征适当时可同样应用于其它权利要求类别。而且，权利要求书中的特征的次序并不暗示这些特征必须起作用的任何特定次序，尤其，方法权利要求中的各个步骤的次序并不暗示必须按这个次序执行这些步骤。而是，可以按任何适当次序执行这些步骤。另外，单数引用并不排除多个。因此，对“一”、“一种”、“第一”、“第二”等的引用并不排除多个。权利要求书中的参考符号仅仅提供作为澄清的例子，不应该理解为以任何方式限制权利要求的范围。

Claims

1.一种音频源定位装置，其包含：

- 接收电路（103），用于接收来自包含至少三个麦克风的至少二维麦克风阵列（101）的麦克风信号；

- 参考电路（105），用于从麦克风信号中生成至少三条参考束的信号，该三条参考束具有不同方向性；以及

- 估计电路（107），用于生成两个声源的同时方向估计，该估计电路包含：

通过组合所述至少三条参考束的信号生成组合信号的电路（401），该组合具有反映组合信号的音频束形的形状的波束形状参数和反映组合信号的音频束形的方向的波束方向参数，

生成指示组合信号的能量度量的成本度量的电路（403），

估计与成本度量的局部最小相对应的波束形状参数的波束形状参数值和波束方向参数的波束方向参数值的电路（405），以及

确定作为波束形状参数值和波束方向参数值的函数的第一声源的第一方向估计和第二声源的第二方向估计的电路（407）。

2.如权利要求1所述的音频源定位装置，其中，该估计电路（107）被安排成响应组合信号、波束形状参数的当前值和波束方向参数的当前值迭代地确定波束形状参数和波束方向参数的至少第一参数的更新值，并且从第一参数的更新值和当前值中生成第一参数的新值。

3.如权利要求2所述的音频源定位装置，其中，该更新值依赖于成本度量关于第一参数的导数值。

4.如权利要求2所述的音频源定位装置，其中，该估计电路（107）被安排成独立地确定波束形状参数和波束方向参数两者的更新值。

5.如权利要求1所述的音频源定位装置，其中，该估计电路（107）被安排成将梯度搜索过程用于波束形状参数和波束方向参数的至少一个来估计局部最小。

6.如权利要求1所述的音频源定位装置，其中，该估计电路（107）被安排成将波束形状参数限制成小于至少三条参考束的第二和第三参考束的组合权重的至少三条参考束的第一参考束的最大权重的数值。

7.如权利要求1所述的音频源定位装置，其中，该第一方向估计和该第二方向估计是平面内的二维方向估计，并且该估计电路被安排成对该第一方向估计和该第二方向估计补偿声源在平面之外的仰角。

8.如权利要求1所述的音频源定位装置，其中，该麦克风阵列（101）是包含至少四个麦克风的三维麦克风阵列；

该参考电路（105）被安排成进一步生成第四参考束，并且该估计电路（107）包含：

通过组合第四参考束和所述至少三条参考束的至少两条其他参考束的信号生成进一个组合信号的电路（401），该组合具有反映进一个组合信号的音频束形的形状的进一个波束形状参数和反映进一个组合信号的进一个音频束形的方向的进一个波束方向参数，

生成指示进一个组合信号的能量度量的进一个成本度量的电路（403），

估计与进一个成本度量的局部最小相对应的进一个波束形状参数的进一个波束形状参数值和波束方向参数的进一个波束方向参数值的电路（405）；以及

其中，确定第一方向估计和第二方向估计的电路（407）被安排成响应进一个波束形状参数值和进一个波束方向参数值来进一步确定第一方向估计和第二方向估计。

9.如权利要求8所述的音频源定位装置，其中，该波束形状参数值和该波束方向参数表征成本度量关于波束形状参数和波束方向参数的至少一个的导数是零的第一组三维点；并且该进一个波束形状参数值和该进一个波束方向参数表征进一个成本度量关于进一个波束形状参数和进一个波束方向参数的至少一个的导数是零的第二组三维点；并且其中，该估计电路（107）被安排成将第一方向估计和第二方向估计确定成包含在第一组三维点和第二组三维点两者中的至少两个三维点的方向估计。

10.如权利要求9所述的音频源定位装置，其中，该估计电路（107）被安排成响应所述至少两个三维点对应于预定增益值的要求来选择所述至少两个三维点。

11.如权利要求1所述的音频源定位装置，其中，该估计电路（107）被安排成将第一方向估计和第二方向估计确定成对于波束形状参数值和波束方向参数值成本函数关于波束形状参数和波束方向参数的至少一个的解析导数是零的方向估计。

12.如权利要求1所述的音频源定位装置，其中，至少三条参考束的第一参考束是单极，而至少三条参考束的至少第二参考束和第三参考束是方向不同的偶极。

13.如权利要求11所述的音频源定位装置，其中，该波束方向参数指示第二参考束相对于第三参考束的权重，并且该波束形状参数指示第一参考束相对于第二和第三参考束的权重。

14.如权利要求1所述的音频源定位装置，其中，该组合实质上通过下式给出：

其中，y[k]代表组合信号的样本k，m[k]代表第一参考束的样本k，d_x[k]代表第二参考信号的样本k，d_y[k]代表第三参考信号的样本k，α是波束形状参数以及 _s是波束方向参数。

15.一种音频源定位的方法，其包含：

接收来自包含至少三个麦克风的至少二维麦克风阵列（101）的麦克风信号；

从麦克风信号中生成至少三条参考束的信号，该三条参考束具有不同方向性；以及

通过执行如下步骤生成两个声源的同时方向估计：

通过组合至少三条参考束的信号生成组合信号，该组合具有反映组合信号的音频束形的形状的波束形状参数和反映组合信号的音频束形的方向的波束方向参数，

生成指示组合信号的能量度量的成本度量，

估计与成本度量的局部最小相对应的波束形状参数的波束形状参数值和波束方向参数的波束方向参数值，以及

确定作为波束形状参数值和波束方向参数值的函数的第一声源的第一方向估计和第二声源的第二方向估计。