CN104041075B

CN104041075B - 音频源位置估计

Info

Publication number: CN104041075B
Application number: CN201380005646.2A
Authority: CN
Inventors: P.科奇奇安; O.奧维特杰斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2012-01-17
Filing date: 2013-01-08
Publication date: 2017-10-24
Anticipated expiration: 2033-01-08
Also published as: JP2015507422A; BR112014017279A8; RU2014133745A; WO2013108147A1; JP6225118B2; BR112014017279B1; BR112014017279A2; RU2611563C2; US9351071B2; TR201807219T4; EP2810453A1; US20140376741A1; EP2810453B1; CN104041075A

Abstract

一种用于确定针对音频源的位置估计的装置包括两个话筒(M1,M2)和声学元件(203)，所述声学元件(203)将声学效应提供给从声源位置到第一话筒(M1)的声音。声学效应相对于话筒(M1,M2)之间的轴(201)是不对称的。位置电路(305)响应于在话筒(M1,M2)处的到达时间来估计针对声源的在轴的不同侧的两个可能的位置。估计器(307)确定指示第一话筒信号的声学效应和对于在轴(201)一侧的声源的声学效应的预期特性相匹配的程度的声学效应量度。另一电路(309)响应于声学效应量度通过在两个可能的位置之间进行选择来确定位置估计。方法可以基于在两个话筒处的到达时间来解析与位置确定相关联的位置确定中的不定性。

Description

音频源位置估计

技术领域

本发明涉及针对音频源的位置确定，并且特别地但不排他地，涉及基于针对信号的在两个话筒处的到达时间差的位置估计。

背景技术

在许多应用中，音频源的位置的知识是有益的并且可以例如被用来优化从音频源捕获的音频的信号处理。例如，针对免提通信和电话会议应用的信号处理可以取决于声源的特定位置以及典型地仅仅角方向而被优化。因此，许多音频处理系统包括允许声源的(例如角)位置被检测和跟踪的音频跟踪系统。

用于确定音频源的位置的一个方法使用话筒阵列，其中话筒信号之间的相对差异被分析以便估计源的位置。使用话筒阵列的常见定位方法是主要基于计算在话筒中的每一个上的声波的到达时间差的。

使用紧密相间的话筒的其它定位方法是基于构建一阶差分响应的，其通过组合两个话筒信号并且使用优化准则在声源的方向上指向空来实现。

使用三个话筒，声源相对于阵列的位置能够基于到达时间以及实际上基于到达时间中的差在360度(水平)方位角平面中被确定。然而，为了降低所关联的处理的成本和复杂性，期望尽可能地降低话筒的数目，并且因此期望使用仅两个话筒来执行位置确定。

采用两个话筒，适当的到达时间计算可以允许特定位置的确定，即典型地在水平平面中的位置确定。然而，这样的计算要求来自音频源的传输的时间为已知的，并且因此典型地要求音频源与位置确定电路同步。这典型地是高度不切实际的，并且因此位置确定是典型地基于在话筒之间的到达时间测量结果的差的。对于两话筒实施方案，这意味着仅角方向能够典型地在到声源的距离不是已知的情况下被确定。然而，对于许多应用来说，这样的角位置确定是高度有利的并且实际上对于许多应用来说是足够的。

然而，两话筒设置的另一问题是它像图1中所图示的那样围绕互连两个话筒的轴是完全对称的。在该例子中，两个话筒M1和M2被用来基于两个话筒M1和M2之间的时间差来确定对于声源S的角方向A。

因此，系统确定针对话筒M1和M2的波前（wavefronts）之间的到达时间差。如果源位于远场中，则声波能够被假定成是平面的并且与彼此平行。使用三角学，角度按下式与到达时间差(TDOA) t (以秒为单位)相关：

(1)

其中d是话筒间间距，并且c是声音在空气中的速度。角度A因此能够由下式来确定：

(2)

其中A是在范围[0,180^o]内。

然而，这种方法具有内在的不定性并且仅能够确定在范围[0,180^o]内的A。因此，它不提供关于源在360度方位角平面中的方向的足够的信息。具体地，它不能够区分声源是位于位置S处还是幻象（phantom）位置G处。

因此，针对声源位置估计的改进的方法将是有利的，并且特别地，允许增加的灵活性、便利的操作和/或实施方案、较低的复杂性、降低的成本、降低的计算要求和/或改进的性能的方法将是有利的。特别地，适合于改进的声源位置确定以及具体地对于两话筒设置允许不定性解析的方法将是有利的。

发明内容

因此，本发明寻求优选地单独地或者以任何组合方式缓解、减轻或者消除上面提到的缺点中的一个或多个。

根据本发明的一个方面，提供了用于确定针对音频源的位置估计的装置，所述装置包括：用于生成第一话筒信号的第一话筒；用于生成第二话筒信号的第二话筒；将声学效应提供给从声源位置到第一话筒的声音的声学元件，声学效应相对于第一话筒与第二话筒之间的轴是不对称的；位置处理器，其包括：位置估计器，其用于响应于针对来自声源的音频的在第一话筒和第二话筒处的到达时间来估计针对声源的第一可能的位置和第二可能的位置，第一可能的位置是在轴的一侧的第一区域中的位置并且第二可能的位置是在轴的相对侧的第二区域中的位置；声学效应估计器，其用于确定针对第一话筒信号的第一声学效应量度，第一声学效应量度指示第一话筒信号的声学效应和对于第一区域中的声源的声学效应的预期特性相匹配的程度；位置选择器，其用于响应于第一声学效应量度通过在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。

本发明可以允许针对声源的改进的和/或便利的位置确定/估计。特别地，位置确定/估计可以使用仅两个话筒被执行。

该方法是基于如下实现的：物理声学元件能够被用来打破声源位置之间的对称性，并且话筒信号中的不对称声学效应的估计能够被用来解析不同的可能的位置估计之间的不定性。

声学效应的预期特性可以是预先确定的特性。预期特性可以反映声学效应如何影响针对第一区域的声源位置。声学效应对于在第一区域中和在第二区域中的声学效应来说将是不同的，并且预期特性能够反映这种差异。声学效应可以被布置成相对于第二区域对于第一区域是更强烈的，或者反之亦然。预期特性可以是不存在声学效应。例如，声学效应对于第二区域中的声源来说可能是显著的，以及对于第一区域中的声源来说可能是可忽略的，并且对于第一区域的预期特性因此可以是不存在(显著的)声学效应。

位置估计器可以具体地被布置成响应于针对来自声源的音频的在第一话筒与第二话筒之间的到达时间差来估计第一可能的位置和第二可能的位置。

位置可以是一维位置。例如，第一和第二可能的位置可以在将它们限制于一维位置的约束条件下被确定。位置可以具体地是从话筒布置朝声源的方向，诸如角方向。

第一和第二区域可以对应于位置估计器在其中确定两个可能位置的位置平面的两个半平面。两个半平面在这样的情况下被话筒之间的轴划分。位置平面可以具体地是水平平面。位置平面可以包括话筒之间的轴。

选择可以是基于与门限的比较的。作为特定例子，如果声学效应量度超过门限，则第一可能的位置可以被选择以及否则第二可能的位置被选择。

依据本发明的可选特征，第一声学效应量度相对于第一话筒信号的声学效应和对于第二区域中的声源的声学效应的预期特性相匹配的程度来指示第一话筒信号的声学效应和声学元件对于第一区域中的声源的预期声学效应相匹配的程度。

这在许多场景中可以提供改进的位置确定并且可以特别地提供在第一和第二可能的位置之间的更可靠的选择。对于第一区域或第二区域的预期声学效应可以是空效应，即可以预期：声学效应对于第一区域或第二区域来说是可忽略的。

依照本发明的可选特征，声学效应相对于轴是不对称地频率相关的，并且声学效应估计器被布置成响应于第一信号的频率响应与对于第一区域中的声源的预期频率响应之间的相关程度的确定来生成第一声学效应量度。

这可以便利于处理和/或可以提供更可靠的选择和/或可以便利于声学元件的实施。声学效应可以展示从音频源到第一话筒的频率传递函数，所述频率传递函数对于两个区域来说是不同的。预期特性可以具体地是针对第一话筒信号的预期频域特性。

在一些实施例中，声学效应估计器可以被布置成响应于第一信号的频率响应与对于第二区域中的声源的预期频率响应之间的相关程度的确定来生成第一声学效应量度。

依照本发明的可选特征，声学效应是不对称地频率相关的；并且声学效应估计器包括滤波器以用于对第一话筒信号进行滤波以便生成第一滤波的话筒信号，以及被布置成响应于第一滤波的话筒信号来确定第一声学效应量度。

这在许多实施例中可以提供在两个可能的位置之间的更可靠的选择。在许多场景中，声学元件可以提供在特定频率间隔中是更显著的和/或更不对称的声学效应，并且通过明确地考虑这样的频率间隔中的特性，更可靠的选择能够被实现。

依照本发明的可选特征，声学元件被布置成使第一话筒从第一区域中的声源接收反射，但不从第二区域中的声源接收反射。

这可以提供特别显著的且不对称的效应，其在许多场景中可以提供在两个可能的位置之间的更可靠的选择。特别地，由于直接路径与间接路径之间的相消干涉，它可以在许多实施例中提供显著的切口(notches)。这样的切口在话筒信号中可以被特别可靠地检测到，并且尤其即使声源信号的频率响应不是已知的也常常可以是可检测的。

依照本发明的可选特征，预期特性是由来自第一区域中的声源的直接声分量与反射声分量之间的干涉产生的干涉效应。

这可以提供特别显著的且不对称的效应，其在许多场景中可以提供在两个可能的位置之间的更可靠的选择。具体地，它常常可以是能够相对容易地在第一话筒中被检测到的特性。

依照本发明的可选特征，预期特性是干涉频率响应。

这在许多场景中可以提供在两个可能的位置之间的特别可靠的选择。特别地，在特定频率处的切口的程度可以被用来检测声源是被定位在第一区域中还是在第二区域中。

依照本发明的可选特征，声学元件仅存在于轴的一侧。

这可以便利于处理和/或可以提供更可靠的选择和/或可以便利于声学元件的实施。特别地，它可以在许多实施例中提供用于生成高度不对称的声学效应的低复杂性方法。

依照本发明的可选特征，声学效应估计器被布置成响应于第一话筒信号与第二话筒信号的比较来确定第一声学效应量度。

这在许多场景中可以提供改进的位置确定并且可以特别地提供在第一和第二可能的位置之间的更可靠的选择。在许多实施例中，它可以提供对于从音频源再现的音频的特性(例如频率分布)中的变化的增加的不灵敏性。

依照本发明的可选特征，所述装置进一步包括：第二声学元件，其为从声源位置到第二话筒的声音提供第二声学效应，第二声学效应相对于轴是不对称的；并且其中位置处理器包括：第二声学效应估计器，其用于确定针对第二话筒信号的第二声学效应量度，第二声学效应量度指示第二话筒信号的声学效应和对于第二区域中的声源的声学效应的预期特性相匹配的程度；并且其中位置选择器被布置成响应于第二声学效应量度通过进一步在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。

这在许多场景中可以提供改进的位置确定并且特别地可以提供在第一和第二可能的位置之间的更可靠的选择。

依照本发明的可选特性，位置选择器被布置成：如果第一声学效应量度超过第二声学效应量度则选择第一可能的位置以及如果第二声学效应量度超过第一声学效应量度则选择第二可能的位置。

依照本发明的可选特征，声学元件的最近点被定位离第一话筒不超过10 cm。

这在许多场景中可以提供改进的位置确定和/或可以提供更实用的实施方案。特别地，它可以保证近场效应能够被忽略。

依照本发明的可选特征，第一话筒与第二话筒之间的距离不少于1 cm并且不超过50 cm。

这在许多场景中可以提供改进的位置确定和/或可以提供更实用的实施方案。

根据本发明的一个方面，提供了用于根据来自第一话筒的第一话筒信号和来自第二话筒的第二话筒信号来确定针对音频环境中的音频源的位置估计的装置，所述音频环境包括将声学效应提供给从声源位置到第一话筒的声音的声学元件，声学效应相对于第一话筒与第二话筒之间的轴是不对称的；所述装置包括：用于接收第一话筒信号的第一接收机；用于接收第二话筒信号的第二接收机；位置估计器，其用于响应于针对来自声源的音频的在第一话筒和第二话筒处的到达时间来估计针对声源的第一可能的位置和第二可能的位置，第一可能的位置是在轴的一侧的第一区域中的位置并且第二可能的位置是在轴的相对侧的第二区域中的位置；声学效应估计器，其用于确定针对第一话筒信号的声学效应量度，声学效应量度指示第一话筒信号的声学效应和对于第一区域中的声源的声学效应的预期特性相匹配的程度；位置选择器，其用于响应于声学效应量度通过在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。

根据本发明的一个方面，提供了用于根据来自第一话筒的第一话筒信号和来自第二话筒的第二话筒信号来确定针对音频环境中的音频源的位置估计，所述音频环境包括将声学效应提供给从声源位置到第一话筒的声音的声学元件，声学效应相对于第一话筒与第二话筒之间的轴是不对称的；所述方法包括：接收第一话筒信号；接收第二话筒信号；响应于针对来自声源的音频的在第一话筒和第二话筒处的到达时间来估计针对声源的第一可能的位置和第二可能的位置，第一可能的位置是在轴的一侧的第一区域中的位置并且第二可能的位置是在轴的相对侧的第二区域中的位置；确定针对第一话筒信号的声学效应量度，声学效应量度指示第一话筒信号的声学效应和对于第一区域中的声源的声学效应的预期特性相匹配的程度；以及响应于第一声学效应量度通过在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。

本发明的这些和其它方面、特征以及优点从在下文中所描述的(一个或多个)实施例将是明显的，并且将参考在下文中所描述的(一个或多个)实施例而被阐明。

附图说明

将参考附图仅通过例子对本发明的实施例进行描述，在附图中：

图1是依照现有技术的用于估计声源的位置的布置的例子的图解说明；

图2是依照本发明的一些实施例的用于估计声源的位置的布置的例子的图解说明；

图3图示了依照本发明的一些实施例的用于确定针对音频源的位置估计的系统的元件的例子；

图4是依照本发明的一些实施例的用于估计声源的位置的布置的例子的图解说明；

图5-7是针对用于估计声源的位置的布置的频率响应的例子的图解说明；

图8是针对用于估计声源的位置的布置的脉冲响应的例子的图解说明；

图9图示了依照本发明的一些实施例的用于确定针对音频源的位置估计的系统的元件的例子；

图10是依照本发明的一些实施例的用于估计声源的位置的布置的例子的图解说明；以及

图11是依照本发明的一些实施例的用于估计声源的位置的布置的例子的图解说明。

具体实施方式

以下描述集中于适用于对声源进行位置估计的本发明的实施例，其使用在仅两个话筒处的到达时间差(TDOA)来确定朝音频源的角方向。然而，应当了解，本发明不限于本申请，而是可以被应用于确定声源的位置的许多其它应用。

图2图示了针对本方法的设置的配置的例子。类似于图1，系统采用两个话筒M1和M2，它们以到彼此的给定距离被定位。在所描述的方法中，声音从声源S到两个话筒M1和M2的到达时间差被用来首先生成两个可能的位置。特别地，在话筒M1、M2之间的轴201左边的半平面中的第一可能的位置被生成并且在右边的半平面中的第二可能的位置被生成。因为TDOA对于围绕话筒M1、M2之间的轴201的对称位置来说将是相同的(与仅能够确定在180°范围内的位置的TDOA算法的角位置估计A相对应)，所以TDOA算法将不能够区分对称位置。

然而，在图2的方法中，引入了声学元件203，其将声学效应提供给从声源S到第一话筒M1的声音。此外，声学效应相对于话筒之间的轴201是不对称的。声学元件203因此取决于声源是在左半平面中还是在右半平面中而将差异引入到来自第一话筒信号的信号。

在该方法中，这种引入的不对称性被用来在两个可能的位置之间(以及在该例子中具体地在两个可能的方向之间)进行选择，即以便确定声源是在图2的位置S还是G处。这通过利用如下事实来完成：声学元件203对第一话筒信号的声学效应是可预测的，并且如果声源位于左半平面中则来自第一话筒M1的话筒信号将因此展示与针对左半平面的物理效应相对应的属性，以及如果声源位于右半平面中则将因此展示与针对右半平面的物理效应相对应的属性。因此，通过检测所测量到的话筒信号展示与左半平面还是右半平面的物理效应最紧密地对应的属性，有可能确定声源的位置是在左半平面中还是在右半平面中，并且因此有可能从两个可能的位置中选择适当的位置。

更具体地，在图2的例子中，声学元件203 (具体地障碍物)靠近第一话筒M1被定位并且被以这样一种方式设计，所述方式即：对于第一话筒M1的声学效应(并且因此对来自第一话筒M1的信号的影响)取决于声学元件203位于声源与话筒M1之间或是话筒M1位于声源与声学元件203之间。特别地，声学元件203可以是这样的使得强烈的且清楚地可检测的声学效应对于一个场景而不对于另一个发生。在两个可能的位置估计之间的选择然后可以简单地在声学效应是否能够在第一话筒信号中被检测到的基础上被完成。

图3图示了依照本发明的一些实施例的用于确定针对音频源的位置估计的系统的例子。

系统包括图2中所图示的布置。因此，系统包括第一话筒M1和第二话筒M2，带有接近于第一话筒M1的声学元件203。声学元件203相比于到第二话筒M2更靠近第一话筒M1并且对在第二话筒M2处的声学信号的影响可以是可忽略的。此外，提供给第一话筒M1的声学效应相对于在话筒M1、M2之间的轴201是不对称的。

在图3的例子中，第一和第二话筒M1、M2提供数字化的且适当地放大的话筒信号(或者等同地，第一和第二话筒M1、M2被馈送到电路(未示出)以用于使所捕获的模拟话筒信号适当地放大和数字化)。

在该例子中，经数字化的信号被馈送到可选的下变频器301、303，所述下变频器301、303将样本速率降低至适合的速率以便降低针对后续处理的计算负荷。

经下变频的话筒信号然后被馈送到位置估计器305，所述位置估计器305响应于针对来自声源的音频的在第一话筒M1处和在第二话筒M2处的到达时间来生成针对声源的第一可能的位置和第二可能的位置的估计。

在特定例子中，位置估计器305执行一维位置的TDOA估计。具体地，从话筒M1、M2之间的中点向声源的角方向A基于两个话筒信号之间的相对时间差被估计。

应当了解，在其它实施例中，约束条件可以被用来确定二维位置(或甚至三维位置)。例如，如果已知音频源位于在到轴201的固定距离处，则位置估计器305可以基于针对话筒信号的TDOA (例如，根据角估计和到轴201的距离)来确定对应的二维位置。

此外，尽管基于两个话筒的TDOA算法典型地仅允许一维位置被确定，但是可以在其它实施例中执行二维位置估计，例如通过确定针对来自声源的信号的绝对到达时间来实现。然而，这样的方法典型地要求针对来自音频源的音频的起始时间是已知的，这进一步要求音频源和系统被紧密地同步，这典型地是不切实际的。

因此，在该例子中，位置估计器305确定针对音频源的两个可能的位置估计。两个位置估计围绕话筒M1、M2之间的轴是对称的。

应当了解，用于基于针对信号的在两个话筒处的TDOA来生成位置估计的许多不同的算法和技术是已知的并且任何适合的方法可以被使用。由于围绕话筒轴的对称性，这样的算法将典型地生成180°角范围内的位置估计，并且因此将在轴的半平面中的每一个中提供一个位置估计(例如，一个方向)。

因此，位置估计器305将生成位于在话筒轴201的一侧的第一区域中的第一可能的位置估计和位于在话筒轴201的相对侧的第二区域中的第二可能的位置估计。尽管每个区域原则上可以对应于由轴所勾画的半平面，但是系统在其中提供准确的位置估计的区域在许多实际的应用中可能是更受限制的。例如，对于准确的位置估计，可能典型地要求：声源位于远场中、声源不太靠近话筒轴201、声源不太远离话筒、声源不太靠近声学元件等。因此，在实践中，该方法在其中被认为是实际适用的区域可能大大小于整个半平面。

类似地，该方法执行二维平面中的位置估计并且假定声源基本上位于这个平面中。对于不位于平面中的声源，TDOA算法可以提供偏离二维平面中的投影点的估计(本质上，TDOA算法生成围绕话筒轴旋转对称的位置估计)。并且，声学元件203的效应可以取决于声学元件203的特定特性而偏离针对在所假定的平面外的声源的预期值。因此，在实践中，对于声源被假定位于其中的平面外的声源，位置估计的准确性和/或可靠性可能降级。然而，典型地，该方法将仍然适合于不太显著地偏离假定其被定位于其中的平面的声源。

位置估计器305可以具体地基于两个话筒信号的相关估计来确定TDOA。例如，两个话筒M1、M2之间的交叉相关函数相对于时间被采取，并且使这个函数最大化的时滞τ确定t。时滞界限是基于话筒间间距的

(3)

在这里d是话筒间间距，并且c是声音在空气中的速度。

在数学上，问题是

(4)

其中m ₁和m ₂分别是第一和第二话筒信号，n指示以秒为单位的时间，以及f表示交叉相关函数。

在数字处理器上，信号通常被以两倍的信号的奈奎斯特(Nyquist)频率进行采样，并且所以相关函数产生样本中的时间差，其能够基于采样频率被转换为秒。在其中信号被下采样的例子中，经下采样的样本速率是适当的，并且因此下采样可以对于TDOA估计以及因此对于所确定的位置引入较低的粒度。

如先前提到的那样，角方向估计然后能够根据下式被确定：

(5)

其中A是在范围[0,180^o]内。因此，与两个角度±A相对应的两个可能的位置估计由位置估计器305生成。

作为另一例子，位置估计器305在一些实施例中可以通过对话筒信号应用波束形成算法来执行位置估计，其中波束形成算法被布置成对信号进行加权和组合以便在声源的方向上提供空（null）。因此，波束形成可以是被布置成使两个话筒M1、M2的组合的信号能量最小化的自适应波束形成。通过组合两个话筒信号并且应用自适应信号处理来创建在源的方向上具有空的话筒响应，针对声源的位置估计被自动地生成。

内在地，这样的方法寻求组合信号，使得从音频源起的路径长度中的差以及因此信号在话筒M1、M2处的到达时间中的差导致信号之间的相消干涉，即导致它们为异相180°的。因此，该方法是同样内在地基于在两个话筒M1、M2处的到达时间以及具体地基于在话筒M1、M2处的到达时间差的。因此，该算法同样不能区分两个半平面并且因此它估计两个可能的位置。

在图3的系统中，两个话筒信号被同样馈送到声学效应估计器307，所述声学效应估计器307被布置成确定针对来自第一话筒M1的信号的声学效应量度。第一声学效应量度指示第一话筒信号的声学效应与声学元件203对于在半平面中的一个(或其区域)中的声源的声学效应的预期特性相匹配的程度。

具体地，声学元件203是具有提供可预测的声学效应的物理属性的物理元件。例如，声学效应能够经由数学分析、经由(例如在系统的校准期间的)特定测量、经由模拟和/或经由模型的评估而被预先确定。此外，声学效应被设计成为不对称的，并且因此所估计的/预测的/预先确定的声学元件203的声学效应对于在两个不同的半平面中的声源来说将是不同的。

通过分析所接收到的第一话筒信号，声学效应估计器307因此能够确定第一话筒信号是具有很可能由对于定位于第一半平面中的声源所经历的声学效应产生的属性，还是具有很可能由对于定位于第二半平面中的声源所经历的声学效应产生的属性。

应当了解，在许多实施例中，第一话筒信号能够简单地与声学效应相比较，并且声学效应量度可以指示相似性有多接近。例如，如果声学效应在来自第一半平面中的音频源的声学传递函数中提供切口（notch），则声学效应估计器307可以确定声学效应量度以便反映第一话筒信号在预期频率处具有切口的程度。

当从音频源再现的声音的特定特性能够被忽略时，这样的直接比较典型地是适当的。例如，当声学效应是传递函数的频率响应在给定频率间隔中的特性图案时，倘若来自音频源的声音能够被认为在给定频率间隔中具有基本上平坦的频率响应，所捕获的第一话筒信号能够直接地被评估以便看它是否在所述频率间隔中具有类似的图案。应当了解，在一些场景或实施例中，声学效应量度的确定可以包括针对从音频源再现的音频的特性例如使用由第二话筒M2所捕获的来自音频源的音频对第一话筒信号的补偿。

位置估计器305和声学效应估计器307被耦合到位置选择器309，所述位置选择器309接收声学效应量度和两个可能的位置。位置选择器309被布置成基于声学效应量度来确定针对声源的最后估计的位置估计。因此，位置选择器309基于声学效应量度的值在两个可能的位置之间(即在第一半平面中的位置与第二半平面中的位置之间)进行选择。

例如，如果声学效应量度指示第一话筒信号具有紧密地和来自第一半平面的声学效应的特性相匹配的特性，则它继续生成最后位置估计作为第一半平面中的可能的位置估计。否则，它继续生成最后位置估计作为第二半平面中的可能的位置估计。例如，位置选择器309可以简单地取决于声学效应量度超过门限与否而在两个可能的位置之间进行选择。

因此，系统使用声学元件的引入来提供可预测的声学效应，所述可预测的声学效应是不对称的并且能够在话筒信号中的至少一个中被检测到，以便解析由仅使用两个话筒的TDOA方法所引入的不定性。因此，改进的位置确定能够被实现。

在一些实施例中，声学效应量度的确定可以是仅基于对来自第一话筒M1的话筒信号是否和来自第一半平面的预期声学效应相匹配的分析的。例如，如果对于第一半平面中的声源来说给定频域图案被预期到，则声学效应估计器307可以简单地确定预期频率响应与所接收到的信号的频率响应之间的频域相关值(因此假定声源在所考虑的频率间隔中是足够地平坦的)。

然而，在其它实施例中，声学效应量度还可以响应于第一话筒信号和针对另一个半平面中的声源的声学效应的预期特性相匹配的程度而被确定。

例如，如果声学效应是这样的使得给定频域图案被从一个半平面预期到并且不同的频域图案被从另一个半平面预期到，则声学效应量度可以确定针对两个频率图案的频率相关值。声学效应量度然后例如可以被确定为针对第一半平面的相关值除以针对第二半平面的相关值之间的比。如果声学效应量度高于一，则位置选择器309可以在这样的例子中简单地选择第一半平面中的位置估计，以及否则选择第二半平面中的位置估计。因此，第一话筒信号最紧密地和预期频率图案相匹配所针对的位置被选择。

在许多实施例中，声学元件203被设计使得声学效应相对于话筒轴201是不对称地频率相关的。具体地，声学元件203可以被布置成将频率相关变化引入到针对在第一半平面中的音频源的声学传递函数，但不引入到针对在第二半平面中的音频源的声学传递函数。声学效应量度在这样的情况下可以通过评估所接收到的信号的频率表示和由声学元件对于第一半平面中的声源所引入的频率表示相匹配有多么紧密而被确定。

在一些实施例中，这样的相关或比较可以牵涉对于从音频源辐射的声音的频率响应的补偿。这可以例如通过基于声学元件203典型地对其没有影响的第二话筒信号来补偿第一话筒信号而完成。因此，第二话筒信号应该表示来自声源的辐射声音的频率响应(倘若这个比噪声和其它声源足够地大声)。实际上，它可以进一步反映音频环境的频率特性。

例如，FFT可以被应用于第一和第二话筒信号两者。针对第一话筒信号的值然后可以除以第二话筒信号的对应值(典型地在归一化之后)。结果得到的频谱然后可以被与针对声学效应的预期频率图案相关以便确定声学效应量度。位置选择器309因此能够取决于相关是否是足够高的而在两个位置之间进行选择。

在许多场景中，物理效应能够被限制于相对窄的频率间隔，或者在相对窄的频率间隔中被使得最具优势。在这样的情况下，声学效应估计器307可以有利地包括滤出有关频率间隔的滤波器，并且声学效应量度的确定可以根据经滤波的信号被确定。这样的方法在许多场景中可以提供改进的且更可靠的位置确定。

滤波可以被隐式地执行。例如，FFT可以被应用于第一话筒信号，但仅仓（bin）值的子集可以被与预期频率响应相比较。

在一些实施例中，声学元件203被布置成使第一话筒M1从第一区域中的声源但不从第二区域中的声源接收反射。这在图4中被图示，其中声学元件201能够反射来自包括S的半平面的声源。如所图示的那样，存在从声源S到话筒M1的直接声学路径401。此外，存在从声源S到话筒M1的反射声学路径403。然而，来自声源位置G的任何反射将远离话筒M1。因此，声学元件201仅对来自一个半平面的声源引入反射。

在这些实施例中，系统可以被布置成检测第一话筒信号中的与这样的反射相对应的特性。具体地，声学元件203能够被设计使得反射在直接路径与反射路径之间引入干涉效应。此外，通过适当地设计声学元件203 (具体地是从话筒M1到声学元件的反射表面的距离)，干涉效应能够被布置成引入可识别的频率图案。实际上，该设计能够确保反射在期望的频率范围内发生。

具体地，反射能够引入干涉，所述干涉在频率响应中引入一个或多个显著的切口。这能够通过将声学元件203设计成针对给定频率提供相消干涉来实现。具体地，当直接路径长度与反射路径长度之间的差等于波长一半时，相消干涉发生(导致到达话筒的信号是异相180°的)。

因此，如图4中所图示的那样，谱特性中的差异能够取决于源位于话筒轴的哪一侧而出现。例如，对于话筒M1，与边界效应的效应类似的效应被创建，从而针对在包含S的半平面中的声源在直接声与反射声之间引起相长干涉和相消干涉。这些效应发生所在的频率取决于障碍物相对于话筒的尺寸、形状以及距离。

因此，在一些实施例中，与干涉效应相对应的频率响应可以被预先确定并且所接收到的第一话筒信号可以被与预先确定的频率响应相比较。如果足够接近的匹配被检测到，则在与声学元件203相对的半平面中的位置估计被选择，以及否则在与声学元件203相同的半平面中的位置估计被选择。

在一些实施例中，预期特性可以是：第一和第二话筒信号从一个半平面中的声源应该是基本上相等的但是对另一个平面中的声源来说不是相等的。例如，在图4中，话筒信号对于在包含G的半平面中的声源来说将是基本上相等的，但是对于在包含S的半平面中的声源来说是不同的。因此，针对第一话筒信号的预期特性可以是相对特性，即它与第二话筒信号的特性具有特定关系(并且作为低复杂性例子，两个信号取决于位置是在哪一个半平面中应该是相同的或不同的)。

因此，在一些实施例中，声学效应量度响应于第一话筒信号与第二话筒信号的比较而被确定。

作为基于来自反射的干涉特性的方法的特定例子，声学效应估计器307能够使用带通滤波来仅滤出信号谱的受声学元件201影响的区。带通信号的功率然后被比较来确定声源位于哪一个半平面(左或右)中。声学元件201能够被设计以便取决于声源位于哪一个方位角半平面中而在谱中产生明显的差异。

图5-7示出针对三个不同配置的在扩音器上播放的并且由位于约1.5 m远处的二元话筒阵列所捕获的扫描信号的谱特性：

图5：声学元件201不存在。

图6：声学元件201位于第一话筒M1与声源之间。

图7：声学元件201被定位在声源对面(例如与声源在S处的图4相对应)。

图5图示了常见的话筒谱中的差异，其是在来自制造过程的一些给定公差(通常是+/- 3dB)内。

相比较的图6和7示出了话筒信号响应之间的非常明显且大的差异，其取决于源位于哪一个半平面。这种差异在大约6.5 kHz处高达约20 dB (在大约10 kHz处同样存在约8dB的适度提高)，并且能够被用于位置辨别目的。这样的差异甚至大于话筒响应中的+/- 3dB差异，从而使该方法对话筒失配是鲁棒的。

为了理解在6.5 kHz处的所观察到的结果背后的机理，图8中所示出的时域脉冲响应可以被考虑。对于第一话筒M1，脉冲响应在样本198、200以及201处显示反射，其在量级上几乎正好和与首先到达话筒的声波相关联的直接场一样大。反射清楚地是由通过第一声学元件所产生的反射引起的，并且导致声波的相长干涉和相消干涉，其产生图7中的观察结果。和其中声学元件201位于话筒与声源之间的图6对比，这些反射远离话筒行进。

声学元件的物理和声学属性通常取决于单独实施例的偏好、要求以及限制。例如，对于基于反射和干涉的方法，结果得到的信号中的谱差异取决于声学元件203相对于话筒的尺寸、形状以及距离。

在先前的例子中，声学元件203已被设计成仅存在于轴201的一侧，即被设计成完全地在一个半平面内。这可以提供低复杂性方法，而同时提供了高度的不对称性。特别地，该方法可以将在一个话筒上的反射限制成仅起源于话筒轴的一侧。

话筒M1、M2和声学元件203的布置常常可以是相当紧凑的然而提供良好的位置估计。实际上，对于其中第一话筒M1与第二话筒M2之间的距离是在1 cm与50 cm之间(包括两个端点)的布置，特别有利的性能被发现。此外，对于靠近话筒M1被定位的声学元件203，有利的性能被发现。具体地，已经发现，当声学元件的最近点被定位离第一话筒M1不超过10cm时，特别有利的性能被发现。接近的声学元件203可以特别地提供强烈的反射，从而在音频频率范围内引起强烈的干涉图案。

话筒M1、M2和声学元件203的布置的例子在图9中被图示。

在一些实施例中，布置可以包括接近于第二话筒M2被定位的第二声学元件1001，其在图10中被图示。第二声学元件1001可以围绕第二话筒M2相对于围绕第一话筒M1的第一声学元件203被对称地定位。

在这样的实施例中，第二声学效应估计器可以被用于第二话筒M1，其对应于声学效应估计器307。在两个可能的位置之间的选择在这样的实施例中可以是基于对第一和第二话筒信号指示来自两个半平面中的每一个的声学效应有多么紧密的估计的。

例如，在图10的例子中，来自声源S的音频将被声学元件203反射，但是不被第二声学元件1001反射。因此，对于这个声源，第一话筒信号将展示由反射所引起的干涉效应的特性频率图案，然而第二话筒信号将不会展示。

然而，对于(相对于话筒轴)在对称位置处的音频源，将是第二话筒M2经历反射并且因此经历干涉，然而第一话筒将不会经历。因此，在这种情况下，第一话筒信号将不展示由反射所引起的干涉效应的特性频率图案，然而第二话筒信号将会展示。

针对干涉效应的特性图案的存在的相对指示因此可以被用来在两个可能的场景之间进行选择。具体地，两个话筒信号的频域表示与特性频率图案之间的相关性可以分别被确定。与发生在话筒展示最高相关性时的反射相对应的位置然后能够被选择。

第二声学元件的使用可以提供对于解析不定性有用的附加的信息并且因此可以提高选择的可靠性，以及因此提高所生成的最后位置估计的可靠性。

应当了解，在一些实施例中，两个声学元件1001、203可以被形成为单个声学元件的部分。这样的实施例的例子在图11中被图示。

应当了解，上述描述为了清楚起见已经参考不同的功能电路、单元以及处理器描述了本发明的实施例。然而，将明显的是，在不偏离本发明的情况下可以使用功能性在不同的功能电路、单元或处理器之间的任何适合的分布。例如，被图示成被单独的处理器或控制器执行的功能性可以被相同的处理器或控制器执行。从而，对特定功能单元或电路的参考仅将被视为对用于提供所描述的功能性的适合的装置的参考，而不指示严格的逻辑或物理结构或组织。

本发明能够以任何适合的形式被实施，其包括硬件、软件、固件或这些的任何组合。本发明可以可选地被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和构件可以以任何适合的方式被在物理上、功能上以及逻辑上实施。实际上，功能性可以被实施在单个单元中、被实施在多个单元中或者作为其它功能单元的一部分被实施。这样，本发明可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元、电路以及处理器之间。

尽管已经与一些实施例有关地描述了本发明，但是本发明不旨在限于本文中所阐述的特定形式。相反，本发明的范围仅被所附权利要求限制。附加地，尽管特征可能似乎被与特定实施例有关地描述了，但是本领域的技术人员将认识到，所描述的实施例的各种特征可以依照本发明被组合。在权利要求中，术语包括不排除其它元件或步骤的存在。

此外，尽管被单独地列举，但是多个装置、元件、电路或方法步骤可以由例如单个电路、单元或处理器来实施。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些有可能被有利地组合，并且在不同权利要求中的包括不暗示特征的组合不是可行的和/或有利的。同样地，特征在一个类别的权利要求中的包括不暗示对这个类别的限制，而是指示特征视情况而定同样地适用于其它权利要求类别。此外，特征在权利要求中的顺序不暗示特征必须以其工作的任何特定顺序，并且特别地，方法权利要求中的单独的步骤的顺序不暗示步骤必须以此顺序被执行。相反，步骤可以以任何适合的顺序被执行。此外，单数参考不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的参考不排除多个。权利要求中的附图标记仅仅作为澄清例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于确定针对音频源的位置估计的装置，所述装置包括：

用于生成第一话筒信号的第一话筒(M1)；

用于生成第二话筒信号的第二话筒(M2)；

声学元件(203)，其将声学效应提供给从声源位置到第一话筒的声音，声学效应相对于第一话筒与第二话筒之间的轴(201)是不对称的；

位置处理器，其包括：

- 位置估计器(305)，其用于响应于针对来自声源的音频的在第一话筒和第二话筒处的到达时间来估计针对声源的第一可能的位置和第二可能的位置，第一可能的位置是在轴(201)的一侧的第一区域中的位置并且第二可能的位置是在轴(201)的相对侧的第二区域中的位置；

- 声学效应估计器(307)，其用于确定针对第一话筒信号的第一声学效应量度，第一声学效应量度指示第一话筒信号的声学效应和对于第一区域中的声源的声学效应的预期特性相匹配的程度；

- 位置选择器(309)，其用于响应于第一声学效应量度通过在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。

2.根据权利要求1所述的装置，其中第一声学效应量度相对于第一话筒信号的声学效应和对于第二区域中的声源的声学效应的预期特性相匹配的程度来指示第一话筒信号的声学效应和声学元件(203)对于第一区域中的声源的预期声学效应相匹配的程度。

3.根据权利要求1所述的装置，其中声学效应相对于轴(201)是不对称地频率相关的，并且声学效应估计器(307)被布置成响应于第一话筒信号的频率响应与对于第一区域中的声源的预期频率响应之间的相关程度的确定来生成第一声学效应量度。

4.根据权利要求1所述的装置，其中声学效应是不对称地频率相关的；并且其中声学效应估计器(307)包括滤波器以用于对第一话筒信号进行滤波以便生成第一滤波的话筒信号，并且被布置成响应于第一滤波的话筒信号来确定第一声学效应量度。

5.根据权利要求1所述的装置，其中声学元件(203)被布置成使第一话筒从第一区域中的声源接收反射，但不从第二区域中的声源接收反射。

6.根据权利要求5所述的装置，其中预期特性是由来自第一区域中的声源的直接声分量与反射声分量之间的干涉产生的干涉效应。

7.根据权利要求6所述的装置，其中预期特性是干涉频率响应。

8.根据权利要求1所述的装置，其中声学元件(203)仅存在于轴(201)的一侧。

9.根据权利要求1所述的装置，其中声学效应估计器(307)被布置成响应于第一话筒信号与第二话筒信号的比较来确定第一声学效应量度。

10.根据权利要求1所述的装置，进一步包括：

第二声学元件(1001)，其为从声源位置到第二话筒的声音提供第二声学效应，第二声学效应相对于轴(201)是不对称的；并且其中位置处理器包括：

- 第二声学效应估计器，其用于确定针对第二话筒信号的第二声学效应量度，第二声学效应量度指示第二话筒信号的声学效应和对于第二区域中的声源的声学效应的预期特性相匹配的程度；并且其中

- 位置选择器(309)被布置成响应于第二声学效应量度通过进一步在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。

11.根据权利要求10所述的装置，其中位置选择器(309)被布置成如果第一声学效应量度超过第二声学效应量度则选择第一可能的位置，并且被布置成如果第二声学效应量度超过第一声学效应量度则选择第二可能的位置。

12.根据权利要求1所述的装置，其中声学元件(203)的最近点被定位离第一话筒(M1)不超过10 cm。

13.根据权利要求1所述的装置，其中第一话筒(M1)与第二话筒(M2)之间的距离不少于1 cm并且不超过50 cm。

14.一种用于根据来自第一话筒(M1)的第一话筒信号和来自第二话筒(M2)的第二话筒信号确定针对音频环境中的音频源的位置估计的方法，所述音频环境包括将声学效应提供给从声源位置到第一话筒(M1)的声音的声学元件(203)，声学效应相对于第一话筒(M1)与第二话筒(M2)之间的轴(201)是不对称的；所述方法包括：

接收第一话筒信号；

接收第二话筒信号；

响应于针对来自声源的音频的在第一话筒(M1)和第二话筒(M2)处的到达时间来估计针对声源的第一可能的位置和第二可能的位置，第一可能的位置是在轴(201)的一侧的第一区域中的位置并且第二可能的位置是在轴(201)的相对侧的第二区域中的位置；

确定针对第一话筒信号的声学效应量度，声学效应量度指示第一话筒信号的声学效应和对于第一区域中的声源的声学效应的预期特性相匹配的程度；以及

响应于第一声学效应量度通过在第一可能的位置与第二可能的位置之间进行选择来确定针对声源的位置估计。