CN102809742A

CN102809742A - 声源定位设备和方法

Info

Publication number: CN102809742A
Application number: CN2011101577370A
Authority: CN
Inventors: 双志伟; 大卫·麦格拉思; 格伦·迪肯斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2011-06-01
Filing date: 2011-06-01
Publication date: 2012-12-05
Anticipated expiration: 2031-06-01
Also published as: US20120308038A1; US9229086B2; EP2530484B1; CN102809742B; EP2530484A1

Abstract

描述了声源定位设备和方法。基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量。帧幅度差向量反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。评价帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度。每个参考帧幅度差向量反映在记录来自多个候选位置之一的声音期间阵列话筒捕获的幅度之间的差。至少基于候选位置和相关的相似度估计声源的期望位置。能够至少基于幅度差来进行声源定位。

Description

声源定位设备和方法

技术领域

本发明涉及声源定位。更具体地，本发明的实施例涉及通过话筒阵列进行声源定位的设备和方法。

背景技术

声源定位的例子包含利用话筒阵列来定位声源。比如，在J.DiBiase的文章″A high-accuracy，low-latency technique for talker localization inreverberant environments″，PhD thesis，Brown University，Providence RI，USA，May 2000中提出了基于不同话筒的信号之间的时间差(相位差)进行声源定位的方法(SRP-PHAT算法)。

发明内容

根据本发明一个实施例，提供了一种进行声源定位的方法。该方法包含基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量，所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差；评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度，所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差；和至少基于候选位置和相关的相似度估计声源的期望位置。

根据本发明另一个实施例，提供一种进行声源定位的设备。该设备包含向量计算器，其基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量，所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差；相似度评价器，其评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度，所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差；和估计器，其至少基于候选位置和相关的相似度估计声源的期望位置。

根据本发明另一个实施例，提供一种上面记录有用于使处理器进行声源定位的计算机程序指令的计算机可读介质。计算机程序指令包含用于基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量的装置，所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差；用于评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度的装置，所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差；和用于至少基于候选位置和相关的相似度估计声源的期望位置的装置。

下面参考附图详细描述本发明的进一步特性和优点，以及本发明各个实施例的结构和操作。应当注意，本发明不限于这里描述的具体实施例。在这里出现这样的实施例只是出于说明的目的。相关领域技术人员根据这里包含的指导会想到其它实施例。

附图说明

在附图中通过例子图解本发明，但这些例子不对本发明产生限制，图中用类似的附图标记表示类似的元件，其中：

图1是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图；

图2描述了三个心型指向话筒的示例阵列；

图3描述了根据本发明一个实施例的进行声源定位的示例方法；

图4是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图；

图5描述了根据本发明一个实施例的进行声源定位的示例方法；

图6是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图；

图7描述了根据本发明一个实施例的进行声源定位的示例方法；

图8是图示根据本发明一个实施例的用于进行声源定位的示例设备的框图；

图9描述了根据本发明一个实施例的进行声源定位的示例方法；

图10图示了通过把第一概率函数和第二概率函数相乘而获得的组合概率函数的示例；

图11是图示用于实现本发明的各个方面的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施例。应当注意，出于清楚的目的，在附图和描述中省略了有关所属技术领域的技术人员知道但是与本发明无关的部分和过程的表示和说明。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例，本文可以一般称为″电路″、″模块″或″系统″。此外，本发明的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如″C″程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

以下参照按照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1是图示根据本发明一个实施例的用于进行声源定位的示例设备100的框图。

设备100可以用于各种应用。在一个应用中，设备100可以检测会议中扬声器的位置信息。这个位置信息能够被用于在会议录制时分离扬声器，或者能够被用于会议的空间音频编码。

如图1所示，设备100包含向量计算器101、相似度评价器102和估计器103。

向量计算器101被配置成根据通过话筒阵列获得的短时间帧数据计算帧幅度差向量(FADV)。帧幅度差向量反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。

通常，由于从声源到阵列的不同话筒的距离之间的差异性，或者由于话筒对来自声源的声音信号的灵敏度之间的差异性，各话筒从相同声源捕获的声音信号的幅度是不同的。对于不同声源位置，话筒间幅度差的分布可以是不同的。比如，在单向话筒的阵列的情况下，或者在声源接近全向话筒的阵列的情况下，话筒间幅度差的分布能够显著不同。根据这个观察，话筒间幅度差的分布可以与不同声音位置，至少是那些表现出这种差异性的位置相关联。在这个方面，可以基于由声源引入的话筒间幅度差，根据这种关联来估计声源是否位于这些位置之一。

下面会把单向话筒的阵列用作示例来描述本发明的实施例。

单向话筒可以是心型指向话筒。图2描述了三个心型指向话筒201、202和203的示例阵列。图形204、205和206分别图示了心型指向话筒201、202和203的方向图。心型指向话筒201、202和203在平面中的取向分别为0度、-120度和-240度的方向。此外，每个对的两个话筒之间的距离可以是1.15cm。为方便说明，这种心型指向话筒阵列被称为CMA。

通常，声源的位置可以是指声源的到达方向(DOA)角或声源的地点(position)。在某些情况下，对于沿DOA方向的不同地点，话筒间幅度差的分布基本相似，因此可以使用DOA来度量位置。取决于具体应用，可以用声源在CMA所位于的平面(称为水平面)中的方位角来表示DOA。在这样的情况下，音频定位问题被简化为角检测问题。然而，通过添加一个面朝上的话筒，可以检测声源在水平面中的方位角和在垂直平面中的仰角。

在下文中，声源在水平面中的方位角被用作位置的示例。

需要注意，各种话筒阵列可以应用于本发明的实施例，只要不同位置的话筒间幅度差的分布能够表现出显著的差异性。

FADV反映话筒间幅度差。在下文中，FADV被表示成向量(v₁，v₂，…，v_M)，其中M表示话筒的数目，v_i表示第i个话筒捕获的幅度。本领域技术人员能够理解，其它格式可以被应用于FADV以反映话筒间幅度差。比如，向量(v₁，v₂，…，v_M)中的v_i可以表示相对于某个话筒捕获的幅度的幅度差。再例如，FADV可以被表示成向量(d_1，1，…，d_1，M，d_2，2，…，d_2，M，…，d_M-1，M)，其中M表示话筒的数目，d_i，j表示第i个话筒和第j个话筒捕获的幅度的差。

可以从通过阵列预先记录的音频数据流中，或者从通过阵列实时记录的音频数据流中，提取短时间帧数据。此外，可以在短时间帧数据上乘上窗口。窗口可以是汉明窗口、汉宁窗口等等。假定短时间帧包含N个样本并且话筒数目为M，短时间帧数据能够被存储为具有M行和N列的矩阵X，其中X(n，m)对应于第m个话筒的第n个样本。

X = [\begin{matrix} x_{1,1} & x_{1,2} & . . . & x_{1, N} \\ x_{2,1} & x_{2,2} & . . . & x_{2, N} \\ . & . & . \\ . & . & . \\ . & . & . \\ x_{M, 1} & x_{M, 2} & . . . & x_{M, N} \end{matrix}] .

可以基于采样速率和短时间帧的期望时间长度来确定N的值：

N＝时间长度×采样速率

相邻短时间帧可以彼此交叠，也可以不彼此交叠。

N的值以及是否使用交叠的短时间帧取决于应用对时间分辨率和计算复杂度的要求。较大的N通常意味着更加准确的估计和更多的数据，但是在相邻短时间帧之间没有交叠数据的情况下也意味着较低的时间分辨率。利用相邻短时间帧之间的交叠数据能够提高时间分辨率。但是利用相邻短时间帧之间的交叠数据会提高计算复杂度。如果进行快速富立叶变换(FFT)，N优选地属于表示成{2^k，k＝1，2，…}的集合。

作为一个例子，在一个实现中，当采样速率为48kHz时，对于CMA，假设N＝32768。

计算FADV

存在多种方法来计算FADV。方法可以被分类为基于能量的方法和基于特征向量的方法。方法也可以被分类为基于时域样本值的方法和基于频域参数的方法。具体地，可以基于短时间帧数据中各个信道(即短时间帧数据中对应于各个话筒的部分)上的平均幅度，基于包含短时间帧数据中各个信道的时域样本值的协方差矩阵的特征向量分析，基于短时间帧数据中各个信道的频域上的平均幅度，或者基于短时间帧数据中各个信道的谱参数的特征向量分析，来计算FADV。

基于能量和时域样本值的方法

这种方法直接基于信道(即通过相应话筒录制的音频数据)的短时平均幅度来计算FADV。也就是说，基于短时间帧数据中各个信道的平均幅度来计算FADV。

首先，计算一个短时间帧的每个信道m的均方根ampf_m(θ)，于是获得向量(ampf₁(θ)，ampf₂(θ)，…，ampf_M(θ))，其中

{ampf}_{m} (θ) = \sqrt{\frac{Σ_{n = 1}^{N} X {(m, n)}^{2}}{N}},

其中θ表示声源的期望位置。

为方便与参考帧幅度差向量(RFADV)(在后面描述)比较，优选地，对这个向量进行均方根(RMS)的归一化以获得FADV ampf(θ)：

(θ) = \frac{({ampf}_{1} (θ), {ampf}_{2} (θ), . . ., {ampf}_{M} (θ))}{\sqrt{{ampf}_{1} (θ) \times {ampf}_{1} (θ) + {ampf}_{2} (θ) \times {ampf}_{2} (θ) + . . . + {ampf}_{M} (θ) \times {ampf}_{M} (θ)}}

基于特征向量和时域样本值的方法

根据这个方法，基于协方差矩阵的特征向量分析来计算FADV，此协方差矩阵包含短时间帧数据中各个信道的时域样本值。首先，通过下式计算短时间帧数据X的协方差矩阵CovX：

CovX＝X*X′，

其中星号操作符(*)表示进行卷积操作，撇号操作符(′)表示进行复共轭转置。对于实数值矩阵或向量，撇号操作符(′)表示进行转置。

于是，通过特征分解(eigendecomposition)计算协方差矩阵的最大特征向量以作为FADV。

基于能量和频域参数的方法

根据这个方法，FADV被计算为短时间帧数据中各个信道的频域上的平均幅度。FFT的频域能够被分成W个频率区间(bin)B_i，i＝1，…，W，其中频率区间B_i覆盖的频率低于频率区间B_j覆盖的频率，如果i＜j。如果已知某些频率区间可能受噪声影响，可以排除这些含噪声的频率区间并且只使用一组其它频率区间来计算FADV。例如，可以排除低频率区间和高频率区间以减少低频噪声和高频噪声的影响。

假定要用于计算FADV的L个频率区间的集合BU被表示为BU＝{Bin(1)，Bin(2)，…，Bin(L)}，其中Bin(i)∈{B₁，…，B_W}。如果被确定或假定为不受噪声影响的所有频段完全覆盖W个频率区间之一，则该区间可以被包含在集合BU中。可选地，如果被确定或假定为不受噪声影响的所有频段完全或大部分覆盖W个频率区间之一，则该区间可以被包含在集合BU中。

在一个例子中，确定从频率nStartFrequency到频率nEndFrequency的频率范围不受噪声影响并且被用于计算FADV。令BU＝{Bin(1)，Bin(2)，…，Bin(L)}＝{BStartBin，BStartBin+1，…，BStartBin+L-1}，则能够通过确定下列值来确定集合BU：

StartBin＝ceil(nStartFrequency×W/采样速率)

EndBin＝floor(nEndFrequency×W/采样速率)

其中ceil(v)是返回大于或等于值v的所有整数中的最小整数的函数，floor(v)是返回小于或等于值v的所有整数中的最大整数的函数。

在一个实现中，可以设定nStartFrequency＝300，nEndFrequency＝8000。

首先，每个信道m的N个样本被分组成S个子帧，每个子帧包含K个样本。

x_{m, 1}, x_{m, 2}, . . ., x_{m, N}] &DoubleRightArrow; S_{m} = [\begin{matrix} x_{m, 1,1} & x_{m, 2,1} & . . . & x_{m, S, 1} \\ x_{m, 1,2} & x_{m, 2,2} & . . . & x_{m, S, 2} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ x_{m, 1, K} & x_{m, 2, K} & . . . & x_{m, S, K} \end{matrix}]

作为一个特例，子帧的数目S可以被设置成1，这表示直接对一个短时间帧的所有N个样本进行谱分析。

于是，对每个子帧进行谱分析以获得频谱域中的参数F_m。例如，可以对每个子帧应用FFT分析以获得FFT参数。当然，例如梅尔倒频谱参数(MFCC)分析，关键频带或梅尔频带(Mel band)中的子带能量分析的其它谱分析也可以被用来获得其它频域参数。也可以使用例如复FFT参数的复谱参数或例如FFT参数的幅度的幅度谱参数。

F_{m} = fft (S_{m}) = [\begin{matrix} f_{m, 1,1} & f_{m, 2,1} & . . . & f_{m, S, 1} \\ f_{m, 1,2} & f_{m, 2,2} & . . . & f_{m, S, 2} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ f_{m, 1, K} & f_{m, 2, K} & . . . & f_{m, S, K} \end{matrix}]

其中fft()表示FFT。

于是，每个频率区间Bin(i)∈BU中的所有信道的频域参数被计算为P_Bin(i)。

P_{Bin (i)} = [\begin{matrix} f_{1,1, Bin (i)} & f_{1,2, Bin (i)} & . . . & f_{1, S, Bin (i)} \\ f_{2,1, Bin (i)} & f_{2,2, Bin (i)} & . . . & f_{2, S, Bin (i)} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ f_{M, 1, Bin (i),} & f_{M, 2, Bin (i)} & . . . & f_{M, S, Bin (i)} \end{matrix}]

于是，通过下式计算一个短时间帧的每个信道m的幅度ampf_m(θ)：

{ampf}_{m} (θ) = \sqrt{Σ_{i = 1}^{L} Σ_{s = 1}^{S} {| f_{m, s, Bin (i)} |}^{2}},

其中|f_{m，s，Bin(i)}|表示计算f_{m，s，Bin(i)}的绝对值。

于是获得向量(ampf₁(θ)，ampf₂(θ)，…，ampf_M(θ))，其中θ表示声源的期望位置。

接着，为方便与RFADV(在后面描述)比较，优选地，通过下式对这个向量进行均方根(RMS)的归一化以获得FADV ampf(θ)：

ampf (θ) = \frac{({ampf}_{1} (θ), {ampf}_{2} (θ), . . ., {ampf}_{M} (θ))}{\sqrt{{ampf}_{1} (θ) \times {ampf}_{1} (θ) + {ampf}_{2} (θ) \times {ampf}_{2} (θ) + . . . + {ampf}_{M} (θ) \times {ampf}_{M} (θ)}} .

基于特征向量和频域参数的方法

根据这个方法，基于短时间帧数据中各个信道的谱参数的特征向量分析来计算FADV。如前面所描述的，每个信道m的N个样本被分组成S个子帧，每个子帧包含K个样本。在信道的所有样本被分组成子帧的情况下，可以通过对每个信道的子帧进行谱分析来获得该信道的谱参数。例如，对于包含每个频率区间Bin(i)∈BU中的所有信道的频域参数的矩阵P_Bin(i)，通过下式计算协方差矩阵：

{Cov}_{Bin (i)} = P_{Bin (i)} * P_{Bin (i)}^{'} .

在一个实现中，可以获得作为第二协方差矩阵的和的第一协方差矩阵。每个第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对相应所使用频率区间的谱参数。相应地，可以基于对第一协方差矩阵的特征向量分析来计算FADV。

具体地，能够通过基于频率区间的协方差矩阵求出最大特征向量来计算FADV。例如，可以通过下式计算不同区间的协方差矩阵的和Cov_sum：

{Cov}_{sum} = Σ_{i = 1}^{L} {Cov}_{Bin (i)},

并且接着计算和Cov_sum的最大特征向量ampf(θ)以作为FADV。

作为一个特例，一个短时间帧的子帧的数目S等于1，也就是说，不进行分组。这意味着针对每个信道直接对一个短时间帧的所有N个样本进行谱分析，以获得该信道的谱参数。即，通过下式计算所有频率区间Bin(i)∈BU中所有信道的频域参数P_f：

P_{f} = fft (X) = [\begin{matrix} f_{1, Bin (1)} & f_{1, Bin (2)} & . . . & f_{1, Bin (L)} \\ f_{2, Bin (1)} & f_{2, Bin (2)} & . . . & f_{2, Bin (L)} \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ f_{M, Bin (1)} & f_{M, Bin (2)} & . . . & f_{M, Bin (L)} \end{matrix}] .

在这样的情况下，FADV被计算为协方差矩阵的最大特征向量，该协方差矩阵包含所有信道的所有所使用频率区间的谱参数。例如，对于包含所有频率区间Bin(i)∈BU的所有信道的频域参数的矩阵P_f，通过下式计算协方差矩阵：

{Cov}_{f} = P_{f} * P_{f}^{'},

并且接着计算协方差矩阵Cov_f的最大特征向量ampf(θ)以作为FADV。

在另一个实现中，可以通过对协方差矩阵的最大特征向量求平均来计算FADV。每个第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对相应所使用频率区间的谱参数。例如，对于每个频率区间Bin(i)，可以计算协方差矩阵Cov_Bin(i)的最大特征向量ampf_Bin(i)，并且计算特征向量的平均以作为FADV ampf：

ampf = \frac{1}{L} Σ_{i = 1}^{L} | {ampf}_{Bin (i)} | .

自适应地计算FADV

此外，可以以自适应的方式计算FADV。也就是说，向量计算器101可以被配置成基于短时间帧数据及其前面的短时间帧数据自适应地计算FADV。

在一个实现中，可以通过基于短时间帧数据计算当前FADV并且把当前FADV和基于前面的短时间帧数据的历史FADV平滑为期望FADV来自适应地计算期望FADV。期望FADV或当前FADV可以被用作下一期望FADV的历史FADV。例如，在已经通过前面描述的方法计算出当前短时间帧的FADV ampf_curr(当前FADV)的情况下，可以通过下式计算经过平滑的FADV ampf_smooth(期望FADV)：

ampf_smooth＝a*ampf_curr+(1-a)*ampf_hist，

其中ampf_hist是基于前面的短时间帧数据获得的历史FADV。例如，可以使用当前短时间帧的ampf_curr或ampf_smooth作为下一短时间帧的ampf_hist。α是用于调整当前短时间帧的FADV的重要程度的常数。

在另一个实现中，可以根据基于特征向量的方法(基于时域样本值或基于频域参数)来计算FADV。在这样的情况下，可以通过基于短时间帧数据导出当前协方差矩阵并且把当前协方差矩阵和基于前面的短时间帧数据的历史协方差矩阵平滑为最终协方差矩阵，来获得用于计算基于该短时间帧数据的特征向量的最终协方差矩阵(求和的协方差矩阵、针对所使用频率区间的协方差矩阵或针对所有所使用频率区间的协方差矩阵)。用于计算基于短时间帧数据的特征向量的最终协方差矩阵或当前协方差矩阵可以被用作下一最终协方差矩阵的历史协方差矩阵。例如，可以基于当前短时间帧和前面短时间帧的数据计算协方差矩阵Cov_smooth(最终协方差矩阵)，并且基于该协方差矩阵计算当前短时间帧的FADV。作为一个例子，可以通过下式计算用于一个帧的特征向量分析的协方差矩阵：

Cov_smooth＝a*Cov_curr+(1-a)*Cov_hist，

其中Cov_cur(当前协方差矩阵)是基于当前短时间帧的数据计算的协方差矩阵，Cov_hist(历史协方差矩阵)是基于前面的短时间帧的数据的历史协方差矩阵。例如，可以使用Cov_cur或Cov_smooth作为下一短时间帧的Cov_hist。α是用于调整当前短时间帧的协方差矩阵的重要程度的常数。

回到图1，相似度评价器102被配置成评价FADV和多个RFADV 104中的每个之间的相似度。多个RFADV中的每个RFADV反映在记录来自多个候选位置之一的声音期间阵列话筒捕获的幅度之间的差。

为与FADV进行比较，RFADV与FADV具有相同格式。由于每个RFADV反映与候选位置之一相关的幅度差，因而该RFADV与该候选位置相关。术语″候选位置″是指声源可能位于该位置并且在该位置处发出当前短时间帧的声音。

可以假设所有位置有均匀的概率分布，因而候选位置可以包含按照取决于定位分辨率的均匀间隔分隔开的所有位置。优选地，为减少计算复杂度，候选位置可以是所有位置的子集。根据源位置概率分布的先验知识，子集在不同场景中可以是不同的。

可以采用各种方法来计算FADV ampf和RFADV ampr(θ)之间的相似度。例如，可以直接通过FADV和RFADV之间的距离ampdis(θ)来度量相似度。在这样的情况下，较大的距离意味着较低的相似度，较小的距离意味着较高的相似度。再例如，相似度可以是距离的倒数。

距离可以被实现成欧几里德距离：

ampdis (θ) = | | ampf - ampr (θ) | | = \sqrt{Σ_{i = 1}^{N} {({ampf}_{i} - {ampr}_{i} (θ))}^{2}},

其中θ表示候选位置，ampf_i和ampr_i(θ)分别表示FADV ampf和RFADVampr(θ)的第i维。

也可以根据内积来计算距离ampdis(θ)：

ampdis (θ) = \frac{1}{const + Σ_{i = 1}^{N} {ampf}_{i} . {ampr}_{i} (θ)},

其中const是用于避免除以一个小的数的常数。

估计器103被配置成至少基于候选位置和相关的相似度估计声源的期望位置。例如，可以找到与FADV具有最高相似度的RFADV，并且与该RFADV相关联的候选位置可以被估计为声源的期望位置。此外，可以参考通过另一个声源定位方法，例如基于时间差的方法获得的估计结果来估计期望位置。

图3描述了根据本发明一个实施例的进行声源定位的示例方法300。

如图3所示，方法300从步骤301开始。在步骤303，基于通过话筒阵列获得的短时间帧数据计算FADV。FADV反映在记录短时间帧数据期间阵列话筒捕获的幅度之间的差。如前面所描述的，存在多种计算FADV的方法。方法可以被分类为基于能量的方法和基于特征向量的方法。方法也可以被分类为基于时域样本值的方法和基于频域参数的方法。具体地，可以基于短时间帧数据中各个信道上的平均幅度，基于包含短时间帧数据中各个信道的时域样本值的协方差矩阵的特征向量分析，基于短时间帧数据中各个信道的频域上的平均幅度，或者基于短时间帧数据中各个信道的谱参数的特征向量分析，来计算FADV。

作为基于短时间帧数据中各个信道的谱参数的特征向量分析来计算FADV的一个例子，如前面所描述的，可以通过对每个信道的多个子帧进行谱分析来获得该信道的谱参数，其中该信道的所有样本被分组成子帧。在这样的情况下，可以获得作为第二协方差矩阵的和的第一协方差矩阵。每个第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对相应所使用频率区间的谱参数。可以基于对第一协方差矩阵的特征向量分析来计算FADV。可选地，可以通过对协方差矩阵的最大特征向量求平均来计算FADV。每个第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对相应所使用频率区间的谱参数。

作为基于短时间帧数据中各个信道的谱参数的特征向量分析来计算FADV的另一个例子，如前面所描述的，可以通过直接对每个信道的所有子帧进行谱分析来获得该信道的谱参数。在这样的情况下，可以把FADV计算为协方差矩阵的最大特征向量。协方差矩阵包含所有信道的所有所使用频率区间的谱参数。

此外，可以基于短时间帧数据及其前面的短时间帧数据自适应地计算FADV。

作为一个例子，可以通过基于短时间帧数据计算当前帧幅度差向量并且把当前帧幅度差向量和基于前面的短时间帧数据自适应地计算的历史帧幅度差向量平滑为帧幅度差向量，来自适应地计算FADV。帧幅度差向量或当前帧幅度差向量可以被用作下一帧幅度差向量的历史帧幅度差向量。

作为另一个例子，可以根据基于特征向量的方法来计算FADV，可以通过基于短时间帧数据导出当前协方差矩阵并且把当前协方差矩阵和用于计算基于前面的短时间帧数据的特征向量的历史协方差矩阵平滑为最终协方差矩阵，来获得用于计算基于短时间帧数据的特征向量的最终协方差矩阵。用于计算基于短时间帧数据的特征向量的最终协方差矩阵或当前协方差矩阵可以被用作下一最终协方差矩阵的历史协方差矩阵。

在步骤305，评价FADV和多个RFADV中的每个之间的相似度。多个RFADV中的每个RFADV反映在记录来自多个候选位置之一的声音期间阵列话筒捕获的幅度之间的差。

在步骤307，至少基于候选位置和相关的相似度估计声源的期望位置。

在步骤309，方法结束。

RFADV的生成

图4是图示根据本发明一个实施例的用于进行声源定位的示例设备400的框图。

如图4所示，设备400包含向量计算器401、相似度评价器402、估计器403和参考向量计算器405。向量计算器401、相似度评价器402和估计器403分别与向量计算器101、相似度评价器102和估计器103具有相同功能，下面不再详细描述。

参考向量计算器405可以被配置成基于通过经由阵列分别捕获来自候选位置的声音而获得的音频数据来计算RFADV。在这样的情况下，对于每个候选位置θ，通过把具有固定能量的声源放置在位置θ处并且测量每个话筒m的平均幅度，获得每个话筒m的参考幅度r_m(θ)。相应地，获得向量(r₁(θ)，r₂(θ)，…，r_M(θ))。为方便与FADV进行比较，优选地，对向量进行均方根(RMS)的归一化。接着可以通过下式计算候选位置θ的RFADV ampr(θ)：

ampr (θ) = \frac{(r_{1} (θ), r_{2} (θ), . . ., r_{M} (θ))}{\sqrt{r_{1} (θ) \times r_{1} (θ) + r_{2} (θ) \times r_{2} (θ) + . . . + r_{M} (θ) \times r_{M} (θ)}} .

可选地，参考向量计算器405也可以被配置成基于阵列的话筒对来自候选位置的声音的灵敏度来计算RFADV。例如，可以通过话筒的方向图来定义话筒对来自各位置的声音的灵敏度。相应地，可以根据话筒的方向图来估计RFADV。

例如，在CMA的情况下，当声源位于位置θ处并且无噪声出现时，可以通过下式根据话筒201、202和203(参见图2)的心型指向方向图来估计各话筒的理论幅度：

r₁(θ)＝0.5+0.5cos(θ)

r_{2} (θ) = 0.5 + 0.5 \cos (θ + \frac{2}{3} π)

r_{3} (θ) =0.5+0.5cos (θ + \frac{4}{3} π) .

于是，对于CMA，r₁(θ)×r₁(θ)+r₂(θ)×r₂(θ)+r₃(θ)×r₃(θ)＝1.15对于所有位置成立。

于是，位置θ的RFADV为

ampr (θ) = \frac{(0.5 + 0.5 \cos (θ), 0.5 + 0.5 \cos (θ + \frac{2}{3} π), . . ., 0.5 + 0.5 \cos (θ + \frac{4}{3} π))}{\sqrt{1.15}} .

此外，考虑到噪声的影响，可以通过下式计算话筒201、202和203的参考幅度：

r₁(θ)＝0.5+0.5cos(θ)+n₁(θ)

r_{2} (θ) = 0.5 + 0.5 \cos (θ + \frac{2}{3} π) + n_{2} (θ)

r_{3} (θ) = 0.5 + 0.5 \cos (θ + \frac{4}{3} π) + n_{3} (θ),

其中n₁(θ)、n₂(θ)和n₃(θ)被假设为在声音来自位置θ的情况下噪声在话筒上的幅度。

假定噪声与声源的位置无关并且三个话筒的噪声水平相同，则n₁(θ)、n₂(θ)和n₃(θ)为常数n₀。可以基于具体应用场景中的估计噪声水平来设置n₀。也可以根据话筒的记录信号的信噪比(SNR)来估计n₁(θ)、n₂(θ)和n₃(θ)：

于是

r_{1} (θ) = 0.5 + 0.5 \cos (θ) + \frac{1}{\sqrt{SNR}}

r_{2} (θ) = 0.5 + 0.5 \cos (θ + \frac{2}{3} π) + \frac{1}{\sqrt{SNR}}

r_{3} (θ) = 0.5 + 0.5 \cos (θ + \frac{4}{3} π) + \frac{1}{\sqrt{SNR}} .

各种方法可以被用来估计SNR。作为一个例子，通过利用语音活动检测算法对全向话筒的录音的语音信号分段和噪声分段进行分类并且接着比较信号分段和噪声分段的功率，能够估计SNR。此外，可以以自适应的方式在运行时刻进行SNR估计以应对SNR的变化，并且作为响应，会相应地更新RFADV。

图5描述了根据本发明一个实施例的进行声源定位的示例方法500。

如图5所示，方法500从步骤501开始。在步骤502，通过经由阵列分别捕获来自候选位置的声音来获得RFADV。在这样的情况下，对于每个候选位置θ，通过把具有固定能量的声源放置在位置θ处并且测量每个话筒m的平均幅度，获得每个话筒m的参考幅度r_m(θ)。可选地，在步骤502，也可以基于阵列的话筒对来自候选位置的声音的灵敏度来计算RFADV。

步骤503、505、507和509分别与步骤303、305、307和309具有相同功能，这里不再详细描述。

图6是图示根据本发明一个实施例的用于进行声源定位的示例设备600的框图。

如图6所示，设备600包含向量计算器601、相似度评价器602、估计器603和可能性评价器606。向量计算器601和相似度评价器602分别与向量计算器101和相似度评价器102具有相同功能，下面不再详细描述。

可能性评价器606被配置成根据基于时间差的音频定位方法评价多个可能位置中的每个是期望位置的可能性。采用术语″可能位置″仅仅是为了与前面的基于幅度差的实施例中的候选位置区分开的目的。可能位置取决于基于时间差的方法。术语″可能性″取决于由基于时间差的方法用来评价可能位置与期望位置的接近程度的度量。

估计器603被配置成基于候选位置、其相似度、可能位置及其可能性来估计期望位置。估计器603具有两种信息来估计期望位置。一种是候选位置及其相似度，另一种是可能位置及其可能性。考虑到一种信息是对另一种信息的改进，各种策略可以被用来估计期望位置。例如，可以以和表决问题类似的方式进行估计。

图7描述了根据本发明一个实施例的进行声源定位的示例方法700。

如图7所示，方法700从步骤701开始。步骤703和705分别与步骤303和305具有相同功能，这里不再详细描述。

在步骤705之后，方法700前进到步骤706。在步骤706，根据基于时间差的音频定位方法评价多个可能位置中的每个是期望位置的可能性。

在步骤707，基于候选位置、其相似度、可能位置及其可能性来估计期望位置。估计器603具有两种信息来估计期望位置。

方法700在步骤709结束。

应当注意，步骤706可以在步骤705之前进行，或者与步骤705并行进行。

图8是图示根据本发明一个实施例的用于进行声源定位的示例设备800的框图。

如图8所示，设备800包含向量计算器801、相似度评价器802、估计器803、可能性评价器806、第一函数生成器807、第二函数生成器808和第三函数生成器809。向量计算器801、相似度评价器802和可能性评价器806分别与向量计算器601、相似度评价器602和可能性评价器606具有相同功能，下面不再详细描述。

第一函数生成器807被配置成基于可能位置及其可能性导出用于估计所有位置是期望位置的概率的第一概率函数。第一概率函数可以估计可能位置是期望位置的概率。此外，第一概率函数也可以估计其它位置是期望位置的概率。

各种函数可以被用来基于可能性导出不同位置的第一概率函数。

例如，通过可控响应功率(SRP)来度量可能性。一种方法是通过下式直接使用与不同位置θ对应的可控响应功率

作为不同位置的第一概率函数prob_phase(θ)：

{prob}_{phase} (θ) = {\tilde{P}}_{b}^{PHAT} (θ) - - - (1) .

再例如，可以通过下式基于与不同位置对应的可控响应功率

导出不同位置的第一概率函数prob_phase(θ)：

{prob}_{phase} (θ) = e^{- \frac{{(1 / {\tilde{P}}_{b}^{PHAT} (θ))}^{2}}{C}} - - - (2)

C = \frac{1}{L} Σ_{θ = θ_{1}}^{θ_{L}} {(1 / {\tilde{P}}_{b}^{PHAT} (θ))}^{2} - - - (3) .

第二函数生成器808被配置成基于候选位置及其相似度导出用于估计所有位置是期望位置的概率的第二概率函数。第二概率函数可以估计候选位置是期望位置的概率。此外，第二概率函数也可以估计其它位置是期望位置的概率。

可以使用各种方法来估计第二概率函数。

例如，可以通过下式基于FADV和RFADV之间的距离ampdis(θ)来导出所有位置θ的第二概率函数prob_amp(θ)：

{prob}_{amp} (θ) = e^{- \frac{{ampdis (θ)}^{2}}{C}} - - - (4)

C = \frac{1}{L} Σ_{θ = θ_{1}}^{θ_{L}} {ampdis (θ)}^{2} - - - (5) .

再例如，也可以通过下式估计所有位置θ的第二概率函数prob_amp(θ)：

{prob}_{amp} (θ) = \frac{1}{ampdis (θ)} - - - (6) .

第三函数生成器809被配置成基于第一概率函数和第二概率函数导出用于估计所有位置是期望位置的概率的组合概率函数。组合概率函数可以估计可能位置和候选位置是期望位置的概率。此外，组合概率函数也可以估计其它位置是期望位置的概率。

各种方法可以被用来基于两个概率函数导出组合概率函数。例如，可以如下所示通过把第一和第二概率函数相乘来导出组合概率函数：

prob_comb(θ)＝prob_amp(θ)*prob_phase(θ) (7)。

图10图示了通过把第一概率函数prob_phase(θ)和第二概率函数prob_amp(θ)相乘而获得的组合概率函数prob_comb(θ)的示例。在图10中，水平轴指示位置，纵轴指示各位置是声源的期望位置的概率。

估计器803被配置成把具有最高prob_comb(θ)的位置θ_ampsrp估计为期望位置，即，

θ_{ampsrp} = \underset{θ}{\arg \max} ({prob}_{comb} (θ)) .

位置θ_ampsrp也被称为组合估计结果。

在图10的例子中，具有最大能量的声源位于307度。在第一概率函数中存在多个具有局部最大值的角度，包含50度、182度和307度，其中具有最大prob_phase(θ)的角度是50度。具有最大prob_amp(θ)的角度是288度，其接近于声源的角度，但并不是准确的。可以通过把prob_amp(θ)与prob_phase(θ)相乘来获得prob_comb(θ)。具有最大prob_comb(θ)的角度是305度，其非常接近于真实角度。

优选地，估计器803进一步被配置成从第一概率函数的一个或多个峰位置中，或者从具有较高可能性的一个或多个可能位置中，选择与具有最大组合概率的位置最接近的位置。

例如，如果组合估计结果接近于通过基于时间差的算法估计的位置(即，具有较高可能性的可能位置)，则可以把组合估计结果调整到该估计位置。

例如，如果组合估计结果接近于一个潜在位置，即，SRP曲线的一个局部最大值(峰)，则组合估计结果可以被调整到该位置。

作为一个例子，可以通过下式估计位置θ_phase：

θ_{phase} = \underset{θ}{\arg \max} ({prob}_{phase} (θ)) .

接着把θ_ampsrp与θ_phase相比较。

如果diff(θ_ampsrp，θ_phase)＜阈值，则θ_ampsrp＝θ_phase。

作为另一个例子，可以把SRP曲线的所有局部最大值计算为θ_{phase_1}，θ_{phase_2}，…，θ_{phase_C}。于是如下所示找到最接近于θ_ampsrp的局部最大值θ_{phase_c}：

如果diff(θ_ampsrp，θ_{phase_c})＜阈值，则θ_ampsrp＝θ_{phase_c}。

在图10的例子中，最接近于θ_ampsrp＝305的局部最大值θ_{phase_c}是307度。如果使用阈值＝10，则θ_ampsrp会被改进为307度。

可选地，可以通过把θ_ampsrp与具有最大prob_phase(θ)的角度和具有最大prob_amp(θ)的角度相比较来进行改进。如果与具有最大prob_amp(θ)的角度相比θ_ampsrp更接近于具有最大prob_phase(θ)的角度，则θ_ampsrp可以被改进为具有最大prob_phase(θ)的角度。

图9描述了根据本发明一个实施例的进行声源定位的示例方法900。

如图9所示，方法900从步骤901开始。步骤903、905和906分别与步骤703、705和706具有相同功能，这里不再详细描述。

在步骤906之后，方法900前进到步骤907。在步骤907，基于可能位置及其可能性导出用于估计所有位置是期望位置的概率的第一概率函数。

在步骤908，基于候选位置及其相似度导出用于估计所有位置是期望位置的概率的第二概率函数。

在步骤909，基于第一概率函数和第二概率函数计算用于估计所有位置是期望位置的概率的组合概率函数。

在步骤910，基于组合概率函数，具有最高组合概率的位置被估计为期望位置。

方法900在步骤911结束。

应当注意，步骤907可以在步骤905和909之间的任何时间执行，并且步骤908可以在步骤906和909之间的任何时间执行。

此外，可以通过引入第一系数来导出第一概率函数，并且可以通过引入第二系数来导出第二概率函数。第一系数和第二系数使得组合概率函数能够对相似度更加敏感。

例如，公式(1)可以被调整为

{prob}_{phase} (θ) = R_{phase} + {\tilde{P}}_{b}^{PHAT} (θ),

其中较小的R_phase会使最终决定更加依赖于幅度差，反之亦然。在CMA的一个实现中，R_phase＝0，于是

例如，公式(3)可以被调整为

C = R_{amp} * (\frac{1}{L} Σ_{θ = θ_{1}}^{θ_{L}} {(1 / {\tilde{P}}_{b}^{PHAT} (θ))}^{2}),

其中较小的R_amp会使最终决定更加依赖于幅度差，反之亦然。在CMA的一个实现中，R_amp＝1。

例如，公式(5)可以被调整为

C = R_{amp} * (\frac{1}{L} Σ_{θ = θ_{1}}^{θ_{L}} {ampdis (θ)}^{2}),

其中R_amp是用于调整概率函数的常数。较小的R_amp会使得概率函数对FADV和RFADV之间的距离更加敏感。由于这个概率函数被用来模拟另一个方法的角度估计结果，较小的R_amp可以使得最终决定更加依赖于幅度差，反之亦然。在CMA的一个实现中，R_amp＝3。

例如，公式(6)可以被调整为

{prob}_{amp} (θ) = \frac{1}{R_{amp} + ampdis (θ)} .

类似地，较小的R_amp会使最终决定更加依赖于幅度差，反之亦然。在CMA的一个实现中，R_amp＝6。

在对图8和图9的实施例的修改中，可以省略第三函数生成器809(步骤909)，和第一函数生成器807(步骤907)与第二函数生成器808(步骤908)之一。在这样的情况下，第一函数生成器807(步骤907)和第二函数生成器808(步骤908)中的另一个可以基于可能位置及其可能性，或者基于候选位置及其相似度，导出用于估计所有位置是期望位置的概率的概率函数。相应地，估计器803(步骤910)进一步被配置成从具有较高相似度的一个或多个候选位置中，或者从具有较高可能性的一个或多个可能位置中，基于概率函数选择具有最高概率的位置。

例如，基于时间差的算法(例如SRP)返回在针对所有角度的可控响应功率曲线中具有局部最大值的所有角度，而基于幅度差的算法返回概率函数。于是，把关于SRP-PHAT返回的角度的概率函数值相比较，并且具有最大概率的角度被选择为最终估计角度。

在图10的例子中，SRP-PHAT中存在具有局部最大值的多个角度，包含50度、182度和307度。307度的prob_amp(θ)大于50度和182度的prob_amp(θ)，因而307度被选择为最终估计角度。

在图6和图7的实施例的进一步的例子中，估计器603(步骤707)进一步被配置成找到一对具有较高相似度的候选位置和具有较高可能性的可能位置，这对候选位置和可能位置彼此最接近，以及选择该对候选位置和可能位置之一作为期望位置。

在图10的例子中，SRP-PHAT中存在具有局部最大值的多个角度，包含50度、182度和307度。具有帧幅度差向量和参考幅度差向量之间的最小距离的角度是288度，这是基于幅度差的算法返回的角度。最接近于基于幅度差的算法提供的候选的SRP候选是307度，其被选择为最终估计角度。

在图11中，中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机访问存储器(RAM)1103的程序执行各种处理。在RAM 1103中，也根据需要存储当CPU 1101执行各种处理等等时所需的数据。

CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。

下列部件连接到输入/输出接口1105：包括键盘、鼠标等等的输入部分1106；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分1107；包括硬盘等等的存储部分1108；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分1109。通信部分1109经由例如因特网的网络执行通信处理。

根据需要，驱动器1110也连接到输入/输出接口1105。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质1111根据需要被安装在驱动器1110上，使得从中读出的计算机程序根据需要被安装到存储部分1108。

在通过软件实现上述步骤和处理的情况下，从例如因特网的网络或例如可移除介质1111的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施例的目的，而不意图限定本发明。本文中所用的单数形式的″一″和″该″旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，″包括″一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要把本发明限定到所表述的形式对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

描述了下列实施例。

1.一种进行声源定位的方法，包括：

基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量，所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差；

评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度，所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差；

至少基于所述候选位置和相关的相似度估计声源的期望位置。

2.如1所述的方法，还包括：

根据基于时间差的音频定位方法评价多个可能位置中的每个是所述期望位置的可能性，并且

其中所述估计包括基于所述候选位置、所述相似度、所述可能位置和所述可能性来估计所述期望位置。

3.如2所述的方法，还包括：

基于所述可能位置及其可能性导出用于估计所有位置是所述期望位置的概率的第一概率函数；

基于所述候选位置及其相似度导出用于估计所有位置是所述期望位置的概率的第二概率函数；和

基于所述第一概率函数和所述第二概率函数计算用于估计所有位置是所述期望位置的概率的组合概率函数，并且

其中所述估计包括基于所述组合概率函数把具有最高组合概率的位置估计为所述期望位置。

4.如3所述的方法，其中所述估计包括从所述第一概率函数的一个或多个峰位置中，或者从具有较高可能性的一个或多个可能位置中，选择与具有最大组合概率的位置最接近的位置。

5.如3所述的方法，其中通过引入第一系数来导出所述第一概率函数，通过引入第二系数来导出第二概率函数，所述第一系数和所述第二系数使得所述组合概率函数对于所述相似度更加敏感。

6.如2所述的方法，还包括：

基于所述可能位置及其可能性，或者基于所述候选位置及其相似度，导出用于估计所有位置是所述期望位置的概率的概率函数；和

其中，所述估计包括从具有较高相似度的一个或多个所述候选位置中，或者从具有较高可能性的一个或多个所述可能位置中，基于所述概率函数选择具有最高概率的位置。

7.如2所述的方法，其中所述估计包括：

找到一对具有较高相似度的所述候选位置和具有较高可能性的所述可能位置，所述一对候选位置和可能位置彼此最接近；和

选择所述一对候选位置和可能位置之一作为所述期望位置。

8.如1至7中任何一个所述的方法，其中根据下面的方法之一来计算所述帧幅度差向量：基于能量的方法和基于特征向量的方法。

9.如1至8中任何一个所述的方法，其中根据下面的方法之一来计算所述帧幅度差向量：基于时域样本值的方法和基于频域参数的方法。

10.如1至9中任何一个所述的方法，其中根据下面的方法之一来计算所述帧幅度差向量：

基于所述短时间帧数据中各个信道上的平均幅度来计算所述帧幅度差向量；

基于对协方差矩阵的特征向量分析来计算所述帧幅度差向量，所述协方差矩阵包含所述短时间帧数据中各个信道的时域样本值；和

基于所述短时间帧数据中各个信道的频域上的平均幅度来计算所述帧幅度差向量。

11.如1至9中任何一个所述的方法，其中基于所述短时间帧数据中各个信道的谱参数的特征向量分析来计算所述帧幅度差向量。

12.如8或9或11所述的方法，其中所述谱参数是下面类型的参数之一：FFT参数、梅尔倒频谱参数和子带能量。

13.如8或9或11所述的方法，其中所述谱参数是复谱参数或幅度谱参数。

14.如8或9或11所述的方法，其中通过对所述信道中的每个的多个子帧进行谱分析来获得所述信道的谱参数，并且其中所述信道的所有样本被组合成所述子帧。

15.如14所述的方法，其中获得作为第二协方差矩阵的和的第一协方差矩阵，其中每个所述第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数，并且

其中，基于对所述第一协方差矩阵的特征向量分析来计算所述帧幅度差向量。

16.如14所述的方法，其中通过对协方差矩阵的最大特征向量求平均来计算所述帧幅度差向量，其中每个所述协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数。

17.如8或9或11所述的方法，其中通过直接对每个所述信道的所有样本进行谱分析来获得所述信道的谱参数，并且

其中所述帧幅度差向量被计算为协方差矩阵的最大特征向量，其中所述协方差矩阵包含所有所述信道的所有所使用频率区间的谱参数。

18.如1至17中任何一个所述的方法，其中基于所述短时间帧数据及其前面的短时间帧数据自适应地计算所述帧幅度差向量。

19.如18所述的方法，其中通过下述步骤自适应地计算所述帧幅度差向量：

基于所述短时间帧数据计算当前帧幅度差向量，和

把所述当前帧幅度差向量和基于前面的短时间帧数据自适应地计算的历史帧幅度差向量平滑为所述帧幅度差向量，其中所述帧幅度差向量或所述当前帧幅度差向量被用作下一帧幅度差向量的历史帧幅度差向量。

20.如18所述的方法，其中根据基于特征向量的方法来计算所述帧幅度差向量，并且

其中通过下述步骤来获得用于基于短时间帧数据计算特征向量的最终协方差矩阵：

基于所述短时间帧数据导出当前协方差矩阵，和

把所述当前协方差矩阵和基于前面的短时间帧数据的历史协方差矩阵平滑为所述最终协方差矩阵，其中用于基于所述短时间帧数据计算特征向量的所述最终协方差矩阵或所述当前协方差矩阵被用作下一最终协方差矩阵的历史协方差矩阵。

21.如1至20之一所述的方法，还包括：

通过经由所述阵列分别捕获来自所述候选位置的声音来获得所述多个参考帧幅度差向量。

22.如1至20之一所述的方法，还包括：

基于所述阵列的所述话筒对来自所述候选位置的声音的灵敏度来计算所述多个参考帧幅度差向量。

23.如1至22中任何一个所述的方法，其中所述阵列包括三个心型指向话筒，所述三个心型指向话筒在平面中的取向分别为0度、-120度和-240度的方向。

24.一种进行声源定位的设备，包括：

向量计算器，其基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量，所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差；

相似度评价器，其评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度，所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差；

估计器，其至少基于所述候选位置和相关的相似度估计声源的期望位置。

25.如24所述的设备，还包括：

可能性评价器，其根据基于时间差的音频定位方法评价多个可能位置中的每个是所述期望位置的可能性，并且

其中所述估计器进一步被配置成基于所述候选位置、所述相似度、所述可能位置和所述可能性来估计所述期望位置。

26.如25所述的设备，还包括：

第一函数生成器，其基于所述可能位置及其可能性导出用于估计所有位置是所述期望位置的概率的第一概率函数；

第二函数生成器，其基于所述候选位置及其相似度导出用于估计所有位置是所述期望位置的概率的第二概率函数；和

第三函数生成器，其基于所述第一概率函数和所述第二概率函数计算用于估计所有位置是所述期望位置的概率的组合概率函数，并且

其中所述估计器进一步被配置成基于所述组合概率函数把具有最高组合概率的位置估计为所述期望位置。

27.如26所述的设备，其中所述估计器进一步被配置成从所述第一概率函数的一个或多个峰位置中，或者从具有较高可能性的一个或多个可能位置中，选择与具有最大组合概率的位置最接近的位置。

28.如26所述的设备，其中通过引入第一系数来导出所述第一概率函数，通过引入第二系数来导出第二概率函数，所述第一系数和所述第二系数使得所述组合概率函数对于所述相似度更加敏感。

29.如25所述的设备，还包括：

函数生成器，其基于所述可能位置及其可能性，或者基于所述候选位置及其相似度，导出用于估计所有位置是所述期望位置的概率的概率函数，并且

其中，所述估计器进一步被配置成从具有较高相似度的一个或多个所述候选位置中，或者从具有较高可能性的一个或多个所述可能位置中，基于所述概率函数选择具有最高概率的位置。

30.如25所述的设备，其中其中，所述估计器进一步被配置成找到一对具有较高相似度的所述候选位置和具有较高可能性的所述可能位置，所述一对候选位置和可能位置彼此最接近，以及选择所述一对候选位置和可能位置之一作为所述期望位置。

31.如24至30之一所述的设备，其中向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量：基于能量的方法和基于特征向量的方法。

32.如24至31之一所述的设备，其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量：基于时域样本值的方法和基于频域参数的方法。

33.如24至32之一所述的设备，其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量：

34.如24至32之一所述的设备，其中所述向量计算器被配置成基于所述短时间帧数据中各个信道的谱参数的特征向量分析来计算所述帧幅度差向量。

35.如31或32或34所述的设备，其中所述谱参数是下面类型的参数之一：FFT参数、梅尔倒频谱参数和子带能量。

36.如31或32或34所述的设备，其中所述谱参数是复谱参数或幅度谱参数。

37.如31或32或34所述的设备，其中所述向量计算器被配置成通过对所述信道中的每个的多个子帧进行谱分析来获得所述信道的谱参数，并且其中所述信道的所有样本被组合成所述子帧。

38.如37所述的设备，其中所述向量计算器被配置成获得作为第二协方差矩阵的和的第一协方差矩阵，其中每个所述第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数，并且

其中，所述向量计算器被配置成基于对所述第一协方差矩阵的特征向量分析来计算所述帧幅度差向量。

39.如37所述的设备，其中所述向量计算器被配置成通过对协方差矩阵的最大特征向量求平均来计算所述帧幅度差向量，其中每个所述协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数。

40.如31或32或34所述的设备，其中所述向量计算器被配置成通过直接对每个所述信道的所有样本进行谱分析来获得所述信道的谱参数，并且

其中所述向量计算器被配置成把所述帧幅度差向量计算为协方差矩阵的最大特征向量，其中所述协方差矩阵包含所有所述信道的所有所使用频率区间的谱参数。

41.如24至40之一所述的设备，其中所述向量计算器被配置成基于所述短时间帧数据及其前面的短时间帧数据自适应地计算所述帧幅度差向量。

42.如41所述的设备，其中所述向量计算器被配置成通过下述操作自适应地计算帧幅度差向量：

基于所述短时间帧数据计算当前帧幅度差向量，和

43.如41所述的设备，其中所述向量计算器被配置成根据基于特征向量的方法来计算所述帧幅度差向量，并且

其中所述向量计算器被配置成通过下述操作来获得用于基于短时间帧数据计算特征向量的最终协方差矩阵：

基于所述短时间帧数据导出当前协方差矩阵，和

44.如24至43之一所述的设备，还包括：

参考向量计算器，其基于通过经由所述阵列分别捕获来自所述候选位置的声音而获得的音频数据来计算所述多个参考帧幅度差向量。

45.如24至43之一所述的设备，还包括：

参考向量计算器，其基于所述阵列的所述话筒对来自所述候选位置的声音的灵敏度来计算所述多个参考帧幅度差向量。

46.如24至45之一所述的设备，其中所述阵列包括三个心型指向话筒，所述三个心型指向话筒在平面中的取向分别为0度、-120度和-240度的方向。

47.一种计算机可读介质，其上记录有使得处理器能够进行声源定位的计算机程序指令，所述计算机程序指令包括：

用于基于通过话筒阵列获得的短时间帧数据计算帧幅度差向量的装置，所述帧幅度差向量反映在记录所述短时间帧数据期间所述阵列的话筒捕获的幅度之间的差；

用于评价所述帧幅度差向量和多个参考帧幅度差向量中的每个之间的相似度的装置，所述多个参考帧幅度差向量中的每个反映在记录来自多个候选位置之一的声音期间所述阵列的话筒捕获的幅度之间的差；

用于至少基于所述候选位置和相关的相似度估计声源的期望位置的装置。

48.如47所述的计算机可读介质，其中所述计算机程序指令还包括：

用于根据基于时间差的音频定位方法评价多个可能位置中的每个是所述期望位置的可能性的装置，并且

其中用于估计的装置包括用于基于所述候选位置、所述相似度、所述可能位置和所述可能性来估计所述期望位置的装置。

Claims

1.一种进行声源定位的方法，包括：

2.如权利要求1所述的方法，还包括：

3.如权利要求2所述的方法，还包括：

4.如权利要求3所述的方法，其中所述估计包括从所述第一概率函数的一个或多个峰位置中，或者从具有较高可能性的一个或多个可能位置中，选择与具有最大组合概率的位置最接近的位置。

5.如权利要求3所述的方法，其中通过引入第一系数来导出所述第一概率函数，通过引入第二系数来导出第二概率函数，所述第一系数和所述第二系数使得所述组合概率函数对于所述相似度更加敏感。

6.如权利要求2所述的方法，还包括：

基于所述可能位置及其可能性，或者基于所述候选位置及其相似度，导出用于估计所有位置是所述期望位置的概率的概率函数，并且

7.如权利要求2所述的方法，其中所述估计包括：

选择所述一对候选位置和可能位置之一作为所述期望位置。

8.如权利要求1所述的方法，其中根据下面的方法之一来计算所述帧幅度差向量：基于能量的方法和基于特征向量的方法。

9.如权利要求1所述的方法，其中根据下面的方法之一来计算所述帧幅度差向量：基于时域样本值的方法和基于频域参数的方法。

10.如权利要求1所述的方法，其中根据下面的方法之一来计算所述帧幅度差向量：

11.如权利要求1所述的方法，其中基于所述短时间帧数据中各个信道的谱参数的特征向量分析来计算所述帧幅度差向量。

12.如权利要求11所述的方法，其中所述谱参数是下面类型的参数之一：FFT参数、梅尔倒频谱参数和子带能量。

13.如权利要求11所述的方法，其中所述谱参数是复谱参数或幅度谱参数。

14.如权利要求11所述的方法，其中通过对所述信道中的每个的多个子帧进行谱分析来获得所述信道的谱参数，并且其中所述信道的所有样本被组合成所述子帧。

15.如权利要求14所述的方法，其中获得作为第二协方差矩阵的和的第一协方差矩阵，其中每个所述第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数，并且

16.如权利要求14所述的方法，其中通过对协方差矩阵的最大特征向量求平均来计算所述帧幅度差向量，其中每个所述协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数。

17.如权利要求11所述的方法，其中通过直接对每个所述信道的所有样本进行谱分析来获得所述信道的谱参数，并且

18.如权利要求1所述的方法，其中基于所述短时间帧数据及其前面的短时间帧数据自适应地计算所述帧幅度差向量。

19.如权利要求18所述的方法，其中通过下述步骤自适应地计算所述帧幅度差向量：

基于所述短时间帧数据计算当前帧幅度差向量，和

20.如权利要求18所述的方法，其中根据基于特征向量的方法来计算所述帧幅度差向量，并且

基于所述短时间帧数据导出当前协方差矩阵，和

21.如权利要求1所述的方法，还包括：

22.如权利要求1所述的方法，还包括：

23.如权利要求1所述的方法，其中所述阵列包括三个心型指向话筒，所述三个心型指向话筒在平面中的取向分别为0度、-120度和-240度的方向。

24.一种进行声源定位的设备，包括：

25.如权利要求24所述的设备，还包括：

26.如权利要求25所述的设备，还包括：

27.如权利要求26所述的设备，其中所述估计器进一步被配置成从所述第一概率函数的一个或多个峰位置中，或者从具有较高可能性的一个或多个可能位置中，选择与具有最大组合概率的位置最接近的位置。

28.如权利要求26所述的设备，其中通过引入第一系数来导出所述第一概率函数，通过引入第二系数来导出第二概率函数，所述第一系数和所述第二系数使得所述组合概率函数对于所述相似度更加敏感。

29.如权利要求25所述的设备，还包括：

30.如权利要求25所述的设备，其中所述估计器进一步被配置成找到一对具有较高相似度的所述候选位置和具有较高可能性的所述可能位置，所述一对候选位置和可能位置彼此最接近，以及选择所述一对候选位置和可能位置之一作为所述期望位置。

31.如权利要求24所述的设备，其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量：基于能量的方法和基于特征向量的方法。

32.如权利要求24所述的设备，其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量：基于时域样本值的方法和基于频域参数的方法。

33.如权利要求24所述的设备，其中所述向量计算器被配置成根据下面的方法之一来计算所述帧幅度差向量：

34.如权利要求24所述的设备，其中所述向量计算器被配置成基于所述短时间帧数据中各个信道的谱参数的特征向量分析来计算所述帧幅度差向量。

35.如权利要求34所述的设备，其中所述谱参数是下面类型的参数之一：FFT参数、梅尔倒频谱参数和子带能量。

36.如权利要求34所述的设备，其中所述谱参数是复谱参数或幅度谱参数。

37.如权利要求34所述的设备，其中所述向量计算器被配置成通过对所述信道中的每个的多个子帧进行谱分析来获得所述信道的谱参数，并且其中所述信道的所有样本被组合成所述子帧。

38.如权利要求37所述的设备，其中所述向量计算器被配置成获得作为第二协方差矩阵的和的第一协方差矩阵，其中每个所述第二协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数，并且

39.如权利要求37所述的设备，其中所述向量计算器被配置成通过对协方差矩阵的最大特征向量求平均来计算所述帧幅度差向量，其中每个所述协方差矩阵对应于所使用频率区间中的相应一个，并且包含所有信道的所有子帧的针对所述相应所使用频率区间的谱参数。

40.如权利要求34所述的设备，其中所述向量计算器被配置成通过直接对每个所述信道的所有样本进行谱分析来获得所述信道的谱参数，并且

41.如权利要求24所述的设备，其中所述向量计算器被配置成基于所述短时间帧数据及其前面的短时间帧数据自适应地计算所述帧幅度差向量。

42.如权利要求41所述的设备，其中所述向量计算器被配置成通过下述操作自适应地计算帧幅度差向量：

基于所述短时间帧数据计算当前帧幅度差向量，和

43.如权利要求41所述的设备，其中所述向量计算器被配置成根据基于特征向量的方法来计算所述帧幅度差向量，并且

基于所述短时间帧数据导出当前协方差矩阵，和

44.如权利要求24所述的设备，还包括：

45.如权利要求24所述的设备，还包括：

46.如权利要求24所述的设备，其中所述阵列包括三个心型指向话筒，所述三个心型指向话筒在平面中的取向分别为0度、-120度和-240度的方向。

48.如权利要求47所述的计算机可读介质，其中所述计算机程序指令还包括：