CN103901401A

CN103901401A - 一种基于双耳匹配滤波器的双耳声音源定位方法

Info

Publication number: CN103901401A
Application number: CN201410143474.1A
Authority: CN
Inventors: 刘宏; 张结; 丁润伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2014-07-02
Anticipated expiration: 2034-04-10
Also published as: CN103901401B

Abstract

本发明公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法，首先，可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的，提高了时间差的估计精度；其次，利用双耳能量差来缩小第一层得到的候选方向集合；再次，第三层提出了双耳匹配滤波器作为新的双耳定位特征，它描述了双耳信号之间的差异，能够充分表达双耳时间差和双耳能量差之间的关系；最后，针对三层定位过程中搜索空间逐渐缩小，采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数，降低了算法的时间复杂度，保证了声源定位系统的实时性要求。

Description

一种基于双耳匹配滤波器的双耳声音源定位方法

技术领域

本发明属于信息技术领域，涉及一种应用在语音感知和语音增强中的双耳声源定位方法，具体涉及一种基于双耳匹配滤波器的双耳声音源定位方法。

背景技术

双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中，听觉感知都是人与人之间最有效最直接的交互方式之一。其中在日常感知世界、获取信息的主要过程中，人们通过视觉获取的信息大约占到了70%-80%，通过听觉获取的信息大约占到了10%-20%。因此在机器人智能化程度不断提升的过程中，机器人的听觉交互是必不可少的研究方向。人和其他的哺乳动物的听觉系统都具有很强的声源定位能力，因此人类一直期望机器人能够像人一样具有实时定位环境中的声源位置的能力。事实上，能否进行听觉定位是机器人智能与否的重要标志之一。与机器人视觉相比，机器人听觉仍然处于初始阶段。然而与机器人视觉相比，听觉的优势在于：

1）视觉的应用场景仅限于180°范围内，而听觉却可以定位到360°的范围。

2）由于声音信号的衍射性能，相较于视觉、激光等其他的传感信号听觉不需要直线视野，在有视野遮蔽障碍物的情况下依然可以有效的工作。

双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性，在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支，不仅利用了双麦克风简易的阵列结构，又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。

双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。

声源定位技术在语音识别领域也得到广泛应用。在视频会议中，通过声源定位技术控制摄像头，使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆，为避免驾驶员用手去接听电话，车载免提电话应运而生。然而，当车中坐有多个说话人时，语音识别系统就无法辨别实际命令的来源，此时就需要一种定位系统来提取驾驶员方位的语音，进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波，可以进一步抑制除说话人以外的其它方向的噪声，使得助听器话音更加清晰。近年来，基于声源定位技术的电子笔系统成为研究热点，用于接收的麦克风阵列以不同的方式集成在显示器边缘，此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。

基本上，双耳声音源定位是一个模式分类的问题。类似于自动语音识别，其主要的两大步骤分别是：语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号，并进行模数转换，把模拟声音信号转换成数字信号。在信号处理阶段，首先对原始信号进行预处理：降噪和滤波，信号预加重，分帧并加窗，对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段，通过与定位系统中的先验知识（即模板）进行比对从而得出定位结果。现有的声源定位系统包括以下步骤：

1、语音录入，预滤波、模数变换。先把录入的模拟声音信号进行预滤波，高通滤波抑制50Hz电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分，防止混叠干扰，对模拟声音信号进行采样和量化得到数字信号。

2、预加重。信号通过高频加重滤波器冲激响应H(z)＝1-0.95z^-1，以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。由于语音信号的慢时变性，整体非平稳，局部平稳，一般认为语音信号在10-30ms内是平稳的，可以把声音信号按照20ms的长度进行分帧。分帧函数为：

x_k(n)＝w(n)s(Nk+n) n＝0,1...N-1;k＝0,1...L-1 （1）

其中N为帧长，L为帧数。w(n)为窗函数，它的选择（形状和长度）对短时分析参数的特性影响很大，常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗，可以很好地反应语音信号的特性变化，汉明窗表达式为：

4、特征提取。每帧信号可以提取特征以表征本帧信号所包含的信息，现常用于声源定位系统的双耳特征包括双耳时间差（InterauralTimeDifference,ITD）、双耳能量差（InterauralIntensityDifference,IID），双耳相位差（InterauralPhaseDifference,IPD）等，前面两种特征是应用最多的。

5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配，差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标，这种模式理论上可以得到准确解，但是易受环境噪声及混响等因素的干扰。

现有的方法一般采用类似于模式识别的思路，一般没有考虑双耳时间差与双耳能量差之间的关系，大都分为独立的两个模块计算这二者，比如利用广义互相关（包括使用不同的加权函数）计算双耳时间差、利用对数能量比的方法计算双耳能量差，而且加权广义互相关大都从克服不同环境所带来提取时延困难的问题提出的，并没有考虑双耳时间差在各个子频带上的差异性及可靠性。因此，传统的方法需要更复杂的计算体系，全局特征匹配的模式也面临了计算复杂度指数增长的瓶颈，需要提出更能反映双耳时间差和双耳能量差之间相互影响关系的特征完备地表达声源位置信息。

发明内容

针对上述问题，本发明的目的在于提供一种基于双耳匹配滤波器的双耳声音源定位方法，分别采用了双耳时间差、双耳能量差和双耳匹配滤波器作为三层的定位特征，利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角（声源方向信息），即达到定位的目的。

为了实现上述目的，本发明采用以下技术方案：

一种基于双耳匹配滤波器的双耳声音源定位方法，包括：

1）训练阶段，录制双耳声音源定位数据库，为双耳时间差（ITD）、双耳能量差（IID）和双耳匹配滤波器（IMF）建立模板。

1-1）将定位空间按照转向角（azimuth）和俯仰角（elevation）划分，转向角可以是非均匀的划分方法，比如[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°]，因为声音源定位系统对不同转向角的定位方差不同；俯仰角可以采用均匀划分的方式，比如[-45°:5.625°:230.625°]，这种划分空间方式中转向角共25个，俯仰角共50个。

1-2）采用固定声源到坐标系中心距离（比如1米），在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据（即声源传递给麦克风的信号）。因为声源定位系统对距离的判别能力相对较弱，何况人耳对距离的鉴别能力也一般，因此距离不是本发明的考虑因素。

1-3）利用头相关传递函数（Head-RelatedTransferFunction,HRTF）或者离线录制的声音数据库，离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板，并可以得到双耳时间差和双耳能量差的期望和方差。

2）在线定位阶段，当声源定位系统检测到有声音源发生，利用可靠频带选择机制选择可靠的频带并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量。

3）将步骤2）中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域，其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角，得到缩小的搜索空间，再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度，最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角，实现双耳声音源定位。

更进一步，离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板的方法，本质上与声音源的类型无关，比如正常的说话声、尖叫声、关门声、拍桌子声等，录制数据库的环境可以是室内办公环境（信噪比大约为20-40dB）或者半室内的大厅环境。所述模板包括所有方向上的双耳时间差均值、方差（个数等于转向角的数量）和双耳能量差均值、方差，以及所有方向上的双耳匹配滤波器系数。需要指出的是，双耳时间差的方差是根据每个转向角上所有俯仰角（比如25个）的时间差统计得到，原因在于同一个转向角不同俯仰角上的双耳时间差基本相等，几何意义上双耳时间差只与转向角成正弦函数关系；由于双耳能量差与转向角和俯仰角没有单调分布关系，所有双耳能量差的均值和方差是针对每个方向进行多次训练测试，统计结果得到。

更进一步，利用基于频带可靠性的广义互相关相位变换（GeneralizedCrossCorrelation-PhaseTransformation,GCC-PHAT）的方法计算所有方向上的双耳时间差，再分别按照传统的对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。

更进一步，如果首先将双耳信号划分为K个频带，那么，对于其中每个子频带m(m＝1,2,…,K)的可靠性的定义方式为：

因此，b_m是一个二值掩码标识该频带是否可靠的信息。需要指出的是，频带的可靠性只需要在实时定位的时候进行。

更进一步，对于任一信号帧的双耳时间差可以定义为：

Δτ = \frac{1}{k} Σ_{m = 1}^{K} b_{m} Δ τ_{m} - - - (4)

其中，k是共选择出来可靠频带的个数，对于每个子频带m的时间差Δτ_m可以用传统的GCC-PHAT方法计算，即：

\begin{matrix} R_{x_{l}, x_{r}} (n) = {&Integral;}_{- π}^{π} W (ω) X_{l} (ω) X_{r}^{*} (ω) e^{- jωn} dω \\ W (ω) = \frac{1}{{| G (ω) |}^{ρ} + | γ^{2} (ω) |} \\ G (ω) = X_{l} (ω) X_{r}^{*} (ω) \end{matrix} - - - (5)

其中，

(n)就是GCC-PHAT函数，l表示左耳，r表示右耳，W(ω)为谱加权函数，X_l(ω),X_r(ω)分别表示双耳信号x_l(n)（左耳信号）和x_r(n)（右耳信号）的离散傅里叶变换，G(ω)是双耳信号的互相关，ρ是由环境中的信噪比（Signal-to-NoiseRatio，SNR）确定的混响因子，γ为一致性函数，*表示复共轭。

因此，各频带的时间差Δτ_m就可以根据求解GCC-PHAT函数的峰值位置得到：

Δ τ_{m} = \arg ma x_{n} {R^{m}}_{x_{l}, x_{r}} (n), m = 1,2, . . ., K - - - (6)

更进一步，利用传统的对数能量比的方法估计双耳能量差，理想情况下，若忽略背景噪声和混响效应，双耳接收到信号的能量谱分别为：

\begin{matrix} E_{l} (ω) = X_{l} (ω) = S (ω) {| H_{l} (ω) |}^{2} \\ E_{r} (ω) = X_{r} (ω) = S (ω) {| H_{r} (ω) |}^{2} \end{matrix} - - - (7)

其中，H_l(ω)，H_r(ω)分别为左耳信号和右耳信号的头相关传递函数（HeadRelatedTransferFunction,HRTF），S(ω)是声源信号的能量谱。

从工程的角度出发，考虑双耳能量谱的对数形式：

\begin{matrix} I_{l} (ω) = 10 \log E_{l} (ω) = 10 \log S (ω) + 20 \log | H_{l} (ω) | \\ I_{r} (ω) = 10 \log E_{r} (ω) = 10 \log S (ω) + 20 \log | H_{r} (ω) | \end{matrix} - - - (8)

因此，双耳能量差可以定义为：

\begin{matrix} ΔI (ω) = I_{l} (ω) - I_{r} (ω) \\ = 20 \log | H_{l} (ω) | - 20 \log | H_{r} (ω) | \\ =20 \log \frac{| H_{l} (ω) |}{| H_{r} (ω) |} \end{matrix} - - - (9)

由此可见，双耳能量差与声音源信号无关，只依赖于头相关传递函数。此外，双耳能量差与转向角、俯仰角之间并没有直接的代数联系，所以使用能量差来辅助缩小候选区域。

更进一步，双耳匹配滤波的思路是设计出一组滤波器系数向量作为第三层定位特征。此处提及到的双耳匹配滤波实质上是按照最优滤波器——维纳滤波的思路设计的，即将左耳信号x_l(n)作为滤波器的输入信号，右耳信号x_r(n)作为滤波器的参考信号（期望信号），反之亦然，令滤波器的系数向量w＝[w₀,w₁,…,w_M-1]，M表示帧长，则滤波器的输出信号为：

y (n) = Σ_{i = 0}^{M - 1} {w_{i}}^{*} x_{l} (n - i), n = 0,1 . . ., M - - - (10)

因此，滤波器的匹配误差可以定义为：

e(n)＝x_r(n)-y(n)（11）

通过最小化均方误差J(n)＝E{e(n)|²}＝E{e(n)e^*(n)}可以得到著名的维纳霍夫方程：

Σ_{i = 0}^{\infty} w_{i} R_{x_{l}, x_{l}} (i - k) = R_{x_{l} {, x}_{r}} (- k), k = 0,1, . . ., M - 1 - - - (12)

其中，

是滤波器输入信号为xl(n)（即左耳信号）时的自相关函数，

为左右耳信号的互相关函数（在第一层已计算得到），若令x_l(n)＝[x_l(n),x_l(n-1),…,x_l(n-M+1)]^T，则输入信号的自相关矩阵为：

= \begin{matrix} R = {x_{l} (n) x_{l}^{H} (n)} \\ [\begin{matrix} R_{x_{l}, x_{l}} (0) & R_{x_{l}, x_{l}} (1) & . . . & R_{x_{l}, x_{l}} (M - 1) \\ R_{x_{l}, x_{l}}^{*} (1) & R_{x_{l}, x_{l}} (0) & . . . & R_{x_{l}, x_{l}} (M - 2) \\ . & . & . & . \\ . & . & . & . \\ . & . & . & . \\ R_{x_{l}, x_{l}}^{*} (M - 1) & R_{x_{l}, x_{l}}^{*} (M - 2) & . . . & R_{x_{l}, x_{l}}^{*} (0) \end{matrix}] \end{matrix} - - - (13)

式中H表示共轭转置。同理，我们可以得到滤波器输入信号与期望信号之间的互相关为：

\begin{matrix} r = E {x_{l} (n) x_{r}^{*} (n)} \\ [R_{x_{l}, x_{r}} (0) {, R}_{x_{l}, x_{r}} (- 1), . . ., R_{x_{l}, x_{r}} (- M + 1)] \end{matrix} - - - (14)

因此，求解维纳霍夫方程，我们可以得到双耳匹配滤波器的系数向量为：

w＝R^-1r（15）

另外，两个方向上双耳匹配滤波器的相似度可以通过其双耳匹配滤波器系数向量的夹角余弦来衡量，即定义：

β_{w_{1} w_{2}} = \frac{< w_{1}, w_{2} >}{| | w_{1} | | | | w_{2} | |} - - - (16)

这里的w₁,w₂分别表示由声源获得的滤波器系数向量和来自模板的滤波器系数向量。

定位阶段，可以先针对双耳接收到的信号设计出一组滤波器系数向量，然后将此向量逐个与候选区域中的滤波器作余弦相似性比对，结果被视为声源位于该方向的概率。

更进一步，考虑到转向角与双耳时间差之间存在如下关系：

θ = si n^{- 1} (Δd / d) = si n^{- 1} (\tilde{Δτ} \cdot c / d f_{s}) - - - (17)

其中，d为双耳间距，Δd表示声源到双耳的几何距离差，c为声音在空气中的传播速度（约344m/s），fs为采样频率。所以，转向角θ只受ITD的影响，与IID无关。因此，既然每个时延有且仅对应于一个转向角θ_i，那么使用概率

代表在已知双耳时延时定位到的转向角为θ_i的概率，且这个概率是可以在定位阶段之前训练得到的。当一个新的声音源出现时，将双耳时间差按转向角在模板中搜索匹配的方向，转向角θ_i和

可能的区域可以按如下规则计算：

P (θ_{i} | θ) = P (τ_{i} | \tilde{Δτ}) ~ N (\overset{&OverBar;}{τ_{i}}, {σ_{i}}^{2})

(18)

\tilde{Δτ} &SubsetEqual; (- 3 σ_{i} + \overset{&OverBar;}{τ_{i}}, 3 σ_{i} + {\overset{&OverBar;}{τ}}_{i})

当θ＝θ_i

代表平均时延，σ_i代表相应的标准差，概率

表示时间差为

而判断为τ_i的概率，表示均值为

方差为σ_i ²的高斯分布；得到候选转向角集合作为候选区域。

其次，用相同的思路考虑双耳能量差iid，每个方向上双耳能量差的均值和标准差δ_j也可以训练得到。基于前面得到候选转向角集合，在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角，俯仰角

和iid的可能区域为：

表示均值为方差为δ_j ²的高斯分布；得到缩小的搜索空间。

因此，候选集合得到进一步缩小，利用贝叶斯公式可以将概率

表达为：

第三层进行双耳匹配滤波器系数相似性计算的时候只需要针对这些候选集合进行即可：

其中，

表示先验为

前提下相似度取β_ij的概率，为全概率，为先验概率，

表示由声源信号得到的滤波器系数向量与候选集合中模板的相似度。

最后，利用贝叶斯规则来对前面三步得出的候选方向决策最终定位结果，即概率取最大的候选解被视为声音源的位置：

此处省略了下标号，其中，用ξ表示每个具体方向，

可以分别在前面三步得到，而P(ξ)是先验信息对所有方向上的取值都是相等的。

更进一步，本发明采用的基于双耳匹配滤波器的分层定位方法所需要的空间复杂度为O(N_aN_eN_c)，时间复杂度为O(N_aN_e)，N_a,N_e和N_c分别表示空间划分的转向角、俯仰角和子频带划分的数量，一次定位所需的时间要比主流的一些方法优越，且已满足实时声源定位与跟踪的需求。

本发明提出了一种新的基于贝叶斯分层模式的双耳声音源定位方法，分别采用了双耳时间差、双耳能量差和双耳匹配滤波器作为三层的定位特征，利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角（声源方向信息），即达到定位的目的。首先，可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的，提高了时间差的估计精度；其次，利用双耳能量差来缩小第一层得到的候选方向集合；再次，第三层提出了双耳匹配滤波器作为新的双耳定位特征，它描述了双耳信号之间的差异，能够充分表达双耳时间差和双耳能量差之间的关系；最后，针对三层定位过程中搜索空间逐渐缩小，采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数，降低了算法的时间复杂度，保证了声源定位系统的实时性要求。

附图说明

图1是本发明的声源定位方法流程示意图。

图2是将转向角划分为25个，俯仰角划分为50个之后得到的各个方向的平均双耳时间差。

图3是25个转向角在42个不同子频带上的平均双耳时间差。

图4是第一层基于双耳时间差筛选得到的候选转向角集合。

图5是所有方向上的双耳能量差的分布示意图。

图6是双耳匹配滤波器的原理框图。

图7是基于最小均方误差设计得到的滤波器在所有方向上的估计误差均值和方差。

图8是基于双耳匹配滤波器做特征匹配得到的声源定位结果，越亮的地方代表概率越大。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施实例采用的是加州大学戴维斯分校的CIPIC数据库进行试验，它具有目前最大的人头采集数量和最多的方向采集数。此数据库在国际上人形机器人声源定位中较为权威而且是使用最为广泛的数据库之一。数据库中共有45个人头进行试验，其中包括27名成年男性，16名成年女性，以及一个仿真人头模型KEMAR，在此仿真模型中又分别设置了大耳廓与小耳廓，在数据录取时将麦克风置于人耳之中或者仿真耳中。

数据采集过程是在严格的消音室进行，所使用的所有声源距离人头中心距离（即双耳连线的中点位置）为1米。该数据库只考虑了人头前方的180°定位空间，共划分为25个转向角区间，各区间的中心角度为[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°]；俯仰角按照均匀划分的模式，共分为50个区间，其中心角度分别为[-45°:5.625°:230.625°]，即一共1250个方向。采样频率为44.1kHz，数据格式为长度为200的FIR滤波器，即头相关传递函数HRTF。因此，这里我们只需用声源信号与HRTF卷积就可以得到双耳传声器接收到的信号。

训练阶段，采用冲激函数作为声音源与HRTF卷积，分别根据发明内容提及的三个公式

Δ τ_{m} = \arg ma x_{n} {R^{m}}_{x_{l}, x_{r}} (n), m = 1,2, . . ., K - - - (6)

\begin{matrix} ΔI (ω) = I_{l} (ω) - I_{r} (ω) \\ = 20 \log | H_{l} (ω) | - 20 \log | H_{r} (ω) | \\ =20 \log \frac{| H_{l} (ω) |}{| H_{r} (ω) |} \end{matrix} - - - (9)

w＝R^-1r（15）

计算出所有方向上的双耳时间差、双耳能量差和双耳滤波器的系数向量，并统计相应的均值和方差，因此，若令N_a,N_e和N_c分别表示空间划分的转向角、俯仰角和子频带划分的数量，本实例所需要存储的模板大小为N_aN_eN_c+2N_aN_e，空间复杂度的阶为O(N_aN_eN_c)。

在线定位阶段，考虑声源信号类型在定位之前是未知的，因此本实例采用语音、关门声、拍桌子声、玻璃碎地等声音信号作为声源进行测试。声源在室内安静环境下录制，采样频率为44.1kHz，通过实时录入声源信号，对一个较短的时间窗内（当前t秒）的信号进行识别，给出当前时间窗的识别结果，然后综合当前时间之前的所有时间段的识别结果，通过统计各方向的可能性，给出当前时间总体定位结果。

图1粗略地给出了定位的总体过程，分为前面三层定位过程和最后的贝叶斯决策。对当前一个时间窗具体算法如下：

1）对当前时间窗内声源信号进行分帧、加窗处理，帧长为256个采样点，帧移为128个采样点，观测时间长度为2s；

2）按照上面训练阶段的三个公式分别估计双耳时间差、双耳能量差和双耳匹配滤波器的系数向量，图2展示了经典的GCC-PHAT估计得到的1250个方向上的平均双耳时间差，说明同一个转向角的不同俯仰角上的双耳时间差大致相同；图3给出了25个转向角上42个不同频带上的平均时间差，可以看出只有少数的低频带对时延估计是有贡献的，大部分的高频带的双耳时间差都被错误的估计为0了。图4展示了第一层初步筛选的候选集合，可以看出基于双耳时间差可以大大缩小定位的搜索空间，比如理论上声源如果位于-80°，那第一层确定的有可能的位置集合为{-80°,-65°,-55°,-45°,-40°,-35°}。图5给出了所有方向上的双耳能量差的分布，可以看出双耳能量差并没有随转向角或俯仰角呈单调函数关系，可以作为第二层的辅助定位手段。

3）双耳匹配滤波器的原理框图如图6所示，将左耳信号作为滤波器的输入，右耳信号作为滤波器的期望（参考）信号，按照最小均方误差准则可以设计出一组滤波器系数向量。图7是训练过程中得到的各个方向在设计滤波器时候产生的误差均值和方差。图8是基于双耳匹配滤波器的定位结果示意图，图中越亮的地方代表概率越大，假如声源的位置在(10,5)，表示声源的方向为(-45°,5.625°)，可以看出正好在(10,5)附近得到的概率最大。

4）对当前观测时间内各帧信号的定位结果进行统计，利用采用直方图的形式，出现次数最多的方向即被认为是声源所在的位置。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

Claims

1.一种基于双耳匹配滤波器的双耳声音源定位方法，包括：

1）训练阶段，录制双耳声音源定位数据库，为双耳时间差、双耳能量差和双儿耳匹配滤波器建立模板，具体包括：

1-1）将定位空间按照转向角和俯仰角划分；

1-2）采用固定声源到坐标系中心距离，在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据；

1-3）离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板，得到双耳时间差和双耳能量差的期望和方差；

2）在线定位阶段，当声源定位系统检测到有声音源发生，利用可靠频带选择机制选择可靠的频带，并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量；

2.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法，其特征在于，步骤1）中，转向角采用非均匀的划分方法，俯仰角采用均匀划分的方式。

3.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法，其特征在于，步骤1）中，双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到；双耳能量差的均值和方差是针对每个方向进行多次训练测试，统计结果得到；所述模板包括：所有方向上的双耳时间差均值、方差和双耳能量差均值、方差，以及所有方向上的双耳匹配滤波器系数。

4.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法，其特征在于，步骤2）中，利用基于频带可靠性的广义互相关相位变换的方法计算所有方向上的双耳时间差，再分别按照对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。

5.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法，其特征在于，步骤2）中，首先将双耳信号划分为K个频带，对于其中每个子频带m(m＝1,2,…,K)的可靠性的定义方式为：

因此，b_m是一个二值掩码标识该频带是否可靠的信息。

6.如权利要求1-5任一所述的基于双耳匹配滤波器的双耳声音源定位方法，其特征在于，分别根据以下公式计算得到双耳时间差Δτ_m、双耳能量差ΔI(ω)和双耳滤波器的系数向量w，并统计相应的均值和方差：