CN103901400A

CN103901400A - 一种基于时延补偿和双耳一致性的双耳声音源定位方法

Info

Publication number: CN103901400A
Application number: CN201410142777.1A
Authority: CN
Inventors: 刘宏; 张结; 丁润伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2014-07-02
Anticipated expiration: 2034-04-10
Also published as: CN103901400B

Abstract

本发明公开了一种基于时延补偿和双耳一致性的双耳声音源定位方法，分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差，利用双耳一致性函数改进了时延估计的精度，在得到双耳定位特征之后，利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角，即达到定位的目的。首先，双耳一致性函数保证了应用于定位的信号帧为可靠的；其次，时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性，使双耳特征提取的手段更具多样化与普适性（适合多种不同程度地噪声环境）；最后，分层的定位系统能够有效地减少特征匹配的次数，降低了算法的时间复杂度，保证了声源定位系统的实时性要求。

Description

一种基于时延补偿和双耳一致性的双耳声音源定位方法

技术领域

本发明属于信息技术领域，涉及一种应用在语音感知和语音增强中的双耳声源定位方法，具体涉及一种基于时延补偿和双耳一致性的双耳声音源定位方法。

背景技术

双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性，在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支，不仅利用了双麦克风简易的阵列结构，又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。

双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。

声源定位技术在语音识别领域也得到广泛应用。在视频会议中，通过声源定位技术控制摄像头，使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆，为避免驾驶员用手去接听电话，车载免提电话应运而生。然而，当车中坐有多个说话人时，语音识别系统就无法辨别实际命令的来源，此时就需要一种定位系统来提取驾驶员方位的语音，进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波，可以进一步抑制除说话人以外的其它方向的噪声，使得助听器话音更加清晰。近年来，基于声源定位技术的电子笔系统成为研究热点，用于接收的麦克风阵列以不同的方式集成在显示器边缘，此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。

在语音分离中，声源定位技术有助于混叠语音的分离。语音分离源于“鸡尾酒会”问题，就是人们能够在众多谈话声和噪声中集中听力于某个人的声音的能力，长期以来它被认为是一个具有挑战性的问题。“鸡尾酒会”问题也常被称做“鸡尾酒会效应”。在语音识别技术中，这方面的研究具有重要的实际意义。如果把声源定位技术应用到语音分离中，将会大大增强感兴趣方向的语音识别，有助于混叠语音的分离。

基本上，双耳声音源定位是一个模式分类的问题。类似于自动语音识别，其主要的两大步骤分别是：语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号，并进行模数转换，把模拟声音信号转换成数字信号。在信号处理阶段，首先对原始信号进行预处理：降噪和滤波，信号预加重，分帧并加窗，对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段，通过与定位系统中的先验知识（即模板）进行比对从而得出定位结果。现有的声源定位系统包括以下步骤：

1、语音录入，预滤波、模数变换。先把录入的模拟声音信号进行预滤波，高通滤波抑制50Hz电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分，防止混叠干扰，对模拟声音信号进行采样和量化得到数字信号。

2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z^-1，以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。由于语音信号的慢时变性，整体非平稳，局部平稳，一般认为语音信号在10-30ms内是平稳的，可以把声音信号按照20ms的长度进行分帧。分帧函数为：

x_k(n)=w(n)s(Nk+n)n=0,1...N-1;k=0,1...L-1 （1）其中N为帧长，L为帧数。w(n)为窗函数，它的选择（形状和长度）对短时分析参数的特性影响很大，常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗，可以很好地反应语音信号的特性变化，汉明窗表达式为：

4、特征提取。每帧信号可以提取特征以表征本帧信号所包含的信息，现常用于声源定位系统的双耳特征包括双耳时间差（Interaural Time Difference,ITD）、双耳能量差（InterauralIntensity Difference,IID），双耳相位差（Interaural Phase Difference,IPD）等，前面两种特征是应用最多的。

5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配，差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标，这种模式理论上可以得到准确解，但是易受环境噪声及混响等因素的干扰。

现有的方法一般采用类似于模式识别的思路，一般没有考虑双耳时间差与双耳能量差之间的关系，大都分为独立的两个模块计算这二者，比如利用广义互相关（包括使用不同的加权函数）计算双耳时间差、利用对数能量比的方法计算双耳能量差，而且加权广义互相关大都从克服不同环境所带来提取时延困难的问题提出的，并没有考虑使双耳时间差在当前环境下波动最小的情况。因此，传统的方法需要更复杂的计算体系，全局特征匹配的模式也面临了计算复杂度指数增长的瓶颈。

发明内容

针对上述问题，本发明的目的在于提供一种基于时延补偿和双耳一致性的双耳声音源定位方法，利用双耳一致性函数改进了时延估计的精度，通过时延补偿使双耳特征提取的手段更具多样化与普适性（适合多种不同程度地噪声环境）；而且，两层定位方法能够有效地减少特征匹配的次数，降低了传统定位方法的时间复杂度，保证了声源定位系统的实时性要求。

为了实现上述目的，本发明采用以下技术方案：

一种基于时延补偿和双耳一致性的双耳声音源定位方法，包括：

1）训练阶段，录制双耳声音源定位数据库，为双耳时间差（ITD）和双耳能量差（IID）建立模板，包括：

1-1）将定位空间按照转向角（azimuth）和俯仰角（elevation）划分，转向角可以是非均匀的划分方法，比如[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°]，因为声音源定位系统对不同转向角的定位方差不同；俯仰角可以采用均匀划分的方式，比如[-45°:5.625°:230.625°]，这种划分空间方式中转向角共25个，俯仰角共50个。

1-2）采用固定声源到坐标系中心距离（比如1米），在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据（即声源传递给麦克风的信号）。因为声源定位系统对距离的判别能力相对较弱，何况人耳对距离的鉴别能力也一般，因此距离不是本发明的考虑因素。

1-3）基于时延补偿的方法，利用头相关传递函数（Head-Related Transfer Function,HRTF）或者离线录制的声音数据库，离线为每个方向上的双耳时间差、双耳能量差，以及各自的期望和方差建立模板。

2）在线定位阶段，当声源定位系统检测到有声音源发生，先对录入的声音源信号进行预处理（包括预加重、分帧、加窗等），再利用双耳一致性函数（Interaural Coherence）从该声音源信号中提取有效的信号帧。

3）针对有效的信号帧，基于时延补偿的方法，分别在频域和时域计算得到双耳时间差和双耳能量差。

4）将步骤3）中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域，其次在此候选区域中搜索匹配的双耳能量差所对应的俯仰角（即两层定位方法），利用贝叶斯分层的搜索策略获得候选区域里所有方向中概率最大的声音源的转向角和俯仰角（声源方向信息），实现双耳声音源定位。

更进一步，离线为每个方向上的双耳时间差和双耳能量差建立模板的方法，本质上与声音源的类型无关，比如正常的说话声、尖叫声、关门声、拍桌子声等，录制数据库的环境可以是室内办公环境（信噪比大约为20-40dB）或者半室内的大厅环境。采用冲激函数作为声音源与HRTF卷积或者直接利用录入的声音信号，计算出所有方向上的双耳时间差和双耳能量差，并统计相应的均值和方差。所述模板包括所有方向上的双耳时间差均值、方差（个数等于转向角的数量）和双耳能量差均值、方差。需要指出的是，双耳时间差的方差是根据每个转向角上所有俯仰角（比如25个）的时间差统计得到，原因在于同一个转向角不同俯仰角上的双耳时间差基本相等，几何意义上双耳时间差只与转向角成正弦函数关系；由于双耳能量差与转向角和俯仰角没有单调分布关系，所有双耳能量差的均值和方差是针对每个方向进行多次训练测试，统计结果得到。

更进一步，在双耳信号均方误差最小的原则下进行时延补偿（Time-delay compensaion）可以得到双耳能量差（IID），利用双耳一致性函数（Interaural coherence）可以对GCC-TDC函数修正得到双耳时间差（ITD）。

本发明中，双耳一致性函数定义为：

γ (κ, ω) = \frac{E_{lr} (κ, ω)}{\sqrt{E_{l} (κ, ω) \cdot E_{r} (κ, ω)}} - - - (3)

其中，E_lr(κ,ω)为互能量谱，

E_l(κ,ω)=α·|X_l(ω)|²+(1-α)·E_l(κ-1,ω) （4）

E_r(κ,ω)=α·|X_r(ω)|²+(1-α)·E_r(κ-1,ω)

其中，κ为帧编号，X_l(ω),X_r(ω)分别表示左右耳信号的离散傅里叶变换，平滑因子α由时间常数T和采样频率f_s确定（α=1/(Tif_s)），实际操作中大约取0.97左右，用类似的滑动平均的定义方式有

E_lr(κ,ω)=α·∑X_l(ω)X_r(ω)+(1-α)·E_lr(κ-1,ω) （5）

更进一步，利用双耳一致性函数判断信号帧的可靠性，提取有效的信号帧，只有当∑_ωγ(κ,ω)，即累计一致性大于经验主义阈值γ₀时，该帧计算出来的双耳特征才是有效的，否则判断该帧为不可靠帧并作舍弃处理。

实质上，双耳一致性是由J.Marco等人在2010年提出来的（Model-Based DereverberationPreserving Binaural Cues），原本的意图也是用来描述信号帧的可靠性，本发明在细节上做了一些改进，原文中的定义方式如下：

\begin{matrix} E_{l} (κ, μ) = α \cdot Σ_{k = 1}^{K} {x_{l}}^{2} (k) + (1 - α) \cdot E_{l} (κ - 1, μ) \\ E_{r} (κ, μ) = α \cdot Σ_{k = 1}^{K} {x_{r}}^{2} (k) + (1 - α) \cdot E_{r} (κ - 1, μ) \end{matrix} - - - (6)

这里的μ(μ=1,2,…,24)为子带编号，k=1,2,...,K，K表示帧长。类似的互能量谱也可以定义为：

E_{lr} (κ, μ) = α \cdot Σ_{k = 1}^{K} x_{l} (k) \cdot x_{r} (k) + (1 - α) E_{lr} \cdot (κ - 1, μ) - - - (7)

一致性函数的定位方式完全相同。因此，可以看出做出改进后的双耳一致性不仅能反映信号帧的可靠性，并且能观测到每一个采样点的能量细节等信息。

更进一步，在时间域上，双耳定位问题可以用双麦克风的情形（即忽略耳廓的影响）进行简化，因此假设声音源到双耳信号之间存在的差别仅在于传播时间差和能量衰减幅度，双耳模型可以描述为：

x_l(n)α_ls(n-τ_l)+v_l(n) (8)

x_r(n)=α_rs(n-τ_r)+v_r(n)

其中，s(n)表示声源信号，x_l(n),x_r(n)分别表示左右耳信号，v_l(n),v_r(n)分别表示左右耳受到的干扰；α_l和α_r分别表示双耳信号的衰减幅度，τ_l和τ_r分别表示声音源信号到达双耳的时间，将双耳时间差定义为：

△τ=τ_r-τ_l （9）

由于双耳信号之间的差异仅表现在声源到达双耳的时间差和衰减程度不同，因此利用双耳时间差（ITD）补偿双耳能量差（IID），使双耳信号在已知环境下的差异最小，用公式描述如下：

式中，W,λ,△v分别表示窗函数、双耳能量差和噪声差异。从噪声的角度出发，上式可以变换为：

在办公室环境下，△v通常被看作是零均值的高斯噪声。由于此处的目标是极小化噪声差异变量，考虑△v的二阶范式，即方差：

因此，利用极大似然估计可以有

将该偏导数置为零，就可以得到双耳能量差(IID)λ的渐进无偏估计如下：

\tilde{λ} = \frac{Σ_{N} W^{2} (n) x_{l} (n - Δτ) x_{r} (n)}{Σ_{N} W^{2} (n) x_{r}^{2} (n)} - - - (14)

其中，N为窗的长度，即前面提到的帧长。对于时延△τ，试图从

直接计算是困难的，而是变换到频域处理，公式（12）可以改写为：

Y(e^jω)=||X_l(e^jω)e^-jω△τ-λX_r(e^jω)||² （15）

式中X_l(e^jω),X_r(e^jω)分别表示用窗函数处理过后的左耳、右耳信号的离散傅里叶变换，令

A(e^jω)=X_l(e^jω)e^-jω△τ-λX_r(e^jω) （16）

因而，

\begin{matrix} \frac{&PartialD; Y (e^{jω})}{&PartialD; Δτ} = \frac{&PartialD;}{&PartialD; Δτ} (A^{*} (e^{jω}) A (e^{jω})) \\ = \frac{&PartialD; A (e^{jω})}{&PartialD; Δτ} \cdot \frac{&PartialD; Y (e^{jω})}{&PartialD; A (e^{jω})} \\ = - j 2 ω {X_{l}}^{*} (e^{jω}) A (e^{jω}) e^{jωΔτ} \end{matrix} - - - (17)

令等于0，由于jω和e^-jω△τ不可能为0，所以有

X_l ^*(e^jω)(X_l(e^jω)e^-jω△τ-λX_r(e^jω))=0 （18）

其中*表示复共轭，现将上式逆变换到时域，可以得到

\begin{matrix} δ (n - Δτ) = R (n) \\ = \frac{1}{2 π} {&Integral;}_{- π}^{π} \frac{λ {X_{l}}^{*} (e^{jω}) X_{r} (e^{jω})}{{X_{l}}^{*} (e^{jω}) X_{l} (e^{jω})} \cdot e^{jωn} dω \end{matrix} - - - (19)

其中，R(n)就是广义互相关时延补偿（GCC-TDC）函数，△τ就可以继而根据求解GCC-TDC函数的峰值位置进行估计：

\tilde{Δτ} = {\arg \max}_{n} R (n) - - - (20)

因此，

是最小均方误差意义下的最优时延估计，上述计算过程也被称为时延补偿（TimeDelay Compensation,TDC）。进而考虑使用γ(κ,ω)对GCC-TDC函数修改为：

\tilde{R} (n) = \frac{λ}{2 π} {&Integral;}_{- π}^{π} γ (κ, ω) \frac{{X_{l}}^{*} (e^{jω}) X_{r} (e^{jω})}{{X_{l}}^{*} (e^{jω}) X_{l} (e^{jω})} \cdot e^{jωn} dω - - - (21)

更进一步，声源定位的目标是要获得声源的转向角θ和俯仰角

即以上获得双耳时间差和能量差要转化为角度信息，考虑双耳定位几何模型，易知：

θ = \sin^{- 1} (Δd / d) = \sin^{- 1} (\tilde{Δτ} \cdot c / {df}_{s}) - - - (22)

其中，d为双耳间距，△d表示声源到双耳的几何距离差，c为声音在空气中的传播速度(344m/s)，f_s为采样频率。所以，转向角θ只受双耳时间差的影响，与双耳能量差无关。

定位过程，本发明使用的是基于贝叶斯决策的两层定位模型，可以有效的减少算法的时间复杂度。首先，每个转向角上的平均时延

和相应的标准差σ_i可以训练得到。训练的原则是转向角相同但梯度角不同的方向上双耳时间差相同，这一点可以通过实验证明，且上面的公式也说明了。既然每个时延有且仅对应于一个转向角θ_i，那么使用概率

代表在已知双耳时延时定位到的转向角为θ_i的概率，且这个概率是可以在定位阶段之前训练得到的。当一个新的声音源出现时，将步骤3）中得到的双耳时间差按转向角在模板中搜索匹配的方向，转向角θ_i和

可能的区域可以按如下规则计算：

\begin{matrix} P (θ_{i} | \tilde{Δτ}) = P (τ_{i} | \tilde{Δτ}) ~ N (\overset{&OverBar;}{τ_{i}}, {σ_{i}}^{2}) \\ \tilde{Δτ} &SubsetEqual; (- 3 σ_{i} + {\overset{&OverBar;}{τ}}_{i}, 3 σ_{i} + {\overset{&OverBar;}{τ}}_{i}) \end{matrix} - - - (23)

表示均值为

方差为σ_i ²的高斯分布；得到候选转向角集合，作为候选区域。

其次，用相同的思路考虑双耳能量差每个方向上IID的均值和标准差δ_j也可以训练得到。基于前面得到候选转向角集合，在此候选区域中搜索匹配的双耳能量差所对应的梯度角，则俯仰角

和

的可能区域为：

代表先验时间差为

而能量差为的概率，

表示均值为

方差为δ_j ²的高斯分布。

最后，利用贝叶斯规则来对前面两步得出的候选方向决策最终定位结果，即概率取最大的候选解被视为声音源的位置：

更进一步，本发明采用的两层定位方法所需要的空间复杂度为O(n_an_e)，时间复杂度为O(n_a+n_e)，n_a和n_e分别表示空间划分的转向角和俯仰角的数量，真实场景下一次在线定位过程大约需要0.2秒，已满足实时性的要求。

本发明从双耳时间差与双耳能量差之间的相互关系出发建立时延补偿的概念，分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差的计算新思路，并考虑了双耳信号之间的差别，即利用双耳一致性函数改进了时延估计的精度。在得到双耳定位特征之后，利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角（声源方向信息），即达到定位的目的。首先，双耳一致性函数保证了应用于定位的信号帧为可靠的；其次，时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性，使双耳特征提取的手段更具多样化与普适性（适合多种不同程度地噪声环境）；最后，分层的定位系统能够有效地减少特征匹配的次数，降低了算法的时间复杂度，保证了声源定位系统的实时性要求。

附图说明

图1是本发明的声源定位方法流程示意图。

图2(a)-2(d)是本发明实施例中双耳时间差估计和经典的广义互相关相位变换估计出的双耳时间差的对比示意图。其中，图2(a)是基于广义互相关时延补偿（GCC-TDC）函数估计得到的双耳时间差分布，图2(b)为GCC-TDC得到的时间差统计方差，图2(c)为传统广义互相关（GCC）方法得到的双耳时间差分布，图2(d)为GCC得到的时间差统计方差。

图3是本发明实施例中的复杂度分析示意图。其中，图3(a)为算法的时间复杂度统计，图3(b)为算法的空间复杂度。需要指出的是，图中ICTDC代表本发明的方法，TDC代表我们在ICRA2013中提出的时延补偿的方法，HS代表Li等人在ICASSP2003中提出的分层定位方法，PM代表Willert等人在IEEE Trans.on SMC2006中提出的概率模型方法。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施实例采用的是加州大学戴维斯分校的CIPIC数据库进行试验，它具有目前最大的人头采集数量和最多的方向采集数。此数据库在国际上人形机器人声源定位中较为权威而且是使用最为广泛的数据库之一。数据库中共有45个人头进行试验，其中包括27名成年男性，16名成年女性，以及一个仿真人头模型KEMAR，在此仿真模型中又分别设置了大耳廓与小耳廓，在数据录取时将麦克风置于人耳之中或者仿真耳中。

数据采集过程是在严格的消音室进行，所使用的所有声源距离人头中心距离（即双耳连线的中点位置）为1米。该数据库只考虑了人头前方的180o定位空间，共划分为25个转向角区间，各区间的中心角度为[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°]；俯仰角按照均匀划分的模式，共分为50个区间，其中心角度分别为[-45°:5.625°:230.625°]，即一共1250个方向。采样频率为44.1kHz，数据格式为长度为200的FIR滤波器，即头相关传递函数HRTF。因此，这里我们只需用声源信号与HRTF卷积就可以得到双耳传声器接收到的信号。

训练阶段，采用冲激函数作为声音源与HRTF卷积，分别根据发明内容中提及的公式

\tilde{R} (n) = \frac{λ}{2 π} {&Integral;}_{- π}^{π} γ (κ, ω) \frac{{X_{l}}^{*} (e^{jω}) X_{r} (e^{jω})}{{X_{l}}^{*} (e^{jω}) X_{l} (e^{jω})} \cdot e^{jωn} dω - - - (21)

\tilde{Δτ} = {\arg \max}_{n} R (n) - - - (20)

\tilde{λ} = \frac{Σ_{N} W^{2} (n) x_{l} (n - Δτ) x_{r} (n)}{Σ_{N} W^{2} (n) x_{r}^{2} (n)} - - - (14)

计算出所有方向上的双耳时间差和双耳能量差，并统计相应的均值和方差，因此，若令n_a,n_e表示转向角和俯仰角的个数，本实例所需要存储的模板空间复杂度为3n_a·n_e+2n_a，其阶为n_a·n_e。

在线定位阶段，考虑声源信号类型在定位之前是未知的，因此本实例采用语音、关门声、拍桌子声、玻璃碎地等声音信号作为声源进行测试。声源在室内安静环境下录制，采样频率为44.1kHz，通过实时录入声源信号，对一个较短的时间窗内（当前t秒）的信号进行识别，给出当前时间窗的识别结果，然后综合当前时间之前的所有时间段的识别结果，通过统计各方向的可能性，给出当前时间总体定位结果。

图1粗略地给出了定位的总体过程，虚线左部分为双耳定位模型，图中的S表示声音源，M_l,M_r分别表示左右耳，简化为两个麦克风：

θ = \sin^{- 1} (Δd / d) = \sin^{- 1} (\tilde{Δτ} \cdot c / {df}_{s}) - - - (22)

其中，d为双耳间距，△d表示声源到双耳的几何距离差，c为声音在空气中的传播速度(344m/s)，f_s为采样频率。可以看出双耳信号的差别大体在于达到时间差不同和能量幅度的衰减程度不同；虚线右部分为两层定位模型框架，双耳信号均方误差最小的原则下进行时延补偿（Time-delay compensaion）可以得到双耳能量差（Interaural intensity difference），利用双耳一致性函数（Interaural coherence）γ(κ,ω)可以对GCC-TDC函数修正得到双耳时间差（Interaural time difference）。首先利用双耳时间差特征可以粗定位到随后的候选转向角集合（Candidate azimuths），然后再利用双耳能量差进行精确定位，就可以得到最终的结果。对当前一个时间窗具体算法如下：

1）对当前时间窗内声源信号进行分帧、加窗处理，帧长为256个采样点，帧移为128个采样点，观测时间长度为2秒；

2）按照上面训练阶段的三个公式分别估计双耳时间差和双耳能量差，图2展示了经典的广义互相关相位变换（Generalized Cross Correlation-Phase Transformation,GCC-PHAT）和本发明提出的GCC-TDC估计出的双耳时间差的对比，其中，图2(a)是基于广义互相关时延补偿（GCC-TDC）函数估计得到的双耳时间差分布，图2(b)为GCC-TDC得到的时间差统计方差，图2(c)为传统广义互相关（GCC）方法得到的双耳时间差分布，图2(d)为GCC得到的时间差统计方差。很明显看出GCC-TDC函数可以得到更加稳定的时延分布，因为方差更小；

3）概括前面提及的两层双耳定位模型，可以利用下面的伪码实现：

伪码中的输入为双耳时间差和双耳能量差，即采用时延补偿估计得到的双耳特征，输出为声源的转向角和俯仰角。整个定位过程分为两步，首先，根据时延信息判断可能出现的候选区域；然后，将双耳能量差与候选区域的能量差进行匹配，即可以进一步缩小可能区域的大小；最后针对上述确定的可能区域计算概率最大的方向，也就是定位结果。

图3给出了算法的复杂度分析，其中，图3(a)为算法的时间复杂度统计，图3(b)为算法的空间复杂度。图中ICTDC代表本发明的方法，TDC代表我们在ICRA2013中提出的时延补偿的方法，HS代表Li等人在ICASSP2003中提出的分层定位方法，PM代表Willert等人在IEEETrans.on SMC2006中提出的概率模型方法。由图3(a)中可以看出，本发明800次的随机定位实验平均需要0.2秒，在TDC方法的基础上又将定位时间降低了大约0.3秒，充分说明了本发明方法的实时性要求，这主要得益于采用了两层定位模型，比Li等人的HS方法少了一层，并且由于没有考虑分频带信息，所以定位搜索空间也大大降低了，如图3(b)所示。

4）对当前观测时间内各帧信号的定位结果进行统计，采用直方图的形式，出现次数最多的方向即被认为是声源所在的位置。

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

Claims

1.一种基于时延补偿和双耳一致性的双耳声音源定位方法，包括：

1）训练阶段，录制双耳声音源定位数据库，为双耳时间差和双耳能量差建立模板，包括：

1‐1）将定位空间按照转向角和俯仰角划分；

1‐2）采用固定声源到坐标系中心距离，在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据；

1‐3）基于时延补偿的方法离线为每个方向上的双耳时间差、双耳能量差，以及各自的期望和方差建立模板；

2）在线定位阶段，当声源定位系统检测到有声音源发生，先对录入的声音源信号进行预处理，再利用双耳一致性函数从该声音源信号中提取有效的信号帧；

3）针对有效的信号帧基于时延补偿的方法，计算得到双耳时间差和双耳能量差；

4）将步骤3）中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域，其次在此候选区域中搜索匹配的双耳能量差所对应的俯仰角，利用贝叶斯分层的搜索策略获得候选区域里所有方向中概率最大的声音源的转向角和俯仰角，实现双耳声音源定位。

2.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，步骤1）中，转向角采用非均匀的划分方法，俯仰角采用均匀划分的方式。

3.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，步骤1）中，双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到；双耳能量差的均值和方差是针对每个方向进行多次训练测试，统计结果得到。

4.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，步骤1）中采用冲激函数作为声音源与HRTF卷积或者直接利用录入的声音信号，计算出所有方向上的双耳时间差和双耳能量差，并统计相应的均值和方差。

5.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，步骤2）中，所述预处理包括：预加重、分帧和加窗。

6.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，在双耳信号均方误差最小的原则下进行时延补偿得到双耳能量差，利用双耳一致性函数对GCC-TDC函数修正得到双耳时间差。

7.如权利要求6所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，所述双耳一致性函数的定义为：

γ (κ, ω) = \frac{E_{lr} (κ, ω)}{\sqrt{E_{l} (κ, ω) \cdot E_{r} (κ, ω)}} - - - (3)

其中，E_lr(κ,ω)为互能量谱，

E_l(κ,ω)=α·|X_l(ω)|²+(1-α)·E_l(κ-1,ω)

E_r(κ,ω)=α·|X_r(ω)|²+(1-α)·E_r(κ-1,ω) （4）

其中，κ为帧编号，X_l(ω),X_r(ω)分别表示左右耳信号的离散傅里叶变换，平滑因子α由时间常数T和采样频率f_s确定：α=1/(T·f_s)，用类似的滑动平均的定义方式有

E_lr(κ,ω)=α·∑X_l(ω)X_r(ω)+(1-α)·E_lr(κ-1,ω) （5）。

8.如权利要求7所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，利用双耳一致性函数判断信号帧的可靠性，提取有效的信号帧，只有当∑_ωγ(κ,ω)，即累计一致性大于经验主义阈值γ₀时，该帧计算出来的双耳特征才是有效的，否则判断该帧为不可靠帧并作舍弃处理。

9.如权利要求7或8任一所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，根据以下公式计算双耳时间差和双耳能量差：

\tilde{R} (n) = \frac{λ}{2 π} {&Integral;}_{- π}^{π} γ (κ, ω) \frac{X_{l}^{*} (e^{jω}) X_{r} (e^{jω})}{X_{l}^{*} (e^{jω}) X_{l} (e^{jω})} \cdot e^{jωn} dω - - - (21)

\tilde{Δτ} = {\arg \max}_{n} R (n) - - - (20)

\tilde{λ} = \frac{Σ_{N} W^{2} (n) x_{l} (n - Δτ) x_{r} (n)}{Σ_{N} W^{2} (n) x_{r}^{2} (n)} - - - (14)

其中，

公式（21）中，

是使用双耳一致性函数γ(κ,ω)修改后的GCC-TDC函数，κ为帧编号，X_l(e^jω)，X_r(e^jω)分别表示用窗函数处理过后的左耳、右耳信号的离散傅里叶变换，*表示复共轭；

公式（20）中，

是最小均方误差意义下的最优时延估计，R(n)是GCC-TDC函数；

公式（14）中，

为双耳能量差λ的渐进无偏估计，N为窗的长度，W表示窗函数，x_l(n),x_r(n)分别表示左右耳信号，△τ表示双耳时间差。

10.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法，其特征在于，步骤4）具体采用以下步骤：首先，当一个新的声音源出现时，将步骤3）中得到的双耳时间差按转向角在模板中搜索匹配的方向，转向角θ_i和

可能的区域按如下规则计算：

\begin{matrix} P (θ_{i} | \tilde{Δτ}) = P (τ_{i} | \tilde{Δτ}) ~ N (\overset{&OverBar;}{τ_{i}}, {σ_{i}}^{2}) \\ \tilde{Δτ} &SubsetEqual; (- 3 σ_{i} + {\overset{&OverBar;}{τ}}_{i}, 3 σ_{i} + {\overset{&OverBar;}{τ}}_{i}) \end{matrix} - - - (23)

代表平均时延，σ_i代表相应的标准差，概率代表在已知双耳时延时定位到的转向角为θ_i的概率，表示均值为

方差为σ_i ²的高斯分布；得到候选转向角集合，作为候选区域；

其次，基于前面得到候选转向角集合，在此候选区域中搜索匹配的双耳能量差所对应的梯度角，俯仰角

和

的可能区域为：

代表双耳能量差，

代表每个方向上IID的均值，δ_j代表相应的标准差，

代表先验时间差为

而能量差为

的概率，

表示均值为

方差为δ_j ²的高斯分布；

最后，利用贝叶斯规则来对前面两步得出的候选方向决策最终定位结果：