CN103901400A - 一种基于时延补偿和双耳一致性的双耳声音源定位方法 - Google Patents

一种基于时延补偿和双耳一致性的双耳声音源定位方法 Download PDF

Info

Publication number
CN103901400A
CN103901400A CN201410142777.1A CN201410142777A CN103901400A CN 103901400 A CN103901400 A CN 103901400A CN 201410142777 A CN201410142777 A CN 201410142777A CN 103901400 A CN103901400 A CN 103901400A
Authority
CN
China
Prior art keywords
ears
sound source
binaural
mistiming
delay compensation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410142777.1A
Other languages
English (en)
Other versions
CN103901400B (zh
Inventor
刘宏
张结
丁润伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201410142777.1A priority Critical patent/CN103901400B/zh
Publication of CN103901400A publication Critical patent/CN103901400A/zh
Application granted granted Critical
Publication of CN103901400B publication Critical patent/CN103901400B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于时延补偿和双耳一致性的双耳声音源定位方法,分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差,利用双耳一致性函数改进了时延估计的精度,在得到双耳定位特征之后,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角,即达到定位的目的。首先,双耳一致性函数保证了应用于定位的信号帧为可靠的;其次,时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性,使双耳特征提取的手段更具多样化与普适性(适合多种不同程度地噪声环境);最后,分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

Description

一种基于时延补偿和双耳一致性的双耳声音源定位方法
技术领域
本发明属于信息技术领域,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及一种基于时延补偿和双耳一致性的双耳声音源定位方法。
背景技术
双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性,在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。
双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。
声源定位技术在语音识别领域也得到广泛应用。在视频会议中,通过声源定位技术控制摄像头,使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其它方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克风阵列以不同的方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。
在语音分离中,声源定位技术有助于混叠语音的分离。语音分离源于“鸡尾酒会”问题,就是人们能够在众多谈话声和噪声中集中听力于某个人的声音的能力,长期以来它被认为是一个具有挑战性的问题。“鸡尾酒会”问题也常被称做“鸡尾酒会效应”。在语音识别技术中,这方面的研究具有重要的实际意义。如果把声源定位技术应用到语音分离中,将会大大增强感兴趣方向的语音识别,有助于混叠语音的分离。
基本上,双耳声音源定位是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段,通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤:
1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。
2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,以补偿嘴唇辐射带来的高频衰减。
3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
xk(n)=w(n)s(Nk+n)n=0,1...N-1;k=0,1...L-1  (1)其中N为帧长,L为帧数。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
Figure BDA0000489278280000021
4、特征提取。每帧信号可以提取特征以表征本帧信号所包含的信息,现常用于声源定位系统的双耳特征包括双耳时间差(Interaural Time Difference,ITD)、双耳能量差(InterauralIntensity Difference,IID),双耳相位差(Interaural Phase Difference,IPD)等,前面两种特征是应用最多的。
5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配,差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标,这种模式理论上可以得到准确解,但是易受环境噪声及混响等因素的干扰。
现有的方法一般采用类似于模式识别的思路,一般没有考虑双耳时间差与双耳能量差之间的关系,大都分为独立的两个模块计算这二者,比如利用广义互相关(包括使用不同的加权函数)计算双耳时间差、利用对数能量比的方法计算双耳能量差,而且加权广义互相关大都从克服不同环境所带来提取时延困难的问题提出的,并没有考虑使双耳时间差在当前环境下波动最小的情况。因此,传统的方法需要更复杂的计算体系,全局特征匹配的模式也面临了计算复杂度指数增长的瓶颈。
发明内容
针对上述问题,本发明的目的在于提供一种基于时延补偿和双耳一致性的双耳声音源定位方法,利用双耳一致性函数改进了时延估计的精度,通过时延补偿使双耳特征提取的手段更具多样化与普适性(适合多种不同程度地噪声环境);而且,两层定位方法能够有效地减少特征匹配的次数,降低了传统定位方法的时间复杂度,保证了声源定位系统的实时性要求。
为了实现上述目的,本发明采用以下技术方案:
一种基于时延补偿和双耳一致性的双耳声音源定位方法,包括:
1)训练阶段,录制双耳声音源定位数据库,为双耳时间差(ITD)和双耳能量差(IID)建立模板,包括:
1-1)将定位空间按照转向角(azimuth)和俯仰角(elevation)划分,转向角可以是非均匀的划分方法,比如[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°],因为声音源定位系统对不同转向角的定位方差不同;俯仰角可以采用均匀划分的方式,比如[-45°:5.625°:230.625°],这种划分空间方式中转向角共25个,俯仰角共50个。
1-2)采用固定声源到坐标系中心距离(比如1米),在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据(即声源传递给麦克风的信号)。因为声源定位系统对距离的判别能力相对较弱,何况人耳对距离的鉴别能力也一般,因此距离不是本发明的考虑因素。
1-3)基于时延补偿的方法,利用头相关传递函数(Head-Related Transfer Function,HRTF)或者离线录制的声音数据库,离线为每个方向上的双耳时间差、双耳能量差,以及各自的期望和方差建立模板。
2)在线定位阶段,当声源定位系统检测到有声音源发生,先对录入的声音源信号进行预处理(包括预加重、分帧、加窗等),再利用双耳一致性函数(Interaural Coherence)从该声音源信号中提取有效的信号帧。
3)针对有效的信号帧,基于时延补偿的方法,分别在频域和时域计算得到双耳时间差和双耳能量差。
4)将步骤3)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的俯仰角(即两层定位方法),利用贝叶斯分层的搜索策略获得候选区域里所有方向中概率最大的声音源的转向角和俯仰角(声源方向信息),实现双耳声音源定位。
更进一步,离线为每个方向上的双耳时间差和双耳能量差建立模板的方法,本质上与声音源的类型无关,比如正常的说话声、尖叫声、关门声、拍桌子声等,录制数据库的环境可以是室内办公环境(信噪比大约为20-40dB)或者半室内的大厅环境。采用冲激函数作为声音源与HRTF卷积或者直接利用录入的声音信号,计算出所有方向上的双耳时间差和双耳能量差,并统计相应的均值和方差。所述模板包括所有方向上的双耳时间差均值、方差(个数等于转向角的数量)和双耳能量差均值、方差。需要指出的是,双耳时间差的方差是根据每个转向角上所有俯仰角(比如25个)的时间差统计得到,原因在于同一个转向角不同俯仰角上的双耳时间差基本相等,几何意义上双耳时间差只与转向角成正弦函数关系;由于双耳能量差与转向角和俯仰角没有单调分布关系,所有双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到。
更进一步,在双耳信号均方误差最小的原则下进行时延补偿(Time-delay compensaion)可以得到双耳能量差(IID),利用双耳一致性函数(Interaural coherence)可以对GCC-TDC函数修正得到双耳时间差(ITD)。
本发明中,双耳一致性函数定义为:
γ ( κ , ω ) = E lr ( κ , ω ) E l ( κ , ω ) · E r ( κ , ω ) - - - ( 3 )
其中,Elr(κ,ω)为互能量谱,
El(κ,ω)=α·|Xl(ω)|2+(1-α)·El(κ-1,ω)  (4)
Er(κ,ω)=α·|Xr(ω)|2+(1-α)·Er(κ-1,ω)
其中,κ为帧编号,Xl(ω),Xr(ω)分别表示左右耳信号的离散傅里叶变换,平滑因子α由时间常数T和采样频率fs确定(α=1/(Tifs)),实际操作中大约取0.97左右,用类似的滑动平均的定义方式有
Elr(κ,ω)=α·∑Xl(ω)Xr(ω)+(1-α)·Elr(κ-1,ω)  (5)
更进一步,利用双耳一致性函数判断信号帧的可靠性,提取有效的信号帧,只有当∑ωγ(κ,ω),即累计一致性大于经验主义阈值γ0时,该帧计算出来的双耳特征才是有效的,否则判断该帧为不可靠帧并作舍弃处理。
实质上,双耳一致性是由J.Marco等人在2010年提出来的(Model-Based DereverberationPreserving Binaural Cues),原本的意图也是用来描述信号帧的可靠性,本发明在细节上做了一些改进,原文中的定义方式如下:
E l ( κ , μ ) = α · Σ k = 1 K x l 2 ( k ) + ( 1 - α ) · E l ( κ - 1 , μ ) E r ( κ , μ ) = α · Σ k = 1 K x r 2 ( k ) + ( 1 - α ) · E r ( κ - 1 , μ ) - - - ( 6 )
这里的μ(μ=1,2,…,24)为子带编号,k=1,2,...,K,K表示帧长。类似的互能量谱也可以定义为:
E lr ( κ , μ ) = α · Σ k = 1 K x l ( k ) · x r ( k ) + ( 1 - α ) E lr · ( κ - 1 , μ ) - - - ( 7 )
一致性函数的定位方式完全相同。因此,可以看出做出改进后的双耳一致性不仅能反映信号帧的可靠性,并且能观测到每一个采样点的能量细节等信息。
更进一步,在时间域上,双耳定位问题可以用双麦克风的情形(即忽略耳廓的影响)进行简化,因此假设声音源到双耳信号之间存在的差别仅在于传播时间差和能量衰减幅度,双耳模型可以描述为:
xl(n)αls(n-τl)+vl(n)    (8)
xr(n)=αrs(n-τr)+vr(n)
其中,s(n)表示声源信号,xl(n),xr(n)分别表示左右耳信号,vl(n),vr(n)分别表示左右耳受到的干扰;αl和αr分别表示双耳信号的衰减幅度,τl和τr分别表示声音源信号到达双耳的时间,将双耳时间差定义为:
△τ=τrl   (9)
由于双耳信号之间的差异仅表现在声源到达双耳的时间差和衰减程度不同,因此利用双耳时间差(ITD)补偿双耳能量差(IID),使双耳信号在已知环境下的差异最小,用公式描述如下:
Figure BDA0000489278280000053
式中,W,λ,△v分别表示窗函数、双耳能量差和噪声差异。从噪声的角度出发,上式可以变换为:
Figure BDA0000489278280000064
在办公室环境下,△v通常被看作是零均值的高斯噪声。由于此处的目标是极小化噪声差异变量,考虑△v的二阶范式,即方差:
Figure BDA0000489278280000065
因此,利用极大似然估计可以有
Figure BDA0000489278280000061
将该偏导数置为零,就可以得到双耳能量差(IID)λ的渐进无偏估计如下:
λ ~ = Σ N W 2 ( n ) x l ( n - Δτ ) x r ( n ) Σ N W 2 ( n ) x r 2 ( n ) - - - ( 14 )
其中,N为窗的长度,即前面提到的帧长。对于时延△τ,试图从
Figure BDA0000489278280000066
直接计算是困难的,而是变换到频域处理,公式(12)可以改写为:
Y(e)=||Xl(e)e-jω△τ-λXr(e)||2  (15)
式中Xl(e),Xr(e)分别表示用窗函数处理过后的左耳、右耳信号的离散傅里叶变换,令
A(e)=Xl(e)e-jω△τ-λXr(e)  (16)
因而,
∂ Y ( e jω ) ∂ Δτ = ∂ ∂ Δτ ( A * ( e jω ) A ( e jω ) ) = ∂ A ( e jω ) ∂ Δτ · ∂ Y ( e jω ) ∂ A ( e jω ) = - j 2 ω X l * ( e jω ) A ( e jω ) e jωΔτ - - - ( 17 )
等于0,由于jω和e-jω△τ不可能为0,所以有
Xl *(e)(Xl(e)e-jω△τ-λXr(e))=0  (18)
其中*表示复共轭,现将上式逆变换到时域,可以得到
δ ( n - Δτ ) = R ( n ) = 1 2 π ∫ - π π λ X l * ( e jω ) X r ( e jω ) X l * ( e jω ) X l ( e jω ) · e jωn dω - - - ( 19 )
其中,R(n)就是广义互相关时延补偿(GCC-TDC)函数,△τ就可以继而根据求解GCC-TDC函数的峰值位置进行估计:
Δτ ~ = arg max n R ( n ) - - - ( 20 )
因此,
Figure BDA0000489278280000073
是最小均方误差意义下的最优时延估计,上述计算过程也被称为时延补偿(TimeDelay Compensation,TDC)。进而考虑使用γ(κ,ω)对GCC-TDC函数修改为:
R ~ ( n ) = λ 2 π ∫ - π π γ ( κ , ω ) X l * ( e jω ) X r ( e jω ) X l * ( e jω ) X l ( e jω ) · e jωn dω - - - ( 21 )
更进一步,声源定位的目标是要获得声源的转向角θ和俯仰角
Figure BDA0000489278280000075
即以上获得双耳时间差和能量差要转化为角度信息,考虑双耳定位几何模型,易知:
θ = sin - 1 ( Δd / d ) = sin - 1 ( Δτ ~ · c / df s ) - - - ( 22 )
其中,d为双耳间距,△d表示声源到双耳的几何距离差,c为声音在空气中的传播速度(344m/s),fs为采样频率。所以,转向角θ只受双耳时间差的影响,与双耳能量差无关。
定位过程,本发明使用的是基于贝叶斯决策的两层定位模型,可以有效的减少算法的时间复杂度。首先,每个转向角上的平均时延
Figure BDA0000489278280000077
和相应的标准差σi可以训练得到。训练的原则是转向角相同但梯度角不同的方向上双耳时间差相同,这一点可以通过实验证明,且上面的公式也说明了。既然每个时延有且仅对应于一个转向角θi,那么使用概率
Figure BDA0000489278280000078
代表在已知双耳时延时定位到的转向角为θi的概率,且这个概率是可以在定位阶段之前训练得到的。当一个新的声音源出现时,将步骤3)中得到的双耳时间差按转向角在模板中搜索匹配的方向,转向角θi
Figure BDA00004892782800000710
可能的区域可以按如下规则计算:
P ( θ i | Δτ ~ ) = P ( τ i | Δτ ~ ) ~ N ( τ i ‾ , σ i 2 ) Δτ ~ ⊆ ( - 3 σ i + τ ‾ i , 3 σ i + τ ‾ i ) - - - ( 23 )
Figure BDA00004892782800000712
表示均值为
Figure BDA00004892782800000713
方差为σi 2的高斯分布;得到候选转向角集合,作为候选区域。
其次,用相同的思路考虑双耳能量差每个方向上IID的均值和标准差δj也可以训练得到。基于前面得到候选转向角集合,在此候选区域中搜索匹配的双耳能量差所对应的梯度角,则俯仰角
Figure BDA0000489278280000081
Figure BDA00004892782800000810
的可能区域为:
Figure BDA0000489278280000083
Figure BDA0000489278280000084
代表先验时间差为
Figure BDA0000489278280000085
而能量差为的概率,
Figure BDA0000489278280000087
表示均值为
Figure BDA0000489278280000088
方差为δj 2的高斯分布。
最后,利用贝叶斯规则来对前面两步得出的候选方向决策最终定位结果,即概率取最大的候选解被视为声音源的位置:
Figure BDA0000489278280000089
更进一步,本发明采用的两层定位方法所需要的空间复杂度为O(nane),时间复杂度为O(na+ne),na和ne分别表示空间划分的转向角和俯仰角的数量,真实场景下一次在线定位过程大约需要0.2秒,已满足实时性的要求。
本发明从双耳时间差与双耳能量差之间的相互关系出发建立时延补偿的概念,分别在时域和频域基于最小化均方误差准则推导出双耳能量差和双耳时间差的计算新思路,并考虑了双耳信号之间的差别,即利用双耳一致性函数改进了时延估计的精度。在得到双耳定位特征之后,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角(声源方向信息),即达到定位的目的。首先,双耳一致性函数保证了应用于定位的信号帧为可靠的;其次,时延补偿打破了传统的需要两个独立的算法估计双耳时间差和双耳能量差的局限性,使双耳特征提取的手段更具多样化与普适性(适合多种不同程度地噪声环境);最后,分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。
附图说明
图1是本发明的声源定位方法流程示意图。
图2(a)-2(d)是本发明实施例中双耳时间差估计和经典的广义互相关相位变换估计出的双耳时间差的对比示意图。其中,图2(a)是基于广义互相关时延补偿(GCC-TDC)函数估计得到的双耳时间差分布,图2(b)为GCC-TDC得到的时间差统计方差,图2(c)为传统广义互相关(GCC)方法得到的双耳时间差分布,图2(d)为GCC得到的时间差统计方差。
图3是本发明实施例中的复杂度分析示意图。其中,图3(a)为算法的时间复杂度统计,图3(b)为算法的空间复杂度。需要指出的是,图中ICTDC代表本发明的方法,TDC代表我们在ICRA2013中提出的时延补偿的方法,HS代表Li等人在ICASSP2003中提出的分层定位方法,PM代表Willert等人在IEEE Trans.on SMC2006中提出的概率模型方法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施实例采用的是加州大学戴维斯分校的CIPIC数据库进行试验,它具有目前最大的人头采集数量和最多的方向采集数。此数据库在国际上人形机器人声源定位中较为权威而且是使用最为广泛的数据库之一。数据库中共有45个人头进行试验,其中包括27名成年男性,16名成年女性,以及一个仿真人头模型KEMAR,在此仿真模型中又分别设置了大耳廓与小耳廓,在数据录取时将麦克风置于人耳之中或者仿真耳中。
数据采集过程是在严格的消音室进行,所使用的所有声源距离人头中心距离(即双耳连线的中点位置)为1米。该数据库只考虑了人头前方的180o定位空间,共划分为25个转向角区间,各区间的中心角度为[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°];俯仰角按照均匀划分的模式,共分为50个区间,其中心角度分别为[-45°:5.625°:230.625°],即一共1250个方向。采样频率为44.1kHz,数据格式为长度为200的FIR滤波器,即头相关传递函数HRTF。因此,这里我们只需用声源信号与HRTF卷积就可以得到双耳传声器接收到的信号。
训练阶段,采用冲激函数作为声音源与HRTF卷积,分别根据发明内容中提及的公式
R ~ ( n ) = λ 2 π ∫ - π π γ ( κ , ω ) X l * ( e jω ) X r ( e jω ) X l * ( e jω ) X l ( e jω ) · e jωn dω - - - ( 21 )
Δτ ~ = arg max n R ( n ) - - - ( 20 )
λ ~ = Σ N W 2 ( n ) x l ( n - Δτ ) x r ( n ) Σ N W 2 ( n ) x r 2 ( n ) - - - ( 14 )
计算出所有方向上的双耳时间差和双耳能量差,并统计相应的均值和方差,因此,若令na,ne表示转向角和俯仰角的个数,本实例所需要存储的模板空间复杂度为3na·ne+2na,其阶为na·ne
在线定位阶段,考虑声源信号类型在定位之前是未知的,因此本实例采用语音、关门声、拍桌子声、玻璃碎地等声音信号作为声源进行测试。声源在室内安静环境下录制,采样频率为44.1kHz,通过实时录入声源信号,对一个较短的时间窗内(当前t秒)的信号进行识别,给出当前时间窗的识别结果,然后综合当前时间之前的所有时间段的识别结果,通过统计各方向的可能性,给出当前时间总体定位结果。
图1粗略地给出了定位的总体过程,虚线左部分为双耳定位模型,图中的S表示声音源,Ml,Mr分别表示左右耳,简化为两个麦克风:
θ = sin - 1 ( Δd / d ) = sin - 1 ( Δτ ~ · c / df s ) - - - ( 22 )
其中,d为双耳间距,△d表示声源到双耳的几何距离差,c为声音在空气中的传播速度(344m/s),fs为采样频率。可以看出双耳信号的差别大体在于达到时间差不同和能量幅度的衰减程度不同;虚线右部分为两层定位模型框架,双耳信号均方误差最小的原则下进行时延补偿(Time-delay compensaion)可以得到双耳能量差(Interaural intensity difference),利用双耳一致性函数(Interaural coherence)γ(κ,ω)可以对GCC-TDC函数修正得到双耳时间差(Interaural time difference)。首先利用双耳时间差特征可以粗定位到随后的候选转向角集合(Candidate azimuths),然后再利用双耳能量差进行精确定位,就可以得到最终的结果。对当前一个时间窗具体算法如下:
1)对当前时间窗内声源信号进行分帧、加窗处理,帧长为256个采样点,帧移为128个采样点,观测时间长度为2秒;
2)按照上面训练阶段的三个公式分别估计双耳时间差和双耳能量差,图2展示了经典的广义互相关相位变换(Generalized Cross Correlation-Phase Transformation,GCC-PHAT)和本发明提出的GCC-TDC估计出的双耳时间差的对比,其中,图2(a)是基于广义互相关时延补偿(GCC-TDC)函数估计得到的双耳时间差分布,图2(b)为GCC-TDC得到的时间差统计方差,图2(c)为传统广义互相关(GCC)方法得到的双耳时间差分布,图2(d)为GCC得到的时间差统计方差。很明显看出GCC-TDC函数可以得到更加稳定的时延分布,因为方差更小;
3)概括前面提及的两层双耳定位模型,可以利用下面的伪码实现:
Figure BDA0000489278280000111
伪码中的输入为双耳时间差和双耳能量差,即采用时延补偿估计得到的双耳特征,输出为声源的转向角和俯仰角。整个定位过程分为两步,首先,根据时延信息判断可能出现的候选区域;然后,将双耳能量差与候选区域的能量差进行匹配,即可以进一步缩小可能区域的大小;最后针对上述确定的可能区域计算概率最大的方向,也就是定位结果。
图3给出了算法的复杂度分析,其中,图3(a)为算法的时间复杂度统计,图3(b)为算法的空间复杂度。图中ICTDC代表本发明的方法,TDC代表我们在ICRA2013中提出的时延补偿的方法,HS代表Li等人在ICASSP2003中提出的分层定位方法,PM代表Willert等人在IEEETrans.on SMC2006中提出的概率模型方法。由图3(a)中可以看出,本发明800次的随机定位实验平均需要0.2秒,在TDC方法的基础上又将定位时间降低了大约0.3秒,充分说明了本发明方法的实时性要求,这主要得益于采用了两层定位模型,比Li等人的HS方法少了一层,并且由于没有考虑分频带信息,所以定位搜索空间也大大降低了,如图3(b)所示。
4)对当前观测时间内各帧信号的定位结果进行统计,采用直方图的形式,出现次数最多的方向即被认为是声源所在的位置。
上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于该实例的内容。

Claims (10)

1.一种基于时延补偿和双耳一致性的双耳声音源定位方法,包括:
1)训练阶段,录制双耳声音源定位数据库,为双耳时间差和双耳能量差建立模板,包括:
1‐1)将定位空间按照转向角和俯仰角划分;
1‐2)采用固定声源到坐标系中心距离,在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据;
1‐3)基于时延补偿的方法离线为每个方向上的双耳时间差、双耳能量差,以及各自的期望和方差建立模板;
2)在线定位阶段,当声源定位系统检测到有声音源发生,先对录入的声音源信号进行预处理,再利用双耳一致性函数从该声音源信号中提取有效的信号帧;
3)针对有效的信号帧基于时延补偿的方法,计算得到双耳时间差和双耳能量差;
4)将步骤3)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的俯仰角,利用贝叶斯分层的搜索策略获得候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。
2.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤1)中,转向角采用非均匀的划分方法,俯仰角采用均匀划分的方式。
3.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤1)中,双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到;双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到。
4.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤1)中采用冲激函数作为声音源与HRTF卷积或者直接利用录入的声音信号,计算出所有方向上的双耳时间差和双耳能量差,并统计相应的均值和方差。
5.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤2)中,所述预处理包括:预加重、分帧和加窗。
6.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,在双耳信号均方误差最小的原则下进行时延补偿得到双耳能量差,利用双耳一致性函数对GCC-TDC函数修正得到双耳时间差。
7.如权利要求6所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,所述双耳一致性函数的定义为:
γ ( κ , ω ) = E lr ( κ , ω ) E l ( κ , ω ) · E r ( κ , ω ) - - - ( 3 )
其中,Elr(κ,ω)为互能量谱,
El(κ,ω)=α·|Xl(ω)|2+(1-α)·El(κ-1,ω)
Er(κ,ω)=α·|Xr(ω)|2+(1-α)·Er(κ-1,ω)   (4)
其中,κ为帧编号,Xl(ω),Xr(ω)分别表示左右耳信号的离散傅里叶变换,平滑因子α由时间常数T和采样频率fs确定:α=1/(T·fs),用类似的滑动平均的定义方式有
Elr(κ,ω)=α·∑Xl(ω)Xr(ω)+(1-α)·Elr(κ-1,ω)   (5)。
8.如权利要求7所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,利用双耳一致性函数判断信号帧的可靠性,提取有效的信号帧,只有当∑ωγ(κ,ω),即累计一致性大于经验主义阈值γ0时,该帧计算出来的双耳特征才是有效的,否则判断该帧为不可靠帧并作舍弃处理。
9.如权利要求7或8任一所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,根据以下公式计算双耳时间差和双耳能量差:
R ~ ( n ) = λ 2 π ∫ - π π γ ( κ , ω ) X l * ( e jω ) X r ( e jω ) X l * ( e jω ) X l ( e jω ) · e jωn dω - - - ( 21 )
Δτ ~ = arg max n R ( n ) - - - ( 20 )
λ ~ = Σ N W 2 ( n ) x l ( n - Δτ ) x r ( n ) Σ N W 2 ( n ) x r 2 ( n ) - - - ( 14 )
其中,
公式(21)中,
Figure FDA0000489278270000024
是使用双耳一致性函数γ(κ,ω)修改后的GCC-TDC函数,κ为帧编号,Xl(e),Xr(e)分别表示用窗函数处理过后的左耳、右耳信号的离散傅里叶变换,*表示复共轭;
公式(20)中,
Figure FDA0000489278270000025
是最小均方误差意义下的最优时延估计,R(n)是GCC-TDC函数;
公式(14)中,
Figure FDA0000489278270000026
为双耳能量差λ的渐进无偏估计,N为窗的长度,W表示窗函数,xl(n),xr(n)分别表示左右耳信号,△τ表示双耳时间差。
10.如权利要求1所述的基于时延补偿和双耳一致性的双耳声音源定位方法,其特征在于,步骤4)具体采用以下步骤:首先,当一个新的声音源出现时,将步骤3)中得到的双耳时间差按转向角在模板中搜索匹配的方向,转向角θi
Figure FDA0000489278270000031
可能的区域按如下规则计算:
P ( θ i | Δτ ~ ) = P ( τ i | Δτ ~ ) ~ N ( τ i ‾ , σ i 2 ) Δτ ~ ⊆ ( - 3 σ i + τ ‾ i , 3 σ i + τ ‾ i ) - - - ( 23 )
Figure FDA0000489278270000033
代表平均时延,σi代表相应的标准差,概率代表在已知双耳时延时定位到的转向角为θi的概率,表示均值为
Figure FDA0000489278270000037
方差为σi 2的高斯分布;得到候选转向角集合,作为候选区域;
其次,基于前面得到候选转向角集合,在此候选区域中搜索匹配的双耳能量差所对应的梯度角,俯仰角
Figure FDA0000489278270000038
Figure FDA0000489278270000039
的可能区域为:
Figure FDA00004892782700000310
Figure FDA00004892782700000311
代表双耳能量差,
Figure FDA00004892782700000312
代表每个方向上IID的均值,δj代表相应的标准差,
Figure FDA00004892782700000313
代表先验时间差为
Figure FDA00004892782700000314
而能量差为
Figure FDA00004892782700000315
的概率,
Figure FDA00004892782700000316
表示均值为
Figure FDA00004892782700000317
方差为δj 2的高斯分布;
最后,利用贝叶斯规则来对前面两步得出的候选方向决策最终定位结果:
Figure FDA00004892782700000318
CN201410142777.1A 2014-04-10 2014-04-10 一种基于时延补偿和双耳一致性的双耳声音源定位方法 Expired - Fee Related CN103901400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410142777.1A CN103901400B (zh) 2014-04-10 2014-04-10 一种基于时延补偿和双耳一致性的双耳声音源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410142777.1A CN103901400B (zh) 2014-04-10 2014-04-10 一种基于时延补偿和双耳一致性的双耳声音源定位方法

Publications (2)

Publication Number Publication Date
CN103901400A true CN103901400A (zh) 2014-07-02
CN103901400B CN103901400B (zh) 2016-08-17

Family

ID=50992850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410142777.1A Expired - Fee Related CN103901400B (zh) 2014-04-10 2014-04-10 一种基于时延补偿和双耳一致性的双耳声音源定位方法

Country Status (1)

Country Link
CN (1) CN103901400B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN105227743A (zh) * 2015-08-25 2016-01-06 努比亚技术有限公司 一种录制方法、装置及移动终端
CN107144818A (zh) * 2017-03-21 2017-09-08 北京大学深圳研究生院 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
CN107219512A (zh) * 2017-03-29 2017-09-29 北京大学 一种基于声传递函数的声源定位方法
CN109068235A (zh) * 2017-06-12 2018-12-21 田中良 用于精确计算声音在麦克风阵列处的到达方向的方法
CN112889299A (zh) * 2021-01-12 2021-06-01 华为技术有限公司 评估传声器阵列一致性的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101040808A (zh) * 2007-04-19 2007-09-26 上海交通大学 利用听觉辅助盲人取物的方法
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
US20130035935A1 (en) * 2011-08-01 2013-02-07 Electronics And Telecommunications Research Institute Device and method for determining separation criterion of sound source, and apparatus and method for separating sound source
US8488796B2 (en) * 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8488796B2 (en) * 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer
CN101040808A (zh) * 2007-04-19 2007-09-26 上海交通大学 利用听觉辅助盲人取物的方法
US20130035935A1 (en) * 2011-08-01 2013-02-07 Electronics And Telecommunications Research Institute Device and method for determining separation criterion of sound source, and apparatus and method for separating sound source
CN102438189A (zh) * 2011-08-30 2012-05-02 东南大学 基于双通路声信号的声源定位方法
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464750A (zh) * 2014-10-24 2015-03-25 东南大学 一种基于双耳声源定位的语音分离方法
CN104464750B (zh) * 2014-10-24 2017-07-07 东南大学 一种基于双耳声源定位的语音分离方法
CN105227743A (zh) * 2015-08-25 2016-01-06 努比亚技术有限公司 一种录制方法、装置及移动终端
CN105227743B (zh) * 2015-08-25 2016-12-21 努比亚技术有限公司 一种录制方法、装置及移动终端
CN107144818A (zh) * 2017-03-21 2017-09-08 北京大学深圳研究生院 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
CN107219512A (zh) * 2017-03-29 2017-09-29 北京大学 一种基于声传递函数的声源定位方法
CN107219512B (zh) * 2017-03-29 2020-05-22 北京大学 一种基于声传递函数的声源定位方法
CN109068235A (zh) * 2017-06-12 2018-12-21 田中良 用于精确计算声音在麦克风阵列处的到达方向的方法
CN112889299A (zh) * 2021-01-12 2021-06-01 华为技术有限公司 评估传声器阵列一致性的方法和装置
CN112889299B (zh) * 2021-01-12 2022-07-22 华为技术有限公司 评估传声器阵列一致性的方法和装置

Also Published As

Publication number Publication date
CN103901400B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103901401B (zh) 一种基于双耳匹配滤波器的双耳声音源定位方法
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Roman et al. Binaural tracking of multiple moving sources
CN103901400B (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN106483502B (zh) 一种声源定位方法及装置
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
Nakadai et al. Improvement of recognition of simultaneous speech signals using av integration and scattering theory for humanoid robots
Liu et al. Continuous sound source localization based on microphone array for mobile robots
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN107102296A (zh) 一种基于分布式麦克风阵列的声源定位系统
CN104991573A (zh) 一种基于声源阵列的定位跟踪方法及其装置
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN103278801A (zh) 一种变电站噪声成像侦测装置及侦测计算方法
CN107144818A (zh) 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
Di Carlo et al. Mirage: 2d source localization using microphone pair augmentation with echoes
Chakraborty et al. Sound-model-based acoustic source localization using distributed microphone arrays
Ong et al. Blind separation for multiple moving sources with labeled random finite sets
Parisi et al. Source localization in reverberant environments by consistent peak selection
Plinge et al. Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis
Oualil et al. A TDOA Gaussian mixture model for improving acoustic source tracking
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
Nakano et al. Automatic estimation of position and orientation of an acoustic source by a microphone array network
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
Hu et al. Evaluation and comparison of three source direction-of-arrival estimators using relative harmonic coefficients

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

CF01 Termination of patent right due to non-payment of annual fee