CN103901401A - 一种基于双耳匹配滤波器的双耳声音源定位方法 - Google Patents

一种基于双耳匹配滤波器的双耳声音源定位方法 Download PDF

Info

Publication number
CN103901401A
CN103901401A CN201410143474.1A CN201410143474A CN103901401A CN 103901401 A CN103901401 A CN 103901401A CN 201410143474 A CN201410143474 A CN 201410143474A CN 103901401 A CN103901401 A CN 103901401A
Authority
CN
China
Prior art keywords
ears
omega
sound source
matched filter
binaural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410143474.1A
Other languages
English (en)
Other versions
CN103901401B (zh
Inventor
刘宏
张结
丁润伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201410143474.1A priority Critical patent/CN103901401B/zh
Publication of CN103901401A publication Critical patent/CN103901401A/zh
Application granted granted Critical
Publication of CN103901401B publication Critical patent/CN103901401B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法,首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。

Description

一种基于双耳匹配滤波器的双耳声音源定位方法
技术领域
本发明属于信息技术领域,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及一种基于双耳匹配滤波器的双耳声音源定位方法。
背景技术
双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中,听觉感知都是人与人之间最有效最直接的交互方式之一。其中在日常感知世界、获取信息的主要过程中,人们通过视觉获取的信息大约占到了70%-80%,通过听觉获取的信息大约占到了10%-20%。因此在机器人智能化程度不断提升的过程中,机器人的听觉交互是必不可少的研究方向。人和其他的哺乳动物的听觉系统都具有很强的声源定位能力,因此人类一直期望机器人能够像人一样具有实时定位环境中的声源位置的能力。事实上,能否进行听觉定位是机器人智能与否的重要标志之一。与机器人视觉相比,机器人听觉仍然处于初始阶段。然而与机器人视觉相比,听觉的优势在于:
1)视觉的应用场景仅限于180°范围内,而听觉却可以定位到360°的范围。
2)由于声音信号的衍射性能,相较于视觉、激光等其他的传感信号听觉不需要直线视野,在有视野遮蔽障碍物的情况下依然可以有效的工作。
双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性,在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。
双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。
声源定位技术在语音识别领域也得到广泛应用。在视频会议中,通过声源定位技术控制摄像头,使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其它方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克风阵列以不同的方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。
基本上,双耳声音源定位是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段,通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤:
1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。
2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,以补偿嘴唇辐射带来的高频衰减。
3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
xk(n)=w(n)s(Nk+n)  n=0,1...N-1;k=0,1...L-1   (1)
其中N为帧长,L为帧数。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
Figure BDA0000489412080000021
4、特征提取。每帧信号可以提取特征以表征本帧信号所包含的信息,现常用于声源定位系统的双耳特征包括双耳时间差(InterauralTimeDifference,ITD)、双耳能量差(InterauralIntensityDifference,IID),双耳相位差(InterauralPhaseDifference,IPD)等,前面两种特征是应用最多的。
5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配,差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标,这种模式理论上可以得到准确解,但是易受环境噪声及混响等因素的干扰。
现有的方法一般采用类似于模式识别的思路,一般没有考虑双耳时间差与双耳能量差之间的关系,大都分为独立的两个模块计算这二者,比如利用广义互相关(包括使用不同的加权函数)计算双耳时间差、利用对数能量比的方法计算双耳能量差,而且加权广义互相关大都从克服不同环境所带来提取时延困难的问题提出的,并没有考虑双耳时间差在各个子频带上的差异性及可靠性。因此,传统的方法需要更复杂的计算体系,全局特征匹配的模式也面临了计算复杂度指数增长的瓶颈,需要提出更能反映双耳时间差和双耳能量差之间相互影响关系的特征完备地表达声源位置信息。
发明内容
针对上述问题,本发明的目的在于提供一种基于双耳匹配滤波器的双耳声音源定位方法,分别采用了双耳时间差、双耳能量差和双耳匹配滤波器作为三层的定位特征,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角(声源方向信息),即达到定位的目的。
为了实现上述目的,本发明采用以下技术方案:
一种基于双耳匹配滤波器的双耳声音源定位方法,包括:
1)训练阶段,录制双耳声音源定位数据库,为双耳时间差(ITD)、双耳能量差(IID)和双耳匹配滤波器(IMF)建立模板。
1-1)将定位空间按照转向角(azimuth)和俯仰角(elevation)划分,转向角可以是非均匀的划分方法,比如[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°],因为声音源定位系统对不同转向角的定位方差不同;俯仰角可以采用均匀划分的方式,比如[-45°:5.625°:230.625°],这种划分空间方式中转向角共25个,俯仰角共50个。
1-2)采用固定声源到坐标系中心距离(比如1米),在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据(即声源传递给麦克风的信号)。因为声源定位系统对距离的判别能力相对较弱,何况人耳对距离的鉴别能力也一般,因此距离不是本发明的考虑因素。
1-3)利用头相关传递函数(Head-RelatedTransferFunction,HRTF)或者离线录制的声音数据库,离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板,并可以得到双耳时间差和双耳能量差的期望和方差。
2)在线定位阶段,当声源定位系统检测到有声音源发生,利用可靠频带选择机制选择可靠的频带并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量。
3)将步骤2)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,得到缩小的搜索空间,再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度,最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。
更进一步,离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板的方法,本质上与声音源的类型无关,比如正常的说话声、尖叫声、关门声、拍桌子声等,录制数据库的环境可以是室内办公环境(信噪比大约为20-40dB)或者半室内的大厅环境。所述模板包括所有方向上的双耳时间差均值、方差(个数等于转向角的数量)和双耳能量差均值、方差,以及所有方向上的双耳匹配滤波器系数。需要指出的是,双耳时间差的方差是根据每个转向角上所有俯仰角(比如25个)的时间差统计得到,原因在于同一个转向角不同俯仰角上的双耳时间差基本相等,几何意义上双耳时间差只与转向角成正弦函数关系;由于双耳能量差与转向角和俯仰角没有单调分布关系,所有双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到。
更进一步,利用基于频带可靠性的广义互相关相位变换(GeneralizedCrossCorrelation-PhaseTransformation,GCC-PHAT)的方法计算所有方向上的双耳时间差,再分别按照传统的对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。
更进一步,如果首先将双耳信号划分为K个频带,那么,对于其中每个子频带m(m=1,2,…,K)的可靠性的定义方式为:
Figure BDA0000489412080000041
因此,bm是一个二值掩码标识该频带是否可靠的信息。需要指出的是,频带的可靠性只需要在实时定位的时候进行。
更进一步,对于任一信号帧的双耳时间差可以定义为:
Δτ = 1 k Σ m = 1 K b m Δ τ m - - - ( 4 )
其中,k是共选择出来可靠频带的个数,对于每个子频带m的时间差Δτm可以用传统的GCC-PHAT方法计算,即:
R x l , x r ( n ) = ∫ - π π W ( ω ) X l ( ω ) X r * ( ω ) e - jωn dω W ( ω ) = 1 | G ( ω ) | ρ + | γ 2 ( ω ) | G ( ω ) = X l ( ω ) X r * ( ω ) - - - ( 5 )
其中,
Figure BDA0000489412080000055
(n)就是GCC-PHAT函数,l表示左耳,r表示右耳,W(ω)为谱加权函数,Xl(ω),Xr(ω)分别表示双耳信号xl(n)(左耳信号)和xr(n)(右耳信号)的离散傅里叶变换,G(ω)是双耳信号的互相关,ρ是由环境中的信噪比(Signal-to-NoiseRatio,SNR)确定的混响因子,γ为一致性函数,*表示复共轭。
因此,各频带的时间差Δτm就可以根据求解GCC-PHAT函数的峰值位置得到:
Δ τ m = arg ma x n R m x l , x r ( n ) , m = 1,2 , . . . , K - - - ( 6 )
更进一步,利用传统的对数能量比的方法估计双耳能量差,理想情况下,若忽略背景噪声和混响效应,双耳接收到信号的能量谱分别为:
E l ( ω ) = X l ( ω ) = S ( ω ) | H l ( ω ) | 2 E r ( ω ) = X r ( ω ) = S ( ω ) | H r ( ω ) | 2 - - - ( 7 )
其中,Hl(ω),Hr(ω)分别为左耳信号和右耳信号的头相关传递函数(HeadRelatedTransferFunction,HRTF),S(ω)是声源信号的能量谱。
从工程的角度出发,考虑双耳能量谱的对数形式:
I l ( ω ) = 10 log E l ( ω ) = 10 log S ( ω ) + 20 log | H l ( ω ) | I r ( ω ) = 10 log E r ( ω ) = 10 log S ( ω ) + 20 log | H r ( ω ) | - - - ( 8 )
因此,双耳能量差可以定义为:
ΔI ( ω ) = I l ( ω ) - I r ( ω ) = 20 log | H l ( ω ) | - 20 log | H r ( ω ) | =20 log | H l ( ω ) | | H r ( ω ) | - - - ( 9 )
由此可见,双耳能量差与声音源信号无关,只依赖于头相关传递函数。此外,双耳能量差与转向角、俯仰角之间并没有直接的代数联系,所以使用能量差来辅助缩小候选区域。
更进一步,双耳匹配滤波的思路是设计出一组滤波器系数向量作为第三层定位特征。此处提及到的双耳匹配滤波实质上是按照最优滤波器——维纳滤波的思路设计的,即将左耳信号xl(n)作为滤波器的输入信号,右耳信号xr(n)作为滤波器的参考信号(期望信号),反之亦然,令滤波器的系数向量w=[w0,w1,…,wM-1],M表示帧长,则滤波器的输出信号为:
y ( n ) = Σ i = 0 M - 1 w i * x l ( n - i ) , n = 0,1 . . . , M - - - ( 10 )
因此,滤波器的匹配误差可以定义为:
e(n)=xr(n)-y(n)(11)
通过最小化均方误差J(n)=E{e(n)|2}=E{e(n)e*(n)}可以得到著名的维纳霍夫方程:
Σ i = 0 ∞ w i R x l , x l ( i - k ) = R x l , x r ( - k ) , k = 0,1 , . . . , M - 1 - - - ( 12 )
其中,
Figure BDA0000489412080000065
是滤波器输入信号为xl(n)(即左耳信号)时的自相关函数,
Figure BDA0000489412080000066
为左右耳信号的互相关函数(在第一层已计算得到),若令xl(n)=[xl(n),xl(n-1),…,xl(n-M+1)]T,则输入信号的自相关矩阵为:
= R = { x l ( n ) x l H ( n ) } R x l , x l ( 0 ) R x l , x l ( 1 ) . . . R x l , x l ( M - 1 ) R x l , x l * ( 1 ) R x l , x l ( 0 ) . . . R x l , x l ( M - 2 ) . . . . . . . . . . . . R x l , x l * ( M - 1 ) R x l , x l * ( M - 2 ) . . . R x l , x l * ( 0 ) - - - ( 13 )
式中H表示共轭转置。同理,我们可以得到滤波器输入信号与期望信号之间的互相关为:
r = E { x l ( n ) x r * ( n ) } [ R x l , x r ( 0 ) , R x l , x r ( - 1 ) , . . . , R x l , x r ( - M + 1 ) ] - - - ( 14 )
因此,求解维纳霍夫方程,我们可以得到双耳匹配滤波器的系数向量为:
w=R-1r(15)
另外,两个方向上双耳匹配滤波器的相似度可以通过其双耳匹配滤波器系数向量的夹角余弦来衡量,即定义:
&beta; w 1 w 2 = < w 1 , w 2 > | | w 1 | | | | w 2 | | - - - ( 16 )
这里的w1,w2分别表示由声源获得的滤波器系数向量和来自模板的滤波器系数向量。
定位阶段,可以先针对双耳接收到的信号设计出一组滤波器系数向量,然后将此向量逐个与候选区域中的滤波器作余弦相似性比对,结果被视为声源位于该方向的概率。
更进一步,考虑到转向角与双耳时间差之间存在如下关系:
&theta; = si n - 1 ( &Delta;d / d ) = si n - 1 ( &Delta;&tau; ~ &CenterDot; c / d f s ) - - - ( 17 )
其中,d为双耳间距,Δd表示声源到双耳的几何距离差,c为声音在空气中的传播速度(约344m/s),fs为采样频率。所以,转向角θ只受ITD的影响,与IID无关。因此,既然每个时延有且仅对应于一个转向角θi,那么使用概率
Figure BDA0000489412080000073
代表在已知双耳时延时定位到的转向角为θi的概率,且这个概率是可以在定位阶段之前训练得到的。当一个新的声音源出现时,将双耳时间差按转向角在模板中搜索匹配的方向,转向角θi
Figure BDA0000489412080000075
可能的区域可以按如下规则计算:
P ( &theta; i | &theta; ) = P ( &tau; i | &Delta;&tau; ~ ) ~ N ( &tau; i &OverBar; , &sigma; i 2 ) ( 18 )
&Delta;&tau; ~ &SubsetEqual; ( - 3 &sigma; i + &tau; i &OverBar; , 3 &sigma; i + &tau; &OverBar; i ) 当θ=θi
Figure BDA0000489412080000079
代表平均时延,σi代表相应的标准差,概率
Figure BDA00004894120800000710
表示时间差为
Figure BDA00004894120800000711
而判断为τi的概率,表示均值为
Figure BDA00004894120800000713
方差为σi 2的高斯分布;得到候选转向角集合作为候选区域。
其次,用相同的思路考虑双耳能量差iid,每个方向上双耳能量差的均值和标准差δj也可以训练得到。基于前面得到候选转向角集合,在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,俯仰角
Figure BDA00004894120800000719
和iid的可能区域为:
Figure BDA00004894120800000716
表示均值为方差为δj 2的高斯分布;得到缩小的搜索空间。
因此,候选集合得到进一步缩小,利用贝叶斯公式可以将概率
Figure BDA00004894120800000718
表达为:
Figure BDA0000489412080000081
第三层进行双耳匹配滤波器系数相似性计算的时候只需要针对这些候选集合进行即可:
其中,
Figure BDA0000489412080000083
表示先验为
Figure BDA0000489412080000084
前提下相似度取βij的概率,为全概率,为先验概率,
Figure BDA0000489412080000087
表示由声源信号得到的滤波器系数向量与候选集合中模板的相似度。
最后,利用贝叶斯规则来对前面三步得出的候选方向决策最终定位结果,即概率取最大的候选解被视为声音源的位置:
Figure BDA0000489412080000089
此处省略了下标号,其中,用ξ表示每个具体方向,
Figure BDA00004894120800000810
可以分别在前面三步得到,而P(ξ)是先验信息对所有方向上的取值都是相等的。
更进一步,本发明采用的基于双耳匹配滤波器的分层定位方法所需要的空间复杂度为O(NaNeNc),时间复杂度为O(NaNe),Na,Ne和Nc分别表示空间划分的转向角、俯仰角和子频带划分的数量,一次定位所需的时间要比主流的一些方法优越,且已满足实时声源定位与跟踪的需求。
本发明提出了一种新的基于贝叶斯分层模式的双耳声音源定位方法,分别采用了双耳时间差、双耳能量差和双耳匹配滤波器作为三层的定位特征,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角(声源方向信息),即达到定位的目的。首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。
附图说明
图1是本发明的声源定位方法流程示意图。
图2是将转向角划分为25个,俯仰角划分为50个之后得到的各个方向的平均双耳时间差。
图3是25个转向角在42个不同子频带上的平均双耳时间差。
图4是第一层基于双耳时间差筛选得到的候选转向角集合。
图5是所有方向上的双耳能量差的分布示意图。
图6是双耳匹配滤波器的原理框图。
图7是基于最小均方误差设计得到的滤波器在所有方向上的估计误差均值和方差。
图8是基于双耳匹配滤波器做特征匹配得到的声源定位结果,越亮的地方代表概率越大。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施实例采用的是加州大学戴维斯分校的CIPIC数据库进行试验,它具有目前最大的人头采集数量和最多的方向采集数。此数据库在国际上人形机器人声源定位中较为权威而且是使用最为广泛的数据库之一。数据库中共有45个人头进行试验,其中包括27名成年男性,16名成年女性,以及一个仿真人头模型KEMAR,在此仿真模型中又分别设置了大耳廓与小耳廓,在数据录取时将麦克风置于人耳之中或者仿真耳中。
数据采集过程是在严格的消音室进行,所使用的所有声源距离人头中心距离(即双耳连线的中点位置)为1米。该数据库只考虑了人头前方的180°定位空间,共划分为25个转向角区间,各区间的中心角度为[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°];俯仰角按照均匀划分的模式,共分为50个区间,其中心角度分别为[-45°:5.625°:230.625°],即一共1250个方向。采样频率为44.1kHz,数据格式为长度为200的FIR滤波器,即头相关传递函数HRTF。因此,这里我们只需用声源信号与HRTF卷积就可以得到双耳传声器接收到的信号。
训练阶段,采用冲激函数作为声音源与HRTF卷积,分别根据发明内容提及的三个公式
&Delta; &tau; m = arg ma x n R m x l , x r ( n ) , m = 1,2 , . . . , K - - - ( 6 )
&Delta;I ( &omega; ) = I l ( &omega; ) - I r ( &omega; ) = 20 log | H l ( &omega; ) | - 20 log | H r ( &omega; ) | =20 log | H l ( &omega; ) | | H r ( &omega; ) | - - - ( 9 )
w=R-1r(15)
计算出所有方向上的双耳时间差、双耳能量差和双耳滤波器的系数向量,并统计相应的均值和方差,因此,若令Na,Ne和Nc分别表示空间划分的转向角、俯仰角和子频带划分的数量,本实例所需要存储的模板大小为NaNeNc+2NaNe,空间复杂度的阶为O(NaNeNc)。
在线定位阶段,考虑声源信号类型在定位之前是未知的,因此本实例采用语音、关门声、拍桌子声、玻璃碎地等声音信号作为声源进行测试。声源在室内安静环境下录制,采样频率为44.1kHz,通过实时录入声源信号,对一个较短的时间窗内(当前t秒)的信号进行识别,给出当前时间窗的识别结果,然后综合当前时间之前的所有时间段的识别结果,通过统计各方向的可能性,给出当前时间总体定位结果。
图1粗略地给出了定位的总体过程,分为前面三层定位过程和最后的贝叶斯决策。对当前一个时间窗具体算法如下:
1)对当前时间窗内声源信号进行分帧、加窗处理,帧长为256个采样点,帧移为128个采样点,观测时间长度为2s;
2)按照上面训练阶段的三个公式分别估计双耳时间差、双耳能量差和双耳匹配滤波器的系数向量,图2展示了经典的GCC-PHAT估计得到的1250个方向上的平均双耳时间差,说明同一个转向角的不同俯仰角上的双耳时间差大致相同;图3给出了25个转向角上42个不同频带上的平均时间差,可以看出只有少数的低频带对时延估计是有贡献的,大部分的高频带的双耳时间差都被错误的估计为0了。图4展示了第一层初步筛选的候选集合,可以看出基于双耳时间差可以大大缩小定位的搜索空间,比如理论上声源如果位于-80°,那第一层确定的有可能的位置集合为{-80°,-65°,-55°,-45°,-40°,-35°}。图5给出了所有方向上的双耳能量差的分布,可以看出双耳能量差并没有随转向角或俯仰角呈单调函数关系,可以作为第二层的辅助定位手段。
3)双耳匹配滤波器的原理框图如图6所示,将左耳信号作为滤波器的输入,右耳信号作为滤波器的期望(参考)信号,按照最小均方误差准则可以设计出一组滤波器系数向量。图7是训练过程中得到的各个方向在设计滤波器时候产生的误差均值和方差。图8是基于双耳匹配滤波器的定位结果示意图,图中越亮的地方代表概率越大,假如声源的位置在(10,5),表示声源的方向为(-45°,5.625°),可以看出正好在(10,5)附近得到的概率最大。
4)对当前观测时间内各帧信号的定位结果进行统计,利用采用直方图的形式,出现次数最多的方向即被认为是声源所在的位置。
上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于该实例的内容。

Claims (10)

1.一种基于双耳匹配滤波器的双耳声音源定位方法,包括:
1)训练阶段,录制双耳声音源定位数据库,为双耳时间差、双耳能量差和双儿耳匹配滤波器建立模板,具体包括:
1-1)将定位空间按照转向角和俯仰角划分;
1-2)采用固定声源到坐标系中心距离,在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据;
1-3)离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板,得到双耳时间差和双耳能量差的期望和方差;
2)在线定位阶段,当声源定位系统检测到有声音源发生,利用可靠频带选择机制选择可靠的频带,并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量;
3)将步骤2)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,得到缩小的搜索空间,再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度,最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。
2.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤1)中,转向角采用非均匀的划分方法,俯仰角采用均匀划分的方式。
3.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤1)中,双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到;双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到;所述模板包括:所有方向上的双耳时间差均值、方差和双耳能量差均值、方差,以及所有方向上的双耳匹配滤波器系数。
4.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤2)中,利用基于频带可靠性的广义互相关相位变换的方法计算所有方向上的双耳时间差,再分别按照对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。
5.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤2)中,首先将双耳信号划分为K个频带,对于其中每个子频带m(m=1,2,…,K)的可靠性的定义方式为:
因此,bm是一个二值掩码标识该频带是否可靠的信息。
6.如权利要求1-5任一所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,分别根据以下公式计算得到双耳时间差Δτm、双耳能量差ΔI(ω)和双耳滤波器的系数向量w,并统计相应的均值和方差:
&Delta; &tau; m = arg ma x n R m x l , x r ( n ) , m = 1,2 , . . . , K - - - ( 6 )
&Delta;I ( &omega; ) = I l ( &omega; ) - I r ( &omega; ) = 20 log | H l ( &omega; ) | - 20 log | H r ( &omega; ) | =20 log | H l ( &omega; ) | | H r ( &omega; ) | - - - ( 9 )
w=R-1r(15)
公式(6)中,K表示频带数,m表示其中的每个子频带,Δτm根据求解(n)的峰值位置得到,
R x l , x r ( n ) = &Integral; - &pi; &pi; W ( &omega; ) X l ( &omega; ) X r * ( &omega; ) e - j&omega;n d&omega; W ( &omega; ) = 1 | G ( &omega; ) | &rho; + | &gamma; 2 ( &omega; ) | G ( &omega; ) = X l ( &omega; ) X r * ( &omega; ) - - - ( 5 )
其中,
Figure FDA0000489412070000026
(n)是GCC-PHAT函数,l表示左耳,r表示右耳,W(ω)为谱加权函数,Xl(ω),Xr(ω)分别表示左耳信号xl(n)和右耳信号xr(n)的离散傅里叶变换,G(ω)是双耳信号的互相关,ρ是由环境中的信噪比确定的混响因子,γ为一致性函数,*表示复共轭;
公式(9)中,Hl(ω),Hr(ω)分别为左耳信号和右耳信号的头相关传递函数;
公式(15)中,R表示输入信号的自相关矩阵,公式为:
= R = { x l ( n ) x l H ( n ) } R x l , x l ( 0 ) R x l , x l ( 1 ) . . . R x l , x l ( M - 1 ) R x l , x l * ( 1 ) R x l , x l ( 0 ) . . . R x l , x l ( M - 2 ) . . . . . . . . . . . . R x l , x l * ( M - 1 ) R x l , x l * ( M - 2 ) . . . R x l , x l * ( 0 ) - - - ( 13 )
其中,是滤波器输入信号为xl(n)时的自相关函数,M表示帧长,H表示共轭转置,*表示复共轭;
r表示滤波器输入信号与期望信号之间的互相关,公式为:
r = E { x l ( n ) x r * ( n ) } [ R x l , x r ( 0 ) , R x l , x r ( - 1 ) , . . . , R x l , x r ( - M + 1 ) ] - - - ( 14 )
其中,为左右耳信号的互相关函数,xl(n)为左耳信号,xr(n)为右耳信号,M表示帧长,*表示复共轭。
7.如权利要求1所述的一种基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤3)中,两个方向上双耳匹配滤波器的相似度通过其双耳匹配滤波器系数向量的夹角余弦来衡量,定义为:
&beta; w 1 w 2 = < w 1 , w 2 > | | w 1 | | | | w 2 | | - - - ( 16 )
w1,w2分别表示由声源获得的双耳匹配滤波器系数向量和来自模板的滤波器系数向量。
8.如权利要求1所述的一种基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤3)具体采用以下步骤:首先,当一个新的声音源出现时,转向角θi和可能的区域按如下规则计算:
P ( &theta; i | &theta; ) = P ( &tau; i | &Delta;&tau; ~ ) ~ N ( &tau; i &OverBar; , &sigma; i 2 ) ( 18 )
&Delta;&tau; ~ &SubsetEqual; ( - 3 &sigma; i + &tau; i &OverBar; , 3 &sigma; i + &tau; &OverBar; i ) 当θ=θi
Figure FDA0000489412070000036
代表平均时延,σi代表相应的标准差,概率
Figure FDA0000489412070000037
表示时间差为
Figure FDA0000489412070000038
而判断为τi的概率,
Figure FDA0000489412070000039
表示均值为
Figure FDA00004894120700000310
方差为σi 2的高斯分布;得到候选转向角集合作为候选区域;
其次,基于前面得到候选转向角集合,俯仰角
Figure FDA00004894120700000311
和iid的可能区域按如下规则计算:
Figure FDA00004894120700000312
iid表示双耳能量差,
Figure FDA00004894120700000313
表示双耳时延,
Figure FDA00004894120700000314
表示每个方向上双耳能量差的均值,δj表示相应的标准差,
Figure FDA00004894120700000315
表示均值为
Figure FDA00004894120700000316
方差为δj 2的高斯分布;得到缩小的搜索空间。
9.如权利要求8所述的一种基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,所述缩小的搜索空间利用贝叶斯公式将概率表达为:
Figure FDA0000489412070000042
10.如权利要求9所述的一种基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,利用以下公式针对缩小的搜索空间进行双耳匹配滤波器相似度计算:
Figure FDA0000489412070000043
其中,
Figure FDA0000489412070000044
表示先验为
Figure FDA0000489412070000045
前提下相似度取βij的概率,为全概率,
Figure FDA0000489412070000048
表示由声源信号得到的滤波器系数向量与候选集合
Figure FDA0000489412070000049
中模板的相似度;
采用贝叶斯分层的搜索策略得到最终定位结果:
Figure FDA00004894120700000410
其中,ξ表示每个具体方向,
Figure FDA00004894120700000411
可以分别在前面三步得到,而P(ξ)是先验信息对所有方向上的取值都是相等的。
CN201410143474.1A 2014-04-10 2014-04-10 一种基于双耳匹配滤波器的双耳声音源定位方法 Expired - Fee Related CN103901401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410143474.1A CN103901401B (zh) 2014-04-10 2014-04-10 一种基于双耳匹配滤波器的双耳声音源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410143474.1A CN103901401B (zh) 2014-04-10 2014-04-10 一种基于双耳匹配滤波器的双耳声音源定位方法

Publications (2)

Publication Number Publication Date
CN103901401A true CN103901401A (zh) 2014-07-02
CN103901401B CN103901401B (zh) 2016-08-17

Family

ID=50992851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410143474.1A Expired - Fee Related CN103901401B (zh) 2014-04-10 2014-04-10 一种基于双耳匹配滤波器的双耳声音源定位方法

Country Status (1)

Country Link
CN (1) CN103901401B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104284286A (zh) * 2013-07-04 2015-01-14 Gn瑞声达A/S 个体hrtf的确定
CN104573652A (zh) * 2015-01-04 2015-04-29 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
CN106125048A (zh) * 2016-07-11 2016-11-16 浙江大华技术股份有限公司 一种声源定位方法及装置
CN106405501A (zh) * 2015-07-29 2017-02-15 中国科学院声学研究所 一种基于相位差回归的单声源定位方法
CN106501772A (zh) * 2016-10-18 2017-03-15 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN106526578A (zh) * 2016-12-19 2017-03-22 中国电子科技集团公司第二十研究所 基于蝙蝠双耳定位模型的水下目标方位估计方法
CN106768284A (zh) * 2016-12-20 2017-05-31 西安科技大学 一种异常声源判断与定位系统及方法
CN106908775A (zh) * 2017-03-08 2017-06-30 同济大学 一种基于激光反射强度的无人车实时定位方法
CN107113516A (zh) * 2014-12-22 2017-08-29 Gn瑞声达A/S 扩散噪声收听
CN107144818A (zh) * 2017-03-21 2017-09-08 北京大学深圳研究生院 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
WO2018006797A1 (zh) * 2016-07-05 2018-01-11 深圳大学 利用声音信号检测键盘敲击内容的系统及方法
CN107948856A (zh) * 2017-12-15 2018-04-20 浙江大华技术股份有限公司 一种录播主机、声源测向的方法及装置
CN108122559A (zh) * 2017-12-21 2018-06-05 北京工业大学 一种数字助听器中基于深度学习的双耳声源定位方法
CN108229030A (zh) * 2018-01-05 2018-06-29 北京安声科技有限公司 一种主动降噪系统控制器参数的设计方法
CN109741763A (zh) * 2019-02-25 2019-05-10 厦门盈趣汽车电子有限公司 一种具有分贝检测功能的可穿戴设备
CN110133594A (zh) * 2018-02-09 2019-08-16 北京搜狗科技发展有限公司 一种声源定位方法、装置和用于声源定位的装置
CN110940951A (zh) * 2018-09-25 2020-03-31 北京四维图新科技股份有限公司 定位方法及设备
CN111707990A (zh) * 2020-08-19 2020-09-25 东南大学 一种基于密集卷积网络的双耳声源定位方法
CN112731289A (zh) * 2020-12-10 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 一种基于加权模板匹配的双耳声源定位方法和装置
CN113449255A (zh) * 2021-06-15 2021-09-28 电子科技大学 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10102194A1 (de) * 2000-01-18 2001-08-30 Florian Meinhard Koenig Verfahren zur Festlegung der Ortbarkeit eines per Kopfhörer übertragenen Schallereignisses
CN1703118A (zh) * 2004-05-26 2005-11-30 本田研究所欧洲有限公司 基于立体声信号的声源定位
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
CN103475974A (zh) * 2012-06-06 2013-12-25 西门子医疗器械公司 用于聚焦助听器的波束形成器的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10102194A1 (de) * 2000-01-18 2001-08-30 Florian Meinhard Koenig Verfahren zur Festlegung der Ortbarkeit eines per Kopfhörer übertragenen Schallereignisses
CN1703118A (zh) * 2004-05-26 2005-11-30 本田研究所欧洲有限公司 基于立体声信号的声源定位
CN102565759A (zh) * 2011-12-29 2012-07-11 东南大学 一种基于子带信噪比估计的双耳声源定位方法
CN103475974A (zh) * 2012-06-06 2013-12-25 西门子医疗器械公司 用于聚焦助听器的波束形成器的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李晓飞 等: "机器人听觉声源定位研究综述", 《智能系统学报》, 29 February 2012 (2012-02-29) *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10466334B2 (en) 2006-07-11 2019-11-05 Zhejiang Dahua Technology Co., Ltd. Methods and systems for sound source locating
CN104284286A (zh) * 2013-07-04 2015-01-14 Gn瑞声达A/S 个体hrtf的确定
CN104284286B (zh) * 2013-07-04 2019-01-04 Gn瑞声达A/S 个体hrtf的确定
CN107113516A (zh) * 2014-12-22 2017-08-29 Gn瑞声达A/S 扩散噪声收听
CN107113516B (zh) * 2014-12-22 2018-11-06 Gn瑞声达A/S 扩散噪声收听
US10402627B2 (en) 2015-01-04 2019-09-03 Huawei Technologies Co., Ltd. Method and apparatus for determining identity identifier of face in face image, and terminal
CN104573652B (zh) * 2015-01-04 2017-12-22 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
CN104573652A (zh) * 2015-01-04 2015-04-29 华为技术有限公司 确定人脸图像中人脸的身份标识的方法、装置和终端
CN106405501B (zh) * 2015-07-29 2019-05-17 中国科学院声学研究所 一种基于相位差回归的单声源定位方法
CN106405501A (zh) * 2015-07-29 2017-02-15 中国科学院声学研究所 一种基于相位差回归的单声源定位方法
WO2018006797A1 (zh) * 2016-07-05 2018-01-11 深圳大学 利用声音信号检测键盘敲击内容的系统及方法
US10816634B2 (en) 2016-07-11 2020-10-27 Zhejiang Dahua Technology Co., Ltd. Methods and systems for sound source locating
CN106125048A (zh) * 2016-07-11 2016-11-16 浙江大华技术股份有限公司 一种声源定位方法及装置
CN106501772B (zh) * 2016-10-18 2018-12-14 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN106501772A (zh) * 2016-10-18 2017-03-15 武汉轻工大学 一种基于双耳线索的空间音源定位方法及系统
CN106526578A (zh) * 2016-12-19 2017-03-22 中国电子科技集团公司第二十研究所 基于蝙蝠双耳定位模型的水下目标方位估计方法
CN106768284A (zh) * 2016-12-20 2017-05-31 西安科技大学 一种异常声源判断与定位系统及方法
CN106768284B (zh) * 2016-12-20 2021-04-20 西安科技大学 一种异常声源判断与定位系统及方法
CN106908775B (zh) * 2017-03-08 2019-10-18 同济大学 一种基于激光反射强度的无人车实时定位方法
CN106908775A (zh) * 2017-03-08 2017-06-30 同济大学 一种基于激光反射强度的无人车实时定位方法
CN107144818A (zh) * 2017-03-21 2017-09-08 北京大学深圳研究生院 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
CN107948856A (zh) * 2017-12-15 2018-04-20 浙江大华技术股份有限公司 一种录播主机、声源测向的方法及装置
CN108122559B (zh) * 2017-12-21 2021-05-14 北京工业大学 一种数字助听器中基于深度学习的双耳声源定位方法
CN108122559A (zh) * 2017-12-21 2018-06-05 北京工业大学 一种数字助听器中基于深度学习的双耳声源定位方法
CN108229030A (zh) * 2018-01-05 2018-06-29 北京安声科技有限公司 一种主动降噪系统控制器参数的设计方法
CN108229030B (zh) * 2018-01-05 2021-07-02 北京安声科技有限公司 一种主动降噪系统控制器参数的设计方法
CN110133594A (zh) * 2018-02-09 2019-08-16 北京搜狗科技发展有限公司 一种声源定位方法、装置和用于声源定位的装置
CN110133594B (zh) * 2018-02-09 2023-04-28 北京搜狗科技发展有限公司 一种声源定位方法、装置和用于声源定位的装置
CN110940951A (zh) * 2018-09-25 2020-03-31 北京四维图新科技股份有限公司 定位方法及设备
CN109741763A (zh) * 2019-02-25 2019-05-10 厦门盈趣汽车电子有限公司 一种具有分贝检测功能的可穿戴设备
CN111707990B (zh) * 2020-08-19 2021-05-14 东南大学 一种基于密集卷积网络的双耳声源定位方法
CN111707990A (zh) * 2020-08-19 2020-09-25 东南大学 一种基于密集卷积网络的双耳声源定位方法
CN112731289A (zh) * 2020-12-10 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 一种基于加权模板匹配的双耳声源定位方法和装置
CN112731289B (zh) * 2020-12-10 2024-05-07 深港产学研基地(北京大学香港科技大学深圳研修院) 一种基于加权模板匹配的双耳声源定位方法和装置
CN113449255A (zh) * 2021-06-15 2021-09-28 电子科技大学 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质

Also Published As

Publication number Publication date
CN103901401B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103901401A (zh) 一种基于双耳匹配滤波器的双耳声音源定位方法
Liu et al. Wavoice: A noise-resistant multi-modal speech recognition system fusing mmwave and audio signals
US20220159403A1 (en) System and method for assisting selective hearing
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN102074236B (zh) 一种分布式麦克风的说话人聚类方法
Nakadai et al. Applying scattering theory to robot audition system: Robust sound source localization and extraction
CN109839612A (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法
Jin et al. A supervised learning approach to monaural segregation of reverberant speech
Roman et al. Binaural tracking of multiple moving sources
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN103901400B (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN107144818A (zh) 基于双向双耳匹配滤波器加权融合的双耳声源定位方法
CN109410976A (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN103650537B (zh) 采用分解器产生输出信号的装置和方法
CN110491403A (zh) 音频信号的处理方法、装置、介质和音频交互设备
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN106483502B (zh) 一种声源定位方法及装置
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
Wan et al. Sound source localization based on discrimination of cross-correlation functions
CN102103200A (zh) 一种分布式非同步声传感器的声源空间定位方法
Liu et al. Continuous sound source localization based on microphone array for mobile robots
CN109658949A (zh) 一种基于深度神经网络的语音增强方法
CN110333484B (zh) 基于环境背景声感知与分析的室内区域级定位方法
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
Plinge et al. Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

CF01 Termination of patent right due to non-payment of annual fee