CN103901401A - 一种基于双耳匹配滤波器的双耳声音源定位方法 - Google Patents
一种基于双耳匹配滤波器的双耳声音源定位方法 Download PDFInfo
- Publication number
- CN103901401A CN103901401A CN201410143474.1A CN201410143474A CN103901401A CN 103901401 A CN103901401 A CN 103901401A CN 201410143474 A CN201410143474 A CN 201410143474A CN 103901401 A CN103901401 A CN 103901401A
- Authority
- CN
- China
- Prior art keywords
- ears
- omega
- sound source
- matched filter
- binaural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 3
- 210000005069 ears Anatomy 0.000 claims description 147
- 230000004807 localization Effects 0.000 claims description 35
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 240000006409 Acacia auriculiformis Species 0.000 claims description 2
- 238000005311 autocorrelation function Methods 0.000 claims description 2
- 238000005314 correlation function Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 238000003754 machining Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 15
- 238000001914 filtration Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- AOQBFUJPFAJULO-UHFFFAOYSA-N 2-(4-isothiocyanatophenyl)isoindole-1-carbonitrile Chemical compound C1=CC(N=C=S)=CC=C1N1C(C#N)=C2C=CC=CC2=C1 AOQBFUJPFAJULO-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002463 transducing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种新的基于贝叶斯分层模式的双耳声音源定位方法,首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。
Description
技术领域
本发明属于信息技术领域,涉及一种应用在语音感知和语音增强中的双耳声源定位方法,具体涉及一种基于双耳匹配滤波器的双耳声音源定位方法。
背景技术
双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中,听觉感知都是人与人之间最有效最直接的交互方式之一。其中在日常感知世界、获取信息的主要过程中,人们通过视觉获取的信息大约占到了70%-80%,通过听觉获取的信息大约占到了10%-20%。因此在机器人智能化程度不断提升的过程中,机器人的听觉交互是必不可少的研究方向。人和其他的哺乳动物的听觉系统都具有很强的声源定位能力,因此人类一直期望机器人能够像人一样具有实时定位环境中的声源位置的能力。事实上,能否进行听觉定位是机器人智能与否的重要标志之一。与机器人视觉相比,机器人听觉仍然处于初始阶段。然而与机器人视觉相比,听觉的优势在于:
1)视觉的应用场景仅限于180°范围内,而听觉却可以定位到360°的范围。
2)由于声音信号的衍射性能,相较于视觉、激光等其他的传感信号听觉不需要直线视野,在有视野遮蔽障碍物的情况下依然可以有效的工作。
双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性,在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支,不仅利用了双麦克风简易的阵列结构,又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。
双耳声源定位技术在机器人听觉、人机交互领域有着重要的应用。一般来讲机器人听觉包括声源信号的定位与分离、自动语音识别、说话人识别等。机器人听觉声源定位是指机器人利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置。而机器人的双耳定位则是期望机器人能够像人或者其他哺乳动物一样仅仅利用两个声音传感器完成声源信号的定位。
声源定位技术在语音识别领域也得到广泛应用。在视频会议中,通过声源定位技术控制摄像头,使其自动地转向感兴趣的说话人方向。对于高速行驶的车辆,为避免驾驶员用手去接听电话,车载免提电话应运而生。然而,当车中坐有多个说话人时,语音识别系统就无法辨别实际命令的来源,此时就需要一种定位系统来提取驾驶员方位的语音,进而对其命令作出响应。助听器的出现为有听力障碍的残疾人提供了帮助。基于阵列的语音增强技术利用声源的位置信息进行空间滤波,可以进一步抑制除说话人以外的其它方向的噪声,使得助听器话音更加清晰。近年来,基于声源定位技术的电子笔系统成为研究热点,用于接收的麦克风阵列以不同的方式集成在显示器边缘,此时设计出的电子笔就可以在屏幕上进行书写或者相应地控制操作。
基本上,双耳声音源定位是一个模式分类的问题。类似于自动语音识别,其主要的两大步骤分别是:语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号,并进行模数转换,把模拟声音信号转换成数字信号。在信号处理阶段,首先对原始信号进行预处理:降噪和滤波,信号预加重,分帧并加窗,对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段,通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤:
1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。
2、预加重。信号通过高频加重滤波器冲激响应H(z)=1-0.95z-1,以补偿嘴唇辐射带来的高频衰减。
3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
xk(n)=w(n)s(Nk+n) n=0,1...N-1;k=0,1...L-1 (1)
其中N为帧长,L为帧数。w(n)为窗函数,它的选择(形状和长度)对短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
4、特征提取。每帧信号可以提取特征以表征本帧信号所包含的信息,现常用于声源定位系统的双耳特征包括双耳时间差(InterauralTimeDifference,ITD)、双耳能量差(InterauralIntensityDifference,IID),双耳相位差(InterauralPhaseDifference,IPD)等,前面两种特征是应用最多的。
5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配,差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标,这种模式理论上可以得到准确解,但是易受环境噪声及混响等因素的干扰。
现有的方法一般采用类似于模式识别的思路,一般没有考虑双耳时间差与双耳能量差之间的关系,大都分为独立的两个模块计算这二者,比如利用广义互相关(包括使用不同的加权函数)计算双耳时间差、利用对数能量比的方法计算双耳能量差,而且加权广义互相关大都从克服不同环境所带来提取时延困难的问题提出的,并没有考虑双耳时间差在各个子频带上的差异性及可靠性。因此,传统的方法需要更复杂的计算体系,全局特征匹配的模式也面临了计算复杂度指数增长的瓶颈,需要提出更能反映双耳时间差和双耳能量差之间相互影响关系的特征完备地表达声源位置信息。
发明内容
针对上述问题,本发明的目的在于提供一种基于双耳匹配滤波器的双耳声音源定位方法,分别采用了双耳时间差、双耳能量差和双耳匹配滤波器作为三层的定位特征,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角(声源方向信息),即达到定位的目的。
为了实现上述目的,本发明采用以下技术方案:
一种基于双耳匹配滤波器的双耳声音源定位方法,包括:
1)训练阶段,录制双耳声音源定位数据库,为双耳时间差(ITD)、双耳能量差(IID)和双耳匹配滤波器(IMF)建立模板。
1-1)将定位空间按照转向角(azimuth)和俯仰角(elevation)划分,转向角可以是非均匀的划分方法,比如[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°],因为声音源定位系统对不同转向角的定位方差不同;俯仰角可以采用均匀划分的方式,比如[-45°:5.625°:230.625°],这种划分空间方式中转向角共25个,俯仰角共50个。
1-2)采用固定声源到坐标系中心距离(比如1米),在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据(即声源传递给麦克风的信号)。因为声源定位系统对距离的判别能力相对较弱,何况人耳对距离的鉴别能力也一般,因此距离不是本发明的考虑因素。
1-3)利用头相关传递函数(Head-RelatedTransferFunction,HRTF)或者离线录制的声音数据库,离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板,并可以得到双耳时间差和双耳能量差的期望和方差。
2)在线定位阶段,当声源定位系统检测到有声音源发生,利用可靠频带选择机制选择可靠的频带并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量。
3)将步骤2)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,得到缩小的搜索空间,再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度,最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。
更进一步,离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板的方法,本质上与声音源的类型无关,比如正常的说话声、尖叫声、关门声、拍桌子声等,录制数据库的环境可以是室内办公环境(信噪比大约为20-40dB)或者半室内的大厅环境。所述模板包括所有方向上的双耳时间差均值、方差(个数等于转向角的数量)和双耳能量差均值、方差,以及所有方向上的双耳匹配滤波器系数。需要指出的是,双耳时间差的方差是根据每个转向角上所有俯仰角(比如25个)的时间差统计得到,原因在于同一个转向角不同俯仰角上的双耳时间差基本相等,几何意义上双耳时间差只与转向角成正弦函数关系;由于双耳能量差与转向角和俯仰角没有单调分布关系,所有双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到。
更进一步,利用基于频带可靠性的广义互相关相位变换(GeneralizedCrossCorrelation-PhaseTransformation,GCC-PHAT)的方法计算所有方向上的双耳时间差,再分别按照传统的对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。
更进一步,如果首先将双耳信号划分为K个频带,那么,对于其中每个子频带m(m=1,2,…,K)的可靠性的定义方式为:
因此,bm是一个二值掩码标识该频带是否可靠的信息。需要指出的是,频带的可靠性只需要在实时定位的时候进行。
更进一步,对于任一信号帧的双耳时间差可以定义为:
其中,k是共选择出来可靠频带的个数,对于每个子频带m的时间差Δτm可以用传统的GCC-PHAT方法计算,即:
其中,(n)就是GCC-PHAT函数,l表示左耳,r表示右耳,W(ω)为谱加权函数,Xl(ω),Xr(ω)分别表示双耳信号xl(n)(左耳信号)和xr(n)(右耳信号)的离散傅里叶变换,G(ω)是双耳信号的互相关,ρ是由环境中的信噪比(Signal-to-NoiseRatio,SNR)确定的混响因子,γ为一致性函数,*表示复共轭。
因此,各频带的时间差Δτm就可以根据求解GCC-PHAT函数的峰值位置得到:
更进一步,利用传统的对数能量比的方法估计双耳能量差,理想情况下,若忽略背景噪声和混响效应,双耳接收到信号的能量谱分别为:
其中,Hl(ω),Hr(ω)分别为左耳信号和右耳信号的头相关传递函数(HeadRelatedTransferFunction,HRTF),S(ω)是声源信号的能量谱。
从工程的角度出发,考虑双耳能量谱的对数形式:
因此,双耳能量差可以定义为:
由此可见,双耳能量差与声音源信号无关,只依赖于头相关传递函数。此外,双耳能量差与转向角、俯仰角之间并没有直接的代数联系,所以使用能量差来辅助缩小候选区域。
更进一步,双耳匹配滤波的思路是设计出一组滤波器系数向量作为第三层定位特征。此处提及到的双耳匹配滤波实质上是按照最优滤波器——维纳滤波的思路设计的,即将左耳信号xl(n)作为滤波器的输入信号,右耳信号xr(n)作为滤波器的参考信号(期望信号),反之亦然,令滤波器的系数向量w=[w0,w1,…,wM-1],M表示帧长,则滤波器的输出信号为:
因此,滤波器的匹配误差可以定义为:
e(n)=xr(n)-y(n)(11)
通过最小化均方误差J(n)=E{e(n)|2}=E{e(n)e*(n)}可以得到著名的维纳霍夫方程:
其中,是滤波器输入信号为xl(n)(即左耳信号)时的自相关函数,为左右耳信号的互相关函数(在第一层已计算得到),若令xl(n)=[xl(n),xl(n-1),…,xl(n-M+1)]T,则输入信号的自相关矩阵为:
式中H表示共轭转置。同理,我们可以得到滤波器输入信号与期望信号之间的互相关为:
因此,求解维纳霍夫方程,我们可以得到双耳匹配滤波器的系数向量为:
w=R-1r(15)
另外,两个方向上双耳匹配滤波器的相似度可以通过其双耳匹配滤波器系数向量的夹角余弦来衡量,即定义:
这里的w1,w2分别表示由声源获得的滤波器系数向量和来自模板的滤波器系数向量。
定位阶段,可以先针对双耳接收到的信号设计出一组滤波器系数向量,然后将此向量逐个与候选区域中的滤波器作余弦相似性比对,结果被视为声源位于该方向的概率。
更进一步,考虑到转向角与双耳时间差之间存在如下关系:
其中,d为双耳间距,Δd表示声源到双耳的几何距离差,c为声音在空气中的传播速度(约344m/s),fs为采样频率。所以,转向角θ只受ITD的影响,与IID无关。因此,既然每个时延有且仅对应于一个转向角θi,那么使用概率代表在已知双耳时延时定位到的转向角为θi的概率,且这个概率是可以在定位阶段之前训练得到的。当一个新的声音源出现时,将双耳时间差按转向角在模板中搜索匹配的方向,转向角θi和可能的区域可以按如下规则计算:
其次,用相同的思路考虑双耳能量差iid,每个方向上双耳能量差的均值和标准差δj也可以训练得到。基于前面得到候选转向角集合,在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,俯仰角和iid的可能区域为:
第三层进行双耳匹配滤波器系数相似性计算的时候只需要针对这些候选集合进行即可:
最后,利用贝叶斯规则来对前面三步得出的候选方向决策最终定位结果,即概率取最大的候选解被视为声音源的位置:
更进一步,本发明采用的基于双耳匹配滤波器的分层定位方法所需要的空间复杂度为O(NaNeNc),时间复杂度为O(NaNe),Na,Ne和Nc分别表示空间划分的转向角、俯仰角和子频带划分的数量,一次定位所需的时间要比主流的一些方法优越,且已满足实时声源定位与跟踪的需求。
本发明提出了一种新的基于贝叶斯分层模式的双耳声音源定位方法,分别采用了双耳时间差、双耳能量差和双耳匹配滤波器作为三层的定位特征,利用贝叶斯分层的搜索策略确定声音源的转向角和俯仰角(声源方向信息),即达到定位的目的。首先,可靠频带选择机制保证了选择用于估计双耳时间差的频带是可靠的,提高了时间差的估计精度;其次,利用双耳能量差来缩小第一层得到的候选方向集合;再次,第三层提出了双耳匹配滤波器作为新的双耳定位特征,它描述了双耳信号之间的差异,能够充分表达双耳时间差和双耳能量差之间的关系;最后,针对三层定位过程中搜索空间逐渐缩小,采用贝叶斯决策的准则得到概率最大的方向。这种分层的定位系统能够有效地减少特征匹配的次数,降低了算法的时间复杂度,保证了声源定位系统的实时性要求。
附图说明
图1是本发明的声源定位方法流程示意图。
图2是将转向角划分为25个,俯仰角划分为50个之后得到的各个方向的平均双耳时间差。
图3是25个转向角在42个不同子频带上的平均双耳时间差。
图4是第一层基于双耳时间差筛选得到的候选转向角集合。
图5是所有方向上的双耳能量差的分布示意图。
图6是双耳匹配滤波器的原理框图。
图7是基于最小均方误差设计得到的滤波器在所有方向上的估计误差均值和方差。
图8是基于双耳匹配滤波器做特征匹配得到的声源定位结果,越亮的地方代表概率越大。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施实例采用的是加州大学戴维斯分校的CIPIC数据库进行试验,它具有目前最大的人头采集数量和最多的方向采集数。此数据库在国际上人形机器人声源定位中较为权威而且是使用最为广泛的数据库之一。数据库中共有45个人头进行试验,其中包括27名成年男性,16名成年女性,以及一个仿真人头模型KEMAR,在此仿真模型中又分别设置了大耳廓与小耳廓,在数据录取时将麦克风置于人耳之中或者仿真耳中。
数据采集过程是在严格的消音室进行,所使用的所有声源距离人头中心距离(即双耳连线的中点位置)为1米。该数据库只考虑了人头前方的180°定位空间,共划分为25个转向角区间,各区间的中心角度为[-80°,-65°,-55°,-45°:5°:45°,55°,65°,80°];俯仰角按照均匀划分的模式,共分为50个区间,其中心角度分别为[-45°:5.625°:230.625°],即一共1250个方向。采样频率为44.1kHz,数据格式为长度为200的FIR滤波器,即头相关传递函数HRTF。因此,这里我们只需用声源信号与HRTF卷积就可以得到双耳传声器接收到的信号。
训练阶段,采用冲激函数作为声音源与HRTF卷积,分别根据发明内容提及的三个公式
w=R-1r(15)
计算出所有方向上的双耳时间差、双耳能量差和双耳滤波器的系数向量,并统计相应的均值和方差,因此,若令Na,Ne和Nc分别表示空间划分的转向角、俯仰角和子频带划分的数量,本实例所需要存储的模板大小为NaNeNc+2NaNe,空间复杂度的阶为O(NaNeNc)。
在线定位阶段,考虑声源信号类型在定位之前是未知的,因此本实例采用语音、关门声、拍桌子声、玻璃碎地等声音信号作为声源进行测试。声源在室内安静环境下录制,采样频率为44.1kHz,通过实时录入声源信号,对一个较短的时间窗内(当前t秒)的信号进行识别,给出当前时间窗的识别结果,然后综合当前时间之前的所有时间段的识别结果,通过统计各方向的可能性,给出当前时间总体定位结果。
图1粗略地给出了定位的总体过程,分为前面三层定位过程和最后的贝叶斯决策。对当前一个时间窗具体算法如下:
1)对当前时间窗内声源信号进行分帧、加窗处理,帧长为256个采样点,帧移为128个采样点,观测时间长度为2s;
2)按照上面训练阶段的三个公式分别估计双耳时间差、双耳能量差和双耳匹配滤波器的系数向量,图2展示了经典的GCC-PHAT估计得到的1250个方向上的平均双耳时间差,说明同一个转向角的不同俯仰角上的双耳时间差大致相同;图3给出了25个转向角上42个不同频带上的平均时间差,可以看出只有少数的低频带对时延估计是有贡献的,大部分的高频带的双耳时间差都被错误的估计为0了。图4展示了第一层初步筛选的候选集合,可以看出基于双耳时间差可以大大缩小定位的搜索空间,比如理论上声源如果位于-80°,那第一层确定的有可能的位置集合为{-80°,-65°,-55°,-45°,-40°,-35°}。图5给出了所有方向上的双耳能量差的分布,可以看出双耳能量差并没有随转向角或俯仰角呈单调函数关系,可以作为第二层的辅助定位手段。
3)双耳匹配滤波器的原理框图如图6所示,将左耳信号作为滤波器的输入,右耳信号作为滤波器的期望(参考)信号,按照最小均方误差准则可以设计出一组滤波器系数向量。图7是训练过程中得到的各个方向在设计滤波器时候产生的误差均值和方差。图8是基于双耳匹配滤波器的定位结果示意图,图中越亮的地方代表概率越大,假如声源的位置在(10,5),表示声源的方向为(-45°,5.625°),可以看出正好在(10,5)附近得到的概率最大。
4)对当前观测时间内各帧信号的定位结果进行统计,利用采用直方图的形式,出现次数最多的方向即被认为是声源所在的位置。
上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于该实例的内容。
Claims (10)
1.一种基于双耳匹配滤波器的双耳声音源定位方法,包括:
1)训练阶段,录制双耳声音源定位数据库,为双耳时间差、双耳能量差和双儿耳匹配滤波器建立模板,具体包括:
1-1)将定位空间按照转向角和俯仰角划分;
1-2)采用固定声源到坐标系中心距离,在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声音数据;
1-3)离线为每个方向上的双耳时间差、双耳能量差和双耳匹配滤波器建立模板,得到双耳时间差和双耳能量差的期望和方差;
2)在线定位阶段,当声源定位系统检测到有声音源发生,利用可靠频带选择机制选择可靠的频带,并计算得到双耳时间差、双耳能量差和双耳匹配滤波器的系数向量;
3)将步骤2)中得到的双耳时间差按转向角在模板中搜索匹配的方向作为候选区域,其次在此候选区域中搜索匹配的双耳能量差所对应的转向角和俯仰角,得到缩小的搜索空间,再基于前面得到的搜索空间计算每个方向上双耳匹配滤波器的相似度,最终采用贝叶斯分层的搜索策略得到候选区域里所有方向中概率最大的声音源的转向角和俯仰角,实现双耳声音源定位。
2.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤1)中,转向角采用非均匀的划分方法,俯仰角采用均匀划分的方式。
3.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤1)中,双耳时间差的方差是根据每个转向角上所有俯仰角的时间差统计得到;双耳能量差的均值和方差是针对每个方向进行多次训练测试,统计结果得到;所述模板包括:所有方向上的双耳时间差均值、方差和双耳能量差均值、方差,以及所有方向上的双耳匹配滤波器系数。
4.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤2)中,利用基于频带可靠性的广义互相关相位变换的方法计算所有方向上的双耳时间差,再分别按照对数能量比的方法计算双耳能量差和按照最优维纳滤波器的设计准则得到双耳匹配滤波器的系数向量。
5.如权利要求1所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤2)中,首先将双耳信号划分为K个频带,对于其中每个子频带m(m=1,2,…,K)的可靠性的定义方式为:
因此,bm是一个二值掩码标识该频带是否可靠的信息。
6.如权利要求1-5任一所述的基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,分别根据以下公式计算得到双耳时间差Δτm、双耳能量差ΔI(ω)和双耳滤波器的系数向量w,并统计相应的均值和方差:
w=R-1r(15)
公式(6)中,K表示频带数,m表示其中的每个子频带,Δτm根据求解(n)的峰值位置得到,
其中,(n)是GCC-PHAT函数,l表示左耳,r表示右耳,W(ω)为谱加权函数,Xl(ω),Xr(ω)分别表示左耳信号xl(n)和右耳信号xr(n)的离散傅里叶变换,G(ω)是双耳信号的互相关,ρ是由环境中的信噪比确定的混响因子,γ为一致性函数,*表示复共轭;
公式(9)中,Hl(ω),Hr(ω)分别为左耳信号和右耳信号的头相关传递函数;
公式(15)中,R表示输入信号的自相关矩阵,公式为:
其中,是滤波器输入信号为xl(n)时的自相关函数,M表示帧长,H表示共轭转置,*表示复共轭;
r表示滤波器输入信号与期望信号之间的互相关,公式为:
其中,为左右耳信号的互相关函数,xl(n)为左耳信号,xr(n)为右耳信号,M表示帧长,*表示复共轭。
7.如权利要求1所述的一种基于双耳匹配滤波器的双耳声音源定位方法,其特征在于,步骤3)中,两个方向上双耳匹配滤波器的相似度通过其双耳匹配滤波器系数向量的夹角余弦来衡量,定义为:
w1,w2分别表示由声源获得的双耳匹配滤波器系数向量和来自模板的滤波器系数向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410143474.1A CN103901401B (zh) | 2014-04-10 | 2014-04-10 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410143474.1A CN103901401B (zh) | 2014-04-10 | 2014-04-10 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103901401A true CN103901401A (zh) | 2014-07-02 |
CN103901401B CN103901401B (zh) | 2016-08-17 |
Family
ID=50992851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410143474.1A Expired - Fee Related CN103901401B (zh) | 2014-04-10 | 2014-04-10 | 一种基于双耳匹配滤波器的双耳声音源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103901401B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104284286A (zh) * | 2013-07-04 | 2015-01-14 | Gn瑞声达A/S | 个体hrtf的确定 |
CN104573652A (zh) * | 2015-01-04 | 2015-04-29 | 华为技术有限公司 | 确定人脸图像中人脸的身份标识的方法、装置和终端 |
CN106125048A (zh) * | 2016-07-11 | 2016-11-16 | 浙江大华技术股份有限公司 | 一种声源定位方法及装置 |
CN106405501A (zh) * | 2015-07-29 | 2017-02-15 | 中国科学院声学研究所 | 一种基于相位差回归的单声源定位方法 |
CN106501772A (zh) * | 2016-10-18 | 2017-03-15 | 武汉轻工大学 | 一种基于双耳线索的空间音源定位方法及系统 |
CN106526578A (zh) * | 2016-12-19 | 2017-03-22 | 中国电子科技集团公司第二十研究所 | 基于蝙蝠双耳定位模型的水下目标方位估计方法 |
CN106768284A (zh) * | 2016-12-20 | 2017-05-31 | 西安科技大学 | 一种异常声源判断与定位系统及方法 |
CN106908775A (zh) * | 2017-03-08 | 2017-06-30 | 同济大学 | 一种基于激光反射强度的无人车实时定位方法 |
CN107113516A (zh) * | 2014-12-22 | 2017-08-29 | Gn瑞声达A/S | 扩散噪声收听 |
CN107144818A (zh) * | 2017-03-21 | 2017-09-08 | 北京大学深圳研究生院 | 基于双向双耳匹配滤波器加权融合的双耳声源定位方法 |
WO2018006797A1 (zh) * | 2016-07-05 | 2018-01-11 | 深圳大学 | 利用声音信号检测键盘敲击内容的系统及方法 |
CN107948856A (zh) * | 2017-12-15 | 2018-04-20 | 浙江大华技术股份有限公司 | 一种录播主机、声源测向的方法及装置 |
CN108122559A (zh) * | 2017-12-21 | 2018-06-05 | 北京工业大学 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
CN108229030A (zh) * | 2018-01-05 | 2018-06-29 | 北京安声科技有限公司 | 一种主动降噪系统控制器参数的设计方法 |
CN109741763A (zh) * | 2019-02-25 | 2019-05-10 | 厦门盈趣汽车电子有限公司 | 一种具有分贝检测功能的可穿戴设备 |
CN110133594A (zh) * | 2018-02-09 | 2019-08-16 | 北京搜狗科技发展有限公司 | 一种声源定位方法、装置和用于声源定位的装置 |
CN110940951A (zh) * | 2018-09-25 | 2020-03-31 | 北京四维图新科技股份有限公司 | 定位方法及设备 |
CN111707990A (zh) * | 2020-08-19 | 2020-09-25 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN112731289A (zh) * | 2020-12-10 | 2021-04-30 | 深港产学研基地(北京大学香港科技大学深圳研修院) | 一种基于加权模板匹配的双耳声源定位方法和装置 |
CN113449255A (zh) * | 2021-06-15 | 2021-09-28 | 电子科技大学 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10102194A1 (de) * | 2000-01-18 | 2001-08-30 | Florian Meinhard Koenig | Verfahren zur Festlegung der Ortbarkeit eines per Kopfhörer übertragenen Schallereignisses |
CN1703118A (zh) * | 2004-05-26 | 2005-11-30 | 本田研究所欧洲有限公司 | 基于立体声信号的声源定位 |
CN102565759A (zh) * | 2011-12-29 | 2012-07-11 | 东南大学 | 一种基于子带信噪比估计的双耳声源定位方法 |
CN103475974A (zh) * | 2012-06-06 | 2013-12-25 | 西门子医疗器械公司 | 用于聚焦助听器的波束形成器的方法 |
-
2014
- 2014-04-10 CN CN201410143474.1A patent/CN103901401B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10102194A1 (de) * | 2000-01-18 | 2001-08-30 | Florian Meinhard Koenig | Verfahren zur Festlegung der Ortbarkeit eines per Kopfhörer übertragenen Schallereignisses |
CN1703118A (zh) * | 2004-05-26 | 2005-11-30 | 本田研究所欧洲有限公司 | 基于立体声信号的声源定位 |
CN102565759A (zh) * | 2011-12-29 | 2012-07-11 | 东南大学 | 一种基于子带信噪比估计的双耳声源定位方法 |
CN103475974A (zh) * | 2012-06-06 | 2013-12-25 | 西门子医疗器械公司 | 用于聚焦助听器的波束形成器的方法 |
Non-Patent Citations (1)
Title |
---|
李晓飞 等: "机器人听觉声源定位研究综述", 《智能系统学报》, 29 February 2012 (2012-02-29) * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10466334B2 (en) | 2006-07-11 | 2019-11-05 | Zhejiang Dahua Technology Co., Ltd. | Methods and systems for sound source locating |
CN104284286A (zh) * | 2013-07-04 | 2015-01-14 | Gn瑞声达A/S | 个体hrtf的确定 |
CN104284286B (zh) * | 2013-07-04 | 2019-01-04 | Gn瑞声达A/S | 个体hrtf的确定 |
CN107113516A (zh) * | 2014-12-22 | 2017-08-29 | Gn瑞声达A/S | 扩散噪声收听 |
CN107113516B (zh) * | 2014-12-22 | 2018-11-06 | Gn瑞声达A/S | 扩散噪声收听 |
US10402627B2 (en) | 2015-01-04 | 2019-09-03 | Huawei Technologies Co., Ltd. | Method and apparatus for determining identity identifier of face in face image, and terminal |
CN104573652B (zh) * | 2015-01-04 | 2017-12-22 | 华为技术有限公司 | 确定人脸图像中人脸的身份标识的方法、装置和终端 |
CN104573652A (zh) * | 2015-01-04 | 2015-04-29 | 华为技术有限公司 | 确定人脸图像中人脸的身份标识的方法、装置和终端 |
CN106405501B (zh) * | 2015-07-29 | 2019-05-17 | 中国科学院声学研究所 | 一种基于相位差回归的单声源定位方法 |
CN106405501A (zh) * | 2015-07-29 | 2017-02-15 | 中国科学院声学研究所 | 一种基于相位差回归的单声源定位方法 |
WO2018006797A1 (zh) * | 2016-07-05 | 2018-01-11 | 深圳大学 | 利用声音信号检测键盘敲击内容的系统及方法 |
US10816634B2 (en) | 2016-07-11 | 2020-10-27 | Zhejiang Dahua Technology Co., Ltd. | Methods and systems for sound source locating |
CN106125048A (zh) * | 2016-07-11 | 2016-11-16 | 浙江大华技术股份有限公司 | 一种声源定位方法及装置 |
CN106501772B (zh) * | 2016-10-18 | 2018-12-14 | 武汉轻工大学 | 一种基于双耳线索的空间音源定位方法及系统 |
CN106501772A (zh) * | 2016-10-18 | 2017-03-15 | 武汉轻工大学 | 一种基于双耳线索的空间音源定位方法及系统 |
CN106526578A (zh) * | 2016-12-19 | 2017-03-22 | 中国电子科技集团公司第二十研究所 | 基于蝙蝠双耳定位模型的水下目标方位估计方法 |
CN106768284A (zh) * | 2016-12-20 | 2017-05-31 | 西安科技大学 | 一种异常声源判断与定位系统及方法 |
CN106768284B (zh) * | 2016-12-20 | 2021-04-20 | 西安科技大学 | 一种异常声源判断与定位系统及方法 |
CN106908775B (zh) * | 2017-03-08 | 2019-10-18 | 同济大学 | 一种基于激光反射强度的无人车实时定位方法 |
CN106908775A (zh) * | 2017-03-08 | 2017-06-30 | 同济大学 | 一种基于激光反射强度的无人车实时定位方法 |
CN107144818A (zh) * | 2017-03-21 | 2017-09-08 | 北京大学深圳研究生院 | 基于双向双耳匹配滤波器加权融合的双耳声源定位方法 |
CN107948856A (zh) * | 2017-12-15 | 2018-04-20 | 浙江大华技术股份有限公司 | 一种录播主机、声源测向的方法及装置 |
CN108122559B (zh) * | 2017-12-21 | 2021-05-14 | 北京工业大学 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
CN108122559A (zh) * | 2017-12-21 | 2018-06-05 | 北京工业大学 | 一种数字助听器中基于深度学习的双耳声源定位方法 |
CN108229030A (zh) * | 2018-01-05 | 2018-06-29 | 北京安声科技有限公司 | 一种主动降噪系统控制器参数的设计方法 |
CN108229030B (zh) * | 2018-01-05 | 2021-07-02 | 北京安声科技有限公司 | 一种主动降噪系统控制器参数的设计方法 |
CN110133594A (zh) * | 2018-02-09 | 2019-08-16 | 北京搜狗科技发展有限公司 | 一种声源定位方法、装置和用于声源定位的装置 |
CN110133594B (zh) * | 2018-02-09 | 2023-04-28 | 北京搜狗科技发展有限公司 | 一种声源定位方法、装置和用于声源定位的装置 |
CN110940951A (zh) * | 2018-09-25 | 2020-03-31 | 北京四维图新科技股份有限公司 | 定位方法及设备 |
CN109741763A (zh) * | 2019-02-25 | 2019-05-10 | 厦门盈趣汽车电子有限公司 | 一种具有分贝检测功能的可穿戴设备 |
CN111707990B (zh) * | 2020-08-19 | 2021-05-14 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN111707990A (zh) * | 2020-08-19 | 2020-09-25 | 东南大学 | 一种基于密集卷积网络的双耳声源定位方法 |
CN112731289A (zh) * | 2020-12-10 | 2021-04-30 | 深港产学研基地(北京大学香港科技大学深圳研修院) | 一种基于加权模板匹配的双耳声源定位方法和装置 |
CN112731289B (zh) * | 2020-12-10 | 2024-05-07 | 深港产学研基地(北京大学香港科技大学深圳研修院) | 一种基于加权模板匹配的双耳声源定位方法和装置 |
CN113449255A (zh) * | 2021-06-15 | 2021-09-28 | 电子科技大学 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103901401B (zh) | 2016-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103901401A (zh) | 一种基于双耳匹配滤波器的双耳声音源定位方法 | |
Liu et al. | Wavoice: A noise-resistant multi-modal speech recognition system fusing mmwave and audio signals | |
US20220159403A1 (en) | System and method for assisting selective hearing | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN102074236B (zh) | 一种分布式麦克风的说话人聚类方法 | |
Nakadai et al. | Applying scattering theory to robot audition system: Robust sound source localization and extraction | |
CN109839612A (zh) | 基于时频掩蔽和深度神经网络的声源方向估计方法 | |
Jin et al. | A supervised learning approach to monaural segregation of reverberant speech | |
Roman et al. | Binaural tracking of multiple moving sources | |
CN110517705B (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 | |
CN103901400B (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
CN107144818A (zh) | 基于双向双耳匹配滤波器加权融合的双耳声源定位方法 | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
CN103650537B (zh) | 采用分解器产生输出信号的装置和方法 | |
CN110491403A (zh) | 音频信号的处理方法、装置、介质和音频交互设备 | |
CN102565759B (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
CN106483502B (zh) | 一种声源定位方法及装置 | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
Wan et al. | Sound source localization based on discrimination of cross-correlation functions | |
CN102103200A (zh) | 一种分布式非同步声传感器的声源空间定位方法 | |
Liu et al. | Continuous sound source localization based on microphone array for mobile robots | |
CN109658949A (zh) | 一种基于深度神经网络的语音增强方法 | |
CN110333484B (zh) | 基于环境背景声感知与分析的室内区域级定位方法 | |
CN110838303B (zh) | 一种利用传声器阵列的语音声源定位方法 | |
Plinge et al. | Online multi-speaker tracking using multiple microphone arrays informed by auditory scene analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160817 |
|
CF01 | Termination of patent right due to non-payment of annual fee |