CN105575403A - 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法 - Google Patents

一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法 Download PDF

Info

Publication number
CN105575403A
CN105575403A CN201510990289.0A CN201510990289A CN105575403A CN 105575403 A CN105575403 A CN 105575403A CN 201510990289 A CN201510990289 A CN 201510990289A CN 105575403 A CN105575403 A CN 105575403A
Authority
CN
China
Prior art keywords
auditory
cross
masking
correlation
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510990289.0A
Other languages
English (en)
Inventor
张毅
徐晓东
萧红
罗久飞
黄超
苏祖强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201510990289.0A priority Critical patent/CN105575403A/zh
Publication of CN105575403A publication Critical patent/CN105575403A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Abstract

本发明请求保护一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法,涉及语音识别控制领域。本发明在鲁棒性方面,针对传统基于双耳互相关的声源定位方法在噪声环境下声源定位精度下降,提出把听觉掩蔽的听觉特性引入谱减法中,能够较好地抑制音乐噪声,可以把基于听觉掩蔽的谱减法作为双耳定位的前端处理,这将有利于广义互相关提取双耳时间差,从而提高声源定位系统在噪声环境下的声源定位精度;在双耳互相关声源定位方法的改进上,针对“耳廓效应”和“优先效应”对声源定位的影响较大,提出基于双耳信号帧的互相关声源定位方法,该方法可以减少“耳廓效应”和“优先效应”所带来的定位误差,从而提高声源定位精度。

Description

一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
技术领域
本发明属于双耳信号的声源定位领域,具体涉及声源定位系统中的抗噪和双耳互相关声源定位方法的改进。
背景技术
在现实生活中,人们的谈话场景通常存在多个声源、背景噪声以及回响,但是人耳听觉系统能够有效的识别和定位出感兴趣的声源信号,这种现象被称为“鸡尾酒会效应”。这种现象经常出现在鸡尾酒会上,两个客人可以在说话的一群人的旁边正常的交流,听者还可以根据感兴趣的语音信号判断出目标声源的方向,比如说听者在听到有人叫唤他的名字时会将头面向说话者。由此可以看出,人耳听觉系统可以从嘈杂的多声源环境中定位出目标声源的方向。
“鸡尾酒会效应”展示了人耳听觉系统强大的语音分离和定位功能,带动了研究人员对于多声源环境下声源定位技术的研究兴趣。随着听觉生理学、人工智能和语音识别技术的发展,声源定位技术越来越受到重视,很多国家为此投入更多的人力和物力来推动这一项研究。多声源环境下的声源定位技术不仅在基于语音的人-机交互以及助听器方面有着广泛的应用,而且还加深人类对人耳听觉中枢系统的研究。本课题主要研究多声源下声源定位技术,符合人类听觉特性,也使得其有更多实际的应用方向。
近年来,声源定位技术的研究价值得到科研人员的高度重视。这是因为与别的定位技术仔细相比,一些很好的优点也能在声源定位技术找到[1]。其一,声源定位技术在现实中受条件的限制比较少,实用性自然好。众所周知,声音是通过空气传播的,其传播过程并不受光线、温度以及障碍等因素的影响,所以在一些恶劣环境下,声源定位系统仍能正常工作。其二,声源定位技术在躲避侦查中隐蔽性很高,外界是无法侦测到声源定位系统的活动迹象,自然就能够保证声源定位系统位置的隐蔽性。其三,声源定位技术相对其他定位技术而言,其实现比较简单。因为声源定位技术采用的设备比激光、电磁波定位等技术更加简单便宜,实现也比较容易,因此声源定位技术的投资更加经济实惠,将更适合于推向民用。
另外,声源定位技术在日常生活和生产当中起到非常重要的作用。例如,在智能机器人研究中,研究人员希望智能机器人能够模拟人耳听觉系统,通过声源定位获取声源的方向信息,将有助于智能机器人对声源的实时跟踪,提高智能机器人的人-机交互和语音识别能力;在语音增强的研究当中,为了抑制噪声干扰,利用声源定位技术得到声源的位置信息,然后调整麦克风面向声源位置,从而就可以增强声源的声音强度;在助听器的研究中,传统助听器引入声源定位技术,将进一步帮助听觉障碍者恢复正常的听觉能力;在电视电话会议中,为了让说话人的画面更加清晰,声源定位技术可以获取说话人的位置信息,并且利用说话人的位置信息引导摄像头转向说话人;在军事领域中,具有代表性的海军舰船和潜艇的声呐系统都采用了声源定位系统,主要是用来监视海水下面运动的物体,获得目标物体的位置、航向、航速等信息,然后对其进行声源定位与跟踪;在安防系统的应用中,最常用的是视频监控,而人们生活所用到的视频监控系统一般都有不足的方面,可是声源定位技术能够很大程度上解决这些问题,比如说在光线不足的环境下,摄像头无法监控到周围的所有地方的目标,而声源定位系统能够监控所有地方,只要发现可疑的声音就可以马上通知监控人员。
综上所述,声源定位技术起源于人们对于人耳听觉特性的研究,因此它通过模拟人耳听觉系统实现对声源方向的定位功能,在人工智能、语音识别以及助听器方面有着重要的研究意义和实用价值。
发明内容
本发明所要解决的技术问题是,在鲁棒性方面,针对传统基于双耳互相关的声源定位方法在噪声环境下声源定位精度下降,提出把听觉掩蔽的听觉特性引入谱减法中,能够较好地抑制音乐噪声,可以把基于听觉掩蔽的谱减法作为双耳定位的前端处理,这将有利于广义互相关提取双耳时间差,从而提高声源定位系统在噪声环境下的声源定位精度;在双耳互相关声源定位方法的改进上,针对“耳廓效应”和“优先效应”对声源定位的影响较大,提出基于双耳信号帧的互相关声源定位方法,该方法可以减少“耳廓效应”和“优先效应”所带来的定位误差,从而提高声源定位精度。提出了一种提高声源定位系统在噪声环境下的声源定位精度的融合听觉掩蔽与双耳信号帧的互相关声源定位方法。。本发明的技术方案如下:一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其包括以下步骤:
101、建立基于双耳信号的声源定位模型,包括:扬声器、人工头、两个麦克风和一个用于信号处理的笔记本电脑,扬声器发出声音,人工头的耳道内的两个麦克风用于接收声源信号,并且将左耳和右耳的声音信号录取下来传输给笔记本电脑,笔记本电脑用于进行信号处理;
102、麦克风获取语音信号,先对语音信号进行听觉掩蔽谱减法处理;
103、然后采用基于双耳信号帧的声源定位方法对双耳信号进行分帧,再对每对信号帧采用双耳互相关声源定位方法计算,其次通过设定方位角度阈值,除去偏差较大的方位角度,获取声源方位角度。。
进一步的,步骤102听觉掩蔽谱减法具体为:在计算听觉掩蔽值之前,首先求得临界带宽的功率谱、扩展临界带宽的功率谱以及噪声掩蔽扩展门限,然后把噪声掩蔽扩展门限与人耳听觉的设定绝对门限值进行对比,听觉掩蔽阈值就是它们之中的最大值。
进一步的,所述临界带宽的表达式如下:
Z=26.18f/(1960+f)-0.53
其中,Z表示临界带宽编号,f表示频率。
进一步的,所述扩展临界带宽的功率谱在式中,P(k)为信号快速傅立叶变换的功率谱,li和hi分别表示第i个临界带宽的最小频率和最大频率,i在[1,imax]的范围内,并且语音信号的采样频率决定imax
进一步的,计算出噪声掩蔽阈值后,利用噪声掩蔽阈值和自适应的谱减法系数,得到两个谱减法系数,再结合Berouti提出的改进谱减法的方法,得到听觉掩蔽谱减法表达式。
进一步的,步骤103具体为:假设左耳信号和右耳信号分别为:xl(t)和xr(t),经过分帧后成为长度相同的语音信号帧,令左耳信号xl(t)和右耳信号xr(t)在时间上相对应的语音信号帧分别为然后,先对双耳信号进行时间延迟估计,利用广义互相关时延方法求出双耳时间差ITD,然后根据双耳时间差的几何模型,得到声源方向角度θk
进一步的,还包括过滤方位角度的步骤:设定一个过滤角度阈值,将误差大于过滤角度阈值的方位角度除去,把剩余方位角度的平均值作为最终声源定位的方位角度,求取剩余方位角度的平均值从而计算得到声源定位的方位角度。
本发明的优点及有益效果如下:
本发明在鲁棒性方面,针对传统基于双耳互相关的声源定位方法在噪声环境下声源定位精度下降,提出把听觉掩蔽的听觉特性引入谱减法中,能够较好地抑制音乐噪声,可以把基于听觉掩蔽的谱减法作为双耳定位的前端处理,这将有利于广义互相关提取双耳时间差,从而提高声源定位系统在噪声环境下的声源定位精度;在双耳互相关声源定位方法的改进上,针对“耳廓效应”和“优先效应”对声源定位的影响较大,提出基于双耳信号帧的互相关声源定位方法,该方法可以减少“耳廓效应”和“优先效应”所带来的定位误差,从而提高声源定位精度。
附图说明
图1是本发明提供优选实施例一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法原理图;
图2谱减法原理图;
图3双耳互相关的声源定位方法原理图;
图4基于双耳信号帧的声源定位方法原理图。
具体实施方式
以下结合附图,对本发明作进一步说明:
如图1所示,为了提高双耳声源定位方法在噪声环境下的定位精度,本发明主要从两个方面进行研究:一是将基于听觉掩蔽的谱减法作为声源定位系统的预处理。在噪声环境下,两个双耳语音信号先经过基于听觉掩蔽的谱减法进行语音增强,减少了双耳信号中噪声的干扰;二是对传统双耳互相关的声源定位方法的改进,对左耳和右耳信号进行分帧处理,然后对每对信号帧采用传统的基于双耳的互相关声源定位方法,将会得到多个不同的声源方位角度。其中,大部分方位角度比较集中,但是由于受到,部分方位角度离平均角度相差很大,被视为存在干扰的方位角度。通过设置一个合理方位角度阈值,除去误差较大的定位角度,把剩余方位角度的平均值作为最终声源定位的方位角度。
①将基于听觉掩蔽的谱减法
如图2所示,s(t)表示纯净语音信号,n(t)为噪声信号,y(t)表示含有噪声的语音信号。于是,含有噪声的语音信号可以表示为:
y(t)=s(t)+n(t)(1)
上式经过快速傅里叶变换之后的表达式如下:
Yk=Sk+Nk(2)
上式的功率谱密度的表达式为:
| Y k | 2 = | S k | 2 + | N k | 2 + S k N k * + S k * N k - - - ( 3 )
因为纯净语音信号和噪声是相互独立的,并且噪声是以Nk为零均值的高斯分布,所以上式可转化为:
E[|Yk|2]=E[|Sk|2]+E[|Nk|2](4)
又因为每一帧的语音具有短时平稳性,表达式可表示为:
|Yk|2=|Sk|2n(k)(5)
其中,λn(k)表示无语音信号时|Nk|2的统计平均值,那么原始语音信号的估计为:
| S ^ k | = [ | Y k | 2 - | N k | 2 ] 1 2 = [ | Y k | 2 - λ n ( k ) ] 1 2 - - - ( 6 )
将上式(6)写成增益形式为:
| S ^ k | = G k | Y k | - - - ( 7 )
Gk=(1-1/γk)1/2(8)
其中,γk表示后验信噪比,表达式如下:
γk=|Yk|2n(k)(9)
式(9)中,当γk小于1时,Gk为虚数,将失去意义。为此,把上式(9)改写成为:
Gk=max(ε,(1-1/γk)1/2)(10)
其中,ε为大于零的常数。
一般说来,含有噪声的语音信号经过谱减法处理之后会产生新类型的噪声。这种残留噪声具有节奏起伏感,被称为“音乐噪声”。在谱减法处理过程中,首先要估计出语音信号中的噪声,通常是由不含语音信号的信号帧分析和统计得到的,再加上噪声频谱具有服从高斯分布的特性,也就是噪声的幅度变化范围很大,因此当某帧的语音信号含有很大幅度的噪声时,运用谱减法估计出的纯净语音信号在频谱上会产生随机的波峰,人们仔细听起来像很有节奏的“音乐噪声”。
在计算听觉掩蔽之前,首先要求得临界带宽的功率谱、扩展临界带宽的功率谱以及噪声掩蔽扩展门限。然后把噪声掩蔽扩展门限与人耳听觉的绝对门限进行对比,听觉掩蔽阈值就是它们之中的最大值。
人们通过实验得到了真实的人耳临界带宽,该表展示了24个临界带宽的中心频率、编号以及频率范围。划分临界带宽的表达式如下:
Z=26.18f/(1960+f)-0.53(11)
其中,Z表示临界带宽编号,f表示频率。
每个临界带宽的功率谱是通过对每个临界带宽内的功率谱求和得到的。设P(k)为信号快速傅里叶变换的功率谱,则每个临界带宽的功率谱为:
B i = Σ k = l i h i P ( k ) - - - ( 12 )
在式(12)中,li和hi分别表示第i个临界带宽的最小频率和最大频率,i在[1,imax]的范围内,并且语音信号的采样频率决定imax
研究表明,人耳的各个临界带宽之间存在相互掩蔽效应,而且随着临界带宽距离的增大,这种掩蔽效应相应的减弱。于是,人们开始用一种扩展形式表示临界带宽之间的相互掩蔽作用,并且将临界带宽功率谱转换为扩展临界带宽功率谱。为了很好地表示这个生理现象,用扩展函数SFij来表示不同临界带宽之间的掩蔽效应作用,表达式如下:
SF i j = 15.81 + 7.5 ( i - j + 0.747 ) - 17.5 ( 1 + ( i - j + 0.747 ) 2 ) 1 2 - - - ( 13 )
然后,将每个临界带宽的功率谱转换成扩展临界带宽的功率谱,扩展临界带宽的功率谱的计算表达式如下:
Ci=SFij*Bj(14)
其中,“*”表示卷积运算,Ci为第i个扩展临界带宽的功率谱。
在一般情况下,存在两种类型的噪声掩蔽阈值:一种是纯音掩蔽噪声的噪声掩蔽阈值,另一种是噪声掩蔽纯音的噪声掩蔽阈值。为了确定信号是属于哪种类型的噪声掩蔽阈值,一般通过计算谱平坦测度(SpectralFlatnessMeasure,SFM)来确定,谱平坦测度的表达式如下:
S F M ( i ) = 10 log 10 Gm i Am i - - - ( 15 )
其中,Gmi和Ami分别是第i个扩展临界宽带功率的几何平均值和算术平均值。
Gm i = ( Π k = l i h i P ( k ) ) 1 h i + l i + 1 - - - ( 16 )
Am i = 1 h i - l i + 1 [ Σ k = l i h i P ( k ) ] - - - ( 17 )
接下来,用参数α表示语音信号功率谱的浊音程度,通过SFM的值来计算该参数,表达式如下:
α = m i n ( S F M ( i ) SFM m a x , 1 ) - - - ( 18 )
其中,SFMmax=-60dB。当SFM(i)=0dB时,α=0表示语音信号完全是噪声;当SFM(i)=-60dB时,α=1表示语音信号完全是纯音。但事实上实际的语音信号既不完全噪声,也不完全是纯音。因此,参数α是介于0到1之间。
利用参数α计算相对的掩蔽阈值移量,表达式如下:
Oi=αi×(14.5+i)+(1-αi)×5.5(19)
将噪声掩蔽阈值再扩展到各频谱上,得到扩展噪声掩蔽阈值表达式如下:
TSF i = 10 log 10 ( C l ) - ( O i / 10 ) - - - ( 20 )
最终的噪声掩蔽阈值,也就是听觉掩蔽阈值,表达式如下:
T = m a x { T a b s ( i ) , TSF i Σ j = 1 i max SF i j } - - - ( 21 )
其中,Tabs(i)表示绝对听阈值,由非线性函数求得,表达式如下:
T a b s ( i ) = 3.64 × ( f / 1000 ) 0.8 - 6.5 e - 0.6 ( f / 1000 - 3.3 ) 2 + 10 - 3 × ( f / 1000 ) 4 - - - ( 23 )
其中,f表示信号频率。
计算出噪声掩蔽阈值后,利用噪声掩蔽阈值和自适应的谱减法系数,表达式如下:
T m a x - T i α ( k ) - α m i n = T i - T min α max - α ( k ) - - - ( 24 )
T m a x - T i β ( k ) - β m i n = T i - T m i n β m a x - β ( k ) - - - ( 25 )
其中,Ti表示第i频率段的听觉掩蔽阈值,Tmax和Tmin是每一帧语音信号的听觉掩蔽阈值的最大值和最小值。通过分析表达式,得到两个谱减法系数:
α ( k ) = ( T m a x - T i ) ( α m a x - α m i n ) T max - T m i n + α m i n - - - ( 26 )
β ( k ) = ( T m a x - T i ) ( β m a x - β min ) T max - T m i n + β m i n - - - ( 27 )
其中,αmin=1,αmax=6,βmin=0以及βmax=0.02。再结合Berouti等人提出的方法,表达式(10)的增益函数可以转换成如下表达式:
其中,γ=2。
②基于双耳信号帧的声源定位方法
在人工头中,左耳和右耳都设置一个麦克风,接收到声源的语音信号分别可以用HRTF来表示,表达式如下:
xl(t)=s(t)*hl(θ,t)+n1(t)(29)
xr(t)=s(t)*hr(θ,t)+n2(t)(30)
其中,“*”表示卷积,s(t)表示声源信号,hl(θ,t)和hr(θ,t)表示在水平方位上左耳和右耳的响应函数,这是已经测量得到的,n1(t)和n2(t)表示左耳和右耳信号混入的噪声。
假设左耳信号和右耳信号分别为:xl(t)和xr(t),经过分帧后成为长度相同的语音信号帧。令左耳信号xl(t)和右耳信号xr(t)在时间上相对应的语音信号帧分别为然后,根据基于双耳信号帧的声源定位原理如图4所示,利用双耳互相关的声源定位方法对每对语音信号帧进行声源定位,双耳互相关的声源定位方法的原理如图3所示,先对双耳信号进行时间延迟估计,将双耳信号进行广义互相关函数计算表示如下:
R x l k x r k ( τ k ) = E ( x l k ( t ) x r k ( t - τ k ) ) - - - ( 31 )
其中,t表示时间,τ表示双耳信号的时延时间。互相关函数与互功率谱的关系表示为:
R x l k x r k ( τ k ) = ∫ - ∞ ∞ G x l k x r k ( f ) e j 2 πfτ k dfτ k - - - ( 32 )
其中,假设噪声是不相关的,互相关函数将是个单脉冲信号,估计出的时延表示为:
τ k = arg max τ k R x l k x r k ( τ k ) - - - ( 33 )
其中,表示的互相关函数,τk表示时延估计。
利用广义互相关时延方法可以求出ITD,然后根据双耳时间差的几何模型,只要计算出ITD,就可以得到声源方向角度θk,ITD的双耳几何模型表示为:
Δ T ( θ k ) = r sinθ k + θ k c - - - ( 34 )
其中,ΔT(θ)表示ITD,r表示声源与人工头的距离,c表示声音的传输速度。已知r=1.4m,c=344m/s。
由表达式(33)得出,每对语音信号帧的时延就是双耳时间差ITD。根据双耳时间差模型,就可以计算出每对语音信号帧的声源方位角度。下一步就是过滤方位角度。由于这些方位角度有部分误差较大的方位角度,通过设定一个阈值,将误差较大的方位角度除去,把剩余方位角度的平均值作为最终声源定位的方位角度,表达式(35)、(36)、(37)、(38)如下:
θ ‾ = Σ k = 1 n θ k - - - ( 35 )
θ m i n = θ ‾ - α - - - ( 36 )
θ m a x = θ ‾ + α - - - ( 37 )
其中,表示平均值,α表示方位角度阈值,θmin和θmax分别表示方位角度θk的最大值和最小值,n表示帧数,k表示第k帧,h表示最大帧数,b表示最小帧数。通过公式(35)求出所有声源方位角度的平均值然后公式(36)和(37)确定方位角度θk的大小范围,也就是方位角度的有效范围,最后由公式(38)求取剩余方位角度的平均值从而计算得到声源定位的方位角度。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,包括以下步骤:
101、建立基于双耳信号的声源定位模型,包括:扬声器、人工头、两个麦克风和一个用于信号处理的笔记本电脑,扬声器发出声音,人工头的耳道内的两个麦克风用于接收声源信号,并且将左耳和右耳的声音信号录取下来传输给笔记本电脑,笔记本电脑用于进行信号处理;
102、麦克风获取语音信号,先对语音信号进行听觉掩蔽谱减法处理;
103、然后采用基于双耳信号帧的声源定位方法对双耳信号进行分帧,再对每对信号帧采用双耳互相关声源定位方法计算,其次通过设定方位角度阈值,除去偏差较大的方位角度,获取声源方位角度。
2.根据权利要求1所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,步骤102听觉掩蔽谱减法具体为:在计算听觉掩蔽值之前,首先求得临界带宽的功率谱、扩展临界带宽的功率谱以及噪声掩蔽扩展门限,然后把噪声掩蔽扩展门限与人耳听觉的设定绝对门限值进行对比,听觉掩蔽阈值就是它们之中的最大值。
3.根据权利要求2所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,所述临界带宽的表达式如下:
Z=26.18f/(1960+f)-0.53
其中,Z表示临界带宽编号,f表示频率。
4.根据权利要求3所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,所述扩展临界带宽的功率谱在式中,P(k)为信号快速傅里叶变换的功率谱,li和hi分别表示第i个临界带宽的最小频率和最大频率,i在[1,imax]的范围内,并且语音信号的采样频率决定imax
5.根据权利要求3所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,计算出噪声掩蔽阈值后,利用噪声掩蔽阈值和自适应的谱减法系数,得到两个谱减法系数,再结合Berouti提出的改进谱减法的方法,得到听觉掩蔽谱减法表达式。
6.根据权利要求1所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,步骤103具体为:假设左耳信号和右耳信号分别为:xl(t)和xr(t),经过分帧后成为长度相同的语音信号帧,令左耳信号xl(t)和右耳信号xr(t)在时间上相对应的语音信号帧分别为然后,先对双耳信号进行时间延迟估计,利用广义互相关时延方法求出双耳时间差ITD,然后根据双耳时间差的几何模型,得到声源方向角度θk
7.根据权利要求6所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法,其特征在于,还包括过滤方位角度的步骤:设定一个过滤角度阈值,将误差大于过滤角度阈值的方位角度除去,把剩余方位角度的平均值作为最终声源定位的方位角度,求取剩余方位角度的平均值从而计算得到声源定位的方位角度。
CN201510990289.0A 2015-12-25 2015-12-25 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法 Pending CN105575403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510990289.0A CN105575403A (zh) 2015-12-25 2015-12-25 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510990289.0A CN105575403A (zh) 2015-12-25 2015-12-25 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法

Publications (1)

Publication Number Publication Date
CN105575403A true CN105575403A (zh) 2016-05-11

Family

ID=55885454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510990289.0A Pending CN105575403A (zh) 2015-12-25 2015-12-25 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法

Country Status (1)

Country Link
CN (1) CN105575403A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526578A (zh) * 2016-12-19 2017-03-22 中国电子科技集团公司第二十研究所 基于蝙蝠双耳定位模型的水下目标方位估计方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107885323A (zh) * 2017-09-21 2018-04-06 南京邮电大学 一种基于机器学习的vr场景沉浸控制方法
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN109327794A (zh) * 2018-11-01 2019-02-12 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109977724A (zh) * 2017-12-27 2019-07-05 中国科学院声学研究所 一种水下目标分类方法
CN110225432A (zh) * 2019-05-10 2019-09-10 中国船舶重工集团公司第七一五研究所 一种声纳目标立体收听方法
CN110858485A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 语音增强方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102706342A (zh) * 2012-05-31 2012-10-03 重庆邮电大学 一种智能移动机器人的定位与环境建模方法
CN103824564A (zh) * 2014-03-17 2014-05-28 上海申磬产业有限公司 一种电动轮椅语音识别过程中的语音增强方法
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN104053107A (zh) * 2014-06-06 2014-09-17 重庆大学 用于噪声环境下声源分离和定位的助听装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102706342A (zh) * 2012-05-31 2012-10-03 重庆邮电大学 一种智能移动机器人的定位与环境建模方法
CN103824564A (zh) * 2014-03-17 2014-05-28 上海申磬产业有限公司 一种电动轮椅语音识别过程中的语音增强方法
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
CN104053107A (zh) * 2014-06-06 2014-09-17 重庆大学 用于噪声环境下声源分离和定位的助听装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗元: ""一种结合听觉掩蔽与双耳互相关的声源定位算法"", 《计算机应用于软件》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526578A (zh) * 2016-12-19 2017-03-22 中国电子科技集团公司第二十研究所 基于蝙蝠双耳定位模型的水下目标方位估计方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
CN107885323A (zh) * 2017-09-21 2018-04-06 南京邮电大学 一种基于机器学习的vr场景沉浸控制方法
CN107942290A (zh) * 2017-11-16 2018-04-20 东南大学 基于bp神经网络的双耳声源定位方法
CN107942290B (zh) * 2017-11-16 2019-10-11 东南大学 基于bp神经网络的双耳声源定位方法
CN109977724A (zh) * 2017-12-27 2019-07-05 中国科学院声学研究所 一种水下目标分类方法
CN109977724B (zh) * 2017-12-27 2021-05-18 中国科学院声学研究所 一种水下目标分类方法
CN110858485A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 语音增强方法、装置、设备及存储介质
CN109327794A (zh) * 2018-11-01 2019-02-12 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN110225432A (zh) * 2019-05-10 2019-09-10 中国船舶重工集团公司第七一五研究所 一种声纳目标立体收听方法

Similar Documents

Publication Publication Date Title
CN105575403A (zh) 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
EP1818909B1 (en) Voice recognition system
CN111833896B (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN108877827A (zh) 一种语音增强交互方法及系统、存储介质及电子设备
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
Raykar et al. Speaker localization using excitation source information in speech
CN108109617A (zh) 一种远距离拾音方法
CN102438189A (zh) 基于双通路声信号的声源定位方法
Ince et al. Assessment of general applicability of ego noise estimation
CN109031200A (zh) 一种基于深度学习的声源空间方位检测方法
Pertilä et al. Time Difference of Arrival Estimation with Deep Learning–From Acoustic Simulations to Recorded Data
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN109862498A (zh) 一种基于卷积神经网络的数字助听器声源定向方法
Stern et al. Binaural and multiple-microphone signal processing motivated by auditory perception
CN113345421B (zh) 一种基于角度谱特征的多通道远场的目标语音识别方法
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
CN108257607B (zh) 一种多通道语音信号处理方法
CN112731289B (zh) 一种基于加权模板匹配的双耳声源定位方法和装置
Habib et al. Auditory inspired methods for localization of multiple concurrent speakers
Peng et al. Sound Source Localization Based on Convolutional Neural Network
Youssef et al. Binaural speaker recognition for humanoid robots

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511

RJ01 Rejection of invention patent application after publication