CN1212609C - 基于人耳听觉特性的语音信号时间延迟估计方法 - Google Patents

基于人耳听觉特性的语音信号时间延迟估计方法 Download PDF

Info

Publication number
CN1212609C
CN1212609C CNB2003101134838A CN200310113483A CN1212609C CN 1212609 C CN1212609 C CN 1212609C CN B2003101134838 A CNB2003101134838 A CN B2003101134838A CN 200310113483 A CN200310113483 A CN 200310113483A CN 1212609 C CN1212609 C CN 1212609C
Authority
CN
China
Prior art keywords
time delay
voice signal
cross correlation
subband
estimation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003101134838A
Other languages
English (en)
Other versions
CN1545086A (zh
Inventor
杜利民
阎兆立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CNB2003101134838A priority Critical patent/CN1212609C/zh
Publication of CN1545086A publication Critical patent/CN1545086A/zh
Application granted granted Critical
Publication of CN1212609C publication Critical patent/CN1212609C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于人耳听觉特性的语音信号时间延迟估计方法,对同源的两路语音信号之间的时间延迟进行估计,包括(1)将所述两路语音信号按照频率划分为两个子带信号;(2)所述两路语音信号中相对应的子带信号作互相关运算,共得到两个子带互相关函数;(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和;(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。本发明的语音信号时间延迟估计方法巧妙地把人耳的听觉特性引入到时间延迟估计中来,并根据各子带的信噪比确定互相关函数相加时的权值,使得算法对噪声有更好地鲁棒性。

Description

基于人耳听觉特性的语音信号时间延迟估计方法
技术领域
本发明涉及计算机技术应用领域中的话筒阵列技术,更具体地说,本发明涉及话筒阵列技术中一种语音信号的时间延迟估计方法。
背景技术
所谓时间延迟,是指话筒/传感器阵列中不同话筒/传感器接收到的同源信号之间由于信号传输距离不同而引起的时间差。时间延迟估计(TDE-Time DelayEstimation)就是利用参数估计和信号处理的理论和方法,对上述时间延迟进行估计和测定。
在各种基于话筒阵列的语音处理系统中,时间延迟估计是一个基本问题。例如,利用话筒阵列对讲话者进行定位,其基本思想就是根据估计出的各通道信号之间的时间延迟来确定目标的方位和距离。在话筒阵列语音增强系统中,估计出各路语音信号间的时间延迟,使之保持同步是进行后继处理的一个前提条件,对系统中的时间延迟进行准确估计并做时延补偿,使话筒阵列的指向方向与讲话者的方向相一致,这是实施各种话筒阵列语音增强方法需要加以解决的首要问题。由于噪声和语音干扰的存在,有些场合下还存在混响或回声问题,并且讲话者往往是运动的,这都给阵列中的时延估计带来很大困难。
广义互相关时延估计法(GCC-Generalized Cross-Correlation)是研究应用最广的算法,其公式为
R ij ( τ ) = ∫ - ∞ + ∞ ψ ij ( f ) φ ij ( f ) e j 2 πfτ df - - - ( 1 )
其实质就是对互相关函数加一个滤波器的结果,其中,φij(f)为话筒阵列中编号为i和j的话筒信号xi(k)和xj(k)间的互功率谱,ψij(f)是加权函数。在利用GCC进行时延估计时,根据加权函数ψij(f)和互功率谱φij(f)计算出广义互相关函数Rij(τ),确定其峰值点的位置,该峰值所对应的τ即为信号间的时间延迟。在实际应用中,针对不同的噪声和混响情况,可以选择不同的加权函数ψij(f),使Rij(τ)具有比较尖锐的峰值。根据加权函数的不同,又分为最大似然加权(ML-MaximumLikelihood)和相位变换加权法(PHAT-Phase Transform)的广义互相关函数。此外还有自适应时延估计法,基于人耳定位原理的时延估计法等,其中前者采用自适应方式找到两路信号之间的传递函数,从而得到时延估计;后者根据声音的超前效应,利用语音信号的初始段作广义互相关运算,可是当反射回声与直达声叠加时,则无法确定语音的初始段,会明显降低算法性能。
发明内容
本发明的目的在于将人耳的听觉特性引入到时间延迟估计中来,从而提供一种基于人耳听觉特性的语音信号时间延迟估计方法。
为了实现上述发明目的,本发明提供一种基于人耳听觉特性的语音信号时间延迟估计方法,对同源的两路语音信号之间的时间延迟进行估计,包括如下步骤:
(1)将所述两路语音信号中的每一路语音信号都按照频率划分为两个子带信号;
(2)所述两路语音信号中相对应的子带信号作互相关运算,共得到两个子带互相关函数;
(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和;
(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。
其中,在步骤(1)中,所述两路语音信号分别划分为高频和低频两个子带信号,所述划分以1KHz为频率分界点。
其中,在步骤(3)中,所述两个子带互相关函数具有相同的权重,所述两个子带互相关函数的权重根据子带的信噪比确定,信噪比相对高的子带的自相关函数的权重也相对大。所述两个子带互相关函数的权重与其信噪比成正比。
其中,在步骤(2)中的子带互相关函数为:
R ij ( m ) = IDFT { DFT { x i ( k ) } DFT { x j ( k ) } * ( | DFT { x i ( k ) } | | DFT { x j ( k ) } | ) ρ }
其中,xi、xj是通道i、j的输入信号,Rij(m)是时域广义互相关函数,(·)*表示复数共轭,DFT和IDFT分别表示付立叶和反付立叶变换,0≤ρ≤1。
其中,0.5≤ρ≤0.75,优选ρ=0.6。
本发明的语音信号时间延迟估计方法巧妙地把人耳的听觉特性引入到时间延迟估计中来,并根据各子带的信噪比确定互相关函数相加时的权值,使得算法对噪声有更好地鲁棒性。
附图说明
图1是本发明的语音信号时间延迟估计方法框图;
图2是不同的方法的计算广义互相关结果的比较,其中(a)是PHAT计算结果,(b)是修正的PHAT计算结果,(c)是本发明用SCCF计算结果;
图3真实环境中的时延估计结果,其中实线是SCCF算法结果,虚线是修正的PHAT算法结果,点线是PHAT算法结果。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
将到达话筒mi和mj的两路语音信号分别用xi和xj表示,对该两路语音信号通过线性预测预白化。人耳的听觉模型具有耳蜗特性,即人耳对信号的敏感程度是分子带的,一般人耳对低频信号敏感,而对高频信号不敏感。因此将预白化的信号根据人耳的听觉特性划分为高频和低频两个子带信号。
在图1所示的实施例中,信号xi和xj预白化后,分别都用两个滤波器来进行滤波,这两个滤波器为高通滤波器和低通滤波器。信号xi经高通滤波器滤波后得到其高频信号,经低通滤波器滤波后得到其低频信号。其中,在该优选实施例中,高频信号和低频信号以1KHz为频率分界点。信号xj经过和xi一样的操作之后也以1KHz为频率分界点被划分为高频和低频两个子带信号。信号xi和xj的高频信号部分首先经过半波整形和1kHz低通滤波,然后再做互相关,得到高频互相关函数(HCCF,High-frequency Cross-Correlation Function);低频信号部分直接做互相关,得到低频互相关函数(LCCF,Low-frequency Cross-Correlation Function)。
前述用到的高通、低通滤波器都是4阶FIR滤波器。
把HCCF和LCCF根据各自信噪比不同,按不同权重值相加得到互相关函数之和(SCCF,Summary Cross-Correlation Function),即
SCCF=gL×LCCF+gH×HCCF                                (2)
其中,gL和gH分别为HCCF和LCCF的权重值,可根据它们所属子带的信噪比确定:
gL=SNRL/(SNRL+SNRH)                                 (3)
gH=SNRH/(SNRL+SNRH)                                 (4)
其中
SNR L = E [ x L 2 ] - E [ n L 2 ] E [ n L 2 ] - - - ( 5 )
SNR H = E [ x H 2 ] - E [ n H 2 ] E [ n H 2 ] - - - ( 6 )
式中SNRL和SNRH分别是低频和高频两个子带的信噪比,xL、xH是子带信号,nL、nH分别是对应子带的噪声,它们可以在语音间隙估计得到。
在实际系统中,如果信噪比不容易得到,可以把gL、gH都置为1。
不难看出,本发明的方法和ML广义互相关函数一样,计算自相关函数时,都考虑到了信号的信噪比,给信噪比高的子带的自相关函数以更大的权重。
公式(2)中的HCCF和LCCF的互相关计算如下:
R ij ( m ) = IDFT { DFT { x i ( k ) } DFT { x j ( k ) } * ( | DFT { x i ( k ) } | | DFT { x j ( k ) } | ) ρ } 0 ≤ ρ ≤ 1 - - - ( 7 )
xi、xj是通道i、j的输入信号,k是信号向量索引,Rij(m)是时域广义互相关函数,m是互相关向量的索引,(·)*表示复数共轭。将高频和低频信号各自代入公式(7),用来分别计算HCCF和LCCF。根据实验确定公式中ρ的适当取值是在0.5~0.75之间,优选为0.6。
然后将由公式(7)分别计算得到的HCCF和LCCF带入公式(2),这样由下式就可得到最终的时延估计结果:
τ ij = m : max m SCC F ij ( m ) - - - ( 8 )
公式(8)的含义把互相关峰值处的索引赋给τij,其中τij就是信号到达话筒mi和mj的时间延迟,SCCFij(m)就是信号i、j的广义互相关总和。
为了对本发明的方法加以分析,图2给出一帧含噪语音的互相关计算结果,其中(a)是PHAT(相位变换)的计算结果,(b)是修正的PHAT的计算结果,(c)是本发明的SCCF计算结果。图中虚线标出时间延迟的正确结果,可以看出,PHTA通过波峰检测得到错误结果;虽然修正的PHAT得到正确结果,但是SCCF方法的脉冲更加陡峭。
图3是在实际办公室环境中的实验结果统计,其中实线是SCCF算法结果统计,虚线是修正的PHAT算法结果统计,点线是PHAT算法结果统计。该实际办公室环境的房间混响时间约为0.8s,在结果统计中,把正确延迟点±2范围内的数据都视为正确估计,其他视为错误估计。可以看出,在低信噪比环境中,本发明提出的方法比PHAT和修正的PHAT算法都具有更高的正确率和更小的误差。随着信噪比的改善,各种算法性能趋于一致。因此本发明算法对噪声的鲁棒行明显得到加强。

Claims (9)

1、一种基于人耳听觉特性的语音信号时间延迟估计方法,对同源的两路语音信号之间的时间延迟进行估计,包括如下步骤:
(1)将所述两路语音信号中的每一路语音信号都按照频率划分为两个子带信号;
(2)所述两路语音信号中相对应的子带信号作互相关运算,共得到两个子带互相关函数;
(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和;
(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。
2、根据权利要求1所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,步骤(1)中,所述两路语音信号分别划分为高频和低频两个子带信号。
3、根据权利要求2所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,所述划分以1KHz为频率分界点。
4、根据权利要求1所述的语音信号的时间延迟估计方法,其特征在于,步骤(3)中,所述两个子带互相关函数具有相同的权重。
5、根据权利要求1所述的语音信号的时间延迟估计方法,其特征在于,步骤(3)中,所述两个子带互相关函数的权重根据子带的信噪比确定,信噪比相对高的子带的自相关函数的权重也相对大。
6、根据权利要求5所述的语音信号的时间延迟估计方法,其特征在于,步骤(3)中,所述两个子带互相关函数的权重与其信噪比成正比。
7、根据权利要求1所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,步骤(2)中的子带互相关函数为:
R ij ( m ) = IDFT { DFT { x i ( k ) } DFT { x j ( k ) } * ( | DFT { x i ( k ) } | | DFT { x j ( k ) } | ) ρ }
其中,xi、xj是通道i、j的输入信号,Rij(m)是时域广义互相关函数,(·)*表示复数共轭,DFT和IDFT分别表示付立叶和反付立叶变换,0≤ρ≤1。
8、根据权利要求7所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,0.5≤ρ≤0.75。
9、根据权利要求8所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,ρ=0.6。
CNB2003101134838A 2003-11-12 2003-11-12 基于人耳听觉特性的语音信号时间延迟估计方法 Expired - Fee Related CN1212609C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2003101134838A CN1212609C (zh) 2003-11-12 2003-11-12 基于人耳听觉特性的语音信号时间延迟估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101134838A CN1212609C (zh) 2003-11-12 2003-11-12 基于人耳听觉特性的语音信号时间延迟估计方法

Publications (2)

Publication Number Publication Date
CN1545086A CN1545086A (zh) 2004-11-10
CN1212609C true CN1212609C (zh) 2005-07-27

Family

ID=34336877

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101134838A Expired - Fee Related CN1212609C (zh) 2003-11-12 2003-11-12 基于人耳听觉特性的语音信号时间延迟估计方法

Country Status (1)

Country Link
CN (1) CN1212609C (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9185199B2 (en) * 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
CN103630148B (zh) * 2013-11-01 2016-03-02 中国科学院物理研究所 信号取样平均仪和信号取样平均方法
CN105474306A (zh) * 2014-06-26 2016-04-06 华为技术有限公司 一种降噪方法、装置及移动终端
CN107680603B (zh) * 2016-08-02 2021-08-31 电信科学技术研究院 一种混响时间估计方法及装置
CN107479030B (zh) * 2017-07-14 2020-11-17 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107785026B (zh) * 2017-10-18 2020-10-20 会听声学科技(北京)有限公司 一种用于机顶盒室内回声消除的时延估计方法
CN107966910B (zh) * 2017-11-30 2021-08-03 深圳Tcl新技术有限公司 语音处理方法、智能音箱及可读存储介质
TWI743950B (zh) * 2020-08-18 2021-10-21 瑞昱半導體股份有限公司 訊號處理裝置、延遲估計方法與回音消除方法

Also Published As

Publication number Publication date
CN1545086A (zh) 2004-11-10

Similar Documents

Publication Publication Date Title
US5574824A (en) Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
RU2456701C2 (ru) Повышение разборчивости речи с использованием нескольких микрофонов на нескольких устройствах
CN101510426B (zh) 一种噪声消除方法及系统
EP2701145B1 (en) Noise estimation for use with noise reduction and echo cancellation in personal communication
EP2196988B1 (en) Determination of the coherence of audio signals
US8812309B2 (en) Methods and apparatus for suppressing ambient noise using multiple audio signals
JP5305743B2 (ja) 音響処理装置及びその方法
CN106226739A (zh) 融合子带分析的双声源定位方法
US20070100605A1 (en) Method for processing audio-signals
EP2063419A1 (en) Speaker localization
NO341066B1 (no) Blindsignaluttrekning
Löllmann et al. Low delay noise reduction and dereverberation for hearing aids
CN103907152A (zh) 用于音频信号噪声抑制的方法和系统
CN1212609C (zh) 基于人耳听觉特性的语音信号时间延迟估计方法
CN101587712B (zh) 一种基于小型麦克风阵列的定向语音增强方法
KR100936093B1 (ko) 전자 신호로부터의 잡음 제거 방법 및 장치
CN1768555A (zh) 用于减少麦克风信号中的干扰噪声信号部分的方法和装置
CN1667702A (zh) 输入音处理装置
Moore et al. Linear prediction based dereverberation for spherical microphone arrays
CN111210836B (zh) 一种麦克风阵列波束形成动态调整方法
Shen et al. A modified cross power-spectrum phase method based on microphone array for acoustic source localization
Thakallapalli et al. Spectral features derived from single frequency filter for multispeaker localization
Chai et al. Blind estimation of reverberation time using binaural complex ideal ratio mask
CN116859339B (zh) 一种多边形区域内声源分离和定位方法
CN1224287C (zh) 多采样率抗串扰阵列信号消噪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee