CN1212609C - 基于人耳听觉特性的语音信号时间延迟估计方法 - Google Patents
基于人耳听觉特性的语音信号时间延迟估计方法 Download PDFInfo
- Publication number
- CN1212609C CN1212609C CNB2003101134838A CN200310113483A CN1212609C CN 1212609 C CN1212609 C CN 1212609C CN B2003101134838 A CNB2003101134838 A CN B2003101134838A CN 200310113483 A CN200310113483 A CN 200310113483A CN 1212609 C CN1212609 C CN 1212609C
- Authority
- CN
- China
- Prior art keywords
- time delay
- voice signal
- cross correlation
- subband
- estimation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于人耳听觉特性的语音信号时间延迟估计方法,对同源的两路语音信号之间的时间延迟进行估计,包括(1)将所述两路语音信号按照频率划分为两个子带信号;(2)所述两路语音信号中相对应的子带信号作互相关运算,共得到两个子带互相关函数;(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和;(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。本发明的语音信号时间延迟估计方法巧妙地把人耳的听觉特性引入到时间延迟估计中来,并根据各子带的信噪比确定互相关函数相加时的权值,使得算法对噪声有更好地鲁棒性。
Description
技术领域
本发明涉及计算机技术应用领域中的话筒阵列技术,更具体地说,本发明涉及话筒阵列技术中一种语音信号的时间延迟估计方法。
背景技术
所谓时间延迟,是指话筒/传感器阵列中不同话筒/传感器接收到的同源信号之间由于信号传输距离不同而引起的时间差。时间延迟估计(TDE-Time DelayEstimation)就是利用参数估计和信号处理的理论和方法,对上述时间延迟进行估计和测定。
在各种基于话筒阵列的语音处理系统中,时间延迟估计是一个基本问题。例如,利用话筒阵列对讲话者进行定位,其基本思想就是根据估计出的各通道信号之间的时间延迟来确定目标的方位和距离。在话筒阵列语音增强系统中,估计出各路语音信号间的时间延迟,使之保持同步是进行后继处理的一个前提条件,对系统中的时间延迟进行准确估计并做时延补偿,使话筒阵列的指向方向与讲话者的方向相一致,这是实施各种话筒阵列语音增强方法需要加以解决的首要问题。由于噪声和语音干扰的存在,有些场合下还存在混响或回声问题,并且讲话者往往是运动的,这都给阵列中的时延估计带来很大困难。
广义互相关时延估计法(GCC-Generalized Cross-Correlation)是研究应用最广的算法,其公式为
其实质就是对互相关函数加一个滤波器的结果,其中,φij(f)为话筒阵列中编号为i和j的话筒信号xi(k)和xj(k)间的互功率谱,ψij(f)是加权函数。在利用GCC进行时延估计时,根据加权函数ψij(f)和互功率谱φij(f)计算出广义互相关函数Rij(τ),确定其峰值点的位置,该峰值所对应的τ即为信号间的时间延迟。在实际应用中,针对不同的噪声和混响情况,可以选择不同的加权函数ψij(f),使Rij(τ)具有比较尖锐的峰值。根据加权函数的不同,又分为最大似然加权(ML-MaximumLikelihood)和相位变换加权法(PHAT-Phase Transform)的广义互相关函数。此外还有自适应时延估计法,基于人耳定位原理的时延估计法等,其中前者采用自适应方式找到两路信号之间的传递函数,从而得到时延估计;后者根据声音的超前效应,利用语音信号的初始段作广义互相关运算,可是当反射回声与直达声叠加时,则无法确定语音的初始段,会明显降低算法性能。
发明内容
本发明的目的在于将人耳的听觉特性引入到时间延迟估计中来,从而提供一种基于人耳听觉特性的语音信号时间延迟估计方法。
为了实现上述发明目的,本发明提供一种基于人耳听觉特性的语音信号时间延迟估计方法,对同源的两路语音信号之间的时间延迟进行估计,包括如下步骤:
(1)将所述两路语音信号中的每一路语音信号都按照频率划分为两个子带信号;
(2)所述两路语音信号中相对应的子带信号作互相关运算,共得到两个子带互相关函数;
(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和;
(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。
其中,在步骤(1)中,所述两路语音信号分别划分为高频和低频两个子带信号,所述划分以1KHz为频率分界点。
其中,在步骤(3)中,所述两个子带互相关函数具有相同的权重,所述两个子带互相关函数的权重根据子带的信噪比确定,信噪比相对高的子带的自相关函数的权重也相对大。所述两个子带互相关函数的权重与其信噪比成正比。
其中,在步骤(2)中的子带互相关函数为:
其中,xi、xj是通道i、j的输入信号,Rij(m)是时域广义互相关函数,(·)*表示复数共轭,DFT和IDFT分别表示付立叶和反付立叶变换,0≤ρ≤1。
其中,0.5≤ρ≤0.75,优选ρ=0.6。
本发明的语音信号时间延迟估计方法巧妙地把人耳的听觉特性引入到时间延迟估计中来,并根据各子带的信噪比确定互相关函数相加时的权值,使得算法对噪声有更好地鲁棒性。
附图说明
图1是本发明的语音信号时间延迟估计方法框图;
图2是不同的方法的计算广义互相关结果的比较,其中(a)是PHAT计算结果,(b)是修正的PHAT计算结果,(c)是本发明用SCCF计算结果;
图3真实环境中的时延估计结果,其中实线是SCCF算法结果,虚线是修正的PHAT算法结果,点线是PHAT算法结果。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
将到达话筒mi和mj的两路语音信号分别用xi和xj表示,对该两路语音信号通过线性预测预白化。人耳的听觉模型具有耳蜗特性,即人耳对信号的敏感程度是分子带的,一般人耳对低频信号敏感,而对高频信号不敏感。因此将预白化的信号根据人耳的听觉特性划分为高频和低频两个子带信号。
在图1所示的实施例中,信号xi和xj预白化后,分别都用两个滤波器来进行滤波,这两个滤波器为高通滤波器和低通滤波器。信号xi经高通滤波器滤波后得到其高频信号,经低通滤波器滤波后得到其低频信号。其中,在该优选实施例中,高频信号和低频信号以1KHz为频率分界点。信号xj经过和xi一样的操作之后也以1KHz为频率分界点被划分为高频和低频两个子带信号。信号xi和xj的高频信号部分首先经过半波整形和1kHz低通滤波,然后再做互相关,得到高频互相关函数(HCCF,High-frequency Cross-Correlation Function);低频信号部分直接做互相关,得到低频互相关函数(LCCF,Low-frequency Cross-Correlation Function)。
前述用到的高通、低通滤波器都是4阶FIR滤波器。
把HCCF和LCCF根据各自信噪比不同,按不同权重值相加得到互相关函数之和(SCCF,Summary Cross-Correlation Function),即
SCCF=gL×LCCF+gH×HCCF (2)
其中,gL和gH分别为HCCF和LCCF的权重值,可根据它们所属子带的信噪比确定:
gL=SNRL/(SNRL+SNRH) (3)
gH=SNRH/(SNRL+SNRH) (4)
其中
式中SNRL和SNRH分别是低频和高频两个子带的信噪比,xL、xH是子带信号,nL、nH分别是对应子带的噪声,它们可以在语音间隙估计得到。
在实际系统中,如果信噪比不容易得到,可以把gL、gH都置为1。
不难看出,本发明的方法和ML广义互相关函数一样,计算自相关函数时,都考虑到了信号的信噪比,给信噪比高的子带的自相关函数以更大的权重。
公式(2)中的HCCF和LCCF的互相关计算如下:
xi、xj是通道i、j的输入信号,k是信号向量索引,Rij(m)是时域广义互相关函数,m是互相关向量的索引,(·)*表示复数共轭。将高频和低频信号各自代入公式(7),用来分别计算HCCF和LCCF。根据实验确定公式中ρ的适当取值是在0.5~0.75之间,优选为0.6。
然后将由公式(7)分别计算得到的HCCF和LCCF带入公式(2),这样由下式就可得到最终的时延估计结果:
公式(8)的含义把互相关峰值处的索引赋给τij,其中τij就是信号到达话筒mi和mj的时间延迟,SCCFij(m)就是信号i、j的广义互相关总和。
为了对本发明的方法加以分析,图2给出一帧含噪语音的互相关计算结果,其中(a)是PHAT(相位变换)的计算结果,(b)是修正的PHAT的计算结果,(c)是本发明的SCCF计算结果。图中虚线标出时间延迟的正确结果,可以看出,PHTA通过波峰检测得到错误结果;虽然修正的PHAT得到正确结果,但是SCCF方法的脉冲更加陡峭。
图3是在实际办公室环境中的实验结果统计,其中实线是SCCF算法结果统计,虚线是修正的PHAT算法结果统计,点线是PHAT算法结果统计。该实际办公室环境的房间混响时间约为0.8s,在结果统计中,把正确延迟点±2范围内的数据都视为正确估计,其他视为错误估计。可以看出,在低信噪比环境中,本发明提出的方法比PHAT和修正的PHAT算法都具有更高的正确率和更小的误差。随着信噪比的改善,各种算法性能趋于一致。因此本发明算法对噪声的鲁棒行明显得到加强。
Claims (9)
1、一种基于人耳听觉特性的语音信号时间延迟估计方法,对同源的两路语音信号之间的时间延迟进行估计,包括如下步骤:
(1)将所述两路语音信号中的每一路语音信号都按照频率划分为两个子带信号;
(2)所述两路语音信号中相对应的子带信号作互相关运算,共得到两个子带互相关函数;
(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和;
(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。
2、根据权利要求1所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,步骤(1)中,所述两路语音信号分别划分为高频和低频两个子带信号。
3、根据权利要求2所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,所述划分以1KHz为频率分界点。
4、根据权利要求1所述的语音信号的时间延迟估计方法,其特征在于,步骤(3)中,所述两个子带互相关函数具有相同的权重。
5、根据权利要求1所述的语音信号的时间延迟估计方法,其特征在于,步骤(3)中,所述两个子带互相关函数的权重根据子带的信噪比确定,信噪比相对高的子带的自相关函数的权重也相对大。
6、根据权利要求5所述的语音信号的时间延迟估计方法,其特征在于,步骤(3)中,所述两个子带互相关函数的权重与其信噪比成正比。
7、根据权利要求1所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,步骤(2)中的子带互相关函数为:
其中,xi、xj是通道i、j的输入信号,Rij(m)是时域广义互相关函数,(·)*表示复数共轭,DFT和IDFT分别表示付立叶和反付立叶变换,0≤ρ≤1。
8、根据权利要求7所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,0.5≤ρ≤0.75。
9、根据权利要求8所述的基于人耳听觉特性的语音信号时间延迟估计方法,其特征在于,ρ=0.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2003101134838A CN1212609C (zh) | 2003-11-12 | 2003-11-12 | 基于人耳听觉特性的语音信号时间延迟估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2003101134838A CN1212609C (zh) | 2003-11-12 | 2003-11-12 | 基于人耳听觉特性的语音信号时间延迟估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1545086A CN1545086A (zh) | 2004-11-10 |
CN1212609C true CN1212609C (zh) | 2005-07-27 |
Family
ID=34336877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2003101134838A Expired - Fee Related CN1212609C (zh) | 2003-11-12 | 2003-11-12 | 基于人耳听觉特性的语音信号时间延迟估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1212609C (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9185199B2 (en) * | 2013-03-12 | 2015-11-10 | Google Technology Holdings LLC | Method and apparatus for acoustically characterizing an environment in which an electronic device resides |
CN103630148B (zh) * | 2013-11-01 | 2016-03-02 | 中国科学院物理研究所 | 信号取样平均仪和信号取样平均方法 |
US10089972B2 (en) * | 2014-06-26 | 2018-10-02 | Huawei Technologies Co., Ltd. | Noise reduction method and apparatus, and mobile terminal |
CN107680603B (zh) * | 2016-08-02 | 2021-08-31 | 电信科学技术研究院 | 一种混响时间估计方法及装置 |
CN107479030B (zh) * | 2017-07-14 | 2020-11-17 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
CN107785026B (zh) * | 2017-10-18 | 2020-10-20 | 会听声学科技(北京)有限公司 | 一种用于机顶盒室内回声消除的时延估计方法 |
CN107966910B (zh) * | 2017-11-30 | 2021-08-03 | 深圳Tcl新技术有限公司 | 语音处理方法、智能音箱及可读存储介质 |
TWI743950B (zh) * | 2020-08-18 | 2021-10-21 | 瑞昱半導體股份有限公司 | 訊號處理裝置、延遲估計方法與回音消除方法 |
-
2003
- 2003-11-12 CN CNB2003101134838A patent/CN1212609C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1545086A (zh) | 2004-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2456701C2 (ru) | Повышение разборчивости речи с использованием нескольких микрофонов на нескольких устройствах | |
CN101510426B (zh) | 一种噪声消除方法及系统 | |
DK2701145T3 (en) | Noise cancellation for use with noise reduction and echo cancellation in personal communication | |
US8812309B2 (en) | Methods and apparatus for suppressing ambient noise using multiple audio signals | |
US7366662B2 (en) | Separation of target acoustic signals in a multi-transducer arrangement | |
JP5305743B2 (ja) | 音響処理装置及びその方法 | |
EP2196988A1 (en) | Determination of the coherence of audio signals | |
CN106226739A (zh) | 融合子带分析的双声源定位方法 | |
EP2063419A1 (en) | Speaker localization | |
CN101762806B (zh) | 声源定位方法和装置 | |
NO341066B1 (no) | Blindsignaluttrekning | |
Löllmann et al. | Low delay noise reduction and dereverberation for hearing aids | |
Schwartz et al. | Joint estimation of late reverberant and speech power spectral densities in noisy environments using Frobenius norm | |
CN103907152A (zh) | 用于音频信号噪声抑制的方法和系统 | |
CN1212609C (zh) | 基于人耳听觉特性的语音信号时间延迟估计方法 | |
CN101587712B (zh) | 一种基于小型麦克风阵列的定向语音增强方法 | |
KR100936093B1 (ko) | 전자 신호로부터의 잡음 제거 방법 및 장치 | |
CN1768555A (zh) | 用于减少麦克风信号中的干扰噪声信号部分的方法和装置 | |
CN1667702A (zh) | 输入音处理装置 | |
Moore et al. | Linear prediction based dereverberation for spherical microphone arrays | |
CN111210836B (zh) | 一种麦克风阵列波束形成动态调整方法 | |
Shen et al. | A modified cross power-spectrum phase method based on microphone array for acoustic source localization | |
Cheng et al. | Speech Enhancement Based on Beamforming and Post-Filtering by Combining Phase Information. | |
CN111863017B (zh) | 一种基于双麦克风阵列的车内定向拾音方法及相关装置 | |
Thakallapalli et al. | Spectral features derived from single frequency filter for multispeaker localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |