CN1212609C

CN1212609C - 基于人耳听觉特性的语音信号时间延迟估计方法

Info

Publication number: CN1212609C
Application number: CNB2003101134838A
Authority: CN
Inventors: 杜利民; 阎兆立
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2003-11-12
Filing date: 2003-11-12
Publication date: 2005-07-27
Anticipated expiration: 2023-11-12
Also published as: CN1545086A

Abstract

本发明公开了一种基于人耳听觉特性的语音信号时间延迟估计方法，对同源的两路语音信号之间的时间延迟进行估计，包括(1)将所述两路语音信号按照频率划分为两个子带信号；(2)所述两路语音信号中相对应的子带信号作互相关运算，共得到两个子带互相关函数；(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和；(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。本发明的语音信号时间延迟估计方法巧妙地把人耳的听觉特性引入到时间延迟估计中来，并根据各子带的信噪比确定互相关函数相加时的权值，使得算法对噪声有更好地鲁棒性。

Description

基于人耳听觉特性的语音信号时间延迟估计方法

技术领域

本发明涉及计算机技术应用领域中的话筒阵列技术，更具体地说，本发明涉及话筒阵列技术中一种语音信号的时间延迟估计方法。

背景技术

所谓时间延迟，是指话筒/传感器阵列中不同话筒/传感器接收到的同源信号之间由于信号传输距离不同而引起的时间差。时间延迟估计(TDE-Time DelayEstimation)就是利用参数估计和信号处理的理论和方法，对上述时间延迟进行估计和测定。

在各种基于话筒阵列的语音处理系统中，时间延迟估计是一个基本问题。例如，利用话筒阵列对讲话者进行定位，其基本思想就是根据估计出的各通道信号之间的时间延迟来确定目标的方位和距离。在话筒阵列语音增强系统中，估计出各路语音信号间的时间延迟，使之保持同步是进行后继处理的一个前提条件，对系统中的时间延迟进行准确估计并做时延补偿，使话筒阵列的指向方向与讲话者的方向相一致，这是实施各种话筒阵列语音增强方法需要加以解决的首要问题。由于噪声和语音干扰的存在，有些场合下还存在混响或回声问题，并且讲话者往往是运动的，这都给阵列中的时延估计带来很大困难。

广义互相关时延估计法(GCC-Generalized Cross-Correlation)是研究应用最广的算法，其公式为

R_{ij} (τ) = {&Integral;}_{- \infty}^{+ \infty} ψ_{ij} (f) φ_{ij} (f) e^{j 2 πfτ} df - - - (1)

其实质就是对互相关函数加一个滤波器的结果，其中，φ_ij(f)为话筒阵列中编号为i和j的话筒信号x_i(k)和x_j(k)间的互功率谱，ψ_ij(f)是加权函数。在利用GCC进行时延估计时，根据加权函数ψ_ij(f)和互功率谱φ_ij(f)计算出广义互相关函数R_ij(τ)，确定其峰值点的位置，该峰值所对应的τ即为信号间的时间延迟。在实际应用中，针对不同的噪声和混响情况，可以选择不同的加权函数ψ_ij(f)，使R_ij(τ)具有比较尖锐的峰值。根据加权函数的不同，又分为最大似然加权(ML-MaximumLikelihood)和相位变换加权法(PHAT-Phase Transform)的广义互相关函数。此外还有自适应时延估计法，基于人耳定位原理的时延估计法等，其中前者采用自适应方式找到两路信号之间的传递函数，从而得到时延估计；后者根据声音的超前效应，利用语音信号的初始段作广义互相关运算，可是当反射回声与直达声叠加时，则无法确定语音的初始段，会明显降低算法性能。

发明内容

本发明的目的在于将人耳的听觉特性引入到时间延迟估计中来，从而提供一种基于人耳听觉特性的语音信号时间延迟估计方法。

为了实现上述发明目的，本发明提供一种基于人耳听觉特性的语音信号时间延迟估计方法，对同源的两路语音信号之间的时间延迟进行估计，包括如下步骤：

(1)将所述两路语音信号中的每一路语音信号都按照频率划分为两个子带信号；

(2)所述两路语音信号中相对应的子带信号作互相关运算，共得到两个子带互相关函数；

(3)将所述的两个子带互相关函数按照权重相加得到互相关函数之和；

(4)根据所述互相关函数之和得到所述两路语音信号之间的时间延迟。

其中，在步骤(1)中，所述两路语音信号分别划分为高频和低频两个子带信号，所述划分以1KHz为频率分界点。

其中，在步骤(3)中，所述两个子带互相关函数具有相同的权重，所述两个子带互相关函数的权重根据子带的信噪比确定，信噪比相对高的子带的自相关函数的权重也相对大。所述两个子带互相关函数的权重与其信噪比成正比。

其中，在步骤(2)中的子带互相关函数为：

R_{ij} (m) = IDFT {\frac{DFT {x_{i} (k)} DFT {x_{j} (k)}^{*}}{{(| DFT {x_{i} (k)} | | DFT {x_{j} (k)} |)}^{ρ}}}

其中，x_i、x_j是通道i、j的输入信号，R_ij(m)是时域广义互相关函数，(·)*表示复数共轭，DFT和IDFT分别表示付立叶和反付立叶变换，0≤ρ≤1。

其中，0.5≤ρ≤0.75，优选ρ＝0.6。

本发明的语音信号时间延迟估计方法巧妙地把人耳的听觉特性引入到时间延迟估计中来，并根据各子带的信噪比确定互相关函数相加时的权值，使得算法对噪声有更好地鲁棒性。

附图说明

图1是本发明的语音信号时间延迟估计方法框图；

图2是不同的方法的计算广义互相关结果的比较，其中(a)是PHAT计算结果，(b)是修正的PHAT计算结果，(c)是本发明用SCCF计算结果；

图3真实环境中的时延估计结果，其中实线是SCCF算法结果，虚线是修正的PHAT算法结果，点线是PHAT算法结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

将到达话筒m_i和m_j的两路语音信号分别用x_i和x_j表示，对该两路语音信号通过线性预测预白化。人耳的听觉模型具有耳蜗特性，即人耳对信号的敏感程度是分子带的，一般人耳对低频信号敏感，而对高频信号不敏感。因此将预白化的信号根据人耳的听觉特性划分为高频和低频两个子带信号。

在图1所示的实施例中，信号x_i和x_j预白化后，分别都用两个滤波器来进行滤波，这两个滤波器为高通滤波器和低通滤波器。信号x_i经高通滤波器滤波后得到其高频信号，经低通滤波器滤波后得到其低频信号。其中，在该优选实施例中，高频信号和低频信号以1KHz为频率分界点。信号x_j经过和x_i一样的操作之后也以1KHz为频率分界点被划分为高频和低频两个子带信号。信号x_i和x_j的高频信号部分首先经过半波整形和1kHz低通滤波，然后再做互相关，得到高频互相关函数(HCCF，High-frequency Cross-Correlation Function)；低频信号部分直接做互相关，得到低频互相关函数(LCCF，Low-frequency Cross-Correlation Function)。

前述用到的高通、低通滤波器都是4阶FIR滤波器。

把HCCF和LCCF根据各自信噪比不同，按不同权重值相加得到互相关函数之和(SCCF，Summary Cross-Correlation Function)，即

SCCF＝g_L×LCCF+g_H×HCCF (2)

其中，g_L和g_H分别为HCCF和LCCF的权重值，可根据它们所属子带的信噪比确定：

g_L＝SNR_L/(SNR_L+SNR_H) (3)

g_H＝SNR_H/(SNR_L+SNR_H) (4)

其中

{SNR}_{L} = \frac{E [x_{L}^{2}] - E [n_{L}^{2}]}{E [n_{L}^{2}]} - - - (5)

{SNR}_{H} = \frac{E [x_{H}^{2}] - E [n_{H}^{2}]}{E [n_{H}^{2}]} - - - (6)

式中SNR_L和SNR_H分别是低频和高频两个子带的信噪比，x_L、x_H是子带信号，n_L、n_H分别是对应子带的噪声，它们可以在语音间隙估计得到。

在实际系统中，如果信噪比不容易得到，可以把g_L、g_H都置为1。

不难看出，本发明的方法和ML广义互相关函数一样，计算自相关函数时，都考虑到了信号的信噪比，给信噪比高的子带的自相关函数以更大的权重。

公式(2)中的HCCF和LCCF的互相关计算如下：

R_{ij} (m) = IDFT {\frac{DFT {x_{i} (k)} DFT {x_{j} (k)}^{*}}{{(| DFT {x_{i} (k)} | | DFT {x_{j} (k)} |)}^{ρ}}} 0 \leq ρ \leq 1 - - - (7)

x_i、x_j是通道i、j的输入信号，k是信号向量索引，R_ij(m)是时域广义互相关函数，m是互相关向量的索引，(·)*表示复数共轭。将高频和低频信号各自代入公式(7)，用来分别计算HCCF和LCCF。根据实验确定公式中ρ的适当取值是在0.5～0.75之间，优选为0.6。

然后将由公式(7)分别计算得到的HCCF和LCCF带入公式(2)，这样由下式就可得到最终的时延估计结果：

τ_{ij} = m : \max_{m} SCC F_{ij} (m) - - - (8)

公式(8)的含义把互相关峰值处的索引赋给τ_ij，其中τ_ij就是信号到达话筒m_i和m_j的时间延迟，SCCF_ij(m)就是信号i、j的广义互相关总和。

为了对本发明的方法加以分析，图2给出一帧含噪语音的互相关计算结果，其中(a)是PHAT(相位变换)的计算结果，(b)是修正的PHAT的计算结果，(c)是本发明的SCCF计算结果。图中虚线标出时间延迟的正确结果，可以看出，PHTA通过波峰检测得到错误结果；虽然修正的PHAT得到正确结果，但是SCCF方法的脉冲更加陡峭。

图3是在实际办公室环境中的实验结果统计，其中实线是SCCF算法结果统计，虚线是修正的PHAT算法结果统计，点线是PHAT算法结果统计。该实际办公室环境的房间混响时间约为0.8s，在结果统计中，把正确延迟点±2范围内的数据都视为正确估计，其他视为错误估计。可以看出，在低信噪比环境中，本发明提出的方法比PHAT和修正的PHAT算法都具有更高的正确率和更小的误差。随着信噪比的改善，各种算法性能趋于一致。因此本发明算法对噪声的鲁棒行明显得到加强。

Claims

1、一种基于人耳听觉特性的语音信号时间延迟估计方法，对同源的两路语音信号之间的时间延迟进行估计，包括如下步骤：

2、根据权利要求1所述的基于人耳听觉特性的语音信号时间延迟估计方法，其特征在于，步骤(1)中，所述两路语音信号分别划分为高频和低频两个子带信号。

3、根据权利要求2所述的基于人耳听觉特性的语音信号时间延迟估计方法，其特征在于，所述划分以1KHz为频率分界点。

4、根据权利要求1所述的语音信号的时间延迟估计方法，其特征在于，步骤(3)中，所述两个子带互相关函数具有相同的权重。

5、根据权利要求1所述的语音信号的时间延迟估计方法，其特征在于，步骤(3)中，所述两个子带互相关函数的权重根据子带的信噪比确定，信噪比相对高的子带的自相关函数的权重也相对大。

6、根据权利要求5所述的语音信号的时间延迟估计方法，其特征在于，步骤(3)中，所述两个子带互相关函数的权重与其信噪比成正比。

7、根据权利要求1所述的基于人耳听觉特性的语音信号时间延迟估计方法，其特征在于，步骤(2)中的子带互相关函数为：

R_{ij} (m) = IDFT {\frac{DFT {x_{i} (k)} DFT {x_{j} (k)}^{*}}{{(| DFT {x_{i} (k)} | | DFT {x_{j} (k)} |)}^{ρ}}}

其中，x_i、x_j是通道i、j的输入信号，R_ij(m)是时域广义互相关函数，(·)^*表示复数共轭，DFT和IDFT分别表示付立叶和反付立叶变换，0≤ρ≤1。

8、根据权利要求7所述的基于人耳听觉特性的语音信号时间延迟估计方法，其特征在于，0.5≤ρ≤0.75。

9、根据权利要求8所述的基于人耳听觉特性的语音信号时间延迟估计方法，其特征在于，ρ＝0.6。