CN107479030B

CN107479030B - 基于分频和改进的广义互相关双耳时延估计方法

Info

Publication number: CN107479030B
Application number: CN201710574614.4A
Authority: CN
Inventors: 胡章芳; 乐聪聪; 罗元; 张毅; 刘宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-11-17
Anticipated expiration: 2037-07-14
Also published as: CN107479030A

Abstract

本发明请求保护一种混响环境下基于分频和改进广义互相关双耳时延估计方法，涉及声源定位领域，它利用Gammatone滤波器能有效的模拟人耳基底膜特性，将语音信号分频处理，在混响环境下进行双耳互相关时延估计，相比于广义互相关时延估计方法，该方法具有更准确的时延估计，该声源定位系统在混响环境下具有更好的鲁棒性。使用Gammatone滤波器对双耳信号进行分频处理，对每个子带信号进行倒谱预滤波的去混响处理后反变换到时域，左右耳各子带信号进行广义互相关运算，广义互相关算法中采用改进的相位变换加权函数，得到的每个子带的互相关值进行求和运算，获得最大互相关值对应的双耳时间差。

Description

基于分频和改进的广义互相关双耳时延估计方法

技术领域

本发明属于声源定位领域，特别是一种基于分频和改进的广义互相关双耳时延估计方法。

背景技术

随着人类社会的进步，人们对机器的人机交互性能要求越来越高。人机交互真正所需的是人与机器或计算机之间更好的耦合，全面直观地进行沟通和交流，而不是简单地更好地设计交互界面的表面特性。人与机器之间日益增长的沟通需要定位和跟踪声源，用于视频音频应用的自动相机跟踪，用于抑制噪声和混响的麦克风阵列波束成形，远程讲话语音识别和机器人音频系统是语音源定位的示例应用。

随着语音识别、声纹识别等技术的快速发展，基于语音的人机交互技术涉及到各个应用领域。以室内的智能服务机器人为例，智能有趣的家居生活情景的构建，都是通过机器人的智能自动化，给人们带来更加轻松方便的生活方式。在室内环境中工作的机器人应该意识到给定的命令，为此，他们需要认识到如来自电器的噪声辐射和来自其周围的无线电或电视的不明的声音事件。因此，能够使机器人捕获空间信息(即在其环境中发生声音事件的方向)的声源定位是相当基本和必要的技术，其必须在机器人采取动作之前被处理。在语音信号处理中，获取声源位置的信息具有重要作用。在封闭的家居室内环境中采集语音时，往往携带着周围环境的各种噪声、房间混响以及其它声源的干扰，这些干扰的存在使声音清晰度下降，声源定位的误差增大，阻止系统充分提取任何语音特征，妨碍人机语音交互技术的广泛使用。

在各种非常不利的声学环境下，人耳都能精确地进行声源定位。例如，“鸡尾酒会效应”中，两个客人可以在一群人的旁边正常的交流，听者还可以根据感兴趣的语音信号判断出目标声源的方向，当听者听到有人叫唤他名字时会将头面向说话者。由此可见，人耳可以从嘈杂的多声源环境中定位出目标声源的位置。这一事实表明可以通过模仿人耳听觉系统的机制，实现有效的人工双耳声源定位。双耳声源定位是实现人机交互的重要组成部分，因为它配备了两个麦克风作为人类听觉定位，能够准确快速地定位声源。声源定位的广适性使其应用于多个领域，在声学通信、人工智能和助听器等方面有着重要的研究意义和实用价值。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种在混响环境下提高声源定位的准确度的基于分频和改进的广义互相关双耳时延估计方法。本发明的技术方案如下：

一种基于分频和改进的广义互相关双耳时延估计方法，其包括以下步骤：

S1：获取包含混响的双耳语音信号，分别用两个麦克风放到人工头的左右耳上，两个麦克风采集到的信号卷积上头部脉冲响应即为双耳语音信号；

S2：对步骤S1得到的含混响的双耳语音信号，使用Gammatone滤波器组对双耳信号进行分频处理，得到不同频率的子带双耳信号；

S3：步骤S2得到的子带语音信号变换到倒谱域，进行倒谱预滤波去混响处理，获得去混响的左右耳各子带信号；

S4：步骤S3得到的去混响的左右耳各子带信号采用改进的广义互相关时延估计方法求取双耳时间差，所述改进广义互相关时延估计方法主要包括：在传统广义互相关法的基础上采用改进的相位加权(MPHAT)；

S5：根据双耳时间差几何模型，采用步骤S4得到的双耳时间差获取目标声源的方位。

进一步的，所述步骤S1采用双麦克风模拟人耳听觉系统获取包含混响的双耳语音信号。

进一步的，所述双麦克风模拟人耳听觉系统是根据耳蜗基底膜的分频特性，语音信号各个频率分量在基底膜相对应的位置上出现共振峰实现模拟人儿听觉系统的，耳蜗通常被认为是一组并行的带通滤波器，每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应，即沿着膜的每个位置具有特征频率，当该频率的纯音作为输入时，该位置出现峰值；对于复合音信号，则不同频率分量在基底膜映射的相应位置出现峰值，这样就把多频信号分解为了多个单频分量，因此，信号在基底膜各个位置上的响应过程相当于一次滤波；高频的信号输入引起更接近基底膜底部的最大位移，而低频信号输入会导致基底膜顶点处的最大位移，在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率，对于等效的滤波器组，意味着低频处紧密地分布着较窄的带宽，高频处分布着间隔更远的较宽的带宽。

进一步的，所述Gammatone滤波器组的脉冲响应时域表达式为：

其中，θ和A分别为Gammatone滤波器的初始相位和增益，f₀为滤波器

中心频率，对应基底膜上的特征频率，u(t)为阶跃函数，当t<0时，u(t)＝0，

当t>0时，u(t)＝1，b和n是定义包络的参数，用来调整伽马函数的分布，

n为滤波器的阶数，并确定边沿的斜率。

进一步的，所述滤波器的阶数n＝4，b定义为脉冲响应的持续时间，也就是带宽，即b＝1.019ERB(f₀)，ERB(f₀)表示中心频率为f₀的Gammatone滤波器等效矩形带宽，可表示为：

ERB(f₀)＝2.47+0.108f₀

从公式中可看出，Gammatone滤波器带宽与中心频率成正比。

进一步的，所述步骤S3进行倒谱滤波去混响处理包括步骤：

S41：分别在左子带信号x_l(n)和右子带信号x_r(n)的每一帧上加上指数窗ω(n)＝αⁿ，0≤n≤K-1，其中K是窗长，0<α≤1；

S42：对步骤S41加上指数窗后的左右子带信号分别进行倒谱处理，并计算倒谱域接收信号和脉冲信号的最小相位分量；

表示脉冲信号的最小相位分量，k表示倒谱域变量，

表示脉冲响应，在倒谱域中，

可由一个最小相位分量和

一个全通分量级联组成。

S43：通过连续信号帧递归获得估计的混响分量，即

其中，0<μ<1，m表示帧数；

表示倒谱域接收信号的最小相位分量。

S44：子带信号

减去混响部分

得到去混后的倒谱子带信号：

S45：再将

反变换到时域，并且使用逆指数窗，得到去混子带信号。

进一步的，所述广义互相关方法的具体步骤为：

S51：经过上述步骤滤波处理后的双耳信号表示为x₁(n)和x₂(n)，x₁(n)表示经过上述步骤处理过后的去混左子带信号，x₂(n)表示表示经过上述步骤处理过后的去混右子带信号，得到的互功率函数表示：

式中，

表示滤波器H₂(f)的复共轭；

表示双耳信号未经过滤波处理时的互功率谱函数，

表示经过滤波处理后的双耳信号x₁(n)和x₂(n)的互功率谱函数。

S52：将步骤S51中公式代入互相关函数可以得到信号x₁(n)和x₂(n)的广义互相关函数：

其中，ψ(f)为加权函数，

S53：在实际应用中，对互相关函数进行估计，则步骤S52中公式可表示为：

若加权函数ψ(f)＝1，即基本的互相关算法，若ψ(f)≠1，则称为广义互相关算法。

进一步的，所述的加权函数包括Roth加权函数、平滑相干变换加权函数SCOT和相位变化加权函数PHAT。

S54：如S53所述的加权函数，其中经常用到的加权函数有Roth加权函数、SCOT加权函数和PHAT加权函数等。

1.Roth加权函数

Roth加权函数为：

则经过Roth加权的GCC函数表示为：

其中

和

分别为有限时间段中x₁(n)和x₂(n)的互功率谱和互相关函数。Roth加权函数相当于维纳滤波函数，在理想环境下能得到准确的时延估计，在实际情况下可以抑制噪声大的频带，但会展宽互相关函数的峰，给时延最优值的估计带来干扰，导致声源定位的误差。

2.平滑相干变换(SCOT)

SCOT加权函数为：

则经过SCOT加权的GCC函数表示为：

相比Roth加权函数，SCOT同时考虑两个通道，当

时，相当于Roth加权函数，所以会展宽互相关函数的峰。

3.相位变化加权函数(PHAT)

PHAT方法的加权函数表示为：

则经过PHAT加权的GCC函数表示为：

在理想环境下可表示为：

GCC函数可简化为：

PHAT加权函数在信号能量较大的时候具有很好的效果，

可以不依赖源信号，所以PHAT方法一般要优于Roth和SCOT加权方法，适用于有混响和较低噪声的环境下。当

加权函数则不是一个δ函数，造成时延估计的困难。此外，PHAT加权函数是

的倒数的，在信号能量较小的情况下，分母趋向于零，对时延估计造成较大的误差，影响声源定位的准确度。

4.改进的相位变化加权函数(MPHAT)

为了弥补PHAT加权方法的不足之处，对PHAT方法进行改进，改进的相位变化加权函数(MPHAT)表示为：

其中，ν(f)定义为：

R是阈值，其取值范围为:0≤R≤1；γ是噪声频率分量的最低值，其取值范围为：0≤γ<1。

ν'(f)为双耳接收到信号的归一化量，其表达式为：

α和β是根据环境决定的谱减法参数，N(f)为噪声功率谱。

本发明的优点及有益效果如下：

本发明针对混响对语音不同频率分量的影响各不相同，对声源信号各频率分量作同样的处理会产生定位误差的问题，提出了一种基于分频和改进的广义互相关双耳时延估计方法，并详细阐述了整个模型的构建过程。在步骤S2中利用Gammatone滤波器组的分频特性，将混响语音划分为各个频率成分，在步骤S3中把不同的频带信号中进行独立的倒谱预滤波去混响处理，再对信号进行互相关分析。基于分频和改进的广义互相关双耳时延估计方法方法将信号分为多个单一频率的信号，分别进行独立去混响处理，具有更好的定位准确度和良好的抗混响性能。在步骤S4中进行改进相位加权的广义互相关算法，改进的广义互相关算法能够减小噪声对时延估计的影响，使其定位性能更高。

附图说明

图1是本发明提供优选实施例的基于分频和改进的广义互相关双耳时延估计流程图；

图2为Gammatone滤波器组多频率分解图；

图3为倒谱预滤波去混响框图；

图4为广义互相关时延估计原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

针对混响对语音不同频率分量的影响各不相同，对声源信号各频率分量作同样的处理会产生定位误差的问题，提出了一种基于分频和改进的广义互相关双耳时延估计算法。为了避免对语音的各个频率成分都做同样的处理，利用Gammatone滤波器组的分频特性，将混响语音划分为各个频率成分，在不同的频带信号中进行独立的倒谱预滤波去混响处理，再对信号进行互相关分析，获得时延估计。

混响环境下基于分频和改进的广义互相关双耳时延估计方法，其具体步骤如下：

S1：双麦克风模拟人耳听觉系统获取语音信号；

S2：步骤S1得到的含混响的语音信号，使用Gammatone滤波器组对双耳信号进行分频处理，得到不同频率的子带双耳信号；

S4：步骤S3得到的去混响的左右耳各子带信号采用基于分频和改进的广义互相关双耳时延估计方法进行双耳时间差估计；

S5：根据双耳时间差几何模型，采用步骤S4得到的双耳时间差获取目标声源的方位；

优选的，根据耳蜗基底膜的分频特性，语音信号各个频率分量在基底膜相对应的位置上出现共振峰：

S21：耳蜗通常被认为是一组并行的带通滤波器，每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应。也就是说，沿着膜的每个位置具有特征频率，当该频率的纯音作为输入时，该位置出现峰值；对于复合音信号，则不同频率分量在基底膜映射的相应位置出现峰值，这样就把多频信号分解为了多个单频分量。因此，信号在基底膜各个位置上的响应过程相当于一次滤波。

S22：高频的信号输入引起更接近基底膜底部的最大位移，而低频信号输入会导致基底膜顶点处的最大位移，在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率，对于等效的滤波器组，意味着低频处紧密地分布着较窄的带宽，高频处分布着间隔更远的较宽的带宽。

优选的，所述的耳蜗基底膜的分频特性，Gammatone听觉滤波器组可以提供耳朵中的基底膜运动的相当精确的感知模型，能将信号分解为各个频率分量的子带信号，并且还可以更好地表征人类听觉系统。

S31：Gammatone滤波器的原理和特性

Gammatone滤波器是由脉冲响应描述的线性滤波器，脉冲响应是伽马分布和正弦曲线的乘积。它是听觉系统中广泛使用的听觉滤波器模型，Gammatone滤波器组的脉冲响应时域表达式为：

其中，θ和A分别为Gammatone滤波器的初始相位和增益。f₀为滤波器中心频率，对应基底膜上的特征频率。u(t)为阶跃函数，当t<0时，u(t)＝0，当t>0时，u(t)＝1。b和n是定义包络的参数，用来调整伽马函数的分布。n为滤波器的阶数，并确定边沿的斜率，当n＝4时，该滤波器能给出人类听觉滤波器的良好近似，故本文选取n＝4。b定义为脉冲响应的持续时间，也就是带宽，即b＝1.019ERB(f₀)，ERB(f₀)表示中心频率为f₀的Gammatone滤波器等效矩形带宽，可表示为：

ERB(f₀)＝2.47+0.108f₀

从公式中可看出，Gammatone滤波器带宽与中心频率成正比。

S32：GT带通滤波器的实现:

其中T为采样频率。

优选的，所述的子带信号，将其进行倒谱滤波去混响处理，步骤为：

S41：在各左右子带信号x_l(n)和x_r(n)的每一帧上加上指数窗ω(n)＝αⁿ，0≤n≤K-1，其中K是窗长，0<α≤1；

S42：对各信号进行倒谱处理，并计算倒谱域接收信号和脉冲信号的最小相位分量；

S43：通过连续信号帧递归获得估计的混响分量，即

其中，0<μ<1，m表示帧数。

S44：子带信号

减去混响部分

得到去混后的倒谱子带信号：

S45：再将

反变换到时域，并且使用逆指数窗，得到去混子带信号；

优选的，如步骤S45获得的去混子带信号，左右各子带信号进行广义互相关计算，最大互相关值处为时延估计值。广义互相关方法的具体步骤：

S51：将信号x₁(n)和x₂(n)进行滤波处理，得到的互功率函数表示：

式中，

表示滤波器H₂(f)的复共轭；

其中，ψ(f)为加权函数，

S53：在实际应用中，观测时间时有限的，所以只能对互相关函数进行估计，则步骤S52中公式可表示为：

然而，随着加权函数的不一致，最终得到的广义互相关函数的差别。若加权函数ψ(f)＝1，就是之前讲述的基本的互相关算法。若ψ(f)≠1，则称为广义互相关算法。因为不同的背景噪声以及混响的不同，加权函数的选取也不同，所以要按照声音信号和背景噪声的先验知识进行选取。使得广义互相关函数的峰值得到锐化。但是该加权函数在实际应用中的选取比较困难，所以该值的选取的合适与否是声源定位是否准确的关键。

1.Roth加权函数

Roth加权函数为：

则经过Roth加权的GCC函数表示为：

其中

和

2.平滑相干变换(SCOT)

SCOT加权函数为：

则经过SCOT加权的GCC函数表示为：

相比Roth加权函数，SCOT同时考虑两个通道，当

时，相当于Roth加权函数，所以会展宽互相关函数的峰。

3.相位变化加权函数(PHAT)

PHAT方法的加权函数表示为：

则经过PHAT加权的GCC函数表示为：

在理想环境下可表示为：

GCC函数可简化为：

PHAT加权函数在信号能量较大的时候具有很好的效果，

4.改进的相位变化加权函数(MPHAT)

其中，ν(f)定义为：

ν'(f)为双耳接收到信号的归一化量，其表达式为：

α和β是根据环境决定的谱减法参数，N(f)为噪声功率谱。

如图1所示，为本发明提出的基于分频和改进的广义互相关双耳时延估计原理框图，该方法使用Gammatone滤波器对双耳信号进行分频处理，对每个子带信号进行倒谱预滤波的去混响处理后反变换到时域，左右耳各子带信号进行互相关运算，得到的每个子带的互相关值进行求和运算，获得最大互相关值对应的双耳时间差。

如图2所示，为本发明中Gammatone滤波器组多频率分解图。人耳耳蜗基底膜是听觉中枢实现语音分离的重要环节：语音信号由于频率的不同，基底膜不同位置产生不同的振动，从而起到分解语音信号的作用。因此本文选择具有人耳听觉特性的Gammatone滤波器组对语音信号进行频率分解。频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解。耳蜗基底膜模型将语音信号分成多个(滤波器个数)通道传递，从而便于语音信号在系统模型中的分离。

如图3所示，为本发明中的倒谱预滤波去混响算法。倒谱预滤波时延估计算法首先对信号分帧加窗，在每一帧信号中加入指数窗，使其变为最小相位信号；然后将信号进行倒谱计算，并将信号进行最小相位分解，获得估计的混响分量；再从信号中滤除估计的混响分量，最后将信号从倒谱域变换到时域后得到去混的信号。

如图4所示，为本发明中改进的广义互相关(GCC-MPHAT)时延估计算法，先将双耳信号进行滤波，再进行加权互相关计算，选取改进的相位加权函数能减少噪声和混响等干扰对时延估计的影响。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于分频和改进的广义互相关双耳时延估计方法，其特征在于，包括以下步骤：

S4：步骤S3得到的去混响的左右耳各子带信号采用改进的广义互相关时延估计方法求取双耳时间差，所述改进广义互相关时延估计方法包括：在传统广义互相关法的基础上采用改进的相位加权MPHAT；

所述广义互相关方法的具体步骤为：

式中，

表示滤波器H₂(f)的复共轭；

表示双耳信号未经过滤波处理时的互功率谱函数，

表示经过滤波处理后的双耳信号x₁(n)和x₂(n)的互功率谱函数；

其中，ψ(f)为加权函数，

若加权函数ψ(f)＝1，即基本的互相关算法，若ψ(f)≠1，则称为广义互相关；

改进的相位变化加权函数MPHAT表示为：

其中，ν(f)定义为：

R是阈值，其取值范围为:0≤R≤1；γ是噪声频率分量的最低值，其取值范围为：0≤γ＜1；

ν'(f)为双耳接收到信号的归一化量，其表达式为：

α和β是根据环境决定的谱减法参数，N(f)为噪声功率谱。

2.根据权利要求1所述的基于分频和改进的广义互相关双耳时延估计方法，其特征在于，所述步骤S1采用双麦克风模拟人耳听觉系统获取包含混响的双耳语音信号。

3.根据权利要求2所述的基于分频和改进的广义互相关双耳时延估计方法，其特征在于，所述双麦克风模拟人耳听觉系统是根据耳蜗基底膜的分频特性，语音信号各个频率分量在基底膜相对应的位置上出现共振峰实现模拟人儿听觉系统的，耳蜗通常被认为是一组并行的带通滤波器，每个滤波器用来模拟沿着耳蜗基底膜某一特定典型点的频率响应，即沿着膜的每个位置具有特征频率，当该频率的纯音作为输入时，该位置出现峰值；对于复合音信号，则不同频率分量在基底膜映射的相应位置出现峰值，这样就把多频信号分解为了多个单频分量，因此，信号在基底膜各个位置上的响应过程相当于一次滤波；高频的信号输入引起更接近基底膜底部的最大位移，而低频信号输入会导致基底膜顶点处的最大位移，在基底膜顶端附近的频率分辨率高于在底端附近的频率分辨率，对于等效的滤波器组，意味着低频处紧密地分布着较窄的带宽，高频处分布着间隔更远的较宽的带宽。

4.根据权利要求2所述的基于分频和改进的广义互相关双耳时延估计方法，其特征在于，所述Gammatone滤波器组的脉冲响应时域表达式为：