CN102438189B

CN102438189B - 基于双通路声信号的声源定位方法

Info

Publication number: CN102438189B
Application number: CN201110252923.2A
Authority: CN
Inventors: 周琳; 周菲菲; 胡婕; 吴镇扬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2011-08-30
Filing date: 2011-08-30
Publication date: 2014-07-09
Anticipated expiration: 2031-08-30
Also published as: CN102438189A

Abstract

一种基于双通路声信号的声源定位方法是一种改进的声源定位方法，本法将各频带耳间时间差ITD和耳间强度差IID的均值和方差作为声源方位的定位特征线索，建立方位映射模型。在实际声源定位时，输入为双通路声信号，输入声信号先经过类似人耳听觉滤波器的Gammatone滤波器组进行频带划分、滤波处理后，输入特征提取模块，提取出各子带的ITD、IID定位信息，基于高斯混合模型GMM整合各子带的ITD、IID定位线索，得到ITD、IID在各方位角相应频带上的似然值，作为方位估计的判决值。该系统具有较高的声源定位性能。

Description

基于双通路声信号的声源定位方法

技术领域

发明涉及一种双通路声信号的声源定位技术，尤其涉及一种双通路声信号的水平方位单声源定位方法。

背景技术

声源定位技术作为一门新兴的边缘交叉学科，可以帮助传递和识别可视信息，增加三维仿真环境的逼真度。目前主要定位算法有多麦克风阵列的声源定位算法和基于双通路的声源定位算法。多麦克风阵列的声源定位算法存在计算量大、麦克风阵列尺寸大，并且算法受混响等因素干扰大等问题。基于双通路声信号的声源定位方法模拟人耳的听觉特征，对噪声、混响等干扰可以实现较为准确的声源定位。最具有代表性的是基于互相关的耳间时间差ITD(Interaural TimeDifference)估计，然而基于互相关的ITD估计的定位只能定位前向方位，无法区分前后声源。而基于概率模型的后向定位算法，计算量较大。

发明内容

本发明的技术问题是针对现有声源定位技术的不足，提出了一种基于双通路声信号的水平方位声源定位的方法。本方法是一种改进的声源定位方法，本法将各频带耳间时间差ITD(Interaural Time Difference)和耳间强度差IID(Interaural Intensity Difference)的均值和方差作为声源方位的定位特征线索，建立方位映射模型。在实际声源定位时，输入为双通路声信号，输入声信号先经过类似人耳听觉滤波器的Gammatone滤波器组进行频带划分、滤波处理后，输入特征提取模块，提取出各子带的ITD、IID定位信息，基于高斯混合模型GMM(Gaussian Mixture Model)整合各子带的ITD、IID定位线索，得到ITD、IID在各方位角相应频带上的似然值，作为方位估计的判决值。

本发明的具体技术方案如下：

本发明基于双通路声信号的水平方位声源定位方法，其特征是：

本技术结合听觉系统特性对传统定位线索提取过程进行改进，输入双声道信号先经过类似人耳听觉滤波器的Gammatone滤波器组进行频带划分、滤波处理后，再分别输入特征提取模块提取出提取出各子带的ITD、IID定位信息。定位时，基于高斯混合模型GMM(Gaussian Mixture Model)整合各子带的ITD、IID定位线索，得到ITD、IID在各方位角相应频带上的似然值，作为方位估计的判决值。

(1)基于双通路声信号的水平方位声源定位的训练方法包括如下步骤：

a.使用37个方位的HRIR数据与白噪声卷积生成方位已知的虚拟声。

b.对步骤a所述的虚拟声进行进行预处理，包括幅度归一化、预加重、分帧和加窗，获得平稳的单帧信号。

c.将步骤b所述的平稳单帧信号进行端点检测，获得有效的单帧信号。

d.将步骤c所述的单帧信号经过Gammatone滤波器组分成IID、ITD子带信号。

e.对步骤d所述IID、ITD子带分别进行子带IID、子带ITD估计。将各子带IID、ITD的均值和方差作为该方位GMM模型的参数。

(2)基于双通路声信号的水平方位声源定位方法包括如下步骤：

f.将采集的声信号进行预处理，包括幅度归一化、预加重、分帧和加窗，获得平稳的单帧信号。

g.将步骤f所述的平稳单帧信号进行端点检测，获得有效的单帧信号。

h.将步骤g所述的单帧信号经过Gammatone滤波器组分成IID、ITD子带信号。

i.对步骤h所述IID、ITD子带分别进行子带IID、子带ITD估计。逐一计算子带特征在各方位GMM模型下的似然度值。

j.根据步骤i所述的子带ITD特征的似然度在θ＝0°～90°范围内搜索最大值，输出前向方位；

k.根据步骤i所述的子带IID特征的似然度进行前后对称方位的二值判决，输出最终定位结果。

本方法的原理说明：IID和ITD与方向角θ的对应关系均随声源频率变化。低频声信号ITD随频率变化较为缓和，且方差较小，可以引入IID进行辅助定位，可获得较高的估计精度。此外，人耳听觉特性对声源定位有较好的辅助作用，也可以弥补在有些条件下利用双耳特征和频谱特征进行定位的不足。人耳听觉系统的耳蜗时频分析特性可以等效为一组具有连续中心频率且相互交叠的带通滤波器。从而可以将听觉神经对声信号的响应建模为听觉滤波器以改善声源定位系统的性能。

附图说明

图1空间坐标系统示意图。

图2(a)和(b)是Gammatone滤波器的数字实现示意图(f_c＝1000Hz，B＝125Hz，n＝4)，其中(a)是时域脉冲响应示意图，(b)是频谱相应示意图。

图3基于双通路声信号的水平方位声源定位方法实现框图。

图4端点检测流程图。

图1中，在本发明中，声源位置由坐标唯一确定。其中，0≤r＜+∞为声源与原点的距离；仰角为方向矢量与水平面的夹角，0°和+90°分别表示正下方、水平面和正上方；方向角0°≤θ＜360°为方向矢量在水平面的投影与中垂面的夹角。水平面上，θ＝0°表示正前方，沿顺时针方向θ＝90°、180°和270°分别表示正右、正后和正左方。

图2(a)中横坐标表示时间，纵坐标表示归一化响应。(b)中，横坐标表示频率，纵坐标表示归一化响应。

图3中，GBF_IID、GBF_ITD表示用于分割IID、ITD子带的Gammatone滤波器组。HRTF为头相关传递函数，白噪声经过后，产生用于训练的方位性虚拟声信号。

图4中，端点检测的门限值设为Z_min＝0.01，Z_max＝0.4。

具体实施方式

下面结合附图对发明技术方案进行详细说明：

本发明的Gammatone滤波器用四个2阶数字滤波器级联实现，其系统函数为

H (z) = \frac{A_{0} + A_{1} z^{- 1} + A_{2} z^{- 2}}{1 + B_{1} z^{- 1} + B_{2} z^{- 2}}

滤波器系数计算公式为

A₀＝T_s

A_{1} = - e^{- {BT}_{S}} [\cos (2 {πf}_{c} T_{s} &PlusMinus; {(3 &PlusMinus; 2 \sqrt{2})}^{1 / 2} \sin ({2 πf}_{c} T_{s})) T_{s}

A₂＝0

B_{1} = - 2 e^{{- BT}_{S}} \cos ({2 πf}_{c} T_{s})

B_{2} = e^{- 2 {BT}_{S}}

其中T_S＝1/f_s为采样周期，带宽B＝1.019ERB，A₁计算公式中的±组合对应四个不同滤波器。图2(a)和(b)给出了数字实现与Gammatone滤波器时域和频域的对比图。

图3给出了基于双通路声信号的水平方位声源定位方法实现框图，图中分别对训练和测试阶段声信号的处理流程进行了标注，下面具体介绍各模块的功能和实现方案。

1、预处理

由于采集设备采集到的声信号中可能夹杂着很多电子噪声和背景噪声，为了抑制噪声影响到后续信号的分析，需要进行预处理；本方法的预处理包括：幅度归一化、预加重、分帧及加窗。本技术方案采取帧长为30ms，帧移为10ms。

预加重采用一阶数字滤波器H(z)＝1-μz^-1，其中μ＝0.97。本方法使用汉明窗对分帧后的语音信号进行加窗处理，加窗后的第n帧信号可以表示为x_n(m)＝w_H(m)x(nN+m)0≤m＜N，N为一帧采样数据长度，为1323，

其中，

w_{H} (m) = \{\begin{matrix} 0.54 - 0.46 \cos [2 πm / (N - 1)] & 0 \leq m < N \\ 0 & m &GreaterEqual; N \end{matrix}

为汉明窗。

2、端点检测

图4给出了端点检测的流程图，端点检测的目的就是从一段接收声信号中找出有效信号的起始点和结束点，从而只对有效信号进行处理。准确的端点检测不仅可以减少数据存储量和处理时间，而且能排除无声段和噪声的干扰。本方法采用短时能量和过零率特征相结合，对单耳信号进行检测。

短时能量即一帧信号所具有的平均能量，计算公式为

E_{n} = Σ_{m = 0}^{N - 1} {| x_{n} (m) |}^{2} = Σ_{k = 0}^{N - 1} {| X_{n} (k) |}^{2}

其中x_n(m)，m＝0，1，...N-1为经过预处理的第n帧采集声信号，X_n(k)，k＝0，1，...N-1为对应的频域信号。

为了确保能量门限能正确检测到期望的声源信号且不发生误判，使用多帧平均能量作为判决门限，该门限值在每帧数据判决后自适应地改变，更新公式为

E_{n}^{th} = E_{n - 1}^{th} + \frac{(E_{n} - E_{n - L})}{L}

其中分别为更新前、后的判决门限，E_n、E_n-L分别为第n帧、第(n-L)帧的短时能量，L为参与平均的帧数，该公式需要存储L帧能量信息。

短时过零率为一帧信号波形穿过零电平的次数占帧长的百分比，对于离散信号，只要比较相邻两个采样点的符号即可，计算公式为

Z_{n} = \frac{1}{2 N} Σ_{m = 1}^{N} | sgn {x_{n} (m)} - sgn {x_{n} (m - 1)} |

其中，sgn(x)为符号函数。本文使用的判决门限为Z_min＝0.01，Z_max＝0.4，其中设置下限Z_min是为了滤除部分静音帧的影响。

3、子带特征提取

双耳声信号经过基于人耳听觉特性设计的Gammatone滤波器组的滤波处理后，输出子带信号，模拟听觉系统对声信号的频率选择过程，将各子带信号分别输入定位线索估计模型，即可获得各子带频率范围内接收声信号的耳间差信号。这种子带定位线索考虑了不同频率范围上耳间差的分布差异，用于后续方位匹配时可以有效提高匹配精度。

第i帧声信号的第j个子带ITD估计值：

{ITD}_{i, j} = \arg \max_{k} (Σ_{n = 0}^{N - 1} x_{L_j} (n) x_{R_j} (n + k)), k = 0,1, . . ., {2 af}_{s}, i = 0,1, . . ., j = 1,2, . . .

其中N为一帧信号的采样点数，f_s为采样率，α为头部半径。

第i帧声信号的第j个子带IID估计值：

{IID}_{i, j} = 20 \log \frac{Σ_{k = 0}^{N - 1} {| x_{L_j} (k) |}^{2}}{Σ_{k = 0}^{N - 1} {| x_{R_j} (k) |}^{2}}, i = 0,1, . . . j = 1,2, . . .

其中i为帧号，j为子带号。

其中ITD_i，IID_i，i＝1，2，...，N为由待定位的接收声信号计算得到的子带耳间差估计值。

λ_{k} = (μ_{k, i}^{ITD}, μ_{k, i}^{IID}, σ_{k, i}^{ITD}, σ_{k, i}^{IID}, w_{k, i}^{ITD}, w_{k, i}^{IID}), i = 1,2, . . ., N

为每个声源位置对应的GMM模型的特征参数。k为方向角索引，i为子带索引。

4、子带特征整合

单一子带耳间差信息直接用于声源定位时并不能获得较高的定位精度，而各子带联合分布特性则提供了良好的声源位置信息。因此需要将多个子带数据融合，用生成的联合判决量进行定位。本技术使用高斯混合模型(Gaussian MixtureModel，GMM)整合子带耳间差信息。GMM模型由各混合分量的均值、方差和混合权重描述，模型参数λ＝{w_i，μ_i，σ_i，i＝1，2，...，N}，其中w_i为混合权重。μ_i为均值，σ_i为方差。混合权重取

w_{i} = \sqrt{\frac{1}{K} Σ_{k = 1}^{K} \frac{μ_{k, i}^{2}}{σ_{k, i}^{2}}}, i = 1,2, . . ., N

该式对每个子带特征在所有方位上进行平均，其中省略了上标ITD和IID。

5、训练模块

训练模块用于建立子带定位特征的统计模型，其输入信号为方位已知的声信号，经过子带特征提取过程，估计各方位声信号子带耳间差的均值和方差作为该方位GMM模型的参数。

本技术方案使用MIT媒体实验室测量的HRIR数据与白噪声卷积生成的虚拟声作为训练数据。本技术使用KEMAR小耳廓水平面右侧37个方位(θ＝0°～180°)的HRIR数据获得用于训练的虚拟声信号，该部分数据的角度间隔为5°。根据分析，训练模型中ITD、IID子带中心频率的取值范围分别为300～800Hz、2～10kHz，子带数均取为16。

6、定位模块

定位模块用于将待测声信号与训练模块建立的各方位特征模型逐一匹配并寻找似然度最大的方位。定位过程按以下步骤进行：

1)提取待定位声信号的子带ITD、IID特征；每个声源位置对应于一个特征参数为

λ_{k} = (μ_{k, i}^{ITD}, μ_{k, i}^{IID}, σ_{k, i}^{ITD}, σ_{k, i}^{IID}, w_{k, i}^{ITD}, w_{k, i}^{IID}), i = 1,2, . . ., N

(k＝1，2，...，K，K为位置数)的GMM模型。

2)逐一计算上述子带特征在各方位GMM模型下的似然度值；

方位匹配的判决量为

P_{k}^{ITD} = Σ_{i = 1}^{N} \frac{w_{i}^{ITD}}{\sqrt{2 π {(σ_{k, i}^{ITD})}^{2}}} \exp {- \frac{1}{2 {(σ_{k, i}^{ITD})}^{2}} {(ITD - μ_{k, i}^{ITD})}^{2}}, k = 1,2, . . ., K

P_{k}^{IID} = Σ_{i = 1}^{N} \frac{w_{i}^{IID}}{\sqrt{2 π {(σ_{k, i}^{IID})}^{2}}} \exp {- \frac{1}{2 {(σ_{k, i}^{IID})}^{2}} {(IID - μ_{k, i}^{IID})}^{2}}, k = 1,2, . . ., K

该判决量反应了接受声信号与各声源位置GMM模型的似然度。

3)根据子带ITD特征的似然度在θ＝0°～90°范围内搜索最大值，输出前向方位；

4)根据子带IID特征的似然度进行前后对称方位的二值判决，输出最终定位结果。

Claims

1.一种基于双通路声信号的水平方位声源定位方法，其特征是包括步骤：

1）基于双通路声信号的水平方位声源定位的训练，方法包括如下步骤：

101）使用与头相关脉冲响应函数HRIR数据与白噪声卷积生成方位已知的虚拟声；

102）对所述虚拟声进行预处理，获得平稳的单帧信号；预处理包括幅度归一化、预加重、分帧和加窗，获得平稳的单帧信号；

103）将步骤102）得到的平稳单帧信号进行端点检测，获得有效的单帧信号；

104）将步骤103）得到的单帧信号经过Gammatone滤波器组分成耳间强度差IID子带和耳间时间差ITD子带；该ITD、IID子带中心频率的取值范围分别是300～800Hz、2～10kHz；

105）对步骤104）得到的IID、ITD子带分别进行子带IID、子带ITD估计；将各子带IID、ITD的均值和方差作为方位GMM模型的参数；

2）基于双通路声信号的水平方位声源定位，方法包括如下步骤：

201）将采集的声信号进行预处理，包括幅度归一化、预加重、分帧和加窗,获得平稳的单帧信号；

202）将步骤201）得到的平稳单帧信号进行端点检测，获得有效的单帧信号；

203）将步骤202）得到的单帧信号经过Gammatone滤波器组分成IID、ITD子带信号；该ITD、IID子带中心频率的取值范围分别是300～800Hz,2～10kHz；

204）步骤包括：

2041）提取待定位声信号的子带ITD、IID特征；每个声源位置对应于一个特征参数为

λ_{k} = (μ_{k, i}^{ITD}, μ_{k, i}^{IID}, σ_{k, i}^{ITD}, σ_{k, i}^{IID}, w_{k, i}^{ITD}, w_{k, i}^{IID}), i = 1,2, . . ., N

的GMM模型，其中k=1,2,…,K，K为位置数，分别GMM模型所对应的ITD、IID均值，分别为GMM模型所对应的ITD、IID参数方差；为GMM模型所对应的ITD、IID混合权重，该混合权重是通过如下方式计算得到：

混合权重取

w_{i} = \sqrt{\frac{1}{K} Σ_{k = 1}^{K} \frac{μ_{k, i}^{2}}{σ_{k, i}^{2}}} i = 1,2, . . ., N

该式对每个子带特征在所有方位上进行平均，其中省略了上标ITD和IID；

2042）逐一计算子带特征在各方位GMM模型下的似然度值；

方位匹配的判决量为：

P_{k}^{ITD} = Σ_{i = 1}^{N} \frac{w_{i}^{ITD}}{\sqrt{2 π {(σ_{k, i}^{ITD})}^{2}}} \exp {- \frac{1}{2 {(σ_{k, i}^{ITD})}^{2}} {(ITD - μ_{k, i}^{ITD})}^{2}}, k = 1,2, . . ., K

P_{k}^{IID} = Σ_{i = 1}^{N} \frac{w_{i}^{IID}}{\sqrt{2 π {(σ_{k, i}^{IID})}^{2}}} \exp {- \frac{1}{2 {(σ_{k, i}^{IID})}^{2}} {(IID - μ_{k, i}^{IID})}^{2}}, k = 1,2, . . ., K

其中ITD_i,IID_i,i=1,2,…,N为由待定位的接收声信号计算得到的子带耳间差估计值；

λ_{k} = (μ_{k, i}^{ITD}, μ_{k, i}^{IID}, σ_{k, i}^{ITD}, σ_{k, i}^{IID}, w_{k, i}^{ITD}, w_{k, i}^{IID}), i = 1,2, . . ., N

为每个声源位置对应的GMM模型的特征参数；k为方向角索引，i为子带索引；

该判决量反应了接受声信号与各声源位置GMM模型的似然度；

2043）根据子带ITD特征的似然度在θ=0°～90°范围内搜索最大值，输出前向方位；

2044）根据子带IID特征的似然度进行前后对称方位的二值判决，输出最终定位结果；

步骤105）和204）中，

第i帧声信号的第j个子带ITD估计值：

{ITD}_{i, j} = \arg \max_{k} (Σ_{n = 0}^{N - 1} x_{L_j} (n) x_{R_j} (n + k)) k = 0,1, . . ., 2 a f_{s}, i = 0,1, . . ., j = 1,2, . . .,

其中x_{L_j}(n)为左声道信号，x_{R_j}(n)为右声道信号，N为一帧信号的采样点数，f_s为采样率，α为头部半径；

第i帧声信号的第j个子带IID估计值：

{IID}_{i, j} = 21 \log \frac{Σ_{k = 0}^{N - 1} {| x_{L_j} (k) |}^{2}}{Σ_{k = 0}^{N - 1} {| x_{R_j} (k) |}^{2}} i = 0,1, . . . j = 1,2, . . .,

其中i为帧号，j为子带号。

2.根据权利要求1所述的方法，其特征是所述步骤103）和步骤202）中的端点检测方法是采用短时能量和过零率特征相结合，对单耳信号进行检测：

a、读取一帧声信号；

b、计算短时能量：

短时能量即一帧信号所具有的平均能量，计算公式为

E_{n} = Σ_{m = 0}^{N - 1} {| x_{n} (m) |}^{2} = Σ_{k = 0}^{N - 1} {| X_{n} (k) |}^{2},

其中x_n(m),m=0,1,…N-1为经过预处理的第n帧采集声信号，X_n(k),k=0,1,…N-1为声信号对应的频域信号；

c、判断短时能量是否大于门限，如果大于门限则继续，如果不大于门限则是没有检测到语音：

使用多帧平均能量作为判决门限，该门限值在每帧数据判决后自适应地改变，更新公式为

E_{n}^{th} = E_{n - 1}^{th} + \frac{(E_{n} - E_{n - L})}{L},

其中分别为更新前、后的判决门限，E_n、E_n-L分别为第n帧、第(n-L)帧的短时能量，L为参与平均的帧数，该公式需要存储L帧能量信息；

d、计算短时过零率：

Z_{n} = \frac{1}{2 N} Σ_{m = 1}^{N - 1} | sgn {x_{n} (m)} - sgn {x_{n} (m - 1)} |,

其中，sgn(x)为符号函数；

如果短时过零率在预设范围内，则表示检测到语音，否则表示没有检测到语音。

3.根据权利要求2所述的方法，其特征是步骤d中，短时过零率的预设范围为Z_min=0.01，Z_max=0.4。