CN105575403A

CN105575403A - 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法

Info

Publication number: CN105575403A
Application number: CN201510990289.0A
Authority: CN
Inventors: 张毅; 徐晓东; 萧红; 罗久飞; 黄超; 苏祖强
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-05-11

Abstract

本发明请求保护一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法，涉及语音识别控制领域。本发明在鲁棒性方面，针对传统基于双耳互相关的声源定位方法在噪声环境下声源定位精度下降，提出把听觉掩蔽的听觉特性引入谱减法中，能够较好地抑制音乐噪声，可以把基于听觉掩蔽的谱减法作为双耳定位的前端处理，这将有利于广义互相关提取双耳时间差，从而提高声源定位系统在噪声环境下的声源定位精度；在双耳互相关声源定位方法的改进上，针对“耳廓效应”和“优先效应”对声源定位的影响较大，提出基于双耳信号帧的互相关声源定位方法，该方法可以减少“耳廓效应”和“优先效应”所带来的定位误差，从而提高声源定位精度。

Description

一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法

技术领域

本发明属于双耳信号的声源定位领域，具体涉及声源定位系统中的抗噪和双耳互相关声源定位方法的改进。

背景技术

在现实生活中，人们的谈话场景通常存在多个声源、背景噪声以及回响，但是人耳听觉系统能够有效的识别和定位出感兴趣的声源信号，这种现象被称为“鸡尾酒会效应”。这种现象经常出现在鸡尾酒会上，两个客人可以在说话的一群人的旁边正常的交流，听者还可以根据感兴趣的语音信号判断出目标声源的方向，比如说听者在听到有人叫唤他的名字时会将头面向说话者。由此可以看出，人耳听觉系统可以从嘈杂的多声源环境中定位出目标声源的方向。

“鸡尾酒会效应”展示了人耳听觉系统强大的语音分离和定位功能，带动了研究人员对于多声源环境下声源定位技术的研究兴趣。随着听觉生理学、人工智能和语音识别技术的发展，声源定位技术越来越受到重视，很多国家为此投入更多的人力和物力来推动这一项研究。多声源环境下的声源定位技术不仅在基于语音的人-机交互以及助听器方面有着广泛的应用，而且还加深人类对人耳听觉中枢系统的研究。本课题主要研究多声源下声源定位技术，符合人类听觉特性，也使得其有更多实际的应用方向。

近年来，声源定位技术的研究价值得到科研人员的高度重视。这是因为与别的定位技术仔细相比，一些很好的优点也能在声源定位技术找到[1]。其一，声源定位技术在现实中受条件的限制比较少，实用性自然好。众所周知，声音是通过空气传播的，其传播过程并不受光线、温度以及障碍等因素的影响，所以在一些恶劣环境下，声源定位系统仍能正常工作。其二，声源定位技术在躲避侦查中隐蔽性很高，外界是无法侦测到声源定位系统的活动迹象，自然就能够保证声源定位系统位置的隐蔽性。其三，声源定位技术相对其他定位技术而言，其实现比较简单。因为声源定位技术采用的设备比激光、电磁波定位等技术更加简单便宜，实现也比较容易，因此声源定位技术的投资更加经济实惠，将更适合于推向民用。

另外，声源定位技术在日常生活和生产当中起到非常重要的作用。例如，在智能机器人研究中，研究人员希望智能机器人能够模拟人耳听觉系统，通过声源定位获取声源的方向信息，将有助于智能机器人对声源的实时跟踪，提高智能机器人的人-机交互和语音识别能力；在语音增强的研究当中，为了抑制噪声干扰，利用声源定位技术得到声源的位置信息，然后调整麦克风面向声源位置，从而就可以增强声源的声音强度；在助听器的研究中，传统助听器引入声源定位技术，将进一步帮助听觉障碍者恢复正常的听觉能力；在电视电话会议中，为了让说话人的画面更加清晰，声源定位技术可以获取说话人的位置信息，并且利用说话人的位置信息引导摄像头转向说话人；在军事领域中，具有代表性的海军舰船和潜艇的声呐系统都采用了声源定位系统，主要是用来监视海水下面运动的物体，获得目标物体的位置、航向、航速等信息，然后对其进行声源定位与跟踪；在安防系统的应用中，最常用的是视频监控，而人们生活所用到的视频监控系统一般都有不足的方面，可是声源定位技术能够很大程度上解决这些问题，比如说在光线不足的环境下，摄像头无法监控到周围的所有地方的目标，而声源定位系统能够监控所有地方，只要发现可疑的声音就可以马上通知监控人员。

综上所述，声源定位技术起源于人们对于人耳听觉特性的研究，因此它通过模拟人耳听觉系统实现对声源方向的定位功能，在人工智能、语音识别以及助听器方面有着重要的研究意义和实用价值。

发明内容

本发明所要解决的技术问题是，在鲁棒性方面，针对传统基于双耳互相关的声源定位方法在噪声环境下声源定位精度下降，提出把听觉掩蔽的听觉特性引入谱减法中，能够较好地抑制音乐噪声，可以把基于听觉掩蔽的谱减法作为双耳定位的前端处理，这将有利于广义互相关提取双耳时间差，从而提高声源定位系统在噪声环境下的声源定位精度；在双耳互相关声源定位方法的改进上，针对“耳廓效应”和“优先效应”对声源定位的影响较大，提出基于双耳信号帧的互相关声源定位方法，该方法可以减少“耳廓效应”和“优先效应”所带来的定位误差，从而提高声源定位精度。提出了一种提高声源定位系统在噪声环境下的声源定位精度的融合听觉掩蔽与双耳信号帧的互相关声源定位方法。。本发明的技术方案如下：一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其包括以下步骤：

101、建立基于双耳信号的声源定位模型，包括：扬声器、人工头、两个麦克风和一个用于信号处理的笔记本电脑，扬声器发出声音，人工头的耳道内的两个麦克风用于接收声源信号，并且将左耳和右耳的声音信号录取下来传输给笔记本电脑，笔记本电脑用于进行信号处理；

102、麦克风获取语音信号，先对语音信号进行听觉掩蔽谱减法处理；

103、然后采用基于双耳信号帧的声源定位方法对双耳信号进行分帧，再对每对信号帧采用双耳互相关声源定位方法计算，其次通过设定方位角度阈值，除去偏差较大的方位角度，获取声源方位角度。。

进一步的，步骤102听觉掩蔽谱减法具体为：在计算听觉掩蔽值之前，首先求得临界带宽的功率谱、扩展临界带宽的功率谱以及噪声掩蔽扩展门限，然后把噪声掩蔽扩展门限与人耳听觉的设定绝对门限值进行对比，听觉掩蔽阈值就是它们之中的最大值。

进一步的，所述临界带宽的表达式如下：

Z＝26.18f/(1960+f)-0.53

其中，Z表示临界带宽编号，f表示频率。

进一步的，所述扩展临界带宽的功率谱在式中，P(k)为信号快速傅立叶变换的功率谱，l_i和h_i分别表示第i个临界带宽的最小频率和最大频率，i在[1，i_max]的范围内，并且语音信号的采样频率决定i_max。

进一步的，计算出噪声掩蔽阈值后，利用噪声掩蔽阈值和自适应的谱减法系数，得到两个谱减法系数，再结合Berouti提出的改进谱减法的方法，得到听觉掩蔽谱减法表达式。

进一步的，步骤103具体为：假设左耳信号和右耳信号分别为：x_l(t)和x_r(t)，经过分帧后成为长度相同的语音信号帧，令左耳信号x_l(t)和右耳信号x_r(t)在时间上相对应的语音信号帧分别为和然后，先对双耳信号进行时间延迟估计，利用广义互相关时延方法求出双耳时间差ITD，然后根据双耳时间差的几何模型，得到声源方向角度θ^k。

进一步的，还包括过滤方位角度的步骤：设定一个过滤角度阈值，将误差大于过滤角度阈值的方位角度除去，把剩余方位角度的平均值作为最终声源定位的方位角度，求取剩余方位角度的平均值从而计算得到声源定位的方位角度。

本发明的优点及有益效果如下：

本发明在鲁棒性方面，针对传统基于双耳互相关的声源定位方法在噪声环境下声源定位精度下降，提出把听觉掩蔽的听觉特性引入谱减法中，能够较好地抑制音乐噪声，可以把基于听觉掩蔽的谱减法作为双耳定位的前端处理，这将有利于广义互相关提取双耳时间差，从而提高声源定位系统在噪声环境下的声源定位精度；在双耳互相关声源定位方法的改进上，针对“耳廓效应”和“优先效应”对声源定位的影响较大，提出基于双耳信号帧的互相关声源定位方法，该方法可以减少“耳廓效应”和“优先效应”所带来的定位误差，从而提高声源定位精度。

附图说明

图1是本发明提供优选实施例一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法原理图；

图2谱减法原理图；

图3双耳互相关的声源定位方法原理图；

图4基于双耳信号帧的声源定位方法原理图。

具体实施方式

以下结合附图，对本发明作进一步说明：

如图1所示，为了提高双耳声源定位方法在噪声环境下的定位精度，本发明主要从两个方面进行研究：一是将基于听觉掩蔽的谱减法作为声源定位系统的预处理。在噪声环境下，两个双耳语音信号先经过基于听觉掩蔽的谱减法进行语音增强，减少了双耳信号中噪声的干扰；二是对传统双耳互相关的声源定位方法的改进，对左耳和右耳信号进行分帧处理，然后对每对信号帧采用传统的基于双耳的互相关声源定位方法，将会得到多个不同的声源方位角度。其中，大部分方位角度比较集中，但是由于受到，部分方位角度离平均角度相差很大，被视为存在干扰的方位角度。通过设置一个合理方位角度阈值，除去误差较大的定位角度，把剩余方位角度的平均值作为最终声源定位的方位角度。

①将基于听觉掩蔽的谱减法

如图2所示，s(t)表示纯净语音信号，n(t)为噪声信号，y(t)表示含有噪声的语音信号。于是，含有噪声的语音信号可以表示为：

y(t)＝s(t)+n(t)(1)

上式经过快速傅里叶变换之后的表达式如下：

Y_k＝S_k+N_k(2)

上式的功率谱密度的表达式为：

| Y_{k} |^{2} = | S_{k} |^{2} + | N_{k} |^{2} + S_{k} N_{k}^{*} + S_{k}^{*} N_{k} - - - (3)

因为纯净语音信号和噪声是相互独立的，并且噪声是以N_k为零均值的高斯分布，所以上式可转化为：

E[|Y_k|²]＝E[|S_k|²]+E[|N_k|²](4)

又因为每一帧的语音具有短时平稳性，表达式可表示为：

|Y_k|²＝|S_k|²+λ_n(k)(5)

其中，λ_n(k)表示无语音信号时|N_k|²的统计平均值，那么原始语音信号的估计为：

| {\hat{S}}_{k} | = {[| Y_{k} |^{2} - | N_{k} |^{2}]}^{\frac{1}{2}} = {[| Y_{k} |^{2} - λ_{n} (k)]}^{\frac{1}{2}} - - - (6)

将上式(6)写成增益形式为：

| {\hat{S}}_{k} | = G_{k} | Y_{k} | - - - (7)

G_k＝(1-1/γ_k)^1/2(8)

其中，γ_k表示后验信噪比，表达式如下：

γ_k＝|Y_k|²/λ_n(k)(9)

式(9)中，当γ_k小于1时，G_k为虚数，将失去意义。为此，把上式(9)改写成为：

G_k＝max(ε,(1-1/γ_k)^1/2)(10)

其中，ε为大于零的常数。

一般说来，含有噪声的语音信号经过谱减法处理之后会产生新类型的噪声。这种残留噪声具有节奏起伏感，被称为“音乐噪声”。在谱减法处理过程中，首先要估计出语音信号中的噪声，通常是由不含语音信号的信号帧分析和统计得到的，再加上噪声频谱具有服从高斯分布的特性，也就是噪声的幅度变化范围很大，因此当某帧的语音信号含有很大幅度的噪声时，运用谱减法估计出的纯净语音信号在频谱上会产生随机的波峰，人们仔细听起来像很有节奏的“音乐噪声”。

在计算听觉掩蔽之前，首先要求得临界带宽的功率谱、扩展临界带宽的功率谱以及噪声掩蔽扩展门限。然后把噪声掩蔽扩展门限与人耳听觉的绝对门限进行对比，听觉掩蔽阈值就是它们之中的最大值。

人们通过实验得到了真实的人耳临界带宽，该表展示了24个临界带宽的中心频率、编号以及频率范围。划分临界带宽的表达式如下：

Z＝26.18f/(1960+f)-0.53(11)

其中，Z表示临界带宽编号，f表示频率。

每个临界带宽的功率谱是通过对每个临界带宽内的功率谱求和得到的。设P(k)为信号快速傅里叶变换的功率谱，则每个临界带宽的功率谱为：

B_{i} = Σ_{k = l_{i}}^{h_{i}} P (k) - - - (12)

在式(12)中，l_i和h_i分别表示第i个临界带宽的最小频率和最大频率，i在[1，i_max]的范围内，并且语音信号的采样频率决定i_max。

研究表明，人耳的各个临界带宽之间存在相互掩蔽效应，而且随着临界带宽距离的增大，这种掩蔽效应相应的减弱。于是，人们开始用一种扩展形式表示临界带宽之间的相互掩蔽作用，并且将临界带宽功率谱转换为扩展临界带宽功率谱。为了很好地表示这个生理现象，用扩展函数SF_ij来表示不同临界带宽之间的掩蔽效应作用，表达式如下：

{SF}_{i j} = 15.81 + 7.5 (i - j + 0.747) - 17.5 {(1 + {(i - j + 0.747)}^{2})}^{\frac{1}{2}} - - - (13)

然后，将每个临界带宽的功率谱转换成扩展临界带宽的功率谱，扩展临界带宽的功率谱的计算表达式如下：

C_i＝SF_ij*B_j(14)

其中，“*”表示卷积运算，C_i为第i个扩展临界带宽的功率谱。

在一般情况下，存在两种类型的噪声掩蔽阈值：一种是纯音掩蔽噪声的噪声掩蔽阈值，另一种是噪声掩蔽纯音的噪声掩蔽阈值。为了确定信号是属于哪种类型的噪声掩蔽阈值，一般通过计算谱平坦测度(SpectralFlatnessMeasure，SFM)来确定，谱平坦测度的表达式如下：

S F M (i) = 10 \log_{10} \frac{{Gm}_{i}}{{Am}_{i}} - - - (15)

其中，Gm_i和Am_i分别是第i个扩展临界宽带功率的几何平均值和算术平均值。

{Gm}_{i} = {(Π_{k = l_{i}}^{h_{i}} P (k))}^{\frac{1}{h_{i} + l_{i} + 1}} - - - (16)

{Am}_{i} = \frac{1}{h_{i} - l_{i} + 1} [Σ_{k = l_{i}}^{h_{i}} P (k)] - - - (17)

接下来，用参数α表示语音信号功率谱的浊音程度，通过SFM的值来计算该参数，表达式如下：

α = m i n (\frac{S F M (i)}{{SFM}_{m a x}}, 1) - - - (18)

其中，SFM_max＝-60dB。当SFM(i)＝0dB时，α＝0表示语音信号完全是噪声；当SFM(i)＝-60dB时，α＝1表示语音信号完全是纯音。但事实上实际的语音信号既不完全噪声，也不完全是纯音。因此，参数α是介于0到1之间。

利用参数α计算相对的掩蔽阈值移量，表达式如下：

O_i＝α_i×(14.5+i)+(1-α_i)×5.5(19)

将噪声掩蔽阈值再扩展到各频谱上，得到扩展噪声掩蔽阈值表达式如下：

{TSF}_{i} = 10^{\log_{10} (C_{l}) - (O_{i} / 10)} - - - (20)

最终的噪声掩蔽阈值，也就是听觉掩蔽阈值，表达式如下：

T = m a x {T_{a b s} (i), \frac{{TSF}_{i}}{Σ_{j = 1}^{i_{\max}} {SF}_{i j}}} - - - (21)

其中，T_abs(i)表示绝对听阈值，由非线性函数求得，表达式如下：

T_{a b s} (i) = 3.64 \times {(f / 1000)}^{0.8} - 6.5 e^{- 0.6 {(f / 1000 - 3.3)}^{2}} + 10^{- 3} \times {(f / 1000)}^{4} - - - (23)

其中，f表示信号频率。

计算出噪声掩蔽阈值后，利用噪声掩蔽阈值和自适应的谱减法系数，表达式如下：

\frac{T_{m a x} - T_{i}}{α (k) - α_{m i n}} = \frac{T_{i} - T_{\min}}{α_{\max} - α (k)} - - - (24)

\frac{T_{m a x} - T_{i}}{β (k) - β_{m i n}} = \frac{T_{i} - T_{m i n}}{β_{m a x} - β (k)} - - - (25)

其中，T_i表示第i频率段的听觉掩蔽阈值，T_max和T_min是每一帧语音信号的听觉掩蔽阈值的最大值和最小值。通过分析表达式，得到两个谱减法系数：

α (k) = \frac{(T_{m a x} - T_{i}) (α_{m a x} - α_{m i n})}{T_{\max} - T_{m i n}} + α_{m i n} - - - (26)

β (k) = \frac{(T_{m a x} - T_{i}) (β_{m a x} - β_{\min})}{T_{\max} - T_{m i n}} + β_{m i n} - - - (27)

其中，α_min＝1，α_max＝6，β_min＝0以及β_max＝0.02。再结合Berouti等人提出的方法，表达式(10)的增益函数可以转换成如下表达式：

其中，γ＝2。

②基于双耳信号帧的声源定位方法

在人工头中，左耳和右耳都设置一个麦克风，接收到声源的语音信号分别可以用HRTF来表示，表达式如下：

x_l(t)＝s(t)*h_l(θ,t)+n₁(t)(29)

x_r(t)＝s(t)*h_r(θ,t)+n₂(t)(30)

其中，“*”表示卷积，s(t)表示声源信号，h_l(θ,t)和h_r(θ,t)表示在水平方位上左耳和右耳的响应函数，这是已经测量得到的，n₁(t)和n₂(t)表示左耳和右耳信号混入的噪声。

假设左耳信号和右耳信号分别为：x_l(t)和x_r(t)，经过分帧后成为长度相同的语音信号帧。令左耳信号x_l(t)和右耳信号x_r(t)在时间上相对应的语音信号帧分别为和然后，根据基于双耳信号帧的声源定位原理如图4所示，利用双耳互相关的声源定位方法对每对语音信号帧进行声源定位，双耳互相关的声源定位方法的原理如图3所示，先对双耳信号进行时间延迟估计，将双耳信号进行广义互相关函数计算表示如下：

R_{x_{l}^{k} x_{r}^{k}} (τ^{k}) = E (x_{l}^{k} (t) x_{r}^{k} (t - τ^{k})) - - - (31)

其中，t表示时间，τ表示双耳信号的时延时间。互相关函数与互功率谱的关系表示为：

R_{x_{l}^{k} x_{r}^{k}} (τ^{k}) = {&Integral;}_{- \infty}^{\infty} G_{x_{l}^{k} x_{r}^{k}} (f) e^{j 2 {πfτ}^{k}} {dfτ}^{k} - - - (32)

其中，假设噪声是不相关的，互相关函数将是个单脉冲信号，估计出的时延表示为：

τ^{k} = \arg \max_{τ^{k}} R_{x_{l}^{k} x_{r}^{k}} (τ^{k}) - - - (33)

其中，表示和的互相关函数，τ^k表示时延估计。

利用广义互相关时延方法可以求出ITD，然后根据双耳时间差的几何模型，只要计算出ITD，就可以得到声源方向角度θ^k，ITD的双耳几何模型表示为：

Δ T (θ^{k}) = r \frac{{sinθ}^{k} + θ^{k}}{c} - - - (34)

其中，ΔT(θ)表示ITD，r表示声源与人工头的距离，c表示声音的传输速度。已知r＝1.4m，c＝344m/s。

由表达式(33)得出，每对语音信号帧的时延就是双耳时间差ITD。根据双耳时间差模型，就可以计算出每对语音信号帧的声源方位角度。下一步就是过滤方位角度。由于这些方位角度有部分误差较大的方位角度，通过设定一个阈值，将误差较大的方位角度除去，把剩余方位角度的平均值作为最终声源定位的方位角度，表达式(35)、(36)、(37)、(38)如下：

\overset{&OverBar;}{θ} = Σ_{k = 1}^{n} θ^{k} - - - (35)

θ_{m i n} = \overset{&OverBar;}{θ} - α - - - (36)

θ_{m a x} = \overset{&OverBar;}{θ} + α - - - (37)

其中，表示平均值，α表示方位角度阈值，θ_min和θ_max分别表示方位角度θ^k的最大值和最小值，n表示帧数，k表示第k帧，h表示最大帧数，b表示最小帧数。通过公式(35)求出所有声源方位角度的平均值然后公式(36)和(37)确定方位角度θ^k的大小范围，也就是方位角度的有效范围，最后由公式(38)求取剩余方位角度的平均值从而计算得到声源定位的方位角度。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，包括以下步骤：

103、然后采用基于双耳信号帧的声源定位方法对双耳信号进行分帧，再对每对信号帧采用双耳互相关声源定位方法计算，其次通过设定方位角度阈值，除去偏差较大的方位角度，获取声源方位角度。

2.根据权利要求1所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，步骤102听觉掩蔽谱减法具体为：在计算听觉掩蔽值之前，首先求得临界带宽的功率谱、扩展临界带宽的功率谱以及噪声掩蔽扩展门限，然后把噪声掩蔽扩展门限与人耳听觉的设定绝对门限值进行对比，听觉掩蔽阈值就是它们之中的最大值。

3.根据权利要求2所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，所述临界带宽的表达式如下：

Z＝26.18f/(1960+f)-0.53

其中，Z表示临界带宽编号，f表示频率。

4.根据权利要求3所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，所述扩展临界带宽的功率谱在式中，P(k)为信号快速傅里叶变换的功率谱，l_i和h_i分别表示第i个临界带宽的最小频率和最大频率，i在[1，i_max]的范围内，并且语音信号的采样频率决定i_max。

5.根据权利要求3所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，计算出噪声掩蔽阈值后，利用噪声掩蔽阈值和自适应的谱减法系数，得到两个谱减法系数，再结合Berouti提出的改进谱减法的方法，得到听觉掩蔽谱减法表达式。

6.根据权利要求1所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，步骤103具体为：假设左耳信号和右耳信号分别为：x_l(t)和x_r(t)，经过分帧后成为长度相同的语音信号帧，令左耳信号x_l(t)和右耳信号x_r(t)在时间上相对应的语音信号帧分别为和然后，先对双耳信号进行时间延迟估计，利用广义互相关时延方法求出双耳时间差ITD，然后根据双耳时间差的几何模型，得到声源方向角度θ^k。

7.根据权利要求6所述的融合听觉掩蔽与双耳信号帧的互相关声源定位方法，其特征在于，还包括过滤方位角度的步骤：设定一个过滤角度阈值，将误差大于过滤角度阈值的方位角度除去，把剩余方位角度的平均值作为最终声源定位的方位角度，求取剩余方位角度的平均值从而计算得到声源定位的方位角度。