CN105575387A

CN105575387A - 基于听觉仿生中耳蜗基底膜的声源定位方法

Info

Publication number: CN105575387A
Application number: CN201510990824.2A
Authority: CN
Inventors: 张毅; 徐晓东; 萧红; 罗久飞; 黄超; 苏祖强
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-05-11

Abstract

本发明请求保护一种基于听觉仿生中耳蜗基底膜的声源定位方法，涉及语音识别领域，它采用人耳鸡尾酒效应的方法实现声源定位，具有较强的扩展性，在噪声环境下，相比于传统声源定位方法，该方法具有更好的定位效果，该声源定位系统具有更好的鲁棒性。含噪声的声源信号经过耳蜗基底膜模型进行频谱分析，在经过耳蜗基底膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维进行细胞重合，再通过上橄榄核模型进行语音信息提取，最终进行声源的定位。

Description

基于听觉仿生中耳蜗基底膜的声源定位方法

技术领域

本发明涉及语音识别领域，特别是一种具有人耳听觉特性的声源定位方法。

背景技术

人与人之间最主要、最方便、最快捷的信息交换就是语言。语言中传播信息的载体就是声音信号，其在生活中无处不在。声音信号中的响度、频谱以及音高等特征都可以反映出声音信号的方向、位置等特征。因此世界各国都在对声音信号做了大量的研究，也付出了巨大的努力。使得语音交互技术慢慢成熟与各方面理论日趋完善。在声音信号的研究里，声源定位技术的研究是及其重要的一个方面。“鸡尾酒会效应”充分展示了人耳听觉系统的语音分离与定位功能，并且让研究人员对噪声环境下声源定位技术的研究产生了兴趣。在听觉生理学、人工智能和语音识别技术的不断发展下，研究学者也更加关注声源定位技术。

如今，声源定位技术已经广泛地运用到生活中了，比如：在智能机器人中，让机器人能更好对声源进行实时定位，提高智能机器人的人-机交互和语音识别能力；在视频电话会议中摄像头能够很快的对准讲话人的位置，其是通过麦克风接收声音信号，利用这声源定位技术对信号进行分析和处理，获得声源方位，从而引导相应的摄像头，使其指向当前说话人的方向。

伴随着科技不断地进步，研究者对于说话人的定位技术也不断地更新着，主要可以分为声源定位技术、电磁波定位技术、激光定位技术和视频定位技术。经过几十年的发展与研究，如今的视频定位技术已经是非常成熟，其可以实现目标的定位与跟踪等功能。然而声源定位技术却更加吸引研究者的重视，这主要归功于声源定位技术有着其独特的优势。

第一，隐蔽性。声源定位技术仅仅利用麦克风来接收声音信号，而不必向外界发送任何东西，这一点使得声源定位技术在不改变周围环境下轻松地得到外界目标声音的信息，而自己本身的位置却很难被外界所发现。正是声源定位技术的隐蔽性，使得很多潜水艇在作战中不会轻易打开声呐等设备，却会使用声源定位技术来追踪目标的位置。

第二，实用性。声音是属于声波，声波在传输中不会受到电磁场、光线强弱等的干扰与限制。光线强度弱的情况下对于视频定位技术影响很大，存在障碍物的环境下对电磁波有一定的干扰。例如：在深海中由于光线很弱，视频定位技术就不能使用，而激光与电磁波在深海中能量的衰减很快导致穿透距离很短。这种情况下声源定位技术却不会受限制于深海环境中，可以很好的实现目标声源的定位。

第三，易实现。声源定位技术相比于其他几种定位技术，在成本上与设备上的要求就低很多了，使得声源定位技术在生活中容易得到应用。

因为声源定位技术的发展有着巨大的潜力，所以研究人员不断的深入研究、探索声源定位技术。声源定位的实现条件也比较容易，使其能运用在各个领域，包括军事方面、语音分离方面等。目前，研究学者已经给出了多种声源定位技术的系统。从最初的基于麦克风阵列信号的声源定位系统，到如今的基于过零点声源定位系统与人耳听觉系统的声源定位系统。经过几十年的发展，基于麦克风阵列的声源定位系统已经非常完善，但是它的结构太大，需要的麦克风也非常的多，计算量又大又复杂。学者在大量的实验结果中发现：基于麦克风定位技术的准确度还是无法与人耳的准确度相媲美。最近几年，越来越多的学者在研究基于人耳听觉的声源定位技术，本文也将研究在噪声环境下基于听觉仿生的声源定位。

发明内容

针对以下现有的不足，提出了一种提高定位精度、良好的抗噪性和鲁棒性的基于听觉仿生中耳蜗基底膜的声源定位方法。。本发明的技术方案如下：一种基于听觉仿生中耳蜗基底膜的声源定位方法，其包括以下步骤：

1)采用双麦克风模拟人耳听觉系统获取含噪声的语音信号；

2)对步骤1)得到的含噪声的语音信号，采用基于人耳听觉中的耳蜗基底膜模型进行频率分解、通过上橄榄核模型进行语音特征提取、采用膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维模型进行细胞重合，去除噪声信号；

3)步骤2)去处噪声信号的声源信号通过能量的关系式求解出声源位置，完成定位。

进一步的，所述步骤2)采用基于人耳听觉中的耳蜗基底膜模型进行频率分解具体为；采用具有人耳听觉特性的Gammatone伽马通滤波器组对语音信号进行频率分解。

进一步的，所述Gammatone伽马通滤波器组频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解；耳蜗基底膜模型将语音信号按照滤波器个数进行传递。

进一步的，所述步骤2)通过上橄榄核模型进行语音信息提取具体为；

耳蜗基底膜处理语音信号后分成多个通道传递给上橄榄复合体进行语音信号的ITD双耳时间差和ILD双耳水平差定位信息的提取，ITD的计算公式如下：

I T D = \arg \max_{τ} {\overset{Λ}{R}}_{x_{l} x_{r}} (τ)

式中：

——左耳和右耳的语音信号的互相关，可由下式计算：

{\overset{Λ}{R}}_{x_{l} x_{r}} (τ) = \frac{1}{2 π} {&Integral;}_{- π}^{π} \frac{G_{x_{l} x_{r}} (ω)}{| G_{x_{l} x_{r}} (ω) |} e^{j ω τ} d ω

式中：

——左耳和右耳语音信号互功率谱

ILD的计算公式如下：

I L D = I_{L_{i}} - I_{R_{i}}

I_{i} = 10 {&Integral;}_{ω &Element; Ω_{i}} W_{i} (ω) \lg S (ω) d ω

式中：

——左耳和右耳的ILD值；Ω_i——子带i的频率范围(1KHz～4KHz)W_i(ω)——滤波器权重；S(ω)——声源功率谱。

进一步的，当信号为20Hz到1000Hz低频语音信号时，重合神经元模型只有来自上橄榄内侧的语音特征输入；1000Hz到4KHz语音信号时，上橄榄外侧和上橄榄内侧的语音特征都输入重合神经元；高于4KHz语音信号时，重合神经元只有上橄榄外侧语音特征的输入。

进一步的，所述步骤2)采用膜上的内毛细胞模型进行信号转换的步骤具体为；采用内毛细胞模型对声音信号进行半波整流，并且将基底膜上的机械振动信号转变为相应的生物电信号，并将生物电信号传递给听觉神经纤维；

进一步的，所述内毛细胞模型主要由5个标准量构成，其分别是：再生库中神经递质的量、间隙中神经递质的量、内毛细胞中神经递质的量、细胞膜的渗透性以及神经细胞脉冲输出的概率。

本发明的优点及有益效果如下：

针对传统声源定位系统抗噪性能、差精准度低的问题，提出了基于听觉仿生中耳蜗基底膜的声源定位方法，并详细阐述了整个模型的构建过程，包括基于人耳听觉特性的耳蜗基底膜分频滤波、基底膜上内毛细胞信号分离重合的转换、时间差能量差计算声源定位的过程。基于听觉仿生中耳蜗基底膜的声源定位方法的定位精度远高于传统的声源定位的精度，而且基于听觉仿生中耳蜗基底膜的声源定位方法具有良好的抗噪性和鲁棒性。

附图说明

图1是本发明提供优选实施例基于听觉仿生中耳蜗基底膜的声源定位流程图；

图2为Gammatone滤波器组多频率分解图；

图3为内毛细胞模型图；

图4神经发放模型的基本电路图

图5为声源方位坐标系。

具体实施方式

以下结合附图，对本发明作进一步说明：

如图1所示，针对噪声环境下传统声源定位不能得到高信噪比的声源信号带来的定位精度不高的问题，本文结合人耳听觉特性，提出一种基于人耳的听觉选择能力即“鸡尾酒会效应”的选择噪声中声源的过程。含噪声的声源信号经过耳蜗基底膜模型进行频谱分析，在经过耳蜗基底膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维进行细胞重合，再通过上橄榄核模型进行语音信息提取，最终进行声源的定位。

如图1所示，为本发明提出的基于听觉仿生中耳蜗基底膜的声源定位方法系统框图，基于听觉仿生中耳蜗基底膜的声源定位方法包括基于人耳听觉特性中耳蜗基底膜的滤波、内毛细胞以及其上的神经纤维的分离重合。经过耳蜗基底膜模型进行频谱分析，在经过耳蜗基底膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维进行细胞重合，再通过上橄榄核模型进行语音信息提取，最终进行声源的定位。

如图2所示，为本发明中Gammatone滤波器组多频率分解图。人耳耳蜗基底膜是听觉中枢实现滤波的重要环节：声源信号由于频率的不同，基底膜不同位置产生不同的振动，从而起到分解声源信号的作用。因此本文选择具有人耳听觉特性的Gammatone滤波器组对语音信号进行频率分解。频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解。耳蜗基底膜模型将声源信号分成多个(滤波器个数)通道传递，从而便于语音信号在系统模型中的分离。

如图3所示，为本发明中的内毛细胞模型。内毛细胞模型主要由5个标准量构成，其分别是：再生库中神经递质的量、间隙中神经递质的量、内毛细胞中神经递质的量、细胞膜的渗透性以及神经细胞脉冲输出的概率。

再生库中神经递质的量w(t)

w(t)随时间t发生的变化：

\frac{d w (t)}{d t} = r c (t) - x w (t)

其中，c(t)表示间隙中神经递质的量，r为回收率，x为返回率。

间隙中神经递质的数量c(t)

c(t)随时间t发生的变化：

\frac{d c (t)}{d t} = k (t) q (t) - l c (t) - r c (t)

其中，k(t)为细胞膜的渗透性，q(t)为内毛细胞内神经递质的量，l为丢失率。k(t)q(t)表示的是从细胞内部渗透到间隙中的神经递质的量，-lc(t)表示的是间隙泄漏的量，-rc(t)表示的是间隙中重新渗透回到再生库的量。

内毛细胞中的神经递质的量q(t)

q(t)随时间t发生的变化：

\frac{d q (t)}{d t} = y (1 - q (t)) - k (t) q (t) + x w (t))

其中，y为补充率。y(1-q(t))表示的是制造厂重新制造的神经递质的量，xw(t)表示的是再生库内的神经递质重新渗透回内毛细胞内部的量，-k(t)q(t)表示的是内毛细胞中渗透到间隙的神经递质的量。

细胞膜的渗透性k(t)

k(t)反映了神经递质由内毛细胞向间隙渗透的能力。细胞膜的渗透性可以表示：

k (t) = \{\begin{matrix} \frac{A + s t i m (t)}{A + B + s t i m (t)} g, A + s t i m (t) &GreaterEqual; 0 \\ 0, A + s t i m (t) < 0 \end{matrix}

其中，A和B为细胞膜的渗透常量，g为释放率，stim(t)是输入语音信号瞬时的幅度。从自由传递池到间隙的传递，这是一个动态的过程。如果上式中的stim(t)省略，则代表神经细胞膜的自发式响应，即：

k(t)＝A/(A+B)g

该过程是一个非线性的响应过程，同时也表明内毛细胞的饱和特性和阈值特性。

如图4所示，为本发明中神经发放模型电路图。图中x(t)表示内毛细胞产生的电流信号，R表示听觉神经纤维的膜电阻，C表示听觉神经纤维的膜电容，U_r表示听觉神经纤维实现脉冲发放时的阈值。当x(t)大于零时，膜电容充电，电容电压的瞬时值u(t)与阈值U_r进行对比，如果u(t)大于阈值U_r，则该电路就会产生一个脉冲信号，并且电容通过RC回路放电，电容的瞬时电压降为零。LIF模型的可用式(3.12)表示：

u (t) = U_{r} \exp [- \frac{t - t_{s}}{τ_{m}}] + \frac{1}{C} {&Integral;}_{0}^{t - t_{s}} \exp [- \frac{s}{τ_{m}}] I (t - s) d s - - - (3.12)

其中，τ_m为神经元的膜时间常数，τ_m＝RC，一般取值为1.6ms；t_s为脉冲发放时间的标志，u(t_s)＝U_r；S为阈值因子。在耳蜗内，内毛细胞将机械振动信号通过细胞膜膜电位的变化转变为生物电信号，内毛细胞利用神经递质渗透到细胞间隙，通过细胞间隙传送到突触后神经。从而引起听觉神经纤维产生电脉冲序列。听觉神经纤维发放的电脉冲序列是由间隙内的神经递质浓度变化引起的。

如图5所示，为本发明中声源方位坐标系，以插孔麦克风输入位置为原点，建立三维坐标系。假设声源和双麦克风在一个平面上，则：

E_{1} d_{1}^{2} = E_{2} d_{2}^{2}

式中：

d₁,d₂——声源到麦克风距离

E₁,E₂——麦克风接收的语音信号的能量

设(x_i,y_i)为第i个麦克风的位置坐标，声源坐标位置为(x_s,y_s)。则有：

E₁[(x₁-x_s)²+(y₁-y_s)²]＝E₂[(x₂-x_s)²+(y₂-y_s)²]

再根据时间差ITD的值τ₁₂得出：

\sqrt{{(x_{1} - x_{s})}^{2} + {(y_{1} - y_{s})}^{2}} - \sqrt{{(x_{2} - x_{s})}^{2} + {(y_{2} - y_{s})}^{2}} = {cτ}_{12}

根据以上两式可以算出声源在麦克风同一平面的坐标，即得出声源位置在环绕两麦克风组成直线一周的位置上。

由于目标声源坐标通常在插孔麦克风(即声源方位坐标系原点)附近，则可以假设目标声源在方圆一定范围内，此处假设为到原点距离小于0.05m。则将实际声源通过坐标转换可以粗略判断出目标声源，从而得到目标语音信号。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，包括以下步骤：

1)采用双麦克风模拟人耳听觉系统获取含噪声的语音信号；

2)对步骤1)得到的含噪声的语音信号，采用基于人耳听觉中的耳蜗基底膜模型进行频率分解、通过上橄榄核模型进行语音信息提取、采用膜上的内毛细胞模型进行信号转换以及内毛细胞上的神经纤维模型进行细胞重合，去除噪声信号；

2.根据权利要求1所述的基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，所述步骤2)采用基于人耳听觉中的耳蜗基底膜模型进行频率分解具体为；采用具有人耳听觉特性的Gammatone伽马通滤波器组对语音信号进行频率分解。

3.根据权利要求2所述的基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，所述Gammatone伽马通滤波器组频率的选择范围从20Hz-4KHz分别对左、右耳混叠信号按时间帧进行频率分解；耳蜗基底膜模型将语音信号按照滤波器个数进行传递。

4.根据权利要求1所述的基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，所述步骤2)通过上橄榄核模型进行语音信息提取具体为；

式中：

——左耳和右耳的语音信号的互相关，可由下式计算：

式中：

——左耳和右耳语音信号互功率谱

ILD的计算公式如下：

式中：

5.根据权利要求4所述的基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，当信号为20Hz到1000Hz低频语音信号时，重合神经元模型只有来自上橄榄内侧的语音特征输入；1000Hz到4KHz语音信号时，上橄榄外侧和上橄榄内侧的语音特征都输入重合神经元；高于4KHz语音信号时，重合神经元只有上橄榄外侧语音特征的输入。

6.根据权利要求1所述的基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，所述步骤2)采用膜上的内毛细胞模型进行信号转换的步骤具体为；采用内毛细胞模型对声音信号进行半波整流，并且将基底膜上的机械振动信号转变为相应的生物电信号，并将生物电信号传递给听觉神经纤维。

7.根据权利要求.4所述的基于听觉仿生中耳蜗基底膜的声源定位方法，其特征在于，所述内毛细胞模型主要由5个标准量构成，其分别是：再生库中神经递质的量、间隙中神经递质的量、内毛细胞中神经递质的量、细胞膜的渗透性以及神经细胞脉冲输出的概率。