CN108122559B

CN108122559B - 一种数字助听器中基于深度学习的双耳声源定位方法

Info

Publication number: CN108122559B
Application number: CN201711397816.2A
Authority: CN
Inventors: 李如玮; 潘冬梅; 李涛; 刘亚楠; 张永亚
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2021-05-14
Anticipated expiration: 2037-12-21
Also published as: CN108122559A

Abstract

本发明公开一种数字助听器中基于深度学习的双耳声源定位方法，首先将双耳声源信号通过gammatone滤波器分解成若干信道，通过加权系数提取高能量的信道，接着利用头相关函数(head‑related‑transform function,HRTF)提取第一类特征，即耳间时间差(Interaural Time Difference,ITD)和耳间强度差(Interaural Intensity Difference,IID)作为深度学习的输入，将水平面划分为四个象限，缩小定位范围。然后提取头相关传递的第二类特征，即耳间声压差(Interaural Level Difference,ILD)和耳间相位差(Interaural Phase Difference,IPD)，最后为了得到更精确的定位，将第一类和第二类的四个特征作为下一个深度学习的输入，从而得到声源定位的方位角。实现在水平面上0度到360度以5度为步长进行72个方位角的精确定位。

Description

一种数字助听器中基于深度学习的双耳声源定位方法

技术领域

本发明属于语音信号处理技术领域，涉及一种数字助听器中基于深度学习的双耳声源定位方法。

背景技术

耳聋已经成为世界性问题。对于耳聋者来说，选配合适的数字助听器是帮助其提高听力的最佳方法。数字助听器的基本工作原理如图2所示，外界的声音信号进入麦克风从声能转化成电能，通过模/数转化器转化为数字信号，然后在DSP处理器中运用多通道响度补偿算法、自适应降噪算法、回波消除算法、移频算法和声源定位等技术进行处理，处理后的数字电信号需要经过数/模转换器转换成模拟电信号，最后由受话器再将其转化为声能输入至佩戴者耳中。

声源定位技术是根据目标声源和噪声源的空间位置不同，对特定方向的目标声源进行增强的技术。但是不同于降噪算法，助听器方向性增强技术利用语音和噪声的空间差异来实现语音增强，其实际效果仅次于调频系统和或红外监听技术。考虑到人与人交流时，面对面的情况比较普遍，所以早期的方向性助听器采用方向性麦克风实现，这种麦克风由于其特殊的振膜结构，可以抵消来自患者后方和侧面的声音，前方声音得到增强，从而实现使用一个麦克风就可以实现方向性语音增强。但是方向性麦克风使用时假定声源的方向是已知的，不能自动跟踪声源的方向，而且无法适应复杂的噪声场景，因此结合双耳声源定位技术进行方向性增强是目前研究的一个重要方向。

即使在“鸡尾酒效应”下，人耳的听觉系统也能很好的辨认出不同说话人的位置，根据需求有选择的进行目标声源的关注。对于听力受损的耳障患者来说，通过对传入耳朵的声音进行放大的同时进行噪声抑制等语音增强处理，使听力损失患者能够正确识别听力正常人所接受音量的声音。但是，人耳只有一对听觉感受器官，其相当于一个声信号处理系统的两个声音传感器，即麦克风。人类听觉系统只依靠这一对感受器官，就可以感知声源位置，分离语音信号。当然这必须借助于人类复杂的听觉生理系统，而不仅仅是一对外耳。如果要模拟人类的声音处理，必须利用两个麦克风进行数据采集。

研究表明，人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用，以致到达双耳时，不同方向上的声源会使双耳处产生不同的声波状态，即两耳采集的信号形成的时间差和强度差，造成了听觉的方位感和深度感，这就是常说的“双耳效应”，同时耳朵结构的“耳廓效应”以及复杂的神经系统，都是人耳对于声音信号方向位置判决的主要依据。

由于数字助听器是一种便携式设备，同时它也需要很高的实时性，因此，数字助听器对算法有一定的特殊要求，比如，算法低复杂度，低功耗和实时性等要求。最终让数字助听器佩戴者有最高的言语可懂度和听觉舒适度。对于大多数数字助听器中的声源定位技术复杂度高，形成时延，不能满足助听器实时性的要求。

本发明提出的基于深度学习的双耳声源定位技术，该技术结合双耳定位线索、头相关传递函数、gammatone滤波器和深度学习，首先将双耳语音信号通入gammatone滤波器分成若干通道，并提取人耳敏感信息，然后利用头相关函数提取第一类特征，即耳间时间差(ITD)和耳间强度差(IID)作为深度学习的输入，将水平面划分为四个象限，缩小定位范围。然后提取头相关传递的第二类特征，即耳间声压差(ILD)和耳间相位差(IPD)，最后将第一类和第二类的四个特征作为下一个深度学习的输入，从而得到声源定位的方位角。

发明内容

本发明针对现有的数字助听器主要利用环境信噪比的判断是否切换到方向性麦克风状态，且通常假定前方是目标声源，而在实际生活中，声源的方向是不固定的，因此利用声源定位进行方向性语音增强，同时深度学习具有较强的学习能力和在线下训练的优点，因此该技术在不同信噪比下都能达到较高的定位准确率、低复杂度和更好的实时性。

为了解决以上所述的问题，本发明采用的技术方案是：基于可以模拟人耳听觉系统中的基底膜和听觉神经的工作机理的gammatone滤波器，把信号频带非均匀地分为N个通道的频响补偿算法，以及利用人耳听觉感知理论，结合头相关传递函数和深度学习，最终实现双耳的声源定位。具体过程包括步骤如下：

步骤一，利用人耳听觉感知理论，结合人耳的听觉特性和耳蜗的工作机理，把双耳语音信号通入gammatone滤波器分成N个通道，并提取人耳敏感信息；

步骤二，利用头相关传递函数的双耳定位线索提取第一类特征，即耳间时间差和耳间强度差；

步骤三，将第一类特征作为深度学习的输入，利用深度学习的分类功能把水平面平均分成四个象限，缩小定位范围；

步骤四，再次利用头相关传递函数的双耳定位线索提取第二类特征，即耳间声压差和耳间相位差；

步骤五，为了得到更精确的定位，将第一类和第二类的特征相结合，同时利用深度学习在步骤三得到的具体某个象限里进行水平面方位角的定位。

本发明提出了数字助听器中基于深度学习的双耳声源定位技术。该方法利用人耳听觉感知理论，结合gammatone滤波器、头相关传递函数和深度学习进行双耳声源定位。首先将双耳声源信号通过gammatone滤波器分解成若干信道，通过加权系数提取高能量的信道，接着利用头相关传递函数(head related transform function,HRTF)提取第一类特征，即耳间时间差(Interaural Time Difference,ITD)和耳间强度差(InterauralIntensity Difference,IID)作为深度学习的输入，将水平面划分为四个象限，缩小定位范围。然后提取头相关传递的第二类特征，即耳间声压差(Interaural Level Difference,ILD)和耳间相位差(Interaural Phase Difference,IPD)，最后为了得到更精确的定位，将第一类和第二类的四个特征作为下一个深度学习的输入，从而得到声源定位的方位角。实现在水平面上0度到360度以5度为步长进行72个方位角的精确定位，由于深度学习有很强的学习能力，所以我们的误差范围在0.5度以内。该算法实现简单，低复杂度，低功耗，实时性好，精确度高。

附图说明

图1本发明的实现流程图

图2数字助听器的主要工作原理

图3水平面的象限的划分

图4深度学习原理框图

具体实施方式

由于耳蜗的分频特性和听觉掩蔽特性，利用gammatone滤波器组将语音信号分解为多个通道，gammatone滤波器是一种基于听觉模型中的耳蜗基底膜模型，能够较好地模拟出基底膜尖锐的滤波特性，符合人耳的听觉感知特性，并且该滤波器的实现简单，为此选取gammatone滤波器组对含噪语音进行信号分解,使其能够模拟人耳的听觉特性。其冲激响应函数的时域表达式如(1)所示。

G(t)＝cos(2πf_ct+φ)·exp(-2πBt)·Bⁿ·t^n-1·U(t) (1)

其中，参数n为滤波器的阶数。分析可知当阶数n＝4时，gammatone滤波器就能够较好地模拟出复杂的耳蜗滤波器特性，为此本文设置n＝4。φ为滤波器的初始相位，U(t)为单位阶跃函数，f_c为滤波器的中心频率，B是带宽，其计算公式如(2)所示。

B＝b·ERB(f_c) (2)

其中b为衰减速度系数，通过大量实验可得当b的取值为1.019时效果最优，为此b的取值是1.019，参数EBR(f_c)表示为滤波器的等效矩形带宽，其与中心频率具有公式(3)的关系。

ERB(f_c)＝24.7+0.108f_c (3)

由于人耳对声音信号的听觉感知以临界频带为基础，因此，选择人耳的听觉临界频带的中心频率作为gammatone滤波器的中心频率。在人耳的听阈范围内把频带划分为26个频带，再通过语音信号的采样率就可以确定gammatone滤波器的个数。

考虑到各个子带信号的能量不同，在声源定位中的重要性也不同，将各个信道按照能量大小排序，并且对不同子带赋予不同权重进行数据压缩。由于在声源定位中，能量越大的信道重要性越大，本发明赋予能量大前8个信道加权系数为1，其余能量小的子带则赋予0权值，如公式(4)所示。

其中i是信道编号，w是加权参数，D是信道数据。

通过该方法，我们可以提取重要信息，去除次要信息，从而达到减少数据量的目的，简化算法复杂度。

利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第一类特征，即耳间时间差和耳间强度差，根据压缩后的双耳数据x_l和x_r计算出声源定位因子，它们的计算方法如公式所示。

第一类特征提取：

(1)耳间时间差(ITD)：

其中ITD表示双耳时间差，n为样点数，fn为总样本点数。

(2)耳间强度差(IID):

其中X_l(f)表示频域的左耳语音信号，X_r(f)表示频域的右耳语音信号。

步骤三，将第一类特征作为深度学习的输入，利用深度学习的分类功能把水平面平均分成四个象限，如图3所示，缩小定位范围；

本发明采用第一个深度神经网络结构是52*28*28*28*4，输入是经过gammatone滤波器分解的26*2维的ITD和IID的特征，输入层神经元的个数是52，隐含层的神经元的个数是28，隐含层的层数是3，输出层的层数是4，即输出的四个象限。通过第一级深度神经网络这个模型，将ITD和IID的特征进行四个象限的分类，划分声源所在的象限。

(1)初始化网络：初始化输入层与隐层的连接权值w_ij，隐含层与输出层的连接权值w_jk，初始化隐含层阈值a_j，输出层阈值b_k，并设定学习速率为0.01。

(2)计算隐含层的输出：根据w_ij,a_j和输入x_i的特征向量ITD和IID，各隐含层的输出公式为：

其中，各个隐层的传递函数是sigmoid()函数，即

(3)计算输出层的输出：由隐含层的输出H_j和w_jk,b_k，输出层的公式为：

(4)计算误差：根据网络预测输出O和期望输出Y，网络的预测误差公式为：

e_k＝Y_k-O_k，k＝1 (9)

(5)更新权值：

w_jk＝w_jk+ηH_je_k,j＝1,2,...5；k＝1 (11)

(6)更新阈值：

b_k＝b_k+e_k,k＝1 (13)

(7)判断是否完成四个象限的分类，若没有完成，返回步骤(2)。

利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第二类特征，即耳间声压差和耳间相位差，根据压缩后的双耳数据x_l和x_r计算出声源定位因子，它们的计算方法如公式所示。

第二类特征提取：

(3)耳间声压差(ILD):

其中x_l(t)表示左耳语音信号，x_r(t)表示右耳语音信号，fn表示语音信号的总帧数，d为声源延迟。

(4)耳间相位差(IPD):

其中E表示期望，X_l(f)表示频域的左耳语音信号，X_r(f)表示频域的右耳语音信号，

*表示共轭。

步骤五，为了得到更精确的定位，将第一类和第二类的特征相结合，同时利用深度学习在步骤三得到的具体某个象限里进行更准确的水平面方位角的定位；

本发明采用第二个深度神经网络结构是108*25*25*25*25*4，输入是经过gammatone滤波器分解的26*4维的ITD、IID、ILD和IPD的四个特征，输入层神经元的个数是108，隐含层的神经元是25，隐含层的层数是4，输出层的层数是1，即具体的方位角数值。具体学习过程如图4所示，通过第二级深度神经网络这个模型，将表征双耳线索的四个特征与水平面的方位角进行非线性映射，结合步骤三中的象限位置，实现水平面的声源定位。

Claims

1.一种数字助听器中基于深度学习的双耳声源定位方法，其特征在于，包括以下步骤：

步骤三，将第一类特征作为深度学习的输入，利用深度学习的分类功能把水平面平均分成四个象限；

步骤五，将第一类和第二类的特征相结合，同时利用深度学习在步骤三得到的具体象限里进行水平面方位角的定位；

步骤二中，利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第一类特征，即耳间时间差和耳间强度差，根据压缩后的双耳数据x_l和x_r计算出声源定位因子，计算方式为：

第一类特征提取：

(1)耳间时间差(ITD)：

其中，ITD表示双耳时间差，n为样点数，fn为总样本点数，

(2)耳间强度差(IID):

其中，X_l(f)表示频域的左耳语音信号，X_r(f)表示频域的右耳语音信号；

步骤四中，利用经过gammatone滤波器组缩减的信息数据来提取头相关函数的第二类特征，即耳间声压差和耳间相位差，根据压缩后的双耳数据x_l和x_r计算出声源定位因子，计算方式为：

第二类特征提取：

(3)耳间声压差(ILD):

其中，x_l(t)表示左耳语音信号，x_r(t)表示右耳语音信号，fn表示语音信号的总帧数，d为声源延迟，

(4)耳间相位差(IPD):

其中，E表示期望，X_l(f)表示频域的左耳语音信号，X_r(f)表示频域的右耳语音信号，*表示共轭。

2.如权利要求1所述的数字助听器中基于深度学习的双耳声源定位方法，其特征在于，步骤三中，采用第一个深度神经网络结构是52*28*28*28*4，输入是经过gammatone滤波器分解的26*2维的ITD和IID的特征，输入层神经元的个数是52，隐含层的神经元的个数是28，隐含层的层数是3，输出层的层数是4，即输出的四个象限，通过第一级深度神经网络模型，将ITD和IID的特征进行四个象限的分类，划分声源所在的象限，具体为：

(1)初始化网络：初始化输入层与隐层的连接权值w_ij，隐含层与输出层的连接权值w_jk，初始化隐含层阈值a_j，输出层阈值b_k，并设定学习速率为0.01；

(2)计算隐含层的输出：根据w_ij,a_j和输入x_i的特征向量ITD和IID，各个隐含层的输出公式为：