CN107942290A

CN107942290A - 基于bp神经网络的双耳声源定位方法

Info

Publication number: CN107942290A
Application number: CN201711138517.7A
Authority: CN
Inventors: 周琳; 王立杰; 庄琰; 李楠
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-04-20
Anticipated expiration: 2037-11-16
Also published as: CN107942290B

Abstract

本发明公开了一种基于BP神经网络的双耳声源定位方法，本发明提取出双耳声信号的互相关函数与耳间强度差作为特征参数，用反向传播BP神经网络对特征参数进行建模。测试过程中根据测试双耳声信号的互相关函数和耳间强度差，利用神经网络估计每帧双耳声信号对应的声源方位。相对于现有技术，本发明鲁棒性和准确率有明显提高。

Description

基于BP神经网络的双耳声源定位方法

技术领域

本发明涉及声源定位方法，尤其涉及一种基于BP神经网络的双耳声源定位方法。

背景技术

声源定位算法是语音信号处理的重要研究方向，也有比较广泛的应用场合，如视频会议系统中，声源定位技术可实现摄像头实时对准发言人；应用于语音识别的前期处理过程可以改善语音的质量，帮助提高识别的正确率；应用于助听装置时，可为听力障碍者提供声源位置信息，并提供有效语音信息。

声源定位技术所涉领域很广，包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用的是对双耳各自采集到的信号的差异进行分析从而估计声源方位，目前的定位算法根据其定位参数的区别可以分为两类：

1、基于耳间差的定位

Lord Rayleigh于1907年在球形人头假设之上，首次提出基于耳间线索差的定位理论，即由于声源与人的双耳位置之间的位置差异，使得双耳接收到的声信号存在时间和强度差异，即耳间时间差(Inter-aural Time Difference，ITD)和耳间强度差(Inter-aural Intensity Difference，IID)，这两方面因素差异是双耳声源定位的基础。与ITD、IID相关双耳声信号的互相关函数(Cross Correlation Function，CCF)也是耳间差异参数，但实际环境中由于混响和噪声的干扰，会导致定位性能的下降。

2、基于头相关传递函数的定位

ITD信息可以判断左、右方位的声源，而不能判别声音是来自前方还是后方，也不能定位仰角位置。但是基于与头相关传递函数(Head-Related Transfer Function，HRTF)的方法对声源的定位就不再局限于水平面及前向声源，可以实现对三维空间声源的定位，该方法利用HRTF数据库设计逆滤波器，通过逆滤波之后的双耳信号计算互相关值，据此来估计声源方位。此类方法解决了三维空间声源定位问题，但是计算复杂度过大，并且与头相关传递函数的个体性较强，对不同个体，或者周围环境有所差异(即存在不同噪声或混响情况下)时，可能导致实际传递函数与定位模型中使用的函数不一致，进而影响定位的准确率。

发明内容

发明目的：针对以往定位算法在噪声和混响条件下，性能下降的问题，本发明提出了一种基于BP神经网络的双耳声源定位方法，该方法采用BP神经网路对多环境下的样本数据进行训练，在不同声学环境下的仿真测试表明，该方法的鲁棒性和准确率有显著提高。

技术方案：本发明所述的基于BP神经网络的双耳声源定位方法包括以下步骤：

(1)将训练单声道声信号与不同方位角的与头相关脉冲响应函数HRIR卷积，生成不同方位角的训练双耳声信号；

(2)将所述不同方位角的训练双耳声信号加入不同混响时间的混响声和不同信噪比的白噪声，得到不同方位角在不同声学环境下的训练双耳声信号；

(3)对步骤(2)得到的训练双耳声信号分别进行预处理，得到不同方位角的多个单帧训练双耳声信号；

(4)对于每个方位角的每个单帧训练双耳声信号，计算其互相关函数CCF和耳间强度差IID；

(5)对于每个方位角，将其对应的所有帧训练双耳声信号的CCF和IID作为神经网络的输入层参数，将方位角作为神经网络的输出参数，根据设置的神经网络参数，基于BP学习算法迭代训练神经网络；

(6)对不同声学环境下的测试双耳声信号进行预处理，得到不同方位角的多个单帧测试双耳声信号；

(7)对于每个方位角的每个单帧测试双耳声信号，计算其互相关函数CCF和耳间强度差IID；

(8)将步骤(7)得到的互相关函数CCF和耳间强度差IID作为步骤(5)训练后得到的神经网络的输入特征，估计得到测试双耳声信号的方位角。

其中，所述步骤(1)中的不同方位角的训练双耳声信号的计算公式为；

x′_L＝s*h_L

x′_R＝s*h_R

其中，x′_L、x′_R分别为左耳声信号、右耳声信号，s为单声道声信号，h_L、h_R分别为指定方位角θ对应的左耳HRIR和右耳HRIR，*为卷积运算。

其中，所述步骤(3)和步骤(6)中的预处理步骤包括幅度归一化、分帧和加窗；其中：

幅度归一化方法为：

式中，分别为幅度归一化前的左耳声信号、右耳声信号，即根据步骤(2)对x′_L、x′_R加入混响、噪声后的双耳声信号，x_L、x_R分别为幅度归一化后的左耳声信号、右耳声信号，

分帧方法为：采用预设分帧长度和帧移，将声信号划分为多个单帧信号；

加窗方法为：

x_L(τ,m)＝w_H(m)x_L(τN+m)0≤m＜N

x_R(τ,m)＝w_H(m)x_R(τN+m)

式中，x_L(τ,m)、x_R(τ,m)分别为加窗后的第τ帧的左耳声信号、右耳声信号，为汉明窗，N为帧长

其中，所述步骤(4)和步骤(7)中互相关函数CCF的计算公式为：

式中，R(τ,d)表示第τ帧的双耳声信号的互相关函数CCF，x_L(τ,m)、x_R(τ,m+d)分别为预处理后的第τ帧的左耳声信号、右耳声信号，d为延迟采样点数，N为帧长；

其中，所述步骤(4)和步骤(7)中耳间强度差IID的计算公式为：

式中，IID_τ(ω)表示第τ帧的双耳声信号的耳间强度差，X_R(τ,ω)、X_L(τ,ω)分别为预处理后得到的左耳声信号x_L(τ,m)、右耳声信号x_R(τ,m)的傅里叶变换，N为帧长。

其中，所述步骤(5)具体包括：

(5-1)网络初始化：设置神经网络输入层神经元个数M_IN为输入特征的维数，具体为IID特征维数+CCF特征维数，输出层神经元个数M_OUT等于所有可能的输出方位角θ的个数，隐含层层数为2，隐含层神经元个数M_M为预设值；初始化网络各层间的权值，包括输入层与第一个隐含层之间的权值为w_ij，两个隐含层之间的权值为w_jk，第二个隐含层与输出层之间的权值为w_kl；初始化两个隐含层神经元的阈值a¹ _j、a² _k与输出层的阈值b_l；其中，i为输入层第i个神经元，j为第一个隐含层的第j个神经元，k为第二个隐含层的第k个神经元，l为输出层的第l个神经元；

(5-2)输入训练样本(X,Y)，其中x_i为每帧双耳声信号的CCF和IID参数，y_l为神经网络的预期输出；其中，神经网络的预期输出为：真实方位角对应的输出层神经元输出为1，输出层其余神经元输出为0，即神经网络的理想输出为：

其中，θ_true表示输入的当前帧信号所对应的真实方位角，θ_l表示第l个神经元对应的方位角；

(5-3)依次计算每层网络的实际输出值，直到计算出输出层每个神经元的实际输出其中，第一个隐含层的第j个神经元、第二个隐含层的第k个神经元的输出分别为：

其中，f()表示隐含层的激活函数，对于每个隐含层的神经元，当[0,1]区间的随机数rand(1)大于预设dropout参数时，Mask的值为1，反之Mask的值为0；

根据计算得到的两个隐含层的输出，得到输出层各节点的实际输出：

其中，g()表示输出层的激活函数；

(5-4)计算当前训练样本的误差，对所有输出节点，输出误差e定义预期输出y_l与实际输出y_l ^*的差值之和：

(5-5)根据下式计算误差e对权重w_kl、w_jk与w_ij的偏导，并根据偏导修正权重w_kl、w_jk与w_ij：

(5-6)根据下式计算误差e对于阈值b_l、与的偏导，并根据偏导修正阈值b_l、与

(5-7)若当前迭代次数小于预设总迭代次数，则返回至(5-3)进行再计算，直至得到达到预设迭代次数，迭代结束，训练神经网络结束。

有益效果：本发明与现有技术相比，其显著优点是：本发明提取出双耳声信号的互相关函数与耳间强度差作为特征参数，用反向传播BP(Back Propagation)神经网络对特征参数进行训练，测试过程中根据测试双耳声信号的互相关函数和耳间强度差，利用神经网络估计每帧双耳声信号对应的声源方位。本发明鲁棒性和准确率有明显提高。

附图说明

图1是本发明的一个实施例的流程示意图；

图2是分帧处理示意图；

图3是采用本发明对方位角0度、无混响且信噪比为5dB的女声测试信号的测试结果示意图；

图4是采用本发明在不同条件下定位正确率比较结果图；

图5是不同方法在无混响条件下的正确率比较结果图；

图6是不同方法在混响时间为200ms的正确率比较结果图；

图7是不同方法在混响时间为600ms的正确率比较结果图；

图8是不同混响时间下，随着信噪比的降低，定位正确率的变化趋势图；

图9是采用本发明对方位角为10度，-60度，40度混合声源的测试结果图；

具体实施方式

如图1所示，本实施例提供的基于BP神经网络的双耳声源定位方法包括以下步骤：

步骤一、将训练单声道声信号与不同方位角的与头相关脉冲响应函数HRIR(HeadRelated Impulse Response)卷积，生成不同方位角的训练双耳声信号，计算公式为；

x′_L＝s*h_L

x′_R＝s*h_R

单声道声信号采用CHAINS Speech Corpus语音库SOLO中的单声道女声、男声信号。HRIR数据采用麻省理工学院媒体实验室测量的HRIR数据，方位角θ范围为[-90°,90°]，间隔10°取值，每个方位角θ对应一对HRIR数据，即左耳HRIR、右耳HRIR。

步骤二、将所述不同方位角的训练双耳声信号加入不同混响时间的混响声和不同信噪比的白噪声，得到不同方位角在不同声学环境下的训练双耳声信号。

步骤一生成的是无噪声、无混响环境下的纯净双耳声信号，为了能让BP神经网络能够学习到噪声、混响环境下，双耳声信号对应的空间特征参数的分布规律，还同时将混响时间设置为200、600ms，信噪比设置为0、5、10、15、20dB，在上述生成的纯净双耳声信号加入相应的混响和白噪声，从而得到不同方位角在不同声学环境下的双耳声信号。这样对应每个方位角，分别得到无混响时，信噪比为0、5、10、15、20dB、纯净条件下的双耳声信号，混响时间为200ms时，信噪比为0、5、10、15、20dB的双耳声信号，以及混响时间为600ms时，信噪比为0、5、10、15、20dB的双耳声信号。

步骤三、对步骤二得到的训练双耳声信号分别进行预处理，得到不同方位角的多个单帧训练信号。

其中，进行预处理一方面是考虑到算法需要适用于不同声学环境下，而这要求对数据处理进行某种程度的“标准化”。预处理步骤包括幅度归一化、分帧和加窗。

(1)幅度归一化：语音信号的采集过程中，环境、设备等条件的差异会导致语音信号之间存在一定的幅度差异。这无疑会对后续特征提取等过程造成影响，若需要算法对不同声学环境具有适用性，则需要消除这种由幅度差异带来的不稳定因素，因此，有必要对采集的声信号进行。幅度归一化采用以下公式实现：

(2)分帧：语音信号总体上是一个时变信号，即所要提取的特征在整个时长范围内是变化的。对此的解决方法是短时分析，这是由于语音信号的短时平稳特性，所以可以对信号分帧加窗，其在每一帧的时间内可看作平稳的，这使得逐帧分析得以实现。通常，每秒的帧数约为33～100帧。分帧一般采取如图2所示的交叠分段的方法，以使帧与帧之间平滑过渡，保持连续性。前后两帧的交叠部分称为帧移。

(3)加窗：分割出的单帧信号需要通过时域窗函数进行平滑处理，保持帧间连续性，降低截断效应。相较于矩形窗，汉明窗的旁瓣更小，因此选用汉明窗对分帧后的信号加窗。加窗方法为：

x_L(τ,m)＝w_H(m)x_L(τN+m)0≤m＜N

x_R(τ,m)＝w_H(m)x_R(τN+m)

式中，x_L(τ,m)、x_R(τ,m)分别为加窗后的第τ帧的左耳声信号、右耳声信号，为汉明窗，N为帧长。

步骤四、对于每个方位角的每个单帧训练信号，计算其互相关函数CCF和耳间强度差IID。

其中，互相关函数CCF的计算公式为：

其中，耳间强度差IID的计算公式为：

步骤五、对于每个方位角，将其对应的所有帧训练信号的CCF和IID作为神经网络的输入层参数，将方位角作为神经网络的输出参数，根据设置的神经网络参数，基于BP学习算法迭代训练神经网络。

本发明采用神经网络包含两个隐含层，每个隐含层包含100个神经元。对神经网络的学习率进行设置。本发明在仿真实验基础上，将学习率设置为0.1，总迭代次数设置为20次，学习率设为0.1可以避免误差函数和误分率振荡过大，同时迭代次数为20时，神经网络的模型接近收敛。在参数较多的神经网络训练过程中，可能会存在训练过度的问题，本发明为了防止过度拟合，引入了dropout参数。该方法是从神经网络中随机丢弃神经元以及所连接的权值，这样可以防止神经元调整过多，这种随机丢弃的方法使得在训练过程中创建稀疏网络。本发明的dropout参数为0.5。综合以上步骤，最终可以确定本发明所构建的神经网络具有两层隐含层，隐含层的节点数为100，学习率为0.1，dropout参数为0.5。

基于设定的参数，步骤五具体包括以下步骤：

(5-1)网络初始化：输入层为输入特征的维数，其中IID特征有512维，CCF参数特征有32维，所以输入层神经元个数为544；输出层神经元对应所有可能的输出方位角θ，所以输出层神经元个数为19，每个输出神经元对应不同的方位角；两个隐含层神经元个数均为100；初始化网络各层间的权值，包括输入层与第一个隐含层之间的权值为w_ij，两个隐含层之间的权值为w_jk，第二个隐含层与输出层之间的权值为w_kl；初始化两个隐含层神经元的阈值a¹ _j、a² _k与输出层的阈值b_l；其中，i为输入层第i个神经元，j为第一个隐含层的第j个神经元，k为第二个隐含层的第k个神经元，l为输出层的第l个神经元；

(5-2)输入训练样本(X,Y)，其中X＝(x₁,x₂,...,x_i,...,x₅₄₄)，Y＝(y₁,y₂,...,y_l,...,y₁₉)，x_i为每帧双耳声信号的CCF和IID参数，y_l为神经网络的预期输出；其中，神经网络的预期输出为：真实方位角对应的输出层神经元输出为1，输出层其余神经元输出为0，即神经网络的理想输出为：

其中，g()表示输出层的激活函数；

(5-4)计算当前训练样本的误差，对所有输出节点，输出误差e定义预期输出y_l与实际输出的差值之和：

其中，根据偏导修正权重w_kl、w_jk与w_ij修正阈值b_l、与均是BP神经网络的常用权重修正过程，是通用方法，在此不再进行阐述。

步骤六、对不同声学环境下的测试双耳声信号进行预处理，得到不同方位角的多个单帧测试信号。

其中，预处理步骤与步骤三相同。

步骤七、对于每个方位角的每个单帧测试信号，计算其互相关函数CCF和耳间强度差IID。

其中，计算互相关函数CCF和耳间强度差IID的步骤与步骤四相同。

步骤八、将步骤七得到的互相关函数CCF和耳间强度差IID作为步骤五训练后得到的神经网络的输入特征，估计得到测试双耳声信号的方位角。

神经网络的输入层为测试双耳声信号每一帧的CCF参数和IID参数，输出层为测试双耳声信号每一帧最大出现概率的方位角，即该帧测试双耳声信号的空间特征线索对应概率最大的方位角。

对以上方法进行仿真验证，最终的性能评估如下：

(1)不同参数条件下声源测试性能对比：

网络的输出实际是声源位于19个方位角的概率值，选取概率最大的方位角即为声源方位。以方位角0度、无混响且信噪比为5dB的女声信号为例，图3给出了每一帧声源定位结果，可以看出定位角度为0度的帧数最多，由此可见，定位正确率较高。

表1-表3给出了不同混响条件下的定位正确率，测试数据所考虑的参数主要为性别和信噪比。

表1无混响情况下各参数语音对应的定位正确率

表2混响200ms情况下各参数语音对应的定位正确率

表3混响600ms情况下各参数语音对应的定位正确率

将表1-表3中男声、女声的定位正确率平均，绘制成图4，从而分析定位正确率随各因素变化趋势。由图4可知，当信噪比从20dB降至5dB时，定位性能下降并不明显，但是信噪比降至0dB时，定位正确率有极为明显的降低。这说明本发明对噪声、混响具有一定的鲁棒性。

(2)与其他方法性能对比

使用不同信噪比、不同混响时间下的单声源测试双耳声信号，将本发明方法的定位正确率与以往方法对比。表4-表6给出了经典GCC定位算法、基于子带SNR声源定位算法与本发明算法的定位正确率比较。

表4不同方法定位正确率对比(无混响)

信噪比	GCC定位法	基于子带SNR估计法	本发明
				20dB	98％	99％	100％
15dB	95％	98％	100％
				10dB	86％	93％	99％
5dB	65％	86％	94％
				0dB	40％	79％	73％

表5不同方法定位正确率对比(混响200ms)

信噪比	GCC定位法	基于子带SNR估计法	本发明
				20dB	92％	92％	99％
15dB	82％	90％	98％
				10dB	70％	85％	95％
5dB	53％	76％	88％
				0dB	35％	65％	71％

表6不同方法定位正确率对比(混响600ms)

信噪比	GCC定位法	基于子带SNR估计法	本发明
				20dB	87％	89％	98％
15dB	78％	86％	97％
				10dB	65％	80％	93％
5dB	50％	72％	86％
				0dB	34％	60％	69％

根据表4-表6，基于神经网络的双耳声源定位算法比之前两者的正确率整体有所上升。在信噪比较小时，正确率的提升则很显著，在信噪比为0dB的情况下，本发明的正确率甚至提升到了GCC方法的两倍有余。图5-7为表4-表6的图示形式。

(3)多声源定位效果评估

对于三声源信号，输出依然是声源位于各方位角的概率，此时选取概率最大的三个方向为定位方向，此时定位正确率的定义是输出的概率最大声源方位是三个正确方位中的一个时，即判定为定位正确，表7为不同混响时间、不同信噪比下的定位正确率。

表7三声源定位正确率

从表7中可以看出除混响时间为600ms，本发明方法依然保持了较高的定位正确率。图8显示了不同混响时间下，随着信噪比的降低，定位正确率的变化趋势，在5dB的信噪比条件下正确率均保持在70％以上。

图9以方位角分别是40度、-60度、10度的混合测试双耳声信号为例，每一帧估计的三个声源方位角统计结果，图示直观的给出了三个声源的方位角。

本发明讨论的主要是算法对定位的性能问题，之前已对多声源这种特殊情况的正确定位做出定义，要具体区分不同声源则已属于语音分离的范畴，本发明不再继续做更深入讨论。

Claims

1.一种基于BP神经网络的双耳声源定位方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于BP神经网络的双耳声源定位方法，其特征在于：所述步骤(1)中的不同方位角的训练双耳声信号的计算公式为；

x′_L＝s*h_L

x′_R＝s*h_R

3.根据权利要求1所述的基于BP神经网络的双耳声源定位方法，其特征在于：所述步骤(3)和步骤(6)中的预处理步骤包括幅度归一化、分帧和加窗；其中：

幅度归一化方法为：

加窗方法为：

x_L(τ,m)＝w_H(m)x_L(τN+m)0≤m＜N

x_R(τ,m)＝w_H(m)x_R(τN+m)

4.根据权利要求1所述的基于BP神经网络的双耳声源定位方法，其特征在于：所述步骤(4)和步骤(7)中互相关函数CCF的计算公式为：

式中，R(τ,d)表示第τ帧的双耳声信号的互相关函数CCF，x_L(τ,m)、x_R(τ,m+d)分别为预处理后的第τ帧的左耳声信号、右耳声信号，d为延迟采样点数，N为帧长。

5.根据权利要求1所述的基于BP神经网络的双耳声源定位方法，其特征在于：所述步骤(4)和步骤(7)中耳间强度差IID的计算公式为：

6.根据权利要求1所述的基于BP神经网络的双耳声源定位方法，其特征在于：所述步骤(5)具体包括：

其中，g()表示输出层的激活函数；

(5-4)计算当前训练样本的误差，对所有输出节点，输出误差e定义为预期输出y_l与实际输出y_l ^*的差值之和：