CN109164415B

CN109164415B - 一种基于卷积神经网络的双耳声源定位方法

Info

Publication number: CN109164415B
Application number: CN201811045818.XA
Authority: CN
Inventors: 周琳; 马康宇; 陈俐源; 林震宇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2022-09-16
Anticipated expiration: 2038-09-07
Also published as: CN109164415A

Abstract

本发明公开了一种基于卷积神经网络的双耳声源定位方法，在子带内计算双耳声信号的互相关函数，组成二维数据作为特征参数，对卷积神经网络进行训练，得到卷积神经网络分类器；测试过程中计算测试双耳声信号的互相关函数作为二维特征参数，利用训练好的卷积神经网络分类器估计每帧双耳声信号对应的方位信息。在不同声学环境下的实验结果表明，本发明提出的基于卷积神经网络的双耳声源定位方法，具有很好的鲁棒性，尤其是在高噪声和强混响情况下显著提升了定位正确率，优于现有技术中的经典算法。

Description

一种基于卷积神经网络的双耳声源定位方法

技术领域

本发明属于声源定位技术领域，涉及一种基于卷积神经网络的双耳声源定位方法。

背景技术

声源定位算法是语音信号处理的重要研究方向，也有比较广泛的应用场合。如视频会议系统中，声源定位技术可实现摄像头实时对准发言人；声源定位技术应用于语音识别的前期处理过程可以改善语音的质量，帮助提高识别的正确率；应用于助听装置时，可为听力障碍者提供声源位置信息，并提供有效语音信息。

声源定位技术所涉领域很广，包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。双耳声源定位利用双耳信号的差异进行分析从而估计声源方位，目前的定位算法根据其定位参数的区别可以分为两类，但均存在缺陷：

1、基于耳间差的定位

LordRayleigh于1907年在球形人头假设之上，首次提出基于耳间线索差的定位理论，即由于声源与人的双耳位置之间的位置差异，使得双耳接收到的声信号存在时间和强度差异，即耳间时间差(Inter-aural Time Difference，ITD)和耳间强度差(Inter-auralIntensity Difference，IID)，这两方面因素差异是双耳声源定位的基础。与ITD、IID相关双耳声信号的互相关函数(Cross Correlation Function，CCF)也是耳间差异参数，但实际环境中由于混响和噪声的干扰，会导致定位性能的下降。

2、基于头相关传递函数的定位

ITD信息可以判断左、右方位的声源，而不能判别声音是来自前方还是后方，也不能定位仰角位置。但是基于与头相关传递函数(Head-Related Transfer Function，HRTF)的方法对声源的定位就不再局限于水平面及前向声源，可以实现对三维空间声源的定位，该方法利用HRTF数据库设计逆滤波器，通过逆滤波之后的双耳信号计算互相关值，据此来估计声源方位。此类方法解决了三维空间声源定位问题，但是计算复杂度过大，并且与头相关传递函数的个体性较强，对不同个体，或者周围环境有所差异(即存在不同噪声或混响情况下)时，可能导致实际传递函数与定位模型中使用的函数不一致，进而影响定位的准确率。

发明内容

为解决上述问题，本发明公开了一种基于卷积神经网络的双耳声源定位方法，在子带内提取出训练双耳声信号的互相关函数，组成二维特征参数作为训练样本，采用卷积神经网络对多环境下的特征参数进行训练，得到卷积神经网络分类器，测试中提取测试双耳声信号的二维特征参数，利用训练得到的卷积神经网络分类器估计每帧双耳声信号对应的方位信息。

为了达到上述目的，本发明提供如下技术方案：

一种基于卷积神经网络的双耳声源定位方法，包括以下步骤：

(1)将训练单声道声信号与不同方位角、不同混响时间的双耳房间脉冲响应函数进行卷积，并加入不同信噪比的白噪声，得到不同声学环境下不同方位角对应的训练双耳声信号；

(2)对步骤(1)得到的训练双耳声信号进行子带滤波、分帧和加窗，得到各个子带分帧后的训练双耳声信号；

(3)对于步骤(2)得到的各个子带分帧后的训练双耳声信号，计算每一帧双耳声信号的互相关函数CCF，从而得到训练双耳声信号各个子带对应的多帧CCF；

(4)对于步骤(3)得到的各个子带对应的多帧CCF，将同一帧中不同子带的CCF函数组成一个矩阵，作为每一帧双耳声信号对应的二维特征参数；

(5)对于步骤(4)得到的每一帧二维特征参数，将其作为卷积神经网络的输入层参数，将方位角作为卷积神经网络的输出参数，基于前向传播和反向传播算法训练卷积神经网络；

(6)对不同方位角、不同声学环境下的测试双耳声信号进行子带滤波、分帧和加窗，得到各个子带分帧后的测试双耳声信号；

(7)对于步骤(6)得到的各个子带分帧后的测试双耳声信号，计算每一帧双耳声信号的互相关函数CCF，从而得到测试双耳声信号各个子带对应的多帧CCF；

(8)对于步骤(7)得到的各个子带对应的多帧CCF，将同一帧中不同子带的CCF函数组成一个矩阵，作为每一帧双耳声信号对应的二维特征参数；

(9)将步骤(8)得到的每一帧二维特征参数作为步骤(5)训练后得到的卷积神经网络的输入特征，估计得到每一帧测试双耳声信号的方位角。

进一步的，所述步骤(1)中的不同声学环境下的训练双耳声信号的计算公式为：

x_L(m)＝s(m)*h_L(m)+v_L(m)

x_R(m)＝s(m)*h_R(m)+v_R(m)

式中，x_L(m)、x_R(m)分别表示加入混响和噪声后的左、右耳声信号，s(m)为单声道源信号，h_L(m)、h_R(m)为不同混响时间对应的双耳房间冲激响应函数，v_L(m)、v_R(m)表示指定信噪比下的左、右耳白噪声信号，m表示样本点序号，*为卷积运算。

进一步的，所述步骤(2)和步骤(6)中的子带滤波、分帧、加窗方法具体包括如下步骤：

子带滤波：对于左、右耳声信号x_L(m)、x_R(m)，分别利用滤波器组进行子带滤波，得到各个子带的双耳声信号，计算公式如下：

x_L(i,m)＝x_L(m)*g_i(m)

x_R(i,m)＝x_R(m)*g_i(m)

其中，x_L(i,m)、x_R(i,m)分别为滤波后的第i个子带的左、右耳声信号，g_i(m)为子带滤波器的时域冲激响应函数；；

分帧、加窗：采用预设分帧长度和帧移，将每个子带的左、右耳声信号划分为多个单帧，信号，计算公式如下：

其中，x_L(i,τ,m)、x_R(i,τ,m)分别表示分帧、加窗后第i个子带、第τ帧的左、右耳声信号，w_H(m)为汉明窗，N为帧长，且

进一步的，步骤1中采用Gammatone滤波器，

g_i(m)＝Am³e^-2πbim/fs cos(2πf_im/fs)u(m)

式中，i表示滤波器的序号；A为滤波器增益；f_i是滤波器的中心频率；fs是采样频率；b_i是滤波器的衰减因子，决定了脉冲响应的衰减速度；u(m)代表阶跃函数；m表示样本点序号。

进一步的，所述步骤(3)和步骤(7)中互相关函数CCF的计算公式为：

式中，CCF(i,τ,d)表示第i个子带、第τ帧的双耳声信号对应的互相关函数，d为延迟采样点数，L为最大延迟采样点数。

进一步的，所述步骤(4)中的二维特征参数的构成形式为：

式中，R(τ)表示第τ帧双耳声信号的特征参数矩阵，K为子带个数，L为最大延迟采样点数。

进一步的，所述步骤(5)的卷积神经网络结构包括输入层、若干卷积层和池化层、全连接层、输出层，输入层的输入特征参数为步骤(4)中特征参数矩阵，卷积层后面为池化层，若干个卷积层和池化层依次排列，将最后一个池化层的多维输出展开成一维输出后，引入Dropout以降低过拟合的风险，全连接层将上一层的一维输出映射为最终结果，通过Softmax转化为概率，得到M_OUT个输出值，表示了M_OUT个方位角对应的概率。

进一步的，所述步骤(5)的训练过程具体包括以下子步骤：

(5-1)随机初始化所有卷积层和全连接层的权值；

(5-2)输入训练样本(R(τ),Y)，其中R(τ)是步骤(4)获得的特征参数矩阵；Y＝(y₁,y₂,..,y_n,…,y_Mout)，y_n表示卷积神经网络的预期输出，M_out为可能的方位角个数；卷积神经网络的预期输出为：真实方位角对应的输出层神经元输出为1，输出层其余神经元输出为0，即：

式中，θ_true表示当前帧双耳声信号所对应的真实方位角，θ_n表示第n个输出值对应的方位角；

(5-3)根据前向传播算法，依次计算每层网络的实际输出值，直到计算出每个Softmax单元的输出y^* ₁,y^* ₂,..,y^* _n,…,y^* _Mout；

(5-4)计算当前训练特征参数的代价函数，定义如下：

(5-5)使用反向传播算法，计算代价函数J对网络权重的偏导，并修正权重；

(5-6)若当前迭代次数小于预设总迭代次数，则返回至(5-2)，继续输入训练样本进行计算，直至得到达到预设迭代次数，迭代结束，训练卷积神经网络结束。

与现有技术相比，本发明具有如下优点和有益效果：

在不同声学环境下的实验结果表明，本发明提出的基于卷积神经网络的双耳声源定位方法，具有很好的鲁棒性，尤其是在高噪声和强混响情况下显著提升了定位正确率，优于现有技术中的经典算法。

附图说明

图1为本发明整体流程示意图；

图2为一帧中各个子带的互相关函数组成二维特征参数可视化后的灰度图；

图3为本发明提供的实施例中卷积神经网络结构示意图；

图4为采用本发明方法在不同条件下定位正确率比较结果图；

图5为不同方法在无混响条件下的正确率比较结果图；

图6为不同方法在混响时间为200ms的正确率比较结果图；

图7是不同方法在混响时间为600ms的正确率比较结果图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本实施例提供的基于卷积神经网络的双耳声源定位方法包括以下步骤：

步骤一、将训练单声道声信号与不同方位角、不同混响时间的双耳房间脉冲响应函数进行卷积，并加入不同信噪比的白噪声，得到不同声学环境下不同方位角对应的训练双耳声信号，计算公式为：

x_L(m)＝s(m)*h_L(m)+v_L(m)

x_R(m)＝s(m)*h_R(m)+v_R(m)

本例中，单声道源信号采用CHAINS Speech Corpus语音库SOLO中的单声道女声、男声信号。双耳房间脉冲响应函数采用Roomsim仿真软件生成的数据，无混响时，双耳房间脉冲响应函数即为与头相关脉冲响应函数HRIR。方位角的范围为[-90°,90°]，间隔5°取值，总计37个方位角。每个方位角对应一对双耳房间脉冲响应函数，即左耳房间脉冲响应函数、右耳房间脉冲响应函数。

步骤一生成的是噪声、混响环境下的双耳声信号，是为了能让卷积神经网络能够学习到噪声、混响环境下双耳声信号对应的空间特征参数的分布规律。混响时间设置为0ms、200ms、600ms，信噪比设置为0、5、10、15、20dB，从而得到不同方位角在不同声学环境下的双耳声信号。这样对应每个方位角，分别得到无混响时，信噪比为0、5、10、15、20dB的双耳声信号，混响时间为200ms时，信噪比为0、5、10、15、20dB的双耳声信号，以及混响时间为600ms时，信噪比为0、5、10、15、20dB的双耳声信号。

步骤二、对步骤一得到的训练双耳声信号进行子带滤波、分帧、加窗，得到各个子带分帧后的训练双耳声信号，具体包括如下子步骤：

(1)滤波器组子带滤波：人耳基底膜有对声信号进行时频分析的重要功能。当声波经过外耳和中耳传入到耳蜗基底膜之后，会在基底膜上形成以行波传递形式的振动，不同频率的声波引起基底膜不同位置上的峰值。为了模拟人耳听觉这一特性，在语音信号处理中，通常采用Gammatone滤波器组实现耳蜗模型。Gammatone滤波器的时域冲激响应函数为：

g_i(m)＝Am³e^-2πbim/fs cos(2πf_im/fs)u(m)

式中，i表示滤波器的序号；A为滤波器增益；f_i是滤波器的中心频率；fs是采样频率；b_i是滤波器的衰减因子，决定了脉冲响应的衰减速度；u(m)代表阶跃函数，m表示样本点序号。

本实施例采用的Gammatone滤波器组中的滤波器个数为33，中心频率范围为[50Hz,8000Hz]。

子带滤波的计算公式为：

x_L(i,m)＝x_L(m)*g_i(m)

x_R(i,m)＝x_R(m)*g_i(m)

式中，x_L(i,m)、x_R(i,m)分别为滤波后的第i个子带的左耳声信号、右耳声信号，其中1≤i≤33。每个声道的声信号经子带滤波后将得到33个子带声信号。

实际上，本发明的子带滤波器不限制于此实施例的滤波器结构，只要是实现声信号的子带滤波功能的，都可以采用。

(2)分帧、加窗：在语音采样频率为16kHz的情况下，预设帧长为512，帧移为256，将每个子带的左耳、右耳声信号划分为多帧信号。

分帧和加窗的公式为：

式中，x_L(i,τ,m)、x_R(i,τ,m)分别表示分帧后第i个子带、第τ帧的左、右耳声信号，其中1≤i≤33，N为帧长，取值512。

窗函数为汉明窗：

步骤三、对于步骤二得到的各个子带分帧后的训练双耳声信号，计算每一帧双耳声信号的互相关函数CCF。互相关函数CCF的计算公式为：

结合声音的传播速度和人头部尺寸，互相关函数的长度一般取[-1ms，1ms]之间的值。本发明中声信号的采样率为16kHz，因此本实施例取L＝16，这样每一帧训练双耳声信号计算得到的CCF点数为33点。

步骤四、对于步骤三得到的各个子带对应的多帧CCF样本，将同一帧中不同子带的CCF函数组成一个矩阵，作为每一帧双耳声信号对应的二维特征参数。对于第τ帧双耳声信号的特征参数矩阵，其构成形式为：

在本实施例中，K取值为33，L取值为16，这样R(τ)是一个33*33的方阵。

图2是一个特征参数矩阵可视化后的实例，CCF(i,τ,d)的值越大，对应点的颜色越浅。

步骤五、对于步骤四得到的每一帧二维特征参数，将其作为卷积神经网络的输入层参数，将方位角作为卷积神经网络的输出参数，基于前向传播和反向传播算法训练卷积神经网络。

下面给出本实施例的卷积神经网络结构。实际上，本发明的卷积神经网络的结构不限制于此实施例的网络结构。

如图3所示，本实施例采用的卷积神经网络依次包含一个输入层，4个卷积层和池化层，一个全连接层和一个输出层。输入层的输入特征参数为步骤四得到的R(τ)，维数为K*(2L-1)，K为子带个数，L为最大延迟采样点数，本例中R(τ)即33×33的矩阵，行数33为子带个数，列数33为CCF点数。卷积层均采用2×2的卷积核，卷积步长均为1，卷积前均对上一层的输出进行零填充，以确保卷积前后特征尺寸不会缩小，从第一到第四层卷积核个数依次为18、26、72、144，激活函数采用ReLU函数；池化层均采用2×2的最大池化，步长均为2，池化前均对上一层的输出进行零填充。33×33的二维特征经过四层卷积和池化后，输出为3×3×144的三维特征。卷积层后面为池化层，若干个卷积层和池化层依次排列，将最后一个池化层的多维输出展开成一维输出，即将三维特征展开成1296×1的一维特征，并引入Dropout方法以降低过拟合的风险。该方法是从神经网络中随机丢弃神经元以及所连接的权值，这样可以防止神经元调整过多，这种随机丢弃的方法使得在训练过程中创建稀疏网络。本实施例的Dropout参数设为0.5，即每次训练随机丢弃1296×1的一维特征中的一半。全连接层将实施Dropout后的特征映射为37个结果，通过Softmax转化为概率，代表了37个方位角对应的概率。

本实施例在仿真实验基础上，将学习率设置为0.0001，总迭代次数设置为400次，学习率设为0.0001可以避免误差函数和误分率振荡过大，同时迭代次数为400时，网络模型接近收敛。

基于设定的参数，步骤五具体包括以下步骤：

(5-1)随机初始化各卷积层以及全连接层的权值；

(5-2)输入训练样本(R(τ),Y)，其中R(τ)是步骤五得到的特征参数矩阵；Y＝(y₁,y₂,..,y_n,…,y₃₇)，y_n为卷积神经网络的预期输出；卷积神经网络的预期输出为：真实方位角对应的输出层神经元输出为1，输出层其余神经元输出为0，即卷积神经网络的理想输出为：

式中，θ_true表示当前帧双耳声信号所对应的真实方位角，θ_n表示第n个输出神经元对应的方位角；

(5-3)根据前向传播算法，依次计算每层网络的实际输出值，直到得到输出层每个神经元的实际输出y^* ₁,y^* ₂,..,y^* _n,…,y^* ₃₇；

(5-4)计算当前训练特征参数的代价函数，定义如下：

(5-5)使用反向传播算法，计算代价函数对网络权重的偏导，并修正权重；

(5-6)若当前迭代次数小于预设总迭代次数，则返回至(5-2)进行再计算，直至得到达到预设迭代次数，迭代结束，训练卷积神经网络结束。

步骤六、对不同方位角、不同声学环境下的测试双耳声信号进行子带滤波、分帧、加窗，得到各个子带分帧后的测试双耳声信号。其中，子带滤波、分帧、加窗步骤与步骤二相同。

步骤七、对于步骤六得到的各个子带分帧后的测试双耳声信号，计算每一帧双耳声信号的互相关函数CCF，得到测试双耳声信号各个子带对应的多帧CCF样本。计算方法与步骤三相同。

步骤八、对于步骤七得到的各个子带对应的多帧CCF样本，将同一帧中不同子带的CCF函数组成一个矩阵，作为每一帧双耳声信号对应的二维特征参数。其中，二维特征参数的构成形式与步骤四相同。

步骤九、将步骤八得到的每一帧二维特征参数作为步骤五训练得到的卷积神经网络的输入特征，估计得到每一帧测试双耳声信号的方位角。

对以上方法进行仿真验证，最终的性能评估如下：

(1)不同参数条件下声源测试性能对比：

使用[-90°,+90°]范围内以5°为间隔的测试双耳声信号对卷积神经网络进行定位测试，将声源定位误差在[-5°,+5°]之间的输出判为正确，定位正确率定义为定位准确的帧数与总帧数之比，即：

正确率＝定位正确的帧数/总帧数

测试环境由3种混响时间和5种信噪比组成，共15个测试组。测试结果如表1所示。

表1不同混响和噪声情况下本发明的定位正确率

将表1的数据绘制成图4，从而分析定位正确率随各因素变化趋势。由图可知，在无混响且高信噪比条件下，定位正确率较高。在混响或低信噪比的条件下，定位正确率有所下降，但下降并不明显。这说明本发明对噪声、混响具有一定的鲁棒性。

(2)与其他方法性能对比

使用不同信噪比、不同混响时间下的测试双耳声信号，将本发明方法的定位正确率与传统的双耳声源定位算法，如经典的GCC定位算法、基于子带信噪比SNR估计的双耳声源定位算法的性能进行比较，表2-表4给出了不同算法的定位正确率比较结果。

表2不同方法定位正确率对比(无混响)

信噪比	GCC定位法	子带SNR估计法	本发明
				0dB	39.96％	78.84％	81.17％
5dB	65.10％	86.07％	85.02％
				10dB	85.67％	92.69％	88.32％
15dB	95.23％	98.06％	92.18％
				20dB	98.39％	99.25％	95.55％

表3不同方法定位正确率对比(混响200ms)

信噪比	GCC定位法	子带SNR估计法	本发明
				0dB	35.20％	64.61％	80.09％
5dB	53.37％	76.04％	83.95％
				10dB	69.79％	84.73％	87.27％
15dB	82.46％	89.52％	91.40％
				20dB	91.79％	92.18％	94.68％

表4不同方法定位正确率对比(混响600ms)

信噪比	GCC定位法	子带SNR估计法	本发明
				0dB	33.89％	59.69％	78.16％
5dB	49.91％	71.98％	82.25％
				10dB	64.54％	80.13％	86.00％
15dB	77.72％	86.10％	89.98％
				20dB	87.10％	89.01％	93.30％

根据表2-表4，基于卷积神经网络的双耳声源定位算法比之前两者的正确率整体有所上升，尤其在低信噪比和强混响条件下提升明显。在信噪比为0dB，混响600ms的情况下，本发明的正确率甚至提升到了GCC方法的两倍有余。图5-图7为表2-表4的图示形式。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于卷积神经网络的双耳声源定位方法，其特征在于，包括以下步骤：

(5)对于步骤(4)得到的每一帧二维特征参数，将其作为卷积神经网络的输入层参数，将方位角作为卷积神经网络的输出参数，基于前向传播和反向传播算法训练卷积神经网络；所述步骤(5)的训练过程具体包括以下子步骤：

(5-1)随机初始化所有卷积层和全连接层的权值；

(5-4)计算当前训练特征参数的代价函数，定义如下：

(5-6)若当前迭代次数小于预设总迭代次数，则返回至(5-2)，继续输入训练样本进行计算，直至得到达到预设迭代次数时迭代结束，训练卷积神经网络结束；

2.根据权利要求1所述的基于卷积神经网络的双耳声源定位方法，其特征在于，所述步骤(1)中的不同声学环境下的训练双耳声信号的计算公式为：

x_L(m)＝s(m)*h_L(m)+v_L(m)

x_R(m)＝s(m)*h_R(m)+v_R(m)

3.根据权利要求1所述的基于卷积神经网络的双耳声源定位方法，其特征在于，所述步骤(2)和步骤(6)中的子带滤波、分帧、加窗方法具体包括如下步骤：

x_L(i,m)＝x_L(m)*g_i(m)

x_R(i,m)＝x_R(m)*g_i(m)

其中，x_L(i,m)、x_R(i,m)分别为滤波后的第i个子带的左、右耳声信号，g_i(m)为子带滤波器的时域冲激响应函数；m表示样本点序号；

4.根据权利要求3所述的基于卷积神经网络的双耳声源定位方法，其特征在于，子带滤波计算公式采用Gammatone滤波器，且

5.根据权利要求1所述的基于卷积神经网络的双耳声源定位方法，其特征在于，所述步骤(3)和步骤(7)中互相关函数CCF的计算公式为：

式中，CCF(i,τ,d)表示第i个子带、第τ帧的双耳声信号对应的互相关函数，d为延迟采样点数，L为最大延迟采样点数，x_L(i,τ,m)、x_R(i,τ,m)分别表示分帧、加窗后第i个子带、第τ帧的左、右耳声信号。

6.根据权利要求5所述的基于卷积神经网络的双耳声源定位方法，其特征在于，所述步骤(4)中的二维特征参数的构成形式为：

7.根据权利要求1所述的基于卷积神经网络的双耳声源定位方法，其特征在于，所述步骤(5)的卷积神经网络结构包括输入层、若干卷积层和池化层、全连接层、输出层，输入层的输入特征参数为步骤(4)中特征参数矩阵，卷积层后面为池化层，若干个卷积层和池化层依次排列，将最后一个池化层的多维输出展开成一维输出后，引入Dropout以降低过拟合的风险，全连接层将上一层的一维输出映射为最终结果，通过Softmax转化为概率，得到M_OUT个输出值，表示了M_OUT个方位角对应的概率。