CN110517705B

CN110517705B - 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

Info

Publication number: CN110517705B
Application number: CN201910808413.5A
Authority: CN
Inventors: 刘宏; 庞程; 丁润伟; 吴璐璐; 孙永恒
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-02-18
Anticipated expiration: 2039-08-29
Also published as: CN110517705A

Abstract

本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统，首先对双耳声音信号提取双耳能量差和互相关函数；接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络，在深度神经网络分支中判别声音源的方向，在卷积神经网络中提取声音源前后向区分的细节信息，得出声音源在机器人头部前半平面或后半平面的信息；最后，综合深度神经网络和卷积神经网络的输出结果，得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰，完成声源前后向及角度的判别问题，实现全向声源定位。

Description

一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统

技术领域

本发明属于信息技术领域，涉及一种应用在语音感知和语音增强中的双耳声源定位方法，具体涉及一种基于深度神经网络和卷积神经网络的级联双耳声源定位方法和系统。

背景技术

机器人听觉系统是一个能使机器人与人、机器人与外部世界更自然、方便、高效、友好、智能交互的方式之一。机器人听觉系统主要包括声源的定位与跟踪、语音增强、声源分离与分类、语音识别、说话人识别、语音情感识别等功能。其中，机器人听觉声源定位可以为其他语音信号处理任务提供辅助的空间信息，因此，是否能够进行准确的声源定位是机器人智能与否的重要标志之一。

声源定位，作为机器人听觉系统前端处理的一部分，对于友好的人机交互是不可缺少的。机器人听觉声源定位与跟踪是指利用搭载在机器人系统上的麦克风阵列定位出声源的相对位置，包括水平角、俯仰角和距离。通常来说，麦克风阵列声源定位因其可接受信号数量较多，往往可以取得更加鲁棒，更加准确的定位效果。但是，人类仅仅通过两只耳朵仍然可以准确、快速、鲁棒的定位声源。双耳声源定位是指仅仅利用搭载在机器人头部两侧的两个麦克风，结合耳廓的滤波特性，对声源进行定位。它是声源定位技术的一个重要分支，不仅利用了双麦克风简易的阵列结构，而且结合人耳耳廓的滤波效应克服水平方向上的前后向混淆问题。双耳声源定位因其麦克风数量较少，往往可以实时实现，在某些领域，尤其是涉及人类听觉的领域，例如：人形机器人，语音增强，助听器等，这种方法是不可被替代的。因此研究双耳声源定位十分有必要的。凭借双耳声源定位的诸多优点，其在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。

视频会议中，可以根据麦克风声源定位结果自动调整摄像机的位置，使其转向更感兴趣的说话人方向。智能监控中，同样可以根据声源方向调整摄像机方向，从而扩大视野区域，达到更好的监控。人机交互中，机器人头部主动对准说话人，更是一种友好的体现，可以使人机交流更友好。

声源位置信息在声源分离中也有广泛使用。语音分离来自于著名的‘鸡尾酒会’问题，是指人们可以在嘈杂的声音环境中，专注于某一个人说话的能力。该问题长久以来被认为是非常具有挑战性的问题。通过在语音分离中结合声源位置信息，有助于分离混叠声音，增加语音识别的精度。声源定位在语音识别领域也有广泛应用。对于高速行驶的车辆，为使车辆更好的接收来自驾驶员的语音操作命令，可以通过判断车内声源的方向，当有多人说话或噪声存在时，优先考虑来自驾驶员方向的声音。

现有的声源定位方法主要是传统的信号处理的方法，主要包括以下几个步骤：

1、语音数模转换，预滤波。首先将模拟信号进行预滤波，高通滤波抑制50Hz电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分，对于语音信号，往往滤除4k以上的信号部分，以防止混叠干扰，对模拟声音信号进行采样和量化得到数字信号。

2、预加重。信号通过高频加重滤波器冲激响应H(z)＝1-0.95z^-1，以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。语音信号具有时变的特性，但是由于人体嘴部肌肉运动相对声音频率变化缓慢，因此认为语音信号在短时间内是稳定的，一般为10ms-30ms。因此对语音信号按照如上时间段进行分帧，例如20毫秒分一帧。为防止因分帧带来的一些问题，对分帧后的信号进行加窗处理。常用的窗函数有：矩形窗、汉宁窗、汉明窗等。

4、特征提取。双耳声源定位算法中，需要提取随着不同方向而变化的特征，常用特征包括双耳时间差(Interaural Time Difference,ITD)、双耳能量差(Interaural LevelDifference,ILD)，双耳相位差(Interaural Phase Difference,IPD)等，前面两种特征是应用最多的。本发明中提取双耳时间差(互相关函数)和双耳能量差。

5、定位。从接收到的信号帧中提取双耳线索，将线索与全局模板进行匹配，用于确定声源方向。比如使用高斯混合模型，神经网络模型等，将从声音中提取的特征映射到相应的方向上。

随着计算机计算能力的提升和神经网络相关理论的发展，使得神经网络技术从最初的多层感知机发展到现如今的深度神经网络，现今这一次神经网络热潮起源于2012年的ImageNet大赛。来自于Alex Krizhevsky等训练的卷积神经网络模型在图像识别任务上取得了惊人的好成绩，刷新纪录约10个百分点，达到17％的前5错误率，后又经历VGG、GoogLeNet、ResNet等，在ImageNet数据集上图像分类准确率达到惊人的3.57％，已经超过人类水平。从此深度学习已经广泛应用于各个领域，包括物体识别、图像语义分割、自然语言处理、语音识别、声源定位等。

双耳声源定位是一个具有很大挑战性的问题。其中一个问题是鲁棒的双耳线索的提取。受噪声、混响、多声源等不利条件的干扰，使得提取出的双耳线索具有较大的误差，严重影响声源定位效果。双耳线索之间融合也是不可忽略的问题。由于双耳声源定位只有两个麦克风，使得双耳线索存在前后混淆性问题。然而传统方法很难提取表征声源前后向的线索，因此很难判断声源来自于前半平面还是后半平面，以致出现前后混淆情况。

发明内容

针对上述问题，本发明的目的在于提供一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统，能够基于深度神经网络判别声源方向，基于卷积神经网络判断声源前后向，进而获得最终的声源方向。

本发明将传统的双耳线索即双耳时间差(双耳信号互相关函数)和双耳能量差作为神经网络输入，通过神经网络拟合不同的双耳线索。卷积神经网络输出声源前后向判断，深度神经网络输出声源方向判断，结合两个结果，给出最终声源方向(360度)判断。

为了实现上述目的，本发明采用以下技术方案：

一种基于深度神经网络和卷积神经网络的双耳声源定位方法，包括以下步骤：

1)对双耳声音信号提取双耳能量差和互相关函数；

2)将提取的双耳能量差和互相关函数输入结合深度神经网络和卷积神经网络的双耳声源定位网络，通过深度神经网络输出预测的声源的转向角类别，通过卷积神经网络输出预测的声源的前后向类别；

3)根据双耳声源定位网络中深度神经网络和卷积神经网络的输出结果进行整合判断，得到双耳声源定位结果。

进一步地，上述方法可以分为数据准备阶段、训练阶段、定位阶段和决策阶段，下面分别进行说明。

1)数据准备阶段，模拟双耳各个方向声音，提取双耳线索，为神经网络提供原始训练数据，包括：

1-1)将定位空间按照转向角(azimuth)划分为72个不同方向，每个方向间隔5度。通过KEMAR数据库提供的双耳冲激响应函数，结合TIMIT语音数据库语音，添加噪声和混响模拟仿真真实情况下双耳接收到的声音信号。

1-2)根据人耳生理听觉特性，将输入的双耳信号通过32频带、4阶的Gammatone滤波器(伽玛通滤波器)处理。在每个频带上分别提取双耳能量差(ILD)和互相关函数(CCF)。

1-3)将所提取出的互相关函数和双耳能量差进行组合，作为神经网络的输入。

2)训练阶段，该级联神经网络共有三部分输出，分别为深度神经网络DNN的72个角度输出，卷积神经网络CNN的前后向输出，DNN和CNN的组合输出的72个角度的后验概率输出。损失函数采用自交叉熵和互交叉熵的组合形式。

3)定位阶段，将根据双耳声音信号提取的双耳能量差和互相关函数输入训练好的神经网络，输出预测的转向角类别和前后向类别。

4)决策阶段，将步骤3)中的输出结果进行整合判断。当DNN的输出结果在前后半面上与CNN的输出结果相互一致时，将DNN的输出结果作为最终的输出结果；当二者相互矛盾时，遵循CNN的输出结果，将DNN的输出结果进行前后翻折作为最终的判断结果。

更进一步，为神经网络准备训练数据，本质上与声源的类型无关，比如正常的说话声、尖叫声、关门声、拍桌子声等。采用冲激函数作为声源与HRTF(Head-Related TransferFunction,头相关传递函数)卷积或者直接利用录入的声音信号，计算出所有方向上的互相关函数和双耳能量差，并将其按照一定形式组合。

1)对于深度神经网络，考虑到双耳间距离、声音在空气中传播速度及人头遮挡效应等，双耳最大时间差不会超多1.1毫秒，因此每个频带保留互相关函数37位，互相关函数的计算公式如下：

其中

其中，l和r分别表示左耳和右耳，k表示不同帧，n表示每一帧内的采样点下标，τ表示时间延迟，x_i、x_j分别表示左耳信号、右耳信号，τ₀表示时延为0，G_i,j(k,τ)表示麦克风对(i,j)之间，时间延迟为τ，频带下标为k的互相关函数。

根据定义，双耳能量差计算公式如下：

将每个频带的CCF与ILD拼接成长度为38(38*1)的一维矩阵，共同组成长度为1216(38*32)的一维矩阵，作为深度神经网络的输入。

2)对于卷积神经网络，将上述32个长度为38(38*1)的矩阵拼接成38*32的二维矩阵，作为卷积神经网络的输入。

更进一步，神经网络的训练，采用深度神经网络和卷积神经网络相结合的网络结构，采用互交叉熵和自交叉熵组合的方式进行声源定位，因水平方向判断可满足大部分应用要求，因此，这里只针对声源水平转向角进行判断。

1)DNN网络结构的配置，由于双耳时间差是频率有关的，在500到2000Hz，声源定位效果表现最好，但是在其他频率的声音对声源定位结果也会有轻微影响，因此并没有丢弃任何频带。DNN的输入层包含1216个节点，这是通过组合CCF和ILD得到的，输出层有72个节点，分别代表着72个不同方向，这已经遍布机器人头部一周。使用的DNN有三个隐藏层，每层有512个节点，本发明认为这足够拟合输入到输出的映射。

2)CNN网络结构的配置，CNN模型被用于更加隐晦的特征，用于辨认声源来自前方还是后方。局部的互相关函数特征在相邻频带显示出很强的相关性，因此使用一通道的3*3的卷积核卷积输入特征。CNN模型有两个卷积层，分别包含512和1024个特征图。每个卷积层后接线性整流(Rule)激活函数和2*2下采样层。

3)针对过拟合问题，采用Dropout机制，并且采用提早停止策略。CNN和DNN在一个有72个节点的主输出层融合。联合学习帮助反向传播整个损失函数用于更新网络参数，并且CNN和DNN可以互相改善对方模块的参数。

4)通常，损失函数采用互相关损失函数，然而互相关函数的一个缺点是分类置信度太高，甚至是对于噪声数据输入，这通常会导致过拟合问题。对于双耳声源定位，相邻的方向上的线索通常相似，因此估计的方向在一定的误差范围内都可以接受。这里联合互信息熵和自信息熵设计了一个角度损失函数：

其中q_o为真实声源方向，p_o为估计声源方向，Θ表示网络的参数，N表示转向角的数量，ε表示自信息熵的注意力权重，实验中根据经验值设置为0.1。如果ε＝0，角度损失函数将会变成互信息损失函数，如果ε＝1，角度损失函数将会变成自信息损失函数。为了调整网络参数，损失函数对参数求导，得：

角度损失函数用在DNN网络和DNN与CNN结合的网络中，在CNN中使用互信息熵。总损失函数是三个损失函数之和，即DNN中的转向角分类损失函数、CNN中的前后向分类损失函数、DNN与CNN结合的网络中的角度损失函数。

更进一步，定位阶段，将接收到的信号，同样提取互相关函数和双耳能量差，输入神经网络。DNN的输出的最大值所对应的方向即为初步定为的声源方向。

更进一步，决策阶段，根据CNN的输出决定声音前后性，当DNN输出的前后性与CNN输出的前后性矛盾时，将DNN的输出翻折后的方向作为最终声源方向。根据上述人工头模型坐标的定义，可通过下式进行角度转化：

其中，

表示由整个神经网络模型输出的最终结果即最终声源方向，θ_max表示DNN网络对声源方向的判别结果。

基于同一发明构思，本发明还提供一种基于深度神经网络和卷积神经网络的双耳声源定位系统，其包括：

双耳线索提取模块，负责对双耳声音信号提取双耳能量差和互相关函数；

双耳声源定位网络模块，负责以所述双耳线索提取模块提取的双耳能量差和互相关函数为输入，通过深度神经网络输出预测的声源的转向角类别，通过卷积神经网络输出预测的声源的前后向类别；

决策模块，负责根据所述双耳声源定位网络模块中深度神经网络和卷积神经网络的输出结果进行整合判断，得到双耳声源定位结果。

本发明的有益效果是：

本发明将传统的双耳线索即双耳时间差(双耳信号互相关函数)和双耳能量差作为神经网络输入，通过神经网络拟合不同的双耳线索，卷积神经网络输出声源前后向判断，深度神经网络输出声源方向判断，结合两个结果给出最终声源方向(360度)判断。本发明能够实现鲁棒的双耳线索的提取，双耳线索进行融合时能够避免前后混淆性问题，从而能够实现准确的双耳声源定位。本发明能够在一定程度上抵抗噪声和混响的干扰，完成声源前后向及角度的判别问题，实现全向声源定位。

附图说明

图1是本发明的声源定位方法坐标定义图。

图2是本发明的整体流程图，包括模型的训练与测试，上半部分为训练部分，下半部分是测试阶段，实际使用中对应使用阶段。图中，“CCF-ILD”中的CCF为互相关函数，ILD为双耳能量差。

图3是本发明所提取的特征示意图。包括双耳信号互相关函数和双耳信号能量差。(a)为提取的信号互相关函数，其中每一行表示每一个频带；(b)为双耳能量差，每一行表示一个频带。图中，(a)图的横坐标为信号到达左耳的时间相对于信号到达右耳的时间延迟(time lag)，(b)图的横坐标为每次处理的一段信号(time frame)，纵坐标为信号经过伽玛通滤波器后的频率索引值(subband index)。

图4是本发明所采用的神经网络结构，包含深度神经网络和卷积神经网络组成的完整的网络结构。

图5是本发明采用的伽玛通滤波器的频域响应图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施实例采用的是使用Kemar人工头录制的双耳冲激响应，其拥有水平面内360度不同方向、不同距离的双耳冲激响应，可以模拟真实环境不同方向的声音信号。

数据采集过程是在严格的消音室进行，所使用的所有声源距离人头中心距离(即双耳连线的中点位置)为1米。在360度范围内等间隔挑选72个不同方向进行训练。采样频率为16kHz。因此，这里我们只需用声源信号分别与双耳冲击响应卷积就可以得到双耳传声器接收到的信号。为增强算法的鲁棒性，对各种噪声具有较强的抗干扰性，将卷积后的双耳数据加上由NOISEX-92数据库提供的噪声信号，构成原始训练数据。从该数据库中挑选5种不同类型噪声，分别包括babble、destroyerops、factory1、white、f16等5种噪声类型，涉及到正常说话声干扰，有规律的等时间间隔的干扰，以及影响个别频带的窄带信号干扰等。

训练阶段，首先将以上准备的数据分帧、加窗，通过4阶32频带，最低中心频率80Hz，最高中心频率7200Hz的gammatone滤波器，得到32个不同频带的信号。分别利用互相关函数计算公式(上有给出)提取互相关函数，这里我们考虑到双耳信号的最大时间差不会超过正负1.1毫秒，并且结合16k采样率，仅取长度为32的互相关函数的互相关值，结合每一个频带的双耳能量差，构成长度为38的特征向量。将不同频带的特征向量组合喂入神经网络。喂入CNN的数据组合形式为38*32的二维矩阵。喂入DNN的数据组合形式为1216(38*32)的一维矩阵。通过上述损失函数不断调整神经网络参数，直至达到验证集准确性最优。训练环境信噪比设置为0到30分贝。

在线定位阶段，采用同样来自于TIMIT数据库的不同说话人的语音进行测试，测试时的环境为-10到20分贝，这在很大程度上能验证我们发明方法的泛化性能。

图1给出相对于头部坐标的建立示意图。图2给出本发明方法的总体框架，包括训练阶段和测试阶段。首先对原始信号进行CCF-ILD特征提取，即提取互相关函数特征CCF和双耳能量差特征ILD，分别喂入DNN角度分类器(水平角分类器)和CNN前后向分类器，将DNN输出的后验概率和CNN输出的前后向结果结合，经过一层全连接层得到最终的后验概率，选择值最大的方向作为声源方向，即图中的θ。

图3是所提出特征的可视化，(a)中每一行表示一个频带的互相关函数，整个矩阵是通过一帧声音信号提取出来的。(b)图中每一列表示从一帧数据中提取的双耳能量差。

图4是所涉及的网络结构，上半部为深度神经网络，输出声音出现在不同方向的后验概率，下半部为卷积神经网络，输出声源的前后性，二者通过同一全连接层输出最终结果。

图5是采用的伽玛通滤波器的频域响应图。其横坐标为频率，纵坐标为幅度。

下面表1是采用本发明方法与现有的其它方法的实验数据对比图。其中包括无噪声无混响环境(noiseless)，有噪声环境(noisy)，有混响环境(reverberant)，avg表示平均值。

DNN(Freq.Indep.)表示参考文献“N.Ma,T.May and G.J.Brown,"ExploitingDeep Neural Networks and Head Movements for Robust Binaural Localization ofMultiple Sources in Reverberant Environments,"in IEEE/ACM Transactions onAudio,Speech,and Language Processing,vol.25,no.12,pp.2444-2453,Dec.2017.”中公开的DNN结构；

DNN(cross-entropy)表示损失函数使用交叉熵的DNN结构；

DNN(angle-loss)表示损失函数使用角度损失的DNN结构；

CNN(angle-loss)表示损失函数使用角度损失的CNN结构；

DCNN表示本发明所提出的网络结构。

表1.本发明方法与其它方法的实验数据对比

基于同一发明构思，本发明的另一个实施例提供一种基于深度神经网络和卷积神经网络的双耳声源定位系统，其包括：

基于同一发明构思，本发明的另一个实施例提供一种计算机/服务器，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

尽管为说明目的公开了本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于深度神经网络和卷积神经网络的双耳声源定位方法，其特征在于，包括以下步骤：

1)对双耳声音信号提取双耳能量差和互相关函数；

3)根据双耳声源定位网络中深度神经网络和卷积神经网络的输出结果进行整合判断，得到双耳声源定位结果；

所述结合深度神经网络和卷积神经网络的双耳声源定位网络在训练时，将定位空间在360度范围内按照转向角等间隔划分为72个不同方向，在72个不同方向进行训练；

所述结合深度神经网络和卷积神经网络的双耳声源定位网络的总损失函数是三个损失函数之和，所述三个损失函数为：DNN中的转向角分类损失函数、CNN中的前后向分类损失函数、DNN与CNN结合的网络中的损失函数；所述DNN与CNN结合的网络中的损失函数为联合互信息熵和自信息熵的角度损失函数：

其中，q_o为真实声源方向，p_o为估计声源方向，Θ表示网络的参数，N表示转向角的数量，ε表示自信息熵的注意力权重；

在定位阶段，步骤2)中DNN的输出的最大值所对应的方向为初步的声源方向；步骤3)根据CNN的输出决定声音前后性，当DNN输出的前后性与CNN输出的前后性矛盾时，将DNN的输出翻折后的方向作为最终声源方向；

通过下式进行角度转化，得到所述最终声源方向：

其中，

表示由整个神经网络模型输出的最终声源方向，θ_max表示DNN网络对声源方向的判别结果。

2.根据权利要求1所述的方法，其特征在于，采用以下步骤准备所述结合深度神经网络和卷积神经网络的双耳声源定位网络的训练数据：

a)通过双耳冲激响应函数，结合语音数据库语音，添加噪声和混响模拟仿真真实情况下的双耳接收到的声音信号；

b)将双耳声音信号通过伽玛通滤波器处理，在每个频带上分别提取双耳能量差和互相关函数；

c)将提取出的互相关函数和双耳能量差进行组合，作为神经网络的输入。

3.根据权利要求2所述的方法，其特征在于，在训练阶段，所述结合深度神经网络和卷积神经网络的双耳声源定位网络共有三部分输出，分别为深度神经网络的72个角度输出，卷积神经网络的前后向输出，深度神经网络和卷积神经网络的组合输出的72个角度的后验概率输出。

4.根据权利要求1所述的方法，其特征在于，所述DNN的输入层包含1216个节点，输出层包含72个节点，分别代表着72个不同方向，隐藏层有三个，每个隐藏层有512个节点；所述CNN含有两个卷积层，分别包含512和1024个特征图，每个卷积层后接线性整流Rule激活函数和2*2下采样层；CNN和DNN在一个有72个节点的主输出层融合。

5.一种采用权利要求1～4中任一权利要求所述方法的基于深度神经网络和卷积神经网络的双耳声源定位系统，其特征在于，包括：