CN109031200A

CN109031200A - 一种基于深度学习的声源空间方位检测方法

Info

Publication number: CN109031200A
Application number: CN201810504609.0A
Authority: CN
Inventors: 俞胜锋; 钟小丽; 顾正晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2018-12-18

Abstract

本发明公开了一种基于深度学习的声源空间方位检测方法，包括步骤：步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号，用于深度神经网络模型的训练；步骤2、对所述深度神经网络模型进行迭代训练，得到一个具有最优参数的分类器；步骤3、输入未知声源方位的双耳信号至训练好的深度神经网络模型，所述深度神经网络模型输出声源空间方位的预测值。相对于现有技术，本发明的硬件实施简便；同时，神经网络信息量大，预测准确性接近人类行为学实验的水平。

Description

一种基于深度学习的声源空间方位检测方法

技术领域

本发明涉及声源定位相关的技术领域，特别涉及一种基于深度学习的声源空间方位检测方法。

背景技术

声源定位是一种接受目标声场信息，并施以声源定位算法处理，进而确定目标声源方位的技术。声源定位技术涉及声信号检测、音频数字信号处理、空间听觉研究等一系列领域，在军事和民用消费领域有着重要的应用。例如，声源定位技术可以提高远程通讯的临场感和语言可懂度，也可用于车辆停放地的搜索和导航、智能音箱的唤醒等。

目前，声源定位技术主要是利用麦克风阵列(即传声器阵列)接收声场信息，根据声源信号到达各个麦克风阵元的物理差异(例如声达时间差，time differences ofarrival TDOA)，被动估计声源的空间方位。已有多种麦克风阵列，如线性阵列、环形整列等；通常，麦克风阵元的数量和定位准确性呈正相关关系。实际应用中，为了获得良好的声源空间方位的检测效果，需要将较多数量的麦克风阵元按照一定的空间几何位置进行排列。多阵元麦克风阵列不仅需要精确设计阵列的孔径大小、阵元间距等参数，还需要多通道采集系统和算法支撑。这些对麦克风系统的软、硬件都提出了较高的要求，增加了系统实现的复杂性，相应的成本支出的增大也增加了用户的负担。目前，也有少量研究采用BP神经网络优化声源定位算法(例如，段敬红、刘瑞华，《电视技术》，47(5)，2007)。一方面，文献中的神经网络采用均方误差作为目标函数(或代价函数)，一定程度上存在学习速率偏低、鲁棒性较差的问题；另一方面，神经网络的输入采用麦克风阵列声达时间差TDOA，或者双耳声信号的部分特征量(例如，互相关系数、耳间强度差、耳间时间差)，而这些参数只能部分地反映真实声信号的特征。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于深度学习的声源空间方位检测方法。深度学习是一种基于深度(多层)神经网络的机器学习方法，它可以有效地模仿人脑的机制。这里采用深度学习神经网络模拟人脑对声源空间方位的处理机制，进而发展出高效的声源空间方位检测方法。深度学习神经网络采用交叉熵作为目标函数，采用完整的双耳声信号作为系统输入。

本发明通过下述技术方案实现：

一种基于深度学习的声源空间方位检测方法，包括如下步骤：

步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号，用于深度神经网络模型的训练；

步骤2、对所述深度神经网络模型进行迭代训练，得到一个具有最优参数的分类器；

步骤3、输入未知声源方位的双耳信号至训练好的深度神经网络模型，所述深度神经网络模型输出声源空间方位的预测值。

进一步地，所述步骤1具体包括：

步骤11、将人工头放置在转盘上，双耳距离地面的垂直高度为1米；将一个扬声器固定在距离人工头水平距离为1米的方位，和双耳等高；所述扬声器的输入端经由外置声卡和计算机连接；将两个麦克风分别固定在所述人工头的耳道末端，所述麦克风的输出端经由外置声卡和计算机连接；

步骤12、所述扬声器播放声源单通路信号，声音经过周围环境的传播到达人工头的双耳，随即被所述麦克风捡拾，最后保存至计算机；

步骤13、转动所述转盘，改变所述人工头和所述扬声器的相对空间方位，重复步骤12，记录Q个声源空间方位的双耳声信号。

进一步地，所述步骤2具体包括：

步骤21、数据的预处理：将Q个方位采集到的双声道长声源信号进行下采样处理，然后使用端点检测去除静音部分，并对余下部分进行50ms分段切片操作，每个方位得到M≥5000个片段，并附上对应角度的标签作为训练集T，所述训练集T包含N＝Q×M个训练样本；

步骤22、搭建神经网络结构，初始化每层网络权重系数和偏置总训练次数K、学习效率α，其中，k为当前训练次数，初始值为1；l为神经网络的编号，l＝1,...,L；L≥2为神经网络的总层数；

步骤23、随机打乱训练集T中N个样本的顺序，再从中依次取出S个样本，S一般为50，记为B_k，并得到onehot标签Y_k；输入到神经网络中得到预测结果为其中k为当前训练次数，q代表神经网络每层的输出；

步骤24、计算误差函数J(Y_k,P_k)，所述误差函数J(Y_k,P_k)定义为预测结果与真实标签的交叉熵；

其中Q为预测的总方位数，利用误差函数J(Y_k,P_k)和学习效率α进行反向梯度传播，更新每层权重系数和偏置，得到和

步骤25、重复执行步骤23到24，直到k＝K；保存训练好的深度神经网络模型。

进一步地，步骤21中，所述使用端点检测去除静音部分具体包括：

步骤211、对每个方位得到的声音信号X(n)下采样处理后进行分帧，每一帧记为x_i(n)，n＝1,...,N为离散语音信号时间序列，N为帧长，i表示帧数；

步骤212、计算每一帧语音的短时能量设定帧能量阈值δ，若E_i≤δ即判断为静音片段，并舍去，反之保留。

进一步地，步骤22中，所述的神经网络包括全连接神经网络、卷积神经网络或递归神经网络。

进一步地，所述步骤3中，将未知声源方位的双耳信号输入至训练好的深度神经网络模型之前，还包括步骤：

数据的预处理：对未知声源方位的双耳信号进行下采样处理，然后使用端点检测去除静音部分，并对余下部分进行50ms分段切片操作，得到所述任意未知空间的M≥5000个片段。

本发明相对于现有技术具有如下的优点及效果：

(1)基于深度学习神经网络，采用交叉熵为目标函数，采用完整声信号作为网络输入，本发明实现了声源空间方位检测算法的优化；

(2)在获得同等定位精度的情况下，本发明只需要双麦克风，无需搭建多麦克风阵列，这样将有效降低系统搭建的难度和成本，且具有良好的便携性。

附图说明

图1是本发明实施例的原理框图。

图2是本发明的深度神经网络结构示意图。

图3是本发明的深度神经网络模型训练步骤图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案作进一步的详细描述。

如图1所示，一种基于深度学习的声源空间方位检测方法，包括如下步骤：

步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号，用于深度神经网络的训练；

步骤2、对深度神经网络模型进行迭代训练，得到一个具有最优参数的分类器；

步骤3、输入未知声源方位的双耳信号至深度神经网络模型，模型输出声源空间方位的预测值；

具体而言，步骤1具体包括：

具体而言，如图3所示，所述步骤2包括

所述使用端点检测去除静音部分具体包括：

这里，有多种深度学习的神经网络可供选择，例如全连接神经网络、卷积神经网络、递归神经网络等；

步骤25、重复执行步骤23到24，直到k＝K；保存训练好的模型。

具体而言，步骤3中，人工头捡拾到任意未知空间方位声源发出的声信号后、将未知声源方位的双耳信号输入至训练好的深度神经网络模型之前，还包括步骤：

经过类似步骤21中的静音检测和剔除、分段切片的预处理后，输入步骤25中训练好的神经网络模型，就可以得到对声源空间方位的预测值。

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。我们在TensorFlow中搭建了一个是前馈全连接深度神经网络(DNN)模型，网络结构如图2所示。其中，输入层、两个隐层、输出层分别包含了1024、128、32和8个神经元；最后，采用softmax函数将输出归一化。图3是深度神经网络模型训练的计算机流程图。在具体的实验中，获取了八个空间方位(水平面0°、45°、90°、135°、180°、225°、270°和315°)的双耳声信号；训练集的样本数为8000个。将训练好的神经网络模型运用到测试集上，结果表明：平均定位的正确率达到89％。此外，前方方位(0°、45°、315°)的信号混乱到后方的比例较高，都在60％以上；而后方方位(135°、180°、225°)的信号混乱到前方的比例较低，都在20％以下。模型的输出结果和已有人类行为学实验的观察是一致的(例如：Wightman F L,Kistler D J.Headphonesimulation of free-field listening.II:Psychophysical validation[J].Journal ofthe Acoustical Society of America,1989,85(2):868-878)。这个实例说明，本发明的方法可以较好地模拟人脑通过双耳声信号检测声源空间方位的机制和过程。

本发明可采用算法语言(如python、c++)编制的软件在多媒体计算机上实现，也可采用通用信号处理芯片电路或专用的集成电路实现。本发明可作为软件或硬件用于声源定位相关的多种应用，例如声目标导航、增强远程通讯、虚拟现实、智能音箱等。

尽管参照特定的优选实施例示出并描述了本发明专利，但本领域技术人员应当理解，本说明书中列举的具体实施方案和实施例，只不过是为了理解本发明的技术内容，不是对本发明的限制，在不背离本发明的主旨和范围的情况下，本发明在形式上和细节上可以进行改变，凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换，均属于本发明所保护的范围。

Claims

1.一种基于深度学习的声源空间方位检测方法，其特征是，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的声源空间方位检测方法，其特征是：所述步骤1具体包括：

3.根据权利要求1所述的一种基于深度学习的声源空间方位检测方法，其特征是：所述步骤2具体包括：

4.根据权利要求3所述的一种基于深度学习的声源空间方位检测方法，其特征是：步骤21中，所述使用端点检测去除静音部分具体包括：

5.根据权利要求3所述的一种基于深度学习的声源空间方位检测方法，其特征是：步骤22中，所述的神经网络包括全连接神经网络、卷积神经网络或递归神经网络。

6.根据权利要求1所述的一种基于深度学习的声源空间方位检测方法，其特征是：所述步骤3中，将未知声源方位的双耳信号输入至训练好的深度神经网络模型之前，还包括步骤：