CN109061558A

CN109061558A - 一种基于深度学习的声音碰撞检测及声源定位方法

Info

Publication number: CN109061558A
Application number: CN201810640649.8A
Authority: CN
Inventors: 钟艳如; 卫涛; 姜静月; 罗笑南
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-12-21

Abstract

本发明公开了一种基于深度学习的声音碰撞检测及声源定位方法，其特征是，包括如下步骤：1）建立声音碰撞检测与声源定位系统；2）产生声音信号；3）区分声音信号；4）声音数据类型转换；5）绘制声音频谱图；6）时延差估计；7）数据划分；8）构建深度学习模型；9）确定声源位置。这种方法声源定位检测的精度高，检测速度快、实时性强。

Description

一种基于深度学习的声音碰撞检测及声源定位方法

技术领域

本发明涉及声学技术领域，具体是一种基于深度学习的声音碰撞检测及声源定位方法。

技术背景

声源定位是通过测量物体发出的声音对物体定位，与使用声纳、雷达、无线通讯的定位方法不同，前者信源是普通的声音，是宽带信号，而后者信源是窄带信号。由于信号质量、噪声和混响的存在，使得现有声源定位方法的定位精度较低。若声源在传声器的选择方向之外，则会引入大量的噪声，导致拾取信号的质量下降，而且，当传声器距离声源很远，或者存在一定程度的混响及干扰的情况下，也会使拾取信号的质量严重下降。为了解决单传声器系统的这些局限性和目前的声音碰撞检测与声源定位方法精度不高，且实时性差的问题，提出了用传声器阵列进行声音处理的方法，另外，对于大量的数据进行处理时，深度学习方法的引入提高定位精度并缩短定位所消耗的时间。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于深度学习的声音碰撞检测及声源定位方法。这种方法声源定位检测的精度高，检测速度快、实时性强。

实现本发明目的的技术方案是：

一种基于深度学习的声音碰撞检测及声源定位方法，与现有技术不同的是，包括如下步骤：

1)建立声音碰撞检测与声源定位系统：声音碰撞检测与声源定位系统包括一组麦克风形成的麦克风陈列、声源、噪声源和声学传感装置，麦克风组内的麦克风单侧排列呈麦克风陈列，麦克风陈列与声学传感装置连接，声源与噪声源分别位于距离麦克风陈列不同的位置点处。

2)产生声音信号：步骤1)建立的声音碰撞检测与声源定位系统中声源与噪声源发出声音，通过麦克风陈列和声学传感装置对声源与噪声源产生的声音进行采集；

3)区分声音信号：声学传感装置将麦克风陈列收到声音信号进行识别，区分声源与噪声源，声学传感装置对麦克风陈列收到声音信号先分类后分组，确定声音样本的数据量与数据类型；

4)声音数据类型转换：声学传感装置对麦克风陈列收到声音信号进行去噪与声音数据类型转换，将被识别的声音数据进行模拟音频转换成数字音频；

5)绘制声音频谱图：依据短时傅里叶变换原理，结合Matlab软件对步骤4)得到的音频数据绘制对应的频谱图，即用一个短的窗函数和信号滑动相乘，对每一个窗函数截取区间的数据进行傅立叶变换，对于傅里叶变换，设定一个长度为N的窗函数 w(k,τ)，一个二维函数X(w,τ)，这两个函数表示中心点位于τ的加窗声音的傅里叶变换；

6)时延差估计：分别测量声源、噪声源发出的声音到达麦克风阵列与声学传感装置的时间差；

7)数据划分：将步骤4)转换后的音频数据随机划分2部分，分别用作训练集和测试集；

8)构建深度学习模型：深度学习模型是caffe框架，其中，数据的组织形式是LevelDB；

9)确定声源位置：依据深度学习模型对训练集中声音数据进行训练，得到的训练结果就是最优声源位置。

步骤9)中所述的训练为：

给定N个大小为m x n的声音训练场景数据，{X₁,...,X_N},每个数据对应的类别标签为yi∈{1，...，k}，基中K是类别数，在这些场景数据中，连续地取大小为l*l的声音数据块，并将每一声音数据块向量化，那么对于第i个声音数据，就可以得到数据矩阵：

P_i＝(p_i,1,p_i,2,...p_i,mn)

其中pij是第j个向量化的数据块，接着，对每个块进行归一化，每个块减去它他的均值并得到归一化数据矩阵

其中，pij是零均值的归一化的数据块，而它的标签跟整个图像的标签是一致的，对于所有训练的数据块，我们将对应的归一化数据矩阵拼接为一个大的矩阵

对于第i个样本i＝1，2,…,Nmn，根据其他样本的标签，将其他样本分为同类样本和异类样本，K₁个最近的同类样本和K₂个最近的异类样本加上给定的样本构成一个样本集的子集，将其表达为矩阵

其对应的变换后低维特征表达

Zi＝(Z_i1,Z_i2,Z_i3,...,Zk₁,Z_i ¹,Z_i ²,Z_i ³,...,Z_ik₂)

对应的指标集定义为

为了在低维空间中最小化同类样本的z_i,z_i ¹,z_i ²,...,z_i ^k1的距离，同时到同类近邻样本z_i,z_i ¹,z_i ²,...,z_i ^k1的距离越小越好，定义它们之间的距离为

对于所有样本，整体的目标函数是所有带权重的部分目标函数的求和：

得到的和就是需要确定的声源位置。

所述声音碰撞检测与声源定位系统中麦克风的数量为至少4个。

这种方法声源定位检测的精度高，检测速度快、实时性强。

附图说明

图1为实施例的方法流程示意图；

图2为实施例中声音碰撞检测与声源定位系统模型结构示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种基于深度学习的声音碰撞检测及声源定位方法，包括如下步骤：

1)建立声音碰撞检测与声源定位系统：如图2所示，声音碰撞检测与声源定位系统包括一组麦克风形成的麦克风陈列、声源、噪声源和声学传感装置，麦克风组内的麦克风单侧排列呈麦克风陈列，麦克风陈列与声学传感装置连接，声源与噪声源分别位于距离麦克风陈列不同的位置点处；

步骤9)中所述的训练为：

P_i＝(p_i,1,p_i,2,...p_i,mn)

其对应的变换后低维特征表达

Zi＝(Z_i1,Z_i2,Z_i3,...,Zk₁,Z_i ¹,Z_i ²,Z_i ³,...,Z_ik₂)

对应的指标集定义为

得到的和就是需要确定的声源位置。

Claims

1.一种基于深度学习的声音碰撞检测及声源定位方法，其特征是，包括如下步骤：

1)建立声音碰撞检测与声源定位系统：声音碰撞检测与声源定位系统包括一组麦克风形成的麦克风陈列、声源、噪声源和声学传感装置，麦克风组内的麦克风单侧排列呈麦克风陈列，麦克风陈列与声学传感装置连接，声源与噪声源分别位于距离麦克风陈列不同的位置点处；

5)绘制声音频谱图：依据短时傅里叶变换原理，结合Matlab软件对步骤4)得到的音频数据绘制对应的频谱图，即用一个短的窗函数和信号滑动相乘，对每一个窗函数截取区间的数据进行傅立叶变换，对于傅里叶变换，设定一个长度为N的窗函数w(k,τ)，一个二维函数X(w,τ)，这两个函数表示中心点位于τ的加窗声音的傅里叶变换；

2.根据权利要求1所述的基于深度学习的声音碰撞检测及声源定位方法，其特征是，步骤9)中所述的训练为：

P_i＝(p_i,1,p_i,2,...p_i,mn)

其对应的变换后低维特征表达

对应的指标集定义为

为了在低维空间中最小化同类样本的的距离，同时到同类近邻样本的距离越小越好，定义它们之间的距离为

得到的和就是需要确定的声源位置。

3.根据权利要求1所述的基于深度学习的声音碰撞检测及声源定位方法，其特征是，所述声音碰撞检测与声源定位系统中麦克风的数量为至少4个。