CN113921034A

CN113921034A - 一种基于深度学习的声音事件检测和定位方法

Info

Publication number: CN113921034A
Application number: CN202111259094.0A
Authority: CN
Inventors: 兰朝风; 张媛媛
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-11

Abstract

在重叠声音事件检测任务中，有时会导致提取的全局特征无法准确地检测和定位重叠部分的声音事件。鉴于此，基于多尺度空间通道挤压激励卷积网络和门控循环单元（Gated Recurrent Unit,GRU）利用GRU来获取与上下文相关的声音事件的短期和长期序列特征，本发明提出了一种基于多尺度空间通道挤压激励（Multi‑scale spatial channel squeeze excitation，MscSE）的声音事件检测和定位模型。该模型与基线模型、残差网络模型在公开数据集DCASE2020Task3中进行对比实验。最佳结果分别为检测ER为0.59、F1分数为50.7%，定位误差DE和DE_F1分数分别为15.8，70.3%，F1分数比其它模型高2%~5%，ER也低于其它模型。由此可见，相比单一尺度的模型，基于多尺度的挤压激励模型在声音事件检测和定位性能均有所提升。

Description

一种基于深度学习的声音事件检测和定位方法

技术领域

本发明涉及一种基于多尺度空间通道挤压激励模型的声音事件检测和定位方法，属于音频检测领域。

背景技术

声音事件检测和定位(Sound Event Location and Detection,SELD)的目标是检测音频信息包含的声学内容，识别其中的声音事件标签和对应的时间和空间位置。SELD通常用来检测和定位“枪声”和“尖叫声”等异常声音，不仅是对视频或图像检测的补充，比起视频存储和处理，声音通常消耗更少计算机资源。SELD一直是一个研究的热点，已经在很多领域得到了应用，如：多媒体、交通、医疗保健、安全检测系统等。

早期利用隐马尔可夫模型(Hidden Markov model，HMM)用于检测相对静止的事件。维特比解码产生声音事件序列，并定位声音事件的开始和偏移时间。利用时间先验和“语言模型”来排除不太可能的声音时间序列，缺点是不能处理复音序列。Heittola等人利用一种多通道解码，用于复音事件检测，但仍然不能分离重叠声音事件的声学特征。为了处理声音事件的重叠，研究人员采用了源分离技术，如非负矩阵分解(Nonnegative MatrixFactorization，NMF)。虽然NMF擅长处理重叠的声音，能独立处理每个帧的频谱，但是却不能模拟任何时间上下文。李应等人利用多随机森林算法，解决了各种场景下低信噪比声音事件检测问题。Xu、Phan等人利用支持向量机(Support Vector Machine,SVM)和K- 近邻算法(K-NearestNeighbor,KNN)实现对事件的分类，由于数据量和数据集较少，导致分类效果不高。

随着深度学习技术的快速发展，SELD也出现了一些基于神经网络的新技术。Hertel 等人利用深度学习方法分别比较时域和频域特征对于SELD的作用，实验结果显示频域特征的识别效果更好；Kim、Adavanne S,等人针对不同的特征提取方法结合不同声道数据的预处理，能得到更复杂的声音特征。

Jeong等人利用Log-Mel和LogAvg-Mel两种特征，有效提高了检测的效果。但是该模型对于不同种类的声音事件检测效果差异较大。除了讨论特征选择对效果的影响，有些文献也讨论了不同的网络结构对声音事件检测的影响，

Phan等人利用带有加权和多任务损失函数的深度神经网络(Deep NeuralNetworks， DNN)和卷积神经网络(Convolutional Neural Network，CNN)，并重点改进了神经网络的损失函数，用于音频事件检测。Cak₁r等人采取了卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)，在卷积层和循环层对频域特征进一步提取以及处理后对其分类。Adavanne等人在CNN中加入循环门单元，构建循环神经网络(Recurrent Neural Network，RNN)，对Log-Mel特征经过卷积层后再进一步处理，得到其时间相关性后，对分类结果进行判断；Kong等人提出一种使用门控神经网络方法的CRNN模型，在音频标注、基于片段的声音事件检测(Sound Event Detection,SED)任务中，效果优于基线系统。Hirvonen验证了CNN可同时对声音事件进行检测和定位。Adavanne使用卷积和循环神经网络对多重事件的到达方向(Direction of Arrival,DOA)估计，具有良好的效果。 Y Sun等人在利用概率神经网络实现室内环境的DOA估计。Adavanne基于SELDnet实现多重运动声源的检测和定位。目前，基于深度神经网络的DOA估计是实现声源估计的热门研究。

多尺度方法在目标检测、图像识别等领域取得了很大进展。单一尺度卷积提取的特征是有限的，不能充分提取特征。多尺度方法应用在声音事件检测方面，Xu等人通过集成来自不同时间分辨率的信息，提出多尺度方法用于捕获声音事件的细粒度和粗粒度特征，并对声音事件的时间依赖关系进行建模。同时包含时域和频域信息的时频图更适合对声音进行识别和定位，但在弱标签环境下，将整个时频图作为输入，训练集音频中出现的声音事件占比较小，噪声占比较大，难以提取有效的深层特征。

根据上述分析可知，对于声音事件准确的检测和声源的定位仍然是一个很大的挑战。

发明内容

针对单一尺度卷积不能充分提取特征，造成全局特征无法准确的检测和定位重叠部分的声音事件的问题，本发明提供一种多尺度空间通道挤压激励卷积网络和门控循环单元的声音事件检测和定位方法。

本发明的一种基于深度学习的声音事件检测和定位方法，所述方法包括：

S1、根据时域声音信号，提取时频域特征；

S2、确定训练目标，将得到的时频域表示送入到空间通道挤压激励模型网络中进行训练，提取特征图中时频域的深层信息；

S3、把提取得到的深层信息通过全连接层作为分类任务执行输出声音事件的标签；

S4、把提取得到的深层信息通过全连接层作为多输出回归任务执行实现声音的定位；

优选的是，所述S1中：4个音频输入通道是MIC信号的Log-Mel谱图表示，其他8个输入通道是MIC信号之间的广义互相关的时频表示；

优选的是，所述S2包括：

S21：在Log-Mel谱图之后增加多尺度模块，提取Log-Mel谱图更深层次的特征；

S22：设计空间通道挤压激励模块；

优选的是，所述S2中，增加的多尺度模块采用三组并行卷积分支对时频图进行特征提取，每层卷积的激活函数均采用RelU。其中第一组只采用一个卷积层，第二组和第三组均采用三个卷积层，最后把这三层输出的结果进行融合，然后再经过最大池化层输出。

优选的是，所述S2中，设计空间通道挤压激励模块，用此模块替换卷积层，空间通道挤压模型从空间关系的角度对模型引入了注意力机制，增加了通道之间的相互依赖性。

优选的是，所述S3和S4中，通过全连接层作为不同的任务执行，分别实现了声音事件的检测和声源的定位。

本发明的有益效果，为了准确的对复音事件进行检测和定位，本发明提出了多尺度空间通道挤压激励卷积递归神经网络方法。设计不同卷积核大小的多分支卷积神经网络捕获不同尺度的特征，这些特征互为补充以提高分类的准确性，并将空间通道挤压激励模块融合进网络模型，增强了CRNN的通道和空间关系，并对主要特征进行自动学习，使从网络中提取的特征指向性更强，从而提高了SELD的效果。进而实现高精度的事件检测和定位。

附图说明

图1为多尺度空间通道挤压激励模型流程图；

图2为多尺度特征提取模块结构图；

图3为挤压激励模块结构图；

图4为空间挤压激励模型结构图；

图5为通道挤压激励模型结构图；

图6为空间通道挤压激励模型结构图；

图7为模型的输入和处理后的输出结果图；

图8为笛卡尔坐标结果图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。本实施方式的多尺度空间通道挤压激励模型的SELD方法是首先通过四个麦克风获取声音信号，然后把4通道的声音信号用Log-Mel谱图表示，加上4通道信号的两两广义互相关的时频表示，送入到网络中进行声音事件的检测和声源定位，系统总体框图如图1所示。本实施方式一种多尺度空间通道挤压激励模型的SELD的实现，包括：

S1、根据时域声音信号，提取时频域特征：

本实施为了更好的提取声音的深层信息和空间信息，在输入端采用的是4麦克风阵列收集声音信号，在送入到神经网络之前会经过时频变换转化成Log-Mel谱图，以便神经网络能获取更深层信息。

为了更好的提取空间信息，把输入端麦克风采集得到的声音信号的两两广义互相关的时频表示也送入到深度神经网络中。由于采用的是4通道的麦克风阵列，所有会生成8通道的两两广义互相关的时频表示，因此送入到神经网络的通道数为12。

S2、确定训练目标，将得到的时频域表示送入到空间通道挤压激励模型网络中进行训练，提取特征图中时频域的深层信息，包括：

S22：设计空间通道挤压激励模块；

在声音事件检测任务中，提取的特征越丰富分类的准确度越高。大部分学者使用的模型都是对时频图进行单一尺度的卷积操作及特征提取，由于单一尺度设计在一定程度上限制了模型特征提取和分类的能力。因此，本实施对复杂环境下的声音事件识别采用多个并行卷积分支对数据进行特征提取，且不同尺度的卷积对时频图特征起到了互相补充的作用用以提高整个神经网络模型的稳健性，提出一种多尺度卷积结构模型，这种多尺度卷积模型放在了Log-Mel谱图之后，多尺度卷积模型模块的结构及网络参数设置如图2所示。

图2中，多尺度卷积模型结构采用了三组并行卷积分支对时频图进行特征提取，不同尺度的卷积互为补充以提高模型的检测准确度。用1×n卷积和n×1卷积代替了n×n卷积，n代表卷积核数，节省计算时间成本。第一组并行CNN层是通过1×1卷积层实现，随后是批量归一化(Batch Normalization，BN)和校正线性单元(Rectified Linear Units，ReLU)进行激活，另外两组由三个CNN层组成，1×1,1×n(n＝3,5)用于获取频域特征， n(n＝3,5)×1用于获取时域特征，本实施将三组并行网络的输出从一维连接在一起，采用 MaxPool来提取代表值。

将提取得到的Log-Mel谱图的代表值与其它8个输入通道的广义互相关的时频表示进行融合后送入到空间通道挤压激励模型中进行特征提取。挤压激励网络模型(Squeeze-and-Excitation-Networks，SE)的主要思想是独立学习空间和通道的特征映射，而不是像标准的CNN一样共同学习，通过结合一些全局分组算子、线性算子和块的输入及其学习关系之间的最终校准来实现的。SE模块作用于通道的原理图如图3所示。 U＝[u₁,u₂,...,u_n]表示输出的特征映射，W和H分别表示高度和宽度，c表示通道数。 X＝[x₁,x₂,...,x_c]为特征图U经过挤压激励操作后输出的加权特征图。SE模型的操作过程如图3所示。

图3中，F_sq对特征进行挤压操作，F_ex对特征进行提取操作。F_scale对特征进行重标定操作。有学者同时考虑了通道和空间关系对SE的影响并进行改进，空间挤压激励模型(spatially Squeeze-Excitation,sSE)如图4所示，通道挤压激励模型(channel Squeeze-Excitation,cSE)如图5所示。

图4中，sSE模型从空间关系的角度引入注意力机制。将H×W×C的特征图经过 1×1×1卷积降维、Sigmoid函数激活，得到1×H×W维度的特征图，通过特征重标定，与原来特征图U对应空间上相乘得到新的特征图

最后经过sigmoid归一化到[0,1]。

图5中，cSE思想是通过以通道方式进行刺激，为特征映射的通道之间的相互依赖建立模型。该模型在图像分类任务中得到了很好的验证，仅通过在网络的特定点插入此模块，就会比其它先进的网络表现更好。首先，通过全局平均池化方法获得U中每个通道的唯一特征图，经过2个不同权重的全连接层，让ReLU激活函数增强各个通道之间的独立性，最后经sigmoid层，归一化到[0,1]。

由于sSE模型考虑了空间结构，cSE模型考虑了通道排列，因此对二者输出做加和操作，得到scSE模型以增强CNN空间编码能力，提高神经网络识别效果，提取得到了更深层次的信息，建立空间通道挤压激励模型(spatially and channel Squeeze-Excitation，scSE)，如图6所示。

S3、把提取得到的深层信息通过全连接层作为分类任务执行输出声音事件的标签：

本实施通过空间通道挤压激励模型之后就已经得到了更深层次的特征，然后把这些特征送入到全连接层，作为分类任务执行，得到声音事件。全连接层的神经元个数是128个，激活函数采用sigmoid函数，就可以输出声音事件的标签。

本实施把空间通道挤压激励模型之后的这些特征送入到多输出回归任务的全连接层，输出声源的位置信息。全连接层的神经元个数是128个，激活函数采用tanh函数，就可以实现声音的定位。

实验：

1、实验环境

实验设备采用处理器Inter(R)Core(TM)i7-9700 CPU@3.00GHz，安装内存32G，操作系统64位Windows10，GPU型号GEFORCE RTX 2080Ti，实验在GPU模式下运行。

2、语音数据集

实验选取的数据集是DCASE2020Task3下的开发数据集和评估数据集，开发集包括600 个1分钟长的录音，评估集由200个一分钟的录音组成，在24kHz采样，其主要包含14 类声音，有钢琴、男性说话声、女性说话声、吠叫、婴儿啼哭等等，每个场景记录以两种空间记录格式传送，一种是麦克风阵列(Microphones,MIC)，一种是一阶空间立体声 (First-Order Ambisionics,FOA)，使用基线方法中提供的固定分割来完成实验。选用 400个录音用于训练分割，100个用于验证，100个用于测试。

3、评价指标

为了更好的评价模型的识别和定位性能，使用联合评价检测和定位性能指标对模型进行评价，分别为：F1分数和ER、DE、DE_F1。

TP代表真阳性(True Positive，TP)，FP代表假阳性(False Positive，FP)，FN 代表假阴性(False Negative，FN)。

S(k)＝min(FN(k),FP(k))

D(k)＝max(0,FN(k)-FP(k))

I(k)＝max(0,FP(k)-FN(k))

计算ER的方法如下：

其中，

表示估计

在第k个时间的总的角度数。H表示解决任务分配的匈牙利算法。求解某一时刻的成本计算如下：

δ＝arccos(sinλ_Eλ_R+cosλ_E cosλ_R cos(|φ_R-φ_E|))

其中，参考DOA的方位角为φ_R∈[-π,π]，俯仰角为

如果预测和参考的声音种类是相同的，并且它们之间的距离低于阈值20°，则认为预测是正确的。关于定位，对应于以度为单位的DE和以秒非重叠段中的DE_F1，与检测指标不同，定位指标不使用任何距离阈值，而是只考虑正确预测和参考之间的距离。在理想的环境下，F1分数越接近于1，DOA误差接近0，表示系统的预测和实际数值越接近，性能越好。

4、实验结果

对于数据集中的每个声音事件，网络的SED输出在[0,1]的连续范围内，该值被阈值化以获得相应声音事件活动的二进制决策。为了研究声音事件占比小的声音事件检测和定位，利用多尺度空间通道挤压激励模型进行处理，模型的输入和处理后的输出结果如图7 所示。图左侧为参考值，记录实际真实信息，右侧为预测值，记录系统的输出结果。SED参考值的坐标代表多种声音类别及其输出的波达方向。

由图7可知，有5种不同的声音事件及其相关的方位角和俯仰角信息，同参考值相比，偏差较低。

由图8可知，声音事件的检测和定位估计在有混响干扰的条件下出现了不稳定，估计结果和真实结果在检测上几乎重合，在定位部分有偏移，但是对检测和定位的任务影响不大。系统仍旧给出了比较准确的结果，表明本发明提出模型效果较好。

Claims

1.一种基于深度学习的声音事件检测和定位方法，其特征在于，包括：

S1、根据时域声音信号，提取时频域特征；

S4、把提取得到的深层信息通过全连接层作为多输出回归任务执行实现声音的定位。

2.根据权利要求1所述的根据时域声音信号，提取时频域特征，其特征在于，所述S1中，采用4通道麦克风阵列，实际送入神经网络的通道数为12，其中4个输入通道是MIC信号的Log-Mel谱图表示，其余8个输入通道是MIC信号之间的广义互相关的时频表示。

3.根据权利要求1所述的提取特征图中时频域的深层信息的方法，其特征在于，所述S2包括：

S22：设计空间通道挤压激励模块。

4.根据权利要求3所述的在Log-Mel谱图之后增加多尺度模块的方法，其特征在于，所述S21中：在Log-Mel谱图之后增加多尺度模块，该模块采用了三组并行卷积分支，用1×n卷积和n×1卷积代替了n×n卷积。

5.根据权利要求3所述的设计空间通道挤压激励模块，其特征在于，所述S22中，把空间挤压激励模型和通道挤压激励模型进行并行加和操作，得到空间通道挤压激励模块。

6.根据权利要求1所述的把提取得到的深层信息通过全连接层，其特征在于，所述S3或S4中，把全连接层当做分类任务执行，输出结果为声音事件的标签；把全连接层当做多输出回归任务执行，输出的是声源的位置信息。