CN111933188B

CN111933188B - 一种基于卷积神经网络的声音事件检测方法

Info

Publication number: CN111933188B
Application number: CN202010957949.6A
Authority: CN
Inventors: 周军; 杨明雪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-02-05
Anticipated expiration: 2040-09-14
Also published as: CN111933188A

Abstract

本发明公开了一种基于卷积神经网络的声音事件检测方法，属于音频处理技术领域。本发明首先对音频流进行初级的特征提取；然后将提取的初级特征送入神经网络进行声音事件的特征提取并分类，最终得到各类声音事件的预测概率；若当前类型声音事件的预测概率超过预设的分类阈值时，则认为当前音频流中存在对应的声音事件。本发明的声音事件检测模型的参数量少且计算复杂度低，从而使得在进行声音检测处理时所涉及的物联网设备的功耗和计算复杂度有大幅度的下降；并保持与与现有的的声音事件检测模型相当的检测精度。而使得本发明的声音事件检测方法能有效面向嵌入式等智能设备的应用。

Description

一种基于卷积神经网络的声音事件检测方法

技术领域

本发明属于音频处理技术领域，具体涉及一种基于卷积神经网络的声音事件检测技术。

背景技术

声音事件检测是指设备从连续不断的音频流中检测出当前时刻存在的1个或多个声音事件(统一简称为多声音事件)类型。声音事件检测(SED)技术已被广泛应用于智能家居、视频监控、环境监测等领域。例如，在智能家居应用中，SED技术可以用来检测婴儿的哭声，并通知厨房里的父母。在视频监控应用中，SED技术可以用于在检测到枪击或尖叫等异常声音事件时触发视频监控，从而实现基于声音事件驱动的视频监控，大幅降低功耗。在环境监测应用中，可以利用SED技术对噪声进行检测和分类。目前，声音事件检测在智慧城市、智能家居及无人驾驶等领域都有着极为广阔的应用前景。

SED的处理通常包括两个阶段：特征提取和分类。在特征提取阶段，可基于需求提取不同特征，如频域特征、gabor滤波器组特征、梅尔频率倒谱系数（Mel FrequencyCepstrum Coefficient, MFCC）、logmel谱图等。其中，MFCC和logmel谱图不仅包含了时间-频率表示，还包含了与人对音频信号感知相关的信息，可以实现更高的检测精度。在分类阶段，隐马尔可夫模型(HMM)、支持向量机、随机森林等传统的机器学习方法最先应用在声音事件检测上，然而，这些方法的检测精度是有限的。近年来，深度神经网络被应用于SED中，提高了检测精度。例如，卷积神经网络(CNN)、循环神经网络(RNN)以及卷积循环神经网络(CRNN)用在声音事件检测上。

如何提高SED的检测精度是现有的SED技术的研究的重点，但是基于传统的机器学习的声音事件检测方式的检测精度有限；而基于神经网络的声音事件检测方式虽然可以提高检测的精度，但是存在局限性：即深度神经网络参数数量多，计算复杂度高，需要的存储空间多，功耗大，从而导致其不适用于功耗和资源严重受限的物联网设备。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种低复杂度且高精度的基于卷积神经网络的声音事件检测技术。

本发明的基于卷积神经网络的声音事件检测方法，包括下列步骤：

步骤一：构建及训练声音事件检测模型；

所述声音事件检测模型包括：初级特征提取模块、混合卷积模块、轻量级双注意力机制模块、时序全连接层和聚合层；

所述初级特征提取模块用于对待检测的音频数据段进行分帧处理，并提取音频帧的频域特征，得到每帧的初级特征；

混合卷积模块，对初级特征进行声音事件特征提取，得到声音事件特征并输入轻量级双注意力机制模块；

其中，混合卷积模块包括：第一卷积层、N个密集连接的卷积块和M个深度可分离卷积层；其中，N≥2，M≥1；且参数N与M的优选搭配比为4:1；

其中，密集连接的卷积块之间通过过渡层连接，且过渡层由串连的卷积层和最大池化层组成；深度可分离卷积层之间通过最大池化层连接；

初级特征输入第一卷积层，然后依次经过N个密集连接的卷积块，再经过一个最大池化层后，最后依次输入M个深度可分离卷积层；

轻量级双注意力机制模块包括：通道域注意力模块和频域注意力模块；

在通道域注意力模块中，用于对声音事件特征进行通道域权重分配：若与声音事件的相关程度越大，则分配的通道权重越高；将各个通道的权重按元素点乘声音事件特征，得到通道域注意后的特征；

在频域注意力模块中，用于对通道域注意后的特征进行区域点的权重分配：噪声区域的权重小于兴趣区域的权重；将各个区域点所对应的权重按元素点乘通道域注意后的特征，得到双注意力后的特征；

所述双注意力后的特征经过一个最大池化层再输入时序全连接层；

时序全连接层中，对输入的特征图进行sigmoid激活函数变换，得到每帧属于各声音事件类型的预测概率，即帧级别预测概率；

聚合层用于对相同声音事件类型的帧级别预测概率进行融合，得到待检测的音频数据段的段级别预测概率；

当段级别预测概率与声音事件类型的第一分类阈值相匹配时，则判定待检测的音频数据段存在对应当前声音事件类型的声音事件；

即分别为每个声音事件类型预置一个第一分类阈值，当段级别预测概率大于或等于对应的第一分类阈值，则认为存在对应当前事件类型的声音事件。

步骤二：待检测的一段音频数据输入步骤一训练好的声音事件检测模型，基于其输出得到待检测的音频数据的多声音事件检测结果。

进一步的，初级特征提取模块包括分帧处理模块、变换模块、多通道梅尔滤波器和计算模块；其中，分帧处理模块用于对输入的音频数据段进行音频分帧处理，再将得到的每帧的音频流送入变换模块；变换模块对每帧的音频流进行离散傅里叶变换后输入多通道梅尔滤波器；计算模块用于计算多通道梅尔滤波器的每次输出结果的对数，得到帧级初级特征。

进一步的，在通道域注意力模块中，对输入的声音事件特征分别进行全局最大池化处理和全局平均池化处理，得到两个通道描述向量并依次送入两层全连接层，得到两个中间的特征向量；计算两个中间的特征向量的平均值并经过sigmoid激活函数得到各个通道的权重，再将各个通道的权重按元素点乘声音事件特征，得到通道域注意后的特征；在频域注意力模块中，提取通道域注意后的特征的频域描述特征图，并进行一次卷积运算处理，得到中间的输出频域图；对中间的输出频域图进行sigmoid激活函数变换，得到频域图的各个区域点的权重，再将各个区域点的权重按元素点乘通道域注意后的特征，得到双注意力后的特征；

进一步的，本发明中，聚合层对相同声音事件类型的帧级别预测概率进行融合处理的具体方式为：

对当前音频数据段的所有音频帧，对每帧的每个声音事件类型的帧级别预测概率进行累加，记为参数y1，以及对每帧的每个声音事件类型的帧级别预测概率的平方进行累加，记为参数y2；将y2与y1的比作为段级别预测概率。

进一步的，本发明还可以基于声音事件检测模型的帧级别预测概率提取指定声音事件类型的声音内容：

对于指定的声音事件类型，统计帧级别预测概率大于第二分类阈值的帧连续数，若帧连续数大于或等于帧数阈值，则将当前的连续帧保存为声音事件子片段；

并将帧间隔小于或等于帧间隔阈值的声音事件子片段按时序进行音频数据平滑处理，得到指定的声音事件类型的声音事件片段。

进一步的，频域注意力模块包括：全局最大池化层、全局平均池化层、拼接层、卷积层和频域注意力输出层；其中，全局最大池化层和全局平均池化层分别沿通道域对通道域注意力后的特征进行全局池化处理，得到两个频域描述特征图；再通过拼接层对两个频域描述特征图沿着通道域拼接后，送入卷积层进行卷积运算处理，并将输出的特征图输入频域注意力输出层；频域注意力输出层对输入的特征图进行sigmoid激活函数变换，得到频域图的各个区域点的权重，再将各个区域点的权重按元素点乘通道域注意后的特征，输出双注意力后的特征。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

低复杂度：本发明的基于卷积神经网络的声音事件检测模型与现有的声音事件检测模型相比，参数量和计算复杂度显著降低，从而使得在进行声音检测处理时所涉及的物联网设备的功耗和计算复杂度有大幅度的下降。

高精度：本发明的基于卷积神经网络的声音事件检测模型能在参数量和计算复杂度显著降低的同时保持与与现有的的声音事件检测模型相当的检测精度。

附图说明

图1为本发明的基于卷积神经网络的声音事件检测模型的网络结构示意图；

图2为本发明的混合卷积模块的网络结构示意图；

图3为本发明的轻量级双注意力机制模块的网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明是一种基于卷积神经网络的声音事件检测方法，本发明首先对输入的音频流进行初级的特征提取得到一个二维矩阵；然后将预处理得到的二维矩阵送入神经网络进行更抽象的特征提取并分类，最终得到各类声音事件的预测概率。因为本发明是用于对多声音事件的检测，对于待检测的所有类型的声音事件来说，当某些类型的预测概率超过一定阈值时，会认为在当前音频流中存在该声音事件。相较于采用传统技术（例如CRNN）构建的声音事件检测方案，本发明的基于卷积神经网络的声音事件检测方法的计算复杂度低且拥有较高的检测精度。将本发明的基于卷积神经网络的声音事件检测模型命名为LCSED模型。该LCSED模型主要采用以下2种机制来实现拥有较少参数量和计算量的同时保持较高的检测精度：

（1）混合卷积机制实现拥有较少复杂度的同时保持一定精度；

（2）可分离卷积搭配轻量级的双注意力机制提高可分离卷积特征提取的有效性。

参见图1，本发明的LCSED模型包括初级特征提取模块、混合卷积模块、轻量级双注意力机制模块、时序全连接层和聚合层。在该模型中，输入的音频首先经过初级特征提取模块得到初级特征，随后，提取的初级特征依次送入混合卷积模块和轻量级双注意模块进行处理。轻量级双注意力机制模块的输出是时序向量，这些时序向量输入时序全连接层，得到帧级别的输出(即每帧属于各声音类型的预测概率)，同时会进一步送入聚合层，将帧级别的输出聚合成样本级别的输出，即每个样本包括的所有帧级别的输出的融合。

在初级特征提取模块中，基于预设的提取方式，提取音频帧的多通道的频域特征，作为帧级初级特征（音频帧的初级特征）。本具体实施方式中，采用的是logmel频谱。即对于接收的音频，首先重采样，采样率为16kHz，对音频进行分帧加窗处理，在本发明的LCSED模型中采用64ms的窗长，22.5ms的重叠对音频进行分帧处理，为了解决频谱泄露问题，滑窗采用汉明窗。然后，对经过分帧语音段进行离散傅里叶变换，并将得到的离散傅里叶变换的输出结果送入一组通道数量为64的梅尔滤波器（即滤波器数量为64的梅尔滤波器），可以得到64个滤波器能量，对其取对数之后，1帧(64ms)的音频流能够得到一个64维的向量，即帧级初级特征。再将初级特征输入混合卷积模块，提取中级特征，本发明将其定义为SED特征。

混合卷积模块的架构如图2所示。在混合卷积模块中，将密集连接的卷积和深度可分离的卷积分别应用在卷积的不同阶段，在较低的卷积阶段使用密集连接的卷积，在较高的卷积阶段使用深度可分离卷积。在本具体实施方式的LCSED模型中，在较低的卷积阶段采用4个密集连接的卷积块（DenseNet）：密集连接的卷积块1~4；在较高的卷积阶段采用1个深度可分离卷积层（Depthwise Separable Convolution），并且两个密集连接的卷积块之间引入过渡层以减少通道的数量和特征图的大小。

即本具体实施方式的混合卷积模块从输入到输出依次包括：卷积层（B_Conv）、密集连接的卷积块1、过渡层1、密集连接的卷积块2、过渡层2、密集连接的卷积块3、过渡层3、密集连接的卷积块4、最大池化层（D_MaxPool）、深度可分离卷积层；其中，每个过渡层由括卷积层和最大池化层构成。

卷积块的通道数控制了输出通道数相对于输入通道数的增长，因此也被称为增长率（growth rate）。本具体实施方式中，将密集连接的卷积块的growthrate设置为16，以及将每一个密集连接的卷积块的卷积的层数设置为4层卷积，过渡层是通过1*1的卷积来进行降维，并通过最大池化来减少特征图的大小后，再输入深度可分离卷积层。

为了进一步提高检测精度，本发明采用了一种轻量级双注意力机制来提高深度可分离卷积层所提取的特征的有效性。该轻量级注意力机制包括：通道域的注意力机制和频域的注意力机制，即本发明的轻量级双注意力机制模块包括：通道域注意力模块和频域注意力模块，如图3所示。其中，通道域注意力模块将较大的权重分配给与声音事件相关的通道，较小的权重分配给与声音事件无关的通道。频域注意力模块则是将较大的权重分配给感兴趣的区域，将较小的权重分配给噪声区域。通道域注意力模块和频域注意力模块中的权重都是通过神经网络训练得到的。对于给定的输入的特征图（即初级特征提取模块输出的SED特征），首先通过通道域注意力模块，然后再通过频域注意力模块。

参见图3，在通道域注意力模块中，对特征图采用全局最大池化和全局平均池化得到2个通道描述向量；然后将2个通道描述向量分别送入2层全连接层得到2个输出向量，即每个通道描述向量经过2层的全连接层分别输出一个特征向量。再计算两个特征向量的平均值，然后再经过sigmoid激活函数，输出的就是各个通道的权重，然后将各个通道的权重按元素点乘输入的SED特征，得到通道域注意力模块的输出特征，即通道域注意后的特征。

本具体实施方式中，通道域注意力模块包括全局最大池化层（CG_Pool）、平均池化层（CA_Pool）、全连接层1~2（FC1、FC2）和通道域注意力输出层；其中，全局池化层、全连接层1和全连接层2构成一路支路；平均池化层、全连接层1和全连接层2构成另一路支路；两路支路再接入通道域注意力输出层，该通道域注意力输出层用于计算两路支路输入的两个特征向量的平均值，经过sigmoid激活函数得到各个通道的权重，再各个通道的权重按元素点乘输入的SED特征，输出通道域注意后的特征。

参见图3，在频域注意力模块中，对通道域注意力后的特征求频域描述特征图，类似地，频域描述特征图可以通过沿通道域采用全局最大池化和全局平均池化分别对通道域注意后的特征进行池化处理，得到2个频域描述特征图，然后将2个频域描述特征图沿着通道域拼接在一起，再送入1个卷积层得到中间的输出频域图，接着将中间的输出频域图进行sigmoid激活函数变换，得到各个区域点的权重，最后各个区域点的权重按元素点乘通道域注意后的特征，得到双注意力后的特征。

即频域注意力模块依次包括：频域描述层、卷积层（C_Conv）和频域注意力输出层，其中频域描述层连接通道域注意力输出层，用于计算通道域注意力后的特征的频域描述特征图并输入卷积层中；本具体实施方式中，频域描述层设置为全局最大池化层（FG_M Pool）和全局平均池化层（FG_A Pool），其分别沿通道域对通道域注意力后的特征进行全局池化处理；再通过拼接层对2个频域描述特征图沿着通道域拼接后，送入卷积层；频域注意力输出层设置为对卷积层输入的特征图进行sigmoid激活函数变换，得到各个区域点（特征图上的每个点）的权重，再将各个区域点的权重按元素点乘通道域注意后的特征，输出频域注意力后的特征，从而得到轻量级双注意力机制模块输出的双注意力后的特征。

最后，再将轻量级双注意力机制模块输出的双注意力后的特征（时序向量）经过一个最大池化层（T_Pool）再输入时序全连接层，再经过sigmoid激活函数，得到帧级别的输出(即每帧属于各声音类型的预测概率)，同时会进一步送入聚合层，将帧级别的输出聚合成样本级别的输出，即段级别的预测概率。

本发明中，聚合层输出的预测概率用于确定一段待检测的音频数据是否存在某个事件类型的声音事件，而帧级别的输出则可以用于确定声音事件所对应的音频内容。其中，聚合层的预测概率的计算方式为：

，y^c表示一段音频数据属于第c类声音事件的预测概率，y^c _i表示第i帧属于第c类声音事件的预测概率。即当y^c大于或等于预设的段级分类阈值时，则判定该段音频数据存在对应的声音事件。而对于帧级别的输出，若连续多帧的预测概率y^c _i均大于或等于预设的帧级分类阈值时，记录这些连续片段，作为声音事件子片段，对声音事件子片段之间的帧间隔进行检测，并对帧间隔小于或等于帧间隔阈值的多个声音事件子片段（同一声音事件类型的）按时序进行音频数据平滑处理，得到最终的声音事件片段，以便于针对某类声音事件的声音内容的提取。例如当前检测得到两个声音事件子片段：第3-5帧，第8-12帧；对这两个事件子片段进行音频数据平滑处理（即帧插值处理），得到第3-12帧的一段声音事件片段。

为了实现对多声音事件的检测处理，首先搭建LCSED模型；然后基于预设的训练数据对所搭建的LCSED模型进行深度网络学习训练，当满足预设的训练条件时，得到训练好的LCSED模型，即声音事件检测模型；最后，将待检测的一段音频数据输入该声音事件检测模型，基于其输出得到待检测的音频数据的多声音事件检测结果，可以包括声音事件类型及其对应的声音事件片段。

实施例

搭建本实施例的LCSED模型中的神经网络模型，即设置混合卷积模块、轻量级双注意力机制模块、时序全连接层和聚合层的网络结构：

其中，混合卷积模块的卷积层B_Conv的卷积核设置为3×3×64，其中3×3表示卷积核带下，64表示通道数；卷积层B_Conv的输入维度为(240,64,1)，输出维度为(240,64,64)；在各网络层的输入输出维度中，若为（A,B,C）的形式，则（A，B）表示输入/输出的特征图的大小，其中A表示音频帧数，B表示特征维度；C表示特征图的通道数；

混合卷积模块的4个密集连接的卷积块均包括4层卷积层，且各卷积层的卷积核均设置为3×3×16，且每个密集连接的卷积块的4层卷积层的输入的特征图的通道数依次为：64,80,96，112，输出的特征图的通道数均为16；各过渡层所包括的卷积层和池化层的卷积核和池化核相同，分别为1×1×64和1×2，且每个过渡层的卷积层和池化层输入的特征图的通道数依次为：128，64，输出的特征图的通道数均为64；最大池化层D_MaxPool的池化核为1×2，且输入维度为(240,8,128)，输出维度为(240,4,128)。深度可分离卷积层的卷积核包括两个，分别为3×3×128和1×1×256，且输入维度为(240,4,128)，输出维度为(240,4,256)。

轻量级双注意力机制模块的输入维度为(240,4,128)，输出维度为(240,4,256)。最大池化层T_MaxPool的池化核为1×4，且输入维度为(240,4, 256)，输出维度为(240,1,256)。

时序全连接层的输入维度为(240,256)，输出维度为(240,17)；聚合层的输入维度为(240,17)，输出维度为17，其中，240表示音频帧数，17表示声音事件的类型数。

按照本实例1所搭建的LCSED模型中的神经网络模型的参数量累计为0.29M，计算量为1.72G；对于与本实施1相同的神经网络的输入以及声音事件类型数，现有的声音事件检测模型的参数量通常在1-16M之间，计算量在2-5G之间；本发明比现有的用于声音事件检测模型的参数量和计算量明显降低。

本实施例中，LCSED模型的深度网络学习的训练阶段过程为：

本实施例采用的训练数据为音频分类数据集为DCASE2017 task4数据集，该音频分类数据集共计17类样本，且在该音频分类数据集中有51172个训练样本，488个验证样本和1103个测试样本。每个音频样本时长约10s。训练时采用Adam优化器，交叉熵作为损失函数，学习率设置为0.001，批大小设置为64，总共训练50个周期。

在训练的过程中还需要确定分类阈值（包括帧级分类阈值以及段级分类阈值），本实施例中，分类阈值的搜索选取范围为[0.1,0.9]，阈值的搜索步长设置为0.05，选取使得在验证集（音频分类数据集DCASE2017 task4中所涉及的488个验证样本）上的分类评估得分最高分所对应的阈值作为该周期的最佳的阈值，并保存在验证集上性能表现最好的模型参数用于测试。本具体实施方式中，分类评估得分采用F-score分类评分标准，遍历得到的最佳的分类阈值为0.35。即帧级别和段级别的分类阈值均设置为0.35。

对于测试样本集中的一个给定的音频流（时长约为10s），首先经过初级特征提取模块提取帧级初级特征，即一个二维矩阵；然后将帧级初级特征送入包括混合卷积模块、轻量级双注意力机制模块、时序全连接层和聚合层构成的神经网络进行前向计算得到对应的17个输出概率，遍历每一个类别的输出，当预测概率超过0.35，则可以认为该音频包含此类型的音频。得到对应的多声音事件检测结果。

本发明的基于卷积神经网络的声音事件检测方法，在提取SED特征时，通过混合卷积机制使本发明的，LCSED模型拥有较少计算复杂度的同时有相对高的检测精度；以及通过双注意力机制使得LCSED模型进一步提高精度：与现有技术相比较，声音事件检测的检测精度基本一致。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于卷积神经网络的声音事件检测方法，其特征在于，包括下列步骤：

步骤一：构建及训练声音事件检测模型；

所述初级特征提取模块用于对待处理的音频数据段进行分帧处理，并提取音频帧的频域特征，得到每帧的初级特征；

其中，混合卷积模块包括：第一卷积层、N个密集连接的卷积块和M个深度可分离卷积层；其中，N≥2，M≥1，参数N与M的搭配比为4:1；

在通道域注意力模块中，对输入的声音事件特征分别进行全局最大池化处理和全局平均池化处理，得到两个通道描述向量并依次送入两层全连接层，得到两个中间的特征向量；计算两个中间的特征向量的平均值并经过sigmoid激活函数得到各个通道的权重，再将各个通道的权重按元素点乘声音事件特征，得到通道域注意后的特征；

在频域注意力模块中，提取通道域注意后的特征的频域描述特征图，并进行一次卷积运算处理，得到中间的输出频域图；对中间的输出频域图进行sigmoid激活函数变换，得到频域图的各个区域点的权重，再将各个区域点的权重按元素点乘通道域注意后的特征，得到双注意力后的特征；所述双注意力后的特征经过一个最大池化层再输入时序全连接层；

聚合层用于对相同声音事件类型的帧级别预测概率进行融合，得到待处理的音频数据段的段级别预测概率；

当段级别预测概率与声音事件类型的第一分类阈值相匹配时，则判定待处理的音频数据段存在对应当前声音事件类型的声音事件；

步骤二：将待检测的音频数据段输入步骤一训练好的声音事件检测模型，基于其输出得到待检测的音频数据段的声音事件检测结果；

以及根据声音事件检测模型的帧级别预测概率提取指定声音事件类型的声音内容：对于指定的声音事件类型，统计帧级别预测概率大于第二分类阈值的帧连续数，若帧连续数大于或等于帧数阈值，则将当前的连续帧保存为声音事件子片段；并将帧间隔小于或等于帧间隔阈值的声音事件子片段按时序进行音频数据平滑处理，得到指定的声音事件类型的声音事件片段。

2.如权利要求1所述的声音事件检测方法，其特征在于，步骤一中，判定待检测的音频数据段存在对应当前声音事件类型的声音事件为：

分别为每个声音事件类型预置一个第一分类阈值，当段级别预测概率大于或等于对应的第一分类阈值，则认为存在对应当前事件类型的声音事件。

3.如权利要求1所述的声音事件检测方法，其特征在于，初级特征提取模块包括分帧处理模块、变换模块、多通道梅尔滤波器和计算模块；

其中，分帧处理模块用于对输入的音频数据段进行音频分帧处理，再将得到的每帧的音频流送入变换模块；

变换模块对每帧的音频流进行离散傅里叶变换后输入多通道梅尔滤波器；

计算模块用于计算多通道梅尔滤波器的每次输出结果的对数，得到帧级初级特征。

4.如权利要求1所述的声音事件检测方法，其特征在于，频域注意力模块包括：全局最大池化层、全局平均池化层、拼接层、卷积层和频域注意力输出层；

全局最大池化层和全局平均池化层分别沿通道域对通道域注意力后的特征进行全局池化处理，得到两个频域描述特征图；

再通过拼接层对两个频域描述特征图沿着通道域拼接后，送入卷积层进行卷积运算处理，并将输出的特征图输入频域注意力输出层；

频域注意力输出层对输入的特征图进行sigmoid激活函数变换，得到频域图的各个区域点的权重，再将各个区域点的权重按元素点乘通道域注意后的特征，输出双注意力后的特征。

5.如权利要求1所述的声音事件检测方法，其特征在于，聚合层对相同声音事件类型的帧级别预测概率进行融合处理的具体方式为：

对所有音频帧，对每帧的每个声音事件类型的帧级别预测概率进行累加，记为参数y1，以及对每帧的每个声音事件类型的帧级别预测概率的平方进行累加，记为参数y2；将y2与y1的比值作为段级别预测概率。

6.如权利要求1至5任一一项所述的声音事件检测方法，其特征在于，第一分类阈值和第二分类阈值的取值相同。

7.如权利要求5所述的声音事件检测方法，其特征在于，将第一分类阈值和第二分类阈值均设置为0.35；

并设置混合卷积模块的网络结构为：

将第一卷积层的卷积核设置为3×3×64，其中3×3表示卷积核大小，64表示通道数；

混合卷积模块包括4个密集连接的卷积块和1个深度可分离卷积层；

其中，每个密集连接的卷积块均包括4层卷积层，且各卷积层的卷积核均设置为3×3×16，且每个密集连接的卷积块的4层卷积层的输入的特征图的通道数依次为：64,80,96，112，输出的特征图的通道数均为16；

各过渡层所包括的卷积层和池化层的卷积核和池化核相同，分别为1×1×64和1×2，且每个过渡层的卷积层和池化层输入的特征图的通道数依次为：128，64，输出的特征图的通道数均为64；

连接密集连接的卷积块和深度可分离卷积层的最大池化层的池化核为1×2；

深度可分离卷积层的卷积核包括两个，分别为3×3×128和1×1×256。