CN113012714A

CN113012714A - 基于像素注意力机制胶囊网络模型的声学事件检测方法

Info

Publication number: CN113012714A
Application number: CN202110197042.9A
Authority: CN
Inventors: 王兴梅; 战歌; 汪进利; 徐义超
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-06-22
Anticipated expiration: 2041-02-22
Also published as: CN113012714B

Abstract

本发明提供一种基于像素注意力机制胶囊网络模型的声学事件检测方法，包括如下步骤：(1)对原始音频数据进行预处理；(2)提出构建像素注意力机制胶囊网络‑双向门控循环单元网络(Pixel‑Based Attention of Capsule Network‑Bidirectional Gated Recurrent Unit,PBAttCapsNet‑BGRU)模型；(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务。本发明为了取得对不连续、重叠声学事件较好的检测效果，提出一种基于像素注意力机制胶囊网络模型的声学事件检测方法。通过与其他声学事件检测方法的性能对比，本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法能够有效地对不连续、重叠声学事件进行检测，并提升检测性能。

Description

基于像素注意力机制胶囊网络模型的声学事件检测方法

技术领域

本发明涉及的是深度学习声学事件检测技术领域。具体地说是一种基于像素注意力机制胶囊网络模型的声学事件检测方法。

背景技术

音频数据相比图像、文本数据等其他信息具有采集容易，信息丰富等优点，在机器环境感知、信息内容检索、智能化场景监控等相关应用领域中被广泛应用。而基于音频数据的声学事件检测(Acoustic Event Detection,AED)则是促进这些应用领域发展的核心和关键技术，因此声学事件检测在现实生活中的许多领域都具有极其重要的研究意义和实际应用价值。随着深度学习的发展以及相关数据量的增大，深度神经网络的声学事件检测已经受到了越来越多研究者的关注。如基于CNN、循环神经网络(Recurrent NeuralNetworks,RNN)、循环卷积神经网络(Convolutional Recurrent Neural Network,CRNN)以及CapsNet等方法取得了重大突破，检测性能获得了较大提升。近年来，国内外学者对声学事件检测进行了深入的分析研究，其中在已有的文献中最著名和效果最好的声学事件检测方法主要包括：1.基于上下文的声音事件检测：2013年Toni Heittola,AnnamariaMesaros,Antti Eronen,Tuomas Virtanen.Context-dependent sound eventdetection.EURASIP Journal on Audio,Speech,and Music Processing,2013,2013(1):1-13.提出构建CD-DNN-HMM模型，与其使用的上下文无关的基线系统相比，检测准确率提高接近一倍,取得了良好的声音事件检测效果。2.不同双声道特征的声音事件检测：2017年Sharath Adavanne,Tuomas Virtanen.A report on sound event detection withdifferent binaural features.arXiv preprint,2017,arXiv:1710.02997.提出构建层叠卷积递归神经网络模型，其双声道特征的误码率较单声道特征一致或更优。3.基于深度卷积递归模型的弱监督音频标注的关注与定位：2017年Yong Xu,Qiuqiang Kong,QiangHuang,Wenwu Wang,Mark D.Plumbley.Attention and Localization based on a DeepConvolutional Recurrent Model for Weakly Supervised Audio Tagging[C]//INTERSPEECH 2017,Stockholm,Sweden,2017:3083-3087.提出一种基于深度卷积递归模型的弱监督音频标注的关注与定位方法，实现预测标签并指示发生声学事件的时间位置。4.基于胶囊路由的声音事件检测：2018年Turab Iqbal,Yong Xu,Qiuqiang Kong,WenwuWang.Capsule Routing for Sound Event Detection[C]//2018 26th European SignalProcessing Conference(EUSIPCO),Rome,Italy,2018:2255-2259.提出利用胶囊路由机制的神经网络实现环境声音事件检测，该方法与其他模型相比降低了过拟合的可能性。5.基于卷积递归神经网络的声学事件定位与重叠源检测:2019年Sharath Adavanne,ArchontisPolitis,Joonas Nikunen,Tuomas Virtanen.Sound Event Localization and Detectionof Overlapping Sources Using Convolutional Recurrent Neural Networks.IEEEJournal of Selected Topics in Signal Processing,2019,13(1):34-48.提出一种卷积递归神经网络，实现对三维空间中多个重叠声学事件的联合定位与检测，取得了相对较好的效果。

发明内容

本发明的目的在于提供一种具有对不连续、重叠声学事件较好检测效果的基于像素注意力机制胶囊网络模型的声学事件检测方法。

本发明在实现过程中包括如下步骤：

(1)对原始音频数据进行预处理：①利用bin-MFCC提取声学特征；②对声学特征做归一化处理和标注操作；

(2)提出构建PBAttCapsNet-BGRU模型：①利用PBA结合CNN关注声学事件发生的时间帧，提高对不连续声学事件的检测准确率，提取更加相关的高层抽象特征；②由PrimaryCaps、EventCaps及软注意力机制构成胶囊层，实现时间特征向量的封装和传递；③通过2层BGRU获取前后数据帧的上下文信息；④利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射；

(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务：①利用提出的PBAttCapsNet-BGRU模型对测试集进行特征提取得到时间特征向量；②通过BGRU层提升获取前后数据帧的上下文信息能力，并采用时间全连接层获取各时间帧所含的事件类别，实现声学事件检测任务。

本发明还可以包括：

1、在步骤(1)中对原始音频数据进行预加重、分帧、加窗、快速傅里叶变换后，利用梅尔滤波器组滤波，计算对数能量，经过离散余弦变换得到bin-MFCC声学特征。

2、所述步骤(1)中对bin-MFCC声学特征进行归一化处理，范围为[0,1]。计算声学事件的开始帧以及结束帧，标注对应声学事件的类别信息。

3、在步骤(2)中PBA包括通道注意力机制和像素空间注意力机制，通道注意力机制的具体表示为：A_C(F)＝BN(W₁(W₀AvgPool(F)+b₀)+b₁)，F代表输入特征图，

BN(·)代表一个批量标准化操作，AvgPool(·)为平均池化操作，

C/r表示压缩通道数，r代表通道压缩比率，

像素空间注意力机制的具体表示为：

f_i ^j×j(·)代表一个卷积操作，i＝0,1,2,3，j×j表示卷积核的大小，j＝1,2,3。将A_C(F)与A_S(F)结合，得到像素注意力分布图为：A(F)＝σ(A_C(F)+A_S(F)),σ(·)为sigmoid激活函数，PBA的具体表示为：

F_new代表将F与A(F)结合的新的特征图，

表示逐元素相乘。

4、所述步骤(2)中PrimaryCaps和EventCaps之间使用动态路由算法进行迭代路由计算，选择声学事件的代表性频带，完成特征向量的封装和传递，确保对重叠声学事件的检测能力。

5、所述步骤(2)中PrimaryCaps对输入的高层抽象特征进行卷积、重塑，使用Squashing激活函数，获得T×V×U的三维特征张量生成初始胶囊，T表示重塑前的时间维度，V表示音频帧的胶囊数量，U表示胶囊的大小。通过迭代动态路由算法更新耦合系数，完成V个PrimaryCaps与代表事件特征向量的EventCaps的匹配。

6、所述步骤(2)中Squashing激活函数为：

s_j代表通过胶囊层间路由选择计算得到胶囊j的输入，v_j代表胶囊j经过激活函数计算后的输出，s_j和v_j均为向量，

表示输入向量s_j的缩放尺度，

表示输入向量s_j的单位向量，胶囊层间路由选择计算为：

c_ij是由囊间动态路由算法确定的耦合系数，

是u_i的线性组合，表示前一层第i个胶囊的输出向量u_i与权值向量w_ij相乘得到的预测向量，具体表示为：

7、所述步骤(2)中通过软注意力机制生成时间帧的注意力因子att(t)，att(t)＝σ(p*x(t)+b)，x(t)表示输入的特征，p表示权重矩阵，b表示偏置参数，σ(·)为sigmoid激活函数。结合att(t)和EventCaps输出的特征向量得到时间特征向量。

8、所述步骤(2)中胶囊层对每一个表征声学事件的EventCaps胶囊分别给出单独的边缘损失函数:L_k＝T_k max(0，m⁺-||v_k||²)+λ(1-T_k)max(0,||v_k||-m^-)²，L_k表示k类声学事件的损失，当k类事件发生时，T_k＝1，否则T_k＝0，m⁺＝0.9，m^-＝0.1，λ＝0.5，BGRU层和时间全连接层使用二元交叉熵损失函数：

y∈{0,1}，

9、在步骤(3)中将音频数据测试集的bin-MFCC声学特征进行归一化和标注操作完成预处理后，输入到PBAttCapsNet-BGRU模型中，将PBA与CNN相结合，关注声学事件发生的时间帧，提取高层抽象特征，利用胶囊层得到声学事件的时间特征向量，通过2层BGRU对时间特征向量获取前后数据帧的上下文信息，并利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射，降低模型的维度，实现模型多对多的能力，获取各时间帧所含的事件类别，最终完成声学事件检测任务。

与现有技术相比，本发明的有益效果是：：a.由于音频数据集中存在不连续、重叠的声学事件，本发明在2017年Sharath Adavanne等提出的层叠卷积递归神经网络模型的声音事件检测方法和2018年Turab Iqbal等提出基于胶囊路由的声音事件检测方法的基础上，提出构建PBAttCapsNet-BGRU模型；b.在本发明提出构建的PBAttCapsNet-BGRU模型中，利用PBA结合CNN关注声学事件发生的时间帧，提高对不连续声学事件的检测准确率，提取更加相关的高层抽象特征；c.在本发明提出构建的PBAttCapsNet-BGRU模型中，利用胶囊网络的路由机制预测声学事件是否存在，并将胶囊网络与软注意力机制结合构成胶囊层，向时间帧中加注意力因子，完成时间特征向量的封装与传递，实现重叠声学事件检测，有效提升重叠声学事件检测准确率。d.在本发明提出构建的PBAttCapsNet-BGRU模型中，为了提升获取前后数据帧的上下文信息能力，并将时间特征向量和前后数据帧的上下文信息进行整合与映射，采用2层BGRU和2个时间全连接层，获取各时间帧所含的事件类别，实现声学事件检测任务。

本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法，通过与其他声学事件检测方法的性能对比，能够有效地对不连续、重叠声学事件进行检测，并提升检测性能。

附图说明

图1是本发明方法的流程图；

图2是本发明提出PBAttCapsNet-BGRU模型的结构图；

图3是PBA结构图；

图4是各声学事件检测模型在评估数据集的ER指标和F1指标柱状图；

图5是PBAttResNet-BGRU模型、PBAttDenseNet-BGRU模型和PBAttVGGNet-BGRU模型结构图；

图6是本发明提出的PBAttCapsNet-BGRU模型和各对比模型在评估数据集的ER指标和F1指标柱状图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

结合图1，本发明的具体步骤如下：

(1)原始音频数据进行预处理

本发明的数据集采用TUT Sound Event 2017数据集。由于数据集中音频文件是双声道采集，对每个声道上的音频数据利用MFCC提取声学特征，拼接得到bin-MFCC声学特征，选用特征维度为80的bin-MFCC声学特征进行归一化处理，范围为[0,1]，从给定的文本标注中提取声学事件开始时间和结束时间，计算声学事件的开始帧以及结束帧，标注对应声学事件的类别信息。其中帧和时间的转换公式为：

frames_1_sec＝int(sr/(nfft/2.0))

事件开始时间和事件开始帧的对应关系为：

事件结束时间和事件结束帧的对应关系为：

式中：sr代表音频数据的采样率，采用44.1khz，nfft代表作fft时的点数，采用2048。

(2)提出构建PBAttCapsNet-BGRU模型

为了取得对不连续、重叠声学事件较好的检测效果，本发明提出构建PBAttCapsNet-BGRU模型。利用PBA结合CNN关注声学事件发生的时间帧，提高对不连续声学事件的检测准确率，具体结构为在4个卷积核为3×3×256的卷积层后分别结合PBA；由PrimaryCaps、EventCaps及软注意力机制构成胶囊层，实现时间特征向量的封装和传递；通过2层BGRU获取前后数据帧的上下文信息，并利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射。图2是本发明提出PBAttCapsNet-BGRU模型的结构图。

①提取更加相关的高层抽象特征

将预处理后的声学特征输入卷积层，通过卷积操作输出特征图

在卷积层后添加PBA，提取更加相关的高层抽象特征。其中PBA包括通道注意力机制和像素空间注意力机制，图3是PBA结构图。

通道注意力机制将通道压缩至C/r，其中r代表压缩比率的超参数，对F进行全局平均池化操作，得到通道向量

使用该向量在每个通道上对全局信息进行软编码，利用含有两个隐藏层的全连接层聚合每个通道的特征图，并添加批量标准化层以归一化每个维度的比例，生成通道注意力分布图。通道注意力机制的表示为：

A_C(F)＝BN(MLP(AvgPool(F)))

＝BN(W₁(W₀AvgPool(F)+b₀)+b₁)

式中：BN(·)代表一个批量标准化操作，AvgPool(·)为平均池化操作，

像素空间注意力机制利用1×1卷积操作对F进行降维，降维后的特征大小为

使用两个3×3的空洞卷积有效利用特征信息，再次对特征进行降维，得到大小为

的像素空间注意力分布图，采用批标准化操作，生成像素空间注意力分布图。像素空间注意力机制的表示为：

式中：f_i ^j×j(·)代表一个卷积操作，i＝0,1,2,3，j×j表示卷积核的大小，j＝1,2,3。

将A_C(F)和A_S(F)的大小扩展为

针对梯度流的特点采用逐项求和的方法进行合并，利用sigmoid函数得到取值范围为[0,1]的三维像素注意力分布图A(F)，像素注意力分布图的表示为：

A(F)＝σ(A_C(F)+A_S(F))

式中：σ(·)为sigmoid激活函数。

PBA将像素注意力分布图与输入特征图F结合，得到新的特征图F_new，PBA的表示为：

式中：

表示逐元素相乘操作。

②时间特征向量的封装和传递

PrimaryCaps对输入的高层抽象特征进行卷积操作，得到一个T×C×W×H的四维张量，通过重塑操作将其重塑为一个T×V×U的三维张量，使用Squashing激活函数对张量压缩生成初始胶囊，T是重塑前的时间维度，V是音频帧的胶囊数量，U是胶囊的大小。Squashing激活函数表示为：

式中：s_j表示通过胶囊层间路由选择计算得到胶囊j的输入，v_j表示胶囊j经过激活函数计算后的输出，s_j和v_j均为向量，

代表输入向量s_j的缩放尺度，

代表输入向量s_j的单位向量。

将初始胶囊输入EventCaps中，在PrimaryCaps和EventCaps之间使用动态路由算法选择声学事件的代表性频带，将V个代表音频帧的胶囊与表征声学事件的EventCaps胶囊进行匹配，EventCaps使用Squashing激活函数生成输出向量。

胶囊层间路由选择计算表示为：

式中：c_ij是由囊间动态路由算法确定的耦合系数，

是u_i的线性组合，表示PrimaryCaps中第i个胶囊的输出向量u_i与权值向量w_ij相乘得到的预测向量，具体表示为：

在路由的过程中，利用EventCaps的输出向量v_j与预测向量

对路由权重c_ij进行迭代更新。

将初始胶囊作为软注意力机制的输入，通过软注意力机制，计算每一帧事件特征向量的注意力权重，生成时间帧的注意力因子att(t)。使网络模型更专注地找出与音频事件类相关的显著帧，att(t)计算表示为：

att(t)＝σ(p*x(t)+b)

式中：x(t)表示输入的胶囊，p表示权重矩阵，b表示偏置参数。

将att(t)和EventCaps输出的特征向量逐元素相乘，得到时间特征向量，实现时间特征向量的封装和传递。其他参数的更新使用边缘损失函数，具体方法为对表征声学事件的EventCaps胶囊分别计算边缘损失函数，使用反向传播算法进行训练。边缘损失函数的计算表示为：

L_k＝T_k max(0，m⁺-||v_k||²)+λ(1-T_k)max(0,||v_k||-m^-)²

式中：L_k表示k类声学事件的损失，当k类事件发生时，T_k＝1，否则T_k＝0，m⁺＝0.9，m^-＝0.1，λ＝0.5。

③获取前后数据帧的上下文信息

将时间特征向量分别通过正向和反向门控循环单元(Gated Recurrent Unit,GRU)的BGRU得到上下文信息注释，通过从两个方向连接上下文信息注释获取前后数据帧的上下文信息。其中GRU由更新门、重置门组成，重置门用于控制忽略前一时刻状态信息的程度，重置门的值越小，忽略信息越多。更新门用于控制当前状态前一时刻状态信息被带入到当前状态中的程度，更新门的值越大，前一时刻的状态信息带入越多。更新门表示为：

z_t＝σ(W_z·[h_t-1,x(t)]+b_z)

式中：z_t表示更新门，W_z和b_z是待训练的权值矩阵以及偏置向量。

GRU的重置门决定了新的输入与前面的信息结合的方式，表示为：

r_t＝σ(W_r·[h_t-1,x(t)]+b_r)

式中：r_t表示重置门，W_r和b_r是待训练的的权值矩阵和偏置向量。

隐藏状态更新

表示为：

式中：W为

的偏置向量，

为逐点乘法。

输出的隐藏状态h_t表示为：

④对时间特征向量和前后数据帧的上下文信息进行整合与映射

为了获取各时间帧所含的事件类别，利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射。2层BGRU和2个时间全连接层使用二元交叉熵损失函数，通过反向传播算法完成训练与收敛，二元交叉熵损失函数的计算表示为：

式中：y∈{0,1}，

(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务

将音频数据测试集输入PBAttCapsNet-BGRU模型中，进行高层抽象特征提取，在得到时间特征向量后，通过BGRU层获取前后数据帧的上下文信息，并利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射，输出64×6维向量，获取各时间帧所含的事件类别，最终完成声学事件检测任务。

为验证本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法的有效性，给出TUT Sound Events 2017数据集中开发数据集和评估数据集的实验。在对模型进行有效性评估时，实验统一采用特征维度为80的bin-MFCC声学特征，阈值设置为0.5。实验检测指标采用测试错误率(ER)和F-Score(F1)，为了更好地避免偶然性，让实验结果更具有说服力，在开发数据集中，实验折叠四次数据集，三折数据集用于训练模型，一折数据集用于预测结果，然后计算四折结果的平均值。重复10次过程计算预测结果的平均值，得到在开发数据集上模型的ER指标和F1指标。最后在评估数据集上进行测试，得到在评估数据集上模型的ER指标和F1指标。

ER是用于衡量各种不同检测错误的综合情况。这些检测错误分别是插入错误I、删除错误D以及替换错误S。

I为：

I＝max(0,FP-FN)

式中：N为假设真实数据文本标注信息中的事件总数。

D为：

D＝max(0,FN-FP)

S为：

S＝min(FN,FP)

因此，ER为：

ER的取值范围为[0,+∞]，值越小代表检测性能越好。

F1是精确率和召回率的折中指标。

精确率为：

式中：TP为真正例，FP为假正例，FN为假负例。

召回率为：

因此，F1为：

F1取值范围在[0,1]之间，值越大代表检测性能越好。

表1给出本发明提出的PBAttCapsNet-BGRU模型，与CNN模型、RNN模型、卷积递归神经网络(Stacked Convolutional and Recurrent Neural Network，CNN-RNN)模型、CapsNet模型、像素注意力机制胶囊网络(Pixel-Based Attention of Capsule Network,PBAttCapsNet)模型、胶囊网络-双向门控循环单元网络(Capsule Network-BidirectionalGated Recurrent Unit,CapsNet-BGRU)模型在开发数据集和评估数据集实验的ER指标和F1指标。为了更清晰地反映本发明提出的PBAttCapsNet-BGRU模型的检测性能，图4是各声学事件检测模型在评估数据集的ER指标和F1指标柱状图。

表1各声学事件检测模型的ER指标和F1指标

从表1和图4可以看出，相比于CNN模型和RNN模型，CNN-RNN模型在声学事件检测性能上有所提升，而CapsNet模型的检测性能要优于CNN-RNN模型的检测性能，所以CapsNet模型较CNN模型、RNN模型和CNN-RNN模型的声学事件检测性能更好；PBAttCapsNet模型和CapsNet-BGRU模型的检测性能都优于CapsNet模型的检测性能，在评估数据集上，PBAttCapsNet模型比CapsNet模型ER指标降低0.039，F1指标提升0.007，说明PBA能关注声学事件发生的时间帧，提高对不连续声学事件的检测准确率，提取更加相关的高层抽象特征。CapsNet-BGRU模型比CapsNet模型ER指标降低0.067，F1指标提升0.034，说明BGRU能有效提升获取前后数据帧的上下文信息；本发明提出的PBAttCapsNet-BGRU模型的检测性能最优，并在评估数据集上，较CapsNet-BGRU模型ER指标降低0.074，F1指标提升0.077。验证本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法能够有效地对不连续、重叠声学事件进行检测，并提升检测性能。

为进一步验证本发明提出的PBAttCapsNet-BGRU模型的有效性，针对声学事件检测任务和不同卷积神经网络的特点，选取三种应用广泛且性能良好的深度学习经典卷积网络结合PBA和BGRU构建对比模型完成声学事件检测任务。具体包括基于残差网络(ResNet)构建像素注意力机制残差网络-双向门控循环单元网络(Pixel-Based Attention ofResidual Network-Bidirectional Gated Recurrent Unit,PBAttResNet-BGRU)模型、基于稠密连接网络(DenseNet)构建像素注意力机制稠密连接网络-双向门控循环单元网络(Pixel-Based Attention of Densely Connected Networks-Bidirectional GatedRecurrent Unit,PBAttDenseNet-BGRU)模型和基于牛津大学计算机视觉组提出的卷积网络(VGGNet)构建像素注意力机制VGG网络-双向门控循环单元网络(Pixel-BasedAttention of VGG Networks-Bidirectional Gated Recurrent Unit,PBAttVGGNet-BGRU)模型。图5是PBAttResNet-BGRU模型、PBAttDenseNet-BGRU模型和PBAttVGGNet-BGRU模型结构图。

表2给出本发明提出的PBAttCapsNet-BGRU模型和各对比模型在开发数据集和评估数据集实验的ER指标和F1指标。同样，为了更清晰地反映本发明提出的PBAttCapsNet-BGRU模型的检测性能，图6是本发明提出的PBAttCapsNet-BGRU模型和各对比模型在评估数据集的ER指标和F1指标柱状图。

表2本发明提出的PBAttCapsNet-BGRU模型和各对比模型的ER指标和F1指标

通过表2和图6可以看出，本发明提出构建的PBAttCapsNet-BGRU模型与三个基于经典卷积网络构建的声学事件检测模型比较,其检测性能最优，能进一步验证本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法的有效性。

综上，本发明提供的是一种基于像素注意力机制胶囊网络模型的声学事件检测方法。包括如下步骤：(1)对原始音频数据进行预处理；(2)提出构建像素注意力机制胶囊网络-双向门控循环单元网络(Pixel-Based Attention of Capsule Network-Bidirectional Gated Recurrent Unit,PBAttCapsNet-BGRU)模型；(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务。本发明为了取得对不连续、重叠声学事件较好的检测效果，提出一种基于像素注意力机制胶囊网络模型的声学事件检测方法。即利用双声道梅尔频率倒谱系数(binary-Mel Frequency Cepstrum Coefficient,bin-MFCC)提取声学特征，并对其进行归一化和标注操作完成预处理；为了更有效的检测出声学事件，提出构建PBAttCapsNet-BGRU模型。利用像素注意力机制(Pixel-Based Attention,PBA)结合卷积神经网络(Convolution Neural Network,CNN)关注声学事件发生的时间帧，提高对不连续声学事件的检测准确率，提取更加相关的高层抽象特征。由于音频数据中同一时间帧上可能存在声学事件的重叠问题，胶囊网络(Capsule Network,CapsNet)通过其路由机制预测声学事件的存在与否，自发投票，能够更加有效地检测出声学事件的重叠，利用PrimaryCaps、EventCaps及软注意力机制构成胶囊层，实现时间特征向量的封装和传递。为了提升获取前后数据帧的上下文信息能力采用2层双向门控循环单元(BidirectionalGated Recurrent Unit,BGRU)。最后利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射；在此基础上，利用提出的PBAttCapsNet-BGRU模型对测试集进行特征提取得到时间特征向量，通过BGRU层提升获取前后数据帧的上下文信息能力，并采用时间全连接层获取各时间帧所含的事件类别，实现声学事件检测任务。通过与其他声学事件检测方法的性能对比，本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法能够有效地对不连续、重叠声学事件进行检测，并提升检测性能。

Claims

1.基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：包括如下步骤：

步骤(1)对原始音频数据进行预处理：利用bin-MFCC提取声学特征；对声学特征做归一化处理和标注操作；

步骤(2)提出构建PBAttCapsNet-BGRU模型：利用PBA结合CNN关注声学事件发生的时间帧，提高对不连续声学事件的检测准确率，提取更加相关的高层抽象特征；由PrimaryCaps、EventCaps及软注意力机制构成胶囊层，实现时间特征向量的封装和传递；通过2层BGRU获取前后数据帧的上下文信息；利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射；

步骤(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务：利用提出的PBAttCapsNet-BGRU模型对测试集进行特征提取得到时间特征向量；通过BGRU层提升获取前后数据帧的上下文信息能力，并采用时间全连接层获取各时间帧所含的事件类别，实现声学事件检测任务。

2.根据权利要求1所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：在步骤(1)中对原始音频数据进行预加重、分帧、加窗、快速傅里叶变换后，利用梅尔滤波器组滤波，计算对数能量，经过离散余弦变换得到bin-MFCC声学特征。

3.根据权利要求2所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：所述步骤(1)中对bin-MFCC声学特征进行归一化处理，范围为[0,1]，计算声学事件的开始帧以及结束帧，标注对应声学事件的类别信息。

4.根据权利要求1或3所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：在步骤(2)中PBA包括通道注意力机制和像素空间注意力机制，通道注意力机制的具体表示为：

A_C(F)＝BN(W₁(W₀AvgPool(F)+b₀)+b₁)

其中：F代表输入特征图，

BN(·)代表一个批量标准化操作，AvgPool(·)为平均池化操作，

C/r表示压缩通道数，r代表通道压缩比率，

像素空间注意力机制的具体表示为：

其中：f_i ^j×j(·)代表一个卷积操作，i＝0,1,2,3，j×j表示卷积核的大小，j＝1,2,3；将A_C(F)与A_S(F)结合，得到像素注意力分布图为：A(F)＝σ(A_C(F)+A_S(F)),σ(·)为sigmoid激活函数，PBA的具体表示为：

F_new代表将F与A(F)结合的新的特征图，

表示逐元素相乘。

5.根据权利要求1或4所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：所述步骤(2)中PrimaryCaps和EventCaps之间使用动态路由算法进行迭代路由计算，选择声学事件的代表性频带，完成特征向量的封装和传递，确保对重叠声学事件的检测能力。

6.根据权利要求1或5所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：所述步骤(2)中PrimaryCaps对输入的高层抽象特征进行卷积、重塑，使用Squashing激活函数，获得T×V×U的三维特征张量生成初始胶囊，T表示重塑前的时间维度，V表示音频帧的胶囊数量，U表示胶囊的大小，通过迭代动态路由算法更新耦合系数，完成V个PrimaryCaps与代表事件特征向量的EventCaps的匹配。

7.根据权利要求1或6所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：所述步骤(2)中Squashing激活函数为：

其中，s_j代表通过胶囊层间路由选择计算得到胶囊j的输入，v_j代表胶囊j经过激活函数计算后的输出，s_j和v_j均为向量，

表示输入向量s_j的缩放尺度，

表示输入向量s_j的单位向量，胶囊层间路由选择计算为：

c_ij是由囊间动态路由算法确定的耦合系数，

8.根据权利要求1或7所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：所述步骤(2)中通过软注意力机制生成时间帧的注意力因子att(t)，att(t)＝σ(p*x(t)+b)，x(t)表示输入的特征，p表示权重矩阵，b表示偏置参数，σ(·)为sigmoid激活函数，结合att(t)和EventCaps输出的特征向量得到时间特征向量。

9.根据权利要求8所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：所述步骤(2)中胶囊层对每一个表征声学事件的EventCaps胶囊分别给出单独的边缘损失函数:L_k＝T_kmax(0，m⁺-||v_k||²)+λ(1-T_k)max(0,||v_k||-m^-)²，L_k表示k类声学事件的损失，当k类事件发生时，T_k＝1，否则T_k＝0，m⁺＝0.9，m^-＝0.1，λ＝0.5，BGRU层和时间全连接层使用二元交叉熵损失函数：

y∈{0,1}，

10.根据权利要求1或9所述的基于像素注意力机制胶囊网络模型的声学事件检测方法，其特征是：在步骤(3)中将音频数据测试集的bin-MFCC声学特征进行归一化和标注操作完成预处理后，输入到PBAttCapsNet-BGRU模型中，将PBA与CNN相结合，关注声学事件发生的时间帧，提取高层抽象特征，利用胶囊层得到声学事件的时间特征向量，通过2层BGRU对时间特征向量获取前后数据帧的上下文信息，并利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射，降低模型的维度，实现模型多对多的能力，获取各时间帧所含的事件类别，最终完成声学事件检测任务。