CN113012714A - 基于像素注意力机制胶囊网络模型的声学事件检测方法 - Google Patents

基于像素注意力机制胶囊网络模型的声学事件检测方法 Download PDF

Info

Publication number
CN113012714A
CN113012714A CN202110197042.9A CN202110197042A CN113012714A CN 113012714 A CN113012714 A CN 113012714A CN 202110197042 A CN202110197042 A CN 202110197042A CN 113012714 A CN113012714 A CN 113012714A
Authority
CN
China
Prior art keywords
acoustic
capsule
attention mechanism
acoustic event
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110197042.9A
Other languages
English (en)
Other versions
CN113012714B (zh
Inventor
王兴梅
战歌
汪进利
徐义超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110197042.9A priority Critical patent/CN113012714B/zh
Publication of CN113012714A publication Critical patent/CN113012714A/zh
Application granted granted Critical
Publication of CN113012714B publication Critical patent/CN113012714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于像素注意力机制胶囊网络模型的声学事件检测方法,包括如下步骤:(1)对原始音频数据进行预处理;(2)提出构建像素注意力机制胶囊网络‑双向门控循环单元网络(Pixel‑Based Attention of Capsule Network‑Bidirectional Gated Recurrent Unit,PBAttCapsNet‑BGRU)模型;(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务。本发明为了取得对不连续、重叠声学事件较好的检测效果,提出一种基于像素注意力机制胶囊网络模型的声学事件检测方法。通过与其他声学事件检测方法的性能对比,本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法能够有效地对不连续、重叠声学事件进行检测,并提升检测性能。

Description

基于像素注意力机制胶囊网络模型的声学事件检测方法
技术领域
本发明涉及的是深度学习声学事件检测技术领域。具体地说是一种基于像素注意力机制胶囊网络模型的声学事件检测方法。
背景技术
音频数据相比图像、文本数据等其他信息具有采集容易,信息丰富等优点,在机器环境感知、信息内容检索、智能化场景监控等相关应用领域中被广泛应用。而基于音频数据的声学事件检测(Acoustic Event Detection,AED)则是促进这些应用领域发展的核心和关键技术,因此声学事件检测在现实生活中的许多领域都具有极其重要的研究意义和实际应用价值。随着深度学习的发展以及相关数据量的增大,深度神经网络的声学事件检测已经受到了越来越多研究者的关注。如基于CNN、循环神经网络(Recurrent NeuralNetworks,RNN)、循环卷积神经网络(Convolutional Recurrent Neural Network,CRNN)以及CapsNet等方法取得了重大突破,检测性能获得了较大提升。近年来,国内外学者对声学事件检测进行了深入的分析研究,其中在已有的文献中最著名和效果最好的声学事件检测方法主要包括:1.基于上下文的声音事件检测:2013年Toni Heittola,AnnamariaMesaros,Antti Eronen,Tuomas Virtanen.Context-dependent sound eventdetection.EURASIP Journal on Audio,Speech,and Music Processing,2013,2013(1):1-13.提出构建CD-DNN-HMM模型,与其使用的上下文无关的基线系统相比,检测准确率提高接近一倍,取得了良好的声音事件检测效果。2.不同双声道特征的声音事件检测:2017年Sharath Adavanne,Tuomas Virtanen.A report on sound event detection withdifferent binaural features.arXiv preprint,2017,arXiv:1710.02997.提出构建层叠卷积递归神经网络模型,其双声道特征的误码率较单声道特征一致或更优。3.基于深度卷积递归模型的弱监督音频标注的关注与定位:2017年Yong Xu,Qiuqiang Kong,QiangHuang,Wenwu Wang,Mark D.Plumbley.Attention and Localization based on a DeepConvolutional Recurrent Model for Weakly Supervised Audio Tagging[C]//INTERSPEECH 2017,Stockholm,Sweden,2017:3083-3087.提出一种基于深度卷积递归模型的弱监督音频标注的关注与定位方法,实现预测标签并指示发生声学事件的时间位置。4.基于胶囊路由的声音事件检测:2018年Turab Iqbal,Yong Xu,Qiuqiang Kong,WenwuWang.Capsule Routing for Sound Event Detection[C]//2018 26th European SignalProcessing Conference(EUSIPCO),Rome,Italy,2018:2255-2259.提出利用胶囊路由机制的神经网络实现环境声音事件检测,该方法与其他模型相比降低了过拟合的可能性。5.基于卷积递归神经网络的声学事件定位与重叠源检测:2019年Sharath Adavanne,ArchontisPolitis,Joonas Nikunen,Tuomas Virtanen.Sound Event Localization and Detectionof Overlapping Sources Using Convolutional Recurrent Neural Networks.IEEEJournal of Selected Topics in Signal Processing,2019,13(1):34-48.提出一种卷积递归神经网络,实现对三维空间中多个重叠声学事件的联合定位与检测,取得了相对较好的效果。
发明内容
本发明的目的在于提供一种具有对不连续、重叠声学事件较好检测效果的基于像素注意力机制胶囊网络模型的声学事件检测方法。
本发明在实现过程中包括如下步骤:
(1)对原始音频数据进行预处理:①利用bin-MFCC提取声学特征;②对声学特征做归一化处理和标注操作;
(2)提出构建PBAttCapsNet-BGRU模型:①利用PBA结合CNN关注声学事件发生的时间帧,提高对不连续声学事件的检测准确率,提取更加相关的高层抽象特征;②由PrimaryCaps、EventCaps及软注意力机制构成胶囊层,实现时间特征向量的封装和传递;③通过2层BGRU获取前后数据帧的上下文信息;④利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射;
(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务:①利用提出的PBAttCapsNet-BGRU模型对测试集进行特征提取得到时间特征向量;②通过BGRU层提升获取前后数据帧的上下文信息能力,并采用时间全连接层获取各时间帧所含的事件类别,实现声学事件检测任务。
本发明还可以包括:
1、在步骤(1)中对原始音频数据进行预加重、分帧、加窗、快速傅里叶变换后,利用梅尔滤波器组滤波,计算对数能量,经过离散余弦变换得到bin-MFCC声学特征。
2、所述步骤(1)中对bin-MFCC声学特征进行归一化处理,范围为[0,1]。计算声学事件的开始帧以及结束帧,标注对应声学事件的类别信息。
3、在步骤(2)中PBA包括通道注意力机制和像素空间注意力机制,通道注意力机制的具体表示为:AC(F)=BN(W1(W0AvgPool(F)+b0)+b1),F代表输入特征图,
Figure BDA0002947317170000031
BN(·)代表一个批量标准化操作,AvgPool(·)为平均池化操作,
Figure BDA0002947317170000032
C/r表示压缩通道数,r代表通道压缩比率,
Figure BDA0002947317170000033
像素空间注意力机制的具体表示为:
Figure BDA00029473171700000312
fi j×j(·)代表一个卷积操作,i=0,1,2,3,j×j表示卷积核的大小,j=1,2,3。将AC(F)与AS(F)结合,得到像素注意力分布图为:A(F)=σ(AC(F)+AS(F)),σ(·)为sigmoid激活函数,PBA的具体表示为:
Figure BDA0002947317170000034
Fnew代表将F与A(F)结合的新的特征图,
Figure BDA0002947317170000035
表示逐元素相乘。
4、所述步骤(2)中PrimaryCaps和EventCaps之间使用动态路由算法进行迭代路由计算,选择声学事件的代表性频带,完成特征向量的封装和传递,确保对重叠声学事件的检测能力。
5、所述步骤(2)中PrimaryCaps对输入的高层抽象特征进行卷积、重塑,使用Squashing激活函数,获得T×V×U的三维特征张量生成初始胶囊,T表示重塑前的时间维度,V表示音频帧的胶囊数量,U表示胶囊的大小。通过迭代动态路由算法更新耦合系数,完成V个PrimaryCaps与代表事件特征向量的EventCaps的匹配。
6、所述步骤(2)中Squashing激活函数为:
Figure BDA0002947317170000036
sj代表通过胶囊层间路由选择计算得到胶囊j的输入,vj代表胶囊j经过激活函数计算后的输出,sj和vj均为向量,
Figure BDA0002947317170000037
表示输入向量sj的缩放尺度,
Figure BDA0002947317170000038
表示输入向量sj的单位向量,胶囊层间路由选择计算为:
Figure BDA0002947317170000039
cij是由囊间动态路由算法确定的耦合系数,
Figure BDA00029473171700000310
是ui的线性组合,表示前一层第i个胶囊的输出向量ui与权值向量wij相乘得到的预测向量,具体表示为:
Figure BDA00029473171700000311
7、所述步骤(2)中通过软注意力机制生成时间帧的注意力因子att(t),att(t)=σ(p*x(t)+b),x(t)表示输入的特征,p表示权重矩阵,b表示偏置参数,σ(·)为sigmoid激活函数。结合att(t)和EventCaps输出的特征向量得到时间特征向量。
8、所述步骤(2)中胶囊层对每一个表征声学事件的EventCaps胶囊分别给出单独的边缘损失函数:Lk=Tk max(0,m+-||vk||2)+λ(1-Tk)max(0,||vk||-m-)2,Lk表示k类声学事件的损失,当k类事件发生时,Tk=1,否则Tk=0,m+=0.9,m-=0.1,λ=0.5,BGRU层和时间全连接层使用二元交叉熵损失函数:
Figure BDA0002947317170000041
y∈{0,1},
Figure BDA0002947317170000042
9、在步骤(3)中将音频数据测试集的bin-MFCC声学特征进行归一化和标注操作完成预处理后,输入到PBAttCapsNet-BGRU模型中,将PBA与CNN相结合,关注声学事件发生的时间帧,提取高层抽象特征,利用胶囊层得到声学事件的时间特征向量,通过2层BGRU对时间特征向量获取前后数据帧的上下文信息,并利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射,降低模型的维度,实现模型多对多的能力,获取各时间帧所含的事件类别,最终完成声学事件检测任务。
与现有技术相比,本发明的有益效果是::a.由于音频数据集中存在不连续、重叠的声学事件,本发明在2017年Sharath Adavanne等提出的层叠卷积递归神经网络模型的声音事件检测方法和2018年Turab Iqbal等提出基于胶囊路由的声音事件检测方法的基础上,提出构建PBAttCapsNet-BGRU模型;b.在本发明提出构建的PBAttCapsNet-BGRU模型中,利用PBA结合CNN关注声学事件发生的时间帧,提高对不连续声学事件的检测准确率,提取更加相关的高层抽象特征;c.在本发明提出构建的PBAttCapsNet-BGRU模型中,利用胶囊网络的路由机制预测声学事件是否存在,并将胶囊网络与软注意力机制结合构成胶囊层,向时间帧中加注意力因子,完成时间特征向量的封装与传递,实现重叠声学事件检测,有效提升重叠声学事件检测准确率。d.在本发明提出构建的PBAttCapsNet-BGRU模型中,为了提升获取前后数据帧的上下文信息能力,并将时间特征向量和前后数据帧的上下文信息进行整合与映射,采用2层BGRU和2个时间全连接层,获取各时间帧所含的事件类别,实现声学事件检测任务。
本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法,通过与其他声学事件检测方法的性能对比,能够有效地对不连续、重叠声学事件进行检测,并提升检测性能。
附图说明
图1是本发明方法的流程图;
图2是本发明提出PBAttCapsNet-BGRU模型的结构图;
图3是PBA结构图;
图4是各声学事件检测模型在评估数据集的ER指标和F1指标柱状图;
图5是PBAttResNet-BGRU模型、PBAttDenseNet-BGRU模型和PBAttVGGNet-BGRU模型结构图;
图6是本发明提出的PBAttCapsNet-BGRU模型和各对比模型在评估数据集的ER指标和F1指标柱状图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
结合图1,本发明的具体步骤如下:
(1)原始音频数据进行预处理
本发明的数据集采用TUT Sound Event 2017数据集。由于数据集中音频文件是双声道采集,对每个声道上的音频数据利用MFCC提取声学特征,拼接得到bin-MFCC声学特征,选用特征维度为80的bin-MFCC声学特征进行归一化处理,范围为[0,1],从给定的文本标注中提取声学事件开始时间和结束时间,计算声学事件的开始帧以及结束帧,标注对应声学事件的类别信息。其中帧和时间的转换公式为:
frames_1_sec=int(sr/(nfft/2.0))
事件开始时间和事件开始帧的对应关系为:
Figure BDA0002947317170000051
事件结束时间和事件结束帧的对应关系为:
Figure BDA0002947317170000068
式中:sr代表音频数据的采样率,采用44.1khz,nfft代表作fft时的点数,采用2048。
(2)提出构建PBAttCapsNet-BGRU模型
为了取得对不连续、重叠声学事件较好的检测效果,本发明提出构建PBAttCapsNet-BGRU模型。利用PBA结合CNN关注声学事件发生的时间帧,提高对不连续声学事件的检测准确率,具体结构为在4个卷积核为3×3×256的卷积层后分别结合PBA;由PrimaryCaps、EventCaps及软注意力机制构成胶囊层,实现时间特征向量的封装和传递;通过2层BGRU获取前后数据帧的上下文信息,并利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射。图2是本发明提出PBAttCapsNet-BGRU模型的结构图。
①提取更加相关的高层抽象特征
将预处理后的声学特征输入卷积层,通过卷积操作输出特征图
Figure BDA0002947317170000061
在卷积层后添加PBA,提取更加相关的高层抽象特征。其中PBA包括通道注意力机制和像素空间注意力机制,图3是PBA结构图。
通道注意力机制将通道压缩至C/r,其中r代表压缩比率的超参数,对F进行全局平均池化操作,得到通道向量
Figure BDA0002947317170000062
使用该向量在每个通道上对全局信息进行软编码,利用含有两个隐藏层的全连接层聚合每个通道的特征图,并添加批量标准化层以归一化每个维度的比例,生成通道注意力分布图。通道注意力机制的表示为:
AC(F)=BN(MLP(AvgPool(F)))
=BN(W1(W0AvgPool(F)+b0)+b1)
式中:BN(·)代表一个批量标准化操作,AvgPool(·)为平均池化操作,
Figure BDA0002947317170000063
Figure BDA0002947317170000064
像素空间注意力机制利用1×1卷积操作对F进行降维,降维后的特征大小为
Figure BDA0002947317170000065
使用两个3×3的空洞卷积有效利用特征信息,再次对特征进行降维,得到大小为
Figure BDA0002947317170000066
的像素空间注意力分布图,采用批标准化操作,生成像素空间注意力分布图。像素空间注意力机制的表示为:
Figure BDA0002947317170000069
式中:fi j×j(·)代表一个卷积操作,i=0,1,2,3,j×j表示卷积核的大小,j=1,2,3。
将AC(F)和AS(F)的大小扩展为
Figure BDA0002947317170000067
针对梯度流的特点采用逐项求和的方法进行合并,利用sigmoid函数得到取值范围为[0,1]的三维像素注意力分布图A(F),像素注意力分布图的表示为:
A(F)=σ(AC(F)+AS(F))
式中:σ(·)为sigmoid激活函数。
PBA将像素注意力分布图与输入特征图F结合,得到新的特征图Fnew,PBA的表示为:
Figure BDA0002947317170000071
式中:
Figure BDA0002947317170000072
表示逐元素相乘操作。
②时间特征向量的封装和传递
PrimaryCaps对输入的高层抽象特征进行卷积操作,得到一个T×C×W×H的四维张量,通过重塑操作将其重塑为一个T×V×U的三维张量,使用Squashing激活函数对张量压缩生成初始胶囊,T是重塑前的时间维度,V是音频帧的胶囊数量,U是胶囊的大小。Squashing激活函数表示为:
Figure BDA0002947317170000073
式中:sj表示通过胶囊层间路由选择计算得到胶囊j的输入,vj表示胶囊j经过激活函数计算后的输出,sj和vj均为向量,
Figure BDA0002947317170000074
代表输入向量sj的缩放尺度,
Figure BDA0002947317170000075
代表输入向量sj的单位向量。
将初始胶囊输入EventCaps中,在PrimaryCaps和EventCaps之间使用动态路由算法选择声学事件的代表性频带,将V个代表音频帧的胶囊与表征声学事件的EventCaps胶囊进行匹配,EventCaps使用Squashing激活函数生成输出向量。
胶囊层间路由选择计算表示为:
Figure BDA0002947317170000076
式中:cij是由囊间动态路由算法确定的耦合系数,
Figure BDA0002947317170000077
是ui的线性组合,表示PrimaryCaps中第i个胶囊的输出向量ui与权值向量wij相乘得到的预测向量,具体表示为:
Figure BDA0002947317170000078
在路由的过程中,利用EventCaps的输出向量vj与预测向量
Figure BDA0002947317170000081
对路由权重cij进行迭代更新。
将初始胶囊作为软注意力机制的输入,通过软注意力机制,计算每一帧事件特征向量的注意力权重,生成时间帧的注意力因子att(t)。使网络模型更专注地找出与音频事件类相关的显著帧,att(t)计算表示为:
att(t)=σ(p*x(t)+b)
式中:x(t)表示输入的胶囊,p表示权重矩阵,b表示偏置参数。
将att(t)和EventCaps输出的特征向量逐元素相乘,得到时间特征向量,实现时间特征向量的封装和传递。其他参数的更新使用边缘损失函数,具体方法为对表征声学事件的EventCaps胶囊分别计算边缘损失函数,使用反向传播算法进行训练。边缘损失函数的计算表示为:
Lk=Tk max(0,m+-||vk||2)+λ(1-Tk)max(0,||vk||-m-)2
式中:Lk表示k类声学事件的损失,当k类事件发生时,Tk=1,否则Tk=0,m+=0.9,m-=0.1,λ=0.5。
③获取前后数据帧的上下文信息
将时间特征向量分别通过正向和反向门控循环单元(Gated Recurrent Unit,GRU)的BGRU得到上下文信息注释,通过从两个方向连接上下文信息注释获取前后数据帧的上下文信息。其中GRU由更新门、重置门组成,重置门用于控制忽略前一时刻状态信息的程度,重置门的值越小,忽略信息越多。更新门用于控制当前状态前一时刻状态信息被带入到当前状态中的程度,更新门的值越大,前一时刻的状态信息带入越多。更新门表示为:
zt=σ(Wz·[ht-1,x(t)]+bz)
式中:zt表示更新门,Wz和bz是待训练的权值矩阵以及偏置向量。
GRU的重置门决定了新的输入与前面的信息结合的方式,表示为:
rt=σ(Wr·[ht-1,x(t)]+br)
式中:rt表示重置门,Wr和br是待训练的的权值矩阵和偏置向量。
隐藏状态更新
Figure BDA0002947317170000091
表示为:
Figure BDA0002947317170000092
式中:W为
Figure BDA0002947317170000093
的偏置向量,
Figure BDA0002947317170000094
为逐点乘法。
输出的隐藏状态ht表示为:
Figure BDA0002947317170000095
④对时间特征向量和前后数据帧的上下文信息进行整合与映射
为了获取各时间帧所含的事件类别,利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射。2层BGRU和2个时间全连接层使用二元交叉熵损失函数,通过反向传播算法完成训练与收敛,二元交叉熵损失函数的计算表示为:
Figure BDA0002947317170000096
式中:y∈{0,1},
Figure BDA0002947317170000097
(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务
将音频数据测试集输入PBAttCapsNet-BGRU模型中,进行高层抽象特征提取,在得到时间特征向量后,通过BGRU层获取前后数据帧的上下文信息,并利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射,输出64×6维向量,获取各时间帧所含的事件类别,最终完成声学事件检测任务。
为验证本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法的有效性,给出TUT Sound Events 2017数据集中开发数据集和评估数据集的实验。在对模型进行有效性评估时,实验统一采用特征维度为80的bin-MFCC声学特征,阈值设置为0.5。实验检测指标采用测试错误率(ER)和F-Score(F1),为了更好地避免偶然性,让实验结果更具有说服力,在开发数据集中,实验折叠四次数据集,三折数据集用于训练模型,一折数据集用于预测结果,然后计算四折结果的平均值。重复10次过程计算预测结果的平均值,得到在开发数据集上模型的ER指标和F1指标。最后在评估数据集上进行测试,得到在评估数据集上模型的ER指标和F1指标。
ER是用于衡量各种不同检测错误的综合情况。这些检测错误分别是插入错误I、删除错误D以及替换错误S。
I为:
I=max(0,FP-FN)
式中:N为假设真实数据文本标注信息中的事件总数。
D为:
D=max(0,FN-FP)
S为:
S=min(FN,FP)
因此,ER为:
Figure BDA0002947317170000101
ER的取值范围为[0,+∞],值越小代表检测性能越好。
F1是精确率和召回率的折中指标。
精确率为:
Figure BDA0002947317170000102
式中:TP为真正例,FP为假正例,FN为假负例。
召回率为:
Figure BDA0002947317170000103
因此,F1为:
Figure BDA0002947317170000104
F1取值范围在[0,1]之间,值越大代表检测性能越好。
表1给出本发明提出的PBAttCapsNet-BGRU模型,与CNN模型、RNN模型、卷积递归神经网络(Stacked Convolutional and Recurrent Neural Network,CNN-RNN)模型、CapsNet模型、像素注意力机制胶囊网络(Pixel-Based Attention of Capsule Network,PBAttCapsNet)模型、胶囊网络-双向门控循环单元网络(Capsule Network-BidirectionalGated Recurrent Unit,CapsNet-BGRU)模型在开发数据集和评估数据集实验的ER指标和F1指标。为了更清晰地反映本发明提出的PBAttCapsNet-BGRU模型的检测性能,图4是各声学事件检测模型在评估数据集的ER指标和F1指标柱状图。
表1各声学事件检测模型的ER指标和F1指标
Figure BDA0002947317170000111
从表1和图4可以看出,相比于CNN模型和RNN模型,CNN-RNN模型在声学事件检测性能上有所提升,而CapsNet模型的检测性能要优于CNN-RNN模型的检测性能,所以CapsNet模型较CNN模型、RNN模型和CNN-RNN模型的声学事件检测性能更好;PBAttCapsNet模型和CapsNet-BGRU模型的检测性能都优于CapsNet模型的检测性能,在评估数据集上,PBAttCapsNet模型比CapsNet模型ER指标降低0.039,F1指标提升0.007,说明PBA能关注声学事件发生的时间帧,提高对不连续声学事件的检测准确率,提取更加相关的高层抽象特征。CapsNet-BGRU模型比CapsNet模型ER指标降低0.067,F1指标提升0.034,说明BGRU能有效提升获取前后数据帧的上下文信息;本发明提出的PBAttCapsNet-BGRU模型的检测性能最优,并在评估数据集上,较CapsNet-BGRU模型ER指标降低0.074,F1指标提升0.077。验证本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法能够有效地对不连续、重叠声学事件进行检测,并提升检测性能。
为进一步验证本发明提出的PBAttCapsNet-BGRU模型的有效性,针对声学事件检测任务和不同卷积神经网络的特点,选取三种应用广泛且性能良好的深度学习经典卷积网络结合PBA和BGRU构建对比模型完成声学事件检测任务。具体包括基于残差网络(ResNet)构建像素注意力机制残差网络-双向门控循环单元网络(Pixel-Based Attention ofResidual Network-Bidirectional Gated Recurrent Unit,PBAttResNet-BGRU)模型、基于稠密连接网络(DenseNet)构建像素注意力机制稠密连接网络-双向门控循环单元网络(Pixel-Based Attention of Densely Connected Networks-Bidirectional GatedRecurrent Unit,PBAttDenseNet-BGRU)模型和基于牛津大学计算机视觉组提出的卷积网络(VGGNet)构建像素注意力机制VGG网络-双向门控循环单元网络(Pixel-BasedAttention of VGG Networks-Bidirectional Gated Recurrent Unit,PBAttVGGNet-BGRU)模型。图5是PBAttResNet-BGRU模型、PBAttDenseNet-BGRU模型和PBAttVGGNet-BGRU模型结构图。
表2给出本发明提出的PBAttCapsNet-BGRU模型和各对比模型在开发数据集和评估数据集实验的ER指标和F1指标。同样,为了更清晰地反映本发明提出的PBAttCapsNet-BGRU模型的检测性能,图6是本发明提出的PBAttCapsNet-BGRU模型和各对比模型在评估数据集的ER指标和F1指标柱状图。
表2本发明提出的PBAttCapsNet-BGRU模型和各对比模型的ER指标和F1指标
Figure BDA0002947317170000121
通过表2和图6可以看出,本发明提出构建的PBAttCapsNet-BGRU模型与三个基于经典卷积网络构建的声学事件检测模型比较,其检测性能最优,能进一步验证本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法的有效性。
综上,本发明提供的是一种基于像素注意力机制胶囊网络模型的声学事件检测方法。包括如下步骤:(1)对原始音频数据进行预处理;(2)提出构建像素注意力机制胶囊网络-双向门控循环单元网络(Pixel-Based Attention of Capsule Network-Bidirectional Gated Recurrent Unit,PBAttCapsNet-BGRU)模型;(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务。本发明为了取得对不连续、重叠声学事件较好的检测效果,提出一种基于像素注意力机制胶囊网络模型的声学事件检测方法。即利用双声道梅尔频率倒谱系数(binary-Mel Frequency Cepstrum Coefficient,bin-MFCC)提取声学特征,并对其进行归一化和标注操作完成预处理;为了更有效的检测出声学事件,提出构建PBAttCapsNet-BGRU模型。利用像素注意力机制(Pixel-Based Attention,PBA)结合卷积神经网络(Convolution Neural Network,CNN)关注声学事件发生的时间帧,提高对不连续声学事件的检测准确率,提取更加相关的高层抽象特征。由于音频数据中同一时间帧上可能存在声学事件的重叠问题,胶囊网络(Capsule Network,CapsNet)通过其路由机制预测声学事件的存在与否,自发投票,能够更加有效地检测出声学事件的重叠,利用PrimaryCaps、EventCaps及软注意力机制构成胶囊层,实现时间特征向量的封装和传递。为了提升获取前后数据帧的上下文信息能力采用2层双向门控循环单元(BidirectionalGated Recurrent Unit,BGRU)。最后利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射;在此基础上,利用提出的PBAttCapsNet-BGRU模型对测试集进行特征提取得到时间特征向量,通过BGRU层提升获取前后数据帧的上下文信息能力,并采用时间全连接层获取各时间帧所含的事件类别,实现声学事件检测任务。通过与其他声学事件检测方法的性能对比,本发明提出的基于像素注意力机制胶囊网络模型的声学事件检测方法能够有效地对不连续、重叠声学事件进行检测,并提升检测性能。

Claims (10)

1.基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:包括如下步骤:
步骤(1)对原始音频数据进行预处理:利用bin-MFCC提取声学特征;对声学特征做归一化处理和标注操作;
步骤(2)提出构建PBAttCapsNet-BGRU模型:利用PBA结合CNN关注声学事件发生的时间帧,提高对不连续声学事件的检测准确率,提取更加相关的高层抽象特征;由PrimaryCaps、EventCaps及软注意力机制构成胶囊层,实现时间特征向量的封装和传递;通过2层BGRU获取前后数据帧的上下文信息;利用2个时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射;
步骤(3)完成基于像素注意力机制胶囊网络模型的声学事件检测任务:利用提出的PBAttCapsNet-BGRU模型对测试集进行特征提取得到时间特征向量;通过BGRU层提升获取前后数据帧的上下文信息能力,并采用时间全连接层获取各时间帧所含的事件类别,实现声学事件检测任务。
2.根据权利要求1所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:在步骤(1)中对原始音频数据进行预加重、分帧、加窗、快速傅里叶变换后,利用梅尔滤波器组滤波,计算对数能量,经过离散余弦变换得到bin-MFCC声学特征。
3.根据权利要求2所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:所述步骤(1)中对bin-MFCC声学特征进行归一化处理,范围为[0,1],计算声学事件的开始帧以及结束帧,标注对应声学事件的类别信息。
4.根据权利要求1或3所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:在步骤(2)中PBA包括通道注意力机制和像素空间注意力机制,通道注意力机制的具体表示为:
AC(F)=BN(W1(W0AvgPool(F)+b0)+b1)
其中:F代表输入特征图,
Figure FDA0002947317160000021
BN(·)代表一个批量标准化操作,AvgPool(·)为平均池化操作,
Figure FDA0002947317160000022
C/r表示压缩通道数,r代表通道压缩比率,
Figure FDA0002947317160000023
Figure FDA0002947317160000024
像素空间注意力机制的具体表示为:
Figure FDA0002947317160000025
其中:fi j×j(·)代表一个卷积操作,i=0,1,2,3,j×j表示卷积核的大小,j=1,2,3;将AC(F)与AS(F)结合,得到像素注意力分布图为:A(F)=σ(AC(F)+AS(F)),σ(·)为sigmoid激活函数,PBA的具体表示为:
Figure FDA0002947317160000026
Fnew代表将F与A(F)结合的新的特征图,
Figure FDA0002947317160000027
表示逐元素相乘。
5.根据权利要求1或4所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:所述步骤(2)中PrimaryCaps和EventCaps之间使用动态路由算法进行迭代路由计算,选择声学事件的代表性频带,完成特征向量的封装和传递,确保对重叠声学事件的检测能力。
6.根据权利要求1或5所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:所述步骤(2)中PrimaryCaps对输入的高层抽象特征进行卷积、重塑,使用Squashing激活函数,获得T×V×U的三维特征张量生成初始胶囊,T表示重塑前的时间维度,V表示音频帧的胶囊数量,U表示胶囊的大小,通过迭代动态路由算法更新耦合系数,完成V个PrimaryCaps与代表事件特征向量的EventCaps的匹配。
7.根据权利要求1或6所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:所述步骤(2)中Squashing激活函数为:
Figure FDA0002947317160000028
其中,sj代表通过胶囊层间路由选择计算得到胶囊j的输入,vj代表胶囊j经过激活函数计算后的输出,sj和vj均为向量,
Figure FDA0002947317160000029
表示输入向量sj的缩放尺度,
Figure FDA00029473171600000210
表示输入向量sj的单位向量,胶囊层间路由选择计算为:
Figure FDA0002947317160000031
cij是由囊间动态路由算法确定的耦合系数,
Figure FDA0002947317160000032
是ui的线性组合,表示前一层第i个胶囊的输出向量ui与权值向量wij相乘得到的预测向量,具体表示为:
Figure FDA0002947317160000033
8.根据权利要求1或7所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:所述步骤(2)中通过软注意力机制生成时间帧的注意力因子att(t),att(t)=σ(p*x(t)+b),x(t)表示输入的特征,p表示权重矩阵,b表示偏置参数,σ(·)为sigmoid激活函数,结合att(t)和EventCaps输出的特征向量得到时间特征向量。
9.根据权利要求8所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:所述步骤(2)中胶囊层对每一个表征声学事件的EventCaps胶囊分别给出单独的边缘损失函数:Lk=Tkmax(0,m+-||vk||2)+λ(1-Tk)max(0,||vk||-m-)2,Lk表示k类声学事件的损失,当k类事件发生时,Tk=1,否则Tk=0,m+=0.9,m-=0.1,λ=0.5,BGRU层和时间全连接层使用二元交叉熵损失函数:
Figure FDA0002947317160000034
y∈{0,1},
Figure FDA0002947317160000035
10.根据权利要求1或9所述的基于像素注意力机制胶囊网络模型的声学事件检测方法,其特征是:在步骤(3)中将音频数据测试集的bin-MFCC声学特征进行归一化和标注操作完成预处理后,输入到PBAttCapsNet-BGRU模型中,将PBA与CNN相结合,关注声学事件发生的时间帧,提取高层抽象特征,利用胶囊层得到声学事件的时间特征向量,通过2层BGRU对时间特征向量获取前后数据帧的上下文信息,并利用时间全连接层将时间特征向量和前后数据帧的上下文信息进行整合与映射,降低模型的维度,实现模型多对多的能力,获取各时间帧所含的事件类别,最终完成声学事件检测任务。
CN202110197042.9A 2021-02-22 2021-02-22 基于像素注意力机制胶囊网络模型的声学事件检测方法 Active CN113012714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110197042.9A CN113012714B (zh) 2021-02-22 2021-02-22 基于像素注意力机制胶囊网络模型的声学事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110197042.9A CN113012714B (zh) 2021-02-22 2021-02-22 基于像素注意力机制胶囊网络模型的声学事件检测方法

Publications (2)

Publication Number Publication Date
CN113012714A true CN113012714A (zh) 2021-06-22
CN113012714B CN113012714B (zh) 2022-08-02

Family

ID=76405784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110197042.9A Active CN113012714B (zh) 2021-02-22 2021-02-22 基于像素注意力机制胶囊网络模型的声学事件检测方法

Country Status (1)

Country Link
CN (1) CN113012714B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统
CN113744758A (zh) * 2021-09-16 2021-12-03 江南大学 基于2-DenseGRUNet模型的声音事件检测方法
CN114241245A (zh) * 2021-12-23 2022-03-25 西南大学 一种基于残差胶囊神经网络的图像分类系统
CN114694685A (zh) * 2022-04-12 2022-07-01 北京小米移动软件有限公司 语音质量评估方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008030482A2 (en) * 2006-09-06 2008-03-13 Innurvation Inc System and method for acoustic information exchange involving an ingestible low power capsule
CN107532968A (zh) * 2014-10-01 2018-01-02 赛多利斯史泰迪生物技术有限责任公司 音频识别装置、音频识别方法和音频识别系统
CN107609488A (zh) * 2017-08-21 2018-01-19 哈尔滨工程大学 一种基于深度卷积网络的舰船噪声识别分类方法
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
EP3572283A1 (en) * 2018-05-22 2019-11-27 BlackBerry Limited Vehicle communication systems and methods of operating vehicle communication systems
CN110968729A (zh) * 2019-11-21 2020-04-07 浙江树人学院(浙江树人大学) 一种基于加性间距胶囊网络的家庭活动声音事件分类方法
US10887692B1 (en) * 2019-07-05 2021-01-05 Sennheiser Electronic Gmbh & Co. Kg Microphone array device, conference system including microphone array device and method of controlling a microphone array device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008030482A2 (en) * 2006-09-06 2008-03-13 Innurvation Inc System and method for acoustic information exchange involving an ingestible low power capsule
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN107532968A (zh) * 2014-10-01 2018-01-02 赛多利斯史泰迪生物技术有限责任公司 音频识别装置、音频识别方法和音频识别系统
CN107609488A (zh) * 2017-08-21 2018-01-19 哈尔滨工程大学 一种基于深度卷积网络的舰船噪声识别分类方法
EP3572283A1 (en) * 2018-05-22 2019-11-27 BlackBerry Limited Vehicle communication systems and methods of operating vehicle communication systems
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
US10887692B1 (en) * 2019-07-05 2021-01-05 Sennheiser Electronic Gmbh & Co. Kg Microphone array device, conference system including microphone array device and method of controlling a microphone array device
CN110968729A (zh) * 2019-11-21 2020-04-07 浙江树人学院(浙江树人大学) 一种基于加性间距胶囊网络的家庭活动声音事件分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FABIO VESPERINI ET AL: "Polyphonic Sound Event Detection by Using Capsule Neural Network", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *
JIAXIANGMENG ET AL: "A capsule network with pixel-based attention and BGRU for sound event detection", 《DIGITAL SIGNAL PROCESSING》 *
TURAB IQBAL ET AL: "Capsule Routing for Sound Event Detection", 《2018 26TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO)》 *
刘亚明: "基于深层神经网络的多声音事件检测方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
焦佳: "基于深度学习的水下声纳图像分类方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863550A (zh) * 2021-03-01 2021-05-28 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统
CN112863550B (zh) * 2021-03-01 2022-08-16 德鲁动力科技(成都)有限公司 基于注意力残差学习的哭声检测方法及系统
CN113744758A (zh) * 2021-09-16 2021-12-03 江南大学 基于2-DenseGRUNet模型的声音事件检测方法
CN113744758B (zh) * 2021-09-16 2023-12-01 江南大学 基于2-DenseGRUNet模型的声音事件检测方法
CN114241245A (zh) * 2021-12-23 2022-03-25 西南大学 一种基于残差胶囊神经网络的图像分类系统
CN114241245B (zh) * 2021-12-23 2024-05-31 西南大学 一种基于残差胶囊神经网络的图像分类系统
CN114694685A (zh) * 2022-04-12 2022-07-01 北京小米移动软件有限公司 语音质量评估方法、装置及存储介质

Also Published As

Publication number Publication date
CN113012714B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN113012714B (zh) 基于像素注意力机制胶囊网络模型的声学事件检测方法
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN108231201B (zh) 一种疾病数据分析处理模型的构建方法、系统及应用方法
Xu et al. Attention and localization based on a deep convolutional recurrent model for weakly supervised audio tagging
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
CN113806609B (zh) 一种基于mit和fsm的多模态情感分析方法
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN112446242A (zh) 声学场景分类方法、装置及相应设备
EP4198807A1 (en) Audio processing method and device
CN112330713A (zh) 基于唇语识别的重度听障患者言语理解度的改进方法
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN113435520A (zh) 神经网络的训练方法、装置、设备及计算机可读存储介质
CN112289338A (zh) 信号处理方法及装置、计算机设备以及可读存储介质
Phan et al. Unifying isolated and overlapping audio event detection with multi-label multi-task convolutional recurrent neural networks
CN115878832A (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
Meng et al. A capsule network with pixel-based attention and BGRU for sound event detection
Lin et al. Domestic activities clustering from audio recordings using convolutional capsule autoencoder network
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
CN114998698A (zh) 动态时域卷积网络驱动的多模态情感识别方法
CN113673323A (zh) 一种基于多深度学习模型联合判决体制的水中目标识别方法
Zeng et al. End-to-end Recording Device Identification Based on Deep Representation Learning
CN113744758B (zh) 基于2-DenseGRUNet模型的声音事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant