CN115331697A - 多尺度环境声音事件识别方法 - Google Patents
多尺度环境声音事件识别方法 Download PDFInfo
- Publication number
- CN115331697A CN115331697A CN202211256395.2A CN202211256395A CN115331697A CN 115331697 A CN115331697 A CN 115331697A CN 202211256395 A CN202211256395 A CN 202211256395A CN 115331697 A CN115331697 A CN 115331697A
- Authority
- CN
- China
- Prior art keywords
- model
- label
- prediction
- sound event
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000007613 environmental effect Effects 0.000 title claims abstract description 33
- 238000011176 pooling Methods 0.000 claims abstract description 46
- 238000010586 diagram Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 230000002457 bidirectional effect Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 11
- 235000019580 granularity Nutrition 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 claims description 3
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims 1
- 238000004513 sizing Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明属于声音识别技术领域,公开了多尺度环境声音事件识别方法,首先通过构建两个不同感受野尺度的神经网络模型相互约束,充分学习帧级别的信息和片段级别的信息,将训练好的模型作为高维特征提取模块;然后通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征的重映射,将处理过的特征图输入至GRU模块获取时序特征图;最后时序特征图经过基于注意力机制的池化模块的处理得到多尺度环境声音事件识别的预测概率矩阵。本发明在提高多尺度环境声音事件片段级预测精度的基础上,兼顾帧级别的预测精度,不但解决了当前无法有效利用无标签的多尺度环境声音事件数据的问题,而且大大提高了多尺度环境声音事件的定位精度。
Description
技术领域
本发明属于声音识别技术领域,特别涉及多尺度环境声音事件识别方法。
背景技术
家庭环境中,智能安全监控系统可以为老人和婴幼儿提供安全监控。传统监控技术主要以视频监控为主,但是,视频监控存在很多不容忽略的问题。比如,人们期望的是系统能够在房间内家人出现危险的时自动发出预警而不是人工时刻观察显示器判断家人有没有危险;视频监控也存在着一些隐私问题,并且视频文件需要较大的存储空间这就给小型家用的终端设备的存储性能提出了挑战。而基于家庭环境声音事件识别技术的声音监控则有效的避免了这些问题,所以将声音监控和视频监控有效的结合在一起,能够进一步提高智能安全监控系统的稳定性和准确性。
针对家庭环境声音事件识别领域,早期的研究人员通常采用与人耳听觉特性相关的声音特征如基于人耳听觉特征的梅尔频谱倒谱系数(Mel Frequency CepstralCoefficients),和基于声道模型的线性预测倒谱系数(Linear Predictive Cepstral)然后将获取到的声音特征输入到如高斯混合模型(Gaussian Mixed Model),隐马尔科夫模型(Hidden Markov Model),支持向量机(Support Vector Machine)和多层感知机(Multilayer Perceptron)中进行数据的拟合,以实现对家庭环境声音事件的识别。近些年来随着深度学习领域的发展,越来越多的研究学者将深度学习引入了家庭环境声音事件领域。将基于原始家庭环境声音事件波形提取出来的二维声音特征输送到神经网络中,通过神经网络中神经元自动提取高维特征向量,然后将提取的高维特征向量送到池化层处理得到识别结果。
但是在真实环境中通常在同一时间内会发生多种声音事件,这不但给神经网络的识别带来了困难,而且给研究人员的数据标注带来了挑战。
为了充分利用大量的无标签数据,研究人员通过引入半监督学习算法来解决这一问题。但是大多数基于半监督学习算法设计的模型,需要Student模型参数更新带动Teacher模型参数更新,因此无法解决家庭环境声音事件帧级别预测和片段级别预测有关感受野之间的冲突。此外,针对神经网络输出概率矩阵的平滑处理,常用固定窗口值得中值滤波器,这种方法的缺点就是无法根据不同类型的家庭环境声音事件有针对性的设置合适的窗口大小,模糊了声音的边界定位。
发明内容
针对现有技术存在的不足,本发明提供一种多尺度环境声音事件识别方法,在充分利用大量无标签多尺度环境声音事件数据的基础上,平衡帧级别预测和片段级预测之间有关感受野的冲突;同时通过多尺度的特征空间映射和自适应滤波窗口有效的拟合不同持续时间的多尺度环境声音事件数据;此外,本发明还通过双向的时间序列特征扫描和不同池化模块的相互作用进一步提升多尺度环境声音事件的识别精度。
为了解决上述技术问题,本发明采用的技术方案是:
多尺度环境声音事件识别方法,包括以下步骤:
S1、获取多尺度环境声音事件的原始波形数据;
S2、将多尺度环境声音事件的原始波形数据转换为二维音频特征图;
S3、基于改进Mean-Teacher算法进行双向定位多尺度环境声音事件识别,步骤如下:
S301、构建两个不同感受野大小的神经网络模型,作为Teacher模型和Student模型,两个不同结构的模型相互约束训练,学习步骤S2获取的二维音频特征图帧级别的信息和片段级别的信息,提取帧级别特征和片段级特征,将训练好的模型作为高维特征提取模块;
S302、构建两个具有相同网络结构的PS模型和PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据:
通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征空间的重映射,得到不同细粒度的特征信息,然后通过双向扫描定位不同细粒度特征信息的聚合结果,得到时序特征图;
将时序特征图经过基于注意机制的实例级池化方法处理得到多尺度环境声音事件识别的预测概率矩阵;
S4、预测概率矩阵经过自适应窗口滤波器的平滑处理,得到平滑预测结果,逐元素的与设定的阈值比较,得到最终的多尺度环境声音事件识别结果。
进一步的,所述Teacher模型包括多组卷积模块A、一层卷积核为1*1的卷积层、基于注意力机制的嵌入级池化模块和全连接层,其中每组卷积模块A均包括两层卷积层、一层最大池化层和一层遗忘层;
所述Student模型包括多组卷积模块B、基于注意力机制的嵌入级池化模块eATP和全连接层,其中每组卷积模块B包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩。
进一步的,S301高维特征提取模块具体训练流程如下:
其中random()为符合正态分布的随机噪声函数;
其中,为Teacher模型和Student模型弱标签预测结果和真实标签y的弱标签损失的加和;为Teacher模型和Student模型强标签预测结果和真实标签y的强标签损失的加和;为以Teacher模型弱标签预测结果为真实标签与Student模型弱标签预测结果的损失和倍以Teacher模型强标签预测结果为真实标签与Student模型强标签预测结果的损失;为倍以Student模型弱标签预测结果为真实标签与Teacher模型弱标签预测结果的损失和以Student模型强标签预测结果为真实标签与Teacher模型强标签预测结果的损失;为影响因子,y为真实标签,函数作用为获得预测结果,BCE()为二元交叉熵函数;为真实标签y的弱标签,为Student模型的弱标签预测结果,为Teacher模型的弱标签预测结果,为真实标签y的强标签,为Student模型的强标签预测结果,为Teacher模型的强标签预测结果;
通过最小化loss得到表征能力最好的Student模型,改进的Mean-Teacher算法通过损失和利用无标签的数据并使不同网络架构的Teacher模型和Student模型共同训练,相互制约,其中,和中的取值如下:
其中N为神经网络训练的总轮数,epoch为当前神经网络训练的轮次。
进一步的,所述PS模型和PT模型分别包括多组卷积模块C、双向定位模块和基于注意力机制的实例级池化模块,其中卷积模块C包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩;并且卷积模块C的网络参数由上一步骤S301训练好的Student模型参数进行初始化,所述双向定位模块包括两组GRU模块。
进一步的,步骤S302具体流程如下:
将卷积模块C输出的特征图M,和经过加噪的分别输入到PS模型和PT模型的双向定位模块中;由于PS模型和PT模型的流程相同,下面仅描述PS模型流程:对于输入的特征图M,采用卷积核大小为、、的卷积层进行不同尺度的特征空间映射,得到特征图、、; 特征图、、在通道域进行拼接得到特征图F K ,最后通过卷积核大小为1的卷积层对特征图F K 进行降维,得到特征图F;
最后将时序特征图输入到基于注意力机制的实例级池化模块,得到强标签预测概率矩阵和弱标签的预测概率矩阵,其中,为第一帧在类别1下的预测概率,为第t帧在类别1下的预测概率,为第一帧在类别n下的预测概率,第t帧在类别n下的预测概率;为类别1的总体预测概率,为类别2的总体预测概率,为类别n的总体预测概率。
其中为PS模型弱标签预测结果和真实弱标签的损失与PS模型强标签预测结果和真实强标签损失的加和,为PS模型强标签预测结果和PT模型强标签预测结果的损失和PS模型弱标签预测结果和PT模型弱标签预测结果损失的加和,MSE()为均方差损失函数,BCE()为二元交叉熵函数,为PS模型的弱标签预测结果,为PS模型的强标签预测结果,为PT模型的弱标签预测结果,为PT模型的强标签预测结果。
进一步的,所述基于注意力机制的嵌入级池化模块和基于注意力机制的实例级池化模块在处理数据时,分别如下:
所述基于注意力机制的实例级池化模块,对输入的高维特征,其中为不同帧的高维特征向量,先通过全连接层的映射得出强标签的预测概率矩阵 ,其中为第一帧在类别1下的预测概率,为第t帧在类别1下的预测概率,为第一帧在类别n下的预测概率,第t帧在类别n下的预测概率;然后强标签的预测概率矩阵进行特征空间的映射得到不同位置的注意力权重值,其中为第一帧在类别1下的注意力权重,为第t帧在类别1下的注意力权重,为第一帧在类别n下的注意力权重,第t帧在类别n下的注意力权重;最后强标签的预测概率矩阵与对应位置的注意力权重值点乘得到最终的网络输出结果。
进一步的,步骤S4中,根据不同类别的多尺度环境声音事件的平均持续时间,自适应的设置中值滤波器窗口的大小Window:
与现有技术相比,本发明优点在于:
(1)本发明提出一种基于改进Mean-Teacher算法的双向定位多尺度环境声音事件识别方法,尤其适用于家庭环境声音事件识别方法,为了进一步的提高家庭环境声音事件的识别能力,引入了神经网络模型,通过神经元学习拟合家庭环境声音数据。通过数据增强和改进的Mean-Teacher解决了大量无标签数据无法有效利用的问题。
(2)针对家庭环境声音事件帧级别预测和片段级别预测感受野之间的冲突,通过设计合理的损失函数,使得两个不同细粒度的神经网络模型能够相互学习,
相互约束,提高最终的环境声音识别精度。
(3)由于不同声音事件在一段事件内的持续事件不同,叠加状态不同难以得到剥离和识别。通过设计双向定位模块,先采用不同的细粒度提取特征信息,然后将不同细粒度信息聚合起来,极大的丰富了特征图。双向的扫描定位和自适应滤波窗口的引入,更加精准的标记出了声音事件的边界,提高识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为实施例中的一段时间内家庭环境声音的示意图;
图2为实施例中的家庭环境声音事件的数据分布;
图3为实施例中的高维特征提取模块示意图;
图4 为实施例中的PS模型示意图;
图5 为本发明的基于注意力机制的实例级池化模块;
图6 为本发明的基于注意力机制的嵌入级池化模块;
图7 为本发明的总体流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本发明提供一种多尺度环境声音事件识别方法,适用于多种场景下的多尺度声音事件,尤其适用于家庭环境声音事件识别。本实施例以家庭环境声音事件识别为例说明,结合图7,本发明包括以下步骤:
S1、获取多尺度(家庭)环境声音事件的原始波形数据。
S2、将多尺度(家庭)环境声音事件的原始波形数据转换为二维音频特征图。
S3、基于改进Mean-Teacher算法进行双向定位多尺度环境声音事件识别,步骤如下:
S301、构建两个不同感受野大小的神经网络模型,作为Teacher模型和Student模型,两个不同结构的模型相互约束训练,学习步骤S2获取的二维音频特征图帧级别的信息和片段级别的信息,提取帧级别特征和片段级特征,将训练好的模型作为高维特征提取模块,其中Teacher模型和Student模型的输入为弱标签数据、无标签数据、强标签数据;
S302、构建两个具有相同网络结构的PS模型和PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据,其中PS模型和PT模型的输入为弱标签数据、无标签数据、强标签数据:
通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征空间的重映射,得到不同细粒度的特征信息,然后将不同细粒度特征信息聚合,通过双向扫描定位不同细粒度特征信息的聚合结果,得到时序特征图;
将时序特征图经过基于注意机制的实例级池化方法处理得到多尺度环境声音事件识别的预测概率矩阵;
S4、预测概率矩阵经过自适应窗口滤波器的平滑处理,得到平滑预测结果,逐元素的与设定的阈值比较,得到最终的多尺度环境声音事件识别结果(可获得帧级别预测和片段级别预测)。
首先需要说明的是,家庭声音事件数据难以标注和需要有效利用的必要性。从图1可以看出,在一段声音的持续时间内,可能同时发生多种家庭声音事件,如讲话、盘子破碎、吸尘器等声音事件可能同时发生。不同的家庭声音事件相互重叠,给研究人员的数据标签标注和声音事件的头尾划分带来了挑战。从图2可以看出,其中,弱标签和无标签的数据占据了大约90%的总数据量。如果不能有效的利用弱标签数据和无标签数据进行训练,无疑会丢失大量的样本信息,从而影响神经网络模型的识别精度。即使通过数据增强等方法扩充强标签数据的数据量,也会带来过拟合和引入噪声的问题。其中弱标签数据是指仅有声音事件类型标注的数据,强标签数据是指既有声音事件类型的标注而且有起止时间标注的数据,无标签数据是指没有进行标注的数据。
为解决这一问题,本发明设计了步骤S3改进的Mean-Teacher算法。由于半监督领域常用的Mean-Teacher算法,是通过构建两个相同结构相同的网络模型,然后将Student模型的参数加权平均传递给Teacher模型,通过损失函数优化,进行联合训练。而家庭环境声音的识别需要神经网络同时输出帧级别的预测和片段级别预测。帧级别预测需要较小的感受野,而片段级别预测需要较大的感受野,这种感受野的冲突,导致不能通过构建单一的网络模型架构解决家庭环境声音的识别问题。本发明设计了一种新的适用于家庭环境等多尺度环境声音事件识别的模型架构,基于对输入数据进行轻微扰动不影响神经网络输出这一前提,将提取出来的二维音频特征图和加入白噪声的二维音频特征图分别输入到Student模型和Teacher模型来利用无标签的数据。本发明使得两个不同感受野尺度的神经网络模型既能够联合训练又能利用大量的无标签数据,进而有效提取帧级别特征和片段级特征,解决帧级别预测和片段级别预测有关神经网络感受野设计之间的冲突。
下面结合附图介绍本发明的模型架构。
结合图3、图7所示,Teacher模型包括多组卷积模块A(卷积模块A设置为5组时效果较好)、一层卷积核为1*1的卷积层、基于注意力机制的嵌入级池化模块(eATP)和全连接层,其中每组卷积模块A均包括两层卷积层、一层最大池化层和一层遗忘层。这种较深的网络结构设计使得Teacher模型拥有较大的感受野,使得Teacher模型拥有对片段级别预测更好的性能。
Student模型包括多组卷积模块B(卷积模块B设置为4组时效果较好)、基于注意力机制的嵌入级池化模块(eATP)和全连接层,其中每组卷积模块B包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩,保留了丰富的时序信息。Student模型相较于Teacher模型拥有较浅的网络结构,这种网络结构设计使得Student模型拥有更好的细节感知能力,使得Student模型拥有对帧级别更好的预测效果。本发明通过改进Mean-Teacher算法的损失函数使网络不但能够利用无标签的数据,而且使Student模型同样具有良好的片段级预测能力。
作为一个优选的实施方式,步骤S301高维特征提取模块具体训练流程如下:
其中random()为符合正态分布的随机噪声函数;
其中,为Teacher模型和Student模型弱标签预测结果和真实标签y的弱标签损失的加和;为Teacher模型和Student模型强标签预测结果和真实标签y的强标签损失的加和;为以Teacher模型弱标签预测结果为真实标签与Student模型弱标签预测结果的损失和倍以Teacher模型强标签预测结果为真实标签与Student模型强标签预测结果的损失;为倍以Student模型弱标签预测结果为真实标签与Teacher模型弱标签预测结果的损失和以Student模型强标签预测结果为真实标签与Teacher模型强标签预测结果的损失;为影响因子,y为真实标签,函数作用为获得预测结果,BCE()为二元交叉熵函数;为真实标签y的弱标签,为Student模型的弱标签预测结果,为Teacher模型的弱标签预测结果,为真实标签y的强标签,为Student模型的强标签预测结果,为Teacher模型的强标签预测结果;
通过最小化loss得到表征能力最好的Student模型,改进的Mean-Teacher算法通过损失和利用无标签的数据并使不同网络架构的Teacher模型和Student模型共同训练,相互制约,其中,和中的取值如下:
其中N为神经网络训练的总轮数,epoch为当前神经网络训练的轮次,由于Student模型对片段级预测的能力不如Teacher模型,而Teacher模型的帧级别预测能力不如Student模型。所以在经过10个epoch以后,才通过Student模型对Teacher模型的弱标签预测进行约束和通过Teacher模型对Student模型的强标签预测进行约束,平滑了训练过程,最终得到拥有片段级预测能力和帧级预测能力的Student模型,并将其用于下一阶段(步骤S302)的训练。
作为一个优选的实施方式,步骤S302设计了PS模型、PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据。不同于上一阶段的训练,PS模型和PT模型具有相同的网络结构。PS模型和PT模型分别包括多组卷积模块C(卷积模块C设置为4组时效果较好)、双向定位模块和基于注意力机制的实例级池化模块(iATP),其中卷积模块C包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩;并且卷积模块C的网络参数由上一步骤S301训练好的Student模型参数进行初始化。双向定位模块包括两组GRU模块,不同细粒度特征信息聚合后的结果分别以正序和反序输入到PS模型和PT模型的GRU模块获取时序特征图。
步骤S302具体流程如下:
由于,不同家庭环境声音事件的时间跨度不同,将卷积模块C输出的特征图M,和经过加噪的分别输入到PS模型和PT模型的双向定位模块中;由于PS模型和PT模型的流程相同,结合图4、图7所示,下面仅描述PS模型流程:
对于输入的特征图M,采用卷积核大小为、、的卷积层进行不同尺度的特征空间映射,得到特征图、、; 特征图、、在通道域进行拼接得到特征图F K ,最后通过卷积核大小为1的卷积层对特征图F K 进行降维,得到特征图F。
最后将时序特征图输入到基于注意力机制的实例级池化模块(iATP),得到强标签预测概率矩阵和弱标签的预测概率矩阵,其中,为第一帧在类别1下的预测概率,为第t帧在类别1下的预测概率,为第一帧在类别n下的预测概率,第t帧在类别n下的预测概率;为类别1的总体预测概率,为类别2的总体预测概率,为类别n的总体预测概率。
其中为PS模型弱标签预测结果和真实弱标签的损失与PS模型强标签预测结果和真实强标签损失的加和,为PS模型强标签预测结果和PT模型强标签预测结果的损失和PS模型弱标签预测结果和PT模型弱标签预测结果损失的加和,MSE()为均方差损失函数,BCE()为二元交叉熵函数,为PS模型的弱标签预测结果,为PS模型的强标签预测结果,为PT模型的弱标签预测结果,为PT模型的强标签预测结果。通过最小化得到性能最好的PS模型。
作为一个优选的实施方式,步骤S301和步骤S302这两个阶段最终决策层分别采用基于注意力机制的嵌入级池化模块和基于注意力机制的实例级池化模块。结合图6所示,基于注意力机制的嵌入级级池化模块,对输入的高维特征进行特征空间的映射得到不同帧在不同类别下的注意力权重值,其中T为帧长,c为类别;然后基于高维特征和权重值得到上下文特征:
结合图5所示,基于注意力机制的实例级池化模块,对输入的高维特征,其中为不同帧的高维特征向量,先通过全连接层的映射得出强标签的预测概率矩阵 ,(其中为第一帧在类别1下的预测概率,为第t帧在类别1下的预测概率,为第一帧在类别n下的预测概率,第t帧在类别n下的预测概率);然后强标签的预测概率矩阵进行特征空间的映射得到不同位置的注意力权重值,(其中为第一帧在类别1下的注意力权重,为第t帧在类别1下的注意力权重,为第一帧在类别n下的注意力权重,第t帧在类别n下的注意力权重);最后强标签的预测概率矩阵与对应位置的注意力权重值点乘得到最终的网络输出结果。
基于注意力机制的嵌入级池化模块更加依赖输入的高维特征,所以本发明将基于注意力机制的嵌入级池化模块应用于第一阶段(步骤S301)的训练,以求得到更好的特征提取前端。而基于注意力机制的实例级池化模块更加依赖强标签的预测精度,经过双向定位模块的处理,得到了较好的强标签预测,所以将基于注意力机制的实例级池化模块应用于第二阶段(步骤S302)。本发明在不同阶段根据其特性应用不同的池化模块进一步提高了家庭环境声音事件识别的精度。
最后PS模型输出的预测概率矩阵经过自适应窗口滤波器的平滑处理。
作为一个优选的实施方式,步骤S4中,根据不同类别的多尺度环境声音事件的平均持续时间,自适应的设置中值滤波器窗口的大小Window:
综上所述,本发明实现了多尺度环境声音事件的高精度识别,尤其适用于家庭环境声音事件的识别,基于改进Mean-Teacher算法进行双向定位家庭环境声音事件,本发明具有以下优点:
1) 针对家庭环境声音识别精度低,难以与视频监控有效的结合在一起。本发明提出一种基于改进Mean-Teacher算法的双向定位家庭环境声音事件识别方法,有效的提高了神经网络对家庭环境声音的识别能力。
2) 通过改进的Mean-Teacher算法,有效的利用了大量因标注困难而没有标签的数据,大大扩充了特征信息,提高了家庭环境声音的识别精度。
3) 通过改进的Mean-Teacher算法构建Teacher模型和Student模型联合训练,不但有效利用了无标签的数据而且解决了帧级预测和片段级预测之间有关感受野的冲突。
4)通过引入自适应的滤波窗口、多尺度特征空间映射和双向时间序列特征扫描解决了因不同类型的家庭环境声音事件持续时间不同而导致的家庭环境声音事件边界定位模糊的问题。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (8)
1.多尺度环境声音事件识别方法,其特征在于,包括以下步骤:
S1、获取多尺度环境声音事件的原始波形数据;
S2、将多尺度环境声音事件的原始波形数据转换为二维音频特征图;
S3、基于改进Mean-Teacher算法进行双向定位多尺度环境声音事件识别,步骤如下:
S301、构建两个不同感受野大小的神经网络模型,作为Teacher模型和Student模型,两个不同结构的模型相互约束训练,学习步骤S2获取的二维音频特征图帧级别的信息和片段级别的信息,提取帧级别特征和片段级特征,将训练好的模型作为高维特征提取模块;
S302、构建两个具有相同网络结构的PS模型和PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据:
通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征空间的重映射,得到不同细粒度的特征信息,然后通过双向扫描定位不同细粒度特征信息的聚合结果,得到时序特征图;
将时序特征图经过基于注意机制的实例级池化方法处理得到多尺度环境声音事件识别的预测概率矩阵;
S4、预测概率矩阵经过自适应窗口滤波器的平滑处理,得到平滑预测结果,逐元素的与设定的阈值比较,得到最终的多尺度环境声音事件识别结果。
2.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,所述Teacher模型包括多组卷积模块A、一层卷积核为1*1的卷积层、基于注意力机制的嵌入级池化模块和全连接层,其中每组卷积模块A均包括两层卷积层、一层最大池化层和一层遗忘层;
所述Student模型包括多组卷积模块B、基于注意力机制的嵌入级池化模块和全连接层,其中每组卷积模块B包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩。
3.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,步骤S301高维特征提取模块具体训练流程如下:
其中random()为符合正态分布的随机噪声函数;
其中,为Teacher模型和Student模型弱标签预测结果和真实标签y的弱标签损失的加和;为Teacher模型和Student模型强标签预测结果和真实标签y的强标签损失的加和;为以Teacher模型弱标签预测结果为真实标签与Student模型弱标签预测结果的损失和倍以Teacher模型强标签预测结果为真实标签与Student模型强标签预测结果的损失;为倍以Student模型弱标签预测结果为真实标签与Teacher模型弱标签预测结果的损失和以Student模型强标签预测结果为真实标签与Teacher模型强标签预测结果的损失;为影响因子,y为真实标签,函数作用为获得预测结果,BCE()为二元交叉熵函数;为真实标签y的弱标签,为Student模型的弱标签预测结果,为Teacher模型的弱标签预测结果,为真实标签y的强标签,为Student模型的强标签预测结果,为Teacher模型的强标签预测结果;
通过最小化loss得到表征能力最好的Student模型,改进的Mean-Teacher算法通过损失和利用无标签的数据并使不同网络架构的Teacher模型和Student模型共同训练,相互制约,其中,和中的取值如下:
其中N为神经网络训练的总轮数,epoch为当前神经网络训练的轮次。
4.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,所述PS模型和PT模型分别包括多组卷积模块C、双向定位模块和基于注意力机制的实例级池化模块,其中卷积模块C包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩;并且卷积模块C的网络参数由上一步骤S301训练好的Student模型参数进行初始化;所述双向定位模块包括两组GRU模块,不同细粒度特征信息聚合后的结果分别以正序和反序输入到PS模型和PT模型的GRU模块获取时序特征图。
5.根据权利要求4所述的多尺度环境声音事件识别方法,其特征在于,步骤S302具体流程如下:
将卷积模块C输出的特征图M,和经过加噪的分别输入到PS模型和PT模型的双向定位模块中;由于PS模型和PT模型的流程相同,下面仅描述PS模型流程:对于输入的特征图M,采用卷积核大小为、、的卷积层进行不同尺度的特征空间映射,得到特征图、、; 特征图、、在通道域进行拼接得到特征图F K ,最后通过卷积核大小为1的卷积层对特征图F K 进行降维,得到特征图F;
7.根据权利要求4所述的多尺度环境声音事件识别方法,其特征在于,所述基于注意力机制的嵌入级池化模块和基于注意力机制的实例级池化模块在处理数据时,分别如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256395.2A CN115331697B (zh) | 2022-10-14 | 2022-10-14 | 多尺度环境声音事件识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256395.2A CN115331697B (zh) | 2022-10-14 | 2022-10-14 | 多尺度环境声音事件识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115331697A true CN115331697A (zh) | 2022-11-11 |
CN115331697B CN115331697B (zh) | 2023-01-24 |
Family
ID=83914805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211256395.2A Active CN115331697B (zh) | 2022-10-14 | 2022-10-14 | 多尺度环境声音事件识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331697B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015148740A (ja) * | 2014-02-07 | 2015-08-20 | 日本電信電話株式会社 | モデル処理装置、モデル処理方法、およびプログラム |
CN110827804A (zh) * | 2019-11-14 | 2020-02-21 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
US20200265273A1 (en) * | 2019-02-15 | 2020-08-20 | Surgical Safety Technologies Inc. | System and method for adverse event detection or severity estimation from surgical data |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN113299314A (zh) * | 2021-07-27 | 2021-08-24 | 北京世纪好未来教育科技有限公司 | 一种音频事件识别模型的训练方法、装置及其设备 |
CN113707175A (zh) * | 2021-08-24 | 2021-11-26 | 上海师范大学 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
CN113724734A (zh) * | 2021-08-31 | 2021-11-30 | 上海师范大学 | 声音事件的检测方法、装置、存储介质及电子装置 |
CN113724740A (zh) * | 2021-08-30 | 2021-11-30 | 中国科学院声学研究所 | 音频事件检测模型训练方法及装置 |
CN114023354A (zh) * | 2021-08-24 | 2022-02-08 | 上海师范大学 | 基于聚焦损失函数的指导型声学事件检测模型训练方法 |
US20220159403A1 (en) * | 2019-08-06 | 2022-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | System and method for assisting selective hearing |
-
2022
- 2022-10-14 CN CN202211256395.2A patent/CN115331697B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015148740A (ja) * | 2014-02-07 | 2015-08-20 | 日本電信電話株式会社 | モデル処理装置、モデル処理方法、およびプログラム |
US20200265273A1 (en) * | 2019-02-15 | 2020-08-20 | Surgical Safety Technologies Inc. | System and method for adverse event detection or severity estimation from surgical data |
US20220159403A1 (en) * | 2019-08-06 | 2022-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | System and method for assisting selective hearing |
CN110827804A (zh) * | 2019-11-14 | 2020-02-21 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN113299314A (zh) * | 2021-07-27 | 2021-08-24 | 北京世纪好未来教育科技有限公司 | 一种音频事件识别模型的训练方法、装置及其设备 |
CN113707175A (zh) * | 2021-08-24 | 2021-11-26 | 上海师范大学 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
CN114023354A (zh) * | 2021-08-24 | 2022-02-08 | 上海师范大学 | 基于聚焦损失函数的指导型声学事件检测模型训练方法 |
CN113724740A (zh) * | 2021-08-30 | 2021-11-30 | 中国科学院声学研究所 | 音频事件检测模型训练方法及装置 |
CN113724734A (zh) * | 2021-08-31 | 2021-11-30 | 上海师范大学 | 声音事件的检测方法、装置、存储介质及电子装置 |
Non-Patent Citations (3)
Title |
---|
DONGCHI YU ET AL: "SEMI SUPERVISED SOUND EVENT DETECTION USING MULTI SCALE CONVOLUTIONAL RECURRENT NEURAL NETWORK AND WEIGHTED POOLING", 《DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2021》 * |
王金甲等: "基于平均教师模型的弱标记半监督声音事件检测", 《复旦学报(自然科学版)》 * |
王金甲等: "基于注意力门控卷积循环神经网络的通用音频标记", 《复旦学报(自然科学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115331697B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN112232416B (zh) | 一种基于伪标签加权的半监督学习方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN107679526B (zh) | 一种人脸微表情识别方法 | |
CN112560432B (zh) | 基于图注意力网络的文本情感分析方法 | |
CN110555881A (zh) | 一种基于卷积神经网络的视觉slam测试方法 | |
CN104573669A (zh) | 图像物体检测方法 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN109753897B (zh) | 基于记忆单元强化-时序动态学习的行为识别方法 | |
CN111860193B (zh) | 一种基于文本的行人检索自监督视觉表示学习系统及方法 | |
CN111259785B (zh) | 基于时间偏移残差网络的唇语识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN111598113A (zh) | 模型优化方法、数据识别方法和数据识别装置 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
CN110633689B (zh) | 基于半监督注意力网络的人脸识别模型 | |
CN113707175A (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
CN110472655A (zh) | 一种用于跨境旅游的标志物机器学习识别系统及方法 | |
CN115331697B (zh) | 多尺度环境声音事件识别方法 | |
CN116543250A (zh) | 一种基于类注意力传输的模型压缩方法 | |
CN115830701A (zh) | 一种基于小样本学习的人员违规行为预测方法 | |
CN114139655A (zh) | 一种蒸馏式竞争学习的目标分类系统和方法 | |
CN114998731A (zh) | 智能终端导航场景感知识别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |