CN114974303B - 自适应层次聚合的弱监督声音事件检测方法及系统 - Google Patents
自适应层次聚合的弱监督声音事件检测方法及系统 Download PDFInfo
- Publication number
- CN114974303B CN114974303B CN202210528373.0A CN202210528373A CN114974303B CN 114974303 B CN114974303 B CN 114974303B CN 202210528373 A CN202210528373 A CN 202210528373A CN 114974303 B CN114974303 B CN 114974303B
- Authority
- CN
- China
- Prior art keywords
- aggregation
- level prediction
- optimal
- acoustic model
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 113
- 238000004220 aggregation Methods 0.000 title claims abstract description 113
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000003044 adaptive effect Effects 0.000 claims description 26
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 11
- 125000004122 cyclic group Chemical group 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000004913 activation Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000004807 localization Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229940060587 alpha e Drugs 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种自适应层次聚合的弱监督声音事件检测方法及系统,该系统包括声学模型和自适应层次聚合算法模块,声学模型输入预处理和特征提取的音频信号,声学模型预测得到帧级别预测概率,自适应层次聚合算法模块将帧级别预测概率聚合得到句级别预测概率;联合优化声学模型和松弛化参数,得到最优模型权重和最优松弛化参数,根据最优松弛化参数为每类声音事件制定最优聚合策略;输入预处理和特征提取的未知音频信号,得到所有目标声音事件的帧级别预测概率,并根据每类目标声音事件的最优聚合策略,得到所有目标声音事件类别的句级别预测概率。本发明适用于复杂的声学场景,同时适用于弱监督声音事件检测中的音频分类和定位,具有良好的通用性。
Description
技术领域
本发明涉及人工智能技术中的声音事件检测技术领域,具体涉及一种自适应层次聚合的弱监督声音事件检测方法及系统。
背景技术
弱监督声音事件检测中,最重要的任务之一是设计聚合函数。聚合函数的作用是从模型预测的帧级别概率序列中推断句级别概率,即从预测的“定位信息”推断事件的“类别信息”,从而有效建模弱标注的音频样本。当前主流的聚合函数大致可以分为两类:最大值聚合和加权平均聚合。最大值聚合捕捉信号中最显著的信息,从而为音频分类带来出色的性能。然而,由于最大值聚合检测事件的定位边界总是不完整的,造成较差的定位性能,体现在较多的漏检测;为了解决最大值聚合在音频定位任务上的缺陷,各种类型的加权平均聚合算法发展了起来。加权平均聚合对所有帧级别的概率进行加权平均,以获得句级别的预测,这种考虑所有帧级别概率而不是仅关注显著信息的聚合方式能够召回更多的正样本帧(即事件激活帧),在音频定位子任务中能够取得较好的性能。但与此同时,加权平均聚合也将事件无关的信息考虑进来,给音频分类带了干扰信息,造成次优的音频分类性能。实际上,没有任何单一的聚合方法可以为所有类型的事件提供最优策略。例如,加权平均聚合更适合于持续时间较长的连续事件(如音乐),而对于一些较短的事件(如狗叫),应该考虑使用最大值聚合来关注最显著的音频帧。显然,聚合策略的设计应该自适应声音事件的自然特性。
近年来,研究自适应聚合的方法逐渐被提出,如McFee等人提出的自动聚合及Zhang等人提出的阶乘聚合都采用自适应的加权Softmax聚合方法,即在Softmax聚合中将可学习参数乘以帧级别概率,其中不同类别的事件权重不同。然而,这两类自适应方法本质上利用不同的权重调和最大值聚合和加权平均聚合,无法同时有效兼顾音频分类和音频定位任务,且无法高效地为每类事件自适应学习定制的聚合策略,从而导致弱监督声音事件检测性能欠佳。
发明内容
针对现有技术中存在不足,本发明提供了一种自适应层次聚合的弱监督声音事件检测方法及系统,利用分层结构和连续松弛法自动为每类事件学习最优聚合策略,既能够捕捉多片段的显著信息又能保留完善的定位边界,实现同时提高弱监督声音事件检测中音频分类和音频定位的性能。
本发明是通过以下技术手段实现上述技术目的的。
自适应层次聚合的弱监督声音事件检测方法,具体为:
提取预处理音频信号的声学特征,并输入声学模型,将声学模型预测的帧级别预测概率序列分成若干个连续的子包,利用最大值聚合计算每个子包的显著信息,得到子包级预测集合,利用均值聚合取子包级预测集合的平均概率作为句级别预测概率;
联合优化声学模型和松弛化参数,直至收敛,得到最优模型权重和最优松弛化参数,根据最优松弛化参数为每类声音事件制定最优聚合策略;
给定未知的音频信号,进行预处理和特征提取,送入训练后的声学模型,得到所有目标声音事件的帧级别预测概率,实现音频定位任务,并根据每类目标声音事件的最优聚合策略,得到所有目标声音事件类别的句级别预测概率,实现音频分类任务。
进一步,所述制定最优聚合策略具体为:利用计算最优松弛化参数下选择不同R的概率λ*,对于第k类声音事件,中最大选择概率对应的R即为当前类别最优子包数量其中:λ为概率集合,R为子包数量,αk为第k维松弛化参数,softmax()为运算符。
更进一步,所述当子包数量为R时,第k类声音事件的句级别预测概率表示为:
更进一步,所述联合优化声学模型和松弛化参数采用反向传播进行的:
其中:L所有声音事件类别的平均预测误差,W、α分别为模型参数和松弛化参数,X、Y分别为模型输入的梅尔频谱特征和句级别标签,Yk为第k类声音事件的句级别标签,BCELoss表示二进制交叉熵函数,K为声音事件的类别总数。
进一步,所述声学模型为任意主流的深度学习模型,声学模型的基准模型为卷积循环神经网络模型。
进一步,提取的特征为梅尔频谱特征。
更进一步,所述声学模型训练和验证采用DCASE2017数据集。
更进一步,所述音频信号下采样至16kHz,帧长和帧移分别设置为1024、664,分帧后每条信号得到240帧样本,梅尔频谱特征为64维。
一种自适应层次聚合的弱监督声音事件检测系统,包括依次相连的声学模型和自适应层次聚合算法模块,所述声学模型输入预处理和特征提取的音频信号,所述声学模型预测得到帧级别预测概率,所述自适应层次聚合算法模块将帧级别预测概率聚合得到句级别预测概率。
本发明的有益效果为:
(1)本发明自适应层次聚合算法首先获取多个音频片段中的显著信息,打破了最大值聚合方法只能够捕捉信号中最显著的片段的局限,扩大的定位时的感知区域;其次,仅对多片段的显著信息加权平均得到最终预测,解决了加权平均聚合考虑所有帧信号而带来噪声问题;因此,自适应层次聚合算法具备捕捉多片段显著信息的同时保证完整的定位边界的能力,使其同时适用于弱监督声音事件检测的两个子任务-音频分类和音频定位。
(2)本发明自适应层次聚合利用连续松弛法联合学习模型最优权重及每类声音事件最优聚合策略;较短的声音事件(如“枪声”)通常仅持续一个短时片段,这种情况下最大值聚合往往优于加权平均聚合,此时自适应层次聚合能够自动学习较小的子包数量,即大部分信号帧属于同一个子包,增加最大值聚合的作用比例;而相对于持续时间较长或周期性声音时间(如“音乐”或“警报声”),此时噪声片段较少、事件信息分布于整个长序列,这种情况下加权平均聚合往往优于最大值聚合,此时自适应层次聚合能够自动分配较多的子包数量,即一个子包包含较少的帧信息,增加加权平均聚合的作用比例;自适应聚合实现了根据声音事件的自然属性来定制的最优聚合策略,从而适用于更加复杂的声学场景。
(3)本发明的自适应层次聚合算法设计轻便,仅依赖一组可学习的参数实现,易于高效地嵌入任何声学模型完成弱监督声音事件检测任务。
附图说明
图1为本发明所述基于自适应层次聚合的弱监督声音事件检测系统框架图;
图2为本发明所述自适应层次聚合算法流程图;
图3(a)为本发明所述弱监督声音事件检测可视化结果的对比图一;
图3(b)为本发明所述弱监督声音事件检测可视化结果的对比图二;
图中:1、原始音频信号,2、信号预处理,3、梅尔频谱特征,4、卷积循环神经网络,5、自适应层次聚合算法模块,6、长短期记忆网络,7、卷积层,8、标准化层,9、ReLU激活层。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明基于自适应层次聚合的弱监督声音事件检测系统包括依次相连的声学模型和自适应层次聚合算法模块5,按照音频信号数据流传递过程,依次为信号预处理→声学特征提取→声学模型→层次聚合。信号预处理2的过程是将高维、复杂的原始音频信号1处理成较低维度、便于后续处理的短时、连续的信号帧序列。声学特征提取过程为每帧样本提取符合人耳特性的梅尔频谱特征3,初步过滤冗余信息,提升声学模型建模效率。声学模型可以为任意主流的深度学习模型,声学模型的基准模型为卷积循环神经网络模型,本实施例中选用卷积循环神经网络(CRNN)4,卷积循环神经网络4由6个卷积块和3层长短期记忆网络(LSTM)组成,每个卷积块包含卷积层7、标准化层8、ReLU激活层9。将提取好的梅尔频谱特征3序列送入卷积循环神经网络4中,即可得到帧级别预测概率序列,即声音事件的定位信息,之后通过自适应层次聚合算法模块5计算句级别预测概率,即声音事件的分类信息。
图2自下而上表示帧级别预测概率逐渐聚合得到句级别预测概率的过程,自上而下表示反向传播时梯度传播路径,其中灰度表示梯度的大小。
信号预处理2首先将原始信号按照特定采样率重采样,采样后首先进行预加重处理,弥补高频分量的能量,之后按照指定帧长进行分帧,得到若干连续的较短的帧样本,最后对每帧样本加窗处理,平滑帧信号,防止能量泄露,得到短时连续的信号帧序列,完成信号预处理过程。具体过程如下:从DCASE2017挑战赛提出的大规模弱标注声音事件数据集中选取信号s,原始信号s的采样率为22.5kHz,下采样至16kHz降低复杂度,在卷积循环神经网络4接收之前,信号s需要进行预处理,增加高频分辨率。DCASE17数据集中数据时长均为10秒,即上述信号s共有160000个采样点,此时需要进行分帧处理以降低计算复杂度。在本发明中,帧长设置为1024个采样点(64毫秒)、帧移为664个采样点(41.5毫秒),即每帧前后保留22.5毫秒的重叠部分以保证帧信号的平滑性。分帧后每条10秒的信号包含240帧样本:s′={s′1,s′2,…,s′240}。最后,对每帧样本加窗处理,完成信号的预处理过程。随后,利用短时傅里叶变换将每帧时域信号转换到频率上,利用64个梅尔滤波器对每帧信号进行过滤,得到64维梅尔频谱特征3,即,对于每条信号,卷积循环神经网络4的输入特征维度为240*64。
用Fw表示卷积循环神经网络4,给定输入特征X,即可得到帧级别预测概率:按照图2所示流程,还需利用自适应层次聚合算法φhi将聚合成句级别预测概率从而构造预测误差(公式(6))、训练模型。而卷积循环神经网络4测试阶段则根据已经确定的最优模型权重和最优聚合策略进行前向计算,即可完成未知数据的声音事件检测。具体过程如下:
1)首先,由于每条信号长度为240帧,因此,自适应层次聚合中可选的子包数量R为240的所有因数集合N+,即N+={1,2,3,…,120,240};利用连续松弛法将可选的子包数量的离散搜索空间转换成可优化的连续搜索空间,能够与卷积循环神经网络4联合优化,实现自动为每类声音事件选择最优子包数量,即自适应地定制特定事件的最优聚合策略;
2)为每类声音事件设置一组低维的、可学习的松弛化参数对应离散搜索空间中所有元素,利用Softmax激活求得搜索空间中所有备选项选择的概率,根据此概率遍历该离散空间,得到每类声音事件的激活期望,实现将离散的搜索空间连续松弛化;具体地:
假设DCASE2017数据集中共有K种声音事件,搜索空间大小为N(即N+中元素个数),利用一组可学习的参数α∈RK×N将该离散搜索空间松弛化,得到选择不同R的概率集合λ:
其中,αk为第k维松弛化参数,softmax()为运算符;
3)以第k类声音事件为例,选择N+中某一个元素作为当前确定的子包数量R,将帧级别预测概率分割至连续的R个子包中,得到子包集合B={b1,b2,…,bR},如图2所示,每条黑色虚线所包含的帧样本属于同一个子包;利用最大值聚合φmax计算每个子包中最大概率值,即最显著的信息,得到子包级预测集合
其中,br为子包集合B中的第r个元素;
最终,当子包数量为R时,第k类声音事件的激活概率(即句级别预测概率)可以表示为:
其中,子包数量R决定聚合策略,当子包数量越多时,最大值聚合作用比例越小,均值聚合比例越大,即更多地关注全局信息;当子包数量较少时,最大值聚合作用比例较大,均值聚合比例较少,即更多地关注局部显著信息;自适应层次聚合为每类声音事件自动学习子包数量,实现特定事件定制化的聚合策略;
5)重复过程3)和4),遍历N+中所有可选的子包数量,即R←N+,得到所有情况下第k类声音事件的句级别预测概率,结合公式(1)所得概率,得到第k类声音事件期望的激活概率:
6)利用二进制交叉熵函数(BCELoss)计算所有类别的预测误差L,并完成反向传播,联合优化模型参数和松弛化参数(即训练阶段,训练的模型为现有技术)直至收敛:
其中,W、α分别为模型参数和松弛化参数,X、Y分别为模型输入的梅尔频谱特征和句级别标签,Yk为第k类声音事件的句级别标签;
7)以上基于连续松弛法联合优化过程完成后,即可得到最优模型权重W*以及最优松弛化参数α*,利用公式(1)即可计算最优松弛化参数下选择不同R的概率λ*;此时,对于第k类声音事件,中最大选择概率对应的R即为当前类别最优子包数量至此,自适应层次聚合算法完成了为每类声音事件定制一个最优聚合策略利用连续松弛法联合优化,仅需引入一组低维松弛化参数,即可高效完成联合优化;相比于模型参数,松弛化参数数量微乎其微,且优化只需关注声音事件的自然属性,如时长、周期等全局特性,而无需关注高维的信号内容,因此易于收敛,从而引导模型参数在最优聚合策略下快速收敛直全局最优。人工选择子包数量并重复训练卷积循环神经网络也能够找到最优聚合策略,但其计算复杂度高达O(NK),其中N表示搜索空间中可选子包数量大小,K表示声音事件种类数。本发明利用连续松弛法联合优化,仅需引入一组低维松弛化参数,即可将计算复杂度降低至O(N)。
自适应层次聚合是一个由一组独立的、可学习参数控制的独立模块,模块的输入是模型预测的音频定位结果,输出为音频分类结果,自适应层次聚合方法可以方便、有效地嵌入到任何声学模型中实现弱监督声音事件检测;以卷积循环神经网络为基准模型能够同时学习空间和时序上下文特征的多尺度声学特征,为声音事件检测领域的主流模型框架。
以上过程完成了卷积循环神经网络4和自适应层次聚合算法的联合优化,在卷积循环神经网络4测试阶段,给定未知的声音信号,进行预处理和特征提取后,送入训练后的卷积循环神经网络中,得到所有待检测目标事件的定位输出(帧级别预测概率),实现音频定位任务,并根据每类事件特定的最优聚合策略得到所有类别的激活概率(句级别预测概率),实现音频分类任务。
图3(a)、(b)为两条典型音频信号的声音事件定位结果可视化,对比方法为最大值聚合和加权平均聚合。其中,最大值聚合仅能够捕捉显著区域而造成定位边界不完整,尤其在检测时长较长的声音事件时(如“火车声”),而加权平均聚合总是带来较多的误检测,尤其当检测较短的或多片段的声音事件时(如“尖叫声”和“鸣笛”)。图3(a)、(b)中三种典型声音事件的定位效果均证实:自适应层次聚合不仅能够捕捉多片段的显著信息从而丢弃冗余信息,还能够在降低误检测率同时保证定位边界的完整,实现最优的声音事件检测性能。
基于与自适应层次聚合的弱监督声音事件检测方法相同的发明构思,本申请还提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器,存储器中存储了计算机可读代码,其中,计算机可读代码当由一个或多个处理器执行时,进行本发明一种基于自适应层次聚合的弱监督声音事件检测方法的实施。其中,存储器可以包括非易失性存储介质和内存储器;非易失性存储介质可存储操作系统和计算机可读代码。该计算机可读代码包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于自适应层次聚合的弱监督声音事件检测方法。处理器用于提供计算和控制能力,支撑整个电子设备的运行。存储器为非易失性存储介质中的计算机可读代码的运行提供环境,该计算机可读代码被处理器执行时,可使得处理器执行任意一种基于自适应层次聚合的弱监督声音事件检测方法。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,所述计算机可读存储介质可以是前述实施例所述电子设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘、智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
Claims (6)
1.自适应层次聚合的弱监督声音事件检测方法,其特征在于:
提取预处理音频信号的声学特征,并输入声学模型,将声学模型预测的帧级别预测概率序列分成若干个连续的子包,利用最大值聚合计算每个子包的显著信息,得到子包级预测集合,利用均值聚合取子包级预测集合的平均概率作为句级别预测概率;
联合优化声学模型和松弛化参数,直至收敛,得到最优模型权重和最优松弛化参数,根据最优松弛化参数为每类声音事件制定最优聚合策略;
给定未知的音频信号,进行预处理和特征提取,送入训练后的声学模型,得到所有目标声音事件的帧级别预测概率,实现音频定位任务,并根据每类目标声音事件的最优聚合策略,得到所有目标声音事件类别的句级别预测概率,实现音频分类任务;
所述制定最优聚合策略具体为:利用计算最优松弛化参数下选择不同R的概率λ*,对于第k类声音事件,中最大选择概率对应的R即为当前类别最优子包数量其中:λ为概率集合,R为子包数量,αk为第k维松弛化参数,softmax()为运算符;
所述子包数量为R时,第k类声音事件的句级别预测概率表示为:
所述联合优化声学模型和松弛化参数采用反向传播进行的:
其中:L所有声音事件类别的平均预测误差,W、α分别为模型参数和松弛化参数,X、Y分别为模型输入的梅尔频谱特征和句级别标签,Yk为第k类声音事件的句级别标签,BCELoss表示二进制交叉熵函数,K为声音事件的类别总数。
2.根据权利要求1所述的自适应层次聚合的弱监督声音事件检测方法,其特征在于,所述声学模型为任意主流的深度学习模型,声学模型的基准模型为卷积循环神经网络模型。
3.根据权利要求1所述的弱监督声音事件检测方法,其特征在于,提取的特征为梅尔频谱特征。
4.根据权利要求3所述的自适应层次聚合的弱监督声音事件检测方法,其特征在于,所述声学模型训练和验证采用DCASE2017数据集。
5.根据权利要求4所述的自适应层次聚合的弱监督声音事件检测方法,其特征在于,所述音频信号下采样至16kHz,帧长和帧移分别设置为1024、664,分帧后每条信号得到240帧样本,梅尔频谱特征为64维。
6.一种实现权利要求1-5任一项所述的自适应层次聚合的弱监督声音事件检测方法的系统,其特征在于,包括依次相连的声学模型和自适应层次聚合算法模块,所述声学模型输入预处理和特征提取的音频信号,所述声学模型预测得到帧级别预测概率,所述自适应层次聚合算法模块将帧级别预测概率聚合得到句级别预测概率。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210528373.0A CN114974303B (zh) | 2022-05-16 | 2022-05-16 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
PCT/CN2022/101361 WO2023221237A1 (zh) | 2022-05-16 | 2022-06-27 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
US18/035,934 US12080319B2 (en) | 2022-05-16 | 2022-06-27 | Weakly-supervised sound event detection method and system based on adaptive hierarchical pooling |
GB2307040.2A GB2616363B (en) | 2022-05-16 | 2022-06-27 | Weakly-supervised sound event detection method and system based on adaptive hierarchical pooling |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210528373.0A CN114974303B (zh) | 2022-05-16 | 2022-05-16 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114974303A CN114974303A (zh) | 2022-08-30 |
CN114974303B true CN114974303B (zh) | 2023-05-12 |
Family
ID=82983548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210528373.0A Active CN114974303B (zh) | 2022-05-16 | 2022-05-16 | 自适应层次聚合的弱监督声音事件检测方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114974303B (zh) |
WO (1) | WO2023221237A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10141009B2 (en) * | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CN108648748B (zh) * | 2018-03-30 | 2021-07-13 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
GB2577570A (en) * | 2018-09-28 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Sound event detection |
CN110827804B (zh) * | 2019-11-14 | 2022-06-14 | 福州大学 | 一种音频帧序列到事件标签序列的声音事件标注方法 |
CN111933109A (zh) * | 2020-07-24 | 2020-11-13 | 南京烽火星空通信发展有限公司 | 一种音频监测方法及系统 |
CN112036477B (zh) * | 2020-08-28 | 2022-06-17 | 清华大学 | 一种高召回率弱标注声音事件检测方法 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112786029B (zh) * | 2020-12-25 | 2022-07-26 | 思必驰科技股份有限公司 | 使用弱监督数据训练vad的方法及装置 |
CN113707175B (zh) * | 2021-08-24 | 2023-12-19 | 上海师范大学 | 基于特征分解分类器与自适应后处理的声学事件检测系统 |
-
2022
- 2022-05-16 CN CN202210528373.0A patent/CN114974303B/zh active Active
- 2022-06-27 WO PCT/CN2022/101361 patent/WO2023221237A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2023221237A1 (zh) | 2023-11-23 |
CN114974303A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410924B (zh) | 识别方法和识别设备 | |
CN110210513B (zh) | 数据分类方法、装置及终端设备 | |
KR20200022739A (ko) | 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치 | |
CN112562698B (zh) | 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法 | |
CN112465049A (zh) | 异常检测模型生成方法和装置、异常事件检测方法和装置 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN114818864A (zh) | 一种基于小样本的手势识别方法 | |
TWI752486B (zh) | 訓練方法、特徵提取方法、裝置及電子設備 | |
US20210375492A1 (en) | Ai enabled sensor data acquisition | |
JP2023138492A (ja) | ランダム化およびサンプル拒否を使用して、ディープニューラルネットワークにおける事前トレーニング済みシステムのロバストネスを向上させるためのシステムおよび方法 | |
US12080319B2 (en) | Weakly-supervised sound event detection method and system based on adaptive hierarchical pooling | |
CN114898737A (zh) | 声学事件检测方法、装置、电子设备和存储介质 | |
CN114974303B (zh) | 自适应层次聚合的弱监督声音事件检测方法及系统 | |
CN112084936B (zh) | 一种人脸图像预处理方法、装置、设备及存储介质 | |
CN111475496B (zh) | 基于多条件约束的时间序列数据生成方法、装置及介质 | |
CN116189710A (zh) | 语音欺骗检测方法及装置 | |
CN112000428B (zh) | 基于机器学习的jvm调优方法、装置和电子装置 | |
CN114520005A (zh) | 音频处理方法、装置、设备和计算机可读存储介质 | |
WO2021189362A1 (zh) | 基于多条件约束的时间序列数据生成方法、装置及介质 | |
CN110322894A (zh) | 一种基于声音的波形图生成及大熊猫检测方法 | |
CN113793622B (zh) | 一种音频场景识别方法、系统及装置 | |
US20220309347A1 (en) | End-to-end adaptive deep learning training and inference method and tool chain to improve performance and shorten development cycles | |
CN114882903A (zh) | 一种船舶辐射噪声识别方法、装置、设备及可读存储介质 | |
CN117313927A (zh) | 基于小波神经网络的风力发电功率预测方法和系统 | |
Chang et al. | Less is more: learning predictability in reversible steganography |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |