CN112036477B - 一种高召回率弱标注声音事件检测方法 - Google Patents

一种高召回率弱标注声音事件检测方法 Download PDF

Info

Publication number
CN112036477B
CN112036477B CN202010889143.8A CN202010889143A CN112036477B CN 112036477 B CN112036477 B CN 112036477B CN 202010889143 A CN202010889143 A CN 202010889143A CN 112036477 B CN112036477 B CN 112036477B
Authority
CN
China
Prior art keywords
loss
sound event
loss function
dice
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010889143.8A
Other languages
English (en)
Other versions
CN112036477A (zh
Inventor
李青轩
杨毅
孙甲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010889143.8A priority Critical patent/CN112036477B/zh
Publication of CN112036477A publication Critical patent/CN112036477A/zh
Application granted granted Critical
Publication of CN112036477B publication Critical patent/CN112036477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

一种高召回率弱标注声音事件检测方法,设定深度学习对应的神经网络、训练数据;初始化损失函数为交叉熵损失,并增加若干组不同权重的骰子损失,其中正样本占比越高,需要权重越大;训练并测试观察仅用交叉熵损失和增加若干组不同权重骰子损失的实验结果好坏;调整损失中的权重超参数,重新进行若干组骰子损失权重取值;循环迭代找出最好的效果完成训练,得到最终的损失函数;将最终的损失函数用于神经网络检测模型,将所得模型应用至声音事件检测系统,通过神经网络分类器得到声音事件的包级预测和帧级预测。本发明可解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题,有效提升更重视召回率的F2分数。

Description

一种高召回率弱标注声音事件检测方法
技术领域
本发明属于声音事件检测技术领域,特别涉及一种高召回率弱标注声音事件检测方法。
背景技术
声音事件检测(Sound event detection,SED)的目的是识别一个音频片段中发生的声音事件,并检测出事件发生的起止时间。20世纪以来,随着数字信号处理技术的发展,用机器实现语音识别、音乐处理等操作成为可能。随着时间的推移,语音识别技术日渐成熟,人们也更广泛的研究更多听觉方面的信息,越来越多的应用,如环境声音感知、多媒体信息检索等对声音事件检测技术提出了较高的需求。区别于对音频分类、标记等任务仅对声音事件发生有无进行判断,声音事件检测要求估计事件发生的起止位置,这也是大多数现实生活中应用的要求。
在这一需求的驱动下,传统的SED模型使用支持向量机、深度置信网络来完成这一任务目标。后来随着神经网络技术的发展,基于CNN的模型和基于RNN的模型都在SED领域取得了不错的效果。Cakir等人率先地构建了用于SED的优良神经网络模型,以CRNN为主体的神经网络被大家认为是最好的选择,这样既可以使用CNN的高级特征,也可以使用RNN的时序信息。
但随着模型越来越精细,它也变得越来越复杂,训练这样一个模型需要庞大的数据,这些数据必须有详细的标注注明发生的事件及起止时间,才能保证良好的效果。但事实是,如今视频和音频网站往往只有发生了若干事件的信息,却没有声明它的起止位置,这种标注也被称作弱标注。因此,后来SED技术着眼于如何利用弱标注数据训练模型。
弱标注声音事件检测一般被认为是一个多示例学习(Multiple-Instancelearning,MIL)的任务。多示例学习可以这样描述:训练集中的数据是一个个的包,每个包是若干示例的集合。正标记的包意味着其中的示例至少有一个为正标记,而负标记的包意味着其中的所有示例均为负标记。换到SED任务来说,对于一个音频片段,一个声音事件在其中某一帧发生,则该音频片段发生这个事件;反之,若一个音频片段没有发生某个声音事件,就意味着该事件在任意一帧都没有发生。
目前的神经网络中广泛使用的损失函数为交叉熵损失,形式如下:
CrossEntropy(t,y)=-tlog(y)-(1-t)log(1-y)
可以看到对于真实标记为1和0的样本在该损失函数中具有相同的权重,也即是正负样本对模型梯度更新具有相同的贡献。上述损失函数的缺陷在于:由于有若干类别的音频样本,而对于每个类别来说,平均9个片段才有1个音频发生的正标记样本。因此,可以认为数据是不均衡的,采用F分数来评估模型的性能也是出于这样的考虑。不均衡的样本会导致负样本损失过多的参与优化,从而影响模型的最终性能。现实中的声音事件检测数据同样具有这样的特征,往往不能提供每个类别的事件都能够有一半概率发生,因此此针对这种情况有必要设计一种针对样本分布不均衡的损失函数,以更加得到更加准确的声音事件检测结果。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种高召回率弱标注声音事件检测方法,针对样本不均衡的情况,使得模型最终性能在更重视召回率的F2分数上有更好的表现,得到更加准确的声音事件检测结果。
为了实现上述目的,本发明采用的技术方案是:
一种高召回率弱标注声音事件检测方法,包括以下步骤:
步骤1,设定深度学习对应的神经网络、训练数据;
步骤2,初始化损失函数为交叉熵损失,并增加若干组不同权重的骰子损失,其中正样本占比越高,需要权重越大;
步骤3,开始训练并测试观察仅用交叉熵损失和增加若干组不同权重骰子损失的实验结果的好坏;
步骤4,调整损失中的权重超参数,重新进行若干组骰子损失权重取值;
步骤5,循环迭代步骤3和4,找出最好的效果完成训练,得到最终的损失函数;
步骤6,将所述最终的损失函数用于神经网络检测模型,并将所得模型应用至声音事件检测系统,将音频特征作为输入,通过神经网络分类器得到声音事件的包级预测(整段音频里发生的事件)和帧级预测(每帧是否对应声音发生)。
所述步骤1设定深度学习对应的神经网络为CNN+注意力池化结构,数据集为DESED,曾用于DCASE 2019task 4。
所述步骤2具体包括以下步骤:
步骤201,初始化损失函数为交叉熵损失,先进行一次训练,记录评估表现,公式如下:
Loss=CrossEntropy(t,y)=-tlog(y)-(1-t)log(1-y)
步骤202,增加若干组不同权重的骰子损失,骰子损失的形式如下:
Figure BDA0002656400990000031
其中t,y分别指模型输出和标准答案的张量,模运算||近似为张量中各个元素相加;
此时损失函数形式如下:
Figure BDA0002656400990000032
λ为表示若干组骰子损失权重的超参数,在区间(0,2)中随机取值,如{0.2,0.5,0.9,1.3,1.7}。
所述步骤4调整损失中权重超参数的原则是,在包含上次表现最好λ取值的区间进行再次取值。
所述步骤5中,最好的效果指在模型输出评估指标上取得最佳表现。
所述步骤5中得到的最终的损失函数为
Figure BDA0002656400990000041
Λ为通过循环得以确定的超参数。
所述步骤6中输入的音频特征为对数梅尔谱。
与现有技术相比,本发明的有益效果是:可解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题,有效的提升更重视召回率的F2分数。
附图说明
图1为本发明高召回率弱标注声音事件检测方法流程图,损失函数具体作用于虚线框部分。
图2为本发明损失函数设计方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出了一种针对不均衡样本的弱标注声音事件检测方法,将音频的对数梅尔谱作为音频特征,也可以对特征进行一些增强处理。音频特征通过多层的CNN进行编码,编码后的高级特征输入一个注意力池化层,注意力机制主要为了增强发生的事件特征并负责提取出事件发生的时间,也即是帧级预测。经过注意力池化增强、压缩过的音频嵌入表示,输入到最后的全连接层分类器,即可给该音频定性的贴上标签,也即是包级预测。至此获得了声音事件检测系统的两个输出。
在图1所示的检测模型中,损失函数作用非常重要,本发明通过设计损失函数,可以根据正负样本的多少,调整正负样本对损失函数的贡献,从而使得检测效果更好。参考图2,具体包括以下步骤:
步骤1,设定深度学习对应的神经网络、训练数据。
具体指的是设定深度学习对应的神经网络为CNN+注意力池化结构,数据集为DESED。DESED数据集曾用于DCASE 2019task 4,是从AudioSet中整理出来包含10中声音事件的用于声音事件检测的数据集,被众多该领域研究者使用。神经网络结构参考DCASE大赛2019年第一名开源代码修改而来。
步骤2,初始化损失函数为交叉熵损失,并增加若干组权重的骰子损失,正样本占比越高,需要权重越大;
步骤2具体包括以下步骤:
步骤201,初始化损失函数为交叉熵损失,此时可以进行一次训练记录评估表现,公式如下:
Loss=CrossEntropy(t,y)=-tlog(y)-(1-t)log(1-y)#(5)
步骤202,增加若干组权重的骰子损失,使得总体的形式如下:
Figure BDA0002656400990000051
其中t,y分别指模型输出和标准答案的张量,模运算近似为张量中各个元素相加。λ为需要取若干组的超参数,一般在区间(0,2)中随机取值,如0.2,0.5,0.9,1.3,1.7.
步骤3,开始训练并测试观察若干组实验结果的好坏;观察若干组λ值对模型输出造成的影响,记录各组λ值以及对应的模型性能,找出最好的λ值。
步骤4,调整损失中的权重超参数,重新进行若干组取值;在包含上次表现最好λ取值的区间进行再次取值,如上次取值{0.2,0.5,0.9,1.3,1.7},0.5表现最好,则本次在(0.2,0.9)区间取值。
步骤5,循环迭代步骤3和4,找出最好的效果完成训练;将此时最好的λ值代入损失函数,确定使用的模型。
至此,则以所述最终的损失函数以及模型应用至常用的声音事件检测系统,将音频特征作为输入,通过神经网络分类器得到声音事件的包级预测(整段音频里发生的事件)和帧级预测(每帧是否对应声音发生),其具体流程如图1和之前所述。其中骰子损失分子分母部分都只与正样本相关(标准答案为正或模型输出为正),因此相比交叉熵损失来说,与正样本的相关性更强。而骰子损失在整个系统中起到的作用是,当每次训练的输出做梯度的反向传播时,为梯度加上与正样本更相关的一项。
将DESED数据集作为训练集对本发明声音事件检测系统进行训练,该数据集中有10类音频,但平均每个音频中只发生2个事件,因此对于每一类事件来说,平均正负样本之比为1:4。存在数据不均衡的问题。而引入的骰子损失更重视正样本传来的梯度,因此能够缓解这一问题。
在DESED的测试集上测试模型并比较模型的F2分数(%)。测试结果如下:
Segment-based F2 Precision Recall
CE loss 63.45±1.81 73.89±2.35 61.28±0.72
CE+0.7Dice 69.89±1.57 64.12±1.60 71.50±1.57
由测试结果可知,在声音事件检测的基于段的F2分数上有6%左右的较大提升。尽管目前领域中更多使用F1分数作为首选的评估指标,但更重视召回率的F2分数在危险预警、音视频审核等方面能有更好的表现。
本发明引入更重视正样本的骰子损失到声音事件检测任务中,可以解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题。本发明可应用于声音事件检测及其相关领域,可使得声音事件检测模型进一步调整优化,提高了声音事件检测的性能。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种高召回率弱标注声音事件检测方法,其特征在于,包括以下步骤:
步骤1,设定深度学习对应的神经网络、训练数据;所述神经网络为CNN+注意力池化结构,数据集为DESED;
步骤2,初始化损失函数为交叉熵损失,并增加若干组不同权重的骰子损失,其中正样本占比越高,需要权重越大;
步骤3,开始训练并测试观察仅用交叉熵损失和增加若干组不同权重骰子损失的实验结果的好坏;
步骤4,调整损失中的权重超参数,重新进行若干组骰子损失权重取值;
步骤5,循环迭代步骤3和4,找出最好的效果完成训练,得到最终的损失函数;
步骤6,将所述最终的损失函数用于神经网络检测模型,并将所得模型应用至声音事件检测系统,将音频特征作为输入,所述音频特征通过多层的CNN进行编码,编码后的高级特征输入一个注意力池化层,注意力机制用于增强发生的事件特征并负责提取出事件发生的时间,也即是帧级预测;经过注意力池化增强、压缩过的音频嵌入表示,输入到最后的全连接层分类器,即可给该音频定性的贴上标签,也即是包级预测,所述音频特征为对数梅尔谱,所述包级预测指整段音频里发生的事件,所述帧级预测指每帧是否对应声音发生。
2.根据权利要求1所述高召回率弱标注声音事件检测方法,其特征在于,所述步骤2具体包括以下步骤:
步骤201,初始化损失函数为交叉熵损失,先进行一次训练,记录评估表现,公式如下:
Loss=CorssEntropy(t,y)=-tlog(y)-(1-t)log(1-y)
步骤202,增加若干组不同权重的骰子损失,骰子损失的形式如下:
Figure FDA0003582500430000021
其中t,y分别指模型输出和标准答案的张量,模运算||近似为张量中各个元素相加;
此时损失函数形式如下:
Figure FDA0003582500430000022
λ为表示若干组骰子损失权重的超参数,在区间(0,2)中随机取值。
3.根据权利要求2所述高召回率弱标注声音事件检测方法,其特征在于,所述步骤4调整损失中权重超参数的原则是,在包含上次表现最好λ取值的区间进行再次取值。
4.根据权利要求2所述高召回率弱标注声音事件检测方法,其特征在于,所述步骤5中,最好的效果指在模型输出评估指标上取得最佳表现。
5.根据权利要求2所述高召回率弱标注声音事件检测方法,其特征在于,所述步骤5中得到的最终的损失函数为
Figure FDA0003582500430000023
Λ为通过循环得以确定的超参数。
CN202010889143.8A 2020-08-28 2020-08-28 一种高召回率弱标注声音事件检测方法 Active CN112036477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010889143.8A CN112036477B (zh) 2020-08-28 2020-08-28 一种高召回率弱标注声音事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010889143.8A CN112036477B (zh) 2020-08-28 2020-08-28 一种高召回率弱标注声音事件检测方法

Publications (2)

Publication Number Publication Date
CN112036477A CN112036477A (zh) 2020-12-04
CN112036477B true CN112036477B (zh) 2022-06-17

Family

ID=73586571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010889143.8A Active CN112036477B (zh) 2020-08-28 2020-08-28 一种高召回率弱标注声音事件检测方法

Country Status (1)

Country Link
CN (1) CN112036477B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562741B (zh) * 2021-02-20 2021-05-04 金陵科技学院 一种基于点积自注意力卷积神经网络的歌声检测方法
CN114974303B (zh) * 2022-05-16 2023-05-12 江苏大学 自适应层次聚合的弱监督声音事件检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110337669A (zh) * 2017-01-27 2019-10-15 爱克发医疗保健公司 多类图像分割方法
CN110675419A (zh) * 2019-10-11 2020-01-10 上海海事大学 一种自适应注意门的多模态脑胶质瘤影像分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803591B2 (en) * 2018-08-28 2020-10-13 International Business Machines Corporation 3D segmentation with exponential logarithmic loss for highly unbalanced object sizes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110337669A (zh) * 2017-01-27 2019-10-15 爱克发医疗保健公司 多类图像分割方法
CN110675419A (zh) * 2019-10-11 2020-01-10 上海海事大学 一种自适应注意门的多模态脑胶质瘤影像分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Regenerative Semi-Supervised Bidirectional W-Network-Based Knee Bone Tumor Classification on Radiographs Guided by Three-Region Bone Segmentation;NGOC-HUYNH HO 等;《ieee access》;20191023;全文 *
基于深度神经网络的肿瘤图像分析与处理;昌杰;《中国优秀博士学位论文全文数据库》;20190815;全文 *

Also Published As

Publication number Publication date
CN112036477A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
Xie et al. Utterance-level aggregation for speaker recognition in the wild
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN112036477B (zh) 一种高召回率弱标注声音事件检测方法
CN110070895B (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110349597B (zh) 一种语音检测方法及装置
CN111080109B (zh) 客服服务质量评价方法、装置及电子设备
US20200075019A1 (en) System and method for neural network orchestration
Dinkel et al. Voice activity detection in the wild via weakly supervised sound event detection
US11017780B2 (en) System and methods for neural network orchestration
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN111048097A (zh) 一种基于3d卷积的孪生网络声纹识别方法
Lafay et al. Sound event detection in synthetic audio: Analysis of the dcase 2016 task results
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
Pankajakshan et al. Polyphonic sound event and sound activity detection: A multi-task approach
CN114882914A (zh) 混叠音处理方法、装置和存储介质
Jallet et al. Acoustic scene classification using convolutional recurrent neural networks
US11176947B2 (en) System and method for neural network orchestration
CN107578785B (zh) 基于Gamma分布分析的音乐连续情感特征分析评价方法
Shan et al. Non-intrusive speech quality assessment using deep belief network and backpropagation neural network
Li et al. Deep neural network driven mixture of PLDA for robust i-vector speaker verification
CN115630280A (zh) 一种基于ceemd多尺度散布熵与pso-elm的滚动轴承故障诊断方法
Mulimani et al. A deep neural network-driven feature learning method for polyphonic acoustic event detection from real-life recordings
Primus et al. CP-JKU Submission to DCASE’21: Improving Out-of-Distribution Detectors for Machine Condition Monitoring with Proxy Outliers & Domain Adaptation via Semantic Alignment
CN116230017A (zh) 语音评估方法、装置、计算机设备和存储介质
Liu et al. Dcase 2021 task 1a: Low-complexity acoustic scene classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant