CN112036477B

CN112036477B - 一种高召回率弱标注声音事件检测方法

Info

Publication number: CN112036477B
Application number: CN202010889143.8A
Authority: CN
Inventors: 李青轩; 杨毅; 孙甲松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-06-17
Anticipated expiration: 2040-08-28
Also published as: CN112036477A

Abstract

一种高召回率弱标注声音事件检测方法，设定深度学习对应的神经网络、训练数据；初始化损失函数为交叉熵损失，并增加若干组不同权重的骰子损失，其中正样本占比越高，需要权重越大；训练并测试观察仅用交叉熵损失和增加若干组不同权重骰子损失的实验结果好坏；调整损失中的权重超参数，重新进行若干组骰子损失权重取值；循环迭代找出最好的效果完成训练，得到最终的损失函数；将最终的损失函数用于神经网络检测模型，将所得模型应用至声音事件检测系统，通过神经网络分类器得到声音事件的包级预测和帧级预测。本发明可解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题，有效提升更重视召回率的F2分数。

Description

一种高召回率弱标注声音事件检测方法

技术领域

本发明属于声音事件检测技术领域，特别涉及一种高召回率弱标注声音事件检测方法。

背景技术

声音事件检测(Sound event detection,SED)的目的是识别一个音频片段中发生的声音事件，并检测出事件发生的起止时间。20世纪以来，随着数字信号处理技术的发展，用机器实现语音识别、音乐处理等操作成为可能。随着时间的推移，语音识别技术日渐成熟，人们也更广泛的研究更多听觉方面的信息，越来越多的应用，如环境声音感知、多媒体信息检索等对声音事件检测技术提出了较高的需求。区别于对音频分类、标记等任务仅对声音事件发生有无进行判断，声音事件检测要求估计事件发生的起止位置，这也是大多数现实生活中应用的要求。

在这一需求的驱动下，传统的SED模型使用支持向量机、深度置信网络来完成这一任务目标。后来随着神经网络技术的发展，基于CNN的模型和基于RNN的模型都在SED领域取得了不错的效果。Cakir等人率先地构建了用于SED的优良神经网络模型，以CRNN为主体的神经网络被大家认为是最好的选择，这样既可以使用CNN的高级特征，也可以使用RNN的时序信息。

但随着模型越来越精细，它也变得越来越复杂，训练这样一个模型需要庞大的数据，这些数据必须有详细的标注注明发生的事件及起止时间，才能保证良好的效果。但事实是，如今视频和音频网站往往只有发生了若干事件的信息，却没有声明它的起止位置，这种标注也被称作弱标注。因此，后来SED技术着眼于如何利用弱标注数据训练模型。

弱标注声音事件检测一般被认为是一个多示例学习(Multiple-Instancelearning,MIL)的任务。多示例学习可以这样描述：训练集中的数据是一个个的包，每个包是若干示例的集合。正标记的包意味着其中的示例至少有一个为正标记，而负标记的包意味着其中的所有示例均为负标记。换到SED任务来说，对于一个音频片段，一个声音事件在其中某一帧发生，则该音频片段发生这个事件；反之，若一个音频片段没有发生某个声音事件，就意味着该事件在任意一帧都没有发生。

目前的神经网络中广泛使用的损失函数为交叉熵损失，形式如下：

CrossEntropy(t,y)＝-tlog(y)-(1-t)log(1-y)

可以看到对于真实标记为1和0的样本在该损失函数中具有相同的权重，也即是正负样本对模型梯度更新具有相同的贡献。上述损失函数的缺陷在于：由于有若干类别的音频样本，而对于每个类别来说，平均9个片段才有1个音频发生的正标记样本。因此，可以认为数据是不均衡的，采用F分数来评估模型的性能也是出于这样的考虑。不均衡的样本会导致负样本损失过多的参与优化，从而影响模型的最终性能。现实中的声音事件检测数据同样具有这样的特征，往往不能提供每个类别的事件都能够有一半概率发生，因此此针对这种情况有必要设计一种针对样本分布不均衡的损失函数，以更加得到更加准确的声音事件检测结果。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种高召回率弱标注声音事件检测方法，针对样本不均衡的情况，使得模型最终性能在更重视召回率的F2分数上有更好的表现，得到更加准确的声音事件检测结果。

为了实现上述目的，本发明采用的技术方案是：

一种高召回率弱标注声音事件检测方法，包括以下步骤：

步骤1，设定深度学习对应的神经网络、训练数据；

步骤2，初始化损失函数为交叉熵损失，并增加若干组不同权重的骰子损失，其中正样本占比越高，需要权重越大；

步骤3，开始训练并测试观察仅用交叉熵损失和增加若干组不同权重骰子损失的实验结果的好坏；

步骤4，调整损失中的权重超参数，重新进行若干组骰子损失权重取值；

步骤5，循环迭代步骤3和4，找出最好的效果完成训练，得到最终的损失函数；

步骤6，将所述最终的损失函数用于神经网络检测模型，并将所得模型应用至声音事件检测系统，将音频特征作为输入，通过神经网络分类器得到声音事件的包级预测(整段音频里发生的事件)和帧级预测(每帧是否对应声音发生)。

所述步骤1设定深度学习对应的神经网络为CNN+注意力池化结构，数据集为DESED，曾用于DCASE 2019task 4。

所述步骤2具体包括以下步骤：

步骤201，初始化损失函数为交叉熵损失，先进行一次训练，记录评估表现，公式如下：

Loss＝CrossEntropy(t,y)＝-tlog(y)-(1-t)log(1-y)

步骤202，增加若干组不同权重的骰子损失，骰子损失的形式如下：

其中t,y分别指模型输出和标准答案的张量，模运算||近似为张量中各个元素相加；

此时损失函数形式如下：

λ为表示若干组骰子损失权重的超参数，在区间(0,2)中随机取值，如{0.2,0.5,0.9,1.3,1.7}。

所述步骤4调整损失中权重超参数的原则是，在包含上次表现最好λ取值的区间进行再次取值。

所述步骤5中，最好的效果指在模型输出评估指标上取得最佳表现。

所述步骤5中得到的最终的损失函数为

Λ为通过循环得以确定的超参数。

所述步骤6中输入的音频特征为对数梅尔谱。

与现有技术相比，本发明的有益效果是：可解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题，有效的提升更重视召回率的F2分数。

附图说明

图1为本发明高召回率弱标注声音事件检测方法流程图，损失函数具体作用于虚线框部分。

图2为本发明损失函数设计方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提出了一种针对不均衡样本的弱标注声音事件检测方法，将音频的对数梅尔谱作为音频特征，也可以对特征进行一些增强处理。音频特征通过多层的CNN进行编码，编码后的高级特征输入一个注意力池化层，注意力机制主要为了增强发生的事件特征并负责提取出事件发生的时间，也即是帧级预测。经过注意力池化增强、压缩过的音频嵌入表示，输入到最后的全连接层分类器，即可给该音频定性的贴上标签，也即是包级预测。至此获得了声音事件检测系统的两个输出。

在图1所示的检测模型中，损失函数作用非常重要，本发明通过设计损失函数，可以根据正负样本的多少，调整正负样本对损失函数的贡献，从而使得检测效果更好。参考图2，具体包括以下步骤：

步骤1，设定深度学习对应的神经网络、训练数据。

具体指的是设定深度学习对应的神经网络为CNN+注意力池化结构，数据集为DESED。DESED数据集曾用于DCASE 2019task 4，是从AudioSet中整理出来包含10中声音事件的用于声音事件检测的数据集，被众多该领域研究者使用。神经网络结构参考DCASE大赛2019年第一名开源代码修改而来。

步骤2，初始化损失函数为交叉熵损失，并增加若干组权重的骰子损失，正样本占比越高，需要权重越大；

步骤2具体包括以下步骤：

步骤201，初始化损失函数为交叉熵损失，此时可以进行一次训练记录评估表现，公式如下：

Loss＝CrossEntropy(t,y)＝-tlog(y)-(1-t)log(1-y)#(5)

步骤202，增加若干组权重的骰子损失，使得总体的形式如下：

其中t,y分别指模型输出和标准答案的张量，模运算近似为张量中各个元素相加。λ为需要取若干组的超参数，一般在区间(0,2)中随机取值，如0.2,0.5,0.9,1.3,1.7.

步骤3，开始训练并测试观察若干组实验结果的好坏；观察若干组λ值对模型输出造成的影响，记录各组λ值以及对应的模型性能，找出最好的λ值。

步骤4，调整损失中的权重超参数，重新进行若干组取值；在包含上次表现最好λ取值的区间进行再次取值，如上次取值{0.2,0.5,0.9,1.3,1.7}，0.5表现最好，则本次在(0.2,0.9)区间取值。

步骤5，循环迭代步骤3和4，找出最好的效果完成训练；将此时最好的λ值代入损失函数，确定使用的模型。

至此，则以所述最终的损失函数以及模型应用至常用的声音事件检测系统，将音频特征作为输入，通过神经网络分类器得到声音事件的包级预测(整段音频里发生的事件)和帧级预测(每帧是否对应声音发生)，其具体流程如图1和之前所述。其中骰子损失分子分母部分都只与正样本相关(标准答案为正或模型输出为正)，因此相比交叉熵损失来说，与正样本的相关性更强。而骰子损失在整个系统中起到的作用是，当每次训练的输出做梯度的反向传播时，为梯度加上与正样本更相关的一项。

将DESED数据集作为训练集对本发明声音事件检测系统进行训练，该数据集中有10类音频，但平均每个音频中只发生2个事件，因此对于每一类事件来说，平均正负样本之比为1:4。存在数据不均衡的问题。而引入的骰子损失更重视正样本传来的梯度，因此能够缓解这一问题。

在DESED的测试集上测试模型并比较模型的F2分数(％)。测试结果如下：

	Segment-based F2	Precision	Recall
				CE loss	63.45±1.81	73.89±2.35	61.28±0.72
CE+0.7Dice	69.89±1.57	64.12±1.60	71.50±1.57

由测试结果可知，在声音事件检测的基于段的F2分数上有6％左右的较大提升。尽管目前领域中更多使用F1分数作为首选的评估指标，但更重视召回率的F2分数在危险预警、音视频审核等方面能有更好的表现。

本发明引入更重视正样本的骰子损失到声音事件检测任务中，可以解决声音事件检测中普遍采用的一对多实现多分类从而导致样本分布不均的问题。本发明可应用于声音事件检测及其相关领域，可使得声音事件检测模型进一步调整优化，提高了声音事件检测的性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高召回率弱标注声音事件检测方法，其特征在于，包括以下步骤：

步骤1，设定深度学习对应的神经网络、训练数据；所述神经网络为CNN+注意力池化结构，数据集为DESED；

步骤6，将所述最终的损失函数用于神经网络检测模型，并将所得模型应用至声音事件检测系统，将音频特征作为输入，所述音频特征通过多层的CNN进行编码，编码后的高级特征输入一个注意力池化层，注意力机制用于增强发生的事件特征并负责提取出事件发生的时间，也即是帧级预测；经过注意力池化增强、压缩过的音频嵌入表示，输入到最后的全连接层分类器，即可给该音频定性的贴上标签，也即是包级预测，所述音频特征为对数梅尔谱，所述包级预测指整段音频里发生的事件，所述帧级预测指每帧是否对应声音发生。

2.根据权利要求1所述高召回率弱标注声音事件检测方法，其特征在于，所述步骤2具体包括以下步骤：

Loss＝CorssEntropy(t,y)＝-tlog(y)-(1-t)log(1-y)

此时损失函数形式如下：

λ为表示若干组骰子损失权重的超参数，在区间(0,2)中随机取值。

3.根据权利要求2所述高召回率弱标注声音事件检测方法，其特征在于，所述步骤4调整损失中权重超参数的原则是，在包含上次表现最好λ取值的区间进行再次取值。

4.根据权利要求2所述高召回率弱标注声音事件检测方法，其特征在于，所述步骤5中，最好的效果指在模型输出评估指标上取得最佳表现。

5.根据权利要求2所述高召回率弱标注声音事件检测方法，其特征在于，所述步骤5中得到的最终的损失函数为

Λ为通过循环得以确定的超参数。