CN114881212B

CN114881212B - 基于双分支判别特征神经网络的声音事件检测方法

Info

Publication number: CN114881212B
Application number: CN202210490907.5A
Authority: CN
Inventors: 谢宗霞; 周雨馨
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2024-09-06
Anticipated expiration: 2042-05-07
Also published as: CN114881212A

Abstract

本发明公开了一种基于双分支判别特征神经网络的声音事件检测方法，包括：将包含声音信号的数据集进行特征提取，得到log‑mel频谱图的数据集，并将其分为训练集、测试集和验证集；建立双分支判别特征网络模型，所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合：将测试集和验证集作为训练后的模型的输入，该模型的输出即为该数据集的声音事件检测的结果，包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。本发明通过双分支判别特征融合的方式获取到尾部类和难区分类别的判别性特征，并在一定程度上均衡了分类器的类别权重，提高了声音事件检测的效果。

Description

基于双分支判别特征神经网络的声音事件检测方法

技术领域

本发明属于神经网络模型设计及应用，特别涉及一种双分支判别特征神经网络模型的应用。

背景技术

近些年来，随着网络技术的发展，音频数据大量的出现，人们发现声音事件检测技术能给人类的生活带来很大的帮助。声音事件是指音频中所包含有一些特定的有用的信息。例如，汽车的鸣笛包含着汽车正在靠近的信息，警报器的声音包含着周围可能有危险事件的信息，风声和雨声中包含着天气环境的信息，这些信息的识别对人类生活十分有用。

在目前的研究中，研究者普遍把声音事件检测任务分为声音事件分类和声音事件定位两个子任务，其中声音事件定位一般是基于帧级别的声音事件分类实现的。因此声音事件分类的效果好坏成为声音事件检测的效果好坏的重要决定因素，所以声音事件检测中的分类任务有着重要的研究价值。声音事件检测的领域的研究相对与发展较为完善图像识别领域的研究还存在着很多挑战。首先声音事件检测进行研究的是声音信号，其形式多种多样，随机性也非常的强。其次在现实生活中一个音频中还会出现多个声音事件，这样声音事件检测所面临的情况就变的非常的复杂，识别难度也就会因此大幅度的增加。又因为早期声音事件检测方面并没有大型完善并且可靠的数据集，使得声音事件检测的发展收到了很大的限制。

随着AudioSet和其在自动驾驶、智能家居和智能监控等领域的声音事件检测子数据集的出现，人们逐渐发现现实生活中声音的数据集存在着数据不均衡，数据类别间相似程度大，多标签等现象。但目前声音事件检测的研究在分类方面都忽视了这些由于数据集的数据分布和数据特点而造成的难分类现象。而这些想象会提升模型的识别难度，产生误导性结果，从而使声音事件检测中分类任务的准确性降低。如何改进模型，迎合数据集中数据分布特点，提高声音事件检测中分类任务的准确性，是目前现有声音事件检测技术所存在的不足。

发明内容

为了解决上述技术问题，本发明提出的一种基于双分支判别特征网络的声音事件检测方法，通过双分支网络同时解决长尾问题和类别间难区分的问题。其中设计的双分支判别特征网络模型主要包括双分支采样、特征提取、双分支的特征融合和损失融合。通过对数据集进行均匀采样和逆采样作为模型两个分支的输入。采用基于通道注意力机制融合语义特征和空间特征的CNN-Transformer模型来更具指导性的获取声音事件更具判别性的特征。通过随着学习过程逐渐减小的超参数λ将两个分支的特征进行融合，在保持判别特征提取基础上，更好的均衡了分类器的权重。从而使模型在学习过程中的表征学习的阶段更加关注均匀采样分支，在后面的分类学习阶段逐渐关注逆采样分支。采用这种分支融合方式在模型的特征学习方面先关注通用特征再关注后面两个分支与类别相关的特征，从而提取到的特征对后面两个分支更具判别性。从而同时解决了长尾问题和类别间难区分问题。

本发明提出的一种基于双分支判别特征神经网络的声音事件检测方法，包括以下步骤：

步骤1、数据预处理：将包含声音信号的数据集进行特征提取，得到log-mel频谱图的数据集，并按照一定比例将其分为训练集、测试集和验证集；

步骤2、建立双分支判别特征网络模型，所述的双分支判别特征网络模型包括双分支采样、特征提取、双分支的特征融合和损失融合：步骤如下：

2-1)分别对训练集进行均匀采样和逆采样从而得到两个分支的训练样本；

2-2)采用基于通道注意力机制融合语义特征和空间特征的CNN-Transformer模型对步骤2-1)获得的两个分支的训练样本的声音事件特征进行提取，得到两个分支的特征；

2-3)采用随着学习过程逐渐减小的超参数将步骤2-2)得到的两个分支的特征进行融合，根据融合后的特征分别计算两个分支的损失函数，根据损失函数反向传播修改模型的参数，完成模型的训练；

步骤3、将测试集和验证集作为训练后的模型的输入，该模型的输出即为该数据集的声音事件检测的结果，包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。

进一步讲，本发明所述的声音事件检测方法，其中：

所述步骤1中，提取log-mel频谱图时将所有音频剪辑都转换为单声道，并重新采样为32kHz；之后使用具有1024个样本的汉宁窗口和320个样本的的短时傅里叶变换来提取谱图，使得该谱图在1秒钟内产生100帧。

所述步骤1中，将所述的log-mel频谱图的数据集分为训练集、测试集和验证集的划分的比例可采取深度学习通用的8：1：1，也可根据需要自行划分；

所述步骤2-1)中，设定训练集D＝{(x₁，y₁)…(x_n，y_n)}，其中n是训练集中样本的数量；(x_k，y_k)，且k∈(1，…n)，表示样本的输入和该样本所对应的标签；所述的均匀采样中，训练集中的每个样本在一个训练时段内以相同的概率采样一次，该训练集中样本采样的概率都为将均匀采样的样本输入和该样本所对应的标签记为(x_u，y_u)；所述的逆采样中，基于类别数量的倒数对训练集D中的样本进行采样，每一个类别的采样概率如下所示：

式(1)中，p_i代表第i个类取样的概率，n_i代表第i个类的样本数量，c代表训练集类别的数量；将逆采样的样本输入和该样本所对应的标签记为(x_r，y_r)；两个分支的样本输入和样本所对应的标签包括(x_u，y_u)和(x_r，y_r)。

所述步骤2-2)中，采用CNN-Transformer模型，先通过CNN网络提取log-mel频谱图的帧级特征，然后使用Transformer进行帧间关系建模，提取log-mel频谱图的时域特征；基于步骤2-1)获得的两个分支的样本输入和样本所对应的标签(x_u，y_u)和(x_r，y_r)所提取到的两个分支特征分别为f_u和f_r。

本发明在传统CNN-Transformer的基础上，通过通道注意力机制将CNN结构进行改进，使特征提取模块能够提取到判别特征，从而解决类别间难区分的问题。所述的CNN网络结构分为四个层，随着层数的增加提取的特征逐渐加深；第一层提取的是相对浅层的特征，第四层提的是相对深层的特征；所述的CNN网络是一个从下向上的结构，即由第四层所提取的特征来指导第三层的特征提取，由第三层所提取的特征指导第二层的特征提取，以此类推。本发明依据通道注意力机制模块来指导判别特征的筛选，从而达到深层特征指导浅层特征选择其更具判别性的特征的目的；

所述步骤2-3)中，基于步骤2-2)所得到的两个分支的特征f_u和f_r；使用超参数λ对两个分支的特征进行融合，如下所示：

z＝λf_u+(1-λ)f_r (2)

式(2)中，f_u和f_r分别代表两个分支所提取到的特征，λ如式(3)所示：

式(3)中，T代表当前所处的epoch，T_max代表训练模型所设置的最大epoch；使用超参数λ对两个分支的损失函数进行融合，如下所示：

L＝λL_u(p，y_u)+(1-λ)L_r(p，y_r) (4)

式(4)中，λ的值由式(3)所决定，p为式(2)中z通过sigmoid激活所得到的结果，L_u和L_r分别为两个分支的损失函数。

与现有技术相比，本发明的有益效果是：

通过双分支判别特征网络同时解决了现有声音事件检测数据集中存在的长尾和类别间难区分的问题与现有技术相比有更好的预测效果，能获得全局性更优、泛化性能更好的建模结果。

附图说明

图1本发明设计的双分支判别网络的模型图；

图2是本发明基于通道注意力机制的CNN模型结构图；

图3是本发明的设计流程图；

图4是本发明模型采用的注意力机制原理图；

图5是本发明的输出效果图。

具体实施方式

为了更好地理解本发明的技术方案，下面结合附图及具体实施方式详细介绍本发明。

本发明提出的一种基于双分支判别特征网络的声音事件检测方法的设计构思，通过双分支网络同时解决长尾问题和类别间难区分的问题。

如图1所示，本发明中设计的模型主要包括采样，特征提取和分支融合三个部分。通过对数据集进行均匀采样和逆采样作为模型两个分支的输入。采用基于通道注意力机制融合深层浅层特征的CNN-Transformer模型来获取声音事件更具判别性的特征。该模型提取判别特征的原理在于模型浅层特征富含空间特征但缺少语义特征的指导，而模型的深层特征随具有很强的语义信息但缺乏更精细的空间信息。因此采用通过通道注意力机制使深层特征利用自己所带的语义信息来指导浅层特征空间信息的选择，从而结合两种特征的优势获得更具判别性的特征，解决类别间难区分的问题。分支融合部分通过随着学习过程逐渐减小的超参数λ将两个分支的特征进行融合，均衡了分类器的权重。从而同时解决了长尾问题和类别间难区分问题。

下面以DCASE2017任务四数据集为研究材料对本发明基于三分支特征融合神经网络的声音事件检测方法进行描述，如图2所示，包括以下步骤：

步骤1、数据预处理：将包含声音信号的数据集进行特征提取，得到log-mel频谱图的数据集，该数据集包括51172个训练数据，488个测试数据和1100个验证数据，数据包含17个类；每次训练时Mini-batch的大小设置为64，使用二进制交叉熵损失函数，学习速率为0.0001，进行100个epoch的训练，分类评估得分采用F-score分类评分标准。在提取log-mel频谱图时，将所有音频剪辑都转换为单声道，并重新采样为32kHz；之后使用具有1024个样本的汉宁窗口和320个样本的短时傅里叶变换来提取频谱图，使得该频谱图在1秒钟内产生100帧。

首先，设定训练集D＝{(x₁，y₁)…(x_n，y_n)}，其中n是训练集中样本的数量；(x_k，y_k)，且k∈(1，…n)，表示样本的输入和该样本所对应的标签。

所述的均匀采样中，训练集中的每个样本在一个训练时段内以相同的概率采样一次，该训练集中样本采样的概率都为该采样方法得到的每个epoch的输入样本和该样本所对应的标签(x_u，y_u)。

所述的逆采样中，本发明中提出一个基于类别数量的倒数对训练集D中的样本进行采样的方法，具体的每一个类别的采样概率如下所示：

式中，p_i代表第i个类取样的概率，n_i代表第i个类的样本数量，c代表训练集类别的数量；该采样方法得到的每个epoch的输入样本和该样本所对应的标签为(x_r，y_r)。

至此得到了两个分支的样本输入和样本所对应的标签，包括(x_u，y_u)和(x_r，y_r)

2-2)该步骤采用CNN-Transformer来提取数据的深层特征。CNN-Transformer结合CNN和Transformer的优点，先通过CNN提取时log-mel频谱图的帧级特征，然后使用Transformer进行帧间关系建模，提取log-mel频谱图的时域特征。

本发明采用一个9层的CNN来提取时频谱图的帧级别特征，这个9层CNN由4个卷积块组成，其中每个卷积块由2个内核大小为3×3的卷积层组成。在每个卷积层之后再使用批量归一化和ReLU非线性函数。通过4个卷积块后分别映射为64、128、256和512维的特征。并且在每个卷积块之后应用2×2的平均池化方法来提取高级特征。并采用Transformer编码器的形式进一步提取CNN所提取特征的时域特征。

如图3所示本发明将CNN网络结构分为四层，随着层数的增加提取的特征逐渐加深；就是说第一层提的是相对浅层特征，第四层提的是相对深层的特征。本发明提出的提取判别特征的CNN模型，是一个从下向上的结构。就是通过通道注意力机制由第四层所提取的特征来指导第三层的特征提取，由第三层所提取的特征指导第二层的特征提取以此类推。

如图4所示为本发明所采用的通道注意力机制，设本发明所用到的浅层特征为f_s，深层特征为f_d。f_s和f_d首先通过1个1*1的卷积层，将两种特征通道数统一调整为256，之后将两种特征通过concate方式融合得到特征f_c。

再将f_c进行全局池化整合特征信息使特征在类内更为紧凑，之后再通过有2个1*1的卷积层和1个relu层的卷积块将特征的通道数从512再调整到256并且优化f_c使其对分类更加有利。

将f_c通过sigmoid函数得到通道权重系数α，

α＝Sigmoid(f_c)

将α与浅层特征f_s相乘的结果f_D就是深层特征指导浅层特征提取的浅层特征中的判别特征。

f_D＝αf_s

如下式所示，将判别特征f_D和深层特征f_d相加就是更具判别特征的深层特征，该特征兼顾了空间信息如语义信息。

f＝f_D+f_d

最终基于步骤2-1)获得的两个分支的样本输入和样本所对应的标签(x_u，y_u)和(x_r，y_r)所提取到的两个分支特征分别为f_u和f_r。

2-3)采用随着学习过程逐渐减小的超参数λ将步骤2-2)得到的两个分支的特征f_u和f_r进行融合。根据融合后的特征分别计算两个分支的损失函数，根据损失函数反向传播修改模型的参数，完成模型的训练。具体过程是：

特征融合：使用超参数λ对两个分支的特征进行融合如下所示：

z＝λf_u+(1-λ)f_r

其中，f_u和f_r分别代表两个分支所提取到的特征，λ如下式所示；

其中，T代表当前所处的epoch，T_max代表训练模型所设置的最大epoch。

这种特征融合方式使模型在特征学习的前面学习局部特征更关注数据集的通用特征，在后面学习与类别有关的特征时更加关注尾部类的特征。

损失函数融合：使用超参数λ对两个分支的损失函数进行融合如下所示：

L＝λL_u(p，y_u)+(1-λ)L_r(p，y_r)

其中，λ的值由式所决定，p为式z＝λf_u+(1-λ)f_r中z通过sigmoid激活所得到的结果，L_u和L_r分别为两个分支的损失函数。

本发明中，上述损失函数融合方法使神经网络在学习过程中从关注特征学习逐渐到分类器学习，并且保证在训练过程中不同目标的两个分支都能在整个训练过程中不断更新，避免两个过程中的相互影响。超参数λ随着训练中epoch的增加而减少，其从使损失先关注均匀采样分支，再关注逆采样分支。该种分支融合的方法使模型在平衡分类器其权重的同时，保持模型在特征学习方面对判别性特征的学习。使模型能够提取到尾部类和难区分类的判别性特征，并且一定程度上提升了尾部类在分类器中的权重，促进了模型的分类学习。

模型每次训练时Mini-batch的大小设置为64，使用二进制交叉熵损失函数，学习速率为0.0001，进行100个epoch的训练，分类评估得分采用F-score分类评分标准。

步骤3、针对DCASE2017任务四数据集中的测试集和验证集，通过上述训练好的双分支判别特征网络模型得到对应的17个输出概率，遍历每一个类别的输出，当预测概率超过0.30，则认为该音频包含此类型的音频。得到对应的多声音事件检测结果。

该模型的输出即为该数据集的声音事件检测的结果，包括该音频所包含的声音事件类别和发生该事件的起始和终止时间。如图5所示为模型对验证集中“Y8TSHxF4Bepo_20.000_308.000.wav”音频片段的预测结果，该音频片段是一个10秒的多标签片段。由图5可以直观的看到，本发明提出的模型可以检测到该音频中包含滑板、尖叫和巴士这三种事件类别。并且由图5可以看出本发明提出的模型可以检测到滑板、尖叫和巴士这三类事件发生的起始时间。

采用相同训练集训练的双分支判别融网络模型和单分支CNN-Transformer网络模型的声音事件检测分类结果的对比图如表1所示，其中的分类结果为每一个类别的F1准确率。

由表1可以看出数据集中的尾部类例如汽车防盗器类和倒转蜂鸣声类分类效果有所提升，同时可以看出数据集中的难区分类例如经过的汽车类也有所提升。由此证明通过双分支判别特征网络提高了模型提取尾部类和难区分的类的判别性特征的能力，有效的解决了类别之间难区分的问题。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种基于双分支判别特征神经网络的声音事件检测方法，其特征在于，包括以下步骤：

步骤3、将测试集和验证集作为训练后的模型的输入，该模型的输出即为该数据集的声音事件检测的结果，包括音频所包含的声音事件类别和发生该事件的起始和终止时间。

2.根据权利要求1所述的声音事件检测方法，其特征在于，所述步骤1中，提取log-mel频谱图时将所有音频剪辑都转换为单声道，并重新采样为32kHz；之后使用具有1024个样本的汉宁窗口和320个样本的短时傅里叶变换来提取谱图，使得该谱图在1秒钟内产生100帧。

3.根据权利要求2所述的声音事件检测方法，其特征在于，所述步骤1中，将所述的log-mel频谱图的数据集分为训练集、测试集和验证集的划分比例为8：1：1。

4.根据权利要求1所述的声音事件检测方法，其特征在于：所述步骤2-1)中，设定训练集D＝{(x₁，y₁)…(x_n，y_n)}，其中n是训练集中样本的数量；(x_k，y_k)，且k∈(1，…n)，表示样本的输入和该样本所对应的标签；

所述的均匀采样中，训练集中的每个样本在一个训练时段内以相同的概率采样一次，该训练集中样本采样的概率都为将均匀采样的样本输入和该样本所对应的标签记为(x_u，y_u)；

所述的逆采样中，基于类别数量的倒数对训练集D中的样本进行采样，每一个类别的采样概率如下所示：

式(1)中，p_i代表第i个类取样的概率，n_i代表第i个类的样本数量，c代表训练集类别的数量；将逆采样的样本输入和该样本所对应的标签记为(x_r，y_r)；

两个分支的样本输入和样本所对应的标签包括(x_u，y_u)和(x_r，y_r)。

5.根据权利要求1所述的声音事件检测方法，其特征在于：所述步骤2-2)中，采用CNN-Transformer模型，先通过CNN网络提取log-mel频谱图的帧级特征，然后使用Transformer进行帧间关系建模，提取log-mel频谱图的时域特征；基于步骤2-1)获得的两个分支的样本输入和样本所对应的标签(x_u，y_u)和(x_r，y_r)所提取到的两个分支特征分别为f_u和f_r。

6.根据权利要求5所述的声音事件检测方法，其特征在于：所述的CNN网络结构分为四个层，随着层数的增加提取的特征逐渐加深；第一层提取的是相对浅层的特征，第四层提的是相对深层的特征；所述的CNN网络是一个从下向上的结构，即由第四层所提取的特征来指导第三层的特征提取，由第三层所提取的特征指导第二层的特征提取，以此类推；

依据通道注意力机制指导判别特征的筛选，从而达到深层特征指导浅层特征选择。

7.根据权利要求1所述的声音事件检测方法，其特征在于，所述步骤2-3)中，基于步骤2-2)所得到的两个分支的特征f_u和f_r；使用超参数λ对两个分支的特征进行融合，如下所示：

z＝λf_u+(1-λ)f_r (2)

式(3)中，T代表当前所处的epoch，T_max代表训练模型所设置的最大epoch；

使用超参数λ对两个分支的损失函数进行融合，如下所示：

L＝λL_u(p，y_u)+(1-λ)L_r(p，y_r) (4)