CN111079794B

CN111079794B - 一种基于类别间相互融合的声音数据增强方法

Info

Publication number: CN111079794B
Application number: CN201911146569.8A
Authority: CN
Inventors: 蒋大灿; 郑伟平
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-02-28
Anticipated expiration: 2039-11-21
Also published as: CN111079794A

Abstract

本发明公开了一种基于类别之间相互融合的声音数据增强方法，包括将数据集向下聚类，利用聚类的大类结果辅助选择要拼接的频谱图的小类别，随后选出要拼接的频谱图；分别在选出的频谱图时域上截取连续的α、1‑α比例面积的频谱图，然后将截取出的频谱图在时域上进行拼接，并为拼接后的频谱图打上相应的标签；将拼接的频谱图和相应标签加入增强后的频谱图集中。利用增强后的频谱图训练神经网络，以达到更优的声音识别性能。本发明利用向下聚类，可控的选择出要拼接的频谱图类别，保证了数据分布的可控性；提出在时域上融合两张频谱图的方法，高效的利用了数据的信息，达到了增强数据的效果，进而提升了声音识别性能。

Description

一种基于类别间相互融合的声音数据增强方法

技术领域

本发明属于深度学习的技术领域，具体涉及一种基于类别间相互融合的声音数据增强方法。

背景技术

在机器学习和深度学习中经常遇到的一个难点是：可用的训练数据数量较少，这在一定程度上会导致模型的过拟合。常用的解决过拟合的方法有：DropOut、BatchNormalization、L1/L2正则化和数据增强等。

在数据增强领域近几年涌现了许多不错的方法：文献1(Sebastien C.Wong,AdamGatt,Victor Stamatescu and Mark D.McDonnell.Understanding data augmentationfor classification:when to warp？[C].DICTA 2016.)对比了在数据空间和特征空间进行数据增强的结果，得出了在标签确定的情况下数据空间进行数据增强较好的结论。文献2(Justin Salamon and Juan Pablo Bello.Deep Convolutional Neural Networks andData Augmentation for Environmental Sound Classification[J].IEEE SignalProcessing Letters,2017,24:279-283)介绍了Time stretching、Pitch shifting、Pitchshifting、Dynamic range compression和Background noise这些在音频上进行数据增强的传统方法。文献3(Zhun Zhong,Liang Zheng,Guoliang Kang,Shaozi Li and YiYang.Random Erasing Data Augmentation[C].CVPR,2017.)采用类似于DropOut的方法，随机擦除掉训练集图像的一部分，而保持标签不变，从而达到数据增强的目的。文献4(Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe and JonathonShlens.Rethinking the Inception Architecture for Computer Vision[C].CVPR,2016.)提出了标签平滑的方法，通过标签平滑可以让一张图像以不同权重对应不同类别的标签，这在一定程度上降低了模型过拟合的风险。

受文献4启发，本发明提出一种基于类别间相互融合的声音数据增强方法：将不同类别的频谱图融合，同时标签随之平滑；这样使得数据的分布更加宽广和均匀，以达到较好的数据增强效果。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于类别间相互融合的声音数据增强方法，利用向下聚类，可控的选择出要拼接的频谱图，保证了数据分布的可控性，随后利用选择出的频谱图在时域上进行融合，得到增强后的频谱图。

为了达到上述目的，本发明采用以下技术方案：

一种基于类别间相互融合的声音数据增强方法，包括下述步骤：

S1：从待增广集中随机选择一张频谱图作为待拼接的频谱图，记为SP_1，设其所属类别为i，i∈{1,2,…,N},N是频谱图集中类别个数；

S2：根据设定的频谱图选择算法，从频谱图集中选择另外一张频谱图作为待拼接的频谱图，记为SP_2，设其类别为j，j∈{1,2,…,N},j≠i；

S3：分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像，记截取后的图像分别为CUT_1,CUT_2；

S4：将CUT_1,CUT_2在时域上拼接在一起，记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签，其中Label是同时带有类别i、类别j的标签，Label[i]、Label[j]值分别为α，1-α，其余值均为0，这时SP、Label可以表示为：

SP＝α⊙SP_1⊕(1-α)⊙SP_2

Label＝α×label_1+(1-α)×label_2

⊙表示在时域上截取相应面积，⊕表示在时域上拼接，label_1、label_2分别是SP_1、SP_2对应的onehot标签；

S5：将(SP,Label)加入增强后的频谱图集中；

S6：重复步骤S1-S5，得到大量的增强频谱图，利用增强的频谱图提升声音数据识别准确率。

作为优选的技术方案，步骤S2中，根据设定的频谱图选择算法具体为：

S21：将频谱图集进行向下谱聚类，设聚类前共有N个类别{1,2,…,N}，聚类后的大类别数为M(M<N),则聚类后M个大类可表示为形如{C1＝[2,3,6],C2＝[1,7,5],…,CM＝[8,4]}(即每个大类都包含若干个小类)，其中Ck表示第k个大类，这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签)；

S22：以概率p选择一个小类别j，j≠i,p表示类别j跟类别i同属于一个大类的概率，p的公式如下：

并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。

作为优选的技术方案，步骤S3中，α∈U(0.7,0.9)。

作为优选的技术方案，步骤S4中，将CUT_1,CUT_2在时域上拼接在一起，具体拼接方法如下：

S41：分别将CUT_1、CUT_2转换成二维矩阵array1_M×N、array2 _M×K；

S42：从第一列开始，依次将array2的列并入array1最后一列后面，使得array1变成M行N+K列的矩阵array1_M×(N+K)；

S43：将array1_M×(N+K)转换成图片，作为CUT_1、CUT_2拼接后的图片。

作为优选的技术方案，步骤S5中，将(SP,Label)加入增强后的频谱图集中，具体步骤如下：

S51：将SP存储到增强后的频谱图集合中，将Label存储到增强后的标签集合中；

S52：为SP和Label建立一个映射，使得在训练神经网络之前读入SP时，也读入相应的Label。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明将不同类别的频谱图进行融合，同时融合后的图像标签进行相应的平滑，使得数据在空间的分布向周围扩散，与现有技术相比，这样会使得数据覆盖更广，增强效果更佳。

2、本发明通过向下聚类，将原来多个小类别聚成数量更少的大类别，通过大类别选择需要融合的频谱图，这样可控的选择信息更加相似或者不相似的两张频谱图。相比现有技术，这样可以控制数据在空间扩散的方向，达到更好的增强效果。

附图说明

图1是基于类别间相互融合的声音数据增强方法的总体流程图；

图2是谱聚类的流程图；

图3是实施例步骤S412中的网络模型结构，采用的是改进的VGG网络模型；

图4是增强前频谱图样例；

图5是增强后的频谱图样例。

图6是用验证集得到的混淆矩阵W的图，混淆矩阵反应了预测结果跟真实结果的差异，W中第i行j列的元素Wij的值表示真实类别为j，但是预测类别为i的频谱图张数。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例一种基于类别间相互融合的声音数据增强方法，包括下述内容：

(1)将待增强频谱图集中两个不同类别(设为i，j)的频谱图SP_1、SP_2融合在一起，使得融合后的频谱图SP同时带有这两个类别的信息，并为SP打上相应的标签Label，使得频谱图信息和标签信息都进行了相应的平滑，让数据空间更加扩散。

SP＝α⊙SP_1⊕(1-α)⊙SP_2

Label＝α×label_1+(1-α)×label_2

(⊙表示在时域上截取相应面积，⊕表示在时域上拼接，label_1、label_2分别是SP_1、SP_2对应的onehot标签)

(2)将待增强的频谱图集进行向下聚类(设聚成M个大类)，这时在同一个大类中各个小类别(频谱图集对应的原始类别)相似度会比不同大类间小类别的相似度高。利用这个信息，我们将聚成的大类辅助选择SP_2，使得SP_2以一定的概率跟SP_1出现在同一个大类中。这样可控的调整SP_1和SP_2的相似度，将不同相似度的频谱图进行融合，以达到更好的数据增强效果。

本实施例以增强DCASE2017声音场景识别的数据为例，增强过程具体包括下述步骤：

步骤S1：本实施例使用的数据集包括DCASE2017 task1声音场景识别的Development音频集与Evaluation音频集，其中每个音频的长度都为10秒，每个音频对应一个场景标签，共有[beach,bus,car,city_center,forest_path,grocery_store,home,library,metro_station,office,park,residential_area,train,tram]15个类别，为方便训练，将场景标签分别用[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]代替，这样每个音频对应[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]中的一个标签；取Development音频集的90％做为训练集Tr，其余10％做为验证集Vl，将Evaluation音频集做为测试集Te。

步骤S2：从Tr中逐个取出音频文件，通过预加重、分帧、加窗、短时傅立叶变换(STFT)等操作后得到时频特征图(STFT的窗长为706，步长为276)，将多个帧的时频特征图组织连接起来可得到一个音频对应的大频谱图；接着按照一定的重叠度和宽度，将大频谱图切成若干小频谱图(本例中一个音频生成30张小频谱图，每张小频谱图大小为143*143像素大小，频谱图样例如图4所示)，并为每张频谱图打上相应音频的类别标签，最后将带标签的所有小频谱图作为训练频谱图集Tr^STFT；类似的可以得到验证频谱图集Vl^STFT，测试频谱图集Te^STFT。

步骤S3：从训练频谱图集Tr^STFT中随机选择一张频谱图作为待拼接的频谱图，记为SP_1，设其类别为i(i∈{1,2,…,14})。

步骤S4：根据设定的频谱图选择算法，从训练频谱图集Tr^STFT中选择另外一张频谱图作为待拼接的频谱图，记为SP_2，设其类别为j(j∈{1,2,…,14},j≠i)，具体选择的步骤如下：

步骤S41：将Vl^STFT进行向下谱聚类，如图2，具体步骤如下：

步骤S411：用Tr^STFT训练一个深度神经网络模型model(model的结构如图3所示，训练的batchsize为512，epoch为200)；

步骤S412：将Vl^STFT通过model前向传播，并保存下相应的混淆矩阵W(如图6所示)，混淆矩阵反应了预测结果跟真实结果的差异，W中第i行j列的元素W_ij的值表示真实类别为j，但是预测类别为i的频谱图张数。

步骤S413：如图2所示，对混淆矩阵W进行计算对角矩阵、计算拉普拉斯矩阵、归一化、求特征值矩阵、kmeans聚类步骤(此例中聚为3类)，得到聚类的结果，聚类前共有15个类别{0,1,2,…,14}，聚类后得到的结果为：{C₁＝[1,3,13,14],C₂＝[0,4,5,11,12],C₃＝[2,6,7,8,9,10]}(即每个大类都包含若干个小类)，其中C_k表示第k个大类，这时每一张频谱图都对应一个大类的标签C_k和一个小类标签i(聚类前的标签)；

步骤S42：以概率p选择一个小类别j(j≠i),p表示类别j跟类别i同属于一个大类的概率，p的公式如下(此例中M＝3)：

并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2；

步骤S5：分别将SP_1、SP_2在时域上截取α(α∈U(0.7,0.9))、1-α比例面积的图像，记截取后的图像分别为CUT_1,CUT_2；

步骤S6：将CUT_1,CUT_2在时域上拼接在一起，记拼接后的图像为SP(SP样例如图5所示),将onehot标签Label(0,…,α,…,1-α,…)作为SP的标签，其中Label是同时带有类别i、类别j的标签(Label[i]、Label[j]值分别为α，1-α，其余值均为0)，这时SP、Label可以表示为：

SP＝α⊙SP_1⊕(1-α)⊙SP_2

Label＝α×label_1+(1-α)×label_2

步骤S7：将(SP,Label)加入增强后的频谱图集中。

步骤S8：重复步骤S3-S7，得到大量的增强频谱图。

将增强的频谱图和原频谱图用图3的网络结构训练一个模型model2(训练的batchsize为512，epoch为200)，再用测试频谱图集Te通过model2前向传播，以测试集准确率TEST ACC(％)为评价标准，其他条件不变的情况下，频谱图增强前后的实验结果如表1所示：

表1

通过上述实验可以看出，本发明利用向下聚类，可控的选择出要拼接的频谱图类别，保证了数据分布的可控性；提出在时域上融合两张频谱图的方法，高效的利用了数据的信息，达到了增强数据的效果，进而提升了声音识别性能。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于类别间相互融合的声音数据增强方法，其特征在于，包括下述步骤：

SP＝α⊙SP_1⊕(1-α)⊙SP_2

Label＝α×label_1+(1-α)×label_2

⊙表示在时域上截取相应面积，⊕表示在时域上拼接，label_1、label_2分别是SP_1、SP_2对应的onehot标签

S5：将(SP,Label)加入增强后的频谱图集中；

2.根据权利要求1所述基于类别间相互融合的声音数据增强方法，其特征在于，步骤S2中，根据设定的频谱图选择算法具体为：

并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。

3.根据权利要求1所述基于类别间相互融合的声音数据增强方法，其特征在于，步骤S3中，α∈U(0.7,0.9)。

4.根据权利要求1所述基于类别间相互融合的声音数据增强方法，其特征在于，步骤S4中，将CUT_1,CUT_2在时域上拼接在一起，具体拼接方法如下：

S41：分别将CUT_1、CUT_2转换成二维矩阵array1_M×N、array2_M×K；

5.根据权利要求1所述基于类别间相互融合的声音数据增强方法，其特征在于，步骤S5中，将(SP,Label)加入增强后的频谱图集中，具体步骤如下：