CN108932950B

CN108932950B - 一种基于标签扩增与多频谱图融合的声音场景识别方法

Info

Publication number: CN108932950B
Application number: CN201810479614.0A
Authority: CN
Inventors: 郑伟平; 刑晓涛; 莫振尧
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2021-07-09
Anticipated expiration: 2038-05-18
Also published as: CN108932950A

Abstract

本发明公开了一种基于标签扩增与多频谱图融合的声音场景识别方法，包括：利用不同的信号处理技术，为声音场景数据生成多种频谱图；针对每种频谱图，分别训练一个深度卷积神经网络模型，做为基础分类模型；利用标签扩增技术，为样本扩增超类别标签，使用人为构造的层次标签，将原有网络模型改进为多任务学习模型，优化基础分类模型的性能；利用改进的基础分类模型提取样本特征，拼接声音场景文件的多个深度特征，并加以降维得到全局特征。融合对应不同频谱图的多个全局特征，训练SVM分类器，做为最终分类模型。本发明应用多频谱图特征融合技术，有效提升识别性能；提出的标签扩增及模型提升方法，能有效优化基础分类器性能，可推广到其它应用研究中。

Description

一种基于标签扩增与多频谱图融合的声音场景识别方法

技术领域

本发明属于场景识别的技术领域，尤其涉及一种基于标签扩增与多频谱图融合的声音场景识别方法。

背景技术

声音场景识别技术通过分析音频数据，判别机器所在空间环境的属性、功能和用途。基于卷积神经网络的声音场景识别已经成为该领域最为有效的方法之一。由于声音场景数据集按照场所的功能进行标记，其中的类间相似性问题更加突出，例如图书馆和自习教室就很容易相互误判。另一方面，这些在声学特征上本来就很相似的数据，由于功能用途不同，在训练网络模型时被不加区别地被认为不同的类别，这种方式阻碍了网络模型学习声音场景的内在特征模式。例如，学习出来的网络模型认为图书馆不同于餐厅，图书馆也不同于自习课室，但是可能无法表达图书馆和餐厅的差别更大些。

为了区分不同类别之间的相似程度，提供层次型的标签是一种比较合理的做法。但是，目前绝大多数的声音场景数据集仅提供单级的场景标签。为此，可以对声音场景类别进行聚类，向上构造出超类别标签，我们将这种做法称为标签扩增方法。更重要的是，如何根据构造出了超类别设计卷积神经网络，更有效地指导学习过程，以期学到更加本质的声音特征。目前，这种根据声音数据相似关系主动构造层次标签，并进一步优化网络模型的研究还很少见。

文献1(Xu,Yong,Qiang Huang,Wenwu Wang,and Mark D.Plumbley."Hierarchical learning for DNN-based acoustic scene classification."arXivpreprint arXiv:1607.03682，2016)在声音场景分类中考虑了样本的分层学习问题，将样本的原始类别和大类别一起作为损失函数的项，但是并未考虑大类别标签的构造问题，而且在设计损失函数时未能有效地利用大类别与其包含的小类别之间关系来规约学习过程。文献2(Phan H,Hertel L,Maass M,et al.Label Tree Embeddings for Acoustic SceneClassification[C]//ACM on Multimedia Conference.ACM,2016:486-490.)利用谱聚类算法在原始标签之上构造了标签的层次关系，但是该文献的目的在于构造一个标签树嵌入空间，并未对构造的层次节点赋予新的标签，也未利用这些标签计算损失值。文献3(Z.Yan,H.Zhang,R.Piramuthu,V.Jagadeesh,D.DeCoste,W.Di,and Y.Yu.Hd-cnn:Hierarchicaldeep convolutional neural network for large scale visual recognition.In ICCV,2015.)是图像识别领域的研究成果，它基于谱聚类方法将标签类别聚集成粗粒度的类别，并设计了一种逐步细化分类方法。文献3的研究虽然面向图像识别，但其聚类方法同样适用于声音场景领域，在利用聚类结果方面，他们针对不同粗粒度类别设计了多个细粒度分类模块，并根据粗类别的预测结果对它们进行整合。文献4(Zhang X,Zhou F,Lin Y,etal.Embedding Label Structures for Fine-Grained Feature Representation[C]//Computer Vision and Pattern Recognition.IEEE,2016:1114-1123.)研究细粒度图像识别问题，在其中考虑了层次型标签的利用问题，除了常见的Softmax Loss之外，还将多个样本组成四元组，并将其表示为相应的损失项。同样地，文献4假设层次化标签已经存在，没有考虑如何聚类提取超类别标签的问题。

另外一方面，特征融合方法是声音场景识别中经常使用的有效方法。文献5(H.Eghbal-Zadeh,B.Lehner,M.DorferandG.Widmer.CP-JKU submissions for DCASE-2016:a hybrid approach using binaural I-vectors and deep convolutional neuralnetworks.In IEEE DCASE,2016.)提出了利用CNN网络提取特征，并与I-vector特征进行融合的声音场景识别方法，取得了满意的性能。文献6(Soo Hyun Bae,Inkyu Choi and NamSoo Kim.Acoustic Scene Classification Using Parallel Combination of LSTM andCNN.In IEEE DCASE,2016.)利用CNN网络和LSTM网络同时提取特征，在组合两者特征的基础上实现了一个端到端的分类模型。考虑到声音识别领域中，存在多种语音特征提取方案，例如MFCC、CQT、LPCC、STFT等，它们各有自己的优势。本发明从这个角度出发，提出多频谱图融合的声音场景识别方案，利用多种语音特征提取技术生成多种频谱图，针对每种频谱图使用卷积神经网络训练得到一个基础分类器，再通过特征融合方法得到一个性能更好的识别模型。本发明进一步地将前述标签扩增方法应用到多频谱图融合方法中，具体来说，利用标签扩增方法来提升基础分类器的性能，进而提升整体集成方案的识别性能。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于标签扩增与多频谱图融合的声音场景识别方法。

为了达到上述目的，本发明采用以下技术方案：

本发明一种基于标签扩增与多频谱图融合的声音场景识别方法，包括下述步骤：

步骤S1：把声音场景文件集按一定比例划分为训练部分Tr，验证部分Vl，测试部分Te。不失一般性，假设本发明采用R种频谱图格式，记为SP_r，r∈[1,R]。

步骤S2：对于每个频谱图格式SP_r，r∈[1,R]，执行如下操作：从Tr中逐个取出音频文件，通过分帧、加窗、短时傅立叶变换等操作后，得到相应的时频特征值，将多个帧的时频特征值组织起来，成为一个SP_r格式的频谱图；按照一定的宽度和重叠程度，将频谱图切分成为多个图像样本，这些样本构成了训练样本集Tr^SP_r；类似地，可以得到Vl^SP_r，Te^SP_r。必要时，对所有图像样本进行缩放，以适应步骤S3中所设计的卷积神经网络的输入要求。

步骤S3：对于每个频谱图格式SP_r，r∈[1,R]，执行如下操作：选用某个主流的CNN网络模型做为基本架构，构造一个有Q个节点的输出层，Q为声音场景数据集的原始类别个数，记其标签类别集合为：H＝{h₁,h₂,…,h_Q}；输出层的前一层有V^SP_r个神经元，以全连接方式连接到输出层，其权重记为

使用Tr^SP_r，Vl^SP_r，Te^SP_r训练上述模型，得到基准模型CL^SP_r。

步骤S4：使用标签扩增方法，对每个基准模型CL^SP_r(r∈[1,R])进行提升，得到最终分类模型CL_FIN^SP_r(r∈[1,R])。具体过程如下：

步骤S4_1：在CL^SP_r上测试Te^SP_r，得到准确率Pr^SP_r；在DS^SP_r＝Tr^SP_r∪Vl^SP_r上使用四折交叉方法重新训练步骤3的网络模型，将四次测试的分类结果求平均，构造混淆矩阵F^SP_r，其中

代表第i类样本被分类为第j类样本的次数。定义距离矩阵D^SP_r为：D^SP_r＝(F^SP_r+(F^SP_r)^T)/2。

步骤S4_2：在距离矩阵D^SP_r上应用谱聚类(Spectral Clustering)算法，将H划分为N个子集(簇)：S₁∪S₂∪…∪S_N＝H,

对应地，构造超类别(SuperType)标签集合

对于任何样本x：

其中Aff(x,b)表示给x标注上标签b。

步骤S4_3：在CL^SP_r网络模型的基础上，增加一个有N个节点的输出层，以全连接方式连到前一层，新增连接的权重记为：

按高斯分布随机初始化新增连接的权重，保留原有模型所有连接的权重。本发明方法的损失函数如公式(1)所示。

其中，x_i为第i个样本，

分别为样本x_i的原始标签与超类别标签，P^SP_r为训练集样本总数，h(j)∈HLable^SP_r是原始类别j所属的超类别。由于原始类别和超类别在分类模式上存在相关性，因此本发明将两者的关系表达为规则化项：

整合到损失函数中进行优化；将该修改后的网络模型记为CL_MT^SP_r。

步骤S4_4：按照步骤S4_2的划分情况，为Tr^SP_r，Vl^SP_r，Te^SP_r的样本标注扩增的超类别标签，使用它们重新训练CL_MT^SP_r。

步骤S4_5：使用训练好的CL_MT^SP_r评估Te^SP_r并记录准确率Pr_MT^SP_r。如果Pr_MT^SP ^_r>Pr^SP_r，将CL_MT^SP_r做为SP_r频谱图的最终分类模型CL_FIN^SP_r；否则，如果步骤S4_4已经被执行过M次，则将CL^SP_r做为最终分类模型CL_FIN^SP_r，否则改变N值，跳转到步骤S4_2执行。

步骤S5：对于每个频谱图格式SP_r，r∈[1,R]，执行如下操作：为每个声音场景音频文件A，构造与SP_r格式对应的全局特征G^SP_r(A)。具体来说，取出与文件A对应的全部的SP_r格式图像样本，分别输入CL_FIN^SP_r，提取其输出层之前一层的神经元激活值做为样本特征，按随机次序将样本特征串接起来，再应用PCA降维，得到G^SP_r(A)。

步骤S6：经过步骤S5，每个文件A均有R个全局特征G^SP_r(A)(r∈[1,R])，将它们按如下规则两两串接：G^SP_a(A)+G^SP_b(A)(a,b∈[1,R]∧a<b)，可生成R(R-1)/2种聚合特征。使用Tr、Vl和Te中的音频文件，按上述规则生成R(R-1)/2种聚合特征；使用一种聚合特征，训练一个SVM分类器，对应地可以得到R(R-1)/2个SVM分类器。根据分类器在Te上的评估性能，选择准确率最高的SVM分类器做为本发明的最终分类模型。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明利用不同的信号处理技术，为同个语音场景文件生成多种频谱图，利用这些不同的频谱图数据分别训练出多个基础分类器，做为特征提取工具，再通过特征融合方法，提升了模型识别精度。本发明提出的方法主要构造不同种类的频谱图，使用CNN网络做为基础识别模型，即使基础分类器采用同一CNN结构也可以得到满意的性能提升效果。

2、本发明将容易混淆的类别划分成为一个超类别，人为地构造超类别标签，并利用此超类别标签将原有的基础分类器改造成为多任务学习模型，使网络模型能提取到更本质的声学特征，优化了基础分类器的性能，进而提升整体融合方案的性能。

3、本发明不仅考虑超类别的重构误差，还考虑超类别与其包含的原始类别之间的隶属关系，将这种关系表示为规范化项，在训练过程中进行联合优化，使得系统更加鲁棒、训练收敛更快。

附图说明

图1是本发明的基于多频谱图融合的声音场景识别流程图。

图2是本发明的基于标签扩增的基准模型性能提升流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例一种基于标签扩增与多频谱图融合的声音场景识别方法，包括下述步骤：

步骤S1：本实施例使用的数据集包括DCASE2017声音场景识别的Development文件集与Evaluation文件集；将Development文件集的90％做为训练部分Tr，其余10％做为验证部分Vl，将Evaluation文件集做为测试部分Te。每个文件集里的音频文件长度为10秒。不失一般性，本实施例仅使用两种频谱图格式来说明实施步骤：一是STFT频谱图，另一个是CQT频谱图。

步骤S2：从Tr中逐个取出音频文件，通过分帧、加窗、短时傅立叶变换等操作后，得到STFT时频特征值，将多个帧的时频特征值组织起来，成为一个STFT频谱图；按照一定的宽度和重叠程度，将该频谱图切分成为多个图像样本，在本实施例中，每个音频文件生成16张图像样本，样本被缩放为143*143像素大小，这些样本构成了训练样本集Tr^STFT；类似地，可以得到Vl^STFT，Te^STFT。同样地，从Tr中逐个取出音频文件，通过分帧、加窗、短时傅立叶变换等操作后，得到CQT频谱图，按照一定的宽度和重叠程度，将该频谱图切分成多个图像样本，在本实施例中，每个音频文件生成20张图像样本，样本被缩放为143*143像素大小，这些样本构成了训练样本集Tr^CQT；类似地，可以得到Vl^CQT，Te^CQT。

步骤S3：在本实施例中，为STFT频谱图格式和CQT频谱图格式选用相同的CNN网络结构来构建基准分类模型。该网络结构采用类似VGGNet的卷积神经网络，设置其输出层的节点数量为Q，对应原始类别的个数，DCASE2017声音场景识别数据集分为15类场景，记其标签类别集合为：H＝{h₁,h₂,…,h_Q}(Q＝15)；输出层之前的一层有V^SP_r(SP_r∈[STFT,CQT]，本实施例中V^STFT＝V^CQT)个神经元，以全连接方式连接到输出层，其权重记为

在输出层上使用softmax激活函数，采用对数似然损失函数，训练的基础学习率为0.0001，Batch_Size为256，Epoch为1000，使用adam优化方法。分别地，使用Tr^STFT，Vl^STFT，Te^STFT训练上述网络结构，可以得到基准模型CL^STFT；使用Tr^CQT，Vl^CQT，Te^CQT训练上述网络结构，可以得到基准模型CL^CQT。

步骤S4：使用标签扩增方法，对基准模型进行提升，得到最终分类模型。本步骤需要分别在CL^STFT和CL^CQT上完成，下面以CL^STFT为例阐述其过程步骤。

步骤S4_1：在CL^STFT上测试Te^STFT，得到测试准确率Pr^STFT；在DS^STFT＝Tr^STFT∪Vl^STFT上使用四折交叉方法重新训练步骤3的网络模型(按72％、8％、20％的比例将DS^STFT划分为训练集、验证集和测试集)，将四次测试的分类结果求平均，构造混淆矩阵F^STFT，其中

代表第i类样本被分类为第j类样本的次数。定义距离矩阵D^STFT为：D^STFT＝(F^STFT+(F^STFT)^T)/2。

步骤S4_2：本实施例中，将N初始化为3；在距离矩阵D^STFT上应用谱聚类算法，将H划分为N个子集(簇)：S₁∪S₂∪…∪S_N＝H,

对应地，构造超类标签集合

对于任何样本x：

其中Aff(x,b)表示给x标注上标签b。

步骤S4_3：在CL^STFT的网络模型基础上，增加一个有N个节点的输出层，以全连接方式连到前一层，新增连接的权重记为：

按高斯分布随机初始化新增连接的权重，保留原有模型所有连接的权重。本发明方法的损失函数如公式(2)所示。

其中，x_i为第i个样本，

分别为样本x_i的原始标签与超类别标签，P^STFT为训练集样本总数，h(j)∈HLable^STFT是原始类别j所属的超类别。在本实施例中，γ取0.4；α、β均取0.0001。由于原始类别和超类别在分类模式上存在相关性，因此本发明将两者的关系表达为规则化项：

整合到损失函数中进行优化。将该修改后的网络模型记为CL_MT^STFT。

步骤S4_4：按照步骤S4_2的划分情况，为Tr^STFT，Vl^STFT，Te^STFT的样本标注扩增的超类别标签，使用它们重新训练CL_MT^STFT。

步骤S4_5：使用训练好的CL_MT^STFT评估Te^STFT并记录准确率Pr_MT^STFT。如果Pr_MT^STFT>Pr^STFT，将CL_MT^STFT做为STFT频谱图的最终分类模型CL_FIN^STFT；否则，如果步骤S4_4已经被执行过M次，则将CL^STFT做为最终分类模型CL_FIN^STFT，否则改变N值(本实施例中，N＝N+1；M取为3)，然后跳转到步骤S4_2执行。

在CL^CQT模型上，同样地执行步骤S4_1、S4_2、S4_3、S4_4、S4_5(执行时各步骤中的STFT字眼均需替换成CQT)；在本实施例中，N取为3时，Pr_MT^STFT>Pr^STFT，CL_MT^STFT被选为最终分类模型CL_FIN^STFT；同样地，N取为3时，Pr_MT^CQT>Pr^CQT，CL_MT^CQT被选为最终分类模型CL_FIN^CQT。

步骤S5：对于每个音频文件A，(1)利用CL_FIN^STFT构造其全局特征：取出与A对应的16个STFI频谱图格式的图像样本，分别输入CL_FIN^STFT，提取其输出层之前一层的神经元激活值做为样本特征，按随机次序将样本特征串接起来，再应用PCA降维，得到A的全局特征G^STFT(A)；(2)利用CL_FIN^CQT构造其全局特征：取出与A对应的20个CQT频谱图s格式的图像样本，应用相同的方法，得到A的全局特征G^CQT(A)。

步骤S6：本实施例中仅使用STFT和CQT两者频谱图格式，故只有一种组合方式。将每个文件A的G^STFT(A)和G^CQT(A)串接起来，做为该文件的聚合特征。使用Tr、Vl和Te中的音频文件的聚合特征，训练一个SVM分类器，将其做为最终的分类模型。在本实施例中，SVM使用线性核函数，惩罚系数为1.0。据此，本发明方法在DCASE2017声音场景Evaluation文件集上的识别准确率如表1所示。

表1

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于标签扩增与多频谱图融合的声音场景识别方法，其特征在于，包括下述步骤：

S1：把声音场景文件集按设定比例划分为训练部分Tr，验证部分Vl，测试部分Te，不失一般性，假设采用R种频谱图格式，记为SP_r，r∈[1,R]；

S2：对于每个频谱图格式SP_r，r∈[1,R]，执行如下操作：从Tr中逐个取出音频文件，通过分帧、加窗、短时傅立叶变换操作后，得到相应的时频特征值，将多个帧的时频特征值组织起来，成为一个SP_r格式的频谱图；按照设定的宽度和重叠程度，将频谱图切分成为多个图像样本，这些图像样本构成了训练样本集Tr^SP_r；通过相同的方法，得到Vl^SP_r，Te^SP_r；

S3：对于每个频谱图格式SP_r，r∈[1,R]，执行如下操作：选用CNN网络模型做为基本架构，构造一个有Q个节点的输出层，Q为声音场景数据集的原始类别个数，记其标签类别集合为：H＝{h₁,h₂,…,h_Q}；输出层的前一层有V^SP_r个神经元，以全连接方式连接到输出层，其权重记为

使用Tr^SP_r，Vl^SP_r，Te^SP_r训练上述模型，得到基准模型CL^SP_r；

S4：使用标签扩增方法，对每个基准模型CL^SP_r进行提升，得到最终分类模型CL_FIN^SP_r，r∈[1,R]；

步骤S4具体包括下述步骤：

S4_1：在CL^SP_r上测试Te^SP_r，得到准确率Pr^SP_r；在DS^SP_r＝Tr^SP_r∪Vl^SP_r上使用四折交叉方法重新训练步骤3的网络模型，将四次测试的分类结果求平均，构造混淆矩阵F^SP_r，其中

代表第i类样本被分类为第j类样本的次数，定义距离矩阵D^SP_r为：D^SP_r＝(F^SP_r+(F^SP_r)^T)/2；

S4_2：在距离矩阵D^SP_r上应用谱聚类算法，将H划分为N个子集：S₁∪S₂∪…∪S_N＝H,

其中i,j∈[1,N]；i≠j；对应地，构造超类别标签集合

对于任何样本x：

其中Aff(x,b)表示给x标注上标签b；

S4_3：在CL^SP_r网络模型的基础上，增加一个有N个节点的输出层，以全连接方式连到前一层，新增连接的权重记为：

按高斯分布随机初始化新增连接的权重，保留原有模型所有连接的权重；

S4_4：按照步骤S4_2的划分情况，为Tr^SP_r，Vl^SP_r，Te^SP_r的样本标注扩增的超类别标签，使用它们重新训练CL_MT^SP_r；

S4_5：使用训练好的CL_MT^SP_r评估Te^SP_r并记录准确率Pr_MT^SP_r；如果Pr_MT^SP_r>Pr^SP_r，将CL_MT^SP_r做为SP_r频谱图的最终分类模型CL_FIN^SP_r；否则，如果步骤S4_4已经被执行过M次，则将CL^SP_r做为最终分类模型CL_FIN^SP_r，否则改变N值，跳转到步骤S4_2执行；

S5：对于每个频谱图格式SP_r，r∈[1,R]，执行如下操作：为每个声音场景音频文件A，构造与SP_r格式对应的全局特征G^SP_r(A)；

S6：经过步骤S5，每个文件A均有R个全局特征G^SP_r(A)，r∈[1,R]，将它们按如下规则两两串接：G^SP_a(A)+G^SP_b(A)，a,b∈[1,R]∧a<b，生成R(R-1)/2种聚合特征；使用Tr、Vl和Te中的音频文件，按上述规则生成R(R-1)/2种聚合特征；使用一种聚合特征，训练一个SVM分类器，对应地可以得到R(R-1)/2个SVM分类器，根据分类器在Te上的评估性能，选择准确率最高的SVM分类器做为本发明的最终分类模型。

2.根据权利要求1所述基于标签扩增与多频谱图融合的声音场景识别方法，其特征在于，步骤S2中，对所有图像样本进行缩放，以适应步骤S3中所设计的卷积神经网络的输入要求。

3.根据权利要求1所述基于标签扩增与多频谱图融合的声音场景识别方法，其特征在于，在步骤S4_3中，由于原始类别和超类别在分类模式上存在相关性，将两者的关系表达为规则化项：

整合到损失函数中进行优化；将该修改后的网络模型记为CL_MT^SP_r，损失函数如公式(1)所示：

其中，x_i为第i个样本，

分别为样本x_i的原始标签与超类别标签，P^SP_r为训练集样本总数，h(j)∈HLable^SP_r是原始类别j所属的超类别。

4.根据权利要求1所述基于标签扩增与多频谱图融合的声音场景识别方法，其特征在于，步骤S5具体为：

取出与文件A对应的全部的SP_r格式图像样本，分别输入CL_FIN^SP_r，提取其输出层之前一层的神经元激活值做为样本特征，按照随机次序将样本特征串接起来，再应用PCA降维，得到G^SP_r(A)。