CN108932950B - 一种基于标签扩增与多频谱图融合的声音场景识别方法 - Google Patents
一种基于标签扩增与多频谱图融合的声音场景识别方法 Download PDFInfo
- Publication number
- CN108932950B CN108932950B CN201810479614.0A CN201810479614A CN108932950B CN 108932950 B CN108932950 B CN 108932950B CN 201810479614 A CN201810479614 A CN 201810479614A CN 108932950 B CN108932950 B CN 108932950B
- Authority
- CN
- China
- Prior art keywords
- model
- sound scene
- spectrogram
- training
- stft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003321 amplification Effects 0.000 title claims abstract description 20
- 238000003199 nucleic acid amplification method Methods 0.000 title claims abstract description 20
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 238000010586 diagram Methods 0.000 title abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 claims 2
- 230000009191 jumping Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于标签扩增与多频谱图融合的声音场景识别方法,包括:利用不同的信号处理技术,为声音场景数据生成多种频谱图;针对每种频谱图,分别训练一个深度卷积神经网络模型,做为基础分类模型;利用标签扩增技术,为样本扩增超类别标签,使用人为构造的层次标签,将原有网络模型改进为多任务学习模型,优化基础分类模型的性能;利用改进的基础分类模型提取样本特征,拼接声音场景文件的多个深度特征,并加以降维得到全局特征。融合对应不同频谱图的多个全局特征,训练SVM分类器,做为最终分类模型。本发明应用多频谱图特征融合技术,有效提升识别性能;提出的标签扩增及模型提升方法,能有效优化基础分类器性能,可推广到其它应用研究中。
Description
技术领域
本发明属于场景识别的技术领域,尤其涉及一种基于标签扩增与多频谱图融合的声音场景识别方法。
背景技术
声音场景识别技术通过分析音频数据,判别机器所在空间环境的属性、功能和用途。基于卷积神经网络的声音场景识别已经成为该领域最为有效的方法之一。由于声音场景数据集按照场所的功能进行标记,其中的类间相似性问题更加突出,例如图书馆和自习教室就很容易相互误判。另一方面,这些在声学特征上本来就很相似的数据,由于功能用途不同,在训练网络模型时被不加区别地被认为不同的类别,这种方式阻碍了网络模型学习声音场景的内在特征模式。例如,学习出来的网络模型认为图书馆不同于餐厅,图书馆也不同于自习课室,但是可能无法表达图书馆和餐厅的差别更大些。
为了区分不同类别之间的相似程度,提供层次型的标签是一种比较合理的做法。但是,目前绝大多数的声音场景数据集仅提供单级的场景标签。为此,可以对声音场景类别进行聚类,向上构造出超类别标签,我们将这种做法称为标签扩增方法。更重要的是,如何根据构造出了超类别设计卷积神经网络,更有效地指导学习过程,以期学到更加本质的声音特征。目前,这种根据声音数据相似关系主动构造层次标签,并进一步优化网络模型的研究还很少见。
文献1(Xu,Yong,Qiang Huang,Wenwu Wang,and Mark D.Plumbley."Hierarchical learning for DNN-based acoustic scene classification."arXivpreprint arXiv:1607.03682,2016)在声音场景分类中考虑了样本的分层学习问题,将样本的原始类别和大类别一起作为损失函数的项,但是并未考虑大类别标签的构造问题,而且在设计损失函数时未能有效地利用大类别与其包含的小类别之间关系来规约学习过程。文献2(Phan H,Hertel L,Maass M,et al.Label Tree Embeddings for Acoustic SceneClassification[C]//ACM on Multimedia Conference.ACM,2016:486-490.)利用谱聚类算法在原始标签之上构造了标签的层次关系,但是该文献的目的在于构造一个标签树嵌入空间,并未对构造的层次节点赋予新的标签,也未利用这些标签计算损失值。文献3(Z.Yan,H.Zhang,R.Piramuthu,V.Jagadeesh,D.DeCoste,W.Di,and Y.Yu.Hd-cnn:Hierarchicaldeep convolutional neural network for large scale visual recognition.In ICCV,2015.)是图像识别领域的研究成果,它基于谱聚类方法将标签类别聚集成粗粒度的类别,并设计了一种逐步细化分类方法。文献3的研究虽然面向图像识别,但其聚类方法同样适用于声音场景领域,在利用聚类结果方面,他们针对不同粗粒度类别设计了多个细粒度分类模块,并根据粗类别的预测结果对它们进行整合。文献4(Zhang X,Zhou F,Lin Y,etal.Embedding Label Structures for Fine-Grained Feature Representation[C]//Computer Vision and Pattern Recognition.IEEE,2016:1114-1123.)研究细粒度图像识别问题,在其中考虑了层次型标签的利用问题,除了常见的Softmax Loss之外,还将多个样本组成四元组,并将其表示为相应的损失项。同样地,文献4假设层次化标签已经存在,没有考虑如何聚类提取超类别标签的问题。
另外一方面,特征融合方法是声音场景识别中经常使用的有效方法。文献5(H.Eghbal-Zadeh,B.Lehner,M.DorferandG.Widmer.CP-JKU submissions for DCASE-2016:a hybrid approach using binaural I-vectors and deep convolutional neuralnetworks.In IEEE DCASE,2016.)提出了利用CNN网络提取特征,并与I-vector特征进行融合的声音场景识别方法,取得了满意的性能。文献6(Soo Hyun Bae,Inkyu Choi and NamSoo Kim.Acoustic Scene Classification Using Parallel Combination of LSTM andCNN.In IEEE DCASE,2016.)利用CNN网络和LSTM网络同时提取特征,在组合两者特征的基础上实现了一个端到端的分类模型。考虑到声音识别领域中,存在多种语音特征提取方案,例如MFCC、CQT、LPCC、STFT等,它们各有自己的优势。本发明从这个角度出发,提出多频谱图融合的声音场景识别方案,利用多种语音特征提取技术生成多种频谱图,针对每种频谱图使用卷积神经网络训练得到一个基础分类器,再通过特征融合方法得到一个性能更好的识别模型。本发明进一步地将前述标签扩增方法应用到多频谱图融合方法中,具体来说,利用标签扩增方法来提升基础分类器的性能,进而提升整体集成方案的识别性能。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于标签扩增与多频谱图融合的声音场景识别方法。
为了达到上述目的,本发明采用以下技术方案:
本发明一种基于标签扩增与多频谱图融合的声音场景识别方法,包括下述步骤:
步骤S1:把声音场景文件集按一定比例划分为训练部分Tr,验证部分Vl,测试部分Te。不失一般性,假设本发明采用R种频谱图格式,记为SP_r,r∈[1,R]。
步骤S2:对于每个频谱图格式SP_r,r∈[1,R],执行如下操作:从Tr中逐个取出音频文件,通过分帧、加窗、短时傅立叶变换等操作后,得到相应的时频特征值,将多个帧的时频特征值组织起来,成为一个SP_r格式的频谱图;按照一定的宽度和重叠程度,将频谱图切分成为多个图像样本,这些样本构成了训练样本集TrSP_r;类似地,可以得到VlSP_r,TeSP_r。必要时,对所有图像样本进行缩放,以适应步骤S3中所设计的卷积神经网络的输入要求。
步骤S3:对于每个频谱图格式SP_r,r∈[1,R],执行如下操作:选用某个主流的CNN网络模型做为基本架构,构造一个有Q个节点的输出层,Q为声音场景数据集的原始类别个数,记其标签类别集合为:H={h1,h2,…,hQ};输出层的前一层有VSP_r个神经元,以全连接方式连接到输出层,其权重记为使用TrSP_r,VlSP_r,TeSP_r训练上述模型,得到基准模型CLSP_r。
步骤S4:使用标签扩增方法,对每个基准模型CLSP_r(r∈[1,R])进行提升,得到最终分类模型CL_FINSP_r(r∈[1,R])。具体过程如下:
步骤S4_1:在CLSP_r上测试TeSP_r,得到准确率PrSP_r;在DSSP_r=TrSP_r∪VlSP_r上使用四折交叉方法重新训练步骤3的网络模型,将四次测试的分类结果求平均,构造混淆矩阵FSP_r,其中代表第i类样本被分类为第j类样本的次数。定义距离矩阵DSP_r为:DSP_r=(FSP_r+(FSP_r)T)/2。
步骤S4_2:在距离矩阵DSP_r上应用谱聚类(Spectral Clustering)算法,将H划分为N个子集(簇):S1∪S2∪…∪SN=H,对应地,构造超类别(SuperType)标签集合对于任何样本x: 其中Aff(x,b)表示给x标注上标签b。
步骤S4_3:在CLSP_r网络模型的基础上,增加一个有N个节点的输出层,以全连接方式连到前一层,新增连接的权重记为:按高斯分布随机初始化新增连接的权重,保留原有模型所有连接的权重。本发明方法的损失函数如公式(1)所示。
其中,xi为第i个样本,分别为样本xi的原始标签与超类别标签,PSP_r为训练集样本总数,h(j)∈HLableSP_r是原始类别j所属的超类别。由于原始类别和超类别在分类模式上存在相关性,因此本发明将两者的关系表达为规则化项: 整合到损失函数中进行优化;将该修改后的网络模型记为CL_MTSP_r。
步骤S4_4:按照步骤S4_2的划分情况,为TrSP_r,VlSP_r,TeSP_r的样本标注扩增的超类别标签,使用它们重新训练CL_MTSP_r。
步骤S4_5:使用训练好的CL_MTSP_r评估TeSP_r并记录准确率Pr_MTSP_r。如果Pr_MTSP _r>PrSP_r,将CL_MTSP_r做为SP_r频谱图的最终分类模型CL_FINSP_r;否则,如果步骤S4_4已经被执行过M次,则将CLSP_r做为最终分类模型CL_FINSP_r,否则改变N值,跳转到步骤S4_2执行。
步骤S5:对于每个频谱图格式SP_r,r∈[1,R],执行如下操作:为每个声音场景音频文件A,构造与SP_r格式对应的全局特征GSP_r(A)。具体来说,取出与文件A对应的全部的SP_r格式图像样本,分别输入CL_FINSP_r,提取其输出层之前一层的神经元激活值做为样本特征,按随机次序将样本特征串接起来,再应用PCA降维,得到GSP_r(A)。
步骤S6:经过步骤S5,每个文件A均有R个全局特征GSP_r(A)(r∈[1,R]),将它们按如下规则两两串接:GSP_a(A)+GSP_b(A)(a,b∈[1,R]∧a<b),可生成R(R-1)/2种聚合特征。使用Tr、Vl和Te中的音频文件,按上述规则生成R(R-1)/2种聚合特征;使用一种聚合特征,训练一个SVM分类器,对应地可以得到R(R-1)/2个SVM分类器。根据分类器在Te上的评估性能,选择准确率最高的SVM分类器做为本发明的最终分类模型。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明利用不同的信号处理技术,为同个语音场景文件生成多种频谱图,利用这些不同的频谱图数据分别训练出多个基础分类器,做为特征提取工具,再通过特征融合方法,提升了模型识别精度。本发明提出的方法主要构造不同种类的频谱图,使用CNN网络做为基础识别模型,即使基础分类器采用同一CNN结构也可以得到满意的性能提升效果。
2、本发明将容易混淆的类别划分成为一个超类别,人为地构造超类别标签,并利用此超类别标签将原有的基础分类器改造成为多任务学习模型,使网络模型能提取到更本质的声学特征,优化了基础分类器的性能,进而提升整体融合方案的性能。
3、本发明不仅考虑超类别的重构误差,还考虑超类别与其包含的原始类别之间的隶属关系,将这种关系表示为规范化项,在训练过程中进行联合优化,使得系统更加鲁棒、训练收敛更快。
附图说明
图1是本发明的基于多频谱图融合的声音场景识别流程图。
图2是本发明的基于标签扩增的基准模型性能提升流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例一种基于标签扩增与多频谱图融合的声音场景识别方法,包括下述步骤:
步骤S1:本实施例使用的数据集包括DCASE2017声音场景识别的Development文件集与Evaluation文件集;将Development文件集的90%做为训练部分Tr,其余10%做为验证部分Vl,将Evaluation文件集做为测试部分Te。每个文件集里的音频文件长度为10秒。不失一般性,本实施例仅使用两种频谱图格式来说明实施步骤:一是STFT频谱图,另一个是CQT频谱图。
步骤S2:从Tr中逐个取出音频文件,通过分帧、加窗、短时傅立叶变换等操作后,得到STFT时频特征值,将多个帧的时频特征值组织起来,成为一个STFT频谱图;按照一定的宽度和重叠程度,将该频谱图切分成为多个图像样本,在本实施例中,每个音频文件生成16张图像样本,样本被缩放为143*143像素大小,这些样本构成了训练样本集TrSTFT;类似地,可以得到VlSTFT,TeSTFT。同样地,从Tr中逐个取出音频文件,通过分帧、加窗、短时傅立叶变换等操作后,得到CQT频谱图,按照一定的宽度和重叠程度,将该频谱图切分成多个图像样本,在本实施例中,每个音频文件生成20张图像样本,样本被缩放为143*143像素大小,这些样本构成了训练样本集TrCQT;类似地,可以得到VlCQT,TeCQT。
步骤S3:在本实施例中,为STFT频谱图格式和CQT频谱图格式选用相同的CNN网络结构来构建基准分类模型。该网络结构采用类似VGGNet的卷积神经网络,设置其输出层的节点数量为Q,对应原始类别的个数,DCASE2017声音场景识别数据集分为15类场景,记其标签类别集合为:H={h1,h2,…,hQ}(Q=15);输出层之前的一层有VSP_r(SP_r∈[STFT,CQT],本实施例中VSTFT=VCQT)个神经元,以全连接方式连接到输出层,其权重记为 在输出层上使用softmax激活函数,采用对数似然损失函数,训练的基础学习率为0.0001,Batch_Size为256,Epoch为1000,使用adam优化方法。分别地,使用TrSTFT,VlSTFT,TeSTFT训练上述网络结构,可以得到基准模型CLSTFT;使用TrCQT,VlCQT,TeCQT训练上述网络结构,可以得到基准模型CLCQT。
步骤S4:使用标签扩增方法,对基准模型进行提升,得到最终分类模型。本步骤需要分别在CLSTFT和CLCQT上完成,下面以CLSTFT为例阐述其过程步骤。
步骤S4_1:在CLSTFT上测试TeSTFT,得到测试准确率PrSTFT;在DSSTFT=TrSTFT∪VlSTFT上使用四折交叉方法重新训练步骤3的网络模型(按72%、8%、20%的比例将DSSTFT划分为训练集、验证集和测试集),将四次测试的分类结果求平均,构造混淆矩阵FSTFT,其中代表第i类样本被分类为第j类样本的次数。定义距离矩阵DSTFT为:DSTFT=(FSTFT+(FSTFT)T)/2。
步骤S4_2:本实施例中,将N初始化为3;在距离矩阵DSTFT上应用谱聚类算法,将H划分为N个子集(簇):S1∪S2∪…∪SN=H,对应地,构造超类标签集合对于任何样本x: 其中Aff(x,b)表示给x标注上标签b。
步骤S4_3:在CLSTFT的网络模型基础上,增加一个有N个节点的输出层,以全连接方式连到前一层,新增连接的权重记为:按高斯分布随机初始化新增连接的权重,保留原有模型所有连接的权重。本发明方法的损失函数如公式(2)所示。
其中,xi为第i个样本,分别为样本xi的原始标签与超类别标签,PSTFT为训练集样本总数,h(j)∈HLableSTFT是原始类别j所属的超类别。在本实施例中,γ取0.4;α、β均取0.0001。由于原始类别和超类别在分类模式上存在相关性,因此本发明将两者的关系表达为规则化项:整合到损失函数中进行优化。将该修改后的网络模型记为CL_MTSTFT。
步骤S4_4:按照步骤S4_2的划分情况,为TrSTFT,VlSTFT,TeSTFT的样本标注扩增的超类别标签,使用它们重新训练CL_MTSTFT。
步骤S4_5:使用训练好的CL_MTSTFT评估TeSTFT并记录准确率Pr_MTSTFT。如果Pr_MTSTFT>PrSTFT,将CL_MTSTFT做为STFT频谱图的最终分类模型CL_FINSTFT;否则,如果步骤S4_4已经被执行过M次,则将CLSTFT做为最终分类模型CL_FINSTFT,否则改变N值(本实施例中,N=N+1;M取为3),然后跳转到步骤S4_2执行。
在CLCQT模型上,同样地执行步骤S4_1、S4_2、S4_3、S4_4、S4_5(执行时各步骤中的STFT字眼均需替换成CQT);在本实施例中,N取为3时,Pr_MTSTFT>PrSTFT,CL_MTSTFT被选为最终分类模型CL_FINSTFT;同样地,N取为3时,Pr_MTCQT>PrCQT,CL_MTCQT被选为最终分类模型CL_FINCQT。
步骤S5:对于每个音频文件A,(1)利用CL_FINSTFT构造其全局特征:取出与A对应的16个STFI频谱图格式的图像样本,分别输入CL_FINSTFT,提取其输出层之前一层的神经元激活值做为样本特征,按随机次序将样本特征串接起来,再应用PCA降维,得到A的全局特征GSTFT(A);(2)利用CL_FINCQT构造其全局特征:取出与A对应的20个CQT频谱图s格式的图像样本,应用相同的方法,得到A的全局特征GCQT(A)。
步骤S6:本实施例中仅使用STFT和CQT两者频谱图格式,故只有一种组合方式。将每个文件A的GSTFT(A)和GCQT(A)串接起来,做为该文件的聚合特征。使用Tr、Vl和Te中的音频文件的聚合特征,训练一个SVM分类器,将其做为最终的分类模型。在本实施例中,SVM使用线性核函数,惩罚系数为1.0。据此,本发明方法在DCASE2017声音场景Evaluation文件集上的识别准确率如表1所示。
表1
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于标签扩增与多频谱图融合的声音场景识别方法,其特征在于,包括下述步骤:
S1:把声音场景文件集按设定比例划分为训练部分Tr,验证部分Vl,测试部分Te,不失一般性,假设采用R种频谱图格式,记为SP_r,r∈[1,R];
S2:对于每个频谱图格式SP_r,r∈[1,R],执行如下操作:从Tr中逐个取出音频文件,通过分帧、加窗、短时傅立叶变换操作后,得到相应的时频特征值,将多个帧的时频特征值组织起来,成为一个SP_r格式的频谱图;按照设定的宽度和重叠程度,将频谱图切分成为多个图像样本,这些图像样本构成了训练样本集TrSP_r;通过相同的方法,得到VlSP_r,TeSP_r;
S3:对于每个频谱图格式SP_r,r∈[1,R],执行如下操作:选用CNN网络模型做为基本架构,构造一个有Q个节点的输出层,Q为声音场景数据集的原始类别个数,记其标签类别集合为:H={h1,h2,…,hQ};输出层的前一层有VSP_r个神经元,以全连接方式连接到输出层,其权重记为使用TrSP_r,VlSP_r,TeSP_r训练上述模型,得到基准模型CLSP_r;
S4:使用标签扩增方法,对每个基准模型CLSP_r进行提升,得到最终分类模型CL_FINSP_r,r∈[1,R];
步骤S4具体包括下述步骤:
S4_1:在CLSP_r上测试TeSP_r,得到准确率PrSP_r;在DSSP_r=TrSP_r∪VlSP_r上使用四折交叉方法重新训练步骤3的网络模型,将四次测试的分类结果求平均,构造混淆矩阵FSP_r,其中代表第i类样本被分类为第j类样本的次数,定义距离矩阵DSP_r为:DSP_r=(FSP_r+(FSP_r)T)/2;
S4_2:在距离矩阵DSP_r上应用谱聚类算法,将H划分为N个子集:S1∪S2∪…∪SN=H,其中i,j∈[1,N];i≠j;对应地,构造超类别标签集合对于任何样本x: 其中Aff(x,b)表示给x标注上标签b;
S4_4:按照步骤S4_2的划分情况,为TrSP_r,VlSP_r,TeSP_r的样本标注扩增的超类别标签,使用它们重新训练CL_MTSP_r;
S4_5:使用训练好的CL_MTSP_r评估TeSP_r并记录准确率Pr_MTSP_r;如果Pr_MTSP_r>PrSP_r,将CL_MTSP_r做为SP_r频谱图的最终分类模型CL_FINSP_r;否则,如果步骤S4_4已经被执行过M次,则将CLSP_r做为最终分类模型CL_FINSP_r,否则改变N值,跳转到步骤S4_2执行;
S5:对于每个频谱图格式SP_r,r∈[1,R],执行如下操作:为每个声音场景音频文件A,构造与SP_r格式对应的全局特征GSP_r(A);
S6:经过步骤S5,每个文件A均有R个全局特征GSP_r(A),r∈[1,R],将它们按如下规则两两串接:GSP_a(A)+GSP_b(A),a,b∈[1,R]∧a<b,生成R(R-1)/2种聚合特征;使用Tr、Vl和Te中的音频文件,按上述规则生成R(R-1)/2种聚合特征;使用一种聚合特征,训练一个SVM分类器,对应地可以得到R(R-1)/2个SVM分类器,根据分类器在Te上的评估性能,选择准确率最高的SVM分类器做为本发明的最终分类模型。
2.根据权利要求1所述基于标签扩增与多频谱图融合的声音场景识别方法,其特征在于,步骤S2中,对所有图像样本进行缩放,以适应步骤S3中所设计的卷积神经网络的输入要求。
4.根据权利要求1所述基于标签扩增与多频谱图融合的声音场景识别方法,其特征在于,步骤S5具体为:
取出与文件A对应的全部的SP_r格式图像样本,分别输入CL_FINSP_r,提取其输出层之前一层的神经元激活值做为样本特征,按照随机次序将样本特征串接起来,再应用PCA降维,得到GSP_r(A)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810479614.0A CN108932950B (zh) | 2018-05-18 | 2018-05-18 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810479614.0A CN108932950B (zh) | 2018-05-18 | 2018-05-18 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108932950A CN108932950A (zh) | 2018-12-04 |
CN108932950B true CN108932950B (zh) | 2021-07-09 |
Family
ID=64449423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810479614.0A Active CN108932950B (zh) | 2018-05-18 | 2018-05-18 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932950B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859771B (zh) * | 2019-01-15 | 2021-03-30 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN110517666B (zh) * | 2019-01-29 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
CN111583890A (zh) * | 2019-02-15 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 音频分类方法和装置 |
CN110047506B (zh) * | 2019-04-19 | 2021-08-20 | 杭州电子科技大学 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
CN110569870A (zh) * | 2019-07-25 | 2019-12-13 | 中国人民解放军陆军工程大学 | 基于多粒度标签融合的深度声学场景分类方法及系统 |
CN110827837B (zh) * | 2019-10-18 | 2022-02-22 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN111079794B (zh) * | 2019-11-21 | 2023-02-28 | 华南师范大学 | 一种基于类别间相互融合的声音数据增强方法 |
CN111370031B (zh) * | 2020-02-20 | 2023-05-05 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
CN111653290B (zh) * | 2020-05-29 | 2023-05-02 | 北京百度网讯科技有限公司 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
CN111933179B (zh) * | 2020-06-04 | 2021-04-20 | 华南师范大学 | 基于混合式多任务学习的环境声音识别方法及装置 |
CN111833851B (zh) * | 2020-06-16 | 2021-03-16 | 杭州云嘉云计算有限公司 | 一种自动学习优化声学模型的方法 |
CN117255996A (zh) * | 2021-05-07 | 2023-12-19 | Oppo广东移动通信有限公司 | 信号处理方法、通信设备及通信系统 |
CN114464182B (zh) * | 2022-03-03 | 2022-10-21 | 慧言科技(天津)有限公司 | 一种音频场景分类辅助的语音识别快速自适应方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN106776896A (zh) * | 2016-11-30 | 2017-05-31 | 董强 | 一种快速的图融合图像检索方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN107220663B (zh) * | 2017-05-17 | 2020-05-19 | 大连理工大学 | 一种基于语义场景分类的图像自动标注方法 |
CN107393554B (zh) * | 2017-06-20 | 2020-07-10 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
-
2018
- 2018-05-18 CN CN201810479614.0A patent/CN108932950B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605990A (zh) * | 2013-10-23 | 2014-02-26 | 江苏大学 | 基于图聚类标签传播的集成多分类器融合分类方法和系统 |
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN106776896A (zh) * | 2016-11-30 | 2017-05-31 | 董强 | 一种快速的图融合图像检索方法 |
Non-Patent Citations (1)
Title |
---|
ACOUSTIC SCENE CLASSIFICATION USING DEEP CONVOLUTIONAL NEURAL NETWORK AND MULTIPLE SPECTROGRAMS FUSION;Zheng Weiping等;《Detection and Classification of Acoustic Scenes and Events 2017》;20171116;1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108932950A (zh) | 2018-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932950B (zh) | 一种基于标签扩增与多频谱图融合的声音场景识别方法 | |
Huang et al. | Generative dual adversarial network for generalized zero-shot learning | |
Bavkar et al. | Multimodal sarcasm detection via hybrid classifier with optimistic logic | |
US10331737B2 (en) | System for generation of a large-scale database of hetrogeneous speech | |
Espi et al. | Exploiting spectro-temporal locality in deep learning based acoustic event detection | |
CN107644057B (zh) | 一种基于迁移学习的绝对不平衡文本分类方法 | |
Naranjo-Alcazar et al. | Acoustic scene classification with squeeze-excitation residual networks | |
US8326775B2 (en) | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof | |
JP4220449B2 (ja) | インデキシング装置、インデキシング方法およびインデキシングプログラム | |
WO2024001646A1 (zh) | 音频数据的处理方法、装置、电子设备、程序产品及存储介质 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN107564513A (zh) | 语音识别方法及装置 | |
CN107301858B (zh) | 基于音频特征空间分层描述的音频分类方法 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN115428469A (zh) | 用于无声视频的ai辅助音效生成 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN113076483A (zh) | 基于案件要素异构图的舆情新闻抽取式摘要方法 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
Shu et al. | Time-frequency performance study on urban sound classification with convolutional neural network | |
Abidin et al. | Local binary pattern with random forest for acoustic scene classification | |
Doulaty et al. | Latent dirichlet allocation based organisation of broadcast media archives for deep neural network adaptation | |
CN109947945B (zh) | 基于词向量和集成svm的文本数据流分类方法 | |
Xie et al. | Investigation of acoustic and visual features for frog call classification | |
Martín-Morató et al. | Adaptive distance-based pooling in convolutional neural networks for audio event classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |