CN116543795B - 一种基于多模态特征融合的声音场景分类方法 - Google Patents
一种基于多模态特征融合的声音场景分类方法 Download PDFInfo
- Publication number
- CN116543795B CN116543795B CN202310778782.0A CN202310778782A CN116543795B CN 116543795 B CN116543795 B CN 116543795B CN 202310778782 A CN202310778782 A CN 202310778782A CN 116543795 B CN116543795 B CN 116543795B
- Authority
- CN
- China
- Prior art keywords
- feature
- mel spectrogram
- mel
- spectrogram
- order differential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 36
- 230000009467 reduction Effects 0.000 claims abstract description 3
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种基于多模态特征融合的声音场景分类方法,包括提取原始声音的梅尔声谱图,并在梅尔声谱图基础上提取一阶差分梅尔声谱图;基于梅尔声谱图以及一阶差分梅尔声谱图构建特征提取网络;将提取的梅尔声谱图以及一阶差分梅尔声谱图输入到特征提取网络中进行特征提取以及特征融合;将经过特征提取网络后得到的梅尔声谱图的深度特征图和一阶差分梅尔声谱图的深度特征图进行降维得到2个具有高级语义信息特征向量,最后将2个特征向量进行融合,并预测输出。本发明的方法能够有效提高声音场景的识别准确率,且提高了鲁棒性。
Description
技术领域
本发明属于音频场景识别技术领域,尤其是涉及一种基于多模态特征融合的声音场景分类方法。
背景技术
声音的非语音信号中包含了丰富的信息内容,例如,在公园、购物中心、巴士等场景下,众多声音事件交织在一起形成环境声音,这些环境声音是我们感知和理解周围环境的重要依据。声音场景分类旨在通过计算机研究声音中所包含的环境信息,比如通过嘈杂的人群声和商品推销声分析出当前所处环境可能是在商场中。
声音场景分类研究主要是基于传统算法和深度学习算法,伴随计算机硬件的提高与深度学习算法的发展,基于深度学习的声音场景分类成为声学场景分类任务的主流。目前,声学场景分类任务在特征处理上多采用梅尔声谱图,在网络结构上多采用卷积神经网络。目前大多数声学场景分类方法都是借鉴计算机视觉分类方法,很少考虑到声音本身的特性,针对声学场景分类的专有算法很少,总体识别准确率仍然较低。同时声学场景分类所使用的数据集较少,很难满足大规模网络的训练和部署。综上所述,针对声学场景分类任务的设计有效的特征处理方法和网络结构,用有限的数据得到准确率更高,鲁棒性更好的模型,仍然是很有挑战的任务。
发明内容
有鉴于此,本发明提出了一种基于多模态特征融合的声音场景分类方法,能够有效提高声音场景的识别准确率,且提高了鲁棒性。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于多模态特征融合的声音场景分类方法,包括如下步骤:
步骤1:提取原始声音的梅尔声谱图,并在梅尔声谱图基础上提取一阶差分梅尔声谱图;
步骤2:基于梅尔声谱图以及一阶差分梅尔声谱图构建特征提取网络;
步骤3:将提取的梅尔声谱图以及一阶差分梅尔声谱图输入到特征提取网络中进行特征提取以及特征融合;
步骤4:将经过特征提取网络后得到梅尔声谱图的深度特征图和一阶差分梅尔声谱图的深度特征图进行降维得到2个具有高级语义信息特征向量,最后将2个特征向量进行融合,并预测输出。
进一步的,所述步骤1具体包括:
步骤101:将数据集中的原始声音进行采样、量化、分帧、以及加窗处理,得到原始声音的短时信号;
步骤102:将处理后的短时信号进行短时傅里叶变换,得到声音的线性频率谱;
步骤103:将声音的线性频率谱经过梅尔滤波器得到声音的梅尔声谱图;
步骤104:将梅尔声谱图进行一阶差分处理,得到声音的一阶差分梅尔声谱图。
进一步的,所述步骤2中特征提取网络包括特征提取模块和特征融合模块,所述特征提取模块包括梅尔声谱图子网络与一阶差分梅尔声谱图子网络,两个子网络并行训练,具有相同的网络结构,两个子网络之间嵌入特征融合模块。
进一步的,所述步骤3中进行特征提取的实现过程如下:
将声音的梅尔声谱图和一阶差分梅尔声谱图输入到梅尔声谱图子网络与一阶差分梅尔声谱图子网络,两个子网络分支并行训练,具有相同的网络结构,以卷积神经网络为基础,逐层对输入特征图进行特征提取,得到特征图的高级信息。
进一步的,所述特征融合模块的实现过程如下:
将输入的梅尔声谱图和一阶差分梅尔声谱相加后除2得到公共部分,梅尔声图谱和一阶差分梅尔声谱图相减后除2得到差异部分,然后对公共部分和差异部分做全局平均池化的空间压缩操作得到全局向量,然后将得到的全局向量输入tanh激活函数,以获得融合后的权重向量,再将此权重向量分别与公共部分和差异部分逐通道元素相乘,得到公共特征和差异特征,把公共特征与差异特征再次相加,然后将公共特征与差异特征相加后的特征与原输入的梅尔声谱图逐元素相加,得到融合后的梅尔声谱图。把公共特征与差异特征再次相减,然后公共特征与差异特征相减后的特征再与原输入的一阶差分梅尔声谱图逐元素相加,得到融合后的一阶差分梅尔声谱图。
进一步的,所述步骤4中,将经过特征提取网络后得到的梅尔声谱图的深度特征图与一阶差分梅尔声谱图的深度特征图,分别用2个1×1的卷积核对深度特征图的通道数降维到分类数目,然后用全局平均池化生成2个具有高级语义信息的特征向量,将2个特征向量进行融合得到融合向量,融合向量送到Softmax层中得出预测结果。
相对于现有技术,本发明所述的一种基于多模态特征融合的声音场景分类方法具有以下优势:本发明提供了一种基于多模态特征融合的声音场景分类方法,梅尔声谱图描述了一帧语音信号的能量谱包络,反应了声音的静态信息,一阶差分梅尔声谱图描述了声音中频率随时间的动态信息,本发明将声音中的静态信息与动态信息融合起来,在保留原始特征基础上,也进行了对应的差异补偿,进一步强化了静态信息与动态信息的联系,有效地提高了声音场景分类的准确率和鲁棒性。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种基于多模态特征融合的声音场景分类方法流程示意图;
图2为本发明的输入声音的梅尔声谱图以及一阶差分梅尔声谱图;
图3为本发明的基于梅尔声谱图与一阶差分梅尔声谱图特征融合模块结构示意图;
图4为本发明的基于梅尔声谱图与一阶差分梅尔声谱图特征融合模块中的采用的一种通道注意力过程示意图;
图5为本发明的一种基于多模态特征融合的声音场景分类方法具体实施流程示意图;
图6为本发明的基于残差连接的特征融合模块示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
本发明提供了一种基于多模态特征融合的声音场景分类方法,首先对输入的声音提取梅尔声谱图,在此基础上提取一阶差分梅尔声谱图,如图2所示,依次送入两个子网络分支中进行训练,如图1所示,训练过程中,借助基于梅尔声谱图与一阶差分梅尔声谱图特征融合模块(DMFF)来融合梅尔声谱图和一阶差分梅尔声谱图,更好的提取和融合声音所包含的动态信息和静态信息,经过子网络提取特征后,对梅尔声谱图的深度特征图和一阶差分梅尔声谱图的深度特征图进行降维得到2个特征向量,最后将2个特征向量进行融合,并预测输出。具体步骤如下:
(一)提取原始声音的梅尔声谱图以及一阶差分梅尔声谱图
1.将数据集中的原始声音进行采样,量化,分帧,加窗,得到原始声音的短时信号。
2.将处理后的短时信号进行短时傅里叶变换, 具体计算过程可用下式表示:
;
其中,是一维的声音信号,/>是窗函数,N是帧长,p是帧移,r是对时域的采样点,f是对频域的采样点,取值在0到N-1之间,m是全体整数,j是虚数单位。通过短时傅里叶变换计算特定帧中特定频率分量的能量值,可以得到二维的线性频率谱。
3.得到声音信号的梅尔声谱图,如图2左图所示。经过梅尔滤波器得到的梅尔频率和单位为Hz的线性频率之间的关系如下式所示。
;
其中,w是单位为Hz的线性频率,mel(w)是梅尔滤波器得到的梅尔频率。
4.在此基础上,继续得到声音的一阶差分梅尔声谱图,如图2右图所示,一阶差分梅尔声谱图计算公式如下:
;
式中,t表示第几帧,M通常取2,X指的就是梅尔声谱图中的系数。
(二)将提取的梅尔声谱图和一阶差分梅尔声谱图输入到特征提取网络中,如图1所示,特征提取网络由梅尔声谱图分支与一阶差分梅尔声谱图分支组成,两个分支并行训练,具有相同的网络结构,包含特征提取部分和特征融合部分。
1.特征提取部分
首先依次将声音的梅尔声谱图和一阶差分梅尔声谱图输入到子网络A与子网络B,其中,子网络A为梅尔声谱图网络,子网络B为一阶差分梅尔声谱图网络,两个子网络分支并行训练,具有相同的网络结构,以卷积神经网络为基础,逐层对输入特征图进行特征提取,得到特征图的高级信息。具体公式如下:
;
式中,I是输入特征图,W是滤波器权重,O是输出特征图,i是特征图的行索引,k是特征图的列索引,u是取值在0到i的全体整数,v是取值在0到k的全体整数。
2.特征融合模块(DMFF)
DMFF模块嵌入在子网络A和B之间,DMFF模块具体如图3所示,将梅尔声谱图和一阶差分梅尔声谱图相加后除2得到公共部分,梅尔声谱图和一阶差分梅尔声谱图相减后除2得到差异部分/>,然后对/>和/>做全局平均池化的空间压缩操作得到全局向量,然后将得到的全局向量输入tanh激活函数,以获得融合后的权重向量,再将此权重向量分别与/>和/>逐通道元素相乘,具体如图4所示,得到公共特征和差异特征,把公共特征与差异特征再次相加,然后将公共特征与差异特征相加后的特征与原输入的梅尔声谱图逐元素相加,得到融合后的梅尔声谱图/>。把公共特征与差异特征再次相减,然后公共特征与差异特征相减后的特征再与原输入的一阶差分梅尔声谱图逐元素相加,得到融合后的一阶差分梅尔声谱图/>。具体公式如下所示:
;
;
;
;
其中,和分别代表梅尔声谱图与一阶差分梅尔声谱图的公共部分和差异部
分,和分别代表梅尔声谱图与一阶差分梅尔声谱图,和代表融合后的梅尔
声谱图和一阶差分梅尔声谱图,GAP代表全局平均池化,(·)代表tanh激活函数,和
分别代表逐元素相加和相乘。
3.特征融合部分。
梅尔声谱图和一阶差分梅尔声谱图都有各自独立的特征,这些特征混合了声音中静态信息和动态信息,简单的线性组合无法准确的去利用这些差异信息。因此,将梅尔声谱图和一阶差分梅尔声谱图用公共部分和差异部分结合进行表示,梅尔声谱图和一阶差分梅尔声谱图相加后除2得到公共部分,梅尔声谱图和一阶差分梅尔声谱图相减后除2得到差异部分,具体公式如下:
;
;
其中,和/>分别表示梅尔声谱图与一阶差分梅尔声谱图。公共部分反映了2个声谱图所共同的特征,差异部分反映了2个声谱图所捕获的独立特征信息。为了充分利用梅尔声谱图与一阶差分梅尔声谱图之间的公共信息与差异信息,将基于梅尔声谱图与一阶差分梅尔声谱图的特征融合模块(DMFF)嵌入到特征提取子网络A与子网络B之间,每次经过卷积层得到的梅尔声谱图/>与一阶差分梅尔声谱图/>输入到DMFF中,经过梅尔声谱图/>和一阶差分梅尔声谱图/>公共部分和差异部分的深度融合,将融合后的梅尔声谱图/>与融合后的一阶差分梅尔声谱图/>分别送回子网络A与子网络B中继续卷积进行特征提取。
(三)经特征提取网络后,将梅尔声谱图与一阶差分梅尔声谱图提取到具有高级语义信息的特征向量融合
1.经子网络A和子网络B提取特征后,分别得到梅尔声谱图的深度特征图与一阶差分梅尔声谱图的深度特征图,分别用2个1×1的卷积核对深度特征图的通道数降维到分类数目,然后用全局平均池化生成2个具有高级语义信息的特征向量和/>。如下式所示:
;
;
2.将2个特征向量进行融合得到,具体过程如下式所示:
;
;
其中,是一组逐渐学习的可训练参数。
3.将融合向量送到Softmax层中得出预测结果,具体如下式所示:
;
其中,是预测为第i类的概率,/>为所有概率总和。
下面通过具体的实例说明本发明的方案。
(1)采用2048个FFT点的短时傅里叶变换,窗口大小为40 ms,跳跃长度为20 ms,使用 256维梅尔声谱图作为基本特征,初始学习速率设置为 0.001,并通过热重启随机梯度下降(SGD)进行调度。使用动量为0.9的SGD优化器。批次大小和历代数分别设置为24和500。对于每个10s的音频段生成大小为256×501的,梅尔声谱图,采用随机剪裁,生成256×251的梅尔声谱图,同时提取该梅尔声谱图的一阶差分梅尔声谱图,大小同样是256×251。
(2)特征提取网络由梅尔声谱图子网络与一阶差分梅尔声谱图子网络组成,两个子网络并行训练,具有相同的网络结构,特征提取网络以ResNet作为基础,具体包括一个输入卷积层,4个残差块。输入卷积层的卷积核大小为7x8,步幅为2,输入通道数为1,输出通道数为64,批大小为24,分别得到24×64×64×64的梅尔声谱图与一阶差分梅尔声谱图,更大的核与步幅使得网络输入层有更大的感受野去学习全局信息。第一个残差块由2个的卷积层组成,卷积核大小都是3x3,步幅为1,第二,三,四个残差块也是由2个卷积层组成,卷积核大小都是3x3,步幅分别为2和1。如图5所示,并在梅尔声谱图子网络与一阶差分梅尔声谱图子网络之间嵌入基于梅尔声谱图与一阶差分梅尔声谱图的特征融合模块(DMFF)。
(3)将和/>送入DMFF模块进行特征融合,如图6所示,输出DMFF分别得到与/>,将融合后的梅尔声谱图/>与融合后的一阶差分梅尔声谱图/>分别送回梅尔声谱图子网络与一阶差分梅尔声谱图子网络中继续卷积进行特征提取。接着再次重复以上过程进行特征融合和特征提取,最终经过卷积5分别得到/>与/>。
(4)与大小为24×512×8×8,然后2个1×1的卷积核对深度特征图的通
道数进行降维到10,然后用全局平均池化生成2个具有高级语义信息的特征向量和,
将这2个特征向量进行加权融合得到,经Softmax产生最终的分类预测。
本发明在DCASE2020task1移动开发数据集上验证提出方法的性能,该数据集共由四种不同音频数据录制设备采集。数据集总时长为 64 小时,所有音频数据都被裁剪成 10秒时长的音频片段,数据格式为单通道,44.1 KHz采样率和24 比特量化精度。声音场景涉及室内、室外和交通工具,共十类,包括飞机场、室内购物中心、地铁站、步行街、公共广场、车流量中等的街道、乘坐电车、乘坐巴士、乘坐地铁、城市公园。我们使用13965个音频片段和2970个音频片段分别按照官方协议对模型进行训练和评估。为证明所提方法的有效性,在表1中列出了本发明与其他几种先进方法的性能对比。实验结果说明,本方法在评估数据集上的平均准确率达到了74.2%,本发明能够有效提高声音场景的识别准确率,且提高了鲁棒性。
表1
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于多模态特征融合的声音场景分类方法,其特征在于:包括如下步骤:
步骤1:提取原始声音的梅尔声谱图,并在梅尔声谱图基础上提取一阶差分梅尔声谱图;
步骤2:基于梅尔声谱图以及一阶差分梅尔声谱图构建特征提取网络;特征提取网络包括特征提取模块和特征融合模块,所述特征提取模块包括梅尔声谱图子网络与一阶差分梅尔声谱图子网络,两个子网络并行训练,具有相同的网络结构,两个子网络之间嵌入特征融合模块;
特征提取模块的实现过程如下:
将声音的梅尔声谱图和一阶差分梅尔声谱图输入到梅尔声谱图子网络与一阶差分梅尔声谱图子网络,两个子网络分支并行训练,具有相同的网络结构,以卷积神经网络为基础,逐层对输入特征图进行特征提取,得到特征图的高级信息;
特征融合模块的实现过程如下:
将输入的梅尔声谱图和一阶差分梅尔声谱图相加后除2得到公共部分,梅尔声谱图和一阶差分梅尔声谱图相减后除2得到差异部分,然后对公共部分和差异部分做全局平均池化的空间压缩操作得到全局向量,然后将得到的全局向量输入tanh激活函数,以获得融合后的权重向量,再将此权重向量分别与公共部分和差异部分逐通道元素相乘,得到公共特征和差异特征,把公共特征与差异特征再次相加,然后将公共特征与差异特征相加后的特征与原输入的梅尔声谱图逐元素相加,得到融合后的梅尔声谱图,把公共特征与差异特征再次相减,然后公共特征与差异特征相减后的特征再与原输入的一阶差分梅尔声谱图逐元素相加,得到融合后的一阶差分梅尔声谱图,将融合后的梅尔声谱图和融合后的一阶差分梅尔声谱图分别送回梅尔声谱图子网络和一阶差分梅尔声谱图子网络中继续卷积进行特征提取;
步骤3:将提取的梅尔声谱图以及一阶差分梅尔声谱图输入到特征提取网络中进行特征提取以及特征融合;
步骤4:将经过特征提取网络后得到的梅尔声谱图的深度特征图和一阶差分梅尔声谱图的深度特征图进行降维得到2个具有高级语义信息的特征向量,最后将2个特征向量进行融合,并预测输出。
2.根据权利要求1所述的一种基于多模态特征融合的声音场景分类方法,其特征在于:所述步骤1具体包括:
步骤101:将数据集中的原始声音进行采样、量化、分帧、以及加窗处理,得到原始声音的短时信号;
步骤102:将处理后的短时信号进行短时傅里叶变换,得到声音的线性频率谱;
步骤103:将声音的线性频率谱经过梅尔滤波器得到声音的梅尔声谱图;
步骤104:将得到的梅尔声谱图进行一阶差分处理,得到声音的一阶差分梅尔声谱图。
3.根据权利要求1所述的一种基于多模态特征融合的声音场景分类方法,其特征在于:所述步骤4包括:
将经过特征提取网络后得到的梅尔声谱图的深度特征图与一阶差分梅尔声谱图的深度特征图,分别用2个1×1的卷积核对深度特征图的通道数降维到分类数目,然后用全局平均池化生成2个具有高级语义信息的特征向量,将2个特征向量进行融合得到融合向量,融合向量送到Softmax层中得出预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310778782.0A CN116543795B (zh) | 2023-06-29 | 2023-06-29 | 一种基于多模态特征融合的声音场景分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310778782.0A CN116543795B (zh) | 2023-06-29 | 2023-06-29 | 一种基于多模态特征融合的声音场景分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116543795A CN116543795A (zh) | 2023-08-04 |
CN116543795B true CN116543795B (zh) | 2023-08-29 |
Family
ID=87449081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310778782.0A Active CN116543795B (zh) | 2023-06-29 | 2023-06-29 | 一种基于多模态特征融合的声音场景分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543795B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238320B (zh) * | 2023-11-16 | 2024-01-09 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393554A (zh) * | 2017-06-20 | 2017-11-24 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
CN110085218A (zh) * | 2019-03-26 | 2019-08-02 | 天津大学 | 一种基于特征金字塔网络的音频场景识别方法 |
CN110782878A (zh) * | 2019-10-10 | 2020-02-11 | 天津大学 | 一种基于注意力机制的多尺度音频场景识别方法 |
CN111833906A (zh) * | 2020-07-25 | 2020-10-27 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN113239809A (zh) * | 2021-05-14 | 2021-08-10 | 西北工业大学 | 基于多尺度稀疏sru分类模型的水声目标识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10417498B2 (en) * | 2016-12-30 | 2019-09-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-modal fusion model |
-
2023
- 2023-06-29 CN CN202310778782.0A patent/CN116543795B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393554A (zh) * | 2017-06-20 | 2017-11-24 | 武汉大学 | 一种声场景分类中融合类间标准差的特征提取方法 |
CN110085218A (zh) * | 2019-03-26 | 2019-08-02 | 天津大学 | 一种基于特征金字塔网络的音频场景识别方法 |
CN110782878A (zh) * | 2019-10-10 | 2020-02-11 | 天津大学 | 一种基于注意力机制的多尺度音频场景识别方法 |
CN111833906A (zh) * | 2020-07-25 | 2020-10-27 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN113239809A (zh) * | 2021-05-14 | 2021-08-10 | 西北工业大学 | 基于多尺度稀疏sru分类模型的水声目标识别方法 |
Non-Patent Citations (1)
Title |
---|
Input Fusion of MFCC and SCMC Features for Acoustic Scene Classification using DNN;Chandrasekhar Paseddula et al.;2018 IEEE 13th international conference on industrial and information systems(ICIIS);第13-17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116543795A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754988B (zh) | 基于注意力机制和双路径深度残差网络的声场景分类方法 | |
CN110782878B (zh) | 一种基于注意力机制的多尺度音频场景识别方法 | |
CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN116543795B (zh) | 一种基于多模态特征融合的声音场景分类方法 | |
CN103403710A (zh) | 对来自音频信号的特征指纹的提取和匹配 | |
Oh et al. | Target speech feature extraction using non-parametric correlation coefficient | |
JP2014215461A (ja) | 音声処理装置および方法、並びにプログラム | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN114373476A (zh) | 一种基于多尺度残差注意力网络的声音场景分类方法 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN109243429A (zh) | 一种语音建模方法及装置 | |
CN109919295A (zh) | 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 | |
CN111613240A (zh) | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 | |
CN113611293A (zh) | 一种蒙古语数据集扩充方法 | |
CN115565550A (zh) | 基于特征图轻量卷积变换的婴儿哭声情感识别方法 | |
CN114863905A (zh) | 语音类别获取方法、装置、电子设备和存储介质 | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
Chon et al. | Acoustic scene classification using aggregation of two-scale deep embeddings | |
CN116913258B (zh) | 语音信号识别方法、装置、电子设备和计算机可读介质 | |
CN113793624A (zh) | 一种声学场景分类方法 | |
CN112466333A (zh) | 一种声学场景分类方法与系统 | |
Wang | DCASE 2018 task 1a: Acoustic scene classification by bi-LSTM-CNN-net multichannel fusion | |
CN117542373A (zh) | 一种非空气传导语音的恢复系统及方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
CN106531156A (zh) | 一种基于室内多移动源实时处理的语音信号增强技术方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |