CN110390952A - 基于双特征2-DenseNet并联的城市声音事件分类方法 - Google Patents
基于双特征2-DenseNet并联的城市声音事件分类方法 Download PDFInfo
- Publication number
- CN110390952A CN110390952A CN201910539745.8A CN201910539745A CN110390952A CN 110390952 A CN110390952 A CN 110390952A CN 201910539745 A CN201910539745 A CN 201910539745A CN 110390952 A CN110390952 A CN 110390952A
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- densenet
- bicharacteristic
- cepstrum coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明提供基于双特征2‑DenseNet并联的城市声音事件分类方法,其具对特征信息具有更高效的融合能力,更高的分类准确率,且具有更强的泛化能力。其包括:S1采集、处理待处理音频数据,输出音频帧序列;S2对音频帧序列进行时域和频域分析,分别输出梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列;S3构建分类模型,分类模型中包括以DenseNet模型为基础、结合2阶马尔可夫模型构建的网络模型;分类模型以2阶DenseNet模型为基础构建基础网络,基础网络设置为并联的两路;对分类模型进行训练,得到训练好的分类模型;S4将步骤S2中输出的特征向量序列经过处理后,以双特征形式分为两路输入到训练好的分类模型中进行分类识别,得到声音事件的分类结果。
Description
技术领域
本发明涉及声音识别技术领域,具体为基于双特征2-DenseNet并联的城市声音事件分类方法。
背景技术
现代社会中构建智慧城市综合体是城市发展的一个重要趋势,利用庞大的传感器网络收集目标城市的交通状况、噪音水平等音频数据,并对其进行数据分析后用以指导城市设计和技术决策,是当前是智慧城市的构建思路之一。城市声音事件分类研究主要应用于噪音监控、城市安防、声景评定、多媒体信息检索等方面。现有技术中SVM、VGG、DCNN等网络模型被使用在城市声音事件分类技术中,2014年Iustin Salamon 团队使用梅尔倒谱系数特征和支持向量机模型制定了基线,其准确率71.00%;2016年日本筑波大学的 JiaXingYe团队对音频数据进行局部特征和全局特征融合,基于卷积神经网络DCNN开展了音频特征融合的研究其分类,方法的准确率为77.36%;2018年韩国西江大学的MINKYU LIM团队在特征提取上采用FBANK 特征,开展了基于深层卷积神经网络VGG研究分类方法,其方法的准确率为81.50%。综上可知,当前城市声音事件分类方法的分类效果不是很理想,对于实际应用来说,准确率还不够高,且模型的泛化能力不够强。
发明内容
为了解决现有实际应用中需要更高准确率的声音分类方法的问题,本发明提供基于双特征2-DenseNet 并联的城市声音事件分类方法,其对特征信息具有更高效的融合能力,可以获得更高的分类准确率,且具有更强的泛化能力。
本发明的技术方案是这样的:基于双特征2-DenseNet并联的城市声音事件分类方法,其包括以下步骤:
S1:采集待处理音频数据,对所述待处理音频数据进行预处理,输出音频帧序列;
S2:对所述音频帧序列进行时域和频域分析,分别提取梅尔频率倒谱系数和伽马通倒谱系数,并分别输出梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列;
S3:构建分类模型,并对所述分类模型进行训练,得到训练好的分类模型;
S4:将步骤S2中输出的所述梅尔频率倒谱系数特征向量序列、所述伽马通倒谱系数特征向量序列经过处理后,以双特征形式分为两路输入到所述训练好的分类模型中进行分类识别,得到的识别结果即为声音事件的分类结果;
其特征在于:
所述分类模型中,包括以DenseNet模型为基础、结合2阶马尔可夫模型的特点构建的网络模型,即2 阶DenseNet模型;所述分类模型以2阶DenseNet模型为基础构建基础网络,所述基础网络设置为并联的两路;每路所述基础网络中,包括连续的2-DenseBlock结构,每个所述2-DenseBlock结构后面跟着一个 Transition layer层;
步骤S4中,分别输入到并联的两路所述基础网络中的所述梅尔频率倒谱系数特征向量序列、所述伽马通倒谱系数特征向量序列,在所述基础网络中先依次进行一次卷积操作和一次池化处理,然后再输入到连续的所述2-DenseBlock结构、所述Transition layer层中;通过所述基础网络处理后的特征向量序列先进行扁平化降维处理为一维数据,然后使用Concatenation对两路所述基础网络的输出进行合并,合并后的数据再经抑制过拟和处理后输入到全连接层中进行分类处理,最后分类结果经过向量归一化处理后输出。
其进一步特征在于:
每个所述2-DenseBlock结构包括依次连接的特征图层,每个所述2-DenseBlock结构中所述特征图层之间的连接基于2阶马尔可夫模型的相关性连接,当前的所述特征图层输入只与前2个特征图层输出相关;
每个所述特征图层中包括连续的一个1*1卷积层和一个3*3的卷积层;在所述特征图层中,输入的数据在进入卷积层进行卷积处理之前,都先进行批量标准化处理和激活函数处理;从第三个所述特征图层开始,每个所述特征图层分别与前两个特征图层通过Concatenation进行合并级联;每个所述2-DenseBlock 中的第一个特征图层与第二个特征图层之间加入一个dropout层;
在所述2-DenseBlock结构中,当前的所述特征图层不使用Concatenation进行连接时,其为卷积层前向传播,通过卷积核规律性地扫过输入特征,在卷积核尺寸区域对输入特征做矩阵元素乘法求和并叠加偏差量,表达公式为:
公式中:
l为每个所述2-DenseBlock结构中包括的所述特征图层的个数,
求和∑表示卷积层的前向传播过程,
xl-1、xl为第l个所述特征图层的输入与输出,
为卷积运算,w为核函数,b为偏置值,x(i,j)对应特征图上的像素,k为特征图的通道数,
m,n为卷积核尺寸大小;
在所述2-DenseBlock结构中,当前的所述特征图层使用Concatenation进行2阶连接时,当前的所述特征图层的输入来自其前面2层的输出,即对其前面2层的所述特征图层的特征进行Concatenation通道数合并级联,表达公式为:
xl=H([xl,xl-1,xl-2])
公式中:
[xl,xl-1,xl-2]表示使用Concentration层将前面两层所述特征图层的输入进行通道数合并级联, H(·)函数表示对特征图依次使用卷积、批量标准化、激活函数操作后的结果;
每个所述Transition layer层中包含一个卷积层和一个池化层,其中卷积核为1*1的卷积层进行特征降维处理;后接池化层,池化层处理可以减小矩阵的大小,减少最后全连接层的参数,表达公式为:
公式中:
p是预指定参数;当p趋于无穷大时,在池化区域内取极大值,l为每个所述2-DenseBlock 结构中包括的所述特征图层的个数,k为特征图的通道数;
所述分类模型中,通过所述基础网络处理后的特征向量序列先进行扁平化处理为一维数据,然后使用 Concatenation对两路所述基础网络的输出进行合并;对于两路一维数据的所述合并操作的表达公式为:
L=Concate([L1,L2])
公式中:
两路所述基础网络输出后的数据扁平化为一维数据,分别记做:L1、L2;
步骤S2中,提取梅尔频率倒谱系数和伽马通倒谱系数的时候,其具体维数提取包括:
梅尔频率倒谱系数为:128mfcc+23mfcc_d+23mfcc_d_d,
伽马通倒谱系数为:128gfcc;
所述输出梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列的结构为2维向量,第一位向量是对所述待处理音频数据的采样后的帧数,第二位向量是的特征的维数,即所述梅尔频率倒谱系数和所述伽马通倒谱系数的维数;在步骤S4中,以双特征形式分为两路输入到所述训练好的分类模型中进行分类识别之前,需要把所述的梅尔频率倒谱系数特征向量、所述伽马通倒谱系数特征向量从2维向量转换为3维向量,第3位向量是所述分类模型中的通道数;
所述扁平化降维处理是在Flatten层通过Flatten()函数将多维数据扁平化为一维数据;所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作,对网络进行参数调整和抑制过拟合;
所述向量归一化处理为通过Softmax函数进行处理,Softmax函数公式为:
公式中:
j=1,......,K,K指具体分类的类别数。
本发明提供的基于双特征2-DenseNet并联的城市声音事件分类方法,以2阶DenseNet模型网络为基础构建的一种新的并联网络模型,网络模型使用双特征两路并联输入的特点,即为双特征2-DenseNet并联模型;相对于传统卷积神经网络模型,双特征2-DenseNet并联模型中双特征输入、且使用2-DenseNet 并联模型,更高效地利用了特征信息融合,能够获取更多有效的特征信息;同时双路的2-DenseNet中层与层之间存在2阶有关连接,能够更有针对性地进行特征信息重用;因此通过双特征2阶DenseNet模型进行分类计算,在梅尔频率倒谱系数和伽马通倒谱系数双特征输入下,模型的分类准确率更高、泛化能力更强。
附图说明
图1为本发明中5层的2-DenseBlock各特征图层连接示意图;
图2为本发明中双特征2-DenseNet并联模型的网络框图;
图3为本发明中子网络D-2-DenseNet模型主体网络结构的示意图;
图4为本发明子网络2-DenseBlock各特征图层连接实施例的示意图。
具体实施方式
如图1~图4所示,本发明基于双特征2-DenseNet并联的城市声音事件分类方法,其包括以下步骤:
S1:采集待处理音频数据,对待处理音频数据进行预处理,输出音频帧序列;预处理操作包括:采样与量化、预加重处理、加窗;
S2:对音频帧序列进行时域和频域分析,分别提取梅尔频率倒谱系数Mel-frequency cepstral coefficients,mfcc)和伽马通倒谱系数(Gammatone frequencycepstral coefficients,gfcc),输出双特征特征向量序列;双特征特征向量的结构为2维向量,第一位向量是对于对音频数据的采样后的帧数,第二位向量是特征的维数,即梅尔频率倒谱系数和伽马通倒谱系数的维数;
其具体维数提取包括:
梅尔频率倒谱系数为:128mfcc+23mfcc_d+23mfcc_d_d,
伽马通倒谱系数为:128gfcc。
S3:构建分类模型,并对分类模型进行训练,得到训练好的分类模型;
S4:将步骤S2中输出的梅尔频率倒谱系数和伽马通倒谱系数特征向量序列经过处理后,以双特征形式分为两路输入到所述训练好的分类模型中进行分类识别;在双特征特征向量序列输入到训练好的分类模型之前,需要把双特征特征向量从2维向量转换为3维向量,第3位向量是分类模型中的通道数;把转换后的3维向量输入到训练好的分类模型中进行分类识别,得到的识别结果即为声音事件的分类结果。
构建分类模型时,以DenseNet模型为基础,结合2阶马尔可夫模型的特点构建的网络模型,构成2 阶DenseNet模型(以下简称:2-DenseNet模型),即分类模型以2-DenseNet模型为基础构建基础网络,基础网络设置为并联的两路;每路基础网络中,包括连续的2-DenseBlock结构,每个2-DenseBlock结构后面跟着一个Transition layer层;2-DenseNet是一种2阶密集连接的卷积神经网络;在该网络中,当前层仅与前两层之间进行有关连接,其采用Concatenation进行将前两层输出进行通道数合并级联,该层所学习的特征图通过有针对、规律性的2阶有关连接传给后面层作为输入;
如图2所示,输入到并联的两路基础网络中的梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列,先依次进行一次卷积操作和一次池化处理,然后再输入到连续的m个2-DenseBlock结构、 Transition layer层中;经过连续的m个2-DenseBlock和Transition Layer层处理后,先在Flatten 层通过Flatten()函数将多维数据扁平化为一维数据,然后使用Concatenation对两路基础网络的输出进行合并;合并为一路后,再通过一个全连接层和一个dropout层进行抑制过拟和处理操作,音频数据被输入到全连接层中进行分类处理,最后分类结果经过Softmax函数进行向量归一化处理后输出;其中 2-DenseBlock的个数m和特征图层的层数l根据实际的硬件情况和数据复杂度进行取值;
使用Concatenation对于两路一维数据的合并操作的表达公式为:
L=Concate([L1,L2])
公式中:
两路基础网络输出后的数据扁平化为一维数据,分别记做:L1、L2;
最后分类结果经过向量归一化处理后输出;向量归一化处理为通过Softmax函数进行处理,Softmax 函数公式为:
公式中:
j=1,......,K,K指具体分类的类别数。
每个2-DenseBlock结构包括依次连接的l个特征图层,每个2-DenseBlock结构中特征图层之间的连接基于2阶马尔可夫模型的相关性连接,当前的特征图层输入只与前2个特征图层输出相关;
每个特征图层中包括连续的一个1*1卷积层和一个3*3的卷积层;在特征图层中,输入的数据在进入卷积层进行卷积处理之前,都先进行批量标准化处理和激活函数处理;从第三个特征图层开始,每个特征图层分别与前两个特征图层通过Concatenation进行合并级联,二阶有关连接只能从第三个特征图层开始对前两层进行有关连接,故第一个特征图层和第二个特征图层之间没有Concatenation;每个2-DenseBlock 中的第一个特征图层与第二个特征图层之间加入一个dropout层,进行小幅过拟合抑制,方便后期网络模型调参;激活函数采用ReLU函数;
在2-DenseBlock结构中,当前的特征图层不使用Concatenation进行连接时,其为卷积层前向传播,通过卷积核规律性地扫过输入特征,在卷积核尺寸区域对输入特征做矩阵元素乘法求和并叠加偏差量,表达公式为:
公式中:
l为每个2-DenseBlock结构中包括的特征图层的个数,
求和∑表示卷积层的前向传播过程,
xl-1、xl为第l个特征图层的输入与输出,
为卷积运算,w为核函数,b为偏置值,x(i,j)对应特征图上的像素,k为特征图的通道数,
m,n为卷积核尺寸大小;
在2-DenseBlock结构中,当前的特征图层使用Concatenation进行2阶连接时,当前的特征图层的输入来自其前面2层的输出,即对其前面2层的特征图层的特征进行Concatenation通道数合并级联,表达公式为:
xl=H([xl,xl-1,xl-2])
公式中:
[xl,xl-1,xl-2]表示使用Concentration层将前面两层特征图层的输入进行通道数合并级联,H(·)函数表示对特征图依次使用卷积、批量标准化、激活函数操作后的结果。
每个Transition layer层中包含一个卷积层和一个池化层,其中卷积核为1*1的卷积层进行特征降维处理;后接最大池化层,池化层处理可以减小矩阵的大小,减少最后全连接层的参数,表达公式为:
公式中:
p是预指定参数;当p趋于无穷大时,在池化区域内取极大值,池化操作为最大池化((Max pooling),
l为每个2-DenseBlock结构中包括的特征图层的个数,
k为特征图的通道数;
音频文件特征图层中,2-DenseNet模型采用的是2阶密集连接,即当前层与前两层的输出进行有关连接。如图1所示,当特征图层的层数l=5时,第1层的输出为x1,第2层不使用Concatenation层前向传播,则第2层的输入为x2;第3层的输入的特征图只与第2层、第1层的输出的特征图有关,即 x3=H([x3,x2,x1]);第4层的输入的特征图只与第3层、第2层的输出的特征图有关,即 x4=H([x4,x3,x2]);第5层的输入的特征图只与第4层、第3层的输出的特征图有关,即x5=H([x5,x4,x3])。
如图3和图4所示,为D-2-DenseNet模型的网络结构的实施例。使用UrbanSound8k数据集,数据集的类别分别为10分类,对样本标签使用keras的to_categorical函数进行one-hot编码。根据实际的实验设备的情况,m设置为3,即输入分类模型的梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列先依次进行一次卷积操作和一次池化处理,然后分别依次输入连续的3个2-DenseBlock中;根据数据情况和设备的性能,l取值为3,即每个2-DenseBlock结构中包括3个特征图层。
对音频帧序列进行时域和频域分析,分别提取梅尔频率倒谱系数和伽马通倒谱系数,输出特征向量序列;UrbanSound8k数据集中对输入的音频数据的采样帧数为174,选择的梅尔频率倒谱系数特征维数为: 128mfcc+23mfcc_d+23mfcc_d_d,即在128个梅尔滤波组下,提取128维的mfcc特征,加前23维mfcc 一阶差分特征,加前23维mfcc二阶差分特征;选择的伽马通倒谱系数特征维数为:128gfcc,即在128 个伽马通滤波组下,提取128维的gfcc特征。则分别提取梅尔频率倒谱系数和伽马通倒谱系数后,输出梅尔倒谱系数特征向量序列为(174,174)、伽马通倒谱系数特征向量序列为(174,128)。
把这个2维向量通过reshape转为3维数据,因为此处2-DenseNet模型的网络结构中Input的通道数是1,则转为三维数据后,UrbanSound8k的特征向量分别为(174,174,1)和(174,128,1)。
把两种特征向量分别输入到2-DenseNet并联模型中,输入的特征图序列首先通过卷积核为4*1的卷积层,然后采用MaxPooling、pool_size=[2,1]的池化层进行池化处理,得到的三维数据依次输入到三个连续的2-DenseBlock和TransitionLayer层中。
在每个2-DenseBlock中,存在3个特征图层,即3个2-DenseBlock函数,该函数输入为特征图序列,以及增长数率k=28。在2-DenseBlock函数的处理中,先进行批量标准化(BN)处理,激活函数为ReLU函数;再传递到卷积层,卷积核尺寸为3*3、padding采用'same'方式、过滤器深度为k=28;函数内该过程执行两次,第一个卷积核尺寸为1*1,第二个卷积核尺寸为3*3。因此该2-DenseBlock函数(公式中记作: 2-DenseBlock)中的具体操作为:
每次经过2-DenseBlock函数处理之后,三维向量会被输入到Transition_layer层中;在 Transition_layer层中,首先进入一个卷积核为1*1的卷积层,进行特征降维处理;后接池化层,采用 MaxPooling、pool_size=[2,2],经过池化处理可以减小矩阵的大小,减少最后全连接层的参数。
经过三个连续的2-DenseBlock和TransitionLayer结构处理之后的三维数据,首先采用Flatten() 层将三维数据扁平化转化层一维数据,进入第一个全连接层,全连接层的神经元的数目为256,然后将两路使用Concatenation进行合并为一路到第二个全连接层,即:当前全连接层的神经元的数目为512(两路256神经元数的合并后的结果),再进入第三个全连接层,全连接层的神经元的数目为256,后接一个 dropout层进行操作,对网络抑制过拟合;最后进入第四个全连接层,全连接层的神经元的数目为10,即本次分类为10分类,最后通过归一化指数函数Softmax处理后,输出最终分类结果。
在Window10系统、显卡GTX1060、CPU为i7-8750H、内存16G的实验环境下;keras+TensorFlow 作为深度学习框架,采用数据集UrbanSound8k和Dcase2016,首先在UrbanSound8k数据集分别进行 DenseNet、2-DenseNet模型和D-2-DenseNet模型对比试验,以及D-2-DenseNet与其他已有研究模型的对比试验,验证模型的分类准确率;再增加Dcase2016数据集验证模型的泛化能力。
通过在DenseNet、2-DenseNet和D-2-DenseNet网络模型中,提取的梅尔倒谱系数和伽马通倒谱系数特征,在UrbanSound8k数据集进行音频数据的分类实验,具体结果如下面表1所示。
表1 DenseNet、2-DenseNet和D-2-Densenet模型准确率对比
模型 | 特征 | 分类准确率 |
DenseNet | 128mfcc+23mfcc_d+23mfcc_d_d | 0.8100 |
DenseNet | 128gfcc | 0.7898 |
2-DenseNet | 128mfcc+23mfcc_d+23mfcc_d_d | 0.8217 |
2-DenseNet | 128gfcc | 0.7945 |
D-2-DenseNet | {128mfcc+23mfcc_d+23mfcc_d_d,128gfcc} | 0.8481 |
根据实验结果可知,本发明采用的双特征2-DenseNet并联模型(表格中标记为:D-2-DenseNet),相较于原来单特征的DenseNet模型,分类准确率分别提升3.81%、5.83%;相较于原来单特征的2-DenseNet 模型,分类准确率分别提升2.64%、5.36%。证明该模型能更高效利用特征信息融合,获取更多有效的特征信息,从而提高分类准确率。
在UrbanSound8k数据集中D-2-Densenet模型进一步进行试验,试验结果与已有的国内外研究者模型准确率进行对比,对比试验结果如表2。
表2不同模型分类准确率结果
本发明的技术方案基于mfcc和gfcc双特输入下,采用的D-2-DenseNet模型,与国内外研究者试验结果对比可知,本发明技术方案的分类准确率比DilatedCNN模型提高2.88%,最优分类准确率为84.81%,本发明技术方案的分类准确率有了明显的提高。
为探索D-2-DenseNet模型的泛化能力,在UrbanSound8k数据集实验后增加Dcase2016数据集进行实验。测试两个数据集的分类准确率,评价模型的泛化能力,实验结果如表3所示。
表3 UrbanSounf8k、Dcase2016数据集下模型准确率
模型 | Urbansound8k | Dcase2016 |
Baseline | 0.7100 | 0.7810 |
D-2-DenseNet | 0.8481 | 0.8517 |
根据实验结果可知,本发明采用的双特征2-DenseNet并联模型,在UrbanSound8k和Dcase2016数据集准确率分别为84.81%、85.17%,相比于数据集baseline分别提高了13.81%、7.07%,本发明技术方案的分类准确率有了明显的提高。且在两个数据集中准确率均在85%左右,验证了模型具有良好的泛化能力。
综上,本发明提供的技术方案在处理音频数据时能更高效利用特征信息融合,获取更多有效的特征信息,模型具有优秀的分类准确率、良好的泛化能力。
Claims (10)
1.基于双特征2-DenseNet并联的城市声音事件分类方法,其包括以下步骤:
S1:采集待处理音频数据,对所述待处理音频数据进行预处理,输出音频帧序列;
S2:对所述音频帧序列进行时域和频域分析,分别提取梅尔频率倒谱系数和伽马通倒谱系数,并分别输出梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列;
S3:构建分类模型,并对所述分类模型进行训练,得到训练好的分类模型;
S4:将步骤S2中输出的所述梅尔频率倒谱系数特征向量序列、所述伽马通倒谱系数特征向量序列经过处理后,以双特征形式分为两路输入到所述训练好的分类模型中进行分类识别,得到的识别结果即为声音事件的分类结果;
其特征在于:
所述分类模型中,包括以DenseNet模型为基础、结合2阶马尔可夫模型的特点构建的网络模型,即2阶DenseNet模型;所述分类模型以2阶DenseNet模型为基础构建基础网络,所述基础网络设置为并联的两路;每路所述基础网络中,包括连续的2-DenseBlock结构,每个所述2-DenseBlock结构后面跟着一个Transition layer层;
步骤S4中,分别输入到并联的两路所述基础网络中的所述梅尔频率倒谱系数特征向量序列、所述伽马通倒谱系数特征向量序列,在所述基础网络中先依次进行一次卷积操作和一次池化处理,然后再输入到连续的所述2-DenseBlock结构、所述Transition layer层中;通过所述基础网络处理后的特征向量序列先进行扁平化降维处理为一维数据,然后使用Concatenation对两路所述基础网络的输出进行合并,合并后的数据再经抑制过拟和处理后输入到全连接层中进行分类处理,最后分类结果经过向量归一化处理后输出。
2.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:每个所述2-DenseBlock结构包括依次连接的特征图层,每个所述2-DenseBlock结构中所述特征图层之间的连接基于2阶马尔可夫模型的相关性连接,当前的所述特征图层输入只与前2个特征图层输出相关;
每个所述特征图层中包括连续的一个1*1卷积层和一个3*3的卷积层;在所述特征图层中,输入的数据在进入卷积层进行卷积处理之前,都先进行批量标准化处理和激活函数处理;从第三个所述特征图层开始,每个所述特征图层分别与前两个特征图层通过Concatenation进行合并级联;每个所述2-DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层。
3.根据权利要求2所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:在所述2-DenseBlock结构中,当前的所述特征图层不使用Concatenation进行连接时,其为卷积层前向传播,通过卷积核规律性地扫过输入特征,在卷积核尺寸区域对输入特征做矩阵元素乘法求和并叠加偏差量,表达公式为:
公式中:
l为每个所述2-DenseBlock结构中包括的所述特征图层的个数,
求和∑表示卷积层的前向传播过程,
xl-1、xl为第l个所述特征图层的输入与输出,
为卷积运算,w为核函数,b为偏置值,x(i,j)对应特征图上的像素,k为特征图的通道数,
m,n为卷积核尺寸大小。
4.根据权利要求2所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:在所述2-DenseBlock结构中,当前的所述特征图层使用Concatenation进行2阶连接时,当前的所述特征图层的输入来自其前面2层的输出,即对其前面2层的所述特征图层的特征进行Concatenation通道数合并级联,表达公式为:
xl=H([xl,xl-1,xl-2])
公式中:
[xl,xl-1,xl-2]表示使用Concentration层将前面两层所述特征图层的输入进行通道数合并级联,H(·)函数表示对特征图依次使用卷积、批量标准化、激活函数操作后的结果。
5.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:每个所述Transition layer层中包含一个卷积层和一个池化层,其中卷积核为1*1的卷积层进行特征降维处理;后接池化层,池化层处理可以减小矩阵的大小,减少最后全连接层的参数,表达公式为:
公式中:
p是预指定参数;当p趋于无穷大时,在池化区域内取极大值,l为每个所述2-DenseBlock结构中包括的所述特征图层的个数,k为特征图的通道数。
6.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:所述分类模型中,通过所述基础网络处理后的特征向量序列先进行所述扁平化降维处理为为一维数据,然后使用Concatenation对两路所述基础网络的输出进行合并;对于两路一维数据的所述合并操作的表达公式为:
L=Concate([L1,L2])
公式中:
两路所述基础网络输出后的数据扁平化为一维数据,分别记做:L1、L2。
7.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:步骤S2中,提取梅尔频率倒谱系数和伽马通倒谱系数的时候,其具体维数提取包括:
梅尔频率倒谱系数为:128mfcc+23mfcc_d+23mfcc_d_d,
伽马通倒谱系数为:128gfcc。
8.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:所述输出梅尔频率倒谱系数特征向量序列和伽马通倒谱系数特征向量序列的结构为2维向量,第一位向量是对所述待处理音频数据的采样后的帧数,第二位向量是的特征的维数,即所述梅尔频率倒谱系数和所述伽马通倒谱系数的维数;在步骤S4中,以双特征形式分为两路输入到所述训练好的分类模型中进行分类识别之前,需要把所述的梅尔频率倒谱系数特征向量、所述伽马通倒谱系数特征向量从2维向量转换为3维向量,第3位向量是所述分类模型中的通道数。
9.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:所述扁平化降维处理是在Flatten层通过Flatten()函数将多维数据扁平化为一维数据。
10.根据权利要求1所述基于双特征2-DenseNet并联的城市声音事件分类方法,其特征在于:所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作,对网络进行参数调整和抑制过拟合;
所述向量归一化处理为通过Softmax函数进行处理,Softmax函数公式为:
公式中:
j=1,......,K,K指具体分类的类别数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539745.8A CN110390952B (zh) | 2019-06-21 | 2019-06-21 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539745.8A CN110390952B (zh) | 2019-06-21 | 2019-06-21 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110390952A true CN110390952A (zh) | 2019-10-29 |
CN110390952B CN110390952B (zh) | 2021-10-22 |
Family
ID=68285671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910539745.8A Active CN110390952B (zh) | 2019-06-21 | 2019-06-21 | 基于双特征2-DenseNet并联的城市声音事件分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390952B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833906A (zh) * | 2020-07-25 | 2020-10-27 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN111833855A (zh) * | 2020-03-16 | 2020-10-27 | 南京邮电大学 | 基于DenseNet STARGAN的多对多说话人转换方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112309423A (zh) * | 2020-11-04 | 2021-02-02 | 北京理工大学 | 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法 |
CN113361647A (zh) * | 2021-07-06 | 2021-09-07 | 青岛洞听智能科技有限公司 | 一种未接通电话类型识别方法 |
CN113449603A (zh) * | 2021-05-28 | 2021-09-28 | 同济大学 | 一种高分辨率遥感影像地表要素识别方法及存储介质 |
CN113808604A (zh) * | 2021-09-16 | 2021-12-17 | 江南大学 | 基于伽马通频谱分离的声场景分类方法 |
CN115188387A (zh) * | 2022-07-12 | 2022-10-14 | 四川农业大学 | 一种有效的海洋哺乳动物声音自动检测和分类方法 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798A (zh) * | 2009-02-17 | 2009-07-08 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
US20090224925A1 (en) * | 2008-03-10 | 2009-09-10 | Ramot At Tel Aviv University Ltd. | System for automatic fall detection for elderly people |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN104882144A (zh) * | 2015-05-06 | 2015-09-02 | 福州大学 | 基于声谱图双特征的动物声音识别方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
US20180046919A1 (en) * | 2016-08-12 | 2018-02-15 | Beijing Deephi Intelligence Technology Co., Ltd. | Multi-iteration compression for deep neural networks |
US20180129931A1 (en) * | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Quasi-recurrent neural network based encoder-decoder model |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108806668A (zh) * | 2018-06-08 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种音视频多维度标注与模型优化方法 |
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、系统及计算机可读存储介质 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109767776A (zh) * | 2019-01-14 | 2019-05-17 | 广东技术师范学院 | 一种基于密集神经网络的欺骗语音检测方法 |
US20190172476A1 (en) * | 2017-12-04 | 2019-06-06 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
-
2019
- 2019-06-21 CN CN201910539745.8A patent/CN110390952B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090224925A1 (en) * | 2008-03-10 | 2009-09-10 | Ramot At Tel Aviv University Ltd. | System for automatic fall detection for elderly people |
CN101477798A (zh) * | 2009-02-17 | 2009-07-08 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN102799899A (zh) * | 2012-06-29 | 2012-11-28 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN104882144A (zh) * | 2015-05-06 | 2015-09-02 | 福州大学 | 基于声谱图双特征的动物声音识别方法 |
US20180046919A1 (en) * | 2016-08-12 | 2018-02-15 | Beijing Deephi Intelligence Technology Co., Ltd. | Multi-iteration compression for deep neural networks |
US20180129931A1 (en) * | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Quasi-recurrent neural network based encoder-decoder model |
US20190172476A1 (en) * | 2017-12-04 | 2019-06-06 | Apple Inc. | Deep learning driven multi-channel filtering for speech enhancement |
CN108182949A (zh) * | 2017-12-11 | 2018-06-19 | 华南理工大学 | 一种基于深度变换特征的高速公路异常音频事件分类方法 |
CN108806668A (zh) * | 2018-06-08 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种音视频多维度标注与模型优化方法 |
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、系统及计算机可读存储介质 |
CN109726657A (zh) * | 2018-12-21 | 2019-05-07 | 万达信息股份有限公司 | 一种深度学习场景文本序列识别方法 |
CN109767776A (zh) * | 2019-01-14 | 2019-05-17 | 广东技术师范学院 | 一种基于密集神经网络的欺骗语音检测方法 |
Non-Patent Citations (3)
Title |
---|
XIAOHU ZHANG,YUEXIAN ZOU: "DCH-Net: Densely Connected Highway Convolution Neural Network for Environmental Sound Classification", 《2018 IEEE 23RD INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING》 * |
杨吕祥,胡燕: "基于多层次注意力机制一维 DenseNet 的音频事件检测", 《计算机应用研究》 * |
陈波,俞轶颖: "基于深度神经网络的城市声音分类模型研究", 《浙江工业大学学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833855A (zh) * | 2020-03-16 | 2020-10-27 | 南京邮电大学 | 基于DenseNet STARGAN的多对多说话人转换方法 |
CN111833855B (zh) * | 2020-03-16 | 2024-02-23 | 南京邮电大学 | 基于DenseNet STARGAN的多对多说话人转换方法 |
CN111833906B (zh) * | 2020-07-25 | 2022-09-30 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN111833906A (zh) * | 2020-07-25 | 2020-10-27 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112309423A (zh) * | 2020-11-04 | 2021-02-02 | 北京理工大学 | 驾驶环境下基于智能手机音频感知的呼吸道症状检测方法 |
CN113449603A (zh) * | 2021-05-28 | 2021-09-28 | 同济大学 | 一种高分辨率遥感影像地表要素识别方法及存储介质 |
CN113361647A (zh) * | 2021-07-06 | 2021-09-07 | 青岛洞听智能科技有限公司 | 一种未接通电话类型识别方法 |
CN113808604A (zh) * | 2021-09-16 | 2021-12-17 | 江南大学 | 基于伽马通频谱分离的声场景分类方法 |
CN113808604B (zh) * | 2021-09-16 | 2023-11-14 | 江南大学 | 基于伽马通频谱分离的声场景分类方法 |
CN115188387A (zh) * | 2022-07-12 | 2022-10-14 | 四川农业大学 | 一种有效的海洋哺乳动物声音自动检测和分类方法 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110390952B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390952A (zh) | 基于双特征2-DenseNet并联的城市声音事件分类方法 | |
CN112784798B (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN109949824B (zh) | 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 | |
CN109828251A (zh) | 基于特征金字塔轻量卷积神经网络的雷达目标识别方法 | |
CN106847309A (zh) | 一种语音情感识别方法 | |
CN106599797A (zh) | 一种基于局部并行神经网络的红外人脸识别方法 | |
CN103413551B (zh) | 基于稀疏降维的说话人识别方法 | |
CN108899051A (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN110367967A (zh) | 一种基于数据融合的便携型轻量化人脑状态检测方法 | |
CN103854016B (zh) | 基于方向性共同发生特征的人体行为分类识别方法及系统 | |
CN106354735A (zh) | 一种图像中目标的检索方法和装置 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Parthasarathy et al. | Convolutional neural network techniques for speech emotion recognition | |
CN110059765B (zh) | 一种矿物智能识别分类系统与方法 | |
CN108478216A (zh) | 一种基于卷积神经网络的癫痫病发作前期智能预测方法 | |
CN109767789A (zh) | 一种用于语音情感识别的新特征提取方法 | |
CN110288028A (zh) | 心电检测方法、系统、设备及计算机可读存储介质 | |
CN106951819A (zh) | 基于稀疏概率分布和多阶段类别筛选的单样本人脸识别方法 | |
CN108461085A (zh) | 一种短时语音条件下的说话人识别方法 | |
CN109948498A (zh) | 一种基于3d卷积神经网络算法的动态手势识别方法 | |
CN112766283A (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN115965864A (zh) | 一种用于农作物病害识别的轻量级注意力机制网络 | |
Kamaruddin et al. | Features extraction for speech emotion | |
CN110246509A (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |