CN109949824A - 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 - Google Patents

基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 Download PDF

Info

Publication number
CN109949824A
CN109949824A CN201910066335.6A CN201910066335A CN109949824A CN 109949824 A CN109949824 A CN 109949824A CN 201910066335 A CN201910066335 A CN 201910066335A CN 109949824 A CN109949824 A CN 109949824A
Authority
CN
China
Prior art keywords
layer
rank
feature
densenet
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910066335.6A
Other languages
English (en)
Other versions
CN109949824B (zh
Inventor
曹毅
黄子龙
张威
翟明浩
刘晨
李巍
张宏越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201910066335.6A priority Critical patent/CN109949824B/zh
Publication of CN109949824A publication Critical patent/CN109949824A/zh
Application granted granted Critical
Publication of CN109949824B publication Critical patent/CN109949824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提供一种基于N‑DenseNet和高维mfcc特征的城市声音事件分类方法,其在处理音频数据时能提供更丰富、更有效的特征信息,模型有更强的泛化能力,分类具有更高的准确率。其包括:S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列;S2:对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;S3:构建声学模型,并对声学模型进行训练,得到训练好的声学模型;S4:将步骤S2中输出的特征向量序列经过处理后,输入到训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;其特征在于:声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型。

Description

基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
技术领域
本发明涉及声音识别技术领域,具体为基于N-DenseNet和高维mfcc特征的城市声音事件分类方法。
背景技术
现代社会中构建智慧城市综合体是城市发展的一个趋势。其中,利用庞大的传感器网络收集目标城市的空气质量、噪音水平、人口活动等等多种数据,对音频数据分析后用之指导城市设计,是智慧城市的构建思路之一。其中,研究城市声音事件分类的主要研究意义在噪音监控、城市安防、声景评定、多媒体检索等方面。
DenseNet是一种具有密集连接的卷积神经网络。在该网络中,任何两层之间都有直接的连接,网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征图也会被直接传给其后面所有层作为输入。现有技术中LeNet、VGG网络模型被使用在城市声音事件分类技术中,然而分类效果不是很理想、准确率不高,且模型的泛化能力不够强,导致分类准确率低。
发明内容
为了解决声音分类特征提取不够充分、模型泛化能力不够强、导致分类时准确率低的问题,本发明提供一种基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其在处理音频数据时能提供丰富、有效的特征信息,模型有较强的泛化能力,分类具有更高的准确率。
本发明的技术方案是这样的:基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其包括以下步骤:
S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列,
所述预处理操作包括:采样与量化、预加重处理、加窗;
S2:对所述音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;
S3:构建声学模型,并对所述声学模型进行训练,得到训练好的声学模型;
S4: 将步骤S2中输出的所述特征向量序列经过处理后,输入到所述训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;
其特征在于:所述声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型;每个所述声学模型内设置多个N阶DenseBlock连接,每个所述N阶DenseBlock中层与层的连接基于N阶马尔可夫链的相关性连接,当前特征图层输出与前N个特征图层输入相关;因此,若要建立N阶DenseBlock,必须使DenseBlock中特征图层个数大于N;当所述N阶DenseNet模型中的每个所述N阶DenseBlock有j个特征图层;设从第1个所述特征图层到第j个所述特征图层的输入记作[x0, x1, x2, …, xi],从第1个所述特征图层到第j个所述特征图层的输出记作[H1, H2, H3, …, Hj];
则当N = 1的时候,Hj的表达公式为:
上式中:
i = j-1,
N、i、j为正整数;
当N > 1的时候,Hj的表达公式为:
上式中:
N > 1,
i = j-1,
N、i、j为正整数。
其进一步特征在于:
步骤S2中的所述高维梅尔频率倒谱系数的提取方案包括:
(1)128mfcc + 23mfcc_d + 23mfcc_d_d
(2)108mfcc + 33mfcc_d + 33mfcc_d_d
(3)128mfcc
(4)108mfcc;
输入所述声学模型的所述特征向量序列先依次进行一层卷积操作和一次池化处理,然后依次输入连续的m个N阶DenseBlock中,每个所述N阶DenseBlock后面分别跟着一个TransitionLayer层;经过连续的m个所述N阶DenseBlock结构处理后,所述特征向量序列被输入全连接层进行分类处理,最后分类结果经过向量归一化处理后输出;其中m和N的取值都为正整数;
每个所述N阶DenseBlock包括依次连接的j个所述特征图层,每个所述特征图层中包括连续的2个卷积层,在所述特征图层中,输入的数据在进入卷积层进行卷积处理之前,都先进行批量标准化处理和激活函数处理;每个所述特征图层中最后一个卷积层分别与下一个卷积层通过Concatenate进行合并级联;每个所述N阶DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层;
所述TransitionLayer层包括一个卷积层、一个最大池化层;
经过连续的m个所述N阶DenseBlock结构处理后的所述特征向量序列被输入到所述全连接层之前,需要依次进行扁平化降维处理和抑制过拟合处理;
所述扁平化降维处理是在Flatten层通过Flatten()函数将多维数据扁平化为一维数据;所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作,对网络进行参数调整和抑制过拟合;
步骤S2中获取的所述特征向量的结构为2维向量,第一位向量是对于对所述音频数据的采样后的帧数,第二位向量是所述高维梅尔频率倒谱系数的维数;
步骤S4中在所述特征向量序列输入到所述训练好的声学模型之前,需要把所述特征向量从2维向量转换为3维向量,第三位向量是所述声学模型中的通道数;
所述激活函数为Rectified Linear Unit函数,其计算公式为:
所述向量归一化处理为通过Softmax函数进行处理,Softmax函数公式为:
其中:j = 1,……,K。
本发明提供的基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,在本发明的技术方案中以传统DenseNet网络为基础,结合N阶马尔可夫模型的特点构建的一种新的网络模型,即为N阶DenseNet模型;相对于DenseNet模型,N阶DenseNet模型中特征图层连接更少,使网络参数相对较少,进而保证了N-DenseNet网络训练速度相对更快,收敛速度更快;与传统DenseNet模型相比,通过N阶DenseNet模型进行分类计算,在高维梅尔频率倒谱系数下,准确率更高。
附图说明
图1为本发明中子网络N阶DenseBlock各特征图层连接示意图;
图2为本发明中子网络1阶DenseBlock各特征图层连接示意图;
图3为本发明中子网络2阶DenseBlock各特征图层连接示意图;
图4为本发明中子网络3阶DenseBlock各特征图层连接示意图;
图5为本发明1阶DenseNet模型主体网络结构的示意图;
图6为本发明中1阶DenseBlock和Transition_layer连接实施例的示意图。
具体实施方式
如图1~图4所示,本发明基于N-DenseNet的城市声音事件分类方法,其包括以下步骤:
S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列,
预处理操作包括:采样与量化、预加重处理、加窗;
S2:对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;
高维梅尔频率倒谱系数的提取方案包括以下四种,根据实际的数据情况和设备性能,选择其中的一种进行实施:
(1)128mfcc + 23mfcc_d + 23mfcc_d_d
(2)108mfcc + 33mfcc_d + 33mfcc_d_d
(3)128mfcc
(4)108mfcc;
步骤S2中获取的特征向量的结构为2维向量,第一位向量是对于对音频数据的采样后的帧数,第二位向量是高维梅尔频率倒谱系数的维数;
S3:构建声学模型,并对声学模型进行训练,得到训练好的声学模型;
声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型(以下记作N-DenseNet);每个声学模型内设置多个N阶DenseBlock连接(以下记作N-DenseBlock),每个N阶DenseBlock中层与层的连接基于N阶马尔可夫链的相关性连接,当前特征图层输出与前N个特征图层输入相关;因此,若要建立N阶DenseBlock,必须使DenseBlock中特征图层个数大于N;当N阶DenseNet模型中的每个N阶DenseBlock有j个特征图层;设从第1个特征图层到第j个特征图层的输入记作[x0, x1, x2, …, xi],从第1个特征图层到第j个特征图层的输出记作[H1, H2, H3, …, Hj];
则当N = 1的时候,Hj的表达公式为:
上式中:
i = j-1,
N、i、j为正整数,
Hj =xi + xi-1表示第j层的输出Hj是xi、xi-1用Concatenate进行特征图层的通道数合并级联,再加批量标准化(BatchNormalization,以下缩写为BN)处理、激活函数RectifiedLinear Unit(以下缩写ReLU)处理、卷积(Convolution,以下缩写为Conv)处理后的结果;
当N > 1的时候,Hj的表达公式为:
上式中:
N > 1,
i = j-1,
N、i、j为正整数;
Hj =xi +xi-1 + … + xi-N表示第j层的输出Hj是xi,xi-1,…, xi-N用Concatenate进行特征图层的通道数合并级联,再加BN + ReLU + Conv处理后的结果;
S4: 将步骤S2中输出的特征向量序列从2为向量转换为3维向量,第三位向量是声学模型中的通道数,把转换后的3维向量输入到训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果。
音频文件特征图层中,原始DenseNet模型采用的是密集连接,即每一层图层都有连接。而依据N阶马尔可夫模型改进后的N阶DenseNet模型,根据Hj的表达式,如图2所示,当N = 1、j 最大取 5的时候,第1层的输出为H1,第2层的输出H2 = xi+xi-1, i=j-1,则H2 = x1+x0,x0即input,则H2 = x1+input,第2层的输出的特征图只与第2层的输入的特征图和input的特征图有关;第5层的输出H5 = x4+x4-1= x4+x3,第5层输出的特征图只与第5层和第4层输入的特征图有关;
如图3为2阶DenseBlock各特征图层连接示意图,当N = 2、j最大取5,按照N>1情况下的Hj的表达式,j≤2的时候,Hj= Hj,即第1层的输出为H1,第2层的输出H2 = H2;第3层的输出H3= x2+x1+x0;第5层的输出H5 = x4+x3+x2
如图1为N阶DenseBlock各特征图层连接示意图,按照N>1情况下的Hj的表达式,j ≤ N的时候,Hj= Hj,即前N层的输出都为Hj,j>N时,第N+1层开始 的输出为xi+xi-1+……xi-N
综上所述,设一个DenseBlock中有L个特征图层,原始的DenseNet模型中的所有的特征图层与特征层的连接总数共有L(L+1)/2,而改进后的N阶DenseBlock网络在相同的L层特征图连接中,减少为N(L-N)个(N=1,2,3,…,L-1);改进后的N阶N-DenseBlock网络模型中,减少了特征图的冗余现象,减少冗余的模型参数,从而提高了模型的分类准确性。
输入声学模型的特征向量序列先依次进行一层卷积操作和一次池化处理,然后依次输入连续的m个N阶DenseBlock中,每个N阶DenseBlock后面分别跟着一个TransitionLayer层;经过连续的m个N阶DenseBlock处理后,音频数据被输入全连接层进行分类处理,最后分类结果经过向量归一化处理后输出;其中m和N的取值都为正整数,m和N根据实际的硬件情况和数据复杂度进行取值;
每个N阶DenseBlock包括依次连接的j个特征图层、一个卷积层、一个最大池化层;每个特征图层中包括连续的2个卷积层,在特征图层中,输入的数据在进入卷积层进行卷积处理之前,都先进行批量标准化处理和激活函数处理;每个特征图层中最后一个卷积层分别与下一个卷积层通过Concatenate进行合并级联;每个N阶DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层,进行小幅过拟合抑制,方便后期网络模型调参;
激活函数为Rectified Linear Unit(ReLU)函数,其计算公式为:
音频数据被输入到全连接层之前,需要依次进行扁平化降维处理和抑制过拟合处理;
扁平化降维处理是在Flatten层通过Flatten()函数将多维数据扁平化为一维数据;抑制过拟和处理是通过一个全连接层和一个dropout层进行操作,对网络进行参数调整和抑制过拟合;
向量归一化处理为通过Softmax函数进行处理,Softmax函数公式为:
其中:j = 1,……,K。
如图5和图6所示,为1阶DenseNet模型的网络结构的实施例。使用UrbanSound8k数据集,数据集为10分类,对样本标签使用keras的to_categorical函数进行one-hot编码。根据实际的实验设备的情况,m设置为3,即输入声学模型的特征向量序列先依次进行一层卷积操作和一次池化处理,然后依次输入连续的3个1阶DenseBlock中,在图中表示为N-DenseBlock(1)、N-DenseBlock(2)、N-DenseBlock(3);1阶DenseNet模型中,N取1,则每个1阶DenseBlock中,根据数据情况和设备的性能,j取值为2,即每个1阶DenseBlock中包括2个特征图层。
对音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;对输入的音频数据的采样帧数为174,选择的高维梅尔频率倒谱系数的方案为:128mfcc + 23mfcc_d + 23mfcc_d_d,即在128个mel滤波组下,提取128维的mfcc特征,加前23维mfcc一阶差分特征,加前23维mfcc二阶差分特征;则实施步骤S2后输出特征向量序列为(174,174)。
把这个2维向量通过reshape转为3维数据,因为此处1阶DenseNet模型的网络结构中Input的通道数是1,则转为三维数据后,特征向量为(174,174,1)。
把特征向量(174,174,1)输入到1阶DenseNet模型中,输入的特征图序列首先通过卷积核为4*1的卷积层,然后采用MaxPooling、pool_size=[2, 1]的池化层进行池化处理,得到的三维数据依次输入到三个连续的1阶DenseBlock 、TransitionLayer层中。
在每个1阶DenseBlock中,存在2个特征图层,即2个1阶DenseBlock函数,该函数输入为特征图序列,以及增长数率k=24。在1阶DenseBlock函数的处理中,先进行批量标准化(BatchNormalization)处理,激活函数为ReLU函数;再传递到卷积层,卷积核尺寸为3*3、padding采用'same'方式、过滤器深度为k=24;函数内该过程执行两次,因此该1阶DenseBlock函数(公式中记作:1-DenseBlock)中的具体操作为:
从第一个1阶DenseBlock函数输出的三维向量通过Concatenate[input,Conv_1]操作将input层中的特征图加到conv1上,然后通过1次Dropout进行抑制模型过拟合之后,输出到下一个1阶DenseBlock函数中;经过连续两个1阶DenseBlock函数处理之后,输出的三维向量输入到Transition_layer层;
三维向量输入到Transition_layer层中,首先进入一个卷积核为1*1的卷积层,进行特征降维处理;后接池化层,采用MaxPooling、pool_size=[2, 2],经过池化处理可以减小矩阵的大小,减少最后全连接层的参数。
经过三个连续的1阶DenseBlock 、TransitionLayer层处理之后的三维数据,首先采用Flatten()层将三维数据扁平化转化层一维数据,再进入第一个全连接层,全连接层的神经元的数目为256,使用Dropout层抑制过拟合;最后进入第二个全连接层,神经元个数为10,即本次分类为10分类,最后通过归一化指数函数Softmax处理后,输出最终分类结果。
在Window10系统、显卡GTX1060、CPU为i7-8750H、内存16G的实验环境下;keras +TensorFlow作为深度学习框架,采用城市声音事件分类标准数据集UrbanSound8k,其中fold1-9中95%作为训练集和5%验证集,训练集样本个数为7508、验证集样本个数为396;测试集为fold10中wav音频文件,样本个数为838。分别进行高维mfcc特征对模型影响对比试验,以及改进的N阶DenseNet与其他模型的对比试验。
通过在LeNet-5、VGG-8和DenseNet-16网络模型中,调整不同维数的高维梅尔频率倒谱系数,进行音频数据的分类实验,具体结果如下面表1所示:
表1 mfcc维度与分类准确率的关系
传统的音频数据分类方法中,主要采用低纬度的高维梅尔频率倒谱系数进行分类计算,以LeNet-5模型为基础的算法,当n_mfcc的维度取值为40的到时候,可以取得最好的分类准确率73.11%;以VGG-8为基础的算法,当n_mfcc的维度取值为60的到时候,可以取得最好的分类准确率72.64%;然而,由上面表1的内容可知:在VGG和DenseNet模型中随mfcc维数增加准确率也随之提高,到128维时准确率达到最佳。通过对比试验初步得出128维mfcc和DenseNet-16模型的结合下,获得的分类准确率最优,为80.16%。
在DenseNet-16模型中为扩展mfcc维数,将梅尔滤波组n_mels提高到256,则可提取mfcc特征256维。实验结果表明:在128维mfcc内时,随mfcc维数增加,准确率上升。到174维左右不再提高并呈现下降。通过n_mels提取更高维n_mfcc试验初步得出在n_mels=128时,128维mfcc和DenseNet-16模型下准确率最优,为80.16%。具体结果如下表2中所示:
表2 高维mfcc特征下分类操作准确度的变化
根据实验结果可知,以DenseNet-16模型为基础,在n_mels=128时,其中准确率效果较好的方案有以下四种如表3所示,准确率都在78%以上:
表3 四种准确率高的高维mfcc方案
基于改进后的1阶DenseNet模型、2阶DenseNet模型进行试验,试验结果与国内外研究者的模型进行对比,对比试验结果如表4:
表4 不同模型分类准确率结果
本发明的技术方案基于1阶DenseNet模型、2阶DenseNet模型和高维mfcc(128mfcc +23mfcc_d + 23mfcc_d_d)特征下,分类准确率为83.63%、83.27%。与国内外研究者试验结果对比可知,本发明技术方案的分类准确率有了明显的提高。
综上所述,本发明提供的技术方案在处理音频数据时能提供更丰富、更有效的特征信息,模型有更强的泛化能力,具有良好的分类准确率。

Claims (10)

1.基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其包括以下步骤:
S1:采集待处理音频数据,对原始音频信号进行预处理,输出音频帧序列,
所述预处理操作包括:采样与量化、预加重处理、加窗;
S2:对所述音频帧序列进行时域和频域分析,提取高维梅尔频率倒谱系数,输出特征向量序列;
S3:构建声学模型,并对所述声学模型进行训练,得到训练好的声学模型;
S4: 将步骤S2中输出的所述特征向量序列经过处理后,输入到所述训练好的声学模型中进行分类识别,得到的识别结果即为声音事件的分类结果;
其特征在于:所述声学模型是以DenseNet模型为基础,结合N阶马尔可夫模型的特点构建的网络模型,即为N阶DenseNet模型;每个所述声学模型内设置多个N阶DenseBlock连接,每个所述N阶DenseBlock中层与层的连接基于N阶马尔可夫链的相关性连接,当前特征图层输出与前N个特征图层输入相关;因此,若要建立N阶DenseBlock,必须使DenseBlock中特征图层个数大于N;当所述N阶DenseNet模型中的每个所述N阶DenseBlock有j个特征图层;设从第1个所述特征图层到第j个所述特征图层的输入记作[x0, x1, x2, …, xi],从第1个所述特征图层到第j个所述特征图层的输出记作[H1, H2, H3, …, Hj];
则当N = 1的时候,Hj的表达公式为:
上式中:
i = j-1,
N、i、j为正整数;
当N > 1的时候,Hj的表达公式为:
上式中:
N > 1,
i = j-1,
N、i、j为正整数。
2.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:步骤S2中的所述高维梅尔频率倒谱系数的提取方案包括:
(1)128mfcc + 23mfcc_d + 23mfcc_d_d
(2)108mfcc + 33mfcc_d + 33mfcc_d_d
(3)128mfcc
(4)108mfcc。
3.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:输入所述声学模型的所述特征向量序列先依次进行一层卷积操作和一次池化处理,然后依次输入连续的m个N阶DenseBlock中,每个所述N阶DenseBlock后面分别跟着一个TransitionLayer层;经过连续的m个所述N阶DenseBlock结构处理后,所述特征向量序列被输入全连接层进行分类处理,最后分类结果经过向量归一化处理后输出;其中m和N的取值都为正整数。
4.根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:每个所述N阶DenseBlock包括依次连接的j个所述特征图层,每个所述特征图层中包括连续的2个卷积层,在所述特征图层中,输入的数据在进入卷积层进行卷积处理之前,都先进行批量标准化处理和激活函数处理;每个所述特征图层中最后一个卷积层分别与下一个卷积层通过Concatenate进行合并级联;每个所述N阶DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层。
5.根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:所述TransitionLayer层包括一个卷积层、一个最大池化层。
6.根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:经过连续的m个所述N阶DenseBlock结构处理后的所述特征向量序列被输入到全连接层之前,还需要依次进行扁平化降维处理和抑制过拟合处理。
7.根据权利要求6所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:所述扁平化降维处理是在Flatten层通过Flatten()函数将多维数据扁平化为一维数据;所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作,对网络进行参数调整和抑制过拟合。
8.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:步骤S2中获取的所述特征向量的结构为2维向量,第一位向量是对于对所述音频数据的采样后的帧数,第二位向量是所述高维梅尔频率倒谱系数的维数。
9.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:步骤S4中在所述特征向量序列输入到所述训练好的声学模型之前,需要把所述特征向量从2维向量转换为3维向量,第三位向量是所述声学模型中的通道数。
10.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法,其特征在于:所述激活函数为Rectified Linear Unit函数,其计算公式为:
所述向量归一化处理为通过Softmax函数进行处理,Softmax函数公式为:
其中:j = 1,……,K。
CN201910066335.6A 2019-01-24 2019-01-24 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法 Active CN109949824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910066335.6A CN109949824B (zh) 2019-01-24 2019-01-24 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910066335.6A CN109949824B (zh) 2019-01-24 2019-01-24 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法

Publications (2)

Publication Number Publication Date
CN109949824A true CN109949824A (zh) 2019-06-28
CN109949824B CN109949824B (zh) 2021-08-03

Family

ID=67007230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910066335.6A Active CN109949824B (zh) 2019-01-24 2019-01-24 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法

Country Status (1)

Country Link
CN (1) CN109949824B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782920A (zh) * 2019-11-05 2020-02-11 广州虎牙科技有限公司 音频识别方法、装置及数据处理设备
CN110859624A (zh) * 2019-12-11 2020-03-06 北京航空航天大学 一种基于结构磁共振影像的大脑年龄深度学习预测系统
CN110931046A (zh) * 2019-11-29 2020-03-27 福州大学 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统
CN111523483A (zh) * 2020-04-24 2020-08-11 北京邮电大学 中餐菜品图像识别方法及装置
CN111833906A (zh) * 2020-07-25 2020-10-27 江南大学 基于多路声学特征数据增强的声场景分类方法
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112560778A (zh) * 2020-12-25 2021-03-26 万里云医疗信息科技(北京)有限公司 Dr图像身体部位识别方法、装置、设备及可读存储介质
CN113539297A (zh) * 2021-07-08 2021-10-22 中国海洋大学 一种用于声音分类的联合注意力机制模型、方法及应用
CN113744758A (zh) * 2021-09-16 2021-12-03 江南大学 基于2-DenseGRUNet模型的声音事件检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101399036A (zh) * 2007-09-30 2009-04-01 三星电子株式会社 将语音转换为说唱音乐的设备和方法
CN102479511A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 一种大规模声纹认证方法及其系统
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
US8412526B2 (en) * 2003-04-01 2013-04-02 Nuance Communications, Inc. Restoration of high-order Mel frequency cepstral coefficients
WO2018040059A1 (en) * 2016-09-02 2018-03-08 Microsoft Technology Licensing, Llc Clip content categorization
US20180240235A1 (en) * 2017-02-23 2018-08-23 Zebra Medical Vision Ltd. Convolutional neural network for segmentation of medical anatomical images
US10096122B1 (en) * 2017-03-28 2018-10-09 Amazon Technologies, Inc. Segmentation of object image data from background image data
CN109065075A (zh) * 2018-09-26 2018-12-21 广州势必可赢网络科技有限公司 一种语音处理方法、装置、系统及计算机可读存储介质
CN109117750A (zh) * 2018-07-24 2019-01-01 深圳先进技术研究院 一种基于深度学习的情绪识别方法、系统及电子设备
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8412526B2 (en) * 2003-04-01 2013-04-02 Nuance Communications, Inc. Restoration of high-order Mel frequency cepstral coefficients
CN101399036A (zh) * 2007-09-30 2009-04-01 三星电子株式会社 将语音转换为说唱音乐的设备和方法
CN102479511A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 一种大规模声纹认证方法及其系统
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
WO2018040059A1 (en) * 2016-09-02 2018-03-08 Microsoft Technology Licensing, Llc Clip content categorization
US20180240235A1 (en) * 2017-02-23 2018-08-23 Zebra Medical Vision Ltd. Convolutional neural network for segmentation of medical anatomical images
US10096122B1 (en) * 2017-03-28 2018-10-09 Amazon Technologies, Inc. Segmentation of object image data from background image data
CN109117750A (zh) * 2018-07-24 2019-01-01 深圳先进技术研究院 一种基于深度学习的情绪识别方法、系统及电子设备
CN109166591A (zh) * 2018-08-29 2019-01-08 昆明理工大学 一种基于音频特征信号的分类方法
CN109065075A (zh) * 2018-09-26 2018-12-21 广州势必可赢网络科技有限公司 一种语音处理方法、装置、系统及计算机可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GAO HUANG: "Densely Connected Convolutional Networks", 《PROCEEDINGS OF THE 2017 30TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RCOGNITION》 *
GEFEI YANG: "Dual-Channel Densenet for Hyperspectral Image Classification", 《IGARSS 2018 - 2018 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》 *
KONS Z: "Audio Event Classification Using Deep Neural Networks", 《PROCEEDINGS OF THE 2013 ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION》 *
TOM MMBASU WALINGO: "Performance Analysis of a Connection Admission Scheme for Future Networks", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
吴艳红: "基于深度学习的隐写分析研究", 《中国优秀硕士学位论文全文数据库》 *
温煌璐: "基于卷积神经网络的图像分类算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782920B (zh) * 2019-11-05 2021-09-21 广州虎牙科技有限公司 音频识别方法、装置及数据处理设备
CN110782920A (zh) * 2019-11-05 2020-02-11 广州虎牙科技有限公司 音频识别方法、装置及数据处理设备
CN110931046A (zh) * 2019-11-29 2020-03-27 福州大学 一种面向重叠声音事件检测的音频高层语义特征提取方法及系统
CN110859624A (zh) * 2019-12-11 2020-03-06 北京航空航天大学 一种基于结构磁共振影像的大脑年龄深度学习预测系统
CN111523483A (zh) * 2020-04-24 2020-08-11 北京邮电大学 中餐菜品图像识别方法及装置
CN111523483B (zh) * 2020-04-24 2023-10-03 北京邮电大学 中餐菜品图像识别方法及装置
CN111833906A (zh) * 2020-07-25 2020-10-27 江南大学 基于多路声学特征数据增强的声场景分类方法
CN111833906B (zh) * 2020-07-25 2022-09-30 江南大学 基于多路声学特征数据增强的声场景分类方法
CN111933188B (zh) * 2020-09-14 2021-02-05 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112560778A (zh) * 2020-12-25 2021-03-26 万里云医疗信息科技(北京)有限公司 Dr图像身体部位识别方法、装置、设备及可读存储介质
CN113539297A (zh) * 2021-07-08 2021-10-22 中国海洋大学 一种用于声音分类的联合注意力机制模型、方法及应用
CN113744758A (zh) * 2021-09-16 2021-12-03 江南大学 基于2-DenseGRUNet模型的声音事件检测方法
CN113744758B (zh) * 2021-09-16 2023-12-01 江南大学 基于2-DenseGRUNet模型的声音事件检测方法

Also Published As

Publication number Publication date
CN109949824B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN109949824A (zh) 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN110390952A (zh) 基于双特征2-DenseNet并联的城市声音事件分类方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN105989849B (zh) 一种语音增强方法、语音识别方法、聚类方法及装置
CN108766419A (zh) 一种基于深度学习的非常态语音区别方法
CN108899051A (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN110534132A (zh) 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
AU2020102038A4 (en) A speaker identification method based on deep learning
CN104978507B (zh) 一种基于声纹识别的智能测井评价专家系统身份认证方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN105261367B (zh) 一种说话人识别方法
WO2020181998A1 (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110269625A (zh) 一种新型的多特征融合的心电认证方法及系统
CN110969073B (zh) 一种基于特征融合与bp神经网络的人脸表情识别方法
CN111915101A (zh) 基于lpp-hmm方法的复杂装备故障预测方法及系统
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN115587337A (zh) 车门异响识别方法、设备和存储介质
CN110289004A (zh) 一种基于深度学习的人工合成声纹检测系统及方法
CN104504361B (zh) 基于方向特征的手掌静脉主方向特征提取方法
Hu et al. Fingerprint classification based on genetic programming
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN206781702U (zh) 一种基于量子神经网络的语音识别汽车防盗系统
Wang et al. A weighted distance measure based on the fine structure of feature space: application to speaker recognition
CN109165726A (zh) 一种用于无需说话人确认文本的神经网络嵌入系统
CN115064175A (zh) 一种说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant