CN109919295A - 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 - Google Patents

一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 Download PDF

Info

Publication number
CN109919295A
CN109919295A CN201711315405.4A CN201711315405A CN109919295A CN 109919295 A CN109919295 A CN 109919295A CN 201711315405 A CN201711315405 A CN 201711315405A CN 109919295 A CN109919295 A CN 109919295A
Authority
CN
China
Prior art keywords
feature
spectrogram
layer
neural networks
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711315405.4A
Other languages
English (en)
Other versions
CN109919295B (zh
Inventor
邹月娴
张小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201711315405.4A priority Critical patent/CN109919295B/zh
Publication of CN109919295A publication Critical patent/CN109919295A/zh
Application granted granted Critical
Publication of CN109919295B publication Critical patent/CN109919295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种嵌入式音频事件检测方法,涉及音频事件检测技术。首先对卷积神经网络模型进行改进,提出轻量级膨胀卷积神经网络(Lightened Dilated Convolution Neural Network,L‑D‑CNN),包括膨胀卷积层、池化层、特征求和层、输出层。采用L‑D‑CNN作为模型训练模块,模型大小减少了50‑60倍,可以降低神经网络的计算复杂度,在显卡上的运算速度提高了50‑60倍,可使用嵌入式的Nvidia TX2显卡运行;此外,对嵌入式音频事件的检测精度提高了2%‑8%。

Description

一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
技术领域
本发明涉及音频事件检测技术,尤其涉及一种基于膨胀卷积和特征求和的轻量级卷积神经网络的嵌入式音频事件检测方法。
背景技术
音频事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。
针对音频事件检测,目前国内外都做了大量的工作,音频事件检测采用的音频特征大多是浅层特征和传统的分类器(例如GMM、HMM、SVM)。然而,各类音频事件的时频特性复杂多变,而且这些浅层特征对音频事件的描述能力有限。因此,为了进一步探索能够更好描述音频事件特性差异的深层特征,深度学习就应用到了声音事件检测中。目前实践中对音频事件检测大多采用卷积神经网络(CNN),卷积神经网络的一般结构如图3所示,包括卷积层、池化层、输出层。但是,现有技术采用卷积神经网络进行音频事件检测存在不足,一是由于目前的卷积神经网络(CNN)的卷积核过小,使得对时序特征的提取能力不强;二是目前的卷积神经网络模型大小过大,不能在嵌入式上使用。
在音频事件检测中,现在技术采用基于卷积神经网络的音频事件检测方法,如图1所示,包括训练阶段和测试阶段:
1)数据增强模块:为了防止过度拟合,我们使用数据增加数据库大小,我们采用时间拉伸转换方法用于获得稍微快或慢的音频示例
2)特征提取模块:在频域中获取音频数据的低层次表示,利用汉明窗口提取60维log mel谱和60维delta谱特征。
3)音频分割模块:将音频事件的整个特征谱图分割成几个片段,都输入到CNN模型中
4)模型训练模块:,传统方法通常采用卷积神经网络(CNN)模型,为了训练一个合适的CNN模型,将音频分割模块生成的所有片段输入CNN模型。采用随机梯度下降训练方法用于训练CNN网络和交叉熵作为损失函数。
在测试阶段,音频分割模块和特征提取模块与训练阶段相同。利用CNN模型提取高级特征,利用softmax函数对提取的高级特征进行分类。最后,采用概率投票法获得各片段后验概率的平均值。然后选择具有最高平均后类概率的类作为该测试的输出类。
发明内容
为了克服上述现有技术的不足,本发明提供一种嵌入式音频事件检测方法,对卷积神经网络模型(现有模型训练模块使用的网络)进行改进,提出轻量级膨胀卷积神经网络(Lightened Dilated Convolution Neural Network,L-D-CNN),采用L-D-CNN作为模型训练模块可以降低神经网络的计算复杂度。
本发明提供的技术方案是:
轻量级卷积神经网络的构建方法,基于膨胀卷积和特征求和构建的轻量级膨胀卷积神经网络包括膨胀卷积层、池化层、特征求和层、输出层;构建轻量级膨胀卷积神经网络包括如下过程:
A)构建膨胀卷积层,采用膨胀卷积层替代卷积层;
对卷积神经网络模型进行改进,采用膨胀卷积层替代CNN模型中的卷积层,由此使得神经网络模型对更长的时序信息进行建模,从而使得音频事件检测系统检测精度更高;
具体地,膨胀卷积层针对(普通)卷积层的卷积核进行修改。通过在卷积层中卷积核的每个相邻元素中插入n个零值,使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核,由此构建得到膨胀卷积层。
B)通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩,减少模型的参数;
卷积神经网络CNN模型参数巨大,是由于底层的卷积层提取的高层局部特征含有大量的参数,导致这些特征和全连接层之间的全连接参数过多,需要大量的浮点矩阵乘法来计算,计算开销非常大。这样的网络虽然可以在具有强浮点计算能力的GTX1080上运行,但是无法直接应用于不具有强计算能力手机等嵌入式设备中。所以,本发明对卷积神经网络进行压缩,使神经网络可以在移动终端或嵌入式平台上应用。具体通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩,来达到压缩网络的目的。
特征求和层:对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱,通过式1进行计算,得到每一张特征图:
式1中,对于从底层卷积层输出的一个N*N大小的特征图,特征图中的像素为
(a1,a2,…,ann),b为特征求和层对于每一张特征图的输出结果。通过这个操作,每一张底层卷积层提取的的局部特征均得到了压缩。
构建的轻量级膨胀卷积神经网络结构如图4所示;包括膨胀卷积层,池化层,特征求和层,输出层。
嵌入式音频事件检测方法,是一种基于膨胀卷积和特征求和的轻量级卷积神经网络的嵌入式音频事件检测方法,采用轻量级膨胀卷积神经网络(L-D-CNN)作为网络模型进行训练,再利用训练好的轻量级膨胀卷积神经网络检测音频事件;利用上述轻量级膨胀卷积神经网络模型检测嵌入式音频事件,包括模型训练阶段和检测阶段;
模型训练阶段,执行如下操作:
11)扩增音频训练数据(采样率为44100Hz,单通道音频,每段音频6s)、通过特征提取,提取得到特征谱图(log mel谱图和delta谱图),将特征谱图分割为多段(如三段)相同大小的谱图片段;
12)将提取得到的特征谱图的每一段输入到压缩的膨胀卷积神经网络模型(L-D-CNN)中进行训练,包括如下过程:
121)L-D-CNN的两层膨胀卷积层和池化层通过学习输入的特征谱图,输出高层特征谱图;
122)将前面的高层特征谱图输入到L-D-CNN的特征求和层;
123)特征求和层对高层特征谱图进行压缩;
124)将压缩后的特征输入到全连接层中;
125)全连接层通过综合局部特征学习全局特征后,输出到输出层和softmax分类器中;
13)通过多次(100次左右)的循环训练,得到训练好的L-D-CNN网络模型;
检测阶段,执行如下操作:
21)针对测试音频数据(采样率为44100Hz,单通道音频,每段音频6s)提取特征,得到特征谱图(log mel谱图和delta谱图),将特征谱图分割为三段相同大小的谱图片段;
22)将三段谱图片段特征谱图都输入到训练好的压缩的膨胀卷积神经网络模型(L-D-CNN),输出三段谱图片段的分类矩阵,将三段谱图片段的分类结果相乘得到最后的预测结果。
通过上述步骤,实现嵌入式音频事件的检测。
与现有技术相比,本发明的有益效果是:
本发明提供一种嵌入式音频事件检测方法,对卷积神经网络模型(现有模型训练模块使用的网络)进行改进,构建轻量级膨胀卷积神经网络L-D-CNN,采用L-D-CNN作为模型训练模块,可以降低神经网络的计算复杂度。本发明具体实施例结果表明,本发明技术方案能够减小模型大小(模型大小减少了50-60倍),在显卡上的运算速度提高了50-60倍,传统的音频事件检测方法必须在GTX1080显卡(单精度浮点计算性能为8TFLOPS)上运行,本发明提出的L-D-CNN可以使用嵌入式的Nvidia TX2的显卡运行(单精度浮点计算性能为0.76TFLOPS),另外,采用L-D-CNN对嵌入式音频事件的检测精度提高了2%-8%。
附图说明
图1为现有传统的嵌入式音频事件检测方法的流程框图。
图2为本发明提供的嵌入式音频事件检测方法的流程框图。
图3为现有传统方法中的模型训练模块使用的卷积神经网络(CNN)的结构框图。
图4为本发明构建的轻量级膨胀卷积神经网络(L-D-CNN)的结构框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种嵌入式音频事件检测方法,对卷积神经网络模型(现有模型训练模块使用的网络)进行改进,提出轻量级膨胀卷积神经网络(L-D-CNN),采用L-D-CNN作为模型训练模块可以降低神经网络的计算复杂度。
图3为传统的模型训练模块使用的网络为卷积神经网络(CNN),包括:卷积层,池化层,输出层。本发明通过构建膨胀卷积层,采用膨胀卷积层替代卷积层;通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩,降低模型的参数构建得到轻量级膨胀卷积神经网络。图4为本发明构建的轻量级膨胀卷积神经网络(L-D-CNN),包括膨胀卷积层,池化层,特征求和层,输出层。
具体地,膨胀卷积层针对(普通)卷积层的卷积核进行修改。通过在卷积层中卷积核的每个相邻元素中插入n个零值,使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核。特征求和层是对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱,通过式1进行计算,得到每一张特征图:
式1中,对于从底层卷积层输出的一个N*N大小的特征图,特征图中的像素为(a1,a2,…,ann),b为特征求和层对于每一张特征图的输出结果。通过这个操作,每一张底层卷积层提取的局部特征均得到了压缩。
图2为本发明提供的嵌入式音频事件检测方法的流程框图。以下实施例采用本发明方法检测家庭环境中的嵌入式音频事件,包括如下实施步骤:
A.音频数据如鸟叫声的音频(采样率为44100Hz,单通道音频,每段音频6s)扩增,特征提取(提取60*101像素大小的log mel谱图和60*101像素大小的delta谱图),将特征谱图分割为三段相同大小的谱图片段。
B.将每段提取log mel谱图和delta谱图输入到压缩的膨胀卷积神经网络(L-D-CNN)训练。
B1.L-D-CNN通过学习log mel谱图提取局部高层特征
B2提取的局部高层特征输入到特征求和层
B3特征求和层对提取的每一张局部特征谱图进行压缩
B4压缩后的特征输入到全连接层中
B5全连接层通过综合局部特征学习全局特征后输出到输出层和softmax分类器中
B6通过100次左右的循环训练得到了一个训练好的网络模型
C.测试:
C1.针对测试音频数据(采样率为44100Hz,单通道音频,每段音频6s)提取特征,得到特征谱图(log mel谱图和delta谱图),将特征谱图分割为三段相同大小的谱图片段;
C2将三段谱图片段特征谱图都输入到训练好的压缩的膨胀卷积神经网络模型
(L-D-CNN),输出三段谱图片段的分类矩阵,将三段谱图片段的分类结果相乘得到最后的预测结果。
以下实施例采用python语言编写音频事件检测系统,具体地,
1)音频数据扩增:输入音频数据A=[0.1,0.2,0.3],通过对A进行时域变换,获得稍快或稍慢的音频B和C;代码如下:
2)音频数据提取特征:对音频数据A、B、C提取log mel谱图和delta谱图,这个过程分为三步,第一加载音频数据(librosa.load),第二提取mel谱图(librosa.feature.melspectrogram),第三提取delta谱图(ibrosa.feature.delta)。部分代码如下:
y,sr=librosa.load(A)
mel=librosa.feature.melspectrogram(y=y,sr=sr)
mel_delta=librosa.feature.delta(mel)
y,sr=librosa.load(B)
mel=librosa.feature.melspectrogram(y=y,sr=sr)
mel_delta=librosa.feature.delta(mel)
y,sr=librosa.load(C)
mel=librosa.feature.melspectrogram(y=y,sr=sr)
mel_delta=librosa.feature.delta(mel)
3)将提取的特征输入到L-D-CNN模型中,训练模型,模型代码如下,其中AtrousConvolution2D是膨胀卷积层,Activation是激活函数,Pool是池化层,FeatureSumLayer是特征求和层;部分代码如下:
AtrousConvolution2D(80,57,6,init=uniform(0.001),input_shape=(2,60,101)),
Activation('relu'),
Pool((4,3),(1,3)),
SpatialDropout2D(0.2),
AtrousConvolution2D(80,1,3,init=uniform(0.1),atrous_rate=(2,2)),
Activation('relu'),
Pool((1,3),(1,3)),
Activation('relu'),
FeatureSumLayer(),
Activation('relu'),
Dropout(0.5),
Dense(5000,init=normal(0.01),W_regularizer=keras.regularizers.l2(0.001)),
Activation('relu'),
Dropout(0.5),
Dense(10,init=normal(0.01),W_regularizer=keras.regularizers.l2(0.001)),
Activation('softmax')
4)针对一段待测试音频数据G=[1.5,6.7,8.9],利用上述训练好的L-D-CNN模型进行检测,采用语句如下:
model.predict(G)
表1列出了采用本发明方法及采用其他网络压缩方法进行音频事件检测的结果对比。
表1采用本发明方法及采用其他网络压缩方法进行音频事件检测的结果对比
音频事件检测方法 UrbanSound8K ESC50 CICESE 网络大小
CNN - 64% 81% 105.3M
SqueezeNet-FM-GAP 70.2% 49% 87% 888.7KB
pruning-2000 80.3% 64% 85.7% 18.3M
pruning-1000 79% 62% 82.9% 5.3M
Fully-CNN 72% 60.8% 92.9% 16.7M
BinaryNet 11% 2% 27.1% 105M
L-D-CNN 79% 66% 87.1% 2.1M
表1中,CNN采用Environmental sound classification with convolutionalneural networks文献记载的卷积神经网络方法;SqueezeNet-FM-GAP采用AlexNet-levelaccuracy with 50x fewer parameters and<0.5MB model size文献记载的FireModule和Global Average Pooling方法;pruning-2000和pruning-1000采用RESHAPING DEEPNEURAL NETWORK FOR FAST DECODING BY NODE-PRUNING文献记载的网络剪枝方法;Fully-CNN采用Fully Convolutional Networks for Semantic Segmentation文献记载的全卷积网络方法;BinaryNet采用BinaryNet:Training Deep Neural Networks with Weightsand Activations Constrained to+1or-1文献记载的二值化网络方法。在三个数据库(UrbanSound8K,ESC50,CICESE)上的实验结果对比表明,本发明提供的L-D-CNN模型由于采用了膨胀卷积层,检测精度比其他现有方法要高,由于采用了特征求和层,模型大小比其他方法要小。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种轻量级卷积神经网络的构建方法,基于膨胀卷积和特征求和构建轻量级膨胀卷积神经网络,包括如下过程:
A)构建膨胀卷积层,采用膨胀卷积层替代卷积层,使得神经网络模型对更长的时序信息进行建模;
膨胀卷积层针对卷积层的卷积核进行修改,通过在卷积层中卷积核的每个相邻元素中插入n个零值,使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核,由此构建得到膨胀卷积层;
B)通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩,减少模型的参数,以达到压缩网络的目的,使得神经网络可以在移动终端或嵌入式平台上应用;
所述特征求和层具体是:对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱,通过式1进行计算,得到每一张特征图:
式1中,对于从底层卷积层输出的一个N*N大小的特征图,特征图中的像素为(a1,a2,…,ann),b为特征求和层对于每一张特征图的输出结果;通过特征求和层,每一张底层卷积层提取的的局部特征均得到了压缩;
构建的轻量级膨胀卷积神经网络结构包括膨胀卷积层、池化层、特征求和层、输出层。
2.一种利用权利要求1所述轻量级卷积神经网络检测嵌入式音频事件的方法,采用基于膨胀卷积和特征求和的轻量级卷积神经网络L-D-CNN作为网络模型进行训练,再利用训练好的轻量级膨胀卷积神经网络检测嵌入式音频事件;包括模型训练阶段和检测阶段;
模型训练阶段,执行如下操作:
11)扩增音频训练数据,通过特征提取,提取得到特征谱图,将特征谱图分割为多段相同大小的谱图片段;
12)将提取得到的特征谱图的每一段输入到压缩的膨胀轻量级卷积神经网络模型L-D-CNN中进行训练,包括如下过程:
121)将特征谱图输入到L-D-CNN的膨胀卷积层和池化层中进行学习,输出高层特征谱图;
122)将高层特征谱图输入到L-D-CNN的特征求和层;
123)特征求和层对高层特征谱图进行压缩;
124)将压缩后的特征输入到全连接层中;
125)全连接层通过综合局部特征学习全局特征后,输出到输出层和softmax分类器中;
13)通过多次循环训练,得到训练好的L-D-CNN网络模型;
检测阶段,执行如下操作:
21)针对测试音频数据提取特征,得到特征谱图,将特征谱图分割为段数与步骤11)相同的谱图片段;每段谱图片段的大小相同;
22)将各段谱图片段特征谱图均输入到训练好的L-D-CNN网络模型中,输出多段谱图片段的分类矩阵;再将各段谱图片段的分类结果相乘得到最后的预测结果;
通过上述步骤,实现嵌入式音频事件的检测。
3.如权利要求2所述检测嵌入式音频事件的方法,其特征是,音频数据的采样率为44100Hz,为单通道音频,每段音频为6s。
4.如权利要求2所述检测嵌入式音频事件的方法,其特征是,将特征谱图分割为三段相同大小的谱图片段。
5.如权利要求2所述检测嵌入式音频事件的方法,其特征是,特征谱图为log mel谱图和delta谱图。
6.如权利要求2所述检测嵌入式音频事件的方法,其特征是,循环训练L-D-CNN网络模型的次数约为100次。
CN201711315405.4A 2017-12-12 2017-12-12 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 Active CN109919295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711315405.4A CN109919295B (zh) 2017-12-12 2017-12-12 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711315405.4A CN109919295B (zh) 2017-12-12 2017-12-12 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法

Publications (2)

Publication Number Publication Date
CN109919295A true CN109919295A (zh) 2019-06-21
CN109919295B CN109919295B (zh) 2022-10-28

Family

ID=66957407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711315405.4A Active CN109919295B (zh) 2017-12-12 2017-12-12 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法

Country Status (1)

Country Link
CN (1) CN109919295B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112560811A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 端到端的音视频抑郁症自动检测研究方法
CN113190852A (zh) * 2021-05-31 2021-07-30 贵州师范学院 一种基于轻量级深度网络模型的计算机病毒检测方法
CN113920473A (zh) * 2021-10-15 2022-01-11 宿迁硅基智能科技有限公司 完整事件确定方法、存储介质及电子装置
WO2022007265A1 (zh) * 2020-07-08 2022-01-13 嘉楠明芯(北京)科技有限公司 一种膨胀卷积加速计算方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345764A (zh) * 2013-07-12 2013-10-09 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN106886023A (zh) * 2017-02-27 2017-06-23 中国人民解放军理工大学 一种基于动态卷积神经网络的雷达回波外推方法
CN107025267A (zh) * 2017-03-01 2017-08-08 国政通科技股份有限公司 基于抽取视频关键逻辑信息检索视频的方法及系统
CN107085827A (zh) * 2017-04-27 2017-08-22 中国电子科技集团公司第二十八研究所 基于硬件平台实现的超分辨力图像复原方法
CN107180241A (zh) * 2017-04-20 2017-09-19 华南理工大学 一种基于Gabor特征具有分形结构的极深神经网络的动物分类方法
CN107179683A (zh) * 2017-04-01 2017-09-19 浙江工业大学 一种基于神经网络的交互机器人智能运动检测与控制方法
CN107240102A (zh) * 2017-04-20 2017-10-10 合肥工业大学 基于深度学习算法的恶性肿瘤计算机辅助早期诊断方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345764A (zh) * 2013-07-12 2013-10-09 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN106886023A (zh) * 2017-02-27 2017-06-23 中国人民解放军理工大学 一种基于动态卷积神经网络的雷达回波外推方法
CN107025267A (zh) * 2017-03-01 2017-08-08 国政通科技股份有限公司 基于抽取视频关键逻辑信息检索视频的方法及系统
CN107179683A (zh) * 2017-04-01 2017-09-19 浙江工业大学 一种基于神经网络的交互机器人智能运动检测与控制方法
CN107180241A (zh) * 2017-04-20 2017-09-19 华南理工大学 一种基于Gabor特征具有分形结构的极深神经网络的动物分类方法
CN107240102A (zh) * 2017-04-20 2017-10-10 合肥工业大学 基于深度学习算法的恶性肿瘤计算机辅助早期诊断方法
CN107085827A (zh) * 2017-04-27 2017-08-22 中国电子科技集团公司第二十八研究所 基于硬件平台实现的超分辨力图像复原方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
W. Q. ZHENG,ET AL: "An Experimental Study of Speech Emotion Recognition Based on Deep Convolutional Neural Networks", 《2015 INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007265A1 (zh) * 2020-07-08 2022-01-13 嘉楠明芯(北京)科技有限公司 一种膨胀卷积加速计算方法及装置
CN113989169A (zh) * 2020-07-08 2022-01-28 嘉楠明芯(北京)科技有限公司 一种膨胀卷积加速计算方法及装置
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112560811A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 端到端的音视频抑郁症自动检测研究方法
US11963771B2 (en) 2021-02-19 2024-04-23 Institute Of Automation, Chinese Academy Of Sciences Automatic depression detection method based on audio-video
CN113190852A (zh) * 2021-05-31 2021-07-30 贵州师范学院 一种基于轻量级深度网络模型的计算机病毒检测方法
CN113920473A (zh) * 2021-10-15 2022-01-11 宿迁硅基智能科技有限公司 完整事件确定方法、存储介质及电子装置

Also Published As

Publication number Publication date
CN109919295B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及系统
CN109919295A (zh) 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
CN103456301B (zh) 一种基于环境声音的场景识别方法及装置及移动终端
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN105976812B (zh) 一种语音识别方法及其设备
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
CN105047194B (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
CN112885372B (zh) 电力设备故障声音智能诊断方法、系统、终端及介质
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
Su et al. Environmental sound classification for scene recognition using local discriminant bases and HMM
CN110046568B (zh) 一种基于时间感知结构的视频动作识别方法
Li et al. Small-footprint keyword spotting with multi-scale temporal convolution
Meyer et al. Efficient convolutional neural network for audio event detection
CN111508524B (zh) 语音来源设备的识别方法和系统
CN106157972A (zh) 使用局部二进制模式进行声学情境辨识的方法和设备
CN113205820B (zh) 一种用于声音事件检测的声音编码器的生成方法
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN106297769A (zh) 一种应用于语种识别的鉴别性特征提取方法
CN116543795B (zh) 一种基于多模态特征融合的声音场景分类方法
Kawale et al. Analysis and Simulation of Sound Classification System Using Machine Learning Techniques
CN116705034A (zh) 声纹特征提取方法、说话人识别方法、模型训练方法及装置
Oo Comparative study of MFCC feature with different machine learning techniques in acoustic scene classification
CN114822509A (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant