CN109919295A

CN109919295A - 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法

Info

Publication number: CN109919295A
Application number: CN201711315405.4A
Authority: CN
Inventors: 邹月娴; 张小虎
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-06-21
Anticipated expiration: 2037-12-12
Also published as: CN109919295B

Abstract

本发明公布了一种嵌入式音频事件检测方法，涉及音频事件检测技术。首先对卷积神经网络模型进行改进，提出轻量级膨胀卷积神经网络(Lightened Dilated Convolution Neural Network，L‑D‑CNN)，包括膨胀卷积层、池化层、特征求和层、输出层。采用L‑D‑CNN作为模型训练模块，模型大小减少了50‑60倍，可以降低神经网络的计算复杂度，在显卡上的运算速度提高了50‑60倍，可使用嵌入式的Nvidia TX2显卡运行；此外，对嵌入式音频事件的检测精度提高了2％‑8％。

Description

一种基于轻量级卷积神经网络的嵌入式音频事件检测方法

技术领域

本发明涉及音频事件检测技术，尤其涉及一种基于膨胀卷积和特征求和的轻量级卷积神经网络的嵌入式音频事件检测方法。

背景技术

音频事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础，并将在未来机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。

针对音频事件检测，目前国内外都做了大量的工作，音频事件检测采用的音频特征大多是浅层特征和传统的分类器(例如GMM、HMM、SVM)。然而，各类音频事件的时频特性复杂多变，而且这些浅层特征对音频事件的描述能力有限。因此，为了进一步探索能够更好描述音频事件特性差异的深层特征，深度学习就应用到了声音事件检测中。目前实践中对音频事件检测大多采用卷积神经网络(CNN)，卷积神经网络的一般结构如图3所示，包括卷积层、池化层、输出层。但是，现有技术采用卷积神经网络进行音频事件检测存在不足，一是由于目前的卷积神经网络(CNN)的卷积核过小，使得对时序特征的提取能力不强；二是目前的卷积神经网络模型大小过大，不能在嵌入式上使用。

在音频事件检测中，现在技术采用基于卷积神经网络的音频事件检测方法，如图1所示，包括训练阶段和测试阶段：

1)数据增强模块:为了防止过度拟合，我们使用数据增加数据库大小，我们采用时间拉伸转换方法用于获得稍微快或慢的音频示例

2)特征提取模块:在频域中获取音频数据的低层次表示，利用汉明窗口提取60维log mel谱和60维delta谱特征。

3)音频分割模块:将音频事件的整个特征谱图分割成几个片段，都输入到CNN模型中

4)模型训练模块:，传统方法通常采用卷积神经网络(CNN)模型，为了训练一个合适的CNN模型，将音频分割模块生成的所有片段输入CNN模型。采用随机梯度下降训练方法用于训练CNN网络和交叉熵作为损失函数。

在测试阶段，音频分割模块和特征提取模块与训练阶段相同。利用CNN模型提取高级特征，利用softmax函数对提取的高级特征进行分类。最后，采用概率投票法获得各片段后验概率的平均值。然后选择具有最高平均后类概率的类作为该测试的输出类。

发明内容

为了克服上述现有技术的不足，本发明提供一种嵌入式音频事件检测方法，对卷积神经网络模型(现有模型训练模块使用的网络)进行改进，提出轻量级膨胀卷积神经网络(Lightened Dilated Convolution Neural Network，L-D-CNN)，采用L-D-CNN作为模型训练模块可以降低神经网络的计算复杂度。

本发明提供的技术方案是：

轻量级卷积神经网络的构建方法，基于膨胀卷积和特征求和构建的轻量级膨胀卷积神经网络包括膨胀卷积层、池化层、特征求和层、输出层；构建轻量级膨胀卷积神经网络包括如下过程：

A)构建膨胀卷积层，采用膨胀卷积层替代卷积层；

对卷积神经网络模型进行改进，采用膨胀卷积层替代CNN模型中的卷积层，由此使得神经网络模型对更长的时序信息进行建模，从而使得音频事件检测系统检测精度更高；

具体地，膨胀卷积层针对(普通)卷积层的卷积核进行修改。通过在卷积层中卷积核的每个相邻元素中插入n个零值，使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核，由此构建得到膨胀卷积层。

B)通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩，减少模型的参数；

卷积神经网络CNN模型参数巨大，是由于底层的卷积层提取的高层局部特征含有大量的参数，导致这些特征和全连接层之间的全连接参数过多，需要大量的浮点矩阵乘法来计算，计算开销非常大。这样的网络虽然可以在具有强浮点计算能力的GTX1080上运行，但是无法直接应用于不具有强计算能力手机等嵌入式设备中。所以，本发明对卷积神经网络进行压缩，使神经网络可以在移动终端或嵌入式平台上应用。具体通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩，来达到压缩网络的目的。

特征求和层：对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱，通过式1进行计算，得到每一张特征图：

式1中，对于从底层卷积层输出的一个N*N大小的特征图，特征图中的像素为

(a₁,a₂,…,a_nn)，b为特征求和层对于每一张特征图的输出结果。通过这个操作，每一张底层卷积层提取的的局部特征均得到了压缩。

构建的轻量级膨胀卷积神经网络结构如图4所示；包括膨胀卷积层，池化层，特征求和层，输出层。

嵌入式音频事件检测方法，是一种基于膨胀卷积和特征求和的轻量级卷积神经网络的嵌入式音频事件检测方法，采用轻量级膨胀卷积神经网络(L-D-CNN)作为网络模型进行训练，再利用训练好的轻量级膨胀卷积神经网络检测音频事件；利用上述轻量级膨胀卷积神经网络模型检测嵌入式音频事件，包括模型训练阶段和检测阶段；

模型训练阶段，执行如下操作：

11)扩增音频训练数据(采样率为44100Hz，单通道音频，每段音频6s)、通过特征提取，提取得到特征谱图(log mel谱图和delta谱图)，将特征谱图分割为多段(如三段)相同大小的谱图片段；

12)将提取得到的特征谱图的每一段输入到压缩的膨胀卷积神经网络模型(L-D-CNN)中进行训练，包括如下过程：

121)L-D-CNN的两层膨胀卷积层和池化层通过学习输入的特征谱图，输出高层特征谱图；

122)将前面的高层特征谱图输入到L-D-CNN的特征求和层；

123)特征求和层对高层特征谱图进行压缩；

124)将压缩后的特征输入到全连接层中；

125)全连接层通过综合局部特征学习全局特征后，输出到输出层和softmax分类器中；

13)通过多次(100次左右)的循环训练，得到训练好的L-D-CNN网络模型；

检测阶段，执行如下操作：

21)针对测试音频数据(采样率为44100Hz，单通道音频，每段音频6s)提取特征，得到特征谱图(log mel谱图和delta谱图)，将特征谱图分割为三段相同大小的谱图片段；

22)将三段谱图片段特征谱图都输入到训练好的压缩的膨胀卷积神经网络模型(L-D-CNN)，输出三段谱图片段的分类矩阵，将三段谱图片段的分类结果相乘得到最后的预测结果。

通过上述步骤，实现嵌入式音频事件的检测。

与现有技术相比，本发明的有益效果是：

本发明提供一种嵌入式音频事件检测方法，对卷积神经网络模型(现有模型训练模块使用的网络)进行改进，构建轻量级膨胀卷积神经网络L-D-CNN，采用L-D-CNN作为模型训练模块，可以降低神经网络的计算复杂度。本发明具体实施例结果表明，本发明技术方案能够减小模型大小(模型大小减少了50-60倍)，在显卡上的运算速度提高了50-60倍，传统的音频事件检测方法必须在GTX1080显卡(单精度浮点计算性能为8TFLOPS)上运行，本发明提出的L-D-CNN可以使用嵌入式的Nvidia TX2的显卡运行(单精度浮点计算性能为0.76TFLOPS)，另外，采用L-D-CNN对嵌入式音频事件的检测精度提高了2％-8％。

附图说明

图1为现有传统的嵌入式音频事件检测方法的流程框图。

图2为本发明提供的嵌入式音频事件检测方法的流程框图。

图3为现有传统方法中的模型训练模块使用的卷积神经网络(CNN)的结构框图。

图4为本发明构建的轻量级膨胀卷积神经网络(L-D-CNN)的结构框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种嵌入式音频事件检测方法，对卷积神经网络模型(现有模型训练模块使用的网络)进行改进，提出轻量级膨胀卷积神经网络(L-D-CNN)，采用L-D-CNN作为模型训练模块可以降低神经网络的计算复杂度。

图3为传统的模型训练模块使用的网络为卷积神经网络(CNN)，包括：卷积层，池化层，输出层。本发明通过构建膨胀卷积层，采用膨胀卷积层替代卷积层；通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩，降低模型的参数构建得到轻量级膨胀卷积神经网络。图4为本发明构建的轻量级膨胀卷积神经网络(L-D-CNN)，包括膨胀卷积层，池化层，特征求和层，输出层。

具体地，膨胀卷积层针对(普通)卷积层的卷积核进行修改。通过在卷积层中卷积核的每个相邻元素中插入n个零值，使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核。特征求和层是对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱，通过式1进行计算，得到每一张特征图：

式1中，对于从底层卷积层输出的一个N*N大小的特征图，特征图中的像素为(a₁,a₂,…,a_nn)，b为特征求和层对于每一张特征图的输出结果。通过这个操作，每一张底层卷积层提取的局部特征均得到了压缩。

图2为本发明提供的嵌入式音频事件检测方法的流程框图。以下实施例采用本发明方法检测家庭环境中的嵌入式音频事件，包括如下实施步骤：

A.音频数据如鸟叫声的音频(采样率为44100Hz，单通道音频，每段音频6s)扩增，特征提取(提取60*101像素大小的log mel谱图和60*101像素大小的delta谱图)，将特征谱图分割为三段相同大小的谱图片段。

B.将每段提取log mel谱图和delta谱图输入到压缩的膨胀卷积神经网络(L-D-CNN)训练。

B1.L-D-CNN通过学习log mel谱图提取局部高层特征

B2提取的局部高层特征输入到特征求和层

B3特征求和层对提取的每一张局部特征谱图进行压缩

B4压缩后的特征输入到全连接层中

B5全连接层通过综合局部特征学习全局特征后输出到输出层和softmax分类器中

B6通过100次左右的循环训练得到了一个训练好的网络模型

C.测试：

C1.针对测试音频数据(采样率为44100Hz，单通道音频，每段音频6s)提取特征，得到特征谱图(log mel谱图和delta谱图)，将特征谱图分割为三段相同大小的谱图片段；

C2将三段谱图片段特征谱图都输入到训练好的压缩的膨胀卷积神经网络模型

(L-D-CNN)，输出三段谱图片段的分类矩阵，将三段谱图片段的分类结果相乘得到最后的预测结果。

以下实施例采用python语言编写音频事件检测系统，具体地，

1)音频数据扩增：输入音频数据A＝[0.1,0.2,0.3]，通过对A进行时域变换，获得稍快或稍慢的音频B和C；代码如下：

2)音频数据提取特征：对音频数据A、B、C提取log mel谱图和delta谱图,这个过程分为三步，第一加载音频数据(librosa.load),第二提取mel谱图(librosa.feature.melspectrogram),第三提取delta谱图(ibrosa.feature.delta)。部分代码如下：

y,sr＝librosa.load(A)

mel＝librosa.feature.melspectrogram(y＝y,sr＝sr)

mel_delta＝librosa.feature.delta(mel)

y,sr＝librosa.load(B)

mel＝librosa.feature.melspectrogram(y＝y,sr＝sr)

mel_delta＝librosa.feature.delta(mel)

y,sr＝librosa.load(C)

mel＝librosa.feature.melspectrogram(y＝y,sr＝sr)

mel_delta＝librosa.feature.delta(mel)

3)将提取的特征输入到L-D-CNN模型中，训练模型，模型代码如下,其中AtrousConvolution2D是膨胀卷积层，Activation是激活函数，Pool是池化层，FeatureSumLayer是特征求和层；部分代码如下：

AtrousConvolution2D(80,57,6,init＝uniform(0.001),input_shape＝(2,60,101)),

Activation('relu'),

Pool((4,3),(1,3)),

SpatialDropout2D(0.2),

AtrousConvolution2D(80,1,3,init＝uniform(0.1),atrous_rate＝(2,2)),

Activation('relu'),

Pool((1,3),(1,3)),

Activation('relu'),

FeatureSumLayer(),

Activation('relu'),

Dropout(0.5),

Dense(5000,init＝normal(0.01),W_regularizer＝keras.regularizers.l2(0.001)),

Activation('relu'),

Dropout(0.5),

Dense(10,init＝normal(0.01),W_regularizer＝keras.regularizers.l2(0.001)),

Activation('softmax')

4)针对一段待测试音频数据G＝[1.5,6.7,8.9]，利用上述训练好的L-D-CNN模型进行检测，采用语句如下：

model.predict(G)

表1列出了采用本发明方法及采用其他网络压缩方法进行音频事件检测的结果对比。

表1采用本发明方法及采用其他网络压缩方法进行音频事件检测的结果对比

音频事件检测方法	UrbanSound8K	ESC50	CICESE	网络大小
					CNN	-	64％	81％	105.3M
SqueezeNet-FM-GAP	70.2％	49％	87％	888.7KB
					pruning-2000	80.3％	64％	85.7％	18.3M
pruning-1000	79％	62％	82.9％	5.3M
					Fully-CNN	72％	60.8％	92.9％	16.7M
BinaryNet	11％	2％	27.1％	105M
					L-D-CNN	79％	66％	87.1％	2.1M

表1中，CNN采用Environmental sound classification with convolutionalneural networks文献记载的卷积神经网络方法；SqueezeNet-FM-GAP采用AlexNet-levelaccuracy with 50x fewer parameters and<0.5MB model size文献记载的FireModule和Global Average Pooling方法；pruning-2000和pruning-1000采用RESHAPING DEEPNEURAL NETWORK FOR FAST DECODING BY NODE-PRUNING文献记载的网络剪枝方法；Fully-CNN采用Fully Convolutional Networks for Semantic Segmentation文献记载的全卷积网络方法；BinaryNet采用BinaryNet:Training Deep Neural Networks with Weightsand Activations Constrained to+1or-1文献记载的二值化网络方法。在三个数据库(UrbanSound8K，ESC50，CICESE)上的实验结果对比表明，本发明提供的L-D-CNN模型由于采用了膨胀卷积层，检测精度比其他现有方法要高，由于采用了特征求和层，模型大小比其他方法要小。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种轻量级卷积神经网络的构建方法，基于膨胀卷积和特征求和构建轻量级膨胀卷积神经网络，包括如下过程：

A)构建膨胀卷积层，采用膨胀卷积层替代卷积层，使得神经网络模型对更长的时序信息进行建模；

膨胀卷积层针对卷积层的卷积核进行修改，通过在卷积层中卷积核的每个相邻元素中插入n个零值，使得卷积核由k*k的卷积核扩张成了[k+(k-1)*n]*[k+(k-1)*n]的膨胀卷积核，由此构建得到膨胀卷积层；

B)通过特征求和层对卷积神经网络中卷积层提取的高层局部特征进行压缩，减少模型的参数，以达到压缩网络的目的，使得神经网络可以在移动终端或嵌入式平台上应用；

所述特征求和层具体是：对于卷积神经网络的卷积层提取的高层局部特征的每一张特征图谱，通过式1进行计算，得到每一张特征图：

式1中，对于从底层卷积层输出的一个N*N大小的特征图，特征图中的像素为(a₁,a₂,…,a_nn)，b为特征求和层对于每一张特征图的输出结果；通过特征求和层，每一张底层卷积层提取的的局部特征均得到了压缩；

构建的轻量级膨胀卷积神经网络结构包括膨胀卷积层、池化层、特征求和层、输出层。

2.一种利用权利要求1所述轻量级卷积神经网络检测嵌入式音频事件的方法，采用基于膨胀卷积和特征求和的轻量级卷积神经网络L-D-CNN作为网络模型进行训练，再利用训练好的轻量级膨胀卷积神经网络检测嵌入式音频事件；包括模型训练阶段和检测阶段；

模型训练阶段，执行如下操作：

11)扩增音频训练数据，通过特征提取，提取得到特征谱图，将特征谱图分割为多段相同大小的谱图片段；

12)将提取得到的特征谱图的每一段输入到压缩的膨胀轻量级卷积神经网络模型L-D-CNN中进行训练，包括如下过程：

121)将特征谱图输入到L-D-CNN的膨胀卷积层和池化层中进行学习，输出高层特征谱图；

122)将高层特征谱图输入到L-D-CNN的特征求和层；

123)特征求和层对高层特征谱图进行压缩；

124)将压缩后的特征输入到全连接层中；

13)通过多次循环训练，得到训练好的L-D-CNN网络模型；

检测阶段，执行如下操作：

21)针对测试音频数据提取特征，得到特征谱图，将特征谱图分割为段数与步骤11)相同的谱图片段；每段谱图片段的大小相同；

22)将各段谱图片段特征谱图均输入到训练好的L-D-CNN网络模型中，输出多段谱图片段的分类矩阵；再将各段谱图片段的分类结果相乘得到最后的预测结果；

通过上述步骤，实现嵌入式音频事件的检测。

3.如权利要求2所述检测嵌入式音频事件的方法，其特征是，音频数据的采样率为44100Hz，为单通道音频，每段音频为6s。

4.如权利要求2所述检测嵌入式音频事件的方法，其特征是，将特征谱图分割为三段相同大小的谱图片段。

5.如权利要求2所述检测嵌入式音频事件的方法，其特征是，特征谱图为log mel谱图和delta谱图。

6.如权利要求2所述检测嵌入式音频事件的方法，其特征是，循环训练L-D-CNN网络模型的次数约为100次。