CN107563495A

CN107563495A - 面向嵌入式低功耗卷积神经网络方法

Info

Publication number: CN107563495A
Application number: CN201710660708.3A
Authority: CN
Inventors: 牟星
Original assignee: Shenzhen Interconnect Technology Co Ltd
Current assignee: Shenzhen Interconnect Technology Co Ltd
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2018-01-09

Abstract

本发明公开了一种面向嵌入式低功耗卷积神经网络方法；对于conv层和conv+concat层相邻的两个层，采用GoogLeNet中inception的思想，将1×1以及3×3的卷积核并行排列，并分别采集不同尺度上的feature，再将两种卷积核计算得到的feature map进行拼接，对于conv+concat层，采用ResNet的思想，本网络在conv+concat层的拼接结果之间做了short cut connection的逐元素相加操作，分别对每一层进行预剪枝，剪掉的神经元占总数的50％，测试每一层对整体精度的影响。缩小多层网络的每一层的卷积尺寸，减少卷积核的数量并且网络具有一定的稀疏性，因此每一层需要的乘法数量非常少，在具体计算时，可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积，以达到占用内存小、计算速度快和精度高的目的。

Description

面向嵌入式低功耗卷积神经网络方法

技术领域

本发明涉及模式分类领域，具体涉及一种面向嵌入式低功耗卷积神经网络方法。

背景技术

卷积神经网络(Convolutional Neural Networks，CNN)是自2012年快速发展起来，并引起广泛重视的一种深度学习架构，该架构有效提高了图像分类和物体识别的精度。与传统的特征手工提取的方法相比，CNN不仅识别精度高，且避免了繁杂的前期预处理过程；与传统的反向传输(Back Propagation，BP)神经网络相比，CNN由于使用了共享策略，其神经元的个数大大减少，从而在一定程度上避免了过拟合的现象。

随着GPGPU的发展，CNN的网络层数越来越多，从2012年ImageNet图像分类挑战赛的冠军AlexNet的8层网络发展到后来Microsoft ResNet的152层网络。与此同时，CNN也在视觉目标检测，语音识别等其他领域获得了巨大的成功。然而，这些网络结构需要强大的GPU甚至GPU集群才能对其进行训练，神经元消耗的内存/显存巨大，因此现有的CNN网络不适合直接部署在低功耗，资源紧张的嵌入式设备上。

发明内容

为解决上述技术问题，本发明提出了一种面向嵌入式低功耗卷积神经网络方法，以达到占用内存小、计算速度快和精度高的目的。

为达到上述目的，本发明的技术方案如下：

一种面向嵌入式低功耗卷积神经网络方法，低功耗卷积神经网络由多层网络构成，方法步骤如下：

(1).对于conv层和conv+concat层相邻的两个层，采用GoogLeNet中inception的思想，将1×1以及3×3的卷积核并行排列，并分别采集不同尺度上的feature，再将两种卷积核计算得到的feature map进行拼接；

(2).对于conv+concat层，采用ResNet的思想，本网络在conv+concat层的拼接结果之间做了特征连接(short cut connection)的逐元素相加操作；

(3).分别对每一层进行预剪枝，剪掉的神经元占总数的50％，测试每一层对整体精度的影响。

作为优选的，所述卷积神经网络的每一层的卷积尺寸较小，卷积核的数量也很少并且网络具有一定的稀疏性，因此每一层需要的乘法数量非常少，在具体计算时，可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积。

作为优选的，步骤(3)所述的剪枝操作，其卷积核为3×3的卷积层对于剪枝的敏感程度变化不大，因此，本网络仅对3×3的卷积层进行剪枝操作。

作为优选的，所述3×3的卷积层，分别测试剪枝的数量对于精度的影响。本网络分别测试了剪枝比率为40％，50％，60％，70％和80％五种情况，结果显示60％是一个较好的选择，充分去除了冗余，又不会丢失太多的精度。

作为优选的，步骤(3)所述的剪枝操作过程中定义了一个剪枝索引数组，若某个神经元被去除，则对应的索引为0，否则为1，对于反向传播，只需要根据剪枝索引，将对应位置为0的强行置0。

本发明具有如下优点：

(1).实现简单，初始网络不需要修改任何开源框架的源代码，只需要修改其网络的配置文件即可。

(2).占用内存更小，本发明对于21分类的Pascal Voc竞赛集的分类问题只需要占用约800K的内存，并且精度可以达到84.6％。

(3).计算速度很快，由于每一层的卷积尺寸较小，卷积核的数量也很少并且网络具有一定的稀疏性，因此每一层需要的乘法数量非常少。在具体计算时，可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例公开的初始网络的配置参数图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种面向嵌入式低功耗卷积神经网络方法，其工作原理是通过减少原有卷积神经网络的参数，达到占用内存小、计算速度快和精度高的目的。

下面结合实施例和具体实施方式对本发明作进一步详细的说明。

如图1所示，对于第4层和第5层，第7层和第8层，第13层和第14层，第22层和第23层以及第26层和第27层，采用类似GoogLeNet中inception的思想，将1×1以及3×3的卷积核并行排列，并分别采集不同尺度上的feature，再将两种卷积核计算得到的feature map进行拼接。

为了降低训练的复杂度，并且克服网络过深带来的梯度消散的问题，采用类似ResNet的思想，本网络在第5层的的拼接结果和第8层的拼接结果之间做了short cutconnection的逐元素相加操作。类似的操作还在第14层与第21层，第23层和第27层之间进行。

剪枝操作的步骤如下：

分别对每一层进行预剪枝，剪掉的神经元占总数的50％，测试每一层对整体精度的影响。经过实验发现，第一层以及卷积核为1×1的卷积层对于剪枝的敏感程度较大，而卷积核为3×3的卷积层对于剪枝的敏感程度变化不大。因此，本网络仅对3×3的卷积层进行剪枝操作。

对于3×3的卷积层，分别测试剪枝的数量对于精度的影响。本网络分别测试了剪枝比率为40％，50％，60％，70％和80％五种情况，结果显示60％是一个较好的选择，仅充分去除了冗余，又不至于丢失太多的精度。

为了方便GPU计算，在剪枝过程中定义了一个剪枝索引数组，若某个神经元被去除，则对应的索引为0，否则为1。因此，在前向传播的过程中，剪枝操作可以归结为weights与剪枝索引数组的向量点乘。这样避免了常规的条件判断，可以充分发挥GPU的并行计算的能力。

对于反向传播，只需要根据剪枝索引，将对应位置为0的强行置0即可。

以上所述的仅是本发明所公开的一种面向嵌入式低功耗卷积神经网络方法的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种面向嵌入式低功耗卷积神经网络方法，其特征在于，方法步骤如下：

(2).对于conv+concat层，采用ResNet的思想，本网络在conv+concat层的拼接结果之间做了捷径连接的逐元素相加操作；

2.根据权利要求1所述的面向嵌入式低功耗卷积神经网络方法，其特征在于，所述卷积神经网络的每一层的卷积尺寸较小，卷积核的数量也很少并且网络具有一定的稀疏性，因此每一层需要的乘法数量非常少，在具体计算时，可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积。

3.根据权利要求1所述的面向嵌入式低功耗卷积神经网络方法，其特征在于，步骤(3)所述的剪枝操作，其卷积核为3×3的卷积层对于剪枝的敏感程度变化不大，因此，本网络仅对3×3的卷积层进行剪枝操作。

4.根据权利要求3所述的的面向嵌入式低功耗卷积神经网络方法，其特征在于，所述3×3的卷积层，分别测试剪枝的数量对于精度的影响，本网络分别测试了剪枝比率为40％，50％，60％，70％和80％五种情况，结果显示60％是一个较好的选择，充分去除了冗余，又不会丢失太多的精度。

5.根据权利要求1所述的面向嵌入式低功耗卷积神经网络方法，其特征在于，步骤(3)所述的剪枝操作过程中定义了一个剪枝索引数组，若某个神经元被去除，则对应的索引为0，否则为1，对于反向传播，只需要根据剪枝索引，将对应位置为0的强行置0。