CN107563495A - 面向嵌入式低功耗卷积神经网络方法 - Google Patents

面向嵌入式低功耗卷积神经网络方法 Download PDF

Info

Publication number
CN107563495A
CN107563495A CN201710660708.3A CN201710660708A CN107563495A CN 107563495 A CN107563495 A CN 107563495A CN 201710660708 A CN201710660708 A CN 201710660708A CN 107563495 A CN107563495 A CN 107563495A
Authority
CN
China
Prior art keywords
layer
conv
power consumption
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710660708.3A
Other languages
English (en)
Inventor
牟星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Interconnect Technology Co Ltd
Original Assignee
Shenzhen Interconnect Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Interconnect Technology Co Ltd filed Critical Shenzhen Interconnect Technology Co Ltd
Priority to CN201710660708.3A priority Critical patent/CN107563495A/zh
Publication of CN107563495A publication Critical patent/CN107563495A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Semiconductor Memories (AREA)

Abstract

本发明公开了一种面向嵌入式低功耗卷积神经网络方法;对于conv层和conv+concat层相邻的两个层,采用GoogLeNet中inception的思想,将1×1以及3×3的卷积核并行排列,并分别采集不同尺度上的feature,再将两种卷积核计算得到的feature map进行拼接,对于conv+concat层,采用ResNet的思想,本网络在conv+concat层的拼接结果之间做了short cut connection的逐元素相加操作,分别对每一层进行预剪枝,剪掉的神经元占总数的50%,测试每一层对整体精度的影响。缩小多层网络的每一层的卷积尺寸,减少卷积核的数量并且网络具有一定的稀疏性,因此每一层需要的乘法数量非常少,在具体计算时,可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积,以达到占用内存小、计算速度快和精度高的目的。

Description

面向嵌入式低功耗卷积神经网络方法
技术领域
本发明涉及模式分类领域,具体涉及一种面向嵌入式低功耗卷积神经网络方法。
背景技术
卷积神经网络(Convolutional Neural Networks,CNN)是自2012年快速发展起来,并引起广泛重视的一种深度学习架构,该架构有效提高了图像分类和物体识别的精度。与传统的特征手工提取的方法相比,CNN不仅识别精度高,且避免了繁杂的前期预处理过程;与传统的反向传输(Back Propagation,BP)神经网络相比,CNN由于使用了共享策略,其神经元的个数大大减少,从而在一定程度上避免了过拟合的现象。
随着GPGPU的发展,CNN的网络层数越来越多,从2012年ImageNet图像分类挑战赛的冠军AlexNet的8层网络发展到后来Microsoft ResNet的152层网络。与此同时,CNN也在视觉目标检测,语音识别等其他领域获得了巨大的成功。然而,这些网络结构需要强大的GPU甚至GPU集群才能对其进行训练,神经元消耗的内存/显存巨大,因此现有的CNN网络不适合直接部署在低功耗,资源紧张的嵌入式设备上。
发明内容
为解决上述技术问题,本发明提出了一种面向嵌入式低功耗卷积神经网络方法,以达到占用内存小、计算速度快和精度高的目的。
为达到上述目的,本发明的技术方案如下:
一种面向嵌入式低功耗卷积神经网络方法,低功耗卷积神经网络由多层网络构成,方法步骤如下:
(1).对于conv层和conv+concat层相邻的两个层,采用GoogLeNet中inception的思想,将1×1以及3×3的卷积核并行排列,并分别采集不同尺度上的feature,再将两种卷积核计算得到的feature map进行拼接;
(2).对于conv+concat层,采用ResNet的思想,本网络在conv+concat层的拼接结果之间做了特征连接(short cut connection)的逐元素相加操作;
(3).分别对每一层进行预剪枝,剪掉的神经元占总数的50%,测试每一层对整体精度的影响。
作为优选的,所述卷积神经网络的每一层的卷积尺寸较小,卷积核的数量也很少并且网络具有一定的稀疏性,因此每一层需要的乘法数量非常少,在具体计算时,可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积。
作为优选的,步骤(3)所述的剪枝操作,其卷积核为3×3的卷积层对于剪枝的敏感程度变化不大,因此,本网络仅对3×3的卷积层进行剪枝操作。
作为优选的,所述3×3的卷积层,分别测试剪枝的数量对于精度的影响。本网络分别测试了剪枝比率为40%,50%,60%,70%和80%五种情况,结果显示60%是一个较好的选择,充分去除了冗余,又不会丢失太多的精度。
作为优选的,步骤(3)所述的剪枝操作过程中定义了一个剪枝索引数组,若某个神经元被去除,则对应的索引为0,否则为1,对于反向传播,只需要根据剪枝索引,将对应位置为0的强行置0。
本发明具有如下优点:
(1).实现简单,初始网络不需要修改任何开源框架的源代码,只需要修改其网络的配置文件即可。
(2).占用内存更小,本发明对于21分类的Pascal Voc竞赛集的分类问题只需要占用约800K的内存,并且精度可以达到84.6%。
(3).计算速度很快,由于每一层的卷积尺寸较小,卷积核的数量也很少并且网络具有一定的稀疏性,因此每一层需要的乘法数量非常少。在具体计算时,可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例公开的初始网络的配置参数图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种面向嵌入式低功耗卷积神经网络方法,其工作原理是通过减少原有卷积神经网络的参数,达到占用内存小、计算速度快和精度高的目的。
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
如图1所示,对于第4层和第5层,第7层和第8层,第13层和第14层,第22层和第23层以及第26层和第27层,采用类似GoogLeNet中inception的思想,将1×1以及3×3的卷积核并行排列,并分别采集不同尺度上的feature,再将两种卷积核计算得到的feature map进行拼接。
为了降低训练的复杂度,并且克服网络过深带来的梯度消散的问题,采用类似ResNet的思想,本网络在第5层的的拼接结果和第8层的拼接结果之间做了short cutconnection的逐元素相加操作。类似的操作还在第14层与第21层,第23层和第27层之间进行。
剪枝操作的步骤如下:
分别对每一层进行预剪枝,剪掉的神经元占总数的50%,测试每一层对整体精度的影响。经过实验发现,第一层以及卷积核为1×1的卷积层对于剪枝的敏感程度较大,而卷积核为3×3的卷积层对于剪枝的敏感程度变化不大。因此,本网络仅对3×3的卷积层进行剪枝操作。
对于3×3的卷积层,分别测试剪枝的数量对于精度的影响。本网络分别测试了剪枝比率为40%,50%,60%,70%和80%五种情况,结果显示60%是一个较好的选择,仅充分去除了冗余,又不至于丢失太多的精度。
为了方便GPU计算,在剪枝过程中定义了一个剪枝索引数组,若某个神经元被去除,则对应的索引为0,否则为1。因此,在前向传播的过程中,剪枝操作可以归结为weights与剪枝索引数组的向量点乘。这样避免了常规的条件判断,可以充分发挥GPU的并行计算的能力。
对于反向传播,只需要根据剪枝索引,将对应位置为0的强行置0即可。
以上所述的仅是本发明所公开的一种面向嵌入式低功耗卷积神经网络方法的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (5)

1.一种面向嵌入式低功耗卷积神经网络方法,其特征在于,方法步骤如下:
(1).对于conv层和conv+concat层相邻的两个层,采用GoogLeNet中inception的思想,将1×1以及3×3的卷积核并行排列,并分别采集不同尺度上的feature,再将两种卷积核计算得到的feature map进行拼接;
(2).对于conv+concat层,采用ResNet的思想,本网络在conv+concat层的拼接结果之间做了捷径连接的逐元素相加操作;
(3).分别对每一层进行预剪枝,剪掉的神经元占总数的50%,测试每一层对整体精度的影响。
2.根据权利要求1所述的面向嵌入式低功耗卷积神经网络方法,其特征在于,所述卷积神经网络的每一层的卷积尺寸较小,卷积核的数量也很少并且网络具有一定的稀疏性,因此每一层需要的乘法数量非常少,在具体计算时,可以将其转换为具有CSR存储格式的稀疏矩阵与稠密矩阵的乘积。
3.根据权利要求1所述的面向嵌入式低功耗卷积神经网络方法,其特征在于,步骤(3)所述的剪枝操作,其卷积核为3×3的卷积层对于剪枝的敏感程度变化不大,因此,本网络仅对3×3的卷积层进行剪枝操作。
4.根据权利要求3所述的的面向嵌入式低功耗卷积神经网络方法,其特征在于,所述3×3的卷积层,分别测试剪枝的数量对于精度的影响,本网络分别测试了剪枝比率为40%,50%,60%,70%和80%五种情况,结果显示60%是一个较好的选择,充分去除了冗余,又不会丢失太多的精度。
5.根据权利要求1所述的面向嵌入式低功耗卷积神经网络方法,其特征在于,步骤(3)所述的剪枝操作过程中定义了一个剪枝索引数组,若某个神经元被去除,则对应的索引为0,否则为1,对于反向传播,只需要根据剪枝索引,将对应位置为0的强行置0。
CN201710660708.3A 2017-08-04 2017-08-04 面向嵌入式低功耗卷积神经网络方法 Pending CN107563495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710660708.3A CN107563495A (zh) 2017-08-04 2017-08-04 面向嵌入式低功耗卷积神经网络方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710660708.3A CN107563495A (zh) 2017-08-04 2017-08-04 面向嵌入式低功耗卷积神经网络方法

Publications (1)

Publication Number Publication Date
CN107563495A true CN107563495A (zh) 2018-01-09

Family

ID=60973756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710660708.3A Pending CN107563495A (zh) 2017-08-04 2017-08-04 面向嵌入式低功耗卷积神经网络方法

Country Status (1)

Country Link
CN (1) CN107563495A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805166A (zh) * 2018-05-03 2018-11-13 全球能源互联网研究院有限公司 一种建立图像分类神经网络模型及图像分类方法、装置
CN109086866A (zh) * 2018-07-02 2018-12-25 重庆大学 一种适用于嵌入式设备的部分二值卷积方法
CN109117940A (zh) * 2018-06-19 2019-01-01 腾讯科技(深圳)有限公司 一种卷积神经网络前向加速方法、装置及系统
CN109472194A (zh) * 2018-09-26 2019-03-15 重庆邮电大学 一种基于cblstm算法模型的运动想象脑电信号特征识别方法
CN109615858A (zh) * 2018-12-21 2019-04-12 深圳信路通智能技术有限公司 一种基于深度学习的智能停车行为判断方法
CN109978069A (zh) * 2019-04-02 2019-07-05 南京大学 降低ResNeXt模型在图片分类中过拟合现象的方法
CN110490315A (zh) * 2019-08-14 2019-11-22 北京中科寒武纪科技有限公司 神经网络的反向运算稀疏方法及相关产品
CN110598649A (zh) * 2019-09-17 2019-12-20 中控智慧科技股份有限公司 车辆识别方法、装置及电子设备和存储介质
CN110599458A (zh) * 2019-08-14 2019-12-20 深圳市勘察研究院有限公司 基于卷积神经网络的地下管网检测评估云系统
CN113892092A (zh) * 2019-02-06 2022-01-04 瀚博控股公司 卷积模型硬件加速器的方法和系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805166A (zh) * 2018-05-03 2018-11-13 全球能源互联网研究院有限公司 一种建立图像分类神经网络模型及图像分类方法、装置
CN109117940A (zh) * 2018-06-19 2019-01-01 腾讯科技(深圳)有限公司 一种卷积神经网络前向加速方法、装置及系统
CN109117940B (zh) * 2018-06-19 2020-12-15 腾讯科技(深圳)有限公司 基于卷积神经网络的目标检测方法、装置、终端及存储介质
CN109086866A (zh) * 2018-07-02 2018-12-25 重庆大学 一种适用于嵌入式设备的部分二值卷积方法
CN109086866B (zh) * 2018-07-02 2021-07-30 重庆大学 一种适用于嵌入式设备的部分二值卷积方法
CN109472194A (zh) * 2018-09-26 2019-03-15 重庆邮电大学 一种基于cblstm算法模型的运动想象脑电信号特征识别方法
CN109472194B (zh) * 2018-09-26 2022-02-11 重庆邮电大学 一种基于cblstm算法模型的运动想象脑电信号特征识别方法
CN109615858A (zh) * 2018-12-21 2019-04-12 深圳信路通智能技术有限公司 一种基于深度学习的智能停车行为判断方法
CN113892092A (zh) * 2019-02-06 2022-01-04 瀚博控股公司 卷积模型硬件加速器的方法和系统
CN109978069B (zh) * 2019-04-02 2020-10-09 南京大学 降低ResNeXt模型在图片分类中过拟合现象的方法
CN109978069A (zh) * 2019-04-02 2019-07-05 南京大学 降低ResNeXt模型在图片分类中过拟合现象的方法
CN110599458A (zh) * 2019-08-14 2019-12-20 深圳市勘察研究院有限公司 基于卷积神经网络的地下管网检测评估云系统
CN110490315A (zh) * 2019-08-14 2019-11-22 北京中科寒武纪科技有限公司 神经网络的反向运算稀疏方法及相关产品
CN110490315B (zh) * 2019-08-14 2023-05-23 中科寒武纪科技股份有限公司 神经网络的反向运算稀疏方法及相关产品
CN110598649A (zh) * 2019-09-17 2019-12-20 中控智慧科技股份有限公司 车辆识别方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107563495A (zh) 面向嵌入式低功耗卷积神经网络方法
WO2021004366A1 (zh) 基于结构化剪枝和低比特量化的神经网络加速器及方法
TWI759361B (zh) 用於稀疏神經網路加速的架構、方法、電腦可讀取媒體和裝備
CN106951395B (zh) 面向压缩卷积神经网络的并行卷积运算方法及装置
Sharma et al. Are existing knowledge transfer techniques effective for deep learning on edge devices?
CN114419449B (zh) 一种自注意力多尺度特征融合的遥感图像语义分割方法
US20170243085A1 (en) Image classification neural networks
CN107291795A (zh) 一种结合动态词嵌入和词性标注的文本分类方法
CN108764317A (zh) 一种基于多路特征加权的残差卷积神经网络图像分类方法
CN106934352A (zh) 一种基于双路分形网络和lstm的视频描述方法
CN108416327A (zh) 一种目标检测方法、装置、计算机设备及可读存储介质
CN108509408A (zh) 一种句子相似度判断方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN111144329A (zh) 一种基于多标签的轻量快速人群计数方法
CN107657204A (zh) 深层网络模型的构建方法及人脸表情识别方法和系统
WO2021089009A1 (zh) 数据流重构方法及可重构数据流处理器
CN107292458A (zh) 一种应用于神经网络芯片的预测方法和预测装置
CN108664993B (zh) 一种密集权重连接的卷积神经网络图像分类方法
CN113469071B (zh) 一种针对嵌入式设备的运煤皮带异物视频检测方法
CN107240136A (zh) 一种基于深度学习模型的静态图像压缩方法
CN116580241B (zh) 基于双分支多尺度语义分割网络的图像处理方法及系统
CN117036291A (zh) 混凝土裂缝轻量化检测模型及检测方法
Manzari et al. A robust network for embedded traffic sign recognition
CN116664859A (zh) 移动端实时目标检测方法、终端设备及存储介质
Azawi Handwritten digits recognition using transfer learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180109