CN112052937A - 基于集成Jetson Nano域控制器运行神经网络的优化算法 - Google Patents

基于集成Jetson Nano域控制器运行神经网络的优化算法 Download PDF

Info

Publication number
CN112052937A
CN112052937A CN202010739461.6A CN202010739461A CN112052937A CN 112052937 A CN112052937 A CN 112052937A CN 202010739461 A CN202010739461 A CN 202010739461A CN 112052937 A CN112052937 A CN 112052937A
Authority
CN
China
Prior art keywords
neural network
network model
optimized
precision
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010739461.6A
Other languages
English (en)
Inventor
赵青
王伟
何永宁
何敬源
罗启新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Xiaojia Intelligent Technology Co ltd
Original Assignee
Guangxi Xiaojia Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Xiaojia Intelligent Technology Co ltd filed Critical Guangxi Xiaojia Intelligent Technology Co ltd
Priority to CN202010739461.6A priority Critical patent/CN112052937A/zh
Publication of CN112052937A publication Critical patent/CN112052937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及神经网络优化技术领域,具体涉及基于集成Jetson Nano域控制器运行神经网络的优化算法,具体步骤包括S1:将待优化的神经网络模型中不重要的连接剪裁掉;S2:对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化;S3:压缩编码:采用霍夫曼编码算法将量化后的连接权重进行压缩;S4:部署测试:分别计算优化后的神经网络模型的精度和原来待优化的神经网络模型的精度,精度下降在合理范围内,则无需重新剪裁。采用本发明的优化算法对神经网络模型进行优化,本发明可以去除神经网络模型的冗余参数,神经网络模型参数大小能够很大幅度的减少,并且神经网络模型的FPS性能得以显著提高,也能提高神经网络的运行速度,提高神经网络模型的训练效率。

Description

基于集成Jetson Nano域控制器运行神经网络的优化算法
技术领域
本发明涉及神经网络优化技术领域,具体涉及基于集成Jetson Nano域控制器运行神经网络的优化算法。
背景技术
目前的神经网络算法存在以下弊端:
(1)算法参数复杂度高:运行神经网络算法模型需要消耗非常高的硬件服务器资源;
(2)神经网络训练非常耗时:现如今无论是何种类型的神经网络算法,在其训练过程中都需要一个长时间的训练,最后才能得到合适的模型,这就会导致最后所需的时间成本上升。
(3)在没有GPU资源环境下执行效率低:现有的神经网络训练都是利用GPU显卡资源进行运算,但是在没有GPU资源或者GPU资源不够强大的移动平台上的执行效率就大打折扣。
发明内容
为了解决上述问题,本发明提供了基于集成Jetson Nano域控制器运行神经网络的优化算法,具体技术方案如下:
基于集成Jetson Nano域控制器运行神经网络的优化算法,包括以下步骤:
S1:剪裁:在服务器上对待优化的神经网络模型进行训练,将待优化的神经网络模型中不重要的连接剪裁掉,得到剪裁后的待优化的神经网络模型;
S2:量化:对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化;
S3:压缩编码:采用霍夫曼编码算法将量化后的连接权重进行压缩,得到优化后的神经网络模型;
S4:测试:采用集成jetson Nano的域控制器分别对优化后的神经网络模型和原来待优化的神经网络模型进行训练,计算优化后的神经网络模型的精度和原来待优化的神经网络模型的精度,若优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降超过2%,则重新对待优化的神经网络模型进行剪裁,直到优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降小于2%为止,如此得到最终优化后的神经网络模型。
优选地,所述不重要的连接的确定方法为:
(1)计算待优化的神经网络模型中每一层网络每个连接的连接权重;
(2)对每一层网络的连接权重按照降序的方式进行排序;
(3)每一层网络的连接权重排在后20%的连接为改层网络的不重要的连接。
优选地,所述步骤(1)中采用Hessian算法来计算每个连接的连接权重。
优选地,所述步骤S4是将优化后的神经网络模型转换为二进制的形式,并将二进制的优化后的神经网络模型进行上传至集成jetson Nano的域控制器进行测试。
优选地,所述步骤S4中还包括将优化后的神经网络模型采用TensorRT框架进行转换成二进制的形式。
本发明的有益效果为:采用本发明的优化算法对神经网络模型进行优化,本发明可以去除神经网络模型的冗余参数,神经网络模型参数大小能够很大幅度的减少,并且神经网络模型的FPS性能得以显著提高,也能提高神经网络的运行速度,提高神经网络模型的训练效率。
附图说明
图1为本发明中剪裁的结果示意图;
图2为本发明中TensorRT框架的流程图。
具体实施方式
为了更好的理解本发明,下面结合附图和具体实施例对本发明作进一步说明:
基于集成Jetson Nano域控制器运行神经网络的优化算法,包括以下步骤:
S1:剪裁:在服务器上对待优化的神经网络模型进行训练,将待优化的神经网络模型中不重要的连接剪裁掉,得到剪裁后的待优化的神经网络模型;不重要的连接的确定方法为:
(1)采用Hessian算法计算待优化的神经网络模型中每一层网络每个连接的连接权重;
(2)对每一层网络的连接权重按照降序的方式进行排序;
(3)每一层网络的连接权重排在后20%的连接为改层网络的不重要的连接。
剪裁后的神经网络模型的示意图如图1所示,裁剪不重要的连接后网络连接数量少,能够大幅度的减轻网络连接带来的参数变多问题。
实施例以Tiny YOLO3为例说明,Tiny YOLO3是YOLO3的简化版本,主要不同之处在于Tiny YOLO3的主干网络采用了一个7层的卷积层和最大池化层作为提取特征,这种网络结构的设计和DarkNet19有异曲同工之处,该网络结构的特点就是网络简单、计算量小,方便优化裁剪,同时也方便在移动设备上运行。
表1是Tiny YOLO3神经网络模型中提取特征的7层网络结构示意图,以416×416×3像素大小的输入图像为例说明数据在特征提取网络的变化情况。
表1 Tiny YOLO3神经网络模型的输入图像变化情况
Figure BDA0002606267820000031
首先使用MS COCO目标检测数据集训练出一组数据模型参数,该参数表示网络中每一层的特征值,因为参数非常巨大,都是矩阵形式,再次就不罗列出来了。然后将训练好的Tiny YOLO3神经网络模型的权重参数矩阵使用Hessian算法计算权重,然后以降序的方式排序,将排在后20%的权重进行裁剪,裁剪的方式主要是丢弃,相当于删除这部分的连接权重。
S2:量化:基于服务器对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化,将原本Float32进行压缩至int8类型,最大限度的减轻模型大小,因为一个float32类型就占用8bit,一个int8只占用了4bit,因此经过量化压缩后神经网络模型的大小能够减小2倍。
S3:压缩编码:采用霍夫曼编码算法将量化后的连接权重进行压缩,得到优化后的神经网络模型。本步骤将量化后的权重进行压缩,使得神经网络模型的大小减小,主要体现在神经网络模型的容量大小、模型的参数数量上都会得到有效的压缩,在移动设备上能够让优化后的神经网络模型更高效地运行。
S4:测试:采用集成jetson Nano的域控制器分别对优化后的神经网络模型和原来待优化的神经网络模型进行训练,计算优化后的神经网络模型的精度和原来待优化的神经网络模型的精度,若优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降超过2%,则重新对待优化的神经网络模型进行剪裁,直到优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降小于2%为止,如此得到最终优化后的神经网络模型。
本发明为了能够很好地将神经网络模型运行在Jetson Nano外接设备上,进行了重要的创新,具体借助Jetson Nano的官方开发包,通过TensorRT引擎去实现神经网络模型的高效执行,TensorRT是一个有助于在NVIDIA图形处理单元(GPU)的高性能推理一个C++库,本发明基于该开发库去执行优化后的神经网络模型。TensorRT通过组合层和优化内核选择来优化神经网络模型,以改善延迟、吞吐量、能效和内存消耗。如果应用程序指定,它将另外优化网络以使其以较低的精度运行,从而进一步提高性能并减少内存需求。
如图2所示,神经网络模型经过TensorRT框架转换后,能够高效地在Jetson Nano上运行。
NVDIA Jetson Nano开发套件是一部小而强大的电脑,可让你同时执行多个神经网路,适合应用于影像分类、物件侦测、分割和语音处理。它不仅是个易于使用的平台,运作也只需5瓦特。
将优化后的神经网络模型采用TensorRT框架转换为二进制的形式,并将二进制的优化后的神经网络模型进行上传至集成jetson Nano的域控制器进行测试,具体是测试优化后的神经网络的精度、FPS(每秒传输帧数)两个指标。
优化后的Tiny YOLO3神经网络模型的测试结果如下表2所示,在精度合理损失的范围内,模型参数大幅度压缩,压缩后的模型才能在移动设备上很好的执行。如果得到的结果得不到明显的提升,所谓明显提升是指FPS能够提升在20%左右,也是需要重复训练、重新裁剪。
表2优化后的Tiny YOLO3神经网络模型的测试结果
Figure BDA0002606267820000041
经过多次测试对比结果分析可以得出,本发明的对神经网络模型的优化方法在精度损失合理范围内,神经网络模型的参数大小能够很大幅度的减少,并且神经网络模型的执行FPS得到了显著的提高,提高后的FPS能够给神经网络模型的流程执行带来可观的效果,本发明的优化方法为神经网络模型在移动端高效的运行提供了保障。
本发明不局限于以上所述的具体实施方式,以上所述仅为本发明的较佳实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于集成Jetson Nano域控制器运行神经网络的优化算法,其特征在于:包括以下步骤:
S1:剪裁:在服务器上对待优化的神经网络模型进行训练,将待优化的神经网络模型中不重要的连接剪裁掉,得到剪裁后的待优化的神经网络模型;
S2:量化:对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化;
S3:压缩编码:采用霍夫曼编码算法将量化后的连接权重进行压缩,得到优化后的神经网络模型;
S4:测试:采用集成jetson Nano的域控制器分别对优化后的神经网络模型和原来待优化的神经网络模型进行训练,计算优化后的神经网络模型的精度和原来待优化的神经网络模型的精度,若优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降超过2%,则重新对待优化的神经网络模型进行剪裁,直到优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降小于2%为止,如此得到最终优化后的神经网络模型。
2.根据权利要求1所述的基于集成Jetson Nano域控制器运行神经网络的优化算法,其特征在于:所述不重要的连接的确定方法为:
(1)计算待优化的神经网络模型中每一层网络每个连接的连接权重;
(2)对每一层网络的连接权重按照降序的方式进行排序;
(3)每一层网络的连接权重排在后20%的连接为改层网络的不重要的连接。
3.根据权利要求2所述的基于集成Jetson Nano域控制器运行神经网络的优化算法,其特征在于:所述步骤(1)中采用Hessian算法来计算每个连接的连接权重。
4.根据权利要求1所述的基于集成Jetson Nano域控制器运行神经网络的优化算法,其特征在于:所述步骤S4是将优化后的神经网络模型转换为二进制的形式,并将二进制的优化后的神经网络模型进行上传至集成jetson Nano的域控制器进行测试。
5.根据权利要求4所述的基于集成Jetson Nano域控制器运行神经网络的优化算法,其特征在于:所述步骤S4中还包括将优化后的神经网络模型采用TensorRT框架进行转换成二进制的形式。
CN202010739461.6A 2020-07-28 2020-07-28 基于集成Jetson Nano域控制器运行神经网络的优化算法 Pending CN112052937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010739461.6A CN112052937A (zh) 2020-07-28 2020-07-28 基于集成Jetson Nano域控制器运行神经网络的优化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010739461.6A CN112052937A (zh) 2020-07-28 2020-07-28 基于集成Jetson Nano域控制器运行神经网络的优化算法

Publications (1)

Publication Number Publication Date
CN112052937A true CN112052937A (zh) 2020-12-08

Family

ID=73601301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010739461.6A Pending CN112052937A (zh) 2020-07-28 2020-07-28 基于集成Jetson Nano域控制器运行神经网络的优化算法

Country Status (1)

Country Link
CN (1) CN112052937A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052300A (zh) * 2021-03-29 2021-06-29 商汤集团有限公司 神经网络训练方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242003A (zh) * 2018-08-13 2019-01-18 浙江零跑科技有限公司 基于深度卷积神经网络的车载视觉系统自身运动确定方法
CN109445935A (zh) * 2018-10-10 2019-03-08 杭州电子科技大学 云计算环境下一种高性能大数据分析系统自适应配置方法
CN110188877A (zh) * 2019-05-30 2019-08-30 苏州浪潮智能科技有限公司 一种神经网络压缩方法与装置
CN111275187A (zh) * 2020-01-16 2020-06-12 北京智芯微电子科技有限公司 深度神经网络模型的压缩方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242003A (zh) * 2018-08-13 2019-01-18 浙江零跑科技有限公司 基于深度卷积神经网络的车载视觉系统自身运动确定方法
CN109445935A (zh) * 2018-10-10 2019-03-08 杭州电子科技大学 云计算环境下一种高性能大数据分析系统自适应配置方法
CN110188877A (zh) * 2019-05-30 2019-08-30 苏州浪潮智能科技有限公司 一种神经网络压缩方法与装置
CN111275187A (zh) * 2020-01-16 2020-06-12 北京智芯微电子科技有限公司 深度神经网络模型的压缩方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SONG HAN ETAL.: ""DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFMAN CODING"", 《ARXIV》, pages 1 - 14 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052300A (zh) * 2021-03-29 2021-06-29 商汤集团有限公司 神经网络训练方法、装置、电子设备及存储介质
CN113052300B (zh) * 2021-03-29 2024-05-28 商汤集团有限公司 神经网络训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Choi et al. Deep feature compression for collaborative object detection
EP4138391A1 (en) Mimic compression method and apparatus for video image, and storage medium and terminal
CN109842803A (zh) 一种图像压缩的方法及装置
WO2020238237A1 (zh) 一种基于幂指数量化的神经网络压缩方法
CN111147862B (zh) 一种基于目标编码的端到端图像压缩方法
WO2011044713A1 (en) Method and apparatus for encoding a mesh model, encoded mesh model, and method and apparatus for decoding a mesh model
CN101431691B (zh) 高动态范围图像的快速并行压缩方法
CN102685501B (zh) 实现jpeg2000图像压缩的定点小波变换方法
CN110751265A (zh) 一种轻量型神经网络构建方法、系统及电子设备
CN108495132A (zh) 基于轻量级深度卷积网络的遥感影像大倍率压缩方法
CN113392973A (zh) 一种基于fpga的ai芯片神经网络加速方法
CN112052937A (zh) 基于集成Jetson Nano域控制器运行神经网络的优化算法
CN101415117A (zh) 基于gpgpu的高真实感图像的传输方法
CN102521847B (zh) 超高分辨率bmp图片的分割方法与装置
CN117151178A (zh) 一种面向fpga的cnn定制网络量化加速方法
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
CN111479286A (zh) 一种边缘计算系统减少通信流量的数据处理方法
CN116896638A (zh) 一种面向输电运检场景的数据压缩编码技术
CN105376578A (zh) 图像压缩方法及装置
CN102088607A (zh) 基于jpeg2000标准的mq编码方法和电路
CN114372565A (zh) 一种用于边缘设备的目标检测网络压缩方法
CN112200275B (zh) 人工神经网络的量化方法及装置
CN110021349A (zh) 基因数据的编码方法
CN105007490B (zh) 基于OmapL138芯片的Jpeg压缩算法
CN113554719A (zh) 一种图像编码方法、解码方法、存储介质及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination