CN112052937A

CN112052937A - 基于集成Jetson Nano域控制器运行神经网络的优化算法

Info

Publication number: CN112052937A
Application number: CN202010739461.6A
Authority: CN
Inventors: 赵青; 王伟; 何永宁; 何敬源; 罗启新
Original assignee: Guangxi Xiaojia Intelligent Technology Co ltd
Current assignee: Guangxi Xiaojia Intelligent Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-12-08

Abstract

本发明涉及神经网络优化技术领域，具体涉及基于集成Jetson Nano域控制器运行神经网络的优化算法，具体步骤包括S1：将待优化的神经网络模型中不重要的连接剪裁掉；S2：对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化；S3：压缩编码：采用霍夫曼编码算法将量化后的连接权重进行压缩；S4：部署测试：分别计算优化后的神经网络模型的精度和原来待优化的神经网络模型的精度，精度下降在合理范围内，则无需重新剪裁。采用本发明的优化算法对神经网络模型进行优化，本发明可以去除神经网络模型的冗余参数，神经网络模型参数大小能够很大幅度的减少，并且神经网络模型的FPS性能得以显著提高，也能提高神经网络的运行速度，提高神经网络模型的训练效率。

Description

基于集成Jetson Nano域控制器运行神经网络的优化算法

技术领域

本发明涉及神经网络优化技术领域，具体涉及基于集成Jetson Nano域控制器运行神经网络的优化算法。

背景技术

目前的神经网络算法存在以下弊端：

(1)算法参数复杂度高：运行神经网络算法模型需要消耗非常高的硬件服务器资源；

(2)神经网络训练非常耗时：现如今无论是何种类型的神经网络算法，在其训练过程中都需要一个长时间的训练，最后才能得到合适的模型，这就会导致最后所需的时间成本上升。

(3)在没有GPU资源环境下执行效率低：现有的神经网络训练都是利用GPU显卡资源进行运算，但是在没有GPU资源或者GPU资源不够强大的移动平台上的执行效率就大打折扣。

发明内容

为了解决上述问题，本发明提供了基于集成Jetson Nano域控制器运行神经网络的优化算法，具体技术方案如下：

基于集成Jetson Nano域控制器运行神经网络的优化算法，包括以下步骤：

S1：剪裁：在服务器上对待优化的神经网络模型进行训练，将待优化的神经网络模型中不重要的连接剪裁掉，得到剪裁后的待优化的神经网络模型；

S2：量化：对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化；

S3：压缩编码：采用霍夫曼编码算法将量化后的连接权重进行压缩，得到优化后的神经网络模型；

S4：测试：采用集成jetson Nano的域控制器分别对优化后的神经网络模型和原来待优化的神经网络模型进行训练，计算优化后的神经网络模型的精度和原来待优化的神经网络模型的精度，若优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降超过2％，则重新对待优化的神经网络模型进行剪裁，直到优化后的神经网络模型的精度比原来待优化的神经网络模型的精度下降小于2％为止，如此得到最终优化后的神经网络模型。

优选地，所述不重要的连接的确定方法为：

(1)计算待优化的神经网络模型中每一层网络每个连接的连接权重；

(2)对每一层网络的连接权重按照降序的方式进行排序；

(3)每一层网络的连接权重排在后20％的连接为改层网络的不重要的连接。

优选地，所述步骤(1)中采用Hessian算法来计算每个连接的连接权重。

优选地，所述步骤S4是将优化后的神经网络模型转换为二进制的形式，并将二进制的优化后的神经网络模型进行上传至集成jetson Nano的域控制器进行测试。

优选地，所述步骤S4中还包括将优化后的神经网络模型采用TensorRT框架进行转换成二进制的形式。

本发明的有益效果为：采用本发明的优化算法对神经网络模型进行优化，本发明可以去除神经网络模型的冗余参数，神经网络模型参数大小能够很大幅度的减少，并且神经网络模型的FPS性能得以显著提高，也能提高神经网络的运行速度，提高神经网络模型的训练效率。

附图说明

图1为本发明中剪裁的结果示意图；

图2为本发明中TensorRT框架的流程图。

具体实施方式

为了更好的理解本发明，下面结合附图和具体实施例对本发明作进一步说明：

S1：剪裁：在服务器上对待优化的神经网络模型进行训练，将待优化的神经网络模型中不重要的连接剪裁掉，得到剪裁后的待优化的神经网络模型；不重要的连接的确定方法为：

(1)采用Hessian算法计算待优化的神经网络模型中每一层网络每个连接的连接权重；

(2)对每一层网络的连接权重按照降序的方式进行排序；

剪裁后的神经网络模型的示意图如图1所示，裁剪不重要的连接后网络连接数量少，能够大幅度的减轻网络连接带来的参数变多问题。

实施例以Tiny YOLO3为例说明，Tiny YOLO3是YOLO3的简化版本，主要不同之处在于Tiny YOLO3的主干网络采用了一个7层的卷积层和最大池化层作为提取特征，这种网络结构的设计和DarkNet19有异曲同工之处，该网络结构的特点就是网络简单、计算量小，方便优化裁剪，同时也方便在移动设备上运行。

表1是Tiny YOLO3神经网络模型中提取特征的7层网络结构示意图，以416×416×3像素大小的输入图像为例说明数据在特征提取网络的变化情况。

表1 Tiny YOLO3神经网络模型的输入图像变化情况

首先使用MS COCO目标检测数据集训练出一组数据模型参数，该参数表示网络中每一层的特征值，因为参数非常巨大，都是矩阵形式，再次就不罗列出来了。然后将训练好的Tiny YOLO3神经网络模型的权重参数矩阵使用Hessian算法计算权重，然后以降序的方式排序，将排在后20％的权重进行裁剪，裁剪的方式主要是丢弃，相当于删除这部分的连接权重。

S2：量化：基于服务器对剪裁后的待优化的神经网络模型的连接权重进行INT8参数量化，将原本Float32进行压缩至int8类型，最大限度的减轻模型大小，因为一个float32类型就占用8bit，一个int8只占用了4bit，因此经过量化压缩后神经网络模型的大小能够减小2倍。

S3：压缩编码：采用霍夫曼编码算法将量化后的连接权重进行压缩，得到优化后的神经网络模型。本步骤将量化后的权重进行压缩，使得神经网络模型的大小减小，主要体现在神经网络模型的容量大小、模型的参数数量上都会得到有效的压缩，在移动设备上能够让优化后的神经网络模型更高效地运行。

本发明为了能够很好地将神经网络模型运行在Jetson Nano外接设备上，进行了重要的创新，具体借助Jetson Nano的官方开发包，通过TensorRT引擎去实现神经网络模型的高效执行，TensorRT是一个有助于在NVIDIA图形处理单元(GPU)的高性能推理一个C++库，本发明基于该开发库去执行优化后的神经网络模型。TensorRT通过组合层和优化内核选择来优化神经网络模型，以改善延迟、吞吐量、能效和内存消耗。如果应用程序指定，它将另外优化网络以使其以较低的精度运行，从而进一步提高性能并减少内存需求。

如图2所示，神经网络模型经过TensorRT框架转换后，能够高效地在Jetson Nano上运行。

NVDIA Jetson Nano开发套件是一部小而强大的电脑，可让你同时执行多个神经网路，适合应用于影像分类、物件侦测、分割和语音处理。它不仅是个易于使用的平台，运作也只需5瓦特。

将优化后的神经网络模型采用TensorRT框架转换为二进制的形式，并将二进制的优化后的神经网络模型进行上传至集成jetson Nano的域控制器进行测试，具体是测试优化后的神经网络的精度、FPS(每秒传输帧数)两个指标。

优化后的Tiny YOLO3神经网络模型的测试结果如下表2所示，在精度合理损失的范围内，模型参数大幅度压缩，压缩后的模型才能在移动设备上很好的执行。如果得到的结果得不到明显的提升，所谓明显提升是指FPS能够提升在20％左右，也是需要重复训练、重新裁剪。

表2优化后的Tiny YOLO3神经网络模型的测试结果

经过多次测试对比结果分析可以得出，本发明的对神经网络模型的优化方法在精度损失合理范围内，神经网络模型的参数大小能够很大幅度的减少，并且神经网络模型的执行FPS得到了显著的提高，提高后的FPS能够给神经网络模型的流程执行带来可观的效果，本发明的优化方法为神经网络模型在移动端高效的运行提供了保障。

本发明不局限于以上所述的具体实施方式，以上所述仅为本发明的较佳实施案例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于集成Jetson Nano域控制器运行神经网络的优化算法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于集成Jetson Nano域控制器运行神经网络的优化算法，其特征在于：所述不重要的连接的确定方法为：

(2)对每一层网络的连接权重按照降序的方式进行排序；

3.根据权利要求2所述的基于集成Jetson Nano域控制器运行神经网络的优化算法，其特征在于：所述步骤(1)中采用Hessian算法来计算每个连接的连接权重。

4.根据权利要求1所述的基于集成Jetson Nano域控制器运行神经网络的优化算法，其特征在于：所述步骤S4是将优化后的神经网络模型转换为二进制的形式，并将二进制的优化后的神经网络模型进行上传至集成jetson Nano的域控制器进行测试。

5.根据权利要求4所述的基于集成Jetson Nano域控制器运行神经网络的优化算法，其特征在于：所述步骤S4中还包括将优化后的神经网络模型采用TensorRT框架进行转换成二进制的形式。