CN110070181A

CN110070181A - 一种用于边缘计算设备的深度学习的优化方法

Info

Publication number: CN110070181A
Application number: CN201910360178.XA
Authority: CN
Inventors: 杨峰; 徐友庆; 刘建辉; 孟祥峰; 杨采艺; 其他发明人请求不公开姓名
Original assignee: Shenzhen Park Sheng Intelligent Technology Co Ltd
Current assignee: Shenzhen Park Sheng Intelligent Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-30

Abstract

本发明公开了一种用于边缘计算设备的深度学习的优化方法，包括：获取边缘计算设备的硬件的计算能力，根据边缘计算设备的硬件的计算能力确定模型量化方案，减少模型计算精度；根据模型结构进行模型轻量化，减少模型参数量和计算量，同时减少模型的访存需求；根据模型结构和参数进行模型减枝和矩阵分解操作；将深度神经网络应用部署于边缘计算设备，并进行深度强化学习，在系统层通过DVFS调频策略进行动态调频。可以将深度学习部署在低功耗的边缘计算设备上，达到基本的可用性，同时优化系统能效。

Description

一种用于边缘计算设备的深度学习的优化方法

技术领域

本发明涉及嵌入式边缘计算技术领域，具体地涉及一种用于通用嵌入式系统的边缘计算设备的深度学习的优化方法。

背景技术

如今，深度学习技术以其显著的效果成为目前的热门话题之一。深度学习是机器学习的一个领域，它使计算机能够通过卷积神经网络(CNN)等体系结构进行训练和学习。它通过处理数据和创建用于决策的模式来模仿人类大脑的工作方式。深度学习的爆发，给计算机带来了全新的认知能力，特别是在计算机视觉感知方面，在一些领域计算机的检测和识别能力已经超过人类。深度学习的良好效果使得其能够在日常生活中很多领域代替人类的工作成为可能，特别是计算机视觉领域，大规模的部署深度学习设计和应用，实现智能化已成为目前趋势。

深度神经网络由输入层、隐藏层和输出层组成。数据由第一层(输入层)流入，通过逐层(隐层)传递和映射，从最后一层(输出层)流出。通过增加隐藏层的数量，各层以接力的方式进行原始数据的特征学习，本质上是在逼近原始数据与其特征之间非线性极强的映射关系。根据神经网络的一致逼近原理(universal approximation theory)，对于任意一个非线性映射，一定能找到一个浅层网络和一个深度网络以任意精度逼近它，只要浅层网络的隐层神经元个数足够多或者深度网络足够深。但通常，较浅层网络而言，深度网络只需要少得多的参数就可以达到与之相同的逼近效果。深度神经网络的计算过程主要有训练和预测两部分，但由于其具有计算密集性和数据密集性的特点，当面对大规模数据时，往往存在计算资源需求大、计算时间过长、功耗较大等问题。因此，深度学习主要部署在云计算平台和图形处理单元(GPGPU)平台。

同时，随着智慧城市，智慧商业，智能家庭的发展，越来越多的摄像头产品上线，传统的视频监控存储，人工查看的方式，已经完全无法满足现在对视频分析的需求。如果使用大量服务器进行实时视频分析，那么视频的传输，存储，分析的成本非常高，只能在某些特定领域使用，限制了应用场景和规模。人机交互，环境感知方面，需要实时的理解和响应，即使网络条件差，或者没有网络，也需要能够正常工作，这要求深度学习应用必须部署在性能较低的基于嵌入式系统的边缘计算设备上，在前端有限的计算资源和功耗下运行。

边缘计算是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间，或处于物理实体的顶端。

嵌入式边缘计算系统目前的问题是，与固定式的桌面系统相比，嵌入式系统在处理器，内存和存储容量方面更为有限，因此计算能力较低。然而深度学习算法，计算量非常大，通常需要运行在高性能的服务器上，对于在前端运行提出了非常高的要求。这些正是基于嵌入式系统的边缘计算设备深度学习应用的机遇与挑战。

Nvidia预计，到2020年，全球预计将会有10亿台监控摄像头投入使用。将传统的前端带摄像头的边缘计算设备，升级为具有一定智能的设备，继而在前端本地就能实时的完成特定的任务，比如检测到感兴趣的目标，并进行下一步的追踪或者识别，对环境实时建模，自动导航，极具应用和商业价值，开创一个新的时代。为了解决这些问题，深度学习必须在前端有限的计算资源和功耗下运行。

目前，为了将深度学习应用部署在基于嵌入式系统的边缘计算前端上，部分硬件厂商针对深度学习专门研发了相应的硬件平台，主要有专用集成电路(ASIC)和现场可编程门阵列(FGPA)。

(1)ASIC：相对于云平台和GPGPU，ASIC采用改进硬件架构来对算法进行加速。ASIC作为特定专用的集成电路，对特定的应用和算法具有较高的计算效率。但其专用性也导致其灵活性差，开发成本高；硬件设计的高门槛也使得其设计开发周期长，开发难度大。

(2)FPGA：现场可编程门阵列FPGA内部含有大量可重新配置的逻辑电路，既保证了接近ASIC的加速性能，又通过其可重构特性提供了类似软件实现的灵活性。但他们无一例外都具有开发难度大，成本高的特点，同时也不能充分利用现有嵌入式边缘设备，不能通过简单的手段对现有嵌入式边缘设备进行相应的适配优化。

可以发现，目前将深度学习应用大范围部署到低功耗嵌入式边缘计算设备面临以下问题：

(1)深度神经网络模型需要庞大的计算量来进行实时计算，然而大部分嵌入式设备并不能提供如此庞大的计算量；

(2)使用ASIC和FPGA专用硬件平台开发难度大，成本高；

(3)市场和实际生活中存在大量通用计算设备，如果采用专用硬件，工程量与成本太大，不切实际。

发明内容

为了解决上述技术问题，本发明提出了一种用于边缘计算设备的深度学习的优化方法，将深度学习应用部署到边缘计算设备上，同时优化系统能效，并且尽可能达到基本的可用性。

本发明所采用的技术方案是：

一种用于边缘计算设备的深度学习的优化方法，包括以下步骤：

S01：获取边缘计算设备的硬件的计算能力，根据边缘计算设备的硬件的计算能力确定模型量化方案，减少模型计算精度；

S02：根据模型结构进行模型轻量化，减少模型参数量和计算量，同时减少模型的访存需求；

S03：根据模型结构和参数进行模型减枝和矩阵分解操作；

S04：将深度神经网络应用部署于边缘计算设备，并进行深度强化学习，在系统层通过DVFS调频策略进行动态调频。

优选的技术方案中，所述步骤S01中硬件的计算能力包括计算芯片所能支持的计算精度。

优选的技术方案中，所述模型量化包括根据特定算法库或硬件平台的支持，将权重或激活输出被聚类到一些离散、低精度的数值点上。

优选的技术方案中，所述步骤S02中，通过解析网络模型将网络中无用的输出层消除，对网络结构进行垂直整合，将神经网络的卷积(conv)、批归一化(BN)、线性修正单元(relu)三个层融合为一个层，修改层融合后的参数。

优选的技术方案中，所述步骤S03中模型剪枝包括计算参数贡献度，对参数贡献度进行排序，对贡献度低的神经元进行剪枝，通过模型训练保证性能。

优选的技术方案中，所述步骤S04，在训练过程中，监视器代理采集平台运行信息，传送到深度强化学习引擎进行训练，同时在重放数据库中进行备份和重放训练，在深度强化学习引擎做出DVFS调频策略后，通过操作检查器过滤明显错误决策，通过接口守护下发DVFS调频策略到控制器代理，进行DVFS的调节操作，通过训练，生成控制模型。

与现有技术相比，本发明的有益效果是：

本发明从系统层和应用层两个方面着手，两方面相互支援，相互补充。在系统层通过DVFS进行自适应的CPU和GPU等计算芯片动态调频，在不影响计算性能的前提下，尽量降低系统能耗，提高能耗比；在应用层通过模型轻量化，通过层融合、减枝等手段降低深度神经网络模型计算量，使得模型复杂度契合于嵌入式平台的计算能力，在精度尽可能的保留的前提下，可以将其部署在低功耗的基于嵌入式系统的边缘计算设备上，达到基本的可用性，同时优化系统能效。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明用于边缘计算设备的深度学习的优化方法的流程图；

图2为本发明实施例的模型的某一层结构图；

图3为本发明实施例的模型层垂直融合示意图；

图4为本发明实施例的模型层水平组合示意图；

图5为本发明实施例的模型减枝流程图；

图6为本发明实施例的模型参数矩阵分解示意图；

图7为本发明实施例的GPU负载与频率示意图；

图8是本发明实施例的DVFS调频策略强化学习训练结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例

本发明实施例中的深度学习优化方法主要是针对基于通用嵌入式系统的边缘计算设备的，其主要是基于CPU和GPU为计算核心的，但本发明并不限于此，其方法对于所有的计算平台部署深度学习应用都具有良好的效果。

一种针对基于通用嵌入式系统的边缘计算设备的深度学习优化方法，从系统层和应用层两个方面着手，在系统层通过DVFS进行自适应的CPU和GPU等计算芯片动态调频，在不影响计算性能的前提下，尽量降低系统能耗，提高能耗比；在应用层通过模型轻量化，层融合，减枝等手段降低深度神经网络模型计算量，使得模型复杂度契合于嵌入式平台的计算能力，在精度尽可能的保留的前提下，将其部署在低功耗嵌入式边缘计算设备上。

图1为本发明实施例的针对基于通用嵌入式系统的边缘计算设备的深度学习优化方法100的流程图。该方法包括：

S110：根据嵌入式边缘计算硬件的计算能力特性确定模型量化方案，减少模型计算精度；

S120：根据模型结构进行模型轻量化，减少模型参数量和计算量，同时减少模型的访存需求；

S130：根据模型结构和参数进行模型减枝和矩阵分解操作，减少模型参数量和计算量；

S140：将深度神经网络应用部署到嵌入式边缘计算设备上，并进行实际运行，使用深度强化学习根据该应用特性与实际运行平台情况进行DVFS调频策略的学习。

步骤S110中硬件的计算能力特性包括计算芯片所能支持的计算精度。模型量化包括将权重或激活输出被聚类到一些离散、低精度的数值点上，通常依赖于特定算法库或硬件平台的支持，对于同样的计算单元，如果计算芯片能够支持降低精度来获得处理速度的提升，比如NVIDIATX2平台所使用的PASCALGPU支持FP16的半精度计算加速，对于仅有CPU的平台，为了充分利用单指令多数据流(Single Instruction Multiple Data，SIMD)，可以将计算精度降低到8bits，相对于FP32，能够有4倍的计算单元；

步骤S120中，通过解析网络模型将网络中无用的输出层消除以减小计算，根据网络结构中的不同层的特性，可以考虑将其中的层进行融合，将多步运算通过参数和层的融合整合到一起，直接通过一步运算得到结果，从而减少整个模型的运算量和访存需求；

步骤S03中，在模型量化和层融合之后，再对模型进行减枝，将模型参数中的权重较低的参数进行减枝和矩阵分解，主要降低模型参数量，缩减大小以适合嵌入式平台较小的内存，同时也减少一部分计算量；

步骤S04中，将优化过后的模型部署在对应的嵌入式边缘计算设备之后，为了充分发挥该平台特性，充分适配深度神经网络模型的资源运行需求，还使用深度强化学习对DVFS策略进行学习，达到在满足模型运行的性能的前提下，充分契合模型运行状况，自适应调节系统电压和频率，提高整个平台的能效比。

图2为本发明实施例的模型的某一层结构图，它是常见的Inception网络模型中一个基础的结构，其中每一个卷积单元都包括了“卷积+批归一化+激活”三个相连的计算层，可以看到，整个模型层级结构非常多，对于计算和访存非常不友好，特别是对于GPU这种并行处理器来说，更多的步骤和结构意味着更多的计算和访存，不利于GPU的并行优化和缓存优化。这样的影响在普通平台上可能并不显著，因为通常计算力是足够的，但是对于嵌入式平台，我们需要压榨它的每一分性能，因此就需要对这样的结构进行优化，充分利用计算平台的能力。

图3为本发明实施例的模型层垂直融合示意图，如图所示，对网络结构进行垂直整合，即将神经网络的卷积(conv)、批归一化(BN)、relu激活三个层融合为一个层CBR，直接将三层中的计算整合到一层中进行，减少计算操作同时减少访存操作，其中，对于层融合时的参数修改，其公式如下：

(1)对于假设每一层的输入表示为向量X，卷积层的权重矩阵为W，

偏置向量为b，则卷积层可以写作：

WX+b

(2)BN层执行了归一化和缩放两个操作，输入为向量X，mean为平均值，var为方差，γ,β为缩放因子，则这两个阶段操作分别为：

γ*X+β

(3)将上面三个式子合并，可得：

(4)展开上式，可得：

(5)则融合层操作就化为新的卷积：

W_newX+b_new

图4为本发明实施例的模型层水平组合示意图，对于网络的水平组合，水平组合是指将输入为相同张量和执行相同操作的层融合一起，如图所示，通过将相同的计算进行整合，通过一次计算得出对应的结果，然后将contact层的输入直接送入下面的操作中，不用单独进行concat后在输入计算，相当于减少了模型的传输吞吐。

以上3步即是本方法对于所部署的深度学习网络的优化和重构，从中我们可以看到根据其优化和重构策略，第一和第二步适用于所有的网络架构，但是第三步则对于Inception结构的神经网络加速效果最为明显。

图5本发明实施例的模型减枝流程图，其中减枝操作主要是对全连接层进行的，全连接层集中了模型中的大量参数，对全连接层进行剪枝，这对于减小模型文件的大小非常有效。对参数贡献度的排序指标可以是神经元的权重参数L1/(或者)L2正则化的平均值、激活函数的平均输出值、在验证数据集上不为0的次数或是其他指标。剪枝这些贡献度低的神经元，模型的准确度会有一定的损失(当然我们希望损失得越小越好)，因此，剪枝后的模型通常需要更多的训练来使其保证一定的性能。这里要注意的是，如果一次性剪枝的神经元过多，会导致模型“损坏”太严重而性能太差。模型的剪枝需要一个迭代的过程，这通常称为“迭代式剪枝”；迭代的过程就是剪枝和模型训练两者的交替重复。

图6是本发明实施例的流程图模型参数矩阵分解示意图，神经网络参数矩阵往往同时具备低秩与稀疏的性质，低秩部分包含了大量的光滑分量，而稀疏部分含有诸如方向的重要信息。因此，使用基于低秩稀疏分解的压缩算法，将矩阵分解为低秩矩阵和稀疏矩阵，能够减小模型大小，和计算量，对于压缩过程中的精度损失，可以通过图5所示流程进行训练校正。

图7是本发明实施例的GPU负载与频率示意图，GPU频率曲线即反映了GPU默认功耗管理器所采用的调频策略针对深度学习应用负载所进行的频率调节变化。由于深度学习应用存在一个尖脉冲波谷，所以在默认调频策略下GPU的频率不断在350MHz至543MHz之间抖动(均值约为480MHz)。另外，由于频率是根据负载的变化进行调整的，所以调频具有一定的迟滞性。从图中两条曲线的变化可以明显看出，当负载处于较低位置时，频率仍在较高点；当GPU几乎处于满负载的状态下，频率却在480MHz与543MHz间跳变，产生“乒乓效应”。频率调节的迟滞性会造成不必要的功耗开销，而“乒乓效应”不仅带来额外的调频开销还会导致上层应用的性能损失。因此训练一个对深度学习应用功耗特性敏感，具有预测性的功耗感知模型来对其进行预测性的DVFS调节对于整体嵌入式边缘计算设备的性能发挥和能效有着一定的提升空间。

图8是本发明实施例的DVFS调频策略强化学习训练结构示意图，其中控制节点负责系统负载的预测模型的学习与调频策略的下发，应用节点为运行深度学习应用的嵌入式边缘计算设备。在训练过程中，监视器代理采集平台运行信息由接口守护接收，传送到深度强化学习引擎进行训练，同时在重放数据库中进行备份和重放训练，在深度强化学习引擎做出决策后，通过操作检查器过滤明显错误决策，通过接口守护下发决策到控制器代理，进行DVFS的调节操作，通过训练，生成控制模型，用来预测和指导DVFS调节策略来更好激发整体嵌入式边缘计算设备的性能潜力和提升能效比。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种用于边缘计算设备的深度学习的优化方法，其特征在于，包括以下步骤：

S03：根据模型结构和参数进行模型减枝和矩阵分解操作；

2.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法，其特征在于，所述步骤S01中硬件的计算能力包括计算芯片所能支持的计算精度。

3.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法，其特征在于，所述模型量化包括根据特定算法库或硬件平台的支持，将权重或激活输出被聚类到一些离散、低精度的数值点上。

4.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法，其特征在于，所述步骤S02中，通过解析网络模型将网络中无用的输出层消除，对网络结构进行垂直整合，将神经网络的卷积（conv）、批归一化（BN）、Relu激活三个层融合为一个层，修改层融合后的参数。

5.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法，其特征在于，所述步骤S03中模型剪枝包括计算参数贡献度，对参数贡献度进行排序，对贡献度低的神经元进行剪枝，通过模型训练保证性能。

6.根据权利要求1所述的用于边缘计算设备的深度学习的优化方法，其特征在于，所述步骤S04，在训练过程中，监视器代理采集平台运行信息，传送到深度强化学习引擎进行训练，同时在重放数据库中进行备份和重放训练，在深度强化学习引擎做出DVFS调频策略后，通过操作检查器过滤明显错误决策，通过接口守护下发DVFS调频策略到控制器代理，进行DVFS的调节操作，通过训练，生成控制模型。