CN113128681A

CN113128681A - 一种多边缘设备辅助的通用cnn推理加速系统

Info

Publication number: CN113128681A
Application number: CN202110378386.XA
Authority: CN
Inventors: 周晓波; 李端阳; 李克秋; 邱铁; 张朝昆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-16
Anticipated expiration: 2041-04-08
Also published as: CN113128681B

Abstract

本发明公开了一种多边缘设备辅助的通用CNN推理加速系统，包括如下步骤：S1、在边缘计算网络中建立有一个终端设备和至有4个边缘设备的推理加速系统；S2、选择距离终端设备最近的边缘设备作为任务卸载目的边缘设备，其余边缘设备作为协作计算目的边缘设备；S3、任务卸载目的边缘设备采用“零填充空间划分”的卷积划分方案对后续的卷积计算进行并行分解；S4、任务卸载目的边缘设备对CNN推理模型进行并行推理生成最佳并行推理进入点；S5、任务卸载目的边缘设备实时从相邻的P个协作计算边缘设备收集设备资源；S6、任务卸载目的边缘设备依据协作计算边缘设备实时资源将CNN推理任务分发到设备上进行并行推理计算，该发明可以极大的提高CNN任务的推理速度。

Description

一种多边缘设备辅助的通用CNN推理加速系统

技术领域

本发明属于移动边缘计算多设备协作计算领域，特别涉及一种多边缘设备辅助的通用CNN推理加速系统。

背景技术

在物联网(IoT)时代，数十亿物联网设备生成的大量传感数据将通过Internet进行收集和处理。最近的研究表明对此类数据进行数据分析以发现新信息是一项至关重要的任务，也是改善人类生活质量的一个关键。而基于深度学习的数据分析技术，尤其是深度/卷积神经网络(DNN/CNN)，已被证明在解决此任务上表现出远超人类专家的卓越性能。

然而，考虑到资源受限的物联网设备，在其上执行CNN推理将带来许多挑战。在单个设备上处理对延迟敏感的任务(例如，目标检测)可能会消耗大量的计算资源并带来不可接受的处理延迟，从而导致非常差的用户体验。现有的解决单设备CNN推理延时大问题的方案主要分为三类：(1)云辅助：利用资源丰富的云平台来帮助执行目标检测任务；(2)边缘辅助：在更靠近数据源的边缘设备上的各种人工智能(AI)算法直接处理大规模数据；(3)推理加速：通过尽早退出推理并避免在后期进行计算来减少设备的资源消耗，把推理层分为多个部分在多个设备上运行，把推理层拆分为几个较小的推理块在多个设备上并行推理来加快任务的执行速度。但云辅助可能会引入大量的传输延迟和带宽成本，在延迟和带宽约束严格的情况下不适用。边缘辅助假设边缘服务器都配备了昂贵而强大的图形处理单元(GPU)，这是不现实的。而推理加速相关的方法仅将计算任务转移，并且不会显着减少总的推理延迟，并且不可避免地带来细分任务之间的通信开销。

但在真实的边缘计算环境中，在一个区域内通常有多个边缘服务器，如果可以利用这些边缘设备的计算资源来执行CNN推理任务，则可以提高检测性能。当一个物联网设备连接到最近的边缘设备后，资源受限的物联网设备即可把待执行的CNN推理任务卸载到边缘设备上执行，当边缘设备上的资源不足以快速完成卸载的任务后，可通过和其他边缘设备间的有线网络连接把计算任务分发，从而极大减少任务完成时间。

为解决现有方案的限制，充分利用多个边缘设备的计算资源，需要找到一种在边缘计算环境中加速CNN推理任务的新颖方法。通过设计一种分区方案以拆分推理任务，以最大程度地减少层中的通信开销，并以最佳方式将推理子任务分派给多个边缘设备以进行并行推理。实现基于边缘设备的运行时能力在各个边缘设备之间进行细粒度的负载平衡，消除计算和网络传输的重叠以提高资源利用率，适用于现有的任意CNN模型，并且不会降低精度。

发明内容

本发明的目的在于克服现有技术方案的不足，本发明实现了一个多边缘设备辅助的通用CNN推理加速系统，该系统可以通过全局最优的任务分解和任务调度，通过利用多个边缘设备的计算资源来实现高计算量CNN推理任务的快速执行。

为了克服现有技术的不足，本发明采用如下技术方案予以实施：

1、一种多边缘设备辅助的通用CNN推理加速系统，包括如下步骤：

S1、在边缘计算网络中建立有一个终端设备和至有4个边缘设备的CNN推理加速系统；

S2、选择距离终端设备最近的边缘设备作为任务卸载目的边缘设备，其余边缘设备作为协作计算目的边缘设备；

S3、任务卸载目的边缘设备确认使用一种名为“零填充空间划分”的卷积划分方案对后续的卷积计算进行并行分解；

S4、任务卸载目的边缘设备对待使用的CNN推理模型进行并行推理进入点分析，通过如下公式分析最佳进入点

(1)进入点并行推理效率计算：

其中：

从该并行推理进入点开始到推理结束的累计计算量；

从该并行推理进入点开始到推理结束的累计内存消耗；

从该并行推理进入点开始到推理结束的累计通信开销；Input_i：在该并行推理进入点的任务分发量。

S5、任务卸载目的边缘设备实时从相邻的P个协作计算边缘设备收集设备资源情况，包括：CPU资源、内存资源、GPU资源、网络资源；

S6、任务卸载目的边缘设备依据协作计算边缘设备实时资源将CNN推理任务分发到设备上进行并行推理。

进一步，CNN任务并行推理的实现过程为：

6.1、对所述步骤S4中确定的最佳并行推理进入点及之后的全部CNN推理层计算总体任务量并计算P个协作计算边缘设备上的分配任务量。计算公式如下：

S＝{S_p＝α_p×Task^total:p＝1,…,P}

其中N是需进行并行推理的CNN层数，

和

分别是第k层特征图的高度、宽度和通道数。α_p是第p个协作计算边缘设备对应的推理任务分配比例，最终可生成包含P个子任务的任务集合S。

6.2、通过如下公式确定每个协作计算边缘设备的任务分配比例：

其中：

表示子任务S_p在协作计算边缘设备E_p上的总推理时间，当P个子任务的平均推理时间以及他们的推理时间方差最小，即可保证任务Task^tatal是在最短时间内完成。求解该最优化问题即可获得各设备上的最佳任务分配比例。

有益效果

1、本发明可以根据边缘计算环境中各设备的资源情况来最优化辅助终端设备完成CNN推理任务；

2、本发明可以极大的提高CNN任务的推理速度；

3、本发明可以显著减少单个边缘设备在执行CNN推理时的资源占用，实现各边缘设备间的负载均衡。

附图说明

图1为本发明系统模型流程图。

图2为本发明中“零填充空间划分”示意图。

具体实施方式

下面结合附图对本发明作出详细说明：

本发明实现了一个多边缘设备辅助的通用CNN推理加速系统，该系统可以通过全局最优的任务分解和任务调度，通过利用多个边缘设备的计算资源来实现高计算量CNN推理任务的快速执行。该系统

1)实现多边缘设备辅助的通用CNN推理加速系统

1.1)系统架构模型

系统架构模型如图1所示。从顶层上看，该系统具有通过无线链路连接的三个部分：IoT设备上的图像捕获系统，任务卸载目的边缘设备上的并行子任务生成和分发系统以及协作计算边缘设备上的目标检测系统。

S3、任务卸载目的边缘设备采用“零填充空间划分”的卷积划分方案对后续的卷积计算进行并行分解以获得特征提取；

S4、任务卸载目的边缘设备对CNN推理模型进行并行推理进入点分析，通过如下公式分析最佳并行进入点

(1)进入点并行推理效率计算：

其中：

从该并行推理进入点开始到推理结束的累计计算量；

从该并行推理进入点开始到推理结束的累计内存消耗；

S6、任务卸载目的边缘设备依据协作计算边缘设备实时资源将CNN推理任务分发到设备上进行并行推理。即任务卸载目的边缘设备依据协作计算边缘设备实时资源状况生成最优协作计算子任务；并分发协作计算子任务给给协作计算边缘设备运行CNN并行推理计算，将其结果合并。

当IoT捕获的图像被卸载到任务卸载目的边缘设备，边缘设备便开始使用本地部署的特征提取网络为该图像生成特征数据并输入到并行子任务生成模块。并行子任务生成模块使用改进的空间划分方案和一种子任务生成算法，以降低任务划分的复杂性。改进的空间分区方案能够以简单有效的方式对任务进行分割，还可以完全消除了一个片及其相邻片之间的依赖性，从而显着减少了子任务分配的通信开销。

子任务调度算法通过全面感知周边设备的可用资源来确定最佳子任务分配比例，并指导子任务的生成。通过有线网络传输将所有生成的子任务分派到协作计算边缘设备。该模块的关键功能是最优化模型，通过建立子任务分配比率与子任务执行延迟之间的数学关系，优化目标是使每个子任务执行延迟的均值和方差最小，并通过数学方法解决问题，实现最佳子任务调度。

当子任务到达协作计算边缘设备，设备上部署的分类和回归模块就几乎同时开始运行CNN推理。推理结果通常包含一些表示对象位置和分类置信度的浮点数据，因此在边缘服务器之间传输检测结果的通信成本极小。得益于子任务调度算法的准确性，本发明确保每个部分的检测结果到任务卸载边缘设备。最后一步是结果合并。此步骤的目的是进一步消除检测结果之间的重叠，以减少最终发送到IoT设备的数据量。

1.2)问题建模

在建立子任务最优化调度的优化模型前，需要先定义子任务在边缘设备上执行的相关延时。

子任务传输延时,

是传输子任务S_p到边缘设备E_p的网络带宽占用：

子任务计算延时，

是子任务S_p的真实计算量，

是子任务S_p在边缘设备E_p上占用的计算资源：

子任务内存占用，

是子任务S_p的内存占用：

子任务总执行延时：

最优化调度的目标是最小化各子任务的平均执行延时和执行延时方差，如下表示：

subject to:

p∈{1,…,P}(1)

α_p∈[0，1](2)

约束条件(1)确保将整个任务分解为P个子任务；约束条件(2)和(3)保证将每个子任务划分为总任务的一部分，并且子任务的总和等于总任务；约束条件(4)(5)(6)确保调度和执行过程中子任务的资源消耗不会超过边缘设备E_p上的可用资源。

2)解决非最优并行推理问题

本发明中新并行效率(PE)表示将CNN中的某个层作为并行起始点对整体CNN并行推理延迟的影响。PE的公式如下：

分区点越靠近CNN模型的前端，在并行推理期间累积的计算和内存量就越大，因此在多个边缘服务器上运行模型推理时获得的并行增益就越大。但同时在并行推理期间累积的通信量也越大。较大的通信数据量将增加边缘设备之间的网络传输开销。如果分区点所在的CNN层的输出数据量很大，则在该层之后进入并行推理时，初始任务调度延迟也将很大。通过四项参数的调节，可以分析确定每个CNN层的推理效率，实现最优并行推理。

3)解决子任务划分自由度低的问题

为了解决划分自由度低的问题，本发明采用“零填充空间划分”的卷积划分方案。该方案如图2所示，忽略两个卷积切片边缘处的特征数据，则可以避免额外的数据传输，但是CNN推理精度仅会受到不足5％的轻微影响。同时该方案可以把卷积划分为任意多个切片并在最大程度地保持特征图的完整性，并避免由于数据块太多而增加计算错误。

4)解决CNN推理延时的精准估计问题

确定CNN推理中任务大小与真实计算量之间的关系。如下公式：

可以确定给定规模的任务对应的理论计算量。但在实际的硬件平台上测量CNN推理的的运行时间时，该公式变得不可行。模型的最终运行速度不仅与计算量有关，而且与诸如内存带宽，GPU管道和Cache之类的因素有很大关系。我们在GPU平台上构建了理论计算量和真实计算量之间的回归方程，如下：

β是一组和CNN推理模型相关的系数，该回归方程在多种模型下的平均精度误差小于4％。

多边缘设备辅助的通用CNN推理加速系统的真实实验按图1所示流程构建，发明的实际应用操作步骤如下：

1)本发明应用在一个测试平台上实现了所提出的系统。本发明使用手机作为物联网设备，并使用2个Nvidia Jetson AGX Xavier和2个Nvidia Jetson TX2开发板来模拟边缘设备。手机通过WiFi(5GHz)连接到边缘设备，并且边缘设备通过1Gbps以太网电缆相互连接。Jetson TX2和Xavier都运行JetPack 4.4，其中包括用于深度学习，计算机视觉，加速计算和多媒体的CUDA-X加速库和API；

2)本发明在手机上实现了IoT方面的功能，并通过设备上的摄像头连续捕获场景的视频帧，然后将帧卸载到主边缘设备；

3)边缘端实现包括五个主要模块：特征提取，并行子任务生成，子任务分派，分类和回归以及结果合并。它们在五个独立的进程中运行，以避免彼此阻塞。特征提取和分类回归模块使用PyTorch1.6实现，其他三个模块是用Python 3.6编写的；

4)本发明在COCO 2017训练数据集上训练了FasterR-CNN，SSD和YOLO模型。经过训练，本发明获得了三个网络权重文件，以满足不同精度和速度下运行的目标检测要求；

5)对于可重复的实验，本发明使用COCO 2017验证数据集作为输入来评估以下所有实验。因为该数据集中的图像通常包含带有多个目标的复杂场景；

6)整个实验严格遵循图所示的相同工作流程，并且实时运行，而无需在每个图像上进行任何额外的预处理；

7)广泛的实验表明，该系统可在多个CNN推理模型中将推理延时至少减少40.98％，并且推理结果精度下降不到5％。