CN112348172A

CN112348172A - 一种基于端边云架构的深度神经网络协同推理方法

Info

Publication number: CN112348172A
Application number: CN202011268445.XA
Authority: CN
Inventors: 梁松涛; 高丰; 杨涛; 施佩琦; 汪明军; 郁善金; 王晓江
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-09
Anticipated expiration: 2040-11-13
Also published as: CN112348172B

Abstract

本发明公开了一种基于端边云架构的深度神经网络协同推理方法，该方法通过端、边、云协同的方式加速端侧推理速度，将人工智能中的深度模型，根据神经网络的分层进行分割，将模型推理过程中的计算任务根据网络环境、端边云三方的资源配额及使用情况，发送到对应的端侧，完成推理的整个过程。本发明公开了模型分割的整体框架及分割计算任务所使用的算法组件及原理，通过端边云的协同，可以加速端侧的推理速度，提高业务场景的中的实时性，同时减少资源端的能耗。

Description

一种基于端边云架构的深度神经网络协同推理方法

技术领域

本发明属于深度神经网络模型加速与优化领域，尤其涉及一种基于端边云架构的深度神经网络协同推理方法。

背景技术

深度学习近几年在机器视觉、自然语言处理和大数据分析等应用中取得了巨大的成功。通过深度学习的方法，在图像分类和目标识别方面的表现优于传统的方法。然而，深度学习的高准确性是以深度学习训练和推理对计算和内存的高需求为代价的。有些训练出来的深度神经网络模型有数百万个参数，推理过程中，对输入数据需要经历数百万次的计算。高准确性和高资源消耗是深度学习的特点。在资源受限的边缘场景下，推理的延迟很可能无法满足某些业务场景对推理实时性的要求，比如无人驾驶、无人机等业务场景。

边缘计算是一种缓解云端压力，提高实时性的一种技术，可以有效的解决碎片化的边缘设备给云端带来的沉重负载和接入多样性的问题。边缘计算通过将边缘服务器部署在离应用比较近的地方来降低接入的延迟，通过异构环境下的负载均衡机制和任务调度机制解决业务对计算资源多样性的需求和横向扩展的能力。但一般情况下，边缘服务器的网络环境和资源部署无法与云端的体系相对比。所以，端边云协同的新型网络架构可以解决端业务场景的实时性和资源调度问题，满足对推理实时性的要求。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于端边云架构的深度神经网络协同推理方法。

本发明的目的是通过以下技术方案来实现的：一种基于端边云架构的深度神经网络协同推理方法，包括以下步骤：

1)将用于推理的深度神经网络模型和用于预测评估的数据集，通过下载或者分发的机制，同步到端侧、边侧和云侧；

2)端侧、边侧和云侧分别根据自己的硬件环境及数据集，进行神经网络分层时延和能耗的评估，根据对应的神经网络模型的结构，计算出每一层的数据量；

3)边侧和云侧周期性的将神经网络模型的分层时延、能耗及数据量信息汇聚到端侧，并且缓存到端侧的内存中；

4)边侧根据模型分割算法，将神经网络模型的分层分割为三个部分，即寻找到两个分割点，使得推理时，时延和能耗两个维度中的一个在统计周期内可以达到最优；

5)端侧将分割点的信息发送到边侧，再从边侧发送到云侧，完成边侧和云侧分割点的动态调整；

6)端侧根据第一个分割点，计算深度神经网络第一个分割点前的所有推理子任务，并将推理的中间结果发送到边侧；

7)边侧将从端侧发送的推理中间结果作为输入，根据神经网络分层，计算从第一个分割点到第二个分割点之间的推理子任务，并将输出的中间结果发送到云侧；

8)云侧将从边侧发送的推理中间结果作为输入，根据神经网络的分层，计算从第二个分割点到最后一层之间的推理子任务，得出最终的推理结果；

9)云侧将推理结果反馈给边缘侧；

10)边缘侧将结果反馈给端侧，结束推理。

进一步地，所述深度神经网络模型包括但不限于用于图片识别的AlexNet、VGG、GoogleNet、RestNet和用于目标检测的SSD、YOLO、R-CNN、Fast R-CNN。

进一步地，所述步骤4)中，基于网络、CPU、GPU和深度神经网络模型，采用模型分割算法获得端边云协同的分割点；所述模型分割算法采用以时延和能耗为目标的凸优化算法来实现，或者通过深度强化学习的方法来实现。

进一步地，所述模型分割算法的实现如下：记端侧的计算分层延迟为T_d＝[t_d1，t_d2，…，t_dL]，各个分层的数据量为S_d＝[s_d1，s_d2，…，s_dL]；记边缘侧的计算分层延迟为T_e＝[t_e1，t_e2，…，t_eL]，各个分层的数据量为S_e＝[s_e1，s_e2，…，s_eL]；记云侧的计算分层延迟为T_c＝[t_c1，t_c2，…，t_cL]；记端侧与边缘侧的传输带宽为W_d→e，记边缘侧到云侧的传输带宽为W_e→c；则协同推理的延迟记为T_total，将最优的协同推理延迟等同于下述最优化问题：

其中，i＝1～L表示模型的各层索引；p1为第一个分割点，p2为第二个分割点；s_dp1为端侧中p1层的数据量，s_ep2为边缘侧中p2层的数据量。

进一步地，所述模型分割算法的实现如下：记端侧的计算分层能耗为E_d＝[E_d1，E_d2，…，E_dL]，各个分层的数据量为S_d＝[s_d1，s_d2，…，s_dL]；记边缘侧的计算分层能耗为E_e＝[E_e1，E_e2，…，E_eL]，各个分层的数据量为S_e＝[s_e1，s_e2，…，s_eL]；记云侧的计算分层能耗为E_c＝[E_c1，E_c2，…，E_cL]；记端侧与边缘侧的传输带宽为W_d→e，记边缘侧到云侧的传输带宽为W_e→c；则协同推理的能耗记为E_total，将最优的协同推理能耗等同于下述最优化问题：

进一步地，端侧的设备包括且不限于手机、树莓派、无人机、端侧开发板Jetson系列。

进一步地，所述端侧、边侧、云侧采用相同的推理引擎。

进一步地，端侧除了实时推理流程外，还有一个异步线程做周期性的同步，边缘侧和云侧反馈集群及资源的状态信息给端侧，根据边缘侧和云侧的状况信息来决策是否参与到端侧的协同计算任务中。

进一步地，如果协同过程中出现异常，则将异常数据反馈给端侧，由端侧进行模型分割点的调整。

进一步地，端侧和边缘通过超时机制和重试机制判断异常原因，检测是否执行计算降级的操作；如果是因为网络波动，则进行推理任务重新启动；如果是因为故障，则进行协同计算降级；后继通过异步线程的状态同步机制决策是否进行协同计算升级；计算降级具体为：当边缘侧发生故障时，协同推理任务由端侧独立完成；当云侧发生故障时，云侧的计算任务转移到边缘侧执行。

本发明的有益效果是：本发明是一种端边云新型网络架构下深度学习的推理和边缘计算，通过协同计算的方式，完成深度神经网络模型推理任务的方法；采用了端-边-云协同计算的模式，通过对神经网络结构的评估和建模，将计算任务划分为不同的阶段，充分的利用边缘和云端服务器的强大计算能力；可解决端侧在进行深度神经网络推理过程中的延迟和能耗最优化问题；具有以下特点：

1、利用边缘服务器和云计算中心的强大计算能力，加速了深度神经网络模型推理的计算执行过程，降低了模型推理的时延和能耗。

2、协同推理的应用范围广泛，不止应用在图片分类的场景，也可以用在目标检测、图像分割、人脸识别、手势识别等业务场景。

附图说明

图1是本发明的一种基于端边云协同的神经网络模型推理流程图；

图2是本发明的一种深度神经网络分层的模型分割图。

具体实施方法

下面结合附图和实例进一步说明本发明的技术方法。

本发明一种基于端边云架构的深度神经网络协同推理方法，并将深度神经网络的推理拆分为异步的模型分割点评估阶段和实时的边端云协同推理阶段。模型的分割点评估阶段采用异步的方式，周期性的对端边云体系下的资源和网络情况进行评估分析，通过评估模型及分割算法，确认当前深度神经网络模型的2个神经网络层分割点，根据2个分割点，将神经网络切分为3个部分，标记为P1、P2、P3。P1段的模型计算任务在端侧执行，P2段的模型计算任务放到边缘侧执行，P3段的模型计算任务放到云侧执行。实时的边端云协同推理阶段，根据异步的模型评估结果，通过协同的方式分步计算并传输中间结果，并由云侧或者边缘侧计算出最后的推理结果，并反馈给端侧，完成单次的推理任务。

如图1所示，本发明具体包括以下步骤：

步骤S1：模型同步。基于如下且不局限于深度学习框架Tensorflow、Pytorch，训练得到深度神经网络模型，将同一个深度神经网络模型通过数据同步技术的下载到终端侧、边缘侧和云侧。神经网络模型也可以是预先训练好的，保存在云端的模型仓库中，终端、边缘和对应的云端从相同的位置下载相同版本的模型。所述深度神经网络模型包括但不限于用于图片识别的AlexNet、VGG、GoogleNet、RestNet和用于目标检测的SSD、YOLO、R-CNN、Fast R-CNN。所述端侧的设备包括且不限于手机、树莓派、无人机、端侧开发板Jetson系列。

步骤S2：性能评估。终端、边缘和云各自加载对应的神经网络模型，通过验证数据集进行推理，使用相同的样本数据对模型的时延和能耗进行性能预测。设待推理的神经网络模型一共有L层，通过多次的推理计算，统计每一个神经网络分层的时延和能耗。通过多次推理取平均值的方法确定的每个分层的时延[t₁,t₂,…,t_L]、能耗[E₁,E₂,…,E_L]和需要进行网络传输的分层数据量[s₁,s₂,…,s_L]。

步骤S3：评估汇聚。边缘节点和云端将各自评估的分层时延、能耗和数据量信息通过rpc或者socket通信协议共享到终端，汇聚全局的性能评估数据图。这里采用pull的方式，即终端周期性地从边缘节点和云端拉取评估信息，如果边缘节点和云侧还未评估完毕，则返回unprepared标记。如果超过一定的时延，仍然处于unprepared状态，则默认边缘侧或者云侧无法参与协同推理。

步骤S4：模型分割。如边缘侧和云侧决定参与终端的协同计算任务，则在步骤S3拉取评估信息的周期内，计算模型分割点作为模型协同推理的依据。终端侧通过深度神经网络的模型分割算法，计算出两个神经网络分层的分割点，并且在两个分割点重合的情况下，输出对应的分割层由哪个端来进行推理计算。原因是如果两个分割点重合，则无法区分除去端侧的计算任务外，剩余的计算应该由边缘节点或云端节点哪一个完成。

所述模型分割算法的实现如下：记端侧的计算分层延迟为T_d＝[t_d1，t_d2，…，t_dL]，各个分层的数据量为S_d＝[s_d1，s_d2，…，s_dL]；记边缘侧的计算分层延迟为T_e＝[t_e1，t_e2，…，t_eL]，各个分层的数据量为S_e＝[s_e1，s_e2，…，s_eL]；记云侧的计算分层延迟为T_c＝[t_c1，t_c2，…，t_cL]；记端侧与边缘侧的传输带宽为W_d→e，记边缘侧到云侧的传输带宽为W_e→c；则协同推理的延迟记为T_total：

其中，i＝1～L表示模型的各层索引；p1为第一个分割点，p2为第二个分割点；s_dp1为端侧中p1层的数据量，s_ep2为边缘侧中p2层的数据量。将最优的协同推理延迟等同于下述最优化问题：

因卷积神经网络的层次L一般不大，所以可以采用暴力求解的办法求出最优值的p1，p2。

所述模型分割算法也可以根据各个分层的能耗来进行计算，实现方式与基于分层时延的计算方式相似：记端侧的计算分层能耗为E_d＝[E_d1，E_d2，…，E_dL]，边缘侧的计算分层能耗为E_e＝[E_e1，E_e2，…，E_eL]，云侧的计算分层能耗为E_c＝[E_c1，E_c2，…，E_cL]，则协同推理的能耗记为E_total，将最优的协同推理能耗等同于下述最优化问题：

步骤S5：协同反馈。终端侧将模型分割点的信息及周期时间通过rpc或者socket发送给边缘侧，然后边缘侧将该信息转发给云侧。边缘侧和云侧在内存中记录＜mobileID+modelID＞-＞SplitPoints的key-Value信息。其中mobileID是端侧(移动端)的ID，modelID为神经网络模型的ID。SplitPoints即为分割点的信息。

步骤S6：协同推理。根据分割点依次按照终端、边缘、云的流程，同步一次的计算子任务，并且将计算的中间结果发送给下一个协同点；需要注意的是，终端、边缘端和云端需要采用相同的推理引擎，因为不同的推理引擎需要进行模型之间的转换，并且某些端侧的推理引擎对推理计算过程进行了模型的转换和优化，不同的推理引擎会导致计算上的不一致；计算任务产生出的结果可以是图片的分类信息，可以是目标检测的信息，也可以是图片分割的信息；具体为：

步骤S6.1：终端计算第一分割点前的推理任务。

步骤S6.2：终端侧将步骤S6.1计算的中间结果发送到边缘侧，边缘侧将终端侧的中间结果直接导入到对应的第一分割点，并计算从第一分割点到第二分割点间的计算任务，将边缘侧的中间结果发送到云侧。

步骤S6.3：云侧使用相同的推理框架将接收到的步骤S6.2边缘侧中间结果导入到第二个分割点，计算第二分割点之后的计算任务，完成最后的计算任务。

步骤S7：推理反馈。由参与计算的最终方将最终结果反馈给终端结束单次的推理。正常情况下由云端将推理的结果发送给边缘侧，边缘侧再反馈结果给端侧。如果协同过程中出现异常，则将异常数据反馈给终端，由终端进行模型分割点的调整。异常数据一般包括：云侧节点连接超时、边缘侧节点连接超时、边缘侧负载超过阈值及等待推理任务反馈超时等。终端对模型分割点的调整会根据具体的异常执行不同的操作：如开启重试机制、计算降级、推理任务重新启动等。

终端和边缘通过超时机制，检测是否执行计算降级的操作调整模型分割点。

当网络超过一定时间无反馈，则开启重试机制进行重试：

如果是因为网络短时间内连接超时，则进行一定时间的惩罚(停止推理)后，恢复协同推理，即推理任务重新启动。

如果重试一定次数后仍然无法连接，认为是因为故障的原因，则断开连接直接进行协同计算降级，后继通过异步线程的状态同步机制决策是否进行协同计算升级；通过计算降级的操作抵抗边缘侧或者云侧发生故障的情况具体为：当边缘侧发生故障时，端侧的协同推理直接退化到由端侧独立完成；而云侧发生故障时，云侧的计算任务的转移到边缘侧执行。后续只要网络连接正常，边缘侧和云侧负载不超过一定的阈值，就可以进行计算升级。

端侧除了实时推理流程外，还有一个异步线程做周期性的集群状态信息同步，边缘侧和云侧会周期性的反馈集群及资源的状态信息给终端侧。端侧每个固定的周期时间(如5分钟)，从边缘侧和云侧获得相应的状态信息，包括且不限于内存占用率、内存大小、cpu及gpu的个数、cpu及gpu的利用率。端侧会根据边缘侧和云侧的状况信息来决策云侧和边缘侧是否参与到协同计算任务中。如果云侧或者边缘侧出现离线、负载过高、服务终端等情况，会触发端侧的任务协同的调整过程；当云侧出现问题由端边云协同切换到端边协同的模式，当边缘侧出现问题由端边云协同切换到端侧独立完成。系统的初始阶段，需要根据端侧数量、网络的延迟等因素设定通信心跳周期时间；如果端侧对时延比较敏感，可以使用较低的反馈周期时间。

实施例：

本发明实施例的核心构思在于，利用终端、边缘和云节点的计算硬件资源的异构性，来解决终端某些应用场景下的高实时、低能耗的需求，如无人驾驶场景下，对道路的反馈需要毫秒级的决策和反应。实施例的具体效果以图2的卷积神经网络为例说明：

经过终端、边缘侧和云侧的数据集推理评估，根据图2的卷积神经网络模型，分层的数据量及网络延迟如下：

Conv1_1的数据量为3.2M，终端、边缘、云侧的计算执行时间分别为4ms,2ms,2ms；

Conv1_2的数据量为3.2M，终端、边缘、云侧的计算执行时间分别为4ms,2ms,2ms；

Pool1的数据量为800K，终端、边缘、云侧的计算执行时间分别为1ms,500us,400us；

Conv2_1的数据量为1.6M，终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms；

Conv2_2的数据量为1.6M，终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms；

Pool2的数据量为400K，终端、边缘、云侧的计算执行时间分别为800us,400us,300us；

Conv3_1的数据量为800K，终端、边缘、云侧的计算执行时间分别为6ms,3ms,2ms；

Conv3_2的数据量为800K，终端、边缘、云侧的计算执行时间分别为6ms,3ms,2ms；

Pool3的数据量为200K，终端、边缘、云侧的计算执行时间分别为600us,200us,200us；

Conv4_1的数据量为400K，终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms；

Conv4_2的数据量为400K，终端、边缘、云侧的计算执行时间分别为5ms,2ms,2ms；

Pool4的数据量为100K，终端、边缘、云侧的计算执行时间分别为700us,300us,300us；

Conv5_1的数据量为100K，终端、边缘、云侧的计算执行时间分别为3ms,1ms,800us；

Conv5_2的数据量为100K，终端、边缘、云侧的计算执行时间分别为3ms,1ms,800us；

Pool5的数据量为25K，终端、边缘、云侧的计算执行时间分别为700us,300us,200us；

FC6的数据量为4K，终端、边缘、云侧的计算执行时间分别为38ms,12ms，10ms；

FC7的数据量为4K，终端、边缘、云侧的计算执行时间分别为12ms，6ms，5ms；

FC8的数据量为1K，终端、边缘、云侧的计算执行时间分别为4ms,2ms,2ms。

经过多次测试，单独端侧的推理时间大约为100ms左右。而采用协同的方式，多次测试后发现，只需要68ms。分割点为p1＝p2＝15，即从全连接层前面的最后一层卷积开始，由终端将中间结果经过边缘侧转发到云端执行，能够得到最优的推理时延。

Claims

1.一种基于端边云架构的深度神经网络协同推理方法，其特征在于，包括以下步骤：

1)将用于推理的深度神经网络模型和用于预测评估的数据集，通过下载或者分发的机制，同步到端侧、边侧和云侧等。

2)端侧、边侧和云侧分别根据自己的硬件环境及数据集，进行神经网络分层时延和能耗的评估，根据对应的神经网络模型的结构，计算出每一层的数据量。

3)边侧和云侧周期性的将神经网络模型的分层时延、能耗及数据量信息汇聚到端侧，并且缓存到端侧的内存中。

4)边侧根据模型分割算法，将神经网络模型的分层分割为三个部分，即寻找到两个分割点，使得推理时，时延和能耗两个维度中的一个在统计周期内可以达到最优。

5)端侧将分割点的信息发送到边侧，再从边侧发送到云侧，完成边侧和云侧分割点的动态调整。

6)端侧根据第一个分割点，计算深度神经网络第一个分割点前的所有推理子任务，并将推理的中间结果发送到边侧。

7)边侧将从端侧发送的推理中间结果作为输入，根据神经网络分层，计算从第一个分割点到第二个分割点之间的推理子任务，并将输出的中间结果发送到云侧。

8)云侧将从边侧发送的推理中间结果作为输入，根据神经网络的分层，计算从第二个分割点到最后一层之间的推理子任务，得出最终的推理结果。

9)云侧将推理结果反馈给边侧。

10)边侧将结果反馈给端侧，结束推理。

2.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法，其特征在于，所述深度神经网络模型包括但不限于用于图片识别的AlexNet、VGG、GoogleNet、RestNet和用于目标检测的SSD、YOLO、R-CNN、Fast R-CNN。

3.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法，其特征在于，所述步骤4)中，基于网络、CPU、GPU和深度神经网络模型，采用模型分割算法获得端边云协同的分割点；所述模型分割算法采用以时延和能耗为目标的凸优化算法来实现，或者通过深度强化学习的方法来实现。

4.根据权利要求3所述基于端边云架构的深度神经网络协同推理方法，其特征在于，所述模型分割算法的实现如下：记端侧的计算分层延迟为T_d＝[t_d1，t_d2，…，t_dL]，各个分层的数据量为S_d＝[s_d1，s_d2，…，s_dL]；记边侧的计算分层延迟为T_e＝[t_e1，t_e2，…，t_eL]，各个分层的数据量为S_e＝[s_e1，s_e2，…，s_eL]；记云侧的计算分层延迟为T_c＝[t_c1，t_c2，…，t_cL]；记端侧与边侧的传输带宽为W_d→e，记边侧到云侧的传输带宽为W_e→c；则协同推理的延迟记为T_total，将最优的协同推理延迟等同于下述最优化问题：

其中，i＝1～L表示模型的各层索引；p1为第一个分割点，p2为第二个分割点；s_dp1为端侧中p1层的数据量，s_ep2为边侧中p2层的数据量。

5.根据权利要求3所述基于端边云架构的深度神经网络协同推理方法，其特征在于，所述模型分割算法的实现如下：记端侧的计算分层能耗为E_d＝[E_d1，E_d2，…，E_dL]，各个分层的数据量为S_d＝[s_d1，s_d2，…，s_dL]；记边侧的计算分层能耗为E_e＝[E_e1，E_e2，…，E_eL]，各个分层的数据量为S_e＝[s_e1，s_e2，…，s_eL]；记云侧的计算分层能耗为E_c＝[E_c1，E_c2，…，E_cL]；记端侧与边侧的传输带宽为W_d→e，记边侧到云侧的传输带宽为W_e→c；则协同推理的能耗记为E_total，将最优的协同推理能耗等同于下述最优化问题：

6.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法，其特征在于，端侧的设备包括且不限于手机、树莓派、无人机、端侧开发板Jetson系列。

7.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法，其特征在于，端侧、边侧、云侧采用相同的推理引擎。

8.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法，其特征在于，端侧除了实时推理流程外，还有一个异步线程做周期性的同步，边侧和云侧反馈集群及资源的状态信息给端侧，根据边侧和云侧的状况信息来决策是否参与到端侧的协同计算任务中。

9.根据权利要求1所述基于端边云架构的深度神经网络协同推理方法，其特征在于，如果协同过程中出现异常，则将异常数据反馈给端侧，由端侧进行模型分割点的调整。

10.根据权利要求9所述基于端边云架构的深度神经网络协同推理方法，其特征在于，端侧和边缘通过超时机制和重试机制判断异常原因，检测是否执行计算降级的操作；如果是因为网络波动，则进行推理任务重新启动；如果是因为故障，则进行协同计算降级；后继通过异步线程的状态同步机制决策是否进行协同计算升级；计算降级具体为：当边侧发生故障时，协同推理任务由端侧独立完成；当云侧发生故障时，云侧的计算任务转移到边侧执行。