CN112297014A

CN112297014A - 一种面向机器人的云边端架构下的深度学习模型分割方法

Info

Publication number: CN112297014A
Application number: CN202011633386.1A
Authority: CN
Inventors: 张北北; 向甜; 张鸿轩; 李特; 顾建军; 朱世强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-02-02
Anticipated expiration: 2040-12-31
Also published as: CN112297014B

Abstract

本发明提供了面向机器人的云边端架构下的深度学习模型分割方法，属于深度学习以及分布式计算领域。该方法首先将深度学习模型建模为一个有向无环图，有向无环图的节点代表深度学习模型层，节点之间的边代表深度学习模型层间的数据传输。其次，根据模型层分别在云边端上的处理时间为节点赋值，根据模型层间数据分别在云边、边端、云端之间的传输时间为节点之间的边赋值。进而，采用一个有向无环图最长距离算法对图中的节点进行分层，并逐层处理节点。对于一层中的每个节点，根据节点的输入边权重和节点权重，采用启发式策略，进行动态分割，并将分割后的深度学习模型分配给云边端计算设备，从而实现无精度损失的云边端分布式协同推理。

Description

一种面向机器人的云边端架构下的深度学习模型分割方法

技术领域

本发明涉及深度学习以及分布式计算领域，具体涉及一种面向机器人的云边端架构下的深度学习模型分割方法。

背景技术

在现代计算机应用中，深度学习模型被广泛应用于机器视觉、自然语言处理、数据挖掘等多个领域。但深度学习模型需要大量的算力，单个机器很难在规定时间内完成深度学习模型的推理过程以满足服务级别协议；此外，随着大数据时代，5G时代相继到来，计算机应用的数据量成几何级数增长，由云计算主导的云端协同框架也难以满足数据处理的需求，以致数据在终端积累，在传输过程中阻塞，在云端处理后慢回传等问题。由于边缘计算中的云边端协同计算范式使得终端算力上移，云端算力下沉，因此云边端协同计算范式逐渐被业界普遍采用。自边缘计算概念被提出以降，现代计算架构逐渐由云计算向边缘计算云边端架构迁移。

深度学习模型的云边端协同处理也逐渐成为焦点，现有的深度学习模型云边端协同处理方法主要思想是将深度学习模型分割为两个部分，并将这两部分分别放置在云边端架构中的边侧和云侧。在计算机应用接收数据后，深度学习模型的第一部分处理该数据，将处理结果发送至深度学习模型的第二部分，并由第二部分处理后生成最终结果。然而现有技术存在如下问题：

1.当前技术没有充分利用端侧的算力，仅将深度学习模型分割为两个部分，当端侧生成数据后，数据被直接上传至边侧处理，并在边侧处理后将中间结果上传给云侧处理，产生最终结果。

2.现有方法无法做到根据深度学习模型层的处理时间和数据的传输时间将深度学习模型分割为三个部分。

3.当云边端设备出现算力改变，或当网络环境发生改变，进而影响深度学习模型处理时间，云边端之间数据传输时间时，当前技术需要对整个深度学习模型进行重新分割，耗时较长。

4.最新技术所提出的算法在分割深度学习模型时需要添加大量计算辅助单元，且该算法计算时间复杂度较高，为

。

发明内容

本发明的目的在于针对现有技术的不足，提供一种面向机器人的云边端架构下的深度学习模型分割方法。

本发明的目的是通过以下技术方案来实现的：一种面向机器人的云边端架构下的深度学习模型分割方法，包括以下步骤：

步骤一，在面向机器人的云边端架构场景下，将所述深度学习模型建模为有向无环图，其中所述有向无环图的节点表示深度学习模型层，所述有向无环图的边表示深度学习模型层之间的数据传输；获取深度学习模型层分别在云服务器、边缘设备以及机器人终端的处理时间，获取深度学习模型层之间的数据分别在云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的传输时间；

步骤二，将所述深度学习模型层分别在云服务器、边缘设备以及机器人终端的处理时间作为有向无环图中表示深度学习模型层的节点权重；将所述深度学习模型层之间的数据分别在云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的传输时间作为有向无环图中表示数据传输的边权重；

步骤三，在所述深度学习模型的数据输入端添加一个输入数据层，并在有向无环图中用一个输入节点表示；通过动态规划算法求解有向无环图中各节点到输入节点的最长距离，并根据所述最长距离将有向无环图中的节点分层；

步骤四，从输入节点开始，对于节点分层的每一层依据节点权重和边权重，求解节点所属的计算位置；当求解完一层的所有节点所属的计算位置之后，对当前层的所有节点进行节点计算位置更新，获得节点的最佳计算位置；

步骤五，根据所述节点的最佳计算位置，获得所述深度学习的模型层的最佳计算位置，并根据所述深度学习的模型层的最佳计算位置将深度学习模型分割为运行在云、边、端的3部分，将上述3部分分别分发到云服务器、边缘设备、机器人终端上。

进一步地，步骤一中获取深度学习模型层分别在云服务器、边缘设备、机器人终端的处理时间是通过实际测量获得或是通过回归模型预测获得。

进一步地，步骤一中的传输时间是通过实际测量获得或是通过检测云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的网络带宽，并计算数据大小和网络带宽之间的比值获得。

进一步地，步骤四所述计算位置通过以下方法获得：

其中，

代表节点

的计算位置；

表示节点

的处理位置；

表示节点

可以选择的处理位置；

表示节点

在处理位置

的处理时间；

表示节点

的父节点组成的集合；

表示当节点

的父节点

处在

、节点

处在

时，从节点

的父节点

到节点

的数据的传输时间，通过对比深度学习模型层分别在可选择的处理位置上的处理时间，选择所述处理时间最小的处理位置，作为该模型层的计算位置。

进一步地，步骤四所述节点的最佳计算位置的方法为：对于每一层的所有节点所属的计算位置，其顺序按照端-边-云，若所述层的一个节点的子集输入同级节点的计算位置在该节点的计算位置之前，则更新该节点的子集输入同级节点的计算位置为该节点的计算位置；当该层所有节点都进行了所述更新操作之后，每个节点的计算位置即为最佳计算位置。

与现有技术相比，本发明具有如下有益效果：该方法对于机器人场景下的云边端算架构下，提供一种深度学习模型分割方法以利用云边端资源进行协同推理，提高了深度学习模型的推理速度；整个过程仅是对深度学习模型做分割操作，没有精度损失；由于本算法局部求解模型层的最佳计算位置，对于算力改变或网络环境变化导致的模型层处理时间或层间数据传输时间发生变化，本方法可以局部地调整模型层的最佳计算位置；对于当前技术在分割深度学习模型时计算冗余多、计算复杂度过高的问题，相较于最新的方法计算复杂度为

，本发明提供一种计算复杂度为

的方法。因此，本发明的分割方法具有显著提高深度学习模型推理速度，没有推理精度损失，能够局部调整模型层最佳计算位置以适应动态变化的特点。

附图说明

图1为本发明面向机器人的云边端架构下的深度学习模型分割方法流程图；

图2为有向无环图构建过程的说明图；图2（a）为Inception-v4网络的一个计算模块图，图2（b）为根据图2（a）的计算模块所建立的有向无环图模型图；

图3为子集输入同级节点的说明图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明白清楚，结合附图和实施例，对本发明进一步的详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明保护范围。

如图1所示，本发明提供了一种面向机器人的云边端架构下的深度学习模型分割方法的流程图，具体步骤如下：

步骤一，在机器人云边端架构场景下，一个监控服务器拥有深度学习模型，将所述深度学习模型建模为有向无环图，其中所述有向无环图的节点表示深度学习模型层，获取深度学习模型层分别在云服务器、边缘设备、机器人终端的处理时间，本领域技术人员可以通过实际测量获得处理时间，此时需将深度学习模型层分别部署在云服务器、边缘设备和端机器人终端，分别测量深度学习模型层的推理时间；或是通过回归模型预测获得处理时间，此时，所述回归模型需要的输入为深度学习模型层所在计算单元的CPU、GPU、内存等计算资源的描述（例如：CPU型号、计算速度等，GPU型号、计算速度等，内存型号、内存速度等），以及模型层的种类（例如：卷积层，池化层，线性整流层等）和超参数（例如：步幅、输入特征图大小、填充大小等）。所述模型层

在云侧、边侧、端侧的处理时间分别用

来表示。所述有向无环图的边表示深度学习模型层之间的数据传输，获取深度学习模型层之间的数据分别在云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的传输时间，本领域技术人员可以通过实际测量获得传输时间，需把两个深度学习模型层分别放在云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间，然后测量推理过程中数据的传输时间；或是通过检测云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的网络带宽，并计算数据大小和网络带宽之间的比值获得传输时间，所述深度学习模型层

与深度学习模型层

之间的数据分别在云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的传输时间分别用

表示。具体地，机器人连接的监控服务器拥有整个深度学习模型，该深度学习模型中的一个或几个连续的计算单元被归纳为一个深度学习模型层。监控服务器根据所述深度学习模型层和模型层之间的数据传输流向，构建一个有向无环图

，有向无环图的节点

代表深度学习模型层，有向无环图的边

代表深度学习模型层之间的数据传输。其中有向无环图中的有向边

代表着深度学习模型层

需在深度学习模型层

之前计算，且深度学习模型层

的输出为深度学习模型层

的输入；如图2（a）所示，为Inception-v4网络的一个计算模块，其中包含10个卷积层和1个池化层，所述Inception-v4网络的计算模块中，模块的Filter Concat1层连接了Conv1，Conv2，Conv3，和池化层；其中Conv1、Conv4、Conv8按顺序连接，Conv8连接两个卷积层，分别为Conv9和Conv10；Conv2连接了两个卷积层，分别为Conv5和Conv6；池化层连接了Conv7；最后Conv9、Conv10、Conv3、Conv7汇合，共同连接了Filter Concat2层。图2（b）是根据图2（a）所述计算模块所建立的有向无环图模型，其中

对应了输入Filter Concat1层，

对应了Conv1，

对应了Conv2，

对应了Conv3，

对应了池化层，

对应了Conv4，

对应了Conv5，

对应了Conv6，

对应了Conv7，

对应了Conv8，

对应了Conv9，

对应了Conv10，

对应了Filter Concat2；所述有向无环图中节点的连接关系也与所述Inception-v4网络的计算模块中的模型层连接关系对应。

步骤二，将所述深度学习模型层分别在云服务器、边缘设备、机器人终端的处理时间作为有向无环图中表示深度学习模型层的节点权重；将所述深度学习模型层之间的数据分别在云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的传输时间作为有向无环图中表示数据传输的边权重。

步骤三，在所述深度学习模型的数据输入端添加一个输入数据层，并在有向无环图中用一个输入节点表示；通过动态规划算法求解有向无环图中各节点到输入节点的最长距离，并根据所述最长距离将有向无环图中的节点分层；包括如下子步骤：

（3.1）监控服务器在所述深度学习模型的数据输入端添加一个数据输入层代表深度学习模型所处理的数据，并在有向无环图中添加一个代表所述数据输入层的输入节点，用

表示，根据输入数据在深度学习模型中的流向添加输入节点到模型节点之间的边，生成一个含有输入节点的有向无环图,用

表示。

（3.2）监控服务器从输入节点开始，使用深度优先搜索算法以任意顺序循环遍历所述有向无环图中的每个节点，在搜索进行中碰到之前遇到的节点或碰到叶节点，则终止深度优先搜索算法，以此求解所述有向无环图的拓扑排序；根据所述拓扑排序的顺序，监控服务器遍历所述有向无环图中的所有节点，并通过以下方法计算所述有向无环图中的某一节点到输入节点的最长距离

：

（3.3）监控服务器根据所求解的所述有向无环图中的节点的最长距离，将所述节点分层，具有相同最长距离的节点处在同一层，且该层编号为所述最长距离。

步骤四，从输入节点开始，对于节点分层的每一层依据节点权重和边权重，求解节点所属的计算位置，当求解完一层的所有节点所属的计算位置之后，对当前层的所有节点进行节点位置更新，获得节点的计算处理位置；包括如下子步骤：

（4.1）一般地，数据输入集中在端侧，因此，输入节点被分配到端侧；监控服务器从所述层中的第一层开始逐层为有向无环图中的节点分配最佳计算位置；对于所述有向无环图中的一个节点，根据该节点权重和该节点的父节点们与该节点之间的边的权重，获得节点所述的计算位置：

其中，

代表节点

的计算位置；

表示节点

的处理位置；

表示节点

可以选择的处理位置；

表示节点

在处理位置

的处理时间；

表示节点

的父节点组成的集合；

表示当节点

的父节点

处在

、节点

处在

时，从节点

的父节点

到节点

的数据的传输时间。节点

可以选择的位置

，取决于节点

的父节点们所处的最佳计算位置，对于位置顺序端-边-云，节点

可以选择的处理位置应和其父节点所处的最佳计算位置相同或在其父节点所处的最佳计算位置之后，值得注意的是，对于

的情况，由于在同一位置，不失一般性，因而认为传输时间为0。

（4.2）当计算过一层的所有节点的计算位置之后，监控服务器对本层所有节点的计算位置采取一个更新策略。对于处在同一层的节点z和节点b，若节点b的父节点所构成的集合

是节点

的父节点所构成的集合

的子集（即

），则节点b是节点z的子集输入同级节点，如图3所示

的父节点组成了集合

，

的父节点组成了集合

，

的父节点组成了集合

；

且

，因此

是

的子集输入同级节点，而

不是

的子集输入同级节点。针对处在同一层的节点所述更新策略描述如下，对于一层中的每一个节点，获取其计算位置。对于位置顺序端侧-边侧-云侧，若该节点的子集输入同级节点的计算位置在该节点的计算位置之前，则将该节点的子集输入同级节点的计算位置更新为该节点的计算位置。遍历所述层中所有的节点，并对每个节点都采取所述更新策略，此时所述层中的节点的计算位置即为最佳计算位置。如图3所示，假设

计算位置处在边缘设备、

计算位置处在机器人终端，即

的计算位置在边侧、

的计算位置在端侧，又根据

是

的子集输入同级节点，因此我们将

的计算位置更新为边缘设备。

（4.3）监控服务器对所述有向无环图中的每一层按层编号从小到大逐层采取所述计算位置求解和更新策略操作，直至最后一层处理完毕，并输出所述有向无环图中的所有节点的最佳位置。

步骤五，根据所述节点的最佳计算位置，获得所述深度学习的模型层的最佳计算位置，并根据所述深度学习的模型层的最佳位置将深度学习模型分割为运行在云服务器、边缘设备、机器人终端的3部分，该三部分是串联关系，即端侧的深度学习模型输出为边侧的深度学习模型输入，边侧的深度学习模型输出是云侧深度学习模型的输入。将上述3部分分别分发到云服务器、边缘设备、机器人终端上，从机器人终端侧接收数据并按端、边、云顺序进行协同推理。

通过本发明的面向机器人的云边端架构下的深度学习模型分割方法，提高了深度学习模型的推理速度且没有精度损失。

Claims

1.一种面向机器人的云边端架构下的深度学习模型分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述面向机器人的云边端架构下的深度学习模型分割方法，其特征在于，步骤一中获取深度学习模型层分别在云服务器、边缘设备、机器人终端的处理时间是通过实际测量获得或是通过回归模型预测获得。

3.根据权利要求1所述面向机器人的云边端架构下的深度学习模型分割方法，其特征在于，步骤一中的传输时间是通过实际测量获得或是通过检测云服务器和边缘设备之间、边缘设备和机器人终端之间以及云服务器和机器人终端之间的网络带宽，并计算数据大小和网络带宽之间的比值获得。

4.根据权利要求1所述面向机器人的云边端架构下的深度学习模型分割方法，其特征在于，步骤四所述计算位置通过以下方法获得：

其中，

代表节点

的计算位置；

表示节点

的处理位置；

表示节点

可以选择的处理位置；

表示节点

在处理位置

的处理时间；

表示节点

的父节点组成的集合；

表示当节点

的父节点

处在

、节点

处在

时，从节点

的父节点

到节点

5.根据权利要求1所述面向机器人的云边端架构下的深度学习模型分割方法，其特征在于，步骤四所述节点的最佳计算位置的方法为：对于每一层的所有节点所属的计算位置，其顺序按照端-边-云，若所述层的一个节点的子集输入同级节点的计算位置在该节点的计算位置之前，则更新该节点的子集输入同级节点的计算位置为该节点的计算位置；当该层所有节点都进行了所述更新操作之后，每个节点的计算位置即为最佳计算位置。