CN116166444B

CN116166444B - 一种面向深度学习分层模型的协同推理方法

Info

Publication number: CN116166444B
Application number: CN202310459836.7A
Authority: CN
Inventors: 郭永安; 奚城科; 周金粮; 王宇翱; 钱琪杰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-04
Anticipated expiration: 2043-04-26
Also published as: CN116166444A

Abstract

本发明属于端边协同计算领域，公开了一种面向深度学习分层模型的协同推理方法，对深度学习分层模型采取逐层分割的方案，通过边缘计算节点处理速度这一状态信息，只需做一次统一决策，即可为节点匹配计算量合适的不同层推理子任务；还使用网络遥测技术感知节点间网络状态，当出现阻塞问题时即刻对上述整体决策做出相应调整；既降低了决策复杂度，又降低推理时延的同时，同时还提高了边缘节点的资源利用率，保证资源的合理分配。

Description

一种面向深度学习分层模型的协同推理方法

技术领域

本发明属于端边协同计算领域，具体涉及一种面向深度学习分层模型的协同推理方法。

背景技术

现如今，随着基于深度神经网络DNN的智能应用得到广泛使用，存在大量计算密集型或延迟敏感型任务。由于网络带宽限制和动态环境的不确定性问题，传统的云端处理方式难以满足用户对时延提出的高要求，且数据的安全性难以保证。而随着边缘计算和5G技术的发展，为深度学习分层模型在边缘侧推理提供可能。

通常情况下，深度学习模型计算任务量较大，由单一边缘计算节点处理往往会因其计算能力有限，无法满足低时延的要求；为此，人们根据深度学习模型分层的特性提出了一种分层卸载方法，即将深度学习模型分割为前后两个部分，分别卸载至端设备、边缘节点或云端处理。不过根据其最优节点原则，任务往往被卸载至某一或某几个计算能力较高的节点处理，随着推理任务的增多，节点的负载过大。相反，某些计算能力一般的节点往往不参与计算，这就大量计算资源空闲，没有得到充分利用。

对此，现有技术中存在新的多层分割方式的研究，如专利申请CN115562760A，公开了基于边缘计算节点打分表的深度学习模型分层卸载方法，其中决策依据的是由节点信息和模型数据生成的打分表，在降低时延的同时保证了计算资源的充分利用；但该专利申请也存在一些不足，首先，在大大的边缘集群场景下，打分表的数据显得过于庞大，且每层任务处理完需要做一次决策，决策时延较高；其次，其并未考虑到节点间网络拥塞的问题，无法克服拥塞带来的影响。

发明内容

为解决上述技术问题，本发明提供了一种面向深度学习分层模型的协同推理方法，对深度学习分层模型采取逐层分割的方案，通过边缘计算节点处理速度这一状态信息，只需做一次统一决策，即可为节点匹配计算量合适的不同层推理子任务；还使用网络遥测技术感知节点间网络状态，当出现阻塞问题时即刻对上述整体决策做出相应调整。

本发明所述的一种面向深度学习分层模型的协同推理方法，包括以下步骤为：

步骤1、对边缘集群中的各边缘计算节点及深度学习模型的离线数据进行统计并预处理，将预处理后的数据通过中心节点

转发至各个边缘计算节点内；

步骤2、终端设备将其接收到的推理任务转发至中心节点

，中心节点/>

作出整体决策，并将决策信息转发给相应的边缘计算节点执行；

步骤3、中心节点

在每次转发给相应的边缘计算节点前判断该节点是否可执行；若为是，则进行任务；若为否，则向上轮询查找更高级别的可行节点进行处理；

步骤4、所有任务完成后将最终计算结果回传至终端设备。

进一步的，边缘集群中的距离终端设备最近的边缘计算节点

为中心节点，步骤1为前期准备工作阶段，包括边缘计算节点离线统计阶段、各层计算量离线统计阶段、排序阶段和离线数据下发阶段；

边缘计算节点离线统计阶段，统计出各个边缘计算节点的处理速度并归一化；

各层计算量离线统计阶段，统计各类参与推理的深度学习模型的每层计算任务大小情况；

排序阶段，对归一化后的节点处理速度和分层模型各层计算量大小由大到小依次向下排列；

离线数据下发阶段，对以上获得的离线数据下发至边缘集群中各个边缘计算节点处。

进一步的，边缘计算节点离线统计阶段，统计边缘集群中所有边缘计算节点处理某项计算量大小已知任务所需时间，任务大小选取时需保证任一节点处理时间不低于一秒；具体公式为：

，

其中，

表示边缘计算节点/>

的处理速度，单位是M/s；/>

表示所需处理的某项任务的计算量大小，单位是M；/>

表示边缘计算节点/>

处理该项任务所需时间；/>

表示最快处理速度，/>

表示最慢处理速度；

对每个边缘计算节点的处理速度进行归一化处理，归一化处理速度

的数值范围为/>

，归一化公式如下：

。

进一步的，各层计算量离线统计阶段，将要参与推理的深度学习模型通过距离终端最近的边缘计算节点

，统计/>

计算每层深度学习模型时延/>

；/>

表示深度学习模型第/>

层推理任务，深度学习模型总层数记为/>

，/>

，则第/>

层所需计算时延为/>

；其中最高时延用/>

表示，最低时延用/>

表示；由于深度学习模型第/>

层推理任务计算量的大小/>

与通过第/>

层计算时延/>

成正相关，因此对计算时延归一化得到的数值即表示其计算量的大小；归一化计算量大小/>

，/>

，归一化公式如下：

。

进一步的，排序阶段将得到的边缘计算节点处理速度的归一化数值和深度学习模型推理的各层计算量大小的归一化数值按照从大到小的顺序进行排序。

进一步的，离线数据下发阶段将其他阶段获得的数据，通过中心节点

下发至边缘集群中各个边缘计算节点处，为边缘计算节点决策和策略实时调整提供依据。

进一步的，所述深度学习模型为m层结构，以隐藏层各单独阵列的神经元为切割点进行分层卸载；从左至右分层卸载时，第i列、第i+1列神经元和两列神经元间的网络结构，称为深度学习模型的第i层；

。

进一步的，中心节点

将决策信息发送至第一个要处理的节点中处理第一层任务，当第一个结点处理完成之后转发至下一节点处理下一层任务，然后依次执行；

在每次执行前，中心节点

首先判断节点间网络是否阻塞或者下一节点的进程数量是否已满；如果出现以上两种情况的任意一种，则将阻塞信息告知中心节点/>

，由中心节点/>

查找是否有空闲的网络顺畅的更高处理能力的节点，直到找到存在可行的节点，并做出决策调整，由该可行节点处理下一层任务。

本发明所述的有益效果为：

1）本方法在离线获取边缘集群中各边缘计算节点处理速度参数的前提下展开，可提取每个计算节点的处理速度综合分数并做归一化处理，然后按从大到小顺序向下排列，最后将数据下发至边缘集群中各个边缘计算节点处；其为后续的分层卸载决策提供依据，还可以保证分层卸载至各个节点的负载均衡，更为合理；

2）本方法同时在离线统计深度学习分层模型各层计算量大小的前提下展开，通过统计参与推理的深度学习模型每一层计算量的大小情况并对其归一化处理，然后按从大到小顺序向下排列，最后将数据下发至边缘集群中各个边缘节点处；从而合理的分配给处理速度大小相当的边缘计算节点，提高边缘集群中节点的资源利用率、降低计算时延；

3）不同于二进制卸载或单一分割点部分卸载的深度学习模型推理方法，本方法将深度学习模型分多层卸载至不同的边缘计算节点，为了防止每层任务完成后再作下一层的决策，避开决策复杂度高的问题，本发明由中心节点负责作出整体决策，充分挖掘边缘侧的计算潜力，同时降低了决策复杂度，实现计算任务时延和决策时延最小化；

4）本发明将深度学习模型推理任务分层卸载至终端设备对应边缘集群的边缘计算节点上，端边协同推理的方式可有效保证计算数据的安全性和缓解网络带宽的压力，同时提高边缘集群中节点资源利用率；

5）本方法考虑到节点间网络阻塞问题，采用网络遥测技术实时监测即将传输数据的两节点间网络状况，一旦前方发生堵塞便立即调整到网络状况良好且处理速度更快的边缘节点处理，避免了网络拥塞导致任务无法及时处理的问题。

附图说明

图1为本发明前期准备流程图；

图2为本发明的技术原理图；

图3为本发明的一般流程图；

图4为本发明的部分推理任务示意图；

图5为本发明决策实时调整流程图；

图6为本发明的整体流程图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图6所示，本发明所述的一种面向深度学习分层模型的协同推理方法，包括以下步骤：

转发至各个边缘计算节点内；

步骤2、终端设备将其接收到的推理任务转发至中心节点

，中心节点/>

步骤3、中心节点

步骤4、所有任务完成后将最终计算结果回传至终端设备。

如图1所示，本发明前期准备工作包括以下四个阶段：1.边缘计算节点离线统计阶段：统计出各个节点的处理速度并归一化；2.各层计算量离线统计阶段：统计各类参与推理的深度学习模型的每层计算任务大小情况；3.排序阶段：对归一化后的节点处理速度和分层模型各层计算量大小由大到小依次向下排列；4.离线数据下发：以上获得的数据下发至边缘集群中各个边缘计算节点处。（前期准备阶段的主要工作由边缘集群中的距离终端最近的边缘计算节点

即中心节点计算并处理）。

边缘计算节点离线统计阶段：该阶段进行离线测试，边缘集群中所有的边缘计算节点处理某项计算量大小已知的任务，统计节点处理该项任务所需时间；具体公式如下：（需要声明的是：任务大小选取时需保证任一节点处理时间不低于一秒）

，

其中，

表示第i个边缘计算节点/>

的处理速度，处理速度单位是M/s；其中/>

表示所需处理的某项任务的计算量大小，计算量单位是M；/>

表示边缘计算节点/>

处理该项任务所需时间，其中处理素的最快用/>

表示，最慢用/>

表示；

随后对每个边缘计算节点的处理速度进行归一化处理，由节点的处理速度减去最慢的处理速度然后除以最大和最小处理速度之差的绝对值，具体的归一化处理速度

的数值范围为/>

，归一化公式如下：

。

各层计算量离线统计阶段：同样是离线测试阶段，该阶段将要参与推理的深度学习模型通过距离终端最近的边缘计算节点

，统计/>

计算每层深度学习模型时延/>

；用/>

表示深度学习模型第/>

层推理任务，深度学习模型总层数记为/>

（/>

），则第/>

层所需计算时延为/>

；其中最高时延用/>

表示，最低时延用/>

表示。由于深度学习模型第/>

层推理任务计算量的大小/>

与通过第/>

层计算时延/>

成正相关，因此对计算时延归一化得到的数值即可表示其计算量的大小，具体的归一化计算量大小/>

的数值范围为/>

，归一化公式如下：

。

排序阶段：本发明对上述离线测试得到的边缘计算节点处理速度的归一化数值和深度学习模型推理的各层计算量大小的归一化数值进行排序，如表1所示：

表1

，

表1为离线统计边缘节点和各层计算量并排序的部分示例，按照从大到小的顺序排列即可。

离线数据下发阶段：以上获得的数据，包括统计到的边缘计算节点归一化数值和分层模型计算量大小的归一化数值，以及它们排序之后的情况，通过边缘计算中心节点

本发明采用的网络结构如图2所示，边缘集群内包含多个边缘服务器，各边缘服务器部署在基站或是WIFI接入点中，且满足单个集群内任意一个边缘计算节点与各物理终端的通信范围保持在一定范围内，尽可能保证数据传输的稳定性和及时性。

针对边缘集群中的边缘计算节点，都在一定的通信范围内，互相之间通过传输链路通信，能保证通信的即时性，一个边缘集群中边缘计算节点的总数记为n（

）。

同一局域网内存在多个物理终端和多个边缘计算节点，且距离终端最近的边缘计算节点作为中心节点

，与此中心节点/>

物理距离小于x千米的其他边缘计算节点一起组成边缘集群层；多个物理终端位于边缘集群层之下，组成终端设备层。

边缘计算节点上部署有数据中心、决策中心和深度学习模型。

数据中心：下设节点数据模块、深度学习模型数据模块和网络遥测模块；首先是节点数据模块，集群内的各边缘计算节点在离线统计阶段对各自的处理速度进行统计并传输至中心节点

，随后由中心节点/>

的归一化数据模块对数据归一化处理并排序，并储存在本地。此外各节点实时发送当前剩余进程数至中心节点/>

，为后续决策调整提供依据。其次是深度学习模型数据模块，中心节点/>

在离线阶段对不同类型深度学习模型进行处理，并统计出同一类型深度学习模型的每一层计算任务所需时间，然后通过对计算时延的归一化处理，得到每层任务计算量大小，按照从大到小依次向下的顺序排列，最后将数据储存在本地即可。最后是网络遥测模块，利用网络遥测技术，每个边缘计算节点每隔1毫秒对本节点至其余节点的网络状态进行实时监测，一旦监测到网络拥塞状况，立即将拥塞路径上传至中心节点的决策中心的决策调整模块。

决策中心：下设决策模块、决策收发模块和决策调整模块。

首先是决策模块，中心节点

根据数据中心离线统计到的集群内边缘计算节点处理速度和各层模型计算量大小,统一决策，为每层模型分配至处理能力合适的边缘计算节点。其次是决策收发模块，用于完成接收和发送决策的任务。最后是决策调整模块，当前层任务处理完之后需要将结果下发至下一节点处理下一层任务，在这之前中心节点/>

的决策调整模块将根据下一层节点的剩余进程数和两节点间的网络状况决定是否调整决策，一旦出现剩余进程数不足或网络拥塞问题，则立即调整下一层任务的目标节点。

深度学习模型：已经训练完备并赋予智能应用程序的算法模型。

如图3所示，前期准备工作完成之后，就可以按顺序对深度学习模型进行任务卸载计算，需要声明的是，同一个边缘集群内的边缘计算节点中的深度学习模型的数据信息都是共享的。

当终端设备接收到深度学习模型推理任务时，终端设备将任务装载至中心节点

决策中心的决策模块中，中心节点/>

的决策模块根据深度学习模型数据模块的各层模型计算量归一化值/>

选取数据中心的节点数据模块中的节点处理速度归一化值/>

最接近/>

且不小于/>

的节点。当决策模块决策好模型各层分配情况之后将决策分发至处理第一层任务的第一个节点处。此处需要声明的是，首先该次决策为统一决策，后续无需再由其余节点做决策任务；其次由于深度学习模型的特性，下一层任务处理之前需要上一层任务的结果作为此分层任务的输入，因此需要按顺序分配每层任务至下一节点，这也给中心节点/>

的决策调整提供了可能。在当前层任务处理完，同时即将把处理结果传输至下一节点处理之前，中心节点/>

的决策调整模块将依据涉及到的节点状态信息，包括下一节点剩余进程数以及两节点间的网络是否阻塞为标准决定是否采取相应的决策调整方案。

以图4中的深度学习模型分层计算的部分任务为例，其中第

层推理任务由边缘计算节点/>

处理，整体决策方案中下一层任务，即第j+1层，由边缘计算节点/>

处理。当第/>

层任务处理完之后，需要将处理结果传输至下一节点/>

处理，不过在此之前，/>

节点将监测其到/>

节点的网络状况N是否阻塞，一旦出现网络阻塞问题则立即将结果上传至中心节点

的数据中心，节点/>

到/>

的网络状况是否阻塞表示为：

；

需要声明的是，此处网络状况的检测方法为网络遥测技术，可以实现每个一毫米检测一次当前网络状况，而中心节点

默认网络状况良好，直到当前检测到的网络状况和上一秒状况不同时才会将当前网络状况信息上传至中心节点/>

。

此外，在传输处理结果至下一节点

处理前还需监测/>

节点的剩余进程数，一旦剩余进程数小于等于0时，立即将结果上传至中心节点/>

的数据中心。/>

表示边缘计算节点/>

的剩余进程数，/>

表示进程数有无，当剩余进程数小于等于0时/>

，当剩余进程数大于等于1时/>

；即第a个节点剩余进程数的有无/>

表示为：

；

默认状态下中心节点

的数据中心节点进程信息为/>

；直到/>

时，立即将进程数据上传至中心节点/>

。当/>

数值再次发生变化时，才将节点/>

的进程信息更新。此外，一旦对于任意边缘节点，一旦有新的任务进来，即将进程数加一，反之如果有任务结束处理即进程数加一。

也就是说，需要做出决策调整的触发条件为：当

到/>

节点间的网络出现堵塞或

节点进程数为0的时候。是否决策调整用符号/>

表示，/>

表示节点/>

处理完当前层任务至下一节点/>

前是否需决策调整，具体公式如下：

；

当

时，表示需要做出决策调整；反之，当/>

时，则不需要做出决策调整，按照原定的策略计算下一任任务。若需要调整策略，则根据中心节点/>

的数据中心内节点处理能力排序表调整，以/>

为例，向上依次查找处理速度比/>

节点快的其他节点；若找到一个节点/>

满足/>

（/>

表示x节点进程数是否剩余，/>

表示a到x节点间的网络是否阻塞），则将下一层任务处理位置从/>

节点调整为/>

节点；若未找到该节点/>

，则重新返回到/>

节点向上查找，直到出现合适的节点并卸载至该节点为止；具体如图5所示。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种面向深度学习分层模型的协同推理方法，其特征在于，所述方法包括以下步骤：

转发至各个边缘计算节点内；

边缘集群中的距离终端设备最近的边缘节点

为中心节点，步骤1为前期准备工作阶段，包括边缘节点离线统计阶段、各层计算量离线统计阶段、排序阶段和离线数据下发阶段；

离线数据下发阶段，对以上获得的离线数据下发至边缘集群中各个边缘节点处；

步骤2、终端设备将其接收到的推理任务转发至中心节点

，中心节点/>

步骤3、中心节点

根据统计到的集群内边缘计算节点处理速度和各层模型计算量大小，统一决策，为每层模型分配处理能力合适的边缘计算节点；

中心节点

在每次执行前，中心节点

，由中心节点/>

查找是否有空闲的网络顺畅的更高处理能力的节点，直到找到存在可行的节点，并做出决策调整，由该可行节点处理下一层任务；

步骤4、所有任务完成后将最终计算结果回传至终端设备。

2.根据权利要求1所述的一种面向深度学习分层模型的协同推理方法，其特征在于，边缘节点离线统计阶段，统计边缘集群中所有边缘计算节点处理某项计算量大小已知任务所需时间，任务大小选取时需保证任一节点处理时间不低于一秒；具体公式为：

，

其中，

表示边缘计算节点/>

的处理速度，单位是M/s；/>

表示所需处理的某项任务的计算量大小，单位是M；/>

表示边缘计算节点/>

处理某项任务所需时间；/>

表示最快处理速度，/>

表示最慢处理速度；

的数值范围为

，归一化公式如下：

。

3.根据权利要求2所述的一种面向深度学习分层模型的协同推理方法，其特征在于，各层计算量离线统计阶段，将要参与推理的深度学习模型通过距离终端最近的边缘节点

，统计/>

计算每层深度学习模型时延/>

；/>

表示深度学习模型第/>

层推理任务，深度学习模型总层数记为/>

，/>

，则第/>

层所需计算时延为/>

；其中最高时延用/>

表示，最低时延用/>

表示；由于深度学习模型第/>

层推理任务计算量的大小/>

与通过第/>

层计算时延/>

，

，归一化公式如下：

。

4.根据权利要求3所述的一种面向深度学习分层模型的协同推理方法，其特征在于，排序阶段将得到的边缘计算节点处理速度的归一化数值和深度学习模型推理的各层计算量大小的归一化数值按照从大到小的顺序进行排序。

5.根据权利要求4所述的一种面向深度学习分层模型的协同推理方法，其特征在于，离线数据下发阶段将其他阶段获得的数据，通过边缘计算中心节点

下发至边缘集群中各个边缘节点处，为边缘节点决策和策略实时调整提供依据。

6.根据权利要求1所述的一种面向深度学习分层模型的协同推理方法，其特征在于，所述深度学习模型为m层结构，以隐藏层各单独阵列的神经元为切割点进行分层卸载；从左至右分层卸载时，第i列、第i+1列神经元和两列神经元间的网络结构，称为深度学习模型的第i层；

。