CN115034390B

CN115034390B - 一种基于云边端协同的深度学习模型推理加速方法

Info

Publication number: CN115034390B
Application number: CN202210961978.9A
Authority: CN
Inventors: 郭永安; 周金粮; 王宇翱; 钱琪杰; 孙洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-18
Anticipated expiration: 2042-08-11
Also published as: WO2024032121A1; CN115034390A

Abstract

本发明公开了一种基于云边端协同的深度学习模型推理加速方法，具体涉及一种深度学习模型分层卸载方法。该方法通过对整个深度学习模型推理过程中的计算时延、数据传输时延、数据传播时延和模型分层卸载策略生成时延进行理论建模，并以计算任务响应时延最小为优化目标，决定最优深度学习模型的分层卸载策略。相较于以物理端为主导和以云计算中心为主导的深度学习模型执行框架，本方法通过将边缘计算范式和云计算结合起来，并将深度学习模型分层卸载至不同的边缘计算节点，在满足计算精度的前提下，实现计算任务响应时延最小化。

Description

一种基于云边端协同的深度学习模型推理加速方法

技术领域

本发明属于云边端协同计算领域，具体涉及一种基于云边端协同的深度学习模型推理加速方法。

背景技术

基于深度学习模型的智能应用程序通常需要大量计算，当前可行的解决方案有两种，其一是End-only模式，即在物理端使用简单模型和轻量级深度学习模型框架执行所有计算，例如TensorFlow Lite、Caffe For Android；其二是Cloud-only模式，即将所有计算任务卸载到算力强大的云中心，以进行复杂的深度学习模型计算。但是，上述方法要么会因为只在物理端部署一个简单模型而降低识别准确率，要么会因为物理端与云之间的广域网传输链路不稳定而导致传输时延开销过大。因此，同时保证合理的延迟和识别准确率是相当困难的。

为了克服延迟和识别准确率之间的矛盾，更好的解决方案是利用边缘计算范式。然而，由于忽略了深度学习应用的特点和边缘环境的动态性，现有的用于深度学习模型推理的边缘计算执行框架和卸载机制仍然存在一些局限性。

发明内容

本发明的目的在于：通过将边缘计算范式和云计算结合起来，并将深度学习模型分层卸载至不同的边缘计算节点，在满足计算精度的前提下，实现计算任务响应时延最小化。

为实现上述目的，本发明提供如下技术方案：一种基于云边端协同的深度学习模型推理加速方法，所述云边端协同是指云服务器、与云服务器通信的至少两个边缘计算节点，以及至少一个物理终端，物理终端与边缘计算节点的通信距离小于边缘计算节点与云服务器的距离，所述方法包括如下步骤：

步骤S1、物理终端将图像数据预处理为分辨率相同、数据量相等的图像特征数据D ₁，将输入划分好的待卸载深度学习模型

的各个DNN层，将上一层输出作为下一层的输入，最终得到图像特征数据

；

步骤S2、进行离线学习阶段：基于各个边缘计算节点预设负载情况，以各个边缘计算节点上待卸载深度学习模型各个

处理图像特征数据

的过程为输入、已知的图像特征数据D _z通过各个边缘计算节点上待卸载深度学习模型的各个

对应的计算时延为输出，构建并训练获得分层计算时延预测模型CT；

同时基于云服务器预设负载情况，以云服务器上待卸载深度学习模型各个

处图像特征数据

的过程为输入、已知的云服务器上待卸载深度学习模型各个

处理图像特征数据

对应的计算时延为输出，构建并训练获得云服务器计算时延预测模型CT _c；

步骤S3、根据各个边缘计算节点的实际计算资源负载情况，由物理终端的计算任务所对应的边缘计算节点应用分层计算时延预测模型CT，以待卸载深度学习模型各个

处理图像特征数据

的过程为输入、获得图像特征数据

通过各个边缘计算节点上待卸载深度学习模型各个

对应的计算时延为输出的理论分层计算时延

；

步骤S4、基于已知的边缘计算节点局域网网络带宽情况r、以及各个边缘计算节点之间的物理距离l，计算经过当前边缘计算节点传输图像特征数据

到其他边缘计算节点所需的数据传输时延T和传播时延S；同时基于已知的云服务器网络带宽情况r _c、以及计算任务的边缘计算节点与云服务器之间的物理距离l _c，计算经过计算任务的边缘计算节点传输图像特征数据D ₁到云服务器所需的数据传输时延T _c和传播时延S _C；

步骤S5、以步骤S3获得的各个边缘计算节点理论分层计算时延

、以及步骤S4获得的数据传输时延T和传播时延S为输入，以所对应的响应时延TIME为输出，构建深度学习模型分层卸载模型如下式：

，

并以响应时延TIME最小为优化目标,获得响应时延TIME最小的深度学习模型分层卸载模型，其中t为边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间；

步骤S6、根据步骤S2获得的云服务器计算时延预测模型CT _c,以及云服务器的计算资源负载情况，应用分层计算时延预测模型CT _c，以待卸载深度学习模型各个

处理图像特征数据

的过程为输入、获得图像特征数据

通过云服务器上待卸载深度学习模型的各个

对应的计算时延为输出的理论分层计算时延

，之后按如下公式：

，

计算单独使用云服务器处理计算任务所产生的理论计算时延

，其中

为将D ₁通过DNN ₁产生的计算时延，之后按如下公式计算单独使用云服务器时处理图像特征数据D _z的响应时延TIMEc：

；

步骤S7、动态比较单独使用云服务器时的响应时延TIMEc与深度学习模型分层卸载模型响应时延最小的TIME大小，若TIME小于TIMEc，则以响应时延TIME最小对应的深度学习模型分层卸载模型为分层卸载策略，完成待计算数据以最小化响应时延为目标的卸载计算；否则以响应时延TIMEc对应的单独使用云服务器处理待计算数据为最终分层卸载策略，完成待计算数据以最小化响应时延的卸载计算；

步骤S8、基于步骤S7获得的分层卸载策略，各执行分层卸载策略的边缘计算节点收集计算任务时的计算负载情况，之后返回步骤S2。

进一步地，前述的已划分好的待卸载深度学习模型的各个DNN层按如下方法获得: 将待卸载深度学习模型的隐藏层、输入层以及输出层的所包含的神经元，以各单独成列的神经元为划分为n列，获得单独成列的神经元列，之后获得

，

n为正整数。

进一步地，前述的步骤S1具体为：

基于已分割好的待卸载深度学习模型的各个

以各个边缘计算节点上待卸载深度学习模型各个

处理图像特征数据

的过程为输入、图像特征数据

通过各个边缘计算节点上待卸载深度学习模型的各个

对应的计算时延为输出，分别构建各个边缘计算节点分层计算时延模型如下式：

；其中，

为计算资源负载情况预设CPU负载、

为计算资源负载情况预设GPU负载、

为计算资源负载情况预设缓存负载。

进一步地，前述的步骤S3中，基于已知的边缘计算节点局域网网络带宽情况r，各个边缘计算节点之间的物理距离l，按如下公式：

，

；

分别计算各个边缘计算节点传输图像特征数据

到其他边缘计算节点所需的数据传输时延T、传播时延S；其中，光速C代表电磁波在信道上的传播速率。

进一步地，前述的边缘计算节点包括深度强化网络、深度学习模型、态势感知中心、以及决策收发中心；

其中所述深度强化网络包括：

分层计算时延预测模块，用于计算理论分层计算时延

和

，以及存储分层计算时延预测模型CT和云服务器计算时延预测模型CT _c；

传输时延计算模块，用于计算数据传输时延T和传播时延S；

在线决策时延统计模块，用于计算边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间t；

在线学习模块，用于收集并传递计算任务时的实际计算负载情况和实际计算时延数据到边缘计算节点的分层计算时延预测模块；

离线样本数据存储模块，用于存储各个边缘计算节点和云服务器在预设负载情况下，图像特征数据

通过各个边缘计算节点上待卸载深度学习模型的各个

对应的计算时延，和图像特征数据

通过云服务器上待卸载深度学习模型的各个

对应的计算时延；

决策信息生成模块，用于将生成的最终分层卸载策略传递至决策收发中心；

所述态势感知中心，包括：

边缘计算节点计算能力感知模块，用于计算各个边缘计算节点的计算资源负载情况；

云服务器计算能力感知模块，用于计算云服务器的计算资源负载情况；

网络遥测模块，用于计算各个边缘计算节点的所在局域网的网络带宽情况r，且用于计算各个边缘计算节点之间的物理距离l；

所述决策收发中心用于发送、接收最终分层卸载策略。

进一步地，前述的云服务器包括深度学习模型、决策收发中心；所述深度学习模型为已训练好的深度学习模型；所述决策收发中心用于接收最终分层卸载策略。所述态势感知中心包括计算能力感知模块、网络遥测模块。

本发明采用以上技术方案，与现有技术相比具有以下有益效果：

（1）区别于以物理端为主导和以云计算中心为主导的深度学习模型执行框架，本方法通过将边缘计算范式和云计算结合起来，并将深度学习模型分层卸载至不同的边缘计算节点，充分挖掘边缘侧的计算潜力，在满足计算精度的前提下，实现计算任务响应时延最小化。

（2）通过对整个深度学习模型推理过程中的计算时延、数据传输时延、数据传播时延和模型分层卸载策略生成时延进行理论建模，并以计算任务响应时延最小为优化目标，决定最优深度学习模型的分层卸载策略，最终实现深度学习模型的推理加速。

（3）本方法在离线学习的前提下展开，进一步的，本方法可根据每次任务计算实际测量的计算资源负载情况和计算时延来实时更新分层计算时延预测模型，以优化深度学习模型分层卸载的决策过程。

（4）将深度学习模型分层卸载至边缘计算节点和云服务器等边缘计算节点上，协同推理的方式可有效保证计算数据的安全性和降低网络带宽的占用率。

附图说明

图1为本发明的技术原理图。

图2为本发明深度强化网络的模块组成示意图。

图3为本发明的深度学习模型分层卸载原理图。

图4为本发明的方法流程图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

如图1所示，基于云服务器、所述云服务器c的通信范围内至少设有两个边缘计算节点，所述边缘计算节点部署在wifi接入点或基站上，且边缘计算节点所在的局域网内至少设置一个物理终端；各边缘计算节点与其通信范围内的各物理终端之间的距离小于边缘计算节点与云服务器之间的距离；云服务器c的通信范围内任意一个边缘计算节点i，边缘计算节点i通信范围内与其物理距离小于预设距离的其他边缘计算节点总数记为N，且

，其中j为边缘计算节点i通信范围内与其距离小于预设距离的各边缘计算节点的编号，此N个边缘计算节点同边缘计算节点i一起组成边缘集群；云服务器c上部署有深度学习模型和决策收发中心；边缘计算节点上部署有深度强化网络、深度学习模型、态势感知中心和决策收发中心。

如图2所示，边缘计算节点上部署有深度强化网络，深度强化网络包括分层计算时延预测模块、传输时延计算模块、在线决策时延统计模块、在线学习模块、离线样本数据存储模块和决策信息生成模块；以最小化计算任务响应时延TIME为目标，综合考虑数据传输时延T、数据传播时延S、深度学习模型分层计算时延CT和决策时延t，寻找将深度学习模型分层卸载到各个计算节点的最优卸载策略，实现深度学习模型的快速推理。分层计算时延预测模块用于计算理论分层计算时延；传输时延计算模块用于计算数据传输时延T和传播时延S；在线决策时延统计模块用于计算边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间t；在线学习模块，用于收集并传递计算任务时的实际计算负载情况和实际计算时延数据到边缘计算节点的分层计算时延预测模块。实际计算时延指各个边缘计算节点计算任务时图像特征数据

通过各个边缘计算节点上待卸载深度学习模型各个

对应的计算时延。

离线样本数据存储模块用于存储分层计算时延预测模型CT决策信息生成模块用于将生成的最终分层卸载策略传递至决策收发中心；深度学习模型为已训练好的深度学习模型；态势感知中心包括计算能力感知模块，网络遥测模块；计算能力感知模块用于计算各个边缘计算节点的计算资源负载情况；网络遥测模块用于计算各个边缘计算节点的所在局域网的网络带宽情况r，且用于计算各个边缘计算节点之间的物理距离l；决策收发中心用于接收最终分层卸载策略。

云服务器c包括深度学习模型、决策收发中心；深度学习模型为已训练好的深度学习模型；决策收发中心用于接收最终分层卸载策略。态势感知中心包括计算能力感知模块、网络遥测模块。

如图3所示，深度学习模型为多层结构，将待卸载深度学习模型的隐藏层、输入层以及输出层的所包含的神经元，以各单独成列的神经元为划分为n列，获得单独成列的神经元列，之后获得

，

n为正整数。

如图4所示，针对云服务器c通信范围内的任意一个边缘计算节点i，假设边缘计算节点i通信范围内与其物理距离小于预设距离的其他边缘计算节点总数记为2，且I、II分别表示这2个边缘计算节点的编号，此2个边缘计算节点同边缘计算节点i一起组成边缘集群，即该边缘集群内共有3个边缘计算节点。

假设待卸载深度学习模型共有3列神经元，则其可分为2层待卸载深度学习模型（DNN ₁、DNN ₂），记

。

离线学习阶段，在各个边缘计算节点i、I、II和云服务器c自身不同的计算资源负载情况下，以通用单个图像特征数据D ₁作为输入，分别测量各个边缘计算节点进行每一层深度学习模型所需要的分层计算时延CT _iz、CT _Iz、CT _IIz和云服务器c进行每一层深度学习模型所需要的分层计算时延CT _cz。记录以上各个边缘计算节点在不同的计算资源负载情况下对应的分层计算时延于深度强化网络下的离线样本数据存储模块内。

计算资源负载包括：CPU负载

、GPU负载

和缓存负载

。

其次，基于深度强化学习技术，分层计算时延预测模块利用离线样本数据存储模块内的样本数据进行多元非线性函数拟合，得到分层计算时延预测模型：

上式表示的是在边缘集群下3个边缘计算节点中的任意一个边缘计算节点i上，当其CPU负载、GPU负载和缓存负载分别为

、

和

时，计算深度学习模型第z层（

）产生的计算时延CT _iz。训练完成的分层计算时延预测模型储存在分层计算时延预测模块内。

，

同上。

上式表示的是在边缘集群上的云服务器c上，当其CPU负载、GPU负载和缓存负载分别为

、

和

时，计算深度学习模型第z层（

）产生的计算时延CT _cz。训练完成的分层计算时延预测模型储存在各个边缘计算节点的分层计算时延预测模块内。

离线学习阶段之后，便可进行任务计算。

物理终端基于图像压缩和图像分割技术将计算任务（图像数据）预处理为分辨率相同、数据量大小相等的图像特征数据D ₁，并装载至与当前物理终端位于同一局域网内的边缘计算节点i上，边缘计算节点i的在线决策时延统计模块开始计时并将决策时延t动态发送给决策信息生成模块（决策时延t指的是边缘计算节点i从收到计算任务到生成深度学习模型分层卸载策略这段时间）；

边缘计算节点i的态势感知中心下的计算能力感知模块、云服务器c计算能力感知模块将动态感知到的边缘计算节点计算资源负载情况

和云服务器c计算资源负载情况

传递给分层计算时延预测模块；网络遥测模块将动态测算的边缘计算节点和云服务器所在区域的网络带宽情况

和物理距离

传递给传输时延计算模块；

分层计算时延预测模块结合各边缘计算节点和云服务器c的计算资源负载情况和预先储存的分层计算时延预测模型，用以预测各个边缘计算节点计算每一层深度学习模型

所需要的理论分层计算时延

)和单独使用云服务器c进行全部深度学习模型计算所需要的理论计算时延

，以上理论计算时延结果同步传递给决策信息生成模块；传输时延计算模块以输入的图像特征数据D ₁为标准，用以测算各个边缘计算节点的理论数据传输时延

和理论传播时延

，以上理论时延计算结果同步传递给决策信息生成模块：

，

以上表示的是经边缘计算节点i传输图像特征数据

到边缘计算节点I所需要的数据传输时延T _i和传播时延

，数据传输时延T _i和待传输图像特征数据

、边缘计算节点i的网络带宽

有关，传播时延

和边缘计算节点i到边缘计算节点I的信道长度（以物理距离

做估算）、电磁波在信道上的传播速率（以光速C做估算）有关：

。

同上，决策信息生成模块基于深度强化学习技术，以各个边缘计算节点处理每一层深度学习模型DNN _z所需要的理论分层计算时延

、单独使用云服务器c进行全部深度学习模型计算所需要的理论计算时延

和理论数据传输时延

、理论传播时延

为依据，以任务响应时延TIME最小为优化目标，决定最优深度学习模型的分层卸载策略（不同的分层卸载策略对应不同的任务响应时延TIME ，目标是寻找最优分层卸载策略）：

进一步的，在深度学习模型的分层卸载策略生成过程中，避免求解任务响应时延 TIME陷入过度优化过程，动态比较单独使用云服务器c时的响应时延TIMEc，即

与深度学习模型分层卸载模型响应时延最小的TIME大小，若TIME小于TIMEc，则以响应时延TIME最小对应的深度学习模型分层卸载模型为分层卸载策略，完成待计算数据以最小化响应时延为目标的卸载计算；否则以响应时延TIMEc对应的单独使用云服务器c处理待计算数据为最终分层卸载策略，完成待计算数据以最小化响应时延的卸载计算；

决策信息生成模块将生成的最优深度学习模型分层卸载策略传递至决策收发中心（分层卸载策略信息包含参与此次计算的边缘计算节点和边缘计算节点需要计算的深度学习模型层数），并经决策收发中心将策略信息发送至需要参与此次任务计算的各个边缘计算节点的决策收发中心，边缘计算节点按策略开始任务计算。任务计算结果直接发送给物理终端。

参与任务计算的各个边缘计算节点的在线学习模块收集自身进行任务计算时的计算资源负载情况（CPU负载、GPU负载和缓存负载）和实际计算时延，并传递以上所有样本数据到边缘计算节点i的分层计算时延预测模块，用以更新针对当前深度学习模型的分层计算时延预测模型，进一步的，所有边缘计算节点共享更新后的分层计算时延预测模型。

虽然本发明已以较佳实施例阐述如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。