CN116886703A

CN116886703A - 一种基于优先级和强化学习的云边端协作计算卸载方法

Info

Publication number: CN116886703A
Application number: CN202310299526.3A
Authority: CN
Inventors: 刘发贵; 汤恬恬
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-10-13

Abstract

本发明公开了一种基于优先级和强化学习的云边端协作计算卸载方法。所述方法包括：建立拥有多个IoT设备、多个边缘服务器和一个云数据中心的云‑边‑端协作系统模型，包括任务依赖模型、任务优先级队列模型、通信模型和计算模型；构建任务卸载决策的优化目标及其相应的约束条件；根据任务信息计算优先级队列，使用强化学习方法获取任务卸载策略，实现云边端协作的卸载调度。本发明用以解决现有算法在云边端协作的物联网场景下不能有效获取任务卸载策略的问题，同时本发明方法能够有效的降低IoT设备的平均能耗与平均时延。

Description

一种基于优先级和强化学习的云边端协作计算卸载方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种基于优先级和强化学习的云边端协作计算卸载方法。

背景技术

随着移动通信和物联网(IoT)的快速发展，各种IoT设备数量显著增加，大量计算密集型任务迅速涌现，也对IoT设备的数据计算能力和电池寿命提出了更高的要求。然而，由于大多数IoT设备电池寿命的限制，受限的计算资源无法满足日益复杂的应用需求。目前，云计算范式和边缘计算范式都可以作为该问题的解决方案。对于计算密集型的任务而言，将任务卸载至云服务器可以减少用户设备的负担，但云端数据中心通常情况下在地理位置上远离用户设备，由此导致IoT设备和云端数据中心之间产生较高的通信延迟，这对于许多资源密集型、时延敏感型的IoT应用而言往往是不可接受的；在边缘计算中，计算资源被部署到距离设备较近的位置，如智能网关、接入点和基站等。区别于云计算，IoT设备上传的一些所需计算量较小的任务可以直接在边缘节点处理，能够显著减少通信延迟和网络的带宽需求。然而边缘服务器节点的计算能力是有限的，当大量的任务同时被卸载至边缘服务器，或IoT设备的任务需要更多计算资源时，边缘服务器将难以满足这些复杂的应用需求。

由于这些单一的云计算或边缘计算无法解决所有卸载问题，结合云计算中计算资源丰富的特点和边缘计算中通信成本低、响应时间短、网络适应性强的优势，联合考虑云和边缘计算的异构性构建云-边-端协作计算架构可以作为一种可行的解决方案，它可以提供比单独的云计算或边缘计算更好的计算性能和传输性能。在目前已有研究中，一部分工作没有考虑现实场景中任务的复杂性，在执行卸载时只将每个计算任务视为不可分割的整体，并没有考虑到计算任务之间的依赖性，例如文献“Wu H,Wolter K,Jiao P,etal.EEDTO:an energy-efficient dynamic task offloading algorithm forblockchain-enabled IoT-edge-cloud orchestrated computing[J].IEEE Internet ofThings Journal,2020,8(4):2163-2176.”。一部分工作考虑了任务之间的依赖关系，但他们的工作通常只在两层卸载架构(云-边架构或边缘端架构等)中执行，而未考虑到云-边-端协作场景，或未考虑到随机依赖关系，例如文献“An X,Fan R,Hu H,et al.Joint taskoffloading and resource allocation for IoT edge computing with sequentialtask dependency[J].IEEE Internet of Things Journal,2022.”。由于计算子任务之间通信成本的复杂性等因素，在云-边-端架构中进行卸载决策是具有挑战性的。

发明内容

针对现有技术的不足，本发明提出一种基于优先级和强化学习的云边端协作计算卸载方法。该方法考虑在三层的云-边-端协同架构下进行计算卸载策略的决策。该系统存在多个IoT设备，多个边缘服务器以及一个远程云服务器，且每个IoT设备上会执行一个由多个存在任务依赖的子任务构成的应用。在该场景下，每个子任务仅能在本地计算、卸载至边缘服务器进行计算和卸载至云服务器三者中选择其一。为了得到该场景下的计算卸载策略，我们采用了一种基于任务优先级和深度强化学习的计算卸载策略算法，目标是在动态环境下对子任务进行调度，优化所有设备的平均时延和平均能耗，以达到系统的收益最大化。

本发明的目的至少通过如下技术方案之一实现。

一种基于优先级和强化学习的云边端协作计算卸载方法，包括以下步骤：

S1、系统模型构建：建立拥有多个IoT设备、多个边缘服务器和一个云数据中心的云-边-端协作系统模型，包括任务依赖模型、任务优先级队列模型、通信模型和计算模型；

S2、问题公式化：构建任务卸载决策的优化目标及其相应的约束条件；

S3、计算卸载：根据任务信息计算优先级队列，使用强化学习方法获取任务卸载策略，实现云边端协作的卸载调度。

进一步地，步骤S1中，云-边-端协作系统模型中包括U个IoT设备、配备有N核服务器的M个边缘节点即边缘服务器，和一个远程云服务器C；每个IoT设备都有一个应用需要执行，该应用由K个相互依赖的子任务构成；每个IoT设备通过无线链路连接到该IoT设备可访问的边缘服务器，边缘服务器通过有线链路连接到远程云服务器C；

定义为第u个IoT设备上运行的应用完成的截止时间，u＝1～U，对于第u个IoT设备上运行的应用中包括的第k个子任务J_u,k，子任务属性J_u,k可写作：

其中，k表示每个子任务的索引，k的取值为1～K；ω_u,k为该运行该子任务所需的计算资源，即计算每比特任务所需要的CPU周期，ω_u,k取决于任务的计算复杂度；d_u,k为该子任务的数据大小；为该子任务完成的截止时间。

进一步地，步骤S1中，云-边-端协作系统模型中的任务依赖模型具体如下：

考虑将第u个IoT设备上运行的应用拆分为K个子任务，其任务依赖关系可以使用有向无环图DAG进行表示，即G_u＝(V_u,E_u)，其中表示为包括每一个子任务的节点集合；E_u＝{e(J_u,i,J_u,j)|J_u,i≠J_u,j}表示为任务间数据依赖的边集合，即有向边e(J_u,i,J_u,j)描述了任意两个子任务节点J_u,i和J_u,j之间的优先约束，要求子任务J_u,i的直接前驱任务J_u,j未完成时，子任务J_u,j不能开始执行；

记第u个IoT设备上运行的应用中包括的第k个子任务J_u,k的直接前驱任务集合为pre(J_u,k)，直接后继任务集合为suc(J_u,k)，终止节点为J_u,K；定义没有直接前驱任务的任务节点为起始任务节点，没有直接后继任务的任务节点为终止任务节点；起始节点可以有多个，应用可以并行执行这些任务；终止节点只能有一个，表示应用的完成节点。

为了表达任务依赖关系，定义在第u个IoT设备上运行应用的开始时间为ST_u，第u个IoT设备上运行的应用中包括的第k个子任务J_u,k可以开始执行的时刻为子任务的准备时间RT_u,k，子任务J_u,k运行结束的时刻为完成时间FT_u,k；根据任务依赖关系，可以得到子任务的准备时间RT_u,k如下：

进一步地，步骤S1中，云-边-端协作系统模型中的任务优先级队列模型具体如下：

为了保证任务依赖关系，定义最迟完成时间LCT和最迟执行时间LET；其中第u个IoT设备上运行的应用中包括的第k个子任务的最迟完成时间LCT_u,k代表该任务最迟需要在LCT时刻完成，通过下式计算：

其中，为第u个IoT设备上运行应用的截止时间，/>为第u个IoT设备上运行子任务J_u,k的截止时间，/>为子任务在采用卸载位置l时不考虑排队时间的时延；最迟完成时间LCT_u,k可以递归地从终止节点开始计算；

基于LCT_u,k，定义第u个IoT设备上运行的应用中包括的第k个子任务的最迟执行时间LET_u,k，即任务最迟应在LET_u,k时刻执行，LET_u,k表明了当前子任务的紧急程度，即该子任务的优先级顺序；LET_u,k通过下式计算：

将LET_u,k升序排列可以得到所有子任务调度的任务优先级队列Q；该优先级队列Q保证了任务依赖的子任务之间的调度顺序。

进一步地，步骤S1中，云-边-端协作系统模型中的通信模型考虑IoT设备通过无线信道上传至边缘服务器的速率，根据香农公式，可以得到第u个IoT设备卸载子任务至第m个边缘服务器的传输速率m＝1～M，具体如下：

其中，B_u,m为第u个IoT设备到第m个边缘服务器的信道带宽，为第u个IoT设备的发送功率，L_u,m为第u个IoT设备u与第m个边缘服务器之间的距离，L₀为参考距离，μ为路径损耗指数，H为路径损耗常数，σ²为加性高斯白信道噪声的方差。

进一步地，步骤S1中，云-边-端协作系统模型中的计算模型包括本地计算模型、边缘计算模型和云计算模型，具体如下：

本地计算即不进行卸载，直接在IoT设备上处理子任务；在本地计算模型中，定义为第u个IoT设备的计算能力，因此子任务J_u,k的执行时间/>表示为：

由于计算资源的限制，假设IoT设备在任意时间内只能处理一个子任务；记为子任务J_u,k在第u个IoT设备上的最早可执行时间，/>为子任务J_u,k在第u个IoT设备上的最早可用时间，则子任务J_u,k在第u个IoT设备上的最早可执行时间为：

相应的本地完成时间表示为：

每一个计算周期的能耗被定义为ε＝κf²，其中κ为能量因子，取决于芯片架构，一般取10^-27；因此本地计算相对应的能量消耗可以表示为：

在边缘计算模型中，对于卸载至边缘服务器上计算的子任务，子任务J_u,k的处理依次包括两个阶段：

iii.传输阶段，子任务从IoT设备经过无线上行链路信道发送至边缘服务器。由于信道容量有限，子任务可能需要等待信道空闲时才能够上传，且上传的数据具有一定大小，数据的传输过程也会产生时延；

iv.计算阶段，子任务上传至边缘服务器后，边缘服务器的计算资源可能被占用，此时需要在队列中等待，并在边缘服务器上完成计算；

对于传输阶段，定义AT_u,k为第u个IoT设备上运行的应用中包括的第k个子任务J_u,k的信道最早可用时间，即该时刻为信道最早空闲的时间，此时可以将任务经过无线信道发送至边缘服务器；定义EST_u,k为子任务J_u,k的最早可发送时间，即IoT设备可以将子任务J_u,k通过无线信道发送至边缘服务器的最早时间，EST_u,k取决于信道是否空闲；子任务的最早可发送时间为：

其中，为子任务J_u,k传输至第m个边缘服务器的信道最早可用时间；

定义任务最早到达时间EAT_u,k为子任务J_u,k最早到达至对应边缘服务器的时间，其计算公式如下：

其中，为子任务J_u,k从第u个IoT设备传输至第m个边缘服务器的信道传输时间，计算公式如下：

对于第二阶段，定义QT_u,k,m为子任务J_u,k在第m个边缘服务器上的等待时间，为第m个边缘服务器的第n个核的计算能力，n＝1～N；子任务J_u,k在第m个边缘服务器的第n个核上执行所需的执行时间/>如下:

相应的子任务J_u,k在第m个边缘服务器的第n核上的完成时间为：

定义第u个IoT设备空闲时的运行功率为则子任务J_u,k在第m个边缘服务器上的边缘端执行能耗/>为：

其中，为第u个IoT设备的发送功率，/>为IoT设备除了将卸载至第m个边缘服务器的子任务J_u,k上传以外的空闲时间，即包括子任务J_u,k等待信道空闲的时间、子任务J_u,k在边缘端排队的时间和子任务J_u,k在边缘端执行的时间；

在云计算模型中，IoT设备将任务上传至云端同样需要先将数据传输至边缘端，该过程会经历以下两个阶段：

iii.上传阶段，子任务从IoT设备经过无线上行链路信道发送至边缘服务器，再由边缘服务器转发至云服务器；由于信道容量有限，且上传的数据具有一定大小，数据的传输过程会产生时延；

iv.云服务器计算阶段，云服务器接收到子任务后，将立即对子任务进行计算，因此该阶段的延迟为子任务在云服务器的计算延迟；

对于边缘服务器上传至云服务器，记边缘服务器与云服务器之间的有线传输速率为R^ec，则可以得到子任务J_u,k从边缘端传输至云端的时间为：

对于第二阶段，记f^cloud为云服务器的计算能力，则子任务J_u,k在云服务器上的执行时间为：

综上，子任务J_u,k经过第m个边缘服务器上传并在云服务器端的完成时间为：

子任务J_u,k经过第m个边缘服务器上传并云服务器端进行计算的能耗可以通过下式计算：

其中，为IoT设备除了将经第m个边缘服务器中转的子任务J_u,k上传以外的空闲时间，即包括子任务J_u,k等待信道空闲的时间、子任务J_u,k由边缘端传输至云端以及子任务J_u,k在云端执行的时间。

进一步地，步骤S2中，所述任务卸载决策的优化目标及其相应的约束条件如下：

定义对于每一个子任务J_u,k，都有相应的卸载策略o_u,k，

其中，x_u,k表示本地执行，表示子任务J_u,k卸载至边缘服务器，表示子任务J_u,k由边缘服务器中转后卸载至云服务器，满足以下约束：

其中，公式(20)、公式(21)表示每次在三个卸载策略中只能选择其中一个，且若选择卸载/中转至边缘服务器，只能选择其中一个边缘服务器进行卸载/中转；

根据公式(8)、公式(14)、公式(18)得到第u个IoT设备执行应用的时延为：

T_u＝FT_u,K-ST_u#(22)

根据公式(9)、公式(15)、公式(19)得到第u个IoT设备执行应用总能耗为：

将时间序列划分为个时隙，满足/>在任一时隙τ内，假设任一任务占用的带宽大小不变；记/>为时隙τ内第u个IoT设备执行第k个子任务占用的带宽，在任一时隙τ内，所有任务占用的总带宽不超过给定的带宽上限B^max：

记为时隙τ内边缘服务器m核心的占用情况；在任一时隙τ，任何边缘服务器上同时执行的任务不超过其核心数，即任何边缘服务器上被占用的核心都不能超过其核心数量上限：

目标是在满足卸载策略的约束、任务依赖关系和资源约束关系下优化任务卸载决策，以最小化系统中所有IoT设备的平均能耗和平均时延。

进一步地，系统整体的卸载策略定义为γ＝[o_1,1,o_1,2,…,o_U,K]，该优化问题模型公式化如下：

其中，公式(20)-(21)表示每一个子任务卸载策略的约束，即每个子任务只能在本地计算、卸载至边缘计算和卸载至云端计算三者中选择其一，且选择卸载至边缘端或云端时，仅能选择其中一个边缘服务器进行卸载或中转；约束C1表示任何设备的任何子任务的执行必须在其限定的最大截止时间内完成；公式(2)表示了任务依赖关系的约束，即子任务J_u,k只有在其所有前驱任务完成时才能开始执行。公式(24)-(25)表示在任意时隙，信道占用不能超过其信道大小限制，且任何边缘服务器上运行的任务个数都不能超过其配备的核心个数。

进一步地，步骤S3中，根据任务信息计算优先级队列，使用强化学习方法获取任务卸载策略，实现云边端协作的卸载调度，具体如下：

首先根据步骤S2中的优化问题模型，确定状态空间、动作空间和奖励函数；设任务优先级队列中子任务的决策步为T＝{1,2,…,t,…,U*K}，状态空间设置为其中J_t表示决策步t时应处理的子任务的固有属性，包括每比特所需计算量、数据大小和子任务的截止时间；f表示为本地设备、边缘服务器和云服务器的计算资源集合；L_t表示决策步t时应处理的子任务对应的IoT设备与所有基站之间的距离；/>表示决策步t时信道的排队情况和剩余带宽数；/>表示决策步t时边缘服务器上排队执行的任务个数和边缘服务器上剩余资源的情况；动作空间设置为其中a_t＝0表示决策步t时应处理的子任务在本地执行，a_t∈{1,…,m,…,M}表示决策步t时应处理的子任务卸载至边缘服务器m执行，a_t∈{M+1,…,M+v,…,2M}表示决策步t时应处理的子任务经第v个边缘服务器中转后，上传至云服务器上执行；

记w_e表示能耗权重，w_d表示时延权重，奖励函数设置为：

其中，T_t,E_t分别表示在决策步t时应处理的子任务采取动作a_t之后的时延与能耗，分别表示在决策步t时应处理的子任务在采取本地计算的时延和能耗。

进一步地，对于每一个决策步t，智能体从环境中获得当前决策步t的环境状态s_t，并从动作空间A中根据策略π(a_t|s_t)选择一个动作a_t，其中策略π(a_t|s_t)是智能体得到环境状态s_t时选择动作a_t的概率；之后，环境会根据状态转移概率P(s_t+1|s_t,a_t)进入下一个状态s_t+1，并根据奖励函数R(s_t,a_t)给智能体返回一个奖励r_t；根据上述过程，智能体的一轮训练过程如下：

S3.1、重置环境，得到初始系统状态s₀，设置当前决策步t＝0，并初始化优先级队列Q；

S3.2、根据公式(3)-(4)，计算每个子任务J_u,k的LCT_u,k和LET_u,k，并将每个子任务J_u,k的LET_u,k升序排序，放入优先级队列中；

S3.3、从优先级队列Q中选择最高优先级的子任务J_u,k；

S3.4、收集当前决策步t的子任务状态和系统状态作为当前状态s_t，并从环境中得到用于屏蔽不可用动作的mask_t；

S3.5、使用mask_t计算策略π_θ并选择动作a_t；

S3.6、在环境中执行动作a_t，获得即时奖励r(s_t,a_t)和下一状态s_t+1；

S3.7、存储(s_t,a_t,r_t,s_t+1)至缓存D；

S3.8、判断优先级队列是否为空；若优先级队列为空，则根据下式计算优势

估计

执行步骤S3.9；否则，决策步t＝t+1，返回步骤S3.3；

S3.9、重复以下步骤K次：从缓存D中随机选择大小为S的小批量样本进行学习，并更新网络参数θ；

S3.10、清空缓存D，一轮训练过程结束。

与现有技术相比，本发明具有如下的优点与技术效果：

1、在建立系统模型中，考虑到在云-边-端协作架构下设备运行应用存在任务依赖关系的场景，并使用有向无环图来建模这些任务依赖关系。相比于现有技术，该方法能够在依赖关系及资源受限的条件下进行有效的调度与获取任务卸载策略。

2、在构建任务卸载决策的优化函数及其相应的约束条件中，考虑到IoT设备和多核边缘服务器的资源约束，应用的任务依赖性约束，以及物联网设备处于基站的重叠区域的情况，在优化目标上对所有IoT设备的平均能耗与平均时延进行了权衡优化。

3、本发明可以在具有任务依赖性的云-边-端协作场景中，通过基于任务优先级和深度强化学习的卸载调度算法，实现所有IoT设备的平均能耗和平均延迟最小化。

附图说明

图1为本发明具体实施中多个IoT设备、多个边缘服务器和一个远程云计算中心的云-边-端协同系统模型示意图。

图2为本发明具体实施中任务依赖模型的示意图。

图3为本发明具体实施中智能体与环境交互示意图。

图4为本发明实施例提供的基于优先级和强化学习的云边端协作计算卸载方法的收敛性分析图。

图5为本发明实施例提供的基于优先级和强化学习的云边端协作计算卸载方法在不同子任务数下平均能量消耗示意图。

图6为本发明实施例提供的基于优先级和强化学习的云边端协作计算卸载方法在不同子任务数下平均时延示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图，进行进一步的详细说明，但本发明的实施和保护不限于此。

实施例：

S1：系统模型构建：建立拥有多个IoT设备、多个边缘服务器和一个云数据中心的云-边-端协作系统模型，包括任务依赖模型、任务优先级队列模型、通信模型和计算模型；

如图1所示，步骤S1中，考虑云-边-端协同系统模型中包括U个IoT设备、配备有N核服务器的M个边缘节点，和一个远程云服务器C；每个IoT设备都有一个应用需要执行，该应用由K个相互依赖的子任务构成；每个IoT设备通过无线链路连接到该IoT设备可访问的边缘服务器，边缘服务器通过有线链路连接到远程云服务器。

对于IoT设备u上运行的应用，定义为该应用完成的截止时间，对于第u个IoT设备上运行的应用中包括的第k个子任务J_u,k，子任务属性J_u,k可写作：

其中，k表示每个子任务的索引，k的取值为1～K；ω_u,k为该运行该子任务所需的计算资源，即计算每比特任务所需要的CPU周期，它取决于任务的计算复杂度；d_u,k为该子任务的数据大小；为该子任务完成的截止时间。

所述系统模型构建中的任务依赖模型考虑将用户设备u上运行的应用拆分为K个子任务，如图2所示，其任务依赖关系可以使用有向无环图DAG进行表示，即G_u＝(V_u,E_u)，其中表示为包含每一个子任务的节点集合；E_u＝{e(J_u,i,J_u,j)|J_u,i≠J_u,j}表示为任务间数据依赖的边集合，即有向边e(J_u,i,J_u,j)描述了任意两个子任务节点J_u,i和J_u,j之间的优先约束，要求子任务J_u,i的直接前驱任务J_u,j未完成时，子任务J_u,j不能开始执行。记子任务J_u,k的直接前驱任务集合为pre(J_u,k)，直接后继任务集合为suc(J_u,k)，终止节点为J_u,K。定义没有直接前驱任务的任务节点为起始任务节点，没有直接后继任务的任务节点为终止任务节点。起始节点可以有多个，应用可以并行执行这些任务；终止节点只能有一个，表示应用的完成节点。

为了在任务优先级模型中表达任务依赖关系，定义在用户设备u上运行应用的开始时间为ST_u，子任务J_u,k可以开始执行的时刻为子任务的准备时间RT_u,k，子任务J_u,k运行结束的时刻为完成时间FT_u,k。根据任务依赖关系，可以得到子任务的准备时间RT_u,k如下：

所述系统模型构建中的任务优先级队列模型具体如下：

为了保证任务依赖关系，定义最迟完成时间LCT和最迟执行时间LET。其中最迟完成时间LCT代表该任务最迟需要在LCT时刻完成，通过下式计算：

其中为子任务在采用卸载位置l时不考虑排队时间的时延。最迟完成时间LCT可以递归地从终止节点开始计算。

基于LCT，定义最迟执行时间LET，即任务最迟应在LET时刻执行，它表明了当前子任务的紧急程度，即该子任务的优先级顺序。LET通过下式计算：

将LET_u,k升序排列可以得到所有子任务调度的任务优先级队列Q。该优先级队列Q保证了任务依赖的子任务之间的调度顺序。

进一步地，步骤S1中，所述系统模型构建中的通信模型考虑IoT设备通过无线信道上传至边缘服务器的速率，根据香农公式，可以得到设备u卸载子任务至边缘服务器m的传输速率为：

其中B_u,m为用户设备u到边缘服务器m的信道带宽，为用户设备的发送功率，L_u,m为用户设备u与边缘服务器m之间的距离，L₀为参考距离，μ为路径损耗指数，H为路径损耗常数，σ²为加性高斯白信道噪声的方差。

所述系统模型构建中的计算模型包括本地计算模型、边缘计算模型和云计算模型，具体如下：

(1)本地计算模型：本地计算即在IoT设备上处理子任务。定义为本地设备u的计算能力，因此子任务J_u,k的执行时间表示为：

由于计算资源的限制，我们假设用户设备在任意时间内只能处理一个子任务。记为子任务J_u,k在本地设备上的最早可执行时间，/>为用户设备上的最早可用时间，则本地设备最早可执行时间为：

相应的本地完成时间表示为：

每一个计算周期的能耗被定义为ε＝κf²，其中κ为能量因子，取决于芯片架构,一般取10^-27；因此本地计算相对应的能量消耗可以表示为：

(2)边缘计算模型：对于卸载至边缘服务器上计算的子任务，子任务J_u,k的处理依次包括两个阶段：

i.传输阶段，任务从IoT设备经过无线上行链路信道发送至边缘服务器。由于信道容量有限，任务可能需要等待信道空闲时才能够上传，且上传的数据具有一定大小，数据的传输过程也会产生时延；

ii.计算阶段，任务上传至边缘服务器后，边缘服务器的计算资源可能被占用，此时需要在队列中等待，并在边缘服务器上完成计算。

对于传输阶段，定义AT_u,k为第u个IoT设备上处理第k个子任务J_u,k的信道最早可用时间，即该时刻为信道最早空闲的时间，此时可以将任务经过无线信道发送至边缘服务器；定义EST_u,k为子任务的最早可发送时间，即IoT设备可以将子任务通过无线信道发送至边缘服务器的最早时间，它取决于信道是否空闲。子任务的最早可发送时间为：

其中为子任务J_u,k传输至第m个边缘服务器的信道最早可用时间。

定义任务最早到达时间EAT_u,k为任务最早到达至对应边缘服务器的时间，其计算公式如下：

其中为在信道传输的时间，计算公式如下：

对于第二阶段，定义QT_u,k,m为子任务J_u,k在边缘服务器m上的等待时间，为第m个边缘服务器的第n个核的计算能力。任务在边缘服务器m的第n个核上执行所需的执行时间如下:/>

相应的子任务的完成时间为：

定义用户设备空闲时的运行功率为则边缘端执行能耗为：

其中为第u个IoT设备的发送功率，/>为IoT设备除了将卸载至第m个边缘服务器的子任务J_u,k上传以外的空闲时间，即包括子任务J_u,k等待信道空闲的时间、子任务J_u,k在边缘端排队的时间和子任务J_u,k在边缘端执行的时间。

(3)云计算模型：IoT设备将任务上传至云端同样需要先将数据传输至边缘端，该过程会经历以下两个阶段：

i.上传阶段，子任务从IoT设备经过无线上行链路信道发送至边缘服务器，再由边缘服务器转发至云服务器。由于信道容量有限，且上传的数据具有一定大小，数据的传输过程会产生时延。

ii.云服务器计算阶段，云服务器接收到任务后，将立即对其进行计算，因此该阶段的延迟为任务在云服务器的计算延迟。

对于边缘服务器上传至云服务器，记边缘服务器与云服务器之间的有线传输速率为R^ec，则可以得到任务从边缘端传输至云端的时间为：

对于第二阶段，记为云服务器的计算能力，则子任务在云服务器上的执行时间为：

综上，任务在云服务器端的完成时间为：

云端的能耗可以通过下式计算：

其中为IoT设备除了将经第m个边缘服务器中转的子任务J_u,k上传以外的空闲时间，即包括子任务J_u,k等待信道空闲的时间、子任务J_u,k由边缘端传输至云端以及子任务J_u,k在云端执行的时间。

S2：问题公式化：构建任务卸载决策的优化函数及其相应的约束条件；

所述问题公式化中的优化目标与约束条件如下：

定义对于每一个子任务J_u,k，都有相应的卸载策略：其中x_u,k表示本地执行,/>表示卸载至边缘服务器/>表示由边缘服务器m中转后卸载至云服务器，满足以下约束：

公式(20)、公式(21)表示每次在三个卸载策略中只能选择其中一个，且若选择卸载/中转至边缘服务器，只能选择其中一个边缘服务器进行卸载/中转。

根据公式(8)、公式(14)、公式(18)得到用户u执行应用的时延为：

T_u＝FT_u,K-ST_u#(22)

根据公式(9)、公式(15)、公式(19)得到用户u执行应用总能耗为：

将时间序列划分为个时隙，满足/>在任一时隙τ内，假设任一任务占用的带宽大小不变。记/>为时隙τ内用户u执行子任务k占用的带宽，在任一时隙τ内，所有任务占用的总带宽不超过给定的带宽上限B^max：

记为时隙τ边缘服务器m核心的占用情况。在任一时隙τ，任何边缘服务器上同时执行的任务不超过其核心数，即任何边缘服务器上被占用的核心都不能超过其核心数量上限：

目标是在满足卸载策略的约束、任务依赖关系和资源约束关系下优化任务卸载决策，以最小化系统中所有用户设备的平均能耗和平均时延。系统整体的卸载策略定义为γ＝[o_1,1,o_1,2,…,o_U,K]，该优化问题公式化如下：

/>

(2),(20)-(21),(24)-(25)

S3：计算卸载：根据任务信息计算优先级队列，使用强化学习方法获取任务卸载策略，实现云边端协作的卸载调度。

如图3所示，所述的计算卸载方法具体如下：

首先根据所述优化问题模型，确定状态空间、动作空间和奖励函数。设任务优先级队列中子任务的决策步为T＝{1,2,…,t,…,U*K}，状态空间设置为其中J_t表示决策步t时应处理的子任务的固有属性，包括每比特所需计算量、数据大小和子任务的截止时间；f表示为本地设备、边缘服务器和云服务器的计算资源集合；L_u表示决策步t时应处理的子任务对应的IoT设备与所有基站之间的距离；/>表示决策步t时信道的排队情况和剩余带宽数；/>表示决策步t时边缘服务器上排队执行的任务个数和边缘服务器上剩余资源的情况；动作空间设置为其中a_t＝0表示决策步t时应处理的子任务在本地执行，a_t∈{1,…,m,…,M}表示决策步t时应处理的子任务卸载至边缘服务器m执行，a_t∈{M+1,…,M+v,…,2M}表示决策步t时应处理的子任务经第v个边缘服务器中转后，上传至云服务器上执行。记w_e表示能耗权重，w_d表示时延权重，奖励函数设置为：

其中，T_t,E_t分别表示在决策步t时应处理的子任务采取动作a_t之后的时延与能耗，分别表示在决策步t时应处理的子任务在本地计算的时延和能耗。

对于每一个决策步t，智能体从环境中获得当前的环境状态s_t，并从动作空间A中根据策略π(a_t|s_t)选择一个动作a_t，其中策略π(a_t|s_t)是智能体得到环境状态s_t时选择动作a_t的概率。之后，环境会根据状态转移概率P(s_t+1|s_t,a_t)进入下一个状态s_t+1，并根据奖励函数R(s_t,a_t)给智能体返回一个奖励r_t。根据上述过程，智能体的一轮训练过程如下：

S3.2、根据公式(3)-(4)，计算每个子任务的LCT和LET，并将每个子任务的LET升序排序，放入优先级队列中；

S3.3、从优先级队列Q中选择最高优先级的子任务；

S3.4、收集当前的子任务状态和系统状态作为当前状态s_t，并从环境中得到用于屏蔽不可用动作的mask_t；

S3.5、使用mask_t计算策略π_θ并选择动作a_t；

S3.7、存储(s_t,a_t,r_t,s_t+1)至缓存D；

S3.8、判断优先级队列是否为空；若优先级队列为空，则根据下式计算优势估计否则，决策步t＝t+1，返回步骤3.3。

S3.9、重复以下步骤K次：从缓存D中随机选择大小为S的小批量样本进行学习，并更新网络参数θ。

S3.10、清空缓存D，一轮训练过程结束。

在一个实施例中，本发明在PC机上使用Python语言进行编程仿真实现。该仿真中，IoT设备的个数为25，每一IoT设备上运行应用包含的子任务个数为15，IoT设备的计算能力随机分配1.2-1.5G cycles/s，边缘服务器的计算能力为2.6-3.0G cycles/s，云服务器的计算能力为6G cycles/s。图4为所提出的方法在训练过程中的平均奖励收敛性分析图。对于所提出的基于优先级和强化学习的云边端协作计算卸载方法，每一个回合下的平均奖励值随着智能体与系统环境的不断迭代而逐渐增加，且在600个回合左右时，平均奖励值趋于稳定。

在一个实施例中，图5和图6分别为与四种不同方案对比的平均能耗与平均时延示意图，四种方案分别为本地计算方案(OLN)、边缘端优先卸载方案(EFO)、云端优先卸载方案(CFO)和随机选择的卸载方案(RSO)。本地计算方案表示所有的计算任务都在其所在的IoT设备上执行；边缘端优先卸载方案表示计算任务优先卸载到边缘服务器上执行；云端优先卸载方案表示计算任务优先卸载到云服务器上执行；随机选择的卸载方案表示在本地、边缘服务器和云服务器三者中对每个计算任务随机生成一种卸载策略。该仿真中，IoT设备的个数为25，每一IoT设备上运行应用包含的子任务个数从5到25。从图5和图6可以看出，本发明的方案在IoT设备的平均能耗与平均时延上均低于其他四种方案，验证了本发明的可行性和高效性。

上述流程为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S1中，云-边-端协作系统模型中包括U个IoT设备、配备有N核服务器的M个边缘节点即边缘服务器，和一个远程云服务器C；每个IoT设备都有一个应用需要执行，该应用由K个相互依赖的子任务构成；每个IoT设备通过无线链路连接到该IoT设备可访问的边缘服务器，边缘服务器通过有线链路连接到远程云服务器C；

3.根据权利要求1所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S1中，云-边-端协作系统模型中的任务依赖模型具体如下：

记第u个IoT设备上运行的应用中包括的第k个子任务J_u,k的直接前驱任务集合为pre(J_u,k)，直接后继任务集合为suc(J_u,k)，终止节点为J_u,K；定义没有直接前驱任务的任务节点为起始任务节点，没有直接后继任务的任务节点为终止任务节点；起始节点可以有多个，应用可以并行执行这些任务；终止节点只能有一个，表示应用的完成节点；

。

4.根据权利要求3所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S1中，云-边-端协作系统模型中的任务优先级队列模型具体如下：

5.根据权利要求1所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S1中，云-边-端协作系统模型中的通信模型考虑IoT设备通过无线信道上传至边缘服务器的速率，根据香农公式，可以得到第u个IoT设备卸载子任务至第m个边缘服务器的传输速率具体如下：

6.根据权利要求1所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S1中，云-边-端协作系统模型中的计算模型包括本地计算模型、边缘计算模型和云计算模型，具体如下：

相应的本地完成时间表示为：

i.传输阶段，子任务从IoT设备经过无线上行链路信道发送至边缘服务器；由于信道容量有限，子任务可能需要等待信道空闲时才能够上传，且上传的数据具有一定大小，数据的传输过程也会产生时延；

ii.计算阶段，子任务上传至边缘服务器后，边缘服务器的计算资源可能被占用，此时需要在队列中等待，并在边缘服务器上完成计算；

相应的子任务J_u，k在第m个边缘服务器的第n核上的完成时间为：

i.上传阶段，子任务从IoT设备经过无线上行链路信道发送至边缘服务器，再由边缘服务器转发至云服务器；由于信道容量有限，且上传的数据具有一定大小，数据的传输过程会产生时延；

ii.云服务器计算阶段，云服务器接收到子任务后，将立即对子任务进行计算，因此该阶段的延迟为子任务在云服务器的计算延迟；

对于边缘服务器上传至云服务器，记边缘服务器与云服务器之间的有线传输速率为R^ec，则可以得到子任务J_u，k从边缘端传输至云端的时间为：

7.根据权利要求6所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S2中，所述任务卸载决策的优化目标及其相应的约束条件如下：

定义对于每一个子任务J_u,k，都有相应的卸载策略o_u,k，

其中，x_u，k表示本地执行，表示子任务J_u,k卸载至边缘服务器，/>表示子任务J_u,k由边缘服务器中转后卸载至云服务器，满足以下约束：

T_u＝FT_u,K-ST_u#(22)

8.根据权利要求7所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，系统整体的卸载策略定义为γ＝[o_1,1,o_1,2,…,o_U,K]，该优化问题模型公式化如下：

P1:

P2:

s.t.C1:

其中，公式(20)-(21)表示每一个子任务卸载策略的约束，即每个子任务只能在本地计算、卸载至边缘计算和卸载至云端计算三者中选择其一，且选择卸载至边缘端或云端时，仅能选择其中一个边缘服务器进行卸载或中转；约束C1表示任何设备的任何子任务的执行必须在其限定的最大截止时间内完成；公式(2)表示了任务依赖关系的约束，即子任务J_u,k只有在其所有前驱任务完成时才能开始执行；公式(24)-(25)表示在任意时隙，信道占用不能超过其信道大小限制，且任何边缘服务器上运行的任务个数都不能超过其配备的核心个数。

9.根据权利要求8所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，步骤S3中，根据任务信息计算优先级队列，使用强化学习方法获取任务卸载策略，实现云边端协作的卸载调度，具体如下：

记w_e表示能耗权重，w_d表示时延权重，奖励函数设置为：

10.根据权利要求9所述的一种基于优先级和强化学习的云边端协作计算卸载方法，其特征在于，对于每一个决策步t，智能体从环境中获得当前决策步t的环境状态s_t，并从动作空间A中根据策略π(a_t|s_t)选择一个动作a_t，其中策略π(a_t|s_t)是智能体得到环境状态s_t时选择动作a_t的概率；之后，环境会根据状态转移概率P(s_t+1|s_t,a_t)进入下一个状态s_t+1，并根据奖励函数R(s_t,a_t)给智能体返回一个奖励r_t；根据上述过程，智能体的一轮训练过程如下：

S3.3、从优先级队列Q中选择最高优先级的子任务J_u,k；

S3.5、使用mask_t计算策略π_θ并选择动作a_t；

S3.7、存储(s_t,a_t,r_t,s_t+1)至缓存D；

S3.8、判断优先级队列是否为空；若优先级队列为空，则根据下式计算优势估计

执行步骤S3.9；否则，决策步t＝t+1，返回步骤S3.3；

S3.10、清空缓存D，一轮训练过程结束。