CN114285853A - 设备密集型工业物联网中基于端边云协同的任务卸载方法 - Google Patents

设备密集型工业物联网中基于端边云协同的任务卸载方法 Download PDF

Info

Publication number
CN114285853A
CN114285853A CN202210041391.6A CN202210041391A CN114285853A CN 114285853 A CN114285853 A CN 114285853A CN 202210041391 A CN202210041391 A CN 202210041391A CN 114285853 A CN114285853 A CN 114285853A
Authority
CN
China
Prior art keywords
task
local
agent
iiot
time slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210041391.6A
Other languages
English (en)
Other versions
CN114285853B (zh
Inventor
韩光洁
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202210041391.6A priority Critical patent/CN114285853B/zh
Publication of CN114285853A publication Critical patent/CN114285853A/zh
Application granted granted Critical
Publication of CN114285853B publication Critical patent/CN114285853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本本发明公开了设备密集型工业物联网中基于端边云协同的任务卸载方法,具体步骤如下:步骤1:设置系统模型的各参数;步骤2:采用ISAC‑DMDRL算法来为每个IIoT设备做出最优决策。该算法首先将分布式RL和SAC算法相结合,解决了传统SAC算法对Q值的过估计或低估计问题;然后,采用CTDE框架将改进后的SAC算法扩展到多智能体场景中,解决了多智能体DRL中存在的非平稳性和可扩展性问题;此外,采用了一种值函数分解思想,解决了传统CTDE架构中的集中式‑分布式不匹配问题和多智能体信用分配问题。本发明可有效减少工业物联网中所有设备的任务执行延迟和能耗,平衡边缘服务器的工作负载,提高资源利用率,适用于大规模设备密集型工业物联网场景。

Description

设备密集型工业物联网中基于端边云协同的任务卸载方法
技术领域
本发明涉及设备密集型工业物联网中的协同任务卸载方法,属于工业物联网的边缘计算领域。
背景技术
作为物联网(Internet of Things,IoT)的重要组成部分,工业物联网(Industrial IoT,IIoT)将具有感知、通信和处理能力的大量异构IIoT设备(例如,智能传感器、机器、仪器仪表、机器人和车辆)、以及人工智能和大数据技术等融入到工业生产过程中,以提高制造效率和降低生产成本。因此,IIoT已经成为一种支持工业4.0的有前景范式。然而,由于IIoT设备的计算能力和电池容量有限,难以执行计算密集型和延迟敏感型IIoT应用。在传统的云计算的方案中,IIoT设备需要将其任务卸载到远程云计算服务器(CloudComputing Servers,CCS),因此,随着IIoT设备和任务的数量的增加,数据流量急剧增加,造成了网络拥塞,导致了更高的任务执行延迟和更低的服务质量(Quality of Service,QoS)。
针对以上问题,边缘计算技术已经成为一种有效的解决方案,该技术将边缘计算服务器(Edge Computing Servers,ECS)部署到IIoT设备附近,使得用户可以直接将任务卸载到ECSs上,以满足IIoT应用对实时性、安全性和可靠性的要求,同时缓解了网络拥塞,降低任务执行延迟,提升QoS。然而,单个ECS的计算能力通常有限,并且由于IIoT网络的异构特性,ECSs的工作负载各不相同。因此,可以利用多个ECSs之间的协作来平衡ECS的工作负载,避免计算资源的浪费。此外,考虑到CCSs的丰富计算资源,ECSs和CCSs之间的协作可以进一步提高资源利用率,降低任务执行延迟,特别是当所有ECSs的计算资源均不足时。因此,需要联合考虑端-边、边-边、边-云之间的协同任务卸载。
真实的IIoT环境通常是动态和不可预测的(如时变的任务参数、IIoT设备状态和信道增益),针对这一特性,强化学习(Reinforcement Learning,RL)已经成为一种有前景的解决方案。RL通过与动态环境进行交互来学习最佳策略,而无需关于环境动态的先验知识。然而,传统的RL算法仅适用于具有完全可观察、低维状态空间的环境,而真实的IIoT环境通常具有高维、连续状态空间,并且难以从IIoT环境中提取所有的有用特征。幸运的是,深度强化学习(Deep Reinforcement Learning,DRL)集成了深度神经网络(Deep NeuralNetwork,DNN)强大的特征提取能力以及RL强大的决策能力,具体来说,DRL利用DNN模型来逼近RL中的策略函数和值函数,能够从大型高维、连续状态空间中学习到最佳策略,因此,DRL适用于真实的IIoT环境。
然而,传统的单智能体DRL方法通常需要一个集中式控制器来为所有IIoT设备做出任务卸载决策,随着IIoT设备和ECS数量的增加,该方法的计算复杂度急剧增加,因此不适用于设备密集型IIoT环境。为了解决上述问题,可以采用多智能体DRL方法,其中,每个IIoT设备都是一个智能体,能独立做出任务卸载决策。多智能体DRL主要面临两个重要挑战:(1)非平稳性:在训练过程中,智能体之间会相互影响,每个智能体的奖励和状态转移不仅依赖于自身的当前状态和动作,还依赖于其他智能体的动作,这打破了单智能体DRL所遵循的马尔科夫性质,导致每个智能体所面对的环境变得非平稳;(2)可扩展性:为了解决非平稳性问题,每个智能体需要考虑联合动作空间,其维度随着智能体数量的增加而急剧增加,导致了算法的可扩展性问题。为了应对上述的两种挑战,采用一种集中式训练-分布式执行(Centralized Training Decentralized Execution,CTDE)架构,其中,在训练阶段,采用一个集中式控制器来收集所有智能体的全局信息(即联合观察、联合动作和联合奖励),以学习每个智能体的策略函数。训练结束后,在执行阶段,每个智能体仅根据自身的局部观察和策略函数来做出决策。
此外,传统的CTDE架构主要面临两个重要问题:(1)集中式-分布式不匹配问题:某个智能体u的策略梯度更新依赖于集中式critic网络,一方面,其他智能体的次优策略会对智能体u的策略学习产生负面影响,另一方面,智能体u的次优策略可以通过集中式critic网络进行传播,并对其他智能体的策略学习产生负面影响;(2)多智能体信用分配问题:由联合动作所产生的联合奖励,使得每个智能体很难推断自己对联合奖励的贡献,无法鼓励某些智能体为了更大的联合奖励而牺牲自己。
发明内容
针对现有技术的不足,本发明提供了设备密集型工业物联网中基于端边云协同的任务卸载方法,是一种分布式方法。该方法首先将分布式RL的思想引入到单智能体软演员-评论家(soft actor-critic,SAC)算法中,通过学习软状态动作回报的分布函数来提高Q值的估计精度,改进了传统的单智能体SAC算法对Q值的过估计或低估计问题。然后,该方法将改进后的SAC算法扩展到多智能体场景中。为了解决多智能体DRL中存在的非平稳性和可扩展性问题,采用了一种CTDE架构。此外,该方法采用了一种值函数分解思想,该思想将一个集中式critic网络分解为单个critic网络的线性加权和,来自动学习每个智能体的局部软Q值函数,可以有效解决传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种设备密集型工业物联网中基于端边云协同的任务卸载方法,其步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用基于改进的SAC的分布式多智能体DRL(Improved SAC-basedDecentralized Multi-agent DRL,ISAC-DMDRL)算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法首先将分布式RL和单智能体SAC算法相结合,有效解决了传统的单智能体SAC算法对Q值的过估计或低估计问题;然后,该算法采用CTDE框架将改进后的SAC算法扩展到多智能体场景中,有效解决了多智能体DRL中存在的非平稳性和可扩展性问题;此外,该算法采用了一种值函数分解思想,有效解决了传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。
优选地,所述步骤1的具体步骤如下:
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BS m表示,每个BS m上配备了一个ECS,每个ECS用符号ECS m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BS m中的每个IIoT设备u会随机产生一个计算任务
Figure BDA0003470388820000051
其中
Figure BDA0003470388820000052
表示任务输入数据大小,
Figure BDA0003470388820000053
表示计算该任务所需要的CPU周期数;定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为
Figure BDA0003470388820000054
对应数量为
Figure BDA0003470388820000055
在时隙t每个设备u和每个ECS m均维护一个先进先出的任务队列
Figure BDA0003470388820000061
Figure BDA0003470388820000062
分别表示在时隙t开始时设备u和ECS m尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BS m内的IIoT设备
Figure BDA0003470388820000063
的卸载决策为
Figure BDA0003470388820000064
其中
Figure BDA0003470388820000065
表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例,
Figure BDA0003470388820000066
表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,
Figure BDA0003470388820000067
表示将任务从本地ECS m卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,采用正交频分复用技术将频带划分成多个带宽相同的正交子信道,每个子信道的带宽为βw;定义在时隙t内IIoT设备u与本地BS m之间的上行SNR值为
Figure BDA0003470388820000068
Figure BDA0003470388820000069
其中,
Figure BDA00034703888200000610
表示IIoT设备u的发射功率,
Figure BDA00034703888200000611
表示BS m与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BS m之间的上行数据传输速率为
Figure BDA00034703888200000612
Figure BDA0003470388820000071
定义每个BS m和SDN控制器s之间的数据传输速率均为常数
Figure BDA0003470388820000072
SDN控制器s和CCSs c之间的数据传输速率为常数
Figure BDA0003470388820000073
Figure BDA0003470388820000074
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.1本地计算:定义在BS m内的IIoT设备u的计算能力为
Figure BDA0003470388820000075
当任务
Figure BDA0003470388820000076
在IIoT设备u上本地执行时,任务的执行延迟包括本地等待延迟和本地计算延迟,即
Figure BDA0003470388820000077
其中,在时隙t设备u的任务队列
Figure BDA0003470388820000078
可以表示为
Figure BDA0003470388820000079
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECS m上,所需要的上行传输延迟为
Figure BDA00034703888200000710
然后,当本地ECS m接收到部分任务时,在本地ECS m上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
Figure BDA00034703888200000711
其中,
Figure BDA00034703888200000712
表示在时隙t其任务优先于任务
Figure BDA00034703888200000713
到达ECS m的本地设备的集合,
Figure BDA00034703888200000714
表示在时隙t其任务优先于任务
Figure BDA00034703888200000715
到达ECS m的非本地设备的集合,这些集合可通过排序算法来获得。在时隙t本地ECS m的任务队列
Figure BDA0003470388820000081
可以表示为
Figure BDA0003470388820000082
然后,在本地ECS m上的计算延迟为
Figure BDA0003470388820000083
因此,任务执行延迟为
Figure BDA0003470388820000084
1.5.3协作式边缘计算:当本地ECS m的计算资源不足时,将部分任务卸载到某个非本地ECS n上,以平衡ECS的工作负载;定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为
Figure BDA0003470388820000085
然后,当非本地ECS n接收到部分任务时,在非本地ECS n上的任务执行延迟包括等待延迟和计算延迟,与公式(6)类似,等待延迟为
Figure BDA0003470388820000086
其中,
Figure BDA0003470388820000087
表示在时隙t其任务优先于任务
Figure BDA0003470388820000088
到达ECS n的本地设备的集合,
Figure BDA0003470388820000089
表示在时隙t其任务优先于任务
Figure BDA00034703888200000810
到达ECS n的非本地设备的集合。然后,在非本地ECS n上的任务计算延迟为
Figure BDA00034703888200000811
因此,任务执行延迟为
Figure BDA00034703888200000812
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECS m需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为
Figure BDA0003470388820000091
然后,在CCSs c上的任务计算延迟为
Figure BDA0003470388820000092
由于任务计算结果的数据大小通常较小,因此忽略了任务计算结果的下载延迟。定义在时隙t任务
Figure BDA0003470388820000093
的总执行延迟为
Figure BDA0003470388820000094
1.6设置能耗模型:当任务
Figure BDA0003470388820000095
在IIoT设备u上本地执行时,设备u的计算能耗为
Figure BDA0003470388820000096
其中,
Figure BDA0003470388820000097
表示IIoT设备u每执行一个CPU周期所消耗的能量;然后,当IIoT设备u将部分任务卸载到本地ECS m上时,设备u的通信能耗为
Figure BDA0003470388820000098
因此,在时隙t内IIoT设备u的总能耗为
Figure BDA0003470388820000099
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为
Figure BDA00034703888200000910
设备u的最大电池容量为
Figure BDA00034703888200000911
因此在下一个时隙t+1设备u的剩余电池电量为
Figure BDA0003470388820000101
优选地,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程(Dec-POMDP),将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组<U,S,O,A,R,Pr,C>来表示,其中
U表示U个智能体的集合,且
Figure BDA0003470388820000102
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察
Figure BDA0003470388820000103
Ou表示智能体u的局部观察空间,
Figure BDA0003470388820000104
包括智能体u的任务参数
Figure BDA0003470388820000105
任务队列状态
Figure BDA0003470388820000106
计算能力
Figure BDA0003470388820000107
发射功率
Figure BDA0003470388820000108
上行SNR值
Figure BDA0003470388820000109
执行一个CPU周期所消耗的能量
Figure BDA00034703888200001010
剩余电池电量
Figure BDA00034703888200001011
所获得的能量
Figure BDA00034703888200001012
最大电池容量为
Figure BDA00034703888200001013
每个子信道的带宽βw、每个ECS的任务队列状态
Figure BDA00034703888200001014
每个ECS的计算能力fm、云服务器的计算能力fc、每个BS m和SDN控制器s之间的数据传输速率
Figure BDA00034703888200001015
SDN控制器s和云服务器c之间的数据传输速率
Figure BDA00034703888200001016
在时隙t所有智能体的局部观察构成一个联合观察ot
A表示所有智能体的联合动作空间:在获得自身的局部观察
Figure BDA00034703888200001017
之后,每个智能体u将选择一个动作
Figure BDA00034703888200001018
来做出任务卸载决策,Au表示智能体u的动作空间。
Figure BDA0003470388820000111
包括智能体u的卸载决策
Figure BDA0003470388820000112
Figure BDA0003470388820000113
在时隙t所有智能体的动作构成一个联合动作at
R表示由所有智能体共享的联合奖励函数:当每个智能体u在局部观察
Figure BDA0003470388820000114
下执行动作
Figure BDA0003470388820000115
之后,每个智能体会收到一个由所有智能体所共享的联合即时奖励,即
Figure BDA0003470388820000116
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
Figure BDA0003470388820000117
C表示约束条件:每个智能体u在每个时隙t所选择的动作
Figure BDA0003470388820000118
需要满足如下约束(24)-(28),
Figure BDA0003470388820000119
Figure BDA00034703888200001110
Figure BDA00034703888200001111
Figure BDA00034703888200001112
Figure BDA00034703888200001113
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络
Figure BDA00034703888200001114
(参数为μu)、一个局部目标actor网络
Figure BDA00034703888200001115
(参数为
Figure BDA00034703888200001116
)和一个局部评估critic网络
Figure BDA00034703888200001117
(参数为ψu),SDN控制器包括一个集中式评估critic网络
Figure BDA0003470388820000121
(参数为ψ)、一个集中式目标critic网络
Figure BDA0003470388820000122
(参数为
Figure BDA0003470388820000123
)、一个评估混合网络
Figure BDA0003470388820000124
(参数为ε)和一个目标混合网络
Figure BDA0003470388820000125
(参数为
Figure BDA0003470388820000126
)。其中,
Figure BDA0003470388820000127
表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的
Figure BDA0003470388820000128
构成一个联合评估策略函数πμ(参数为μ=<μ1,μ2,...,μU>)。
Figure BDA0003470388820000129
表示智能体u的目标策略函数,所有智能体的
Figure BDA00034703888200001210
构成一个联合目标策略函数
Figure BDA00034703888200001211
(参数为
Figure BDA00034703888200001212
Figure BDA00034703888200001213
Figure BDA00034703888200001214
表示智能体u的局部评估软Q值函数,
Figure BDA00034703888200001215
表示全局软状态动作回报的评估分布函数,
Figure BDA00034703888200001216
表示全局软状态动作回报的目标分布函数,
Figure BDA00034703888200001217
负责将全局评估软Q值函数
Figure BDA00034703888200001218
分解成每个智能体u的
Figure BDA00034703888200001219
的线性加权和,即
Figure BDA00034703888200001220
其中,
Figure BDA00034703888200001221
ωu(st)≥0表示权重值,b(st)表示偏差值。此外,将每个策略函数和分布函数均建模成高斯分布,并采用DNN模型进行逼近,即DNN负责输出高斯分布的均值和协方差矩阵;
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络
Figure BDA00034703888200001222
的参数μu、集中式评估critic网络
Figure BDA00034703888200001223
的参数ψ、评估混合网络
Figure BDA00034703888200001224
的参数ε、每个智能体u的局部目标actor网络
Figure BDA00034703888200001225
的参数
Figure BDA00034703888200001226
Figure BDA00034703888200001227
集中式目标critic网络
Figure BDA00034703888200001228
的参数
Figure BDA00034703888200001229
目标混合网络
Figure BDA00034703888200001230
参数
Figure BDA00034703888200001231
episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值
Figure BDA0003470388820000131
目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,...,NE}时,执行2.2.3;
2.2.3当t∈{1,2,...,NS}时,执行2.2.4;
2.2.4每个智能体u从环境中获取自身的局部观察
Figure BDA0003470388820000132
并将其输入到自身的actor网络
Figure BDA0003470388820000133
中,然后输出满足约束(24)-(28)的所有可能的连续动作的概率分布
Figure BDA0003470388820000134
然后,每个智能体u根据其
Figure BDA0003470388820000135
随机选择一个动作
Figure BDA0003470388820000136
并执行;
2.2.5在执行动作
Figure BDA0003470388820000137
之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,,每个智能体u会获得下一个局部观察
Figure BDA0003470388820000138
然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.6如果
Figure BDA0003470388820000139
则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8随机从经验重放池中抽取Z个全局经验样本,来更新
Figure BDA00034703888200001310
的参数ψ和每个
Figure BDA00034703888200001311
的参数μu
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练
Figure BDA00034703888200001312
的参数ψ,目标是使
Figure BDA00034703888200001313
更接近
Figure BDA00034703888200001314
Figure BDA00034703888200001315
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,
Figure BDA0003470388820000141
可以写成
Figure BDA0003470388820000142
其中,联合动作at+1是根据联合目标策略函数
Figure BDA0003470388820000143
来随机选择的。然后,采用小批量梯度下降法来最小化Loss(ψ);然而,当
Figure BDA0003470388820000144
的方差趋于0或趋于∞时,
Figure BDA0003470388820000145
会分别发生梯度爆炸和梯度消失问题。为了解决该问题,需要将
Figure BDA0003470388820000146
所产生的全局软状态动作回报的目标值
Figure BDA0003470388820000147
限制在
Figure BDA0003470388820000148
附近;参数ψ的更新公式为
Figure BDA0003470388820000149
此外,可以直接通过梯度的反向传播来自动学习每个智能体u的
Figure BDA00034703888200001410
的参数ψu和混合网络
Figure BDA00034703888200001411
的参数ε;
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,通过最大化关于全局策略πμ的软状态值函数的目标函数来训练联合策略πμ的参数μ(即训练每个
Figure BDA00034703888200001412
的参数μu),以引导每个
Figure BDA00034703888200001413
朝着最大化软状态值函数的方向进行参数更新,目标函数定义为
Figure BDA00034703888200001414
Figure BDA0003470388820000151
其中,at~πμ(·|ot),
Figure BDA0003470388820000152
为了计算梯度
Figure BDA0003470388820000153
需要对
Figure BDA0003470388820000154
进行采样。然而,
Figure BDA0003470388820000155
是带有参数μu的,如果直接采样,会丧失μu的梯度信息,从而导致无法更新参数μu。因此,采用重参数化技巧来计算梯度
Figure BDA0003470388820000156
该方法可以降低梯度估计方差。具体来说,首先从一个标准正态分布中随机抽取一个样本
Figure BDA0003470388820000157
然后,使用
Figure BDA0003470388820000158
策略
Figure BDA0003470388820000159
的均值
Figure BDA00034703888200001510
和标准差
Figure BDA00034703888200001511
来计算
Figure BDA00034703888200001512
(即重新参数化策略
Figure BDA00034703888200001513
),即
Figure BDA00034703888200001514
其中,⊙表示哈达玛积。参数μ的更新公式为
Figure BDA00034703888200001515
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
Figure BDA00034703888200001516
其中,
Figure BDA00034703888200001517
表示预定义的最小熵阈值。因此,权重α的更新公式为
Figure BDA00034703888200001518
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
Figure BDA00034703888200001519
Figure BDA00034703888200001520
Figure BDA00034703888200001521
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
在完成ISAC-DMDRL算法的训练过程之后,获得了每个
Figure BDA0003470388820000161
的最优参数
Figure BDA0003470388820000162
然后,每个智能体u利用已经训练好的
Figure BDA0003470388820000163
来选择动作并执行,执行过程如下:
2.2.14当t∈{1,2,...,T}时,执行2.2.15;
2.2.15每个智能体u从环境中收集自身的局部观察
Figure BDA0003470388820000164
然后将
Figure BDA0003470388820000165
输入到自身的局部评估actor网络中,输出所有可能连续动作的概率分布
Figure BDA0003470388820000166
然后,基于
Figure BDA0003470388820000167
来随机选择一个动作
Figure BDA0003470388820000168
并执行;
2.2.16在执行动作
Figure BDA0003470388820000169
之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1
有益效果:本发明提供了设备密集型工业物联网中的协同任务卸载方法,可以有效减少工业物联网中所有设备的任务执行延迟和能耗,平衡边缘服务器的工作负载,提高资源利用率,具有良好的平稳性和可扩展性,适用于大规模设备密集型的工业物联网场景。
附图说明
图1为步骤1.1和1.3中基于端边云协同的任务卸载框架的网络模型。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
一种设备密集型工业物联网中的协同任务卸载方法,具体步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法首先将分布式RL和单智能体SAC算法相结合,有效解决了传统的单智能体SAC算法对Q值的过估计或低估计问题;然后,该算法采用CTDE框架将改进后的SAC算法扩展到多智能体场景中,有效解决了多智能体DRL中存在的非平稳性和可扩展性问题;此外,该算法采用了一种值函数分解思想,有效解决了传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。
优选地,所述步骤1中具体步骤如下:
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BS m表示,每个BS m上配备了一个ECS,每个ECS用符号ECS m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BS m中的每个IIoT设备u会随机产生一个计算任务
Figure BDA0003470388820000181
其中
Figure BDA0003470388820000182
表示任务输入数据大小,
Figure BDA0003470388820000183
表示计算该任务所需要的CPU周期数;定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为
Figure BDA0003470388820000184
对应数量为
Figure BDA0003470388820000185
在时隙t每个设备u和每个ECS m均维护一个先进先出的任务队列
Figure BDA0003470388820000186
Figure BDA0003470388820000187
分别表示在时隙t开始时设备u和ECS m尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BS m内的IIoT设备
Figure BDA0003470388820000188
的卸载决策为
Figure BDA0003470388820000189
其中
Figure BDA00034703888200001810
表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例,
Figure BDA00034703888200001811
表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,
Figure BDA0003470388820000191
表示将任务从本地ECS m卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,采用正交频分复用技术将频带划分成多个带宽相同的正交子信道,每个子信道的带宽为βw;定义在时隙t内IIoT设备u与本地BS m之间的上行SNR值为
Figure BDA0003470388820000192
Figure BDA0003470388820000193
其中,
Figure BDA0003470388820000194
表示IIoT设备u的发射功率,
Figure BDA0003470388820000195
表示BS m与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BS m之间的上行数据传输速率为
Figure BDA0003470388820000196
Figure BDA0003470388820000197
定义每个BS m和SDN控制器s之间的数据传输速率均为常数
Figure BDA0003470388820000198
SDN控制器s和CCSs c之间的数据传输速率为常数
Figure BDA0003470388820000199
Figure BDA00034703888200001910
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.1本地计算:定义在BS m内的IIoT设备u的计算能力为
Figure BDA00034703888200001911
当任务
Figure BDA00034703888200001912
在IIoT设备u上本地执行时,任务的执行延迟包括本地等待延迟和本地计算延迟,即
Figure BDA00034703888200001913
其中,在时隙t设备u的任务队列
Figure BDA00034703888200001914
可以表示为
Figure BDA0003470388820000201
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECS m上,所需要的上行传输延迟为
Figure BDA0003470388820000202
然后,当本地ECS m接收到部分任务时,在本地ECS m上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
Figure BDA0003470388820000203
其中,
Figure BDA0003470388820000204
表示在时隙t其任务优先于任务
Figure BDA0003470388820000205
到达ECS m的本地设备的集合,
Figure BDA0003470388820000206
表示在时隙t其任务优先于任务
Figure BDA0003470388820000207
到达ECS m的非本地设备的集合,这些集合可通过排序算法来获得。在时隙t本地ECS m的任务队列
Figure BDA0003470388820000208
可以表示为
Figure BDA0003470388820000209
然后,在本地ECS m上的计算延迟为
Figure BDA00034703888200002010
因此,任务执行延迟为
Figure BDA00034703888200002011
1.5.3协作式边缘计算:当本地ECS m的计算资源不足时,将部分任务卸载到某个非本地ECS n上,以平衡ECS的工作负载;定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为
Figure BDA0003470388820000211
然后,当非本地ECS n接收到部分任务时,在非本地ECS n上的任务执行延迟包括等待延迟和计算延迟,与公式(6)类似,等待延迟为
Figure BDA0003470388820000212
其中,
Figure BDA0003470388820000213
表示在时隙t其任务优先于任务
Figure BDA0003470388820000214
到达ECS n的本地设备的集合,
Figure BDA0003470388820000215
表示在时隙t其任务优先于任务
Figure BDA0003470388820000216
到达ECS n的非本地设备的集合。然后,在非本地ECS n上的任务计算延迟为
Figure BDA0003470388820000217
因此,任务执行延迟为
Figure BDA0003470388820000218
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECS m需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为
Figure BDA0003470388820000219
然后,在CCSs c上的任务计算延迟为
Figure BDA00034703888200002110
由于任务计算结果的数据大小通常较小,因此忽略了任务计算结果的下载延迟。定义在时隙t任务
Figure BDA00034703888200002111
的总执行延迟为
Figure BDA00034703888200002112
1.6设置能耗模型:当任务
Figure BDA0003470388820000221
在IIoT设备u上本地执行时,设备u的计算能耗为
Figure BDA0003470388820000222
其中,
Figure BDA0003470388820000223
表示IIoT设备u每执行一个CPU周期所消耗的能量;然后,当IIoT设备u将部分任务卸载到本地ECS m上时,设备u的通信能耗为
Figure BDA0003470388820000224
因此,在时隙t内IIoT设备u的总能耗为
Figure BDA0003470388820000225
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为
Figure BDA0003470388820000226
设备u的最大电池容量为
Figure BDA0003470388820000227
因此在下一个时隙t+1设备u的剩余电池电量为
Figure BDA0003470388820000228
优选地,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程(Dec-POMDP),将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组<U,S,O,A,R,Pr,C>来表示,其中
U表示U个智能体的集合,且
Figure BDA0003470388820000229
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察
Figure BDA0003470388820000231
Ou表示智能体u的局部观察空间,
Figure BDA0003470388820000232
包括智能体u的任务参数
Figure BDA0003470388820000233
任务队列状态
Figure BDA0003470388820000234
计算能力
Figure BDA0003470388820000235
发射功率
Figure BDA0003470388820000236
上行SNR值
Figure BDA0003470388820000237
执行一个CPU周期所消耗的能量
Figure BDA0003470388820000238
剩余电池电量
Figure BDA0003470388820000239
所获得的能量
Figure BDA00034703888200002310
最大电池容量为
Figure BDA00034703888200002311
每个子信道的带宽βw、每个ECS的任务队列状态
Figure BDA00034703888200002312
每个ECS的计算能力fm、云服务器的计算能力fc、每个BS m和SDN控制器s之间的数据传输速率
Figure BDA00034703888200002313
SDN控制器s和云服务器c之间的数据传输速率
Figure BDA00034703888200002314
在时隙t所有智能体的局部观察构成一个联合观察ot
A表示所有智能体的联合动作空间:在获得自身的局部观察
Figure BDA00034703888200002315
之后,每个智能体u将选择一个动作
Figure BDA00034703888200002316
来做出任务卸载决策,Au表示智能体u的动作空间。
Figure BDA00034703888200002317
包括智能体u的卸载决策
Figure BDA00034703888200002318
Figure BDA00034703888200002319
在时隙t所有智能体的动作构成一个联合动作at
R表示由所有智能体共享的联合奖励函数:当每个智能体u在局部观察
Figure BDA00034703888200002320
下执行动作
Figure BDA00034703888200002321
之后,每个智能体会收到一个由所有智能体所共享的联合即时奖励,即
Figure BDA00034703888200002322
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
Figure BDA0003470388820000241
C表示约束条件:每个智能体u在每个时隙t所选择的动作
Figure BDA0003470388820000242
需要满足如下约束(24)-(28),
Figure BDA0003470388820000243
Figure BDA0003470388820000244
Figure BDA0003470388820000245
Figure BDA0003470388820000246
Figure BDA0003470388820000247
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络
Figure BDA0003470388820000248
(参数为μu)、一个局部目标actor网络
Figure BDA0003470388820000249
(参数为
Figure BDA00034703888200002410
)和一个局部评估critic网络
Figure BDA00034703888200002411
(参数为ψu),SDN控制器包括一个集中式评估critic网络
Figure BDA00034703888200002412
(参数为ψ)、一个集中式目标critic网络
Figure BDA00034703888200002413
(参数为
Figure BDA00034703888200002414
)、一个评估混合网络
Figure BDA00034703888200002415
(参数为ε)和一个目标混合网络
Figure BDA00034703888200002416
(参数为
Figure BDA00034703888200002417
)。其中,
Figure BDA00034703888200002418
表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的
Figure BDA00034703888200002419
构成一个联合评估策略函数πμ(参数为μ=<μ1,μ2,...,μU>)。
Figure BDA00034703888200002420
表示智能体u的目标策略函数,所有智能体的
Figure BDA00034703888200002421
构成一个联合目标策略函数
Figure BDA00034703888200002422
(参数为
Figure BDA00034703888200002423
Figure BDA00034703888200002424
Figure BDA00034703888200002425
表示智能体u的局部评估软Q值函数,
Figure BDA00034703888200002426
表示全局软状态动作回报的评估分布函数,
Figure BDA00034703888200002427
表示全局软状态动作回报的目标分布函数,
Figure BDA00034703888200002428
负责将全局评估软Q值函数
Figure BDA00034703888200002429
分解成每个智能体u的
Figure BDA00034703888200002430
的线性加权和,即
Figure BDA0003470388820000251
其中,
Figure BDA0003470388820000252
ωu(st)≥0表示权重值,b(st)表示偏差值。此外,将每个策略函数和分布函数均建模成高斯分布,并采用DNN模型进行逼近,即DNN负责输出高斯分布的均值和协方差矩阵;
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络
Figure BDA0003470388820000253
的参数μu、集中式评估critic网络
Figure BDA0003470388820000254
的参数ψ、评估混合网络
Figure BDA0003470388820000255
的参数ε、每个智能体u的局部目标actor网络
Figure BDA0003470388820000256
的参数
Figure BDA0003470388820000257
μu、集中式目标critic网络
Figure BDA0003470388820000258
的参数
Figure BDA0003470388820000259
目标混合网络
Figure BDA00034703888200002510
参数
Figure BDA00034703888200002511
episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值
Figure BDA00034703888200002512
目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,...,NE}时,执行2.2.3;
2.2.3当t∈{1,2,...,NS}时,执行2.2.4;
2.2.4每个智能体u从环境中获取自身的局部观察
Figure BDA00034703888200002513
并将其输入到自身的actor网络
Figure BDA00034703888200002514
中,然后输出满足约束(24)-(28)的所有可能的连续动作的概率分布
Figure BDA00034703888200002515
然后,每个智能体u根据其
Figure BDA00034703888200002516
随机选择一个动作
Figure BDA00034703888200002517
并执行;
2.2.5在执行动作
Figure BDA0003470388820000261
之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,,每个智能体会获得下一个局部观察
Figure BDA0003470388820000262
然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.6如果
Figure BDA0003470388820000263
则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8随机从经验重放池中抽取Z个全局经验样本,来更新
Figure BDA0003470388820000264
的参数ψ和每个
Figure BDA0003470388820000265
的参数μu
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练
Figure BDA0003470388820000266
的参数ψ,目标是使
Figure BDA0003470388820000267
更接近
Figure BDA0003470388820000268
Figure BDA0003470388820000269
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,
Figure BDA00034703888200002610
可以写成
Figure BDA00034703888200002611
其中,联合动作at+1是根据联合目标策略函数
Figure BDA00034703888200002612
来随机选择的。然后,采用小批量梯度下降法来最小化Loss(ψ);然而,当
Figure BDA00034703888200002613
的方差趋于0或趋于∞时,
Figure BDA00034703888200002614
会分别发生梯度爆炸和梯度消失问题。为了解决该问题,需要将
Figure BDA00034703888200002615
听产生的全局软状态动作回报的目标值
Figure BDA00034703888200002616
限制在
Figure BDA00034703888200002617
附近;参数ψ的更新公式为
Figure BDA00034703888200002618
此外,可以直接通过梯度的反向传播来自动学习每个智能体u的
Figure BDA0003470388820000271
的参数ψu和混合网络
Figure BDA0003470388820000272
的参数ε;
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,通过最大化关于全局策略πμ的软状态值函数的目标函数来训练联合策略πμ的参数μ(即训练每个
Figure BDA0003470388820000273
的参数μu),以引导每个
Figure BDA0003470388820000274
朝着最大化软状态值函数的方向进行参数更新,目标函数定义为
Figure BDA0003470388820000275
其中,at~πμ(·|ot),
Figure BDA0003470388820000276
为了计算梯度
Figure BDA0003470388820000277
需要对
Figure BDA0003470388820000278
进行采样。然而,
Figure BDA0003470388820000279
是带有参数μu的,如果直接采样,会丧失μu的梯度信息,从而导致无法更新参数μu。因此,采用重参数化技巧来计算梯度
Figure BDA00034703888200002710
该方法可以降低梯度估计方差。具体来说,首先从一个标准正态分布中随机抽取一个样本
Figure BDA00034703888200002711
然后,使用
Figure BDA00034703888200002712
策略
Figure BDA00034703888200002713
的均值
Figure BDA00034703888200002714
和标准差
Figure BDA00034703888200002715
来计算
Figure BDA00034703888200002716
(即重新参数化策略
Figure BDA00034703888200002717
),即
Figure BDA00034703888200002718
其中,⊙表示哈达玛积。参数μ的更新公式为
Figure BDA00034703888200002719
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
Figure BDA0003470388820000281
其中,
Figure BDA0003470388820000282
表示预定义的最小熵阈值。因此,权重α的更新公式为
Figure BDA0003470388820000283
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
Figure BDA0003470388820000284
Figure BDA0003470388820000285
Figure BDA0003470388820000286
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
在完成ISAC-DMDRL算法的训练过程之后,获得了每个
Figure BDA0003470388820000287
的最优参数
Figure BDA0003470388820000288
然后,每个智能体u利用已经训练好的
Figure BDA0003470388820000289
来选择动作并执行,执行过程如下:
2.2.14当t∈{1,2,...,T}时,执行2.2.15;
2.2.15每个智能体u从环境中收集自身的局部观察
Figure BDA00034703888200002810
然后将
Figure BDA00034703888200002811
输入到自身的局部评估actor网络中,输出所有可能连续动作的概率分布
Figure BDA00034703888200002812
然后,基于
Figure BDA00034703888200002813
来随机选择一个动作
Figure BDA00034703888200002814
并执行;
2.2.16在执行动作
Figure BDA00034703888200002815
之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1
本发明中提及的方法均属于本领域技术人员掌握的常规技术手段,故而未加详述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (2)

1.一种设备密集型工业物联网中基于端边云协同的任务卸载方法,其特征在于,具体步骤如下:
步骤1:设置系统模型的各参数;
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BSm表示,每个BSm上配备了一个ECS,每个ECS用符号ECSm表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BSm中的每个IIoT设备u会随机产生一个计算任务
Figure FDA0003470388810000011
其中
Figure FDA0003470388810000012
表示任务输入数据大小,
Figure FDA0003470388810000013
表示计算该任务所需要的CPU周期数;定义在时隙t在BSm内产生计算任务的所有IIoT设备的集合为
Figure FDA0003470388810000014
对应数量为
Figure FDA0003470388810000021
在时隙t每个设备u和每个ECSm均维护一个先进先出的任务队列
Figure FDA0003470388810000022
Figure FDA0003470388810000023
分别表示在时隙t开始时设备u和ECSm尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BSm内的IIoT设备
Figure FDA0003470388810000024
的卸载决策为
Figure FDA0003470388810000025
其中
Figure FDA0003470388810000026
表示将任务从IIoT设备u卸载到本地ECSm的任务卸载比例,
Figure FDA0003470388810000027
表示将任务从本地ECSm卸载到某个非本地ECSn∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,
Figure FDA0003470388810000028
表示将任务从本地ECSm卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,采用正交频分复用技术将频带划分成多个带宽相同的正交子信道,每个子信道的带宽为βw;定义在时隙t内IIoT设备u与本地BSm之间的上行SNR值为
Figure FDA0003470388810000029
Figure FDA00034703888100000210
其中,
Figure FDA00034703888100000211
表示IIoT设备u的发射功率,
Figure FDA00034703888100000212
表示BSm与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BSm之间的上行数据传输速率为
Figure FDA0003470388810000031
Figure FDA0003470388810000032
定义每个BSm和SDN控制器s之间的数据传输速率均为常数
Figure FDA00034703888100000314
SDN控制器s和CCSs c之间的数据传输速率为常数
Figure FDA00034703888100000315
Figure FDA00034703888100000316
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.1本地计算:定义在BSm内的IIoT设备u的计算能力为
Figure FDA0003470388810000033
当任务
Figure FDA0003470388810000034
在IIoT设备u上本地执行时,任务的执行延迟包括本地等待延迟和本地计算延迟,即
Figure FDA0003470388810000035
其中,在时隙t设备u的任务队列
Figure FDA0003470388810000036
表示为
Figure FDA0003470388810000037
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECSm上,所需要的上行传输延迟为
Figure FDA0003470388810000038
然后,当本地ECSm接收到部分任务时,在本地ECSm上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
Figure FDA0003470388810000039
其中,
Figure FDA00034703888100000310
表示在时隙t其任务优先于任务
Figure FDA00034703888100000311
到达ECSm的本地设备的集合,
Figure FDA00034703888100000312
表示在时隙t其任务优先于任务
Figure FDA00034703888100000313
到达ECSm的非本地设备的集合,这些集合能够通过排序算法来获得;在时隙t本地ECSm的任务队列
Figure FDA0003470388810000041
表示为
Figure FDA0003470388810000042
然后,在本地ECSm上的计算延迟为
Figure FDA0003470388810000043
因此,任务执行延迟为
Figure FDA0003470388810000044
1.5.3协作式边缘计算:当本地ECSm的计算资源不足时,将部分任务卸载到某个非本地ECSn上,以平衡ECS的工作负载;定义在时隙t本地ECSm将部分任务卸载到某个非本地ECSn的传输延迟为
Figure FDA0003470388810000045
然后,当非本地ECSn接收到部分任务时,在非本地ECSn上的任务执行延迟包括等待延迟和计算延迟,等待延迟为
Figure FDA0003470388810000046
其中,
Figure FDA0003470388810000047
表示在时隙t其任务优先于任务
Figure FDA0003470388810000048
到达ECSn的本地设备的集合,
Figure FDA0003470388810000049
表示在时隙t其任务优先于任务
Figure FDA00034703888100000410
到达ECSn的非本地设备的集合;然后,在非本地ECSn上的任务计算延迟为
Figure FDA00034703888100000411
因此,任务执行延迟为
Figure FDA00034703888100000412
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECSm需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECSm将部分任务卸载到CCSs c的传输延迟为
Figure FDA0003470388810000051
然后,在CCSs c上的任务计算延迟为
Figure FDA0003470388810000052
定义在时隙t任务
Figure FDA0003470388810000053
的总执行延迟为
Figure FDA0003470388810000054
1.6设置能耗模型:当任务
Figure FDA0003470388810000055
在IIoT设备u上本地执行时,设备u的计算能耗为
Figure FDA0003470388810000056
其中,
Figure FDA0003470388810000057
表示IIoT设备u每执行一个CPU周期所消耗的能量;
然后,当IIoT设备u将部分任务卸载到本地ECSm上时,设备u的通信能耗为
Figure FDA0003470388810000058
因此,在时隙t内IIoT设备u的总能耗为
Figure FDA0003470388810000059
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为
Figure FDA00034703888100000510
设备u的最大电池容量为
Figure FDA00034703888100000511
因此在下一个时隙t+1设备u的剩余电池电量为
Figure FDA00034703888100000512
步骤2:采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。
2.根据权利要求1所述的设备密集型工业物联网中基于端边云协同的任务卸载方法,其特征在于,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程,将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组<U,S,O,A,R,Pr,C>来表示,其中
U表示U个智能体的集合,且
Figure FDA0003470388810000061
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察
Figure FDA0003470388810000062
Ou表示智能体u的局部观察空间,
Figure FDA0003470388810000063
包括智能体u的任务参数
Figure FDA0003470388810000064
任务队列状态
Figure FDA0003470388810000065
计算能力
Figure FDA0003470388810000066
发射功率
Figure FDA0003470388810000067
上行SNR值
Figure FDA0003470388810000068
执行一个CPU周期所消耗的能量
Figure FDA0003470388810000069
剩余电池电量
Figure FDA00034703888100000610
所获得的能量
Figure FDA00034703888100000611
最大电池容量为
Figure FDA00034703888100000612
每个子信道的带宽βw、每个ECS的任务队列状态
Figure FDA00034703888100000613
每个ECS的计算能力fm、云服务器的计算能力fc、每个BSm和SDN控制器s之间的数据传输速率
Figure FDA00034703888100000614
SDN控制器s和云服务器c之间的数据传输速率
Figure FDA00034703888100000615
在时隙t所有智能体的局部观察构成一个联合观察ot
A表示所有智能体的联合动作空间:在获得自身的局部观察
Figure FDA0003470388810000071
之后,每个智能体u将选择一个动作
Figure FDA0003470388810000072
来做出任务卸载决策,Au表示智能体u的动作空间;
Figure FDA0003470388810000073
包括智能体u的卸载决策
Figure FDA0003470388810000074
Figure FDA0003470388810000075
在时隙t所有智能体的动作构成一个联合动作at
R表示由所有智能体共享的联合奖励函数:当每个智能体u在局部观察
Figure FDA0003470388810000076
下执行动作
Figure FDA0003470388810000077
之后,每个智能体会收到一个由所有智能体所共享的联合即时奖励,即
Figure FDA0003470388810000078
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
Figure FDA0003470388810000079
C表示约束条件:每个智能体u在每个时隙t所选择的动作
Figure FDA00034703888100000710
需要满足如下约束(24)—(28),
Figure FDA00034703888100000711
Figure FDA00034703888100000712
Figure FDA00034703888100000713
Figure FDA00034703888100000714
Figure FDA00034703888100000715
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络
Figure FDA0003470388810000081
参数为μu;一个局部目标actor网络
Figure FDA0003470388810000082
参数为
Figure FDA0003470388810000083
和一个局部评估critic网络
Figure FDA0003470388810000084
参数为ψu;SDN控制器包括一个集中式评估critic网络
Figure FDA0003470388810000085
参数为ψ;一个集中式目标critic网络
Figure FDA0003470388810000086
参数为
Figure FDA0003470388810000087
一个评估混合网络
Figure FDA0003470388810000088
参数为ε;和一个目标混合网络
Figure FDA0003470388810000089
参数为
Figure FDA00034703888100000810
其中,
Figure FDA00034703888100000811
表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的
Figure FDA00034703888100000812
构成一个联合评估策略函数πμ、参数为μ=<μ12,...,μU>;
Figure FDA00034703888100000813
表示智能体u的目标策略函数,所有智能体的
Figure FDA00034703888100000814
构成一个联合目标策略函数
Figure FDA00034703888100000815
参数为
Figure FDA00034703888100000816
表示智能体u的局部评估软Q值函数,
Figure FDA00034703888100000817
表示全局软状态动作回报的评估分布函数,
Figure FDA00034703888100000818
表示全局软状态动作回报的目标分布函数,
Figure FDA00034703888100000819
负责将全局评估软Q值函数
Figure FDA00034703888100000820
分解成每个智能体u的
Figure FDA00034703888100000821
的线性加权和,即
Figure FDA00034703888100000822
其中,
Figure FDA00034703888100000823
ωu(st)≥0表示权重值,b(st)表示偏差值;此外,将每个策略函数和分布函数均建模成高斯分布,并采用DNN模型进行逼近,即DNN负责输出高斯分布的均值和协方差矩阵;
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络
Figure FDA00034703888100000824
的参数μu、集中式评估critic网络
Figure FDA00034703888100000825
的参数ψ、评估混合网络
Figure FDA0003470388810000091
的参数ε、每个智能体u的局部目标actor网络
Figure FDA0003470388810000092
的参数
Figure FDA0003470388810000093
Figure FDA0003470388810000094
集中式目标critic网络
Figure FDA0003470388810000095
的参数
Figure FDA0003470388810000096
目标混合网络
Figure FDA0003470388810000097
参数
Figure FDA0003470388810000098
episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值
Figure FDA0003470388810000099
目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,…,NE}时,执行2.2.3;
2.2.3当t∈{1,2,…,NS}时,执行2.2.4;
2.2.4每个智能体u从环境中获取自身的局部观察
Figure FDA00034703888100000910
并将其输入到自身的actor网络
Figure FDA00034703888100000911
中,然后输出满足约束(24)—(28)的所有可能的连续动作的概率分布
Figure FDA00034703888100000912
然后,每个智能体u根据其
Figure FDA00034703888100000913
随机选择一个动作
Figure FDA00034703888100000914
并执行;
2.2.5在执行动作
Figure FDA00034703888100000915
之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,每个智能体u会获得下一个局部观察
Figure FDA00034703888100000916
然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.6如果
Figure FDA00034703888100000917
则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8随机从经验重放池中抽取Z个全局经验样本,来更新
Figure FDA00034703888100000918
的参数ψ和每个
Figure FDA00034703888100000919
的参数μu
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练
Figure FDA00034703888100000920
的参数ψ,目标是使
Figure FDA0003470388810000101
更接近
Figure FDA0003470388810000102
Figure FDA0003470388810000103
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,
Figure FDA0003470388810000104
写成
Figure FDA0003470388810000105
其中,联合动作at+1是根据联合目标策略函数
Figure FDA0003470388810000106
来随机选择的,采用小批量梯度下降法来最小化Loss(ψ),并将
Figure FDA0003470388810000107
所产生的全局软状态动作回报的目标值
Figure FDA0003470388810000108
限制在
Figure FDA0003470388810000109
附近;参数ψ的更新公式为
Figure FDA00034703888100001010
直接通过梯度的反向传播来自动学习每个智能体u的
Figure FDA00034703888100001011
的参数ψu和混合网络
Figure FDA00034703888100001012
的参数ε;
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,通过最大化关于全局策略πμ的软状态值函数的目标函数来训练联合策略πμ的参数μ,即训练每个
Figure FDA00034703888100001013
的参数μu;以引导每个
Figure FDA00034703888100001014
朝着最大化软状态值函数的方向进行参数更新,目标函数定义为
Figure FDA00034703888100001015
Figure FDA0003470388810000111
其中,at~πμ(·|ot),
Figure FDA0003470388810000112
为了计算梯度
Figure FDA0003470388810000113
需要对
Figure FDA0003470388810000114
进行采样。采用重参数化技巧来计算梯度
Figure FDA0003470388810000115
首先从一个标准正态分布中随机抽取一个样本
Figure FDA0003470388810000116
然后,使用
Figure FDA0003470388810000117
策略
Figure FDA0003470388810000118
的均值
Figure FDA0003470388810000119
和标准差
Figure FDA00034703888100001110
来计算
Figure FDA00034703888100001111
即重新参数化策略
Figure FDA00034703888100001112
Figure FDA00034703888100001113
其中,⊙表示哈达玛积;参数μ的更新公式为
Figure FDA00034703888100001114
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
Figure FDA00034703888100001115
其中,
Figure FDA00034703888100001116
表示预定义的最小熵阈值;因此,权重α的更新公式为
Figure FDA00034703888100001117
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
Figure FDA00034703888100001118
Figure FDA00034703888100001119
Figure FDA00034703888100001120
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
在完成ISAC-DMDRL算法的训练过程之后,获得了每个
Figure FDA0003470388810000121
的最优参数
Figure FDA0003470388810000122
然后,每个智能体u利用已经训练好的
Figure FDA0003470388810000123
来选择动作并执行,执行过程如下:
2.2.14当t∈{1,2,…,T}时,执行2.2.15;
2.2.15每个智能体u从环境中收集自身的局部观察
Figure FDA0003470388810000124
然后将
Figure FDA0003470388810000125
输入到自身的局部评估actor网络中,输出所有可能连续动作的概率分布
Figure FDA0003470388810000126
然后,基于
Figure FDA0003470388810000127
来随机选择一个动作
Figure FDA0003470388810000128
并执行;
2.2.16在执行动作
Figure FDA0003470388810000129
之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1
CN202210041391.6A 2022-01-14 2022-01-14 设备密集型工业物联网中基于端边云协同的任务卸载方法 Active CN114285853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210041391.6A CN114285853B (zh) 2022-01-14 2022-01-14 设备密集型工业物联网中基于端边云协同的任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210041391.6A CN114285853B (zh) 2022-01-14 2022-01-14 设备密集型工业物联网中基于端边云协同的任务卸载方法

Publications (2)

Publication Number Publication Date
CN114285853A true CN114285853A (zh) 2022-04-05
CN114285853B CN114285853B (zh) 2022-09-23

Family

ID=80880951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210041391.6A Active CN114285853B (zh) 2022-01-14 2022-01-14 设备密集型工业物联网中基于端边云协同的任务卸载方法

Country Status (1)

Country Link
CN (1) CN114285853B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237506A (zh) * 2022-09-21 2022-10-25 暨南大学 Cps系统中可靠性驱动的分层任务卸载方法和装置
CN115242838A (zh) * 2022-07-20 2022-10-25 重庆交通大学 一种车载边缘计算中服务协同卸载的方法
CN115499440A (zh) * 2022-09-14 2022-12-20 广西大学 基于经验共享深度强化学习的无服务器边缘任务卸载方法
CN115934192A (zh) * 2022-12-07 2023-04-07 江苏信息职业技术学院 一种面向b5g/6g网络的车联网多类型任务协作卸载方法
CN117130693A (zh) * 2023-10-26 2023-11-28 之江实验室 张量卸载方法、装置、计算机设备及存储介质
CN117270485A (zh) * 2023-11-23 2023-12-22 中国科学院数学与系统科学研究院 一种面向工业互联网场景的分布式多机动作协同控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111970733A (zh) * 2020-08-04 2020-11-20 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN113573324A (zh) * 2021-07-06 2021-10-29 河海大学 工业物联网中协作式任务卸载和资源分配的联合优化方法
WO2021233053A1 (zh) * 2020-05-22 2021-11-25 华为技术有限公司 计算卸载的方法和通信装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021233053A1 (zh) * 2020-05-22 2021-11-25 华为技术有限公司 计算卸载的方法和通信装置
CN111970733A (zh) * 2020-08-04 2020-11-20 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN113573324A (zh) * 2021-07-06 2021-10-29 河海大学 工业物联网中协作式任务卸载和资源分配的联合优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINMING SHI等: "Priority-Aware Task Offloading in Vehicular Fog Computing Based on Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242838A (zh) * 2022-07-20 2022-10-25 重庆交通大学 一种车载边缘计算中服务协同卸载的方法
CN115242838B (zh) * 2022-07-20 2024-03-15 重庆交通大学 一种车载边缘计算中服务协同卸载的方法
CN115499440A (zh) * 2022-09-14 2022-12-20 广西大学 基于经验共享深度强化学习的无服务器边缘任务卸载方法
CN115237506A (zh) * 2022-09-21 2022-10-25 暨南大学 Cps系统中可靠性驱动的分层任务卸载方法和装置
CN115934192A (zh) * 2022-12-07 2023-04-07 江苏信息职业技术学院 一种面向b5g/6g网络的车联网多类型任务协作卸载方法
CN115934192B (zh) * 2022-12-07 2024-03-26 江苏信息职业技术学院 一种面向b5g/6g网络的车联网多类型任务协作卸载方法
CN117130693A (zh) * 2023-10-26 2023-11-28 之江实验室 张量卸载方法、装置、计算机设备及存储介质
CN117130693B (zh) * 2023-10-26 2024-02-13 之江实验室 张量卸载方法、装置、计算机设备及存储介质
CN117270485A (zh) * 2023-11-23 2023-12-22 中国科学院数学与系统科学研究院 一种面向工业互联网场景的分布式多机动作协同控制方法
CN117270485B (zh) * 2023-11-23 2024-02-06 中国科学院数学与系统科学研究院 一种面向工业互联网场景的分布式多机动作协同控制方法

Also Published As

Publication number Publication date
CN114285853B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN113573324B (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN110347500B (zh) 用于边缘计算环境中面向深度学习应用的任务卸载方法
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113543156B (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN111918339A (zh) 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN110955463A (zh) 支持边缘计算的物联网多用户计算卸载方法
CN112214301B (zh) 面向智慧城市基于用户偏好的动态计算迁移方法及装置
CN111132074A (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN114625504A (zh) 一种基于深度强化学习的车联网边缘计算服务迁移方法
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN114205353A (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN115499441A (zh) 超密集网络中基于深度强化学习的边缘计算任务卸载方法
CN116233927A (zh) 一种在移动边缘计算中负载感知的计算卸载节能优化方法
CN114172558B (zh) 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
CN113973113A (zh) 一种面向移动边缘计算的分布式服务迁移方法
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN116954866A (zh) 基于深度强化学习的边缘云下任务调度方法及系统
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
WO2024065903A1 (zh) 多约束边环境下计算卸载与资源分配联合优化系统及方法
CN113452625B (zh) 基于深度强化学习的卸载调度与资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant