CN114285853A - 设备密集型工业物联网中基于端边云协同的任务卸载方法 - Google Patents
设备密集型工业物联网中基于端边云协同的任务卸载方法 Download PDFInfo
- Publication number
- CN114285853A CN114285853A CN202210041391.6A CN202210041391A CN114285853A CN 114285853 A CN114285853 A CN 114285853A CN 202210041391 A CN202210041391 A CN 202210041391A CN 114285853 A CN114285853 A CN 114285853A
- Authority
- CN
- China
- Prior art keywords
- task
- local
- agent
- iiot
- time slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本本发明公开了设备密集型工业物联网中基于端边云协同的任务卸载方法,具体步骤如下:步骤1:设置系统模型的各参数;步骤2:采用ISAC‑DMDRL算法来为每个IIoT设备做出最优决策。该算法首先将分布式RL和SAC算法相结合,解决了传统SAC算法对Q值的过估计或低估计问题;然后,采用CTDE框架将改进后的SAC算法扩展到多智能体场景中,解决了多智能体DRL中存在的非平稳性和可扩展性问题;此外,采用了一种值函数分解思想,解决了传统CTDE架构中的集中式‑分布式不匹配问题和多智能体信用分配问题。本发明可有效减少工业物联网中所有设备的任务执行延迟和能耗,平衡边缘服务器的工作负载,提高资源利用率,适用于大规模设备密集型工业物联网场景。
Description
技术领域
本发明涉及设备密集型工业物联网中的协同任务卸载方法,属于工业物联网的边缘计算领域。
背景技术
作为物联网(Internet of Things,IoT)的重要组成部分,工业物联网(Industrial IoT,IIoT)将具有感知、通信和处理能力的大量异构IIoT设备(例如,智能传感器、机器、仪器仪表、机器人和车辆)、以及人工智能和大数据技术等融入到工业生产过程中,以提高制造效率和降低生产成本。因此,IIoT已经成为一种支持工业4.0的有前景范式。然而,由于IIoT设备的计算能力和电池容量有限,难以执行计算密集型和延迟敏感型IIoT应用。在传统的云计算的方案中,IIoT设备需要将其任务卸载到远程云计算服务器(CloudComputing Servers,CCS),因此,随着IIoT设备和任务的数量的增加,数据流量急剧增加,造成了网络拥塞,导致了更高的任务执行延迟和更低的服务质量(Quality of Service,QoS)。
针对以上问题,边缘计算技术已经成为一种有效的解决方案,该技术将边缘计算服务器(Edge Computing Servers,ECS)部署到IIoT设备附近,使得用户可以直接将任务卸载到ECSs上,以满足IIoT应用对实时性、安全性和可靠性的要求,同时缓解了网络拥塞,降低任务执行延迟,提升QoS。然而,单个ECS的计算能力通常有限,并且由于IIoT网络的异构特性,ECSs的工作负载各不相同。因此,可以利用多个ECSs之间的协作来平衡ECS的工作负载,避免计算资源的浪费。此外,考虑到CCSs的丰富计算资源,ECSs和CCSs之间的协作可以进一步提高资源利用率,降低任务执行延迟,特别是当所有ECSs的计算资源均不足时。因此,需要联合考虑端-边、边-边、边-云之间的协同任务卸载。
真实的IIoT环境通常是动态和不可预测的(如时变的任务参数、IIoT设备状态和信道增益),针对这一特性,强化学习(Reinforcement Learning,RL)已经成为一种有前景的解决方案。RL通过与动态环境进行交互来学习最佳策略,而无需关于环境动态的先验知识。然而,传统的RL算法仅适用于具有完全可观察、低维状态空间的环境,而真实的IIoT环境通常具有高维、连续状态空间,并且难以从IIoT环境中提取所有的有用特征。幸运的是,深度强化学习(Deep Reinforcement Learning,DRL)集成了深度神经网络(Deep NeuralNetwork,DNN)强大的特征提取能力以及RL强大的决策能力,具体来说,DRL利用DNN模型来逼近RL中的策略函数和值函数,能够从大型高维、连续状态空间中学习到最佳策略,因此,DRL适用于真实的IIoT环境。
然而,传统的单智能体DRL方法通常需要一个集中式控制器来为所有IIoT设备做出任务卸载决策,随着IIoT设备和ECS数量的增加,该方法的计算复杂度急剧增加,因此不适用于设备密集型IIoT环境。为了解决上述问题,可以采用多智能体DRL方法,其中,每个IIoT设备都是一个智能体,能独立做出任务卸载决策。多智能体DRL主要面临两个重要挑战:(1)非平稳性:在训练过程中,智能体之间会相互影响,每个智能体的奖励和状态转移不仅依赖于自身的当前状态和动作,还依赖于其他智能体的动作,这打破了单智能体DRL所遵循的马尔科夫性质,导致每个智能体所面对的环境变得非平稳;(2)可扩展性:为了解决非平稳性问题,每个智能体需要考虑联合动作空间,其维度随着智能体数量的增加而急剧增加,导致了算法的可扩展性问题。为了应对上述的两种挑战,采用一种集中式训练-分布式执行(Centralized Training Decentralized Execution,CTDE)架构,其中,在训练阶段,采用一个集中式控制器来收集所有智能体的全局信息(即联合观察、联合动作和联合奖励),以学习每个智能体的策略函数。训练结束后,在执行阶段,每个智能体仅根据自身的局部观察和策略函数来做出决策。
此外,传统的CTDE架构主要面临两个重要问题:(1)集中式-分布式不匹配问题:某个智能体u的策略梯度更新依赖于集中式critic网络,一方面,其他智能体的次优策略会对智能体u的策略学习产生负面影响,另一方面,智能体u的次优策略可以通过集中式critic网络进行传播,并对其他智能体的策略学习产生负面影响;(2)多智能体信用分配问题:由联合动作所产生的联合奖励,使得每个智能体很难推断自己对联合奖励的贡献,无法鼓励某些智能体为了更大的联合奖励而牺牲自己。
发明内容
针对现有技术的不足,本发明提供了设备密集型工业物联网中基于端边云协同的任务卸载方法,是一种分布式方法。该方法首先将分布式RL的思想引入到单智能体软演员-评论家(soft actor-critic,SAC)算法中,通过学习软状态动作回报的分布函数来提高Q值的估计精度,改进了传统的单智能体SAC算法对Q值的过估计或低估计问题。然后,该方法将改进后的SAC算法扩展到多智能体场景中。为了解决多智能体DRL中存在的非平稳性和可扩展性问题,采用了一种CTDE架构。此外,该方法采用了一种值函数分解思想,该思想将一个集中式critic网络分解为单个critic网络的线性加权和,来自动学习每个智能体的局部软Q值函数,可以有效解决传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种设备密集型工业物联网中基于端边云协同的任务卸载方法,其步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用基于改进的SAC的分布式多智能体DRL(Improved SAC-basedDecentralized Multi-agent DRL,ISAC-DMDRL)算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法首先将分布式RL和单智能体SAC算法相结合,有效解决了传统的单智能体SAC算法对Q值的过估计或低估计问题;然后,该算法采用CTDE框架将改进后的SAC算法扩展到多智能体场景中,有效解决了多智能体DRL中存在的非平稳性和可扩展性问题;此外,该算法采用了一种值函数分解思想,有效解决了传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。
优选地,所述步骤1的具体步骤如下:
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BS m表示,每个BS m上配备了一个ECS,每个ECS用符号ECS m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc;
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BS m中的每个IIoT设备u会随机产生一个计算任务其中表示任务输入数据大小,表示计算该任务所需要的CPU周期数;定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为对应数量为在时隙t每个设备u和每个ECS m均维护一个先进先出的任务队列和分别表示在时隙t开始时设备u和ECS m尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BS m内的IIoT设备的卸载决策为其中表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例,表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,表示将任务从本地ECS m卸载到CCSs c的任务卸载比例;
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECS m上,所需要的上行传输延迟为
然后,当本地ECS m接收到部分任务时,在本地ECS m上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
其中,表示在时隙t其任务优先于任务到达ECS m的本地设备的集合,表示在时隙t其任务优先于任务到达ECS m的非本地设备的集合,这些集合可通过排序算法来获得。在时隙t本地ECS m的任务队列可以表示为
然后,在本地ECS m上的计算延迟为
因此,任务执行延迟为
1.5.3协作式边缘计算:当本地ECS m的计算资源不足时,将部分任务卸载到某个非本地ECS n上,以平衡ECS的工作负载;定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为
然后,当非本地ECS n接收到部分任务时,在非本地ECS n上的任务执行延迟包括等待延迟和计算延迟,与公式(6)类似,等待延迟为
因此,任务执行延迟为
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECS m需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为
然后,在CCSs c上的任务计算延迟为
因此,在时隙t内IIoT设备u的总能耗为
优选地,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程(Dec-POMDP),将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组<U,S,O,A,R,Pr,C>来表示,其中
U表示U个智能体的集合,且
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察Ou表示智能体u的局部观察空间,包括智能体u的任务参数任务队列状态计算能力发射功率上行SNR值执行一个CPU周期所消耗的能量剩余电池电量所获得的能量最大电池容量为每个子信道的带宽βw、每个ECS的任务队列状态每个ECS的计算能力fm、云服务器的计算能力fc、每个BS m和SDN控制器s之间的数据传输速率SDN控制器s和云服务器c之间的数据传输速率在时隙t所有智能体的局部观察构成一个联合观察ot;
A表示所有智能体的联合动作空间:在获得自身的局部观察之后,每个智能体u将选择一个动作来做出任务卸载决策,Au表示智能体u的动作空间。包括智能体u的卸载决策 在时隙t所有智能体的动作构成一个联合动作at;
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络(参数为μu)、一个局部目标actor网络(参数为)和一个局部评估critic网络(参数为ψu),SDN控制器包括一个集中式评估critic网络(参数为ψ)、一个集中式目标critic网络(参数为)、一个评估混合网络(参数为ε)和一个目标混合网络(参数为)。其中,表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的构成一个联合评估策略函数πμ(参数为μ=<μ1,μ2,...,μU>)。表示智能体u的目标策略函数,所有智能体的构成一个联合目标策略函数(参数为 表示智能体u的局部评估软Q值函数,表示全局软状态动作回报的评估分布函数,表示全局软状态动作回报的目标分布函数,负责将全局评估软Q值函数分解成每个智能体u的的线性加权和,即
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络的参数μu、集中式评估critic网络的参数ψ、评估混合网络的参数ε、每个智能体u的局部目标actor网络的参数 集中式目标critic网络的参数目标混合网络参数episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,...,NE}时,执行2.2.3;
2.2.3当t∈{1,2,...,NS}时,执行2.2.4;
2.2.5在执行动作之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,,每个智能体u会获得下一个局部观察然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.7如果t%RP==0,则执行2.2.8;
其中,联合动作at+1是根据联合目标策略函数来随机选择的。然后,采用小批量梯度下降法来最小化Loss(ψ);然而,当的方差趋于0或趋于∞时,会分别发生梯度爆炸和梯度消失问题。为了解决该问题,需要将所产生的全局软状态动作回报的目标值限制在附近;参数ψ的更新公式为
2.2.10如果t%UP==0,则执行2.2.11;
其中,at~πμ(·|ot),为了计算梯度需要对进行采样。然而,是带有参数μu的,如果直接采样,会丧失μu的梯度信息,从而导致无法更新参数μu。因此,采用重参数化技巧来计算梯度该方法可以降低梯度估计方差。具体来说,首先从一个标准正态分布中随机抽取一个样本然后,使用策略的均值和标准差来计算(即重新参数化策略),即
其中,⊙表示哈达玛积。参数μ的更新公式为
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
2.2.14当t∈{1,2,...,T}时,执行2.2.15;
有益效果:本发明提供了设备密集型工业物联网中的协同任务卸载方法,可以有效减少工业物联网中所有设备的任务执行延迟和能耗,平衡边缘服务器的工作负载,提高资源利用率,具有良好的平稳性和可扩展性,适用于大规模设备密集型的工业物联网场景。
附图说明
图1为步骤1.1和1.3中基于端边云协同的任务卸载框架的网络模型。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
一种设备密集型工业物联网中的协同任务卸载方法,具体步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法首先将分布式RL和单智能体SAC算法相结合,有效解决了传统的单智能体SAC算法对Q值的过估计或低估计问题;然后,该算法采用CTDE框架将改进后的SAC算法扩展到多智能体场景中,有效解决了多智能体DRL中存在的非平稳性和可扩展性问题;此外,该算法采用了一种值函数分解思想,有效解决了传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。
优选地,所述步骤1中具体步骤如下:
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BS m表示,每个BS m上配备了一个ECS,每个ECS用符号ECS m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc;
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BS m中的每个IIoT设备u会随机产生一个计算任务其中表示任务输入数据大小,表示计算该任务所需要的CPU周期数;定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为对应数量为在时隙t每个设备u和每个ECS m均维护一个先进先出的任务队列和分别表示在时隙t开始时设备u和ECS m尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BS m内的IIoT设备的卸载决策为其中表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例,表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,表示将任务从本地ECS m卸载到CCSs c的任务卸载比例;
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECS m上,所需要的上行传输延迟为
然后,当本地ECS m接收到部分任务时,在本地ECS m上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
其中,表示在时隙t其任务优先于任务到达ECS m的本地设备的集合,表示在时隙t其任务优先于任务到达ECS m的非本地设备的集合,这些集合可通过排序算法来获得。在时隙t本地ECS m的任务队列可以表示为
然后,在本地ECS m上的计算延迟为
因此,任务执行延迟为
1.5.3协作式边缘计算:当本地ECS m的计算资源不足时,将部分任务卸载到某个非本地ECS n上,以平衡ECS的工作负载;定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为
然后,当非本地ECS n接收到部分任务时,在非本地ECS n上的任务执行延迟包括等待延迟和计算延迟,与公式(6)类似,等待延迟为
因此,任务执行延迟为
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECS m需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为
然后,在CCSs c上的任务计算延迟为
因此,在时隙t内IIoT设备u的总能耗为
优选地,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程(Dec-POMDP),将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组<U,S,O,A,R,Pr,C>来表示,其中
U表示U个智能体的集合,且
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察Ou表示智能体u的局部观察空间,包括智能体u的任务参数任务队列状态计算能力发射功率上行SNR值执行一个CPU周期所消耗的能量剩余电池电量所获得的能量最大电池容量为每个子信道的带宽βw、每个ECS的任务队列状态每个ECS的计算能力fm、云服务器的计算能力fc、每个BS m和SDN控制器s之间的数据传输速率SDN控制器s和云服务器c之间的数据传输速率在时隙t所有智能体的局部观察构成一个联合观察ot;
A表示所有智能体的联合动作空间:在获得自身的局部观察之后,每个智能体u将选择一个动作来做出任务卸载决策,Au表示智能体u的动作空间。包括智能体u的卸载决策 在时隙t所有智能体的动作构成一个联合动作at;
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络(参数为μu)、一个局部目标actor网络(参数为)和一个局部评估critic网络(参数为ψu),SDN控制器包括一个集中式评估critic网络(参数为ψ)、一个集中式目标critic网络(参数为)、一个评估混合网络(参数为ε)和一个目标混合网络(参数为)。其中,表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的构成一个联合评估策略函数πμ(参数为μ=<μ1,μ2,...,μU>)。表示智能体u的目标策略函数,所有智能体的构成一个联合目标策略函数(参数为 表示智能体u的局部评估软Q值函数,表示全局软状态动作回报的评估分布函数,表示全局软状态动作回报的目标分布函数,负责将全局评估软Q值函数分解成每个智能体u的的线性加权和,即
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络的参数μu、集中式评估critic网络的参数ψ、评估混合网络的参数ε、每个智能体u的局部目标actor网络的参数μu、集中式目标critic网络的参数目标混合网络参数episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,...,NE}时,执行2.2.3;
2.2.3当t∈{1,2,...,NS}时,执行2.2.4;
2.2.5在执行动作之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,,每个智能体会获得下一个局部观察然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.7如果t%RP==0,则执行2.2.8;
其中,联合动作at+1是根据联合目标策略函数来随机选择的。然后,采用小批量梯度下降法来最小化Loss(ψ);然而,当的方差趋于0或趋于∞时,会分别发生梯度爆炸和梯度消失问题。为了解决该问题,需要将听产生的全局软状态动作回报的目标值限制在附近;参数ψ的更新公式为
2.2.10如果t%UP==0,则执行2.2.11;
其中,at~πμ(·|ot),为了计算梯度需要对进行采样。然而,是带有参数μu的,如果直接采样,会丧失μu的梯度信息,从而导致无法更新参数μu。因此,采用重参数化技巧来计算梯度该方法可以降低梯度估计方差。具体来说,首先从一个标准正态分布中随机抽取一个样本然后,使用策略的均值和标准差来计算(即重新参数化策略),即
其中,⊙表示哈达玛积。参数μ的更新公式为
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
2.2.14当t∈{1,2,...,T}时,执行2.2.15;
本发明中提及的方法均属于本领域技术人员掌握的常规技术手段,故而未加详述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (2)
1.一种设备密集型工业物联网中基于端边云协同的任务卸载方法,其特征在于,具体步骤如下:
步骤1:设置系统模型的各参数;
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号BSm表示,每个BSm上配备了一个ECS,每个ECS用符号ECSm表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层,SDN控制器负责对网络数据流进行集中式管理和控制;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc;
1.2将整个时间轴划分为T个长度均为L的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BSm中的每个IIoT设备u会随机产生一个计算任务其中表示任务输入数据大小,表示计算该任务所需要的CPU周期数;定义在时隙t在BSm内产生计算任务的所有IIoT设备的集合为对应数量为在时隙t每个设备u和每个ECSm均维护一个先进先出的任务队列和分别表示在时隙t开始时设备u和ECSm尚未执行的任务所需要的CPU周期数;采用基于端边云协同的部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BSm内的IIoT设备的卸载决策为其中表示将任务从IIoT设备u卸载到本地ECSm的任务卸载比例,表示将任务从本地ECSm卸载到某个非本地ECSn∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,表示将任务从本地ECSm卸载到CCSs c的任务卸载比例;
1.5设置延迟模型:考虑四种情况下的任务执行延迟模型,即本地计算、本地边缘计算、协作式边缘计算和云计算,其中
1.5.2本地边缘计算:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECSm上,所需要的上行传输延迟为
然后,当本地ECSm接收到部分任务时,在本地ECSm上的任务执行延迟包括等待延迟和计算延迟,其中,等待延迟为
然后,在本地ECSm上的计算延迟为
因此,任务执行延迟为
1.5.3协作式边缘计算:当本地ECSm的计算资源不足时,将部分任务卸载到某个非本地ECSn上,以平衡ECS的工作负载;定义在时隙t本地ECSm将部分任务卸载到某个非本地ECSn的传输延迟为
然后,当非本地ECSn接收到部分任务时,在非本地ECSn上的任务执行延迟包括等待延迟和计算延迟,等待延迟为
因此,任务执行延迟为
1.5.4云计算:当所有ECS上的计算资源均不足时,本地ECSm需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECSm将部分任务卸载到CCSs c的传输延迟为
然后,在CCSs c上的任务计算延迟为
然后,当IIoT设备u将部分任务卸载到本地ECSm上时,设备u的通信能耗为
因此,在时隙t内IIoT设备u的总能耗为
步骤2:采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。
2.根据权利要求1所述的设备密集型工业物联网中基于端边云协同的任务卸载方法,其特征在于,所述步骤2中ISAC-DMDRL算法的具体步骤如下:
2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程,将每个IIoT设备视为一个智能体,每个智能体只能观察到局部环境状态,并通过与环境交互来学习自身的最优策略,优化目标是最大化系统的长期累积折扣奖励;该过程用一个七元组<U,S,O,A,R,Pr,C>来表示,其中
U表示U个智能体的集合,且
S表示全局状态空间:定义在时隙t环境的全局状态为st∈S;
O表示所有智能体的联合观察空间:在时隙t,每个智能体u从环境的全局状态st中获得自身的局部观察Ou表示智能体u的局部观察空间,包括智能体u的任务参数任务队列状态计算能力发射功率上行SNR值执行一个CPU周期所消耗的能量剩余电池电量所获得的能量最大电池容量为每个子信道的带宽βw、每个ECS的任务队列状态每个ECS的计算能力fm、云服务器的计算能力fc、每个BSm和SDN控制器s之间的数据传输速率SDN控制器s和云服务器c之间的数据传输速率在时隙t所有智能体的局部观察构成一个联合观察ot;
A表示所有智能体的联合动作空间:在获得自身的局部观察之后,每个智能体u将选择一个动作来做出任务卸载决策,Au表示智能体u的动作空间;包括智能体u的卸载决策 在时隙t所有智能体的动作构成一个联合动作at;
即系统总成本越大,联合奖励值越小;
Pr表示全局状态转移概率函数:即所有智能体从当前全局状态st下执行联合动作at之后,环境转移到下一全局状态st+1的概率,且
2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策;在ISAC-DMDRL算法中,每个智能体u均包括一个局部评估actor网络参数为μu;一个局部目标actor网络参数为和一个局部评估critic网络参数为ψu;SDN控制器包括一个集中式评估critic网络参数为ψ;一个集中式目标critic网络参数为一个评估混合网络参数为ε;和一个目标混合网络参数为其中,表示智能体u的评估策略函数,用来为智能体u选择一个动作,所有智能体的构成一个联合评估策略函数πμ、参数为μ=<μ1,μ2,...,μU>;表示智能体u的目标策略函数,所有智能体的构成一个联合目标策略函数参数为表示智能体u的局部评估软Q值函数,表示全局软状态动作回报的评估分布函数,表示全局软状态动作回报的目标分布函数,负责将全局评估软Q值函数分解成每个智能体u的的线性加权和,即
ISAC-DMDRL算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化每个智能体u的局部评估actor网络的参数μu、集中式评估critic网络的参数ψ、评估混合网络的参数ε、每个智能体u的局部目标actor网络的参数 集中式目标critic网络的参数目标混合网络参数episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值目标网络的平滑系数θ、更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,…,NE}时,执行2.2.3;
2.2.3当t∈{1,2,…,NS}时,执行2.2.4;
2.2.5在执行动作之后,每个智能体u均获得了一个由所有智能体所共享的联合即时奖励Rt(ot,at),并且环境转移到下一个全局状态st+1,每个智能体u会获得下一个局部观察然后将全局经验样本et=(ot,at,Rt(ot,at),ot+1)存储到经验重放池中;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.10如果t%UP==0,则执行2.2.11;
其中,⊙表示哈达玛积;参数μ的更新公式为
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数,即
其中,θ表示目标网络的平滑系数,满足θ∈(0,1),且θ<<1;
2.2.14当t∈{1,2,…,T}时,执行2.2.15;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041391.6A CN114285853B (zh) | 2022-01-14 | 2022-01-14 | 设备密集型工业物联网中基于端边云协同的任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041391.6A CN114285853B (zh) | 2022-01-14 | 2022-01-14 | 设备密集型工业物联网中基于端边云协同的任务卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114285853A true CN114285853A (zh) | 2022-04-05 |
CN114285853B CN114285853B (zh) | 2022-09-23 |
Family
ID=80880951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210041391.6A Active CN114285853B (zh) | 2022-01-14 | 2022-01-14 | 设备密集型工业物联网中基于端边云协同的任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114285853B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115237506A (zh) * | 2022-09-21 | 2022-10-25 | 暨南大学 | Cps系统中可靠性驱动的分层任务卸载方法和装置 |
CN115242838A (zh) * | 2022-07-20 | 2022-10-25 | 重庆交通大学 | 一种车载边缘计算中服务协同卸载的方法 |
CN115499440A (zh) * | 2022-09-14 | 2022-12-20 | 广西大学 | 基于经验共享深度强化学习的无服务器边缘任务卸载方法 |
CN115934192A (zh) * | 2022-12-07 | 2023-04-07 | 江苏信息职业技术学院 | 一种面向b5g/6g网络的车联网多类型任务协作卸载方法 |
CN117130693A (zh) * | 2023-10-26 | 2023-11-28 | 之江实验室 | 张量卸载方法、装置、计算机设备及存储介质 |
CN117270485A (zh) * | 2023-11-23 | 2023-12-22 | 中国科学院数学与系统科学研究院 | 一种面向工业互联网场景的分布式多机动作协同控制方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111970733A (zh) * | 2020-08-04 | 2020-11-20 | 河海大学常州校区 | 超密集网络中基于深度强化学习的协作式边缘缓存算法 |
CN113573324A (zh) * | 2021-07-06 | 2021-10-29 | 河海大学 | 工业物联网中协作式任务卸载和资源分配的联合优化方法 |
WO2021233053A1 (zh) * | 2020-05-22 | 2021-11-25 | 华为技术有限公司 | 计算卸载的方法和通信装置 |
-
2022
- 2022-01-14 CN CN202210041391.6A patent/CN114285853B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021233053A1 (zh) * | 2020-05-22 | 2021-11-25 | 华为技术有限公司 | 计算卸载的方法和通信装置 |
CN111970733A (zh) * | 2020-08-04 | 2020-11-20 | 河海大学常州校区 | 超密集网络中基于深度强化学习的协作式边缘缓存算法 |
CN113573324A (zh) * | 2021-07-06 | 2021-10-29 | 河海大学 | 工业物联网中协作式任务卸载和资源分配的联合优化方法 |
Non-Patent Citations (1)
Title |
---|
JINMING SHI等: "Priority-Aware Task Offloading in Vehicular Fog Computing Based on Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115242838A (zh) * | 2022-07-20 | 2022-10-25 | 重庆交通大学 | 一种车载边缘计算中服务协同卸载的方法 |
CN115242838B (zh) * | 2022-07-20 | 2024-03-15 | 重庆交通大学 | 一种车载边缘计算中服务协同卸载的方法 |
CN115499440A (zh) * | 2022-09-14 | 2022-12-20 | 广西大学 | 基于经验共享深度强化学习的无服务器边缘任务卸载方法 |
CN115237506A (zh) * | 2022-09-21 | 2022-10-25 | 暨南大学 | Cps系统中可靠性驱动的分层任务卸载方法和装置 |
CN115934192A (zh) * | 2022-12-07 | 2023-04-07 | 江苏信息职业技术学院 | 一种面向b5g/6g网络的车联网多类型任务协作卸载方法 |
CN115934192B (zh) * | 2022-12-07 | 2024-03-26 | 江苏信息职业技术学院 | 一种面向b5g/6g网络的车联网多类型任务协作卸载方法 |
CN117130693A (zh) * | 2023-10-26 | 2023-11-28 | 之江实验室 | 张量卸载方法、装置、计算机设备及存储介质 |
CN117130693B (zh) * | 2023-10-26 | 2024-02-13 | 之江实验室 | 张量卸载方法、装置、计算机设备及存储介质 |
CN117270485A (zh) * | 2023-11-23 | 2023-12-22 | 中国科学院数学与系统科学研究院 | 一种面向工业互联网场景的分布式多机动作协同控制方法 |
CN117270485B (zh) * | 2023-11-23 | 2024-02-06 | 中国科学院数学与系统科学研究院 | 一种面向工业互联网场景的分布式多机动作协同控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114285853B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113573324B (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
CN114285853B (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
CN110347500B (zh) | 用于边缘计算环境中面向深度学习应用的任务卸载方法 | |
CN113950066B (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN113873022A (zh) | 一种可划分任务的移动边缘网络智能资源分配方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN113543156B (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
WO2023040022A1 (zh) | 一种在随机网络中基于算网协同的分布式计算卸载方法 | |
CN111918339A (zh) | 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 | |
CN110955463A (zh) | 支持边缘计算的物联网多用户计算卸载方法 | |
CN112214301B (zh) | 面向智慧城市基于用户偏好的动态计算迁移方法及装置 | |
CN111132074A (zh) | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 | |
CN114625504A (zh) | 一种基于深度强化学习的车联网边缘计算服务迁移方法 | |
CN114860337B (zh) | 一种基于元强化学习算法的计算卸载方法 | |
CN114205353A (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN115499441A (zh) | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 | |
CN116233927A (zh) | 一种在移动边缘计算中负载感知的计算卸载节能优化方法 | |
CN114172558B (zh) | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 | |
CN113973113A (zh) | 一种面向移动边缘计算的分布式服务迁移方法 | |
CN111930435B (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN116954866A (zh) | 基于深度强化学习的边缘云下任务调度方法及系统 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
WO2024065903A1 (zh) | 多约束边环境下计算卸载与资源分配联合优化系统及方法 | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |