CN113573324B - 工业物联网中协作式任务卸载和资源分配的联合优化方法 - Google Patents

工业物联网中协作式任务卸载和资源分配的联合优化方法 Download PDF

Info

Publication number
CN113573324B
CN113573324B CN202110761258.3A CN202110761258A CN113573324B CN 113573324 B CN113573324 B CN 113573324B CN 202110761258 A CN202110761258 A CN 202110761258A CN 113573324 B CN113573324 B CN 113573324B
Authority
CN
China
Prior art keywords
task
iiot
local
network
time slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110761258.3A
Other languages
English (en)
Other versions
CN113573324A (zh
Inventor
韩光洁
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110761258.3A priority Critical patent/CN113573324B/zh
Publication of CN113573324A publication Critical patent/CN113573324A/zh
Application granted granted Critical
Publication of CN113573324B publication Critical patent/CN113573324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/20Negotiating bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了工业物联网中协作式任务卸载和资源分配的联合优化方法,具体步骤如下:步骤1:设置系统模型的各参数;步骤2:采用CTORA算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法结合了SAC算法、分布式RL和优先级经验重放技术,有效解决了传统SAC算法对Q值的过估计或低估计问题,提高了学习效率。本发明可有效减少工业物联网中所有设备的任务执行延迟和能耗,平衡边缘服务器的工作负载,提高计算和通信资源利用率。

Description

工业物联网中协作式任务卸载和资源分配的联合优化方法
技术领域
本发明涉及工业物联网中协作式任务卸载和资源分配的联合优化方法,属于工业物联网的边缘计算领域。
背景技术
作为物联网(Internet of Things,IoT)的重要组成部分,工业物联网(Industrial IoT,IIoT)将具有感知、通信和处理能力的大量异构IIoT设备(例如,智能传感器、机器、仪器仪表、机器人和车辆)、以及人工智能和大数据技术等融入到工业生产过程中,以提高制造效率和降低生产成本。因此,IIoT已经成为一种支持工业4.0的有前景范式。然而,由于IIoT设备的计算能力和电池容量有限,难以执行计算密集型和延迟敏感型IIoT应用。在传统的云计算的方案中,IIoT设备需要将其任务卸载到远程云计算服务器(CloudComputing Servers,CCS),因此,随着IIoT设备和任务的数量的增加,数据流量急剧增加,这给回程链路和核心网造成了巨大负担,导致了更高的任务执行延迟和更低的服务质量(Quality of Service,QoS)。
针对以上问题,边缘计算技术已经成为一种有效的解决方案,该技术将边缘计算服务器(Edge Computing Servers,ECS)部署到IIoT设备附近,使得用户可以直接将任务卸载到ECSs上,而无需通过回程链路和核心网将任务卸载到远程CCSs上,从而缓解了网络拥塞,降低任务执行延迟,提升QoS。然而,单个ECS的计算能力通常有限,并且由于IIoT网络的异构特性,ECSs的工作负载各不相同。因此,可以利用多个ECSs之间的协作来平衡ECS的工作负载,避免计算资源的浪费。此外,考虑到CCSs的丰富计算资源,ECSs和CCSs之间的协作可以进一步提高资源利用率,降低任务执行延迟,特别是当所有ECSs的计算资源均不足时。
真实的IIoT环境通常是动态和不可预测的(如时变的任务参数、IIoT设备状态和信道增益),针对这一特性,强化学习(Reinforcement Learning,RL)已经成为一种有前景的解决方案。RL通过与动态环境进行交互来学习最佳策略,而无需关于环境动态的先验知识。然而,传统的RL算法仅适用于具有完全可观察、低维状态空间的环境,而真实的IIoT环境通常具有高维、连续状态空间,并且难以从IIoT环境中提取所有的有用特征。幸运的是,深度强化学习(Deep Reinforcement Learning,DRL)集成了深度神经网络(Deep NeuralNetwork,DNN)强大的特征提取能力以及RL强大的决策能力,具体来说,DRL利用DNN模型来逼近RL中的策略函数和值函数,能够从大型高维、连续状态空间中学习到最佳策略,因此,DRL适用于真实的IIoT环境。
现有的研究大多集中在优化任务卸载决策上,而未考虑计算和通信资源的分配。事实上,任务卸载和资源分配是相辅相成、相互影响的,一方面,任务卸载决策会影响资源分配的优化结果,另一方面,多个IIoT设备对资源的竞争会影响任务卸载决策。因此,需要对任务卸载和资源分配进行联合优化。
发明内容
针对现有技术的不足,本发明提供了IIoT中协作式任务卸载和资源分配的联合优化方法(Cooperative Task Offloading and Resource Allocation,CTORA),是一种集中式方法。该方法将分布式RL的思想引入到软演员-评论家(soft actor-critic,SAC)算法中,通过学习状态动作回报的分布函数来提高Q值的估计精度,改进了传统SAC算法对Q值的过估计或低估计问题。此外,该方法采用了一种优先级经验重放技术,该技术通过更频繁地采样重要的经验样本来提高学习效率。
为达到上述目的,本发明的技术方案是这样实现的:
一种工业物联网中协作式任务卸载和资源分配的联合优化方法,其步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用CTORA算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法结合了SAC算法、分布式RL和优先级经验重放技术,有效解决了传统SAC算法对Q值的过估计或低估计问题,提高了学习效率;
优选地,所述步骤1的具体步骤如下:
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备(如仪器仪表、智能机器、机器人、传感器、智能汽车等),每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS(即M个小区)和一个SDN控制器,每个BS用符号m表示,每个BS m上配备了一个ECS,每个ECS也用符号m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层;SDN控制器负责收集环境状态信息,并为每个IIoT设备做出任务卸载和资源分配决策;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc
1.2将整个时间轴划分为T个长度相同的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数(如任务参数、IIoT设备参数、信道增益)保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BS m中的每个IIoT设备u会随机产生一个计算任务
Figure BDA0003149888370000041
其中
Figure BDA0003149888370000042
表示任务输入数据大小,
Figure BDA0003149888370000043
表示任务计算量(即计算该任务所需要的CPU周期数),
Figure BDA0003149888370000044
表示任务的最大容许延迟;定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为
Figure BDA0003149888370000045
对应数量为
Figure BDA0003149888370000046
采用协作式部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BS m内的IIoT设备
Figure BDA0003149888370000051
的卸载决策为
Figure BDA0003149888370000052
其中
Figure BDA0003149888370000053
表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例,
Figure BDA0003149888370000054
∈[0,1]表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,
Figure BDA0003149888370000055
表示将任务从本地ECS m卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,且频带宽度为Bw;采用正交频分复用技术将频带宽度Bw划分成多个正交子信道;从而避免了同一BS内的多设备干扰。此外,由于每个BS的覆盖半径相同,且BS之间的覆盖范围不相互重叠,因此避免了不同BS之间的干扰。定义在时隙t在BS m内的IIoT设备u的带宽资源分配决策为
Figure BDA0003149888370000056
当设备u本地执行整个任务时,则无需为其分配带宽资源,即
Figure BDA0003149888370000057
定义在时隙t内IIoT设备u与本地BS m之间的上行SNR值为
Figure BDA0003149888370000058
Figure BDA0003149888370000059
其中,
Figure BDA00031498883700000510
表示IIoT设备u的发射功率,
Figure BDA00031498883700000511
表示BS m与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BS m之间的上行数据传输速率为
Figure BDA00031498883700000512
Figure BDA00031498883700000513
定义每个BS m和SDN控制器s之间的数据传输速率均为常数θm,s,SDN控制器s和CCSs c之间的数据传输速率为常数θs,c,且θm,ss,c
1.5设置计算模型:采用四种计算模型,即本地计算模型、本地边缘计算模型、协作式边缘计算模型和云计算模型,其中
1.5.1本地计算模型:定义在BS m内的IIoT设备u的计算能力为
Figure BDA0003149888370000061
当任务
Figure BDA0003149888370000062
在IIoT设备u上本地执行时,任务的执行延迟为
Figure BDA0003149888370000063
1.5.2本地边缘计算模型:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECS m上,所需要的上行传输延迟为
Figure BDA0003149888370000064
然后,定义在时隙t本地ECS m为部分任务所分配的计算资源为
Figure BDA0003149888370000065
因此,在本地ECS m上的任务计算延迟为
Figure BDA0003149888370000066
1.5.3协作式边缘计算模型:当本地ECS m的计算资源不足时,将部分任务卸载到某个非本地ECS n上,以平衡ECS的工作负载;定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为
Figure BDA0003149888370000067
定义在时隙t某个非本地ECS n为部分任务所分配的计算资源为
Figure BDA0003149888370000068
因此,在非本地ECS n上的任务计算延迟为
Figure BDA0003149888370000069
1.5.4云计算模型:当所有ECS上的计算资源均不足时,本地ECS m需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为
Figure BDA0003149888370000071
因此,在CCSs c上的任务计算延迟为
Figure BDA0003149888370000072
由于任务计算结果的数据大小通常较小,因此忽略了任务计算结果的下载延迟。定义在时隙t任务
Figure BDA0003149888370000073
的总执行延迟为
Figure BDA0003149888370000074
1.6设置能量模型:当任务
Figure BDA0003149888370000075
在IIoT设备u上本地执行时,设备u的计算能耗为
Figure BDA0003149888370000076
其中,
Figure BDA0003149888370000077
表示IIoT设备u每执行一个CPU周期所消耗的能量;然后,当IIoT设备u将部分任务卸载到本地ECS上时,设备u的通信能耗为
Figure BDA0003149888370000078
因此,在时隙t内IIoT设备u的总能耗为
Figure BDA0003149888370000079
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为
Figure BDA00031498883700000710
设备u的最大电池容量为
Figure BDA00031498883700000711
因此在下一个时隙t+1设备u的剩余电池电量为
Figure BDA00031498883700000712
优选地,所述步骤2中CTORA算法的具体步骤如下:
2.1将协作式任务卸载和资源分配问题描述为一个带约束的马尔可夫决策过程(Constrained Markov Decision Process,CMDP),优化目标是最大化系统的长期累积折扣奖励(也称为回报);CMDP可以用一个五元组<S,A,R,Pr,C>来表示,其中
S表示状态空间:在时隙t,SDN控制器负责收集系统的状态st∈S,包括每个IIoT设备u的任务参数
Figure BDA0003149888370000081
每个设备u的计算能力
Figure BDA0003149888370000082
每个设备u的发射功率
Figure BDA0003149888370000083
每个设备u的上行SNR值
Figure BDA0003149888370000084
每个设备u每执行一个CPU周期所消耗的能量
Figure BDA0003149888370000085
每个设备u的剩余电池电量
Figure BDA0003149888370000086
每个设备u所获得的能量
Figure BDA0003149888370000087
每个设备u的最大电池容量为
Figure BDA0003149888370000088
每个BS的总带宽Bw、每个ECS m的计算能力fw、CCSs c的计算能力fc、每个BS m和SDN控制器s之间的数据传输速率θm,s、SDN控制器s和CCSs c之间的数据传输速率θs,c
A表示动作空间:在接收到系统状态st之后,智能体将选择一个动作at∈A来做出任务卸载和资源分配决策,包括每个设备u的卸载决策
Figure BDA0003149888370000089
每个设备u的带宽资源分配决策
Figure BDA00031498883700000810
每个设备u的本地计算资源分配决策
Figure BDA00031498883700000811
每个设备u的非本地计算资源分配决策
Figure BDA00031498883700000812
R表示奖励:在当前状态st下执行动作at之后,智能体会收到一个即时奖励Rt(st,at),且
Figure BDA00031498883700000813
即系统总成本越大,奖励值越小;
Pr表示状态转移概率:智能体从当前状态st下执行动作at之后,系统转移到下一状态st+1的概率,且
Figure BDA0003149888370000091
C表示约束条件:智能体在每个时隙t所选择的动作at需要满足如下约束(17)—(27),
Figure BDA0003149888370000092
Figure BDA0003149888370000093
Figure BDA0003149888370000094
Figure BDA0003149888370000095
Figure BDA0003149888370000096
Figure BDA0003149888370000097
Figure BDA0003149888370000098
Figure BDA0003149888370000099
Figure BDA00031498883700000910
Figure BDA00031498883700000911
Figure BDA00031498883700000912
2.2由于上述的CMDP具有高维连续状态空间和动作空间以及多模态奖励,因此采用SAC算法来为每个IIoT设备做出任务卸载和资源分配决策。然而,传统的SAC算法存在严重的Q值过估计或低估计问题,从而导致次优的策略,因此采用CTORA算法来为每个IIoT设备做出任务卸载和资源分配决策;CTORA算法框架包括三个模块:评估网络、目标网络和经验重放池;评估网络包括一个评估actor网络πμ(参数为μ)和一个评估critic网络Dψ(参数为ψ),目标网络包括一个目标actor网络
Figure BDA0003149888370000101
(参数为
Figure BDA0003149888370000102
)和一个目标critic网络
Figure BDA0003149888370000103
(参数为
Figure BDA0003149888370000104
);πμ表示所估计的策略函数,用于选择动作;Dψ表示所估计的软状态动作回报的分布函数,用于指导πμ的参数更新;
Figure BDA0003149888370000105
表示目标策略函数,
Figure BDA0003149888370000106
表示软状态动作回报的目标分布函数;通过最小化损失函数来训练Dψ的参数ψ,使得所估计的分布函数接近目标分布函数;通过最大化策略πμ的软Q值来更新πμ的参数μ;经验重放池负责存储每个时间步的经验样本,并通过在每个重放周期内随机抽取一定数量的样本来训练参数ψ和μ;
CTORA算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化评估actor网络πμ的参数μ、评估critic网络Dψ的参数ψ、目标actor网络
Figure BDA0003149888370000107
的参数
Figure BDA0003149888370000108
目标critic网络
Figure BDA0003149888370000109
的参数
Figure BDA00031498883700001010
episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值
Figure BDA00031498883700001011
目标网络的平滑系数θ、(μ、α、
Figure BDA00031498883700001012
Figure BDA00031498883700001013
)更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,…,NE}时,执行2.2.3;
2.2.3当t∈{1,2,…,NS}时,执行2.2.4;
2.2.4收集当前的系统状态st并输入到评估actor网络πμ中,从而输出满足约束的所有可能连续动作的概率分布πμ(·|st);然后,基于πμ(·|st)来随机选择一个动作at并执行;
2.2.5在执行动作at之后,SDN控制器获得了一个即时奖励Rt(st,at),并转移到下一个状态st+1,然后将经验样本et=(st,at,Rt(st,at),st+1)存储到经验重放池中;
2.2.6如果
Figure BDA0003149888370000111
则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8采用优先级经验重放技术来从经验重放池中抽取Z个样本,具体步骤为:
2.2.8.1假设经验重放池中某个经验样本为ei=(si,ai,Ri(si,ai),si+1),定义该经验样本ei的优先级为
Pi=|δi|+∈, (28)
其中,∈>0用于确保每个样本的优先级不为0,δi表示该样本的时间差分(Temporal Difference,TD)误差,即该样本的目标软Q值与估计软Q值之差,根据软贝尔曼方程,样本ei的目标软Q值写成
Figure BDA0003149888370000112
其中,根据目标actor网络
Figure BDA0003149888370000113
来选择动作ai+1,并根据
Figure BDA0003149888370000114
来计算
Figure BDA0003149888370000115
因此,样本ei的TD误差δi
Figure BDA0003149888370000121
其中,根据评估actor网络πμ(·|si)来选择动作ai,并根据E[Dψ(si,ai)]来计算样本ei的估计软Q值Qψ(si,ai);通过公式(28)-(30)来计算出经验重放池中所有样本的优先级;
2.8.2.2采用Sum Tree数据结构来从经验重放池中抽取Z个经验样本,其中最底层的每个叶节点表示每个经验样本的优先级,每个父节点的值等于两个子节点的值之和,最顶层的根节点表示所有样本的优先级之和,每个叶节点下方的括号内容表示该叶节点对应的查询区间,优先级越大的叶节点,包含的区间越宽,被抽取到的可能性更大;具体采样过程为:首先,将根节点的值除以Z,得到Z个优先级区间,然后在每个区间内随机选择一个值,通过自上而下的搜索来判断该值对应于最底层的哪一个叶节点,并选择该叶节点所对应的样本,从而获得Z个经验样本;
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练参数ψ,且
Figure BDA0003149888370000122
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,
Figure BDA0003149888370000123
写成
Figure BDA0003149888370000124
然后,采用小批量梯度下降法来最小化Loss(ψ);为了解决梯度爆炸问题,将
Figure BDA0003149888370000131
的软状态动作回报的取值范围限制在
Figure BDA0003149888370000132
的期望值Qψ(st,at)附近;参数ψ的更新公式为
Figure BDA0003149888370000133
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,定义目标函数J(μ)来训练参数μ,且
J(μ)=E[Qψ(st,at)-αlogπμ(at|st)], (34)
其中,根据E[Dψ(st,at)]来计算Qψ(st,at);然后,通过最大化J(μ)来训练参数μ;为了减少梯度估计方差,采用重参数化技巧来计算梯度值
Figure BDA0003149888370000134
首先从一个已知分布中随机取样一个样本ξt;然后,使用ξt和参数μ来计算at(即对策略πμ进行重参数化),且
at=fμt;st); (35)
目标函数J(μ)写成
J(μ)=E[Qψ(st,fμt;st))-αlogπμ(fμt;st)|st)]; (36)参数μ的更新公式为
Figure BDA0003149888370000135
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
Figure BDA0003149888370000136
其中,
Figure BDA0003149888370000137
表示预设的最小熵阈值。因此,权重α的更新公式为
Figure BDA0003149888370000138
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数
Figure BDA0003149888370000141
Figure BDA0003149888370000142
Figure BDA0003149888370000143
Figure BDA0003149888370000144
其中,θ表示目标网络的平滑系数,满足θ∈(0,1)且θ<<1;
在完成CTORA算法的训练过程之后,获得了评估actor网络的最优权重μ*,然后将训练好的评估actor网络
Figure BDA0003149888370000145
部署到SDN控制器上,执行过程如下:
2.2.14当t∈{1,2,…,T}时,执行2.2.15;
2.2.15SDN控制器收集当前的系统状态st,然后将st输入到训练好的评估actor网络中,输出所有可能连续动作的概率分布
Figure BDA0003149888370000146
然后,基于
Figure BDA0003149888370000147
来随机选择一个动作at并执行;
2.2.16执行动作at之后,SDN控制器获得了一个即时奖励Rt(st,at),并且转移到下一个状态st+1
有益效果:本发明提供了工业物联网中协作式任务卸载和资源分配的联合优化方法,可以有效减少工业物联网中所有设备的任务执行延迟和能耗,平衡边缘服务器的工作负载,提高计算和通信资源利用率。
附图说明
图1为步骤1.1中IIoT中协作式任务卸载和资源分配框架的网络模型;
图2为步骤2.2中CTORA算法的框架;
图3为步骤2.8.2.2中使用数据结构Sum Tree来抽取Z个样本的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
一种工业物联网中协作式任务卸载和资源分配的联合优化方法,具体步骤如下:
步骤1:设置系统模型的各参数;
步骤2:采用CTORA算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本。该算法结合了SAC算法、分布式RL和优先级经验重放技术,有效解决了传统SAC算法对Q值的过估计或低估计问题,提高了学习效率;
优选地,所述步骤1中具体步骤如下:
1.1设置网络模型:如图1所示,网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号m表示,每个BS m上配备了一个ECS,每个ECS也用符号m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层;SDN控制器负责收集环境状态信息,并为每个IIoT设备做出任务卸载和资源分配决策;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc
1.2将整个时间轴划分为T个长度相同的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BS m中的每个IIoT设备u会随机产生一个计算任务
Figure BDA0003149888370000161
其中
Figure BDA0003149888370000162
表示任务输入数据大小,
Figure BDA0003149888370000163
表示任务计算量,
Figure BDA0003149888370000164
表示任务的最大容许延迟;定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为
Figure BDA0003149888370000165
对应数量为
Figure BDA0003149888370000166
采用协作式部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BS m内的IIoT设备
Figure BDA0003149888370000167
的卸载决策为
Figure BDA0003149888370000168
Figure BDA0003149888370000169
其中
Figure BDA00031498883700001610
表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例,
Figure BDA00031498883700001611
表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,
Figure BDA0003149888370000171
Figure BDA0003149888370000172
表示将任务从本地ECS m卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,且频带宽度为Bw;采用正交频分复用技术将频带宽度Bw划分成多个正交子信道;定义在时隙t在BS m内的IIoT设备u的带宽资源分配决策为
Figure BDA0003149888370000173
当设备u本地执行整个任务时,则无需为其分配带宽资源,即
Figure BDA0003149888370000174
定义在时隙t内IIoT设备u与本地BS m之间的上行SNR值为
Figure BDA0003149888370000175
Figure BDA0003149888370000176
其中,
Figure BDA0003149888370000177
表示IIoT设备u的发射功率,
Figure BDA0003149888370000178
表示BS m与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BS m之间的上行数据传输速率为
Figure BDA0003149888370000179
Figure BDA00031498883700001710
定义每个BS m和SDN控制器s之间的数据传输速率均为常数θm,s,SDN控制器s和CCSs c之间的数据传输速率为常数θs,c,且θm,ss,c
1.5设置计算模型:采用四种计算模型,即本地计算模型、本地边缘计算模型、协作式边缘计算模型和云计算模型,其中
1.5.1本地计算模型:定义在BS m内的IIoT设备u的计算能力为
Figure BDA00031498883700001711
当任务
Figure BDA00031498883700001712
在IIoT设备u上本地执行时,任务的执行延迟为
Figure BDA00031498883700001713
1.5.2本地边缘计算模型:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECS m上,所需要的上行传输延迟为
Figure BDA0003149888370000181
然后,定义在时隙t本地ECS m为部分任务所分配的计算资源为
Figure BDA0003149888370000182
因此,在本地ECS m上的任务计算延迟为
Figure BDA0003149888370000183
1.5.3协作式边缘计算模型:当本地ECS m的计算资源不足时,将部分任务卸载到某个非本地ECS n上,以平衡ECS的工作负载;定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为
Figure BDA0003149888370000184
定义在时隙t某个非本地ECS n为部分任务所分配的计算资源为
Figure BDA0003149888370000185
因此,在非本地ECS n上的任务计算延迟为
Figure BDA0003149888370000186
1.5.4云计算模型:当所有ECS上的计算资源均不足时,本地ECSm需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的 丰富计算资源;定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为
Figure BDA0003149888370000187
因此,在CCSs c上的任务计算延迟为
Figure BDA0003149888370000188
由于任务计算结果的数据大小通常较小,因此忽略了任务计算结果的下载延迟。定义在时隙t任务
Figure BDA0003149888370000191
的总执行延迟为
Figure BDA0003149888370000192
1.6设置能量模型:当任务
Figure BDA0003149888370000193
在IIoT设备u上本地执行时,设备u的计算能耗为
Figure BDA0003149888370000194
其中,
Figure BDA0003149888370000195
表示IIoT设备u每执行一个CPU周期所消耗的能量;然后,当IIoT设备u将部分任务卸载到本地ECS上时,设备u的通信能耗为
Figure BDA0003149888370000196
因此,在时隙t内IIoT设备u的总能耗为
Figure BDA0003149888370000197
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为
Figure BDA0003149888370000198
设备u的最大电池容量为
Figure BDA0003149888370000199
因此在下一个时隙t+1设备u的剩余电池电量为
Figure BDA00031498883700001910
优选地,所述步骤2中CTORA算法的具体步骤如下:
2.1将协作式任务卸载和资源分配问题描述为一个带约束的马尔可夫决策过程,优化目标是最大化系统的长期累积折扣奖励;该过程用一个五元组<S,A,R,Pr,C>来表示,其中
S表示状态空间:在时隙t,SDN控制器负责收集系统的状态st∈S,包括每个IIoT设备u的任务参数
Figure BDA00031498883700001911
每个设备u的计算能力
Figure BDA0003149888370000201
每个设备u的发射功率
Figure BDA0003149888370000202
每个设备u的上行SNR值
Figure BDA0003149888370000203
每个设备u每执行一个CPU周期所消耗的能量
Figure BDA0003149888370000204
每个设备u的剩余电池电量
Figure BDA0003149888370000205
每个设备u所获得的能量
Figure BDA0003149888370000206
每个设备u的最大电池容量为
Figure BDA0003149888370000207
每个BS的总带宽Bw、每个ECS m的计算能力fm、CCSs c的计算能力fc、每个BS m和SDN控制器s之间的数据传输速率θm,s、SDN控制器s和CCSs c之间的数据传输速率θs,c
A表示动作空间:在接收到系统状态st之后,智能体将选择一个动作at∈A来做出任务卸载和资源分配决策,包括每个设备u的卸载决策
Figure BDA0003149888370000208
每个设备u的带宽资源分配决策
Figure BDA0003149888370000209
每个设备u的本地计算资源分配决策
Figure BDA00031498883700002010
每个设备u的非本地计算资源分配决策
Figure BDA00031498883700002011
R表示奖励:在当前状态st下执行动作at之后,智能体会收到一个即时奖励Rt(st,at),且
Figure BDA00031498883700002012
即系统总成本越大,奖励值越小;
Pr表示状态转移概率:智能体从当前状态st下执行动作at之后,系统转移到下一状态st+1的概率,且
Figure BDA00031498883700002013
C表示约束条件:智能体在每个时隙t所选择的动作at需要满足如下约束(17)—(27),
Figure BDA00031498883700002014
Figure BDA0003149888370000211
Figure BDA0003149888370000212
Figure BDA0003149888370000213
Figure BDA0003149888370000214
Figure BDA0003149888370000215
Figure BDA0003149888370000216
Figure BDA0003149888370000217
Figure BDA0003149888370000218
Figure BDA0003149888370000219
Figure BDA00031498883700002110
2.2采用CTORA算法来为每个IIoT设备做出任务卸载和资源分配决策;如图2所示,CTORA算法框架包括三个模块:评估网络、目标网络和经验重放池;评估网络包括一个评估actor网络πμ和一个评估critic网络Dψ,目标网络包括一个目标actor网络
Figure BDA00031498883700002111
和一个目标critic网络
Figure BDA00031498883700002112
πμ表示所估计的策略函数,用于选择动作;Dψ表示所估计的软状态动作回报的分布函数,用于指导πμ的参数更新;
Figure BDA00031498883700002113
表示目标策略函数,
Figure BDA00031498883700002114
表示软状态动作回报的目标分布函数;通过最小化损失函数来训练Dψ的参数ψ,使得所估计的分布函数接近目标分布函数;通过最大化策略πμ的软Q值来更新πμ的参数μ;经验重放池负责存储每个时间步的经验样本,并通过在每个重放周期内随机抽取一定数量的样本来训练参数ψ和μ;
CTORA算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化评估actor网络πμ的参数μ、评估critic网络Dψ的参数ψ、目标actor网络
Figure BDA0003149888370000221
的参数
Figure BDA0003149888370000222
目标critic网络
Figure BDA0003149888370000223
的参数
Figure BDA0003149888370000224
episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值
Figure BDA0003149888370000225
目标网络的平滑系数θ、(μ、α、
Figure BDA0003149888370000226
Figure BDA0003149888370000227
)更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,…,NE}时,执行2.2.3;
2.2.3当t∈{1,2,…,NS}时,执行2.2.4;
2.2.4收集当前的系统状态st并输入到评估actor网络πμ中,从而输出满足约束的所有可能连续动作的概率分布πμ(·|st);然后,基于πμ(·|st)来随机选择一个动作at并执行;
2.2.5在执行动作at之后,SDN控制器获得了一个即时奖励Rt(st,at),并转移到下一个状态st+1,然后将经验样本et=(st,at,Rt(st,at),st+1)存储到经验重放池中;
2.2.6如果
Figure BDA0003149888370000228
则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8采用优先级经验重放技术来从经验重放池中抽取Z个样本,具体步骤为:
2.2.8.1假设经验重放池中某个经验样本为ei=(si,ai,Ri(si,ai),si+1),定义该经验样本ei的优先级为
Pi=|δi|+∈, (28)
其中,∈>0用于确保每个样本的优先级不为0,δi表示该样本的时间差分(Temporal Difference,TD)误差,即该样本的目标软Q值与估计软Q值之差,根据软贝尔曼方程,样本ei的目标软Q值写成
Figure BDA0003149888370000231
其中,根据目标actor网络
Figure BDA0003149888370000232
来选择动作ai+1,并根据
Figure BDA0003149888370000233
来计算
Figure BDA0003149888370000234
因此,样本ei的TD误差δi
Figure BDA0003149888370000235
其中,根据评估actor网络πμ(·|si)来选择动作ai,并根据E[Dψ(si,ai)]来计算样本ei的估计软Q值Qψ(si,ai);通过公式(28)-(30)来计算出经验重放池中所有样本的优先级;
2.8.2.2如图3所示,采用Sum Tree数据结构来从经验重放池中抽取Z个经验样本,其中最底层的每个叶节点表示每个经验样本的优先级,每个父节点的值等于两个子节点的值之和,最顶层的根节点表示所有样本的优先级之和,每个叶节点下方的括号内容表示该叶节点对应的查询区间,优先级越大的叶节点,包含的区间越宽,被抽取到的可能性更大;具体采样过程为:首先,将根节点的值除以Z,得到Z个优先级区间,然后在每个区间内随机选择一个值,通过自上而下的搜索来判断该值对应于最底层的哪一个叶节点,并选择该叶节点所对应的样本,从而获得Z个经验样本;
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练参数ψ,且
Figure BDA0003149888370000241
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,
Figure BDA0003149888370000242
写成
Figure BDA0003149888370000243
然后,采用小批量梯度下降法来最小化Loss(ψ);为了解决梯度爆炸问题,将
Figure BDA0003149888370000244
的软状态动作回报的取值范围限制在
Figure BDA0003149888370000245
的期望值Qψ(st,at)附近;参数ψ的更新公式为
Figure BDA0003149888370000246
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,定义目标函数J(μ)来训练参数μ,且
J(μ)=E[Qψ(st,at)-α log πμ(at|st)], (34)
其中,根据E[Dψ(st,at)]来计算Qψ(st,at);然后,通过最大化J(μ)来训练参数μ;为了减少梯度估计方差,采用重参数化技巧来计算梯度值
Figure BDA0003149888370000247
首先从一个已知分布中随机取样一个样本ξt;然后,使用ξt和参数μ来计算at(即对策略πμ进行重参数化),且
at=fμt;st); (35)
目标函数J(μ)写成
J(μ)=E[Qψ(st,fμt;st))-αlogπμ(fμt;st)|st)]; (36)参数μ的更新公式为
Figure BDA0003149888370000251
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
Figure BDA0003149888370000252
其中,
Figure BDA0003149888370000253
表示预设的最小熵阈值。因此,权重α的更新公式为
Figure BDA0003149888370000254
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数
Figure BDA0003149888370000255
Figure BDA0003149888370000256
Figure BDA0003149888370000257
Figure BDA0003149888370000258
其中,θ表示目标网络的平滑系数,满足θ∈(0,1)且θ<<1;
在完成CTORA算法的训练过程之后,获得了评估actor网络的最优权重μ*,然后将训练好的评估actor网络
Figure BDA0003149888370000259
部署到SDN控制器上,执行过程如下:
2.2.14当t∈{1,2,…,T}时,执行2.2.15;
2.2.15SDN控制器收集当前的系统状态st,然后将st输入到训练好的评估actor网络中,输出所有可能连续动作的概率分布
Figure BDA00031498883700002510
然后,基于
Figure BDA00031498883700002511
来随机选择一个动作at并执行;
2.2.16执行动作at之后,SDN控制器获得了一个即时奖励Rt(st,at),并且转移到下一个状态st+1
本发明中提及的方法均属于本领域技术人员掌握的常规技术手段,故而未加详述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种工业物联网中协作式任务卸载和资源分配的联合优化方法,其特征在于,具体步骤如下:
步骤1:设置系统模型的各参数;
1.1设置网络模型:网络分为三层,从下到上分别为IIoT设备层、边缘层和云层,其中,IIoT设备层包含多种类型的IIoT设备,每个IIoT设备用符号u表示,IIoT设备周期性地采集环境数据,并生成计算密集和延迟敏感型任务;每个IIoT设备通过无线网络接入到本地BS;每个IIoT设备配有一个电池,采用有线或无线充电的方式为设备提供电能;边缘层包含M个BS和一个SDN控制器,每个BS用符号m表示,每个BSm上配备了一个ECS,每个ECS也用符号m表示,计算能力为fm,负责为IIoT设备提供边缘计算资源;每个BS通过光纤链路连接到SDN控制器,用符号s表示,SDN控制器通过核心骨干网连接到云层;SDN控制器负责收集环境状态信息,并为每个IIoT设备做出任务卸载和资源分配决策;云层包含多个计算能力充足的CCSs,用符号c表示,计算能力为fc
1.2将整个时间轴划分为T个长度相同的时隙,t∈T表示时隙索引,且采用准静态模型,即在一个时隙内,所有环境状态参数保持不变,而不同时隙参数不同;
1.3设置任务卸载模型:在每个时隙t,每个BSm中的每个IIoT设备u会随机产生一个计算任务
Figure FDA0003725830490000011
其中
Figure FDA0003725830490000012
表示任务输入数据大小,
Figure FDA0003725830490000013
表示任务计算量,
Figure FDA0003725830490000014
表示任务的最大容许延迟;定义在时隙t在BSm内产生计算任务的所有IIoT设备的集合为
Figure FDA0003725830490000015
对应数量为
Figure FDA0003725830490000016
采用协作式部分卸载方案,即假设每个任务被分成多个子任务;首先,需要确定IIoT设备本地是否有足够的计算资源,若有,IIoT设备将本地处理整个任务;否则,IIoT设备将根据自身的计算能力处理部分任务,同时将剩余任务卸载到本地ECS;本地ECS在收到卸载任务后,也将根据自身的计算能力处理部分任务,然后,将剩余任务卸载到某个非本地ECS或者CCSs上;定义在时隙t在BSm内的IIoT设备
Figure FDA0003725830490000021
的卸载决策为
Figure FDA0003725830490000022
Figure FDA0003725830490000023
其中
Figure FDA0003725830490000024
表示将任务从IIoT设备u卸载到本地ECSm的任务卸载比例,
Figure FDA0003725830490000025
表示将任务从本地ECSm卸载到某个非本地ECSn∈{M\{m}}的任务卸载比例,且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算,
Figure FDA0003725830490000026
表示将任务从本地ECSm卸载到CCSs c的任务卸载比例;
1.4设置通信模型:假设每个BS工作在相同的频带上,且频带宽度为Bw;采用正交频分复用技术将频带宽度Bw划分成多个正交子信道;定义在时隙t在BSm内的IIoT设备u的带宽资源分配决策为
Figure FDA0003725830490000027
当设备u本地执行整个任务时,则无需为其分配带宽资源,即
Figure FDA0003725830490000028
定义在时隙t内IIoT设备u与本地BSm之间的上行SNR值为
Figure FDA0003725830490000029
Figure FDA00037258304900000210
其中,
Figure FDA00037258304900000211
表示IIoT设备u的发射功率,
Figure FDA00037258304900000212
表示BSm与IIoT设备u之间的信道增益,σ2表示加性高斯白噪声的方差;定义在时隙t内IIoT设备u与本地BSm之间的上行数据传输速率为
Figure FDA00037258304900000213
Figure FDA00037258304900000214
定义每个BSm和SDN控制器s之间的数据传输速率均为常数
Figure FDA00037258304900000311
SDN控制器s和CCSs c之间的数据传输速率为常数
Figure FDA00037258304900000312
Figure FDA00037258304900000313
1.5设置计算模型:采用四种计算模型,即本地计算模型、本地边缘计算模型、协作式边缘计算模型和云计算模型,其中
1.5.1本地计算模型:定义在BSm内的IIoT设备u的计算能力为
Figure FDA0003725830490000031
当任务
Figure FDA0003725830490000032
在IIoT设备u上本地执行时,任务的执行延迟为
Figure FDA0003725830490000033
1.5.2本地边缘计算模型:当IIoT设备u的计算资源不足时,设备u将部分任务卸载到本地ECSm上,所需要的上行传输延迟为
Figure FDA0003725830490000034
然后,定义在时隙t本地ECSm为部分任务所分配的计算资源为
Figure FDA0003725830490000035
Figure FDA0003725830490000036
因此,在本地ECSm上的任务计算延迟为
Figure FDA0003725830490000037
1.5.3协作式边缘计算模型:当本地ECSm的计算资源不足时,将部分任务卸载到某个非本地ECSn上,以平衡ECS的工作负载;定义在时隙t本地ECSm将部分任务卸载到某个非本地ECSn的传输延迟为
Figure FDA0003725830490000038
定义在时隙t某个非本地ECSn为部分任务所分配的计算资源为
Figure FDA0003725830490000039
因此,在非本地ECSn上的任务计算延迟为
Figure FDA00037258304900000310
1.5.4云计算模型:当所有ECS上的计算资源均不足时,本地ECSm需要将部分任务进一步卸载到CCSs c上执行,以充分利用CCSs的丰富计算资源;定义在时隙t本地ECSm将部分任务卸载到CCSs c的传输延迟为
Figure FDA0003725830490000041
因此,在CCSs c上的任务计算延迟为
Figure FDA0003725830490000042
由于任务计算结果的数据大小通常较小,因此忽略了任务计算结果的下载延迟;定义在时隙t任务
Figure FDA0003725830490000043
的总执行延迟为
Figure FDA0003725830490000044
1.6设置能量模型:当任务
Figure FDA0003725830490000045
在IIoT设备u上本地执行时,设备u的计算能耗为
Figure FDA0003725830490000046
其中,
Figure FDA0003725830490000047
表示IIoT设备u每执行一个CPU周期所消耗的能量;然后,当IIoT设备u将部分任务卸载到本地ECS上时,设备u的通信能耗为
Figure FDA0003725830490000048
因此,在时隙t内IIoT设备u的总能耗为
Figure FDA0003725830490000049
然后,将充电过程建模为连续到达的能量包,定义在时隙t设备u所获得的能量为
Figure FDA00037258304900000410
设备u的最大电池容量为
Figure FDA00037258304900000411
因此在下一个时隙t+1设备u的剩余电池电量为
Figure FDA00037258304900000412
步骤2:采用CTORA算法来为每个IIoT设备做出最优决策,目标是最小化长期系统总成本,包括延迟成本和能耗成本;
所述步骤2中算法的具体步骤如下:
2.1将协作式任务卸载和资源分配问题描述为一个带约束的马尔可夫决策过程,优化目标是最大化系统的长期累积折扣奖励;该过程用一个五元组<S,A,R,Pr,C>来表示,其中
S表示状态空间:在时隙t,SDN控制器负责收集系统的状态st∈S,包括每个IIoT设备u的任务参数
Figure FDA0003725830490000051
每个设备u的计算能力
Figure FDA0003725830490000052
每个设备u的发射功率
Figure FDA0003725830490000053
每个设备u的上行SNR值
Figure FDA0003725830490000054
每个设备u每执行一个CPU周期所消耗的能量
Figure FDA0003725830490000055
每个设备u的剩余电池电量
Figure FDA0003725830490000056
每个设备u所获得的能量
Figure FDA0003725830490000057
每个设备u的最大电池容量为
Figure FDA0003725830490000058
每个BS的总带宽Bw、每个ECSm的计算能力fm、CCSs c的计算能力fc、每个BSm和SDN控制器s之间的数据传输速率
Figure FDA00037258304900000515
SDN控制器s和CCSs c之间的数据传输速率
Figure FDA00037258304900000516
A表示动作空间:在接收到系统状态st之后,智能体将选择一个动作at∈A来做出任务卸载和资源分配决策,包括每个设备u的卸载决策
Figure FDA0003725830490000059
Figure FDA00037258304900000510
每个设备u的带宽资源分配决策
Figure FDA00037258304900000511
每个设备u的本地计算资源分配决策
Figure FDA00037258304900000512
每个设备u的非本地计算资源分配决策
Figure FDA00037258304900000513
R表示奖励:在当前状态st下执行动作at之后,智能体会收到一个即时奖励Rt(st,at),且
Figure FDA00037258304900000514
即系统总成本越大,奖励值越小;
Pr表示状态转移概率:智能体从当前状态st下执行动作at之后,系统转移到下一状态st +1的概率,且
Figure FDA0003725830490000061
C表示约束条件:智能体在每个时隙t所选择的动作at需要满足如下约束(17)—(27),
Figure FDA0003725830490000062
Figure FDA0003725830490000063
Figure FDA0003725830490000064
Figure FDA0003725830490000065
Figure FDA0003725830490000066
Figure FDA0003725830490000067
Figure FDA0003725830490000068
Figure FDA0003725830490000069
Figure FDA00037258304900000610
Figure FDA00037258304900000611
Figure FDA00037258304900000612
2.2采用CTORA算法来为每个IIoT设备做出任务卸载和资源分配决策;CTORA算法框架包括三个模块:评估网络、目标网络和经验重放池;评估网络包括一个评估actor网络πμ和一个评估critic网络Dψ,目标网络包括一个目标actor网络
Figure FDA0003725830490000071
和一个目标critic网络
Figure FDA0003725830490000072
πμ表示所估计的策略函数,用于选择动作;Dψ表示所估计的软状态动作回报的分布函数,用于指导πμ的参数更新;
Figure FDA0003725830490000073
表示目标策略函数,
Figure FDA0003725830490000074
表示软状态动作回报的目标分布函数;通过最小化损失函数来训练Dψ的参数ψ,使得所估计的分布函数接近目标分布函数;通过最大化策略πμ的软Q值来更新πμ的参数μ;经验重放池负责存储每个时间步的经验样本,并通过在每个重放周期内随机抽取一定数量的样本来训练参数ψ和μ;
CTORA算法包括两个阶段,即训练阶段和执行阶段,其中训练阶段如下:
2.2.1在算法的初始化阶段:初始化评估actor网络πμ的参数μ、评估critic网络Dψ的参数ψ、目标actor网络
Figure FDA0003725830490000075
的参数
Figure FDA0003725830490000076
目标critic网络
Figure FDA0003725830490000077
的参数
Figure FDA0003725830490000078
episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值
Figure FDA0003725830490000079
目标网络的平滑系数θ、μ、α、
Figure FDA00037258304900000710
Figure FDA00037258304900000711
更新周期UP、学习率λψ、λμ以及λα;定义episode和时间步的索引分别为ne和t,初始化ne=1,t=1;
2.2.2当ne∈{1,2,…,NE}时,执行2.2.3;
2.2.3当t∈{1,2,…,NS}时,执行2.2.4;
2.2.4收集当前的系统状态st并输入到评估actor网络πμ中,从而输出满足约束的所有可能连续动作的概率分布πμ(·|st);然后,基于πμ(·|st)来随机选择一个动作at并执行;
2.2.5在执行动作at之后,SDN控制器获得了一个即时奖励Rt(st,at),并转移到下一个状态st+1,然后将经验样本et=(st,at,Rt(st,at),st+1)存储到经验重放池中;
2.2.6如果
Figure FDA0003725830490000081
则令t←t+1,并返回2.2.3;否则,执行2.2.7;
2.2.7如果t%RP==0,则执行2.2.8;
2.2.8采用优先级经验重放技术来从经验重放池中抽取Z个样本,具体步骤为:
2.2.8.1假设经验重放池中某个经验样本为ei=(si,ai,Ri(si,ai),si+1),定义该经验样本ei的优先级为
Pi=|δi|+∈, (28)
其中,∈>0用于确保每个样本的优先级不为0,δi表示该样本的时间差分(TemporalDifference,TD)误差,即该样本的目标软Q值与估计软Q值之差,根据软贝尔曼方程,样本ei的目标软Q值写成
Figure FDA0003725830490000082
其中,根据目标actor网络
Figure FDA0003725830490000083
来选择动作ai+1,并根据
Figure FDA0003725830490000084
来计算
Figure FDA0003725830490000085
因此,样本ei的TD误差δi
Figure FDA0003725830490000086
其中,根据评估actor网络πμ(·|si)来选择动作ai,并根据E[Dψ(si,ai)]来计算样本ei的估计软Q值Qψ(si,ai);通过公式(28)-(30)来计算出经验重放池中所有样本的优先级;
2.8.2.2采用Sum Tree数据结构来从经验重放池中抽取Z个经验样本,其中最底层的每个叶节点表示每个经验样本的优先级,每个父节点的值等于两个子节点的值之和,最顶层的根节点表示所有样本的优先级之和,每个叶节点下方的括号内容表示该叶节点对应的查询区间,优先级越大的叶节点,包含的区间越宽,被抽取到的可能性更大;具体采样过程为:首先,将根节点的值除以Z,得到Z个优先级区间,然后在每个区间内随机选择一个值,通过自上而下的搜索来判断该值对应于最底层的哪一个叶节点,并选择该叶节点所对应的样本,从而获得Z个经验样本;
2.2.9在软策略评估阶段,定义损失函数Loss(ψ)来训练参数ψ,且
Figure FDA0003725830490000091
其中,KL[A||B]表示Kullback-Leibler散度,用来衡量两个概率分布之间的差异,根据分布式贝尔曼方程,
Figure FDA0003725830490000092
写成
Figure FDA0003725830490000093
然后,采用小批量梯度下降法来最小化Loss(ψ);为了解决梯度爆炸问题,将
Figure FDA0003725830490000094
的软状态动作回报的取值范围限制在
Figure FDA0003725830490000095
的期望值Qψ(st,at)附近;参数ψ的更新公式为
Figure FDA0003725830490000096
2.2.10如果t%UP==0,则执行2.2.11;
2.2.11在软策略提升阶段,定义目标函数J(μ)来训练参数μ,且
J(μ)=E[Qψ(st,at)-α logπμ(at|st)], (34)
其中,根据E[Dψ(st,at)]来计算Qψ(st,at);然后,通过最大化J(μ)来训练参数μ;为了减少梯度估计方差,采用重参数化技巧来计算梯度值
Figure FDA0003725830490000101
首先从一个已知分布中随机取样一个样本ξt;然后,使用ξt和参数μ来计算at,即对策略πμ进行重参数化,且
at=fμt;st); (35)
目标函数J(μ)写成
J(μ)=E[Qψ(st,fμt;st))-α logπμ(fμt;st)|st)]; (36)
参数μ的更新公式为
Figure FDA0003725830490000102
2.2.12采用自适应梯度方法来调整熵权重α;当最佳动作未确定时,α必须足够大以鼓励探索,随着探索的深入,α应该逐渐减小;通过最小化目标函数J(α)来更新权重α,且
Figure FDA0003725830490000103
其中,
Figure FDA0003725830490000104
表示预设的最小熵阈值;因此,权重α的更新公式为
Figure FDA0003725830490000105
2.2.13为了提高学习稳定性,通过缓慢跟踪评估网络的参数来更新目标网络的参数
Figure FDA0003725830490000106
Figure FDA0003725830490000107
Figure FDA0003725830490000108
Figure FDA0003725830490000109
其中,θ表示目标网络的平滑系数,满足θ∈(0,1)且θ<<1;
在完成CTORA算法的训练过程之后,获得了评估actor网络的最优权重μ*,然后将训练好的评估actor网络
Figure FDA0003725830490000111
部署到SDN控制器上,执行过程如下:
2.2.14当t∈{1,2,…,T}时,执行2.2.15;
2.2.15 SDN控制器收集当前的系统状态st,然后将st输入到训练好的评估actor网络中,输出所有可能连续动作的概率分布
Figure FDA0003725830490000112
然后,基于
Figure FDA0003725830490000113
来随机选择一个动作at并执行;
2.2.16执行动作at之后,SDN控制器获得了一个即时奖励Rt(st,at),并且转移到下一个状态st+1
CN202110761258.3A 2021-07-06 2021-07-06 工业物联网中协作式任务卸载和资源分配的联合优化方法 Active CN113573324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110761258.3A CN113573324B (zh) 2021-07-06 2021-07-06 工业物联网中协作式任务卸载和资源分配的联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110761258.3A CN113573324B (zh) 2021-07-06 2021-07-06 工业物联网中协作式任务卸载和资源分配的联合优化方法

Publications (2)

Publication Number Publication Date
CN113573324A CN113573324A (zh) 2021-10-29
CN113573324B true CN113573324B (zh) 2022-08-12

Family

ID=78163772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110761258.3A Active CN113573324B (zh) 2021-07-06 2021-07-06 工业物联网中协作式任务卸载和资源分配的联合优化方法

Country Status (1)

Country Link
CN (1) CN113573324B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11799785B2 (en) 2021-04-09 2023-10-24 Microsoft Technology Licensing, Llc Hardware-based packet flow processing
US11757782B2 (en) * 2021-04-09 2023-09-12 Microsoft Technology Licensing, Llc Architectures for disaggregating SDN from the host
CN117203615A (zh) 2021-04-09 2023-12-08 微软技术许可有限责任公司 经由分发扩展主机策略
TWI792784B (zh) * 2021-12-20 2023-02-11 國立清華大學 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
CN114285853B (zh) * 2022-01-14 2022-09-23 河海大学 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN114513855B (zh) * 2022-02-23 2024-04-19 齐鲁工业大学 基于无线携能通信的边缘计算卸载决策与资源分配方法
CN114598667B (zh) * 2022-03-04 2024-09-06 重庆邮电大学 一种基于联邦学习的设备选择与资源分配方法
CN114780254B (zh) * 2022-06-20 2022-09-16 湖南苏科智能科技有限公司 一种基于物联网的分布式节点资源优化方法
CN115567978A (zh) * 2022-09-29 2023-01-03 福州大学 多约束边环境下计算卸载与资源分配联合优化系统及方法
CN115934192B (zh) * 2022-12-07 2024-03-26 江苏信息职业技术学院 一种面向b5g/6g网络的车联网多类型任务协作卸载方法
CN117130693B (zh) * 2023-10-26 2024-02-13 之江实验室 张量卸载方法、装置、计算机设备及存储介质
CN117311991B (zh) * 2023-11-28 2024-02-23 苏州元脑智能科技有限公司 模型训练方法、任务分配方法、装置、设备、介质及系统
CN117667360B (zh) * 2024-01-31 2024-04-16 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法
CN117692338B (zh) * 2024-02-01 2024-06-04 长城数字能源(西安)科技有限公司 能源物联网数据可视化方法及系统
CN117938669B (zh) * 2024-03-25 2024-06-18 贵州大学 一种面向6g普惠智能服务的网络功能链自适应编排方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11112784B2 (en) * 2016-05-09 2021-09-07 Strong Force Iot Portfolio 2016, Llc Methods and systems for communications in an industrial internet of things data collection environment with large data sets
US10547494B2 (en) * 2016-10-31 2020-01-28 Qualcomm Incorporated Unlicensed spectrum coverage enhancement for industrial internet of things
CN111245950B (zh) * 2020-01-20 2023-03-10 南京邮电大学 基于深度学习的工业物联网边缘资源智能调度系统及方法
CN111565419B (zh) * 2020-06-15 2024-03-19 河海大学常州校区 一种超密集网络中面向延迟优化的协作式边缘缓存方法
CN111970733B (zh) * 2020-08-04 2024-05-14 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN112486690B (zh) * 2020-12-11 2024-01-30 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法

Also Published As

Publication number Publication date
CN113573324A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113573324B (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111507601B (zh) 基于深度强化学习与区块链共识的资源优化分配决策方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN112600921B (zh) 一种面向异构移动边缘网络的动态任务卸载方法
CN113543156B (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN113810233B (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111132074A (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN115413044B (zh) 一种工业无线网络的计算和通信资源联合分配方法
CN115499441A (zh) 超密集网络中基于深度强化学习的边缘计算任务卸载方法
CN113727308A (zh) 一种基于车辆位置预测的边缘计算卸载优化方法
Zhu et al. Learn and pick right nodes to offload
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
CN114980160A (zh) 一种无人机辅助的太赫兹通信网络联合优化方法和装置
CN118102392A (zh) 基于差分隐私和深度确定性策略梯度的任务卸载建模方法
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法
Li et al. Graph tasks offloading and resource allocation in multi-access edge computing: a DRL-and-optimization-aided approach
CN113973113A (zh) 一种面向移动边缘计算的分布式服务迁移方法
CN113821346A (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant