CN116390161A - 一种移动边缘计算中基于负载均衡的任务迁移方法 - Google Patents
一种移动边缘计算中基于负载均衡的任务迁移方法 Download PDFInfo
- Publication number
- CN116390161A CN116390161A CN202310268943.1A CN202310268943A CN116390161A CN 116390161 A CN116390161 A CN 116390161A CN 202310268943 A CN202310268943 A CN 202310268943A CN 116390161 A CN116390161 A CN 116390161A
- Authority
- CN
- China
- Prior art keywords
- user
- representing
- task
- migration
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005012 migration Effects 0.000 title claims abstract description 104
- 238000013508 migration Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004364 calculation method Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000002787 reinforcement Effects 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 51
- 230000009471 action Effects 0.000 claims description 19
- 230000007774 longterm Effects 0.000 claims description 16
- 238000005265 energy consumption Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010295 mobile communication Methods 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 238000013468 resource allocation Methods 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 206010073261 Ovarian theca cell tumour Diseases 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 208000001644 thecoma Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013509 system migration Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
Abstract
本发明属于移动通信技术领域,具体涉及一种移动边缘计算中基于负载均衡的任务迁移方法;该方法包括:构建多用户多节点的移动边缘计算系统模型;基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型;构建最大化最小用户QoS的优化问题;采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移;本发明能有效降低任务执行时延、任务失败率和迁移率,并能够保证节点间负载分布均衡。
Description
技术领域
本发明属于移动通信技术领域,具体涉及一种移动边缘计算中基于负载均衡的任务迁移方法。
背景技术
随着移动通信技术和物联网产业的不断发展,以虚拟现实、增强现实、自动驾驶、远程医疗为代表的一系列新型业务产生,给人们的生活带来了全新的体验。这类业务往往具有较大的计算需求和较高的时延敏感度,给能量、计算资源有限的移动终端设备带来了极大挑战。移动边缘计算(Mobile Edge Computing,MEC)将原本云计算的计算资源和存储资源下沉到更靠近用户一侧的边缘设备上,能够为用户提供低时延高可靠性的服务,提升用户服务质量(Quality of Service,QoS)。
MEC环境中用户移动性是影响用户QoS的重要因素,用户移动过程中,信道状态会不断变化,可能会影响原有卸载方案性能。通过跟随用户移动进行任务迁移的方式,可以在一定程度上保证用户QoS和服务连续性。现有的在MEC环境中基于用户移动性的任务迁移研究有两种:一是带有能量收集装置的MEC系统中的任务迁移、资源分配问题的研究,例如建立以最小化长期服务成本为目标的优化问题,采用李雅普诺夫优化先解耦,再借助半正定规划求解的方法。二是车辆边缘计算环境中任务卸载和迁移问题的研究,例如考虑车联网中任务卸载和任务迁移时可能产生的相互干扰,建模基于车辆卸载决策的博弈机制以最小化卸载开销的方法。但是以上方案均未考虑移动性可能带来的负载分布不均的问题,且每个时隙都需要求解子问题,算法复杂度较高。
近年来,随着强化学习的兴起,为求解这类复杂优化问题提供了新思路。通过将深度强化学习应用到MEC领域中,可以有效解决MEC中任务迁移决策问题。例如针对超密集边缘计算网络中的任务迁移和资源分配问题,提出了一种基于注意力机制的双深度Q网络(Double Deep Q Network,DDQN)算法来最小化用户任务的长期时延和能耗。针对基于区块链的超密集边缘计算环境,提出了一种基于Actor-Critic架构的深度强化学习算法生成任务迁移决策。以上研究都是基于单智能体强化学习算法进行求解,只适用于控制器集中控制或者单个用户决策的场景。综上所述,目前已有大量研究工作围绕移动性场景下用户任务迁移展开,但是少有研究关注用户移动性带来负载分布不均的问题。此外,在多用户多基站的分布式场景下,采用集中式控制需要不断收集用户位置变化信息,这会产生较大的信令收集成本。
发明内容
针对现有技术存在的不足,本发明提出了一种移动边缘计算中基于负载均衡的任务迁移方法,该方法包括:
S1:构建多用户多节点的移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型;
S3:根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题;
S4:采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。
优选的,多用户多节点的移动边缘计算系统模型具体包括:M个基站和U个用户,每个基站均配备有一个服务器,服务器集合表示为用户集合表示为用户任务随机到达,任务表示为/>其中/>表示t时隙用户u的任务数据大小,/>表示每bit任务所需CPU计算周期数,/>表示任务最大容忍时延;用户根据自身情况选择将任务卸载到基站上的服务器或本地执行,定义卸载决策变量表示任务卸载比例;定义服务器关联变量/>用于决定任务/>卸载到哪一个服务器。
优选的,用户QoS模型包括:计算任务的迁移时延和单位时间迁移成本;根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本;根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延,根据任务的总执行时延和任务最大容忍时延计算用户QoS增益。
进一步的,计算用户QoS增益的公式为:
优选的,负载均衡模型包括:定义服务器的负载和服务器的负载偏差系数;服务器的负载表示为:
其中,表示t时隙服务器m的负载,/>表示服务器m的最大计算资源量,/>表示用户集合,/>表示t时隙用户u的服务器关联变量,/>表示任务的卸载决策变量,/>表示任务数据大小,/>表示每bit任务所需CPU计算周期数,/>表示计算资源权重,/>表示存储容量权重,/>表示服务器m的最大存储容量,/>是一个布尔变量,当Ω为真时,/>反之,/>
服务器的负载偏差系数表示为:
优选的,最大化最小用户QoS的优化问题表示为:
其中,T表示系统时间周期,表示t时隙用户u的QoS增益,/>表示t时隙用户u的服务器关联变量,/>表示服务器集合,/>表示系统时隙集合,/>表示用户集合,/>表示任务的卸载决策变量,/>表示t时隙用户u的能耗,/>表示用户平均能量预算,/>表示t时隙服务器m的负载偏差系数,ζ表示负载分布差值,/>表示t时隙用户的迁移成本,/>表示平均迁移成本预算,/>表示t时隙用户u的发射功率,/>表示用户u的最大发射功率。
优选的,求解最大化最小用户QoS的优化问题的过程包括:
引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题,根据李雅普诺夫优化理论将最大化问题中的长期约束解耦,得到重写的优化问题;
将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程,由用户充当智能体,并构建观测空间、动作空间和奖励函数;每个智能体均具有一个用户策略网络和两个用户价值网络,每个基站有一个节点价值网络;
根据奖励函数计算用户价值网络和节点价值网络的软Q值;由用户策略网络生成相应的动作并根据动作更新奖励函数,进入下一状态;根据节点价值网络和两个用户价值网络中最小软Q值的用户价值网络评估动作;
根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络,更新网络参数,得到训练好的用户策略网络、用户价值网络和节点价值网络;根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策。
进一步的,观测空间表示为:
进一步的,奖励函数包括用户奖励函数和节点奖励函数;
用户奖励函数表示为:
节点奖励函数表示为:
其中,表示t时隙用户u的奖励值,V表示迁移成本队列控制因子,Qu表示用户u的QoS增益,Zu(t)表示能量预算队列,Eu,t表示t时隙用户u的设备能量,/>表示用户平均能量预算,/>表示t时隙服务器m的奖励值,ω表示归一化因子,/>表示t时隙服务器m的负载偏差系数,/>表示t时隙的服务器平均计算负载,G(t)表示虚拟迁移成本队列,/>表示t时隙用户的迁移成本,/>表示平均迁移成本预算。
本发明的有益效果为:本发明针对MEC中用户移动性导致负载分布不均以及用户QoS下降的问题,建立了在多用户多节点MEC场景下,用户随机移动的任务迁移模型,将其建模为一个长期极大极小化公平性问题,旨在考虑系统迁移成本约束、用户设备能耗约束和系统负载均衡的同时,优化性能最差的用户的服务质量。之后,通过引入辅助变量结合李雅普诺夫优化的方式将原问题转化并解耦,将其建模为Dec-POMDP,将奖励函数分解为节点全局奖励和用户个体奖励,分别基于网络负载和用户QoS对用户动作施加奖励。针对集中式控制需要大量收集用户信息的问题,提出一种基于扩展多智能体SAC的分布式任务迁移方案。利用集中式训练分布式执行框架,将单智能体强化学习算法SAC扩展到多智能体领域,相比于一般的强化学习算法,SAC算法通过最大化熵正则项可以获得更高的探索能力和更强的鲁棒性。仿真结果表明,相较于现有算法,本发明所提方法能有效降低任务执行时延、任务失败率和迁移率,并能够保证节点间负载分布均衡。
附图说明
图1为本发明中移动边缘计算中基于负载均衡的任务迁移方法流程图;
图2为本发明中多用户多节点的移动边缘计算系统模型示意图;
图3为本发明中DSACM算法网络结构图;
图4为本发明与对比方法的平均奖励随训练迭代次数变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种移动边缘计算中基于负载均衡的任务迁移方法,如图1所示,所述方法包括以下内容:
S1:构建多用户多节点的移动边缘计算系统模型。
如图2所示,在多用户多节点MEC场景下,建立多用户多节点的移动边缘计算系统模型,包括M个基站和U个用户,每个基站上部署一个服务器,不同小基站上的服务器计算能力异构,一共有M个服务器,表示服务器的集合。用户集合用/>表示,用户设备可以是车辆、普通移动用户等;假设每个用户在关联节点(关联基站)上都有一个虚拟机提供服务,它可以跟随用户移动被迁移到新的服务器上继续执行。
整个系统时间周期为T,时隙集合表示为每个时隙长度为τ。考虑用户任务的随机到达,用户任务特性可以表示为/>其中,/>表示任务数据大小(bits),/>表示每bit任务所需CPU计算周期数(cycles/bit),/>表示任务最大容忍时延。如果用户在t时隙没有任务到达,那么任务特性表示为/>
用户根据自身情况选择将任务卸载到小基站上的服务器或者本地执行,定义卸载决策变量表示任务卸载比例。考虑小基站间重叠的场景,用户任务卸载有多个候选小基站,用户需要进行服务器关联决策。在t时隙对于用户u,定义服务器关联变量用于决定任务/>卸载到哪一个边缘服务器,/>表示任务/>选择服务器m执行任务。
S2:基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型。
构建通信模型,具体包括:
系统中,同一小蜂窝内用户采用正交频分多址技术,忽略同一小蜂窝内用户间干扰。考虑用户移动过程中,信道增益可能受用户与服务基站间距离影响,定义t时隙用户u与第m个服务基站间距离为Du,m,t,α是路径衰落因子。假设用户设备发射功率为信干噪比可以表示为:
其中,表示t时隙用户u在向基站m发送任务/>时的小蜂窝间用户干扰,N0是噪声功率,B是用户的信道带宽;/>是t时隙基站m分配给用户u的信道的快衰落系数,服从标准高斯分布;小蜂窝间干扰/>可进一步表示为:
构建任务计算模型,具体包括:
(1)本地计算
其中,k是与芯片架构相关的有效能量成本系数。
(2)边缘计算
由于边缘计算在基站处完成,基站能量由电网供电,能量充足,此处不考虑边缘计算能耗。
整个边缘执行阶段包括用户将任务发送到服务器,服务器完成任务计算,计算结果发送给用户三部分。其中,由于任务输出结果往往较小,且下行链路传输速率较快,因此第三部分时延可以忽略。任务在边缘执行的总时延可以表示为:
构建用户QoS模型,具体包括:
用户在每个时隙开始时会进行服务器选择,用户移动时,服务器选择变量也可能会随之变化。如果当前时隙与前一时隙选择的服务器不同,就意味着会发生服务迁移。定义服务迁移指示变量 时用户任务发生迁移,/>时,用户任务不迁移,即
为了刻画任务在网络中迁移带来的影响,本发明定义单位时间迁移成本它表示任务在小基站间转发时的通信成本。随着迁移用户数增加,/>也随之增加。t时隙内,迁移用户数可以表示为/>单位迁移成本随迁移用户数动态变化:
其中,C是固定的迁移成本,b是控制因子,用于控制迁移成本随待迁移用户数变化的快慢。
t时隙内,所有用户产生的总迁移成本可以表示为:
构建负载均衡模型,具体包括:
为了衡量用户移动过程中网络负载变化情况,服务器的负载状态可以用服务器的剩余CPU和存储资源来刻画,定义t时隙服务器m的负载为:
S3:根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题。
根据联合优化用户卸载策略、迁移决策和计算资源分配,优化性能最差的用户平均QoS,本发明将长期优化问题建模为最大化最小用户QoS的优化问题,表示为:
其中,表示用户u的最大发射功率;C1是用户服务器关联变量约束,C2是任务卸载决策约束,C3保证用户设备长期平均能耗不超过用户平均能量预算/>C4保证服务器之间负载分布差异不超过负载分布差值ζ,C5表示长期平均迁移成本不超过平均迁移成本预算/>C6表示用户设备发射功率约束。
S4:采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。
本发明设计了一种基于多智能体强化学习的分布式任务迁移算法(DSACM算法),利用集中式训练分布式执行(Central Training Distributed Execute,CTDE)框架,将单智能体强化学习算法SAC扩展到多智能体领域,相比于一般的强化学习算法,SAC算法通过最大化熵正则项可以获得更高的探索能力和更强的鲁棒性。
引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题,根据李雅普诺夫优化理论将最大化问题中的长期约束解耦,得到重写的优化问题;具体的:由于建模的是一个长期极大极小化公平性问题,难以直接求解。可以每个时隙引入辅助变量将其转化为一个最大化问题。P1可以被等价转化为P2,具体表示如下:
s.t.C1-C6,
要证明转化后的与/>等价,只需证在增加了约束条件C7和C8的前提下,/>的最优值不小于/>的最优值。系统中最小的用户长期平均QoS为/> 中的最大值表示为/>t时隙相应的决策动作可以表示为α(t)={o(t),f(t),ρ(t)}。根据约束条件C7,总有/>将/>的最优值表示为/>此时的最优解α*(t)={o*(t),f*(t),ρ*(t)}。在约束条件C7和C8约束下,令/>代入/>可以得到因此,有/>说明上述转化是成立的。
对于转换后的问题C3、C7和C8都属于长期约束,可采用李雅普诺夫优化理论对问题中的长期约束进行解耦,并且平衡用户QoS与迁移成本约束。原问题中C3是针对用户设备能耗的长期平均约束,针对这一约束,可以引入能量预算队列Zu(t),表示为:
针对约束条件C5,定义虚拟迁移成本队列G(t),表示t时隙内系统中所有用户产生的迁移成本:
定义两个时隙间李雅普诺夫函数的变化为李雅普诺夫漂移函数ΔL(Θ(t)),为了保证队列的稳定,需要最小化漂移函数的值,ΔL(Θ(t))表示如下:
定义李雅普诺夫漂移加惩罚项为:
式中,V是迁移成本队列控制因子(V>0),用于控制队列稳定性与目标函数优化之间的权重。惩罚项可以表示为目标函数的映射,加上这一项是为了在最小化李雅普诺夫漂移保证队列稳定性的同时,最小化目标函数的值。
可以得到李雅普诺夫漂移函数ΔL(Θ(t))表示为:
为了在最大化用户QoS的同时保证队列积压Θ(t)的稳定,采用最小化李雅普诺夫漂移加惩罚项的方式,可以得到:
s.t.C1,C2,C4,C8
将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程(DecentralizedPartially Observable Markov Decision Process,Dec-POMDP),由用户充当智能体,并构建观测空间、动作空间和奖励函数;每个智能体均具有一个用户策略网络和两个用户价值网络,每个基站均有一个节点价值网络;具体的:
1)观测空间
对于智能体U-Agent u,状态包括剩余可用迁移成本预算、剩余设备能量、节点剩余计算资源、当前负载偏差值等。观测空间定义为:
2)动作空间
动作空间包括卸载决策、服务器关联策略、功率分配策略,定义为:
3)奖励函数
现有技术中的奖励函数往往设置为共享的全局奖励,但在多智能体场景下,难以衡量某一个智能体对全局奖励的贡献值,容易产生信用分配问题。在这种情况下,部分智能体无法得到有效训练。本发明将奖励函数分别设置为节点全局奖励函数(节点奖励函数)和个体奖励函数(用户奖励函数)。对于边缘节点而言,希望能够在保证用户QoS的同时,维持整个网络的负载均衡。节点基于当前自身负载均衡度和剩余迁移成本预算队列建立全局奖励函数,避免只考虑用户移动性进行任务迁移容易导致的负载不均衡问题。节点m处的全局奖励函数即节点奖励函数可以表示为:
其中,ω表示归一化因子。
其中,Eu,t表示t时隙用户u的设备能量。
如图3所示,本发明采用CTDE框架,借助以往收集数据对网络进行预训练,之后直接将训练好的模型分发给参与卸载的用户,用户直接离线执行任务。在线执行阶段,用户智能体只需要依靠自身局部环境观测就可以做出实时性决策。
由于用户在系统中随机移动以及信道时变特性,导致网络状态不断发生变化。为了稳定算法收敛过程,本发明将单智能体SAC扩展到多智能体领域。SAC是一种离线强化学习算法,通过最大化熵正则项来做出更加随机的决策,增加算法的探索性能,避免陷入局部最优解。相比于一般的最大化奖励的强化学习算法,SAC有着更高的探索能力和更强的鲁棒性,能够更好地适应复杂的网络环境。
针对多用户多节点的分布式场景,本发明所提分布式SAC算法训练的目标是最大化如下所示的熵正则项:
在Actor-Critic网络架构中,长期训练过程时,为了最大化长期回报奖励,需要借助Critic网络(价值网络)和Actor网络(用户策略网络)对策略进行评估和改进。用户价值网络软Q值函数为:
其中, 表示t时隙用户u状态,/>表示t时隙用户u动作,/>表示在状态/>下生成动作/>的概率密度函数,γ表示折扣因子,通过策略迭代方法可以获得最优的最大化熵正则项的动作。同理可以得到节点m软Q值函数sm和am分别表示关联在节点m的用户的状态集合和动作集合。
为了适应大规模连续动作处理,通过深度神经网络来近似价值函数,软Q函数和策略函数。通过最小化均方误差来更新节点智能体和用户智能体的价值网络。为了简化表示,使用su,au分别代替s′u,a′u代替/>定义用户价值网络φi,u的损失函数为:
为了避免价值网络输出的Q值出现高估问题,引入双Q网络,使用两个网络中软Q值最小的一个作为近似估计值,即有:
同理可以得到节点价值网络损失函数。采用梯度下降法更新用户智能体和节点处的价值网络,用户价值网络更新公式可以表示为:
节点价值网络φm更新公式为:
根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络,更新网络参数,得到训练好的用户策略网络、用户价值网络和节点价值网络,根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策;完成训练之后,训练好的模型被直接部署到系统中的用户终端,分布式进行决策。
如图4所示,本发明比较了所提算法与文献(LIU C B,TANG F,HU Y K,etal.Distributed task migration optimization in MEC by extending multi-agentdeep reinforcement learning approach[J].IEEE Transactions on Parallel andDistributed Systems,2020,32(7):1603-1614.)所提COMA算法的平均奖励值,实线部分为奖励值每50个回合的滑动平均值,阴影填充部分是奖励值变化范围。可以发现本发明所获得的累积奖励值高于COMA算法。这是由于DSACM继承了SAC算法最大化熵正则项的思想,鼓励探索,因此本发明可以避免陷入局部最优,产生更优的卸载和迁移决策,从而使得用户获得更好的服务质量。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,包括:
S1:构建多用户多节点的移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型;
S3:根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题;
S4:采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。
3.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,所述用户QoS模型包括:计算任务的迁移时延和单位时间迁移成本;根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本;根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延,根据任务的总执行时延和任务最大容忍时延计算用户QoS增益。
5.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,所述负载均衡模型包括:定义服务器的负载和服务器的负载偏差系数;服务器的负载表示为:
其中,表示t时隙服务器m的负载,/>表示服务器m的最大计算资源量,/>表示用户集合,/>表示t时隙用户u的服务器关联变量,/>表示任务的卸载决策变量,/>表示任务数据大小,/>表示每bit任务所需CPU计算周期数,/>表示计算资源权重,/>表示存储容量权重,表示服务器m的最大存储容量,/>是一个布尔变量,当Ω为真时,/>反之,
服务器的负载偏差系数表示为:
7.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,求解最大化最小用户QoS的优化问题的过程包括:
引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题,根据李雅普诺夫优化理论将最大化问题中的长期约束解耦,得到重写的优化问题;
将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程,由用户充当智能体,并构建观测空间、动作空间和奖励函数;每个智能体均具有一个用户策略网络和两个用户价值网络,每个基站有一个节点价值网络;
根据奖励函数计算用户价值网络和节点价值网络的软Q值;由用户策略网络生成相应的动作并根据动作更新奖励函数,进入下一状态;根据节点价值网络和两个用户价值网络中最小软Q值的用户价值网络评估动作;
根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络,更新网络参数,得到训练好的用户策略网络、用户价值网络和节点价值网络;根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310268943.1A CN116390161A (zh) | 2023-03-20 | 2023-03-20 | 一种移动边缘计算中基于负载均衡的任务迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310268943.1A CN116390161A (zh) | 2023-03-20 | 2023-03-20 | 一种移动边缘计算中基于负载均衡的任务迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116390161A true CN116390161A (zh) | 2023-07-04 |
Family
ID=86962587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310268943.1A Pending CN116390161A (zh) | 2023-03-20 | 2023-03-20 | 一种移动边缘计算中基于负载均衡的任务迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116390161A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668447A (zh) * | 2023-08-01 | 2023-08-29 | 贵州省广播电视信息网络股份有限公司 | 一种基于改进自学习权重的边缘计算任务卸载方法 |
CN116934058A (zh) * | 2023-09-18 | 2023-10-24 | 西南交通大学 | 一种基于多智能体强化学习的产品服务决策方法 |
CN117528657A (zh) * | 2024-01-04 | 2024-02-06 | 长春工程学院 | 一种电力物联网任务卸载方法、系统、设备及介质 |
CN117573375A (zh) * | 2024-01-15 | 2024-02-20 | 上海交通大学四川研究院 | 一种面向自适应解耦方程的动态负载平衡并行计算方法 |
CN117729571A (zh) * | 2024-02-08 | 2024-03-19 | 厦门大学 | 一种动态mec网络中迁移决策与资源分配的联合优化方法 |
-
2023
- 2023-03-20 CN CN202310268943.1A patent/CN116390161A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116668447A (zh) * | 2023-08-01 | 2023-08-29 | 贵州省广播电视信息网络股份有限公司 | 一种基于改进自学习权重的边缘计算任务卸载方法 |
CN116668447B (zh) * | 2023-08-01 | 2023-10-20 | 贵州省广播电视信息网络股份有限公司 | 一种基于改进自学习权重的边缘计算任务卸载方法 |
CN116934058A (zh) * | 2023-09-18 | 2023-10-24 | 西南交通大学 | 一种基于多智能体强化学习的产品服务决策方法 |
CN116934058B (zh) * | 2023-09-18 | 2023-12-26 | 西南交通大学 | 一种基于多智能体强化学习的产品服务决策方法 |
CN117528657A (zh) * | 2024-01-04 | 2024-02-06 | 长春工程学院 | 一种电力物联网任务卸载方法、系统、设备及介质 |
CN117528657B (zh) * | 2024-01-04 | 2024-03-19 | 长春工程学院 | 一种电力物联网任务卸载方法、系统、设备及介质 |
CN117573375A (zh) * | 2024-01-15 | 2024-02-20 | 上海交通大学四川研究院 | 一种面向自适应解耦方程的动态负载平衡并行计算方法 |
CN117573375B (zh) * | 2024-01-15 | 2024-04-02 | 上海交通大学四川研究院 | 一种面向自适应解耦方程的动态负载平衡并行计算方法 |
CN117729571A (zh) * | 2024-02-08 | 2024-03-19 | 厦门大学 | 一种动态mec网络中迁移决策与资源分配的联合优化方法 |
CN117729571B (zh) * | 2024-02-08 | 2024-05-31 | 厦门大学 | 一种动态mec网络中迁移决策与资源分配的联合优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116390161A (zh) | 一种移动边缘计算中基于负载均衡的任务迁移方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111666149A (zh) | 基于深度强化学习的超密边缘计算网络移动性管理方法 | |
Zhang et al. | Joint optimization of cooperative edge caching and radio resource allocation in 5G-enabled massive IoT networks | |
CN112954736A (zh) | 基于策略的无线携能物联网设备的计算卸载 | |
Arroyo-Valles et al. | A censoring strategy for decentralized estimation in energy-constrained adaptive diffusion networks | |
Wang et al. | Optimization for computational offloading in multi-access edge computing: A deep reinforcement learning scheme | |
Sellami et al. | Deep reinforcement learning for energy-efficient task scheduling in SDN-based IoT network | |
Cui et al. | Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network | |
Xu et al. | Deep reinforcement learning for dynamic access control with battery prediction for mobile-edge computing in green iot networks | |
CN113573342B (zh) | 一种基于工业物联网的节能计算卸载方法 | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
Han et al. | Multi-step reinforcement learning-based offloading for vehicle edge computing | |
CN117255356B (zh) | 一种无线接入网中基于联邦学习的高效自协同方法 | |
CN117156492A (zh) | 一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法 | |
CN117528649A (zh) | 建立端边云系统架构的方法、任务卸载和资源分配优化方法及端边云系统架构 | |
Zhao et al. | MEDIA: An incremental DNN based computation offloading for collaborative cloud-edge computing | |
Hazarika et al. | Hybrid machine learning approach for resource allocation of digital twin in UAV-aided internet-of-vehicles networks | |
Bhatia et al. | A hidden markov model based prediction mechanism for cluster head selection in WSN | |
Qi et al. | Edge-edge Collaboration Based Micro-service Deployment in Edge Computing Networks | |
Gao et al. | MOIPC-MAAC: Communication-Assisted Multi-Objective MARL for Trajectory Planning and Task Offloading in Multi-UAV Assisted MEC | |
Zhu et al. | Optimization Scheme of Vehicular Edge Computing Task Offloading Based on Digital Twin Assistance | |
Agbaje et al. | Deep Reinforcement Learning for Energy-Efficient Task Offloading in Cooperative Vehicular Edge Networks | |
Farimani et al. | Computation Offloading Strategy for Autonomous Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |