CN116390161A - 一种移动边缘计算中基于负载均衡的任务迁移方法 - Google Patents

一种移动边缘计算中基于负载均衡的任务迁移方法 Download PDF

Info

Publication number
CN116390161A
CN116390161A CN202310268943.1A CN202310268943A CN116390161A CN 116390161 A CN116390161 A CN 116390161A CN 202310268943 A CN202310268943 A CN 202310268943A CN 116390161 A CN116390161 A CN 116390161A
Authority
CN
China
Prior art keywords
user
representing
task
migration
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310268943.1A
Other languages
English (en)
Inventor
鲜永菊
韩瑞寅
谭文光
汪洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310268943.1A priority Critical patent/CN116390161A/zh
Publication of CN116390161A publication Critical patent/CN116390161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

本发明属于移动通信技术领域,具体涉及一种移动边缘计算中基于负载均衡的任务迁移方法;该方法包括:构建多用户多节点的移动边缘计算系统模型;基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型;构建最大化最小用户QoS的优化问题;采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移;本发明能有效降低任务执行时延、任务失败率和迁移率,并能够保证节点间负载分布均衡。

Description

一种移动边缘计算中基于负载均衡的任务迁移方法
技术领域
本发明属于移动通信技术领域,具体涉及一种移动边缘计算中基于负载均衡的任务迁移方法。
背景技术
随着移动通信技术和物联网产业的不断发展,以虚拟现实、增强现实、自动驾驶、远程医疗为代表的一系列新型业务产生,给人们的生活带来了全新的体验。这类业务往往具有较大的计算需求和较高的时延敏感度,给能量、计算资源有限的移动终端设备带来了极大挑战。移动边缘计算(Mobile Edge Computing,MEC)将原本云计算的计算资源和存储资源下沉到更靠近用户一侧的边缘设备上,能够为用户提供低时延高可靠性的服务,提升用户服务质量(Quality of Service,QoS)。
MEC环境中用户移动性是影响用户QoS的重要因素,用户移动过程中,信道状态会不断变化,可能会影响原有卸载方案性能。通过跟随用户移动进行任务迁移的方式,可以在一定程度上保证用户QoS和服务连续性。现有的在MEC环境中基于用户移动性的任务迁移研究有两种:一是带有能量收集装置的MEC系统中的任务迁移、资源分配问题的研究,例如建立以最小化长期服务成本为目标的优化问题,采用李雅普诺夫优化先解耦,再借助半正定规划求解的方法。二是车辆边缘计算环境中任务卸载和迁移问题的研究,例如考虑车联网中任务卸载和任务迁移时可能产生的相互干扰,建模基于车辆卸载决策的博弈机制以最小化卸载开销的方法。但是以上方案均未考虑移动性可能带来的负载分布不均的问题,且每个时隙都需要求解子问题,算法复杂度较高。
近年来,随着强化学习的兴起,为求解这类复杂优化问题提供了新思路。通过将深度强化学习应用到MEC领域中,可以有效解决MEC中任务迁移决策问题。例如针对超密集边缘计算网络中的任务迁移和资源分配问题,提出了一种基于注意力机制的双深度Q网络(Double Deep Q Network,DDQN)算法来最小化用户任务的长期时延和能耗。针对基于区块链的超密集边缘计算环境,提出了一种基于Actor-Critic架构的深度强化学习算法生成任务迁移决策。以上研究都是基于单智能体强化学习算法进行求解,只适用于控制器集中控制或者单个用户决策的场景。综上所述,目前已有大量研究工作围绕移动性场景下用户任务迁移展开,但是少有研究关注用户移动性带来负载分布不均的问题。此外,在多用户多基站的分布式场景下,采用集中式控制需要不断收集用户位置变化信息,这会产生较大的信令收集成本。
发明内容
针对现有技术存在的不足,本发明提出了一种移动边缘计算中基于负载均衡的任务迁移方法,该方法包括:
S1:构建多用户多节点的移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型;
S3:根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题;
S4:采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。
优选的,多用户多节点的移动边缘计算系统模型具体包括:M个基站和U个用户,每个基站均配备有一个服务器,服务器集合表示为
Figure BDA0004134157890000021
用户集合表示为
Figure BDA0004134157890000022
用户任务随机到达,任务表示为/>
Figure BDA0004134157890000023
其中/>
Figure BDA0004134157890000024
表示t时隙用户u的任务数据大小,/>
Figure BDA0004134157890000025
表示每bit任务所需CPU计算周期数,/>
Figure BDA0004134157890000031
表示任务最大容忍时延;用户根据自身情况选择将任务卸载到基站上的服务器或本地执行,定义卸载决策变量
Figure BDA0004134157890000032
表示任务卸载比例;定义服务器关联变量/>
Figure BDA0004134157890000033
用于决定任务/>
Figure BDA0004134157890000034
卸载到哪一个服务器。
优选的,用户QoS模型包括:计算任务的迁移时延和单位时间迁移成本;根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本;根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延,根据任务的总执行时延和任务最大容忍时延计算用户QoS增益。
进一步的,计算用户QoS增益的公式为:
Figure BDA0004134157890000035
其中,
Figure BDA0004134157890000036
表示t时隙用户u的QoS增益,/>
Figure BDA0004134157890000037
表示t时隙用户u的任务总执行时延,/>
Figure BDA0004134157890000038
表示t时隙用户u的任务最大容忍时延。
优选的,负载均衡模型包括:定义服务器的负载和服务器的负载偏差系数;服务器的负载表示为:
Figure BDA0004134157890000039
其中,
Figure BDA00041341578900000310
表示t时隙服务器m的负载,/>
Figure BDA00041341578900000311
表示服务器m的最大计算资源量,/>
Figure BDA00041341578900000312
表示用户集合,/>
Figure BDA00041341578900000313
表示t时隙用户u的服务器关联变量,/>
Figure BDA00041341578900000314
表示任务的卸载决策变量,/>
Figure BDA00041341578900000315
表示任务数据大小,/>
Figure BDA00041341578900000316
表示每bit任务所需CPU计算周期数,/>
Figure BDA00041341578900000317
表示计算资源权重,/>
Figure BDA00041341578900000318
表示存储容量权重,/>
Figure BDA00041341578900000319
表示服务器m的最大存储容量,/>
Figure BDA00041341578900000320
是一个布尔变量,当Ω为真时,/>
Figure BDA00041341578900000321
反之,/>
Figure BDA00041341578900000322
服务器的负载偏差系数表示为:
Figure BDA00041341578900000323
其中,
Figure BDA00041341578900000324
表示t时隙服务器m的负载偏差系数,/>
Figure BDA00041341578900000325
表示t时隙的服务器平均计算负载。
优选的,最大化最小用户QoS的优化问题表示为:
Figure BDA0004134157890000041
s.t.C1:
Figure BDA0004134157890000042
C2:
Figure BDA0004134157890000043
C3:
Figure BDA0004134157890000044
C4:
Figure BDA0004134157890000045
C5:
Figure BDA0004134157890000046
C6:
Figure BDA0004134157890000047
其中,T表示系统时间周期,
Figure BDA0004134157890000048
表示t时隙用户u的QoS增益,/>
Figure BDA0004134157890000049
表示t时隙用户u的服务器关联变量,/>
Figure BDA00041341578900000410
表示服务器集合,/>
Figure BDA00041341578900000411
表示系统时隙集合,/>
Figure BDA00041341578900000412
表示用户集合,/>
Figure BDA00041341578900000413
表示任务的卸载决策变量,/>
Figure BDA00041341578900000414
表示t时隙用户u的能耗,/>
Figure BDA00041341578900000415
表示用户平均能量预算,/>
Figure BDA00041341578900000416
表示t时隙服务器m的负载偏差系数,ζ表示负载分布差值,/>
Figure BDA00041341578900000417
表示t时隙用户的迁移成本,/>
Figure BDA00041341578900000418
表示平均迁移成本预算,/>
Figure BDA00041341578900000419
表示t时隙用户u的发射功率,/>
Figure BDA00041341578900000420
表示用户u的最大发射功率。
优选的,求解最大化最小用户QoS的优化问题的过程包括:
引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题,根据李雅普诺夫优化理论将最大化问题中的长期约束解耦,得到重写的优化问题;
将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程,由用户充当智能体,并构建观测空间、动作空间和奖励函数;每个智能体均具有一个用户策略网络和两个用户价值网络,每个基站有一个节点价值网络;
根据奖励函数计算用户价值网络和节点价值网络的软Q值;由用户策略网络生成相应的动作并根据动作更新奖励函数,进入下一状态;根据节点价值网络和两个用户价值网络中最小软Q值的用户价值网络评估动作;
根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络,更新网络参数,得到训练好的用户策略网络、用户价值网络和节点价值网络;根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策。
进一步的,观测空间表示为:
Figure BDA0004134157890000051
其中,
Figure BDA0004134157890000052
表示t时隙用户u的状态,/>
Figure BDA0004134157890000053
表示剩余迁移成本预算,/>
Figure BDA0004134157890000054
表示用户u的设备剩余能量,Fremain(t)表示基站节点剩余计算资源的集合,LF(t)表示基站节点当前负载偏差值的集合。
进一步的,奖励函数包括用户奖励函数和节点奖励函数;
用户奖励函数表示为:
Figure BDA0004134157890000055
节点奖励函数表示为:
Figure BDA0004134157890000056
其中,
Figure BDA0004134157890000057
表示t时隙用户u的奖励值,V表示迁移成本队列控制因子,Qu表示用户u的QoS增益,Zu(t)表示能量预算队列,Eu,t表示t时隙用户u的设备能量,/>
Figure BDA00041341578900000513
表示用户平均能量预算,/>
Figure BDA0004134157890000058
表示t时隙服务器m的奖励值,ω表示归一化因子,/>
Figure BDA0004134157890000059
表示t时隙服务器m的负载偏差系数,/>
Figure BDA00041341578900000510
表示t时隙的服务器平均计算负载,G(t)表示虚拟迁移成本队列,/>
Figure BDA00041341578900000511
表示t时隙用户的迁移成本,/>
Figure BDA00041341578900000512
表示平均迁移成本预算。
本发明的有益效果为:本发明针对MEC中用户移动性导致负载分布不均以及用户QoS下降的问题,建立了在多用户多节点MEC场景下,用户随机移动的任务迁移模型,将其建模为一个长期极大极小化公平性问题,旨在考虑系统迁移成本约束、用户设备能耗约束和系统负载均衡的同时,优化性能最差的用户的服务质量。之后,通过引入辅助变量结合李雅普诺夫优化的方式将原问题转化并解耦,将其建模为Dec-POMDP,将奖励函数分解为节点全局奖励和用户个体奖励,分别基于网络负载和用户QoS对用户动作施加奖励。针对集中式控制需要大量收集用户信息的问题,提出一种基于扩展多智能体SAC的分布式任务迁移方案。利用集中式训练分布式执行框架,将单智能体强化学习算法SAC扩展到多智能体领域,相比于一般的强化学习算法,SAC算法通过最大化熵正则项可以获得更高的探索能力和更强的鲁棒性。仿真结果表明,相较于现有算法,本发明所提方法能有效降低任务执行时延、任务失败率和迁移率,并能够保证节点间负载分布均衡。
附图说明
图1为本发明中移动边缘计算中基于负载均衡的任务迁移方法流程图;
图2为本发明中多用户多节点的移动边缘计算系统模型示意图;
图3为本发明中DSACM算法网络结构图;
图4为本发明与对比方法的平均奖励随训练迭代次数变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种移动边缘计算中基于负载均衡的任务迁移方法,如图1所示,所述方法包括以下内容:
S1:构建多用户多节点的移动边缘计算系统模型。
如图2所示,在多用户多节点MEC场景下,建立多用户多节点的移动边缘计算系统模型,包括M个基站和U个用户,每个基站上部署一个服务器,不同小基站上的服务器计算能力异构,一共有M个服务器,
Figure BDA0004134157890000061
表示服务器的集合。用户集合用/>
Figure BDA0004134157890000062
表示,用户设备可以是车辆、普通移动用户等;假设每个用户在关联节点(关联基站)上都有一个虚拟机提供服务,它可以跟随用户移动被迁移到新的服务器上继续执行。
整个系统时间周期为T,时隙集合表示为
Figure BDA0004134157890000071
每个时隙长度为τ。考虑用户任务的随机到达,用户任务特性可以表示为/>
Figure BDA0004134157890000072
其中,/>
Figure BDA0004134157890000073
表示任务数据大小(bits),/>
Figure BDA0004134157890000074
表示每bit任务所需CPU计算周期数(cycles/bit),/>
Figure BDA0004134157890000075
表示任务最大容忍时延。如果用户在t时隙没有任务到达,那么任务特性表示为/>
Figure BDA0004134157890000076
用户根据自身情况选择将任务卸载到小基站上的服务器或者本地执行,定义卸载决策变量
Figure BDA0004134157890000077
表示任务卸载比例。考虑小基站间重叠的场景,用户任务卸载有多个候选小基站,用户需要进行服务器关联决策。在t时隙对于用户u,定义服务器关联变量
Figure BDA0004134157890000078
用于决定任务/>
Figure BDA0004134157890000079
卸载到哪一个边缘服务器,/>
Figure BDA00041341578900000710
表示任务/>
Figure BDA00041341578900000711
选择服务器m执行任务。
S2:基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型。
构建通信模型,具体包括:
系统中,同一小蜂窝内用户采用正交频分多址技术,忽略同一小蜂窝内用户间干扰。考虑用户移动过程中,信道增益可能受用户与服务基站间距离影响,定义t时隙用户u与第m个服务基站间距离为Du,m,t,α是路径衰落因子。假设用户设备发射功率为
Figure BDA00041341578900000712
信干噪比
Figure BDA00041341578900000713
可以表示为:
Figure BDA00041341578900000714
其中,
Figure BDA00041341578900000715
表示t时隙用户u在向基站m发送任务/>
Figure BDA00041341578900000716
时的小蜂窝间用户干扰,N0是噪声功率,B是用户的信道带宽;/>
Figure BDA00041341578900000717
是t时隙基站m分配给用户u的信道的快衰落系数,服从标准高斯分布;小蜂窝间干扰/>
Figure BDA00041341578900000718
可进一步表示为:
Figure BDA00041341578900000719
t时隙用户u将计算任务
Figure BDA00041341578900000720
发送到基站m时的无线传输速率/>
Figure BDA00041341578900000721
表示为:
Figure BDA00041341578900000722
本发明假设任务的传输可以在一个时隙内完成,任务的传输时间与信道传输速率、任务数据大小有关,t时隙任务
Figure BDA0004134157890000081
的通信时延/>
Figure BDA0004134157890000082
可以表示为:
Figure BDA0004134157890000083
其中,若Ω为真时,
Figure BDA0004134157890000084
反之,/>
Figure BDA0004134157890000085
用户向基站发送任务时,需要消耗自身能量,由于用户设备能量的有限性,这一部分能耗不可忽略。此时任务
Figure BDA0004134157890000086
的传输能耗可以表示为/>
Figure BDA0004134157890000087
构建任务计算模型,具体包括:
(1)本地计算
当任务本地执行时,即使用户位置发生改变,任务仍然在本地设备上继续执行,用户设备能耗只包括本地计算能耗,t时隙用户u的本地计算时延
Figure BDA0004134157890000088
可以表示为:
Figure BDA0004134157890000089
其中,
Figure BDA00041341578900000810
为用户设备u的计算能力。
任务
Figure BDA00041341578900000811
在本地计算的能耗/>
Figure BDA00041341578900000812
可以表示为:
Figure BDA00041341578900000813
其中,k是与芯片架构相关的有效能量成本系数。
(2)边缘计算
任务
Figure BDA00041341578900000814
的边缘计算时间可表示为:
Figure BDA00041341578900000815
其中,
Figure BDA00041341578900000816
表示节点m分配给用户u的计算资源。
由于边缘计算在基站处完成,基站能量由电网供电,能量充足,此处不考虑边缘计算能耗。
整个边缘执行阶段包括用户将任务发送到服务器,服务器完成任务计算,计算结果发送给用户三部分。其中,由于任务输出结果往往较小,且下行链路传输速率较快,因此第三部分时延可以忽略。任务在边缘执行的总时延可以表示为:
Figure BDA0004134157890000091
构建用户QoS模型,具体包括:
用户在每个时隙开始时会进行服务器选择,用户移动时,服务器选择变量也可能会随之变化。如果当前时隙与前一时隙选择的服务器不同,就意味着会发生服务迁移。定义服务迁移指示变量
Figure BDA0004134157890000092
Figure BDA0004134157890000093
时用户任务发生迁移,/>
Figure BDA0004134157890000094
时,用户任务不迁移,即
Figure BDA0004134157890000095
任务迁移通过服务器间的有线连接完成,为了简化计算,基于静态路由跳数计算有线传输时延。使用
Figure BDA00041341578900000914
表示单跳时延,σi,j表示服务器i与服务器j之间的路由跳数。任务的迁移时延可以具体表示为:
Figure BDA0004134157890000096
为了刻画任务在网络中迁移带来的影响,本发明定义单位时间迁移成本
Figure BDA0004134157890000097
它表示任务在小基站间转发时的通信成本。随着迁移用户数增加,/>
Figure BDA0004134157890000098
也随之增加。t时隙内,迁移用户数可以表示为/>
Figure BDA0004134157890000099
单位迁移成本随迁移用户数动态变化:
Figure BDA00041341578900000910
其中,C是固定的迁移成本,b是控制因子,用于控制迁移成本随待迁移用户数变化的快慢。
任务
Figure BDA00041341578900000911
的迁移成本为/>
Figure BDA00041341578900000912
它与任务的迁移时延相关,根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本,可以表示为:
Figure BDA00041341578900000913
t时隙内,所有用户产生的总迁移成本可以表示为:
Figure BDA0004134157890000101
根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延,t时隙用户u的任务
Figure BDA0004134157890000102
的中执行时延可以表示为:
Figure BDA0004134157890000103
定义t时隙用户u的能耗为
Figure BDA0004134157890000104
Figure BDA0004134157890000105
应该满足/>
Figure BDA0004134157890000106
Figure BDA0004134157890000107
表示用户u的设备剩余能量。
用户QoS与任务完成时延相关,用户QoS模型可以利用对数函数规律进行刻画。根据任务的总执行时延和任务最大容忍时延计算用户QoS增益,t时隙用户u的用户QoS增益
Figure BDA0004134157890000108
可以表示为:
Figure BDA0004134157890000109
构建负载均衡模型,具体包括:
为了衡量用户移动过程中网络负载变化情况,服务器的负载状态可以用服务器的剩余CPU和存储资源来刻画,定义t时隙服务器m的负载为:
Figure BDA00041341578900001010
其中,
Figure BDA00041341578900001011
Figure BDA00041341578900001012
和/>
Figure BDA00041341578900001013
分别表示服务器m最大计算资源量和最大存储容量;
Figure BDA00041341578900001014
和/>
Figure BDA00041341578900001015
分别表示计算资源权重和存储容量权重,满足/>
Figure BDA00041341578900001016
服务器存储能力异构,服务器之间的平均计算负载定义为
Figure BDA00041341578900001017
为了考察服务器之间负载分布情况,定义负载偏差系数/>
Figure BDA00041341578900001018
表示服务器当前负载分布情况与平均负载的偏差。
S3:根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题。
根据联合优化用户卸载策略、迁移决策和计算资源分配,优化性能最差的用户平均QoS,本发明将长期优化问题建模为最大化最小用户QoS的优化问题,表示为:
Figure BDA0004134157890000112
s.t.C1:
Figure BDA0004134157890000113
C2:
Figure BDA0004134157890000114
C3:
Figure BDA0004134157890000115
C4:
Figure BDA0004134157890000116
C5:
Figure BDA0004134157890000117
C6:
Figure BDA0004134157890000118
其中,
Figure BDA0004134157890000119
表示用户u的最大发射功率;C1是用户服务器关联变量约束,C2是任务卸载决策约束,C3保证用户设备长期平均能耗不超过用户平均能量预算/>
Figure BDA00041341578900001110
C4保证服务器之间负载分布差异不超过负载分布差值ζ,C5表示长期平均迁移成本不超过平均迁移成本预算/>
Figure BDA00041341578900001111
C6表示用户设备发射功率约束。
S4:采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。
本发明设计了一种基于多智能体强化学习的分布式任务迁移算法(DSACM算法),利用集中式训练分布式执行(Central Training Distributed Execute,CTDE)框架,将单智能体强化学习算法SAC扩展到多智能体领域,相比于一般的强化学习算法,SAC算法通过最大化熵正则项可以获得更高的探索能力和更强的鲁棒性。
引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题,根据李雅普诺夫优化理论将最大化问题中的长期约束解耦,得到重写的优化问题;具体的:由于建模的是一个长期极大极小化公平性问题,难以直接求解。可以每个时隙引入辅助变量
Figure BDA00041341578900001112
将其转化为一个最大化问题。P1可以被等价转化为P2,具体表示如下:
Figure BDA0004134157890000122
s.t.C1-C6,
C7:
Figure BDA0004134157890000123
C8:
Figure BDA0004134157890000124
式中,引入两个新的约束条件C7和C8,C7中
Figure BDA0004134157890000125
C8中/>
Figure BDA0004134157890000126
要证明转化后的
Figure BDA0004134157890000127
与/>
Figure BDA0004134157890000128
等价,只需证在增加了约束条件C7和C8的前提下,/>
Figure BDA0004134157890000129
的最优值不小于/>
Figure BDA00041341578900001210
的最优值。系统中最小的用户长期平均QoS为/>
Figure BDA00041341578900001211
Figure BDA00041341578900001212
中的最大值表示为/>
Figure BDA00041341578900001213
t时隙相应的决策动作可以表示为α(t)={o(t),f(t),ρ(t)}。根据约束条件C7,总有/>
Figure BDA00041341578900001214
将/>
Figure BDA00041341578900001215
的最优值表示为/>
Figure BDA00041341578900001216
此时的最优解α*(t)={o*(t),f*(t),ρ*(t)}。在约束条件C7和C8约束下,令/>
Figure BDA00041341578900001217
代入/>
Figure BDA00041341578900001226
可以得到
Figure BDA00041341578900001218
因此,有/>
Figure BDA00041341578900001219
说明上述转化是成立的。
对于转换后的问题
Figure BDA00041341578900001220
C3、C7和C8都属于长期约束,可采用李雅普诺夫优化理论对问题中的长期约束进行解耦,并且平衡用户QoS与迁移成本约束。原问题中C3是针对用户设备能耗的长期平均约束,针对这一约束,可以引入能量预算队列Zu(t),表示为:
Figure BDA00041341578900001221
针对约束条件C5,定义虚拟迁移成本队列G(t),表示t时隙内系统中所有用户产生的迁移成本:
Figure BDA00041341578900001222
针对引入的辅助变量约束条件C7,定义虚拟队列
Figure BDA00041341578900001223
虚拟队列的动态变化表示如下:
Figure BDA00041341578900001224
为了联合控制能耗队列和迁移成本队列,定义
Figure BDA00041341578900001225
作为总队列积压。定义李雅普诺夫函数L(Θ(t))如下:
Figure BDA0004134157890000131
定义两个时隙间李雅普诺夫函数的变化为李雅普诺夫漂移函数ΔL(Θ(t)),为了保证队列的稳定,需要最小化漂移函数的值,ΔL(Θ(t))表示如下:
Figure BDA0004134157890000132
定义李雅普诺夫漂移加惩罚项为:
Figure BDA0004134157890000133
式中,V是迁移成本队列控制因子(V>0),用于控制队列稳定性与目标函数优化之间的权重。惩罚项可以表示为目标函数的映射,加上这一项是为了在最小化李雅普诺夫漂移保证队列稳定性的同时,最小化目标函数的值。
可以得到李雅普诺夫漂移函数ΔL(Θ(t))表示为:
Figure BDA0004134157890000134
式中,
Figure BDA0004134157890000135
Figure BDA0004134157890000136
表示t时隙用户的迁移成本,/>
Figure BDA0004134157890000137
表示平均迁移成本预算。
为了在最大化用户QoS的同时保证队列积压Θ(t)的稳定,采用最小化李雅普诺夫漂移加惩罚项的方式,可以得到:
Figure BDA0004134157890000138
优化问题
Figure BDA0004134157890000139
可被进一步转化为:
Figure BDA0004134157890000142
s.t.C1,C2,C4,C8
将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程(DecentralizedPartially Observable Markov Decision Process,Dec-POMDP),由用户充当智能体,并构建观测空间、动作空间和奖励函数;每个智能体均具有一个用户策略网络和两个用户价值网络,每个基站均有一个节点价值网络;具体的:
1)观测空间
对于智能体U-Agent u,状态包括剩余可用迁移成本预算、剩余设备能量、节点剩余计算资源、当前负载偏差值等。观测空间定义为:
Figure BDA0004134157890000144
式中,
Figure BDA0004134157890000148
表示t时隙用户u的状态,/>
Figure BDA0004134157890000145
表示剩余迁移成本预算,
Figure BDA0004134157890000146
表示网络中基站节点剩余计算资源的集合,LF(t)={LF1(t)×LF2(t)×...×LFm(t)}表示基站节点当前负载偏差值的集合。
2)动作空间
动作空间包括卸载决策、服务器关联策略、功率分配策略,定义为:
Figure BDA0004134157890000147
3)奖励函数
现有技术中的奖励函数往往设置为共享的全局奖励,但在多智能体场景下,难以衡量某一个智能体对全局奖励的贡献值,容易产生信用分配问题。在这种情况下,部分智能体无法得到有效训练。本发明将奖励函数分别设置为节点全局奖励函数(节点奖励函数)和个体奖励函数(用户奖励函数)。对于边缘节点而言,希望能够在保证用户QoS的同时,维持整个网络的负载均衡。节点基于当前自身负载均衡度和剩余迁移成本预算队列建立全局奖励函数,避免只考虑用户移动性进行任务迁移容易导致的负载不均衡问题。节点m处的全局奖励函数即节点奖励函数可以表示为:
Figure BDA0004134157890000151
其中,ω表示归一化因子。
用户智能体需要关注自身QoS与能耗,结合优化问题
Figure BDA0004134157890000152
的优化目标,因此可以将个体奖励函数即用户奖励函数表示为:
Figure BDA0004134157890000153
其中,Eu,t表示t时隙用户u的设备能量。
如图3所示,本发明采用CTDE框架,借助以往收集数据对网络进行预训练,之后直接将训练好的模型分发给参与卸载的用户,用户直接离线执行任务。在线执行阶段,用户智能体只需要依靠自身局部环境观测就可以做出实时性决策。
由于用户在系统中随机移动以及信道时变特性,导致网络状态不断发生变化。为了稳定算法收敛过程,本发明将单智能体SAC扩展到多智能体领域。SAC是一种离线强化学习算法,通过最大化熵正则项来做出更加随机的决策,增加算法的探索性能,避免陷入局部最优解。相比于一般的最大化奖励的强化学习算法,SAC有着更高的探索能力和更强的鲁棒性,能够更好地适应复杂的网络环境。
针对多用户多节点的分布式场景,本发明所提分布式SAC算法训练的目标是最大化如下所示的熵正则项:
Figure BDA0004134157890000154
其中,
Figure BDA0004134157890000155
表示智能体u在t时隙所获得的奖励,α是自适应温度系数,可以调节熵值和奖励值的权重,/>
Figure BDA0004134157890000156
表示策略πu的熵值,用于衡量所采取策略的随机程度。
在Actor-Critic网络架构中,长期训练过程时,为了最大化长期回报奖励,需要借助Critic网络(价值网络)和Actor网络(用户策略网络)对策略进行评估和改进。用户价值网络软Q值函数为:
Figure BDA0004134157890000161
其中,
Figure BDA0004134157890000162
Figure BDA0004134157890000163
表示t时隙用户u状态,/>
Figure BDA0004134157890000164
表示t时隙用户u动作,/>
Figure BDA0004134157890000165
表示在状态/>
Figure BDA0004134157890000166
下生成动作/>
Figure BDA0004134157890000167
的概率密度函数,γ表示折扣因子,通过策略迭代方法可以获得最优的最大化熵正则项的动作。同理可以得到节点m软Q值函数
Figure BDA0004134157890000168
sm和am分别表示关联在节点m的用户的状态集合和动作集合。
为了适应大规模连续动作处理,通过深度神经网络来近似价值函数,软Q函数和策略函数。通过最小化均方误差来更新节点智能体和用户智能体的价值网络。为了简化表示,使用su,au分别代替
Figure BDA0004134157890000169
s′u,a′u代替/>
Figure BDA00041341578900001610
定义用户价值网络φi,u的损失函数为:
Figure BDA00041341578900001611
其中,
Figure BDA00041341578900001612
表示目标软Q函数,/>
Figure BDA00041341578900001613
表示用户目标价值网络参数。
为了避免价值网络输出的Q值出现高估问题,引入双Q网络,使用两个网络中软Q值最小的一个作为近似估计值,即有:
Figure BDA00041341578900001614
其中,
Figure BDA00041341578900001615
表示重新采样后的目标软Q函数,/>
Figure BDA00041341578900001616
表示从策略中重新采样的动作,/>
Figure BDA00041341578900001617
表示在状态s′u下生成动作/>
Figure BDA00041341578900001618
的概率密度函数。
同理可以得到节点价值网络损失函数。采用梯度下降法更新用户智能体和节点处的价值网络,用户价值网络更新公式可以表示为:
Figure BDA00041341578900001619
节点价值网络φm更新公式为:
Figure BDA0004134157890000171
用户策略网络生成相应的动作并根据动作更新奖励函数,进入下一状态;用户策略网络更新受关联节点处Q值和自身Q值影响,将软Q值函数进一步改写
Figure BDA0004134157890000172
通过最小化KL散度的方式更新策略网络,更新公式可以表示为:
Figure BDA0004134157890000173
根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络,更新网络参数,得到训练好的用户策略网络、用户价值网络和节点价值网络,根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策;完成训练之后,训练好的模型被直接部署到系统中的用户终端,分布式进行决策。
如图4所示,本发明比较了所提算法与文献(LIU C B,TANG F,HU Y K,etal.Distributed task migration optimization in MEC by extending multi-agentdeep reinforcement learning approach[J].IEEE Transactions on Parallel andDistributed Systems,2020,32(7):1603-1614.)所提COMA算法的平均奖励值,实线部分为奖励值每50个回合的滑动平均值,阴影填充部分是奖励值变化范围。可以发现本发明所获得的累积奖励值高于COMA算法。这是由于DSACM继承了SAC算法最大化熵正则项的思想,鼓励探索,因此本发明可以避免陷入局部最优,产生更优的卸载和迁移决策,从而使得用户获得更好的服务质量。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,包括:
S1:构建多用户多节点的移动边缘计算系统模型;
S2:基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型;
S3:根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题;
S4:采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题,得到任务的卸载决策、迁移决策和功率分配决策;系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。
2.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,所述多用户多节点的移动边缘计算系统模型具体包括:M个基站和U个用户,每个基站均配备有一个服务器,服务器集合表示为
Figure FDA0004134157880000011
用户集合表示为/>
Figure FDA0004134157880000012
用户任务随机到达,任务表示为/>
Figure FDA0004134157880000013
其中/>
Figure FDA0004134157880000014
表示t时隙用户u的任务数据大小,
Figure FDA0004134157880000015
表示每bit任务所需CPU计算周期数,/>
Figure FDA0004134157880000016
表示任务最大容忍时延;用户根据自身情况选择将任务卸载到基站上的服务器或本地执行,定义卸载决策变量/>
Figure FDA0004134157880000017
表示任务卸载比例;定义服务器关联变量/>
Figure FDA0004134157880000018
用于决定任务/>
Figure FDA0004134157880000019
卸载到哪一个服务器。
3.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,所述用户QoS模型包括:计算任务的迁移时延和单位时间迁移成本;根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本;根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延,根据任务的总执行时延和任务最大容忍时延计算用户QoS增益。
4.根据权利要求3所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,计算用户QoS增益的公式为:
Figure FDA0004134157880000021
其中,
Figure FDA0004134157880000022
表示t时隙用户u的QoS增益,/>
Figure FDA0004134157880000023
表示t时隙用户u的任务总执行时延,/>
Figure FDA0004134157880000024
表示t时隙用户u的任务最大容忍时延。
5.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,所述负载均衡模型包括:定义服务器的负载和服务器的负载偏差系数;服务器的负载表示为:
Figure FDA0004134157880000025
其中,
Figure FDA0004134157880000026
表示t时隙服务器m的负载,/>
Figure FDA0004134157880000027
表示服务器m的最大计算资源量,/>
Figure FDA0004134157880000028
表示用户集合,/>
Figure FDA0004134157880000029
表示t时隙用户u的服务器关联变量,/>
Figure FDA00041341578800000210
表示任务的卸载决策变量,/>
Figure FDA00041341578800000211
表示任务数据大小,/>
Figure FDA00041341578800000212
表示每bit任务所需CPU计算周期数,/>
Figure FDA00041341578800000213
表示计算资源权重,/>
Figure FDA00041341578800000220
表示存储容量权重,
Figure FDA00041341578800000214
表示服务器m的最大存储容量,/>
Figure FDA00041341578800000215
是一个布尔变量,当Ω为真时,/>
Figure FDA00041341578800000216
反之,
Figure FDA00041341578800000217
服务器的负载偏差系数表示为:
Figure FDA00041341578800000218
其中,
Figure FDA00041341578800000219
表示t时隙服务器m的负载偏差系数,Lt表示t时隙的服务器平均计算负载。
6.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,所述最大化最小用户QoS的优化问题表示为:
Figure FDA0004134157880000031
Figure FDA0004134157880000032
Figure FDA0004134157880000033
Figure FDA0004134157880000034
Figure FDA0004134157880000035
Figure FDA0004134157880000036
Figure FDA0004134157880000037
其中,T表示系统时间周期,
Figure FDA0004134157880000038
表示t时隙用户u的QoS增益,/>
Figure FDA0004134157880000039
表示t时隙用户u的服务器关联变量,/>
Figure FDA00041341578800000310
表示服务器集合,/>
Figure FDA00041341578800000311
表示系统时隙集合,/>
Figure FDA00041341578800000312
表示用户集合,/>
Figure FDA00041341578800000313
表示任务的卸载决策变量,/>
Figure FDA00041341578800000314
表示t时隙用户u的能耗,/>
Figure FDA00041341578800000315
表示用户平均能量预算,/>
Figure FDA00041341578800000316
表示t时隙服务器m的负载偏差系数,ζ表示负载分布差值,/>
Figure FDA00041341578800000317
表示t时隙用户的迁移成本,/>
Figure FDA00041341578800000318
表示平均迁移成本预算,/>
Figure FDA00041341578800000319
表示t时隙用户u的发射功率,/>
Figure FDA00041341578800000320
表示用户u的最大发射功率。
7.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,求解最大化最小用户QoS的优化问题的过程包括:
引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题,根据李雅普诺夫优化理论将最大化问题中的长期约束解耦,得到重写的优化问题;
将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程,由用户充当智能体,并构建观测空间、动作空间和奖励函数;每个智能体均具有一个用户策略网络和两个用户价值网络,每个基站有一个节点价值网络;
根据奖励函数计算用户价值网络和节点价值网络的软Q值;由用户策略网络生成相应的动作并根据动作更新奖励函数,进入下一状态;根据节点价值网络和两个用户价值网络中最小软Q值的用户价值网络评估动作;
根据当前状态、下一状态、动作和奖励值生成经验信息;采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络,更新网络参数,得到训练好的用户策略网络、用户价值网络和节点价值网络;根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策。
8.根据权利要求7所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,观测空间表示为:
Figure FDA0004134157880000041
其中,Su(t)表示t时隙用户u的状态,
Figure FDA0004134157880000042
表示剩余迁移成本预算,/>
Figure FDA0004134157880000043
表示用户u的设备剩余能量,Fremain(t)表示基站节点剩余计算资源的集合,LF(t)表示基站节点当前负载偏差值的集合。
9.根据权利要求7所述的一种移动边缘计算中基于负载均衡的任务迁移方法,其特征在于,奖励函数包括用户奖励函数和节点奖励函数;
用户奖励函数表示为:
Figure FDA0004134157880000044
节点奖励函数表示为:
Figure FDA0004134157880000045
其中,
Figure FDA0004134157880000046
表示t时隙用户u的奖励值,V表示迁移成本队列控制因子,Qu表示用户u的QoS增益,Zu(t)表示能量预算队列,Eu,t表示t时隙用户u的设备能量,/>
Figure FDA0004134157880000047
表示用户平均能量预算,/>
Figure FDA0004134157880000048
表示t时隙服务器m的奖励值,ω表示归一化因子,/>
Figure FDA00041341578800000411
表示t时隙服务器m的负载偏差系数,/>
Figure FDA0004134157880000049
表示t时隙的服务器平均计算负载,G(t)表示虚拟迁移成本队列,/>
Figure FDA00041341578800000410
表示t时隙用户的迁移成本,/>
Figure FDA00041341578800000412
表示平均迁移成本预算。
CN202310268943.1A 2023-03-20 2023-03-20 一种移动边缘计算中基于负载均衡的任务迁移方法 Pending CN116390161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310268943.1A CN116390161A (zh) 2023-03-20 2023-03-20 一种移动边缘计算中基于负载均衡的任务迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310268943.1A CN116390161A (zh) 2023-03-20 2023-03-20 一种移动边缘计算中基于负载均衡的任务迁移方法

Publications (1)

Publication Number Publication Date
CN116390161A true CN116390161A (zh) 2023-07-04

Family

ID=86962587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310268943.1A Pending CN116390161A (zh) 2023-03-20 2023-03-20 一种移动边缘计算中基于负载均衡的任务迁移方法

Country Status (1)

Country Link
CN (1) CN116390161A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668447A (zh) * 2023-08-01 2023-08-29 贵州省广播电视信息网络股份有限公司 一种基于改进自学习权重的边缘计算任务卸载方法
CN116934058A (zh) * 2023-09-18 2023-10-24 西南交通大学 一种基于多智能体强化学习的产品服务决策方法
CN117528657A (zh) * 2024-01-04 2024-02-06 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117573375A (zh) * 2024-01-15 2024-02-20 上海交通大学四川研究院 一种面向自适应解耦方程的动态负载平衡并行计算方法
CN117729571A (zh) * 2024-02-08 2024-03-19 厦门大学 一种动态mec网络中迁移决策与资源分配的联合优化方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668447A (zh) * 2023-08-01 2023-08-29 贵州省广播电视信息网络股份有限公司 一种基于改进自学习权重的边缘计算任务卸载方法
CN116668447B (zh) * 2023-08-01 2023-10-20 贵州省广播电视信息网络股份有限公司 一种基于改进自学习权重的边缘计算任务卸载方法
CN116934058A (zh) * 2023-09-18 2023-10-24 西南交通大学 一种基于多智能体强化学习的产品服务决策方法
CN116934058B (zh) * 2023-09-18 2023-12-26 西南交通大学 一种基于多智能体强化学习的产品服务决策方法
CN117528657A (zh) * 2024-01-04 2024-02-06 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117528657B (zh) * 2024-01-04 2024-03-19 长春工程学院 一种电力物联网任务卸载方法、系统、设备及介质
CN117573375A (zh) * 2024-01-15 2024-02-20 上海交通大学四川研究院 一种面向自适应解耦方程的动态负载平衡并行计算方法
CN117573375B (zh) * 2024-01-15 2024-04-02 上海交通大学四川研究院 一种面向自适应解耦方程的动态负载平衡并行计算方法
CN117729571A (zh) * 2024-02-08 2024-03-19 厦门大学 一种动态mec网络中迁移决策与资源分配的联合优化方法
CN117729571B (zh) * 2024-02-08 2024-05-31 厦门大学 一种动态mec网络中迁移决策与资源分配的联合优化方法

Similar Documents

Publication Publication Date Title
CN116390161A (zh) 一种移动边缘计算中基于负载均衡的任务迁移方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111666149A (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
Zhang et al. Joint optimization of cooperative edge caching and radio resource allocation in 5G-enabled massive IoT networks
CN112954736A (zh) 基于策略的无线携能物联网设备的计算卸载
Arroyo-Valles et al. A censoring strategy for decentralized estimation in energy-constrained adaptive diffusion networks
Wang et al. Optimization for computational offloading in multi-access edge computing: A deep reinforcement learning scheme
Sellami et al. Deep reinforcement learning for energy-efficient task scheduling in SDN-based IoT network
Cui et al. Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network
Xu et al. Deep reinforcement learning for dynamic access control with battery prediction for mobile-edge computing in green iot networks
CN113573342B (zh) 一种基于工业物联网的节能计算卸载方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
Han et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN117255356B (zh) 一种无线接入网中基于联邦学习的高效自协同方法
CN117156492A (zh) 一种基于深度强化学习的联合服务缓存、通信与计算的双时间尺度资源分配方法
CN117528649A (zh) 建立端边云系统架构的方法、任务卸载和资源分配优化方法及端边云系统架构
Zhao et al. MEDIA: An incremental DNN based computation offloading for collaborative cloud-edge computing
Hazarika et al. Hybrid machine learning approach for resource allocation of digital twin in UAV-aided internet-of-vehicles networks
Bhatia et al. A hidden markov model based prediction mechanism for cluster head selection in WSN
Qi et al. Edge-edge Collaboration Based Micro-service Deployment in Edge Computing Networks
Gao et al. MOIPC-MAAC: Communication-Assisted Multi-Objective MARL for Trajectory Planning and Task Offloading in Multi-UAV Assisted MEC
Zhu et al. Optimization Scheme of Vehicular Edge Computing Task Offloading Based on Digital Twin Assistance
Agbaje et al. Deep Reinforcement Learning for Energy-Efficient Task Offloading in Cooperative Vehicular Edge Networks
Farimani et al. Computation Offloading Strategy for Autonomous Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination