CN116390161A

CN116390161A - 一种移动边缘计算中基于负载均衡的任务迁移方法

Info

Publication number: CN116390161A
Application number: CN202310268943.1A
Authority: CN
Inventors: 鲜永菊; 韩瑞寅; 谭文光; 汪洲
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-07-04

Abstract

本发明属于移动通信技术领域，具体涉及一种移动边缘计算中基于负载均衡的任务迁移方法；该方法包括：构建多用户多节点的移动边缘计算系统模型；基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型；构建最大化最小用户QoS的优化问题；采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题，得到任务的卸载决策、迁移决策和功率分配决策；系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移；本发明能有效降低任务执行时延、任务失败率和迁移率，并能够保证节点间负载分布均衡。

Description

一种移动边缘计算中基于负载均衡的任务迁移方法

技术领域

本发明属于移动通信技术领域，具体涉及一种移动边缘计算中基于负载均衡的任务迁移方法。

背景技术

随着移动通信技术和物联网产业的不断发展，以虚拟现实、增强现实、自动驾驶、远程医疗为代表的一系列新型业务产生，给人们的生活带来了全新的体验。这类业务往往具有较大的计算需求和较高的时延敏感度，给能量、计算资源有限的移动终端设备带来了极大挑战。移动边缘计算(Mobile Edge Computing,MEC)将原本云计算的计算资源和存储资源下沉到更靠近用户一侧的边缘设备上，能够为用户提供低时延高可靠性的服务，提升用户服务质量(Quality of Service,QoS)。

MEC环境中用户移动性是影响用户QoS的重要因素，用户移动过程中，信道状态会不断变化，可能会影响原有卸载方案性能。通过跟随用户移动进行任务迁移的方式，可以在一定程度上保证用户QoS和服务连续性。现有的在MEC环境中基于用户移动性的任务迁移研究有两种：一是带有能量收集装置的MEC系统中的任务迁移、资源分配问题的研究，例如建立以最小化长期服务成本为目标的优化问题，采用李雅普诺夫优化先解耦，再借助半正定规划求解的方法。二是车辆边缘计算环境中任务卸载和迁移问题的研究，例如考虑车联网中任务卸载和任务迁移时可能产生的相互干扰，建模基于车辆卸载决策的博弈机制以最小化卸载开销的方法。但是以上方案均未考虑移动性可能带来的负载分布不均的问题，且每个时隙都需要求解子问题，算法复杂度较高。

近年来，随着强化学习的兴起，为求解这类复杂优化问题提供了新思路。通过将深度强化学习应用到MEC领域中，可以有效解决MEC中任务迁移决策问题。例如针对超密集边缘计算网络中的任务迁移和资源分配问题，提出了一种基于注意力机制的双深度Q网络(Double Deep Q Network,DDQN)算法来最小化用户任务的长期时延和能耗。针对基于区块链的超密集边缘计算环境，提出了一种基于Actor-Critic架构的深度强化学习算法生成任务迁移决策。以上研究都是基于单智能体强化学习算法进行求解，只适用于控制器集中控制或者单个用户决策的场景。综上所述，目前已有大量研究工作围绕移动性场景下用户任务迁移展开，但是少有研究关注用户移动性带来负载分布不均的问题。此外，在多用户多基站的分布式场景下，采用集中式控制需要不断收集用户位置变化信息，这会产生较大的信令收集成本。

发明内容

针对现有技术存在的不足，本发明提出了一种移动边缘计算中基于负载均衡的任务迁移方法，该方法包括：

S1：构建多用户多节点的移动边缘计算系统模型；

S2：基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型；

S3：根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题；

S4：采用多智能体深度强化学习算法求解最大化最小用户QoS的优化问题，得到任务的卸载决策、迁移决策和功率分配决策；系统根据任务的卸载决策、迁移决策和功率分配决策进行任务迁移。

优选的，多用户多节点的移动边缘计算系统模型具体包括：M个基站和U个用户，每个基站均配备有一个服务器，服务器集合表示为

用户集合表示为

用户任务随机到达，任务表示为/>

其中/>

表示t时隙用户u的任务数据大小，/>

表示每bit任务所需CPU计算周期数，/>

表示任务最大容忍时延；用户根据自身情况选择将任务卸载到基站上的服务器或本地执行，定义卸载决策变量

表示任务卸载比例；定义服务器关联变量/>

用于决定任务/>

卸载到哪一个服务器。

优选的，用户QoS模型包括：计算任务的迁移时延和单位时间迁移成本；根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本；根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延，根据任务的总执行时延和任务最大容忍时延计算用户QoS增益。

进一步的，计算用户QoS增益的公式为：

其中，

表示t时隙用户u的QoS增益，/>

表示t时隙用户u的任务总执行时延，/>

表示t时隙用户u的任务最大容忍时延。

优选的，负载均衡模型包括：定义服务器的负载和服务器的负载偏差系数；服务器的负载表示为：

其中，

表示t时隙服务器m的负载，/>

表示服务器m的最大计算资源量，/>

表示用户集合，/>

表示t时隙用户u的服务器关联变量，/>

表示任务的卸载决策变量，/>

表示任务数据大小，/>

表示每bit任务所需CPU计算周期数，/>

表示计算资源权重，/>

表示存储容量权重，/>

表示服务器m的最大存储容量，/>

是一个布尔变量，当Ω为真时，/>

反之，/>

服务器的负载偏差系数表示为：

其中，

表示t时隙服务器m的负载偏差系数，/>

表示t时隙的服务器平均计算负载。

优选的，最大化最小用户QoS的优化问题表示为：

s.t.C1:

C2:

C3:

C4:

C5:

C6:

其中，T表示系统时间周期，

表示t时隙用户u的QoS增益，/>

表示t时隙用户u的服务器关联变量，/>

表示服务器集合，/>

表示系统时隙集合，/>

表示用户集合，/>

表示任务的卸载决策变量，/>

表示t时隙用户u的能耗，/>

表示用户平均能量预算，/>

表示t时隙服务器m的负载偏差系数，ζ表示负载分布差值，/>

表示t时隙用户的迁移成本，/>

表示平均迁移成本预算，/>

表示t时隙用户u的发射功率，/>

表示用户u的最大发射功率。

优选的，求解最大化最小用户QoS的优化问题的过程包括：

引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题，根据李雅普诺夫优化理论将最大化问题中的长期约束解耦，得到重写的优化问题；

将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程，由用户充当智能体，并构建观测空间、动作空间和奖励函数；每个智能体均具有一个用户策略网络和两个用户价值网络，每个基站有一个节点价值网络；

根据奖励函数计算用户价值网络和节点价值网络的软Q值；由用户策略网络生成相应的动作并根据动作更新奖励函数，进入下一状态；根据节点价值网络和两个用户价值网络中最小软Q值的用户价值网络评估动作；

根据当前状态、下一状态、动作和奖励值生成经验信息；采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络，更新网络参数，得到训练好的用户策略网络、用户价值网络和节点价值网络；根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策。

进一步的，观测空间表示为：

其中，

表示t时隙用户u的状态，/>

表示剩余迁移成本预算，/>

表示用户u的设备剩余能量，F_remain(t)表示基站节点剩余计算资源的集合，LF(t)表示基站节点当前负载偏差值的集合。

进一步的，奖励函数包括用户奖励函数和节点奖励函数；

用户奖励函数表示为：

节点奖励函数表示为：

其中，

表示t时隙用户u的奖励值，V表示迁移成本队列控制因子，Q_u表示用户u的QoS增益，Z_u(t)表示能量预算队列，E_u,t表示t时隙用户u的设备能量，/>

表示用户平均能量预算，/>

表示t时隙服务器m的奖励值，ω表示归一化因子，/>

表示t时隙服务器m的负载偏差系数，/>

表示t时隙的服务器平均计算负载，G(t)表示虚拟迁移成本队列，/>

表示t时隙用户的迁移成本，/>

表示平均迁移成本预算。

本发明的有益效果为：本发明针对MEC中用户移动性导致负载分布不均以及用户QoS下降的问题，建立了在多用户多节点MEC场景下，用户随机移动的任务迁移模型，将其建模为一个长期极大极小化公平性问题，旨在考虑系统迁移成本约束、用户设备能耗约束和系统负载均衡的同时，优化性能最差的用户的服务质量。之后，通过引入辅助变量结合李雅普诺夫优化的方式将原问题转化并解耦，将其建模为Dec-POMDP，将奖励函数分解为节点全局奖励和用户个体奖励，分别基于网络负载和用户QoS对用户动作施加奖励。针对集中式控制需要大量收集用户信息的问题，提出一种基于扩展多智能体SAC的分布式任务迁移方案。利用集中式训练分布式执行框架，将单智能体强化学习算法SAC扩展到多智能体领域，相比于一般的强化学习算法，SAC算法通过最大化熵正则项可以获得更高的探索能力和更强的鲁棒性。仿真结果表明，相较于现有算法，本发明所提方法能有效降低任务执行时延、任务失败率和迁移率，并能够保证节点间负载分布均衡。

附图说明

图1为本发明中移动边缘计算中基于负载均衡的任务迁移方法流程图；

图2为本发明中多用户多节点的移动边缘计算系统模型示意图；

图3为本发明中DSACM算法网络结构图；

图4为本发明与对比方法的平均奖励随训练迭代次数变化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种移动边缘计算中基于负载均衡的任务迁移方法，如图1所示，所述方法包括以下内容：

S1：构建多用户多节点的移动边缘计算系统模型。

如图2所示，在多用户多节点MEC场景下，建立多用户多节点的移动边缘计算系统模型，包括M个基站和U个用户，每个基站上部署一个服务器，不同小基站上的服务器计算能力异构，一共有M个服务器，

表示服务器的集合。用户集合用/>

表示，用户设备可以是车辆、普通移动用户等；假设每个用户在关联节点(关联基站)上都有一个虚拟机提供服务，它可以跟随用户移动被迁移到新的服务器上继续执行。

整个系统时间周期为T，时隙集合表示为

每个时隙长度为τ。考虑用户任务的随机到达，用户任务特性可以表示为/>

其中，/>

表示任务数据大小(bits)，/>

表示每bit任务所需CPU计算周期数(cycles/bit)，/>

表示任务最大容忍时延。如果用户在t时隙没有任务到达，那么任务特性表示为/>

用户根据自身情况选择将任务卸载到小基站上的服务器或者本地执行，定义卸载决策变量

表示任务卸载比例。考虑小基站间重叠的场景，用户任务卸载有多个候选小基站，用户需要进行服务器关联决策。在t时隙对于用户u，定义服务器关联变量

用于决定任务/>

卸载到哪一个边缘服务器，/>

表示任务/>

选择服务器m执行任务。

S2：基于移动边缘计算系统模型构建通信模型、任务计算模型、用户QoS模型和负载均衡模型。

构建通信模型，具体包括：

系统中，同一小蜂窝内用户采用正交频分多址技术，忽略同一小蜂窝内用户间干扰。考虑用户移动过程中，信道增益可能受用户与服务基站间距离影响，定义t时隙用户u与第m个服务基站间距离为D_u,m,t，α是路径衰落因子。假设用户设备发射功率为

信干噪比

可以表示为：

其中，

表示t时隙用户u在向基站m发送任务/>

时的小蜂窝间用户干扰，N₀是噪声功率，B是用户的信道带宽；/>

是t时隙基站m分配给用户_u的信道的快衰落系数，服从标准高斯分布；小蜂窝间干扰/>

可进一步表示为：

t时隙用户_u将计算任务

发送到基站_m时的无线传输速率/>

表示为：

本发明假设任务的传输可以在一个时隙内完成，任务的传输时间与信道传输速率、任务数据大小有关，t时隙任务

的通信时延/>

可以表示为：

其中，若Ω为真时，

反之，/>

用户向基站发送任务时，需要消耗自身能量，由于用户设备能量的有限性，这一部分能耗不可忽略。此时任务

的传输能耗可以表示为/>

构建任务计算模型，具体包括：

(1)本地计算

当任务本地执行时，即使用户位置发生改变，任务仍然在本地设备上继续执行，用户设备能耗只包括本地计算能耗，t时隙用户u的本地计算时延

可以表示为：

其中，

为用户设备_u的计算能力。

任务

在本地计算的能耗/>

可以表示为：

其中，k是与芯片架构相关的有效能量成本系数。

(2)边缘计算

任务

的边缘计算时间可表示为：

其中，

表示节点m分配给用户u的计算资源。

由于边缘计算在基站处完成，基站能量由电网供电，能量充足，此处不考虑边缘计算能耗。

整个边缘执行阶段包括用户将任务发送到服务器，服务器完成任务计算，计算结果发送给用户三部分。其中，由于任务输出结果往往较小，且下行链路传输速率较快，因此第三部分时延可以忽略。任务在边缘执行的总时延可以表示为：

构建用户QoS模型，具体包括：

用户在每个时隙开始时会进行服务器选择，用户移动时，服务器选择变量也可能会随之变化。如果当前时隙与前一时隙选择的服务器不同，就意味着会发生服务迁移。定义服务迁移指示变量

时用户任务发生迁移，/>

时，用户任务不迁移，即

任务迁移通过服务器间的有线连接完成，为了简化计算，基于静态路由跳数计算有线传输时延。使用

表示单跳时延，σ_i,j表示服务器i与服务器j之间的路由跳数。任务的迁移时延可以具体表示为：

为了刻画任务在网络中迁移带来的影响，本发明定义单位时间迁移成本

它表示任务在小基站间转发时的通信成本。随着迁移用户数增加，/>

也随之增加。t时隙内，迁移用户数可以表示为/>

单位迁移成本随迁移用户数动态变化：

其中，C是固定的迁移成本，b是控制因子，用于控制迁移成本随待迁移用户数变化的快慢。

任务

的迁移成本为/>

它与任务的迁移时延相关，根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本，可以表示为：

t时隙内，所有用户产生的总迁移成本可以表示为：

根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延，t时隙用户u的任务

的中执行时延可以表示为：

定义t时隙用户u的能耗为

应该满足/>

表示用户u的设备剩余能量。

用户QoS与任务完成时延相关，用户QoS模型可以利用对数函数规律进行刻画。根据任务的总执行时延和任务最大容忍时延计算用户QoS增益，t时隙用户u的用户QoS增益

可以表示为：

构建负载均衡模型，具体包括：

为了衡量用户移动过程中网络负载变化情况，服务器的负载状态可以用服务器的剩余CPU和存储资源来刻画，定义t时隙服务器m的负载为：

其中，

和/>

分别表示服务器m最大计算资源量和最大存储容量；

和/>

分别表示计算资源权重和存储容量权重，满足/>

服务器存储能力异构，服务器之间的平均计算负载定义为

为了考察服务器之间负载分布情况，定义负载偏差系数/>

表示服务器当前负载分布情况与平均负载的偏差。

S3：根据通信模型、任务计算模型、用户QoS模型和负载均衡模型构建最大化最小用户QoS的优化问题。

根据联合优化用户卸载策略、迁移决策和计算资源分配，优化性能最差的用户平均QoS，本发明将长期优化问题建模为最大化最小用户QoS的优化问题，表示为：

s.t.C1:

C2:

C3:

C4:

C5:

C6:

其中，

表示用户u的最大发射功率；C1是用户服务器关联变量约束，C2是任务卸载决策约束，C3保证用户设备长期平均能耗不超过用户平均能量预算/>

C4保证服务器之间负载分布差异不超过负载分布差值ζ，C5表示长期平均迁移成本不超过平均迁移成本预算/>

C6表示用户设备发射功率约束。

本发明设计了一种基于多智能体强化学习的分布式任务迁移算法(DSACM算法)，利用集中式训练分布式执行(Central Training Distributed Execute,CTDE)框架，将单智能体强化学习算法SAC扩展到多智能体领域，相比于一般的强化学习算法，SAC算法通过最大化熵正则项可以获得更高的探索能力和更强的鲁棒性。

引入辅助变量将最大化最小用户QoS的优化问题解耦为最大化问题，根据李雅普诺夫优化理论将最大化问题中的长期约束解耦，得到重写的优化问题；具体的：由于建模的是一个长期极大极小化公平性问题，难以直接求解。可以每个时隙引入辅助变量

将其转化为一个最大化问题。P1可以被等价转化为P2，具体表示如下：

s.t.C1-C6,

C7:

C8:

式中，引入两个新的约束条件C7和C8，C7中

C8中/>

要证明转化后的

与/>

等价，只需证在增加了约束条件C7和C8的前提下，/>

的最优值不小于/>

的最优值。系统中最小的用户长期平均QoS为/>

中的最大值表示为/>

t时隙相应的决策动作可以表示为α(t)＝{o(t),f(t),ρ(t)}。根据约束条件C7，总有/>

将/>

的最优值表示为/>

此时的最优解α^*(t)＝{o^*(t),f^*(t),ρ^*(t)}。在约束条件C7和C8约束下，令/>

代入/>

可以得到

因此，有/>

说明上述转化是成立的。

对于转换后的问题

C3、C7和C8都属于长期约束，可采用李雅普诺夫优化理论对问题中的长期约束进行解耦，并且平衡用户QoS与迁移成本约束。原问题中C3是针对用户设备能耗的长期平均约束，针对这一约束，可以引入能量预算队列Z_u(t)，表示为：

针对约束条件C5，定义虚拟迁移成本队列G(t)，表示t时隙内系统中所有用户产生的迁移成本：

针对引入的辅助变量约束条件C7，定义虚拟队列

虚拟队列的动态变化表示如下：

为了联合控制能耗队列和迁移成本队列，定义

作为总队列积压。定义李雅普诺夫函数L(Θ(t))如下：

定义两个时隙间李雅普诺夫函数的变化为李雅普诺夫漂移函数ΔL(Θ(t))，为了保证队列的稳定，需要最小化漂移函数的值，ΔL(Θ(t))表示如下：

定义李雅普诺夫漂移加惩罚项为：

式中，V是迁移成本队列控制因子(V＞0)，用于控制队列稳定性与目标函数优化之间的权重。惩罚项可以表示为目标函数的映射，加上这一项是为了在最小化李雅普诺夫漂移保证队列稳定性的同时，最小化目标函数的值。

可以得到李雅普诺夫漂移函数ΔL(Θ(t))表示为：

式中，

表示t时隙用户的迁移成本，/>

表示平均迁移成本预算。

为了在最大化用户QoS的同时保证队列积压Θ(t)的稳定，采用最小化李雅普诺夫漂移加惩罚项的方式，可以得到：

优化问题

可被进一步转化为：

s.t.C1,C2,C4,C8

将重写的优化问题抽象为去中心化部分可观测马尔可夫决策过程(DecentralizedPartially Observable Markov Decision Process,Dec-POMDP)，由用户充当智能体，并构建观测空间、动作空间和奖励函数；每个智能体均具有一个用户策略网络和两个用户价值网络，每个基站均有一个节点价值网络；具体的：

1)观测空间

对于智能体U-Agent u，状态包括剩余可用迁移成本预算、剩余设备能量、节点剩余计算资源、当前负载偏差值等。观测空间定义为：

式中，

表示t时隙用户u的状态，/>

表示剩余迁移成本预算，

表示网络中基站节点剩余计算资源的集合，LF(t)＝{LF₁(t)×LF₂(t)×...×LF_m(t)}表示基站节点当前负载偏差值的集合。

2)动作空间

动作空间包括卸载决策、服务器关联策略、功率分配策略，定义为：

3)奖励函数

现有技术中的奖励函数往往设置为共享的全局奖励，但在多智能体场景下，难以衡量某一个智能体对全局奖励的贡献值，容易产生信用分配问题。在这种情况下，部分智能体无法得到有效训练。本发明将奖励函数分别设置为节点全局奖励函数(节点奖励函数)和个体奖励函数(用户奖励函数)。对于边缘节点而言，希望能够在保证用户QoS的同时，维持整个网络的负载均衡。节点基于当前自身负载均衡度和剩余迁移成本预算队列建立全局奖励函数，避免只考虑用户移动性进行任务迁移容易导致的负载不均衡问题。节点m处的全局奖励函数即节点奖励函数可以表示为：

其中，ω表示归一化因子。

用户智能体需要关注自身QoS与能耗，结合优化问题

的优化目标，因此可以将个体奖励函数即用户奖励函数表示为：

其中，E_u,t表示t时隙用户u的设备能量。

如图3所示，本发明采用CTDE框架，借助以往收集数据对网络进行预训练，之后直接将训练好的模型分发给参与卸载的用户，用户直接离线执行任务。在线执行阶段，用户智能体只需要依靠自身局部环境观测就可以做出实时性决策。

由于用户在系统中随机移动以及信道时变特性，导致网络状态不断发生变化。为了稳定算法收敛过程，本发明将单智能体SAC扩展到多智能体领域。SAC是一种离线强化学习算法，通过最大化熵正则项来做出更加随机的决策，增加算法的探索性能，避免陷入局部最优解。相比于一般的最大化奖励的强化学习算法，SAC有着更高的探索能力和更强的鲁棒性，能够更好地适应复杂的网络环境。

针对多用户多节点的分布式场景，本发明所提分布式SAC算法训练的目标是最大化如下所示的熵正则项：

其中，

表示智能体u在t时隙所获得的奖励，α是自适应温度系数，可以调节熵值和奖励值的权重，/>

表示策略π_u的熵值，用于衡量所采取策略的随机程度。

在Actor-Critic网络架构中，长期训练过程时，为了最大化长期回报奖励，需要借助Critic网络(价值网络)和Actor网络(用户策略网络)对策略进行评估和改进。用户价值网络软Q值函数为：

其中，

表示t时隙用户u状态，/>

表示t时隙用户u动作，/>

表示在状态/>

下生成动作/>

的概率密度函数，γ表示折扣因子，通过策略迭代方法可以获得最优的最大化熵正则项的动作。同理可以得到节点m软Q值函数

s_m和a_m分别表示关联在节点m的用户的状态集合和动作集合。

为了适应大规模连续动作处理，通过深度神经网络来近似价值函数，软Q函数和策略函数。通过最小化均方误差来更新节点智能体和用户智能体的价值网络。为了简化表示，使用s_u，a_u分别代替

s′_u,a′_u代替/>

定义用户价值网络φ_i，u的损失函数为：

其中，

表示目标软Q函数，/>

表示用户目标价值网络参数。

为了避免价值网络输出的Q值出现高估问题，引入双Q网络，使用两个网络中软Q值最小的一个作为近似估计值，即有：

其中，

表示重新采样后的目标软Q函数，/>

表示从策略中重新采样的动作，/>

表示在状态s′_u下生成动作/>

的概率密度函数。

同理可以得到节点价值网络损失函数。采用梯度下降法更新用户智能体和节点处的价值网络，用户价值网络更新公式可以表示为：

节点价值网络φ_m更新公式为：

用户策略网络生成相应的动作并根据动作更新奖励函数，进入下一状态；用户策略网络更新受关联节点处Q值和自身Q值影响，将软Q值函数进一步改写

通过最小化KL散度的方式更新策略网络，更新公式可以表示为：

根据当前状态、下一状态、动作和奖励值生成经验信息；采样多条经验信息训练用户策略网络、用户价值网络和节点价值网络，更新网络参数，得到训练好的用户策略网络、用户价值网络和节点价值网络，根据用户策略网络训练结果得到任务的卸载决策、迁移决策和功率分配决策；完成训练之后，训练好的模型被直接部署到系统中的用户终端，分布式进行决策。

如图4所示，本发明比较了所提算法与文献(LIU C B,TANG F,HU Y K,etal.Distributed task migration optimization in MEC by extending multi-agentdeep reinforcement learning approach[J].IEEE Transactions on Parallel andDistributed Systems,2020,32(7):1603-1614.)所提COMA算法的平均奖励值，实线部分为奖励值每50个回合的滑动平均值，阴影填充部分是奖励值变化范围。可以发现本发明所获得的累积奖励值高于COMA算法。这是由于DSACM继承了SAC算法最大化熵正则项的思想，鼓励探索，因此本发明可以避免陷入局部最优，产生更优的卸载和迁移决策，从而使得用户获得更好的服务质量。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种移动边缘计算中基于负载均衡的任务迁移方法，其特征在于，包括：

S1：构建多用户多节点的移动边缘计算系统模型；

2.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法，其特征在于，所述多用户多节点的移动边缘计算系统模型具体包括：M个基站和U个用户，每个基站均配备有一个服务器，服务器集合表示为

用户集合表示为/>

用户任务随机到达，任务表示为/>

其中/>

表示t时隙用户u的任务数据大小，

表示每bit任务所需CPU计算周期数，/>

表示任务最大容忍时延；用户根据自身情况选择将任务卸载到基站上的服务器或本地执行，定义卸载决策变量/>

表示任务卸载比例；定义服务器关联变量/>

用于决定任务/>

卸载到哪一个服务器。

3.根据权利要求1所述的一种移动边缘计算中基于负载均衡的任务迁移方法，其特征在于，所述用户QoS模型包括：计算任务的迁移时延和单位时间迁移成本；根据任务的迁移时延和单位时间迁移成本计算任务的迁移成本；根据任务本地计算时延、边缘计算时延和迁移时延计算任务的总执行时延，根据任务的总执行时延和任务最大容忍时延计算用户QoS增益。

4.根据权利要求3所述的一种移动边缘计算中基于负载均衡的任务迁移方法，其特征在于，计算用户QoS增益的公式为：