CN113973113B

CN113973113B - 一种面向移动边缘计算的分布式服务迁移方法

Info

Publication number: CN113973113B
Application number: CN202111254199.7A
Authority: CN
Inventors: 张捷; 张德干; 崔玉亚; 张婷; 李荭娜; 赵洪祥; 高清鑫
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-08-22
Anticipated expiration: 2041-10-27
Also published as: CN113973113A

Abstract

一种面向移动边缘计算的分布式服务迁移方法，属于物联网领域。本方法研究了移动边缘计算MEC中移动管理问题。当设备处在移动状态时，需要在多个边缘服务器之间动态迁移计算任务来保持服务的连续性。由于移动的不确定性，频繁的迁移会增加成本和延迟，不迁移会导致服务中断。因而，在多代理深度强化学习MADRL中，引入了一个自适应权重的深度确定性策略梯度AWDDPG算法来优化多用户任务迁移的成本和延迟，使用集中式训练分布式执行的方法解决任务迁移时的高维度问题。大量实验表明，我们提出的算法与相关算法相比大大降低了服务延迟和迁移成本。

Description

一种面向移动边缘计算的分布式服务迁移方法

技术领域

本发明属于物联网领域，具体涉及一种面向移动边缘计算的分布式服务迁移方法。

背景技术

近几年随着大数据、人工智能、物联网(IoT)、MEC等技术的不断发展，移动设备在人们的生活中应用越来越广泛，如VR、AR、智能家居等。这些设备通常都具有计算密集和延迟敏感的任务，但是移动设备的资源有限很难满足上述应用需求。传统的解决方法是将计算任务卸载到资源充足的云中心处理，但是长距离的传输会增加计算延迟。MEC是在网络边缘部署服务器，边缘服务器在地理上更接近用户，可以有效的降低服务的延迟。资源受限的移动设备可以将计算任务卸载到MEC服务器上执行来提高服务质量(QoS)。

随着产业界和学术界对MEC的不断研究，大量的卸载模型以及各种分布式环境下的仿真平台被实现，然而MEC仍面临着许多挑战。其中一个比较关键的技术就是动态服务迁移，当移动用户在不同的地理位置移动时，可能需要迁移服务来跟踪用户以确保服务的连续性，何时迁移服务，迁移到哪是目前需要解决的问题。当用户移动时，不迁移服务可能会导致服务中断，频繁迁移服务可能会增加迁移成本。由于用户的移动性，以及迁移成本和传输延迟之间的复杂权衡，做出最佳决策是一个挑战。

目前关于MEC中分布式任务迁移的工作并不多。一些传统的方法通过预测用户的位置来迁移任务，但是在实际应用场景下用户的移动性很难预测。还有将深度Q学习(DQN)应用到任务迁移中，DQN虽然能够处理复杂的状态空间，但是集中处理的方式不能满足多用户边缘计算的任务迁移需求，随着用户数量的增加系统的状态空间和行为空间的维数会呈指数增长。并且在多用户场景下将所有用户的状态联合为全局状态，导致多用户环境不稳定，忽略了用户之间的影响。采用分布式深度强化学习可以有效的解决上述问题，但是在分布式环境中每个agent单独做出决策的同时也不能忽略与环境中其他agent之间的交互。将所有移动用户的本地状态联合为全局状态进行训练，可以解决agent与环境交互问题，但在某些应用场景下，如5G的车路协同车联网应用场景，用户之间交互频繁，联合的全局状态不仅会导致多用户环境的不稳定，而且频繁交互还会增加通信成本。因此，设计一个有效的基于分布式深度强化学习的迁移策略来平衡迁移成本和延迟非常有挑战。

发明内容

本发明的目的是为了解决基于MEC的多用户任务迁移问题，提高移动用户之间的合作，本发明提出了一个基于自适应权重的深度确定性策略梯度(AWDDPG)算法。在考虑迁移成本、QoS、频谱资源分配的情况下，将多用户任务迁移模型看作一个分散的部分可观察的马尔可夫决策过程(Dec-POMDP)。在迁移成本约的束下，将多用户任务迁移问题描述为一个最小化优化问题。提出了一个AWDDPG来解决这个优化问题，通过自适应采样权重提高采样效率，增加算法的收敛速度和稳定性。最后采用集中式训练分布式执行的方式来促进用户之间的协作通信。对于具有时延敏感和计算密集型应用的高动态场景，基于AWDDPG的方案可以快速做出迁移决策。真实的应用场景和仿真实验表明，我们提出的算法可以快速达到稳定收敛，并且在迁移成本和任务平均完成时间方面表现较优，具有一定的实用价值。

本发明的面向移动边缘计算的分布式服务迁移方法，主要包括如下关键步骤：

第1、系统模型的构建：

第1.1、建立回程延迟模型；

第1.2、建立通信延迟模型；

第1.3、建立计算延迟模型；

第1.4、建立迁移成本模型；

第2、自适应权重经验回放机制：

第2.1、样本复杂度；

第2.2、样本回报值重要性模型；

第2.3、样本使用次数模型；

第3、基于AWDDPG分布式任务迁移方法：

第3.1、基于AWDDPG的解；

第3.2、AWDDPG架构。

进一步的，步骤第1.1中建立回程延迟模型，即如果移动用户的本地MEC服务器的计算负载较高时可以将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理。MEC服务器之间的传输延迟可以表示为b_n/B_m，其中b_n表示移动用户n的输入数据大小，B_m表示MEC服务器的输出链路带宽。因此回程延迟可以表示为

其中，λ是一个正系数，d(m₁,m₂)表示边缘服务器m₁与m₂之间的跳数。

步骤第1.2中建立通信延迟模型的方法如下，无线通信显著影响任务迁移的效率，通过有效的频谱资源管理可以显著的提高无线通信的质量。为了最小化传输延迟，需要为每个移动用户提供适当数量的频谱资源。S_m表示MEC服务器m可用的频谱资源，t时刻连接到MEC服务器m的所有移动用户共享频谱资源S_m。我们用spe_n,m(t)表示t时刻，MEC服务器m分配给移动设备n的频谱比例。本发明不考虑返回结果的传输延迟，因为返回的数据比较小可以忽略不计。根据香农定理，移动设备n与边缘服务器m之间的数据传输速率可以表示为：

其中，P_n是移动设备n的传输功率，G_m,n移动设备n和MEC服务器m之间的信道增益，是白噪声功率。因此输入数据的传输延迟可以表示为：

步骤第1.3中建立计算延迟模型的方法如下：在每个服务器上有多个移动用户共享计算资源，帮助移动设备处理卸载的任务。F_m表示MEC服务器m的计算能力，φ_n(t)表示在t时刻Task_n所需的CPU周期。因此，如果Task_n在MEC服务器m上完成所需时间可以表示为：

其中，表示在服务器m上执行的计算任务数量。从公式(4)可以看出，边缘服务器上的执行延迟随着边缘服务器上的执行任务的数量成正比例增长，因此当我们迁移服务时还需要考虑目标服务器的计算资源。

步骤第1.4中建立迁移成本模型的方法如下：为了满足服务的连续性，我们需要在多个服务器之间迁移服务。跨服务器迁移需要额外的迁移成本，我们假设移动设备n将全部卸载的任务从m₁迁移到m₂。用表示移动设备n在t时刻将Task_n从m₁迁移到m₂的成本。

进一步的，步骤第2.1中样本复杂度，DDPG结合了DQN和PG的优势，因此DDPG也采用了经验回放机制。使用经验回放机制既能满足样本独立分布的假设又能快速收敛，但是DDPG在回放存储中对样本的采样是随机的，忽略了各个样本的不同重要性，这样会导致样本的采样效率不高。复杂度较低的样本不利于神经网络的学习，而在学习初期神经网络对于高复杂度的训练样本又很难理解，因此，在DDPG的基础上为回放存储中的每个状态样本分配优先级权重，根据优先级权重设置他们的采样概率，提出了一个自适应权重的深度确定性策略梯度算法(AWDDPG)。样本i的复杂度可以表示为CF(s_i)，其主要包括样本回报值的重要性函数RF(r_i,DE_i)以及关于样本的使用频率函数SUF(num_i)；

CF_i＝RF(r_i,DE_i)+θSUF(num_i) (6)

其中，θ为超参数。使用我们新定义的样本复杂度来计算样本的采样概率：

其中，ψ∈[0,1]是指数随机因子。当ψ＝0时为均匀采样，ψ＝1为优先级采样。随机因子可以保证优先级采样和均匀采样之间保持平衡，避免过拟合现象产生。对回放存储中的样本直接采样会产生一个分布误差，因此我们使用重要性采样权重w_i来修正这个偏差。并使用归一化操作来缩小TD误差。

步骤第2.2中我们提出了样本回报值重要性模型，样本回报值的重要性RF(r_i,DE_i)可以表示如下：

RF(r_i,DE_i)＝|DE_i|*RW(r_i)+α (9)

其中，DE_i＝Q(s_i,a_i；θ^c)-(r_i+μQ'(s′_i,a′_i；θ^c'))表示TD误差，其中Q(s_i,a_i；θ^c)是Critic组件evaluate-network的值。α是一个较小的正数，当时间差分为0时，α可以防止无法采样的情况出现。RW(r_i)表示对应奖励的权重，由于稳定性的原因我们设置r_i∈[-1,1]，并且RW(r_i)＞0。

步骤第2.3中创建样本使用次数模型，当样本使用次数越多时，那么它下一次被选中的概率就越低，这是为了防止过拟合现象的出现，SUF(num_i)可以表示如下：

进一步的，步骤第3.1中基于AWDDPG的解为：每个移动用户都部署AWDDPG算法，包括Actor和Critic两个组件。对于移动用户n，在状态s_n，Actor组件根据策略π_n做出动作。Critic组件根据来评估Actor做出的动作。AWDDPG作为一种策略梯度算法，其主要思想就是通过调整Actor和Critic组件的evaluate-network和target-network的参数来获得最优策略/>并且学习/>相对应的状态-行为函数。具体来说，根据上述提出的自适应经验回放机制采样一个批大小为K的样本，逐一输入移动用户中。根据输入的样本，Actor和Critic组件在训练阶段更新evaluate-network参数。第n个移动用户的第i个样本可以表示为/>Critic组件通过最小化损失函数来调整evaluate-network的参数/>

其中，Q'_n(·)表示第n个移动用户的Critic组件的target-network的行为-状态函数，表示第n个移动用户选取第i个样本的及时奖励。如果/>是连续可微的，可以用损失函数的梯度来调整/>因为每个代理的目的是最大化累积奖励，因此通过最大化目标函数来更新Actor组件evaluate-network的参数。

其中AE_n(·)表示第n个移动用户的Actor组件的evaluate-network的行为-状态函数，它表示策略π_n：当每个关联模式变量放宽放到[0,1]时，代理的动作空间是连续的，AE_n(·)也是连续的。在这种情况下，我们可以得出/>是连续可微的，因此AE_n(·)可以在/>方向上调整。随着/>和/>的实时更新，target-network的参数/>和/>可以根据公式(14)更新。

步骤第3.2中AWDDPG架构为：将集中式训练和分布式执行的框架应用到AWDDPG算法中。在离线集中训练阶段，除了本地观察状态其他移动用户的观察状态和行为都保存到经验回放缓存区。因此第i个状态样本序列可以改写为通过联合行为和观察的状态不仅能够增加每个阶段生成的训练数量而且能够有效增加agent之间的协作通信。当更新/>和/>时，Actor根据自适应权重采集的样本选择动作，即/>然后Critic再对样本进行评估。当有了全局信息，每个移动用户都可以学习自己的状态-行为值函数。并且，在了解其他移动用户的行为后，离线训练阶段每个移动用户的环境都是固定的，即使是在环境变化频繁的场景中用户也不需要频繁交互，能够有效的解决由于其他移动用户的行为对环境的影响。在决策阶段，由于Actor仅需要本地的观察状态/>因此移动用户不需要了解其他设备的信息即可选择动作。由移动用户n在时间t观察到的联合状态(15)可以看出移动用户的观察状态主要由整个种群的状态和个体的状态决定，具体来说/>可以直接由移动用户观察到，s_n_server(t),connect_n_server(t)可以通过整个种群观察到。我们利用单个移动用户与种群之间的交互来近似移动用户与环境之间的交互。

其中，表示服务Task_n在t时刻所需的CPU周期数，/>表示在t时刻处理Task_n的MEC服务器，s_n_server(t)表示t时刻每个MEC服务器执行计算任务的数量，connect_n_server(t)表示t时刻每个MEC节点连接移动设备的数量。

本发明的优点和积极效果是：

本发明主要设计了一种面向移动边缘计算的分布式服务迁移方法，在该方法中，研究了分布式环境下多用户任务迁移问题。与以前多用户迁移算法不同的是，我们优化了MEC服务器的负载均衡和路由选择，即移动用户会连接到频谱资源最优的本地MEC服务器，如果本地MEC服务器的负载较高时可以将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理。并且我们通过改进DDPG的随机采样方法提出一个基于自适应权重的深度确定性策略梯度算法(AWDDPG)来提升样本的采样效率，增加算法的收敛性。最后，根据离线集中训练分布式执行的方法来实现agent与环境之间的交互和稳点的训练环境。与现有一些方法相比，在迁移成本和任务平均完成时间方面表现较优，具有一定的实用价值。

附图说明

图1是系统模型图；

图2是六边形随机游走模型图；

图3是整个系统的迁移成本图；

图4是整个系统的任务执行延迟图；

图5是不同输入数据大小与平均完成时间的关系图；

图6是不同数量用户与平均完成时间的关系图；

图7是不同MEC数量与平均完成时间的关系图；

图8是不同迁移成本预算与平均完成时间的关系图；

图9是不同输入数据大小与平均迁移成本的关系图；

图10是本发明面向移动边缘计算的分布式服务迁移方法的流程图。

具体实施方式

实施例1：

本实例设计的方法使用Python实现所提出的算法，移动设备在多个MEC服务器覆盖范围内随机移动，它们的轨迹都基于二维六边形随机游走模型，如附图2所示。通过实际的应用场景来评估算法的延迟和能耗。此外，我们还对比了不同参数下相近算法的平均延迟和迁移能耗。

参见附图10，本实施例面向移动边缘计算的分布式服务迁移方法，主要包括如下关键步骤：

第1、系统模型的构建，该系统模型如附图1所示：

第1.1、建立回程延迟模型；

第1.2、建立通信延迟模型；

第1.3、建立计算延迟模型；

第1.4、建立迁移成本模型；

第2、自适应权重经验回放机制：

第2.1、样本复杂度；

第2.2、样本回报值重要性模型；

第2.3、样本使用次数模型；

第3、基于AWDDPG分布式任务迁移方法：

第3.1、基于AWDDPG的解；

第3.2、AWDDPG架构。

本发明步骤第1.1中建立回程延迟模型，即如果移动用户的本地MEC服务器的计算负载较高时可以将计算任务通过回程链路传输到附近计算任务较少的MEC服务器上处理。MEC服务器之间的传输延迟可以表示为b_n/B_m，其中b_n表示移动用户n的输入数据大小，B_m表示MEC服务器的输出链路带宽。因此回程延迟可以表示为

进一步的，步骤第2.1中样本复杂度，DDPG结合了DQN(Deep Q-learning Network)和PG(Policy Gradient)的优势，因此DDPG也采用了经验回放机制。使用经验回放机制既能满足样本独立分布的假设又能快速收敛，但是在回放存储中对样本的采样是随机的，忽略了各个样本的不同重要性，这样会导致样本的采样效率不高。复杂度较低的样本不利于神经网络的学习，而在学习初期神经网络对于高复杂度的训练样本又很难理解，因此，在DDPG的基础上为回放存储中的每个状态样本分配优先级权重，根据优先级权重设置他们的采样概率，提出了一个自适应权重的深度确定性策略梯度算法(AWDDPG)。样本i的复杂度可以表示为CF(s_i)，其主要包括样本回报值的重要性函数RF(r_i,DE_i)以及关于样本的使用频率函数SUF(num_i)；

CF_i＝RF(r_i,DE_i)+θSUF(num_i) (6)

RF(r_i,DE_i)＝|DE_i|*RW(r_i)+α (9)

本实例中我们根据真实的应用场景来验证算法性能，我们将墨尔本CBD地区的125个边缘服务器和817个移动设备的地理信息作为实际的应用场景。根据hold-out方法将训练数据和验证数据分离为4:1，它们是完全独立的。对于每个移动用户，我们将其Critic组件设置4个全连接的隐藏层，神经元为[2048,1024,512,256]。为Actor组件部署2个全连接的隐藏层，神经元个数为[1024,512]和[512,256]。Actor组件的输出层通过tanh函数激活，其他层的神经元通过ReLU函数激活。

1)实验A：随着算法迭代次数的增加，系统的延迟和迁移能耗的变化。

2)实验B：在不同参数下对比相似算法的性能，我们将输入数据的大小从100kb增加到500kb，将移动用户的数量从60个增加到140个，MEC服务器的数量从15个增加到20个，迁移成本预算从0.5GJ增加到3GJ。

实验参数如表1所示。

表1实验参数

本实例将考虑三个性能指标，其分别是：

1.算法的收敛性。随着算法迭代次数的增加，算法在系统能耗和延迟方面是否能达到稳定收敛。

2.不同参数下与相近算法在平均延迟方面的比较。在保持其他变量固定的情况下，我们比较了不同输入数据大小、不同用户数量、不同MEC服务器数量、不同迁移成本预算情况下6种算法的平均完成时间。

3.不同参数下与相近算法在平均迁移能耗方面的比较。随着输入数据大小的增长，6种算法的平均迁移能耗对比。

本实例的仿真实验结果如下：

1.算法的收敛性

附图3和附图4表示在实际的应用场景中使用AWDDPG算法进行任务迁移时整个系统的迁移成本和任务执行的延迟。从附图3、4可以看出随着迭代次数的增长，系统的迁移能耗和任务完成时间逐渐降低，当迭代次数达到400次左右迁移能耗和任务完成时间达到收敛并趋于稳定。

2.不同参数下与相近算法在平均延迟方面的比较

从附图5可以看出任务的平均完成时间随着输入数据大小的增加而增加。这是因为当输入任务的大小增加时，任务的计算延迟也增加。但是与其他算法相比基于AWDDPG的分布式任务迁移算法的平均完成时间明显较低。从图中可以看出AM和NM算法的平均完成时间相对较高，对于AM算法而言，只要移动设备离开当前服务所在的MEC服务器就需要迁移服务，这导致服务迁移的频率增加，当输入数据变大时每次迁移的延迟也会增大，因此平均完成时间也会逐渐增大。对于NM算法，在初始选择MEC服务器时如果有较多的移动设备选择了同一个MEC服务器并且后期不迁移服务，这导致MEC服务器的资源利用率不高增加系统的平均完成时间。ESM算法主要是针对单智能体场景，在多用户场景下性能表现不佳，当输入数据大小变大时平均完成时间增加比较明显。与ESM算法类似，DQN也是针对的单用户场景，但其在优化的过程中考虑的参数比ESM算法要少，因此DQN算法的平均完成时间要比ESM算法更高，但他们的核心算法都是DQN，因此他们的平均完成时间也比较接近。COMA采用了Actor-Critic算法，并采用集中训练分布式执行的方法，忽略了经验回放机制。AWDDPG在COMA的基础上设计了一种自适应权重采样方法增加采样效率，大大增加了算法收敛的速度和稳定性，并且离线集中训练也减少了用之间的交互。因此基于AWDDPG的分布式任务迁移算法的平均完成时间最低。附图6的解释与附图5相似。从附图7可以看出，随着MEC服务器数量的增加，6种算法的平均完成时间都在减小，这是因为随着MEC服务器数量的增长，移动设备的可用资源也变多，并且我们提出的AWDDPG算法的平均完成时间最低。如附图8所示，将每个阶段的迁移成本预算Cost_budget从0.5增加到3，其中5种算法随着迁移预算成本的增加，任务的平均完成时间减少。NM算法不需要迁移，因此它的平均完成时间不变。此外，与AM、ESM、COMA、DQN算法相比，基于AWDDPG的分布式任务迁移算法的稳定性随着迁移能量预算的增加而增加。

3.不同参数下与相近算法在平均迁移能耗方面的比较

从附图9可以看出，随着输入数据大小的增长，其中5种算法的平均迁移成本都在增加，因为本文认为迁移成本主要与迁移数据的镜像大小有关。AM算法每次都需要迁移，因此AM算法的迁移能耗会随着输入数据的大小成正比例增长。NM算法不要迁移，因此它的平均迁移能耗为0。较ESM、DQN、COMA相比，本文通过设计自适应权重采样和集中训练分布式执行可以找到更优的迁移策略，因此其迁移成本也是最低。

实验结果表明，AWDDPG通过自适应权重回放机制提升样本的采样效率，减少了算法的迭代次数增加了算法的稳定性，减少了系统的开销。并且，在离线训练阶段，每个代理的环境都是固定的。因此，不会因为用户周边环境频繁变化，而增加用户与其他用户的交互，造成开销过大。因此，本文提出的算法在系统平均延迟和迁移消耗方面与相关算法相比表现最优。

Claims

1.一种面向移动边缘计算的分布式服务迁移方法，其特征在于该方法主要包括如下步骤：

第1、系统模型的构建：

第1.1、建立回程延迟模型；

第1.2、建立通信延迟模型；

第1.3、建立计算延迟模型；

第1.4、建立迁移成本模型；

第2、自适应权重经验回放：

第2.1、计算样本复杂度；

第2.2、构建样本回报值重要性模型；

第2.3、构建样本使用次数模型；

第3、基于自适应权重的深度确定性策略梯度算法AWDDPG进行分布式任务迁移：

第3.1、计算基于AWDDPG的解；

第3.2、构建AWDDPG架构；

步骤第3.1中计算基于AWDDPG的解为：每个移动用户都部署AWDDPG算法，包括Actor和Critic两个组件，对于移动用户n，在状态s_n，Actor组件根据策略π_n做出动作，Critic组件根据来评估Actor做出的动作，AWDDPG作为一种策略梯度算法，是通过调整Actor和Critic组件的evaluate-network和target-network的参数来获得最优策略/>并且学习相对应的状态-行为函数，具体来说，根据上述提出的自适应经验回放机制采样一个批大小为K的样本，逐一输入移动用户中，根据输入的样本，Actor和Critic组件在训练阶段更新evaluate-network参数，第n个移动用户的第i个样本表示为/>Critic组件通过最小化损失函数/>来调整evaluate-network的参数/>其中Q(s_i,a_i；θ^c)是Critic组件evaluate-network的值；

其中，Q'_n(·)表示第n个移动用户的Critic组件的target-network的行为-状态函数，表示第n个移动用户选取第i个样本的及时奖励，如果/>是连续可微的，用损失函数的梯度来调整/>因为每个代理的目的是最大化累积奖励，因此通过最大化目标函数/>来更新Actor组件evaluate-network的参数，

其中AE_n(·)表示第n个移动用户的Actor组件的evaluate-network的行为-状态函数，它表示策略π_n：当每个关联模式变量放宽放到[0,1]时，代理的动作空间是连续的，AE_n(·)也是连续的，在这种情况下，得出/>是连续可微的，因此AE_n(·)在/>方向上调整，随着/>和/>的实时更新，target-network的参数/>和/>可以根据公式(14)更新，

2.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第1.1中建立回程延迟模型，即如果移动用户的本地MEC服务器的计算负载高时将计算任务通过回程链路传输到附近计算任务少的MEC服务器上处理，MEC服务器之间的传输延迟表示为b_n/B_m，其中b_n表示移动用户n的输入数据大小，B_m表示MEC服务器的输出链路带宽，因此t时刻回程延迟表示为

3.如权利要求2所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第1.2中建立通信延迟模型的方法如下，无线通信显著影响任务迁移的效率，通过有效的频谱资源管理提高无线通信的质量，为了最小化传输延迟，需要为每个移动用户提供适当数量的频谱资源，S_m表示MEC服务器m可用的频谱资源，t时刻连接到MEC服务器m的所有移动用户共享该频谱资源S_m，用spe_n,m(t)表示t时刻，MEC服务器m分配给移动设备n的频谱比例，不考虑返回结果的传输延迟，根据香农定理，移动设备n与边缘服务器m之间的数据传输速率表示为：

其中，P_n是移动设备n的传输功率，G_m,n移动设备n和MEC服务器m之间的信道增益，是白噪声功率，因此输入数据的传输延迟表示为：

4.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第1.3中建立计算延迟模型的方法如下：在每个服务器上有多个移动用户共享计算资源，帮助移动设备处理卸载的任务，F_m表示MEC服务器m的计算能力，φ_n(t)表示在t时刻Task_n所需的CPU周期，如果Task_n在MEC服务器m上完成所需时间表示为：

其中，表示在服务器m上执行的计算任务数量，从公式(4)看出，边缘服务器上的执行延迟随着边缘服务器上的执行任务的数量成正比例增长，因此迁移服务时还需要考虑目标服务器的计算资源。

5.如权利要求2所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第1.4中建立迁移成本模型的方法如下：为了满足服务的连续性，需要在多个服务器之间迁移服务，假设移动设备n将全部卸载的任务从m₁迁移到m₂，用表示移动设备n在t时刻将Task_n从m₁迁移到m₂的成本，

6.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第2.1中计算样本复杂度，DDPG结合了DQN和PG的优势，因此DDPG也采用了经验回放机制，因此，为回放存储中的每个状态样本分配优先级权重，样本i的复杂度表示为CF(s_i)，其主要包括样本回报值的重要性函数RF(r_i,DE_i)以及关于样本的使用频率函数SUF(num_i)；

其中，为超参数，使用样本复杂度来计算样本的采样概率：

其中，ψ∈[0,1]是指数随机因子，当ψ＝0时为均匀采样，ψ＝1为优先级采样，随机因子保证优先级采样和均匀采样之间保持平衡，避免过拟合现象产生，对回放存储中的样本直接采样会产生一个分布误差，因此使用重要性采样权重w_i来修正这个偏差，并使用归一化操作来缩小TD误差，

步骤第2.2中构建样本回报值重要性模型，样本回报值的重要性RF(r_i,DE_i)表示如下：

RF(r_i,DE_i)＝|DE_i|*RW(r_i)+α (9)

其中，DE_i＝Q(s_i,a_i；θ^c)-(r_i+μQ'(s′_i,a′_i；θ^c'))表示TD误差，其中Q(s_i,a_i；θ^c)是Critic组件evaluate-network的值，α是一个小的正数，当时间差分为0时，α防止无法采样的情况出现，RW(r_i)表示对应奖励的权重，由于稳定性的原因设置r_i∈[-1,1]，并且RW(r_i)＞0，

7.如权利要求6所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第2.3中构建样本使用次数模型，当样本使用次数越多时，那么它下一次被选中的概率就越低，这是为了防止过拟合现象的出现，SUF(num_i)表示如下：

8.如权利要求1所述的面向移动边缘计算的分布式服务迁移方法，其特征在于，步骤第3.2中构建AWDDPG架构为：将集中式训练和分布式执行的框架应用到AWDDPG算法中，在离线集中训练阶段，除了本地观察状态其他移动用户的观察状态和行为都保存到经验回放缓存区，因此第i个状态样本序列改写为通过联合行为和观察的状态不仅能够增加每个阶段生成的训练数量而且能够有效增加agent之间的协作通信，当更新/>和/>时，Actor根据自适应权重采集的样本选择动作，即然后Critic再对样本进行评估，当有了全局信息，每个移动用户都学习自己的状态-行为值函数，并且，在了解其他移动用户的行为后，离线训练阶段每个移动用户的环境都是固定的，即使是在环境变化频繁的场景中用户也不需要频繁交互，能够有效的解决由于其他移动用户的行为对环境的影响，在决策阶段，由于Actor仅需要本地的观察状态因此移动用户不需要了解其他设备的信息即可选择动作，由移动用户n在时间t观察到的联合状态(15)看出移动用户的观察状态主要由整个种群的状态和个体的状态决定，具体来说/>直接由移动用户观察到，而状态s_n_server(t),connect_n_server(t)通过整个种群观察到，利用单个移动用户与种群之间的交互来近似移动用户与环境之间的交互，