CN116016514B

CN116016514B - 一种边缘计算服务的智能自适应编排方法

Info

Publication number: CN116016514B
Application number: CN202211686767.5A
Authority: CN
Inventors: 霍如; 杜磊
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2024-04-19
Anticipated expiration: 2042-12-28
Also published as: CN116016514A

Abstract

一种边缘计算服务的智能自适应编排方法属于边缘服务编排领域，是一种利用移动边缘技术、深度强化学习算法等实现移动边缘计算中边缘服务自适应联合编排的方法。该方法能实现对于某移动边缘场景下各边缘服务器中的服务单元编排，并针对不同的目标群体进一步优化编排策略以最大化群体的利益和服务质量。

Description

一种边缘计算服务的智能自适应编排方法

技术领域

本发明属于边缘服务编排领域。是一种利用移动边缘技术、深度强化学习算法等实现移动边缘计算中边缘服务自适应联合编排的方法。该方法能实现对于某移动边缘场景下各边缘服务器中的服务单元编排，并针对不同的目标群体进一步优化编排策略以最大化群体的利益和服务质量。

背景技术

随着物联网(Internet of Things，IoT)的快速发展，数以亿计的移动设备(如智能手机、可穿戴设备、传感器等)连接到互联网上，产生了网络边缘用户的社交媒体内容、移动支付统计数据、地理位置信息等前所未有的海量数据。这引发了各种移动人工智能(Artificial Intelligence，AI)应用的扩散，如增强现实、自动驾驶和智能个人助理，以释放移动大数据的全部潜力。尽管如此，人工智能应用的训练和推理的计算密集型需求远远超过了移动设备的计算能力。

边缘智能(Edge Intelligence，EI)是移动边缘计算(Mobile Edge Computing，MEC)和AI技术的融合，近年来已成为支持网络边缘计算密集型AI应用的一种有前景的范式。具体来说，配备在蜂窝基站和无线接入点中的边缘服务器可以提供类似云计算的计算能力，极大地补充资源有限的移动设备的有限容量。由于边缘服务器靠近移动设备和数据源，与传统的移动云计算相比，MEC避免了大数据在回程网络中移动，具有更低的延迟和更好的隐私保护。通过MEC服务器,EI可以为用户设备提供服务，提高边缘系统的实用性。

服务是由边缘服务器托管并由边缘用户请求的应用程序的抽象，是边缘系统中用户设备执行计算任务所需要的CPU资源、内存资源、硬盘资源和网络资源。包括增强现实、虚拟现实、人脸识别、联网汽车等。服务编排是指平台的配置，并将业务关联的数据库存储在边缘服务器上。与拥有大量不同资源的云不同，边缘服务器只有有限的计算和存储资源来编排少量的服务。不同种类的服务消耗不同数量的资源，导致服务编排成本不同，这给解决服务编排问题带来了挑战。边缘服务器的覆盖范围有限，用户移动性不稳定，用户在持续服务过程中可能会漫游不同边缘服务器所服务的无线区域，这些都是新的挑战。因此服务的编排决策对于移动边缘计算下多用户设备多边缘服务器的服务提供和资源支持有着很重要的意义。其中边缘系统的平均延迟、边缘系统中的代价以可作为服务编排策略的评价指标。

目前，已有一些边缘服务编排方法和工作用于移动边缘计算。有学者基于对用户移动性未来准确信息的假设进行服务编排，利用基于迁移的预测方案在执行代价和传输延迟之间进行权衡。也有人通过预测数据传输、处理和业务迁移的未来成本来编排服务。有的利用马尔可夫链分析用户移动性存在时的性能，试图通过将业务迁移过程建模为马尔可夫决策过程来设计一个最优阈值决策策略。然而，这些工作主要集中在系统范围内的服务编排管理优化，其中调度程序知道完整的系统信息，在应对未来信息和服务器端不确定性存在很大的不足。因此，总结上述已有边缘服务编排方法在以下几方面还存在不足：

1)在应对未来用户设备的服务请求和移动性等不确定信息方面还存在支持不够的情况；

2)服务器端的服务编排是具有动态性的，现有的方法大多只考虑了静态编排，对于不同时段的实时动态服务编排考虑不够充分。

发明内容

为了更加合理地进行MEC服务器端的自适应服务编排，结合场景下用户设备请求边缘服务的动态性分析，本发明提出了一种在本地、多个MEC服务器端和云服务器端进行自适应联合服务编排的方法。结合用户设备的请求，综合考虑设备本身可提供的服务和MEC服务器端以及云服务器端可提供的服务，同时考虑服务编排的成本、服务使用的成本和MEC服务器的切换成本，然后在MEC服务器端进行不同种类和数量边缘服务的编排决策，针对不同的目标群体得到不同的编排方案，从而最大化群体利益和边缘系统效用。本发明的边缘架构图如图1所示。其中，各用户设备和MEC服务器的最大服务时间取决于设备和服务器的相对运动。因为我们必须考虑用户设备的位置变化，确保用户设备和MEC服务器始终在彼此的通信范围内。主要内容如下：

1)边缘系统中的模型和设定

首先介绍MEC环境设定和系统架构概述。然后介绍服务请求和编排模型。最后，详细讨论边缘系统的时延和代价。

a)MEC环境

我们假设环境中的每个基站都将配备一个MEC服务器。MEC服务器通过城域网互联，城域网是目前互联网络的基础设施。MEC服务器为用户设备提供服务，MEC服务器中的服务由电信运营商等服务提供商编排。我们以应用环境地面的下边界和左边界作为X和Y轴定义一个坐标轴，单位为米。因此场景中的每个节点(包括用户设备，MEC服务器等)在MEC环境中有一个特定的实时位置被表示为L＝{l₁,l₂,...,l_num}。其中l_i＝(x_i,y_i)，num表示节点的数量，x_i和y_i分别表示节点i的横坐标和纵坐标，x_j和y_j分别表示节点j的横坐标和纵坐标。不同节点之间的距离可以用以下公式计算得到。

其中，其中R_e＝6471.009千米表示地球的平均半径，F_hav代表Haversine函数并且表示为F_hav(α)＝sin²(α/2)。

b)系统结构概述

如图1所示，用户设备需要请求服务来执行其任务，服务可以由本地、MEC服务器和云端服务器提供，即服务可以编排在本地、MEC服务器或者云端服务器。配备有MEC服务器的基站的覆盖范围是500m。当服务由MEC服务器提供时，当用户设备移动到另一个区域，即不再直接连接到之前的基站时，它可以从当前区域的MEC服务器接收到原MEC服务器返回的服务结果。此外，当所请求的服务未编排在直接连接的MEC服务器上时，MEC向附近具有所需服务的MEC服务器发出服务请求。在本发明中，用户常用的应用服务有即时通信、信息获取、电子商务、游戏娱乐和效率工具。即时通信主要包括实时的音视频通话、文字交流等。信息获取主要包括新闻浏览、收发邮件、信息查询、导航和文件传输等。电子商务主要包括实时的网络购物和线上交易等。游戏娱乐主要包括实时的网络游戏以及音视频的在线播放等。效率工具主要包括在线的文件编辑和视频图像处理等。图中不同的小方块表示不同类型的应用服务。例如在图1中为某个时段在基站bs₁覆盖范围内有用户设备请求效率工具服务s₁，基站bs₃覆盖范围内有用户设备请求信息获取服务s₂，基站bs₂覆盖范围内有用户设备请求即时通信服务s₃。基站bs₁覆盖范围内的用户请求服务s₁，由于直连的服务器e₁上没有放置服务s₁，所以服务器e₁向临近的服务器e₂请求服务s₂。因此基站bs₁范围内用户请求的服务s₁由服务器e₂提供。基站bs₃覆盖范围内的用户请求服务s₂，由于直连的服务器e₅上没有放置服务s₂，所以服务器e₅向临近的服务器e₄请求服务s₂。因此基站bs₃范围内用户请求的服务s₂由服务器e₄提供。基站bs₂覆盖范围内的用户请求服务s₃，由于直连的服务器e₃上放置了所需的服务s₃，因此基站bs₂范围内用户请求的服务s₃由直连服务器e₃提供。在本文中，用户设备只能观察到其本地信息(例如，本身实时位置、服务需求等)，而整个系统的其他信息如其他设备的实时位置、服务需求等是不可观察的。为了更好地描述用户设备的移动性和服务的动态性，假设连续的服务编排决策是在一个时间间隙中做出的，并且其时间线被离散化为时隙并且t∈T＝{0,1,2,...,T}，T的大小可以设为24小时，时隙t的大小可以设为30分钟。在每个时隙t的开始，移动用户设备确定一个合适的计算节点来运行它的任务。在时隙t内，用户始终停留在最初的服务范围内，网络环境保持不变。同时，我们的方法支持用户的服务请求随时间变化的情况。

c)服务请求和编排模型

为了保持令人满意的体验质量(Quality of Experience，QoE)，服务应该在多个MEC服务器之间动态编排和迁移，以适应用户行为，例如不确定的用户移动性和服务请求。在本发明中，计算节点包括用户设备本身、边缘服务器和远程云服务器可以提供用户设备所需的服务。

边缘服务器在本说明书中记为E＝{e₁,e₂,e₃,...,e_M}。M为边缘服务器的数量由编排方法的布置者根据场景下实际的边缘服务器数量进行设定。用户设备集合表示为U＝{u₁,u₂,u₃,...,u_N}，N为场景下接入边缘网络的用户设备数量。服务类型集合表示为SE。用户设备u_i∈U需要服务se∈SE并且se由设备本身、边缘服务器e∈E或云服务器提供。服务请求模型定义为一个4元组向量sr＝(u,loc,t,se)。loc是用户设备在时隙t的位置。同时，二进制向量表示在时隙t服务编排的动态决策。如果变量/>为1，则表示用户设备u需要的服务由边缘服务器节点i直接处理，/>代表服务由远程云服务器提供，/>则代表服务由用户设备本身提供。为了便于表示，SN表示所有提供服务的节点，其中SN＝E∪{r,l}，r表示远程云服务器，l表示用户设备本身。我们假设每个用户设备在时隙t由一个且只有一个计算节点为其服务。因此，服务布局决策的约束条件为：对于所有t和u，/>对于所有i、t和u，/>

d)边缘系统的延迟

在边缘系统中，尤其是在移动边缘计算场景中，延迟通常由通信延迟和计算延迟共同决定。

通信延迟：通信延迟是指传输延迟，包括从用户设备到边缘服务器(MEC服务器)或MEC服务器之间传输文件和信息。在我们的模型中，通信的信道模型基于正交频分复用(OFDM)。对于从用户设备到边缘服务器的通信，每个边缘服务器可以将带宽平均分成相等的大小，从而提供多台设备的同时服务。如果服务不是由直接连接到用户设备的边缘服务器提供的，则应考虑服务器之间的传输延迟。具体来说，一种是MEC服务器之间的延迟，主要取决于最短通信路径上的跳跃距离。另一种是用户设备和MEC服务器之间的延迟。否则，如果服务是由用户设备本身提供的，我们假设没有传输延迟。在本发明中，传输延迟用表示。

计算延迟：在我们的模型中，有三种方式来执行任务，任务在本地执行，任务在MEC服务器上执行，任务在云服务器上执行。我们将不同节点的计算能力设置为非同质的。假设云服务器具有足够的计算能力。因此，我们的模型没有考虑云服务器的计算延迟。在本发明中，计算延迟用表示。

e)边缘系统的代价

不同的服务编排决策会导致给定时间段内不同的服务编排、边缘服务器使用和切换成本。服务编排成本、边缘服务器使用成本和切换成本分别定义如下。

服务编排成本：由于存储技术的快速发展，我们认为边缘服务器上可用于编排服务的空间是很大的，同时引入了与编排服务相关的成本。此成本包括使用边缘服务器上的存储空间的网络基础设施或服务提供商软硬件消耗的货币成本。在本发明中，时隙t服务编排成本表示为SPC^t。

边缘服务器使用成本：当服务由MEC服务器提供时，使用边缘服务器的成本与服务提供时的计算消耗挂钩，费用由网络基础设施或服务的提供商进行定义和收取。因此，在时隙t边缘服务器总使用成本为SUC^t。

切换成本：由于场景中用户设备的动态移动性，MEC服务器之间的服务迁移对于维持令人满意的QoE至关重要。但是，服务迁移会产生额外的运营成本。更具体地说，当业务配置文件通过核心网络传输时，将导致带宽的大量使用。此外，业务迁移会产生路由器、交换机等网络设备的能耗。最重要的是，频繁的服务器切换会导致高概率的切换失败和用户服务中断延迟。因此，为了最大限度地减少服务迁移，我们在模型中设计了转换成本，切换成本由服务提供商来进行定义。时隙t转换成本可以表示为SC^t。

从上面的描述可以明显看出，最小化用户设备的延迟不可避免地会产生巨大的切换成本。针对边缘系统下的不同角色，做出的服务布局决策是不同的。例如，从用户的角度来看，用户希望尽可能减少服务延迟，降低服务使用费。从服务提供商的角度来看，希望尽可能降低服务编排成本和切换成本。从边缘系统整体的角度来看，需要在最大化服务提供商利益的同时，尽可能满足用户的需求，提升服务质量QoS，那么如何以高性价比的方式来进行这种延迟与成本的权衡是非常重要的。

2)针对不同目标群体的服务编排决策

我们将目标群体分为三类，包括普通用户、服务提供者(如电信运营商等)以及针对系统整体(包括普通用户和服务提供者)，t表示时间间隙，u表示用户设备，i和j表示提供服务的节点。

普通用户：普通用户一般希望获得更好的服务质量，即服务的响应速度更快，延迟更低。同时，获得服务的费用和成本也相对较低。如果用户设备需要MEC服务器的服务，就会消耗相应的计算资源和成本。同时，用户设备尽可能地要求来自最合适的MEC服务器的服务。为了提高普通用户的QoE，我们考虑最小化边缘系统的延迟和边缘服务器使用成本。因此，我们假设一个有限时间范围T，表示t时隙的传输延迟，/>表示t时隙的计算延迟，SUC^t表示在t时隙边缘服务器总使用成本。问题表述如下：

约束条件：对于所有的t和u，

对于所有的i、t和u，

服务提供商：服务提供商希望为尽可能多的用户提供服务，同时降低服务编排成本和转换成本。他们希望在给定的时刻提供更多的服务，降低提供服务的成本，从而获得更大的收益。每台MEC服务器不仅可以为多用户设备提供服务。为了提高服务提供商的收益，我们考虑最小化边缘系统的服务编排成本和切换成本。因此，我们假设一个有限时间范围T，SPC^t表示t时隙服务编排成本，SC^t表示t时隙服务在不同节点之间的转换成本。问题表述如下：

约束条件：对于所有的t和u,

对于所有的t和u,

对于所有的i、t和u,

对于所有的j、t和u,

边缘系统：对于边缘系统来说，更好地满足普通用户的需求和最大化服务提供者的利益至关重要。边缘系统的延迟和边缘系统的成本在通常情况下很难同时达到最优，这两个目标是冲突的。因此，在最大化服务提供商利益的同时最大化用户的满意度是非常具有挑战性的。为了以平衡的方式优化相互冲突的目标，我们为目标分配不同的权重，然后最小化它们的加权和。在有限时间范围T中，CES^t表示t时隙的系统总体代价，是SPC^t和SC^t之和。问题可以表述如下：

约束条件：对于所有的t和u,

对于所有的t和u,

对于所有的i、t和u,

对于所有的j、t和u,

预先会对场景下用户设备请求的所有五类服务进行再分类，主要分为两类：时延要求较高的服务，如：即时通信、电子商务和游戏娱乐；时延要求较低的服务，如：信息获取和效率工具。

如果所对应场景下的某个时段用户请求的时延要求高的服务数量比时延要求低的服务数量少，可以将传输延迟和计算延迟/>对应的权重/>和/>分别设为0.15和0.15，而系统代价CES^t的权重/>设为0.7，这样就可以着重优化系统代价。如果所对应场景下的某个时段用户请求的时延要求高的服务数量比时延要求低的服务数量多，则可以将传输延迟/>和计算延迟/>对应的权重/>和/>分别设为0.35和0.35，而系统代价CES^t的权重设为0.3。这样就可以着重优化系统延迟。如果时延要求不明确或者时延要求高的服务数量和时延要求低的服务数量相等，则可以将传输延迟/>和计算延迟/>对应的权重/>和/>分别设为0.25和0.25，而系统代价CES^t的权重/>设为0.5。

3)利用改进的DDPG进行服务编排决策

DDPG(deep deterministic policy gradient)是一种强化学习框架，可应用于连续动作控制的决策，由DQN(Deep Q Network)和actor-critic算法组成。DDPG包括两个主要的在线网络，分别是动作网络(Actornetwork)和批评网络(Criticnetwork)。动作网络用于表示确定性策略梯度，而批评网络用于逼近Q值函数。与DQN类似，动作网络和批评网络都有两个具有相同网络结构的子网络，分别是在线网络和目标网络。本文的服务编排方法基于DDPG进行改进。DDPG只包括一个动作网络和一个批评网络，而改进后的DDPG采用集中批评训练和分布执行的方式，包括多个动作网络和一个批评网络，这样就能更好地支持多个用户设备的服务动态决策。同时，它不是在测试时使用全局信息，而是在训练时使用全局信息。发明中所用的动作网络和批评网络的结构如下表1所示。设定的层是全连接层(Fullyconnected，FC)。

表1动作网络和批评网络的结构

为了便于理解，图2展示了包含N个代理的改进DDPG的总体框架，代理数目N为场景下接入边缘网络的用户设备数量。

a)代理集合(agents)

场景下所有的用户设备。

b)状态集合(state)

在时隙t，用状态来表示代理所观察到的网络环境以及本身的实时位置和服务请求，可以表示为其中sr＝(u,loc,t,se)，u表示用户设备，loc是用户设备在时隙t的位置，se表示请求的服务类型。

c)动作集合(action)

动作空间表示将服务se编排在边缘节点e上的策略模块。时隙t的动作可以表示为:

其中u₁到u_N表示代理，也就是用户设备，表示在时隙t服务编排的动态决策，即请求的服务由其中的一个节点提供，节点包括设备本身、边缘服务器和云端服务器。

d)系统奖励(reward)

在每个时隙t，所有代理合作以最小化奖励(目标函数)。针对不同的目标群体，所有代理都可以采用相同的目标函数R作为奖励，本发明分别以2)中针对不同目标群体所表述的问题作为目标函数进行服务编排优化。

e)决策过程

在图3中展示了我们提出的决策方法的过程。代理(用户设备)i观察环境并在时隙t具有初始状态然后通过执行动作网络。在这一步中，从OU(Ornstein-Uhlenbeck)过程中选择噪声并添加以提高探索下一步动作的效率。然而在将状态输入动作网络时，为了防止过拟合的产生，需要进行正则化。其中正则化方法采用Dropout，即随机失活，主要原理是对于神经网络设置节点保留概率。设置方法如下：

1)先将dropout分别设为0、0.2、0.3、0.4和0.5，然后分别进行10episode的训练。

2)对比模型测试结果，选出使得系统延迟和系统代价之和最低的dropout作为神经网络中的参数。

3)进行后续的模型训练。

接下来，所有用户设备执行相应的动作，然后获得奖励R^t和下一个状态S^t+1。(S^t,A^t,R^t,S^t+1)存储在集中重放缓冲区中。重复这些操作，直到重播缓冲区已满，然后从重播缓冲区中随机抽取H个样本，组成一个小批量来训练动作网络和集中式批评网络。重复训练达到编排方法放置者设定的episode后完成，可以设定为10。最后则得到优化后的服务编排决策。

与现有技术相比，

1)本发明考虑了具有多用户设备和边缘服务器的边缘计算网络中的自适应服务编排问题。联合服务编排问题被认为是一个连续决策问题，在考虑边缘系统延迟和边缘系统消耗的同时最大化系统的长期效用。

2)本发明考虑动态服务编排问题，并设计了一种方法来处理动态用户需求和边缘服务器之间切换的服务编排。我们将问题转换为多用户随机卸载游戏，并基于改进的DDPG模型解决问题。每个用户设备都被建模为代理，仅将本地信息和对环境的观察共享给集中的批评网络，同时通过分布式参与者网络在本地做出决策。

3)本发明从不同目标群体的角度包括普通用户、服务提供者(如电信运营商等)以及针对系统整体(包括普通用户和服务提供者)分别设计了服务编排需要考虑的优化目标和约束条件，从不同的角度进行边缘服务的编排。

本方法旨在考虑移动边缘场景下用户设备的动态移动性和服务动态性，进行MEC服务器端边缘服务的合理编排并结合设备本、MEC服务器和云服务器为用户设备提供服务，针对不同目标群体分别进行优化，提升目标群体利益的同时使得边缘系统整体效用最大化。

附图说明

图1是本发明的边缘架构示意图。

图2是本发明中改进的DDPG算法的总体结构图。

图3是改进的DDPG算法的详细流程图。

图4是本发明中的边缘服务编排决策流程图。

具体实施方式

1)系统架构

本发明针对移动边缘场景下，用户设备的资源是有限的，因此其中任务的执行需要向位于边缘的众多MEC服务器或者云端服务器请求服务。而同一移动边缘场景下用户设备是的数量是不固定的，并且有着一定的动态移动性，每个用户设备请求服务的数量和种类也不同。因此要同时尽可能的满足众多用户设备的请求并确保服务质量，在众多的MEC服务器端进行不同种类边缘服务的合理编排是非常必要的。如图1所示，用户设备向MEC服务器端请求所需要的服务，被请求的所有MEC服务器进行局部决策将数据和结果汇总到云端进行总体决策和调整，依此来进行MEC服务器端的服务编排决策。

2)总体流程

本实施例是在MEC服务器端搭建深度强化学习DDPG中的分布式动作网络，在云端搭建深度强化学习DDPG中的集中式批评网络。根据用户设备请求服务和之前时段的服务编排进行某一时段的MEC服务器端动态服务编排。针对不同的目标群体确认目标函数，并且用改进的DDPG进行服务编排决策。

本发明的总体流程参考图4所示，大体来说可以分为3个主要的部分，分别为：

①将场景下的用户设备定义为agent。同时在各个MEC服务器端搭建深度强化学习DDPG中的分布式动作网络；

②在云端搭建深度强化学习DDPG中的集中式批评网络。结合来自分布式动作网络的局部信息和局部决策进行服务编排决策的调整；

③利用并为每个MEC服务器的服务编排进行优化，深度强化学习算法DDPG的目标是最小化系统奖励。

3)边缘服务编排决策

边缘服务的编排决策过程如下：

①初始化算法所需的参数，包括：批评网络和动作网络的学习率、折现系数、最大的学习episode、每个episode中最大的训练步数、重放缓冲区、随机过程、批评网络和动作网络的权重、用户设备数量和MEC服务器数量；

②每个用户设备agent基于服务要求和网络环境得到初始的状态state；

③设定动作集action并且对于环境下每个用户设备分别执行相应的动作action，获得全局奖励rewardR^t和下一步的状态S^t+1；

④将目前的状态S^t、动作集A^t、全局奖励R^t和下一步的状态S^t+1存入重放缓冲器；

⑤更新当前状态为S^t+1；

⑥对于每个用户设备，在重放缓冲器中随机选用H个样本作为一个mini-batch；

⑦更新批评网络和动作网络；

⑧更新目标批评网络和动作网络；

⑨判断episode是否达到最大值，如果否，回到2)，如果是，流程结束。

Claims

1.一种边缘计算服务的智能自适应编排方法，其特征在于：

1)边缘系统中的模型和设定

首先介绍MEC环境设定和系统架构概述；然后介绍服务请求和编排模型；最后，详细讨论边缘系统的时延和代价；

a)MEC环境

假设环境中的每个基站都将配备一个MEC服务器；MEC服务器通过城域网互联，城域网是目前互联网络的基础设施；MEC服务器为用户设备提供服务，MEC服务器中的服务由电信运营商编排；以应用环境地面的下边界和左边界作为X和Y轴定义一个坐标轴，单位为米；因此场景中的每个节点在MEC环境中有一个特定的实时位置被表示为L＝{l₁,l₂,...,l_num}；节点包括用户设备和MEC服务器；其中l_i＝(x_i,y_i)，num表示节点的数量，x_i和y_i分别表示节点i的横坐标和纵坐标，x_j和y_j分别表示节点j的横坐标和纵坐标；不同节点之间的距离用以下公式计算得到；

其中R_e＝6471.009千米表示地球的平均半径，F_hav代表Haversine函数并且表示为F_hav(α)＝sin²(α/2)；

b)系统结构概述

用户设备需要请求服务来执行其任务，服务编排在本地、MEC服务器或者云端服务器；配备有MEC服务器的基站的覆盖范围是500m；当服务由MEC服务器提供时，当用户设备移动到另一个区域，即不再直接连接到之前的基站时，它从当前区域的MEC服务器接收到原MEC服务器返回的服务结果；此外，当所请求的服务未编排在直接连接的MEC服务器上时，MEC向附近具有所需服务的MEC服务器发出服务请求；

用户应用服务有即时通信、信息获取、电子商务、游戏娱乐和效率工具；效率工具包括在线的文件编辑和视频图像处理；

某个时段在基站bs₁覆盖范围内有用户设备请求效率工具服务s₁，基站bs₃覆盖范围内有用户设备请求信息获取服务s₂，基站bs₂覆盖范围内有用户设备请求即时通信服务s₃；基站bs₁覆盖范围内的用户请求服务s₁，由于直连的服务器e₁上没有放置服务s₁，所以服务器e₁向临近的服务器e₂请求服务s₁；因此基站bs₁范围内用户请求的服务s₁由服务器e₂提供；基站bs₃覆盖范围内的用户请求服务s₂，由于直连的服务器e₅上没有放置服务s₂，所以服务器e₅向临近的服务器e₄请求服务s₂；因此基站bs₃范围内用户请求的服务s₂由服务器e₄提供；基站bs₂覆盖范围内的用户请求服务s₃，由于直连的服务器e₃上放置了所需的服务s₃，因此基站bs₂范围内用户请求的服务s₃由直连服务器e₃提供；

假设连续的服务编排决策是在一个时间间隙中做出的，并且其时间线被离散化为时隙并且t∈T＝{0,1,2,...,T}，T的大小设为24小时，时隙t的大小设为30分钟；在每个时隙t的开始，移动用户设备确定一个计算节点来运行它的任务；在时隙t内，用户始终停留在最初的服务范围内，网络环境保持不变；

c)服务请求和编排模型

为了保持令人满意的体验质量QoE，服务应该在多个MEC服务器之间动态编排和迁移，以适应用户行为；计算节点包括用户设备本身、边缘服务器和远程云服务器提供用户设备所需的服务；

边缘服务器记为E＝{e₁,e₂,e₃,...,e_M}；M为边缘服务器的数量由编排方法的布置者根据场景下实际的边缘服务器数量进行设定；用户设备集合表示为U＝{u₁,u₂,u₃,...,u_N}，N为场景下接入边缘网络的用户设备数量；服务类型集合表示为SE；用户设备u_i∈U需要服务se∈SE并且se由设备本身、边缘服务器e∈E或云服务器提供；服务请求模型定义为一个4元组向量sr＝(u,loc,t,se)；loc是用户设备在时隙t的位置；同时，二进制向量表示在时隙t服务编排的动态决策；如果变量/>为1，则表示用户设备u需要的服务由边缘服务器节点i直接处理，/>代表服务由远程云服务器提供，/>则代表服务由用户设备本身提供；为了便于表示，SN表示所有提供服务的节点，其中SN＝E∪{r,l}，r表示远程云服务器，l表示用户设备本身；假设每个用户设备在时隙t由一个且只有一个计算节点为其服务；因此，服务布局决策的约束条件为：对于所有t和u，/>对于所有i、t和u，/>

d)边缘系统的延迟

在边缘系统中，延迟由通信延迟和计算延迟共同决定；

通信延迟：通信延迟是指传输延迟，包括从用户设备到边缘服务器即MEC服务器或MEC服务器之间传输文件和信息；通信的信道模型基于正交频分复用(OFDM)；对于从用户设备到边缘服务器的通信，每个边缘服务器将带宽平均分成相等的大小，从而提供多台设备的同时服务；如果服务不是由直接连接到用户设备的边缘服务器提供的，则应考虑服务器之间的传输延迟；一种是MEC服务器之间的延迟，另一种是用户设备和MEC服务器之间的延迟；否则，如果服务是由用户设备本身提供的，假设没有传输延迟；传输延迟用表示；

计算延迟：有三种方式来执行任务，任务在本地执行，任务在MEC服务器上执行，任务在云服务器上执行；将不同节点的计算能力设置为非同质的；计算延迟用表示；

e)边缘系统的代价

不同的服务编排决策会导致给定时间段内不同的服务编排、边缘服务器使用和转换成本；服务编排成本、边缘服务器使用成本和转换成本分别定义如下；

服务编排成本：此成本包括使用边缘服务器上的存储空间的网络基础设施或服务提供商软硬件消耗的货币成本；时隙t服务编排成本表示为SPC^t；

边缘服务器使用成本：当服务由MEC服务器提供时，使用边缘服务器的成本与服务提供时的计算消耗挂钩，费用由网络基础设施或服务的提供商进行定义和收取；因此，在时隙t边缘服务器总使用成本为SUC^t；

转换成本：由于场景中用户设备的动态移动性，MEC服务器之间的服务迁移对于维持令人满意的QoE至关重要；但是，服务迁移会产生额外的运营成本；因此，为了最大限度地减少服务迁移，在模型中设计了转换成本，转换成本由服务提供商来进行定义；时隙t转换成本表示为SC^t；

2)针对不同目标群体的服务编排决策

将目标群体分为三类，包括普通用户、服务提供者以及针对系统整体，t表示时间间隙，u表示用户设备，i和j表示提供服务的节点；

普通用户：普通用户考虑最小化边缘系统的延迟和边缘服务器使用成本；因此，假设一个有限时间范围T，表示t时隙的传输延迟，/>表示t时隙的计算延迟，SUC^t表示在t时隙边缘服务器总使用成本；问题表述如下：

约束条件：

服务提供商：为了提高服务提供商的收益，考虑最小化边缘系统的服务编排成本和转换成本；因此，假设一个有限时间范围T，SPC^t表示t时隙服务编排成本，SC^t表示t时隙服务在不同节点之间的转换成本；问题表述如下：

约束条件：

边缘系统：以平衡的方式优化相互冲突的目标，为目标分配不同的权重，然后最小化它们的加权和；在有限时间范围T中，CES^t表示t时隙的系统总体代价，是SPC^t和SC^t之和；问题表述如下：

约束条件：

预先对场景下用户设备请求的所有五类服务进行再分类，分为两类：时延要求较高的服务，包括：即时通信、电子商务和游戏娱乐；时延要求较低的服务，包括：信息获取和效率工具；

如果所对应场景下的某个时段用户请求的时延要求高的服务数量比时延要求低的服务数量少，将传输延迟和计算延迟/>对应的权重/>和/>分别设为0.15和0.15，而系统代价CES^t的权重/>设为0.7，这样就着重优化系统代价；如果所对应场景下的某个时段用户请求的时延要求高的服务数量比时延要求低的服务数量多，则将传输延迟/>和计算延迟对应的权重/>和/>分别设为0.35和0.35，而系统代价CES^t的权重/>设为0.3；这样就着重优化系统延迟；如果时延要求不明确或者时延要求高的服务数量和时延要求低的服务数量相等，则将传输延迟/>和计算延迟/>对应的权重/>和/>分别设为0.25和0.25，而系统代价CES^t的权重/>设为0.5。

2.根据权利要求1所述的方法，其特征在于，还包括：

3)利用改进的DDPG进行服务编排决策

DDPG包括两个在线网络，分别是动作网络(Actornetwork)和批评网络(Criticnetwork)；动作网络用于表示确定性策略梯度，而批评网络用于逼近Q值函数；与DQN类似，动作网络和批评网络都有两个具有相同网络结构的子网络，分别是在线网络和目标网络；而改进后的DDPG采用集中批评训练和分布执行的方式，包括多个动作网络和一个批评网络，这样就能更好地支持多个用户设备的服务动态决策；同时，它不是在测试时使用全局信息，而是在训练时使用全局信息；所用的动作网络和批评网络的结构如下表1所示；设定的层是全连接层FC；

表1动作网络和批评网络的结构

a)代理集合(agents)

场景下所有的用户设备；

b)状态集合(state)

在时隙t，用状态来表示代理所观察到的网络环境以及本身的实时位置和服务请求，表示为其中sr＝(u,loc,t,se)，u表示用户设备，loc是用户设备在时隙t的位置，se表示请求的服务类型；

c)动作集合(action)

动作空间表示将服务se编排在边缘节点e上的策略模块；时隙t的动作表示为:

其中u₁到u_N表示代理，也就是用户设备，表示在时隙t服务编排的动态决策，即请求的服务由其中的一个节点提供，节点包括设备本身、边缘服务器和云端服务器；

d)系统奖励(reward)

在每个时隙t，所有代理合作以最小化奖励即目标函数；针对不同的目标群体，所有代理都采用相同的目标函数R作为奖励，分别以2)中针对不同目标群体所表述的问题作为目标函数进行服务编排优化；

e)决策过程

代理即用户设备i观察环境并在时隙t具有初始状态然后执行动作网络；在这一步中，从OU(Ornstein-Uhlenbeck)过程中选择噪声并添加以提高探索下一步动作的效率；然而在将状态输入动作网络时，为了防止过拟合的产生，需要进行正则化；其中正则化方法采用Dropout，即随机失活，原理是对于神经网络设置节点保留概率；设置方法如下：

1)先将dropout分别设为0、0.2、0.3、0.4和0.5，然后分别进行10个episode的训练；

2)对比模型测试结果，选出使得系统延迟和系统代价之和最低的dropout作为神经网络中的参数；

3)进行后续的模型训练；

接下来，所有用户设备执行相应的动作，然后获得奖励R^t和下一个状态S^t+1；(S^t,A^t,R^t,S^t+1)存储在集中重放缓冲区中；重复这些操作，直到重播缓冲区已满，然后从重播缓冲区中随机抽取H个样本，组成一个小批量来训练动作网络和集中式批评网络；重复训练达到编排方法放置者设定的episode后完成，设定为10；最后则得到优化后的服务编排决策。