CN115334076A

CN115334076A - 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Info

Publication number: CN115334076A
Application number: CN202210800832.6A
Authority: CN
Inventors: 李晓倩; 陈思宇; 陈杰男; 冯钢
Original assignee: University of Electronic Science and Technology of China; Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: University of Electronic Science and Technology of China; Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-11-11

Abstract

本发明公开了一种边缘服务器的服务迁移方法、系统及边缘服务器设备，涉及无线通信网络领域，其技术方案要点是：边缘服务器采集所服务用户的状态信息和服务请求信息；搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息，其中边缘服务器的动作对应于每个服务请求信息的决策信息，将所有边缘服务器的动作构成全局动作空间，将全局动作空间发送给所有用户获得所有即时奖励，依据所有即时奖励构建全局奖励空间，利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延；在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。本发明降低了用户的平均服务时延。

Description

一种边缘服务器的服务迁移方法、系统及边缘服务器设备

技术领域

本发明涉及一种无线通信网络领域，更具体地说，它涉及一种边缘服务器的服务迁移方法、系统及边缘服务器设备。

背景技术

移动边缘计算(MEC)框架下的服务迁移问题在近年来受到了广泛的关注。现有技术中仅考虑了一个用户和服务器的MEC系统模型。也有考虑了多个用户和边缘服务器，但均是假设网络中所有用户的状态信息是可获取的，然而在动态网络中，获取这样的信息存在着一定的困难。边缘服务器可以很容易得到其覆盖范围内所有用户的状态信息，但隶属于其他边缘服务器的用户状态信息的获取需要巨大的控制信令开销，因此很难在实际中实现。虽然在 SDN框架下，还可以通过中心控制器获取整个网络的全局信息，但维护这样一个控制器又引入了额外开销和安全隐患。在实际场景中，更为合理的假设是一个边缘服务器只能获取其当前所服务用户的状态信息，即只能获取网络中部分用户的状态信息。再例如自动驾驶服务过程中，用户需要不断监测周围环境信息并进行相应地处理。为了更好地完成计算任务，MEC 架构下的任务卸载问题也被广泛研究。在MEC中，用户可以选择独立完成服务/应用程序中涉及的计算任务(即没有任务卸载)，或卸载计算任务(部分卸载或完全卸载)至边缘服务器，利用边缘服务器的计算能力完成任务。由于边缘服务器通常比移动终端具有更强的计算能力，因此这样做的好处是可以减少任务完成时间。当给定计算任务时，任务卸载问题则需要决定是否需要卸载此任务，如何卸载此任务，以及如何分配边缘服务器的计算资源给不同的卸载任务，从而最小化计算任务的完成时间。

综上现有技术所采用的系统模型都存在着不准确或不切实际的问题，且并没有联合考虑边缘服务器服务过程中涉及的服务迁移和计算任务卸载问题，导致了用户的平均服务时延高。

发明内容

本发明为了解决现有技术的迁移方法所采用的系统模型都存在着不准确或不切实际的问题，目的是提供一种边缘服务器的服务迁移方法、系统及边缘服务器设备，本发明搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作，在此模型中，边缘服务器作为实体自主地收集环境状态信息，并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息，因此观测状态为环境的部分状态信息；边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略，由连续动作向量构成动作空间，采用奖励来评价动作空间的动作，从而最小化网络中所有用户的服务时延，每个边缘服务器根据收到的服务请求信息自主决策，所有边缘服务器动作构成全局动作空间，获得的所有即时奖励构成全局奖励空间，最后在模型中搭建iSMA算法框架来优化每个边缘服务器的决策信息，即输出最佳的动作序列，以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，本发明提供了一种边缘服务器的服务迁移方法，包括如下步骤：

边缘服务器采集所服务用户的状态信息和服务请求信息；

搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息，其中边缘服务器的动作对应于每个服务请求信息的决策信息，将所有边缘服务器的动作构成全局动作空间，将全局动作空间发送给所有用户获得所有即时奖励，依据所有即时奖励构建全局奖励空间，利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延；

在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。

在一种实施方案中，所述决策信息包括由服务请求信息确定的服务迁移策略、任务卸载策略和任务卸载过程中的资源分配策略。

在一种实施方案中，所述方法还包括：

构建用户模型和边缘服务器模型；

边缘服务器模块接收用户模型发送服务请求信息执行iSMA算法以确定服务请求信息的动作，动作包括服务迁移、任务卸载和资源分配策略；其中，边缘服务器模型每隔一次决策执行一次决策算法，以更新边缘服务器收到的所有服务请求信息的动作。

在一种实施方案中，搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息，具体为：

令

为网络中L个边缘服务器在t＝τ时刻对所有用户服务请求信息的动作，其中

为边缘服务器e_l在t＝τ时刻对其所收到的服务请求信息的动作；

令

为边缘服务器e_l在t＝τ时刻观测到的状态，其中

为边缘服务器e_l所服务的用户信息，

为边缘服务器e_l所服务用户的服务请求信息，Fτ为边缘服务器e_l所保存的网络中其他边缘服务器剩余计算资源的信息；

根据观测状态

边缘服务器e_l执行决策算法后得到动作集合

并将相应的动作发送给用户，获得新的观测状态

以及即时奖励

在一种实施方案中，基于部分可观测状态

以及之前的动作

边缘服务器e_l则决定是否将服务迁移至另一服务器以最小化所有用户的计算任务平均完成时延，从t＝0时刻至 t＝∞时刻在每个边缘服务器e_l决定动作集

对优化所有用户的全局动作集，其优化的计算式如下：

其中，

表示全局动作空间的全局动作集，

表示用户i的本地数据处理时间，

表示用户i在服务过程中将任务卸载至边缘服务器进行处理的时间，N表示网络所有用户个数。

在一种实施方案中，在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列，具体包括：

观测边缘服务器所服务用户的状态信息，其中边缘服务器所观测的状态信息为环境的部分状态信息；

搭建潜在空间模型推测其他用户的状态信息；

利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索，输出全局奖励最大的动作。

在一种实施方案中，搭建潜在空间模型推测其他用户的状态信息，包括：

构建递归式的潜在空间模型RLSM，其中，递归式的潜在空间模型包括确定状态转移模型、随机状态转移模型、观测模型、奖励模型以及编码模型；

确定性状态转移模型的输入为历史信息，输出为当前时刻的确定性状态；其中历史信息包括历史随机状态、确定性状态和动作；

随机状态转移模型的输入为当前时刻的确定性状态，输出为随机状态的均值与方差；

观测模型的输入为随机和确定性状态信息，输出为观测状态的均值和单位对角协方差；

奖励模型的输入为随机和确定性状态信息，输出为奖励均值和单位方差；

编码模型的输入为当前时刻的确定性状态和观测状态，输出为隐藏随机状态的均值与方差。

在一种实施方案中，利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索，输出全局奖励最大的动作，具体步骤如下：

S110，将动作序列的分布初始化为正态分布，即

S120，根据分布函数

采样得到一个可能的动作集A_τ；

S130，根据观测状态o_τ、动作集A_τ以及RLSM模型，推测出隐藏状态和奖励r_τ，隐藏状态即为未观测状态；

S140，重复步骤S120-S130共计K次，得到从t＝τ时刻至t＝τ+K时刻的动作序列A_τ:τ+K和相应的奖励序列r_τ:τ+K，基于奖励

对动作序列A_τ:τ+K进行评估；

S150，重复步骤S140共计I次，得到一组动作序列

和一组奖励

其中每个 Aⁱ都是一个动作序列A_τ:τ+K；

S160，将集合

根据奖励Rⁱ排序，其中奖励最大的排在第一位，根据排序结果，将前Q个动作序列形成一个新集合

其中Q<I，即有

S170，根据均值计算式

和方差计算式

计算新集合

的均值与方差，并根据新集合计算得到的新的均值与方差更新动作序列的分布函数，即有

S180，根据更新后的分布函数

重复执行步骤S120-S170 J次；

S190，将最后一次由均值计算式计算得到的均值选为最佳动作序列，并将最佳动作序列作为iSMA算法的输出。

第二方面，本发明提供了一种边缘服务器的服务迁移系统，包括：

信息采集模块，用于边缘服务器采集所服务用户的状态信息和服务请求信息；

模型搭建模块，用于搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息，其中边缘服务器的动作对应于每个服务请求信息的决策信息，将所有边缘服务器的动作构成全局动作空间，将全局动作空间发送给所有用户获得所有即时奖励，依据所有即时奖励构建全局奖励空间，利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延；

动作优化模块，用于在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。

第三方面，本发明提供了一种边缘服务器设备，所述设备包括：处理器，以及与所述处理器耦接的存储器；所述处理器和所述处理器耦接的存储器能被虚拟化为一个及以上虚拟机；所述存储器上存储有可在所述处理器上运行的迁移程序；所述迁移程序被所述处理器执行时将实现如第一方面所述的方法中的边缘服务器所执行的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作，在此模型中，边缘服务器作为实体自主地收集环境状态信息，并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息，因此观测状态为环境的部分状态信息；边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略，由连续动作向量构成动作空间，采用奖励来评价动作空间的动作，从而最小化网络中所有用户的服务时延，每个边缘服务器根据收到的服务请求信息自主决策，所有边缘服务器动作构成全局动作空间，获得的所有即时奖励构成全局奖励空间，最后在模型中搭建iSMA算法框架来优化每个边缘服务器的决策信息，即输出最佳的动作序列，以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明实施例一提供的一种边缘服务器的服务迁移方法的流程示意图；

图2为本发明一实施例提供的用户访问边缘服务器的服务迁移过程示意图；

图3为本发明一实施例提供的iSMA算法的框架示意图；

图4为本发明一实施例提供的随机状态转移模型图；

图5为本发明一实施例提供的确定状态转移模型图；

图6为本发明一实施例提供的循环状态转移模型图；

图7为本发明一实施例提供的iSMA算法的具体流程图；

图8为本发明一实施例提供的iSMA算法的收敛速度图；

图9a为本发明一实施例提供的所有用户的平均服务时延与边缘服务器计算能力(本地计算能力为250MHz)的性能关系图；

图9b为本发明一实施例提供的所有用户的平均服务时延与边缘服务器计算能力(本地计算能力为550MHz)的性能关系图；

图10a为本发明一实施例提供的所有用户的平均服务时延与本地计算能力(边缘服务器计算能力为4GHz)的性能关系图；

图10b为本发明一实施例提供的所有用户的平均服务时延与本地计算能力(边缘服务器计算能力为10GHz)的性能关系图；

图11a为本发明一实施例提供的所有用户(用户的移动速度为120km/h)的平均服务时延与决策周期之间的关系图；

图11b为本发明一实施例提供的所有用户(用户的移动速度为20km/h)的平均服务时延与决策周期之间的关系图；

图12a为本发明一实施例提供的所有用户的平均服务时延与用户移动速度(本地计算能力为250MHz)的关系图；

图12b为本发明一实施例提供的所有用户的平均服务时延与用户移动速度(本地计算能力为350MHz)的关系图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例一

如图1所示，本申请实施例提供了一种边缘服务器的服务迁移方法，包括如下步骤：

边缘服务器采集所服务用户的状态信息和服务请求信息；

本实施例中，每个边缘服务器除了采集其目前所服务用户的状态信息、服务请求信息，还采集其他边缘服务器的剩余计算资源信息，每个边缘服务器针对其收到的服务请求信息，周期性地进行自主决策。

具体的，搭建部分可观测马尔可夫决策(POMDP)模型以输出每个服务请求的动作。在此模型中，边缘服务器作为实体自主地收集环境状态信息，并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息，因此观测状态为环境的部分状态信息。模型中的编码模块用于推测边缘服务器的未观测状态；

具体的，如图3所示，为iSMA算法的框架，它由两个部分组成：潜在空间模型和交叉熵规划算法，观测状态将会首先输入至交叉熵规划算法中。基于观测状态，交叉熵规划算法将会输出使回报函数最大化的动作序列A_τ:τ+K，其中A_τ:τ+K为从t＝τ时刻至t＝τ+K时刻得到的动作。特别地，在交叉熵规划算法中，动作序列的分布将会被初始化为均值为0，方差为1的高斯分布。基于此高斯分布，iSMA将会采样一系列动作序列，并基于潜在空间模型评估其性能，选择最优的动作序列以更新高斯分布的均值与方差。上述过程重复一段时间后，最后得到最大奖励r_τ的动作序列则作为最佳动作序列。最佳动作序列中当前时刻的动作集A_τ则将作为iSMA的输出，服务器e_l也会将决策信息发送给相应的用户。之后，集合o_τ，A_τ和r_τ将会被加入训练集用于训练潜在空间模型。边缘服务器e_l每次执行算法iSMA时都会重复上述过程直至边缘服务器e_l中再没有任何服务请求信息。

综上，本实施例的服务迁移方法，通过搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作，在此模型中，边缘服务器作为实体自主地收集环境状态信息，并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息，因此观测状态为环境的部分状态信息；边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略，由连续动作向量构成动作空间，采用奖励来评价动作空间的动作，从而最小化网络中所有用户的服务时延，每个边缘服务器根据收到的服务请求信息自主决策，所有边缘服务器动作构成全局动作空间，获得的所有即时奖励构成全局奖励空间，最后在模型中搭建 iSMA算法框架来优化每个边缘服务器的决策信息，即输出最佳的动作序列，以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低，从而解决现有技术中对于服务迁移算法所采用的系统模型都存在着不准确或不切实际的问题，且并没有联合考虑边缘服务器服务过程中涉及的服务迁移和计算任务卸载问题，导致了用户的平均服务时延高的问题。

在一种实现方案中，所述决策信息包括由服务请求信息确定的服务迁移策略、任务卸载策略和任务卸载过程中的资源分配策略。

在一种实现方案中，所述方法还包括：

构建用户模型和边缘服务器模型；

具体的，对于用户模型：令u_i为网络中第i个(i＝1,…,N)用户,b_j为用户u_i相关联的基站。考虑用户持续访问部署于边缘服务器上应用/服务的场景(如自动驾驶)，并在此过程中不断产生需要处理的数据(如自动驾驶过程需要不断检测环境信息并进行相应的处理)，考虑可以将此过程中产生的所有数据分成有限数量的计算任务，并令c_i为用户u_i生成的计算任务的工作量(或数据量)大小。在用户u_i访问其目前所关联边缘服务器上应用/服务的过程中，假设当用户产生的数据量(或计算工作量)达到c_i时，u_i将会生成相应的服务请求信息，并将其发送给相应的边缘服务器。而边缘服务器收到请求后，将会决定此请求的服务迁移和任务卸载策略，即决定是否需要将此服务迁移至更近的边缘服务器，以及如何卸载此请求所对应的计算任务。

令T_i(τ)表示为t＝τ时刻时来自于用户u_i的服务请求信息。由于服务请求信息是根据数据量c_i生成的，因此当用户目前产生的数据量不足c_i时，有T_i(τ)＝NULL；否则

其中f_i ^L为用户u_i的计算能力(即CPU频率或CPU时钟速度)，f_i ^r为完成此计算任务所需要的CPU周期，g_i为当前时刻u_i与基站之间的信道增益，而

为完成此计算任务所允许的最大时延。用CPU周期数来度量完成计算任务所需要的时间。基于收到的 T_i(τ)，边缘服务器则可以周期性地更新其当前所服务用户的状态信息(包括用户的计算能力，用户与基站之间的信道增益等)，并且可以计算出完成此计算任务所需时间。

对于边缘服务器模型：令e_l为网络中第l个(l＝1,…,L)边缘服务器。边缘服务器e_l将为每个部署的应用/服务分配一个虚拟机(VM)，考虑在同一个应用/服务过程中产生的所有计算任务需要在同一个虚拟机中进行处理，这是因为后续计算任务可能需要之前任务的处理结果和相关配置信息。因此当产生服务迁移时，原边缘服务器还需要将虚拟机中的相关文档传输至目的服务器的虚拟机中。上述过程中产生的时延即为服务迁移时延，它由两个边缘服务器之间的距离以及需要传输的文件大小决定。

假设边缘服务器e_l将会周期性向其他边缘服务器广播其目前可用的计算资源，从而其他边缘服务器可以决定是否将服务(以及相应的计算任务)迁移至服务器e_l。当e_l第一次收到用户u_i的服务请求T_i(τ)时，它将会立即执行决策算法(即本申请实施例提出的iSMA算法)以确定此请求的动作，即服务迁移和计算任务卸载策略。除此之外，边缘服务器e_l还会每隔D_l时隙执行一次决策算法，更新其目前收到的所有服务请求的动作，其中D_l为边缘服务器e_l的决策周期，显然D_l的值决定了边缘服务器e_l决策信息的更新频率。本方案的决策算法将会针对每个输入的服务请求输出一个动作(即服务迁移和计算任务卸载策略)。令a_i为用户u_i服务请求所对应的动作。特别地，有a_i＝{a_i(IP),a_i(η),a_i(f^e)}，其中a_i(IP)为服务于用户u_i的边缘服务器，a_i(η)∈[0,1]表征了此服务请求的卸载策略，a_i(f^e)则表征了边缘服务器分配给此计算任务的计算资源。特别地，如果a_i(IP)是当前的边缘服务器，则说明没有服务迁移；否则，用户u_i的服务请求以及相应的计算任务将会被迁移至另一个边缘服务器。同时，a_i(η)的值决定了此服务请求所对应的计算任务的卸载策略，a_i(η)＝0则表明没有任务卸载，即此计算任务将由用户自己完成；a_i(η)＝1则表明完全卸载，即用户需要将此任务中需要处理的所有数据传输至相应的服务器；而0<a_i(η)<1则表明部分卸载。由于任意卸载计算任务不切实际，因此考虑a_i(η)只能从集合{0,0.1,0.2,…,0.9,1}中取值。

下面介绍用户与边缘服务器之间的服务迁移过程：

每个用户u_i都保存着自己当前所关联的边缘服务器(即当前为自己服务的边缘服务器)。每个边缘服务器e_l则保存着自己当前服务的所有用户集合

目前收到的所有服务请求集合

以及其他边缘服务器当前的剩余计算资源F_τ，即有

和

请参考图2，图2展示了用户u₁从开始访问边缘服务器上的应用(或服务)到结束访问的全过程，即展示了用户从生成第一个服务请求至最后一个服务请求的全过程。为了简单起见，图2并未显示未参与到此过程中的其他用户和边缘服务器。假设u₁从τ＝0时刻开始访问边缘服务器e₁上的应用。在此过程中，由于不断生成数据需要处理，因此u₁将会陆续产生计算任务。由于每个计算任务的工作量都为c₁，因此假设用户u₁将会每隔3个时隙产生一个计算任务。也即是说，如果服务请求T₁(τ)在τ＝3时刻生成，那么后续的服务请求T₁(τ)将陆续在τ＝6,9,12,…时刻生成。

决策算法将会输出用户u₁服务请求的动作a₁＝{a₁(IP),a₁(η),a₁(f^e)}。如图2所示，此时得到的a₁(IP)仍是边缘服务器e₁，也即是说没有服务迁移，仍将由边缘服务器e₁处理用户u₁的后续服务请求信息。边缘服务器e₁则将任务卸载策略a₁(η)发送给用户u₁。当用户u₁收到后，需要将此次计算任务中需要处理的数据分成两部分：一部分(由比例a₁(η)决定)传输至边缘服务器e₁进行任务卸载，另一部分(1-a₁(η))在本地进行处理。同时，边缘服务器e₁将分配一定比例(即a₁(f^e))的剩余计算资源完成此次计算任务卸载。当边缘服务器e₁处理完此次 a₁(η)比例的数据，并将此处理结果传输至u₁，同时u₁处理完剩余1-a₁(η)比例的数据时，认为第一个服务请求T₁(3)的处理完成，如图2所示。

除了收到第一个服务请求信息时，需要立即执行决策算法，每个边缘服务器e_l还需每隔D_l时隙更新其目前所有收到的服务请求信息的动作。在图2中，有D₁＝8，即e₁将每隔8时隙执行一次决策算法。因此当用户u₁在τ＝6时刻没有收到新的决策动作(因为边缘服务器e₁还并未执行下一次决策算法)时，u₁将会选择与上一个服务请求信息T₁(3)相同的服务迁移和任务卸载策略，以处理此次的服务请求T₁(6)。当u₁在τ＝6时刻上传a₁(η)比例的数据至e₁进行处理时，可以附上T₁(6)的信息，使e₁有能力更新用户u₁的状态信息。可以看到，在本方案中，用户只用发送第一次服务请求信息。由于后续的服务请求信息与第一次的工作量相同，因此并不需要再发送至边缘服务器。用户只需等待边缘服务器决策信息的更新即可，若未收到更新信息，则将采用上一个收到的决策信息处理新生成的计算任务。

当e₁在τ＝8时刻再次执行决策算法后，如图2所示，得到了新的任务卸载策略。e₁将新的a₁(η)传输至u₁后，u₁的第3、4、5个服务请求(在τ＝9、12、15)则将采用此a₁(η)完成任务卸载。当决策算法在τ＝16时刻再次被执行时，边缘服务器e₁发现得到的a₁(IP)不再是自身，即存在着服务迁移。如图2所示，边缘服务器e₂将被用来处理u₁的后续服务请求信息和计算任务卸载。e₁将此信息发送给e₂，包括用户u₁的状态信息、服务请求信息和处理u₁计算任务虚拟机(VM)中的相关文档。同时，e₁将边缘服务器e₂的地址以及新的a₁(η)值发送给用户u₁。收到此消息后，u₁将相应地更新其关联的边缘服务器以及任务卸载策略(即新a₁(η)) 以便于处理后续计算任务。

在τ＝30时刻，用户u₁意识到这是它此次访问服务/应用过程中产生的最后一个计算任务。因此当u₁上传a₁(η)比例的数据至边缘服务器e₂进行处理时，它将表明这是最后一个计算任务。当e₂处理完此a₁(η)比例的数据，并将处理结果传输至u₁后，用户u₁以及T₁(τ)的信息将会从集合

和

中删除。上述过程便是用户u₁访问边缘服务器上应用(或服务)的全过程。

在一种实现方案中，搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息，具体为：

令

令

为边缘服务器e_l在t＝τ时刻观测到的状态，其中

为边缘服务器e_l所服务的用户信息，

根据观测状态

边缘服务器e_l执行决策算法后得到动作集合

并将相应的动作发送给用户，获得新的观测状态

以及即时奖励

具体的，从图2可以看出，用户在访问边缘服务器上的应用(服务)的过程中，将会周期性地产生多个计算任务，而每个计算任务的完成时间主要由本地数据(1-a₁(η)部分数据) 处理时间、数据(a₁(η)部分数据)上传时间、服务器端数据处理(a₁(η)部分数据)时间以及服务迁移时间组成，即从源服务器虚拟机传输相关文件至目的服务器虚拟机所需时间。由于控制信息大小较小，因此忽略了用户发送第一个服务请求，以及服务器返回新a_i(η)所需时间。

故此用户u_i的本地数据处理时间为

其中f_i ^L为用户u_i的计算能力，即CPU时钟频率，而f_i ^r则是完成计算任务所需要的CPU 周期数。

而a₁(η)部分数据的上传时间可分为两部分，即从用户u_i到其基站bj的无线传输时间和从b_j到边缘服务器e_l的传输时间。给定u_i与b_j之间的信道增益g_i以及用户u_i的传输功率p_i，则可以得到u_i到b_j的无线传输速率为：

其中B为信道带宽，N₀为噪声功率。由式(2)可得无线传输时间为：

其中c_ia_i(η)为上传数据的大小。

基站b_j至边缘服务器e_l的传输时间由边缘服务器之间的拓扑结构和传输速率决定。假设由基站b_j至边缘服务器e_l的平均传输速率为R_j,l，则b_j至e_l的传输时间为：

其中d_j,l是由bj至e_l最短路径上的跳数。例如在图1中我们有d_1,3＝3。假设网络负载不大，因此忽略了路由器的排队时延。

在服务器e_l处的数据处理时间为：

其中f_l ^e是服务器e_l的计算能力，而a_i(f^e)则是e_l分配给此计算任务的计算资源比例。最后，当服务由边缘服务器e_l迁移至e_l′时，其服务迁移时间将由虚拟机中的需要传输的文件大小、网络拓扑结构和传输速率决定。特别地，虚拟机中需要传输的文件大小应与其处理的数据大小成比例关系，即为αc_ia_i(η)。基于此，服务迁移时间为：

其中R_l,l′和d_l,l′分别表征了服务器e_l至e_l′的平均传输速率和跳数。根据式(1)-(6)则可以得到每个计算任务的完成时间为：

在式(7)中，如果计算任务是由e_l完成且不存在服务迁移，则有

而如果计算任务将由e_l′完成且存在服务迁移(由e_l迁移而来)，则有

在t_i不超过给定的任务完成最大时延

的条件下，如何设计智能高效的决策算法从而最小化所有用户的计算任务平均完成时延是本方案需要解决的问题。

将每个服务器端的决策过程建模成一个部分可观测的马尔可夫决策过程(POMDP)。令

为边缘服务器e_l在t＝τ时刻对其所收到的服务请求信息的动作。令

为e_l在t＝τ时刻观测到的状态，其中

为e_l所服务的用户信息，

为e_l所服务用户的服务请求信息，Fτ为e_l所保存的网络中其他边缘服务器剩余计算资源的信息。根据观测状态

边缘服务器e_l执行决策算法后得到动作集合

并将相应的动作发送给用户，从而得到新的状态

以及奖励

但观测状态

只是整个网络状态的一部分，即其他不被e_l所服务的用户状态信息和服务请求信息对边缘服务器e_l而言是不可观测的，因此上述过程为部分可观测的马尔可夫决策过程。特别地，上述POMDP的数学建模如下所示：

状态模型：

观测模型：

奖励模型：

动作模型：

编码模型：

其中

为服务器e_l在t＝τ时刻的未观测状态(或隐藏状态)。基于部分可观测状态

以及之前的动作

边缘服务器e_l则决定是否将服务迁移至另一边缘服务器以最小化所有用户的计算任务平均完成时延。

在一种实现方案中，基于部分可观测状态

以及之前的动作

对优化所有用户的全局动作集，其优化的计算式如下：

其中，

表示全局动作空间的全局动作集，

表示用户i的本地数据处理时间，

具体的，对所有用户的全局动作进行优化建立目标函数函数的计算式为

基于此目标函数在仅有部分状态可观测的前提下，设计决策算法iSMA探索全局最优的服务迁移和计算任务卸载策略。

在一种实现方案中，在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列，具体包括：

搭建潜在空间模型推测其他用户的状态信息；

具体的，iSMA算法流程包括：1)搭建潜在空间模型用于推测其他用户状态信息；2)根据观测状态和推测状态，利用交叉熵规划算法输出全局奖励最大的动作。

本方案旨在设计智能服务迁移算法(intelligent service migrationalgorithm，iSMA)，在仅有部分状态可观测的前提下探索全局最优的服务迁移和计算任务卸载策略。特别地，每个边缘服务器将会周期性地执行iSMA算法以决策或更新其目前收到的所有服务请求信息所对应的动作，从而最小化所有用户的计算任务平均完成时延。iSMA算法的框架如图3所示。它由两个模块组成，即潜在空间模型和交叉熵规划算法。由于每个边缘服务器只能观测到部分用户的状态信息和服务请求信息，因此潜在空间模型用于推断网络的隐藏状态，即其他未观测到用户的状态信息和服务请求信息。基于隐藏和观测状态，交叉熵规划算法则是为了搜索出使奖励最大化的动作序列。以边缘服务器e_l为例，下面将给出iSMA算法的详细过程。为了方便表述，在之后的表述过程中我们将把e_l处的观测状态

动作集合

和隐藏状态

分别简化为o_τ，A_τ和s_τ。

在一种实现方案中，搭建潜在空间模型推测其他用户的状态信息，包括：

具体的，确定状态转移模型、随机状态转移模型、观测模型、奖励模型以及编码模型均是由全连接神经网络构成。

本实施例中将详细介绍iSMA算法中的潜在空间模型，如图3所示，潜在空间模型是用来推断隐藏状态s_τ和奖励值r_τ。在本实施例中，潜在空间模型由四个模块组成，即状态转移模块、观测模块、奖励模块和编码模块，其中观测模块用于模型训练。一般而言，有三种方法建立状态转移模块，包括随机转移、确定性转移和循环转移。

当采用随机转移方法建立状态转移模块时，隐藏状态s_v将会被建模为高斯变量，即

其中H_latent，

分别为隐藏状态的维度、均值向量和协方差。如图4所示，在此模型下s_τ将完全由上一个状态s_τ-1和动作A_τ-1决定。可以看到，由于状态转移的随机性，随机状态转移模型虽然可以探索到很多环境特征，但历史信息利用不充分(因为下一个状态仅由上一个状态和动作决定)。

如图5所示，图5给出了确定性状态转移模型，其中隐藏状态表示为一个确定的状态h_τ。在确定性转移模型中，h_τ为上一个状态h_τ-1和动作A_τ-1的函数，也即是说h_τ将由之前所有的状态h_<τ和动作A_<τ决定。特别地，考虑h_τ的值将基于长短期记忆网络获得。可以看到，相比于随机状态转移模型，确定性状态转移模型利用了更多的历史信息，但是也失去了探索环境更多特征的机会。

由于MEC环境中用户的动态性和用户状态的复杂性，很难仅基于历史信息或随机探索等方式推测出全局状态信息。因此，本方案采用循环状态转移方式建立潜在空间的状态转移模型。如图6所示，在循环状态转移模型中，随机状态转移和确定性状态转移将会被同时考虑，以实现历史信息与环境探索信息的折中。基于此循环状态转移模型，本方案将建立一个递归式的潜在空间模型(recurrent latent space model,，RLSM)，如下所示：

确定状态转移模型：h_τ＝f(h_τ-1,s_τ-1,A_τ-1)；

随机状态转移模型：s_τ～p(s_τ|h_τ)；

观测模型：o_τ～p(o_τ|h_τ,s_τ)；

奖励模型：r_τ～p(r_τ|h_τ,s_τ)；

编码模型：s_τ～q(s_τ|h_τ,o_τ)。

在RLSM中，隐藏状态由两部分组成，确定性状态h_τ和随机状态s_τ，其中s_τ是高斯变量，而h_τ由LSTM网络决定。RLSM中的随机状态转移模型是一个以当前时刻的确定性状态h_τ作为输入，而输出随机状态的均值与方差向量的全连接神经网络。而观测模型则是一个以随机和确定性状态信息作为输入，而输出观测状态均值和单位对角协方差的全连接神经网络。奖励模型同样是一个全连接神经网络，其输出奖励均值和单位方差。而编码模型则是一个以当前时刻的确定性状态和观测状态作为输入，而输出隐藏随机状态的均值与方差的全连接神经网络。

在仿真实验中，我们还分别实现了基于随机状态转移和确定性状态转移的潜在空间模型(命名为SLSM和DLSM)，以验证本方案RLSM的性能。在设计SLSM、DLSM和RLSM 时，我们有相同的目标函数。具体而言，以动作序列A₁:_K作为输入，我们的目标是同时最大化观测状态和奖励的对数似然函数，如下式所示。

θ＝argmin_θ.-(In p(o_1:K|A_1:K)+In p(r_1:K|A_1:K))#(9)#

其中In p(o_1:K|A_1:K)为观测状态的对数似然函数，In p(r_1:K|A_1:K)为奖励的对数似然函数。

在一种实现方案中，利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索，输出全局奖励最大的动作，具体步骤如下：

S110，将动作序列的分布初始化为正态分布，即

S120，根据分布函数

采样得到一个可能的动作集A_τ；

对动作序列A_τ:τ+K进行评估；

S150，重复步骤S140共计I次，得到一组动作序列

和一组奖励

其中每个 Aⁱ都是一个动作序列A_τ:τ+K；

S160，将集合

其中Q<I，即有

S170，根据均值计算式

和方差计算式

计算新集合

S180，根据更新后的分布函数

重复执行步骤S120-S170 J次；

具体的，如前所述，iSMA由两个功能模块组成，即潜在空间模型RLSM和交叉熵规划算法。交叉熵规划算法是用来探索动作序列，更新动作序列的均值和方差，以及输出奖励最大的动作序列，其中奖励模型如RLSM所示。iSMA算法的详细过程如图7所示，具体而言，iSMA算法以观测状态o_τ作为输入，动作集A_τ作为输出，其包含了本实施例中步骤S110-S190共计9个步骤，通过以上步骤，得到iSMA算法的计算复杂度为O(IJK·(T^e+T^s+T^d+T^r))，其中T^e,T^s,T^d和T^r分别为RLSM里面编码模型、随机状态转移模型、确定状态转移模型和奖励模型的复杂度。如前所述，RLSM中的5个模型要么是LSTM网络要么是全连通神经网络，因此每个模型的计算复杂度与输入维度、神经网络所用层数和cell个数决定。

为了证明本发明所提的服务迁移方法优于现有技术中其他方法，通过仿真实验的具体结果来表明，仿真如下：

首先搭建仿真实验过程中的MEC环境，由L＝6台边缘服务器和N＝40个移动用户组成的 MEC系统，其中每台边缘服务器附近都有一个蜂窝基站。每个基站的覆盖半径为1公里。用户的移动速度在20km/h至120km/h范围内变化，用户的CPU时钟频率在250MHz到650MHz 范围内变化，而边缘服务器的CPU时钟频率在4GHz到10GHz范围内变化。每个时隙的持续时间设置为1ms。每个用户将随机选择一个时隙生成其第一个计算任务(或服务请求信息)。当第一个计算任务生成后，后续的计算任务将会周期性地产生，其产生计算任务的周期将在 [50ms,200ms]范围内取值。每个计算任务中需要处理的数据大小以及完成计算任务所需要的 CPU周期数将分别在[300KB,1200KB]和[0.1·10⁹,10⁹]范围内取值。边缘服务器e_l的决策周期 D_l将在2s至12s范围内变化。

设置iSMA算法中的I＝1000，J＝200，K＝10和Q＝100。RLSM中的确定状态转移模型基于LSTM网络实现，其中cell个数为

记忆状态h_τ的维度为

我们将使用一个大小为N+5N+L＝246的一维向量表征边缘服务器e_l的观测状态

其中前N个元素用来表征用户u_i是否正在被e_l服务(即表征

信息)，中间的5N个元素用来表征用户u_i的服务请求信息T_τ(i)(注意每个服务请求信息将包含5部分信息)，而最后L个元素则用来表征所有边缘服务器的剩余计算资源(即表征F_τ信息)。

如图8所示，图8给出了iSMA算法的收敛速度，其中横坐标为算法的迭代次数，纵坐标为所有用户的平均服务时延(或计算任务的平均完成时延)。在图8中，有f_l ^e＝4GHz， D_l＝2s，用户移动速度v_i＝120km/h，以及用户的计算能力f_i ^L为250MHz或350MHz。可以看到，无论f_i ^L为250MHz或350MHz，iSMA都可以快速收敛。特别地，用户的平均服务时延在前200次迭代中下降明显，而在后续迭代中则趋于稳定。此外我们还发现，用户的计算能力对iSMA算法收敛速度的影响可以忽略不计。因此在本方案的仿真实验中，将设置算法的迭代次数为200。

将iSMA算法与五种对比算法进行比较，即SLSM算法、DLSM算法、DQN算法、DDQN 算法和无服务迁移算法，其中SLSM或DLSM算法与iSMA类似，但其基于SLSM或DLSM 模型建立潜在空间模型(参见实施例一部分的潜在空间模型部分)。

图9a和图9b给出了所有用户的平均服务时延与边缘服务器计算能力f_l ^e之间的关系图。有D_l＝2s，v_i＝120km/h以及用户的计算能力f_i ^L为250MHz(图9(a))或550MHz(图9(b))。可以看到，服务时延总是随着服务器计算能力的提高而减少，且iSMA算法性能最优，其次是SLSM、DLSM、DDQN、DQN和无服务迁移算法。特别地，与无服务迁移、DQN、DDQN、 DLSM和SLSM算法相比，iSMA算法提升了大约36％、28％、24％、21％和10％的性能增益。还发现当服务器计算能力f_l ^e由7GHz提高至10GHz时，其带来的性能增益小于f_l ^e由4GHz 提高至7GHz时所带来的性能增益。同时，当本地计算能力变强时，发现由服务器计算能力提升所带来的性能增益会变小，即与图9(a)相比，图9(b)中的服务时延的下降速度更为缓慢。这说明在分配服务器计算资源的时候，不仅应该考虑当前服务器需要处理的计算任务数量，还需要考虑本地用户的计算资源。

图10a与图10b给出了所有用户的平均服务时延与用户计算能力之间的关系图。有D_l＝2s， v_i＝120km/h以及服务器的计算能力f_l ^e为4GHz(图10(a))和10GHz(图10(b))。同样地，看到服务时延随着用户计算能力的提高而减少，且iSMA算法性能最优。特别地，与SLSM、DLSM、DDQN、DQN算法相比，iSMA算法提升了大约11％、17％、25％和35％的性能增益。这也进一步说明了本方案所提出的iSMA算法和基于RLSM模型建立潜在空间的有效性。还发现当用户计算能力f_i ^L由450MHz增加至650MHz时，其带来的性能增益小于f_i ^L由250MHz 增加至450MHz时所带来的性能增益。同时，当服务器计算能力变强时，发现由本地计算能力增加所带来的性能增益会变小，即与图10(a)相比，图10(b)中的服务时延的下降速度更为缓慢。这同样说明在分配本地计算资源的时候，不仅应该考虑本地用户当前需要处理的计算任务数量，更需要考虑边缘服务器的计算资源。

图11a和图11b给出了用户的平均服务时延与决策周期D_l之间的关系图。有f_i ^L＝350MHz， f_l ^e＝5GHz以及用户移动速度v_i为120km/h(图11(a))或20km/h(图11(b))。可以看到服务时延随着D_l的增加而增加。这是因为当决策周期增加时，服务器执行决策算法的时间间隔增加，从而服务迁移和任务卸载策略并不能及时得到更新，从而增加了服务时延，随着D_l的增加，服务时延增加的幅度在RLSM模型下最小。这进一步说明了RLSM模型相比于其他两种模型的有效性。由于用户移动速度的影响，与图11(a)相比，图11(b)中的服务时延增长速度更加缓慢。

图12给出了用户的平均服务时延与用户移动速度v_i之间的关系。在图12中，我们有 f_l ^e＝6GHz，D_l＝10s以及本地计算能力f_i ^L为250MHz(图11(a))或350MHz(图11(b))。可以看到，服务时延随着用户移动速度的增加而增加。我们还发现当用户移动速度为120km/h时， DLSM算法的性能可能优于SLSM。这是因为与SLSM模型相比，DLSM模型考虑了更多的历史信息，因此能更加准确地预测用户的移动性，从而带来性能增益。最后我们注意到，由于更弱的本地计算能力，图12(a)中服务时延的增加幅度相比于图12(b)而言更为缓慢。

综合上述仿真的结果，在移动用户访问边缘服务器上服务或应用时，通常会不断产生需要处理的计算任务。本申请联合研究了上述过程中涉及的服务迁移和计算任务卸载问题，并将其建模成部分可观测的马尔可夫决策过程(POMDP)，即每个边缘服务器只能获取网络中部分用户的信息。为了解决这个问题，本申请提出了基于深度学习的智能服务迁移算法iSMA，以实现所有用户长时间内的平均服务时延的最小化。具体而言，iSMA将首先基于深度学习建立潜在空间模型，用于推测环境未观测状态；再基于交叉熵规划算法探索最佳的服务迁移和任务卸载策略。仿真结果表明，iSMA算法远远优于现有的其他算法。

实施例二

本申请实施例二在本申请实施例一的基础上提供了一种边缘服务器的服务迁移系统，包括：

本实施例二的服务迁移系统通过搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作，在此模型中，边缘服务器作为实体自主地收集环境状态信息，并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息，因此观测状态为环境的部分状态信息；边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略，由连续动作向量构成动作空间，采用奖励来评价动作空间的动作，从而最小化网络中所有用户的服务时延，每个边缘服务器根据收到的服务请求信息自主决策，所有边缘服务器动作构成全局动作空间，获得的所有即时奖励构成全局奖励空间，最后在模型中搭建iSMA算法框架来优化每个边缘服务器的决策信息，即输出最佳的动作序列，以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低。

需要理解的是，本申请实施例二的各个模块的具体功能和说明均已在本申请实施例一的方法各个步骤中进行了详细说明，故此在本申请实施例二不再做多余的叙述。

实施例三

本申请实施例三还提供了一种边缘服务器设备，所述设备包括：处理器，以及与所述处理器耦接的存储器；所述处理器和所述处理器耦接的存储器能被虚拟化为一个及以上虚拟机；所述存储器上存储有可在所述处理器上运行的迁移程序；所述迁移程序被所述处理器执行时将实现如实施例一所述的方法中的边缘服务器所执行的步骤。

本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中，该程序在执行时，包括如下步骤：此时引出相应的方法步骤，所述的存储介质可以是 ROM/RAM、磁碟、光盘等等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种边缘服务器的服务迁移方法，其特征在于，包括如下步骤：

边缘服务器采集所服务用户的状态信息和服务请求信息；

2.根据权利要求1所述的方法，其特征在于，所述决策信息包括由服务请求信息确定的服务迁移策略、任务卸载策略和任务卸载过程中的资源分配策略。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

构建用户模型和边缘服务器模型；

4.根据权利要求1所述的方法，其特征在于，搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息，具体为：

令

令

为边缘服务器e_l在t＝τ时刻观测到的状态，其中

为边缘服务器e_l所服务的用户信息，

为边缘服务器e_l所服务用户的服务请求信息，F_τ为边缘服务器e_l所保存的网络中其他边缘服务器剩余计算资源的信息；

根据观测状态

边缘服务器e_l执行决策算法后得到动作集合

并将相应的动作发送给用户，获得新的观测状态

以及即时奖励

5.根据权利要求4所述的方法，其特征在于，基于部分可观测状态

以及之前的动作

边缘服务器e_l则决定是否将服务迁移至另一服务器以最小化所有用户的计算任务平均完成时延，从t＝0时刻至t＝∞时刻在每个边缘服务器e_l决定动作集

对优化所有用户的全局动作集，其优化的计算式如下：

P:

其中，

表示全局动作空间的全局动作集，

表示用户i的本地数据处理时间，

6.根据权利要求1所述的方法，其特征在于，在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列，具体包括：

搭建潜在空间模型推测其他用户的状态信息；

7.根据权利要求6所述的方法，其特征在于，搭建潜在空间模型推测其他用户的状态信息，包括：

8.根据权利要求6所述的方法，其特征在于，利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索，输出全局奖励最大的动作，具体步骤如下：

S110，将动作序列的分布初始化为正态分布，即

S120，根据分布函数

采样得到一个可能的动作集A_τ；

#对动作序列A_τ:τ+K进行评估；

S150，重复步骤S140共计I次，得到一组动作序列

和一组奖励

其中每个Aⁱ都是一个动作序列A_τ:τ+K；

S160，将集合

其中Q<I，即有

S170，根据均值计算式

和方差计算式

计算新集合

S180，根据更新后的分布函数

重复执行步骤S120-S170J次；

9.一种边缘服务器的服务迁移系统，其特征在于，包括：

10.一种边缘服务器设备，其特征在于，所述设备包括：处理器，以及与所述处理器耦接的存储器；所述处理器和所述处理器耦接的存储器能被虚拟化为一个及以上虚拟机；所述存储器上存储有可在所述处理器上运行的迁移程序；所述迁移程序被所述处理器执行时将实现如权利要求1至8中任一项所述的方法中的边缘服务器所执行的步骤。