CN115334076A - 一种边缘服务器的服务迁移方法、系统及边缘服务器设备 - Google Patents

一种边缘服务器的服务迁移方法、系统及边缘服务器设备 Download PDF

Info

Publication number
CN115334076A
CN115334076A CN202210800832.6A CN202210800832A CN115334076A CN 115334076 A CN115334076 A CN 115334076A CN 202210800832 A CN202210800832 A CN 202210800832A CN 115334076 A CN115334076 A CN 115334076A
Authority
CN
China
Prior art keywords
edge server
information
model
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210800832.6A
Other languages
English (en)
Inventor
李晓倩
陈思宇
陈杰男
冯钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Guangdong Electronic Information Engineering Research Institute of UESTC
Original Assignee
University of Electronic Science and Technology of China
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical University of Electronic Science and Technology of China
Priority to CN202210800832.6A priority Critical patent/CN115334076A/zh
Publication of CN115334076A publication Critical patent/CN115334076A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种边缘服务器的服务迁移方法、系统及边缘服务器设备,涉及无线通信网络领域,其技术方案要点是:边缘服务器采集所服务用户的状态信息和服务请求信息;搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。本发明降低了用户的平均服务时延。

Description

一种边缘服务器的服务迁移方法、系统及边缘服务器设备
技术领域
本发明涉及一种无线通信网络领域,更具体地说,它涉及一种边缘服务器的服务迁移方法、系统及边缘服务器设备。
背景技术
移动边缘计算(MEC)框架下的服务迁移问题在近年来受到了广泛的关注。现有技术中仅考虑了一个用户和服务器的MEC系统模型。也有考虑了多个用户和边缘服务器,但均是假设网络中所有用户的状态信息是可获取的,然而在动态网络中,获取这样的信息存在着一定的困难。边缘服务器可以很容易得到其覆盖范围内所有用户的状态信息,但隶属于其他边缘服务器的用户状态信息的获取需要巨大的控制信令开销,因此很难在实际中实现。虽然在 SDN框架下,还可以通过中心控制器获取整个网络的全局信息,但维护这样一个控制器又引入了额外开销和安全隐患。在实际场景中,更为合理的假设是一个边缘服务器只能获取其当前所服务用户的状态信息,即只能获取网络中部分用户的状态信息。再例如自动驾驶服务过程中,用户需要不断监测周围环境信息并进行相应地处理。为了更好地完成计算任务,MEC 架构下的任务卸载问题也被广泛研究。在MEC中,用户可以选择独立完成服务/应用程序中涉及的计算任务(即没有任务卸载),或卸载计算任务(部分卸载或完全卸载)至边缘服务器,利用边缘服务器的计算能力完成任务。由于边缘服务器通常比移动终端具有更强的计算能力,因此这样做的好处是可以减少任务完成时间。当给定计算任务时,任务卸载问题则需要决定是否需要卸载此任务,如何卸载此任务,以及如何分配边缘服务器的计算资源给不同的卸载任务,从而最小化计算任务的完成时间。
综上现有技术所采用的系统模型都存在着不准确或不切实际的问题,且并没有联合考虑边缘服务器服务过程中涉及的服务迁移和计算任务卸载问题,导致了用户的平均服务时延高。
发明内容
本发明为了解决现有技术的迁移方法所采用的系统模型都存在着不准确或不切实际的问题,目的是提供一种边缘服务器的服务迁移方法、系统及边缘服务器设备,本发明搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作,在此模型中,边缘服务器作为实体自主地收集环境状态信息,并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息,因此观测状态为环境的部分状态信息;边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略,由连续动作向量构成动作空间,采用奖励来评价动作空间的动作,从而最小化网络中所有用户的服务时延,每个边缘服务器根据收到的服务请求信息自主决策,所有边缘服务器动作构成全局动作空间,获得的所有即时奖励构成全局奖励空间,最后在模型中搭建iSMA算法框架来优化每个边缘服务器的决策信息,即输出最佳的动作序列,以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,本发明提供了一种边缘服务器的服务迁移方法,包括如下步骤:
边缘服务器采集所服务用户的状态信息和服务请求信息;
搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;
在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。
在一种实施方案中,所述决策信息包括由服务请求信息确定的服务迁移策略、任务卸载策略和任务卸载过程中的资源分配策略。
在一种实施方案中,所述方法还包括:
构建用户模型和边缘服务器模型;
边缘服务器模块接收用户模型发送服务请求信息执行iSMA算法以确定服务请求信息的动作,动作包括服务迁移、任务卸载和资源分配策略;其中,边缘服务器模型每隔一次决策执行一次决策算法,以更新边缘服务器收到的所有服务请求信息的动作。
在一种实施方案中,搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,具体为:
Figure RE-GDA0003827477070000021
为网络中L个边缘服务器在t=τ时刻对所有用户服务请求信息的动作,其中
Figure RE-GDA0003827477070000022
为边缘服务器el在t=τ时刻对其所收到的服务请求信息的动作;
Figure RE-GDA0003827477070000023
为边缘服务器el在t=τ时刻观测到的状态,其中
Figure RE-GDA0003827477070000024
为边缘服务器el所服务的用户信息,
Figure RE-GDA0003827477070000025
为边缘服务器el所服务用户的服务请求信息,Fτ为边缘服务器el所保存的网络中其他边缘服务器剩余计算资源的信息;
根据观测状态
Figure RE-GDA0003827477070000026
边缘服务器el执行决策算法后得到动作集合
Figure RE-GDA0003827477070000027
并将相应的动作发送给用户,获得新的观测状态
Figure RE-GDA0003827477070000028
以及即时奖励
Figure RE-GDA0003827477070000029
在一种实施方案中,基于部分可观测状态
Figure RE-GDA00038274770700000210
以及之前的动作
Figure RE-GDA00038274770700000211
边缘服务器el则决定是否将服务迁移至另一服务器以最小化所有用户的计算任务平均完成时延,从t=0时刻至 t=∞时刻在每个边缘服务器el决定动作集
Figure RE-GDA0003827477070000031
对优化所有用户的全局动作集,其优化的计算式如下:
Figure RE-GDA0003827477070000032
其中,
Figure RE-GDA0003827477070000033
表示全局动作空间的全局动作集,
Figure RE-GDA0003827477070000034
表示用户i的本地数据处理时间,
Figure RE-GDA0003827477070000035
表示用户i在服务过程中将任务卸载至边缘服务器进行处理的时间,N表示网络所有用户个数。
在一种实施方案中,在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列,具体包括:
观测边缘服务器所服务用户的状态信息,其中边缘服务器所观测的状态信息为环境的部分状态信息;
搭建潜在空间模型推测其他用户的状态信息;
利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索,输出全局奖励最大的动作。
在一种实施方案中,搭建潜在空间模型推测其他用户的状态信息,包括:
构建递归式的潜在空间模型RLSM,其中,递归式的潜在空间模型包括确定状态转移模型、随机状态转移模型、观测模型、奖励模型以及编码模型;
确定性状态转移模型的输入为历史信息,输出为当前时刻的确定性状态;其中历史信息包括历史随机状态、确定性状态和动作;
随机状态转移模型的输入为当前时刻的确定性状态,输出为随机状态的均值与方差;
观测模型的输入为随机和确定性状态信息,输出为观测状态的均值和单位对角协方差;
奖励模型的输入为随机和确定性状态信息,输出为奖励均值和单位方差;
编码模型的输入为当前时刻的确定性状态和观测状态,输出为隐藏随机状态的均值与方差。
在一种实施方案中,利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索,输出全局奖励最大的动作,具体步骤如下:
S110,将动作序列的分布初始化为正态分布,即
Figure RE-GDA0003827477070000036
S120,根据分布函数
Figure RE-GDA0003827477070000037
采样得到一个可能的动作集Aτ
S130,根据观测状态oτ、动作集Aτ以及RLSM模型,推测出隐藏状态和奖励rτ,隐藏状态即为未观测状态;
S140,重复步骤S120-S130共计K次,得到从t=τ时刻至t=τ+K时刻的动作序列Aτ:τ+K和相应的奖励序列rτ:τ+K,基于奖励
Figure RE-GDA0003827477070000041
对动作序列Aτ:τ+K进行评估;
S150,重复步骤S140共计I次,得到一组动作序列
Figure RE-GDA0003827477070000042
和一组奖励
Figure RE-GDA0003827477070000043
其中每个 Ai都是一个动作序列Aτ:τ+K
S160,将集合
Figure RE-GDA0003827477070000044
根据奖励Ri排序,其中奖励最大的排在第一位,根据排序结果,将前Q个动作序列形成一个新集合
Figure RE-GDA0003827477070000045
其中Q<I,即有
Figure RE-GDA0003827477070000046
S170,根据均值计算式
Figure RE-GDA0003827477070000047
和方差计算式
Figure RE-GDA0003827477070000048
计算新集合
Figure RE-GDA0003827477070000049
的均值与方差,并根据新集合计算得到的新的均值与方差更新动作序列的分布函数,即有
Figure RE-GDA00038274770700000410
S180,根据更新后的分布函数
Figure RE-GDA00038274770700000411
重复执行步骤S120-S170 J次;
S190,将最后一次由均值计算式计算得到的均值选为最佳动作序列,并将最佳动作序列作为iSMA算法的输出。
第二方面,本发明提供了一种边缘服务器的服务迁移系统,包括:
信息采集模块,用于边缘服务器采集所服务用户的状态信息和服务请求信息;
模型搭建模块,用于搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;
动作优化模块,用于在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。
第三方面,本发明提供了一种边缘服务器设备,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述处理器和所述处理器耦接的存储器能被虚拟化为一个及以上虚拟机;所述存储器上存储有可在所述处理器上运行的迁移程序;所述迁移程序被所述处理器执行时将实现如第一方面所述的方法中的边缘服务器所执行的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作,在此模型中,边缘服务器作为实体自主地收集环境状态信息,并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息,因此观测状态为环境的部分状态信息;边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略,由连续动作向量构成动作空间,采用奖励来评价动作空间的动作,从而最小化网络中所有用户的服务时延,每个边缘服务器根据收到的服务请求信息自主决策,所有边缘服务器动作构成全局动作空间,获得的所有即时奖励构成全局奖励空间,最后在模型中搭建iSMA算法框架来优化每个边缘服务器的决策信息,即输出最佳的动作序列,以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明实施例一提供的一种边缘服务器的服务迁移方法的流程示意图;
图2为本发明一实施例提供的用户访问边缘服务器的服务迁移过程示意图;
图3为本发明一实施例提供的iSMA算法的框架示意图;
图4为本发明一实施例提供的随机状态转移模型图;
图5为本发明一实施例提供的确定状态转移模型图;
图6为本发明一实施例提供的循环状态转移模型图;
图7为本发明一实施例提供的iSMA算法的具体流程图;
图8为本发明一实施例提供的iSMA算法的收敛速度图;
图9a为本发明一实施例提供的所有用户的平均服务时延与边缘服务器计算能力(本地计算能力为250MHz)的性能关系图;
图9b为本发明一实施例提供的所有用户的平均服务时延与边缘服务器计算能力(本地计算能力为550MHz)的性能关系图;
图10a为本发明一实施例提供的所有用户的平均服务时延与本地计算能力(边缘服务器计算能力为4GHz)的性能关系图;
图10b为本发明一实施例提供的所有用户的平均服务时延与本地计算能力(边缘服务器计算能力为10GHz)的性能关系图;
图11a为本发明一实施例提供的所有用户(用户的移动速度为120km/h)的平均服务时延与决策周期之间的关系图;
图11b为本发明一实施例提供的所有用户(用户的移动速度为20km/h)的平均服务时延与决策周期之间的关系图;
图12a为本发明一实施例提供的所有用户的平均服务时延与用户移动速度(本地计算能力为250MHz)的关系图;
图12b为本发明一实施例提供的所有用户的平均服务时延与用户移动速度(本地计算能力为350MHz)的关系图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例一
如图1所示,本申请实施例提供了一种边缘服务器的服务迁移方法,包括如下步骤:
边缘服务器采集所服务用户的状态信息和服务请求信息;
本实施例中,每个边缘服务器除了采集其目前所服务用户的状态信息、服务请求信息,还采集其他边缘服务器的剩余计算资源信息,每个边缘服务器针对其收到的服务请求信息,周期性地进行自主决策。
搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;
具体的,搭建部分可观测马尔可夫决策(POMDP)模型以输出每个服务请求的动作。在此模型中,边缘服务器作为实体自主地收集环境状态信息,并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息,因此观测状态为环境的部分状态信息。模型中的编码模块用于推测边缘服务器的未观测状态;
在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。
具体的,如图3所示,为iSMA算法的框架,它由两个部分组成:潜在空间模型和交叉熵规划算法,观测状态将会首先输入至交叉熵规划算法中。基于观测状态,交叉熵规划算法将会输出使回报函数最大化的动作序列Aτ:τ+K,其中Aτ:τ+K为从t=τ时刻至t=τ+K时刻得到的动作。特别地,在交叉熵规划算法中,动作序列的分布将会被初始化为均值为0,方差为1的高斯分布。基于此高斯分布,iSMA将会采样一系列动作序列,并基于潜在空间模型评估其性能,选择最优的动作序列以更新高斯分布的均值与方差。上述过程重复一段时间后,最后得到最大奖励rτ的动作序列则作为最佳动作序列。最佳动作序列中当前时刻的动作集Aτ则将作为iSMA的输出,服务器el也会将决策信息发送给相应的用户。之后,集合oτ,Aτ和rτ将会被加入训练集用于训练潜在空间模型。边缘服务器el每次执行算法iSMA时都会重复上述过程直至边缘服务器el中再没有任何服务请求信息。
综上,本实施例的服务迁移方法,通过搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作,在此模型中,边缘服务器作为实体自主地收集环境状态信息,并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息,因此观测状态为环境的部分状态信息;边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略,由连续动作向量构成动作空间,采用奖励来评价动作空间的动作,从而最小化网络中所有用户的服务时延,每个边缘服务器根据收到的服务请求信息自主决策,所有边缘服务器动作构成全局动作空间,获得的所有即时奖励构成全局奖励空间,最后在模型中搭建 iSMA算法框架来优化每个边缘服务器的决策信息,即输出最佳的动作序列,以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低,从而解决现有技术中对于服务迁移算法所采用的系统模型都存在着不准确或不切实际的问题,且并没有联合考虑边缘服务器服务过程中涉及的服务迁移和计算任务卸载问题,导致了用户的平均服务时延高的问题。
在一种实现方案中,所述决策信息包括由服务请求信息确定的服务迁移策略、任务卸载策略和任务卸载过程中的资源分配策略。
在一种实现方案中,所述方法还包括:
构建用户模型和边缘服务器模型;
边缘服务器模块接收用户模型发送服务请求信息执行iSMA算法以确定服务请求信息的动作,动作包括服务迁移、任务卸载和资源分配策略;其中,边缘服务器模型每隔一次决策执行一次决策算法,以更新边缘服务器收到的所有服务请求信息的动作。
具体的,对于用户模型:令ui为网络中第i个(i=1,…,N)用户,bj为用户ui相关联的基站。考虑用户持续访问部署于边缘服务器上应用/服务的场景(如自动驾驶),并在此过程中不断产生需要处理的数据(如自动驾驶过程需要不断检测环境信息并进行相应的处理),考虑可以将此过程中产生的所有数据分成有限数量的计算任务,并令ci为用户ui生成的计算任务的工作量(或数据量)大小。在用户ui访问其目前所关联边缘服务器上应用/服务的过程中,假设当用户产生的数据量(或计算工作量)达到ci时,ui将会生成相应的服务请求信息,并将其发送给相应的边缘服务器。而边缘服务器收到请求后,将会决定此请求的服务迁移和任务卸载策略,即决定是否需要将此服务迁移至更近的边缘服务器,以及如何卸载此请求所对应的计算任务。
令Ti(τ)表示为t=τ时刻时来自于用户ui的服务请求信息。由于服务请求信息是根据数据量ci生成的,因此当用户目前产生的数据量不足ci时,有Ti(τ)=NULL;否则
Figure RE-GDA0003827477070000081
Figure RE-GDA0003827477070000082
其中fi L为用户ui的计算能力(即CPU频率或CPU时钟速度),fi r为完成此计算任务所需要的CPU周期,gi为当前时刻ui与基站之间的信道增益,而
Figure RE-GDA0003827477070000083
为完成此计算任务所允许的最大时延。用CPU周期数来度量完成计算任务所需要的时间。基于收到的 Ti(τ),边缘服务器则可以周期性地更新其当前所服务用户的状态信息(包括用户的计算能力,用户与基站之间的信道增益等),并且可以计算出完成此计算任务所需时间。
对于边缘服务器模型:令el为网络中第l个(l=1,…,L)边缘服务器。边缘服务器el将为每个部署的应用/服务分配一个虚拟机(VM),考虑在同一个应用/服务过程中产生的所有计算任务需要在同一个虚拟机中进行处理,这是因为后续计算任务可能需要之前任务的处理结果和相关配置信息。因此当产生服务迁移时,原边缘服务器还需要将虚拟机中的相关文档传输至目的服务器的虚拟机中。上述过程中产生的时延即为服务迁移时延,它由两个边缘服务器之间的距离以及需要传输的文件大小决定。
假设边缘服务器el将会周期性向其他边缘服务器广播其目前可用的计算资源,从而其他边缘服务器可以决定是否将服务(以及相应的计算任务)迁移至服务器el。当el第一次收到用户ui的服务请求Ti(τ)时,它将会立即执行决策算法(即本申请实施例提出的iSMA算法)以确定此请求的动作,即服务迁移和计算任务卸载策略。除此之外,边缘服务器el还会每隔Dl时隙执行一次决策算法,更新其目前收到的所有服务请求的动作,其中Dl为边缘服务器el的决策周期,显然Dl的值决定了边缘服务器el决策信息的更新频率。本方案的决策算法将会针对每个输入的服务请求输出一个动作(即服务迁移和计算任务卸载策略)。令ai为用户ui服务请求所对应的动作。特别地,有ai={ai(IP),ai(η),ai(fe)},其中ai(IP)为服务于用户ui的边缘服务器,ai(η)∈[0,1]表征了此服务请求的卸载策略,ai(fe)则表征了边缘服务器分配给此计算任务的计算资源。特别地,如果ai(IP)是当前的边缘服务器,则说明没有服务迁移;否则,用户ui的服务请求以及相应的计算任务将会被迁移至另一个边缘服务器。同时,ai(η)的值决定了此服务请求所对应的计算任务的卸载策略,ai(η)=0则表明没有任务卸载,即此计算任务将由用户自己完成;ai(η)=1则表明完全卸载,即用户需要将此任务中需要处理的所有数据传输至相应的服务器;而0<ai(η)<1则表明部分卸载。由于任意卸载计算任务不切实际,因此考虑ai(η)只能从集合{0,0.1,0.2,…,0.9,1}中取值。
下面介绍用户与边缘服务器之间的服务迁移过程:
每个用户ui都保存着自己当前所关联的边缘服务器(即当前为自己服务的边缘服务器)。每个边缘服务器el则保存着自己当前服务的所有用户集合
Figure RE-GDA0003827477070000091
目前收到的所有服务请求集合
Figure RE-GDA0003827477070000092
以及其他边缘服务器当前的剩余计算资源Fτ,即有
Figure RE-GDA0003827477070000093
Figure RE-GDA0003827477070000094
请参考图2,图2展示了用户u1从开始访问边缘服务器上的应用(或服务)到结束访问的全过程,即展示了用户从生成第一个服务请求至最后一个服务请求的全过程。为了简单起见,图2并未显示未参与到此过程中的其他用户和边缘服务器。假设u1从τ=0时刻开始访问边缘服务器e1上的应用。在此过程中,由于不断生成数据需要处理,因此u1将会陆续产生计算任务。由于每个计算任务的工作量都为c1,因此假设用户u1将会每隔3个时隙产生一个计算任务。也即是说,如果服务请求T1(τ)在τ=3时刻生成,那么后续的服务请求T1(τ)将陆续在τ=6,9,12,…时刻生成。
决策算法将会输出用户u1服务请求的动作a1={a1(IP),a1(η),a1(fe)}。如图2所示,此时得到的a1(IP)仍是边缘服务器e1,也即是说没有服务迁移,仍将由边缘服务器e1处理用户u1的后续服务请求信息。边缘服务器e1则将任务卸载策略a1(η)发送给用户u1。当用户u1收到后,需要将此次计算任务中需要处理的数据分成两部分:一部分(由比例a1(η)决定)传输至边缘服务器e1进行任务卸载,另一部分(1-a1(η))在本地进行处理。同时,边缘服务器e1将分配一定比例(即a1(fe))的剩余计算资源完成此次计算任务卸载。当边缘服务器e1处理完此次 a1(η)比例的数据,并将此处理结果传输至u1,同时u1处理完剩余1-a1(η)比例的数据时,认为第一个服务请求T1(3)的处理完成,如图2所示。
除了收到第一个服务请求信息时,需要立即执行决策算法,每个边缘服务器el还需每隔Dl时隙更新其目前所有收到的服务请求信息的动作。在图2中,有D1=8,即e1将每隔8时隙执行一次决策算法。因此当用户u1在τ=6时刻没有收到新的决策动作(因为边缘服务器e1还并未执行下一次决策算法)时,u1将会选择与上一个服务请求信息T1(3)相同的服务迁移和任务卸载策略,以处理此次的服务请求T1(6)。当u1在τ=6时刻上传a1(η)比例的数据至e1进行处理时,可以附上T1(6)的信息,使e1有能力更新用户u1的状态信息。可以看到,在本方案中,用户只用发送第一次服务请求信息。由于后续的服务请求信息与第一次的工作量相同,因此并不需要再发送至边缘服务器。用户只需等待边缘服务器决策信息的更新即可,若未收到更新信息,则将采用上一个收到的决策信息处理新生成的计算任务。
当e1在τ=8时刻再次执行决策算法后,如图2所示,得到了新的任务卸载策略。e1将新的a1(η)传输至u1后,u1的第3、4、5个服务请求(在τ=9、12、15)则将采用此a1(η)完成任务卸载。当决策算法在τ=16时刻再次被执行时,边缘服务器e1发现得到的a1(IP)不再是自身,即存在着服务迁移。如图2所示,边缘服务器e2将被用来处理u1的后续服务请求信息和计算任务卸载。e1将此信息发送给e2,包括用户u1的状态信息、服务请求信息和处理u1计算任务虚拟机(VM)中的相关文档。同时,e1将边缘服务器e2的地址以及新的a1(η)值发送给用户u1。收到此消息后,u1将相应地更新其关联的边缘服务器以及任务卸载策略(即新a1(η)) 以便于处理后续计算任务。
在τ=30时刻,用户u1意识到这是它此次访问服务/应用过程中产生的最后一个计算任务。因此当u1上传a1(η)比例的数据至边缘服务器e2进行处理时,它将表明这是最后一个计算任务。当e2处理完此a1(η)比例的数据,并将处理结果传输至u1后,用户u1以及T1(τ)的信息将会从集合
Figure RE-GDA0003827477070000101
Figure RE-GDA0003827477070000102
中删除。上述过程便是用户u1访问边缘服务器上应用(或服务)的全过程。
在一种实现方案中,搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,具体为:
Figure RE-GDA0003827477070000103
为网络中L个边缘服务器在t=τ时刻对所有用户服务请求信息的动作,其中
Figure RE-GDA0003827477070000104
为边缘服务器el在t=τ时刻对其所收到的服务请求信息的动作;
Figure RE-GDA0003827477070000105
为边缘服务器el在t=τ时刻观测到的状态,其中
Figure RE-GDA0003827477070000106
为边缘服务器el所服务的用户信息,
Figure RE-GDA0003827477070000107
为边缘服务器el所服务用户的服务请求信息,Fτ为边缘服务器el所保存的网络中其他边缘服务器剩余计算资源的信息;
根据观测状态
Figure RE-GDA0003827477070000108
边缘服务器el执行决策算法后得到动作集合
Figure RE-GDA0003827477070000109
并将相应的动作发送给用户,获得新的观测状态
Figure RE-GDA00038274770700001010
以及即时奖励
Figure RE-GDA00038274770700001011
具体的,从图2可以看出,用户在访问边缘服务器上的应用(服务)的过程中,将会周期性地产生多个计算任务,而每个计算任务的完成时间主要由本地数据(1-a1(η)部分数据) 处理时间、数据(a1(η)部分数据)上传时间、服务器端数据处理(a1(η)部分数据)时间以及服务迁移时间组成,即从源服务器虚拟机传输相关文件至目的服务器虚拟机所需时间。由于控制信息大小较小,因此忽略了用户发送第一个服务请求,以及服务器返回新ai(η)所需时间。
故此用户ui的本地数据处理时间为
Figure RE-GDA00038274770700001012
其中fi L为用户ui的计算能力,即CPU时钟频率,而fi r则是完成计算任务所需要的CPU 周期数。
而a1(η)部分数据的上传时间可分为两部分,即从用户ui到其基站bj的无线传输时间和从bj到边缘服务器el的传输时间。给定ui与bj之间的信道增益gi以及用户ui的传输功率pi,则可以得到ui到bj的无线传输速率为:
Figure RE-GDA0003827477070000111
其中B为信道带宽,N0为噪声功率。由式(2)可得无线传输时间为:
Figure RE-GDA0003827477070000112
其中ciai(η)为上传数据的大小。
基站bj至边缘服务器el的传输时间由边缘服务器之间的拓扑结构和传输速率决定。假设由基站bj至边缘服务器el的平均传输速率为Rj,l,则bj至el的传输时间为:
Figure RE-GDA0003827477070000113
其中dj,l是由bj至el最短路径上的跳数。例如在图1中我们有d1,3=3。假设网络负载不大,因此忽略了路由器的排队时延。
在服务器el处的数据处理时间为:
Figure RE-GDA0003827477070000114
其中fl e是服务器el的计算能力,而ai(fe)则是el分配给此计算任务的计算资源比例。最后,当服务由边缘服务器el迁移至el′时,其服务迁移时间将由虚拟机中的需要传输的文件大小、网络拓扑结构和传输速率决定。特别地,虚拟机中需要传输的文件大小应与其处理的数据大小成比例关系,即为αciai(η)。基于此,服务迁移时间为:
Figure RE-GDA0003827477070000115
其中Rl,l′和dl,l′分别表征了服务器el至el′的平均传输速率和跳数。根据式(1)-(6)则可以得到每个计算任务的完成时间为:
Figure RE-GDA0003827477070000116
在式(7)中,如果计算任务是由el完成且不存在服务迁移,则有
Figure RE-GDA0003827477070000117
而如果计算任务将由el′完成且存在服务迁移(由el迁移而来),则有
Figure RE-GDA0003827477070000118
在ti不超过给定的任务完成最大时延
Figure RE-GDA0003827477070000119
的条件下,如何设计智能高效的决策算法从而最小化所有用户的计算任务平均完成时延是本方案需要解决的问题。
将每个服务器端的决策过程建模成一个部分可观测的马尔可夫决策过程(POMDP)。令
Figure RE-GDA0003827477070000121
为网络中L个边缘服务器在t=τ时刻对所有用户服务请求信息的动作,其中
Figure RE-GDA0003827477070000122
为边缘服务器el在t=τ时刻对其所收到的服务请求信息的动作。令
Figure RE-GDA0003827477070000123
为el在t=τ时刻观测到的状态,其中
Figure RE-GDA0003827477070000124
为el所服务的用户信息,
Figure RE-GDA0003827477070000125
为el所服务用户的服务请求信息,Fτ为el所保存的网络中其他边缘服务器剩余计算资源的信息。根据观测状态
Figure RE-GDA0003827477070000126
边缘服务器el执行决策算法后得到动作集合
Figure RE-GDA0003827477070000127
并将相应的动作发送给用户,从而得到新的状态
Figure RE-GDA0003827477070000128
以及奖励
Figure RE-GDA0003827477070000129
但观测状态
Figure RE-GDA00038274770700001210
只是整个网络状态的一部分,即其他不被el所服务的用户状态信息和服务请求信息对边缘服务器el而言是不可观测的,因此上述过程为部分可观测的马尔可夫决策过程。特别地,上述POMDP的数学建模如下所示:
状态模型:
Figure RE-GDA00038274770700001211
观测模型:
Figure RE-GDA00038274770700001212
奖励模型:
Figure RE-GDA00038274770700001213
动作模型:
Figure RE-GDA00038274770700001214
编码模型:
Figure RE-GDA00038274770700001215
其中
Figure RE-GDA00038274770700001216
为服务器el在t=τ时刻的未观测状态(或隐藏状态)。基于部分可观测状态
Figure RE-GDA00038274770700001217
以及之前的动作
Figure RE-GDA00038274770700001218
边缘服务器el则决定是否将服务迁移至另一边缘服务器以最小化所有用户的计算任务平均完成时延。
在一种实现方案中,基于部分可观测状态
Figure RE-GDA00038274770700001219
以及之前的动作
Figure RE-GDA00038274770700001220
边缘服务器el则决定是否将服务迁移至另一服务器以最小化所有用户的计算任务平均完成时延,从t=0时刻至 t=∞时刻在每个边缘服务器el决定动作集
Figure RE-GDA00038274770700001221
对优化所有用户的全局动作集,其优化的计算式如下:
Figure RE-GDA00038274770700001222
其中,
Figure RE-GDA00038274770700001223
表示全局动作空间的全局动作集,
Figure RE-GDA00038274770700001224
表示用户i的本地数据处理时间,
Figure RE-GDA00038274770700001225
表示用户i在服务过程中将任务卸载至边缘服务器进行处理的时间,N表示网络所有用户个数。
具体的,对所有用户的全局动作进行优化建立目标函数函数的计算式为
Figure RE-GDA00038274770700001226
基于此目标函数在仅有部分状态可观测的前提下,设计决策算法iSMA探索全局最优的服务迁移和计算任务卸载策略。
在一种实现方案中,在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列,具体包括:
观测边缘服务器所服务用户的状态信息,其中边缘服务器所观测的状态信息为环境的部分状态信息;
搭建潜在空间模型推测其他用户的状态信息;
利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索,输出全局奖励最大的动作。
具体的,iSMA算法流程包括:1)搭建潜在空间模型用于推测其他用户状态信息;2)根据观测状态和推测状态,利用交叉熵规划算法输出全局奖励最大的动作。
本方案旨在设计智能服务迁移算法(intelligent service migrationalgorithm,iSMA),在仅有部分状态可观测的前提下探索全局最优的服务迁移和计算任务卸载策略。特别地,每个边缘服务器将会周期性地执行iSMA算法以决策或更新其目前收到的所有服务请求信息所对应的动作,从而最小化所有用户的计算任务平均完成时延。iSMA算法的框架如图3所示。它由两个模块组成,即潜在空间模型和交叉熵规划算法。由于每个边缘服务器只能观测到部分用户的状态信息和服务请求信息,因此潜在空间模型用于推断网络的隐藏状态,即其他未观测到用户的状态信息和服务请求信息。基于隐藏和观测状态,交叉熵规划算法则是为了搜索出使奖励最大化的动作序列。以边缘服务器el为例,下面将给出iSMA算法的详细过程。为了方便表述,在之后的表述过程中我们将把el处的观测状态
Figure RE-GDA0003827477070000131
动作集合
Figure RE-GDA0003827477070000132
和隐藏状态
Figure RE-GDA0003827477070000133
分别简化为oτ,Aτ和sτ
在一种实现方案中,搭建潜在空间模型推测其他用户的状态信息,包括:
构建递归式的潜在空间模型RLSM,其中,递归式的潜在空间模型包括确定状态转移模型、随机状态转移模型、观测模型、奖励模型以及编码模型;
确定性状态转移模型的输入为历史信息,输出为当前时刻的确定性状态;其中历史信息包括历史随机状态、确定性状态和动作;
随机状态转移模型的输入为当前时刻的确定性状态,输出为随机状态的均值与方差;
观测模型的输入为随机和确定性状态信息,输出为观测状态的均值和单位对角协方差;
奖励模型的输入为随机和确定性状态信息,输出为奖励均值和单位方差;
编码模型的输入为当前时刻的确定性状态和观测状态,输出为隐藏随机状态的均值与方差。
具体的,确定状态转移模型、随机状态转移模型、观测模型、奖励模型以及编码模型均是由全连接神经网络构成。
本实施例中将详细介绍iSMA算法中的潜在空间模型,如图3所示,潜在空间模型是用来推断隐藏状态sτ和奖励值rτ。在本实施例中,潜在空间模型由四个模块组成,即状态转移模块、观测模块、奖励模块和编码模块,其中观测模块用于模型训练。一般而言,有三种方法建立状态转移模块,包括随机转移、确定性转移和循环转移。
当采用随机转移方法建立状态转移模块时,隐藏状态sv将会被建模为高斯变量,即
Figure RE-GDA0003827477070000141
其中Hlatent
Figure RE-GDA0003827477070000142
分别为隐藏状态的维度、均值向量和协方差。如图4所示,在此模型下sτ将完全由上一个状态sτ-1和动作Aτ-1决定。可以看到,由于状态转移的随机性,随机状态转移模型虽然可以探索到很多环境特征,但历史信息利用不充分(因为下一个状态仅由上一个状态和动作决定)。
如图5所示,图5给出了确定性状态转移模型,其中隐藏状态表示为一个确定的状态hτ。在确定性转移模型中,hτ为上一个状态hτ-1和动作Aτ-1的函数,也即是说hτ将由之前所有的状态h和动作A决定。特别地,考虑hτ的值将基于长短期记忆网络获得。可以看到,相比于随机状态转移模型,确定性状态转移模型利用了更多的历史信息,但是也失去了探索环境更多特征的机会。
由于MEC环境中用户的动态性和用户状态的复杂性,很难仅基于历史信息或随机探索等方式推测出全局状态信息。因此,本方案采用循环状态转移方式建立潜在空间的状态转移模型。如图6所示,在循环状态转移模型中,随机状态转移和确定性状态转移将会被同时考虑,以实现历史信息与环境探索信息的折中。基于此循环状态转移模型,本方案将建立一个递归式的潜在空间模型(recurrent latent space model,,RLSM),如下所示:
确定状态转移模型:hτ=f(hτ-1,sτ-1,Aτ-1);
随机状态转移模型:sτ~p(sτ|hτ);
观测模型:oτ~p(oτ|hτ,sτ);
奖励模型:rτ~p(rτ|hτ,sτ);
编码模型:sτ~q(sτ|hτ,oτ)。
在RLSM中,隐藏状态由两部分组成,确定性状态hτ和随机状态sτ,其中sτ是高斯变量,而hτ由LSTM网络决定。RLSM中的随机状态转移模型是一个以当前时刻的确定性状态hτ作为输入,而输出随机状态的均值与方差向量的全连接神经网络。而观测模型则是一个以随机和确定性状态信息作为输入,而输出观测状态均值和单位对角协方差的全连接神经网络。奖励模型同样是一个全连接神经网络,其输出奖励均值和单位方差。而编码模型则是一个以当前时刻的确定性状态和观测状态作为输入,而输出隐藏随机状态的均值与方差的全连接神经网络。
在仿真实验中,我们还分别实现了基于随机状态转移和确定性状态转移的潜在空间模型(命名为SLSM和DLSM),以验证本方案RLSM的性能。在设计SLSM、DLSM和RLSM 时,我们有相同的目标函数。具体而言,以动作序列A1:K作为输入,我们的目标是同时最大化观测状态和奖励的对数似然函数,如下式所示。
θ=argminθ.-(In p(o1:K|A1:K)+In p(r1:K|A1:K))#(9)#
其中In p(o1:K|A1:K)为观测状态的对数似然函数,In p(r1:K|A1:K)为奖励的对数似然函数。
在一种实现方案中,利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索,输出全局奖励最大的动作,具体步骤如下:
S110,将动作序列的分布初始化为正态分布,即
Figure RE-GDA00038274770700001512
S120,根据分布函数
Figure RE-GDA00038274770700001513
采样得到一个可能的动作集Aτ
S130,根据观测状态oτ、动作集Aτ以及RLSM模型,推测出隐藏状态和奖励rτ,隐藏状态即为未观测状态;
S140,重复步骤S120-S130共计K次,得到从t=τ时刻至t=τ+K时刻的动作序列Aτ:τ+K和相应的奖励序列rτ:τ+K,基于奖励
Figure RE-GDA0003827477070000151
对动作序列Aτ:τ+K进行评估;
S150,重复步骤S140共计I次,得到一组动作序列
Figure RE-GDA0003827477070000152
和一组奖励
Figure RE-GDA0003827477070000153
其中每个 Ai都是一个动作序列Aτ:τ+K
S160,将集合
Figure RE-GDA0003827477070000154
根据奖励Ri排序,其中奖励最大的排在第一位,根据排序结果,将前Q个动作序列形成一个新集合
Figure RE-GDA0003827477070000155
其中Q<I,即有
Figure RE-GDA0003827477070000156
S170,根据均值计算式
Figure RE-GDA0003827477070000157
和方差计算式
Figure RE-GDA0003827477070000158
计算新集合
Figure RE-GDA0003827477070000159
的均值与方差,并根据新集合计算得到的新的均值与方差更新动作序列的分布函数,即有
Figure RE-GDA00038274770700001510
S180,根据更新后的分布函数
Figure RE-GDA00038274770700001511
重复执行步骤S120-S170 J次;
S190,将最后一次由均值计算式计算得到的均值选为最佳动作序列,并将最佳动作序列作为iSMA算法的输出。
具体的,如前所述,iSMA由两个功能模块组成,即潜在空间模型RLSM和交叉熵规划算法。交叉熵规划算法是用来探索动作序列,更新动作序列的均值和方差,以及输出奖励最大的动作序列,其中奖励模型如RLSM所示。iSMA算法的详细过程如图7所示,具体而言,iSMA算法以观测状态oτ作为输入,动作集Aτ作为输出,其包含了本实施例中步骤S110-S190共计9个步骤,通过以上步骤,得到iSMA算法的计算复杂度为O(IJK·(Te+Ts+Td+Tr)),其中Te,Ts,Td和Tr分别为RLSM里面编码模型、随机状态转移模型、确定状态转移模型和奖励模型的复杂度。如前所述,RLSM中的5个模型要么是LSTM网络要么是全连通神经网络,因此每个模型的计算复杂度与输入维度、神经网络所用层数和cell个数决定。
为了证明本发明所提的服务迁移方法优于现有技术中其他方法,通过仿真实验的具体结果来表明,仿真如下:
首先搭建仿真实验过程中的MEC环境,由L=6台边缘服务器和N=40个移动用户组成的 MEC系统,其中每台边缘服务器附近都有一个蜂窝基站。每个基站的覆盖半径为1公里。用户的移动速度在20km/h至120km/h范围内变化,用户的CPU时钟频率在250MHz到650MHz 范围内变化,而边缘服务器的CPU时钟频率在4GHz到10GHz范围内变化。每个时隙的持续时间设置为1ms。每个用户将随机选择一个时隙生成其第一个计算任务(或服务请求信息)。当第一个计算任务生成后,后续的计算任务将会周期性地产生,其产生计算任务的周期将在 [50ms,200ms]范围内取值。每个计算任务中需要处理的数据大小以及完成计算任务所需要的 CPU周期数将分别在[300KB,1200KB]和[0.1·109,109]范围内取值。边缘服务器el的决策周期 Dl将在2s至12s范围内变化。
设置iSMA算法中的I=1000,J=200,K=10和Q=100。RLSM中的确定状态转移模型基于LSTM网络实现,其中cell个数为
Figure RE-GDA0003827477070000161
记忆状态hτ的维度为
Figure RE-GDA0003827477070000162
我们将使用一个大小为N+5N+L=246的一维向量表征边缘服务器el的观测状态
Figure RE-GDA0003827477070000163
其中前N个元素用来表征用户ui是否正在被el服务(即表征
Figure RE-GDA0003827477070000164
信息),中间的5N个元素用来表征用户ui的服务请求信息Tτ(i)(注意每个服务请求信息将包含5部分信息),而最后L个元素则用来表征所有边缘服务器的剩余计算资源(即表征Fτ信息)。
如图8所示,图8给出了iSMA算法的收敛速度,其中横坐标为算法的迭代次数,纵坐标为所有用户的平均服务时延(或计算任务的平均完成时延)。在图8中,有fl e=4GHz, Dl=2s,用户移动速度vi=120km/h,以及用户的计算能力fi L为250MHz或350MHz。可以看到,无论fi L为250MHz或350MHz,iSMA都可以快速收敛。特别地,用户的平均服务时延在前200次迭代中下降明显,而在后续迭代中则趋于稳定。此外我们还发现,用户的计算能力对iSMA算法收敛速度的影响可以忽略不计。因此在本方案的仿真实验中,将设置算法的迭代次数为200。
将iSMA算法与五种对比算法进行比较,即SLSM算法、DLSM算法、DQN算法、DDQN 算法和无服务迁移算法,其中SLSM或DLSM算法与iSMA类似,但其基于SLSM或DLSM 模型建立潜在空间模型(参见实施例一部分的潜在空间模型部分)。
图9a和图9b给出了所有用户的平均服务时延与边缘服务器计算能力fl e之间的关系图。有Dl=2s,vi=120km/h以及用户的计算能力fi L为250MHz(图9(a))或550MHz(图9(b))。可以看到,服务时延总是随着服务器计算能力的提高而减少,且iSMA算法性能最优,其次是SLSM、DLSM、DDQN、DQN和无服务迁移算法。特别地,与无服务迁移、DQN、DDQN、 DLSM和SLSM算法相比,iSMA算法提升了大约36%、28%、24%、21%和10%的性能增益。还发现当服务器计算能力fl e由7GHz提高至10GHz时,其带来的性能增益小于fl e由4GHz 提高至7GHz时所带来的性能增益。同时,当本地计算能力变强时,发现由服务器计算能力提升所带来的性能增益会变小,即与图9(a)相比,图9(b)中的服务时延的下降速度更为缓慢。这说明在分配服务器计算资源的时候,不仅应该考虑当前服务器需要处理的计算任务数量,还需要考虑本地用户的计算资源。
图10a与图10b给出了所有用户的平均服务时延与用户计算能力之间的关系图。有Dl=2s, vi=120km/h以及服务器的计算能力fl e为4GHz(图10(a))和10GHz(图10(b))。同样地,看到服务时延随着用户计算能力的提高而减少,且iSMA算法性能最优。特别地,与SLSM、DLSM、DDQN、DQN算法相比,iSMA算法提升了大约11%、17%、25%和35%的性能增益。这也进一步说明了本方案所提出的iSMA算法和基于RLSM模型建立潜在空间的有效性。还发现当用户计算能力fi L由450MHz增加至650MHz时,其带来的性能增益小于fi L由250MHz 增加至450MHz时所带来的性能增益。同时,当服务器计算能力变强时,发现由本地计算能力增加所带来的性能增益会变小,即与图10(a)相比,图10(b)中的服务时延的下降速度更为缓慢。这同样说明在分配本地计算资源的时候,不仅应该考虑本地用户当前需要处理的计算任务数量,更需要考虑边缘服务器的计算资源。
图11a和图11b给出了用户的平均服务时延与决策周期Dl之间的关系图。有fi L=350MHz, fl e=5GHz以及用户移动速度vi为120km/h(图11(a))或20km/h(图11(b))。可以看到服务时延随着Dl的增加而增加。这是因为当决策周期增加时,服务器执行决策算法的时间间隔增加,从而服务迁移和任务卸载策略并不能及时得到更新,从而增加了服务时延,随着Dl的增加,服务时延增加的幅度在RLSM模型下最小。这进一步说明了RLSM模型相比于其他两种模型的有效性。由于用户移动速度的影响,与图11(a)相比,图11(b)中的服务时延增长速度更加缓慢。
图12给出了用户的平均服务时延与用户移动速度vi之间的关系。在图12中,我们有 fl e=6GHz,Dl=10s以及本地计算能力fi L为250MHz(图11(a))或350MHz(图11(b))。可以看到,服务时延随着用户移动速度的增加而增加。我们还发现当用户移动速度为120km/h时, DLSM算法的性能可能优于SLSM。这是因为与SLSM模型相比,DLSM模型考虑了更多的历史信息,因此能更加准确地预测用户的移动性,从而带来性能增益。最后我们注意到,由于更弱的本地计算能力,图12(a)中服务时延的增加幅度相比于图12(b)而言更为缓慢。
综合上述仿真的结果,在移动用户访问边缘服务器上服务或应用时,通常会不断产生需要处理的计算任务。本申请联合研究了上述过程中涉及的服务迁移和计算任务卸载问题,并将其建模成部分可观测的马尔可夫决策过程(POMDP),即每个边缘服务器只能获取网络中部分用户的信息。为了解决这个问题,本申请提出了基于深度学习的智能服务迁移算法iSMA,以实现所有用户长时间内的平均服务时延的最小化。具体而言,iSMA将首先基于深度学习建立潜在空间模型,用于推测环境未观测状态;再基于交叉熵规划算法探索最佳的服务迁移和任务卸载策略。仿真结果表明,iSMA算法远远优于现有的其他算法。
实施例二
本申请实施例二在本申请实施例一的基础上提供了一种边缘服务器的服务迁移系统,包括:
信息采集模块,用于边缘服务器采集所服务用户的状态信息和服务请求信息;
模型搭建模块,用于搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;
动作优化模块,用于在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。
本实施例二的服务迁移系统通过搭建部分可观测马尔可夫决策模型以输出每个服务请求的动作,在此模型中,边缘服务器作为实体自主地收集环境状态信息,并为其服务用户的服务请求决定其服务迁移策略、任务卸载和任务卸载过程中的资源分配策略。由于每个边缘服务器只能观测到自己所服务用户的状态信息,因此观测状态为环境的部分状态信息;边缘服务器的动作对应于每个服务请求的服务迁移策略、任务卸载和任务卸载过程中的资源分配策略,由连续动作向量构成动作空间,采用奖励来评价动作空间的动作,从而最小化网络中所有用户的服务时延,每个边缘服务器根据收到的服务请求信息自主决策,所有边缘服务器动作构成全局动作空间,获得的所有即时奖励构成全局奖励空间,最后在模型中搭建iSMA算法框架来优化每个边缘服务器的决策信息,即输出最佳的动作序列,以此最佳动作序列完成的服务迁移和任务卸载所需的平均任务时延得到降低。
需要理解的是,本申请实施例二的各个模块的具体功能和说明均已在本申请实施例一的方法各个步骤中进行了详细说明,故此在本申请实施例二不再做多余的叙述。
实施例三
本申请实施例三还提供了一种边缘服务器设备,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述处理器和所述处理器耦接的存储器能被虚拟化为一个及以上虚拟机;所述存储器上存储有可在所述处理器上运行的迁移程序;所述迁移程序被所述处理器执行时将实现如实施例一所述的方法中的边缘服务器所执行的步骤。
本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中,该程序在执行时,包括如下步骤:此时引出相应的方法步骤,所述的存储介质可以是 ROM/RAM、磁碟、光盘等等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种边缘服务器的服务迁移方法,其特征在于,包括如下步骤:
边缘服务器采集所服务用户的状态信息和服务请求信息;
搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;
在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。
2.根据权利要求1所述的方法,其特征在于,所述决策信息包括由服务请求信息确定的服务迁移策略、任务卸载策略和任务卸载过程中的资源分配策略。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建用户模型和边缘服务器模型;
边缘服务器模块接收用户模型发送服务请求信息执行iSMA算法以确定服务请求信息的动作,动作包括服务迁移、任务卸载和资源分配策略;其中,边缘服务器模型每隔一次决策执行一次决策算法,以更新边缘服务器收到的所有服务请求信息的动作。
4.根据权利要求1所述的方法,其特征在于,搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,具体为:
Figure RE-FDA0003827477060000011
为网络中L个边缘服务器在t=τ时刻对所有用户服务请求信息的动作,其中
Figure RE-FDA0003827477060000012
为边缘服务器el在t=τ时刻对其所收到的服务请求信息的动作;
Figure RE-FDA0003827477060000013
为边缘服务器el在t=τ时刻观测到的状态,其中
Figure RE-FDA0003827477060000014
为边缘服务器el所服务的用户信息,
Figure RE-FDA0003827477060000015
为边缘服务器el所服务用户的服务请求信息,Fτ为边缘服务器el所保存的网络中其他边缘服务器剩余计算资源的信息;
根据观测状态
Figure RE-FDA0003827477060000016
边缘服务器el执行决策算法后得到动作集合
Figure RE-FDA0003827477060000017
并将相应的动作发送给用户,获得新的观测状态
Figure RE-FDA0003827477060000018
以及即时奖励
Figure RE-FDA0003827477060000019
5.根据权利要求4所述的方法,其特征在于,基于部分可观测状态
Figure RE-FDA00038274770600000110
以及之前的动作
Figure RE-FDA00038274770600000111
边缘服务器el则决定是否将服务迁移至另一服务器以最小化所有用户的计算任务平均完成时延,从t=0时刻至t=∞时刻在每个边缘服务器el决定动作集
Figure RE-FDA00038274770600000112
对优化所有用户的全局动作集,其优化的计算式如下:
P:
Figure RE-FDA00038274770600000113
其中,
Figure RE-FDA00038274770600000114
表示全局动作空间的全局动作集,
Figure RE-FDA00038274770600000115
表示用户i的本地数据处理时间,
Figure RE-FDA00038274770600000116
表示用户i在服务过程中将任务卸载至边缘服务器进行处理的时间,N表示网络所有用户个数。
6.根据权利要求1所述的方法,其特征在于,在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列,具体包括:
观测边缘服务器所服务用户的状态信息,其中边缘服务器所观测的状态信息为环境的部分状态信息;
搭建潜在空间模型推测其他用户的状态信息;
利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索,输出全局奖励最大的动作。
7.根据权利要求6所述的方法,其特征在于,搭建潜在空间模型推测其他用户的状态信息,包括:
构建递归式的潜在空间模型RLSM,其中,递归式的潜在空间模型包括确定状态转移模型、随机状态转移模型、观测模型、奖励模型以及编码模型;
确定性状态转移模型的输入为历史信息,输出为当前时刻的确定性状态;其中历史信息包括历史随机状态、确定性状态和动作;
随机状态转移模型的输入为当前时刻的确定性状态,输出为随机状态的均值与方差;
观测模型的输入为随机和确定性状态信息,输出为观测状态的均值和单位对角协方差;
奖励模型的输入为随机和确定性状态信息,输出为奖励均值和单位方差;
编码模型的输入为当前时刻的确定性状态和观测状态,输出为隐藏随机状态的均值与方差。
8.根据权利要求6所述的方法,其特征在于,利用交叉熵规划算法在每个边缘服务器对观测的状态信息和推测的状态信息进行搜索,输出全局奖励最大的动作,具体步骤如下:
S110,将动作序列的分布初始化为正态分布,即
Figure RE-FDA0003827477060000025
S120,根据分布函数
Figure RE-FDA0003827477060000026
采样得到一个可能的动作集Aτ
S130,根据观测状态oτ、动作集Aτ以及RLSM模型,推测出隐藏状态和奖励rτ,隐藏状态即为未观测状态;
S140,重复步骤S120-S130共计K次,得到从t=τ时刻至t=τ+K时刻的动作序列Aτ:τ+K和相应的奖励序列rτ:τ+K,基于奖励
Figure RE-FDA0003827477060000021
#对动作序列Aτ:τ+K进行评估;
S150,重复步骤S140共计I次,得到一组动作序列
Figure RE-FDA0003827477060000022
和一组奖励
Figure RE-FDA0003827477060000023
其中每个Ai都是一个动作序列Aτ:τ+K
S160,将集合
Figure RE-FDA0003827477060000024
根据奖励Ri排序,其中奖励最大的排在第一位,根据排序结果,将前Q个动作序列形成一个新集合
Figure RE-FDA0003827477060000035
其中Q<I,即有
Figure RE-FDA0003827477060000031
S170,根据均值计算式
Figure RE-FDA0003827477060000032
和方差计算式
Figure RE-FDA0003827477060000033
计算新集合
Figure RE-FDA0003827477060000036
的均值与方差,并根据新集合计算得到的新的均值与方差更新动作序列的分布函数,即有
Figure RE-FDA0003827477060000034
S180,根据更新后的分布函数
Figure RE-FDA0003827477060000037
重复执行步骤S120-S170J次;
S190,将最后一次由均值计算式计算得到的均值选为最佳动作序列,并将最佳动作序列作为iSMA算法的输出。
9.一种边缘服务器的服务迁移系统,其特征在于,包括:
信息采集模块,用于边缘服务器采集所服务用户的状态信息和服务请求信息;
模型搭建模块,用于搭建部分可观测的马尔可夫决策模型输出每个服务请求信息的决策信息,其中边缘服务器的动作对应于每个服务请求信息的决策信息,将所有边缘服务器的动作构成全局动作空间,将全局动作空间发送给所有用户获得所有即时奖励,依据所有即时奖励构建全局奖励空间,利用全局奖励空间来评价全局动作空间从而最小化所有用户的服务时延;
动作优化模块,用于在马尔可夫决策模型中搭建iSMA算法来优化每个边缘服务器的决策信息搜索出全局奖励最大化的最佳动作序列。
10.一种边缘服务器设备,其特征在于,所述设备包括:处理器,以及与所述处理器耦接的存储器;所述处理器和所述处理器耦接的存储器能被虚拟化为一个及以上虚拟机;所述存储器上存储有可在所述处理器上运行的迁移程序;所述迁移程序被所述处理器执行时将实现如权利要求1至8中任一项所述的方法中的边缘服务器所执行的步骤。
CN202210800832.6A 2022-07-08 2022-07-08 一种边缘服务器的服务迁移方法、系统及边缘服务器设备 Pending CN115334076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210800832.6A CN115334076A (zh) 2022-07-08 2022-07-08 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210800832.6A CN115334076A (zh) 2022-07-08 2022-07-08 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Publications (1)

Publication Number Publication Date
CN115334076A true CN115334076A (zh) 2022-11-11

Family

ID=83917021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210800832.6A Pending CN115334076A (zh) 2022-07-08 2022-07-08 一种边缘服务器的服务迁移方法、系统及边缘服务器设备

Country Status (1)

Country Link
CN (1) CN115334076A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110290011A (zh) * 2019-07-03 2019-09-27 中山大学 边缘计算中基于Lyapunov控制优化的动态服务放置方法
WO2019228360A1 (en) * 2018-06-01 2019-12-05 Huawei Technologies Co., Ltd. Self-configuration of servers and services in a datacenter
CN111132175A (zh) * 2019-12-18 2020-05-08 西安电子科技大学 一种协同计算卸载和资源分配方法及应用
CN111586146A (zh) * 2020-04-30 2020-08-25 贵州电网有限责任公司 基于概率转移深度强化学习的无线物联网资源分配方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN111953758A (zh) * 2020-08-04 2020-11-17 国网河南省电力公司信息通信公司 一种边缘网络计算卸载和任务迁移方法及装置
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113542376A (zh) * 2021-07-01 2021-10-22 广东工业大学 一种基于能耗与时延加权的任务卸载方法
CN113568727A (zh) * 2021-07-23 2021-10-29 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法
CN113950066A (zh) * 2021-09-10 2022-01-18 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019228360A1 (en) * 2018-06-01 2019-12-05 Huawei Technologies Co., Ltd. Self-configuration of servers and services in a datacenter
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN110290011A (zh) * 2019-07-03 2019-09-27 中山大学 边缘计算中基于Lyapunov控制优化的动态服务放置方法
CN111132175A (zh) * 2019-12-18 2020-05-08 西安电子科技大学 一种协同计算卸载和资源分配方法及应用
CN111586146A (zh) * 2020-04-30 2020-08-25 贵州电网有限责任公司 基于概率转移深度强化学习的无线物联网资源分配方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN111953758A (zh) * 2020-08-04 2020-11-17 国网河南省电力公司信息通信公司 一种边缘网络计算卸载和任务迁移方法及装置
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113542376A (zh) * 2021-07-01 2021-10-22 广东工业大学 一种基于能耗与时延加权的任务卸载方法
CN113568727A (zh) * 2021-07-23 2021-10-29 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法
CN113950066A (zh) * 2021-09-10 2022-01-18 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
X. LI等: ""Intelligent Service Migration Based on Hidden State Inference for Mobile Edge Computing"", 《IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》, 9 August 2021 (2021-08-09), pages 2 - 4 *

Similar Documents

Publication Publication Date Title
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
Wang et al. Smart resource allocation for mobile edge computing: A deep reinforcement learning approach
CN112668128B (zh) 联邦学习系统中终端设备节点的选择方法及装置
Yu et al. Toward resource-efficient federated learning in mobile edge computing
Zhan et al. An incentive mechanism design for efficient edge learning by deep reinforcement learning approach
Chen et al. Deep reinforcement learning for computation offloading in mobile edge computing environment
CN112882815B (zh) 基于深度强化学习的多用户边缘计算优化调度方法
Xie et al. Adaptive online decision method for initial congestion window in 5G mobile edge computing using deep reinforcement learning
Wu et al. Multi-agent DRL for joint completion delay and energy consumption with queuing theory in MEC-based IIoT
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN114281718A (zh) 一种工业互联网边缘服务缓存决策方法及系统
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
Cui et al. Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network
CN114615744A (zh) 一种知识迁移强化学习网络切片通感算资源协同优化方法
Chen et al. An intelligent task offloading algorithm (iTOA) for UAV network
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN115334076A (zh) 一种边缘服务器的服务迁移方法、系统及边缘服务器设备
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
Zhou et al. DRL-Based Workload Allocation for Distributed Coded Machine Learning
Omland Deep Reinforcement Learning for Computation Offloading in Mobile Edge Computing
He et al. Enhancing the efficiency of UAV swarms communication in 5G networks through a hybrid split and federated learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination