CN112511336B

CN112511336B - 一种边缘计算系统中的在线服务放置方法

Info

Publication number: CN112511336B
Application number: CN202011222597.6A
Authority: CN
Inventors: 刘通; 揭潇淦; 童维勤; 李卫民
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-11-18
Anticipated expiration: 2040-11-05
Also published as: CN112511336A

Abstract

本发明涉及一种边缘计算系统中的在线服务放置方法，在一个考虑异构计算任务随机实时到来的边缘计算系统中，将时间分成等长时间片，在考虑边缘服务器有限的存储空间和计算资源的限制下，决定在边缘服务器上放置哪些服务来服务相应的任务，从而最小化完成所有任务的总时延。本发明采用算法包含两个交替的阶段，第一个阶段为服务放置动作的产生，即基站利用深度神经网络选择出最佳的服务放置决策，然后存储下基站和网络的交互过程作为经验。第二阶段为网络训练部分，利用经验回放技术和一个与在线网络结构相同但参数不同的目标网络来训练在线网络的参数。本发明保证在无法获取未来动态信息的和基站资源受限情况下，计算任务的总完成时延最小。

Description

一种边缘计算系统中的在线服务放置方法

技术领域

本发明涉及一种边缘计算系统中的在线服务放置方法，是一种边缘计算系统中最小化到达该系统的任务完成时延的在线服务放置方法，在一个考虑异构计算任务随机实时到来的边缘计算系统中，由于边缘服务器的存储空间和计算资源均有限，无法缓存所有的服务，处理所有的任务，通过决策是否在边缘端即基站缓存每种服务，使得到来的计算任务的总完成时延最小化。

背景技术

随着物联网和5G移动通信技术的发展，各种移动终端设备，诸如智能手机、手表等呈爆发式增长。进而涌现了大批新的网络服务和计算密集型的终端应用，如增强现实、视频流分析等应用。这些新型应用给人们的生活带来了巨大的变化，这些新型应用对数据处理和网络性能的要求越来越高，而且这些应用可能需要非常低的延迟。传统的云计算虽然有丰富的资源和计算能力，然而对于用户来说，云中心距离边缘设备距离较远，大量密集型任务的卸载，可能会造成网络的拥塞以及不小的传输时延使得用户的体验度下降。为了有效解决这些挑战，移动边缘计算(MEC)作为一种新的计算范式被提出，通过将云中心的计算资源和存储资源下沉到边缘服务器，移动基站作为MEC的一种主要形式，具有云计算和存储能力，能够代替云服务器处理终端用户的计算请求。如图1所示，一个5G支持的边缘计算系统由随机到来的大量异构任务、边缘服务器和云服务器组成。由于在边缘服务器上缓存哪些服务决定了可以卸载哪些任务到边缘服务器上执行，且边缘服务器的存储资源和计算资源均有限，不同的服务放置决策会显著影响边缘计算系统的性能。

对于服务放置问题而言，尽量降低所有任务的完成时延提高用户的服务质量是首要目标。不同的服务放置决策会引起不同的服务切换时延，任务处理时延，任务卸载时延。然而，服务放置的决策除了考虑任务完成的总时延外，还考虑边缘服务器存储资源和计算资源的制约。首先，边缘服务器的存储空间和计算能力是有限的。与此同时，考虑到计算任务的异构性(即不同应用产生的计算任务在数据量、计算量等方面具有较大差异)以及在没有完整的未来信息，如随机任务到达和动态网络条件的情况下，很难获得最优的服务放置策略。近年来，虽然有一些相关的工作对边缘计系统中的服务放置问题进行了研究，并提出了一些优化算法，但是它们大多考虑静态环境下离线的服务放置策略设计，或者考虑动态环境下未来的动态信息作为先验知识，去设计一个在线服务放置方法。

发明内容

本发明的目的是针对已有技术的不足，提供一种边缘计算系统中的在线服务放置方法，以实现在边缘计算系统中最小化所有计算任务的完成时延。该方法考虑不同服务提供服务的异构任务的随机到达，网络环境动态变化，没有未来动态信息作为先验知识，以及边缘服务器有限的存储空间和计算能力。

为了达到这个目标，本发明是通过以下技术方案来解决其技术问题的：

一种边缘计算系统中的在线服务放置决策方法，操作步骤如下：

步骤一，为边缘计算系统进行建模；

步骤二，为服务放置决策进行建模；

步骤三，卸载决策问题建模成马尔可夫决策过程；

步骤四，设计基于深度强化学习的在线服务放置算法。

优选地，在所述步骤一中，为边缘计算系统进行建模，考虑一个支持5g的移动边缘计算系统，其中附带服务器的基站充当边缘计算系统中的边缘节点；时间被划分为等长时间片

大量的异构计算密集型任务实时到达基站

云服务器拥有丰富的计算资源且存储所有类型的服务；基站的最大存储空间为s_max,最大的CPU频率为f_max；所有的服务类型L＝{1,2,3…,L}，且每种服务的放置需要消耗不同的存储空间s_l和不同的CPU频率f_l去处理请求该服务的任务。

优选地，在所述步骤二中，为服务放置决策进行建模，每种服务放置决策会导致不同的任务完成总时延，即不同的服务切换时延，任务处理时延，任务卸载时延：

使用一个二进制变量

来标示在时间片t内，边缘服务器是否放置服务l；在时间片t内，总的服务放置决策可以用一个向量表示为

如果在时间片t内，服务l放置在边缘服务器上，则

否则，

由于边缘服务器有限的存储空间和计算能力；考虑由不同的服务放置决策引起的服务切换时延、任务处理时延和任务卸载时延，下面对此进行详细描述：

(1)服务切换时延：要将特定服务从远程云服务器迁移到边缘服务器，要花费一定的时间去传输与该服务相关联的数据，它称为服务切换时延；对于服务l,假定其在时间片t内的切换时延为

该时间主要取决于放置服务l所需要传输的数据大小和在时间片t时，基站和云服务器之间的网络状况；依据上一个时间片的服务放置决策

将当前服务放置决策

所引起的服务切换时延表示为如下公式：

其中，1_{·}是一个指示函数；如果大括号中的条件为真，则指示函数的值为1；否则，它等于零；只有未放置在上一个时间片中但在当前时间片中需要的服务才会引起服务切换时延；

(2)任务处理时延：只有在边缘服务器上有放置对应的服务，该服务对应的任务才在基站得到处理，而其他任务即边缘服务器未放置其对应的服务，只能卸载到远程云服务器上执行；首先分析在边缘服务器上完成一个任务所引起的时延，即任务处理时延；任务的处理时延被定义为从任务到达基站到任务完成的一段时间，包括等待时延和计算时延；对于服务l，因为任务的到达时间和计算时间都服从指数分布，用一个特定的M/M/1队列模型来模拟边缘服务器上任务的执行过程；任务的平均处理时延，在排队论中称为逗留时间用公式表示为：

为了使得公式始终有意义，通过卸载额外的任务到远程云服务器来确保任务的服务率即f_l/c_l大于任务的到达率

在时间片t内，由服务放置决策I^t所引起的总的任务处理时延用公式表示为：

(3)任务卸载时延：云服务器拥有所有足够的存储资源存放所有的服务和足够的计算资源处理到达的任务，忽略卸载到云上的任务的处理时延；假设一个任务请求的服务l未放置在边缘服务器上，假设将任务的输入数据传输到云服务器的预期时间定义为任务卸载时延为

它取决于输入数据的大小以及在时间片t中基站与云服务器之间的网络状况；在时间片t内，由服务放置决策I^t所引起的总的任务卸载时延可以用公式表示为：

服务放置的目标是在考虑的边缘服务器的存储空间和计算资源限制的情况下，在这个边缘计算系统中，大量实时、异构、计算密集的任务请求实时到达；为基站找到一个最优的服务放置决策，去最小化长期的所有任务的处理时延；

第一个约束意味着放置的服务的存储空间不能超过基站的存储空间大小，第二个约束意味着放置的服务需要的计算能力受到基站计算资源的限制。

优选地，在所述步骤三中，根据上述系统模型，卸载决策问题可建模成马尔可夫决策过程

其中

为状态空间，

为动作空间，

为转移概率，

为奖励函数，γ∈[0,1]为折扣因子；在每个时间片下，状态表示为

这里，B^t表示时间片t时，基站和云服务器之间的网络状况，

因此

在状态s^t下采取动作a^t，基站会收到一个即时奖励r^t，定义为在时间片t时，所有任务的总时延，即：r^t＝-(Ψ^t+Ω^t+Φ^t)；所述马尔科夫决策模型，原问题转换为策略决策问题，即选择一个最优策略π最大化累计折扣奖励：

优选地，在所述步骤四中，根据上述建模过程，采用基于深度强化学习的在线服务放置算法，其详细步骤如下：

1)服务放置动作的产生：在每个时间片t下，基站首先观察当前边缘计算系统的状态为s^t，然后把它输入到一个参数记为θ的全连接神经网络中，称为在线网络；该网络输出每个动作的动作价值，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1；这一交互过程作为一条经验(s^t,a^t,r^t,s^t+1)存放到经验池中；

2)网络训练：根据经验池中的历史经验对在线网络进行训练，更新参数；首先，随机从经验池中采样一批经验，然后把它们输入到在线网络中和另一个与在线网络具有相同结构但参数不同的网络中，称为目标网络；目标网络是用来估计Q值的，帮助在线网络训练参数；拿一个采样的经验s^j,a^j,r^j,s^j+1作为一个例子去解释这个训练过程；得到Q值通过像在线网络输入s^j和a^j，即Qs^j，a^j；θ；然后向目标网络输入s^j+1，然后目标Q值通过贝尔曼方程获得，即：

为了降低Q^和Qs^j,a^j；θ之间的误差，定义一个Loss函数去训练在线网络，即：

利用梯度下降算法最小化Loss函数，即对在线网络的参数θ进行更新；为了保持算法的稳定性，对在线网络和目标网络的参数进行异步更新；在线网络在每个训练过程中都进行更新，而目标网络的参数是在在线网络更新后的一段时间片后进行更新。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著的技术进步：

1.本发明在考虑异构计算任务随机实时到来的边缘计算系统中，将时间分成等长时间片，在考虑边缘服务器有限的存储空间和计算资源的限制下，决定在边缘服务器上放置哪些服务来服务相应的任务，从而最小化完成所有任务的总时延；

2.本发明采用算法包含两个交替的阶段，第一个阶段为服务放置动作的产生，即基站利用深度神经网络选择出最佳的服务放置决策，然后存储下基站和网络的交互过程作为经验。第二阶段为网络训练部分，利用经验回放技术和一个与在线网络结构相同但参数不同的目标网络来训练在线网络的参数；

3.本发明保证在无法获取未来动态信息的和基站资源受限情况下，计算任务的总完成时延最小。

附图说明

图1是本发明的程序框图。

图2是一个5G支持的边缘计算系统的示意图。

图3是基于深度强化学习的在线服务放置算法的流程图。

图4是五种算法任务完成的总奖励变化图。

图5是五种算法任务完成的总时延变化图。

具体实施方式

本发明的优选实施例结合附图详述如下：

实施例一

参见图1，一种边缘计算系统中的在线服务放置方法，操作步骤如下：

步骤一，为边缘计算系统进行建模。

步骤二，为服务放置决策进行建模。

步骤三，卸载决策问题建模成马尔可夫决策过程。

步骤四，设计基于深度强化学习的在线服务放置算法。

本实施例通过建模和算法设计，实现在边缘计算系统中最小化所有计算任务的完成时延。

实施例二

本实施例与实施例一基本相同，特别之处如下：

在本实施例中，参加图1和图2，在所述步骤一中，为边缘计算系统进行建模，考虑一个支持5g的移动边缘计算系统，其中附带服务器的基站充当边缘计算系统中的边缘节点；时间被划分为等长时间片

大量的异构计算密集型任务实时到达基站

在本实施例中，在所述步骤二中，为服务放置决策进行建模，每种服务放置决策会导致不同的任务完成总时延，即不同的服务切换时延，任务处理时延，任务卸载时延：

使用一个二进制变量

如果在时间片t内，服务l放置在边缘服务器上，则

否则，

将当前服务放置决策

所引起的服务切换时延表示为如下公式：

在本实施例中，在所述步骤三中，根据上述系统模型，卸载决策问题可建模成马尔可夫决策过程

其中

为状态空间，

为动作空间，

为转移概率，

这里，B^t表示时间片t时，基站和云服务器之间的网络状况，

因此

在状态s^t下采取动作a^t，基站会收到一个即时奖励r^t，定义为在时间片t时，所有任务的总时延，即：r^t＝-(t^t+Ω^t+Φ^t)；所述马尔科夫决策模型，原问题转换为策略决策问题，即选择一个最优策略π最大化累计折扣奖励：

在本实施例中，在所述步骤四中，根据上述建模过程，采用基于深度强化学习的在线服务放置算法，其详细步骤如下：

1)服务放置动作的产生：在每个时间片t下，基站首先观察当前边缘计算系统的状态为s^t，然后把它输入到一个参数记为θ的全连接神经网络中，称为在线网络；该网络输出每个动作的动作价值，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1；这一交互过程作为一条经验(s^t，a^t，r^t，s^t+1)存放到经验池中；

2)网络训练：根据经验池中的历史经验对在线网络进行训练，更新参数；首先，随机从经验池中采样一批经验，然后把它们输入到在线网络中和另一个与在线网络具有相同结构但参数不同的网络中，称为目标网络；目标网络是用来估计Q值的，帮助在线网络训练参数；拿一个采样的经验(s^j，a^j，r^j，s^j+1)作为一个例子去解释这个训练过程；得到Q值通过像在线网络输入s^j和a^j，即Q(s^j，a^j；θ)j然后向目标网络输入s^j+1，然后目标Q值通过贝尔曼方程获得，即：

为了降低Q^和Q(s^j，a^j；θ)之间的误差，定义一个Loss函数去训练在线网络，即：

实施例三：

在本实施例中，参见图3，一种边缘计算系统中的在线服务放置方法，操作步骤为：

步骤一，为边缘计算系统进行建模，考虑一个支持5g的移动边缘计算系统，其中附带服务器的基站充当边缘计算系统中的边缘节点；时间被划分为等长时间片

大量的异构计算密集型任务实时到达基站

云服务器拥有丰富的计算资源且可以存储所有类型的服务。基站的最大存储空间为s_max，最大的CPU频率为f_max；所有的服务类型L＝{1，2，3...，L}，且每种服务的放置需要消耗不同的存储空间s₁和不同的CPU频率f₁去处理请求该服务的任务；

步骤二，为服务放置决策进行建模，每种服务放置决策会导致不同的任务完成总时延，即不同的服务切换时延，任务处理时延，任务卸载时延；

步骤三，根据上述系统模型，卸载决策问题可以建模成马尔可夫决策过程

其中

为状态空间，

为动作空间，

为转移概率，

为奖励函数，γ∈[0，1]为折扣因子；在每个时间片下，状态表示为

这里，B^t表示时间片t时，基站和云服务器之间的网络状况，

因此

在状态s^t下采取动作a^t，基站会收到一个即时奖励r^t，定义为在时间片t时，所有任务的总时延，即：r^t＝-(Ψ^t+Ω^t+Φ^t)；上述马尔科夫决策模型，原问题转换为策略决策问题，即选择一个最优策略π最大化累计折扣奖励；

步骤四，根据上述建模过程，设计了基于深度强化学习的在线服务放置算法；如附图2所示，其详细细节如下：

1)服务放置动作的产生：在每个时间片t下，基站首先观察当前边缘计算系统的状态为s^t，然后把它输入到一个参数记为θ的全连接神经网络中，称为在线网络；该网络输出每个动作的动作价值，最后采用∈-贪心策略以∈的概率随机选择一个动作，以1-∈的概率选择具有最大值的动作，选择的动作a^t处理完计算任务得到由环境反馈的奖励r^t和下一个状态s^t+1。这一交互过程会作为一条经验(s^t，a^t，r^t，s^t+1)存放到经验池中；

2)网络训练：根据经验池中的历史经验对在线网络进行训练，更新参数；首先，随机从经验池中采样一批经验，然后输入到在线网络中和另一个与在线网络具有相同结构但参数不同的网络中，称为目标网络，如附图3所示。目标网络是用来估计Q值的，帮助在线网络训练参数。拿一个采样的经验(s^j，a^j，r^j，s^j+1)作为一个例子去解释这个训练过程；得到Q值通过像在线网络输入s^j和a^j，即Q(s^j，a^j；θ)；然后向目标网络输入s^j+1，然后目标Q值通过贝尔曼方程获得，即：

为了降低Q^和Q(s^j，a^j；θ)之间的误差，定义了一个Loss函数去训练在线网络，即：

为了更清晰的阐述本发明的目的、技术方案和优点。本是实施例通过模拟实验对比的方式进一步说明本发明实施的边缘计算系统中分布式的在线服务放置方法的技术效果。

在下面的模拟实验对比过程中，系统参数的默认设置如下。考虑4种不同类型的服务，将每个服务的关联数据大小s₁和所需的CPU频率f₁分别设置在[30,40]GB和[2，3]GHz以内，将边缘服务器的最大存储空间和最大CPU频率分别设置为100GB和5GHZ。此外，每种服务的任务所需要的CPU周期数服从一个指数分布且均值在[0.02，0.03]GHZ之间。每种服务的从云服务器迁移服务到基站的转换时延在[0.1，0.4]秒之间，将一个任务从基站卸载到云服务器的卸载时延属于[0.5，1]秒之间。设置每种服务在每个时间片内到达的任务数量服从均匀分布，且数量在[50，100]之间。每个时间片的时间间隔设置为1s。另外，在的训练过程中，将一个阶段设置为250个时间片，在强化学习中，一个阶段即一个完整的交互过程。

本实施例采用作为比较标准的四个对比方法，Cloud Processing OnlyApproach、Stochastic Approach、Service-prior Greedy Approach、Task-prior GreedyApproach。在Cloud Processing Only Approach中，将所有的任务都被直接卸载到远程云，拥有所有的服务和足够的计算资源；在Stochastic Approach中，在考虑存储空间和CPU频率约束的前提下，每个服务被随机决定是否放在边缘服务器上；在Service-prior GreedyApproach中，在考虑存储空间和CPU频率约束的前提下，将尽可能多的服务放置在基站上；在Task-prior Greedy Approach中，服务被一个接一个地放置在边缘服务器上。除非不能满足资源约束，否则每次都选择当前时间段内能够服务最多任务的服务。

根据上述方法与具体参数设置，通过改变时间片和总服务数量来评估五种算法的总时延性能。每组实验重复10次，取10次实验的平均值作为实验的结果。下文的实验对比图中将本发明实施例的边缘计算系统中的在线服务放置方法简称为：Our Approach。

如图4所示，对比五种算法在改变时间片数量时，任务完成的总奖励变化情况。可见随着时间片的增大，各算法就有更大的时延导致奖励值不断降低。显然，无论经过多少个时间片，本实施例算法相比于四个对比方法都有更好的性能。特别是在250个时间片时，本实施例算法中任务完成的时延分别比两个对比方法低10.91％、19.82％、28.11％和36.86％。

图5对比将总服务数量从2到6变化时五种算法中任务完成总时延的变化情况。当只有两个服务时，本实施例方法的性能与Service-prior Greedy Approach和Task-priorGreedy Approach相似，因为两个服务可以同时放在边缘服务器上。随着服务数量的增加，本实施例方法显著优于基线，这表明本实施例的方法适合于复杂的服务放置场景。特别是，当有六个服务时，完成所有任务的总时延分别比四个基线低14.96％，21.17％，28.48％，36.47％。

综上所述，本发明提供的一种边缘计算系统中在线服务放置方法，通过同时考虑边缘计算存储资源和计算资源的限制，解决了边缘计算系统中的在线服务放置问题，，大大减少完成到达边缘计算系统的计算任务的总时延。

所属领域的普通技术人员应当理解：以上所述实施例仅作为本发明的示例性讨论，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种边缘计算系统中的在线服务放置方法，其特征在于操作步骤如下：

步骤一，为边缘计算系统进行建模；

步骤二，为服务放置决策进行建模；

步骤三，卸载决策问题建模成马尔可夫决策过程；

步骤四，设计基于深度强化学习的在线服务放置算法；

在所述步骤一中，为边缘计算系统进行建模，考虑一个支持5g的移动边缘计算系统，其中附带服务器的基站充当边缘计算系统中的边缘节点；时间被划分为等长时间片

大量的异构计算密集型任务实时到达基站

云服务器拥有丰富的计算资源且存储所有类型的服务；基站的最大存储空间为s_max,最大的CPU频率为f_max；所有的服务类型L＝{1,2,3…,L}，且每种服务的放置需要消耗不同的存储空间s_l和不同的CPU频率f_l去处理请求该服务的任务；

在所述步骤二中，为服务放置决策进行建模，每种服务放置决策会导致不同的任务完成总时延，即不同的服务切换时延，任务处理时延，任务卸载时延：

使用一个二进制变量

如果在时间片t内，服务l放置在边缘服务器上，则

否则，

将当前服务放置决策

所引起的服务切换时延表示为如下公式：

第一个约束意味着放置的服务的存储空间不能超过基站的存储空间大小，第二个约束意味着放置的服务需要的计算能力受到基站计算资源的限制；

在所述步骤三中，根据上述建模，卸载决策问题可建模成马尔可夫决策过程

其中

为状态空间，

为动作空间，

为转移概率，

这里，B^t表示时间片t时，基站和云服务器之间的网络状况，

因此

在状态s^t下采取动作a^t，基站会收到一个即时奖励r^t，定义为在时间片t时，所有任务的总时延，即：r^t＝-(Ψ^t+Ω^t+Φ^t)；所述马尔可夫决策模型，原问题转换为策略决策问题，即选择一个最优策略π最大化累计折扣奖励：

在所述步骤四中，根据上述建模，采用基于深度强化学习的在线服务放置算法，其详细步骤如下：

2)网络训练：根据经验池中的历史经验对在线网络进行训练，更新参数；首先，随机从经验池中采样一批经验，然后把它们输入到在线网络中和另一个与在线网络具有相同结构但参数不同的网络中，称为目标网络；目标网络是用来估计Q值的，帮助在线网络训练参数；得到Q值通过像在线网络输入s^j和a^j，即Q(s^j,a^j；θ)；然后向目标网络输入s^j+1，然后目标Q值通过贝尔曼方程获得，即：

为了降低Q^和Q(s^j,a^j；θ)之间的误差，定义一个Loss函数去训练在线网络，即：