CN113783726B

CN113783726B - 一种面向sla的边云系统的资源自适应定制方法

Info

Publication number: CN113783726B
Application number: CN202111025406.1A
Authority: CN
Inventors: 王晓飞; 鞠艳丽; 任远铭; 王鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2022-06-24
Anticipated expiration: 2041-09-02
Also published as: CN113783726A

Abstract

本发明公开了一种面向SLA的边云系统的资源自适应定制方法，包括：将边云系统划分成边缘集群和云中心集群；获取边缘集群的属性信息；获取云中心集群的属性信息；根据边缘集群的属性信息和云中心集群的属性信息，利用深度强化学习技术对边云系统的资源进行定制，形成多个在逻辑上相互隔离的资源单元，并将具有相似属性的资源单元集合成资源通道；在资源通道内进行服务编排,得到服务编排的结果；根据资源单元和服务编排的结果，对服务请求进行调度。

Description

一种面向SLA的边云系统的资源自适应定制方法

技术领域

本发明涉及一种资源定制方法，尤其涉及一种面向SLA的边云系统的资源自适应定制方法。

背景技术

随着互联网设备的爆炸式增长，集中式移动网络架构面临着诸多挑战。根据GSMA的《2020年移动经济报告》，到2025年，全球物联网连接数将从2019年的120亿增加到近250亿。传统的云计算范式面临实时性低、工作效率低等诸多问题。与云计算相比，边缘计算的优势主要表现在两个方面：(1)边缘计算节点分布广泛，可以缓解骨干网压力；(2)大部分服务在边缘处理，减少数据传输延迟。然而，与一刀切的云计算范式不同，边云系统中广泛分布的边缘节点和相互异构的边缘集群给用户提供可靠的服务带来了重大挑战。作为云计算的延伸，边云系统有力的减轻了主干网络和云中心的负载压力，降低了请求的排队时延和传输时延。然而，边云系统依旧面临：(1)边缘节点的资源和系统架构的异构性；(2)多种服务对不同资源的恶性竞争；(3)网络资源和请求负载的随机动态变化。因此，广泛分布的边缘节点和相互异构的边缘集群给用户提供可靠的服务带来了重大挑战。

发明内容

有鉴于此，本发明的主要目的是提供一种面向SLA的边云系统的资源自适应定制方法，以期至少部分地解决上述提及的技术问题中的至少之一。

为实现上述目的，本发明所采用的技术方案包括：

根据本发明的一个方面，提供了一种面向SLA的边云系统的资源自适应定制方法，包括：

将边云系统划分成边缘集群和云中心集群；

获取边缘集群的属性信息，其中，边缘集群的属性信息包括边缘节点、边缘节点之间的连接关系以及边缘节点属性信息；

获取云中心集群的属性信息，其中云中心集群的属性信息包括云中心集群的计算能力、内存大小以及与边缘节点之间的传输延迟；

根据边缘集群的属性信息和云中心集群的属性信息，利用深度强化学习技术对边云系统的资源进行定制，形成多个在逻辑上相互隔离的资源单元，并将具有相似属性的所述资源单元集合成资源通道，其中，资源通道具有相对应的服务水平协议(Service LevelAgreement,SLA)保证；

在资源通道内进行服务编排,得到服务编排的结果；

根据资源单元和服务编排的结果，对服务请求进行调度。

根据本发明的实施例，边缘节点的属性信息包括边缘节点的计算能力、内存以及带宽。

根据本发明的实施例，资源单元包括边缘节点之间形成的横向资源单元和边缘节点与云中心形成的纵向资源单元；资源通道包括横向资源通道和纵向资源通道。

根据本发明的实施例，利用深度强化学习技术对边云系统的资源进行定制包括：

利用Actor-Critic算法对马尔可夫决策过程进行训练；

边缘节点根据边云系统的状态，利用训练好的马尔可夫决策过程将边缘节点网络邻域内的资源进行定制，形成资源单元。

根据本发明的实施例，所述马尔可夫决策过程可由式(1)表示

其中ρ表示马尔可夫决策过程；G_d表示边缘集群d中边缘节点和边缘节点之间连接关系所构成的图；

表示边缘节点i的状态空间；

表示边缘节点i的动作空间；V是边缘节点的集合；P是状态转移概率；

是奖励函数。

根据本发明的实施例，奖励函数

用来优化马尔可夫决策过程，由式(2)表示

其中，

表示在周期τ内，服务l在所述边缘节点i的吞吐率；Q表示SLA集合；δ_q表示资源通道q的所述SLA优先级；L_q表示资源通道q的服务集合。

根据本发明的实施例，状态转移概率P由式(3)表示

用来表示在状态

下执行动作

后，状态空间转移到

的概率。

根据本发明的实施例，利用Actor-Critic算法对马尔可夫决策过程进行训练包括：

初始化边云系统的训练环境和训练参数；

获取边云系统的初始观测值；

设置迭代次数和迭代周期大小；

获取边缘节点的动作；

边缘节点执行资源定制操作；

在资源通道内进行服务编排和对服务请求进行调度；

获取下一个系统观测值，并且根据奖励函数获取奖励值；

根据迭代周期内的下一个系统观测值、奖励值、动作以及状态，更新Actor-Critic算法的参数。

根据本发明的实施例，利用Actor-Critic算法对马尔可夫决策过程进行训练采用分布式训练方法，用于协调多个所述边缘节点之间的训练过程。

附图说明

图1是根据本发明实施例的云原生边缘计算架构示意图；

图2是根据本发明实施例的一种面向SLA的边云系统的资源自适应定制方法的流程图；

图3是根据本发明实施例的进行资源定制的边云系统示意图；

图4是根据本发明实施例的利用深度强化学习技术对边云系统的资源进行定制的流程图；

图5是根据本发明实施例的马尔可夫决策过程的训练流程图；

图6是根据本发明实施例的马尔可夫决策过程训练的操作示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

图1是根据本发明实施例的云原生边缘计算架构示意图。

如图1所示，云原生是一种创建新应用的敏捷方法，借助的是云计算的可扩展性和灵活性。与传统的单体式应用不同，云原生应用使用多个独立元素(微服务)构建而成，并部署在云环境中。通过构建云原生应用，开发人员能够将微服务整合成更大的完整应用，同时仍然可以逐个更新和维护微服务，而不必管理难以处理的单体式应用。这种独立性支持开发人员添加、改进或回滚某个功能，而不会损害整个应用的功能，也不会延迟开发进程。最经典的云原生技术拥有四大要素：微服务，容器化，DevOps和持续交付。符合云原生架构的应用程序采用开源堆栈(K8s+Docker)进行容器化，基于微服务架构提高灵活性和可维护性，借助敏捷方法、DevOps支持持续迭代和运维自动化，利用云平台设施实现弹性伸缩、动态调度、优化资源利用率。本发明使用目前最受欢迎的Kubernetes(K8s)作为基础云原生框架。

边缘计算是一种分布式计算框架，使应用更接近数据源，例如，IoT设备或本地边缘服务器。这样接近数据源可以带来显著的业务效益：更快获得洞察，缩短响应时间，提高带宽可用性。互联设备产生的海量数据和前所未有的复杂性已经超出了网络和基础架构的能力范围。将设备生成的所有数据发送到集中式数据中心或云端会导致带宽和延迟问题。边缘计算提供了更高效的替代方法：在更接近创建数据的位置处理和分析数据。由于数据不会通过网络传输到云端或数据中心以进行处理，因此延迟显著减少。边缘计算以及在5G网络上进行的移动边缘计算支持更快、更全面的数据分析，创造机会获得更深入的洞察，缩短响应时间并改善客户体验。

图2是根据本发明实施例的一种面向SLA的边云系统的资源自适应定制方法的流程图，包括操作S210～操作S260。

如图2所示，在操作S210，将边云系统划分成边缘集群和云中心集群；

在操作S220，获取边缘集群的属性信息，其中，边缘集群的属性信息包括边缘节点、边缘节点之间的连接关系以及边缘节点属性信息；

在操作S230，获取云中心集群的属性信息，其中云中心集群的属性信息包括云中心集群的计算能力、内存大小以及与边缘节点之间的传输延迟；

在操作S240，根据边缘集群的属性信息和云中心集群的属性信息，利用深度强化学习技术对边云系统的资源进行定制，形成多个在逻辑上相互隔离的资源单元，并将具有相似属性的资源单元集合成资源通道，其中，资源通道具有相对应的服务水平协议(Service Level Agreement,SLA)保证；

其中，资源单元的相似属性包括资源大小、资源类别、延迟等；同时利用深度强化学习技术，增强了边云系统的资源定制的决策能力；深度强化学习技术利用深度神经网络的强大表示能力来拟合值函数，或者使用直接策略来解决离散状态动作空间或连续状态动作空间的梯度爆炸问题；

在操作S250，在资源通道内进行服务编排,得到服务编排的结果；

在操作S260，根据资源单元和服务编排的结果，对服务请求进行调度。

下面结合图3对面向SLA的边云系统的资源自适应定制方法的流程作详细的说明。

图3是根据本发明实施例的进行资源定制的边云系统示意图。

如图3所示，边云系统包括边缘集群和云中心集群；根据地理位置的不同，网络边缘被划分为多个区域，同一区域内的边缘接入点(edge Access Points,eAPs)和边缘节点组成一个边缘集群。其中网络边缘的所有区域由集合D＝{1，2，...，D}表示，当关注网络边缘的一个区域d∈D，该区域对应边缘集群里所有的边缘节点由集合

表示。以下讨论同样适用于其他区域d′∈D；将区域d边缘集群的网络拓扑表示为图G_d(V，E)，其中i∈V是边缘节点，e_ij∈E是连接节点i和节点j的边；N_i＝{j|j∈V，e_ij∈E}表示节点i所在的邻域，即i相邻节点的集合；集群G_d中的边缘节点数记为N，边缘节点具有异构的资源能力，将边缘节点i的计算能力记为W_i，总内存记为R_i，总带宽记为B_i；将云中心集群拥有的计算能力表示为W_cloud，将内存表示为R_cloud，将边缘节点与云中心之间的传输延迟表示为

地理上分散的用户持续地生成随机的请求，这些请求具有不同的SLA，其中SLA集合表示为Q＝{1，...，Q}，并且对于每个q∈Q都对应有一个服务集合L_q＝{1，...，L_q}。

由于资源通道为用户提供了相应的SLA保障，因此资源通道与SLA一一对应，所以资源通道集合同样被表示为Q＝{1，...，Q}。对于资源通道q∈Q，将资源通道的资源单元集合表示为M_q＝{1，...，m_q}。对于资源单元m∈M_q，将资源单元计算能力表示为W_q，m，内存大小表示为R_q，m。

服务之间的资源竞争会对系统吞吐量产生不可忽视的负面影响。例如，假设一项服务几乎占用了特定节点上的所有内存资源。在这种情况下，该节点上的另一个服务将受到显着影响，即使它只需要很少的内存。因此，我们应该通过合适的算法对服务进行合理的编排，以减少资源竞争的负面影响。

服务之间是异构的，比如对于服务l∈L_q，我们服务l的请求包大小表示为h_q，l，加载服务l所需的内存为τ_q，l，服务l所需的计算资源为w_q，l，服务l的生命周期为t_q，l，服务l的执行时间为o_q，l。

服务请求调度是决定请求能否成功服务的最后一个环节。到达边缘节点的请求需要被调度到具有匹配服务副本且资源充足的资源单元。设用户对服务l∈L_q的请求在某一周期τ的平均请求数表示为

面对网络化的系统动态，服务请求调度算法的设计对系统的鲁棒性起着至关重要的作用。

通过上述实施例所提供的方法，将边云系统的边缘节点训练成具有自主决策能力智能节点，即具有自主资源定制能力的智能节点，并且采用的是多智能体联合决策，由多智能体进行边云系统的资源定制，不仅能缓解大量服务请求所带来的计算、网络等压力，提高服务请求处理的效率，同时还能提高边云系统的鲁棒性。

根据本发明的实施例，边缘节点的属性信息包括所述边缘节点的计算能力、内存以及带宽。

通过对边云系统中的资源的重新组合，可以有效解决网络环境的多资源异构性给边云系统中的用户提供可靠服务带来了严重的问题。

图4是根据本发明实施例的利用深度强化学习技术对边云系统的资源进行定制的流程图，包括操作S410～S420。

如图4所示，利用深度强化学习技术对边云系统的资源进行定制包括：

在操作S410，利用Actor-Critic算法对马尔可夫决策过程进行训练；

在操作S420，边缘节点根据边云系统的状态，利用训练好的马尔可夫决策过程将边缘节点网络邻域内的资源进行定制，形成资源单元。

根据本发明的实施例，马尔可夫决策过程可由式(1)表示

其中ρ表示马尔可夫决策过程；G_d表示边缘集群d中所述边缘节点和边缘节点之间连接关系所构成的图；

表示边缘节点i的状态空间，在周期τ，智能体i都有实时状态

组成状态空间的影响因包括：1)请求的数量和种类；2)请求到达节点i的资源需求和延迟需求；3)目前系统中由智能体i(即具有自主决策能力的边缘节点)创建的单元的CPU、内存等资源比例；4)可以与节点i共同组成Cell的邻接节点集合N_i；

表示边缘节点i的动作空间，在周期τ，智能体i根据观察到的局部状态空间

和策略π_i，τ预测动作

具体来说，

表示智能体i预测分配给单元m的内存、计算等多种资源的大小；V是边缘节点的集合；P是状态转移概率；

是奖励函数。

由于边云系统中分布有大量异构的边缘节点，传统算法会导致高维动作空间或非平稳环境。因此，引入了马尔可夫决策过程，使系统中每个具有决策能力的边缘节点能够根据不断变化的系统状态将其网络邻域中的资源定制为资源单元。同时，采用具有连续动作空间的离线集中训练和在线分布式执行的算法框架。

根据本发明的实施例，奖励函数

用来优化马尔可夫决策过程，由式(2)表示

其中，

表示在周期τ内，服务l在所述边缘节点i的吞吐率；Q表示所述SLA集合；δ_q表示所述资源通道q的所述SLA优先级；L_q表示所述资源通道q的服务集合。

上述实施例所公开的奖励函数提高系统的整体吞吐量，同时保证各种用户服务的高质量SLA。

根据本发明的实施例，状态转移概率P由式(3)表示

用来表示在状态

下执行动作

后，所述状态空间转移到

的概率。

上述实施例公开的马尔可夫决策过程把资源定制问题描述成一个序列决策问题，通过对状态、动作、奖励进行定义，从环境获得数据后不断训练从而获得对环境的精确反应，可以有效的解决传统算法难以处理的高维问题。

图5是根据本发明实施例的马尔可夫决策过程的训练流程图，包括操作S510～操作S580。

如图5所示，利用Actor-Critic算法对马尔可夫决策过程进行训练包括：

在操作S510，初始化边云系统的训练环境和训练参数；

在操作S520，获取边云系统的初始观测值；

在操作S530，设置迭代次数和迭代周期大小；

在操作S540，获取边缘节点的动作；

在操作S550，边缘节点执行资源定制操作；

在操作S560，在资源通道内进行服务编排和对服务请求进行调度；

在操作S570，获取下一个系统观测值，并且根据奖励函数获取奖励值；

在操作S580，根据迭代周期内的下一个系统观测值、奖励值、动作以及状态，更新Actor-Critic算法的参数。

上述实施例利用Actor-Critic算法对马尔可夫决策过程进行训练，可以在边云系统的边缘节点只具备有限资源的情况，满足最小化智能体决策对资源的需求；同时在不影响联网系统的稳定性和安全性前提下，提高用户SLA的质量。

根据本发明的实施例，利用Actor-Critic算法对所述马尔可夫决策过程进行训练采用分布式训练方法，用于协调多个所述边缘节点之间的训练过程。

图6是根据本发明实施例的马尔可夫决策过程训练的操作示意图，其中，利用到了深度强化学习的技术；深度强化学习是深度学习和强化学习的结合，相较于深度学习，它更侧重于强化学习的决策能力。深度学习的作用是利用深度神经网络的强大表示能力来拟合值函数，或者使用直接策略来解决离散状态动作空间或连续状态动作空间的梯度爆炸问题。强化学习的目标是使环境中的智能体能够在当前状态下采取最佳行动，以最大化长期收益，其中智能体在环境中的动作与状态之间的相互作用被建模为马尔可夫决策过程(Markov Decision Process,MDP)。凭借这些特性，深度强化学习在机器人技术，金融，推荐系统，无线通信等方面成为一种强有力的解决方案。

下面将结合图6对马尔可夫决策过程的训练过程进行详细描述。

如图6所示，集中式的Critic获取每个智能体i的当前状态信息

和当前动作信息

组成状态-动作对

集中式的Critic根据策略π_i，根据状态-动作对

生成一个集中式的动作价值函数

即预期的折扣累积奖励，其中

是策略π_i的参数；每一个智能体i对应的分布式Actor获取集中式的动作价值函数

并根据根据Critic的集中式动作价值函数更新策略网络μ_i，并且根据当前的状态

依据策略网络得出动作

以最大化累积奖励。

在上述训练马尔可夫决策过程中，利用了Actor-Critic算法，改善了马尔可夫决策过程中的动态网络环境导致的非稳定型问题，同时利用Actor-Critic算法的特点：集中式Critic以在训练期间根据全局观察来指导智能体学习有效的策略；分布式Actor，每个Actor在训练和执行过程中的输入都是局部状态，因此Actor可以在两个阶段之间无缝切换。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。