CN113778677A

CN113778677A - 面向sla的云边协同资源编排与请求调度智能优化方法

Info

Publication number: CN113778677A
Application number: CN202111034333.2A
Authority: CN
Inventors: 鞠艳丽; 王晓飞; 王鑫; 任远铭
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-10
Anticipated expiration: 2041-09-03
Also published as: CN113778677B

Abstract

本发明公开了一种面向SLA的云边协同资源编排与请求调度智能优化方法，包括如下步骤：S1，对神经网络的训练参数及边缘集群内边缘节点状态进行初始化；S2，获取当前时间尺度下服务请求的相关数据、资源通道内资源单元的状态；S3，获取每个边缘节点预分配给资源单元的资源；S4，根据预分配资源分配相应的资源给资源单元；S5，基于最大化系统整体吞吐量问题对每个资源通道并行求解获取服务编排集合；S6，根据服务编排集合进行服务编排，将当前边云系统下的吞吐率作为奖励；S7，更新神经网络；S8，按照以上方法依次迭代直至训练收敛。本发明为边云系统的服务编排和请求指派提供了智能化策略有效的保证了各种用户服务的SLA。

Description

面向SLA的云边协同资源编排与请求调度智能优化方法

技术领域

本发明属于边缘计算技术领域，特别是涉及一种面向SLA的云边协同资源编排与请求调度智能优化方法。

背景技术

随着万物互联时代的到来和无线网络的不断发展，网络边缘的设备数量和产生的数据都快速增长。以云计算模型为核心的集中式处理模式将无法高效处理边缘设备产生的数据，为此我们在云原生技术的基础上引入边缘计算技术。边缘计算技术旨在利用云计算的计算能力，而不会在访问云端时产生较大的通信延迟，但要实现边缘计算的全部潜力，仍旧需要将有限的边缘云资源分配给竞争请求的智能策略。

作为云计算的延伸，边云系统有力的减轻了主干网络和云中心的负载压力，降低了请求的排队时延和传输时延。然而，边云系统依旧面临：(1)边缘节点的资源和系统架构的异构性；(2)多种服务对不同资源的恶性竞争；(3)网络资源和请求负载的随机动态变化。因此，广泛分布的边缘节点和相互异构的边缘集群在竞争的用户请求之间分配有限的资源并给用户提供可靠的服务方面带来了重大挑战。

发明内容

针对复杂的边缘集群在竞争请求之间分配有限资源不合理的技术问题，本发明提出一种面向SLA的云边协同资源编排与请求调度智能优化方法，通过使用云原生、边缘计算、人工智能技术，将深度强化学习和传统算法相结合解决了复杂的边缘集群在竞争请求之间合理高效的分配有限资源的难题，同时可以有效的保证不同服务的SLA。

一种面向SLA的云边协同资源编排与请求调度智能优化方法，包括如下步骤：

S1，训练环境及训练参数初始化：对神经网络的训练参数及边缘集群内边缘节点的状态进行初始化；

S2，获取系统初始观测值：获取当前时间尺度下服务请求的相关数据、与服务请求相对应的资源通道内资源单元的状态；

S3，动作获取：获取每个边缘节点预分配给资源单元的资源；

S4，资源定制操作执行：根据步骤S3得到的预分配资源分配相应的资源给到资源单元完成资源定制；

S5，服务编排集合计算：基于当前时间尺度和最大化系统整体吞吐量问题对每个资源通道并行求解获取服务编排集合；

S6，服务编排操作执行：根据步骤S5得到的服务编排集合进行服务编排，将当前边云系统下的吞吐率作为奖励，获取下一状态的观测值；

S7，更新神经网络：根据当前时间尺度下的观测值、动作、奖励及下一状态的观测值更新神经网络的参数；

S8，按照步骤S3-S7的方法依次进行迭代直至训练收敛。

在步骤S1中，所述训练参数包括深度强化学习模型中的学习率、折扣因子、神经网络层数、神经元个数，所述边缘节点的状态包括边缘节点的资源计算能力、内存大小、边缘节点的集合。

在步骤S2中，所述相关数据包括服务请求的数量及种类、服务请求到达边缘节点的资源需求及延迟需求、服务请求的SLA集合；所述资源单元的状态包括资源单元的资源计算能力和内存大小。

所述步骤S5包括如下步骤：

S5.1，初始化服务编排集合S＝φ，对预设服务编排集合T进行赋值使得T＝{δ|δ∈L_q×M_q\S,∑l:(l,m)∈S∪{δ}r_q,l≤R_q,m}，其中，δ表示服务编排集合L_q×M_q中的一个元素，φ表示空集，r_q,l表示加载服务l所需的内存，R_q,m表示资源单元m∈M_q的内存大小，L_q表示资源通道q的服务集合，M_q表示资源通道q中资源单元的集合，且服务l∈L_q；

S5.2，计算预设服务编排集合T中的元素δ^*，且元素δ^*使得Ω(S∪δ^*)取得最大值；

S5.3，对服务编排集合S进行更新，更新的公式为S＝S∪{δ^*}；

S5.4，根据步骤S5.3得到的更新后的服务编排集合S，按照步骤S5.1的赋值方法对预设服务编排集合T进行更新；

S5.5，将服务编排的问题转化为服务编排集合S的优化问题，根据优化函数将服务编排集合S转化为对应的服务编排变量x；

S5.6，根据步骤S5.5得到的服务编排变量x及最大化边云系统整体吞吐量的问题建立优化目标函数，根据优化目标函数得出请求指派变量y；

S5.7，对于时间尺度τ内的每个时隙t，根据步骤S5.6得到的请求指派变量y进行请求指派操作；

S5.8，按照步骤S5.2-步骤S5.7的方法迭代至预设服务编排集合T＝φ。

在步骤SS.5中，所述优化函数的公式为：

maxΩ(S)；

优化函数的约束条件为：

β1：∑_l:(l,m)∈Sr_q,l≤R_q,m；

β2：

在步骤S5.6中，所述优化目标函数表示最大化每个资源通道的服务请求的数量ψ_q，优化目标函数的公式为：

maxψ_q；

优化目标函数的约束条件为：

α1：

α2：

α3：

α4：

α5：

式中，

表示服务l的请求在时隙t内到达边缘节点i的次数，

为指示函数表示对服务l的SLA保证，

表示服务l在时间尺度τ内被编排在资源单元m的概率，

表示到达边缘节点i的服务在时隙t内被指派到资源单元m的概率，w_q,l表示服务l所需的计算资源，W_q,m表示资源单元m的资源计算能力，V表示边缘集群中边缘节点的集合，Q表示资源通道集合。

所述资源通道服务请求的数量ψ_q的计算公式为：

当服务编排集合S确定时，即服务编排变量x确定时，将步骤S5.6中的优化目标函数转化为：

maxψ_q；

优化目标函数的约束条件更新为：

α1：

α3：

α4：

α5：

α6：

α7：

式中，I_(l,m)∈S表示指示函数。

本发明的有益效果：

一、为边云系统的复杂网络环境中的服务编排和请求指派提供了智能化策略，通过引入多智能体深度强化学习将边云系统中的物理资源重新定义为隔离的定制化资源，方便为各种用户服务提供定制资源，使得同SLA的服务请求可以在同一资源通道内调度，有效的减小了保证多种SLA的难度；与请求指派相结合的服务编排方法对服务进行合理的编排，结合资源定制、服务编排二级操作，请求指派可以高效的将有限的边云系统内的资源分配给竞争请求，并且有效的保证不同服务的SLA。

二、根据智能化策略可为边缘计算应用场景中数据密集型应用程序如增强现实、视频分析等进行合理且高效的服务编排，使其可以随着时间的推移进行调整，以满足随时间变化的服务需求，使系统获得较大的服务吞吐量，且在Kubernetes框架下的服务集群可以同时为各种服务提供不同的SLA保证。此外在每个独立的资源通道上并行执行联合服务编排和请求指派，不但使得系统获得了较大的服务吞吐量，且显著的降低了时间复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为云原生边缘计算架构示意图。

图2为本发明边云系统示意图。

图3为多智能体Actor-Critic算法训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

云原生(CloudNative)：云原生是一种创建新应用的敏捷方法，借助的是云计算的可扩展性和灵活性。与传统的单体式应用不同，云原生应用使用多个独立元素(微服务)构建而成，并部署在云环境中。通过构建云原生应用，开发人员能够将微服务整合成更大的完整应用，同时仍然可以逐个更新和维护微服务，而不必管理难以处理的单体式应用。这种独立性支持开发人员添加、改进或回滚某个功能，而不会损害整个应用的功能，也不会延迟开发进程。最经典的云原生技术拥有四大要素：微服务，容器化，DevOps和持续交付。符合云原生架构的应用程序采用开源堆栈(K8S+Docker)进行容器化，基于微服务架构提高灵活性和可维护性，借助敏捷方法、DevOps支持持续迭代和运维自动化，利用云平台设施实现弹性伸缩、动态调度、优化资源利用率。本发明使用目前最受欢迎的Kubernetes(K8S)作为基础云原生框架。

边缘计算(Edge Computing)：边缘计算是一种分布式计算框架，使应用更接近数据源，例如，IoT设备或本地边缘服务器。这样接近数据源可以带来显著的业务效益：更快获得洞察，缩短响应时间，提高带宽可用性。互联设备产生的海量数据和前所未有的复杂性已经超出了网络和基础架构的能力范围。将设备生成的所有数据发送到集中式数据中心或云端会导致带宽和延迟问题。边缘计算提供了更高效的替代方法：在更接近创建数据的位置处理和分析数据。由于数据不会通过网络传输到云端或数据中心以进行处理，因此延迟显著减少。边缘计算以及在5G网络上进行的移动边缘计算支持更快、更全面的数据分析，创造机会获得更深入的洞察，缩短响应时间并改善客户体验。

深度强化学习(Deep Reinforcement Learning)：深度强化学习是深度学习和强化学习的结合，相较于深度学习，它更侧重于强化学习的决策能力。深度学习的作用是利用深度神经网络的强大表示能力来拟合值函数，或者使用直接策略来解决离散状态动作空间或连续状态动作空间的梯度爆炸问题。强化学习的目标是使环境中的智能体能够在当前状态下采取最佳行动，以最大化长期收益，其中智能体在环境中的动作与状态之间的相互作用被建模为马尔可夫决策过程(Markov Decision Process,MDP)。凭借这些特性，深度强化学习在机器人技术，金融，推荐系统，无线通信等方面成为一种强有力的解决方案。

所述训练参数包括深度强化学习模型中的学习率、折扣因子、神经网络层数、神经元个数等，所述边缘节点的状态包括边缘节点的资源计算能力、内存大小、边缘节点的集合。如图1所示，所述边缘集群由同一区域内的边缘接入点和边缘节点组成，所有区域的集合表示为D＝{1,2,...,d,...D'}，本实施例以一个区域d∈D为例，其它区域均适用，区域d内的边缘节点的集合表示为β＝{1,2,...,d,...β'}。本发明中边缘集群和云集群组成边云系统，终端设备向边缘集群发送服务请求并通过边缘集群接收请求结果。

区域d对应的边缘集群的网络拓扑表示为图G_d(V,E)，V表示边缘集群中边缘节点的集合，E表示边缘集群中边缘节点之间边的集合，边缘节点i的邻域也即边缘节点i的相邻节点的集合为N_i＝{j|j∈V,e_ij∈E}，其中，e_ij表示边缘接点i与边缘节点j之间的边，且i∈V。边缘集群G_d中的边缘节点数为N，每个边缘均具有异构的资源能力，边缘接点i的计算能力表示W_i，总内存表示为R_i，总带宽表示为B_i。云集群所拥有的计算能力表示为W_cloud，内存表示为R_cloud，边缘节点与云集群之间的传输延迟表示为

所述相关数据包括服务请求的数量及种类、服务请求到达边缘节点的资源需求及延迟需求、服务请求的SLA(Service Level Agreement，服务等级协议)集合；所述资源单元的状态包括资源单元的资源计算能力和内存大小。

地理上分散的用户所持有的终端设备持续地生成随机的服务请求，这些服务请求具有不同的SLA，SLA集合表示为Q＝{1,...,q,...Q'}，对于每个q∈Q都对应有一个服务集合L_q＝{1,...,L'_q}。由于资源通道为用户请求提供了相应的SLA保障，因此资源通道和SLA一一对应，因此资源通道集合也可以表示为Q＝{1,...,q,...Q'}，资源通道集合中的各资源通道相互独立。对于资源通道q，资源通道q中资源单元的集合表示为M_q＝{1,...,m_q}。对于资源单元m∈M_q的资源计算能力表示为W_q,m，内存大小表示为R_q,m。

用户服务请求之间是异构的，比如对于服务l∈L_q，服务l的请求包大小表示为h_q,l，加载服务l所需的内存为r_q,l，服务l所需的计算资源为w_q,l，服务l的生命周期为t_q,l，服务l的执行时间为o_q,l。

由于现有技术中网络环境的多资源异构性给边云系统中的用户服务可靠性带来了严重的问题，使用传统算法考虑边云系统中大量的异构节点是具有挑战性的，即大量的约束可能导致无法解决的算法。利用多智能体深度强化学习算法将边云系统的资源重新形成逻辑隔离的资源组合，为边云系统中的各种用户服务提供了定制的隔离资源，这也可以称为边云系统中的资源单元，具有相似特征如资源、延迟、带宽等的资源单元集合称为资源通道，每个资源通道都有其对应的SLA保证，实现了用户服务的资源定制，使得SLA相同的用户服务可以在定制的隔离资源内得到调度。

S5，服务编排集合计算：基于当前时间尺度和最大化系统整体吞吐量问题对每个资源通道并行求解获取服务编排集合，如图2和图3所示，包括如下步骤：

S5.1，初始化服务编排集合S＝φ，对预设服务编排集合T进行赋值使得T＝{δ|δ∈L_q×M_q\S,∑l:)l,m)∈S∪{δ}r_q,l≤R_q,m}，其中，δ表示服务编排集合L_q×M_q中的一个元素，φ表示空集；

S5.3，对服务编排集合S进行更新，更新公式为S＝S∪{δ^*}；

所述服务编排是指为每个资源通道的资源单元提供对应的编排服务副本，例如，在资源通道q上，将服务l编排到资源单元m_q上表示为(l,m)，所有服务编排集合为

当(l,m)∈S，服务编排变量x_q,l,m为1，否则为0。

所述优化函数的公式为：

maxΩ(S)；

优化函数的约束条件为：

β1：∑_l:(l,m)∈Sr_q,l≤R_q,m；

β2：

由于用户服务之间的资源竞争会对边云系统的吞吐量产生不可忽视的负面影响。比如，假设一项服务几乎占用了特定边缘节点上的所有内存资源。在这种情况下，该边缘节点上的另一个服务将受到显著影响，即使它只需要很少的内存。因此，对用户服务进行合理的编排，可以有效减少资源竞争的负面影响。

为了最大化边云系统的整体吞吐量，根据服务编排和请求指派的强相关性建立优化目标函数，所述优化目标函数的公式为：

maxψ_q；

优化目标函数的约束条件为：

α1：

α2：

α3：

α4：

α5：

式中，

表示服务l的请求在时隙t内到达边缘节点i的次数，

表示用户对服务l的请求在时间尺度τ内的平均请求数，且时间尺度τ包括若干个时隙t，

为指示函数表示对服务l的SLA保证，

表示服务l在时间尺度τ内被编排在资源单元m的概率，

表示到达边缘节点i的服务在时隙t内被指派到资源单元m的概率。

优化目标函数表示最大化每个资源通道服务请求的数量，也即最大化边云系统的整体吞吐量，由于资源通道间的联合优化是相互独立的，其中，资源通道服务请求的数量

约束条件α1保证了请求指派变量y的概率的规范性。约束条件α2和约束条件α3保证了资源单元的内存大小和计算能力可以提供服务请求所需的资源。约束条件α4提供了目的资源单元的服务编排保证和SLA保证。约束条件α5保证了服务编排变量和请求指派变量的取值在定义域范围内。

由于优化目标函数的未知变量包括服务编排变量x和请求指派变量y，因此该问题是一个混合整数线性规划问题，并且是NP难问题。但是当服务编排集合确定时，即服务编排变量x确定的情况下，该问题就变成了线性时间可以求解的线性规划问题，也即可以将优化目标函数转化为：

maxψ_q；

优化目标函数的约束条件更新为：

α1：

α3：

α4：

α5：

α6：

α7：

式中，I_(l,m)∈S为指示函数，当(l,m)∈S时，I_(l,m)∈S为1否则为0。约束条件α6和约束条件α7保证了请求指派变量的取值在定义域范围内。

网络系统的动态性对调度算法的适应性提出了重大挑战，请求指派是决定请求能否成功服务的最后一个环节。面对网络化的系统动态，请求指派算法的设计对系统的鲁棒性起着至关重要的作用。资源定制和服务编排完成后，到达边缘节点的请求会在小时间尺度的时隙内调度到具有匹配服务副本且资源充足的资源单元。

S6，服务编排操作执行：根据步骤S5得到的服务编排集合S进行服务编排，将当前边云系统下的吞吐率作为奖励，获取下一状态的观测值；

S7，神经网络更新：根据当前时间尺度下的观测值、动作、奖励及下一状态的观测值更新神经网络的参数；

S8，强化学习模型训练：按照步骤S3-S7的方法依次进行迭代直至训练收敛。

为了保证系统的稳定性，本发明采用了双时间尺度的框架，大时间尺度τ依次进行资源定制和服务编排，小时间尺度t请求指派。为了减小保证不同服务的SLA的难度，本实施例中的服务编排和请求指派均在一个资源通道内进行，即同一资源通道内的服务请求具有相同的SLA。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，包括如下步骤：

S8，按照步骤S3-S7的方法依次进行迭代直至训练收敛。

2.根据权利要求1所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，在步骤S1中，所述训练参数包括深度强化学习模型中的学习率、折扣因子、神经网络层数、神经元个数，所述边缘节点的状态包括边缘节点的资源计算能力、内存大小、边缘节点的集合。

3.根据权利要求1所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，在步骤S2中，所述相关数据包括服务请求的数量及种类、服务请求到达边缘节点的资源需求及延迟需求、服务请求的SLA集合；所述资源单元的状态包括资源单元的资源计算能力和内存大小。

4.根据权利要求1所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，所述步骤S5包括如下步骤：

S5.3，对服务编排集合S进行更新，更新的公式为S＝S∪{δ^*}；

5.根据权利要求4所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，在步骤SS.5中，所述优化函数的公式为：

maxΩ(S)；

优化函数的约束条件为：

β1：∑_l:(l,m)∈Sr_q,l≤R_q,m；

β2：

6.根据权利要求4所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，在步骤S5.6中，所述优化目标函数表示最大化每个资源通道的服务请求的数量ψ_q，优化目标函数的公式为：

maxψ_q；

优化目标函数的约束条件为：

α1：

α2：

α3：

α4：

α5：

式中，

表示服务l的请求在时隙t内到达边缘节点i的次数，

为指示函数表示对服务l的SLA保证，

表示服务l在时间尺度τ内被编排在资源单元m的概率，

7.根据权利要求6所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，所述资源通道服务请求的数量ψ_q的计算公式为：

8.根据权利要求6所述的面向SLA的云边协同资源编排与请求调度智能优化方法，其特征在于，当服务编排集合S确定时，即服务编排变量x确定时，将步骤S5.6中的优化目标函数转化为：

maxψ_q；

优化目标函数的约束条件更新为：

α1：

α3：

α4：

α5：

α6：

α7：

式中，I_(l,m)∈S表示指示函数。