CN116643844B

CN116643844B - 面向电力超算云资源自动扩展的智能化管理系统及方法

Info

Publication number: CN116643844B
Application number: CN202310595008.6A
Authority: CN
Inventors: 粟海斌; 刘珺; 詹柱; 刘斌; 欧阳宏剑
Original assignee: Fangxin Technology Co ltd
Current assignee: Fangxin Technology Co ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2024-02-06
Anticipated expiration: 2043-05-24
Also published as: CN116643844A

Abstract

本发明公开了一种面向电力超算云资源自动扩展的智能化管理系统及方法，该系统包括中心控制模块、Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群，中心控制模块用于统筹各模块的工作；Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据；需求分析模块用于查询可用的历史数据并检查性能质量参考指标，使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖，对未来负载进行有效预测；容量规划模块用于依据负载预测，估计在下一个扩展操作中应该调配或取消调配的资源数量。本发明鲁棒性高；可有效地抑制资源扩展的抖动现象。

Description

面向电力超算云资源自动扩展的智能化管理系统及方法

技术领域

本发明涉及云计算资源调配技术领域，尤其公开了一种面向电力超算云资源自动扩展的智能化管理系统及方法。

背景技术

超算中心的云资源为最终用户提供了极大的便利性和成本效益。越来越多的电力公司依托云资源打造出信息化的支撑平台，对内整合资源、提升公司管理水平，对外拓展业务、提升服务质量。随着互联网普及和大数据的发展，电力系统的云端业务常常面临着海量数据流和高并发的现象。为了保障用户的服务质量，云中的关键型业务通常使用过度调配的资源进行部署，从而造成了巨大的能源消耗和额外的成本开销。据统计，云服务中心已经成为全球的主要碳源之一。不断上涨的能源成本、监管要求以及社会对温室气体排放的担忧，使得降低功耗对超算中心至关重要。但是，如果超算中心没有按照预定义的服务级别协议或者违背了服务质量目标，这将毫无意义。因为过高的处理时延，甚至是通信阻塞，对于用户来说是不可接受的。为此，如何降低能源消耗并满足用户服务水平协议成为当今云计算平台面临的一个重大挑战。

受新兴云计算范式的吸引，越来越多的超算中心将资源的自动扩展系统引入到业务的配置管理中。它允许云用户按需释放或获取计算资源，这使得超算中心平台能够依据动态的工作负载自动地为其业务程序调配所需的资源，而无需人工干预。资源扩展可以是水平的，也可以是垂直的。在水平扩展中，资源单元是服务实例(虚拟机或容器)，平台根据负载添加或删除新的实例。相比之下，垂直扩展通过给已经分配的服务实例添加或减少资源(例如，增加处理器的个数或减少内存大小)来实现资源的伸缩。然而，常见的操作系统或虚拟单元都不支持在其运行的时候动态的改变其所分配的资源。因此，大多数的云平台只提供基于服务实例的水平扩展。

目前，云服务中心主要提供了基于阈值的被动方法来帮助用户实现资源的自动扩展。一个典型的例子是：当监控系统发现服务实例的CPU利用率超过了70％，则添加一个实例。“70％”则是由用户手动指定的阈值。从理论上讲，简单的基于阈值的方法不涉及准确的资源估计，只涉及经验估计，这是硬编码在规则的操作部分，如添加或删除一定数量或百分比的实例。显然，对于用户来说指定适当的阈值并不总是简单的，尤其在功能复杂的业务场景中和资源监控指标多样的情况下。与此同时，新增的服务实例从启动到提供服务可能会消耗以分钟为单位的时间，因此难以适用于突发的网络负载。另外，不恰当的资源调配方案还会导致服务实例数量的抖动。这意味着资源扩展系统在短时间内频繁的执行相反的操作(扩充实例后立即释放，反之亦然)。服务实例数量的抖动并不是免费的，它会导致严重的资源浪费和更多违反服务级别协议的行为。

理想情况下，超算平台应该能够在满足用户协议和云资源成本之间找到平衡点。为此，本实施例提出了面向电力超算云资源自动扩展的智能化管理系统。系统中采用按需的、自动的，基于人工智能的长序列预测方法来预测未来的负载强度，并通过运行时服务需求估计组件来计算未来时刻应用程序所需要的实例数量。通过这种方式，不同的应用程序可以利用自动伸缩器，而无需定制设置和准备。它们对于生产过程中的变化也更加鲁棒，因为学习算法可以根据任何显著事件自适应地动态调整模型。此外，该系统采用等待窗口机制，以细粒度的方式缓解资源的频繁调配，从而抑制资源扩展的抖动现象。

发明内容

本发明提供了一种面向电力超算云资源自动扩展的智能化管理系统及方法，旨在解决现有云服务中心提供的基于阈值的被动方法中存在的难以适用于突发的网络负载、以及不恰当的资源调配方案还会导致服务实例数量的抖动的技术问题。

本发明的一方面涉及一种面向电力超算云资源自动扩展的智能化管理系统，包括中心控制模块、Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群，其中，

中心控制模块作为系统的中枢，分别与Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群相连接，用于统筹Prometheus服务监控和采集模块、需求分析模块和容量规划模块的工作，并通过资源伸缩指令控制Kubernetes集群中的业务容器数量；

Prometheus服务监控和采集模块，用于收集、处理和汇总服务的实时量化数据，并把收集来的数据存储在时序数据库中；

需求分析模块，用于查询可用的历史数据并检查性能质量参考指标，使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖，对未来负载进行有效预测；

容量规划模块与需求分析模块相连接，用于依据需求分析模块的负载预测，估计在下一个扩展操作中应该调配或取消调配的资源数量；还用于优化资源的构成，在保证服务质量的同时，避免在资源调配的过程中发生抖动现象。

进一步地，面向电力超算云资源自动扩展的智能化管理系统还包括负载均衡器，负载均衡器与Kubernetes集群相连接，由traefik构建，用于负载请求路由的分发。

本发明的另一方面涉及一种面向电力超算云资源自动扩展的智能化管理方法，应用于上述的面向电力超算云资源自动扩展的智能化管理系统中，面向电力超算云资源自动扩展的智能化管理方法包括以下步骤：

配置和部署Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据；

控制系统进入预热阶段，在预热阶段中使用Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型，使其达到稳定的收敛状态；

中心控制模块在预热阶段后定期轮询时序数据库中可用的历史数据，并检查服务质量协议；

中心控制模块接收Prometheus服务监控和采集模块返回的时序数据；

中心控制模块将接收到的时序数据进行预处理后转发到需求分析模块；

需求分析模块接收到真实的历史数据后，对基于Transformer架构的预测模型进行滚动训练，并对未来的负载实施预测；

需求分析模块将负载预测序列和服务质量目标发送给容量规划模块；

容量规划模块在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划；

中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作；

中心控制模块如果识别到实例的数量保持不变，则结束本周期并等待下一个周期；如果识别到需要扩缩资源，则中心控制模块向Kubernetes集群发送API Server指令；

Kubernetes集群中的Master节点接收到信息后向Worker节点发送指令，以执行相应的服务实例数量的扩缩操作。

进一步地，控制系统进入预热阶段，在预热阶段中使用Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型，使其达到稳定的收敛状态的步骤包括：

预测模型把历史时刻的负载信息通过映射函数转换维度为d_x的向量；然后通过如下公式获取当前时刻的最终特征向量：

x＝e_l+e_p+e_w+e_h

其中，x为当前时刻的最终特征向量，e_l为负载特征编码，e_p为位置编码，e_w为时间编码，e_h表示节假日编码；

定义模型的输入，令模型的历史滚动窗口长度为L_x，则在时间t时刻，模型输入序列表示为：

其中，X^t表示在t时刻输入的特征序列，表示在历史滑动窗口L_x的长度中，索引为1的特征编码；

相应的，模型的目的是依据输入预测未来时刻的负载序列：

其中，Y^t表示预测未来时刻的负载序列，L_y表示预测的滑动窗口的长度，表示在预测滑动窗口L_y的长度中，在索引为L_y处的预测负载；

预测模型基于Transformer架构，多头自注意力是预测模型的关键，多头自注意力的计算公式如下所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W_m

head_i＝SelfAttention(QW_i ^Q，KW_i ^K，VW_i ^V)

其中，MultiHead(·)表示多头注意力的计算公式，Q、K、V分别表示查询矩阵、键矩阵和值矩阵；head_i指的是在多头注意力的算法中，第i个头的计算公式；SelfAttention(·)表示自注意力的计算方法；W_m,W_i,W_q,W_k,W_v指的是可学习的参数矩阵；d_k表示特征矩阵X在最后一个维度的长度；Concat(·)表示特征的聚合操作；

预测模型使用下采样的方法对每一层编码器输入的维度进行修剪，令第m层编码器的输出为则第m+1层编码器的输入为：

其中，MaxPool(·)指的是平均池化操作，σ(·)表示RELU激活函数，Conv1d(·)表示对特征矩阵实施一维卷积。

在解码阶段，长序列预测模型从输入序列中截取固定长度的短序列作为StartToken，而不是一个额定的标志；

长序列预测模型将预测的多个时间段用为0的标量填充，并与Start Token输入到编码器；

编码器输出作用于0的位置就被认为是对应时间段负载的预测值。

进一步地，容量规划模块在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划的步骤包括：

将满足服务质量协议情况下的最大请求速率与请求大小的乘积称为该服务实例的饱和点；为了留出弹性的处理空间，将饱和点的95百分位视为服务实例，则可承受的最大负载ρ_ref为：

ρ_ref＝r_srv×q_srv×95％

其中，ρ_ref为可承受的最大负载，r_srv表示作用与单一实例可服务的最大请求速率，q_srv表示请求大小；

通过以下公式推导出下一阶段服务所需要的实例数量k_reqd：

其中，Ceil(·)为向上取整函数，k_curr表示当前时刻实例数量，ρ_sys表示下一个时段的系统负载，ρ_ref表示每个服务实例可以承受的最大负载，f(·)为容忍度函数，λ表示容忍度；ρ_sys/k_curr表示未来时刻系统负载下，单个实例承受的工作负载；当p_sys/(k_currp_ref)小于容忍度λ时，则放弃本次扩缩操作；

进一步地，中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作的步骤包括：

中心控制模块所执行的资源伸缩事件表示为伸缩事件序列：

{E(t)；t∈T}

其中，T是时间片段的集合，E(t)表示在t时段所执行的伸缩事件；

一个伸缩事件由以下事件组成：

E(t)＝<Act_v,κ_v,P_v,M_v>

其中，E(t)表示在t时段所执行的伸缩事件；Act_v表示服务v在t时段被执行的动作，即调配资源或不采取任何操作；κ_v表示调配的资源量；P_v表示未执行动作前资源量；M_v表示执行动作后资源量；

抖动的问题定义如下：

给定的伸缩事件序列{E(t)；t∈T}，如果存在连续事件在η的短时间间隔内，发生相反的资源调配动作，则称这个时间间隔发生了抖动；

为了量化抖动的程度，定义如下：

其中，O_η为量化抖动的程度，x_i表示第i个事件的资源量，x_i-1表示第i-1个事件的资源量；d_i表示在第i个事件的抖动强度，其受抖动的频率影响，抖动的越频繁，d_i的值越大；相应地，d_i-1表示前一个事件的抖动强度；d_i由d_i-1通过计算得到；γ∈(0,1)表示衰减常数，值越小，d_i的衰减速度越快；k表示自上次抖动后，经历的时间间隔数量；α为超参数，控制抖动强度d_i的变化幅度。

当扩展指标指示缩减服务副本数量时，系统维持一个t_wait时长的等待窗口，并在t_wait等待窗口内分析服务的状态变化；

取t_wait等待窗口内L_wait作为与先前计算的状态值进行比较，其中，L_wait为服务实例的最大值；

如果新的扩缩方向与先前的扩缩方向相反，则跳过此次缩放。

进一步地，中心控制模块接收Prometheus服务监控和采集模块返回的时序数据中，时序数据包括服务请求率、CPU利用率、响应时间、网络流量和SLA指标。

本发明所取得的有益效果为：

本发明提供一种面向电力超算云资源自动扩展的智能化管理系统，采用中心控制模块、Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群，中心控制模块用于统筹各模块的工作；Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据，并把收集来的数据存储在时序数据库中；需求分析模块用于查询可用的历史数据并检查性能质量参考指标，使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖，对未来负载进行有效预测；容量规划模块用于依据需求分析模块的负载预测，估计在下一个扩展操作中应该调配或取消调配的资源数量。本发明提供的面向电力超算云资源自动扩展的智能化管理系统，采用按需的、自动的，基于人工智能的长序列预测方法来预测未来的负载强度，并通过运行时服务需求估计组件来计算未来时刻应用程序所需要的实例数量；通过这种方式，不同的应用程序可以利用自动伸缩器，而无需定制设置和准备；对于生产过程中的变化也更加鲁棒，因为学习算法可以根据任何显著事件自适应地动态调整模型；采用等待窗口机制，以细粒度的方式缓解资源的频繁调配，从而抑制资源扩展的抖动现象。

附图说明

图1为本发明提供的面向电力超算云资源自动扩展的智能化管理系统一实施例的功能框图；

图2为本发明提供的面向电力超算云资源自动扩展的智能化管理系统一实施例的系统架构图；

图3为本发明提供的面向电力超算云资源自动扩展的智能化管理方法一实施例的流程示意图；

图4为本发明提供的面向电力超算云资源自动扩展的智能化管理方法中长序列预测模型的训练流程图。

附图标号说明：

10、中心控制模块；20、Prometheus服务监控和采集模块；30、需求分析模块；40、容量规划模块；50、Kubernetes集群；60、负载均衡器。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

如图1和图2所示，本发明第一实施例提出一种面向电力超算云资源自动扩展的智能化管理系统，研究的目的是解决业务程序的资源规划与实际负载之间的矛盾问题。过度调配会导致资源浪费和额外的金钱成本，而调配不足会导致性能下降和违反服务级别协议。为此，本发明基于容器化的分布式架构Kubernetes和监控管理环境Prometheus，提出了面向电力超算云资源自动扩展的智能化管理系统。该面向电力超算云资源自动扩展的智能化管理系统包括中心控制模块10、Prometheus服务监控和采集模块20、需求分析模块30、容量规划模块40和Kubernetes集群50，其中，中心控制模块10作为系统的中枢，分别与Prometheus服务监控和采集模块20、需求分析模块30、容量规划模块40和Kubernetes集群50相连接，用于统筹Prometheus服务监控和采集模块20、需求分析模块30和容量规划模块40的工作，并通过资源伸缩指令控制Kubernetes集群50中的业务容器数量；Prometheus服务监控和采集模块20，用于收集、处理和汇总服务的实时量化数据，并把收集来的数据存储在时序数据库中；需求分析模块30，用于查询可用的历史数据并检查性能质量参考指标，使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖，对未来负载进行有效预测；容量规划模块40与需求分析模块30相连接，用于依据需求分析模块30的负载预测，估计在下一个扩展操作中应该调配或取消调配的资源数量；还用于优化资源的构成，在保证服务质量的同时，避免在资源调配的过程中发生抖动现象。

面向电力超算云资源自动扩展的智能化管理系统主要有以下几大部分组成：

(1)中心控制模块10：中心模块是系统的中枢，用于统筹其他模块的工作，并通过资源伸缩指令控制Kubernetes集群50中的业务容器数量。业务服务的每一个实例由容器构成。

(2)Prometheus服务监控和采集模块20：用于收集、处理和汇总服务的实时量化数据，比如请求率、响应时间和吞吐量等，并把收集来的数据存储在时序数据库中。

(3)需求分析模块30：查询可用的历史数据并检查性能质量参考指标，使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖，从而对未来负载进行有效预测。

(4)容量规划模块40：依据需求分析模块的负载预测，估计在下一个扩展操作中应该调配/取消调配多少资源。还应优化资源的构成，在保证服务质量的同时，避免在资源调配的过程中的发生抖动现象。

在上述结构中，请见图1和图2，本实施例提供的面向电力超算云资源自动扩展的智能化管理系统，还包括负载均衡器60，负载均衡器60与Kubernetes集群50相连接，由traefik构建，用于负载请求路由的分发。在本实施例中，在本实施例中，Kubernetes集群50用于容器的编排，并为业务实例的运行提供了载体。负载均衡器60由traefik构建，负载请求路由的分发。中心控制模块10、需求分析模块30和容量规划模块40是该管理系统的核心，能够按需、按量、自动化地为业务程序提供资源的供给。

步骤S100、配置和部署Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据。

配置和部署Prometheus服务监控和采集模块20用于收集、处理和汇总服务的实时量化数据。

步骤S200、控制系统进入预热阶段，在预热阶段中使用Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型，使其达到稳定的收敛状态。

系统首先会进入预热阶段。在此阶段中，使用Prometheus服务监控和采集模块20收集来的数据训练长序列预测模型，使其达到稳定的收敛状态。通过这种方式，系统可以对不同的应用程序进行特定的负载预测，而无需人工定制和准备。预热阶段后，长序列预测模型对于应用程序在运行时的变化也更加鲁棒，因为学习模型可以根据任何显著事件自适地动态调整模型。

区别于传统的预测方法，本实施例提出的预测模型会把历史时刻的负载信息通过映射函数转换维度为d_x的向量。然后，通过如下公式获取当前时刻的最终特征向量：

x＝e_l+e_p+e_w+e_h (1)

公式(1)中，x为当前时刻的最终特征向量，e_l为负载特征编码，e_p为位置编码，e_w为时间编码，e_h表示节假日编码。通过加入多种类别的编码，使得预测模型可以探索应用程序的工作负载随时间变化的周期性和随机性。

接下来，定义模型的输入。令模型的历史滚动窗口长度为L_x，则在时间t时刻，模型输入序列可以表示为：

公式(2)中，X^t表示在t时刻输入的特征序列，表示在历史滑动窗口L_x的长度中，索引为1的特征编码。

相应的，模型的目的是依据输入预测未来时刻的负载序列：

公式(3)中，Y^t表示预测未来时刻的负载序列，L_y表示预测的滑动窗口的长度，表示在预测滑动窗口L_y的长度中，在索引为L_y处的预测负载。

预测模型基于Transformer架构，由编码器和解码器组成。每个编码器和解码器又由前馈全连接层、规范化层和多头自注意力等构成。多头自注意力是预测模型的关键，可以捕获时间序列上长距离依赖，能够有效地表示序列上下文中的重要性和关系，而不受位置的限制。多头自注意力的计算公式如下所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W_m (4)

head_i＝SelfAttention(QW_i ^Q，KW_i ^K，VW_i ^V) (5)

公式(4)～(6)中，MultiHead(·)表示多头注意力的计算公式，Q、K、V分别表示查询矩阵、键矩阵和值矩阵；head_i指的是在多头注意力的算法中，第i个头的计算公式；SelfAttention(·)表示自注意力的计算方法；W_m,W_i,W_q,W_k,W_v指的是可学习的参数矩阵；d_k表示特征矩阵X在最后一个维度的长度；Concat(·)表示特征的聚合操作。多头自注意力的处理过程可以并行计算每一个位置的特征向量，因此具有较高的表征能力和运行效率。

原生的Transformer架构由多层的编码器/解码器堆叠而成，这使得模型在面对长序列输入时将会消耗较高的计算资源和内存空间，限制了模型的可伸缩性。受计算机视觉相关技术启发，预测模型使用下采样的方法对每一层编码器输入的维度进行修剪。在保留关键序列信息的同时，能够效果的降低计算的复杂度。令第m层编码器的输出为则第m+1层编码器的输入为：

公式(7)中，MaxPool(·)指的是平均池化操作，σ(·)表示RELU激活函数，Conv1d(·)表示对特征矩阵实施一维卷积。

同时，原生的Transformer架构每编码一次只能输出一个预测值。为了解决长序列编码预测过慢问题，该模型以生成推理的方式一次输出多个值作为预测。具体来说，在解码阶段，该模型从输入序列中截取固定长度的短序列作为Start Token，而不是一个额定的标志。接着，模型将预测的多个时间段用为0的标量填充，并与Start Token输入到编码器。最后，编码器输出作用于0的位置就被认为是对应时间段负载的预测值。多个连续时间段组成了该步骤所得到的负载预测序列将得到的编码预测值与监控的真实值进行均方误差计算，并使用梯度下降的方法训练模型，直至模型收敛。

步骤S300、中心控制模块在预热阶段后定期轮询时序数据库中可用的历史数据，并检查服务质量协议。

预热阶段后，中心控制模块10定期轮询时序数据库中可用的历史数据，并检查服务质量协议。

步骤S400、中心控制模块接收Prometheus服务监控和采集模块返回的时序数据。

Prometheus服务监控和采集模块20将可用的时序数据发送给中心控制模块10。

步骤S500、中心控制模块将接收到的时序数据进行预处理后转发到需求分析模块。

中心控制模块10将接收到的数据进行预处理后转到需求分析模块30。数据包括服务请求率、CPU利用率、响应时间、网络流量和SLA(Service Level Agreement，服务水平协议)指标。

步骤S600、需求分析模块接收到真实的历史数据后，对基于Transformer架构的预测模型进行滚动训练，并对未来的负载实施预测。

需求分析模块30接收到真实的历史数据后，对基于Transformer架构的预测模型进行滚动训练，并对未来的负载实施预测。

步骤S700、需求分析模块将负载预测序列和服务质量目标发送给容量规划模块。

需求分析模块30将负载预测序列和服务质量目标发送给容量规划模块40。

步骤S800、容量规划模块在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划。

容量规划模块40在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划。容量规划简单来说就是保障一个应用由足够的容量去服务当前以及未来的负载需求。高效的利用资源并满足服务质量是所有服务都需要关心的。如果能够密切关注应用的服务指标，进而改进其容量配置，这可以有效地降低应用的总成本。一个业务的总体资源使用情况主要由以下几个因素驱动：用户需求(流量)、可用容量和服务质量目标。本文提出的容量规划方法，通过监控模块得到负载数据，然后将资源与容量映射，合理部署实例数量，最终达到降低成本的目的。

每一个服务实例由容器构成，并提供单一的请求服务。相同业务的服务实例拥有同等的资源配置，因此可以认为具有十分近似的请求队列处理能力。每一个服务实例处理能力与请求速率和请求大小密切相关。本实施例将满足服务质量协议情况下的最大请求速率与请求大小的乘积称为该服务实例的饱和点。为了留出弹性的处理空间，将饱和点的95百分位视为服务实例可以承受的最大负载ρ_ref：

ρ_ref＝r_srv×q_srv×95％ (8)

公式(8)中，ρ_ref为可承受的最大负载，r_srv表示作用与单一实例可服务的最大请求速率，q_srv表示请求大小。对同一种服务，请求数量和系统负载之间有一个简单线性的关系。一旦有了未来时刻服务所承受的负载预测值和服务实例的处理能力，就可以较为容易地得到所需的实例数量。

本实施例通过以下公式推导出下一阶段服务所需要地实例数量k_reqd：

公式(9)～(10)中，Ceil(·)为向上取整函数，k_curr表示当前时刻实例数量，ρ_sys表示下一个时段的系统负载，ρ_ref表示每个服务实例可以承受的最大负载，f(·)为容忍度函数，λ表示容忍度；ρ_sys/k_curr表示未来时刻系统负载下，单个实例承受的工作负载；当p_sys/(k_currp_ref)小于容忍度λ时，则放弃本次扩缩操作。

容量规划模块40估计下一个阶段服务所需的实例数量，并将估计值发送给中心控制模块10。

步骤S900、中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作。

中心控制模块10根据下一阶段服务所需的实例数量决定是否进行扩缩操作。然而，不恰当的资源调配方案还会导致服务实例数量的抖动。这意味着资源扩展系统在短时间内频繁的执行相反的操作(扩充实例后立即释放，反之亦然)。这种抖动的现象不仅会造成额外的服务迁移的数据传输成本，还会影响用户的服务水平质量。为此，本实施例制定了一个缓解抖动的机制，从而减轻资源频繁伸缩带来的影响。

中心控制模块10所执行的资源伸缩事件可以表示为事件序列：

{E(t)；t∈T} (11)

公式(11)中，T是时间片段的集合，E(t)表示在t时段所执行的伸缩事件。

具体来说，一个伸缩事件由以下事件组成：

E(t)＝<Act_v,κ_v,P_v,M_v> (12)

公式(12)中，E(t)表示在t时段所执行的伸缩事件；Act_v表示服务v在t时段被执行的动作，即调配资源或不采取任何操作；κ_v表示调配的资源量；P_v表示未执行动作前资源量；M_v表示执行动作后资源量。

抖动的问题可以定义如下：给定的伸缩事件序列{E(t)；t∈T}，如果存在连续事件在η的短时间间隔内，发生相反的资源调配动作，则称这个时间间隔发生了抖动。在发生一次抖动可以量化为前后资源量的偏差，但是高频率的抖动会严重影响服务质量并增加系统成本，为了量化抖动的程度，定义如下：

公式(13)中，O_η为量化抖动的程度，x_i表示第i个事件的资源量，x_i-1表示第i-1个事件的资源量；d_i表示在第i个事件的抖动强度，其受抖动的频率影响，抖动的越频繁，d_i的值越大；相应地，d_i-1表示前一个事件的抖动强度；d_i由d_i-1通过计算得到；γ∈(0,1)表示衰减常数，值越小，d_i的衰减速度越快；k表示自上次抖动后，经历的时间间隔数量。α为超参数，控制抖动强度d_i的变化幅度。

开启一个服务实例的时间远远小于关闭一个服务实例的时间。关闭一个实例可以立即停止该副本的服务，但是当负载又回升之后，开启的新实例本无法即时提供服务。这种轻率的关闭服务实例的举动引发的抖动尤为严重。为此，本实施例提出了等待窗口方法，通过简单保守的缩减实例数量机制来实现对抖动的抑制。弹性伸缩中心控制模块使用等待窗口t_wait将未来系统的服务状态纳入考量当中，而不是立即缩减副本数量。具体来说，当扩展指标指示缩减服务副本数量时，系统维持一个t_wait时长的等待窗口，并在t_wait等待窗口内分析服务的状态变化。取t_wait等待窗口内L_wait(服务实例的最大值)作为与先前计算的状态值进行比较。例如：如果新的扩缩方向与先前的扩缩方向相同，且扩缩比率大于等于先前扩缩比率，则取最小的比率进行缩减(缩减速率不超过50％，且最终副本数量不小于最小副本数量)；如果新的扩缩方向与先前的扩缩方向相反，则跳过此次缩放。

中心控制模块根据分析决定扩缩业务实例的数量。

步骤S1000、中心控制模块如果识别到实例的数量保持不变，则结束本周期并等待下一个周期；如果识别到需要扩缩资源，则中心控制模块向Kubernetes集群发送APIServer指令。

如果实例的数量保持不变，结束本周期并等待下一个周期。如果需要扩缩资源则中心控制模块向Kubernetes集群发送API Server指令，并执行步骤1100。

步骤S1100、Kubernetes集群中的Master节点接收到信息后向Worker节点发送指令，以执行相应的服务实例数量的扩缩操作。

云计算范式在信通技术领域变得非常重要，因为它解决了现代互联网和计算服务的可管理性和效率问题。超算中心具有强大的计算能力、大规模的存储能力以及高速的网络带宽，为电力业务上云提供了敏捷性和便利性。然而，随着互联网普及和大数据发展，电力系统的云端业务常常面临着海量数据流和高并发的现象。为了保障用户的服务质量，云中的关键型业务通常使用过度调配的资源进行部署，从而造成了巨大的能源消耗和额外的成本开销。本实施例基于容器化的分布式架构Kubernetes和监控管理环境Prometheus，提出了面向电力超算云资源自动扩展的智能化管理系统。

与传统的技术相比，本实施例提供的面向电力超算云资源自动扩展的智能化管理系统及方法，效果如下：

本实施例将基于深度学习的长序列预测模型融入到了自动扩展管理系统中，该模型能够有效捕获时间序列上长距离依赖，并解决了长序列编码预测过慢问题；本实施例设计了智能化资源自动扩展管理系统。该系统下的应用业务可以自动的、按需的获取资源，而无需人工定制和准备。对于生产过程中的变化也更加鲁棒。本实施例对资源调配过程中的抖动现象进行了分析和定义，并制定了等待窗口策略，从而有效地缓解资源频繁伸缩对能源消耗和服务质量的影响。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种面向电力超算云资源自动扩展的智能化管理方法，其特征在于，所述面向电力超算云资源自动扩展的智能化管理方法包括以下步骤：

控制系统进入预热阶段，在预热阶段中使用所述Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型，使其达到稳定的收敛状态；

所述中心控制模块接收所述Prometheus服务监控和采集模块返回的时序数据；

所述中心控制模块将接收到的时序数据进行预处理后转发到需求分析模块；

所述需求分析模块将负载预测序列和服务质量目标发送给容量规划模块；

所述中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作；

所述中心控制模块如果识别到实例的数量保持不变，则结束本周期并等待下一个周期；如果识别到需要扩缩资源，则所述中心控制模块向Kubernetes集群发送API Server指令；

所述Kubernetes集群中的Master节点接收到信息后向Worker节点发送指令，以执行相应的服务实例数量的扩缩操作；

所述容量规划模块在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划的步骤包括：

ρ_ref＝r_srv×q_srv×95％

通过以下公式推导出下一阶段服务所需要的实例数量k_reqd：

其中，Ceil(·)为向上取整函数，k_curr表示当前时刻实例数量，ρ_sys表示下一个时段的系统负载，ρ_ref表示每个服务实例可以承受的最大负载，f(·)为容忍度函数，λ表示容忍度；ρ_sys/k_curr表示未来时刻系统负载下，单个实例承受的工作负载；当p_sys/(k_cuurp_ref)小于容忍度λ时，则放弃本次扩缩操作；

所述中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作的步骤包括：

所述中心控制模块所执行的资源伸缩事件表示为伸缩事件序列：

{E(t)；t∈T}

一个伸缩事件由以下事件组成：

E(t)＝＜Act_v,κ_v,P_v,M_v＞

所述中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作的步骤中，抖动的问题定义如下：

为了量化抖动的程度，定义如下：

其中，O_η为量化抖动的程度，x_i表示第i个事件的资源量，x_i-1表示第i-1个事件的资源量；d_i表示在第i个事件的抖动强度，其受抖动的频率影响，抖动的越频繁，d_i的值越大；相应地，d_i-1表示前一个事件的抖动强度；d_i由d_i-1通过计算得到；γ∈(0,1)表示衰减常数，值越小，d_i的衰减速度越快；k表示自上次抖动后，经历的时间间隔数量；α为超参数，控制抖动强度d_i的变化幅度；

2.如权利要求1所述的面向电力超算云资源自动扩展的智能化管理方法，其特征在于，所述控制系统进入预热阶段，在预热阶段中使用所述Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型，使其达到稳定的收敛状态的步骤包括：

x＝e_l+e_p+e_w+e_h

相应的，模型的目的是依据输入预测未来时刻的负载序列：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W_m

head_i＝SelfAttention(QW_i ^Q,KW_i ^K,VW_i ^V)

3.如权利要求2所述的面向电力超算云资源自动扩展的智能化管理方法，其特征在于，所述控制系统进入预热阶段，在预热阶段中使用所述Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型，使其达到稳定的收敛状态的步骤包括：

在解码阶段，长序列预测模型从输入序列中截取固定长度的短序列作为Start Token，而不是一个额定的标志；

所述编码器输出作用于0的位置就被认为是对应时间段负载的预测值。

4.如权利要求3所述的面向电力超算云资源自动扩展的智能化管理方法，其特征在于，所述中心控制模块接收所述Prometheus服务监控和采集模块返回的时序数据中，所述时序数据包括服务请求率、CPU利用率、响应时间、网络流量和SLA指标。

5.一种面向电力超算云资源自动扩展的智能化管理系统，其实现权利要求1-4任意一项所述面向电力超算云资源自动扩展的智能化管理的方法，其特征在于，所述面向电力超算云资源自动扩展的智能化管理系统包括中心控制模块(10)、Prometheus服务监控和采集模块(20)、需求分析模块(30)、容量规划模块(40)和Kubernetes集群(50)，其中，

所述中心控制模块(10)分别与所述Prometheus服务监控和采集模块(20)、所述需求分析模块(30)、所述容量规划模块(40)和所述Kubernetes集群(50)相连接，用于作为系统的中枢，统筹所述Prometheus服务监控和采集模块(20)、所述需求分析模块(30)和所述容量规划模块(40)的工作，并通过资源伸缩指令控制所述Kubernetes集群(50)中的业务容器数量；

所述Prometheus服务监控和采集模块(20)，用于收集、处理和汇总服务的实时量化数据，并把收集来的数据存储在时序数据库中；

所述需求分析模块(30)，用于查询可用的历史数据并检查性能质量参考指标，使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖，对未来负载进行有效预测；

所述容量规划模块(40)与所述需求分析模块(30)相连接，用于依据所述需求分析模块(30)的负载预测，估计在下一个扩展操作中应该调配或取消调配的资源数量；还用于优化资源的构成，在保证服务质量的同时，避免在资源调配的过程中发生抖动现象。

6.如权利要求5所述的面向电力超算云资源自动扩展的智能化管理系统，其特征在于，所述面向电力超算云资源自动扩展的智能化管理系统还包括负载均衡器(60)，所述负载均衡器(60)与所述Kubernetes集群(50)相连接，由traefik构建，用于负载请求路由的分发。