CN116610534B

CN116610534B - 一种基于Kubernetes集群资源的改进预测性弹性伸缩方法

Info

Publication number: CN116610534B
Application number: CN202310877248.5A
Authority: CN
Inventors: 李凡; 牛新征; 马勇; 胡千龙; 王流一; 常璐瑶; 钱早国
Original assignee: Guizhou Haiyou Science And Technology Co ltd
Current assignee: Guizhou Haiyou Science And Technology Co ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-10-03
Anticipated expiration: 2043-07-18
Also published as: CN116610534A

Abstract

本发明公开了一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，所述方法包括：获取实时集群资源时序数据并对数据进行预处理，构造成训练集资源矩阵和测试集资源矩阵；引入特征提取神经网络进行特征提取，得到资源特征向量；构建H‑GBDT模型，利用训练集资源特征向量进行训练；计算集群资源相关性系数和集群资源权重系数；通过H‑GBDT模型预测未来1分钟资源时间序列数据；构建弹性伸缩评分指标Score，计算未来1分钟资源时间序列数据弹性伸缩评分指标，根据伸缩规则对集群容器调度单元pod进行弹性伸缩容。通过上述方法，本发明提前感知并对集群容器调度单元pod进行弹性伸缩容，提高集群负载能力。

Description

一种基于Kubernetes集群资源的改进预测性弹性伸缩方法

技术领域

本发明涉及云计算与分布式弹性伸缩领域，具体是基于Kubernetes的一种改进的预测性弹性伸缩方法。

背景技术

Kubernetes是一种开源容器编排系统，能够自动部署、扩展和管理容器化的应用程序。Kubernetes能够通过HPA特性根据需要自动增加或减少副本的数量来维持应用程序所需的性能水平，但现有的HPA策略在响应式服务方向存在明显的不足，不能够及时的增加或者减少容器，会导致服务延迟，服务不可用或中断等情况。

公开号为CN114637650A，名称为一种基于Kubernetes集群的弹性伸缩方法，提出基于CNN-LSTM混合网络，根据历史指标值预测未来工作负载，通过当前指标值与预测指标值之差的绝对值与设定阈值进行比较，大于或等于设定阈值，则进行扩缩容，同时设定计时器用于避免当前扩缩容操作与前一次的扩缩容操作发生冲突。

公开号为CN115774605A，名称为Kubernetes的预测式弹性伸缩方法及系统，提出EEMD-CNN- BIGRU组合预测模型，通过当前时刻之前的预设时间内的负载量信息，获取下一个滑动窗口的HTTP请求量，根据下一个滑动窗口的HTTP请求量计算下一个滑动窗口的期望的Pod副本数量，根据期望的Pod副本数量对当前应用的Pod副本数量进行弹性伸缩。

上述现有技术虽然对资源的负载均衡做出了应对的方案，但是不同资源在系统中的权重系数是不同的，人为自定义权重存在一定的误差，通过计算得出的权重可以更好的反应负载均衡情况。所以本发明提出了一种基于Kubernetes集群资源的改进预测性弹性伸缩方法。

发明内容

本发明主要解决的技术问题是提供一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，能够解决弹性伸缩延迟高和单一权重指标无法反映系负载均衡情况的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，所述方法包括：

S100：通过Prometheus监控工具实时获取集群资源时序数据并进行数据预处理；

S200：将预处理后的集群资源时序数据划分为资源时序训练数据和资源时序测试数据，并构造成训练集资源矩阵和测试集资源矩阵；

S300：引入特征提取神经网络对所述训练集资源矩阵和测试集资源矩阵进行特征提取，得到训练集资源特征向量和测试集资源特征向量；

S400：构建H-GBDT模型，使用所述训练集资源特征向量进行训练模型，用于预测未来1分钟资源时间序列数据；

S500：根据所述训练集资源时序数据计算集群资源相关性系数；

S600：根据所述集群资源相关性系数计算集群资源权重系数；

S700：通过所述H-GBDT模型对所述集群资源时序数据进行预测，获得未来1分钟资源时间序列数据；

S800：根据所述集群资源权重系数构造弹性伸缩评分指标Score，计算所述未来1分钟资源时间序列数据的弹性伸缩评分指标，根据伸缩规则对集群容器调度单元pod进行弹性伸缩容；

所述弹性伸缩评分指标Score，计算公式为：

；

其中，是指当前CPU使用量，/>是指当前磁盘I/O操作耗费时间，/>是指当前内存使用量，/>是指当前网络传输速率，/>是指CPU使用量的权重系数，/>是指磁盘I/O所需时间权重系数，/>是指内存的权重系数，/>是指网络传输速率权重系数，/>是指在训练集中CPU使用量最大值，/>是指在训练集中磁盘I/O所需时间最大值，/>是指在训练集中内存使用量最大值，/>是指在训练集中网络传输速率的最大值；

所述伸缩规则，是指通过判断未来1分钟资源时间序列数据的弹性伸缩评分指标与临界值的大小对pod进行弹性伸缩容；若，则定义为扩容状态并增加pod个数对pod进行扩容，若/>，则定义为缩容状态并减少pod个数对pod进行缩容，若，定义为稳定状态则不对pod进行伸缩容。

进一步地，所述集群资源时序数据包括：CPU使用量、磁盘I/O操作耗费时间、内存使用量、网络传输速率；

所述训练集资源矩阵和测试集资源矩阵，表示为：

；

其中，是指内存使用量数值， />是指CPU使用量数值，/>是指磁盘i/o消耗时间数值， />是指网络传输速率数值，n是指资源时序训练数据的个数；

所述特征提取神经网络由两个卷积层和两个池化层组成，并且连接一个全连接层作为输出，其中，两个卷积层的卷积核均为4×4，两个池化层的卷积核均为2×2。

进一步地，所述H-GBDT模型，计算公式为：

；

其中，是指H-GBDT算法，x是指输入样本，/>是指模型参数，/>是指分类回归树；/>是指树的权重，/>，M为分类回归树的数量。

进一步地，所述训练H-GBDT模型，包括：

S410：初始化第一个弱学习器；

S420：建立M棵分类回归树，计算每个输入样本第m轮迭代对应的残差；

S430：利用CART回归树拟合样本残差数据得到第m轮迭代对应的叶子节点区域/>；

S440：引入树的权重，通过拟合残差公式计算所述叶子节点区域/>的拟合值；

S450：通过交叉验证方式对所述树的权重持续训练调优；

S460：更新强学习器；

S470：采用所述测试集资源特征向量检验模型性能；

所述弱学习器公式为：

；

其中，x为输入样本，y为输出空间，是指平方误差损失函数，c为损失函数最小的分类器，/>，N为训练集特征向量个数；

所述第m轮迭代对应的残差，计算公式为：

；

其中，是指第m轮迭代中第i个样本的残差，/>是指第m-1轮迭代后H-GBDT模型的预测值，/>是指H-GBDT模型的预测值；

所述拟合残差计算公式，计算公式为：

；

其中，是指第m轮迭代中第j棵树的拟合值, />是指树的权重，/>是指平方误差损失函数，c是指损失函数最小的分类器，/>是指第m棵回归树对应的叶子节点区域；

所述强学习器，公式为：

；

其中，，/> 是指第m棵分类回归树叶子节点的个数，/>是指第m-1轮迭代后模型的预测值，/>表示样本x是否属于第m棵树中第j个叶子节点。

进一步地，所述集群资源相关性系数，计算公式为：

；

其中，指不同集群资源之间的相关性系数，/>和/>指不同集群资源的数值， />和/>指不同集群资源的样本平均值。

进一步地，所述集群资源权重系数，计算公式为：

；

其中，是指不同集群资源的权重系数，/>是指第i个不同集群资源之间的相关性系数，n是指集群资源相关性系数的资源个数。

本发明的有益效果是：

1．本发明提供的一种基于Kubernetes集群资源的改进预测性弹性伸缩方法采用特征提取神经网络和H-GBDT算法对实时时间序列进行预测，减少数据维度，使得预测效果出众。

2．本发明提供的一种基于Kubernetes集群资源的改进预测性弹性伸缩方法对多指标进行分析并且计算资源权重，综合得出一个评分指标，能够更全面反应负载均衡情况，避免了在大量请求时系统反应过慢，网络延迟等问题。

附图说明

图1是一种基于Kubernetes集群资源的改进预测性弹性伸缩方法的流程图。

图2是一种基于Kubernetes集群资源的改进预测性弹性伸缩方法的H-GBDT模型训练流程图。

图3是一种基于Kubernetes集群资源的改进预测性弹性伸缩方法的伸缩规则流程图。

图4是一种基于Kubernetes集群资源的改进预测性弹性伸缩方法的流程示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1、图2、图3和图4，本发明实施例包括：

如图1和图4所示，一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，其特征在于，所述方法包括：

所述集群资源时序数据包括：CPU使用量、磁盘I/O操作耗费时间、内存使用量、网络传输速率；

S200：将预处理后的集群资源时序数据划分为资源时序训练数据和资源时序测试数据，并构造成训练集资源矩阵和测试集资源矩阵。

进一步地，所述训练集资源矩阵和测试集资源矩阵，表示为：

；

其中，是指内存使用量数值， />是指CPU使用量数值，/>是指磁盘i/o消耗时间数值， />是指网络传输速率数值，n是指资源时序训练数据的个数。

S300：引入特征提取神经网络对所述训练集资源矩阵和测试集资源矩阵进行特征提取，得到训练集资源特征向量和测试集资源特征向量。

进一步地，所述特征提取卷积神经网络由两个卷积层和两个池化层组成，并且连接一个全连接层作为输出，其中，两个卷积层的卷积核均为4×4，两个池化层的卷积核均为2×2。

S400：构建H-GBDT模型，使用所述训练集资源特征向量进行训练模型，用于预测未来1分钟资源时间序列数据。

进一步地，所述H-GBDT模型，计算公式为：

；

进一步地，参照图2所述训练H-GBDT模型，包括：

S410：初始化第一个弱学习器；

S450：通过交叉验证方式对所述树的权重持续训练调优；

S460：更新强学习器；

S470：采用所述测试集资源特征向量检验模型性能；

所述弱学习器公式为：

；

所述第m轮迭代对应的残差，计算公式为：

；

所述拟合残差计算公式，计算公式为：

；

所述强学习器，公式为：

；

S500：根据所述训练集资源时序数据计算集群资源相关性系数。

进一步地，所述集群资源相关性系数，计算公式为：

；

S600：根据所述集群资源相关性系数计算集群资源权重系数。

进一步地，所述集群资源权重系数，计算公式为：

；

所述弹性伸缩评分指标Score，计算公式为：

；

其中，是指当前CPU使用量，/>是指当前磁盘I/O操作耗费时间，/>是指当前内存使用量，/>是指当前网络传输速率，/>是指CPU使用量的权重系数，/>是指磁盘I/O所需时间权重系数，/>是指内存的权重系数，/>是指网络传输速率权重系数，/>是指在训练集中CPU使用量最大值，/>是指在训练集中磁盘I/O所需时间最大值，/>是指在训练集中内存使用量最大值，/>是指在训练集中网络传输速率的最大值。

所述临界值是指通过计算集群资源利用率分类，计算三类利用率所对应的资源时间序列数据的弹性伸缩评分指标Score所得出，计算集群资源利用率，计算公式为：

；

其中，是指当前CPU使用量，/>是指当前磁盘I/O操作耗费时间，/>是指当前内存使用量，/>是指当前网络传输速率，/>是指CPU使用量的权重系数，/>是指磁盘I/O所需时间权重系数，/>是指内存的权重系数，/>是指网络传输速率权重系，/>是指集群资源CPU临界负载量，/>是指磁盘I/O所需时间能临界负载量，/>是指内存临界负载量，/>是指网络传输速率最大负载量；

当集群资源利用率小于等于阈值0.3时，属于低利用率，大于阈值0.3，小于等于阈值0.6时属于中等利用率，大于阈值0.6时，属于高利用率；分别将三类利用率所对应的集群资源使用量以及集群资源权重系数代入弹性伸缩评分指标Score计算得出三类利用率所对应的弹性伸缩评分指标Score临界值，可以得出当利用率大于0.6时，，定义为扩充状态，利用率小于等于0.3时，/>，定义为缩容状态，利用率大于0.3小于等于0.6时，/>，则定义为稳定状态。

参照图3，所述伸缩规则，是指通过判断所述未来1分钟资源时间序列数据的Score与临界值的大小对pod进行弹性伸缩容；是指通过判断未来1分钟资源时间序列数据的弹性伸缩评分指标与临界值的大小对pod进行弹性伸缩容；若，则定义为扩充状态并增加pod个数对pod进行扩容，若/>，则定义为缩容状态并减少pod个数对pod进行缩容，若/>，定义为稳定状态则不对pod进行伸缩容。

以下结合实施例1对本发明的特征和性能作进一步的详细描述。

通过Prometheus监控工具实时获取集群资源时序数据部分数据如下：

所述资源相关性系数计算结果如下：

S600：根据所述集群资源相关性系数计算集群资源权重系数；

所述集群资源权重系数计算结果分别为： CPU使用量的权重系数0.42，磁盘I/O所需时间权重系数0.4975，内存的权重系数0.35，网络传输速率权重系数0.4425；

所述未来1分钟资源时间序列数据部分如下：

所述未来1分钟资源时间序列数据的弹性伸缩评分指标，结果如下：

本发明的实施例1中根据未来1分钟资源时间序列数据的弹性伸缩评分指标可以得出在未来1分钟内弹性伸缩评分指标均大于0.8，定义为扩充状态，需要增加pod个数对pod进行扩容。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，其特征在于，包括：

S200：将预处理后的集群资源时序数据划分为训练集资源时序数据和测试集资源时序数据，并构造成训练集资源矩阵和测试集资源矩阵；

S600：根据所述集群资源相关性系数计算集群资源权重系数；

所述H-GBDT模型，计算公式为：

其中，F(x,w)是指H-GBDT算法，x是指输入样本，w_m是指模型参数，h_m是指分类回归树；α_m是指树的权重，m＝1,2,3,……M，M为分类回归树的数量；

所述集群资源相关性系数，计算公式为：

其中，Correl(G,H)指不同集群资源之间的相关性系数，g和h指不同集群资源的数值，和/>指不同集群资源的样本平均值；

所述集群资源权重系数，计算公式为：

其中，Weight(x)是指不同集群资源的权重系数，Ci是指第i个不同集群资源之间的相关性系数，n是指集群资源相关性系数的资源个数；

所述弹性伸缩评分指标Score，计算公式为：

其中，α是指当前CPU使用量，β是指当前磁盘I/O操作耗费时间，γ是指当前内存使用量，δ是指当前网络传输速率，W_α是指CPU使用量的权重系数，W_β是指磁盘I/O所需时间权重系数，W_γ是指内存的权重系数，W_δ是指网络传输速率权重系数，α_max是指在训练集中CPU使用量最大值，β_max是指在训练集中磁盘I/O所需时间最大值，δ_max是指在训练集中内存使用量最大值，γ_max是指在训练集中网络传输速率的最大值；

所述伸缩规则，是指通过判断未来1分钟资源时间序列数据的弹性伸缩评分指标与临界值的大小对pod进行弹性伸缩容；若Score>0.8，则定义为扩充状态并增加pod个数对pod进行扩容，若Score<0.6，则定义为缩容状态并减少pod个数对pod进行缩容，若0.6≤Score≤0.8，定义为稳定状态则不对pod进行伸缩容。

2.如权利要求1所述的一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，其特征在于，所述集群资源时序数据包括：CPU使用量、磁盘I/O操作耗费时间、内存使用量、网络传输速率；

所述训练集资源矩阵和测试集资源矩阵，表示为：

其中，a_n是指内存使用量数值，b_n是指CPU使用量数值，c_n是指磁盘i/o消耗时间数值，d_n是指网络传输速率数值，n是指资源时序训练数据的个数；

3.如权利要求1所述的一种基于Kubernetes集群资源的改进预测性弹性伸缩方法，其特征在于，所述训练H-GBDT模型，包括：

S410：初始化第一个弱学习器F₀(x)；

S430：利用CART回归树拟合样本残差数据(x_i,r_m,i)得到第m轮迭代对应的叶子节点区域R_m,j；

S440：引入树的权重α_m，通过拟合残差公式计算所述叶子节点区域R_m,j的拟合值；

S450：通过交叉验证方式对所述树的权重α_m持续训练调优；

S460：更新强学习器F_m(x)；

S470：采用所述测试集资源特征向量检验模型性能；

所述弱学习器F₀(x)公式为：

其中，x为输入样本，y为输出空间，L(y_i,c)是指平方误差损失函数，c为损失函数最小的分类器，i＝1,2,3,……N，N为训练集特征向量个数；

所述第m轮迭代对应的残差，计算公式为：

其中，r_m,i是指第m轮迭代中第i个样本的残差，F_m-1(x)是指第m-1轮迭代后H-GBDT模型的预测值，F(x)是指H-GBDT模型的预测值；

所述拟合残差计算公式，计算公式为：

其中，c_m,j是指第m轮迭代中第j棵树的拟合值,α_m是指树的权重，L(y_i,F₀(x_i)是指平方误差损失函数，c是指损失函数最小的分类器，R_m,j是指第m棵回归树对应的叶子节点区域；

所述强学习器F_m(x)，公式为：

其中，j＝1,2,3…j_m，j_m是指第m棵分类回归树叶子节点的个数，F_m-1(x)是指第m-1轮迭代后模型的预测值，I(x∈R_m,j))表示样本x是否属于第m棵树中第j个叶子节点。