CN113553150A

CN113553150A - 一种云服务器集群负载预测方法、系统、终端以及存储介质

Info

Publication number: CN113553150A
Application number: CN202110753412.2A
Authority: CN
Inventors: 徐敏贤; 宋承浩; 孟天晖; 叶可江; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-26

Abstract

本申请涉及一种云服务器集群负载预测方法、系统、终端以及存储介质。包括：获取云数据中心的云服务器集群任务负载数据；利用S‑MTF算法将所述任务负载数据由多变量时间序列转化为有监督学习序列；将所述转化后的任务负载数据输入训练好的基于卷积‑门控循环单元的esDNN模型，通过所述esDNN网络模型对所述云数据中心在未来预设时间内的负载状态进行预测。本申请实施例解决了现有预测方法难以应对高维度、高变化性、多变量的任务负载预测，以及云服务器任务负载预测不准确、预测方法过于复杂、训练时间过长、长时间序列梯度消失等问题。

Description

一种云服务器集群负载预测方法、系统、终端以及存储介质

技术领域

本申请属于云计算技术领域，特别涉及一种云服务器集群负载预测方法、系统、终端以及存储介质。

背景技术

作为IT技术的重要组成部分，云计算技术同时为服务提供商和客户带来了诸多好处，被认为是IT行业的一种成功的运营模式。但是云计算也面临着许多挑战，其中之一是针对动态任务负载的资源配置效率十分低下。云服务器任务负载预测不仅能方便云服务提供商更好地处理高负载问题，提高云服务器的稳定性，还能使云服务器的使用者在使用云服务时始终保持稳定的状态，因此云服务器的任务负载预测问题已经成为了决定如何选择资源配置方案的决定性问题。

目前而言，主流的云服务器任务负载预测方法主要包括：

(1)逻辑回归预测：逻辑回归预测又称Logisitic回归预测，常被应用于单变量或多变量的时间序列预测等领域，其本质为二分类问题，可以用来表示某件事情发生的可能性。逻辑回归具有实现简单，分类时计算量非常小，速度很快，存储资源低等优点。但是当特征空间很大时，逻辑回归的预测效果并不是很好，而且在预测过程中容易发生欠拟合，准确度不高。

(2)循环神经网络(Recurrent Neural Network，RNN)：循环神经网络是神经网络中的一种，该网络在处理数据时不仅考虑了当前状态的输入，还考虑了之前的信息，所以对具有序列特性的数据十分敏感。但是，由于其自身结构的原因，常常会在训练时出现梯度消失或梯度爆炸，因此，不能处理一些过长的时间序列。

(3)长短期记忆(Long Short-Term Memory，LSTM)：长短期记忆是循环神经网络的一种变体，常常被应用于训练多变量时间序列预测模型，可以解决梯度消失与梯度爆炸以及如何更好的分析、预测时间序列等问题。但是，长短期记忆所需要的样本数据量很大，如果样本数据量不足可能会造成模型预测不准确等问题。除此之外，由与自身内部结构原因，长短期记忆训练所需要的时间非常长。

发明内容

本申请提供了一种云服务器集群负载预测方法、系统、终端以及存储介质，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种云服务器集群负载预测方法，包括：

获取云数据中心的云服务器集群任务负载数据；

利用S-MTF算法将所述任务负载数据由多变量时间序列转化为有监督学习序列；

将所述转化后的任务负载数据输入训练好的基于卷积-门控循环单元的esDNN模型，通过所述esDNN网络模型对所述云数据中心在未来预设时间内的负载状态进行预测。

本申请实施例采取的技术方案还包括：所述获取的任务负载数据包括时间戳、机器编号、CPU利用率以及内存占用大小。

本申请实施例采取的技术方案还包括：所述获取云数据中心的云服务器集群任务负载数据之后还包括：

对所述任务负载数据进行数据清洗与数据归一化；

所述数据清洗具体为：删除所述任务负载数据中包含空数据的冗余项，然后，按照时间序列对所述任务负载数据进行分类，利用分组函数计算出具有相同时间戳的每个参数的平均值；

所述数据归一化具体为：使用MinMaxScaler对每个数据进行变换，将每个数据缩放为介于0与1之间的小数，MinMaxScaler操作公式为：

X_scaled＝X_std*(X_max-X_min)+X_min

上式中，X代表待处理数据的集合，X_std代表将集合X的值转化为标准化值的中间值，X_min和X_max分别为集合中的最小和最大数据，X_scaled为最终归一化处理后的数据。

本申请实施例采取的技术方案还包括：所述利用S-MTF算法将所述任务负载数据由多变量时间序列转化为有监督学习序列具体为：

同时获取当前时刻t的时间序列数据E(t)、上一时刻的时间序列数据E(t-1)以及下一时刻的时间序列数据E(t+1)；

分别将E(t)与E(t-1)和E(t+1)进行重组，得到转化中间过程中的时间序列重组数据L(i-1)，C(i)与F(i+1)；

将L(i-1)，C(i)与F(i+1)三个数据进行拼接，分别得到当前时刻、上一时刻以及下一时刻对应的有监督学习序列S(n)，S(n-1)与S(n+1)。

本申请实施例采取的技术方案还包括：所述esDNN模型的第一层为1DCNN模型，所述1D CNN模型包括输入层、卷积层、池化层、非线性层和全连接层；所述esDNN模型的第二层为GRU层；所述GRU包括更新门、重置门、候选隐藏层以及输出门，各门控单元计算公式为：

z_t＝σ(W_z·[h_t-1，x_t])

r_t＝σ(W_r·[h_t-1，x_t])

y′_t＝tanh(W·[r_t*h_t-1，x_t])

y_t＝(1-z_t)*h_t-1+z_t*y′_t

上式中，z_t为更新门，r_t为重置门，y_t为候选隐藏层，y_t为输出门；σ代表激活函数，W、W_z、W_h分别为在GRU单元内传播的矩阵；h_t代表当前GRU单元的输出值，h_t-1代表上一个GRU单元的输出值；x_t代表当前时刻传出的待预测值，矩阵W由x_t转化而成。

本申请实施例采取的技术方案还包括：所述esDNN模型的激活函数为：

将ReLU和Sigmoid相乘，作为esDNN模型的激活函数Swish：

f(x)＝x·sigmoid(βx)

上式中，β是一个常数或者一个可训练的参数。

本申请实施例采取的技术方案还包括：所述通过所述esDNN网络模型对所述云数据中心在未来预设时间内的负载状态进行预测还包括：

基于所述云数据中心在未来预设时间段内的负载状态变化趋势，利用自动扩展机制调整云数据中心的服务器调度策略，对所述云服务器集群内的机器数量进行调整。

本申请实施例采取的另一技术方案为：一种云服务器集群负载预测系统，包括：

数据获取模块：用于获取云数据中心的云服务器集群任务负载数据；

数据转化模块：用于利用S-MTF算法将所述任务负载数据由多变量时间序列转化为有监督学习序列；

负载预测模块：用于将所述转化后的任务负载数据输入训练好的基于卷积-门控循环单元的esDNN模型，通过所述esDNN网络模型对所述云数据中心在未来预设时间内的负载状态进行预测。

本申请实施例采取的又一技术方案为：一种终端，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现所述云服务器集群负载预测方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以控制云服务器集群负载预测。

本申请实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行所述云服务器集群负载预测方法。

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的云服务器集群负载预测方法利用滑动窗口方法将多变量时间序列转化为有监督学习序列，基于深度学习中的卷积-门控循环单元对云服务器集群任务负载状态进行准确预测，并利用自动扩展机制，针对未来一定时间段内的云服务器任务负载变化趋势动态调整云数据中心的服务器调度策略，解决了现有预测方法难以应对高维度、高变化性、多变量的任务负载预测，以及云服务器任务负载预测不准确、预测方法过于复杂、训练时间过长、长时间序列梯度消失等问题，优化了系统性能，降低能耗。

附图说明

图1是本申请实施例的云服务器集群负载预测方法的流程图；

图2为本申请实施例的数据转化方法示意图；

图3为本申请实施例的GRU基本结构示意图；

图4为本申请实施例的云服务器集群负载预测系统结构示意图；

图5为本申请实施例的终端结构示意图；

图6为本申请实施例的存储介质的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的云服务器集群负载预测方法的流程图。本申请实施例的云服务器集群负载预测方法包括以下步骤：

S1：从云数据中心获取云服务器集群任务负载数据；

本步骤中，云数据中心包含云服务器，作为提供方向用户提供云服务，在提供服务的过程中以一定的时间间隔收集云服务器集群的负载数据并保存。任务负载数据指的是由特定的服务器或内建的程序定时收集到的来自于运行中的云服务器集群的任务负载。获取的任务负载数据包括时间戳time_stamp、机器编号machine_id、CPU利用率cpu_util_percent、内存占用大小mem_util_percent等信息。

S2：对任务负载数据进行预处理；

本步骤中，任务负载数据的预处理分别包括数据清洗与数据归一化处理。其中，数据清洗具体为：首先，删除任务负载数据中包含空数据的冗余项，避免冗余项对预测数据产生负面影响。然后，按照时间序列对任务负载数据进行分类，利用分组函数(groupby)计算出具有相同时间戳的每个参数的平均值。

数据归一化处理具体为：归一化是一种降低维度的数据处理方法，归一化不仅可以提高模型的收敛速度，还可以提高预测的准确性。本申请实施例中，归一化方法具体为：使用MinMaxScaler对每个数据进行变换，将每个数据缩放为介于0与1之间的小数。MinMaxScaler的操作是基于min-max缩放法，具体公式如下：

X_scaled＝X_std*(X_max-X_min)+X_min (2)

在本申请其他实施例中，也可采用将维度表达式改为非维度表达式的归一化方法，即将数据转化为标量。

S3：利用S-MTF算法(Sliding Window for Multivariate Time Series Fore-cast，滑动窗口算法)将任务负载数据由多变量时间序列转化为有监督学习序列；

本步骤中，时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。有监督学习是用现有的训练样本中包含的特征和标签信息训练出一个最优的模型，然后用这个模型将所有的输入映射到相应的输出，并对输出进行简单的判断，使得模型具备对未知数据的预测和分类能力。本申请实施例中，利用S-MTF算法将多变量时间序列预测问题转化为基于有监督学习的预测问题，通过将预处理后的任务负载数据作为转移函数的输入，并将时间相关的序列数据重构为有监督学习序列。S-MTF算法包含了任何时候上一时刻的所有数据，与时间呈线性关系，同时S-MTF也包含了未来的标签，因此可以应用于任何与时间相关的数据集。

如图2所示，为数据转化方法示意图。转化过程主要包括时间序列拆分、时间序列重组和重组序列合并。图2左侧为任务负载数据中待转换的多变量时间序列E(t)，S-MTF算法在处理对应时间t的时间序列时，会同时获取当前时刻的时间序列数据E(t)以及相邻两个时间段内的时间序列数据，即上一时刻的时间序列数据E(t-1)以及下一时刻的时间序列数据E(t+1)，然后分别将E(t)与E(t-1)和E(t+1)进行重组，分别得到转化中间过程中的时间序列重组数据L(i-1)，C(i)与F(i+1)。最后，将L(i-1)，C(i)与F(i+1)三个数据进行拼接，分别得到如图2右侧所示的三个时刻对应的有监督学习序列S(n)，S(n-1)与S(n+1)。值得注意的是，由于在t＝0时刻并不存在前一时刻的状态，同时在最后一次记录状态结束之后也不会有新的时间序列，因此实际得到的有监督学习序列S(n)的长度并不会与多变量时间序列E(t)相同，而是比多变量时间序列E(t)短若干个元组长度，其具体长度取决于选择的步长。

S4：将转化后的任务负载数据输入训练好的基于卷积-门控循环单元的esDNN(Efficient Supervised learning-based Deep Neural Network，一种基于有监督学习的高效深度神经网络算法)模型，通过esDNN模型预测云数据中心未来一段时间的负载状态；

本步骤中，esDNN模型的网络结构包括两层，第一层为CNN模型(ConvolutionalNeural Networks，卷积神经网络)，CNN模型建立在前馈神经网络模型的基础上，包括输入层、卷积层、池化层、非线性层和全连接层组成。优选地，由于1DCNN(一维卷积神经网络)可以从局部原始时间序列数据中提取特征，然后建立局部时间序列数据与后续趋势的短期相关性模型，因此本申请实施例将1D CNN作为esDNN的第一层网络结构。

esDNN模型的第二层为GRU(Gated Recurrent Unit，门控循环单元)，GRU的基本结构如图3所示，包括更新门、重置门、候选隐藏层以及输出门。本申请实施例通过将遗忘门和输入门合并成一个"更新门"的GRU，可以有效避免传统算法中(例如BPTT算法)存在的梯度爆炸与梯度消失等问题。其中，各个门控单元的计算公式如下：

z_t＝σ(W_z·[h_t-1，x_t]) (3)

r_t＝σ(W_r·[h_t-1，x_t]) (4)

y′_t＝tanh(W·[r_t*h_t-1，x_t]) (5)

y_t＝(1-z_t)*h_t-1+z_t*y′_t (6)

上式中，z_t为更新门，r_t为重置门，yt为候选隐藏层，y_t为输出门。σ代表激活函数，W、W_z、W_h分别为在GRU单元内传播的矩阵。h_t代表当前GRU单元的输出值，h_t-1代表上一个GRU单元的输出值。x_t代表当前时刻传出的待预测值，矩阵W由x_t转化而成。

在模型训练时，本申请实施例通过将ReLU和Sigmoid相乘，作为esDNN模型的激活函数Swish。激活函数Swish使用相同的值进行门控，即所谓的自门控self-gating，自门控的优势在于它只需要一个简单的标量输入，可以简化门控机制，而传统的门控需要多个标量输入。该特性使得激活函数Swish可以很容易地替换那些以单个标量作为输入的激活函数，而不改变隐藏容量或参数数量。激活函数Swish公式如下：

f(x)＝x·Sigmoid(βx) (7)

上式中，β是一个常数或者是一个可训练的参数。

S5：基于未来一定时间段内云数据中心的负载状态变化趋势，利用自动扩展机制调整云数据中心的服务器调度策略，对云服务器集群内的机器数量进行调整；

本步骤中，自动扩展即Auto-Scaling，自动扩展机制可以根据系统状态动态地调整系统中活跃机器的数量，自动扩展的对象包括计算、存储、网络资源等各类资源。对于云服务器而言，自动扩展机制可以有针对性的对集群内的机器数量进行调整，即当整体系统利用率较低时关闭一些服务器，或者当系统利用率过高时开启更多的服务器。通过利用自动扩展机制的优势，可以优化系统性能，降低能耗。

自动扩展的目标是在充分准确预测的前提下，提高资源利用率，减少活跃机器数量。因此，自动扩展的前提是需要有足够准确的任务负载预测作为支持。目前，常用的自动扩展为基于阈值的规则等方式(例如静态阈值)，其实现方式是通过水平调度来实现，例如增加虚拟机的数量。该方式无法适用于变化性较大的任务负载调度。esDNN作为一个预测精确度较高的深度学习预测算法，可以准确预测出未来一段时间内的负载状态，并根据未来一段时间内的负载状态变化趋势对服务器的调度策略进行调整。具体调整策略为：使用基于之前至少两个时间段的平均活跃机器数与整体机器数量之比作为自动扩展机制的触发阈值，将CPU利用率作为自动扩展机制的输入，输出为当前状态下云数据中心活跃机器的数量百分比。该触发阈值的计算公式为：

上式中，M(t)代表时间间隔t内的活跃机器数量，m代表之前用于预测的时间段数量，i代表索引数值。本申请实施例优选设置为m＝5。

S6：通过优化器对云数据中心进行优化；

本步骤中，优化器是一个云服务器集群调度的补充策略，用于在预测出服务器负载大小之后开启或关闭一些低负载的机器，从而使整个云数据中心需要开启的服务器数量减少。

基于上述，本申请实施例的云服务器集群负载预测方法利用滑动窗口方法将多变量时间序列转化为有监督学习序列，基于深度学习中的卷积-门控循环单元对云服务器集群任务负载状态进行准确预测，并利用自动扩展机制，针对未来一定时间段内的云服务器任务负载变化趋势动态调整云数据中心的服务器调度策略，解决了现有预测方法难以应对高维度、高变化性、多变量的任务负载预测，以及云服务器任务负载预测不准确、预测方法过于复杂、训练时间过长、长时间序列梯度消失等问题，优化了系统性能，降低能耗。

为了验证本申请实施例的可行性和有效性，通过使用来自于Alibaba的云服务器集群的任务负载数据集cluster-trace-v2018以及来自Google的云服务器集群的任务负载数据集clusterdata-2011-2进行实验。针对从Alibaba数据集中获取的源数据，去掉常出现空值的参考变量，将偶尔出现空值的参考变量的空值赋0。针对从Google数据集中获取的源数据，在task_usage(任务资源使用表)表中增加一列新数据，该新数据是在任务相关的5分钟使用报告期内随机抽取的1秒CPU使用量样本。并采用目前负载预测方法中被广泛应用的算法S-MTF算法作为对比算法，实验结果表明本发明提出的esDNN算法在云服务器任务负载预测方面优于现有方法。

请参阅图4，为本申请实施例的云服务器集群负载预测系统结构示意图。本申请实施例的云服务器集群负载预测系统40包括：

数据获取模块41：用于获取云数据中心的云服务器集群任务负载数据；

数据转化模块42：用于利用S-MTF算法将任务负载数据由多变量时间序列转化为有监督学习序列；

负载预测模块43：用于将转化后的任务负载数据输入训练好的基于卷积-门控循环单元的esDNN模型，通过esDNN网络模型对云数据中心在未来预设时间内的负载状态进行预测。

请参阅图5，为本申请实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述云服务器集群负载预测方法的程序指令。

处理器51用于执行存储器52存储的程序指令以控制云服务器集群负载预测。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图6，为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种云服务器集群负载预测方法，其特征在于，包括：

获取云数据中心的云服务器集群任务负载数据；

2.根据权利要求1所述的云服务器集群负载预测方法，其特征在于，所述获取的任务负载数据包括时间戳、机器编号、CPU利用率以及内存占用大小。

3.根据权利要求2所述的云服务器集群负载预测方法，其特征在于，所述获取云数据中心的云服务器集群任务负载数据之后还包括：

对所述任务负载数据进行数据清洗与数据归一化；

X_scaled＝X_std*(X_max-X_min)+X_min

4.根据权利要求1所述的云服务器集群负载预测方法，其特征在于，所述利用S-MTF算法将所述任务负载数据由多变量时间序列转化为有监督学习序列具体为：

首先，同时获取当前时刻t的时间序列数据E(t)、上一时刻的时间序列数据E(t-1)以及下一时刻的时间序列数据E(t+1)；

然后，分别将E(t)与E(t-1)和E(t+1)进行重组，得到转化中间过程中的时间序列重组数据L(i-1)，C(i)与F(i+1)；

最后，将L(i-1)，C(i)与F(i+1)三个数据进行拼接，分别得到当前时刻、上一时刻以及下一时刻对应的有监督学习序列S(n)，S(n-1)与S(n+1)。

5.根据权利要求1至4任一项所述的云服务器集群负载预测方法，其特征在于，所述esDNN模型的第一层为1D CNN模型，所述1D CNN模型包括输入层、卷积层、池化层、非线性层和全连接层；所述esDNN模型的第二层为GRU层；所述GRU包括更新门、重置门、候选隐藏层以及输出门，各门控单元计算公式为：

z_t＝σ(W_z·[h_t-1，x_t])

r_t＝σ(W_r·[h_t-1，x_t])

y′_t＝tanh(W·[r_t*h_t-1，x_t])

y_t＝(1-z_t)*h_t-1+z_t*y′_t

上式中，z_t为更新门，r_t为重置门，yt为候选隐藏层，y_t为输出门；σ代表激活函数，W、W_z、W_h分别为在GRU单元内传播的矩阵；h_t代表当前GRU单元的输出值，h_t-1代表上一个GRU单元的输出值；x_t代表当前时刻传出的待预测值，矩阵W由x_t转化而成。

6.根据权利要求5所述的云服务器集群负载预测方法，其特征在于，所述esDNN模型的激活函数为：

将ReLU和Sigmoid相乘，作为esDNN模型的激活函数Swish：

f(x)＝x·sigmoid(βx)

上式中，β是一个常数或者一个可训练的参数。

7.根据权利要求6所述的云服务器集群负载预测方法，其特征在于，所述通过所述esDNN网络模型对所述云数据中心在未来预设时间内的负载状态进行预测还包括：

8.一种云服务器集群负载预测系统，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1-7任一项所述的云服务器集群负载预测方法的程序指令；

10.一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1至7任一项所述云服务器集群负载预测方法。