CN109976908B

CN109976908B - 一种基于rnn时间序列预测的服务器集群动态伸缩方法

Info

Publication number: CN109976908B
Application number: CN201910196409.8A
Authority: CN
Inventors: 王劲松; 张建
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2021-08-06
Anticipated expiration: 2039-03-15
Also published as: CN109976908A

Abstract

本发明涉及一种基于RNN神经网络时间序列预测对服务器集群进行动态伸缩调度的方法。该方法包括，一种基于RNN神经网络对服务器集群资源负载进行预测的技术方案，一种基于反向传播理论对RNN模型求最优解的方法和一种根据预测结果对服务器集群进行动态调度的方法。通过RNN神经网络对服务器集群历史负载进行检测，预测出服务器集群下一个时间点可能的负载状况，根据预测结果增加或减少服务器集群节点数量。保障服务器集群拥有弹性伸缩且稳定的计算能力。

Description

一种基于RNN时间序列预测的服务器集群动态伸缩方法

技术领域

本发明属于云计算领域。

背景技术

云计算(Cloud Computing)是一种随着互联网高速发展带动起来的新型计算方式，通过高速的互联网传输，可以将共享的硬件基础设施、软件资源和信息按需求提供给各种手机和计算机等终端。云可以说是对网络链接对一种抽象，也可以用来表示底层基础设施的抽象，通过互联网讲大量的运算资源链接起来，用户不需要再关心“云”中基础设施的细节，不必需要知道硬件的运维知识，只需要按照自己的需求，向云端请求计算资源。可以说弹性伸缩是云计算的一个重要特点，但是传统的服务器扩容方案，一种是纵向拓展，直接修改扩展虚拟机配置，这样一般需要重启服务器，然而大多数公司的服务是不允许中间停止的。另外一种是通过集群的方法组织服务器资源，在需要的时候适当增加服务器节点，然而这样有一定滞后性，服务器负载高峰往往是突发性的，在高峰到来之际再扩容，可能服务器已经无法处理负载甚至宕机。

传统的机器学习预测一般需要大量的特征才能建立合适的模型，而服务器的负载状况一般只有CPU利用率和内存利用率两条特征，机器学习无法对这种数据集进行很好的建模和预测。为了解决服务器负载预测问题，本发明提出了基于神经网路的预测方法，神经网络是从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。神经网络具有很强的数据拟合能力和自学习能力，其中RNN(递归神经网络)善于处理一个连续序列的数据集，在数据量足够的情况下，即使只有一两个特征也有良好的预测效果。通过对服务器历史负载进行RNN神经网络建模，建立基于数据驱动的服务器负载模型，实现对云计算集群负载高峰和低谷的预测，在服务器集群负载高峰来临之际，提前进行扩容。在集群利用率低下的时候减少计算节点。降低了云服务资源的运行压力，实现了真正的弹性伸缩的云计算。

发明内容

本发明提出了一种基于RNN神经网络对服务器资源负载的连续时间序列进行预测的方法，设计了一种基于RNN神经网络的时间序列模型，并且用该模型对服务器未来可能的负载进行预测，在高峰到来之前提前对集群进行提前扩容，从容应对集群负载高峰，提高集群稳定性；在集群未来资源过于宽裕时，适当减少计算节点数目，降低云计算资源的浪费。

本发明采用了如下的技术方案及实现步骤：

1.一种基于RNN神经网络对服务器资源负载进行预测的技术方案：

包括以下步骤：

(1)本发明的云计算资源以服务器集群的形式存在，用OpenStack统一进行管理，每台服务器配置一致，服务器已经进行负载均衡，所以每台服务器负载状况几本一致，集群在初始启动时建立两种服务器，一种持久态服务器，即无论集群负载情况如何都不会关闭，另外一种备用态服务器，正常情况下以镜像的方式由OpenStack统一管理，需要时可以由运维脚本进行启动或者关闭。通过OpenStack内置的监控对服务器负载状况进行监测，每隔15分钟进行一次记录，记录内容为当前时间t，所有服务器节点CPU利用率的平均数x_t(取值在0-100)，所有服务器的内存平均利用率m_t(取值0-100)。在取得足够量的数据集后对这个数据集进行RNN时间序列预测建模。假设我们给定(x_t,x_t+1,x_t+2),通过RNN模型,希望预测x_t+3，即下一时刻的cpu利用率，如图1，x_t为不同时刻的输入h_t为隐藏状态，o_t为不同时刻的输出。

(2)神经网络建模过程，RNN神经网络一共有三层。分别为第一层的输入层、第二层的隐藏层和第三层的输出层。在建模过程分为时序前向传播算法和时序反向传播算法(Back Propagation Through Time)。时序前向传播算法描述如下：因为数据点为每隔15分钟记录一次，这边描述一次循环的步骤：

①在t时刻第一层每次输出为h_t。

②将第一层与第二层借由一下公式连接：

h_t＝φ(Ux_t+Wh_t-1) (1)

h_t为t时刻的隐藏层，初始化为一个全部为0的向量、U是权重矩阵连接此时刻的CPU利用率，W是权重矩阵连接上一时刻隐藏层，φ为隐藏层的激活函数。

③将第二层与第三层借由以下公式连接：

其中V是权重矩阵连接此时刻的隐藏层，

为输出层的变换函数。

④最后o_t为第一次循环的输出结果

(3)将所有数据循环加入模型以后(每加入一次新数据均重复一次步骤(2))，可以预测出下一个15分钟的CPU使用率。

(4)输入层改为内存的数据，重复步骤(2)(3)，即可计算出未来15分钟的内存利用率模型。

附图说明

图1是本发明流程示意图。

具体实施方式

2.一种基于反向传播理论对RNN模型求最优解的方法。

包含以下步骤：

(1)时序反向传播算法是为了求出目标函数最小值的最优解。定义损失函数为均方误差(mse):

其中

L_t＝(y_i-o_i)² (4)

定义：

由公式(1)(2)得：

(2)借由梯度下降法去求解目标函数的最小值，此为一个链式求导的过程。首先从目标函数到输出层的反向传播，对L_t求导的公式如下：

注意：统一使用*表示矩阵的哈达玛积(对应元素相乘)，使用×表示矩阵乘法，T为矩阵的转制，下同。

由于公式(3)得总梯度可以表示为：

(3)RNN的BP算法，主要难点在于State之间的通信，梯度除了按照空间结构传输(o_t→h_t→x_t)还得沿着时间通道传播(h_t→h_t-1→...→h₁)，我们在这里采用“循环”的方法来计算各个梯度，由于是反向传播算法，所以t应从n始降序循环至1，在此期间若需要初始化、则初始化为0向量或0矩阵，对隐藏状态的梯度表示为：

定义k是某一时间点的State，则下面公式代表每个时间点的隐藏梯度：

为了使目标函数最小值，每次迭代时序反向传播算法都会更新U、W，最后得出目标函数对U和对W的梯度为：

根据W、U两个权重矩阵返回到公式(2)即可得到准确的输出。

3.一种根据预测结果对服务器集群进行动态调度的方法。

由用户设定四个个阀值cpu_leisure_baseline(服务器CPU空闲阀值，取值0-50)，cpu_busy_baseline(服务器CPU繁忙阀值，取值50-100)mem_leisure_baseline(服务器内存空闲阀值，取值0-50)，mem_busy_baseline(服务器内存繁忙阀值，取值50-100)。当CPU使用率预测值<cpu_leisure_baseline且内存使用率预测值<mem_busy_baseline，通过设置好的运维脚本关闭一台备用态标记的服务器；当CPU使用率预测值>cpu_busy_baseline或内存使用率的预测值>mem_busy_baseline，则通过设定好的运维脚本开启一台备用态标记的服务器。同时服务器持续监控集群状况，不断更新监控数据集并持续更新RNN神经网络模型，提高模型预测的准确度。

Claims

1.一种基于RNN时间序列预测的服务器集群动态伸缩方法，其特征在于包括以下步骤：

(1)云计算资源以服务器集群的形式存在，用OpenStack统一进行管理，每台服务器配置一致，服务器已经进行负载均衡，集群在初始启动时建立两种服务器，一种持久态服务器，即无论集群负载情况如何都不会关闭，另外一种备用态服务器，正常情况下以镜像的方式由OpenStack统一管理，需要时由运维脚本进行启动或者关闭；通过OpenStack内置的监控对服务器负载状况进行监测，每隔15分钟进行一次记录，记录内容为当前时间t，所有服务器节点CPU利用率的平均数x_t，所有服务器的内存平均利用率m_t；在取得数据集后对这个数据集进行RNN时间序列预测建模；给定(x_t,x_t+1,x_t+2),通过RNN模型,希望预测x_t+3，即下一时刻的cpu利用率，x_t为不同时刻的输入，h_t为t时刻的隐藏层，o_t为不同时刻的输出；

(2)神经网络建模，RNN神经网络一共有三层；分别为第一层的输入层、第二层的隐藏层和第三层的输出层；在建模过程分为时序前向传播算法和时序反向传播算法，时序前向传播算法描述如下：因为数据点为每隔15分钟记录一次，这边描述一次循环的步骤：

①在t时刻第一层每次输出为h_t；

②将第一层与第二层之间由以下公式连接：

h_t＝φ(Ux_t+Wh_t-1) (1)

h_t为t时刻的隐藏层，初始化为一个全部为0的向量、U是权重矩阵连接此时刻的CPU利用率，W是权重矩阵连接上一时刻隐藏层，φ为隐藏层的激活函数；

③将第二层与第三层之间由以下公式连接：

其中V是权重矩阵连接此时刻的隐藏层，

为输出层的变换函数；

④输出第一次循环的输出结果

(3)将所有数据循环加入模型以后，每加入一次新数据均重复一次步骤(2)，预测出下一个15分钟的CPU使用率；

(4)输入层改为内存的数据，重复步骤(2)(3)，计算出未来15分钟的内存利用率模型。

2.根据权利要求1所述方法，其特征在于，一种基于反向传播理论对RNN模型求最优解包含以下步骤：

(1)时序反向传播算法是为了求出目标函数最小值的最优解；定义损失函数为均方误差

其中

L_t＝(y_i-o_i)² (4)

定义：

由公式(1)(2)得：

(2)由梯度下降法去求解目标函数的最小值，此为一个链式求导的过程；首先从目标函数到输出层的反向传播，对L_t求导的公式如下：

使用*表示矩阵的哈达玛积，使用×表示矩阵乘法，T为矩阵的转置，

由于公式(3)得总梯度表示为：

(3)采用“循环”的方法来计算各个梯度，由于是反向传播算法，所以t应从n始降序循环至1，在此期间若需要初始化、则初始化为0向量或0矩阵，对隐藏状态的梯度表示为：

根据W、U两个权重矩阵返回到公式(2)得到准确的输出。

3.根据权利要求1所述的方法，其特征在于：由用户设定四个个阀值cpu_leisure_baseline(服务器CPU空闲阀值，取值0-50)，cpu_busy_baseline(服务器CPU繁忙阀值，取值50-100)mem_leisure_baseline(服务器内存空闲阀值，取值0-50)，mem_busy_baseline(服务器内存繁忙阀值，取值50-100)；当CPU使用率预测值<cpu_leisure_baseline且内存使用率预测值<mem_busy_baseline，通过设置好的运维脚本关闭一台备用态标记的服务器；当CPU使用率预测值>cpu_busy_baseline或内存使用率的预测值>mem_busy_baseline，则通过设定好的运维脚本开启一台备用态标记的服务器；同时服务器持续监控集群状况，不断更新监控数据集并持续更新RNN神经网络模型。