CN108241533B

CN108241533B - 一种基于预测和分层抽样的资源池未来负载生成方法

Info

Publication number: CN108241533B
Application number: CN201611213778.6A
Authority: CN
Inventors: R·W·马丁; 张宏斌; 曹健
Original assignee: Morgan Stanley Services Group Inc
Current assignee: Morgan Stanley Services Group Inc
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2022-12-02
Anticipated expiration: 2036-12-26
Also published as: CN108241533A

Abstract

本公开涉及一种基于预测和分层抽样的资源池未来负载生成方法。本发明提出了基于预测和分层抽样的未来负载生成方法，通过预测未来单位时间内的请求数量，其通过分析每一个请求所消耗的资源，以及请求的持续时间，依据分类模型确定从历史数据中分层抽样的策略，得到未来的请求数据。这一预测结果能够为确定资源池资源提供依据。

Description

一种基于预测和分层抽样的资源池未来负载生成方法

技术领域

本发明涉及信息技术领域的资源池的负载生成。

背景技术

用户的请求数量决定了系统的负载情况。由于用户的请求在一个周期的不同时刻存在较大的波动，为了使任意时刻用户的需求都能得到满足，目前企业往往通过扩建他们的服务器基础设施，按照最高负载的状况来长期维持较多的服务器。但这种策略造成大量计算资源被浪费，导致资源利用率的降低和维护成本的上升。预测负载未来的变化情况有助于提高计算资源的利用率。

负载用以衡量计算资源的使用情况，常用的负载指标包括CPU、内存、磁盘及网络等的使用情况。目前服务器负载预测主要使用时间序列模型，较为传统的方法有自回归、指数平滑以及差分自回归滑动平均模型ARIMA等经典时间序列预测方法，这些方法应用于短期负载预测效果较好，当作用于较长的时间跨度时，效果较差。近年来，人工神经网络以及支持向量回归的方法也被应用于服务器负载预测中。

发明内容

本发明的技术解决问题：

目前已有的研究提出了多种方法对负载进行预测，这些研究主要存在的问题有：

(1)关于负载的衡量方式，有些研究使用单一的指标，如使用CPU占用情况来衡量负载，也有些研究通过请求的响应时间估计负载，这些方法对负载的衡量是片面的。

(2)通过整体负载的预测进行容量规划存在一定的局限性。现有研究多集中于通过预测整个服务器集群累加的负载情况进行容量规划，但是当整体负载相同时，每个请求所产生的负载的组成可能是不同的。这种情况下，不同的调度策略需要的服务器数量是不同的。因此，对整体负载的估计是一种粗略的估计，不能准确的判断需要使用的资源数量。

本发明的技术解决方案：我们将负载生成算法分为3步：第一步是对单位时间内的请求数量进行预测；第二步是从相关性、类别、周期性三个角度，分析请求的特性，提取出其生成的模式；第三步依据通过该模式来抽样过去的请求从而生成未来一段时间内的请求信息以及产生的负载信息。

本发明与现有技术相比的优点在于：首先，本专利采用多个指标来综合衡量负载，克服了单一指标衡量负载的片面性。其次，本专利通过由粗到细的负载预测，先预测未来的请求数量，再预测每一个请求对各个性能指标的影响，作出了更为精确和更细粒度的预测。克服整体负载预测的局限性。

应用所需的计算资源是动态变化的，如果长期保持着最高负载时所需要的资源，那么在空闲时刻就会有大量的计算资源处于闲置状态，从而导致资源的浪费。当请求到达时，为了使既有足够的资源保证其正常运行，又尽可能地节省计算资源，因此有必要预测未来一段时间内的负载状况。

本发明提出了基于预测和分层抽样的未来负载生成方法，通过预测未来单位时间内的请求数量，其通过分析每一个请求所消耗的资源，以及请求的持续时间，依据分类模型确定从历史数据中分层抽样的策略，得到未来的请求数据。这一预测结果能够为确定资源池资源提供依据。

本发明提出的基于预测和分层抽样的负载生成方法，主要包括以下几个步骤：

(1)首先我们将单位时间内发生的请求数量的预测问题通过时间序列预测模型加以解决。我们使用基于K最近邻的加权算法，在已经发生的历史数据中寻找与当前请求序列最为接近的序列，在此基础之上我们利用线性回归将获得的序列的后面紧接的请求数量序列进行合并得到预测结果。

(2)其次我们将一段时间内发生的请求的具体特性进行分析。对于每一个请求而言，其资源消耗涉及到多个维度(例如CPU负载、内存消耗等)。此外，为了合成负载，每个请求持续的时间长度也必须进行预测。我们按照以下步骤进行分析：

一是相关性分析：我们对请求的各个属性进行相关性分析，具有相关性的属性相互影响，而不具有相关性的属性不产生(或者很少产生)相互影响；

二是类别分析：针对每一组相关的属性对请求进行分类，从而得到请求的类别，例如低内存消耗，短时请求；低内存消耗，长时请求；高内存消耗，长时请求等。

三是消除周期性因素对于模拟的影响：企业服务器集群的请求数据在工作时段和非工作时段有显著的差异性，在抽取历史数据的同时，仅在对应周期时间区间的历史数据中进行抽取。

(3)将层次抽取与按周期抽取相结合。在历史数据中按照类别比例进行请求的随机抽取，并将请求的具体数据按照时间进行合并，模拟出未来一段时间内详细负载情况。

附图说明

图1为负载算法流程。

图2为请求特征与请求数量间的关系。

图3为请求特征随时间变化情况。

图4是按照本发明的各实施例的企业计算机系统的框图。

具体实施方式

基于抽样的负载生成预测方法可以分为预测单位时间内请求数目和分析每个请求特性两大步骤。算法流程如图1所示。

●S1–单位时间内请求数量预测

我们将预测单位时间内用户发出的请求数量问题建模为一个时间序列预测问题。

在这里我们通过K最近邻分类算法寻找出当前请求数目时间子序列在历史数据中较为相似的多个子序列，通过对这些子序列之后的请求数目时间子序列加权得到预测的未来请求数量的子序列。

假设以单位时间T为间隔，统计在单位时间内发生的请求数量，可以得到过去至当前的观测请求数量序列N=[n₁,n₂,……,n_s]，其中n_i为第i个单位时间T内观测到发生的请求数目，则有

为了寻找当前时刻的请求数目状况与历史情况中哪一段最为相似，我们取最近的m次观测值，组成序列

N_now=[n_s-m=1,n_s-m+2,……,n_s]

剩余观测值组成历史数据序列

N_history=[n₁,n₂,……,n_s-m]

我们在历史序列N_history中寻找子序列

N_i,i+m-1=[n_i,……,n_i+m-1]

使其与N_now相似。

我们需要一个评价标准用于衡量历史子序列与当前时间序列的相似程度。这里的Dis(X,Y)代表了衡量2个时间子序列相似程度的距离函数，采用了最为普遍的欧式距离：

由于对每一个历史时刻我们都希望计算它与当前时刻的相似程度，因此我们将历史序列化为一个历史子序列集合{N_1,1+m-1,N_2,2+m-1,……,N_s-2*m+1,s-m}，计算任意的0＜i≤s-2*m+1，存在i使得Dis（N_i,i+m-1,N_now）的值最小，则子序列N_i,i+m-1是一个与当前序列最为接近的序列。

对这个集合中每一个历史子序列，均计算d_i=Dis（N_i,i+m-1,N_now），得到历史时刻与目前时刻的距离集合D={d₁,d₂,……,d_s-2*m+1}。对D中所有的元素排序，可以获得距离最近的k个元素[d_a,d_b,……,d_k]，其中下标[a,b,……,k]即为距离最小的k个时刻。

这k个子序列后面紧接的序列就是预测值。对于k个预测值，需要进行合成，考虑两个因素：

(1)与相似性有关；

(2)与相似序列的时间有关；

我们将这k个序列按照相似性和时间先后分别排列，然后通过线性回归求2k个常数，从而确定出两组权重。通过加权合成的最后的预测值。

●S2–请求特性分析

(1)相关性分析

请求将带来多个方面的负载。一个很重要的问题是这些负载特征之间是否存在相关性，我们想知道某一个特征值是否会影响其他特征值，比如，在CPU使用量较小的情况下，是否意味着磁盘的消耗也会较小；在请求的处理时间非常长的情况下，是否意味着内存的消耗也会非常大。

在本实施案例中使用了皮尔逊相关系数，结果如下

假设历史时刻的某2个特征可以组成序列X=[x₁,x₂,…,x_N]与Y=[y₁,y₂,…,y_N]，其中第i个请求的特征的值可以被表示为(x_i,y_i)，则这2个特征之间的相关性使用皮尔逊相关系数可以表示为

相关系数的绝对值越大，相关性越高，绝对值越接近于0，则相关性越弱。

(2)聚类分组

通过观察请求中特征值与对应请求数量的分布，某些特征具有多个波峰，如图2所示。我们期望通过聚类，将其划分为多类请求，进行分层抽取。对于在相关性分析中相关的请求特征，我们将其一同进行聚类分析。

例如通过相关性分析我们得知内存消耗与请求时长之间存在相关性，因此我们将这2个特征联合进行聚类。

在本实施案例中，采用了划分式聚类算法中的K均值聚类算法(K-means)这一经典的聚类算法的衍生算法，二分K-均值聚类法。经典的K均值算法虽然具有运行速度较快的优势，但是其可能会终止于局部最优解，使得效果较差。聚类算法分为3个步骤，第一步是为待聚类的点寻找聚类中心；第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点最近的聚类中去；第三步是计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心。二分K-均值聚类法在此基础上，先将所有样本点作为一个类，并将该类一分为二。然后选择其中一个子类再一分为二，使得误差平法和可最大程度地降低。依此进行下去，直到所有样本点被分成K类，其中K是用户给定的。

二分K-Means伪代码实现如下：

(3)周期性分析

周期性因素也是我们需要考虑的一个重要因素，由于请求是通过人的对应用的操作而向服务器发出的，如图3所示，明显在工作时间与非工作时间请求的特征存在明显的不同，因此，我们需要考虑周期性因素对请求的影响。

这里我们使用快速傅里叶变换(FFT)对请求特征序列计算其周期长度。我们将请求特征x_i以时间间隔t对其求取均值，可以得到时间序列f（n），其中n=0,1,2,…,N-1，其采样率为

假设f（n）的离散傅立叶变换(Discrete Fourier transform,DFT)为F（n），

其中

在得到DFT后，每个k对应着一个离散的频率值f_k，表示为

f_k=kΔf=kf_s/N

如果序列存在周期性，那么傅里叶变换函数频谱会在周期的倒数处出现冲击，观察即可通过该冲击值来求得f（n）的周期。

对于单一类别的特征值而言，我们仅在对应时间周期的历史数据中进行抽取。而对于划分为多个类别的特征值而言，我们需要预测某一时间点内各个类别的占比。通过预测的占比，从对应类别的对应时间周期的历史数据中抽取相应数量的数据模拟。

在本实施案例中，基于KNN的预测请求数量的方法，在返回预测请求数量的同时，还能得到与当前时间点请求数量最为相似的对应历史时间点。我们选择该历史时间点未来的单位时间的类别百分比作为当前需要预测的序列的各个类别的百分比。

S3－样本抽取

根据分析的结果，我们可以从历史数据中抽取请求数据，模拟得到未来请求序列。假设我们周期性分析得到周期长度为T_period，类别分析将请求特征分为K类，则我们将历史请求集合N_history分为多个子集合

代表q*T_period+t时刻内属于第k类的所有请求的集合，其中q为非负整数。假设我们预测未来某单位时间间隔内发生p个请求，且该请求时间点在周期内的t_predict时刻，预测得到的第k个类别的占比表示为w_k，则第k个类别预测出现p_k=w_k*p次请求。在历史请求子集

中，在子集大小的范围内，生成p_k个随机数，随机抽取p_k个请求。将所有类别抽出的请求合成，得到未来单位时间内模拟的请求集合。历史请求在每个单位时间间隔中出现的时间点各不相同，我们将每个历史请求在单位时间内出现的时间点表示为

t_unit=t_actual-qT,q=0,1,2,…

在模拟未来请求序列时，真实的请求发生时间表示为

t_predict=t_unit+t_now

由上述方法，我们根据历史请求抽样模拟了未来请求序列。

抽样算法伪代码实现如下：

以下提供本发明的实施例的实现方案的细节。图4中示出了一个示例性企业计算机系统10，其中可以使用本发明的方面。图4中所示的该企业计算机系统10包括与广域网(WAN)14互连的若干局域网(LAN)12。每一个LAN 12可包括若干客户端计算机16和若干网络服务器18。举例而言，取决于实现方案，网络服务器18可以为在其LAN 12中或来自其他LAN12的客户端计算机16托管(host)计算机资源，诸如计算机程序、数据、存储设备和打印机。

资源预测计算机系统20基于存储在数据库计算机系统22中的历史请求数据实现上述的控制器30。为了示意的目的，资源预测计算机系统20和MTS数据库系统22在图4中被示为连接到WAN 14，尽管它们中的一个或两个可被包括在所示的LAN 12中的一个内。它们也可以连接到该企业的网络中的不同的LAN 12和WAN 14。资源预测计算机系统20可以实现为一个或若干个互连的计算机设备，诸如服务器、大型机、工作站和/或任何其他合适的计算机设备。资源预测计算机系统20的每一个这样的计算机设备可以包括一个或多个处理器24和一个或多个存储器单元26。存储器单元26可以包括基础计算机存储装置(例如RAM和ROM)和第二计算机存储装置(例如HDD、SSD、闪存)。如图4中所示并在以下进一步描述的，处理器24可以包括微处理器，用于执行存储在存储器单元26中的计算机指令(例如软件)，诸如实现控制器30的软件。为了示意的目的，所示的资源预测计算机系统20包括仅一台计算机，并且仅一个处理器24和一个存储器单元26被示出，尽管应当认识到本发明不是如此受限的，并且资源预测计算机系统20可以根据需要进行缩放。

MTS数据库22存储企业系统10的网络服务器18的时间序列计算机用量和硬件统计数据。统计数据可以包括涉及每一个用户资源请求的若干变量的值，诸如：

-请求资源的用户的用户名

-请求的开始时间

-请求的结束时间

-请求的总共时间

-请求的活动时间

-所请求的处理或资源

-处理了请求的网络服务器的ID

-处理了请求的网络服务器的几何位置

-CPU使用量

-网络服务器的基础存储器(例如RAM)使用量

-网络服务器的盘IO(对盘存储器或其他次级计算机存储器的总的读和写操作)

MTS数据库22可以根据需要实现为具有一个或多个数据库服务器，该一个或多个数据库服务器运行数据库管理系统(DBMS)软件并包括合适的RAID盘阵列和/或任何其他合适的数据存储机制。可使用CSV文件和/或任何其他合适的数据格式将用量和硬件统计数据从网络服务器18发送至MTS数据库22。每一个网络服务器18可将其定期的统计数据发送至MTS数据库22，并且/或者LAN 12中的网络服务器18中的一个或多个能够收集LAN 12中的多个网络服务器18的统计数据并将所收集的统计数据发送至MTS数据库22。MTS数据库22可被实现为例如Oracle或SQL数据库或任何其他合适的数据库。

当执行预测和抽取采样模块30的软件时，资源预测计算机系统20的处理器执行以上所述的控制器的预测和抽取采样功能。

如上所述，资源预测计算机系统20可以基于已预报的用户工作负载预报针对特定时间段的、用于企业的服务器18的适当数量。资源预测计算机系统20可以将这些服务器数量推荐传递至为网络服务器18充当代理的网络服务器40(见图4)。基于从资源预测计算机系统20传递的决定，所述代理服务器40可以确定在各个时刻处LAN 12中的多少台服务器18应当被打开(完全活动、工作模式)和/或应当被置入低功率模式(例如空闲或睡眠模式)并相应地指令这些服务器18。这样，当基于所预报的用量和/或负载模式网络服务器18中的一些未被预报为被需要时，它们可被置入低功率模式。例如，参考图4，资源预测计算机系统20可以确定针对特定时间段所需要的网络服务器18的预报的数量。此预报可以是针对一个LAN 12中的网络服务器18或者是针对跨多个LAN 12的网络服务器18。资源预测计算机系统20可将此数量发送至代理服务器40，代理服务器40可指令其LAN 12中和/或其他LAN 12中的各个服务器18在适当的时刻处于工作的、高功率模式中(能够处理用户资源需求)或者处于低功率模式中(不能处理用户资源需求)。网络服务器18可以相应地采取所指令的功率模式。这样，在预报的网络资源需求低的时刻，若干网络服务器18可被置入低功率模式以节约能量和相关成本。反之，在预报的网络资源需求高的时刻，足够数量的网络服务器18将准备好处理预期的用户请求负载。

应当注意，例如图4仅示出了足以理解本发明的方面的企业计算机系统10的部件。应当认识到，企业计算机系统10可以包括使用有线的(例如双绞线线缆上的以太网)或无线的(例如Wi-Fi)通信链路的若干网络互连的LAN、WAN、MAN等。网络服务器18可以处理企业所要求的、大量的和不同类型的资源，并且客户端计算机16可以是任何合适类型的启用网络的终端用户计算机设备，诸如笔记本电脑、个人计算机、平板计算机、智能电话等等。资源预测计算机系统20可以由一个或多个网络化的计算机设备实现。在资源预测计算机系统20包括多个计算机设备的情况下，它们可以被一个或多个LAN、WAN、MAN等网络互连。此外，企业计算机系统10可以包括额外的代理计算机40以供给服务器18。

预测和抽取采样模块30可以实现在以任何合适的计算机语言(诸如Python)编写的一个或多个计算机程序中，从而当处理器24执行控制器的软件程序时，使处理器24执行本文所述的控制器的功能。举例而言，用于执行指令程序的合适的处理器24包括通用微处理器和专用微处理器两者。此外，本文所述的任何计算机部件可以包括单个处理器或多个处理器。处理器24接收来自只读存储器或随机存取存储器或它们两者的指令和数据。

Claims

1.一种用于预测在未来时间段内企业计算机系统的网络服务器的未来工作负载的计算机实现的方法，其中所述企业计算机系统包括为所述企业计算机系统的用户托管计算机资源的多个网络服务器，其中所述方法包括：

通过已编程的计算机系统，基于时间段的k个最近子序列的排序，预测针对所述未来时间段的请求的数量p，其中在所述时间段中，单位时间T内所述企业计算机系统的所述用户对所述网络服务器的请求的数量最近似于新近时间段的当前子序列；

通过已编程的计算机系统，基于所述请求的属性，将历史请求分类为两个或更多个请求类型类；

通过已编程的计算机系统，基于历史请求在所述两个或更多个请求类型类的每一个请求类型类中的比例，预测所述未来时间段中的请求在所述两个或更多个请求类型类的每一个请求类型类中的比例；

通过已编程的计算机系统，确定所述请求类型类的所述一个或多个请求属性的周期性；

通过已编程的计算机系统，基于所述请求类型类的所述周期性，采样p个历史请求，使得p个采样具有所述两个或更多个请求类型类中的每一个请求类型类的所预测比例，并且使得所述p个采样来自与所述未来时间段同样的请求周期点；以及

通过已编程的计算机系统，合成p个被采样的历史请求，以获得针对所述未来时间段的所述网络服务器的工作负载轨迹。

2.如权利要求1所述的方法，还包括基于预测的未来工作负载，调整在所述未来时间段处的所述网络服务器的状态。

3.如权利要求1所述的方法，其中基于所述请求的属性将所述历史请求分类为两个或更多个请求类型类的步骤包括：

通过所述已编程的计算机系统，执行所述历史请求的所述属性的相关性分析；

通过所述已编程的计算机系统，基于所述相关性分析，将所述历史请求分类为所述两个或更多个类。

4.如权利要求3所述的方法，其中执行所述相关性分析包括计算所述请求的属性对之间的皮尔逊相关系数。

5.如权利要求4所述的方法，其中对所述历史请求进行分类包括通过所述已编程的计算机系统，使用聚类算法，以基于所述请求的所述请求属性将所述请求分成所述两个或更多个请求。

6.如权利要求1所述的方法，其中确定所述请求类型类的所述一个或多个请求属性的周期性包括使用快速傅里叶变换来计算所述两个或更多个类的所述一个或多个请求属性的周期长度。

7.一种用于预测在未来时间段内企业计算机系统的网络服务器的未来工作负载的系统，其中所述企业计算机系统包括为所述企业计算机系统的用户托管计算机资源的多个网络服务器，其中所述系统包括：

与所述多个网络服务器通信的计算机数据库系统，用于为所述多个网络服务器存储关于所述用户的历史请求的数据；

与所述计算机数据库系统通信的预测计算机系统，其中已编程的计算机系统被编程以通过执行包含以下操作的步骤来预测所述网络服务器的所述未来工作负载：

基于时间段的k个最近子序列的排序，预测针对所述未来时间段的请求的数量p，其中在所述时间段中，单位时间T内所述企业计算机系统的所述用户对所述网络服务器的请求的数量最近似于新近时间段的当前子序列；

基于所述请求的属性，将历史请求分类为两个或更多个请求类型类；

基于历史请求在所述两个或更多个请求类型类的每一个请求类型类中的比例，预测所述未来时间段内的请求在所述两个或更多个请求类型类的每一个请求类型类中的比例；

确定所述请求类型类的所述一个或多个请求属性的周期性；

基于所述请求类型类的所述周期性，采样p个历史请求，使得p个采样具有所述两个或更多个请求类型类中每一个请求类型类的所预测比例，并且使得所述p个采样来自与所述未来时间段同样的请求周期点；以及

合成p个被采样的历史请求以获得针对所述未来时间段的所述网络服务器的工作负载轨迹。

8.如权利要求7所述的系统，还包括与所述预测计算机系统通信的代理计算机系统，其中所述代理计算机系统用于基于所预测的未来工作负载，调整在所述未来时间段处的所述网络服务器的状态。

9.如权利要求7所述的系统，其中所述预测计算机系统被编程以通过执行包括以下操作的步骤来基于所述请求的所述属性将所述历史请求分类为所述两个或更多个请求类型类：

执行所述历史请求的所述属性的相关性分析；

基于所述相关性分析，将所述历史请求分类为所述两个或更多个类。

10.如权利要求9所述的系统，其中所述预测计算机系统被编程以通过执行包括以下操作的步骤来执行所述相关性分析：

计算所述请求的属性对之间的皮尔逊相关系数。

11.如权利要求10所述的系统，其中所述预测计算机系统被编程以通过执行包括以下操作的步骤来将所述历史请求分类：

使用聚类算法以基于所述请求的所述请求属性将所述请求分成所述两个或更多个请求。

12.如权利要求7所述的系统，其中所述预测计算机系统被编程以通过执行包括以下操作的步骤来确定所述请求类型类的所述一个或多个请求属性的周期性：

使用快速傅里叶变换来计算两个或更多个类的所述一个或多个请求属性的周期长度。