CN108415777A

CN108415777A - 一种基于聚类特征提取的云计算集群任务负载预测方法

Info

Publication number: CN108415777A
Application number: CN201810232820.1A
Authority: CN
Inventors: 余永佳
Original assignee: Changzhou College of Information Technology CCIT
Current assignee: Changzhou College of Information Technology CCIT
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-08-17

Abstract

基于聚类特征提取的云计算集群任务负载预测方法，包括如下步骤：调取并分析云集群数据服务器的历史负载数据，通过聚类算法将相似的历史负载曲线聚合到一个类别中，从而形成K个历史负载曲线聚类；对所述K个历史负载曲线聚类进行分析；采集用户提交的任务一定时间内的初始负载数据，选取DTW距离最短的历史负载曲线聚类为初始负载数据所属的聚类；从初始负载数据所属的聚类中选取与初始负载数据最为接近的历史负载曲线，作为负载预测的依据；通过所述与初始负载数据最为接近的历史负载曲线在所述一定时间区间的负载数据，预测用户提交任务在未来时间区域内的负载。提升云计算服务端资源调度准确性，并降低云计算服务资源的浪费。

Description

一种基于聚类特征提取的云计算集群任务负载预测方法

技术领域

本发明涉及一种基于聚类特征提取的云计算集群任务负载预测方法。

背景技术

云计算集群通过网络来提供动态易扩展的虚拟化资源,将硬件物理资源进行重组、分配、调度，形成可配置的虚拟计算资源共享池(资源包括网络、服务器、存储、应用软件、服务)，从而为用户提供可用的、便捷的、按需的网络访问，减少用户的管理工作，让用户工作重心转移到业务层面。近年来众多用户已经将自由的服务器应用，转移到公有云服务，用户应用面向的领域各有不同，对于云计算的性能等各方面的需求也不同。

针对用户的不同需求，逐渐衍生了网络服务供应商和客户间的合同约定SLA(Service-Level Agreement)。一个完整的SLA同时也是一个合法的文档，包括所涉及的当事人、协定条款、违约的处罚、费用、双方的义务等。合同在服务核心内容方面，用户和提供商可以在工作负荷、资源使用、数据安全、流量控制、任务调度等方面进行约定。在签订SLA基础上，会对用户的使用情况进行监测，比如系统会收集用户提交任务的执行调度的状态数据。通过分析历史状态数据与SLA所规定的指标，来衡量服务商的服务质量。如果服务商未能达到SLA所规定的指标，将很有可能影响用户的任务执行，按照SLA约定服务商将被处罚。

对于SLA用户提交的任务，服务商如何保障用户任务在执行时保有足够的计算资源，直接关系到用户所提交任务的运行检测数据，能否达到SLA规定的服务质量。用户将任务提交到公有云时，会提供任务的基本信息，服务商如果希望保障SLA，最简单的方法是分配大量的资源如(CPU、内存资源)，以确保任务的执行，但是该解决方案的缺点是很容易造成资源的严重浪费。资源浪费表现为两种形式，一种是开始分配了大量资源，而实际任务根本使用不到；另一种是分配了恒定的资源，任务运行过程中仅一小段时间使用到这部分资源，而其他时间仅需要少量资源维护运行。服务商解决该问题的核心在于需要集群任务负载预测的方案，如果能够在短时间能根据任务的基本信息对该任务后期可能所需要的资源(任务未来的负载)进行预测，从而在不同时间阶段为任务动态分配足额资源，保障任务的顺利执行，又避免资源的严重浪费。

对于负载的预测，本质是时间序列的分析和预测，常见的现有技术为自回归模型(Auto Regression Model)。自回归模型是假设某个时间点的值，与其前序几个时间点的值形成线性依赖。

t，1≤t≤m:为时间索引

m:时间索引的最大值

Y_t，1≤t≤m:时间点t所对应的负载值

(1,Y₁),(2,Y₂),……(t,Y_t),(t+1,Y_t+1),…(m,Y_m):已有的m组负载数据

自回归模型任务Y_t的预测值可以通过Y_t-1,Y_t-2……Y_t-n的线性计算得到，即

其中是前序时间上负载值的参数，c是常量，ε_t是白噪音(符合正态分布)。

自回归模型的本质是收集已有负载值，对后续的负载进行预测。

基于已经获得负载值(Y_t，1≤t≤T)，最重要的是通过算法求解上方公式中的各项参数和常量，得到了这些参数后即可基于已有的负载值预测后续的负载值，从而通过预测的负载值进行资源分配的调整。

通过已有的数据集，如何计算方程式(1)的参数有多种成熟的方法，其中最小二乘法应用范围较广,最小二乘法的计算流程如下：

首先公式(1)的本质就是根据n个特性量Y_t-i来计算Y_t，我们把公示(1)变形为

其中Y₀＝1，根据n个特征量可以计算后一个特征量Y′_n+1，我们希望计算得到的特征量Y′_n+1应该与实际的Y_n+1非常接近，也就是公式(3)损失函数的值最小。

在已有的m组负载数据中，我们可以进行m-n次计算，获得对应的m-n个预测负载值，如果这些预测值与实际值的差值总和最小，也就是损失函数(4)的值最小，我们认为这样的θ_i是最好的。

对利用损失函数(4)分别对θ_i求导，,并令导数为0可得

这样我们得到一个n+1元一次方程组，这个方程组有n+1个方程，求解这个方程，就可以得到所有的n+1个未知的θ_i。有了参数后，就可以利用公式基于前序的负载值预测后一个时刻的负载值。

上述自回归模型需要依赖于最近时间点上所采集的负载，对后续一个时间点进行预测，然后继续采集最新时间点上的负载，再进行预测。这意味着自回归模型需要不断的循环工作，获取最新时间点的负载，才能对未来较短时间内的负载进行预测。另外自回归模型是针对一个时间序列进行分析，获取其线性参数从而进行预测，当有多个时间序列时，每个时间序列的参数都有所不同，就需要针对不同的时间序列计算各自的参数。由于自回归模型的特点，在云计算负载预测中会产生如下的缺点：

1.预测模型的工作负荷较大，需要不断的收集最新数据，然后对后一个时间点的负载进行预测。

2.云计算服务器中，用户提交大量的任务，每个任务都需要计算自回归模型的参数，然后进行实时预测，会造成预测模型负荷严重。

3.由于仅能够预测后续较短时间内的负载，在预测负载值>现有资源时，需要进行资源重新分配。而云计算的资源重新分配有时候需要进行虚拟机的迁移，迁移需要一定的时间，可能会造成资源分配滞后的情况，从而耽误任务的执行效率。

4.自回归模型主要是进行连续的分析，分析的时序呈现比较明显的连续特点，如果需要对任务执行过程中未来长段时间内可能产生的最大资源需求数进行预测，其准确率较低，而云计算环境中，用户提交的任务形态各异，可能会在比较平稳的一段负载后，突然出现负载高峰，自回归模型对此预测的准确率偏低。

发明内容

鉴于以上情形，为了解决上述技术存在的工作负荷大、执行效率和预测准确率偏低的问题，本发明提出一种基于聚类特征提取的云计算集群任务负载预测方法，提升云计算服务端资源调度准确性，并降低云计算服务资源的浪费。

根据本发明的基于聚类特征提取的云计算集群任务负载预测方法，包括如下步骤：

调取并分析云集群数据服务器的历史负载数据，通过DTW动态时间规整算法，计算历史负载曲线的相似度，通过聚类算法将相似的历史负载曲线聚合到一个类别中，从而形成K个历史负载曲线聚类，每个历史负载曲线聚类中包括多个负载特征相似的历史负载曲线；

对所述K个历史负载曲线聚类进行分析，计算每个聚类的平均值、标准方差，用于后期预测；

采集用户提交的任务一定时间内的初始负载数据，通过初始负载数据值计算其与所述K个历史负载曲线聚类的历史负载曲线在所述一定时间区间的DTW距离，选取DTW距离最短的历史负载曲线聚类为初始负载数据所属的聚类；

从初始负载数据所属的聚类中选取与初始负载数据最为接近的历史负载曲线，作为负载预测的依据；

通过所述与初始负载数据最为接近的历史负载曲线在所述一定时间区间的负载数据，预测用户提交任务在未来时间区域内的负载。

优选地，所述对所述K个历史负载曲线聚类进行分析，计算每个聚类的平均值、标准方差，用于后期预测，其方法在于，

CLμi(t)，1≤i≤K：第i个聚类中所有任务在时刻t的负载均值，

CLσ_i(t)，1≤i≤K:第i个聚类中所有任务在时刻t的标准方差，

ST_L(t)，L∈C_i:第i个聚类中负载曲线L在时刻t与聚类均值的偏离度，

STμ_L[P]:第i个聚类中负载曲线L在时刻1～P区间与聚类均值的偏离度均值，

其中P为变量，可以控制时间区间的长短；

STσ_L[P]，1≤i≤K，1≤j≤m_i:第i个聚类中负载曲线L在时刻1～P区间与聚类均值的偏离度的标准方差，

优选地，对所述K个历史负载曲线聚类进行分析，计算每个聚类的平均值、标准方差，用于后期预测，其方法在于，对每个历史负载曲线聚类的平均值、标准方差进行特征提取，形成基于聚类的标签和特征数据。

优选地，所述采集用户提交的任务一定时间内的初始负载数据，通过初始负载数据值计算其与所述K个历史负载曲线聚类的历史负载曲线在所述一定时间区间的DTW距离，选取DTW距离最短的历史负载曲线聚类为初始负载数据所属的聚类，其方法在于，

对于用户提交的任务，收集一定时间的初始负载数据，假设用户提交一个任务为JL，收集其在时间1～IT区间的负载数据，

JL＝(y₁，y₂....，y_1T)；

利用1～IT时刻的负载值，计算JL与K个聚类的核心负载曲线的在1～IT时刻区间的DTW距离，

dtw(JL，CML_i)，1≤i≤K；

选取DTW距离最短的聚类为JL所属的聚类，标识为CJ。

优选地，所述从初始负载数据所属的聚类中选取与初始负载数据最为接近的历史负载曲线，作为负载预测的依据，其方法在于，

计算所有属于CJ聚类的历史负载曲线L与JL的距离：

distance(JL，L)dtw(JL，L)

*|STμ_J[IT]-STμ_L[IT]|

*|STσ_J[IT]-STσ_L[IT]|.L∈CL；

根据距离选取聚类CJ中M个距离最小的历史负载曲线，获得集合(CJ′是CJ的子集)：

CJ′＝{L₁，L₂，...L_M}；

通过考量历史曲线到[1,IT]时刻区间，与聚类均值的偏离度、聚类均值的偏离度标准方差、以及与J的DTW距离，选择M个最接近的历史负载曲线。

优选地，所述通过所述与初始负载数据最为接近的历史负载曲线在所述一定时间区间的负载数据，预测用户提交任务在未来时间区域内的负载，其方法在于，

利用CJ′中的M个历史曲线在时刻区间[1,T]的负载数据，预测用户提交任务JL在未来时间区域内的[IT+1,T]负载；

对于每个历史曲线L∈CJ′，根据其在时刻区间[1,T]间与聚类均值的偏离度均值STμ_L[T]和偏离度标准方差STσ_L[T]，利用3σ准则(又称为拉依达准则)，计算其偏离度的3σ范围，

ST3σ_L[T]＝STμ_L[T]+3*STσ_L[T]；

获取M个历史曲线中偏移度最大的3σ范围，

获取历史曲线最大的偏离度后，利用用户任务JL所属的聚类在时刻t(IT+1≤t≤T)的均值和标准方差，预测用户JL在未来时刻t的负载值，

优选地，首先在云计算虚拟化环境中的云集群控制服务器中安装负载预测程序，通过数据端口从云集群数据服务器中获取已有云计算任务的历史负载数据，进行聚类分析提取特征；基于聚类特征，对用户提交的新任务进行一定时间的负载数据采集，所述负载预测程序通过运算器进行算法运算实现对该任务未来负载的预测，输出预测结果，为后续资源分配提供依据以提高SLA用户的服务质量。

在采取本发明提出的技术后，根据本发明实施例的基于聚类特征提取的云计算集群任务负载预测方法，具有以下有益效果：

1)降低负载预测模型的计算量，仅收集新任务的较短时间的负载，避免不断收集负载数据才能预测。

2)在收集新任务较短的负载前提下，能够较准确的预测负载趋势；

3)在历史负载曲线不存在明显周期特征的条件下，能够较准确的预测负载趋势；

4)对于负载的峰值峰谷出现的时间区段，具有准确的预测能力。

附图说明

图1示出了本发明的基于聚类特征提取的云计算集群任务负载预测方法应用系统架构图；

图2示出了本发明的基于聚类特征提取的云计算集群任务负载预测方法程序流程图。

具体实施方式

下面将结合附图给出的实施例对本发明作进一步详细的说明。所描述的实施例包括帮助理解的各种具体细节，但它们只能被看作是示例性的，是本发明的一部分实施例，而不是全部的实施例。除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。同时，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造及方法的详细描述。

请参阅图1所示基于聚类特征提取的云计算集群任务负载预测方法应用系统架构。云集群环境最底层由众多物理机器构成，物理层提供了计算所需的真实CPU、内存、硬盘等资源；通过成熟的虚拟化平台技术将物理层虚拟为多个虚拟机，这些虚拟的CPU、硬盘和内存，可以随时通过虚拟化技术动态被分配调节，即使物理层某个物理机出现问题，虚拟化平台也可以随时进行迁移，降低对上层计算的影响；控制层由控制服务器、数据服务器和用户接口组成，用户接口负责与云计算用户进行交互，用户提交的任务通过接口发送到控制服务器，控制服务器来向虚拟层申请资源，保证任务的运行，同时控制层还会跟踪任务运行情况，将任务负载存储到数据服务器中，形成用户任务的历史数据。

本发明的基于聚类特征提取的云计算集群任务负载预测方法，首先在云计算虚拟化环境中的云集群控制服务器中安装负载预测程序，程序会从云集群数据服务器中获取历史云计算任务负载数据，进行聚类分析提取特征。基于聚类特征，对用户提交的新任务进行一定时间的负载采集，就可以实现对该任务未来负载的预测，根据预测结果为后续资源分配提供可靠的依据，从而提高SLA用户的服务质量。

下面请参阅图2所示基于聚类特征提取的云计算集群任务负载预测方法程序流程图，其中实线指引线为程序流程线，虚线指引线为数据流程线。首先对数据服务器的任务历史负载数据进行分析，通过成熟的聚类算法将众多历史负载数据分为多个聚类；然后对每个聚类的历史负载进行特征提取，从而形成基于聚类的标签和特征数据；用户提交新任务后，先按照原有的算法给任务分配资源保证任务的正常运行，同时检测任务的状态数据，形成任务的初始负载数据；根据新任务的初始负载数据与历史聚类数据进行比较分析，计算新任务所属的聚类；从所属聚类中计算相近的历史负载，提取多个历史近似负载特征；通过历史负载来预测新任务的未来负载。

具体而言，包括如下步骤。

步骤1：

分析云集群数据服务器的历史负载曲线，通过动态时间规整(Dynamic TimeWarping)算法，计算历史负载曲线的相似度，通过聚类算法K-medoids将相似的历史曲线聚合到一个类别中，从而最终形成多个聚类，每个聚类中是负载特征相似的历史负载曲线。

动态时间规整(Dynamic Time Warping)算法是比较时间序列相似度的常见算法，它假设有两个时序L_i，L_j，长度分别为n和m，

L_i＝(x(1)，x(2)....，x(n))，L_j＝(y(1)，y(2)....，y(m))，两个时序之间的DTW值为：

通过dtw(L_i，L_j)就可以计算两个历史负载曲线之间的差距，值越小说明两者相似度越高。能够比较负载相似度后，可以利用成熟的机器学习算法K核算法(K-MEDOIDS)将历史负载曲线进行聚类，即将相似度较高的历史曲线自动归为一类，最终形成K个聚类。

K-MEDOIDS算法的流程如下：

1)任意选取K个历史负载曲线作为K个分类的核心；

2)计算余下的历史负载曲线与K个分类核心直接的DTW距离，选取距离最段的分类作为该历史负载曲线所属的分类，这样所有曲线就会被分配到K个分类中；

3)对每个一个分类，计算该分类中每个历史负载曲线到该分类中其他历史负载曲线的DTW距离之和，选取一个历史负载曲线作为该分类的中心，该历史曲线到其他历史曲线DTW距离总和最短。

4)重复2、3步直到K个分类的核心不再发生变化。

通过步骤1，我们把从服务器采集的历史曲线进行了聚类分析，形成个K个聚类，每个聚类中有多个历史负载曲线。

C＝{C₁，C₂，...，C_K}:K个历史负载曲线聚类集合，

第i个聚类，其中包括了m_i个历史负载曲线，

CML_i，1≤i≤K:第i个聚类的核心历史负载曲线，

CDμ_i，1≤i≤K:第i个聚类中所有历史负载曲线到核心曲线的DTW均值。

CDσ_i，1≤i≤K:第i个聚类中所有历史负载曲线到核心曲线的DTW的标准方差。

步骤2：对于K个历史负载曲线聚类进行分析，计算每个聚类的平均值、标准方差，用于后期预测：

CLμ_i(t)，1≤i≤K:第i个聚类中所有任务在时刻t的负载均值，

CLσ_i(t)，1≤i≤K:第i个聚类中所有任务在时刻t的标准方差，

STμ_L[P]:第i个聚类中负载曲线L在时刻1～P区间与聚类均值的偏离度均值，其中P为变量，可以控制时间区间的长短。

步骤3：对于用户提交的任务，收集一定时间的初始负载数据，假设用户提交一个任务为JL，收集其在时间1～IT区间的负载数据，

JL＝(y₁，y₂....，y_1T)；

dtw(JL，CML_i)，1≤i≤K；

选取DTW距离最短的聚类为JL所属的聚类，标识为CJ。

步骤4：由于用户提交的任务JL所属的聚类CJ中含有多个历史负载曲线，我们还要从中挑选与J最为接近几个历史负载曲线，作为负载预测的依据。通过考量历史曲线到[1,IT]时刻区间，与聚类均值的偏离度、聚类均值的偏离度标准方差、以及与J的DTW距离，我们挑选M个最接近的历史负载曲线。

计算所有属于CJ聚类的历史负载曲线L与JL的距离：

distance(JL，L)

dtw(JL，L)

*|STμ_I[IT]-STμ_L[IT]|

*|STσ_J[IT]-STσ_L[IT]|·L∈CL

根据距离选取聚类CJ中M个距离最小的历史负载曲线，获得集合(CJ′是CJ的子集)，

CJ′＝{L₁，L₂，...L_M}。

步骤5：利用CJ′中的M个历史曲线在时刻区间[1,T]的负载数据，预测用户提交任务JL在未来时间区域内的[IT+1,T]负载。

ST3σ_L[T]＝STμ_L[T]+3*STσ_L[T]；

获取M个历史曲线中偏移度最大的3σ范围，

本发明通过对服务器的历史负载曲线进行机器学习，利用DTW算法比较曲线的相似度，利用K-Medois方法进行历史负载曲线聚类；仅采集用户新提交任务的初始时间区间内的负载值，判断该任务所属的聚类；进而提取历史任务在预测时间区间中的偏离度和偏离度方差，结合聚类的平均负载和负载方差，进行未来较长时间区间的负载预测。

根据本发明的基于聚类特征提取的云计算集群任务负载预测方法，充分利用了云计算环境中存储的历史负载数据，对历史负载数据进行学习，形成预测模型；在用户提交新任务后，服务器收集少量的初始负载数据后，通过分析新任务所属的聚类，以及聚类中历史负载数据的规律，就可以预测新任务未来较长时间段的负载，避免传统模型所需要的持续数据数据采集、实时分析带来的高负荷。

根据本发明的基于聚类特征提取的云计算集群任务负载预测方法，由于基于历史负载数据的特征聚合和采集，可以预测较长时间后的负载，并且由于历史负载曲线的特征被用于预测，很容易获得未来较长时间区间内的显著特征(如负载峰值)，利用负载峰值可以提前分配好足量的资源，有效避免突然产生的负载峰值造成资源不足的情况。

根据本发明的基于聚类特征提取的云计算集群任务负载预测方法，偏离度均值和偏离度方差进行近似性比较，从聚类中抽取多个较为接近的历史负载曲线，并获取接近的历史负载曲线偏离度的3σ值，有效预测了未来时间区域内可能出现的峰值。

本发明通过对服务器存储的历史负载进行聚类分析，获取历史负载的特征。对于用户提交的任务，通过采集新任务较短的负载数据，完成该任务较长时间区间内的负载曲线的预测。从而基于预测值进而动态调整资源分配策略，实现在保障云计算用户使用感受的前提下，为云计算提供商节省无味的资源消耗。

Claims

1.一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，

2.根据权利要求1所述的一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，对所述K个历史负载曲线聚类进行分析，计算每个聚类的平均值、标准方差，用于后期预测，具体方法包括，

CLμ_i(t)，1≤i≤K:第i个聚类中所有任务在时刻t的负载均值，

CLσ_i(t)，1≤i≤K:第i个聚类中所有任务在时刻t的标准方差，

其中P为变量，可以控制时间区间的长短；

3.根据权利要求2所述的一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，对所述K个历史负载曲线聚类进行分析，计算每个聚类的平均值、标准方差，用于后期预测，具体方法包括，对每个历史负载曲线聚类的平均值、标准方差进行特征提取，形成基于聚类的标签和特征数据。

4.根据权利要求2或3所述的一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，所述采集用户提交的任务一定时间内的初始负载数据，通过初始负载数据值计算其与所述K个历史负载曲线聚类的历史负载曲线在所述一定时间区间的DTW距离，选取DTW距离最短的历史负载曲线聚类为初始负载数据所属的聚类，具体方法包括，

JL＝(y₁，y₂....，y_IT)；

dtw(JL，CML_i)，1≤i≤K；

选取DTW距离最短的聚类为JL所属的聚类，标识为CJ。

5.根据权利要求4所述的一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，所述从初始负载数据所属的聚类中选取与初始负载数据最为接近的历史负载曲线，作为负载预测的依据，具体方法包括，

计算所有属于CJ聚类的历史负载曲线L与JL的距离：

distance(JL，L)＝dtw(JL，L)

*|STμ_J[IT]-STμ_L[IT]|

*|STσ_J[IT]-STσ_L[IT]|.L∈CL；

CJ′＝{L₁，L₂，...L_M}；

通过考量历史曲线到[1，IT]时刻区间，与聚类均值的偏离度、聚类均值的偏离度标准方差、以及与J的DTW距离，选择M个最接近的历史负载曲线。

6.根据权利要求5所述的一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，所述通过所述与初始负载数据最为接近的历史负载曲线在所述一定时间区间的负载数据，预测用户提交任务在未来时间区域内的负载，具体方法包括，

利用CJ′中的M个历史曲线在时刻区间[1，T]的负载数据，预测用户提交任务JL在未来时间区域内的[IT+1，T]负载；

对于每个历史曲线L∈CJ′，根据其在时刻区间[1，T]间与聚类均值的偏离度均值STμ_L[T]和偏离度标准方差STσ_L[T]，利用3σ准则(又称为拉依达准则)，计算其偏离度的3σ范围，

ST3σ_L[T]＝STμ_L[T]+3*STσ_L[T]；

获取M个历史曲线中偏移度最大的3σ范围，

7.根据权利要求1至6中任一项所述的一种基于聚类特征提取的云计算集群任务负载预测方法，其特征在于，首先在云计算虚拟化环境中的云集群控制服务器中安装负载预测程序，通过数据端口从云集群数据服务器中获取已有云计算任务的历史负载数据，进行聚类分析提取特征；基于聚类特征，对用户提交的新任务进行一定时间的负载数据采集，所述负载预测程序通过运算器进行算法运算实现对该任务未来负载的预测，输出预测结果，为后续资源分配提供依据以提高SLA用户的服务质量。