CN110297715B

CN110297715B - 一种基于周期性特征分析的在线负载资源预测方法

Info

Publication number: CN110297715B
Application number: CN201910592018.8A
Authority: CN
Inventors: 梁毅; 苏超; 丁毅; 丁振兴; 李硕; 苏航
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-09-14
Anticipated expiration: 2039-07-02
Also published as: CN110297715A

Abstract

本发明公开了一种基于周期性特征分析的在线负载资源预测方法，在线负载资源预测方法分为三个步骤，资源序列周期识别、子序列分类、在线负载资源预测方法构建。本方法针对在线负载在运行过程中资源使用量具有明显的周期性特征，收集在线负载资源序列样本，对资源序列进行周期识别以及资源序列划分；其次，对于划分得到的子序列进行相似度计算并分类；然后，采用加权方式计算在线负载资源需求进行预测，本方法实现了基于周期性的在线负载资源预测。

Description

一种基于周期性特征分析的在线负载资源预测方法

技术领域

本发明属于大数据领域，具体涉及大数据在线负载资源的周期性分析和预测方法。

背景技术

负载是运行在数据中心的具体实例，是数据中心资源消耗的实际主体。在线负载是指以Web应用、流式计算为代表的、面向并发终端用户的常驻型服务所形成的计算负载，也是数据中心的主要负载之一。在线负载具有的特点是时效性强，对延迟敏感。内存和CPU是影响在线负载性能的重要资源。在线负载具有波动性，其资源使用量随着请求/数据到达强度的不同而产生波动。面向在线负载波动性特征，准确预测负载的资源需求，是保证在线负载资源充足和服务质量的前提下，提高数据中心资源利用率的关键。

既有数据中心在线负载的资源使用情况具有明显的周期性特征。然而，目前大数据在线负载的资源预测方法并未结合资源使用的周期性特征对在线负载资源进行预测，这使得既有的在线负载资源预测方法存在如下问题：

(1)无法在样本数据量较少的情况下对在线负载进行资源进行准确预测。既有在线负载资源预测方法主要是时间序列分析法和机器学习相关算法，而这两种预测方法的准确度都依赖于大规模的历史样本数据。

(2)预测过程中的时间开销较大。由于现有的在线负载资源预测方法没有进一步探究资源使用的特征，所以，每一次预测都需要通过对所有样本数据进行训练和建模。随着在线负载资源样本数据的不断扩大，预测过程中的时间开销会越来越大，降低了预测效率。

综合而言，目前的研究中尚未存在基于周期性分析的在线负载资源预测方法。

发明内容

针对上述问题，本发明提出了一种基于周期性识别的在线负载的资源预测方法。本发明首先对在线负载的内存和CPU使用量的周期值进行计算，并根据周期值对资源使用序列进行划分；然后对经过划分得到的子序列进行相似性计算并根据度量结果将其分为常规序列和异常序列；最终结合常规序列和异常序列的资源使用信息计算出最终的资源使用量预测值。

本发明所述的在线负载的资源预测方法主要分为四个步骤：资源序列周期识别、子序列分类、在线负载资源预测和预测条件判断。

上述方法在计算机上按照以下步骤实现：

(1)资源序列周期识别：

1.1)收集在线负载资源使用序列，采用固定时间步长，从在线负载资源使用序列L中采样数据，构建时间序列ML＝{ml₁,ml₂,···ml_p}，其中ml_j表示第j个时间点对应的资源使用量,p为采样总量。

1.2)自相关函数是信号领域用户周期性检测的常用方法，根据自相关函数公式(1)计算出序列ML的自相关序列MR＝{mr₁,mr₂,···mr_n}。

其中，N是有限长的离散序列y的长度，x表示元素下标，k表示自变量。

1.3)对MR中任意两个相邻的两个极大值，依据其发生的时间点，计算它们的时间距离t_{_maxi}。

1.4)计算所有t_{_maxi}的均值，将该均值设定为资源使用量序列的周期T。

1.5)按照周期T将序列ML进行分割，得到按照时间顺序排列的资源子序列集合MZ＝{mz₁,mz₂,···mz_q}，其中

表示经过周期分割后的子序列，

表示子序列mz_i中第j时刻的资源使用量。

(2)子序列分类：

2.1)本方法根据欧氏距离公式(2)度量两个子序列之间的相似度，同时以三元组(p_i,p_j,S_ij)的形式进行记录。

其中，p_i是第i个序列，p_j是第j个序列,p_ik表示第i个序列中的第k个元素数据，同理，p_jk表示第j个序列中的第k个元素数据。

2.2)将所有子序列之间距离的最大值，定义为全序列距离最大值d_max，如公式(3)。

d_max＝max({D(x_i,x_j)|x_i∈X,x_j∈X}) (3)

其中，D(a,b)表示a、b之间的距离。

2.3)将所有序列之间距离的最小值，定义为全序列距离最小值d_min，如公式(4)

d_min＝min({D(x_i,x_j)|x_i∈X,x_j∈X}) (4)

其中，D(a,b)表示a、b之间的距离。

2.4)将常规序列之间的最大距离，定义为常规序列距离阈值α，计算方法如公式(5)。

α＝(d_max-d_min)×a+d_min (5)

2.5)本文使用改进的K-Means聚类算法对子序列进行分类：

2.5.1)随机选择序列集中的数据点作为簇中心集合{o₁,o₂}←RandomSelect(X)。

2.5.2)以初始簇中心初始化簇集合C，C₁←o₁，C₂←o₂。

2.5.3)将每一个样本对象mz_i到归入距离最近的簇。

2.5.4)计算每一个类簇中所有数据点与类簇中心点的距离，并分别获得两个类簇的簇内序列最大距离max_point_distance₁和max_point_distance₂。

2.5.5)计算两个簇之间的距离cluster_distance←Distance(C₁,C₂)，并以簇中数据点位置平均值更新中心点{o₁,o₂}←UpdateCenter(C₁,C₂)。

2.5.6)定义簇间距阈值θ和簇内点间距阈值α。在满足cluster_distance>θ且max_point_distance₁<α且max_point_distance₂<α时，返回分类结果C₁和C₂。否则重复2.5.3)至2.5.5)。

2.6)将两类之中数量较多的序列定义为常规子序列，另一类定义为异常子序列。

(3)在线负载资源预测

令NL＝(nl₁,nl₂,···nls)为按照时间排序的常规子序列集合，其中任意nl_i∈NL，i∈(1,s)可表示为nl_i＝{nl_s_i1,nl_s_i2,···nl_s_im}，即一个周期内所有采样时刻的资源使用量。令AL＝(al₁,al₂,···al_f)为按照时间排序的异常子序列集合，其中任意al_i＝(al_s_i1,al_s_i2,···al_s_im)，即一个周期内所有采样时刻的资源使用量。

3.1)定义在经过周期分割的所有在线负载资源使用子序列中，异常子序列所占子序列数量的比例为异常比例R_f，计算方法如公式(6)。

其中，|NL|为常规子序列的总数量；|AL|为异常子序列的数量。

3.2)对任一常规子序列中时刻t的资源使用量nl_s_{i_t}，其常规变化率Rnl_{i_t}，计算方法如公式(7)。

其中，nl_s_{i+1_t}表示第i+1个常规子序列中时刻t的资源使用量。

3.3)定义NL＝(nl₁,nl₂,···nl_s)中前s-1个常规子序列中时刻t的资源使用量的常规平均变化率

计算方法如公式(8)。

3.4)对任一异常子序列中时刻t的资源使用量al_{i_t}，其常规变化率Ral_{i_t}，计算方法如公式(9)。

其中，al_s_{i+1_t}表示第i+1个异常子序列中时刻t的资源使用量。

3.5)定义AL＝(al₁,al₂,···al_f)中前f-1个常规子序列中时刻t的资源使用量的异常平均变化率

计算方法如公式(10)。

3.6)对下一个序列周期的第j时刻的资源使用量在常规序列变化趋势的情况下的预测值记为nl_{forecast_j}，计算方法如公式(11)。

其中，nl_s_{|NL|_j}表示常规序列中最后一个序列中第j个资源使用量。

3.7)对下一个序列周期的第j时刻的资源使用量在异常序列变化趋势的情况下的预测值记为al_{forecast_j}，计算方法如公式(12)。

其中，al_s_{|AL|_j}表示异常序列中最后一个序列中第j个元素的资源使用量。

3.8)针对在线负载的资源使用量序列，预测未来一个周期第j时刻的资源使用量l_{next_j}，具体使用加权计算方法,如公式(13)。

l_{next_j}＝(1-R_f)*nl_{forecast_j}+R_f*al_{forecast_j} (13)

本发明采集在线负载资源使用量序列(包括内存和CPU)。首先对在线负载的资源序列进行周期识别(步骤(1))。其次根据周期值对资源序列进行划分，计算子序列之间的相似性并对其进行分类(步骤(2))。然后计算每一类的预测值并通过加权的方式获得最终的资源预测值(步骤(3))，实现了基于周期性的在线负载资源预测。

附图说明

图1为本发明方法所依附的在线负载的部署图。

图2为本发明方法的总体流程图。

图3为在线负载资源使用序列周期识别流程图。

图4为在线负载资源序列子序列分类方法流程图。

图5为在线负载资源预测方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行说明。

本发明结合Web负载和流计算负载两种在线负载的资源使用情况，阐述所提出的在线负载资源预测方法。图1是本方法所依附的平台架构图，在负载运行过程中通过收集模块可以收集到在线负载资源序列。图2是本发明的总流程。本实施方法步骤可以分为以下步骤：

(1)资源序列周期识别：

1.1)收集在线负载资源使用序列，采用固定时间步长为10s，从在线负载资源使用序列L中采样数据，构建CPU时间序列ML＝{20，16，18，17，21，···19}，其中m_j表示第j个时间点对应的资源使用量,p＝36000为采样总量。

1.2)根据自相关公式(1)计算出序列ML的自相关序列MR＝{15,13,14,11,···17}。自相关函数是信号领域用户周期性检测的常用方法，公式如下：

1.3)对MR中任意两个相邻的两个极大值计算，依据其发生的时间点，计算它们的时间距离t_{_maxi}＝900s。

1.4)计算出所有t_{_maxi}的均值为15分钟，并将15分钟设定为资源使用量序列的周期。

1.5)按照周期T将序列ML进行分割，得到按照时间顺序排列的资源子序列集合ML＝{mz₁,mz₂,···mz_q}，其中

表示经过周期分割后的子序列，

表示子序列mz_i中第j时刻的资源使用量。

(2)子序列分类：

2.1)根据欧氏距离公式(2)计算每两个子序列间的相似度，同时以三元组(p_i,p_j,S_ij)的形式进行记录。

2.2)将原资源序列按照周期进行划分，获得子序列集合。所有序列之间距离的最大值，定义为全序列距离最大值d_max＝30，如公式(3)。

d_max＝max({D(x_i,x_j)|x_i∈X,x_j∈X}) (3)

其中，D(a,b)表示a、b之间的距离。

2.3)将所有序列之间距离的最小值，定义为全序列距离最小值d_min＝3，如公式(4)

d_min＝min({D(x_i,x_j)|x_i∈X,x_j∈X}) (4)

其中，D(a,b)表示a、b之间的距离。

2.4)将常规序列之间的最大距离，定义为常规序列距离阈值α＝20，计算方法如公式(5)。

α＝(d_max-d_min)×a+d_min (5)

2.5)本文使用改进K-Means聚类算法对子序列进行分类：

2.5.2)以初始簇中心初始化簇集合C，C₁←o₁，C₂←o₂。

2.5.3)将每一个样本对象mz_i到归入距离最近的簇。

2.5.4)计算每一个类簇中所有数据点与类簇中心点的距离，并分别获得两个类簇内的最大距离max_point_distance₁和max_point_distance₂。

2.5.5)计算簇间距离cluster_distance←Distance(C₁,C₂)，并以簇中数据点位置平均值更新中心点{o₁,o₂}←UpdateCenter(C₁,C₂)。

2.5.6)定义簇间距阈值θ＝24和簇内点间距阈值α＝17。在满足cluster_distance>θ且max_point_distance₁<α且max_point_distance₂<α时，返回分类结果C₁和C₂。否则重复2.5.3)至2.5.5)。

(3)在线负载资源预测

令NL＝(nl₁,nl₂,···nl_s)为按照时间排序的常规子序列集合，其中任意nl_i∈NL，i∈(1,s)可表示为nl_i＝{nl_s_i1,nl_s_i2,···nl_s_im}，即一个周期内所有采样时刻的资源使用量。令AL＝(al₁,al₂,···al_f)为按照时间排序的异常子序列集合，其中任意al_i＝(al_s_i1,al_s_i2,···al_s_im)，即一个周期内所有采样时刻的资源使用量。

其中，|NL|为常规子序列的总数量33；|AL|为异常子序列的数量7。

计算方法如公式(8)。

3.4)对任一异常子序列中时刻t的资源使用量al_{i_t}，其异常变化率Ral_{i_t}，计算方法如公式(9)。

3.5)定义AL＝(al₁,al₂,···al_f)中前f-1个异常子序列中时刻t的资源使用量的异常平均变化率

计算方法如公式(10)。

3.8)针对在线负载的资源使用量序列未来一个周期第j时刻的资源使用量l_{next_j}的预测，使用加权计算方法,如公式(13)。

l_{next_j}＝(1-R_f)*nl_{forecast_j}+R_f*al_{forecast_j} (13)

根据本发明所提出的在线负载资源预测方法，发明人对预测的准确度和预测时间开销两个指标做了相关的测试。验证结果表明，本发明方法适用于具有周期性特征的在线负载资源预测，采用本发明方法，可以在较小的时间开销情况下准确的预测资源需求。

测试以平均相对误差和时间开销为指标，体现本发明提出的在线负载方法的准确性和较小的时间开销。性能测试运行于5个节点构成的集群系统，节点的硬件配置包括：Intel(R)Xeon(R)CPU E5-26600@2.2.GHz的CPU、16GB DDR3RAM、1TB SATA硬盘，节点间采用千兆以太网互连，操作系统为Centos6.5。实验选用WordCount作为流计算在线负载的应用为例进行测试。WordCount应用的到达间隔符合正弦分布和泊松分布，到达强度为[1,10]M/s，数据到达强度变化周期为30分钟。选用TPC-W负载作为Web类型的在线负载，访问强度为[40,80]次/秒，强度变化范围是30分钟。

针对预测方法准确性的测试

通过发明内容所述方法计算在线负载资源预测的平均相对误差。本实验选取WordCount应用和TPC-W负载作为在线负载，数据到达/用户访问符合正弦分布和泊松分布，数据到达强度为[1,10]M/s，用户访问为强度[40,80]次/秒，数据到达/用户访问变化周期为30分钟。分别收集两种负载在数据规模为10800、14400和18000条作为测试数据。WordCount应用的产生的10800、14400和18000条内存数据序列分别为实验分组1、2、3，TPC-W负载产生的10800、14400和18000条内存数据序列分别为实验分组4、5、6。我们提出的资源预测方法(PRP)结果通过平均相对误差(MRE)作为性能评价指标，对比对象为ARIMA算法、支持向量回归算法和马尔可夫模型。在正弦数据分布下的测试结果如表1所示，在泊松数据分布下的测试结果如表2所示。

表1正弦分布情况下的在线负载资源需求预测准确度比较

实验组

1

2

3

4

5

6

PRP(MRE)

8.89％

8.92％

8.97％

8.99％

9.97％

8.89％

ARIMA(MRE)

11.52％

11.42％

11.65％

11.49％

11.71％

11.58％

SVR(MRE)

9.72％

9.79％

9.61％

9.57％

9.51％

9.53％

Markov(MRE)

11.73％

11.75％

12.02％

12.13％

12.2％

11.97％

表2泊松分布情况下的在线负载资源需求预测准确度比较

实验组

1

2

3

4

5

6

PRP(MRE)

8.69％

8.72％

8.67％

8.87％

8.79％

8.81％

ARIMA(MRE)

11.62％

11.65％

11.57％

11.75％

11.69％

11.68％

SVR(MRE)

9.57％

9.59％

9.57％

9.61％

9.67％

9.52％

Markov(MRE)

12.23％

11.65％

11.79％

12.12％

11.73％

12.2％

实验结果表明，与既有基于ARIMA算法、支持向量回归算法和马尔可夫模型的在线负载资源预测方法相比，本文提出的基于周期性特征的在线负载资源预测方法可使预测平均相对误差最大降低28.3％、12.3％和27.4％。

针对预测方法时间开销的测试

通过发明内容所述方法计算在线负载资源预测的时间开销。实验选取WordCount负载在周期为20分钟、数据到达强度范围在1MB/s至10MB/s且数据分布为正弦分布情况下，产生资源序列样本数据在10800条到36000条规模下的资源预测时间开销。测试结果如表3所示。

表3在线负载资源预测时间开销比较

数据规模(条)

10800

14400

18000

25200

32400

36000

PRP

792s

481s

573s

682s

751s

812s

ARIMA

1172s

1407s

1482s

1626s

1871s

2103s

SVR

582s

606s

671s

701s

971s

1123s

Markov

1104s

1194s

1287s

1404s

1762s

2031s

随着样本数据规模的增大，基于周期特征的资源预测方法在预测过程中的时间开销增长率平均为6.7％，而三种对比对象方法的时间开销增长率分别为16.7％、19.6％和12.5％。这是因为在第一次预测的过程中，对于周期的识别已经做完，结合周期性特征，后面新增加的样本数据不用再进行周期识别，减小了时间开销。而在其他三种方法中，每一次建模和预测都要对全部的数据进行训练，这样才能保持一定的准确度。因此，随着样本的增大，其他三种方法的时间开销明显增加。

以上实施例仅用以说明本发明，而并非限制本发明所描述的技术方案。因此，一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于周期性识别的在线负载的资源预测方法，其特征在于包括三个步骤：

资源序列周期识别、子序列分类、计算资源使用量预测值：

(1)资源序列周期识别：

1.1)收集在线负载资源使用序列，采用固定时间步长，从在线负载资源使用序列L中采样数据，构建时间序列ML＝{ml₁，ml₂，…ml_p}，其中ml_j表示第j个时间点对应的资源使用量，p为采样总量；

1.2)根据自相关函数公式计算出序列ML的自相关序列MR＝{mr₁，mr₂，…mr_n}；

1.3)对MR中任意两个相邻的极大值，依据其发生的时间点，计算它们的时间距离t_{_maxi}；

1.4)计算所有t_{_maxi}的均值，将该均值设定为资源使用量序列的周期T；

1.5)按照周期T将序列ML进行分割，得到按照时间顺序排列的资源子序列集合MZ＝{mz₁，mz₂，...，mz_q}，其中

表示经过周期分割后的子序列，

表示子序列mz_i中第j时刻的资源使用量；

(2)子序列分类：

2.1)根据欧氏距离公式度量两个子序列mz_i之间的相似度，同时以三元组(p_i，p_j，S_ij)的形式进行记录；

其中，p_i是第i个序列，p_j是第j个序列，p_ik表示第i个序列中的第k个元素数据，同理，p_jk表示第j个序列中的第k个元素数据；

2.2)将所有子序列之间距离的最大值，定义为全序列距离最大值d_max

2.3)将所有序列之间距离的最小值，定义为全序列距离最小值d_min

2.4)计算常规序列距离阈值α，计算公式如下：

α＝(d_max-d_min)×a+d_min

2.5)使用改进的K-Means聚类算法对子序列进行二分类，具体如下：

2.5.1)随机选择序列集中的数据点作为簇中心集合{o₁，o₂}←RandomSelect(X)；

2.5.2)以初始簇中心初始化簇集合C，C₁←o₁，C₂←o₂；

2.5.3)将每一个样本对象mz_i归入距离最近的簇；

2.5.4)计算两个类簇中所有数据点与类簇中心点的距离，并分别获得两个类簇的簇内序列最大距离max_point_distance₁和max_point_distance₂；

2.5.5)计算两个类簇之间的距离cluster_distance←Distance(C₁，C₂)，并以每个簇中数据点位置的平均值分别更新每个类簇的中心点{o₁，o₂}←UpdateCenter(C₁，C₂)；

2.5.6)定义簇间距阈值θ和簇内点间距阈值α，在满足cluster_distance＞θ且max_point_distance₁＜α且max_point_distance₂＜α时，返回分类结果C₁和C₂，否则重复2.5.3)至2.5.5)；

2.6)将两类之中数量多的序列定义为常规子序列，另一类定义为异常子序列；

(3)在线负载资源预测

令NL＝(nl₁，nl₂，…nl_s)为按照时间排序的常规子序列集合，其中任意nl_i∈NL，i∈(1，s)表示为nl_i＝{nl_s_i1，nl_s_i2，…nl_s_im}，即一个周期内所有采样时刻的资源使用量，令AL＝(al₁，al₂，…al_f)为按照时间排序的异常子序列集合，其中任意al_i＝(al_s_i1，al_s_i2，…al_s_im)，即一个周期内所有采样时刻的资源使用量；

3.1)计算在经过周期分割的所有在线负载资源使用子序列集MZ＝{mz₁，mz₂，...，mz_q}中，异常子序列所占子序列数量的比例为异常比例R_f，计算方法如下：