CN110413406A

CN110413406A - 一种任务负载预测系统及方法

Info

Publication number: CN110413406A
Application number: CN201910566601.1A
Authority: CN
Inventors: 莫毓昌
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-11-05

Abstract

本发明公开了一种任务负载预测系统及方法，使用关于任务池的工作负载的知识来帮助预测新任务的工作负载。将现有任务的工作负载分组到多个集群中。然后，利用神经网络学习每个集群的工作负载特性。对于每个新任务，收集其初始工作负载，确定其集群，并使用其集群的训练神经网络预测其未来的工作负载。本发明有助于准确预测新作业的工作负载，从而改进云资源管理。

Description

一种任务负载预测系统及方法

技术领域

本发明涉及云计算技术领域，具体涉及一种任务负载预测系统及方法。

背景技术

良好的资源管理在云计算中非常重要，而工作负载预测是实现良好资源管理的关键一步。虽然可以根据历史工作负载中的季节性来预测长时间运行任务的工作负载，但是对于没有这种重复工作负载模式的任务，很难预测。

发明内容

针对现有技术的不足，本发明旨在提供一种任务负载预测系统及方法，有助于准确预测新作业的工作负载，从而改进云资源管理。

为了实现上述目的，本发明采用如下技术方案：

一种任务负载预测系统，包括任务池和学习模型；

所述任务池用于将现有任务按照工作负载进行分组，划分为多个集群；

所述学习模型用于利用神经网络对任务池中各个集群中的任务的工作负载特性进行学习得到各个集群的训练神经网络模型，以及用于对于每个新任务，首先收集其初始工作负载并据此确定新任务的所属集群，然后采用该集群的训练神经网络模型预测新任务未来的工作负载。

本发明还提供一种利用上述任务负载预测系统的方法，包括如下步骤：

S1、任务池将现有任务按照工作负载进行分组，划分为多个集群；

S2、学习模型利用神经网络学习任务池中各个集群的工作负载特性，得到各个集群的训练神经网络模型；

S3、当有新任务进入时，学习模型先获取其初始工作负载并根据其初始工作负载确定其所属集群；

S4、利用新任务所属集群的训练神经网络模型预测新任务的未来工作负载。

进一步地，步骤S1中，使用K-medoid算法对任务池中任务的工作负载进行集群，并对各个集群进行标记。

进一步地，步骤S2的具体过程为：

记{C₁，C₂，...，C_K}为步骤S1中划分得到的K个集群的集合；将每个集群中的每个任务的工作负载均按时间划分为段，每段的时间长度为PT，并利用神经网络对每个集群中所有任务在同一时间段内的工作负载进行学习，得到对应的训练神经网络模型；

步骤S4中，当新任务J所属的集群C_J确定之后，利用该集群C_J在第l-1段时间内的训练神经网络模型预测新任务J在第l段时间内的工作负载。

更进一步地，根据所预测的新任务J的工作量，对新任务J的布置作出新的决策，如果需要更改新任务J的位置，则对新任务J执行迁移或缩放。

本发明的有益效果在于：本发明在预测新任务的工作负载时使用来自类似云环境中先前任务执行的大型历史工作负载模式数据集，并对现有任务的工作负载进行集群，并使用集群特定的信息来帮助预测新作业的工作负载，有助于准确预测新作业的工作负载，从而改进云资源管理。

附图说明

图1为本发明实施例2中的聚类预测示意图；

图2为本发明实施例2中三种算法的学习率结果示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

实施例1

本实施例提供一种任务负载预测系统，包括任务池和学习模型；

实施例2

本实施例提供一种利用实施例1所述任务负载预测系统的方法，包括如下步骤：

S1、所述任务池将现有任务按照工作负载进行分组，划分为多个集群；

更进一步地，使用K-medoid算法对任务池中任务的工作负载进行集群的具体原理为：

(1)设有(A,B,C,D,E,F)一组样本；

(2)随机选择B、E为中心点；

(3)计算D和F到B的距离最近，A和C到E的距离最近，则 B,D,F为簇X1，A,C,E为簇X2。

(4)计算X1发现，D作为中心点的绝对误差最小，X2中依然是 E作为中心点绝对误差最小；

(5)重新以D、E作为中心点，重复3)、4)步骤后，不再变换，则簇划分确定。

进一步地，步骤S2的具体过程为：

更进一步地，根据所预测的新任务J的工作负载，对新任务J的布置作出新的决策，如果需要更改新任务J的位置，则对J执行迁移或缩放。

实施例2

本实施例通过进一步的实验来对实施例1和2所述的系统和方法性能进行验证。

实验一：

使用一个实际运行云29天跟踪日志的谷歌数据集作为验证工作负载预测方法的基础。每个跟踪数据都包含一个任务，考虑每个任务中的CPU使用数据，谷歌数据集中的CPU使用信息有些粗粒度，每300秒记录一次，记为记录周期的平均值，并已在[0,1]的范围内归一化。随机选取了两个不相交的数据集。第一个集合包含8639个任务，将其标记为G₀。然后从G₀中随机选择2197个任务，并将这个子集标记为G₁。使用G₀作为训练数据集，使用G₁进行聚类测试。从第 18天中选择了另外2141个任务进行工作负载预测测试，并将其标记为G₂。G₀和G₂是不相交的,将G₀集群成40个集群。

实验二：

对每个新任务J，其工作负载预测精度由DP_J(A)测量，其中

这里，A是一种工作负载预测方法(包括不同的CL和NCL)或RL，其中RL是用户请求的原始工作负载。PL_J(t)是t时间的负载预测。T 是时间段的总长度，其中T＝1440分钟(24小时)，对应于谷歌数据集中288个时间索引。考虑总体精度指标TDP(A)，这是数据集中所有测试用例的平均精度。

实验结果及分析：

图1显示了数据集G₁上不同IT周期的TCP值。定义TCP来度量聚类预测的准确性。对于任务J，如果J所属的集群在C_J中，则设置CP_J＝1，否则设置CP_J＝0。

从图1中可以看出，当IT从6增加到120时，TCP从67.87％增加到83.48％。这是显而易见的，因为为新任务收集更多的初始工作负载数据会导致更好的集群结果。但是，当IT＝36之后，由于更多的数据可用时，会出现一些集群特征不匹配，因此集群预测精度会下降。IT的进一步增加并没有显著的影响。这表明可以在任务生命周期的早期进行有效的预测。

图2中，NCL-SMLP为基于非集群的标准反向传播，CL-SMLP为基于集群的标准反向传播，CL-BMLP为基于集群的批量处理传播。在NCL 中，将整个数据集作为一个单独的组用于培训和后续工作负载预测。传播方法采用R.中的神经包“RSNNS”实现，并以Act-logistic函数作为激活函数。此外，通过跨样本验证使用网格搜索方法来获得 MLP的最佳设置，最终的MLP有三个隐藏层(9,3,1)节点。

从图2的结果可以看出，三种算法的TDP值都低于RL。这意味着，使用神经网络学习工作负载模式确实有助于准确预测新作业的工作负载，从而改进云资源管理。另一个观察结果是，NCL-SMLP的TDP 值远远高于CL-SMLP。这一结果清楚地表明，基于聚类数据的学习可以大大提高工作量时间序列预测的准确性。此外，标准反向传播的性能优于批处理传播。虽然学习速率通常设置在0.1到1.0之间，但是实验结果表明，共同的学习速率范围可能会导致更高的TDP值。这组实验也表明，对于谷歌数据集，最佳学习率为5。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种任务负载预测系统，其特征在于，包括任务池和学习模型；

2.一种利用权利要求1所述的任务负载预测系统的方法，其特征在于，包括如下步骤：

3.根据权利要求2所述的方法，其特征在于，步骤S1中，使用K-medoid算法对任务池中任务的工作负载进行集群，并对各个集群进行标记。

4.根据权利要求2所述的方法，其特征在于，步骤S2的具体过程为：

记为步骤S1中划分得到的K个集群的集合；将每个集群中的每个任务的工作负载均按时间划分为段，每段的时间长度为，并利用神经网络对每个集群中所有任务在同一时间段内的工作负载进行学习，得到对应的训练神经网络模型；

步骤S4中，当新任务所属的集群确定之后，利用该集群在第段时间内的训练神经网络模型预测新任务在第段时间内的工作负载。

5.根据权利要求1或4所述的方法，其特征在于，根据所预测的新任务的工作量，对新任务的布置作出新的决策，如果需要更改新任务的位置，则对新任务执行迁移或缩放。