CN104008426A

CN104008426A - 基于集成学习的分布式计算环境性能预测方法

Info

Publication number: CN104008426A
Application number: CN201410205434.5A
Authority: CN
Inventors: 曹健; 杨定裕; 董樑; 顾骅; 沈琪骏; 王烺
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2014-08-27

Abstract

本发明公开了一种基于集成学习的分布式计算环境性能预测方法，针对分布式服务器性能的特点，使用集成学习方法对服务器性能进行预测。在集成学习过程中，采用对每种预测器的参数进行优化，并从预测中优选选择一些效果较好的预测器，并把这些预测器集成起来，集成的方法采用加权或者评分算法得到最后的集成结果，该集成预测模型不仅降低了预测误差，同时又达到了对不同数据集的很好的适应性。

Description

基于集成学习的分布式计算环境性能预测方法

技术领域

本发明涉及计算机数据处理技术领域，特别涉及一种基于集成学习的分布式计算环境性能预测方法。

背景技术

随着计算机网络的迅速发展，各种服务器越来越难以满足用户的需求。负载均衡集群的出现，在一定程度上解决了这个问题。负载均衡算法作为影响负载均衡的三大要素之一，在很大程度上决定了负载均衡集群的性能。但由于当前的算法没有考虑到服务器的当前和将来的负载情况，很难做到真正的负载均衡。

在分布式系统中，计算能力并不是独占的，而是被多用户的若干任务所共享，负载随着任务的提交和结束而不断变化，负载的预测会更加复杂。对于系统性能的预测主要集中在主机CPU负载的研究，这在国外开始于上世纪九十年代后期，其中以Peter A.Dinda的研究最为系统。他从不同的机器集群，包括用于生产或研究的服务器组和工作站，收集了大量负载样本，并对这些样本进行细致的分析，提出了基于时间序列预测的预测理论。他建立了主机资源预测系统RPS，并把RPS应用于CMU Remos资源管理系统和BBN QuO分布式秒质量服务系统。另外，Campos根据负载的变化率提出了进行动态负载预测的方法，Smith W.and Wong P.提出利用任务的执行时间和队列等待时间进行负载预测，Wolski提出对分时UNIX系统的CPU利用率预测方法。

预测模型设置在预测器中，现在的大部分预测模型都不具备适应性，这意味着一旦开始预测，预测模型就是固定的。然而，如果预测的资源具有时变特性，这些模型将不能够做出精确的预测。也就是说，他们都认为未来CPU负载是与历史数据呈现相同的分布，但在分布式系统中这可能并不成立。另一方面，历史数据可能不足以反映整个CPU负载的变化规律，这就导致基于历史数据训练的模型不能做出准确的预测。

发明内容

本发明针对现有技术存在的上述不足，提供了一种基于集成学习的分布式计算环境性能预测方法。本发明通过以下技术方案实现：

一种基于集成学习的分布式计算环境性能预测方法，对预测器进行优化和集成，以得到预测结果；

对预测器进行优化包括：

S11、对每种预测器维持一候选集合，候选集合包含若干预测器，每个预测器对应唯一的一组参数值；

S12、从候选集合选择若干预测误差最小的预测器；

S13、每隔一定时间执行一次S12，从候选集合中剔除预测误差最大的若干预测器，同时对候选集合进行补充，以保持候选集合内参数值的组合数量不变；

对预测器进行集成包括：

S21、采用Scoring算法为每个预测器都建立一个分数，每次预测前对预测器上次的预测结果进行评价，根据预测结果的好坏，对分数进行相应的增加或降低，选择分数高于一上限值的预测器作为预测器代表，预测器代表的输出作为最终的预测结果；

或者，S22、选择分数最高的若干预测器，对他们赋予不同的权重进行加权平均，每一预测器的权重等于(所选择的分数最高的若干预测器中预测误差最大值-次预测器的误差值)/(所选择的分数最高的若干预测器中预测误差最大值-所选择的分数最高的若干预测器中预测误差最小值)；

S23、预测结果为

其中，L为所选择的分数最高的若干预测器的数量，α_i为L个预测器中预测器i的权重，P_i(x)为预测器i的预测值。

较佳的，预测器的预测误差采用平均相对误差。

较佳的，平均相对误差采用交叉验证的方法，将所有误差值分为K组，其中K-1组作为训练集，剩余一组作为测试集，在K次实验后将K个误差值求平均值，作为预测器的平均相对误差。

较佳的，S13中同时对候选集合进行补充包括：为每组候补集合中预测器的参数值增加一个随机的冲量。

较佳的，S21中一旦选出预测器代表，则对所有分数进行重置，在预测器代表的分数低于一下限时重新选择分数最高的预测器作为预测器代表。

较佳的，预测器的分数的增幅或降幅为：

增幅或降幅＝2/(候选集合的预测器的数量-1)。

本发明针对分布式服务器性能的特点，使用集成学习方法对服务器性能进行预测。在集成学习过程中，采用对每种预测器的参数进行优化，并从预测中优选选择一些效果较好的预测器，并把这些预测器集成起来，集成的方法采用加权或者评分算法得到最后的集成结果,该集成预测模型不仅降低了预测误差，同时又达到了对不同数据集的很好的适应性。

附图说明

图1所示的是本发明的结构示意图；

图2所示的是本发明的预测器优化示意图；

图3所示的是本发明的Scoring集成算法；

图4所示的是本发明的加权平均集成算法。

具体实施方式

以下将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整的描述和讨论，显然，这里所描述的仅仅是本发明的一部分实例，并不是全部的实例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了便于对本发明实施例的理解，下面将结合附图以具体实施例为例作进一步的解释说明，且各个实施例不构成对本发明实施例的限定。

一种基于集成学习的分布式计算环境性能预测方法，使每个基本预测器具备自适应的预测能力，并通过集成学习的方法进一步提高预测的准确性。见示意图1，其中：

集成学习的思路是在对新的实例进行分类的时候，把若干个单个预测器集成起来，通过对多个预测器的结果进行某种组合来决定最终的分类，以取得比单个预测器更好的性能；

单个预测器的模型主要有决策树、人工神经网络、朴素贝叶斯等等；

集成预测器的模型由两部分组成，预测器优化(predictor optimization)和预测器集成(predictor ensemble)，预测器优化对每种预测器的参数进行优化，预测器集成对优化后的预测器的结果进行集成，产生最终预测结果；

S11、对每种预测器P维持一个候选集合，里面包含N组参数值，每组参数值唯一确定一个预测器，分别用Pi...Pj表示；

S12、从候选集合中只选择效果较好的几个预测器。一方面，这增加了集成预测模型中预测器的多样性；另一方面，通过保留较好的参数值，剔除部分效果不理想的参数值，候选集合中的预测器将不断向最优预测器调整，从而进一步提高集成预测模型的预测效果。

S13、由图2所示，每隔一定时间执行一次S12，预测准确性最差的R组参数值将被从候选集合中剔除，同时通过参数候补策略对候选集合中的预测器进行补充，以保持集合内参数组合的数量不变。

预测器的准确性是通过预测器的误差来判定的，而对于预测器的误差，使用平均相对误差MRE来表征：

MRE = \frac{1}{n} Σ_{i = 1}^{n} | \frac{D_{i} - Y_{i}}{D_{i}} |

其中，n为预测的次数，D_i为预测的误差值，Y_i为实际的误差值。

在进行预测优化时，为了更好地评价预测器的准确性，并不是通过简单地将历史值划分成两部分，利用前半部分预测后半部分的方法，而是采用了交叉验证的策略。把所有数据对(由m维空间到一维空间的映射对)划分为K组，每次使用其中K-1组作为训练集，剩余一组作为测试集，在K次实验后将K个误差值求平均值，作为预测器的平均误差值。

预测器优化中的一个关键问题就是如何选择候补参数组合对候选集合进行补充，采用了一种类似爬山法的算法。鉴于已知一些参数可以获得较好的效果，补充参数将在这些参数附近选取，同时为了避免陷入局部最优值，为每个候补参数增加一个随机的冲量Δ。这样既能使参数的组合向更优的方向移动，又不至于陷入局部最优。称这种参数候补的策略为最优随机选取。

在预测器优化之后，在每个预测器的候选集合中选择K个预测器参与预测器的集成，如果总共有N种预测器，也就是N个候选集合，那么总共有K*N个预测器参与预测器集成阶段。

S21、采用Scoring算法为每个预测器都建立一个分数，每次预测前对预测器上次的预测结果进行评价，根据预测结果的好坏，对分数进行相应的增加或降低；

Scoring算法中，为每个预测器都维持一个分数，这个分数的增长或降低取决于预测器的预测效果。每次预测前都会对预测器上次的预测结果做一个评价，如果预测器的效果较好，那么它相应的分数将会提高，相反地，如果预测器的效果不好，那么作为惩罚，它相应的分数将会降低。如果某个预测器的分数高于预定的上限值T，这意味着该预测器在最近一段时间内的表现很优异，这个预测器将直接被选为预测器代表。预测器代表的输出就是集成预测模型最终的输出。

一旦预测器代表被重新选定，所有分数将会被重置。接下来的预测中，如果预测器代表的分数低于预定的下限FLOOR_LIMIT，这会引起预测器代表的重置，当前分数最高的预测器将被任命为新的预测器代表。对于每次分数的增长或降低的幅度，选择定义增幅(increase)和降幅(decrease)如下，增幅或降幅＝2/(候选集合的预测器的数量-1)：

Increase (Decrease) = \frac{2}{Number of sets - 1}

S22、还采用加权平均集成算法来进行集成，选择分数最高的L个预测器，对他们赋予不同的权重进行加权平均。对参与集成的预测器的结果作加权平均，见图4，该算法将在参与集成的K*N个预测器中选择上次预测中表现最好的L个预测器，然后将他们赋予不同的权重进行加权平均。而这些权重将有他们在上次预测中的表现决定，例如，现在确定了L个参与集成的预测器组成的集合S，也就是，

S=P₁,P₂,P₃,...,P_L

其中P₁具有最小的预测误差E₁，而P_L在集合S中具有最大的预测误差E_L。按照公式确定预测器P_i的权重α_i

α_{i} = \frac{E_{L} - E_{i}}{E_{L} - E_{1}},

每一预测器的权重等于(所选择的分数最高的若干预测器中预测误差最大值-次预测器的误差值)/(所选择的分数最高的若干预测器中预测误差最大值-所选择的分数最高的若干预测器中预测误差最小值)；

S23、预测结果为

在整个集成预测模型中，预测器优化和预测器集成两层并不是独立的，而是紧密联系的。

对于在预测器集成阶段长时间未能被选为代表的预测器，将在其预测器优化阶段采取更激进的最优随机选取策略，也就是说将会用更大的随机冲量Δ以求更快的改进预测器的性能。一方面，因为该预测器并没有被选为代表预测器所以这种策略并不会破坏集成预测器的预测效果；另一方面，如果预测器在长时间内未能被选为代表预测器，说明预测器的当前效果较差，更大的随机冲量Δ才可能更剧烈的改变预测器的预测效果，增加其被选择代表预测器的机会。

而对于那些经常被选为代表的预测器，可以适当减小随机冲量Δ，以更好的维持其优异的预测效果。

总之，在集成预测模型中，预测器优化和预测器集成是相互促进的。预测器优化提高基础预测器的预测效果，进而提高最终预测器集成后的预测效果；反之，预测器集成的结果对预测器优化存在反馈，进而对不同的预测器产生不同的优化策略，更激进的调整效果较差的预测器，更保守的对待效果较好的预测器，以维持整个集成预测模型的稳定性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于集成学习的分布式计算环境性能预测方法，其特征在于，对预测器进行优化和集成，以得到预测结果；

对预测器进行优化包括：

S12、从候选集合选择若干预测误差最小的预测器；

对预测器进行集成包括：

S23、预测结果为

2.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法，其特征在于，预测器的预测误差采用平均相对误差。

3.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法，其特征在于，平均相对误差采用交叉验证的方法，将所有误差值分为K组，其中K-1组作为训练集，剩余一组作为测试集，在K次实验后将K个误差值求平均值，作为预测器的平均相对误差。

4.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法，其特征在于，S13中所述同时对候选集合进行补充包括：为每组候补集合中预测器的参数值增加一个随机的冲量。

5.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法，其特征在于，S21中，一旦选出预测器代表，则对所有分数进行重置，在预测器代表的分数低于一下限时重新选择分数最高的预测器作为预测器代表。

6.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法，其特征在于，预测器的分数的增幅或降幅为：

增幅或降幅＝2/(候选集合的预测器的数量-1)。