CN104008426A - 基于集成学习的分布式计算环境性能预测方法 - Google Patents

基于集成学习的分布式计算环境性能预测方法 Download PDF

Info

Publication number
CN104008426A
CN104008426A CN201410205434.5A CN201410205434A CN104008426A CN 104008426 A CN104008426 A CN 104008426A CN 201410205434 A CN201410205434 A CN 201410205434A CN 104008426 A CN104008426 A CN 104008426A
Authority
CN
China
Prior art keywords
fallout predictor
fallout
mark
integrated
predictor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410205434.5A
Other languages
English (en)
Inventor
曹健
杨定裕
董樑
顾骅
沈琪骏
王烺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201410205434.5A priority Critical patent/CN104008426A/zh
Publication of CN104008426A publication Critical patent/CN104008426A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习的分布式计算环境性能预测方法,针对分布式服务器性能的特点,使用集成学习方法对服务器性能进行预测。在集成学习过程中,采用对每种预测器的参数进行优化,并从预测中优选选择一些效果较好的预测器,并把这些预测器集成起来,集成的方法采用加权或者评分算法得到最后的集成结果,该集成预测模型不仅降低了预测误差,同时又达到了对不同数据集的很好的适应性。

Description

基于集成学习的分布式计算环境性能预测方法
技术领域
本发明涉及计算机数据处理技术领域,特别涉及一种基于集成学习的分布式计算环境性能预测方法。
背景技术
随着计算机网络的迅速发展,各种服务器越来越难以满足用户的需求。负载均衡集群的出现,在一定程度上解决了这个问题。负载均衡算法作为影响负载均衡的三大要素之一,在很大程度上决定了负载均衡集群的性能。但由于当前的算法没有考虑到服务器的当前和将来的负载情况,很难做到真正的负载均衡。
在分布式系统中,计算能力并不是独占的,而是被多用户的若干任务所共享,负载随着任务的提交和结束而不断变化,负载的预测会更加复杂。对于系统性能的预测主要集中在主机CPU负载的研究,这在国外开始于上世纪九十年代后期,其中以Peter A.Dinda的研究最为系统。他从不同的机器集群,包括用于生产或研究的服务器组和工作站,收集了大量负载样本,并对这些样本进行细致的分析,提出了基于时间序列预测的预测理论。他建立了主机资源预测系统RPS,并把RPS应用于CMU Remos资源管理系统和BBN QuO分布式秒质量服务系统。另外,Campos根据负载的变化率提出了进行动态负载预测的方法,Smith W.and Wong P.提出利用任务的执行时间和队列等待时间进行负载预测,Wolski提出对分时UNIX系统的CPU利用率预测方法。
预测模型设置在预测器中,现在的大部分预测模型都不具备适应性,这意味着一旦开始预测,预测模型就是固定的。然而,如果预测的资源具有时变特性,这些模型将不能够做出精确的预测。也就是说,他们都认为未来CPU负载是与历史数据呈现相同的分布,但在分布式系统中这可能并不成立。另一方面,历史数据可能不足以反映整个CPU负载的变化规律,这就导致基于历史数据训练的模型不能做出准确的预测。
发明内容
本发明针对现有技术存在的上述不足,提供了一种基于集成学习的分布式计算环境性能预测方法。本发明通过以下技术方案实现:
一种基于集成学习的分布式计算环境性能预测方法,对预测器进行优化和集成,以得到预测结果;
对预测器进行优化包括:
S11、对每种预测器维持一候选集合,候选集合包含若干预测器,每个预测器对应唯一的一组参数值;
S12、从候选集合选择若干预测误差最小的预测器;
S13、每隔一定时间执行一次S12,从候选集合中剔除预测误差最大的若干预测器,同时对候选集合进行补充,以保持候选集合内参数值的组合数量不变;
对预测器进行集成包括:
S21、采用Scoring算法为每个预测器都建立一个分数,每次预测前对预测器上次的预测结果进行评价,根据预测结果的好坏,对分数进行相应的增加或降低,选择分数高于一上限值的预测器作为预测器代表,预测器代表的输出作为最终的预测结果;
或者,S22、选择分数最高的若干预测器,对他们赋予不同的权重进行加权平均,每一预测器的权重等于(所选择的分数最高的若干预测器中预测误差最大值-次预测器的误差值)/(所选择的分数最高的若干预测器中预测误差最大值-所选择的分数最高的若干预测器中预测误差最小值);
S23、预测结果
其中,L为所选择的分数最高的若干预测器的数量,αi为L个预测器中预测器i的权重,Pi(x)为预测器i的预测值。
较佳的,预测器的预测误差采用平均相对误差。
较佳的,平均相对误差采用交叉验证的方法,将所有误差值分为K组,其中K-1组作为训练集,剩余一组作为测试集,在K次实验后将K个误差值求平均值,作为预测器的平均相对误差。
较佳的,S13中同时对候选集合进行补充包括:为每组候补集合中预测器的参数值增加一个随机的冲量。
较佳的,S21中一旦选出预测器代表,则对所有分数进行重置,在预测器代表的分数低于一下限时重新选择分数最高的预测器作为预测器代表。
较佳的,预测器的分数的增幅或降幅为:
增幅或降幅=2/(候选集合的预测器的数量-1)。
本发明针对分布式服务器性能的特点,使用集成学习方法对服务器性能进行预测。在集成学习过程中,采用对每种预测器的参数进行优化,并从预测中优选选择一些效果较好的预测器,并把这些预测器集成起来,集成的方法采用加权或者评分算法得到最后的集成结果,该集成预测模型不仅降低了预测误差,同时又达到了对不同数据集的很好的适应性。
附图说明
图1所示的是本发明的结构示意图;
图2所示的是本发明的预测器优化示意图;
图3所示的是本发明的Scoring集成算法;
图4所示的是本发明的加权平均集成算法。
具体实施方式
以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述和讨论,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了便于对本发明实施例的理解,下面将结合附图以具体实施例为例作进一步的解释说明,且各个实施例不构成对本发明实施例的限定。
一种基于集成学习的分布式计算环境性能预测方法,使每个基本预测器具备自适应的预测能力,并通过集成学习的方法进一步提高预测的准确性。见示意图1,其中:
集成学习的思路是在对新的实例进行分类的时候,把若干个单个预测器集成起来,通过对多个预测器的结果进行某种组合来决定最终的分类,以取得比单个预测器更好的性能;
单个预测器的模型主要有决策树、人工神经网络、朴素贝叶斯等等;
集成预测器的模型由两部分组成,预测器优化(predictor optimization)和预测器集成(predictor ensemble),预测器优化对每种预测器的参数进行优化,预测器集成对优化后的预测器的结果进行集成,产生最终预测结果;
S11、对每种预测器P维持一个候选集合,里面包含N组参数值,每组参数值唯一确定一个预测器,分别用Pi...Pj表示;
S12、从候选集合中只选择效果较好的几个预测器。一方面,这增加了集成预测模型中预测器的多样性;另一方面,通过保留较好的参数值,剔除部分效果不理想的参数值,候选集合中的预测器将不断向最优预测器调整,从而进一步提高集成预测模型的预测效果。
S13、由图2所示,每隔一定时间执行一次S12,预测准确性最差的R组参数值将被从候选集合中剔除,同时通过参数候补策略对候选集合中的预测器进行补充,以保持集合内参数组合的数量不变。
预测器的准确性是通过预测器的误差来判定的,而对于预测器的误差,使用平均相对误差MRE来表征:
MRE = 1 n Σ i = 1 n | D i - Y i D i |
其中,n为预测的次数,Di为预测的误差值,Yi为实际的误差值。
在进行预测优化时,为了更好地评价预测器的准确性,并不是通过简单地将历史值划分成两部分,利用前半部分预测后半部分的方法,而是采用了交叉验证的策略。把所有数据对(由m维空间到一维空间的映射对)划分为K组,每次使用其中K-1组作为训练集,剩余一组作为测试集,在K次实验后将K个误差值求平均值,作为预测器的平均误差值。
预测器优化中的一个关键问题就是如何选择候补参数组合对候选集合进行补充,采用了一种类似爬山法的算法。鉴于已知一些参数可以获得较好的效果,补充参数将在这些参数附近选取,同时为了避免陷入局部最优值,为每个候补参数增加一个随机的冲量Δ。这样既能使参数的组合向更优的方向移动,又不至于陷入局部最优。称这种参数候补的策略为最优随机选取。
在预测器优化之后,在每个预测器的候选集合中选择K个预测器参与预测器的集成,如果总共有N种预测器,也就是N个候选集合,那么总共有K*N个预测器参与预测器集成阶段。
S21、采用Scoring算法为每个预测器都建立一个分数,每次预测前对预测器上次的预测结果进行评价,根据预测结果的好坏,对分数进行相应的增加或降低;
Scoring算法中,为每个预测器都维持一个分数,这个分数的增长或降低取决于预测器的预测效果。每次预测前都会对预测器上次的预测结果做一个评价,如果预测器的效果较好,那么它相应的分数将会提高,相反地,如果预测器的效果不好,那么作为惩罚,它相应的分数将会降低。如果某个预测器的分数高于预定的上限值T,这意味着该预测器在最近一段时间内的表现很优异,这个预测器将直接被选为预测器代表。预测器代表的输出就是集成预测模型最终的输出。
一旦预测器代表被重新选定,所有分数将会被重置。接下来的预测中,如果预测器代表的分数低于预定的下限FLOOR_LIMIT,这会引起预测器代表的重置,当前分数最高的预测器将被任命为新的预测器代表。对于每次分数的增长或降低的幅度,选择定义增幅(increase)和降幅(decrease)如下,增幅或降幅=2/(候选集合的预测器的数量-1):
Increase ( Decrease ) = 2 Number of sets - 1
S22、还采用加权平均集成算法来进行集成,选择分数最高的L个预测器,对他们赋予不同的权重进行加权平均。对参与集成的预测器的结果作加权平均,见图4,该算法将在参与集成的K*N个预测器中选择上次预测中表现最好的L个预测器,然后将他们赋予不同的权重进行加权平均。而这些权重将有他们在上次预测中的表现决定,例如,现在确定了L个参与集成的预测器组成的集合S,也就是,
S=P1,P2,P3,...,PL
其中P1具有最小的预测误差E1,而PL在集合S中具有最大的预测误差EL。按照公式确定预测器Pi的权重αi
α i = E L - E i E L - E 1 ,
每一预测器的权重等于(所选择的分数最高的若干预测器中预测误差最大值-次预测器的误差值)/(所选择的分数最高的若干预测器中预测误差最大值-所选择的分数最高的若干预测器中预测误差最小值);
S23、预测结果
其中,L为所选择的分数最高的若干预测器的数量,αi为L个预测器中预测器i的权重,Pi(x)为预测器i的预测值。
在整个集成预测模型中,预测器优化和预测器集成两层并不是独立的,而是紧密联系的。
对于在预测器集成阶段长时间未能被选为代表的预测器,将在其预测器优化阶段采取更激进的最优随机选取策略,也就是说将会用更大的随机冲量Δ以求更快的改进预测器的性能。一方面,因为该预测器并没有被选为代表预测器所以这种策略并不会破坏集成预测器的预测效果;另一方面,如果预测器在长时间内未能被选为代表预测器,说明预测器的当前效果较差,更大的随机冲量Δ才可能更剧烈的改变预测器的预测效果,增加其被选择代表预测器的机会。
而对于那些经常被选为代表的预测器,可以适当减小随机冲量Δ,以更好的维持其优异的预测效果。
总之,在集成预测模型中,预测器优化和预测器集成是相互促进的。预测器优化提高基础预测器的预测效果,进而提高最终预测器集成后的预测效果;反之,预测器集成的结果对预测器优化存在反馈,进而对不同的预测器产生不同的优化策略,更激进的调整效果较差的预测器,更保守的对待效果较好的预测器,以维持整个集成预测模型的稳定性。
本发明针对分布式服务器性能的特点,使用集成学习方法对服务器性能进行预测。在集成学习过程中,采用对每种预测器的参数进行优化,并从预测中优选选择一些效果较好的预测器,并把这些预测器集成起来,集成的方法采用加权或者评分算法得到最后的集成结果,该集成预测模型不仅降低了预测误差,同时又达到了对不同数据集的很好的适应性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于集成学习的分布式计算环境性能预测方法,其特征在于,对预测器进行优化和集成,以得到预测结果;
对预测器进行优化包括:
S11、对每种预测器维持一候选集合,候选集合包含若干预测器,每个预测器对应唯一的一组参数值;
S12、从候选集合选择若干预测误差最小的预测器;
S13、每隔一定时间执行一次S12,从候选集合中剔除预测误差最大的若干预测器,同时对候选集合进行补充,以保持候选集合内参数值的组合数量不变;
对预测器进行集成包括:
S21、采用Scoring算法为每个预测器都建立一个分数,每次预测前对预测器上次的预测结果进行评价,根据预测结果的好坏,对分数进行相应的增加或降低,选择分数高于一上限值的预测器作为预测器代表,预测器代表的输出作为最终的预测结果;
或者,S22、选择分数最高的若干预测器,对他们赋予不同的权重进行加权平均,每一预测器的权重等于(所选择的分数最高的若干预测器中预测误差最大值-次预测器的误差值)/(所选择的分数最高的若干预测器中预测误差最大值-所选择的分数最高的若干预测器中预测误差最小值);
S23、预测结果
其中,L为所选择的分数最高的若干预测器的数量,αi为L个预测器中预测器i的权重,Pi(x)为预测器i的预测值。
2.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法,其特征在于,预测器的预测误差采用平均相对误差。
3.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法,其特征在于,平均相对误差采用交叉验证的方法,将所有误差值分为K组,其中K-1组作为训练集,剩余一组作为测试集,在K次实验后将K个误差值求平均值,作为预测器的平均相对误差。
4.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法,其特征在于,S13中所述同时对候选集合进行补充包括:为每组候补集合中预测器的参数值增加一个随机的冲量。
5.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法,其特征在于,S21中,一旦选出预测器代表,则对所有分数进行重置,在预测器代表的分数低于一下限时重新选择分数最高的预测器作为预测器代表。
6.根据权利要求1所述的基于集成学习的分布式计算环境性能预测方法,其特征在于,预测器的分数的增幅或降幅为:
增幅或降幅=2/(候选集合的预测器的数量-1)。
CN201410205434.5A 2014-05-15 2014-05-15 基于集成学习的分布式计算环境性能预测方法 Pending CN104008426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410205434.5A CN104008426A (zh) 2014-05-15 2014-05-15 基于集成学习的分布式计算环境性能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410205434.5A CN104008426A (zh) 2014-05-15 2014-05-15 基于集成学习的分布式计算环境性能预测方法

Publications (1)

Publication Number Publication Date
CN104008426A true CN104008426A (zh) 2014-08-27

Family

ID=51369074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410205434.5A Pending CN104008426A (zh) 2014-05-15 2014-05-15 基于集成学习的分布式计算环境性能预测方法

Country Status (1)

Country Link
CN (1) CN104008426A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376389A (zh) * 2014-12-10 2015-02-25 国电南京自动化股份有限公司 基于负载均衡的主从式微电网功率负荷预测系统及其方法
CN106257506A (zh) * 2016-03-23 2016-12-28 南京华苏科技有限公司 大数据量预测的三层联合动态选择最优模型方法
CN107122830A (zh) * 2016-02-24 2017-09-01 株式会社捷太格特 分析设备和分析系统
CN107993723A (zh) * 2017-12-19 2018-05-04 苏州大学 一种基于集成进化学习的华法林剂量预测建模方法
CN108804266A (zh) * 2018-05-22 2018-11-13 郑州云海信息技术有限公司 一种存储系统性能测试方法、装置和计算机可读存储介质
CN109117352A (zh) * 2017-06-23 2019-01-01 华为技术有限公司 服务器性能预测方法和装置
CN111178548A (zh) * 2018-11-09 2020-05-19 财团法人工业技术研究院 集成学习预测方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582813A (zh) * 2009-06-26 2009-11-18 西安电子科技大学 基于分布式迁移网络学习的入侵检测系统及其方法
CN101581940A (zh) * 2009-06-05 2009-11-18 西安电子科技大学 基于集成学习时间序列预测的隧道事件检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101581940A (zh) * 2009-06-05 2009-11-18 西安电子科技大学 基于集成学习时间序列预测的隧道事件检测方法
CN101582813A (zh) * 2009-06-26 2009-11-18 西安电子科技大学 基于分布式迁移网络学习的入侵检测系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付继文: ""分布式环境中的性能预测方法"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
周绪川等: ""集成学习分布式异常检测方法"", 《计算机工程与应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376389A (zh) * 2014-12-10 2015-02-25 国电南京自动化股份有限公司 基于负载均衡的主从式微电网功率负荷预测系统及其方法
CN104376389B (zh) * 2014-12-10 2017-09-15 国电南京自动化股份有限公司 基于负载均衡的主从式微电网功率负荷预测系统及其方法
CN107122830A (zh) * 2016-02-24 2017-09-01 株式会社捷太格特 分析设备和分析系统
CN106257506A (zh) * 2016-03-23 2016-12-28 南京华苏科技有限公司 大数据量预测的三层联合动态选择最优模型方法
CN106257506B (zh) * 2016-03-23 2018-02-13 南京华苏科技有限公司 大数据量预测的三层联合动态选择最优模型方法
CN109117352A (zh) * 2017-06-23 2019-01-01 华为技术有限公司 服务器性能预测方法和装置
CN109117352B (zh) * 2017-06-23 2020-08-07 华为技术有限公司 服务器性能预测方法和装置
CN107993723A (zh) * 2017-12-19 2018-05-04 苏州大学 一种基于集成进化学习的华法林剂量预测建模方法
CN108804266A (zh) * 2018-05-22 2018-11-13 郑州云海信息技术有限公司 一种存储系统性能测试方法、装置和计算机可读存储介质
CN111178548A (zh) * 2018-11-09 2020-05-19 财团法人工业技术研究院 集成学习预测方法与系统
CN111178548B (zh) * 2018-11-09 2023-04-07 财团法人工业技术研究院 集成学习预测方法与系统

Similar Documents

Publication Publication Date Title
CN104008426A (zh) 基于集成学习的分布式计算环境性能预测方法
CN105243458B (zh) 一种基于多目标混合蛙跳差分算法的水库调度方法
CN105701571A (zh) 一种基于神经网络组合模型的短时交通流量预测方法
CN103105246A (zh) 一种基于遗传算法改进的bp神经网络的温室环境预测反馈方法
CN103871002B (zh) 基于自适应蜂群算法的风电功率预测方法及装置
CN103971160A (zh) 基于复杂网络的粒子群优化方法
CN106529732A (zh) 基于神经网络与随机前沿分析的碳排放效率预测方法
CN104408562A (zh) 一种基于bp神经网络的光伏系统发电效率综合评估方法
CN109862532B (zh) 轨道交通状态监测多传感器节点布局优化方法及系统
CN103942434A (zh) 基于sspso-grnn的水电站厂坝结构振动响应预测方法
CN105302858B (zh) 一种分布式数据库系统的跨节点查询优化方法及系统
CN104077634B (zh) 基于多目标优化的主动‑反应式动态项目调度方法
CN101231720A (zh) 基于遗传算法的企业过程模型多目标参数优化方法
CN108280998A (zh) 基于历史数据动态选择的短时交通流预测方法
CN117539726B (zh) 绿色智算中心能效优化方法及系统
CN107886160A (zh) 一种bp神经网络区间需水预测方法
CN106100922A (zh) 列车通信网络的网络流量的预测方法和装置
CN114066122A (zh) 一种基于多策略水波优化算法的调度方法
CN116402002A (zh) 一种用于芯片布局问题的多目标分层强化学习方法
CN109858665A (zh) 基于特征筛选与anfis-pso的光伏短期功率预测方法
CN112036651A (zh) 基于量子免疫优化bp神经网络算法的电价预测方法
Sun et al. Edge computing terminal equipment planning method for real-time online monitoring service of power grid
CN102456109A (zh) 一种用于木马事件预测的最小二乘支持向量机的训练方法及预测方法
CN102300269A (zh) 基于遗传算法的无线认知网络端到端服务质量确保方法
CN105303255A (zh) 一种优化Pareto最优解集的多目标群搜索优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140827

WD01 Invention patent application deemed withdrawn after publication