CN104135510A - 基于模式匹配的分布式计算环境性能预测方法及系统 - Google Patents

基于模式匹配的分布式计算环境性能预测方法及系统 Download PDF

Info

Publication number
CN104135510A
CN104135510A CN201410337251.9A CN201410337251A CN104135510A CN 104135510 A CN104135510 A CN 104135510A CN 201410337251 A CN201410337251 A CN 201410337251A CN 104135510 A CN104135510 A CN 104135510A
Authority
CN
China
Prior art keywords
pattern
performance data
parallel
time
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410337251.9A
Other languages
English (en)
Inventor
曹健
杨定裕
梁建煌
顾骅
沈琪骏
王烺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201410337251.9A priority Critical patent/CN104135510A/zh
Publication of CN104135510A publication Critical patent/CN104135510A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于模式匹配的分布式计算环境性能预测方法及系统,通过采集服务器的性能数据,把当前性能数据模式与历史数据的数值一一对比以及当前的性能数据变化率模式与历史数据的变化率一一对比,从历史数据中找到相似的模式,从历史数据中找到相似模式截止时间点后的性能数据值作为预测结果或乘以权重加权作为预测结果,提高服务器对资源调度的准确性与可靠性,使得分布式计算环境下对处于不稳态情况的性能数据进行长期预测的预测效果更理想。

Description

基于模式匹配的分布式计算环境性能预测方法及系统
技术领域
本发明涉及一种性能预测方法及系统,尤其涉及一种基于模式匹配的分布式计算环境性能预测方法及系统。
背景技术
随着计算机网络的迅速发展,各种服务器越来越难以满足用户的需求。负载均衡集群的出现,在一定程度上解决了这个问题。负载均衡算法作为影响负载均衡的三大要素之一,在很大程度上决定了负载均衡集群的性能。但由于当前的算法没有考虑到服务器的当前和将来的负载情况,很难做到真正的负载均衡。
在服务器的负载均衡中,需要采集系统中各种资源的相关信息以确定资源是否可用,然后调度算法根据资源的可用性、任务的运行时间等来确定任务的优先级并分配给它们可用的资源。然而随着任务的运行,各种资源的状态,如CPU负载、剩余内存、硬盘剩余空间等会随时发生改变,因此需要对CPU负载的预测来指导服务器的负载均衡与调度算法。
对性能数据的预测可以采取时间序列算法,也就是基于历史数据做出预测。该方法的简单步骤:1)按时间序列周期性地采集性能数据;2)基于这些历史数据,建立一个关于性能数据与时间变量之间的关系模型;3)采用这个模型来计算指定时间所对应的性能数据的值,并把该值作为性能数据的预测值。使用这种类型的模型,可以对性能数据进行预测,从而帮助调度程序更好地分配资源、管理任务,提高整个分布式系统的工作效率。
但是对性能数据采用时间序列的方法来进行预测,如通过时间序列自回归模型AR模型,滑动平均模型MA模型进行预测,这些模型主要对一些稳态的数据能够准确的进行预测,但是如果数据不是处于稳态情况,预测结果就不够理想,而且这些模型不能够很好的进行长期预测。
发明内容
本发明的目的在于提供一种基于模式匹配的分布式计算环境性能预测方法及系统,解决在分布式计算环境下对不处于稳态情况的性能数据进行长期预测不理想的问题。
为了解决上述问题,本发明涉及了一种基于模式匹配的分布式计算环境性能预测方法,包括以下步骤:
S1:取分布式计算环境中当前时间点t0到过去时间点t0-L这时间段内的性能数值作为当前性能数据模式,计算当前时间点以及当前时间点之前的所有时间点上的变化率,将时间t0-L到t0之间的变化率作为当前性能数据变化率模式;
S2:将当前性能数据模式与历史性能数据的每个时间点的数值一一对比,若有某一段长度为L的历史性能数据与当前性能数据模式的平均标准方差SDcup小于等于性能数据标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
S3:再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的历史性能数据的数值与当前性能数据模式的平均标准方差SDCR大于性能数据标准方差阈值且小于等于标准方差宽限值,且当前性能数据变化率模式与此段历史性能数据的变化率的平均标准方差小于等于变化率标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
S4:将S2与S3中得到的相似模式的截止时间点后续时间的性能数据数值,或S2与S3中得到的相似模式的截止时间点后续时间的性能数据数值乘以相应的权重作为预测值。
较佳地,S1中设定每个时间点上的变化率为:
CR ( t i ) = V t i - V t i - 1 V t i - 1 + b * 100 %
i=0,1,…,n,式中为ti时刻的性能数据数值;为ti-1时刻的性能数据数值,b为小于等于0.01的常数;
且设定性能数据的历史数据中的第一个点的变化率CR(0)=1。
较佳地,S4中还包括:
S41:按当前性能数据模式的相似模式中SDcup与SDCR之和由大到小对所得到的相似模式进行排序,将当前性能数据模式的相似模式中SDcup与SDCR之和最小的一段历史性能数据作为当前性能数据模式的最相似模式;
S42:当最相似模式截止时间点与当前时间点之间的间隔大于预测时长时,将最相似模式截止时间点后的数据作为当前性能数据模式的未来预测数值;
当最相似模式截止时间点与当前时间点之间的间隔小于预测时长时,将最相似模式截止时间点与当前时间点时间点之间的数值作为接下来的预测值,依次选择排列在最相似模式后的相似模式的截止时间点后的数值作为后续预测值,直至获得所有为当前性能数据模式的未来预测数值。
较佳地,S4中还包括:
设定所有相似模式对应的权重αi使得其中PCPU(ti)为距当前性能数据模式的第i个相似模式,其中ti为第i个相似模式的截止时间点,i=0时,PCPU(t0)表示当前性能数据模式,i=0,1,…,n;αi为PCPU(ti)所对应的权重,αi随着i值增大而增大;
依次遍历所有相似模式,对与截止时间点与当前时间点之间的间隔大于预测时长的相似模式,对这些相似模式截止时间点之后的npredict个时间点上的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;
对于截止时间点与当前时间点之间的间隔小于预测时长的相似模式,对这些相似模式截止时间点之后到当前时间点之间的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;
将所有相似模式的预测分量按其所在相似模式的截止时间点的距离进行叠加,并将叠加结果按距离其所在相似模式的截止时间点的距离由小到大排列,作为当前性能数据模式的未来预测数值。
为了解决上述问题,本发明还涉及了一种基于模式匹配的分布式计算环境性能预测系统,包括:
数据模式生成模块,取分布式计算环境中当前时间点t0到过去时间点t0-L这时间段内的性能数值作为当前性能数据模式,计算当前时间点以及当前时间点之前的所有时间点上的变化率,将时间t0-L到t0之间的变化率作为当前的性能数据变化率模式;
第一相似模式判别模块,与数据模式生成模块相连,将当前性能数据模式与历史性能数据的每个时间点的数值一一对比,若有某一段长度为L的历史性能数据与当前性能数据模式的平均标准方差SDcup小于等于性能数据标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
第二相似模式判别模块,再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的历史性能数据的数值与当前性能数据模式的平均标准方差SDCR大于性能数据标准方差阈值且小于等于标准方差宽限值,且当前性能数据变化率模式与此段历史性能数据的变化率的平均标准方差小于等于变化率标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;以及预测模块,将第一相似模式判别模块与第二相似模式判别模块中得到的相似模式的截止时间点后续时间的性能数据数值,或第一相似模式判别模块与第二相似模式判别模块中得到的相似模式的截止时间点后续时间的性能数据数值乘以相应的权重作为预测值。
较佳地,所述数据模式生成模块中设定每个时间点上的变化率为:
CR ( t i ) = V t i - V t i - 1 V t i - 1 + b * 100 %
i=0,1,…,n,式中为ti时刻的性能数据数值;为ti-1时刻的性能数据数值,b为小于等于0.01的常数;
且设定性能数据的历史数据中的第一个点的变化率CR(0)=1。
较佳地,预测模块中还包括:
相似模式排序模块,与第一相似模式判别模块和第一相似模式判别模块相连,按当前性能数据模式的相似模式中SDcup与SDCR之和由大到小对所得到的相似模式进行排序,将当前性能数据模式的相似模式中SDcup与SDCR之和最小的一段历史性能数据作为当前性能数据模式的最相似模式;以及
预测值排序模块:与相似模式排序模块的输出端相连接,当最相似模式截止时间点与当前时间点之间的间隔大于预测时长时,将最相似模式截止时间点后的数据作为当前性能数据模式的未来预测数值;当最相似模式截止时间点与当前时间点之间的间隔小于预测时长时,将最相似模式截止时间点与当前时间点之间的数值作为接下来的预测值,依次选择排列在最相似模式后的相似模式的截止时间点后的数值作为后续预测值,直至获得所有为当前性能数据模式的未来预测数值。
较佳地,预测模块中还包括:
权重生成模块,设定所有相似模式对应的权重αi使得
其中PCPU(ti)为距当前性能数据模式的第i个相似模式,其中ti为第i个相似模式的截止时间点,i=0时,PCPU(t0)表示当前性能数据模式,i=0,1,…,n;αi为PCPU(ti)所对应的权重,αi随着i值增大而增大;
预测分量生成模块,与权重生成模块的输出端相连,依次遍历所有相似模式,对与截止时间点与当前时间点之间的间隔大于预测时长的相似模式,对这些相似模式截止时间点之后的npredict个时间点上的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;对于截止时间点与当前时间点之间的间隔小于预测时长的相似模式,对这些相似模式截止时间点之后到当前时间点之间的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;以及
预测分量叠加模块,将预测分量生成模块中得到的所有相似模式的预测分量按其所在相似模式的截止时间点的距离进行叠加,并将叠加结果按距离其所在相似模式的截止时间点的距离由小到大排列,作为当前性能数据模式的未来预测数值。
本发明由于采用以上技术方案,与现有技术相比,具有以下的优点和积极效果:
本发明涉及一种基于模式匹配的分布式计算环境性能预测方法及系统,通过采集服务器的性能数据,把当前性能数据模式与历史数据的数值一一对比以及当前的性能数据变化率模式与历史数据的变化率一一对比,从历史数据中找到相似的模式,从历史数据中找到相似模式截止时间点后的性能数据值作为预测结果或乘以权重加权作为预测结果,提高服务器对资源调度的准确性与可靠性,使得分布式计算环境下对处于不稳态情况的性能数据进行长期预测的预测效果更理想。
附图说明
图1为本发明一种基于模式匹配的分布式计算环境性能预测方法的流程图;
图2为本发明一种基于模式匹配的分布式计算环境性能预测系统的系统框图;
图3为本发明实施例中的历史性能数据与当前性能数据模式构建示意图;
图4为本发明实施例中的历史性能数据的变化率与当前性能数据变化率模式构建示意图。
具体实施方式
以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
为了便于对本发明实施例的理解,下面将结合附图以具体实施例为例作进一步的解释说明,且各个实施例不构成对本发明实施例的限定。
本请参考图1,发明提供了一种基于模式匹配的分布式计算环境性能预测方法,主要包括以下步骤:
S1:分布式计算环境中当前时间点t0到过去时间点t0-L这时间段内的性能数据的数值作为当前性能数据模式,且对性能数据的历史数据进行预处理,计算其在每个时间点上的变化率,将时间t0-L到t0之间的变化率作为当前的性能数据变化率模式;
S2:将当前性能数据模式与历史性能数据的每个时间点的数值一一对比,若有某一段长度为L的历史性能数据与当前性能数据模式的平均标准方差SDcup小于等于性能数据标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
S3:再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的历史性能数据的数值与当前性能数据模式的平均标准方差SDCR大于最大性能数据标准方差且小于等于标准方差宽限值,且当前性能数据变化率模式与此段历史性能数据的变化率的平均标准方差小于等于变化率标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
S4:将S2与S3中得到的相似模式的截止时间点后续时间的性能数据数值,或S2与S3中得到的相似模式的截止时间点后续时间的性能数据数值乘以相应的权重作为预测值。
实施例一
S1、构建当前的性能数据匹配模式:假设当前时间为t0,那么从t0-L到t0时段内的数值构成当前的性能数据匹配模式,其中L为当前匹配模式的长度。
需要对性能数据的历史数据进行预处理,计算其在每个时间点上的变化率(Change Rate,缩写为CR):
CR ( t i ) = V t i - V t i - 1 V t i - 1 + b * 100 %
式中——为ti时刻的性能数据数值,i=0,1,…,n;
——为ti-1时刻的性能数据数值,为了防止除数为零的情况出现,在实际计算中,除数中加上一个很小的数值b,本实施例中b=0.01,一般b为小于等于0.01的常数。
此外,针对性能数据的历史数据中的第一个点做特殊处理,设定其变化率的值为固定值1,即CR(0)=1。
假设当前时间为t0,将时间t0-L到t0之间的CR(ti)值作为当前的性能数据变化率模式(Change Rate Pattern of the Load),记为PCR。将时间t0-L到t0之间的性能数据数值作为当前的性能数据模式(Load Pattern),记为PCPU
S2:检测出相似模式,将当前性能数据模式与历史性能数据数值一一对比,在一定的误差允许范围内,若有某一段长度为L的性能数据符合要求,即可认为该段性能数据为曾出现过的相似模式。
将长为L的当前模式与时间t0-L之前(即当前性能数据模式之前)的性能数据的历史数据及其对应的变化率一一对比,计算各自的平均标准方程值。假设该历史模式的时间段为ti-L到ti,与当前性能数据模式的数值对比产生的平均标准方差记为SDCR(ti),当满足以下条件时,则该历史模式为当前模式的相似模式:
标准方差SDCPU(ti)满足公式:
SDCPU(ti)≤SDCPU_THRESHOLD
式中SDCPU_THRESHOLD为性能数据标准方差阈值,即为符合相似模式标准的最大性能数据标准方差。
该条件说明,当历史模式与当前模式在性能数据的波形上符合一定程度的相似性时,可以判定两者为相似模式。
S3:检测出相似模式,S2中已经将当前性能数据模式与历史性能数据数值一一对比,而本步骤中再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的性能数据符合要求一下公式,假设某历史模式的时间段为ti-L到ti,与当前性能数据模式的数值对比产生的平均标准方差记为SDCR(ti),与当前性能数据变化率模式的数值对比产生的平均标准方差记为SDCR(ti),当满足以下条件时,则该历史模式为当前模式的相似模式:
SDCR(ti)和SDCPU(ti)同时满足以下两个公式:
SDCPU(ti)≤SDCPU_TOLERANCE
SDCR(ti)≤SDCR_THRESHOLD
式中SDCPU_TOLERANCE为标准方差的宽限值,其值大于SDCPU_THRESHOLD,即放宽对CPU性能数据的数值标准方差的限定;
SDCR_THRESHOLD为变化率标准方差阈值,即为符合相似模式标准的最大性能数值变化率标准方差。
该条件表明,当历史模式与当前模式相互比较产生超过限度的标准方差时,不能直接判定两者不相似。根据之前的分析,有可能两者的波形外形相似,但是其数值相差较大,因此必须依据变化率的相似性来判断是否相似。但同时,其性能数据的数值的标准方差必须限定在宽限值内,即不能相差太大,否则即使变化率相似,也仍判定为两者不相似。
通过图3与图4的实例看出两种模式的构建,需要把两种模式作为匹配模式联合使用接下来的查找对比,可以提高匹配的可扩展性,能够处理波形相似的性能数据,也可以处理在数值上变动较大,但变化率存在相似性的性能数据,加上变化率模式来辅助,对于同一种变化模式的性能数据,尽管数值上不相等,但其变化率仍是相似的。而如果变化率是相似的,比如几串连续的零值(表示该时间段内性能数据数值不变),在变化率模式中,这些串是相似的,但是还原到性能数据上看,可能这些数值相差极大,属于不同类型的。因此,通过两者相互结合,只有当两者都满足一定条件时,才能确定所对比的模式是要找的相似模式。
S4中包括:
S41:按当前性能数据模式的相似模式中SDCPU(ti)与SDCR(ti)之和由大到小对所得到的相似模式进行排序。
当相似模式的两个标准方差SDCR(ti)和SDCPU(ti)值满足以下条件时,则称该相似模式为当前模式的最相似模式(most similar pattern):
SDCR(ti)+SDCPU(ti)=min{SDCR(tk)+SDCPU(tk)}
式中{SDCR(tk)+SDCPU(tk)}为所有相似模式的两个标准方差之和构成的集合;
min为取集合中的最小值。
采用两个标准方差之和SDCR(ti)+SDCPU(ti)作为衡量相似模式与当前模式的相似性标准,并按和的大小对所得到的相似模式进行排序。因此,就得到了最相似模式的截止时间点,其后的数据就可以用来预测性能数据未来的数值。
S42:当最相似模式截止时间点与当前时间点之间的间隔大于预测时长时,将最相似模式截止时间点后的数据作为当前性能数据模式的未来预测数值;当最相似模式截止时间点与当前时间点之间的间隔小于预测时长时,将最相似模式截止时间点与当前时间点时间点之间的数值作为接下来的预测值,依次选择排列在最相似模式后的相似模式的截止时间点后的数值作为后续预测值,直至获得所有为当前性能数据模式的未来预测数值。
即为:
假设由S41所获得的最相似模式的截止时间点为ti,预测长度为npredict,则预测值的计算分为以下两种情况:
1)当ti+npredict≤t0(即最相似模式与当前时间之间的间隔大于预测长度)时,直接将ti到ti+npredict之间的性能数据数值作为预测值;
2)当ti+npredict>t0(即最相似模式与当前时间之间的间隔小于预测长度)时,将ti到t0之间的性能数据的数值作为接下来t0-ti步的预测值。从排好序的相似模式集合中选择下一个相似模式,将其截止时间点t0-ti步之后的数据当作剩余的预测值。若得到的预测值长度N仍小于所要求的预测长度npredict,则继续选择下一个相似模式,将该模式截止时间点N步之后的值作为预测值,如此循环直到获得所有的预测值。
由于CPU具有随时间变化的自相关性,因此不同时间上的负载值对其预测值会产生不同程度的影响。也就是说,离当前时间越远的相似模式对预测值的影响可能越弱。而基于最相似模式的算法忽略了这一点,该算法最后找到的最相似模式可能离当前模式比较远,其后的数值与当前时刻接下来的数值之间的相似性可能并不是最大的。存在着这样的情形:最接近当前模式的相似模式(非最相似模式)其后的负载值比最相似模式(非最接近当前模式的)其后的数值更接近所要预测的数值,即相似性更大。在这种情形下,我们应该选取最接近当前模式的这个相似模式作为接下来进行预测的依据,而不是最相似模式。
因此,为了做出更准确的预测,综合考虑其相似性以及与当前模式之间的距离这两个因素,来赋予这些相似模式不同的权重,见实施例二。
实施例二
根据与上述实施例一中S1-S3步骤一致,但S4中替换为包括:
设定所有相似模式对应的权重αi使得其中PCPU(ti)为距当前性能数据模式的第i个相似模式,其中ti为第i个相似模式的截止时间点,i=0时,PCPU(t0)表示当前性能数据模式,i=0,1,…,n;αi为PCPU(ti)所对应的权重,αi随着i值增大而增大。
依次遍历所有相似模式,对与截止时间点与当前时间点之间的间隔大于预测时长的相似模式,对这些相似模式截止时间点之后的npredict个时间点上的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;
对于截止时间点与当前时间点之间的间隔小于预测时长的相似模式,对这些相似模式截止时间点之后到当前时间点之间的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;
将所有相似模式的预测分量按其所在相似模式的截止时间点的距离进行叠加,并将叠加结果按距离其所在相似模式的截止时间点的距离由小到大排列,作为当前性能数据模式的未来预测数值。
本实施例中:
A:查找所有符合条件的相似模式,将这些相似模式按照距离当前模式的时间远近进行排序(即逆时间顺序),并赋予这些相似模式不同的权重,即:
P CPU ( t 0 ) = Σ i = 1 n α i * P CPU ( t i )
式中PCPU(ti)——距当前模式第i个性能数据模式,i=0,1,…,n,i越大表示离当前模式的时间越远。其中,i=0时,PCPU(t0)表示当前性能数据模式;
αi为PCPU(ti)所对应的权重,i越大,αi越小,即离当前模式越远,其权重越小。
将这些不同权重的相似模式的截止时间点ti及其权重αi保存成如下所示的集合:
P={(tii)|i=1,2,...,n}
式中n——集合大小,即检测到的相似模式的总数。
此处预测值的计算也分为两种情况:
B:依次遍历集合P中的相似模式,当ti+npredict≤t0(即该相似模式与当前时间之间的间隔大于预测长度)时,对该相似模式之后的npredict个时间点上的性能数据数值依次执行以下公式:
1):
V prediction ( k ) = V prediction _ ( k ) + α i * V P i ( t i + k ) - - - ( a )
式中Vprediction(k)——第k步的预测值,k=1,2,…,npredict
Vprediction_(k)——第k步其他相似模式的预测分量之和;
——相似模式Pi的截止时间点ti之后第k个点所对应的性能数据的数值。
公式表示,将相似模式之后的性能数据的数值按该模式所对应的权重累加到相应的预测值上。
2)当ti+npredict>t0(即该相似模式与当前时间之间的间隔小于预测长度)时,将ti到t0之间的性能数据的数值乘上其对应的权重加到接下来t0-ti步的预测值,即同样应用公式a,不过此时式中的k=1,2,…,t0-ti。这里只加上了t0-ti步,不足npredict步。不同于实施例一中用其他相似模式将剩余预测值补满,基于不同权重模式的算法对此不作处理,因所有的相似模式的预测分量都会被用上。
如此,就将所有相似模式之后的性能数据的数值按其权重叠加到变量Vprediction(k)当中去。最终得到的数值就是所需要的预测值。
本请参考图2,发明提供了一种基于模式匹配的分布式计算环境性能预测系统,主要包括数据模式生成模块、第一相似模式判别模块、第二相似模式判别模块以及预测模块。
其中,数据模式生成模块,取分布式计算环境中当前时间点t0到过去时间点t0-L这时间段内的性能数值作为当前性能数据模式,计算当前时间点以及当前时间点之前的所有时间点上的变化率,将时间t0-L到t0之间的变化率作为当前的性能数据变化率模式。
数据模式生成模块中设定每个时间点上的变化率为:
CR ( t i ) = V t i - V t i - 1 V t i - 1 + b * 100 %
i=0,1,…,n,式中为ti时刻的性能数据数值;为ti-1时刻的性能数据数值,b为小于等于0.01的常数;
且设定性能数据的历史数据中的第一个点的变化率CR(0)=1。
第一相似模式判别模块,与数据模式生成模块相连,将当前性能数据模式与历史性能数据的每个时间点的数值一一对比,若有某一段长度为L的历史性能数据与当前性能数据模式的平均标准方差SDcup小于等于性能数据标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
第二相似模式判别模块,与第一相似模式判别模块相连,也可以与数据模式生成模块相连,再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的历史性能数据的数值与当前性能数据模式的平均标准方差SDCR大于性能数据标准方差阈值且小于等于标准方差宽限值,且当前性能数据变化率模式与此段历史性能数据的变化率的平均标准方差小于等于变化率标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;以及
预测模块,将第一相似模式判别模块与第二相似模式判别模块中得到的相似模式的截止时间点后续时间的性能数据数值,或第一相似模式判别模块与第二相似模式判别模块中得到的相似模式的截止时间点后续时间的性能数据数值乘以相应的权重作为预测值。
预测模块中还包括相似模式排序模块以及预测值排序模块。
相似模式排序模块,与第一相似模式判别模块和第一相似模式判别模块相连,按当前性能数据模式的相似模式中SDcup与SDCR之和由大到小对所得到的相似模式进行排序,将当前性能数据模式的相似模式中SDcup与SDCR之和最小的一段历史性能数据作为当前性能数据模式的最相似模式。
预测值排序模块,与相似模式排序模块的输出端相连接,当最相似模式截止时间点与当前时间点之间的间隔大于预测时长时,将最相似模式截止时间点后的数据作为当前性能数据模式的未来预测数值;当最相似模式截止时间点与当前时间点之间的间隔小于预测时长时,将最相似模式截止时间点与当前时间点之间的数值作为接下来的预测值,依次选择排列在最相似模式后的相似模式的截止时间点后的数值作为后续预测值,直至获得所有为当前性能数据模式的未来预测数值。
由于CPU具有随时间变化的自相关性,因此不同时间上的负载值对其预测值会产生不同程度的影响。也就是说,离当前时间越远的相似模式对预测值的影响可能越弱。而基于最相似模式的算法忽略了这一点,该算法最后找到的最相似模式可能离当前模式比较远,其后的数值与当前时刻接下来的数值之间的相似性可能并不是最大的。存在着这样的情形:最接近当前模式的相似模式(非最相似模式)其后的负载值比最相似模式(非最接近当前模式的)其后的数值更接近所要预测的数值,即相似性更大。在这种情形下,我们应该选取最接近当前模式的这个相似模式作为接下来进行预测的依据,而不是最相似模式。
在一些实施例中,为了做出更准确的预测,综合考虑其相似性以及与当前模式之间的距离这两个因素,来赋予这些相似模式不同的权重,前面数据模式生成模块、第一相似模式判别模块、第二相似模式判别模块不变,将预测模块替换为包括权重生成模块以及预测分量叠加模块:
权重生成模块,设定所有相似模式对应的权重αi使得
其中PCPU(ti)为距当前性能数据模式的第i个相似模式,其中ti为第i个相似模式的截止时间点,i=0时,PCPU(t0)表示当前性能数据模式,i=0,1,…,n;αi为PCPU(ti)所对应的权重,αi随着i值增大而增大;预测分量生成模块,与权重生成模块的输出端相连,依次遍历所有相似模式,对与截止时间点与当前时间点之间的间隔大于预测时长的相似模式,对这些相似模式截止时间点之后的npredict个时间点上的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;对于截止时间点与当前时间点之间的间隔小于预测时长的相似模式,对这些相似模式截止时间点之后到当前时间点之间的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量。
预测分量叠加模块,将预测分量生成模块中得到的所有相似模式的预测分量按其所在相似模式的截止时间点的距离进行叠加,并将叠加结果按距离其所在相似模式的截止时间点的距离由小到大排列,作为当前性能数据模式的未来预测数值。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于模式匹配的分布式计算环境性能预测方法,其特征在于,包括以下步骤:
S1:取分布式计算环境中当前时间点t0到过去时间点t0-L这时间段内的性能数值作为当前性能数据模式,计算当前时间点以及当前时间点之前的所有时间点上的变化率,将时间t0-L到t0之间的变化率作为当前性能数据变化率模式;
S2:将当前性能数据模式与历史性能数据的每个时间点的数值一一对比,若有某一段长度为L的历史性能数据与当前性能数据模式的平均标准方差SDcup小于等于性能数据标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
S3:再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的历史性能数据的数值与当前性能数据模式的平均标准方差SDCR大于性能数据标准方差阈值且小于等于标准方差宽限值,且当前性能数据变化率模式与此段历史性能数据的变化率的平均标准方差小于等于变化率标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
S4:将S2与S3中得到的相似模式的截止时间点后续时间的性能数据数值,或S2与S3中得到的相似模式的截止时间点后续时间的性能数据数值乘以相应的权重作为预测值。
2.如权利要求1所述的一种基于模式匹配的分布式计算环境性能预测方法,其特征在于,S1中设定每个时间点上的变化率为:
CR ( t i ) = V t i - V t i - 1 V t i - 1 + b * 100 %
i=0,1,…,n,式中为ti时刻的性能数据数值;为ti-1时刻的性能数据数值,b为小于等于0.01的常数;
且设定性能数据的历史数据中的第一个点的变化率CR(0)=1。
3.如权利要求1或2所述的一种基于模式匹配的分布式计算环境性能预测方法,其特征在于,S4中还包括:
S41:按当前性能数据模式的相似模式中SDcup与SDCR之和由大到小对所得到的相似模式进行排序,将当前性能数据模式的相似模式中SDcup与SDCR之和最小的一段历史性能数据作为当前性能数据模式的最相似模式;
S42:当最相似模式截止时间点与当前时间点之间的间隔大于预测时长时,将最相似模式截止时间点后的数据作为当前性能数据模式的未来预测数值;
当最相似模式截止时间点与当前时间点之间的间隔小于预测时长时,将最相似模式截止时间点与当前时间点时间点之间的数值作为接下来的预测值,依次选择排列在最相似模式后的相似模式的截止时间点后的数值作为后续预测值,直至获得所有为当前性能数据模式的未来预测数值。
4.如权利要求1或2所述的一种基于模式匹配的分布式计算环境性能预测方法,其特征在于,S4中还包括:
设定所有相似模式对应的权重αi使得其中PCPU(ti)为距当前性能数据模式的第i个相似模式,其中ti为第i个相似模式的截止时间点,i=0时,PCPU(t0)表示当前性能数据模式,i=0,1,…,n;αi为PCPU(ti)所对应的权重,αi随着i值增大而增大;
依次遍历所有相似模式,对与截止时间点与当前时间点之间的间隔大于预测时长的相似模式,对这些相似模式截止时间点之后的npredict个时间点上的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;
对于截止时间点与当前时间点之间的间隔小于预测时长的相似模式,对这些相似模式截止时间点之后到当前时间点之间的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;
将所有相似模式的预测分量按其所在相似模式的截止时间点的距离进行叠加,并将叠加结果按距离其所在相似模式的截止时间点的距离由小到大排列,作为当前性能数据模式的未来预测数值。
5.一种基于模式匹配的分布式计算环境性能预测系统,其特征在于,包括:
数据模式生成模块,取分布式计算环境中当前时间点t0到过去时间点t0-L这时间段内的性能数值作为当前性能数据模式,计算当前时间点以及当前时间点之前的所有时间点上的变化率,将时间t0-L到t0之间的变化率作为当前的性能数据变化率模式;
第一相似模式判别模块,与数据模式生成模块相连,将当前性能数据模式与历史性能数据的每个时间点的数值一一对比,若有某一段长度为L的历史性能数据与当前性能数据模式的平均标准方差SDcup小于等于性能数据标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;
第二相似模式判别模块,再将当前性能数据变化率模式与历史性能数据的变化率一一对比,若有某一段长度为L的历史性能数据的数值与当前性能数据模式的平均标准方差SDCR大于性能数据标准方差阈值且小于等于标准方差宽限值,且当前性能数据变化率模式与此段历史性能数据的变化率的平均标准方差小于等于变化率标准方差阈值,则该段历史性能数据为当前性能数据模式的相似模式;以及
预测模块,将第一相似模式判别模块与第二相似模式判别模块中得到的相似模式的截止时间点后续时间的性能数据数值,或第一相似模式判别模块与第二相似模式判别模块中得到的相似模式的截止时间点后续时间的性能数据数值乘以相应的权重作为预测值。
6.如权利要求5所述的一种基于模式匹配的分布式计算环境性能预测系统,其特征在于,所述数据模式生成模块中设定每个时间点上的变化率为:
CR ( t i ) = V t i - V t i - 1 V t i - 1 + b * 100 %
i=0,1,…,n,式中为ti时刻的性能数据数值;为ti-1时刻的性能数据数值,b为小于等于0.01的常数;
且设定性能数据的历史数据中的第一个点的变化率CR(0)=1。
7.如权利要求5或6所述的一种基于模式匹配的分布式计算环境性能预测系统,其特征在于,预测模块中还包括:
相似模式排序模块,与第一相似模式判别模块和第一相似模式判别模块相连,按当前性能数据模式的相似模式中SDcup与SDCR之和由大到小对所得到的相似模式进行排序,将当前性能数据模式的相似模式中SDcup与SDCR之和最小的一段历史性能数据作为当前性能数据模式的最相似模式;以及
预测值排序模块:与相似模式排序模块的输出端相连接,当最相似模式截止时间点与当前时间点之间的间隔大于预测时长时,将最相似模式截止时间点后的数据作为当前性能数据模式的未来预测数值;当最相似模式截止时间点与当前时间点之间的间隔小于预测时长时,将最相似模式截止时间点与当前时间点之间的数值作为接下来的预测值,依次选择排列在最相似模式后的相似模式的截止时间点后的数值作为后续预测值,直至获得所有为当前性能数据模式的未来预测数值。
8.如权利要求5或6所述的一种基于模式匹配的分布式计算环境性能预测系统,其特征在于,预测模块中还包括:
权重生成模块,设定所有相似模式对应的权重αi使得其中PCPU(ti)为距当前性能数据模式的第i个相似模式,其中ti为第i个相似模式的截止时间点,i=0时,PCPU(t0)表示当前性能数据模式,i=0,1,…,n;αi为PCPU(ti)所对应的权重,αi随着i值增大而增大;
预测分量生成模块,与权重生成模块的输出端相连,依次遍历所有相似模式,对与截止时间点与当前时间点之间的间隔大于预测时长的相似模式,对这些相似模式截止时间点之后的npredict个时间点上的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;对于截止时间点与当前时间点之间的间隔小于预测时长的相似模式,对这些相似模式截止时间点之后到当前时间点之间的数值依次乘以其所在相似模式的权重作为这些相似模式的预测分量;以及
预测分量叠加模块,将预测分量生成模块中得到的所有相似模式的预测分量按其所在相似模式的截止时间点的距离进行叠加,并将叠加结果按距离其所在相似模式的截止时间点的距离由小到大排列,作为当前性能数据模式的未来预测数值。
CN201410337251.9A 2014-07-16 2014-07-16 基于模式匹配的分布式计算环境性能预测方法及系统 Pending CN104135510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410337251.9A CN104135510A (zh) 2014-07-16 2014-07-16 基于模式匹配的分布式计算环境性能预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410337251.9A CN104135510A (zh) 2014-07-16 2014-07-16 基于模式匹配的分布式计算环境性能预测方法及系统

Publications (1)

Publication Number Publication Date
CN104135510A true CN104135510A (zh) 2014-11-05

Family

ID=51808032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410337251.9A Pending CN104135510A (zh) 2014-07-16 2014-07-16 基于模式匹配的分布式计算环境性能预测方法及系统

Country Status (1)

Country Link
CN (1) CN104135510A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503846A (zh) * 2015-01-22 2015-04-08 成都派沃特科技有限公司 一种基于云计算系统的资源管理系统
CN107480892A (zh) * 2017-08-17 2017-12-15 广州市华南畜牧设备有限公司 综合畜牧养殖数据排名方法及装置
CN109471783A (zh) * 2017-09-08 2019-03-15 北京京东尚科信息技术有限公司 预测任务运行参数的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102137425A (zh) * 2011-02-24 2011-07-27 华为技术有限公司 链路质量评估方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102137425A (zh) * 2011-02-24 2011-07-27 华为技术有限公司 链路质量评估方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁建煌: "分布式计算中的可预测性监控", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503846A (zh) * 2015-01-22 2015-04-08 成都派沃特科技有限公司 一种基于云计算系统的资源管理系统
CN104503846B (zh) * 2015-01-22 2018-01-30 成都派沃特科技有限公司 一种基于云计算系统的资源管理系统
CN107480892A (zh) * 2017-08-17 2017-12-15 广州市华南畜牧设备有限公司 综合畜牧养殖数据排名方法及装置
CN109471783A (zh) * 2017-09-08 2019-03-15 北京京东尚科信息技术有限公司 预测任务运行参数的方法和装置
CN109471783B (zh) * 2017-09-08 2022-07-05 北京京东尚科信息技术有限公司 预测任务运行参数的方法和装置

Similar Documents

Publication Publication Date Title
Ren et al. The gradual resampling ensemble for mining imbalanced data streams with concept drift
CN105446979A (zh) 数据挖掘方法和节点
CN107480694B (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
CN108509979A (zh) 一种异常检测方法、服务器及计算机可读存储介质
CN102034350A (zh) 交通流数据短时预测方法及系统
CN108074015B (zh) 一种风电功率超短期预测方法及系统
CN108052387B (zh) 一种移动云计算中的资源分配预测方法及系统
CN105574541A (zh) 一种基于紧密度排序的网络社区发现方法
CN113705929B (zh) 一种基于负荷特征曲线及典型特征值融合的春节假期负荷预测方法
CN104010029B (zh) 基于横向纵向信息集成的分布式计算环境性能预测方法
CN105205052A (zh) 一种数据挖掘方法及装置
Yang et al. A pattern fusion model for multi-step-ahead CPU load prediction
CN116307215A (zh) 一种电力系统的负荷预测方法、装置、设备及存储介质
CN104517052A (zh) 一种入侵检测方法及装置
CN104135510A (zh) 基于模式匹配的分布式计算环境性能预测方法及系统
Li et al. Multilinear-trend fuzzy information granule-based short-term forecasting for time series
CN103646670A (zh) 一种评估存储系统性能的方法和设备
CN110413406A (zh) 一种任务负载预测系统及方法
CN113326449A (zh) 预测交通流量的方法、装置、电子设备和介质
CN108170837A (zh) 数据离散化方法、装置、计算机设备及存储介质
CN109948926A (zh) 一种基于规划期的高速公路混凝土桥梁养护技术评选方法
CN111428148B (zh) 一种适于制造过程规划的智能优化算法推荐方法
CA3144051A1 (en) Data sorting method, device, and system
Liu et al. An optimized speculative execution strategy based on local data prediction in a heterogeneous hadoop environment
CN112187894A (zh) 一种基于负载相关性预测的容器动态调度方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141105

RJ01 Rejection of invention patent application after publication