CN110191015A - 基于cpi指标的云服务性能智能预测方法和装置 - Google Patents

基于cpi指标的云服务性能智能预测方法和装置 Download PDF

Info

Publication number
CN110191015A
CN110191015A CN201910425929.1A CN201910425929A CN110191015A CN 110191015 A CN110191015 A CN 110191015A CN 201910425929 A CN201910425929 A CN 201910425929A CN 110191015 A CN110191015 A CN 110191015A
Authority
CN
China
Prior art keywords
cpi
prediction
cloud service
obtains
snaplstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910425929.1A
Other languages
English (en)
Other versions
CN110191015B (zh
Inventor
唐家伟
窦耀勇
吴维刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910425929.1A priority Critical patent/CN110191015B/zh
Publication of CN110191015A publication Critical patent/CN110191015A/zh
Application granted granted Critical
Publication of CN110191015B publication Critical patent/CN110191015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于CPI指标的云服务性能智能预测方法和装置,其中方法包括:获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果;将所述预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;根据预先获取的验证误差权重对所述CPI预测值进行加权平均,得到CPI预测结果。本发明公开提供的基于CPI指标的云服务性能智能预测方法和装置,从CPI指标入手,对混合部署下的云服务的性能进行建模预测,预测效果好,能够有效帮助运维工程师确定服务性能的走势。

Description

基于CPI指标的云服务性能智能预测方法和装置
技术领域
本发明涉及混合部署的云平台技术领域,更具体的说是涉及一种基于CPI指标的云服务性能智能预测方法和装置。
背景技术
目前的互联网数据中心,为了提高集群整体资源利用率,常用的方法是将批处理任务(例如:MapReduce、Spark任务等)和延迟敏感性云服务(例如:搜索引擎服务、电商服务、网络游戏服务等)进行混合部署,如图2所示,在数据中心内部,管理着数以万计的服务器,各个服务器上运行个数不等的容器实例以及批处理任务。容器中往往运行的是延迟敏感型的云服务,而批处理任务大多并没有容器化。
而容器化了的云服务相比于批处理任务而言,其资源使用的情况以及性能波动的情况呈现一定的规律性,是有较好的可预测性的。而批处理任务的运行往往对结束时间要求并不严格,因此,它们的资源使用是受到抢占的,即优先级较低。监控中心获取到各个服务器以及其上的容器的实时运行性能指标,如CPU利用率、内存利用率、CPI、cache miss等。
两种任务间存在由于资源抢占造成的性能干扰,尽管存在各种各样的资源隔离技术,包括使用虚拟机和容器(控制组+命名空间),甚至出现了一些细粒度的资源隔离技术,比如因特尔的CAT技术。但是仍然不足以应对各种类型的资源抢占造成的性能干扰,比如内存带宽的抢占。
现有的方法采用对上层应用QoS(服务质量)数据的采集和分析,来衡量云服务的性能,这对于数据中心的运维来讲是不方便的,而且例如响应时间这样的QoS(服务质量)指标,由于受到各种集群外的因素的影响,不能准确的反映云服务的性能情况,导致预测准确度低。
因此,如何提高预测的准确度是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于CPI指标的云服务性能智能预测方法和装置,能够有效提高预测的准确度。
为了实现上述目的,本发明采用如下技术方案:
一种基于CPI指标的云服务性能智能预测方法,包括:
获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;
基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果;
将所述预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;
根据预先获取的验证误差权重对所述CPI预测值进行加权平均,得到CPI预测结果。
优选的,所述得到CPI预测结果之后还包括:
将所述CPI预测结果反馈给集群调度器;所述集群调度器对每个节点进行多维度打分;所述CPI预测结果作为其中一个维度;
根据打分结果按照从高到低,将新到来的任务,调度到分数最高的节点上进行运行。
优选的,基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果具体包括:
对所述时间序列数据进行缺失值计算,得到缺失值计算结果;
采用区间缩放的方法对所述缺失值计算结果进行去量纲化操作,得到去量纲化操作的结果;
对所述去量纲化操作的结果进行差分操作,得到稳定时间序列;
基于所述时间跨度和所述稳定时间序列构造行数等于所述时间跨度的批量输入矩阵,得到预处理结果。
优选的,所述SnapLSTM预测模型的训练步骤包括:
根据训练数据获取批量输入矩阵M及其对应的CPI真值;
分别将批量输入矩阵M输入到所述SnapLSTM模型中,得到第一预测CPI值;
根据所述CPI真值和所述第一预测CPI值,以及梯度下降方法更新LSTM模型参数;
基于快照集成方法,操控学习率使LSTM模型收敛呈现周期性变化,每个周期收敛时对应保存一次SnapLSTM快照模型,得到SnapLSTM预测模型。
优选的,所述验证误差权重获取的方法包括:
获取验证数据的批量输入矩阵和对应的CPI真值;
将验证数据的批量输入矩阵分别输入到所述SnapLSTM预测模型中,分别得到第二预测CPI值;
根据验证数据的CPI真值和所述第二预测CPI值,使用MSE指标计算验证误差;
取最大验证误差;
通过最大验证误差和各个验证误差,得到各个快照参与预测时的验证误差权重。
一种基于CPI指标的云服务性能智能预测装置,包括:
获取模块,用于获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;
预处理模块,用于基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果;
预测模块,用于将所述预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;
加权平均模块,用于根据预先获取的验证误差权重对所述CPI预测值进行加权平均,得到CPI预测结果。
优选的,还包括:反馈模块和调度模块;
所述反馈模块,用于将所述CPI预测结果反馈给集群调度器;所述集群调度器对每个节点进行多维度打分;所述CPI预测结果作为其中一个维度;
所述调度模块,用于根据打分结果按照从高到低,将新到来的任务,调度到分数最高的节点上进行运行。
优选的,所述预处理模块具体包括:
缺失值计算单元,用于对所述时间序列数据进行缺失值计算,得到缺失值计算结果;
去量纲化计算单元,用于采用区间缩放的方法对所述缺失值计算结果进行去量纲化操作,得到去量纲化操作的结果;
差分计算单元,用于对所述去量纲化操作的结果进行差分操作,得到稳定时间序列;
输入矩阵构造单元,用于基于所述时间跨度和所述稳定时间序列构造行数等于所述时间跨度的批量输入矩阵,得到预处理结果。
优选的,还包括:
第一获取单元,用于根据训练数据获取批量输入矩阵M及其对应的CPI真值;
第一预测单元,用于分别将批量输入矩阵M输入到所述SnapLSTM模型中,得到第一预测CPI值;
更新单元,用于根据所述CPI真值和所述第一预测CPI值,以及梯度下降方法更新LSTM模型参数;
快照单元,用于基于快照集成方法,操控学习率使LSTM收敛呈现周期性变化,每个周期收敛时对应保存一次SnapLSTM快照模型,得到SnapLSTM预测模型。
优选的,还包括:
第二获取单元,用于获取验证数据的批量输入矩阵和对应的CPI真值;
第二预测单元,用于将验证数据的批量输入矩阵分别输入到所述SnapLSTM预测模型中,分别得到第二预测CPI值;
验证误差计算单元,用于根据验证数据的CPI真值和所述第二预测CPI值,使用MSE指标计算验证误差;
最大验证误差单元,用于获取最大验证误差;
验证误差权重计算单元,通过最大验证误差和各个验证误差,得到各个快照参与预测时的验证误差权重。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于CPI指标的云服务性能智能预测方法和装置,从CPI指标入手,对混合部署下的云服务的性能进行建模预测,预测效果好,能够有效帮助运维工程师确定服务性能的走势。另外,从指标的高低出发,可以直观的了解到将来一段时间该节点的资源抢占程度对本服务将会有何种影响,从而有利于做出各种决策,例如提前将部分任务进行迁移,或者通过影响调度器的决策,改变将要调度的任务的走向。
本发明提供的方法结合深度学习方法和快照集成方法提高预测准确度,克服深度学习方法随机性造成的性能不稳定,同时提高深度学习方法的收敛速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于CPI指标的云服务性能智能预测方法的流程图一;
图2为本发明提供的互联网中心混合部署的示意图;
图3为本发明提供的基于CPI指标的云服务性能智能预测方法的示意图;
图4为本发明提供的时间跨度的示意图;
图5为本发明提供的LSTM预测模型的示意图;
图6为未经过预处理的原始时间序列示意图;
图7为本发明提供的经过处理后的稳定的时间序列数据示意图;
图8为通过在某集群开源数据应用本发明提供的预测方法得到的训练收敛过程示意图;
图9为本发明提供的一种基于CPI指标的云服务性能智能预测方法的流程图二;
图10为本发明提供的对时间序列进行预处理的具体流程图;
图11为本发明提供的SnapLSTM预测模型训练方法的流程图;
图12为本发明提供的获取验证误差权重的方法流程图;
图13为本发明提供的基于CPI指标的云服务性能智能预测装置的示意图一;
图14为本发明提供的基于CPI指标的云服务性能智能预测装置的示意图二;
图15为本发明提供的基于CPI指标的云服务性能智能预测方法得到的预测结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图1,本发明实施例公开了一种基于CPI指标的云服务性能智能预测方法,包括:
S1、获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;
图3中的两种数据收集器——云服务时间序列数据收集器和批处理任务时间序列收集器从图2中的本地时间序列数据库和全局数据库中收集关于批处理任务和云服务的各种时间序列数据,包括:云服务的CPU利用率、内存利用率、CPI;与云服务在同一个物理机上的其他云服务的CPU利用率、内存利用率、CPI;与云服务同在一个应用组中的其他云服务的CPU利用率、内存利用率、CPI;最后是与云服务在同一个物理机上的批处理作业的资源使用时间序列。如图6是未经处理的CPU利用率数据,其呈现周期性,属于不稳定的时间序列,需要经过预处理。
预测t时刻的CPI的时候需要考虑时间跨度,也就是根据前面多少个时间序列数据预测t时刻的CPI值,时间跨度的含义和预测策略请参见附图4。
S2、基于所述时间跨度对时间序列数据进行预处理,得到预处理结果;
对步骤S1得到的原始数据进行数据预处理:首先是进行缺失值处理,使用sklearn这个机器学习库中的preproccessing库的Imputer类对数据进行缺失值计算;然后进行去量纲化,具体采用的是区间缩放的方法:使用preproccessing库的MinMaxScaler类对数据进行区间缩放。最后,针对不稳定的CPI时间序列进行差分,使其变成稳定的序列。
S3、将预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;具体请参见附图3。
S4、根据预先获取的验证误差权重对CPI预测值进行加权平均,得到CPI预测结果,具体请参见后面介绍到的根据验证误差权重对CPI预测值进行加权平均得到CPI预测结果的具体过程。
延迟敏感的在线云服务是混合部署系统中的“一等公民”,其运行的稳定性与性能是评价混合部署系统优劣的关键指标,因此,也有不少研究工作将重点放在在线作业QoS的保证上。底层的容器系统一般感知不到上层应用的QoS指标,比如响应时间RT,只能监控到如CPI,LLC miss之类的数据。因此,可以探索应用程序的性能模型,从底层的监控指标评价应用程序的性能状况。
本发明提供的基于CPI指标的云服务性能智能预测方法,从CPI指标入手,对混合部署下的云服务的性能进行建模预测,有效帮助运维工程师确定一个服务性能的走势,从指标的值高低出发,直观地了解将来一段时间该节点的资源抢占程度,对本服务将会有如何的影响,从而可以有利于做出各种决策,例如提前将部分任务进行迁移,或者通过影响调度器的决策改变将要调度的任务的走向。
参见附图9,在上述的实施例一的基础上,在本发明实施例二中,在得到CPI预测结果之后还包括:
S5:将CPI预测结果反馈给集群调度器;集群调度器对每个节点进行多维度打分;CPI预测结果作为其中一个维度;
S6:根据打分结果按照从高到低,将新到来的任务,调度到分数最高的节点上进行运行。
调度器将添加CPI预测结果作为新维度,对每个节点进行打分。在具体实现时,打分维度可以有:CPU余量、内存余量和未来一段时间该节点上的云服务的CPI均值。通过多个维度给每个节点进行打分,按照从高到低排列,将新到来的任务,调度至分数最高的节点上运行。
参见图10,在上述实施例一和实施例二的基础上,为了进一步优化上述技术方案,基于时间跨度对时间序列数据进行预处理,得到预处理结果具体包括:
S21、对时间序列数据进行缺失值计算,得到缺失值计算结果;
S22、采用区间缩放的方法对缺失值计算结果进行去量纲化操作,得到去量纲化操作的结果;
S23、对去量纲化操作的结果进行差分操作,得到稳定时间序列;
S24:基于所述时间跨度和所述稳定时间序列构造行数等于所述时间跨度的批量输入矩阵,得到预处理结果,从而得到新的实施例。
参见附图11,为了进一步优化上述技术方案,SnapLSTM预测模型的训练步骤包括:
S31、根据训练数据获取批量输入矩阵M及其对应的CPI真值;
这里需要说明的是,通过训练数据获取批量输入矩阵的具体方法可以参考对时间序列数据进行预处理的具体步骤,这里不再详细论述。
S32、分别将批量输入矩阵M输入到SnapLSTM模型中,得到第一预测CPI值;
S33、根据CPI真值和第一预测CPI值,以及梯度下降方法更新LSTM模型参数;
S34、基于快照集成方法,操控学习率使LSTM模型收敛呈现周期性变化,每个周期收敛时对应保存一次SnapLSTM快照模型,得到SnapLSTM预测模型。
将训练数据构造成一批矩阵M和其对应的CPI。这一步要做的是时间戳的对齐和矩阵的构造,矩阵的行数由时间跨度参数lag决定,最终能够输入到深度学习模型中的是X和y,X是三维的,第一个维度是矩阵M的个数,第二个维度是矩阵M的行数,第三个维度是矩阵M的列数,y是一维的,长度等于M的第一个维度,即矩阵的个数,也就是预测值。
将得到的一批输入矩阵M和其对应的CPI值(也就是X和y)放入预测模型中进行训练。这一步会得到训练好的SnapLSTM模型。在图15的对比中,可以发现,使用SnapLSTM模型与普通的LSTM模型就收敛速度和效果上都有较大的优势。而且由于本发明的SnapLSTM模型能够多次收敛,通过加权平均得到的性能稳定性将大大提高,其中加权平均的权重通过验证误差权重确定,具体请参见验证误差权重获取的具体方法。
经过对SnapLSTM的训练,基于预设的学习率的变化周期确定LSTM的收敛情况,当收敛时对应得到了许多个快照,这些快照是在同一个训练过程中经过不同的收敛得到的,如图8的例子所示,在150次训练中,共获得了5次收敛,即每30次训练获得一个快照Snapshot。使用这些快照,通过加权平均的方式对各个快照的预测结果进行结合,最终将得到CPI预测结果。
参见图12,为了进一步优化上述技术方案,验证误差权重获取的方法包括:
S41:获取验证数据的批量输入矩阵和对应的CPI真值;
S42、将验证数据的批量输入矩阵分别输入到SnapLSTM预测模型中,分别得到第二预测CPI值;
同样的,通过验证数据获取批量输入矩阵的具体方法可以参考对时间序列数据进行预处理的具体步骤,这里不再详细论述。
S43、根据验证数据的CPI真值和第二预测CPI值,使用MSE指标计算验证误差;
S44、取最大验证误差;
S45、通过最大验证误差和各个验证误差,得到各个快照参与预测时的验证误差权重。
在训练阶段,将数据分成训练数据和验证数据两部分,其中训练数据用于对预测模型进行训练,验证数据用于得到验证误差权重。
将验证集中的输入矩阵M,放入上一个步骤中得到的预测模型中,假设上一步取得了n个快照,那么得到n个预测值,由于此前进行过区间放缩、以及差分等预处理,因此还要对这个预测值进行反向的处理,此时得到n个CPI预测值。在实际预测时,对n个CPI预测值使用训练时取得的验证误差来进行加权平均,验证误差越低,对应的预测值权值越高。具体计算如下:
1)取n个验证误差的最大值记为maxV。
2)对于n个预测值,其最终的权值:Wi=maxV-Vi,其中Vi是第i个快照收敛时的验证误差(1<=i<=n)
3)求所有权值的总和sumW=W1+W2+…+Wn.
4)最终的CPI预测值
在上述技术方案的基础上,为了进一步优化上述技术方案,还包括:根据预设的更新频率对SnapLSTM预测模型进行更新。
当模型训练好之后,为保障预测准确性,不能长期更新。为了更好地适应在线预测场景,并在预测准确度和训练的计算开销之间求一个折中。预先设定了一个更新频率,当模型预测了未来p个时间点的CPI后,需要对模型进行更新,更新步骤同训练步骤一致。
此外,参见附图13,本发明实施例还公开了一种基于CPI指标的云服务性能智能预测装置,包括:
获取模块1,用于获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;
预处理模块2,用于基于时间跨度对时间序列数据进行预处理,得到预处理结果;
预测模块3,用于将预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;
加权平均模块4,用于根据预先获取的验证误差权重对CPI预测值进行加权平均,得到CPI预测结果。
本发明通过训练好的SnapLSTM预测模型能够得到预测效果较好的CPI值,从CPI入手,实现了对混合部署下的云服务的性能进行建模预测,有效帮助运维工程师确定一个服务性能的走势。
其中,SnapLSTM预测模型是基于深度学习模型LSTM,以及集成学习方法SnapShotEnsemble(快照集成方法)结合而成的。训练该模型时,接受上一个部分(预处理模块)得出的一系列输入矩阵,每一个矩阵M对应一个CPI值,将该输入矩阵的每一行逐步放入SnapLSTM中,如图4所示。该预测值是把LSTM的最后一个时间戳(T=t-1)的隐藏层状态H,放入一个全连接层中得出的。
为了进一步优化上述技术方案,还包括:反馈模块5和调度模块6;
反馈模块,用于将CPI预测结果反馈给集群调度器;集群调度器对每个节点进行多维度打分;CPI预测结果作为其中一个维度;
调度模块,用于根据打分结果按照从高到低,将新到来的任务,调度到分数最高的节点上进行运行。
为了进一步优化上述技术方案,预处理模块2具体包括:
缺失值计算单元,用于对时间序列数据进行缺失值计算,得到缺失值计算结果;
去量纲化计算单元,用于采用区间缩放的方法对缺失值计算结果进行去量纲化操作,得到去量纲化操作的结果;
差分计算单元,用于对去量纲化操作的结果进行差分操作,得到稳定时间序列;
输入矩阵构造单元,用于基于所述时间跨度和所述稳定时间序列构造行数等于所述时间跨度的批量输入矩阵,得到预处理结果。
为了进一步优化上述技术方案,在上述实施例的基础上进一步限定还包括:
第一获取单元,用于根据训练数据获取批量输入矩阵M及其对应的CPI真值;
第一预测单元,用于分别将批量输入矩阵M输入到SnapLSTM模型中,得到第一预测CPI值;
更新单元,用于根据CPI真值和第一预测CPI值,以及梯度下降方法更新LSTM模型参数;
快照单元,用于基于快照集成方法,操控学习率使LSTM收敛呈现周期性变化,每个周期收敛时对应保存一次SnapLSTM快照模型,得到SnapLSTM预测模型。
为了进一步优化上述技术方案,在上述实施例的基础上进一步限定还包括:
第二获取单元,,用于获取验证数据的批量输入矩阵和对应的CPI真值;
第二预测单元,用于将验证数据的批量输入矩阵分别输入到所述SnapLSTM预测模型中,分别得到第二预测CPI值;
验证误差计算单元,用于根据验证数据的CPI真值和所述第二预测CPI值,使用MSE指标计算验证误差;
最大验证误差单元,用于获取最大验证误差;
验证误差权重计算单元,通过最大验证误差和各个验证误差,得到各个快照参与预测时的验证误差权重。
下面结合具体实例对本发明的技术方案做进一步阐述。
请参见附图15,图15是通过在某集群开源数据应用本发明中的预测方法得到的预测结果,虚线曲线是该云服务实际的CPI变化情况,而实线曲线是模型的预测情况,可以看出模型基本拟合该服务的CPI变化,取得较好的预测效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于CPI指标的云服务性能智能预测方法,其特征在于,包括:
获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;
基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果;
将所述预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;
根据预先获取的验证误差权重对所述CPI预测值进行加权平均,得到CPI预测结果。
2.根据权利要求1所述的一种基于CPI指标的云服务性能智能预测方法,其特征在于,所述得到CPI预测结果之后还包括:
将所述CPI预测结果反馈给集群调度器;所述集群调度器对每个节点进行多维度打分;所述CPI预测结果作为其中一个维度;
根据打分结果按照从高到低,将新到来的任务,调度到分数最高的节点上进行运行。
3.根据权利要求1或2所述的一种基于CPI指标的云服务性能智能预测方法,其特征在于,基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果具体包括:
对所述时间序列数据进行缺失值计算,得到缺失值计算结果;
采用区间缩放的方法对所述缺失值计算结果进行去量纲化操作,得到去量纲化操作的结果;
对所述去量纲化操作的结果进行差分操作,得到稳定时间序列;
基于所述时间跨度和所述稳定时间序列构造行数等于所述时间跨度的批量输入矩阵,得到预处理结果。
4.根据权利要求3所述的一种基于CPI指标的云服务性能智能预测方法,其特征在于,所述SnapLSTM预测模型的训练步骤包括:
根据训练数据获取批量输入矩阵M及其对应的CPI真值;
分别将批量输入矩阵M输入到所述SnapLSTM模型中,得到第一预测CPI值;
根据所述CPI真值和所述第一预测CPI值,以及梯度下降方法更新LSTM模型参数;
基于快照集成方法,操控学习率使LSTM模型收敛呈现周期性变化,每个周期收敛时对应保存一次SnapLSTM快照模型,得到SnapLSTM预测模型。
5.根据权利要求4所述的一种基于CPI指标的云服务性能智能预测方法,其特征在于,所述验证误差权重获取的方法包括:
获取验证数据的批量输入矩阵和对应的CPI真值;
将验证数据的批量输入矩阵分别输入到所述SnapLSTM预测模型中,分别得到第二预测CPI值;
根据验证数据的CPI真值和所述第二预测CPI值,使用MSE指标计算验证误差;
取最大验证误差;
通过最大验证误差和各个验证误差,得到各个快照参与预测时的验证误差权重。
6.一种基于CPI指标的云服务性能智能预测装置,其特征在于,包括:
获取模块,用于获取关于批处理任务和云服务的各种时间序列数据及其时间跨度;
预处理模块,用于基于所述时间跨度对所述时间序列数据进行预处理,得到预处理结果;
预测模块,用于将所述预处理结果输入到预先训练好的SnapLSTM预测模型中,得到CPI预测值;
加权平均模块,用于根据预先获取的验证误差权重对所述CPI预测值进行加权平均,得到CPI预测结果。
7.根据权利要求6所述的一种基于CPI指标的云服务性能智能预测装置,其特征在于,还包括:反馈模块和调度模块;
所述反馈模块,用于将所述CPI预测结果反馈给集群调度器;所述集群调度器对每个节点进行多维度打分;所述CPI预测结果作为其中一个维度;
所述调度模块,用于根据打分结果按照从高到低,将新到来的任务,调度到分数最高的节点上进行运行。
8.根据权利要求6或7所述的一种基于CPI指标的云服务性能智能预测装置,其特征在于,所述预处理模块具体包括:
缺失值计算单元,用于对所述时间序列数据进行缺失值计算,得到缺失值计算结果;
去量纲化计算单元,用于采用区间缩放的方法对所述缺失值计算结果进行去量纲化操作,得到去量纲化操作的结果;
差分计算单元,用于对所述去量纲化操作的结果进行差分操作,得到稳定时间序列;
输入矩阵构造单元,用于基于所述时间跨度和所述稳定时间序列构造行数等于所述时间跨度的批量输入矩阵,得到预处理结果。
9.根据权利要求8所述的一种基于CPI指标的云服务性能智能预测装置,其特征在于,还包括:
第一获取单元,用于根据训练数据获取批量输入矩阵M及其对应的CPI真值;
第一预测单元,用于分别将批量输入矩阵M输入到所述SnapLSTM模型中,得到第一预测CPI值;
更新单元,用于根据所述CPI真值和所述第一预测CPI值,以及梯度下降方法更新LSTM模型参数;
快照单元,用于基于快照集成方法,操控学习率使LSTM收敛呈现周期性变化,每个周期收敛时对应保存一次SnapLSTM快照模型,得到SnapLSTM预测模型。
10.根据权利要求9所述的一种基于CPI指标的云服务性能智能预测装置,其特征在于,还包括:
第二获取单元,,用于获取验证数据的批量输入矩阵和对应的CPI真值;
第二预测单元,用于将验证数据的批量输入矩阵分别输入到所述SnapLSTM预测模型中,分别得到第二预测CPI值;
验证误差计算单元,用于根据验证数据的CPI真值和所述第二预测CPI值,使用MSE指标计算验证误差;
最大验证误差单元,用于获取最大验证误差;
验证误差权重计算单元,通过最大验证误差和各个验证误差,得到各个快照参与预测时的验证误差权重。
CN201910425929.1A 2019-05-21 2019-05-21 基于cpi指标的云服务性能智能预测方法和装置 Active CN110191015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910425929.1A CN110191015B (zh) 2019-05-21 2019-05-21 基于cpi指标的云服务性能智能预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910425929.1A CN110191015B (zh) 2019-05-21 2019-05-21 基于cpi指标的云服务性能智能预测方法和装置

Publications (2)

Publication Number Publication Date
CN110191015A true CN110191015A (zh) 2019-08-30
CN110191015B CN110191015B (zh) 2022-04-29

Family

ID=67717086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910425929.1A Active CN110191015B (zh) 2019-05-21 2019-05-21 基于cpi指标的云服务性能智能预测方法和装置

Country Status (1)

Country Link
CN (1) CN110191015B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111416735A (zh) * 2020-03-02 2020-07-14 河海大学 基于联邦学习的移动边缘环境下安全QoS预测方法
CN111932024A (zh) * 2020-08-21 2020-11-13 润联软件系统(深圳)有限公司 一种能源负荷预测方法、装置、计算机设备及存储介质
CN114860552A (zh) * 2022-07-11 2022-08-05 北京首信科技股份有限公司 性能监控方法、服务器、客户端、电子设备及其存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502799A (zh) * 2016-12-30 2017-03-15 南京大学 一种基于长短时记忆网络的主机负载预测方法
US20180137412A1 (en) * 2016-11-16 2018-05-17 Cisco Technology, Inc. Network traffic prediction using long short term memory neural networks
CN109542585A (zh) * 2018-11-14 2019-03-29 山东大学 一种支持不规则时间间隔的虚拟机工作负载预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137412A1 (en) * 2016-11-16 2018-05-17 Cisco Technology, Inc. Network traffic prediction using long short term memory neural networks
CN106502799A (zh) * 2016-12-30 2017-03-15 南京大学 一种基于长短时记忆网络的主机负载预测方法
CN109542585A (zh) * 2018-11-14 2019-03-29 山东大学 一种支持不规则时间间隔的虚拟机工作负载预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹宇等: "一种基于深度学习的云平台弹性伸缩算法", 《计算机与现代化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111416735A (zh) * 2020-03-02 2020-07-14 河海大学 基于联邦学习的移动边缘环境下安全QoS预测方法
CN111416735B (zh) * 2020-03-02 2021-05-11 河海大学 基于联邦学习的移动边缘环境下安全QoS预测方法
CN111932024A (zh) * 2020-08-21 2020-11-13 润联软件系统(深圳)有限公司 一种能源负荷预测方法、装置、计算机设备及存储介质
CN114860552A (zh) * 2022-07-11 2022-08-05 北京首信科技股份有限公司 性能监控方法、服务器、客户端、电子设备及其存储介质

Also Published As

Publication number Publication date
CN110191015B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN103631657B (zh) 一种基于MapReduce的任务调度方法
CN107888669B (zh) 一种基于深度学习神经网络的大规模资源调度系统及方法
CN104283946B (zh) 一种单物理机下多虚拟机的资源自适应调整系统及方法
CN111274036B (zh) 一种基于速度预测的深度学习任务的调度方法
Ayoubi et al. An autonomous IoT service placement methodology in fog computing
CN110191015A (zh) 基于cpi指标的云服务性能智能预测方法和装置
Zhang et al. Workload prediction for cloud cluster using a recurrent neural network
CN111064633A (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN104468413B (zh) 一种网络服务方法及系统
Bi et al. SLA-based optimisation of virtualised resource for multi-tier web applications in cloud data centres
CN117539726B (zh) 绿色智算中心能效优化方法及系统
CN110502323B (zh) 一种云计算任务实时调度方法
CN112685153A (zh) 微服务调度方法、装置以及电子设备
CN110351348A (zh) 一种基于dqn的云计算资源调度优化方法
Kamthe et al. A stochastic approach to estimating earliest start times of nodes for scheduling DAGs on heterogeneous distributed computing systems
CN106600058A (zh) 一种制造云服务QoS的组合预测方法
Tong et al. DDQN-TS: A novel bi-objective intelligent scheduling algorithm in the cloud environment
CN107566535B (zh) 基于Web地图服务并发访问时序规则的自适应负载均衡方法
Pooranian et al. Hybrid metaheuristic algorithm for job scheduling on computational grids
Gu et al. A multi-objective fog computing task scheduling strategy based on ant colony algorithm
CN110086855A (zh) 基于蚁群算法的Spark任务智能感知调度方法
Kang et al. Adaptive DRL-based task scheduling for energy-efficient cloud computing
CN101916321A (zh) 一种Web应用细粒度性能建模方法及其系统
Wang et al. GeoCol: A geo-distributed cloud storage system with low cost and latency using reinforcement learning
CN118355366A (zh) 数据库仿真建模框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant