CN111682981A - 一种基于云平台性能的检查点间隔设置方法及装置 - Google Patents

一种基于云平台性能的检查点间隔设置方法及装置 Download PDF

Info

Publication number
CN111682981A
CN111682981A CN202010493627.0A CN202010493627A CN111682981A CN 111682981 A CN111682981 A CN 111682981A CN 202010493627 A CN202010493627 A CN 202010493627A CN 111682981 A CN111682981 A CN 111682981A
Authority
CN
China
Prior art keywords
interval
check point
time
cloud platform
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010493627.0A
Other languages
English (en)
Other versions
CN111682981B (zh
Inventor
周池
薛玮璘
肖遥
王毅
毛睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202010493627.0A priority Critical patent/CN111682981B/zh
Publication of CN111682981A publication Critical patent/CN111682981A/zh
Priority to PCT/CN2021/076795 priority patent/WO2021244066A1/zh
Application granted granted Critical
Publication of CN111682981B publication Critical patent/CN111682981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明公开了一种基于云平台性能的检查点间隔设置方法及装置,该方法包括:根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;根据预设概率分布和待执行任务的执行时间计算得到错误在云平台上发生的多个时间间隔样本;根据多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本;根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔。通过实施本发明,基于错误产生的规律以及云平台性能的动态性确定了检查点间隔,避免了未考虑云平台性能波动造成的检查点设置不合理的问题。

Description

一种基于云平台性能的检查点间隔设置方法及装置
技术领域
本发明涉及处理器容错技术领域,具体涉及一种基于云平台性能的检查点间隔设置方法及装置。
背景技术
云计算是一种动态提供计算资源的新型计算模式。它通常依托于采用虚拟化技术的数据中心,以实现资源的动态整合与环境隔离。在各个IT企业的大力推动下(如Google、IBM、Microsoft等),云计算的应用领域在不断扩大。值得注意的是,一些实时系统也被部署到了云平台中。云计算使灵活、按需地使用大规模计算资源成为现实,但同时也带来了一个亟待解决的问题——增大了系统失效的可能性。因此,在资源失效的情况下,系统仍能正常地提供服务就显得尤为重要。由此,产生了一个非常重要的问题,云平台中的容错问题。为了解决这一问题,容错技术被广泛地研究与部署。
目前,检查点(Checkpoint)技术是系统容错应用最为广泛的解决方案,检查点技术通过将应用程序运行的中间状态保存到可靠存储介质中,当系统发生失效时,重新载入最近存储的中间状态,从而达到减小任务完成时间的目的。容错的根本目的是让应用程序能够容忍系统发生的失效并且把任务的完成时间最小化。在一个软件系统中,如果设置检查点个数过多,由于设置一个检查点会产生额外代价,导致系统额外代价的显著增加;如果设置检查点。因此,如何合理设置检查点以及在何时何处设置检查点长期以来一直是一个有待解决的热点研究问题。
发明内容
有鉴于此,本发明实施例提供了一种基于云平台性能的检查点间隔设置方法及装置,以解决现有技术中在云平台中采用容错技术时如何设置检查点间隔的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种基于云平台性能的检查点间隔设置方法,该检查点间隔设置方法包括:根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;根据预设概率分布和待执行任务的执行时间计算得到错误在所述云平台上发生的多个时间间隔样本;根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本;根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔。
进一步地,其所述云平台的性能数据包括云平台的带宽和云平台的IO数据;所述待执行任务的处理数据包括待执行任务接收、发送、顺序读写以及随机读写的数据。
进一步地,根据预设概率分布和待执行任务的执行时间计算得到错误在所述云平台上发生的多个时间间隔样本,包括:根据泊松分布和待执行任务的执行时间计算得到时间间隔样本的初始值;根据时间间隔样本的初始值生成多个时间间隔样本。
进一步地,根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本,包括:根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、预设检查点间隔以及错误发生时重新开始的开销计算得到预设检查点间隔对应的多个预测时间样本;根据检查点间隔取值范围改变预设检查点间隔的值,计算得到不同检查点间隔对应的多个预测时间样本;根据预设检查点间隔对应的多个预测时间样本和不同检查点间隔对应的多个预测时间样本计算得到每个预设检查点间隔对应的多个预测时间样本。
进一步地,根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔,包括:根据直方图的预设区间数量计算每个预设检查点间隔对应的多个预测时间样本的区间概率;根据区间概率确定预测时间最小时的检查点间隔。
进一步地,根据直方图的预设区间数量计算每个预设检查点间隔对应的多个预测时间样本的区间概率,包括:根据直方图的预设区间数量将每个预设检查点间隔对应的多个预测时间样本转化为分布形式;根据每个预设检查点间隔对应的分布形式计算得到区间概率。
进一步地,根据区间概率确定预测时间最小时的检查点间隔,包括:根据预设检查点间隔的大小和区间概率计算两个分布形式的概率值;根据概率值确定预测时间最小时的检查点间隔。
本发明实施例第二方面提供一种基于云平台性能的检查点间隔设置装置,该检查点间隔设置装置包括:执行时间计算模块,用于根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;时间间隔样本计算模块,用于根据预设概率分布计算得到错误在所述云平台上发生的多个时间间隔样本;预测时间样本计算模块,用于根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本;检查点间隔确定模块,用于根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的基于云平台性能的检查点间隔设置方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的基于云平台性能的检查点间隔设置方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的基于云平台性能的检查点间隔设置方法及装置,在任务执行时间计算时综合考虑了云平台的性能波动和任务执行的相应情况;同时在根据任务执行时间确定检查点间隔时,基于错误产生的规律以及云平台性能的动态性计算得到了大量预测时间样本,并由大量预测时间样本确定了预测时间最小时的检查点间隔。因此,本发明实施例提供的基于云平台性能的检查点间隔设置方法及装置,可以帮助工作流有效地减少因错误产生造成的额外时间开销,使工作流执行效率更高,避免了未考虑云平台性能波动造成的检查点设置不合理的问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于云平台性能的检查点间隔设置方法的流程图;
图2是根据本发明另一实施例的基于云平台性能的检查点间隔设置方法的流程图;
图3是根据本发明实施例的基于云平台性能的检查点间隔设置装置的结构框图;
图4是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图5是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
正如在背景技术中所述,由于云平台中需要进行要大规模的资源计算,使得容错技术被广泛的研究和部署。而检查点技术作为容错应用最为广泛的解决方案也一直被关注和研究,目前在云平台中设置检查点间隔时,只考虑了重开开销对任务执行时间的影响。然而,在云平台运行过程中,会不可避免的出现性能波动,这些波动中可能会导致检查点间隔的设置不合理。
基于此,本发明实施例提供一种基于云平台性能的检查点间隔设置方法,如图1所示,该检查点间隔设置方法包括如下步骤:
步骤S101:根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;具体地,在云平台运行过程中,性能的波动主要涉及平台的带宽和IO数值等。因此,该云平台的性能数据可以包括采用云平台上的监测工具获取的云平台的带宽和IO数值。
在一实施例中,待执行任务的处理数据可以包括待执行任务接收、发送、顺序读写以及随机读写的数据。待执行任务可以包括工作流上的每个待执行任务。同时,在计算待执行任务的执行时间时,可以采用公式(1)进行计算,
Te=Tcpu+Di/Bi+Do/Bo+Dseq/Sseq+Dran/Sran 公式(1)
其中,Di、Do、Dseq、Dran分别是待执行任务接收、发送、顺序读写以及随机读写的数据,Bi、Bo、Sseq、Sran则是平台的下载/上传带宽,顺序/随机读写IO速度,Tcpu指的是待执行任务在cpu上的运行时间。具体地,该待执行任务的待执行时间是该任务在云平台环境下不发生错误时的执行时间。
步骤S102:根据预设概率分布和待执行任务的执行时间计算得到错误在云平台上发生的多个时间间隔样本;具体地,云平台上错误发生的平均时间间隔与待执行任务的执行时间有关,通常满足一定的概率分布,即泊松分布。经过多次计算可以得到错误发生的平均时间间隔与待执行任务的执行时间的拟合关系式,该拟合关系式可以用公式(2)表示,
f(x)=7.64467674763269e-06x2+0.256464834929695x+24.7331482086212 公式(2)
其中,x表示待执行任务的执行时间,即采用公式(1)计算得到的Te,f(x)表示错误发生的平均时间间隔,即时间间隔样本的初始值。
当计算得到时间间隔样本的初始值后,可以采用满足概率分布的随机数生成器生成更多的时间间隔样本,从而得到多个时间间隔样本。
步骤S103:根据多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本。具体地,在计算待执行样本的预测时间时,可以用公式(3)进行计算。
Figure BDA0002520523290000071
其中,Ck是检查点的开销,V是检查点的时间间隔,F是错误发生的平均时间间隔,Cr是产生错误时从检查点的时间点重新开始的时间开销。具体地,检查点的开销和产生错误时从检查点的时间点重新开始的时间开销可以直接得到,错误发生的平均时间间隔即多个时间间隔样本。
可选地,在具体计算待执行样本的预测时间时,可以根据检查点间隔的取值范围确定多个预设检查点间隔。对于每个预设检查点间隔,可以根据公式(3)分别代入步骤S102计算得到多个时间间隔样本,根据每个时间间隔样本可以计算得到一个预测时间。因此,由每个预设检查点间隔可以得到多个对应的预测时间样本。
步骤S104:根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔。具体地,由于每个预设检查点间隔对应多个预测时间样本,可以针对多个预测时间样本进行综合考虑,最终得到预测时间最小时的检查点间隔。可以根据该检查点间隔对云平台的检查点进行设置。
本发明实施例提供的基于云平台性能的检查点间隔设置方法,在任务执行时间计算时综合考虑了云平台的性能波动和任务执行的相应情况,同时在根据任务执行时间确定检查点间隔时,基于错误产生的规律以及云平台性能的动态性计算得到了大量预测时间样本,并由大量预测时间样本确定了预测时间最小时的检查点间隔。因此,本发明实施例提供的基于云平台性能的检查点间隔设置方法,可以帮助工作流有效地减少因错误产生造成的额外时间开销,使工作流执行效率更高,避免了未考虑云平台性能波动造成的检查点设置不合理的问题。
在一实施例中,为了更快的从多个预测时间样本中确定预测时间样本最小时的检查点间隔,可以对多个预测时间样本进行相应处理。即如图2所示,步骤S104根据每个预设检查点间隔对应的多个预测时间样本确定预测时间样本最小时的检查点间隔,包括如下步骤:
步骤201:根据直方图的预设区间数量计算每个预设检查点间隔对应的多个预测时间样本的区间概率;具体地,由每个预设检查点间隔都可以产生多个预测时间样本,因此,为了便于计算,可以将每个检查点间隔对应的多个预测时间样本根据预设的区间数量转换为分布形式。
在一实施例中,将每个检查点间隔对应的多个预测时间样本转换为分布形式时,以一个检查点间隔对应的多个预测时间样本为例,可以将该多个预测时间样本进行排序,得到预测时间样本中的最大值和最小值,根据公式
Figure BDA0002520523290000081
计算得到区间的固定长度间隔。根据固定长度间隔对最小值不断累加,即可获得每个区间的上下界,例如,固定长度间隔为m,则第一个区间的上下界为最小值和最小值+m,第二区间的上下界为最小值+m和最小值+2m,以此类推,可以得到分布形式中每个区间的上下界。因此,根据该过程,每个检查点间隔都可以得到一个对应的分布,由此,转换的分布形式的数量和采用的检查点间隔的数量相对应。
在一实施例中,在计算区间概率时,可以将一个检查点间隔对应的多个预测时间样本根据区间的上下界分别放入对应上下界的每个区间中,然后根据公式
Figure BDA0002520523290000082
可以计算得到对应的区间概率。
步骤202:根据区间概率确定预测时间最小时的检查点间隔。具体地,在确定检查点间隔时,可以采用每两个检查点间隔对应分布的概率值比较的方式。例如,采用x和y表示两个检查点间隔对应的分布,在对其进行比较时,可以采用公式(4),
Figure BDA0002520523290000091
具体地,对于公式(4)的含义可以表示为,对大于y分布中某区间的x分布中每个区间的概率进行累计,便可以得到当y分布在这个区间时,x分布取得大于y的区间的概率。将y分布在这个区间的概率*x分布获得的累积概率,可得到y分布取该区间时x分布大于该区间的总概率。将y上的区间遍历一遍,可以获得x分布大于y分布的总概率即P(X>Y)。当P(X>Y)的值小于0.5时,便可认为在当前云平台性能的动态性以及当前错误产生的概率分布下,使用x分布的检查点间隔值所产生的执行时间比使用y分布产生的执行时间短的概率要大。即,此时可以选择x分布对应的检查点间隔。
在一实施例中,由于检查点间隔的取值范围较大,因此产生的检查点间隔的取值集合也较大,如果对任意两个检查点间隔对应的分布进行比较,则可能会造成较大的工作量。因此,可以将检查点间隔集合中的多个检查点间隔进行由小到大的排序,从检查点间隔最小的开始,依次对两个检查点间隔对应的分布进行比较,从而确定预测时间最小时的检查点间隔。例如,检查点间隔的集合为{c|c∈[0,t],c∈N},其中t是待执行任务的执行时间,为了保证做出决策的效率,可以将c进行递增,直至到第一个c=i和c=i-1的概率值大于0.5时,说明在c=i-1的位置可以取得一个最优值,此时,可以将c=i-1作为检查点间隔。
在一实施例中,可以对现有的工作流Montage,Cybershake,q1,q9在云平台上采用该基于云平台性能的检查点间隔设置方法进行测试,结果表明,与现有的检查点设置方法进行比对,所得出的检查点间隔可以帮助减少最多38%的执行时间。
本发明实施例还提供一种基于云平台性能的检查点间隔设置装置,如图3所示,该检查点间隔设置装置包括:
执行时间计算模块1,用于根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;详细内容参见上述方法实施例中步骤S101的相关描述。
时间间隔样本计算模块2,用于根据预设概率分布计算得到错误在云平台上发生的多个时间间隔样本;详细内容参见上述方法实施例中步骤S102的相关描述。
预测时间样本计算模块3,用于根据多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本;详细内容参见上述方法实施例中步骤S103的相关描述。
检查点间隔确定模块4,用于根据每个预设检查点间隔对应的多个预测时间样本确定预测时间样本最小时的检查点间隔。详细内容参见上述方法实施例中步骤S104的相关描述。
本发明实施例提供的基于云平台性能的检查点间隔设置装置的功能描述详细参见上述实施例中基于云平台性能的检查点间隔设置方法描述。
本发明实施例提供的基于云平台性能的检查点间隔设置装置,在任务执行时间计算时综合考虑了云平台的性能波动和任务执行的相应情况,同时在根据任务执行时间确定检查点间隔时,基于错误产生的规律以及云平台性能的动态性计算得到了大量预测时间样本,并由大量预测时间样本确定了预测时间最小时的检查点间隔。因此,本发明实施例提供的基于云平台性能的检查点间隔设置装置,可以帮助工作流有效地减少因错误产生造成的额外时间开销,使工作流执行效率更高,避免了未考虑云平台性能波动造成的检查点设置不合理的问题。
本发明实施例还提供一种存储介质,如图4所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中基于云平台性能的检查点间隔设置方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于云平台性能的检查点间隔设置方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-2所示实施例中的基于云平台性能的检查点间隔设置方法。
上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种基于云平台性能的检查点间隔设置方法,其特征在于,包括:
根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;
根据预设概率分布和待执行任务的执行时间计算得到错误在所述云平台上发生的多个时间间隔样本;
根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本;
根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔。
2.根据权利要求1所述的基于云平台性能的检查点间隔设置方法,其特征在于,
所述云平台的性能数据包括云平台的带宽和云平台的IO数据;
所述待执行任务的处理数据包括待执行任务接收、发送、顺序读写以及随机读写的数据。
3.根据权利要求1所述的基于云平台性能的检查点间隔设置方法,其特征在于,根据预设概率分布和待执行任务的执行时间计算得到错误在所述云平台上发生的多个时间间隔样本,包括:
根据泊松分布和待执行任务的执行时间计算得到时间间隔样本的初始值;
根据时间间隔样本的初始值生成多个时间间隔样本。
4.根据权利要求1所述的基于云平台性能的检查点间隔设置方法,其特征在于,根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本,包括:
根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、预设检查点间隔以及错误发生时重新开始的开销计算得到预设检查点间隔对应的多个预测时间样本;
根据检查点间隔取值范围改变预设检查点间隔的值,计算得到不同检查点间隔对应的多个预测时间样本;
根据预设检查点间隔对应的多个预测时间样本和不同检查点间隔对应的多个预测时间样本计算得到每个预设检查点间隔对应的多个预测时间样本。
5.根据权利要求1所述的基于云平台性能的检查点间隔设置方法,其特征在于,根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔,包括:
根据直方图的预设区间数量计算每个预设检查点间隔对应的多个预测时间样本的区间概率;
根据区间概率确定预测时间最小时的检查点间隔。
6.根据权利要求5所述的基于云平台性能的检查点间隔设置方法,其特征在于,根据直方图的预设区间数量计算每个预设检查点间隔对应的多个预测时间样本的区间概率,包括:
根据直方图的预设区间数量将每个预设检查点间隔对应的多个预测时间样本转化为分布形式;
根据每个预设检查点间隔对应的分布形式计算得到区间概率。
7.根据权利要求6所述的基于云平台性能的检查点间隔设置方法,其特征在于,根据区间概率确定预测时间最小时的检查点间隔,包括:
根据预设检查点间隔的大小和区间概率计算两个分布形式的概率值;
根据概率值确定预测时间最小时的检查点间隔。
8.一种基于云平台性能的检查点间隔设置装置,其特征在于,包括:
执行时间计算模块,用于根据云平台的性能数据和待执行任务的处理数据,计算得到待执行任务的执行时间;
时间间隔样本计算模块,用于根据预设概率分布计算得到错误在所述云平台上发生的多个时间间隔样本;
预测时间样本计算模块,用于根据所述多个时间间隔样本、待执行任务的执行时间、检查点的开销、多个预设检查点间隔以及错误发生时重新开始的开销计算得到每个预设检查点间隔对应的多个预测时间样本;
检查点间隔确定模块,用于根据每个预设检查点间隔对应的多个预测时间样本确定预测时间最小时的检查点间隔。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7任一项所述的基于云平台性能的检查点间隔设置方法。
10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的基于云平台性能的检查点间隔设置方法。
CN202010493627.0A 2020-06-02 2020-06-02 一种基于云平台性能的检查点间隔设置方法及装置 Active CN111682981B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010493627.0A CN111682981B (zh) 2020-06-02 2020-06-02 一种基于云平台性能的检查点间隔设置方法及装置
PCT/CN2021/076795 WO2021244066A1 (zh) 2020-06-02 2021-02-19 一种基于云平台性能的检查点间隔设置方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010493627.0A CN111682981B (zh) 2020-06-02 2020-06-02 一种基于云平台性能的检查点间隔设置方法及装置

Publications (2)

Publication Number Publication Date
CN111682981A true CN111682981A (zh) 2020-09-18
CN111682981B CN111682981B (zh) 2021-09-14

Family

ID=72453183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010493627.0A Active CN111682981B (zh) 2020-06-02 2020-06-02 一种基于云平台性能的检查点间隔设置方法及装置

Country Status (2)

Country Link
CN (1) CN111682981B (zh)
WO (1) WO2021244066A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131034A (zh) * 2020-09-22 2020-12-25 东南大学 一种基于检测器位置的检查点软错误恢复方法
WO2021244066A1 (zh) * 2020-06-02 2021-12-09 深圳大学 一种基于云平台性能的检查点间隔设置方法及装置
CN116032830A (zh) * 2023-03-24 2023-04-28 微网优联科技(成都)有限公司 一种网络交换机交互的方法、网络交换机及网络系统
CN116361060A (zh) * 2023-05-25 2023-06-30 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331347A (zh) * 2014-11-25 2015-02-04 中国人民解放军国防科学技术大学 面向可变错误率的检查点间隔实时确定方法
US20150205671A1 (en) * 2013-12-30 2015-07-23 Thomas D. Bissett Dynamic Checkpointing Systems and Methods
US20160306705A1 (en) * 2014-06-12 2016-10-20 International Business Machines Corporation Checkpoint triggering in a computer system
CN106383995A (zh) * 2016-09-05 2017-02-08 南京臻融软件科技有限公司 一种基于节点失效关联性的检查点放置方法
CN111124720A (zh) * 2019-12-26 2020-05-08 江南大学 一种自适应的检查点间隔动态设置方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197982B (zh) * 2013-03-28 2016-03-09 哈尔滨工程大学 一种任务局部最优检查点间隔搜索方法
CN111682981B (zh) * 2020-06-02 2021-09-14 深圳大学 一种基于云平台性能的检查点间隔设置方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150205671A1 (en) * 2013-12-30 2015-07-23 Thomas D. Bissett Dynamic Checkpointing Systems and Methods
US20160306705A1 (en) * 2014-06-12 2016-10-20 International Business Machines Corporation Checkpoint triggering in a computer system
US20180329779A1 (en) * 2014-06-12 2018-11-15 International Business Machines Corporation Checkpoint triggering in a computer system
CN104331347A (zh) * 2014-11-25 2015-02-04 中国人民解放军国防科学技术大学 面向可变错误率的检查点间隔实时确定方法
CN106383995A (zh) * 2016-09-05 2017-02-08 南京臻融软件科技有限公司 一种基于节点失效关联性的检查点放置方法
CN111124720A (zh) * 2019-12-26 2020-05-08 江南大学 一种自适应的检查点间隔动态设置方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021244066A1 (zh) * 2020-06-02 2021-12-09 深圳大学 一种基于云平台性能的检查点间隔设置方法及装置
CN112131034A (zh) * 2020-09-22 2020-12-25 东南大学 一种基于检测器位置的检查点软错误恢复方法
CN112131034B (zh) * 2020-09-22 2023-07-25 东南大学 一种基于检测器位置的检查点软错误恢复方法
CN116032830A (zh) * 2023-03-24 2023-04-28 微网优联科技(成都)有限公司 一种网络交换机交互的方法、网络交换机及网络系统
CN116361060A (zh) * 2023-05-25 2023-06-30 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统
CN116361060B (zh) * 2023-05-25 2023-09-15 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统

Also Published As

Publication number Publication date
WO2021244066A1 (zh) 2021-12-09
WO2021244066A9 (zh) 2022-02-10
CN111682981B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN111682981B (zh) 一种基于云平台性能的检查点间隔设置方法及装置
US10884837B2 (en) Predicting, diagnosing, and recovering from application failures based on resource access patterns
US10585753B2 (en) Checkpoint triggering in a computer system
US11368506B2 (en) Fault handling for computer nodes in stream computing system
Liu Cutting {MapReduce} Cost with Spot Market
CN107016480B (zh) 任务调度方法、装置及系统
WO2017096968A1 (zh) 日志上传方法及装置
CN103167004A (zh) 云平台主机系统故障修复方法及云平台前端控制服务器
US9400731B1 (en) Forecasting server behavior
RU2653254C1 (ru) Способ, узел и система управления данными для кластера базы данных
US20170149864A1 (en) Distributed applications management with dependent resilient distributed services
WO2021184724A1 (zh) 一种自动调整定时备份作业发起时间的方法、装置、设备及介质
US10082969B2 (en) System and method for managing a storage system
WO2023165512A1 (zh) 一种故障文件保存方法及相关装置
CN114884840A (zh) 应用健康状态检查方法及电子设备
CN113448758A (zh) 处理任务的方法、装置及终端设备
CN114327973A (zh) 一种区块链故障处理方法、装置及设备
Vijayalakshmi et al. Automatic healing of services in cloud computing environment
CN110908792A (zh) 一种数据处理方法及装置
CN110795215A (zh) 一种数据处理方法、计算机设备、存储介质
US8938639B1 (en) Systems and methods for performing fast failovers
US11662906B2 (en) Method, electronic device, and computer program product for upgrading storage system
CN117544487A (zh) 异常设备确定方法、装置、电子设备以及存储介质
US20120198285A1 (en) Dynamic data store for failed jobs in a systems complex
CN115202825A (zh) 一种大规模集群请求处理方法、装置以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant