CN112445635A - 数据驱动的自适应检查点优化方法 - Google Patents

数据驱动的自适应检查点优化方法 Download PDF

Info

Publication number
CN112445635A
CN112445635A CN201910831840.5A CN201910831840A CN112445635A CN 112445635 A CN112445635 A CN 112445635A CN 201910831840 A CN201910831840 A CN 201910831840A CN 112445635 A CN112445635 A CN 112445635A
Authority
CN
China
Prior art keywords
fault
time
checkpoint
failure
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910831840.5A
Other languages
English (en)
Inventor
刘睿涛
宋长明
钱宇
龚道永
刘沙
李伟东
张宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201910831840.5A priority Critical patent/CN112445635A/zh
Publication of CN112445635A publication Critical patent/CN112445635A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明公开一种数据驱动的自适应检查点优化方法,包括以下步骤:以故障历史库中的故障数据作为样本,采用最大似然估计法,计算CPU节点失效分布;根据CPU节点失效分布,建立应用失效分布模型;根据失效分布模型,计算获得最优化检查点间隔;以最优化检查点间隔指导系统进行检查点;当有新故障发生时,更新相关的CPU节点失效分布;跳转至步骤二。本发明通过真实故障数据及自适应分布模型优化算法,动态更新作业级失效分布模型及其参数,不断优化并设定作业检查点间隔,自适应动态调节检查点间隔,实现对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。

Description

数据驱动的自适应检查点优化方法
技术领域
本发明涉及一种数据驱动的自适应检查点优化方法,属于计算机技术领域。
背景技术
在任何采用检查点或重启技术的容错系统中,都需要在检查点开销与计算开销之间取得平衡,以期尽量实现最低开销下的容错能力。过于频繁或者过长的检查点间隔都会导致系统容错开销和丢失的计算量增大,一个最优的检查点策略才能尽量降低检查点开销,提高容错效率。
目前检查点系统采用了固定间隔的检查点机制,时间间隔一般通过人工指定的经验值进行设定。该方法没有与真实的系统可靠性相结合,过于频繁或者过于稀疏的检查点都会造成不必要的检查点开销或丢失的计算量增大。如何在保证尽量少丢失计算量的情况下,降低检查点开销,提高容错效率,成为本领域技术人员努力的方向。
发明内容
本发明的目的是提供一种数据驱动的自适应检查点优化方法,该数据驱动的自适应检查点优化方法实现了对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。
为达到上述目的,本发明采用的技术方案是:一种数据驱动的自适应检查点优化方法,包括以下步骤:
S1、以故障历史库中的严重故障数据作为样本,以CPU编号为索引,分别将每个CPU节点的故障样本元素依据故障发生时间分量从小到大顺序排列,以每个CPU节点的相邻故障样本元素的故障发生时间分量之差的绝对值作为每个CPU节点的失效间隔时间样本,以该失效间隔时间样本作为输入数据,采用最大似然估计法,计算Weibull分布参数,获得故障发生的时间区间内的每个CPU节点的失效间隔时间分布模型,Weibull分布的密度函数为:
Figure BDA0002190971550000011
其中,m为形状参数,η为特征寿命;
S2、根据每个CPU节点的失效间隔时间分布模型,建立并行应用的失效分布模型,具体步骤如下:以ftimei表示CPU节点i上次发生失效的时间,Fi(t)表示CPU节点i在t时刻之前发生失效的概率,则
Figure BDA0002190971550000012
m为形状参数,η为特征寿命,以N表示并行应用的应用规模,Fnodes(N,t)表示个数为N的CPU节点集合在t时刻之前发生失效的概率,Fjob(N,t)表示规模为N的并行应用在t时刻之前发生失效的概率,则
Figure BDA0002190971550000021
S3、根据S2中建立的并行应用的失效分布模型,计算获得最优化检查点间隔,具体为:根据应用级失效分布函数Fjob(N,t),获得检查点容错开销Tw的期望值(即平均检查点容错开销)
Figure BDA0002190971550000022
其中,Tw是检查点容错的开销,包括用于检查点的时间和故障发生时丢失的计算时间,
Figure BDA0002190971550000023
是并行应用的失效概率密度函数,当E(Tw)达到最小时,可以认为应用的检查点容错开销最小,在应用规模确定后,所用CPU节点个数N和检查点保留开销Ts均为常量,目标是寻找合适的检查点间隔时间Tc使得E(Tw)达到最小;
S4、以最优化检查点间隔指导系统进行检查点,具体为:监测并行应用的运行时间,每当当前时刻距离并行应用启动时间或上次检查点时刻的时间间隔达到最优化检查点间隔时,触发并行应用进行一次检查点操作,之后应用继续运行;
S5、当有新故障发生时,更新发生故障的CPU节点失效间隔时间分布,并依据S2中的并行应用失效分布模型,更新受到影响的并行应用的失效时间分布函数,采用最大似然估计法,更新CPU节点失效间隔时间分布的参数值;
S6、跳转至S2。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明数据驱动的自适应检查点优化方法,其通过真实故障数据的分析,获取应用运行环境的可靠性水平,为检查点优化提供了真实依据,通过真实故障数据及自适应分布模型优化算法,动态更新作业级失效分布模型及其参数,不断优化并设定作业检查点间隔,自适应动态调节检查点间隔,实现对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。
附图说明
附图1为作业的检查点时序模型示意图;
附图2为本发明数据驱动的自适应检查点优化方法流程示意图;
附图3为本发明数据驱动的自适应检查点优化方法流程图。
具体实施方式
实施例:一种数据驱动的自适应检查点优化方法,包括以下步骤:
S1、以故障历史库中的严重故障数据作为样本,以CPU编号为索引,分别将每个CPU节点的故障样本元素依据故障发生时间分量从小到大顺序排列,以每个CPU节点的相邻故障样本元素的故障发生时间分量之差的绝对值作为每个CPU节点的失效间隔时间样本,以该失效间隔时间样本作为输入数据,采用最大似然估计法,计算Weibull分布参数,获得故障发生的时间区间内的每个CPU节点的失效间隔时间分布模型,Weibull分布的密度函数为:
Figure BDA0002190971550000031
其中,m为形状参数,η为特征寿命;
S2、根据每个CPU节点的失效间隔时间分布模型,建立并行应用的失效分布模型,具体步骤如下:以ftimei表示CPU节点i上次发生失效的时间,Fi(t)表示CPU节点i在t时刻之前发生失效的概率,则
Figure BDA0002190971550000032
m为形状参数,η为特征寿命,以N表示并行应用的应用规模,Fnodes(N,t)表示个数为N的CPU节点集合在t时刻之前发生失效的概率,Fjob(N,t)表示规模为N的并行应用在t时刻之前发生失效的概率,则
Figure BDA0002190971550000033
S3、根据S2中建立的并行应用的失效分布模型,计算获得最优化检查点间隔,具体为:根据应用级失效分布函数Fjob(N,t),获得检查点容错开销Tw的期望值(即平均检查点容错开销)
Figure BDA0002190971550000034
其中,Tw是检查点容错的开销,包括用于检查点的时间和故障发生时丢失的计算时间,
Figure BDA0002190971550000035
是并行应用的失效概率密度函数,当E(Tw)达到最小时,可以认为应用的检查点容错开销最小,在应用规模确定后,所用CPU节点个数N和检查点保留开销Ts均为常量,目标是寻找合适的检查点间隔时间Tc使得E(Tw)达到最小;
S4、以最优化检查点间隔指导系统进行检查点,具体为:监测并行应用的运行时间,每当当前时刻距离并行应用启动时间或上次检查点时刻的时间间隔达到最优化检查点间隔时,触发并行应用进行一次检查点操作,之后应用继续运行;
S5、当有新故障发生时,更新发生故障的CPU节点失效间隔时间分布,并依据S2中的并行应用失效分布模型,更新受到影响的并行应用的失效时间分布函数,采用最大似然估计法,更新CPU节点失效间隔时间分布的参数值;
S6、跳转至S2。
实施例进一步解释如下:
一般地,检查点相关的参数包括:检查点保留开销Ts、检查点间隔时间Tc(或计算时间)、检查点恢复开销Tr、因故障损失的计算时间Tl(丢失的计算时间)等,在任何的容错系统中,都希望容错开销保持为最小。
典型的检查点时序模型如图1:作业开始执行(starttime),并运行一段时间(持续Tc),之后进行一次检查点保留(开销Ts),之后循环往复执行上述过程。当作业相关的软硬件资源发生失效(或严重故障)时(丢失计算量Tl),执行检查点恢复(开销Tr),并从检查点处继续开始执行,依次类推。
一般地,在大规模并行系统中,作业恢复时间相比计算时间和检查点时间开销非常小,在检查点优化分析中,可以忽略不计。当作业的故障发生时间T在[starttime+n(Tc+Ts),starttime+(n+1)(Tc+Ts)],n=0,1,…,之间时,没有用于计算的时间Tw=T-starttime-nTc。Tw包括了用于检查点的时间和故障发生时丢失的计算时间,表示检查点容错的开销。
由于系统运行过程中的动态可靠性,系统对应的失效分布模型或其模型参数可能会动态变化,需要根据实际的可靠性数据,动态优化检查点策略。
根据作业级失效分布函数,可以得到Tw的期望值(即平均检查点容错开销):
Figure BDA0002190971550000041
当E(Tw)达到最小时,可以认为作业的检查点容错开销最小。在作业规模确定后,N和Ts作为不变量,目标是寻找合适的Tc使得E(Tw)达到最小。
在检查点间隔优化模型中,注意到作业的失效概率密度函数f(t,N)参数中的ftimei,在作业启动后未发生故障的时间段内,可以用初始的参数值ftimei来计算Tc的最优化解。但作业发生了失效并重新启动运行后,发生故障的计算单元的ftimei就要相应地进行修正。因此,基于检查点时序模型的优化策略,在作业发生失效之前,存在一个最优检查点间隔;当作业发生失效后,需要更新作业失效分布中故障计算单元的失效时间参数ftimei,并重新计算最优检查点时间间隔。
此外,从实际的系统故障数据可以发现,随着系统负载的变化和时间的推移,计算单元的失效分布模型参数(mi和ηi)也随之变化。计算单元失效分布参数的变化,说明作业的失效分布是一个动态变化的模型,随着系统实际运行进行动态变化。
综上,检查点间隔优化是一个动态更新过程,该过程具有自适应特征。
计算单元故障发生时间(ftimei)的调整,可以用系统记录的严重故障发生时间直接替换即可。而失效分布参数(mi和ηi)的调整,采用基于P值的自适应优化方法进行动态调节,即通过对严重故障发生时间的采样,利用最大似然估计法得到计算单元的分布参数。在出现了新的故障后,视情动态调整分布参数。采用kolmogov-smirnov检验来评估是否需要重新调整分布参数。如果p-value表明基于原来参数的分布与最新故障采样符合度达到要求,则无需调整分布参数。否则,采用最大似然估计重新计算分布参数。
因此,数据驱动的自适应检查点优化方法主要流程为:①通过故障历史库,初次计算CPU节点失效分布;②根据CPU节点失效分布,建立应用失效分布模型;③计算最优化检查点间隔;④以最优化检查点间隔指导系统进行检查点;⑤当有新故障发生时,更新相关的CPU节点失效分布;⑥跳转至第二步,依次循环。
采用上述数据驱动的自适应检查点优化方法时,其通过真实故障数据的分析,获取应用运行环境的可靠性水平,为检查点优化提供了真实依据,通过真实故障数据及自适应分布模型优化算法,动态更新作业级失效分布模型及其参数,不断优化并设定作业检查点间隔,自适应动态调节检查点间隔,实现对检查点容错模型的优化完善,尽量使检查点达到最优化,从而降低基于检查点的容错开销,极大提升系统可用性水平。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种数据驱动的自适应检查点优化方法,其特征在于:包括以下步骤:
S1、以故障历史库中的严重故障数据作为样本,以CPU编号为索引,分别将每个CPU节点的故障样本元素依据故障发生时间分量从小到大顺序排列,以每个CPU节点的相邻故障样本元素的故障发生时间分量之差的绝对值作为每个CPU节点的失效间隔时间样本,以该失效间隔时间样本作为输入数据,采用最大似然估计法,计算Weibull分布参数,获得故障发生的时间区间内的每个CPU节点的失效间隔时间分布模型,Weibull分布的密度函数为:
Figure FDA0002190971540000011
其中,m为形状参数,η为特征寿命;
S2、根据每个CPU节点的失效间隔时间分布模型,建立并行应用的失效分布模型,具体步骤如下:以ftimei表示CPU节点i上次发生失效的时间,Fi(t)表示CPU节点i在t时刻之前发生失效的概率,则
Figure FDA0002190971540000012
m为形状参数,η为特征寿命,以N表示并行应用的应用规模,Fnodes(N,t)表示个数为N的CPU节点集合在t时刻之前发生失效的概率,Fjob(N,t)表示规模为N的并行应用在t时刻之前发生失效的概率,则
Figure FDA0002190971540000013
S3、根据S2中建立的并行应用的失效分布模型,计算获得最优化检查点间隔,具体为:根据应用级失效分布函数Fjob(N,t),获得检查点容错开销Tw的期望值(即平均检查点容错开销)
Figure FDA0002190971540000014
其中,Tw是检查点容错的开销,包括用于检查点的时间和故障发生时丢失的计算时间,
Figure FDA0002190971540000015
是并行应用的失效概率密度函数,当E(Tw)达到最小时,可以认为应用的检查点容错开销最小,在应用规模确定后,所用CPU节点个数N和检查点保留开销Ts均为常量,目标是寻找合适的检查点间隔时间Tc使得E(Tw)达到最小;
S4、以最优化检查点间隔指导系统进行检查点,具体为:监测并行应用的运行时间,每当当前时刻距离并行应用启动时间或上次检查点时刻的时间间隔达到最优化检查点间隔时,触发并行应用进行一次检查点操作,之后应用继续运行;
S5、当有新故障发生时,更新发生故障的CPU节点失效间隔时间分布,并依据S2中的并行应用失效分布模型,更新受到影响的并行应用的失效时间分布函数,采用最大似然估计法,更新CPU节点失效间隔时间分布的参数值;
S6、跳转至S2。
CN201910831840.5A 2019-09-04 2019-09-04 数据驱动的自适应检查点优化方法 Withdrawn CN112445635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910831840.5A CN112445635A (zh) 2019-09-04 2019-09-04 数据驱动的自适应检查点优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910831840.5A CN112445635A (zh) 2019-09-04 2019-09-04 数据驱动的自适应检查点优化方法

Publications (1)

Publication Number Publication Date
CN112445635A true CN112445635A (zh) 2021-03-05

Family

ID=74734513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910831840.5A Withdrawn CN112445635A (zh) 2019-09-04 2019-09-04 数据驱动的自适应检查点优化方法

Country Status (1)

Country Link
CN (1) CN112445635A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293296A (zh) * 2022-09-28 2022-11-04 中国人民解放军海军工程大学 一种机械设备故障定位优化方法和系统
CN116361060A (zh) * 2023-05-25 2023-06-30 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统
CN116542036A (zh) * 2023-04-26 2023-08-04 阳江核电有限公司 核电厂在役检查实施间隔的计算方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293296A (zh) * 2022-09-28 2022-11-04 中国人民解放军海军工程大学 一种机械设备故障定位优化方法和系统
CN115293296B (zh) * 2022-09-28 2022-12-20 中国人民解放军海军工程大学 一种机械设备故障定位优化方法和系统
CN116542036A (zh) * 2023-04-26 2023-08-04 阳江核电有限公司 核电厂在役检查实施间隔的计算方法和装置
CN116542036B (zh) * 2023-04-26 2024-03-22 阳江核电有限公司 核电厂在役检查实施间隔的计算方法和装置
CN116361060A (zh) * 2023-05-25 2023-06-30 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统
CN116361060B (zh) * 2023-05-25 2023-09-15 中国地质大学(北京) 一种多特征感知的流计算系统容错方法和系统

Similar Documents

Publication Publication Date Title
CN112445635A (zh) 数据驱动的自适应检查点优化方法
US11556438B2 (en) Proactive cluster compute node migration at next checkpoint of cluster upon predicted node failure
CN110109733B (zh) 面向不同老化场景的虚拟机工作队列和冗余队列更新方法
CN110046048B (zh) 一种基于工作量自适应快速重分配的负载均衡方法
JP2008532170A (ja) コンピュータqcモジュールテストモニタ
CN111562977A (zh) 神经网络模型拆分方法、装置、存储介质和计算机系统
CN115829297A (zh) 装配式建筑的工作包生成方法、装置、终端及存储介质
CN111274111A (zh) 一种用于微服务老化的预测与抗衰方法
Dohi et al. Dynamic software availability model with rejuvenation
CN111444039A (zh) 缓存数据回退方法以及缓存数据回退装置
CN112257880A (zh) 一种k/n负载均担系统的维修决策方法及系统
CN115810383A (zh) 基于read retry的拉偏电压选择实现方法和装置
CN115101136A (zh) 一种大型铝电解槽全局阳极效应预测方法
CN114448843A (zh) 一种自适应的心跳检测方法及装置、电子设备
CN113742125A (zh) 一种轻量级高通量计算模式及其容错方法
CN110740168A (zh) 云中多租户服务器的自适应方法
CN113032033A (zh) 一种大数据处理平台配置的自动优化方法
CN117033160B (zh) 一种数据采集设备故障时间的预测方法
US20150212570A1 (en) Computer system and control method for computer system
Nguyen et al. Prioritizing automated test cases of Web applications using reinforcement learning: an enhancement
CN115037813B (zh) 一种区块链数据解析方法、装置及电子设备
JP2019179486A5 (zh)
CN117236923B (zh) 一种多态系统的双运行策略下的运维策略优化方法
US20240372777A1 (en) Self-optimizing networks
US20220269227A1 (en) Computer-readable recording medium recording control program, information processing apparatus and control method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210305

WW01 Invention patent application withdrawn after publication