CN105204961B - 一种云数据中心主机检查点设置的方法、装置和系统 - Google Patents

一种云数据中心主机检查点设置的方法、装置和系统 Download PDF

Info

Publication number
CN105204961B
CN105204961B CN201510602543.5A CN201510602543A CN105204961B CN 105204961 B CN105204961 B CN 105204961B CN 201510602543 A CN201510602543 A CN 201510602543A CN 105204961 B CN105204961 B CN 105204961B
Authority
CN
China
Prior art keywords
host
data center
time
assessment unit
jcd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510602543.5A
Other languages
English (en)
Other versions
CN105204961A (zh
Inventor
李蔚凌
夏云霓
郭坤银
张余
任灏
王璐玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quzhou Haiyi Technology Co ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201510602543.5A priority Critical patent/CN105204961B/zh
Publication of CN105204961A publication Critical patent/CN105204961A/zh
Application granted granted Critical
Publication of CN105204961B publication Critical patent/CN105204961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种云数据中心主机检查点设置的方法、装置和系统,属于云计算系统控制领域。本发明通过实时跟踪数据中心中各个主机的运行状态并对其可靠性变化趋势进行预判,动态的设置各个数据中心进入下一次检查点的时机,在兼顾系统可靠性的同时,最大化的减少了不必要的系统开销。

Description

一种云数据中心主机检查点设置的方法、装置和系统
技术领域
本发明属于云计算系统控制领域,特别是涉及一种云数据中心主机检查点设置的方法、装置和系统。
背景技术
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。相对于传统的软件和计算形态,云计算具有松散耦合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现今的电子商务、柔性制造、移动互联网等应用。
云数据中心是指由多个异构的、由网络连接在一起的主机所组成的用于承载提供在线云服务的企业级应用的分布式计算系统。在云数据中心中,将大量的主机进行集中统一管理,可以保障主机运行所需要的稳定电源环境,适宜的温湿度控制以及网络带宽条件。
同其他软硬件系统一样,长时间的任务执行会导致云数据中心中的主机的可靠性和性能下降和劣化。由于当今的云计算系统多运用于大规模科学计算、实时金融、在线交易、流媒体多播等高负载和高复杂度的应用,其主机时常处于超负荷运行的状态,可靠性和性能下降和劣化的问题更加突出。如果系统维护策略稍有不慎,就极易出现部分主机突发性崩溃的情况,并有可能进一步形成系统崩溃,造成重大损失。
热备份技术,是一种应对可靠性和性能劣化的有效技术。热备份是指在服务器主机正常工作的情况下,将系统中应用程序运行状态记录成备份文件并保存下来。这个技术的一个关键问题,就是如何设置热备份检查的时间点(简称,检查点)。传统的检查点设置策略,一般是采用以固定周期对系统中各个主机设置热备份检查点,当某个服务器主机出现故障并重新运行时,可以利用备份文件恢复至检查点建立时刻的状态,以尽可能的还原故障出现前的运行场景和数据。基于固定周期的策略,容易导致“检查过密”(在相邻两次检查点之间,主机的可靠性表现平稳,并没有出现显著的劣化,但是系统却进行了两次热备份操作,增加了系统开销,从而造成了资源浪费)和“检查过疏”(在高负载运行状态下,主机时常出现短时间内的突发可靠性骤降的情况,容易导致主机还未到达下一个检查点时间便提前崩溃的情况)两种不良结果。
导致上述后果的主要原因是:由于采用静态的策略选择检查点时机,忽视了主机负载、资源占用率、可用性和可靠性的动态变化趋势,因此可能选择执行时间已经很长但是仍然处于较健康状态的主机进行检查和热备份,或者是选择执行时间不长但是故障率较高的主机继续执行,从而使本该进行可靠性维护的主机缺乏维护,使本不该进行可靠性维护的过度维护。
在此背景下,如何动态的跟踪云数据中心的运行态势并进行趋势预判,制定合理的数据中心主机检查点设置时机,便成为了研究的热点和难点。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种能够动态决定合理主机热备份检查时机的方法。
为实现上述目的,本发明提供了一种云数据中心主机检查点设置的方法,按以下步骤进行:
步骤一、将数据中心中每个主机的下一次检查点时间设置为正无穷:
将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;
步骤二、取得主机运行时性能数据:
在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi
步骤三、评估各主机性能变化态势;
首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs;
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};
步骤四、预测各主机未来失效风险;
首先,计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
步骤五、确定检查点设置方案:
为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;
步骤六、主机检查控制;
首先等待dd时间,
然后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。
较佳的,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。
本发明所要解决的另一技术问题是提供一种能够动态决定合理主机热备份检查时机的装置。
为实现上述目的,本发明提供了一种云数据中心主机检查点设置的装置,包括数据中心状态监测模块、控制决策模块和检查控制模块;
所述数据中心状态监测模块内设有主机运行状态跟踪单元;
所述控制决策模块包括主机运行时性能评估单元、主机失效风险评估单元和方案生成单元;
所述主机运行状态跟踪单元的第一输出端连接所述主机运行时性能评估单元的输入端,所述主机运行时性能评估单元的第一输出端连接所述主机失效风险评估单元的第一输入端,所述主机失效风险评估单元的输出端连接所述方案生成单元的第一输入端,所述方案生成单元的输出端连接所述检查控制模块的输入端;所述主机运行时性能评估单元的第二输出端连接所述方案生成单元的第二输入端,所述主机运行状态跟踪单元的第二输出端连接所述主机失效风险评估单元的第二输入端;
所述主机运行状态跟踪单元用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:
将数据中心中每个主机的下一次检查点时间设置为正无穷:
所述主机运行状态跟踪单元将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;,等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;
取得主机运行时性能数据:
所述主机运行状态跟踪单元(301)在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi
所述主机运行时性能评估单元用于评估各主机性能变化态势:
所述主机运行时性能评估单元首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs;
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};
所述主机失效风险评估单元用于预测各主机未来失效风险:
所述主机失效风险评估单元首先计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
所述方案生成单元用于确定检查点设置方案:
所述方案生成单元为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;
所述检查控制模块用于主机检查控制:
所述检查控制模块等待dd时间后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。
较佳的,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。
本发明所还要解决的技术问题是提供一种能够动态决定合理主机热备份检查时机的系统。
为实现上述目的,本发明提供了一种云数据中心主机检查点设置的系统,包括云数据中心服务器,所述云数据中心服务器内设置有云数据中心主机检查点设置装置,所述云数据中心主机检查点设置装置包括数据中心状态监测模块、控制决策模块和检查控制模块;
所述数据中心状态监测模块内设有主机运行状态跟踪单元;
所述控制决策模块包括主机运行时性能评估单元、主机失效风险评估单元和方案生成单元;
所述主机运行状态跟踪单元的第一输出端连接所述主机运行时性能评估单元的输入端,所述主机运行时性能评估单元的第一输出端连接所述主机失效风险评估单元的第一输入端,所述主机失效风险评估单元的输出端连接所述方案生成单元的第一输入端,所述方案生成单元的输出端连接所述检查控制模块的输入端;所述主机运行时性能评估单元的第二输出端连接所述方案生成单元的第二输入端,所述主机运行状态跟踪单元的第二输出端连接所述主机失效风险评估单元的第二输入端;
所述主机运行状态跟踪单元用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:
将数据中心中每个主机的下一次检查点时间设置为正无穷:
所述主机运行状态跟踪单元将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;
取得主机运行时性能数据:
所述主机运行状态跟踪单元在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi
所述主机运行时性能评估单元用于评估各主机性能变化态势:
所述主机运行时性能评估单元首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs;
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};
所述主机失效风险评估单元用于预测各主机未来失效风险:
所述主机失效风险评估单元首先计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
所述方案生成单元用于确定检查点设置方案:
所述方案生成单元为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;
所述检查控制模块用于主机检查控制:
所述检查控制模块等待dd时间后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。
较佳的,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。
本发明的有益效果是:本发明相对于传统的云系统检查点设置具有以下优点:
1、充分考虑了云系统中主机性能和可靠性的动态波动性,计算各个主机在未来性能劣化的强弱程度,避免出现预估过高和预估不足的两个极端。
2、在考察静态性能数据的同时,计算各个主机的性能变化趋势,并考虑动态趋势未来对云系统整体性能的影响,使检查点设置时机更合理。
3、实现了动态的失效风险均衡化,在非稳定的系统运行环境下使单个数据中心主机失效的风险被多个主机分担你和稀释。
4、动态的决定控制介入点的间隔时间,更好的适配不同工况。
附图说明
图1是本发明云数据中心主机检查点设置方法一具体实施方式的流程示意图。
图2是本发明云数据中心主机检查点设置装置一具体实施方式的原理示意图。
图3是本发明云数据中心主机检查点设置系统一具体实施方式的原理示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
如图1所示,一种云数据中心主机检查点设置的方法,按以下步骤进行:
步骤一、将数据中心中每个主机的下一次检查点时间设置为正无穷:
将变量组JCDi赋值为∞,等待dt时间后,进入下一个步骤。其中i为下标,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;正无穷的意义即是表示近期不需要进入检查点,dt值预先设定,本实施例中,dt值为1000毫秒到100秒之间的任意数值。
步骤二、取得主机运行时性能数据:
在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi。若无出错任务,ZCSi值设为0,若无出错任务,WCSi值设为0。
步骤三、评估各主机性能变化态势;
首先计算各个主机最近故障率:
上述方案的直观意义是:若某个主机在出现了至少两次任务错误,则将任务出错数量除以最晚错误出现时间与最早错误出现时间的差;否则,计算为错误任务出现次数除以dt/2。
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs,本实施例中,xs取值为5。上述方案的直观意义是,当某个主机的故障率值大于主机平均故障率的xs倍,且大于了这个主机的等效修复率,则被视为异常值。mean{}为集合求平均数的操作。XFi/DSJi表示等效修复率。
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};值得注意的是,由于不存在所有主机的YCGi变量都被标注为1的情况,因此上述公式中的mean{}集合中,元素个数必定大于0。
步骤四、预测各主机未来失效风险;
首先,计算各主机的未来预期整体崩溃指数WLBKi
上述方案计算的数值,直接反映了数据中心中各个主机在未来出现全体任务故障的潜在可能性的大小。公式中,考察了存量任务值CLi全部失效的概率(以数据中心整体预期故障率WLE为底),各个主机新进入任务数量QRi与迁出任务数量QCi的差数任务全部失效的概率(若该差值为负,则仅以新进入任务数量QRi为基础计算;若主机故障率为异常值,则以WLE为底)。
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
其中,(1-GYBKi)表示单一任务在第i个主机上的可靠度,其乘幂指数表示了未来dt/2时间段内,预期受到失效故障风险影响的最大可能任务数量,dt×CCi/(2×(WCSi-ZCSi))表示了dt/2时间段内预期的等效故障出现数(若WCSi-ZCSi为0,则直接用CCi作为预期的等效故障出现数)。
步骤五、确定检查点设置方案:
为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5,本实施例中,β为0.3。上述方案的直观意义是:如果某个主机的未来预期可靠度与所有主机的未来预期可靠度中最小值的差,小于最大最小可靠度差值的β倍,则将该主机视为需要进入检查点,并且将下一次检查点的时间设置为当前时间后的dt/2×(ZEi/WLE)-1时刻,(ZEi/WLE)-1倍数的意义是:进一步用单个主机的故障率除以平均故障率的比值来修正等待时间,具有较大故障率的主机需要更短的等待时间)。否则,JCDi值被设置为正无穷,表示近期不需要进入检查点进行热备份。
步骤六、主机检查控制;
首先等待dd时间,
然后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。在此时刻进行热备份,生成备份文件,一旦主机出现崩溃或故障,即可根据备份文件,将主机恢复到检查点时刻的状态。
本实施例中,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1,本实施例中,γ为0.3。以上技术方案在进入检查点等待预期时间平均值的γ倍数和观察窗口长度时间中选择最小值,作为等待时间。
如图2所示,一种云数据中心主机检查点设置的装置,包括数据中心状态监测模块3、控制决策模块4和检查控制模块5。
所述数据中心状态监测模块3内设有主机运行状态跟踪单元301。
所述控制决策模块4包括主机运行时性能评估单元401、主机失效风险评估单元402和方案生成单元403。
所述主机运行状态跟踪单元301的第一输出端连接所述主机运行时性能评估单元401的输入端,所述主机运行时性能评估单元401的第一输出端连接所述主机失效风险评估单元402的第一输入端,所述主机失效风险评估单元402的输出端连接所述方案生成单元403的第一输入端,所述方案生成单元403的输出端连接所述检查控制模块5的输入端;所述主机运行时性能评估单元401的第二输出端连接所述方案生成单元403的第二输入端,所述主机运行状态跟踪单元301的第二输出端连接所述主机失效风险评估单元402的第二输入端。
所述主机运行状态跟踪单元301用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:
将数据中心中每个主机的下一次检查点时间设置为正无穷:所述主机运行状态跟踪单元301将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值。
取得主机运行时性能数据:
所述主机运行状态跟踪单元301在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;主机运行状态跟踪单元301将取得的上述值发送给主机运行时性能评估单元和主机失效风险评估单元。
所述主机运行时性能评估单元401用于评估各主机性能变化态势:
所述主机运行时性能评估单元401首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs,本实施例中,xs为5。
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0}。
主机运行时性能评估单元401将WLE值、ZEi值、YCGi值发送给主机失效风险评估单元,主机运行时性能评估单元401将WLE和ZEi值发送给方案生成单元。
所述主机失效风险评估单元402用于预测各主机未来失效风险:
所述主机失效风险评估单元402首先计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
主机失效风险评估单元402WLXi值发送给方案生成单元。
所述方案生成单元403用于确定检查点设置方案:
所述方案生成单元403为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5,本实施例中,β为0.3。
方案生成单元403将JCDi值和t值发送给检查控制模块
所述检查控制模块5用于主机检查控制:
所述检查控制模块5等待dd时间后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。
本实施例中,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1,γ为0.3。
本发明实施例所提供的一种云数据中心主机检查点设置装置,可以部署于一个现有的主机中,也可以部署以一个单独设置的专用于云数据中心主机检查点设置的服务器中。为此,本发明提供了一种云数据中心服务器1,如图3所示,云数据中心服务器1内设置有云数据中心主机检查点设置装置2,所述云数据中心主机检查点设置装置2包括数据中心状态监测模块3、控制决策模块4和检查控制模块5。
所述数据中心状态监测模块3内设有主机运行状态跟踪单元301。
所述控制决策模块4包括主机运行时性能评估单元401、主机失效风险评估单元402和方案生成单元403。
所述主机运行状态跟踪单元301的第一输出端连接所述主机运行时性能评估单元401的输入端,所述主机运行时性能评估单元401的第一输出端连接所述主机失效风险评估单元402的第一输入端,所述主机失效风险评估单元402的输出端连接所述方案生成单元403的第一输入端,所述方案生成单元403的输出端连接所述检查控制模块5的输入端;所述主机运行时性能评估单元401的第二输出端连接所述方案生成单元403的第二输入端,所述主机运行状态跟踪单元301的第二输出端连接所述主机失效风险评估单元402的第二输入端。
所述主机运行状态跟踪单元301用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:
将数据中心中每个主机的下一次检查点时间设置为正无穷:所述主机运行状态跟踪单元301将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值。
取得主机运行时性能数据:
所述主机运行状态跟踪单元301在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;主机运行状态跟踪单元301将取得的上述值发送给主机运行时性能评估单元和主机失效风险评估单元。
所述主机运行时性能评估单元401用于评估各主机性能变化态势:
所述主机运行时性能评估单元401首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs,本实施例中,xs为5。
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0}。
主机运行时性能评估单元401将WLE值、ZEi值、YCGi值发送给主机失效风险评估单元,主机运行时性能评估单元401将WLE和ZEi值发送给方案生成单元。
所述主机失效风险评估单元402用于预测各主机未来失效风险:
所述主机失效风险评估单元402首先计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
主机失效风险评估单元402WLXi值发送给方案生成单元。
所述方案生成单元403用于确定检查点设置方案:
所述方案生成单元403为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5,本实施例中,β为0.3。
方案生成单元403将JCDi值和t值发送给检查控制模块
所述检查控制模块5用于主机检查控制:
所述检查控制模块5等待dd时间后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。
本实施例中,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1,γ为0.3。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种云数据中心主机检查点设置的方法,其特征在于按以下步骤进行:
步骤一、将数据中心中每个主机的下一次检查点时间设置为正无穷:
将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;
步骤二、取得主机运行时性能数据:
在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi
步骤三、评估各主机性能变化态势;
首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs;
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};
步骤四、预测各主机未来失效风险;
首先,计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
步骤五、确定检查点设置方案:
为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;
步骤六、主机检查控制;
首先等待dd时间,
然后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份;
所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。
2.一种云数据中心主机检查点设置的装置,其特征是:包括数据中心状态监测模块(3)、控制决策模块(4)和检查控制模块(5);
所述数据中心状态监测模块(3)内设有主机运行状态跟踪单元(301);
所述控制决策模块(4)包括主机运行时性能评估单元(401)、主机失效风险评估单元(402)和方案生成单元(403);
所述主机运行状态跟踪单元(301)的第一输出端连接所述主机运行时性能评估单元(401)的输入端,所述主机运行时性能评估单元(401)的第一输出端连接所述主机失效风险评估单元(402)的第一输入端,所述主机失效风险评估单元(402)的输出端连接所述方案生成单元(403)的第一输入端,所述方案生成单元(403)的输出端连接所述检查控制模块(5)的输入端;所述主机运行时性能评估单元(401)的第二输出端连接所述方案生成单元(403)的第二输入端,所述主机运行状态跟踪单元(301)的第二输出端连接所述主机失效风险评估单元(402)的第二输入端;
所述主机运行状态跟踪单元(301)用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:
将数据中心中每个主机的下一次检查点时间设置为正无穷:
所述主机运行状态跟踪单元(301)将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;
取得主机运行时性能数据:
所述主机运行状态跟踪单元(301)在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi
所述主机运行时性能评估单元(401)用于评估各主机性能变化态势:
所述主机运行时性能评估单元(401)首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs;
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};
所述主机失效风险评估单元(402)用于预测各主机未来失效风险:
所述主机失效风险评估单元(402)首先计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
所述方案生成单元(403)用于确定检查点设置方案:
所述方案生成单元(403)为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;
所述检查控制模块(5)用于主机检查控制:
所述检查控制模块(5)等待dd时间后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份;所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。
3.一种云数据中心主机检查点设置的系统,包括云数据中心服务器(1),其特征是:所述云数据中心服务器(1)内设置有云数据中心主机检查点设置装置(2),所述云数据中心主机检查点设置装置(2)包括数据中心状态监测模块(3)、控制决策模块(4)和检查控制模块(5);
所述数据中心状态监测模块(3)内设有主机运行状态跟踪单元(301);
所述控制决策模块(4)包括主机运行时性能评估单元(401)、主机失效风险评估单元(402)和方案生成单元(403);
所述主机运行状态跟踪单元(301)的第一输出端连接所述主机运行时性能评估单元(401)的输入端,所述主机运行时性能评估单元(401)的第一输出端连接所述主机失效风险评估单元(402)的第一输入端,所述主机失效风险评估单元(402)的输出端连接所述方案生成单元(403)的第一输入端,所述方案生成单元(403)的输出端连接所述检查控制模块(5)的输入端;所述主机运行时性能评估单元(401)的第二输出端连接所述方案生成单元(403)的第二输入端,所述主机运行状态跟踪单元(301)的第二输出端连接所述主机失效风险评估单元(402)的第二输入端;
所述主机运行状态跟踪单元(301)用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:
将数据中心中每个主机的下一次检查点时间设置为正无穷:
所述主机运行状态跟踪单元(301)将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;
取得主机运行时性能数据:
所述主机运行状态跟踪单元(301)在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi
所述主机运行时性能评估单元(401)用于评估各主机性能变化态势:
所述主机运行时性能评估单元(401)首先计算各个主机最近故障率:
然后用变量YCGi标记故障率异常值:
其中,xs为预先给定的系数,满足1<xs;
接下来,计算未来数据中心整体预期故障率WLE:
WLE=mean{ZEi|1<i<n,YCGi=0};
所述主机失效风险评估单元(402)用于预测各主机未来失效风险:
所述主机失效风险评估单元(402)首先计算各主机的未来预期整体崩溃指数WLBKi
接下来,计算归一化的各个主机故障的潜在可能性数值:
然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi
所述方案生成单元(403)用于确定检查点设置方案:
所述方案生成单元(403)为每个主机设置进入检查点预期时间JCDi
其中,临时变量TEMPi计算为:
TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;
所述检查控制模块(5)用于主机检查控制:
所述检查控制模块(5)等待dd时间后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份;所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。
CN201510602543.5A 2015-09-21 2015-09-21 一种云数据中心主机检查点设置的方法、装置和系统 Active CN105204961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510602543.5A CN105204961B (zh) 2015-09-21 2015-09-21 一种云数据中心主机检查点设置的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510602543.5A CN105204961B (zh) 2015-09-21 2015-09-21 一种云数据中心主机检查点设置的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN105204961A CN105204961A (zh) 2015-12-30
CN105204961B true CN105204961B (zh) 2018-10-26

Family

ID=54952656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510602543.5A Active CN105204961B (zh) 2015-09-21 2015-09-21 一种云数据中心主机检查点设置的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105204961B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665155B (zh) 2016-07-28 2021-07-09 华为技术有限公司 处理数据的方法和装置
TWI608358B (zh) * 2016-08-04 2017-12-11 先智雲端數據股份有限公司 用於雲端服務系統中資料保護的方法
CN108667642B (zh) * 2017-03-30 2021-11-02 穆成坡 一种基于风险评估的服务器的风险均衡器
CN109753384B (zh) * 2019-01-14 2020-11-10 广东电网有限责任公司信息中心 云主机的快照备份方法、装置、计算机设备和存储介质
CN114238016B (zh) * 2021-12-15 2024-07-09 浪潮智能物联技术有限公司 基于温度感知动态调整Checkpoint间隔的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111875A (zh) * 2014-07-03 2014-10-22 重庆大学 云数据中心新增任务数动态控制装置、系统及方法
CN104765435A (zh) * 2015-03-31 2015-07-08 重庆大学 一种云数据中心主机延迟开机的方法、装置和系统
CN104767806A (zh) * 2015-03-31 2015-07-08 重庆大学 一种云数据中心任务备份的方法、装置和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4500057B2 (ja) * 2004-01-13 2010-07-14 株式会社日立製作所 データ移行方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111875A (zh) * 2014-07-03 2014-10-22 重庆大学 云数据中心新增任务数动态控制装置、系统及方法
CN104765435A (zh) * 2015-03-31 2015-07-08 重庆大学 一种云数据中心主机延迟开机的方法、装置和系统
CN104767806A (zh) * 2015-03-31 2015-07-08 重庆大学 一种云数据中心任务备份的方法、装置和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Stochastic Approach to Analysis of;YunNi Xia 等;《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS》;20150131;第45卷(第1期);73-83页 *
服务组合排编规范性能分析研究;刘毅 等;《计算机工程与应用》;20110801;第47卷(第22期);227-239页 *

Also Published As

Publication number Publication date
CN105204961A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105204961B (zh) 一种云数据中心主机检查点设置的方法、装置和系统
US9805140B2 (en) Striping of directed graphs and nodes with improved functionality
US8918656B2 (en) Power supply engagement and method therefor
WO2021000693A1 (zh) 一种服务熔断方法、装置及消息中间件
US20120053925A1 (en) Method and System for Computer Power and Resource Consumption Modeling
CN104767806B (zh) 一种云数据中心任务备份的方法、装置和系统
US20090249129A1 (en) Systems and Methods for Managing Multi-Component Systems in an Infrastructure
WO2011149023A1 (ja) 電算機室空調システム、その冗長コントローラ
US10931533B2 (en) System for network incident management
CN102123052A (zh) 业务系统可用性评估方法及系统
US9923778B2 (en) Network management based on assessment of topological robustness and criticality of assets
US9603282B2 (en) Datacenter and cooling control fault-tolerance using compute resources
US11061458B2 (en) Variable redundancy data center power topology
Rahmani et al. Burst‐aware virtual machine migration for improving performance in the cloud
JP5321195B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
US8620621B2 (en) Maintenance of intelligent assets
CN106201847B (zh) 考虑云平台主机性能衰减的任务分配方法、装置和系统
JP2007265244A (ja) ウェブシステムの性能監視装置
JP2014134904A (ja) 仮想マシン管理プログラム及びその方法
JP5500301B2 (ja) 監視制御システム、監視制御方法、監視制御サーバ及び監視制御プログラム
US20200394081A1 (en) Leveraging reserved data center resources to improve data center utilization
CN104104730A (zh) 面向高可靠性的云系统虚拟机任务备份装置、系统及方法
Oussane et al. Fault Tolerance in The IoT: A Taxonomy Based on Techniques
CN105262799B (zh) 一种面向性能的云数据中心轮休方法、装置和系统
CN103189850A (zh) 将附加的存储空间供应至计算机应用程序的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Weiling

Inventor after: Xia Yunni

Inventor after: Guo Kunyin

Inventor after: Zhang Yu

Inventor after: Ren Hao

Inventor after: Wang Luyue

Inventor before: Xia Yunni

Inventor before: Guo Kunken

Inventor before: Luo Xin

Inventor before: Yu Ke

Inventor before: Zhu Qingsheng

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190730

Address after: 610041 6/F 613, No. 722, No. 6, Middle Section of Yizhou Avenue, Chengdu High-tech Zone, Chengdu City, Sichuan Province

Patentee after: Chengdu Vermont Sichen Technology Co., Ltd.

Address before: 400045 Shapingba District, Sha Sha Street, No. 174, Chongqing

Patentee before: Chongqing University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211111

Address after: 400030 No. 174, Shapingba Main Street, Shapingba District, Chongqing

Patentee after: Xia Yunni

Address before: 610041 No. 613, 6 / F, building 4, No. 722, middle section of Yizhou Avenue, Chengdu hi tech Zone, Chengdu, Sichuan

Patentee before: Chengdu fumengsichen Technology Co., Ltd

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220523

Address after: 324003 room 304-7, building 10, No. 258, Huayuan East Avenue, Baiyun Street, Kecheng District, Quzhou City, Zhejiang Province

Patentee after: Quzhou Haiyi Technology Co.,Ltd.

Address before: 400030 No. 174 Shapingba street, Shapingba District, Chongqing

Patentee before: Xia Yunni