CN105262799B - 一种面向性能的云数据中心轮休方法、装置和系统 - Google Patents

一种面向性能的云数据中心轮休方法、装置和系统 Download PDF

Info

Publication number
CN105262799B
CN105262799B CN201510603193.4A CN201510603193A CN105262799B CN 105262799 B CN105262799 B CN 105262799B CN 201510603193 A CN201510603193 A CN 201510603193A CN 105262799 B CN105262799 B CN 105262799B
Authority
CN
China
Prior art keywords
host
holidays
turns
data center
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510603193.4A
Other languages
English (en)
Other versions
CN105262799A (zh
Inventor
夏云霓
郭坤垠
罗辛
俞可
朱庆生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datuo Infinite Chongqing Intelligent Technology Co Ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201510603193.4A priority Critical patent/CN105262799B/zh
Publication of CN105262799A publication Critical patent/CN105262799A/zh
Application granted granted Critical
Publication of CN105262799B publication Critical patent/CN105262799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1034Reaction to server failures by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)

Abstract

本发明公开了一种面向性能的云数据中心轮休方法、装置和系统,通过实时跟踪数据中心中各个主机的运行状态并对其性能变化趋势进行预判,选择性的对数据中心各个主机进行交替性的轮休控制,减少了因个别主机长时间执行引起的可靠性劣化,分散和稀释系统崩溃的风险,提升了云计算系统整体的性能。

Description

一种面向性能的云数据中心轮休方法、装置和系统
技术领域
本发明属于云计算系统控制领域,特别是涉及一种面向性能的云数据中心轮休方法、装置和系统。
背景技术
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。相对于传统的软件和计算形态,云计算具有松散耦合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现今的电子商务、柔性制造、移动互联网等应用。
云数据中心是指由多个异构的、由网络连接在一起的主机所组成的用于承载提供在线云服务的企业级应用的分布式计算系统。在云数据中心中,将大量的主机进行集中统一管理,可以保障主机运行所需要的稳定电源环境,适宜的温湿度控制以及网络带宽条件。
同其他软硬件系统一样,长时间的任务执行会导致云数据中心中的主机的性能的劣化。由于现今的云计算系统多运用于大规模科学计算、实时金融、在线交易、流媒体多播等高负载和高复杂度的应用,其主机时常处于超负荷运行的状态,劣化的问题更加突出。如果任务调度和负载均衡策略稍有不慎,就极易出现部分主机突发性崩溃的情况,并有可能进一步形成系统崩溃,造成重大损失。轮休,是对抗上述问题的有效手段,即通过强制使主机进入“停止执行/休眠/休整”状态,减少因长时间连续执行带来的“错误/内外存碎片/不一致数据”过度累积并最终崩溃的可能性。传统的轮休方法,多是根据固定的间隔时间或按照固定的顺序指定主机进入轮休。这种策略存在以下不足:由于忽视了主机负载、资源占用率、可用性和可靠性的变化趋势,固定间隔时间的轮休控制容易出现“主机还未等到进入轮休就提前崩溃”或者“主机处于健康平稳状态却反复被强制进入轮休”两个极端,导致损失和不必要的系统开销;可能选择执行时间已经很长但是仍然处于较健康状态的主机进入休眠,或者是选择执行时间不长但是故障率较高的主机进入休眠,从而使云系统整体可靠性下降;传统的策略没有考虑每个主机的多维性能的动态变化和未来走势,而是静态的考虑当前的性能表现来进行决策。
在此背景下,如何动态的跟踪云数据中心的运行态势并进行趋势预判,制定合理的数据中心主机轮休策略,便成为了研究的热点和难点。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种能够弥补现有方法和策略的不足,充分保证云数据中心运行时性能的动态波动性的主机轮休方法。
为实现上述目的,本发明提供了一种面向性能的云数据中心轮休方法,按以下步骤进行:
步骤一、随机的选择一个云数据中心的主机并将其设置为休眠状态,然后将其他主机都设置为执行状态,等待dt时间后,进入下一个步骤;
步骤二、获取云数据中心中各个主机dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi;其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量;
步骤三、分析各主机性能变化趋势;
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;
接下来,计算系统未来预期故障率WLGL:
步骤四、分析各主机当前休眠需求度;
计算各主机的未来预期累积失效故障数SYKKi
所述β为加权平均系数,β取值满足0<β<1;
步骤五、确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5;
步骤六、进行轮休控制;
首先判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
然后等待ddt时间后,返回执行步骤二。
较佳的,所述ddt计算为:
本发明所要解决的另一技术问题是提供一种能够弥补现有方法和策略的不足,充分保证云数据中心运行时性能的动态波动性的主机轮休装置。
为实现上述目的,本发明提供了一种面向性能的云数据中心轮休装置,包括数据中心状态监测模块、控制决策模块和轮休控制模块;
所述控制决策模块包括性能分析单元、主机休眠需求度分析单元和轮休方案生成单元;
所述数据中心状态监测模块的第一输出端分别连接所述性能分析单元的输入端;所述性能分析单元的输出端连接所述主机休眠需求度分析单元的第一输入端;所述主机休眠需求度分析单元的输出端连接所述轮休方案生成单元的输入端;所述轮休方案生成单元的输出端连接所述轮休控制模块的输入端;所述数据中心状态监测模块的第二输出端连接所述主机休眠需求度分析单元的第二输入端;所述数据中心状态监测模块的第三输出端连接所述轮休控制模块的第二输入端;所述轮休控制模块的输出端连接所述数据中心状态监测模块的输入端;
所述数据中心状态监测模块用于收集主机运行状态信息:
所述数据中心状态监测模块获取云数据中心中各个主机dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi;其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量;所述数据中心状态监测模块将取得的上述值分别发送给所述性能分析单元、主机休眠需求度分析单元和轮休控制模块;
所述性能分析单元用于分析各主机性能变化趋势:
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;
接下来,计算系统未来预期故障率WLGL:
所述性能分析单元将WLGL值发送给所述主机休眠需求度分析单元;
所述主机休眠需求度分析单元用于分析各主机当前休眠需求度:
所述主机休眠需求度分析单元计算各主机的未来预期累积失效故障数SYKKi:
所述β为加权平均系数,β取值满足0<β<1;
所述主机休眠需求度分析单元将SYKKi值发送给轮休方案生成单元;
所述轮休方案生成单元用于确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5;
所述轮休方案生成单元将XH值发送给轮休控制模块;
所述轮休控制模块用于进行轮休控制以及发送时间信息给所述数据中心状态监测模块。
优选的,所述轮休控制模块发送时间信息dt给所述数据中心状态监测模块使得所述数据中心状态监测模块等待dt时间后收集主机运行状态信息;所述dt值为100毫秒到10秒之间的任意数值。
优选的,所述轮休控制模块判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
所述轮休控制模块发送间隔时间ddt给所述数据中心状态监测模块使得所述数据中心状态监测模块等待ddt时间后继续收集主机运行状态信息;
间隔时间ddt计算为:
本发明还要解决的一技术问题是提供一种能够弥补现有方法和策略的不足,充分保证云数据中心运行时性能的动态波动性的主机轮休系统。
为实现上述目的,本发明提供了一种面向性能的云数据中心轮休系统,包括云数据中心服务器,所述云数据中心服务器内设置有云数据中心轮休装置,所述云数据中心轮休装置包括数据中心状态监测模块、控制决策模块和轮休控制模块;
所述控制决策模块包括性能分析单元、主机休眠需求度分析单元和轮休方案生成单元;
所述数据中心状态监测模块的第一输出端分别连接所述性能分析单元的输入端;
所述性能分析单元的输出端连接所述主机休眠需求度分析单元的第一输入端;所述主机休眠需求度分析单元的输出端连接所述轮休方案生成单元的输入端;所述轮休方案生成单元的输出端连接所述轮休控制模块的输入端;所述数据中心状态监测模块的第二输出端连接所述主机休眠需求度分析单元的第二输入端;所述数据中心状态监测模块的第三输出端连接所述轮休控制模块的第二输入端;所述轮休控制模块的输出端连接所述数据中心状态监测模块的输入端;
所述数据中心状态监测模块用于收集主机运行状态信息:
所述数据中心状态监测模块获取云数据中心中各个主机dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi;其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量;所述数据中心状态监测模块将取得的上述值分别发送给所述性能分析单元、主机休眠需求度分析单元和轮休控制模块;
所述性能分析单元用于分析各主机性能变化趋势:
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;
接下来,计算系统未来预期故障率WLGL:
所述性能分析单元将WLGL值发送给所述主机休眠需求度分析单元;
所述主机休眠需求度分析单元用于分析各主机当前休眠需求度:
所述主机休眠需求度分析单元计算各主机的未来预期累积失效故障数SYKKi
所述β为加权平均系数,β取值满足0<β<1;
所述主机休眠需求度分析单元将SYKKi值发送给轮休方案生成单元;
所述轮休方案生成单元用于确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5;
所述轮休方案生成单元将XH值发送给轮休控制模块;
所述轮休控制模块用于进行轮休控制以及发送时间信息给所述数据中心状态监测模块。
优选的,所述轮休控制模块发送时间信息dt给所述数据中心状态监测模块使得所述数据中心状态监测模块等待dt时间后收集主机运行状态信息;所述dt值为100毫秒到10秒之间的任意数值。
优选的,所述轮休控制模块判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
所述轮休控制模块发送间隔时间ddt给所述数据中心状态监测模块使得所述数据中心状态监测模块等待ddt时间后继续收集主机运行状态信息;
间隔时间ddt计算为:
本发明的有益效果是:本发明相对于传统的云系统轮休调度和分配,具有以下优点:
(1)充分考虑了云系统中主机性能的动态波动性,计算各个主机在未来性能劣化的强弱程度,避免出现预估过高和预估不足的两个极端;
(2)在考察静态性能数据的同时,计算各个主机的性能变化趋势,并考虑动态趋势未来对云系统整体性能的影响,使轮休控制方案更合理;
(3)实现了动态的负载均衡,在非稳定的系统运行环境下可取得更好的效果。
附图说明
图1是本发明云数据中心轮休方法一具体实施方式的流程示意图。
图2是本发明云数据中心轮休装置一具体实施方式的原理示意图。
图3是本发明云数据中心轮休系统一具体实施方式的原理示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
如图1所示,一种面向性能的云数据中心轮休方法,按以下步骤进行:
步骤一、随机的选择一个云数据中心的主机并将其设置为休眠状态,然后将其他主机都设置为执行状态,等待dt时间后,进入下一个步骤。dt值预先设定,本实施例中dt为100毫秒到10秒之间的任意数值。
步骤二、获取云数据中心中各个主机最近dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi。其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量。本实施例中,如果无修复活动发生,则将XFi取值为dt/10;
ZTi值取1表示处于执行状态,0表示休眠。若某主机当前正处于休眠状态,则其对应的FNi值取为0。
步骤三、分析各主机性能变化趋势:
首先计算各个主机最近故障率:
采用以上技术方案计算
各个主机最近故障率,若某个主机当前仍处于休眠状态,自然不会发生任务执行故障,因此当前故障率应该计算为0;若监测的到的故障次数为0,故障率也应该计算为0;若故障次数不为0,则计算为故障次数与“从上一次休眠结束到现在所经过的时间乘以历史上执行状态所占比例”的比值。值得注意的是,上述公式中的第三个分支不会出现分母为0的情况,因为若第三个分支的条件成立,必然不满足第一个分支的ZTi=0的条件,换言之ZTi大于零,说明主机当前处于执行状态,因此累积执行时间LJZSi必然不为0。
然后,用变量BJi标记故障率边界值。
所述xs为预先给定的系数,满足1<xs;本实施例中,xs为5。max{}为集合求最大数的操作。采用以上技术方案的变量BJi标记故障率边界值,因为云系统的初始任务分配和调度,一般满足按照主机序号排列顺序依次进行的原则,运行负载也体现出“近似远差”的分布规律,所以相邻序号的主机一般不会出现巨大的性能和故障率差别;反之,若出现了巨大差值,可视为异常数据。当某个主机的故障率值与两个相邻主机故障率值绝对差值的最大值,再减去两个相邻主机之间的故障率绝对差值的结果,大于主机平均故障率的xs倍,则可认为这个主机的故障率值为“边界值”。
接下来,计算系统未来预期故障率WLGL:
值得注意的是,至少存在第一个和最后一个主机的故障率值不为边界值,因此上述集合求平均数的操作mean{}中,集合一定不为空。max{}为集合求最大的操作。上述方案的直观意义是:将所有主机近期集合任务完成率乘以历史总体出错任务比例的结果,与平均ZJGLi值做比较,大的作为系统未来故障率;若前者因分母为0无法计算,则将平均ZJGLi值作为系统未来故障率。
步骤四、分析各主机当前休眠需求度:
计算各主机的未来预期累积失效故障数SYKKi
上述方案的直观意义是,用每个主机最近dt时间内,出现故障、错误、或者失效的次数FNi,加上未来dt时间内预期产生的新故障、错误、或者失效的次数,作为未来预期累积失效故障数。若某主机当前处于休眠状态,则只以FNi值作为未来预期累积失效故障数。所述β为加权平均系数,β取值满足0<β<1,本实施例中,β为0.5。
步骤五、确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5,本实施例中,bs为1.1;上述方案的直观意义是,若具有最大未来预期累积失效故障数的主机,其未来预期累积失效故障数小于所有主机平均未来预期累积失效故障数的bs倍,则认为不存在个别主机具有突出的失效风险;反之,则将具有最大未来预期累积失效故障数的主机,视为需要进入轮休的主机。
步骤六、进行轮休控制;
首先判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
然后等待ddt时间后,返回执行步骤二。
所述ddt计算为:
上述方案的直观意义是,若所有主机的平均未来预期累积失效故障数对应的dt时间内的等效故障率,大于近期修复率,则认为主机修复率不足以在dt时间内修复所有失效和故障,因此应该选取更小的控制间隔时间。
如图2所示,一种面向性能的云数据中心轮休装置,包括数据中心状态监测模块3、控制决策模块4和轮休控制模块5。所述控制决策模块4包括性能分析单元401、主机休眠需求度分析单元402和轮休方案生成单元403。
所述数据中心状态监测模块3的第一输出端分别连接所述性能分析单元401的输入端;所述性能分析单元401的输出端连接所述主机休眠需求度分析单元402的第一输入端;所述主机休眠需求度分析单元402的输出端连接所述轮休方案生成单元403的输入端;所述轮休方案生成单元403的输出端连接所述轮休控制模块5的输入端;所述数据中心状态监测模块3的第二输出端连接所述主机休眠需求度分析单元402的第二输入端;所述数据中心状态监测模块3的第三输出端连接所述轮休控制模块5的第二输入端;所述轮休控制模块5的输出端连接所述数据中心状态监测模块3的输入端。
所述数据中心状态监测模块3用于收集主机运行状态信息:
所述数据中心状态监测模块3获取云数据中心中各个主机最近dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi。其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量。本实施例中,如果无修复活动发生,则将XFi取值为dt/10;ZTi值取1表示处于执行状态,0表示休眠。若某主机当前正处于休眠状态,则其对应的FNi值取为0。所述数据中心状态监测模块3将取得的上述值分别发送给所述性能分析单元401、主机休眠需求度分析单元402和轮休控制模块5。
所述性能分析单元401用于分析各主机性能变化趋势:
首先计算各个主机最近故障率:
采用以上技术方案计算
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;本实施例中,xs为5。max{}为集合求最大数的操作。
接下来,计算系统未来预期故障率WLGL:
所述性能分析单元401将WLGL值发送给所述主机休眠需求度分析单元402;
所述主机休眠需求度分析单元402用于分析各主机当前休眠需求度:
所述主机休眠需求度分析单元402计算各主机的未来预期累积失效故障数
SYKKi:
所述β为加权平均系数,β取值满足0<β<1,本实施例中,β为0.5。
所述主机休眠需求度分析单元402将SYKKi值发送给轮休方案生成单元403。
所述轮休方案生成单元403用于确定需要进入休眠状态的主机的序号XH:
述bs为预先给定的数值,取值范围满足1<bs<1.5,本实施例中,bs为1.1。
所述轮休方案生成单元403将XH值发送给轮休控制模块5。
所述轮休控制模块5用于进行轮休控制以及发送时间信息给所述数据中心状态监测模块3。
开始时,所述轮休控制模块5随机的选择一个云数据中心的主机并将其设置为休眠状态,然后将其他主机都设置为执行状态,然后所述轮休控制模块5发送时间信息dt给所述数据中心状态监测模块3使得所述数据中心状态监测模块3等待dt时间后开始收集主机运行状态信息。dt值预先设定,所述dt值为100毫秒到10秒之间的任意数值。
待所述轮休控制模块5接收到轮休方案生成单元403发出的XH值后,所述轮休控制模块5根据XH的值进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态。然后所述轮休控制模块5计算间隔时间ddt,并发送间隔时间ddt给所述数据中心状态监测模块3使得所述数据中心状态监测模块3等待ddt时间后继续收集主机运行状态信息。
间隔时间ddt计算为:
本发明实施例所提供的一种面向性能的云数据中心轮休装置,可以部署于一个现有的主机中,也可以部署以一个单独设置的专用于面向性能的云数据中心轮休的服务器中。为此,本发明提供了一种云数据中心服务器1,如图3所示,所述云数据中心服务器1内设置有云数据中心轮休装置2,所述云数据中心轮休装置2包括数据中心状态监测模块3、控制决策模块4和轮休控制模块5。所述控制决策模块4包括性能分析单元401、主机休眠需求度分析单元402和轮休方案生成单元403。
所述数据中心状态监测模块3的第一输出端分别连接所述性能分析单元401的输入端;所述性能分析单元401的输出端连接所述主机休眠需求度分析单元402的第一输入端;所述主机休眠需求度分析单元402的输出端连接所述轮休方案生成单元403的输入端;所述轮休方案生成单元403的输出端连接所述轮休控制模块5的输入端;所述数据中心状态监测模块3的第二输出端连接所述主机休眠需求度分析单元402的第二输入端;所述数据中心状态监测模块3的第三输出端连接所述轮休控制模块5的第二输入端;所述轮休控制模块5的输出端连接所述数据中心状态监测模块3的输入端。
所述数据中心状态监测模块3用于收集主机运行状态信息:
所述数据中心状态监测模块3获取云数据中心中各个主机最近dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi。其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量。本实施例中,如果无修复活动发生,则将XFi取值为dt/10;ZTi值取1表示处于执行状态,0表示休眠。若某主机当前正处于休眠状态,则其对应的FNi值取为0。所述数据中心状态监测模块3将取得的上述值分别发送给所述性能分析单元401、主机休眠需求度分析单元402和轮休控制模块5。
所述性能分析单元401用于分析各主机性能变化趋势:
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;本实施例中,xs为5。max{}为集合求最大数的操作。
接下来,计算系统未来预期故障率WLGL:
所述性能分析单元401将WLGL值发送给所述主机休眠需求度分析单元402;
所述主机休眠需求度分析单元402用于分析各主机当前休眠需求度:
所述主机休眠需求度分析单元402计算各主机的未来预期累积失效故障数
SYKKi:
所述β为加权平均系数,β取值满足0<β<1,本实施例中,β为0.5。
所述主机休眠需求度分析单元402将SYKKi值发送给轮休方案生成单元403。
所述轮休方案生成单元403用于确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5,本实施例中,bs为1.1。
所述轮休方案生成单元403将XH值发送给轮休控制模块5。
所述轮休控制模块5用于进行轮休控制以及发送时间信息给所述数据中心状态监测模块3。
开始时,所述轮休控制模块5随机的选择一个云数据中心的主机并将其设置为休眠状态,然后将其他主机都设置为执行状态,然后所述轮休控制模块5发送时间信息dt给所述数据中心状态监测模块3使得所述数据中心状态监测模块3等待dt时间后开始收集主机运行状态信息。dt值预先设定,所述dt值为100毫秒到10秒之间的任意数值。
待所述轮休控制模块5接收到轮休方案生成单元403发出的XH值后,所述轮休控制模块5根据XH的值进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态。然后所述轮休控制模块5计算间隔时间ddt,并发送间隔时间ddt给所述数据中心状态监测模块3使得所述数据中心状态监测模块3等待ddt时间后继续收集主机运行状态信息。
间隔时间ddt计算为:
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种面向性能的云数据中心轮休方法,其特征在于按以下步骤进行:
步骤一、随机的选择一个云数据中心的主机并将其设置为休眠状态,然后将其他主机都设置为执行状态,等待dt时间后,进入下一个步骤;
步骤二、获取云数据中心中各个主机dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi;其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量;
步骤三、分析各主机性能变化趋势;
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;
接下来,计算系统未来预期故障率WLGL:
步骤四、分析各主机当前休眠需求度;
计算各主机的未来预期累积失效故障数SYKKi
所述β为加权平均系数,β取值满足0<β<1;
步骤五、确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5;
步骤六、进行轮休控制;
首先判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
然后等待ddt时间后,返回执行步骤二。
2.如权利要求1所述的一种面向性能的云数据中心轮休方法,其特征是:
所述ddt计算为:
3.一种面向性能的云数据中心轮休装置,其特征是:包括数据中心状态监测模块(3)、控制决策模块(4)和轮休控制模块(5);
所述控制决策模块(4)包括性能分析单元(401)、主机休眠需求度分析单元(402)和轮休方案生成单元(403);
所述数据中心状态监测模块(3)的第一输出端连接所述性能分析单元(401)的输入端;所述性能分析单元(401)的输出端连接所述主机休眠需求度分析单元(402)的第一输入端;所述主机休眠需求度分析单元(402)的输出端连接所述轮休方案生成单元(403)的输入端;所述轮休方案生成单元(403)的输出端连接所述轮休控制模块(5)的输入端;所述数据中心状态监测模块(3)的第二输出端连接所述主机休眠需求度分析单元(402)的第二输入端;所述数据中心状态监测模块(3)的第三输出端连接所述轮休控制模块(5)的第二输入端;所述轮休控制模块(5)的输出端连接所述数据中心状态监测模块(3)的输入端;
所述数据中心状态监测模块(3)用于收集主机运行状态信息:
所述数据中心状态监测模块(3)获取云数据中心中各个主机dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZT i;每个主机最近dt时间内出现故障、错误或者失效的次数FNi;其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量;所述数据中心状态监测模块(3)将取得的上述值分别发送给所述性能分析单元(401)、主机休眠需求度分析单元(402)和轮休控制模块(5);
所述性能分析单元(401)用于分析各主机性能变化趋势:
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs;
接下来,计算系统未来预期故障率WLGL:
所述性能分析单元(401)将WLGL值发送给所述主机休眠需求度分析单元(402);
所述主机休眠需求度分析单元(402)用于分析各主机当前休眠需求度:
所述主机休眠需求度分析单元(402)计算各主机的未来预期累积失效故障数SYKKi:
所述β为加权平均系数,β取值满足0<β<1;
所述主机休眠需求度分析单元(402)将SYKKi值发送给轮休方案生成单元(403);
所述轮休方案生成单元(403)用于确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5;
所述轮休方案生成单元(403)将XH值发送给轮休控制模块(5);
所述轮休控制模块(5)用于进行轮休控制以及发送时间信息给所述数据中心状态监测模块(3)。
4.如权利要求3所述的一种面向性能的云数据中心轮休装置,其特征是:所述轮休控制模块(5)发送时间信息dt给所述数据中心状态监测模块(3)使得所述数据中心状态监测模块(3)等待dt时间后收集主机运行状态信息;所述dt值为100毫秒到10秒之间的任意数值。
5.如权利要求3或4所述的一种面向性能的云数据中心轮休装置,其特征是:所述轮休控制模块(5)判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
所述轮休控制模块(5)发送间隔时间ddt给所述数据中心状态监测模块(3)使得所述数据中心状态监测模块(3)等待ddt时间后继续收集主机运行状态信息;
间隔时间ddt计算为:
6.一种面向性能的云数据中心轮休系统,包括云数据中心服务器(1), 其特征是:所述云数据中心服务器(1)内设置有云数据中心轮休装置(2),所述云数据中心轮休装置(2)包括数据中心状态监测模块(3)、控制决策模块(4)和轮休控制模块(5);
所述控制决策模块(4)包括性能分析单元(401)、主机休眠需求度分析单元(402)和轮休方案生成单元(403);
所述数据中心状态监测模块(3)的第一输出端连接所述性能分析单元(401)的输入端;所述性能分析单元(401)的输出端连接所述主机休眠需求度分析单元(402)的第一输入端;所述主机休眠需求度分析单元(402)的输出端连接所述轮休方案生成单元(403)的输入端;所述轮休方案生成单元(403)的输出端连接所述轮休控制模块(5)的输入端;所述数据中心状态监测模块(3)的第二输出端连接所述主机休眠需求度分析单元(402)的第二输入端;所述数据中心状态监测模块(3)的第三输出端连接所述轮休控制模块(5)的第二输入端;所述轮休控制模块(5)的输出端连接所述数据中心状态监测模块(3)的输入端;
所述数据中心状态监测模块(3)用于收集主机运行状态信息:
所述数据中心状态监测模块(3)获取云数据中心中各个主机dt时间内累计执行时间LJZSi、各个主机从开始到现在所有完成的任务中失效及出错任务所占的比例CBLi、各个主机最近dt时间内累计休眠时间LJXSi、各个主机完成最近一个任务所耗费的时间RWTi、各个主机修复最近的一个错误及失效所用时间XFi、当前各个主机的状态ZTi;每个主机最近dt时间内出现故障、错误或者失效的次数FNi;其中i下标表示第i个主机,满足0<i≤n,n为数据中心中的主机数量;所述数据中心状态监测模块(3)将取得的上述值分别发送给所述性能分析单元(401)、主机休眠需求度分析单元(402)和轮休控制模块(5);
所述性能分析单元(401)用于分析各主机性能变化趋势:
首先计算各个主机最近故障率:
然后,用变量BJi标记故障率边界值:
所述xs为预先给定的系数,满足1<xs,
接下来,计算系统未来预期故障率WLGL:
所述性能分析单元(401)将WLGL值发送给所述主机休眠需求度分析单元(402);
所述主机休眠需求度分析单元(402)用于分析各主机当前休眠需求度:
所述主机休眠需求度分析单元(402)计算各主机的未来预期累积失效故障数SYKKi:
所述β为加权平均系数,β取值满足0<β<1;
所述主机休眠需求度分析单元(402)将SYKK i值发送给轮休方案生成单元(403);
所述轮休方案生成单元(403)用于确定需要进入休眠状态的主机的序号XH:
所述bs为预先给定的数值,取值范围满足1<bs<1.5;
所述轮休方案生成单元(403)将XH值发送给轮休控制模块(5);
所述轮休控制模块(5)用于进行轮休控制以及发送时间信息给所述数据中心状态监测模块(3)。
7.如权利要求6所述的一种面向性能的云数据中心轮休系统,其特征是:所述轮休控制模块(5)发送时间信息dt给所述数据中心状态监测模块(3)使得所述数据中心状态监测模块(3)等待dt时间后收集主机运行状态信息;所述dt值为100毫秒到10秒之间的任意数值。
8.如权利要求6或7所述的一种面向性能的云数据中心轮休系统,其特征是:所述轮休控制模块(5)判断XH的值并进行轮休控制:若XH为0,则不改变任何主机的当前状态;若XH值等于当前处于休眠状态的主机的序号值,则不改变任何主机的当前状态;若XH大于0且不等于当前处于休眠状态的主机的序号值,则将当前处于休眠状态的主机转换为执行状态,并把第XH号主机转换为休眠状态;
所述轮休控制模块(5)发送间隔时间ddt给所述数据中心状态监测模块(3)使得所述数据中心状态监测模块(3)等待ddt时间后继续收集主机运行状态信息;
间隔时间ddt计算为:
CN201510603193.4A 2015-09-21 2015-09-21 一种面向性能的云数据中心轮休方法、装置和系统 Active CN105262799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510603193.4A CN105262799B (zh) 2015-09-21 2015-09-21 一种面向性能的云数据中心轮休方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510603193.4A CN105262799B (zh) 2015-09-21 2015-09-21 一种面向性能的云数据中心轮休方法、装置和系统

Publications (2)

Publication Number Publication Date
CN105262799A CN105262799A (zh) 2016-01-20
CN105262799B true CN105262799B (zh) 2019-04-23

Family

ID=55102303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510603193.4A Active CN105262799B (zh) 2015-09-21 2015-09-21 一种面向性能的云数据中心轮休方法、装置和系统

Country Status (1)

Country Link
CN (1) CN105262799B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298716B2 (en) * 2003-11-06 2007-11-20 Lucent Technologies Inc. Clustering based load adaptive sleeping protocol for ad hoc networks
CN103078955A (zh) * 2013-01-29 2013-05-01 东北大学 一种云计算平台服务器状态转移装置及方法
CN103501498A (zh) * 2013-08-29 2014-01-08 中国科学院声学研究所 一种基带处理资源分配方法及其装置
CN103546509A (zh) * 2012-07-13 2014-01-29 云联(北京)信息技术有限公司 一种节约资源的云服务系统及资源节约方法
CN103701889A (zh) * 2013-12-20 2014-04-02 国云科技股份有限公司 一种基于云计算的数据中心节能方法
CN103957231A (zh) * 2014-03-18 2014-07-30 成都盛思睿信息技术有限公司 一种云计算平台下的虚拟机分布式任务调度方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298716B2 (en) * 2003-11-06 2007-11-20 Lucent Technologies Inc. Clustering based load adaptive sleeping protocol for ad hoc networks
CN103546509A (zh) * 2012-07-13 2014-01-29 云联(北京)信息技术有限公司 一种节约资源的云服务系统及资源节约方法
CN103078955A (zh) * 2013-01-29 2013-05-01 东北大学 一种云计算平台服务器状态转移装置及方法
CN103501498A (zh) * 2013-08-29 2014-01-08 中国科学院声学研究所 一种基带处理资源分配方法及其装置
CN103701889A (zh) * 2013-12-20 2014-04-02 国云科技股份有限公司 一种基于云计算的数据中心节能方法
CN103957231A (zh) * 2014-03-18 2014-07-30 成都盛思睿信息技术有限公司 一种云计算平台下的虚拟机分布式任务调度方法

Also Published As

Publication number Publication date
CN105262799A (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
Huang et al. An edge computing framework for real-time monitoring in smart grid
CN106375420B (zh) 一种基于负载均衡的服务器集群智能监控系统及方法
CN104767806B (zh) 一种云数据中心任务备份的方法、装置和系统
US9436257B2 (en) Power supply engagement and method therefor
EP2261845A1 (en) Data center batch job quality of service control
US20130339759A1 (en) Method and system for automated application layer power management solution for serverside applications
CN112929187B (zh) 网络切片管理方法、装置和系统
CN101382912B (zh) 一种面向应用服务器的资源敏感性能优化方法及其系统
CN105204961B (zh) 一种云数据中心主机检查点设置的方法、装置和系统
CN104038540A (zh) 一种应用代理服务器自动选择方法及系统
Qiu et al. Correlation modeling and resource optimization for cloud service with fault recovery
CN104021040A (zh) 基于时间约束条件下的云计算关联任务调度方法和装置
CN102546288A (zh) 测量具有多个网络组件的网络的各方面的方法和系统
CN106155802A (zh) 任务调度方法、装置及控制节点
Li et al. Job failure analysis and its implications in a large-scale production grid
Zhou et al. Semi-dynamic maintenance scheduling for multi-station series systems in multi-specification and small-batch production
CN111930493A (zh) 集群中NodeManager状态管理方法、装置及计算设备
CN116775304A (zh) 任务分配方法、系统、装置及非易失性存储介质
JP4613690B2 (ja) 設備機器集中管理システムおよび設備機器の集中管理方法
CN108664346A (zh) 分布式存储系统的节点异常的定位方法、装置和系统
CN115168042A (zh) 监控集群的管理方法及装置、计算机存储介质、电子设备
CN105262799B (zh) 一种面向性能的云数据中心轮休方法、装置和系统
CN105208119B (zh) 一种云数据中心任务分配方法、装置和系统
CN106201847B (zh) 考虑云平台主机性能衰减的任务分配方法、装置和系统
CN109343955A (zh) 推荐服务调用方法、介质、装置和计算设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200602

Address after: No. 6-4, unit 2, building 6, No. 36, Hongsheng Road, Nanping Street, Nan'an District, Chongqing

Patentee after: Chongqing TuRui Technology Co., Ltd

Address before: 400045 Shapingba District, Sha Sha Street, No. 174, Chongqing

Patentee before: Chongqing University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201123

Address after: No. 105, dataguzhong Road, Xiantao, Yubei District, Chongqing

Patentee after: Datuo infinite (Chongqing) Intelligent Technology Co., Ltd

Address before: No. 6-4, unit 2, building 6, No. 36, Hongsheng Road, Nanping Street, Nan'an District, Chongqing

Patentee before: Chongqing TuRui Technology Co., Ltd