CN106452939B - 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法 - Google Patents

一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法 Download PDF

Info

Publication number
CN106452939B
CN106452939B CN201610629836.7A CN201610629836A CN106452939B CN 106452939 B CN106452939 B CN 106452939B CN 201610629836 A CN201610629836 A CN 201610629836A CN 106452939 B CN106452939 B CN 106452939B
Authority
CN
China
Prior art keywords
state
computing system
cloud computing
hot
cold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610629836.7A
Other languages
English (en)
Other versions
CN106452939A (zh
Inventor
吕宏武
董程凤
王慧强
郭方方
冯光升
林俊宇
徐俊波
李冰洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610629836.7A priority Critical patent/CN106452939B/zh
Publication of CN106452939A publication Critical patent/CN106452939A/zh
Application granted granted Critical
Publication of CN106452939B publication Critical patent/CN106452939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供的是一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法。采用云计算系统计算资源标签分配方法建立标签;描述云计算系统的计算资源所处状态的任意两个标签的转移过程;采用基于平均历史时延的标签转移动作延迟的计算方法,对每一个标签转移过程对应的动作赋予状态转移参数;获得一个完整的云计算系统的状态转移概率空间模型;计算步骤五所述状态转移概率空间模型的每一个状态的稳态概率;采用基于稳态概率的云计算系统的计算资源可用性的评估方法,评估云计算系统计算资源的可用性。本发明考虑了PM失效及恢复等因素对云计算系统计算资源可用性的影响;可以评估云计算系统同时存在K个可用资源时法计算资源可用性。

Description

一种考虑冗余容错恢复的云计算系统计算资源可用性评估 方法
技术领域
本发明涉及的是一种计算资源可用性评估方法,具体地说是一种云计算系统计算资源可用性评估方法。
背景技术
在互联网时代,信息与数据快速增长,云计算作为一种新兴的计算模式应运而生。云计算系统是向用户提供各种服务的分布式计算系统,需要对虚拟化的计算和存储资源池进行动态部署、动态分配/重分配、实时监控,从而向用户提供满足QoS(Quality ofService,服务质量)要求的计算服务、数据存储服务以及平台服务。因此,计算资源的部署成为云计算服务可用性分析的关键。而云计算系统计算资源的可用性评估是确定计算资源部署方式优劣,以及用户选择云计算系统作为重大应用运行平台的重要标准和技术参考,已成为当前云计算领域的一项重要研究内容。
目前,国内外对云计算系统计算资源的可用性分析主要分为以下两种情况:
1)仅考虑VM(visual Machine,虚拟机)部署与调度对云计算可用性的影响,而未考虑PM(Physical Machine,物理机)资源的状况,常见于SaaS云计算系统。
2)考虑了PM对计算资源可用性的影响,但是未考虑PM可能失效及恢复的情况。例如Trevidi等人提出基于排队论的可用性分析方法(《Modeling and performanceanalysis of large scale IaaS Clouds》http://dx.doi.org/10.1016/j.future.2012.06.005.),虽然考虑了VM部署时物理机PM所处不同状态对可用性的影响,但是没有考虑PM故障带来的问题。而且该类方法主要分析至少存在一个VM可用的概率,不能分析存在任意N个VM可用的情况,无法满足批任务同时需要N个VM时云计算系统服务可用性的分析。申请号为201510112060.7发明专利文件中公开的“一种云计算系统可用性评估方法”中,首先评估云计算服务中虚拟机的启动时间,然后根据虚拟机启动的时间粗略评估云计算服务的可用性。该方法仅仅考虑可用资源的平均故障间隔时间对云计算系统可用性的影响,导致评估结果具有较大误差。
综上所述,现有的云计算系统计算资源可用性评估方法还不完善,其不足之处可归结为以下两点:1)主要工作集中在VM部署与调度等方面的云计算系统计算资源可用性评估,而PM失效及恢复等因素对计算资源可用性造成的影响还缺少系统化分析;2)已有的方法仅仅分析了云计算系统中至少存在一个可用资源时的系统可用性,没有评估云计算系统同时存在K个可用资源时的计算资源可用性。
发明内容
本发明的目的在于提供一种能够处理云计算系统物理机失效情况下的云计算系统计算资源可用性的评估,并且可以评估云计算系统同时存在K个可用资源时的计算资源可用性的考虑冗余容错恢复的云计算系统计算资源可用性评估方法。
本发明的目的是这样实现的:
步骤一:建立考虑冗余容错恢复的云计算系统的计算资源模型;
步骤二:t为任意时刻,采用云计算系统计算资源标签分配方法,为该时刻的云计算系统的计算资源所处状态建立标签;
步骤三:云计算系统的计算资源所处状态的标签转移过程表示为其中LC,LD为任意的标签,act是LC和LD之间的转移动作,Λ是act对应的状态转移参数;采用云计算系统的计算资源标签转移方法,描述云计算系统的计算资源所处状态的任意两个标签的转移过程;
步骤四:采用基于平均历史时延的标签转移动作延迟的计算方法,对步骤三中每一个标签转移过程对应的动作赋予状态转移参数Λ;
步骤五:根据步骤三、四获得一个完整的云计算系统的状态转移概率空间模型;
步骤六:计算步骤五所述状态转移概率空间模型的每一个状态的稳态概率;
步骤七:采用基于稳态概率的云计算系统的计算资源可用性的评估方法,评估云计算系统计算资源的可用性。
本发明还可以包括:
1、所述考虑冗余容错恢复的云计算系统的计算资源模型的具体特性包括:
1)云计算系统的物理机PM(Physical Machine)包括三种类型,分别是hot PM,warm PM,cold PM;其中hot PM是指活跃的PM,直接部署虚拟机VM(visual Machine)并运行服务,对可用性几乎没有影响;第二种是热待机的PM,PM处于待机状态在部署VM之前需要部分的资源配置,对可用性具有一定影响,称为warm PM;第三种是冷待机的PM,PM处于待机状态但基本没有加载资源,需要较多时间部署VM,对可用性具有很大影响,称为cold PM;
2)三种物理机之间的关系满足:当目前不存在一台能够提供VM部署的hot PM时,查询可用warm PM列表,若存在就将该warm PM热启动并部署相应VM;当也不存在一台能够提供服务的warm PM时,将查询可用cold PM列表,若存在就将该cold PM热启动并部署相应的服务,当服务完成后,将PM挂起回原来的状态。
2、所述云计算系统计算资源标签分配方法具体包括:
任意时刻t的云计算系统的计算资源所处状态A(t),建立资源标签LA,LA表示为一个3×3的矩阵,
其中:h表示hot PM的数量,w表示warm PM的数量,c表示cold PM的数量,hD表示hot PM已分配的数量,wD表示warm PM已分配的数量,cD表示cold PM已分配的数量,hF表示hot PM失效的数量,wF表示warm PM失效的数量,cF表示cold PM失效的数量。
3、所述云计算系统的计算资源标签转移方法的具体实现过程为:
1)当云计算系统需要分配新的PM时,将产生横向和纵向的两种转移关系;
2)横向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)未失效时,此时分配该PM,且这种PM(hot PM、warm PM或cold PM)的数量将减1;当分配的PM完成相应任务时将回到原来的状态,此时这种PM(hot PM、warm PM或cold PM)的数量将加1;
3)纵向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)被发现已失效,无法正常完成分配,将触发恢复机制,且该种类的PM数量减1;当失效的PM恢复完成时,该PM回到原有的分类,且该种类的PM数量加1;
4)考虑冗余容错恢复的云计算系统的计算资源标签转移方法的流程表述为:当存在hot PM时采用第一阶段hot PM资源分配方法;若不存在hot PM,分配warm状态的物理机,采用第二阶段warm PM资源分配方法;当仍然不存在warm PM时,分配cold PM,采用第三阶段cold PM资源分配方法;
所述第一阶段hot PM资源分配方法具体包括:
a)云计算系统的计算资源所处的起始状态标签为
b)首先判断正要分配的hot PM是否失效,若没有失效,则hot PM的数量减1,已分配hot PM的数量hD加1,此过程为横向转移过程;
c)若正要分配的hot PM失效,则进行纵向转移过程,即hot PM的数量减1,已失效hot PM的数量hF加1;
d)再继续判断是否存在hot PM,如果不存在hot PM,转入第二阶段warm PM资源分配方法,否则跳转到步骤b);
所述第二阶段warm PM资源分配方法对于状态开始的转移过程具体包括:
e)起始状态标签为
f)首先判断正要分配的warm PM是否失效,若没有失效,则warm PM的数量减1,已分配warm PM的数量wD加1,此过程为横向转移过程;
g)若正要分配的warm PM失效,则进行纵向转移过程,即warm PM的数量减1,已失效warm PM的数量wF加1;
h)再继续判断是否存在warm PM,如果不存在warm PM,转入第三阶段cold PM资源分配方法,否则,跳转到步骤f);
所述第三阶段cold PM资源分配方法对于状态开始的转移过程具体包括:
i)起始状态标签为
j)首先判断正要分配的cold PM是否失效,若没有失效,则cold PM的数量减1,已分配cold PM的数量cD加1,此过程为横向转移过程;
k)若正要分配的cold PM失效,则进行纵向转移过程,即cold PM的数量减1,已失效cold PM的数量cF加1;
l)再继续判断是否存在cold PM,跳转到步骤j)。
4、所述基于平均历史时延的标签转移动作延迟的计算方法的具体实现过程包括:
对每一个标签转移过程对应的动作的状态转移参数Λ,Λ的物理含义是转移动作的延迟,都服从指数分布,统计由一个云计算系统的计算资源所处状态转移到另一个状态的平均历史时延,采用Huang方法计算转移动作延迟的概率,公式如下:
其中,s∈{h,w,c},N代表此种转移的历史转移次数,tn代表此种动作的第n次转移时间。
5、状态转移概率空间模型的每一个状态的稳态概率的具体计算过程包括:
设每个转移动作的延迟服从指数分布,利用马尔可夫(Markov)链对状态转移概率空间模型来求解稳态概率,π代表稳态概率向量,P为一步状态转移概率矩阵且P=(pij)i,j
对于hot PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:
其中Nh代表h个hot PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率;
对于warm PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:
其中Nw代表w个warm PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率;
对于cold PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:
其中Nc代表c个cold PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。
6、所述基于稳态概率的云计算系统的计算资源可用性的评估方法,具体过程为:
利用公式计算云计算系统中存在M个hot PM,N个warm PM和K个cold PM可用的概率为
其中状态S的标签为R∈{M,N,K},且hS≤M,wS≤N,cS≤K;
此处利用公式还可以计算云计算系统至少存在一个PM部署VM的概率,即求状态的概率。
本发明提供一个至少存在一台可部署VM的考虑冗余容错恢复的云计算系统计算资源可用性评估方法。其优点可归结为以下两点:1)考虑了PM失效及恢复等因素对云计算系统计算资源可用性的影响;2)可以评估云计算系统同时存在K个可用资源时法计算资源可用性。
附图说明
图1为云计算系统计算资源可用性分析流程图;
图2为以为起始状态标签的第一阶段hot PM资源分配图;
图3为以为起始状态标签的第二阶段warm PM资源分配图;
图4为以为起始状态标签的第三阶段cold PM资源分配图;
图5为实施例中以为起始状态标签的第一阶段hot PM资源分配图;
图6为实施例中以为起始状态标签的第二阶段warm PM资源分配图;
图7为实施例中以为起始状态标签的第三阶段cold PM资源分配图。
具体实施方式
下面举例对本发明做更详细的描述。
结合图1说明本发明的考虑冗余容错恢复的云计算系统计算资源可用性评估方法的实施流程。当云计算系统中存在3个hot PM、2个warm PM、2个cold PM时,结合具体实例,评估云计算系统计算资源的可用性。
1、本发明的考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其具体实现过程分为以下7个步骤:
步骤一:建立考虑冗余容错恢复的云计算系统的计算资源模型。
步骤二:t为任意时刻,采用云计算系统计算资源标签分配方法,为该时刻的云计算系统的计算资源所处状态建立标签。
步骤三:对于云计算系统的计算资源所处状态的标签转移过程可以表示为其中LC,LD为任意的标签,act是LC和LD之间的转移动作,Λ是act对应的状态转移参数。在后续过程中按照本领域惯例省略act,仅标注Λ。采用云计算系统的计算资源标签转移方法,描述云计算系统的计算资源所处状态的任意两个标签的转移过程。
步骤四:采用基于平均历史时延的标签转移动作延迟的计算方法,对步骤三中每一个标签转移过程对应的动作赋予状态转移参数Λ。
步骤五:根据前述步骤三、四能够获得一个完整的云计算系统的状态转移概率空间模型。
步骤六:计算步骤五中的状态转移概率空间模型的每一个状态的稳态概率。
步骤七:采用基于稳态概率的云计算系统的计算资源可用性的评估方法,评估云计算系统计算资源的可用性。
2、前述的步骤一的考虑冗余容错恢复的云计算系统的计算资源模型,具体特性还包括:
1)云计算系统的物理机PM包括三种类型,分别是hot PM,warm PM,cold PM。其中hot PM是指活跃的PM,可以直接部署VM并运行服务,对可用性几乎没有影响;第二种是热待机的PM,PM处于待机状态在部署VM之前需要部分的资源配置,对可用性具有一定影响,称为warm PM;第三种是冷待机的PM,PM处于待机状态但基本没有加载资源,需要较多时间部署VM,对可用性具有很大影响,称为cold PM。
2)三种物理机之间的关系满足:当目前不存在一台能够提供VM部署的hot PM时,需要查询可用warm PM列表,若存在就将该warm PM热启动并部署相应VM;当也不存在一台能够提供服务的warm PM时,将查询可用cold PM列表,若存在就将该cold PM热启动并部署相应的服务。当服务完成后,将PM挂起回原来的状态。
3、前述的步骤二中的云计算系统计算资源标签分配方法,具体过程还包括:
任意时刻t的云计算系统的计算资源所处状态A(t),可以建立资源标签LA。LA可以表示为一个3×3的矩阵,具体含义如表3所示。
表3状态向量参数的含义
4、前述的步骤三中云计算系统的计算资源标签转移方法具体实现过程为:
1)当云计算系统需要分配新的PM时,将产生横向和纵向的两种转移关系。
2)横向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)未失效时,此时分配该PM,且这种PM的数量将减1;当分配的PM完成相应任务时将回到原来的状态,此时这种PM的数量将加1。
3)纵向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)被发现已失效,无法正常完成分配,将触发恢复机制,且该种类的PM数量减1;当失效的PM恢复完成时,该PM回到原有的分类,且该种类的PM数量加1。
4)考虑冗余容错恢复的云计算系统的计算资源标签转移方法的流程可以表述为,当存在hot PM时采用第一阶段hot PM资源分配方法;若不存在hot PM,分配warm状态的物理机,此时采用第二阶段warm PM资源分配方法;当仍然不存在warm PM时,分配cold PM,采用第三阶段cold PM资源分配方法。
前述的第一阶段hot PM资源分配方法如图5所示,具体包括:
1)云计算系统的计算资源所处的起始状态标签为
2)首先判断正要分配的hot PM是否失效,若没有失效,则hot PM的数量减1,已分配hot PM的数量hD加1,此过程为横向转移过程。
3)若正要分配的hot PM失效,则进行纵向转移过程,即hot PM的数量减1,已失效hot PM的数量hF加1。
4)再继续判断是否存在hot PM,如果不存在hot PM,系统进程转入第二阶段warmPM资源分配方法。否则跳转到步骤2)。
前述的第二阶段warm PM资源分配方法对于状态开始的转移过程如图5所示,具体包括:
1)起始状态标签为
2)首先判断正要分配的warm PM是否失效,若没有失效,则warm PM的数量减1,已分配warm PM的数量wD加1,此过程为横向转移过程。
3)若正要分配的warm PM失效,则进行纵向转移过程,即warm PM的数量减1,已失效warm PM的数量wF加1。
4)再继续判断是否存在warm PM,如果不存在warm PM,系统转入第三阶段cold PM资源分配方法。否则,跳转到步骤2)。
前述的第三阶段cold PM资源分配方法对于状态开始的转移过程如图6所示,具体包括:
1)起始状态标签为
2)首先判断正要分配的cold PM是否失效,若没有失效,则cold PM的数量减1,已分配cold PM的数量cD加1,此过程为横向转移过程。
3)若正要分配的cold PM失效,则进行纵向转移过程,即cold PM的数量减1,已失效cold PM的数量cF加1。
4)再继续判断是否存在cold PM,系统跳转到步骤2)。
5、其中前述步骤四中基于平均历史时延的标签转移动作延迟的计算方法,具体实现过程还包括:
对每一个标签转移过程对应的动作的状态转移参数Λ,Λ的物理含义是转移动作的延迟,按照本领域的惯例认为其都服从指数分布。统计由一个云计算系统的计算资源所处状态转移到另一个状态的平均历史时延,采用经典的Huang方法计算转移动作延迟的概率。公式如下:
其中,s∈{h,w,c},N代表此种转移的历史转移次数,tn代表此种动作的第n次转移时间,得到如表4所示的状态转移参数。
表4状态转移参数的含义
6、状态转移概率空间模型的每一个状态的稳态概率,具体计算过程还包括:
假设每个转移动作的延迟服从指数分布,利用马尔可夫(Markov)链对步骤五中状态转移概率空间模型来求解稳态概率。π代表稳态概率向量,P为一步状态转移概率矩阵且P=(pij)i,j
利用公式⑵,计算3个hot PM部署VM过程中的稳态概率:
其中表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。
利用公式⑶,计算2个warm PM部署VM过程中的稳态概率:
其中表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。
利用公式⑷,计算2个cold PM部署VM过程中的稳态概率:
其中表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。
7、前述步骤七中基于稳态概率的云计算系统的计算资源可用性的评估方法,具体过程为:
利用公式可以计算云计算系统中存在3个hot PM,2个warm PM和2个cold PM可用的概率为
其中状态S的标签为R∈{3,2,2},每个元素的含义满足表3,且hS≤3,wS≤2,cS≤2。
利用公式计算系统至少存在一个PM部署VM的概率,即求状态的概率。

Claims (5)

1.一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其特征是包括如下步骤:
步骤一:建立考虑冗余容错恢复的云计算系统的计算资源模型;
步骤二:t为任意时刻,采用云计算系统计算资源标签分配方法,为该时刻的云计算系统的计算资源所处状态建立标签;所述云计算系统计算资源标签分配方法具体包括:
任意时刻t的云计算系统的计算资源所处状态A(t),建立资源标签LA,LA表示为一个3×3的矩阵,
其中:h表示hot PM的数量,w表示warm PM的数量,c表示cold PM的数量,hD表示hot PM已分配的数量,wD表示warm PM已分配的数量,cD表示cold PM已分配的数量,hF表示hot PM失效的数量,wF表示warm PM失效的数量,cF表示cold PM失效的数量;
步骤三:云计算系统的计算资源所处状态的标签转移过程表示为其中LC,LD为任意的标签,act是LC和LD之间的转移动作,Λ是act对应的状态转移参数;采用云计算系统的计算资源标签转移方法,描述云计算系统的计算资源所处状态的任意两个标签的转移过程;所述云计算系统的计算资源标签转移方法的具体实现过程为:
1)当云计算系统需要分配新的PM时,将产生横向和纵向的两种转移关系;
2)横向转移关系是指正要分配的PM未失效时,此时分配该PM,且这种PM的数量将减1;当分配的PM完成相应任务时将回到原来的状态,此时这种PM的数量将加1;
3)纵向转移关系是指正要分配的PM被发现已失效,无法正常完成分配,将触发恢复机制,且该种类的PM数量减1;当失效的PM恢复完成时,该PM回到原有的分类,且该种类的PM数量加1;
4)考虑冗余容错恢复的云计算系统的计算资源标签转移方法的流程表述为:当存在hot PM时采用第一阶段hot PM资源分配方法;若不存在hot PM,分配warm状态的物理机,采用第二阶段warm PM资源分配方法;当仍然不存在warm PM时,分配cold PM,采用第三阶段cold PM资源分配方法;
步骤四:采用基于平均历史时延的标签转移动作延迟的计算方法,对步骤三中每一个标签转移过程对应的动作赋予状态转移参数Λ;
步骤五:根据步骤三、四获得一个完整的云计算系统的状态转移概率空间模型;
步骤六:计算步骤五所述状态转移概率空间模型的每一个状态的稳态概率;
步骤七:采用基于稳态概率的云计算系统的计算资源可用性的评估方法,评估云计算系统计算资源的可用性;所述基于稳态概率的云计算系统的计算资源可用性的评估方法具体过程为:
利用公式计算云计算系统中存在M个hot PM,N个warm PM和K个cold PM可用的概率为
其中状态S的标签为R∈{M,N,K},且hS≤M,wS≤N,cS≤K。
2.根据权利要求1所述的考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其特征是所述考虑冗余容错恢复的云计算系统的计算资源模型的具体特性包括:
1)云计算系统的物理机PM包括三种类型,分别是hot PM,warm PM,cold PM;其中hotPM是指活跃的PM,直接部署虚拟机VM并运行服务,对可用性几乎没有影响;第二种是热待机的PM,PM处于待机状态在部署VM之前需要部分的资源配置,对可用性具有一定影响,称为warm PM;第三种是冷待机的PM,PM处于待机状态但基本没有加载资源,需要较多时间部署VM,对可用性具有很大影响,称为cold PM;
2)三种物理机之间的关系满足:当目前不存在一台能够提供VM部署的hot PM时,查询可用warm PM列表,若存在就将该warm PM热启动并部署相应VM;当也不存在一台能够提供服务的warm PM时,将查询可用cold PM列表,若存在就将该cold PM热启动并部署相应的服务,当服务完成后,将PM挂起回原来的状态。
3.根据权利要求1所述的考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其特征是:
所述第一阶段hot PM资源分配方法具体包括:
a)云计算系统的计算资源所处的起始状态标签为
b)首先判断正要分配的hot PM是否失效,若没有失效,则hot PM的数量减1,已分配hotPM的数量hD加1,此过程为横向转移过程;
c)若正要分配的hot PM失效,则进行纵向转移过程,即hot PM的数量减1,已失效hotPM的数量hF加1;
d)再继续判断是否存在hot PM,如果不存在hot PM,转入第二阶段warm PM资源分配方法,否则跳转到步骤b);
所述第二阶段warm PM资源分配方法对于状态开始的转移过程具体包括:
e)起始状态标签为
f)首先判断正要分配的warm PM是否失效,若没有失效,则warm PM的数量减1,已分配warm PM的数量wD加1,此过程为横向转移过程;
g)若正要分配的warm PM失效,则进行纵向转移过程,即warm PM的数量减1,已失效warm PM的数量wF加1;
h)再继续判断是否存在warm PM,如果不存在warm PM,转入第三阶段cold PM资源分配方法,否则,跳转到步骤f);
所述第三阶段cold PM资源分配方法对于状态开始的转移过程具体包括:
i)起始状态标签为
j)首先判断正要分配的cold PM是否失效,若没有失效,则cold PM的数量减1,已分配cold PM的数量cD加1,此过程为横向转移过程;
k)若正要分配的cold PM失效,则进行纵向转移过程,即cold PM的数量减1,已失效cold PM的数量cF加1;
l)再继续判断是否存在cold PM,跳转到步骤j)。
4.根据权利要求1所述的考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其特征是所述基于平均历史时延的标签转移动作延迟的计算方法的具体实现过程包括:
对每一个标签转移过程对应的动作的状态转移参数Λ,Λ的物理含义是转移动作的延迟,都服从指数分布,统计由一个云计算系统的计算资源所处状态转移到另一个状态的平均历史时延,采用Huang方法计算转移动作延迟的概率,公式如下:
其中,s∈{h,w,c},N代表此种转移的历史转移次数,tn代表此种动作的第n次转移时间。
5.根据权利要求1所述的考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其特征是状态转移概率空间模型的每一个状态的稳态概率的具体计算过程包括:
设每个转移动作的延迟服从指数分布,利用马尔可夫链对状态转移概率空间模型来求解稳态概率,π代表稳态概率向量,P为一步状态转移概率矩阵且P=(pij)i,j
对于hot PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:
其中Nh代表h个hot PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率;
对于warm PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:
其中Nw代表w个warm PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率;
对于cold PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:
其中Nc代表c个cold PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。
CN201610629836.7A 2016-08-03 2016-08-03 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法 Active CN106452939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610629836.7A CN106452939B (zh) 2016-08-03 2016-08-03 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610629836.7A CN106452939B (zh) 2016-08-03 2016-08-03 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法

Publications (2)

Publication Number Publication Date
CN106452939A CN106452939A (zh) 2017-02-22
CN106452939B true CN106452939B (zh) 2019-05-21

Family

ID=58184496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610629836.7A Active CN106452939B (zh) 2016-08-03 2016-08-03 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法

Country Status (1)

Country Link
CN (1) CN106452939B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334050B (zh) * 2017-12-28 2020-10-13 北京龙鼎源科技股份有限公司 冗余不完全可维修系统可用率的计算方法和装置
CN110187989B (zh) * 2019-05-24 2022-08-09 广东致盛技术有限公司 雾环境下基于Markov Chain的容错策略选择方法
CN111475261A (zh) * 2020-05-22 2020-07-31 长沙学院 一种云平台弹性度量方法、系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102196503A (zh) * 2011-06-28 2011-09-21 哈尔滨工程大学 面向服务质量保障的认知网络服务迁移方法
CN104780075A (zh) * 2015-03-13 2015-07-15 浪潮电子信息产业股份有限公司 一种云计算系统可用性评估方法
CN105282073A (zh) * 2015-09-23 2016-01-27 同济大学 一种基于认知无线电的车联网通信方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102196503A (zh) * 2011-06-28 2011-09-21 哈尔滨工程大学 面向服务质量保障的认知网络服务迁移方法
CN104780075A (zh) * 2015-03-13 2015-07-15 浪潮电子信息产业股份有限公司 一种云计算系统可用性评估方法
CN105282073A (zh) * 2015-09-23 2016-01-27 同济大学 一种基于认知无线电的车联网通信方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种云计算可用性定量计算模型;杨志明;《计算机光盘软件与应用》;20170329;全文
移动云计算系统可用性分析技术的研究进展;吕宏武,王慧强,郭宁宁,冯光升,郭方方;《道客巴巴》;20140708;全文

Also Published As

Publication number Publication date
CN106452939A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
US10924535B2 (en) Resource load balancing control method and cluster scheduler
JP6132766B2 (ja) データセンタサービスの制御された自動復旧
CN106528327B (zh) 一种数据处理方法以及备份服务器
Dai et al. QoS-driven self-healing web service composition based on performance prediction
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN106452939B (zh) 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法
CN113312153B (zh) 一种集群部署方法、装置、电子设备及存储介质
US10389823B2 (en) Method and apparatus for detecting network service
CN112256430A (zh) 容器的部署方法、装置、设备及存储介质
CN112905297A (zh) 容器集群资源调度方法和装置
CN109842500B (zh) 一种调度方法及系统、工作节点及监控节点
CN112084004A (zh) 一种面向容器应用的容器探测与维护方法及系统
CN110659108B (zh) 一种云系统虚拟机任务迁移方法及装置、服务器
Almurshed et al. A fault-tolerant workflow composition and deployment automation IoT framework in a multicloud edge environment
CN105812159B (zh) 一种云平台监控报警方法
CN117573291A (zh) 跨数据中心的多集群管理方法、装置、设备及存储介质
Alonso et al. Optimal resource allocation in a virtualized software aging platform with software rejuvenation
Goutam et al. The performance evaluation of proactive fault tolerant scheme over cloud using CloudSim simulator
Devi et al. Multi level fault tolerance in cloud environment
Amoon Design of a fault-tolerant scheduling system for grid computing
Saleh et al. A new grid scheduler with failure recovery and rescheduling mechanisms: discussion and analysis
CN114443057A (zh) 对话模型的部署和对话方法、装置、电子设备及存储介质
Shaikh et al. Fault tolerance management for cloud environment: a critical review
Brandt et al. Using cloud constructs and predictive analysis to enable pre-failure process migration in HPC systems
Amoon A DEVELOPMENT OF FAULT-TOLERANT AND SCHEDULING SYSTEM FOR GRID COMPUTING.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant