CN104780075B - 一种云计算系统可用性评估方法 - Google Patents

一种云计算系统可用性评估方法 Download PDF

Info

Publication number
CN104780075B
CN104780075B CN201510112060.7A CN201510112060A CN104780075B CN 104780075 B CN104780075 B CN 104780075B CN 201510112060 A CN201510112060 A CN 201510112060A CN 104780075 B CN104780075 B CN 104780075B
Authority
CN
China
Prior art keywords
mtd
mrow
mtr
msub
mtable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510112060.7A
Other languages
English (en)
Other versions
CN104780075A (zh
Inventor
张晓�
赵晓南
李战怀
李阿妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Inspur Electronic Information Industry Co Ltd
Original Assignee
Northwestern Polytechnical University
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Inspur Electronic Information Industry Co Ltd filed Critical Northwestern Polytechnical University
Priority to CN201510112060.7A priority Critical patent/CN104780075B/zh
Publication of CN104780075A publication Critical patent/CN104780075A/zh
Application granted granted Critical
Publication of CN104780075B publication Critical patent/CN104780075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种云计算系统可用性评估方法,其具体实现过程为:首先评估云计算服务中虚拟机的启动时间;然后根据虚拟机启动时间粗略评估云计算服务的可用性:评估虚拟机的平均故障时间,粗略评估单台虚拟机的可用性;在服务商提供部分参数后精准评估云计算服务的可用性:评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性。该一种云计算系统可用性评估方法与现有技术相比,可用于决策是否将重要应用迁移至云平台,以及评估基于云计算平台的各类应用可用性,实用性强。

Description

一种云计算系统可用性评估方法
技术领域
本发明涉及云计算技术领域,具体地说是一种实用性强、云计算系统可用性评估方法。
背景技术
云计算是一种新型的应用模式,云计算提供商管理大量计算,存储资源,通过虚拟化等技术向用户提供计算,存储等资源。这些资源是按需分配,按量付费。云计算服务商承诺提供的服务达到服务级别(Service Agreeement Layer)。云计算系统常见的服务承诺包括性能,可用性。但是可用性缺乏定量评估手段,如每年平均故障时间小于10分钟等。历史上Amazon等云计算公司的服务也曾意外停机,2012年亚马逊在北Virginia州的数据中心因为飓风完全停止服务,影响搭建在其上的dropbox,netflix等公司的业务中断。
云计算提供商声称其服务具有高可用性,但是用户无法对云计算系统的可用性进行评估。云计算系统常常由成千上万个廉价服务器构成,其中软硬件故障频繁发生。传统的集群系统可用性评估方法依次评估物理节点的故障率,然后根据各个节点在系统中所处的位置建立可用性分析模型,最后计算得出系统整体的可用性。系统可用性和故障发生频率,容错机制和故障恢复时间等因素相关。
虚拟化技术为用户提供了统一的操作界面,屏蔽了低层的硬件差异和资源分布情况。计算资源的使用者和拥有者分离,用户无法得知低层硬件的构成,故障率及恢复时间等参数,因此无法使用传统的方法评估云计算系统的可用性。
基于此,现提出一种通过测量虚拟机启动时间的云计算系统可用性评估方法。通过使用该方法,最终用户可快速粗略评估云计算服务的可用性,用于选择云计算服务提供商,以及评估将关键应用迁移至云平台的可行性。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、云计算系统可用性评估方法。
一种云计算系统可用性评估方法,其具体实现步骤为:
一、首先评估云计算服务中虚拟机的启动时间;
二、然后根据虚拟机启动时间粗略评估云计算服务的可用性:评估虚拟机的平均故障间隔时间,粗略评估单台虚拟机的可用性,即通过下述公式完成评估:
虚拟机的平均故障间隔时间/(虚拟机的平均故障间隔时间+虚拟机的启动时间);
三、在服务商提供部分参数后精准评估云计算服务的可用性:评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性,其中虚拟机的可用性通过下述公式完成评估:
虚拟机集群平均故障间隔时间/(虚拟机集群平均故障间隔时间+虚拟机的启动时间)。
所述步骤一中的虚拟机的启动时间为虚拟机从申请资源到启动成功的时间,该申请资源到启动成功的具体过程包括:申请资源并分配、BIOS启动、Boot Loader运行、载入内核和初始化。
所述步骤一中虚拟机的启动时间的具体评估过程为:
首先记录开始时间;
通过云计算平台提供的API申请虚拟机并通过API获取虚拟机的IP信息;
在获得IP信息后,使用云计算API或ping命令获取虚拟机状态;
当ICMP协议有回应时,记录结束时间,两次记录的时间间隔即为虚拟机启动所需时间。
所述步骤二中云计算服务可用性粗略估计的具体过程为:
当云计算平台中平均每台物理机运行k个虚拟机时,单台虚拟机的MTBF为物理机MTBF的倍,即:
其中MTBFpm为物理服务器的平均故障间隔时间,MTBFvm为虚拟机的平均故障间隔时间,k为单台物理机上平均启动的虚拟机数量;
则单台虚拟机的可用性计算如下:
所述MTBF是指平均故障间隔时间,MTTRvm是指虚拟机的启动时间。
所述步骤三中云计算服务可用性精确估计过程为:
1)假设物理机平均故障间隔时间的数据采集矩阵PM为:
其中n表示云计算平台共有n个物理机;m表示采集数据时共有m个时间间隔,即t1,t2…,tm;nij表示物理机i在tj时间段共发生故障的次数;
2)每台物理机上不同时间段启动虚拟机的个数矩阵N为:
n表示云计算平台共有n个物理机;m表示采集数据时共有m个时间间隔,即t1,t2…,tm;kij表示物理机i在tj时间段内启动的虚拟机数;
3)则虚拟机的平均故障间隔时间VM为:
其中PM*N表示矩阵的点乘运算,同维矩阵点乘等于对应的元素相乘;
4)定义平均故障间隔时间MTBF为:
该公式中failure times为失效时间,是指上一次设备恢复正常状态uptime起,到设备此次失效那一刻downtime之间间隔的时间;
5)则单个物理机平均故障间隔时间:
k表示时间段编号,从1到m;j表示物理机i在时间段j发生故障次数编号,从1到m;Pi表示物理机i;表示物理机i的平均故障间隔时间;
6)物理机集群平均故障间隔时间:
i表示物理机编号;MTBFP表示物理机集群的平均故障间隔时间;
7)虚拟机集群平均故障间隔时间:
MTBFV表示虚拟机集群的平均故障间隔时间;
8)由物理机集群平均故障间隔时间得
故可得
故虚拟机的可用性计算如下:
本发明的一种云计算系统可用性评估方法,具有以下优点:
该发明的一种云计算系统可用性评估方法,通过使用该方法,最终用户可快速粗略评估云计算服务的可用性,用于选择云计算服务提供商,可用于决策是否将重要应用迁移至云平台,以及评估将关键应用迁移至云平台的可行性,实用性强,易于推广。
附图说明
附图1为物理机启动过程示意图。
附图2为虚拟机启动过程示意图。
附图3为虚拟机启动过程顺序图。
附图4为虚拟机启动时间度量流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
一种云计算系统可用性评估方法,云计算服务使用者可通过这种方法评估云计算系统的可用性,云计算运营商提供部分参数后可精确评估云计算服务的可用性。该方法可用于决策是否将重要应用迁移至云平台,以及评估基于云计算平台的各类应用可用性。
评估系统可用性是通过平均故障间隔时间MTBF(Mean Time Between Failure)和平均故障修复时间MTTR(Mean Time To Recovery)。
服务器的MTBF一般通过长时间连续运行,收集同类服务器故障发生的种类和频率计算得出。而云计算服务提供的虚拟机运行在异构分布式环境下,使用长时间采集故障有以下几个问题:1、虚拟化技术屏蔽了底层的物理服务器的配置等信息。2、根据云计算平台的调度策略,为了性能优化或节能等目的,运行中的虚拟机可在不同的服务器之间迁移。异构服务器故障率不同,但是虚拟机在不同服务器间迁移时用户无法感知。
为了提高服务器的可用性,一般的方法是通过热备部件降低故障修复时间MTTR。如RAID系统使用额外的硬盘作为热备盘,当其中有磁盘发生故障时,自动使用热备盘替代故障盘工作。对于云计算服务而言,虚拟化平台有足够的冗余资源,在各种故障导致虚拟机无法使用后可使用新的虚拟机替代原虚拟机提供服务。
如附图1、图2所示,其具体实现步骤为:
一、首先评估云计算服务中虚拟机的启动时间;
二、然后根据虚拟机启动时间粗略评估云计算服务的可用性:评估虚拟机的平均故障间隔时间,粗略评估单台虚拟机的可用性,即通过下述公式完成评估:
虚拟机的平均故障间隔时间/(虚拟机的平均故障间隔时间+虚拟机的启动时间);
三、在服务商提供部分参数后精准评估云计算服务的可用性:评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性,其中虚拟机的可用性通过下述公式完成评估:
虚拟机集群平均故障间隔时间/(虚拟机集群平均故障间隔时间+虚拟机的启动时间)。
其中步骤一中的虚拟机启动时间度量的具体过程为:
云计算以虚拟实例的形式提供云服务,虚拟机在云环境下的启动与物理机的启动过程有差别。物理机的启动过程如图1所示,启动包括BIOS,Boot Loader,载入内核和初始化四个步骤。而虚拟机在用户提出申请前其各种资源并没有预先分配,所以虚拟机启动过程还包括资源的分配。而资源的分配需要云计算平台多个模块协同工作,根据平台不同也需要较长时间。以Openstack为例,Openstack Nova中启动一个实例需要API服务、云控制器、调度、计算服务以及网络控制器等多个组件共同来完成。如图2,3所示,API服务接收一个run_instance的命令请求并将其转发给云控制器,在云控制器中主要进行权限的认证等工作,认证通过后云控制器将接受到的命令发送给调度器,调度器会遵循一定的调度策略,指定一个计算节点来启动一个实例;该计算服务节点主要用来管理实例的启动和终止等事宜,此时虚拟机的启动还需要一个固定IP这一重要的条件方可正常启动,因此计算服务组件将发一条消息给网络控制器,请求分配一个固定IP,在这些条件具备的情况下,在计算服务组件内再执行传统系统的启动所需的过程,最终完成虚拟机的启动。
对于基于云计算平台的各类系统而言,虚拟机启动时间可作为故障修复时间。该时间和虚拟机所需资源多少,云平台规模,资源负载都相关。虚拟机启动方法度量步骤如图4所示。首先记录开始时间,然后通过云计算平台提供的API申请虚拟机并通过API获取虚拟机的IP信息。在获得IP信息后使用云计算API或ping命令获取虚拟机状态。如ICMP协议有回应,则记录结束时间。两次记录的时间间隔即为虚拟机启动所需时间。在此过程中,请求虚拟机,获取IP信息,获取虚拟机状态都有可能超时或出错。
虚拟机从申请资源到启动成功的时间可以作为虚拟机故障后修复所需时间,即MTTR。
进一步的,步骤二中的云计算服务可用性粗略估计过程具体为:
服务器生产商一般在其产品说明书中提供服务器的平均故障间隔时间。服务器MTBF通常的时间为5万小时至30万小时。单台物理机故障会导致其上的所有虚拟机无法使用,所以单台虚拟机的平均故障间隔和物理机虚拟化的程度有关,即单台物理机上同时运行多少台虚拟机。假设云计算平台中平均每台物理机运行k个虚拟机。虚拟机的MTBF为物理机MTBF的倍。即:
其中MTBFpm为物理服务器的平均故障间隔时间,MTBFvm为虚拟机的平均故障间隔时间,k为单台物理机上平均启动的虚拟机数量;
则单台虚拟机的可用性计算如下:
所述步骤三中云计算服务可用性精确估计过程为:
1)假设物理机平均故障间隔时间的数据采集矩阵PM为:
其中n表示云计算平台共有n个物理机;m表示采集数据时共有m个时间间隔,即t1,t2…,tm;nij表示物理机i在tj时间段共发生故障的次数;
2)每台物理机上不同时间段启动虚拟机的个数矩阵N为:
n表示云计算平台共有n个物理机;m表示采集数据时共有m个时间间隔,即t1,t2…,tm;kij表示物理机i在tj时间段内启动的虚拟机数;
3)则虚拟机的平均故障间隔时间VM为:
其中PM*N表示矩阵的点乘运算,同维矩阵点乘等于对应的元素相乘;
4)定义平均故障间隔时间MTBF为:
该公式中failure times为失效时间,是指上一次设备恢复正常状态uptime起,到设备此次失效那一刻downtime之间间隔的时间;
5)则单个物理机平均故障间隔时间:
k表示时间段编号,从1到m;j表示物理机i在时间段j发生故障次数编号,从1到m;Pi表示物理机i;表示物理机i的平均故障间隔时间;
6)物理机集群平均故障间隔时间:
i表示物理机编号;MTBFP表示物理机集群的平均故障间隔时间;
7)虚拟机集群平均故障间隔时间:
MTBFV表示虚拟机集群的平均故障间隔时间;
8)由物理机集群平均故障间隔时间得
故可得
故虚拟机的可用性计算如下:
实施例:
一、虚拟机启动时间的度量步骤如图4所示。以云计算平台OpenStack为例:
1、首先记录开始时间。
2、通过云计算平台提供的API申请虚拟机。
3、通过API获取虚拟机的IP信息。
4、判断是否正常获取虚拟机的IP信息?如果正常获取虚拟机的IP信息,则继续进行第五步;如果没有正常获取到虚拟机的IP信息,则判断获取是否超时?若没有超时,则重新执行第三步,重新获取虚拟机IP信息;若超时,则虚拟机启动失败,跳至第九步。
5、使用云计算API或ping命令获取虚拟机状态。
6、判断获取虚拟机状态是否有回应?如果ICMP协议有回应,正常获取虚拟机状态,则继续进行第七步;如果获取虚拟机状态没有回应,则判断是否超时?若没有超时,则重新执行第五步,重新获取虚拟机状态;若超时,则虚拟机启动失败。
7、记录结束时间。
8、两次记录的时间间隔即为虚拟机启动所需时间。
9、结束。
二、云计算服务可用性粗略估计,该粗略估计的过程示例如下:
假设物理机的平均故障间隔时间为1年,即MTBFpm=1年。假设云计算平台中平均每台物理机运行12个虚拟机。则虚拟机的平均故障间隔时间为物理机平均故障间隔时间的1/12倍,即MTBFvm=1月。
测量虚拟机的启动时间为50秒,即MTTRvm=50秒。
因此,虚拟机的可用性为:
三、云计算服务可用性精确估计,该精准估计的过程示例如下:
假设物理机平均故障间隔时间的数据采集矩阵为:
行向量:表示物理机台数;
列向量:表示共进行8次数据采集,假设每次数据采集时间间隔为1个季度;
PMij:表示物理机i在第j个季度内发生故障的次数。
每台物理机上不同时间间隔内启动的虚拟机个数矩阵:
行向量:表示物理机台数;
列向量:表示共进行8次数据采集,假设每次数据采集时间间隔为1个季度;
Nij:表示物理机i在第j个季度启动的虚拟机个数。
则虚拟机的平均故障间隔时间为:
行向量:表示物理机台数;
列向量:表示共进行8次数据采集,假设每次数据采集时间间隔为1个季度;
VMij:表示物理机i在第j个季度内启动的虚拟机发生故障的次数。
测量虚拟机的启动时间为50秒,即MTTRV=50秒。
因此,虚拟机的可用性计算如下:
(1)单个物理机平均故障间隔时间:
单台物理机的平均故障时间间隔分别为:
(2)物理机集群平均故障间隔时间:
(3)虚拟机集群平均故障间隔时间:
(4)云计算平台上虚拟机的可用性:
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种云计算系统可用性评估方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (5)

1.一种云计算系统可用性评估方法,其特征在于,其具体实现步骤如下:
步骤一、首先评估云计算服务中虚拟机的启动时间;
步骤二、然后根据虚拟机启动时间粗略评估云计算服务的可用性:评估虚拟机的平均故障间隔时间,粗略评估单台虚拟机的可用性,即通过下述公式完成评估:
虚拟机的平均故障间隔时间/(虚拟机的平均故障间隔时间+虚拟机的启动时间);
步骤三、在服务商提供部分参数后精准评估云计算服务的可用性:评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性,其中虚拟机的可用性通过下述公式完成评估:
虚拟机集群平均故障间隔时间/(虚拟机集群平均故障间隔时间+虚拟机的启动时间)。
2.根据权利要求1所述的一种云计算系统可用性评估方法,其特征在于,所述步骤一中的虚拟机的启动时间为虚拟机从申请资源到启动成功的时间,该申请资源到启动成功的具体过程包括:申请资源并分配、BIOS启动、Boot Loader运行、载入内核和初始化。
3.根据权利要求2所述的一种云计算系统可用性评估方法,其特征在于,所述步骤一中虚拟机的启动时间的具体评估过程为:
首先记录开始时间;
通过云计算平台提供的API申请虚拟机并通过API获取虚拟机的IP信息;
在获得IP信息后,使用云计算API或ping命令获取虚拟机状态;
当ICMP协议有回应时,记录结束时间,两次记录的时间间隔即为虚拟机启动所需时间。
4.根据权利要求1、2或3所述的一种云计算系统可用性评估方法,其特征在于,所述步骤二中云计算服务可用性粗略估计的具体过程为:
当云计算平台中平均每台物理机运行k个虚拟机时,单台虚拟机的MTBF为物理机MTBF的倍,即:
<mrow> <msub> <mi>MTBF</mi> <mrow> <mi>v</mi> <mi>m</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>k</mi> </mfrac> <mo>*</mo> <msub> <mi>MTBF</mi> <mrow> <mi>p</mi> <mi>m</mi> </mrow> </msub> <mo>;</mo> </mrow>
其中MTBFpm为物理机的平均故障间隔时间,MTBFvm为虚拟机的平均故障间隔时间,k为单台物理机上平均启动的虚拟机数量;
则单台虚拟机的可用性计算如下:
<mrow> <mi>A</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>MTBF</mi> <mrow> <mi>v</mi> <mi>m</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>MTBF</mi> <mrow> <mi>v</mi> <mi>m</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>MTTR</mi> <mrow> <mi>v</mi> <mi>m</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
所述MTBF是指平均故障间隔时间,MTTRvm是指虚拟机的启动时间。
5.根据权利要求4所述的一种云计算系统可用性评估方法,其特征在于,所述步骤三中云计算服务可用性精确估计过程为:
1)假设物理机平均故障间隔时间的数据采集矩阵PM为:
<mrow> <mi>P</mi> <mi>M</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>n</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>n</mi> <mn>12</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mn>1</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>n</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>n</mi> <mn>22</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
其中n表示云计算平台共有n个物理机;m表示采集数据时共有m个时间间隔,即t1,t2…,tm;nij表示物理机i在tj时间间隔共发生故障的次数;
2)每台物理机上不同时间间隔启动虚拟机的个数矩阵N为:
<mrow> <mi>N</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>k</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>k</mi> <mn>12</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mn>1</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>k</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>k</mi> <mn>22</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
n表示云计算平台共有n个物理机;m表示采集数据时共有m个时间间隔,即t1,t2…,tm;kij表示物理机i在tj时间间隔内启动的虚拟机数;
3)则虚拟机的平均故障间隔时间VM为:
<mrow> <mtable> <mtr> <mtd> <mrow> <mi>V</mi> <mi>M</mi> <mo>=</mo> <mi>P</mi> <mi>M</mi> <mo>*</mo> <mi>N</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>n</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>n</mi> <mn>12</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mn>1</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>n</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>n</mi> <mn>22</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>*</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>k</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>k</mi> <mn>12</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mn>1</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>k</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>k</mi> <mn>22</mn> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>n</mi> <mn>11</mn> </msub> <msub> <mi>k</mi> <mn>11</mn> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>n</mi> <mn>12</mn> </msub> <msub> <mi>k</mi> <mn>12</mn> </msub> </mrow> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <mrow> <msub> <mi>n</mi> <mrow> <mn>1</mn> <mi>m</mi> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mn>1</mn> <mi>m</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>n</mi> <mn>21</mn> </msub> <msub> <mi>k</mi> <mn>21</mn> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>n</mi> <mn>22</mn> </msub> <msub> <mi>k</mi> <mn>22</mn> </msub> </mrow> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <mrow> <msub> <mi>n</mi> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mn>2</mn> <mi>m</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mn>1</mn> </mrow> </msub> </mrow> </mtd> <mtd> <mrow> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mn>2</mn> </mrow> </msub> </mrow> </mtd> <mtd> <mo>...</mo> </mtd> <mtd> <mrow> <msub> <mi>n</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>
其中A*B表示矩阵的点乘运算,同维矩阵点乘等于对应的元素相乘;
4)定义平均故障间隔时间MTBF为:
<mrow> <mi>M</mi> <mi>T</mi> <mi>B</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mrow> <mi>&amp;Sigma;</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>o</mi> <mi>w</mi> <mi>n</mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mo>-</mo> <mi>u</mi> <mi>p</mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>f</mi> <mi>a</mi> <mi>i</mi> <mi>l</mi> <mi>u</mi> <mi>r</mi> <mi>e</mi> <mi> </mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> </mrow> </mfrac> <mo>;</mo> </mrow>
该公式中failure times为失效时间,是指上一次设备恢复正常状态uptime起,到设备此次失效那一刻downtime之间间隔的时间;
5)则单个物理机平均故障间隔时间:
<mrow> <msub> <mi>MTBF</mi> <msub> <mi>P</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
k表示时间间隔编号,从1到m;j表示物理机i在时间间隔tj发生故障次数编号,从1到m;Pi表示物理机i;表示物理机i的平均故障间隔时间;tk表示采集数据时编号为k的时间间隔;
6)物理机集群平均故障间隔时间:
<mrow> <msub> <mi>MTBF</mi> <mi>P</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
i表示物理机编号;MTBFP表示物理机集群的平均故障间隔时间;
7)虚拟机集群平均故障间隔时间:
<mrow> <msub> <mi>MTBF</mi> <mi>V</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>
MTBFV表示虚拟机集群的平均故障间隔时间;
8)由物理机集群平均故障间隔时间得:
<mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>MTBF</mi> <mi>P</mi> </msub> <mo>;</mo> </mrow>
故可得
故虚拟机的可用性计算如下:
其中MTTRV表示虚拟机集群的启动时间。
CN201510112060.7A 2015-03-13 2015-03-13 一种云计算系统可用性评估方法 Active CN104780075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510112060.7A CN104780075B (zh) 2015-03-13 2015-03-13 一种云计算系统可用性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510112060.7A CN104780075B (zh) 2015-03-13 2015-03-13 一种云计算系统可用性评估方法

Publications (2)

Publication Number Publication Date
CN104780075A CN104780075A (zh) 2015-07-15
CN104780075B true CN104780075B (zh) 2018-02-23

Family

ID=53621330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510112060.7A Active CN104780075B (zh) 2015-03-13 2015-03-13 一种云计算系统可用性评估方法

Country Status (1)

Country Link
CN (1) CN104780075B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250251B (zh) * 2016-07-21 2018-12-21 北京航空航天大学 考虑共因和虚拟机故障迁移的云计算系统可靠性建模方法
CN106452939B (zh) * 2016-08-03 2019-05-21 哈尔滨工程大学 一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法
CN106571969B (zh) * 2016-11-11 2019-09-27 工业和信息化部电信研究院 一种云服务可用性评估方法和系统
CN106786559A (zh) * 2017-02-14 2017-05-31 全球能源互联网研究院 一种海上换流站可靠性的评估方法
CN107220152A (zh) * 2017-06-20 2017-09-29 郑州云海信息技术有限公司 一种nfv系统可用性测试方法及装置
CN108833209A (zh) * 2018-06-26 2018-11-16 郑州云海信息技术有限公司 一种云计算系统可用性确定方法及装置
CN111182006B (zh) * 2018-11-09 2022-11-29 阿里巴巴集团控股有限公司 一种物理集群映射为云计算资源的方法及装置
CN111083213B (zh) * 2019-12-09 2022-09-02 苏宁云计算有限公司 一种通信方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042702A (ko) * 2002-11-15 2004-05-20 한국전자통신연구원 가용도를 이용한 망 관리방법
CN103685542A (zh) * 2013-12-23 2014-03-26 重庆广播电视大学 云虚拟机迁移方法、装置和系统
CN103957229A (zh) * 2013-12-31 2014-07-30 电子科技大学 IaaS云系统中物理机的主动更新方法、装置及服务器
CN104104730A (zh) * 2014-07-25 2014-10-15 重庆广播电视大学 面向高可靠性的云系统虚拟机任务备份装置、系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030046615A1 (en) * 2000-12-22 2003-03-06 Alan Stone System and method for adaptive reliability balancing in distributed programming networks
US9026864B2 (en) * 2012-02-29 2015-05-05 Red Hat, Inc. Offloading health-checking policy
US20130339203A1 (en) * 2012-06-18 2013-12-19 International Business Machines Corporation Risk-based dynamic geo-location based replication of services in cloud computing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042702A (ko) * 2002-11-15 2004-05-20 한국전자통신연구원 가용도를 이용한 망 관리방법
CN103685542A (zh) * 2013-12-23 2014-03-26 重庆广播电视大学 云虚拟机迁移方法、装置和系统
CN103957229A (zh) * 2013-12-31 2014-07-30 电子科技大学 IaaS云系统中物理机的主动更新方法、装置及服务器
CN104104730A (zh) * 2014-07-25 2014-10-15 重庆广播电视大学 面向高可靠性的云系统虚拟机任务备份装置、系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
超级计算机系统的可用性评估研究;郑霄;《中国博士学位论文全文数据库》;20120131;全文 *

Also Published As

Publication number Publication date
CN104780075A (zh) 2015-07-15

Similar Documents

Publication Publication Date Title
CN104780075B (zh) 一种云计算系统可用性评估方法
US11182220B2 (en) Proactive high availability in a virtualized computer system
US11144570B2 (en) Data ingestion by distributed-computing systems
US9871851B2 (en) Migrating private infrastructure services to a cloud
US9009542B1 (en) Automatic testing and remediation based on confidence indicators
US8990639B1 (en) Automatic testing and remediation based on confidence indicators
US20150333977A1 (en) Methods and apparatus related to management of unit-based virtual resources within a data center environment
US20120311111A1 (en) Dynamic reconfiguration of cloud resources
US20150074450A1 (en) Hard disk drive (hdd) early failure detection in storage systems based on statistical analysis
US20140173336A1 (en) Cascading failover of blade servers in a data center
CN103440160A (zh) 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN109284220B (zh) 集群故障恢复时长估算方法、装置、设备及存储介质
US20150074251A1 (en) Computer system, resource management method, and management computer
US9606878B2 (en) Host swap hypervisor that provides high availability for a host of virtual machines
US9116860B2 (en) Cascading failover of blade servers in a data center
US9747156B2 (en) Management system, plan generation method, plan generation program
US11210150B1 (en) Cloud infrastructure backup system
JP2011248735A (ja) サーバ計算機の切替方法、管理計算機及びプログラム
US20160188373A1 (en) System management method, management computer, and non-transitory computer-readable storage medium
US20150370619A1 (en) Management system for managing computer system and management method thereof
US20120197624A1 (en) System and method for managing a storage array using simulation
Mathews et al. Service resilience framework for enhanced end-to-end service quality
US10067778B2 (en) Management system, recording medium and method for managing virtual machines
CN105471986A (zh) 一种数据中心建设规模评估方法及装置
US8756370B1 (en) Non-disruptive drive firmware upgrades

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant