CN104780075B

CN104780075B - 一种云计算系统可用性评估方法

Info

Publication number: CN104780075B
Application number: CN201510112060.7A
Authority: CN
Inventors: 张晓�; 赵晓南; 李战怀; 李阿妮
Original assignee: Northwestern Polytechnical University; Inspur Electronic Information Industry Co Ltd
Current assignee: Northwestern Polytechnical University; Inspur Electronic Information Industry Co Ltd
Priority date: 2015-03-13
Filing date: 2015-03-13
Publication date: 2018-02-23
Anticipated expiration: 2035-03-13
Also published as: CN104780075A

Abstract

本发明公开了一种云计算系统可用性评估方法，其具体实现过程为：首先评估云计算服务中虚拟机的启动时间；然后根据虚拟机启动时间粗略评估云计算服务的可用性：评估虚拟机的平均故障时间，粗略评估单台虚拟机的可用性；在服务商提供部分参数后精准评估云计算服务的可用性：评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性。该一种云计算系统可用性评估方法与现有技术相比，可用于决策是否将重要应用迁移至云平台，以及评估基于云计算平台的各类应用可用性，实用性强。

Description

一种云计算系统可用性评估方法

技术领域

本发明涉及云计算技术领域，具体地说是一种实用性强、云计算系统可用性评估方法。

背景技术

云计算是一种新型的应用模式，云计算提供商管理大量计算，存储资源，通过虚拟化等技术向用户提供计算，存储等资源。这些资源是按需分配，按量付费。云计算服务商承诺提供的服务达到服务级别(Service Agreeement Layer)。云计算系统常见的服务承诺包括性能，可用性。但是可用性缺乏定量评估手段，如每年平均故障时间小于10分钟等。历史上Amazon等云计算公司的服务也曾意外停机，2012年亚马逊在北Virginia州的数据中心因为飓风完全停止服务，影响搭建在其上的dropbox,netflix等公司的业务中断。

云计算提供商声称其服务具有高可用性，但是用户无法对云计算系统的可用性进行评估。云计算系统常常由成千上万个廉价服务器构成，其中软硬件故障频繁发生。传统的集群系统可用性评估方法依次评估物理节点的故障率，然后根据各个节点在系统中所处的位置建立可用性分析模型，最后计算得出系统整体的可用性。系统可用性和故障发生频率，容错机制和故障恢复时间等因素相关。

虚拟化技术为用户提供了统一的操作界面，屏蔽了低层的硬件差异和资源分布情况。计算资源的使用者和拥有者分离，用户无法得知低层硬件的构成，故障率及恢复时间等参数，因此无法使用传统的方法评估云计算系统的可用性。

基于此，现提出一种通过测量虚拟机启动时间的云计算系统可用性评估方法。通过使用该方法，最终用户可快速粗略评估云计算服务的可用性，用于选择云计算服务提供商，以及评估将关键应用迁移至云平台的可行性。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、云计算系统可用性评估方法。

一种云计算系统可用性评估方法，其具体实现步骤为：

一、首先评估云计算服务中虚拟机的启动时间；

二、然后根据虚拟机启动时间粗略评估云计算服务的可用性：评估虚拟机的平均故障间隔时间，粗略评估单台虚拟机的可用性，即通过下述公式完成评估：

虚拟机的平均故障间隔时间/(虚拟机的平均故障间隔时间+虚拟机的启动时间)；

三、在服务商提供部分参数后精准评估云计算服务的可用性：评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性，其中虚拟机的可用性通过下述公式完成评估：

虚拟机集群平均故障间隔时间/(虚拟机集群平均故障间隔时间+虚拟机的启动时间)。

所述步骤一中的虚拟机的启动时间为虚拟机从申请资源到启动成功的时间，该申请资源到启动成功的具体过程包括：申请资源并分配、BIOS启动、Boot Loader运行、载入内核和初始化。

所述步骤一中虚拟机的启动时间的具体评估过程为：

首先记录开始时间；

通过云计算平台提供的API申请虚拟机并通过API获取虚拟机的IP信息；

在获得IP信息后，使用云计算API或ping命令获取虚拟机状态；

当ICMP协议有回应时，记录结束时间，两次记录的时间间隔即为虚拟机启动所需时间。

所述步骤二中云计算服务可用性粗略估计的具体过程为：

当云计算平台中平均每台物理机运行k个虚拟机时，单台虚拟机的MTBF为物理机MTBF的倍，即:

其中MTBF_pm为物理服务器的平均故障间隔时间，MTBF_vm为虚拟机的平均故障间隔时间，k为单台物理机上平均启动的虚拟机数量；

则单台虚拟机的可用性计算如下:

所述MTBF是指平均故障间隔时间，MTTR_vm是指虚拟机的启动时间。

所述步骤三中云计算服务可用性精确估计过程为：

1)假设物理机平均故障间隔时间的数据采集矩阵PM为：

其中n表示云计算平台共有n个物理机；m表示采集数据时共有m个时间间隔，即t₁,t₂…,t_m；n_ij表示物理机i在t_j时间段共发生故障的次数；

2)每台物理机上不同时间段启动虚拟机的个数矩阵N为：

n表示云计算平台共有n个物理机；m表示采集数据时共有m个时间间隔，即t₁,t₂…,t_m；k_ij表示物理机i在t_j时间段内启动的虚拟机数；

3)则虚拟机的平均故障间隔时间VM为：

其中PM*N表示矩阵的点乘运算，同维矩阵点乘等于对应的元素相乘；

4)定义平均故障间隔时间MTBF为：

该公式中failure times为失效时间，是指上一次设备恢复正常状态uptime起，到设备此次失效那一刻downtime之间间隔的时间；

5)则单个物理机平均故障间隔时间：

k表示时间段编号，从1到m；j表示物理机i在时间段j发生故障次数编号，从1到m；P_i表示物理机i；表示物理机i的平均故障间隔时间；

6)物理机集群平均故障间隔时间：

i表示物理机编号；MTBF_P表示物理机集群的平均故障间隔时间；

7)虚拟机集群平均故障间隔时间：

MTBF_V表示虚拟机集群的平均故障间隔时间；

8)由物理机集群平均故障间隔时间得

故可得

即

故虚拟机的可用性计算如下：

本发明的一种云计算系统可用性评估方法，具有以下优点：

该发明的一种云计算系统可用性评估方法，通过使用该方法，最终用户可快速粗略评估云计算服务的可用性，用于选择云计算服务提供商，可用于决策是否将重要应用迁移至云平台，以及评估将关键应用迁移至云平台的可行性，实用性强，易于推广。

附图说明

附图1为物理机启动过程示意图。

附图2为虚拟机启动过程示意图。

附图3为虚拟机启动过程顺序图。

附图4为虚拟机启动时间度量流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

一种云计算系统可用性评估方法，云计算服务使用者可通过这种方法评估云计算系统的可用性，云计算运营商提供部分参数后可精确评估云计算服务的可用性。该方法可用于决策是否将重要应用迁移至云平台，以及评估基于云计算平台的各类应用可用性。

评估系统可用性是通过平均故障间隔时间MTBF(Mean Time Between Failure)和平均故障修复时间MTTR(Mean Time To Recovery)。

服务器的MTBF一般通过长时间连续运行，收集同类服务器故障发生的种类和频率计算得出。而云计算服务提供的虚拟机运行在异构分布式环境下，使用长时间采集故障有以下几个问题:1、虚拟化技术屏蔽了底层的物理服务器的配置等信息。2、根据云计算平台的调度策略，为了性能优化或节能等目的，运行中的虚拟机可在不同的服务器之间迁移。异构服务器故障率不同，但是虚拟机在不同服务器间迁移时用户无法感知。

为了提高服务器的可用性，一般的方法是通过热备部件降低故障修复时间MTTR。如RAID系统使用额外的硬盘作为热备盘，当其中有磁盘发生故障时，自动使用热备盘替代故障盘工作。对于云计算服务而言，虚拟化平台有足够的冗余资源，在各种故障导致虚拟机无法使用后可使用新的虚拟机替代原虚拟机提供服务。

如附图1、图2所示，其具体实现步骤为：

一、首先评估云计算服务中虚拟机的启动时间；

其中步骤一中的虚拟机启动时间度量的具体过程为：

云计算以虚拟实例的形式提供云服务，虚拟机在云环境下的启动与物理机的启动过程有差别。物理机的启动过程如图1所示，启动包括BIOS,Boot Loader,载入内核和初始化四个步骤。而虚拟机在用户提出申请前其各种资源并没有预先分配，所以虚拟机启动过程还包括资源的分配。而资源的分配需要云计算平台多个模块协同工作，根据平台不同也需要较长时间。以Openstack为例，Openstack Nova中启动一个实例需要API服务、云控制器、调度、计算服务以及网络控制器等多个组件共同来完成。如图2，3所示，API服务接收一个run_instance的命令请求并将其转发给云控制器，在云控制器中主要进行权限的认证等工作，认证通过后云控制器将接受到的命令发送给调度器，调度器会遵循一定的调度策略，指定一个计算节点来启动一个实例；该计算服务节点主要用来管理实例的启动和终止等事宜，此时虚拟机的启动还需要一个固定IP这一重要的条件方可正常启动，因此计算服务组件将发一条消息给网络控制器，请求分配一个固定IP，在这些条件具备的情况下，在计算服务组件内再执行传统系统的启动所需的过程，最终完成虚拟机的启动。

对于基于云计算平台的各类系统而言，虚拟机启动时间可作为故障修复时间。该时间和虚拟机所需资源多少，云平台规模，资源负载都相关。虚拟机启动方法度量步骤如图4所示。首先记录开始时间，然后通过云计算平台提供的API申请虚拟机并通过API获取虚拟机的IP信息。在获得IP信息后使用云计算API或ping命令获取虚拟机状态。如ICMP协议有回应，则记录结束时间。两次记录的时间间隔即为虚拟机启动所需时间。在此过程中，请求虚拟机，获取IP信息，获取虚拟机状态都有可能超时或出错。

虚拟机从申请资源到启动成功的时间可以作为虚拟机故障后修复所需时间，即MTTR。

进一步的，步骤二中的云计算服务可用性粗略估计过程具体为：

服务器生产商一般在其产品说明书中提供服务器的平均故障间隔时间。服务器MTBF通常的时间为5万小时至30万小时。单台物理机故障会导致其上的所有虚拟机无法使用，所以单台虚拟机的平均故障间隔和物理机虚拟化的程度有关，即单台物理机上同时运行多少台虚拟机。假设云计算平台中平均每台物理机运行k个虚拟机。虚拟机的MTBF为物理机MTBF的倍。即:

则单台虚拟机的可用性计算如下:

所述步骤三中云计算服务可用性精确估计过程为：

1)假设物理机平均故障间隔时间的数据采集矩阵PM为：

2)每台物理机上不同时间段启动虚拟机的个数矩阵N为：

3)则虚拟机的平均故障间隔时间VM为：

4)定义平均故障间隔时间MTBF为：

5)则单个物理机平均故障间隔时间：

6)物理机集群平均故障间隔时间：

7)虚拟机集群平均故障间隔时间：

MTBF_V表示虚拟机集群的平均故障间隔时间；

8)由物理机集群平均故障间隔时间得

故可得

即

故虚拟机的可用性计算如下：

实施例：

一、虚拟机启动时间的度量步骤如图4所示。以云计算平台OpenStack为例:

1、首先记录开始时间。

2、通过云计算平台提供的API申请虚拟机。

3、通过API获取虚拟机的IP信息。

4、判断是否正常获取虚拟机的IP信息？如果正常获取虚拟机的IP信息，则继续进行第五步；如果没有正常获取到虚拟机的IP信息，则判断获取是否超时？若没有超时，则重新执行第三步，重新获取虚拟机IP信息；若超时，则虚拟机启动失败，跳至第九步。

5、使用云计算API或ping命令获取虚拟机状态。

6、判断获取虚拟机状态是否有回应？如果ICMP协议有回应，正常获取虚拟机状态，则继续进行第七步；如果获取虚拟机状态没有回应，则判断是否超时？若没有超时，则重新执行第五步，重新获取虚拟机状态；若超时，则虚拟机启动失败。

7、记录结束时间。

8、两次记录的时间间隔即为虚拟机启动所需时间。

9、结束。

二、云计算服务可用性粗略估计，该粗略估计的过程示例如下:

假设物理机的平均故障间隔时间为1年，即MTBF_pm＝1年。假设云计算平台中平均每台物理机运行12个虚拟机。则虚拟机的平均故障间隔时间为物理机平均故障间隔时间的1/12倍，即MTBF_vm＝1月。

测量虚拟机的启动时间为50秒，即MTTR_vm＝50秒。

因此，虚拟机的可用性为：

三、云计算服务可用性精确估计，该精准估计的过程示例如下:

假设物理机平均故障间隔时间的数据采集矩阵为：

行向量：表示物理机台数；

列向量：表示共进行8次数据采集，假设每次数据采集时间间隔为1个季度；

PM_ij：表示物理机i在第j个季度内发生故障的次数。

每台物理机上不同时间间隔内启动的虚拟机个数矩阵：

行向量：表示物理机台数；

N_ij：表示物理机i在第j个季度启动的虚拟机个数。

则虚拟机的平均故障间隔时间为：

行向量：表示物理机台数；

VM_ij：表示物理机i在第j个季度内启动的虚拟机发生故障的次数。

测量虚拟机的启动时间为50秒，即MTTR_V＝50秒。

因此，虚拟机的可用性计算如下：

(1)单个物理机平均故障间隔时间：

单台物理机的平均故障时间间隔分别为：

(2)物理机集群平均故障间隔时间：

(3)虚拟机集群平均故障间隔时间：

(4)云计算平台上虚拟机的可用性：

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种云计算系统可用性评估方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种云计算系统可用性评估方法，其特征在于，其具体实现步骤如下：

步骤一、首先评估云计算服务中虚拟机的启动时间；

步骤二、然后根据虚拟机启动时间粗略评估云计算服务的可用性：评估虚拟机的平均故障间隔时间，粗略评估单台虚拟机的可用性，即通过下述公式完成评估：

步骤三、在服务商提供部分参数后精准评估云计算服务的可用性：评估出单台物理机平均故障间隔时间、物理机集群平均故障间隔时间、虚拟机集群平均故障间隔时间及虚拟机的可用性，其中虚拟机的可用性通过下述公式完成评估：

2.根据权利要求1所述的一种云计算系统可用性评估方法，其特征在于，所述步骤一中的虚拟机的启动时间为虚拟机从申请资源到启动成功的时间，该申请资源到启动成功的具体过程包括：申请资源并分配、BIOS启动、Boot Loader运行、载入内核和初始化。

3.根据权利要求2所述的一种云计算系统可用性评估方法，其特征在于，所述步骤一中虚拟机的启动时间的具体评估过程为：

首先记录开始时间；

在获得IP信息后，使用云计算API或ping命令获取虚拟机状态；

4.根据权利要求1、2或3所述的一种云计算系统可用性评估方法，其特征在于，所述步骤二中云计算服务可用性粗略估计的具体过程为：

其中MTBF_pm为物理机的平均故障间隔时间，MTBF_vm为虚拟机的平均故障间隔时间，k为单台物理机上平均启动的虚拟机数量；

则单台虚拟机的可用性计算如下:

5.根据权利要求4所述的一种云计算系统可用性评估方法，其特征在于，所述步骤三中云计算服务可用性精确估计过程为：

1)假设物理机平均故障间隔时间的数据采集矩阵PM为：

其中n表示云计算平台共有n个物理机；m表示采集数据时共有m个时间间隔，即t₁,t₂…,t_m；n_ij表示物理机i在t_j时间间隔共发生故障的次数；

2)每台物理机上不同时间间隔启动虚拟机的个数矩阵N为：

n表示云计算平台共有n个物理机；m表示采集数据时共有m个时间间隔，即t₁,t₂…,t_m；k_ij表示物理机i在t_j时间间隔内启动的虚拟机数；

3)则虚拟机的平均故障间隔时间VM为：

其中A*B表示矩阵的点乘运算，同维矩阵点乘等于对应的元素相乘；

4)定义平均故障间隔时间MTBF为：

<mrow> <mi>M</mi> <mi>T</mi> <mi>B</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>d</mi> <mi>o</mi> <mi>w</mi> <mi>n</mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mo>-</mo> <mi>u</mi> <mi>p</mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>f</mi> <mi>a</mi> <mi>i</mi> <mi>l</mi> <mi>u</mi> <mi>r</mi> <mi>e</mi> <mi> </mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

5)则单个物理机平均故障间隔时间：

<mrow> <msub> <mi>MTBF</mi> <msub> <mi>P</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>

k表示时间间隔编号，从1到m；j表示物理机i在时间间隔t_j发生故障次数编号，从1到m；P_i表示物理机i；表示物理机i的平均故障间隔时间；t_k表示采集数据时编号为k的时间间隔；

6)物理机集群平均故障间隔时间：

<mrow> <msub> <mi>MTBF</mi> <mi>P</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>

7)虚拟机集群平均故障间隔时间：

<mrow> <msub> <mi>MTBF</mi> <mi>V</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msub> <mi>k</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>

MTBF_V表示虚拟机集群的平均故障间隔时间；

8)由物理机集群平均故障间隔时间得：

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msub> <mi>MTBF</mi> <mi>P</mi> </msub> <mo>;</mo> </mrow>

故可得

即

故虚拟机的可用性计算如下：

其中MTTR_V表示虚拟机集群的启动时间。