CN103778031A

CN103778031A - 一种云环境下的分布式系统多级故障容错方法

Info

Publication number: CN103778031A
Application number: CN201410017308.7A
Authority: CN
Inventors: 邹德清; 金海�; 江昌庆; 羌卫中
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2014-05-07
Anticipated expiration: 2034-01-15
Also published as: CN103778031B

Abstract

本发明公开了一种云环境下的分布式系统多级故障容错方法，包括：基于虚拟机磁盘快照的分布式应用协同备份算法，能够对I/O状态以及所依赖的操作系统环境进行备份；分层故障检测和恢复机制，能够实时地检测物理层、虚拟化层、云平台层、虚拟机OS层和应用层故障，针对不同的故障采用相匹配的故障恢复方法。使得故障检测和恢复细化到模块，采用自顶向下逐级恢复的策略，做到恢复开销最小化；基于模板的虚拟容错集群服务部署策略，用户能够利用虚拟机模板一键部署虚拟机容错集群，并上传作业进行托管，同时使用经过授权的容错PaaS服务。本发明能够有效的解决现有集群部署复杂，容错开销大的问题，并且能够全方位应对云计算环境下分布式应用各层次故障。

Description

一种云环境下的分布式系统多级故障容错方法

技术领域

本发明属于云计算可靠性研究中的计算容灾领域，更具体地，涉及一种云环境下的分布式系统多级故障容错方法。

背景技术

在集群容错方面，传统的容错技术主要的是为了应对集群中的计算节点失效问题，主要采用的手段是时间冗余机制，即出现节点故障时利用备用节点接替故障节点，然后对业务应用程序进行回滚，从之前的某一个时刻开始重新执行。进程检查点/回滚是一种比较成熟和通用的利用时间冗余机制进行容错的技术。进程检查点技术能够将进行运行的CPU寄存器状态和内存映像保存到外部存储设备形成检查点文件，当节点失效时，可以在备用节点上利用检查点文件将进程恢复到被保存时刻的状态继续运行，实现迁移。这种技术的开销较小，但是可能因为迁移的目的节点系统环境和原节点不一致，造成恢复失败。在分布式环境下，由于分布式应用各节点之间存在通信，一个节点失效就会造成其他节点无法正常运行，因此，产生了分布式进程检查点协议，它要求在进行检查点设置的过程中，采用相应的协议对进程之间的通信进行协调，形成全局的一致性检查点。根据检查点和恢复协议的不同可分为独立检查点、协同检查点和通讯诱导检查点。基于检查点的容错方法通常需要添加操作系统内核模块的方式来支持对一个进程镜像做检查点（比如伯克利大学的BLCR系统），同时还需要运用协同检查点协议来处理进程间不断出现的复杂关系。

引入虚拟化技术之后，为系统容错提供了新的解决方案。虚拟化技术通过在操作系统之下插入一个新的虚拟层，可以有效管理和控制客户操作系统，可以对整个操作系统进行备份，从而减少和避免应用进程间的耦合关系，达到对应用透明的目的。同时利用虚拟化技术的优势，比如影子页表，内存压缩等技术，可以减少整个系统备份的时间。单个虚拟机的备份技术主要有虚拟机检查点技术。虚拟机检查点技术通过对整个虚拟机的内存、cpu等状态进行保存，能够使虚拟机在任何状态下恢复到做检查点时的状态，同时结合增量检查点技术能够提升备份的效率。但是虚拟机检查对于有消息通信的多虚拟机，并不能很好的解决其中所带来的问题，比如通过协同保护通信信道状态等。

在虚拟集群环境下，除了考虑单个虚拟机的备份之外，还要解决虚拟机之间的消息通讯问题。有研究者提出了虚拟集群环境下的协同容错方案，它对每个虚拟机独立地设置检查点，同时在虚拟机管理器层利用协同协议来保证多虚拟机全局检查点的一致性状态。这种方案对虚拟集群内的应用时透明的，但是其同步过程需要对每个虚拟机的网络进行阻塞，时间开销较大，同时对整个虚拟机内存进行备份造成很大的空间开销。

综上所述，现有的虚拟集群分布式系统容错方案分别存在如下不足：

直接利用物理集群分布式系统容错方案：高成本，物理集群容错方案一般采用进程级的分布式检查点方法，它只能对进程的状态进行备份和回滚，而不能保存操作系统的状态和环境。当出现节点失效时，只能将备份文件迁移到冗余的备用节点进行恢复，因此需要多余的节点一直处于运行状态，这对资源造成极大的浪费。此外，其扩展性差，应用程序恢复时需要解决进程迁移时对目标节点环境依赖问题，如IP地址、运行时环境等，因此恢复过程对目标系统环境依赖性强，对于新的应用可能存在问题。功能完备性差，只能解决虚拟机失效问题，对于下层的虚拟机管理器甚至物理机故障不能进行容错。

基于虚拟机内存检查点的方案：对应用性能影响大，由于每次备份要对虚拟机的内存进行完整保存，且在保存过程中需要阻塞网络，会造成较长的停机时间。空间开销大，虚拟集群节点规模一般较大，且虚拟机内存都是G数量级的，保存所有虚拟机内存所消耗的存储空间十分巨大。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种云环境下的分布式系统多级故障容错方法，其目的在于综合解决云计算虚拟集群环境下存在的物理机故障、虚拟机故障、应用故障容错的技术问题，并可实现资源利用的优化和性能的提高，为用户提供易用的接口。

为实现上述目的，按照本发明的一个方面，提供了一种云环境下的分布式系统多级故障容错方法，包括以下步骤：

（1）主节点接收用户通过Web界面定制的虚拟机镜像模板；

（2）主节点根据虚拟机镜像模板配置虚拟集群的参数，根据配置的虚拟集群的参数创建虚拟集群，并将虚拟集群中的虚拟机部署到各物理机；

（3）主节点接收用户上传的作业及其运行参数，并根据该运行参数判断用户是否需要对作业进行容错，如果是则转入步骤（5），否则转入步骤（4）；

（4）主节点将作业添加到运行作业队列中，等待该作业运行完毕，并将运行结果返回给用户；

（5）主节点将需要容错的作业添加到容错作业队列中，等待该作业运行，其中在该作业的运行过程中执行备份操作，在运行过程中出现故障时执行恢复操作，并在作业运行完毕后将结果返回给用户。

优选地，备份操作包括以下步骤：

（1-1）主节点向从节点发送检查点请求消息；

（1-2）从节点将自身状态标记为忙，并暂停本地作业进程的运行，清空其网络发送缓冲区中的数据包，并向其所有兄弟从节点的进程发送驱赶消息；

（1-3）从节点监听并判断是否接收到其所有兄弟从节点发送的驱赶消息，如果收到，则转步骤（1-4）；否则转步骤（1-6）。

（1-4）从节点为作业设置本地临时检查点，包括局部进程检查点和磁盘快照：

（1-5）从节点向主节点发送确认消息，表示其本地临时检查点设置成功，并等待主节点的回复消息，然后转步骤（1-7）。

（1-6）从节点将其状态设置成失败，并向主节点发送失败消息，表示其本地临时检查点设置失败，并等待主节点的回复消息，然后转步骤（1-9）；

（1-7）主节点在收到所有从节点发送的成功消息时，向所有从节点广播提交检查点消息，然后转入步骤（1-8）；

（1-8）从节点接收提交检查点消息，将其状态标记为空闲，将临时检查点设置成永久检查点，恢复作业进程运行，并将备份文件提交到备份库，然后转步骤（1-11）；

（1-9）主节点在收到从节点发送的失败消息时，向所有从节点发送撤销临时检查点消息，以撤销所有局部检查点；

（1-10）从节点接收销临时检查点消息，将其状态标记为空闲，恢复作业进程运行，并清除本地临时检查点；

（1-11）从节点等待主节点发送的新一轮检查点请求信息，然后返回步骤（1-1）；

优选地，步骤（1-4）具体包括以下子步骤：

（1-4-1）从节点设置作业的局部进程检查点，即将作业的进程CPU寄存器状态和内存映像保存到虚拟机磁盘以形成局部进程检查点，并请求虚拟机管理器对虚拟机磁盘做快照；

（1-4-2）虚拟机管理器关闭中断并缓存虚拟机磁盘I/O，为虚拟机磁盘设置快照，然后恢复虚拟机磁盘I/O和中断；

（1-4-3）虚拟机管理器将快照之前的所有快照删除，仅保留该快照作为备份文件，并向从节点发送虚拟中断；

（1-4-4）从节点将其状态设置为成功，表示本地临时检查点设置成功。

优选地，恢复操作包括如下步骤：

（2-1）主节点检查故障类型，如果是物理机故障，则转步骤（2-2）。如果是虚拟机故障，则定位故障虚拟机所在的物理机，然后转步骤（2-3）。如果是作业程序故障，则转步骤（2-8）；

（2-2）主节点利用物理机调度算法为故障虚拟机集合中的所有虚拟机寻找合适的物理机，将备份库中的备份文件拷贝到相应的物理机，然后转步骤（2-3）；

（2-3）主节点向各物理机上的虚拟机管理器发送虚拟机恢复消息；

（2-4）虚拟机管理器收到虚拟机恢复消息之后，首先清除处于假死状态的故障虚拟机，然后选取该物理机上与故障虚拟机属于同一虚拟集群的正常虚拟机作为模板，将其克隆成一个新子虚拟机，并将子虚拟机挂起；

（2-5）虚拟机管理器将虚拟机基础磁盘镜像和备份文件进行合并，并将其挂载到克隆出的子虚拟机上，然后将其唤醒，并自动修改虚拟机的相关配置；

（2-6）虚拟机管理器完成该物理机上所有故障虚拟机的恢复操作之后，向主节点发送确认消息；

（2-7）主节点收到所有虚拟机管理器发送的确认消息之后，将虚拟集群的状态标记为运行状态，然后转步骤（2-8）；

（2-8）主节点向各从节点发送本地作业进程恢复请求；

（2-9）从节点检查本地是否还有残余的作业进程在运行，如果有则将它们清除，然后请求虚拟机管理器对虚拟机磁盘快照进行回滚，并等待虚拟机管理器返回；

（2-10）虚拟机管理器关闭中断并缓存虚拟机I/O，恢复虚拟机磁盘快照，释放虚拟机I/O缓存并打开中断，并向从节点发送返回消息以表明磁盘快照回滚成功，这时虚拟机的磁盘状态恢复到设置磁盘快照时刻的状态；

（2-11）从节点从虚拟机磁盘中读取网络数据，重填到网络缓冲区中；

（2-12）从节点从虚拟机磁盘读取进程检查点文件，装载到内存，并恢复进程运行，如果恢复成功，向主节点发送确认消息，否则发送失败消息；

（2-13）主节点判断是否接收到所有从节点发送的确认消息，若是则表明应用已恢复正常运行，将作业状态标记为运行状态，否则说明作业恢复失败，产生错误提示。

优选地，步骤（2-2）中的物理机调度算法包括以下子步骤：

（2-2-1）根据被分配到物理机H_i的虚拟机数量N_i、物理机的总数量n和虚拟集群中虚拟机总数量N并采用以下公式计算物理机H_i上属于虚拟集群的虚拟机密度D_i、所有n个物理机的平均虚拟机密度

物理机H_i的故障率R_i、以及n个物理机的平均故障率

D_i=N_i/N （式1）

\overset{&OverBar;}{D} = Σ_{i = 1}^{n} D_{i} / n

（式2）

R_{i} = \{\begin{matrix} 0 & (F = 0) \\ \frac{F_{i}}{F} & (F > 0) \end{matrix}

（式3）

\overset{&OverBar;}{R} = Σ_{i = 1}^{n} R_{i} / n

（式4）

其中i=1,2…n，F表示过去所有n个物理机出现故障的总次数，且F_i表示物理机H_i出现故障的次数；

（2-2-2）在H={H₁,H₂，…，H_n}集合中求解子集合H’={H₁’,H₂’，…，H_k’}，使得H’中的每个元素H_p’均满足：

D_{p} \leq \overset{&OverBar;}{D};

R_{p} \leq \overset{&OverBar;}{R}, R_{p} \leq R_{q}, (p \leq q \leq k);

H_p不为故障节点

其中1≤p≤k，k为子集合中元素的总数量；

（2-2-3）判断故障虚拟机的集合V={V₁,V₂…V_m}是否不为空，如果是则设置计数器r=1，从集合V中任取V_j，其中1≤j≤m，并转入步骤（2-2-4），否则转入步骤（2-2-6），其中m为故障虚拟机的总数量；

（2-2-4）判断H_r’的资源池是否满足故障虚拟机V_j的资源配额，并且物理机H_r’的负载是否满足故障虚拟机V_j的运行条件，若同时满足则将V_j调度到H_r’，并更新集合V=V–{V_j}，同时更新故障物理机和调度目标物理机的资源配额，然后返回步骤（2-2-3），否则转步骤（2-2-5）；资源配额包括给定虚拟机V_j所需的虚拟机CPU、内存、磁盘空间等资源，配额上限和云平台相关；

（2-2-5）设置r=r+1，并判断是否有r不大于k，若是则返回步骤（2-2-4）；否则表示调度失败，过程结束；

（2-2-6）所有故障虚拟机调度完成，生成调度结果。

按照本发明的另一方面，提供了一种云环境下的分布式系统多级故障容错系统，包括：

第一模块，用于接收用户通过Web界面定制的虚拟机镜像模板；

第二模块，用于根据虚拟机镜像模板配置虚拟集群的参数，根据配置的虚拟集群的参数创建虚拟集群，并将虚拟集群中的虚拟机部署到各物理机；

第三模块，用于接收用户上传的作业及其运行参数，并根据该运行参数判断用户是否需要对作业进行容错，如果是则转入第五模块，否则转入第四模块；

第四模块，用于将作业添加到运行作业队列中，等待该作业运行完毕，并将运行结果返回给用户；

第五模块，用于将需要容错的作业添加到容错作业队列中，等待该作业运行，其中在该作业的运行过程中执行备份操作，在运行过程中出现故障时执行恢复操作，并在作业运行完毕后将结果返回给用户。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果:

（1）本发明门槛低、灵活性高：传统的物理集群不仅要维护物理服务器，还要配置集群系统和容错软件，对非专业人员难度大。现有的云计算虚拟集群服务，如亚马逊网络服务（Amazon Web Service，简称AWS）集群实例也只是提供IaaS级别的裸机服务，集群软件和容错环境都需要用户自己配置；本发明提供虚拟容错集群PaaS服务，解决了集群维护和作业管理的难题，实现了作业托管和自动容错，用户使用接口简单。

（2）本发明的方法能够实现较高的扩展性，即对于新的分布式应用，只需基于模板创建新的增量模板，一次创建多次使用。

（3）本发明具备高可靠性：采用分层的故障检测和恢复机制，能够全方位应对云环境下分布式应用面临的各级别的故障挑战。I/O状态备份也解决了部分数据容灾问题，这一点是现有方案所普遍欠缺的，现有方案只侧重于计算容灾。

（4）本发明资源利用率高：除了虚拟化带来的资源利用率提升之外，本发明的基于虚拟机克隆的备用虚拟机动态创建方法省去了冗余的备用节点，大大减小了资源占用。

（5）本发明具备高性能：基于虚拟机磁盘快照的分布式协同检查点机制在不需要虚拟机暂停的情况下实现应用执行状态和I/O数据保存，减小了虚拟机备份和调度开销。

附图说明

图1是本发明云环境下的分布式系统多级故障容错方法的应用环境图。

图2是本发明云环境下的分布式系统多级故障容错方法的流程图。

图3为基于虚拟机磁盘快照的分布式协同检查点协议状态图。

图4示出分层故障恢复框架及其各层次故障恢复的原理。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的最终目标是实现完整的云环境下虚拟集群分布式应用容错系统，该系统能够集成到现有的云平台之中，提供独立的云服务。下面给出本发明基于Xen虚拟化平台和OpenNebula云平台的实施方案。

如图1所示，本发明实现的方法是基于IaaS云平台构建，在已有的云资源管理、弹性计算服务的基础之上，实现容错虚拟集群PaaS，本发明提供的服务包括模板定制服务、虚拟集群管理服务、作业管理服务和特色的作业备份、故障检测及自动恢复服务，下面说明各服务的主要功能。

模板定制：对云平台自身的镜像管理服务进行封装，为用户提供在线的虚拟机模板定制功能，利用基础镜像生成新的用户镜像，并安装用户定制的应用软件。

集群管理：为用户提供可视化的集群管理界面，提供弹性的集群创建/删除功能，且支持动态扩容。用户能够像管理虚拟机一样集中管理集群。

作业管理：为用户提供作业托管服务，用户无需对作业进行环境配置和运行维护。

作业备份：对申请了容错服务的作业进行周期性的备份。

故障检测：分别对分布式应用、虚拟机和物理机进行状态监控，检测出故障时生成故障报告。

故障恢复：针对故障检测生成的故障报告，采取相应的恢复策略，在最短时间内自动将作业恢复到最近一次备份点重新运行，整个过程对用户透明。

如图2所示，本发明云环境下的分布式系统多级故障容错方法包括以下步骤：

（1）主节点接收用户通过Web界面定制的虚拟机镜像模板；

（2）主节点根据虚拟机镜像模板配置虚拟集群的参数，根据配置的虚拟集群的参数创建虚拟集群，并将虚拟集群中的虚拟机部署到各物理机；具体而言，虚拟集群的参数包括虚拟机的虚拟CPU、内存、虚拟集群的规模、虚拟网络等；

上述步骤描述了本发明基于PaaS模式的服务流程，它提供了一种新的容错服务模式“容错即服务”。在物理集群环境下，用户需要自己配置集群系统，甚至管理物理设备，在运行作业之前需要手动配置分布式应用运行时环境和容错系统，这对于非专业人员存在很大的门槛。在虚拟集群环境下，虽然IaaS服务为用户省去了机器管理的负担，但是它提供的仍然是裸机服务，用户如果要部署分布式程序，也需要自己在成百上千台虚拟机上部署运行环境和容错环境。本发明采用一种“容错即服务”的思想，将集群管理和容错功能作为服务提供给用户，使得用户不再需要关心集群的配置和维护，而只专注于自己的分布式应用程序。它具有以下优点：

1、利用增量镜像模板定制和封装容错环境，可以做到一次定制多次使用，无需频繁配置，并且能够同时部署多台相同的虚拟机；

2、在有新的应用需求时，只需在模板基础上添加新的定制环境生成增量镜像，而无需重新制作镜像。

3、将大量虚拟机抽象一个整体，对其进行集中管理，省去了单独对每台虚拟机进行维护的麻烦，且支持动态扩容。第四，作业托管彻底将容错平台化服务化，使得用户对应用部署以及环境配置完全透明。

如图1所示，上述流程中的备份操作包括以下步骤：

（1-1）主节点向从节点发送检查点请求消息；

（1-2）从节点将自身状态标记为忙，并暂停本地作业进程的运行，清空其网络发送缓冲区中的数据包，并向其所有兄弟从节点的进程发送驱赶消息；基于FIFO的原理，从节点发送的驱赶消息到达目的从节点时，确保了该从节点发往目的从节点的正常数据包已经到达；

（1-4）从节点为作业设置本地临时检查点，包括局部进程检查点和磁盘快照：本步骤具体包括以下子步骤：

（1-4-2）虚拟机管理器关闭中断并缓存虚拟机磁盘I/O，为虚拟机磁盘设置快照，然后恢复虚拟机磁盘I/O和中断；快照保存了当前时刻的文件系统状态和进程运行状态，之后新的读写请求不会对快照造成改变；

（1-4-4）从节点将其状态设置为成功，表示本地临时检查点设置成功；

上述备份步骤描述了一种基于虚拟机磁盘快照的作业状态备份方法，该方法相比现有的方法具有以下优点：

1、相比进程级的分布式检查点方法，本备份方法利用了I/O虚拟化技术封装了整个操作系统环境，不仅能够备份进行的执行状态，还能够保存应用程序的I/O数据以及其所依赖的操作系统环境，解决了进程迁移的问题。

2、相比于直接对虚拟机进行完全状态备份的方法，本方法不需要保存整个虚拟机的内存数据，也不需要暂停虚拟机运行，更不需要对虚拟机的网络数据包进行截获和缓存，大大提高了性能。它只备份了与应用相关的状态而忽略了虚拟机状态，这些状态数据足以对应用实施恢复而又至于造成状态丢失。显然，为了能够恢复某个应用而备份整个虚拟机的状态是不可取的，因为我们的目标只关注某个应用是否提供可靠的服务，而其他的应用状态是可以忽略的，事实上，集群分布式应用功能都是单一的，比如HPC集群和Web集群肯定是分开的。

3、采用二级备份存储策略，在本地物理机保留备份文件，同时利用空闲时间将备份文件提交到全局备份库中，提高了备份数据的可靠性。全局备份库利用各物理机空闲存储空间构建，采用分布式存储架构，提高存储利用率的同时解决的集中存储存在的I/O瓶颈问题。

作业出现故障时采用分层的恢复框架逐级对物理机故障、虚拟机故障和应用程序故障进行恢复，如图3所示。具体的恢复操作包括如下步骤：

本步骤的优点在于，虚拟机克隆实际上是一种非完全克隆，它只利用了父虚拟机的内存等数据，而虚拟机磁盘还是使用故障虚拟机自己的磁盘，这种“嫁接”式的虚拟机恢复方法，在提高虚拟机恢复效率的同时最大限度地保留了原虚拟机的数据。

（2-8）主节点向各从节点发送本地作业进程恢复请求；

上述步骤所描述的分层故障恢复方法具有以下优点：

1、云计算环境下，软件系统层次更加复杂，因此故障和失效点更多，不同层次故障造成的影响和所采取的恢复策略都不相同。根据恢复方式，云环境中的故障可以分为物理机故障、虚拟机故障和应用程序进程故障。现有的解决方案一般只关注虚拟机故障，即计算节点失效的情况，而应用程序的进程故障往往由软件开发者自己解决。对于宿主机故障，现有方案一般依赖于基础设施云服务提供商。因此，很少有综合考虑各层次故障的解决方案。本发明提出的分层的故障恢方法能够全面覆盖云计算环境下的物理机故障、虚拟机故障和分布式应用故障，提高了容错的覆盖面，并且采用自顶向下逐级恢复的策略，降低了耦合性，增加了故障恢复的成功率。

2、创造性地提出了以虚拟机克隆和虚拟机磁盘动态挂载的“嫁接”式虚拟机恢复方法，减小虚拟机恢复时间的同时最大限度地保留了原虚拟机的数据。因此，本故障恢复方法即不依赖于冗余的虚拟机，也不需要预先对整个虚拟机状态进行备份，减少了不必要的开销。

3、本恢复复方法中的虚拟机恢复步骤能够完全恢复虚拟机操作系统的环境，解决的了应用程序进程恢复时对系统的依赖问题。同时，也能够对应用程序的输出数据进行回滚，这是现有方法所欠缺的。

4、采用了物理机调度算法，保证大量虚拟机失效的情况下也能够在其他正常运行的物理机上对故障虚拟机进行恢复。

以下详细介绍上述（2-2）中的物理机调度算法：

物理机H_i的故障率R_i、以及n个物理机的平均故障率

D_i=N_i/N （式1）

\overset{&OverBar;}{D} = Σ_{i = 1}^{n} D_{i} / n

（式2）

R_{i} = \{\begin{matrix} 0 & (F = 0) \\ \frac{F_{i}}{F} & (F > 0) \end{matrix}

（式3）

\overset{&OverBar;}{R} = Σ_{i = 1}^{n} R_{i} / n

（式4）

D_{p} \leq \overset{&OverBar;}{D};

R_{p} \leq \overset{&OverBar;}{R}, R_{p} \leq R_{q}, (p \leq q \leq k);

H_p不为故障节点

其中1≤p≤k，k为子集合中元素的总数量；

（2-2-6）所有故障虚拟机调度完成，生成调度结果。

本物理机调度算法能够保证在物理机出现故障之后，运行在该物理机上的虚拟机能够被正确地调度到其他健康的物理机恢复运行，降低了故障恢复之后再次发生同类故障的概率。

应用实例

本发明实现的系统适用于一般的数据中心，利用普通服务器即可构建云计算平台并部署分发明所实现的系统。以下是软硬件环境样例。

其中，管理节点部署云平台OpenNebula管理服务，对各计算节点的资源进行管理。本发明实现的系统的核心服务也部署到管理节点，为了保证服务本身可靠，管理节点采用双机热备，做到7x24不间断服务。计算节点用来运行大量的虚拟机，部署了Xen虚拟化平台。

本发明不仅仅局限于上述场景，能够应用到通用的云计算框架中。本发明主要应用于分布式云服务，为确保分布式云服务的可靠性，可以利用本发明构建高可用的虚拟集群，为上层的分布式应用提供容错功能支撑。本发明提出的方案适合于云服务提供商，为普通用户提供高效透明的分布式应用容错服务。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。