CN103778031A - 一种云环境下的分布式系统多级故障容错方法 - Google Patents

一种云环境下的分布式系统多级故障容错方法 Download PDF

Info

Publication number
CN103778031A
CN103778031A CN201410017308.7A CN201410017308A CN103778031A CN 103778031 A CN103778031 A CN 103778031A CN 201410017308 A CN201410017308 A CN 201410017308A CN 103778031 A CN103778031 A CN 103778031A
Authority
CN
China
Prior art keywords
virtual machine
node
fault
virtual
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410017308.7A
Other languages
English (en)
Other versions
CN103778031B (zh
Inventor
邹德清
金海�
江昌庆
羌卫中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410017308.7A priority Critical patent/CN103778031B/zh
Publication of CN103778031A publication Critical patent/CN103778031A/zh
Application granted granted Critical
Publication of CN103778031B publication Critical patent/CN103778031B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明公开了一种云环境下的分布式系统多级故障容错方法,包括:基于虚拟机磁盘快照的分布式应用协同备份算法,能够对I/O状态以及所依赖的操作系统环境进行备份;分层故障检测和恢复机制,能够实时地检测物理层、虚拟化层、云平台层、虚拟机OS层和应用层故障,针对不同的故障采用相匹配的故障恢复方法。使得故障检测和恢复细化到模块,采用自顶向下逐级恢复的策略,做到恢复开销最小化;基于模板的虚拟容错集群服务部署策略,用户能够利用虚拟机模板一键部署虚拟机容错集群,并上传作业进行托管,同时使用经过授权的容错PaaS服务。本发明能够有效的解决现有集群部署复杂,容错开销大的问题,并且能够全方位应对云计算环境下分布式应用各层次故障。

Description

一种云环境下的分布式系统多级故障容错方法
技术领域
本发明属于云计算可靠性研究中的计算容灾领域,更具体地,涉及一种云环境下的分布式系统多级故障容错方法。
背景技术
在集群容错方面,传统的容错技术主要的是为了应对集群中的计算节点失效问题,主要采用的手段是时间冗余机制,即出现节点故障时利用备用节点接替故障节点,然后对业务应用程序进行回滚,从之前的某一个时刻开始重新执行。进程检查点/回滚是一种比较成熟和通用的利用时间冗余机制进行容错的技术。进程检查点技术能够将进行运行的CPU寄存器状态和内存映像保存到外部存储设备形成检查点文件,当节点失效时,可以在备用节点上利用检查点文件将进程恢复到被保存时刻的状态继续运行,实现迁移。这种技术的开销较小,但是可能因为迁移的目的节点系统环境和原节点不一致,造成恢复失败。在分布式环境下,由于分布式应用各节点之间存在通信,一个节点失效就会造成其他节点无法正常运行,因此,产生了分布式进程检查点协议,它要求在进行检查点设置的过程中,采用相应的协议对进程之间的通信进行协调,形成全局的一致性检查点。根据检查点和恢复协议的不同可分为独立检查点、协同检查点和通讯诱导检查点。基于检查点的容错方法通常需要添加操作系统内核模块的方式来支持对一个进程镜像做检查点(比如伯克利大学的BLCR系统),同时还需要运用协同检查点协议来处理进程间不断出现的复杂关系。
引入虚拟化技术之后,为系统容错提供了新的解决方案。虚拟化技术通过在操作系统之下插入一个新的虚拟层,可以有效管理和控制客户操作系统,可以对整个操作系统进行备份,从而减少和避免应用进程间的耦合关系,达到对应用透明的目的。同时利用虚拟化技术的优势,比如影子页表,内存压缩等技术,可以减少整个系统备份的时间。单个虚拟机的备份技术主要有虚拟机检查点技术。虚拟机检查点技术通过对整个虚拟机的内存、cpu等状态进行保存,能够使虚拟机在任何状态下恢复到做检查点时的状态,同时结合增量检查点技术能够提升备份的效率。但是虚拟机检查对于有消息通信的多虚拟机,并不能很好的解决其中所带来的问题,比如通过协同保护通信信道状态等。
在虚拟集群环境下,除了考虑单个虚拟机的备份之外,还要解决虚拟机之间的消息通讯问题。有研究者提出了虚拟集群环境下的协同容错方案,它对每个虚拟机独立地设置检查点,同时在虚拟机管理器层利用协同协议来保证多虚拟机全局检查点的一致性状态。这种方案对虚拟集群内的应用时透明的,但是其同步过程需要对每个虚拟机的网络进行阻塞,时间开销较大,同时对整个虚拟机内存进行备份造成很大的空间开销。
综上所述,现有的虚拟集群分布式系统容错方案分别存在如下不足:
直接利用物理集群分布式系统容错方案:高成本,物理集群容错方案一般采用进程级的分布式检查点方法,它只能对进程的状态进行备份和回滚,而不能保存操作系统的状态和环境。当出现节点失效时,只能将备份文件迁移到冗余的备用节点进行恢复,因此需要多余的节点一直处于运行状态,这对资源造成极大的浪费。此外,其扩展性差,应用程序恢复时需要解决进程迁移时对目标节点环境依赖问题,如IP地址、运行时环境等,因此恢复过程对目标系统环境依赖性强,对于新的应用可能存在问题。功能完备性差,只能解决虚拟机失效问题,对于下层的虚拟机管理器甚至物理机故障不能进行容错。
基于虚拟机内存检查点的方案:对应用性能影响大,由于每次备份要对虚拟机的内存进行完整保存,且在保存过程中需要阻塞网络,会造成较长的停机时间。空间开销大,虚拟集群节点规模一般较大,且虚拟机内存都是G数量级的,保存所有虚拟机内存所消耗的存储空间十分巨大。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种云环境下的分布式系统多级故障容错方法,其目的在于综合解决云计算虚拟集群环境下存在的物理机故障、虚拟机故障、应用故障容错的技术问题,并可实现资源利用的优化和性能的提高,为用户提供易用的接口。
为实现上述目的,按照本发明的一个方面,提供了一种云环境下的分布式系统多级故障容错方法,包括以下步骤:
(1)主节点接收用户通过Web界面定制的虚拟机镜像模板;
(2)主节点根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机;
(3)主节点接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入步骤(5),否则转入步骤(4);
(4)主节点将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户;
(5)主节点将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。
优选地,备份操作包括以下步骤:
(1-1)主节点向从节点发送检查点请求消息;
(1-2)从节点将自身状态标记为忙,并暂停本地作业进程的运行,清空其网络发送缓冲区中的数据包,并向其所有兄弟从节点的进程发送驱赶消息;
(1-3)从节点监听并判断是否接收到其所有兄弟从节点发送的驱赶消息,如果收到,则转步骤(1-4);否则转步骤(1-6)。
(1-4)从节点为作业设置本地临时检查点,包括局部进程检查点和磁盘快照:
(1-5)从节点向主节点发送确认消息,表示其本地临时检查点设置成功,并等待主节点的回复消息,然后转步骤(1-7)。
(1-6)从节点将其状态设置成失败,并向主节点发送失败消息,表示其本地临时检查点设置失败,并等待主节点的回复消息,然后转步骤(1-9);
(1-7)主节点在收到所有从节点发送的成功消息时,向所有从节点广播提交检查点消息,然后转入步骤(1-8);
(1-8)从节点接收提交检查点消息,将其状态标记为空闲,将临时检查点设置成永久检查点,恢复作业进程运行,并将备份文件提交到备份库,然后转步骤(1-11);
(1-9)主节点在收到从节点发送的失败消息时,向所有从节点发送撤销临时检查点消息,以撤销所有局部检查点;
(1-10)从节点接收销临时检查点消息,将其状态标记为空闲,恢复作业进程运行,并清除本地临时检查点;
(1-11)从节点等待主节点发送的新一轮检查点请求信息,然后返回步骤(1-1);
优选地,步骤(1-4)具体包括以下子步骤:
(1-4-1)从节点设置作业的局部进程检查点,即将作业的进程CPU寄存器状态和内存映像保存到虚拟机磁盘以形成局部进程检查点,并请求虚拟机管理器对虚拟机磁盘做快照;
(1-4-2)虚拟机管理器关闭中断并缓存虚拟机磁盘I/O,为虚拟机磁盘设置快照,然后恢复虚拟机磁盘I/O和中断;
(1-4-3)虚拟机管理器将快照之前的所有快照删除,仅保留该快照作为备份文件,并向从节点发送虚拟中断;
(1-4-4)从节点将其状态设置为成功,表示本地临时检查点设置成功。
优选地,恢复操作包括如下步骤:
(2-1)主节点检查故障类型,如果是物理机故障,则转步骤(2-2)。如果是虚拟机故障,则定位故障虚拟机所在的物理机,然后转步骤(2-3)。如果是作业程序故障,则转步骤(2-8);
(2-2)主节点利用物理机调度算法为故障虚拟机集合中的所有虚拟机寻找合适的物理机,将备份库中的备份文件拷贝到相应的物理机,然后转步骤(2-3);
(2-3)主节点向各物理机上的虚拟机管理器发送虚拟机恢复消息;
(2-4)虚拟机管理器收到虚拟机恢复消息之后,首先清除处于假死状态的故障虚拟机,然后选取该物理机上与故障虚拟机属于同一虚拟集群的正常虚拟机作为模板,将其克隆成一个新子虚拟机,并将子虚拟机挂起;
(2-5)虚拟机管理器将虚拟机基础磁盘镜像和备份文件进行合并,并将其挂载到克隆出的子虚拟机上,然后将其唤醒,并自动修改虚拟机的相关配置;
(2-6)虚拟机管理器完成该物理机上所有故障虚拟机的恢复操作之后,向主节点发送确认消息;
(2-7)主节点收到所有虚拟机管理器发送的确认消息之后,将虚拟集群的状态标记为运行状态,然后转步骤(2-8);
(2-8)主节点向各从节点发送本地作业进程恢复请求;
(2-9)从节点检查本地是否还有残余的作业进程在运行,如果有则将它们清除,然后请求虚拟机管理器对虚拟机磁盘快照进行回滚,并等待虚拟机管理器返回;
(2-10)虚拟机管理器关闭中断并缓存虚拟机I/O,恢复虚拟机磁盘快照,释放虚拟机I/O缓存并打开中断,并向从节点发送返回消息以表明磁盘快照回滚成功,这时虚拟机的磁盘状态恢复到设置磁盘快照时刻的状态;
(2-11)从节点从虚拟机磁盘中读取网络数据,重填到网络缓冲区中;
(2-12)从节点从虚拟机磁盘读取进程检查点文件,装载到内存,并恢复进程运行,如果恢复成功,向主节点发送确认消息,否则发送失败消息;
(2-13)主节点判断是否接收到所有从节点发送的确认消息,若是则表明应用已恢复正常运行,将作业状态标记为运行状态,否则说明作业恢复失败,产生错误提示。
优选地,步骤(2-2)中的物理机调度算法包括以下子步骤:
(2-2-1)根据被分配到物理机Hi的虚拟机数量Ni、物理机的总数量n和虚拟集群中虚拟机总数量N并采用以下公式计算物理机Hi上属于虚拟集群的虚拟机密度Di、所有n个物理机的平均虚拟机密度
Figure BDA0000457091100000061
物理机Hi的故障率Ri、以及n个物理机的平均故障率
Figure BDA0000457091100000062
Di=Ni/N          (式1)
D ‾ = Σ i = 1 n D i / n             (式2)
R i = 0 ( F = 0 ) F i F ( F > 0 )            (式3)
R ‾ = Σ i = 1 n R i / n               (式4)
其中i=1,2…n,F表示过去所有n个物理机出现故障的总次数,且Fi表示物理机Hi出现故障的次数;
(2-2-2)在H={H1,H2,…,Hn}集合中求解子集合H’={H1’,H2’,…,Hk’},使得H’中的每个元素Hp’均满足:
D p ≤ D ‾ ;
R p ≤ R ‾ , R p ≤ R q , ( p ≤ q ≤ k ) ;
Hp不为故障节点
其中1≤p≤k,k为子集合中元素的总数量;
(2-2-3)判断故障虚拟机的集合V={V1,V2…Vm}是否不为空,如果是则设置计数器r=1,从集合V中任取Vj,其中1≤j≤m,并转入步骤(2-2-4),否则转入步骤(2-2-6),其中m为故障虚拟机的总数量;
(2-2-4)判断Hr’的资源池是否满足故障虚拟机Vj的资源配额,并且物理机Hr’的负载是否满足故障虚拟机Vj的运行条件,若同时满足则将Vj调度到Hr’,并更新集合V=V–{Vj},同时更新故障物理机和调度目标物理机的资源配额,然后返回步骤(2-2-3),否则转步骤(2-2-5);资源配额包括给定虚拟机Vj所需的虚拟机CPU、内存、磁盘空间等资源,配额上限和云平台相关;
(2-2-5)设置r=r+1,并判断是否有r不大于k,若是则返回步骤(2-2-4);否则表示调度失败,过程结束;
(2-2-6)所有故障虚拟机调度完成,生成调度结果。
按照本发明的另一方面,提供了一种云环境下的分布式系统多级故障容错系统,包括:
第一模块,用于接收用户通过Web界面定制的虚拟机镜像模板;
第二模块,用于根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机;
第三模块,用于接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入第五模块,否则转入第四模块;
第四模块,用于将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户;
第五模块,用于将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明门槛低、灵活性高:传统的物理集群不仅要维护物理服务器,还要配置集群系统和容错软件,对非专业人员难度大。现有的云计算虚拟集群服务,如亚马逊网络服务(Amazon Web Service,简称AWS)集群实例也只是提供IaaS级别的裸机服务,集群软件和容错环境都需要用户自己配置;本发明提供虚拟容错集群PaaS服务,解决了集群维护和作业管理的难题,实现了作业托管和自动容错,用户使用接口简单。
(2)本发明的方法能够实现较高的扩展性,即对于新的分布式应用,只需基于模板创建新的增量模板,一次创建多次使用。
(3)本发明具备高可靠性:采用分层的故障检测和恢复机制,能够全方位应对云环境下分布式应用面临的各级别的故障挑战。I/O状态备份也解决了部分数据容灾问题,这一点是现有方案所普遍欠缺的,现有方案只侧重于计算容灾。
(4)本发明资源利用率高:除了虚拟化带来的资源利用率提升之外,本发明的基于虚拟机克隆的备用虚拟机动态创建方法省去了冗余的备用节点,大大减小了资源占用。
(5)本发明具备高性能:基于虚拟机磁盘快照的分布式协同检查点机制在不需要虚拟机暂停的情况下实现应用执行状态和I/O数据保存,减小了虚拟机备份和调度开销。
附图说明
图1是本发明云环境下的分布式系统多级故障容错方法的应用环境图。
图2是本发明云环境下的分布式系统多级故障容错方法的流程图。
图3为基于虚拟机磁盘快照的分布式协同检查点协议状态图。
图4示出分层故障恢复框架及其各层次故障恢复的原理。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的最终目标是实现完整的云环境下虚拟集群分布式应用容错系统,该系统能够集成到现有的云平台之中,提供独立的云服务。下面给出本发明基于Xen虚拟化平台和OpenNebula云平台的实施方案。
如图1所示,本发明实现的方法是基于IaaS云平台构建,在已有的云资源管理、弹性计算服务的基础之上,实现容错虚拟集群PaaS,本发明提供的服务包括模板定制服务、虚拟集群管理服务、作业管理服务和特色的作业备份、故障检测及自动恢复服务,下面说明各服务的主要功能。
模板定制:对云平台自身的镜像管理服务进行封装,为用户提供在线的虚拟机模板定制功能,利用基础镜像生成新的用户镜像,并安装用户定制的应用软件。
集群管理:为用户提供可视化的集群管理界面,提供弹性的集群创建/删除功能,且支持动态扩容。用户能够像管理虚拟机一样集中管理集群。
作业管理:为用户提供作业托管服务,用户无需对作业进行环境配置和运行维护。
作业备份:对申请了容错服务的作业进行周期性的备份。
故障检测:分别对分布式应用、虚拟机和物理机进行状态监控,检测出故障时生成故障报告。
故障恢复:针对故障检测生成的故障报告,采取相应的恢复策略,在最短时间内自动将作业恢复到最近一次备份点重新运行,整个过程对用户透明。
如图2所示,本发明云环境下的分布式系统多级故障容错方法包括以下步骤:
(1)主节点接收用户通过Web界面定制的虚拟机镜像模板;
(2)主节点根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机;具体而言,虚拟集群的参数包括虚拟机的虚拟CPU、内存、虚拟集群的规模、虚拟网络等;
(3)主节点接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入步骤(5),否则转入步骤(4);
(4)主节点将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户;
(5)主节点将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。
上述步骤描述了本发明基于PaaS模式的服务流程,它提供了一种新的容错服务模式“容错即服务”。在物理集群环境下,用户需要自己配置集群系统,甚至管理物理设备,在运行作业之前需要手动配置分布式应用运行时环境和容错系统,这对于非专业人员存在很大的门槛。在虚拟集群环境下,虽然IaaS服务为用户省去了机器管理的负担,但是它提供的仍然是裸机服务,用户如果要部署分布式程序,也需要自己在成百上千台虚拟机上部署运行环境和容错环境。本发明采用一种“容错即服务”的思想,将集群管理和容错功能作为服务提供给用户,使得用户不再需要关心集群的配置和维护,而只专注于自己的分布式应用程序。它具有以下优点:
1、利用增量镜像模板定制和封装容错环境,可以做到一次定制多次使用,无需频繁配置,并且能够同时部署多台相同的虚拟机;
2、在有新的应用需求时,只需在模板基础上添加新的定制环境生成增量镜像,而无需重新制作镜像。
3、将大量虚拟机抽象一个整体,对其进行集中管理,省去了单独对每台虚拟机进行维护的麻烦,且支持动态扩容。第四,作业托管彻底将容错平台化服务化,使得用户对应用部署以及环境配置完全透明。
如图1所示,上述流程中的备份操作包括以下步骤:
(1-1)主节点向从节点发送检查点请求消息;
(1-2)从节点将自身状态标记为忙,并暂停本地作业进程的运行,清空其网络发送缓冲区中的数据包,并向其所有兄弟从节点的进程发送驱赶消息;基于FIFO的原理,从节点发送的驱赶消息到达目的从节点时,确保了该从节点发往目的从节点的正常数据包已经到达;
(1-3)从节点监听并判断是否接收到其所有兄弟从节点发送的驱赶消息,如果收到,则转步骤(1-4);否则转步骤(1-6)。
(1-4)从节点为作业设置本地临时检查点,包括局部进程检查点和磁盘快照:本步骤具体包括以下子步骤:
(1-4-1)从节点设置作业的局部进程检查点,即将作业的进程CPU寄存器状态和内存映像保存到虚拟机磁盘以形成局部进程检查点,并请求虚拟机管理器对虚拟机磁盘做快照;
(1-4-2)虚拟机管理器关闭中断并缓存虚拟机磁盘I/O,为虚拟机磁盘设置快照,然后恢复虚拟机磁盘I/O和中断;快照保存了当前时刻的文件系统状态和进程运行状态,之后新的读写请求不会对快照造成改变;
(1-4-3)虚拟机管理器将快照之前的所有快照删除,仅保留该快照作为备份文件,并向从节点发送虚拟中断;
(1-4-4)从节点将其状态设置为成功,表示本地临时检查点设置成功;
(1-5)从节点向主节点发送确认消息,表示其本地临时检查点设置成功,并等待主节点的回复消息,然后转步骤(1-7)。
(1-6)从节点将其状态设置成失败,并向主节点发送失败消息,表示其本地临时检查点设置失败,并等待主节点的回复消息,然后转步骤(1-9);
(1-7)主节点在收到所有从节点发送的成功消息时,向所有从节点广播提交检查点消息,然后转入步骤(1-8);
(1-8)从节点接收提交检查点消息,将其状态标记为空闲,将临时检查点设置成永久检查点,恢复作业进程运行,并将备份文件提交到备份库,然后转步骤(1-11);
(1-9)主节点在收到从节点发送的失败消息时,向所有从节点发送撤销临时检查点消息,以撤销所有局部检查点;
(1-10)从节点接收销临时检查点消息,将其状态标记为空闲,恢复作业进程运行,并清除本地临时检查点;
(1-11)从节点等待主节点发送的新一轮检查点请求信息,然后返回步骤(1-1);
上述备份步骤描述了一种基于虚拟机磁盘快照的作业状态备份方法,该方法相比现有的方法具有以下优点:
1、相比进程级的分布式检查点方法,本备份方法利用了I/O虚拟化技术封装了整个操作系统环境,不仅能够备份进行的执行状态,还能够保存应用程序的I/O数据以及其所依赖的操作系统环境,解决了进程迁移的问题。
2、相比于直接对虚拟机进行完全状态备份的方法,本方法不需要保存整个虚拟机的内存数据,也不需要暂停虚拟机运行,更不需要对虚拟机的网络数据包进行截获和缓存,大大提高了性能。它只备份了与应用相关的状态而忽略了虚拟机状态,这些状态数据足以对应用实施恢复而又至于造成状态丢失。显然,为了能够恢复某个应用而备份整个虚拟机的状态是不可取的,因为我们的目标只关注某个应用是否提供可靠的服务,而其他的应用状态是可以忽略的,事实上,集群分布式应用功能都是单一的,比如HPC集群和Web集群肯定是分开的。
3、采用二级备份存储策略,在本地物理机保留备份文件,同时利用空闲时间将备份文件提交到全局备份库中,提高了备份数据的可靠性。全局备份库利用各物理机空闲存储空间构建,采用分布式存储架构,提高存储利用率的同时解决的集中存储存在的I/O瓶颈问题。
作业出现故障时采用分层的恢复框架逐级对物理机故障、虚拟机故障和应用程序故障进行恢复,如图3所示。具体的恢复操作包括如下步骤:
(2-1)主节点检查故障类型,如果是物理机故障,则转步骤(2-2)。如果是虚拟机故障,则定位故障虚拟机所在的物理机,然后转步骤(2-3)。如果是作业程序故障,则转步骤(2-8);
(2-2)主节点利用物理机调度算法为故障虚拟机集合中的所有虚拟机寻找合适的物理机,将备份库中的备份文件拷贝到相应的物理机,然后转步骤(2-3);
(2-3)主节点向各物理机上的虚拟机管理器发送虚拟机恢复消息;
(2-4)虚拟机管理器收到虚拟机恢复消息之后,首先清除处于假死状态的故障虚拟机,然后选取该物理机上与故障虚拟机属于同一虚拟集群的正常虚拟机作为模板,将其克隆成一个新子虚拟机,并将子虚拟机挂起;
本步骤的优点在于,虚拟机克隆实际上是一种非完全克隆,它只利用了父虚拟机的内存等数据,而虚拟机磁盘还是使用故障虚拟机自己的磁盘,这种“嫁接”式的虚拟机恢复方法,在提高虚拟机恢复效率的同时最大限度地保留了原虚拟机的数据。
(2-5)虚拟机管理器将虚拟机基础磁盘镜像和备份文件进行合并,并将其挂载到克隆出的子虚拟机上,然后将其唤醒,并自动修改虚拟机的相关配置;
(2-6)虚拟机管理器完成该物理机上所有故障虚拟机的恢复操作之后,向主节点发送确认消息;
(2-7)主节点收到所有虚拟机管理器发送的确认消息之后,将虚拟集群的状态标记为运行状态,然后转步骤(2-8);
(2-8)主节点向各从节点发送本地作业进程恢复请求;
(2-9)从节点检查本地是否还有残余的作业进程在运行,如果有则将它们清除,然后请求虚拟机管理器对虚拟机磁盘快照进行回滚,并等待虚拟机管理器返回;
(2-10)虚拟机管理器关闭中断并缓存虚拟机I/O,恢复虚拟机磁盘快照,释放虚拟机I/O缓存并打开中断,并向从节点发送返回消息以表明磁盘快照回滚成功,这时虚拟机的磁盘状态恢复到设置磁盘快照时刻的状态;
(2-11)从节点从虚拟机磁盘中读取网络数据,重填到网络缓冲区中;
(2-12)从节点从虚拟机磁盘读取进程检查点文件,装载到内存,并恢复进程运行,如果恢复成功,向主节点发送确认消息,否则发送失败消息;
(2-13)主节点判断是否接收到所有从节点发送的确认消息,若是则表明应用已恢复正常运行,将作业状态标记为运行状态,否则说明作业恢复失败,产生错误提示。
上述步骤所描述的分层故障恢复方法具有以下优点:
1、云计算环境下,软件系统层次更加复杂,因此故障和失效点更多,不同层次故障造成的影响和所采取的恢复策略都不相同。根据恢复方式,云环境中的故障可以分为物理机故障、虚拟机故障和应用程序进程故障。现有的解决方案一般只关注虚拟机故障,即计算节点失效的情况,而应用程序的进程故障往往由软件开发者自己解决。对于宿主机故障,现有方案一般依赖于基础设施云服务提供商。因此,很少有综合考虑各层次故障的解决方案。本发明提出的分层的故障恢方法能够全面覆盖云计算环境下的物理机故障、虚拟机故障和分布式应用故障,提高了容错的覆盖面,并且采用自顶向下逐级恢复的策略,降低了耦合性,增加了故障恢复的成功率。
2、创造性地提出了以虚拟机克隆和虚拟机磁盘动态挂载的“嫁接”式虚拟机恢复方法,减小虚拟机恢复时间的同时最大限度地保留了原虚拟机的数据。因此,本故障恢复方法即不依赖于冗余的虚拟机,也不需要预先对整个虚拟机状态进行备份,减少了不必要的开销。
3、本恢复复方法中的虚拟机恢复步骤能够完全恢复虚拟机操作系统的环境,解决的了应用程序进程恢复时对系统的依赖问题。同时,也能够对应用程序的输出数据进行回滚,这是现有方法所欠缺的。
4、采用了物理机调度算法,保证大量虚拟机失效的情况下也能够在其他正常运行的物理机上对故障虚拟机进行恢复。
以下详细介绍上述(2-2)中的物理机调度算法:
(2-2-1)根据被分配到物理机Hi的虚拟机数量Ni、物理机的总数量n和虚拟集群中虚拟机总数量N并采用以下公式计算物理机Hi上属于虚拟集群的虚拟机密度Di、所有n个物理机的平均虚拟机密度
Figure BDA0000457091100000151
物理机Hi的故障率Ri、以及n个物理机的平均故障率
Figure BDA0000457091100000152
Di=Ni/N                  (式1)
D ‾ = Σ i = 1 n D i / n               (式2)
R i = 0 ( F = 0 ) F i F ( F > 0 )              (式3)
R ‾ = Σ i = 1 n R i / n            (式4)
其中i=1,2…n,F表示过去所有n个物理机出现故障的总次数,且Fi表示物理机Hi出现故障的次数;
(2-2-2)在H={H1,H2,…,Hn}集合中求解子集合H’={H1’,H2’,…,Hk’},使得H’中的每个元素Hp’均满足:
D p ≤ D ‾ ;
R p ≤ R ‾ , R p ≤ R q , ( p ≤ q ≤ k ) ;
Hp不为故障节点
其中1≤p≤k,k为子集合中元素的总数量;
(2-2-3)判断故障虚拟机的集合V={V1,V2…Vm}是否不为空,如果是则设置计数器r=1,从集合V中任取Vj,其中1≤j≤m,并转入步骤(2-2-4),否则转入步骤(2-2-6),其中m为故障虚拟机的总数量;
(2-2-4)判断Hr’的资源池是否满足故障虚拟机Vj的资源配额,并且物理机Hr’的负载是否满足故障虚拟机Vj的运行条件,若同时满足则将Vj调度到Hr’,并更新集合V=V–{Vj},同时更新故障物理机和调度目标物理机的资源配额,然后返回步骤(2-2-3),否则转步骤(2-2-5);资源配额包括给定虚拟机Vj所需的虚拟机CPU、内存、磁盘空间等资源,配额上限和云平台相关;
(2-2-5)设置r=r+1,并判断是否有r不大于k,若是则返回步骤(2-2-4);否则表示调度失败,过程结束;
(2-2-6)所有故障虚拟机调度完成,生成调度结果。
本物理机调度算法能够保证在物理机出现故障之后,运行在该物理机上的虚拟机能够被正确地调度到其他健康的物理机恢复运行,降低了故障恢复之后再次发生同类故障的概率。
应用实例
本发明实现的系统适用于一般的数据中心,利用普通服务器即可构建云计算平台并部署分发明所实现的系统。以下是软硬件环境样例。
Figure BDA0000457091100000171
其中,管理节点部署云平台OpenNebula管理服务,对各计算节点的资源进行管理。本发明实现的系统的核心服务也部署到管理节点,为了保证服务本身可靠,管理节点采用双机热备,做到7x24不间断服务。计算节点用来运行大量的虚拟机,部署了Xen虚拟化平台。
本发明不仅仅局限于上述场景,能够应用到通用的云计算框架中。本发明主要应用于分布式云服务,为确保分布式云服务的可靠性,可以利用本发明构建高可用的虚拟集群,为上层的分布式应用提供容错功能支撑。本发明提出的方案适合于云服务提供商,为普通用户提供高效透明的分布式应用容错服务。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种云环境下的分布式系统多级故障容错方法,其特征在于,包括以下步骤: 
(1)主节点接收用户通过Web界面定制的虚拟机镜像模板; 
(2)主节点根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机; 
(3)主节点接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入步骤(5),否则转入步骤(4); 
(4)主节点将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户; 
(5)主节点将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。 
2.根据权利要求1所述的分布式系统多级故障容错方法,其特征在于,备份操作包括以下步骤: 
(1-1)主节点向从节点发送检查点请求消息; 
(1-2)从节点将自身状态标记为忙,并暂停本地作业进程的运行,清空其网络发送缓冲区中的数据包,并向其所有兄弟从节点的进程发送驱赶消息; 
(1-3)从节点监听并判断是否接收到其所有兄弟从节点发送的驱赶消息,如果收到,则转步骤(1-4);否则转步骤(1-6)。 
(1-4)从节点为作业设置本地临时检查点,包括局部进程检查点和磁盘快照: 
(1-5)从节点向主节点发送确认消息,表示其本地临时检查点设置成 功,并等待主节点的回复消息,然后转步骤(1-7)。 
(1-6)从节点将其状态设置成失败,并向主节点发送失败消息,表示其本地临时检查点设置失败,并等待主节点的回复消息,然后转步骤(1-9); 
(1-7)主节点在收到所有从节点发送的成功消息时,向所有从节点广播提交检查点消息,然后转入步骤(1-8); 
(1-8)从节点接收提交检查点消息,将其状态标记为空闲,将临时检查点设置成永久检查点,恢复作业进程运行,并将备份文件提交到备份库,然后转步骤(1-11); 
(1-9)主节点在收到从节点发送的失败消息时,向所有从节点发送撤销临时检查点消息,以撤销所有局部检查点; 
(1-10)从节点接收销临时检查点消息,将其状态标记为空闲,恢复作业进程运行,并清除本地临时检查点; 
(1-11)从节点等待主节点发送的新一轮检查点请求信息,然后返回步骤(1-1)。 
3.根据权利要求1所述的分布式系统多级故障容错方法,其特征在于,步骤(1-4)具体包括以下子步骤: 
(1-4-1)从节点设置作业的局部进程检查点,即将作业的进程CPU寄存器状态和内存映像保存到虚拟机磁盘以形成局部进程检查点,并请求虚拟机管理器对虚拟机磁盘做快照; 
(1-4-2)虚拟机管理器关闭中断并缓存虚拟机磁盘I/O,为虚拟机磁盘设置快照,然后恢复虚拟机磁盘I/O和中断; 
(1-4-3)虚拟机管理器将快照之前的所有快照删除,仅保留该快照作为备份文件,并向从节点发送虚拟中断; 
(1-4-4)从节点将其状态设置为成功,表示本地临时检查点设置成功。 
4.根据权利要求1所述的分布式系统多级故障容错方法,其特征在于,恢复操作包括如下步骤: 
(2-1)主节点检查故障类型,如果是物理机故障,则转步骤(2-2)。如果是虚拟机故障,则定位故障虚拟机所在的物理机,然后转步骤(2-3)。如果是作业程序故障,则转步骤(2-8); 
(2-2)主节点利用物理机调度算法为故障虚拟机集合中的所有虚拟机寻找合适的物理机,将备份库中的备份文件拷贝到相应的物理机,然后转步骤(2-3); 
(2-3)主节点向各物理机上的虚拟机管理器发送虚拟机恢复消息; 
(2-4)虚拟机管理器收到虚拟机恢复消息之后,首先清除处于假死状态的故障虚拟机,然后选取该物理机上与故障虚拟机属于同一虚拟集群的正常虚拟机作为模板,将其克隆成一个新子虚拟机,并将子虚拟机挂起; 
(2-5)虚拟机管理器将虚拟机基础磁盘镜像和备份文件进行合并,并将其挂载到克隆出的子虚拟机上,然后将其唤醒,并自动修改虚拟机的相关配置; 
(2-6)虚拟机管理器完成该物理机上所有故障虚拟机的恢复操作之后,向主节点发送确认消息; 
(2-7)主节点收到所有虚拟机管理器发送的确认消息之后,将虚拟集群的状态标记为运行状态,然后转步骤(2-8); 
(2-8)主节点向各从节点发送本地作业进程恢复请求; 
(2-9)从节点检查本地是否还有残余的作业进程在运行,如果有则将它们清除,然后请求虚拟机管理器对虚拟机磁盘快照进行回滚,并等待虚拟机管理器返回; 
(2-10)虚拟机管理器关闭中断并缓存虚拟机I/O,恢复虚拟机磁盘快照,释放虚拟机I/O缓存并打开中断,并向从节点发送返回消息以表明磁盘快照回滚成功,这时虚拟机的磁盘状态恢复到设置磁盘快照时刻的状态; 
(2-11)从节点从虚拟机磁盘中读取网络数据,重填到网络缓冲区中; 
(2-12)从节点从虚拟机磁盘读取进程检查点文件,装载到内存,并 恢复进程运行,如果恢复成功,向主节点发送确认消息,否则发送失败消息; 
(2-13)主节点判断是否接收到所有从节点发送的确认消息,若是则表明应用已恢复正常运行,将作业状态标记为运行状态,否则说明作业恢复失败,产生错误提示。 
5.根据权利要求4所述的分布式系统多级故障容错方法,其特征在于,步骤(2-2)中的物理机调度算法包括以下子步骤: 
(2-2-1)根据被分配到物理机Hi的虚拟机数量Ni、物理机的总数量n和虚拟集群中虚拟机总数量N并采用以下公式计算物理机Hi上属于虚拟集群的虚拟机密度Di、所有n个物理机的平均虚拟机密度
Figure FDA0000457091090000041
物理机Hi的故障率Ri、以及n个物理机的平均故障率
Figure FDA0000457091090000042
Di=Ni/N               (式1) 
Figure FDA0000457091090000043
                 (式2) 
Figure FDA0000457091090000044
             (式3) 
Figure FDA0000457091090000045
               (式4) 
其中i=1,2…n,F表示过去所有n个物理机出现故障的总次数,且F i表示物理机Hi出现故障的次数; 
(2-2-2)在H={H1,H2,…,Hn}集合中求解子集合H’={H1’,H2’,…,Hk’},使得H’中的每个元素Hp’均满足: 
Figure FDA0000457091090000046
Figure FDA0000457091090000047
Hp不为故障节点 
其中1≤p≤k,k为子集合中元素的总数量; 
(2-2-3)判断故障虚拟机的集合V={V1,V2…Vm}是否不为空,如果是则设置计数器r=1,从集合V中任取Vj,其中1≤j≤m,并转入步骤(2-2-4),否则转入步骤(2-2-6),其中m为故障虚拟机的总数量; 
(2-2-4)判断Hr’的资源池是否满足故障虚拟机Vj的资源配额,并且物理机Hr’的负载是否满足故障虚拟机Vj的运行条件,若同时满足则将Vj调度到Hr’,并更新集合V=V–{Vj},同时更新故障物理机和调度目标物理机的资源配额,然后返回步骤(2-2-3),否则转步骤(2-2-5);资源配额包括给定虚拟机Vj所需的虚拟机CPU、内存、磁盘空间等资源,配额上限和云平台相关; 
(2-2-5)设置r=r+1,并判断是否有r不大于k,若是则返回步骤(2-2-4);否则表示调度失败,过程结束; 
(2-2-6)所有故障虚拟机调度完成,生成调度结果。 
6.一种云环境下的分布式系统多级故障容错系统,其特征在于,包括: 
第一模块,用于接收用户通过Web界面定制的虚拟机镜像模板; 
第二模块,用于根据虚拟机镜像模板配置虚拟集群的参数,根据配置的虚拟集群的参数创建虚拟集群,并将虚拟集群中的虚拟机部署到各物理机; 
第三模块,用于接收用户上传的作业及其运行参数,并根据该运行参数判断用户是否需要对作业进行容错,如果是则转入第五模块,否则转入第四模块; 
第四模块,用于将作业添加到运行作业队列中,等待该作业运行完毕,并将运行结果返回给用户; 
第五模块,用于将需要容错的作业添加到容错作业队列中,等待该作业运行,其中在该作业的运行过程中执行备份操作,在运行过程中出现故障时执行恢复操作,并在作业运行完毕后将结果返回给用户。 
CN201410017308.7A 2014-01-15 2014-01-15 一种云环境下的分布式系统多级故障容错方法 Expired - Fee Related CN103778031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410017308.7A CN103778031B (zh) 2014-01-15 2014-01-15 一种云环境下的分布式系统多级故障容错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410017308.7A CN103778031B (zh) 2014-01-15 2014-01-15 一种云环境下的分布式系统多级故障容错方法

Publications (2)

Publication Number Publication Date
CN103778031A true CN103778031A (zh) 2014-05-07
CN103778031B CN103778031B (zh) 2017-01-18

Family

ID=50570299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410017308.7A Expired - Fee Related CN103778031B (zh) 2014-01-15 2014-01-15 一种云环境下的分布式系统多级故障容错方法

Country Status (1)

Country Link
CN (1) CN103778031B (zh)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394194A (zh) * 2014-10-31 2015-03-04 北京思特奇信息技术股份有限公司 一种基于PaaS平台的云系统运维监控方法及系统
CN104794031A (zh) * 2015-04-16 2015-07-22 上海交通大学 结合自调整策略和虚拟化技术的云系统故障检测方法
CN105045619A (zh) * 2015-07-06 2015-11-11 普元信息技术股份有限公司 云计算环境中基于固定带宽的多层次多节点版本分发方法
CN105224416A (zh) * 2014-05-28 2016-01-06 联发科技(新加坡)私人有限公司 修复方法及相关电子装置
CN106789381A (zh) * 2017-03-31 2017-05-31 山东超越数控电子有限公司 一种针对云计算管理平台简单部署和快速配置的方法
CN107040406A (zh) * 2017-03-14 2017-08-11 西安电子科技大学 一种端云协同计算系统及其容错方法
CN108023967A (zh) * 2017-12-20 2018-05-11 联想(北京)有限公司 一种数据平衡方法、装置及分布式存储系统中的管理设备
CN108052419A (zh) * 2018-01-05 2018-05-18 哈尔滨学院 一种数据容灾的方法
CN108121586A (zh) * 2016-11-29 2018-06-05 上海有云信息技术有限公司 一种PaaS层故障迁移装置及方法
CN108139958A (zh) * 2015-10-22 2018-06-08 甲骨文国际公司 连续查询处理中的事件批量处理、输出排序和基于日志的状态存储
CN108234212A (zh) * 2017-12-29 2018-06-29 深信服网络科技(深圳)有限公司 混合云容灾方法、服务器及存储介质
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN108810071A (zh) * 2018-03-30 2018-11-13 广东睿江云计算股份有限公司 一种基于进程迁移的Apache服务器集群负载均衡的方法
CN109144813A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种云计算系统服务器节点故障监控系统及方法
CN109165506A (zh) * 2018-07-05 2019-01-08 河南中烟工业有限责任公司 一种工控容错服务器在线病毒查杀和病毒防护的方法
CN109214129A (zh) * 2018-10-25 2019-01-15 中国运载火箭技术研究院 一种基于虚实置换的受限网络条件下lvc仿真容错方法
CN109257404A (zh) * 2017-07-14 2019-01-22 迈普通信技术股份有限公司 数据备份方法、装置及系统
CN109344009A (zh) * 2018-10-11 2019-02-15 重庆邮电大学 基于分级检查点的移动云系统容错方法
CN109358803A (zh) * 2018-08-20 2019-02-19 中国建设银行股份有限公司 异常空闲存储分析方法、装置及系统
CN109831342A (zh) * 2019-03-19 2019-05-31 江苏汇智达信息科技有限公司 一种基于分布式系统的故障恢复方法
CN109842660A (zh) * 2017-11-28 2019-06-04 上海驻云信息科技有限公司 用于不同应用场景的通用云资源和权限管理系统
CN110309226A (zh) * 2018-03-16 2019-10-08 厦门靠谱云股份有限公司 一种云数据库统一备份与恢复系统
CN110716818A (zh) * 2019-09-30 2020-01-21 腾讯科技(深圳)有限公司 一种异常处理方法、装置、硬件保护设备及存储介质
CN110795261A (zh) * 2019-09-26 2020-02-14 北京浪潮数据技术有限公司 虚拟磁盘故障的检测方法和装置
CN110990197A (zh) * 2019-11-29 2020-04-10 西安交通大学 一种基于超级计算机的应用级多层检查点的优化方法
CN111258824A (zh) * 2020-01-18 2020-06-09 重庆邮电大学 一种云计算中基于人工势场的增量检查点容错方法
CN111314125A (zh) * 2014-07-01 2020-06-19 萨思学会有限公司 用于容错通信的系统和方法
CN111309515A (zh) * 2018-12-11 2020-06-19 华为技术有限公司 一种容灾控制方法、装置及系统
CN111343260A (zh) * 2020-02-19 2020-06-26 北京航空航天大学 一种用于多云部署的流处理系统容错方法
CN111400086A (zh) * 2020-02-18 2020-07-10 上海交通大学 虚拟机容错的实现方法和系统
CN111488247A (zh) * 2020-04-08 2020-08-04 上海云轴信息科技有限公司 一种管控节点多次容错的高可用方法及设备
CN111930563A (zh) * 2020-07-15 2020-11-13 中国人民解放军陆军工程大学 云仿真系统中的容错方法
CN111953566A (zh) * 2020-08-13 2020-11-17 北京中电兴发科技有限公司 一种基于分布式故障监控的方法和虚拟机高可用系统
CN111966461A (zh) * 2020-08-14 2020-11-20 苏州浪潮智能科技有限公司 虚拟机集群节点守护方法、装置、设备及存储介质
CN112099444A (zh) * 2020-08-14 2020-12-18 中铝智能科技发展有限公司 高可靠流程工业先进控制器集群管理方法
CN112506691A (zh) * 2020-12-14 2021-03-16 贵州电网有限责任公司 一种多能源系统数字孪生应用故障恢复方法及系统
CN112527469A (zh) * 2020-12-29 2021-03-19 浙江工业大学 一种云计算服务器的容错组合方法
CN112559253A (zh) * 2020-12-24 2021-03-26 科东(广州)软件科技有限公司 一种计算机系统数据备份与还原的方法及装置
CN112698978A (zh) * 2015-09-04 2021-04-23 华为技术有限公司 基于分布式图处理网络的容错方法和设备
CN114217905A (zh) * 2021-12-17 2022-03-22 北京志凌海纳科技有限公司 虚拟机高可用恢复处理方法及系统
CN114647531A (zh) * 2022-05-19 2022-06-21 武汉四通信息服务有限公司 故障解决方法、故障解决系统、电子设备及存储介质
CN116860463A (zh) * 2023-09-05 2023-10-10 之江实验室 一种分布式自适应星载中间件系统
WO2024001299A1 (zh) * 2022-06-30 2024-01-04 华为云计算技术有限公司 基于云技术的故障处理方法、云管理平台和相关设备
CN117519989A (zh) * 2024-01-03 2024-02-06 上海燧原智能科技有限公司 一种分布式系统托管方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078681A1 (en) * 2009-09-30 2011-03-31 International Business Machines Corporation Method and system for running virtual machine image
CN102521071A (zh) * 2011-11-24 2012-06-27 广州杰赛科技股份有限公司 一种基于私有云的虚拟机维护方法
CN102591750A (zh) * 2011-12-31 2012-07-18 曙光信息产业股份有限公司 集群系统的恢复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078681A1 (en) * 2009-09-30 2011-03-31 International Business Machines Corporation Method and system for running virtual machine image
CN102521071A (zh) * 2011-11-24 2012-06-27 广州杰赛科技股份有限公司 一种基于私有云的虚拟机维护方法
CN102591750A (zh) * 2011-12-31 2012-07-18 曙光信息产业股份有限公司 集群系统的恢复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖福蓉等: "基于任务备份的云计算容错调度算法", 《计算机工程》 *

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224416A (zh) * 2014-05-28 2016-01-06 联发科技(新加坡)私人有限公司 修复方法及相关电子装置
CN105224416B (zh) * 2014-05-28 2018-08-21 联发科技(新加坡)私人有限公司 修复方法及相关电子装置
CN111314125A (zh) * 2014-07-01 2020-06-19 萨思学会有限公司 用于容错通信的系统和方法
CN104394194A (zh) * 2014-10-31 2015-03-04 北京思特奇信息技术股份有限公司 一种基于PaaS平台的云系统运维监控方法及系统
CN104794031A (zh) * 2015-04-16 2015-07-22 上海交通大学 结合自调整策略和虚拟化技术的云系统故障检测方法
CN105045619B (zh) * 2015-07-06 2018-07-10 普元信息技术股份有限公司 云计算环境中基于固定带宽的多层次多节点版本分发方法
CN105045619A (zh) * 2015-07-06 2015-11-11 普元信息技术股份有限公司 云计算环境中基于固定带宽的多层次多节点版本分发方法
CN112698978A (zh) * 2015-09-04 2021-04-23 华为技术有限公司 基于分布式图处理网络的容错方法和设备
CN108139958B (zh) * 2015-10-22 2021-10-08 甲骨文国际公司 用于处理事件流的事件的系统和方法
CN108139958A (zh) * 2015-10-22 2018-06-08 甲骨文国际公司 连续查询处理中的事件批量处理、输出排序和基于日志的状态存储
CN108121586A (zh) * 2016-11-29 2018-06-05 上海有云信息技术有限公司 一种PaaS层故障迁移装置及方法
CN107040406A (zh) * 2017-03-14 2017-08-11 西安电子科技大学 一种端云协同计算系统及其容错方法
CN107040406B (zh) * 2017-03-14 2020-08-11 西安电子科技大学 一种端云协同计算系统及其容错方法
CN106789381A (zh) * 2017-03-31 2017-05-31 山东超越数控电子有限公司 一种针对云计算管理平台简单部署和快速配置的方法
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN109257404A (zh) * 2017-07-14 2019-01-22 迈普通信技术股份有限公司 数据备份方法、装置及系统
CN109257404B (zh) * 2017-07-14 2022-04-05 迈普通信技术股份有限公司 数据备份方法、装置及系统
CN109842660A (zh) * 2017-11-28 2019-06-04 上海驻云信息科技有限公司 用于不同应用场景的通用云资源和权限管理系统
CN108023967A (zh) * 2017-12-20 2018-05-11 联想(北京)有限公司 一种数据平衡方法、装置及分布式存储系统中的管理设备
CN108023967B (zh) * 2017-12-20 2021-05-18 联想(北京)有限公司 一种数据平衡方法、装置及分布式存储系统中的管理设备
CN108234212A (zh) * 2017-12-29 2018-06-29 深信服网络科技(深圳)有限公司 混合云容灾方法、服务器及存储介质
CN108052419A (zh) * 2018-01-05 2018-05-18 哈尔滨学院 一种数据容灾的方法
CN110309226A (zh) * 2018-03-16 2019-10-08 厦门靠谱云股份有限公司 一种云数据库统一备份与恢复系统
CN108810071A (zh) * 2018-03-30 2018-11-13 广东睿江云计算股份有限公司 一种基于进程迁移的Apache服务器集群负载均衡的方法
CN109165506B (zh) * 2018-07-05 2021-07-20 河南中烟工业有限责任公司 一种工控容错服务器在线病毒查杀和病毒防护的方法
CN109165506A (zh) * 2018-07-05 2019-01-08 河南中烟工业有限责任公司 一种工控容错服务器在线病毒查杀和病毒防护的方法
CN109144813B (zh) * 2018-07-26 2022-08-05 郑州云海信息技术有限公司 一种云计算系统服务器节点故障监控系统及方法
CN109144813A (zh) * 2018-07-26 2019-01-04 郑州云海信息技术有限公司 一种云计算系统服务器节点故障监控系统及方法
CN109358803B (zh) * 2018-08-20 2022-05-06 中国建设银行股份有限公司 异常空闲存储分析方法、装置及系统
CN109358803A (zh) * 2018-08-20 2019-02-19 中国建设银行股份有限公司 异常空闲存储分析方法、装置及系统
CN109344009A (zh) * 2018-10-11 2019-02-15 重庆邮电大学 基于分级检查点的移动云系统容错方法
CN109344009B (zh) * 2018-10-11 2021-09-14 重庆邮电大学 基于分级检查点的移动云系统容错方法
CN109214129B (zh) * 2018-10-25 2023-06-09 中国运载火箭技术研究院 一种基于虚实置换的受限网络条件下lvc仿真容错方法
CN109214129A (zh) * 2018-10-25 2019-01-15 中国运载火箭技术研究院 一种基于虚实置换的受限网络条件下lvc仿真容错方法
CN111309515A (zh) * 2018-12-11 2020-06-19 华为技术有限公司 一种容灾控制方法、装置及系统
CN111309515B (zh) * 2018-12-11 2023-11-28 华为技术有限公司 一种容灾控制方法、装置及系统
CN109831342A (zh) * 2019-03-19 2019-05-31 江苏汇智达信息科技有限公司 一种基于分布式系统的故障恢复方法
CN110795261B (zh) * 2019-09-26 2022-06-17 北京浪潮数据技术有限公司 虚拟磁盘故障的检测方法和装置
CN110795261A (zh) * 2019-09-26 2020-02-14 北京浪潮数据技术有限公司 虚拟磁盘故障的检测方法和装置
CN110716818A (zh) * 2019-09-30 2020-01-21 腾讯科技(深圳)有限公司 一种异常处理方法、装置、硬件保护设备及存储介质
CN110716818B (zh) * 2019-09-30 2022-02-11 腾讯科技(深圳)有限公司 一种异常处理方法、装置、硬件保护设备及存储介质
CN110990197B (zh) * 2019-11-29 2023-06-06 西安交通大学 一种基于超级计算机的应用级多层检查点的优化方法
CN110990197A (zh) * 2019-11-29 2020-04-10 西安交通大学 一种基于超级计算机的应用级多层检查点的优化方法
CN111258824A (zh) * 2020-01-18 2020-06-09 重庆邮电大学 一种云计算中基于人工势场的增量检查点容错方法
CN111258824B (zh) * 2020-01-18 2024-02-27 重庆宏帆动能科技有限公司 一种云计算中基于人工势场的增量检查点容错方法
CN111400086A (zh) * 2020-02-18 2020-07-10 上海交通大学 虚拟机容错的实现方法和系统
CN111400086B (zh) * 2020-02-18 2022-05-06 上海交通大学 虚拟机容错的实现方法和系统
CN111343260A (zh) * 2020-02-19 2020-06-26 北京航空航天大学 一种用于多云部署的流处理系统容错方法
CN111343260B (zh) * 2020-02-19 2021-05-28 北京航空航天大学 一种用于多云部署的流处理系统容错方法
CN111488247A (zh) * 2020-04-08 2020-08-04 上海云轴信息科技有限公司 一种管控节点多次容错的高可用方法及设备
CN111488247B (zh) * 2020-04-08 2023-07-25 上海云轴信息科技有限公司 一种管控节点多次容错的高可用方法及设备
CN111930563A (zh) * 2020-07-15 2020-11-13 中国人民解放军陆军工程大学 云仿真系统中的容错方法
CN111953566B (zh) * 2020-08-13 2022-03-11 北京中电兴发科技有限公司 一种基于分布式故障监控的方法和虚拟机高可用系统
CN111953566A (zh) * 2020-08-13 2020-11-17 北京中电兴发科技有限公司 一种基于分布式故障监控的方法和虚拟机高可用系统
CN112099444B (zh) * 2020-08-14 2024-03-01 中铝智能科技发展有限公司 高可靠流程工业先进控制器集群管理方法
CN111966461A (zh) * 2020-08-14 2020-11-20 苏州浪潮智能科技有限公司 虚拟机集群节点守护方法、装置、设备及存储介质
CN111966461B (zh) * 2020-08-14 2023-01-06 苏州浪潮智能科技有限公司 虚拟机集群节点守护方法、装置、设备及存储介质
CN112099444A (zh) * 2020-08-14 2020-12-18 中铝智能科技发展有限公司 高可靠流程工业先进控制器集群管理方法
CN112506691B (zh) * 2020-12-14 2024-04-19 贵州电网有限责任公司 一种多能源系统数字孪生应用故障恢复方法及系统
CN112506691A (zh) * 2020-12-14 2021-03-16 贵州电网有限责任公司 一种多能源系统数字孪生应用故障恢复方法及系统
CN112559253A (zh) * 2020-12-24 2021-03-26 科东(广州)软件科技有限公司 一种计算机系统数据备份与还原的方法及装置
CN112527469A (zh) * 2020-12-29 2021-03-19 浙江工业大学 一种云计算服务器的容错组合方法
CN112527469B (zh) * 2020-12-29 2024-03-01 浙江工业大学 一种云计算服务器的容错组合方法
CN114217905A (zh) * 2021-12-17 2022-03-22 北京志凌海纳科技有限公司 虚拟机高可用恢复处理方法及系统
CN114647531B (zh) * 2022-05-19 2022-07-29 武汉四通信息服务有限公司 故障解决方法、故障解决系统、电子设备及存储介质
CN114647531A (zh) * 2022-05-19 2022-06-21 武汉四通信息服务有限公司 故障解决方法、故障解决系统、电子设备及存储介质
WO2024001299A1 (zh) * 2022-06-30 2024-01-04 华为云计算技术有限公司 基于云技术的故障处理方法、云管理平台和相关设备
CN116860463A (zh) * 2023-09-05 2023-10-10 之江实验室 一种分布式自适应星载中间件系统
CN117519989A (zh) * 2024-01-03 2024-02-06 上海燧原智能科技有限公司 一种分布式系统托管方法、装置、电子设备及存储介质
CN117519989B (zh) * 2024-01-03 2024-04-02 上海燧原智能科技有限公司 一种分布式系统托管方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103778031B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN103778031A (zh) 一种云环境下的分布式系统多级故障容错方法
US10120668B2 (en) Optimizing resource usage and automating a development and operations deployment pipeline
CN105659562B (zh) 一种用于容障的方法和数据处理系统和包括用于容障的计算机可用代码的存储设备
CN102981931B (zh) 虚拟机备份方法及装置
CN103631633B (zh) 虚拟机全系统在线迁移方法、装置与系统
US7779298B2 (en) Distributed job manager recovery
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US11508021B2 (en) Processes and systems that determine sustainability of a virtual infrastructure of a distributed computing system
CN111290834B (zh) 一种基于云管理平台实现业务高可用的方法、装置及设备
CN102819465B (zh) 一种虚拟化环境中故障恢复的方法
CN106528327B (zh) 一种数据处理方法以及备份服务器
CN108270726B (zh) 应用实例部署方法及装置
US8539087B2 (en) System and method to define, visualize and manage a composite service group in a high-availability disaster recovery environment
CN110134518B (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
US20120174112A1 (en) Application resource switchover systems and methods
CN105354113B (zh) 一种服务器、管理服务器的系统和方法
CN103414712B (zh) 一种分布式虚拟桌面管理系统和方法
US10970649B2 (en) Automated reinforcement-learning-based application manager that uses local agents
CN102833310B (zh) 一种基于虚拟化技术的工作流引擎集群系统
CN103176831B (zh) 一种虚拟机系统及其管理方法
CN103037019A (zh) 一种基于云计算的分布式数据采集系统及方法
CN106201702A (zh) 虚拟机迁移的方法、系统及云计算管理平台
CN112311646B (zh) 基于超融合系统的混合云及部署方法
CN104077199A (zh) 基于共享磁盘的高可用集群的隔离方法和系统
US11880282B2 (en) Container-based application data protection method and system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170118

CF01 Termination of patent right due to non-payment of annual fee