CN103152419A - 一种云计算平台的高可用集群管理方法 - Google Patents

一种云计算平台的高可用集群管理方法 Download PDF

Info

Publication number
CN103152419A
CN103152419A CN2013100754466A CN201310075446A CN103152419A CN 103152419 A CN103152419 A CN 103152419A CN 2013100754466 A CN2013100754466 A CN 2013100754466A CN 201310075446 A CN201310075446 A CN 201310075446A CN 103152419 A CN103152419 A CN 103152419A
Authority
CN
China
Prior art keywords
virtual machine
physical host
breaks down
restart
host
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100754466A
Other languages
English (en)
Other versions
CN103152419B (zh
Inventor
姚远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Standard Software Co Ltd
Original Assignee
China Standard Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Standard Software Co Ltd filed Critical China Standard Software Co Ltd
Priority to CN201310075446.6A priority Critical patent/CN103152419B/zh
Publication of CN103152419A publication Critical patent/CN103152419A/zh
Application granted granted Critical
Publication of CN103152419B publication Critical patent/CN103152419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种云计算平台的高可用集群管理方法。该方法包括:检测高可用集群中各物理主机的预设服务是否运行正常;若检测到一物理主机中存在运行不正常的服务,则重启该运行不正常的服务;判断是否成功重启该运行不正常的服务;若判断为未成功重启该不正常的服务,则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。本发明通过检测高可用集群中各物理主机的预设服务是否运行正常,若检测到一物理主机中存在运行不正常的服务,则重启该运行不正常的服务,可做到对物理主机的关键服务进行监控,以尽可能快地预测或检测到可能发生异常的虚拟主机,从而增强高可用性集群的高可用性,提高用户体验。

Description

一种云计算平台的高可用集群管理方法
技术领域
本发明涉及云计算领域,尤其涉及一种云计算平台的高可用集群管理方法。
背景技术
云计算是一种新兴的共享基础架构的方法,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云计算的底层需要虚拟化技术支持。通过虚拟化技术,云计算可以实现对资源的灵活以及高效的使用,从而为用户提供优质的服务。
高可用指的是通过尽量缩短因日常维护操作(计划)或突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可行性。高可用是目前企业防止核心计算机系统因故障停机的最有效手段。高可用技术在物理主机上普遍应用。
从本质上来说,云计算平台为用户提供服务以虚拟机的方式呈现。没有高可用支持的虚拟机是非常危险的,当核心系统或服务由于未知原因或意外宕机时,将会给用户带来无法估量的损失。目前,绝大多数的云计算平台都没有提供虚拟机高可用服务或者提供的高可用服务无法满足用户需求。
发明内容
本发明所要解决的技术问题之一是需要提供一种能够提高高可用支持的云计算平台的高可用集群管理方法。
为了解决上述技术问题,本发明提供了一种云计算平台的高可用集群管理方法。该方法包括:
检测高可用集群中各物理主机的预设服务是否运行正常;
若检测到一物理主机中存在运行不正常的服务,则重启该运行不正常的服务;
判断是否成功重启该运行不正常的服务;
若判断为未成功重启该不正常的服务,则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。
其中,所述检测高可用集群中各物理主机中预设服务是否运行正常的步骤,包括:根据管理员的设置来确定预设服务;逐项判断各个物理主机的各个预设服务是否运行正常。
其中,所述判断是否成功重启该运行不正常的服务的步骤,包括:在重启该运行不正常的服务失败时,隔第一预设时段再次重启该运行不正常的服务失败直到达到第一预设重启次数;若重启次数达到第一预设重启次数,则判断未成功重启该运行不正常的服务。
进一步,所述方法还包括:检测高可用集群中各虚拟机是否发生故障;若检测到发生故障的虚拟机,则重启该发生故障的虚拟机;判断是否成功重启该发生故障的虚拟机;若判断为未成功重启该发生故障的虚拟机,则将该发生故障的虚拟机迁移至其它物理主机。
其中,所述判断是否成功重启该发生故障的虚拟机的步骤,包括:
在重启该发生故障的虚拟机失败时,隔第二预设时段再次重启该虚拟机直到达到第二预设重启次数;
若达到第二预设重启次数,则判断为未成功重启该发生故障的虚拟机。
进一步,所述方法还包括:检测高可用集群中各物理主机是否宕机或无法连通;若检测到宕机或无法连通的物理主机,则根据心跳机制判断无法连接的主机是否发生故障;若判断为发生故障,则将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机。
所述将虚拟机迁移至其它物理主机的处理的步骤,包括:根据预设策略确定迁移目标物理主机;将虚拟机迁移至所确定迁移目标物理主机。
进一步,所述方法还包括:在要生成高可用集群的虚拟机时,创建一主虚拟机和一备份虚拟机;当一主虚拟机出现故障时,将与该出现故障的主虚拟机对应的备份虚拟机接替该出现故障的主虚拟机继续提供服务,新设置一台虚拟机作为已替换主虚拟机对应的备份虚拟机。
进一步,所述方法还包括:当一备份虚拟机出现故障时,新设置一台虚拟机替换该出现故障的备份虚拟机。
进一步,所述方法还包括:在要设置高可用集群的物理主机时,设置一主物理主机和备份物理主机;当一主物理主机出现故障时,将与该出现故障的主物理主机对应的备份物理主机代替该出现故障的主物理主机,新设置一台物理主机作为已替换主物理主机对应的备份物理主机;当一备份物理主机出现故障时,新设置一台物理主机替换该出现故障的备份物理主机。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:通过检测高可用集群中各物理主机的预设服务是否运行正常,若检测到一物理主机中存在运行不正常的服务,则重启该运行不正常的服务,可做到对物理主机的关键服务进行监控,以尽可能快地预测或检测到可能发生异常的虚拟主机,从而增强高可用性集群的高可用性,提高用户体验。
更具体地,通过检测预设服务的运行情况,可以预判虚拟机可能会在要用到这些预设服务时出错,因此,本发明甚至可以预测虚拟机可能运行不正常从而在虚拟机出错之前就避免了错误的发生。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例的云计算平台整体框架图;
图2是根据本发明实施例一的云计算平台的高可用集群管理方法中对运行虚拟机的主机上的关键服务进行保护的流程图;
图3是根据本发明实施例一的云计算平台的高可用集群管理方法中对宕机的虚拟机进行保护的流程图;
图4是根据本发明实施例一的云计算平台的高可用集群管理方法中对已宕机的主机上的虚拟机进行保护的流程图;
图5是根据本发明实施例一的云计算平台的高可用集群管理方法中对虚拟机进行双机热备的流程图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明的实施例中包含对运行虚拟机的主机上的关键服务进行高可用保护、对宕机的虚拟机进行高可用保护、对已宕机的主机上的虚拟机进行高可用保护、对虚拟机进行双机热备等四个部分,将结合附图分别予以说明。优选的,本发明的实施例采用安全云操作系统中的云计算平台NKSCLOUD和高可用集群软件来实现各种功能和效果。
图1为根据本发明的云计算平台整体框架图。云计算平台管理系统用于管理主机资源与虚拟机资源,负责资源的整合与优化;高可用集群软件部署在主机资源和虚拟机资源上,用于进行主机资源及虚拟机资源的高可用设置与高可用管理。云计算平台管理系统管理高可用集群软件,并且在开启高可用功能时需要高可用集群软件的协同工作。高可用集群软件发现主机资源或虚拟机资源故障时会通知云计算平台进行故障处理。
根据云计算平台的高可用集群管理方法,检测高可用集群中各物理主机的预设服务是否运行正常,若检测到一物理主机中存在运行不正常的服务,则重启该运行不正常的服务,若重启未成功并达到第一预设重启次数时,则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。下面结合图2进行详细说明。
图2为根据本实施例一的基于云计算平台的高可用集群管理方法中对运行虚拟机的物理主机上的关键服务进行保护的流程图,其中箭头方向代表了工作流的方向,具体包括以下步骤:
步骤S210,高可用集群软件检测物理主机上的预设服务是否运行正常。可根据管理员的设置来将一些可能影响虚拟机的正常运行或使用频率较高的较关键服务确定为预设服务;再逐项判断各个物理主机的各个预设服务是否运行正常。
步骤S220,高可用集群软件重启所检测到的运行不正常的服务。
步骤S230,判断是否成功重启该运行不正常的服务。
优选地,在未能通过重启使其运行正常时,可隔第一预设时段再次重启该运行不正常的服务,直到达到第一预设重启次数。例如,高可用集群软件每隔3秒尝试重启该服务,直到重启次数达到10次后,才判断为未成功重启该运行不正常的服务。其中第一预设重启次数和第一预设时段均可由管理员预先设置。换而言之,在重启该运行不正常的服务失败时,隔第一预设时段再次重启该运行不正常的服务直到达到第一预设重启次数;当达到第一预设重启次数时,才最终判断为未成功重启该成功重启该运行不正常的服务,反之,判断为成功重启。
当判断为成功重启该不正常的服务时,本过程结束。
当判断为未成功重启该不正常的服务时,进入步骤S240。
步骤S240,高可用集群软件记录该物理主机的故障信息,并且通知云计算平台该物理主机出现故障,然后进入步骤S250。
步骤S250,高可用集群软件根据预先定义好的策略确定合适的物理主机,向云计算平台发送将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机的请求。在此,其它物理主机指根据预先定义好的策略确定合适的物理主机(也称目标迁移主机),但是,不限于此,实践中可为该集群中任一运行正常的物理主机。此外,该预先定义好的策略(预设策略)也可以多种多样,例如,可将当前负载最少的物理主机、最邻近的物理主机、或者预设的备用物理主机等确定为目标迁移主机。
步骤S260,云计算平台根据该请求,调用迁移命令将该存在运行不正常的服务的物理主机中的虚拟机迁移至所确定的物理主机上。
需要说明的是,云计算平台可以在接收到一个将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机的请求后,便将该存在运行不正常的服务的物理主机中的所有虚拟机迁移至所确定的物理主机;也可以是每迁移一个虚拟主机便发送一条请求,云计算平台在接收到一条请求后,将该请求指定的存在运行不正常的服务的物理主机中的一个虚拟机移至所确定的物理主机。
此外,根据本实施例一的基于云计算平台的高可用集群管理方法中,还检测高可用集群中各虚拟机是否发生故障;若检测到发生故障的虚拟机,则重启该虚拟机;若重启未成功,则将该发生故障的虚拟机迁移至其它物理主机。下面参考图3进行详细说明。
图3为根据本实施例一的基于云计算平台的高可用集群管理方法中的对宕机的虚拟机进行保护的流程图,其中箭头方向代表了工作流的方向,具体包括以下步骤:
步骤S310,高可用集群软件检测到物理主机上的某个虚拟机是否发生故障,例如,是否宕机或其安装的某个关键系统是否出错等。
步骤S320,高可用集群软件重启该发生故障的虚拟机。
步骤S330,判断是否成功重启该发生故障的虚拟机。
优选地,在未能通过重启使其故障恢复时,可隔第二预设时段再次重启该发生故障的虚拟机、直到达到第二预设重启次数。例如,高可用集群软件每隔3秒尝试重启发生故障的虚拟机,直到重启次数达到3次后,才判断为未成功重启该发生故障的虚拟机。其中第二预设重启次数和第二预设时段均可由管理员预先设置。这种情况下,当重启次数达到第二预设重启次数时,才判断为未成功重启该发生故障的虚拟机,反之,判断为成功重启。
当判断为重启虚拟机成功时,本过程结束,反之,当判断为重启该虚拟机失败时进入步骤S340。
步骤S340,高可用集群软件记录该虚拟机的故障信息,通知云计算平台该虚拟机出现故障。
步骤S350,高可用集群软件根据预先定义好的策略确定目标迁移物理主机后,向云计算平台发送迁移该虚拟机到目标迁移物理主机的请求。
步骤S360,云计算平台调用迁移命令将该虚拟机迁移到目标迁移物理主机上。
此外,根据本实施例一的基于云计算平台的高可用集群管理方法中,还检测高可用集群中各物理主机是否宕机或无法连通;若检测到宕机或无法连通的物理主机,则根据心跳机制判断无法连接的主机是否发生故障;若判断为发生故障,则将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机。
图4为根据本实施例一的基于云计算平台的高可用集群管理方法中对已宕机的物理主机上的虚拟机进行保护的流程图,其中箭头方向代表了工作流的方向,具体包括以下步骤:
步骤S410,检测到某个物理主机宕机或无法连通。
步骤S420,根据心跳机制判断无法连接的物理主机是否真的发生故障,如果该物理主机不是真的发生故障,则过程结束;如果该物理主机是真的发生故障,则进入步骤S430。
步骤S430,高可用集群软件可记录该物理主机的故障信息,通知云计算平台该主机出现故障。
步骤S440,高可用集群软件根据预先定义好的策略确定目标迁移物理主机后,向云计算平台发送迁移某个虚拟机到所确定的目标迁移物理主机的请求。
步骤S450,将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机(即,不同于的该宕机或无法连通的物理主机的物理主机)。云计算平台调用迁移命令将该虚拟机迁移到目标迁移物理主机。
步骤S460,如果此时故障的主机上还存在未迁移出去的虚拟机,返回步骤S440。
此外,根据本实施例一的基于云计算平台的高可用集群管理方法中,在要生成高可用集群的虚拟机时,生成一主虚拟机和一备份虚拟机,也将这种同时运行一对相同的虚拟机(主虚拟机和备份虚拟机)的方式称为虚拟机的双机热备策略。当一主虚拟机出现故障时,将与该出现故障的主虚拟机对应的备份虚拟机接替该出现故障的主虚拟机继续提供服务,新设置一台虚拟机作为已替换主虚拟机对应的备份虚拟机。当一备份虚拟机出现故障时,新设置一台虚拟机替换该出现故障的备份虚拟机。下面参考图5进行详细说明。
图5为根据本实施例一的基于云计算平台的高可用集群管理方法中对虚拟机进行双机热备的流程图,其中箭头方向代表了工作流的方向,具体包括以下步骤:
步骤S510,在要生成高可用集群的虚拟机时,在云计算平台中创建两台虚拟机,一主虚拟机和一备份虚拟机。主虚拟机与备份虚拟机为内容同样的虚拟机。
步骤S520,在两台虚拟机中部署高可用集群软件,根据需求分别对两台虚拟机进行配置,设置需要保护的关键服务,设置两台虚拟机分别为主虚拟机与备份虚拟机。
步骤S530,可选地,云计算平台将设置好的备份虚拟机另存为虚拟机模板,并且对配置了双机热备的虚拟机进行特殊标记。
步骤S540,双机热备中的虚拟机出现故障时,如果发生故障的虚拟机为备份虚拟机,则跳转到步骤S560,否则跳转到步骤S550。
步骤S550,切换备份虚拟机接替主虚拟机继续提供服务。
步骤S560,通知云计算平台双机热备中的该备份虚拟机出现故障。
步骤S570,云计算平台从虚拟机模板中创建一台虚拟机作为新的备份虚拟机使用。
此外,在要设置高可用集群的物理主机,设置一主物理主机和备份物理主机;当一主物理主机出现故障时,将与该出现故障的主物理主机对应的备份物理主机代替该出现故障的主物理主机,新设置一台物理主机作为已替换主物理主机对应的备份物理主机;当一备份物理主机出现故障时,新设置一台物理主机替换该出现故障的备份物理主机。由于这种情形与图5所示的虚拟机的双机热备策略策略类似,因此不再赘述。
本发明仅以安全云操作系统中的云计算平台NKSCLOUD和高可用集群软件为例进行说明,事实上,所有的云计算平台的虚拟机高可用方法都在本发明的解决范围之内。
本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算设置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种云计算平台的高可用集群管理方法,其特征在于,包括:
检测高可用集群中各物理主机的预设服务是否运行正常;
若检测到一物理主机中存在运行不正常的服务,则重启该运行不正常的服务;
判断是否成功重启该运行不正常的服务;
若判断为未成功重启该不正常的服务,则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。
2.根据权利要求1所述的方法,其特征在于,所述检测高可用集群中各物理主机中预设服务是否运行正常的步骤,包括:
根据管理员的设置来确定预设服务;
逐项判断各个物理主机的各个预设服务是否运行正常。
3.根据权利要求1所述的方法,其特征在于,所述判断是否成功重启该运行不正常的服务的步骤,包括:
在重启该运行不正常的服务失败时,隔第一预设时段再次重启该运行不正常的服务失败直到达到第一预设重启次数;
若重启次数达到第一预设重启次数,则判断未成功重启该运行不正常的服务。
4.根据权利要求1所述的方法,其特征在于,还包括:
检测高可用集群中各虚拟机是否发生故障;
若检测到发生故障的虚拟机,则重启该发生故障的虚拟机;
判断是否成功重启该发生故障的虚拟机;
若判断为未成功重启该发生故障的虚拟机,则将该发生故障的虚拟机迁移至其它物理主机。
5.根据权利要求4所述的方法,其特征在于,所述判断是否成功重启该发生故障的虚拟机的步骤,包括:
在重启该发生故障的虚拟机失败时,隔第二预设时段再次重启该虚拟机直到达到第二预设重启次数;
若达到第二预设重启次数,则判断为未成功重启该发生故障的虚拟机。
6.根据权利要求1所述的方法,其特征在于,还包括:
检测高可用集群中各物理主机是否宕机或无法连通;
若检测到宕机或无法连通的物理主机,则根据心跳机制判断无法连接的主机是否发生故障;
若判断为发生故障,则将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述将虚拟机迁移至其它物理主机的处理的步骤,包括:
根据预设策略确定迁移目标物理主机;
将虚拟机迁移至所确定迁移目标物理主机。
8.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
在要生成高可用集群的虚拟机时,创建一主虚拟机和一备份虚拟机;
当一主虚拟机出现故障时,将与该出现故障的主虚拟机对应的备份虚拟机接替该出现故障的主虚拟机继续提供服务,新设置一台虚拟机作为已替换主虚拟机对应的备份虚拟机。
9.根据权利要求8所述的方法,其特征在于,还包括:
当一备份虚拟机出现故障时,新设置一台虚拟机替换该出现故障的备份虚拟机。
10.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
在要设置高可用集群的物理主机时,设置一主物理主机和备份物理主机;
当一主物理主机出现故障时,将与该出现故障的主物理主机对应的备份物理主机代替该出现故障的主物理主机,新设置一台物理主机作为已替换主物理主机对应的备份物理主机;
当一备份物理主机出现故障时,新设置一台物理主机替换该出现故障的备份物理主机。
CN201310075446.6A 2013-03-08 2013-03-08 一种云计算平台的高可用集群管理方法 Active CN103152419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310075446.6A CN103152419B (zh) 2013-03-08 2013-03-08 一种云计算平台的高可用集群管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310075446.6A CN103152419B (zh) 2013-03-08 2013-03-08 一种云计算平台的高可用集群管理方法

Publications (2)

Publication Number Publication Date
CN103152419A true CN103152419A (zh) 2013-06-12
CN103152419B CN103152419B (zh) 2016-04-20

Family

ID=48550278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310075446.6A Active CN103152419B (zh) 2013-03-08 2013-03-08 一种云计算平台的高可用集群管理方法

Country Status (1)

Country Link
CN (1) CN103152419B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309764A (zh) * 2013-07-04 2013-09-18 曙光信息产业(北京)有限公司 虚拟机的容错机制的保护方法和装置
CN103701890A (zh) * 2013-12-20 2014-04-02 浪潮(北京)电子信息产业有限公司 一种基于云计算的虚拟集群处理方法及系统
CN103729280A (zh) * 2013-12-23 2014-04-16 国云科技股份有限公司 一种虚拟机高可用机制
CN104090832A (zh) * 2014-07-07 2014-10-08 用友软件股份有限公司 云计算平台的高可用性支撑装置及方法
CN104426696A (zh) * 2013-08-29 2015-03-18 深圳市腾讯计算机系统有限公司 一种故障处理的方法及装置
CN104427002A (zh) * 2013-09-09 2015-03-18 三星Sds株式会社 集群系统及用于在集群系统中提供服务可用性的方法
CN104468150A (zh) * 2013-09-12 2015-03-25 阿里巴巴集团控股有限公司 一种虚拟主机实现故障迁移的方法及虚拟主机业务装置
CN104484243A (zh) * 2014-12-05 2015-04-01 广东新支点技术服务有限公司 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
CN104683131A (zh) * 2013-11-27 2015-06-03 杭州迪普科技有限公司 一种应用级虚拟化高可靠性方法及装置
CN104899095A (zh) * 2014-03-03 2015-09-09 广达电脑股份有限公司 虚拟机器的资源调整方法及系统
CN105187548A (zh) * 2015-09-25 2015-12-23 浪潮(北京)电子信息产业有限公司 一种集群监控信息收集方法与系统
CN105224382A (zh) * 2014-06-18 2016-01-06 中标软件有限公司 一种虚拟机应用服务的管理方法及系统
CN105335209A (zh) * 2014-06-19 2016-02-17 联想(北京)有限公司 一种虚拟机调度方法、电子设备及服务器
CN105357038A (zh) * 2015-10-26 2016-02-24 北京百度网讯科技有限公司 监控虚拟机集群的方法和系统
CN105743696A (zh) * 2016-01-26 2016-07-06 中标软件有限公司 一种云计算平台管理方法
CN105912446A (zh) * 2016-04-29 2016-08-31 深圳市永兴元科技有限公司 分布式数据系统失效检测处理方法及装置
CN105959145A (zh) * 2016-06-04 2016-09-21 广东中兴新支点技术有限公司 一种适用高可用性集群的并行管理服务器的方法及系统
CN106130778A (zh) * 2016-07-18 2016-11-16 浪潮电子信息产业股份有限公司 一种处理集群故障的方法及一种管理节点
CN106293874A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 一种对高可用集群进行监控的方法及装置
WO2017092539A1 (zh) * 2015-11-30 2017-06-08 中兴通讯股份有限公司 虚拟机修复方法、虚拟机装置、系统及业务功能网元
CN106874111A (zh) * 2017-01-11 2017-06-20 深圳证券通信有限公司 一种云计算平台的虚拟机高可用性管理方法
CN107104841A (zh) * 2017-05-22 2017-08-29 深信服科技股份有限公司 一种集群高可用交付方法及系统
CN107179957A (zh) * 2016-03-10 2017-09-19 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107204963A (zh) * 2016-03-18 2017-09-26 上海有云信息技术有限公司 云计算模式下的高可靠性web安全防护实现方法
CN107404522A (zh) * 2017-07-20 2017-11-28 郑州云海信息技术有限公司 一种跨节点的虚拟机集群高可用实现方法和装置
CN107453888A (zh) * 2016-05-31 2017-12-08 深圳市深信服电子科技有限公司 高可用性的虚拟机集群的管理方法及装置
WO2017220033A1 (zh) * 2016-06-24 2017-12-28 平安科技(深圳)有限公司 服务器集群及适用于该集群的数据库资源组切换控制方法
CN108089911A (zh) * 2017-12-14 2018-05-29 郑州云海信息技术有限公司 OpenStack环境中的计算节点的控制方法和装置
CN109343930A (zh) * 2018-09-11 2019-02-15 郑州云海信息技术有限公司 云计算系统中虚拟机的管理方法和装置
CN109814935A (zh) * 2017-11-16 2019-05-28 中标软件有限公司 高可用主机的扩展方法及架构系统
CN110046064A (zh) * 2018-01-15 2019-07-23 厦门靠谱云股份有限公司 一种基于故障漂移的云服务器容灾实现方法
CN110399179A (zh) * 2019-07-29 2019-11-01 深圳市元征科技股份有限公司 嵌入式设备服务管理方法、系统及电子设备和存储介质
CN110764940A (zh) * 2018-07-26 2020-02-07 北京国双科技有限公司 分布式系统服务异常的处理方法及装置
CN111338886A (zh) * 2019-12-17 2020-06-26 华迪计算机集团有限公司 基于云环境虚拟机的高可用保护方法及装置
CN112084069A (zh) * 2020-09-21 2020-12-15 西安超越申泰信息科技有限公司 一种基于飞腾平台的虚拟热备系统
CN113590262A (zh) * 2021-06-30 2021-11-02 郑州云海信息技术有限公司 一种虚拟机的高可用方法、系统及相关装置
CN113760815A (zh) * 2021-10-08 2021-12-07 中科长城海洋信息系统有限公司长沙分公司 国产高性能的水声信息处理设备及其监控方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107707398B (zh) * 2017-09-29 2021-04-02 郑州云海信息技术有限公司 云计算系统中管理物理主机的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102325192A (zh) * 2011-09-30 2012-01-18 上海宝信软件股份有限公司 云计算实现方法和系统
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN102708018A (zh) * 2012-04-20 2012-10-03 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN102902599A (zh) * 2012-09-17 2013-01-30 华为技术有限公司 虚拟机内部故障处理方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102325192A (zh) * 2011-09-30 2012-01-18 上海宝信软件股份有限公司 云计算实现方法和系统
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN102708018A (zh) * 2012-04-20 2012-10-03 华为技术有限公司 一种异常处理方法及系统、代理设备与控制装置
CN102902599A (zh) * 2012-09-17 2013-01-30 华为技术有限公司 虚拟机内部故障处理方法、装置及系统

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309764A (zh) * 2013-07-04 2013-09-18 曙光信息产业(北京)有限公司 虚拟机的容错机制的保护方法和装置
CN104426696B (zh) * 2013-08-29 2018-09-07 深圳市腾讯计算机系统有限公司 一种故障处理的方法、服务器及系统
CN104426696A (zh) * 2013-08-29 2015-03-18 深圳市腾讯计算机系统有限公司 一种故障处理的方法及装置
CN104427002A (zh) * 2013-09-09 2015-03-18 三星Sds株式会社 集群系统及用于在集群系统中提供服务可用性的方法
CN104427002B (zh) * 2013-09-09 2018-02-16 三星Sds株式会社 集群系统及用于在集群系统中提供服务可用性的方法
CN104468150A (zh) * 2013-09-12 2015-03-25 阿里巴巴集团控股有限公司 一种虚拟主机实现故障迁移的方法及虚拟主机业务装置
CN104683131A (zh) * 2013-11-27 2015-06-03 杭州迪普科技有限公司 一种应用级虚拟化高可靠性方法及装置
CN103701890A (zh) * 2013-12-20 2014-04-02 浪潮(北京)电子信息产业有限公司 一种基于云计算的虚拟集群处理方法及系统
CN103729280A (zh) * 2013-12-23 2014-04-16 国云科技股份有限公司 一种虚拟机高可用机制
CN104899095A (zh) * 2014-03-03 2015-09-09 广达电脑股份有限公司 虚拟机器的资源调整方法及系统
CN105224382A (zh) * 2014-06-18 2016-01-06 中标软件有限公司 一种虚拟机应用服务的管理方法及系统
CN105335209A (zh) * 2014-06-19 2016-02-17 联想(北京)有限公司 一种虚拟机调度方法、电子设备及服务器
CN104090832A (zh) * 2014-07-07 2014-10-08 用友软件股份有限公司 云计算平台的高可用性支撑装置及方法
CN104484243B (zh) * 2014-12-05 2019-08-06 广东中兴新支点技术有限公司 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
CN104484243A (zh) * 2014-12-05 2015-04-01 广东新支点技术服务有限公司 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
CN105187548A (zh) * 2015-09-25 2015-12-23 浪潮(北京)电子信息产业有限公司 一种集群监控信息收集方法与系统
CN105357038A (zh) * 2015-10-26 2016-02-24 北京百度网讯科技有限公司 监控虚拟机集群的方法和系统
US10152382B2 (en) 2015-10-26 2018-12-11 Beijing Baidu Netcom Science And Technology, Co., Ltd. Method and system for monitoring virtual machine cluster
WO2017092539A1 (zh) * 2015-11-30 2017-06-08 中兴通讯股份有限公司 虚拟机修复方法、虚拟机装置、系统及业务功能网元
CN105743696A (zh) * 2016-01-26 2016-07-06 中标软件有限公司 一种云计算平台管理方法
CN107179957A (zh) * 2016-03-10 2017-09-19 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107179957B (zh) * 2016-03-10 2020-08-25 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107204963A (zh) * 2016-03-18 2017-09-26 上海有云信息技术有限公司 云计算模式下的高可靠性web安全防护实现方法
CN105912446A (zh) * 2016-04-29 2016-08-31 深圳市永兴元科技有限公司 分布式数据系统失效检测处理方法及装置
CN107453888A (zh) * 2016-05-31 2017-12-08 深圳市深信服电子科技有限公司 高可用性的虚拟机集群的管理方法及装置
CN107453888B (zh) * 2016-05-31 2020-11-20 深信服科技股份有限公司 高可用性的虚拟机集群的管理方法及装置
CN105959145A (zh) * 2016-06-04 2016-09-21 广东中兴新支点技术有限公司 一种适用高可用性集群的并行管理服务器的方法及系统
CN105959145B (zh) * 2016-06-04 2019-05-17 广东中兴新支点技术有限公司 一种适用高可用性集群的并行管理服务器的方法及系统
WO2017220033A1 (zh) * 2016-06-24 2017-12-28 平安科技(深圳)有限公司 服务器集群及适用于该集群的数据库资源组切换控制方法
CN106130778A (zh) * 2016-07-18 2016-11-16 浪潮电子信息产业股份有限公司 一种处理集群故障的方法及一种管理节点
CN106293874A (zh) * 2016-07-29 2017-01-04 浪潮(北京)电子信息产业有限公司 一种对高可用集群进行监控的方法及装置
CN106874111A (zh) * 2017-01-11 2017-06-20 深圳证券通信有限公司 一种云计算平台的虚拟机高可用性管理方法
CN107104841A (zh) * 2017-05-22 2017-08-29 深信服科技股份有限公司 一种集群高可用交付方法及系统
CN107404522A (zh) * 2017-07-20 2017-11-28 郑州云海信息技术有限公司 一种跨节点的虚拟机集群高可用实现方法和装置
CN107404522B (zh) * 2017-07-20 2020-03-10 苏州浪潮智能科技有限公司 一种跨节点的虚拟机集群高可用实现方法和装置
CN109814935A (zh) * 2017-11-16 2019-05-28 中标软件有限公司 高可用主机的扩展方法及架构系统
CN108089911A (zh) * 2017-12-14 2018-05-29 郑州云海信息技术有限公司 OpenStack环境中的计算节点的控制方法和装置
CN110046064A (zh) * 2018-01-15 2019-07-23 厦门靠谱云股份有限公司 一种基于故障漂移的云服务器容灾实现方法
CN110046064B (zh) * 2018-01-15 2020-08-04 厦门靠谱云股份有限公司 一种基于故障漂移的云服务器容灾实现方法
CN110764940A (zh) * 2018-07-26 2020-02-07 北京国双科技有限公司 分布式系统服务异常的处理方法及装置
CN109343930A (zh) * 2018-09-11 2019-02-15 郑州云海信息技术有限公司 云计算系统中虚拟机的管理方法和装置
CN110399179A (zh) * 2019-07-29 2019-11-01 深圳市元征科技股份有限公司 嵌入式设备服务管理方法、系统及电子设备和存储介质
CN111338886A (zh) * 2019-12-17 2020-06-26 华迪计算机集团有限公司 基于云环境虚拟机的高可用保护方法及装置
CN112084069A (zh) * 2020-09-21 2020-12-15 西安超越申泰信息科技有限公司 一种基于飞腾平台的虚拟热备系统
CN113590262A (zh) * 2021-06-30 2021-11-02 郑州云海信息技术有限公司 一种虚拟机的高可用方法、系统及相关装置
CN113590262B (zh) * 2021-06-30 2023-11-03 郑州云海信息技术有限公司 一种虚拟机的高可用方法、系统及相关装置
CN113760815A (zh) * 2021-10-08 2021-12-07 中科长城海洋信息系统有限公司长沙分公司 国产高性能的水声信息处理设备及其监控方法

Also Published As

Publication number Publication date
CN103152419B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN103152419B (zh) 一种云计算平台的高可用集群管理方法
EP3142011B1 (en) Anomaly recovery method for virtual machine in distributed environment
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
EP4083786A1 (en) Cloud operating system management method and apparatus, server, management system, and medium
EP3472971B1 (en) Technique for resolving a link failure
CN105790980B (zh) 一种故障修复方法及装置
US10831622B2 (en) Method and apparatus for processing gateway device fault
US20140089736A1 (en) Distributed system, server computer, distributed management server, and failure prevention method
CN109194514B (zh) 一种双机监测方法、装置、服务器及存储介质
CN102355369A (zh) 虚拟化集群系统及其处理方法和设备
CN102394914A (zh) 集群脑裂处理方法和装置
CN109245926B (zh) 智能网卡、智能网卡系统及控制方法
CN106130763A (zh) 服务器集群及适用于该集群的数据库资源组切换控制方法
CN108469996A (zh) 一种基于自动快照的系统高可用方法
CN104239548A (zh) 数据库容灾系统和数据库容灾方法
CN112948063A (zh) 云平台的创建方法、装置、云平台以及云平台实现系统
CN103309764A (zh) 虚拟机的容错机制的保护方法和装置
CN105959145B (zh) 一种适用高可用性集群的并行管理服务器的方法及系统
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN114064217A (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
US10157110B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
CN103931139A (zh) 一种冗余保护方法、装置、设备及系统
CN103442033A (zh) 一种运行状态信息的同步方法和设备
CN105045691B (zh) 一种故障检测方法和系统
CN107122228A (zh) 超融合系统的管理平台的部署方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant