CN103152419B

CN103152419B - 一种云计算平台的高可用集群管理方法

Info

Publication number: CN103152419B
Application number: CN201310075446.6A
Authority: CN
Inventors: 姚远
Original assignee: China Standard Software Co Ltd
Current assignee: China Standard Software Co Ltd
Priority date: 2013-03-08
Filing date: 2013-03-08
Publication date: 2016-04-20
Anticipated expiration: 2033-03-08
Also published as: CN103152419A

Abstract

本发明公开了一种云计算平台的高可用集群管理方法。该方法包括：检测高可用集群中各物理主机的预设服务是否运行正常；若检测到一物理主机中存在运行不正常的服务，则重启该运行不正常的服务；判断是否成功重启该运行不正常的服务；若判断为未成功重启该不正常的服务，则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。本发明通过检测高可用集群中各物理主机的预设服务是否运行正常，若检测到一物理主机中存在运行不正常的服务，则重启该运行不正常的服务，可做到对物理主机的关键服务进行监控，以尽可能快地预测或检测到可能发生异常的虚拟主机，从而增强高可用性集群的高可用性，提高用户体验。

Description

一种云计算平台的高可用集群管理方法

技术领域

本发明涉及云计算领域，尤其涉及一种云计算平台的高可用集群管理方法。

背景技术

云计算是一种新兴的共享基础架构的方法，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云计算的底层需要虚拟化技术支持。通过虚拟化技术，云计算可以实现对资源的灵活以及高效的使用，从而为用户提供优质的服务。

高可用指的是通过尽量缩短因日常维护操作（计划）或突发的系统崩溃（非计划）所导致的停机时间，以提高系统和应用的可行性。高可用是目前企业防止核心计算机系统因故障停机的最有效手段。高可用技术在物理主机上普遍应用。

从本质上来说，云计算平台为用户提供服务以虚拟机的方式呈现。没有高可用支持的虚拟机是非常危险的，当核心系统或服务由于未知原因或意外宕机时，将会给用户带来无法估量的损失。目前，绝大多数的云计算平台都没有提供虚拟机高可用服务或者提供的高可用服务无法满足用户需求。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够提高高可用支持的云计算平台的高可用集群管理方法。

为了解决上述技术问题，本发明提供了一种云计算平台的高可用集群管理方法。该方法包括：

检测高可用集群中各物理主机的预设服务是否运行正常；

若检测到一物理主机中存在运行不正常的服务，则重启该运行不正常的服务；

判断是否成功重启该运行不正常的服务；

若判断为未成功重启该不正常的服务，则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。

其中，所述检测高可用集群中各物理主机中预设服务是否运行正常的步骤，包括：根据管理员的设置来确定预设服务；逐项判断各个物理主机的各个预设服务是否运行正常。

其中，所述判断是否成功重启该运行不正常的服务的步骤，包括：在重启该运行不正常的服务失败时，隔第一预设时段再次重启该运行不正常的服务失败直到达到第一预设重启次数；若重启次数达到第一预设重启次数，则判断未成功重启该运行不正常的服务。

进一步，所述方法还包括：检测高可用集群中各虚拟机是否发生故障；若检测到发生故障的虚拟机，则重启该发生故障的虚拟机；判断是否成功重启该发生故障的虚拟机；若判断为未成功重启该发生故障的虚拟机，则将该发生故障的虚拟机迁移至其它物理主机。

其中，所述判断是否成功重启该发生故障的虚拟机的步骤，包括：

在重启该发生故障的虚拟机失败时，隔第二预设时段再次重启该虚拟机直到达到第二预设重启次数；

若达到第二预设重启次数，则判断为未成功重启该发生故障的虚拟机。

进一步，所述方法还包括：检测高可用集群中各物理主机是否宕机或无法连通；若检测到宕机或无法连通的物理主机，则根据心跳机制判断无法连接的主机是否发生故障；若判断为发生故障，则将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机。

所述将虚拟机迁移至其它物理主机的处理的步骤，包括：根据预设策略确定迁移目标物理主机；将虚拟机迁移至所确定迁移目标物理主机。

进一步，所述方法还包括：在要生成高可用集群的虚拟机时，创建一主虚拟机和一备份虚拟机；当一主虚拟机出现故障时，将与该出现故障的主虚拟机对应的备份虚拟机接替该出现故障的主虚拟机继续提供服务，新设置一台虚拟机作为已替换主虚拟机对应的备份虚拟机。

进一步，所述方法还包括：当一备份虚拟机出现故障时，新设置一台虚拟机替换该出现故障的备份虚拟机。

进一步，所述方法还包括：在要设置高可用集群的物理主机时，设置一主物理主机和备份物理主机；当一主物理主机出现故障时，将与该出现故障的主物理主机对应的备份物理主机代替该出现故障的主物理主机，新设置一台物理主机作为已替换主物理主机对应的备份物理主机；当一备份物理主机出现故障时，新设置一台物理主机替换该出现故障的备份物理主机。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：通过检测高可用集群中各物理主机的预设服务是否运行正常，若检测到一物理主机中存在运行不正常的服务，则重启该运行不正常的服务，可做到对物理主机的关键服务进行监控，以尽可能快地预测或检测到可能发生异常的虚拟主机，从而增强高可用性集群的高可用性，提高用户体验。

更具体地，通过检测预设服务的运行情况，可以预判虚拟机可能会在要用到这些预设服务时出错，因此，本发明甚至可以预测虚拟机可能运行不正常从而在虚拟机出错之前就避免了错误的发生。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明实施例的云计算平台整体框架图；

图2是根据本发明实施例一的云计算平台的高可用集群管理方法中对运行虚拟机的主机上的关键服务进行保护的流程图；

图3是根据本发明实施例一的云计算平台的高可用集群管理方法中对宕机的虚拟机进行保护的流程图；

图4是根据本发明实施例一的云计算平台的高可用集群管理方法中对已宕机的主机上的虚拟机进行保护的流程图；

图5是根据本发明实施例一的云计算平台的高可用集群管理方法中对虚拟机进行双机热备的流程图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明的实施例中包含对运行虚拟机的主机上的关键服务进行高可用保护、对宕机的虚拟机进行高可用保护、对已宕机的主机上的虚拟机进行高可用保护、对虚拟机进行双机热备等四个部分，将结合附图分别予以说明。优选的，本发明的实施例采用安全云操作系统中的云计算平台NKSCLOUD和高可用集群软件来实现各种功能和效果。

图1为根据本发明的云计算平台整体框架图。云计算平台管理系统用于管理主机资源与虚拟机资源，负责资源的整合与优化；高可用集群软件部署在主机资源和虚拟机资源上，用于进行主机资源及虚拟机资源的高可用设置与高可用管理。云计算平台管理系统管理高可用集群软件，并且在开启高可用功能时需要高可用集群软件的协同工作。高可用集群软件发现主机资源或虚拟机资源故障时会通知云计算平台进行故障处理。

根据云计算平台的高可用集群管理方法，检测高可用集群中各物理主机的预设服务是否运行正常，若检测到一物理主机中存在运行不正常的服务，则重启该运行不正常的服务，若重启未成功并达到第一预设重启次数时，则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机。下面结合图2进行详细说明。

图2为根据本实施例一的基于云计算平台的高可用集群管理方法中对运行虚拟机的物理主机上的关键服务进行保护的流程图，其中箭头方向代表了工作流的方向，具体包括以下步骤：

步骤S210，高可用集群软件检测物理主机上的预设服务是否运行正常。可根据管理员的设置来将一些可能影响虚拟机的正常运行或使用频率较高的较关键服务确定为预设服务；再逐项判断各个物理主机的各个预设服务是否运行正常。

步骤S220，高可用集群软件重启所检测到的运行不正常的服务。

步骤S230，判断是否成功重启该运行不正常的服务。

优选地，在未能通过重启使其运行正常时，可隔第一预设时段再次重启该运行不正常的服务，直到达到第一预设重启次数。例如，高可用集群软件每隔3秒尝试重启该服务，直到重启次数达到10次后，才判断为未成功重启该运行不正常的服务。其中第一预设重启次数和第一预设时段均可由管理员预先设置。换而言之，在重启该运行不正常的服务失败时，隔第一预设时段再次重启该运行不正常的服务直到达到第一预设重启次数；当达到第一预设重启次数时，才最终判断为未成功重启该成功重启该运行不正常的服务，反之，判断为成功重启。

当判断为成功重启该不正常的服务时，本过程结束。

当判断为未成功重启该不正常的服务时，进入步骤S240。

步骤S240，高可用集群软件记录该物理主机的故障信息，并且通知云计算平台该物理主机出现故障，然后进入步骤S250。

步骤S250，高可用集群软件根据预先定义好的策略确定合适的物理主机，向云计算平台发送将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机的请求。在此，其它物理主机指根据预先定义好的策略确定合适的物理主机（也称目标迁移主机），但是，不限于此，实践中可为该集群中任一运行正常的物理主机。此外，该预先定义好的策略（预设策略）也可以多种多样，例如，可将当前负载最少的物理主机、最邻近的物理主机、或者预设的备用物理主机等确定为目标迁移主机。

步骤S260，云计算平台根据该请求，调用迁移命令将该存在运行不正常的服务的物理主机中的虚拟机迁移至所确定的物理主机上。

需要说明的是，云计算平台可以在接收到一个将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机的请求后，便将该存在运行不正常的服务的物理主机中的所有虚拟机迁移至所确定的物理主机；也可以是每迁移一个虚拟主机便发送一条请求，云计算平台在接收到一条请求后，将该请求指定的存在运行不正常的服务的物理主机中的一个虚拟机移至所确定的物理主机。

此外，根据本实施例一的基于云计算平台的高可用集群管理方法中，还检测高可用集群中各虚拟机是否发生故障；若检测到发生故障的虚拟机，则重启该虚拟机；若重启未成功，则将该发生故障的虚拟机迁移至其它物理主机。下面参考图3进行详细说明。

图3为根据本实施例一的基于云计算平台的高可用集群管理方法中的对宕机的虚拟机进行保护的流程图，其中箭头方向代表了工作流的方向，具体包括以下步骤：

步骤S310，高可用集群软件检测到物理主机上的某个虚拟机是否发生故障，例如，是否宕机或其安装的某个关键系统是否出错等。

步骤S320，高可用集群软件重启该发生故障的虚拟机。

步骤S330，判断是否成功重启该发生故障的虚拟机。

优选地，在未能通过重启使其故障恢复时，可隔第二预设时段再次重启该发生故障的虚拟机、直到达到第二预设重启次数。例如，高可用集群软件每隔3秒尝试重启发生故障的虚拟机，直到重启次数达到3次后，才判断为未成功重启该发生故障的虚拟机。其中第二预设重启次数和第二预设时段均可由管理员预先设置。这种情况下，当重启次数达到第二预设重启次数时，才判断为未成功重启该发生故障的虚拟机，反之，判断为成功重启。

当判断为重启虚拟机成功时，本过程结束，反之，当判断为重启该虚拟机失败时进入步骤S340。

步骤S340，高可用集群软件记录该虚拟机的故障信息，通知云计算平台该虚拟机出现故障。

步骤S350，高可用集群软件根据预先定义好的策略确定目标迁移物理主机后，向云计算平台发送迁移该虚拟机到目标迁移物理主机的请求。

步骤S360，云计算平台调用迁移命令将该虚拟机迁移到目标迁移物理主机上。

此外，根据本实施例一的基于云计算平台的高可用集群管理方法中，还检测高可用集群中各物理主机是否宕机或无法连通；若检测到宕机或无法连通的物理主机，则根据心跳机制判断无法连接的主机是否发生故障；若判断为发生故障，则将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机。

图4为根据本实施例一的基于云计算平台的高可用集群管理方法中对已宕机的物理主机上的虚拟机进行保护的流程图，其中箭头方向代表了工作流的方向，具体包括以下步骤：

步骤S410，检测到某个物理主机宕机或无法连通。

步骤S420，根据心跳机制判断无法连接的物理主机是否真的发生故障，如果该物理主机不是真的发生故障，则过程结束；如果该物理主机是真的发生故障，则进入步骤S430。

步骤S430，高可用集群软件可记录该物理主机的故障信息，通知云计算平台该主机出现故障。

步骤S440，高可用集群软件根据预先定义好的策略确定目标迁移物理主机后，向云计算平台发送迁移某个虚拟机到所确定的目标迁移物理主机的请求。

步骤S450，将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机(即，不同于的该宕机或无法连通的物理主机的物理主机)。云计算平台调用迁移命令将该虚拟机迁移到目标迁移物理主机。

步骤S460，如果此时故障的主机上还存在未迁移出去的虚拟机，返回步骤S440。

此外，根据本实施例一的基于云计算平台的高可用集群管理方法中，在要生成高可用集群的虚拟机时，生成一主虚拟机和一备份虚拟机，也将这种同时运行一对相同的虚拟机（主虚拟机和备份虚拟机）的方式称为虚拟机的双机热备策略。当一主虚拟机出现故障时，将与该出现故障的主虚拟机对应的备份虚拟机接替该出现故障的主虚拟机继续提供服务，新设置一台虚拟机作为已替换主虚拟机对应的备份虚拟机。当一备份虚拟机出现故障时，新设置一台虚拟机替换该出现故障的备份虚拟机。下面参考图5进行详细说明。

图5为根据本实施例一的基于云计算平台的高可用集群管理方法中对虚拟机进行双机热备的流程图，其中箭头方向代表了工作流的方向，具体包括以下步骤：

步骤S510，在要生成高可用集群的虚拟机时，在云计算平台中创建两台虚拟机，一主虚拟机和一备份虚拟机。主虚拟机与备份虚拟机为内容同样的虚拟机。

步骤S520，在两台虚拟机中部署高可用集群软件，根据需求分别对两台虚拟机进行配置，设置需要保护的关键服务，设置两台虚拟机分别为主虚拟机与备份虚拟机。

步骤S530，可选地，云计算平台将设置好的备份虚拟机另存为虚拟机模板，并且对配置了双机热备的虚拟机进行特殊标记。

步骤S540，双机热备中的虚拟机出现故障时，如果发生故障的虚拟机为备份虚拟机，则跳转到步骤S560，否则跳转到步骤S550。

步骤S550，切换备份虚拟机接替主虚拟机继续提供服务。

步骤S560，通知云计算平台双机热备中的该备份虚拟机出现故障。

步骤S570，云计算平台从虚拟机模板中创建一台虚拟机作为新的备份虚拟机使用。

此外，在要设置高可用集群的物理主机，设置一主物理主机和备份物理主机；当一主物理主机出现故障时，将与该出现故障的主物理主机对应的备份物理主机代替该出现故障的主物理主机，新设置一台物理主机作为已替换主物理主机对应的备份物理主机；当一备份物理主机出现故障时，新设置一台物理主机替换该出现故障的备份物理主机。由于这种情形与图5所示的虚拟机的双机热备策略策略类似，因此不再赘述。

本发明仅以安全云操作系统中的云计算平台NKSCLOUD和高可用集群软件为例进行说明，事实上，所有的云计算平台的虚拟机高可用方法都在本发明的解决范围之内。

本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算设置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种云计算平台的高可用集群管理方法，其特征在于，包括：

检测高可用集群中各物理主机的预设服务是否运行正常；

判断是否成功重启该运行不正常的服务；

若判断为未成功重启该不正常的服务，则将该存在运行不正常的服务的物理主机中的虚拟机迁移至其它物理主机，其中，

所述其它物理主机包括该高可用集群中任一运行正常的物理主机；

所述将虚拟机迁移至其它物理主机的处理的步骤，包括：

根据预设策略确定迁移目标物理主机；

将虚拟机迁移至所确定迁移目标物理主机。

2.根据权利要求1所述的方法，其特征在于，所述检测高可用集群中各物理主机中预设服务是否运行正常的步骤，包括：

根据管理员的设置来确定预设服务；

逐项判断各个物理主机的各个预设服务是否运行正常。

3.根据权利要求1所述的方法，其特征在于，所述判断是否成功重启该运行不正常的服务的步骤，包括：

在重启该运行不正常的服务失败时，隔第一预设时段再次重启该运行不正常的服务失败直到达到第一预设重启次数；

若重启次数达到第一预设重启次数，则判断未成功重启该运行不正常的服务。

4.根据权利要求1所述的方法，其特征在于，还包括：

检测高可用集群中各虚拟机是否发生故障；

若检测到发生故障的虚拟机，则重启该发生故障的虚拟机；

判断是否成功重启该发生故障的虚拟机；

若判断为未成功重启该发生故障的虚拟机，则将该发生故障的虚拟机迁移至其它物理主机。

5.根据权利要求4所述的方法，其特征在于，所述判断是否成功重启该发生故障的虚拟机的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

检测高可用集群中各物理主机是否宕机或无法连通；

若检测到宕机或无法连通的物理主机，则根据心跳机制判断无法连接的主机是否发生故障；

若判断为发生故障，则将该宕机或无法连通的物理主机中的虚拟机迁移至其它物理主机。

7.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

在要生成高可用集群的虚拟机时，创建一主虚拟机和一备份虚拟机；

当一主虚拟机出现故障时，将与该出现故障的主虚拟机对应的备份虚拟机接替该出现故障的主虚拟机继续提供服务，新设置一台虚拟机作为已替换主虚拟机对应的备份虚拟机。

8.根据权利要求7所述的方法，其特征在于，还包括：

当一备份虚拟机出现故障时，新设置一台虚拟机替换该出现故障的备份虚拟机。

9.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

在要设置高可用集群的物理主机时，设置一主物理主机和备份物理主机；

当一主物理主机出现故障时，将与该出现故障的主物理主机对应的备份物理主机代替该出现故障的主物理主机，新设置一台物理主机作为已替换主物理主机对应的备份物理主机；

当一备份物理主机出现故障时，新设置一台物理主机替换该出现故障的备份物理主机。