CN111355775B

CN111355775B - CloudStack集群子服务器状态判断方法、装置、设备及存储介质

Info

Publication number: CN111355775B
Application number: CN201911396885.0A
Authority: CN
Inventors: 刘美华
Original assignee: Shenzhen Innovation Technology Co ltd
Current assignee: Shenzhen Innovation Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-11-18
Anticipated expiration: 2039-12-30
Also published as: CN111355775A

Abstract

本发明提供了一种CloudStack集群子服务器状态判断方法、装置、设备及存储介质，涉及云技术领域，包括如下步骤：子服务器编写心跳文件并存储在Ceph RBD块存储中，在所述Ceph RBD块存储中创建KVMHA块设备，通过rbd image‑meta set命令所述KVMHA块设备写入键为主机IP，值为当前时间戳的元数据；管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果；当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbd image‑meta get命令确定目标子服务器是否可用。通过Ceph RBD块存储来存储心跳文件，避免现有的NFS存储造成的CloudStack集群的超融合环境下支持更多主流存储技术，提升了CloudStack集群的高可适用性。

Description

CloudStack集群子服务器状态判断方法、装置、设备及存储介质

技术领域

本发明涉及云技术领域，尤其是涉及一种CloudStack集群子服务器状态判断方法、装置、设备及存储介质。

背景技术

CloudStack是一个开源的具有高可用性及扩展性的云计算平台，其通过组织用户的虚拟化资源，让用户构建出安全的、多租户的云计算环境。

CloudStack集群在超融合部署状态下，当遇到突发硬件故障时，如主机断电、断网等特殊情形下，如何确保主机及虚拟机能够继续提供服务，是确保CloudStack高可用性的关键。

现有解决方案在子服务器编写心跳文件时，需要在主存中存储文件，导致集群共享的其他子服务器在问题服务器无法连接主存，不适用于超融合部署状态的CloudStack集群。

发明内容

有鉴于此，本发明的目的在于提供一种CloudStack集群子服务器状态判断方法、装置、设备及存储介质，以提高CloudStack集群的高可适用应用范围。

第一方面，本发明实施例提供了一种CloudStack集群状态判断方法，所述CloudStack集群包括多个子服务器，包括如下步骤：

子服务器编写心跳文件并存储在Ceph RBD块存储中，在所述Ceph RBD 块存储中创建KVMHA块设备，通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP，值为当前时间戳的元数据；

管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果；

当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。

进一步的，所述其他子服务器用rbd image-meta get命令确定目标子服务器是否可用的步骤包括：

其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件。

进一步的，所述当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用的步骤还包括：

目标服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。

进一步的，所述目标服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态的步骤还包括：

当目标服务器判断自身不可用时，通过命令ps axu|grep qemu|awk '{print$2}’将该主机上的虚拟机进程全部删除。

第二方面，本发明实施例还提供一种CloudStack集群状态判断装置，包括：

元数据创建模块，用于子服务器编写心跳文件并存储在Ceph RBD块存储中，在所述Ceph RBD块存储中创建KVMHA块设备，通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP，值为当前时间戳的元数据；

Ping通判断模块，用于管理节点定时Ping子服务器的主机IP并获取 Ping通与否的结果；

目标子服务器状态判断模块，用于当管理节点获取目标子服务器Ping 通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。

进一步的，其他子服务器用rbd image-meta get命令确定目标子服务器的CephRBD块存储中是否持续编写有心跳文件。

进一步的，还包括：目标服务器自身状态判断模块，用于通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。

进一步的，还包括：虚拟机删除模块，用于当目标服务器判断自身不可用时，通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。

第三方面，本发明实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述任一项所述CloudStack集群状态判断方法的步骤。

第四方面，本发明实施例还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述任一项所述 CloudStack集群状态判断方法的步骤。

本发明实施例带来了以下有益效果：通过Ceph RBD块存储来存储心跳文件，避免现有的NFS存储造成的CloudStack集群的超融合环境下支持更多主流存储技术，提升了CloudStack集群的高可适用性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的CloudStack集群状态判断方法的流程示意图；

图2为本发明另一实施例提供的CloudStack集群状态判断方法的流程示意图；

图3为本发明实施例提供的CloudStack集群状态判断装置的结构示意图；

图4为本发明实施例提供的电子设备的结构示意图。

图5为本发明实施例提供的判断逻辑的示意图。

图标：

100-元数据创建模块；200-Ping通判断模块；300-目标子服务器状态判断模块；501-存储器；502-处理器；503-总线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种 CloudStack集群状态判断方法进行详细介绍。

实施例一：

CloudStack是一个开源的具有高可用性及扩展性的云计算平台，通常用于帮助用户利用自己的硬件提供公共云服务。在CloudStack集群，特别是超融合部署环境下，在遇到突发的硬件故障，如主机断电、断网等特殊情况下，如何确保主机及虚拟机能继续提供服务，以保证CloudStack的高可用性是当前必须解决的问题。

在解决该问题中重点解决的核心问题是：1，管理节点如何判断主机不可使用(如意外断电、断网)；2，当管理节点判断上述主机为不可使用状态时，主机本身如何判断自身不可用以及如何响应。

本实施例提供一种CloudStack集群状态判断方法，所述CloudStack 集群包括多个子服务器，如图1所示，包括如下步骤：

S110：子服务器编写心跳文件并存储在Ceph RBD块存储中，在所述Ceph RBD块存储中创建KVMHA块设备，通过rbd image-meta set命令所述KVMHA 块设备写入键为主机IP，值为当前时间戳的元数据；

S120：管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果；

S130：当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。

本方法通过Ceph RBD块存储来存储心跳文件，避免现有的NFS存储造成的CloudStack集群的超融合环境下支持更多主流存储技术，提升了 CloudStack集群的高可适用性。

实施例二：

本实施例提供一种CloudStack集群状态判断方法，所述CloudStack 集群包括多个子服务器，如图2所示，包括如下步骤：

S210：子服务器编写心跳文件并存储在Ceph RBD块存储中，在所述Ceph RBD块存储中创建KVMHA块设备，通过rbd image-meta set命令所述KVMHA 块设备写入键为主机IP，值为当前时间戳的元数据；

S220：管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果；

S230：当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD 块存储中是否持续编写有心跳文件。

S240：目标服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。

现有技术中，子服务器Agent判定自身不可用逻辑简单，会出现误判、漏判等情况。本方案通过同时判断自身主机网口状态及Ping网关结果来判断自身状态的判断方法逻辑更加复杂严密，判断结果更加准确。

具体判断逻辑如图5所示，采用间隔时间为1分钟的定时任务来检测，初始offlineNum＝0，首先检测网口状态，若网口状态为offline，则 offlineNum+1，若网口状态为online，则继续检测Ping网关，若Ping网关结果OK，则offlineNum为0，若Ping网关结果为Fail，则offlineNum+1，当offlineNum>4时，判断目标子服务器已断网不可用。

S250：当目标服务器判断自身不可用时，通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。

现有的子服务器Agent判断自身不可用后，进行重启机器操作，造成自身运行正常的虚拟机也被中断删除，从而影响了服务的正常提供。

本方法在目标服务器判断自身不可用时，通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除，避免了重启机器造成的对正常服务的影响。这种方法的目的在于在目标服务器判断自身不可用时，有可能只是计算部分断网，而存储部分或者其他服务模块的网卡是正常的，避免了误删除的情况。

而且，在目标服务器断网之后，管理节点将该目标服务器的所有虚拟机在其他服务器重新启动，断网目标服务器如果不将虚拟机删除，会存在一个虚拟机多个实例的清洗，进而产生脏数据。

实施例三

本发明实施例还提供一种CloudStack集群状态判断装置，如图3所示，包括：

元数据创建模块100，用于子服务器编写心跳文件并存储在Ceph RBD 块存储中，在所述Ceph RBD块存储中创建KVMHA块设备，通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP，值为当前时间戳的元数据。

Ping通判断模块200，用于管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果。

目标子服务器状态判断模块300，用于当管理节点获取目标子服务器 Ping通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。

目标服务器自身状态判断模块，用于通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。

虚拟机删除模块，用于当目标服务器判断自身不可用时，通过命令ps axu|grepqemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。

实施例四

本发明实施例还提供一种电子设备，如图4所示，包括：处理器502、存储器501和总线503，所述存储器501存储有所述处理器502可执行的机器可读指令，当电子设备运行时，所述处理器502与所述存储器501之间通过总线503通信，所述处理器502执行所述机器可读指令，以执行上述任一项所述CloudStack集群状态判断方法的步骤。

实施例五

本发明实施例还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器502运行时执行上述任一项所述CloudStack 集群状态判断方法的步骤。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种CloudStack集群状态判断方法，所述CloudStack集群包括多个子服务器，其特征在于，包括如下步骤：

子服务器编写心跳文件并存储在Ceph RBD块存储中，在所述Ceph RBD块存储中创建KVMHA块设备，通过rbd image-meta set命令所述KVMHA块设备写入键为主机IP，值为当前时间戳的元数据；

管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果；

当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbdimage-meta get命令确定目标子服务器是否可用。

2.根据权利要求1所述的CloudStack集群状态判断方法，其特征在于，所述其他子服务器用rbd image-meta get命令确定目标子服务器是否可用的步骤包括：

3.根据权利要求2所述的CloudStack集群状态判断方法，其特征在于，所述其他子服务器用rbd image-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件之后，还包括：

目标子服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态。

4.根据权利要求3所述的CloudStack集群状态判断方法，其特征在于，所述目标子服务器通过同时判断自身主机网口状态及Ping网关结果来判断自身状态之后，还包括：

当目标子服务器判断自身不可用时，通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。

5.一种CloudStack集群状态判断装置，其特征在于，包括：

Ping通判断模块，用于管理节点定时Ping子服务器的主机IP并获取Ping通与否的结果；

目标子服务器状态判断模块，用于当管理节点获取目标子服务器Ping通结果为否时，管理节点通过其他子服务器用rbd image-meta get命令确定目标子服务器是否可用。

6.根据权利要求5所述的CloudStack集群状态判断装置，其特征在于，目标子服务器状态判断模块，还用于当管理节点获取目标子服务器Ping通结果为否时，其他子服务器用rbdimage-meta get命令确定目标子服务器的Ceph RBD块存储中是否持续编写有心跳文件。

7.根据权利要求6所述的CloudStack集群状态判断装置，其特征在于，还包括：

8.根据权利要求7所述的CloudStack集群状态判断装置，其特征在于，还包括：

虚拟机删除模块，用于当目标服务器判断自身不可用时，通过命令ps axu|grep qemu|awk'{print$2}’将该主机上的虚拟机进程全部删除。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-4任一项所述CloudStack集群状态判断方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-4任一项所述CloudStack集群状态判断方法的步骤。