CN114416304A

CN114416304A - 一种虚拟机疏散方法和系统

Info

Publication number: CN114416304A
Application number: CN202210170945.2A
Authority: CN
Inventors: 董国宇; 孙仁才; 夏曙东; 石四平; 张志平; 孙智彬
Original assignee: Beijing Transwiseway Information Technology Co Ltd
Current assignee: Beijing Transwiseway Information Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-04-29

Abstract

本申请实施例公开了一种虚拟机疏散方法和系统，所述方法包括：监控计算节点的运行状态；若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。大大降低故障后的响应时间，无需进行API交互，实现了故障发生后的快速响应和快速处理。

Description

一种虚拟机疏散方法和系统

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种虚拟机疏散方法和系统。

背景技术

OpenStack是一个开源的云计算管理平台项目，旨在为公共及私有云的建设与管理。随着越来越多的企业选择OpenStack作为云建设的基础软件，OpenStack运行的稳定性和可运维性提出越来越高的要求。OpenStack环境中分为控制节点和计算节点，控制节点包含各组件(nova/cinder/neutron/…)的API和调度等服务，已具备很成熟的高可用方案，如使用keepalived+haproxy保证各API服务的稳定性，MQ和DB都有各自的高可用方案，但是在计算节点仍缺少可靠的保障方案，尽管nova组件已提供疏散(evacuate)的API，但仅仅是一个疏散的工具，距离完整的解决方案还有很大的差距，特别是在运维成本上，需要技术能力高的运维人员进行精确的判断，然后再手动对故障计算节点上的虚拟机一一进行疏散，耗费大量的人力和精力，且很容易出现人为判断出错导致更严重的故障。

针对于OpenStack的环境中计算节点宿主机因硬件或断电等主机异常关闭或重启的情况下，如何对虚拟机进行快速疏散迁移，是亟待解决的问题。

发明内容

为此，本申请实施例提供一种虚拟机疏散方法和系统，大大降低故障后的响应时间，无需进行API交互，实现了故障发生后的快速响应和快速处理。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种虚拟机疏散方法，所述方法包括：

监控计算节点的运行状态；

若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；

若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；

确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。

可选地，所述确定目标疏散节点，包括：

查询数据库中当前运行正常的计算节点，得到计算节点第一集合；

在所述计算节点第一集合中筛选没有服务类型标签的计算节点，得到计算节点第二集合；

在所述计算节点第二集合中随机确定虚拟机疏散的目标疏散节点。

可选地，所述迁移异常计算节点上的虚拟机到目标疏散节点，包括：

将所述数据库中存储的所述异常计算节点上虚拟机的主机信息变更为目标疏散节点的主机信息。

可选地，所述对异常计算节点上的虚拟机的网络状态或主机服务端口状态进行检测后，若没有检测到异常，所述方法还包括：

向运维客户端发送异常报警排查消息。

可选地，在迁移所述异常计算节点上的虚拟机到所述目标疏散节点之后，所述方法还包括：

向疏散至所述目标疏散节点上的虚拟机发送启动指令。

可选地，所述方法还包括：

检查所述虚拟机是否可以正常通讯，并向运维客户端发送检查结果。

根据本申请实施例的第二方面，提供了一种虚拟机疏散系统，所述系统包括：

监控模块，用于监控计算节点的运行状态；

二次检测模块，用于若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；

备份模块，用于若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；

虚拟机疏散模块，用于确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。

可选地，所述虚拟机疏散模块，具体用于：

根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。

综上所述，本申请实施例提供了一种虚拟机疏散方法和系统，通过监控计算节点的运行状态；若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。大大降低故障后的响应时间，无需进行API交互，实现了故障发生后的快速响应和快速处理。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的虚拟机疏散方法流程示意图；

图2为本申请实施例提供的虚拟机疏散系统框图；

图3示出了本申请实施例提供的一种电子设备的结构示意图；

图4示出了本申请实施例提供的一种计算机可读存储介质的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本申请实施例提供的一种虚拟机疏散方法，所述方法包括如下步骤：

步骤101：监控计算节点的运行状态；

步骤102：若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；

步骤103：若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；

步骤104：确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。

在一种可能的实施方式中，在步骤102中，基于配置管理数据库CMDB接口对异常计算节点上的虚拟机的网络状态或主机服务端口状态进行检测。

在一种可能的实施方式中，所述对异常计算节点上的虚拟机的网络状态或主机服务端口状态进行检测后，若没有检测到异常，所述方法还包括：向运维客户端发送异常报警排查消息。

在一种可能的实施方式中，在步骤103中，所述迁移异常计算节点上的虚拟机到目标疏散节点，包括：将所述数据库中存储的所述异常计算节点上虚拟机的主机信息变更为目标疏散节点的主机信息。

在一种可能的实施方式中，在步骤104中，所述确定目标疏散节点，包括：查询数据库中当前运行正常的计算节点，得到计算节点第一集合；在所述计算节点第一集合中筛选没有服务类型标签的计算节点，得到计算节点第二集合；在所述计算节点第二集合中随机确定虚拟机疏散的目标疏散节点。其中，可以调用API请求nova-scheduler模块调度服务来查询数据库中的计算节点。

在一种可能的实施方式中，在迁移所述异常计算节点上的虚拟机到所述目标疏散节点之后，所述方法还包括：调用API接口向疏散至所述目标疏散节点上的虚拟机发送启动指令。

在一种可能的实施方式中，所述方法还包括：检查所述虚拟机是否可以正常通讯，并向运维客户端发送检查结果。

计算节点异常指的是服务器断电、主板、硬盘等硬件等问题导致服务器无法正常通讯。在本申请实施例中，当通过zabbix监控监测到计算节点(宿主机)异常后，zabbix-agent上报宿主机异常报警，再触发二级探测，二级探测直接检测该节点上的虚拟机的运行情况，二次探测是基于CMDB的数据探测问题节点上的虚拟机状态(基于ICMP检查虚拟机的网络通讯情况及虚拟机的主机服务端口情况)。如果无异常，则只报告运维人员进行检查，不触发疏散动作。如检测出网络不可达或异常，直接启动疏散操作，无需进行API交互。

触发疏散动作后，直接对现有nova数据库进行备份(任何数据库操作前建议先备份，以方便问题追随和快速还原)，为了把故障计算节点上面的虚拟机迁移到正常的计算节点来实现虚拟机的故障恢复。备份以后直接更新nova数据库中nova表的host、node等字段，然后通过资源调度算法，迁移至目标节点，并通过API服务对虚拟机进行强制重启，使重新其调用数据库，来达到更新计算节点目的。

通过调用nova-api对疏散虚拟机机下发开机操作：调用api接口对虚拟机进行强制重启操作，使其重新加载数据库，用于达到迁移的效果，和恢复故障虚拟机的目的。

在确定疏散目的节点时，通过对现有资源池的计算，在确保不影响其他虚拟机的前提下，通过调用API请求nova-scheduler通过查询NOVA数据库中计算资源，并通过调度算法计算符合虚拟机迁移需要的主机，对于满足资源的计算节点检查是否有同类服务标签，优先迁移到不存在标签的计算节点。

通过调用API下发系统启动指令，完成虚拟机的快速恢复。最后通过监控手段，检查恢复后的虚拟机是否可以正常通讯。

可以看出，从故障发生、触发疏散、疏散完成、启动虚拟机、通知业务人员检查服务整个流程无需人员干预，通过本申请实施例提供的虚拟机疏散方法大大降低故障的平均响应时间，实现了故障发生后的快速响应和快速处理。

综上所述，本申请实施例提供了一种虚拟机疏散方法，通过监控计算节点的运行状态；若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。大大降低故障后的响应时间，无需进行API交互，实现了故障发生后的快速响应和快速处理。

基于相同的技术构思，本申请实施例还提供了一种虚拟机疏散系统，如图2所示，所述系统包括：

监控模块201，用于监控计算节点的运行状态；

二次检测模块202，用于若监控到所述计算节点运行异常，对异常计算节点上的虚拟机状态进行检测；

备份模块203，用于若检测到虚拟机状态异常，则备份所述异常计算节点的数据至数据库；

虚拟机疏散模块204，用于确定目标疏散节点，迁移所述异常计算节点上的虚拟机到所述目标疏散节点。

在一种可能的实施方式中，所述虚拟机疏散模块204，具体用于：查询数据库中当前运行正常的计算节点，得到计算节点第一集合；在所述计算节点第一集合中筛选没有服务类型标签的计算节点，得到计算节点第二集合；在所述计算节点第二集合中随机确定虚拟机疏散的目标疏散节点。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图3，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质，请参考图4，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种虚拟机疏散方法，其特征在于，所述方法包括：

监控计算节点的运行状态；

2.如权利要求1所述的方法，其特征在于，所述确定目标疏散节点，包括：

3.如权利要求1所述的方法，其特征在于，所述迁移异常计算节点上的虚拟机到目标疏散节点，包括：

4.如权利要求1所述的方法，其特征在于，所述对异常计算节点上的虚拟机的网络状态或主机服务端口状态进行检测后，若没有检测到异常，所述方法还包括：

向运维客户端发送异常报警排查消息。

5.如权利要求1所述的方法，其特征在于，在迁移所述异常计算节点上的虚拟机到所述目标疏散节点之后，所述方法还包括：

向疏散至所述目标疏散节点上的虚拟机发送启动指令。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种虚拟机疏散系统，其特征在于，所述系统包括：

监控模块，用于监控计算节点的运行状态；

8.如权利要求7所述的系统，其特征在于，所述虚拟机疏散模块，具体用于：

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1-6任一项所述的方法。