CN111880906A

CN111880906A - 虚拟机高可用性管理方法、系统以及存储介质

Info

Publication number: CN111880906A
Application number: CN202010766497.3A
Authority: CN
Inventors: 李奎; 赖培源; 李程; 叶世兵; 周海涛; 戴川; 王增辉; 蔡焕涛; 闫永骅
Original assignee: Guangdong South China Technology Transfer Center Co ltd
Current assignee: Guangdong South China Technology Transfer Center Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-03

Abstract

本公开提供了一种虚拟机高可用性管理方法、系统以及存储介质，涉及虚拟机技术领域，其中的方法包括：云管理平台接收虚拟机监控模块发送的虚拟机运行异常消息；云管理平台根据虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息；云管理平台使用预设的异常处理策略并基于存储I/O处理信息和异常出现时间信息判断虚拟机是否需要重启，将判断结果发送给虚拟机监控模块；云管理平台如果判断虚拟机需要重启，则对虚拟机执行重启处理；本公开的方法、系统以及存储介质，通过进行多重状态验证，能够有效降低虚拟机高可用的误判，提升了HA判断的准确性，可以有效提升虚拟机高可用功能的适用范围和业务保障能力。

Description

虚拟机高可用性管理方法、系统以及存储介质

技术领域

本公开涉及虚拟机技术领域，尤其涉及一种虚拟机高可用性管理方法、系统以及存储介质。

背景技术

随着互联网技术的快速发展，以技术转移服务为代表的科技服务逐渐向“互联网+”的模式发展。基于云计算的基础设施服务，不仅能解决快速部署、异地灾备，还能便捷的获取大数据分析服务及生态工具，成为了科技服务平台的主要选择。在云服务成为新的普及环境下，如何实现高效的云服务调度切换，提升资源利用率，成为云应用新的关注点。

虚拟机High Availability(高可用性，HA)功能是指为虚拟机上运行的应用程序提供高可用性的功能。如果服务器出现故障，受到影响的虚拟机会在其他拥有多余容量的生产服务器上重新启动，有效降低停机时间和服务中断时间。目前，常见的HA工作机制是由设置在每台虚拟化主机上的代理模块向群集中的监控模块发出“心跳信号”,一旦“心跳信号”终止，则所有受影响的虚拟机将在其他主机上重启。但是，目前判断虚拟机是否重启的技术方案容易出现误判，例如，在代理模块发生故障的情况下，虽然不能发出“心跳信号”，但虚拟机能够正常处理业务，如果将虚拟机重启，则容易导致虚拟机正在处理的业务中断，出现业务处理错误。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种虚拟机高可用性管理方法、系统以及存储介质。

根据本公开实施例的第一方面，提供一种虚拟机高可用性管理方法，包括：云管理平台接收虚拟机监控模块发送的虚拟机运行异常消息；其中，所述虚拟机运行异常消息中携带的信息包括：虚拟机信息和异常出现时间信息；所述云管理平台根据所述虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息；所述云管理平台使用预设的异常处理策略并基于所述存储I/O处理信息和所述异常出现时间信息判断所述虚拟机是否需要重启，将判断结果发送给所述虚拟机监控模块；所述云管理平台如果判断所述虚拟机需要重启，则对所述虚拟机执行重启处理。

可选地，所述云管理平台使用预设的异常处理策略并基于所述存储I/O处理信息和所述异常出现时间信息判断所述虚拟机是否需要重启包括：所述云管理平台根据所述存储I/O处理信息和所述异常出现时间信息，判断所述虚拟机在异常出现时间之后是否进行了数据读写操作；如果否，则所述云管理平台确定所述虚拟机需要重启。

可选地，如果所述云管理平台判断所述虚拟机在异常出现时间之后进行了数据读写操作，则获取与所述虚拟机相对应的资源使用状态信息，基于所述资源使用状态信息判断所述虚拟机是否出现故障；如果确定所述虚拟机出现故障，则判断所述虚拟机需要重启。

可选地，所述资源使用状态信息包括：所述虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率；所述基于所述资源使用状态信息判断所述虚拟机是否出现故障包括：如果所述云管理平台确定所述CPU平均利用率超过CPU利用率阈值和/或所述内存平均利用率超过内存利用率阈值，则判断所述虚拟机需要重启。

可选地，所述云管理平台获取当前运行所述虚拟机的物理主机的使用年限、所述物理主机的内存、CPU平均使用率、所述虚拟机的连续运行时长，基于所述使用年限、所述物理主机的内存、CPU平均使用率和所述连续运行时长动态调整所述内存利用率阈值和所述CPU利用率阈值。

可选地，如果所述云管理平台判断所述虚拟机在异常出现时间之后进行了数据读写操作，则向所述虚拟机监控模块发送虚拟机I/O正常消息；所述云管理平台接收到所述虚拟机监控模块发送的资源信息获取消息，获取与所述虚拟机相对应的资源使用状态信息并发送给所述虚拟机监控模块；其中，所述虚拟机监控模块基于所述资源使用状态信息判断所述虚拟机是否出现故障；如果所述云管理平台接收到所述虚拟机监控模块发送的虚拟机故障消息，则判断所述虚拟机需要重启。

可选地，所述资源使用状态信息包括：所述虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率；所述虚拟机监控模块基于所述资源使用状态信息判断所述虚拟机是否出现故障包括：如果所述虚拟机监控模块确定所述CPU平均利用率超过CPU利用率阈值和/或所述内存平均利用率超过内存利用率阈值，则判断所述虚拟机出现故障并向所述云管理平台发送所述虚拟机故障消息。

可选地，所述虚拟机监控模块接收所述云管理平台发送的当前运行所述虚拟机的物理主机的使用年限、所述物理主机的内存、CPU平均使用率、所述虚拟机的连续运行时长；所述虚拟机监控模块基于所述使用年限、所述物理主机的内存、CPU平均使用率和所述连续运行时长动态调整所述内存利用率阈值和所述CPU利用率阈值。

可选地，如果所述虚拟机监控模块在预设的时间内没有接收到所述虚拟机上报的心跳信息，则确定所述虚拟机出现异常并向所述云管理平台发送所述虚拟机运行异常消息；其中，所述异常出现时间信息为所述虚拟机的心跳信息中断的时间戳信息。

可选地，所述对所述虚拟机执行重启处理包括：所述云管理平台控制当前运行所述虚拟机的物理主机的电源关闭，在HA集群中的其它物理主机上启动所述虚拟机。

根据本公开实施例的第二方面，提供一种虚拟机的高可用性管理系统，包括：云管理平台和虚拟机监控模块；所述云管理平台，包括：异常信息获取模块，用于接收虚拟机监控模块发送的虚拟机运行异常消息；其中，所述虚拟机运行异常消息中携带的信息包括：虚拟机信息和异常出现时间信息；存储操作获取模块，用于根据所述虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息；重启操作判断模块，用于使用预设的异常处理策略并基于所述存储I/O处理信息和所述异常出现时间信息判断所述虚拟机是否需要重启，将判断结果发送给所述虚拟机监控模块；重启操作执行模块，用于如果判断所述虚拟机需要重启，则对所述虚拟机执行重启处理。

根据本公开实施例的第三方面，提供一种虚拟机的高可用性管理系统，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的方法。

基于本公开上述实施例提供的虚拟机高可用性管理方法、系统以及存储介质，通过在检测到心跳信息异常后，检测虚拟机的存储I/O状态、CPU和内存等资源的利用率情况，进行多重状态验证，能够有效降低虚拟机高可用的误判；通过分步检测其他可能导致虚拟机心跳模块中断的故障因素，提升了HA判断的准确性；通过多重验证，在虚拟机代理监控模块发生故障的情况下，避免进行虚拟机重启而导致业务的中断，可以有效提升虚拟机高可用功能的适用范围和业务保障能力，改善了客户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为本公开的虚拟机高可用性管理方法的一个实施例的流程示意图；

图2为本公开的虚拟机高可用性管理方法的应用场景示意图；

图3为本公开的虚拟机高可用性管理方法的一个实施例中的判断虚拟机是否需要重启的流程示意图；

图4为本公开的虚拟机高可用性管理方法的另一个实施例中的判断虚拟机是否需要重启的流程示意图；

图5为本公开的虚拟机高可用性管理方法的又一个实施例中的判断虚拟机是否需要重启的流程示意图；

图6为本公开的虚拟机高可用性管理系统的一个实施例的结构示意图；

图7为本公开的虚拟机高可用性管理系统的一个实施例中的云管理平台的结构示意图；

图8为本公开的虚拟机高可用性管理系统的一个实施例中的虚拟机监控模块的结构示意图；

图9为本公开的虚拟机高可用性管理系统的另一个实施例的结构示意图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1为本公开的虚拟机高可用性管理方法的一个实施例的流程图，如图1所示的方法包括步骤：S101-S104。下面对各步骤分别进行说明。

S101，云管理平台接收虚拟机监控模块发送的虚拟机运行异常消息；其中，虚拟机运行异常消息中携带的信息包括：虚拟机信息和异常出现时间信息等。

在一个实施例中，HA(High Availability，高可用性)集群(Cluster)通过一组物理主机提供透明的冗余处理能力，每一台提供网络资源的物理主机称为节点，当一个物理主机不可用或者不能处理客户端的请求时，该物理主机提供的网络资源会及时转到另外可用物理主机来处理，用户不需要关心要使用的网络资源的具体位置。

可以使用现有的多种技术搭建虚拟机的HA集群，例如，使用Corosync(集群管理软件)和Pacemaker(集群资源管理软件)等软件搭建虚拟机的HA集群。HA集群中的各个物理主机可以为云系统中的物理主机，在云系统中设置有云管理平台，使用类似于VMware的虚拟机HA技术，云管理平台可以实现虚拟机管理平台的功能。云管理平台可以使用现有方法对HA集群以及虚拟机进行管理，使用现有方法获取各个物理主机以及运行在物理主机上的全部虚拟机的存储I/O处理、资源使用状态等信息并存储。云系统可以为IAAS等多种云系统。

在物理主机上运行的虚拟机以预定的时间间隔向虚拟机监控模块发送心跳消息，心跳消息可以为多种心跳报文，时间间隔可以为1分钟、2分钟等。虚拟机监控模块可以部署在一个物理主机上，虚拟机监控模块可以与云管理平台部署在相同的物理设备上。

S102，云管理平台根据虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息。

在一个实施例中，虚拟机信息可以为虚拟机标识等，云管理平台从数据库中获取与虚拟机标识相对应的虚拟机的存储I/O处理信息，存储I/O处理为虚拟机对于存储装置的进行的数据输入输出处理,存储装置可以为物理主机的内存、硬盘等。

S103，云管理平台使用预设的异常处理策略并基于存储I/O处理信息和异常出现时间信息判断虚拟机是否需要重启，将判断结果发送给虚拟机监控模块。

S104，云管理平台如果判断虚拟机需要重启，则对虚拟机执行重启处理。

在一个实施例中，云管理平台如果判断虚拟机需要重启，则控制HA集群中当前运行虚拟机的物理主机关机；在此物理主机关机期间，云管理平台可以将此物理主机从HA集群中删除；云管理平台在HA集群中的其它物理主机上启动此需要重启的虚拟机，虚拟机为用户提供对应的业务服务。

云管理平台控制当前运行虚拟机的物理主机的电源关闭，在HA集群中的其它物理主机上启动虚拟机，可以基于虚拟机HA功能允许一个集群中在资源许可的情况下，将出现故障的虚拟化主机上面的虚拟机在其他的虚拟化主机上启动起来，其间的业务时间间断为：VM系统启动时间+应用启动时间+通常不超过15秒的心跳检测时间，通常这个总的中断时间都能够保持在3分钟内。

在一个实施例中，多台物理主机组成HA集群，物理主机的节点个数可以扩展。各物理主机上可以运行虚拟化中间件、HA集群软件等。如图2所示，物理主机上运行有虚拟机，虚拟机可以执行不同业务，例如文件传输服务等。云管理平台能够对HA集群配置信息进行管理，实现各个物理主机的HA集群功能。云管理平台可以通过现有的远程工具管理物理主机，实现对所有物理主机上运行的虚拟机、存储资源等进行统一管理，获取各个物理主机以及运行在物理主机上的全部虚拟机的存储I/O处理、资源使用状态等信息并存储。

在物理主机上运行的虚拟机内设置虚拟机代理模块，虚拟机代理模块可以实现多种功能，例如，每隔1分钟向虚拟机监控模块上报心跳信息。如果虚拟机监控模块在预设的时间内没有接收到虚拟机上报的心跳信息，则确定虚拟机出现异常并向云管理平台发送虚拟机运行异常消息；其中，异常出现时间信息为虚拟机的心跳信息中断的时间戳信息，基于虚拟机的心跳信息中断的时间戳信息可以确定虚拟机的异常出现时间。

虚拟机的心跳信息中断的时间戳信息可以有多种确定方法。例如，当虚拟机监控模块接收到一个心跳信息后，在预设的时间T内没有收到虚拟机发送的心跳信息，则判断虚拟机出现异常，向云管理平台发送虚拟机运行异常消息；可以将虚拟机监控模块接收到的最后一个心跳信息的时间作为虚拟机的心跳信息中断的时间，并生成时间戳信息；或者，将虚拟机监控模块接收到的最后一个心跳信息的时间加上预设的时间间隔(例如为10秒等)作为虚拟机的心跳信息中断的时间，并生成时间戳信息。

在一个实施例中，使用异常处理策略判断虚拟机是否需要重启可以有多种方法。图3为本公开的虚拟机高可用性管理方法的一个实施例中的判断虚拟机是否需要重启的流程示意图，如图3所示的方法包括步骤：S301-S302。下面对各步骤分别进行说明。

S301，云管理平台根据存储I/O处理信息和异常出现时间信息，判断虚拟机在异常出现时间之后是否进行了数据读写操作。

在一个实施例中，云管理平台从虚拟机监控模块发送的虚拟机运行异常消息中提取虚拟机信息和异常出现时间信息，云管理平台获取与虚拟机信息相对应的存储I/O处理信息，判断虚拟机在异常出现时间是否进行了数据读写操作。

S302,如果否，则云管理平台确定虚拟机需要重启。如果确定虚拟机在异常出现时间没有进行了数据读写操作，则云管理平台确定虚拟机需要重启。

在一个实施例中，云管理平台在收到虚拟机监控模块发送的虚拟机运行异常消息后，获取虚拟机的存储I/O处理信息(存储I/O信息)；当云管理平台判断虚拟机的存储I/O状态在虚拟机出现心跳信息中断的时间(异常出现时间信息)后没有数据读写操作时，则通知虚拟机监控模块，并执行虚拟机的电源关闭，将该虚拟机在集群中的其他物理主机上启动。

图4为本公开的虚拟机高可用性管理方法的另一个实施例中的判断虚拟机是否需要重启的流程示意图，如图4所示的方法包括步骤：S401-S402。下面对各步骤分别进行说明。

S401，如果云管理平台判断虚拟机在异常出现时间之后进行了数据读写操作，则获取与虚拟机相对应的资源使用状态信息，基于资源使用状态信息判断虚拟机是否出现故障。资源使用状态信息可以有多种，例如为CPU平均利用率和内存平均利用率等；在物理主机上给虚拟机分配CPU和内存资源，CPU平均利用率即为虚拟机的CPU平均使用率，内存平均利用率即为虚拟机的内存平均使用率。

S402,如果确定虚拟机出现故障，则判断虚拟机需要重启。云管理平台基于预设的故障判别规则判断虚拟机是否出现故障，如果确定出现故障，则判断虚拟机需要重启。

在一个实施例中，基于资源使用状态信息判断虚拟机是否出现故障可以有多种方法。资源使用状态信息包括：虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率；如果云管理平台确定CPU平均利用率超过CPU利用率阈值、内存平均利用率超过内存利用率阈值，则判断虚拟机需要重启。

例如，CPU利用率阈值、内存利用率阈值为95％或98％，如果云管理平台确定CPU平均利用率超过95％或98％、内存平均利用率超过95％或98％，则判断虚拟机需要重启。

云管理平台获取当前运行虚拟机的物理主机的使用年限、物理主机的内存、CPU平均使用率、虚拟机的连续运行时长等，基于使用年限、物理主机的内存、CPU平均使用率和连续运行时长等动态调整内存利用率阈值和CPU利用率阈值。

云管理平台可以使用多种调整规则，并基于使用年限、物理主机的内存、CPU平均使用率和连续运行时长动态调整内存利用率阈值和CPU利用率阈值。例如，CPU利用率阈值、内存利用率阈值为大于或等于95％，如果物理主机的使用年限超过3年，在使用年限内的物理主机的内存、CPU的平均利用率在75％以上，虚拟机连续运行时长超过180天，则将CPU利用率阈值、内存利用率阈值设置为95％；如果物理主机的使用年限小于3年，在使用年限内的物理主机的内存、CPU的平均利用率小于75％，虚拟机连续运行时长小于180天，则将CPU利用率阈值、内存利用率阈值设置为98％。

在一个实施例中，通过虚拟机监控模块也可以判断虚拟机是否出现故障。图5为本公开的虚拟机高可用性管理方法的又一个实施例中的判断虚拟机是否需要重启的流程示意图，如图5所示的方法包括步骤：S501-S503。下面对各步骤分别进行说明。

S501，如果云管理平台判断虚拟机在异常出现时间之后进行了数据读写操作，则向虚拟机监控模块发送虚拟机I/O正常消息。

S502，云管理平台接收到虚拟机监控模块发送的资源信息获取消息，获取与虚拟机相对应的资源使用状态信息并发送给虚拟机监控模块；其中，虚拟机监控模块基于资源使用状态信息判断虚拟机是否出现故障。

在一个实施例中，资源使用状态信息包括虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率等；如果虚拟机监控模块确定CPU平均利用率超过CPU利用率阈值、内存平均利用率超过内存利用率阈值，则判断虚拟机出现故障并向云管理平台发送虚拟机故障消息。

S503，如果云管理平台接收到虚拟机监控模块发送的虚拟机故障消息，则判断虚拟机需要重启。

虚拟机监控模块接收云管理平台发送的、当前运行虚拟机的物理主机的使用年限、物理主机的内存、CPU平均使用率、虚拟机的连续运行时长；虚拟机监控模块基于使用年限、物理主机的内存、CPU平均使用率和连续运行时长动态调整内存利用率阈值和CPU利用率阈值。虚拟机监控模块与云管理平台的动态调整内存利用率阈值和CPU利用率阈值的方法可以相同。

在一个实施例中，当虚拟机监控模块在规定的时间T(例如120秒)内没有收到虚拟机A的心跳信息，确定虚拟机A出现异常，发起异常判断程序，向云管理平台发送虚拟机运行异常消息，将虚拟机A信息(例如虚拟机A的标识信息)以及虚拟机A的心跳信息中断的时间戳t1发送给云管理平台。

云管理平台在收到虚拟机监控模块发送的虚拟机运行异常消息时，查看虚拟机A的存储I/O信息(存储I/O处理信息)；当云管理平台判断虚拟机A的存储I/O状态在时间戳t1对应的时间后没有数据读写时，则通知虚拟机监控模块，并控制当前运行虚拟机A的物理主机的电源关闭，然后将虚拟机A在HA集群中的其他主机上启动。

当云管理平台判断虚拟机A的存储I/O状态在时间戳t1对应的时间后仍有数据的读写时，云管理平台将虚拟机I/O正常消息发送给虚拟机监控模块。当虚拟机监控模块收到虚拟机I/O正常消息后，向云管理平台发送资源信息获取消息。

云管理平台查询虚拟机A在时间戳t1对应的时间后的CPU和内存资源利用率并发送给虚拟机监控模块。如果虚拟机监控模块确定虚拟机A的CPU或者内存的平均利用率均为100％，超过内存利用率阈值95％和CPU利用率阈值95％，则判断虚拟机A已经处于故障状态，并通知云管理平台控制当前运行虚拟机A的物理主机的电源关闭，然后将虚拟机A在HA集群中的其他主机上启动。

虚拟机监控模块也可以同时获取虚拟机A的存储I/O处理信息以及其他资源使用状态信息，基于存储I/O处理信息以及其他资源使用状态信息判断虚拟机A是否需要重启，如果需要重启，则通知云管理平台对虚拟机A执行重启处理。

上述实施例中的虚拟机高可用性管理方法，在虚拟机高可用应用场景下，针对当前虚拟机高可用判断的单一性问题，通过在检测到心跳网络异常后，进一步检测虚拟机的存储I/O状态、CPU和内存等资源的利用率情况，进行多重状态验证，能够有效降低虚拟机高可用的误判；在虚拟机代理监控模块发生故障的情况下，避免进行虚拟机重启而导致业务的中断，可以有效提升虚拟机高可用功能的适用范围和业务保障能力。

示例性系统

在一个实施例中，如图6所示，本公开提供一种虚拟机的高可用性管理系统，包括云管理平台61和虚拟机监控模块62。如图7所示，云管理平台61包括：异常信息获取模块611、存储操作获取模块612、重启操作判断模块613、重启操作执行模块614和阈值动态调整模块615。

异常信息获取模块611接收虚拟机监控模块发送的虚拟机运行异常消息，虚拟机运行异常消息中携带的信息包括：虚拟机信息和异常出现时间信息。存储操作获取模块612根据虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息。

重启操作判断模块613使用预设的异常处理策略并基于存储I/O处理信息和异常出现时间信息判断虚拟机是否需要重启，将判断结果发送给虚拟机监控模块。重启操作执行模块614如果判断虚拟机需要重启，则对虚拟机执行重启处理。重启操作执行模块614可以控制当前运行虚拟机的物理主机的电源关闭，在HA集群中的其它物理主机上启动虚拟机。

在一个实施例中，重启操作判断模块613根据存储I/O处理信息和异常出现时间信息，判断虚拟机在异常出现时间之后是否进行了数据读写操作，如果否，则确定虚拟机需要重启。

重启操作判断模块613如果判断虚拟机在异常出现时间之后进行了数据读写操作，则获取与虚拟机相对应的资源使用状态信息，基于资源使用状态信息判断虚拟机是否出现故障；重启操作判断模块613如果确定虚拟机出现故障，则判断虚拟机需要重启。

资源使用状态信息包括虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率等；重启操作判断模块613如果云管理平台确定CPU平均利用率超过CPU利用率阈值和/或内存平均利用率超过内存利用率阈值，则判断虚拟机需要重启。

阈值动态调整模块615获取当前运行虚拟机的物理主机的使用年限、物理主机的内存、CPU平均使用率、虚拟机的连续运行时长，阈值动态调整模块615基于使用年限、物理主机的内存、CPU平均使用率和连续运行时长动态调整内存利用率阈值和CPU利用率阈值。

在一个实施例中，重启操作判断模块613如果判断虚拟机在异常出现时间之后进行了数据读写操作，则向虚拟机监控模块62发送虚拟机I/O正常消息。重启操作判断模块613接收到虚拟机监控模块62发送的资源信息获取消息，获取与虚拟机相对应的资源使用状态信息并发送给虚拟机监控模块，虚拟机监控模块基于资源使用状态信息判断虚拟机是否出现故障。重启操作判断模块613如果接收到虚拟机监控模块发送的虚拟机故障消息，则判断虚拟机需要重启。

如图8所示，虚拟机监控模块62包括：异常处理模块621、故障判断模块622和阈值调整模块623。异常处理模块621如果在预设的时间内没有接收到虚拟机上报的心跳信息，则确定虚拟机出现异常并向云管理平台61发送虚拟机运行异常消息，异常出现时间信息为虚拟机的心跳信息中断的时间戳信息。

在一个实施例中，资源使用状态信息包括虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率等；故障判断模块622如果确定CPU平均利用率超过CPU利用率阈值和/或内存平均利用率超过内存利用率阈值，则故障判断模块622判断虚拟机出现故障并向云管理平台发送虚拟机故障消息。

阈值调整模块623接收云管理平台发送的当前运行虚拟机的物理主机的使用年限、物理主机的内存、CPU平均使用率、虚拟机的连续运行时长；阈值调整模块623基于使用年限、物理主机的内存、CPU平均使用率和连续运行时长动态调整内存利用率阈值和CPU利用率阈值。

图9为本公开的虚拟机高可用性管理系统的另一个实施例的结构示意图，如图9所示，虚拟机高可用性管理系统91包括一个或多个处理器911和存储器912。

处理器911可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制虚拟机高可用性管理系统91中的其他组件以执行期望的功能。

存储器912可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器911可以运行程序指令，以实现上文的本公开的各个实施例的虚拟机高可用性管理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，虚拟机高可用性管理系统91还可以包括：输入装置913以及输出装置914等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该虚拟机高可用性管理系统91中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，虚拟机高可用性管理系统91还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的虚拟机高可用性管理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的虚拟机高可用性管理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

上述实施例中的虚拟机高可用性管理方法、系统以及存储介质，通过在检测到心跳信息异常后，检测虚拟机的存储I/O状态、CPU和内存等资源的利用率情况，进行多重状态验证，能有效降低虚拟机高可用的误判；通过存储I/O和虚拟机的资源利用率情况，分步检测其他可能导致虚拟机心跳模块中断的故障因素，提升了HA判断的准确性；通过多重验证，在虚拟机代理监控模块发生故障的情况下，避免进行虚拟机重启而导致业务的中断，可以有效提升虚拟机高可用功能的适用范围和业务保障能力，有效解决了虚拟机HA检测上的缺陷，改善了客户体验。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种虚拟机高可用性管理方法，包括：

云管理平台接收虚拟机监控模块发送的虚拟机运行异常消息；其中，所述虚拟机运行异常消息中携带的信息包括：虚拟机信息和异常出现时间信息；

所述云管理平台根据所述虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息；

所述云管理平台使用预设的异常处理策略并基于所述存储I/O处理信息和所述异常出现时间信息判断所述虚拟机是否需要重启，将判断结果发送给所述虚拟机监控模块；

所述云管理平台如果判断所述虚拟机需要重启，则对所述虚拟机执行重启处理。

2.如权利要求1所述的方法，所述云管理平台使用预设的异常处理策略并基于所述存储I/O处理信息和所述异常出现时间信息判断所述虚拟机是否需要重启包括：

所述云管理平台根据所述存储I/O处理信息和所述异常出现时间信息，判断所述虚拟机在异常出现时间之后是否进行了数据读写操作；

如果否，则所述云管理平台确定所述虚拟机需要重启。

3.如权利要求2所述的方法，还包括：

如果所述云管理平台判断所述虚拟机在异常出现时间之后进行了数据读写操作，则获取与所述虚拟机相对应的资源使用状态信息，基于所述资源使用状态信息判断所述虚拟机是否出现故障；

如果确定所述虚拟机出现故障，则判断所述虚拟机需要重启。

4.如权利要求3所述的方法，所述资源使用状态信息包括：所述虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率；所述基于所述资源使用状态信息判断所述虚拟机是否出现故障包括：

如果所述云管理平台确定所述CPU平均利用率超过CPU利用率阈值和/或所述内存平均利用率超过内存利用率阈值，则判断所述虚拟机需要重启。

5.如权利要求4所述的方法，还包括：

所述云管理平台获取当前运行所述虚拟机的物理主机的使用年限、所述物理主机的内存、CPU平均使用率、所述虚拟机的连续运行时长，基于所述使用年限、所述物理主机的内存、CPU平均使用率和所述连续运行时长动态调整所述内存利用率阈值和所述CPU利用率阈值。

6.如权利要求2所述的方法，还包括：

如果所述云管理平台判断所述虚拟机在异常出现时间之后进行了数据读写操作，则向所述虚拟机监控模块发送虚拟机I/O正常消息；

所述云管理平台接收到所述虚拟机监控模块发送的资源信息获取消息，获取与所述虚拟机相对应的资源使用状态信息并发送给所述虚拟机监控模块；其中，所述虚拟机监控模块基于所述资源使用状态信息判断所述虚拟机是否出现故障；

如果所述云管理平台接收到所述虚拟机监控模块发送的虚拟机故障消息，则判断所述虚拟机需要重启。

7.如权利要求6所述的方法，所述资源使用状态信息包括：所述虚拟机在异常出现时间之后的CPU平均利用率和内存平均利用率；所述虚拟机监控模块基于所述资源使用状态信息判断所述虚拟机是否出现故障包括：

如果所述虚拟机监控模块确定所述CPU平均利用率超过CPU利用率阈值和/或所述内存平均利用率超过内存利用率阈值，则判断所述虚拟机出现故障并向所述云管理平台发送所述虚拟机故障消息。

8.一种虚拟机的高可用性管理系统，包括：云管理平台和虚拟机监控模块；

所述云管理平台，包括：

异常信息获取模块，用于接收虚拟机监控模块发送的虚拟机运行异常消息；其中，所述虚拟机运行异常消息中携带的信息包括：虚拟机信息和异常出现时间信息；

存储操作获取模块，用于根据所述虚拟机信息获取与出现异常的虚拟机相对应的存储I/O处理信息；

重启操作判断模块，用于使用预设的异常处理策略并基于所述存储I/O处理信息和所述异常出现时间信息判断所述虚拟机是否需要重启，将判断结果发送给所述虚拟机监控模块；

重启操作执行模块，用于如果判断所述虚拟机需要重启，则对所述虚拟机执行重启处理。

9.一种虚拟机的高可用性管理系统，包括：

处理器；用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一项所述的方法。