CN113381887B

CN113381887B - 计算节点故障处理方法及装置

Info

Publication number: CN113381887B
Application number: CN202110636377.6A
Authority: CN
Inventors: 李秀萍; 魏亮; 周晓庆; 沈震宇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-04-07
Anticipated expiration: 2041-06-08
Also published as: CN113381887A

Abstract

本申请实施例提供一种计算节点故障处理方法及装置，可用于大数据技术领域，方法包括：获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息；根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点。本申请能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性。

Description

计算节点故障处理方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及大数据技术领域，具体涉及计算节点故障处理方法及装置。

背景技术

计算是云计算三大核心之一，计算节点在云计算基础设施建设中提供重要的计算资源，然而在云平台实际运行中总会有各种原因如异常断电等原因导致计算节点故障，此时为了保证其上运行应用节点能够正常运行，云平台会对故障节点上的应用节点在其他正常节点上进行高可用重建。各个应用节点高可用重建耗时根据云平台能力和节点规格各有不同，目前各个云平台都尽力减少高可用重建耗时，以减少对业务的影响。

目前，在计算节点故障处理过程中，通常采用逐个登录到宕机或故障计算节点上确认当前节点上的哪些节点被疏散及疏散后的新的节点信息，部分计算节点宕机后需要节点修复后才能确认。

然而，由于传统方法需逐个登录故障计算节点进行确认，存在执行时间较长，不便于运维的问题，且当计算节点宕机时，无法快速确认，不能快速确认当前宕机故障的计算节点上的节点及其高可用重建后的新的宿主机，无法对故障影响范围和程度进行快速评估和确认，同时无法快速确认应用是否已经恢复正常，无法进一步减小计算节点宕机故障的影响。也就是说，现有的计算节点故障处理方式存在虚拟机重建状态监测效率低、便捷性差且智能化程度低等问题。

发明内容

针对现有技术中的问题，本申请提供一种计算节点故障处理方法及装置，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种计算节点故障处理方法，包括：

获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息；

根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点。

进一步地，还包括：

在所述故障计算节点对应的监控记录信息中确定该故障计算节点原本对应的虚拟机当前的疏散状态；

对所述故障计算节点原本对应的虚拟机所对应的应用进行状态检测。

进一步地，所述获取分布式系统中故障计算节点对应的监控记录信息，包括：

实时监测所述分布式系统中的各个计算节点中是否存在故障计算节点，若是，则获取分布式系统中故障计算节点对应的监控记录信息。

进一步地，所述实时监测所述分布式系统中的各个计算节点中是否存在故障计算节点，包括：

实时监测所述分布式系统中的各个计算节点是否存在心跳异常的计算节点，若是，则针对该心跳异常的计算节点进行存储异常探测；

若经存储异常探测获知所述心跳异常的计算节点存在存储异常，则确认该计算节点出现宕机故障，并将该计算节点确定为当前的故障计算节点。

进一步地，所述根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，包括：

获取监测到的所述目标虚拟机当前的状态参数；

基于预存储的各类状态参数与重建状态标识之间的对应关系，获取所述目标虚拟机当前的状态参数对应的重建状态标识，其中，所述重建状态标识包括：已完成重建标识和未完成重建标识；

根据所述述目标虚拟机当前的状态参数对应的重建状态标识判断所述目标虚拟机是否已完成重建。

进一步地，所述确定所述目标虚拟机的目的计算节点，包括：

基于所述分布式系统对应的网络控制器，确定重建成功后的所述目标虚拟机疏散后的主机信息，并基于该主机信息确定所述目标虚拟机的目的计算节点。

进一步地，在所述确定所述目标虚拟机的目的计算节点之后，还包括：

记录所述目标虚拟机对应的目的计算节点的信息。

第二方面，本申请提供一种计算节点故障处理装置，包括：

信息获取模块，用于获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息；

重建监测模块，用于根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的计算节点故障处理方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的计算节点故障处理方法。

由上述技术方案可知，本申请提供的一种计算节点故障处理方法及装置，方法包括：获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息；根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点，通过设置故障计算节点对应的监控记录信息，并基于该监控记录信息确定所述故障计算节点上的虚拟机是否已完成重建，并确定所述目标虚拟机所在的新的目的计算节点，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性，并能够对故障影响范围和程度进行快速评估，更便于运维，也能够提高分布式系统中运维人员的用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的计算节点故障处理装置与客户端设备及分布式系统之间的交互示意图。

图2是本申请实施例中的计算节点故障处理方法的第一种流程示意图。

图3是本申请实施例中的计算节点故障处理方法的第二种流程示意图。

图4是本申请实施例中的计算节点故障处理方法的第三种流程示意图。

图5是本申请实施例中的计算节点故障处理方法的第四种流程示意图。

图6是本申请实施例中的计算节点故障处理方法的第五种流程示意图。

图7是本申请实施例中的计算节点故障处理方法的第六种流程示意图。

图8是本申请实施例中的计算节点故障处理方法的第七种流程示意图。

图9是本申请实施例中的计算节点故障处理装置的结构示意图。

图10是本申请应用实例中的计算节点故障处理方法的流程示意图。

图11是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请公开的计算节点故障处理方法及装置可用于大数据技术领域，也可用于除大数据技术领域之外的任意领域，本申请公开的计算节点故障处理方法及装置的应用领域不做限定。

针对现有的计算节点故障处理方式由于需逐个登录到故障计算节点上来获取虚拟机的重建状态，使得现有的计算节点故障处理方式存在虚拟机重建状态监测效率低、便捷性差且智能化程度低等问题，本申请实施例分别提供一种计算节点故障处理方法、计算节点故障处理装置、电子设备计算机可读存储介质，获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息；根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点，通过设置故障计算节点对应的监控记录信息，并基于该监控记录信息确定所述故障计算节点上的虚拟机是否已完成重建，并确定所述目标虚拟机所在的新的目的计算节点，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性，并能够对故障影响范围和程度进行快速评估，更便于运维，也能够提高分布式系统中运维人员的用户体验。

在本申请的一个或多个实施例中，在本申请的一个或多个实施例中，分布式系统可以指大数据服务云或HBase集群等，其中，HBase集群(Hadoop Database)是指高可靠性、高性能、面向列、可伸缩的分布式存储系统，由主节点Master和从节点Region Server组成，其中，Master也可以专门写作HMaster，Region Server也可以写作HRegionServer或者RegionServer等。

在本申请的一个或多个实施例中，计算节点可以为服务器，每个计算机点可以对应至少一个虚拟机，即计算机点上可以设有一个或多个虚拟机。

在本申请的一个或多个实施例中，虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。在实体计算机中能够完成的工作在虚拟机中都能够实现。在计算机中创建虚拟机时，需要将实体机的部分硬盘和内存容量作为虚拟机的硬盘和内存容量。每个虚拟机都有独立的CMOS、硬盘和操作系统，可以像使用实体机一样对虚拟机进行操作。

基于上述内容，本申请还提供一种用于实现本申请一个或多个实施例中提供的计算节点故障处理方法的计算节点故障处理装置，参见图1，该计算节点故障处理装置可以自行或通过第三方服务器等与分布式系统及用户持有的客户端设备等之间通信连接，计算节点故障处理装置可以为一种服务器，自客户端设备接收用户发送的计算节点故障监控请求，也可以自客户端设备、第三方数据库或本地获取相关的由用户预先设置的配置文件等。所述计算节点故障处理装置在确定所述目标虚拟机的目的计算节点、获取故障计算节点原本对应的虚拟机当前的疏散状态以及获取虚拟机所对应的应用的检测状态结果之后，还可以将确定所述目标虚拟机的目的计算节点、获取故障计算节点原本对应的虚拟机当前的疏散状态以及获取虚拟机所对应的应用的检测状态结果发送至发出所述计算节点故障监控请求的客户端设备进行显示，以使用户及时获知计算节点故障监控结果等。

可以理解的是，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例及应用实例分别进行详细说明。

为了解决现有的计算节点故障处理方式存在虚拟机重建状态监测效率低、便捷性差且智能化程度低等问题，本申请提供一种计算节点故障处理方法的实施例，参见图2，由计算节点故障处理装置执行的所述计算节点故障处理方法具体包含有如下内容：

步骤100：获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息。

可以理解的是，针对故障计算节点，在数据库种中插入一条记录信息，具体记录如表1所示字段：

表1

在上述表1中，VmID表示虚拟机标识；VmIP表示虚拟机IP地址；Sourceode表示计算节点；SourceIP表示计算节点的IP地址；Dest Node表示目的节点；DestIP表示目的节点的IP地址；Status表示虚拟机状态；CreateDate表示创建日期；UpdateDate表示更新日期。

其中，uuid是通用唯一识别码(Universally Unique Identifier)的缩写，是一种软件建构的标准，亦为开放软件基金会组织在分布式计算环境领域的一部分。其目的，是让分布式系统中的所有元素，都能有唯一的辨识信息，而不需要通过中央控制端来做辨识信息的指定。

IPv4是指网际协议版本4(Internet Protocol version 4)，又称互联网通信协议第四版，是网际协议开发过程中的第四个修订版本，也是此协议第一个被广泛部署的版本。

IPv6是互联网协议第6版(Internet Protocol Version 6)的缩写，是互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议，其地址数量号称可以为全世界的每一粒沙子编上一个地址。

另外，目的节点的IP地址的具体类型参见表2：

表2

在上述表2中，active表示激活状态；scheduling表示待执行状态；block_device_mapping表示块设备映射状态中；building表示创建状态中；networking表示网络更新状态中；rebooting表示重启状态中；powering_on表示开机状态中；powering_off表示关机状态中；migrating表示迁移状态中；deleting表示删除状态中；resize_prep表示迁移失败后的待调整状态。

步骤200：根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测。

在步骤200中，根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测的执行基础可以为监测到故障计算节点对应的目标虚拟机开始进行重建，可以理解的是，本申请一个或多个实施例中提及的虚拟机重建是指将故障计算节点上的所有虚拟机均进行迁移处理，也可以称之为疏散过程。

步骤300：根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则执行步骤400。

例如，若监测到所述目标虚拟机的状态参数为resize_prep，则说明所述目标虚拟机当前未完成重建且重建失败，此时可以向运维人员持有的客户端设备输出用于表示目标虚拟机重建失败的消息，以使运维人员在获知该消息后针对目标虚拟机重建失败这一状况进行及时处理。

又例如，若监测到目标虚拟机的状态参数为building，则说明所述目标虚拟机当前未完成重建，则在预设的时间间隔后再次执行步骤200。例如每隔1-60s对该故障计算节点对应的目标虚拟机进行重建状态监测。

步骤400：确定所述目标虚拟机的目的计算节点。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，通过设置故障计算节点对应的监控记录信息，并基于该监控记录信息确定所述故障计算节点上的虚拟机是否已完成重建，并确定所述目标虚拟机所在的新的目的计算节点，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性，并能够对故障影响范围和程度进行快速评估，更便于运维，也能够提高分布式系统中运维人员的用户体验。

为了进一步检测应用恢复状态，在本申请提供的计算节点故障处理方法的一个实施例，参见图3，所述计算节点故障处理方法中的步骤400之后还具体包含有如下内容：

步骤500：在所述故障计算节点对应的监控记录信息中确定该故障计算节点原本对应的虚拟机当前的疏散状态。

步骤600：对所述故障计算节点原本对应的虚拟机所对应的应用进行状态检测。

具体来说，在宕机的计算节点上的虚拟机完成疏散(即：迁移)后，通过控制节点根据宕机节点的通用唯一识别码uuid(Universally Unique Identifier)筛选出其上虚拟机的疏散情况，同时关联对应应用进行分析和检测。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，根据故障计算节点对应的监控记录信息确定其原对应的虚拟机对应的应用是否均恢复正常，能够有效提高确认应用是否已经恢复正常的便捷性及效率，进而能够进一步减小计算节点故障的影响。

为了监测故障计算节点，在本申请提供的计算节点故障处理方法的一个实施例，参见图4，所述计算节点故障处理方法中的步骤100具体包含有如下内容：

步骤110：实时监测所述分布式系统中的各个计算节点中是否存在故障计算节点，若是，则执行步骤120。

步骤120：获取分布式系统中故障计算节点对应的监控记录信息。

可以理解的是，所述监控记录信息中所需信息为运行存储在所述分布式系统对应的数据库中的。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，通过实时监测所述分布式系统中的各个计算节点中是否存在故障计算节点，能够有效提高发现故障计算节点的及时性，进而能够有效提高计算节点故障处理的效率。

为了提高确定计算节点是否宕机的便捷性及可靠性，在本申请提供的计算节点故障处理方法的一个实施例，参见图5，所述计算节点故障处理方法中的步骤110具体包含有如下内容：

步骤111：实时监测所述分布式系统中的各个计算节点是否存在心跳异常的计算节点，若是，则执行步骤112。

步骤112：针对该心跳异常的计算节点进行存储异常探测。

步骤113：若经存储异常探测获知所述心跳异常的计算节点存在存储异常，则确认该计算节点出现宕机故障，并将该计算节点确定为当前的故障计算节点。

具体来说，可以实时对环境上虚拟机状态进行检测，当存在计算节点宕机时，控制节点检测到计算节点心跳异常，此时控制节点再进行存储面异常探测，当检测到存储面也存在异常时，则认为此时计算节点宕机，此时控制节点在数据库中插入一条记录信息。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，通过实时监测所述分布式系统中的各个计算节点是否存在心跳异常的计算节点并针对心跳异常的计算节点进行存储异常探测，能够有效提高确定计算节点是否宕机的便捷性及可靠性，进而能够有效提高计算节点故障处理的效率。

为了判断状态参数，在本申请提供的计算节点故障处理方法的一个实施例，参见图6，所述计算节点故障处理方法中的步骤300具体包含有如下内容：

步骤310：获取监测到的所述目标虚拟机当前的状态参数。

步骤320：基于预存储的各类状态参数与重建状态标识之间的对应关系，获取所述目标虚拟机当前的状态参数对应的重建状态标识，其中，所述重建状态标识包括：已完成重建标识和未完成重建标识。

步骤330：根据所述述目标虚拟机当前的状态参数对应的重建状态标识判断所述目标虚拟机是否已完成重建。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，通过基于预存储的各类状态参数与重建状态标识之间的对应关系，获取所述目标虚拟机当前的状态参数对应的重建状态标识，能够有效提高判断所述目标虚拟机当前是否已经完成重建的便捷性及效率，进而能够进一步提高计算节点故障处理过程的便捷性及效率。

为了确定目的节点，在本申请提供的计算节点故障处理方法的一个实施例，参见图7，所述计算节点故障处理方法中的步骤400具体包含有如下内容：

步骤410：基于所述分布式系统对应的网络控制器，确定重建成功后的所述目标虚拟机疏散后的主机信息，并基于该主机信息确定所述目标虚拟机的目的计算节点。

具体来说，可以周期性检测虚拟机重建状态，从云计算网络控制器nova侧获取虚拟机疏散后的主机信息，并将结果记录到数据库表中。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，基于网络控制器确定目标虚拟机的目的计算节点，能够有效提高目标虚拟机的目的计算节点的获取准确性及便捷性。

为了记录目的计算节点的信息，在本申请提供的计算节点故障处理方法的一个实施例，参见图8，所述计算节点故障处理方法中的步骤400还具体包含有在步骤410之后执行的如下内容：

步骤420：记录所述目标虚拟机对应的目的计算节点的信息。

从上述描述可知，本申请实施例提供的计算节点故障处理方法，通过记录所述目标虚拟机对应的目的计算节点的信息，能够将目标虚拟机当前对应的计算节点信息进行存储，进而能够在下一次监测到该新的计算节点出现故障时，快速、高效地获取该新的计算节点对应的监控记录信息，使得计算节点故障处理过程复用效果好、适用广泛。

从软件层面来说，为了解决现有的计算节点故障处理方式存在虚拟机重建状态监测效率低、便捷性差且智能化程度低等问题，本申请提供一种用于执行所述计算节点故障处理方法中全部或部分内容的计算节点故障处理装置的实施例，参见图9，所述计算节点故障处理装置具体包含有如下内容：

信息获取模块10，用于获取分布式系统中故障计算节点对应的监控记录信息，其中，该监控记录信息用于显示该故障计算节点对应的虚拟机信息。

在信息获取模块10中，根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测的执行基础可以为监测到故障计算节点对应的目标虚拟机开始进行重建，可以理解的是，本申请一个或多个实施例中提及的虚拟机重建是指将故障计算节点上的所有虚拟机均进行迁移处理，也可以称之为疏散过程。

重建监测模块20，用于根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点。

在重建监测模块20中，若监测到所述目标虚拟机的状态参数为resize_prep，则说明所述目标虚拟机当前未完成重建且重建失败，此时可以向运维人员持有的客户端设备输出用于表示目标虚拟机重建失败的消息，以使运维人员在获知该消息后针对目标虚拟机重建失败这一状况进行及时处理。若监测到目标虚拟机的状态参数为building，则说明所述目标虚拟机当前未完成重建，则在预设的时间间隔后再次执行步骤200。例如每隔1-60s对该故障计算节点对应的目标虚拟机进行重建状态监测。

本申请提供的计算节点故障处理装置的实施例具体可以用于执行上述实施例中的计算节点故障处理方法的实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

从上述描述可知，本申请实施例提供的计算节点故障处理装置，通过设置故障计算节点对应的监控记录信息，并基于该监控记录信息确定所述故障计算节点上的虚拟机是否已完成重建，并确定所述目标虚拟机所在的新的目的计算节点，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性，并能够对故障影响范围和程度进行快速评估，更便于运维，也能够提高分布式系统中运维人员的用户体验。

为了进一步说明书本方案，本申请还提供一种计算节点故障处理方法的具体应用实例，针目前业界通常采用逐个登录到宕机或故障计算节点上确认当前节点上的哪些节点被疏散及疏散后的新的节点信息，部分计算节点宕机需要节点修复后才能确认，传统方法需逐个登录故障计算节点进行确认，存在执行时间较长，不便于运维的问题，且当计算节点宕机时，无法快速确认，不能快速确认当前宕机的计算节点上的节点及其高可用重建后的新的宿主机，无法对故障影响范围和程度进行快速评估和确认，同时无法快速确认应用是否已经恢复正常，无法进一步减小计算节点宕机的影响等问题，考虑到计算节点宕机后，快速确认被高可用重建的应用节点的目的节点对于减少业务影响也很重要，对于一些重要应用快速确认其被高可用重建的目的节点将更有利于对节点故障对应用的影响进行评估和修复。本申请应用实例通过一种能够关联宕机计算节点和其上虚拟机相关的关键信息的数据表，在计算节点宕机后能有效地记录其上虚拟机被高可用给重建的全路径，使得计算节点故障后能快速进行影响范围的确认并减小计算节点故障的影响。

在计算节点宕机后，对于其上虚拟机的高可用重建路径跟踪，增加对应的接口，接口可分为三个节点：beginrebuild、rebuilding和endrebuild。主要处理的逻辑如下，参见图10，所述计算节点故障处理方法具体包含有如下内容：

在开始重建虚拟机beginrebuild阶段开始之前，控制节点实时对环境上虚拟机状态进行检测，当存在计算节点宕机时，控制节点检测到计算节点心跳异常，此时控制节点再进行存储面异常探测，当检测到存储面也存在异常时，则认为此时计算节点宕机，此时控制节点在数据库中插入一条记录信息，具体记录如表1所示。其中虚拟机状态包括：active、scheduling、block_device_mapping、building、networking、rebooting、powering_on、powering_off、migrating、deleting和resize_prep。

在重建虚拟机rebuilding阶段，控制节点周期性检测虚拟机重建状态，从云计算网络控制器nova侧获取虚拟机疏散后的主机信息，并将结果记录到数据库表中。

3、在虚拟机重建结束endrebuild阶段，宕机节点上的虚拟机完成疏散后，通过控制节点根据宕机节点的通用唯一识别码uuid(Universally Unique Identifier)筛选出其上虚拟机的疏散情况，同时关联对应应用进行分析和检测。

基于上述技术方案，本申请应用实例提供的计算节点故障处理方法，将明确提升计算节点故障后影响范围确认的效率，减小计算节点故障的问题影响，丰富了现有的虚拟机关系的结构，可回溯虚拟机生命周期的全流程。

从硬件层面来说，为了解决现有的计算节点故障处理方式存在虚拟机重建状态监测效率低、便捷性差且智能化程度低等问题，本申请提供一种用于实现所述计算节点故障处理方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

图11为本申请实施例的电子设备9600的系统构成的示意框图。如图11所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图11是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，计算节点故障处理功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

可以理解的是，针对故障计算节点，在数据库种中插入一条记录信息，具体记录如表1所示字段，在上述表1中，VmID表示虚拟机标识；VmIP表示虚拟机IP地址；Sourceode表示计算节点；SourceIP表示计算节点的IP地址；Dest Node表示目的节点；DestIP表示目的节点的IP地址；Status表示虚拟机状态；CreateDate表示创建日期；UpdateDate表示更新日期。

另外，目的节点的IP地址的具体类型参见表2，在上述表2中，active表示激活状态；scheduling表示待执行状态；block_device_mapping表示块设备映射状态中；building表示创建状态中；networking表示网络更新状态中；rebooting表示重启状态中；powering_on表示开机状态中；powering_off表示关机状态中；migrating表示迁移状态中；deleting表示删除状态中；resize_prep表示迁移失败后的待调整状态。

步骤400：确定所述目标虚拟机的目的计算节点。

从上述描述可知，本申请实施例提供的电子设备，通过设置故障计算节点对应的监控记录信息，并基于该监控记录信息确定所述故障计算节点上的虚拟机是否已完成重建，并确定所述目标虚拟机所在的新的目的计算节点，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性，并能够对故障影响范围和程度进行快速评估，更便于运维，也能够提高分布式系统中运维人员的用户体验。

在另一个实施方式中，计算节点故障处理装置可以与中央处理器9100分开配置，例如可以将计算节点故障处理装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现计算节点故障处理功能。

如图11所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图11中所示的所有部件；此外，电子设备9600还可以包括图11中没有示出的部件，可以参考现有技术。

如图11所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的计算节点故障处理方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的计算节点故障处理方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤400：确定所述目标虚拟机的目的计算节点。

从上述描述可知，本申请实施例提供的计算机可读存储介质，通过设置故障计算节点对应的监控记录信息，并基于该监控记录信息确定所述故障计算节点上的虚拟机是否已完成重建，并确定所述目标虚拟机所在的新的目的计算节点，能够有效提高监测机计算节点中虚拟机重建过程的效率及便捷性，并能够有效提高监测机计算节点中虚拟机重建过程的自动化程度及智能化程度，进而能够有效提高计算节点故障处理过程的可靠性、效率及有效性，并能够对故障影响范围和程度进行快速评估，更便于运维，也能够提高分布式系统中运维人员的用户体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种计算节点故障处理方法，其特征在于，包括：

根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点；

所述监控记录信息包括虚拟机标识、虚拟机IP地址、计算节点、计算节点的IP地址、目的节点的IP地址、虚拟机状态、创建日期和更新日期。

2.根据权利要求1所述的计算节点故障处理方法，其特征在于，还包括：

3.根据权利要求1所述的计算节点故障处理方法，其特征在于，所述获取分布式系统中故障计算节点对应的监控记录信息，包括：

4.根据权利要求3所述的计算节点故障处理方法，其特征在于，所述实时监测所述分布式系统中的各个计算节点中是否存在故障计算节点，包括：

5.根据权利要求1所述的计算节点故障处理方法，其特征在于，所述根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，包括：

获取监测到的所述目标虚拟机当前的状态参数；

根据所述目标虚拟机当前的状态参数对应的重建状态标识判断所述目标虚拟机是否已完成重建。

6.根据权利要求1所述的计算节点故障处理方法，其特征在于，所述确定所述目标虚拟机的目的计算节点，包括：

7.根据权利要求1至6任一项所述的计算节点故障处理方法，其特征在于，在所述确定所述目标虚拟机的目的计算节点之后，还包括：

记录所述目标虚拟机对应的目的计算节点的信息。

8.一种计算节点故障处理装置，其特征在于，包括：

重建监测模块，用于根据所述故障计算节点对应的虚拟机信息对该故障计算节点对应的目标虚拟机进行重建状态监测，并根据监测到的所述目标虚拟机的状态参数确定所述目标虚拟机是否已完成重建，若是，则确定所述目标虚拟机的目的计算节点；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的计算节点故障处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的计算节点故障处理方法。