CN115766405B

CN115766405B - 一种故障处理方法、装置、设备和存储介质

Info

Publication number: CN115766405B
Application number: CN202310026029.6A
Authority: CN
Inventors: 闫永晖
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-28
Anticipated expiration: 2043-01-09
Also published as: CN115766405A

Abstract

本申请涉及一种故障处理方法、装置、设备和存储介质。主要技术方案包括：通过计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，并根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性，响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理，响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令，计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移。本申请实现了集群高可用以及故障的快速转移和恢复，缩短故障修复时间，及时恢复用户服务的使用，保证为用户提供云服务的稳定性。

Description

一种故障处理方法、装置、设备和存储介质

技术领域

本申请涉及云计算技术领域，特别是涉及一种故障处理方法、装置、设备和存储介质。

背景技术

随着云计算作为商业计算模型的流行，企业不需要再关注底层的互联网技术基础设施，而只需要从云计算中取相应的服务来满足自身的业务要求即可。开源云管理平台项目OpenStack作为开源云计算的事实标准，越来越多的企业都将业务转移到OpenStack云平台上。

OpenStack的控制层和计算层运行着大量的服务组件，每一个组件都可能出现故障，且面临着单节点失效的风险。不管是节点故障还是服务组件失效，对于高复杂性的OpenStack云平台，一旦出现节点故障，会使整个平台陷入失效状态，需要人工进行故障的虚拟机迁移处理，导致故障修复时间长，用户服务无法及时恢复使用，难以为用户提供稳定的云服务。

发明内容

基于此，本申请提供了一种故障处理方法、装置、设备和存储介质，以缩短故障修复时间，及时恢复用户服务的使用，保证为用户提供云服务的稳定性。

第一方面，提供一种故障处理方法，该方法应用于故障处理系统，系统包括控制层模块和计算层模块，其中，控制层模块部署有控制迁移监测器和计算隔离监测器，计算层模块包括由多个计算节点组成的计算集群，控制层模块与计算层模块通信连接；该方法包括：

计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，并根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性；

响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理；

响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令；

计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移。

根据本申请实施例中一种可实现的方式，组件资源的运行状态包括组件故障状态；根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性，包括：

若组件资源处于组件故障状态，监测组件资源对应计算节点的运行状态；

根据计算节点的运行状态，设置计算集群中多个计算节点的集群属性。

根据本申请实施例中一种可实现的方式，计算节点的运行状态包括节点故障状态；根据计算节点的运行状态，设置计算集群中多个计算节点的集群属性，包括：

当计算隔离监测器监测到存在计算节点处于节点故障状态时，循环遍历计算集群中多个计算节点的运行状态；

根据多个计算节点的运行状态，设置计算集群中多个计算节点的集群属性。

根据本申请实施例中一种可实现的方式，计算节点的运行状态还包括节点健康状态；根据多个计算节点的运行状态，设置计算集群中多个计算节点的集群属性，包括：

若多个计算节点中存在运行状态为节点故障状态的第一节点，将第一节点的集群属性设置为第一字段信息，第一字段信息用于表征第一节点的集群属性为故障节点；

若多个计算节点中存在运行状态为节点健康状态的第二节点，将第二节点的集群属性设置为第二字段信息，第二字段信息用于表征第二节点的集群属性为健康节点。

根据本申请实施例中一种可实现的方式，计算隔离监测器监测计算节点的运行状态的方法包括：

计算隔离监测器调用状态函数监测计算节点的运行状态。

根据本申请实施例中一种可实现的方式，该方法还包括：

在计算隔离监测器监测到计算节点的集群属性为故障节点之后，获取故障节点列表和健康节点列表；

计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移，包括：

当计算隔离监测器接收到迁移命令时，根据故障节点列表，确定待迁移虚拟机；

将待迁移虚拟机迁移至健康节点列表中的任一节点。

根据本申请实施例中一种可实现的方式，计算隔离监测器监测计算节点的集群属性的方法包括：

计算隔离监测器调用属性更新命令监测计算节点的集群属性。

根据本申请实施例中一种可实现的方式，计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移，包括：

计算隔离监测器根据迁移命令，通过调用疏离应用程序编程接口对计算节点上的虚拟机进行迁移。

根据本申请实施例中一种可实现的方式，该方法还包括：

在计算节点上的虚拟机迁移成功之后，将计算节点的集群属性由第一字段信息设置为第二字段信息。

根据本申请实施例中一种可实现的方式，响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理，包括：

若计算节点上的虚拟机迁移失败，生成迁移失败信息，并将迁移失败信息写入日志以告知用户及时处理。

根据本申请实施例中一种可实现的方式，该方法还包括：

响应于计算隔离监测器监测到计算节点的集群属性为健康节点，关闭异常组件；

确定计算集群中除异常组件对应的计算节点之外的备选健康节点；

根据异常组件的类型，启用备选健康节点上与异常组件等同的组件。

根据本申请实施例中一种可实现的方式，异常组件的类型包括主动/主动模式组件，根据异常组件的类型，启用备选健康节点上与异常组件对应的组件，包括：

若异常组件为主动/主动模式组件，自动启用备选健康节点上与异常组件等同的组件。

根据本申请实施例中一种可实现的方式，异常组件的类型包括主动/被动模式组件，根据异常组件的类型，启用备选健康节点上与异常组件等同的组件，包括：

若异常组件为主动/被动模式组件，将备选健康节点上与异常组件等同的组件由被动状态启动为主动状态。

根据本申请实施例中一种可实现的方式，控制层模块包括第一监测代理单元，计算层模块包括第二监测代理单元；该方法还包括：

在计算隔离监测器设置计算集群中多个计算节点的集群属性之前，第二监测代理单元周期性地监测计算集群中多个计算节点的运行状态；

响应于第二监测代理单元监测到计算集群中存在故障节点，根据故障节点的故障信息和预设故障处理信息，判断是否处理故障节点；

若确定处理故障节点，向第一监测代理单元发送故障节点的故障信息。

根据本申请实施例中一种可实现的方式，计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，包括：

响应于第一监测代理单元接收到故障节点的故障信息，根据计算隔离监测器的登录信息验证计算隔离监测器的操作权限；

若计算隔离监测器验证成功，第一监测代理单元调用计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态。

根据本申请实施例中一种可实现的方式，该方法还包括：

若计算隔离监测器验证失败，生成验证失败信息，并将验证失败信息写入日志以告知用户及时处理。

根据本申请实施例中一种可实现的方式，该方法还包括：

若确定不处理故障节点，忽略故障节点，并向第一监测代理单元发送忽略故障原因信息。

第二方面，提供了一种故障处理装置，该装置应用于故障处理系统，系统包括控制层模块和计算层模块，其中，控制层模块部署有控制迁移监测器和计算隔离监测器，计算层模块包括由多个计算节点组成的计算集群，控制层模块与计算层模块通信连接；该装置包括：

控制层故障发现模块，用于计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，并根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性；

控制层故障处理模块，用于响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理；

计算层主机故障监测模块，用于响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令；

故障虚拟机自动迁移模块，用于计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移。

第三方面，提供了一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机指令，所述计算机指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面中涉及的方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令用于使计算机执行上述第一方面中涉及的方法。

根据本申请实施例所提供的技术内容，通过计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性，响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理，响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令，计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移，实现了集群高可用以及故障的快速转移和恢复，缩短故障修复时间，及时恢复用户服务的使用，保证为用户提供云服务的稳定性。

附图说明

图1为一个实施例中故障处理系统的结构框图；

图2为一个实施例中故障处理方法的流程示意图；

图3为一个实施例中设置计算集群中多个计算节点的集群属性的优选方法流程示意图；

图4为一个实施例中迁移计算节点上虚拟机的优选方法的流程示意图；

图5为一个实施例中迁移计算节点上虚拟机的又一优选方法的流程示意图；

图6A为一个实施例中故障隔离方法的示意图；

图6B为一个实施例中传统的故障隔离方法的示意图；

图7为一个实施例中发现计算节点故障的方法的流程示意图；

图8为一个实施例中发现组件资源故障的方法的流程示意图；

图9为一个实施例中故障处理装置的结构框图；

图10为一个实施例中计算机设备的示意性结构图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着移动互联网的发展，移动应用和网络正在变得越来越复杂。同时，各种爆发性的网络购物流量和直播流量等新业务正在冲击着服务提供者，提供者需要提供更稳定安全的数据存储与强大计算能力，给传统的计算机技术带来了巨大的压力。

在传统企业服务架构中，企业需要购买服务器、存储和网络带宽等硬件和数据库等软件用于支撑业务系统，对于这些软硬件系统的稳定运行和性能升级，还需要构建专门的运维团队进行维护。这使原本只需要关心应用转变为对软硬件的全线支持，应用流量压力的增大，企业不得已升级全部的软硬件来支持日益增长的应用流量压力，费用消耗也越来越大。因此，产生了一种租用软硬件的需求，在这种需求下，云计算应运而生。

OpenStack为云计算落地提供了便利，但是也存在着一定问题。OpenStack的控制层和计算层运行着大量的服务组件，每一个组件都可能出现故障，且面临着单节点失效的风险。不管是节点故障还是服务组件失效，对于高复杂性的OpenStack云平台，一旦出现节点故障，会使整个平台陷入失效状态，使得系统稳健性低和系统稳定性差。此外，在现有的计算节点部署方案中，并没有对故障后的计算节点中的虚拟机做自主迁移处理，而是在发生故障后，需要人工进行故障的虚拟机迁移处理，致使故障后的修复时间消耗会很大，并不能满足高可用性系统标准。

为了解决现有技术问题，本申请实施例提供了一种故障处理方法、装置、设备及计算机存储介质。为了方便理解，首先对本申请所适用的故障处理系统进行描述。本申请提供的故障处理方法，可以应用于如图1所示的系统架构中，故障处理系统采用分布式架构，嵌入到OpenStack集群系统中。如图1所示，故障处理系统100包括控制层模块110和计算层模块120，其中，控制层模块110部署有控制迁移监测器111、计算隔离监测器112和第一监测代理单元113，计算层模块120包括由多个计算节点组成的计算集群121和第二监测代理单元122，控制层模块110通过第一监测代理单元113和第二监测代理单元122与计算层模块120进行通信。

具体地，控制迁移监测器111用于确定计算集群121中需要进行虚拟机迁移的计算节点，并向计算隔离监测器112发送迁移指令。计算隔离监测器112用于监测计算集群121中是否存在计算节点处于故障状态，若存在，则修改该计算节点的集群属性，以使控制迁移监测器111确定计算集群121中需要进行虚拟机迁移的计算节点，并执行控制迁移监测器111发送的迁移指令，对处于故障状态的计算节点上的虚拟机进行迁移。第二监测代理单元122用于监测计算集群121中多个计算节点的运行状态，并通过第一监测代理单元113向控制层模块110发送计算集群121中多个计算节点的运行状态。

图2为本申请实施例提供的一种故障处理方法的流程图，如图2所示，该方法可以包括以下步骤：

S210，计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，并根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性。

组件资源的运行状态包括组件故障状态和组件健康状态，组件故障状态表示组件资源出现故障，组件健康状态表示组件资源正常运行。

第二监测代理单元循环监控计算集群中多个计算节点的组件资源，当资源出现故障时，向第一监测代理单元上报故障信息。第一监测代理单元接收到故障信息后，调用计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态。

通过监测组件资源的运行状态，可以确定该组件资源所在计算节点的运行状态，基于计算节点的运行状态，确定计算节点的集群属性。

其中，集群属性用于指示计算节点的类型，可以包括健康节点和故障节点，集群属性可以表示为evacuate，通过设置evacuate对应的字段信息标记计算节点的运行状态。

当计算节点上的组件资源出现故障后，可能是这个组件资源对应的组件故障，也可能是这个组件资源所在的计算节点故障，需要进一步监测计算集群中所有计算节点的运行状态，根据每个计算节点的运行情况，设置计算集群中多个计算节点的集群属性，以使得控制迁移监测器可以监测到故障的计算节点。

S220，响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理。

当计算节点的组件资源出现故障时，可能是该组件资源对应的组件异常，也可能是该组件资源对应的计算节点故障。当控制迁移监测器监测到计算节点的集群属性为健康节点时，表明该组件资源对应的组件异常，对运行故障的组件资源对应的异常组件进行隔离处理。

S230，响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令。

如果计算节点服务的组件资源出现故障，那么，该资源以及依赖该资源的其他全部资源都被停止并重新启动，在这个过程中，如果启动失败，则需要该计算节点上的虚拟机进行迁移，从而隔离该计算节点。

控制迁移监测器循环监控计算集群中是否存在计算节点的集群属性为故障节点，在确定存在后，向计算隔离监测器发送迁移命令。迁移命令用于告知计算隔离监测器可以执行故障节点的虚拟机迁移操作。

S240，计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移。

计算隔离监测器接收到迁移命令后，根据预先获取的故障节点列表和健康节点列表，确定需要迁移的虚拟机和可以接受虚拟机迁移的健康节点，执行故障节点的虚拟机迁移操作，将故障节点上的虚拟机迁移到健康节点，以最快的速度进行故障自主恢复与转移，能够缩短故障时间。

可以看出，本申请实施例通过计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，并根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性，响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理，响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令，计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移，实现了集群高可用以及故障的快速转移和恢复，缩短故障修复时间，及时恢复用户服务的使用，保证为用户提供云服务的稳定性。

作为一种可实现的方式，在S210中根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性，包括：

若组件资源处于组件故障状态，进一步地，监测组件资源对应计算节点的运行状态确定组件资源所在的计算节点是否出现故障。计算节点的运行状态包括节点故障状态和节点健康状态，计算隔离监测器调用状态函数对节点的运行状态进行判断。当通过状态函数监测到计算节点不处于Down状态时，判断计算节点的运行状态为节点健康状态；当通过状态函数监测到计算节点处于Down状态时，判断计算节点的运行状态为节点故障状态。

若监测到计算节点处于节点健康状态，表明计算节点运行正常，在计算集群中不存在故障节点，计算集群中多个计算节点的集群属性为健康节点。若监测到计算节点处于节点故障状态，表明计算节点出现故障，在计算集群中存在故障节点，继续监测计算集群中是否还存在其他存在故障的计算节点，这些故障节点的集群属性为故障节点。

具体地，当计算隔离监测器监测到存在计算节点处于节点故障状态时，循环遍历计算集群中多个计算节点的运行状态；

当计算隔离监测器监测到存在计算节点处于节点故障状态时，通过循环遍历计算集群中多个计算节点的运行状态，能够尽可能地发现计算集群中所有故障的计算节点，相应地设置故障的计算节点的集群属性，保证控制迁移监测器能够监测到故障节点，及时地进行故障节点上虚拟机的迁移。

其中，第一节点为计算集群中处于Down状态的计算节点，第二节点为计算集群中不处于Down状态的计算节点。第一字段信息和第二字段信息可以用英文表示，比如说，第一字段信息可以为yes，第二字段信息可以为no。

当计算节点不处于Down状态时，判断计算节点的运行状态为节点健康状态，设置计算集群中多个计算节点的集群属性为no；当存在计算节点处于Down状态时，判断计算节点的运行状态为节点故障状态，设置计算集群中处于Down状态的计算节点的集群属性为yes。

作为一种可实现的方式，如图3所示，设置计算集群中多个计算节点的集群属性的优选方法可以包括以下步骤：

S310，监控计算集群，每10s循环监测计算节点的健康状态。

S320，计算隔离监测器进行Keystone认证参数。

S330，判断Keystone认证参数是否完整。

若是，则执行S340；若否，则执行S390。

S340，调用登陆初始化函数登陆到OpenStack平台。

S350，判断Keystone认证是否成功。

若是，则执行S360，若否，则执行S390。

S360，获取计算集群中所有计算节点的运行状态。

S370，判断是否存在计算节点的运行状态处于Down状态。

若是，则执行S380，若否，则不重新设置计算节点的集群属性。在设置完成集群属性后，执行S310。

S380，循环遍历计算集群，将处于Down状态的计算节点的集群属性设置为yes。

S390，将错误信息写入日志上传计算集群。

作为一种可实现的方式，该方法还包括：

将待迁移虚拟机迁移至健康节点列表中的任一节点。

在计算隔离监测器监测到计算节点的集群属性为故障节点之后，获取故障节点列表，故障节点列表可以包括故障节点名称和故障节点状态。同时，计算隔离监测器查询是否存在健康节点可以用于迁移，获取健康节点列表，健康节点列表可以包括健康节点名称和健康节点状态。在未接收到迁移命令之后，提前获取故障节点列表和健康节点列表，为进行故障节点的虚拟机迁移做好准备，在接收到迁移命令时，直接进行迁移操作，缩短故障处理时间。

当计算隔离监测器接收到迁移命令时，根据故障节点列表中的故障节点名称查找到计算节点上全部需要迁移的虚拟机，确定为待迁移虚拟机。选取健康节点列表中的任一计算节点作为虚拟机迁移的接收对象，将待迁移虚拟机迁移至健康节点，保证云服务的正常提供。

作为一种可实现的方式，计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移，包括：

疏离应用程序编程接口为nova evacuate api，当虚拟机所在宿主机出现宕机后，可以通过nova evacuate将虚拟机从宕机的故障节点迁移至其它健康节点，通过调用novaevacuate api对计算节点上的虚拟机迁移至健康节点。

作为一种可实现的方式，计算隔离监测器监测计算节点的集群属性的方法包括：

属性更新命令为attrd_updater命令，计算隔离监测器调用attrd_updater命令监测计算节点的集群属性，能够及时获知计算节点的集群属性的变化，缩短故障修复时间。

作为一种可实现的方式，该方法还包括：

在计算节点上的虚拟机迁移成功之后，将计算节点的集群属性重新设置为no，控制迁移监测器将不会监测到该计算节点为故障节点，避免对完成虚拟机迁移的计算节点多次发送迁移命令，节省不必要的迁移程序，提高迁移效率。

作为一种可实现的方式，该方法还包括：

其中，迁移失败信息包括迁移失败节点、迁移失败原因、迁移失败时间等信息，将迁移失败信息写入日志发送至客户端，用户接收到相关日志通知，根据业务需求进行相应地处理。

作为其中一种可实现的方式，如图4所示，迁移计算节点上虚拟机的优选方法可以包括以下步骤：

S410，等待迁移命令，并监控计算集群，每10s循环监测计算节点的健康状态。

S420，计算隔离监测器进行Keystone认证参数。

S430，判断Keystone认证参数是否完整。

若是，则执行S440；若否，则执行S480。

S440，检测是否存在计算节点的集群属性为yes。

若是，则执行S450；若否，则执行S410。

S450，获取待迁移的节点状态列表。

S460，计算隔离监测器查询是否存在健康节点。

若是，则执行S470；若否，则执行S480。

S470，执行控制迁移监测器发送的迁移命令。

在完成虚拟机迁移后，将已迁移计算节点的集群属性重新设置为no。

S480，将错误信息写入日志上传计算集群。

作为另一种可实现的方式，如图5所示，迁移计算节点上虚拟机的又一优选方法可以包括以下步骤：

S510，等待迁移命令，并监控计算集群，每10s循环监测计算节点的健康状态。

S520，判断是否接收到控制迁移监测器发送的迁移命令。

若是，则执行S530；若否，则执行S510。

S530，获取故障计算节点的名称，并查询故障节点上全部需要迁移的虚拟机。

S540，调用迁移算法确定迁移的目标主机，对虚拟机进行迁移。

S550，判断是否迁移成功。

若是，则结束迁移流程；若否，则执行S560。

S560，将错误信息写入日志上传计算集群。

作为一种可实现的方式，在S220中响应于控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理，包括：

计算隔离监测器监测到计算节点的集群属性为健康节点，却存在组件资源出现故障的情况，说明不是计算节点导致的故障，而是组件出现了故障，关闭组件资源对应的异常组件，选择一个新的健康节点，采用新的健康节点上等同的组件接替异常组件继续提供服务。

其中，备选健康节点为除了包含异常组件的计算节点之外的健康节点。计算隔离监测器查询计算集群中存在的健康节点，并监测这些健康节点是否存在异常组件，将不存在异常组件的健康节点确定为备选健康节点。

异常组件的类型可以包括主动/主动模式组件和主动/被动模式组件，其中主动/主动模式组件为Active/Active 模式组件，简称为A/A模式组件，主动/被动模式组件为Active/Passive 模式组件，简称为A/P模式组件。

异常组件的类型不同，启动备选健康节点上与异常组件等同的组件的方法不同。具体地，若异常组件为主动/主动模式组件，自动启用备选健康节点上与异常组件等同的组件。

若异常组件为A/A模式组件，只需要异常组件关闭即可，备选健康节点上与异常组件等同的组件会自动为系统提供相应的服务。示例性的，如图6A所示，计算节点1上A/A类服务1组件正常开启，A/A类服务2组件故障关闭，在计算节点1A/A类服务2组件关闭时，计算节点2和计算节点3上的A/A类服务2组件自动为系统提供服务。

若异常组件为A/P模式组件，选择一个备选健康节点，将备选健康节点上与异常组件等同的组件由被动状态启动为主动状态，该备选健康节点将会代替异常组件为系统提供服务。示例性的，如图6A所示，计算节点1上A/P类服务1组件正常开启，A/P类服务2组件故障关闭，将计算节点2上的同等服务组件启动为Active，即主动状态，接替计算节点1上的A/P类服务2组件继续为系统提供服务，计算节点3上的同等服务组件仍为Passive，即被动状态。

如图6B所示，传统的故障隔离方法在计算节点中的某一组件发生故障关闭后，需要关闭整个计算节点进行故障的转移隔离。若整个节点需要进行故障转移，会导致很多健康节点资源也进行不必要的处理，大大增加了计算节点的故障恢复时间。通过对故障进行细粒化，缩短了节点故障恢复时间，增加了系统的高可用性。

作为一种可实现的方式，该方法还包括：

最初计算节点的故障是由监测代理单元检测到的，在控制层模块和计算层模块分别部署一个监测代理单元，控制层模块上的监测代理单元称为第一监测代理单元，计算层模块上的监测代理单元称为第二监测代理单元。

第二监测代理单元周期性地监测计算集群中多个计算节点的运行状态，例如，每10s循环多个计算节点的运行状态。

其中，预设故障处理信息包括用户预先设置需要处理的故障信息。将故障节点的故障信息与预设故障处理信息进行匹配，若故障节点的故障属于用户需要处理的故障，则确定处理故障节点，否则，不处理故障节点。

若确定不处理故障节点，忽略故障节点，并向第一监测代理单元发送忽略故障原因信息。第一监测代理单元接收到忽略故障原因信息，记录忽略故障原因，对该节点不做任何处理。

若确定处理故障节点，向第一监测代理单元发送故障节点的故障信息，第一监测代理单元接收到故障信息，调用计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态。

具体地，响应于第一监测代理单元接收到故障节点的故障信息，根据计算隔离监测器的登录信息验证计算隔离监测器的操作权限；

采用keystone认证方式验证计算隔离监测器的操作权限，keystone是OpenStack的身份服务，为访问OpenStack的各个组件提供一个统一的验证方式。

登录信息包括用户名和密码，根据用户名和密码验证计算隔离监测器的身份，在身份验证通过后，授权计算隔离监测器有指定的可执行动作的范围，即，计算隔离监测器的操作权限。

当计算隔离监测器验证成功后，调用登陆初始化函数登陆到OpenStack，计算隔离监测器在操作权限范围内执行发送命令、调用函数接口等操作，以监测计算集群中多个计算节点的组件资源的运行状态。

验证失败信息可以包括验证失败原因、验证失败事件、重新验证建议等信息，将验证失败信息写入日志发送至客户端，用户接收到相关日志通知，根据业务需求进行相应地处理。

作为一种可实现的方式，如图7所示，发现计算节点故障的方法可以包括以下步骤：

S710，通过心跳的方式获取计算节点的运行状态。

S720，监测计算节点是否被关闭或出现故障。

若是，则执行S730，否则，则执行S750。

S730，执行PE指令，判断是否处理故障计算节点。

若是，则执行S740，否则，则执行S750。

S740，对故障计算节点执行隔离操作。

其中，隔离操作可以为关机操作。

S750，忽略故障计算节点并向计算集群上报忽略故障原因信息。

在忽略故障计算节点之后，继续执行S710。

作为一种可实现的方式，如图8所示，发现组件资源故障的方法可以包括以下步骤：

S810，监测计算集群中多个计算节点上组件资源的运行状态。

S820，判断是否监测到组件资源的故障状态。

若是，则执行S830，否则，则执行S850。

S830，执行PE指令，判断是否处理故障组件资源。

若是，则执行S840，否则，则执行S850。

S840，对故障组件资源执行关闭/开启操作。

S850，忽略故障计算节点并向计算集群上报忽略故障原因信息。

上述图7和图8所示的方法由控制层模块上的第一监测代理单元和计算层模块上的第二监测代理单元共同完成。

应该理解的是，虽然图2-图5、图7、图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图5、图7、图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图9为本申请实施例提供的一种故障处理装置的结构示意图，该装置可以设置于图1所示的故障处理系统，用以执行如图2中所示的方法流程。如图9所示，该装置可以包括：控制层故障发现模块910、控制层故障处理模块920、计算层主机故障监测模块930和故障虚拟机自动迁移模块940，还可以进一步包括：获取模块、生成模块和启用模块。其中各组成模块的主要功能如下：

控制层故障发现模块910，用于计算隔离监测器监测计算集群中多个计算节点的组件资源的运行状态，并根据组件资源的运行状态，设置计算集群中多个计算节点的集群属性；

控制层故障处理模块920，用于响应于所述控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理；

计算层主机故障监测模块930，用于响应于控制迁移监测器监测到计算节点的集群属性为故障节点，控制迁移监测器向计算隔离监测器发送迁移命令；

故障虚拟机自动迁移模块940，用于计算隔离监测器根据迁移命令，对计算节点上的虚拟机进行迁移。

作为一种可实现的方式，组件资源的运行状态包括组件故障状态；控制层故障处理模块920，具体用于若组件资源处于组件故障状态，监测组件资源对应计算节点的运行状态；

作为一种可实现的方式，计算节点的运行状态包括节点故障状态；控制层故障处理模块920，具体用于当计算隔离监测器监测到存在计算节点处于节点故障状态时，循环遍历计算集群中多个计算节点的运行状态；

作为一种可实现的方式，计算节点的运行状态还包括节点健康状态；控制层故障处理模块920，具体用于若多个计算节点中存在运行状态为节点故障状态的第一节点，将第一节点的集群属性设置为第一字段信息，第一字段信息用于表征第一节点的集群属性为故障节点；

作为一种可实现的方式，控制层故障发现模块910，具体用于计算隔离监测器调用状态函数监测计算节点的运行状态。

作为一种可实现的方式，该装置还包括获取模块，用于在计算隔离监测器监测到计算节点的集群属性为故障节点之后，获取故障节点列表和健康节点列表；

故障虚拟机自动迁移模块940，具体用于当计算隔离监测器接收到迁移命令时，根据故障节点列表，确定待迁移虚拟机；

将待迁移虚拟机迁移至健康节点列表中的任一节点。

作为一种可实现的方式，控制层故障发现模块910，具体用于计算隔离监测器调用属性更新命令监测计算节点的集群属性。

作为一种可实现的方式，故障虚拟机自动迁移模块940，具体用于计算隔离监测器根据迁移命令，通过调用疏离应用程序编程接口对计算节点上的虚拟机进行迁移。

作为一种可实现的方式，控制层故障处理模块920，还用于在计算节点上的虚拟机迁移成功之后，将计算节点的集群属性由第一字段信息设置为第二字段信息。

作为一种可实现的方式，该装置还包括生成模块，用于若计算节点上的虚拟机迁移失败，生成迁移失败信息，并将迁移失败信息写入日志以告知用户及时处理。

作为一种可实现的方式，该装置还包括启用模块，用于响应于计算隔离监测器监测到计算节点的集群属性为健康节点，关闭异常组件；

作为一种可实现的方式，异常组件的类型包括主动/主动模式组件；启用模块，具体用于若异常组件为主动/主动模式组件，自动启用备选健康节点上与异常组件等同的组件。

作为一种可实现的方式，异常组件的类型包括主动/被动模式组件；启用模块，具体用于若异常组件为主动/被动模式组件，将备选健康节点上与异常组件等同的组件由被动状态启动为主动状态。

作为一种可实现的方式，计算层主机故障监测模块930，还用于在计算隔离监测器设置计算集群中多个计算节点的集群属性之前，第二监测代理单元周期性地监测计算集群中多个计算节点的运行状态；

作为一种可实现的方式，控制层故障发现模块910，具体用于响应于第一监测代理单元接收到故障节点的故障信息，根据计算隔离监测器的登录信息验证计算隔离监测器的操作权限；

作为一种可实现的方式，生成模块，还用于若计算隔离监测器验证失败，生成验证失败信息，并将验证失败信息写入日志以告知用户及时处理。

作为一种可实现的方式，计算层主机故障监测模块930，还用于若确定不处理故障节点，忽略故障节点，并向第一监测代理单元发送忽略故障原因信息。

上述各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据本申请的实施例，本申请还提供了一种计算机设备、一种计算机可读存储介质。

如图10所示，是根据本申请实施例的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机或移动装置。其中数字计算机可以包括台式计算机、便携式计算机、工作台、个人数字助理、服务器、大型计算机和其它适合的计算机。移动装置可以包括平板电脑、智能电话、可穿戴式设备等。

如图10所示，设备1000包括计算单元1001、ROM 1002、 RAM 1003 、总线1004以及输入/输出（I/O）接口1005 ，计算单元 1001、ROM 1002 以及 RAM 1003 通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

计算单元1001可以根据存储在只读存储器（ROM）1002 中的计算机指令或者从存储单元1008加载到随机访问存储器（RAM）1003 中的计算机指令，来执行本申请方法实施例中的各种处理。计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001可以包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。在一些实施例中，本申请实施例提供的方法可被实现为计算机软件程序，其被有形地包含于计算机可读存储介质，例如存储单元1008。

RAM 1003还可存储设备1000操作所需的各种程序和数据。计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。

设备1000中的输入单元1006、输出单元1007、存储单元1008和通信单元1009可以连接至I/O接口1005。其中，输入单元1006可以是诸如键盘、鼠标、触摸屏、麦克风等；输出单元1007可以是诸如显示器、扬声器、指示灯等。设备1000能够通过通信单元1009与其他设备进行信息、数据等的交换。

需要说明的是，该设备还可以包括实现健康运行所必需的其他组件。也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件和/或它们的组合中实现。

用于实施本申请的方法的计算机指令可以采用一个或多个编程语言的任何组合来编写。这些计算机指令可以提供给计算单元1001，使得计算机指令当由诸如处理器等计算单元1001执行时使执行本申请方法实施例中涉及的各步骤。

本申请提供的计算机可读存储介质可以是有形的介质，其可以包含或存储计算机指令，用以执行本申请方法实施例中涉及的各步骤。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的等形式的存储介质。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种故障处理方法，其特征在于，所述方法应用于故障处理系统，所述系统包括控制层模块和计算层模块，其中，所述控制层模块部署有控制迁移监测器和计算隔离监测器，所述计算层模块包括由多个计算节点组成的计算集群，所述控制层模块与所述计算层模块通信连接；所述方法包括：

所述计算隔离监测器监测所述计算集群中多个计算节点的组件资源的运行状态，并根据所述组件资源的运行状态，设置所述计算集群中多个计算节点的集群属性；

响应于所述控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理，具体包括：响应于所述计算隔离监测器监测到计算节点的集群属性为健康节点，关闭所述异常组件；确定所述计算集群中除所述异常组件对应的计算节点之外的备选健康节点；若所述异常组件为主动/主动模式组件，启用所述备选健康节点上与所述异常组件对应的组件；若所述异常组件为主动/被动模式组件，将所述备选健康节点上与所述异常组件等同的组件由被动状态启动为主动状态；

响应于所述控制迁移监测器监测到计算节点的集群属性为故障节点，所述控制迁移监测器向所述计算隔离监测器发送迁移命令；

所述计算隔离监测器根据所述迁移命令，对所述计算节点上的虚拟机进行迁移。

2.根据权利要求1所述的方法，其特征在于，所述组件资源的运行状态包括组件故障状态；所述根据所述组件资源的运行状态，设置所述计算集群中多个计算节点的集群属性，包括：

若所述组件资源处于组件故障状态，监测所述组件资源对应计算节点的运行状态；

根据所述计算节点的运行状态，设置所述计算集群中多个计算节点的集群属性。

3.根据权利要求2所述的方法，其特征在于，所述计算节点的运行状态包括节点故障状态；所述根据所述计算节点的运行状态，设置所述计算集群中多个计算节点的集群属性，包括：

当所述计算隔离监测器监测到存在计算节点处于节点故障状态时，循环遍历所述计算集群中多个计算节点的运行状态；

根据所述多个计算节点的运行状态，设置所述计算集群中多个计算节点的集群属性。

4.根据权利要求3所述的方法，其特征在于，所述计算节点的运行状态还包括节点健康状态；所述根据所述多个计算节点的运行状态，设置所述计算集群中多个计算节点的集群属性，包括：

若所述多个计算节点中存在运行状态为节点故障状态的第一节点，将所述第一节点的集群属性设置为第一字段信息，所述第一字段信息用于表征所述第一节点的集群属性为故障节点；

若所述多个计算节点中存在运行状态为节点健康状态的第二节点，将所述第二节点的集群属性设置为第二字段信息，所述第二字段信息用于表征所述第二节点的集群属性为健康节点。

5.根据权利要求2所述的方法，其特征在于，所述计算隔离监测器监测计算节点的运行状态的方法包括：

所述计算隔离监测器调用状态函数监测计算节点的运行状态。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述计算隔离监测器监测到计算节点的集群属性为故障节点之后，获取故障节点列表和健康节点列表；

所述计算隔离监测器根据所述迁移命令，对所述计算节点上的虚拟机进行迁移，包括：

当所述计算隔离监测器接收到所述迁移命令时，根据所述故障节点列表，确定待迁移虚拟机；

将所述待迁移虚拟机迁移至所述健康节点列表中的任一节点。

7.根据权利要求6所述的方法，其特征在于，所述计算隔离监测器监测计算节点的集群属性的方法包括：

所述计算隔离监测器调用属性更新命令监测计算节点的集群属性。

8.根据权利要求1所述的方法，其特征在于，所述计算隔离监测器根据所述迁移命令，对所述计算节点上的虚拟机进行迁移，包括：

所述计算隔离监测器根据所述迁移命令，通过调用疏离应用程序编程接口对所述计算节点上的虚拟机进行迁移。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述计算节点上的虚拟机迁移成功之后，将所述计算节点的集群属性由第一字段信息设置为第二字段信息。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述计算节点上的虚拟机迁移失败，生成迁移失败信息，并将所述迁移失败信息写入日志以告知用户及时处理。

11.根据权利要求1所述的方法，其特征在于，所述若所述异常组件为主动/主动模式组件，启用所述备选健康节点上与所述异常组件对应的组件，包括：

若所述异常组件为主动/主动模式组件，自动启用所述备选健康节点上与所述异常组件等同的组件。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述控制层模块包括第一监测代理单元，计算层模块包括第二监测代理单元；所述方法还包括：

在所述计算隔离监测器设置所述计算集群中多个计算节点的集群属性之前，所述第二监测代理单元周期性地监测所述计算集群中多个计算节点的运行状态；

响应于所述第二监测代理单元监测到所述计算集群中存在故障节点，根据所述故障节点的故障信息和预设故障处理信息，判断是否处理所述故障节点；

若确定处理所述故障节点，向所述第一监测代理单元发送所述故障节点的故障信息。

13.根据权利要求12所述的方法，其特征在于，所述计算隔离监测器监测所述计算集群中多个计算节点的组件资源的运行状态，包括：

响应于所述第一监测代理单元接收到所述故障节点的故障信息，根据所述计算隔离监测器的登录信息验证所述计算隔离监测器的操作权限；

若所述计算隔离监测器验证成功，所述第一监测代理单元调用计算隔离监测器监测所述计算集群中多个计算节点的组件资源的运行状态。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

若所述计算隔离监测器验证失败，生成验证失败信息，并将所述验证失败信息写入日志以告知用户及时处理。

15.根据权利要求12所述的方法，其特征在于，所述方法还包括：

若确定不处理所述故障节点，忽略所述故障节点，并向所述第一监测代理单元发送忽略故障原因信息。

16.一种故障处理装置，其特征在于，所述装置应用于故障处理系统，所述系统包括控制层模块和计算层模块，其中，所述控制层模块部署有控制迁移监测器和计算隔离监测器，所述计算层模块包括由多个计算节点组成的计算集群，所述控制层模块与所述计算层模块通信连接；所述装置包括：

控制层故障发现模块，用于所述计算隔离监测器监测所述计算集群中多个计算节点的组件资源的运行状态，并根据所述组件资源的运行状态，设置所述计算集群中多个计算节点的集群属性；

控制层故障处理模块，用于响应于所述控制迁移监测器监测到计算节点的集群属性为健康节点，对运行故障的组件资源对应的异常组件进行隔离处理；

计算层主机故障监测模块，用于响应于所述控制迁移监测器监测到计算节点的集群属性为故障节点，所述控制迁移监测器向所述计算隔离监测器发送迁移命令；

故障虚拟机自动迁移模块，用于所述计算隔离监测器根据所述迁移命令，对所述计算节点上的虚拟机进行迁移；

所述装置还包括启用模块，用于响应于所述计算隔离监测器监测到计算节点的集群属性为健康节点，关闭所述异常组件；确定所述计算集群中除所述异常组件对应的计算节点之外的备选健康节点；若所述异常组件为主动/主动模式组件，启用所述备选健康节点上与所述异常组件对应的组件；若所述异常组件为主动/被动模式组件，将所述备选健康节点上与所述异常组件等同的组件由被动状态启动为主动状态。

17. 一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机指令，所述计算机指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至15中任一项所述的方法。