CN110674096B

CN110674096B - 节点故障排查方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110674096B
Application number: CN201910803806.7A
Authority: CN
Inventors: 胡月恒; 孙佳; 苏广峰
Original assignee: Beijing Inspur Data Technology Co Ltd
Current assignee: Beijing Inspur Data Technology Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-07-05
Anticipated expiration: 2039-08-28
Also published as: CN110674096A

Abstract

本发明公开了一种节点故障排查方法，该方法包括以下步骤：接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案；向动作层节点发送目标故障排查方案，以使动作层节点利用目标故障排查方案进行故障排查。应用本发明实施例所提供的技术方案，通过监测层各节点之间的协商一致性，较大地提升了故障判定结果准确性，通过设置精细可控的决策矩阵，使得查得的目标故障排查方案进行更加准确有效，较大地降低了云主机被误杀的概率。本发明还公开了一种节点故障排查装置、设备及存储介质，具有相应技术效果。

Description

节点故障排查方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及云计算技术领域，特别是涉及一种节点故障排查方法、装置、设备及计算机可读存储介质。

背景技术

在云计算领域，云主机的高可用性，其关注点是云主机的容灾能力，最终目的是希望云平台底层物理资源的变动对云主机业务中断的影响降到最低。可用性（Availability）表示系统能在客户需要的时候提供服务的能力，而高则表示系统具有相当高的可靠性。高可用性中的"高"针对不同的系统的含义是不同的，而不是简简单单的7x24。最典型的场景就是物理节点宕机，云平台能够准确监测到故障，并能在可接受的时间内（不要超过MTTR，maximum time to repair or resolve）将故障节点上的云主机在新的物理节点上恢复。

现有的云主机高可用方案大多采用红帽Redhat的Masakari + Pacemaker +Corosync方案，该方案以Pacemaker+Corosync作为监测层，以Masakari作为控制层和执行层，当监测层侦察到故障后，会报告信息给Masakari，Masakari根据故障类型，调用云平台管理API，执行相应的恢复操作。该方案在控制层和执行层的设计比较完善，但是在监测层有一定的局限性，最主要就是监测不准或不完备，有时候云主机还在正常运行业务，却因监测层误报故障，导致云主机被误杀，对“高可用”造成适得其反的效果。

综上所述，如何有效地解决监测层对故障监测不准、不完备，导致云主机被误杀等问题，是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种节点故障排查方法，该方法较大地提升了故障判定结果准确性，使得查得的目标故障排查方案进行更加准确有效，较大地降低了云主机被误杀的概率；本发明的另一目的是提供一种节点故障排查装置、设备及计算机可读存储介质。

为解决上述技术问题，本发明提供如下技术方案：

一种节点故障排查方法，包括：

接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；

从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案；其中，所述决策矩阵中预存有各通道故障协商结果与各故障排查方案之间的对应关系；

向动作层节点发送所述目标故障排查方案，以使所述动作层节点利用所述目标故障排查方案进行故障排查。

在本发明的一种具体实施方式中，接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果，包括：

接收监测层各节点发送的通过节点中各网卡IP地址预绑定的通道，利用gossip通信协议进行通信得到的通道故障协商结果。

在本发明的一种具体实施方式中，在从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案之后，还包括：

为所述目标故障排查方案设置时间戳；

向所述动作层节点发送所述目标故障排查方案，包括：

向所述动作层节点发送添加时间戳后的目标故障排查方案，以使所述动作层节点针对同一通道故障协商结果，选取接收到的各所述目标故障排查方案中时间戳最小的目标故障排查方案进行故障排查。

在本发明的一种具体实施方式中，还包括：

接收故障排查方案调整指令；

根据所述故障排查方案调整指令对所述决策矩阵进行调整操作。

一种节点故障排查装置，包括：

结果接收模块，用于接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；

方案查找模块，用于从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案；其中，所述决策矩阵中预存有各通道故障协商结果与各故障排查方案之间的对应关系；

方案发送模块，用于向动作层节点发送所述目标故障排查方案，以使所述动作层节点利用所述目标故障排查方案进行故障排查。

在本发明的一种具体实施方式中，所述结果接收模块具体为接收监测层各节点发送的通过节点中各网卡IP地址预绑定的通道，利用gossip通信协议进行通信得到的通道故障协商结果的模块。

在本发明的一种具体实施方式中，还包括：

时间戳设置模块，用于在从预存的决策矩阵中查找与所述通道故障协商结果对应的目标故障排查方案之后，为所述目标故障排查方案设置时间戳；

所述方案发送模块具体为向所述动作层节点发送添加时间戳后的目标故障排查方案，以使所述动作层节点针对同一通道故障协商结果，选取接收到的各所述目标故障排查方案中时间戳最小的目标故障排查方案进行故障排查的模块。

在本发明的一种具体实施方式中，还包括：

指令接收模块，用于接收故障排查方案调整指令；

矩阵调整模块，用于根据所述故障排查方案调整指令对所述决策矩阵进行调整操作。

一种节点故障排查设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如前所述节点故障排查方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述节点故障排查方法的步骤。

应用本发明实施例所提供的方法，接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案；向动作层节点发送目标故障排查方案，以使动作层节点利用目标故障排查方案进行故障排查。通过预先为监测层各节点设置通过gossip通信协议进行通信的通道，并在决策层节点中预先设置决策矩阵，使得监测层各节点通过预设通道，利用gossip通信协议进行通信得到故障协商结果，通过监测层各节点之间的协商一致性，较大地提升了故障判定结果准确性，通过设置精细可控的决策矩阵，使得查得的目标故障排查方案进行更加准确有效，较大地降低了云主机被误杀的概率。

相应的，本发明实施例还提供了与上述节点故障排查方法相对应的节点故障排查装置、设备和计算机可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中节点故障排查方法的一种实施流程图；

图2为本发明实施例中一种节点故障排查系统的结构示意图；

图3为本发明实施例中节点故障排查方法的另一种实施流程图；

图4为本发明实施例中一种节点故障排查装置的结构框图；

图5为本发明实施例中一种节点故障排查设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1，图1为本发明实施例中节点故障排查方法的一种实施流程图，该方法可以包括以下步骤：

S101：接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果。

可以预先将云平台系统中的各物理节点进行层次划分，划分为监测层、决策层、以及动作层。可以在监测层各节点中部署“fate”模块，fate模块主进程启动后会读取本地配置文件/etc/fate/channel_conf.ini，或者从配置中心加载配置，然后根据配置的内容，将物理主机节点绑定到预设的 “通道”（channel），从而建立监测层各节点之间的通信连接。

监测层各节点通过预设通道利用gossip通信协议进行通信，得到通道故障协商结果，充分利用gossip通信协议的传播成本低的特点以及gossip通信协议的“反熵”特性（即在一个有界网络中，每个节点都与其他节点通信，经过一番杂乱无章的通信，最终所有节点的状态都会达成一致），并将通道故障协商结果发送给决策层节点，决策层节点接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果。

S102：从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案。

其中，决策矩阵中预存有各通道故障协商结果与各故障排查方案之间的对应关系。

可以预先建立并存储由故障协商结果中各通道通断情况及故障排查方案构成的决策矩阵，在得到监测层各节点发送的通道故障协商结果之后，可以从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案。预先建立并存储的决策矩阵可以如表1所示。

表1

表1中是以预先建立管理网通道、存储网通道、以及业务网通道为例进行说明的，当然除此之外，还可以根据实际需要预先建立其他的通道，本发明实施例对此不做限定。由表1中可以看出当一个物理节点仅对应的管理网通道出现阻塞block，其他通道畅通clear时，其故障排查方案仅是需要进行相应的日志记录和简单的邮件通知即可；当一个物理节点仅对应的存储网通道出现阻塞时，需要进行相应的日志记录的同时，还需要进行相应的隔离、疏散处理，并向管理员终端发送警告邮件；当一个物理节点仅对应的业务网通道出现阻塞时，需要进行相应的日志记录的同时，还需要进行迁移处理，并向管理员终端发送警告邮件；当一个物理节点对应的管理网通道和业务网通道均阻塞时，需要进行相应的日志记录的同时，还需要向管理员终端发送紧急邮件，以提醒管理人员及时进行手动维护；当一个物理节点对应的管理网通道、业务网通道、以及业务网通道均阻塞时，此时情况很严重，需要进行相应的日志记录的同时，还需要进行隔离、疏散处理，并向管理员终端发送紧急邮件，以提醒管理人员及时进行手动维护。通过设置精细可控的决策矩阵，使得查得的目标故障排查方案进行更加精细可控、准确有效，避免直接将故障节点中部署的云主机疏散到其他物理节点，较大地降低了云主机被误杀的概率。

S103：向动作层节点发送目标故障排查方案，以使动作层节点利用目标故障排查方案进行故障排查。

在查找到目标故障排查方案之后，可以向动作层节点发送目标故障排查方案。动作层节点在接收到目标故障排查方案之后，可以用目标故障排查方案进行故障排查。通过对云平台系统中各节点进行分层，使得各节点分工明确、便于维护，降低节点之间的耦合性，使得一层的调整对其他层的影响降到最低，同时各层之间又能协调一致完成准确无误的高可用（HA）功能，增强了云平台系统的稳定性，使得容灾机制更智能，减轻运维负担。

需要说明的是，基于上述实施例一，本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在下文的改进实施例中不再一一赘述。

在一种具体实例应用中，参见图2，图2为本发明实施例中一种节点故障排查系统的结构示意图。将云平台系统中各节点进行分层处理，得到监测层各节点、决策层各节点、以及动作层节点。在监测层的节点0（Node0）、节点1（Node1）、以及节点2（Node2）中部署有“fate”模块，需要说明的是，由图2可以看出，决策层的节点3（Node3）和节点4（Node4）也同样部署有“fate”模块，即决策层各节点是兼备监测功能的，即监测层节点包括决策层各节点，除此之外，决策层各节点还部署有用于存储决策矩阵的matrix模块。设置通道0（Chanel0）、通道1（Chanel1）、通道2（Chanel2）用于监测层各节点之间的通信，决策层的节点3（Node3）和节点4（Node4）在得到对应的目标故障排查方案之后，会向动作层的节点5（Node5）发送决策请求Descision Request，节点5在接收到决策请求之后，可以通过预先部署的prendragon模块对决策请求进行解析，得到目标故障排查方案，利用目标故障排查方案进行故障排查，即对云计算管理平台OpenStack API进行相应的动作。

实施例二：

参见图3，图3为本发明实施例中节点故障排查方法的另一种实施流程图，该方法可以包括以下步骤：

S301：接收监测层各节点发送的通过节点中各网卡IP地址预绑定的通道，利用gossip通信协议进行通信得到的通道故障协商结果。

可以预先将监测层各节点中的各网卡IP地址预先绑定到指定的通道，监测层各节点通过自身各网卡IP地址预绑定的通道利用gossip通信协议与其他节点进行通信，得到通道故障协商结果。以图2中监测层的节点1通过通道0向节点0发起通信为例，若通道0当前不通，则节点1可以通过gossip通信协议将该通信结果发送给节点2，节点2通过通道0向节点0发起通信，若仍不能与节点0进行正常通信，说明经过节点1和节点2协商，判定节点0中与通道0绑定的网卡出现故障。

可以通过如下内容格式的配置文件对各网卡IP地址预先与预设通道进行绑定：

[通道名]

nic = 网卡名

ipa = ip地址

[通道名]

nic = 网卡名

ipa = ip地址

…

S302：从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案。

S303：为目标故障排查方案设置时间戳。

决策层节点可能为多个，各决策层节点订阅到当前集群状态（即通道故障协商结果）不是完全一致的，有的会先订阅到，有的会比较滞后，因此各决策层节点查询到目标故障排查方案的时间也是存在时间点差异的，在查得目标故障排查方案之后，可以为目标故障排查方案设置时间戳。

S304：向动作层节点发送添加时间戳后的目标故障排查方案，以使动作层节点针对同一通道故障协商结果，选取接收到的各目标故障排查方案中时间戳最小的目标故障排查方案进行故障排查。

在为目标故障排查方案设置时间戳之后，可以向动作层节点发送添加时间戳后的目标故障排查方案。动作层在接收到目标故障排查方案之后，可以读取目标故障排查方案中携带的时间戳，判断当前目标故障排查方案对应的时间戳是否为同一通道故障协商结果对应的各目标故障排查方案中时间戳最小的故障排查方案，若是，则采取目标故障排查方案进行故障排查，若不是，则说明针对相应的通道故障协商结果已经进行过故障排查，不需要做任何处理，从而防止重复执行故障排查的动作。

S305：接收故障排查方案调整指令。

当需要对决策矩阵进行调整时，可以向决策层节点发送接收故障排查方案调整指令，决策层节点接收故障排查方案调整指令。

S306：根据故障排查方案调整指令对决策矩阵进行调整操作。

在接收到故障排查方案调整指令之后，可以对故障排查方案调整指令进行解析，根据解析结果对决策矩阵进行调整操作，从而使得决策矩阵能够根据需要进行更新。

相应于上面的方法实施例，本发明实施例还提供了一种节点故障排查装置，下文描述的节点故障排查装置与上文描述的节点故障排查方法可相互对应参照。

参见图4，图4为本发明实施例中一种节点故障排查装置的结构框图，该装置可以包括：

结果接收模块41，用于接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；

方案查找模块42，用于从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案；其中，决策矩阵中预存有各通道故障协商结果与各故障排查方案之间的对应关系；

方案发送模块43，用于向动作层节点发送目标故障排查方案，以使动作层节点利用目标故障排查方案进行故障排查。

应用本发明实施例所提供的装置，接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案；向动作层节点发送目标故障排查方案，以使动作层节点利用目标故障排查方案进行故障排查。通过预先为监测层各节点设置通过gossip通信协议进行通信的通道，并在决策层节点中预先设置决策矩阵，使得监测层各节点通过预设通道，利用gossip通信协议进行通信得到故障协商结果，通过监测层各节点之间的协商一致性，较大地提升了故障判定结果准确性，通过设置精细可控的决策矩阵，使得查得的目标故障排查方案进行更加准确有效，较大地降低了云主机被误杀的概率。

在本发明的一种具体实施方式中，结果接收模块41具体为接收监测层各节点发送的通过节点中各网卡IP地址预绑定的通道，利用gossip通信协议进行通信得到的通道故障协商结果的模块。

在本发明的一种具体实施方式中，还包括：

时间戳设置模块，用于在从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案之后，为目标故障排查方案设置时间戳；

方案发送模块43具体为向动作层节点发送添加时间戳后的目标故障排查方案，以使动作层节点针对同一通道故障协商结果，选取接收到的各目标故障排查方案中时间戳最小的目标故障排查方案进行故障排查的模块。

在本发明的一种具体实施方式中，还包括：

指令接收模块，用于接收故障排查方案调整指令；

矩阵调整模块，用于根据故障排查方案调整指令对决策矩阵进行调整操作。

相应于上面的方法实施例，参见图5，图5为本发明所提供的节点故障排查设备的示意图，该设备可以包括：

存储器51，用于存储计算机程序；

处理器52，用于执行上述存储器51存储的计算机程序时可实现如下步骤：

接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果；从预存的决策矩阵中查找与通道故障协商结果对应的目标故障排查方案；向动作层节点发送目标故障排查方案，以使动作层节点利用目标故障排查方案进行故障排查。

对于本发明提供的设备的介绍请参照上述方法实施例，本发明在此不做赘述。

相应于上面的方法实施例，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下步骤：

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种节点故障排查方法，其特征在于，包括：

为所述目标故障排查方案设置时间戳；

向动作层节点发送添加时间戳后的目标故障排查方案，以使所述动作层节点在接收到目标故障排查方案之后，读取目标故障排查方案中携带的时间戳，判断当前目标故障排查方案对应的时间戳是否为同一通道故障协商结果对应的各目标故障排查方案中时间戳最小的故障排查方案，若是，则采取目标故障排查方案进行故障排查，若不是，则说明针对相应的通道故障协商结果已经进行过故障排查，不需要做任何处理；

接收故障排查方案调整指令；

2.根据权利要求1所述的节点故障排查方法，其特征在于，接收监测层各节点发送的通过预设通道利用gossip通信协议进行通信得到的通道故障协商结果，包括：

3.一种节点故障排查装置，其特征在于，包括：

时间戳设置模块，用于为所述目标故障排查方案设置时间戳；

方案发送模块，用于向动作层节点发送添加时间戳后的目标故障排查方案，以使所述动作层节点在接收到目标故障排查方案之后，读取目标故障排查方案中携带的时间戳，判断当前目标故障排查方案对应的时间戳是否为同一通道故障协商结果对应的各目标故障排查方案中时间戳最小的故障排查方案，若是，则采取目标故障排查方案进行故障排查，若不是，则说明针对相应的通道故障协商结果已经进行过故障排查，不需要做任何处理；

指令接收模块，用于接收故障排查方案调整指令；

4.根据权利要求3所述的节点故障排查装置，其特征在于，所述结果接收模块具体为接收监测层各节点发送的通过节点中各网卡IP地址预绑定的通道，利用gossip通信协议进行通信得到的通道故障协商结果的模块。

5.一种节点故障排查设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至2任一项所述节点故障排查方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述节点故障排查方法的步骤。