CN117499206A

CN117499206A - 一种通信异常处理方法及计算设备

Info

Publication number: CN117499206A
Application number: CN202210886275.4A
Authority: CN
Inventors: 刘国霞; 梁永贵; 黄焰
Original assignee: XFusion Digital Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-02-02

Abstract

本申请公开了一种通信异常处理方法及计算设备，涉及分布式技术领域，当节点之间路径不可达时，能够使得节点正常通信，避免系统业务受到影响。方法包括：当第一节点在确定第一节点与第二节点之间路径不可达时，从至少一个控制备节点中确定目标控制备节点；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；第一节点通过目标控制备节点向第二节点发送目标消息。

Description

一种通信异常处理方法及计算设备

技术领域

本申请涉及分布式技术领域，尤其涉及一种通信异常处理方法及计算设备。

背景技术

在分布式系统(例如：分布式存储系统)中，基于控制网络和业务网络隔离的背景，当业务进程所在的节点或控制主进程所在的节点的防火墙或路由表等出现异常，使得业务进程与控制主进程之间无法通信，此时控制主进程隔离该业务进程或者所有业务进程，被隔离的业务进程无法正常处理业务，导致业务中断，系统性能下降。

发明内容

本申请提供了一种通信异常处理方法及计算设备，当节点之间路径不可达时，能够使得节点正常通信，避免系统业务受到影响。

为实现上述技术目的，本申请采用如下技术方案：

第一方面，本申请实施例提供了一种通信异常处理方法，应用于分布式系统，方法包括：当第一节点在确定第一节点与第二节点之间路径不可达时，从至少一个控制备节点中确定目标控制备节点；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；第一节点通过目标控制备节点向第二节点发送目标消息。

可以理解的是，当第一节点和第二节点路径不可达导致无法通信时，该方法可以确保第一节点和第二节点之间即使路径不可达也能够正常通信，避免系统业务受到影响。

在一种实现方式中，第一节点向第二节点发送第一消息；在发送第一消息之后的预设时间内，如果第一节点在没有接收到第二节点针对第一消息的响应消息，则确定第一节点与第二节点之间路径不可达。

可以理解的是，通过第一节点给第二节点发送消息的方式确定第一节点和第二节点之间路径是否可达的方法，能够快速判断出第一节点和第二节点是否可以通信，提高系统效率。

在另一种实现方式中，从至少一个控制备节点中确定目标控制备节点，包括：第一节点基于第一节点的目标国际互连协议IP转发表，从至少一个控制备节点中确定目标控制备节点；其中，第一节点的目标IP转发表包括至少一个通信路径，通信路径包括第一节点的IP地址，第一节点的下一跳节点的IP地址，以及第一节点的消息经下一跳节点到达第二节点的跳数，下一跳节点不是第二节点。

可以理解的是，确定目标控制备节点的方法有多种，其中，通过IP转发表的可以快速确定与第一节点连接的控制备节点的IP地址。该方法简单高效，能提高系统工作效率。

在另一种实现方式中，目标控制备节点是至少一个控制备节点中，第一节点的消息经下一跳节点到达第二节点的跳数最少的控制备节点。

可以理解的是，基于IP转发表中控制备节点的跳数选择目标控制备节点的方法，可以选择最近的通信路径来转发消息，节约消息转发时间。

在另一种实现方式中，当第一节点在确定第一节点与第二节点之间路径不可达时，方法还包括：第一节点从第一节点的当前IP转发表中删除从第一节点直达第二节点的通信路径，得到第一节点的目标IP转发表。

可以理解的是，将IP转发表中不可达通信路径删除，避免第一节点在查询IP转发表时选择错误路径，该方法能够减少无效工作流程，提高通信路径选择效率和正确率。

在另一种实现方式中，第一节点通过目标控制备节点接收第二节点发送的目标消息的响应消息。

可以理解的是，该方法中第二节点在向第一节点发送目标消息的响应消息时，直接使用目标控制备节点作为下一跳节点，减少从至少一个控制备节点中选择目标控制备节点的环节，提高消息发送效率。

第二方面，本申请实施例提供了一种通信异常处理方法，应用于分布式系统，方法包括：第二节点接收到目标控制备节点转发的来自第一节点的目标消息；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；第二节点通过目标控制备节点向第一节点发送目标消息的响应消息。

在另一种实现方式中，第二节点接收到目标控制备节点转发的来自第一节点的目标消息之后，方法还包括：第二节点从第二节点的当前IP转发表中删除从第二节点直达第一节点的通信路径，得到第二节点的目标IP转发表；其中，第二节点的目标IP转发表包括至少一个通信路径，通信路径包括第二节点的IP地址，第二节点的下一跳节点的IP地址，以及第二节点的消息经下一跳节点到达第二节点的跳数，下一跳节点不是第二节点。

可以理解的是，第二节点在接收到由目标控制备节点转发的第一节点的目标消息时，删除IP转发表中第二节点到第一节点的通信路径，在后续发送消息时，可以直接选择控制备节点转发消息，提高消息发送效率。

第三方面，本申请实施例提供一种通信异常处理装置，应用于分布式系统，其中，通信异常处理装置应用于第一方面或第一方面中任一种可能的设计方式的方法的各个模块。

在一种实现方式中，上述通信异常处理装置，应用于分布式系统，通信异常处理装置包括：确定模块，用于当第一节点在确定第一节点与第二节点之间路径不可达时，从至少一个控制备节点中确定目标控制备节点；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；发送模块，用于第一节点通过目标控制备节点向第二节点发送目标消息。

在一种实现方式中，发送模块还用于，第一节点向第二节点发送第一消息；确定模块还用于，在发送第一消息之后的预设时间内，如果第一节点在没有接收到第二节点针对第一消息的响应消息，则确定第一节点与第二节点之间路径不可达。

在另一种实现方式中，确定模块具体用于，第一节点基于第一节点的目标国际互连协议IP转发表，从至少一个控制备节点中确定目标控制备节点；其中，第一节点的目标IP转发表包括至少一个通信路径，通信路径包括第一节点的IP地址，第一节点的下一跳节点的IP地址，以及第一节点的消息经下一跳节点到达第二节点的跳数，下一跳节点不是第二节点。

在另一种实现方式中，通信异常处理装置还包括IP转发表更新模块，IP转发表更新模块还用于，第一节点从第一节点的当前IP转发表中删除从第一节点直达第二节点的通信路径，得到第一节点的目标IP转发表。

在另一种实现方式中，通信异常处理装置还包括接收模块，接收模块用于第一节点通过目标控制备节点接收第二节点发送的目标消息的响应消息。

第四方面，本申请实施例提供一种通信异常处理装置，应用于分布式系统，其中，通信异常处理装置应用于第二方面或第二方面中任一种可能的设计方式的方法的各个模块。

上述通信异常处理装置，应用于分布式系统，通信异常处理装置包括：

在一种实现方式中，接收模块，用于第二节点接收到目标控制备节点转发的来自第一节点的目标消息；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；发送模块，用于第二节点通过目标控制备节点向第一节点发送目标消息的响应消息。

在一种实现方式中，通信异常处理装置还包括IP转发表更新模块，IP转发表更新模块用于第二节点从第二节点的当前IP转发表中删除从第二节点直达第一节点的通信路径，确定第二节点的目标IP转发表；其中，第二节点的目标IP转发表包括至少一个通信路径，通信路径包括第二节点的IP地址，第二节点的下一跳节点的IP地址，以及第二节点的消息经下一跳节点到达第二节点的跳数，下一跳节点不是第二节点。

第五方面，本申请实施例提供一种第一计算设备，包括处理器和发送器。处理器，用于确定当第一计算设备与第二计算设备之间路径不可达时，从至少一个控制备计算设备中确定目标控制备计算设备；其中，第一计算设备和第二计算设备中的其中一个是业务计算设备，另一个是控制主计算设备；或者，第一计算设备和第二计算设备分别是相邻级别的控制主计算设备；发送器，用于通过目标控制备计算设备向第二计算设备发送目标消息。

示例性的，上述第一计算设备包括但不限于如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等；上述处理器可以是CPU，上述发送器可以是网络接口。

第六方面，本申请实施例提供一种第二计算设备，包括接收器和发送器。接收器，用于接收目标控制备计算设备转发的来自第一计算设备的目标消息；其中，第一计算设备和第二计算设备中的其中一个是业务计算设备，另一个是控制主计算设备；或者，第一计算设备和第二计算设备分别是相邻级别的控制主计算设备；发送器，用于通过目标控制备计算设备向第一计算设备发送目标消息的响应消息。

示例性的，上述第二计算设备包括但不限于如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等；上述接收器和发送器可以是网络接口。

第七方面，本申请实施例提供一种通信异常处理装置，包括存储器和处理器。存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。当处理器执行该计算机指令时，使得该通信异常处理装置执行如第一方面及其任一种可能的设计方式的方法；或者，当处理器执行该计算机指令时，使得该通信异常处理装置执行如第二方面及其任一种可能的设计方式的方法。

示例性的，上述通信异常处理装置包括但不限于如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等。

第八方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令。其中，当计算机指令在通信异常处理装置上运行时，使得该通信异常处理装置执行如第一方面及其任一种可能的设计方式的方法；或者，当计算机指令在通信异常处理装置上运行时，使得该通信异常处理装置执行如第二方面及其任一种可能的设计方式的方法。

第九方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令。其中，当计算机指令在通信异常处理装置上运行时，使得该通信异常处理装置执行如第一方面及其任一种可能的设计方式的方法；或者，当计算机指令在通信异常处理装置上运行时，使得该通信异常处理装置执行如第二方面及其任一种可能的设计方式的方法。

本申请中第三方面到第九方面及其各种实现方式的具体描述，可以参考第一方面或第二方面及其各种实现方式中的详细描述；并且，第三方面到第九方面及其各种实现方式的有益效果，可以参考第一方面或第二方面及其各种实现方式中的有益效果分析，此处不再赘述。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为申请实施例提出的一种分布式系统架构图；

图2为本申请实施例提供的通信异常处理方法所涉及的一种实施环境示意图；

图3为本申请实施例提供的通信异常处理方法所涉及的另一种实施环境示意图；

图4为本申请实施例提供的通信异常处理方法所涉及的另一种实施环境示意图；

图5为本申请实施例提供的一种通信异常处理方法的交互图；

图6为本申请实施例提供的一种节点的IP转发表示意图；

图7为本申请实施例提供的第一节点更新IP转发表示意图；

图8为本申请实施例提供的一种节点更新IP转发表示意图；

图9为本申请实施例提供的一种目标消息转发示意图；

图10为本申请实施例提供的第二节点更新IP转发表示意图；

图11为本申请实施例提供的一种节点通信交互图；

图12为本申请实施例提供的另一种节点通信交互图；

图13为本申请实施例提供的另一种节点通信交互图；

图14为本申请实施例提供的另一种节点通信交互图；

图15为本申请实施例提供的一种通信异常处理装置的结构示意图；

图16为本申请实施例提供的另一种通信异常处理装置的结构示意图；

图17为本申请实施例提供的另一种通信异常处理装置的结构示意图。

具体实施方式

以下，术语“第一”、“第二”和“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。

如图1所示，为一种分布式系统架构图。在硬件实现上，该分布式系统架构中部署了多组机架(存放计算设备的机柜)，每组机架包含机架11、12和13，每个机架中安装了多个计算设备(如Node0～Node6)，本实施例中计算设备可以为服务器，每个计算设备又称为节点。系统中每组机架下部署了控制节点、业务节点和管理节点，示例的，如图1所示，控制节点对应图1中多个Node0，业务节点对应图1中Node1～Node6，管理节点对应图1中管理主节点和管理备节点。其中，控制节点上部署有控制进程，用于监控业务进程或其他控制进程。业务节点上部署有业务进程，用于处理客户数据。管理进程部署在管理节点上，用于负责系统的告警、监控、日志、配置等操作维护功能。

当然，在其他实施例中，计算设备还可以为主机、板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。

在网络划分上，该分布式系统架构包含了控制网路、业务网络和管理网络。控制网络是由控制集群所在的节点(即控制节点)组成的网络，示例的，如图1所示，控制网络由多个Node0通过EoR和/或ToR接线方式组成。控制网络用于监控集群成员状态并维护集群使得集群中各个进程正常工作。业务网络是由业务集群所在的节点(即业务节点)组成的网络，示例的，如图1所示，业务网络由多个Node1～Node6通过EoR和/或ToR接线方式组成。业务网络与客户应用系统对接，通过小型计算机系统接口(small computer system interface，SCSI)和互联网小型计算机系统接口(internet small computer system interface，iSCSI)接口访问存储。管理网络是由管理集群所在的节点(即管理节点)组成的网络，示例的，如图1所示，管理网络由管理主节点和管理备节点通过EoR和/或ToR接线方式组成。管理网络与客户管理网络对接，用于系统管理和维护。

控制集群(Controller Cluster)：由用来监控业务进程或其它控制进程的多个控制进程组成的集群。控制集群中有控制主进程、控制备进程和成员控制进程。控制主进程可以监控业务进程和其他控制进程的心跳消息来监控业务进程和其他控制进程是否能够正常工作。控制集群为去中心化架构，控制主进程故障时，由控制备进程投票选举产生新主。一般的，为一个控制主进程安排两个控制备进程。如图1所示，部署了控制主进程的节点称为控制主节点，部署了控制备进程的节点称为控制备节点，本申请实施例中控制主进程和控制备进程在不同的节点上。

业务集群(Data Cluster)：由处理客户数据的业务进程组成的集群，业务进程间存在故障倒换(failover)、故障恢复(failback)的关系。例如，当一个业务进程出现故障时，其处理的业务可以倒换到其他节点上，当该业务进程故障恢复后，其处理的业务可以恢复正常。如图1所示，一般的，每组机架下部署的业务节点中的业务进程可以由同一个机架上控制节点中的控制主进程控制。

管理集群(Manager Cluster)：由管理进程组成的集群，管理进程分布在管理节点上，负责系统的告警、监控、日志、配置等操作维护功能。一个分布式系统可以部署2个管理节点，分别为管理主节点和管理备节点，可以独立部署在单独的节点上，也可以与计算存储融合节点合并部署。

控制集群、业务集群和管理集群所在的节点通过EoR和/或ToR接线方式组合进行组网。如图1所示，控制集群、业务集群和管理集群所在的节点之间的网络是互相隔离的，互相之间通信需要通过各种通信协议。

EoR(End of Row)：一种接线方式，将交换机集中安装在1～2个机架内，通过水平缆线以永久链路方式连接设备机架内的主机/服务器/小型机设备。

ToR(Top of Rack)：一种接线方式，是对EOR的扩展，它在每个服务器机架上部署1-2台接入式交换机，服务器通过线缆接入到机柜内的交换机，交换机的上行端口通过线缆接入到网络机柜中的汇聚交换机。

每个集群中包含集群主，集群备和集群成员。集群主为领导者(leader)，负责投票的发起和决议，更新系统状态。集群备为跟随者(follower)，用于接收客户请求并向客户返回结果，在选主过程中参与投票。集群成员为观察者(observer)，用于与客户端连接，将写请求转发给集群主，不参与选主投票，只同步集群主的状态，集群成员用于扩展系统，提高读写速度。本申请实施例中，领导者和观察者所在节点对应第一节点或第二节点，跟随者所在节点对应控制备节点。

在分布式系统中，基于控制网络和业务网络隔离的背景，当业务进程所在的节点的防火墙或路由表出现异常，导致该业务进程和与其连接的控制主进程之间无法通信(即业务节点和与其连接的控制主节点)，示例的，如图1所示，任意一个机架11中，如控制主进程所在的Node0节点和业务进程所在的Node1节点之间无法通信，此时该控制主进程隔离该业务进程，从而导致该业务进程无法处理业务，系统性能下降。当由于控制主进程所在的节点的防火墙或路由表出现异常，导致该控制主进程和与其连接的多个业务进程之间无法通信，此时该控制主进程隔离与其连接的多个业务进程，该多个业务进程发生异常导致业务中断。

基于此，本申请实施例提供了一种通信异常处理方法，该方法中当第一节点和第二节点之间的路径不可达时，为保证各个节点可以正常工作，通过选择目标控制备节点将第一节点的消息转发给第二节点。可以理解的是，该方法可以确保第一节点和第二节点之间即使路径不可达也能够正常通信，避免系统业务受到影响。

本申请实施例提出的方法适用于所有分布式系统，上述图1所示为一种分布式系统架构图，该架构适用于包括但不限于分布式存储系统、分布式数据库系统及分布式计算系统等。

下面将结合附图对本申请实施例的实施方式进行详细描述。

请参考图2，其示出本申请实施例提供的通信异常处理方法所涉及的一种实施环境示意图。该方法应用于分布式系统，如图2所示，该实施环境可以包括：控制主节点110，控制备节点120和业务节点130。

控制主节点110分别与控制备节点120和业务节点130连接，控制备节点120与业务节点130连接。控制主节点110中部署有控制主进程，控制备节点120中部署有控制备进程，业务节点130中部署有业务进程。控制主进程和控制备进程是控制集群中的进程，业务进程是业务集群中的进程。控制主进程、控制备进程和业务进程可以在同一个节点上，也可以在不同节点上。本申请实施例中，控制主进程、控制备进程和业务进程在不同节点上。例如，结合图1，控制主节点110和控制备节点120可以分别是机架中的控制主节点和控制备节点，业务节点130可以是机架中的业务节点。示例的，控制主节点110和控制备节点120分别对应一组机架的机架11、机架12、机架13中的各个Node0节点。业务节点130对应一组机架的机架11、机架12、机架13中的各个Node1～Node6节点。

本申请实施例包括至少一个控制备节点120和至少一个业务节点130，控制主节点110与每个控制备节点120和每个业务节点130均分别连接，每个控制备节点120与每个业务节点130均分别连接。本申请实施例对控制主节点110、控制备节点120和业务节点130的具体数量不做限定。

控制主节点110用于向业务节点130发送控制消息。其中，控制消息用于控制主节点110控制业务节点130进行故障倒换、故障恢复等。

业务节点130用于向控制主节点110发送心跳消息，心跳消息用于使得控制主节点110感知业务节点130是否出现故障。业务节点130还用于在控制主节点110的控制下处理业务。

控制备节点120用于在控制主节点110故障时，代替控制主节点110工作。

在一种实施例中，系统中业务节点在处理业务时，为提高业务处理效率、功能划分更明确，根据业务不同，将控制业务节点的控制节点进行分级，可以分为一级控制主节点和二级控制主节点，二级控制主节点由一级控制主节点控制。本申请实时例对控制主节点的分级层次不做限定。当然，还可以包括三级或四级控制主节点，下文中以包含一级控制主节点和二级控制主节点为例进行说明。

请参考图3，其示出本申请实施例提供的通信异常处理方法所涉及的另一种实施环境示意图。如图3所示，该实施环境可以包括：一级控制主节点210，一级控制备节点220，二级控制主节点230。

一级控制主节点210分别与一级控制备节点220和二级控制主节点230连接，一级控制备节点220与二级控制主节点230连接。一级控制主节点210中部署有一级控制主进程，一级控制备节点220中部署有一级控制备进程，二级控制主节点230中部署有二级控制主进程。一级控制主进程、一级控制备进程和二级控制主进程均是控制集群中的控制进程。

一级控制进程、一级控制备进程和二级控制进程可以在同一个节点中，也可以在不同的节点中，本申请实施例中，一级控制进程、一级控制备进程和二级控制进程分别在不同节点中。例如，结合图1，一级控制节点210、一级控制备节点220和二级控制主节点230可以分别是机架中的不同控制节点，示例的，一级控制节点210、一级控制备节点220和二级控制主节点230分别对应一组机架的机架11、机架12、机架13中的各个Node0节点。本申请实施例对一级控制主节点210、一级控制备节点220和二级控制主节点230的具体数量不做限定。

一级控制主节点210用于向二级控制主节点230发送控制消息。其中，控制消息用于让二级控制主节点在一级控制主节点的控制下选主。

二级控制主节点230用于向一级控制主节点210发送心跳消息，心跳消息用于使得一级控制主节点210感知二级控制主节点230是否出现故障。

一级控制备节点220用于在一级控制主节点210故障时，代替一级控制主节点210工作。

可以理解的是，图3所示的实施环境中还可以包含一级业务节点240、二级业务节点260及二级控制备节点250，具体分级管理架构如图4所示。图4中，一级控制主节点210还与一级业务节点240连接，一级业务节点240向一级控制主节点210发送心跳消息并由其控制；二级控制主节点230还与二级控制备节点250和二级业务节点260连接，二级控制备节点250和二级业务节点260连接，二级业务节点260向二级控制主节点230发送心跳消息并由其控制。其中，本申请实施例对一级业务节点240、二级控制备节点250和二级业务节点260的具体数量不做限定，一般的，系统为一个控制主节点配置两个控制备节点。当除一级控制主节点210外，各个节点均有多个时，每个一级业务节点240均与一级控制主节点210、一级控制备节点220连接，每个二级控制主节点230与一级控制备节点220、及其控制的每个二级控制备节点250、每个二级业务节点260连接。每个二级控制备节点250分别与配置的二级控制主节点230、每个一级控制备节点220、及每个由二级控制主节点230控制的二级业务节点260连接。

请参考图5，为本申请实施例提供的一种通信异常处理方法的交互图。该方法应用于分布式系统。如图5所示，该方法可以包括S101-S106。

S101：第一节点向第二节点发送第一消息。其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点。或者，第一节点和第二节点分别是相邻级别的控制主节点。

在一个示例中，第一节点是业务节点，第二节点是控制主节点，第一消息包括：心跳消息或统计消息。

在另一个示例中，第一节点是控制主节点，第二节点是业务节点，第一消息包括：控制消息，例如：故障倒换，故障恢复等。

相邻级别指级别毗邻，例如：N级和N+1级，N大于等于1。

在一个示例中，第一节点是一级控制主节点，第二节点是二级控制主节点，第一消息包括：控制消息或查询消息，例如：控制消息用于控制二级控制节点选主。

在另一个示例中，第一节点是二级控制主节点，第二节点是一级控制主节点，第一消息包括：心跳消息。

S102：在发送第一消息之后的预设时间内，如果第一节点在没有接收到第二节点针对第一消息的响应消息，则确定第一节点与第二节点之间路径不可达。

预设时间，为系统预先设置的一个时间，例如：预设时间可以设置为10s。该预设时间可以是由用户根据需求在系统中自定义设置的一个时间。

第一节点在没有接收到第二节点针对第一消息的响应消息，可能的原因包括：第一节点出现异常导致第一消息发送不出去或接收不到第二节点发送的响应消息，或第二节点出现异常导致第二节点无法接收到第一消息或能接收到第一消息但响应消息发送不出去等。

异常可以包括：防火墙异常或路由表异常。例如：防火墙数据丢失或者路由表中缺失路由数据等。

第一节点与第二节点之间路径不可达，即第一节点与第二节点之间无法直接通信。

需要说明的是，S102是第一节点确定第一节点与第二节点之间路径不可达的一种具体实现方式，当然还可以通过其他方式确定。例如：第一节点或第二节点上的连接管理模块定期查询节点连接状态，如果路径不可达，则该模块上报该事件，此时，第一节点或第二节点确定第一节点与第二节点之间的路径不可达。

S103：当第一节点在确定第一节点与第二节点之间路径不可达时，从至少一个控制备节点中确定目标控制备节点。

具体的，S103可以包括S103A-S103B：

S103A：当第一节点在确定第一节点与第二节点之间路径不可达时，第一节点从第一节点的当前IP转发表中删除从第一节点到第二节点的通信路径，得到第一节点的目标IP转发表。

可选的，第一节点的目标IP转发表包括至少一个通信路径，通信路径包括第一节点的IP地址，第一节点的下一跳节点的IP地址，以及第一节点的消息经下一跳节点到达第二节点的跳数。

可以理解的是，从上述目标IP转发表可以看出，由于已知第一节点的消息经下一跳节点到达第二节点的跳数，因此，目标IP转发表包含第一节点的消息经下一跳节点到达第二节点的信息。

每个节点都配置有IP转发表，用于保存该节点的IP和与之直接通信的节点(标记为“通信节点”)的IP地址及该节点经过下一跳节点到达通信节点之间的跳数。本申请实施例提出的IP转发表包括但不限于上述内容。

在一个示例中，如图6所示，图6中含有控制主节点IP01、控制备节点IP02、控制备节点IP03和业务节点IP11，以及各个节点对应的IP转发表。以图6所示的业务节点IP11的IP转发表为例说明。通过IP11的当前IP转发表可知，当第一节点的消息直达第二节点时，跳数为1；当第一节点的消息经过控制备节点IP02或IP03转发至第二节点时，跳数为2。

在一个示例中，图6中包含的节点中，当第一节点与第二节点之间路径不可达时，第一节点从第一节点的当前IP转发表中删除从第一节点到第二节点的通信路径后得到目标IP转发表，如图7所示，图7包含第一节点的目标IP转发表示意图。

后续通信过程中，当第一节点到第二节点的直达路径恢复后，则第一节点从第一节点的IP转发表中增加第一节点到第二节点的通信路径。

当系统中部署新节点时，新节点生成IP转发表，新节点的IP转发表中包含与新节点通信节点的通信路径，另外，与新节点通信的节点均各自在各自的IP转发表中增加与新节点的通信路径。

在一个示例中，图6所示的系统中增加业务节点IP12，则各个节点在各自IP转发表中增加与业务节点IP12的通信路径。如图8所示，图8包含IP12的IP转发表和各节点的IP转发表增加通信路径后的示意图。

S103B：第一节点基于第一节点的目标IP转发表，从至少一个控制备节点中确定目标控制备节点。

如果系统中只有一个控制备节点，则选择该控制备节点为目标控制备节点。

如果系统中有至少两个控制备节点，且第一节点的消息经过至少两个控制备节点到达第二节点的跳数不一样时，将第一节点的消息经下一跳节点到达第二节点的跳数最少的控制备节点作为目标控制备节点；

该方法通过第一节点IP转发表中第一节点的消息至第二节点的跳数，来选择跳数少的路径中的控制备节点转发消息，可以避免因跳数过多带来的消息转发速度的影响，有效提高消息转发效率。

如果第一节点的消息经过至少两个控制备节点到达第二节点的跳数一样时，可以随机选择一个控制备节点作为目标控制备节点，或者，也可以基于负载均衡原则，从中选择负载较少的一个控制备节点作为目标控制备节点。

该选择的方法在跳数一样的基础上，基于负载均衡原则，使得各个控制备节点上的负载保持均衡，避免其中一个控制备节点因负载过大而影响消息转发速度，该方法进一步有效提高消息转发效率。

S104：第一节点通过目标控制备节点向第二节点发送目标消息。

在一种实现方式中，第一节点通过查询目标IP转发表后，选择目标控制备节点作为下一跳节点，此时，第一节点将第二节点IP和下一跳节点IP与目标消息封装到一起。目标控制备节点接收到封装后的目标消息，将目标消息封装的下一跳节点IP修改为第二节点IP。如图9所示，为目标消息从第一节点经目标控制备节点发送到第二节点的过程示意图。

S105：第二节点接收到通过目标控制备节点发送的第一节点的目标消息。

此时，第二节点从第二节点的当前IP转发表中删除从第二节点直达第一节点的通信路径，得到第二节点的目标IP转发表。

在一个示例中，图6所示包含的节点中，当第二节点从第二节点的当前IP转发表中删除从第二节点到第一节点的通信路径后得到的第二节点的目标IP转发表，如图10所示，图10包含第二节点的目标IP转发表示意图。

后续第二节点从目标IP转发表中选择其中一个路径向第一节点发送第二消息时，可以不用再重复选择到第一节点直达的通信路径了，优先选择目标控制备节点转发第二消息。若该目标控制备节点所在路径出现异常，则基于跳数和负载均衡原则(若有负载均衡)选择新的路径。该方法可以提高第二节点向第一节点发送第二消息时的发送效率。

S106：第二节点通过目标控制备节点向第一节点发送目标消息的响应消息。

该方法中第二节点在向第一节点发送目标消息的响应消息时，直接使用目标控制备节点作为下一跳节点，减少从至少一个控制备节点中选择目标控制备节点的环节，提高消息发送效率。

本申请实施例提供的一种通信异常处理方法，该方法中当第一节点和第二节点的路径不可达时，为保证节点可以正常工作，通过选择目标控制备节点将第一节点的消息转发给第二节点。可以理解的是，该方法可以确保第一节点和第二节点之间即使路径不可达也能够正常通信，避免系统业务受到影响。

以下通过几个具体实施例，对上文提供的一种通信异常处理方法进行说明。

实施例1：

如图11所示，为本申请实施例提供的一种通信异常处理方法的示意图。图11所示的方法可以应用于如图2所示的实施环境中，图11所示的方法包括：

S201：业务节点向控制主节点发送心跳消息。

S202：业务节点在发送该心跳消息之后的预设时间内，没有接收到控制主节点针对该心跳消息的响应消息，则从至少一个控制备节点中确定目标控制备节点。

其中，确定目标控制备节点的方法，可以参考上述S103A-S103B，此处不再赘述。

S203：业务节点向目标控制备节点发送心跳消息。

S204：目标控制备节点向控制主节点转发该心跳消息。

S205：控制主节点接收到该心跳消息后，向目标控制备节点回复该心跳消息的响应消息。

S206：目标控制备节点将该响应消息转发给业务节点。

S201-S206相关描述参考S101-S106，此处不再赘述。

该方法，业务节点在发送该心跳消息之后的预设时间内，没有接收到控制主节点针对该心跳消息的响应消息时，通过选择目标控制备节点向控制主节点转发心跳消息，使得控制主节点保活业务节点，从而使得系统业务不受影响。

实施例2：

如图12所示，为本申请实施例提供的一种通信异常处理方法的示意图。图12所示的方法可以应用于如图2所示的实施环境中，图12所示的方法包括：

S301：控制主节点向业务节点发送控制消息。

S302：控制节点在发送该控制消息之后的预设时间内，没有接收到业务节点针对该控制消息的响应消息，则从至少一个控制备节点中确定目标控制备节点。

S303：控制主节点向业务节点发送控制消息。

S304：目标控制备节点向业务节点转发该控制消息。

S305：业务节点接收到该控制消息后，向目标控制备节点回复该控制消息的响应消息。

S306：目标控制备节点将该响应消息转发给控制主节点。

S301-S306相关描述参考S101-S106，此处不再赘述。

该方法，控制主节点通过选择目标控制备节点向业务节点转发控制消息，使得业务节点可以完成故障倒换或故障恢复等工作，同时业务节点的业务不发生中断。

实施例3：

如图13所示，为本申请实施例提供的一种通信异常处理方法的示意图。图13所示的方法可以应用于如图2所示的实施环境中，图13所示的方法包括：

S401：二级控制主节点向一级控制主节点发送心跳消息。

S402：二级控制主节点在发送该心跳消息之后的预设时间内，没有接收到一级控制主节点针对该心跳消息的响应消息，则从至少一个一级控制备节点中确定目标控制备节点。

S403：二级控制主节点向目标控制备节点发送心跳消息。

S404：目标控制备节点向一级控制主节点转发该心跳消息。

S405：一级控制主节点接收到该心跳消息后，向目标控制备节点回复该心跳消息的响应消息。

S406：目标控制备节点将该响应消息转发给二级控制主节点。

S401-S406相关描述参考S101-S106，此处不再赘述。

该方法，二级控制主节点通过选择目标控制备节点向一级控制主节点转发心跳消息，使得一级控制主节点保活二级控制主节点，使得与二级控制主节点连接的二级业务节点上的业务不受影响。

实施例4：

如图14所示，为本申请实施例提供的一种通信异常处理方法的示意图。图14所示的方法可以应用于如图2所示的实施环境中，图14所示的方法包括：

S501：一级控制主节点向二级控制主节点发送控制消息。

S502：一级控制节点在发送该控制消息之后的预设时间内，没有接收到二级控制主节点针对该控制消息的响应消息，则从至少一个一级控制备节点中确定目标控制备节点。

S503：一级控制主节点向二级控制主节点发送控制消息。

S504：目标控制备节点向二级控制主节点转发该控制消息。

S505：二级控制主节点接收到该控制消息后，向目标控制备节点回复该控制消息的响应消息。

S506：目标控制备节点将该响应消息转发给一级控制主节点。

S501-S506相关描述参考S101-S106，此处不再赘述。

该方法，一级控制主节点通过选择目标控制备节点向二级控制主节点转发控制消息，使得二级控制主节点在一级控制主节点的控制下选主，同时二级控制主节点可以正常工作。

本申请实施例还提供一种通信异常处理装置300。如图15所示，为本申请实施例提供的一种通信异常处理装置300的结构示意图。

其中，通信异常处理装置300包括：确定模块310，用于当第一节点在确定第一节点与第二节点之间路径不可达时，从至少一个控制备节点中确定目标控制备节点；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；发送模块320，用于第一节点通过目标控制备节点向第二节点发送目标消息。

可选的，发送模块320还用于，第一节点向第二节点发送第一消息；确定模块310还用于，在发送第一消息之后的预设时间内，如果第一节点在没有接收到第二节点针对第一消息的响应消息，则确定第一节点与第二节点之间路径不可达。

可选的，确定模块310具体用于，第一节点基于第一节点的目标国际互连协议IP转发表，从至少一个控制备节点中确定目标控制备节点；其中，第一节点的目标IP转发表包括至少一个通信路径，通信路径包括第一节点的IP地址，第一节点的下一跳节点的IP地址，以及第一节点的消息经下一跳节点到达第二节点的跳数，下一跳节点不是第二节点。

可选的，目标控制备节点是至少一个控制备节点中，第一节点的消息经下一跳节点到达第二节点的跳数最少的控制备节点。

可选的，通信异常处理装置还包括IP转发表更新模块330，用于第一节点从第一节点的当前IP转发表中删除从第一节点直达第二节点的通信路径，得到第一节点的目标IP转发表。

可选的，通信异常处理装置还包括接收模块340，接收模块340用于第一节点通过目标控制备节点接收第二节点发送的目标消息的响应消息。

本申请实施例还提供另一种通信异常处理装置400，如图16所示，为本申请实施例提供的一种通信异常处理装置400的结构示意图。

其中，通信异常处理装置400包括：接收模块410，用于第二节点接收到目标控制备节点转发的来自第一节点的目标消息；其中，第一节点和第二节点中的其中一个是业务节点，另一个是控制主节点；或者，第一节点和第二节点分别是相邻级别的控制主节点；发送模块420，用于第二节点通过目标控制备节点向第一节点发送目标消息的响应消息。

可选的，通信异常处理装置400还包括IP转发表更新模块430，用于第二节点从第二节点的当前IP转发表中删除从第二节点直达第一节点的通信路径，得到第二节点的目标IP转发表；其中，第二节点的目标IP转发表包括至少一个通信路径，通信路径包括第二节点的IP地址，第二节点的下一跳节点的IP地址，以及第二节点的消息经下一跳节点到达第二节点的跳数，下一跳节点不是第二节点。

当然，本申请实施例提供的通信异常处理装置300和通信异常处理装置400包括但不限于上述模块。

图17是本申请实施例提供的另一种通信异常处理装置500的结构示意图，该通信异常处理装置500可以是如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。如图17所示，该通信异常处理装置500包括处理器501、存储器502和网络接口503。

其中，处理器501包括一个或多个CPU。该CPU可以为单核CPU(single-CPU)或多核CPU(multi-CPU)。

存储器502包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread-only memory，EPROM)、快闪存储器、或光存储器等。

可选地，处理器501通过读取存储器502中保存的指令实现本申请实施例提供的通信异常处理方法，或者，处理器501通过内部存储的指令实现本申请实施例提供的通信异常处理方法。在处理器501通过读取存储器502中保存的指令实现上述实施例中的方法的情况下，存储器502中保存实现本申请实施例提供的通信异常处理方法的指令。

网络接口503，包含发送器和接收器的一类装置，用于与其他设备或通信网络通信，可以是有线接口(端口)，例如光纤分布式数据接口(fiber distributed datainterface，FDDI)、千兆以太网接口(gigabit ethernet，GE)。或者，网络接口503是无线接口。应理解，网络接口503包括多个物理端口，网络接口503用于通信等。

可选的，网络接口503中发送器和接收器在处理器501的控制下实现本申请实施例提供的通信异常处理方法。

可选地，电子设备还包括总线504，上述处理器501、存储器502、网络接口503通常通过总线504相互连接，或采用其他方式相互连接。

在实际实现时，确定模块310、发送模块320、IP转发表更新模块330和接收模块340可以由处理器调用存储器中的计算机程序代码来实现。其具体的执行过程可参考上述方法部分的描述，这里不再赘述。

在实际实现时，接收模块410、发送模块420和IP转发表更新模块430可以由处理器调用存储器中的计算机程序代码来实现。其具体的执行过程可参考上述方法部分的描述，这里不再赘述。

本申请另一实施例还提供一种通信异常处理装置，通信异常处理装置可以是如服务器、平板电脑、桌面型、膝上型、笔记本电脑和上网本等计算设备。该通信异常处理装置包括存储器和处理器。存储器和处理器耦合；存储器用于存储计算机程序代码，计算机程序代码包括计算机指令。其中，当处理器执行该计算机指令时，使得该通信异常处理装置执行上述方法实施例所示的通信异常处理方法的各个步骤。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在通信异常处理装置上运行时，使得通信异常处理装置执行上述方法实施例所示的通信异常处理方法流程中通信异常处理装置执行的各个步骤。

本申请另一实施例还提供一种芯片系统，该芯片系统应用于通信异常处理装置。该芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从通信异常处理装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当通信异常处理装置处理器执行计算机指令时，通信异常处理装置执行上述方法实施例所示的通信异常处理方法流程中通信异常处理装置执行的各个步骤。

在本申请另一实施例中还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在通信异常处理装置上运行时，使得通信异常处理装置执行上述方法实施例所示的通信异常处理方法流程中通信异常处理装置执行的各个步骤。

上述实施例可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，上述实施例可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、服务器或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种通信异常处理方法，其特征在于，应用于分布式系统，所述方法包括：

当第一节点在确定所述第一节点与第二节点之间路径不可达时，从至少一个控制备节点中确定目标控制备节点；其中，所述第一节点和所述第二节点中的其中一个是业务节点，另一个是控制主节点；或者，所述第一节点和所述第二节点分别是相邻级别的控制主节点；

所述第一节点通过所述目标控制备节点向所述第二节点发送目标消息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一节点向所述第二节点发送第一消息；

在发送所述第一消息之后的预设时间内，如果所述第一节点在没有接收到所述第二节点针对所述第一消息的响应消息，则确定所述第一节点与所述第二节点之间路径不可达。

3.根据权利要求1或2所述的方法，其特征在于，所述从所述至少一个控制备节点中确定目标控制备节点，包括：

所述第一节点基于所述第一节点的目标国际互连协议IP转发表，从所述至少一个控制备节点中确定所述目标控制备节点；其中，所述第一节点的目标IP转发表包括至少一个通信路径，所述通信路径包括所述第一节点的IP地址，所述第一节点的下一跳节点的IP地址，以及所述第一节点的消息经所述下一跳节点到达所述第二节点的跳数，所述下一跳节点不是所述第二节点。

4.根据权利要求3所述的方法，其特征在于，所述目标控制备节点是所述至少一个控制备节点中，所述第一节点的消息经所述下一跳节点到达所述第二节点的跳数最少的控制备节点。

5.根据权利要求3或4所述的方法，其特征在于，所述当第一节点在确定所述第一节点与第二节点之间路径不可达时，所述方法还包括：

所述第一节点从所述第一节点的当前IP转发表中删除从所述第一节点直达所述第二节点的通信路径，得到所述第一节点的目标IP转发表。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

所述第一节点通过所述目标控制备节点接收所述第二节点发送的所述目标消息的响应消息。

7.一种通信异常处理方法，其特征在于，应用于分布式系统，所述方法包括：

第二节点接收到目标控制备节点转发的来自第一节点的目标消息；其中，所述第一节点和所述第二节点中的其中一个是业务节点，另一个是控制主节点；或者，所述第一节点和所述第二节点分别是相邻级别的控制主节点；

所述第二节点通过所述目标控制备节点向所述第一节点发送所述目标消息的响应消息。

8.根据权利要求7所述的方法，其特征在于，所述第二节点接收到目标控制备节点转发的来自第一节点的目标消息之后，所述方法还包括：

所述第二节点从所述第二节点的当前IP转发表中删除从所述第二节点直达所述第一节点的通信路径，得到所述第二节点的目标IP转发表；

其中，所述第二节点的目标IP转发表包括至少一个通信路径，所述通信路径包括所述第二节点的IP地址，所述第二节点的下一跳节点的IP地址，以及所述第二节点的消息经所述下一跳节点到达所述第二节点的跳数，所述下一跳节点不是所述第二节点。

9.一种第一计算设备，其特征在于，包括处理器和发送器；

所述处理器，用于确定当所述第一计算设备与第二计算设备之间路径不可达时，从至少一个控制备计算设备中确定目标控制备计算设备；其中，所述第一计算设备和所述第二计算设备中的其中一个是业务计算设备，另一个是控制主计算设备；或者，所述第一计算设备和所述第二计算设备分别是相邻级别的控制主计算设备；

所述发送器，用于通过所述目标控制备计算设备向所述第二计算设备发送目标消息。

10.一种第二计算设备，其特征在于，包括接收器和发送器；

所述接收器，用于接收目标控制备计算设备转发的来自第一计算设备的目标消息；其中，所述第一计算设备和所述第二计算设备中的其中一个是业务计算设备，另一个是控制主计算设备；或者，所述第一计算设备和所述第二计算设备分别是相邻级别的控制主计算设备；

所述发送器，用于通过所述目标控制备计算设备向所述第一计算设备发送所述目标消息的响应消息。