CN111666170A

CN111666170A - 基于分布式框架的故障节点处理方法及装置

Info

Publication number: CN111666170A
Application number: CN202010475416.4A
Authority: CN
Inventors: 顾欣; 夏龙飞; 让涛; 张家宇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-15
Anticipated expiration: 2040-05-29
Also published as: CN111666170B

Abstract

本发明提供了一种基于分布式框架的故障节点处理方法及装置，包括：通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点；根据健康状态变化情况对对应的提供方节点执行相应的处理操作，处理操作包括隔离及恢复。本申请无需通过注册中心进行网络广播将故障节点推送，而是在消费方节点和提供方节点之间建立故障消息通道，直接将发生故障的提供方节点告知消费方，由消费方节点主动对该故障节点进行隔离，不会造成巨大的网络压力并且不会影响在途请求。

Description

基于分布式框架的故障节点处理方法及装置

技术领域

本申请属于分布式微服务技术领域，具体地讲，涉及一种基于分布式框架的故障节点处理方法及装置。

背景技术

随着分布式微服务的流行，分布式集群服务框架越来越庞大，如何在复杂的调用链路中隔离故障的节点就变的越来越重要。传统的分布式服务节点隔离需要依赖与注册中心的下线机制。即该节点下线，然后由注册中心广播事件通知所有节点，该节点的下游方节点从路由列表中删除该节点。但是该种广播方法会造成巨大的网络压力，特别是当集群中的下游节点较多时，会造成网络风暴引发风险。

发明内容

本申请提供了一种基于分布式框架的故障节点处理方法及装置，以至少解决现有技术中分布式微服务框架中的故障节点隔离需要通过注册中心进行光从从而造成网络压力过大的问题。

根据本申请的一个方面，提供了一种基于分布式框架的故障节点处理方法，包括：

通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点；

根据健康状态变化情况对对应的提供方节点执行相应的处理操作，处理操作包括隔离及恢复。

在一实施例中，根据健康状态变化情况对对应的提供方节点执行相应的处理操作，包括：

将健康状态变化情况从正常变为异常的提供方节点设置为故障节点；

对故障节点进行本地隔离。

在一实施例中，对故障节点进行本地隔离，包括：

将故障节点对应的链接设置为可读不可写状态；

从本地路由列表中删除故障节点的地址信息。

将健康状态变化情况从异常变为正常的提供方节点设置为康复节点；

对康复节点进行本地恢复。

在一实施例中，对康复节点进行本地恢复，包括：

将康复节点对应的链接设置为可读可写状态；

从本地路由列表中增加康复节点的地址信息。

根据本申请的另一个方面，还提供了一种基于分布式框架的故障节点处理装置，包括：

健康状态监测单元，用于通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点；

隔离及恢复单元，用于根据健康状态变化情况对对应的提供方节点执行相应的处理操作，处理操作包括隔离及恢复。

在一实施例中，隔离及恢复单元包括：

故障节点确定模块，用于将健康状态变化情况从正常变为异常的提供方节点设置为故障节点；

隔离模块，用于对故障节点进行本地隔离。

在一实施例中，隔离模块包括：

链接状态更改模块，用于将故障节点对应的链接设置为可读不可写状态；

路由信息剔除模块，用于从本地路由列表中删除故障节点的地址信息。

在一实施例中，健康状态监测单元包括：

康复节点确定模块，用于将健康状态变化情况从异常变为正常的提供方节点设置为康复节点；

恢复模块，用于对康复节点进行本地恢复。

在一实施例中，恢复模块包括：

链接状态变更模块，用于将康复节点对应的链接设置为可读可写状态；

路由信息增加模块，用于从本地路由列表中增加康复节点的地址信息。

本申请无需通过注册中心进行网络广播将故障节点推送，而是在消费方节点和提供方节点之间建立故障消息通道，直接将发生故障的提供方节点告知消费方，由消费方节点主动对该故障节点进行隔离，不会造成巨大的网络压力并且不会影响在途请求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于分布式框架的故障节点处理方法的流程图。

图2为本申请实施例中根据健康状态变化情况执行相应的处理操作流程图。

图3为本申请实施例中对故障节点进行本地隔离的流程图。

图4为本申请实施例中根据健康状态变化情况执行相应的处理操作流程图。

图5为本申请实施例中对康复节点进行本地恢复的流程图。

图6为本申请提供的节点间交互示意图。

图7为本申请提供的基于分布式框架的故障节点处理装置的结构框图。

图8为本申请实施例中隔离及恢复单元的结构框图。

图9为本申请实施例中隔离模块的结构框图。

图10为本申请实施例中健康状态监测单元的结构框图。

图11为本申请实施例中恢复模块的结构框图。

图12为本申请实施例中一种电子设备的具体实施方式。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的分布式微服务系统框架包括三个部分：服务提供方节点、服务消费方节点和注册中心。服务消费方节点可以调用服务提供方节点发布的服务。服务提供方节点和服务消费方节点的所有信息(包括IP地址、服务名称等)均会被同步至注册中心上，注册中心与双方节点都有心跳连接，当服务消费方节点与服务提供方节点首次建立连接时，服务消费方节点会在注册中心上获取所有服务提供方节点的地址列表并进行本地缓存。

当消费提供方节点发生故障后，目前，在分布式微服务系统框架下所采用的隔离方式为：由服务提供方节点(故障节点)主动与注册中心断连或主动下线，当注册中心感应到故障节点断连后将故障节点信息同步推送给相应的所有消费方节点，这种方式就造成当与该故障节点连接的消费方节点数量庞大时，注册中心同时将故障节点信息推送给庞大的消费方节点群体会造成巨大的网络压力。

基于上述问题，本申请提供了一种基于分布式框架的故障节点处理方法以解决现有技术中的问题，如图1所示，包括：

S101：通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点。

在一具体实施例中，在提供方节点与消费方节点之间预先建立用于传递故障消息的通道，这样即可使故障消息不再经过注册中心进行广播，而是直接通过该通道由提供方节点传递给消费方节点。提供方节点中设置有健康探测装置，并可以将健康状态通过通道发送给消费方节点。

S102：根据健康状态变化情况对对应的提供方节点执行相应的处理操作，处理操作包括隔离及恢复。

在一具体实施例中，提供方节点的健康状态变化有两种：一种为从正常变为异常，另一种为从异常变为正常，消费方节点需要根据提供方节点的健康状态进行对应的调整以主动隔离或恢复与提供方节点的通信功能。

在一实施例中，根据健康状态变化情况对对应的提供方节点执行相应的处理操作，如图2所示，包括：

S201：将健康状态变化情况从正常变为异常的提供方节点设置为故障节点。

S202：对故障节点进行本地隔离。

在一具体实施例中，如图6所示，提供方节点利用健康探测装置自行进行健康状态检查，当消费方节点发现提供方节点的健康状态从正常变为异常时，说明该提供方节点为故障节点需要对其进行隔离。

在一实施例中，对故障节点进行本地隔离，如图3所示，包括：

S301：将故障节点对应的链接设置为可读不可写状态。

在一具体实施例中，消费方节点获知故障节点后，将本地链接中与该故障节点对应的链接设置为“可读不可写”状态，这样可以让存量请求不至于立即中断无法得到处理，即使得存量请求“软着陆”结束，不会影响在途请求，增加了分布式微服务系统的可用性。而现有技术中的网络隔离是突发的，在注册中心或者消费方节点的心跳超时时间内，所有在途请求都会失败，会影响系统可用性。

S302：从本地路由列表中删除故障节点的地址信息。

在一具体实施例中，消费方节点同时修改本地的路由列表，即从本地的路由列表中删除故障节点的地址信息，即不再新增负载到该故障节点。

在一实施例中，根据健康状态变化情况对对应的提供方节点执行相应的处理操作，如图4所示，包括：

S401：将健康状态变化情况从异常变为正常的提供方节点设置为康复节点。

S402：对康复节点进行本地恢复。

在一具体实施例中，当故障节点恢复后，其健康状态会从异常变回正常(即健康探测成功)，此时，消费方节点获知该健康恢复事件后将其设置为“康复节点”(即故障恢复后的节点)。

在一实施例中，对康复节点进行本地恢复，如图5所示，包括：

S501：将康复节点对应的链接设置为可读可写状态。

在一具体实施例中，当消费方节点获知某一故障节点恢复后，将本地的双方网络链接状态变更为可读可写状态。

S502：从本地路由列表中增加康复节点的地址信息。

在一具体实施例中，消费方节点从本地路由列表中增加该节点的地址信息。另外，在故障节点被隔离的期间，每次消费方节点发起rpc请求时都会根据缓存的事件做判断，即如果提供方节点为故障节点，则会从本地路由缓存获取提供方节点地址时删除该提供方地址，保证rpc请求不会被发送至故障节点。

基于同一发明构思，本申请实施例还提供了一种基于分布式框架的故障节点处理装置，可以用于实现上述实施例中所描述的方法，如下面实施例所述。由于该基于分布式框架的故障节点处理装置解决问题的原理与基于分布式框架的故障节点处理方法相似，因此基于分布式框架的故障节点处理装置的实施可以参见基于分布式框架的故障节点处理方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图7所示，一种基于分布式框架的故障节点处理装置，包括：

健康状态监测单元701，用于通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点；

隔离及恢复单元702，用于根据健康状态变化情况对对应的提供方节点执行相应的处理操作，处理操作包括隔离及恢复。

在一实施例中，如图8所示，隔离及恢复单元702包括：

故障节点确定模块801，用于将健康状态变化情况从正常变为异常的提供方节点设置为故障节点；

隔离模块802，用于对故障节点进行本地隔离。

在一实施例中，如图9所示，隔离模块802包括：

链接状态更改模块901，用于将故障节点对应的链接设置为可读不可写状态；

路由信息剔除模块902，用于从本地路由列表中删除故障节点的地址信息。

在一实施例中，如图10所示，健康状态监测单元701包括：

康复节点确定模块1001，用于将健康状态变化情况从异常变为正常的提供方节点设置为康复节点；

恢复模块1002，用于对康复节点进行本地恢复。

在一实施例中，如图11所示，恢复模块1002包括：

链接状态变更模块1101，用于将康复节点对应的链接设置为可读可写状态；

路由信息增加模块1102，用于从本地路由列表中增加康复节点的地址信息。

本申请与现有技术相比，至少具有如下优势：

1、无需通过注册中心进行网络广播推送故障事件，直接通过点对点的通道告知消费方节点，由消费方节点主动隔离故障节点，避免了网络压力过大，并且本申请与注册中心解耦，不会造成因节点频繁上下线而影响注册中心集群性能。

2、由消费方发起的网络隔离，因此不会影响在途请求，增加了系统的可用性。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图12，所述电子设备具体包括如下内容：

处理器(processor)1201、内存1202、通信接口(Communications Interface)1203、总线1204和非易失性存储器1205；

其中，所述处理器1201、内存1202、通信接口1203通过所述总线1204完成相互间的通信；

所述处理器1201用于调用所述内存1202和非易失性存储器1205中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。

在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种基于分布式框架的故障节点处理方法，其特征在于，包括：

根据健康状态变化情况对对应的提供方节点执行相应的处理操作，所述处理操作包括隔离及恢复。

2.根据权利要求1所述的故障节点处理方法，其特征在于，所述根据健康状态变化情况对对应的提供方节点执行相应的处理操作，包括：

对所述故障节点进行本地隔离。

3.根据权利要求2所述的故障节点处理方法，其特征在于，所述对所述故障节点进行本地隔离，包括：

将所述故障节点对应的链接设置为可读不可写状态；

从本地路由列表中删除所述故障节点的地址信息。

4.根据权利要求1所述的故障节点处理方法，其特征在于，所述根据健康状态变化情况对对应的提供方节点执行相应的处理操作，包括：

对所述康复节点进行本地恢复。

5.根据权利要求4所述的故障节点处理方法，其特征在于，所述对所述康复节点进行本地恢复，包括：

将所述康复节点对应的链接设置为可读可写状态；

从本地路由列表中增加所述康复节点的地址信息。

6.一种基于分布式框架的故障节点处理装置，其特征在于，包括：

隔离及恢复单元，用于根据健康状态变化情况对对应的提供方节点执行相应的处理操作，所述处理操作包括隔离及恢复。

7.根据权利要求6所述的故障节点处理装置，其特征在于，所述隔离及恢复单元包括：

隔离模块，用于对所述故障节点进行本地隔离。

8.根据权利要求7所述的故障节点处理装置，其特征在于，所述隔离模块包括：

链接状态更改模块，用于将所述故障节点对应的链接设置为可读不可写状态；

路由信息剔除模块，用于从本地路由列表中删除所述故障节点的地址信息。

9.根据权利要求6所述的故障节点处理装置，其特征在于，所述健康状态监测单元包括：

恢复模块，用于对所述康复节点进行本地恢复。

10.根据权利要求9所述的故障节点处理装置，其特征在于，所述恢复模块包括：

链接状态变更模块，用于将所述康复节点对应的链接设置为可读可写状态；

路由信息增加模块，用于从本地路由列表中增加所述康复节点的地址信息。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至5中任意一项所述故障节点处理方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5中任一项所述故障节点处理方法。