CN111666170A - 基于分布式框架的故障节点处理方法及装置 - Google Patents

基于分布式框架的故障节点处理方法及装置 Download PDF

Info

Publication number
CN111666170A
CN111666170A CN202010475416.4A CN202010475416A CN111666170A CN 111666170 A CN111666170 A CN 111666170A CN 202010475416 A CN202010475416 A CN 202010475416A CN 111666170 A CN111666170 A CN 111666170A
Authority
CN
China
Prior art keywords
node
fault
provider
recovery
rehabilitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010475416.4A
Other languages
English (en)
Other versions
CN111666170B (zh
Inventor
顾欣
夏龙飞
让涛
张家宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010475416.4A priority Critical patent/CN111666170B/zh
Publication of CN111666170A publication Critical patent/CN111666170A/zh
Application granted granted Critical
Publication of CN111666170B publication Critical patent/CN111666170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种基于分布式框架的故障节点处理方法及装置,包括:通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点;根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。本申请无需通过注册中心进行网络广播将故障节点推送,而是在消费方节点和提供方节点之间建立故障消息通道,直接将发生故障的提供方节点告知消费方,由消费方节点主动对该故障节点进行隔离,不会造成巨大的网络压力并且不会影响在途请求。

Description

基于分布式框架的故障节点处理方法及装置
技术领域
本申请属于分布式微服务技术领域,具体地讲,涉及一种基于分布式框架的故障节点处理方法及装置。
背景技术
随着分布式微服务的流行,分布式集群服务框架越来越庞大,如何在复杂的调用链路中隔离故障的节点就变的越来越重要。传统的分布式服务节点隔离需要依赖与注册中心的下线机制。即该节点下线,然后由注册中心广播事件通知所有节点,该节点的下游方节点从路由列表中删除该节点。但是该种广播方法会造成巨大的网络压力,特别是当集群中的下游节点较多时,会造成网络风暴引发风险。
发明内容
本申请提供了一种基于分布式框架的故障节点处理方法及装置,以至少解决现有技术中分布式微服务框架中的故障节点隔离需要通过注册中心进行光从从而造成网络压力过大的问题。
根据本申请的一个方面,提供了一种基于分布式框架的故障节点处理方法,包括:
通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点;
根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。
在一实施例中,根据健康状态变化情况对对应的提供方节点执行相应的处理操作,包括:
将健康状态变化情况从正常变为异常的提供方节点设置为故障节点;
对故障节点进行本地隔离。
在一实施例中,对故障节点进行本地隔离,包括:
将故障节点对应的链接设置为可读不可写状态;
从本地路由列表中删除故障节点的地址信息。
在一实施例中,根据健康状态变化情况对对应的提供方节点执行相应的处理操作,包括:
将健康状态变化情况从异常变为正常的提供方节点设置为康复节点;
对康复节点进行本地恢复。
在一实施例中,对康复节点进行本地恢复,包括:
将康复节点对应的链接设置为可读可写状态;
从本地路由列表中增加康复节点的地址信息。
根据本申请的另一个方面,还提供了一种基于分布式框架的故障节点处理装置,包括:
健康状态监测单元,用于通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点;
隔离及恢复单元,用于根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。
在一实施例中,隔离及恢复单元包括:
故障节点确定模块,用于将健康状态变化情况从正常变为异常的提供方节点设置为故障节点;
隔离模块,用于对故障节点进行本地隔离。
在一实施例中,隔离模块包括:
链接状态更改模块,用于将故障节点对应的链接设置为可读不可写状态;
路由信息剔除模块,用于从本地路由列表中删除故障节点的地址信息。
在一实施例中,健康状态监测单元包括:
康复节点确定模块,用于将健康状态变化情况从异常变为正常的提供方节点设置为康复节点;
恢复模块,用于对康复节点进行本地恢复。
在一实施例中,恢复模块包括:
链接状态变更模块,用于将康复节点对应的链接设置为可读可写状态;
路由信息增加模块,用于从本地路由列表中增加康复节点的地址信息。
本申请无需通过注册中心进行网络广播将故障节点推送,而是在消费方节点和提供方节点之间建立故障消息通道,直接将发生故障的提供方节点告知消费方,由消费方节点主动对该故障节点进行隔离,不会造成巨大的网络压力并且不会影响在途请求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的基于分布式框架的故障节点处理方法的流程图。
图2为本申请实施例中根据健康状态变化情况执行相应的处理操作流程图。
图3为本申请实施例中对故障节点进行本地隔离的流程图。
图4为本申请实施例中根据健康状态变化情况执行相应的处理操作流程图。
图5为本申请实施例中对康复节点进行本地恢复的流程图。
图6为本申请提供的节点间交互示意图。
图7为本申请提供的基于分布式框架的故障节点处理装置的结构框图。
图8为本申请实施例中隔离及恢复单元的结构框图。
图9为本申请实施例中隔离模块的结构框图。
图10为本申请实施例中健康状态监测单元的结构框图。
图11为本申请实施例中恢复模块的结构框图。
图12为本申请实施例中一种电子设备的具体实施方式。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的分布式微服务系统框架包括三个部分:服务提供方节点、服务消费方节点和注册中心。服务消费方节点可以调用服务提供方节点发布的服务。服务提供方节点和服务消费方节点的所有信息(包括IP地址、服务名称等)均会被同步至注册中心上,注册中心与双方节点都有心跳连接,当服务消费方节点与服务提供方节点首次建立连接时,服务消费方节点会在注册中心上获取所有服务提供方节点的地址列表并进行本地缓存。
当消费提供方节点发生故障后,目前,在分布式微服务系统框架下所采用的隔离方式为:由服务提供方节点(故障节点)主动与注册中心断连或主动下线,当注册中心感应到故障节点断连后将故障节点信息同步推送给相应的所有消费方节点,这种方式就造成当与该故障节点连接的消费方节点数量庞大时,注册中心同时将故障节点信息推送给庞大的消费方节点群体会造成巨大的网络压力。
基于上述问题,本申请提供了一种基于分布式框架的故障节点处理方法以解决现有技术中的问题,如图1所示,包括:
S101:通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点。
在一具体实施例中,在提供方节点与消费方节点之间预先建立用于传递故障消息的通道,这样即可使故障消息不再经过注册中心进行广播,而是直接通过该通道由提供方节点传递给消费方节点。提供方节点中设置有健康探测装置,并可以将健康状态通过通道发送给消费方节点。
S102:根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。
在一具体实施例中,提供方节点的健康状态变化有两种:一种为从正常变为异常,另一种为从异常变为正常,消费方节点需要根据提供方节点的健康状态进行对应的调整以主动隔离或恢复与提供方节点的通信功能。
在一实施例中,根据健康状态变化情况对对应的提供方节点执行相应的处理操作,如图2所示,包括:
S201:将健康状态变化情况从正常变为异常的提供方节点设置为故障节点。
S202:对故障节点进行本地隔离。
在一具体实施例中,如图6所示,提供方节点利用健康探测装置自行进行健康状态检查,当消费方节点发现提供方节点的健康状态从正常变为异常时,说明该提供方节点为故障节点需要对其进行隔离。
在一实施例中,对故障节点进行本地隔离,如图3所示,包括:
S301:将故障节点对应的链接设置为可读不可写状态。
在一具体实施例中,消费方节点获知故障节点后,将本地链接中与该故障节点对应的链接设置为“可读不可写”状态,这样可以让存量请求不至于立即中断无法得到处理,即使得存量请求“软着陆”结束,不会影响在途请求,增加了分布式微服务系统的可用性。而现有技术中的网络隔离是突发的,在注册中心或者消费方节点的心跳超时时间内,所有在途请求都会失败,会影响系统可用性。
S302:从本地路由列表中删除故障节点的地址信息。
在一具体实施例中,消费方节点同时修改本地的路由列表,即从本地的路由列表中删除故障节点的地址信息,即不再新增负载到该故障节点。
在一实施例中,根据健康状态变化情况对对应的提供方节点执行相应的处理操作,如图4所示,包括:
S401:将健康状态变化情况从异常变为正常的提供方节点设置为康复节点。
S402:对康复节点进行本地恢复。
在一具体实施例中,当故障节点恢复后,其健康状态会从异常变回正常(即健康探测成功),此时,消费方节点获知该健康恢复事件后将其设置为“康复节点”(即故障恢复后的节点)。
在一实施例中,对康复节点进行本地恢复,如图5所示,包括:
S501:将康复节点对应的链接设置为可读可写状态。
在一具体实施例中,当消费方节点获知某一故障节点恢复后,将本地的双方网络链接状态变更为可读可写状态。
S502:从本地路由列表中增加康复节点的地址信息。
在一具体实施例中,消费方节点从本地路由列表中增加该节点的地址信息。另外,在故障节点被隔离的期间,每次消费方节点发起rpc请求时都会根据缓存的事件做判断,即如果提供方节点为故障节点,则会从本地路由缓存获取提供方节点地址时删除该提供方地址,保证rpc请求不会被发送至故障节点。
基于同一发明构思,本申请实施例还提供了一种基于分布式框架的故障节点处理装置,可以用于实现上述实施例中所描述的方法,如下面实施例所述。由于该基于分布式框架的故障节点处理装置解决问题的原理与基于分布式框架的故障节点处理方法相似,因此基于分布式框架的故障节点处理装置的实施可以参见基于分布式框架的故障节点处理方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
如图7所示,一种基于分布式框架的故障节点处理装置,包括:
健康状态监测单元701,用于通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点;
隔离及恢复单元702,用于根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。
在一实施例中,如图8所示,隔离及恢复单元702包括:
故障节点确定模块801,用于将健康状态变化情况从正常变为异常的提供方节点设置为故障节点;
隔离模块802,用于对故障节点进行本地隔离。
在一实施例中,如图9所示,隔离模块802包括:
链接状态更改模块901,用于将故障节点对应的链接设置为可读不可写状态;
路由信息剔除模块902,用于从本地路由列表中删除故障节点的地址信息。
在一实施例中,如图10所示,健康状态监测单元701包括:
康复节点确定模块1001,用于将健康状态变化情况从异常变为正常的提供方节点设置为康复节点;
恢复模块1002,用于对康复节点进行本地恢复。
在一实施例中,如图11所示,恢复模块1002包括:
链接状态变更模块1101,用于将康复节点对应的链接设置为可读可写状态;
路由信息增加模块1102,用于从本地路由列表中增加康复节点的地址信息。
本申请与现有技术相比,至少具有如下优势:
1、无需通过注册中心进行网络广播推送故障事件,直接通过点对点的通道告知消费方节点,由消费方节点主动隔离故障节点,避免了网络压力过大,并且本申请与注册中心解耦,不会造成因节点频繁上下线而影响注册中心集群性能。
2、由消费方发起的网络隔离,因此不会影响在途请求,增加了系统的可用性。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图12,所述电子设备具体包括如下内容:
处理器(processor)1201、内存1202、通信接口(Communications Interface)1203、总线1204和非易失性存储器1205;
其中,所述处理器1201、内存1202、通信接口1203通过所述总线1204完成相互间的通信;
所述处理器1201用于调用所述内存1202和非易失性存储器1205中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点。
S102:根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
S101:通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点。
S102:根据健康状态变化情况对对应的提供方节点执行相应的处理操作,处理操作包括隔离及恢复。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。
在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (12)

1.一种基于分布式框架的故障节点处理方法,其特征在于,包括:
通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点;
根据健康状态变化情况对对应的提供方节点执行相应的处理操作,所述处理操作包括隔离及恢复。
2.根据权利要求1所述的故障节点处理方法,其特征在于,所述根据健康状态变化情况对对应的提供方节点执行相应的处理操作,包括:
将健康状态变化情况从正常变为异常的提供方节点设置为故障节点;
对所述故障节点进行本地隔离。
3.根据权利要求2所述的故障节点处理方法,其特征在于,所述对所述故障节点进行本地隔离,包括:
将所述故障节点对应的链接设置为可读不可写状态;
从本地路由列表中删除所述故障节点的地址信息。
4.根据权利要求1所述的故障节点处理方法,其特征在于,所述根据健康状态变化情况对对应的提供方节点执行相应的处理操作,包括:
将健康状态变化情况从异常变为正常的提供方节点设置为康复节点;
对所述康复节点进行本地恢复。
5.根据权利要求4所述的故障节点处理方法,其特征在于,所述对所述康复节点进行本地恢复,包括:
将所述康复节点对应的链接设置为可读可写状态;
从本地路由列表中增加所述康复节点的地址信息。
6.一种基于分布式框架的故障节点处理装置,其特征在于,包括:
健康状态监测单元,用于通过预先建立的提供方节点与消费方节点之间的故障消息通道获取健康状态发生变化的提供方节点;
隔离及恢复单元,用于根据健康状态变化情况对对应的提供方节点执行相应的处理操作,所述处理操作包括隔离及恢复。
7.根据权利要求6所述的故障节点处理装置,其特征在于,所述隔离及恢复单元包括:
故障节点确定模块,用于将健康状态变化情况从正常变为异常的提供方节点设置为故障节点;
隔离模块,用于对所述故障节点进行本地隔离。
8.根据权利要求7所述的故障节点处理装置,其特征在于,所述隔离模块包括:
链接状态更改模块,用于将所述故障节点对应的链接设置为可读不可写状态;
路由信息剔除模块,用于从本地路由列表中删除所述故障节点的地址信息。
9.根据权利要求6所述的故障节点处理装置,其特征在于,所述健康状态监测单元包括:
康复节点确定模块,用于将健康状态变化情况从异常变为正常的提供方节点设置为康复节点;
恢复模块,用于对所述康复节点进行本地恢复。
10.根据权利要求9所述的故障节点处理装置,其特征在于,所述恢复模块包括:
链接状态变更模块,用于将所述康复节点对应的链接设置为可读可写状态;
路由信息增加模块,用于从本地路由列表中增加所述康复节点的地址信息。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5中任意一项所述故障节点处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5中任一项所述故障节点处理方法。
CN202010475416.4A 2020-05-29 2020-05-29 基于分布式框架的故障节点处理方法及装置 Active CN111666170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010475416.4A CN111666170B (zh) 2020-05-29 2020-05-29 基于分布式框架的故障节点处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010475416.4A CN111666170B (zh) 2020-05-29 2020-05-29 基于分布式框架的故障节点处理方法及装置

Publications (2)

Publication Number Publication Date
CN111666170A true CN111666170A (zh) 2020-09-15
CN111666170B CN111666170B (zh) 2024-04-12

Family

ID=72385154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010475416.4A Active CN111666170B (zh) 2020-05-29 2020-05-29 基于分布式框架的故障节点处理方法及装置

Country Status (1)

Country Link
CN (1) CN111666170B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082765A1 (zh) * 2021-11-12 2023-05-19 中兴通讯股份有限公司 服务器状态控制方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017152763A1 (zh) * 2016-03-10 2017-09-14 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107896172A (zh) * 2017-11-24 2018-04-10 泰康保险集团股份有限公司 监听故障处理方法及装置、存储介质和电子设备
CN110333963A (zh) * 2019-06-20 2019-10-15 网联清算有限公司 服务故障的处理方法和装置
CN110677480A (zh) * 2019-09-29 2020-01-10 北京浪潮数据技术有限公司 一种节点健康管理方法、装置和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017152763A1 (zh) * 2016-03-10 2017-09-14 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN107896172A (zh) * 2017-11-24 2018-04-10 泰康保险集团股份有限公司 监听故障处理方法及装置、存储介质和电子设备
CN110333963A (zh) * 2019-06-20 2019-10-15 网联清算有限公司 服务故障的处理方法和装置
CN110677480A (zh) * 2019-09-29 2020-01-10 北京浪潮数据技术有限公司 一种节点健康管理方法、装置和计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082765A1 (zh) * 2021-11-12 2023-05-19 中兴通讯股份有限公司 服务器状态控制方法、系统及存储介质

Also Published As

Publication number Publication date
CN111666170B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US7518983B2 (en) Proxy response apparatus
CN106331098B (zh) 一种服务器集群系统
CN102708018B (zh) 一种异常处理方法及系统、代理设备与控制装置
CN112003961B (zh) 一种kubernetes中资源暴露方法、系统、设备以及介质
CN109450666B (zh) 分布式系统网络管理方法及装置
US9331870B2 (en) Switch, information processing apparatus, and information processing system
KR20160060741A (ko) 결함 관리 방법, 엔티티 및 시스템
CN110324375B (zh) 一种信息备份方法及相关设备
JP2004062535A (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
CN105242990A (zh) 基于云平台的数据备份方法和装置
CN114124978B (zh) 一种基于分布式协同的视频云服务高可用方法和装置
CN104503861A (zh) 一种异常处理方法及系统、代理设备与控制装置
CN110971662A (zh) 一种基于Ceph的两节点高可用实现方法及装置
CN105049549A (zh) 一种实现浮动ip地址自动漂移的方法和系统
CN106657187A (zh) 报文处理的方法及装置
US8775617B2 (en) Method for optimizing network performance after a temporary loss of connection
CN111666170A (zh) 基于分布式框架的故障节点处理方法及装置
CN102231126B (zh) 一种实现多核处理器中核间备份的方法及系统
CN111309515A (zh) 一种容灾控制方法、装置及系统
CN105245361A (zh) 用于Linux系统的数据高可用系统、方法和装置
US9323629B2 (en) Method for managing path failures of OSEK networks
CN110351122B (zh) 容灾方法、装置、系统与电子设备
CN112491633B (zh) 一种多节点集群的故障恢复方法、系统及相关组件
US11757987B2 (en) Load balancing systems and methods
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant