CN110708177B

CN110708177B - 分布式系统中的异常处理方法、系统和装置

Info

Publication number: CN110708177B
Application number: CN201810745027.1A
Authority: CN
Inventors: 赵立芳; 徐恩胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2022-08-09
Anticipated expiration: 2038-07-09
Also published as: CN110708177A

Abstract

本发明公开了一种分布式系统中的异常处理方法及分布式系统。其中，该方法包括：采集客户端访问第一服务节点的访问信息，访问第一服务节点的访问信息中至少包括：客户端对第一服务节点的访问次数和异常访问次数；根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常；在确定第一服务节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二服务节点，第二服务节点替代第一服务节点来为客户端提供服务。本发明解决了由于在服务节点和中心节点的心跳是正常的但对外服务异常的情况下，相关技术中只能通过监控发现，报警之后人为干预，造成对服务节点和中心节点异常的处理效率较低的技术问题。

Description

分布式系统中的异常处理方法、系统和装置

技术领域

本发明涉及分布式系统技术领域，具体而言，涉及一种分布式系统中的异常处理方法、系统和装置。

背景技术

分布式系统是建立在网络之上的软件系统，用以管理网络资源，具体的，分布式系统可以包含多个数据库分布节点，分布式系统以全局的方式管理网络资源，实现网络资源在各个数据库分布节点之间的分配。

分布式系统中通常都有中心节点、服务节点、客户端节点这三类数据库分布节点，中心节点会保存元数据，负责负载均衡和调度，把服务分区或分片下发给各个服务节点执行；服务节点根据中心节点下发的计划，对不同分片提供服务；客户端节点会请求对应服务节点完成读写。通常来说服务节点和中心节点之间有心跳通信，一段时间内中心节点收不到某台服务节点汇报的心跳信息时，中心节点会认为该服务节点异常，需要重新调度。中心节点由一组中心节点提供服务，通常情况下中心节点异常时，中心节点会重新选举，选出一个新的中心节点对外提供服务。

对于服务节点异常的场景，实际应用中存在一种情况：服务节点和中心节点的心跳是正常的，但对外服务异常的情况。相关技术中在遇到客户端节点大量访问报错，该系统又不能自动恢复的时候，只能通过监控发现，报警之后人为干预。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种分布式系统中的异常处理方法、系统和装置，以至少解决由于在服务节点和中心节点的心跳是正常的但对外服务异常的情况下，相关技术中只能通过监控发现，报警之后人为干预，造成对服务节点和中心节点异常的处理效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种分布式系统中的异常处理方法，所述分布式系统包括客户端、为所述客户端提供服务的多个服务节点以及管理所述服务节点的中心节点，所述方法包括：采集所述客户端访问第一服务节点的访问信息，所述访问第一服务节点的访问信息中至少包括：所述客户端对所述第一服务节点的访问次数和异常访问次数；根据所述访问第一服务节点的访问信息，确定所述第一服务节点是否出现异常；在确定所述第一服务节点出现异常的情况下，向所述中心节点发送异常处理请求，以便请求所述中心节点确定第二服务节点，所述第二服务节点替代所述第一服务节点来为所述客户端提供服务。

根据本发明实施例的另一方面，还提供了一种分布式系统，包括：至少一个客户端，所述客户端用于将其访问服务节点和/或中心节点的访问信息发送至监控节点；至少一个服务节点，所述服务节点用于为客户端提供服务；至少一个中心节点，所述中心节点用于管理所述服务节点；监控节点，用于执行上述任意一项所述的分布式系统中的异常处理方法。

根据本发明实施例的另一方面，还提供了一种分布式系统中的异常处理方法，所述分布式系统包括客户端、为所述客户端提供服务的多个服务节点以及多个中心节点，其中，第一中心节点管理所述服务节点，所述方法包括：采集所述客户端访问所述第一中心节点的访问信息，所述访问信息中至少包括：所述客户端对所述第一中心节点的访问次数和异常访问次数；根据所述访问信息，确定所述第一中心节点是否出现异常；在确定所述第一中心节点出现异常的情况下，向所述中心节点发送异常处理请求，以便请求所述中心节点确定第二中心节点，所述第二中心节点替代所述第一中心节点来管理所述服务节点。

根据本发明实施例的另一方面，还提供了一种分布式系统，包括：至少一个客户端，所述客户端用于将其访问中心节点的访问信息发送至监控节点；至少一个服务节点；多个中心节点，其中第一中心节点用于管理所述服务节点；监控节点，用于执行上述任意一项所述的分布式系统中的异常处理方法。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的分布式系统中的异常处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的分布式系统中的异常处理方法。

在本发明实施例中，通过采集客户端访问第一服务节点的访问信息，访问第一服务节点的访问信息中至少包括：客户端对第一服务节点的访问次数和异常访问次数；根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常；在确定第一服务节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二服务节点，第二服务节点替代第一服务节点来为客户端提供服务，实现了监控节点基于客户端访问第一服务节点的访问信息及时确定出第一服务节点出现异常，向中心节点发送异常处理请求，请求中心节点确定第二服务节点替代第一服务节点，提升了对服务节点异常的处理效率，保证了分布式系统稳定运行的技术效果，进而解决了由于在服务节点和中心节点的心跳是正常的但对外服务异常的情况下，相关技术中只能通过监控发现，报警之后人为干预，造成对服务节点和中心节点异常的处理效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种分布式系统中的异常处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种分布式系统中的异常处理方法的计算机终端的交互示意图；

图3是根据本发明实施例的一种分布式系统中的异常处理方法的流程图；

图4是根据本发明实施例的一种分布式系统中的异常处理方法的示意图一；

图5是根据本发明实施例的一种分布式系统中的异常处理方法的示意图二；

图6是根据本发明实施例的一种分布式系统中的异常处理方法的示意图三；

图7是根据本发明实施例的一种分布式系统中的异常处理方法的示意图四；

图8是根据本发明实施例的一种分布式系统的示意图；

图9是根据本发明实施例的另一种分布式系统中的异常处理方法的流程图；

图10是根据本发明实施例的一种分布式系统的示意图；

图11是根据本发明实施例的可选的计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

分布式系统：是建立在网络之上的软件系统，具有内聚性和透明性。内聚性是指每一个数据库分布节点高度自治，有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的，在分布式数据系统中，用户感觉不到数据是分布的。

中心节点：分布式系统中的中心节点，掌握全局信息，负责调度。例如，为客户端分配其访问的服务节点。

服务节点：分布式系统中的服务节点按分片为客户端提供服务。

客户端：分布式系统中的客户端节点。

监控节点：分布式系统中的监控节点用于汇总客户端上报的请求信息，以此判别服务节点或中心节点是否异常，并通知中心节点做出相应动作。

实施例1

根据本发明实施例，还提供了一种分布式系统中的异常处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现分布式系统中的异常处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

图1示出的硬件结构框图，不仅可以作为上述计算机终端10(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为发送端和接收端一种实施例。如图2所示，计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器，例如，安全服务器、资源服务器、游戏服务器等。一种可选实施例中，上述计算机终端10(或移动设备)可以是任意移动计算设备等。数据网络连接可以是局域网连接、广域网连接、因特网连接，或其它类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务，诸如社交网络、云资源、电子邮件、在线支付或其它在线应用。

在上述运行环境下，本申请提供了如图3所示的分布式系统中的异常处理方法。分布式系统包括客户端、为客户端提供服务的多个服务节点以及管理服务节点的中心节点，图3是根据本发明实施例1的分布式系统中的异常处理方法的流程图。

步骤S32，采集客户端访问第一服务节点的访问信息，访问第一服务节点的访问信息中至少包括：客户端对第一服务节点的访问次数和异常访问次数。

在上述步骤中，分布式系统是建立在网络之上的软件系统，用以管理网络资源，具体的，分布式系统可以包含多个数据库分布节点，分布式系统以全局的方式管理网络资源，实现网络资源在各个数据库分布节点之间的分配。

在一种可选的方案中，网络资源为计算机的物理和逻辑资源，数据库分布节点包含中心节点和客户端节点，中心节点对计算机的物理和逻辑资源进行统筹规划，将计算机的物理和逻辑资源下发给各个客户端节点，客户端节点上对应设置有客户端，中心节点将计算机的物理和逻辑资源下发给客户端节点，即下发给了客户端。

可选地，客户端可以为PC机、移动终端，例如，客户端为PC机，中心节点将执行信息分配给相应的PC机，PC机按照接收到的执行信息执行动作。

客户端在向第一服务节点发送请求之前，先访问中心节点，从中心节点处获取到请求对应的第一服务节点之后，再向对应的第一服务节点发送请求。若客户端发给第一服务节点的访问请求出现错误，则客户端对第一服务节点的这次访问为异常访问，在访问信息中记录异常访问次数。

步骤S34，根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常。

需要说明的是，客户端访问第一服务节点发生异常时，存在多种情况，例如，客户端本身发生异常，或第一服务节点发生异常，又或是客户端和第一服务节点之间的通信链路发生异常，需要根据客户端访问第一服务节点的访问信息，确定第一服务节点是否出现异常。

步骤S36，在确定第一服务节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二服务节点，第二服务节点替代第一服务节点来为客户端提供服务。

需要说明的是，上述步骤S32至步骤S36的执行主体为监控节点，也即监控节点基于客户端访问第一服务节点的访问信息及时确定出第一服务节点出现异常，向中心节点发送异常处理请求，请求中心节点确定第二服务节点替代第一服务节点，提升了对服务节点异常的处理效率，保证了分布式系统稳定运行的技术效果，进而解决了相关技术中只能通过监控发现，报警之后人为干预，造成对服务节点异常的处理效率较低的技术问题。

在一种可选的方案中，根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的步骤，如图4所示，包括以下步骤：

步骤S42，确定访问第一服务节点的所有客户端的数量；

步骤S44，确定访问第一服务节点出现异常的客户端的数量；

步骤S46，根据访问第一服务节点出现异常的客户端的数量与访问第一服务节点的所有客户端的数量计算异常客户端率；

步骤S48，至少根据异常客户端率来确定第一服务节点是否出现异常。

也即，通过所有访问第一服务节点的客户端的数量与访问第一服务节点出现异常的客户端的数量之比得到的异常客户端率，确定第一服务节点是否出现异常。

若异常客户端率大于第一预设阈值，则确定第一服务节点出现异常。

例如，上述的第一预设阈值为50％，即超过半数的客户端访问第一服务节点出现异常，即认为第一服务节点出现异常。

为了明确客户端访问第一服务节点出现异常的情况，在一种可选的方案中，若客户端对第一服务节点的异常访问次数与客户端对第一服务节点的访问次数之比超过第二预设阈值，则确定客户端访问第一服务节点出现异常。

例如，上述的第二预设阈值为90％，即客户端对第一服务节点的异常访问次数与客户端对第一服务节点的访问次数之比超过90％，确定客户端访问第一服务节点出现异常。

在一种可选的方案中，根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的步骤，如图5所示，包括以下步骤：

步骤S52，在异常客户端率大于第三预设阈值时，确定访问第一服务节点存在异常访问的客户端的数量；

需要说明的是，上述的访问第一服务节点存在异常访问的客户端，是指发给第一服务节点的访问请求出现错误的客户端，只要存在一条访问请求出现错误就认为客户端存在异常访问。

步骤S54，若访问第一服务节点存在异常访问的客户端的数量与访问第一服务节点的所有客户端的数量之比大于第四预设阈值时，确定第一服务节点出现异常。

例如，上述的第三预设阈值为40％，上述的第四预设阈值为80％，也即，若访问节点的所有客户端中，访问第一服务节点出现异常的客户端超过40％。且访问第一服务节点的所有客户端中，发给第一服务节点的访问请求出现错误的客户端超过80％，则确定第一服务节点出现异常。

在一种可选的方案中，根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的步骤，如图6所示，包括以下步骤：

步骤S62，确定客户端对第一服务节点的总访问次数；

步骤S64，确定客户端对第一服务节点的总异常访问次数；

步骤S66，若总异常访问次数与总访问次数之比超过第五预设阈值，则确定第一服务节点出现异常。

例如，上述的第五预设阈值为80％，客户端对第一服务节点的总异常访问次数与客户端对第一服务节点的总访问次数之比超过80％，则确定第一服务节点出现异常。需要说明的是，客户端为所有访问第一服务节点的所有客户端，也即，所有客户端发给第一服务节点的访问请求中，总异常访问次数与总访问次数之比超过80％，则认为第一服务节点出现异常。

需要说明的是，根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的所有方案中，比如，步骤S42至步骤S48中的方案，步骤S52至步骤S54中的方案，步骤S62至步骤S66中的方案，每一种方案可以是相互独立的，也可以是各个方案任意组合的，以确定第一服务节点是否出现异常。通过上述策略综合考虑了单台机器异常宕机以及网络隔离等情况，保证不会误判服务节点出现异常的情况。

在一种可选的方案中，本申请提供了分布式系统中的异常处理方法中，如图7所示，该方法还包括：

步骤S72，采集客户端访问第一中心节点的访问信息，第一中心节点管理服务节点，访问第一中心节点的访问信息中至少包括：客户端对第一中心节点的访问次数和异常访问次数；

步骤S74，根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常；

步骤S76，在确定第一中心节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二中心节点，第二中心节点替代第一中心节点来管理服务节点。

需要说明的是，步骤S72至步骤S76与步骤S32至步骤S36的执行可以是并行的，也可以是有时间先后，例如执行完步骤S32至步骤S36之后再执行步骤S72至步骤S76，或者，执行完步骤S72至步骤S76之后再执行步骤S32至步骤S36。

需要说明的是，上述步骤S72至步骤S76的执行主体为监控节点，也即监控节点基于客户端访问第一中心节点的访问信息及时确定出第一中心节点出现异常，向中心节点发送异常处理请求，请求中心节点确定第二中心节点替代第一中心节点，提升了对中心节点异常的处理效率，保证了分布式系统稳定运行的技术效果，进而解决了相关技术中只能通过监控发现，报警之后人为干预，造成对中心节点异常的处理效率较低的技术问题。

需要说明的是，上述的根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常的方案与根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的方案相似，具体如下。

可选的，根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常的步骤包括：确定访问第一中心节点的所有客户端的数量；确定访问第一中心节点出现异常的客户端的数量；根据访问第一中心节点出现异常的客户端的数量与访问第一中心节点的所有客户端的数量计算异常客户端率；至少根据异常客户端率来确定第一中心节点是否出现异常。

也即，通过所有访问第一中心节点的客户端的数量与访问第一中心节点出现异常的客户端的数量之比得到的异常客户端率，确定第一中心节点是否出现异常。

若异常客户端率大于第一预设阈值，则确定第一中心节点出现异常。

例如，上述的第一预设阈值为50％，即超过半数的客户端访问第一中心节点出现异常，即认为第一中心节点出现异常。

为了明确客户端访问第一中心节点出现异常的情况，在一种可选的方案中，若客户端对第一中心节点的异常访问次数与客户端对第一中心节点的访问次数之比超过第二预设阈值，则确定客户端访问第一中心节点出现异常。

例如，上述的第二预设阈值为90％，即客户端对第一中心节点的异常访问次数与客户端对第一中心节点的访问次数之比超过90％，确定客户端访问第一中心节点出现异常。

可选的，至少根据异常客户端率来确定第一中心节点是否出现异常的步骤包括：在异常客户端率大于第三预设阈值时，确定访问第一中心节点存在异常访问的目标客户端的数量；若访问第一中心节点存在异常访问的目标客户端的数量与访问第一中心节点的所有客户端的数量之比大于第四预设阈值时，确定第一中心节点出现异常。

需要说明的是，上述的访问第一中心节点存在异常访问的客户端，是指发给第一中心节点的访问请求出现错误的客户端，只要存在一条访问请求出现错误就认为客户端存在异常访问。

例如，上述的第三预设阈值为40％，上述的第四预设阈值为80％，也即，若访问节点的所有客户端中，访问第一中心节点出现异常的客户端超过40％。且访问第一中心节点的所有客户端中，发给第一中心节点的访问请求出现错误的客户端超过80％，则确定第一中心节点出现异常。

例如，上述的第五预设阈值为80％，客户端对第一中心节点的总异常访问次数与客户端对第一中心节点的总访问次数之比超过80％，则确定第一中心节点出现异常。需要说明的是，客户端为所有访问第一中心节点的所有客户端，也即，所有客户端发给第一中心节点的访问请求中，总异常访问次数与总访问次数之比的超过80％，则认为第一中心节点出现异常。

需要说明的是，根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常的所有方案中，比如，步骤S42至步骤S48中的方案，步骤S52至步骤S54中的方案，步骤S62至步骤S66中的方案，每一种方案可以是相互独立的，也可以是各个方案任意组合的，以确定第一中心节点是否出现异常。通过上述策略综合考虑了单台机器异常宕机以及网络隔离等情况，保证不会误判中心节点出现异常的情况。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种分布式系统，如图8所示，该系统包括：至少一个客户端、至少一个服务节点、至少一个中心节点和监控节点。

具体地，至少一个客户端，客户端用于将其访问服务节点和/或中心节点的访问信息发送至监控节点。

例如，至少一个客户端包括客户端A、客户端B、客户端C、客户端D。

至少一个服务节点，服务节点用于为客户端提供服务；

例如，至少一个服务节点包括服务节点A、服务节点B、服务节点C、服务节点D。

至少一个中心节点，中心节点用于管理服务节点；

例如，第一中心节点用于服务节点A、服务节点B、服务节点C、服务节点D。

监控节点，用于执行实施例1中任意一种分布式系统中的异常处理方法。

在一种可选的方案中，该系统还包括：服务节点用于定期发送心跳消息至中心节点；中心节点用于根据心跳消息确定服务节点是否异常。

确定异常的服务节点是在中心节点通过心跳消息监控服务节点是否异常的基础上，再额外并行地增加一层通过客户端的反馈来监控服务节点是否异常的机制。

在上述方案中，中心节点通过心跳消息监控服务节点是否异常，在通过心跳消息监控出服务节点异常的情况下，中心节点会及时确定第二服务节点来替换出现异常的第一服务节点，采用第二服务节点来为客户端提供服务。

在一种可选的方案中，该系统还包括：第一中心节点用于接收来自第一中心节点以外的中心节点的测试消息，并返回响应；第一中心节点以外的中心节点用于定期发送测试消息至第一中心节点，还用于根据第一中心节点的响应确定第一中心节点是否出现异常。

在上述方案中，第一中心节点以外的中心节点(备份中心节点)通过测试消息(ping消息)监控第一中心节点(主中心节点)异常，在通过测试消息监控出第一中心节点出现异常的情况下，会从备份中心节点中重新选举出第二中心节点替换出现异常的第一中心节点，采用第二中心节点来为客户端提供服务。

在一种可选的方案中，该系统还包括：监控节点还用于在确定第一服务节点或第一中心节点出现异常的情况下，向中心节点发送异常处理请求；中心节点还用于在接收到异常处理请求之后，判断中心节点做出的第二服务节点替代第一服务节点的决策是否达到上限值；若中心节点做出的第二服务节点替代第一服务节点的决策未达到上限值，则确定第二服务节点，第二服务节点替代第一服务节点来为客户端提供服务。

在上述方案中，在监测节点触发中心节点做决策时，增加了中心节点决策的上限值，上述的上限值可以根据集群规模自动计算得到上限值。以便保证中心节点加入黑名单的机器不会太多，防止对服务产生影响。

实施例3

根据本发明实施例，还提供了一种分布式系统中的异常处理方法，如图9所示，分布式系统包括客户端、为客户端提供服务的多个服务节点以及多个中心节点，其中，第一中心节点管理服务节点，该方法包括：

步骤S92，采集客户端访问第一中心节点的访问信息，访问信息中至少包括：客户端对第一中心节点的访问次数和异常访问次数；

步骤S94，根据访问信息，确定第一中心节点是否出现异常；

步骤S96，在确定第一中心节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二中心节点，第二中心节点替代第一中心节点来管理服务节点。

需要说明的是，上述步骤S92至步骤S96的执行主体为监控节点，也即监控节点基于客户端访问第一中心节点的访问信息及时确定出第一中心节点出现异常，向中心节点发送异常处理请求，请求中心节点确定第二中心节点替代第一中心节点，提升了对中心节点异常的处理效率，保证了分布式系统稳定运行的技术效果，进而解决了相关技术中只能通过监控发现，报警之后人为干预，造成对中心节点异常的处理效率较低的技术问题。

需要说明的是，根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常的所有方案中，每一种方案可以是相互独立的，也可以是各个方案任意组合的，以确定第一中心节点是否出现异常。通过上述策略综合考虑了单台机器异常宕机以及网络隔离等情况，保证不会误判中心节点出现异常的情况。

实施例4

根据本发明实施例，还提供了一种分布式系统，如图10所示，

该系统，包括：至少一个客户端，客户端用于将其访问中心节点的访问信息发送至监控节点。

例如，至少一个客户端中包括：客户端A、客户端B、客户端C、客户端D。

至少一个服务节点(图10中未示出)。

多个中心节点，其中第一中心节点用于管理服务节点。

例如，多个中心节点中包括第一中心节点、第二中心节点和第三中心节点。

监控节点，用于执行上述任意一种分布式系统中的异常处理方法。

实施例5

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的分布式系统中的异常处理方法中以下步骤的程序代码：采集客户端访问第一服务节点的访问信息，访问第一服务节点的访问信息中至少包括：客户端对第一服务节点的访问次数和异常访问次数；根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常；在确定第一服务节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二服务节点，第二服务节点替代第一服务节点来为客户端提供服务。

根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的步骤包括：确定访问第一服务节点的所有客户端的数量；确定访问第一服务节点出现异常的客户端的数量；根据访问第一服务节点出现异常的客户端的数量与访问第一服务节点的所有客户端的数量计算异常客户端率；至少根据异常客户端率来确定第一服务节点是否出现异常。

至少根据异常客户端率来确定第一服务节点是否出现异常的步骤包括：若异常客户端率大于第一预设阈值，则确定第一服务节点出现异常。

在确定访问第一服务节点出现异常的客户端的数量之前，方法还包括：确定访问第一服务节点出现异常的客户端，其中，若客户端对第一服务节点的异常访问次数与客户端对第一服务节点的访问次数之比超过第二预设阈值，则确定客户端访问第一服务节点出现异常。

至少根据异常客户端率来确定第一服务节点是否出现异常的步骤包括：在异常客户端率大于第三预设阈值时，确定访问第一服务节点存在异常访问的客户端的数量；若访问第一服务节点存在异常访问的客户端的数量与访问第一服务节点的所有客户端的数量之比大于第四预设阈值时，确定第一服务节点出现异常。

根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常的步骤包括：确定客户端对第一服务节点的总访问次数；确定客户端对第一服务节点的总异常访问次数；若总异常访问次数与总访问次数之比超过第五预设阈值，则确定第一服务节点出现异常。

在本实施例提供的，分布式系统中的异常处理方法中，方法还包括：采集客户端访问第一中心节点的访问信息，第一中心节点管理服务节点，访问第一中心节点的访问信息中至少包括：客户端对第一中心节点的访问次数和异常访问次数；根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常；在确定第一中心节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二中心节点，第二中心节点替代第一中心节点来管理服务节点。

在本实施例中，上述计算机终端可以执行应用程序的分布式系统中的异常处理方法中以下步骤的程序代码：采集客户端访问第一中心节点的访问信息，访问信息中至少包括：客户端对第一中心节点的访问次数和异常访问次数；根据访问信息，确定第一中心节点是否出现异常；在确定第一中心节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二中心节点，第二中心节点替代第一中心节点来管理服务节点。

根据访问信息，确定第一中心节点是否出现异常的步骤包括：确定访问第一中心节点的所有客户端的数量；确定访问第一中心节点出现异常的客户端的数量；根据访问第一中心节点出现异常的客户端的数量与访问第一中心节点的所有客户端的数量计算异常客户端率；至少根据异常客户端率来确定第一中心节点是否出现异常。

至少根据异常客户端率来确定第一中心节点是否出现异常的步骤包括：若异常客户端率大于第一预设阈值，则确定第一中心节点出现异常。

在确定访问第一中心节点出现异常的客户端的数量之前，方法还包括：若客户端对第一中心节点的异常访问次数与客户端对第一中心节点的访问次数之比超过第二预设阈值，则确定客户端访问第一中心节点出现异常。

至少根据异常客户端率来确定第一中心节点是否出现异常的步骤包括：在异常客户端率大于第三预设阈值时，确定访问第一中心节点存在异常访问的客户端的数量；若访问第一中心节点存在异常访问的客户端的数量与访问第一中心节点的所有客户端的数量之比大于第四预设阈值时，确定第一中心节点出现异常。

根据访问信息，确定第一中心节点是否出现异常的步骤包括：确定客户端对第一中心节点的总访问次数；确定客户端对第一中心节点的总异常访问次数；若总异常访问次数与总访问次数之比超过第五预设阈值，则确定第一中心节点出现异常。

本领域普通技术人员可以理解，图11所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图11所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1和3所提供的一种分布式系统中的异常处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集客户端访问第一服务节点的访问信息，访问第一服务节点的访问信息中至少包括：客户端对第一服务节点的访问次数和异常访问次数；根据访问第一服务节点的访问信息，确定第一服务节点是否出现异常；在确定第一服务节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二服务节点，第二服务节点替代第一服务节点来为客户端提供服务。

采集客户端访问第一中心节点的访问信息，第一中心节点管理服务节点，访问第一中心节点的访问信息中至少包括：客户端对第一中心节点的访问次数和异常访问次数；根据访问第一中心节点的访问信息，确定第一中心节点是否出现异常；在确定第一中心节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二中心节点，第二中心节点替代第一中心节点来管理服务节点。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集客户端访问第一中心节点的访问信息，访问信息中至少包括：客户端对第一中心节点的访问次数和异常访问次数；根据访问信息，确定第一中心节点是否出现异常；在确定第一中心节点出现异常的情况下，向中心节点发送异常处理请求，以便请求中心节点确定第二中心节点，第二中心节点替代第一中心节点来管理服务节点。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种分布式系统中的异常处理方法，所述分布式系统包括客户端、为所述客户端提供服务的多个服务节点以及管理所述服务节点的中心节点，所述方法包括：

采集所述客户端访问第一服务节点的访问信息，所述访问第一服务节点的访问信息中至少包括：所述客户端对所述第一服务节点的访问次数和异常访问次数、访问第一服务节点出现异常的客户端的数量与访问第一服务节点的所有客户端的数量，其中，访问第一服务节点出现异常的客户端是指对所述第一服务节点的异常访问次数与对所述第一服务节点的访问次数之比超过第二预设阈值的客户端；

根据访问所述第一服务节点出现异常的客户端的数量与访问所述第一服务节点的所有客户端的数量计算异常客户端率；

至少根据所述异常客户端率来确定所述第一服务节点是否出现异常；

在确定所述第一服务节点出现异常的情况下，向所述中心节点发送异常处理请求，以便请求所述中心节点确定第二服务节点，所述第二服务节点替代所述第一服务节点来为所述客户端提供服务。

2.根据权利要求1所述的方法，其中，至少根据所述异常客户端率来确定所述第一服务节点是否出现异常的步骤包括：若所述异常客户端率大于第一预设阈值，则确定所述第一服务节点出现异常。

3.根据权利要求1所述的方法，其中，在确定访问所述第一服务节点出现异常的客户端的数量之前，所述方法还包括：

确定访问所述第一服务节点出现异常的客户端。

4.根据权利要求1所述的方法，其中，至少根据所述异常客户端率来确定所述第一服务节点是否出现异常的步骤包括：

在所述异常客户端率大于第三预设阈值时，确定访问所述第一服务节点出现异常访问的客户端的数量；

若访问所述第一服务节点出现异常访问的客户端的数量与访问所述第一服务节点的所有客户端的数量之比大于第四预设阈值时，确定所述第一服务节点出现异常。

5.根据权利要求1所述的方法，其中，所述方法还包括：

采集所述客户端访问第一中心节点的访问信息，所述第一中心节点管理所述服务节点，所述访问第一中心节点的访问信息中至少包括：所述客户端对所述第一中心节点的访问次数和异常访问次数；

根据所述访问第一中心节点的访问信息，确定所述第一中心节点是否出现异常；

在确定所述第一中心节点出现异常的情况下，向所述中心节点发送异常处理请求，以便请求所述中心节点确定第二中心节点，所述第二中心节点替代所述第一中心节点来管理所述服务节点。

6.一种分布式系统，包括：

至少一个客户端，所述客户端用于将其访问服务节点和/或中心节点的访问信息发送至监控节点；

至少一个服务节点，所述服务节点用于为客户端提供服务；

至少一个中心节点，所述中心节点用于管理所述服务节点；

监控节点，用于执行权利要求1至5中任意一项所述的分布式系统中的异常处理方法。

7.根据权利要求6所述的系统，其中，所述系统还包括：

所述服务节点用于定期发送心跳消息至所述中心节点；

所述中心节点用于根据所述心跳消息确定所述服务节点是否异常。

8.根据权利要求6所述的系统，其中，所述系统还包括：

第一中心节点用于接收来自所述第一中心节点以外的中心节点的测试消息，并返回响应；

所述第一中心节点以外的中心节点用于定期发送测试消息至所述第一中心节点，还用于根据所述第一中心节点的响应确定所述第一中心节点是否出现异常。

9.根据权利要求6所述的系统，其中，所述系统还包括：

所述监控节点还用于在确定第一服务节点或第一中心节点出现异常的情况下，向所述中心节点发送异常处理请求；

所述中心节点还用于在接收到所述异常处理请求之后，判断所述中心节点做出的所述第二服务节点替代所述第一服务节点的决策是否达到上限值；若所述中心节点做出的所述第二服务节点替代所述第一服务节点的决策未达到上限值，则确定第二服务节点，所述第二服务节点替代所述第一服务节点来为所述客户端提供服务。

10.一种分布式系统中的异常处理方法，所述分布式系统包括客户端、为所述客户端提供服务的多个服务节点以及多个中心节点，其中，第一中心节点管理所述服务节点，所述方法包括：

采集所述客户端访问所述第一中心节点的访问信息，所述访问信息中至少包括：所述客户端对所述第一中心节点的访问次数和异常访问次数、访问第一中心节点出现异常的客户端的数量与访问第一中心节点的所有客户端的数量，其中，访问第一中心节点出现异常的客户端是指对所述第一中心节点的异常访问次数与对所述第一中心节点的访问次数之比超过第二预设阈值的客户端；

根据访问所述第一中心节点出现异常的客户端的数量与访问所述第一中心节点的所有客户端的数量计算异常客户端率；

至少根据所述异常客户端率来确定所述第一中心节点是否出现异常；

11.根据权利要求10所述的方法，其中，至少根据所述异常客户端率来确定所述第一中心节点是否出现异常的步骤包括：若所述异常客户端率大于第一预设阈值，则确定所述第一中心节点出现异常。

12.根据权利要求10所述的方法，其中，至少根据所述异常客户端率来确定所述第一中心节点是否出现异常的步骤包括：

在所述异常客户端率大于第三预设阈值时，确定访问所述第一中心节点出现异常访问的客户端的数量；

若访问所述第一中心节点出现异常访问的客户端的数量与访问所述第一中心节点的所有客户端的数量之比大于第四预设阈值时，确定所述第一中心节点出现异常。

13.一种分布式系统，包括：

至少一个客户端，所述客户端用于将其访问中心节点的访问信息发送至监控节点；

至少一个服务节点；

多个中心节点，其中第一中心节点用于管理所述服务节点；

监控节点，用于执行权利要求10至12中任意一项所述的分布式系统中的异常处理方法。

14.根据权利要求13所述的系统，其中，所述系统还包括：

15.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的分布式系统中的异常处理方法。

16.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求10至12中任意一项所述的分布式系统中的异常处理方法。

17.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述的分布式系统中的异常处理方法。

18.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求10至12中任意一项所述的分布式系统中的异常处理方法。