CN115150460A

CN115150460A - 一种节点安全注册方法、装置、设备及可读存储介质

Info

Publication number: CN115150460A
Application number: CN202210764537.XA
Authority: CN
Inventors: 侯满
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-04

Abstract

本发明公开了一种节点安全注册方法，包括：获取节点的上下线信息和资源信息；根据上下线信息和资源信息，确定节点是否处于高负载故障状态；若节点处于高负载故障状态，则对节点启动熔断保护；本发明通过上下线信息和资源信息综合评估节点是否处于高负载故障状态，若节点处于高负载故障状态，就会启动熔断机制，阻止节点进行非正常的上下线动作。完善了节点状态注册评估机制，有效避免了因异常状况引起资源挤兑和数据处理异常，保护节点和集群稳定运行；此外，本发明还提供了一种节点安全注册装置、设备及计算机可读存储介质，同样具有上述有益效果。

Description

一种节点安全注册方法、装置、设备及可读存储介质

技术领域

本发明涉及大数据领域，特别涉及一种节点安全注册方法、装置、设备及计算机可读存储介质。

背景技术

当前大数据领域存在多种快速检索系统，多数检索系统均为多节点并行提供服务的分布式系统，在日常运行中涉及多服务器上多服务节点的并发运行和检索计算，在原有的架构中通常具有完整的选举机制以及各个服务节点上线离线的规则控制，一般过程为普通数据节点服务上线并请求加入集群，主服务master节点接收到上线节点的请求后进行节点验证并放行加入，这样可以保证服务节点的正常上线加入集群，并开始重新均衡迁移数据分片，而节点离线时同样有相应的离线剔除规则，并启动在存活节点恢复离线的数据分片保证数据的高可用的机制，因此维持服务节点的稳定运行十分重要。现有技术在检索集群中，节点的上下线依赖于zen discovery(发现机制)服务，该服务以节点配置的主机节点列表为seed nodes(种子节点)，通过多轮的点对点ping request(命令请求)进行节点的通讯检查验证(Goss ip协议)，该过程通过ping_interval(命令间隔)、ping_t imeout(超时时间)、ping_retries(重试次数)等多个配置共同控制探测间隔频率、超时和重试等操作控制，可以快速通过多轮检查的结果响应确认集群所有节点的状态等信息。由于discovery为轻量型架构，通过该机制可快速把控整体集群节点的角色和状态，最终确定各节点的信息同步、信息响应和角色任务执行，为选举和节点上下线提供依据基础。

当检索集群出现ping request探测到异常节点或者感知到新增加入节点，就会触发节点上下线，此时集群会根据节点角色配置进行响应操作，如根据数据均衡情况自动启动集群节点间的数据迁移。虽然现有的discovery节点机制可以保证一般情况下集群节点状态探测和集群响应，但在一些异常场景的处理中缺乏灵活的验证机制。当一些高负载大规模集群中由于集群高负荷运行，资源被多种应用程序或者同一机器的多实例检索服务节点共用，因资源挤占容易导致服务节点状态异常，节点出现非正常的上下线情况，消耗较多不必要的集群性能，造成节点和集群运行不稳定，而检索集群无法对异常场景下的状况进行很好的监控和处理。

发明内容

有鉴于此，本发明的目的在于提供一种节点安全注册方法、装置、设备及计算机可读存储介质，解决了因资源挤占导致的服务节点异常的问题。

为解决上述技术问题，本发明提供了一种节点安全注册方法，包括：

获取节点的上下线信息和资源信息；

根据所述上下线信息和所述资源信息，确定所述节点是否处于高负载故障状态；

若所述节点处于高负载故障状态，则对所述节点启动熔断保护。

可选的，所述根据所述上下线信息和所述资源信息，确定所述节点是否处于高负载故障状态，包括：

根据所述上下线信息判断所述节点是否存在上下线异常；

若所述节点存在上下线异常，则根据所述资源信息判断所述节点是否存在资源异常；

若所述节点存在资源异常，则确定所述节点处于高负载故障状态。

可选的，所述根据所述上下线信息判断所述节点是否存在上下线异常，包括：

统计所述节点在当前周期内的上下线次数，根据所述节点在当前周期内的上下线次数是否超过第一阈值判断所述节点是否存在上下线风险；

若所述节点存在上下线风险，则统计所述节点在历史第一时间段内所述上下线风险的次数，根据所述上下线风险的次数是否超过第二阈值判断所述节点是否存在上下线异常，若所述上下线风险的次数超过所述第二阈值，则确定所述节点存在上下线异常；

若所述节点不存在上下线风险，则统计所述节点在历史第二时间段内的上下线的次数，根据所述节点在历史第二时间段内的上下线次数是否超过第三阈值判断所述节点是否存在上下线异常，若所述节点在历史第二时间段内的上下线次数超过所述第三阈值，则确定所述节点存在上下线异常；

其中所述历史第二时间段大于所述历史第一时间段，所述历史第一时间段大于所述当前周期。

可选的，所述若所述节点存在上下线异常，则根据所述资源信息判断所述节点是否存在资源异常，包括：

根据所述节点在当前周期内的资源信息判断所述节点在当前周期内是否存在资源异常；

若所述节点在当前周期内存在资源异常，则根据所述节点在历史第三时间段内的资源信息判断所述节点在历史第三时间段内是否存在资源异常；

若所述节点在历史第三时间段内存在资源异常，则确定所述节点资源异常；

若所述节点在历史第三时间段内不存在资源异常，则获取所述节点在下一周期内的资源信息，根据所述节点在下一周期内的资源信息判断所述节点在下一周期内是否存在资源异常；

若所述节点在下一周期内存在资源异常，则确定所述节点资源异常。

可选的，所述根据所述节点的在当前周期内的资源信息判断所述节点在当前周期内是否存在资源异常，包括：

根据所述节点在当前周期内的第一资源信息判断所述节点在当前周期内第一资源是否异常；

若所述节点在当前周期内的第一资源信息异常，则确定所述节点在当前周期内存在资源异常；

若所述节点在当前周期内的第一资源不异常，则根据所述节点在当前周期内的第二资源判断所述节点在当前周期内的第二资源是否异常，若所述节点在当前周期内的第二资源异常，则确定所述节点在当前周期内存在资源异常。

可选的，所述根据所述节点在当前周期内的第一资源信息判断所述节点在当前周期内第一资源是否异常，包括：

若所述节点的在当前周期内的第一资源信息任意一个异常则确定所述节点在当前周期内第一资源异常；

其中所述第一资源信息包括内存信息、磁盘信息、CPU信息。

可选的，在所述则对则对所述节点启动熔断保护之后，还包括：

将所述节点设置为静默状态，并持续监测所述节点的资源信息，当达到预设条件时，则控制所述节点重新上线。

本发明还提供了一种节点安全注册装置，包括：

获取模块，用于获取节点的上下线信息和资源信息；

判断模块，用于根据所述上下线信息和所述资源信息，确定所述节点是否处于高负载故障状态；

保护模块，用于若所述节点处于高负载故障状态，则对所述节点启动熔断保护。

本发明还提供了一种节点安全注册设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现上述的节点安全注册方法。

本发明还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的节点安全注册方法。

可见，本方法获取节点的上下线信息和资源信息，根据上下线信息和资源信息，根据上下线信息和资源信息，确定节点是否处于高负载故障状态，若节点处于高负载故障状态，则对节点启动熔断保护。本方法通过上下线信息和资源信息综合评估节点是否处于高负载故障状态，若节点处于高负载故障状态，就会启动熔断机制，阻止节点进行非正常的上下线动作。完善了节点状态注册评估机制，有效避免了因异常状况引起资源挤兑和数据处理异常，保护节点和集群稳定运行。

此外，本发明还提供了一种节点安全注册装置、设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种节点安全注册方法流程图；

图2为本发明实施例提供的另一种节点安全注册方法流程图；

图3为本发明实施例提供的另一种节点安全注册方法流程图；

图4为本发明实施例提供的另一种节点安全注册方法流程图；

图5为本发明实施例提供的另一种节点安全注册方法流程图；

图6为本发明实施例提供的另一种节点安全注册方法流程图；

图7为本发明实施例提供的一种节点安全注册装置的结构示意图；

图8为本发明实施例提供的一种节点安全注册设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一些异常场景下，如高负载大规模集群，由于集群高负载运行，资源被多种应用程序或同一机器的多实例检索服务节点共用，一旦出现资源挤兑，容易导致服务节点状态异常，进而导致节点断联被识别为异常节点引起下线，当资源被短暂释放后，节点又会重新被集群识别进而上线，如此反复引起节点非正常上下线的恶性循环，不仅导致节点上下线异常，还会因为节点频繁上下线操作导致数据分片频繁启动与断联，引起关联分片的增减，消耗较多不必要的集群性能，也使得节点和集群不稳定。本发明在现有的Discovery机制中新增安全注册流程，再通过Discovery对节点进行状态收集、监控和处理时，加入完善的节点状态注册评估机制，保护节点和集群稳定运行。

实施例1：

请参考图1，图1为本发明实施例提供的一种节点安全注册方法流程图。

该方法包括：

S101：获取节点的上下线信息和资源信息。

本实施例处理对象为Discovery机制。本实施例并不限定获取上下线信息和资源信息的频率，例如可以实时获取，即每执行完一次获取操作，立即执行下一次获取操作；或者还可以每隔预设时间执行一次获取操作，例如每隔2分钟进行一次获取操作；或者还可以根据集群规模和状态预先设定获取频率，保证检测运行的合理；还可以先设定一套默认的获取参数，包括需要获取的信息列表和频率，按照默认参数进行获取，还可以在默认的基础上添加一个自定义参数控制窗口，用户可以自定义获取指标及频率，在基础默认频率上进行调整。为了保证及时根据节点的信息做出节点状态的判断，本实施例可以采用实时获取的方式对节点的上下线信息和资源信息进行获取操作。本实施例并不对节点上下线信息的频率和资源信息的频率设定方法做限定，可以是将获取节点上下线信息的频率和获取资源信息的频率设置一致；也可以将获取上下线信息的频率和获取资源信息的频率设置不一致，即分别设定各自信息的获取频率，进一步，本实施例并不限定各自获取频率的大小，例如可以是获取节点的上下线信息的频率大于获取资源信息的频率；还可以是获取资源的频率大于获取上下线的频率；还可以是设定预设条件，达到预设条件时，提高对应的信息获取频率。

本实施例并不对节点上下线信息进行限定，例如可以是节点每次上下线的时间点；或者还可以是每次上下线的时间间隔；或者还可以是一定时间内节点每次上下线的次数，即频率；或者还可以是节点上下线成功状态；或者还可以是数据分片恢复情况。进一步，本实施例并不限定获取节点上下线信息的个数，用户根据实际情况进行设定，例如可以获取节点的一个上下线信息；还可以获取节点的多个上下线信息。

本实施例并不对资源信息进行限定，例如可以是CPU(Central Processing Unit，中央处理器)信息；或者还可以是RAM(Ramdom Access Memor，随机存取存储器)内存信息；或者还可以是硬盘信息；或者还可以是磁盘性能监控信息，即磁盘空间容量；或者还可以是网络监控信息，监控网络的健康状态；还可以是读写状态。其中的CPU信息、RAM内存信息、硬盘信息、磁盘空间容量可以是资源使用情况，或者还可以是资源的剩余情况。进一步，本实施例并不限定获取资源信息的个数，用户根据实际情况进行设定，例如可以获取节点的一个资源信息；还可以获取节点的多个资源信息。本实施例并不限定获取的先后顺序，例如可以同时获取节点的上下线信息和资源信息；还可以先获取上下线信息，再获取资源信息；还可以先获取资源信息，再获取上下线信息。

S102：根据上下线信息和资源信息，确定节点是否处于高负载故障状态。

本步骤不限定具体的确定过程，例如可以先对上下线信息和资源信息进行分析，本实施例并不限定分析的频率，例如可以具有周期性的对上下线信息和资源信息进行分析；还可以实时分析。进一步的，本实施例可以同时分析上下线信息和资源信息；或者还可以先分析上下线信息再分析资源信息；或者还可以先分析资源信息再分析上下线信息；其中当分析具有先后顺序后，可以设定一定的预设条件，再判断是否执行后续的分析，例如可以是设定预设条件为分析异常，当分析上下线信息发现上下线异常时，再对资源信息进行分析。其中，由于步骤S101中并不限定上下线信息和资源信息的个数及内容，因此本实施例并不限定上下线信息分析内容和对资源信息分析内容，例如可以将获取的全部信息进行分析，若存在一个异常则判断异常；或者还可以是挑选重要的获取信息，当重要的获取信息存在异常时，则异常，本实施例并不限定重要的获取信息的个数与内容，用户根据实际情况进行设定。其中本实施例并不限定具体的信息异常的判断条件，例如可以是超过阈值；或者还可以是否成功；其中阈值和成功条件由用户根据实际情况进行设定。

S103：若节点处于高负载故障状态，则对节点启动熔断保护。

本发明实施例通过判断节点处于高负载故障状态后，按照熔断指令对异常的节点启动熔断保护，立即对节点服务进行强制离线操作，关闭节点的ping request通讯服务，停止回复集群的响应动作和数据分片恢复动作，只保留必要的接受指令服务运行。

为了维护集群节点的动态健康和运行更加稳定，在对节点启动熔断保护后，本实施例的节点可以处于静默状态，并持续监测节点的资源信息，当达到预设条件时，则控制节点重新上线，开启节点的ping request通讯服务，启动集群的响应动作，恢复节点服务以及恢复数据分片。其中，本实施例并不对预设条件做限定，例如预设条件可以是资源信息恢复安全；例如还可以是达到静默时间，其中本实施例并不对静默时间做限定，用户根据实际情况自行设定。对异常节点进行持续检测，当达到一定的条件时，恢复节点的上线动作，节点重新上线，维护集群节点的动态健康和运行更加稳定，保证节点始终处于动态的安全注册过程中。

应用本发明实施例提供的节点安全注册方法，获取节点的上下线信息和资源信息；根据上下线信息和资源信息，确定节点是否处于高负载故障状态；若节点处于高负载故障状态，则对节点启动熔断保护。本方法通过上下线信息和资源信息综合评估节点是否处于高负载故障状态，若节点处于高负载故障状态，就会启动熔断机制，阻止节点进行非正常的上下线动作。更加完善了节点状态注册评估机制，有效避免了因异常状况引起资源挤兑和数据处理异常，保护节点和集群稳定运行。并在熔断后持续监测节点的资源信息，当达到预设条件时，则重新上线，可以维护集群节点的动态健康，使运行更加稳定，保证节点始终处于动态的安全注册过程中。

基于上述实施例，可以先分析上下线信息，并通过分析上下线信息得出上下线异常后，再对资源信息进行分析，若资源异常，则确定节点处于高负载故障状态。先对上下线信息进行分析，达到条件后再开启后续的分析过程，若未达到条件，则不进行后续的分析过程，节省了后续分析信息的时间，提高了分析效率。

实施例2：

请参考图2，图2为本发明实施例提供的另一种节点安全注册方法流程图，包括：

S201，获取节点的上下线信息和资源信息。

本实施例中的步骤S201与实施例1中的步骤S101一致，详细内容请参考实施例1中的步骤S101。

S202，根据节点的上下线信息判断是否存在上下线异常。

本发明实施例通过判断节点上下线信息确定是否存在上下线异常的情况。本实施例并不对判断的具体节点上下线信息做限定，不限定内容与实施例1中的不限定节点上下线信息一致，详细请参考实施例1中的步骤S101。

本实施例并不限定上下线异常的时间段，例如，可以直接根据当前周期的上下线信息判断上下线是否异常；还可以根据历史时间段的上下线信息判断上下线是否异常；还可以是根据当前周期和历史时间段的上下线信息综合判断上下线是否异常。其中本实施例并不限定当前周期和历史时间段判断上下线是否异常的先后顺序，例如可以先判断当前周期的上下线信息是否异常，若异常，即存在上下线风险，则获取历史时间段的上下线信息，再判断历史周期的上下线信息是否异常；还可以是将当前周期的信息和历史时间段的上下线信息合并一起判断上下线是否异常。其中本实施例并不限定上下线风险的具体判断条件，不限定内容与实施例1的步骤S102中的对分析节点上下线信息的不限定内容一致，在保证效率和准确率的同时，本实施例上下线风险的判断条件可以是在当前周期内上下线次数达到一定阈值时，确认存在上下线风险，因为上下线次数是判断上下线是否存在异常的重要指标，所以可以通过判断上下线次数确定节点在当前周期内上下线是否存在风险，提高了效率的同时能够保证准确性，其中本实施例并不对阈值做限定，用户根据实际情况自行设定。

为了使判断条件更加充分，减少对节点上下线异常的判断遗漏，提高准确率，在当确认不存在上下线风险时，还可以通过获取更长历史时间段内的上下线次数判断上下线是否异常。

综上，根据节点的上下线信息判断是否存在上下线异常的具体内容如图3所示，图3为发明实施例的另一种安全注册方法流程图。

S301，统计节点在当前周期内的上下线次数。

本实施例并不对当前周期做限定，例如周期可以是1分钟；或者还以是2分钟，用户根据实际情况自行设定。

S302，判断节点在当前周期内的上下线次数是否超过第一阈值，若是，则存在上下线风险，执行步骤S303，若否，则不存在上下线风险，执行步骤S305。

本实施例并不对当前周期和第一阈值限定，例如可以是1分钟1次，若统计的上下线次数在1分钟内超过1次，存在异常上下线异常风险，则执行步骤303，若统计的上下线次数在1分钟内未超过1次，则执行步骤305。

S303，统计节点在历史第一时间段内上下线风险的次数。

本实施例并不对历史第一时间段做限定，只要满足大于当前周期即可，例如当前周期设定为1分钟，则历史第一时间段可以是2分钟，还可以是3分钟。

S304，判断上下线风险的次数是否超过第二阈值，若是，则执行S307。

本实施例并不对第二阈值做限定，用户根据实际情况自行设置。

S305，统计节点在历史第二时间段内的上下线次数。

本实施例并不对历史第二时间段做具体的限定，只要满足大于历史第一时间段即可，例如历史第一时间段设定为5分钟，则历史第二时间段可以为10分钟，还可以是15分钟。

S306，判断节点在第二时间段内的上下线次数是否超过第三阈值，若是，则执行S307。

本实施例并不对第三阈值做限定，用户根据实际情况自行设置。

S307，确定为节点存在上下线异常。

通过以上步骤确定为节点存在上下线异常，为了更好的充分分析以及更迅速的做出反应，节约时间，可以将异常信息以及异常信息出现的时间记录备档在服务所在节点，每一个异常记录形成一个事件，形成节点上下线事件时间线。

下面结合一个具体的例子解释上述根据上下线信息判断是否上下线异常：

设定当前周期为1分钟，第一阈值为1，历史第一时间段为3分钟，第二阈值为3，历史第二时间段为20分钟，第三阈值为5。若在当前周期1分钟内存在1次上下线动作，则确定存在异常风险，则获取当前周期之前的3分钟时间段内的上下线信息，当存在大于3次的上下线动作时，则确定上下线异常；若当前周期1分钟内不存在上下线动作，则统计在当前周期之前的20分钟时间段内上下线的次数，若在当前周期之前的20分钟时间段内上下线的次数大于5次，则确定上下线异常。

S203，根据节点的资源信息判断节点是否存在资源异常。

本发明实施例通过判断节点的资源信息确定是否存在资源异常的情况。本实施例并不对判断的具体节点的资源信息做限定，不限定内容与实施例1中的不限定节点的资源信息一致，详细请参考实施例1中的步骤S101。本实施例还可以将要分析的资源信息分为第一资源信息(固定资源信息)，还有(自定义的资源信息)，本实施例并不对固定资源信息和自定义信息做限定，根据用户的实际情况自行设定。

为了后续更好的对节点的资源情况进行分析，依据经验本实施例可以分析节点的CPU使用信息、RAM内存信息、硬盘信息、磁盘性能监控信息、网络监控信息，其中将CPU使用信息、RAM内存信息、硬盘信息作为第一资源信息，这样设置可以提高判断速度，且能够保证判断的准确性。

本实施例并不限定资源异常的时间段，例如，可以直接根据当前周期内的资源信息判断资源是否异常；还可以根据历史时间段的资源信息判断资源是否异常，还可以是根据当前周期和历史时间段的资源信息综合判断资源是否异常。其中本实施例并不限定当前周期和历史时间段判断资源是否异常的先后顺序，例如可以先判断当前周期的资源信息是否异常，若异常，则获取历史时间段的资源信息，再判断历史周期的资源信息是否异常；还可以是将当前周期的资源信息和历史时间段的资源信息合并一起判断资源是否异常。其中本实施例并不限定当前周期的资源异常的具体判断条件，不限定内容与实施例1的步骤S102中的分析资源信息内容相同，在保证效率和准确率的同时，本实施例当前周期的资源异常的判断条件可以是在判断当前周期内第一资源信息和第二资源信息，本实施例并不限定判断顺序，例如可以是同时判断，还可以先判断当前周期内第一资源信息，再判断第二资源信息；其中当存在判断顺序后还可以是达到预设条件时再进行二次判断，例如可以当前周期内第一资源信息未异常时，再对第二资源信息进行判断，若当前周期内第一资源信息异常，则直接确定当前周期内资源异常。本实施例并不限定第一资源异常的判断条件，例如可以是CPU使用信息异常；还可以是RAM内存信息异常，还可以是硬盘信息异常；进一步，为了更快速的做出反应，当第一资源信息中存在一个异常则确定节点的当前周期内第一资源信息异常。本实施例对第二资源异常的判定条件的不限定内容与第一资源异常的判断条件的不限定内容相似，在此不再赘述。

为了更全面的对资源进行分析，当节点在当前周期内存在资源异常，而节点在历史时期内不存在异常，则需获取下一个周期内的资源信息，若下一个周期内的资源信息存在异常，则节点的资源信息异常。

综上，根据节点的资源信息判断是否存在资源异常的具体内容如图4所示，图4为发明实施例的另一种安全注册方法流程图，包括：

S401，根据节点的当前周期内的资源信息判断当前周期内是否存在资源异常，若是，则执行步骤S402。

本实施例先判断当前周期内第一资源信息是否异常，若未异常，则再判断当前周期内第二资源信息是否异常。具体请参考图5，图5为发明实施例的另一种安全注册方法流程图，包括：

S501，根据节点在当前周期内第一资源信息判断在当前周期内第一资源信息是否异常，若是，则执行步骤S502，若否则执行步骤S503。

本实施例并不对周期做限定，本实施例中第一资源信息可以为CPU使用信息、RAM内存信息、硬盘信息，若其中一个存在异常，则当前周期内第一资源异常。本实施例并不限定CPU异常判断条件，例如可以是使用率超过某数值(自行设定)，或者还可以是CPU队列数最大超过某数值(自行设定)；进一步本实施例并不限定判断CPU情况的条件个数，例如可以是一个，还可以是多个。本实施例可以通过判断RAM内存的使用率超过某数值(自行设定)确定RAM内存情况；本实施例并不限定硬盘异常的判断条件，例如可以是数据盘超过某数值(自行设定)，或者还可以是数据盘超过某数值(自行设定)，进一步本实施例并不限定判断硬盘情况的条件个数，例如可以是一个，还可以是多个。当上述信息异常时，则需产生相应的预警动作，并记录资源信息，可以将异常信息以及异常信息出现的时间记录备档在服务所在节点，每一个异常记录形成一个事件，形成节点第一资源事件时间线。

S502，确定节点在当前周期内存在资源异常。

确定节点在当前周期内存在资源异常情况，本实施例对周期并不限定。

S503，根据节点在当前周期内第二资源判断在当前周期内第二资源是否异常，若是，则执行步骤S502。

第二资源为自定义资源，若第二资源存在一个异常则确定当前周期内第二资源异常。本实施例并不对第二资源信息进行限定，例如可以是网络监控信息；还可以是磁盘性能监控信息。本实施例并不限定网络异常判断条件，例如可以是网络传输延迟；或者还可以是网络丢包率超出丢包率阈值，进一步本实施例并不限定判断网络的条件个数，例如可以是一个，还可以是多个本实施例并不限定磁盘异常的判断条件，例如可以是当磁盘使用率超过磁盘使用阈值；或者还可以是队列延迟参数达到参数阈值时，进一步本实施例并不限定判断磁盘的条件个数，例如可以是一个，还可以是多个；其中磁盘使用阈值、参数阈值、丢包率阈值、网络延迟的时间均由用户根据实际情况自行设定。当上述信息异常时，则需产生相应的预警动作，并记录相应的资源信息，可以将异常信息以及异常信息出现的时间记录备档在服务所在节点，每一个异常记录形成一个事件，形成节点第二资源事件时间线。

S402，根据节点的历史第三时间段内资源信息判断节点在历史第三时间段内是否存在资源异常，若是，则执行步骤S403，若否，执行步骤S404。

本实施例并不对历史第三时间段做限定，用户根据实际情况自行设定，本实施例的资源异常可以包括其中第一资源异常或者第二资源异常均为资源异常状况。

S403，确定资源异常。

确定节点的资源处于异常状态。

S404，获取下一周期内的资源信息。

若仅仅当前周期内存在资源信息异常的情况下，但历史第三时间内未存在资源异常，则需获取下一周期内的资源信息。

S405，根据下一周期内的资源信息判断下一周期内是否存在资源异常，若是，则执行步骤S403。

根据下一周期内的资源信息判断下一周期内是否存在资源异常的不限定内容与实施例2中步骤S501中根据所节点的当前周期内的资源信息判断当前周期内是否存在资源异常的不限定内容一致，具体内容请参考实施例2中步骤S501。

下面结合一个具体的例子解释上述根据资源信息判断是否资源异常：

将CPU使用信息、内存使用信息、磁盘性能监控信息设定为第一资源信息；将网络监控信息、磁盘性能监控信息设定为第二资源信息；则默认CPU可以超过100％，默认CPU队列数最大不超过10；默认RAM内存使用不能超过85％；默认磁盘使用率超过100％，且队列延时参数在不能超过500ms。设置网络阈值参数，网络延迟不能大于200ms且丢包率不能大于0.5％；设置磁盘信息参数，磁盘使用率不能超过100％且队列延时参数不能大于500ms。周期设定为1分钟，历史第三时间设定为10分钟，则分析当前1分钟内第一资源信息是否存在异常，若其中一个存在异常如CPU使用异常，则判定为当前周期内资源信息异常；若当前1分钟内第一资源信息未异常，则分析当前1分钟内第二资源信息是否出现异常，若其中一个存在异常如磁盘使用信息异常，则判定当前周期内资源信息异常；当当前周期内资源信息异常时，再分析前十分钟内异常的资源信息是否存在，若存在则确定节点的资源信息异常，若不存在，则等待下1分钟内获取的资源信息，若下1分钟内异常资源信息仍异常，则确定节点的资源信息异常，若下1分钟内异常资源信息恢复，则确定节点的资源信息正常。

为了能够更好的对数据进行分析与应用，本实施例可以将每个周期获取的节点监测信息进行记录，将数据进行封装，并将节点第一资源事件时间线、节点第二资源事件时间线、节点上下线事件时间线相融合形成事件时间线，便于通过事件时间线对节点状态进行分析。为了更加及时的对异常节点做出响应，提高整体的工作效率，本实施例可以当判定节点的事件时间线出现异常事件时，提高分析事件的优先级，并提高节点的监测频率和判断频率，例如可以是当判定当前节点存在上下线风险，则立即获取历史第一时间段内的上下线信息，统计在历史上第一时间段内的上下线次数，将此动作的优先级设置为最高级；例如还可以是当判定当前资源信息异常，则立即获取历史第三时间段内的资源信息，将此动作的优先级设置为最高级。

S204，确定处于高负载故障状态，对节点启动熔断保护，并持续监测资源信息，达到预设条件时，控制节点重新上线。

本步骤的内容与实施例1中的步骤S103的内容一致，详细请参考实施例1中的步骤S103。

本实施例在实施例1的基础上，先根据当前周期内节点的上下线次数确定是否存在上下线风险，如果存在风险，则再根据历史第一时间段内的风险次数判断是否存在上下线异常，若果不存在风险，则根据历史第二时间段内的上下线次数判断是否存在上下线异常。本方法可以增加判断的准确性，不仅仅需要判断当前的节点上下线状态，还需要分析更长时间内的上下线状态，避免轻易就产生熔断，减少处理器的负担。

本实施例将资源信息划分为第一资源信息和第二资源信息，其中第一资源信息包括内存信息、磁盘信息、CPU信息，且将第一资源信息中任意一个异常则第一资源信息异常，并在当前周期内，先判断第一资源信息情况，若第一资源信息未异常，再判断第二资源信息，减少了判断内容，节约了一定的资源。若当前周期内资源信息异常时，则分析在历史第三时间段内的资源信息情况，若当前周期内资源信息未异常，则等待获取下一周期的资源信息并分析，整体综合分析得出资源的情况，更为准确，避免造成误判，提高准确性。其中第二资源信息具体内容和具体信息是否异常的阈值由用户自行设定，应用场景更为广泛。

本实施例将异常信息进行记录形成事件时间线，更有利于对当前数据和历史数据整体进行分析，提高效率，且当事件时间线中存在异常信息时，则迅速将相应的处理优先级提高至最高最优先，及时处理异常风险，做出相应的判断与反映，避免造成资源的浪费。具体请参考图6，图6为本发明实施例提供的另一种节点安全注册方法流程图。

下面对本发明实施例提供的节点安全注册装置进行介绍，下文描述的节点安全注册装置与上文描述的节点安全注册方法可相互对应参照。

请参考图7，图7为本发明实施例提供的一种节点安全注册装置的结构示意图，可以包括：

获取模块100，用于获取节点的上下线信息和资源信息；

判断模块200，用于根据上下线信息和资源信息，确定节点是否处于高负载故障状态；

保护模块300，用于若节点处于高负载故障状态，则对节点启动熔断保护。

应用本发明实施例提供的节点安全注册装置，获取节点的上下线信息和资源信息；根据上下线信息和资源信息，确定节点是否处于高负载故障状态；若节点处于高负载故障状态，则对节点启动熔断保护。本装置通过上下线信息和资源信息综合评估节点是否处于高负载故障状态，若节点处于高负载故障状态，就会启动熔断机制，阻止节点进行非正常的上下线动作。更加完善了节点状态注册评估机制，有效避免了因异常状况引起资源挤兑和数据处理异常，保护节点和集群稳定运行。

基于上述实施例，其中获取模块100，可以包括：

第一获取单元，用于获取上下线信息；

第二获取单元，用于获取资源信息。

基于上述实施例，其中判断模块200，可以包括：

第一判断单元，用于根据上下线信息判断节点是否存在上下线异常；

第二判断单元，用于若节点存在上下线异常，则根据资源信息判断节点是否存在资源异常；

第一确定单元，用于若节点存在资源异常，则确定节点处于高负载故障状态。

基于上述实施例，其中在保护模块300之后，还可以包括：

控制单元，用于将节点设置为静默状态，并持续监测节点的资源信息，当达到预设条件时，则控制节点重新上线。

基于上述实施例，其中第一判断单元，可以包括；

第一统计子单元，用于统计节点在当前周期内的上下线次数；

第一判断子单元，用于根据节点在当前周期内的上下线次数是否超过第一阈值判断节点是否存在上下线风险；

第二统计子单元，用于若节点存在上下线风险，则统计节点在历史第一时间段内上下线风险的次数；

第二判断子单元，用于根据上下线风险的次数是否超过第二阈值判断节点是否存在上下线异常；

第一确定子单元，用于若上下线风险的次数超过所述第二阈值，则确定节点存在上下线异常；

第三统计子单元，用于若节点不存在上下线风险，则统计节点在历史第二时间段内的上下线的次数；

第三判断子单元，用于根据节点在历史第二时间段内的上下线次数是否超过第三阈值判断节点是否存在上下线异常；

第二确定子单元，用于若节点在历史第二时间段内的上下线次数超过第三阈值，则确定节点存在上下线异常；

第一条件子单元，用于其中历史第二时间段大于历史第一时间段，历史第一时间段大于当前周期。

基于上述实施例，其中第二判断单元，可以包括；

第四判断子单元，用于根据节点在当前周期内的资源信息判断节点在当前周期内是否存在资源异常；

第五判断子单元，用于若节点在当前周期内存在资源异常，则根据节点在历史第三时间段内的资源信息判断节点在历史第三时间段内是否存在资源异常；

第三确定子单元，用于若节点在历史第三时间段内存在资源异常，则确定节点资源异常；

第一获取子单元，用于若节点在历史第三时间段内不存在资源异常，则获取节点在下一周期内的资源信息；

第六判断子单元，用于根据节点在下一周期内的资源信息判断节点在下一周期内是否存在资源异常；

第四确定子单元，用于若节点在下一周期内存在资源异常，则确定节点资源异常。

下面对本发明实施例提供的节点安全注册设备进行介绍，下文描述的节点安全注册设备与上文描述的节点安全注册方法可相互对应参照。

请参考图8，图8为本发明实施例所提供的一种节点安全注册设备的结构示意图，该节点安全注册设备包括存储器和处理器，其中：

存储器10，用于存储计算机程序；

处理器11，用于执行计算机程序，以实现上述的节点安全注册方法。

如图7所示，为节点安全注册设备的组成结构示意图，节点安全注册设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。当然，需要说明的是，图7所示的结构并不构成对本申请实施例中节点安全注册设备的限定，在实际应用中节点安全注册设备可以包括比图7所示的更多或更少的部件，或者组合某些部件。

下面对本发明实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的节点安全注册方法可相互对应参照。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的节点安全注册方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上对本发明所提供的节点安全注册方法、装置、设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种节点安全注册方法，其特征在于，包括：

获取节点的上下线信息和资源信息；

2.根据权利要求1所述节点安全注册方法，其特征在于，所述根据所述上下线信息和所述资源信息，确定所述节点是否处于高负载故障状态，包括：

根据所述上下线信息判断所述节点是否存在上下线异常；

3.根据权利要求2所述节点安全注册方法，其特征在于，所述根据所述上下线信息判断所述节点是否存在上下线异常，包括：

4.根据权利要求2所述节点安全注册方法，其特征在于，所述若所述节点存在上下线异常，则根据所述资源信息判断所述节点是否存在资源异常，包括：

5.根据权利要求4所述节点安全注册方法，其特征在于，所述根据所述节点的在当前周期内的资源信息判断所述节点在当前周期内是否存在资源异常，包括：

6.根据权利要求5所述节点安全注册方法，其特征在于，所述根据所述节点在当前周期内的第一资源信息判断所述节点在当前周期内第一资源是否异常，包括：

其中所述第一资源信息包括内存信息、磁盘信息、CPU信息。

7.根据权利要求1至6任一项所述节点安全注册方法，其特征在于，在所述则对则对所述节点启动熔断保护之后，还包括：

8.一种节点安全注册的装置，其特征在于，包括：

获取模块，用于获取节点的上下线信息和资源信息；

9.一种节点安全注册的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的节点安全注册方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的节点安全注册方法的步骤。