CN111901422B

CN111901422B - 一种集群中节点的管理方法、系统及装置

Info

Publication number: CN111901422B
Application number: CN202010738723.7A
Authority: CN
Inventors: 李二明
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-11-11
Anticipated expiration: 2040-07-28
Also published as: CN111901422A

Abstract

本发明公开了一种集群中节点的管理方法、系统及装置，在接收到表征集群分组模式的部署指令时，根据预设集群分组部署策略确定集群中各节点的分组情况；根据集群中各节点的分组情况配置集群中各节点对应的配置文件；在集群中各节点对应的配置文件均配置好后，重启集群中各节点，以使集群分组模式生效；在集群分组模式下，目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。可见，在大规模集群下，本申请可采用集群分组模式部署集群中各节点，集群内只需要同一组别的各节点相互监控，有利于各节点间状态的稳定监控，不易造成误判；而且，采用集群分组模式有助于识别集群中的故障节点，以避免故障节点对业务造成影响。

Description

一种集群中节点的管理方法、系统及装置

技术领域

本发明涉及集群节点管理领域，特别是涉及一种集群中节点的管理方法、系统及装置。

背景技术

目前，对集群中节点状态的监控方法为：集群中每个节点都会与其它所有节点建立TCP(Transmission Control Protocol，传输控制协议)连接。对于任一节点来说，均通过与其它所有节点之间的消息传递来判断其它所有节点的状态是否正常。当集群规模较小时，各节点间的消息流量不大，但当集群规模较大时，如集群中节点数量达到几百甚至上千，各节点间的消息流量会非常大，不利于各节点间状态的稳定监控，容易造成误判；而且，在大规模集群下，集群中故障节点的识别较为困难，如果对业务造成影响的话，后果较为严重。

因此，如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种集群中节点的管理方法、系统及装置，在大规模集群下，本申请可采用集群分组模式部署集群中各节点，集群内只需要同一组别的各节点相互监控，有利于各节点间状态的稳定监控，不易造成误判；而且，采用集群分组模式有助于识别集群中的故障节点，以避免故障节点对业务造成影响。

为解决上述技术问题，本发明提供了一种集群中节点的管理方法，包括：

在接收到表征集群分组模式的部署指令时，根据预设集群分组部署策略确定集群中各节点的分组情况；

根据所述集群中各节点的分组情况配置所述集群中各节点对应的配置文件；其中，目标节点对应的目标配置文件表示与所述目标节点处于同一组别的具体节点；所述目标节点为所述集群中任一节点；

在所述集群中各节点对应的配置文件均配置好后，重启所述集群中各节点，以使所述集群分组模式生效；其中，在所述集群分组模式下，所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。

优选地，根据预设集群分组部署策略确定集群中各节点的分组情况的过程，包括：

基于将集群中属于同一网段和/或对应同一存储池的节点划分为同一组别的集群分组部署策略，确定所述集群中各节点的分组情况。

优选地，所述集群中节点的管理方法还包括：

当所述集群中某一节点发生故障时，根据预设选举机制从故障节点所在组别的正常节点中选举出主节点；

判断所述主节点是否持有分布式锁；

若持有，则执行所述故障节点的故障处理操作；

若未持有，则触发所述主节点向同一组别内其余正常节点均发送分布式锁获取请求，并判断基于所述分布式锁获取请求回复所述主节点的节点总个数是否大于预设回复数量阈值；

若大于，则确定所述主节点获取分布式锁成功，以执行所述故障节点的故障处理操作；

若不大于，则确定所述主节点为假主节点，并在预设持续时间内禁止所述假主节点进入连接状态，且重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作。

优选地，执行所述故障节点的故障处理操作的过程，包括：

将所述故障节点的数据库进行数据恢复，并基于数据恢复的数据库同步所述故障节点所在组别的正常节点的数据库内容；其中，同一组别的节点的数据库内容相同；

释放掉所述故障节点的虚拟IP，并基于负载均衡策略将所述故障节点的虚拟IP重新分配给所述故障节点所在组别的一正常节点，以使此正常节点代替所述故障节点继续处理节点任务。

优选地，执行所述故障节点的故障处理操作的过程，还包括：

将所述故障节点的故障信息通知给所述故障节点所在组别的所有正常节点。

优选地，所述集群中节点的管理方法还包括：

在接收到表征集群模式的部署指令时，将所述集群中的各节点均划分为同一组别；

根据所述集群中各节点属于同一组别的情况配置所述集群中各节点对应的配置文件；

在所述集群中各节点对应的配置文件均配置好后，重启所述集群中各节点，以使所述集群模式生效；其中，在所述集群模式下，所述目标节点用于通过与所述集群中其余节点之间的消息传递来监控其余节点的节点状态。

为解决上述技术问题，本发明还提供了一种集群中节点的管理系统，包括：

第一分组模块，用于在接收到表征集群分组模式的部署指令时，根据预设集群分组部署策略确定集群中各节点的分组情况；

第一配置模块，用于根据所述集群中各节点的分组情况配置所述集群中各节点对应的配置文件；其中，目标节点对应的目标配置文件表示与所述目标节点处于同一组别的具体节点；所述目标节点为所述集群中任一节点；

第一重启模块，用于在所述集群中各节点对应的配置文件均配置好后，重启所述集群中各节点，以使所述集群分组模式生效；其中，在所述集群分组模式下，所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。

优选地，所述集群中节点的管理系统还包括：

选举模块，用于当所述集群中某一节点发生故障时，根据预设选举机制从故障节点所在组别的正常节点中选举出主节点；

判断模块，用于判断所述主节点是否持有分布式锁；若是，则执行处理模块；若否，则执行获取模块；

处理模块，用于执行所述故障节点的故障处理操作；

获取模块，用于触发所述主节点向同一组别内其余正常节点均发送分布式锁获取请求，并判断基于所述分布式锁获取请求回复所述主节点的节点总个数是否大于预设回复数量阈值；若是，则执行所述处理模块；若否，则执行禁止模块；

禁止模块，用于确定所述主节点为假主节点，并在预设持续时间内禁止所述假主节点进入连接状态，且重新执行所述选举模块。

优选地，所述集群中节点的管理系统还包括：

第二分组模块，用于在接收到表征集群模式的部署指令时，将所述集群中的各节点均划分为同一组别；

第二配置模块，用于根据所述集群中各节点属于同一组别的情况配置所述集群中各节点对应的配置文件；

第二重启模块，用于在所述集群中各节点对应的配置文件均配置好后，重启所述集群中各节点，以使所述集群模式生效；其中，在所述集群模式下，所述目标节点用于通过与所述集群中其余节点之间的消息传递来监控其余节点的节点状态。

为解决上述技术问题，本发明还提供了一种集群中节点的管理装置，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序实现上述任一种集群中节点的管理方法的步骤。

本发明提供了一种集群中节点的管理方法，在接收到表征集群分组模式的部署指令时，根据预设集群分组部署策略确定集群中各节点的分组情况；根据集群中各节点的分组情况配置集群中各节点对应的配置文件；其中，目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点；在集群中各节点对应的配置文件均配置好后，重启集群中各节点，以使集群分组模式生效；其中，在集群分组模式下，目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。可见，在大规模集群下，本申请可采用集群分组模式部署集群中各节点，集群内只需要同一组别的各节点相互监控，有利于各节点间状态的稳定监控，不易造成误判；而且，采用集群分组模式有助于识别集群中的故障节点，以避免故障节点对业务造成影响。

本发明还提供了一种集群中节点的管理系统及装置，与上述管理方法具有相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种集群中节点的管理方法的流程图；

图2为本发明实施例提供的一种集群分组模式部署方案；

图3为本发明实施例提供的一种集群分组模式下分布式锁获取流程图；

图4为本发明实施例提供的一种集群模式部署方案。

具体实施方式

本发明的核心是提供一种集群中节点的管理方法、系统及装置，在大规模集群下，本申请可采用集群分组模式部署集群中各节点，集群内只需要同一组别的各节点相互监控，有利于各节点间状态的稳定监控，不易造成误判；而且，采用集群分组模式有助于识别集群中的故障节点，以避免故障节点对业务造成影响。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种集群中节点的管理方法的流程图。

该集群中节点的管理方法包括：

步骤S1：在接收到表征集群分组模式的部署指令时，根据预设集群分组部署策略确定集群中各节点的分组情况。

需要说明的是，本申请的预设是提前设置好的，只需要设置一次，除非根据实际情况需要修改，否则不需要重新设置。

具体地，本申请为集群中节点(集群中每个节点都会与其它所有节点建立TCP连接)设置了集群分组模式，即将集群中节点划分为多个组别，如图2所示(以节点n1-n9为例)，集群内只需要同一组别的各节点相互监控，不同组别的各节点之间相互独立。

基于此，本申请需提前设置用于指导集群中节点分组的集群分组部署策略，以在接收到表征集群分组模式的部署指令时，根据所设集群分组部署策略对集群中节点进行组别划分，从而确定集群中各节点的分组情况。

步骤S2：根据集群中各节点的分组情况配置集群中各节点对应的配置文件；其中，目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点。

需要说明的是，本申请的目标节点为集群中任一节点。

具体地，集群中每个节点均对应一个配置文件，以目标节点为例，说明配置文件的作用：目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点，即从目标配置文件中可以得知，与目标节点相互监控的节点具体有哪些。

基于此，本申请可根据集群中各节点的分组情况配置集群中各节点对应的配置文件，以使后续满足同一组别的各节点相互监控，不同组别的各节点之间相互独立。

步骤S3：在集群中各节点对应的配置文件均配置好后，重启集群中各节点，以使集群分组模式生效；其中，在集群分组模式下，目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。

具体地，在集群中各节点对应的配置文件均配置好后，本申请需重启集群中各节点，在集群中各节点重启后，集群分组模式得以生效。在集群分组模式下，以目标节点为例，说明节点状态监控原理：目标节点通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态，具体是在同一组别内，运行在各个节点的CTDB(Cluster TrivialDatabase，集群TDB数据库)服务，通过节点上运行的CTDB服务来达到对各个节点状态进行监控的目的。

在上述实施例的基础上：

作为一种可选的实施例，根据预设集群分组部署策略确定集群中各节点的分组情况的过程，包括：

基于将集群中属于同一网段和/或对应同一存储池的节点划分为同一组别的集群分组部署策略，确定集群中各节点的分组情况。

具体地，集群分组部署策略有三种：1)将集群中属于同一网段的节点划分为同一组别，便于后期维护。2)将集群中对应同一存储池的节点划分为同一组别，避免后续故障转移时因数据存储不连续导致数据丢失；如集群中一共200个节点，每40个节点共用一个存储池，所以集群中节点可划分为五个组别，对应同一存储池的节点属于同一组别。3)将集群中属于同一网段且对应同一存储池的节点划分为同一组别。

作为一种可选的实施例，集群中节点的管理方法还包括：

当集群中某一节点发生故障时，根据预设选举机制从故障节点所在组别的正常节点中选举出主节点；

判断主节点是否持有分布式锁；

若持有，则执行故障节点的故障处理操作；

若未持有，则触发主节点向同一组别内其余正常节点均发送分布式锁获取请求，并判断基于分布式锁获取请求回复主节点的节点总个数是否大于预设回复数量阈值；

若大于，则确定主节点获取分布式锁成功，以执行故障节点的故障处理操作；

若不大于，则确定主节点为假主节点，并在预设持续时间内禁止假主节点进入连接状态，且重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作。

进一步地，参照图3，当集群中某一节点发生故障时，本申请可根据预设选举机制(如启动时间最早的节点作为主节点等选举机制)从故障节点所在组别的正常节点中选举出唯一一个主节点，若选举出的节点在此次选举之前已经为真主节点，则其持有分布式锁(真主节点才具有的锁定权限)。

基于此，本申请在从故障节点所在组别的正常节点中选举出唯一一个主节点之后，判断选举出的主节点是否持有分布式锁，若持有分布式锁，则确定主节点为真主节点，可继续执行故障节点的故障处理操作；若未持有分布式锁，则触发主节点向同一组别内其余正常节点均发送分布式锁获取请求，等待其余正常节点在接收到分布式锁获取请求回复主节点，并判断基于分布式锁获取请求回复主节点的节点总个数是否大于预设回复数量阈值(回复数量阈值一般设置为主节点所在组别的所有正常节点个数的1/2)，若大于预设回复数量阈值，则确定主节点获取分布式锁成功，主节点角色生效，可以继续执行故障节点的故障处理操作；若不大于预设回复数量阈值，则确定主节点为假主节点，此次选举结果无效，并在预设持续时间内禁止假主节点进入连接状态(只有组内正常节点才可选举作为主节点，禁止假主节点进入连接状态意味着假主节点在一段时间内无法选举作为主节点)，然后重新发起选举，即重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作，直至选举出一个真正的主节点。

作为一种可选的实施例，执行故障节点的故障处理操作的过程，包括：

将故障节点的数据库进行数据恢复，并基于数据恢复的数据库同步故障节点所在组别的正常节点的数据库内容；其中，同一组别的节点的数据库内容相同；

释放掉故障节点的虚拟IP，并基于负载均衡策略将故障节点的虚拟IP重新分配给故障节点所在组别的一正常节点，以使此正常节点代替故障节点继续处理节点任务。

具体地，故障节点的故障处理操作包括：1)数据库恢复：考虑到同一组别的节点各自对应的数据库内容同步，故障节点故障时可能同一组别的节点还未进行新一轮的数据库内容同步，所以将故障节点的数据库进行数据恢复，并基于数据恢复的数据库同步故障节点所在组别的正常节点的数据库内容，从而保证同一组别的节点的数据库内容完整。2)虚拟IP(Internet Protocol，网际互连协议)重分配：释放掉故障节点的虚拟IP，并基于负载均衡策略从故障节点所在组别的正常节点中选择一个代替故障节点继续处理节点任务的新节点，且将故障节点的虚拟IP重新分配给选择出的新节点，从而使此新节点代替故障节点继续处理节点任务。

作为一种可选的实施例，执行故障节点的故障处理操作的过程，还包括：

将故障节点的故障信息通知给故障节点所在组别的所有正常节点。

进一步地，故障节点的故障处理操作还包括：故障通知，具体是将故障节点的故障信息通知给故障节点所在组别的所有正常节点。

作为一种可选的实施例，集群中节点的管理方法还包括：

在接收到表征集群模式的部署指令时，将集群中的各节点均划分为同一组别；

根据集群中各节点属于同一组别的情况配置集群中各节点对应的配置文件；

在集群中各节点对应的配置文件均配置好后，重启集群中各节点，以使集群模式生效；其中，在集群模式下，目标节点用于通过与集群中其余节点之间的消息传递来监控其余节点的节点状态。

进一步地，本申请还为集群中节点设置了集群模式，即将集群中的各节点均划分为同一组别，如图4所示，集群内各节点相互监控。基于此，本申请在接收到表征集群模式的部署指令时，将集群中的各节点均划分为同一组别，并根据集群中各节点属于同一组别的情况配置集群中各节点对应的配置文件，以使后续满足集群内各节点相互监控。

在集群中各节点对应的配置文件均配置好后，本申请需重启集群中各节点，在集群中各节点重启后，集群模式得以生效。在集群模式下，以目标节点为例，说明节点状态监控原理：目标节点通过与集群中其余节点之间的消息传递来监控其余节点的节点状态，具体是在集群内，运行在各个节点的CTDB服务，通过节点上运行的CTDB服务来达到对各个节点状态进行监控的目的。

需要说明的是，当集群规模较小(＜预设节点数量阈值)时，采用集群模式部署集群中节点；当集群规模较大(≥预设节点数量阈值)时，采用集群分组模式部署集群中节点。

本申请还提供了一种集群中节点的管理系统，包括：

第一配置模块，用于根据集群中各节点的分组情况配置集群中各节点对应的配置文件；其中，目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点；目标节点为集群中任一节点；

第一重启模块，用于在集群中各节点对应的配置文件均配置好后，重启集群中各节点，以使集群分组模式生效；其中，在集群分组模式下，目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。

作为一种可选的实施例，集群中节点的管理系统还包括：

选举模块，用于当集群中某一节点发生故障时，根据预设选举机制从故障节点所在组别的正常节点中选举出主节点；

判断模块，用于判断主节点是否持有分布式锁；若是，则执行处理模块；若否，则执行获取模块；

处理模块，用于执行故障节点的故障处理操作；

获取模块，用于触发主节点向同一组别内其余正常节点均发送分布式锁获取请求，并判断基于分布式锁获取请求回复主节点的节点总个数是否大于预设回复数量阈值；若是，则执行处理模块；若否，则执行禁止模块；

禁止模块，用于确定主节点为假主节点，并在预设持续时间内禁止假主节点进入连接状态，且重新执行选举模块。

作为一种可选的实施例，集群中节点的管理系统还包括：

第二分组模块，用于在接收到表征集群模式的部署指令时，将集群中的各节点均划分为同一组别；

第二配置模块，用于根据集群中各节点属于同一组别的情况配置集群中各节点对应的配置文件；

第二重启模块，用于在集群中各节点对应的配置文件均配置好后，重启集群中各节点，以使集群模式生效；其中，在集群模式下，目标节点用于通过与集群中其余节点之间的消息传递来监控其余节点的节点状态。

本申请提供的管理系统的介绍请参考上述管理方法的实施例，本申请在此不再赘述。

本申请还提供了一种集群中节点的管理装置，包括：

存储器，用于存储计算机程序；

处理器，用于在执行计算机程序实现上述任一种集群中节点的管理方法的步骤。

本申请提供的管理装置的介绍请参考上述管理方法的实施例，本申请在此不再赘述。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种集群中节点的管理方法，其特征在于，包括：

在所述集群中各节点对应的配置文件均配置好后，重启所述集群中各节点，以使所述集群分组模式生效；其中，在所述集群分组模式下，所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态；

所述集群中节点的管理方法还包括：

判断所述主节点是否持有分布式锁；

若持有，则执行所述故障节点的故障处理操作；

2.如权利要求1所述的集群中节点的管理方法，其特征在于，根据预设集群分组部署策略确定集群中各节点的分组情况的过程，包括：

3.如权利要求1所述的集群中节点的管理方法，其特征在于，执行所述故障节点的故障处理操作的过程，包括：

4.如权利要求3所述的集群中节点的管理方法，其特征在于，执行所述故障节点的故障处理操作的过程，还包括：

5.如权利要求1-4任一项所述的集群中节点的管理方法，其特征在于，所述集群中节点的管理方法还包括：

6.一种集群中节点的管理系统，其特征在于，包括：

第一重启模块，用于在所述集群中各节点对应的配置文件均配置好后，重启所述集群中各节点，以使所述集群分组模式生效；其中，在所述集群分组模式下，所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态；

所述集群中节点的管理系统还包括：

处理模块，用于执行所述故障节点的故障处理操作；

7.如权利要求6所述的集群中节点的管理系统，其特征在于，所述集群中节点的管理系统还包括：

8.一种集群中节点的管理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于在执行所述计算机程序实现如权利要求1-5任一项所述的集群中节点的管理方法的步骤。