CN111901422A - 一种集群中节点的管理方法、系统及装置 - Google Patents

一种集群中节点的管理方法、系统及装置 Download PDF

Info

Publication number
CN111901422A
CN111901422A CN202010738723.7A CN202010738723A CN111901422A CN 111901422 A CN111901422 A CN 111901422A CN 202010738723 A CN202010738723 A CN 202010738723A CN 111901422 A CN111901422 A CN 111901422A
Authority
CN
China
Prior art keywords
node
cluster
nodes
fault
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010738723.7A
Other languages
English (en)
Other versions
CN111901422B (zh
Inventor
李二明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202010738723.7A priority Critical patent/CN111901422B/zh
Publication of CN111901422A publication Critical patent/CN111901422A/zh
Application granted granted Critical
Publication of CN111901422B publication Critical patent/CN111901422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种集群中节点的管理方法、系统及装置,在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;根据集群中各节点的分组情况配置集群中各节点对应的配置文件;在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群分组模式生效;在集群分组模式下,目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。可见,在大规模集群下,本申请可采用集群分组模式部署集群中各节点,集群内只需要同一组别的各节点相互监控,有利于各节点间状态的稳定监控,不易造成误判;而且,采用集群分组模式有助于识别集群中的故障节点,以避免故障节点对业务造成影响。

Description

一种集群中节点的管理方法、系统及装置
技术领域
本发明涉及集群节点管理领域,特别是涉及一种集群中节点的管理方法、系统及装置。
背景技术
目前,对集群中节点状态的监控方法为:集群中每个节点都会与其它所有节点建立TCP(Transmission Control Protocol,传输控制协议)连接。对于任一节点来说,均通过与其它所有节点之间的消息传递来判断其它所有节点的状态是否正常。当集群规模较小时,各节点间的消息流量不大,但当集群规模较大时,如集群中节点数量达到几百甚至上千,各节点间的消息流量会非常大,不利于各节点间状态的稳定监控,容易造成误判;而且,在大规模集群下,集群中故障节点的识别较为困难,如果对业务造成影响的话,后果较为严重。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种集群中节点的管理方法、系统及装置,在大规模集群下,本申请可采用集群分组模式部署集群中各节点,集群内只需要同一组别的各节点相互监控,有利于各节点间状态的稳定监控,不易造成误判;而且,采用集群分组模式有助于识别集群中的故障节点,以避免故障节点对业务造成影响。
为解决上述技术问题,本发明提供了一种集群中节点的管理方法,包括:
在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;
根据所述集群中各节点的分组情况配置所述集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与所述目标节点处于同一组别的具体节点;所述目标节点为所述集群中任一节点;
在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群分组模式生效;其中,在所述集群分组模式下,所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。
优选地,根据预设集群分组部署策略确定集群中各节点的分组情况的过程,包括:
基于将集群中属于同一网段和/或对应同一存储池的节点划分为同一组别的集群分组部署策略,确定所述集群中各节点的分组情况。
优选地,所述集群中节点的管理方法还包括:
当所述集群中某一节点发生故障时,根据预设选举机制从故障节点所在组别的正常节点中选举出主节点;
判断所述主节点是否持有分布式锁;
若持有,则执行所述故障节点的故障处理操作;
若未持有,则触发所述主节点向同一组别内其余正常节点均发送分布式锁获取请求,并判断基于所述分布式锁获取请求回复所述主节点的节点总个数是否大于预设回复数量阈值;
若大于,则确定所述主节点获取分布式锁成功,以执行所述故障节点的故障处理操作;
若不大于,则确定所述主节点为假主节点,并在预设持续时间内禁止所述假主节点进入连接状态,且重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作。
优选地,执行所述故障节点的故障处理操作的过程,包括:
将所述故障节点的数据库进行数据恢复,并基于数据恢复的数据库同步所述故障节点所在组别的正常节点的数据库内容;其中,同一组别的节点的数据库内容相同;
释放掉所述故障节点的虚拟IP,并基于负载均衡策略将所述故障节点的虚拟IP重新分配给所述故障节点所在组别的一正常节点,以使此正常节点代替所述故障节点继续处理节点任务。
优选地,执行所述故障节点的故障处理操作的过程,还包括:
将所述故障节点的故障信息通知给所述故障节点所在组别的所有正常节点。
优选地,所述集群中节点的管理方法还包括:
在接收到表征集群模式的部署指令时,将所述集群中的各节点均划分为同一组别;
根据所述集群中各节点属于同一组别的情况配置所述集群中各节点对应的配置文件;
在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群模式生效;其中,在所述集群模式下,所述目标节点用于通过与所述集群中其余节点之间的消息传递来监控其余节点的节点状态。
为解决上述技术问题,本发明还提供了一种集群中节点的管理系统,包括:
第一分组模块,用于在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;
第一配置模块,用于根据所述集群中各节点的分组情况配置所述集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与所述目标节点处于同一组别的具体节点;所述目标节点为所述集群中任一节点;
第一重启模块,用于在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群分组模式生效;其中,在所述集群分组模式下,所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。
优选地,所述集群中节点的管理系统还包括:
选举模块,用于当所述集群中某一节点发生故障时,根据预设选举机制从故障节点所在组别的正常节点中选举出主节点;
判断模块,用于判断所述主节点是否持有分布式锁;若是,则执行处理模块;若否,则执行获取模块;
处理模块,用于执行所述故障节点的故障处理操作;
获取模块,用于触发所述主节点向同一组别内其余正常节点均发送分布式锁获取请求,并判断基于所述分布式锁获取请求回复所述主节点的节点总个数是否大于预设回复数量阈值;若是,则执行所述处理模块;若否,则执行禁止模块;
禁止模块,用于确定所述主节点为假主节点,并在预设持续时间内禁止所述假主节点进入连接状态,且重新执行所述选举模块。
优选地,所述集群中节点的管理系统还包括:
第二分组模块,用于在接收到表征集群模式的部署指令时,将所述集群中的各节点均划分为同一组别;
第二配置模块,用于根据所述集群中各节点属于同一组别的情况配置所述集群中各节点对应的配置文件;
第二重启模块,用于在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群模式生效;其中,在所述集群模式下,所述目标节点用于通过与所述集群中其余节点之间的消息传递来监控其余节点的节点状态。
为解决上述技术问题,本发明还提供了一种集群中节点的管理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序实现上述任一种集群中节点的管理方法的步骤。
本发明提供了一种集群中节点的管理方法,在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;根据集群中各节点的分组情况配置集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点;在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群分组模式生效;其中,在集群分组模式下,目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。可见,在大规模集群下,本申请可采用集群分组模式部署集群中各节点,集群内只需要同一组别的各节点相互监控,有利于各节点间状态的稳定监控,不易造成误判;而且,采用集群分组模式有助于识别集群中的故障节点,以避免故障节点对业务造成影响。
本发明还提供了一种集群中节点的管理系统及装置,与上述管理方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种集群中节点的管理方法的流程图;
图2为本发明实施例提供的一种集群分组模式部署方案;
图3为本发明实施例提供的一种集群分组模式下分布式锁获取流程图;
图4为本发明实施例提供的一种集群模式部署方案。
具体实施方式
本发明的核心是提供一种集群中节点的管理方法、系统及装置,在大规模集群下,本申请可采用集群分组模式部署集群中各节点,集群内只需要同一组别的各节点相互监控,有利于各节点间状态的稳定监控,不易造成误判;而且,采用集群分组模式有助于识别集群中的故障节点,以避免故障节点对业务造成影响。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种集群中节点的管理方法的流程图。
该集群中节点的管理方法包括:
步骤S1:在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况。
需要说明的是,本申请的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
具体地,本申请为集群中节点(集群中每个节点都会与其它所有节点建立TCP连接)设置了集群分组模式,即将集群中节点划分为多个组别,如图2所示(以节点n1-n9为例),集群内只需要同一组别的各节点相互监控,不同组别的各节点之间相互独立。
基于此,本申请需提前设置用于指导集群中节点分组的集群分组部署策略,以在接收到表征集群分组模式的部署指令时,根据所设集群分组部署策略对集群中节点进行组别划分,从而确定集群中各节点的分组情况。
步骤S2:根据集群中各节点的分组情况配置集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点。
需要说明的是,本申请的目标节点为集群中任一节点。
具体地,集群中每个节点均对应一个配置文件,以目标节点为例,说明配置文件的作用:目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点,即从目标配置文件中可以得知,与目标节点相互监控的节点具体有哪些。
基于此,本申请可根据集群中各节点的分组情况配置集群中各节点对应的配置文件,以使后续满足同一组别的各节点相互监控,不同组别的各节点之间相互独立。
步骤S3:在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群分组模式生效;其中,在集群分组模式下,目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。
具体地,在集群中各节点对应的配置文件均配置好后,本申请需重启集群中各节点,在集群中各节点重启后,集群分组模式得以生效。在集群分组模式下,以目标节点为例,说明节点状态监控原理:目标节点通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态,具体是在同一组别内,运行在各个节点的CTDB(Cluster TrivialDatabase,集群TDB数据库)服务,通过节点上运行的CTDB服务来达到对各个节点状态进行监控的目的。
本发明提供了一种集群中节点的管理方法,在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;根据集群中各节点的分组情况配置集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点;在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群分组模式生效;其中,在集群分组模式下,目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。可见,在大规模集群下,本申请可采用集群分组模式部署集群中各节点,集群内只需要同一组别的各节点相互监控,有利于各节点间状态的稳定监控,不易造成误判;而且,采用集群分组模式有助于识别集群中的故障节点,以避免故障节点对业务造成影响。
在上述实施例的基础上:
作为一种可选的实施例,根据预设集群分组部署策略确定集群中各节点的分组情况的过程,包括:
基于将集群中属于同一网段和/或对应同一存储池的节点划分为同一组别的集群分组部署策略,确定集群中各节点的分组情况。
具体地,集群分组部署策略有三种:1)将集群中属于同一网段的节点划分为同一组别,便于后期维护。2)将集群中对应同一存储池的节点划分为同一组别,避免后续故障转移时因数据存储不连续导致数据丢失;如集群中一共200个节点,每40个节点共用一个存储池,所以集群中节点可划分为五个组别,对应同一存储池的节点属于同一组别。3)将集群中属于同一网段且对应同一存储池的节点划分为同一组别。
作为一种可选的实施例,集群中节点的管理方法还包括:
当集群中某一节点发生故障时,根据预设选举机制从故障节点所在组别的正常节点中选举出主节点;
判断主节点是否持有分布式锁;
若持有,则执行故障节点的故障处理操作;
若未持有,则触发主节点向同一组别内其余正常节点均发送分布式锁获取请求,并判断基于分布式锁获取请求回复主节点的节点总个数是否大于预设回复数量阈值;
若大于,则确定主节点获取分布式锁成功,以执行故障节点的故障处理操作;
若不大于,则确定主节点为假主节点,并在预设持续时间内禁止假主节点进入连接状态,且重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作。
进一步地,参照图3,当集群中某一节点发生故障时,本申请可根据预设选举机制(如启动时间最早的节点作为主节点等选举机制)从故障节点所在组别的正常节点中选举出唯一一个主节点,若选举出的节点在此次选举之前已经为真主节点,则其持有分布式锁(真主节点才具有的锁定权限)。
基于此,本申请在从故障节点所在组别的正常节点中选举出唯一一个主节点之后,判断选举出的主节点是否持有分布式锁,若持有分布式锁,则确定主节点为真主节点,可继续执行故障节点的故障处理操作;若未持有分布式锁,则触发主节点向同一组别内其余正常节点均发送分布式锁获取请求,等待其余正常节点在接收到分布式锁获取请求回复主节点,并判断基于分布式锁获取请求回复主节点的节点总个数是否大于预设回复数量阈值(回复数量阈值一般设置为主节点所在组别的所有正常节点个数的1/2),若大于预设回复数量阈值,则确定主节点获取分布式锁成功,主节点角色生效,可以继续执行故障节点的故障处理操作;若不大于预设回复数量阈值,则确定主节点为假主节点,此次选举结果无效,并在预设持续时间内禁止假主节点进入连接状态(只有组内正常节点才可选举作为主节点,禁止假主节点进入连接状态意味着假主节点在一段时间内无法选举作为主节点),然后重新发起选举,即重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作,直至选举出一个真正的主节点。
作为一种可选的实施例,执行故障节点的故障处理操作的过程,包括:
将故障节点的数据库进行数据恢复,并基于数据恢复的数据库同步故障节点所在组别的正常节点的数据库内容;其中,同一组别的节点的数据库内容相同;
释放掉故障节点的虚拟IP,并基于负载均衡策略将故障节点的虚拟IP重新分配给故障节点所在组别的一正常节点,以使此正常节点代替故障节点继续处理节点任务。
具体地,故障节点的故障处理操作包括:1)数据库恢复:考虑到同一组别的节点各自对应的数据库内容同步,故障节点故障时可能同一组别的节点还未进行新一轮的数据库内容同步,所以将故障节点的数据库进行数据恢复,并基于数据恢复的数据库同步故障节点所在组别的正常节点的数据库内容,从而保证同一组别的节点的数据库内容完整。2)虚拟IP(Internet Protocol,网际互连协议)重分配:释放掉故障节点的虚拟IP,并基于负载均衡策略从故障节点所在组别的正常节点中选择一个代替故障节点继续处理节点任务的新节点,且将故障节点的虚拟IP重新分配给选择出的新节点,从而使此新节点代替故障节点继续处理节点任务。
作为一种可选的实施例,执行故障节点的故障处理操作的过程,还包括:
将故障节点的故障信息通知给故障节点所在组别的所有正常节点。
进一步地,故障节点的故障处理操作还包括:故障通知,具体是将故障节点的故障信息通知给故障节点所在组别的所有正常节点。
作为一种可选的实施例,集群中节点的管理方法还包括:
在接收到表征集群模式的部署指令时,将集群中的各节点均划分为同一组别;
根据集群中各节点属于同一组别的情况配置集群中各节点对应的配置文件;
在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群模式生效;其中,在集群模式下,目标节点用于通过与集群中其余节点之间的消息传递来监控其余节点的节点状态。
进一步地,本申请还为集群中节点设置了集群模式,即将集群中的各节点均划分为同一组别,如图4所示,集群内各节点相互监控。基于此,本申请在接收到表征集群模式的部署指令时,将集群中的各节点均划分为同一组别,并根据集群中各节点属于同一组别的情况配置集群中各节点对应的配置文件,以使后续满足集群内各节点相互监控。
在集群中各节点对应的配置文件均配置好后,本申请需重启集群中各节点,在集群中各节点重启后,集群模式得以生效。在集群模式下,以目标节点为例,说明节点状态监控原理:目标节点通过与集群中其余节点之间的消息传递来监控其余节点的节点状态,具体是在集群内,运行在各个节点的CTDB服务,通过节点上运行的CTDB服务来达到对各个节点状态进行监控的目的。
需要说明的是,当集群规模较小(<预设节点数量阈值)时,采用集群模式部署集群中节点;当集群规模较大(≥预设节点数量阈值)时,采用集群分组模式部署集群中节点。
本申请还提供了一种集群中节点的管理系统,包括:
第一分组模块,用于在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;
第一配置模块,用于根据集群中各节点的分组情况配置集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与目标节点处于同一组别的具体节点;目标节点为集群中任一节点;
第一重启模块,用于在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群分组模式生效;其中,在集群分组模式下,目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。
作为一种可选的实施例,集群中节点的管理系统还包括:
选举模块,用于当集群中某一节点发生故障时,根据预设选举机制从故障节点所在组别的正常节点中选举出主节点;
判断模块,用于判断主节点是否持有分布式锁;若是,则执行处理模块;若否,则执行获取模块;
处理模块,用于执行故障节点的故障处理操作;
获取模块,用于触发主节点向同一组别内其余正常节点均发送分布式锁获取请求,并判断基于分布式锁获取请求回复主节点的节点总个数是否大于预设回复数量阈值;若是,则执行处理模块;若否,则执行禁止模块;
禁止模块,用于确定主节点为假主节点,并在预设持续时间内禁止假主节点进入连接状态,且重新执行选举模块。
作为一种可选的实施例,集群中节点的管理系统还包括:
第二分组模块,用于在接收到表征集群模式的部署指令时,将集群中的各节点均划分为同一组别;
第二配置模块,用于根据集群中各节点属于同一组别的情况配置集群中各节点对应的配置文件;
第二重启模块,用于在集群中各节点对应的配置文件均配置好后,重启集群中各节点,以使集群模式生效;其中,在集群模式下,目标节点用于通过与集群中其余节点之间的消息传递来监控其余节点的节点状态。
本申请提供的管理系统的介绍请参考上述管理方法的实施例,本申请在此不再赘述。
本申请还提供了一种集群中节点的管理装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序实现上述任一种集群中节点的管理方法的步骤。
本申请提供的管理装置的介绍请参考上述管理方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种集群中节点的管理方法,其特征在于,包括:
在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;
根据所述集群中各节点的分组情况配置所述集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与所述目标节点处于同一组别的具体节点;所述目标节点为所述集群中任一节点;
在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群分组模式生效;其中,在所述集群分组模式下,所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。
2.如权利要求1所述的集群中节点的管理方法,其特征在于,根据预设集群分组部署策略确定集群中各节点的分组情况的过程,包括:
基于将集群中属于同一网段和/或对应同一存储池的节点划分为同一组别的集群分组部署策略,确定所述集群中各节点的分组情况。
3.如权利要求1所述的集群中节点的管理方法,其特征在于,所述集群中节点的管理方法还包括:
当所述集群中某一节点发生故障时,根据预设选举机制从故障节点所在组别的正常节点中选举出主节点;
判断所述主节点是否持有分布式锁;
若持有,则执行所述故障节点的故障处理操作;
若未持有,则触发所述主节点向同一组别内其余正常节点均发送分布式锁获取请求,并判断基于所述分布式锁获取请求回复所述主节点的节点总个数是否大于预设回复数量阈值;
若大于,则确定所述主节点获取分布式锁成功,以执行所述故障节点的故障处理操作;
若不大于,则确定所述主节点为假主节点,并在预设持续时间内禁止所述假主节点进入连接状态,且重新执行根据预设选举机制从故障节点所在组别的正常节点中选举出主节点的操作。
4.如权利要求3所述的集群中节点的管理方法,其特征在于,执行所述故障节点的故障处理操作的过程,包括:
将所述故障节点的数据库进行数据恢复,并基于数据恢复的数据库同步所述故障节点所在组别的正常节点的数据库内容;其中,同一组别的节点的数据库内容相同;
释放掉所述故障节点的虚拟IP,并基于负载均衡策略将所述故障节点的虚拟IP重新分配给所述故障节点所在组别的一正常节点,以使此正常节点代替所述故障节点继续处理节点任务。
5.如权利要求4所述的集群中节点的管理方法,其特征在于,执行所述故障节点的故障处理操作的过程,还包括:
将所述故障节点的故障信息通知给所述故障节点所在组别的所有正常节点。
6.如权利要求1-5任一项所述的集群中节点的管理方法,其特征在于,所述集群中节点的管理方法还包括:
在接收到表征集群模式的部署指令时,将所述集群中的各节点均划分为同一组别;
根据所述集群中各节点属于同一组别的情况配置所述集群中各节点对应的配置文件;
在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群模式生效;其中,在所述集群模式下,所述目标节点用于通过与所述集群中其余节点之间的消息传递来监控其余节点的节点状态。
7.一种集群中节点的管理系统,其特征在于,包括:
第一分组模块,用于在接收到表征集群分组模式的部署指令时,根据预设集群分组部署策略确定集群中各节点的分组情况;
第一配置模块,用于根据所述集群中各节点的分组情况配置所述集群中各节点对应的配置文件;其中,目标节点对应的目标配置文件表示与所述目标节点处于同一组别的具体节点;所述目标节点为所述集群中任一节点;
第一重启模块,用于在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群分组模式生效;其中,在所述集群分组模式下,所述目标节点用于通过与同一组别的其余节点之间的消息传递来监控其余节点的节点状态。
8.如权利要求7所述的集群中节点的管理系统,其特征在于,所述集群中节点的管理系统还包括:
选举模块,用于当所述集群中某一节点发生故障时,根据预设选举机制从故障节点所在组别的正常节点中选举出主节点;
判断模块,用于判断所述主节点是否持有分布式锁;若是,则执行处理模块;若否,则执行获取模块;
处理模块,用于执行所述故障节点的故障处理操作;
获取模块,用于触发所述主节点向同一组别内其余正常节点均发送分布式锁获取请求,并判断基于所述分布式锁获取请求回复所述主节点的节点总个数是否大于预设回复数量阈值;若是,则执行所述处理模块;若否,则执行禁止模块;
禁止模块,用于确定所述主节点为假主节点,并在预设持续时间内禁止所述假主节点进入连接状态,且重新执行所述选举模块。
9.如权利要求7-8任一项所述的集群中节点的管理系统,其特征在于,所述集群中节点的管理系统还包括:
第二分组模块,用于在接收到表征集群模式的部署指令时,将所述集群中的各节点均划分为同一组别;
第二配置模块,用于根据所述集群中各节点属于同一组别的情况配置所述集群中各节点对应的配置文件;
第二重启模块,用于在所述集群中各节点对应的配置文件均配置好后,重启所述集群中各节点,以使所述集群模式生效;其中,在所述集群模式下,所述目标节点用于通过与所述集群中其余节点之间的消息传递来监控其余节点的节点状态。
10.一种集群中节点的管理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序实现如权利要求1-6任一项所述的集群中节点的管理方法的步骤。
CN202010738723.7A 2020-07-28 2020-07-28 一种集群中节点的管理方法、系统及装置 Active CN111901422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738723.7A CN111901422B (zh) 2020-07-28 2020-07-28 一种集群中节点的管理方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738723.7A CN111901422B (zh) 2020-07-28 2020-07-28 一种集群中节点的管理方法、系统及装置

Publications (2)

Publication Number Publication Date
CN111901422A true CN111901422A (zh) 2020-11-06
CN111901422B CN111901422B (zh) 2022-11-11

Family

ID=73182254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738723.7A Active CN111901422B (zh) 2020-07-28 2020-07-28 一种集群中节点的管理方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111901422B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328581A (zh) * 2020-12-30 2021-02-05 望海康信(北京)科技股份公司 ProxySQL自动运维系统、方法及相应设备和存储介质
CN113127310A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 任务处理方法、装置、电子设备及存储介质
CN113434279A (zh) * 2021-07-14 2021-09-24 上海浦东发展银行股份有限公司 一种任务执行方法、装置、设备及存储介质
CN113535517A (zh) * 2021-07-23 2021-10-22 烽火通信科技股份有限公司 一种控制器集群节点管理方法及装置
CN114070739A (zh) * 2021-11-11 2022-02-18 杭州和利时自动化有限公司 一种集群部署方法、装置、设备和计算机可读存储介质
CN115277379A (zh) * 2022-07-08 2022-11-01 北京城市网邻信息技术有限公司 分布式锁容灾处理方法、装置、电子设备及存储介质
CN115904822A (zh) * 2022-12-21 2023-04-04 长春吉大正元信息技术股份有限公司 一种集群修复方法及装置
CN116170346A (zh) * 2022-12-27 2023-05-26 天翼云科技有限公司 一种监控方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158921A1 (en) * 2002-02-15 2003-08-21 International Business Machines Corporation Method for detecting the quick restart of liveness daemons in a distributed multinode data processing system
US20050132154A1 (en) * 2003-10-03 2005-06-16 International Business Machines Corporation Reliable leader election in storage area network
CN109995842A (zh) * 2018-01-02 2019-07-09 北京奇虎科技有限公司 一种用于分布式服务器集群的分组方法及装置
CN110233767A (zh) * 2019-07-26 2019-09-13 苏州浪潮智能科技有限公司 分布式集群的服务配置方法、系统、装置及可读存储介质
CN110519348A (zh) * 2019-08-15 2019-11-29 苏州浪潮智能科技有限公司 一种多服务分布式集群部署系统及方法
CN111221700A (zh) * 2019-10-31 2020-06-02 北京浪潮数据技术有限公司 一种集群节点状态监控方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030158921A1 (en) * 2002-02-15 2003-08-21 International Business Machines Corporation Method for detecting the quick restart of liveness daemons in a distributed multinode data processing system
US20050132154A1 (en) * 2003-10-03 2005-06-16 International Business Machines Corporation Reliable leader election in storage area network
CN109995842A (zh) * 2018-01-02 2019-07-09 北京奇虎科技有限公司 一种用于分布式服务器集群的分组方法及装置
CN110233767A (zh) * 2019-07-26 2019-09-13 苏州浪潮智能科技有限公司 分布式集群的服务配置方法、系统、装置及可读存储介质
CN110519348A (zh) * 2019-08-15 2019-11-29 苏州浪潮智能科技有限公司 一种多服务分布式集群部署系统及方法
CN111221700A (zh) * 2019-10-31 2020-06-02 北京浪潮数据技术有限公司 一种集群节点状态监控方法、装置、设备及可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328581A (zh) * 2020-12-30 2021-02-05 望海康信(北京)科技股份公司 ProxySQL自动运维系统、方法及相应设备和存储介质
CN113127310A (zh) * 2021-04-30 2021-07-16 北京奇艺世纪科技有限公司 任务处理方法、装置、电子设备及存储介质
CN113127310B (zh) * 2021-04-30 2023-09-01 北京奇艺世纪科技有限公司 任务处理方法、装置、电子设备及存储介质
CN113434279A (zh) * 2021-07-14 2021-09-24 上海浦东发展银行股份有限公司 一种任务执行方法、装置、设备及存储介质
CN113535517A (zh) * 2021-07-23 2021-10-22 烽火通信科技股份有限公司 一种控制器集群节点管理方法及装置
CN113535517B (zh) * 2021-07-23 2022-04-12 烽火通信科技股份有限公司 一种控制器集群节点管理方法及装置
CN114070739A (zh) * 2021-11-11 2022-02-18 杭州和利时自动化有限公司 一种集群部署方法、装置、设备和计算机可读存储介质
CN114070739B (zh) * 2021-11-11 2024-01-26 杭州和利时自动化有限公司 一种集群部署方法、装置、设备和计算机可读存储介质
CN115277379A (zh) * 2022-07-08 2022-11-01 北京城市网邻信息技术有限公司 分布式锁容灾处理方法、装置、电子设备及存储介质
CN115904822A (zh) * 2022-12-21 2023-04-04 长春吉大正元信息技术股份有限公司 一种集群修复方法及装置
CN116170346A (zh) * 2022-12-27 2023-05-26 天翼云科技有限公司 一种监控方法、装置及电子设备

Also Published As

Publication number Publication date
CN111901422B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111901422B (zh) 一种集群中节点的管理方法、系统及装置
CN108710544B (zh) 一种数据库系统的进程监控方法及轨道交通综合监控系统
CN111290834B (zh) 一种基于云管理平台实现业务高可用的方法、装置及设备
CN110830283B (zh) 故障检测方法、装置、设备和系统
CN107480014B (zh) 一种高可用设备切换方法及装置
US10831622B2 (en) Method and apparatus for processing gateway device fault
WO2016106682A1 (zh) 一种集群脑裂后仲裁处理方法、仲裁存储装置以及系统
CN102394914A (zh) 集群脑裂处理方法和装置
EP3817290B1 (en) Member change method for distributed system, and distributed system
CN110532096B (zh) 一种多节点分组并行部署的系统和方法
CN112612545A (zh) 一种服务器集群的配置热加载系统、方法、设备及介质
WO2009065796A1 (en) De-centralized nodal failover handling
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
CN115001956B (zh) 服务器集群的运行方法、装置、设备及存储介质
CN110971662A (zh) 一种基于Ceph的两节点高可用实现方法及装置
CN113965576B (zh) 基于容器的大数据采集方法、装置、存储介质和设备
CN113064755B (zh) 数据恢复方法、装置、设备、介质及程序产品
CN108509296B (zh) 一种处理设备故障的方法和系统
CN113867915A (zh) 任务调度方法、电子设备及存储介质
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN114356533B (zh) 微服务无感知发布系统、方法、电子设备及存储介质
CN114036032A (zh) 一种实时程序的监控方法及装置
CN102255960A (zh) 单点服务处理装置和单点服务处理方法
CN114116178B (zh) 集群框架任务管理方法以及相关装置
CN111464357A (zh) 资源配置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant