CN106713056B - 一种分布式集群下备机选举切换的方法 - Google Patents
一种分布式集群下备机选举切换的方法 Download PDFInfo
- Publication number
- CN106713056B CN106713056B CN201710161503.0A CN201710161503A CN106713056B CN 106713056 B CN106713056 B CN 106713056B CN 201710161503 A CN201710161503 A CN 201710161503A CN 106713056 B CN106713056 B CN 106713056B
- Authority
- CN
- China
- Prior art keywords
- node
- host
- standby
- standby host
- distributed type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000712 assembly Effects 0.000 title claims abstract description 18
- 238000000429 assembly Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000004083 survival effect Effects 0.000 claims abstract description 4
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000012790 confirmation Methods 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0668—Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/30—Decision processes by autonomous network management units using voting and bidding
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Small-Scale Networks (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种分布式集群下备机选举切换的方法,步骤如下:确认集群所有主机节点、备机节点拥有唯一的主机名;监控集群中主机节点是否宕机;如果主机节点宕机,则进入步骤3),否则继续进行监控;每个节点将自身的工作状态发送到其他存活的节点;节点检查是否已收到所有其他存活节点的状态信息,若已收到,则进行打分,并进行打分排序,若未收到则继续等待,直到超时;检查当前节点是否是得分最高的节点,如果是得分最高的节点,则将当前节点提升为主机节点,如果当前节点不是得分最高的节点,则将当前节点隶属的主节点切换为得分最高的节点。该方法可以使采用了一主多备架构的分布式集群在发生主机宕机时进行备机选举并自动完成主备切换,以保证集群的可用性。
Description
技术领域
本发明涉及的是一种分布式集群下多个备机可以自动选举切换的方法。
背景技术
现在,越来越多的服务都在采用分布式集群的部署架构被部署在云计算平台上。而分布式集群部署架构通常会关心两件事情:分布式和高可用。其中分布式用于分散服务节点的访问、计算压力;而高可用则保证了集群数据的完整性和可用性。目前主流高可用方案通常是采用一主多备的架构,日常使用时由主机对外提供服务,备机则与主机保持数据同步,当主机发生宕机时,由其中一台备机升级为主机继续对外提供服务。然而,目前有很多的产品在主机发生宕机时,需要人工将备机和主机进行切换,并不支持自动切换。部分产品虽然提供了切换功能,但是需要在额外的节点上进行部署组件,同时还要考虑组件的高可用性,从而占用了更多的物理资源。,这是现有技术所存在的不足之处。
发明内容
本发明的目的就是针对现有技术所存在的不足,而提供一种分布式集群下备机选举切换的方法,该方法可以使采用了一主多备架构的分布式集群在发生主机宕机时进行备机选举并自动完成主备切换,以保证集群的可用性。
本方案是通过如下技术措施来实现的:一种分布式集群下备机选举切换的方法,包括如下步骤:
1)确认集群所有主机节点、备机节点拥有唯一的主机名;
2)监控集群中主机节点是否宕机;如果主机节点宕机,则进入步骤3),否则继续进行监控;
3)每个节点将自身的工作状态发送到其他存活的节点;
4)节点检查是否已收到所有其他存活节点的状态信息,若已收到,则进行打分,并进行打分排序,若未收到则继续等待,直到超时;
5)检查当前节点是否是得分最高的节点,如果是得分最高的节点,则将当前节点提升为主机节点,如果当前节点不是得分最高的节点,则将当前节点隶属的主节点切换为得分最高的节点。
步骤5)中若宕机节点恢复并接入回集群,若集群中已存在主机节点,则将已恢复宕机节点切换为备机节点,并将已恢复宕机节点隶属于当前集群中的主机节点。
所述的主机节点和备机节点之间建立互信连接,通过ssh协议远程向其他节点发送消息。
所述的步骤3)中所述的工作状态包括最后一次数据同步时间、备机访问负载、当前备机节点的主机名。
所述的步骤4)打分时,最后一次数据同步的时间越晚则得分越高,节点访问负载越低得分越高。若打分相同,则以主机名作为打分项。
本方案的有益效果可根据对上述方案的叙述得知,由于在该方案中当主机节点即主机发生宕机时,能够通过打分选举的方式选出适合的备机节点即备机并自动将其提升为主机,其他备机则将主备关系变更为新的主机。该方法无需占用额外的物理资源,同时也兼顾了高可用性,适用于各种分布式集群的主备切换场景,打分项包括但不限于最后同步时间、节点负载、主机名等;每个节点的打分结果应当完全一致,且不能出现相同分数的节点,如果出现了相同分数的节点,则应增加打分项以提高差异性。由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明具体实施方式的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过一个具体实施方式,并结合其附图,对本方案进行阐述。
通过附图可以看出,本方案的分布式集群下备机选举切换的方法,包括如下步骤:
1)确认集群所有主机节点、备机节点拥有唯一的主机名;所述的主机节点和备机节点之间建立互信连接,通过ssh协议远程向其他节点发送消息。
2)监控集群中主机节点是否宕机;如果主机节点宕机,则进入步骤3),否则继续进行监控;
3)每个节点将自身的工作状态发送到其他存活的节点;所述的工作状态包括最后一次数据同步时间、备机访问负载、当前备机节点的主机名。
4)节点检查是否已收到所有其他存活节点的状态信息,若已收到,则进行打分,并进行打分排序,若未收到则继续等待,直到超时;打分时,最后一次数据同步的时间越晚则得分越高,节点访问负载越低得分越高;若打分相同,则以主机名作为打分项;
5)检查当前节点是否是得分最高的节点,如果是得分最高的节点,则将当前节点提升为主机节点,如果当前节点不是得分最高的节点,则将当前节点隶属的主节点切换为得分最高的节点。若宕机节点恢复并接入回集群,若集群中已存在主机节点,则将已恢复宕机节点切换为备机节点,并将已恢复宕机节点隶属于当前集群中的主机节点。
本发明并不仅限于上述具体实施方式,本领域普通技术人员在本发明的实质范围内做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (6)
1.一种分布式集群下备机选举切换的方法,其特征在于包括如下步骤:
1)确认集群所有主机节点、备机节点拥有唯一的主机名;
2)监控集群中主机节点是否宕机;如果主机节点宕机,则进入步骤3),否则继续进行监控;
3)每个节点将自身的工作状态发送到其他存活的节点;
4)节点检查是否已收到所有其他存活节点的状态信息,若已收到,则进行打分,并进行打分排序,若未收到则继续等待,直到超时;
5)检查当前节点是否是得分最高的节点,如果是得分最高的节点,则将当前节点提升为主机节点,如果当前节点不是得分最高的节点,则将当前节点隶属的主节点切换为得分最高的节点。
2.根据权利要求1所述的分布式集群下备机选举切换的方法,其特征是:步骤5)中若宕机节点恢复并接入回集群,若集群中已存在主机节点,则将已恢复宕机节点切换为备机节点,并将已恢复宕机节点属于当前集群中的主机节点。
3.根据权利要求1所述的分布式集群下备机选举切换的方法,其特征是:所述的主机节点和备机节点之间建立互信连接,通过ssh协议远程向其他节点发送消息。
4.根据权利要求1所述的分布式集群下备机选举切换的方法,其特征是:所述的步骤3)中所述的工作状态包括最后一次数据同步时间、备机访问负载、当前备机节点的主机名。
5.根据权利要求1或4所述的分布式集群下备机选举切换的方法,其特征是:所述的步骤4)打分时,最后一次数据同步的时间越晚则得分越高,节点访问负载越低得分越高。
6.根据权利要求5所述的分布式集群下备机选举切换的方法,其特征是:若打分相同,则以主机名作为打分项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710161503.0A CN106713056B (zh) | 2017-03-17 | 2017-03-17 | 一种分布式集群下备机选举切换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710161503.0A CN106713056B (zh) | 2017-03-17 | 2017-03-17 | 一种分布式集群下备机选举切换的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106713056A CN106713056A (zh) | 2017-05-24 |
CN106713056B true CN106713056B (zh) | 2019-06-28 |
Family
ID=58887238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710161503.0A Active CN106713056B (zh) | 2017-03-17 | 2017-03-17 | 一种分布式集群下备机选举切换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106713056B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329830A (zh) * | 2017-06-28 | 2017-11-07 | 郑州云海信息技术有限公司 | 一种分布式集群系统优化的方法及装置 |
CN107294781B (zh) * | 2017-06-30 | 2021-06-29 | 郑州云海信息技术有限公司 | 一种集群配置节点故障转移的方法及系统 |
CN107948260A (zh) * | 2017-11-15 | 2018-04-20 | 郑州云海信息技术有限公司 | 一种分布式集群中主监控节点选择方法及装置 |
CN109460060A (zh) * | 2018-12-05 | 2019-03-12 | 四川航天系统工程研究所 | 无人装备智能协同控制组件及控制方法 |
CN110086726A (zh) * | 2019-04-22 | 2019-08-02 | 航天云网科技发展有限责任公司 | 一种自动切换Kubernetes主节点的方法 |
CN111198545B (zh) * | 2019-12-24 | 2021-05-04 | 重庆特斯联智慧科技股份有限公司 | 一种智能建筑室内空气环境维护系统和方法 |
CN112463535B (zh) * | 2020-11-27 | 2024-05-10 | 中国工商银行股份有限公司 | 多集群异常处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449733B1 (en) * | 1998-12-07 | 2002-09-10 | Compaq Computer Corporation | On-line replacement of process pairs in a clustered processor architecture |
CN101917263A (zh) * | 2010-08-16 | 2010-12-15 | 深圳市赫迪威信息技术有限公司 | 多机热备的方法及系统 |
CN103684720A (zh) * | 2014-01-06 | 2014-03-26 | 迈普通信技术股份有限公司 | 一种主备服务单元的选择方法及装置 |
CN106330577A (zh) * | 2016-11-11 | 2017-01-11 | 郑州云海信息技术有限公司 | 一种虚拟化管理平台中管理节点切换方法及系统 |
-
2017
- 2017-03-17 CN CN201710161503.0A patent/CN106713056B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6449733B1 (en) * | 1998-12-07 | 2002-09-10 | Compaq Computer Corporation | On-line replacement of process pairs in a clustered processor architecture |
CN101917263A (zh) * | 2010-08-16 | 2010-12-15 | 深圳市赫迪威信息技术有限公司 | 多机热备的方法及系统 |
CN103684720A (zh) * | 2014-01-06 | 2014-03-26 | 迈普通信技术股份有限公司 | 一种主备服务单元的选择方法及装置 |
CN106330577A (zh) * | 2016-11-11 | 2017-01-11 | 郑州云海信息技术有限公司 | 一种虚拟化管理平台中管理节点切换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106713056A (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106713056B (zh) | 一种分布式集群下备机选举切换的方法 | |
CN110381532A (zh) | 测量间隔的配置方法及装置、存储介质、电子装置 | |
CN109474465A (zh) | 一种基于服务器集群的可动态流转的高可用性的实现方法和系统 | |
CN109921942B (zh) | 云平台切换控制方法、装置、系统及电子设备 | |
CN104284359A (zh) | 一种epc网络下跨地区容灾系统及控制方法 | |
CN103795572A (zh) | 主从服务器的切换方法及监控服务器 | |
CN109245926A (zh) | 智能网卡、智能网卡系统及控制方法 | |
EP3537847B1 (en) | Method and device for power outage handling and acquiring connection relations | |
CN105024798A (zh) | 一种时间同步的方法及装置 | |
CN105933939B (zh) | 一种链路维护方法及装置 | |
CN111654384A (zh) | 一种主备切换方法、bras设备及存储介质 | |
CN104639615A (zh) | 一种控制器集群中数据处理方法和装置 | |
CN103152420B (zh) | 一种避免Ovirt虚拟管理平台单点失效的方法 | |
WO2016070530A1 (zh) | 主备设备的运行处理方法及系统 | |
CN104954455A (zh) | 一种面向分布式采集系统的负载均衡运行管理方法 | |
CN102595457B (zh) | 一种维护用户终端多点协作传输的方法及系统 | |
US9900234B2 (en) | Direct link quality monitoring method, communications device, and system | |
CN106130783B (zh) | 一种端口故障处理方法及装置 | |
CN104113932B (zh) | 一种ap设备重连的方法和装置 | |
CN106326042A (zh) | 一种运行状态确定方法及装置 | |
CN102469486B (zh) | 一种提高无线网络控制器可靠性的方法及系统 | |
EP2991285B1 (en) | Method for autonomy of base station, base band unit, base station and cloud base station system | |
CN108174417B (zh) | 一种主备切换方法、装置、相关电子设备及可读存储介质 | |
CN108123822B (zh) | 一种链路处理方法以及链路处理设备 | |
CN107888393B (zh) | 一种非对称冗余通信链路中生成全连接集合的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |