CN106059843A - 一种基于Zookeeper 的节点配置系统及方法 - Google Patents

一种基于Zookeeper 的节点配置系统及方法 Download PDF

Info

Publication number
CN106059843A
CN106059843A CN201610676038.XA CN201610676038A CN106059843A CN 106059843 A CN106059843 A CN 106059843A CN 201610676038 A CN201610676038 A CN 201610676038A CN 106059843 A CN106059843 A CN 106059843A
Authority
CN
China
Prior art keywords
zookeeper
reliable
node
machine room
coordination system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610676038.XA
Other languages
English (en)
Inventor
吕明阳
顾正
魏雪峰
韦国颂
张云龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huachengfeng Data Technology Co Ltd
Original Assignee
Shenzhen Huachengfeng Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huachengfeng Data Technology Co Ltd filed Critical Shenzhen Huachengfeng Data Technology Co Ltd
Priority to CN201610676038.XA priority Critical patent/CN106059843A/zh
Publication of CN106059843A publication Critical patent/CN106059843A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Abstract

本发明公开一种基于Zookeeper的节点配置系统及方法,其系统包括探测模块,发送Zookeeper心跳信息,包括探测模块为每个该可靠协调系统Zookeeper建立临时节点并监听,监听到该临时节点消失时,建立新的临时节点;容灾监控的可靠协调系统,接收该心跳信息,并同步该心跳信息到代理模块,在IDC故障时,检测出需要剔除的节点和对应该节点的Zookeeper;代理模块,监测到该建立的临时节点有变化时,在检测到满足缩容条件时,执行缩容操作,包括修改可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,从而达到实现在IDC故障情况下,能够快速恢复,提供正常的处理性能和吞吐能力,保证在IDC故障情况下,Zookeeper集群正常运转,为其他集群化系统,提供基础保证。

Description

一种基于Zookeeper的节点配置系统及方法
技术领域
本发明涉及分布式系统集群技术领域,尤其涉及一种基于Zookeeper的节点配置系统及方法。
背景技术
Zookeeper(可靠协调系统)是一个分布式的,开放源码的分布式应用程序协调服务,是一个强大的分布式系统;Zookeeper是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置服务、域名服务、分布式同步、组服务等。
但是现有的Zookeeper在IDC(可靠协调系统机房)故障时,ZooKeeper吞吐量会有所下降,不能提供正常的处理性能和吞吐能力,Zookeeper集群不能正常运转。
发明内容
本发明要解决的技术问题是提供一种基于Zookeeper的节点配置系统及方法。
本发明的目的在于提供一种基于Zookeeper的节点配置系统,包括:可靠协调系统机房、探测模块、容灾监控的可靠协调系统、代理模块;
所述可靠协调系统机房,包括:可靠协调系统Zookeeper,一个Zookeeper对应一个节点;
所述探测模块,用于发送相同所述可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到所述容灾监控的可靠协调系统,所述心跳信息包括所述探测模块为每个所述可靠协调系统Zookeeper建立临时节点,并监听所述临时节点,监听到所述临时节点消失时,立即建立新的临时节点;
所述容灾监控的可靠协调系统,用于接收所述心跳信息,并同步所述所接收到的所述心跳信息到所述代理模块,并监控所述可靠协调系统机房中的可靠协调系统Zookeeper集群,在所述可靠协调系统机房故障时,检测出需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,协调所述可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;
所述代理模块,一个所述代理模块对应所述可靠协调系统机房中的一个可靠协调系统Zookeeper,监测所述探测模块为每个所述可靠协调系统Zookeeper建立的临时节点,监测到所述建立的临时节点有变化时,检测所述可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作。
其中,所述代理模块执行缩容操作,包括:
所述代理模块根据所述容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点。
其中,所述代理模块在修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点之后,还用于根据所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,确认是否需要重启Zookeeper,需要重启的话,就重启下Zookeeper。
其中,当发生IDC故障时,对应故障IDC的探测模块的心跳信息消失,所述容灾监控的可靠协调系统中的临时节点消失。
本发明的目的在于还提供一种基于Zookeeper的节点配置方法,所述Zookeeper包括可靠协调系统机房、探测模块、容灾监控的可靠协调系统、代理模块,包括:
所述探测模块发送相同所述可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到所述容灾监控的可靠协调系统,所述心跳信息包括所述探测模块为每个所述可靠协调系统Zookeeper建立临时节点,并监听所述临时节点,监听到所述临时节点消失时,立即建立新的临时节点;
所述容灾监控的可靠协调系统接收所述心跳信息,并同步所述所接收到的所述心跳信息到所述代理模块,并监控所述可靠协调系统机房中的可靠协调系统Zookeeper集群,在所述可靠协调系统机房故障时,检测出需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,协调所述可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;
所述代理模块监测所述探测模块为每个所述可靠协调系统Zookeeper建立的临时节点,监测到所述建立的临时节点有变化时,检测所述可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作。
其中,所述代理模块执行缩容操作,包括:所述代理模块根据所述容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点。
其中,所述代理模块在修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点之后,还包括:
所述代理模块根据所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,确认是否需要重启Zookeeper,需要重启的话,就重启下Zookeeper。
其中,当发生IDC故障时,对应故障IDC的探测模块的心跳信息消失,所述容灾监控的可靠协调系统中的临时节点消失。
本发明提供的基于Zookeeper的节点配置系统包括:探测模块,用于发送相同可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统;该心跳信息包括探测模块为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;容灾监控的可靠协调系统,用于接收该心跳信息,并同步该所接收到的该心跳信息到代理模块,并监控可靠协调系统机房中的可靠协调系统Zookeeper集群,在可靠协调系统机房故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;代理模块,监测探测模块为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块根据容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,从而达到实现在IDC故障情况下,能够快速恢复,提供正常的处理性能和吞吐能力,保证在IDC故障情况下,Zookeeper集群正常运转,为其他集群化系统,提供基础保证。
本发明提供的基于Zookeeper的节点配置方法,包括:探测模块发送相同可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统;该心跳信息包括探测模块为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;容灾监控的可靠协调系统接收该心跳信息,并同步该所接收到的该心跳信息到代理模块,并监控可靠协调系统机房中的可靠协调系统Zookeeper集群,在可靠协调系统机房故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;代理模块监测探测模块为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块根据容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,从而达到实现在IDC故障情况下,能够快速恢复,提供正常的处理性能和吞吐能力,保证在IDC故障情况下,Zookeeper集群正常运转,为其他集群化系统,提供基础保证。
附图说明
图1,为本发明基于Zookeeper的节点配置系统的示意图;
图2,为本发明探测模块工作时的示意图;
图3,为Zookeeper缩容前的示意图;
图4,为Zookeeper缩容后的示意图;
图5,为本发明基于Zookeeper的节点配置方法的示意图。
具体实施方式
本发明提供一种基于Zookeeper的节点配置系统及方法,应用于分布式系统集群技术领域,本发明基于Zookeeper的节点配置系统包括:可靠协调系统机房(IDCZk,IDCZookeeper)、探测模块(ZkMonitor,Zookeeper Monitor)、容灾监控的可靠协调系统(TopZk,TOP Zookeeper)、代理模块(ZkAgent,ZookeeperAgent);探测模块,用于发送相同可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统;该心跳信息包括探测模块为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;容灾监控的可靠协调系统,用于接收该心跳信息,并同步该所接收到的该心跳信息到代理模块,并监控可靠协调系统机房中的可靠协调系统Zookeeper集群,在可靠协调系统机房故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;代理模块,监测探测模块为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块根据容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,从而达到实现在IDC故障情况下,能够快速恢复,提供正常的处理性能和吞吐能力,保证在IDC故障情况下,Zookeeper集群正常运转,为其他集群化系统,提供基础保证。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于Zookeeper的节点配置系统。
请参见图1,图1为本发明基于Zookeeper的节点配置系统的示意图,本发明基于Zookeeper的节点配置系统10,包括:可靠协调系统机房(IDCZk,IDC Zookeeper)101、探测模块(ZkMonitor,Zookeeper Monitor)102、容灾监控的可靠协调系统(TopZk,TOPZookeeper)103、代理模块(ZkAgent,Zookeeper Agent)104;
可靠协调系统机房101,包括:可靠协调系统Zookeeper,一个Zookeeper对应一个节点;
探测模块102,用于发送相同可靠协调系统机房101内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统103;该心跳信息包括探测模块102为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;
容灾监控的可靠协调系统103,用于接收该心跳信息,并同步该所接收到的该心跳信息到代理模块104,并监控可靠协调系统机房101中的可靠协调系统Zookeeper集群,在可靠协调系统机房101故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房101中的可靠协调系统Zookeeper集群的缩容;
代理模块104,一个代理模块104对应可靠协调系统机房101中的一个可靠协调系统Zookeeper,监测探测模块102为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房101中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块104根据容灾监控的可靠协调系统103在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房101中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,并重启Zookeeper。
本发明基于Zookeeper的节点配置系统10,以节点数为3,举例说明满足缩容的条件,同时满足节点数等于3和只剩下两个异地可靠协调系统机房101可用时,则满足缩容条件,代理模块104根据容灾监控的可靠协调系统103在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房101中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,并重启Zookeeper。
其中,容灾监控的可靠协调系统103也可以是一个Zookeeper集群,可以按照两地三中心要求来部署,部署方式可以是1-1-1,容灾监控的可靠协调系统103可以不公开其信息,可以只用来给控测模块102和代理模块104使用,这样可以保证本发明基于Zookeeper的节点配置系统10的写压力非常小,不会受可靠协调系统机房101不会受IDC故障引起的性能和吞吐量下降的影响。
其中,请参见图2,图2为本发明探测模块102工作时的示意图,探测模块102工作时,包括:
一、探测模块102发送相同可靠协调系统机房101内的可靠协调系统Zookeeper(图中未标示)心跳信息到容灾监控的可靠协调系统103;该心跳信息包括探测模块102为每个该可靠协调系统Zookeeper建立临时节点(图中未标示),并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;
二、可对节点进行命名,包括:node@CITYid#IDCid#ZKid(node:节点的标示;CITYid:城市的标示,IDCid:数据中心的标示,ZKid:Zookeeper的标示);
三、该建立的临时节点,分别对应Zookeeper中的相应节点(图中未标示),一个临时节点对应一个Zookeeper节点;
四、和Zookeeper部署在同一个可靠协调系统机房101的探测模块102,负责维护相同IDC的Zookeeper的节点、临时节点,保证节点、临时节点不会消失,或者消失后,立刻要建立新的临时节点;
五、当发生IDC故障时,对应故障IDC的探测模块102的心跳信息会消失,容灾监控的可靠协调系统103中的临时节点也会相应消失。
其中,请参见图3和图4,图3为Zookeeper缩容前的示意图,图4为Zookeeper缩容后的示意图,代理模块104工作时,包括:
一、一个代理模块104对应可靠协调系统机房101中的一个可靠协调系统Zookeeper;
二、监测探测模块102为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房101中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作;
三、该执行缩容操作,包括:代理模块104根据容灾监控的可靠协调系统103在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房101中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点;
四、根据可靠协调系统机房101中的可靠协调系统Zookeeper的配置文件,确认是否需要重启Zookeeper,需要重启的话,就重启下Zookeeper;
五、判断重启后的Zookeeper状态是否正常,如果不正常,需要及时通知告警。
本发明还提供一种基于Zookeeper的节点配置方法。
请参见图5,图5为本发明基于Zookeeper的节点配置方法的示意图,该Zookeeper包括可靠协调系统机房、探测模块、容灾监控的可靠协调系统、代理模块,本发明基于Zookeeper的节点配置方法,包括:
S51、探测模块发送相同可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统;该心跳信息包括探测模块为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;
S52、容灾监控的可靠协调系统接收该心跳信息,并同步该所接收到的该心跳信息到代理模块,并监控可靠协调系统机房中的可靠协调系统Zookeeper集群,在可靠协调系统机房故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;
S53、代理模块监测探测模块为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块根据容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,并重启Zookeeper。
其中,可靠协调系统机房,其结构、功能等与图1所示的本发明可靠协调系统机房101的结构、功能等相同,此处不再赘述。
其中,探测模块,其结构、功能等与图1所示的本发明探测模块102的结构、功能等相同,此处不再赘述。
其中,容灾监控的可靠协调系统,其结构、功能等与图1所示的本发明容灾监控的可靠协调系统103的结构、功能等相同,此处不再赘述。
其中,代理模块,其结构、功能等与图1所示的本发明代理模块104的结构、功能等相同,此处不再赘述。
本发明提供的基于Zookeeper的节点配置系统,包括:探测模块102,用于发送相同可靠协调系统机房101内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统103;该心跳信息包括探测模块102为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;容灾监控的可靠协调系统103,用于接收该心跳信息,并同步该所接收到的该心跳信息到代理模块104,并监控可靠协调系统机房101中的可靠协调系统Zookeeper集群,在可靠协调系统机房101故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房101中的可靠协调系统Zookeeper集群的缩容;代理模块104,监测探测模块102为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房101中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块104根据容灾监控的可靠协调系统103在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房101中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,从而达到实现在IDC故障情况下,能够快速恢复,提供正常的处理性能和吞吐能力,保证在IDC故障情况下,Zookeeper集群正常运转,为其他集群化系统,提供基础保证。
本发明提供的基于Zookeeper的节点配置方法,包括:探测模块发送相同可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到容灾监控的可靠协调系统;该心跳信息包括探测模块为每个该可靠协调系统Zookeeper建立临时节点,并监听该临时节点,监听到该临时节点消失时,立即建立新的临时节点;容灾监控的可靠协调系统接收该心跳信息,并同步该所接收到的该心跳信息到代理模块,并监控可靠协调系统机房中的可靠协调系统Zookeeper集群,在可靠协调系统机房故障时,检测出需要剔除的节点和对应该节点的可靠协调系统Zookeeper,协调可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;代理模块监测探测模块为每个该可靠协调系统Zookeeper建立的临时节点,监测到该建立的临时节点有变化时,检测可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作,该执行缩容操作,包括:代理模块根据容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应该节点的可靠协调系统Zookeeper,修改可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点,从而达到实现在IDC故障情况下,能够快速恢复,提供正常的处理性能和吞吐能力,保证在IDC故障情况下,Zookeeper集群正常运转,为其他集群化系统,提供基础保证。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语“包含”、“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系统要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个、、、、、、”限定的要素,并不排除在包括所述要素的过程、方法、物品、设备或者装置中还存在另外的相同要素。
对于本发明基于Zookeeper的节点配置系统及方法,实现的形式是多种多样的。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于Zookeeper的节点配置系统,其特征在于,包括:可靠协调系统机房、探测模块、容灾监控的可靠协调系统、代理模块;
所述可靠协调系统机房,包括:可靠协调系统Zookeeper,一个Zookeeper对应一个节点;
所述探测模块,用于发送相同所述可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到所述容灾监控的可靠协调系统,所述心跳信息包括所述探测模块为每个所述可靠协调系统Zookeeper建立临时节点,并监听所述临时节点,监听到所述临时节点消失时,立即建立新的临时节点;
所述容灾监控的可靠协调系统,用于接收所述心跳信息,并同步所述所接收到的所述心跳信息到所述代理模块,并监控所述可靠协调系统机房中的可靠协调系统Zookeeper集群,在所述可靠协调系统机房故障时,检测出需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,协调所述可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;
所述代理模块,一个所述代理模块对应所述可靠协调系统机房中的一个可靠协调系统Zookeeper,监测所述探测模块为每个所述可靠协调系统Zookeeper建立的临时节点,监测到所述建立的临时节点有变化时,检测所述可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作。
2.如权利要求1所述的基于Zookeeper的节点配置系统,其特征在于,所述代理模块执行缩容操作,包括:
所述代理模块根据所述容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点。
3.权利要求1所述的基于Zookeeper的节点配置系统,其特征在于,所述代理模块在修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点之后,还用于根据所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,确认是否需要重启Zookeeper,需要重启的话,就重启下Zookeeper。
4.如权利要求1所述的基于Zookeeper的节点配置系统,其特征在于,当发生IDC故障时,对应故障IDC的探测模块的心跳信息消失,所述容灾监控的可靠协调系统中的临时节点消失。
5.一种基于Zookeeper的节点配置方法,所述Zookeeper包括可靠协调系统机房、探测模块、容灾监控的可靠协调系统、代理模块,其特征在于,包括:
所述探测模块发送相同所述可靠协调系统机房内的可靠协调系统Zookeeper心跳信息到所述容灾监控的可靠协调系统,所述心跳信息包括所述探测模块为每个所述可靠协调系统Zookeeper建立临时节点,并监听所述临时节点,监听到所述临时节点消失时,立即建立新的临时节点;
所述容灾监控的可靠协调系统接收所述心跳信息,并同步所述所接收到的所述心跳信息到所述代理模块,并监控所述可靠协调系统机房中的可靠协调系统Zookeeper集群,在所述可靠协调系统机房故障时,检测出需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,协调所述可靠协调系统机房中的可靠协调系统Zookeeper集群的缩容;
所述代理模块监测所述探测模块为每个所述可靠协调系统Zookeeper建立的临时节点,监测到所述建立的临时节点有变化时,检测所述可靠协调系统机房中的可靠协调系统Zookeeper集群是否满足缩容条件,在检测到满足缩容条件时,执行缩容操作。
6.如权利要求5所述的基于Zookeeper的节点配置方法,其特征在于,所述代理模块执行缩容操作,包括:所述代理模块根据所述容灾监控的可靠协调系统在可靠协调系统机房故障时,检测出的需要剔除的节点和对应所述节点的可靠协调系统Zookeeper,修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点。
7.权利要求6所述的基于Zookeeper的节点配置方法,其特征在于,所述代理模块在修改所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,剔除不可用的Zookeeper节点之后,还包括:
所述代理模块根据所述可靠协调系统机房中的可靠协调系统Zookeeper的配置文件,确认是否需要重启Zookeeper,需要重启的话,就重启下Zookeeper。
8.如权利要求5所述的基于Zookeeper的节点配置方法,其特征在于,当发生IDC故障时,对应故障IDC的探测模块的心跳信息消失,所述容灾监控的可靠协调系统中的临时节点消失。
CN201610676038.XA 2016-08-16 2016-08-16 一种基于Zookeeper 的节点配置系统及方法 Pending CN106059843A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610676038.XA CN106059843A (zh) 2016-08-16 2016-08-16 一种基于Zookeeper 的节点配置系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610676038.XA CN106059843A (zh) 2016-08-16 2016-08-16 一种基于Zookeeper 的节点配置系统及方法

Publications (1)

Publication Number Publication Date
CN106059843A true CN106059843A (zh) 2016-10-26

Family

ID=57194652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610676038.XA Pending CN106059843A (zh) 2016-08-16 2016-08-16 一种基于Zookeeper 的节点配置系统及方法

Country Status (1)

Country Link
CN (1) CN106059843A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713458A (zh) * 2016-12-23 2017-05-24 智者四海(北京)技术有限公司 Zookeeper集群及Zookeeper实例的部署方法、装置以及管理平台
CN107168813A (zh) * 2017-04-28 2017-09-15 平安科技(深圳)有限公司 任务处理方法及系统
CN109729160A (zh) * 2018-12-20 2019-05-07 新华三大数据技术有限公司 Thrift server服务的实现方法、Thrift server节点及客户端
CN113010337A (zh) * 2021-01-21 2021-06-22 腾讯科技(深圳)有限公司 故障检测方法、总控节点、工作节点及分布式系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统
CN103731312A (zh) * 2014-01-26 2014-04-16 飞狐信息技术(天津)有限公司 对远程方法调用的服务进行故障检查的方法和装置
CN104486108A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 基于Zookeeper的节点配置方法和基于Zookeeper的节点配置系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统
CN103731312A (zh) * 2014-01-26 2014-04-16 飞狐信息技术(天津)有限公司 对远程方法调用的服务进行故障检查的方法和装置
CN104486108A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 基于Zookeeper的节点配置方法和基于Zookeeper的节点配置系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713458A (zh) * 2016-12-23 2017-05-24 智者四海(北京)技术有限公司 Zookeeper集群及Zookeeper实例的部署方法、装置以及管理平台
CN107168813A (zh) * 2017-04-28 2017-09-15 平安科技(深圳)有限公司 任务处理方法及系统
WO2018196154A1 (zh) * 2017-04-28 2018-11-01 平安科技(深圳)有限公司 任务处理方法、系统、终端及计算机可读存储介质
CN109729160A (zh) * 2018-12-20 2019-05-07 新华三大数据技术有限公司 Thrift server服务的实现方法、Thrift server节点及客户端
CN113010337A (zh) * 2021-01-21 2021-06-22 腾讯科技(深圳)有限公司 故障检测方法、总控节点、工作节点及分布式系统
CN113010337B (zh) * 2021-01-21 2023-05-16 腾讯科技(深圳)有限公司 故障检测方法、总控节点、工作节点及分布式系统

Similar Documents

Publication Publication Date Title
CN106059843A (zh) 一种基于Zookeeper 的节点配置系统及方法
CN104268061B (zh) 一种适用于虚拟机的存储状态监控方法
US9071535B2 (en) Comparing node states to detect anomalies
EP3142011A1 (en) Anomaly recovery method for virtual machine in distributed environment
CN105933407A (zh) 一种实现Redis集群高可用的方法及系统
JP2006178557A (ja) コンピュータシステム及びエラー処理方法
CN103067209B (zh) 一种心跳模块自检测方法
CN104394194A (zh) 一种基于PaaS平台的云系统运维监控方法及系统
CN106301823A (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
CN101136799A (zh) 一种实现通讯设备故障集中告警处理的方法
CN105991376A (zh) 一种监测冗余网络完整性的方法和冗余装置
CN107656847A (zh) 基于分布式集群的节点管理方法、系统、装置及存储介质
CN101193001A (zh) 通过静态数据或动态数据的检测判断主备机一致性的方法
CN105490847B (zh) 一种私有云存储系统中节点故障实时检测及处理方法
CN103457797A (zh) 一种rcpu端口有效性的检测方法和设备
CN105159944A (zh) 一种数据库应急处理方法及系统
CN106657390A (zh) 集群文件系统目录隔离方法、装置及系统
CN109995597A (zh) 一种网络设备故障处理方法及装置
CN112653753B (zh) 基于rpc的多机房独立多活方法、系统及电子设备
CN112990867A (zh) 一种实现文档平台服务高可用的方法、系统及设备
JPS62175045A (ja) アラ−ム通知方式
CN106055434A (zh) 一种高可用服务器的优化方法及系统
CN103368754B (zh) 一种检测业务故障的方法、装置和系统及设备
CN101820360A (zh) 一种告警平台及其实现告警的方法
CN105812420A (zh) 一种集群系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication