CN116431430A - 一种对Zookeeper集群监控分析系统及方法 - Google Patents

一种对Zookeeper集群监控分析系统及方法 Download PDF

Info

Publication number
CN116431430A
CN116431430A CN202310191487.5A CN202310191487A CN116431430A CN 116431430 A CN116431430 A CN 116431430A CN 202310191487 A CN202310191487 A CN 202310191487A CN 116431430 A CN116431430 A CN 116431430A
Authority
CN
China
Prior art keywords
cluster
zookeeper
data
monitoring
zookeeper cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310191487.5A
Other languages
English (en)
Inventor
周文龙
马超
邹小勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexin Technology Suzhou Co ltd
Hexin Technology Co ltd
Original Assignee
Hexin Technology Suzhou Co ltd
Hexin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexin Technology Suzhou Co ltd, Hexin Technology Co ltd filed Critical Hexin Technology Suzhou Co ltd
Priority to CN202310191487.5A priority Critical patent/CN116431430A/zh
Publication of CN116431430A publication Critical patent/CN116431430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种对Zookeeper集群监控分析方法。所述方法应用于Zookeeper集群,通过系统自动定时进行自有集群监控数据获取和snapshot存储文件分析,以及任意第三方集群四字命令或地址信息的输入,获取自有集群和任意第三方集群监控数据,以及每一个znode的存储数据,将以上数据分别在自有Zookeeper集群监控展示页面、自有Zookeeper集群运行情况展示页面、第三方Zookeeper集群监控展示页面和第三方Zookeeper集群运行情况展示页面进行显示,并对自有集群运行状态进行预警。提高了集群问题处理效率,实现更深层次的数据存储情况分析,页面化、直观化展示数据存储运行情况。

Description

一种对Zookeeper集群监控分析系统及方法
技术领域
本发明涉及Zookeeper集群技术领域,尤其涉及一种对Zookeeper集群监控分析系统及方法。
背景技术
Zookeeper是一种广泛应用于大数据和微服务领域的分布式系统协调服务,可用于解决分布式协作、元数据存储、高可用选举等一些与分布式锁相关的问题,但官方的zookeeper软件未包含页面化、直观的监控和分析手段。
公司内部因业务需要,一般存在多套zookeeper集群,传统监控方式为给每套Zookeeper部署一套监控工具,切换监控对象时需要进行底层配置修改,经过审核、割接、测试等多个步骤,不同监控对象展示切换流程复杂。
现有的Zookeeper监控工具仅提供进程存活、CPU/内存使用量等系统监控,Zookeeper因数据一致性要求,适合于多次读,少量写的应用场景,zookeeper集群往往对接多个业务,存在业务间数据存储相互干扰,某个大量写业务拖慢整体集群的情况,无法自动化、页面化展示数据存储运行情况。
发明内容
本发明提供了一种对Zookeeper集群监控分析系统及方法,以解决现有的zookeeper软件未包含页面化、直观的监控和分析手段,不同监控对象展示切换流程复杂,无法自动化、页面化展示数据存储运行情况的技术问题,提供一种可以灵活切换不同监控对象,自动化、页面化、直观化展示监控数据和数据存储运行情况的平台。
为解决上述技术问题,第一方面,本发明实施例提供了一种对Zookeeper集群监控分析系统,所述系统包括:自有集群监控模块、自有集群运行分析模块、第三方集群监控模块、第三方集群运行分析模块、预警模块和配置模块;
所述自有集群监控模块,用于读取所述配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的监控数据,并将所述自有Zookeeper集群的监控数据在自有Zookeeper集群监控展示页面中显示;
所述自有集群运行分析模块,用于读取所述配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的snapshot文件,通过对所述自有Zookeeper集群的snapshot文件进行解析,获取所述自有Zookeeper集群每一个znode的存储数据,并将所述自有Zookeeper集群每一个znode的存储数据在自有Zookeeper集群运行情况展示页面中显示;
所述第三方集群监控模块,用于通过第三方Zookeeper集群监控展示页面设置的输入窗口获取数据请求指令,获取所述数据请求指令所对应的第三方Zookeeper集群监控数据,并将所述第三方Zookeeper集群的监控数据在第三方Zookeeper集群监控展示页面中显示;
所述第三方集群运行分析模块,用于通过第三方Zookeeper集群运行情况展示页面上传任意第三方Zookeeper集群的snapshot文件,通过对所述任意第三方Zookeeper集群的snapshot文件进行解析,获取所述第三方Zookeeper集群每一个znode的存储数据,并将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示;
所述预警模块,用于监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,触发所述自有Zookeeper集群运行状态预警;
所述配置模块,用于配置需要监控的自有Zookeeper集群。
在进一步的实施例中,所述自有集群监控模块,还用于设定获取所述自有Zookeeper集群监控数据的时间周期;
所述自有集群运行分析模块,还用于设定获取并解析所述自有Zookeeper集群snapshot文件的时间周期。
在进一步实施例中,所述第三方zookeeper集群监控模块,还用于通过设置的四字命令输入窗口获取用户输入的数据请求指令,并根据所述数据请求指令,调用所述数据请求指令所对应的第三方zookeeper集群的监控数据;
以及用于通过设置的zookeeper地址信息输入窗口获取用户输入的zookeeper地址信息,并根据所述zookeeper地址信息,调用所述zookeeper地址信息所对应的第三方zookeeper集群的监控数据。
在进一步实施例中,所述监控数据至少包括:znode总数量、master/slave节点IP和数量、最大/最小延迟数据量、最大/最小发送数据量、最大/最小接收数据量、堆积请求数量、集群平均znode数据大小、集群连接数;
所述每一个znode的存储数据至少包括:各zonde存储数据的长度、数据查看修改次数、子znode数量、子znode修改次数。
在进一步实施例中,所述第三方集群运行分析模块,还用于将所述第三方Zookeeper集群每一个znode的存储数据按照数据排序条件进行排序,并以表格的形式展示前若干值。
在进一步实施例中,所述预警模块包括:
预警阈值设置模块:用于设置预警阈值,所述预警阈值至少包括:master/slave节点数量阈值、最大延迟数据量阈值、堆积请求数量阈值、znode存储数据长度阈值、znode数据修改次数阈值、子znode数量阈值、子zonode修改次数阈值;
预警触发模块:用于监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,并与所述预警阈值比较,当所述自有Zookeeper集群监控数据和每一个znode的存储数据中任一数据超过其对应的预警阈值,则发出所述自有Zookeeper集群运行状态异常预警。
第二方面,本发明实施例提供一种对Zookeeper集群监控分析方法,所述方法包括:
读取配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的监控数据,并将所述自有Zookeeper集群的监控数据在自有Zookeeper集群监控展示页面中显示;
读取配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的snapshot文件,通过对所述自有Zookeeper集群的snapshot文件进行解析,获取所述自有Zookeeper集群每一个znode的存储数据,并将所述自有Zookeeper集群每一个znode的存储数据在自有Zookeeper集群运行情况展示页面中显示;
通过在第三方Zookeeper集群监控展示页面设置的获取窗口输入数据请求指令,获取所述数据请求指令所对应的第三方Zookeeper集群监控数据,并将所述第三方Zookeeper集群的监控数据在第三方Zookeeper集群监控展示页面中显示;
通过在第三方Zookeeper集群运行情况展示页面上传的任意第三方Zookeeper集群的snapshot文件,通过对所述任意第三方Zookeeper集群的snapshot文件进行解析,获取所述第三方Zookeeper集群每一个znode的存储数据,并将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示;
监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,触发所述自有Zookeeper集群运行状态预警。
在第二方面进一步实施例中,所述在第三方Zookeeper集群监控展示页面设置的输入窗口输入数据请求指令,包括:
通过设置的四字命令输入窗口获取数据请求指令,或者通过设置的zookeeper地址信息输入窗口获取zookeeper地址信息。
在第二方面进一步实施例中,所述将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示,包括:
根据设置数据排序条件,将所述第三方Zookeeper集群每一个znode的存储数据按照所述数据排序条件进行排序,并以表格的形式展示前若干值。
在第二方面进一步实施例中,所述触发所述自有Zookeeper集群运行状态预警,包括:
设置预警阈值;
将所述自有Zookeeper集群监控数据和每一个znode的存储数据,与所述预警阈值比较,当所述自有Zookeeper集群监控数据和每一个znode的存储数据中任一数据超过其对应的预警阈值,则发出所述自有Zookeeper集群运行状态异常预警。
本发明实施例提供了一种对Zookeeper集群监控分析系统及方法。应用于Zookeeper集群,通过系统自动定时进行自有集群监控数据获取和snapshot存储文件分析,以及任意第三方集群四字命令或地址信息的输入,获取自有集群和任意第三方集群监控数据,以及每一个znode的存储数据,将以上数据分别在自有Zookeeper集群监控展示页面、自有Zookeeper集群运行情况展示页面、第三方Zookeeper集群监控展示页面和第三方Zookeeper集群运行情况展示页面进行展示,并对自有Zookeeper集群运行状态异常情况进行预警。本申请技术方案提高了zookeeper集群问题处理效率,实现更深层次的数据存储情况分析,页面化、直观化展示数据存储运行情况。
附图说明
图1是本发明实施例所提供的一种对Zookeeper集群监控分析系统示意图;
图2是本发明实施例所提供的一种对Zookeeper集群监控分析系统的预警模块示意图;
图3是本发明实施例所提供的一种对Zookeeper集群监控分析方法示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,在本发明的实施例中,一种对Zookeeper集群监控分析系统,所述系统包括:自有集群监控模块1、自有集群运行分析模块2、第三方集群监控模块3、第三方集群运行分析模块4、预警模块5和配置模块6;
所述自有集群监控模块1,用于读取所述配置模块6中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的监控数据,并将所述自有Zookeeper集群的监控数据在自有Zookeeper集群监控展示页面中显示;
所述自有集群运行分析模块2,用于读取所述配置模块6中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的snapshot文件,通过对所述自有Zookeeper集群的snapshot文件进行解析,获取所述自有Zookeeper集群每一个znode的存储数据,并将所述自有Zookeeper集群每一个znode的存储数据在自有Zookeeper集群运行情况展示页面中显示;
所述第三方集群监控模块3,用于通过第三方Zookeeper集群监控展示页面设置的输入窗口获取数据请求指令,获取所述数据请求指令所对应的第三方Zookeeper集群监控数据,并将所述第三方Zookeeper集群的监控数据在第三方Zookeeper集群监控展示页面中显示;
所述第三方集群运行分析模块4,用于通过第三方Zookeeper集群运行情况展示页面上传任意第三方Zookeeper集群的snapshot文件,通过对所述任意第三方Zookeeper集群的snapshot文件进行解析,获取所述第三方Zookeeper集群每一个znode的存储数据,并将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示;
所述预警模块5,用于监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,触发所述自有Zookeeper集群运行状态预警;
所述配置模块6,用于配置需要监控的自有Zookeeper集群。
第三方zookeeper集群监控模块3,还用于通过设置的四字命令输入窗口获取用户输入的数据请求指令,并根据所述数据请求指令,调用所述数据请求指令所对应的第三方zookeeper集群的监控数据;
以及用于通过设置的zookeeper地址信息输入窗口获取用户输入的zookeeper地址信息,并根据所述zookeeper地址信息,调用所述zookeeper地址信息所对应的第三方zookeeper集群的监控数据。
具体的,在上述实施例中的系统平台应用于Zookeeper集群,该系统平台至少包括:自有zookeeper集群监控展示页面、自有zookeeper集群运行情况展示页面、第三方zookeeper集群监控展示页面和第三方zookeeper集群运行情况展示页面和预警展示页面,以及与以上页面关联的自有集群监控模块1、自有集群运行分析模块2、第三方集群监控模块3、第三方集群运行分析模块4、预警模块5和配置模块6。通过配置模块6配置多个zookeeper集群作为自有Zookeeper集群,读取配置模块6中多个自有Zookeeper集群配置信息,并定时获取各自有Zookeeper集群监控数据,该监控数据至少包括:znode总数量、master/slave节点IP和数量、最大/最小延迟数据量、最大/最小发送数据量、最大/最小接收数据量、堆积请求数量、集群平均znode数据大小、集群连接数等。将以上监控数据在自有Zookeeper集群监控展示页面中显示,并可以根据时间段对各自有Zookeeper集群的监控数据进行查看,不仅能够实时展示各自有Zookeeper集群的监控数据,也便于掌握各自有Zookeeper集群历史运行情况。
在本发明实施例中,定时读取配置模块6中各自有Zookeeper集群snapshot文件,snapshot文件为二进制文件,通过内嵌的zookeeper官方SnapshotFormatter工具,对snapshot文件进行解析,获取每一个znode数据存储情况,并对数据进行汇总分析,每一个znode的存储数据至少包括:各zonde存储数据的长度、数据查看修改次数、子znode数量、子znode修改次数。将以上存储数据在自有Zookeeper集群运行情况展示页面展示各自有Zookeeper集群的运行情况,并可以根据时间段对各自有Zookeeper集群的运行情况进行查看。通过对snapshot文件进行分析,实时掌握并展示各自有Zookeeper集群数据存储运行情况,解决了传统zookeeper监控工具只有进程存活、cpu/内存使用量监控,实现更深层次的数据存储情况分析,可直观看出哪个znode数据量巨大导致进程out of memory,哪个znode写的次数过多导致集群写入缓慢。
进一步的,自有集群监控模块1,还用于设定获取自有Zookeeper集群监控数据的时间周期;自有集群运行分析模块2,还用于设定获取并解析自有Zookeeper集群snapshot文件的时间周期。
通过对获取数据时间周期进行设定,可以根据需求获取不同时间周期的自有Zookeeper集群的监控数据和每一个znode的存储数据,时间周期的不同,表明系统平台对自有Zookeeper集群监控分析频率的不同。
具体的,为实现对第三方Zookeeper集群的监控,可通过四字命令输入窗口实现传统的对第三方Zookeeper集群四字命令信息的收集。也可以通过输入窗口获取任意第三方Zookeeper集群的地址信息,实现对第三方Zookeeper集群整体的监控。该第三方Zookeeper集群监控数据至少包括:znode总数量、master/slave节点IP和数量、最大/最小延迟数据量、最大/最小发送数据量、最大/最小接收数据量、堆积请求数量、集群平均znode数据大小、集群连接数。在第三方Zookeeper集群监控展示页面全面展示第三方Zookeeper集群监控信息。以上任意第三方Zookeeper集群四字命令和地址信息的输入都是通过第三方Zookeeper集群监控展示页面进行输入的,实现任意zookeeper集群四字命令结果和集群监控数据的页面展示,避免传统监控系统需要每个zookeeper集群单独部署一套监控工具,当切换监控对象时需要大量参数修改才能切换的技术问题,提高zookeeper集群问题处理效率。
进一步,通过网页上传并接收任意第三方Zookeeper集群snapshot文件,并进行分析,获取上传的第三方Zookeeper集群每一个znode的存储数据,至少包括:各zonde存储数据的长度、数据查看修改次数、子znode数量、子znode修改次数。在第三方Zookeeper集群运行情况展示页面上可对各第三方Zookeeper集群每一个znode的存储数据进行展示,并可根据需要设置数据排序条件,并按照数据排序条件进行排序,将排序结果以表格的方式展示前若干值,在本发明实施例中,对前10个值进行展示,快速找出存在问题最大的10个znode。同时可将各第三方Zookeeper集群每一个znode的存储数据及分析结果存储到文件中,提供数据下载功能。
如图2所示,在本发明实施例中,预警模块5包括预警阈值设置模块501和预警触发模块502,预警阈值设置模块501用于设置预警阈值,所述预警阈值至少包括:master/slave节点数量阈值、最大延迟数据量阈值、堆积请求数量阈值、znode存储数据长度阈值、znode数据修改次数阈值、子znode数量阈值、子zonode修改次数阈值。
预警触发模块502,用于监测自有Zookeeper集群监控数据和每一个znode的存储数据,并与所述预警阈值比较,当所述自有Zookeeper集群监控数据和每一个znode的存储数据中任一数据超过其对应的预警阈值,则发出所述自有Zookeeper集群运行状态异常预警。
具体的,在本发明实施例中,设置预警阈值,根据自有Zookeeper集群监控数据和每一个znode的存储数据,并提取各预警阈值对应的实际数据。将上述提取的各预警阈值对应的实际数据与预警阈值比较,当任一预警阈值对应的实际数据超过其预警阈值时,则表明该自有Zookeeper集群运行状况发生异常,在自有Zookeeper集群监控展示页面和自有Zookeeper集群运行情况展示页面发出该自有Zookeeper集群运行状态异常预警。将运行状态预警结果在预警展示页面集中展示,同时通过邮件、钉钉、企业微信和/或者短信的方式传输至监管责任人,以使其及时做出应对措施,提升自有Zookeeper集群运行速率。
在本发明实施例中,为解决现有的zookeeper软件未包含页面化、直观的监控和分析手段,不同监控对象展示切换流程复杂,无法自动化、页面化展示数据存储运行情况的技术问题。提供了一种对Zookeeper集群监控分析系统,该系统平台至少包括:自有zookeeper集群监控展示页面、自有zookeeper集群运行情况展示页面、第三方zookeeper集群监控展示页面和第三方zookeeper集群运行情况展示页面和预警展示页面,以及与以上页面关联的自有集群监控模块、自有集群运行分析模块、第三方集群监控模块、第三方集群运行分析模块和预警模块。通过自动定时进行自有zookeeper集群监控数据获取和snapshot存储文件分析,以及任意第三方Zookeeper集群四字命令或地址信息的输入,获取自有和任意第三方zookeeper集群监控数据,以及每一个znode的存储数据,将以上数据分别在自有Zookeeper集群监控展示页面、自有Zookeeper集群运行情况展示页面、第三方Zookeeper集群监控展示页面和第三方Zookeeper集群运行情况展示页面进行展示,并对自有Zookeeper集群运行状态异常情况进行预警。本申请技术方案提高了zookeeper集群问题处理效率,实现更深层次的数据存储情况分析,页面化、直观化展示数据存储运行情况。
相应地,如图3所示,基于一种对Zookeeper集群监控分析系统,本发明实施例还提供一种对Zookeeper集群监控分析方法,所述方法包括:
S1、读取配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的监控数据,并将所述自有Zookeeper集群的监控数据在自有Zookeeper集群监控展示页面中显示;
S2、读取配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群snapshot的文件,通过对所述自有Zookeeper集群的snapshot文件进行解析,获取所述自有Zookeeper集群每一个znode的存储数据,并将所述自有Zookeeper集群每一个znode的存储数据在自有Zookeeper集群运行情况展示页面中显示;
S3、通过在第三方Zookeeper集群监控展示页面设置的获取窗口输入数据请求指令,获取所述数据请求指令所对应的第三方Zookeeper集群监控数据,并将所述第三方Zookeeper集群的监控数据在第三方Zookeeper集群监控展示页面中显示;
S4、通过在第三方Zookeeper集群运行情况展示页面上传的任意第三方Zookeeper集群的snapshot文件,通过对所述任意第三方Zookeeper集群的snapshot文件进行解析,获取所述第三方Zookeeper集群每一个znode的存储数据,并将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示;
S5、监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,触发所述自有Zookeeper集群运行状态预警。
进一步的,步骤S3的在第三方Zookeeper集群监控展示页面设置的输入窗口输入数据请求指令,包括:通过设置的四字命令输入窗口获取数据请求指令,或者通过设置的zookeeper地址信息输入窗口获取zookeeper地址信息。
进一步的,步骤S4的将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示,包括:根据设置的数据排序条件,将所述第三方Zookeeper集群每一个znode的存储数据按照所述数据排序条件进行排序,并以表格的形式展示前若干值。
进一步的,步骤S4的所述触发所述自有Zookeeper集群运行状态预警,包括:
设置预警阈值;
将所述自有Zookeeper集群监控数据和每一个znode的存储数据,与所述预警阈值比较,当所述自有Zookeeper集群监控数据和每一个znode的存储数据中任一数据超过其对应的预警阈值,则发出所述自有Zookeeper集群运行状态异常预警。
关于一种对Zookeeper集群监控分析方法的具体限定可以参见上述对于一种对Zookeeper集群监控分析系统的限定,此处不再赘述。
本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例中一种对Zookeeper集群监控分析系统及方法,针对现有的zookeeper软件未包含页面化、直观的监控和分析手段,不同监控对象展示切换流程复杂,无法自动化、页面化展示数据存储运行情况的技术问题。通过本发明提供的对Zookeeper集群监控分析系统,自动定时进行自有zookeeper集群监控数据获取和snapshot存储文件分析,以及任意第三方Zookeeper集群四字命令或地址信息的输入,获取自有和任意第三方zookeeper集群监控数据,以及每一个znode的存储数据,将以上数据分别在自有Zookeeper集群监控展示页面、自有Zookeeper集群运行情况展示页面、第三方Zookeeper集群监控展示页面和第三方Zookeeper集群运行情况展示页面进行展示,并对自有Zookeeper集群运行状态异常情况进行预警。本申请技术方案提高了zookeeper集群问题处理效率,实现更深层次的数据存储情况分析,页面化、直观化展示数据存储运行情况。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种对Zookeeper集群监控分析系统,其特征在于,所述系统包括:自有集群监控模块、自有集群运行分析模块、第三方集群监控模块、第三方集群运行分析模块、预警模块和配置模块;
所述自有集群监控模块,用于读取所述配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的监控数据,并将所述自有Zookeeper集群的监控数据在自有Zookeeper集群监控展示页面中显示;
所述自有集群运行分析模块,用于读取所述配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的snapshot文件,通过对所述自有Zookeeper集群的snapshot文件进行解析,获取所述自有Zookeeper集群每一个znode的存储数据,并将所述自有Zookeeper集群每一个znode的存储数据在自有Zookeeper集群运行情况展示页面中显示;
所述第三方集群监控模块,用于通过第三方Zookeeper集群监控展示页面设置的输入窗口获取数据请求指令,获取所述数据请求指令所对应的第三方Zookeeper集群监控数据,并将所述第三方Zookeeper集群的监控数据在第三方Zookeeper集群监控展示页面中显示;
所述第三方集群运行分析模块,用于通过第三方Zookeeper集群运行情况展示页面上传任意第三方Zookeeper集群的snapshot文件,通过对所述任意第三方Zookeeper集群的snapshot文件进行解析,获取所述第三方Zookeeper集群每一个znode的存储数据,并将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示;
所述预警模块,用于监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,触发所述自有Zookeeper集群运行状态预警;
所述配置模块:用于配置需要监控的自有Zookeeper集群。
2.如权利要求1所述的对Zookeeper集群监控分析系统,其特征在于,
所述自有集群监控模块,还用于设定获取所述自有Zookeeper集群监控数据的时间周期;
所述自有集群运行分析模块,还用于设定获取并解析所述自有Zookeeper集群snapshot文件的时间周期。
3.如权利要求1所述的对Zookeeper集群监控分析系统,其特征在于,
所述第三方zookeeper集群监控模块,还用于通过设置的四字命令输入窗口获取用户输入的数据请求指令,并根据所述数据请求指令,调用所述数据请求指令所对应的第三方zookeeper集群的监控数据;
以及用于通过设置的zookeeper地址信息输入窗口获取用户输入的zookeeper地址信息,并根据所述zookeeper地址信息,调用所述zookeeper地址信息所对应的第三方zookeeper集群的监控数据。
4.如权利要求1所述的对Zookeeper集群监控分析系统,其特征在于,所述监控数据至少包括:znode总数量、master/slave节点IP和数量、最大/最小延迟数据量、最大/最小发送数据量、最大/最小接收数据量、堆积请求数量、集群平均znode数据大小、集群连接数;
所述每一个znode的存储数据至少包括:各zonde存储数据的长度、数据查看修改次数、子znode数量、子znode修改次数。
5.如权利要求1所述的对Zookeeper集群监控分析系统,其特征在于,
所述第三方集群运行分析模块,还用于将所述第三方Zookeeper集群每一个znode的存储数据按照数据排序条件进行排序,并以表格的形式展示前若干值。
6.如权利要求1所述的对Zookeeper集群监控分析系统,其特征在于,所述预警模块包括:
预警阈值设置模块:用于设置预警阈值,所述预警阈值至少包括:master/slave节点数量阈值、最大延迟数据量阈值、堆积请求数量阈值、znode存储数据长度阈值、znode数据修改次数阈值、子znode数量阈值、子zonode修改次数阈值;
预警触发模块:用于监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,并与所述预警阈值比较,当所述自有Zookeeper集群监控数据和每一个znode的存储数据中任一数据超过其对应的预警阈值,则发出所述自有Zookeeper集群运行状态异常预警。
7.一种对Zookeeper集群监控分析方法,其特征在于,所述方法包括:
读取配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群的监控数据,并将所述自有Zookeeper集群的监控数据在自有Zookeeper集群监控展示页面中显示;
读取配置模块中自有Zookeeper集群配置信息,获取所述自有Zookeeper集群snapshot的文件,通过对所述自有Zookeeper集群的snapshot文件进行解析,获取所述自有Zookeeper集群每一个znode的存储数据,并将所述自有Zookeeper集群每一个znode的存储数据在自有Zookeeper集群运行情况展示页面中显示;
通过在第三方Zookeeper集群监控展示页面设置的获取窗口输入数据请求指令,获取所述数据请求指令所对应的第三方Zookeeper集群监控数据,并将所述第三方Zookeeper集群的监控数据在第三方Zookeeper集群监控展示页面中显示;
通过在第三方Zookeeper集群运行情况展示页面上传的任意第三方Zookeeper集群的snapshot文件,通过对所述任意第三方Zookeeper集群的snapshot文件进行解析,获取所述第三方Zookeeper集群每一个znode的存储数据,并将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示;
监测所述自有Zookeeper集群监控数据和每一个znode的存储数据,触发所述自有Zookeeper集群运行状态预警。
8.如权利要求7所述的对Zookeeper集群监控分析方法,其特征在于,所述在第三方Zookeeper集群监控展示页面设置的输入窗口输入数据请求指令,包括:
通过设置的四字命令输入窗口获取数据请求指令,或者通过设置的zookeeper地址信息输入窗口获取zookeeper地址信息。
9.如权利要求7所述的对Zookeeper集群监控分析方法,其特征在于,所述将所述第三方Zookeeper集群每一个znode的存储数据在第三方zookeeper集群运行情况展示页面中显示,包括:
根据设置的数据排序条件,将所述第三方Zookeeper集群每一个znode的存储数据按照所述数据排序条件进行排序,并以表格的形式展示前若干值。
10.如权利要求7所述的对Zookeeper集群监控分析方法,其特征在于,所述触发所述自有Zookeeper集群运行状态预警,包括:
设置预警阈值;
将所述自有Zookeeper集群监控数据和每一个znode的存储数据,与所述预警阈值比较,当所述自有Zookeeper集群监控数据和每一个znode的存储数据中任一数据超过其对应的预警阈值,则发出所述自有Zookeeper集群运行状态异常预警。
CN202310191487.5A 2023-03-01 2023-03-01 一种对Zookeeper集群监控分析系统及方法 Pending CN116431430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310191487.5A CN116431430A (zh) 2023-03-01 2023-03-01 一种对Zookeeper集群监控分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310191487.5A CN116431430A (zh) 2023-03-01 2023-03-01 一种对Zookeeper集群监控分析系统及方法

Publications (1)

Publication Number Publication Date
CN116431430A true CN116431430A (zh) 2023-07-14

Family

ID=87089749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310191487.5A Pending CN116431430A (zh) 2023-03-01 2023-03-01 一种对Zookeeper集群监控分析系统及方法

Country Status (1)

Country Link
CN (1) CN116431430A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991666A (zh) * 2023-08-01 2023-11-03 合芯科技(苏州)有限公司 一种hdfs数据监控分析系统、方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN108768790A (zh) * 2018-06-29 2018-11-06 北京奇虎科技有限公司 分布式搜索集群监控方法及装置、计算设备、存储介质
CN109861878A (zh) * 2019-01-17 2019-06-07 平安科技(深圳)有限公司 kafka集群的topic数据的监控方法及相关设备
WO2020192065A1 (zh) * 2019-03-22 2020-10-01 苏宁云计算有限公司 一种跨集群高可用的实现方法、装置、系统及设备
CN111930591A (zh) * 2020-07-13 2020-11-13 银盛支付服务股份有限公司 一种对zookeeper集群的监控方法、存储介质及计算机设备
CN115329005A (zh) * 2022-08-29 2022-11-11 济南浪潮数据技术有限公司 多集群的协同方法、系统、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN108768790A (zh) * 2018-06-29 2018-11-06 北京奇虎科技有限公司 分布式搜索集群监控方法及装置、计算设备、存储介质
CN109861878A (zh) * 2019-01-17 2019-06-07 平安科技(深圳)有限公司 kafka集群的topic数据的监控方法及相关设备
WO2020192065A1 (zh) * 2019-03-22 2020-10-01 苏宁云计算有限公司 一种跨集群高可用的实现方法、装置、系统及设备
CN111930591A (zh) * 2020-07-13 2020-11-13 银盛支付服务股份有限公司 一种对zookeeper集群的监控方法、存储介质及计算机设备
CN115329005A (zh) * 2022-08-29 2022-11-11 济南浪潮数据技术有限公司 多集群的协同方法、系统、装置及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991666A (zh) * 2023-08-01 2023-11-03 合芯科技(苏州)有限公司 一种hdfs数据监控分析系统、方法、设备及介质

Similar Documents

Publication Publication Date Title
US9800667B2 (en) Remote industrial monitoring using a cloud infrastructure
US9953066B2 (en) Automatically generating and reporting merged performance and capacity statistics
CN111104535B (zh) 一种数据管理系统及数据管理方法
CN111352921A (zh) 基于elk的慢查询监控方法、装置、计算机设备及存储介质
WO2023142054A1 (zh) 一种面向容器微服务的性能监控告警方法及告警系统
CN105095056A (zh) 一种数据仓库数据监控的方法
CN105159964A (zh) 一种日志监控方法及系统
CN112965874B (zh) 一种可配置的监控告警方法及系统
CN105335271A (zh) 一种状态监控装置、综合监控系统和方法
CN103713981A (zh) 一种数据库服务器性能检测和预警方法
CN116431430A (zh) 一种对Zookeeper集群监控分析系统及方法
CN110995497A (zh) 一种云计算环境下统一运维的方法、终端设备及存储介质
CN111078455A (zh) 基于时间轴的异常行为序列关联处理方法以及装置、设备、存储介质
CN106557308B (zh) 一种软件持续集成方法及装置
CN105407015A (zh) 一种业务平台、监控平台、业务监控系统及方法
CN104410552A (zh) 监控数据采集方法及装置
CN115963775B (zh) 一种基于特征信号数据的plc状态监测系统及方法
CN110597861A (zh) 实时告警方法、装置及设备和计算机可读存储介质
US10331484B2 (en) Distributed data platform resource allocator
CN103218284B (zh) 一种设备使用率信息获取方法
CN114157679A (zh) 基于云原生分布式应用监控方法、装置、设备及介质
CN106534162A (zh) 一种基于远程管理通讯协议的服务器温度监控系统及方法
CN114064402A (zh) 服务器系统监控方法
DE102010043651A1 (de) Anlagenüberwachungssystem und Verfahren zur Überwachung einer Anlage
CN111176950A (zh) 一种监控服务器集群的网卡的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination