CN107908526A - 基于Web的集中式大规模集群监控预警系统 - Google Patents

基于Web的集中式大规模集群监控预警系统 Download PDF

Info

Publication number
CN107908526A
CN107908526A CN201711013020.2A CN201711013020A CN107908526A CN 107908526 A CN107908526 A CN 107908526A CN 201711013020 A CN201711013020 A CN 201711013020A CN 107908526 A CN107908526 A CN 107908526A
Authority
CN
China
Prior art keywords
web
warning system
monitoring early
data collector
hadoop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711013020.2A
Other languages
English (en)
Inventor
顾伟胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingbase Information Technologies Co Ltd
Original Assignee
Beijing Kingbase Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingbase Information Technologies Co Ltd filed Critical Beijing Kingbase Information Technologies Co Ltd
Priority to CN201711013020.2A priority Critical patent/CN107908526A/zh
Publication of CN107908526A publication Critical patent/CN107908526A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于Web的集中式大规模集群监控预警系统,其特征在于,包括:master模块和slave模块;所述master模块包括数据收集器,用于接收来自所述slave模块收集的信息;所述slave模块包括数据采集器和Hadoop数据采集器,所述数据采集器用于收集机器本身相关指标,所述Hadoop数据采集器用于收集Hadoop相关服务模块的性能数据。本发明的有益效果:1、监控集群的硬件资源;2、减少排查的复杂度;3、实时展现系统运行参数;4、极大缩短发现问题的周期。

Description

基于Web的集中式大规模集群监控预警系统
技术领域
本发明涉及计算机高性能领域,具体来说,涉及一种基于Web的集中式大规模集群监控预警系统。
背景技术
在编写应用程序的时候,通常会记录日志以便事后分析,在很多情况下是产生了问题之后,再去查看日志,是一种事后的静态分析。在很多时候,我们可能需要了解整个系统在当前,或者某一时刻运行的情况,比如当前系统中对外提供了多少次服务,这些服务的响应时间是多少,随时间变化的情况是什么样的,系统出错的频率是多少。这些动态的准实时信息对于监控整个系统的运行健康状况来说很重要。
一些应用程序,比如对外提供接口或者服务的WebService,对整个系统的实时运行情况进行监控显得尤为重要,就像操作系统里面的资源管理器一样,如果能够实时或者准实时的看到整个系统耗费的CPU,内存等资源,对于我们快速对系统做出响应,以及优化很重要。并且,这些实时的性能参数信息,对于一些高级应用场景,比如服务的熔断机制(需要实时统计系统出错比例和响应时间),只有做到了实时监控才能提供这些数据,才能实现这种提高系统稳健性的功能。
现有技术方案是:通过客户端命令的形式进行相关操作。但存在许多缺陷:1.这种技术对实际开发人员的要求很高。2.任务排查比较复杂。3.不能及时发现系统、硬件问题等。4.发现问题周期长。
以下为本发明中可能涉及的专业术语:
Gauges:最简单的度量指标,只有一个简单的返回值,例如,我们想衡量的一个待处理队列中任务个数。
Counters:计数器。
Meters:Meter度量一系列事件发生的速率。Meters会统计最近1分钟,5分钟,15分钟,还有全部时间的速率。
Histograms:Histogram统计数据的分布情况。比如最小值,最大值,中间值,还有中位数,75百分位, 90百分位, 95百分位, 98百分位, 99百分位, 和 99.9百分位的值。
Timers:Timer是 Histogram 和 Meter 的结合,Histogram 某部分代码/调用的耗时, meter统计TPS。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于Web的集中式大规模集群监控预警系统,能够实时监控集群的硬件资源。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于Web的集中式大规模集群监控预警系统,包括:master模块和slave模块;
所述master模块包括数据收集器,用于接收来自所述slave模块收集的信息;
所述slave模块包括数据采集器和Hadoop数据采集器,所述数据采集器用于收集机器本身相关指标,所述Hadoop数据采集器用于收集Hadoop相关服务模块的性能数据。
进一步的,所述数据收集器在接收数据后,由所述数据采集器中的时间轴服务通过Phoenix保存到列式数据库中。
进一步的,所述列式数据库以本地文件系统作为存储层。
进一步的,所述列式数据库以分布式文件系统作为存储层。
进一步的,所述机器本身相关指标包括但不限于:CPU、内存和硬盘。
进一步的,所述Hadoop相关服务模块的性能指标包括但不限于:模块的占用内存和模块的CPU占用率。
本发明的有益效果:1、监控集群的硬件资源;2、减少排查的复杂度;3、实时展现系统运行参数;4、极大缩短发现问题的周期。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种基于Web的集中式大规模集群监控预警系统的结构示意图;
图2是根据本发明实施例所述的服务器端的结构示意图;
图3是根据本发明实施例所述的Hadoop分布式文件系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种基于Web的集中式大规模集群监控预警系统,包括:master模块和slave模块;
所述master模块包括数据收集器,用于接收来自所述slave模块收集的信息;
所述slave模块包括数据采集器和Hadoop数据采集器,所述数据采集器用于收集机器本身相关指标,所述Hadoop数据采集器用于收集Hadoop相关服务模块的性能数据。
进一步的,所述数据收集器在接收数据后,由所述数据采集器中的时间轴服务通过Phoenix保存到列式数据库中。
进一步的,所述列式数据库以本地文件系统作为存储层。
进一步的,所述列式数据库以分布式文件系统作为存储层。
进一步的,所述机器本身相关指标包括但不限于:CPU、内存和硬盘。
进一步的,所述Hadoop相关服务模块的性能指标包括但不限于:模块的占用内存和模块的CPU占用率。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的一种基于Web的集中式大规模集群监控预警系统,主要为系统管理员提供了集群性能的监察功能。监控预警系统一般分为集群、主机以及服务三个层级,其中,集群和主机级主要负责监察集群机器相关的性能,而服务级别则负责主机上服务组件的性能。
如图1至3所示,对于监控预警系统本身来说,涉及的主要模块有数据采集器、Hadoop 数据采集器以及数据收集器。监控预警系统也是一个Master-Slave 结构的框架,Master 模块便是数据收集器,Slave 则是数据采集器和 Hadoop 数据采集器。Salve 模块负责收集信息,并发送给 数据收集器。当然数据采集器和 Hadoop数据采集器也有不同的职责,前者主要负责收集机器本身相关的指标,例如 CPU、内存、硬盘等;后者则负责收集Hadoop 相关服务模块的性能数据,例如该模块占用了多少内存,以及该模块的 CPU 占用率等。
监控预警系统会不断的收集集群相关的性能数据,并最终由数据采集器中的时间轴服务保存到列式数据库中(通过 Phoenix)。随着时间的推移,采集的数据会变得非常庞大,因此数据采集器支持两种存储模式,Embedded Mode(嵌入模式)和 Distributed Mode(分布式模式)。简单来说,对于在嵌入模式中,HBase 会以本地文件系统作为存储层,而在分布式模式中,HBase 则以 HDFS 作为存储层。这样就可以充分利用整个集群的物理存储了。需要注意的是,如果监控预警系统要以分布式模式运行,那么监控预警系统所在的机器必须部署一个HDFS的DataNode模块。
此外,监控预警系统还支持配置化 Widget 的功能,Widget 也就是web界面中呈现图的控件,它会根据数值,做出聚合运算,最终呈现在图控件中。数据平台的Widget主要分为四类:Graph、Gauge、Number 以及 Template,其中前三者较为常用。Graph 是一种线性或矩形图,它用于显示在某时间内 Service 的某个(可以是多个)Metrics 属性值。Gauge一般用于显示百分比,其数值来源于一个(可以是多个)Metrics 经过计算后的值(小于1)。Number 则用于直接的显示一个数值,并可以为其配置一个单位,例如 MB 等,其所显示的数值也是来源于一个或多个 Metrics 属性。Widget进一步提升了数据采集器的易用性,以及可配置化。
数据平台为 Widget 组件提供了 4 种聚合方式,分别是 max、min、avg、sum。简单来说:max 就是主机中服务组件收集的同个度量指标属性的最大值;min是最小值;avg 是平均值;sum 则是求和。Widget 组件会以 avg 为默认的聚合方式,同时用户可以在widget 的配置文件中重新指定方式。
监控预警系统非常复杂,与其集成的核心便在数据收集器。如果遇到相关的问题,首先我们可以查看 数据收集器和数据平台的日志;在配置完 metrics.json 以及widget.json 之后,成功部署数据平台之前,如果出现问题则大多只需要查看数据平台的log 即可,大多问题都是两个 json 的格式问题引起的。成功部署之后,则大多只需查看数据收集器的日志。这里最好打开数据收集器的 DEBUG 级别 log。这个需要在 监控预警系统的 Config 页面找到 ams-log4j 段,并更改其中的 log4j.rootLogger 为 DEBUG 即可。
另外,我们可以通过数据收集器的 Rest API 测试其是否正常,其 API支持 POST和 GET 两种请求。
综上所述,借助于本发明的上述技术方案,可达到以下有益效果:1、监控集群的硬件资源;2、减少排查的复杂度;3、实时展现系统运行参数;4、极大缩短发现问题的周期。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于Web的集中式大规模集群监控预警系统,其特征在于,包括:master模块和slave模块;
所述master模块包括数据收集器,用于接收来自所述slave模块收集的信息;
所述slave模块包括数据采集器和Hadoop数据采集器,所述数据采集器用于收集机器本身相关指标,所述Hadoop数据采集器用于收集Hadoop相关服务模块的性能数据。
2.根据权利要求1所述的基于Web的集中式大规模集群监控预警系统,其特征在于,所述数据收集器在接收数据后,由所述数据采集器中的时间轴服务通过Phoenix保存到列式数据库中。
3.根据权利要求2所述的基于Web的集中式大规模集群监控预警系统,其特征在于,所述列式数据库以本地文件系统作为存储层。
4.根据权利要求2所述的基于Web的集中式大规模集群监控预警系统,其特征在于,所述列式数据库以分布式文件系统作为存储层。
5.根据权利要求1所述的基于Web的集中式大规模集群监控预警系统,其特征在于,所述机器本身相关指标包括但不限于:CPU、内存和硬盘。
6.根据权利要求1所述的基于Web的集中式大规模集群监控预警系统,其特征在于,所述Hadoop相关服务模块的性能指标包括但不限于:模块的占用内存和模块的CPU占用率。
CN201711013020.2A 2017-10-26 2017-10-26 基于Web的集中式大规模集群监控预警系统 Pending CN107908526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711013020.2A CN107908526A (zh) 2017-10-26 2017-10-26 基于Web的集中式大规模集群监控预警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711013020.2A CN107908526A (zh) 2017-10-26 2017-10-26 基于Web的集中式大规模集群监控预警系统

Publications (1)

Publication Number Publication Date
CN107908526A true CN107908526A (zh) 2018-04-13

Family

ID=61841701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711013020.2A Pending CN107908526A (zh) 2017-10-26 2017-10-26 基于Web的集中式大规模集群监控预警系统

Country Status (1)

Country Link
CN (1) CN107908526A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN104182487A (zh) * 2014-08-11 2014-12-03 浪潮软件股份有限公司 一种支持多种存储方式的统一存储方法
US20160173620A1 (en) * 2014-12-11 2016-06-16 International Business Machines Corporation Time-based data placement in a distributed storage system
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统
CN107070737A (zh) * 2017-02-07 2017-08-18 济南浪潮高新科技投资发展有限公司 一种通信指标数据实时监控系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN104182487A (zh) * 2014-08-11 2014-12-03 浪潮软件股份有限公司 一种支持多种存储方式的统一存储方法
US20160173620A1 (en) * 2014-12-11 2016-06-16 International Business Machines Corporation Time-based data placement in a distributed storage system
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统
CN107070737A (zh) * 2017-02-07 2017-08-18 济南浪潮高新科技投资发展有限公司 一种通信指标数据实时监控系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔奇明: "《大数据概论》", 30 September 2016 *
沈钊伟: "Ambari Metrics 详解", 《IBM DEVELOPER》 *

Similar Documents

Publication Publication Date Title
US11457029B2 (en) Log analysis based on user activity volume
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
CN109977089A (zh) 日志管理方法、装置、计算机设备及计算机可读存储介质
CN108092813A (zh) 数据中心综合管理系统服务器硬件管理框架及实现方法
EP4113308A1 (en) Enhanced application performance framework
US20160080229A1 (en) Application performance monitoring method and device
CN112751726B (zh) 一种数据处理方法、装置、电子设备和存储介质
CN112699007B (zh) 监控机器性能的方法、系统、网络设备及存储介质
EP3798848B1 (en) Analyzing large-scale data processing jobs
CN110727556A (zh) 一种bmc健康状态监控方法、系统、终端及存储介质
CN103902442A (zh) 一种云软件健康度评测方法及系统
US10402298B2 (en) System and method for comprehensive performance and availability tracking using passive monitoring and intelligent synthetic transaction generation in a transaction processing system
CN108492150A (zh) 实体热度的确定方法及系统
CN108182139A (zh) 预警方法、装置和系统
Fu et al. Performance issue diagnosis for online service systems
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
CN109905261A (zh) 故障诊断方法及装置
US11113364B2 (en) Time series data analysis control method and analysis control device
CN109819019A (zh) 用于大规模网络数据采集的监控与统计分析方法和系统
CN107908526A (zh) 基于Web的集中式大规模集群监控预警系统
CN105471607A (zh) 一种大规模集群节点动态信息的树形监视方法
Zhang Frequency monitoring network (FNET) data center development and data analysis
Wang et al. Model Construction and Data Management of Running Log in Supporting SaaS Software Performance Analysis.
CN114595473A (zh) 访问数据处理方法和装置、电子设备、计算机可读介质
Chakraborty et al. Observability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180413