CN105681128A - 一种用于大数据系统状态监控的方法和装置 - Google Patents

一种用于大数据系统状态监控的方法和装置 Download PDF

Info

Publication number
CN105681128A
CN105681128A CN201610019065.XA CN201610019065A CN105681128A CN 105681128 A CN105681128 A CN 105681128A CN 201610019065 A CN201610019065 A CN 201610019065A CN 105681128 A CN105681128 A CN 105681128A
Authority
CN
China
Prior art keywords
big data
data system
system information
information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610019065.XA
Other languages
English (en)
Inventor
曹宇
余效伟
肖赞
李旭阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Priority to CN201610019065.XA priority Critical patent/CN105681128A/zh
Publication of CN105681128A publication Critical patent/CN105681128A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)
  • Alarm Systems (AREA)

Abstract

本发明涉及计算机技术领域,尤其涉及一种用于大数据系统状态监控的方法和装置。该方法包括调用计算机设备采集大数据系统信息,并根据采集到的大数据系统信息判断大数据系统状态是否出现异常,当根据采集到的大数据系统信息判断出大数据系统状态出现异常时,自动向用户发送报警信息。这样就通过计算机设备实现了对大数据系统状态的监控和报警过程,提高了监控和报警效率以及报警的准确性。

Description

一种用于大数据系统状态监控的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于大数据系统状态监控的方法和装置。
背景技术
大数据系统(hadoop生态)的服务器集群在统计分析和汇总相关软硬件信息上因服务器较多、部署软件种类较多以及相关信息指标过于复杂,对整个集群的状态进行监控,并当集群的状态出现异常时的报警工作量很繁重,监控和报警效率低下。
针对以上低效情况,目前多数解决方式仍为人工监控集群,通过相关监控软件以及相关命令等对集群信息进行查看和判断,当集群出现异常时人工报警。这种方式步骤繁琐、耗费工时、效率低下,此外,经常会由于人工疏忽而产生误报、漏报等现象。
发明内容
本发明提供了一种用于大数据系统状态监控的方法和装置,通过调用计算机设备采集大数据系统信息,并根据采集到的大数据系统信息判断出大数据系统出现异常时自动向用户发送报警信息,提高了对大数据系统状态监控和报警工作的效率。
第一方面,本发明提供了一种用于大数据系统状态监控的方法,包括调用计算机设备执行:
采集大数据系统信息;
根据采集到的大数据系统信息判断大数据系统状态是否出现异常;
当大数据系统状态出现异常时,向用户发出报警信息。
进一步的,所述向用户发出报警信息,包括:
发送报警邮件给用户,或者调用第三方接口,自动给用户拨打报警电话。
进一步的,所述采集大数据系统信息,包括:
采集多种类型的大数据系统信息;
所述根据采集到的大数据系统信息判断大数据系统状态是否出现异常,包括:
针对每一种类型的大数据系统信息,确定该大数据系统信息对应的异常判断规则,并根据该异常判断规则判断该类型的大数据系统信息是否异常。
进一步的,所述根据采集到的大数据系统信息判断大数据系统状态是否出现异常包括:
将采集到的大数据系统信息处理为预设格式;
根据处理为预设格式的大数据系统信息判断大数据系统状态是否出现异常。
进一步的,所述采集大数据系统信息包括:采集如下参数中的一种或者多种:
HDFS空间占用信息、HDFSBLOCK块计数信息、HDFSBLOCK分布信息、HDFS空间增长信息、HBASE合并队列信息、HBASE刷新队列信息、HBASEmemstore大小信息、flume堆压信息、flume速率信息、kafka堆压信息、集群各进程信息和集群机器负载信息。
进一步的,所述方法,还包括:
获取历史报警信息,并根据历史报警信息分析大数据系统的稳定性指数、存储指数、性能指数和漏洞指数中的一种或者几种生成报警图表;
向用户发送报警图表。
进一步的,所述方法,还包括:
根据历史报警信息,对大数据系统未来的稳定性指数、存储指数、性能指数和漏洞指数中的一种或者几种生成预测图表;
向用户发送预测图表。
第二方面,本发明提供了一种用于大数据系统状态监控的装置,包括:
采集模块,用于调用计算机设备采集大数据系统信息;
判断模块,用于根据采集到的大数据系统信息判断大数据系统状态是否存在异常;
报警模块,用于当大数据系统状态出现异常时,向用户发出报警信息。
进一步的,所述报警模块具体用于调用计算机设备向客户发送报警邮件,或者调用第三方接口,给用户拨打报警电话。
进一步的,所述采集模块,具体用于调用计算机设备采集多种类型的大数据系统信息;
所述判断模块具体用于调用计算机设备针对每一种类型的大数据系统信息,确定该大数据系统信息对应的异常判断规则,并根据该异常判断规则判断该类型的大数据系统信息是否异常。
进一步的,所述判断模块还用于调用计算机设备将采集到的大数据系统信息处理为预设格式;根据处理为预设格式的大数据系统信息判断大数据系统状态是否出现异常。
本发明提供的用于大数据系统状态监控的方法和装置,通过调用计算机设备采集大数据系统信息,并根据采集到的大数据系统信息判断大数据系统状态是否出现异常,当根据采集到的大数据系统信息判断出大数据系统状态出现异常时,自动向用户发送报警信息。这样就通过计算机设备实现了对大数据系统状态的监控和报警过程,提高了监控和报警效率以及报警的准确性。
附图说明
图1为本发明提供的用于大数据系统状态监控的方法的流程示意图;
图2为本发明提供的用于大数据系统状态监控的装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
第一方面,本发明提供了一种用于大数据系统状态监控的方法,参见图1,该方法包括调用计算机设备执行如下流程:
步骤S1,采集大数据系统信息;
步骤S2,根据采集到的大数据系统信息判断大数据系统状态是否出现异常;
步骤S3,当大数据系统状态出现异常时,向用户发出报警信息。
通过调用计算机设备采集大数据系统信息,当根据采集到的大数据系统信息判断出大数据系统状态出现异常时,自动向用户发送报警信息。这样就通过计算机设备实现了对大数据系统状态的监控和报警,提高了监控和报警效率以及报警的准确性。
在具体实施时,上述的步骤S3中可以通过多种方式将报警信息发送给用户。具体来说,将与大数据系统状态出现异常有关的异常大数据系统信息以邮件的形式发送给用户,这样用户无需在相应的计算机设备处,便可获知大数据系统出现了异常。另外,当大数据系统状态出现异常时也可以通过计算机调用第三方接口,自动给用户拨打报警电话,这样用户便可以及时获知大数据系统状态出现了异常,从而及时地采取相应措施,避免出现的异常对大数据系统造成损害。
在具体实施时,上述的步骤S1可以具体包括:
持续地或按照预设周期采集多种大数据系统信息;
针对每一种类型的大数据系统信息,确定该大数据系统信息对应的异常判断规则,并根据该异常判断规则判断该类型的大数据系统信息是否异常。
如此可以提高对大数据系统状态监控的容错性。
在具体实施时,上述的步骤S2可以具体包括:将采集到的大数据系统信息处理为预设格式;
根据处理为预设格式的大数据系统信息判断大数据系统状态是否出现异常。
这样做的好处是,能够允许计算机设备与多种不同类型的设备之间进行通信,比如这里的接口可以为hadoopjmx以及其他组件的相关接口,比如linuxshell等,此时可以采用json解析数据并生成预设格式的大数据系统信息。
在具体实施时,上述的步骤S1可以具体包括:按照预设周期采集如下参数中的一种或者多种:
HDFS空间占用信息、HDFSBLOCK块计数信息、HDFSBLOCK分布信息、HDFS空间增长信息、HBASE合并队列信息、HBASE刷新队列信息、HBASEmemstore大小信息、flume堆压信息、flume速率信息、kafka堆压信息、集群各进程信息和集群机器负载信息。
在具体实施时,所述方法,还可以包括:
获取历史报警信息,并根据历史报警信息分析大数据系统的稳定性指数、存储指数、性能指数和漏洞指数中的一种或者几种生成报警图表;
向用户发送报警图表。
由于磁盘存储空间报警会影响存储指数以及稳定性指数;kafka堆压报警会影响性能指数;进程报警会影响稳定性指数和漏洞指数。因此,用户可以根据报警图表获知大数据系统哪个部分的状态出现了异常,从而能够当大数据系统状态出现异常时,及时采取相应的处理处理措施。
在具体实施时,所述方法,还可以包括:
根据历史报警信息,对大数据系统未来的稳定性指数、存储指数、性能指数和漏洞指数中的一种或者几种生成预测图表;
向用户发送预测图表。
如此设计的好处在于,能够为用户预测大数据系统可能会出现异常的部分,使用户及早做好防护准备,避免给用户造成损失。
在具体实施时,可以对所有的报警信息进行存储,按预设周期定期读取相应的报警信息,根据报警信息分析大数据系统的稳定性指数、存储指数、性能指数和漏洞指数,并对各项指数进行预测。
在具体实施时,可以通过大数据系统各个部件的报警时间、报警频率和报警的详细内容分析对大数据系统的各项指数进行预测。
在具体实施时可以根据每种指数的报警次数t,按如下公式计算报警值P:
P=(100-t)/100
在具体实施时,若报警值P随着时间的推移越来越小,则表明该指数的状态出现异常。
例如,若磁盘存储空间的根目录报警信息连续出现,且报警值P逐渐递减,则可以通过分析数据得出每日平均差,给出预测结果:该磁盘的根目录可能将在几天后彻底占满。如此用户便可以根据报警信息及时对磁盘进行清理。
基于相同的构思,第二方面,本发明提供了一种用于大数据系统状态监控的装置,参见图2,该装置可以包括:
采集模块201,用于调用计算机设备采集大数据系统信息;
判断模块202,用于调用计算机设备根据采集到的大数据系统信息判断大数据系统状态是否存在异常;
报警模块203,用于当大数据系统状态出现异常时,用于调用计算机设备向用户发出报警信息。
在具体实施时,上述的报警模块203可以具体用于向用户发送报警邮件,或者调用第三方接口,给用户拨打报警电话。
在具体实施时,所述采集模块201,具体用于调用计算机设备采集多种类型的大数据系统信息;所述判断模块202具体用于调用计算机设备针对每一种类型的大数据系统信息,确定该大数据系统信息对应的异常判断规则,并根据该异常判断规则判断该类型的大数据系统信息是否异常。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种用于大数据系统状态监控的方法,其特征在于,包括调用计算机设备执行:
采集大数据系统信息;
根据采集到的大数据系统信息判断大数据系统状态是否出现异常;
当大数据系统状态出现异常时,向用户发出报警信息。
2.如权利要求1所述的方法,其特征在于,所述向用户发出报警信息,包括:
发送报警邮件给用户,或者调用第三方接口,自动给用户拨打报警电话。
3.如权利要求1所述的方法,其特征在于,所述采集大数据系统信息,包括:
采集多种类型的大数据系统信息;
所述根据采集到的大数据系统信息判断大数据系统状态是否出现异常,包括:
针对每一种类型的大数据系统信息,确定该大数据系统信息对应的异常判断规则,并根据该异常判断规则判断该类型的大数据系统信息是否异常。
4.如权利要求1所述的方法,其特征在于,所述根据采集到的大数据系统信息判断大数据系统状态是否出现异常包括:
将采集到的大数据系统信息处理为预设格式;
根据处理为预设格式的大数据系统信息判断大数据系统状态是否出现异常。
5.如权利要求1所述的方法,其特征在于,所述采集大数据系统信息包括:采集如下参数中的一种或者多种:
HDFS空间占用信息、HDFSBLOCK块计数信息、HDFSBLOCK分布信息、HDFS空间增长信息、HBASE合并队列信息、HBASE刷新队列信息、HBASEmemstore大小信息、flume堆压信息、flume速率信息、kafka堆压信息、集群各进程信息和集群机器负载信息。
6.如权利要求5所述的方法,其特征在于,还包括:
获取历史报警信息,并根据历史报警信息分析大数据系统的稳定性指数、存储指数、性能指数和漏洞指数中的一种或者几种生成报警图表;
向用户发送报警图表。
7.如权利要求6所述的方法,其特征在于,还包括:
根据历史报警信息,对大数据系统未来的稳定性指数、存储指数、性能指数和漏洞指数中的一种或者几种生成预测图表;
向用户发送预测图表。
8.一种用于大数据系统状态监控的装置,其特征在于,包括:
采集模块,用于调用计算机设备采集大数据系统信息;
判断模块,用于调用计算机设备根据采集到的大数据系统信息判断大数据系统状态是否存在异常;
报警模块,用于当大数据系统状态出现异常时,调用计算机设备向用户发出报警信息。
9.如权利要求8所述的装置,其特征在于,所述报警模块具体用于调用计算机设备向客户发送报警邮件,或者调用第三方接口,给用户拨打报警电话。
10.如权利要求8所述的装置,其特征在于,
所述采集模块,具体用于调用计算机设备采集多种类型的大数据系统信息;
所述判断模块具体用于调用计算机设备针对每一种类型的大数据系统信息,确定该大数据系统信息对应的异常判断规则,并根据该异常判断规则判断该类型的大数据系统信息是否异常。
CN201610019065.XA 2016-01-12 2016-01-12 一种用于大数据系统状态监控的方法和装置 Pending CN105681128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610019065.XA CN105681128A (zh) 2016-01-12 2016-01-12 一种用于大数据系统状态监控的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610019065.XA CN105681128A (zh) 2016-01-12 2016-01-12 一种用于大数据系统状态监控的方法和装置

Publications (1)

Publication Number Publication Date
CN105681128A true CN105681128A (zh) 2016-06-15

Family

ID=56300299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610019065.XA Pending CN105681128A (zh) 2016-01-12 2016-01-12 一种用于大数据系统状态监控的方法和装置

Country Status (1)

Country Link
CN (1) CN105681128A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789369A (zh) * 2017-02-23 2017-05-31 上海耐相智能科技有限公司 一种用于大数据系统状态监控的装置
CN107315655A (zh) * 2017-06-02 2017-11-03 北京潘达互娱科技有限公司 一种实时统计的排行榜数据恢复方法与装置
CN107704359A (zh) * 2017-09-04 2018-02-16 北京天平检验行有限公司 一种大数据平台的监控系统
CN107797875A (zh) * 2017-04-17 2018-03-13 平安科技(深圳)有限公司 一种大数据管理方法、终端以及设备
CN108121303A (zh) * 2016-11-30 2018-06-05 沈阳中科博微科技股份有限公司 一种应用于制造设备统计分析过程的日志记录方法
CN109257200A (zh) * 2017-07-14 2019-01-22 北京京东尚科信息技术有限公司 大数据平台监控的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100135211A1 (en) * 2007-05-16 2010-06-03 First-Tech Corporation Ubiquitous sensor network-based system and method for automatically managing food sanitation
CN101938374A (zh) * 2010-08-24 2011-01-05 中兴通讯股份有限公司 一种系统性能监控及告警方法和系统
CN102752132A (zh) * 2012-06-06 2012-10-24 北京像素软件科技股份有限公司 一种对服务器进行远程实时监控的方法、装置及系统
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN103634149A (zh) * 2013-11-28 2014-03-12 常州工学院 一种用于分布式系统的监测方法
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及系统
CN104572405A (zh) * 2014-12-12 2015-04-29 集时通(福建)信息科技有限公司 一种pc服务器操作系统与数据库运行环境监测报警系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100135211A1 (en) * 2007-05-16 2010-06-03 First-Tech Corporation Ubiquitous sensor network-based system and method for automatically managing food sanitation
CN101938374A (zh) * 2010-08-24 2011-01-05 中兴通讯股份有限公司 一种系统性能监控及告警方法和系统
CN102752132A (zh) * 2012-06-06 2012-10-24 北京像素软件科技股份有限公司 一种对服务器进行远程实时监控的方法、装置及系统
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法
CN103634149A (zh) * 2013-11-28 2014-03-12 常州工学院 一种用于分布式系统的监测方法
CN103763143A (zh) * 2014-01-23 2014-04-30 北京华胜天成科技股份有限公司 基于存储服务器的设备异常报警的方法及系统
CN104572405A (zh) * 2014-12-12 2015-04-29 集时通(福建)信息科技有限公司 一种pc服务器操作系统与数据库运行环境监测报警系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121303A (zh) * 2016-11-30 2018-06-05 沈阳中科博微科技股份有限公司 一种应用于制造设备统计分析过程的日志记录方法
CN106789369A (zh) * 2017-02-23 2017-05-31 上海耐相智能科技有限公司 一种用于大数据系统状态监控的装置
CN107797875A (zh) * 2017-04-17 2018-03-13 平安科技(深圳)有限公司 一种大数据管理方法、终端以及设备
CN107315655A (zh) * 2017-06-02 2017-11-03 北京潘达互娱科技有限公司 一种实时统计的排行榜数据恢复方法与装置
CN107315655B (zh) * 2017-06-02 2020-05-19 北京潘达互娱科技有限公司 一种实时统计的排行榜数据恢复方法与装置
CN109257200A (zh) * 2017-07-14 2019-01-22 北京京东尚科信息技术有限公司 大数据平台监控的方法和装置
CN109257200B (zh) * 2017-07-14 2022-04-12 北京京东尚科信息技术有限公司 大数据平台监控的方法和装置
CN107704359A (zh) * 2017-09-04 2018-02-16 北京天平检验行有限公司 一种大数据平台的监控系统
CN107704359B (zh) * 2017-09-04 2021-03-16 北京天平检验行有限公司 一种大数据平台的监控系统

Similar Documents

Publication Publication Date Title
CN105681128A (zh) 一种用于大数据系统状态监控的方法和装置
CN111143102B (zh) 异常数据检测方法、装置、存储介质及电子设备
CN109981328B (zh) 一种故障预警方法及装置
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
CN105183609A (zh) 一种应用于软件系统的实时监控系统及方法
CN111472971A (zh) 柱塞泵的故障诊断装置及方法
CN110830438A (zh) 一种异常日志告警方法、装置及电子设备
CN109088775B (zh) 异常监控方法、装置以及服务器
CN108599977B (zh) 基于统计方法监控系统可用性的系统及方法
CN110955586A (zh) 一种基于日志的系统故障预测方法、装置和设备
CN110471821A (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN109992473A (zh) 应用系统的监控方法、装置、设备及存储介质
CN110808864A (zh) 通信预警方法、装置及系统
CN103763143A (zh) 基于存储服务器的设备异常报警的方法及系统
CN113342608B (zh) 流式计算引擎任务的监控方法及装置
CN114064402A (zh) 服务器系统监控方法
CN108363024B (zh) 一种充电桩故障点定位的方法和装置
CN113123955B (zh) 柱塞泵异常检测方法、装置、存储介质及电子设备
CN212155116U (zh) 柱塞泵的故障诊断装置、系统及挖掘机
CN115792606B (zh) 一种水泵电机故障检测方法、装置、设备及存储介质
KR101973728B1 (ko) 통합 보안 이상징후 모니터링 시스템
CN114116128B (zh) 容器实例的故障诊断方法、装置、设备和存储介质
CN109905267A (zh) 一种用于大数据系统状态监控的方法和装置
CN116048915A (zh) 一种指标异常的监控方法及装置、电子设备、存储介质
CN110878692A (zh) 故障报警方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615

RJ01 Rejection of invention patent application after publication