CN109165137A - 数据分析及告警方法和系统 - Google Patents

数据分析及告警方法和系统 Download PDF

Info

Publication number
CN109165137A
CN109165137A CN201810841051.5A CN201810841051A CN109165137A CN 109165137 A CN109165137 A CN 109165137A CN 201810841051 A CN201810841051 A CN 201810841051A CN 109165137 A CN109165137 A CN 109165137A
Authority
CN
China
Prior art keywords
alarm
management server
hadoop cluster
server
regulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810841051.5A
Other languages
English (en)
Inventor
王榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201810841051.5A priority Critical patent/CN109165137A/zh
Publication of CN109165137A publication Critical patent/CN109165137A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种数据分析及告警方法和系统。所述方法包括:管理服务器接收用户根据自身所维护的计算服务器的运行状况配置的告警规则;管理服务器将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中;Hadoop集群对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警;管理服务器按照所述Hadoop集群所触发的告警,发出告警。本发明能够提升告警功能的性能及稳定性。

Description

数据分析及告警方法和系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据分析及告警方法和系统。
背景技术
大型互联网公司、超算中心、政府机构以及学校等,由于自身业务的需要,会利用大量的服务器进行业务计算,这些大量的服务器构成一个计算集群。当节点数量较少时,运维人员可以通过人工的方式去管理该计算集群,处理硬件或软件故障。但当计算集群的规模增大时,再通过人工的方式去进行管理,就显得力不从心了。因此就出现了集群管理系统,通过程序对集群的各个节点进行监控,实时反映给运维人员集群健康状况,从而能够大大减少运维人员的工作量,提高工作效率。
在集群管理系统中,一个很重要的功能就是告警功能,系统通过对集群节点的各种硬件进行数据采集,再根据一定的规则,判断出节点是否出现异常,如出现异常,则及时通知运维人员进行处理,进而减少由于节点故障造成的损失。
现有的集群管理系统大多使用数据库存储采集到的硬件指标数据,再通过定时的轮询判断节点是否异常,因此主要存在以下几点问题:
采用数据库作为指标数据的存储方式,当集群规模增大时,大数据量的指标数据会对数据库产生影响,严重时可能引起程序的不稳定,造成告警不及时,影响用户业务;程序运行多为单点方式,所有的计算均在一台服务器上运行,当数据量增多时,会造成服务器负载过高,影响计算速度,进而造成告警功能不稳定;现有的集群管理系统中,用户对于告警的规则的可定制性较差,甚至都是程序预定义好的,当用户对于自己的集群有更合理的管理规则时,由于不能修改告警规则,进而造成无意义的告警。
发明内容
本发明提供的数据分析及告警方法和系统,能够提升告警功能的性能及稳定性。
第一方面,本发明提供一种数据分析及告警方法,包括:
管理服务器接收用户根据自身所维护的计算服务器的运行状况配置的告警规则;
管理服务器将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中;
Hadoop集群对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警;
管理服务器按照所述Hadoop集群所触发的告警,发出告警。
可选地,所述管理服务器接收用户根据自身所维护的计算服务器的运行状况配置的告警规则包括:管理服务器接收用户根据自身所维护的计算服务器的运行状况对同一指标配置的不同等级的告警规则。
可选地,所述Hadoop集群对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配包括:Hadoop集群启动MapReduce作业并分发到所配置的各个节点上,由各个节点对预定时间内各计算服务器的指标数据进行采集和整合并按时间进行排序;Hadoop集群将采集到的指标数据按照时间顺序依次与数据库中存储的告警规则进行匹配。
可选地,所述管理服务器按照所述Hadoop集群所触发的告警,发出告警包括:管理服务器按照所述Hadoop集群所触发的告警的告警等级以及告警时间,发出告警。
可选地,所述告警规则包括告警阈值和持续时间。
第二方面,本发明提供一种数据分析及告警系统,所述系统包括管理服务器以及与所述管理服务器连接的多个Hadoop集群,每个Hadoop集群对应多个计算服务器,其中,
所述管理服务器,用于接收用户根据自身所维护的计算服务器的运行状况配置的告警规则,将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中,并按照所述Hadoop集群所触发的告警,发出告警;
所述Hadoop集群,用于对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警。
可选地,所述管理服务器,还用于接收用户根据自身所维护的计算服务器的运行状况对同一指标配置的不同等级的告警规则。
可选地,所述Hadoop集群,还用于启动MapReduce作业并分发到所配置的各个节点上,由各个节点对预定时间内各计算服务器的指标数据进行采集和整合并按时间进行排序;Hadoop集群将采集到的指标数据按照时间顺序依次与数据库中存储的告警规则进行匹配。
可选地,所述管理服务器,还用于按照所述Hadoop集群所触发的告警的告警等级以及告警时间,发出告警。
可选地,所述告警规则包括告警阈值和持续时间。
本发明实施例提供的数据分析及告警方法和系统,用户可以根据自身所维护的计算服务器的运行状况在管理服务器上配置告警规则,使得告警规则的配置更加合理、灵活;管理服务器将用户配置的告警规则与计算服务器的指标进行关联后的关联结果存储到Hadoop集群的数据库中,避免大数据量的指标数据对管理服务器的数据库产生影响;告警功能由管理服务器和Hadoop集群共同实现,Hadoop集群负责指标数据的采集、指标数据与告警规则的匹配以及告警的触发,管理服务器根据Hadoop集群触发的告警而发出告警,从而能够提升告警功能的性能及稳定性。
附图说明
图1为本发明一实施例数据分析及告警方法的流程图;
图2为本发明一实施例数据分析及告警系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种数据分析及告警方法,如图1所示,所述方法包括:
S11、管理服务器接收用户根据自身所维护的计算服务器的运行状况配置的告警规则。
S12、管理服务器将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中。
S13、Hadoop集群对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警。
其中,所述指标数据为计算服务器中某个硬件的运行数据,例如:CPU利用率。
S14、管理服务器按照所述Hadoop集群所触发的告警,发出告警。
本发明实施例提供的数据分析及告警方法,用户可以根据自身所维护的计算服务器的运行状况在管理服务器上配置告警规则,使得告警规则的配置更加合理、灵活;管理服务器将用户配置的告警规则与计算服务器的指标进行关联后的关联结果存储到Hadoop集群的数据库中,避免大数据量的指标数据对管理服务器的数据库产生影响;告警功能由管理服务器和Hadoop集群共同实现,Hadoop集群负责指标数据的采集、指标数据与告警规则的匹配以及告警的触发,管理服务器根据Hadoop集群触发的告警而发出告警,从而能够提升告警功能的性能及稳定性。
下面对本发明实施例数据分析及告警方法进行详细说明。
本发明实施例利用MapReduce及HBase等技术,实现告警程序可分布式运行,并解决了集群规模增加导致的指标数据过多的问题,并开放了规则编写限制,让运维人员可根据自身集群的实际状态指定更为合理的告警规则。
首先,用户根据自身所维护的计算服务器的运行状况,在管理服务器上合理配置告警规则,包含告警阈值、持续时间等。并且可以对同一指标配置不同等级的规则,实现分级告警。
然后,管理服务器中的告警模块将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的Redis中,便于后面进行规则匹配时,减少对数据库的操作,提升性能。
其中,Redis为一种key-value形式的内存数据库。
接着,Hadoop集群启动MapReduce作业并分发到所配置的各个节点上,由各个节点对预定时间内各计算服务器的指标数据进行采集和整合并按时间进行排序;Hadoop集群将采集到的指标数据进行扫描整合,将指标数据进行归档并按照时间顺序依次与数据库中存储的告警规则进行匹配,并且综合考虑告警等级、触发时间等参数,向管理服务器触发告警。
最后,管理服务器按照所述Hadoop集群所触发的告警的告警等级以及告警时间,发出告警。
本发明实施例还提供一种数据分析及告警系统,如图2所示,所述系统包括管理服务器以及与所述管理服务器连接的多个Hadoop集群,每个Hadoop集群对应多个计算服务器,其中,
所述管理服务器,用于接收用户根据自身所维护的计算服务器的运行状况配置的告警规则,将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中,并按照所述Hadoop集群所触发的告警,发出告警;
所述Hadoop集群,用于对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警。
本发明实施例提供的数据分析及告警系统,用户可以根据自身所维护的计算服务器的运行状况在管理服务器上配置告警规则,使得告警规则的配置更加合理、灵活;管理服务器将用户配置的告警规则与计算服务器的指标进行关联后的关联结果存储到Hadoop集群的数据库中,避免大数据量的指标数据对管理服务器的数据库产生影响;告警功能由管理服务器和Hadoop集群共同实现,Hadoop集群负责指标数据的采集、指标数据与告警规则的匹配以及告警的触发,管理服务器根据Hadoop集群触发的告警而发出告警,从而能够提升告警功能的性能及稳定性。
可选地,所述管理服务器,还用于接收用户根据自身所维护的计算服务器的运行状况对同一指标配置的不同等级的告警规则。
可选地,所述Hadoop集群,还用于启动MapReduce作业并分发到所配置的各个节点上,由各个节点对预定时间内各计算服务器的指标数据进行采集和整合并按时间进行排序;Hadoop集群将采集到的指标数据按照时间顺序依次与数据库中存储的告警规则进行匹配。
可选地,所述管理服务器,还用于按照所述Hadoop集群所触发的告警的告警等级以及告警时间,发出告警。
可选地,所述告警规则包括告警阈值和持续时间。
本实施例的系统,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种数据分析及告警方法,其特征在于,包括:
管理服务器接收用户根据自身所维护的计算服务器的运行状况配置的告警规则;
管理服务器将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中;
Hadoop集群对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警;
管理服务器按照所述Hadoop集群所触发的告警,发出告警。
2.根据权利要求1所述的方法,其特征在于,所述管理服务器接收用户根据自身所维护的计算服务器的运行状况配置的告警规则包括:管理服务器接收用户根据自身所维护的计算服务器的运行状况对同一指标配置的不同等级的告警规则。
3.根据权利要求1或2所述的方法,其特征在于,所述Hadoop集群对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配包括:Hadoop集群启动MapReduce作业并分发到所配置的各个节点上,由各个节点对预定时间内各计算服务器的指标数据进行采集和整合并按时间进行排序;Hadoop集群将采集到的指标数据按照时间顺序依次与数据库中存储的告警规则进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述管理服务器按照所述Hadoop集群所触发的告警,发出告警包括:管理服务器按照所述Hadoop集群所触发的告警的告警等级以及告警时间,发出告警。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述告警规则包括告警阈值和持续时间。
6.一种数据分析及告警系统,其特征在于,所述系统包括管理服务器以及与所述管理服务器连接的多个Hadoop集群,每个Hadoop集群对应多个计算服务器,其中,
所述管理服务器,用于接收用户根据自身所维护的计算服务器的运行状况配置的告警规则,将用户配置的所述告警规则与计算服务器的指标进行关联,并将关联结果存储到Hadoop集群的数据库中,并按照所述Hadoop集群所触发的告警,发出告警;
所述Hadoop集群,用于对各计算服务器的指标数据进行采集,并将采集到的指标数据与数据库中存储的告警规则进行匹配,根据匹配结果向管理服务器触发告警。
7.根据权利要求6所述的系统,其特征在于,所述管理服务器,还用于接收用户根据自身所维护的计算服务器的运行状况对同一指标配置的不同等级的告警规则。
8.根据权利要求6或7所述的系统,其特征在于,所述Hadoop集群,还用于启动MapReduce作业并分发到所配置的各个节点上,由各个节点对预定时间内各计算服务器的指标数据进行采集和整合并按时间进行排序;Hadoop集群将采集到的指标数据按照时间顺序依次与数据库中存储的告警规则进行匹配。
9.根据权利要求8所述的系统,其特征在于,所述管理服务器,还用于按照所述Hadoop集群所触发的告警的告警等级以及告警时间,发出告警。
10.根据权利要求6至9中任一项所述的系统,其特征在于,所述告警规则包括告警阈值和持续时间。
CN201810841051.5A 2018-07-27 2018-07-27 数据分析及告警方法和系统 Withdrawn CN109165137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810841051.5A CN109165137A (zh) 2018-07-27 2018-07-27 数据分析及告警方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810841051.5A CN109165137A (zh) 2018-07-27 2018-07-27 数据分析及告警方法和系统

Publications (1)

Publication Number Publication Date
CN109165137A true CN109165137A (zh) 2019-01-08

Family

ID=64898437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810841051.5A Withdrawn CN109165137A (zh) 2018-07-27 2018-07-27 数据分析及告警方法和系统

Country Status (1)

Country Link
CN (1) CN109165137A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162444A (zh) * 2019-05-14 2019-08-23 海南电网有限责任公司信息通信分公司 一种系统性能监测方法及平台
CN111190888A (zh) * 2020-01-03 2020-05-22 中国建设银行股份有限公司 一种管理图数据库集群的方法和装置
CN112000050A (zh) * 2020-09-09 2020-11-27 杭州安森智能信息技术有限公司 一种机器人集群智能化状态监测与告警方法
CN112636979A (zh) * 2020-12-24 2021-04-09 北京浪潮数据技术有限公司 一种集群告警方法及相关装置
CN113608839A (zh) * 2021-08-10 2021-11-05 曙光信息产业(北京)有限公司 集群告警方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954184A (zh) * 2015-06-15 2015-09-30 四川长虹电器股份有限公司 云端后台服务器集群的监控、告警方法及系统
US20150304457A1 (en) * 2012-10-29 2015-10-22 Tencent Technology (Shenzhen) Company Limited Method, System And Device For Monitoring Data
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统
CN106789398A (zh) * 2016-11-25 2017-05-31 中国传媒大学 一种媒体大数据hadoop集群监控的方法
CN108270618A (zh) * 2017-12-30 2018-07-10 杭州华为数字技术有限公司 告警判定的方法、装置及告警系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150304457A1 (en) * 2012-10-29 2015-10-22 Tencent Technology (Shenzhen) Company Limited Method, System And Device For Monitoring Data
CN104954184A (zh) * 2015-06-15 2015-09-30 四川长虹电器股份有限公司 云端后台服务器集群的监控、告警方法及系统
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统
CN106789398A (zh) * 2016-11-25 2017-05-31 中国传媒大学 一种媒体大数据hadoop集群监控的方法
CN108270618A (zh) * 2017-12-30 2018-07-10 杭州华为数字技术有限公司 告警判定的方法、装置及告警系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162444A (zh) * 2019-05-14 2019-08-23 海南电网有限责任公司信息通信分公司 一种系统性能监测方法及平台
CN111190888A (zh) * 2020-01-03 2020-05-22 中国建设银行股份有限公司 一种管理图数据库集群的方法和装置
CN112000050A (zh) * 2020-09-09 2020-11-27 杭州安森智能信息技术有限公司 一种机器人集群智能化状态监测与告警方法
CN112636979A (zh) * 2020-12-24 2021-04-09 北京浪潮数据技术有限公司 一种集群告警方法及相关装置
CN112636979B (zh) * 2020-12-24 2022-08-12 北京浪潮数据技术有限公司 一种集群告警方法及相关装置
CN113608839A (zh) * 2021-08-10 2021-11-05 曙光信息产业(北京)有限公司 集群告警方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109165137A (zh) 数据分析及告警方法和系统
CN105718351B (zh) 一种面向Hadoop集群的分布式监控管理系统
CN104462121B (zh) 数据处理方法、装置及系统
Huang et al. P&P: A combined push-pull model for resource monitoring in cloud computing environment
CN109492394A (zh) 异常业务请求的识别方法及终端设备
CN102081622A (zh) 评估系统健康度的方法及系统健康度评估装置
Canali et al. Improving scalability of cloud monitoring through PCA-based clustering of virtual machines
CN105871957B (zh) 监控框架设计方法和监控服务器、代理单元、中控服务器
CN105302697B (zh) 一种密集数据模型数据库的运行状态监控方法及系统
CN109271243B (zh) 一种集群任务管理系统
CN107995006A (zh) 一种云环境下基于消息触发的实时计费系统
CN107590181A (zh) 一种大数据的智能分析系统
CN113448812A (zh) 微服务场景下的监控告警方法及装置
Uriarte et al. Service clustering for autonomic clouds using random forest
CN110347888A (zh) 订单数据的处理方法、装置及存储介质
CN109189578A (zh) 存储服务器分配方法、装置、管理服务器以及存储系统
CN109634802A (zh) 进程监控方法及终端设备
CN105550025B (zh) 分布式基础设施即服务(IaaS)调度方法及系统
CN106446289A (zh) 基于Pinpoint的信息查询方法和装置
CN113504996A (zh) 一种负载均衡检测方法、装置、设备及存储介质
CN108763310A (zh) 一种高可用的大数据平台
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN109815082A (zh) Kafka主题监控方法、装置、电子设备及存储介质
CN115525230A (zh) 存储资源的分配方法、装置、存储介质及电子设备
CN108304549A (zh) 一种大数据智能化处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190108

WW01 Invention patent application withdrawn after publication