CN109885453B - 基于流数据处理的大数据平台监控系统 - Google Patents
基于流数据处理的大数据平台监控系统 Download PDFInfo
- Publication number
- CN109885453B CN109885453B CN201910119278.3A CN201910119278A CN109885453B CN 109885453 B CN109885453 B CN 109885453B CN 201910119278 A CN201910119278 A CN 201910119278A CN 109885453 B CN109885453 B CN 109885453B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- index
- log
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种基于流数据处理的大数据平台监控系统,所述系统包括:数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种基于流数据处理的大数据平台监控系统。
背景技术
目前,公知的大数据平台监控系统的实现方式基本上都通过调用大数据平台各个服务组件所提供的的JMX和HTTP监控接口所实现。传统的基于JMX和HTTP监控接口所实现的监控系统具有如下的缺陷:
1.系统的可靠性和实时性差,对底层服务有影响。系统的每一次监控都通过大数据平台提供的监控接口来获取可能会受到网络等因素而导致查询响应慢,同时当系统访问量很大时会导致底层大数据平台的各个服务组件的压力增大。
2.系统不支持对于大数据平台的历史监控数据进行查询。由于系统的每一次监控都直接调用平台提供的接口,所以不会记录平台的历史监测数据。
3.系统不支持告警,或者告警发现不及时。目前的监控系统的告警实现是在其获取平台服务各项数据时计算告警,当不获取数据时则无法触发告警。
4.系统更多的关注大数据平台各个服务指标数据的监控,而不关注对平台服务日志和平台服务所在主机的监控。
5.系统的开放性不好。系统的所有数据都只可以供自身使用,而不能供其他第三方系统使用。
发明内容
本发明实施例提供一种基于流数据处理的大数据平台监控系统,用以解决现有技术中的上述问题。
本发明实施例提供一种基于流数据处理的大数据平台监控系统,包括:
数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;
接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;
存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;
数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示。
优选地,所述数据收集层具体用于:
将大数据平台各服务的日志数据由各服务按照设计的标准格式进行收集,然后汇总上报到Kafka中的日志Topic中;服务及主机的指标数据通过命令获取、日志数据提取、或者调用服务接口三种方式之一获取后上报到Kafka中对应的原始数据Topic中;服务及主机可用性数据通过脚本抓取后直接入MySQL的主机表和服务组件表;配置信息通过人工收集后直接入MySQL的配置表中,并在系统页面上提供对配置信息的增删改查。
优选地,所述接入计算层具体用于:
对于Kafka中日志Topic的数据直接由Flume消费出数据后持久化到ElasticSearch中对应的日志Index;对于Kafka中的原始指标Topic的数据,由Storm消费出数据后进行数据解析与格式标准化之后返回到实时指标的Topic;对于Kafka中的实时指标Topic中的指标数据,由Storm的告警计算任务消费后与MySQL中的配置信息结合计算出告警信息并持久化到MySQL的指标表中,同时给责任人发送告警邮件或短信;对于Kafka中的实时指标Topic中的主机数据,由Storm的主机指标计算任务消费后经过计算更新到MySQL的的主机表中;对于Kafka中的实时指标Topic中的服务数据,由Storm的服务指标计算任务消费后经过计算存储到MySQL的指标表中;同时对于Kafka中的实时指标Topic中的数据按照分钟级、小时级、天级依次进行汇聚后返回到Kafka中对应的分钟级Topic、小时级Topic、天级Topic中,最后将各个Topic的中的数据由Flume消费出后存储到ES中对应的Index中,供上层数据展示检索查询使用。
优选地,所述数据展示层具体用于:
对于日志类型的数据展示,直接根据日志类型和时间区间从ES中检索查询,并且支持根据日志中的字段类型和字段值进行筛选查询;对于历史类型的数据展示,根据时间区间来查询不同粒度的历史数据;对于实时类型的数据展示,从主机维度、服务维度和业务维度进行展示并支持筛选查询,实时类型的指标和告警数据展示从MySQL中查询.
优选地,数据大平台的服务具体包括:HDFS以及Hbase。
优选地,服务及主机可用性数据具体包括:良好、离线、故障、以及维护状态的数据。
采用本发明实施例,运用流式数据处理技术,将大数据平台各个服务的指标数据、日志数据、主机数据、告警数据进行流式处理并持久化存储,可以实时对服务和主机的各项数据进行监控和告警,以及支持对历史数据的快速查询,同时系统的数据可以供第三方系统使用,进而实现更多的面向大数据平台的功能丰富的系统。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了克服现有的大数据平台在系统实时性、历史数据监控、告警监控以及日志和主机监控各方面的不足,本发明实施例提供了一种基于流式数据处理的大数据平台运行监控系统,该系统运用流式数据处理技术,将大数据平台各个服务的指标数据、日志数据、主机数据、告警数据进行流式处理并持久化存储,可以实时对服务和主机的各项数据进行监控和告警,以及支持对历史数据的快速查询,同时系统的数据可以供第三方系统使用,进而实现更多的面向大数据平台的功能丰富的系统。
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例中基于流数据处理的大数据平台监控系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种大数据平台的运行监控系统,对大数据集群进行实时的多维度的监控。
本发明解决其技术问题所采用的技术方案是:
1.将大数据平台底层数据(包括服务指标数据、日志数据、主机数据等)获取后加载到消息队列Kafka中对应的Topic中,其中数据的获取方式包括通过命令获取、通过日志数据提取、通过调用服务接口获取等方式。
2.对于指标类数据通过流式处理框架Storm对数据进行处理(包括原始数据解析、告警计算)后,将用于实时展示的数据(包括告警数据)存入到MySQL中,将用于历史展示的数据按实时、分钟、小时、天等不同维度进行汇聚后返回到Kafka中后通过Flume存入到ElasticSearch(以下简称ES)中;对于日志类数据直接通过Flume从Kafka存入到ES中;对于第三个系统,若需要数据则可以直接从Kafka中消费使用。
3.在页面展示中,日志数据和历史类型数据查询展示从ES中查询,实时类型的指标和告警数据展示从MySQL中查询。
如系统架构图1所示,本发明实施例的系统架构分为:数据收集层、接入计算层、存储检索层和数据展示层。
1.在数据收集层中,具体包括大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集。大数据平台各服务的日志数据由各服务(如HDFS,HBase等)按照设计的标准格式进行收集,然后汇总上报到Kafka中的日志Topic中;服务及主机的指标数据通过命令获取、日志数据提取、调用服务接口三种方式获取后上报到Kafka中对应的原始数据Topic中;服务及主机可用性数据(可用性包括良好、离线、故障、维护等状态)通过脚本抓取后直接入MySQL的主机表和服务组件表;配置信息通过人工收集后直接入MySQL的配置表中,并在系统页面上提供对配置信息的增删改查。
2.在接入计算层和存储检索层中,主要针对Kafka中的日志和指标数据进行计算、汇聚和持久化。对于Kafka中日志Topic的数据直接由Flume消费出数据后持久化到ES中对应的日志Index;对于Kafka中的原始指标Topic的数据,由Storm消费出数据后进行数据解析与格式标准化之后返回到实时指标的Topic;对于Kafka中的实时指标Topic中的指标数据,由Storm的告警计算任务消费后与MySQL中的配置信息结合计算出告警信息并持久化到MySQL的指标表中,同时给责任人发送告警邮件或短信;对于Kafka中的实时指标Topic中的主机数据,由Storm的主机指标计算任务消费后经过计算更新到MySQL的的主机表中;对于Kafka中的实时指标Topic中的服务数据,由Storm的服务指标计算任务消费后经过计算存储到MySQL的指标表中;同时对于Kafka中的实时指标Topic中的数据按照分钟级、小时级、天级依次进行汇聚后返回到Kafka中对应的分钟级Topic、小时级Topic、天级Topic中,最后将各个Topic的中的数据由Flume消费出后存储到ES中对应的Index中,供上层数据展示检索查询使用。
3.在数据展示层中包括日志类型的数据展示、历史类型的数据展示和实时类型的数据(包括主机数据,服务数据以及告警数据等)展示。对于日志类型的数据展示,直接根据日志类型和时间区间从ES中检索查询,并且支持根据日志中的字段类型和字段值进行筛选查询;对于历史类型的数据展示,可根据时间区间来查询不同粒度的历史数据,比如当查询时间大于一个月则返回天级的历史数据,大于一周则返回小时级的历史数据,大于一天则返回分钟级的历史数据;对于实时类型的数据展示,则从主机维度、服务维度和业务维度进行展示并支持筛选查询等,比如某主机上部署了哪些服务和服务状态、指标和告警信息的展示,某服务的各组件部署在了哪些主机上和主机状态、指标和告警信息的展示,某业务用到了哪些服务和哪些主机以及其指标和告警信息。
综上所述,根据本方案设计的大数据平台运行监控系统具有如下优势:
1.系统具有高可靠性和高实时性,且不会对底层服务造成影响。由于本系统底层数据的收集和上层页面展示是独立的两个部分,底层数据不断收集、处理、存储以供上层页面展示使用,上层页面展示直接从存储的MySQL和ES中获取数据,当大量用户访问时不会对底层服务造成影响。
2.系统支持对大数据平台历史数据的查询。本发明设计的监控系统在传统的架构下中间加了一层数据存储层,所以使得本系统可以支持对大数据平台历史数据的查询,同时支持根据时间区间来动态的展示分钟级、小时级、天级等不同粒度的历史数据。
3.系统支持实时告警。本发明设计的监控系统在底层数据收集上来后,在原始数据解析后增加了告警计算后将告警信息持久化并实时的向预留的责任人联系方式发送短信或者邮件。
4.系统除支持大数据平台各个服务的监控,还支持各个服务所在主机的指标(CPU,内存,硬盘等)监控和服务日志查询及分析。
5.系统具有良好的开放性。本发明设计的系统支持第三方系统直接从消息队列中消费数据做进一步的二次系统开发。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于流数据处理的大数据平台监控系统,其特征在于,包括:
数据收集层,用于进行大数据平台各服务日志数据的抓取上报、服务及主机指标数据的抓取上报、服务及主机可用性数据抓取和配置信息收集;
接入计算层,用于对所述数据收集层收集的日志和指标数据进行计算、汇聚和持久化;
存储检索层,用于对接入计算层进行计算、汇聚和持久化后的数据进行存储和检索查询;
数据展示层,用于进行日志类型的数据展示、历史类型的数据展示和实时类型的数据展示;
所述数据收集层具体用于:
将大数据平台各服务的日志数据由各服务按照设计的标准格式进行收集,然后汇总上报到Kafka中的日志Topic中;服务及主机的指标数据通过命令获取、日志数据提取、或者调用服务接口三种方式之一获取后上报到Kafka中对应的原始数据Topic中;服务及主机可用性数据通过脚本抓取后直接入MySQL的主机表和服务组件表;配置信息通过人工收集后直接入MySQL的配置表中,并在系统页面上提供对配置信息的增删改查;
所述接入计算层具体用于:
对于Kafka中日志Topic的数据直接由Flume消费出数据后持久化到ElasticSearch中对应的日志Index;对于Kafka中的原始指标Topic的数据,由Storm消费出数据后进行数据解析与格式标准化之后返回到实时指标的Topic;对于Kafka中的实时指标Topic中的指标数据,由Storm的告警计算任务消费后与MySQL中的配置信息结合计算出告警信息并持久化到MySQL的指标表中,同时给责任人发送告警邮件或短信;对于Kafka中的实时指标Topic中的主机数据,由Storm的主机指标计算任务消费后经过计算更新到MySQL的的主机表中;对于Kafka中的实时指标Topic中的服务数据,由Storm的服务指标计算任务消费后经过计算存储到MySQL的指标表中;同时对于Kafka中的实时指标Topic中的数据按照分钟级、小时级、天级依次进行汇聚后返回到Kafka中对应的分钟级Topic、小时级Topic、天级Topic中,最后将各个Topic的中的数据由Flume消费出后存储到ES中对应的Index中,供上层数据展示检索查询使用。
2.如权利要求1所述的系统,其特征在于,所述数据展示层具体用于:对于日志类型的数据展示,直接根据日志类型和时间区间从ES中检索查询,并且支持根据日志中的字段类型和字段值进行筛选查询;对于历史类型的数据展示,根据时间区间来查询不同粒度的历史数据;对于实时类型的数据展示,从主机维度、服务维度和业务维度进行展示并支持筛选查询,实时类型的指标和告警数据展示从MySQL中查询。
3.如权利要求1所述的系统,其特征在于,数据大平台的服务具体包括:HDFS以及Hbase。
4.如权利要求1所述的系统,其特征在于,服务及主机可用性数据具体包括:良好、离线、故障、以及维护状态的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910119278.3A CN109885453B (zh) | 2019-02-18 | 2019-02-18 | 基于流数据处理的大数据平台监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910119278.3A CN109885453B (zh) | 2019-02-18 | 2019-02-18 | 基于流数据处理的大数据平台监控系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885453A CN109885453A (zh) | 2019-06-14 |
CN109885453B true CN109885453B (zh) | 2023-02-28 |
Family
ID=66928194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910119278.3A Active CN109885453B (zh) | 2019-02-18 | 2019-02-18 | 基于流数据处理的大数据平台监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885453B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291053B (zh) * | 2020-02-12 | 2020-08-25 | 广州天辰信息科技有限公司 | 工作流数据处理方法、装置及工作流数据处理平台 |
CN111125121B (zh) * | 2020-03-30 | 2020-07-03 | 四川新网银行股份有限公司 | 基于HBase表的实时数据显示方法 |
CN111694854B (zh) * | 2020-06-05 | 2023-07-21 | 北京百度网讯科技有限公司 | 一种区域进出监控方法、装置、电子设备及存储介质 |
CN112633761B (zh) * | 2020-12-31 | 2023-09-19 | 中国平安财产保险股份有限公司 | 指标数据的查询方法、装置、设备及存储介质 |
CN112667590A (zh) * | 2021-01-05 | 2021-04-16 | 上海七牛信息技术有限公司 | 一种高效融合cdn实时日志olap存储查询系统及其存储查询方法 |
CN117290413A (zh) * | 2023-08-05 | 2023-12-26 | 智参软件科技(上海)有限公司 | 一种基于SaaS的工厂数实融合平台和集成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631026A (zh) * | 2015-12-30 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种安全数据分析系统 |
CN105978728A (zh) * | 2016-06-20 | 2016-09-28 | 深圳前海微众银行股份有限公司 | 智能监控系统及业务指标的监控方法 |
CN106294091A (zh) * | 2016-08-11 | 2017-01-04 | 福建富士通信息软件有限公司 | 一种无侵入式日志拦截性能分析方法及系统 |
CN106850258A (zh) * | 2016-12-22 | 2017-06-13 | 北京锐安科技有限公司 | 一种日志管理系统、方法及装置 |
CN107908690A (zh) * | 2017-11-01 | 2018-04-13 | 南京欣网互联网络科技有限公司 | 一种基于大数据运营分析的数据处理方法 |
CN108509309A (zh) * | 2018-02-13 | 2018-09-07 | 南京途牛科技有限公司 | 一种基于访问日志进行性能监控的系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10114708B2 (en) * | 2016-08-31 | 2018-10-30 | International Business Machines Corporation | Automatic log collection for an automated data storage library |
US20180217910A1 (en) * | 2017-01-27 | 2018-08-02 | Ca, Inc. | Scalable data logging |
-
2019
- 2019-02-18 CN CN201910119278.3A patent/CN109885453B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631026A (zh) * | 2015-12-30 | 2016-06-01 | 北京奇艺世纪科技有限公司 | 一种安全数据分析系统 |
CN105978728A (zh) * | 2016-06-20 | 2016-09-28 | 深圳前海微众银行股份有限公司 | 智能监控系统及业务指标的监控方法 |
CN106294091A (zh) * | 2016-08-11 | 2017-01-04 | 福建富士通信息软件有限公司 | 一种无侵入式日志拦截性能分析方法及系统 |
CN106850258A (zh) * | 2016-12-22 | 2017-06-13 | 北京锐安科技有限公司 | 一种日志管理系统、方法及装置 |
CN107908690A (zh) * | 2017-11-01 | 2018-04-13 | 南京欣网互联网络科技有限公司 | 一种基于大数据运营分析的数据处理方法 |
CN108509309A (zh) * | 2018-02-13 | 2018-09-07 | 南京途牛科技有限公司 | 一种基于访问日志进行性能监控的系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109885453A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885453B (zh) | 基于流数据处理的大数据平台监控系统 | |
CN110661659B (zh) | 一种告警方法、装置、系统及电子设备 | |
CN110502494B (zh) | 日志处理方法、装置、计算机设备及存储介质 | |
CN109977158B (zh) | 公安大数据分析处理系统及方法 | |
CN109240886B (zh) | 异常处理方法、装置、计算机设备以及存储介质 | |
EP3545419B1 (en) | Distributed code tracing system | |
US20180365085A1 (en) | Method and apparatus for monitoring client applications | |
CN107729210B (zh) | 分布式服务集群的异常诊断方法和装置 | |
CN111209258A (zh) | 税务端系统日志实时分析方法、设备、介质及系统 | |
CN105119752A (zh) | 一种分布式日志采集方法、装置及系统 | |
CN109871392B (zh) | 一种分布式应用系统下的慢sql实时数据采集方法 | |
CN111881011A (zh) | 日志管理方法、平台、服务器及存储介质 | |
CN107463479A (zh) | 一种社交数据监控系统 | |
CN110297746A (zh) | 一种数据处理方法及系统 | |
CN110147470B (zh) | 一种跨机房数据比对系统及方法 | |
CN111314158B (zh) | 大数据平台监控方法、装置及设备、介质 | |
CN111143158A (zh) | 一种监控数据实时存储方法、系统、电子设备及存储介质 | |
CN110874291A (zh) | 一种异常容器实时检测方法 | |
CN111061802A (zh) | 一种电力数据管理处理方法、装置及存储介质 | |
CN110717130B (zh) | 打点方法、装置、终端及存储介质 | |
CN111782431A (zh) | 一种异常的处理方法、装置、终端及存储介质 | |
CN113282464A (zh) | 日志监控方法及系统 | |
CN113297245A (zh) | 获取执行信息的方法及装置 | |
CN110377757B (zh) | 一种实时知识图谱构建系统 | |
CN112579552A (zh) | 日志存储及调用方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |