CN109460339B - 日志的流式计算系统 - Google Patents

日志的流式计算系统 Download PDF

Info

Publication number
CN109460339B
CN109460339B CN201811205124.8A CN201811205124A CN109460339B CN 109460339 B CN109460339 B CN 109460339B CN 201811205124 A CN201811205124 A CN 201811205124A CN 109460339 B CN109460339 B CN 109460339B
Authority
CN
China
Prior art keywords
log
level
messages
kafka
sending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811205124.8A
Other languages
English (en)
Other versions
CN109460339A (zh
Inventor
刘浩
叶礼伟
张光银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qunar Software Technology Co Ltd
Original Assignee
Beijing Qunar Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qunar Software Technology Co Ltd filed Critical Beijing Qunar Software Technology Co Ltd
Priority to CN201811205124.8A priority Critical patent/CN109460339B/zh
Publication of CN109460339A publication Critical patent/CN109460339A/zh
Application granted granted Critical
Publication of CN109460339B publication Critical patent/CN109460339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种日志的流式计算系统,包括:日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储。通过本发明,解决了相关技术中Apache Flume工程架构对于日志的处理速度慢的问题。

Description

日志的流式计算系统
技术领域
本发明涉及计算领域,具体而言,涉及一种日志的流式计算系统。
背景技术
相关技术中对于日志的采集,一般使用Apache Flume日志采集工具采集数据,根据采集到的数据进行相应的计算与处理。而对于日志的及时性保障,一般采用大数据框架Apache Spark对收集到的数据进行流式计算,通过内存计算来突破IO瓶颈。可见,相关技术中采用Apache Flume工程架构收集日志并直接推送用于进行流式处理。
但是,相关技术中的Apache Flume工程架构对于日志的采集并不及时,难以避免对异常情况的早发现和早修复;另外Apache Flume工程架构对于日志的处理速度也是比较慢的,会导致处理时间滞后。
针对相关技术中的上述问题,目前尚未存在有效的解决方案。
发明内容
本发明实施例提供了一种日志的流式计算系统,以至少解决相关技术中ApacheFlume工程架构对于日志的处理速度慢的问题。
根据本发明的一个方面,1.一种日志的流式计算系统,包括:日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储。
可选地,所述日志采集工具对日志进行实时采集的方式包括:日志发现、日志聚合、配置热发。
可选地,所述日志采集工具,还用于即时开启或停止日志消息的采集操作。
可选地,所述第一级kafka系统对接收到的日志消息进行存储的方式包括:所述第一级kafka系统采用offset对所述日志消息进行回放。
可选地,所述Flink对所述日志消息进行过滤得到不同主题的日志消息的方式包括:所述Flink采用单条记录计算的方式和时间窗口聚合计算的方式对所述日志消息进行计算,得到对应主题的日志消息。
可选地,时间窗口聚合计算方式包括:滚动窗口计算方式、滑动窗口计算方式。
可选地,用于存储所述第二级kafka系统发送的不同主题的日志消息的系统包括:mysql、ElasticSearh、hive数据仓库、第三级kafka系统。
通过本发明,日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;第一级kafka系统,用于对接收到的日志消息进行存储,并将日志消息发送到流式处理框架Flink;Flink,用于对日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储,从而解决了相关技术中Apache Flume工程架构对于日志的处理速度慢的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的日志的流式计算系统的结构框图;
图2是根据本发明实施例的流式计算系统结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
首先,对本申请的发明目的进行说明:系统的日志是监控系统运行状态是否正常的集中体现,在实际的工程应用中会面临以下问题:
(1)及时性,需要对最新的日志进行分析计算。只有获取最新的日志,通过计算分析之后才能得到最新的结果。通过这个结果可以更加及时地检测到系统的运行状态如何,在运行异常的情况下能够早发现,早修复。
(2)计算能力,计算的速度要达到一定程度。只有计算的速度够快,更快地计算出相应的结果,才能把这个结果发送出去。否则,即使拿到最新的日志,由于计算速度太慢,导致时间滞后,不能及时地发现问题。
(3)工程架构,一个好的工程架构要满足高内聚低耦合。满足上述关系可以降低软件的开发与维护成本,否则会导致开发难度递增,维护成本增加。甚至会难以把控,导致成本爆炸。
针对上述提到的问题,下面将结合本申请的实施例进行解决,
实施例1
本发明提供了一种日志的流式计算系统,图1是根据本发明实施例的日志的流式计算系统的结构框图,如图1所示,该系统包括:日志采集工具12,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;第一级kafka系统14,与日志采集工具12耦合链接,用于对接收到的日志消息进行存储,并将日志消息发送到流式处理框架Flink;Flink16,与第一级kafka系统14耦合链接,用于对日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;第二级kafka系统18,与Flink16耦合链接,用于将不同主题的日志消息发送不同的系统中存储。
需要说明的是,本实施例中涉及到的日志采集工具对日志进行实时采集的方式包括:日志发现、日志聚合、配置热发。
基于上述采集的方式,本实施例中的日志采集工具,还用于即时开启或停止日志消息的采集操作。
在本实施例的可选实施方式中,本实施例中的第一级kafka系统对接收到的日志消息进行存储的方式包括:第一级kafka系统采用offset对日志消息进行回放。
在本实施例的另一个可选实施方式中,Flink对日志消息进行过滤得到不同主题的日志消息的方式包括:Flink采用单条记录计算的方式和时间窗口聚合计算的方式对日志消息进行计算,得到对应主题的日志消息。
需要说明的是,本实施例中涉及到的时间窗口聚合计算方式包括:滚动窗口计算方式、滑动窗口计算方式。以及,用于存储第二级kafka系统发送的不同主题的日志消息的系统包括:mysql、ElasticSearh、hive数据仓库、第三级kafka系统。
下面结合本实施例的具体实施方式对本实施例进行举例说明;
本可选实施方式提供了一种基于实时日志的流式计算系统,图2是根据本发明实施例的流式计算系统结构框图,基于图2,本可选实施方式中日志的流式计算包括以下几个部分:
日志的采集,使用Apache Flume日志采集工具实时地采集数据,根据采集到的数据进行相应的计算与处理。
其中,采用日志采集工具对日志进行实时采集,该工具基于Apache Flume改进,能够支持日志发现,日志聚合,以及配置热发等实用功能。并且可以随时开启/停止日志收集。并将采集到的日志消息直接生产到kafka中,kafka具备高吞吐量,高可靠性以及高可用性。利用offset可以回放数据,理论上消息不会丢失。
日志的及时性保障,采用大数据框架Apache Spark对收集到的数据进行流式计算,通过内存计算来突破IO瓶颈。
其中,使用了流式处理框架Flink,它的性能更优于Apache Spark。Flink支持单条记录计算以及时间窗口聚合计算,其中时间窗口聚合计算可以根据需要选择使用滚动窗口或滑动窗口。并且窗口支持key方式聚合,扩展成多窗口并行计算,极大地提升了系统的性能。
工程架构,Apache Flume收集日志并直接push到Spark Streaming。
基于本可选实施方式的结构,利用多级kafka消息队列,对日志进行了路由分发。这样在2级Flink节点下,用户只需要关注自己关心的topic即可。并且计算后的存储选型丰富多样,可以是mysql,ElasticSearh,hive数据仓库以及下一级kafka。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种日志的流式计算系统,其特征在于,包括:
日志采集工具,用于对日志进行实时采集,并将采集到的日志消息发送到第一级kafka系统中;
所述第一级kafka系统,用于对接收到的日志消息进行存储,并将所述日志消息发送到流式处理框架Flink;
所述Flink,用于对所述日志消息进行过滤得到不同主题的日志消息,并将不同主题的日志消息发送第二级kafka系统中;
所述第二级kafka系统,用于将不同主题的日志消息发送不同的系统中存储,其中,所述不同的系统包括:mysql、ElasticSearh、hive数据仓库、第三级kafka系统。
2.根据权利要求1所述的系统,其特征在于,所述日志采集工具对日志进行实时采集的方式包括:日志发现、日志聚合、配置热发。
3.根据权利要求1或2所述的系统,其特征在于,
所述日志采集工具,还用于即时开启或停止日志消息的采集操作。
4.根据权利要求1所述的系统,其特征在于,所述第一级kafka系统对接收到的日志消息进行存储的方式包括:
所述第一级kafka系统采用offset对所述日志消息进行回放。
5.根据权利要求1所述的系统,其特征在于,所述Flink对所述日志消息进行过滤得到不同主题的日志消息的方式包括:
所述Flink采用单条记录计算的方式和时间窗口聚合计算的方式对所述日志消息进行计算,得到对应主题的日志消息。
6.根据权利要求5所述的系统,其特征在于,时间窗口聚合计算方式包括:滚动窗口计算方式、滑动窗口计算方式。
CN201811205124.8A 2018-10-16 2018-10-16 日志的流式计算系统 Active CN109460339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811205124.8A CN109460339B (zh) 2018-10-16 2018-10-16 日志的流式计算系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811205124.8A CN109460339B (zh) 2018-10-16 2018-10-16 日志的流式计算系统

Publications (2)

Publication Number Publication Date
CN109460339A CN109460339A (zh) 2019-03-12
CN109460339B true CN109460339B (zh) 2023-02-24

Family

ID=65607756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811205124.8A Active CN109460339B (zh) 2018-10-16 2018-10-16 日志的流式计算系统

Country Status (1)

Country Link
CN (1) CN109460339B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110138791A (zh) * 2019-05-20 2019-08-16 四川长虹电器股份有限公司 基于Flink的Web业务账户盗用实时监测方法及系统
CN110232054B (zh) * 2019-06-19 2021-07-20 北京百度网讯科技有限公司 日志传输系统及流式日志传输方法
CN110427306A (zh) * 2019-08-12 2019-11-08 吉林吉大通信设计院股份有限公司 一种大数据日志智能路由与存储系统及方法
CN111177193A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于Flink的日志流式处理方法及系统
CN111782479A (zh) * 2020-07-03 2020-10-16 北京妙医佳健康科技集团有限公司 日志处理方法、装置、电子设备及计算机可读存储介质
CN112202607B (zh) * 2020-09-28 2022-06-14 中移(杭州)信息技术有限公司 日志消息的统计计算方法、服务器及存储介质
CN112632020B (zh) * 2020-12-25 2022-03-18 中国电子科技集团公司第三十研究所 基于spark大数据平台的日志信息类型提取方法、挖掘方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943841A (zh) * 2017-10-30 2018-04-20 深圳前海微众银行股份有限公司 流式数据处理方法、系统和计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN106681846B (zh) * 2016-12-29 2020-10-13 北京奇虎科技有限公司 日志数据的统计方法、装置及系统
CN108509566B (zh) * 2018-03-26 2021-11-05 国家电网公司客户服务中心 一种基于云上95598数据发布服务业务系统网络拓扑可视化方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943841A (zh) * 2017-10-30 2018-04-20 深圳前海微众银行股份有限公司 流式数据处理方法、系统和计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
kafka数据同步Elasticsearch深入详解;铭毅天下;《CSDN网址:https://blog.csdn.net/laoyang360/article/details/78868806》;20171221;第1-4页 *
大数据环境下的分布式数据流处理关键技术探析;陈付梅等;《计算机应用》;20170310;第37卷(第03期);第620-627页 *
流式计算模式的性能研究与优化;王蒙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第03期);参见第2.3,4.3,5.2节,附图4-12,4-9,5-1 *

Also Published As

Publication number Publication date
CN109460339A (zh) 2019-03-12

Similar Documents

Publication Publication Date Title
CN109460339B (zh) 日志的流式计算系统
CN105488610B (zh) 一种电力应用系统故障实时分析诊断方法
EP3425524A1 (en) Cloud platform-based client application data calculation method and device
CN112118174B (zh) 软件定义数据网关
CN114189430A (zh) 立体化日志全链路监控系统、方法、介质及设备
CN111459782B (zh) 监控业务系统的方法、装置、云平台系统和服务器
CN113238913A (zh) 服务器故障智能推送方法、装置、设备及存储介质
CN110083391A (zh) 调用请求监控方法、装置、设备及存储介质
CN111966289B (zh) 基于Kafka集群的分区优化方法和系统
CN107357804A (zh) 互联网金融海量日志的分析系统及方法
JP2012004781A (ja) 構成情報取得方法、仮想プローブおよび構成情報取得制御装置
CN110971488A (zh) 一种数据处理方法、装置、服务器和存储介质
KR20220166760A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN110750425A (zh) 数据库监控方法、装置、系统和存储介质
CN111240936A (zh) 一种数据完整性校验的方法及设备
JP2017103707A (ja) データ収集システム、データ収集装置及びデータ収集方法
CN107483280B (zh) 用于服务节点设备监控的方法及设备
CN106161339B (zh) 获取ip访问关系的方法及装置
CN115883340B (zh) 一种基于hplc和hrf双模通信故障处理方法和设备
CN111835578B (zh) 信息传输管理方法、信息传输管理装置及可读存储介质
CN112328463A (zh) 一种日志监控方法及装置
CN111865667A (zh) 网络连通性故障根因定位方法及装置
JP2014225179A (ja) ログ取得装置、ログ取得方法およびログ取得プログラム
KR20140013224A (ko) 상위 운영 시스템
CN113630442B (zh) 数据传输方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant