CN107391606A - 基于Storm的日志处理方法及装置 - Google Patents

基于Storm的日志处理方法及装置 Download PDF

Info

Publication number
CN107391606A
CN107391606A CN201710527471.1A CN201710527471A CN107391606A CN 107391606 A CN107391606 A CN 107391606A CN 201710527471 A CN201710527471 A CN 201710527471A CN 107391606 A CN107391606 A CN 107391606A
Authority
CN
China
Prior art keywords
daily record
record data
storm
log
handled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710527471.1A
Other languages
English (en)
Inventor
王晓峰
张伟
牛军
杨大龙
丁厚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201710527471.1A priority Critical patent/CN107391606A/zh
Publication of CN107391606A publication Critical patent/CN107391606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供一种基于Storm的日志处理方法及装置。该方法包括:接收rsyslog客户端采集到的日志数据;将所述日志数据存储到kafka集群中;基于Storm对所述日志数据进行处理,得到处理后的日志数据;将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。本发明实施例通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。

Description

基于Storm的日志处理方法及装置
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种基于Storm的日志处理方法及装置。
背景技术
在目前的“云计算”、“分布式”架构下,随着互联网用户数增多,业务系统产生的数据也随之增加,且已达到大数据量级,因此可以利用大数据和数据挖掘相关技术实现海量日志数据的分析处理。
目前,海量的日志分析处理方案可以包括如下两类,基于脚本的日志分析解决方案和基于Hadoop的日志分析解决方案。
基于脚本(Shell或者Python)的日志分析解决方案,用脚本来实现处理和分析各个主机或者容器日志的业务逻辑。脚本直接处理日志文件,执行日志分析和处理任务时需要手动执行脚本,不能支持不断增加的需求,维护难度大。
基于Hadoop的日志分析解决方案中,Hadoop的MapReduce框架更适合于大数据的离线批量处理,数据处理完任务便也退出了。Hadoop处理数据首先需要将数据存入到HDFS中,使用磁盘作为中间交换的介质,时效性不够好,对于实时性要求较高的业务需求,Hadoop的批处理无法符合要求。
因此,现有技术中缺乏一种既能保证时效性,又能满足不同需求的日志分析处理方案。
发明内容
本发明实施例提供一种基于Storm的日志处理方法及装置,以实现一种既能保证时效性,又能满足不同需求的日志分析处理方案。
本发明实施例的一个方面是提供一种基于Storm的日志处理方法,包括:
接收rsyslog客户端采集到的日志数据;
将所述日志数据存储到kafka集群中;
基于Storm对所述日志数据进行处理,得到处理后的日志数据;
将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
本发明实施例的另一个方面是提供一种基于Storm的日志处理装置,包括:
接收模块,用于接收rsyslog客户端采集到的日志数据;
存储模块,用于将所述日志数据存储到kafka集群中;
处理模块,用于基于Storm对所述日志数据进行处理,得到处理后的日志数据;
所述存储模块还用于将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
本发明实施例提供的基于Storm的日志处理方法及装置,通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。
附图说明
图1为本发明实施例提供的基于Storm的日志处理方法流程图;
图2为本发明另一实施例提供的基于Storm的日志处理方法流程图;
图3为本发明另一实施例提供的基于Storm的日志处理方法流程图;
图4为本发明实施例提供的基于Storm的日志处理装置的结构图;
图5为本发明另一实施例提供的基于Storm的日志处理装置的结构图。
具体实施方式
图1为本发明实施例提供的基于Storm的日志处理方法流程图。本发明实施例针对现有技术中缺乏一种既能保证时效性,又能满足不同需求的日志分析处理方案,提供了基于Storm的日志处理方法,该方法具体步骤如下:
步骤S101、接收rsyslog客户端采集到的日志数据。
如图2所示,rsyslog客户端采集日志数据,所述日志数据包括如下至少一种:业务日志、用户行为日志、资源运行日志。rsyslog客户端21将其采集到的日志数据发送给rsyslog服务器22,由rsyslog服务器22实现日志数据采集,具体的,rsyslog服务器22中的日志集中rsyslog用于接收rsyslog客户端21发送的日志数据,并实现对日志数据的集中。
步骤S102、将所述日志数据存储到kafka集群中。
如图2所示,日志集中rsyslog将日志数据存储到kafka集群中,kafka集群可以作为Rsyslog服务器采集数据的速度和Storm处理数据的速度不同步的缓冲区。
步骤S103、基于Storm对所述日志数据进行处理,得到处理后的日志数据。
如图2所示,Storm集群接收来自kafka集群的日志数据,并基于Storm对所述日志数据进行处理,得到处理后的日志数据。
步骤S104、将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
最后利用Mysql数据存储模块存储storm处理后的日志数据。其中Hadoop数据备份模块,将源日志数据和storm处理后获得的业务数据定时备份到Hadoop的HDFS文件系统中。
本发明实施例通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。
图3为本发明另一实施例提供的基于Storm的日志处理方法流程图。在上述实施例的基础上,本实施例提供的基于Storm的日志处理方法的具体步骤如下:
步骤S301、接收rsyslog客户端采集到的日志数据。
如图2所示,rsyslog客户端采集日志数据,所述日志数据包括如下至少一种:业务日志、用户行为日志、资源运行日志。rsyslog客户端21将其采集到的日志数据发送给rsyslog服务器22,由rsyslog服务器22实现日志数据采集,具体的,rsyslog服务器22中的日志集中rsyslog用于接收rsyslog客户端21发送的日志数据,并实现对日志数据的集中。
步骤S302、将所述日志数据存储到kafka集群中。
如图2所示,日志集中rsyslog将日志数据存储到kafka集群中,kafka集群可以作为Rsyslog服务器采集数据的速度和Storm处理数据的速度不同步的缓冲区。
步骤S303、基于Storm对所述日志数据进行处理,得到处理后的日志数据。
如图2所示,Storm集群接收来自kafka集群的日志数据,并基于Storm对所述日志数据进行处理,得到处理后的日志数据。
步骤S304、将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
最后利用Mysql数据存储模块存储storm处理后的日志数据。其中Hadoop数据备份模块,将源日志数据和storm处理后获得的业务数据定时备份到Hadoop的HDFS文件系统中。
具体的,基于Storm对所述日志数据进行处理,包括:基于Storm对所述日志数据进行格转和过滤。或者,具体的,基于Storm对所述日志数据进行处理,包括:基于Storm对所述日志数据进行清洗、格转、分析、统计。
Storm实时地从Kafka集群获取数据,通过清洗、格转、分析、统计等处理,得到结果数据。Storm的数据处理模型类似于现实生活中水流的处理,数据处理过程中不落地,全部通过内存交互,故处理效率非常高。Storm的任务不会停止,除非人为干预使其停止,没有数据时不执行任务处理动作,一旦数据流转过来便进行实时处理。
步骤S305、接收查询请求,所述查询请求用于查询所述日志数据。
Storm抽取出来的业务数据存储到Mysql中,鉴于业务数据量较大,将各个业务表做成分区表,且Mysql采用主从架构。源日志直接输送到HBase中,利用HBase列存储的优势,用来提供源日志查询功能。
步骤S306、根据所述查询请求,查询并显示所述日志数据。
前端通过HighChart组件,实现了日志分析结果的动态图表的展示功能,可实时动态的展示当前业务需求的结果数据。
本实施例通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。
图4为本发明实施例提供的基于Storm的日志处理装置的结构图。本发明实施例提供的基于Storm的日志处理装置可以执行基于Storm的日志处理方法实施例提供的处理流程,如图4所示,基于Storm的日志处理装置40包括:接收模块41、存储模块42、处理模块43;接收模块41用于接收rsyslog客户端采集到的日志数据;存储模块42用于将所述日志数据存储到kafka集群中;处理模块43用于基于Storm对所述日志数据进行处理,得到处理后的日志数据;存储模块42还用于将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
本发明实施例提供的基于Storm的日志处理装置可以具体用于执行上述图1所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。
图5为本发明另一实施例提供的基于Storm的日志处理装置的结构图。在上述实施例的基础上,接收模块41还用于:接收查询请求,所述查询请求用于查询所述日志数据;另外,基于Storm的日志处理装置40还包括:查询模块44,用于根据所述查询请求,查询所述日志数据;以及显示模块45,用于显示所述日志数据。
处理模块43具体用于基于Storm对所述日志数据进行格转和过滤。
或者,处理模块43具体用于基于Storm对所述日志数据进行清洗、格转、分析、统计。
所述日志数据包括如下至少一种:业务日志、用户行为日志、资源运行日志。
本发明实施例提供的基于Storm的日志处理装置可以具体用于执行上述图3所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。
综上所述,本发明实施例通过接收rsyslog客户端采集到的日志数据,将日志数据存储到kafka集群中,基于Storm对日志数据进行处理,得到处理后的日志数据,将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中,实现了一种既能保证时效性,又能满足不同需求的日志分析处理方案。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于Storm的日志处理方法,其特征在于,包括:
接收rsyslog客户端采集到的日志数据;
将所述日志数据存储到kafka集群中;
基于Storm对所述日志数据进行处理,得到处理后的日志数据;
将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收查询请求,所述查询请求用于查询所述日志数据;
根据所述查询请求,查询并显示所述日志数据。
3.根据权利要求2所述的方法,其特征在于,所述基于Storm对所述日志数据进行处理,包括:
基于Storm对所述日志数据进行格转和过滤。
4.根据权利要求2所述的方法,其特征在于,所述基于Storm对所述日志数据进行处理,包括:
基于Storm对所述日志数据进行清洗、格转、分析、统计。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述日志数据包括如下至少一种:
业务日志、用户行为日志、资源运行日志。
6.一种基于Storm的日志处理装置,其特征在于,包括:
接收模块,用于接收rsyslog客户端采集到的日志数据;
存储模块,用于将所述日志数据存储到kafka集群中;
处理模块,用于基于Storm对所述日志数据进行处理,得到处理后的日志数据;
所述存储模块还用于将处理后的日志数据存储到Mysql中,将源日志数据存储到HBase中。
7.根据权利要求6所述的基于Storm的日志处理装置,其特征在于,所述接收模块还用于:接收查询请求,所述查询请求用于查询所述日志数据;
所述基于Storm的日志处理装置还包括:
查询模块,用于根据所述查询请求,查询所述日志数据;
显示模块,用于显示所述日志数据。
8.根据权利要求7所述的基于Storm的日志处理装置,其特征在于,所述处理模块具体用于基于Storm对所述日志数据进行格转和过滤。
9.根据权利要求7所述的基于Storm的日志处理装置,其特征在于,所述处理模块具体用于基于Storm对所述日志数据进行清洗、格转、分析、统计。
10.根据权利要求6-9任一项所述的基于Storm的日志处理装置,其特征在于,所述日志数据包括如下至少一种:
业务日志、用户行为日志、资源运行日志。
CN201710527471.1A 2017-06-30 2017-06-30 基于Storm的日志处理方法及装置 Pending CN107391606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710527471.1A CN107391606A (zh) 2017-06-30 2017-06-30 基于Storm的日志处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710527471.1A CN107391606A (zh) 2017-06-30 2017-06-30 基于Storm的日志处理方法及装置

Publications (1)

Publication Number Publication Date
CN107391606A true CN107391606A (zh) 2017-11-24

Family

ID=60335026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710527471.1A Pending CN107391606A (zh) 2017-06-30 2017-06-30 基于Storm的日志处理方法及装置

Country Status (1)

Country Link
CN (1) CN107391606A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595578A (zh) * 2018-04-17 2018-09-28 曙光信息产业(北京)有限公司 高性能计算历史作业数据的数据处理方法、装置及存储系统
CN108600300A (zh) * 2018-03-06 2018-09-28 北京思空科技有限公司 日志数据处理方法及装置
CN109274540A (zh) * 2018-11-16 2019-01-25 四川长虹电器股份有限公司 一种基于storm的Web访问日志处理方法
CN109685634A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 支付对账方法、设备、存储介质及装置
CN111625416A (zh) * 2020-05-09 2020-09-04 云南大学 一种基于云os的日志回收及故障警报系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140096936A (ko) * 2013-01-29 2014-08-06 (주)소만사 Dlp 시스템의 빅데이터 처리 시스템 및 방법
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140096936A (ko) * 2013-01-29 2014-08-06 (주)소만사 Dlp 시스템의 빅데이터 처리 시스템 및 방법
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵阳 等: "基于Storm 框架结构的分布式实时日志分析系统的设计研究", 《信息与电脑》 *
陈建峡 等: "基于Storm的实时用户日志管理系统", 《湖北工业大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600300A (zh) * 2018-03-06 2018-09-28 北京思空科技有限公司 日志数据处理方法及装置
CN108600300B (zh) * 2018-03-06 2021-11-12 北京思空科技有限公司 日志数据处理方法及装置
CN108595578A (zh) * 2018-04-17 2018-09-28 曙光信息产业(北京)有限公司 高性能计算历史作业数据的数据处理方法、装置及存储系统
CN109685634A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 支付对账方法、设备、存储介质及装置
CN109274540A (zh) * 2018-11-16 2019-01-25 四川长虹电器股份有限公司 一种基于storm的Web访问日志处理方法
CN111625416A (zh) * 2020-05-09 2020-09-04 云南大学 一种基于云os的日志回收及故障警报系统
CN111625416B (zh) * 2020-05-09 2021-08-24 云南大学 一种基于云os的日志回收及故障警报系统

Similar Documents

Publication Publication Date Title
CN107391606A (zh) 基于Storm的日志处理方法及装置
CN107908690A (zh) 一种基于大数据运营分析的数据处理方法
CN104753985B (zh) 会话列表显示方法和装置
CN107508722B (zh) 一种业务监控方法和装置
CN103020752B (zh) 订单自动分配系统
CN108600300B (zh) 日志数据处理方法及装置
CN107517131A (zh) 一种基于日志采集的分析预警方法
CN109739919B (zh) 一种用于电力系统的前置机和采集系统
CN111459986B (zh) 数据计算系统及方法
CN105930502B (zh) 一种收集数据的系统、客户端和方法
CN103761309A (zh) 一种运营数据处理方法及系统
CN104239144A (zh) 一种多级分布式任务处理系统
CN104850576B (zh) 一种基于海量视频的快速特征提取系统
CN107291928A (zh) 一种日志存储系统和方法
CN103941662A (zh) 一种基于云计算的任务调度系统和调度方法
CN101902497A (zh) 基于云计算的互联网信息监测系统及方法
CN108984610A (zh) 一种基于大数据框架离线实时处理数据的方法及系统
CN107016599A (zh) 一种订单集合分组方法及装置
CN109636304B (zh) 业务系统的发布方法及装置、存储介质、电子装置
CN103577251A (zh) 基于事件的互联网计算处理系统及方法
CN110071965A (zh) 一种基于云平台的数据中心管理系统
CN109951320A (zh) 一种面向云平台的可扩展多层次监控框架及其监控方法
CN107169143A (zh) 一种高效的海量舆情数据信息集群匹配方法
CN112686637A (zh) 一种政务服务供需对接系统及方法
CN107085579A (zh) 一种数据采集分发方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124