CN112491421A - 日志文件压缩包的解析方法、装置、设备及介质 - Google Patents

日志文件压缩包的解析方法、装置、设备及介质 Download PDF

Info

Publication number
CN112491421A
CN112491421A CN202011399936.8A CN202011399936A CN112491421A CN 112491421 A CN112491421 A CN 112491421A CN 202011399936 A CN202011399936 A CN 202011399936A CN 112491421 A CN112491421 A CN 112491421A
Authority
CN
China
Prior art keywords
log file
deserializer
file
packet
message queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011399936.8A
Other languages
English (en)
Inventor
李刚
谢永恒
石志中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202011399936.8A priority Critical patent/CN112491421A/zh
Publication of CN112491421A publication Critical patent/CN112491421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种日志文件压缩包的解析方法、装置、设备及介质。该方法包括:通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。上述技术方案实现了基于Flume对日志文件压缩包的解析。

Description

日志文件压缩包的解析方法、装置、设备及介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种加密压缩包解析方法、装置、设备及介质。
背景技术
日志收集系统(Flume)是一个分布式、高可靠的、高可用的海量日志采集、聚合和传输的系统,它支持在日志系统中定制各类数据发送方,以用于收集数据;同时,Flume还具有对数据进行简单处理和分析的能力。
目前,通过Flume分析的日志文件,通常是针对无压缩的原始日志文件,而对于以压缩包形式存在的日志文件,无法直接通过Flume进行解析。因此,如何基于Flume实现对日志文件压缩包的解析,是亟待解决的问题。
发明内容
本发明实施例提供一种日志文件压缩包的解析方法、装置、设备及介质,以基于Flume实现对日志文件压缩包的解析。
第一方面,本发明实施例提供了一种日志文件压缩包的解析方法,包括:
通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
第二方面,本发明实施例还提供了一种日志文件压缩包的解析装置,包括:
日志文件压缩包读取模块,设置为通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
日志文件压缩包行数据解析模块,设置为通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的日志文件压缩包的解析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的日志文件压缩包的解析方法。
本发明实施例提供的技术方案中,通过基于Flume预先创建的文件读取类读取包括多个bcp文件的日志文件压缩包,再通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中,实现了基于Flume对日志文件压缩包的解析。
附图说明
图1是本发明实施例一中的一种日志文件压缩包的解析方法的流程示意图;
图2a是本发明实施例二中的一种日志文件压缩包的解析方法的流程示意图;
图2b是本发明实施例二中的一种实时分析日志文件压缩包的流程示意图;
图3是本发明实施例三中的一种日志文件压缩包的解析装置的结构示意图;
图4是本发明实施例四中的一种计算机设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种日志文件压缩包的解析方法的流程图,可适用于基于Flume解析包括多个bcp文件的日志文件压缩包的情况,该方法可以由本发明实施例提供的日志文件压缩包的解析装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图1所示,本实施例提供的日志文件压缩包的解析方法,具体包括:
S110、通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,日志文件压缩包中包括多个bcp文件。
Flume,指的是一个高可用的、高可靠的、分布式的海量日志收集、聚合和传输的系统,它支持在日志系统中定制各种类型的数据发送方,以用于收集数据,并且,Flume可以对数据进行简单地处理并写入到各种类型的数据接受方。
文件读取类,指的是在java.io.InputStreamReader的子类,是用来读取字符文件的便捷类,用于读取字符流。其中,InputStreamReader是java.io.Reader的子类,是字节流(文件)通向字符流的桥梁,可以使用指定的字符集读取字节,并将其解码为字符,Reader是一个抽象类(抽象类是指拥有抽象方法的类,包含一个或多个抽象方法的类必须被声明为抽象的),作用是读取字符流。
在本申请中,预先创建的文件读取类,用于读取设定压缩格式的日志文件压缩包。例如,日志文件压缩包的压缩格式为zip,则可以预先创建一个与zip压缩格式对应的文件读取类(ZipFileEventReader)。在创建文件读取类ZipFileEventReader之后,实现Flume中的文件读取接口(ReliableEventReader)。
日志文件,指的是用于记录系统操作事件的记录文件或文件集合,例如,操作系统中含有操作系统日志文件,数据库系统中含有数据库系统日志文件,等等。不同的日志文件可以记载不同的信息,例如,有的是默认的系统日志文件,有的是记载特定任务的日志文件。
日志文件压缩包,指的是第三方系统推送包含多日志文件的压缩数据包,其中,日志文件压缩包可以以zip格式存在,日志文件可以是bcp文件,日志文件压缩包中可以包括多个bcp文件。其中,bcp文件是一种以“\t”跳格符进行属性之间分割并且以“\r”分隔符进行换行的文件,这种文件以“.bcp”的扩展名形式命名。
通过基于Flume预先创建的文件读取类可以读取包括多个bcp文件日志文件压缩包。
可选的,通过基于Flume预先创建的文件读取类读取日志文件压缩包,可以包括:通过文件读取类获取Flume配置文件中的压缩包存储路径,并根据压缩包存储路径读取日志文件压缩包。
Flume配置文件(如conf.properties),指的是Flume中用于存储配置信息或配置数据的文件。
压缩包存储路径,指的是系统中存储由第三方系统推送的日志文件压缩包在系统中的存储位置或存储地址。
在通过基于Flume预先创建的文件读取类读取日志文件压缩包时,通过文件读取类可以获取Flume配置文件中的压缩包存储路径,并按照压缩包存储路径去读取日志文件压缩包。
S120、通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
反序列化器,指的是与序列化器对应的应用程序接口,反序列化过程是序列化过程的逆过程,序列化过程是将数据的数据类型转换为统一数据类型的过程,反序列化过程是将数据从统一数据类型恢复为数据原来的数据类型的过程。。在本发明实施例中,所谓自定义反序列化器(如ZipEventDeserializer),就是指在基于Flume预先创建的文件读取类中的一个可以将日志文件压缩包转换为行数据的接口,以用于对日志文件压缩包进行行数据解析。
解析结果,指的是对日志文件压缩包中包括的多个bcp文件进行逐行解析后获得的行数据结果。
消息队列,指的是在数据的传输过程中可以保存数据的容器,例如,ActiveMQ消息队列、Kafka消息队列等。
在通过基于Flume预先创建的文件读取类读取包括多个bcp文件的日志文件压缩包后,可以通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析,并将得到的解析结果存储到至消息队列中。
可选的,消息队列可以为Kafka消息队列;在将解析结果存储到至消息队列中之后,还可以包括:通过Kafka消费程序对Kafka消息队列中的解析结果进行实时分析。
Kafka消息队列,是一种分布式的消息队列,它可以处理活跃的流式数据,例如,页面浏览量(Page View,PV)、网站独立访客(Unique Visitor,UV)等。
Kafka消费程序,指的是Kafka消息队列在实时处理分析数据时所调用的程序。
通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析后,可以将得到的解析结果存储到至Kafka消息队列中,然后通过Kafka消费程序对Kafka消息队列中的解析结果进行实时分析。
进一步的,通过自定义反序列化器将解析结果存储到至消息队列中,可以包括:通过自定义反序列化器获取Flume配置文件中的Kafka消息队列主题名称,根据Kafka消息队列主题名称将解析结果存储到至Kafka消息队列中。
Kafka消息队列主题名称(Topic),指的是Kafka消息队列中同类数据所在集合的名称,通过指定Kafka消息队列主题名称就可以将解析结果写入对应主题名称的集合中,也可以根据Kafka消息队列主题名称读取对应主题名称的集合中的数据。
通过自定义反序列化器获取Flume配置文件中的Kafka消息队列主题名称,然后可以根据Kafka消息队列主题名称将对日志文件压缩包进行行数据解析后得到的解析结果存储到至Kafka消息队列中的指定位置处,进而可以通过Kafka消费程序对Kafka消息队列中的解析结果进行实时分析。
本发明实施例提供的技术方案,通过基于Flume预先创建的文件读取类读取包括多个bcp文件的日志文件压缩包,再通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中,实现了基于Flume对日志文件压缩包的解析。
实施例二
图2a是本发明实施例二提供的一种日志文件压缩包的解析方法的流程图。本实施例在上述实施例的基础上进行具体化,其中,可以将通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析,具体为:
通过自定义反序列化器的构造函数将日志文件压缩包从文件读取类的文件读取接口传递至自定义反序列化器的反序列器接口;
通过自定义反序列化器从反序列器接口获取到日志文件压缩包之后,对日志文件压缩包进行解压得到多个bcp文件,并对多个bcp文件进行行数据解析。
进一步的,在通过自定义反序列化器对日志文件压缩包进行解压得到多个bcp文件之前,还可以包括:
如果日志文件压缩包为加密压缩包,则通过自定义反序列化器获取Flume配置文件中的解压密码,并根据所述解压密码对日志文件压缩包进行解密。
如图2a所示,本实施例提供的一种日志文件压缩包的解析方法,具体包括:
S210、通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,日志文件压缩包中包括多个bcp文件。
S220、通过自定义反序列化器的构造函数将日志文件压缩包从文件读取类的文件读取接口传递至自定义反序列化器的反序列器接口。
构造函数,指的是带有初始化变量或一系列操作方法的函数,可以用于在创建对象时初始化对象或指定对象的操作过程。在本发明实施例中,构造函数可以用于在从文件读取类的文件读取接口读取到日志文件压缩包后,指定将日志文件压缩包传递至自定义反序列化器的反序列器接口以对日志文件压缩包进行行数据解析。
文件读取接口(如ReliableEventReader),指的是通过基于Flume预先创建的文件读取类实现的一个Flume中可用于读取日志文件压缩包的接口。
反序列器接口(如EventDeserializer),指的是通过自定义反序列化器实现的一个Flume内部提供的可用于解析日志文件压缩包的接口。
通过自定义反序列化器的构造函数将日志文件压缩包从文件读取类的文件读取接口传递至自定义反序列化器的反序列器接口,以对读取的日志文件压缩包进行解析。
S230、通过自定义反序列化器从反序列器接口获取到日志文件压缩包之后,判断日志文件压缩包是否为加密压缩包,如果是,则执行S240,否则执行S250。
加密压缩包,指的是对日志文件压缩包进行加密处理后得到的压缩包。
在通过自定义反序列化器从反序列器接口获取到日志文件压缩包之后,进一步判断日志文件压缩包是否为加密压缩包,如果是日志文件压缩包是加密压缩包,则执行S240,即对日志文件压缩包解密后再进行行数据解析,如果日志文件压缩包不是加密压缩包,则执行S250,即直接对日志文件压缩包进行行数据解析。
S240、通过自定义反序列化器获取Flume配置文件中的解压密码,并根据解压密码对日志文件压缩包进行解密。
解压密码,指的是对加密压缩包进行解密时所需的密码。
解密,指的是取消日志文件压缩包的安全保密,基于解压密码将日志文件压缩包进行解密。可以采用现有技术中的任意一种开源的解密工具对日志文件压缩包进行解密,例如,可以采用net.lingala.zip4j.ZipFile解密工具对zip格式的日志文件压缩包进行解密。
当日志文件压缩包是加密压缩包时,通过自定义反序列化器获取Flume配置文件中的解压密码,并根据解压密码对日志文件压缩包进行解密,从而可以获得解密后的日志文件压缩包。
需要指出的是,在对日志文件压缩包进行解密时,如果出现解密出错的情况,自定义反序列化器可以对解密失败的日志文件压缩包进行错误日志记录,然后可以采用人工方式查看错误日志记录以分析解密出错原因,例如,解压密码配置问题、日志文件压缩包存在问题等。
S250、通过自定义反序列化器对日志文件压缩包进行解压得到多个bcp文件,并对多个bcp文件进行行数据解析,并将解析结果存储到至消息队列中。
在通过自定义反序列化器获取Flume配置文件中的解压密码,并根据解压密码对是加密压缩包的日志文件压缩包进行解密后,或者,在通过自定义反序列化器从反序列器接口获取到不是加密压缩包的日志文件压缩包之后,通过自定义反序列化器对日志文件压缩包进行解压,即可得到日志文件压缩包中包括的多个bcp文件,进而对多个bcp文件进行行数据解析,并将解析结果存储到至消息队列中。
可选的,通过自定义反序列化器对多个bcp文件进行行数据解析,可以包括:通过自定义反序列化器对多个bcp文件进行遍历,针对每个bcp文件,采用文件读取对象按行进行文件内容读取。
文件读取对象,指的是Java内置的文件读取对象Reader,它是一个抽象类,java.io.Reader是所有字符输入流的父类,该类定义了以字符为单位读取数据的基本方法。采用文件读取对象可以按行读取日志文件压缩包进行解压后得到的每个bcp文件所包含的行文件内容。
通过自定义反序列化器对日志文件压缩包进行解压得到日志文件压缩包中包括的多个bcp文件后,对多个bcp文件进行行数据解析。在进行行数据解析时,通过自定义反序列化器可以对多个bcp文件进行遍历,依次获取日志文件压缩包中的每个bcp文件,然后针对每个bcp文件,采用文件读取对象逐行读取bcp文件中包含的内容,获得每个bcp文件的所有行内容。
作为一种可选的实施方式,消息队列为Kafka消息队列;在将解析结果存储到至消息队列中之后,还可以包括:通过Kafka消费程序对Kafka消息队列中的解析结果进行实时分析。
进一步的,通过自定义反序列化器将解析结果存储到至消息队列中,可以包括:通过自定义反序列化器获取Flume配置文件中的Kafka消息队列主题名称,根据Kafka消息队列主题名称将解析结果存储到至Kafka消息队列中。
图2b是本发明实施例提供的一种实时分析日志文件压缩包的流程示意图,在一个具体的例子中,如图2b所示,在通过自定义反序列化器从反序列器接口获取到日志文件压缩包之后,通过自定义反序列化器对日志文件压缩包进行解压得到日志文件压缩包中包括的多个bcp文件,并对多个bcp文件进行行数据解析,然后通过自定义反序列化器获取Flume配置文件中的Kafka消息队列主题名称,根据Kafka消息队列主题名称可以将日志文件压缩包进行行数据解析后得到的解析结果存储到至Kafka消息队列中的指定位置,从进而可以通过Kafka消费程序对存储在Kafka消息队列中的解析结果进行实时消费分析,实现了基于Flume对日志文件压缩包的解析,并且可以对第三方系统推送数据效果进行实时检测反馈。
本实施例未尽详细解释之处请参见前述实施例,在此不再赘述。
上述技术方案,通过基于Flume预先创建的文件读取类读取包括多个bcp文件的日志文件压缩包,然后通过自定义反序列化器的构造函数将日志文件压缩包从文件读取类的文件读取接口传递至自定义反序列化器的反序列器接口,并通过自定义反序列化器判断日志文件压缩包是否为加密压缩包,如果日志文件压缩包为加密压缩包,则还需要通过自定义反序列化器获取Flume配置文件中的解压密码,并根据解压密码先对日志文件压缩包进行解密,再通过自定义反序列化器对日志文件压缩包进行解压得到多个bcp文件,如果日志文件压缩包不为加密压缩包,则可以直接通过自定义反序列化器对日志文件压缩包进行解压得到多个bcp文件,其次通过自定义反序列化器对日志文件压缩包进行解压后得到的多个bcp文件进行行数据解析,并将解析结果存储到至消息队列中,实现了基于Flume对指定路径下多个日志文件压缩包进行自动解密和解析处理,并且可以对第三方系统推送数据效果进行实时检测反馈。
实施例三
图3是本发明实施例三提供的一种日志文件压缩包的解析装置的结构示意图,可适用于基于Flume解析包括多个bcp文件的日志文件压缩包的情况,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。
如图3所示,该日志文件压缩包的解析装置具体包括:日志文件压缩包读取模块310和日志文件压缩包行数据解析模块320。其中,
日志文件压缩包读取模块310,设置为通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
日志文件压缩包行数据解析模块320,设置为通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
本发明实施例提供的技术方案,通过基于Flume预先创建的文件读取类读取包括多个bcp文件的日志文件压缩包,再通过文件读取类中的自定义反序列化器,对日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中,实现了基于Flume对日志文件压缩包的解析。
可选的,日志文件压缩包行数据解析模块320,包括:日志文件压缩包传递单元和行数据解析单元,其中,
日志文件压缩包传递单元,设置为通过所述自定义反序列化器的构造函数将所述日志文件压缩包从所述文件读取类的文件读取接口传递至所述自定义反序列化器的反序列器接口;
行数据解析单元,设置为通过所述自定义反序列化器从所述反序列器接口获取到所述日志文件压缩包之后,对所述日志文件压缩包进行解压得到所述多个bcp文件,并对所述多个bcp文件进行行数据解析。
可选的,行数据解析单元,具体设置为:
通过所述自定义反序列化器对所述多个bcp文件进行遍历,针对每个所述bcp文件,采用文件读取对象按行进行文件内容读取。
可选的,日志文件压缩包行数据解析模块320,还包括:日志文件压缩包解密单元,其中,日志文件压缩包解密单元设置为:
在通过所述自定义反序列化器对所述日志文件压缩包进行解压得到所述多个bcp文件之前,如果所述日志文件压缩包为加密压缩包,则通过所述自定义反序列化器获取Flume配置文件中的解压密码,并根据所述解压密码对所述日志文件压缩包进行解密。
可选的,日志文件压缩包读取模块310,具体设置为:
通过所述文件读取类获取Flume配置文件中的压缩包存储路径,并根据所述压缩包存储路径读取日志文件压缩包。
可选的,所述消息队列为Kafka消息队列;
上述装置还包括:解析结果实时分析模块,其中,解析结果实时分析模块设置为:在将解析结果存储到至消息队列中之后,通过Kafka消费程序对所述Kafka消息队列中的解析结果进行实时分析。
可选的,日志文件压缩包行数据解析模块320,具体设置为:
对所述日志文件压缩包进行行数据解析,通过所述自定义反序列化器获取Flume配置文件中的Kafka消息队列主题名称,根据所述Kafka消息队列主题名称将解析结果存储到至Kafka消息队列中。
上述日志文件压缩包的解析装置可执行本发明任意实施例所提供的日志文件压缩包的解析方法,具备执行日志文件压缩包的解析方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种计算机设备的硬件结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种日志文件压缩包的解析方法。也即,所述处理单元执行所述程序时实现:
通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的一种日志文件压缩包的解析方法:也即,该程序被处理器执行时实现:
通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言(诸如Java、Smalltalk、C++),还包括常规的过程式程序设计语言(诸如“C”语言或类似的程序设计语言)。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN)),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种日志文件压缩包的解析方法,其特征在于,包括:
通过基于日志收集系统Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
2.根据权利要求1所述的方法,其特征在于,通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,包括:
通过所述自定义反序列化器的构造函数将所述日志文件压缩包从所述文件读取类的文件读取接口传递至所述自定义反序列化器的反序列器接口;
通过所述自定义反序列化器从所述反序列器接口获取到所述日志文件压缩包之后,对所述日志文件压缩包进行解压得到所述多个bcp文件,并对所述多个bcp文件进行行数据解析。
3.根据权利要求2所述的方法,其特征在于,通过所述自定义反序列化器对所述多个bcp文件进行行数据解析,包括:
通过所述自定义反序列化器对所述多个bcp文件进行遍历,针对每个所述bcp文件,采用文件读取对象按行进行文件内容读取。
4.根据权利要求2所述的方法,其特征在于,在通过所述自定义反序列化器对所述日志文件压缩包进行解压得到所述多个bcp文件之前,还包括:
如果所述日志文件压缩包为加密压缩包,则通过所述自定义反序列化器获取Flume配置文件中的解压密码,并根据所述解压密码对所述日志文件压缩包进行解密。
5.根据权利要求1所述的方法,其特征在于,通过基于Flume预先创建的文件读取类读取日志文件压缩包,包括:
通过所述文件读取类获取Flume配置文件中的压缩包存储路径,并根据所述压缩包存储路径读取日志文件压缩包。
6.根据权利要求1所述的方法,其特征在于,所述消息队列为Kafka消息队列;在将解析结果存储到至消息队列中之后,还包括:
通过Kafka消费程序对所述Kafka消息队列中的解析结果进行实时分析。
7.根据权利要求6所述的方法,其特征在于,通过所述自定义反序列化器将解析结果存储到至消息队列中,包括:
通过所述自定义反序列化器获取Flume配置文件中的Kafka消息队列主题名称,根据所述Kafka消息队列主题名称将解析结果存储到至Kafka消息队列中。
8.一种日志文件压缩包的解析装置,其特征在于,包括:
日志文件压缩包读取模块,设置为通过基于Flume预先创建的文件读取类读取日志文件压缩包;其中,所述日志文件压缩包中包括多个bcp文件;
日志文件压缩包行数据解析模块,设置为通过所述文件读取类中的自定义反序列化器,对所述日志文件压缩包进行行数据解析,并将解析结果存储到至消息队列中。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011399936.8A 2020-12-02 2020-12-02 日志文件压缩包的解析方法、装置、设备及介质 Pending CN112491421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011399936.8A CN112491421A (zh) 2020-12-02 2020-12-02 日志文件压缩包的解析方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011399936.8A CN112491421A (zh) 2020-12-02 2020-12-02 日志文件压缩包的解析方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112491421A true CN112491421A (zh) 2021-03-12

Family

ID=74939693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011399936.8A Pending CN112491421A (zh) 2020-12-02 2020-12-02 日志文件压缩包的解析方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112491421A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378199A (zh) * 2021-06-28 2021-09-10 展讯通信(天津)有限公司 一种智能终端系统日志保存方法及设备
CN113609429A (zh) * 2021-08-10 2021-11-05 广州至真信息科技有限公司 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130125139A1 (en) * 2011-11-16 2013-05-16 International Business Machines Corporation Logging In A Computer System
CN106844574A (zh) * 2017-01-05 2017-06-13 中国银联股份有限公司 一种远程数据同步的方法和装置
CN109271358A (zh) * 2018-11-15 2019-01-25 深圳乐信软件技术有限公司 数据汇总方法、查询方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130125139A1 (en) * 2011-11-16 2013-05-16 International Business Machines Corporation Logging In A Computer System
CN106844574A (zh) * 2017-01-05 2017-06-13 中国银联股份有限公司 一种远程数据同步的方法和装置
CN109271358A (zh) * 2018-11-15 2019-01-25 深圳乐信软件技术有限公司 数据汇总方法、查询方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378199A (zh) * 2021-06-28 2021-09-10 展讯通信(天津)有限公司 一种智能终端系统日志保存方法及设备
CN113609429A (zh) * 2021-08-10 2021-11-05 广州至真信息科技有限公司 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质
CN113609429B (zh) * 2021-08-10 2024-04-05 广州至真信息科技有限公司 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109800259B (zh) 数据采集方法、装置及终端设备
Alcock et al. Libtrace: A packet capture and analysis library
US8925094B2 (en) Automatic synthesis of unit tests for security testing
CN108040045B (zh) 访问流量文件的生成方法、装置、服务器及存储介质
CN113923057B (zh) 卫星测运控平台的数据处理方法、装置、电子设备及介质
CN112491421A (zh) 日志文件压缩包的解析方法、装置、设备及介质
CN109558331B (zh) 应用程序的缺陷检测方法、装置、设备和存储介质
CN110888791A (zh) 一种日志处理方法、装置、设备和存储介质
CN108874584B (zh) 数据备份方法、数据还原方法、装置、设备及存储介质
CN115357663A (zh) 基于增量数据同步组件的数据同步方法、系统及装置
CN111913922B (zh) 二进制结构化日志的生成方法、装置、设备及存储介质
CN109657167B (zh) 数据采集方法、装置、服务器及存储介质
CN113285945B (zh) 通信安全监控方法、装置、设备及存储介质
CN110059064A (zh) 日志文件处理方法、装置和计算机可读存储介质
CN111930385A (zh) 数据采集方法、装置、设备及存储介质
CN109684207B (zh) 操作序列封装的方法、装置、电子设备及存储介质
CN109766260B (zh) 配置测试动作的方法、装置、电子设备和存储介质
TW200817965A (en) Multiple-level data processing system and method thereof
CN112748930B (zh) 编译检测方法、装置、设备及存储介质
CN113609429B (zh) 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质
CN114547617A (zh) 确定目标数据的方法、装置、电子设备及存储介质
CN114219643A (zh) 一种交易调用方法、装置、设备及存储介质
CN114449523A (zh) 用于卫星测控系统的流量过滤方法、装置、设备及介质
CN109062797B (zh) 生成信息的方法和装置
CN111835686A (zh) 一种数据压缩、解压缩方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination