CN106021554A - 一种日志解析方法及装置 - Google Patents

一种日志解析方法及装置 Download PDF

Info

Publication number
CN106021554A
CN106021554A CN201610369900.2A CN201610369900A CN106021554A CN 106021554 A CN106021554 A CN 106021554A CN 201610369900 A CN201610369900 A CN 201610369900A CN 106021554 A CN106021554 A CN 106021554A
Authority
CN
China
Prior art keywords
aiming field
log data
data
plug
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610369900.2A
Other languages
English (en)
Inventor
叶炜晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610369900.2A priority Critical patent/CN106021554A/zh
Publication of CN106021554A publication Critical patent/CN106021554A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种日志解析方法及装置,日志解析方法包括:获取原始日志数据;根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称;将所述目标字段与其名称组合,得到键值对形态的结构化数据。采用本发明实施例提供的日志解析方法及装置可以对不同类型的日志进行统一解析,简单高效,不必开发多种日志解析方法,进而大大降低了开发和维护的成本,易于业务的拓展。

Description

一种日志解析方法及装置
技术领域
本发明涉及网络技术领域,特别涉及一种日志解析方法及装置。
背景技术
目前,互联网公司的业务种类繁多,不同的业务程序使用不同的编程语言和代码框架,在运行时会产生不同类型的日志。其中,互联网公司的业务中,常见的日志类型有Nginx日志、Log4j日志、Glog日志、PHP日志等。
为了供后续大数据系统进行分析,需要进行日志解析,即将日志中的非结构化数据转化成结构化数据。其中,非结构化的数据就是原始日志,在这些日志中,包含了一些关键信息,例如IP地址、时间、请求url、请求参数、返回值、响应时间等,这些都是可能需要提取出来的关键信息。这些关键信息被提取出来之后,转化成由键值对(key-value pair)组成的结构化数据,即完成日志解析。
由于业务程序不同,每种业务程序对应的原始日志的类型也各不相同,解析各种类型的日志,需要完全不同的日志解析方法,例如,在Nginx日志中,时间的打印方式为[14/Feb/2016:18:01:37+0800],而在Log4j日志中,时间的打印方式为2016-02-15 10:17:35,在日志解析时,需要把上述日志中的时间信息提取出来,转化成Unix时间戳类型的key-value pair形式的结构化数据,就必须有两套完全不同的日志解析方法。实际应用中,需要根据每种类型的日志,开发对应的日志解析方法,多种日志解析方法之间不能复用,另外,每当有新的类型的日志加入时,就需要针对新的类型的日志开发新的日志解析方法,每种类型的日志解析方法的开发和维护成本都非常高,非常不易于业务的扩展。
发明内容
本发明实施例公开了一种日志解析方法及装置,以解决现有的多种类型日志解析方法之间不能复用,开发和维护成本高的问题。技术方案如下:
第一方面,本发明实施例提供了一种日志解析方法,包括:
获取原始日志数据;
根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称;
将所述目标字段与其名称组合,得到键值对形态的结构化数据。
优选的,根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之后,还包括:
将所述目标字段发送至第一解析插件,以使:所述第一解析插件按照预先配置的转换算法将所述目标字段转换成目标格式的目标字段;
接收所述第一解析插件发送的所述目标格式的目标字段;
相应的,所述将所述目标字段与其名称组合,得到键值对形态的结构化数据具体为:
将所述目标格式的目标字段与其对应的目标字段的名称组合,得到目标格式的键值对形态的结构化数据。
优选的,所述目标格式为时间戳格式。
优选的,当获取的原始日志数据为加密的原始日志数据时,所述根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之前,还包括:
将所述加密的原始日志数据发送至第二解析插件,以使:所述第二解析插件按照预先配置的解密算法对所述加密的原始日志数据进行解密,得到解密后的原始日志数据;
接收所述第二解析插件发送的所述解密后的原始日志数据。
优选的,所述预先配置的正则表达式为用户自定义的正则表达式。
第二方面,本发明实施例还提供了一种日志解析装置,包括:
数据获取模块,用于获取原始日志数据;
字段抓取模块,用于根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称;
组合模块,用于将所述目标字段与其名称组合,得到键值对形态的结构化数据。
优选的,所述装置还包括:
字段发送模块,用于:在根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之后,将所述目标字段发送至第一解析插件,以使:所述第一解析插件按照预先配置的转换算法将所述目标字段转换成目标格式的目标字段;
字段接收模块,用于接收所述第一解析插件发送的所述目标格式的目标字段;
相应的,所述组合模块具体用于:
将所述目标格式的目标字段与其对应的目标字段的名称组合,得到目标格式的键值对形态的结构化数据。
优选的,所述目标格式为时间戳格式。
优选的,所述装置还包括:
数据发送模块,用于:当获取的原始日志数据为加密的原始日志数据时,在所述根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之前,将所述加密的原始日志数据发送至第二解析插件,以使:所述第二解析插件按照预先配置的解密算法对所述加密的原始日志数据进行解密,得到解密后的原始日志数据;
数据接收模块,用于接收所述第二解析插件发送的所述解密后的原始日志数据。
优选的,所述预先配置的正则表达式为用户自定义的正则表达式。
本方案提供一种日志解析方法及装置中,获取原始日志数据后,首先根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称,然后将所述目标字段与其名称组合,即得到键值对形态的结构化数据。采用本方案提供的日志解析方法及装置可以对不同类型的日志进行统一解析,简单高效,不必开发多种日志解析方法,进而大大降低了开发和维护的成本,易于业务的拓展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种日志解析方法的第一种流程图;
图2为本发明实施例所提供的一种日志解析方法的第二种流程图;
图3为本发明实施例所提供的一种日志解析装置的第一种结构示意图;
图4为本发明实施例所提供的一种日志解析装置的第二种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了可以对不同类型的日志进行统一解析,降低开发和维护的成本,使业务易于拓展,本发明实施例提供了一种日志解析方法及装置。
下面首先对本发明实施例所提供的第一种日志解析方法进行介绍。
如图1所示,一种日志解析方法,可以包括:
S101,获取原始日志数据;
需要说明的是,该原始日志数据可以为现有的任意一种类型的日志数据,可以是Nginx日志、Log4j日志、Glog日志、PHP日志等类型的日志数据,在此不做具体限定。例如,该原始日志数据可以为:2015-03-02 13:14:20userZhaoGang login www.iqiyi.com from ip 192.168.255.253。
S102,根据预先配置的正则表达式从所述原始日志数据中抓取目标字段;
具体的,该正则表达式为使用单个字符串来描述、抓取一系列符合某个特征的字符串,其中,该正则表达式中包括该目标字段的名称。需要说明的是,该预先配置的正则表达式可以为用户根据实际情况自定义的正则表达式,该预先配置的正则表达式的数量可以根据所要得到的结构化数据确定,一般一个种类的结构化数据对应一个预先配置的正则表达式,当然并不局限于此。实际应用中,用户可以根据需要得到的结构化数据的种类来定义该正则表达式,该结构化数据的种类可以理解为时间、用户名、IP地址等。
举例而言,如果需要从上述原始日志数据2015-03-02 13:14:20userZhaoGang login www.iqiyi.com from ip 192.168.255.253中获得时间、用户名及IP地址三类结构化数据,则可以定义如下三个正则表达式:
time:\d\d\d\d-\d\d-\d\d\s\d\d:\d\d:\d
user_name:user\s(.+?)\s
ip:\d\d\d.\d\d\d.\d\d\d
其中,time、user_name及ip为目标字段的名称,用户可以根据实际需要进行定义,并不局限与此,根据该三个正则表达式可以从上述原始日志数据中抓取三个对应的目标字段:2015-03-02 13:14:20、ZhaoGang及192.168.255.253。可以理解的是,如果只需要从上述原始日志数据中抓取时间和IP地址两个种类的目标字段,则只需要定义正则表达式time:\d\d\d\d-\d\d-\d\d\s\d\d:\d\d:\d和ip:\d\d\d.\d\d\d.\d\d\d。类似的,如果只需要从上述原始日志数据中抓取时间、用户名、IP地址中的一类目标字段,则对应的定义一个正则表达式即可。
S103,将所述目标字段与其名称组合,得到键值对形态的结构化数据。
抓取目标字段后,将该目标字段与其名称进行组合,即可以得到该键值对形态的结构化数据。具体的,该键值对形态的结构化数据一般由键和值两部分组成,可以将目标字段的名称作为键,抓取的目标字段作为值,将二者组合起来得到该键值对形态的结构化数据,进而完成对该原始日志数据的解析。例如,可以将目标字段的名称time、user_name及ip作为键,抓取的目标字段:2015-03-02 13:14:20、ZhaoGang及192.168.255.253作为值,分别进行组合,得到如下三个键值对形态的结构化数据:
time:2015-03-02 13:14:20
user_name:ZhaoGang
ip:192.168.255.253
需要说明是,该键值对形态的结构化数据中,键和值中间的冒号只是一个表示分割的符号,没有其他含义,可以用等号、竖线、空格或者其他符号、字符等代替,可以根据实际情况进行选择,在此不做具体限定。
进一步需要说明的是,为了可以对加密的原始日志数据进行准确解析,本发明实施例所提供的方法,还可以包括:
当获取的原始日志数据为加密的原始日志数据时,在根据预先配置的正则表达式从该原始日志数据中抓取目标字段之前,将该加密的原始日志数据发送至第二解析插件,以使:该第二解析插件按照预先配置的解密算法对该加密的原始日志数据进行解密,得到解密后的原始日志数据;
接收该第二解析插件发送的该解密后的原始日志数据。
由于加密的原始日志数据可能导致根据预先配置的正则表达式抓取目标字段时发生错误或者无法匹配的问题出现,因此,可以将该加密的原始日志数据发送至第二解析插件进行解密处理。需要说明的是,该预先配置的解密算法可以为用户自定义的解密算法,可以理解的是,该加密的原始日志数据的加密算法一般为用户自定义的加密算法,该解密算法与该加密算法对应。通过调用该第二解析插件提供的接口,将该加密的原始日志数据发送至第二解析插件,该第二解析插件根据该解密算法便可以对该加密的原始日志数据进行解密处理。
需要强调的是,“第二解析插件”中的“第二”以及后续提到的“第一解析插件”中的“第一”仅仅用于从名称上区分具有不同解析功能的功能模块,并不具有任何限定意义;另外,可以理解的是,实际应用中,该第一解析插件和第二解析插件可以集成为一个插件,即一个插件具有解密功能和格式转换功能,当然,该第一解析插件和第二解析插件也可以为相互独立的两个插件,该两个插件具有不同的功能,这都是合理的。
可见,本方案提供一种日志解析方法中,获取原始日志数据后,首先根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称,然后将所述目标字段与其名称组合,即得到键值对形态的结构化数据。采用本方案提供日志解析方法可以对不同类型的日志进行统一解析,简单高效,不必开发多种日志解析方法,进而大大降低了开发和维护的成本,易于业务的拓展。
下面对本发明实施例所提供的第二种日志解析方法进行介绍。
如图2所示,一种日志解析方法,可以包括:
S201,获取原始日志数据;
S202,根据预先配置的正则表达式从所述原始日志数据中抓取目标字段;
其中,该正则表达式中包括该目标字段的名称;
上述两个步骤分别与步骤S101、步骤S102相似,相关之处参见步骤S101、步骤S102的部分说明即可,在此不再赘述。
S203,将所述目标字段发送至第一解析插件,以使:所述第一解析插件按照预先配置的转换算法将所述目标字段转换成目标格式的目标字段;
其中,该目标格式可以为时间戳格式,该时间戳格式为一种时间的描述方法,一般表示从1970年1月1日开始到某个指定时间所经过的秒数(不考虑闰秒)。当然,该目标格式也可以为其他格式,在此不做具体限定。
具体的,获得目标字段后,通过调用该第一解析插件提供的接口,将该目标字段发送至该第一解析插件,该第一解析插件可以按照预先配置的转换算法将该目标字段转换成目标格式的目标字段,需要说明的是,一般只需将需要转换为目标格式的目标字段发送至该第一解析插件,而不需要将全部目标字段发送至该第一解析插件。可以理解的是,该预先配置的转换算法可以根据目标格式确定,例如,该目标格式为时间戳格式,则可以预先配置如下时间戳转换算法:
时间戳格式的目标字段=days*86400+hours*3600+minutes*60+seconds+时区修正值
其中,days表示从1970年1月1日到目标字段中的日期所经过的天数;hours、minutes及seconds分别表示目标字段中的小时数、分钟数及秒数;时区修正值表示各个时区的显示时间与格林威治标准时间相差的秒数。例如,北京在东八区,时区修正值就是(-8)*3600。
举例而言,在抓取三个目标字段:2015-03-02 13:14:20、ZhaoGang及192.168.255.253后,可以将需要转换为时间戳格式的目标字段2015-03-0213:14:20通过调用该第一解析插件提供的接口发送至该第一解析插件,该第一解析插件按照上述时间戳转换算法,将目标字段2015-03-02 13:14:20转换为时间戳格式的目标字段1425273260。
S204,接收所述第一解析插件发送的所述目标格式的目标字段;
具体的,在该第一解析插件将目标字段转换成目标格式的目标字段后,可以通过该第一解析插件提供的接口,接收该第一解析插件发送的该目标格式的目标字段。例如,该第一解析插件将目标字段2015-03-02 13:14:20转换为时间戳格式的目标字段1425273260后,可以通过该第一解析插件提供的接口接收该第一解析插件发送的时间戳格式的目标字段1425273260。
S205,将所述目标格式的目标字段与其对应的目标字段的名称组合,得到目标格式的键值对形态的结构化数据。
具体的,可以将该目标格式的目标字段对应的目标字段的名称作为键,该目标格式的目标字段作为值,将二者组合起来即得到键值对形态的结构化数据,进而完成对该原始日志数据的解析。需要说明的是,对于未进行目标格式转换的目标字段,则可以将该目标字段的名称作为键,该目标字段作为值,组合成键值对形态的结构化数据。
举例而言,对于未进行目标格式转换的目标字段ZhaoGang及192.168.255.253,将目标字段的名称user_name及ip作为键,目标字段:ZhaoGang及192.168.255.253作为值,分别进行组合,得到如下两个键值对形态的结构化数据:
user_name:ZhaoGang
ip:192.168.255.253
对于目标字段2015-03-02 13:14:20,则将其转换成的时间戳格式的目标字段1425273260作为值,目标字段2015-03-02 13:14:20的名称time作为键,组合成键值对形态的结构化数据time:1425273260。最终得到目标格式的键值对形态的结构化数据:
time:1425273260
user_name:ZhaoGang
ip:192.168.255.253
需要说明是,该键值对形态的结构化数据中,键和值中间的冒号只是一个表示分割的符号,没有其他含义,可以用等号、竖线、空格或者其他符号、字符等代替,可以根据实际情况进行选择,在此不做具体限定。
进一步需要说明的是,为了可以对加密的原始日志数据进行准确解析,本发明实施例所提供的方法,还可以包括:
当获取的原始日志数据为加密的原始日志数据时,在根据预先配置的正则表达式从该原始日志数据中抓取目标字段之前,将该加密的原始日志数据发送至第二解析插件,以使:该第二解析插件按照预先配置的解密算法对该加密的原始日志数据进行解密,得到解密后的原始日志数据;
接收该第二解析插件发送的该解密后的原始日志数据。
由于加密的原始日志数据可能导致根据预先配置的正则表达式抓取目标字段时发生错误或者无法匹配的问题出现,可以将该加密的原始日志数据发送至第二解析插件进行解密处理,需要说明的是,该预先配置的解密算法可以为用户自定义的解密算法,可以理解的是,该加密的原始日志数据的加密算法一般为用户自定义的加密算法,该解密算法与该加密算法对应,通过调用该第二解析插件提供的接口,将该加密的原始日志数据发送至第二解析插件,该第二解析插件根据该解密算法便可以对该加密的原始日志数据进行解密处理。
可见,本实施例所述方案在上述实施例的基础上,通过第一解析插件将目标字段按照预先配置的转换算法转换成目标格式的目标字段,可以获得多种目标格式的键值对形态的结构化数据,满足用户对键值对形态的结构化数据格式的不同需求,方便快捷,更易于业务的拓展。
相应于上述方法实施例,本发明实施例还提供了日志解析装置,下面对本发明实施例所提供的第一种日志解析装置进行介绍。
如图3所示,一种日志解析装置,可以包括:
数据获取模块310,用于获取原始日志数据;
字段抓取模块320,用于根据预先配置的正则表达式从所述原始日志数据中抓取目标字段;
其中,所述正则表达式中包括所述目标字段的名称;
组合模块330,用于将所述目标字段与其名称组合,得到键值对形态的结构化数据。
可见,本方案提供一种日志解析装置,获取原始日志数据后,首先根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称,然后将所述目标字段与其名称组合,即得到键值对形态的结构化数据。采用本方案提供日志解析装置可以对不同类型的日志进行统一解析,简单高效,不必开发多种日志解析装置,进而大大降低了开发和维护的成本,易于业务的拓展。
具体的,该预先配置的正则表达式为用户自定义的正则表达式。
进一步的,本发明实施例所提供的装置还可以包括:
数据发送模块,用于:当获取的原始日志数据为加密的原始日志数据时,在所述根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之前,将所述加密的原始日志数据发送至第二解析插件,以使:所述第二解析插件按照预先配置的解密算法对所述加密的原始日志数据进行解密,得到解密后的原始日志数据;
数据接收模块,用于接收所述第二解析插件发送的所述解密后的原始日志数据。
下面对本发明实施例所提供的第二种日志解析装置进行介绍。
如图4所示,一种日志解析装置,可以包括:
数据获取模块410,用于获取原始日志数据;
字段抓取模块420,用于根据预先配置的正则表达式从所述原始日志数据中抓取目标字段;
其中,所述正则表达式中包括所述目标字段的名称;
字段发送模块430,用于:在根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之后,将所述目标字段发送至第一解析插件,以使:所述第一解析插件按照预先配置的转换算法将所述目标字段转换成目标格式的目标字段;
字段接收模块440,用于接收所述第一解析插件发送的所述目标格式的目标字段;
组合模块450,用于将所述目标格式的目标字段与其对应的目标字段的名称组合,得到目标格式的键值对形态的结构化数据。
可见,本实施例所述方案在上述实施例的基础上,通过第一解析插件将目标字段按照预先配置的转换算法转换成目标格式的目标字段,可以获得多种目标格式的键值对形态的结构化数据,满足用户对键值对形态的结构化数据格式的不同需求,方便快捷,更易于业务的拓展。
具体的,该预先配置的正则表达式为用户自定义的正则表达式。
进一步的,本发明实施例所提供的装置还可以包括:
数据发送模块,用于:当获取的原始日志数据为加密的原始日志数据时,在所述根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之前,将所述加密的原始日志数据发送至第二解析插件,以使:所述第二解析插件按照预先配置的解密算法对所述加密的原始日志数据进行解密,得到解密后的原始日志数据;
数据接收模块,用于接收所述第二解析插件发送的所述解密后的原始日志数据。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种日志解析方法,其特征在于,包括:
获取原始日志数据;
根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称;
将所述目标字段与其名称组合,得到键值对形态的结构化数据。
2.如权利要求1所述的方法,其特征在于,根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之后,还包括:
将所述目标字段发送至第一解析插件,以使:所述第一解析插件按照预先配置的转换算法将所述目标字段转换成目标格式的目标字段;
接收所述第一解析插件发送的所述目标格式的目标字段;
相应的,所述将所述目标字段与其名称组合,得到键值对形态的结构化数据具体为:
将所述目标格式的目标字段与其对应的目标字段的名称组合,得到目标格式的键值对形态的结构化数据。
3.如权利要求2所述的方法,其特征在于,所述目标格式为时间戳格式。
4.如权利要求1所述的方法,其特征在于,当获取的原始日志数据为加密的原始日志数据时,所述根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之前,还包括:
将所述加密的原始日志数据发送至第二解析插件,以使:所述第二解析插件按照预先配置的解密算法对所述加密的原始日志数据进行解密,得到解密后的原始日志数据;
接收所述第二解析插件发送的所述解密后的原始日志数据。
5.如权利要求1-4任一项所述的方法,其特征在于,所述预先配置的正则表达式为用户自定义的正则表达式。
6.一种日志解析装置,其特征在于,包括:
数据获取模块,用于获取原始日志数据;
字段抓取模块,用于根据预先配置的正则表达式从所述原始日志数据中抓取目标字段,其中,所述正则表达式中包括所述目标字段的名称;
组合模块,用于将所述目标字段与其名称组合,得到键值对形态的结构化数据。
7.如权利要求6所述的装置,其特征在于,还包括:
字段发送模块,用于:在根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之后,将所述目标字段发送至第一解析插件,以使:所述第一解析插件按照预先配置的转换算法将所述目标字段转换成目标格式的目标字段;
字段接收模块,用于接收所述第一解析插件发送的所述目标格式的目标字段;
相应的,所述组合模块具体用于:
将所述目标格式的目标字段与其对应的目标字段的名称组合,得到目标格式的键值对形态的结构化数据。
8.如权利要求7所述的装置,其特征在于,所述目标格式为时间戳格式。
9.如权利要求6所述的装置,其特征在于,还包括:
数据发送模块,用于:当获取的原始日志数据为加密的原始日志数据时,在所述根据预先配置的正则表达式从所述原始日志数据中抓取目标字段之前,将所述加密的原始日志数据发送至第二解析插件,以使:所述第二解析插件按照预先配置的解密算法对所述加密的原始日志数据进行解密,得到解密后的原始日志数据;
数据接收模块,用于接收所述第二解析插件发送的所述解密后的原始日志数据。
10.如权利要求6-9任一项所述的装置,其特征在于,所述预先配置的正则表达式为用户自定义的正则表达式。
CN201610369900.2A 2016-05-30 2016-05-30 一种日志解析方法及装置 Pending CN106021554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610369900.2A CN106021554A (zh) 2016-05-30 2016-05-30 一种日志解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610369900.2A CN106021554A (zh) 2016-05-30 2016-05-30 一种日志解析方法及装置

Publications (1)

Publication Number Publication Date
CN106021554A true CN106021554A (zh) 2016-10-12

Family

ID=57092229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610369900.2A Pending CN106021554A (zh) 2016-05-30 2016-05-30 一种日志解析方法及装置

Country Status (1)

Country Link
CN (1) CN106021554A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599244A (zh) * 2016-12-20 2017-04-26 飞狐信息技术(天津)有限公司 通用的原始日志清洗装置及方法
CN107102930A (zh) * 2017-03-29 2017-08-29 武汉斗鱼网络科技有限公司 一种json格式日志的生成方法及装置
CN107908632A (zh) * 2017-07-26 2018-04-13 上海壹账通金融科技有限公司 网站文件处理方法、装置、网站文件处理平台及存储介质
CN108519965A (zh) * 2018-03-15 2018-09-11 链家网(北京)科技有限公司 数据解析方法及装置
CN108595310A (zh) * 2017-12-28 2018-09-28 北京兰云科技有限公司 一种日志处理方法及装置
CN108959659A (zh) * 2018-08-14 2018-12-07 杭州安恒信息技术股份有限公司 一种大数据平台的日志接入解析方法和系统
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统
CN109408479A (zh) * 2018-09-19 2019-03-01 平安科技(深圳)有限公司 日志数据添加方法、系统、计算机设备和存储介质
CN109522391A (zh) * 2018-11-27 2019-03-26 兰州智华辰宇交通科技有限公司 地铁运维车载日志分析与预警方法
CN109582551A (zh) * 2018-10-11 2019-04-05 平安科技(深圳)有限公司 日志数据解析方法、装置、计算机设备和存储介质
CN109902270A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 项目数据信息生成方法、装置、计算机设备及存储介质
CN109995784A (zh) * 2019-04-03 2019-07-09 杭州汉领信息科技有限公司 一种基于udp的数据提取加速方法
CN111339052A (zh) * 2020-02-28 2020-06-26 中国银联股份有限公司 一种非结构化日志数据处理方法及装置
CN111367874A (zh) * 2020-02-28 2020-07-03 北京神州绿盟信息安全科技股份有限公司 一种日志处理方法、装置、介质和设备
CN111737091A (zh) * 2020-08-27 2020-10-02 北京安帝科技有限公司 一种日志处理方法、装置及可读介质
CN112347066A (zh) * 2019-08-08 2021-02-09 腾讯科技(深圳)有限公司 日志处理方法、装置及服务器和计算机可读存储介质
WO2021088338A1 (zh) * 2019-11-06 2021-05-14 通号通信信息集团有限公司 安全态势感知系统下的多格式日志统一处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102164050A (zh) * 2011-05-16 2011-08-24 北京星网锐捷网络技术有限公司 日志解析方法及日志解析节点设备
CN104252532A (zh) * 2014-09-11 2014-12-31 北京优特捷信息技术有限公司 一种统计网站信息的方法及装置
US20150213066A1 (en) * 2014-01-29 2015-07-30 Nancy Yan System and method for creating data models from complex raw log files
CN105138593A (zh) * 2015-07-31 2015-12-09 山东蚁巡网络科技有限公司 一种利用正则表达式自定义提取日志关键信息的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102164050A (zh) * 2011-05-16 2011-08-24 北京星网锐捷网络技术有限公司 日志解析方法及日志解析节点设备
US20150213066A1 (en) * 2014-01-29 2015-07-30 Nancy Yan System and method for creating data models from complex raw log files
CN104252532A (zh) * 2014-09-11 2014-12-31 北京优特捷信息技术有限公司 一种统计网站信息的方法及装置
CN105138593A (zh) * 2015-07-31 2015-12-09 山东蚁巡网络科技有限公司 一种利用正则表达式自定义提取日志关键信息的方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599244A (zh) * 2016-12-20 2017-04-26 飞狐信息技术(天津)有限公司 通用的原始日志清洗装置及方法
CN106599244B (zh) * 2016-12-20 2024-01-05 飞狐信息技术(天津)有限公司 通用的原始日志清洗装置及方法
CN107102930A (zh) * 2017-03-29 2017-08-29 武汉斗鱼网络科技有限公司 一种json格式日志的生成方法及装置
CN107908632B (zh) * 2017-07-26 2020-04-28 深圳壹账通智能科技有限公司 网站文件处理方法、装置、网站文件处理平台及存储介质
CN107908632A (zh) * 2017-07-26 2018-04-13 上海壹账通金融科技有限公司 网站文件处理方法、装置、网站文件处理平台及存储介质
CN108595310A (zh) * 2017-12-28 2018-09-28 北京兰云科技有限公司 一种日志处理方法及装置
CN108519965A (zh) * 2018-03-15 2018-09-11 链家网(北京)科技有限公司 数据解析方法及装置
CN108959659A (zh) * 2018-08-14 2018-12-07 杭州安恒信息技术股份有限公司 一种大数据平台的日志接入解析方法和系统
CN108959659B (zh) * 2018-08-14 2021-09-07 杭州安恒信息技术股份有限公司 一种大数据平台的日志接入解析方法和系统
CN109408479A (zh) * 2018-09-19 2019-03-01 平安科技(深圳)有限公司 日志数据添加方法、系统、计算机设备和存储介质
CN109408479B (zh) * 2018-09-19 2023-05-30 平安科技(深圳)有限公司 日志数据添加方法、系统、计算机设备和存储介质
CN109582551A (zh) * 2018-10-11 2019-04-05 平安科技(深圳)有限公司 日志数据解析方法、装置、计算机设备和存储介质
CN109271272A (zh) * 2018-10-15 2019-01-25 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统
CN109271272B (zh) * 2018-10-15 2022-05-17 江苏物联网研究发展中心 基于非结构化日志的大数据组件故障辅助修复系统
CN109522391A (zh) * 2018-11-27 2019-03-26 兰州智华辰宇交通科技有限公司 地铁运维车载日志分析与预警方法
CN109902270A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 项目数据信息生成方法、装置、计算机设备及存储介质
CN109995784A (zh) * 2019-04-03 2019-07-09 杭州汉领信息科技有限公司 一种基于udp的数据提取加速方法
CN109995784B (zh) * 2019-04-03 2022-02-11 杭州汉领信息科技有限公司 一种基于udp的数据提取加速方法
CN112347066A (zh) * 2019-08-08 2021-02-09 腾讯科技(深圳)有限公司 日志处理方法、装置及服务器和计算机可读存储介质
CN112347066B (zh) * 2019-08-08 2023-10-13 腾讯科技(深圳)有限公司 日志处理方法、装置及服务器和计算机可读存储介质
WO2021088338A1 (zh) * 2019-11-06 2021-05-14 通号通信信息集团有限公司 安全态势感知系统下的多格式日志统一处理方法及系统
CN111339052A (zh) * 2020-02-28 2020-06-26 中国银联股份有限公司 一种非结构化日志数据处理方法及装置
CN111367874B (zh) * 2020-02-28 2023-11-14 绿盟科技集团股份有限公司 一种日志处理方法、装置、介质和设备
CN111367874A (zh) * 2020-02-28 2020-07-03 北京神州绿盟信息安全科技股份有限公司 一种日志处理方法、装置、介质和设备
CN111737091B (zh) * 2020-08-27 2020-12-08 北京安帝科技有限公司 一种日志处理方法、装置及可读介质
CN111737091A (zh) * 2020-08-27 2020-10-02 北京安帝科技有限公司 一种日志处理方法、装置及可读介质

Similar Documents

Publication Publication Date Title
CN106021554A (zh) 一种日志解析方法及装置
US8966031B2 (en) Method for addressing management object in management tree and associated device management system
US8630200B2 (en) Method and apparatus for embedding information in a short URL
Teing et al. CloudMe forensics: A case of big data forensic investigation
US20170149830A1 (en) Apparatus and method for automatically generating detection rule
EP3049991A1 (en) Method and system for providing a way to verify the integrity of a document
CN104717085A (zh) 一种日志解析方法及装置
CN102546150A (zh) 面向密码设备的能量泄露采集方法及系统
CN105471635B (zh) 一种系统日志的处理方法、装置和系统
US20220335013A1 (en) Generating readable, compressed event trace logs from raw event trace logs
US10440059B1 (en) Embedding contexts for on-line threats into response policy zones
CN101944084A (zh) 一种基于sql脚本和ftp传输技术的数据库自动操作系统
CN105117654A (zh) 一种网络物理隔离情况下相同系统之间数据同步方法
CN105447146A (zh) 一种海量数据的收集与交换系统及方法
CN102546218A (zh) 配置管理方法及系统
CN109698814B (zh) 僵尸网络发现方法及僵尸网络发现装置
CN109560895A (zh) 数据传输方法及装置
CN101572633B (zh) 网络取证方法及系统
CN104346337B (zh) 一种拦截垃圾信息的方法和装置
CN107770153B (zh) 一种基于协同安全防护模型的电力信息通用采集系统
CN112699183A (zh) 数据处理方法、系统、可读存储介质及计算机设备
CN104462996A (zh) 实现对远程取证目标终端进行协同取证分析的方法及系统
US20170034132A1 (en) System and method for optimizing the transmission of data associated to an impersonal identifier of the receiver
CN111080362A (zh) 广告监测系统及方法
CN105049437A (zh) 一种网络应用层数据过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication