CN113806321A - 一种日志处理方法及系统 - Google Patents

一种日志处理方法及系统 Download PDF

Info

Publication number
CN113806321A
CN113806321A CN202111023988.XA CN202111023988A CN113806321A CN 113806321 A CN113806321 A CN 113806321A CN 202111023988 A CN202111023988 A CN 202111023988A CN 113806321 A CN113806321 A CN 113806321A
Authority
CN
China
Prior art keywords
log
file
analysis
original
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111023988.XA
Other languages
English (en)
Other versions
CN113806321B (zh
Inventor
何霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202111023988.XA priority Critical patent/CN113806321B/zh
Publication of CN113806321A publication Critical patent/CN113806321A/zh
Application granted granted Critical
Publication of CN113806321B publication Critical patent/CN113806321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种日志处理方法及系统,属于数据处理技术领域,其方法包括以下步骤:建立关系表,所述关系表内关联存储有已知设备及与所述已知设备对应的解析信息,所述已知设备的日志已成功解析,所述已知设备的数量至少为一个;获取待解析设备的原始日志文件,根据所述原始日志文件和所述关系表分析所述待解析设备,得到分析结果;基于所述分析结果确定所述原始日志文件的日志解析文件;基于所述日志解析文件对所述原始日志文件进行解析。本申请具有提高日志解析效率的效果。

Description

一种日志处理方法及系统
技术领域
本申请涉及数据处理的技术领域,尤其是涉及一种日志处理方法及系统。
背景技术
日志在现代计算机系统中十分常见,它通常记录着系统运行时的各种状态,在系统后期维护中,也十分依赖于syslog日志,syslog日志解析的一个典型过程是将非结构化日志解析为结构化数据和提取日志模板,然后应用数据挖掘和机器学习技术,从解析的结构化数据构建工作流模型。
目前,通常采用人工解析的方法逐个对日志进行解析,即需要系统维护或开发人员根据解析需求手动编译相应的解析代码来对日志进行解析,进而获得相应的解析结果。
针对上述中的相关技术,发明人认为,由于实际工作中,日志的格式趋于多样化,针对不同的日志格式,需要手动编写不同的解析文件,并且当日志字段较多时,手动编写解析文件比较耗时费力,导致解析效率十分低下。
发明内容
为了提高日志的解析效率,本申请提供一种日志处理方法及系统。
第一方面,本申请提供一种日志处理方法,采用如下的技术方案:
一种日志处理方法,包括以下步骤:
建立关系表,所述关系表内关联存储有已知设备及与所述已知设备对应的解析信息,所述已知设备的日志已成功解析,所述已知设备的数量至少为一个;
获取待解析设备的原始日志文件,根据所述原始日志文件和所述关系表分析所述待解析设备,得到分析结果;
基于所述分析结果确定所述原始日志文件的日志解析文件;
基于所述日志解析文件对所述原始日志文件进行解析。
通过采用上述技术方案,建立关系表,在关系表中关联存储有已知设备以及与已知设备对应的解析信息,根据原始日志文件与关系表进行分析,若在关系表中得到与原始日志文件对应的已知设备,则直接根据已知设备对应的解析信息对原始日志文件进行解析。通过使用上述方法,部分原始日志文件能够直接调用已有的解析信息对原始日志文件进行解析,减少了编写日志解析文件的时间,提高了原始日志文件的解析效率,进一步提高了原始日志文件的处理效率。
可选的,获取待解析设备的原始日志文件,根据所述原始日志文件和所述关系表分析所述待解析设备,得到分析结果包括以下步骤:
判断能否从所述原始日志文件中提取出设备信息,所述设备信息为所述待解析设备的唯一标识;
若能提取出所述设备信息,则判断所述关系表中是否存在与所述设备信息对应的已知设备;
若所述关系表中存在与所述设备信息对应的已知设备,则确定所述待解析设备是所述已知设备;
若所述关系表中不存在与所述设备信息对应的已知设备,则确定所述待解析设备不是所述已知设备;
若不能提取出所述设备信息,则确定所述待解析设备不是所述已知设备。
通过采用上述技术方案,根据设备信息判断待解析设备是否为已知设备,若能从原始日志文件中提取出设备信息,且能够在关系表中检索到与设备信息对应的已知设备,则确定待解析设备是已知设备;若不能在关系表中检索到设备信息对应的已知设备,或者不能从原始日志文件中提取出设备信息,则在本方案中确定待解析设备不是已知设备。
可选的,所述解析信息包括与所述已知设备日志关联的正则表达式及日志源类型,所述日志源类型关联有日志解析文件,
基于所述分析结果确定所述原始日志文件的日志解析文件包括以下步骤:
确定所述待解析设备是否为所述已知设备;
若确定所述待解析设备为所述已知设备,则从关系表中提取所述已知设备对应的解析信息,基于所述解析信息获取所述日志源类型,基于所述日志源类型获取所述原始日志文件的日志解析文件;
若确定所述待解析设备不是所述已知设备,则生成所述原始日志文件的日志解析文件。
通过采用上述技术方案,当待解析设备是已知设备时,直接调用已有的解析信息对待解析设备的原始日志文件进行解析;当待解析设备不是已知设备时,根据原始日志文件生成日志解析文件。部分原始日志文件能够直接调用已有的解析信息对原始日志文件进行解析,减少了编写日志解析文件的时间,提高了原始日志文件的解析效率
可选的,生成所述原始日志文件的日志解析文件包括以下步骤:
根据所述原始日志文件在所述关系表的所有解析信息中检索正则表达式;
若能够检索到与所述原始日志文件关联的正则表达式,则基于所述正则表达式获取对应的日志源类型,根据所述日志源类型得到关联的日志解析文件;
若不能检索到与所述原始日志文件关联的正则表达式,则确定所述原始日志文件的日志类型,根据所述日志类型生成对应的日志解析文件。
通过采用上述技术方案,若待解析设备不是已知设备,则根据原始日志文件在关系表中检索正则表达式,若能够检索到与原始日志文件匹配的正则表达式,则获取正则表达式对应的日志源类型,并根据日志源类型获取对应的日志解析文件;若不能检索到与原始日志文件关联的正则表达式,则根据原始日志文件的日志类型生成对应的日志解析文件。在确定待解析设备不是已知设备时,能够通过正则表达式来快速获得对应的日志解析文件,在不同设备的原始日志文件类型相同时,可以使用同一套日志解析文件,减少了解析时间。
可选的,确定所述原始日志文件的日志类型,根据所述日志类型生成对应的日志解析文件包括以下步骤:
判断所述日志类型是否为syslog日志;
若是syslog日志,则调用预设的syslog解析文件作为日志解析文件;
若不是syslog日志,则调用预设的通用解析文件作为日志解析文件;
所述syslog解析文件及通用解析文件能够对所述原始日志文件进行初步解析。
通过采用上述技术方案,若原始日志文件是syslog日志,则调用预设的syslog解析文件作为日志解析文件对原始日志文件进行初步解析,若原始日志文件不是syslog日志,则调用预设的通用解析文件作为日志解析文件对原始日志文件进行初步解析,提高了原始日志文件的解析效率。
第二方面,本申请提供一种日志处理系统,采用如下的技术方案:
一种日志处理系统,包括:
数据库模块,所述数据库模块内关联存储有已知设备及所述已知设备的设备信息、日志源类型及与日志源类型对应的正则表达式,所述日志源类型关联有日志解析文件;
采集模块,所述采集模块用于获取待解析设备的原始日志文件;
检索模块,所述检索模块用于基于所述原始日志文件检索所述数据库模块,判断所述待解析设备是否为所述已知设备;
获取模块,所述获取模块用于获取所述原始日志文件的日志解析文件;
解析模块,所述解析模块用于基于所述日志解析文件对所述原始日志文件进行解析;
及查询模块,所述查询模块用于基于所述日志解析文件生成日志查询文件。
通过采用上述技术方案,采集模块采集原始日志文件及原始日志文件的设备信息,检索模块根据原始日志文件及原始日志文件的设备信息在数据库中检索,查询对应的日志源类型,获取模块根据检索模块的检索结果获取相应的日志解析文件,解析模块根据日志解析文件对原始日志文件进行解析,查询模块根据日志解析文件生成日志查询文件,方便用户查看。通过本系统的设置,部分原始日志文件能够直接调用已有的日志解析文件进行解析,减少了编写日志解析文件的时间,提高了原始日志文件的解析效率,从而提高了原始日志文件的处理效率。
可选的,所述采集模块包括:
第一采集单元,所述第一采集单元用于采集原始日志文件;
及第二采集单元,所述第二采集单元用于采集所述原始日志文件的设备信息。
通过采用上述技术方案,第二采集单元采集原始日志文件的设备信息,方便确定待解析设备的设备类型。
可选的,所述检索模块包括:
第一检索单元,所述第一检索单元用于根据所述设备信息检索所述数据库模块,并判断所述待解析设备是否为所述已知设备,输出判断结果;
及第二检索单元,所述第二检索单元用于根据所述原始日志文件在所述数据库模块中检索是否存在与所述原始日志文件匹配的正则表达式。
通过采用上述技术方案,第一检索单元根据设备信息检索数据库模块,判断待解析设备是否为已知设备;第二检索单元检索数据库模块中的正则表达式,若能检索到与原始日志文件对应的正则表达式,则直接获取与正则表达式对应的日志源类型,根据日志源类型获得关联的日志解析文件,减少了编写日志解析文件的时间。
可选的,所述系统还包括:
识别模块,所述判断模块用于确定所述原始日志文件的类型是否为syslog日志。
可选的,所述数据库模块还包括有syslog日志源,所述syslog日志源能够对日志类型为syslog日志的原始日志文件进行解析。
通过采用上述技术方案,若原始日志文件为syslog日志,则直接调用syslog日志源对原始日志文件进行处理,减少编写日志解析文件的时间,提高了解析效率。
附图说明
图1是本申请实施例一种日志处理方法的整体流程框架图。
图2是本申请实施例一种日志处理方法中步骤S200的流程框架图。
图3是本申请实施例一种日志处理方法中步骤S300的流程框架图。
图4是本申请实施例一种日志处理方法中步骤S330的流程框架图。
图5是本申请实施例一种日志处理方法中步骤S333的流程框架图。
图6是本申请实施例一种日志处理系统的整体框架示意图。
附图标记说明:
1、数据库模块;2、采集模块;21、第一采集单元;22、第二采集单元;3、检索模块;31、第一检索单元;32、第二检索单元;4、识别模块;5、获取模块;6、解析模块;7、查询模块。
具体实施方式
以下结合附图1-图6对本申请作进一步详细说明。
本申请实施例公开一种日志处理方法,参照图1,包括以下步骤:
S100、建立关系表,所述关系表内关联存储有已知设备及与所述已知设备对应的解析信息,所述已知设备的日志已成功解析,所述已知设备的数量至少为一个;
S200、获取待解析设备的原始日志文件,根据所述原始日志文件和所述关系表分析所述待解析设备,得到分析结果;
S300、基于所述分析结果确定所述原始日志文件的日志解析文件;
S400、基于所述日志解析文件对所述原始日志文件进行解析。
其中,步骤S100中,建立关系表,在表中存储进已经成功解析过日志的已知设备,以及与已知设备的解析信息,已知设备与解析信息一一对应,若确定待解析设备为已知设备,则根据已知设备对应的解析信息对待解析设备的原始日志文件进行解析。在本实施例中,解析信息包括有已知设备的设备信息、日志源类型及日志源类型对应的正则表达式。
具体地,设备信息可以为设备名称和设备编号等,日志源类型对应有有用于处理该设备日志的解析文件,正则表达式能够与已知设备的日志进行匹配。因此,若待解析设备的设备信息与已知设备的设备信息能够进行匹配,则可以直接使用已知设备的日志源类型;或者原始日志文件与关系表中的正则表达式能够进行匹配,则同样可以使用对应的日志源类型。
其中,参照图2,步骤S200包括以下步骤:
S210、判断能否从所述原始日志文件中提取出设备信息,所述设备信息为所述待解析设备的唯一标识;
S220、若能提取出所述设备信息,则判断所述关系表中是否存在与所述设备信息对应的已知设备;
S230、若所述关系表中存在与所述设备信息对应的已知设备,则确定所述待解析设备是所述已知设备;
S240、若所述关系表中不存在与所述设备信息对应的已知设备,则确定所述待解析设备不是所述已知设备;
S250、若不能提取出所述设备信息,则确定所述待解析设备不是所述已知设备。
具体地,原始日志文件中的设备信息可以是设备名称和设备编号等。
若能从原始日志文件中提取出设备信息,例如,从原始日志文件中提取出设备名称为“AAAA”,则在关系表中检索关键词“AAAA”。若能在关系表中检索到“AAAA”设备名称,则确定待解析设备为已知设备;若在关系表中没有检索到“AAAA”设备名称,则确定待解析设备不是已知设备。
若不能从原始日志文件中提取出设备信息,在本实施例中,则确定待解析设备不是已知设备。
具体地,参照图3,步骤S300包括有以下步骤:
S310、确定所述待解析设备是否为所述已知设备;
S320、若确定所述待解析设备为所述已知设备,则从所述关系表中提取所述已知设备对应的解析信息,基于所述解析信息获取所述日志源类型,基于所述日志源类型获取所述原始日志文件的日志解析文件;
S330、若确定所述待解析设备不是所述已知设备,则生成所述原始日志文件的日志解析文件。
具体的,解析信息包括与已知设备日志关联的正则表达式及日志源类型,日志源类型关联有日志解析文件。
具体地,步骤S310中,通过判断待解析设备是否为已知设备,从而选择对应的日志解析文件。
具体地,步骤S320中,若确定待解析设备是已知设备,则直接从关系表中提取出该已知设备的解析信息,从解析信息中提取出日志源类型,从而提取出日志源类型对应的日志解析文件,基于日志解析文件能够对待解析设备的原始日志文件进行解析。
具体地,步骤S330中,若确定待解析设备不是已知设备,则生成对应的日志解析文件,日志解析文件能够对待解析设备的原始日志文件进行解析。
其中,参照图4,步骤S330中,生成所述原始日志文件的日志解析文件包括以下步骤包括有以下步骤:
S331、根据所述原始日志文件在所述关系表的所有解析信息中检索正则表达式;
S332、若能够检索到与所述原始日志文件关联的正则表达式,则基于所述正则表达式获取对应的日志源类型,根据所述日志源类型得到关联的日志解析文件;
S333、若不能检索到与所述原始日志文件关联的正则表达式,则确定所述原始日志文件的日志类型,根据所述日志类型生成对应的日志解析文件。
具体地,正则表达式,是指一个用来描述或者匹配一系列复合某个句法规则的字符串的单个字符串,简单来说,利用正则表达式对日志进行解析就是一种对文本进行模式匹配和内容提取的手段。正则表达式定义了一个模式,只有复合该模式的日志才能被正则表达式匹配,其中,将这个正则表达式所匹配的内容提取出来,就能实现对日志中特定内容的提取。
在实际解析过程中,对日志应用了合适的正则表达式后,就应当能得到日志的初始解析结果。因此,通过检索关系表中的正则表达式,能够确定是否存在与待解析设备的原始日志文件匹配的正则表达式。在本实施例中,将关系表中的正则表达式与原始日志文件进行匹配,若能检索到与原始日志文件匹配的正则表达式(即该正则表达式能够对原始日志文件进行初始解析),则提取该正则表达式对应的日志源类型,继而从日志源类型中提取出日志解析文件。
具体地,参照图5,步骤S333包括以下步骤:
S333a、判断所述日志类型是否为syslog日志;
S333b、若是syslog日志,则调用预设的syslog解析文件作为日志解析文件;
S333c、若不是syslog日志,则调用预设的通用解析文件作为日志解析文件;
更具体地,在本实施例中,将原始日志文件划分为syslog日志和非syslog日志。根据原始日志文件是否具有公共首部来判断是否为syslog日志,若能够从原始日志文件中提取出公共首部信息,则对公共首部信息进行识别,判断是否为syslog类型,若是,则确定原始日志文件为syslog日志;若否,则确定原始日志文件为非syslog日志。
其中,预设syslog日志源,syslog日志源关联有syslog解析文件。若原始日志文件为syslog日志,则直接根据syslog日志源得到syslog解析文件,将syslog解析文件作为为日志解析文件对原始日志文件进行解析。syslog解析文件能够从原始日志文件中初步解析出待解析设备的级别、日期、详情、IP、端口、用户等信息。
更具体地,在本实施例中,通过设备信息和正则表达式的匹配,以及对原始日志文件日志类型的判断,确定在关系表中检索不到与原始日志文件对应的日志源类型,并且确定原始日志文件是非syslog日志,则调用预设的通用解析文件作为日志解析文件对原始日志文件进行解析。一般来说,通用解析文件能够解析出原始日志文件的日期、IP、端口、用户等信息。
值得一提的是,在实际解析过程中,不同原始日志文件的格式可能是不同的,无论是使用syslog解析文件或者通用解析文件,都只能对大部分原始日志文件进行初步解析。例如,通用解析文件的适用情况是,包含源IP、目的地IP、源端口、目的端口等的文件,这类原始日志文件的IP和端口的格式一般是(\d+.\d+\d+.\d+):(\d+),如果满足这样的正则表达式,就可以提取出IP和端口,而源IP一般会是srcIP、src_address这样的标志,也有可能是中文源地址等,因此只能利用通用解析文件尽可能匹配更多的信息。但是原始日志文件格式是变化的,不一定能准确提取出需要的信息。
若使用syslog解析文件及通用解析文件不能满足原始日志文件的解析需求,则针对具体的设备新建该设备的日志解析文件。获取原始日志文件及原始日志文件的日志说明后,根据需求编写正则表达式和日志解析文件,并获取设备信息,将正则表达式、日志解析文件及关联的设备信息存储进关系表,再次获取同设备的原始日志文件时,即可通过设备信息或者正则表达式直接获取日志解析文件,使用该日志解析文件即可对该设备的原始日志文件进行解析,减少处理时间。
其中,步骤S400中,根据日志解析文件对原始日志文件进行解析,将原始日志文件中的各项数据按照一定的逻辑组合进行整理,方便查看和提取。例如,使用<expression>、<tokens>、<evaluation>、<tokenmap>、<maps>等标签对原始日志文件中的数据进行处理,如提取、分类等,能够清晰的展现出原始日志文件中的各项数据,如将原始日志文件中的开始时间、登录时间、事件类型等数据。对原始日志文件进行解析的情况分类如下:
若待解析设备是已知设备,则新建日志源,使用该已知设备的设备信息作为日志源名称,此处的设备信息可以为设备名称或者设备编号,通过该日志源收集原始日志文件。日志源接收原始日志文件,并调用日志源类型对应的日志解析文件对原始日志文件进行解析;
若待解析设备不是已知设备,但是能从已有的正则表达式中检索到匹配的正则表达式,则新建日志源,将原始日志文件与该正则表达式对应已知设备的日志进行比对,根据比对结果,可以选择使用该已知设备的设备名称作为新建日志源名称或者自定义名称。新建日志源之后,接收原始日志文件,调用日志源类型对应的日志解析文件对原始日志文件进行解析。
若待解析设备不是已知设备,也不能在关系表中检索到匹配的正则表达式,且原始日志文件的日志类型为syslog日志,则新建syslog日志源,为了方便表示,日志源名称可以为“syslog日志”,也可以为其他自定义名称。日志源接收原始日志文件,并调用syslog解析文件对原始日志文件进行解析。
若待解析设备不是已知设备,也不能在关系表中检索到匹配的正则表达式,且原始日志文件的日志类型不是syslog日志,则新建日志源,日志源名称可以是原始日志文件中提取到的设备信息,该设备信息可以是设备名称,日志源名称也可以是“通用模板日志”等自定义名称。日志源接收原始日志文件,并调用通用解析文件对是原始日志文件进行解析。
其中,参照图1,为了方便展示原始日志文件解析后的数据,在步骤S400之后还包括以下步骤:
S500、基于所述日志解析文件生成日志查询文件。
具体地,得到日志解析文件之后,根据日志解析文件生成日志查询文件,能够将原始日志文件中的各项数据直观地进行展示,方便工作人员进行查看。
更具体地,通过加载日志解析文件,提取出日志解析文件中的标签结构,根据实际需要设置分组信息,分组信息可以为分组名称,例如,加密日志、运行日志、登录日志、操作日志等,选择不同分组对应的标签结构,例如,加密日志需要包括开始时间数据、级别数据、设备ID等,使用日志解析文件中的标签对每个分组进行配置,得到日志查询文件。日志查询文件生成后,用户点击相应的分组,即可展示对应分组中的各项标签信息,或者用户在查询界面查询相应的分组,能够查询到对应分组的各项标签信息。
在本实施例中,为了方便操作,将日志解析文件及日志查询文件置于同一日志源类型中,当调用已知设备的日志源类型时,能够直接获得日志解析文件及日志查询文件。同理,根据syslog解析文件生成syslog查询文件,将syslog查询文件与syslog解析文件同置于syslog日志源中;根据通用解析文件生成通用查询文件,将通用查询文件及通用解析文件同置于通用日志源中。
本申请实施例一种日志处理方法的实施原理为:建立关系表,关系表中关联存储有已知设备的日志源类型和正则表达式,若待解析设备是已知设备,则直接根据关系表获得待解析设备原始日志文件的日志源类型,通过日志源类型对原始日志文件进行处理;若不是已知设备,则检索关系表中的正则表达式,若能检索到与原始日志文件匹配的正则表达式,则同样根据关系表获得待解析设备原始日志文件的日志源类型,通过日志源类型对原始日志文件进行处理;若不是已知设备,且检索不到匹配的正则表达式,则判断原始日志文件类型是否为syslog日志,若是syslog日志,则基于预设的syslog日志源对原始日志文件进行处理;若不是syslog日志,则基于通用日志源对原始日志文件进行处理。通过上述方法,部分原始日志文件能够直接调用已知设备的日志源类型对原始日志文件进行处理,减少了编写日志解析文件的时间,提高了原始日志文件的解析效率,从而提高了原始日志文件的处理效率。
本申请实施例公开一种日志处理系统,参照图6,包括:
数据库模块1,所述数据库模块1内关联存储有已知设备及所述已知设备的设备信息、日志源类型及与日志源类型对应的正则表达式,所述日志源类型关联有日志解析文件;
采集模块2,所述采集模块2用于获取待解析设备的原始日志文件;
检索模块3,所述检索模块3用于基于所述原始日志文件检索所述数据库模块1,判断所述待解析设备是否为所述已知设备;
获取模块5,所述获取模块5用于获取所述原始日志文件的日志解析文件;
解析模块6,所述解析模块6用于基于所述日志解析文件对所述原始日志文件进行解析;
及查询模块7,所述查询模块7用于基于所述日志解析文件生成日志查询文件。
其中,采集模块2包括有第一采集单元21和第二采集单元22,第一采集单元21用于采集待解析设备的原始日志文件,第二采集单元22用于采集原始日志文件中的设备信息,设备信息为待解析设备的唯一标识。在本实施例中,设备信息可以是待解析设备的设备名称或者设备编号等。
具体地,若第二采集单元22能够采集到原始日志文件的设备信息,则将设备信息传输至检索模块3;若第二采集单元22不能处采集到原始日志文件的设备信息,则将“不能采集到设备信息”的信号传输至检索模块3。
其中,检索模块3包括有第一检索单元31和第二检索单元32,第一检索单元31接收第二采集单元22采集的设备信息,根据设备信息在数据库模块1中进行检索,若能检索到关系表中已知设备的设备信息与待解析设备的设备信息相同,则确定待解析设备为已知设备,并向获取模块5发送已知设备的日志源类型;若不能检索到与待解析设备的设备信息相同的已知设备,确定待解析设备不是已知设备,并将“待解析设备不是已知设备”的信号发送至第二检索单元32。
第二检索单元32接收第二采集单元22发送的“不能采集到设备信息”的信号及第一检索单元31发出的“待解析设备不是已知设备”的信号,根据上述信号检索数据库模块1中的正则表达式,并将数据库模块1中的正则表达式与原始日志文件进行匹配。若能够匹配到与原始日志文件对应的正则表达式,则将该正则表达式对应的日志源类型发送至获取模块5;若不能匹配到与原始日志文件对应的正则表达式,则生成“不能匹配正则表达式”的信号。
其中,日志处理系统还包括有识别模块4,识别模块4用于接收第二检索单元32发出的“不能匹配正则表达式”的信号,识别模块4接收到上述信号之后对第一采集单元21采集的原始日志文件的日志类型进行识别,将原始日志文件的类型确定为syslog日志或者非syslog日志。判断方法为:根据原始日志文件是否具有公共首部来判断是否为syslog日志,若能够从原始日志文件中提取出公共首部信息,则对公共首部信息进行识别,判断是否为syslog类型,若是,则确定原始日志文件为syslog日志;若否,则确定原始日志文件为非syslog日志。
具体地,在数据库模块1中还包括有syslog日志源及通用日志源,syslog日志源对应有syslog解析文件和syslog查询文件,通用日志源对应有通用解析文件及通用查询文件。若识别模块4识别出原始日志文件为syslog日志,则调用数据库模块1中的syslog日志源发送至获取模块5;若识别模块4识别出原始日志文件为非syslog日志,则将数据库模块1中的通用日志源发送至获取模块5。
其中,获取模块5用于接收检索模块3发送的日志源类型、识别模块4发送的syslog日志源以及通用日志源,
获取模块5根据日志源类型新建日志源,接收原始日志文件,并获取日志源类型对应的日志解析文件。
获取模块5根据syslog日志源获取对应的syslog解析文件,作为原始日志文件的日志解析文件。
获取模块5根据通用日志源获取对应的通用解析文件,作为原始日志文件的日志解析文件。
若使用syslog解析文件及通用解析文件不能满足原始日志文件的解析需求,则针对待解析设备及原始日志文件新建该设备的日志解析文件。获取原始日志文件及原始日志文件的日志说明后,根据需求编写正则表达式和日志解析文件,并获取设备信息,将正则表达式、日志解析文件及关联的设备信息存储进关系表。
其中, 解析模块6基于获取模块5获得的日志解析文件对原始日志文件进行解析,将原始日志文件中的各项数据按照一定的逻辑组合进行整理,得到日志解析文件。例如,使用<expression>、<tokens>、<evaluation>、<tokenmap>、<maps>等标签对原始日志文件中的数据进行处理,如提取、分类等。能够清晰的展现出原始日志文件中的各项数据,如,开始时间、登录时间、事件类型等数据。
其中,查询模块7接收解析模块6处理后的日志解析文件,通过加载日志解析文件,提取出日志解析文件中的标签结构,根据实际需要设置分组信息,分组信息可以为分组名称,例如,加密日志、运行日志、登录日志、操作日志等,选择不同分组对应的标签结构,例如,加密日志需要包括开始时间数据、级别数据、设备ID等,使用日志解析文件中的标签对每个分组进行配置,得到日志查询文件。日志查询文件生成后,用户点击相应的分组,即可展示对应分组中的各项标签信息,或者用户在查询界面查询相应的分组,能够查询到对应分组的各项标签信息。
本申请实施例一种日志处理系统的实施原理为:采集模块2采集原始日志文件及原始日志文件的设备信息,根据设备信息检索数据库模块1,判断待解析设备是否为已知设备,若是已知设备,则在数据库模块1中获取已知设备的日志源类型,根据日志源类型对应的日志解析文件对原始日志文件进行解析;若不是已知设备,则在数据库模块1中检索正则表达式,若能检索到与原始日志文件匹配的正则表达式,则根据该正则表达式对应的日志源类型调用对应的日志解析文件,对原始日志文件进行解析;若不能检索到匹配的正则表达式,则判断原始日志文件是否为syslog日志,若原始日志文件是syslog日志,则基于预设的syslog日志源调用对应的syslog解析文件对原始日志文件进行解析;若是非syslog日志,则调用通用日志源对应的通用解析文件对原始日志文件进行解析。通过本系统的设置,部分原始日志文件能够直接调用已有的日志解析文件进行解析,减少了编写日志解析文件的时间,提高了原始日志文件的解析效率,从而提高了原始日志文件的处理效率。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种日志处理方法,其特征在于,包括以下步骤:
建立关系表,所述关系表内关联存储有已知设备及与所述已知设备对应的解析信息,所述已知设备的日志已成功解析,所述已知设备的数量至少为一个;
获取待解析设备的原始日志文件,根据所述原始日志文件和所述关系表分析所述待解析设备,得到分析结果;
基于所述分析结果确定所述原始日志文件的日志解析文件;
基于所述日志解析文件对所述原始日志文件进行解析。
2.根据权利要求1所述的一种日志处理方法,其特征在于,获取待解析设备的原始日志文件,根据所述原始日志文件和所述关系表分析所述待解析设备,得到分析结果包括以下步骤:
判断能否从所述原始日志文件中提取出设备信息,所述设备信息为所述待解析设备的唯一标识;
若能提取出所述设备信息,则判断所述关系表中是否存在与所述设备信息对应的已知设备;
若所述关系表中存在与所述设备信息对应的已知设备,则确定所述待解析设备是所述已知设备;
若所述关系表中不存在与所述设备信息对应的已知设备,则确定所述待解析设备不是所述已知设备;
若不能提取出所述设备信息,则确定所述待解析设备不是所述已知设备。
3.根据权利要求2所述的一种日志处理方法,其特征在于,所述解析信息包括与所述已知设备日志关联的正则表达式及日志源类型,所述日志源类型关联有日志解析文件,
基于所述分析结果确定所述原始日志文件的日志解析文件包括以下步骤:
确定所述待解析设备是否为所述已知设备;
若确定所述待解析设备为所述已知设备,则从所述关系表中提取所述已知设备对应的解析信息,基于所述解析信息获取所述日志源类型,基于所述日志源类型获取所述原始日志文件的日志解析文件;
若确定所述待解析设备不是所述已知设备,则生成所述原始日志文件的日志解析文件。
4.根据权利要求3所述的一种日志处理方法,其特征在于,生成所述原始日志文件的日志解析文件包括以下步骤:
根据所述原始日志文件在所述关系表的所有解析信息中检索正则表达式;
若能够检索到与所述原始日志文件关联的正则表达式,则基于所述正则表达式获取对应的日志源类型,根据所述日志源类型得到关联的日志解析文件;
若不能检索到与所述原始日志文件关联的正则表达式,则确定所述原始日志文件的日志类型,根据所述日志类型生成对应的日志解析文件。
5.根据权利要求4所述的一种日志处理方法,其特征在于,确定所述原始日志文件的日志类型,根据所述日志类型生成对应的日志解析文件包括以下步骤:
判断所述日志类型是否为syslog日志;
若是syslog日志,则调用预设的syslog解析文件作为日志解析文件;
若不是syslog日志,则调用预设的通用解析文件作为日志解析文件;
所述syslog解析文件及通用解析文件能够对所述原始日志文件进行初步解析。
6.一种日志处理系统,其特征在于,包括:
数据库模块(1),所述数据库模块(1)内关联存储有已知设备及所述已知设备的设备信息、日志源类型及与日志源类型对应的正则表达式,所述日志源类型关联有日志解析文件;
采集模块(2),所述采集模块(2)用于获取待解析设备的原始日志文件;
检索模块(3),所述检索模块(3)用于基于所述原始日志文件检索所述数据库模块(1),判断所述待解析设备是否为所述已知设备;
获取模块(5),所述获取模块(5)用于获取所述原始日志文件的日志解析文件;
解析模块(6),所述解析模块(6)用于基于所述日志解析文件对所述原始日志文件进行解析;
及查询模块(7),所述查询模块(7)用于基于所述日志解析文件生成日志查询文件。
7.根据权利要求6所述的一种日志处理系统,其特征在于,所述采集模块(2)包括:
第一采集单元(21),所述第一采集单元(21)用于采集原始日志文件;
及第二采集单元(22),所述第二采集单元(22)用于采集所述原始日志文件的设备信息。
8.根据权利要求7所述的一种日志处理系统,其特征在于,所述检索模块(3)包括:
第一检索单元(31),所述第一检索单元(31)用于根据所述设备信息检索所述数据库模块(1),并判断所述待解析设备是否为所述已知设备,输出判断结果;
及第二检索单元(32),所述第二检索单元(32)用于根据所述原始日志文件在所述数据库模块(1)中检索是否存在与所述原始日志文件匹配的正则表达式。
9.根据权利要求8所述的一种日志处理系统,其特征在于,所述系统还包括:
识别模块(4),所述判断模块用于确定所述原始日志文件的类型是否为syslog日志。
10.根据权利要求9所述的一种日志处理系统,其特征在于,所述数据库模块(1)还包括有:
syslog日志源,所述syslog日志源能够对日志类型为syslog日志的原始日志文件进行初步解析;
及通用日志源,所述通用日志源能够对日志类型为非syslog日志的原始日志文件进行初步解析。
CN202111023988.XA 2021-09-02 2021-09-02 一种日志处理方法及系统 Active CN113806321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111023988.XA CN113806321B (zh) 2021-09-02 2021-09-02 一种日志处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111023988.XA CN113806321B (zh) 2021-09-02 2021-09-02 一种日志处理方法及系统

Publications (2)

Publication Number Publication Date
CN113806321A true CN113806321A (zh) 2021-12-17
CN113806321B CN113806321B (zh) 2023-11-10

Family

ID=78942230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111023988.XA Active CN113806321B (zh) 2021-09-02 2021-09-02 一种日志处理方法及系统

Country Status (1)

Country Link
CN (1) CN113806321B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595310A (zh) * 2017-12-28 2018-09-28 北京兰云科技有限公司 一种日志处理方法及装置
CN109308289A (zh) * 2018-09-27 2019-02-05 厦门服云信息科技有限公司 一种日志解析模板及基于该模板的日志解析方法
CN110134401A (zh) * 2019-04-12 2019-08-16 深圳壹账通智能科技有限公司 代码片段定位方法、装置、计算机设备和存储介质
CN110147411A (zh) * 2019-05-20 2019-08-20 平安科技(深圳)有限公司 数据同步方法、装置、计算机设备及存储介质
CN112350989A (zh) * 2020-09-21 2021-02-09 西安交大捷普网络科技有限公司 一种日志数据的解析方法
CN112463772A (zh) * 2021-02-02 2021-03-09 北京信安世纪科技股份有限公司 日志处理方法、装置、日志服务器及存储介质
CN112882713A (zh) * 2019-11-29 2021-06-01 北京数安鑫云信息技术有限公司 一种日志解析的方法、装置、介质及计算机设备
CN112988670A (zh) * 2021-05-11 2021-06-18 长扬科技(北京)有限公司 一种日志数据的处理方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595310A (zh) * 2017-12-28 2018-09-28 北京兰云科技有限公司 一种日志处理方法及装置
CN109308289A (zh) * 2018-09-27 2019-02-05 厦门服云信息科技有限公司 一种日志解析模板及基于该模板的日志解析方法
CN110134401A (zh) * 2019-04-12 2019-08-16 深圳壹账通智能科技有限公司 代码片段定位方法、装置、计算机设备和存储介质
CN110147411A (zh) * 2019-05-20 2019-08-20 平安科技(深圳)有限公司 数据同步方法、装置、计算机设备及存储介质
CN112882713A (zh) * 2019-11-29 2021-06-01 北京数安鑫云信息技术有限公司 一种日志解析的方法、装置、介质及计算机设备
CN112350989A (zh) * 2020-09-21 2021-02-09 西安交大捷普网络科技有限公司 一种日志数据的解析方法
CN112463772A (zh) * 2021-02-02 2021-03-09 北京信安世纪科技股份有限公司 日志处理方法、装置、日志服务器及存储介质
CN112988670A (zh) * 2021-05-11 2021-06-18 长扬科技(北京)有限公司 一种日志数据的处理方法和装置

Also Published As

Publication number Publication date
CN113806321B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
US7707139B2 (en) Method and apparatus for searching and displaying structured document
CA2365705C (en) A system for collecting specific information from several sources of unstructured digitized data
CN102402604B (zh) 搜索引擎的有效前向排序
KR20010072353A (ko) 정규식을 사용한 트랜잭션 인지 및 예측
CN111639156B (zh) 一种基于层级标签的查询方法、装置,设备及存储介质
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN110188207B (zh) 知识图谱构建方法及装置、可读存储介质、电子设备
CN110008701B (zh) 基于elf文件特征的静态检测规则提取方法及检测方法
CN111222031A (zh) 一种网站判别方法及系统
CN113157978B (zh) 数据的标签建立方法和装置
CN107679055B (zh) 信息检索方法、服务器及可读存储介质
CN112363904A (zh) log数据分析定位方法、装置及计算机可读存储介质
CN112667672A (zh) 日志解析方法及解析装置
CN111325562A (zh) 粮食安全追溯系统及方法
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
CN113806321B (zh) 一种日志处理方法及系统
CN113806647A (zh) 识别开发框架的方法及相关设备
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN108038124B (zh) 一种基于大数据的pdf文档采集处理方法、系统及装置
US20050154703A1 (en) Information partitioning apparatus, information partitioning method and information partitioning program
CN108572997B (zh) 一种具有网络属性的多源数据的整合存储系统及方法
CN111858658A (zh) 数据采集方法、装置、设备及存储介质
CN111177595A (zh) 一种针对http协议模板化提取资产信息的方法
CN115168399B (zh) 基于图形化界面的数据处理方法、装置、设备及存储介质
CN116541382B (zh) 基于数据安全识别级别的数据治理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant