CN104573024B - 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 - Google Patents

一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 Download PDF

Info

Publication number
CN104573024B
CN104573024B CN201510015079.XA CN201510015079A CN104573024B CN 104573024 B CN104573024 B CN 104573024B CN 201510015079 A CN201510015079 A CN 201510015079A CN 104573024 B CN104573024 B CN 104573024B
Authority
CN
China
Prior art keywords
litd
trees
daily record
syslog
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510015079.XA
Other languages
English (en)
Other versions
CN104573024A (zh
Inventor
白涛
赵炜
刘成龙
谷磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510015079.XA priority Critical patent/CN104573024B/zh
Publication of CN104573024A publication Critical patent/CN104573024A/zh
Application granted granted Critical
Publication of CN104573024B publication Critical patent/CN104573024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方法和系统,包括:A、持续采集异构安全日志数据,构建日志信息提取决策树LIDT,并随着新的日志结构的加入不断更新。B、对构建的LITD树的信息在计算机内存中进行缓存,该缓存根据LITD树的更新实时更新。C、对新采集的异构安全日志数据,根据LITD树提取异构安全日志信息。D、将形成的规范格式的异构安全日志数据存储进入数据库系统。通过本发明的方案,能够降低成本,提高对复杂网络环境SYSLOG信息提取的适应性。

Description

一种复杂网络体系下异构安全日志信息的自适应提取方法及 系统
技术领域
本发明涉及信息安全领域,具体涉及一种复杂网络体系下异构安全日志信息的自适应提取方法及系统。
背景技术
电力系统是国民经济和人民生活的重要基础设施,其网络和应用系统的安全是电力系统安全运行及对社会可靠供电的保证,直接关系到我国各行各业的发展、社会的安定和人民的生活水平。电力系统安全防护的主要目标是防止关键业务信息系统数据或信息被窃取或篡改,防止网络被恶意渗透或监听,确保不发生因信息安全引发的电网事故和大面积停电事故,实现信息安全风险可控、能控、在控。国家非常重视电力系统的信息安全,建立了电力系统信息安全纵深防御体系,部署了大量不同类型的安全设备,各种设备的日志记录了设备运行状态,各类用户执行的操作等等详细信息。在目前的网络环境中,各种设备的日志已经成为海量数据,SYSLOG作为主要的日志类型,被各种操作系统,网络设备和安全设备广泛支持,成为日志的重要标准,对于其他类型的日志,也可以转换为SYSLOG日志格式,便于统一分析。
由于不同类型安全设备报送的SYSLOG日志格式千差万别,因此,需要对日志进行格式归一化,才能够对日志进行规则处理分析和有效的统计分析。目前业界常用的安全日志信息提取和分析方式是基于解析模板技术,每一个新的日志类型都需要人工编写解析模板,这种方式下项目实施成本高,且人工编写出错概率高,对复杂网络环境SYSLOG信息提取的适应性差。
发明内容
为了解决上述问题,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取与分析方法及系统,能够降低成本,提高对复杂网络环境 SYSLOG信息提取的适应性。
为了达到上述目的,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方法,该方法包括以下步骤:
A、持续采集异构安全日志数据,采用分词工具对。日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对。日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为。异构安全日志信息的提取规则;LITD树的信息随着新的日志结构的加入不断更新。
B、对构建的。LITD树的信息在计算机内存中进行缓存,该缓存根据LITD 树的更新实时更新。
C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取异构安全日志信息。
D、将形成的规范格式的异构安全日志数据存储进入数据库系统。
优选地,步骤A中具体包括以下步骤:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为LITD树的一级节点。
A2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,步骤C具体包括以下步骤:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与 LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的 LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD 树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2。
C2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的日志解析指纹,将日志解析指纹与LITD 树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD 树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG 日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
优选地,计算日志解析指纹包括以下步骤:
对文本字符串形式的原始日志信息进行分词。
在分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是分词字段的总个数。
并获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n 是分词字段的总个数。
根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn
优选地,经过LITD树进行信息提取后的异构安全日志数据的规范格式包括:事件名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;LITD树在计算机内存中的存储数据结构为以多层 HashMap嵌套的方式实现。
本发明还提出一种复杂网络体系下异构安全日志信息的自适应提取系统,该系统包括:学习模块、缓存模块、提取模块、入库模块。
学习模块:用于持续采集异构安全日志数据,采用分词工具对日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为异构安全日志信息的提取规则;并随着新的日志结构的加入对LITD树的信息不断更新。
缓存模块:用于对构建的LITD树的信息在计算机内存中进行缓存,并根据LITD树的更新实时更新;以文本形式存储于硬盘,存储信息周期性更新。
提取模块:用于对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,自适应提取异构安全日志信息。
入库模块:用于将形成的规范格式的异构安全日志数据存储进入数据库系统。
优选地,学习模块通过以下步骤完成所述LITD树的构建:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为所述LITD树的一级节点。
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,提取模块通过以下步骤完成异构安全日志信息的提取:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与 LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的 LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD 树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的报送设备IP,则进入步骤C2。
C2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的所述日志解析指纹,将日志解析指纹与 LITD树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的 LITD树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD 树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的 SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
优选地,学习模块通过以下步骤完成日志解析指纹的计算:
对文本字符串形式的原始日志信息进行分词。
在所述分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是分词字段的总个数。
并获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n 是分词字段的总个数。
根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn
优选地,缓存模块还用于:将LITD树为以多层HashMap嵌套的存储数据结构方式存储在计算机内存中。
与现有技术相比,本发明包括:A、持续采集异构安全日志数据,采用分词工具对日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为异构安全日志信息的提取规则;LITD树的信息随着新的日志结构的加入不断更新。B、对构建的LITD树的信息在计算机内存中进行缓存,该缓存根据LITD树的更新实时更新。C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取异构安全日志信息。D、将形成的规范格式的异构安全日志数据存储进入数据库系统。通过本发明的方案,能够降低成本,提高对复杂网络环境SYSLOG信息提取的适应性。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的复杂网络体系下异构安全日志信息的自适应提取方法流程图;
图2为本发明的复杂网络体系下异构安全日志信息的自适应提取系统框图;
图3为本发明的复杂网络体系下异构安全日志信息的自适应提取方法实现结构图;
图4为本发明的复杂网络体系下异构安全日志信息的自适应提取系统决策树结构图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
本发明提出一种复杂网络体系下异构安全日志信息的自适应提取与分析方法。本发明采用日志信息提取决策树机制作为日志信息解析模型,该模型是由持续的机器学习构建,采用分词技术和正则匹配技术构建该学习模型;在日志解析阶段,根据自动学习获取的日志信息解析模型对新的日志样本进行解析,并提供统一格式的日志记录,从而实现了复杂网络体系下异构安全日志的自适应提取与分析。
具体地,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方法,如图1、图4所示,该方法包括以下步骤:
A、持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为异构安全日志信息的提取规则;LITD树的信息随着新的日志结构的加入不断更新。
B、对构建的LITD树的信息在计算机内存中进行缓存,缓存根据LITD 树的更新实时更新。
C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取异构安全日志信息。
D、将形成的规范格式的异构安全日志数据存储进入数据库系统。
其中,用户可以对日志信息提取决策树中的内容属性定义进行人工设置,以保证从异构安全日志提出的信息可读性更强,并优化日志字段正则匹配字典,最终将经过格式化后的安全日志信息存储进入数据库系统,共同其它系统使用。
优选地,步骤A中具体包括以下步骤:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为LITD树的一级节点。
A2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,步骤C具体包括以下步骤:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与 LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD 树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的报送设备IP,则进入步骤C2。
C2、采用分词工具对述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的日志解析指纹,将日志解析指纹与LITD 树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD 树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG 日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
优选地,计算日志解析指纹包括以下步骤:
S1、对文本字符串形式的原始日志信息进行分词。
S2、在分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是分词字段的总个数。
S3、获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n; n是分词字段的总个数。
S4、根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn
本发明中分词算法为,采用以标志切分为手段的基于字符串的分词算法,具体工具是采用开源StandardAnalyzer分词算法。
优选地,经过LITD树进行信息提取后的异构安全日志数据的规范格式包括:事件名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;LITD树在计算机内存中的存储数据结构为以多层 HashMap嵌套的方式实现。
其中,经过信息提取后范化的安全日志格式为:
属性名 说明
Lid 序号
imergeCount 归并数目
ceventName 事件名称
ceventDigest 事件摘要
ceventType 事件分类
icollectType 采集类型
ieventLevel 等级
iprotocol 网络协议
iAppProtocol 网络应用协议
cSrcName 源名称
cSrcMac 源MAC地址
cSrcIp 源地址
cSrctIp 源转换IP地址
iSrcPort 源端口
iSrctPort 源转换端口
cDstName 目的名称
cDstMac 目的MAC
cDstIp 目的地址
cDsttIp 目的转换IP地址
iDstPort 目的端口
iDsttPort 目的转换端口
cUserName 用户名称
cProgram 程序名称
cOperation 操作
cObject 对象
iResult 结果
cDevName 设备名称
cDevIp 设备地址
cDevType 设备类型
lOccurTime 产生时间
lReceptTime 事件接收时刻
cCollectorIp 采集器IP地址
coriLevel 原始等级
lSend 发送流量
lReceive 接收流量
lDuration 持续时间
cOriType 原始类型
cRequestMsg 请求内容
LITD树在硬盘的存储的文本格式以XML技术存储,示例为:
本发明还提出一种复杂网络体系下异构安全日志信息的自适应提取系统 01,如图2所示,该系统包括:学习模块02、缓存模块03、提取模块04、入库模块05。
学习模块02:用于持续采集异构安全日志数据,采用分词工具对日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为异构安全日志信息的提取规则;并随着新的日志结构的加入对LITD树的信息不断更新。
优选地,学习模块02通过以下步骤完成LITD树的构建:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为所述LITD树的一级节点。
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,学习模块02通过以下步骤完成日志解析指纹的计算:
S1、对文本字符串形式的原始日志信息进行分词。
S2、在分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是所述分词字段的总个数。
S3、获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n; n是分词字段的总个数。
S4、根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn
缓存模块03:用于对构建的LITD树的信息在计算机内存中进行缓存,并根据LITD树的更新实时更新;以文本形式存储于硬盘,存储信息周期性更新。
优选地,缓存模块03还用于:将LITD树为以多层HashMap嵌套的存储数据结构方式存储在计算机内存中。
提取模块04:用于对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,自适应提取异构安全日志信息。
优选地,提取模块04通过以下步骤完成异构安全日志信息的提取:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的 LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD 树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2。
C2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的日志解析指纹,将日志解析指纹与LITD 树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD 树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG 日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
入库模块05:用于将形成的规范格式的异构安全日志数据存储进入数据库系统。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (8)

1.一种复杂网络体系下异构安全日志信息的自适应提取方法,其特征在于,所述方法包括以下步骤:
A、持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为所述异构安全日志信息的提取规则;所述LITD树的信息随着新的日志结构的加入不断更新;
B、对构建的所述LITD树的信息在计算机内存中进行缓存,所述缓存根据所述LITD树的更新实时更新;
C、对新采集的所述异构安全日志数据,根据所述LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取所述异构安全日志信息;
D、将形成的规范格式的异构安全日志数据存储进入数据库系统;
其中,所述日志信息提取决策树分为三个层级,第一层级是报送SYSLOG日志的设备IP;第二层级是一种日志类型的解析指纹;第三层级是所述第二层级日志对应的解析内容属性。
2.如权利要求1所述的方法,其特征在于,所述步骤A中具体包括以下步骤:
A1、通过系统日志SYSLOG协议获得所述异构安全日志数据,通过对所述异构安全日志数据的头部分解析获取所述SYSLOG日志的报送设备互联网协议IP,以所述报送设备IP作为所述LITD树的一级节点;
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引;
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将所述日志解析指纹作为所述LITD树的二级节点;
A4、将所述各分词字段的索引和内容属性作为所述LITD树的三级节点;
A5、返回步骤A1;
其中,所述计算日志解析指纹包括以下步骤:
对文本字符串形式的原始日志信息进行分词;
在所述分词后,获得所述各个分词字段的索引Si;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
并获得所述各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
根据所述各个分词字段的索引Si和所述内容正则解析规则Ri,依据下式计算所述日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn
3.如权利要求1或2所述的方法,其特征在于,所述步骤C具体包括以下步骤:
C1、采集系统日志SYSLOG日志,解析所述报送设备IP信息,将所述报送设备IP信息与所述LITD树的一级节点中的所述报送设备IP进行比较,定位所述SYSLOG日志对应的所述LITD树的二级节点,如果所采集的所述SYSLOG日志的报送设备IP信息与所述LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的一级节点中找到了与所采集的所述SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2;
C2、采用所述分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引;
C3、计算获得所述SYSLOG日志的所述日志解析指纹,将所述日志解析指纹与所述LITD树的二级节点中的日志解析指纹进行比较,定位所述SYSLOG日志对应的所述LITD树的三级节点,如果所采集的所述SYSLOG日志的日志解析指纹与所述LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的二级节点中找到了与所采集的所述SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4;
C4、通过将所述SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对所述SYSLOG日志的解析结果。
4.如权利要求1所述的方法,其特征在于,经过所述LITD树进行信息提取后的所述异构安全日志数据的规范格式包括:事件名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;所述LITD树在计算机内存中的存储数据结构为以多层HashMap嵌套的方式实现。
5.一种复杂网络体系下异构安全日志信息的自适应提取系统,其特征在于,所述系统包括:学习模块、缓存模块、提取模块、入库模块;
学习模块:用于持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LITD ,作为所述异构安全日志信息的提取规则;并随着新的日志结构的加入对所述LITD树的信息不断更新;
缓存模块:用于对构建的所述LITD树的信息在计算机内存中进行缓存,并根据所述LITD树的更新实时更新;以文本形式存储于硬盘,存储信息周期性更新;
提取模块:用于对新采集的所述异构安全日志数据,根据所述LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,自适应提取所述异构安全日志信息;
入库模块:用于将形成的规范格式的异构安全日志数据存储进入数据库系统;
其中,所述日志信息提取决策树分为三个层级,第一层级是报送SYSLOG日志的设备IP;第二层级是一种日志类型的解析指纹;第三层级是所述第二层级日志对应的解析内容属性。
6.如权利要求5所述的系统,其特征在于,所述学习模块通过以下步骤完成所述LITD树的构建:
A1、通过系统日志SYSLOG协议获得所述异构安全日志数据,通过对所述异构安全日志数据的头部分解析获取所述SYSLOG日志的报送设备互联网协议IP,以所述报送设备IP作为所述LITD树的一级节点;
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引;
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将所述日志解析指纹作为所述LITD树的二级节点;
A4、将所述各分词字段的索引和内容属性作为所述LITD树的三级节点;
A5、返回步骤A1;
其中,所述学习模块通过以下步骤完成日志解析指纹的计算:
对文本字符串形式的原始日志信息进行分词;
在所述分词后,获得所述各个分词字段的索引Si;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
并获得所述各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
根据所述各个分词字段的索引Si和所述内容正则解析规则Ri,依据下式计算所述日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn
7.如权利要求5或6所述的系统,其特征在于,所述提取模块通过以下步骤完成异构安全日志信息的提取:
C1、采集系统日志SYSLOG日志,解析所述报送设备IP信息,将所述报送设备IP信息与所述LITD树的一级节点中的所述报送设备IP进行比较,定位所述SYSLOG日志对应的所述LITD树的二级节点,如果所采集的所述SYSLOG日志的报送设备IP信息与所述LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的一级节点中找到了与所采集的所述SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2;
C2、采用所述分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引;
C3、计算获得所述SYSLOG日志的所述日志解析指纹,将所述日志解析指纹与所述LITD树的二级节点中的日志解析指纹进行比较,定位所述SYSLOG日志对应的所述LITD树的三级节点,如果所采集的所述SYSLOG日志的日志解析指纹与所述LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的二级节点中找到了与所采集的所述SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4;
C4、通过将所述SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对所述SYSLOG日志的解析结果。
8.如权利要求5所述的系统,其特征在于,所述缓存模块还用于:将所述LITD树为以多层HashMap嵌套的存储数据结构方式存储在计算机内存中。
CN201510015079.XA 2015-01-12 2015-01-12 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 Active CN104573024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510015079.XA CN104573024B (zh) 2015-01-12 2015-01-12 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510015079.XA CN104573024B (zh) 2015-01-12 2015-01-12 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统

Publications (2)

Publication Number Publication Date
CN104573024A CN104573024A (zh) 2015-04-29
CN104573024B true CN104573024B (zh) 2018-03-20

Family

ID=53089086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510015079.XA Active CN104573024B (zh) 2015-01-12 2015-01-12 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统

Country Status (1)

Country Link
CN (1) CN104573024B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550378A (zh) * 2016-02-04 2016-05-04 贵州电网有限责任公司信息中心 一种复杂网络体系下异构安全日志信息的提取与分析方法
CN106126383B (zh) * 2016-06-01 2019-03-19 新华三技术有限公司 一种日志处理方法和装置
CN106897198B (zh) * 2016-06-17 2020-06-02 阿里巴巴集团控股有限公司 一种日志数据的处理方法及装置
CN109347827B (zh) * 2018-10-22 2021-06-22 东软集团股份有限公司 网络攻击行为预测的方法、装置、设备及存储介质
CN110019987B (zh) * 2018-11-28 2023-05-09 创新先进技术有限公司 一种基于决策树的日志匹配方法和装置
CN109726185B (zh) * 2018-12-28 2020-12-25 杭州安恒信息技术股份有限公司 一种基于语法树的日志解析方法、系统和计算机可读介质
CN110096411A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联分析和时间窗的日志模板快速提取方法及系统
CN112100133A (zh) * 2020-11-04 2020-12-18 广州市玄武无线科技股份有限公司 一种分布式的日志处理系统
CN115544975B (zh) * 2022-12-05 2023-03-10 济南丽阳神州智能科技有限公司 一种日志格式转换方法及设备
CN116455678B (zh) * 2023-06-16 2023-09-05 中国电子科技集团公司第十五研究所 网络安全日志汇接方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286891B (zh) * 2008-05-30 2010-11-10 杭州华三通信技术有限公司 系统日志解析方法及装置
US8510270B2 (en) * 2010-07-27 2013-08-13 Oracle International Corporation MYSQL database heterogeneous log based replication
CN103823811A (zh) * 2012-11-19 2014-05-28 北京百度网讯科技有限公司 用于处理日志的方法及其系统
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法

Also Published As

Publication number Publication date
CN104573024A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104573024B (zh) 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统
CN105550378A (zh) 一种复杂网络体系下异构安全日志信息的提取与分析方法
CN104615724B (zh) 知识库的建立以及基于知识库的信息搜索方法和装置
CN103064933B (zh) 数据查询方法及系统
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN104899314B (zh) 一种数据仓库的血统分析方法和装置
CN112650848A (zh) 基于文本语义相关乘客评价的城铁舆情信息分析方法
CN105677622A (zh) 大数据分析报告自动生成系统
CN104346438A (zh) 基于大数据数据管理服务系统
CN112231333A (zh) 一种生态环境数据共享交换方法和系统
EP4155974A1 (en) Knowledge graph construction method and apparatus, check method and storage medium
CN105608232A (zh) 一种基于图形数据库的bug知识建模方法
CN104881427A (zh) 一种面向电网调控运行的数据血统分析方法
CN103871402A (zh) 语言模型训练系统、语音识别系统及相应方法
CN109815254A (zh) 基于大数据的跨地域任务调度方法及系统
CN110532358A (zh) 一种面向知识库问答的模板自动生成方法
CN115033905A (zh) 一种基于物联网的智慧档案管理系统平台
EP4191484A1 (en) Automatic machine learning data modelling in a low-latency data access and analysis system
CN106649557A (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN114661832A (zh) 一种基于数据质量的多模态异构数据存储方法及系统
CN112613611A (zh) 一种基于知识图谱的税务知识库系统
CN104731908A (zh) 一种基于etl的数据清洗方法
WO2017000592A1 (zh) 数据处理方法、装置及系统
KR20150023973A (ko) 소셜 네트워크 정보 수집 및 분석 시스템
CN117251414A (zh) 一种基于异构技术的数据存储及处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant