CN104573024A - 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 - Google Patents
一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 Download PDFInfo
- Publication number
- CN104573024A CN104573024A CN201510015079.XA CN201510015079A CN104573024A CN 104573024 A CN104573024 A CN 104573024A CN 201510015079 A CN201510015079 A CN 201510015079A CN 104573024 A CN104573024 A CN 104573024A
- Authority
- CN
- China
- Prior art keywords
- daily record
- litd
- participle
- syslog
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方法和系统,包括:A、持续采集异构安全日志数据,构建日志信息提取决策树LIDT,并随着新的日志结构的加入不断更新。B、对构建的LITD树的信息在计算机内存中进行缓存,该缓存根据LITD树的更新实时更新。C、对新采集的异构安全日志数据,根据LITD树提取异构安全日志信息。D、将形成的规范格式的异构安全日志数据存储进入数据库系统。通过本发明的方案,能够降低成本,提高对复杂网络环境SYSLOG信息提取的适应性。
Description
技术领域
本发明涉及信息安全领域,具体涉及一种复杂网络体系下异构安全日志信息的自适应提取方法及系统。
背景技术
电力系统是国民经济和人民生活的重要基础设施,其网络和应用系统的安全是电力系统安全运行及对社会可靠供电的保证,直接关系到我国各行各业的发展、社会的安定和人民的生活水平。电力系统安全防护的主要目标是防止关键业务信息系统数据或信息被窃取或篡改,防止网络被恶意渗透或监听,确保不发生因信息安全引发的电网事故和大面积停电事故,实现信息安全风险可控、能控、在控。国家非常重视电力系统的信息安全,建立了电力系统信息安全纵深防御体系,部署了大量不同类型的安全设备,各种设备的日志记录了设备运行状态,各类用户执行的操作等等详细信息。在目前的网络环境中,各种设备的日志已经成为海量数据,SYSLOG作为主要的日志类型,被各种操作系统,网络设备和安全设备广泛支持,成为日志的重要标准,对于其他类型的日志,也可以转换为SYSLOG日志格式,便于统一分析。
由于不同类型安全设备报送的SYSLOG日志格式千差万别,因此,需要对日志进行格式归一化,才能够对日志进行规则处理分析和有效的统计分析。目前业界常用的安全日志信息提取和分析方式是基于解析模板技术,每一个新的日志类型都需要人工编写解析模板,这种方式下项目实施成本高,且人工编写出错概率高,对复杂网络环境SYSLOG信息提取的适应性差。
发明内容
为了解决上述问题,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取与分析方法及系统,能够降低成本,提高对复杂网络环境SYSLOG信息提取的适应性。
为了达到上述目的,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方法,该方法包括以下步骤:
A、持续采集异构安全日志数据,采用分词工具对。日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对。日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为。异构安全日志信息的提取规则;LITD树的信息随着新的日志结构的加入不断更新。
B、对构建的。LITD树的信息在计算机内存中进行缓存,该缓存根据LITD树的更新实时更新。
C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取异构安全日志信息。
D、将形成的规范格式的异构安全日志数据存储进入数据库系统。
优选地,步骤A中具体包括以下步骤:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为LITD树的一级节点。
A2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,步骤C具体包括以下步骤:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2。
C2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的日志解析指纹,将日志解析指纹与LITD树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
优选地,计算日志解析指纹包括以下步骤:
对文本字符串形式的原始日志信息进行分词。
在分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是分词字段的总个数。
并获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是分词字段的总个数。
根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn。
优选地,经过LITD树进行信息提取后的异构安全日志数据的规范格式包括:事件名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;LITD树在计算机内存中的存储数据结构为以多层HashMap嵌套的方式实现。
本发明还提出一种复杂网络体系下异构安全日志信息的自适应提取系统,该系统包括:学习模块、缓存模块、提取模块、入库模块。
学习模块:用于持续采集异构安全日志数据,采用分词工具对日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为异构安全日志信息的提取规则;并随着新的日志结构的加入对LITD树的信息不断更新。
缓存模块:用于对构建的LITD树的信息在计算机内存中进行缓存,并根据LITD树的更新实时更新;以文本形式存储于硬盘,存储信息周期性更新。
提取模块:用于对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,自适应提取异构安全日志信息。
入库模块:用于将形成的规范格式的异构安全日志数据存储进入数据库系统。
优选地,学习模块通过以下步骤完成所述LITD树的构建:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为所述LITD树的一级节点。
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,提取模块通过以下步骤完成异构安全日志信息的提取:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的报送设备IP,则进入步骤C2。
C2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的所述日志解析指纹,将日志解析指纹与LITD树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
优选地,学习模块通过以下步骤完成日志解析指纹的计算:
对文本字符串形式的原始日志信息进行分词。
在所述分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是分词字段的总个数。
并获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是分词字段的总个数。
根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn。
优选地,缓存模块还用于:将LITD树为以多层HashMap嵌套的存储数据结构方式存储在计算机内存中。
与现有技术相比,本发明包括:A、持续采集异构安全日志数据,采用分词工具对日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为异构安全日志信息的提取规则;LITD树的信息随着新的日志结构的加入不断更新。B、对构建的LITD树的信息在计算机内存中进行缓存,该缓存根据LITD树的更新实时更新。C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取异构安全日志信息。D、将形成的规范格式的异构安全日志数据存储进入数据库系统。通过本发明的方案,能够降低成本,提高对复杂网络环境SYSLOG信息提取的适应性。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的复杂网络体系下异构安全日志信息的自适应提取方法流程图;
图2为本发明的复杂网络体系下异构安全日志信息的自适应提取系统框图;
图3为本发明的复杂网络体系下异构安全日志信息的自适应提取方法实现结构图;
图4为本发明的复杂网络体系下异构安全日志信息的自适应提取系统决策树结构图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
本发明提出一种复杂网络体系下异构安全日志信息的自适应提取与分析方法。本发明采用日志信息提取决策树机制作为日志信息解析模型,该模型是由持续的机器学习构建,采用分词技术和正则匹配技术构建该学习模型;在日志解析阶段,根据自动学习获取的日志信息解析模型对新的日志样本进行解析,并提供统一格式的日志记录,从而实现了复杂网络体系下异构安全日志的自适应提取与分析。
具体地,本发明提出了一种复杂网络体系下异构安全日志信息的自适应提取方法,如图1、图4所示,该方法包括以下步骤:
A、持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为异构安全日志信息的提取规则;LITD树的信息随着新的日志结构的加入不断更新。
B、对构建的LITD树的信息在计算机内存中进行缓存,缓存根据LITD树的更新实时更新。
C、对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取异构安全日志信息。
D、将形成的规范格式的异构安全日志数据存储进入数据库系统。
其中,用户可以对日志信息提取决策树中的内容属性定义进行人工设置,以保证从异构安全日志提出的信息可读性更强,并优化日志字段正则匹配字典,最终将经过格式化后的安全日志信息存储进入数据库系统,共同其它系统使用。
优选地,步骤A中具体包括以下步骤:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为LITD树的一级节点。
A2、采用分词工具对SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,步骤C具体包括以下步骤:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的报送设备IP,则进入步骤C2。
C2、采用分词工具对述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的日志解析指纹,将日志解析指纹与LITD树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
优选地,计算日志解析指纹包括以下步骤:
S1、对文本字符串形式的原始日志信息进行分词。
S2、在分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是分词字段的总个数。
S3、获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是分词字段的总个数。
S4、根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn。
本发明中分词算法为,采用以标志切分为手段的基于字符串的分词算法,具体工具是采用开源StandardAnalyzer分词算法。
优选地,经过LITD树进行信息提取后的异构安全日志数据的规范格式包括:事件名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;LITD树在计算机内存中的存储数据结构为以多层HashMap嵌套的方式实现。
其中,经过信息提取后范化的安全日志格式为:
属性名 | 说明 |
Lid | 序号 |
imergeCount | 归并数目 |
ceventName | 事件名称 |
ceventDigest | 事件摘要 |
ceventType | 事件分类 |
icollectType | 采集类型 |
ieventLevel | 等级 |
iprotocol | 网络协议 |
iAppProtocol | 网络应用协议 |
cSrcName | 源名称 |
cSrcMac | 源MAC地址 |
cSrcIp | 源地址 |
cSrctIp | 源转换IP地址 |
iSrcPort | 源端口 |
iSrctPort | 源转换端口 |
cDstName | 目的名称 |
cDstMac | 目的MAC |
cDstIp | 目的地址 |
cDsttIp | 目的转换IP地址 |
iDstPort | 目的端口 |
iDsttPort | 目的转换端口 |
cUserName | 用户名称 |
cProgram | 程序名称 |
cOperation | 操作 |
cObject | 对象 |
iResult | 结果 |
cDevName | 设备名称 |
cDevIp | 设备地址 |
cDevType | 设备类型 |
lOccurTime | 产生时间 |
lReceptTime | 事件接收时刻 |
cCollectorIp | 采集器IP地址 |
coriLevel | 原始等级 |
lSend | 发送流量 |
lReceive | 接收流量 |
lDuration | 持续时间 |
cOriType | 原始类型 |
cRequestMsg | 请求内容 |
LITD树在硬盘的存储的文本格式以XML技术存储,示例为:
本发明还提出一种复杂网络体系下异构安全日志信息的自适应提取系统01,如图2所示,该系统包括:学习模块02、缓存模块03、提取模块04、入库模块05。
学习模块02:用于持续采集异构安全日志数据,采用分词工具对日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为异构安全日志信息的提取规则;并随着新的日志结构的加入对LITD树的信息不断更新。
优选地,学习模块02通过以下步骤完成LITD树的构建:
A1、通过系统日志SYSLOG协议获得异构安全日志数据,通过对异构安全日志数据的头部分解析获取SYSLOG日志的报送设备互联网协议IP,以报送设备IP作为所述LITD树的一级节点。
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将日志解析指纹作为LITD树的二级节点。
A4、将各分词字段的索引和内容属性作为LITD树的三级节点。
A5、返回步骤A1。
优选地,学习模块02通过以下步骤完成日志解析指纹的计算:
S1、对文本字符串形式的原始日志信息进行分词。
S2、在分词后,获得各个分词字段的索引Si;其中,i=0,1,2,3…n;n是所述分词字段的总个数。
S3、获得各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是分词字段的总个数。
S4、根据各个分词字段的索引Si和内容正则解析规则Ri,依据下式计算日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn。
缓存模块03:用于对构建的LITD树的信息在计算机内存中进行缓存,并根据LITD树的更新实时更新;以文本形式存储于硬盘,存储信息周期性更新。
优选地,缓存模块03还用于:将LITD树为以多层HashMap嵌套的存储数据结构方式存储在计算机内存中。
提取模块04:用于对新采集的异构安全日志数据,根据LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,自适应提取异构安全日志信息。
优选地,提取模块04通过以下步骤完成异构安全日志信息的提取:
C1、采集SYSLOG日志,解析报送设备IP信息,将报送设备IP信息与LITD树的一级节点中的报送设备IP进行比较,定位SYSLOG日志对应的LITD树的二级节点,如果所采集的SYSLOG日志的报送设备IP信息与LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的一级节点中找到了与所采集的SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2。
C2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引。
C3、计算获得SYSLOG日志的日志解析指纹,将日志解析指纹与LITD树的二级节点中的日志解析指纹进行比较,定位SYSLOG日志对应的LITD树的三级节点,如果所采集的SYSLOG日志的日志解析指纹与LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的LITD树的二级节点中找到了与所采集的SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4。
C4、通过将SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对SYSLOG日志的解析结果。
入库模块05:用于将形成的规范格式的异构安全日志数据存储进入数据库系统。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。
Claims (10)
1.一种复杂网络体系下异构安全日志信息的自适应提取方法,其特征在于,所述方法包括以下步骤:
A、持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为所述异构安全日志信息的提取规则;所述LITD树的信息随着新的日志结构的加入不断更新;
B、对构建的所述LITD树的信息在计算机内存中进行缓存,所述缓存根据所述LITD树的更新实时更新;
C、对新采集的所述异构安全日志数据,根据所述LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,提取所述异构安全日志信息;
D、将形成的规范格式的异构安全日志数据存储进入数据库系统。
2.如权利要求1所述的方法,其特征在于,所述步骤A中具体包括以下步骤:
A1、通过系统日志SYSLOG协议获得所述异构安全日志数据,通过对所述异构安全日志数据的头部分解析获取所述SYSLOG日志的报送设备互联网协议IP,以所述报送设备IP作为所述LITD树的一级节点;
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引;
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将所述日志解析指纹作为所述LITD树的二级节点;
A4、将所述各分词字段的索引和内容属性作为所述LITD树的三级节点;
A5、返回步骤A1。
3.如权利要求1或2所述的方法,其特征在于,所述步骤C具体包括以下步骤:
C1、采集所述SYSLOG日志,解析所述报送设备IP信息,将所述报送设备IP信息与所述LITD树的一级节点中的所述报送设备IP进行比较,定位所述SYSLOG日志对应的所述LITD树的二级节点,如果所采集的所述SYSLOG日志的报送设备IP信息与所述LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的一级节点中找到了与所采集的所述SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2;
C2、采用所述分词工具对所述SYSLOG日志中代表原始日志的所述MSG字段进行分词,并按顺序对分词结果进行索引;
C3、计算获得所述SYSLOG日志的所述日志解析指纹,将所述日志解析指纹与所述LITD树的二级节点中的日志解析指纹进行比较,定位所述SYSLOG日志对应的所述LITD树的三级节点,如果所采集的所述SYSLOG日志的日志解析指纹与所述LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的二级节点中找到了与所采集的所述SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4;
C4、通过将所述SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对所述SYSLOG日志的解析结果。
4.如权利要求3所述的方法,其特征在于,所述计算日志解析指纹包括以下步骤:
对文本字符串形式的原始日志信息进行分词;
在所述分词后,获得所述各个分词字段的索引Si;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
并获得所述各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
根据所述各个分词字段的索引Si和所述内容正则解析规则Ri,依据下式计算所述日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn。
5.如权利要求1所述的方法,其特征在于,经过所述LITD树进行信息提取后的所述异构安全日志数据的规范格式包括:事件名称、事件摘要、事件分类、采集类型、等级、网络协议、网络应用协议以及属性信息;所述LITD树在计算机内存中的存储数据结构为以多层HashMap嵌套的方式实现。
6.一种复杂网络体系下异构安全日志信息的自适应提取系统,其特征在于,所述系统包括:学习模块、缓存模块、提取模块、入库模块;
学习模块:用于持续采集异构安全日志数据,采用分词工具对所述日志数据结构进行分拆,根据预置的常用日志字段正则匹配字典表对所述日志数据中指定位置的字段数据进行内容属性匹配,构建日志信息提取决策树LIDT,作为所述异构安全日志信息的提取规则;并随着新的日志结构的加入对所述LITD树的信息不断更新;
缓存模块:用于对构建的所述LITD树的信息在计算机内存中进行缓存,并根据所述LITD树的更新实时更新;以文本形式存储于硬盘,存储信息周期性更新;
提取模块:用于对新采集的所述异构安全日志数据,根据所述LITD树按照日志报送地址、日志类型以及日志各位置字段的顺序逐层解析,自适应提取所述异构安全日志信息。
入库模块:用于将形成的规范格式的异构安全日志数据存储进入数据库系统。
7.如权利要求6所述的系统,其特征在于,所述学习模块通过以下步骤完成所述LITD树的构建:
A1、通过系统日志SYSLOG协议获得所述异构安全日志数据,通过对所述异构安全日志数据的头部分解析获取所述SYSLOG日志的报送设备互联网协议IP,以所述报送设备IP作为所述LITD树的一级节点;
A2、采用分词工具对所述SYSLOG日志中代表原始日志的MSG字段进行分词,并按顺序对分词结果进行索引;
A3、通过各分词字段的属性和对应索引计算日志解析指纹,将所述日志解析指纹作为所述LITD树的二级节点;
A4、将所述各分词字段的索引和内容属性作为所述LITD树的三级节点;
A5、返回步骤A1。
8.如权利要求6或7所述的系统,其特征在于,所述提取模块通过以下步骤完成异构安全日志信息的提取:
C1、采集所述SYSLOG日志,解析所述报送设备IP信息,将所述报送设备IP信息与所述LITD树的一级节点中的所述报送设备IP进行比较,定位所述SYSLOG日志对应的所述LITD树的二级节点,如果所采集的所述SYSLOG日志的报送设备IP信息与所述LITD树中的所有报送设备IP都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的一级节点中找到了与所采集的所述SYSLOG日志的报送设备IP信息匹配的所述报送设备IP,则进入步骤C2;
C2、采用所述分词工具对所述SYSLOG日志中代表原始日志的所述MSG字段进行分词,并按顺序对分词结果进行索引;
C3、计算获得所述SYSLOG日志的所述日志解析指纹,将所述日志解析指纹与所述LITD树的二级节点中的日志解析指纹进行比较,定位所述SYSLOG日志对应的所述LITD树的三级节点,如果所采集的所述SYSLOG日志的日志解析指纹与所述LITD树中的所有日志解析指纹都不匹配,则进入学习阶段A,构建该SYSLOG日志对应的LITD树;如果在当前的所述LITD树的二级节点中找到了与所采集的所述SYSLOG日志的日志解析指纹匹配的日志解析指纹,则进入步骤C4;
C4、通过将所述SYSLOG日志的分词数据信息与决策树三级节点中的分词数据信息进行比较,获得对所述SYSLOG日志的解析结果。
9.如权利要求8所述的系统,其特征在于,所述学习模块通过以下步骤完成日志解析指纹的计算:
对文本字符串形式的原始日志信息进行分词;
在所述分词后,获得所述各个分词字段的索引Si;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
并获得所述各个分词字段对应的内容正则解析规则Ri;其中,i=0,1,2,3…n;n是所述分词字段的总个数;
根据所述各个分词字段的索引Si和所述内容正则解析规则Ri,依据下式计算所述日志解析指纹:
S0R0-S1R1-S2R2-S3R3…SnRn。
10.如权利要求6所述的方法,其特征在于,所述缓存模块还用于:将所述LITD树为以多层HashMap嵌套的存储数据结构方式存储在计算机内存中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510015079.XA CN104573024B (zh) | 2015-01-12 | 2015-01-12 | 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510015079.XA CN104573024B (zh) | 2015-01-12 | 2015-01-12 | 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573024A true CN104573024A (zh) | 2015-04-29 |
CN104573024B CN104573024B (zh) | 2018-03-20 |
Family
ID=53089086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510015079.XA Active CN104573024B (zh) | 2015-01-12 | 2015-01-12 | 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573024B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550378A (zh) * | 2016-02-04 | 2016-05-04 | 贵州电网有限责任公司信息中心 | 一种复杂网络体系下异构安全日志信息的提取与分析方法 |
CN106126383A (zh) * | 2016-06-01 | 2016-11-16 | 杭州华三通信技术有限公司 | 一种日志处理方法和装置 |
CN106897198A (zh) * | 2016-06-17 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种日志数据的处理方法及装置 |
CN109347827A (zh) * | 2018-10-22 | 2019-02-15 | 东软集团股份有限公司 | 网络攻击行为预测的方法、装置、设备及存储介质 |
CN109726185A (zh) * | 2018-12-28 | 2019-05-07 | 杭州安恒信息技术股份有限公司 | 一种基于语法树的日志解析方法、系统和计算机可读介质 |
CN110019987A (zh) * | 2018-11-28 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种基于决策树的日志匹配方法和装置 |
CN110096411A (zh) * | 2019-03-22 | 2019-08-06 | 西安电子科技大学 | 基于关联分析和时间窗的日志模板快速提取方法及系统 |
CN112100133A (zh) * | 2020-11-04 | 2020-12-18 | 广州市玄武无线科技股份有限公司 | 一种分布式的日志处理系统 |
CN115544975A (zh) * | 2022-12-05 | 2022-12-30 | 济南丽阳神州智能科技有限公司 | 一种日志格式转换方法及设备 |
CN116455678A (zh) * | 2023-06-16 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 网络安全日志汇接方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286891A (zh) * | 2008-05-30 | 2008-10-15 | 杭州华三通信技术有限公司 | 系统日志解析方法及装置 |
US20120030172A1 (en) * | 2010-07-27 | 2012-02-02 | Oracle International Corporation | Mysql database heterogeneous log based replication |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
CN103823811A (zh) * | 2012-11-19 | 2014-05-28 | 北京百度网讯科技有限公司 | 用于处理日志的方法及其系统 |
-
2015
- 2015-01-12 CN CN201510015079.XA patent/CN104573024B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286891A (zh) * | 2008-05-30 | 2008-10-15 | 杭州华三通信技术有限公司 | 系统日志解析方法及装置 |
US20120030172A1 (en) * | 2010-07-27 | 2012-02-02 | Oracle International Corporation | Mysql database heterogeneous log based replication |
CN103823811A (zh) * | 2012-11-19 | 2014-05-28 | 北京百度网讯科技有限公司 | 用于处理日志的方法及其系统 |
CN103049532A (zh) * | 2012-12-21 | 2013-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于突发事件应急管理的知识库引擎构建及其查询方法 |
Non-Patent Citations (1)
Title |
---|
朱伽: "一种面向多系统的日志审计系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550378A (zh) * | 2016-02-04 | 2016-05-04 | 贵州电网有限责任公司信息中心 | 一种复杂网络体系下异构安全日志信息的提取与分析方法 |
CN106126383B (zh) * | 2016-06-01 | 2019-03-19 | 新华三技术有限公司 | 一种日志处理方法和装置 |
CN106126383A (zh) * | 2016-06-01 | 2016-11-16 | 杭州华三通信技术有限公司 | 一种日志处理方法和装置 |
CN106897198B (zh) * | 2016-06-17 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 一种日志数据的处理方法及装置 |
CN106897198A (zh) * | 2016-06-17 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种日志数据的处理方法及装置 |
CN109347827A (zh) * | 2018-10-22 | 2019-02-15 | 东软集团股份有限公司 | 网络攻击行为预测的方法、装置、设备及存储介质 |
CN109347827B (zh) * | 2018-10-22 | 2021-06-22 | 东软集团股份有限公司 | 网络攻击行为预测的方法、装置、设备及存储介质 |
CN110019987A (zh) * | 2018-11-28 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种基于决策树的日志匹配方法和装置 |
CN110019987B (zh) * | 2018-11-28 | 2023-05-09 | 创新先进技术有限公司 | 一种基于决策树的日志匹配方法和装置 |
CN109726185A (zh) * | 2018-12-28 | 2019-05-07 | 杭州安恒信息技术股份有限公司 | 一种基于语法树的日志解析方法、系统和计算机可读介质 |
CN109726185B (zh) * | 2018-12-28 | 2020-12-25 | 杭州安恒信息技术股份有限公司 | 一种基于语法树的日志解析方法、系统和计算机可读介质 |
CN110096411A (zh) * | 2019-03-22 | 2019-08-06 | 西安电子科技大学 | 基于关联分析和时间窗的日志模板快速提取方法及系统 |
CN112100133A (zh) * | 2020-11-04 | 2020-12-18 | 广州市玄武无线科技股份有限公司 | 一种分布式的日志处理系统 |
CN115544975A (zh) * | 2022-12-05 | 2022-12-30 | 济南丽阳神州智能科技有限公司 | 一种日志格式转换方法及设备 |
CN116455678A (zh) * | 2023-06-16 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 网络安全日志汇接方法及系统 |
CN116455678B (zh) * | 2023-06-16 | 2023-09-05 | 中国电子科技集团公司第十五研究所 | 网络安全日志汇接方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104573024B (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573024A (zh) | 一种复杂网络体系下异构安全日志信息的自适应提取方法及系统 | |
CN105550378A (zh) | 一种复杂网络体系下异构安全日志信息的提取与分析方法 | |
WO2021088385A1 (zh) | 一种在线日志解析方法、系统及其电子终端设备 | |
CN103064933B (zh) | 数据查询方法及系统 | |
CN104899314B (zh) | 一种数据仓库的血统分析方法和装置 | |
CN112183036B (zh) | 一种格式文档生成方法、装置、设备及存储介质 | |
CN112650848A (zh) | 基于文本语义相关乘客评价的城铁舆情信息分析方法 | |
CN112084249B (zh) | 一种访问记录提取方法及装置 | |
EP4155974A1 (en) | Knowledge graph construction method and apparatus, check method and storage medium | |
US10997218B2 (en) | Method and system for managing associations between entity records | |
CN107797916A (zh) | Ddl语句审核方法和装置 | |
LU503512B1 (en) | Operating method for construction of knowledge graph based on naming rule and caching mechanism | |
CN104881427A (zh) | 一种面向电网调控运行的数据血统分析方法 | |
CN115033905A (zh) | 一种基于物联网的智慧档案管理系统平台 | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
CN110555039A (zh) | 数据查询控制方法、存储介质、设备及系统 | |
CN106649557A (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN117453646A (zh) | 融合语义与深度神经网络的内核日志联合压缩与查询方法 | |
CN117370314A (zh) | 一种分布式数据库系统协同优化、数据处理系统及方法 | |
CN116033048B (zh) | 物联网的多协议解析方法、电子设备和存储介质 | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 | |
KR101846347B1 (ko) | 대용량 문서의 관리 방법 및 그 장치 | |
CN111340253A (zh) | 一种主网检修申请单的解析方法及系统 | |
CN114969450B (zh) | 一种用户行为分析方法、装置、设备及存储介质 | |
CN116431828A (zh) | 一种基于神经网络技术构建的电网中台数据资产知识图谱数据库的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |