CN112350989A - 一种日志数据的解析方法 - Google Patents
一种日志数据的解析方法 Download PDFInfo
- Publication number
- CN112350989A CN112350989A CN202010992026.4A CN202010992026A CN112350989A CN 112350989 A CN112350989 A CN 112350989A CN 202010992026 A CN202010992026 A CN 202010992026A CN 112350989 A CN112350989 A CN 112350989A
- Authority
- CN
- China
- Prior art keywords
- log
- file
- source
- analysis
- log source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000007405 data analysis Methods 0.000 title abstract description 5
- 238000004458 analytical method Methods 0.000 claims abstract description 70
- 230000014509 gene expression Effects 0.000 claims abstract description 25
- 238000004806 packaging method and process Methods 0.000 claims description 9
- 230000008676 import Effects 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种日志数据的解析方法,采用收包方式接收日志源发送的日志数据包,或者通过读取日志文件的方式获取日志数据,根据日志源类型确定解析规则以及正则集,通过正则表达式与日志中的原始字符串进行匹配,从而确定日志是否具有安全事件以及安全事件的类型,并将相应的事件数据进行存储。实现对不同类型的日志数据的解析处理,特别是对于文件读取方式的日志解析,提高了处理效率,对于及时发现安全事件具有积极意义。
Description
技术领域
本发明属于网络安全技术领域,尤其涉及一种采集以及解析处理设备日志数据的方法。
背景技术
网络安全日志,包括操作系统产生的系统日志和网络安全设备产生的报警日志等,主要记录了系统和网络环境中发生的各种安全事件,为网络异常诊断和网络攻击威胁的发现提供重要的线索。在网络安全日志的分析中,日志解析是一个至关重要的步骤。
现如今,每个用户网络包含大量的信息资产,包括各种网络设备、安全设备、主机、应用及数据库等,每种设备类型的日志格式都不相同,即使是记录同一事件,也都有各自的日志规格。例如同样的登录失败信息,防火墙中的描述和主机操作系统中的描述格式就可能根本不相同,这样会迫使审计人员去了解每种设备类型的格式。同时,每个产品的日志量又是巨大的,例如一个标准的入侵检测系统每天可能产生超过千万数量的事件日志,海量日志数据的采集、解析、存储等处理过程,常常让运维审计工作变得毫无头绪,因此如何高效的采集解析和处理日志数据,成为许多设备和业务稳定运行的关键所在。
发明内容
有鉴于此,本发明旨在提供一种日志数据的解析方法,支持多设备的多种采集方式,提高日志处理效率,具体的技术方案如下所述。
日志数据的解析方法,包括:
根据当前日志源IP确定日志源类型与对应的解析规则,从正则库编译解析规则规定的正则表达式,生成正则集加入日志源信息;
将采集方式、日志源IP、日志字符串、日志源信息封装为解析对象加入待解析队列;依次读取解析对象,对其中的日志字符串进行正则匹配,生成事件对象加入待入库队列,批量定时存入事件数据库。
所述采集方式包括数据包接收与文件读取;所述数据包接收,包括采用UDP收包方式接收日志源发送的日志数据包;所述文件读取,包括ODBC采集、文件定时采集与文件导入采集;
以及,同一种采集方式中的日志源IP不能重复。
较佳的,确定日志源信息的过程,具体包括:
维护:包括日志源ID、IP、类型与解析规则对应关系的资产表,包括解析规则与正则集对应关系的规则表,包括事件类型、正则表达式、正则表达式对应字段的正则表;
根据日志源IP查询资产表确定日志源类型与解析规则,根据解析规则查询规则表确定正则集;
取出日志源ID、日志源类型、正则集组成日志源信息。
作为优选的,若为数据包接收的日志采集方式:接收日志数据包,调用资产表校验当前日志源IP,若IP正确则取出数据包的原始日志字符串,与采集方式、日志源IP、根据日志源IP获取的日志源信息封装为解析对象,加入解析队列。
若为文件读取的日志采集方式:
判断日志数据文件是否为压缩文件,若为压缩文件则解压并按行读取每一个文件的日志内容,若非压缩文件则直接按行读取文件的日志内容;
将日志内容生成命名为“采集方式_日志源类型_日志源IP_文件保存时间”的临时文件存入规定路径,其中采集方式与日志源类型使用预设的数字编号表示,文件保存时间使用时间戳表示;
将:从临时文件读取的日志原始字符串,从文件名获取的采集方式与日志源IP,根据日志源IP获取的日志源信息封装为解析对象,加入解析队列。
作为优选的,若为数据包接收的日志采集方式,每一个日志数据文件读取完成后,若判断不存在下一个文件,则删除所有已读取完成的日志数据文件;
以及,若为文件导入采集,则在文件导入后,根据导入时间与日志源IP更新该文件的执行状态与执行结果。
作为优选的,对解析对象的解析过程,包括:取出解析对象中的原始日志字符串与正则集,将日志字符串与每一个正则表达式进行匹配,若匹配成功则表示命中正则表达式对应的事件类型,将日志源IP、日志源类型、事件类型、发生时间、匹配成功的日志字符串与设备当前运行信息生成一个事件对象;
以及,若匹配成功的日志字符串中具有表示事件等级的字段,将事件等级加入到事件对象。
采用上述技术方案后,本发明的日志数据解析方法,至少具有以下有益效果:采用收包方式接收日志源发送的日志数据包,或者通过读取日志文件的方式获取日志数据,根据日志源类型确定解析规则以及正则集,通过正则表达式与日志中的原始字符串进行匹配,从而确定日志是否具有安全事件以及安全事件的类型,并将相应的事件数据进行存储。实现对不同类型的日志数据的解析处理,特别是对于文件读取方式的日志解析,提高了处理效率,对于及时发现安全事件具有积极意义。
附图说明
图1为本发明的日志数据解析方法实施例,工作流程示意图;
图2为图1中日志数据的采集流程示意图;
图3为图1中日志数据的解析流程示意图。
具体实施方式
下面结合附图与实施例对本发明的技术方案进行详细说明。
日志数据的解析方法,根据当前日志源IP确定日志源类型与对应的解析规则,从正则库编译解析规则规定的正则表达式,生成正则集加入日志源信息;将采集方式、日志源IP、日志字符串、日志源信息封装为解析对象加入待解析队列;依次读取解析对象,对其中的日志字符串进行正则匹配,生成事件对象加入待入库队列,批量定时存入事件数据库。
如图1所示,上述的日志数据解析方法,具体包括以下步骤:
S100,通过不同方式采集各设备的日志数据。
网络设备、安全设备、主机、应用及数据库等产生的日志格式各异,有的日志以数据包形式可以直接读取,有的是生成特定的文件,有的遵循特定的协议。因此针对不同日志源类型需要使用不同的日志采集方式。
具体到本发明中,采集方式可以包括数据包接收与文件读取;所述数据包接收,包括采用UDP收包方式接收日志源发送的日志数据包;而所述文件读取,包括ODBC方式采集、Agent代理方式采集、文件定时采集(包括ftp采集)与文件导入方式采集等。
S200,维护包括日志源ID、IP、类型与解析规则对应关系的资产表,根据日志源IP,确定日志源类型与日志解析规则。
作为较佳的实施方式,同一种采集方式中的日志源IP不能重复,即如果一个日志源支持至少两种采集方式,则在一次解析过程中,日志的采集方式应当保持一致。
S300,根据日志解析规则,确定日志源信息,具体包括:
还维护有包括解析规则与正则集对应关系的规则表,包括事件类型、正则表达式、正则表达式对应字段的正则表;
根据日志源IP查询资产表确定日志源类型与解析规则,根据解析规则查询规则表确定正则集;
取出日志源ID、日志源类型、正则集组成日志源信息。
S400,将前述步骤确定的采集方式、日志源IP、日志原始字符串与日志源信息封装为解析对象。
若为数据包接收的日志采集方式:接收日志数据包,调用资产表校验当前日志源IP,若IP正确则取出数据包的原始日志字符串,与采集方式、日志源IP、根据日志源IP获取的日志源信息封装为解析对象。
若为文件读取的日志采集方式:读取文件的日志内容;将日志内容生成命名为“采集方式_日志源类型_日志源IP_文件保存时间”的临时文件存入规定路径;将日志原始字符串,采集方式,日志源IP,日志源信息封装为解析对象。
S500,读取解析对象,对原始字符串进行正则解析,生成事件对象并批量存入事件数据库。
将日志字符串与正则集的正则表达式进行匹配,若匹配成功则表示命中正则表达式对应的事件类型,将日志源IP、日志源类型、事件类型、发生时间、匹配成功的日志字符串与设备当前运行信息生成一个事件对象;
如图2所示,日志数据的采集过程。
如前所述,进行日志数据采集前,预先维护有以下数据表:
采集方式表:采集方式ID、采集方式名称、采集方式描述;
资产表:日志源IP、日志源ID、日志源类型、日志源解析规则(规则ID集),日志源类型如防火墙、交换机等设备类型;
规则表:解析规则ID、正则集(正则表达式ID集合);
正则表:正则表达式ID、正则表达式、正则表达式对应字段、事件类型(包括大类与小类),其中大类如防火墙、交换机等设备类别,小类如DNS异常、非法外连等安全事件类别;
以及:
日志源信息表:日志源ID、日志源类型、正则集(正则表达式ID集合);
解析对象表:采集方式、日志源IP、原始日志字符串、日志源信息。
获取到日志数据后,通过日志源IP可以查询资产表获取日志源ID、日志源类型与解析规则ID,进而查询规则表得到正则集;取出日志源ID、日志源类型与正则集组成日志源信息存入日志源信息表。
若日志采集为数据包接收方式:开始接收日志数据包,调用资产表校验当前数据包的IP是否存在,若IP存在则取出数据包中的原始日志字符串,并且取出已经获取的采集方式、日志源IP、以及根据日志源IP获取的日志源信息封装为解析对象,加入解析队列。
若日志采集为文件读取方式:首先判断日志数据文件格式是否为压缩文件,若为压缩文件则解压并按行读取每一个文件的日志内容,若非压缩文件则直接按行读取文件的日志内容;
将日志内容生成命名为“采集方式_日志源类型_日志源IP_文件保存时间”的临时文件存入规定路径,其中采集方式与日志源类型使用预设的数字编号表示,文件保存时间使用时间戳表示;
将:从临时文件读取的日志原始字符串,从文件名获取的采集方式与日志源IP,根据日志源IP获取的日志源信息封装为解析对象。
作为优选的实施方式,每一个日志数据文件读取完成后,若判断不存在下一个文件,则删除所有已读取完成的日志数据文件;以及,若为文件导入采集,则在文件导入后,根据导入时间与日志源IP更新该文件的执行状态与执行结果。
如图3所示,日志数据的解析过程:
在采集流程得到存储解析对象的解析队列后,按照一定的顺序,如按加入队列的时间先后取出解析对象中的原始日志字符串与正则集的每一个正则表达式进行匹配,若匹配成功则表示命中正则表达式对应的事件类型,将日志源IP、日志源类型、事件类型、发生时间、匹配成功的日志字符串与设备当前运行信息生成一个事件对象;
所述的设备当前运行信息包括当前设备的MAC与端口,CPU使用率,内存占用率,当前连接数,发送与接收流量,网口信息,进程信息以及设备当前的管理员或用户等。
以及,若匹配成功的日志字符串中具有表示事件等级的字段,将事件等级加入到事件对象。
作为一种优选的实施方式,对于所有的事件对象,可以根据事件类型(包括大类与小类)进行归并,进而对同类型的事件进行关联分析以得到安全事件并且根据其级别做出相应的处置措施。
如上所述的技术方案,实现对不同类型的日志数据的采集与解析处理,提高了处理效率,对于及时发现安全事件具有积极意义。
Claims (7)
1.一种日志数据的解析方法,其特征在于,包括:
根据当前日志源IP确定日志源类型与对应的解析规则,从正则库编译解析规则规定的正则表达式,生成正则集加入日志源信息;
将采集方式、日志源IP、日志字符串、日志源信息封装为解析对象加入待解析队列;依次读取解析对象,对其中的日志字符串进行正则匹配,生成事件对象加入待入库队列,批量定时存入事件数据库。
2.根据权利要求1所述的日志解析方法,其特征在于,所述采集方式包括数据包接收与文件读取;所述数据包接收,包括采用UDP收包方式接收日志源发送的日志数据包;所述文件读取,包括ODBC采集、文件定时采集与文件导入采集;
以及,同一种采集方式中的日志源IP不能重复。
3.根据权利要求1所述的日志进行方法,其特征在于,确定日志源信息的过程,具体包括:
维护:包括日志源ID、IP、类型与解析规则对应关系的资产表,包括解析规则与正则集对应关系的规则表,包括事件类型、正则表达式、正则表达式对应字段的正则表;
根据日志源IP查询资产表确定日志源类型与解析规则,根据解析规则查询规则表确定正则集;
取出日志源ID、日志源类型、正则集组成日志源信息。
4.根据权利要求3所述的日志解析方法,其特征在于,若为数据包接收的日志采集方式:接收日志数据包,调用资产表校验当前日志源IP,若IP正确则取出数据包的原始日志字符串,与采集方式、日志源IP、根据日志源IP获取的日志源信息封装为解析对象,加入解析队列。
5.根据权利要求3所述的日志解析方法,其特征在于,若为文件读取的日志采集方式:
判断日志数据文件是否为压缩文件,若为压缩文件则解压并按行读取每一个文件的日志内容,若非压缩文件则直接按行读取文件的日志内容;
将日志内容生成命名为“采集方式_日志源类型_日志源IP_文件保存时间”的临时文件存入规定路径,其中采集方式与日志源类型使用预设的数字编号表示,文件保存时间使用时间戳表示;
将:从临时文件读取的日志原始字符串,从文件名获取的采集方式与日志源IP,根据日志源IP获取的日志源信息封装为解析对象,加入解析队列。
6.根据权利要求5所述的日志解析方法,其特征在于,每一个日志数据文件读取完成后,若判断不存在下一个文件,则删除所有已读取完成的日志数据文件;
以及,若为文件导入采集,则在文件导入后,根据导入时间与日志源IP更新该文件的执行状态与执行结果。
7.根据权利要求4或5所述的日志解析方法,其特征在于,对解析对象的解析过程,包括:取出解析对象中的原始日志字符串与正则集,将日志字符串与每一个正则表达式进行匹配,若匹配成功则表示命中正则表达式对应的事件类型,将日志源IP、日志源类型、事件类型、发生时间、匹配成功的日志字符串与设备当前运行信息生成一个事件对象;
以及,若匹配成功的日志字符串中具有表示事件等级的字段,将事件等级加入到事件对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992026.4A CN112350989A (zh) | 2020-09-21 | 2020-09-21 | 一种日志数据的解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992026.4A CN112350989A (zh) | 2020-09-21 | 2020-09-21 | 一种日志数据的解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112350989A true CN112350989A (zh) | 2021-02-09 |
Family
ID=74357358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992026.4A Pending CN112350989A (zh) | 2020-09-21 | 2020-09-21 | 一种日志数据的解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112350989A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113179176A (zh) * | 2021-03-31 | 2021-07-27 | 新华三信息安全技术有限公司 | 一种日志处理方法、装置、设备及机器可读存储介质 |
CN113344697A (zh) * | 2021-06-29 | 2021-09-03 | 平安普惠企业管理有限公司 | 团伙检测方法、装置、设备及介质 |
CN113407505A (zh) * | 2021-07-01 | 2021-09-17 | 中孚安全技术有限公司 | 一种安全日志要素处理方法及系统 |
CN113806321A (zh) * | 2021-09-02 | 2021-12-17 | 北京天融信网络安全技术有限公司 | 一种日志处理方法及系统 |
CN114584619A (zh) * | 2022-03-07 | 2022-06-03 | 北京北信源软件股份有限公司 | 设备数据解析方法、装置、电子设备及存储介质 |
CN115048352A (zh) * | 2022-08-12 | 2022-09-13 | 北京优特捷信息技术有限公司 | 一种日志字段提取方法、装置、设备和存储介质 |
CN115695163A (zh) * | 2022-09-30 | 2023-02-03 | 郑州云智信安安全技术有限公司 | 一种基于syslog日志解析过程的可视化方法和系统 |
CN115801353A (zh) * | 2022-11-03 | 2023-03-14 | 智网安云(武汉)信息技术有限公司 | 基于大数据级安全事件日志实时聚合后联动剧本处理方法 |
CN118069898A (zh) * | 2024-04-25 | 2024-05-24 | 北京长亭科技有限公司 | 一种多日志源的日志泛化方法及装置 |
-
2020
- 2020-09-21 CN CN202010992026.4A patent/CN112350989A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113179176A (zh) * | 2021-03-31 | 2021-07-27 | 新华三信息安全技术有限公司 | 一种日志处理方法、装置、设备及机器可读存储介质 |
CN113179176B (zh) * | 2021-03-31 | 2022-05-27 | 新华三信息安全技术有限公司 | 一种日志处理方法、装置、设备及机器可读存储介质 |
CN113344697A (zh) * | 2021-06-29 | 2021-09-03 | 平安普惠企业管理有限公司 | 团伙检测方法、装置、设备及介质 |
CN113407505A (zh) * | 2021-07-01 | 2021-09-17 | 中孚安全技术有限公司 | 一种安全日志要素处理方法及系统 |
CN113806321A (zh) * | 2021-09-02 | 2021-12-17 | 北京天融信网络安全技术有限公司 | 一种日志处理方法及系统 |
CN113806321B (zh) * | 2021-09-02 | 2023-11-10 | 北京天融信网络安全技术有限公司 | 一种日志处理方法及系统 |
CN114584619A (zh) * | 2022-03-07 | 2022-06-03 | 北京北信源软件股份有限公司 | 设备数据解析方法、装置、电子设备及存储介质 |
CN114584619B (zh) * | 2022-03-07 | 2024-02-23 | 北京北信源软件股份有限公司 | 设备数据解析方法、装置、电子设备及存储介质 |
CN115048352A (zh) * | 2022-08-12 | 2022-09-13 | 北京优特捷信息技术有限公司 | 一种日志字段提取方法、装置、设备和存储介质 |
CN115695163A (zh) * | 2022-09-30 | 2023-02-03 | 郑州云智信安安全技术有限公司 | 一种基于syslog日志解析过程的可视化方法和系统 |
CN115801353A (zh) * | 2022-11-03 | 2023-03-14 | 智网安云(武汉)信息技术有限公司 | 基于大数据级安全事件日志实时聚合后联动剧本处理方法 |
CN118069898A (zh) * | 2024-04-25 | 2024-05-24 | 北京长亭科技有限公司 | 一种多日志源的日志泛化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112350989A (zh) | 一种日志数据的解析方法 | |
US9848004B2 (en) | Methods and systems for internet protocol (IP) packet header collection and storage | |
US7995496B2 (en) | Methods and systems for internet protocol (IP) traffic conversation detection and storage | |
EP2953298A1 (en) | Log analysis device, information processing method and program | |
US20100046378A1 (en) | Methods and systems for anomaly detection using internet protocol (ip) traffic conversation data | |
CN101605074A (zh) | 基于网络通讯行为特征监测木马的方法与系统 | |
US20100050084A1 (en) | Methods and systems for collection, tracking, and display of near real time multicast data | |
CN107145779B (zh) | 一种离线恶意软件日志的识别方法和装置 | |
CN112905548B (zh) | 一种安全审计系统及方法 | |
US9830451B2 (en) | Distributed pattern discovery | |
CN110188538B (zh) | 采用沙箱集群检测数据的方法及装置 | |
CN110855461A (zh) | 一种基于关联分析和规则库的日志分析方法 | |
CN107209834A (zh) | 恶意通信模式提取装置、恶意通信模式提取系统、恶意通信模式提取方法及恶意通信模式提取程序 | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN113032824B (zh) | 基于数据库流量日志的低频数据泄漏检测方法及系统 | |
Giacinto et al. | Alarm clustering for intrusion detection systems in computer networks | |
Wurzenberger et al. | Applying high-performance bioinformatics tools for outlier detection in log data | |
CN117240522A (zh) | 基于攻击事件模型的漏洞智能挖掘方法 | |
CN114510710A (zh) | 一种基于xss与sql注入的蜜罐攻击事件识别系统及方法 | |
CN117336083B (zh) | 一种网络安全等级保护中的通信方法及系统 | |
CN111460337B (zh) | 一种url识别率的分析方法及装置 | |
CN114531307B (zh) | 主动防御网关的api模型构建与防御方法及系统 | |
CN118233180A (zh) | 一种基于行为分析和流量检测的异常用户识别方法 | |
CN113992436A (zh) | 本地情报产生方法、装置、设备及存储介质 | |
KR100559474B1 (ko) | 다양한 종류의 문자열 형태의 침입탐지경보에서 동일한형태의 정보를 얻는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210209 |