CN108268485B - 一种日志实时分析方法及系统 - Google Patents
一种日志实时分析方法及系统 Download PDFInfo
- Publication number
- CN108268485B CN108268485B CN201611259206.1A CN201611259206A CN108268485B CN 108268485 B CN108268485 B CN 108268485B CN 201611259206 A CN201611259206 A CN 201611259206A CN 108268485 B CN108268485 B CN 108268485B
- Authority
- CN
- China
- Prior art keywords
- log
- data
- storage
- dictionary
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提出了一种日志实时分析方法及系统,首先对采集的日志数据进行预处理,采用实时整理和大数据分析相结合的方式,使得后续的统计分析不仅能看到宏观方面的问题,也能够从宏观方面关联到微观状态;采用大数据分析单元对日志数据进行优化分析统计,提高了日志分析的速度和效率;使用内存存储和落地存储两个级别的日志存储方式,使得统计信息和详细数据信息可以分别显示,大大降低了日志服务器与客户端之间的通信压力,从而减少了在图形显示时的响应时间。
Description
技术领域
本发明涉及日志分析领域,尤其涉及一种日志实时分析方法及系统。
背景技术
随着信息化技术的迅猛发展,网络攻击、病毒、僵尸、木马、恶意软件等技术的水平不断提高,给网络用户带来前所未有的威胁。网络攻击也从原来单纯的个别黑客秀技术,转化成以获取经济利益为目的的产业。而从应用维度,越来越多的恶意应用使用已知端口如Web应用的80端口,网络安全设备往往会对这个端口做放行,由此恶意应用可以绕过网络安全设备对网络进行攻击。
作为网络安全的重要一环,网络安全设备日志分析可以通过收集和归档网络安全设备日志,并生成报表,进行全网综合安全分析,帮助安全管理人员快速识别病毒攻击、异常流量以及用户非法行为等重要的安全信息,从而运用合理的安全策略,保证网络的安全。但是,现有的网络安全设备日志分析尚存在以下问题:
1,海量日志处理中纯文本日志的识别率低的问题。
网络管理员面对网络安全设备日志的分析,依然依靠逐行核对的方式进行人工审查。这种方法已经使用多年,但却是管理员找到问题风险的最佳途径。然而这个途径的效率非常低,网络安全设备日志的可读性并不友好,人工审查的时候经常会漏掉一些关键因素,被漏掉的关键因素需要反复核对才能被发现,因而降低了识别的效率。
2,传统网络安全设备报告只做简单统计。
日志分析的过程中,传统网络安全设备生成的报告只做了简单统计。所生成的统计报表只作为报告使用,并不能把问题关联到发生日志的具体时刻。而在网络安全设备安全分析的过程中,我们不但希望从报表上看到宏观方面的问题,更希望能够从宏观方面关联到微观状态,这需要统计报表不单单只是作为统计和展示,同时要对统计和展示的图形进行操作。
3,图形化操作的查询实时性问题。
日志查询和展示的时候需要大量的运算,如分类统计、求和、求平均值等操作。在传统的日志分析系统中,这些计算和查询都是在客户端展示之前进行计算的,这就导致了服务器与客户端传输的数据非常多,不得不用分页等方式来展示,但分页会影响整体数据的统计。
4,在同类的日志分析和统计系统中,日志采用了关系型的方式存储在数据库中,这导致在检索同类数据的时候,如果数据量非常大,系统反应会非常的慢。同时在图形展现时,大量的数据会占用客户机以及大量的通信带宽,导致展示的响应时间过长。
发明内容
本发明的目的是通过以下技术方案实现的。
根据本发明的实施方式,提出一种日志的实时分析方法,所述方法包括:
从多个设备采集原始日志信息;
将采集来的原始日志信息进行日志处理,先进行日志预处理,整理为可用于存储和实时查询的结构化日志数据,生成内容字典和索引字典,其中包括日志时间和日志类型信息;然后,将内容字典存入具有分级存储功能的日志存储管理子系统,将索引字典存入具有实时分发功能的消息队列;消息队列根据数据分析需求将索引字典数据分发给大数据分析单元;
大数据分析单元可以集群部署,根据预先设定的分析统计策略配置,从消息队列实时得到索引字典,从日志存储管理子系统获取索引字典相对应的内容字典,进行周期性的分类统计,并将统计结果保存于日志存储管理子系统;每次完成统计时实时通知日志展现接口展示;
日志展现接口收到大数据分析单元的统计完成通知后,将统计结果推送到用户界面,用户界面按照展现需求,到日志存储管理子系统取统计结果,在用户界面上展示。
优选的,所述的日志处理包括日志预处理,生成内容字典和索引字典之前,所述日志预处理包括两级拆分过程:第一级拆分和第二级拆分;所述第一级拆分为日志信息头部部分的解析拆分,用于拆分出数据的基本信息;所述第二级拆分为日志内容部分的解析拆分,将信息格式抽象化,进行字段名和字段值的定位,然后将字段名和字段值分开,保存为Key-Vlaue格式。
优选的,所述的内容字典由多类型数据集合构成,然后由内容字典中各个内容的定位偏移组成多类型数据集合组成的索引字典。
优选的,所述索引字典还包括将每条索引增加GUID为键的唯一标识,将带有标识的索引加入消息队列。
优选的,所述的日志存储管理子系统采用内存存储和落地存储两个级别的日志存储方式,包括统计结果库、内存详细信息库,对应为内存存储,还包括冷数据存储区、内存镜像存储区,对应为落地存储;通过热点监控机制实现分级存储区之间的数据切换,通过持久化机制保持内存存储数据的完整性;所述的内存详细信息库用于保存进行日志预处理后生成的内容字典,以及大数据统计平台的统计结果,所述的统计结果库是以时间为key进行数据存储,对应于内存详细信息库的索引,用于保存大数据统计平台的统计结果数据的索引。
优选的,所述的热点监控机制用于控制冷数据和热数据的转换,根据数据使用的频率进行引用计数,数据初始被存于冷数据存储区,当冷数据使用频率的计数值高到一定数值时转变为热数据,存到内存镜像存储区;热数据存到一定的时间期限又被存回冷数据存储区;所述的持久化机制是实时对存统计结果库、内存详细信息库进行写磁盘操作,保存于内存镜像存储区。
优选的,所述的日志展现接口收到用户的查询请求后,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
优选的,所述的日志展现接口收到用户的查询请求后,通过图形化维度和模式化操作维度实现日志展现,所述图形化维度是通过各种可视的统计视图对日志进行展示,其包括面板层面、视图层面和图形层面;所述模式化操作维度是在用户图形化基础上制定的操作模式,包括面板层面操作、视图层面操作和图形层面操作。
根据本发明的实施方式,还提出一种执行上述方法的实时分析系统,所述系统包括:日志采集单元、日志处理单元、消息队列单元、大数据分析单元、日志存储管理子系统,其中,
所述日志采集单元用于从多个设备采集原始日志信息;
所述日志处理单元将采集来的原始日志信息先经日志预处理整理为可用于存储和实时查询的结构化日志数据,生成内容字典和索引字典,其中包括日志时间和日志类型信息;然后将内容字典存入具有分级存储功能的日志存储管理子系统,将索引字典存入具有实时分发功能的消息队列单元;
所述消息队列单元用于实现索引字典的存储和实时分发,根据大数据分析单元的数据分析请求进行分发;
所述大数据分析单元,可以集群部署,根据预先设定的分析统计策略配置,从消息队列单元得到索引字典,从日志存储管理子系统获取索引字典相对应的内容字典,按时间和日志类型进行周期性的分类统计,并将统计结果保存于日志存储管理子系统;每次完成统计时实时通知日志展现接口展示;
所述日志存储管理子系统用于将经日志预处理得到的内容字典和经大数据分析单元分析统计处理后的数据进行不同级别的存储;
日志展现接口单元,收到大数据分析单元的统计完成通知后,将统计结果推送到用户界面,用户界面按照展现需求,到日志存储管理子系统取统计结果,在用户界面上展示。
优选的,所述的日志存储管理子系统采用内存存储和落地存储两个级别的日志存储方式,包括统计结果库、内存详细信息库、内存镜像存储区,对应为内存存储,还包括冷数据存储区,对应为落地存储;通过热点监控机制实现分级存储区之间的数据切换,通过持久化机制保持内存存储数据的完整性;所述的内存详细信息库用于保存进行日志预处理后生成的内容字典,以及大数据分析单元的统计结果数据,所述的统计结果库是以时间为key进行数据存储,对应于内存详细信息库的索引,用于保存大数据分析单元的统计结果数据的索引。
优选的,所述的热点监控机制用于控制冷数据和热数据的转换,根据数据使用的频率进行引用计数,数据初始被存于冷数据存储区,当冷数据使用频率的计数值高到一定数值时转变为热数据,存到内存镜像存储区;热数据存到一定的时间期限又被存回冷数据存储区;所述的持久化机制是实时地对统计结果库、内存详细信息库进行写磁盘操作,保存于内存镜像存储区。
优选的,还包括日志展现子系统,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
优选的,所述的图形化维度和模式化操作维度实现日志展现,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
本发明的日志实时分析方法及系统首先对采集的日志数据进行预处理,采用实时整理和大数据分析相结合的方式,使得后续的统计分析不仅能看到宏观方面的问题,也能够从宏观方面关联到微观状态;采用大数据分析单元对日志数据进行优化分析统计,提高了日志分析的速度和效率;使用内存存储和落地存储两个级别的日志存储方式,保证了日志数据的完备性和统计分析数据提取的实时性,从而减少了在图形显示时的响应时间。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了与本发明实施例一致的网络安全设备日志图形模式化分析方法流程图;
附图2示出了与本发明实施例一致的网络安全设备日志图形模式化分析系统原理示意图;
附图3示出了与本发明实施例一致的事件回调机制流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提供一种日志实时分析方法及系统,如附图1所示,所述方法整体上包括如下过程:
1,日志采集
日志采集是指从生成日志的网络安全设备上采集数据,本发明采用两种采集方式:主动采集和被动采集。主动采集通过访问网络安全设备上的某些服务(如:ssh,ft),定期从网络安全设备中采集数据。被动采集是通过网络安全设备上的syslog服务,将日志发送到本发明的syslog服务中。采集对象包括:网络安全设备日志的时间日期、网络安全设备节点、严重性、日志类型等信息。
2,日志处理
日志处理,是将采集来的日志信息,先进行日志预处理,整理成为可用于存储和实时查询的结构,生成内容字典和索引字典,其中包括日志时间和日志类型信息。然后,将内容字典存入具有分级存储功能的日志存储管理子系统,将索引字典存入具有实时分发功能的消息队列;消息队列根据数据分析需求将索引字典数据分发给大数据分析单元。所述的内容字典由多类型数据集合构成,然后由内容字典中各个内容的定位偏移组成多类型数据集合组成的索引字典;所述索引字典还包括将每条索引增加GUID为键的唯一标识,将带有标识的索引加入消息队列。
3,日志存储
将经日志预处理后的日志字典数据进行不同级别的存储保存于日志存储区。本发明通过日志存储管理子系统实现日志存储。并使用内存存储和落地存储两个级别的日志存储方式。
内存存储是将日志存放在计算机的内存中,这样的存储主要是为了满足系统对数据的高可利用性。为了满足日志内存存储日志的持久性(因为当计算机系统关闭时,内存存储会消失),本发明采用持久化机制,是实时对统计结果库、内存详细信息库进行写磁盘操作,保存于内存镜像存储区,满足随时的使用。
本发明中的落地存储有两个部分:日志备份和日志归档。
所述日志备份是将日志进行持久化后,内存数据会被保存在内存镜像存储区,当系统宕机时,可以用内存镜像存储区中的数据来还原系统宕机前内存中的数据内容,以保证系统的数据安全性。
所述日志归档是将持久化后的日志数据通过传统的数据备份方式(复制、刻盘等)备份到本系统以外的其他数据存储中。当本系统内部的持久化数据遭到破坏时,可以通过归档的日志数据对系统进行数据恢复,以保证系统数据的安全性。
4,日志统计分析
日志统计分析是本发明的核心步骤。经过日志预处理后的数据准备好之后,就要随时准备进行数据分析统计。本发明中大数据分析单元用于完成此任务。由于数据庞大,可以集群部署,根据预先设定的分析统计策略配置,从消息队列实时得到索引字典,从日志存储管理子系统获取索引字典相对应的内容字典,进行周期性的分类统计,每次完成统计时实时通知日志展现接口展示;
5,统计分析结果存储
大数据分析单元完成日志统计分析后,将统计分析结果保存于日志存储管理子系统;其中的内存详细信息库可用于保存大数据统计平台的统计结果数据,其中的统计结果库是以时间为key进行数据存储,对应于内存详细信息库的索引,用于保存大数据分析单元的统计结果数据的索引。
6,日志展现
日志展现接口收到大数据分析单元的统计完成通知后,将统计结果推送到用户界面,用户界面按照展现需求,到日志存储管理子系统取统计结果,在用户界面上展示。
日志展现接口收到用户的查询请求后,可以通过图形化维度和模式化操作维度实现日志展现,所述图形化维度是通过各种可视的统计视图对日志进行展示,其包括面板层面、视图层面和图形层面;所述模式化操作维度是在用户图形化基础上制定的操作模式,包括面板层面操作、视图层面操作和图形层面操作。
所述的图形化维度和模式化操作维度实现日志展现,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
日志展现功能是基于用户页面上的一套消息机制实现。所述消息机制使得在Web页面中呈现的页面,特别是图表,具有可交互性。同时配合本发明采用的大数据分析单元生成的统计结果,使得数据展现具有很高的实时性以及可操作性。
如附图2所示,所述网络安全设备日志图形模式化分析系统包括如下组成部分:多个日志采集单元、多个日志处理单元、消息队列单元、大数据分析单元、日志存储管理子系统以及日志展现接口单元,其中,
所述日志采集单元用于从多个设备网络安全设备采集原始日志信息;
所述日志处理单元将采集来的原始日志信息先经日志预处理整理为可用于存储和实时查询的结构化日志数据,生成内容字典和索引字典,其中包括日志时间和日志类型信息;然后将内容字典存入具有分级存储功能的日志存储管理子系统,将索引字典存入具有实时分发功能的消息队列;
所述消息队列用于实现索引字典的存储和实时分发,根据大数据分析单元的数据分析请求进行分发;
所述大数据分析单元,可以集群部署,根据预先设定的分析统计策略配置,从消息队列得到索引字典,从日志存储管理子系统获取索引字典相对应的内容字典,按时间和日志类型进行周期性的分类统计,并将统计结果保存于日志存储管理子系统;每次完成统计时实时通知日志展现接口展示;
所述日志存储管理子系统(数据存储区)用于将经日志预处理得到的内容字典和经大数据分析单元实时分析统计处理后的数据进行不同级别的存储;
日志展现接口单元,收到大数据分析单元的统计完成通知后,将统计结果推送到用户界面,用户界面按照展现需求,到日志存储管理子系统取统计结果,在用户界面上展示。
下面具体描述本发明的日志实时分析方法及系统的具体实现方式和过程。
根据本发明的具体实施方式,所述日志采集单元采用分布式架构,连接多台网络安全设备。所述日志采集单元由被动采集单元和主动采集单元两个单元构成。所述被动采集单元是通过syslog协议的客户端进行搜集日志,所述主动采集单元,用于在telnet、ssh、ftp、文件共享或http等不同的协议进行日志文件的搜集。
根据本发明的具体实施方式,所述日志处理分析过程由日志处理单元、消息队列单元、大数据分析单元共同完成,所述日志处理单元的主要作用包括对日志的特征进行识别、确定是否是本系统的日志以及日志的完整性,生成内容字典和索引字典,等。其中包括日志预处理,是在原始日志中选取几个特征部位及结尾特征,判断其在日志中的位置和相对位置,针对文本的头部信息和内容信息进行识别。根据头部信息、内容信息的格式与实际数据的不同,本发明的预处理包括两级拆分过程:第一级拆分和第二级拆分,然后将拆分后的数据以GUID为键、以分析之后序列化的文本为内容,生成内容字典和索引字典,内容字典存放在具有分级存储功能的日志存储管理子系统中索引字典存入具有实时分发功能的消息队列。消息队列根据数据分析需求将索引字典数据分发给大数据分析单元,然后大数据分析单元结合内容字典和相对应的索引字典,快速找到保存在日志存储管理子系统的内容数据,再通过大数据分析单元的分析,将结果存储在内存中。
具体的,所述第一级拆分为日志信息头部部分的解析拆分,用于拆分出数据的基本信息。
例如:一个消息文本为:
<166>BC_FireWall:30Sep2015 14:21:42accept 192.168.11.100>eth0;
由于信息头中各个字段比较固定,字段之间使用空格分割,本发明首先按照空格将信息拆分成多个字符串,再按照每个字段中的内容将信息整理到固定的数据结构中,最后生成统一编号(GUID)。上述消息中,<166>代表了严重性和特性信息。除了这些信息之外还有日期、时间、来源、动作和方向。因此本发明定义了如下数据结构,并赋予一个GUID,所述GUID代表了一个信息的唯一标识。上述消息文本经过第一级拆分后,整理为如下结构:
“GUID:XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX
日期:"2015-09-30",
时间:"14:21:42",
特性(Facility):"Local4",
严重性(Severity):"Info",
来源:"192.168.11.200",
动作:允许(accept),
方向:进栈(>eth0)”
在该实施例中,可以看出所述基础信息包括日期、时间、特性、严重性、来源和消息文本。
具体的,所述第二级拆分为日志内容部分的解析拆分,这部分拆分的特点是:1、字段名称不固定;2、字段数量不固定。
由于信息内容来自不同的信息源,所以信息内容并不是固定的。为了解决这个问题,本发明首先将信息格式抽象化。对信息内容的抽象使用类似字典数据结构,该结构可以用<字段名>:<字段值>的方式来存储数据,采用该结构可实现信息的快速插入、删除、检索以及修改。该结构分为键和值两个字段,键与内容中的字段名对应,值与字段内容对应,字段和字段之间使用分号分割,字段和字段值之间使用冒号分割。所以第二级拆分首先判断分号进行字段名和字段值的定位,然后将字段名和字段值分开。
例如,一条消息文本为:
“BC_FireWall:30Sep2015 14:21:42accept 192.168.11.100>eth0 inzone:External;outzone:Internal;rule:1;rule_uid:{C9E946CA-F95A-4729-8AB3-89E979203424};service_id:SIT;src:140.174.203.79;dst:11.0.0.2;proto:ipv6;product:VPN-1&FireWall-1;product_family:Network”
通过第二级拆分将此信息整理成:
根据本发明的具体实施方式,所述消息队列单元存放所述日志预处理单元整理的结果数据具体包括:将经过上述两级拆分的内容存储在非关系型数据库中,所述非关系型数据库的格式如下:
“{
“XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX”:
{
“日期”:"2015-09-30",
“时间”:"14:21:42",
“特性”:"Local4",
“严重性”:"Info",
“来源”:"192.168.11.200",
“动作”:“允许”,
“方向”:“进栈”,
“消息”:{
“inzone”:”External”,
“outzone”:”Internal”,
“rule”:”1”,
“rule_uid”:”{C9E946CA-F95A-4729-8AB3-89E979203424}”,
“service_id”:”SIT”,
“src”:”140.174.203.79”,
“dst”:”11.0.0.2”
“proto”:”ipv4”,
“product”:”VPN-1&FireWall-1”,
“product_family”:”Network”
}
}
}”
根据本发明的具体实施方式,所述大数据分析单元进行实时分析统计包括:将存放在消息队列中的日志索引分发给大数据分析单元进行分析,然后将结果存储在统计结果库中。
所述大数据分析单元执行如下操作:
1.对关键字数量进行统计;
2.制定统计公式;
3.整理字段名;
4.输出整理字段名的统计结果。
采用集群大数据分析单元为本申请的日志系统提供了实时统计的计算资源,使得可以在大数据分析单元的统计字段中设置自定义的公式来对网络安全设备日志数据进行专门的优化。所述大数据分析单元根据输入的数据和自定义的公式,把输出的结果存放在日志存储管理子系统中。
具体的,在本申请的大数据分析单元中,定义需要统计分析的“字段名”,对于实际数据中名字不同但意义相同的字段,可将其定义为“同义词”。在该分析中主要识别的字段包括但不限于日期、时间等数据。然后,可以获得根据不同字段得到的统计数据,并将统计数据存储在统计结果库中。
根据本发明的具体实施方式,经过日志处理的数据会进入日志存储管理子系统。本发明使用内存存储和落地存储两个级别的日志存储方式。当面对大量日志数据查询的时候,平常的数据存储方式将不能满足应用。本发明采用冷热数据分别存储的方式,采用了内存数据存储和磁盘的存储相结合的方式,把热数据放在内存数据存储中,把不那么常用的冷数据存储在磁盘介质中。
采用上述两个级别的日志存储方式,具有以下优点:
1.最大限度的减少了IO交互,从而增加了查询效率;
2.对内存数据的持久化采用了镜像备份的方式,从而具备了容灾性;
3.内存数据大小可以采用集群方式进行扩展。
具体的,所述日志存储管理子系统具体包括:统计结果库、内存详细信息库、热点监视单元、持久化逻辑单元、冷数据存储区、内存镜像存储区。
所述统计结果库用于存储经过大数据分析单元处理后生成的索引;
所述内存详细信息库用于存放日志的详细信息,配合所述统计结果库,就能对应索引到日志的整个内容;
所述热点监视单元用于监视日志数据的冷热度,把最有意义的信息存放在内存里,把不那么常用的信息存放在冷数据存储区。同时,对于冷数据存储区的数据,如果经过多次的使用导致热度增加,也会把这部分信息交换到内存中;
所述持久化逻辑单元用于将实时的日志数据镜像到固定存储介质;
所述冷数据存储区用于存储统计结果库和内存详细信息库中不太活跃的信息;
所述内存镜像存储用于将内存中数据同时存储成为内存镜像。
具体的,所述热点监视单元的具体实现方式为:采用双向链表的数据结构。一个双向链表是内存中热数据的双向链表,另一个双向链表是冷数据双向链表。热数据链表使用Count进行由大到小的排序,冷双向链表采用从小到大的排序。
根据本发明的具体实施方式,所述日志展现是将存储以及归档中的日志,以系统提供的功能,比如:检索、查询、统计等功能,以页面、报表等形式,生成与用户所交互的图形方式进行展现。
日志展现中的操作包括两个维度:图形化维度和模式化操作维度。
1)图形化维度
图形化维度是通过各种可视的统计视图对网络安全设备日志进行展示,其包括:面板层面、视图层面和图形层面。
其中,面板层面是对视图层面进行管理,其用于显示视图的增加、删除、排列、移动等功能。
视图层面用于在网络安全设备日志事件中分析不同的连续或不连续事件之间的联系。在需要根据事件时间轴比较不同事件发生的分布规律时,使用分层叠加视图。
以及,视图层面用于在网络安全设备日志事件中分析不同的连续或随机的事件之间的联系。在需要根据事件时间轴比较不同事件发生的分布规律时,使用纵向比较视图。
在图形层面,一个视图中可以显示两种图形,其分别是分类图形和分时图形。
分类图形是以柱状、饼状等图形来表达不同类型的统计信息。
分时图形是以时间线为横轴,网络安全设备日志发生采样的数量为纵轴的视图。在分时图上可以综合采用分层叠加视图和横向比较。分时图可以分为分时线图、分时面积图等。在分时图中可以展现:年、月、周、日流量统计表和每日分时流量统计表。这些统计表所采用的数据来自于大数据处理单元中创建的年、月、周、日、小时流量统计表。
2)模式化操作维度
模式化操作维度是在用户图形化基础上制定的操作模式。
模式化操作包括面板层面操作、视图层面操作和图形层面操作。
所述面板层面操作包括增加和删除新的视图,根据用户的需求显示在面板中需要的位置。
所述视图层面操作包括切换图层(可以在分层叠加和纵向比较这两种不同的视图进行切换展示,从而更方便数据的展现)、添加和删除图层。
所述图形层面操作包括:
■点击分类统计图上对象,可查看此分类对象的分时图;
■测量、求和、比较操作,可对分类对象进行测量、求和、以及不同对象间比较的操作;
■显示和隐藏某数据数值的操作;
■图形层面的缩小操作时间线按照秒‐>分‐>小时‐>日‐>周‐>月‐>季度‐>年的范围变化;
■图形层面的放大操作时间线按照年‐>季度‐>月‐>日‐>小时‐>分‐>秒‐>年的范围变化;
■在分时线图中的时间线坐标添加和减少事件标线(如建立连接、关闭连接等事件线);
■在分时线图中的表示事件量坐标添加和减少阈值标线(如设定高于或低于某阈值时候向管理员报警);
■选取分时图中的分时段,可显示这个时段内的详细日志。
经过上述两个维度的日志展现操作,可以使分析结果更加清晰可见的展现在用户面前,并满足用户操作的多样性和实时性要求。
进一步地,所述的图形化维度和模式化操作维度实现日志展现,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
如图3所示,是本发明事件回调机制的实施例。该方式是在响应操作回调中在网页后台(WEB服务后台)实现了交互操作,达到快速的显示效果,同时通过网页后台心跳来达到实时对分析数据进行更新展示的目的。在Web图形前端利用ajex技术加入了事件回调机制,使Web图形客户端在处理用户操作时具有了自己在Web前端的独立运算能力。图形运算的过程并不需要频繁请求网页后台数据。这样可以用这种方式可实现精细化地和Web服务器交互,从而减少了和Web服务器的数据通信传输量,降低了通信产生网络延迟带来的开销。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种日志的实时分析方法,所述方法包括:
从多个设备采集原始日志信息;
将采集来的原始日志信息进行日志处理,先进行日志预处理,整理为可用于存储和实时查询的结构化日志数据,生成内容字典和索引字典,所述内容字典由多类型数据集合构成,所述索引字典包括内容字典中各个内容的定位偏移;然后,将内容字典存入具有分级存储功能的日志存储管理子系统,将索引字典存入具有实时分发功能的消息队列;消息队列根据数据分析需求将索引字典数据分发给大数据分析单元;
大数据分析单元可以集群部署,根据预先设定的分析统计策略配置,从消息队列实时得到索引字典,从日志存储管理子系统获取索引字典相对应的内容字典,进行周期性的分类统计,并将统计结果保存于日志存储管理子系统;每次完成统计时实时通知日志展现接口展示;
日志展现接口收到大数据分析单元的统计完成通知后,将统计结果推送到用户界面,用户界面按照展现需求,到日志存储管理子系统取统计结果,在用户界面上展示;
其中,所述日志预处理包括两级拆分过程:第一级拆分和第二级拆分;所述第一级拆分为日志信息头部部分的解析拆分,用于拆分出数据的基本信息;所述第二级拆分为日志内容部分的解析拆分,将信息格式抽象化,进行字段名和字段值的定位,然后将字段名和字段值分开,保存为Key-Vlaue格式;
所述的日志存储管理子系统采用内存存储和落地存储两个级别的日志存储方式,包括统计结果库、内存详细信息库,对应为内存存储方式,还包括内存镜像存储区、冷数据存储区,对应为落地存储方式;所述内存详细信息库用于保存进行日志预处理后生成的内容字典,以及大数据分析单元的统计结果数据;所述统计结果库是以时间为key进行数据存储,用于保存大数据分析单元的统计结果数据的索引;
通过热点监控机制实现分级存储区之间的数据切换,包括:根据数据使用的频率进行引用计数,数据初始被存于冷数据存储区,当冷数据使用频率的计数值高到一定数值时转变为热数据,存到内存镜像存储区;热数据存到一定的时间期限又被存回冷数据存储区。
2.如权利要求1所述的方法,所述索引字典还包括将每条索引增加GUID为键的唯一标识,将带有标识的索引加入消息队列。
3.如权利要求1所述的方法,所述的日志存储管理子系统通过持久化机制保持内存存储数据的完整性。
4.如权利要求3所述的方法,所述的持久化机制是实时对统计结果库、内存详细信息库进行写磁盘操作,保存于内存镜像存储区。
5.如权利要求1所述的方法,所述的日志展现接口收到用户的查询请求后,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
6.如权利要求5所述的方法,所述的日志展现接口收到用户的查询请求后,通过图形化维度和模式化操作维度实现日志展现,所述图形化维度是通过各种可视的统计视图对日志进行展示,其包括面板层面、视图层面和图形层面;所述模式化操作维度是在用户图形化基础上制定的操作模式,包括面板层面操作、视图层面操作和图形层面操作。
7.一种执行如权利要求1-6其中之一方法的实时分析系统,所述系统包括:日志采集单元、日志处理单元、消息队列单元、大数据分析单元、日志存储管理子系统,其中,
所述日志采集单元用于从多个设备采集原始日志信息;
所述日志处理单元将采集来的原始日志信息先经日志预处理整理为可用于存储和实时查询的结构化日志数据,生成内容字典和索引字典,所述内容字典由多类型数据集合构成,所述索引字典包括内容字典中各个内容的定位偏移;然后将内容字典存入具有分级存储功能的日志存储管理子系统,将索引字典存入具有实时分发功能的消息队列单元;
所述消息队列单元用于实现索引字典的存储和实时分发,根据大数据分析单元的数据分析请求进行分发;
所述大数据分析单元,可以集群部署,根据预先设定的分析统计策略配置,从消息队列单元得到索引字典,从日志存储管理子系统获取索引字典相对应的内容字典,按时间和日志类型进行周期性的分类统计,并将统计结果保存于日志存储管理子系统;每次完成统计时实时通知日志展现接口展示;
所述日志存储管理子系统用于将经日志预处理得到的内容字典和经大数据分析单元分析统计处理后的数据进行不同级别的存储;
日志展现接口单元,收到大数据分析单元的统计完成通知后,将统计结果推送到用户界面,用户界面按照展现需求,到日志存储管理子系统取统计结果,在用户界面上展示;
其中,所述日志预处理包括两级拆分过程:第一级拆分和第二级拆分;所述第一级拆分为日志信息头部部分的解析拆分,用于拆分出数据的基本信息;所述第二级拆分为日志内容部分的解析拆分,将信息格式抽象化,进行字段名和字段值的定位,然后将字段名和字段值分开,保存为Key-Vlaue格式;
所述的日志存储管理子系统采用内存存储和落地存储两个级别的日志存储方式,包括统计结果库、内存详细信息库,对应为内存存储方式,还包括内存镜像存储区、冷数据存储区,对应为落地存储方式;所述内存详细信息库用于保存进行日志预处理后生成的内容字典,以及大数据分析单元的统计结果数据;所述统计结果库是以时间为key进行数据存储,用于保存大数据分析单元的统计结果数据的索引;
通过热点监控机制实现分级存储区之间的数据切换,包括:根据数据使用的频率进行引用计数,数据初始被存于冷数据存储区,当冷数据使用频率的计数值高到一定数值时转变为热数据,存到内存镜像存储区;热数据存到一定的时间期限又被存回冷数据存储区。
8.如权利要求7所述的系统,还包括日志展现子系统,通过用户网页视图的事件回调机制实现实时展示数据,网页视图通过浏览器提供的http连接和Web服务端之间的交互获取最新数据,Web服务端按网页视图的展示需求调用日志展现接口单元来提取更新数据。
9.如权利要求8所述的系统,所述日志展现子系统,通过图形化维度和模式化操作维度实现日志展现,所述图形化维度是通过各种可视的统计视图对日志进行展示,其包括面板层面、视图层面和图形层面;所述模式化操作维度是在用户图形化基础上制定的操作模式,包括面板层面操作、视图层面操作和图形层面操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611259206.1A CN108268485B (zh) | 2016-12-30 | 2016-12-30 | 一种日志实时分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611259206.1A CN108268485B (zh) | 2016-12-30 | 2016-12-30 | 一种日志实时分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108268485A CN108268485A (zh) | 2018-07-10 |
CN108268485B true CN108268485B (zh) | 2021-04-30 |
Family
ID=62753627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611259206.1A Active CN108268485B (zh) | 2016-12-30 | 2016-12-30 | 一种日志实时分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108268485B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684416A (zh) * | 2018-11-13 | 2019-04-26 | 国电南京自动化股份有限公司 | 一种高并发实时历史数据存储系统 |
CN110070345B (zh) * | 2019-04-29 | 2023-04-18 | 重庆电子工程职业学院 | 基于云平台的备忘提醒方法 |
CN110297738A (zh) * | 2019-05-21 | 2019-10-01 | 深圳壹账通智能科技有限公司 | 系统服务的监控方法、装置、设备及存储介质 |
CN110727641B (zh) * | 2019-10-21 | 2023-10-27 | 中国民航信息网络股份有限公司 | 一种日志的查找方法及装置 |
CN111104381A (zh) * | 2019-11-30 | 2020-05-05 | 北京浪潮数据技术有限公司 | 一种日志管理方法、装置、设备及计算机可读存储介质 |
CN111049684B (zh) * | 2019-12-12 | 2023-04-07 | 闻泰通讯股份有限公司 | 数据分析方法、装置、设备和存储介质 |
CN112380210A (zh) * | 2020-10-31 | 2021-02-19 | 上善智城(苏州)信息科技有限公司 | 一种实时数据分析及统计报表方法及系统 |
CN112463542B (zh) * | 2020-12-15 | 2023-06-02 | 深圳供电局有限公司 | 日志异常原因诊断方法、装置、计算机设备和存储介质 |
CN113645287B (zh) * | 2021-07-29 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 汽车报文存储方法及装置、汽车报文存储系统 |
CN113835986B (zh) * | 2021-11-25 | 2022-04-08 | 中航金网(北京)电子商务有限公司 | 系统冷热日志的动态切换方法、装置及计算机设备 |
US11822939B2 (en) | 2022-03-24 | 2023-11-21 | Oracle International Corporation | Collaborative analysis system for analyzing logs |
US11914563B2 (en) | 2022-03-24 | 2024-02-27 | Oracle International Corporation | Data structure generation system for analyzing logs |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369451A (zh) * | 2007-08-14 | 2009-02-18 | 三星电子株式会社 | 固态存储器、包含其的计算机系统和操作其的方法 |
CN103942210A (zh) * | 2013-01-21 | 2014-07-23 | 中国移动通信集团上海有限公司 | 海量日志信息的处理方法、装置与系统 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
CN106227644A (zh) * | 2016-07-21 | 2016-12-14 | 柳州龙辉科技有限公司 | 一种海量信息处理装置 |
-
2016
- 2016-12-30 CN CN201611259206.1A patent/CN108268485B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369451A (zh) * | 2007-08-14 | 2009-02-18 | 三星电子株式会社 | 固态存储器、包含其的计算机系统和操作其的方法 |
CN103942210A (zh) * | 2013-01-21 | 2014-07-23 | 中国移动通信集团上海有限公司 | 海量日志信息的处理方法、装置与系统 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
CN106227644A (zh) * | 2016-07-21 | 2016-12-14 | 柳州龙辉科技有限公司 | 一种海量信息处理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108268485A (zh) | 2018-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268485B (zh) | 一种日志实时分析方法及系统 | |
US11196756B2 (en) | Identifying notable events based on execution of correlation searches | |
US10984010B2 (en) | Query summary generation using row-column data storage | |
US9009139B2 (en) | Query pipeline | |
TWI434190B (zh) | 在支持查詢時有效地儲存記錄資料以協助電腦網路安全 | |
CN109902072A (zh) | 一种日志处理系统 | |
Sindhu et al. | Digital forensics and cyber crime datamining | |
CN111885040A (zh) | 分布式网络态势感知方法、系统、服务器及节点设备 | |
CN107273267A (zh) | 基于elastic组件的日志分析方法 | |
CN107229556A (zh) | 基于elastic组件的日志分析系统 | |
US20140195502A1 (en) | Multidimension column-based partitioning and storage | |
Prathibha et al. | Design of a hybrid intrusion detection system using snort and hadoop | |
El Arass et al. | Smart SIEM: From big data logs and events to smart data alerts | |
Murugesan et al. | Audit log management in MongoDB | |
KR101656011B1 (ko) | 빅데이터 기반 고장 모니터링 시스템 및 방법 | |
CN114020893A (zh) | 一种基于分布式存储的日志检索方法、装置及存储介质 | |
CN104079606A (zh) | 基于gis超级云计算的网络对象与事件一体化监控方法 | |
US11835989B1 (en) | FPGA search in a cloud compute node | |
CN111259088B (zh) | 一种基于画像技术的用户网络行为审计建模方法 | |
Zhong et al. | Leveraging decision making in cyber security analysis through data cleaning | |
CN117040879A (zh) | 威胁溯源分析方法、溯源分析模型建立方法及装置 | |
Yang et al. | Research on Data Processing and Visualization of Simulation System | |
Park et al. | RAVEN: RAS data analysis through visually enhanced navigation | |
Kiuru | Information security incident analysis in Finland: based on pseudonymized open data published by the Finnish Transport and Communications Agency | |
Zou et al. | Research on Situation Awareness of Universities’ Network Information Security in the Big Data Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |