CN111930886A

CN111930886A - 日志处理方法、系统、存储介质及计算机设备

Info

Publication number: CN111930886A
Application number: CN202010638332.8A
Authority: CN
Inventors: 章玲玲; 林楠; 肖勇才; 徐健
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-11-13

Abstract

本发明公开了一种日志处理方法、系统、存储介质及计算机设备，该方法包括：日志收集，基于SIEM技术收集数据源，所述数据源包括运维类日志和安全类日志；日志解析，通过日志类型的调研和分析，明细化所需的日志字段，进行全量日志的范式化整合，并通过实时计算引擎，结合攻击关联向量，进行数据清洗和预处理；日志存储和分析，将解析后的数据放入消息队列，此时数据将分为两份，一份范式化后的数据直接入库，另一份基于范式化后的结果用于查询、统计、分析；日志展示。本发明能够对大量的日志文件进行处理，解决现有技术安全产品的日志相互之间不关联互动、信息不互换共享，难以形成有价值的、全面系统的安全态势分析的问题。

Description

日志处理方法、系统、存储介质及计算机设备

技术领域

本发明涉及电网安全技术领域，特别是涉及一种日志处理方法、系统、存储介质及计算机设备。

背景技术

目前，随着信息化的快速发展，国内外网络安全形势日趋复杂，乌克兰、委内瑞拉多次遭遇网络攻击导致停电、美国电力系统因防火墙漏洞导致运行中断、南非电力公司遭勒索病毒攻击导致系统中断等事件表明，针对能源行业的敌对势力始终存在，通过黑客手段攻击电力系统的行为已经成为现实。

为有效应对日趋复杂的网络安全形势，面对可能出现的有组织、系统性、高频度、长期潜伏的网络攻击，亟需在现有技防措施和防护体系基础上，建立更加完善的管理、技术体系，强化网络安全防护与事件溯源能力。

但电力系统网络安全是一个复杂的系统工程，其中有大量的日志文件需要进行处理，且现有的大量安全产品使得安全运营变得日渐庞杂，安全产品的日志相互之间不关联互动、信息不互换共享，难以形成有价值的、全面系统的安全态势分析。

发明内容

为此，本发明的一个实施例提出一种日志处理方法，以对大量的日志文件进行处理，解决现有技术安全产品的日志相互之间不关联互动、信息不互换共享，难以形成有价值的、全面系统的安全态势分析的问题。

根据本发明一实施例的日志处理方法，包括：

日志收集，基于SIEM技术收集数据源，所述数据源包括运维类日志和安全类日志，所述运维类日志包括操作系统日志、中间件日志、数据库日志、网络设备日志、安全设备日志、业务系统的操作日志和/或告警日志，所述安全类日志为安全设备的攻击日志；

日志解析，通过日志类型的调研和分析，明细化所需的日志字段，进行全量日志的范式化整合，并通过实时计算引擎，结合攻击关联向量，进行数据清洗和预处理；

日志存储和分析，将解析后的数据放入消息队列，此时数据将分为两份，一份范式化后的数据直接入库，另一份基于范式化后的结果用于查询、统计、分析；

日志展示，将分析结果或查询统计结果送至前端进行调用和展示。

根据本发明实施例的日志处理方法，具有以下有益效果：

(1)基于SIEM技术收集的数据源包括运维类日志和安全类日志，能够聚合来自网络、服务器、数据库、应用程序和其他安全系统(如防火墙，防病毒和入侵检测系统(IDS))的数据；

(2)将数据、威胁参与者和攻击模式数据的威胁情报源相结合；

(3)将事件和相关数据进行链接，以实现真实的安全事件、威胁、漏洞和取证发现；

(4)能够识别数据元素之间更深层次的关系，以及与已知趋势相比的异常，并将它们与安全问题联系起来；

(5)能够分析事件并发出警报；

(6)仪表板和可视化，允许安全人员查看事件数据，识别不符合标准模式的活动；

(7)能够长期存储历史数据，以便为合规性要求、追踪取证等提供数据。

(8)允许安全人员对SIEM数据运行查询，过滤和透视数据，以主动发现威胁或漏洞。

另外，根据本发明上述实施例的日志处理方法，还可以具有如下附加的技术特征：

进一步地，在本发明的一个实施例中，所述日志解析的步骤具体包括：

对操作系统日志及数据库日志按照各自类型解析，建立不同的索引序列，以进行主机排障及安全关联分析；

对中间件日志进行合并解析，集合成HTTP访问请求索引，以作为安全分析的基准数据；

对网络设备日志按照各自类型解析，建立不同的索引序列，以进行设备排障及安全关联分析；

对安全设备日志进行合并解析，集合成安全告警索引，以直接进行处置。

进一步地，在本发明的一个实施例中，所述日志存储和分析的步骤中，采用全文搜索引擎ES进行日志数据存储，所述全文搜索引擎ES采样分布式集群架构，包括管理节点、协调节点、数据节点；

所述数据节点用于存储数据，创建本地索引，同时处理数据相关的操作；

所述协调节点用于接收客户端的请求，同时进行请求的转发和合并；

所述管理节点用于集群管理。

进一步地，在本发明的一个实施例中，所述日志存储的步骤包括：

将所述数据节点根据不同的资源配比打上标签；

定义2个时序索引的Index Template，包括Hot Template和Warm Template；

用Hot Template创建一个Active Index名为active-logs-1，别名active-logs，支持索引切割；

插入一定数据后，通过roller over api将active-logs切割，并将切割前的Index移动到Warm Nodes上，并阻止写入；

通过ShrinkingAPI收缩索引active-logs-1为inactive-logs-1，原Shard为5，收缩到2或3；

通过force-merging api合并inactive-logs-1索引每个Shard的Segment；

删除active-logs-1。

进一步地，在本发明的一个实施例中，所述日志分析的步骤包括：

关键字匹配，根据基本关键字或定制正则匹配进行日志分析；

统计分析，基于时间、频率、字段值的统计分析；

聚合分析，以计算出的基准数据为标准进行的异常分析；

关联分析，将多个告警场景的数据进行关联分析，以深度挖掘内在联系，还原攻击场景和攻击结果。

本发明的另一个实施例提出一种日志处理系统，以对大量的日志文件进行处理，解决现有技术安全产品的日志相互之间不关联互动、信息不互换共享，难以形成有价值的、全面系统的安全态势分析的问题。

一种日志处理系统，包括：

日志收集模块，用于基于SIEM技术收集数据源，所述数据源包括运维类日志和安全类日志，所述运维类日志包括操作系统日志、中间件日志、数据库日志、网络设备日志、安全设备日志、业务系统的操作日志和/或告警日志，所述安全类日志为安全设备的攻击日志；

日志解析模块，用于通过日志类型的调研和分析，明细化所需的日志字段，进行全量日志的范式化整合，并通过实时计算引擎，结合攻击关联向量，进行数据清洗和预处理；

日志存储和分析模块，用于将解析后的数据放入消息队列，此时数据将分为两份，一份范式化后的数据直接入库，另一份基于范式化后的结果用于查询、统计、分析；

日志展示模块，用于将分析结果或查询统计结果送至前端进行调用和展示。

根据本发明实施例的日志处理系统，具有以下有益效果：

(5)能够分析事件并发出警报；

另外，根据本发明上述实施例的日志处理系统，还可以具有如下附加的技术特征：

进一步地，在本发明的一个实施例中，所述日志解析模块具体用于：

进一步地，在本发明的一个实施例中，所述日志存储和分析模块采用全文搜索引擎ES进行日志数据存储，所述全文搜索引擎ES采样分布式集群架构，包括管理节点、协调节点、数据节点；

所述管理节点用于集群管理。

进一步地，在本发明的一个实施例中，所述日志存储和分析模块用于：

将所述数据节点根据不同的资源配比打上标签；

定义2个时序索引的Index Template，包括Hot Template和Warm Template；

通过force-merging api合并inactive-logs-1索引每个Shard的Segment；

删除active-logs-1。

进一步地，在本发明的一个实施例中，所述日志存储和分析模块还用于：

统计分析，基于时间、频率、字段值的统计分析；

聚合分析，以计算出的基准数据为标准进行的异常分析；

本发明的另一个实施例还提出一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的另一个实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明第一实施例的日志处理系统方法的流程图；

图2是根据本发明第二实施例的日志处理系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提出的日志处理方法，包括步骤S101～S104：

S101，日志收集，基于SIEM技术收集数据源，所述数据源包括运维类日志和安全类日志，所述运维类日志包括操作系统日志、中间件日志、数据库日志、网络设备日志、安全设备日志、业务系统的操作日志和/或告警日志，所述安全类日志为安全设备的攻击日志。

其中，采用，采用SIEM(安全信息和事件管理)技术，可以通过广泛的事件收集，以及跨不同来源关联和分析事件的能力来支持威胁检测和安全事件响应。

本实施例中，使用的收集工具如下：

NXLog：

NXLog是用C语言写的一个开源日志收集处理软件，它是一个模块化、多线程、高性能的日志管理解决方案，支持多平台。可以处理来自许多不同来源的大量事件日志。支持的日志处理类型包括重写、关联、警报、过滤和模式匹配。其他功能包括计划、日志文件轮换、缓冲和优先处理。处理完成后，NXLog可以以任何支持的格式存储或转发事件日志，输入、输出和处理采用模块化架构和强大的配置语言实现。

Rsyslog：

Rsyslog(rocket-fast system for log)，它提供了高性能、高安全功能和模块化设计，是syslog的升级版。rsyslog能够接受各种各样的日志来源，将其输入、输出的结果到不同的目的地。Rsyslog可以提供超过每秒一百万条消息给目标文件。具备多线程、多协议传输(UDP、TCP、SSL、TLS、RELP)、支持多种加密协议(ssl、tls、relp)、过滤器可过滤日志信息中任何部分的内容、自定义输出格式等多种特点。

Logstash：

Logstash是一个应用程序日志、事件传输、处理、管理和搜索的开源服务器端数据管道，能够从多个来源采集数据和转换数据，然后将数据发送到多个存储节点中。

Logstash能够动态地采集、转换和传输数据，不受格式或复杂度的影响。例如：利用Grok从非结构化数据中派生出结构、从IP地址解码出地理坐标、匿名化或排除敏感字段并简化整体处理过程。

Logstash支持各种输入选择，可以同时从众多常用来源捕捉事件。能够以连续的流式传输方式，轻松地从日志、指标、Web应用、数据存储以及各种AWS服务采集数据。

Logstash过滤器能够解析各个事件，识别已命名的字段以构建结构，并将它们转换成通用格式，以便进行更强大的分析。

Logstash采用可插拔框架，拥有200多个插件。可以将不同的输入选择、过滤器和输出选择混合搭配、精心安排，让它们在管道中和谐地运行。

beats：

beats是一个轻量型的数据采集器平台，集合了多种单一用途数据采集器。可从海量的机器和系统向日志存储器发送数据。主要包括但不限于以下几类采集器：

filebeat，进行文件和目录采集，主要用于收集日志数据。

metricbeat，进行指标采集，指标可以是系统的，也可以是众多中间件产品的，主要用于监控系统和软件的性能。

packetbeat，通过网络抓包、协议分析，对一些请求响应式的系统通信进行监控和数据收集，可以收集到很多常规方式无法收集到的信息。

Winlogbeat，专门针对windows的event log进行的数据采集。

Heartbeat，系统间连通性检测，比如icmp、tcp、http等系统的连通性监控。

Flume：

Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。Flume构建在日志流之上的灵活架构中，它具有可靠性机制、故障转移和恢复机制，具有强大的容错性，能实现对日志流数据的实时在线分析。Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方的能力。

S102，日志解析，通过日志类型的调研和分析，明细化所需的日志字段，进行全量日志的范式化整合，并通过实时计算引擎，结合攻击关联向量，进行数据清洗和预处理。

其中，采集端接收到数据源转发过来的日志，随后采集端对日志进行范式化清洗，清洗过程中，会将不同类型的事件进行解析、映射，处理完成之后进行统计分析。

具体需要按照不同的日志源和日志格式，对日志进行范式化解析，日志解析的步骤具体包括：

日志解析过程着重关注中间件和安全设备，此2类作为后续的安全事件及攻击事件的数据基础。

一个常规的中间件请求日志中包含时间、客户端地址、URL等标准信息，但各中间件的顺序和格式难免不同，因此需进行统一的格式化解析，并以json形式的格式生成和展示。

而安全设备日志主要为各类告警日志，按照日志大类可分为访问控制策略、web攻击、暴力破解攻击、恶意邮件攻击等。

S103，日志存储和分析，将解析后的数据放入消息队列，此时数据将分为两份，一份范式化后的数据直接入库，另一份基于范式化后的结果用于查询、统计、分析。

其中，具体采用全文搜索引擎ES进行日志数据存储，所述全文搜索引擎ES采样分布式集群架构，组建最基本的三节点功能，包括管理节点(Data node)、协调节点(Cordinating node)、数据节点(Master node)；

所述数据节点用于存储数据，创建本地索引，同时处理数据相关的操作，如CRUD、搜索、聚合等；

所述协调节点用于接收客户端的请求，同时进行请求的转发和合并，搜索和bulk等请求可能会涉及到多个节点上的不同shard中的数据。如一个search请求将分为两阶段执行：一是coordinating node接收客户端的search request，随后coordinating node会将此请求转发至存储相关数据的node，每个data node均会在自身本地执行请求操作，同时返回结果至coordinating node；二是coordinating node将返回过来的所有请求结果进行缩减和合并，合并为一个global结果；

所述管理节点用于集群管理，承担集群管理的功能，如集群节点的管理，索引的管理等。

在日志存储中，需要进行冷热架构，即Hot-Warm架构，通过对CPU，磁盘、内存等硬件资源合理的规划和利用，达到性能和效率的最大化。

为了保证大规模时序索引实时数据分析的时效性，可以根据资源配置的不同将DataNodes进行分类形成分层或分组架构。一部分支持新数据的读写，另一部分仅支持历史数据的存储，存放一些查询发生机率较低的数据。

基于上述内容，日志存储的步骤具体包括：

将所述数据节点根据不同的资源配比打上标签；

定义2个时序索引的Index Template，包括Hot Template和Warm Template；

通过force-merging api合并inactive-logs-1索引每个Shard的Segment；

删除active-logs-1。

在进行日志安全分析时，场景定义是基本前提，通过创建场景的安全问题，提炼分析思路，最终转化成日志分析的规则。按照分析需求定制了安全场景之后，即可针对特定的安全场景构建分析模式，具体包括：

关键字匹配，根据基本关键字或定制正则匹配进行日志分析，主流安全产品大部分以此为基础，适用场景一般为web和主机漏洞类型的攻击；

统计分析，基于时间、频率、字段值的统计分析，适用场景包括暴力破解、目录爆破等；

聚合分析，以计算出的基准数据为标准进行的异常分析，适用场景包括用户行为异常；

S104，日志展示，将分析结果或查询统计结果送至前端进行调用和展示。

其中，提供基于web界面的实时数据展示，进行搜索、分析和可视化展现，并能依据用户的使用习惯进行仪表板定制化，通过仪表板和可视化，具体创建可视化，以允许安全人员查看事件数据，识别不符合标准模式的活动。

具体实施时，使用的工具包括：

Kibana：

Kibana是为Elasticsearc设计的开源分析和可视化平台。可以使用Kibana来搜索，查看存储在Elasticsearch索引中的数据并与之交互。也可以很容易实现高级的数据分析和可视化，以图表的形式展现出来。

Graylog：

Graylog是一个开源的日志聚合、分析、审计、展现和预警工具。

综上，根据本发明实施例的日志处理方法，具有以下有益效果：

(5)能够分析事件并发出警报；

请参阅图2，基于同一发明构思，本发明第二实施例提出的日志处理系统，所述系统包括：

日志收集模块10，用于基于SIEM技术收集数据源，所述数据源包括运维类日志和安全类日志，所述运维类日志包括操作系统日志、中间件日志、数据库日志、网络设备日志、安全设备日志、业务系统的操作日志和/或告警日志，所述安全类日志为安全设备的攻击日志；

日志解析模块20，用于通过日志类型的调研和分析，明细化所需的日志字段，进行全量日志的范式化整合，并通过实时计算引擎，结合攻击关联向量，进行数据清洗和预处理；

日志存储和分析模块30，用于将解析后的数据放入消息队列，此时数据将分为两份，一份范式化后的数据直接入库，另一份基于范式化后的结果用于查询、统计、分析；

日志展示模块40，用于将分析结果或查询统计结果送至前端进行调用和展示。

本实施例中，所述日志解析模块20具体用于：

本实施例中，所述日志存储和分析模块30采用全文搜索引擎ES进行日志数据存储，所述全文搜索引擎ES采样分布式集群架构，包括管理节点、协调节点、数据节点；

所述管理节点用于集群管理。

本实施例中，所述日志存储和分析模块30用于：

将所述数据节点根据不同的资源配比打上标签；

定义2个时序索引的Index Template，包括Hot Template和Warm Template；

通过force-merging api合并inactive-logs-1索引每个Shard的Segment；

删除active-logs-1。

本实施例中，所述日志存储和分析模块30还用于：

统计分析，基于时间、频率、字段值的统计分析；

聚合分析，以计算出的基准数据为标准进行的异常分析；

根据本发明实施例的日志处理系统，具有以下有益效果：

(5)能够分析事件并发出警报；

此外，本发明的实施例还提出一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述方法的步骤。

此外，本发明的实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种日志处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的日志处理方法，其特征在于，所述日志解析的步骤具体包括：

3.根据权利要求1所述的日志处理方法，其特征在于，所述日志存储和分析的步骤中，采用全文搜索引擎ES进行日志数据存储，所述全文搜索引擎ES采样分布式集群架构，包括管理节点、协调节点、数据节点；

所述管理节点用于集群管理。

4.根据权利要求3所述的日志处理方法，其特征在于，所述日志存储的步骤包括：

将所述数据节点根据不同的资源配比打上标签；

定义2个时序索引的Index Template，包括Hot Template和Warm Template；

通过force-merging api合并inactive-logs-1索引每个Shard的Segment；

删除active-logs-1。

5.根据权利要求4所述的日志处理方法，其特征在于，所述日志分析的步骤包括：

统计分析，基于时间、频率、字段值的统计分析；

聚合分析，以计算出的基准数据为标准进行的异常分析；

6.一种日志处理系统，其特征在于，所述系统包括：

7.根据权利要求6所述的日志处理系统，其特征在于，所述日志解析模块具体用于：

8.根据权利要求6所述的日志处理系统，其特征在于，所述日志存储和分析模块采用全文搜索引擎ES进行日志数据存储，所述全文搜索引擎ES采样分布式集群架构，包括管理节点、协调节点、数据节点；

所述管理节点用于集群管理。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任意一项所述的方法。

10.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。