CN113238912A

CN113238912A - 一种网络安全日志数据的聚合处理方法

Info

Publication number: CN113238912A
Application number: CN202110500278.5A
Authority: CN
Inventors: 丁丽; 吕卓航; 楼书逸; 严寒冰; 李志辉; 朱天; 饶毓; 周昊; 高川; 徐剑; 郭晶; 吕志泉; 韩志辉; 马莉雅; 雷君; 贾世琳; 贺铮
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-08-10
Anticipated expiration: 2041-05-08
Also published as: CN113238912B

Abstract

本发明提出了一种网络安全日志数据的聚合处理方法，本申请涉及一种聚合处理方法，尤其涉及一种网络安全日志数据的聚合处理方法，属于数据处理领域。本发明首先，基于预先设置的配置获取不同类型的日志数据，然后，对不同来源的同种类型日志数据进行规范化处理和对日志数据进行分析并且提取核心内容；最后，根据会话关系及日志的核心内容对数据进行分组聚合处理和非核心内容的细节信息进行内容压缩处理。保证实体交互关系无损，同时保留了业务分析中需要的细节信息，保证实时分析过程中相关数据的完整性的同时，提高了数据的查询使用效率。解决了现有技术中存在的网络安全日志数据存储占用空间大、查询效率低下的技术问题。

Description

一种网络安全日志数据的聚合处理方法

技术领域

本申请涉及一种聚合处理方法，尤其涉及一种网络安全日志数据的聚合处理方法，属于数据处理领域。

背景技术

随着网络技术的日益发展，网络应用的日渐广泛，维护和保障网络安全的重要性愈发凸显，现阶段的网络信息数据的快速增长也对目前的网络安全分析工作提出了更高的要求，而大数据技术作为一种新型技术，在网络安全分析工作中得到了广泛应用，为网络安全分析与防御提供了新动力，成为网络安全分析过程中不可或缺的存在。

在当前的网络安全分析工作中，现存的网络安全日志数据尚未很好地在分析过程中发挥作用。日志数据存储时组织形式仍为原始日志的形式，存在数据种类繁多、数据量巨大、存储形式复杂等问题；此外，各维度的日志数据，存量和增量数据都极大，大量数据除时间属性外，其余属性存在极大的冗余，不利于日志数据的查询及后续分析。

在不同的数据分析场景中，分析人员希望从数据中获取的信息也会有所不同，这就导致了数据中的部分数据在实际分析中是毫无价值的，而现有技术的方法在数据聚合处理时，也将无价值的数据一同处理并存储至数据库中，这就会导致在后续的数据分析中导入无价值的数据，造成数据量倍增，同时也增加了分析人员在实际分析过程中数据的使用难度。

因此，亟待一种可以解决网络安全日志数据存储占用空间大、查询效率低下的数据处理方法。

发明内容

为解决现有技术中存在的网络安全日志数据存储占用空间大、查询效率低下的技术问题，本发明提供了一种网络安全日志数据的聚合处理方法，从网络安全分析的实际场景出发，结合各类网络安全日志数据结构、数据量、存储方法的综合分析，提出了“数据规模尽量压减、主体信息确保无损、细节信息尽量保存”的数据处理原则，通过基于“会话关系与日志类型”进行分组、对细节性内容提炼压缩的方法对数据进行处理，将分析过程中无价值的数据进行压缩。极大的减少了数据之间的冗余，弥补了现有技术的不足。

一种网络安全日志数据的聚合处理方法，包括以下步骤：

S110.基于预先设置的配置获取不同类型的日志数据；

S120.对不同来源的同种类型日志数据进行规范化处理；

S130.构建模型对日志数据进行分析提取核心内容；

S140.根据会话关系及日志的核心内容对数据进行分组聚合处理；

S150.对非核心内容的细节信息进行内容压缩处理。

优选的，步骤S110所述基于预先设置的配置获取不同类型的日志数据具体包括以下步骤：

S210.根据各类型日志数据的信息设定相关配置；

S220.读取配置内容进行任务调度处理；

S230.任务根据配置中日志的获取方式等进行数据获取。

优选的，步骤S120所述对不同来源的同种类型日志数据进行规范化处理具体包括以下步骤：

S310.获取至少一个来源的待规范化日志数据；

S320.根据待规范化日志数据的日志类型构建通用结构的信息索引；

S330.根据服务器的集群节点多线程地将数据源进行分片处理；

S340.整合各节点的数据获得规范化数据集。

优选的，步骤S130所述构建模型对日志数据进行分析提取核心内容具体包括以下步骤：

S410.根据实际分析场景构建不同类型日志数据核心内容提取模型；

S420.确定日志数据的数据说明信息提取相应的协议信息；

S430.提取数据内容后根据协议信息集的内容进行解码；

S440.根据模型中构建的相应特征值对日志内容进行计算后提取核心内容。

优选的，步骤S140所述根据会话关系及日志的核心内容对数据进行分组聚合处理具体包括以下步骤：

S510.把规范化数据集进行分块并分配到多个计算节点；

S520.根据各类日志的主体信息对数据块进行分组聚合函数的计算；

S530.整合各节点的计算结果得到最终的聚合数据结果集。

优选的，步骤S150所述对非核心内容的细节信息进行内容压缩处理具体包括以下步骤：

S610.按照细节信息重要程度及实际场景提炼细节信息；

S620.读取原始细节信息数据使用支持的压缩算法进行压缩得到二进制数组；

S630.采用支持的编码工具对二进制数组进行编码得到字符串文本；

S640.字符串文本拼接压缩算法和编码方式得到压缩文本，压缩文本和提炼细节整合分组结果后存储。

优选的，步骤S110所述基于预先设置的配置具体包括，日志数据种类、获取日志数据的时间范围和频率、数据的获取方式；所述日志数据类型具体包括，网络实体基本信息属性数据、网络属性数据和安全属性数据；所述日志数据的获取方式包括实时数据获取和离线数据获取；

步骤S120所述规范化处理具体包括，控制数据的处理和结构化不一致的数据处理；步骤S130所述核心内容具体包括，漏洞攻击相关日志数据和恶意样本传播相关日志数据；所述的核心内容根据实际需要进行配置；

步骤S130所述漏洞攻击相关日志数据中的主体为攻击者IP、被攻击者IP和使用的漏洞；步骤S130所述恶意样本传播相关日志数据的主体为样本的MD5值、样本家族和样本类型；

步骤S140所述聚合处理具体是有多个集群节点的集群服务器进行数据聚合处理，所述集群节点的负载状态具体包括处理器的使用率、可用线程数量。

优选的，步骤S230所述日志数据的获取方式包括实时数据获取和离线数据获取；所述实时数据获取具体包括，直连数据库查询、调用API接口获取；所述离线数据获取通过对离线数据文件进行读取后实现。

步骤520所述分组聚合函数的计算具体包括分组求和、分组求算数平均值和分组求最值。

优选的，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现一种网络安全日志数据的聚合处理方法的步骤。

优选的，所述计算机程序被处理器执行时实现一种网络安全日志数据的聚合处理方法。

本发明的有益效果如下：一种网络安全日志数据的聚合处理方法，对比传统的数据聚合处理算法，本发明所提供的方法保证实体交互关系无损，同时保留了业务分析中需要的细节信息，保证实时分析过程中相关数据的完整性的同时，提高了数据的查询使用效率。解决了现有技术中存在的网络安全日志数据存储占用空间大、查询效率低下的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明所述的聚合处理方法流程示意图；

图2为本发明所述的聚合处理方法中获取不同类型的日志数据的流程示意图；

图3为本发明所述的聚合处理方法中规范化处理的流程示意图；

图4为本发明所述的聚合处理方法中分析提取核心内容的流程示意图；

图5为本发明所述的聚合处理方法中数据进行分组聚合处理的流程示意图；

图6为本发明所述的聚合处理方法中内容压缩处理的流程示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例、参照图1-6，说明本实施例，本实施例的一种网络安全日志数据的聚合处理方法，包括以下步骤：

步骤110、基于预先设置的配置获取不同类型的日志数据；预先设置的配置包括日志数据种类、获取数据的时间范围和频率、数据的获取方式等内容。在本实施例中数据获取的方式主要采用直连数据库获取、API接口获取及离线数据文件获取三种方式。根据配置好的频率及获取方式等信息，通过任务调度机制定时获取相关种类的日志数据进行后续的分析处理；具体包括以下步骤：

步骤210、根据各类型日志数据的信息设定相关配置；各类型日志数据主要包括网络实体基本信息属性数据，网络属性数据和安全属性数据等多种类型的日志数据，进行配置时首先需要对各种类型的数据的实际存储场景及获取方式、获取频率等进行分析，完成相关配置的设定工作。

步骤220、读取配置内容进行任务调度处理；读取各类型日志数据，根据配置中已经设定好的任务执行频率、执行时间等内容创建相关任务开始执行，进行制定类型的日志数据获取。

步骤230、任务根据配置中日志的获取方式等进行数据获取；任务执行后需要按照配置中的日志获取方式获取日志数据；日志的获取方式主要可以包括实时数据获取和离线数据获取两种，其中实时数据获取可以包括直连数据库查询、调用API接口获取等；离线数据获取则主要通过对离线数据文件进行读取后实现。针对特殊情况，可以采用实时与离线配合的方式，以本实施例中的安全事件类型的日志获取为例，因为存储环境原因无法通过单一的方式完成数据获取，所以在实际实施过程中，先通过实时连接数据库查询后生成相应的数据文件，然后发送到指定的位置后通过读取离线数据文件完成日志数据获取。

步骤120、对不同来源的同种类型日志数据进行规范化处理；其中针对相同种类的日志数据，可能存在多种数据来源的情况，这时在进行后续的数据处理过程中就需要把同种类型的数据进行结构的统一。数据规范化处理会将上述步骤获取到的数据进行规范化，通过集群式环境的各个节点并行对数据进行处理后整合为当前日志种类通用结构的规范化数据集。在本实施例中的规范化处理主要包括空值数据的处理和结构化不一致的数据处理两种。具体包括以下步骤：

步骤310、获取至少一个来源的待规范化日志数据；日志数据存储形式复杂，可能存在同种类型的日志数据存储在不同位置，使用不同类型数据库，存储结构存在差异的情况，本步骤主要根据数据获取步骤中获得的日志数据根据日志数据类型进行整合。

步骤320、根据待规范化日志数据的日志类型构建通用结构的信息索引；信息索引是一种数据模型，以事先约定好的封装方式对待规范化的数据进行统一存储和描述，从而将不同来源，不同结构的数据结构成一种通用结构，同时需要结合网络安全分析场景，剔除其中的无价值字段。

步骤330、根据服务器的集群节点多线程地将数据源进行分片处理；将待处理数据源进行分片，通过服务器的多线程处理能力，对分片进行并发处理，提高异构数据的处理速度。分片时需要考虑服务器的处理能力，避免分片数量过少导致线程闲置或者分片数量过多等待时间过长的情况。

步骤340、整合各节点的数据获得规范化数据集。按照分片时确定的数据分片信息，按照相应的分片从各个处理器节点获取对应的处理数据进行整合，从而生成异构数据源规范化的完整数据集，实现对数据源的规范化处理。

步骤130、构建模型对日志数据进行分析提取核心内容；不同类型日志数据的核心内容会有所差异，以本实施例中的日志数据为例，其中漏洞攻击相关日志数据中的主体为攻击者IP、被攻击者IP、使用的漏洞等内容，而在恶意样本传播相关日志数据中的样本的MD5值、样本家族、样本类型等内容为主体信息。同时核心内容还要结合网络安全分析中的实际需要进行配置，以便满足实际分析场景下的不同需求。具体包括以下步骤：

步骤410、根据实际分析场景构建不同类型日志数据核心内容提取模型；日志数据核心内容模型的构建需结合各类型日志的实际分析场景进行综合性的分析后确定，不同类型的日志模型中所包含的特征向量也不同，如本实施例中的恶意代码传播类的安全日志数据中，恶意代码的名称、代码家族等内容就是分析过程中需要进行关注的。

步骤420、确定日志数据的数据说明信息提取相应的协议信息；对于日志数据的协议头部信息进行提取，根据其中的数据类型信息，判定内容是否为文本信息，并根据数据说明信息创建相应的协议信息集，初始化其中的数据类型、数据编码、数据长度等信息。

步骤430、提取数据内容后根据协议信息集的内容进行解码；

步骤440、根据模型中构建的相应特征值对日志内容进行计算后提取核心内容。

步骤140、根据会话关系及日志的核心内容对数据进行分组聚合处理；聚合处理主要对待处理的规范化数据进行分块，利用分布式环境下预先配置好的相关框架对分块后的数据进行分组聚合函数的计算，最后对计算结果进行整合，提高处理效率。具体包括以下步骤：

S510.把规范化数据集进行分块并分配到多个计算节点；可使用包含有多个集群节点的集群服务器进行数据聚合处理，集群节点的负载状态可以包括处理器的使用率、可用线程数量等信息，根据负载状态，均衡分配每个集群节点的数据聚合处理任务。

本实施例中，预设一种集群运算框架，如：Spark、MapReduce等，通过集群运算框架搭配集群管理员和分布式的存储系统，能够实现对大规模数据的分布式并行计算。在这些集群运算框架中，数据集是构成集群运算框架和实现分布式并行计算的基础。

步骤520、根据各类日志的主体信息对数据块进行分组聚合函数的计算；分组聚合函数的计算具体可以为分组求和、分组求算数平均值、分组求最值等，可分别使用相应的聚合函数。

步骤530、整合各节点的计算结果得到最终的聚合数据结果集。按照分块时确定的信息，整合各节点的计算结果，对整合的结果再次进行聚合，从而生成最终的完整数据集。

步骤150、对非核心内容的细节信息进行内容压缩处理；进行内容压缩前需要对原始数据进行分析，对非核心内容的细节数据根据对实际场景的重要程度进行提炼，然后对原始的细节数据进行压缩编码，得到完整的细节压缩数据，之后对压缩文本和提炼细节整合分组数据后进行存储。具体包括以下步骤：

步骤610、按照细节信息重要程度及实际场景提炼细节信息；对日志间的核心内容与细节内容之间的关联关系进行分析，确定细节信息数据的重要性，然后根据重要程度进行不同程度的提炼。

在本实施例中，安全事件相关日志的客体信息中的端口和URL等信息与主体之间的关联性强度适中，在进行处理时按照实际需要保留TopN信息即可，而客体信息中的联通时间等则重要程度很低，处理时按照时间按照24小时进行次数统计即可。

步骤620、读取原始细节信息数据使用支持的压缩算法进行压缩得到二进制数组；在本实施例中，采用Java语言的软件开发工具包，那么对应的支持的压缩算法也就是JDK自带压缩算法。也可以采用其他开源框架的压缩算法，如GZIP压缩算法、DEFLATE压缩算法、SNAPPY压缩算法等。

步骤630、采用支持的编码工具对二进制数组进行编码得到字符串文本；采用的编码工具可以适用Utf-16、Utf-32、Punycode、Base64等多种格式编码解码。例如在本实施例中采用Base64编码，后续如果需要对压缩数据读取中也采用Base64解码来解决。

步骤640、字符串文本拼接压缩算法和编码方式得到压缩文本，压缩文本和提炼细节整合分组结果后存储。压缩算法和编码工具可以采用代码表形式标注唯一标识，拼接时可将唯一标识插入到字符串文本中，插入位置是统一预先设定的，可以是字符串文本中的任意位置，优选的预设位置字符串文本的开头或结束位置。之后把压缩的完整数据和提炼的数据整合根据会话聚合分组的数据后进行存储。

本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，在以上实施例中，只要不矛盾的技术方案都能够进行排列组合，本领域技术人员能够根据排列组合的数学知识穷尽所有可能，因此本发明不再对排列组合后的技术方案进行一一说明，但应该理解为排列组合后的技术方案已经被本发明所公开。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。

Claims

1.一种网络安全日志数据的聚合处理方法，其特征在于，包括以下步骤：

S110.基于预先设置的配置获取不同类型的日志数据；

S120.对不同来源的同种类型日志数据进行规范化处理；

S130.构建模型对日志数据进行分析提取核心内容；

S150.对非核心内容的细节信息进行内容压缩处理。

2.根据权利要求1所述的方法，其特征在于，步骤S110所述基于预先设置的配置获取不同类型的日志数据具体包括以下步骤：

S210.根据各类型日志数据的信息设定相关配置；

S220.读取配置内容进行任务调度处理；

S230.任务根据配置中日志的获取方式等进行数据获取。

3.根据权利要求2所述的方法，其特征在于，步骤S120所述对不同来源的同种类型日志数据进行规范化处理具体包括以下步骤：

S310.获取至少一个来源的待规范化日志数据；

S340.整合各节点的数据获得规范化数据集。

4.根据权利要求3所述的方法，其特征在于，步骤S130所述构建模型对日志数据进行分析提取核心内容具体包括以下步骤：

S420.确定日志数据的数据说明信息提取相应的协议信息；

S430.提取数据内容后根据协议信息集的内容进行解码；

5.根据权利要求4所述的方法，其特征在于，步骤S140所述根据会话关系及日志的核心内容对数据进行分组聚合处理具体包括以下步骤：

S510.把规范化数据集进行分块并分配到多个计算节点；

S530.整合各节点的计算结果得到最终的聚合数据结果集。

6.根据权利要求5所述的方法，其特征在于，步骤S150所述对非核心内容的细节信息进行内容压缩处理具体包括以下步骤：

S610.按照细节信息重要程度及实际场景提炼细节信息；

7.根据权利要求6所述的方法，其特征在于，

步骤S110所述基于预先设置的配置具体包括，日志数据种类、获取日志数据的时间范围和频率、数据的获取方式；所述日志数据类型具体包括，网络实体基本信息属性数据、网络属性数据和安全属性数据；所述日志数据的获取方式包括实时数据获取和离线数据获取；

步骤S120所述规范化处理具体包括，控制数据的处理和结构化不一致的数据处理；

步骤S130所述核心内容具体包括，漏洞攻击相关日志数据和恶意样本传播相关日志数据；所述的核心内容根据实际需要进行配置；

步骤S130所述漏洞攻击相关日志数据中的主体为攻击者IP、被攻击者IP和使用的漏洞；

步骤S130所述恶意样本传播相关日志数据的主体为样本的MD5值、样本家族和样本类型；

8.根据权利要求7所述的方法，其特征在于，步骤S230所述日志数据的获取方式包括实时数据获取和离线数据获取；所述实时数据获取具体包括，直连数据库查询、调用API接口获取；所述离线数据获取通过对离线数据文件进行读取后实现。

9.一种计算机装置，其特征在于：包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1至8任一项所述的一种网络安全日志数据的聚合处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至8任一项所述的一种网络安全日志数据的聚合处理方法。