CN113238912B - 一种网络安全日志数据的聚合处理方法 - Google Patents

一种网络安全日志数据的聚合处理方法 Download PDF

Info

Publication number
CN113238912B
CN113238912B CN202110500278.5A CN202110500278A CN113238912B CN 113238912 B CN113238912 B CN 113238912B CN 202110500278 A CN202110500278 A CN 202110500278A CN 113238912 B CN113238912 B CN 113238912B
Authority
CN
China
Prior art keywords
data
log
log data
information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110500278.5A
Other languages
English (en)
Other versions
CN113238912A (zh
Inventor
丁丽
吕卓航
楼书逸
严寒冰
李志辉
朱天
饶毓
周昊
高川
徐剑
郭晶
吕志泉
韩志辉
马莉雅
雷君
贾世琳
贺铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202110500278.5A priority Critical patent/CN113238912B/zh
Publication of CN113238912A publication Critical patent/CN113238912A/zh
Application granted granted Critical
Publication of CN113238912B publication Critical patent/CN113238912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种网络安全日志数据的聚合处理方法,本申请涉及一种聚合处理方法,尤其涉及一种网络安全日志数据的聚合处理方法,属于数据处理领域。本发明首先,基于预先设置的配置获取不同类型的日志数据,然后,对不同来源的同种类型日志数据进行规范化处理和对日志数据进行分析并且提取核心内容;最后,根据会话关系及日志的核心内容对数据进行分组聚合处理和非核心内容的细节信息进行内容压缩处理。保证实体交互关系无损,同时保留了业务分析中需要的细节信息,保证实时分析过程中相关数据的完整性的同时,提高了数据的查询使用效率。解决了现有技术中存在的网络安全日志数据存储占用空间大、查询效率低下的技术问题。

Description

一种网络安全日志数据的聚合处理方法
技术领域
本申请涉及一种聚合处理方法,尤其涉及一种网络安全日志数据的聚合处理方法,属于数据处理领域。
背景技术
随着网络技术的日益发展,网络应用的日渐广泛,维护和保障网络安全的重要性愈发凸显,现阶段的网络信息数据的快速增长也对目前的网络安全分析工作提出了更高的要求,而大数据技术作为一种新型技术,在网络安全分析工作中得到了广泛应用,为网络安全分析与防御提供了新动力,成为网络安全分析过程中不可或缺的存在。
在当前的网络安全分析工作中,现存的网络安全日志数据尚未很好地在分析过程中发挥作用。日志数据存储时组织形式仍为原始日志的形式,存在数据种类繁多、数据量巨大、存储形式复杂等问题;此外,各维度的日志数据,存量和增量数据都极大,大量数据除时间属性外,其余属性存在极大的冗余,不利于日志数据的查询及后续分析。
在不同的数据分析场景中,分析人员希望从数据中获取的信息也会有所不同,这就导致了数据中的部分数据在实际分析中是毫无价值的,而现有技术的方法在数据聚合处理时,也将无价值的数据一同处理并存储至数据库中,这就会导致在后续的数据分析中导入无价值的数据,造成数据量倍增,同时也增加了分析人员在实际分析过程中数据的使用难度。
因此,亟待一种可以解决网络安全日志数据存储占用空间大、查询效率低下的数据处理方法。
发明内容
为解决现有技术中存在的网络安全日志数据存储占用空间大、查询效率低下的技术问题,本发明提供了一种网络安全日志数据的聚合处理方法,从网络安全分析的实际场景出发,结合各类网络安全日志数据结构、数据量、存储方法的综合分析,提出了“数据规模尽量压减、主体信息确保无损、细节信息尽量保存”的数据处理原则,通过基于“会话关系与日志类型”进行分组、对细节性内容提炼压缩的方法对数据进行处理,将分析过程中无价值的数据进行压缩。极大的减少了数据之间的冗余,弥补了现有技术的不足。
一种网络安全日志数据的聚合处理方法,包括以下步骤:
S110.基于预先设置的配置获取不同类型的日志数据;
S120.对不同来源的同种类型日志数据进行规范化处理;
S130.构建模型对日志数据进行分析提取核心内容;
S140.根据会话关系及日志的核心内容对数据进行分组聚合处理;
S150.对非核心内容的细节信息进行内容压缩处理。
优选的,步骤S110所述基于预先设置的配置获取不同类型的日志数据具体包括以下步骤:
S210.根据各类型日志数据的信息设定相关配置;
S220.读取配置内容进行任务调度处理;
S230.任务根据配置中日志的获取方式等进行数据获取。
优选的,步骤S120所述对不同来源的同种类型日志数据进行规范化处理具体包括以下步骤:
S310.获取至少一个来源的待规范化日志数据;
S320.根据待规范化日志数据的日志类型构建通用结构的信息索引;
S330.根据服务器的集群节点多线程地将数据源进行分片处理;
S340.整合各节点的数据获得规范化数据集。
优选的,步骤S130所述构建模型对日志数据进行分析提取核心内容具体包括以下步骤:
S410.根据实际分析场景构建不同类型日志数据核心内容提取模型;
S420.确定日志数据的数据说明信息提取相应的协议信息;
S430.提取数据内容后根据协议信息集的内容进行解码;
S440.根据模型中构建的相应特征值对日志内容进行计算后提取核心内容。
优选的,步骤S140所述根据会话关系及日志的核心内容对数据进行分组聚合处理具体包括以下步骤:
S510.把规范化数据集进行分块并分配到多个计算节点;
S520.根据各类日志的主体信息对数据块进行分组聚合函数的计算;
S530.整合各节点的计算结果得到最终的聚合数据结果集。
优选的,步骤S150所述对非核心内容的细节信息进行内容压缩处理具体包括以下步骤:
S610.按照细节信息重要程度及实际场景提炼细节信息;
S620.读取原始细节信息数据使用支持的压缩算法进行压缩得到二进制数组;
S630.采用支持的编码工具对二进制数组进行编码得到字符串文本;
S640.字符串文本拼接压缩算法和编码方式得到压缩文本,压缩文本和提炼细节整合分组结果后存储。
优选的,步骤S110所述基于预先设置的配置具体包括,日志数据种类、获取日志数据的时间范围和频率、数据的获取方式;所述日志数据类型具体包括,网络实体基本信息属性数据、网络属性数据和安全属性数据;所述日志数据的获取方式包括实时数据获取和离线数据获取;
步骤S120所述规范化处理具体包括,控制数据的处理和结构化不一致的数据处理;步骤S130所述核心内容具体包括,漏洞攻击相关日志数据和恶意样本传播相关日志数据;所述的核心内容根据实际需要进行配置;
步骤S130所述漏洞攻击相关日志数据中的主体为攻击者IP、被攻击者IP和使用的漏洞;步骤S130所述恶意样本传播相关日志数据的主体为样本的MD5值、样本家族和样本类型;
步骤S140所述聚合处理具体是有多个集群节点的集群服务器进行数据聚合处理,所述集群节点的负载状态具体包括处理器的使用率、可用线程数量。
优选的,步骤S230所述日志数据的获取方式包括实时数据获取和离线数据获取;所述实时数据获取具体包括,直连数据库查询、调用API接口获取;所述离线数据获取通过对离线数据文件进行读取后实现。
步骤520所述分组聚合函数的计算具体包括分组求和、分组求算数平均值和分组求最值。
优选的,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现一种网络安全日志数据的聚合处理方法的步骤。
优选的,所述计算机程序被处理器执行时实现一种网络安全日志数据的聚合处理方法。
本发明的有益效果如下:一种网络安全日志数据的聚合处理方法,对比传统的数据聚合处理算法,本发明所提供的方法保证实体交互关系无损,同时保留了业务分析中需要的细节信息,保证实时分析过程中相关数据的完整性的同时,提高了数据的查询使用效率。解决了现有技术中存在的网络安全日志数据存储占用空间大、查询效率低下的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明所述的聚合处理方法流程示意图;
图2为本发明所述的聚合处理方法中获取不同类型的日志数据的流程示意图;
图3为本发明所述的聚合处理方法中规范化处理的流程示意图;
图4为本发明所述的聚合处理方法中分析提取核心内容的流程示意图;
图5为本发明所述的聚合处理方法中数据进行分组聚合处理的流程示意图;
图6为本发明所述的聚合处理方法中内容压缩处理的流程示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例、参照图1-6,说明本实施例,本实施例的一种网络安全日志数据的聚合处理方法,包括以下步骤:
步骤110、基于预先设置的配置获取不同类型的日志数据;预先设置的配置包括日志数据种类、获取数据的时间范围和频率、数据的获取方式等内容。在本实施例中数据获取的方式主要采用直连数据库获取、API接口获取及离线数据文件获取三种方式。根据配置好的频率及获取方式等信息,通过任务调度机制定时获取相关种类的日志数据进行后续的分析处理;具体包括以下步骤:
步骤210、根据各类型日志数据的信息设定相关配置;各类型日志数据主要包括网络实体基本信息属性数据,网络属性数据和安全属性数据等多种类型的日志数据,进行配置时首先需要对各种类型的数据的实际存储场景及获取方式、获取频率等进行分析,完成相关配置的设定工作。
步骤220、读取配置内容进行任务调度处理;读取各类型日志数据,根据配置中已经设定好的任务执行频率、执行时间等内容创建相关任务开始执行,进行制定类型的日志数据获取。
步骤230、任务根据配置中日志的获取方式等进行数据获取;任务执行后需要按照配置中的日志获取方式获取日志数据;日志的获取方式主要可以包括实时数据获取和离线数据获取两种,其中实时数据获取可以包括直连数据库查询、调用API接口获取等;离线数据获取则主要通过对离线数据文件进行读取后实现。针对特殊情况,可以采用实时与离线配合的方式,以本实施例中的安全事件类型的日志获取为例,因为存储环境原因无法通过单一的方式完成数据获取,所以在实际实施过程中,先通过实时连接数据库查询后生成相应的数据文件,然后发送到指定的位置后通过读取离线数据文件完成日志数据获取。
步骤120、对不同来源的同种类型日志数据进行规范化处理;其中针对相同种类的日志数据,可能存在多种数据来源的情况,这时在进行后续的数据处理过程中就需要把同种类型的数据进行结构的统一。数据规范化处理会将上述步骤获取到的数据进行规范化,通过集群式环境的各个节点并行对数据进行处理后整合为当前日志种类通用结构的规范化数据集。在本实施例中的规范化处理主要包括空值数据的处理和结构化不一致的数据处理两种。具体包括以下步骤:
步骤310、获取至少一个来源的待规范化日志数据;日志数据存储形式复杂,可能存在同种类型的日志数据存储在不同位置,使用不同类型数据库,存储结构存在差异的情况,本步骤主要根据数据获取步骤中获得的日志数据根据日志数据类型进行整合。
步骤320、根据待规范化日志数据的日志类型构建通用结构的信息索引;信息索引是一种数据模型,以事先约定好的封装方式对待规范化的数据进行统一存储和描述,从而将不同来源,不同结构的数据结构成一种通用结构,同时需要结合网络安全分析场景,剔除其中的无价值字段。
步骤330、根据服务器的集群节点多线程地将数据源进行分片处理;将待处理数据源进行分片,通过服务器的多线程处理能力,对分片进行并发处理,提高异构数据的处理速度。分片时需要考虑服务器的处理能力,避免分片数量过少导致线程闲置或者分片数量过多等待时间过长的情况。
步骤340、整合各节点的数据获得规范化数据集。按照分片时确定的数据分片信息,按照相应的分片从各个处理器节点获取对应的处理数据进行整合,从而生成异构数据源规范化的完整数据集,实现对数据源的规范化处理。
步骤130、构建模型对日志数据进行分析提取核心内容;不同类型日志数据的核心内容会有所差异,以本实施例中的日志数据为例,其中漏洞攻击相关日志数据中的主体为攻击者IP、被攻击者IP、使用的漏洞等内容,而在恶意样本传播相关日志数据中的样本的MD5值、样本家族、样本类型等内容为主体信息。同时核心内容还要结合网络安全分析中的实际需要进行配置,以便满足实际分析场景下的不同需求。具体包括以下步骤:
步骤410、根据实际分析场景构建不同类型日志数据核心内容提取模型;日志数据核心内容模型的构建需结合各类型日志的实际分析场景进行综合性的分析后确定,不同类型的日志模型中所包含的特征向量也不同,如本实施例中的恶意代码传播类的安全日志数据中,恶意代码的名称、代码家族等内容就是分析过程中需要进行关注的。
步骤420、确定日志数据的数据说明信息提取相应的协议信息;对于日志数据的协议头部信息进行提取,根据其中的数据类型信息,判定内容是否为文本信息,并根据数据说明信息创建相应的协议信息集,初始化其中的数据类型、数据编码、数据长度等信息。
步骤430、提取数据内容后根据协议信息集的内容进行解码;
步骤440、根据模型中构建的相应特征值对日志内容进行计算后提取核心内容。
步骤140、根据会话关系及日志的核心内容对数据进行分组聚合处理;聚合处理主要对待处理的规范化数据进行分块,利用分布式环境下预先配置好的相关框架对分块后的数据进行分组聚合函数的计算,最后对计算结果进行整合,提高处理效率。具体包括以下步骤:
S510.把规范化数据集进行分块并分配到多个计算节点;可使用包含有多个集群节点的集群服务器进行数据聚合处理,集群节点的负载状态可以包括处理器的使用率、可用线程数量等信息,根据负载状态,均衡分配每个集群节点的数据聚合处理任务。
本实施例中,预设一种集群运算框架,如:Spark、MapReduce等,通过集群运算框架搭配集群管理员和分布式的存储系统,能够实现对大规模数据的分布式并行计算。在这些集群运算框架中,数据集是构成集群运算框架和实现分布式并行计算的基础。
步骤520、根据各类日志的主体信息对数据块进行分组聚合函数的计算;分组聚合函数的计算具体可以为分组求和、分组求算数平均值、分组求最值等,可分别使用相应的聚合函数。
步骤530、整合各节点的计算结果得到最终的聚合数据结果集。按照分块时确定的信息,整合各节点的计算结果,对整合的结果再次进行聚合,从而生成最终的完整数据集。
步骤150、对非核心内容的细节信息进行内容压缩处理;进行内容压缩前需要对原始数据进行分析,对非核心内容的细节数据根据对实际场景的重要程度进行提炼,然后对原始的细节数据进行压缩编码,得到完整的细节压缩数据,之后对压缩文本和提炼细节整合分组数据后进行存储。具体包括以下步骤:
步骤610、按照细节信息重要程度及实际场景提炼细节信息;对日志间的核心内容与细节内容之间的关联关系进行分析,确定细节信息数据的重要性,然后根据重要程度进行不同程度的提炼。
在本实施例中,安全事件相关日志的客体信息中的端口和URL等信息与主体之间的关联性强度适中,在进行处理时按照实际需要保留TopN信息即可,而客体信息中的联通时间等则重要程度很低,处理时按照时间按照24小时进行次数统计即可。
步骤620、读取原始细节信息数据使用支持的压缩算法进行压缩得到二进制数组;在本实施例中,采用Java语言的软件开发工具包,那么对应的支持的压缩算法也就是JDK自带压缩算法。也可以采用其他开源框架的压缩算法,如GZIP压缩算法、DEFLATE压缩算法、SNAPPY压缩算法等。
步骤630、采用支持的编码工具对二进制数组进行编码得到字符串文本;采用的编码工具可以适用Utf-16、Utf-32、Punycode、Base64等多种格式编码解码。例如在本实施例中采用Base64编码,后续如果需要对压缩数据读取中也采用Base64解码来解决。
步骤640、字符串文本拼接压缩算法和编码方式得到压缩文本,压缩文本和提炼细节整合分组结果后存储。压缩算法和编码工具可以采用代码表形式标注唯一标识,拼接时可将唯一标识插入到字符串文本中,插入位置是统一预先设定的,可以是字符串文本中的任意位置,优选的预设位置字符串文本的开头或结束位置。之后把压缩的完整数据和提炼的数据整合根据会话聚合分组的数据后进行存储。
本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,在以上实施例中,只要不矛盾的技术方案都能够进行排列组合,本领域技术人员能够根据排列组合的数学知识穷尽所有可能,因此本发明不再对排列组合后的技术方案进行一一说明,但应该理解为排列组合后的技术方案已经被本发明所公开。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。

Claims (5)

1.一种网络安全日志数据的聚合处理方法,其特征在于,包括以下步骤:
S110.基于预先设置的配置获取不同类型的日志数据,预先设置的配置包括日志数据种类、获取数据的时间范围和频率、数据的获取方式内容,具体包括以下步骤:
S210.根据各类型日志数据的信息设定相关配置,各类型日志数据包括网络实体基本信息属性数据,网络属性数据和安全属性数据多种类型的日志数据,进行配置时对各种类型的数据的实际存储场景及获取方式、获取频率进行分析,完成相关配置的设定工作;
S220.读取配置内容进行任务调度处理,读取各类型日志数据,根据配置中已经设定好的任务执行频率、执行时间内容创建相关任务开始执行,进行制定类型的日志数据获取;
S230.任务根据配置中日志的获取方式进行数据获取,任务执行后需要按照配置中的日志获取方式获取日志数据;日志的获取方式包括实时数据获取和离线数据获取两种,其中实时数据获取包括直连数据库查询和调用API接口获取;离线数据获取通过对离线数据文件进行读取后实现;
S120.对不同来源的同种类型日志数据进行规范化处理,针对相同种类的日志数据,存在多种数据来源的情况,把同种类型的数据进行结构的统一,数据规范化处理将获取到的数据进行规范化,通过集群式环境的各个节点并行对数据进行处理后整合为当前日志种类通用结构的规范化数据集,具体包括以下步骤:
S310.获取至少一个来源的待规范化日志数据;
S320.根据待规范化日志数据的日志类型构建通用结构的信息索引;
S330.根据服务器的集群节点多线程地将数据源进行分片处理;
S340.整合各节点的数据获得规范化数据集;
S130.构建模型对日志数据进行分析提取核心内容,核心内容具体包括,漏洞攻击相关日志数据和恶意样本传播相关日志数据,核心内容根据实际需要进行配置;所述漏洞攻击相关日志数据中的主体为攻击者IP、被攻击者IP和使用的漏洞;所述恶意样本传播相关日志数据的主体为样本的MD5值、样本家族和样本类型,具体包括以下步骤:
S410.根据实际分析场景构建不同类型日志数据核心内容提取模型,日志数据核心内容模型的构建结合各类型日志的实际分析场景进行综合性的分析后确定,不同类型的日志模型中所包含的特征向量不同;
S420.确定日志数据的数据说明信息提取相应的协议信息,对于日志数据的协议头部信息进行提取,根据其中的数据类型信息,判定内容是否为文本信息,并根据数据说明信息创建相应的协议信息集,初始化其中的数据类型、数据编码、数据长度信息;
S430.提取数据内容后根据协议信息集的内容进行解码;
S440.根据模型中构建的相应特征值对日志内容进行计算后提取核心内容;
S140、根据会话关系及日志的核心内容对数据进行分组聚合处理,聚合处理对待处理的规范化数据进行分块,利用分布式环境下预先配置好的相关框架对分块后的数据进行分组聚合函数的计算,最后对计算结果进行整合,具体包括以下步骤:
S510.把规范化数据集进行分块并分配到多个计算节点;使用包含有多个集群节点的集群服务器进行数据聚合处理,集群节点的负载状态包括处理器的使用率、可用线程数量信息,根据负载状态,均衡分配每个集群节点的数据聚合处理任务;
S520、根据各类日志的主体信息对数据块进行分组聚合函数的计算;分组聚合函数的计算为分组求和、分组求算数平均值和分组求最值,分别使用相应的聚合函数;
步骤530、整合各节点的计算结果得到最终的聚合数据结果集,按照分块时确定的信息,整合各节点的计算结果,对整合的结果再次进行聚合,从而生成最终的完整数据集;
S150.对非核心内容的细节信息进行内容压缩处理。
2.根据权利要求1所述的方法,其特征在于,步骤S150所述对非核心内容的细节信息进行内容压缩处理具体包括以下步骤:
S610.按照细节信息重要程度及实际场景提炼细节信息;
S620.读取原始细节信息数据使用支持的压缩算法进行压缩得到二进制数组;
S630.采用支持的编码工具对二进制数组进行编码得到字符串文本;
S640.字符串文本拼接压缩算法和编码方式得到压缩文本,压缩文本和提炼细节整合分组结果后存储。
3.根据权利要求2所述的方法,其特征在于,步骤S230所述日志数据的获取方式包括实时数据获取和离线数据获取;所述实时数据获取具体包括,直连数据库查询、调用API接口获取;所述离线数据获取通过对离线数据文件进行读取后实现;
步骤520所述分组聚合函数的计算具体包括分组求和、分组求算数平均值和分组求最值。
4.一种计算机装置,其特征在于:包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1至3任一项所述的一种网络安全日志数据的聚合处理方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的一种网络安全日志数据的聚合处理方法。
CN202110500278.5A 2021-05-08 2021-05-08 一种网络安全日志数据的聚合处理方法 Active CN113238912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110500278.5A CN113238912B (zh) 2021-05-08 2021-05-08 一种网络安全日志数据的聚合处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110500278.5A CN113238912B (zh) 2021-05-08 2021-05-08 一种网络安全日志数据的聚合处理方法

Publications (2)

Publication Number Publication Date
CN113238912A CN113238912A (zh) 2021-08-10
CN113238912B true CN113238912B (zh) 2022-12-06

Family

ID=77132657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110500278.5A Active CN113238912B (zh) 2021-05-08 2021-05-08 一种网络安全日志数据的聚合处理方法

Country Status (1)

Country Link
CN (1) CN113238912B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448672A (zh) * 2021-12-27 2022-05-06 奇安信科技集团股份有限公司 一种多源网络安全数据处理方法及装置
CN114826758B (zh) * 2022-05-11 2023-05-16 绿盟科技集团股份有限公司 一种针对域名解析系统dns的安全分析方法及装置
CN116894021A (zh) * 2023-05-24 2023-10-17 北京优特捷信息技术有限公司 一种日志数据存储方法、查询方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138661A (zh) * 2015-09-02 2015-12-09 西北大学 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN108268658A (zh) * 2018-02-06 2018-07-10 政采云有限公司 基于MySQL数据库的大文本字段存储方法和系统
CN108737549A (zh) * 2018-05-25 2018-11-02 江苏联盟信息工程有限公司 一种大数据量的日志分析方法及装置
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN111930886A (zh) * 2020-07-06 2020-11-13 国网江西省电力有限公司电力科学研究院 日志处理方法、系统、存储介质及计算机设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101239401B1 (ko) * 2012-10-05 2013-03-06 강명훈 보안 시스템의 로그 분석 시스템 및 방법
US10353756B2 (en) * 2016-10-11 2019-07-16 Oracle International Corporation Cluster-based processing of unstructured log messages
CN110704290B (zh) * 2019-09-27 2024-02-13 百度在线网络技术(北京)有限公司 日志分析方法及装置
CN110716910B (zh) * 2019-10-14 2022-10-14 中国建设银行股份有限公司 一种日志管理方法、装置、设备和存储介质
CN111526060B (zh) * 2020-06-16 2023-02-28 网易(杭州)网络有限公司 业务日志的处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138661A (zh) * 2015-09-02 2015-12-09 西北大学 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN108268658A (zh) * 2018-02-06 2018-07-10 政采云有限公司 基于MySQL数据库的大文本字段存储方法和系统
CN108737549A (zh) * 2018-05-25 2018-11-02 江苏联盟信息工程有限公司 一种大数据量的日志分析方法及装置
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN111930886A (zh) * 2020-07-06 2020-11-13 国网江西省电力有限公司电力科学研究院 日志处理方法、系统、存储介质及计算机设备

Also Published As

Publication number Publication date
CN113238912A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113238912B (zh) 一种网络安全日志数据的聚合处理方法
JP7330393B2 (ja) リソースを管理かつ制御する方法および装置、デバイスならびに記憶媒体
WO2017097071A1 (zh) 数据压缩及解压的方法及装置
CN105786998A (zh) 数据库中间件系统及利用其处理数据的方法
CN109857803B (zh) 数据同步方法、装置、设备、系统及计算机可读存储介质
CN103559217A (zh) 一种面向异构数据库的海量组播数据入库实现方法
CN110445828B (zh) 一种基于Redis的数据分布式处理方法及其相关设备
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN111651417B (zh) 日志处理方法及装置
WO2017174013A1 (zh) 数据存储管理方法、装置及数据存储系统
WO2016169237A1 (zh) 数据处理方法及装置
CN105574032A (zh) 规则匹配运算方法及装置
CN114760369A (zh) 一种协议元数据提取方法、装置、设备及存储介质
WO2021174882A1 (zh) 数据分片校验方法、装置、计算机设备及可读存储介质
CN114125071B (zh) 数据压缩传输方法及装置
CN116049109A (zh) 一种基于过滤器的文件校验方法、系统、设备和介质
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN116760661A (zh) 数据存储方法、装置、计算机设备、存储介质和程序产品
CN112883088A (zh) 一种数据处理方法、装置、设备及存储介质
CN116010480A (zh) 一种时序数据库审计方法及系统
CN113986942B (zh) 一种基于人机对话的消息队列管理方法及装置
CN114925044A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN114205645A (zh) 分布式视频内容审核方法及装置
CN113268483A (zh) 请求处理方法和装置、电子设备和存储介质
CN111291230A (zh) 特征处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant