CN114880392A

CN114880392A - 多源异构安全设备海量数据归一化处理方法

Info

Publication number: CN114880392A
Application number: CN202210613257.9A
Authority: CN
Inventors: 闫丽景; 党芳芳; 李帅; 岳纲毅; 李丁丁; 宋一凡; 李文萃; 刘晗; 梁慧超
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-09

Abstract

本发明公布了多源异构安全设备海量数据归一化处理方法，所述海量数据归一化处理方法包含四个步骤：S1：进行数据抽取，从安全设备系统的数据库中抽取数据，建立数据表，将各个设备用唯一标示符进行表示，S2：进行数据转换，采用Z‑score标准化方法进行数据的标准化，S3：进行数据清洗，对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据，将数据质量分层，S4：进行数据装载，将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中，处理海量数据的批量装载，本申请针对多源异构安全设备的告警日志数据，提出了一种表现更好的数据预处理归一化处理方法。

Description

多源异构安全设备海量数据归一化处理方法

技术领域

本发明涉及网络安全领域，尤其涉及的是多源异构安全设备海量数据归一化处理方法。

背景技术

随着数字化技术的飞速发展，网络已经成为社会发展的重要保证，敏感信息，甚至是一些机密信息会吸引来各种人为攻击(例如信息泄露、信息窃取、数据篡改、数据删添、计算机病毒等)，因此，政府、企业均通过采购相应的网络安全设备部署在各自局域网的边界用于阻断外部的攻击行为，网络安全设备从最早的防火墙的单一的访问控制功能，发展到具备入侵检测、入侵防御及未知威胁感知的多厂家多类型的安全产品的爆发式增长，网络安全设备在攻击行为检测和攻击行为阻断起到至关重要的作用。

但是，随着网络安全设备类型向着异构多元化方向的不断发展，产生的安全告警数据众多，安全厂家之间针对攻击告警的处置标准和处置方式不一，导致安全产品的告警展示不统一，攻击监测数据分散在不同的安全设备中，多源异构安全设备的海量数据虽然有较大的应用价值，但由于告警存储格式不一致、数据量庞大、数据分散及数据异构等问题，无法很好的指导攻击处置工作，现有技术针对多源异构安全设备的告警日志数据归一化处理有待进一步提高。

因此，本发明提供一种新的方案来解决此问题。

发明内容

针对现有技术存在的不足，本发明所要解决的技术问题是针对多源异构安全设备的告警日志数据，提出一种表现更好的数据预处理归一化处理方法，本发明提出的海量数据归一化处理方法，使用在分类和聚类算法中表现更为优秀的Z-score标准化方法来进行数据归一处理，为后续的数据分析打下良好基础，是一种表现更好的数据预处理归一化处理方法。

其解决的技术方案是，多源异构安全设备海量数据归一化处理方法，所述海量数据归一化处理方法包含四个步骤：

S1：进行数据抽取，从安全设备系统的数据库中抽取数据，建立数据表，将各个设备用唯一标示符进行表示；

S2：进行数据转换，采用Z-score标准化方法进行数据的标准化；

S3：进行数据清洗，对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据，将数据质量分层；

S4：进行数据装载，将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中，处理海量数据的批量装载。

本发明所实现的有益效果为：

本发明针对多源异构安全设备的告警日志数据，提出了一种表现更好的数据预处理归一化处理方法，尤其是对基于多源异构安全设备的海量数据归一化处理，在传统数据预处理技术基础上，结合多源异构安全设备产生的告警日志通常需要将各类告警信息进行分类、聚类等处理需求，使用在分类和聚类算法中表现更为优秀的Z-score标准化方法来进行数据归一处理，为后续的数据分析打下良好基础，是一种表现更好的数据预处理归一化处理方法。

附图说明

图1为本发明所述的数据预处理流程示意图。

图2为本发明所述的Z-score标准化数据归一化处理流程示意图。

具体实施方式

为有关本发明的前述及其他技术内容、特点与功效，在以下配合参考附图对实施例的详细说明中，将可清楚的呈现。以下实施例中所提到的结构内容，均是以说明书附图为参考。

以下将参照附图，通过实施方式详细的描述本发明提供的多源异构安全设备海量数据归一化处理方法。

多源异构安全设备海量数据归一化处理方法，所述海量数据归一化处理方法包含四个步骤：

S4：进行数据装载，将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中，处理海量数据的批量装载；

本方法在传统数据预处理技术基础上，结合Z-score标准化方法对具有海量、分散及异构的多源异构安全设备产生的告警日志数据进行数据归一化处理，为后续的数据分析工作打下良好基础。

所述S1：进行数据抽取，具体包含以下内容：

通常各大安全厂商的安全设备的告警分类各不相同，以电力安全防护为例，通常涉及到安全设备的类型包括防火墙、IPS、IDS、WAF和流量监控设备，而在这些设备中，通常对攻击源、受影响IP地址、攻击行为、攻击类型定义、攻击特征等信息进行记录，记录方式和分类标准自成体系，该步骤需要从这几类安全设备系统的数据库中抽取数据，抽取的具体数据信息需要根据需求建立数据表，例如安全设备类型一出现的告警信息、告警描述，根据要求需要建立一个以安全设备类型一为主键的表，涉及攻击IP、攻击名称、攻击数量等属性的数据仓库，然后根据数据仓库进行统计分析，在数据抽取的过程中同时涉及正确识别的问题，对于同一个设备X，假设设备X的设备名称在防火墙中表示为1X，在入侵防御中表示为2X，在入侵检测中表示为3X，在WEB应用防火墙中表示为4X，该类问题使的攻击行为被正确识别变得非常困难，进而影响了数据的正确抽取，为解决这个问题，根据原数据文件信息以及一个或者多个特殊属性关系，将各个设备用唯一标示符进行表示；所述IPS为入侵防御系统，所述IDS为入侵检测系统，所述WAF为Web应用防护系统。

所述S2：进行数据转换，具体包含以下内容：

所述数据转换负责解决所抽取数据中存在的异构问题，即根据目标数据模型或者统一数据模型对数据进行数据格式转换、数据合并、数据过滤、关键数据的重新构建等操作，一般来说，数据转换可以分为格式、名称的统一和数据重新组合两类，在数据分析之前，通常需要先将数据标准化，利用标准化后的数据进行数据分析，数据标准化也就是统计数据的指数化，数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面，数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果，数据无量纲化处理主要解决数据的可比性，经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析，该过程中的异构数据所涉及到的数据归一化处理采用Z-score标准化方法，该方法也称为标准差标准化，给予原始数据的均值和标准差进行数据的标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，在对数据进行Z-Score标准化之前，需要得到如下信息：

(1)总体数据的均值μ；

(2)总体数据的标准差σ；

(3)个体的观测值x；

其转化函数为：

公式1中，x为观测值，μ为所有样本数据的均值，σ为所有样本数据的标准差；

标准差公式如下：

公式2中X_i为算数平均值；

进行标准化的步骤如下：

A1：求出各变量(指标)的算术平均值(数学期望)x_i和标准差s_i；

A2：进行标准化处理：

公式3中：z_ij为标准化后的变量值；x_ij为实际变量值；

A3：将逆指标前的正负号对调；

标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

所述S3：进行数据清洗，具体包含以下内容：

所述数据清洗是指根据统一数据模型或者目标数据模型对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据，从而确保数据的完整性、准确性以及提高数据的质量，从数据源数目和数据层次方面考虑，可将数据质量分为单数据源实例层问题、单数据源模式层问题、多数据源实例层问题和多数据源模式层问题，实例层问题需要通过匹配算法、机器学习算法和相应的数据表进行解决，而模式层数据质量问题需改进数据模式、模式集成方法来解决。

所述S4：进行数据装载，具体包含以下内容：

所述数据装载负责将历经数据转换和数据清洗过程之后的数据集按照规定的统一数据模型或者物理数据模型加载到目标数据仓库中，该过程往往需要跨网络和跨操作系统，数据装载面临的主要问题是如何处理海量数据的批量装载，一般可以采用UB树装载大数据块算法和分布式文件系统HDFS技术，目前，HDFS技术在Hadoop大数据平台的应用较多。

综上所述，在计算机技术不断革新以及对实现多源异构安全设备告警日志处理的需求日渐迫切的现实背景下，利用数据预处理技术、数据规范化、归一化等方法已经成为当前的主流解决方案，但由于多源异构安全设备产生的告警日志数据具有独特性、专业性，现有的数据预处理技术不能很好的进行处理，因此本发明使用Z-score标准化方法对该种多源异构数据进行归一化处理，以便在后续的数据处理中获得更好的处理结果。

本发明针对多源异构安全设备的告警日志数据，提出了一种表现更好的数据预处理归一化处理方法，现有的数据预处理方法包括数据抽取、数据转换、数据清洗、数据装载等简单步骤，而多源异构安全设备产生的告警日志具有的独特性、专业性的数据，该类数据存在数量庞大、数据分散及异构的问题，传统简单的数据预处理方法已不再适合并满足需求，本发明提出一种海量数据归一化的处理方法，尤其涉及的是基于多源异构安全设备的海量数据归一化处理，在传统数据预处理技术基础上，结合多源异构安全设备产生的告警日志通常需要将各类告警信息进行分类、聚类等处理需求，使用在分类和聚类算法中表现更为优秀的Z-score标准化方法来进行数据归一处理，为后续的数据分析打下良好基础，是一种表现更好的数据预处理归一化处理方法。

Claims

1.多源异构安全设备海量数据归一化处理方法，其特征在于，所述海量数据归一化处理方法包含四个步骤：

S2：进行数据转换，采用Z-score标准化方法进行数据的标准化处理；

S3：进行数据清洗，对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据，进行数据质量分层；

2.如权利要求1所述的多源异构安全设备海量数据归一化处理方法，其特征在于，所述步骤S1：进行数据抽取，具体包含以下内容：

安全设备的告警分类各不相同，安全设备的类型包括防火墙、IPS、IDS、WAF和流量监控设备，在安全设备中，定义攻击源、受影响IP地址、攻击行为、攻击类型，记录攻击特征，从安全设备系统的数据库中抽取数据，根据需求建立数据表；

设一个安全设备的类型为安全设备类型一，安全设备类型一出现告警信息、告警描述，建立一个以安全设备类型一为主键的表，涉及攻击IP、攻击名称、攻击数量的数据仓库，根据仓库进行统计分析，对于同一个设备X，设定设备X的设备名称在防火墙中表示为1X，在入侵防御中表示为2X，在入侵检测中表示为3X，在WEB应用防火墙中表示为4X，将各个设备用唯一标示符进行表示；所述IPS为入侵防御系统，所述IDS为入侵检测系统，所述WAF为Web应用防护系统。

3.如权利要求1所述的多源异构安全设备海量数据归一化处理方法，其特征在于，所述S2：进行数据转换，具体包含以下内容：

所述数据转换对数据进行格式、名称的统一和数据重新组合，首先将数据标准化，利用标准化后的数据进行数据分析，数据标准化也就是统计数据的指数化，数据标准化处理包括数据同趋化处理和无量纲化处理两个方面，数据归一化处理采用Z-score标准化方法，该方法也称为标准差标准化，将原始数据的均值和标准差进行数据的标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，在对数据进行Z-Score标准化之前，要得到如下信息：

(1)总体数据的均值μ；

(2)总体数据的标准差σ；

(3)个体的观测值x；

其转化函数为：

标准差公式如下：

公式2中X_i为算数平均值；

进行标准化的步骤如下：

A1：求出各变量的算术平均值x_i和标准差s_i；

A2：进行标准化处理：

公式3中：z_ij为标准化后的变量值；x_ij为实际变量值；

A3：将逆指标前的正负号对调；

4.如权利要求1所述的多源异构安全设备海量数据归一化处理方法，其特征在于，所述S3：进行数据清洗，具体包含以下内容：

对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据，以数据源数目和数据层次为基础进行分类，将数据质量分层为单数据源实例层、单数据源模式层、多数据源实例层、多数据源模式层，实例层数据质量涉及匹配算法、机器学习算法和相应的数据表，模式层数据质量涉及数据模式、模式集成方法。

5.如权利要求1所述的多源异构安全设备海量数据归一化处理方法，其特征在于，所述S4：进行数据装载，具体包含以下内容：

将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中，跨网络和跨操作系统操作，采用UB树装载大数据块算法和分布式文件系统HDFS技术，处理海量数据的批量装载。