CN114880392A - 多源异构安全设备海量数据归一化处理方法 - Google Patents

多源异构安全设备海量数据归一化处理方法 Download PDF

Info

Publication number
CN114880392A
CN114880392A CN202210613257.9A CN202210613257A CN114880392A CN 114880392 A CN114880392 A CN 114880392A CN 202210613257 A CN202210613257 A CN 202210613257A CN 114880392 A CN114880392 A CN 114880392A
Authority
CN
China
Prior art keywords
data
loading
attack
safety equipment
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210613257.9A
Other languages
English (en)
Inventor
闫丽景
党芳芳
李帅
岳纲毅
李丁丁
宋一凡
李文萃
刘晗
梁慧超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210613257.9A priority Critical patent/CN114880392A/zh
Publication of CN114880392A publication Critical patent/CN114880392A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了多源异构安全设备海量数据归一化处理方法,所述海量数据归一化处理方法包含四个步骤:S1:进行数据抽取,从安全设备系统的数据库中抽取数据,建立数据表,将各个设备用唯一标示符进行表示,S2:进行数据转换,采用Z‑score标准化方法进行数据的标准化,S3:进行数据清洗,对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据,将数据质量分层,S4:进行数据装载,将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中,处理海量数据的批量装载,本申请针对多源异构安全设备的告警日志数据,提出了一种表现更好的数据预处理归一化处理方法。

Description

多源异构安全设备海量数据归一化处理方法
技术领域
本发明涉及网络安全领域,尤其涉及的是多源异构安全设备海量数据归一化处理方法。
背景技术
随着数字化技术的飞速发展,网络已经成为社会发展的重要保证,敏感信息,甚至是一些机密信息会吸引来各种人为攻击(例如信息泄露、信息窃取、数据篡改、数据删添、计算机病毒等),因此,政府、企业均通过采购相应的网络安全设备部署在各自局域网的边界用于阻断外部的攻击行为,网络安全设备从最早的防火墙的单一的访问控制功能,发展到具备入侵检测、入侵防御及未知威胁感知的多厂家多类型的安全产品的爆发式增长,网络安全设备在攻击行为检测和攻击行为阻断起到至关重要的作用。
但是,随着网络安全设备类型向着异构多元化方向的不断发展,产生的安全告警数据众多,安全厂家之间针对攻击告警的处置标准和处置方式不一,导致安全产品的告警展示不统一,攻击监测数据分散在不同的安全设备中,多源异构安全设备的海量数据虽然有较大的应用价值,但由于告警存储格式不一致、数据量庞大、数据分散及数据异构等问题,无法很好的指导攻击处置工作,现有技术针对多源异构安全设备的告警日志数据归一化处理有待进一步提高。
因此,本发明提供一种新的方案来解决此问题。
发明内容
针对现有技术存在的不足,本发明所要解决的技术问题是针对多源异构安全设备的告警日志数据,提出一种表现更好的数据预处理归一化处理方法,本发明提出的海量数据归一化处理方法,使用在分类和聚类算法中表现更为优秀的Z-score标准化方法来进行数据归一处理,为后续的数据分析打下良好基础,是一种表现更好的数据预处理归一化处理方法。
其解决的技术方案是,多源异构安全设备海量数据归一化处理方法,所述海量数据归一化处理方法包含四个步骤:
S1:进行数据抽取,从安全设备系统的数据库中抽取数据,建立数据表,将各个设备用唯一标示符进行表示;
S2:进行数据转换,采用Z-score标准化方法进行数据的标准化;
S3:进行数据清洗,对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据,将数据质量分层;
S4:进行数据装载,将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中,处理海量数据的批量装载。
本发明所实现的有益效果为:
本发明针对多源异构安全设备的告警日志数据,提出了一种表现更好的数据预处理归一化处理方法,尤其是对基于多源异构安全设备的海量数据归一化处理,在传统数据预处理技术基础上,结合多源异构安全设备产生的告警日志通常需要将各类告警信息进行分类、聚类等处理需求,使用在分类和聚类算法中表现更为优秀的Z-score标准化方法来进行数据归一处理,为后续的数据分析打下良好基础,是一种表现更好的数据预处理归一化处理方法。
附图说明
图1为本发明所述的数据预处理流程示意图。
图2为本发明所述的Z-score标准化数据归一化处理流程示意图。
具体实施方式
为有关本发明的前述及其他技术内容、特点与功效,在以下配合参考附图对实施例的详细说明中,将可清楚的呈现。以下实施例中所提到的结构内容,均是以说明书附图为参考。
以下将参照附图,通过实施方式详细的描述本发明提供的多源异构安全设备海量数据归一化处理方法。
多源异构安全设备海量数据归一化处理方法,所述海量数据归一化处理方法包含四个步骤:
S1:进行数据抽取,从安全设备系统的数据库中抽取数据,建立数据表,将各个设备用唯一标示符进行表示;
S2:进行数据转换,采用Z-score标准化方法进行数据的标准化;
S3:进行数据清洗,对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据,将数据质量分层;
S4:进行数据装载,将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中,处理海量数据的批量装载;
本方法在传统数据预处理技术基础上,结合Z-score标准化方法对具有海量、分散及异构的多源异构安全设备产生的告警日志数据进行数据归一化处理,为后续的数据分析工作打下良好基础。
所述S1:进行数据抽取,具体包含以下内容:
通常各大安全厂商的安全设备的告警分类各不相同,以电力安全防护为例,通常涉及到安全设备的类型包括防火墙、IPS、IDS、WAF和流量监控设备,而在这些设备中,通常对攻击源、受影响IP地址、攻击行为、攻击类型定义、攻击特征等信息进行记录,记录方式和分类标准自成体系,该步骤需要从这几类安全设备系统的数据库中抽取数据,抽取的具体数据信息需要根据需求建立数据表,例如安全设备类型一出现的告警信息、告警描述,根据要求需要建立一个以安全设备类型一为主键的表,涉及攻击IP、攻击名称、攻击数量等属性的数据仓库,然后根据数据仓库进行统计分析,在数据抽取的过程中同时涉及正确识别的问题,对于同一个设备X,假设设备X的设备名称在防火墙中表示为1X,在入侵防御中表示为2X,在入侵检测中表示为3X,在WEB应用防火墙中表示为4X,该类问题使的攻击行为被正确识别变得非常困难,进而影响了数据的正确抽取,为解决这个问题,根据原数据文件信息以及一个或者多个特殊属性关系,将各个设备用唯一标示符进行表示;所述IPS为入侵防御系统,所述IDS为入侵检测系统,所述WAF为Web应用防护系统。
所述S2:进行数据转换,具体包含以下内容:
所述数据转换负责解决所抽取数据中存在的异构问题,即根据目标数据模型或者统一数据模型对数据进行数据格式转换、数据合并、数据过滤、关键数据的重新构建等操作,一般来说,数据转换可以分为格式、名称的统一和数据重新组合两类,在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行数据分析,数据标准化也就是统计数据的指数化,数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面,数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果,数据无量纲化处理主要解决数据的可比性,经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析,该过程中的异构数据所涉及到的数据归一化处理采用Z-score标准化方法,该方法也称为标准差标准化,给予原始数据的均值和标准差进行数据的标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,在对数据进行Z-Score标准化之前,需要得到如下信息:
(1)总体数据的均值μ;
(2)总体数据的标准差σ;
(3)个体的观测值x;
其转化函数为:
Figure BDA0003669989910000041
公式1中,x为观测值,μ为所有样本数据的均值,σ为所有样本数据的标准差;
标准差公式如下:
Figure BDA0003669989910000042
公式2中Xi为算数平均值;
进行标准化的步骤如下:
A1:求出各变量(指标)的算术平均值(数学期望)xi和标准差si
A2:进行标准化处理:
Figure BDA0003669989910000043
公式3中:zij为标准化后的变量值;xij为实际变量值;
A3:将逆指标前的正负号对调;
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
所述S3:进行数据清洗,具体包含以下内容:
所述数据清洗是指根据统一数据模型或者目标数据模型对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据,从而确保数据的完整性、准确性以及提高数据的质量,从数据源数目和数据层次方面考虑,可将数据质量分为单数据源实例层问题、单数据源模式层问题、多数据源实例层问题和多数据源模式层问题,实例层问题需要通过匹配算法、机器学习算法和相应的数据表进行解决,而模式层数据质量问题需改进数据模式、模式集成方法来解决。
所述S4:进行数据装载,具体包含以下内容:
所述数据装载负责将历经数据转换和数据清洗过程之后的数据集按照规定的统一数据模型或者物理数据模型加载到目标数据仓库中,该过程往往需要跨网络和跨操作系统,数据装载面临的主要问题是如何处理海量数据的批量装载,一般可以采用UB树装载大数据块算法和分布式文件系统HDFS技术,目前,HDFS技术在Hadoop大数据平台的应用较多。
综上所述,在计算机技术不断革新以及对实现多源异构安全设备告警日志处理的需求日渐迫切的现实背景下,利用数据预处理技术、数据规范化、归一化等方法已经成为当前的主流解决方案,但由于多源异构安全设备产生的告警日志数据具有独特性、专业性,现有的数据预处理技术不能很好的进行处理,因此本发明使用Z-score标准化方法对该种多源异构数据进行归一化处理,以便在后续的数据处理中获得更好的处理结果。
本发明针对多源异构安全设备的告警日志数据,提出了一种表现更好的数据预处理归一化处理方法,现有的数据预处理方法包括数据抽取、数据转换、数据清洗、数据装载等简单步骤,而多源异构安全设备产生的告警日志具有的独特性、专业性的数据,该类数据存在数量庞大、数据分散及异构的问题,传统简单的数据预处理方法已不再适合并满足需求,本发明提出一种海量数据归一化的处理方法,尤其涉及的是基于多源异构安全设备的海量数据归一化处理,在传统数据预处理技术基础上,结合多源异构安全设备产生的告警日志通常需要将各类告警信息进行分类、聚类等处理需求,使用在分类和聚类算法中表现更为优秀的Z-score标准化方法来进行数据归一处理,为后续的数据分析打下良好基础,是一种表现更好的数据预处理归一化处理方法。

Claims (5)

1.多源异构安全设备海量数据归一化处理方法,其特征在于,所述海量数据归一化处理方法包含四个步骤:
S1:进行数据抽取,从安全设备系统的数据库中抽取数据,建立数据表,将各个设备用唯一标示符进行表示;
S2:进行数据转换,采用Z-score标准化方法进行数据的标准化处理;
S3:进行数据清洗,对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据,进行数据质量分层;
S4:进行数据装载,将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中,处理海量数据的批量装载。
2.如权利要求1所述的多源异构安全设备海量数据归一化处理方法,其特征在于,所述步骤S1:进行数据抽取,具体包含以下内容:
安全设备的告警分类各不相同,安全设备的类型包括防火墙、IPS、IDS、WAF和流量监控设备,在安全设备中,定义攻击源、受影响IP地址、攻击行为、攻击类型,记录攻击特征,从安全设备系统的数据库中抽取数据,根据需求建立数据表;
设一个安全设备的类型为安全设备类型一,安全设备类型一出现告警信息、告警描述,建立一个以安全设备类型一为主键的表,涉及攻击IP、攻击名称、攻击数量的数据仓库,根据仓库进行统计分析,对于同一个设备X,设定设备X的设备名称在防火墙中表示为1X,在入侵防御中表示为2X,在入侵检测中表示为3X,在WEB应用防火墙中表示为4X,将各个设备用唯一标示符进行表示;所述IPS为入侵防御系统,所述IDS为入侵检测系统,所述WAF为Web应用防护系统。
3.如权利要求1所述的多源异构安全设备海量数据归一化处理方法,其特征在于,所述S2:进行数据转换,具体包含以下内容:
所述数据转换对数据进行格式、名称的统一和数据重新组合,首先将数据标准化,利用标准化后的数据进行数据分析,数据标准化也就是统计数据的指数化,数据标准化处理包括数据同趋化处理和无量纲化处理两个方面,数据归一化处理采用Z-score标准化方法,该方法也称为标准差标准化,将原始数据的均值和标准差进行数据的标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,在对数据进行Z-Score标准化之前,要得到如下信息:
(1)总体数据的均值μ;
(2)总体数据的标准差σ;
(3)个体的观测值x;
其转化函数为:
Figure FDA0003669989900000021
公式1中,x为观测值,μ为所有样本数据的均值,σ为所有样本数据的标准差;
标准差公式如下:
Figure FDA0003669989900000022
公式2中Xi为算数平均值;
进行标准化的步骤如下:
A1:求出各变量的算术平均值xi和标准差si
A2:进行标准化处理:
Figure FDA0003669989900000023
公式3中:zij为标准化后的变量值;xij为实际变量值;
A3:将逆指标前的正负号对调;
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
4.如权利要求1所述的多源异构安全设备海量数据归一化处理方法,其特征在于,所述S3:进行数据清洗,具体包含以下内容:
对数据的一致性进行检查、修正错误数据与无效数据、填补缺失数据,以数据源数目和数据层次为基础进行分类,将数据质量分层为单数据源实例层、单数据源模式层、多数据源实例层、多数据源模式层,实例层数据质量涉及匹配算法、机器学习算法和相应的数据表,模式层数据质量涉及数据模式、模式集成方法。
5.如权利要求1所述的多源异构安全设备海量数据归一化处理方法,其特征在于,所述S4:进行数据装载,具体包含以下内容:
将历经数据转换、数据清洗过程之后的数据集加载到目标数据仓库中,跨网络和跨操作系统操作,采用UB树装载大数据块算法和分布式文件系统HDFS技术,处理海量数据的批量装载。
CN202210613257.9A 2022-05-30 2022-05-30 多源异构安全设备海量数据归一化处理方法 Pending CN114880392A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210613257.9A CN114880392A (zh) 2022-05-30 2022-05-30 多源异构安全设备海量数据归一化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210613257.9A CN114880392A (zh) 2022-05-30 2022-05-30 多源异构安全设备海量数据归一化处理方法

Publications (1)

Publication Number Publication Date
CN114880392A true CN114880392A (zh) 2022-08-09

Family

ID=82680537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210613257.9A Pending CN114880392A (zh) 2022-05-30 2022-05-30 多源异构安全设备海量数据归一化处理方法

Country Status (1)

Country Link
CN (1) CN114880392A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436706A (zh) * 2023-06-14 2023-07-14 天津市天河计算机技术有限公司 数据中心环境下的网络攻击阻断方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116436706A (zh) * 2023-06-14 2023-07-14 天津市天河计算机技术有限公司 数据中心环境下的网络攻击阻断方法、系统、设备及介质
CN116436706B (zh) * 2023-06-14 2023-08-22 天津市天河计算机技术有限公司 数据中心环境下的网络攻击阻断方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN111782472B (zh) 系统异常检测方法、装置、设备及存储介质
CN107579956B (zh) 一种用户行为的检测方法和装置
CN108874927B (zh) 基于超图和随机森林的入侵检测方法
US10140453B1 (en) Vulnerability management using taxonomy-based normalization
CN114584405B (zh) 一种电力终端安全防护方法及系统
CN112468347B (zh) 一种云平台的安全管理方法、装置、电子设备及存储介质
CN113780443B (zh) 一种面向威胁检测的网络安全态势评估方法
CN113111951B (zh) 数据处理方法以及装置
CN110830467A (zh) 基于模糊预测的网络可疑资产识别方法
CN115622738A (zh) 一种基于rbf神经网络安全应急处置系统及应急处置方法
CN111935064A (zh) 一种工控网络威胁自动隔离方法及系统
CN112765660A (zh) 一种基于MapReduce并行聚类技术的终端安全性分析方法和系统
CN114880392A (zh) 多源异构安全设备海量数据归一化处理方法
CN111930726A (zh) 基于离线表单的等级保护测评数据采集、分析方法及系统
CN111339050B (zh) 一种基于大数据平台集中安全审计的方法及系统
RU148692U1 (ru) Система мониторинга событий компьютерной безопасности
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN111709021B (zh) 一种基于海量告警的攻击事件识别方法及电子装置
CN106920022B (zh) 卷烟工业控制系统的安全脆弱性评估方法、系统及设备
CN112600828B (zh) 基于数据报文的电力控制系统攻击检测防护方法及装置
RU180789U1 (ru) Устройство аудита информационной безопасности в автоматизированных системах
CN116628554B (zh) 一种工业互联网数据异常的检测方法、系统和设备
CN111191239B (zh) 一种用于应用程序的进程检测方法及系统
CN117176441A (zh) 一种网络设备安全日志事件检测系统、方法
CN116599743A (zh) 4a异常绕行检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination