CN117150256A - 一种针对网络安全事件的数据泛化方法 - Google Patents

一种针对网络安全事件的数据泛化方法 Download PDF

Info

Publication number
CN117150256A
CN117150256A CN202311084386.4A CN202311084386A CN117150256A CN 117150256 A CN117150256 A CN 117150256A CN 202311084386 A CN202311084386 A CN 202311084386A CN 117150256 A CN117150256 A CN 117150256A
Authority
CN
China
Prior art keywords
data
aggregation
time
data set
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311084386.4A
Other languages
English (en)
Inventor
李威
李健俊
姜学峰
乐欢
邵慧
董惠良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Zhejiang Industrial Co Ltd
Original Assignee
China Tobacco Zhejiang Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Zhejiang Industrial Co Ltd filed Critical China Tobacco Zhejiang Industrial Co Ltd
Priority to CN202311084386.4A priority Critical patent/CN117150256A/zh
Publication of CN117150256A publication Critical patent/CN117150256A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种针对网络安全事件的数据泛化方法,包括:对网络安全事件数据集抽样,获取抽样数据并进行数据清洗,基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合;对数据集合进行数据分箱处理获得具有多个离散数据区间的数据集并进行降维处理,获得降维后的数据集;对降维数据集进行特征选择,获得降维数据集中的特征子集;降维数据集中的特征子集为最终生成的网络安全事件的泛化数据;本发明通过对网络安全事件的数据抽样、清洗、聚合、分箱、降维、特征选择步骤实现泛化,减少数据的规模和维度,且同时保留关键的信息和洞察力。

Description

一种针对网络安全事件的数据泛化方法
技术领域
本发明属于网络安全数据处理领域,具体涉及一种针对网络安全事件的数据泛化方法。
背景技术
网络安全事件通过数据泛化技术进行分析和转化,现有的方案通过对数据依次进行脱敏处理、匿名化处理、泛化层次处理、统计聚合处理、数据量化处理完成数据泛化,实现在一定程度上降低数据的细节和精确性,且同时也保护了敏感信息和隐私,使其难以还原或识别;但是采用当前数据泛化技术存在一些问题和缺陷,包括:(1)泛化后造成网络安全数据的信息损失;(2)泛化后造成网络安全数据的失真;(3)泛化后造成数据可用性与实用性降低;(4)现有的数据泛化方法难以兼容多任务;因此通过现有的数据泛化技术分析网络安全事件依然还不是很完善。
发明内容
发明目的:为了克服现有技术中的不足,本发明提供一种针对网络安全事件的数据泛化方法,通过数据抽样、数据清洗、数据聚合、数据分箱、数据降维、特征选择步骤实现网络安全事件的数据泛化且减少数据的规模和维度,同时保留关键的信息和洞察力。
技术方案:第一方面本发明提供一种针对网络安全事件的数据泛化方法,包括:
对网络安全事件数据集抽样,获取抽样数据;
对抽样数据进行数据清洗,获得清洗后的数据集合;
基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合;
对聚合后的数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集;
对具有多个离散数据区间的数据集进行降维处理,获得降维后的数据集;
对降维数据集进行特征选择,获得降维数据集中的特征子集;
其中,降维数据集中的特征子集为最终生成的网络安全事件的泛化数据。
在进一步的实施例中,对网络安全事件数据集抽样,获取抽样数据,包括:
根据网络安全事件的总体数据量,确定抽样数据样本量;
基于确定的抽样数据样本量启动抽样动作,由系统随机确定起始位置或者人工指定一个起始位置i,当选择随机确定起始位置时,通过随机数生成器生成随机确定起始位置;
从起始位置开始,按照预设固定步长k依次选取样本直至达到样本量,输出抽样数据集;其中,达到样本量的抽样数据分别进行统计分析和建模,用于评估所选网络安全事件数据泛化的总体结果。
在进一步的实施例中,对抽样数据进行数据清洗,获得清洗后的数据集合,包括:
对抽样数据分别进行缺失值填充或删除、异常值检测和处理、噪声数据处理、数据格式转换以及数据归一化处理,清洗为无缺失值、无异常值、噪声消除、数据格式标准化以及数据度量范围限定的样本数据集合。
在进一步的实施例中,对抽样数据进行缺失值填充或删除包括对根据均值、中位数、众数填充缺失值或将缺失值所在行或列删除;
对抽样数据进行异常值检测和处理包括:分别采用平滑和截断的方法处理抽样数据;
平滑处理方法为使用移动平均、指数平滑的方法降低突发性异常值的影响;截断处理方法是将超过一定范围的异常值视为缺失值或删去;
对抽样数据进行噪声数据处理包括:采用滤波和插值处理抽样数据,通过均值滤波方法消除噪声以及通过已知数据点推算出未知点的取值;
对抽样数据进行数据格式转换包括:将不符合格式要求的抽样数据转换为标准格式,用于时间序列的分析;
对抽样数据进行归一化处理包括:将不同度量范围的数据进行归一化操作使得数据度量限值在一定范围内。
在进一步的实施例中,基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对应聚合规则匹配进行数据聚合计算,获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合,包括:
判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间;
基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合。
在进一步的实施例中,判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间,包括:
当判断清洗数据为匹配聚合规则的第一条数据时,进行开启聚合监测,此时聚合次数为1,聚合开始时间、聚合更新时间为本数据的时间,获得聚合开始时间、聚合更新时间、聚合次数;
当判断清洗数据不为匹配聚合规则的第一条数据时,基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合。
在进一步的实施例中,基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合,包括:
当清洗数据的聚合次数小于预设聚合次数的范围上限值,且未达到时间约定时,更新聚合次数,更新聚合最新时间为本条数据的时间,获得聚合次数、聚合最新时间,继续分析清洗后的数据集合;
当清洗数据的聚合次数小于预设聚合次数的范围上限值,且大于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,更新聚合结束时间为上次获得的聚合更新时间,聚合次数仍为上次的聚合次数,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数等于预设聚合次数的范围上限值,且未达到时间约定时,关闭聚合操作,更新聚合次数,更新聚合结束时间为本条数据的时间,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数等于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,更新聚合次数,更新聚合结束时间为本条数据得时间,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数小于预设聚合次数的范围下限值,且未达到时间约定时,更新聚合次数,更新聚合最新时间为本条数据的时间,获得聚合次数、聚合最新时间,继续分析清洗后的数据集合;
当清洗数据的聚合次数小于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,本次聚合操作失败,在聚合规则范围内的清洗数据不被采用。
在进一步的实施例中,对聚合后的数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集,包括:
将网络安全事件分别按照时间段、地理位置、攻击类型进行分箱,获得分箱后的离散数据区间用于网络安全事件的时间、地点、攻击类型的分别进行统计和分析。
在进一步的实施例中,分别对离散数据进行降维处理,获得降维后的数据集,包括:
对分箱后的离散数据区间进行预处理,获得具有零均值和单位方差形式的数据集;
将数据集导入协方差矩阵进行特征值分解计算,获得特征值;
基于特征值计算,获得特征向量;
根据由大到小原则对特征向量进行排序,并选择保留高于其它的一个或多个特征向量的特征值作为主成分;
基于保留的主成分对网络安全数据集进行投影,获得降维后的数据集;
其中,协方差矩阵表达式为:
Cov(X)=(1/(n-1))*(X-mean(X))^T*(X-mean(X))
式中,Cov(X)是协方差矩阵,n是数据样本的数量,mean(X)是数据的均值,^T表示矩阵的转置。
在进一步的实施例中,对降维数据集进行特征选择,获得降维数据集中的特征子集,包括:
将降维数据集导入Lasso回归算法计算,获得剔除部分不重要特征的数据集合;
对剔除部分不重要特征的数据集合进行特征选择,获得降维数据集中的特征子集;
其中,Lasso回归算法的表达式为:
minimize||y-Xw||^2+alpha*||w||_1
式中,y为因变量;X为自变量包含多个特征;w为模型参数;alpha为正则化系数。
有益效果:本发明与现有技术相比具有以下优点:
(1)利用基于特征的数据合成和生成技术,可以创建具有类似统计特性的合成数据集,以替代原始数据集。这样可以保护原始数据的隐私,同时保持数据的一致性和可用性。生成的数据可以用于模型训练、算法测试和共享,而无需直接暴露真实数据。
(2)本发明采用更高级的泛化方法,以解决信息损失和数据失真的问题。本发明采用了基于机器学习的泛化方法,可以更准确地处理数据,减少信息损失,并提高泛化效果。这些方法可以更好地保持数据的特征和统计属性。
(3)根据具体应用需求和数据特性,综合考虑不同的泛化技术和措施,选择最适合的方法。根据数据的敏感性、隐私需求、分析目标和可用性等因素来进行权衡和决策。灵活运用多种泛化技术的组合,以实现更好的数据泛化效果。
通过综合应用这些措施,本发明可以有效解决当前网络安全事件数据泛化中的问题和缺陷,提高数据的隐私保护、质量和可用性,同时确保数据的安全性和实用性,为数据分析和机器学习奠定坚实的基础。
附图说明
图1是本发明抽样数据进行数据聚合的流程图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
结合实施例进一步说明本发明的对网络安全事件的数据泛化方法,本实施例的方法包括:
步骤1:对网络安全事件数据集抽样,获取抽样数据;
步骤2:对抽样数据进行数据清洗,获得清洗后的数据集合;
步骤3:基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合;
步骤4:对聚合后的数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集;
步骤5:对具有多个离散数据区间的数据集进行降维处理,获得降维后的数据集;
步骤6:对降维数据集进行特征选择,获得降维数据集中的特征子集,其中,降维数据集中的特征子集为最终生成的网络安全事件的泛化数据。
步骤1在本实施例中,由于大规模网络安全事件数据集可能非常庞大,直接处理整个数据集可能会导致计算和存储方面的问题。因此,首先需要进行数据抽样,选择一个代表性的子集进行分析。本发明采用系统抽样的方式,确保样本的代表性和数据的均衡性。
系统抽样方法是从总体网络安全数据集合中选取每k个样本进行抽样的一种方法,这种抽样方法更加高效,能够减少人为干扰和数据偏差。对网络安全事件数据集抽样,获取抽样数据,进一步的包括:
步骤1.1:根据网络安全事件的总体数据量,确定抽样数据样本量;
步骤1.2:基于确定的抽样数据样本量启动抽样动作,由系统随机确定起始位置或者人工指定一个起始位置I,当选择随机确定起始位置时,通过随机数生成器生成随机确定起始位置;
步骤1.3:从起始位置开始,按照预设固定步长k依次选取样本直至达到样本量,输出抽样数据集;其中,达到样本量的抽样数据分别进行统计分析和建模,用于评估所选网络安全事件数据泛化的总体结果;
步骤2在本实施例中在进行数据抽样之后,需要进行数据清洗以处理网络安全事件数据中的异常值、缺失值和噪声。数据清洗能够确保数据的质量和准确性,为后续的泛化处理奠定基础。本发明涉及到缺失值填充、异常值检测和处理、噪声数据处理、数据格式转换、数据归一化五种技术;对抽样数据进行数据清洗,获得清洗后的数据集合,进一步的包括:
对抽样数据分别进行缺失值填充或删除、异常值检测和处理、噪声数据处理、数据格式转换以及数据归一化处理,清洗为无缺失值、无异常值、噪声消除、数据格式标准化以及数据度量范围限定的样本数据集合。
优选的,对抽样数据进行缺失值填充或删除包括对根据均值、中位数、众数填充缺失值或将缺失值所在行或列删除;
对抽样数据进行异常值检测和处理包括:分别采用平滑和截断的方法处理抽样数据;
平滑处理方法为使用移动平均、指数平滑的方法降低突发性异常值的影响;截断处理方法是将超过一定范围的异常值视为缺失值或删去;
对抽样数据进行噪声数据处理包括:采用滤波和插值处理抽样数据,通过均值滤波方法消除噪声以及通过已知数据点推算出未知点的取值;
对抽样数据进行数据格式转换包括:将不符合格式要求的抽样数据转换为标准格式,用于时间序列的分析;
对抽样数据进行归一化处理包括:将不同度量范围的数据进行归一化操作使得数据度量限值在一定范围内。
步骤3在本实施例中对于网络安全事件数据,聚合是常见的泛化处理方法。通过聚合,可以将相同类型的事件合并为总计或统计信息,以减少数据的数量和维度。传统的数据聚合方法是将相同类型的攻击事件按照时间段进行聚合,得到每小时、每天或每周的攻击次数。本发明提供的数据聚合方法对传统的数据聚合方法进行了优化,提供了一种更为高级的数据聚合方法;基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合,进一步的包括:
步骤3.1:判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间;
步骤3.2:基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合。
其次本实施例中按照对象、时间约定、聚合次数预设限值聚合详细的包括:
(1)聚合对象。传统数据聚合方法只针对攻击事件类型进行聚合,本发明的数据聚合对象可以为:事件等级、事件类型、安全系统种类、攻击事件编号、协议、安全系统IP、数据采集引擎IP、攻击事件源IP、攻击事件源端口、攻击事件目标IP、攻击事件目标端口。
(2)聚合时间约定。传统数据聚合方法可以按照每小时、每天或每周作为聚合时间约定,本发明可以自定义聚合时长的约定,从第一条数据出现开始计算时间,达到约定时长后。重新开始下一次数据聚合计算。
(3)聚合次数上限值。传统数据聚合方法一般不对最大聚合次数进行约定。本发明可以定义最大聚合次数,当符合条件的数据达到最大聚合次数后,就关闭此次聚合计算。当下一条符合条件的数据到达后,重新开始下一次数据聚合计算。
(4)聚合次数下限值。传统数据聚合方法一般不对最小聚合次数进行约定。本发明可以定义最小聚合次数,当符合条件的数据达到最小聚合次数后,才开始执行数据聚合计算。
优选的步骤3.1判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间,包括:
当判断清洗数据为匹配聚合规则的第一条数据时,进行开启聚合监测,此时聚合次数为1,聚合开始时间、聚合更新时间为本数据的时间,获得聚合开始时间、聚合更新时间、聚合次数;
当判断清洗数据不为匹配聚合规则的第一条数据时,基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合以及结合附图1进一步说明。
优选的,步骤3.2基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合,包括:
当清洗数据的聚合次数小于预设聚合次数的范围上限值,且未达到时间约定时,更新聚合次数,更新聚合最新时间为本条数据的时间,获得聚合次数、聚合最新时间,继续分析清洗后的数据集合;
当清洗数据的聚合次数小于预设聚合次数的范围上限值,且大于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,更新聚合结束时间为上次获得的聚合更新时间,聚合次数仍为上次的聚合次数,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数等于预设聚合次数的范围上限值,且未达到时间约定时,关闭聚合操作,更新聚合次数,更新聚合结束时间为本条数据的时间,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数等于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,更新聚合次数,更新聚合结束时间为本条数据得时间,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数小于预设聚合次数的范围下限值,且未达到时间约定时,更新聚合次数,更新聚合最新时间为本条数据的时间,获得聚合次数、聚合最新时间,继续分析清洗后的数据集合;
当清洗数据的聚合次数小于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,本次聚合操作失败,在聚合规则范围内的清洗数据不被采用。
在本实施例中对于连续型的网络安全事件数据,可以将其分箱处理。分箱将连续数据划分为离散的区间,减少数据的细节和噪声,并揭示出在单个值中不明显的模式或趋势,以便进行安全事件分析和预测。数据分箱能够降低数据泛化模型的复杂度和计算难度,提高数据泛化模型的稳定性和可解释性。因此步骤4中综合采用时间分箱、地理位置分箱、攻击类型分箱三种分箱方法;对聚合后的数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集,进一步包括:
将网络安全事件分别按照时间段、地理位置、攻击类型进行分箱,获得分箱后的离散数据区间用于网络安全事件的时间、地点、攻击类型的分别进行统计和分析。
其次,本实施例中时间分箱将网络安全事件按照时间段进行划分,按照小时、天、周等时间段,以便对事件发生情况进行统计和分析;地理位置分箱将网络安全事件按照地理位置进行划分,按照国家、省份、城市等,以便对事件发生的地域分布进行统计和分析;攻击类型分箱将网络安全事件按照攻击类型进行划分,按照DDoS攻击、SQL注入、漏洞利用等类型,以便对攻击类型的分布进行统计和分析。
在本实施例中,大规模网络安全事件数据集可能包含大量的特征或变量,这可能增加计算复杂度和存储需求。通过降维技术,可以减少特征数量并保留数据的关键特征。由此步骤5采用主成分分析(PCA)降维方法,通过线性变换将高维数据投影到低维空间,保留数据的主要信息。分别对离散数据进行降维处理,获得降维后的数据集,进一步的包括:
步骤5.1:对分箱后的离散数据区间进行预处理,获得具有零均值和单位方差形式的数据集;确保数据的完整性和一致性。
步骤5.2:将数据集导入协方差矩阵进行特征值分解计算,获得特征值;协方差矩阵描述了数据之间的线性相关性
步骤5.3:基于特征值计算,获得特征向量;特征值表示了数据中的方差,而特征向量则表示了数据中的主要方向。特征值和特征向量可以通过奇异值分解算法得到。
步骤5.4:根据由大到小原则对特征向量进行排序,并选择保留高于其它的一个或多个特征向量的特征值作为主成分;按照从大到小的顺序排列。选择保留的主成分数量,可以基于保留的方差比例或设定的阈值进行决策。可以通过特征值的累计贡献率来判断保留多少主成分,以保持较高的信息保留程度。
步骤5.5:基于保留的主成分对网络安全数据集进行投影,获得降维后的数据集;将原始数据集投影到所选择的主成分上,形成降维后的数据集。这可以通过将数据与对应的特征向量相乘来实现。投影后的数据集将保留最重要的特征,并减少数据的维度。
其中,协方差矩阵表达式为:
Cov(X)=(1/(n-1))*(X-mean(X))^T*(X-mean(X))
式中,Cov(X)是协方差矩阵,n是数据样本的数量,mean(X)是数据的均值,^T表示矩阵的转置;
通过以上步骤,使用PCA可以将规模较大的网络安全事件数据集进行降维处理。降维后的数据集将具有较低的维度,但仍保留了原始数据中的关键信息。这有助于减少计算和存储需求,提高数据处理和分析的效率,并可能揭示出数据中隐藏的模式和趋势。
在大规模网络安全事件数据集中,通常存在许多不相关或冗余的特征。特征选择的目标是识别并选择最相关的特征子集,以提高网络安全事件分析的性能和准确性,在步骤6中使用机器学习算法Lasso回归(Least Absolute Shrinkage and SelectionOperator Regression)方法确定对于网络安全事件分析最具有意义的特征,Lasso回归是一种基于机器学习的L1正则化的线性回归方法,能够将某些不重要的特征的系数压缩为0,进而剔除这些特征,从而实现特征选择;对降维数据集进行特征选择,获得降维数据集中的特征子集,进一步包括:
步骤6.1:将降维数据集导入Lasso回归算法计算,获得剔除部分不重要特征的数据集合;
步骤6.2:对剔除部分不重要特征的数据集合进行特征选择,获得降维数据集中的特征子集;
其中,Lasso回归算法的表达式为:
minimize||y-Xw||^2+alpha*||w||_1
式中,y为因变量;X为自变量包含多个特征;w为模型参数;alpha为正则化系数;
以及在本实施例中,Lasso回归的算法使用坐标下降法来求解。坐标下降法是一种迭代优化算法,每次只更新一个参数,其他参数保持不变。具体步骤如下:
步骤6.1.1:步骤初始化所有参数w=0。
步骤6.1.2:对于每个参数wi固定其他参数不变,通过求解以下式子来更新wi:
wi=S(sign(sum(xi*(y-w'*x))/n)*(sum(xi*(y-w'*x))/n),alpha)
其中,S(x,t)表示对x进行软阈值操作,即:
S(x,t)=sign(x)*max(|x|-t,0)
重复执行步骤6.1.1:,直到满足停止条件(例如达到最大迭代次数或误差小于某个阈值)。
综上所述,本发明利用基于特征的数据合成和生成技术,可以创建具有类似统计特性的合成数据集,以替代原始数据集。这样可以保护原始数据的隐私,同时保持数据的一致性和可用性。生成的数据可以用于模型训练、算法测试和共享,而无需直接暴露真实数据。本发明采用更高级的泛化方法,以解决信息损失和数据失真的问题。本发明采用了基于机器学习的泛化方法,可以更准确地处理数据,减少信息损失,并提高泛化效果。这些方法可以更好地保持数据的特征和统计属性。根据具体应用需求和数据特性,综合考虑不同的泛化技术和措施,选择最适合的方法。根据数据的敏感性、隐私需求、分析目标和可用性等因素来进行权衡和决策。灵活运用多种泛化技术的组合,以实现更好的数据泛化效果。通过综合应用这些措施,本发明可以有效解决当前网络安全事件数据泛化中的问题和缺陷,提高数据的隐私保护、质量和可用性,同时确保数据的安全性和实用性,为数据分析和机器学习奠定坚实的基础。
本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种针对网络安全事件的数据泛化方法,其特征在于,包括:
对网络安全事件数据集抽样,获取抽样数据;
对抽样数据进行数据清洗,获得清洗后的数据集合;
基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合;
对聚合后的连续数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集;
对具有多个离散数据区间的数据集进行降维处理,获得降维后的数据集;
对降维数据集进行特征选择,获得降维数据集中的特征子集;
其中,降维数据集中的特征子集为最终生成的网络安全事件的泛化数据。
2.根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,对网络安全事件数据集抽样,获取抽样数据,包括:
根据网络安全事件的总体数据量,确定抽样数据样本量;
基于确定的抽样数据样本量启动抽样动作,由系统随机确定起始位置或者人工指定一个起始位置i,当选择随机确定起始位置时,通过随机数生成器生成随机确定起始位置;
从起始位置开始,按照预设固定步长k依次选取样本直至达到样本量,输出抽样数据集;其中,达到样本量的抽样数据分别进行统计分析和建模,用于评估所选网络安全事件数据泛化的总体结果。
3.根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,对抽样数据进行数据清洗,获得清洗后的数据集合,包括:
对抽样数据分别进行缺失值填充或删除、异常值检测和处理、噪声数据处理、数据格式转换以及数据归一化处理,清洗为无缺失值、无异常值、噪声消除、数据格式标准化以及数据度量范围限定的样本数据集合。
4.根据权利要求3所述的一种针对网络安全事件的数据泛化方法,其特征在于,对抽样数据进行缺失值填充或删除包括对根据均值、中位数、众数填充缺失值或将缺失值所在行或列删除;
对抽样数据进行异常值检测和处理包括:分别采用平滑和截断的方法处理抽样数据;
平滑处理方法为使用移动平均、指数平滑的方法降低突发性异常值的影响;截断处理方法是将超过一定范围的异常值视为缺失值或删去;
对抽样数据进行噪声数据处理包括:采用滤波和插值处理抽样数据,通过均值滤波方法消除噪声以及通过已知数据点推算出未知点的取值;
对抽样数据进行数据格式转换包括:将不符合格式要求的抽样数据转换为标准格式,用于时间序列的分析;
对抽样数据进行归一化处理包括:将不同度量范围的数据进行归一化操作使得数据度量限值在一定范围内。
5.根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,基于清洗后的数据集合判断清洗数据是否匹配聚合规则,并对与聚合规则匹配进行数据聚合计算,获得按照对象、时间约定、聚合次数预设限值聚合后的数据集合,包括:
判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间;
基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合。
6.根据权利要求5所述的一种针对网络安全事件的数据泛化方法,其特征在于,判断清洗数据是否为匹配聚合规则的数据,并基于判断结果获得清洗数据的聚合次数以及聚合时间,包括:
当判断清洗数据为匹配聚合规则的第一条数据时,进行开启聚合监测,此时聚合次数为1,聚合开始时间、聚合更新时间为本数据的时间,获得聚合开始时间、聚合更新时间、聚合次数;
当判断清洗数据不为匹配聚合规则的第一条数据时,基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合。
7.根据权利要5所述的一种针对网络安全事件的数据泛化方法,其特征在于,基于预设聚合次数的范围值、时间约定分别判断清洗数据的聚合次数以及聚合时间,并基于判断结果执行聚合操作或关闭聚合操作或重新分析清洗后的数据集合,包括:
当清洗数据的聚合次数小于预设聚合次数的范围上限值,且未达到时间约定时,更新聚合次数,更新聚合最新时间为本条数据的时间,获得聚合次数、聚合最新时间,继续分析清洗后的数据集合;
当清洗数据的聚合次数小于预设聚合次数的范围上限值,且大于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,更新聚合结束时间为上次获得的聚合更新时间,聚合次数仍为上次的聚合次数,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数等于预设聚合次数的范围上限值,且未达到时间约定时,关闭聚合操作,更新聚合次数,更新聚合结束时间为本条数据的时间,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数等于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,更新聚合次数,更新聚合结束时间为本条数据得时间,获得聚合次数、聚合结束时间;
当清洗数据的聚合次数小于预设聚合次数的范围下限值,且未达到时间约定时,更新聚合次数,更新聚合最新时间为本条数据的时间,获得聚合次数、聚合最新时间,继续分析清洗后的数据集合;
当清洗数据的聚合次数小于预设聚合次数的范围下限值,且达到时间约定时,关闭聚合操作,本次聚合操作失败,在聚合规则范围内的清洗数据不被采用。
8.根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,对聚合后的数据集合进行数据分箱处理,获得分箱后具有多个离散数据区间的数据集,包括:
将网络安全事件分别按照时间段、地理位置、攻击类型进行分箱,获得分箱后的离散数据区间用于网络安全事件的时间、地点、攻击类型的分别进行统计和分析。
9.根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,分别对离散数据进行降维处理,获得降维后的数据集,包括:
对分箱后的离散数据区间进行预处理,获得具有零均值和单位方差形式的数据集;
将数据集导入协方差矩阵进行特征值分解计算,获得特征值;
基于特征值计算,获得特征向量;
根据由大到小原则对特征向量进行排序,并选择保留高于其它的一个或多个特征向量的特征值作为主成分;
基于保留的主成分对网络安全数据集进行投影,获得降维后的数据集;
其中,协方差矩阵表达式为:
Cov(X)=(1/(n-1))*(X-mean(X))^T*(X-mean(X))
式中,Cov(X)是协方差矩阵,n是数据样本的数量,mean(X)是数据的均值,^T表示矩阵的转置。
10.根据权利要求1所述的一种针对网络安全事件的数据泛化方法,其特征在于,对降维数据集进行特征选择,获得降维数据集中的特征子集,包括:
将降维数据集导入Lasso回归算法计算,获得剔除部分不重要特征的数据集合;
对剔除部分不重要特征的数据集合进行特征选择,获得降维数据集中的特征子集;
其中,Lasso回归算法的表达式为:
minimize||y-Xw||^2+alpha*||w||_1
式中,y为因变量;X为自变量包含多个特征;w为模型参数;alpha为正则化系数。
CN202311084386.4A 2023-08-25 2023-08-25 一种针对网络安全事件的数据泛化方法 Pending CN117150256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311084386.4A CN117150256A (zh) 2023-08-25 2023-08-25 一种针对网络安全事件的数据泛化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311084386.4A CN117150256A (zh) 2023-08-25 2023-08-25 一种针对网络安全事件的数据泛化方法

Publications (1)

Publication Number Publication Date
CN117150256A true CN117150256A (zh) 2023-12-01

Family

ID=88898026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311084386.4A Pending CN117150256A (zh) 2023-08-25 2023-08-25 一种针对网络安全事件的数据泛化方法

Country Status (1)

Country Link
CN (1) CN117150256A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117544411A (zh) * 2023-12-20 2024-02-09 湖北天融信网络安全技术有限公司 用于主动确定攻击情报的方法、装置及存储介质
CN118363954A (zh) * 2024-06-20 2024-07-19 国家邮政局邮政业安全中心 快递数据的稽查方法、装置、存储介质、程序产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117544411A (zh) * 2023-12-20 2024-02-09 湖北天融信网络安全技术有限公司 用于主动确定攻击情报的方法、装置及存储介质
CN118363954A (zh) * 2024-06-20 2024-07-19 国家邮政局邮政业安全中心 快递数据的稽查方法、装置、存储介质、程序产品

Similar Documents

Publication Publication Date Title
CN110163261B (zh) 不平衡数据分类模型训练方法、装置、设备及存储介质
CN117150256A (zh) 一种针对网络安全事件的数据泛化方法
CN110674604A (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN107403188A (zh) 一种水质评价方法及装置
CN114282571B (zh) 一种轴承多维健康指标构建方法、系统、设备以及介质
Bauer et al. An automated forecasting framework based on method recommendation for seasonal time series
CN111726350A (zh) 基于vae和bpnn的内部威胁检测方法
CN117473275B (zh) 一种数据中心的能耗检测方法
CN116737681A (zh) 一种实时异常日志检测方法、装置、计算机设备和存储介质
CN115883424B (zh) 一种高速骨干网间流量数据预测方法及系统
Colonna et al. Unsupervised selection of the singular spectrum components based on information theory for bioacoustic signal filtering
CN115733673B (zh) 一种基于多尺度残差分类器的数据异常检测方法
CN116861373A (zh) 一种查询选择率估算方法、系统、终端设备及存储介质
CN111144424A (zh) 一种基于聚类算法的人员特征检分析方法
Colgan et al. Architectural optimization and feature learning for high-dimensional time series datasets
CN115355166A (zh) 一种基于短时傅里叶变换的空压机故障诊断方法和系统
CN113487080B (zh) 一种基于风速分类的风速动态场景生成方法、系统及终端
CN116933119A (zh) 一种基于卷积神经网络的信号数据去除趋势方法
CN111814153A (zh) 一种基于大数据的商业网站安全维护方法
Paluš et al. Detecting oscillations hidden in noise: Common cycles in atmospheric, geomagnetic and solar data
Valdés et al. Machine learning approaches for predicting the 10.7 cm radio flux from solar magnetogram data
CN118193955B (zh) 一种压气机气动噪声获取方法、装置、介质及产品
CN118332034B (zh) 一种基于机器学习的数据挖掘模型构建方法及系统
CN118549823B (zh) 一种锂电池电性能测试方法及系统
CN118036667B (zh) 一种多源异构流数据预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination