CN114004989A - 一种基于改进K-means算法的电力安全预警数据聚类处理方法 - Google Patents
一种基于改进K-means算法的电力安全预警数据聚类处理方法 Download PDFInfo
- Publication number
- CN114004989A CN114004989A CN202111305706.5A CN202111305706A CN114004989A CN 114004989 A CN114004989 A CN 114004989A CN 202111305706 A CN202111305706 A CN 202111305706A CN 114004989 A CN114004989 A CN 114004989A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- clustering
- improved
- means algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 231100000279 safety data Toxicity 0.000 claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000007621 cluster analysis Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种基于改进K‑means算法的电力安全预警数据聚类处理方法,采集电网入侵检测系统中初始安全数据;对采集到的安全数据进行预处理,得到安全数据集;运用改进后的基于密度与距离的K‑means算法对的安全数据集中的数据进行聚类分析,得到最终的报警数据聚类结果。本发明运用改进后的K‑means算法,解决了传统K‑means算法在初始聚类中心与K值选取存在的问题,提高聚类的准确性。经过聚类分析模块处理的处理,使得系统最终得到能更加准确高效的报警信息,极大程度上改善报警信息冗余问题,并从一定程度上能够减少预警系统的漏报误报率,提高电网安全预警系统的表现。
Description
技术领域
本发明属于电力安全预警数据的处理分析领域,一种基于改进K-means算法的电力安全预警数据聚类处理方法
背景技术
随着互联网技术和基础设施的快速发展,电力网络系统也进入了大数据、大流量的时代,既给电力系统带来更便利的管理与控制时,随之而来的,电力网络防护系统每天都会收到海量的网络攻击与威胁数据,并且还在以指数级形式增长。传统的电力入侵检测系统面对海量的安全数据时,存在报警信息冗余泛滥、系统漏报误报率高的问题。
发明内容
为了解决上述背景技术中存在的问题,本申请提出一种基于改进K-means算法的电力安全预警数据聚类处理方法,目的在于解决电力入侵检测系统面对海量的安全数据时,报警信息冗余泛滥、系统漏报误报率高的问题。
本发明所采用的技术方案如下:
一种基于改进K-means算法的电力安全预警数据聚类处理方法,包括如下步骤:
步骤1、采集电网入侵检测系统中初始安全数据;
步骤2、对采集到的安全数据进行预处理,得到安全数据集;
步骤3、运用改进后的基于密度与距离的K-means算法对的安全数据集中的数据进行聚类分析,得到最终的报警数据聚类结果。
进一步,所述改进后的基于密度与距离的K-means算法进行聚类分析的方法如下:
步骤3.1、将经过预处理后的安全数据集的样本作为输入,计算样本点不同维度数据的权值;基于样本点同维度数据的权值计算样本点之间加权的欧式距离;再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd;
步骤3.2、以任意样本点为中心,R=avgd为半径画圆,将圆内的所有样本点数目作为样本点的密度;
步骤3.3、根据样本点的密度选取聚类中心;
步骤3.4、由得到的初始聚类中心和聚类数为输入,对给定数据集进行聚类运算,直到聚类中心不再变化;
步骤3.5、输出最终聚类结果,完成对安全数据的聚类处理。
进一步,步骤3.3中选取聚类中心的方法为:
在数据集合U中找出权值参数最大的点作为第2个中心点x2加入到中心点集合C中,将U中所有距离点x2小于avgd的点删除;
重复上述过程,直到数据集U变为空集,此时C={C1,C2,…,k},得到k个初始聚类中心。
进一步,步骤3.1中计算样本点不同维度数据的权值:
进一步,然后计算样本点之间加权的欧式距离:
进一步,计算出所有样本点的平均距离avgd:
进一步,所述安全数据是入侵检测系统的报警数据,一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息的字段。
进一步,步骤2中的预处理包括对安全数据进行数据清洗以及非数值型字段进行数值化处理。
本发明的有益效果:
本发明提出的基于改进K-means算法的电力安全预警数据的聚类处理的方法,针对电力入侵检测系统的初始报警信息进行聚类处理。由于初始的报警信息存在着严重冗余重复的问题,导致安全预警系统收到泛滥的安全预警。而本申请利用基于改进的K-means算法的聚类处理模块,对经过预处理的报警数据进行进一步的聚类分析,聚合相同攻击类型报警信息,减少冗余报警信息,将虚假信息和真实报警信息分离,得到更精确高效的报警信息。这极大程度上改善入侵检测系统报警信息冗余问题,并从一定程度上能够减少系统的漏报误报率,从而提高电网安全预警系统的表现。
此外,改进的K-means算法基于距离与密度的思想,依据一定规则计算距离与密度参数,借助距离与密度参数在算法运行过程中选取合理的初始聚类中心点与K值,解决了传统K-means聚类算法的K值难以评估选取问题,避免出现传统K-means聚类算法过程中因随机指定或凭经验选择初始聚类中心点与K值所带来的聚类结果波动较大以及不准确的缺陷。提高了聚类的稳定性与准确性。
附图说明
图1为本发明总体流程图
图2为本发明中基于距离与密度改进的K-means算法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,本发明提供的基于改进K-means算法的电力安全预警数据的聚类处理的方法包括按顺序进行的下列步骤:
步骤1、采集电网入侵检测系统中初始安全数据;步骤1中所提到的安全数据是入侵检测系统的报警数据记录,一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息等字段。
步骤2、对采集到的安全数据进行预处理,得到安全数据集。步骤2中对所采集的安全数据的预处理包括如下内容:
由于从电网入侵检测系统提取的初始安全数据中的样本点存在缺失值和重复值点,而这些缺失值和重复值点不利于后续正确快速的聚类分析。因此在聚类处理之前应采用数据清洗的方法处理这些值,才能不影响聚类分析。此外,对于安全数据中非数值型字段,例如时间戳以及协议类型,需要对该非数值型字段进行数值化预处理,方便后面的聚类运算。
步骤3、运用改进后的基于密度与距离的K-means算法对安全数据集的报警数据进行聚类分析,得到最终的报警数据聚类结果,具体过程如下:。
步骤3.1、将经过预处理后的安全数据集的样本作为输入,设安全数据集中有n个样本点,每个样本点的维度都是m,计算样本点不同维度数据的权值,计算公式如(1)所示:
然后计算样本点之间加权的欧式距离,计算公式如(2)所示
再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd,计算公式如(3)所示:
步骤3.2、以任意样本点为中心,R=avgd为半径画圆,将圆内的所有样本点数目作为样本点的密度。
步骤3.3、计算出所有样本点的密度,密度计算公式如(4)所示,按样本点的密度从大到小的顺序将前个样本数据存入到数据集合U中,选取样本点密度最大的点x1作为第一个聚类中心放入中心点集合C中,然后将U中所有距离点x1小于avgd的点删除。
在数据集合U中找出权值参数最大的点作为第2个中心点x2加入到中心点集合C中,将U中所有距离点x2小于avgd的点删除。
类似地不停重复上述过程,根据权值参数选出聚类中心,权值参数计算公式如(5)所示直到数据集U变为空集,此时C={C1,C2,…,k},得到k个初始聚类中心。
fi=hi·dw(xi,,Ci-1) (5);
其中,fi为距离与密度的权重参数;dw(xi,,Ci-1)是样本U中xi,到上一个已选择的初始聚类中心Ci-1的距离。hi是定义聚类有效值比值为为簇内样本距离与簇间样本距离的比值。簇内样本距离的计算公式:
簇间样本距离的计算公式:
dsi=mindwij,其中xj∈D,ρj>ρi
步骤3.4、由得到的初始聚类中心和聚类数为输入,对给定数据集进行聚类运算,直到聚类中心不再变化。
步骤3.5、输出最终聚类结果,完成对安全数据的聚类处理。
本发明确定初始中心点的基本方法是根据密度与距离进行选取,即根据样本点的密度以及距离上一个初始中心点的距离构成的权值参数,来对初始中心点进行选取。某点密度越大、距离上一个初始中心点越远,则说明该点越容易是类别质心。根据上述思想,将样本点按照密度从大到小进行排序,将排在第一位的样本点即密度最大的点定为第一个初始中心点,将所有样本点的平均距离作为密度半径,再将距离第一个初始中心点小于密度半径的全部点删除。
删除后第一个初始中心点密度半径内全部点之后,再根据距离与密度的权值参数选取第二个初始中心点,即从剩下的样本点中选取密度较大并且距离第一个初始中心较远的样本点,并删除该密度半径内的所有点;第三个初始中心点的选取,即从剩下的样本点中选取密度较大并且距离第二个初始中心点较远的点,再将该点密度半径内的所有的删除。类似地重复上述操作直到数据集为空。此时选择出来的点初步定为初始点,其个数定为类别个数值。
再根据上述操作得到的初始中心与聚类数,对样本集进行聚类运算,得到最终的聚类结果并输出。
结合以上说明,本发明对初始数据集进行聚类处理流程如图2所示。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (8)
1.一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,包括如下步骤:
步骤1、采集电网入侵检测系统中初始安全数据;
步骤2、对采集到的安全数据进行预处理,得到安全数据集;
步骤3、运用改进后的基于密度与距离的K-means算法对的安全数据集中的数据进行聚类分析,得到最终的报警数据聚类结果。
2.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,所述改进后的基于密度与距离的K-means算法进行聚类分析的方法如下:
步骤3.1、将经过预处理后的安全数据集的样本作为输入,计算样本点不同维度数据的权值;基于样本点同维度数据的权值计算样本点之间加权的欧式距离;再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd;
步骤3.2、以任意样本点为中心,R=avgd为半径画圆,将圆内的所有样本点数目作为样本点的密度;
步骤3.3、根据样本点的密度选取聚类中心;
步骤3.4、由得到的初始聚类中心和聚类数为输入,对给定数据集进行聚类运算,直到聚类中心不再变化;
步骤3.5、输出最终聚类结果,完成对安全数据的聚类处理。
7.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,所述安全数据是入侵检测系统的报警数据,一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息的字段。
8.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,步骤2中的预处理包括对安全数据进行数据清洗以及非数值型字段进行数值化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111305706.5A CN114004989A (zh) | 2021-11-05 | 2021-11-05 | 一种基于改进K-means算法的电力安全预警数据聚类处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111305706.5A CN114004989A (zh) | 2021-11-05 | 2021-11-05 | 一种基于改进K-means算法的电力安全预警数据聚类处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114004989A true CN114004989A (zh) | 2022-02-01 |
Family
ID=79928103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111305706.5A Pending CN114004989A (zh) | 2021-11-05 | 2021-11-05 | 一种基于改进K-means算法的电力安全预警数据聚类处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114004989A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581694A (zh) * | 2022-05-05 | 2022-06-03 | 南京邮电大学 | 一种基于改进的支持向量机的网络安全态势评估方法 |
-
2021
- 2021-11-05 CN CN202111305706.5A patent/CN114004989A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581694A (zh) * | 2022-05-05 | 2022-06-03 | 南京邮电大学 | 一种基于改进的支持向量机的网络安全态势评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109768985B (zh) | 一种基于流量可视化与机器学习算法的入侵检测方法 | |
CN107493277B (zh) | 基于最大信息系数的大数据平台在线异常检测方法 | |
Effendy et al. | Classification of intrusion detection system (IDS) based on computer network | |
CN113378990B (zh) | 基于深度学习的流量数据异常检测方法 | |
Abdel-Hamid et al. | A dynamic spark-based classification framework for imbalanced big data | |
CN113762377B (zh) | 网络流量识别方法、装置、设备及存储介质 | |
CN114090402A (zh) | 一种基于孤立森林的用户异常访问行为检测方法 | |
WO2023093100A1 (zh) | 一种api网关异常调用识别的方法、装置、设备及产品 | |
CN111444501B (zh) | 一种基于梅尔倒谱与半空间森林结合的LDoS攻击检测方法 | |
CN111767538A (zh) | 一种基于相关信息熵的工控入侵检测系统特征选择方法 | |
CN114004989A (zh) | 一种基于改进K-means算法的电力安全预警数据聚类处理方法 | |
CN114978877A (zh) | 一种异常处理方法、装置、电子设备及计算机可读介质 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
CN115514581B (zh) | 一种用于工业互联网数据安全平台的数据分析方法及设备 | |
CN109284409A (zh) | 基于大规模街景数据的图片组地理定位方法 | |
CN117478390A (zh) | 一种基于改进密度峰值聚类算法的网络入侵检测方法 | |
Rahman et al. | An efficient approach for selecting initial centroid and outlier detection of data clustering | |
CN105930430B (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 | |
US20230164162A1 (en) | Valuable alert screening method efficiently detecting malicious threat | |
Al-Khamees et al. | Survey: Clustering techniques of data stream | |
CN108874974A (zh) | 基于频繁词集的并行化话题跟踪方法 | |
CN115659323A (zh) | 一种基于信息熵理论结合卷积神经网络的入侵检测方法 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
CN111343165B (zh) | 基于birch和smote的网络入侵检测方法及系统 | |
CN114298245A (zh) | 异常检测方法、装置、存储介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |