CN114004989A - 一种基于改进K-means算法的电力安全预警数据聚类处理方法 - Google Patents

一种基于改进K-means算法的电力安全预警数据聚类处理方法 Download PDF

Info

Publication number
CN114004989A
CN114004989A CN202111305706.5A CN202111305706A CN114004989A CN 114004989 A CN114004989 A CN 114004989A CN 202111305706 A CN202111305706 A CN 202111305706A CN 114004989 A CN114004989 A CN 114004989A
Authority
CN
China
Prior art keywords
data
sample
clustering
improved
means algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111305706.5A
Other languages
English (en)
Inventor
王新龙
于铭岱
毕馨月
张晨锐
杨云兮
杜昭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202111305706.5A priority Critical patent/CN114004989A/zh
Publication of CN114004989A publication Critical patent/CN114004989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种基于改进K‑means算法的电力安全预警数据聚类处理方法,采集电网入侵检测系统中初始安全数据;对采集到的安全数据进行预处理,得到安全数据集;运用改进后的基于密度与距离的K‑means算法对的安全数据集中的数据进行聚类分析,得到最终的报警数据聚类结果。本发明运用改进后的K‑means算法,解决了传统K‑means算法在初始聚类中心与K值选取存在的问题,提高聚类的准确性。经过聚类分析模块处理的处理,使得系统最终得到能更加准确高效的报警信息,极大程度上改善报警信息冗余问题,并从一定程度上能够减少预警系统的漏报误报率,提高电网安全预警系统的表现。

Description

一种基于改进K-means算法的电力安全预警数据聚类处理 方法
技术领域
本发明属于电力安全预警数据的处理分析领域,一种基于改进K-means算法的电力安全预警数据聚类处理方法
背景技术
随着互联网技术和基础设施的快速发展,电力网络系统也进入了大数据、大流量的时代,既给电力系统带来更便利的管理与控制时,随之而来的,电力网络防护系统每天都会收到海量的网络攻击与威胁数据,并且还在以指数级形式增长。传统的电力入侵检测系统面对海量的安全数据时,存在报警信息冗余泛滥、系统漏报误报率高的问题。
发明内容
为了解决上述背景技术中存在的问题,本申请提出一种基于改进K-means算法的电力安全预警数据聚类处理方法,目的在于解决电力入侵检测系统面对海量的安全数据时,报警信息冗余泛滥、系统漏报误报率高的问题。
本发明所采用的技术方案如下:
一种基于改进K-means算法的电力安全预警数据聚类处理方法,包括如下步骤:
步骤1、采集电网入侵检测系统中初始安全数据;
步骤2、对采集到的安全数据进行预处理,得到安全数据集;
步骤3、运用改进后的基于密度与距离的K-means算法对的安全数据集中的数据进行聚类分析,得到最终的报警数据聚类结果。
进一步,所述改进后的基于密度与距离的K-means算法进行聚类分析的方法如下:
步骤3.1、将经过预处理后的安全数据集的样本作为输入,计算样本点不同维度数据的权值;基于样本点同维度数据的权值计算样本点之间加权的欧式距离;再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd;
步骤3.2、以任意样本点为中心,R=avgd为半径画圆,将圆内的所有样本点数目作为样本点的密度;
步骤3.3、根据样本点的密度选取聚类中心;
步骤3.4、由得到的初始聚类中心和聚类数为输入,对给定数据集进行聚类运算,直到聚类中心不再变化;
步骤3.5、输出最终聚类结果,完成对安全数据的聚类处理。
进一步,步骤3.3中选取聚类中心的方法为:
按样本点的密度从大到小的顺序将前
Figure BDA0003340030510000021
个样本数据存入到数据集合U中,选取样本点密度最大的点x1作为第一个聚类中心放入中心点集合C中,然后将U中所有距离点x1小于avgd的点删除;
在数据集合U中找出权值参数最大的点作为第2个中心点x2加入到中心点集合C中,将U中所有距离点x2小于avgd的点删除;
重复上述过程,直到数据集U变为空集,此时C={C1,C2,…,k},得到k个初始聚类中心。
进一步,步骤3.1中计算样本点不同维度数据的权值:
Figure BDA0003340030510000022
其中,wid为样本点i在第d个分量上数据的权值;xid表示第i个样本数据中的第d个分量;
Figure BDA0003340030510000023
表示样本数据中各个数据对象的第d个分量的平均值,n为样本点数量;wid反映了样本数据整体分布特征。
进一步,然后计算样本点之间加权的欧式距离:
Figure BDA0003340030510000024
其中,
Figure BDA0003340030510000025
是样本xi和样本xj在m维向量空间下经过维度加权后计算出来的欧氏距离,xid和xjd分别是在向量空间的样本点xi和样本点xj的数据值,d是向量空间维度。
进一步,计算出所有样本点的平均距离avgd:
Figure BDA0003340030510000026
进一步,所述安全数据是入侵检测系统的报警数据,一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息的字段。
进一步,步骤2中的预处理包括对安全数据进行数据清洗以及非数值型字段进行数值化处理。
本发明的有益效果:
本发明提出的基于改进K-means算法的电力安全预警数据的聚类处理的方法,针对电力入侵检测系统的初始报警信息进行聚类处理。由于初始的报警信息存在着严重冗余重复的问题,导致安全预警系统收到泛滥的安全预警。而本申请利用基于改进的K-means算法的聚类处理模块,对经过预处理的报警数据进行进一步的聚类分析,聚合相同攻击类型报警信息,减少冗余报警信息,将虚假信息和真实报警信息分离,得到更精确高效的报警信息。这极大程度上改善入侵检测系统报警信息冗余问题,并从一定程度上能够减少系统的漏报误报率,从而提高电网安全预警系统的表现。
此外,改进的K-means算法基于距离与密度的思想,依据一定规则计算距离与密度参数,借助距离与密度参数在算法运行过程中选取合理的初始聚类中心点与K值,解决了传统K-means聚类算法的K值难以评估选取问题,避免出现传统K-means聚类算法过程中因随机指定或凭经验选择初始聚类中心点与K值所带来的聚类结果波动较大以及不准确的缺陷。提高了聚类的稳定性与准确性。
附图说明
图1为本发明总体流程图
图2为本发明中基于距离与密度改进的K-means算法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
如图1所示,本发明提供的基于改进K-means算法的电力安全预警数据的聚类处理的方法包括按顺序进行的下列步骤:
步骤1、采集电网入侵检测系统中初始安全数据;步骤1中所提到的安全数据是入侵检测系统的报警数据记录,一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息等字段。
步骤2、对采集到的安全数据进行预处理,得到安全数据集。步骤2中对所采集的安全数据的预处理包括如下内容:
由于从电网入侵检测系统提取的初始安全数据中的样本点存在缺失值和重复值点,而这些缺失值和重复值点不利于后续正确快速的聚类分析。因此在聚类处理之前应采用数据清洗的方法处理这些值,才能不影响聚类分析。此外,对于安全数据中非数值型字段,例如时间戳以及协议类型,需要对该非数值型字段进行数值化预处理,方便后面的聚类运算。
步骤3、运用改进后的基于密度与距离的K-means算法对安全数据集的报警数据进行聚类分析,得到最终的报警数据聚类结果,具体过程如下:。
步骤3.1、将经过预处理后的安全数据集的样本作为输入,设安全数据集中有n个样本点,每个样本点的维度都是m,计算样本点不同维度数据的权值,计算公式如(1)所示:
Figure BDA0003340030510000041
其中,wid为样本点i在第d个分量上数据的权值;xid表示第i个样本数据中的第d个分量;
Figure BDA0003340030510000042
表示样本数据中各个数据对象的第d个分量的平均值,n为样本点数量;wid反映了样本数据整体分布特征。
然后计算样本点之间加权的欧式距离,计算公式如(2)所示
Figure BDA0003340030510000043
其中,
Figure BDA0003340030510000044
是样本xi和样本xj在m维向量空间下经过维度加权后计算出来的欧氏距离,xid和xjd分别是在向量空间的样本点xi和样本点xj的数据值,d是向量空间维度。
再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd,计算公式如(3)所示:
Figure BDA0003340030510000045
步骤3.2、以任意样本点为中心,R=avgd为半径画圆,将圆内的所有样本点数目作为样本点的密度。
步骤3.3、计算出所有样本点的密度,密度计算公式如(4)所示,按样本点的密度从大到小的顺序将前
Figure BDA0003340030510000046
个样本数据存入到数据集合U中,选取样本点密度最大的点x1作为第一个聚类中心放入中心点集合C中,然后将U中所有距离点x1小于avgd的点删除。
Figure BDA0003340030510000047
其中,函数
Figure BDA0003340030510000048
dwij
Figure BDA0003340030510000049
表示欧氏距离。
在数据集合U中找出权值参数最大的点作为第2个中心点x2加入到中心点集合C中,将U中所有距离点x2小于avgd的点删除。
类似地不停重复上述过程,根据权值参数选出聚类中心,权值参数计算公式如(5)所示直到数据集U变为空集,此时C={C1,C2,…,k},得到k个初始聚类中心。
fi=hi·dw(xi,,Ci-1) (5);
其中,fi为距离与密度的权重参数;dw(xi,,Ci-1)是样本U中xi,到上一个已选择的初始聚类中心Ci-1的距离。hi是定义聚类有效值比值为为簇内样本距离与簇间样本距离的比值。簇内样本距离的计算公式:
Figure BDA0003340030510000051
簇间样本距离的计算公式:
dsi=mindwij,其中xj∈D,ρj>ρi
步骤3.4、由得到的初始聚类中心和聚类数为输入,对给定数据集进行聚类运算,直到聚类中心不再变化。
步骤3.5、输出最终聚类结果,完成对安全数据的聚类处理。
本发明确定初始中心点的基本方法是根据密度与距离进行选取,即根据样本点的密度以及距离上一个初始中心点的距离构成的权值参数,来对初始中心点进行选取。某点密度越大、距离上一个初始中心点越远,则说明该点越容易是类别质心。根据上述思想,将样本点按照密度从大到小进行排序,将排在第一位的样本点即密度最大的点定为第一个初始中心点,将所有样本点的平均距离作为密度半径,再将距离第一个初始中心点小于密度半径的全部点删除。
删除后第一个初始中心点密度半径内全部点之后,再根据距离与密度的权值参数选取第二个初始中心点,即从剩下的样本点中选取密度较大并且距离第一个初始中心较远的样本点,并删除该密度半径内的所有点;第三个初始中心点的选取,即从剩下的样本点中选取密度较大并且距离第二个初始中心点较远的点,再将该点密度半径内的所有的删除。类似地重复上述操作直到数据集为空。此时选择出来的点初步定为初始点,其个数定为类别个数值。
再根据上述操作得到的初始中心与聚类数,对样本集进行聚类运算,得到最终的聚类结果并输出。
结合以上说明,本发明对初始数据集进行聚类处理流程如图2所示。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (8)

1.一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,包括如下步骤:
步骤1、采集电网入侵检测系统中初始安全数据;
步骤2、对采集到的安全数据进行预处理,得到安全数据集;
步骤3、运用改进后的基于密度与距离的K-means算法对的安全数据集中的数据进行聚类分析,得到最终的报警数据聚类结果。
2.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,所述改进后的基于密度与距离的K-means算法进行聚类分析的方法如下:
步骤3.1、将经过预处理后的安全数据集的样本作为输入,计算样本点不同维度数据的权值;基于样本点同维度数据的权值计算样本点之间加权的欧式距离;再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd;
步骤3.2、以任意样本点为中心,R=avgd为半径画圆,将圆内的所有样本点数目作为样本点的密度;
步骤3.3、根据样本点的密度选取聚类中心;
步骤3.4、由得到的初始聚类中心和聚类数为输入,对给定数据集进行聚类运算,直到聚类中心不再变化;
步骤3.5、输出最终聚类结果,完成对安全数据的聚类处理。
3.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,步骤3.3中选取聚类中心的方法为:
按样本点的密度从大到小的顺序将前
Figure FDA0003340030500000011
个样本数据存入到数据集合U中,选取样本点密度最大的点x1作为第一个聚类中心放入中心点集合C中,然后将U中所有距离点x1小于avgd的点删除;
在数据集合U中找出权值参数最大的点作为第2个中心点x2加入到中心点集合C中,将U中所有距离点x2小于avgd的点删除;
重复上述过程,直到数据集U变为空集,此时C={C1,C2,...,k},得到k个初始聚类中心。
4.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,步骤3.1中计算样本点不同维度数据的权值:
Figure FDA0003340030500000021
其中,wid为样本点i在第d个分量上数据的权值;xid表示第i个样本数据中的第d个分量;
Figure FDA0003340030500000022
表示样本数据中各个数据对象的第d个分量的平均值,n为样本点数量;wid反映了样本数据整体分布特征。
5.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,然后计算样本点之间加权的欧式距离:
Figure FDA0003340030500000023
其中,
Figure FDA0003340030500000024
是样本xi和样本xj在m维向量空间下经过维度加权后计算出来的欧氏距离,xid和xjd分别是在向量空间的样本点xi和样本点xj的数据值,d是向量空间维度。
6.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,计算出所有样本点的平均距离avgd:
Figure FDA0003340030500000025
7.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,所述安全数据是入侵检测系统的报警数据,一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息的字段。
8.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法,其特征在于,步骤2中的预处理包括对安全数据进行数据清洗以及非数值型字段进行数值化处理。
CN202111305706.5A 2021-11-05 2021-11-05 一种基于改进K-means算法的电力安全预警数据聚类处理方法 Pending CN114004989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111305706.5A CN114004989A (zh) 2021-11-05 2021-11-05 一种基于改进K-means算法的电力安全预警数据聚类处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111305706.5A CN114004989A (zh) 2021-11-05 2021-11-05 一种基于改进K-means算法的电力安全预警数据聚类处理方法

Publications (1)

Publication Number Publication Date
CN114004989A true CN114004989A (zh) 2022-02-01

Family

ID=79928103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111305706.5A Pending CN114004989A (zh) 2021-11-05 2021-11-05 一种基于改进K-means算法的电力安全预警数据聚类处理方法

Country Status (1)

Country Link
CN (1) CN114004989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581694A (zh) * 2022-05-05 2022-06-03 南京邮电大学 一种基于改进的支持向量机的网络安全态势评估方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581694A (zh) * 2022-05-05 2022-06-03 南京邮电大学 一种基于改进的支持向量机的网络安全态势评估方法

Similar Documents

Publication Publication Date Title
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN107493277B (zh) 基于最大信息系数的大数据平台在线异常检测方法
Effendy et al. Classification of intrusion detection system (IDS) based on computer network
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
Abdel-Hamid et al. A dynamic spark-based classification framework for imbalanced big data
CN113762377B (zh) 网络流量识别方法、装置、设备及存储介质
CN114090402A (zh) 一种基于孤立森林的用户异常访问行为检测方法
WO2023093100A1 (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN111444501B (zh) 一种基于梅尔倒谱与半空间森林结合的LDoS攻击检测方法
CN111767538A (zh) 一种基于相关信息熵的工控入侵检测系统特征选择方法
CN114004989A (zh) 一种基于改进K-means算法的电力安全预警数据聚类处理方法
CN114978877A (zh) 一种异常处理方法、装置、电子设备及计算机可读介质
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN115514581B (zh) 一种用于工业互联网数据安全平台的数据分析方法及设备
CN109284409A (zh) 基于大规模街景数据的图片组地理定位方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
Rahman et al. An efficient approach for selecting initial centroid and outlier detection of data clustering
CN105930430B (zh) 一种基于非累积属性的实时欺诈检测方法及装置
US20230164162A1 (en) Valuable alert screening method efficiently detecting malicious threat
Al-Khamees et al. Survey: Clustering techniques of data stream
CN108874974A (zh) 基于频繁词集的并行化话题跟踪方法
CN115659323A (zh) 一种基于信息熵理论结合卷积神经网络的入侵检测方法
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN111343165B (zh) 基于birch和smote的网络入侵检测方法及系统
CN114298245A (zh) 异常检测方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination