CN114004989A

CN114004989A - 一种基于改进K-means算法的电力安全预警数据聚类处理方法

Info

Publication number: CN114004989A
Application number: CN202111305706.5A
Authority: CN
Inventors: 王新龙; 于铭岱; 毕馨月; 张晨锐; 杨云兮; 杜昭辉
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-01

Abstract

本发明公开了一种基于改进K‑means算法的电力安全预警数据聚类处理方法，采集电网入侵检测系统中初始安全数据；对采集到的安全数据进行预处理，得到安全数据集；运用改进后的基于密度与距离的K‑means算法对的安全数据集中的数据进行聚类分析，得到最终的报警数据聚类结果。本发明运用改进后的K‑means算法，解决了传统K‑means算法在初始聚类中心与K值选取存在的问题，提高聚类的准确性。经过聚类分析模块处理的处理，使得系统最终得到能更加准确高效的报警信息，极大程度上改善报警信息冗余问题，并从一定程度上能够减少预警系统的漏报误报率，提高电网安全预警系统的表现。

Description

一种基于改进K-means算法的电力安全预警数据聚类处理方法

技术领域

本发明属于电力安全预警数据的处理分析领域，一种基于改进K-means算法的电力安全预警数据聚类处理方法

背景技术

随着互联网技术和基础设施的快速发展，电力网络系统也进入了大数据、大流量的时代，既给电力系统带来更便利的管理与控制时，随之而来的，电力网络防护系统每天都会收到海量的网络攻击与威胁数据，并且还在以指数级形式增长。传统的电力入侵检测系统面对海量的安全数据时，存在报警信息冗余泛滥、系统漏报误报率高的问题。

发明内容

为了解决上述背景技术中存在的问题，本申请提出一种基于改进K-means算法的电力安全预警数据聚类处理方法，目的在于解决电力入侵检测系统面对海量的安全数据时，报警信息冗余泛滥、系统漏报误报率高的问题。

本发明所采用的技术方案如下：

一种基于改进K-means算法的电力安全预警数据聚类处理方法，包括如下步骤：

步骤1、采集电网入侵检测系统中初始安全数据；

步骤2、对采集到的安全数据进行预处理，得到安全数据集；

步骤3、运用改进后的基于密度与距离的K-means算法对的安全数据集中的数据进行聚类分析，得到最终的报警数据聚类结果。

进一步，所述改进后的基于密度与距离的K-means算法进行聚类分析的方法如下：

步骤3.1、将经过预处理后的安全数据集的样本作为输入，计算样本点不同维度数据的权值；基于样本点同维度数据的权值计算样本点之间加权的欧式距离；再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd；

步骤3.2、以任意样本点为中心，R＝avgd为半径画圆，将圆内的所有样本点数目作为样本点的密度；

步骤3.3、根据样本点的密度选取聚类中心；

步骤3.4、由得到的初始聚类中心和聚类数为输入，对给定数据集进行聚类运算，直到聚类中心不再变化；

步骤3.5、输出最终聚类结果，完成对安全数据的聚类处理。

进一步，步骤3.3中选取聚类中心的方法为：

按样本点的密度从大到小的顺序将前

个样本数据存入到数据集合U中，选取样本点密度最大的点x₁作为第一个聚类中心放入中心点集合C中，然后将U中所有距离点x₁小于avgd的点删除；

在数据集合U中找出权值参数最大的点作为第2个中心点x₂加入到中心点集合C中，将U中所有距离点x₂小于avgd的点删除；

重复上述过程，直到数据集U变为空集，此时C＝{C₁,C₂,…,k},得到k个初始聚类中心。

进一步，步骤3.1中计算样本点不同维度数据的权值：

其中，w_id为样本点i在第d个分量上数据的权值；x_id表示第i个样本数据中的第d个分量；

表示样本数据中各个数据对象的第d个分量的平均值，n为样本点数量；w_id反映了样本数据整体分布特征。

进一步，然后计算样本点之间加权的欧式距离：

其中,

是样本x_i和样本x_j在m维向量空间下经过维度加权后计算出来的欧氏距离，x_id和x_jd分别是在向量空间的样本点x_i和样本点x_j的数据值,d是向量空间维度。

进一步，计算出所有样本点的平均距离avgd：

进一步，所述安全数据是入侵检测系统的报警数据，一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息的字段。

进一步，步骤2中的预处理包括对安全数据进行数据清洗以及非数值型字段进行数值化处理。

本发明的有益效果：

本发明提出的基于改进K-means算法的电力安全预警数据的聚类处理的方法，针对电力入侵检测系统的初始报警信息进行聚类处理。由于初始的报警信息存在着严重冗余重复的问题，导致安全预警系统收到泛滥的安全预警。而本申请利用基于改进的K-means算法的聚类处理模块，对经过预处理的报警数据进行进一步的聚类分析，聚合相同攻击类型报警信息，减少冗余报警信息，将虚假信息和真实报警信息分离，得到更精确高效的报警信息。这极大程度上改善入侵检测系统报警信息冗余问题，并从一定程度上能够减少系统的漏报误报率，从而提高电网安全预警系统的表现。

此外，改进的K-means算法基于距离与密度的思想，依据一定规则计算距离与密度参数，借助距离与密度参数在算法运行过程中选取合理的初始聚类中心点与K值，解决了传统K-means聚类算法的K值难以评估选取问题，避免出现传统K-means聚类算法过程中因随机指定或凭经验选择初始聚类中心点与K值所带来的聚类结果波动较大以及不准确的缺陷。提高了聚类的稳定性与准确性。

附图说明

图1为本发明总体流程图

图2为本发明中基于距离与密度改进的K-means算法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，本发明提供的基于改进K-means算法的电力安全预警数据的聚类处理的方法包括按顺序进行的下列步骤：

步骤1、采集电网入侵检测系统中初始安全数据；步骤1中所提到的安全数据是入侵检测系统的报警数据记录，一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息等字段。

步骤2、对采集到的安全数据进行预处理，得到安全数据集。步骤2中对所采集的安全数据的预处理包括如下内容：

由于从电网入侵检测系统提取的初始安全数据中的样本点存在缺失值和重复值点，而这些缺失值和重复值点不利于后续正确快速的聚类分析。因此在聚类处理之前应采用数据清洗的方法处理这些值，才能不影响聚类分析。此外，对于安全数据中非数值型字段，例如时间戳以及协议类型，需要对该非数值型字段进行数值化预处理，方便后面的聚类运算。

步骤3、运用改进后的基于密度与距离的K-means算法对安全数据集的报警数据进行聚类分析，得到最终的报警数据聚类结果，具体过程如下：。

步骤3.1、将经过预处理后的安全数据集的样本作为输入，设安全数据集中有n个样本点，每个样本点的维度都是m，计算样本点不同维度数据的权值，计算公式如(1)所示：

然后计算样本点之间加权的欧式距离，计算公式如(2)所示

其中,

再根据样本点之间加权的欧式距离计算出所有样本点的平均距离avgd，计算公式如(3)所示：

步骤3.2、以任意样本点为中心，R＝avgd为半径画圆，将圆内的所有样本点数目作为样本点的密度。

步骤3.3、计算出所有样本点的密度，密度计算公式如(4)所示，按样本点的密度从大到小的顺序将前

个样本数据存入到数据集合U中，选取样本点密度最大的点x₁作为第一个聚类中心放入中心点集合C中，然后将U中所有距离点x₁小于avgd的点删除。

其中,函数

d_wij即

表示欧氏距离。

在数据集合U中找出权值参数最大的点作为第2个中心点x₂加入到中心点集合C中，将U中所有距离点x₂小于avgd的点删除。

类似地不停重复上述过程，根据权值参数选出聚类中心，权值参数计算公式如(5)所示直到数据集U变为空集，此时C＝{C₁,C₂,…,k},得到k个初始聚类中心。

f_i＝h_i·d_w(x_i，，C_i-1) (5)；

其中，f_i为距离与密度的权重参数；d_w(x_i，，C_i-1)是样本U中x_i，到上一个已选择的初始聚类中心C_i-1的距离。h_i是定义聚类有效值比值为为簇内样本距离与簇间样本距离的比值。簇内样本距离的计算公式：

簇间样本距离的计算公式：

d_si＝mind_wij，其中x_j∈D，ρ_j＞ρ_i

步骤3.4、由得到的初始聚类中心和聚类数为输入，对给定数据集进行聚类运算，直到聚类中心不再变化。

步骤3.5、输出最终聚类结果，完成对安全数据的聚类处理。

本发明确定初始中心点的基本方法是根据密度与距离进行选取，即根据样本点的密度以及距离上一个初始中心点的距离构成的权值参数，来对初始中心点进行选取。某点密度越大、距离上一个初始中心点越远，则说明该点越容易是类别质心。根据上述思想，将样本点按照密度从大到小进行排序，将排在第一位的样本点即密度最大的点定为第一个初始中心点，将所有样本点的平均距离作为密度半径，再将距离第一个初始中心点小于密度半径的全部点删除。

删除后第一个初始中心点密度半径内全部点之后，再根据距离与密度的权值参数选取第二个初始中心点，即从剩下的样本点中选取密度较大并且距离第一个初始中心较远的样本点，并删除该密度半径内的所有点；第三个初始中心点的选取，即从剩下的样本点中选取密度较大并且距离第二个初始中心点较远的点，再将该点密度半径内的所有的删除。类似地重复上述操作直到数据集为空。此时选择出来的点初步定为初始点，其个数定为类别个数值。

再根据上述操作得到的初始中心与聚类数，对样本集进行聚类运算，得到最终的聚类结果并输出。

结合以上说明，本发明对初始数据集进行聚类处理流程如图2所示。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，包括如下步骤：

步骤1、采集电网入侵检测系统中初始安全数据；

步骤2、对采集到的安全数据进行预处理，得到安全数据集；

2.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，所述改进后的基于密度与距离的K-means算法进行聚类分析的方法如下：

步骤3.3、根据样本点的密度选取聚类中心；

步骤3.5、输出最终聚类结果，完成对安全数据的聚类处理。

3.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，步骤3.3中选取聚类中心的方法为：

按样本点的密度从大到小的顺序将前

重复上述过程，直到数据集U变为空集，此时C＝{C₁，C₂，...，k}，得到k个初始聚类中心。

4.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，步骤3.1中计算样本点不同维度数据的权值：

5.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，然后计算样本点之间加权的欧式距离：

其中，

是样本x_i和样本x_j在m维向量空间下经过维度加权后计算出来的欧氏距离，x_id和x_jd分别是在向量空间的样本点x_i和样本点x_j的数据值，d是向量空间维度。

6.根据权利要求2所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，计算出所有样本点的平均距离avgd：

7.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，所述安全数据是入侵检测系统的报警数据，一条报警数据包含时间、源服务端口、协议类型、源IP、目的服务端口、目的IP地址和报警类型信息的字段。

8.根据权利要求1所述的一种基于改进K-means算法的电力安全预警数据聚类处理方法，其特征在于，步骤2中的预处理包括对安全数据进行数据清洗以及非数值型字段进行数值化处理。