CN111510438B

CN111510438B - 一种面向电力物联网终端数据分类的管控方法

Info

Publication number: CN111510438B
Application number: CN202010233082.XA
Authority: CN
Inventors: 尹月琴; 张华健; 崔航; 杨晶; 王彬; 张展图; 孙圣泽; 张童童; 王永娟; 刘玉琴; 侯克峰; 郑喜军; 李建坡
Original assignee: Yan'an Power Supply Co Of State Grid Shaanxi Electric Power Co; Northeast Dianli University
Current assignee: Yan'an Power Supply Co Of State Grid Shaanxi Electric Power Co; Northeast Electric Power University
Priority date: 2020-03-29
Filing date: 2020-03-29
Publication date: 2022-04-05
Anticipated expiration: 2040-03-29
Also published as: CN111510438A

Abstract

本发明公开了一种面向电力物联网终端数据分类的管控方法，其特点是，包括：基于改进支持向量机的非设备指纹模型建立和基于改进PAM聚类算法的设备指纹模型建立，该方法将数据包分类成非设备指纹和设备指纹两部分进行检测，与传统的数据包异常检测方式相比，可极大降低伪装数据包潜入终端设备内部的可能性，通过及时更新黑名单，减少重复性工作量，提高网络数据传输效率，防止数据包吞吐量异常增高。具有方法科学合理，适用性强，效果佳等优点。

Description

一种面向电力物联网终端数据分类的管控方法

技术领域

本发明属于物联网终端安全技术领域，涉及一种面向电力物联网终端数据分类的管控方法。

背景技术

在实际应用中，大量的电力物联网终端设备接入到电力系统内部，电力物联网与传统的互联网相比，网络终端数量巨大、物理部署范围更广，除了人机互联以外还包含大量的设备互联，既要保证电力物联网的实时可见和全程可控，又要保证泛在物联网终端设备信息安全、海量接入设备种类繁杂、管理不规范等问题面临巨大挑战。

数据分类就是把具有某种共同属性或者特征的数据归并在一起，然后通过围绕中心点划分(Partitioning Around Medoid，PAM)聚类等方法提取数据包中关键部分，与数据包中其他数据分离，并进行区分标记，有效实现在数据传输中阻止伪装数据包进入终端、服务器等设备。

在电力物联网中，这些终端设备分布在各个业务区域，网络异常数据难以发现，泛在电力物联网终端设备数据管理主要存在如下问题：

(1)现有的数据包检测机制是对数据包进行聚类分析，根据数据包聚类的结果，设置正常的特征数据集，当其他数据包进入网络终端之前，只需要数据包对比正常的特征数据集是否匹配，即可减少异常数据包进入网络终端，这种方式对于数据包中若存在伪装设备指纹信息，会造成聚类出错误的特征数据集，数据包误报率增高；

(2)现有的数据包检测方法中，假设分布式拒绝服务攻击电力物联网终端内部，会使得数据包突然间吞吐量异常增大，大量占用终端服务器资源，如果没有合适的评判标准，最终会导致电力物联网终端系统崩溃；

(3)现有的聚类算法对数据流量分析的核心思想是利用簇中位置的中心对象，对每个对象进行多次划分，直到找到最佳的中心点，但相关聚类算法也有一定不足，对小数据集有效，大数据集的效果不佳。

发明内容

本发明的目的是，针对电力物联网异常数据包检测的误报和数据包吞吐量异常增大的问题，提供一种能够极大降低伪装数据包潜入终端设备内部，有效的防止数据包吞吐量异常增高，进而提高网络数据传输效率的面向电力物联网终端数据分类的管控方法。

本发明的目的是由以下技术方案来实现的：一种面向电力物联网终端数据分类的管控方法，其特征是，它包括的内容有：基于改进支持向量机的非设备指纹模型建立和基于改进PAM聚类算法的设备指纹模型建立，

1)基于改进支持向量机的非设备指纹模型建立；

首先设置一个训练集(a_i,b_j)，i∈[-1,1]表示i可以取该区间任意负类数和正类数，j表示训练个数，a_i表示分类目标，b_j表示学习目标，a_i∈T^c，T是特征数，T＝1,2,...,N，c是特征维数，取值为大于0的整数，因此多个分类目标和学习目标构成一个二维特征数据集空间，在分类目标a_i的空间找到最优超平面，目的是将数据包中设备指纹信息和非设备指纹信息进行分类，改进的分类器通过求解式(1)的正则化问题来训练分类器：

其中，F为非设备指纹特征数，x是输入特征数，H是设备指纹的特征数，Y是加权因子，μ是平衡数据分类拟合度的正则化参数；

2)基于改进PAM聚类算法的设备指纹模型建立；

改进PAM聚类算法以小数据集为单位，数据预处理将设备指纹数据集划分成若干个小数据集，将设备指纹数据按特征分为规则型数据和不规则型数据；将规则型数据定义为一个三元组A，A＝(IP,sIP,dport)，其中，IP为目的地址，sIP为源地址，dport为介质访问控制地址，将不规则型数据定义为一个多元组B，B＝(name,port,system,condition,type,feature,service,version,host,time,colour,exterior)，其中，name为设备名称，port为开放端口，system为操作系统版本，condition为在线状态，type为设备类型，feature为设备功能信息，service为服务协议，version为版本号，host为主机号，time为设备生产时间，colour为设备颜色种类，exterior为设备外观信息；

常见伪装攻击易伪装成源地址或者目的地址，欺骗另一方地址，对源地址和目的地址进行标记id和ie，当发生数据传输时，标记的id和ie会发生反向转换，如果伪装的地址不携带标记信息则无法完成转换；

设置各个簇聚类中心和簇边距，第v个簇聚类中心表示为O_v，第u条簇边距表示为R_u，为A和B元组设置两个阈值θ，γ，1＜A＜θ＜B＜γ，超出θ和γ阈值的范围，即错误的簇聚类中心，θ和γ的最大阈值范围由簇聚类中心O_v和簇边距R_u确定，即计算A和B两个元组所有簇聚类中心到各个随机簇聚类中心的距离之比，具体计算为式(2)和式(3)：

其中，ε是A元组每个簇聚类中心到各个随机簇聚类中心的距离之比求和后的最大阈值，τ是B元组每个簇聚类中心到各个随机簇聚类中心的距离之比求和后的最大阈值；

预设规则型数据的簇聚类中心为α，不规则型数据的簇聚类中心为β，α和β根据求得的最大阈值ε和τ对A和B元组中每个簇聚类中心之间的距离进行约束，使得更快找到最佳簇聚类中心，正常数据包会向最佳簇聚类中心聚集，伪装数据包不会向最佳簇聚类中心聚集，从而实现数据分类的管控。

本发明的一种面向电力物联网终端数据分类的管控方法，将数据包分类成非设备指纹和设备指纹两部分进行检测，与传统的数据包异常检测方式相比，可极大降低伪装数据包潜入终端设备内部的可能性，通过及时更新黑名单，减少重复性工作量，提高网络数据传输效率，防止数据包吞吐量异常增高。具有方法科学合理，适用性强，效果佳等优点。

附图说明

图1为本发明的一种面向电力物联网终端数据分类的管控方法流程图。

具体实施方式

下面利用附图和具体实施方式对本发明作进一步说明。

参照图1，本发明的一种面向电力物联网终端数据分类的管控方法，包括：基于改进支持向量机的非设备指纹模型建立和基于改进PAM聚类算法的设备指纹模型建立，具体内容为：

1)对于基于改进支持向量机的非设备指纹模型建立：

2)对于基于改进PAM聚类算法的设备指纹模型建立：

本发明的软件程序依据自动化、网络和计算机处理技术编制，是本领域技术人员所熟悉的技术。

Claims

1.一种面向电力物联网终端数据分类的管控方法，其特征是，它包括的内容有：采用改进支持向量机方法建立非设备指纹模型和采用改进PAM聚类算法建立设备指纹模型，

1)采用改进支持向量机方法建立非设备指纹模型：

①设置一个训练集(a_i,b_j)，i∈[-1,1]表示i取该区间任意负类数和正类数，j表示训练个数，a_i表示分类目标，b_j表示学习目标，a_i∈T^c，T是特征数，T＝1,2,...,N，c是特征维数，取值为大于0的整数；

②多个分类目标和学习目标构成一个二维特征数据集空间，在分类目标a_i的空间找到最优超平面，将数据包中设备指纹信息和非设备指纹信息进行分类，改进的分类器通过求解式(1)的正则化问题来训练分类器：

2)采用改进PAM聚类算法建立设备指纹模型：

①改进PAM聚类算法以小数据集为单位，数据预处理将设备指纹数据集划分成若干个小数据集，将设备指纹数据按特征分为规则型数据和不规则型数据；

②将规则型数据定义为一个三元组A，A＝(IP,sIP,dport)，其中，IP为目的地址，sIP为源地址，dport为介质访问控制地址；

③将不规型数据定义为一个多元组B，

B＝(name,port,system,condition,type,feature,service,version,host,time,colour,exterior)，其中，name为设备名称，port为开放端口，system为操作系统版本，condition为在线状态，type为设备类型，feature为设备功能信息，service为服务协议，version为版本号，host为主机号，time为设备生产时间，colour为设备颜色种类，exterior为设备外观信息；

④常见伪装攻击易伪装成源地址或者目的地址，欺骗另一方地址，对源地址和目的地址进行标记id和ie，当发生数据传输时，标记的id和ie会发生反向转换，如果伪装的地址不携带标记信息则无法完成转换；

⑤设置各个簇聚类中心和簇边距，第v个簇聚类中心表示为O_v，第u条簇边距表示为R_u，为A和B元组设置两个阈值θ，γ，1＜A＜θ＜B＜γ，超出θ和γ阈值的范围，即错误的簇聚类中心，θ和γ的最大阈值范围由簇聚类中心O_v和簇边距R_u确定，即计算A和B两个元组所有簇聚类中心到各个随机簇聚类中心的距离之比，具体计算为式(2)和式(3)：

⑥预设规则型数据的簇聚类中心为α，不规则型数据的簇聚类中心为β，α和β根据求得的最大阈值ε和τ对A和B元组中每个簇聚类中心之间的距离进行约束，使得更快找到最佳簇聚类中心，正常数据包会向最佳簇聚类中心聚集，伪装数据包不会向最佳簇聚类中心聚集，从而实现数据分类的管控。