CN109522715A

CN109522715A - 一种面向安全智能电网的数据融合分类方法与系统

Info

Publication number: CN109522715A
Application number: CN201811319577.3A
Authority: CN
Inventors: 颜钢锋; 黎为; 王轶楠
Original assignee: Huanan Industrial Technology Research Institute of Zhejiang University
Current assignee: Huanan Industrial Technology Research Institute of Zhejiang University
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2019-03-26

Abstract

本发明公开了一种面向安全智能电网的数据融合分类方法与系统，本发明首先对智能电网终端设备采集的样本数据进行数据预处理，分析采集的终端设备数据特点，从数据格式和数据类型多个维度提取不安全数据和安全数据的特征，构成典型样本数据库。然后基于典型样本库，通过三种机器学习分类算法—邻近算法、支持向量机和概率图对典型样本数据进行分类辨识，得到相应的基分类结果。最后根据自适应权重对三种分类结果进行融合，生成特定的智能电网系统不安全样本库和安全数据样本库，用于智能电网系统的安全防护研究，以提高智能电网系统的安全性和稳定性。

Description

一种面向安全智能电网的数据融合分类方法与系统

背景技术

随着网络信息技术的飞速发展，常规漏洞、异常报文和攻击手段等不断衍变，智能电网系统的安全性面临着各种新型的威胁。传统的面向安全智能电网数据库主要是采集智能电网终端现有的数据，通过筛选、清洗等手段确保数据的安全性，关注点局限在系统本身，本方法立足于智能电网系统终端数据，从不安全数据角度出发，构建不安全数据样本库和安全数据样本库。这一创新想法，有助于改变智能电网系统采集数据后被动地进行数据筛选和清洗的现状，使系统在受到数据污染和威胁前检测、剔除掉不安全数据，只有安全数据能进入系统，确保智能电网系统的安全性和稳定性。

发明内容

本发明旨在提供一种面向安全智能电网的数据融合分类方法与系统，研究智能电网系统中常见的不安全数据和安全数据的分类，比如异常报文、恶意代码、漏洞信息、DOS攻击以及正常的电力数据等。首先对智能电网终端设备采集的样本数据进行数据预处理，分析采集的终端设备数据特点，从数据格式和数据类型多个维度提取不安全数据和安全数据的特征，构成典型样本数据库。然后基于典型样本库，通过三种机器学习分类算法—邻近算法、支持向量机和概率图对典型样本数据进行分类辨识，得到相应的基分类结果。最后根据自适应权重对三种分类结果进行融合，生成特定的智能电网系统不安全样本库和安全数据样本库，用于智能电网系统的安全防护研究，以提高智能电网系统的安全性和稳定性。

本发明为解决上述技术问题，提供了一种面向安全智能电网的数据融合辨识方法，该方法的步骤如下:

1)采用基于数据格式和识别数据类型的方法对采集的样本数据进行数据预处理和分析，得到不安全样本和安全样本的数据特性，并生成典型样本库；

2)采用三种样本分类方法(邻近算法、支持向量机和概率图)，对典型样本库的数据进行分类，获得相应的基分类结果；

3)将三种分类算法的分类结果通过自适应权重进行融合，得到智能电网系统不安全样本库和安全样本库的最终分类结果。

本发明还提供了一种面向安全智能电网的数据库系统，该系统总体而言分为三层，分别为特征提取层、并行分类层和融合交互层。

所述特征提取层将对系统中的报文、指令、网络状态、电力数据等信息进行整理和分析，得到不安全样本和安全样本的数据特性，并构成典型样本库；

所述并行分类层采用三种样本分类方法：邻近算法、支持向量机和概率图对典型样本库进行分类，分别获得相应的基分类结果；

所述融合交互层根据三种算法的分类结果，结合自适应权重对三种分类结果进行融合，得到最终的分类结果，生成特定的智能电网系统不安全样本库和安全数据样本库。

本发明的有益效果是：本发明首先面对采集的智能电网数据信息，进行预处理和分析从中提取样本特征，得到不安全样本和安全样本的特性，生成典型样本数据库；采用三种样本分类方法，对典型样本数据库并行地进行分类辨识，得到相应的基分类结果；最后通过自适应权重将并行分类后的结果融合之后得到最终分类结果，生成特定的智能电网系统不安全样本库和安全数据样本库。本发明根据样本数据的特征并行地采用了不同的分类算法进行分类，提高了数据分类的效率，通过自适应的权重将不同的分类结果进行融合，弥补了单一分类算法的精度缺陷，提高了分类的准确度。

附图说明

图1是本发明实施例中面向安全电力工控终端的数据库融合分类方法的原理示意图；

图2是本发明实施例中对采集的样本进行数据预处理和数据分析的框图；

图3是本发明实施例的三种并行分类器相融合的程序流程图；

下面结合附图对本发明的具体实施方式做进一步说明。

本发明的实施例是一种电力工控终端数据融合分类方法与系统。

本发明的电力工控终端数据融合分类算法，核心在于并行的采用三种机器学习算法对典型样本库进行数据分类，提高了数据的分类效率，得到不同种类的不安全数据和安全数据，然后将三种分类算法的分类结果进行自适应融合，有效地提高了分类的准确度。该方法的具体实施过程如下：

步骤1：采用基于数据格式和识别数据类型的方法对采集的样本数据进行数据预处理和分析，得到不安全样本和安全样本的数据特性，并生成典型样本库；其具体实现包括以下子步骤：

步骤1.1：在电力系统终端如低压变压器、数据终端设备(Data Terminal Unit，DTU)安装数据采集装置，进行基础数据采集，如电流、电压、开关状态量、流量、报文、服务和端口信息(通过Nessus等漏洞扫描软件获得)等；

步骤1.2：对样本数据进行数据预处理。根据不同数据来源，如电流、电压数据信息、主机信息等进行初步分类并定义统一的数据格式，通过搜索与识别错误记录，分析得到不同样本的数据特性，比如功耗信息存在数据缺失或、重复记录、格式逻辑上错误等，生成带有不安全特性和安全特性标签的典型样本数据库。

步骤2：采用三种不同的方法进行样本的数据分类，进一步辨识出不同种类的不安全样本和安全样本；本实施例以邻近算法，支持向量机和概率图三种方法为例进行说明，其具体实现包括以下子步骤：

步骤2.1：通过自主编写、调试开源学习框架，分别得到邻近算法，支持向量机和概率图三种分类辨识算法；

步骤2.2：结合步骤1中得到的典型样本库信息，采用邻近算法对典型样本库进行样本进一步分类，并进行不同样本特性的匹配，获得相应的分类结果；

步骤2.3：结合步骤1中得到的典型样本库信息，采用支持向量机对典型样本库进行样本进一步分类，并进行不同样本特性的匹配，获得相应的分类结果；

步骤2.4：结合步骤1中得到的典型样本库信息，采用概率图对典型样本库进行样本进一步分类，并进行不同样本特性的匹配，获得相应的分类结果；

步骤3：将三种并行的分类算法得到的辨识结果，通过自适应的权重进行融合得到最终的分类决策，提升样本分类结果的准确度。

通过结合最新的深度学习方面的分类算法框架，提高了典型样本库的有效利用率，比传统的机器学习算法准确性更高。但是单一辨识方法的局限性在于容易受到测量干扰和工控设备所处环境的影响，造成分类结果的不准确，从而影响电力工控终端样本库中不安全数据比重和分类结果，对电网运行的安全性和稳定性造成威胁。并且不同的分类算法各有优劣，比如邻近算法(KNN)所需训练样本少，能遍历到每个样本，适合处理低维度数据；支持向量机(SVM)算法通过大量样本自主学习特征权重，善于处理高维度、高精度数据。本发明通过自适应地选择权重，对三种分类算法的分类结果进行融合，提高了分类结果的精度。

本发明只需要采集接入到电力终端设备的所有数据，无需对终端设备进行类别的区分，因此对数据采集设备的硬件要求和环境要求大幅度降低，降低了硬件成本。

具体来说，就是采集电力工控终端设备总的数据信息，然后分解得到辨识结果，再与真实的数据信息做对比，求出损失函数。如下式所示：

J＝|D_real-D_col|＝|d₁-d′₁|+|d₂-d′₂|+…+|d_n-d′_n| (1)

式(1)中，为电力工控终端设备实际的数据信息组成的二进制序列{d₁，d₂，...，d_n}，为分类辨识后得到的不同种类的数据所对应的二进制序列{d′₁，d′₂，...，d′_n}。因为一些漏洞信息和异常的报文信息非常接近，或者恶意代码与正常电力数据只是在数据的幅值大小上有所区别，所以分类算法在进行辨识的时候容易出现偏差，因此每个算法得到的序列不一定一致，也导致其损失函数不尽相同。

如图3所示，由上述分析可知，对于某个电力工控终端设备的数据信息而言，使用三种不同的算法进行辨识，将会得到三个相应的损失函数，设为J_i，i＝1，2，3，分别对应邻近算法、支持向量机和概率图三种算法下辨识出来的损失函数。

定义:

式(2)中K₀为可变的基准系数(一般设为1)，J₁，J₂，J₃分别表示邻近算法、支持向量机和概率图三种方法下辨识出来的损失函数，q_i表示第i种方法的权重表示数据信息有无状态。

令：

式(3)中Q_j为融合函数，表示各种不同分类数据的可能性；d_j只有1和0两种状态，分别代表数据信息的有和无，j＝1，2，...，n，n为数据信息的总类数。设计阈值为Q₀＝0.55，当Q＞Q₀时，表示总体的样本信息中包含了相应的某一类不安全数据。算法框图如图2所示。

为了测试融合辨识算法的精度，本发明利用已有的硬件平台针对实际的数据终端单元采集的数据进行辨识验证。不失一般性，假设数据终端单元有异常报文、恶意代码、漏洞样本和正常电压信息4种数据。对于此数据终端单元某一时刻的实际数据信息，以及结合该地区所处环境的变化等相关信息，得到三种辨识算法所对应的分解结果。如表1所示：

表1

因此，根据式(1)可知，J₁＝1，J₂＝0，J₃＝2，因此可以通过式(2)进行计算，得到q₁＝0.368，q₂＝1，q₃＝0.135。

举例来说，例如针对异常报文(第一类数据)而言，其融合辨识的状态可以通过式(3)进行计算，也即：

因此最终判断该数据流中包含异常报文信息。同理，对于漏洞样本(第三类数据)而言，有：

因此最终判断该数据流中不包含漏洞样本信息。值得注意的是，阈值Q₀＝0.55并非一成不变，而是会随着实际终端设备情况的变化而进行自适应调整。

融合辨识结果如表2所示，最终辨识出的是各种数据流的组合数据状态。如表2所示，可以发现融合辨识结果与实际数据流状况一致，因此验证了本发明一种电力工控终端的数据融合分类方法的实际可行性。

表2

本发明中的面向安全智能电网的数据融合分类系统如图1所示，采用三层架构，分别为特征提取层、并行分类层和融合交互层。特征提取层利用从智能电网系统采集的终端数据信息，如网络状态、不安全样本、正常数据等，对样本数据进行数据预处理和分析，生成典型样本库；并行分类层采用三种分类算法对典型样本库并行地进行分类，得到相应的基分类结果；最后通过自适应的权重将不同的分类结果进行融合，得到最终的不安全数据样本库和安全数据样本库。具体实施例已在上面进行详细说明，这里不再赘述。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。上述针对实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向安全智能电网的数据融合分类方法，其特征在于，该方法的步骤如下:

2)采用三种样本分类方法，对典型样本库的数据进行分类，获得相应的基分类结果；三种样本分类方法为邻近算法、支持向量机和概率图；

2.一种面向安全智能电网的数据融合分类方法，其特征在于，步骤具体如下：

步骤1.1：在电力系统终端安装数据采集装置，进行基础数据采集；

步骤1.2：对样本数据进行数据预处理；

根据不同数据来源，进行初步分类并定义统一的数据格式，通过搜索与识别错误记录，分析得到不同样本的数据特性，生成带有不安全特性和安全特性标签的典型样本数据库。

3.一种面向安全智能电网的数据库系统，该系统总体而言分为三层，分别为特征提取层、并行分类层和融合交互层；

所述特征提取层将对系统中的报文、指令、网络状态、电力数据信息进行整理和分析，得到不安全样本和安全样本的数据特性，并构成典型样本库；