CN112699936B

CN112699936B - 一种电力cps广义虚假数据注入攻击识别方法

Info

Publication number: CN112699936B
Application number: CN202011594028.4A
Authority: CN
Inventors: 曹杰; 王达; 曲朝阳; 郭晓利; 奚洋; 王蕾
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-06-28
Anticipated expiration: 2040-12-29
Also published as: CN112699936A

Abstract

本发明的一种电力CPS广义虚假数据注入攻击的识别方法。其特点是，包括：信息物理融合数据平衡化处理方法、GFDIA识别最优特征子集确定方法、GFDIA识别器构建方法和得到电力CPS广义虚假数据注入攻击识别模型的内容，该方法能够克服传统的深度森林算法在电力信息物理融合系统的GFDIA识别中存在的如下问题：数据不平衡时识别误报率高的问题，数据维度过高引起的模型复杂度上升的问题，模型构建不合理引起的GFDIA识别精度不足，易过拟合的问题，进而提供一种稳定、高效的GFDIA识别方案。该方法科学合理，可适用于电力CPS领域中的广义虚假数据注入攻击的识别问题。

Description

一种电力CPS广义虚假数据注入攻击识别方法

技术领域

本发明涉及电网安全领域，是一种电力CPS广义虚假数据注入攻击识别方法。

背景技术

随着智能电网建设的不断发展，电力系统自动化程度的提高，电网传感器数量、信息网络规模和决策单元数量都大幅度增加。现代电力系统已不是单一电力设备组成的物理网络，而是发展成为信息物理高度融合的电力信息物理融合系统(Cyber-Physical-System，CPS)。电力CPS通过引入传感设备，通信网络以及计算设备完成对物理电网的状态感知和动态控制，使电力系统变得更加稳定化、智能化。然而，由于网络空间存在的漏洞以及复杂的信息物理耦合交互过程，使得信息安全成为影响电力系统安全稳定运行的重要因素，电力系统面临着严重的网络攻击威胁。

虚假数据注入攻击(False Data Injection Attack，FDIA)通过破坏电力CPS的数据完整性干扰信息层对物理层的控制决策，其主要攻击手段是利用通信网络存在的漏洞对信息空间的量测数据或控制信号进行恶意篡改，使控制中心对物理设备的运行失去控制，严重时可能造成电力系统崩溃，导致大范围停电。随着新攻击方式的不断被发现，当前FDIA的涵义已经进一步扩充。从广义上讲，以破坏电力系统稳定性或者获取经济利益为目的，对电力系统量测数据、控制信号以及设备信息等关键数据的篡改都属于FDIA的范畴，广义虚假数据注入攻击(Generalized False Data Injection Attack，GFDIA)的防范成为电网安全的又一难题。如何针对广义虚假数据注入攻击进行有效辨识，已经成为目前电力系统安全、稳定运行亟待解决的问题。

广域测量系统的大规模部署为基于机器学习的虚假数据注入攻击识别方法提供了大数据支持，使基于机器学习的FDIA识别方案逐渐走向成熟。然而对于GFDIA的识别方法仍然处于摸索阶段，传统的深度森林算法在解决GFDIA识别问题时还面临如下问题：

1)GFDIA发生后电力系统发生大范围波动，甚至发生大规模停电事故。暂态过程发生十分迅速，使得量测系统难以获取充足的数据表征不同GFDIA发生时电力系统状态。因此数据的平衡性成了制约GFDIA识别的关键问题。

2)大规模电力系统产生的数据呈现高维的特点，对于机器学习算法来说可能存在过多无关和冗余特征，使分类器对GFDIA的识别精度过低，同时数据维度过高也提升了模型复杂度。

3)深度森林算法受级联层结构配置的影响，级联层结构配置不当不仅会降低GFDIA的识别精度，同时易引起过拟合问题，使模型的泛化能力变差。

发明内容

本发明的目的是解决电力CPS广义虚假数据注入攻击识别过程中数据不平衡、数据维度过高以及模型配置不当易过拟合等问题，从物理侧数据挖掘的角度，提出一种科学合理，高效，适用性强的电力CPS广义虚假数据注入攻击识别方法。

本发明的目的由以下技术方案实现：一种电力CPS广义虚假数据注入攻击识别方法，其特征是，它包括的内容有：

1)信息物理融合数据平衡化处理方法

信息物理融合数据的平衡化处理由提出的中心化KMeans-Smote过采样算法实现，首先计算数据集的不平衡率，当不平衡率低于50％时，执行过采样操作；然后明确各个待过采样类别生成的伪样本数量，求取各个类别样本平均数，将样本数量低于平均值的类别过采样至和平均值持平，不断循环上述过程，直至少数类样本数量和样本数量最多的类别的样本数量相等，从而明确各过采样阶段各少数类别生成的伪样本数量；最后执行过采样操作，过采样过程共分为聚类、过滤和线性插值三个阶段；

(1)聚类阶段，基于KMeans聚类算法将少数类样本在样本空间内聚类成n个簇，并为各个簇分配权重，分派原则为簇内样本数量多的簇的权重低，反之权重高，分配的权重决定该簇内生成的伪样本数量，权重越高，生成的伪样本数量越多，各簇在过采样过后包含的总样本数量大致相等，从而实现了类内的离散度平衡；

(2)过滤阶段，对于少数类样本，在样本空间内将孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉，过滤掉的样本在过采样阶段不参与线性插值操作，即算法不会依据噪声样本生成伪样本，从而实现降噪处理；

(3)采样阶段，针对聚类所生成的各个簇，依次随机选择一个簇心，选取和簇心距离最近的k个近邻样本，在这些近邻样本中随机选择一个样本和所属的簇的簇心之间进行线性插值，生成一个伪样本，循环上述步骤，直到所有簇中的伪样本和步骤(1)中确定的权重约束相符，结束过采样操作，将所有过采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集，得到平衡数据集，实现数据集的平衡化处理；

2)GFDIA识别最优特征子集确定方法

GFDIA识别最优特征子集的确定由最大化联合互信息(Joint MutualInformation Maximization,JMIM)特征选择算法实现，算法的输入是原始信息物理融合特征集F＝{f₁,f₂,...,f_N}，数据维数为N，输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集，其中k≤N，算法原理如:公式(1)-公式(7)所示，

定义变量X和变量C之间的互信息I(X,C)如公式(1)所示:

I(X,C)＝H(C)-H(C|X) (1)

其中

代表变量x的熵，p(x)代表概率密度函数，运算

代表变量x和变量y的条件熵，则定义变量X,Y,C之间的联合互信息定义如公式(2)、(3)所示:

I(X,C|Y)＝H(X|C)-H(X|C,Y) (2)

I(X,Y；C)＝I(X；C|Y)+I(Y|C) (3)

假设S是算法迭代过程中当前已经选择的特征集，特征f_i∈F-S，特征f_S∈S，如果特征f_i和S中的一个特征f_S高度相关，则

当待选特征f_i、当前已选特征f_S以及数据标签L满足公式(4)、(5)的约束条件时，

I(f_i,f_S；L)＝I(f_S；L)+I(f_i；L/f_S) (4)

I(f_i,f_S；L)＝H(L)-H(L/f_i,f_S) (5)

进一步推导待选特征f_i，当前已选特征f_S以及标签L之间的联合互信息如公式(6)所示：

最终JMIM算法选择出的特征如公式(7)所示：

f_JMIM＝arg maxf_i∈F-S(min f_s∈S(I(f_i,f_s；L))) (7)

算法循环执行k次，筛选出的k个特征组成的特征集合即为GFDIA识别最优特征子集；

3)基于改进深度森林的GFDIA识别器构建方法

一个深度森林算法的核心包含细粒度特征提取和级联森林两部分，

①细粒度特征提取:对于一个维度为P的样本，通过一个长度为k的采样滑动窗口，设滑动窗口的长度为λ，得到S＝(P-k)/λ+1个k维特征子样本向量，每个采样子样本用来训练第一层的基分类器，并在每个基分类器都获得一个长度为C的概率向量，最后把所有基分类器获得的概率向量以及原始特征拼接在一起得到特征提取结果；

②级联森林:深度森林算法采用一种级联结构对细粒度特征提取的结果进行逐层处理，每一级联层都将上一层的输出作为本层的输入，并将本层的特征处理结果输出到下一层，最终层将前面的级联层的预测结果求平均值得到最终预测值，从而加强算法的表征学习能力；

为了提升深度森林算法对GFDIA的辨识精度，并降低过拟合的风险，对级联层结构进行改进，具体改进方案如下：

每个级联层配置6个基分类器，每个分类器都是基于决策树的集成学习算法，6个集成学习算法依次为Xgboost(EXtreme Gradient Boosting)，随机森林(Random Forest)，Lightgbm(Light Gradient Boosting Machine)，极端森林(Extremely RandomizedTrees)，梯度提升决策树(Gradient Boosting Decision Tree)，以及Adaboost(AdaptiveBoosting)算法，各基分类器都是基于决策树的集成学习算法，学习机制也不完全相同，不同基分类器之间的差异性提升了深度森林在迭代过程中学习性能，改进后的深度森林算法即为GFDIA识别器。

4)得到电力CPS广义虚假数据注入攻击识别模型

(a)基于步骤1)提出的中心化KMeans-Smote过采样方法对含标注的电力信息物理融合数据进行过采样处理，得到平衡化信息物理融合数据集；

(b)基于步骤2)提出的GFDIA识别最优特征子集确定方法，在信息物理融合的平衡数据集中提取GFDIA识别最优特征子集，实现数据的降维和去冗余处理；

(c)将操作(b)得到的GFDIA识别最优特征子集划分为训练集和测试集，划分比例为1∶1，训练集用来供模型的训练，测试集供模型的评估测试；

(d)按照步骤3)的改进方案配置级联层，采用训练集训练改进的深度森林分类器，得到电力CPS广义虚假数据注入攻击识别模型。

本发明的一种电力CPS广义虚假数据注入攻击识别方法，包括：信息物理融合数据平衡化处理方法、GFDIA识别最优特征子集确定方法、基于改进深度森林的GFDIA识别器构建方法和得到电力CPS广义虚假数据注入攻击识别模型等内容，该方法能够克服传统的深度森林算法在GFDIA识别方面因数据集不平衡、数据维度过高以及模型结构配置不合理引起的识别精度不足、误报率高以及易过拟合的弊端，大幅度提高了GFDIA的识别精度。具有科学合理，高效，适用性强等优点。

附图说明

图1为本发明的电力CPS广义虚假数据注入攻击识别整体框架图；

图2为本发明的中心化KMeans-Smote过采样算法的采样控制策略图；

图3为本发明的过采样过程原理图；

图4为细粒度特征提取原理图；

图5为本发明的改进的级联层结构图；

图6为本发明的GFDIA识别的ROC曲线，精度-召回率曲线以及混淆矩阵图。

具体实施方式

下面利用附图和具体实施方式对本发明作进一步说明。

参照图1-图3，本发明的一种电力CPS广义虚假数据注入攻击识别方法，包括内容有：

1信息物理融合数据平衡化处理方法

中心化KMeans-Smote是对于传统的KMeans-Smote的改进算法，最小化过采样过程中引起的采样噪声，实现对电力信息物理融合数据集的平衡化处理。首先计算数据集的不平衡率，若不平衡率低于50％则执行过采样操作。为了控制过采样带来的误差，将采样分步执行来控制采样噪声，分步采样策略如图2所示。首先求各个类别样本平均数，将样本数量低于平均值的类别采样至平均值。循环上述过程，直至样本数量低的类别包含样本数量和样本数量最多的类别所包含的样本数量相等。明确各类别在过采样过程中生成的伪样本数量后执行过采样操作，改进后的过采样算法原理如图3所示，详细的过采样过程共分为聚类、过滤和线性插值三个阶段:

(1)聚类阶段，基于Kmeans聚类算法将少数类样本在样本空间内聚类成n个簇，并为各个簇分配权重。分派原则为簇内样本数多的权重低，反之权重高。分配的权重决定该簇在采样过程中生成的伪样本数量，权重越高，生成的伪样本数量越多。各簇在过采样操作过后包含的总样本数量大致相等，从而实现了类内的离散度平衡。

(2)过滤阶段，对于少数类样本，在样本空间内将A、B、C、D、E、F等孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉。过滤掉的样本在采样阶段不参与线性插值操作，即算法不会依据噪声样本生成伪样本，从而实现降噪处理。

(3)采样阶段，针对聚类所生成的各个簇，依次随机选择一个簇心，选取和簇心距离最近的k个近邻样本。在这些近邻样本中随机选择一个样本和所属簇的簇心之间进行线性插值，生成一个伪样本。循环上述步骤，直到所有簇中的伪样本生成结束。将所有采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集，得到平衡数据集。

2GFDIA识别最优特征子集确定方法

GFDIA识别最优特征子集的确定由JMIM特征选择算法实现，算法的输入是原始信息物理融合特征集F＝{f₁,f₂,...,f_N}，数据维数为N，输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集，其中k≤N，算法原理如:公式(1)-公式(7)所示，

定义变量X和变量C之间的互信息I(X,C)如公式(1)所示:

I(X,C)＝H(C)-H(C|X) (4)

其中

代表变量x的熵，p(x)代表概率密度函数，运算

I(X,C|Y)＝H(X|C)-H(X|C,Y) (5)

I(X,Y；C)＝I(X；C|Y)+I(Y|C) (6)

I(f_i,f_S；L)＝I(f_S；L)+I(f_i；L/f_S) (4)

I(f_i,f_S；L)＝H(L)-H(L/f_i,f_S) (5)

最终JMIM算法选择出的特征如公式(7)所示：

f_JMIM＝arg max f_i∈F-S(min f_s∈S(I(f_i,f_s；L))) (7)

3基于改进深度森林的GFDIA识别器构建方法

深度森林是一种基于细粒度扫描和级联森林的深度学习模型，因其超参数比较少，模型的复杂度容易控制。因此，深度森林在电力数据挖掘方面具备一定的优势，适用于解决广义的FDIA识别问题。一个深度森林算法的核心包含细粒度特征提取和级联森林两部分。

①细粒度特征提取:如图4所示，对于一个维度为P的样本，通过一个长度为k的采样滑动窗口，设滑动窗口的长度为λ，得到S＝(P-k)/λ+1个k维特征子样本向量。每个采样子样本用来训练每一层的基分类器，并在每个基分类器都获得一个长度为C的概率向量。最后把F个基分类器得到的结果拼接在一起得到最终的特征提取结果。

②级联森林:如深度森林算法采用一种级联结构对原始数据特征进行逐层处理，每一级联层都将上一层的输出作为本层的输入，并将本层的特征处理结果输出到下一层，最终层将前面的级联层的预测结果求平均值得到最终预测值，从而加强算法的表征学习能力。

本发明对传统的级联森林部分进行改进，以增强算法对GFDIA的识别性能，具体改方案如下：

如图5所示，每个级联层配置6个基分类器，每个分类器都是基于决策树的集成学习算法，有利于并行训练，节省训练时间。将每个级联层的基分类器依次替换为Xgboost(EXtreme Gradient Boosting)，随机森林(Random Forest)，Lightgbm(Light GradientBoosting Machine)，极端森林(Extremely Randomized Trees)，梯度提升决策树(Gradient Boosting Decision Tree)，以及Adaboost(Adaptive Boosting)六种。各基分类器都是基于集成学习的集成学习算法，学习机制也不完全相同。不同基分类器之间的差异性提升了深度森林的整体学习性能，对FDIA的识别能力得到大幅度提升，同时泛化能力也得到增强，不易过拟合。

结合步骤1，2，3构建电力CPS广义虚假数据注入攻击识别方法如下:

(a)基于步骤1提出的改进KMeans-Smote过采样方法对电力信息物理融合数据进行过采样处理，得到平衡数据集，供改进的深度学习算法训练；

(b)基于步骤2提出的GFDIA识别最优特征子集确定方法，在信息物理融合的平衡数据集中提取GFDIA识别最优特征子集，实现数据的降维和去冗余处理；

(c)将操作(b)得到的GFDIA识别最优特征子集划分为训练集和测试集，划分比例为1∶1，训练集用来供模型的训练，测试集供模型的评估测试。

(d)按照步骤3的改进方案配置级联层，级联层配置为20层。采用训练集训练改进的深度森林分类器，得到电力CPS广义虚假数据注入攻击识别模型。

发明人在测试集上对本发明提供的电力广义CPS虚假数据注入攻击识别模型性能进行全面验证，通过ROC曲线、精度-召回率曲线以及混淆矩阵来反应模型性能，识别结果如图6所示。由图6(a)和图6(b)可知，ROC曲线和精度-召回率曲线分别收敛至(0,1)、(1,1)点，由此可知本发明提出的GFDIA识别模型在低误报代价下实现GFDIA的高精度识别，模型的性能稳定。从图6(c)可知，本发明提出的模型对数据中几种GFDIA的识别准确率达到97％，各类GFDIA之间的误报率较低，以上证明了提出模型高精度以及高稳定性。

综上，采用本发明的基于深度森林的电力CPS广义虚假数据注入攻击识别方法能够在数据集不平衡、数据维度高的条件下实现GFDIA的高精度识别，且模型的误报率较低，不易过拟合，本发明提供的GFDIA识别模型有效地提高了GFDIA的识别精度以及稳定性。

本发明的软件程序依据自动化和计算机处理技术编制，是本领域技术人员所熟悉的技术。

本发明的实施例并非对原始模型的调用，本领域技术人员不经过创造性劳动的简单复制和改进，仍属于本发明权利保护的范围。

Claims

1.一种电力CPS广义虚假数据注入攻击识别方法，其特征是，它包括的内容有：

1)信息物理融合数据平衡化处理方法

2)GFDIA识别最优特征子集确定方法

GFDIA识别最优特征子集的确定由最大化联合互信息(Joint Mutual InformationMaximization,JMIM)特征选择算法实现，算法的输入是原始信息物理融合特征集F＝{f₁,f₂,...,f_N}，数据维数为N，输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集，其中k≤N；

3)基于改进深度森林的GFDIA识别器构建方法

每个级联层配置6个基分类器，每个分类器都是基于决策树的集成学习算法，6个集成学习算法依次为Xgboost(EXtreme Gradient Boosting)，随机森林(Random Forest)，Lightgbm(Light Gradient Boosting Machine)，极端森林(Extremely RandomizedTrees)，梯度提升决策树(Gradient Boosting Decision Tree)，以及Adaboost(AdaptiveBoosting)算法，各基分类器都是基于决策树的集成学习算法，学习机制也不完全相同，不同基分类器之间的差异性提升了深度森林在迭代过程中学习性能，改进后的深度森林算法即为GFDIA识别器；

4)得到电力CPS广义虚假数据注入攻击识别模型

(c)将操作(b)得到的GFDIA识别最优特征子集划分为训练集和测试集，划分比例为1：1，训练集用来供模型的训练，测试集供模型的评估测试；