CN112686775A

CN112686775A - 基于孤立森林算法的电力网络攻击检测方法及系统

Info

Publication number: CN112686775A
Application number: CN202110004429.8A
Authority: CN
Inventors: 朱朝阳; 周亮; 朱亚运; 唐志军; 吴克河; 缪思薇; 崔文超; 何金栋; 程瑞; 杨成纯
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; North China Electric Power University; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; North China Electric Power University; Electric Power Research Institute of State Grid Fujian Electric Power Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-20

Abstract

本发明提供一种基于孤立森林算法的电力网络攻击检测方法，包括获取注入虚假数据的数据集；对数据进行降维，得到低维数据空间；采用孤立森林算法计算每个数据样本的异常分值,并将每个数据样本的异常分值作为独立的数据特征；在低维数据空间中提取数据特征，将数据特征输入基于机器学习构建的攻击检测模型，进行攻击检测。能够有效的降低计算量，过挖掘数据间的关系，计算精度高，可有效提升虚假数据注入攻击的检测精度和稳定性。

Description

基于孤立森林算法的电力网络攻击检测方法及系统

技术领域

本发明涉及电力网络攻击检测技术领域，尤其涉及一种基于孤立森林算法的电力网络攻击检测方法及系统。

背景技术

随着电力物联网的深化推进，我国电力系统的智能化程度将进一步提升，这意味着网络攻击所产生的破坏可能超出正常预期。目前，电力物理网与信息网的界限逐步模糊，电力系统正成为典型的信息物理融合系统，物理系统的生产运维与调度控制高度依赖于信息系统，发生信息安全事件可能会传播至整个系统，引发电网瘫痪、大规模停电等严重后果。作为具有重要战略意义的国家大型基础设施，电力系统一直是网络攻防的高价值目标，如何有效认识、检测和抵御各类恶意网络攻击是近年来电力系统安全领域的热门研究课题。

虚假信息攻击意味着，攻击者通过向电力量测数据中注入预先制定的虚假数据，利用状态估计不良数据检测的漏洞，成功绕过检测模块，可以在极为隐蔽的条件下有预谋地篡改电力量测值，导致错误的状态估计结果，进而破坏电力系统的稳定运行或者使其按照攻击者的意图运行，该攻击可长期潜伏不易察觉，使系统长期处于危险的操作状态，待发现时，攻击带来的影响已经传播至整个电力系统，带来不可逆转的连锁破坏。由于虚假数据注入攻击极度隐蔽，对电力系统稳定运行危害极大，已经引起了电力公司和学术界的广泛重视。

传统检测方法与当前的边界防护体系不足以检测这种新型网络攻击。因此，提出一种基于机器学习的攻击检测方法的电力网络攻击检测系统是极为必要的。

发明内容

为了解决以上问题，本发明提供了一种基于孤立森林算法的电力网络攻击检测方法，采用孤立森林的异常分值提取方法，将其作为一个独立的特征，然后使用非线性的降维局部线性嵌入法的特征提取方案对高维的电力量测数据进行属性约简，能够有效的降低计算量。使用机器学习的分类方法训练攻击检测模型，这种方式避免了人为选择阈值，通过挖掘数据间的关系，计算精度高，可有效提升虚假数据注入攻击的检测精度和稳定性。

本发明一方面的实施例提供一种基于孤立森林算法的电力网络攻击检测方法，包括以下步骤：

获取注入虚假数据的数据集；

将数据集中非线性数据，进行局部线性嵌入，对数据进行降维，得到低维数据空间；

采用孤立森林算法计算所述数据集中每个数据样本的异常分值，并将每个数据样本的异常分值作为独立的数据特征；

在所述低维数据空间中，提取所述数据特征，将数据特征输入构建的攻击检测模型，进行攻击检测。

在本实施例提供的基于孤立森林算法的电力网络攻击检测方法中，采用孤立森林的异常分值提取方法，将其作为一个独立的特征，然后使用非线性的降维局部线性嵌入法的特征提取方案对高维的电力量测数据进行属性约简，能够有效的降低计算量。

优选的，采用标准IEEE节点系统，生成正常量测数据样本；

将所述正常量测数据样本进行虚假数据注入攻击，生成受攻击后的电力量测向量；其中所述虚假数据注入攻击，包括以下任意一种或多种注入攻击：满足状态估计不良数据检测的注入攻击；完整拓扑信息下的虚假信息注入攻击：非完整拓扑信息下的虚假信息注入攻击；

将受攻击后的电力量测向量作为受攻击后的数据样本与正常量测数据样本相结合，生成注入虚假数据的数据集。

在本实施例提供的基于孤立森林算法的电力网络攻击检测方法中，获取虚假数据时，充分考虑多种虚假数据的注入机理，保证了数据来源的全面性和复杂性，有利于提高了攻击检测模型的计算精度并减少冗余计算。

在上述任意一项实施例中优选的，所述状态估计不良数据检测按照如下公式计算；

||r||＞t

其中，t为判断阈值，若||r||＞t，则认为系统量测值中存在不良数据，

表示电力量测值z与状态估计量x的非线性函数最小值。

在上述任意一项实施例中优选的，所述采用孤立森林算法计算数据集中每个数据样本的异常分值的具体步骤为：

S201、从电力量测数据集中，随机选择由多个样本构成的子集，与所选择子集中，随机选择一个特征p；

S202、随机选择特征P中的单个值Q，进行二分裂，若属性P中的任意记录R<Q，则将此记录放在左子节点，若R≥Q，则放在右子节点：

S203、递归构造左子节点和右子节点，构建二叉树，直到满足每条样本都被孤立或树的高度达到了限定高度，构成孤立树；

S204、对量测数据集进行多次采样，得到众多子数据集，分别根据子数据集建立多个孤立树，以此构成孤立森林；

S205、统计任意一个数据点在孤立森林中每棵树的路径长度，计算异常分值。

在本实施例提供的基于孤立森林算法的电力网络攻击检测方法中，采用基于孤立森林的异常分值提取技术，根据数据集中的随机特征构造二叉树，直到所有的随机特征被孤立，或者树达到了指定的高度，生成孤立树，并在多次采样的基础上生成孤立森林，减少传统异常检测和特征提取中的大量计算量，并且提高针对性，更高效的计算异常分值，相比于直接采用聚类及关联算法进行异常数据的检测时产生的庞大计算量，孤立森立算法设计了一套高效且特别的策略，不需对正常的数据构建模型可以直接计算数据的异常分值，因此，孤立森林同时具备较短的计算时间和更高的检测稳定性，适用于大规模、复杂性高的电力量测数据，符合攻击检测对全天候实时性的要求。

在上述任意一项实施例中优选的，所述对数据进行降维，包括如下过程：在原始高维数据中，对高维数据样本点，计算临近点距离；将样本点与临近点作为线性结构，构建局部重建权值矩阵；根据局部重建权值矩阵，建立高维空间在低维空间的映射关系，求取从高维空间投影至低维空间的数据点，实现数据降维。

在上述任意一项实施例中优选的，所述局部重建权值矩阵由误差最小化函数得出，所述误差为将样本点与临近点作为线性结构时生成；

所述误差最小化函数采用如下公式表示：

j＝(1,2,…,k)

其中，x_ij为x_i的j个临近点，W_ij为样本点间的权值，且满足

在上述任意一项实施例中优选的，所述高维空间在低维空间的映射关系词用如下公式表示：

且

其中，x_i和x_j分别表示高维空间的数据点，y_i为x_i投影至低维空间的数据点；y_j为x_j投影至低维空间的数据点。

在本实施例提供的基于孤立森林算法的电力网络攻击检测方法中，采用高维数据样本点和临近点作为局部线性嵌入的形式，对数据进行降维，可以改善攻击检测模型的效能，减少计算量和冗余度，对高维的电力量测数据进行属性约简，能够有效的降低计算量；计算精度高。

在上述任意一项实施例中优选的，所述攻击检测模型采用如下方式进行构建：对基学习器与损失函数；采用梯度提升决策树算法，选取叶子数量较少、复杂度较低的决策树弱模型进行迭代；每次迭代前学习，放大上一次学习的错误，使当前迭代步骤的误差比上一次迭代的误差更小，且每次迭代保留之前迭代步骤的全部模型，增加一个误差更小的新模型；按照预设迭代次数迭代完成后形成由多个弱模型组合得到最终的强分类器模型。

在上述任意一项实施例中优选的，所述攻击检测模型在进行攻击检测之前通过机器学习的分类方法进行训练；训练后，所述攻击检测模型按照如下公式进行攻击检测：

其中，P₊(x)为计算数据样本受到虚假数据注入攻击的概率，P_-(x)为没有受到攻击的概率：Fboost(x)为训练过程中迭代的弱分类器组合得到最终梯度提升决策树模型。

在本实施例提供的基于孤立森林算法的电力网络攻击检测方法中采用监督学习的方式，基于梯度提升决策树，创新性地将传统的决策树与梯度提升的迭代组合，使单一的决策树分类模型在串行训练中不断提升精度，使用机器学习的分类方法训练攻击检测模型，这种方式避免了人为选择阈值，通过挖掘数据间的关系，可有效提升虚假数据注入攻击的检测精度和稳定性，现代电力系统的量测数据量呈爆发式增长，随着训练数据量的增加，可使检测模型的精度进一步提升。

本发明还提供一种基于孤立森林算法的电力网络攻击检测系统，包括

数据获取模块，用于获取注入虚假数据的数据集；

数据降维模块，用于将数据集中非线性数据，进行局部线性嵌入，对数据进行降维，得到低维数据空间；

异常分值计算模块，用于采用孤立森林算法计算每个数据样本的异常分值，并将每个数据样本的异常分值作为独立的数据特征；

攻击检测模块，用于在所述低维数据空间中提取所述数据特征，将数据特征输入基于机器学习构建的攻击检测模型，进行攻击检测。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明提供的基于孤立森林算法的电力网络攻击检测方法的流程图；

图2为本发明提供的基于孤立森林算法的电力网络攻击检测方法中数据样本特征提取与分析流程图；

图3为本发明提供的基于孤立森林算法的电力网络攻击检测方法中梯度提升构建模型的学习过程图；

图4为本发明提供的基于孤立森林算法的电力网络攻击检测系统的结构框图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

如图1所示，本发明一方面的实施例提供一种基于孤立森林算法的电力网络攻击检测方法，包括以下步骤：

S1、获取注入虚假数据的数据集；

S2、将数据集中非线性数据，进行局部线性嵌入，对数据进行降维，得到低维数据空间；

S3、采用孤立森林算法计算所述数据集中每个数据样本的异常分值，并将每个数据样本的异常分值作为独立的数据特征；

S4、在所述低维数据空间中，提取所述数据特征，将数据特征输入构建的攻击检测模型，进行攻击检测。

在本实施例中，S2和S3为两个独立的计算过程，并没有先后顺序之分，在执行S4时，攻击检测提取数据特征时，需要在低维数据空间提取。

在S1中，在获取注入虚假数据的数据集时，包括以下步骤：

S101、采用标准IEEE节点系统，生成正常量测数据样本；

S102、将所述正常量测数据样本进行虚假数据注入攻击，生成受攻击后的电力量测向量；其中所述虚假数据注入攻击，包括以下任意一种或多种注入攻击：满足状态估计不良数据检测的注入攻击；完整拓扑信息下的虚假信息注入攻击：非完整拓扑信息下的虚假信息注入攻击；

S103、将受攻击后的电力量测向量作为受攻击后的数据样本与正常量测数据样本相结合，生成注入虚假数据的数据集。

进一步，所述虚假数据注入攻击，以下任意一种或多种注入攻击，具体包括：

满足状态估计不良数据检测的注入攻击；状态估计以冗余测量为基础，通过对冗余数据的计算并与阈值进行比较，根据比较结果判断系统量测值中是否存在不良数据。

完整拓扑信息下的虚假信息注入攻击：攻击者提前掌握电网拓扑信息，完全获取了雅可比矩阵，此时构造成功的虚假数据注入攻击难度与成本最低，产生的后果也最为严重，攻击者可以随机控制电力系统运行状态。

非完整拓扑信息下的虚假信息注入攻击。攻击者只掌握局部的网络拓扑、电力系统参数以及电力量测值。在非完整网络拓扑信息的条件下，仍然可以成功构造虚假数据注入攻击。

具体的，上述机理中状态估计不良数据检测算法的过程如下：

电力量测值z与状态估计量x存在非线性关系，h(x)表示此关系，在标准直流系统下，可忽略线路电阻，电压幅值均为1，只考虑带有相位角的状态变量。并假设量测误差为e，m×n的电网拓扑雅可比矩阵为H，W为量测误差对角矩阵，W^-1为m维量测值的权值矩阵，r为残差。

量测值和状态变量之间可近似表示为如下线性关系：

z＝Hx+e (公式1)

求误差最小的状态估计量x，定义为使加权残差平方和最小的量：

minf(x)＝j(x)＝(z-Hx)^TW^(-1)(z-Hx) (公式2)

根据上述公式得最小值

计算残差方程：

假设t为判断阈值，若||r||＞t，则认为系统量测值中存在不良数据。

表示电力量测值z与状态估计量x的非线性函数最小值。

假设攻击者提前掌握电网拓扑信息，完全获取了雅可比矩阵H，此时构造成功的FDIAs难度与成本最低，产生的后果也最为严重，攻击者可以随机控制电力系统运行状态，若FDIAs的攻击向量为b，则注入攻击后的量测数据z_b如下式所示.

令c为攻击后对系统状态量的干扰值，此时的残差表达式为：

由上式可见，当注入的虚假数据满足b＝H时，此时求解使加权残差平方和最小的量(前文minf(x))的目标函数，结果为

此时，不良数据检测的残差表达式为：

如图2所示，在S2中，所述采用孤立森林算法计算每个数据样本的异常分值的具体步骤为：

输出每条量测数据的异常分值。对于一个电力量测数据样本x，其在全部孤立树的平均遍历深度，深度越小，说明平均情况更早被孤立，则异常分值越大，深度越大，则异常分值越小。

在S3中，所述对数据进行降维，包括如下过程：

在原始高维数据中，对高维数据样本点，计算临近点距离；

在原始的高维数据中，对于每一个数据点x_i，人为指定相近k(k<N)个点作为临近点，依次计算x_i与临近点的距离，公式如下:

将样本点与临近点作为线性结构，构建局部重建权值矩阵；

定义局部重建权值矩阵W，在每一个局部范围，样本点与临近点可近似看作为一个线性结构，则存在误差P(W)，建立使误差最小化的如下目标函数：

其中，x_ij为x_i的j个临近点，w_ij为样本点间的权值，且满足

对于任意点x_i的误差为：

其中：

利用拉格朗日乘子法，得到如下局部重建权值矩阵：

所述局部重建权值矩阵由误差最小化函数得出，所述误差为将样本点与临近点作为线性结构时生成；所述误差最小化函数采用公式(9)表示：

当Qⁱ为奇异矩阵时，将其正则化：

Q′＝Qⁱ+rI (公式13)

其中r是正则化参数，I为单位矩阵

根据局部重建权值矩阵，建立高维空间在低维空间的映射关系；

求取从高维空间投影至低维空间的数据点，实现数据降维。

定义高维空间的数据点x_i和x_j，求得投影至低维空间的y_i和y_j，局部权值矩阵w_ij保持不变，以保持高维空间的非线性结构，建立如下目标函数：

其中M的定义如下：

M＝(I-W)^T(I-W) (公式15)

同时，目标函数满足下式：

且满足约束条件

使用拉格朗日乘子法，获得如下解:

MY^T＝λY^T (公式19)

通过分析虚假数据注入攻击机理，将数据样本划分为正常量测数据和受攻击后的量测数据，构建带标签的正负数据样本，使用机器学习的分类方法训练攻击检测模型，这种方式避免了人为选择阈值，机器学习的攻击检测机理如下

假设给定包含攻击前后正负样本的电力量测数据集：

X＝{x_i},i＝(1,2,…,n) (公式20)

有如下分类标记值：

Y＝{y_i},i＝(1,2,…,n),y_i＝{-1,1} (公式21)

假设需要判断的测试数据(检测样本)为x_i’，分类结果为c_i，则与训练完成的预测函数有如下关系：

虚假数据注入攻击的检测问题可转化为如下关系:

其中，α为上文所提的攻击向量，若α＝1，则说明第i个量测向量没有受到攻击，反之，则第i个量测向量受到攻击。

学习过程如图3所示，构造模型具体步骤如下：

(1)初始化基学习器及损失函数。

假设基学习器F₀(x)，损失函数：L(y,F(x))，攻击检测特征训练集D，估计使损失函数最小化的常数值β：

损失函数如下：

L(y,F(x))＝log(1+exp(-2yF(x))) (公式24)

(2)如下式设迭代次数为m，定义上一代模型损失函数极小值方向的残差r_im，i＝1,2,…,N：

(3)将上式中得到的估计残差作为输入，求得M棵决策树的叶节点区域R_nm，其中n＝1,2,…,N：

(4)用下设求得损失函数梯度下降方向的最优步长β_nm，使损失函数极小值化：

(5)构建更高精度的弱分类器模型F_boost(x)，定义v∈(0,1]为学习率，在模型中避免过拟合：

(6)迭代结束，由m个更高精度的弱分类器组合得到最终梯度提升决策树模型：

(7)计算数据样本受到虚假数据注入攻击的概率P₊(x)，和没有受到攻击的概率P_-(x)：

如图4所示，本发明还提供一种基于孤立森林算法的电力网络攻击检测系统，用于实施上述方法，其包括：

数据获取模块1，用于获取注入虚假数据的数据集；

数据降维模块2，用于将数据集中非线性数据，进行局部线性嵌入，对数据进行降维，得到低维数据空间；

异常分值计算模块3，用于采用孤立森林算法计算每个数据样本的异常分值，并将每个数据样本的异常分值作为独立的数据特征；

攻击检测模块4，用于在低维数据空间中提取数据特征，将数据特征输入基于机器学习构建的攻击检测模型，进行攻击检测。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。