CN115145790A

CN115145790A - 一种智能电网虚假数据注入攻击检测方法及系统

Info

Publication number: CN115145790A
Application number: CN202210819029.7A
Authority: CN
Inventors: 高文根; 胡朋飞; 李云飞; 吴铭辉; 华峰; 乔礼娜
Original assignee: Anhui Polytechnic University
Current assignee: Anhui Polytechnic University
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-10-04
Anticipated expiration: 2042-07-12
Also published as: CN115145790B

Abstract

本发明公开一种智能电网虚假数据注入攻击检测方法，包括如下步骤：S1、获取电网各节点上测量单元在设定时长内采集的量测数据及量测数据的真实值；S2、基于k均值++算法来获取不同类数量K下的聚类簇；S3、计算各K取值下的CH指数，输出最大CH指数对应的聚类结果，并计算高斯混合模型GMM中的误差参数；S4、将误差参数θ作为EM算法的初始值，基于EM算法找出最优的误差参数；S5、基于最优误差参数来确定测量单元中被虚假数注入攻击的量测数据。本发明通过CH指数确认混合模型数量，联合k均值++算法与期望最大化EM算法对数据集进行分类，以此准确的检测并定位虚假量测数据。

Description

一种智能电网虚假数据注入攻击检测方法及系统

技术领域

本发明属于智能电网技术领域，更具体地，本发明涉及一种智能电网虚假数据注入攻击检测方法及系统。

背景技术

智能电网的运行和控制依赖于计算机、软件和通信技术的复杂网络空间。当前电力系统由能源管理系统(Energy Management System,EMS)和监视控制与数据采集(Supervisory Control and Data Acquisition,SCADA)系统持续监控，以维持正常和安全状态下的运行条件。特别是，控制中心的SCADA主机使用状态估计器对接收到的仪表量测值进行处理，得出系统状态的最佳估计值。然后，将这些状态估计值传递给所有EMS应用功能，以控制电网物理方面的正常运行。由于智能设备(如智能仪表和传感器)支持的量测组件对确认电力系统实时物理状态发挥着重要作用，且在通信系统中广泛使用了基于互联网的协议而对外部网络更加开放，因此它们成为了最佳的攻击目标。

Liu等人于2009年第一次表明，新的虚假数据注入攻击(False data injectionattack,FDIA)可以绕过当前SCADA系统中的坏数据检测(Bad Data Detection,BDD)功能，并在未被检测的情况达到其想要的状态估计结果。这是其被称为网络攻击中最危险的攻击类型之一的原因。恶意虚假数据在网络攻击节点的注入必然对电力系统的状态估计产生不利的影响。而传统的检测方法不再有用，这表明需要一种新的方法。现有技术先对包含FDIA标记的训练数据通过主成分分析法(Principal Component Analysis,PCA)对数据信息先进行降维压缩降低计算复杂度，再使用监督学习算法分布式支持向量机(DistributedSupport Vector Machine,DSVM)对数据进行分类学习得到相应的虚假数据分类阈值，以此在实际实验中使用该阈值检测FDIA的方法。上述方法是通过预测系统状态或建立虚假数据特征集的方法来预防和检测FDIA，无法直接检测出FDIA所攻击的量测单元，且对电网数据可信度的要求较高。

发明内容

本发明提供一种智能电网虚假数据注入攻击检测方法，旨在改善上述问题。

本发明是这样实现的，一种智能电网虚假数据注入攻击检测方法，所述方法具体包括如下步骤：

S1、获取电网各节点上测量单元在设定时长内采集的量测数据及量测数据的真实值；

S2、基于k均值++算法来获取不同类数量K下的聚类簇；

S3、计算各K取值下的CH指数，输出最大CH指数对应的聚类结果，并计算高斯混合模型GMM中的误差参数θ＝[α₁,...,α_k,μ₁,...,μ_k,∑₁,...,∑_k]^T；

S4、将误差参数θ作为EM算法的初始值，基于EM算法找出最优的误差参数；

S5、基于最优误差参数来确定测量单元中被虚假数注入攻击的量测数据。

进一步的，所述量测数据为电流相量或电压相量。

进一步的，所述步骤S2具体包括如下步骤：

S21、定义当前聚类过程中的类个数K；

S22、在误差样本E中随机选择一个误差样本作为初始的聚类中心；

S23、基于剩余误差样本距上一个聚类中心的距离来计算剩余误差样本被选为聚类中心的概率；

S24、基于轮盘赌方法来选择下一个聚类中心，循环执行步骤S23，直至选出K个聚类中心

S25、按最小欧几里得距离原则将每个误差样本分配给相应的聚类中心，更新隐变量及聚类中心，将属于同一簇的所有样本的质心作为当前簇的聚类中心；

S26、重复执行步骤S25，直至聚类结果收敛，输出聚类结果。

进一步的，虚假数注入攻击的测量单元的确定方法具体如下：

最优误差参数中期望μ_k最小的簇即为未被虚假数据注入攻击的簇，该簇内的误差样本数据即为未被虚假数据注入攻击过，其他簇内的误差样本数据为被虚假数据注入攻击后的数据。

进一步的，CH指标为各类中心与误差数据集中心的分离度SS_B与类中各点与类中心的紧密度SS_W的比值，计算公式具体如下：

M表示测量单元的总数量，L表示每个测量单元设定时长内采集的样本数据个数，K表示聚类过程中类的数量。

进一步的，分离度SS_B表示各类中心与误差数据集中心距离平方和，其计算公式具体如下：

c₀表示误差数据集的中心，c_k表示第k类的中心，γ_m,l,k表示第M个量测单元的第L个量测值属于第k类的概率。

进一步的，紧密度SS_W表示类中各点与类中心的距离平方和，其计算公式具体如下：

e_m,l表示第m个测量单元第l个采样数据的误差样本，c_k表示第k类的中心，γ_m,l,k表示第M个量测单元的第L个量测值属于第k类的概率。

进一步的，误差数据集的中心c₀计算公式具体如下：

e_m,l表示第m个测量单元第l个采样数据的误差样本，M表示测量单元的总数量，L表示每个测量单元设定时长内采集的样本数据个数。

本发明是这样实现的，一种智能电网虚假数据注入攻击检测系统，所述系统包括：

设于电网各节点上测量单元，测量单元与监视控制与数据采集系统SCADA通讯连接，测量单元采集当前节点的量测数据，发送至测量单元与监视控制与数据采集系统SCADA，测量单元与监视控制与数据采集系统SCADA基于所述智能电网虚假数据注入攻击检测系方法确定各测量单元中被虚假书注入攻击的量测数据。

本发明通过CH(Calinski Harabaz,CH)指数确认混合模型数量，联合k均值++(k-means++)算法与期望最大化(Expectation Maximization,EM)算法对数据集进行分类，以此准确的检测并定位虚假量测数据。

附图说明

图1为本发明实施例提供的智能电网虚假数据注入攻击检测方法流程图；

图2为本发明实施例提供的IEEE-14节点系统拓扑结构；

图3为本发明实施例提供的注入虚假数据的量测误差分布图；

图4为本发明实施例提供的CH指数变化图；

图5为本发明实施例提供的量测误差PDF分布图；

图6为本发明实施例提供的EM算法分类结果示意图；

图7为本发明实施例提供的对虚假数据的测量偏差示意图；

图8为本发明实施例提供的虚假数据的检测概率示意图。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

本文针对智能电网虚假数据注入攻击提出了一种检测方法，FDIA是通过对智能电网系统的量测数据添加了一个未知的误差偏移达到其对电网电力管控的危害。对于存在虚假攻击向量的量测数据，其误差分布属于高斯混合模型(Gaussian Mixture Model,GMM)。将攻击检测问题转换为数据分类问题。因此，本发明主要使用期望最大化(ExpectationMaximization,EM)算法对数据模型进行相应的参数估计，将被攻击的量测单元进行定位并对其存在的虚假数据进行剔除，以此达到攻击检测的目的。

智能电网配电系统中电压和电流向量符合的一般线性状态方程为：

z＝hx+e (1)

式中，

是电压或电流相量的原始量测向量；是描述系统状态变量的向量；

是描述给定工作点附近的网络拓扑矩阵；

是量测单元产生的量测误差，

表示m阶复数向量，其中每个分量相量均可以建模为独立同分布(Independently IdenticalDistribution,IID)的复高斯随机变量，其均值为0，协方差为∑。

FDIA的主要思想是对电力系统的量测向量添加非零攻击向量来破坏电网操作者可用的量测值，篡改后的量测向量表示为：

z_a＝z+a (2)

式中，

表示虚假数据攻击向量，

表示被FDIA破坏的量测向量。

在电力系统稳定运行的过程中，对于SCADA系统采集的包含L(L>1)个量测向量的数据集中，假设该数据集已经被FDIA所影响，则每个量测值都是值得怀疑的目标。量测向量的误差变为：

e_a＝e+a (3)

式中，

表示注入攻击向量后的量测误差，可以发现量测向量的误差发生了偏移。而攻击者为了达成攻击目标，会连续篡改量测值，因而会产生大量误差偏移的数据。通过分析这类数据与正常数据特点的不同，有助于检测FDIA。因此，对于造成误差偏移的虚假数据发现问题，可以转化为数据分类问题。

对于任意一个量测值z_m来说，其相量量测误差的二元高斯分布模型均可以表示为

式中，k表示聚类簇的个数，e表示量测误差，μ_k表示第k个簇内样本偏差的期望，∑_k表示第K个簇内数据样本的协方差，若是正常数据的量测误差，则μ₁＝0，k＝1；反之，若其是虚假数据的量测误差，则μ_k＝a_m，k≠1。

为了方便计算，对这L个量测向量所包含的ML个量测数据建立整体模型，可以得到：

Z＝[z_1,1,…,z_1,L,…,z_M,1,…,z_M,L]^T (6)

E＝[e_1,1,…,e_1,L,…,e_M,1,…,e_M,L]^T (8)

式中，

表示状态变量真值，

和

分别表示电网系统中M个量测单元的L次量测的原始量测值、量测真值和量测误差。

通过把所有数据样本Z作为一个整体来处理时，相应的误差样本E可以看作来自K个不同的簇：只有第一个簇包含了正确的数据样本，除此之外的其它簇所包含的均是属于电力系统不同节点的虚假数据。在不进行检测的情况下，无法判断哪些量测值样本是被FDIA篡改的。因此，对于每个量测值z_m,l的误差概率分布均可以用高斯混合模型(GaussianMixture Model,GMM)表示为：

式中，θ＝[α₁,...,α_K,μ₁,...,μ_K,∑₁,...,∑_K]^T，K表示聚类簇的个数，α_k表示第k个簇内样本数据量测误差的权值，μ_k表示第k个簇内数据样本偏差的期望，∑_k表示第k个簇内数据样本的协方差，且

因此，求得每个量测值误差所属于的分类簇，即可以确定该量测值是否属于虚假数据。

本发明通过追求最大似然估计(Maximum Likelihood Estimation,MLE)算法的渐近性质来求得量测误差GMM参数。已知参数有关量测值和状态变量所得的相关知识，通过全局最大化对数似然函数来求解未知参数。根据假定的误差模型得到参数矢量为θ的对数似然函数

通过求解得到最大似然估计值

由于求解式(11)中的代价函数过于复杂，因此希望找到一个方法降低MLE算法计算的复杂度。为此，通过引入了一个完整的数据集{E,γ}来解决该问题，其中γ表示为：

式中，γ矩阵中包含MKL个随机隐变量，随机隐变量γ_M,L,K表示第M个量测单元的第L个量测值属于第K个混合分量(簇)的概率，其值反应了量测误差数据集E中的任意随机变量属于GMM中的哪个混合分量。对γ_m,l,k定义为：

有了未观测数据γ_m,l,k，那么对于每一个量测值的量测误差e_m,l，其完全数据可以表示为(e_m,l,γ_m,l,1,…,γ_m,l,K)。更具体地说，为了方便计算与直观显示，将数据样本偏差的期望按从小到大的顺序进行排列，如果e_m,l是正常数据的量测误差，那么其属于GMM的第一个混合分量

则它的完全数据可以表示为

若e_m,l是虚假数据的量测误差，则其属于GMM中的其他分量，表示为

则完全数据的对数似然函数可以表示为：

为了避免歧义，本发明将(10)中的原始对数似然函数

称为不完全数据对数似然函数。显然，新引入的完全数据对数似然函数

的计算方式更加简单，针对符合GMM的量测数据，从中可以通过EM算法来近似MLE。

图1为本发明实施例提供的智能电网虚假数据注入攻击检测方法流程图，该方法具体包括如下步骤：

在本发明实施例中，测量单元为电流传感器或电压传感器，用于采集电网中各节点上的电流相量或电压相量，基于设定时长内采集到的电流/电压相量来判定当前节点是否被虚假数据注入攻击，测量单元的真实值即各测量单元未被虚假数据注入攻击时的电流/电压相量，基于历史数据来确定。

S2、基于k均值++算法来获取不同类数量K下的聚类簇，其中k＝1,2,…,K；

由于EM算法具有对初始值敏感的缺点：需要初始化参数θ⁽⁰⁾才能进行下一步的迭代计算，由于GMM的估计参数θ基本信息的不明确导致随机选择的初始估计参数θ⁽⁰⁾大大降低了收敛效率以及是否能得到全局最优解。而k均值++算法可以通过比k均值算法更快速的迭代方式确定GMM的初始估计参数θ⁽⁰⁾，改进了k均值对初始的聚类中心敏感，会影响收敛效率的缺点。

在本发明实施例中，针对每个类数量K取值均通过k均值++算法执行一次聚类，其聚类过程具体如下；

S21、定义当前聚类过程中的类个数K；

在本发明实施例中，其余误差样本数据e_m,l与上一个聚类中心

之间距离为D(e_m,l)：

e_m,l表示第m个测量单元第l个采样数据的误差样本，即采集值与真实值的差值，每个误差数据样本被选为下一个聚类中心的概率表p_c(e_m,l)示为：

其中，M表示测量单元的总数量，L表示每个测量单元设定时长内采集的样本数据个数。

在本发明实施例中，隐变量

更新公式具体如下：

表示第n次迭代时误差样本数据e_m,l属于以

为中心的聚类域的概率，若样本数据e_m,l不属于以

为中心的聚类域，则

取值为0。

在第(n+1)次迭代时，根据隐变量的聚类中心更新方法具体如下：

S26、重复执行步骤S25，直至c⁽ⁿ⁺¹⁾＝c⁽ⁿ⁾(19)，聚类结果收敛，输出聚类结果。

据此，也得到了一个经过粗聚类的完全数据集{E,γ}。以此，可以设置为EM算法的初始化参数，减少迭代次数，降低运行时间。

S3、计算上述K取值下的CH指数，输出最大CH指数对应的聚类结果，并计算高斯混合模型GMM中的误差参数θ＝[α₁,...,α_k,μ₁,…,μ_k,∑₁,…,∑_k]^T；

由于对FDIA篡改量测单元个数的情报未知，导致在对量测数据正常建模的过程中，无法预先知道GMM中混合分量的个数。因此，需要找到一个方法来确认聚类数目K值的大小，本文选择CH指数作为聚类结果的评价指标。

CH指标通过计算类(簇)中各点与类中心(簇中心)的距离平方和来度量类内的紧密度，即类内方差SS_W；通过计算各类中心(簇中心)与误差数据集中心点距离平方和来度量数据集的分离度，即类间方差SS_B。CH指标由分离度度与紧密度的比值得到。从而，CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。使用k均值++算法对量测数据的量测误差使用不同的K值进行聚类，对每一次的聚类结果通过CH指标进行计算。对比这几次的CH指标大小，选取使CH指标最大的K值作为GMM的混合分量个数。CH指标的函数表达式为：

式中，误差数据样本处于误差数据集内，c₀表示误差数据集的中心点，其计算公式具体如下：

S4、将上述误差参数作为EM算法的初始值，基于EM算法找出最优的误差参数；

通过k均值++算法给定初始的估计参数θ情况下，EM算法在(η+1)次迭代上的工作流程具体如下：

代价函数Λ^(η)(θ)表达式具体如下：

通过贝叶斯规则计算得：

式中，

是条件概率

的一种简写表示，表示当前模型参数下观测数据e_m,l来自GMM第k个混合分量的概率，称为分模型k对观测数据e_m,l的响应度。

为了通过最大化参数Λ^(η)(θ)得到GMM的估计参数θ，可以求解以下方程：

式中，λ是拉格朗日乘数，方程的解均为封闭形式，估计参数θ的第(η+1)次迭代结果为：

表示第η迭代时误差样本数据e_m,l属于第k类的概率，

表示第η+1迭代时第k个簇内误差数据样本偏差的期望，e_m,l表示第m个测量单元第l个采样数据的误差样本。

重复以上计算，直到满足迭代终止的收敛条件：

通过对隐变量

的最终数据取整，进而得到了完全数据集{E,γ}和GMM的估计参数θ。基于k均值++与EM算法的FDIA检测方法见下表；

表1基于k均值++与EM算法的FDIA检测

最优误差参数中期望μ_k最小的簇即为未被虚假数据注入攻击的簇，该簇内的误差样本数据即为未被虚假数据注入攻击过，其他簇内的误差样本数据为被虚假数据注入攻击后的数据，偏差越大，说明虚假数据注入攻击程度越严重。

本发明针对智能电网中的FDIA问题，提出了使用统计学习方法对其进行检测的策略。将攻击检测问题转换为数据分类问题，通过CH指数确认分类数，联合k均值++算法与EM算法进行数据分类，可以正确检测并定位到哪些量测单元中的那部分量测数据属于虚假数据。

为了验证本文提出算法的可行性，本文采用如图2所示的IEEE-14节点系统中节点2附近的局部子环网进行仿真与分析。使用MATLAB R2018b软件进行仿真，基于MATPOWER电力仿真包里面的相关数据进行常规潮流计算，得到的系统运行数据作为电力系统的量测数据，通过对该系统注入攻击向量进行攻击，联合k均值++算法与EM算法进行仿真计算，来验证该检测方法是否可行有效。

对IEEE-14节点系统的FDIA仿真修改的相关实验数据如表2所示，该实验数据可使节点2的电压幅值达到其标定上限1.1p.u.。在表3中，本文总结了将在仿真中使用的模拟参数，基于这些参数，本文根据蒙特卡洛方法生成模拟数据集对本文算法进行验证。

表2仿真数据

表3仿真参数

通过蒙特卡洛方法生成的被注入虚假数据的量测误差数据集的分布情况如图3所示。从图中可以明显看出，该数据集包含的7个量测单元的100个量测误差中，有多个量测单元的电流幅值和相角的量测值发生了明显的偏移。

通过k均值++算法对注入虚假数据后的量测误差进行聚类结果分析，对其进行不同聚类数目的迭代计算，算法不同迭代结果的CH指数如图4所示。从图中可以看出，CH指数达到了最大值的聚类数为5，说明该样本数据中至少存在4个量测单元被攻击。

对通过k均值++预处理的数据进一步通过EM算法的迭代计算得到如图6所示的量测误差概率密度函数(Probability Density Function,PDF)图像。根据拟合的GMM对量测误差的数据集进行分类的结果如图7所示。从图中可以看出，误差分布在0附近的量测单元包括I_1-5、I_3-4和I_4-5，其不存在偏差，所以其属于正常数据；而量测单元I_1-2、I_2-3、I_2-4和I_2-5的量测数据其幅值与相角均产生了较大的偏差，可知这几个量测单元均属于被FDIA篡改的量测数据。

根据本文算法求得量测数据中所包含虚假数据的量测偏差如图7所示。前7个量测单元表示电流幅值量测偏差，后7个量测单元表示电流相角量测偏差。从图中可以看出，求得的数据偏差与实际FDIA造成的偏差完全重合。

使用FDIA对节点2进行不同篡改幅度的攻击时，其量测数据中的虚假数据检测情况如图8所示。根据实验可知，当节点2的电压幅值状态变化不超过0.003p.u.时，本文算法对于FDIA的检测完全失效。随着电压幅值的篡改幅度增大，检测概率也随之提升，当幅值变化超过0.008p.u.时，对量测数据中的虚假数据的检测概率达到了百分之百。且实验表明，对于状态估计结果篡改幅度超过0.008p.u.的FDIA的检测概率接近100％。

本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种智能电网虚假数据注入攻击检测方法，其特征在于，所述方法具体包括如下步骤：

S2、基于k均值++算法来获取不同类数量K下的聚类簇；

S3、计算各K取值下的CH指数，输出最大CH指数对应的聚类结果，并计算高斯混合模型GMM中的误差参数θ＝[α₁,...,α_k,μ₁,...,μ_k,Σ₁,...,Σ_k]^T；

2.如权利要求1所述智能电网虚假数据注入攻击检测方法，其特征在于，所述量测数据为电流相量或电压相量。

3.如权利要求1所述智能电网虚假数据注入攻击检测方法，其特征在于，所述步骤S2具体包括如下步骤：

S21、定义当前聚类过程中的类个数K；

S26、重复执行步骤S25，直至聚类结果收敛，输出聚类结果。

4.如权利要求1所述智能电网虚假数据注入攻击检测方法，其特征在于，虚假数注入攻击的测量单元的确定方法具体如下：

5.如权利要求1所述智能电网虚假数据注入攻击检测方法，其特征在于，CH指标为各类中心与误差数据集中心的分离度SS_B与类中各点与类中心的紧密度SS_W的比值，计算公式具体如下：

6.如权利要求5所述智能电网虚假数据注入攻击检测方法，其特征在于，分离度SS_B表示各类中心与误差数据集中心距离平方和，其计算公式具体如下：

7.如权利要求5所述智能电网虚假数据注入攻击检测方法，其特征在于，紧密度SS_W表示类中各点与类中心的距离平方和，其计算公式具体如下：

8.如权利要求6所述智能电网虚假数据注入攻击检测方法，其特征在于，误差数据集的中心c₀计算公式具体如下：

9.一种智能电网虚假数据注入攻击检测系统，其特征在于，所述系统包括：

设于电网各节点上测量单元，测量单元与监视控制与数据采集系统SCADA通讯连接，测量单元采集当前节点的量测数据，发送至测量单元与监视控制与数据采集系统SCADA，测量单元与监视控制与数据采集系统SCADA基于权利要求1至8任一权利要求所述智能电网虚假数据注入攻击检测系方法确定各测量单元中被虚假书注入攻击的量测数据。