CN112699936B - 一种电力cps广义虚假数据注入攻击识别方法 - Google Patents
一种电力cps广义虚假数据注入攻击识别方法 Download PDFInfo
- Publication number
- CN112699936B CN112699936B CN202011594028.4A CN202011594028A CN112699936B CN 112699936 B CN112699936 B CN 112699936B CN 202011594028 A CN202011594028 A CN 202011594028A CN 112699936 B CN112699936 B CN 112699936B
- Authority
- CN
- China
- Prior art keywords
- samples
- gfdia
- algorithm
- oversampling
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000002347 injection Methods 0.000 title claims abstract description 23
- 239000007924 injection Substances 0.000 title claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000007786 learning performance Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 239000004576 sand Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的一种电力CPS广义虚假数据注入攻击的识别方法。其特点是,包括:信息物理融合数据平衡化处理方法、GFDIA识别最优特征子集确定方法、GFDIA识别器构建方法和得到电力CPS广义虚假数据注入攻击识别模型的内容,该方法能够克服传统的深度森林算法在电力信息物理融合系统的GFDIA识别中存在的如下问题:数据不平衡时识别误报率高的问题,数据维度过高引起的模型复杂度上升的问题,模型构建不合理引起的GFDIA识别精度不足,易过拟合的问题,进而提供一种稳定、高效的GFDIA识别方案。该方法科学合理,可适用于电力CPS领域中的广义虚假数据注入攻击的识别问题。
Description
技术领域
本发明涉及电网安全领域,是一种电力CPS广义虚假数据注入攻击识别方法。
背景技术
随着智能电网建设的不断发展,电力系统自动化程度的提高,电网传感器数量、信息网络规模和决策单元数量都大幅度增加。现代电力系统已不是单一电力设备组成的物理网络,而是发展成为信息物理高度融合的电力信息物理融合系统(Cyber-Physical-System,CPS)。电力CPS通过引入传感设备,通信网络以及计算设备完成对物理电网的状态感知和动态控制,使电力系统变得更加稳定化、智能化。然而,由于网络空间存在的漏洞以及复杂的信息物理耦合交互过程,使得信息安全成为影响电力系统安全稳定运行的重要因素,电力系统面临着严重的网络攻击威胁。
虚假数据注入攻击(False Data Injection Attack,FDIA)通过破坏电力CPS的数据完整性干扰信息层对物理层的控制决策,其主要攻击手段是利用通信网络存在的漏洞对信息空间的量测数据或控制信号进行恶意篡改,使控制中心对物理设备的运行失去控制,严重时可能造成电力系统崩溃,导致大范围停电。随着新攻击方式的不断被发现,当前FDIA的涵义已经进一步扩充。从广义上讲,以破坏电力系统稳定性或者获取经济利益为目的,对电力系统量测数据、控制信号以及设备信息等关键数据的篡改都属于FDIA的范畴,广义虚假数据注入攻击(Generalized False Data Injection Attack,GFDIA)的防范成为电网安全的又一难题。如何针对广义虚假数据注入攻击进行有效辨识,已经成为目前电力系统安全、稳定运行亟待解决的问题。
广域测量系统的大规模部署为基于机器学习的虚假数据注入攻击识别方法提供了大数据支持,使基于机器学习的FDIA识别方案逐渐走向成熟。然而对于GFDIA的识别方法仍然处于摸索阶段,传统的深度森林算法在解决GFDIA识别问题时还面临如下问题:
1)GFDIA发生后电力系统发生大范围波动,甚至发生大规模停电事故。暂态过程发生十分迅速,使得量测系统难以获取充足的数据表征不同GFDIA发生时电力系统状态。因此数据的平衡性成了制约GFDIA识别的关键问题。
2)大规模电力系统产生的数据呈现高维的特点,对于机器学习算法来说可能存在过多无关和冗余特征,使分类器对GFDIA的识别精度过低,同时数据维度过高也提升了模型复杂度。
3)深度森林算法受级联层结构配置的影响,级联层结构配置不当不仅会降低GFDIA的识别精度,同时易引起过拟合问题,使模型的泛化能力变差。
发明内容
本发明的目的是解决电力CPS广义虚假数据注入攻击识别过程中数据不平衡、数据维度过高以及模型配置不当易过拟合等问题,从物理侧数据挖掘的角度,提出一种科学合理,高效,适用性强的电力CPS广义虚假数据注入攻击识别方法。
本发明的目的由以下技术方案实现:一种电力CPS广义虚假数据注入攻击识别方法,其特征是,它包括的内容有:
1)信息物理融合数据平衡化处理方法
信息物理融合数据的平衡化处理由提出的中心化KMeans-Smote过采样算法实现,首先计算数据集的不平衡率,当不平衡率低于50%时,执行过采样操作;然后明确各个待过采样类别生成的伪样本数量,求取各个类别样本平均数,将样本数量低于平均值的类别过采样至和平均值持平,不断循环上述过程,直至少数类样本数量和样本数量最多的类别的样本数量相等,从而明确各过采样阶段各少数类别生成的伪样本数量;最后执行过采样操作,过采样过程共分为聚类、过滤和线性插值三个阶段;
(1)聚类阶段,基于KMeans聚类算法将少数类样本在样本空间内聚类成n个簇,并为各个簇分配权重,分派原则为簇内样本数量多的簇的权重低,反之权重高,分配的权重决定该簇内生成的伪样本数量,权重越高,生成的伪样本数量越多,各簇在过采样过后包含的总样本数量大致相等,从而实现了类内的离散度平衡;
(2)过滤阶段,对于少数类样本,在样本空间内将孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉,过滤掉的样本在过采样阶段不参与线性插值操作,即算法不会依据噪声样本生成伪样本,从而实现降噪处理;
(3)采样阶段,针对聚类所生成的各个簇,依次随机选择一个簇心,选取和簇心距离最近的k个近邻样本,在这些近邻样本中随机选择一个样本和所属的簇的簇心之间进行线性插值,生成一个伪样本,循环上述步骤,直到所有簇中的伪样本和步骤(1)中确定的权重约束相符,结束过采样操作,将所有过采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集,得到平衡数据集,实现数据集的平衡化处理;
2)GFDIA识别最优特征子集确定方法
GFDIA识别最优特征子集的确定由最大化联合互信息(Joint MutualInformation Maximization,JMIM)特征选择算法实现,算法的输入是原始信息物理融合特征集F={f1,f2,...,fN},数据维数为N,输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集,其中k≤N,算法原理如:公式(1)-公式(7)所示,
定义变量X和变量C之间的互信息I(X,C)如公式(1)所示:
I(X,C)=H(C)-H(C|X) (1)
I(X,C|Y)=H(X|C)-H(X|C,Y) (2)
I(X,Y;C)=I(X;C|Y)+I(Y|C) (3)
当待选特征fi、当前已选特征fS以及数据标签L满足公式(4)、(5)的约束条件时,
I(fi,fS;L)=I(fS;L)+I(fi;L/fS) (4)
I(fi,fS;L)=H(L)-H(L/fi,fS) (5)
进一步推导待选特征fi,当前已选特征fS以及标签L之间的联合互信息如公式(6)所示:
最终JMIM算法选择出的特征如公式(7)所示:
fJMIM=arg maxfi∈F-S(min fs∈S(I(fi,fs;L))) (7)
算法循环执行k次,筛选出的k个特征组成的特征集合即为GFDIA识别最优特征子集;
3)基于改进深度森林的GFDIA识别器构建方法
一个深度森林算法的核心包含细粒度特征提取和级联森林两部分,
①细粒度特征提取:对于一个维度为P的样本,通过一个长度为k的采样滑动窗口,设滑动窗口的长度为λ,得到S=(P-k)/λ+1个k维特征子样本向量,每个采样子样本用来训练第一层的基分类器,并在每个基分类器都获得一个长度为C的概率向量,最后把所有基分类器获得的概率向量以及原始特征拼接在一起得到特征提取结果;
②级联森林:深度森林算法采用一种级联结构对细粒度特征提取的结果进行逐层处理,每一级联层都将上一层的输出作为本层的输入,并将本层的特征处理结果输出到下一层,最终层将前面的级联层的预测结果求平均值得到最终预测值,从而加强算法的表征学习能力;
为了提升深度森林算法对GFDIA的辨识精度,并降低过拟合的风险,对级联层结构进行改进,具体改进方案如下:
每个级联层配置6个基分类器,每个分类器都是基于决策树的集成学习算法,6个集成学习算法依次为Xgboost(EXtreme Gradient Boosting),随机森林(Random Forest),Lightgbm(Light Gradient Boosting Machine),极端森林(Extremely RandomizedTrees),梯度提升决策树(Gradient Boosting Decision Tree),以及Adaboost(AdaptiveBoosting)算法,各基分类器都是基于决策树的集成学习算法,学习机制也不完全相同,不同基分类器之间的差异性提升了深度森林在迭代过程中学习性能,改进后的深度森林算法即为GFDIA识别器。
4)得到电力CPS广义虚假数据注入攻击识别模型
(a)基于步骤1)提出的中心化KMeans-Smote过采样方法对含标注的电力信息物理融合数据进行过采样处理,得到平衡化信息物理融合数据集;
(b)基于步骤2)提出的GFDIA识别最优特征子集确定方法,在信息物理融合的平衡数据集中提取GFDIA识别最优特征子集,实现数据的降维和去冗余处理;
(c)将操作(b)得到的GFDIA识别最优特征子集划分为训练集和测试集,划分比例为1∶1,训练集用来供模型的训练,测试集供模型的评估测试;
(d)按照步骤3)的改进方案配置级联层,采用训练集训练改进的深度森林分类器,得到电力CPS广义虚假数据注入攻击识别模型。
本发明的一种电力CPS广义虚假数据注入攻击识别方法,包括:信息物理融合数据平衡化处理方法、GFDIA识别最优特征子集确定方法、基于改进深度森林的GFDIA识别器构建方法和得到电力CPS广义虚假数据注入攻击识别模型等内容,该方法能够克服传统的深度森林算法在GFDIA识别方面因数据集不平衡、数据维度过高以及模型结构配置不合理引起的识别精度不足、误报率高以及易过拟合的弊端,大幅度提高了GFDIA的识别精度。具有科学合理,高效,适用性强等优点。
附图说明
图1为本发明的电力CPS广义虚假数据注入攻击识别整体框架图;
图2为本发明的中心化KMeans-Smote过采样算法的采样控制策略图;
图3为本发明的过采样过程原理图;
图4为细粒度特征提取原理图;
图5为本发明的改进的级联层结构图;
图6为本发明的GFDIA识别的ROC曲线,精度-召回率曲线以及混淆矩阵图。
具体实施方式
下面利用附图和具体实施方式对本发明作进一步说明。
参照图1-图3,本发明的一种电力CPS广义虚假数据注入攻击识别方法,包括内容有:
1信息物理融合数据平衡化处理方法
中心化KMeans-Smote是对于传统的KMeans-Smote的改进算法,最小化过采样过程中引起的采样噪声,实现对电力信息物理融合数据集的平衡化处理。首先计算数据集的不平衡率,若不平衡率低于50%则执行过采样操作。为了控制过采样带来的误差,将采样分步执行来控制采样噪声,分步采样策略如图2所示。首先求各个类别样本平均数,将样本数量低于平均值的类别采样至平均值。循环上述过程,直至样本数量低的类别包含样本数量和样本数量最多的类别所包含的样本数量相等。明确各类别在过采样过程中生成的伪样本数量后执行过采样操作,改进后的过采样算法原理如图3所示,详细的过采样过程共分为聚类、过滤和线性插值三个阶段:
(1)聚类阶段,基于Kmeans聚类算法将少数类样本在样本空间内聚类成n个簇,并为各个簇分配权重。分派原则为簇内样本数多的权重低,反之权重高。分配的权重决定该簇在采样过程中生成的伪样本数量,权重越高,生成的伪样本数量越多。各簇在过采样操作过后包含的总样本数量大致相等,从而实现了类内的离散度平衡。
(2)过滤阶段,对于少数类样本,在样本空间内将A、B、C、D、E、F等孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉。过滤掉的样本在采样阶段不参与线性插值操作,即算法不会依据噪声样本生成伪样本,从而实现降噪处理。
(3)采样阶段,针对聚类所生成的各个簇,依次随机选择一个簇心,选取和簇心距离最近的k个近邻样本。在这些近邻样本中随机选择一个样本和所属簇的簇心之间进行线性插值,生成一个伪样本。循环上述步骤,直到所有簇中的伪样本生成结束。将所有采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集,得到平衡数据集。
2GFDIA识别最优特征子集确定方法
GFDIA识别最优特征子集的确定由JMIM特征选择算法实现,算法的输入是原始信息物理融合特征集F={f1,f2,...,fN},数据维数为N,输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集,其中k≤N,算法原理如:公式(1)-公式(7)所示,
定义变量X和变量C之间的互信息I(X,C)如公式(1)所示:
I(X,C)=H(C)-H(C|X) (4)
I(X,C|Y)=H(X|C)-H(X|C,Y) (5)
I(X,Y;C)=I(X;C|Y)+I(Y|C) (6)
当待选特征fi、当前已选特征fS以及数据标签L满足公式(4)、(5)的约束条件时,
I(fi,fS;L)=I(fS;L)+I(fi;L/fS) (4)
I(fi,fS;L)=H(L)-H(L/fi,fS) (5)
进一步推导待选特征fi,当前已选特征fS以及标签L之间的联合互信息如公式(6)所示:
最终JMIM算法选择出的特征如公式(7)所示:
fJMIM=arg max fi∈F-S(min fs∈S(I(fi,fs;L))) (7)
算法循环执行k次,筛选出的k个特征组成的特征集合即为GFDIA识别最优特征子集;
3基于改进深度森林的GFDIA识别器构建方法
深度森林是一种基于细粒度扫描和级联森林的深度学习模型,因其超参数比较少,模型的复杂度容易控制。因此,深度森林在电力数据挖掘方面具备一定的优势,适用于解决广义的FDIA识别问题。一个深度森林算法的核心包含细粒度特征提取和级联森林两部分。
①细粒度特征提取:如图4所示,对于一个维度为P的样本,通过一个长度为k的采样滑动窗口,设滑动窗口的长度为λ,得到S=(P-k)/λ+1个k维特征子样本向量。每个采样子样本用来训练每一层的基分类器,并在每个基分类器都获得一个长度为C的概率向量。最后把F个基分类器得到的结果拼接在一起得到最终的特征提取结果。
②级联森林:如深度森林算法采用一种级联结构对原始数据特征进行逐层处理,每一级联层都将上一层的输出作为本层的输入,并将本层的特征处理结果输出到下一层,最终层将前面的级联层的预测结果求平均值得到最终预测值,从而加强算法的表征学习能力。
本发明对传统的级联森林部分进行改进,以增强算法对GFDIA的识别性能,具体改方案如下:
如图5所示,每个级联层配置6个基分类器,每个分类器都是基于决策树的集成学习算法,有利于并行训练,节省训练时间。将每个级联层的基分类器依次替换为Xgboost(EXtreme Gradient Boosting),随机森林(Random Forest),Lightgbm(Light GradientBoosting Machine),极端森林(Extremely Randomized Trees),梯度提升决策树(Gradient Boosting Decision Tree),以及Adaboost(Adaptive Boosting)六种。各基分类器都是基于集成学习的集成学习算法,学习机制也不完全相同。不同基分类器之间的差异性提升了深度森林的整体学习性能,对FDIA的识别能力得到大幅度提升,同时泛化能力也得到增强,不易过拟合。
结合步骤1,2,3构建电力CPS广义虚假数据注入攻击识别方法如下:
(a)基于步骤1提出的改进KMeans-Smote过采样方法对电力信息物理融合数据进行过采样处理,得到平衡数据集,供改进的深度学习算法训练;
(b)基于步骤2提出的GFDIA识别最优特征子集确定方法,在信息物理融合的平衡数据集中提取GFDIA识别最优特征子集,实现数据的降维和去冗余处理;
(c)将操作(b)得到的GFDIA识别最优特征子集划分为训练集和测试集,划分比例为1∶1,训练集用来供模型的训练,测试集供模型的评估测试。
(d)按照步骤3的改进方案配置级联层,级联层配置为20层。采用训练集训练改进的深度森林分类器,得到电力CPS广义虚假数据注入攻击识别模型。
发明人在测试集上对本发明提供的电力广义CPS虚假数据注入攻击识别模型性能进行全面验证,通过ROC曲线、精度-召回率曲线以及混淆矩阵来反应模型性能,识别结果如图6所示。由图6(a)和图6(b)可知,ROC曲线和精度-召回率曲线分别收敛至(0,1)、(1,1)点,由此可知本发明提出的GFDIA识别模型在低误报代价下实现GFDIA的高精度识别,模型的性能稳定。从图6(c)可知,本发明提出的模型对数据中几种GFDIA的识别准确率达到97%,各类GFDIA之间的误报率较低,以上证明了提出模型高精度以及高稳定性。
综上,采用本发明的基于深度森林的电力CPS广义虚假数据注入攻击识别方法能够在数据集不平衡、数据维度高的条件下实现GFDIA的高精度识别,且模型的误报率较低,不易过拟合,本发明提供的GFDIA识别模型有效地提高了GFDIA的识别精度以及稳定性。
本发明的软件程序依据自动化和计算机处理技术编制,是本领域技术人员所熟悉的技术。
本发明的实施例并非对原始模型的调用,本领域技术人员不经过创造性劳动的简单复制和改进,仍属于本发明权利保护的范围。
Claims (1)
1.一种电力CPS广义虚假数据注入攻击识别方法,其特征是,它包括的内容有:
1)信息物理融合数据平衡化处理方法
信息物理融合数据的平衡化处理由提出的中心化KMeans-Smote过采样算法实现,首先计算数据集的不平衡率,当不平衡率低于50%时,执行过采样操作;然后明确各个待过采样类别生成的伪样本数量,求取各个类别样本平均数,将样本数量低于平均值的类别过采样至和平均值持平,不断循环上述过程,直至少数类样本数量和样本数量最多的类别的样本数量相等,从而明确各过采样阶段各少数类别生成的伪样本数量;最后执行过采样操作,过采样过程共分为聚类、过滤和线性插值三个阶段;
(1)聚类阶段,基于KMeans聚类算法将少数类样本在样本空间内聚类成n个簇,并为各个簇分配权重,分派原则为簇内样本数量多的簇的权重低,反之权重高,分配的权重决定该簇内生成的伪样本数量,权重越高,生成的伪样本数量越多,各簇在过采样过后包含的总样本数量大致相等,从而实现了类内的离散度平衡;
(2)过滤阶段,对于少数类样本,在样本空间内将孤立的、且和其他类别样本分类边界混淆不清的样本过滤掉,过滤掉的样本在过采样阶段不参与线性插值操作,即算法不会依据噪声样本生成伪样本,从而实现降噪处理;
(3)采样阶段,针对聚类所生成的各个簇,依次随机选择一个簇心,选取和簇心距离最近的k个近邻样本,在这些近邻样本中随机选择一个样本和所属的簇的簇心之间进行线性插值,生成一个伪样本,循环上述步骤,直到所有簇中的伪样本和步骤(1)中确定的权重约束相符,结束过采样操作,将所有过采样得到的伪样本以及步骤(2)中过滤掉的样本加入到原始数据集,得到平衡数据集,实现数据集的平衡化处理;
2)GFDIA识别最优特征子集确定方法
GFDIA识别最优特征子集的确定由最大化联合互信息(Joint Mutual InformationMaximization,JMIM)特征选择算法实现,算法的输入是原始信息物理融合特征集F={f1,f2,...,fN},数据维数为N,输出为算法迭代选择的k个特征构成的GFDIA识别最优特征子集,其中k≤N;
3)基于改进深度森林的GFDIA识别器构建方法
一个深度森林算法的核心包含细粒度特征提取和级联森林两部分,
①细粒度特征提取:对于一个维度为P的样本,通过一个长度为k的采样滑动窗口,设滑动窗口的长度为λ,得到S=(P-k)/λ+1个k维特征子样本向量,每个采样子样本用来训练第一层的基分类器,并在每个基分类器都获得一个长度为C的概率向量,最后把所有基分类器获得的概率向量以及原始特征拼接在一起得到特征提取结果;
②级联森林:深度森林算法采用一种级联结构对细粒度特征提取的结果进行逐层处理,每一级联层都将上一层的输出作为本层的输入,并将本层的特征处理结果输出到下一层,最终层将前面的级联层的预测结果求平均值得到最终预测值,从而加强算法的表征学习能力;
为了提升深度森林算法对GFDIA的辨识精度,并降低过拟合的风险,对级联层结构进行改进,具体改进方案如下:
每个级联层配置6个基分类器,每个分类器都是基于决策树的集成学习算法,6个集成学习算法依次为Xgboost(EXtreme Gradient Boosting),随机森林(Random Forest),Lightgbm(Light Gradient Boosting Machine),极端森林(Extremely RandomizedTrees),梯度提升决策树(Gradient Boosting Decision Tree),以及Adaboost(AdaptiveBoosting)算法,各基分类器都是基于决策树的集成学习算法,学习机制也不完全相同,不同基分类器之间的差异性提升了深度森林在迭代过程中学习性能,改进后的深度森林算法即为GFDIA识别器;
4)得到电力CPS广义虚假数据注入攻击识别模型
(a)基于步骤1)提出的中心化KMeans-Smote过采样方法对含标注的电力信息物理融合数据进行过采样处理,得到平衡化信息物理融合数据集;
(b)基于步骤2)提出的GFDIA识别最优特征子集确定方法,在信息物理融合的平衡数据集中提取GFDIA识别最优特征子集,实现数据的降维和去冗余处理;
(c)将操作(b)得到的GFDIA识别最优特征子集划分为训练集和测试集,划分比例为1:1,训练集用来供模型的训练,测试集供模型的评估测试;
(d)按照步骤3)的改进方案配置级联层,采用训练集训练改进的深度森林分类器,得到电力CPS广义虚假数据注入攻击识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011594028.4A CN112699936B (zh) | 2020-12-29 | 2020-12-29 | 一种电力cps广义虚假数据注入攻击识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011594028.4A CN112699936B (zh) | 2020-12-29 | 2020-12-29 | 一种电力cps广义虚假数据注入攻击识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699936A CN112699936A (zh) | 2021-04-23 |
CN112699936B true CN112699936B (zh) | 2022-06-28 |
Family
ID=75511870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011594028.4A Active CN112699936B (zh) | 2020-12-29 | 2020-12-29 | 一种电力cps广义虚假数据注入攻击识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699936B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023195928A1 (en) * | 2022-04-05 | 2023-10-12 | Singapore University Of Technology And Design | System and method of detecting attacks against automatic generation control (agc) of a grid |
CN114978586B (zh) * | 2022-04-12 | 2023-07-04 | 东北电力大学 | 一种基于攻击基因的电网攻击检测方法、系统和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108696543A (zh) * | 2018-08-24 | 2018-10-23 | 海南大学 | 基于深度森林的分布式反射拒绝服务攻击检测、防御方法 |
CN111275074A (zh) * | 2020-01-07 | 2020-06-12 | 东北电力大学 | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309840B (zh) * | 2018-03-27 | 2023-08-11 | 创新先进技术有限公司 | 风险交易识别方法、装置、服务器及存储介质 |
-
2020
- 2020-12-29 CN CN202011594028.4A patent/CN112699936B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108696543A (zh) * | 2018-08-24 | 2018-10-23 | 海南大学 | 基于深度森林的分布式反射拒绝服务攻击检测、防御方法 |
CN111275074A (zh) * | 2020-01-07 | 2020-06-12 | 东北电力大学 | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 |
Non-Patent Citations (1)
Title |
---|
A Novel False Data Injection Attack Detection Model of the Cyber-Physical Power System;JIE CAO 等;《IEEE Access》;20200519;第8卷;95109-95125 * |
Also Published As
Publication number | Publication date |
---|---|
CN112699936A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110213222B (zh) | 基于机器学习的网络入侵检测方法 | |
WO2023279696A1 (zh) | 业务风险客群的识别方法、装置、设备及存储介质 | |
CN105760889A (zh) | 一种高效的不均衡数据集分类方法 | |
CN112699936B (zh) | 一种电力cps广义虚假数据注入攻击识别方法 | |
CN112738014A (zh) | 一种基于卷积时序网络的工控流量异常检测方法及系统 | |
CN112836735B (zh) | 一种优化的随机森林处理不平衡数据集的方法 | |
CN113052225A (zh) | 基于聚类算法和时序关联规则的报警收敛方法及装置 | |
CN113901448A (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
Tao et al. | RDEC: integrating regularization into deep embedded clustering for imbalanced datasets | |
CN116318928A (zh) | 一种基于数据增强和特征融合的恶意流量识别方法及系统 | |
CN115987552A (zh) | 一种基于深度学习的网络入侵检测方法 | |
KR102144010B1 (ko) | 불균형 데이터를 위한 리프리젠테이션 모델 기반의 데이터 처리 방법 및 장치 | |
KR102548321B1 (ko) | 효율적인 악성 위협 탐지를 위한 valuable alert 선별 방법 | |
CN116545733A (zh) | 一种电网入侵检测方法及系统 | |
CN116400168A (zh) | 一种基于深度特征聚类的电网故障诊断方法及系统 | |
CN113852612B (zh) | 一种基于随机森林的网络入侵检测方法 | |
KR102405799B1 (ko) | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 | |
CN112949720B (zh) | 一种基于三元组损失的未知辐射源辨别方法 | |
KR20230086976A (ko) | 하이브리드 특징 선택과 데이터 균형을 통한 효율적인 네트워크 탐지 방법 및 시스템 | |
CN114862404A (zh) | 基于聚类样本与极限梯度的信用卡欺诈检测方法及设备 | |
CN115438239A (zh) | 一种自动化异常样本筛选的异常检测方法及装置 | |
Pu et al. | Optimization of Intrusion Detection System Based on Improved Convolutional Neural Network Algorithm | |
CN113177078A (zh) | 基于条件生成模型的高效近似查询处理算法 | |
KR101815968B1 (ko) | 그룹 분리 기능을 제공하기 위한 악성코드 분류 시스템 및 그 방법 | |
Lu et al. | An Alert Aggregation Algorithm Based on K-means and Genetic Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |