CN114139604A - 基于在线学习的电力工控攻击监测方法和装置 - Google Patents

基于在线学习的电力工控攻击监测方法和装置 Download PDF

Info

Publication number
CN114139604A
CN114139604A CN202111299788.7A CN202111299788A CN114139604A CN 114139604 A CN114139604 A CN 114139604A CN 202111299788 A CN202111299788 A CN 202111299788A CN 114139604 A CN114139604 A CN 114139604A
Authority
CN
China
Prior art keywords
power consumption
data
monitoring
model
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111299788.7A
Other languages
English (en)
Inventor
徐文渊
冀晓宇
李鑫锋
程雨诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhuoxi Brain And Intelligence Research Institute
Original Assignee
Hangzhou Zhuoxi Brain And Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhuoxi Brain And Intelligence Research Institute filed Critical Hangzhou Zhuoxi Brain And Intelligence Research Institute
Priority to CN202111299788.7A priority Critical patent/CN114139604A/zh
Publication of CN114139604A publication Critical patent/CN114139604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请提出了一种基于在线学习的电力工控攻击监测方法和装置,涉及智能电网安全技术领域,其中,该方法包括:获取电力工控设备的历史功耗数据;人工标注历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标记集;对伪标记集进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。采用上述方案的本申请实现了对电力工控攻击的长期有效监测,有利于后续针对性的对电力工控系统进行防御。

Description

基于在线学习的电力工控攻击监测方法和装置
技术领域
本申请涉及智能电网安全技术领域,尤其涉及一种基于在线学习的电力工控攻击监测方法和装置。
背景技术
在智能电网中,电力工业控制系统是支撑发、输、变、配、用以及调度等各环节的电力生产运行控制不可或缺的组成部分,是国家关键基础设施的重要组成部分,不仅涵盖电力监控系统(包括调度、电厂、变电站、配电自动化系统),还涉及到用户侧及开放环境中的分布式电源、用电信息采集等系统,一旦遭受破坏,会对国家和社会安全造成严重威胁。随着信息技术的深入应用以及国内外安全形式的发展变化,电力工控系统面临的安全威胁不容忽视。随着电力系统自动化程度的快速提升,针对电力工控系统的攻击种类越来越多样。对电力工控系统攻击进行监测,有助于改变工控系统防御被动的现状,使系统在遭受攻击之前快速拦截攻击并报警。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于在线学习的电力工控攻击监测方法,通过对电力工控的实时功耗数据结合历史数据进行联合学习,实现对电力工控攻击的分类,通过数据预处理、特征提取、训练分类器模型、对机器学习参数优化,搭建包含SVM(支持向量机)、RF(随机森林)、LSTM(长短期记忆网络)、MLP(多层感知机)模型,实现了对电力工控攻击的长期有效监测,有利于后续针对性的对电力工控系统进行防御。本申请填补了国内在此领域的空白,提高了电力工控系统的安全性能。
本申请的第二个目的在于提出一种基于在线学习的电力工控攻击监测装置。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于在线学习的电力工控攻击监测方法,包括:获取电力工控设备的历史功耗数据;人工标注历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标记集;对伪标记集进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。
可选地,在本申请的一个实施例中,使用被标记的数据集训练生成基线电力功耗监测模型,具体为:
人工标注历史功耗数据,生成被标记的数据集,将标记的数据实例自动拆分为训练集和测试集,在训练集上使用机器学习分类模型进行训练,生成基线电力功耗监测模型。
可选地,在本申请的一个实施例中,对伪标签进行类平衡采样,具体为:
将伪标记集加入被标记的数据集,生成新的训练数据集;
根据类再平衡规则选择生成伪标记样本。
为达上述目的,本申请第二方面实施例提出了一种基于在线学习的电力工控攻击监测装置,包括获取模块、模型生成模块、伪标签生成模块、监测模块,其中,
获取模块,用于获取电力工控设备的历史功耗数据;
模型生成模块,用于人工标注适量历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;
伪标签生成模块,用于使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标签;
监测模块,用于对伪标签进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。
可选地,在本申请的一个实施例中,模型生成模块,具体用于:
人工标注适量历史功耗数据,生成被标记的数据集,将标记的数据实例自动拆分为训练集和测试集,在训练集上使用机器学习分类模型进行训练,生成基线电力功耗监测模型。
为了实现上述目的,本申请第三方面实施例提出了一种非临时性计算机可读存储介质,当存储介质中的指令由处理器被执行时,能够执行一种基于在线学习的电力工控攻击监测方法。
本申请实施例的基于在线学习的电力工控攻击监测方法、基于在线学习的电力工控攻击监测装置和非临时性计算机可读存储介质,通过对电力工控的实时功耗数据结合历史数据进行联合学习,实现对电力工控攻击的分类,通过数据预处理、特征提取、训练分类器模型、对机器学习参数优化,搭建包含SVM(支持向量机)、RF(随机森林)、LSTM(长短期记忆网络)、MLP(多层感知机)模型,实现了对电力工控攻击的长期有效监测,有利于后续针对性的对电力工控系统进行防御。目前国内在此领域的研究尚未成熟,本申请填补了国内在此领域的空白,提高了电力工控系统的安全性能。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于在线学习的电力工控攻击监测方法的流程图;
图2为本申请实施例的电力功耗标记集正常、攻击数据量采集时长示意图;
图3为本申请实施例的基于在线学习的电力工控攻击监测方法的模型类平衡重采样流程图;
图4为本申请实施例的基于在线学习的电力工控攻击监测方法的模型学习的特征重要性排序示意图;
图5为本申请实施例的基于在线学习的电力工控攻击监测方法的在线学习功耗监测系统界面示意图;
图6为本申请实施例二所提供的一种基于在线学习的电力工控攻击监测装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于在线学习的电力工控攻击监测方法和装置。
图1为本申请实施例一所提供的一种基于在线学习的电力工控攻击监测方法的流程图。
如图1所示,该基于在线学习的电力工控攻击监测方法包括以下步骤:
步骤101,获取电力工控设备的历史功耗数据;
步骤102,人工标注历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;
步骤103,使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标记集;
步骤104,对伪标记集进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。
本申请实施例的基于在线学习的电力工控攻击监测方法,通过获取电力工控设备的历史功耗数据;人工标注历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标记集;对伪标记集进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。由此,能够通过对电力工控的实时功耗数据结合历史数据进行联合学习,实现对电力工控攻击的分类,通过数据预处理、特征提取、训练分类器模型、对机器学习参数优化,搭建包含SVM(支持向量机)、RF(随机森林)、LSTM(长短期记忆网络)、MLP(多层感知机)模型,实现了对电力工控攻击的长期有效监测,有利于后续针对性的对电力工控系统进行防御。目前国内在此领域的研究尚未成熟,本申请填补了国内在此领域的空白,提高了电力工控系统的安全性能。
电力设备的功耗数据由于其所处电力场景的变化、并发数不同、设备本身的损耗和器件温漂等原因,长期工作来看,其数据特征会发生缓慢变化,例如,半年前设备的功耗数据可能与当前的有较大差别,也就是说可能基于之前数据训练得到的功耗监测模型无法有效监测当前的设备功耗状态。本申请采用在线学习方法,不断学习最新的功耗数据,使模型的决策边界始终适用于当前的设备功耗特征,使得功耗监测算法长期稳定地运行并且保持优秀的监测成功率。
本申请中电力工控攻击监测的在线学习流程包括数据预处理、在线训练方法、不平衡样本重采样算法、搭建在线学习模型、训练在线学习模型、电力工控攻击监测。本申请通过对电力工控功耗进行数据挖掘,选择特征为电力工控功耗的数学统计量,并通过梯度提升随机森林、长短记忆网络模型做特征学习为基本的判别模型,结合在线学习使得监测算法可长期精确运行,并且本申请的机器学习模型使用梯度提升随机森林、长短期记忆网络模型,再通过比较样本属于不同类别的概率值,从而实现对电力工控攻击进行分类。
功耗监测中的在线学习存在以下难点:1、首先监督学习通常能够最佳地区分正常数据和异常数据,并且训练数据的数量越大越好,例如,要实现监测算法根据实时功耗数据精确识别攻击,需要准确地采集正常情况下的功耗数据,以及设备受到攻击时的功耗数据。即便是同型号设备之间,由于负载、所处环境的不同,其特征也可能大相径庭。2、此外考虑在电力工控这样长期稳定运行的场景中,异常数据出现概率非常低,这是一种严重数据不平衡的场景。
对于问题1,本申请首先人工标注适量的功耗数据,训练出一个具有对当前状态有良好判别能力的模型。在实际使用过程中,由于电力工控设备将继续产生功耗数据,有大量数据是未被人工标记为正常或攻击的,通过在线学习,这些未标记的数据仍然可以用于分类算法,并且逐步使得模型具备良好的判别能力。在采用在线学习方法时,长期运行后的数据可能会有相应的特征变化,首先采用模型预测,但由于短期内(2周左右)这些预测仍然明显好于随机猜测,因此在分类器的后续迭代中,可以将未标记的数据预测作为“伪标签”。虽然在线学习有很多种形式,但这种特殊的技术称为自监督训练,其工作原理分为如下4步:
步骤201:将标记的数据实例拆分为训练集和测试集,然后,在标记的训练数据上训练分类算法;
步骤202:使用经过训练的分类器预测所有未标记数据实例的类标签,在这些预测的类别标签中,正确概率最高的类别标签被采用为“伪标签”,其中,所有预测的标签都可以一次作为“伪标签”,而不考虑概率,或者可以通过预测中的置信度对“伪标签”数据进行加权;
步骤203:将“伪标记”数据与标记的训练数据连接起来。在组合的“伪标记”和标记的训练数据上重新训练分类器;
步骤204:使用经过训练的分类器预测已标记测试数据实例的类标签,使用预设指标评估分类器性能。
可以重复步骤201到204,直到步骤202的预测类标签不再满足特定概率阈值,或者直到不再保留未标记的数据。
由此,随着样本特征模式的缓慢改变,通过在线学习(自监督)的方式,可以缓慢跟踪特征的变化,达到模型长时可用的效果。
进一步地,在本申请实施例中,使用被标记的数据集训练生成基线电力功耗监测模型,具体为:
人工标注历史功耗数据,生成被标记的数据集,将标记的数据实例自动拆分为训练集和测试集,在训练集上使用机器学习分类模型进行训练,生成基线电力功耗监测模型,并基于此模型对未标签的数据进行在线迭代学习,逐渐增加已标签的数据量,其中,对未标签的数据进行在线迭代学习所使用的模型是机器学习分类模型,是梯度提升决策树(GBDT),SVM这类的模型。
在电力工控这样长期稳定运行的场景中,异常数据出现概率非常低,这是一种严重数据不平衡的场景。电力工控设备长时间运行在正常状态下,即便使用在线学习,其模型决策边界很可能受到大量正样本在特征空间分布的影响,因此对于问题2,需要解决正负样本类别不平衡问题。
对于类不平衡数据,大多数在线学习框架仍可在少数类上生成高精度的伪标签。因此可以利用这一特性,使用类再平衡在线学习ReCOL(Rebalanced Class OnlineLearning),用于改进现有的针对类不平衡数据的在线学习算法。ReCOL通过添加来自未标记集的伪标记样本(其中根据估计的类分布更频繁地选择来自少数类的伪标记样本)来扩展被标记的数据集,从而迭代地重新生成基线电力功耗监测模型。
进一步地,在本申请实施例中,对伪标签进行类平衡采样,具体为:
将伪标记集加入被标记的数据集,生成新的训练数据集;
根据类再平衡规则选择生成伪标记样本。
本申请实施例结合以上问题,对具体使用步骤提出改进:
由上述步骤201-204可知,在线学习首先需要在标记集上对模型进行训练以获得教师模型。其次,教师模型的预测用于为未标记的数据um生成伪标签ym。为了适应正常、异常功耗类别不平衡,本申请做了如下改进:
将伪标记集加入原本的纯净已标记数据集,即
Figure BDA0003337872660000061
包含在标记集中,新的训练数据集为
Figure BDA0003337872660000062
在步骤202中,不是将
Figure BDA0003337872660000063
中的每个样本都包含在标记集中,而是用选定的子集S扩展标记集
Figure BDA0003337872660000064
Figure BDA0003337872660000065
根据类再平衡规则选择
Figure BDA0003337872660000066
即正常功耗数据类为Class 1;攻击类为Class 2:因为攻击类的出现频率低,预测为攻击类的未标记样本就越多地包含在伪标记集
Figure BDA0003337872660000067
和。从标记集估计类分布。具体而言,预测为Class 2的未标记样本
Figure BDA0003337872660000068
其中,α≥0,用于调整采样率,从而调整
Figure BDA0003337872660000069
的大小。例如,对于不平衡比率为
Figure BDA00033378726600000610
的二分类不平衡数据集,将所有预测样本保留为最少数类,对于占绝大多数的正常类别数据
Figure BDA00033378726600000611
同理对于少数的Class 2的数据
Figure BDA00033378726600000612
当α为0时,则回归传统的在线学习。
为进一步提高了在线学习中伪标签的质量,ReCOL可引入渐进分布对齐。虽然最初是针对类平衡半监督学习引入的,但分布对齐(Distribution Alignment)特别适合于类不平衡的场景。它将模型在未标记样本上的预测分布与标记训练集的类分布p(y)对齐。设p(y)为未标记示例上模型预测的移动平均值。DA首先对模型的预测q=p(y|um;f),对于未标记的示例um,通过比率
Figure BDA00033378726600000613
将q与目标分布p(y)对齐。然后重新标准化缩放结果,以形成有效的概率分布:
Figure BDA00033378726600000614
其中Normalize(x)i=xi/∑j xj。其中,
Figure BDA00033378726600000615
用作um的标签猜测。
为了进一步增强DA处理类不平衡数据的能力,需要对其进行了温度缩放扩展。具体来说,通过添加了一个调谐旋钮t∈[0,1],控制DA的类重新平衡强度。并非直接以p(y)为目标,而是使用温度标度分布归一化p(y)t。当t=1时,仍然恢复到传统DA。当t<1时,温度标度分布变得更平滑,并更积极地平衡模型的预测分布。当t=0时,目标分布退化为平均分布。在类平衡测试标准下,使用较小的t可以使一代受益,但对于多代的在线学习来说,在少数类样本较少的不平衡训练集上,这种伪标记往往是不平衡的,即更多的样本被错误地预测为少数类。应用t趋向于1会使模型的预测分布比训练集的类分布更加平衡,从而使模型更频繁地预测少数(攻击功耗)类。
本申请的基线模型来自于标注数据集和未标注数据集,首先通过标注数据集,基于基线机器学习算法(如GBDT,SVM)得到一个监督学习后的分类器。然后尝试用分类器对于未标注数据继续预测。分类器将尝试对这些数据打分置信度,比如为正常状态概率90%,例如,超过设定的阈值85%,认为这个数据判断非常可信,该未标注数据极大概率就是一个正常样本,可以加入训练。
图2为本申请实施例的电力功耗标记集正常、攻击数据量采集时长示意图。
如图2所示,本申请对于攻击样本的依赖程度低,少量的攻击样本便可用于很好地功耗监测。
图3为本申请实施例的基于在线学习的电力工控攻击监测方法的模型类平衡重采样流程图。
如图3所示,该基于在线学习的电力工控攻击监测方法,使用标注集中数据基于基线机器学习算法训练生成基线电力功耗监测模型,使用模型预测未标注集中的数据实例的类标签,生成伪标签集;对伪标签集进行类再平衡采样,通过添加来自未标注集的伪标签集中的样本来更新标注集,其中,类再平衡采样,是指根据训练集中正常、攻击样本数量的比例,将样本加入训练集,例如,当攻击样本的数量过少时,会将攻击样本多复制几份加入训练集,使得被训练的正负样本平衡。
图4为本申请实施例的基于在线学习的电力工控攻击监测方法的模型学习的特征重要性排序示意图。
如图4所示,该基于在线学习的电力工控攻击监测方法的模型学习的特征中,频谱特征是最重要的,第三四分位数次之。
图5为本申请实施例的基于在线学习的电力工控攻击监测方法的在线学习功耗监测系统界面示意图。
如图5所示,该基于在线学习的电力工控攻击监测方法的基于功耗的运行状态监测系统界面主要包括运行日志、运行结果、功耗曲线、正常功耗特征、监测到异常程序运行的置信度以及实时功耗特征等部分。
图6为本申请实施例二所提供的一种基于在线学习的电力工控攻击监测装置的结构示意图。
如图6所示,该基于在线学习的电力工控攻击监测装置,包括获取模块10、模型生成模块20、伪标签生成模块30、监测模块40,其中,
获取模块10,用于获取电力工控设备的历史功耗数据;
模型生成模块20,用于人工标注适量历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;
伪标签生成模块30,用于使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标签;
监测模块40,用于对伪标签进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。
进一步地,在本申请实施例中,模型生成模块,具体用于:
人工标注适量历史功耗数据,生成被标记的数据集,将标记的数据实例自动拆分为训练集和测试集,在训练集上使用机器学习分类模型进行训练,生成基线电力功耗监测模型。
本申请实施例的基于在线学习的电力工控攻击监测装置,包括获取模块、模型生成模块、伪标签生成模块、监测模块,其中,获取模块,用于获取电力工控设备的历史功耗数据;模型生成模块,用于人工标注适量历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;伪标签生成模块,用于使用监测模型预测历史功耗数据中所有未标记数据实例的类标签,生成伪标签;监测模块,用于对伪标签进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。由此,能够通过对电力工控的实时功耗数据结合历史数据进行联合学习,实现对电力工控攻击的分类,通过数据预处理、特征提取、训练分类器模型、对机器学习参数优化,搭建包含SVM(支持向量机)、RF(随机森林)、LSTM(长短期记忆网络)、MLP(多层感知机)模型,实现了对电力工控攻击的长期有效监测,有利于后续针对性的对电力工控系统进行防御。目前国内在此领域的研究尚未成熟,本申请填补了国内在此领域的空白,提高了电力工控系统的安全性能。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的基于在线学习的电力工控攻击监测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于在线学习的电力工控攻击监测方法,其特征在于,包括以下步骤:
获取电力工控设备的历史功耗数据;
人工标注历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;
使用所述监测模型预测所述历史功耗数据中所有未标记数据实例的类标签,生成伪标记集;
对所述伪标记集进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。
2.如权利要求1所述的方法,其特征在于,所述使用被标记的数据集训练生成基线电力功耗监测模型,具体为:
人工标注历史功耗数据,生成被标记的数据集,将标记的数据实例自动拆分为训练集和测试集,在训练集上使用机器学习分类模型进行训练,生成基线电力功耗监测模型。
3.如权利要求1所述的方法,其特征在于,对所述伪标签进行类平衡采样,具体为:
将所述伪标记集加入所述被标记的数据集,生成新的训练数据集;
根据类再平衡规则选择生成伪标记样本。
4.一种基于在线学习的电力工控攻击监测装置,其特征在于,包括获取模块、模型生成模块、伪标签生成模块、监测模块,其中,
所述获取模块,用于获取电力工控设备的历史功耗数据;
所述模型生成模块,用于人工标注适量历史功耗数据,生成被标记的数据集,使用被标记的数据集训练生成基线电力功耗监测模型;
所述伪标签生成模块,用于使用所述监测模型预测所述历史功耗数据中所有未标记数据实例的类标签,生成伪标签;
所述监测模块,用于对所述伪标签进行类平衡采样,通过添加来自未标记集的伪标记样本来扩展被标记的的数据集,从而迭代地重新生成基线电力功耗监测模型,实现对电力工控攻击的监测。
5.如权利要求4所述的装置,其特征在于,所述模型生成模块,具体用于:
人工标注适量历史功耗数据,生成被标记的数据集,将标记的数据实例自动拆分为训练集和测试集,在训练集上使用机器学习分类模型进行训练,生成基线电力功耗监测模型。
6.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN202111299788.7A 2021-11-04 2021-11-04 基于在线学习的电力工控攻击监测方法和装置 Pending CN114139604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111299788.7A CN114139604A (zh) 2021-11-04 2021-11-04 基于在线学习的电力工控攻击监测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111299788.7A CN114139604A (zh) 2021-11-04 2021-11-04 基于在线学习的电力工控攻击监测方法和装置

Publications (1)

Publication Number Publication Date
CN114139604A true CN114139604A (zh) 2022-03-04

Family

ID=80392441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111299788.7A Pending CN114139604A (zh) 2021-11-04 2021-11-04 基于在线学习的电力工控攻击监测方法和装置

Country Status (1)

Country Link
CN (1) CN114139604A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001791A (zh) * 2022-05-27 2022-09-02 北京天融信网络安全技术有限公司 攻击资源标注方法及装置
CN116523181A (zh) * 2023-05-22 2023-08-01 中国标准化研究院 一种基于大数据的智慧绿色能源监测分析方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001791A (zh) * 2022-05-27 2022-09-02 北京天融信网络安全技术有限公司 攻击资源标注方法及装置
CN115001791B (zh) * 2022-05-27 2024-02-06 北京天融信网络安全技术有限公司 攻击资源标注方法及装置
CN116523181A (zh) * 2023-05-22 2023-08-01 中国标准化研究院 一种基于大数据的智慧绿色能源监测分析方法及系统
CN116523181B (zh) * 2023-05-22 2024-01-26 中国标准化研究院 一种基于大数据的智慧绿色能源监测分析方法及系统

Similar Documents

Publication Publication Date Title
CN114139604A (zh) 基于在线学习的电力工控攻击监测方法和装置
CN112884008B (zh) 一种电力信息采集系统运行状态的预测评估方法及装置
Tang et al. Variable predictive model class discrimination using novel predictive models and adaptive feature selection for bearing fault identification
CN113570200A (zh) 一种基于多维信息的电网运行状态监测方法及系统
CN112272074B (zh) 一种基于神经网络的信息传输速率控制方法及系统
CN111383128A (zh) 一种用于监测电网嵌入式终端设备运行状态的方法及系统
CN117251700B (zh) 基于人工智能的环境监测传感器数据分析方法及系统
CN116401532B (zh) 一种电力系统受扰后频率失稳识别方法及系统
CN109002810A (zh) 模型评价方法、雷达信号识别方法及对应装置
CN114721345A (zh) 基于强化学习的工业控制方法、装置、系统和电子设备
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN114925938A (zh) 一种基于自适应svm模型的电能表运行状态预测方法、装置
CN111967003B (zh) 基于黑盒模型与决策树的风控规则自动生成系统及方法
CN112363465B (zh) 一种专家规则集训练方法、训练器和工业设备预警系统
CN117993887A (zh) 一种基于最优化控制的智能决策方法、系统和介质
CN113835973B (zh) 一种模型训练方法及相关装置
CN116027829A (zh) 机房温度控制方法、装置、设备及存储介质
CN115249281A (zh) 图像遮挡和模型训练方法、装置、设备以及存储介质
CN111209158A (zh) 服务器集群的挖矿监控方法及集群监控系统
CN113095423B (zh) 一种基于在线反绎学习的流式数据分类方法及其实现装置
CN117475365A (zh) 一种输电通道风险识别方法、系统、设备及存储介质
Meng et al. Computer Network Security Evaluation Method Based on GABP Model
CN117973622A (zh) 一种考虑气象影响的短期负荷预测方法
CN118211854A (zh) 一种电网暂态稳定评估方法、装置、系统和存储介质
CN117336007A (zh) 一种基于机器学习的少样本网络安全风险检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination