CN112883995A - 基于集成学习的闭源电力工控系统恶意行为识别方法及装置 - Google Patents

基于集成学习的闭源电力工控系统恶意行为识别方法及装置 Download PDF

Info

Publication number
CN112883995A
CN112883995A CN202011619814.5A CN202011619814A CN112883995A CN 112883995 A CN112883995 A CN 112883995A CN 202011619814 A CN202011619814 A CN 202011619814A CN 112883995 A CN112883995 A CN 112883995A
Authority
CN
China
Prior art keywords
data
closed
power engineering
source power
control system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011619814.5A
Other languages
English (en)
Inventor
张晓良
张晨怡
吴克河
吕卓
李暖暖
李鸣岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
North China Electric Power University
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
North China Electric Power University
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, North China Electric Power University, State Grid Henan Electric Power Co Ltd, Electric Power Research Institute of State Grid Henan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202011619814.5A priority Critical patent/CN112883995A/zh
Publication of CN112883995A publication Critical patent/CN112883995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习的闭源电力工控系统恶意行为识别方法及装置。方法包括:对闭源电力工控系统底层多域数据进行数据预处理;基于预处理后的数据,利用基于特征的自动化最优选择策略自动化地选择出最优的特征集合;将最优的特征集合输入集成学习模型,所述集成学习模型利用一个元分类器整合多个基分类器的预测结果,通过集成学习的方式对闭源电力工控系统中的恶意行为进行识别。本发明通过集成学习实现对复杂多样交互行为数据的高效准确识别。

Description

基于集成学习的闭源电力工控系统恶意行为识别方法及装置
技术领域
本发明属于电力信息安全领域,具体涉及一种闭源电力工控系统恶意行为识别方法及装置。
背景技术
随着电力工控系统的智能化、互动化发展以及网络攻击技术的演进,电力行业的网络安全形势日益严峻。恶意行为识别作为网络系统的安全保障之一,同样在电力工控系统中起到很重要的安全防护作用,它是一种用于监控网络或计算机中恶意事件的软件应用程序或硬件设备,它能连续监测网络流量、发现系统活动中违反安全策略的异常行为和被攻击的迹象,并产生系统日志给管理单元,从而实现对入侵或攻击的及时响应和处理。恶意行为识别可以对网络传输进行即时监视,对未知行为进行判断,如果发现了可疑传输,就发出警报或者采取主动防御措施。恶意行为识别不断采用新的检测技术和方法,检测效率和性能得到了较大的提高,在应用上,更加关注系统的实时性与有效性,检测对象范围不断扩大,且逐步进行资源的关联分析。
恶意行为识别大都采用各种技术通过已有的日志数据或流量数据进行学习的方式来实现检测,目前电力工控网络领域在这方面还没有非常多的研究,我们先将目光投向公共安全领域,有关入侵检测技术的研究报道较多,其中有效的方法有:基于统计分析的检测方法、基于规则的检测方法、基于人工神经网络的检测方法、基于数据挖掘的检测方法、基于条件概率的检测方法、基于模式预测的检测方法、基于免疫系统的检测方法等等。这些方法各有千秋,也有各自的适用场景。
不难看出公共信息安全领域对于恶意行为识别的研究的确是取得了很多研究成果,这些方法都能够在一定的程度上实现恶意行为监测,但是面对电力工控网络异常监测的问题,这些方法普遍存在处理数据量、实时性、准确性和可靠性等方面的不足,同时电力工控系统由于本身具有隔离措施,所以对恶意行为识别的主要诉求是基于电力工控网络的日志和流量数据去监测未知的行为,以便及时发出警报或者采取相应防御措施。因此这些公共信息安全领域的方法并不适用于电力工控网络这种特殊场合的要求,所以急需研究针对电力工控网络安全的可靠准确的恶意行为识别方法,以保证电网的安全稳定运行。
发明内容
发明目的:针对以上问题,本发明提供了一种基于集成学习的闭源电力工控系统恶意行为识别方法,可对电力工控系统中各种未知行为进行判断,为电力工控网络安全威胁分析提供坚实数据基础。
本发明的另一目的是提供一种基于集成学习的闭源电力工控系统恶意行为识别装置。
技术方案:根据本发明实施例的第一方面,提供一种基于集成学习的闭源电力工控系统恶意行为识别方法,包括以下步骤:
对闭源电力工控系统底层多域数据进行数据预处理;
对于预处理后的数据,利用基于特征的自动化最优选择策略自动化地选择出最优的特征集合;
将最优的特征集合输入集成学习模型,所述集成学习模型利用一个元分类器整合多个基分类器的预测结果,通过集成学习的方式对闭源电力工控系统中的恶意行为进行识别。
其中,所述闭源电力工控系统底层多域数据包含可移植可执行文件元数据、OpCode N-gram。
进一步地,所述数据预处理包括:对遗漏数据处理、噪声数据剔除、不一致数据纠正,所述对遗漏数据处理的方法包括忽略该条记录、手工填补遗漏值、利用默认值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值中的一种或多种;所述噪声数据剔除的方法包括Bin方法、聚类分析方法、回归方法中的一种或多种。
进一步地,所述特征的自动化最优选择策略包括过滤式的方差选择法、包裹式的递归特征消除法以及嵌入式的基于树模型的特征选择方法,用其中的一种或多种方法进行特征的自动化最优选择。
进一步地,所述方法还包括:对选取出的特征进规则化处理,所述规则化处理的方法包括Min-max规范化、Z-Score规范化、小数定标规范化中的一种或多种。
进一步地,所述集成学习模型中多个基分类器包括决策树、贝叶斯、人工神经网络、支持向量机,所述元分类器为线性回归模型,所述集成学习模型的工作方式为:首先利用多个基分类器分别对输入的最优特征集合进行预测,得到多个预测结果,然后将多个预测结果送入线性回归模型再做一次预测,根据线性回归预测结果判定是否为恶意行为。
进一步地,所述方法还包括:利用增量学习机制对新产生的数据进行筛选,对集成学习模型进行动态调整。
进一步地,所述增量学习机制通过局部敏感哈希的方式对新产生的数据进行筛选,剔除数据流中近似重复数据,具体包括:通过局部敏感哈希建立一张保存数据分布梗概的哈希表,当新的数据到来的时候,先将数据映射到对应的哈希桶中,同一个桶中的数据认定为相似数据,利用同一个桶中的相似数据对基分类器重新训练。
根据本发明实施例的第二方面,提供一种基于集成学习的闭源电力工控系统恶意行为识别装置,包括:
预处理模块,用于对闭源电力工控系统底层多域数据进行数据预处理;
特征选择模块,利用基于特征的自动化最优选择策略自动化地选择出最优的特征集合;
识别模块,用于将最优的特征集合输入集成学习模型,所述集成学习模型利用一个元分类器整合多个基分类器的预测结果,通过集成学习的方式对闭源电力工控系统中的恶意行为进行识别。
进一步地,所述预处理模块包括:遗漏数据处理单元、噪声数据剔除单元、不一致数据纠正单元,所述遗漏数据处理单元用于对记录中出现遗漏值的数据进行处理,处理方法包括忽略该条记录、手工填补遗漏值、利用默认值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值中的一种或多种;所述噪声数据剔除单元用于对数据中奇异值的进行剔除,使用的方法包括Bin方法、聚类分析方法、回归方法中的一种或多种。
进一步地,所述特征选择模块使用的基于特征的自动化最优选择策略,从过滤式的方差选择法、包裹式的递归特征消除法以及嵌入式的基于树模型的特征选择方法中选择一种或多种方法进行特征的自动化最优选择。
进一步地,所述装置还包括特征处理模块,用于对选取出的特征进规则化处理,所述规则化处理的方法包括Min-max规范化、Z-Score规范化、小数定标规范化中的一种或多种。
进一步地,所述集成学习模型中多个基分类器包括决策树、贝叶斯、人工神经网络、支持向量机,所述元分类器为线性回归模型,所述集成学习模型的工作方式为:首先利用多个基分类器分别对输入的最优特征集合进行预测,得到多个预测结果,然后将多个预测结果送入线性回归模型再做一次预测,根据线性回归预测结果判定是否为恶意行为。
进一步地,所述装置还包括:学习优化模块,利用增量学习机制对新产生的数据进行筛选,对集成学习模型进行动态调整。
进一步地,所述学习优化模块的增量学习机制通过局部敏感哈希的方式对新产生的数据进行筛选,剔除数据流中近似重复数据,具体包括:通过局部敏感哈希建立一张保存数据分布梗概的哈希表,当新的数据到来的时候,先将数据映射到对应的哈希桶中,同一个桶中的数据认定为相似数据,利用同一个桶中的相似数据对基分类器重新训练。
有益效果:相对于现有技术,本发明具有以下有益效果:
(1)闭源工控系统底层多域数据虽然包含丰富的样本信息,能够最完整地表达样本,但过高的维度不仅增加了存储的开销,还会对分类器的训练效率和性能产生很大的影响。特征选择通过选择出最能反映原始特征数据分布特性的一个最优子集实现数据降维,选取的子集不但能够降低学习机的计算开销,而且能去掉无关或冗余的特征,进而排除干扰并提高学习机的整体学习性能和泛化能力。本发明引入基于特征的自动化最优选择策略,自动化地选择出最优的特征集合。
(2)集成学习通过使用多个学习器集成的系统来解决问题,能够显著提高学习算法的泛化能力。本发明引入Stacking集成学习方法,该方法通过一个元分类器整合多个基分类器的预测结果以实现闭源工控系统中恶意行为的识别。电力工控系统中存在的恶意行为可能与系统控制软件后门、通信协议或函数调用关系相关,种类较多,并且不同类别的恶意行为之间存在差异,因此模型采用多分类机制,实现对恶意行为具体类别的识别。
附图说明
图1为本发明实施例提供的闭源电力工控系统恶意行为识别方法工作流程图;
图2为本发明实施例提供的模型微调中增量学习机制示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
电力工业控制系统在应对传统功能安全威胁的同时,也面临越来越多的病毒、木马、黑客入侵等工控信息安全威胁,本发明提出了一种基于集成学习的闭源电力工控系统恶意行为识别方法,本方法首先采用集成学习方法,基于形式化表征的闭源电力工控系统底层多域数据,解决模型构建和优化的问题,实现对复杂多样交互行为数据的高效准确识别。然后采用增量学习机制,实现模型的动态调整以应对恶意行为数据多变的特点,解决集成学习模型在增量学习过程中存在的规模过大和已有知识缺失问题,并基于电力工控系统的特点,筛选增量训练数据集,以减小模型动态更新的开销,提高模型的效率。
参照图1,本发明提供的一种基于集成学习的闭源电力工控系统恶意行为识别方法,包括如下步骤:
步骤(1),对闭源电力工控系统底层多域数据进行数据预处理。
电力工控系统具有封闭、代码不开源、部分协议私有化等特点,即便如此,在互联网高速发展的今天,仍然会有潜在的网络恶意行为威胁着电力工控系统,在各种恶意行为中,危害最大的当属恶意代码,恶意代码是指故意编制或设置的、对网络或系统会产生威胁或潜在威胁的计算机代码。最常见的恶意代码有计算机病毒(简称病毒)、特洛伊木马(简称木马)、计算机蠕虫(简称蠕虫)、后门、逻辑炸弹等。在闭源电力工控系统中,可能会受到恶意代码的影响和攻击。这里多域是指从恶意代码中提取出来的作为特征的数据,其类型是多样的。多域数据中包含可移植可执行文件元数据、OpCode N-gram。
1)可移植可执行文件元数据:恶意代码存在的形式通常是可移植可执行文件,即PE文件。通过对PE文件进行解析,可以得到很多非常有价值的数据,例如ImageVersion、IatRVA、ResourceSize等等。
i)ImageVersion:表示文件的版本。它是可用户定义的,与程序的功能无关。许多正常文件有更多的版本和更大的图像版本集。大多数恶意代码的ImageVersion值为0。
ii)IatRVA:表示导入地址表的相对虚拟地址。对于大多数正常文件,此特性的值为4096,对于恶意代码文件,此值为0或一个非常大的值。
iii)ResourceSize:表示资源部分的大小。正常文件可能有较大的资源,一些恶意代码文件可能没有资源。
2)OpCode N-gram:Opcode是操作代码的缩写,操作代码(简称操作码)是机器语言指令的一部分,选定要执行的操作。一类完整的机器语言指令包括一个或多个操作数的规范或者一个操作码。操作码的操作可以包括算术、数据操作、逻辑操作和程序控制。可以运用反汇编软件将恶意文件进行反汇编并提取出操作码。N-gram模型是自然语言处理领域的概念,它基于一个简单的假设,即认为一个词出现的概率仅与它之前的n-1个词有关,这个概率可从大量语料中统计得到。采用N-gram模型来表达文本信息,能提高文本的相似性度量的准确率。程序代码本质上也是一种文本语言,同样具有结构和语义特征,所以N-gram可以作为恶意代码的特征分析和提取方法。
对数据的预处理可以包括以下内容:
步骤(1-1),数据清洗,主要包括对遗漏数值填补、噪声数据剔除、不一致数据纠正。
(a)遗漏数据处理:对于遗漏数据的处理可以采用忽略该条记录、手工填补遗漏值、利用默认值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值等方法;
(b)噪声数据处理:噪声是指被测变量的一个随机错误和变化,因此需要识别并剔除。噪声剔除方法主要包括如下三种,可根据具体情况选择效果更佳的方法。
ⅰ)Bin方法:该方法通过利用应被平滑数据点的周围点(近邻),对一组排序数据进行平滑,排序后的数据被分配到若干桶(称为Bins)中。对Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个数相等;另一种是等宽方法,即每个Bin的取值间距(左右边界之差)相同。下面简述Bin方法技术:首先,对数值型数据进行排序;然后,将其划分为若干等高度的Bin,即每个Bin包含相同个数的数据;最后,既可以利用每个Bin的均值进行平滑,也可以利用每个Bin的边界进行平滑。利用均值进行平滑时,每一个Bin中数据均用该Bin的均值替换,利用边界进行平滑时,对于给定的Bin,其最大值与最小值就构成了该Bin的边界,利用每个Bin的边界值(最大值或最小值)可替换该Bin中的所有值。一般来说,每个Bin的宽度越宽,其平滑效果越明显。
ⅱ)聚类分析方法:通过聚类分析方法可帮助发现异常数据。相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。
ⅲ)回归方法:可以利用拟合函数对数据进行平滑。例如,借助线性回归方法,包括多变量回归方法,就可以获得多个变量之间的拟合关系,从而达到利用一个(或一组)变量值来预测另一个变量取值的目的。利用回归分析方法所获得的拟合函数,能够帮助平滑数据及除去其中的噪声。
(c)不一致数据纠正:现实世界的数据库常岀现数据记录内容不一致的问题,其中的一些数据可以利用它们与外部的关联,手工解决这种问题。例如,数据录入错误一般可以通过与原稿进行对比来加以纠正。
步骤(1-2),特征选择:特征选择主要是从原始特征空间中选择出一组对分类最有效的特征,从而能有效地缩减特征向量空间维数,删除冗余特征,减少无关信息对信息处理过程的干扰,提高分类的准确性,它已成为分类中的重要任务和关键问题。特征选择的具体实现方式分为三大类:过滤式、包裹式、嵌入式。
(a)过滤式:先对数据集进行特征选择,然后再进行训练,也就是说特征选择和模型的训练本身无关。即在模型训练之前,采用一定方法过滤掉一些特征,所以叫过滤法。如方差选择法,该方法在训练模型之前移除方差较低的特征,因为方差低意味着特征的波动小,那么这个特征在任何模型下都无法起到区分的作用。
(b)包裹式:区别于过滤式,包裹式特征选择直接使用最终的学习器的性能作为特征选择的标准,也就是针对学习器量身定制的特征选择方法。主要是递归特征消除法,该方法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数低的特征,再基于新的特征集进行下一轮训练。对特征含有权重的预测模型(例如,线性模型对应参数coefficients),递归特征消除法通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那些拥有最小绝对值权重的特征被移除出特征集。如此往复递归,直至剩余的特征数量达到所需的特征数量。
(c)嵌入式:把特征选择的过程与分类器学习的过程融合一起,在学习的过程中进行特征选择。主要是基于树(如分类算法中的决策树)模型的特征选择法,该方法的最关键的一个问题就是如何对树进行分叉,这个问题其实就是在做特征选择:确定以哪个特征为标的进行树的划分。如何衡量哪个特征的划分效果好成为这个问题的关键,对于分类问题来说一般在算法中使用基尼系数和信息增益进行特征选择。
对于以上三类特征选择方法,在应用中将根据具体情况选择效果更佳的方法。
步骤(1-3),数据规则化:数据规格化指对数据的规范化处理。有些情况下,为了能正确地真正反映实际情况,必须对原始数据进行加工处理,使之规范化。数据经过规格化后其计算结果与未经规格化的计算结果差别较大。
可用以下方法,择优处理:
Min-max规范化:将原始数据投射到指定的空间[min,max]。可用公式表示为:新数值=(原数值-极小值)/(极大值-极小值)。SciKit-Learn中的MinMaxScaler可以完成这个功能。
Z-Score规范化:将原始数据转换为正态分布的形式,使结果易于比较。可用公式表示为:新数值=(原数值-均值)/标准差。在SciKit-Learn中的preprocessing.scale()可以直接将给定数据进行Z-Score规范化。
小数定标规范化:通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。
步骤(2),通过集成学习对闭源电力工控系统中的恶意行为进行识别。
在机器学习的有监督学习算法中,目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
鉴于单个预测模型很难准确预测的这一事实,本发明采用了集成学习的策略结合不同的预测模型的预测能力对恶意行为进行判别,提出了一种基于集成学习的闭源电力工控系统恶意行为识别方法。集成学习的策略在数据挖掘的分类问题中已经被广泛应用。在分类问题中,数据样本被认为是独立同分布的,即样本被认为是从相同的分布中独立抽取的。一般来说集成学习可以分为三大类:用于减少方差的bagging;用于减少偏差的boosting;用于提升预测结果的stacking。本发明选择stacking进行集成学习,stacking模型可以分为2个阶段:第1阶段,选择多个分类器出来分别对训练样本进行预测,本发明选择的是决策树,贝叶斯,人工神经网络,支持向量机,然后将预测结果作为下一层的训练样本;第2阶段,因为不知道第1阶段的多个分类器的结果的权重分别是多少,如果简单的选择平均数可能会损失一些重要分类结果,所以选择一个分类器再去做一个预测,本发明选择的是线性回归,将上一层的多个结果带入新的模型,进行训练再预测,第2阶段模型一般为了防止过拟合会采用简单的模型。最终的判定是否为恶意行为。
步骤(3),通过增量学习机制以实现模型的动态调整。
闭源电力工控系统底层多域数据以动态数据流的形式不断产生,不同于传统的数据集,数据流具有实时、动态变化和连续性等特征。在数据流中新产生的数据相对于原累积的数据量来说很少。将传统的批量学习方法用到流式数据的处理中,很多时候不能达到理想的效果。为使已训练好的模型在保存大部分已有知识的基础上依据新产生的数据不断进行动态调整,本发明引入增量学习机制,通过增量学习利用新产生的数据对原有模型进行微调,省去重新批量学习而耗费的时间,且提高模型应对恶意行为多样化和未知威胁的能力。
增量学习是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。增量学习非常类似于人类自身的学习模式,因为人在成长过程中,每天学习和接收新的事物,学习是逐步进行的,而且,对已经学习到的知识,人类一般是不会遗忘的。增量学习思想可以描述为:每当新增数据时,并不需要重建所有的知识库,而是在原有知识库的基础上,仅对由于新增数据所引起的变化进行更新。
对于海量高维的数据流,数据流中有很多近似重复记录,可以采用将相似度很高的数据进行剔除,本发明引入局部敏感哈希的方式来剔除数据流中近似重复数据,局部敏感哈希的基本思想是通过哈希函数把数据从高维空间映射到低维空间中,使得高维空间的相似数据在低维空间相似概率很高;而在高维空间不相似的数据在低维空间相似概率很低。局部敏感哈希可以保证两个相似点以高概率被映射进同一个哈希桶以及两个不相似的点以低概率映射进同一个哈希桶。模型训练之初建立一张空的哈希表(表中有若干个哈希桶),针对每个时间段获得的数据块,将数据分别映射到表中多个固定容量的哈希桶中,若一个桶中的数据超过其容量,则用新数据替换最旧的数据。通过对多个数据块的处理,建立一张保存了数据分布梗概的哈希表。当新的数据到来的时候,先将数据映射到对应的哈希桶中,通过局部敏感哈希的定义可知,同一个桶中的数据很大概率是相似数据,用同一个桶中的相似数据对基分类器重新训练。这样既保证了可以从新数据中学习新知识,又保留了大量之前学到的知识。本发明通过局部敏感哈希实现增量学习数据的选择机制,避免大量同类行为数据引发的模型频繁更新调整,降低模型因数据流中大量重复数据而进行动态调整所产生的开销,并且使用新数据及其原有数据中的相似数据对基分类器进行微调,避免了用新旧数据重新进行批量学习所耗费的时间和资源。
闭源电力工控系统中出现的与已有正常交互行为数据及恶意行为数据间存在显著差异的数据为增量学习对象。基于已有的正常行为数据样本和恶意行为数据样本,通过异常数据检测机制,实现增量学习样本的识别与获取,并将其添加到正常行为数据集或恶意交互行为数据集中。
为增量学习数据标注类别。机器学习模型从训练样本中学习到的知识是模型进行预测的依据,因此模型在处理与训练样本具有显著差异的数据时其结果具有很大的随机性。对于筛选出的增量学习数据,采取人工分析的方法为该类数据注明标签,保证对恶意行为识别的有效性和样本的准确性。
通过异构分类器集成增量学习算法,实现异构集成学习模型中基函数和元函数的动态调整,使模型更加地贴近当前情况下的数据分布特征,进而能够对当前的情况进行更好的预测。并且解决传统集成式增量学习算法中存在的增量学习过程中已有知识丢失、模型规模过大以及基分类器之间互异性消失等现象,确保模型运行的效率和识别准确率。
根据本发明的另一实施例,提供一种基于集成学习的闭源电力工控系统恶意行为识别装置,包括:
预处理模块,用于对闭源电力工控系统底层多域数据进行数据预处理;
特征选择模块,利用基于特征的自动化最优选择策略自动化地选择出最优的特征集合;
识别模块,用于将最优的特征集合输入集成学习模型,所述集成学习模型利用一个元分类器整合多个基分类器的预测结果,通过集成学习的方式对闭源电力工控系统中的恶意行为进行识别;
学习优化模块,利用增量学习机制对新产生的数据进行筛选,对集成学习模型进行动态调整。
作为一种优选的实施方式,预处理模块包括:遗漏数据处理单元、噪声数据剔除单元、不一致数据纠正单元,所述遗漏数据处理单元用于对记录中出现遗漏值的数据进行处理,处理方法包括忽略该条记录、手工填补遗漏值、利用默认值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值中的一种或多种;所述噪声数据剔除单元用于对数据中奇异值的进行剔除,使用的方法包括Bin方法、聚类分析方法、回归方法中的一种或多种。
作为一种优选的实施方式,特征选择模块使用的基于特征的自动化最优选择策略,从过滤式的方差选择法、包裹式的递归特征消除法以及嵌入式的基于树模型的特征选择方法中选择一种或多种方法进行特征的自动化最优选择。
作为一种优选的实施方式,该恶意行为识别装置还包括特征处理模块,用于对选取出的特征进规则化处理,所述规则化处理的方法包括Min-max规范化、Z-Score规范化、小数定标规范化中的一种或多种。
集成学习模型中多个基分类器包括决策树、贝叶斯、人工神经网络、支持向量机,所述元分类器为线性回归模型,所述集成学习模型的工作方式为:首先利用多个基分类器分别对输入的最优特征集合进行预测,得到多个预测结果,然后将多个预测结果送入线性回归模型再做一次预测,根据线性回归预测结果判定是否为恶意行为。
作为一种优选的实施方式,学习优化模块的增量学习机制通过局部敏感哈希的方式对新产生的数据进行筛选,剔除数据流中近似重复数据,具体包括:通过局部敏感哈希建立一张保存数据分布梗概的哈希表,当新的数据到来的时候,先将数据映射到对应的哈希桶中,同一个桶中的数据认定为相似数据,利用同一个桶中的相似数据对基分类器重新训练。
应理解,本发明实施例中的闭源电力工控系统恶意行为识别装置可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本发明基于形式化表征的闭源电力工控系统底层多域数据,对数据预处理后利用多种方法进行预测识别,并通过集成学习的方式自动化最优选择规则,增量学习机制以实现模型的动态调整,提升模型应对多样化恶意行为的能力。本发明能够实现对闭源电力工控系统恶意行为的准确、实时识别,具有广泛的工程实用价值。
基于与方法实施例相同的技术构思,根据本发明的又一实施例,提供一种计算机设备,所述设备包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现方法实施例中的各步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于集成学习的闭源电力工控系统恶意行为识别方法,其特征在于,包含以下步骤:
对闭源电力工控系统底层多域数据进行数据预处理;
基于预处理后的数据,利用基于特征的自动化最优选择策略自动化地选择出最优的特征集合;
将最优的特征集合输入集成学习模型,所述集成学习模型利用一个元分类器整合多个基分类器的预测结果,通过集成学习的方式对闭源电力工控系统中的恶意行为进行识别。
2.根据权利要求1所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述闭源电力工控系统底层多域数据包含可移植可执行文件元数据、OpCode N-gram。
3.根据权利要求1所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述数据预处理包括:对遗漏数据处理、噪声数据剔除、不一致数据纠正,所述对遗漏数据处理的方法包括忽略该条记录、手工填补遗漏值、利用默认值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值中的一种或多种;所述噪声数据剔除的方法包括Bin方法、聚类分析方法、回归方法中的一种或多种。
4.根据权利要求1所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述特征的自动化最优选择策略包括过滤式的方差选择法、包裹式的递归特征消除法以及嵌入式的基于树模型的特征选择方法,用其中的一种或多种方法进行特征的自动化最优选择。
5.根据权利要求1所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述所述方法还包括:对选取出的特征进规则化处理,所述规则化处理的方法包括Min-max规范化、Z-Score规范化、小数定标规范化中的一种或多种。
6.根据权利要求1所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述集成学习模型中多个基分类器包括决策树、贝叶斯、人工神经网络、支持向量机,所述元分类器为线性回归模型,所述集成学习模型的工作方式为:首先利用多个基分类器分别对输入的最优特征集合进行预测,得到多个预测结果,然后将多个预测结果送入线性回归模型再做一次预测,根据线性回归预测结果判定是否为恶意行为。
7.根据权利要求1所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述方法还包括:利用增量学习机制对新产生的数据进行筛选,对集成学习模型进行动态调整。
8.根据权利要求7所述的闭源电力工控系统恶意行为识别方法,其特征在于,所述增量学习机制通过局部敏感哈希的方式对新产生的数据进行筛选,剔除数据流中近似重复数据,具体包括:通过局部敏感哈希建立一张保存数据分布梗概的哈希表,当新的数据到来的时候,先将数据映射到对应的哈希桶中,同一个桶中的数据认定为相似数据,利用同一个桶中的相似数据对基分类器重新训练。
9.一种闭源电力工控系统恶意行为识别装置,其特征在于,包括:
预处理模块,用于对闭源电力工控系统底层多域数据进行数据预处理;
特征选择模块,利用基于特征的自动化最优选择策略自动化地选择出最优的特征集合;
识别模块,用于将最优的特征集合输入集成学习模型,所述集成学习模型利用一个元分类器整合多个基分类器的预测结果,通过集成学习的方式对闭源电力工控系统中的恶意行为进行识别。
10.根据权利要求9所述的闭源电力工控系统恶意行为识别装置,其特征在于,还包括:学习优化模块,利用增量学习机制对新产生的数据进行筛选,对集成学习模型进行动态调整。
CN202011619814.5A 2020-12-30 2020-12-30 基于集成学习的闭源电力工控系统恶意行为识别方法及装置 Pending CN112883995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011619814.5A CN112883995A (zh) 2020-12-30 2020-12-30 基于集成学习的闭源电力工控系统恶意行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011619814.5A CN112883995A (zh) 2020-12-30 2020-12-30 基于集成学习的闭源电力工控系统恶意行为识别方法及装置

Publications (1)

Publication Number Publication Date
CN112883995A true CN112883995A (zh) 2021-06-01

Family

ID=76046456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011619814.5A Pending CN112883995A (zh) 2020-12-30 2020-12-30 基于集成学习的闭源电力工控系统恶意行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN112883995A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393107A (zh) * 2021-06-07 2021-09-14 东方电气集团科学技术研究院有限公司 一种面向发电设备状态参量参考值的增量式计算方法
CN113887633A (zh) * 2021-09-30 2022-01-04 国网河南省电力公司电力科学研究院 基于il的闭源电力工控系统恶意行为识别方法及系统
CN116204779A (zh) * 2023-04-19 2023-06-02 中能建数字科技集团有限公司 一种判断储能盐穴运行状态的方法、系统及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN107908963A (zh) * 2018-01-08 2018-04-13 北京工业大学 一种自动化检测恶意代码核心特征方法
CN107944274A (zh) * 2017-12-18 2018-04-20 华中科技大学 一种基于宽度学习的Android平台恶意应用离线检测方法
CN108040073A (zh) * 2018-01-23 2018-05-15 杭州电子科技大学 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN108718310A (zh) * 2018-05-18 2018-10-30 安徽继远软件有限公司 基于深度学习的多层次攻击特征提取及恶意行为识别方法
CN108985060A (zh) * 2018-07-04 2018-12-11 中共中央办公厅电子科技学院 一种大规模安卓恶意软件自动化检测系统及方法
CN109684837A (zh) * 2018-11-21 2019-04-26 全球能源互联网研究院有限公司 一种面向电力企业的移动应用恶意软件检测方法及系统
CN110324316A (zh) * 2019-05-31 2019-10-11 河南恩湃高科集团有限公司 一种基于多种机器学习算法的工控异常行为检测方法
CN111200575A (zh) * 2018-11-16 2020-05-26 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习的信息系统恶意行为的识别方法
CN111797394A (zh) * 2020-06-24 2020-10-20 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN107944274A (zh) * 2017-12-18 2018-04-20 华中科技大学 一种基于宽度学习的Android平台恶意应用离线检测方法
CN107908963A (zh) * 2018-01-08 2018-04-13 北京工业大学 一种自动化检测恶意代码核心特征方法
CN108040073A (zh) * 2018-01-23 2018-05-15 杭州电子科技大学 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN108718310A (zh) * 2018-05-18 2018-10-30 安徽继远软件有限公司 基于深度学习的多层次攻击特征提取及恶意行为识别方法
CN108985060A (zh) * 2018-07-04 2018-12-11 中共中央办公厅电子科技学院 一种大规模安卓恶意软件自动化检测系统及方法
CN111200575A (zh) * 2018-11-16 2020-05-26 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习的信息系统恶意行为的识别方法
CN109684837A (zh) * 2018-11-21 2019-04-26 全球能源互联网研究院有限公司 一种面向电力企业的移动应用恶意软件检测方法及系统
CN110324316A (zh) * 2019-05-31 2019-10-11 河南恩湃高科集团有限公司 一种基于多种机器学习算法的工控异常行为检测方法
CN111797394A (zh) * 2020-06-24 2020-10-20 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393107A (zh) * 2021-06-07 2021-09-14 东方电气集团科学技术研究院有限公司 一种面向发电设备状态参量参考值的增量式计算方法
CN113393107B (zh) * 2021-06-07 2022-08-12 东方电气集团科学技术研究院有限公司 一种面向发电设备状态参量参考值的增量式计算方法
CN113887633A (zh) * 2021-09-30 2022-01-04 国网河南省电力公司电力科学研究院 基于il的闭源电力工控系统恶意行为识别方法及系统
CN116204779A (zh) * 2023-04-19 2023-06-02 中能建数字科技集团有限公司 一种判断储能盐穴运行状态的方法、系统及可读存储介质
CN116204779B (zh) * 2023-04-19 2023-09-05 中能建数字科技集团有限公司 一种判断储能盐穴运行状态的方法、系统及可读存储介质

Similar Documents

Publication Publication Date Title
CN112883995A (zh) 基于集成学习的闭源电力工控系统恶意行为识别方法及装置
US12021881B2 (en) Automatic inline detection based on static data
EP3739486A1 (en) Applications of machine learning models to a binary search engine based on an inverted index of byte sequences
CN106557695B (zh) 一种恶意应用检测方法和系统
Duarte et al. Adaptive model rules from high-speed data streams
CN114077741B (zh) 软件供应链安全检测方法和装置、电子设备及存储介质
US20150205960A1 (en) Method of detecting a malware based on a white list
CN113282759A (zh) 一种基于威胁情报的网络安全知识图谱生成方法
Šikić et al. Graph neural network for source code defect prediction
US11138317B2 (en) System and method for locating and correcting vulnerabilities in a target computer system
US11709811B2 (en) Applications of machine learning models to a binary search engine based on an inverted index of byte sequences
CN113626241A (zh) 应用程序的异常处理方法、装置、设备及存储介质
Alsolai et al. Predicting software maintainability in object-oriented systems using ensemble techniques
Liu et al. Ambiguous decision trees for mining concept-drifting data streams
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN115345236A (zh) 融合邻域粗糙集和优化svm的工控入侵检测方法及装置
CN109508545B (zh) 一种基于稀疏表示和模型融合的Android Malware分类方法
Tang et al. Bhmdc: A byte and hex n-gram based malware detection and classification method
KR20210011822A (ko) 인공 지능 기반 비정상 로그를 탐지하는 방법 및 이를 구현하는 시스템
US10248789B2 (en) File clustering using filters working over file attributes
WO2021018929A1 (en) A computer-implemented method, a system and a computer program for identifying a malicious file
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
US11868473B2 (en) Method for constructing behavioural software signatures
US11841949B2 (en) System and method for antimalware application adversarial machine learning
Sheelavathy et al. Detection IoT attacks using Lasso regression algorithm with ensemble classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination