CN113887633A

CN113887633A - 基于il的闭源电力工控系统恶意行为识别方法及系统

Info

Publication number: CN113887633A
Application number: CN202111169081.4A
Authority: CN
Inventors: 陈岑; 郭志民; 吕卓; 杨文�; 李暖暖; 柴艳玉; 张晓良; 吴克河; 张铮; 蔡军飞; 李鸣岩; 张伟; 常昊
Original assignee: State Grid Corp of China SGCC; North China Electric Power University; Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; North China Electric Power University; Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04
Anticipated expiration: 2041-09-30
Also published as: CN113887633B

Abstract

基于IL的闭源电力工控系统恶意行为识别方法，包括如下步骤：获取闭源电力工控系统底层多域数据并对数据进行预处理，形成样本集；对样本集进行类别标注，并设定比例将图像随机划分为训练集和测试集；构建恶意行为分类模型并对其进行训练，得到经过训练的恶意行为分类模型；基于训练后的恶意行为分类模型对待分类恶意行为进行分类；当闭源电力工控系统出现新数据流时，结合新数据流基于增量学习动态调整恶意行为分类模型；基于调整后的恶意行为分类模型对待分类恶意行为进行分类。本发明能够在闭源电力工控系统中有新的数据流出现时，对分类模型进行动态调整从而确保其使用时的准确性，并通过调整样本集数量减小了模型动态更新的开销。

Description

基于IL的闭源电力工控系统恶意行为识别方法及系统

技术领域

本发明属于电力信息安全领域，更具体地，涉及一种基于IL的闭源电力工控系统恶意行为识别方法及系统。

背景技术

随着经济的不断发展，电力需求也越来越大，电力系统的整体运营和规划正受到各种科学技术发展的冲击，面临着各种各样的问题，电力行业的网络安全也日益严峻。恶意行为检测是信息安全领域的研究重点，在电力工控系统中也起到了非常重要的安全防护作用。恶意行为，是为实现一定的目的针对某一目标所采取的一系列操作的过程，是一个不断向攻击目的逼近的动态过程。通常采用扫描、口令攻击、恶意代码、缓冲区溢出、欺骗、后门、会话劫持、网络监听、拒绝服务等方法，对目标网络或系统产生影响和破坏，如篡改信息、骗取和假冒数据、盗取服务和资源、破坏系统可用性等。对恶意行为进行识别是保护电力行业网络安全的重要措施。

传统的识别恶意行为的方法主要是特征检测法。基于特征码的特征检测法只能对已存在于数据库中的恶意行为进行检测，对未知的恶意行为无能为力。并且，随着信息技术的不断发展，为避开检测系统对恶意行为的识别，攻击者将恶意行为转移至底层系统。如，Rootkit木马会对PLC系统底层组件构成威胁。除此之外，恶意行为识别在电力行业的研究还比较少。目前，电力行业的恶意行为防护大致有两种类型，即恶意行为的事前防御和恶意行为的事后清除。修改注册表、发恶意电子邮件、恶意网页攻击是当前恶意行为攻击的主要途径，可以通过修改注册表，设置相应的软件防患于未然，即恶意行为的事前防御。使用杀毒软件对恶意行为进行查杀、清除或者手动删除即恶意行为的事后清除。而对于未知及隐藏的恶意行为不能及时准确的进行识别和防护，从中可以看出目前电力行业的恶意行为识别仍然存在很多的问题和缺陷。

网络隔离技术是当前保障电力工业控制系统网络安全较为有效的措施之一，通过网络隔离装置，可以对服务进行过滤，对基于路由的攻击进行保护，并且将电力工控系统与其他系统划分开，以此实现网段隔离，并对系统中的安全漏洞进行隐藏。目前在电力工控系统中还没有基于流量信息去检测恶意行为的技术，电力工控系统的恶意行为识别主要基于电力工控网络的日志和流量信息去检测未知的行为，以保障工控电力系统的安全，存在处理数据量、实时性、准确性和可靠性等方面的不足。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种闭源电力工控系统恶意行为识别方法及系统，通过增量学习的方法，基于形式化表征的闭源电力工控系统底层多域数据，构建恶意行为识别的动态模型。

本发明采用如下的技术方案。

基于IL的闭源电力工控系统恶意行为识别方法，包括如下步骤：

步骤1，获取闭源电力工控系统底层多域数据并对数据进行预处理，将数据变换为图像并形成样本集；

步骤2，对样本集进行类别标注，类别包括图像是否属于恶意行为以及所属的恶意行为类别，并设定比例将图像随机划分为训练集和测试集；

步骤3，构建恶意行为分类模型并对其进行训练，得到经过训练的恶意行为分类模型；

步骤4，基于训练后的恶意行为分类模型对待分类恶意行为进行分类，得到恶意行为对应的类别；

步骤5，当闭源电力工控系统出现新数据流时，结合新数据流基于增量学习动态调整恶意行为分类模型；

步骤6，基于调整后的恶意行为分类模型对待分类恶意行为进行分类。

优选地，闭源电力工控系统的底层多域数据为二进制文件，对数据的预处理包括将闭源电力工控系统的底层多域数据由二进制文件转换为图像形式。

优选地，步骤1中对数据进行预处理还包括如下步骤：

读取二进制文件的长度，设定宽度并根据指定的宽度计算出多余的字节，去掉多余的字节将二进制文件读入一个unit8数组中；

变换数组的形式，将unit8数组转换为二维数组；

将二维数组转换为灰度图图像。

优选地，步骤2中：根据样本集中图像对应的底层多域数据是否为恶意行为、以及该恶意行为的类别，通过人工标注的方式对样本集进行类别标注。

优选地，步骤3中：基于最近均值分类策略构建恶意行为分类模型，基于步骤2中得到的训练集训练恶意行为识别模型，并在测试阶段使用测试集对恶意行为识别模型进行测试。

优选地，对恶意行为分类模型的训练还包括：通过提取图片特征来训练模型，基于特征的自动化最优选择策略，根据信息增益率以及皮尔逊相关系数三个指标的重要性度量，自动选择出最优的特征集合。

优选地，步骤4中，对待分类恶意行为进行分类还包括如下步骤：

步骤4-1，获取各类别样本集的原型，将每个类别的样本集中恶意行为特征向量的平均值作为该类别的原型；

步骤4-2，通过卷积神经网络提取待分类的恶意行为行为的特征向量；

步骤4-3，计算该特征向量与各类别的原型之间的距离，选取距离最近的原型对应的类别作为分类结果。

优选地，步骤5中，基于类增量学习动态调整恶意行为分类模型还包括如下步骤：

步骤5-1，基于新类样本集和旧类样本集训练更新恶意行为分类模型的参数；

步骤5-2，根据闭源电力工控系统的存储空间，获取每个类别可保留的样本数；

步骤5-3，进行样本管理，包括为新类别选取样本集，以及调整旧类别样本集的大小，；

步骤5-4，结合新类别样本集和旧类别样本集进行数据增广，构建最终训练数据集；

步骤5-5，提取样本在恶意行为分类模型的卷积神经网络上的响应；

步骤5-6，使用最终训练数据集对恶意行为分类模型进行训练，得到训练后的新恶意行为分类模型。

基于IL的闭源电力工控系统恶意行为识别系统，其特征在于，包括：数据预处理模块、恶意行为分类模块和动态调整模块；

数据处理模块用于接收闭源电力工控系统终的数据流，并对其进行预处理；

恶意行为分类模块用于对闭源电力工控系统终的恶意行为分类进行分类；

动态调整模块用于结合新数据流对恶意行为分类模块进行更新。

优选地，动态调整模块包括样本调整模块和训练模块；样本调整模块用于在闭源电力工控系统中出现新的数据流时，结合新数据流进行样本的更新和管理，训练模块能够基于更新后的样本集对恶意行为分类模块进行训练和调整，得到新的恶意行为分类模型。

本发明的有益效果在于，与现有技术相比，本发明基于增量学习机制，能够保证恶意行为分类模型在保留旧的知识的基础上学习新的知识，当闭源电力工控系统中有新的数据流出现时，就可以对模型进行训练，实现对模型的动态调整从而确保其使用时的准确性，并通过调整样本集数量，确保闭源电力工控系统的存储空间的充分利用，减小了模型动态更新的开销；

本发明的有益效果至少包括：

1、本发明通过从闭源工控系统底层多域数据中选出最能反映原始特征数据分布特性的一个最优子集实现数据降维，选取的子集不但能够降低学习机的计算开销，而且能去掉无关或冗余的特征，进而排除干扰并提高学习机的整体学习性能和泛化能力；

2、本发明能够根据闭源电力工控系统中的新数据流更新模型，对于任何时间在已经学习过的恶意行为类别中都能达到很好的分类效果；

3、在闭源电力工控系统中，增量学习的计算需求和内存占用是有限的或者随着当前类别的数量缓慢增加，通过调整样本集数量，保证可用内存始终被充分利用但不会超过。

附图说明

图1为本发明基于IL的闭源电力工控系统恶意行为识别方法的整体流程示意图；

图2为本发明中增量学习机制的示意图；

图3为本发明基于IL的闭源电力工控系统恶意行为识别系统的结构示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

参照图1的示意，图1为本发明提供的基于IL的闭源电力工控系统恶意行为识别方法的整体流程示意图，该方法具体包括以下步骤：

闭源电力工控系统具有封闭、代码不开源、部分协议私有等特点，且闭源电力工控系统中底层多域数据的类型繁多，不仅增加了存储的开销，还会对分类模型的训练效率和性能产生很大的影响，因此需要对数据进行预处理。

获取的底层多域数据为二进制文件，本发明中对数据的预处理包括将闭源电力工控系统的底层多域数据由二进制文件转换为图像形式，具体包括以下步骤：

读取二进制文件的长度，根据指定的宽度，计算出多余的字节，并去掉多余的字节将二进制文件读入一个unit8数组中；其中，本实施例中指定的宽度为128字节。

使用reshape()方法变换数组的形式，将unit8数组变换为二维数组；

进一步将二维数组转换为灰度图图像，将灰度图图像的集合作为样本集。

需要注意的是，样本集中应当包含各种类别的恶意行为对应的图像，可以通过下载现有已做好分类的数据集对样本集进行补充。

步骤2中：根据样本集中图像对应的底层多域数据是否为恶意行为、以及该恶意行为的类别，通过人工标注的方式对样本集进行类别标注。

根据数据是否为恶意行为，将其对应的灰度图图像进行分类，具体的，将恶意行为对应的灰度图图像类别标记为0，良性行为对应的灰度图图像类别标记为1。

设定比例将样本集图像进行划分，本实施例中按照8∶2的比例随机将样本集图像划分为训练集和测试集。

具体的，基于步骤2中得到的训练集训练恶意行为识别模型，并在测试阶段使用测试集对恶意行为识别模型进行测试，测试时，通过训练后的恶意行为识别模型识别样本的恶意行为类别，比较预测的类别和实际类别是否一致，从而得到识别的准确率。本发明基于最近均值分类策略(Nearest-Mean-of-Exemplars Classfication，NME)构建恶意行为分类模型并对恶意行为进行分类，

进一步的，本发明通过提取图片特征来训练模型，为了能够降低学习机的计算开销，而且能去掉无关或冗余的特征，进而排除干扰并提高学习机的整体学习性能和泛化能力，通过特征选择选取出最能反映原始特征数据分布特性的最优子集实现数据降维。本实施例引入基于特征的自动化最优选择策略，根据信息增益率以及皮尔逊相关系数三个指标的重要性度量，自动选择出最优的特征集合。

本发明中，以信息增益度量特征辨识能力(辨识度)，以皮尔森相关系数度量特征独立性，通过将所有特征散列在以辨识度为横坐标、独立性为纵坐标的空间，综合选择位于空间区域辨识度和独立性都较大的特征。

其中，基于信息增益的特征选择包括：

令X为随机变量，如果X随机变量的变化越多，通过它获取的信息量就越大，X的信息熵定义为：

熵在信息理论表示任何一种能量在空间中分布的均匀程度，能量分布越均匀，越不确定，熵就越大，而信息熵是信息的量化度量，是衡量一个随机变量取值的不确定性程度。信息增益是信息熵的差，表示在消除不确定性后获得的信息量。

通过观察随机变量Y获得的关于随机变量X的信息熵定义为

信息增益是信息熵的差，表示在消除不确定性后获得的信息量，定义为：

IG(X，Y)＝H(X)-H(X|Y)

信息增益是信息论中的一个重要概念，被广泛应用在机器学习领域。对分类系统来说，计算信息增益是针对一个一个的特征项而言的，它通过统计某一个特征项t在类别C中出现与否的数量来计算特征项t对类别C的信息增益，定义为考虑出现前后的信息熵之差，定义为：

算法ID3就是采用信息增益来作为判断是否用该属性划分数据集的标准。

其中，基于皮尔森的特征选择包括：

皮尔逊相关系数法是一种准确度量两个变量之间的关系密切程度的统计学的方法。对于两个变量x和y，通过试验可以得到若干组数据，记为(x_i，y_i)(i＝1，2，...，n)，则相关系数的数学表达式为：

式(1)中，

分别为n个试验值的均值。相关系数r的取值范围在-1和+1之间，即|r|≤1。|r|越接近1，则表明x与y线性相关程度越高。若r＝-1，表明x与y之间为完全负线性相关关系；若r＝+1，表明x与y之间为完全正线性相关关系；若r＝0，表明两者不存在线性相关关系。

一般情况下，r的取值在(-1，1)之间，相关程度可分为以下几种情况：当|r|≥0.8时，可视为高度相关；0.5≤|r|＜0.8时，视为中度相关；0.3≤|r|＜0.5时，视为低度相关；当|r|＜0.3时，说明两个变量之间的相关程度极弱，可视为非线性相关。

步骤4，通过恶意行为分类模型对待分类恶意行为进行分类，得到恶意行为对应的类别；

步骤4具体包括以下步骤：

步骤4-1，获取各类别样本集的原型；

其中，各类别的初始样本集可以为现有已经分类好的样本集，将各类别的现有样本集作为初始的样本集，通过提取每个类别的样本集包含的m个恶意行为的特征向量，并求得平均值μ_y，将得到的平均值μ_y作为该类别的原型，即特征向量；

定义类别y，其平均值μ_y的计算式为：

其中，

表示类别y的样本集中第p个样本对应的特征向量，P_y＝m。

步骤4-2，提取待分类恶意行为对应的特征向量；

本发明采用卷积神经网络(CNN)作为特征提取器

提取特征向量的过程还包括：

步骤4-2-1，在卷积神经网络的卷积层使用3*3的卷积核对输入层输入的待分类恶意行为对应的灰度图图像进行卷积，通过卷积滤波器提取局部特征；

步骤4-2-2，在采样层基于局部相关性原理对提取到的局部特征进行亚采样，从而在减少数据量的同时保留有用信息；

步骤4-2-3，通过复合卷积层和采样层将原始待分类恶意行为的图像x映射成为特征向量

步骤4-3，计算该特征向量与各类别的原型μ_y之间的距离，选取距离最近的原型对应的类别作为分类结果。

具体的，定义y^*为待分类恶意行为对应的类别，y^*满足：

其中，argmin表示取最小值，t表示类别总数。

参照图2的示意，当闭源电力工控系统出现新数据流时，基于增量学习机制动态调整恶意行为分类模型，能够保证模型在已经学习过的恶意行为类别和新数据的恶意行为类别中都能达到很好的分类效果。

具体的，本发明采用基于回放的类增量学习方法训练恶意行为分类模型实现对其的动态调整。类增量学习方法能够一次处理成批的类，处理时每次按照优先级原则，选取每个类中最接近平均特征向量的前m个样本加入到样本集中，与新数据一起训练，从而保证分类模型在学习新知识时不会遗忘学到的旧知识，使分类模型能够根据恶意行为信息流不断的更新模型，并且能够通过不断训练和更新分类模型解决随着时间变化分类模型可能会出现的概念漂移问题。

基于类增量学习训练恶意行为分类模型还包括以下步骤，

步骤5-1，基于新类样本集X^s，X^s+1，...，X^t和旧类样本集X¹，X²，...，X^s-1训练更新恶意行为分类模型的参数Θ；其中，新类样本集为基于新数据流得到的样本集，在此之前的样本集作为旧类样本集。

使用卷积神经网络作为一个可训练的特征提取器，且：

其中，

表示提取得到的特征向量，

表示样本空间，

表示特征提取器。

参数Θ包括固定数量的特征提取参数和可变数量的权重向量，定义y表示类别，t为类别总个数，则y∈{1，2，...，t}。对于任何类别y，得到的卷积神经网络输出g_y(x)为：

其中，a_y(x)表示中间变量，

表示权值向量的转置。

具体的，定义k为存储空间，即样本集中可以保留的样本总数量为k，存储空间由闭源电力工控系统决定，每个类别可保留的样本数m的计算式如下：

m＝k/t

其中，t表示类别总数。

步骤5-3，进行样本管理，所述样本管理包括为新类别选取样本集，以及调整旧类别样本集的大小，样本管理还包括以下步骤：

步骤5-3-1，构建新类别y∈{s，s+1，...，t}的样本集X^s，X^s+1，...，X^t，且每个类别包括m个样本；

具体的，计算新类样本集的类平均向量μ，选取前m个最接近类平均向量的恶意行为加入到对应类的样本集中，并保证样本集的有序性：

其中，X表示新类样本集，新类样本集X中包含n个样本，

表示样本x的特征向量，

步骤5-3-2，对旧类别y∈{1，2，...，s-1}的样本集X¹，X²，...，X^s-1中的样本进行删减，删减后每个类别的样本数为m；

由于旧类样本集是有序的因此，在进行旧类别样本选取的时候只需要按照优先级选取靠前的m个样本作为更新后的旧类样本集即可。

步骤5-4，构建最终训练数据集；

具体的，结合新类别的样本集X^s，X^s+1，...，X^t和旧类别的样本集X¹，X²，...，X^s-1共同进行数据增广，作为最终训练数据集；

步骤5-5，提取样本在恶意行为分类模型的卷积神经网络上的响应

满足以下计算式：

其中，x_i表示样本。

每个训练步骤由70个epochs组成，学习率从2.0开始，在经过49个epochs之后变为0.4，63个epochs之后变为0.08。每一轮训练过程中使用的损失函数包括分类损失函数和蒸馏损失函数，即损失函数l(Θ)满足：

l(Θ)＝l_{classfication}(θ)+l_distillation(θ)

其中，l_{classfication}(θ)表示分类损失函数，l_distillation(θ)表示蒸馏损失函数，且分类损失函数和蒸馏损失函数分别满足：

其中，D表示数据样本，

δ表示超参数。

其中，分类损失函数用于使数据能够区分为当前类别数据以及样本数据，蒸馏损失函数用于确保在训练新类别样本的过程中，过去学习的分类信息不会被遗忘，从而达到了防止或减轻灾难性遗忘问题的效果。

具体的，将步骤5中得到的训练后的新恶意行为分类模型用于待分类恶意行为的分类，得到待分类恶意行为的对应类别。

参照图3的示意，本发明还提供了基于IL的闭源电力工控系统恶意行为识别系统，上述基于IL的闭源电力工控系统恶意行为识别方法能够基于该系统实现。基于IL的闭源电力工控系统恶意行为识别系统包括：数据预处理模块、恶意行为分类模块和动态调整模块；

其中，数据预处理模块用于接收闭源电力工控系统终的数据流，并对其进行预处理；

动态调整模块包括样本调整模块和训练模块，样本调整模块用于在闭源电力工控系统中出现新的数据流时，结合新数据流进行样本的更新和管理，训练模块能够基于更新后的样本集对恶意行为分类模块进行训练和调整，得到新的恶意行为分类模型。

名词释义：

IL：Incremental Learning，增量学习。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.基于IL的闭源电力工控系统恶意行为识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于：

闭源电力工控系统的底层多域数据为二进制文件，对数据的预处理包括将闭源电力工控系统的底层多域数据由二进制文件转换为图像形式。

3.根据权利要求2所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于：

步骤1中对数据进行预处理还包括如下步骤：

变换数组的形式，将unit8数组转换为二维数组；

将二维数组转换为灰度图图像。

4.根据权利要求1所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于：

5.根据权利要求1所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于：

步骤3中：基于最近均值分类策略构建恶意行为分类模型，基于步骤2中得到的训练集训练恶意行为识别模型，并在测试阶段使用测试集对恶意行为识别模型进行测试。

6.根据权利要求1或5所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于：

对恶意行为分类模型的训练还包括：通过提取图片特征来训练模型，基于特征的自动化最优选择策略，根据信息增益率以及皮尔逊相关系数三个指标的重要性度量，自动选择出最优的特征集合。

7.根据权利要求1所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于：

步骤4中，对待分类恶意行为进行分类还包括如下步骤：

8.根据权利要求1所述的基于IL的闭源电力工控系统恶意行为识别方法，其特征在于，

步骤5中，基于类增量学习动态调整恶意行为分类模型还包括如下步骤：

9.利用权利要求1～8中任一权利要求所述基于IL的闭源电力工控系统恶意行为识别方法的基于IL的闭源电力工控系统恶意行为识别系统，其特征在于，包括：数据预处理模块、恶意行为分类模块和动态调整模块；

10.根据权利要求9所述的基于IL的闭源电力工控系统恶意行为识别系统，其特征在于，

动态调整模块包括样本调整模块和训练模块；样本调整模块用于在闭源电力工控系统中出现新的数据流时，结合新数据流进行样本的更新和管理，训练模块能够基于更新后的样本集对恶意行为分类模块进行训练和调整，得到新的恶意行为分类模型。