CN115688097A

CN115688097A - 一种基于改进遗传算法特征选择的工控系统入侵检测方法

Info

Publication number: CN115688097A
Application number: CN202211396668.3A
Authority: CN
Inventors: 姚羽; 方宇珊; 翟浩; 杨巍; 刘莹; 刘思宇; 闫泓玮; 王嘉璇; 金玉多; 林小李
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-02-03

Abstract

本发明属于工控系统、网络安全及人工智能领域，提出一种基于改进遗传算法特征选择的工控系统入侵检测方法。对待特征选择的流量数据进行预处理；基于预处理的流量数据生成种群；利用多维度染色体评估方法对每个个体染色体进行评估；利用特征排序融合方法对评估结果进行融合排名；采用改进的适应度评估函数计算个体适应度；利用生长树聚类算法进行交叉和变异操作，得到新种群；根据特征排序融合结果对个体进行进化和淘汰操作；输出最高适应度个体并利用神经网络模型建立分类模型。相比于传统的入侵检测方法，本发明具有更高的分类准确率、更低的算法复杂度、更适用于不均衡的工业控制数据、有效降低最终选择的特征数目。

Description

一种基于改进遗传算法特征选择的工控系统入侵检测方法

技术领域

本发明涉及工控系统、网络安全及人工智能领域，尤其涉及一种基于改进遗传算法特征选择的工控系统入侵检测方法。

背景技术

工业控制系统能够处理复杂的数据并安全地执行设计任务，其中超过80％的涉及国计民生的关键基础设施。随着信息技术和网络技术的迅猛发展，通用软硬件和网络设施的广泛使用，打破了工业控制系统与信息网络的“物理隔离”，攻击者能够通过网络注入虚假数据和命令，导致设备异常运行并造成灾难性后果。这些潜在危险使得工控网络入侵检测的任务特别重要。目前针对入侵检测的特征选择方法和分类模型已经被应用。

论文“HadeelAlazzam,Ahmad Sharieh,and KhairEddinSabri.A featureselection algorithm for intrusion detection system based on pigeon inspiredoptimizer.Expert Systems with Applications,148:113249,2020.”提出了一种基于包装器方法的入侵检测特征选择方法，该方法是由鸽子启发的优化算法衍生而来。结合连续元启发式二元方法，提出了一种基于余弦相似度的特征选择方法。作者将所提出的特征选择算法在三个数据集上与六种先进算法进行了比较，证明了所提出算法的优越性。

论文“Faezah Hamad Almasoudy,WathiqLaftah Al-Yaseen,and AliKadhumIdrees.Differential evolution wrapper feature selection for intrusiondetection system.Procedia Computer Science,167:1230-1239,2020.”提出了一种基于差分进化算法特征选择方法用于入侵检测。该方法采用差分进化算法迭代搜索最优特征子集，并不断删除特征。利用极限学习机的计算精度对这些特征进行评估，直到找到满足最高精度的最小特征。结果表明，该方法在5类和2类NSL-KDD数据集中具有较高的检测率和较低的虚警率。

论文“Maryam SamadiBonab,Ali Ghaffari,FarhadSoleimanianGharehchopogh,and PayamAlemi.A wrapper-based feature selection for improving performance ofintrusion detection systems.International Journal of Communication Systems,33(12):e4434,2020.”提出了一种两阶段特征选择和攻击检测方法。该方法结合了支持向量机(SVM)和遗传算法的特点，具有多亲本交叉和多亲本突变。在攻击检测阶段，采用人工神经网络(ANN)对攻击进行检测。为了提高分类器的性能，采用混合重力搜索(HGS)和粒子群优化(PSO)相结合的方法训练分类器。该方法成功地将NSL-KDD的特征维数从42降至4，但分类精度较低。

论文“Frans Hendrik Botes,Louise Leenen,and Retha De La Harpe.Antcolony induced decision trees for intrusion detection.In 16th EuropeanConference on Cyber Warfare and Security,pages 53–62.ACPI,2017.”针对入侵检测系统提出了一种基于蚂蚁树挖掘(ATM)的决策树生成算法。该算法针对复杂、多维、海量数据进行特征选择，能够从大量的数据中找到最小的特征集，并保持较高的分类精度。包装法通常可以搜索到分类算法的最优特征子集，然而它的时间复杂度较高，且部分算法难以有效改变特征数目，且容易陷入局部最优。

综上所述，现有的入侵检测方法大多不是针对工控系统进行设计的，首先这些方法无法有效的减少冗余特征数目，然而在工控系统中，特征之间具有较高的冗余度。而且，现有的特征选择方法并没有考虑到工控系统中数据不均衡的问题，投入使用时会产生较低的准确率和较高的误报性。此外，工控系统要求能够实时对数据流进行分析并产生决策，这需要构建的分类器具有低复杂度，现有的特征选择方法很少考虑到构建分类模型时的时间复杂度。

发明内容

针对上述问题，本发明提出了一种基于改进遗传算法特征选择的工控系统入侵检测方法，该方法更契合工业控制系统的入侵检测，能够有效选取有意义的特征，提高模型分类准确率并降低算法复杂度。以高效的检测巩工业控制网络中的入侵行为，保障工业控制网络的稳定运行。

为实现上述目的，本发明的技术方案如下：

一种基于改进遗传算法特征选择的工控系统入侵检测方法，包括以下步骤：

步骤1：获得待进行特征选择的流量数据；流量数据包括N个特征，流量数据集合为U(f₁,f₂,…f_i…,f_N)；

步骤2：流量数据预处理；根据流量数据特征选择预处理方式；

步骤3：根据预处理后的流量数据随机生成初始种群，种群中个体数量为M；

步骤4：利用多维度染色体评估方法对种群中每个个体的染色体进行评估；染色体即为流量数据特征；

步骤5：利用基于鲁棒性秩聚合的特征排序融合方法对多维度染色体评估结果进行特征排序融合，保存最优染色体和最差染色体；

步骤6：采用改进的适应度评估函数计算各个个体适应度；

步骤7：利用生长树聚类算法针对当前种群进行交叉和变异操作，得到新种群；

步骤8：根据特征排序融合结果对新种群中的个体进行进化和淘汰操作；

步骤9：输出步骤8中获得的个体适应度最高的个体至选定的分类器，判断工控网络是否存在入侵行为并将入侵行为进行分类。

步骤2中流量数据预处理具体如下：当流量数据的特征f_i为非数值特征时，采用one-hot方法对流量数据进行编码，然后对编码后的流量数据进行归一化操作；当流量数据的特征f_i为数值特征时，直接进行归一化操作。

所述归一化操作为：

其中，(f_i)_min表示该流量数据特征对应的最小值，(f_i)_max表示该流量数据特征对应的最大值。

所述步骤4具体流程为：对每个个体Inv_k，执行如下操作：

分别采用L1正则化、L2正则化、线性回归、稳定性选择、随机森林、相关系数和互信息方法对每个个体的染色体进行评分，得到不同方法的染色体评分列表{e₁,e₂,…,e₇}；染色体评分列表根据评分进行重排名，获得对应的染色体排名列表{r₁,r₂,…,r₇}。

所述步骤5中采用鲁棒秩聚合方法对染色体排名列表{r₁,r₂,…,r₇}进行聚合，得到统一的染色体排名列表R；根据统一的染色体排名列表R将排名最佳的染色体标记为Best，将排名最差的染色体标记为Worst。

所述个体适应度Fitness根据下式进行计算：

Fitness＝γ_(max,min)*(acc+f1)+(1-γ_(max,min)*corr)

其中，γ_(max,min)为评价指标的随机扰动，通过随机产生从min到max的随机数来保证搜索过程的随机性，acc为选定的分类器的五折交叉验证分类准确率，均值F1为每个类别的样本数量进行权重平均获得，corr为个体所有特征之间皮尔逊相关系数之和的平均值。

所述max的值为0.6，min的值为0，选定的分类器为神经网络分类器。

所述步骤7具体流程为：采用生长树聚类算法，根据个体相似度将种群中的个体聚类为m个簇，每个簇作为一个家族；

从不同家族选择适应度Fitness最高的个体进行交叉，新生成交叉后的个体作为父类个体；

从同一家族中选择若干个体进行交叉，新生成的个体作为父类个体；

对种群进行变异操作；保留变异后的个体和新生成的父类个体中个体适应度排名前M个个体；

判断是否满足设定的生长树聚类算法迭代次数L，当满足终止条件，算法结束，形成新种群；否则重新进行交叉和变异操作。

所述步骤8具体流程为：对于步骤7获得的新种群中每一个个体，执行如下操作：

判断Rand(0,1)是否大于p，其中Rand(0,1)表示随机生成的0到1的随机数，p是设置的动态进化概率；

当Rand(0,1)>p，则将排名最佳的染色体Best对应的染色体设置为1；

判断Rand(0,1)是否大于q，其中q是设置的动态淘汰概率

当Rand(0,1)>q，则将排名最差的染色体Worst对应的染色体设置为0；

输出进化和淘汰后个体组成的种群，判断当前迭代是否达到总体迭代次数G；

没有达到总体迭代次数G时，继续采用步骤4-步骤8进行特征选择；

达到总体迭代次数G，输出进化和淘汰后个体组成的种群适应度最高的个体。

所述p＝Rand(0,0.5)*(1-g/G)，其中g为当前迭代次数，G为总体迭代次数；q＝Rand(0.5,1)*(1-g/G)。

所述步骤4-步骤8即构成了改进的遗传算法。

所述步骤4采用多维度染色体评估方法评估当前个体对应的染色体性能，相比于仅依靠适应度评判染色体性能的方法，多维度评估能够更全面地得到染色体排名；

所述步骤5将多维度染色体评估结果通过基于鲁棒性秩聚合的特征排序融合方法生成了统一的染色体排名，并得到全局最优染色体和全局最差染色体用于指导算法进化和进行染色体的淘汰，能够加快算法收敛，减少最终特征数目；

所述步骤6利用改进的适应度函数计算每个个体的适应度，该适应度函数同时考虑了特征自相关系数和f1值，能够更全面的评价个体性能，并且更适用于不均衡数据集；

所述步骤8在遗传算法的基础上增加了动态进化和动态淘汰机制，该机制根据特征排序融合结果，动态的对种群进行进化和淘汰，加快算法的寻优过程，并能够有效降低最终的特征数目。

本发明的有益效果：本发明采用改进遗传算法和特征排序融合算法，其中特征排序融合算法用于融合多维度染色体评估方法的排名，生成统一的排名列表，得到全局最优染色体和全局最差染色体，改进遗传算法采用了进化和淘汰机制，并采用了基于生长树聚类的交叉和变异方法，用于加快算法收敛，并显著降低特征数目，最终实现特征选择。本方法通过特征选择和神经网络分类模型实现了对工控网络入侵行为更快速、更准确的检测。本发明所述的基于改进遗传算法特征选择的工控系统入侵检测方法具有较高的分类准确率和较低的算法复杂度，能够满足工控网络的实际需求。

附图说明

图1为本发明所述基于改进遗传算法特征选择的工控系统入侵检测方法的整体流程图；

图2为本发明中改进的遗传算法和特征排序融合方法流程图；

图3为本发明所述基于改进遗传算法特征选择的工控系统入侵检测方法在工业控制流量数据SWaT上所选择特征在不同样本的分布图；(a)为特征FIT101，(b)为特征P101，(c)为特征FIT201，(d)为特征MV304，(e)为特征FIT501，(f)为特征PIT501；

图4为本发明所述基于改进遗传算法特征选择的工控系统入侵检测方法在工业控制流量数据SWaT上所选特征的相关性结果图；

图5为本发明所述基于改进遗传算法特征选择的工控系统入侵检测方法在工业控制流量数据SWaT上进行特征选择后在不同分类模型上的算法消耗时间对比图；RF为随机森林分类器；LR为逻辑回归分类器；NN为神经网络分类器；DT为决策树分类器；NB为贝叶斯分类器；

图6为二进制遗传算法与本发明所述方法的收敛曲线和特征数目变化对比结果图；(a)为传统二进制遗传算法；(b)为本发明所述基于改进遗传算法特征选择的工控系统入侵检测方法。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细描述。

图1是本发明一种基于改进遗传算法特征选择的工控系统入侵检测方法，包括：

S11：读取工业控制流量数据；

S12：对工业控制流量数据进行归一化操作，具体包括：

假设流量数据包含N个特征，则流量数据集合可以表示为U(f₁,f₂,…,f_N)，对于每一个流量数据特征f_i，执行如下操作：

如果f_i是一个非数值特征，使用独热编码对该特征进行编码；利用如下公式对该流量数据特征进行归一化；

其中(f_i)_min表示该流量数据特征对应的最小值，(f_i)_max表示该流量数据特征对应的最大值。

如果f_i是一个数值特征，利用如下公式对该流量数据特征进行归一化；

S13：根据归一化后的流量数据随机生成初始种群，种群中个体数量为M；

S14：利用多维度染色体评估算法对每个个体进行评估，对每个个体Inv_k，采用L1正则化，L2正则化，线性回归，稳定性选择，随机森林，相关系数和互信息方法评估每个个体的染色体对应特征的排名，并保存对应的染色体排名列表{r₁,r₂,…,r₇}；

S15：利用特征排序融合方法对评估结果进行融合，具体包括：

采用鲁棒秩聚合方法对排名列表进行聚合对染色体排名列表{r₁,r₂,…,r₇}进行聚合，得到统一的染色体排名列表R_k。

将排名最佳的染色体标记为Best，将排名最差的染色体标记为Worst；

S16：计算个体适应度，具体包括：

利用如下公式计算种群中每个个体的适应度Fitness；

Fitness＝γ_(max,min)*(acc+f1)+(1-γ_(max,min)*corr)

其中γ_(max,min)为评价指标的随机扰动，通过随机产生从min到max的随机数来保证搜索过程的随机性，默认取max的值为0.6，min的值为0，acc为给定分类器的五折交叉验证分类准确率均值，默认分类器采用神经网络分类器，均值F1为每个类别的样本数量采用权重平均方式进行加权平均获得，corr为个体所有特征之间皮尔逊相关系数之和的平均值。

S17：利用生长树聚类算法进行交叉和变异操作，具体包括：

采用生长树聚类算法，根据个体相似度将种群中的个体聚类为m个簇，每个簇作为一个家族；

从不同家族选择适应度Fitness最高的个体进行交叉，新生成的个体作为父类个体；

对种群进行变异操作，保留变异后的个体和新生成的父类个体中个体适应度排名前M个个体；

判断是否满足设定的生长树聚类算法迭代次数L，若满足终止条件，算法结束，否则重新进行交叉和变异操作。

S18：进行进化和淘汰操作，具体包括：

对于每一个个体，执行如下操作：

判断Rand(0,1)>p？，其中Rand(0,1)表示随机生成的0到1的随机数，p是设置的动态进化概率，默认p＝Rand(0,0.5)*(1-g/G)，其中g为当前迭代次数，G为总体迭代次数；

如果满足，则将排名最佳的染色体Best对应的染色体设置为1；

判断Rand(0,1)>q？，其中q是设置的动态淘汰概率，默认q＝Rand(0.5,1)*(1-g/G)；

如果满足，则将排名最差的染色体Worst对应的染色体设置为0；

如果没有达到总体迭代次数G，则继续采用改进的遗传算法进行特征选择；

如果达到总体迭代次数G，则输出进化和淘汰后个体组成的种群适应度最高的个体。

S19：将个体适应度最高的个体放入到神经网络分类模型中，判断工控网络是否存在入侵行为并将入侵行为进行分类。

为了验证本发明提出方法的有效性，我们在SWaT数据集上利用提出的方法进行了特征选择，并对结果进行展示。

图3展示本发明所述方法在工业控制流量数据SWaT上所选择的6个特征‘FIT101’,‘P101’,‘FIT201’,‘MV304’,‘FIT501’和‘PIT501’在不同样本的分布图，可以看出所有的特征在不同样本的分布均具有显著的差异，证明了这些被选择的特征在不同样本的统计学差异，可以更好的进行样本分类。

图4为本发明所述方法在工业控制流量数据SWaT上所选的6个特征‘FIT101’,‘P101’,‘FIT201’,‘MV304’,‘FIT501’和‘PIT501’的相关性结果图，我们以皮尔森相关系数作为评价标准，分析了特征子集中的特征相关性。不同颜色深度用于量化不同程度的下相关系数，可以看出所选特征均没有强相关性，仅有13.33％即2/15的特征具有中等强度的相关性，86.67％即13/15的特征相关性都属于弱相关，证明本发明所述方法所选择的特征子集具有较低的冗余度。

图5为本发明所述方法在工业控制流量数据SWaT上进行特征选择后在不同分类模型上的算法消耗时间对比图，可以看到，经过特征选择后不同分类器的时间复杂度均有大幅度下降。其中随机森林分类器RF的算法复杂度下降了55.27％，逻辑回归分类器LR的算法复杂度下降了8.36％，神经网络分类器NN的算法复杂度下降了28.96％，决策树分类器DT的算法复杂度下降了92.09％，贝叶斯分类器NB的算法复杂度下降了87.37％。在所有分类器中，经过特征选择后，算法的平均时间复杂度下降了54.41％，因此本发明所述方法能够有效降低算法的时间复杂度。

图6为传统二进制遗传算法与本发明所述方法的收敛曲线和特征数目变化对比，(a)为传统二进制遗传算法，(b)为本发明所述方法。传统的二进制遗传算法收敛速度较慢，然而其具有跳出局部最优去搜索全局最优的能力，这证明了遗传算法的优势。然而传统二进制遗传算法很难有效降低特征数目，最终尽管分类准确率比较稳定，然而很难去除冗余特征从而进一步提高分类准确率。而本发明所述方法由于采用了进化和淘汰策略，其收敛速度较快，同样具有跳出局部最优的能力，最重要的是，本发明所述方法能够有效去除冗余特征，保证了特征数目不断降低，从而能够实现发现更优的特征子集能力。

表1为本发明所述方法在工控流量数据SWaT上与传统特征选择方法的分类准确率对比结果，这些对比的特征选择方法包括了相关系数(Corr)，决策树(DT)，极限树(ET)，L1正则化(Lasso)，逻辑回归(LR)，L2正则化(Ridge)，稳定性选择(Stab)和随机森林。实验采用神经网络作为分类器，为了保证对比的公平性，对比的方法同样保留了六个特征，我们统计了每个方法的五折交叉验证平均分类准确率，可以看出，本发明所述方法的分类准确率(0.987)优于所有对比的传统特征选择方法，平均分类准确率提高了6.4％，表明了提出的方法能够有效选取有意义的特征，提高工业控制入侵检测的准确性，实现稳定的入侵检测。

表1本发明在工控流量数据SWaT上与传统特征选择方法分类准确率对比结果

本发明提出了一种基于改进遗传算法特征选择的工控系统入侵检测方法，该方法更契合工业控制系统的入侵检测，能够有效选取有意义的特征，提高模型分类准确率并降低算法复杂度，以高效的检测工业控制网络中的入侵行为。(1)本方法综合考虑特征自相关系数和F1值作为个体的适应度，该适应度函数能够更全面的评价个体性能，并且更适用于工业控制流量数据这种不均衡数据集，使入侵检测方法与工业控制系统契合度更高。(2)本方法采用多维度染色体评估方法评估当前个体对应的染色体性能，相比于仅依靠适应度评判染色体性能的方法，多维度评估能够更全面地得到染色体排名。(3)本方法采用利用基于鲁棒性秩聚合的特征排序融合算法用于融合多维度染色体评估方法的排名，生成统一的排名列表，得到全局最优染色体和全局最差染色体。(4)本方法采用了进化和淘汰机制，并采用了基于生长树聚类的交叉和变异方法，用于加快算法收敛，并显著降低特征数目，最终实现特征选择。(5)本方法通过特征选择和神经网络分类模型实现了对工控网络入侵行为更快速、更准确的检测。本方法具有较高的分类准确率和较低的算法复杂度，能够满足工控网络的实际需求。

以上优选的实施方式只为说明本发明的技术构思和特点，目的在于让本领域的技术人员了解本发明的内容并加以实施，并不能以此来限制本发明的保护范围，凡是根据本发明实质所做出的等效变化或修饰均属于本发明的保护范围。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于改进遗传算法特征选择的工控系统入侵检测方法，其特征在于，包括以下步骤：

步骤6：采用改进的适应度评估函数计算各个个体适应度；

2.根据权利要求1所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，步骤2中流量数据预处理具体如下：当流量数据的特征f_i为非数值特征时，采用one-hot方法对流量数据进行编码，然后对编码后的流量数据进行归一化操作；当流量数据的特征f_i为数值特征时，直接进行归一化操作。

3.根据权利要求2所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述归一化操作为：

4.根据权利要求2所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述步骤4具体流程为：对每个个体Inv_k，执行如下操作：

5.根据权利要求4所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述步骤5中采用鲁棒秩聚合方法对染色体排名列表{r₁,r₂,…,r₇}进行聚合，得到统一的染色体排名列表R；根据统一的染色体排名列表R将排名最佳的染色体标记为Best，将排名最差的染色体标记为Worst。

6.根据权利要求1所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述个体适应度Fitness根据下式进行计算：

Fitness＝γ_(max,min)*(acc+f1)+(1-γ_(max,min)*corr)

7.根据权利要求6所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述max的值为0.6，min的值为0，选定的分类器为神经网络分类器。

8.根据权利要求6所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述步骤7具体流程为：采用生长树聚类算法，根据个体相似度将种群中的个体聚类为m个簇，每个簇作为一个家族；

9.根据权利要求8所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述步骤8具体流程为：对于步骤7获得的新种群中每一个个体，执行如下操作：

判断Rand(0,1)是否大于q，其中q是设置的动态淘汰概率

10.根据权利要求9所述的基于改进遗传算法和特征排序融合特征选择的工业控制系统的入侵检测方法，其特征在于，所述p＝Rand(0,0.5)*(1-g/G)，其中g为当前迭代次数，G为总体迭代次数；q＝Rand(0.5,1)*(1-g/G)。