CN116167002A - 一种基于优化随机森林的工控网络异常检测方法 - Google Patents

一种基于优化随机森林的工控网络异常检测方法 Download PDF

Info

Publication number
CN116167002A
CN116167002A CN202310045012.5A CN202310045012A CN116167002A CN 116167002 A CN116167002 A CN 116167002A CN 202310045012 A CN202310045012 A CN 202310045012A CN 116167002 A CN116167002 A CN 116167002A
Authority
CN
China
Prior art keywords
whale
formula
cauchy
random forest
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310045012.5A
Other languages
English (en)
Inventor
宗学军
王润鹏
何戡
杨忠君
连莲
郑洪宇
孙逸菲
宁博伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang University of Chemical Technology
Original Assignee
Shenyang University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang University of Chemical Technology filed Critical Shenyang University of Chemical Technology
Priority to CN202310045012.5A priority Critical patent/CN116167002A/zh
Publication of CN116167002A publication Critical patent/CN116167002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于优化随机森林的工控网络异常检测方法,涉及一种工控网络安全检测方法。该方法对数据集进行特征提取并利用主成分分析降维,划分训练集与测试集,考虑异常检测效率和准确率低的问题,利用改进鲸鱼算法优化随机森林模型。将柯西变异和自适应动态惯性权重相结合,一方面利用柯西变异算子增加种群多样性,避免算法陷入局部最优;另一方面引用自适应动态惯性权重因子提高种群全局搜索能力,加快算法收敛速度。结本发明有着更高的准确率和较强的适应性,更适合工业环境。此外,在国内石油化工行业信息安全重点实验室的油气集输全流程工业场景攻防靶场上进行验证实验,证明了本发明在实际应用中有较高的检测精度。

Description

一种基于优化随机森林的工控网络异常检测方法
技术领域
本发明涉及一种工控网络安全检测方法,特别是涉及一种基于优化随机森林的工控网络异常检测方法。
背景技术
工控网络是能源、交通、城市公用设施等国家关键基础设施的重要组成部分。随着工业化和信息化的融合发展,在增强工控网络适用性的同时也引入了严峻的网络安全威胁。工控协议作为工控网络中的重要部分,其安全性更是备受关注的焦点。其中,ModbusTCP协议已是当前应用最广泛的协议,通过该协议可以实现PLC、I\O模块、其他设备的透明连接。Modbus协议同绝大多数工控协议一样,自身存在较多安全缺陷,架设在TCP/IP上之后,更是将TCP/IP协议本身存在的安全问题带到了工控安全中。
诸多学者在Modbus TCP的异常流量检测方面取得了一定的研究进展,主要采用聚类、神经网络、支持向量机和随机森林等机器学习技术。其中聚类算法受参数影响较大,在异常检测中检测效果严重依赖主观解释;支持向量机则是难以对工业流量的大数据样本进行训练。在众多机器学习方法中,随机森林因其准确率高、抗噪声能力强等优势受到青睐。在异常检测上,随机森林能有效处理工业大数据集合,且引入了随机性不容易过拟合,是热门的机器学习算法之一。但由于随机森林模型的分类准确率受参数影响较大,且传统的参数优化方法很难避免主观因素的存在,于是有学者使用群智能优化算法提高参数寻优的效率。
目前,对于异常检测的群智能优化算法研究还存在两个不足:一是种群搜索能力差,收敛速度慢,群优化算法中的种群难以拥有均衡的局部和全局搜索能力。二是极易陷入局部最优,使得算法过早收敛至局部最优,使得优化效果较差。
发明内容
本发明的目的在于提供一种基于优化随机森林的工控网络异常检测方法。该方法通过将变异和自适应动态惯性权重相结合对鲸鱼算法(Optimization Algorithm-RandomForest,WOA)进行改进,引入柯西变异算子提高种群多样性,并在此基础上采用自适应动态惯性权重因子提高优化精度。利用改进后的系统步骤和方法,优化随机森林模型中决策树的数目和属性特征子集的特征数,提高模型分类预测准确率,提升异常检测性能。
本发明的目的是通过以下技术方案实现的:
一种基于优化随机森林的工控网络异常检测方法,所述方法包括以下步骤:
步骤1:对原始工控数据流量进行特征提取构成原始特征集合,并对原始特征集合进行主成分分析处理生成新的特征集合,将其进行有放回抽样,将抽取到的样本作为训练集,未抽取到的样本作为验证集;
步骤2:初始化鲸鱼算法的相关参数,包括种群规模、最大迭代次数、概率值等,并将随机森林模型的袋外误差作为适应度函数计算适应度值,标记最优鲸鱼个体;
步骤3:当概率值p<0.5,系数向量A的绝对值|A|≤1时,通过引入自适应动态惯性权重因子ω后的位置更新公式更新鲸鱼的位置;
步骤4:当概率值p≥0.5时,通过引入自适应动态惯性权重因子ω后的位置更新公式进行螺旋捕食;
步骤5:当概率值p<0.5,系数向量A的绝对值|A|>1时,通过引入自适应动态惯性权重因子ω后的位置更新公式收缩包围猎物;
步骤6:计算自适应柯西变异算子,通过改进后的柯西变异公式更新鲸鱼个体位置,得到所需的柯西突变鲸鱼个体;
步骤7:当迭代次数达到固定或是得到满意的解时算法结束,将最优参数代入随机森林模型中输出分类结果。
进一步地,所述的步骤1中的原始数据为Lemay提供的数据集,其中包括许多不同配置参数的攻击样本,提供了恶意和非恶意Modbus流量包以及随附的CSV标签文件,可供研究者提取所需的流量特征。该数据集在模拟真实网络环境的SCADA沙盒中生成,为Modbus协议定制攻击来生成符合当前工业实际情况的恶意流量。
进一步地,所述的步骤3、步骤4和步骤5中的位置更新公式设置:
为提高鲸鱼的搜索能力,引用一种自适应动态惯性权重因子,并将其引入到鲸鱼位置更新方法中。具体公式如下:
Figure BDA0004054993560000021
引入ω后的位置更新公式如下:
X(t+1)=ωX(t)-A·D,p<0.5,|A|≤1
X(t+1)=ωD·eωt·cos(2πl)+X*(t),p≥0.5
X(t+1)=ωXrand(t)-A·D,p<0.5,|A|>1
进一步地,所述的步骤6中的改进后的柯西变异公式设置:
将变异参数由定值改变为与位置和迭代次数相关的动态参数,改进的柯西变异公式如下,通过改进后的变异公式得到所需的柯西突变鲸鱼个体。
X(t+1)=X(t)+X(t)·η·C(0,1)
其中:
η=1-t/Tmax
本发明的优点与效果是:
本发明相较于其他工业异常检测方法,具体创新体现在本发明采用群智能优化算法对随机森林模型进行优化,提出一种基于混合鲸鱼算法优化随机森林(Cauchy mutationand Adaptive weighting factor Whale Optimization Algorithm-Random Forest,CAWOA-RF)模型,解决传统的参数优化方法存在主观因素导致模型分类准确率低的问题。针对鲸鱼算法搜索能力差和易陷入局部极值的问题,将柯西变异和自适应动态惯性权重相结合,一方面利用柯西变异算子增加种群多样性,避免算法陷入局部最优;另一方面引用自适应动态惯性权重因子提高种群全局搜索能力,加快算法收敛速度。仿真实验结果表明,本发明相较于其他分类算法有着更高的准确率和较强的适应性。在辽宁省石油化工行业信息安全重点实验室的油气集输全流程工业场景攻防靶场上进行验证实验,证明了模型在实际应用中也有较高的检测精度。
附图说明
图1为Modbus TCP数据包结构图;
图2为自适应动态惯性权重因子迭代曲线;
图3为PCA降维曲线;
图4为模型收敛曲线;
图5为基于不同数据集的算法精确率;
图6为基于不同数据集的算法召回率;
图7为基于不同数据集的算法F1值;
图8为油气集输全流程工业场景攻防靶场实物图;
图9为引擎整体架构图;
图10为异常数据结果展示图。
具体实施方式
下面结合附图所示实施例对本发明进行详细说明。
利用Modbus TCP协议,控制器之间或控制器与设备之间可将以太网作为数据传输媒介进行通讯,使工业生产现场中的基础设备能够执行相应的操作。Modbus TCP数据帧结构如图1所示,协议定义了简单的协议数据单元和用于识别Modbus应用数据单元的专用报文头,称其为Modbus应用协议报文头
特征提取
在进行异常检测前,首先需要提取相关的数据特征字段构成特征集合。与传统的互联网中的协议一样,工控协议也有自己的专有字段,通过对Modbus TCP数据包的字段进行解析,提取协议中的网络属性和通信属性字段,除了常见的目的IP,源IP,数据长度等,还有一些特有的类似于单元标志符、功能码、字节数等字段,针对数据包属性共提取出13个特征,具体描述见表1。
表1数据包属性特征表
Figure BDA0004054993560000041
若仅凭借数据包属性特征还不足以识别数据包频率和包间隔变化所引起的异常。例如某一段时间内,数据包发送指令的速度比原来加快一倍,导致整个生产流程缩短了一半,出现了明显的周期异常,或者数据包的数量在一定时间内保持正常,但数据包之间的间隔发生变化,出现了间隔异常。针对上述情况,通过引入平均时间间隔、平均时间间隔方差、每秒数据包数和平均数据包数等计算特征来解决,具体描述见表2。
表2计算特征表
Figure BDA0004054993560000042
Figure BDA0004054993560000051
标准鲸鱼算法
鲸鱼算法是模仿座头鲸的狩猎行为进而提出的一种新型启发式优化算法。
在鲸鱼算法中,每个鲸鱼的位置代表了一个可行解,在鲸鱼捕猎的过程中,每只鲸鱼有两种行为:一种是包围猎物,所有的鲸鱼都向着其他的鲸鱼前进;另一种是气泡网,鲸鱼环形游动喷出气泡来驱赶猎物。算法主要分为3个阶段:包围猎物、泡网攻击和搜索捕食。
(1)包围捕食:
假设在n维空间中,当前最优解为种群中的最佳鲸鱼个体,则鲸鱼种群将会按下式向最优个体进行靠拢。
X(t+1)=X*(t)-A·D
D=|C·X*(t)-X(t)|
A=2ar1-a
C=2r2
a=2-2t/Tmax
其中,X* (t+1)=(X* 1,X* 2,…,X* n)为猎物的位置向量,t为当前的迭代次数,A,C为系数向量,r1,r2为分布在(0,1)范围内的随机数,a为收敛因子,随迭代次数的增加,由2至0线性递减,Tmax为最大迭代次数。
(2)泡网攻击:
泡网攻击是座头鲸特有的吐气泡捕食行为,为模拟该行为,以两种模型对其进行表述。
a)收缩包围:减小收敛因子a,使当前位置的鲸鱼个体向当前最佳位置的鲸鱼个体靠近。
b)螺旋更新:当前鲸鱼个体以螺旋式的方式向最佳鲸鱼个体靠近,如下式所示。
X(t+1)=D′·ebt·cos(2πl)+X*(t)
D′=|X*(t)-X(t)|
其中,D’表示猎物与鲸鱼个体之间的距离,b为对数螺旋形状常数,l为-1至1之间的随机数。
当|A|≤1时采用泡网攻击,此时不仅收缩包围圈,而且以螺旋形式向猎物游走,因此各占50%的概率,如下式所示。
Figure BDA0004054993560000061
(3)搜索捕食:
当|A|>1时,当前鲸鱼个体将不会向最佳鲸鱼个体靠近,而是会随机选择一条鲸鱼个体靠近,虽然会使当前鲸鱼个体偏离目标猎物,但会增强鲸鱼群体的全局搜索能力,如下式所示。
X(t+1)=Xrand(t)-A·D
D=|C·Xrand(t)-X(t)|
其中,Xrand为随机选择个体的位置向量。
对于群智能优化算法来说,初始种群的质量对全局收敛速度和最优解的质量有很大影响。
利用Tent混沌映射初始化鲸鱼种群以弥补基本鲸鱼算法的不足,如下式所示。
Figure BDA0004054993560000062
zi=(x0-lb)/(ub-lb)
xi=lb+(ub-lb)zi
其中,lb和ub为优化区间的最大值和最小值,xi为鲸鱼个体位置,zi为混沌变量。
自适应动态惯性权重
在标准WOA的全局搜索中,迭代过程没有考虑到猎物引导鲸鱼更新位置的引导力差异。为防止算法过早成熟,在位置更新公式中引入自适应惯性动态权重因子ω,并将其引入到鲸鱼位置更新方法中。具体公式如下:
Figure BDA0004054993560000063
引入ω后的位置更新公式如下:
X(t+1)=ωX(t)-A·D,p<0.5,|A|≤1
X(t+1)=ωD·eωt·cos(2πl)+X*(t),p≥0.5
X(t+1)=ωXrand(t)-A·D,p<0.5,|A|>1
由图2自适应惯性动态权重因子迭代曲线可以看出,自适应惯性动态权重因子在迭代初期有较大的值,这有利于全局搜索。迭代结束后,曲线下降速度变慢,权值变小,增强局部搜索能力,提高搜索精度。
柯西变异
柯西变异是一种变异能力强于高斯变异的变异算子,因为柯西密度函数两端呈长扁形状,使得种群跳出局部极值的可能性更大。后期较强的变异能力使得原先丢失的种群多样性能够得到一定的弥补,并且在变异前后有较大差异,可以使种群的搜索能力得到增强。
柯西分布的概率密度函数:
ft(x)=(1/π)·t/t2+x2,-∞<x<+∞
柯西变异公式:
X(t+1)=X(t)+η·C(0,1)
式中:x为位置参数,η为控制变异步长的参数,C(0,1)是服从t=1的柯西分布随机数。
在迭代过程中,为了避免算法在优化过程中可能出现的陷入局部最优解,在原有算法的基础上引入了柯西变异算子来提高种群多样性。将变异参数改变为与位置和迭代次数相关的参数,改进的柯西变异公式如下所示,通过改进后的变异公式得到所需的柯西突变鲸鱼个体。
X(t+1)=X(t)+X(t)·η·C(0,1)
η=1-t/Tmax
式中:当η值为1时,突变效应最显著,而当η值为0时,几乎不存在变异现象。
下面为实验部分:
数据集描述
实验采用Lemay提供的数据集,在攻击实验中,通过SCADA网络进行实际攻击,数据包之间的时间十分严格,增加了实验的保真度。
在对完整数据进行分析后,选择采用以下数据集进行实验。
(1)Modbus-data1:“Exploit_ms08_netapi_Modbus_6RTU_with_operate”、“Run1_6RTU”;
(2)Modbus-data2:“Moving_two_files_Modbus_6RTU”、“Run11”;
(3)Modbus-data3:“CnC_uploading_exe_Modbus_6RTU_with_operate”、“Run8”。
以上混合数据集中选择的子数据集均为10秒的轮询周期,数据集具体描述见表3。
表3Lemay数据集描述
Figure BDA0004054993560000071
Figure BDA0004054993560000081
数据预处理
因工控数据具有数据量大、采集频率高和结构复杂等特点,在异常检测时会大幅增加模型训练时间。为此,利用主成分分析算法(Principal Components Analysis,PCA)对提取的混合特征集合进行数据预处理,降低其复杂度以缩短模型训练时间。
最终降维结果如图3所示,可以看出当选取的主成分个数为12时,累积贡献率达到了92.9482%,即认为使用前12维数据特征可以在较小地损失原17维数据特征信息的情况下进行降维,后续实验数据均使用降维后的特征集合。
为验证算法在降维前后训练速度和检测准确率情况,利用降维前后的特征集合对训练时间和准确率设计对照试验,对比结果如表4、表5所示。
表4准确率
Figure BDA0004054993560000082
表5训练时间
Figure BDA0004054993560000083
从表4准确率和表5训练时间可以看出,模型在PCA降维后的特征集合下进行训练后,虽然在检测准确率上略有下降,但训练时间明显缩短。由此可充分证明在满足检测精度的条件下,模型的训练速度大幅提高。
评价指标
为了客观的评价D-IDS模型的性能,采用入侵检测领域中常用的准确率(Accuracy,ACC)、精确率(Precision,P)、检出率(Recall,R)和综合评价指标(F1-Measure,F1)来评价分类结果。
Figure BDA0004054993560000091
Figure BDA0004054993560000092
Figure BDA0004054993560000093
Figure BDA0004054993560000094
式中:TP表示预测为攻击类别且预测正确、FP表示将正常类别预测为攻击类别、FN表示将攻击类别预测为正常类别、TN表示预测为正常类别且预测正确。
参数设置
实验具体参数设置如下:最大迭代次数为500;种群规模为30,概率p为0.5。
图4为CAWOA-RF和WOA-RF模型的收敛曲线,由图可明显看出WOA-RF算法在迭代至246次时完全陷入一个固定值中,无法跳出局部最优。而优化后的CAWOA-RF模型在整个迭代过程中多次跳出局部最优解,最终在迭代至177次时趋于一个稳定值。从时间上可以看出,CAWOA-RF模型能更快地寻到最优解。验证了优化后的鲸鱼算法有着跳出局部极值的能力且收敛速度更快。
CAWOA-RF模型试验
实验最终的输出结果均为30次独立重复实验后的平均值。选择支持向量机(Support Vector Machine,SVM)、C4.5、随机森林(Random Forest,RF)和三种算法与CAWOA-RF模型在三个不同的数据集下进行异常检测实验,从精确率、召回率和F1值三个角度来分析检测性能的优劣。实验结果图如图5、图6和图7所示。
可以看出,在Modbus-data1和Modbus-data3数据集上,各算法均有着较高的检测精度。其中,CAWOA-RF模型在检测精确率、召回率和F1值上明显高于其他分类算法,在综合检测性能最差的Modbus-data2上也有着最高的98.01%精确率、97.97%召回率和98.12%F1值。
以整体检测性能最差的Modbus-data2数据集进行具体分析。其中,RF算法比CAWOA-RF模型精确率低1.3%、召回率低1.24%、F1值低1.11%,由于RF算法的参数选择人为主观性较强,导致其检测性能较差,检测精度下降;SVM算法比CAWOA-RF模型精确率低0.89%、召回率低0.65%、F1值低1.15%,由于SVM算法在处理大数据分类时效果不佳且参数选择时较难,其分类效果也有所欠缺;C4.5算法比CAWOA-RF模型精确率低1.53%、召回率低1.14%、F1值低1.52%,因为C4.5算法需要对数据集进行多次的顺序扫描和排序,因而导致算法的效率低,同时算法极易陷入过拟合,所以在三种算法中检测效果最差。综合上述分析可以看出,CAWOA-RF模型在不同数据集上各评价指标均高于其他传统分类算法,证明了本发明能够显著异常检测性能并有着较强的适用性。
为进一步验证CAWOA-RF模型的有效性,通过对比不同改进手段的WOA-RF算法进行实验。
由图5、图6、图7的实验结果图可以看出,对比WOA-RF与AWOA-RF算法,在引入了自适应惯性动态权重因子对其进行改进后,在三个数据集上检测精确率分别提高了0.97%、0.64%和0.84%,召回率分别提高了0.36%、0.32%和0.21%,F1值分别提高了0.61%、0.57%和0.53%,改进后的WOA算法能有效地提高种群的搜索能力,在加快算法收敛的同时也使得搜索精度有所提升,在对随机森林模型进行参数优化后使算法检测精度得到了提高;对比WOA-RF和CWOA-RF算法,在仅引入柯西变异算子后检测精确率分别提高了0.33%、0.51%和0.69%,召回率分别提高了0.08%、0.17%和0.09%,F1值分别提高了0.23%、0.34%和0.33%,算法会更容易跳出局部最优,迭代过程中相较于标准WOA算法能更好地寻到最优解,使随机森林分类算法有更高的分类准确率;对比CAWOA-RF与其他三种算法,在综合了柯西变异和自适应惯性动态权重因子两方面的优势后,检测精确率较WOA-RF提高了1.91%、较AWOA-RF提高了0.66%,较CWOA-RF提高了0.87%,召回率和F1值也有不同程度的提升。可以看出相较于使用某单一改进来说,CAWOA-RF模型不仅解决了算法在局部最优上的问题而且提高了算法的收敛速度,验证了改进后的模型对异常检测的有效性。
CAWOA-RF模型验证实验
在国内石油化工行业信息安全重点实验室的油气集输全流程工业场景攻防靶场上进行验证实验,整个靶场分为操作站、控制站、通讯网络和沙盘模型,靶场实物图如图8所示。
靶场操作站在虚拟机下实现了人机界面、告警记录和历史记录等功能,并适配相应的组态软件用于对控制系统的开发调试。沙盘模型模拟了冬季天然气输送末站的工艺环境,靶场内置开源工业协议解析引擎,利用交换机镜像口接入基于Suricata的入侵检测系统,通过收集旁路流量进行解析展示,现已支持对ENIP、MODBUS_TCP、S7、CIP、UMAS等多种协议的深度解析。各模块具体描述见表6,引擎整体架构如图9所示。
表6模块说明
Figure BDA0004054993560000101
Figure BDA0004054993560000111
本次验证为发送1000个数据包,其中包含10个Modbus_TCP攻击报文进行异常检测,攻击形式为通过Metasploit功能写数据包,在经过检测后将检测结果在前端浏览器页面进行展示,结果如图10所示。
从异常数据展示图中可以看出命中了10条数据,其中前三条数据为攻击前的TCP建立连接过程,第四条和第五条数据为Modbus TCP报文,后续数据为TCP断开连接过程。其中Modbus TCP报文的功能码为5表示写入单线圈,分别为请求写入报文和响应请求报文。由此可知系统已经有效地将异常数据全部检测并展示,通过构建可控、真实的仿真环境实施攻防演练,映射真实工业场景进行攻击测试,证明了本发明对异常流量检测的可行性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于优化随机森林的工控网络异常检测方法,其特征在于,所述方法包括以下步骤:
步骤1:对原始工控数据流量进行特征提取构成原始特征集合,并对原始特征集合进行主成分分析处理生成新的特征集合,将其进行有放回抽样,将抽取到的样本作为训练集,未抽取到的样本作为验证集;
步骤2:初始化鲸鱼算法的相关参数,包括种群规模、最大迭代次数、概率值等,并将随机森林模型的袋外误差作为适应度函数计算适应度值,标记最优鲸鱼个体;
步骤3:当概率值p<0.5,系数向量A的绝对值|A|≤1时,通过引入自适应动态惯性权重因子ω后的位置更新公式更新鲸鱼的位置;
步骤4:当概率值p≥0.5时,通过引入自适应动态惯性权重因子ω后的位置更新公式进行螺旋捕食;
步骤5:当概率值p<0.5,系数向量A的绝对值|A|>1时,通过引入自适应动态惯性权重因子ω后的位置更新公式收缩包围猎物;
步骤6:计算自适应柯西变异算子,通过改进后的柯西变异公式更新鲸鱼个体位置,得到所需的柯西突变鲸鱼个体;
步骤7:当迭代次数达到固定或是得到满意的解时算法结束,将最优参数代入随机森林模型中输出分类结果。
2.根据权利要求1所述的一种基于优化随机森林的工控网络异常检测方法,其特征在于,所述步骤1中的提取Moudbus_TCP协议中的网络属性和通信属性字段,除了常见的目的IP、源IP、数据长度,还有类似于单元标志符、功能码、字节数字段,针对数据包属性共提取出13个特征,同时引入平均时间间隔、平均时间间隔方差、每秒数据包数和平均数据包数4个计算特征。
3.根据权利要求1所述的一种基于优化随机森林的工控网络异常检测方法,其特征在于,所述步骤3中的包围捕食位置更新:
在n维空间中,当最优解为种群中的最佳鲸鱼个体,则鲸鱼种群将会按下式向最优个体进行靠拢;
X(t+1)=X*(t)-A·D
D=|C·X*(t)-X(t)|
A=2ar1-a
C=2r2
a=2-2t/Tmax
其中,X* (t+1)=(X* 1,X* 2,…,X* n)为猎物的位置向量,t为当前的迭代次数,A,C为系数向量,r1,r2为分布在(0,1)范围内的随机数,a为收敛因子,随迭代次数的增加,由2至0线性递减,Tmax为最大迭代次数;
在位置更新公式中引入自适应惯性动态权重因子ω:
Figure QLYQS_1
引入ω后的位置更新公式如下:
X(t+1)=ωX(t)-A·D,p<0.5,|A|≤1。
4.根据权利要求1所述的一种基于优化随机森林的工控网络异常检测方法,其特征在于,所述步骤4中的螺旋捕食位置更新:
鲸鱼个体以螺旋式的方式向最佳鲸鱼个体靠近,如下式所示;
X(t+1)=D′·ebt·cos(2πl)+X*(t)
D′=|X*(t)-X(t)|
其中,D’表示猎物与鲸鱼个体之间的距离,b为对数螺旋形状常数,l为-1至1之间的随机数;
在位置更新公式中引入自适应惯性动态权重因子ω:
Figure QLYQS_2
引入ω后的位置更新公式如下:
X(t+1)=ωD·eωt·cos(2πl)+X*(t),p≥0.5。
5.根据权利要求1所述的一种基于优化随机森林的工控网络异常检测方法,其特征在于,所述步骤5中的收缩包围位置更新:
鲸鱼个体将不会向最佳鲸鱼个体靠近,而是会随机选择一条鲸鱼个体靠近,虽然会使当前鲸鱼个体偏离目标猎物,但会增强鲸鱼群体的全局搜索能力,如式(9)所示;
X(t+1)=Xrand(t)-A·D
D=|C·Xrand(t)-X(t)|
其中,Xrand为随机选择个体的位置向量;
在位置更新公式中引入自适应惯性动态权重因子ω:
Figure QLYQS_3
引入ω后的位置更新公式如下:
X(t+1)=ωXrand(t)-A·D,p<0.5,|A|>1。
6.根据权利要求1所述的一种基于优化随机森林的工控网络异常检测方法,其特征在于,所述步骤6中的柯西变异公式:
柯西分布的概率密度函数:
ft(x)=(1/π)·t/t2+x2,-∞<x<+∞
柯西变异公式:
X(t+1)=X(t)+η·C(0,1)
式中:x为位置参数,η为控制变异步长的参数,C(0,1)是服从t=1的柯西分布随机数;
在迭代过程中,为了避免算法在优化过程中可能出现的陷入局部最优解,引入了柯西变异算子来提高种群多样性;将变异参数改变为与位置和迭代次数相关的参数,改进的柯西变异公式如下所示,通过改进后的变异公式得到所需的柯西突变鲸鱼个体;
X(t+1)=X(t)+X(t)·η·C(0,1)
η=1-t/Tmax
式中:当η值为1时,突变效应最显著,而当η值为0时,几乎不存在变异现象。
CN202310045012.5A 2023-01-30 2023-01-30 一种基于优化随机森林的工控网络异常检测方法 Pending CN116167002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310045012.5A CN116167002A (zh) 2023-01-30 2023-01-30 一种基于优化随机森林的工控网络异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310045012.5A CN116167002A (zh) 2023-01-30 2023-01-30 一种基于优化随机森林的工控网络异常检测方法

Publications (1)

Publication Number Publication Date
CN116167002A true CN116167002A (zh) 2023-05-26

Family

ID=86414236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310045012.5A Pending CN116167002A (zh) 2023-01-30 2023-01-30 一种基于优化随机森林的工控网络异常检测方法

Country Status (1)

Country Link
CN (1) CN116167002A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117176482A (zh) * 2023-11-03 2023-12-05 国任财产保险股份有限公司 一种大数据网络安全防护方法及系统
CN117499158A (zh) * 2023-12-25 2024-02-02 天地信息网络研究院(安徽)有限公司 一种基于多攻击者联合或非联合攻击的主动防御方法
CN118208733A (zh) * 2024-04-11 2024-06-18 浙江大学 一种焚烧炉火焰稳定性定量检测及调控方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117176482A (zh) * 2023-11-03 2023-12-05 国任财产保险股份有限公司 一种大数据网络安全防护方法及系统
CN117176482B (zh) * 2023-11-03 2024-01-09 国任财产保险股份有限公司 一种大数据网络安全防护方法及系统
CN117499158A (zh) * 2023-12-25 2024-02-02 天地信息网络研究院(安徽)有限公司 一种基于多攻击者联合或非联合攻击的主动防御方法
CN117499158B (zh) * 2023-12-25 2024-04-16 天地信息网络研究院(安徽)有限公司 一种基于多攻击者联合或非联合攻击的主动防御方法
CN118208733A (zh) * 2024-04-11 2024-06-18 浙江大学 一种焚烧炉火焰稳定性定量检测及调控方法

Similar Documents

Publication Publication Date Title
CN116167002A (zh) 一种基于优化随机森林的工控网络异常检测方法
CN106911669A (zh) 一种基于深度学习的ddos检测方法
CN108491714A (zh) 验证码的人机识别方法
CN111709022B (zh) 基于ap聚类与因果关系的混合报警关联方法
CN113839926B (zh) 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置
CN106960017A (zh) 电子书分类及其训练方法、装置和设备
CN112910859A (zh) 基于c5.0决策树和时序分析的物联网设备监测预警方法
CN114491525B (zh) 基于深度强化学习的安卓恶意软件检测特征提取方法
CN110166289A (zh) 一种识别目标信息资产的方法及装置
CN113761525A (zh) 基于联邦学习的智能入侵检测方法和系统
CN117040939B (zh) 基于改进视觉自注意力模型的车载网络入侵检测方法
CN111461784A (zh) 一种基于多模型融合的欺诈行为检测方法
CN113726545A (zh) 基于知识增强生成对抗网络的网络流量生成方法及装置
Shan et al. NeuPot: A neural network-based honeypot for detecting cyber threats in industrial control systems
CN115996135B (zh) 一种基于特征组合优化的工业互联网恶意行为实时检测方法
Sharma et al. A BPSO and deep learning based hybrid approach for android feature selection and malware detection
CN116484923A (zh) 基于区块链和数据增强的联邦学习训练方法及系统
CN115473734A (zh) 基于单分类和联邦学习的远程代码执行攻击检测方法
CN116170168A (zh) 一种基于深度支持向量数据描述的dga域名检测方法及系统
CN114722920A (zh) 一种基于图分类的深度图卷积模型钓鱼账户识别方法
CN114254559A (zh) 一种基于策略梯度和gan的变压器故障案例生成方法
CN116527411B (zh) 数据安全智能防护模型构建方法、装置及协作平台
Liu et al. Intrusion detection method based on improved sparrow algorithm and optimized SVM
CN112532562A (zh) 一种对抗性网络的恶意数据流检测方法及系统
CN114819070B (zh) 基于图神经网络的时序数据自适应可信采样方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination