CN115296851B - 一种基于互信息与灰狼提升算法的网络入侵检测方法 - Google Patents
一种基于互信息与灰狼提升算法的网络入侵检测方法 Download PDFInfo
- Publication number
- CN115296851B CN115296851B CN202210799416.9A CN202210799416A CN115296851B CN 115296851 B CN115296851 B CN 115296851B CN 202210799416 A CN202210799416 A CN 202210799416A CN 115296851 B CN115296851 B CN 115296851B
- Authority
- CN
- China
- Prior art keywords
- model
- formula
- value
- feature
- intrusion detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 84
- 241000282461 Canis lupus Species 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 34
- 238000012843 least square support vector machine Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000011056 performance test Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 description 1
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 210000000299 nuclear matrix Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于互信息与灰狼提升算法的网络入侵检测方法,属于网络安全领域。本方法提供的训练阶段通过互信息理论提取训练集中关键特征,并通过互信息大小对提取的特征进行排序。然后将这些特征作为输入加载到LSSVM模型中来训练,并采用GWB算法优化整个模型的权重参数。GWB‑LSSVM模型通过对关键特征的学习,获取最优的核函数宽度和正则化参数C。测试阶段提取测试数据的特征输入到训练好的LSSVM分类模型中,根据模型输出的类别概率分布判断分类结果正确与否,进而进行模型评估。本方法能够在模型训练阶段大大缩短模型训练时间,降低模型训练消耗和时间成本,而且本方法能够更好的实现网络流量前相关特征的选择,提升网络入侵行为检测的精度和模型收敛的速度。
Description
技术领域
本发明涉及一种基于互信息与灰狼提升算法的网络入侵检测方法,属于网络安全领域。
背景技术
目前人、物间相互连接示范出的便利性促生了不断膨化的互联网、物联网连接需求,这导致网络设施中尚未完备或难以根治的系统漏洞等面临严重的网络入侵和攻击风险。传统的根据攻击构建的入侵检测规则越来越难以应对日益复杂和不断变种的网络攻击,尤其是难以防范和检测未知攻击。近年来随着机器学习等技术的发展,基于异常检测的网络攻击检测虽然取得一定程度的进展,但仍然面临攻击特征提取人工依赖性强,未知攻击检测困难、检测模型复杂度高和网络攻击检测精度低等困难,这严重制约了网络入侵检测系统的发展和应用。
发明内容
本发明为解决上述现有技术中存在的问题,提供了一种基于互信息与灰狼提升算法的网络入侵检测方法,本方法能够在模型训练阶段大大缩短模型训练的时间,降低模型训练消耗和时间成本,而且本方法能够更好的实现网络流量前相关特征的选择,提升网络入侵行为检测的精度和模型收敛的速度。
为实现上述目的,本发明提供的技术方案为:一种基于互信息与灰狼提升算法的网络入侵检测方法,按以下步骤进行处理:
1)构建原始流量数据集Dys:通过数据采集器采集目标网络的流量数据,并根据流量数据构建网络原始流量数据集Dys;
2)构建可分析数据集Dparse:根据TCP/IP协议簇的标准对原始流量数据集Dys进行解码,从原始流量数据集Dys中提取并构成可分析数据集Dparse;
3)构建网络流量特征数据集Df:通过流量统计计算获取可分析数据集Dparse中的特征集,构建用于网络入侵检测模型使用的网络流量特征数据集Df;
4)构建标注数据集Dfl:参照现有的黑名单和白名单特征库对Df中的正常流量和攻击流量进行类别标注,构成可供网络入侵检测模型训练使用的标注数据集Dfl;
5)对标注数据集Dfl中数据进行预处理:首先对标注数据集Dfl中的缺失值进行删除,对标注数据集Dfl中的重复值进行剔除,以保证数据唯一性,保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理,将标注数据集Dfl进一步形成标准化数据集Ds;
6)提取最优特征子集:计算标准化数据集Ds中的每一列特征Xi与标注标签集合Y之间的互信息值,将得到的特征Xi按照互信息值大小进行降序排序,剔除标准化数据集Ds中互信息值<0.2的特征维,保留标准化数据集Ds中互信息值≥0.2的特征维构建最优特征子集Ds’,然后从Ds’随机提取80%的样本作为用于训练入侵检测模型的训练集D’s-Tr,将剩余20%的样本作为测试入侵检测模型的测试集D’s-Ts;
7)构建入侵检测模型:构造最小二乘支持向量机网络入侵检测模型,通过将训练集D’s-Tr输入至最小二乘支持向量机网络入侵检测模型中进行训练,并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数,提升模型检测率;
在步骤7)中检测模型构建的步骤包括:构建学习模型,采用高斯径向基核函数替换原始最小二乘支持向量机中的核函数,高斯径向基核函数的计算如式(6)所示:
式中:δ为核宽度参数;Xl为第l个样本,Xi为当前样本输入点;即:高斯径向基核函数主要计算所有样本与每一个输入点的距离;
最小二乘支持向量机模型为式(7):
式中:w为权重向量;b是偏移量;C为正则参数;ei表示输出的实际值和预测值之间的回归误差;yi表示实际标签值;
利用拉格朗日乘子法将式(7)可以转换成无约束的拉格朗日目标函数L(w,b,e;a),表示为式(8);
式中:J(w,e)见式(7);N表示样本数量,即参与模型训练的样本数;ai表示拉格朗日乘数;
令L(w,b,e;a)分别对w,b,ei,ai求导等于0,对(8)进行求解得到公式(9),K为核矩阵;
式中:E表示单位向量;K为原始核矩阵,C为正则参数;b是偏移量;a表示拉格朗日乘数;y表示实际标签值;
采用高斯径向基核函数(6)替代(9)中的核函数K,对其求解之后可以得到最小二乘支持向量机分类表达式;
在步骤7)中通过灰狼提升算法GWB对LSSVM的参数进行优化,构建基于灰狼提升算法优化的最小二乘支持向量机模型,即GWB-LSSVM模型,灰狼提升算法通过以下步骤进行设置:
(1)设置各项初始参数,设置GWB-LSSVM模型,即灰狼提升算法正则化参数C的范围和核函数参数δ的搜索范围为0.1-300,GWB算法的种群规模为12,最大迭代次数为100;种群可以表示成式(10):
式中:Xij表示第i个样本的第j个特征;
(2)初始化种群,通过选取对网络流量检测的准确率为优化算法的自适应度,计算种群个体自适应度值,并按照大小确定值最高的三个个体为狼王a,左护法b和右护法c;初始化种群的公式见(11);
式中:Xij u为第i个样本的第j个特征的上界;Xij l为第i个样本的第j个特征的下界;
(3)利用式(12)确定种群前进的步长和方向,利用公式(13)和公式(14)更新父代种群位置;
A=rand(-a,a) (12)
式中:A为取值范围为-a到a的均匀随机数,a为常数,初始值为2,并随着迭代次数由2线性降至0;C为正则参数,一般用2r1进行计算,r1=rand(0,1);Xa(t)、Xb(t)、Xc(t)分别表示第t次迭代后狼群中狼王、左右护法的位置,Xdi(t)表示第t次迭代后猎物的位置;
(4)利用差分机制进行变异、交叉产生新子代个体,变异、交叉具体计算见式(15),(16),式(16)通过每个个体与其变异个体进行交叉操作,生成试验个体;
vi(g)=Xa(g)+F×(Xb(g)-Xc(g)) (15)
式中:Xa(g)表示当前群体第a个个体;Xb(g),表示当前群体第b个个体;Xc(g)表示当前群体第c个个体;vi(g)为第i个个体对应的变异个体;F为缩放因子;
式中:CR表示交叉概率因子;Xt *为初始种群,计算方式见式(11);vi(g)为第i个个体对应的变异个体,计算方式见式(15);ut(g)表示试验个体;
(5)利用差分机制的选择步骤更新父代种群;选择步骤的计算方式见式(17);
式中:f(ut(g))表示试验个体的适应度值;f(Xt *)表示初始个体的适应度值;
(6)计算新种群所有个体的自适应度值,更新狼王和左右护法的位置;
(7)判断迭代次数是否满足终止条件,满足输出最小二乘支持向量机网络入侵检测模型的最优参数核函数宽度δ和正则参数C;
8)评估模型检测性能:将步骤7)中的模型训练得到的最优参数进行保存,训练完成后,设置最优参数,结合训练好的模型,将测试集D’s-Ts输入保存好的入侵检测模型框架,对模型检测性能进行评估验证;
9)检测结果可视化呈现:实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的入侵检测模型框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。
步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值对实现字符型特征到数值型特征的转换;和归一化,即采用min-max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min-max归一化方法如公式(1)所示:
式中:Xi为标准化数据集Ds第i列特征归一化后的数值;xi为采集的标注数据集Dfl第i列特征原始数值;xi_max为标注数据集Dfl第i列特征所有样本中的最大值,xi_min为标注数据集Dfl第i列特征所有样本中的最小值。
步骤6)中提取最优特征子集时,按照以下步骤计算每列特征与标志的互信息值:
(1)利用式(2)、(3)分别计算特征Xi、标注标签集合Y的互信息熵;
式(2)中:Xi为归一化后的第i列特征;X为第i列特征所有的样本构成的集合;p(Xi)表示第i列特征Xi的边缘分布;
式(3)中:Y为所有标注标签值构成的集合;y表示标注标签;p(y)表示标注标签y的边缘分布;
(2)利用式(4)计算各列特征Xi与标注标签集合Y之间的交叉熵;
式(4)中:p(Xi,y)表示特征Xi和标注标签y之间的联合分布;
(3)在特征、标注标签集合的互信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征Xi与标注标签集合Y的互信息值;
式中:H(Xi|Y)表示特征Xi与标注标签集合Y之间的条件熵。
步骤8)中对模型评估与优化包括以下步骤:
(1)性能测试:设置最优参数核函数宽度δ和正则参数C,测试集D’s-Ts输入到LSSVM模型中进行预测;
(2)性能评估:统计预测结果和真实结果构成的混淆矩阵,利用式18、公式19和公式20计算准确率、精度和检测率指标;
式中:ACC为准确度,precision为精度,recall为检测率;TP表示真阳率,FN表示假阴率,FP表示假阳率,TN表示真阴率。
根据上述技术方案可知,本方法提供的基于互信息与灰狼提升算法的网络入侵检测方法在训练阶段通过互信息理论选取训练集中关键特征,并通过互信息大小对选取的特征进行降序排序。然后将这些特征作为输入加载到GWB-LSSVM模型中来训练,并采用GWB算法优化整个模型的权重参数。GWB-LSSVM模型通过对关键特征的学习,获取最优的核函数宽度和正则化参数C。测试阶段提取测试数据的特征输入到训练好的GWB-LSSVM分类模型中,根据模型输出的类别概率分布判断分类结果正确与否,进而进行模型评估。本方法相对于现有的技术方案具有以下优点:
1)因为本发明采用基于互信息理论的特征提取模型,根据互信息值的大小对所采集的数据集进行提取,所以本方法相对于传统模型的特征降维方法大大缩短了模型训练的时间,降低了模型训练消耗和时间成本,同时针对网络流量强相关特征提取方面具有更好的优势,从模型训练阶段结果可以看出相同条件下该方法提取的特征集具有更好的分类精度。
2)本发明利用差分算法对灰狼算法进行改进以获取更快的寻优速度,在此基础上,以改进后的灰狼提升算法针对最小二乘支持向量机入侵检测模型的正则参数和核函数宽度进行优化,所以使得该入侵检测模型获得了更好的针对网络流量的分类精度和更快的收敛速度。
3)本发明采用图形可视化的形式展示分类结果,可以更好地以时间序列的形式线性的展示网络流量随时间变化状况和定位网络入侵与攻击流量发现、检测、变化和处置的过程,能够帮助用户更好的理解和处置网络攻击,并为模型的迭代维护提供快速反馈。
附图说明
图1本发明提供的检测识别模型结构示意图;
图2灰狼提升算法(GWB)的流程图;
图3特征集;
图4各列特征与标签的互信息值。
具体实施方式
下面结合附图和具体实施例对本发明作详细具体的说明,但本发明的保护范围不限于下述的实施例。
在本发明所提供的技术方案中的基于互信息与灰狼提升算法的网络入侵检测方法,如图1所示,按以下步骤进行处理:
1)构建原始流量数据集Dys:通过数据采集器采集目标网络的流量数据,并根据流量数据构建网络原始流量数据集Dys;
2)构建可分析数据集Dparse:根据TCP/IP协议簇的标准对原始流量数据集Dys进行解码,从原始流量数据集Dys中提取并构成可分析数据集Dparse;
3)构建网络流量特征数据集Df:通过流量统计计算获取可分析数据集Dparse中的特征集,构建用于网络入侵检测模型使用的网络流量特征数据集Df;
4)构建标注数据集Dfl:参照现有的黑名单和白名单特征库对Df中的正常流量和攻击流量进行类别标注,如图3所示,构成可供网络入侵检测模型训练使用的标注数据集Dfl;
5)对标注数据集Dfl中数据进行预处理:首先对标注数据集Dfl中的缺失值进行删除,对标注数据集Dfl中的重复值进行剔除,以保证数据唯一性,保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理,将标注数据集Dfl进一步形成标准化数据集Ds;
在步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值对实现字符型特征到数值型特征的转换;在本实施例中,将“Protocol”的tcp、udp、icmp分别转换成0、1、2;将“Service”的aol、auth、bgp、...、Z39-50的70种类型转换成0、1、2、...、69;将Label的normal类型转换成0,将数据集的其它类型转换成1,具体如表1所示。
表1
由于数据样本的量纲不统一,采用归一化对数据样本量纲进行处理,即采用min-max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min-max归一化方法如公式(1)所示:
式中:Xi为标准化数据集Ds第i列特征归一化后的数值;xi为采集的标注数据集Dfl第i列特征原始数值;xi_max为标注数据集Dfl第i列特征所有样本中的最大值,xi_min为标注数据集Dfl第i列特征所有样本中的最小值;
6)提取最优特征子集:计算标准化数据集Ds中的每一列特征Xi与标注标签Y之间的互信息值,如图4所示,将得到的特征Xi按照互信息值大小降序排序,剔除标准化数据集Ds中互信息值<0.2的特征维,保留标准化数据集Ds中互信息值≥0.2的特征维构建最优特征子集Ds’,然后从Ds’随机提取80%的样本作为用于训练入侵检测模型的训练集D’s-Tr,将剩余20%的样本作为测试入侵检测模型的测试集D’s-Ts;
在本实施例中,步骤6)中提取最优特征子集时,按照以下步骤计算每列特征与标志的互信息值:
(1)利用式(2)、(3)分别计算特征Xi、标注标签y的互信息熵;
式(2)中:Xi为归一化后的第i列特征;X为第i列特征所有的样本构成的集合;p(Xi)表示第i列特征Xi的边缘分布。
式(3)中:Y为所有标注标签值构成的集合;y表示标注标签;p(y)表示标注标签y的边缘分布。
(2)利用式(4)计算各列特征Xi与标注标签集合Y之间的交叉熵;
式(4)中:p(Xi,y)表示特征Xi和标注标签y之间的联合分布。
(3)在特征、标签的信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征Xi与标注标签集合Y的互信息值;
式中:H(Xi|Y)表示特征Xi与标签Y之间的条件熵。
(4)将步骤(3)中互信息值计算结果按照互信息值降序排列,剔除其中互信息值<0.2的特征维,保留互信息值≥0.2的特征维作为下一步网络入侵检测模型训练的输入数据集。
7)构建入侵检测模型:如图2所示,构造最小二乘支持向量机网络入侵检测模型(简称LSSVM),通过将训练集D’s-Tr输入至最小二乘支持向量机网络入侵检测模型中进行训练,并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数,提升模型检测率;
在本实施例中,步骤7)中检测模型构建的步骤包括:构建学习模型,采用高斯径向基核函数替换原始最小二乘支持向量机中的核函数,高斯径向基核函数的计算如式(6)所示:构建最小二乘支持向量机模型的关键在于核宽度参数δ和正则参数C。
式中:δ为核宽度参数;Xl为第l个样本,Xi为当前样本输入点;即:高斯径向基核函数主要计算所有样本与每一个输入点的距离。
最小二乘支持向量机模型为式(7):
式中:w为权重向量;b是偏移量;C为正则参数;ei表示输出的实际值和预测值之间的回归误差;yi表示实际标签值。
利用拉格朗日乘子法将式(7)可以转换成无约束的拉格朗日目标函数L(w,b,e;a),表示为式(8)。
式中:J(w,e)见式(7);N表示样本数量,即参与模型训练的样本数;ai表示拉格朗日乘数。
令L(w,b,e;a)分别对w,b,ei,ai求导等于0,对(8)进行求解得到公式(9),K为核矩阵。
式中:E表示单位向量;K为原始核矩阵,本发明利用式(6)替换此处的K;C为正则参数;b是偏移量;a表示拉格朗日乘数;y表示实际标签值。
采用高斯径向基核函数(6)替代(9)中的核函数K,对其求解之后可以得到最小二乘支持向量机分类表达式。显然K和C严重影响到最终的分类结果。
同时在本实施例中,步骤7)中通过灰狼提升算法GWB对LSSVM的参数进行优化,构建基于灰狼提升算法优化的最小二乘支持向量机模型,即简称为GWB-LSSVM模型,灰狼提升算法通过以下步骤进行设置:
设置各项初始参数,即设置GWB-LSSVM模型正则化参数C的范围和核函数参数δ的搜索范围为0.1-300,GWB算法的种群规模为12,最大迭代次数为100;种群可以表示成式(10)。
式中:Xij表示第i个样本的第j个特征。
初始化种群,通过选取对网络流量检测的准确率为优化算法的自适应度,计算种群个体自适应度值,并按照大小确定值最高的三个个体为狼王a,左护法b和右护法c;初始化种群的公式见(11);
式中:Xij u为第i个样本的第j个特征的上界;Xij l为第i个样本的第j个特征的下界。
利用式(12)确定种群前进的步长和方向,利用公式(13)和公式(14)更新父代种群位置;
A=rand(-a,a) (12)
式中:A为取值范围为-a到a的均匀随机数,a为常数,初始值为2,并随着迭代次数由2线性降至0;C为正则参数,一般用2r1进行计算,r1=rand(0,1);Xa(t)、Xb(t)、Xc(t)分别表示第t次迭代后狼群中狼王、左右护法的位置,Xdi(t)表示第t次迭代后猎物的位置。
利用差分机制进行变异、交叉产生新子代个体,变异、交叉具体计算见式(15),(16),式(16)通过每个个体与其变异个体进行交叉操作,生成试验个体;
vi(g)=Xa(g)+F×(Xb(g)-Xc(g)) (15)
式中:Xa(g)表示当前群体第a个个体;Xb(g),表示当前群体第b个个体;Xc(g)表示当前群体第c个个体;vi(g)为第i个个体对应的变异个体;F为缩放因子;
式中:CR表示交叉概率因子;Xt *为初始种群,计算方式见式(11);vi(g)为第i个个体对应的变异个体,计算方式见式(15);ut(g)表示试验个体。
利用差分机制的选择步骤更新父代种群;选择步骤的计算方式见式(17)。
式中:f(ut(g))表示试验个体的适应度值;f(Xt *)表示初始个体的适应度值。
计算新种群所有个体的自适应度值,更新狼王和左右护法的位置。
判断迭代次数是否满足终止条件,满足输出最小二乘支持向量机网络入侵检测模型的最优参数核函数宽度δ和正则参数C。
8)评估模型检测性能:将步骤7)中的模型训练得到的最优参数进行保存,训练完成后,设置最优参数,结合训练好的模型,将测试集D’s-Ts输入保存好的入侵检测模型框架,对模型检测性能进行评估验证;
在本实施例中的步骤8)中对模型评估与优化包括以下步骤:
(1)性能测试:设置最优参数核函数宽度δ和正则参数C,测试集D’s-Ts输入到LSSVM模型中进行预测。
(2)性能评估:统计预测结果和真实结果构成的混淆矩阵,利用式18、公式19和公式20计算准确率、精度和检测率指标;
式中:ACC为准确度,precision为精度,recall为检测率;TP表示真阳率,FN表示假阴率,FP表示假阳率,TN表示真阴率。
9)检测结果可视化呈现:实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的入侵检测模型框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。
Claims (4)
1.一种基于互信息与灰狼提升算法的网络入侵检测方法,其特征在于按以下步骤进行处理:
1)构建原始流量数据集Dys:通过数据采集器采集目标网络的流量数据,并根据流量数据构建网络原始流量数据集Dys;
2)构建可分析数据集Dparse:根据TCP/IP协议簇的标准对原始流量数据集Dys进行解码,从原始流量数据集Dys中提取并构成可分析数据集Dparse;
3)构建网络流量特征数据集Df:通过流量统计计算获取可分析数据集Dparse中的特征集,构建用于网络入侵检测模型使用的网络流量特征数据集Df;
4)构建标注数据集Dfl:参照现有的黑名单和白名单特征库对Df中的正常流量和攻击流量进行类别标注,构成可供网络入侵检测模型训练使用的标注数据集Dfl;
5)对标注数据集Dfl中数据进行预处理:首先对标注数据集Dfl中的缺失值进行删除,对标注数据集Dfl中的重复值进行剔除,以保证数据唯一性,保证模型识别准确性;通过使用二值转换完成字符型数据到数值型数据的转换,使用归一化进行数据处理,将标注数据集Dfl进一步形成标准化数据集Ds;
6)提取最优特征子集:计算标准化数据集Ds中的每一列特征Xi与标注标签集合Y之间的互信息值,将得到的特征Xi按照互信息值大小进行降序排序,剔除标准化数据集Ds中互信息值<0.2的特征维,保留标准化数据集Ds中互信息值≥0.2的特征维构建最优特征子集Ds’,然后从Ds’随机提取80%的样本作为用于训练入侵检测模型的训练集Ds’-Tr,将剩余20%的样本作为测试入侵检测模型的测试集Ds’-Ts;
7)构建入侵检测模型:构造最小二乘支持向量机网络入侵检测模型,通过将训练集Ds’-Tr输入至最小二乘支持向量机网络入侵检测模型中进行训练,并通过灰狼提升算法优化最小二乘支持向量机网络入侵检测模型的参数,提升模型检测率;
在步骤7)中检测模型构建的步骤包括:构建学习模型,采用高斯径向基核函数替换原始最小二乘支持向量机中的核函数,高斯径向基核函数的计算如式(6)所示:
式中:δ为核宽度参数;Xl为第l个样本,Xi为标准化数据集Ds第i列特征归一化后的数值;即:高斯径向基核函数主要计算所有样本与每一个输入点的距离;
最小二乘支持向量机模型为式(7):
式中:w为权重向量;b是偏移量;C为正则参数;ei表示输出的实际值和预测值之间的回归误差;yi表示实际标签值;
利用拉格朗日乘子法将式(7)可以转换成无约束的拉格朗日目标函数L(w,b,e;a),表示为式(8);
式中:J(w,e)见式(7);N表示样本数量,即参与模型训练的样本数;ai表示拉格朗日乘数;
令L(w,b,e;a)分别对w,b,ei,ai求导等于0,对(8)进行求解得到公式(9),K为核矩阵;
式中:E表示单位向量;K为原始核矩阵,C为正则参数;b是偏移量;a表示拉格朗日乘数;y表示实际标签值;
采用高斯径向基核函数(6)替代(9)中的核函数K,对其求解之后可以得到最小二乘支持向量机分类表达式;
在步骤7)中通过灰狼提升算法GWB对LSSVM的参数进行优化,构建基于灰狼提升算法优化的最小二乘支持向量机模型,即GWB-LSSVM模型,灰狼提升算法通过以下步骤进行设置:
(1)设置各项初始参数,设置GWB-LSSVM模型,即灰狼提升算法正则化参数C的范围和核函数参数δ的搜索范围为0.1-300,GWB算法的种群规模为12,最大迭代次数为100;种群可以表示成式(10):
式中:Xij表示第i个样本的第j个特征;
(2)初始化种群,通过选取对网络流量检测的准确率为优化算法的自适应度,计算种群个体自适应度值,并按照大小确定值最高的三个个体为狼王a,左护法b和右护法c;初始化种群的公式见(11);
Xi *={Xij *}=Xij l+rand(0,1)×(Xij u-Xij l) (11)
式中:Xij u为第i个样本的第j个特征的上界;Xij l为第i个样本的第j个特征的下界;
(3)利用式(12)确定种群前进的步长和方向,利用公式(13)和公式(14)更新父代种群位置;
A=rand(-a,a) (12)
式中:A为取值范围为-a到a的均匀随机数,a为常数,初始值为2,并随着迭代次数由2线性降至0;C为正则参数,一般用2r1进行计算,r1=rand(0,1);Xa(t)、Xb(t)、Xc(t)分别表示第t次迭代后狼群中狼王、左右护法的位置,Xdi(t)表示第t次迭代后猎物的位置;
(4)利用差分机制进行变异、交叉产生新子代个体,变异、交叉具体计算见式(15),(16),式(16)通过每个个体与其变异个体进行交叉操作,生成试验个体;
vi(g)=Xa(g)+F×(Xb(g)-Xc(g)) (15)
式中:Xa(g)表示当前群体第a个个体;Xb(g),表示当前群体第b个个体;Xc(g)表示当前群体第c个个体;vi(g)为第i个个体对应的变异个体;F为缩放因子;
式中:CR表示交叉概率因子;Xt *为初始种群,计算方式见式(11);vi(g)为第i个个体对应的变异个体,计算方式见式(15);ut(g)表示试验个体;
(5)利用差分机制的选择步骤更新父代种群;选择步骤的计算方式见式(17);
式中:f(ut(g))表示试验个体的适应度值;f(Xt *)表示初始个体的适应度值;
(6)计算新种群所有个体的自适应度值,更新狼王和左右护法的位置;
(7)判断迭代次数是否满足终止条件,满足输出最小二乘支持向量机网络入侵检测模型的最优参数核函数宽度δ和正则参数C;
8)评估模型检测性能:将步骤7)中的模型训练得到的最优参数进行保存,训练完成后,设置最优参数,结合训练好的模型,将测试集Ds’-Ts输入保存好的入侵检测模型框架,对模型检测性能进行评估验证;
9)检测结果可视化呈现:实时的网络流量采集、预处理和特征提取后,将提取的特征输入至训练好的入侵检测模型框架,输出结果作为对实时网络攻击检测识别与分类的结果,以文本和图形事件图库形式展示给用户,展示结果支持分类事件收藏和查询。
2.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法,其特征在于:步骤5)中数据预处理的步骤包括:二值转换,即利用字典的键值对实现字符型特征到数值型特征的转换;和归一化,即采用min-max方式实现归一化处理,保证所有数据范围为[0,1],并在规范化过程中进行空值与无穷大值的样本剔除处理,以达到解决数据样本的量纲不统一的问题,min-max归一化方法如公式(1)所示:
式中:Xi为标准化数据集Ds第i列特征归一化后的数值;xi为采集的标注数据集Dfl第i列特征原始数值;xi_max为标注数据集Dfl第i列特征所有样本中的最大值,xi_min为标注数据集Dfl第i列特征所有样本中的最小值。
3.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法,其特征在于:步骤6)中提取最优特征子集时,按照以下步骤计算每列特征与标志的互信息值:
(1)利用式(2)、(3)分别计算特征Xi、标注标签集合Y的互信息熵;
式(2)中:Xi为标准化数据集Ds第i列特征归一化后的数值;X为第i列特征所有的样本构成的集合;p(Xi)表示第i列特征Xi的边缘分布;
式(3)中:Y为所有标注标签值构成的集合;y表示标注标签;p(y)表示标注标签y的边缘分布;
(2)利用式(4)计算各列特征Xi与标注标签集合Y之间的交叉熵;
式(4)中:p(Xi,y)表示特征Xi和标注标签y之间的联合分布;
(3)在特征、标注标签集合的互信息熵和各列特征与标签之间的交叉熵的基础上利用式(5)计算特征Xi与标注标签集合Y的互信息值;
式中:H(Xi|Y)表示特征Xi与标注标签集合Y之间的条件熵。
4.根据权利要求1所述的基于互信息与灰狼提升算法的网络入侵检测方法,其特征在于:步骤8)中对模型评估与优化包括以下步骤:
(1)性能测试:设置最优参数核函数宽度δ和正则参数C,测试集D’s-Ts输入到LSSVM模型中进行预测;
(2)性能评估:统计预测结果和真实结果构成的混淆矩阵,利用式18、公式19和公式20计算准确率、精度和检测率指标;
式中:ACC为准确度,precision为精度,recall为检测率;TP表示真阳率,FN表示假阴率,FP表示假阳率,TN表示真阴率,DR为检测率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799416.9A CN115296851B (zh) | 2022-07-06 | 2022-07-06 | 一种基于互信息与灰狼提升算法的网络入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799416.9A CN115296851B (zh) | 2022-07-06 | 2022-07-06 | 一种基于互信息与灰狼提升算法的网络入侵检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115296851A CN115296851A (zh) | 2022-11-04 |
CN115296851B true CN115296851B (zh) | 2024-07-26 |
Family
ID=83821368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210799416.9A Active CN115296851B (zh) | 2022-07-06 | 2022-07-06 | 一种基于互信息与灰狼提升算法的网络入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115296851B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116633803B (zh) * | 2023-07-24 | 2023-10-20 | 四川众力佳华信息技术有限公司 | 一种新型的网络流量组合预测模型 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104869126A (zh) * | 2015-06-19 | 2015-08-26 | 中国人民解放军61599部队计算所 | 一种网络入侵异常检测方法 |
CN108632279A (zh) * | 2018-05-08 | 2018-10-09 | 北京理工大学 | 一种基于网络流量的多层异常检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733530B2 (en) * | 2016-12-08 | 2020-08-04 | Resurgo, Llc | Machine learning model evaluation in cyber defense |
CN113159264B (zh) * | 2020-11-12 | 2022-06-21 | 江西理工大学 | 一种入侵检测方法、系统、设备及可读存储介质 |
CN114448657B (zh) * | 2021-12-09 | 2023-12-01 | 广东电力通信科技有限公司 | 一种配电通信网络安全态势感知与异常入侵检测方法 |
-
2022
- 2022-07-06 CN CN202210799416.9A patent/CN115296851B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104869126A (zh) * | 2015-06-19 | 2015-08-26 | 中国人民解放军61599部队计算所 | 一种网络入侵异常检测方法 |
CN108632279A (zh) * | 2018-05-08 | 2018-10-09 | 北京理工大学 | 一种基于网络流量的多层异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115296851A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN111832647A (zh) | 异常流量检测系统及方法 | |
CN109886020A (zh) | 基于深度神经网络的软件漏洞自动分类方法 | |
CN110213222A (zh) | 基于机器学习的网络入侵检测方法 | |
CN111695597A (zh) | 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统 | |
CN112115965A (zh) | 一种基于svm的被动操作系统识别方法、存储介质及设备 | |
CN115277159B (zh) | 一种基于改进随机森林的工业互联网安全态势评估方法 | |
CN115296851B (zh) | 一种基于互信息与灰狼提升算法的网络入侵检测方法 | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN108737429B (zh) | 一种网络入侵检测方法 | |
CN117236699A (zh) | 一种基于大数据分析的网络风险识别方法及系统 | |
CN115277151B (zh) | 一种基于鲸鱼提升算法的网络入侵检测方法 | |
CN111581640A (zh) | 一种恶意软件检测方法、装置及设备、存储介质 | |
CN113657443B (zh) | 一种基于soinn网络的在线物联网设备识别方法 | |
Minarno et al. | Leaf based plant species classification using deep convolutional neural network | |
CN114095268A (zh) | 用于网络入侵检测的方法、终端及存储介质 | |
CN113010673A (zh) | 一种基于熵优化支持向量机的漏洞自动分类方法 | |
CN113128556A (zh) | 基于变异分析的深度学习测试用例排序方法 | |
CN113904801B (zh) | 一种网络入侵检测方法及系统 | |
CN117792737B (zh) | 一种网络入侵检测方法、装置、电子设备及存储介质 | |
CN112633399B (zh) | 一种稀疏协同联合表示模式识别方法 | |
CN112256838B (zh) | 相似域名查找方法、装置及电子设备 | |
CN116562251B (zh) | 一种面向证券信息披露长文档的表格分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |