CN113839926B - 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 - Google Patents
一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 Download PDFInfo
- Publication number
- CN113839926B CN113839926B CN202111017356.2A CN202111017356A CN113839926B CN 113839926 B CN113839926 B CN 113839926B CN 202111017356 A CN202111017356 A CN 202111017356A CN 113839926 B CN113839926 B CN 113839926B
- Authority
- CN
- China
- Prior art keywords
- wolf
- algorithm
- kdd
- nsl
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000282461 Canis lupus Species 0.000 title claims abstract description 116
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 110
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004891 communication Methods 0.000 claims abstract description 41
- 238000003066 decision tree Methods 0.000 claims abstract description 24
- 238000005094 computer simulation Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 30
- 241000282421 Canidae Species 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013178 mathematical model Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 5
- 238000005315 distribution function Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000013139 quantization Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 239000002245 particle Substances 0.000 description 9
- 238000012549 training Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种基于灰狼算法特征选择的入侵检测系统建模方法,属于特征选择的入侵检测系统建模领域。解决了目前网络入侵检测模型特征选择困难的问题。本发明对NSL‑KDD通信流量数据集进行预处理,重点是需要对流量数据进行哑变量以及归一化等方法进行处理,以适应决策树、神经网络等算法的本质要求;建立灰狼搜索群体,利用决策树算法按搜索个体对流量数据集进行建模;定义损失函数,据此对搜索个体进行排序;按照灰狼算法策略进行搜索群体的进化,之后重复步骤除定义损失函数上述所有步骤,当模型损失达到要求或迭代次数达到极限时,停止嵌入式特征选择,并得到最优的特征组合,建立最优入侵检测模型。本发明主要促进了入侵检测建模技术的发展与应用。
Description
技术领域
本发明涉及工业控制系统信息安全领域,尤其涉及特征选择的入侵检测系统建模领域。
背景技术
工业互联网的普及使得原先封闭的工控网络逐渐开放对外通信的接口,将导致过去并不重视网络安全的工控网络面临严重的入侵风险。一般的入侵检测技术会基于预先收集的攻击签名库对已知网络攻击类型进行识别,但难以抵御未知或变种网络攻击。近年来,依托于模式识别等技术的入侵检测建模技术逐渐推广。它基于决策树、神经网络等理论对系统正常通信状态进行建模描述,用以区分系统信息流中的异常行为。然而,针对不同系统进行入侵检测建模需要确定通信流量状态的特征选取。这依赖于从业人员的经验,对于模型性能上限起到决定作用,相关特征选择算法的缺失制约了入侵检测建模技术的发展和应用。
发明内容
本发明的目的是解决目前网络入侵检测模型特征选择困难,对从业人员经验要求较高的现状,提出一种基于灰狼算法的网络流量特征选择方法,从而根据目标网络通信系统与建模方式,得到最优的流量特征。
一种基于灰狼算法特征选择的入侵检测系统建模方法,包括如下步骤:
(1) 对NSL-KDD通信流量数据集中的流量数据进行哑变量处理以及数据归一化方法预处理,生成NSL-KDD标准流量数据集,适应决策树算法、神经网络算法的本质要求;
所述的NSL-KDD通信流量数据集包括正常流量样本与异常流量样本;
(2) 利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模,建立灰狼搜索群体;
(3) 定义损失函数,根据损失函数对搜索个体进行排序;
(4) 利用连续域灰狼算法策略进行灰狼搜索群体的进化,重复步骤(1),步骤(2)以及步骤(4),直到灰狼搜索群体损失达到要求或迭代次数达到极限;
(5)当灰狼搜索群体损失达到要求或迭代次数达到极限时,停止嵌入式特征选择,并得到最优的特征组合,通过决策树分类器建立基于最优特征组合的入侵检测模型。
所述对NSL-KDD通信流量数据集中的流量数据进行哑变量以及归一化等方法预处理,用于适应决策树算法、神经网络算法等算法的本质要求,NSL-KDD通信流量数据集中的流量数据预处理方法为:
NSL-KDD通信流量数据集中的流量数据由38个数值型特征和3个字符串型特征组成;
3个字符串类型的特征为“protocol_type”、“service”、“flag”,其中,“protocol_type”具有3种不同状态,“service”有70种不同状态,“flag”有1种不同状态;
利用独热编码对3个字符串类型的特征进行哑变量处理,例如:对于表示协议类型的“protocol_type”,它包括“TCP”、“UDP”及“ICMP”三种状态,则可将一维“protocol_type”特征标签扩展至三维,以“001” 描述“TCP”状态,以“010” 描述“UDP”状态,以“100” 描述“ICMP”状态;
按独热编码进行哑变量化,数据集维数将由41维扩充至122维;
采用Z-Score标准化的方式对数据集进行归一化处理:
其中,为特征下的一个样本值,/>为该特征的样本均值,/>为该特征的样本标准差。
所述的利用决策树算法按搜索个体对已完成预处理的NSL-KDD流量数据集进行建模,建立灰狼搜索群体,决策树算法过程为:
搜索个体对应特征组合的二进制编码;
算法最大迭代次数为100次,搜索个体数为10个;
以基尼系数作为选择标准构建CART分类树:CART树由根节点、子节点、叶节点组成,通过当前未用于分类属性的基尼系数不断对数据集进行划分,直至当前子节点只包含单一类别的样本或满足某递归约束条件为止,此时CART树的生长过程结束;
当前待划分数据集中的样本类别为/>,概率分布的基尼系数计算式为:
,
其中为当前待划分数据集中类别/>所占比例;
当CART树以特征属性将/>划分为/>、/>时,对应的基尼系数计算式为:
,
基尼系数越小,模型的不纯度越低,所用于划分的特征越合适,据此进行CART树的生长。
所述损失函数为:
其中,fitness指置信度;AC指当前模型在测试集上表现的准确率;feature_ selected指当前搜索个体选择的特征数;feature_num指备选特征总数。
将特征选择过程定义为损失函数的最小值求解过程。对于决策树分类器,数据集的特征维数越少,模型的计算开销、训练时间也就越小;若训练得到的模型兼具准确率高,被选特征数少的优点,则对应的适应度就越小。
所述利用连续域灰狼算法策略进行灰狼搜索群体的进化过程为:
(1)确定猎物位置:猎物位置为,灰狼搜索个体位置为/>;
迭代次数为时,引入系数因子/>,由哈达玛积计算狼群包围猎物的基准距离/>,并据此结合系数因子/>,将/>附近一点作为/>,表达式为:
,
;
系数因子、/>由随机数向量/>、/>以及逼近向量/>决定,其中/>、/> ,为算法的最大迭代次数,随着迭代次数接近/>,向量/>将使得搜索个体在解空间中逼近/>,数学模型为:
,
,
;
(2)追捕猎物:灰狼群体狩猎时由α、β、δ狼确定猎物位置,并指挥狼群个体进行移动;
依次在每一代选出最优个体作为α、β、δ狼, α狼对应解为、β狼对应解为、δ狼对应解为/>,据此共同决策当前在/>处个体的下一次迭代:
由于搜索个体的寻优涉及离散域寻优,对连续域灰狼寻优算法进行改进;
算法解,算法借助sigmoid函数构造了概率分布函数和变异机制来完成搜索个体的迭代,sigmoid函数为:
当迭代次数为时,对于搜索个体二进制编码中第/>个元素,由sigmoid函数计算得到对应位置变异概率/>,/>,其中α、β、δ对应当前群体中排序前三的最优解;
综合每一代α、β、δ的位置信息,决策搜索个体的迭代过程;
其数学模型如下式所示:
本发明提供了一种基于灰狼算法特征选择的入侵检测系统建模的设计系统,包括:
用于处理NSL-KDD通信流量数据集中数据流量的数据处理单元;
用于搜索已完成预处理的NSL-KDD流量数据集个体的搜索单元;
用于建立已完成搜索的NSL-KDD流量数据集和灰狼群体的建模单元;
用于排序通过损失函数的搜索个体的排序单元;
用于进化灰狼搜索群体的进化单元;
用于选择最优特征组合的选择单元;
用于建立基于最优特征组合的入侵检测模型建模单元。
本发明提供一种基于灰狼算法特征选择的入侵检测系统建模的装置,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上文所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的指令。
本发明提供了一种计算机设备,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如上文所述的一种基于灰狼算法特征选择的入侵检测系统建模方法。
本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行如上文所述的一种基于灰狼算法特征选择的入侵检测系统建模方法。
本发明的有益之处:
解决目前网络入侵检测模型特征选择困难,对从业人员经验要求较高的现状,提出一种基于灰狼算法的网络流量特征选择方法,从而根据目标网络通信系统与建模方式,得到最优的流量特征。
本发明基于灰狼算法对NSL-KDD通信流量特征进行嵌入式特征选择,结合入侵检测建模原理,基于损失函数进行准确性和实时性的双目标寻优,相比于传统的粒子算法对NSL-KDD通信流量特征进行嵌入式特征选择,灰狼算法应用于NSL-KDD通信流量数据集的误报率FAR比粒子算法应用于NSL-KDD标准流量数据集的误报率FAR降低约50%,灰狼算法在特征选择上准确性更高;灰狼算法应用于NSL-KDD通信流量数据集的建模用时相比于粒子算法应用于NSL-KDD通信流量数据集的建模用时减少了约1/2,灰狼算法在NSL-KDD通信流量数据集的建模上更节约时间,节省时间成本,得到令检测模型性能最大化的特征组合,为工控网络系统的入侵检测建模确定通信流量特征选取依据;帮助进行入侵检测建模,有助于入侵检测建模技术的发展与应用。
附图说明
图1为基于灰狼算法特征选择的入侵检测系统建模方法流程图;
图2为灰狼算法伪代码。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
实施方式一、参照图1说明本实施方式。本实施方式所述的一种基于灰狼算法特征选择的入侵检测系统建模方法,包括:
(1) 对NSL-KDD通信流量数据集中的流量数据进行哑变量处理以及数据归一化方法预处理,生成NSL-KDD标准流量数据集,适应决策树算法、神经网络算法的本质要求;
所述的NSL-KDD通信流量数据集包括正常流量样本与异常流量样本;
(2) 利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模,建立灰狼搜索群体;
(3) 定义损失函数,根据损失函数对搜索个体进行排序;
(4) 利用连续域灰狼算法策略进行灰狼搜索群体的进化,重复步骤(1),步骤(2)以及步骤(4),直到灰狼搜索群体损失达到要求或迭代次数达到极限;
(5)当灰狼搜索群体损失达到要求或迭代次数达到极限时,停止嵌入式特征选择,并得到最优的特征组合,通过决策树分类器建立基于最优特征组合的入侵检测模型。
本实施方式所述的方法是基于灰狼算法对NSL-KDD通信流量特征进行嵌入式特征选择,结合入侵检测建模原理,基于损失函数进行准确性和实时性的双目标寻优,得到令检测模型性能最大化的特征组合,为工控网络系统的入侵检测建模确定通信流量特征选取依据;帮助进行入侵检测建模,有助于入侵检测建模技术的发展与应用。
实施方式二、参见图1说明本实施方式。本实施方式是对实施方式一所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的进一步限定,本实施方式中,所述对NSL-KDD通信流量数据集中的流量数据进行哑变量以及归一化等方法预处理方法为:
利用独热编码对3个字符串类型的特征进行哑变量处理,例如:对于表示协议类型的“protocol_type”,它包括“TCP”、“UDP”及“ICMP”三种状态,则可将一维“protocol_type”特征标签扩展至三维,以“001” 描述“TCP”状态,以“010” 描述“UDP”状态,以“100” 描述“ICMP”状态;
按独热编码进行哑变量化后,数据集维数将由41维扩充至122维;
采用Z-Score标准化的方式对数据集进行归一化处理:
其中,为某特征下的一个样本值,/>为该特征的样本均值,/>为该特征的样本标准差。
本实施方式所述的采用Z-Score标准化的方式对数据集进行归一化处理,用于适应决策树算法、神经网络算法等算法的本质要求。
实施方式三、参见图1说明本实施方式。本实施方式是对实施方式二所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的进一步限定,本实施方式中,所述NSL-KDD通信流量数据集中的的流量数据包括:
NSL-KDD通信流量数据集中的的流量数据由38个数值型特征和3个字符串类型的特征组成;
3个字符串类型的特征为“protocol_type”、“service”、“flag”,其中,“protocol_type”具有3种不同状态,“service”有70种不同状态,“flag”有1种不同状态。
NSL-KDD通信流量数据集由125973个训练数据及22543个测试数据构成,其不同类别的数据分布情况如表1所示。
表1NSL-KDD通信流量数据集数据分布情况
本实施方式所述NSL-KDD通信流量数据集的数据作为本实施方式采用的实施例进行实验。
实施方式四、参见图1说明本实施方式。本实施方式是对实施方式一所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的进一步限定,本实施方式中,所述利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模,所述决策树算法为:
搜索个体对应特征组合的二进制编码;
算法最大迭代次数为100次,搜索个体数为10个;
以基尼系数作为选择标准构建CART分类树:CART分类树由根节点、子节点、叶节点组成,通过当前未用于分类属性的基尼系数不断对数据集进行划分,直至当前子节点只包含单一类别的样本或满足某递归约束条件为止,此时CART分类树的生长过程结束;
当前待划分数据集中的样本类别为/>,概率分布的基尼系数计算式为:
其中为当前待划分数据集中类别/>所占比例;
当CART分类树以特征属性将/>划分为/>、/>时,对应的基尼系数计算式为:
基尼系数越小,模型的不纯度越低,所用于划分的特征越合适,据此进行CART分类树的生长。
本实施方式所述的利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模,使其建模效率高,同时,决策树算法能够同时多输出的问题,节省时间。
实施方式五、参见图1说明本实施方式。本实施方式是对实施方式一所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的进一步限定,本实施方式中,所述损失函数为:
其中,fitness指置信度;AC指当前模型在测试集上表现的准确率;feature_selected指当前搜索个体选择的特征数;feature_num指备选特征总数。对于本实验,。
将特征选择过程定义为损失函数的最小值求解过程。对于决策树分类器,数据集的特征维数越少,模型的计算开销、训练时间也就越小;若训练得到的模型兼具准确率高,被选特征数少的优点,则对应的适应度就越小。
本实施方式所述的损失函数为自定义的入侵检测模型的适应度,通过损失函数进行准确性和实时性的双目标寻优。
实施方式六、参见图2明本实施方式。本实施方式是对实施方式一所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的进一步限定,本实施方式中,所述利用连续域灰狼算法策略进行灰狼搜索群体的进化方式为:
(1)确定猎物位置:猎物位置为,灰狼搜索个体位置为/>;
迭代次数为时,引入系数因子/>,由哈达玛积计算狼群包围猎物的基准距离/>,并据此结合系数因子/>,将/>附近一点作为/>,表达式为:
系数因子、系数因子/>由随机数向量/>、随机数向量/>以及逼近向量/>决定,其中/>、/> ,/>为算法的最大迭代次数,随着迭代次数接近/>,向量/>使搜索个体在解空间中逼近/>,数学模型为:
(2)追捕猎物:灰狼群体狩猎时由α狼、β狼、δ狼确定猎物位置,并指挥狼群个体进行移动;
依次在每一代选出最优个体作为α狼、β狼、δ狼,α狼对应解为、β狼对应解为、δ狼对应解为/>,据此共同决策当前在/>处个体的下一次迭代:
,
,
;
由于搜索个体的寻优涉及离散域寻优,对连续域灰狼寻优算法进行改进;
算法解,算法借助sigmoid函数构造了概率分布函数和变异机制来完成搜索个体的迭代,sigmoid函数为:
;
迭代次数为时,对于搜索个体二进制编码中第/>个元素,由sigmoid函数计算得到对应位置变异概率/>,/>,其中α、β、δ对应当前群体中排序前三的最优解;
综合每一代α、β、δ的位置信息,决策搜索个体的迭代过程,其数学模型为:
;
;
;
。
表2为灰狼算法和粒子群算法在NSL-KDD数据集上的性能比较结果,采用准确率Accuracy(简称AC)、误报率0 Alarm Rate(简称FAR)、降维程度、入侵检测系统建模用时以及特征选择实现的降维程度作为各算法的评价指标,以体现其检测性能、训练时间成本及特征选择降维效果,其相关计算式如下:
表2 算法在NSL-KDD通信流量数据集上的性能比较
如表2所示, 灰狼算法应用于NSL-KDD通信流量数据集的准确率AC均高于粒子算法应用于NSL-KDD通信流量数据集的准确率AC;灰狼算法应用于NSL-KDD通信流量数据集的误报率FAR相比于粒子算法应用于NSL-KDD通信流量数据集的误报率FAR降低约50%;灰狼算法应用于NSL-KDD通信流量数据集的建模用时相比于粒子算法应用于NSL-KDD通信流量数据集的建模用时减少了约1/2;灰狼算法应用于NSL-KDD通信流量数据集的降维程度高于粒子算法应用于NSL-KDD通信流量数据集的降维程度约40%;灰狼算法应用于NSL-KDD通信流量数据集的适应度均低于粒子算法应用于NSL-KDD通信流量数据集的适应度。
综上所述,基于灰狼算法特征选择的入侵检测系统建模方法监控效果更好,有助于入侵检测建模技术的发展与应用。
本实施方式所述的灰狼算法全局搜索能力强,且借助sigmoid函数构造了概率分布函数和变异机制来完成搜索个体的迭代,建立出最优入侵检测模型。
实施方式七、本实施方式所述的一种基于灰狼算法特征选择的入侵检测系统建模的设计系统,包括:
用于处理NSL-KDD通信流量数据集中数据流量的数据处理单元;
用于搜索已完成预处理的NSL-KDD流量数据集个体的搜索单元;
用于建立已完成搜索的NSL-KDD流量数据集和灰狼群体的建模单元;
用于排序通过损失函数的搜索个体的排序单元;
用于进化灰狼搜索群体的进化单元;
用于选择最优特征组合的选择单元;
用于建立基于最优特征组合的入侵检测模型单元。
实施方式八、本实施方式所述的一种基于灰狼算法特征选择的入侵检测系统建模的装置,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上文所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的指令。
实施方式九、本实施方式所述的一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行如上文所述的一种基于灰狼算法特征选择的入侵检测系统建模方法。
实施方式十、本实施方式所述的一种计算机可读存储介质,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行如上文所述的一种基于灰狼算法特征选择的入侵检测系统建模方法。
Claims (7)
1.一种基于灰狼算法特征选择的入侵检测系统建模方法,其特征在于,包括:
(1)对NSL-KDD通信流量数据集中的流量数据进行哑变量处理以及数据归一化方法预处理,生成NSL-KDD标准流量数据集,适应决策树算法、神经网络算法的本质要求;
所述的NSL-KDD通信流量数据集包括正常流量样本与异常流量样本;
(2)利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模,建立灰狼搜索群体;
(3)定义损失函数,根据损失函数对搜索个体进行排序;
(4)利用连续域灰狼算法策略进行灰狼搜索群体的进化,重复步骤(1),步骤(2)以及步骤(4),直到灰狼搜索群体损失达到要求或迭代次数达到极限;
(5)当灰狼搜索群体损失达到要求或迭代次数达到极限时,停止嵌入式特征选择,并得到最优的特征组合,通过决策树分类器建立基于最优特征组合的入侵检测模型;
所述利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模过程为:
搜索个体对应特征组合的二进制编码;
算法最大迭代次数为100次,搜索个体数为10个;
以基尼系数作为选择标准构建CART分类树:CART分类树由根节点、子节点、叶节点组成,通过当前未用于分类属性的基尼系数不断对NSL-KDD标准流量数据集进行划分,直至当前子节点只包含单一类别的样本或满足递归约束条件,其递归约束条件为划分到要求的精度下为止,此时CART分类树的生长过程结束;
当前待划分NSL-KDD标准流量数据集S中的样本类别为Ci(i=1,…,n),概率分布的基尼系数计算式为:
其中pi为当前待划分NSL-KDD标准流量数据集中类别Ci所占比例;当CART分类树以特征属性M将S划分为S1、S2时,对应的基尼系数计算式为:
所述损失函数为:
其中,fitness指置信度;AC指当前模型在测试集上表现的准确率;feature_selected指当前搜索个体选择的特征数;feature_num指备选特征总数;
所述利用连续域灰狼算法策略进行灰狼搜索群体的进化方式为:
(1)确定猎物位置:猎物位置为灰狼搜索个体位置为/>迭代次数为t时,引入系数因子/>由哈达玛积计算狼群包围猎物的基准距离/>并据此结合系数因子/>将/>附近一点作为/>表达式为:
系数因子系数因子/>由随机数向量/>随机数向量/>以及逼近向量/>决定,其中MAX_IT为算法的最大迭代次数,随着迭代次数接近MAX_IT,向量/>使搜索个体在解空间中逼近/>数学模型为:
(2)追捕猎物:灰狼群体狩猎时由α狼、β狼、δ狼确定猎物位置并指挥狼群个体进行移动;
依次在每一代选出最优个体作为α狼、β狼、δ狼,α狼对应解为β狼对应解为δ狼对应解为/>据此共同决策当前在/>处个体的下一次迭代:
由于搜索个体的寻优涉及离散域寻优,对连续域灰狼寻优算法进行改进;
算法解X={x|x∈{0,1}},算法利用sigmoid函数构造了概率分布函数和变异机制完成搜索个体的迭代,sigmoid函数为:
sigmoid(a)=1/(1+e-10(a-0.5));
迭代次数为t时,对于搜索个体二进制编码中第i个元素,由sigmoid函数计算得到对应位置变异概率其中α、β、δ对应当前群体中排序前三的最优解;
综合每一代α、β、δ的位置信息,决策搜索个体的迭代过程,其数学模型如下式所示:
2.根据权利要求1所述的一种基于灰狼算法特征选择的入侵检测系统建模方法,其特征在于,所述对NSL-KDD通信流量数据集中的流量数据进行哑变量处理以及数据归一化方法预处理方法为:
利用独热编码对字符串类型的特征进行哑变量处理,按独热编码进行哑变量化,数据集维数由41维扩充至122维;
采用Z-Score标准化的方式对数据集进行归一化处理:
其中,x为特征下的一个样本值,μ为该特征的样本均值,σ为该特征的样本标准差。
3.根据权利要求2所述的一种基于灰狼算法特征选择的入侵检测系统建模方法,其特征在于,所述NSL-KDD通信流量数据集中的的流量数据包括:
NSL-KDD通信流量数据集中的的流量数据由38个数值型特征和3个字符串类型的特征组成;
3个字符串类型的特征为“protocol_type”、“service”、“flag”,其中,“protocol_type”具有3种状态,“service”有70种状态,“flag”有1种状态。
4.一种基于灰狼算法特征选择的入侵检测系统建模的设计系统,其特征在于,包括:
用于处理NSL-KDD通信流量数据集中数据流量的数据处理单元;
用于搜索已完成预处理的NSL-KDD流量数据集个体的搜索单元;
用于建立已完成搜索的NSL-KDD流量数据集和灰狼群体的建模单元;用于排序通过损失函数的搜索个体的排序单元;
用于进化灰狼搜索群体的进化单元;
用于选择最优特征组合的选择单元;
用于建立基于最优特征组合的入侵检测模型单元;
所述用于建立已完成搜索的NSL-KDD流量数据集和灰狼群体的建模单元包括:
利用决策树算法按搜索个体对NSL-KDD标准流量数据集进行建模过程为:
搜索个体对应特征组合的二进制编码;
算法最大迭代次数为100次,搜索个体数为10个;
以基尼系数作为选择标准构建CART分类树:CART分类树由根节点、子节点、叶节点组成,通过当前未用于分类属性的基尼系数不断对NSL-KDD标准流量数据集进行划分,直至当前子节点只包含单一类别的样本或满足递归约束条件,其递归约束条件为划分到要求的精度下为止,此时CART分类树的生长过程结束;
当前待划分NSL-KDD标准流量数据集S中的样本类别为Ci(i=1,…,n),概率分布的基尼系数计算式为:
其中pi为当前待划分NSL-KDD标准流量数据集中类别Ci所占比例;当CART分类树以特征属性M将S划分为S1、S2时,对应的基尼系数计算式为:
所述损失函数为:
其中,fitness指置信度;AC指当前模型在测试集上表现的准确率;feature_selected指当前搜索个体选择的特征数;feature_num指备选特征总数;
所述用于进化灰狼搜索群体的进化单元包括:
利用连续域灰狼算法策略进行灰狼搜索群体的进化方式为:
(1)确定猎物位置:猎物位置为灰狼搜索个体位置为/>迭代次数为t时,引入系数因子/>由哈达玛积计算狼群包围猎物的基准距离/>并据此结合系数因子/>将/>附近一点作为/>表达式为:
系数因子系数因子/>由随机数向量/>随机数向量/>以及逼近向量/>决定,其中MAX_IT为算法的最大迭代次数,随着迭代次数接近MAX_IT,向量/>使搜索个体在解空间中逼近/>数学模型为:
(2)追捕猎物:灰狼群体狩猎时由α狼、β狼、δ狼确定猎物位置并指挥狼群个体进行移动;
依次在每一代选出最优个体作为α狼、β狼、δ狼,α狼对应解为β狼对应解为δ狼对应解为/>据此共同决策当前在/>处个体的下一次迭代:
由于搜索个体的寻优涉及离散域寻优,对连续域灰狼寻优算法进行改进;
算法解X={x|x∈{0,1}},算法利用sigmoid函数构造了概率分布函数和变异机制完成搜索个体的迭代,sigmoid函数为:
sigmoid(a)=1/(1+e-10(a-0.5));
迭代次数为t时,对于搜索个体二进制编码中第i个元素,由sigmoid函数计算得到对应位置变异概率其中α、β、δ对应当前群体中排序前三的最优解;
综合每一代α、β、δ的位置信息,决策搜索个体的迭代过程,其数学模型如下式所示:
5.一种基于灰狼算法特征选择的入侵检测系统建模的装置,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-3任一项所述的一种基于灰狼算法特征选择的入侵检测系统建模方法的指令。
6.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1-3任一项中所述的一种基于灰狼算法特征选择的入侵检测系统建模方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于储存计算机程序,所述计算机程序执行权利要求1-3任一项所述的一种基于灰狼算法特征选择的入侵检测系统建模方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017356.2A CN113839926B (zh) | 2021-08-31 | 2021-08-31 | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111017356.2A CN113839926B (zh) | 2021-08-31 | 2021-08-31 | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113839926A CN113839926A (zh) | 2021-12-24 |
CN113839926B true CN113839926B (zh) | 2023-09-22 |
Family
ID=78961722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111017356.2A Active CN113839926B (zh) | 2021-08-31 | 2021-08-31 | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113839926B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115296837B (zh) * | 2022-06-24 | 2023-09-15 | 沈阳化工大学 | 一种基于ssa优化的可持续集成入侵检测方法 |
CN115296898B (zh) * | 2022-08-03 | 2023-11-07 | 南京大学 | 用于构建网络入侵检测系统的多目标演化特征选择方法 |
CN117354013B (zh) * | 2023-10-11 | 2024-04-23 | 中国电子科技集团公司第三十研究所 | 一种基于狼群狩猎算法的钓鱼攻击检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778836A (zh) * | 2016-11-29 | 2017-05-31 | 天津大学 | 一种基于约束条件的随机森林推荐算法 |
CN107832830A (zh) * | 2017-11-17 | 2018-03-23 | 湖北工业大学 | 基于改进型灰狼优化算法的入侵检测系统特征选择方法 |
CN110020711A (zh) * | 2019-03-25 | 2019-07-16 | 湖北工业大学 | 一种采用灰狼优化算法的大数据分析方法 |
CN111740950A (zh) * | 2020-05-13 | 2020-10-02 | 南京邮电大学 | 一种SDN环境DDoS攻击检测防御方法 |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
CN112200293A (zh) * | 2020-11-02 | 2021-01-08 | 吉林大学 | 基于cart-amv改进的随机森林算法 |
CN112700326A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于灰狼算法优化bp神经网络的信贷违约预测方法 |
-
2021
- 2021-08-31 CN CN202111017356.2A patent/CN113839926B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778836A (zh) * | 2016-11-29 | 2017-05-31 | 天津大学 | 一种基于约束条件的随机森林推荐算法 |
CN107832830A (zh) * | 2017-11-17 | 2018-03-23 | 湖北工业大学 | 基于改进型灰狼优化算法的入侵检测系统特征选择方法 |
CN110020711A (zh) * | 2019-03-25 | 2019-07-16 | 湖北工业大学 | 一种采用灰狼优化算法的大数据分析方法 |
CN111740950A (zh) * | 2020-05-13 | 2020-10-02 | 南京邮电大学 | 一种SDN环境DDoS攻击检测防御方法 |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
CN112200293A (zh) * | 2020-11-02 | 2021-01-08 | 吉林大学 | 基于cart-amv改进的随机森林算法 |
CN112700326A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于灰狼算法优化bp神经网络的信贷违约预测方法 |
Non-Patent Citations (1)
Title |
---|
夏景明 ; 丁春健 ; 谈玲 ; .基于灰狼算法的深度信念网络入侵检测方法.计算机工程与设计.2020,第41卷(第06期),第1534-1539页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113839926A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113839926B (zh) | 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置 | |
CN113515770B (zh) | 基于隐私保护确定目标业务模型的方法及装置 | |
CN108520272B (zh) | 一种改进苍狼算法的半监督入侵检测方法 | |
CN111967343B (zh) | 基于简单神经网络和极端梯度提升模型融合的检测方法 | |
CN105488528B (zh) | 基于改进自适应遗传算法的神经网络图像分类方法 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
CN107783998A (zh) | 一种数据处理的方法以及装置 | |
CN111556016A (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN116743493A (zh) | 网络入侵检测模型构建方法及网络入侵检测方法 | |
CN111275074B (zh) | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN115037805A (zh) | 一种基于深度聚类的未知网络协议识别方法、系统、装置及存储介质 | |
CN116318834A (zh) | 一种基于优化相关向量机的互联网入侵检测方法及装置 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN117236699A (zh) | 一种基于大数据分析的网络风险识别方法及系统 | |
CN116483602A (zh) | 一种异常检测方法、装置以及计算机存储介质 | |
CN113362920B (zh) | 基于临床数据的特征选择方法及装置 | |
CN114722920A (zh) | 一种基于图分类的深度图卷积模型钓鱼账户识别方法 | |
CN111784381B (zh) | 基于隐私保护和som网络的电力客户细分方法及系统 | |
CN111950615A (zh) | 一种基于树种优化算法的网络故障特征选择方法 | |
CN117792737B (zh) | 一种网络入侵检测方法、装置、电子设备及存储介质 | |
CN114928477B (zh) | 一种网络入侵检测方法、装置、可读存储介质及终端设备 | |
CN116881854B (zh) | 融合XGBoost计算特征权重的时间序列预测方法 | |
CN116644438B (zh) | 一种基于移动存储设备的数据安全管理方法及系统 | |
CN116431757B (zh) | 基于主动学习的文本关系抽取方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |