CN109150830A - 一种基于支持向量机和概率神经网络的层次入侵检测方法 - Google Patents
一种基于支持向量机和概率神经网络的层次入侵检测方法 Download PDFInfo
- Publication number
- CN109150830A CN109150830A CN201810754035.2A CN201810754035A CN109150830A CN 109150830 A CN109150830 A CN 109150830A CN 201810754035 A CN201810754035 A CN 201810754035A CN 109150830 A CN109150830 A CN 109150830A
- Authority
- CN
- China
- Prior art keywords
- class
- neural network
- probabilistic neural
- normal
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 55
- 239000002245 particle Substances 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 238000009499 grossing Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000013210 evaluation model Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 26
- 208000018208 Hyperimmunoglobulinemia D with periodic fever Diseases 0.000 description 5
- 206010072219 Mevalonic aciduria Diseases 0.000 description 5
- DTXLBRAVKYTGFE-UHFFFAOYSA-J tetrasodium;2-(1,2-dicarboxylatoethylamino)-3-hydroxybutanedioate Chemical compound [Na+].[Na+].[Na+].[Na+].[O-]C(=O)C(O)C(C([O-])=O)NC(C([O-])=O)CC([O-])=O DTXLBRAVKYTGFE-UHFFFAOYSA-J 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 235000018185 Betula X alpestris Nutrition 0.000 description 3
- 235000018212 Betula X uliginosa Nutrition 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于支持向量机和概率神经网络的层次入侵检测方法,包括:用基于网格寻优的支持向量机模型执行二分类:采用支持向量机模型执行二分类操作,通过调整训练集抽样比例消除原始数据集各类别的非平衡性,并以粗细结合的网格搜索方法优化模型参数,并将捕获的数据记录归为U2R类和非U2R类;利用基于聚类和双平滑因子优化的概率神经网络模型进行分类:通过聚类和调节抽样比例得到R2L类的有效训练集,并利用微粒子群方法寻找最优双平滑因子以优化概率神经网络模型模型,并将被识别为非U2R类的数据记录流入概率神经网络模型进行R2L和Normal的二分类操作。本发明在保证较高正常类识别率的基础上,最大程度提高对于R2L和U2R攻击类的检测准确率。
Description
技术领域
本发明涉及层次入侵检测技术领域,具体是指一种基于支持向量机和概率神经网络的层次入侵检测方法。
背景技术
室内DoS攻击和Probe攻击是两种典型的网络级攻击,即其在短时间区间内会造成明显区别于正常网络状态数据的流量波动异常,且具有可量化的频繁操作,易于识别,检测数据包报头即可。而U2R和R2L攻击是两种具有代表性的嵌入型攻击,攻击通常设置于数据包内部,数据外部特征与正常数据及其相似,识别难度高,且不具有频繁序列模式,必要时需要利用高级协议进行数据包内容解析。因此,在室内场景中危险级别最高的攻击类型为嵌入型攻击,该类攻击隐蔽性强,且极易被识别为正常类,不法分子可通过此攻击手段成为合法用户随意操控室内智能系统。
从U2R和R2L类攻击的出现频率和攻击行为模式来看,若想利用基于特征分析的数据挖掘技术提高这两类攻击的识别率,急需要解决的两个主要问题是:
(1)相比于Normal类大量频繁的操作记录,U2R、R2L类攻击的数据记录极少,获取难度高,训练的分类模型易倾向于频繁操作类;
(2)U2R、R2L类和Normal类的网络特征具有相似性。
针对第一个问题,可以通过改变数据采样方式来减少非平衡性,而对于第二个问题,需要从攻击行为模式出发分析U2R、R2L类和Normal类的相似程度。通常U2R类攻击的操作需要通过溢出操作得到root权限的shell,从而提权成为合法用户,与R2L类无需提权而直接利用监控盲区“隐形”潜入主机的操作方式相比,U2R类攻击存在连接内容上的改变,更易被识别。R2L类攻击不具备提权特征,又和U2R以及Normal类中向主机所请求的服务有所重叠。通过以上分析可得出类别之间的相关性:
(1)U2R类攻击具有显著的网络连接内容特征,与Normal类的重叠程度小;
(2)R2L类攻击不具有显著的时间、内容特征,与Normal类重叠程度较高,攻击隐蔽性强。
由U2R、R2L类与Normal类的相关性可知,U2R类攻击是最易检测的,而R2L类与Normal类的区分则需要对于网络中不同变化设置点获取的信息进行提炼,一种分类器下一对一或者一对多的分类模型采用的是并行衡量,类与类之间的相似性势必会影响分类结果。
发明内容
为了克服上述背景技术的不足,本发明提供一种基于支持向量机和概率神经网络的层次入侵检测方法,能够保证较高正常类识别率的基础上,最大程度提高对于R2L和U2R攻击类的检测准确率的层次混合入侵检测系统。
为了实现上述目的,本发明具有如下构成:
该基于支持向量机和概率神经网络的层次入侵检测方法,包括如下步骤:
(1)用基于网格寻优的支持向量机模型执行二分类:采用支持向量机模型执行二分类操作,通过调整训练集抽样比例消除原始数据集各类别的非平衡性,并以粗细结合的网格搜索方法优化模型参数,并将捕获的数据记录归为U2R类和非U2R类;
(2)利用基于聚类和双平滑因子优化的概率神经网络模型进行分类:通过聚类和调节抽样比例得到R2L类的有效训练集,并利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型,并将所述步骤(1)中被识别为非U2R类的数据记录流入概率神经网络模型进行R2L和Normal的二分类操作。
可选地,所述步骤(1)中,以粗细结合的网格搜索方法优化模型参数,包括如下步骤:
利用粗搜索和细搜索相结合的方式进行参数寻优以在较快时间内寻得较优参数,其中,粗搜索方式寻找惩罚因子C和核函数参数γ相互制约的过程中形成的类似于扇形的合理参数备选区;在锁定合理参数备选区之后,缩小搜索范围,在合理区域内进行细致的搜索以找到全局最优解。
可选地,所述步骤(1)包括如下步骤:
(1.1)保留U2R类所有训练样本,对非U2R类样本进行欠采样得到训练样本集,并对训练集和测试集进行归一化处理;
(1.2)粗搜索:赋予C和γ的阈值范围分别为[2-10,210]和[2-10,210],按一定间距形成网格,同时选定第一步长进行寻优,利用五折交叉检验结果评估模型泛化能力,并据此绘制训练模型预测精度等高线图,锁定合理参数备选区,选择包含备选区的矩形区域所对引的参数阈值作为细搜索的搜索范围;
(1.3)按照步骤(1.2)中得到的阈值范围形成网格,并选择第二步长进行寻优操作,第二步长小于第一步长,以五折交叉检验结果评估模型泛化能力,遍历表格内所有参数组合之后,选择对应检测精度最高的C和γ作为全局最优解并绘制细搜索条件下的训练模型预测精度等高线图;
(1.4)输入训练样本和最优C和γ,得到支持向量机分类器模型;
(1.5)采用训练得到的支持向量机分类器模型将捕获的数据记录归为U2R类和非U2R类。
可选地,所述步骤(2)中,通过聚类和调节抽样比例得到R2L类的有效训练集,包括(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例,
所述(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例,包括如下步骤:
设定具有不同倾向性的数据抽样样本:R2L:Normal=1;R2L:Normal>1;R2L:Normal<1,并同时在不同范围内选取21个spread值,构建多个概率神经网络分类模型,利用所述具有不同倾向性的数据抽样样本测试集进行模型测试并得到各类别检测准确率的变化曲线,确定用于规约的数据比例倾向。
可选地,所述步骤(2)中,通过聚类和调节抽样比例得到R2L类的有效训练集,包括(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约,
所述(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约,包括如下步骤:
(2.2.1)使用层次结构的平衡迭代归约和聚类方法建立聚类特征树CFtree,其由CF元组组成;依据CF元组特性设置簇半径rmax和CF内数据点数目的阈值Lmax分别为T和L,遵循该条件执行数据的插入过程,数据点依次被插入不同的CF元组,并形成聚类特征树CFtree;
(2.2.2)对Normal和R2L类数据分别构建一棵聚类特征树CFtree,并利用Calinski-Harabaz指数作为聚类效果的评价指标对簇半径和元组内数据点数目上限阈值T,L进行选取,计算公式如下:
其中m为训练集样本数,k为类别数,Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,tr用于计算矩阵的对角线元素之和,在T,L的选择过程中,如果选择参数所对应的聚类簇数占对应类别(Normal,R2L)所设定样本的50%~100%且可以保证Calinski-Harabaz指数在300以上,则返回该聚簇结果的簇中心作为训练集的新样本。
可选地,所述步骤(2)中,利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型,包括如下步骤:
(2.3.1)设定粒子维度(x1,x2),种群规模g、粒子取值范围、惯性权重w和学习因子(c1,c2),训练集为步骤(2.2)中得到的簇中心样本集;
(2.3.2)随机初始化群体中所有微粒的速度vi和位置xi;
(2.3.3)计算每个微粒的适应度,利用各微粒训练不同的概率神经网络模型模型,并利用该概率神经网络模型模型对测试集进行分类得到Normal和R2L的检测准确率,依据该计算得到适应度函数如下:
fitness(x1,x2)=(accNormal-1)2+(accR2L-1)2
根据如上公式accNormal,accR2L分别为Normal,R2L因子,计算各微粒适应度值fitness(x1,x2),并每个微粒的当前位置和适应度函数值Pbest,同时使全局变量Gbest等于最小的适应度值Pbest;
(2.3.4)各微粒采用以下公式进行速度和位置的更新:
vi,j(t+1)=w·vi,j(t)+c1r1·[Pbest(i,j)-xi,j(t)]+c2r2·[Gbest(j)-xi,j(t)]
xi,j(t+1)=xi,j(t)+vi,j(t+1)(i=g,j=2)
(2.3.5)各个微粒依据步骤(2.3.3)中的公式计算适应度,vi,j为粒子的速度,w为惯性权重,c1,c2分别为两个学习因子,g为种群规模,并将当前适应度与历史Pbest中的比较,如果小于历史Pbest,则更新Pbest存放的位置和适应度值,待各个微粒调整自身Pbest之后,从所有Pbest中选择拥有最小适应度值的Pbest存入Gbest;
(2.3.6)如果达到最大迭代次数TMAX,搜索停止,输出最优结果;否则返回步骤(2.3.4)继续搜索。
可选地,还包括如下步骤:
将支持向量机模型分类器和概率神经网络模型分类器进行串联形成一个综合分类模型。
该发明中的基于支持向量机和概率神经网络的层次入侵检测方法的有益效果在于:经过不同层次的处理,所有数据记录都会被识别为U2R、R2L和Normal类中的一种,该入侵检测方法的优化目标能够保证较高正常类识别率的基础上,最大程度提高对于R2L和U2R攻击类的检测准确率。
附图说明
图1为本发明实施例的基于支持向量机和概率神经网络的层次入侵检测方法的流程图;
图2为本发明实施例的滑因子和不同比例训练集下的PNN分类结果;
图3为本发明实施例的聚类特征树(CFtree)结构;
图4为本发明实施例的混合IDS数据检测流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
如图1所示,为了解决上述技术问题,本发明涉及一种基于支持向量机(SupportVector Machine,SVM)和概率神经网络模型(Probabilistic Neural Network,PNN)的层次式混合入侵检测方法(Hybrid Intrusion Detection System,HIDS),用于应对室内智能场景下易出现的远程操控(Remote to login,R2L)、越权(User to root,U2R)类渗透性攻击的识别,包括以下步骤:
(1)用基于网格寻优的支持向量机模型执行二分类:在第一层采用支持SVM模型执行二分类操作,该层通过调整训练集抽样比例消除原始数据集各类别的非平衡性,并以粗细结合的网格搜索方法优化模型参数,并将捕获的数据记录归为U2R类和Non-U2R类,其中Non-U2R类指代R2L和Normal类。
(2)利用基于聚类和双平滑因子优化的概率神经网络模型进行分类:第一层被识别为Non-U2R类的数据记录会流入优化后的概率神经网络模型进行R2L和Normal的二分类操作。第二层利用概率神经网络模型模型进一步抽象直接特征以更准确的识别R2L类攻击,通过聚类和调节抽样比例得到R2L类的有效训练集,并利用微粒子群方法(Particle SwarmOptimization,PSO)寻找最优双平滑因子以进一步优化PNN模型。
因此,通过采用本发明的基于支持向量机和概率神经网络的层次入侵检测方法,经过不同层次的处理,所有数据记录都会被该层次入侵检测方法识别为U2R、R2L和Normal类中的一种。该入侵检测方法的优化目标能够保证较高正常类识别率的基础上,最大程度提高对于R2L和U2R攻击类的检测准确率。
具体地,本发明一实施例的基于支持向量机和概率神经网络的层次入侵检测方法包括如下步骤:
步骤1:用基于网格寻优的支持向量机模型(SVM)执行二分类:在第一层采用SVM模型执行二分类操作,该层通过调整训练集抽样比例消除原始数据集各类别的非平衡性,并以粗细结合的网格搜索方法优化模型参数,并将捕获的数据记录归为U2R类和Non-U2R类,其中Non-U2R类指代R2L和Normal类。
SVM模型的优化和分类过程为:
SVM通过把线性不可分的数据映射到高维空间以找到超平面使得数据变得可分,而此超平面与支持向量机所在平面之间的距离被称为几何间隔,几何间隔不能无限小,所以在具有一定约束条件下使得几何间隔最小化是SVM模型的优化目标,其实质上是一个凸二次规划问题:
其中w和b是平面系数,yi代表样本的分类标记,xi则是训练样本。该优化问题利用拉格朗日乘子法和KKT(Karush-Kuhn-Tucker)条件转化为对偶问题:
其中ai为拉格朗日乘子。该优化问题可利用SMO(Sequential MinimalOptimization)方法或者最小二乘法进行求解。上述模型皆为硬间隔模型,其硬性规定要求所有样本都必须满足与分类平面的距离大于一定阈值,不具有容错性,这使得该模型极易受到噪声干扰。由于U2R数据和非U2R数据存在一定相似性,很容易会出现错分的数据点,为了避免模型被这些数据点干扰,在二次规划问题中引入松弛变量得到一阶软间隔模型:
C为惩罚因子,εi是离群程度,由错分点到对应类别支持向量所在平面的距离表示,正确分类样本点的εi=0,惩罚项由所有的离群点所确定。将该模型进行高维映射所得到的对偶问题形式为:
s.t.,C≥ai≥0,i=1,2,...,n
本文中所选择的映射函数是较为稳定的高斯函数:
利用粗搜索和细搜索相结合的方式进行参数寻优以在较快时间内寻得较优参数,粗搜索策略主要用于寻找惩罚因子C和核函数参数γ相互制约的过程中形成的类似于扇形的合理参数备选区,该区域内的C和γ都较小且求解难度低、稳定性高;在锁定合理区域之后,缩小搜索范围,在合理区域内进行细致的搜索以找到全局最优解。为了减少原始数据中攻击类和正常类数据的不平衡性,分别对U2R类和Non-U2R类进行过采样和欠采样获得训练样本集,并利用网格搜索进行模型的参数寻优,具体的步骤为:
A.保留U2R类所有训练样本,对非U2R类样本(R2L、Normal)进行欠采样得到训练样本集,并对训练集和测试集进行归一化处理;
B.粗搜索:赋予C和γ较大的阈值范围按一定间距形成网格,同时选定较大步长进行寻优,利用五折交叉检验结果评估模型泛化能力,锁定“合理参数备选区”,选择包含备选区的矩形区域所对引的参数阈值作为细搜索的搜索范围;
C.按照B中得到的阈值范围形成网格,并选择较小步长进行寻优操作,同样以五折交叉检验结果评估模型泛化能力,遍历表格内所有参数组合之后,选择对应检测精度最高的C和γ作为全局最优解;
D.输入训练样本和最优C和γ,得到SVM分类器模型。
步骤2:利用基于聚类和双平滑因子优化的概率神经网络模型进行分类:第一层被识别为Non-U2R类的数据记录会流入优化后的概率神经网络模型进行R2L和Normal的二分类操作。经过不同层次的处理,所有被捕获的数据记录都会被该识别为U2R、R2L和Normal类中的一种。第二层利用PNN模型进一步抽象直接特征以更准确的识别R2L类攻击,通过聚类和调节抽样比例得到R2L类的有效训练集,并利用PSO寻找最优双平滑因子以进一步优化PNN模型。PNN的优化具体过程如下:
A.调节抽样比例
设定具有不同倾向性的数据抽样样本(R2L:Normal=1;R2L:Normal>1;R2L:Normal<1),并同时在不同范围内选取21个spread值,构建多个PNN分类模型,利用前述的具有不同倾向性的数据抽样样本测试集进行模型测试并得到各类别检测准确率的变化曲线用于分析,确定用于规约的数据比例倾向,具体如图2所示,图2中表示在数据抽取比例R2L:Normal大于1的条件下所抽取的训练集样本量越大,分类器在R2L类检测准确率达到90%以上的同时对于Normal类的检测准确率越高,分类器综合检测效果越好;
B.层次结构的平衡迭代归约和聚类
a.使用层次结构的平衡迭代归约和聚类方法(BIRCH)建立聚类特征树CFtree,其由CF元组组成。由于两个独立的CF元组满足可加性,利用该性质可进行聚类树CFtree的构建。依据CF元组特性设置簇半径rmax和CF内数据点数目的阈值Lmax分别为T和L,遵循该条件执行数据的插入过程,数据点依次被插入不同的CF元组,并形成CFtree,具体如图3所示;
b.对Normal和R2L类数据分别构建一棵CFtree,并利用Calinski-Harabaz指数作为聚类效果的评价指标对簇半径和元组内数据点数目上限阈值T,L进行选取,计算形式如下:
其中m为训练集样本数,k为类别数,Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,tr用于计算矩阵的对角线元素之和。在T,L的选择过程中,若选择参数所对应的聚类簇数占对应类别(Normal,R2L)所设定样本的50%~100%且可以保证较大的Calinski-Harabaz指数,则返回该聚簇结果的簇中心作为训练集的新样本;
C.PSO寻找最优双平滑因子
在对PNN模型的矢量中心进行选取之后,需要对平滑因子进行优化,在原始PNN分类器中,默认条件下取同一个平滑因子,该默认条件无法凸显不同样本的概率特性,所以多数研究会利用遗传算法对模式层中所有神经元对应的平滑因子进行寻优,该问题即衍化成为多参数优化问题。这种注重个体差异的方法显然可以突出所有训练样本的特点,但是该方法只适用于数据量较小的样本集,且寻优过程慢,效率低。另外,过分凸显各个样本的差异往往会削弱类别间的差异性,尤其是针对R2L和Normal这两类数据量较大且相似度较高的数据集,该方法适用性较差。因此,本文弱化样本差异度,通过为同类训练样本分配同样的平滑因子以增强类别间差异度,并利用微粒子群方法对双平滑因子进行寻优,其具体步骤如下:
a.设定粒子维度(x1,x2),种群规模g、粒子取值范围、惯性权重w和学习因子(c1,c2),训练集为上一小节利用BIRCH规约得到的簇中心样本集;
b.随机初始化群体中所有微粒的速度vi和位置xi;
c.计算每个微粒的适应度,本文利用各微粒训练不同的PNN模型,并利用该模型对测试集进行分类得到Normal和R2L的检测准确率,依据该计算得到适应度函数:
fitness(x1,x2)=(accNormal-1)2+(accR2L-1)2
于是利用上式计算各微粒适应度值,并为每个微粒设置Pbest存放当前位置和适应度函数值,同时选择拥有最小适应度值的Pbest存放于Gbest;
d.各微粒利用以下公式进行速度和位置的更新:
vi,j(t+1)=w·vi,j(t)+c1r1·[Pbest(i,j)-xi,j(t)]+c2r2·[Gbest(j)-xi,j(t)]
xi,j(t+1)=xi,j(t)+vi,j(t+1)(i=g,j=2)
e.各个微粒依据步骤C中的公式计算适应度,并将当前适应度与历史Pbest中的比较,若小于Pbest,则更新Pbest存放的位置和适应度值。待各个微粒调整自身Pbest之后,从所有Pbest中选择拥有最小适应度值的Pbest存入Gbest;
f.达到最大迭代次数TMAX,搜索停止,输出最优结果;否则返回步骤D继续搜索。
步骤3:对步骤1和步骤2中的分类器模型进行串联得到三分类器模型SVM-PNNHIDS,使得所有数据记录都会被识别为U2R、R2L和Normal类的一种,具体的数据流程为:
将前述所建立的SVM分类模型和PNN分类进行如图4所示的衔接得到完整的SVM-PNN HIDS模型。结合所需识别攻击的特点,SVM-PNN HIDS模型融合了基于主机和网络的入侵检测系统的特点,在信息收集的过程中通过实时访问主机的审计记录和日志文件,同时监测出入网络的数据量以从不同信息源获得与所识别攻击行为相关的特征。
在信息分析阶段,则依据U2R类和R2L类攻击直接特征的明显程度,采用分类方法建立了两个误用检测模块,第一个误用检测模块中采用直接特征匹配以最大程度识别明显度较高的U2R攻击,第二个误用检测则进一步抽象R2L类攻击特征,从而识别明显程度极低的R2L类攻击。其中第一个误用检测模块以SVM分类模型为基础,通过调整抽样比例获得训练集以弥补原始样本的数据信息量差异,并设置粗精结合的网格搜索法快速又准确的锁定SVM分类模型的最佳超参组合,最终得到优化后的SVM分类模型。而另外一个误用检测模块利用PNN神经网络对R2L类攻击的特征进行描绘,并利用PSO方法寻优双平滑因子改善分类边界精度。此外,利用BIRCH聚类对不同类的原始样本进行规约,从而获得数量小、具有代表性且遵从一定比例的训练样本,为进一步精简神经网络模型和提高模型分类准确率奠定了基础。
在SVM-PNN HIDS应用于室内智能场景时,该系统会以一定频率获得当前时间点对应的TCP连接以及网络流量特征并形成一条条数据信息,这些信息在被送入SVM分类模型前需要对数据进行非数值变量转化和归一化等预处理操作,预处理后被送入SVM模型进行U2R和Non-U2R分类,若数据被识别为Non-U2R类,则数据流向下一个PNN分类器;反之,则标记为U2R攻击。由于在SVM模型中处理的数据经过了归一化处理,会使得R2L类数据中的特征明显性被削弱,而与Normal类的相似性增强。为保留R2L类原始性,在PNN分类模型前增加反归一化对数据进行还原,再送入PNN分类器,PNN分类器会将送入的Non-U2R类数据识别为R2L或者Normal类。所有经过该系统的数据都会被映射成为R2L,U2R和Normal的其中一种,一条条信息在被给予标志后会被及时送入入侵响应模块,响应模块会采取相应的防御措施。
该发明中的基于支持向量机和概率神经网络的层次入侵检测方法的有益效果在于:经过不同层次的处理,所有数据记录都会被识别为U2R、R2L和Normal类中的一种,该入侵检测方法的优化目标能够保证较高正常类识别率的基础上,最大程度提高对于R2L和U2R攻击类的检测准确率。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (7)
1.一种基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,包括如下步骤:
(1)用基于网格寻优的支持向量机模型执行二分类:采用支持向量机模型执行二分类操作,通过调整训练集抽样比例消除原始数据集各类别的非平衡性,并以粗细结合的网格搜索方法优化模型参数,并将捕获的数据记录归为U2R类和非U2R类;
(2)利用基于聚类和双平滑因子优化的概率神经网络模型进行分类:通过聚类和调节抽样比例得到R2L类的有效训练集,并利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型,并将所述步骤(1)中被识别为非U2R类的数据记录流入概率神经网络模型进行R2L和Normal的二分类操作。
2.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,所述步骤(1)中,以粗细结合的网格搜索方法优化模型参数,包括如下步骤:
利用粗搜索和细搜索相结合的方式进行参数寻优以在较快时间内寻得较优参数,其中,粗搜索方式寻找惩罚因子C和核函数参数γ相互制约的过程中形成的类似于扇形的合理参数备选区;在锁定合理参数备选区之后,缩小搜索范围,在合理区域内进行细致的搜索以找到全局最优解。
3.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,所述步骤(1)包括如下步骤:
(1.1)保留U2R类所有训练样本,对非U2R类样本进行欠采样得到训练样本集,并对训练集和测试集进行归一化处理;
(1.2)粗搜索:赋予C和γ的阈值范围分别为[2-10,210]和[2-10,210],按一定间距形成网格,同时选定第一步长进行寻优,利用五折交叉检验结果评估模型泛化能力,并据此绘制训练模型预测精度等高线图,锁定合理参数备选区,选择包含备选区的矩形区域所对引的参数阈值作为细搜索的搜索范围;
(1.3)按照步骤(1.2)中得到的阈值范围形成网格,并选择第二步长进行寻优操作,第二步长小于第一步长,以五折交叉检验结果评估模型泛化能力,遍历表格内所有参数组合之后,选择对应检测精度最高的C和γ作为全局最优解并绘制细搜索条件下的训练模型预测精度等高线图;
(1.4)输入训练样本和最优C和γ,得到支持向量机分类器模型;
(1.5)采用训练得到的支持向量机分类器模型将捕获的数据记录归为U2R类和非U2R类。
4.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,所述步骤(2)中,通过聚类和调节抽样比例得到R2L类的有效训练集,包括(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例,
所述(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例,包括如下步骤:
设定具有不同倾向性的数据抽样样本:R2L:Normal=1;R2L:Normal>1;R2L:Normal<1,并同时在不同范围内选取21个spread值,构建多个概率神经网络分类模型,利用所述具有不同倾向性的数据抽样样本测试集进行模型测试并得到各类别检测准确率的变化曲线,确定用于规约的数据比例倾向。
5.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,所述步骤(2)中,通过聚类和调节抽样比例得到R2L类的有效训练集,包括(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约,
所述(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约,包括如下步骤:
(2.2.1)使用层次结构的平衡迭代归约和聚类方法建立聚类特征树CFtree,其由CF元组组成;依据CF元组特性设置簇半径rmax和CF内数据点数目的阈值Lmax分别为T和L,遵循该条件执行数据的插入过程,数据点依次被插入不同的CF元组,并形成聚类特征树CFtree;
(2.2.2)对Normal和R2L类数据分别构建一棵聚类特征树CFtree,并利用Calinski-Harabaz指数作为聚类效果的评价指标对簇半径和元组内数据点数目上限阈值T,L进行选取,计算公式如下:
其中m为训练集样本数,k为类别数,Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,tr用于计算矩阵的对角线元素之和,在T,L的选择过程中,如果选择参数所对应的聚类簇数占对应类别(Normal,R2L)所设定样本的50%~100%且可以保证Calinski-Harabaz指数在300以上,则返回该聚簇结果的簇中心作为训练集的新样本。
6.根据权利要求5所述的基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,所述步骤(2)中,利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型,包括如下步骤:
(2.3.1)设定粒子维度(x1,x2),种群规模g、粒子取值范围、惯性权重w和学习因子(c1,c2),训练集为步骤(2.2)中得到的簇中心样本集;
(2.3.2)随机初始化群体中所有微粒的速度vi和位置xi;
(2.3.3)计算每个微粒的适应度,利用各微粒训练不同的概率神经网络模型模型,并利用该概率神经网络模型模型对测试集进行分类得到Normal和R2L的检测准确率,依据该计算得到适应度函数如下:
fitness(x1,x2)=(accNormal-1)2+(accR2L-1)2
根据如上公式,accNormal,accR2L分别为Normal,R2L因子,计算各微粒适应度值fitness(x1,x2),并且得到每个微粒的当前位置和适应度函数值Pbest,同时使全局变量Gbest等于最小的适应度值Pbest;
(2.3.4)各微粒采用以下公式进行速度和位置的更新:
vi,j(t+1)=w·vi,j(t)+c1r1·[Pbest(i,j)-xi,j(t)]+c2r2·[Gbest(j)-xi,j(t)]
xi,j(t+1)=xi,j(t)+vi,j(t+1) (i=g,j=2)
(2.3.5)各个微粒依据步骤(2.3.3)中的公式计算适应度,vi,j为粒子的速度,w为惯性权重,c1,c2分别为两个学习因子,g为种群规模,并将当前适应度与历史Pbest中的比较,如果小于历史Pbest,则更新Pbest存放的位置和适应度值,待各个微粒调整自身Pbest之后,从所有Pbest中选择拥有最小适应度值的Pbest存入Gbest;
(2.3.6)如果达到最大迭代次数TMAX,搜索停止,输出最优结果;否则返回步骤(2.3.4)继续搜索。
7.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法,其特征在于,还包括如下步骤:
将支持向量机模型分类器和概率神经网络模型分类器进行串联形成一个综合分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810754035.2A CN109150830B (zh) | 2018-07-11 | 2018-07-11 | 一种基于支持向量机和概率神经网络的层次入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810754035.2A CN109150830B (zh) | 2018-07-11 | 2018-07-11 | 一种基于支持向量机和概率神经网络的层次入侵检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109150830A true CN109150830A (zh) | 2019-01-04 |
CN109150830B CN109150830B (zh) | 2021-04-06 |
Family
ID=64800361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810754035.2A Active CN109150830B (zh) | 2018-07-11 | 2018-07-11 | 一种基于支持向量机和概率神经网络的层次入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109150830B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902740A (zh) * | 2019-02-27 | 2019-06-18 | 浙江理工大学 | 一种基于多算法融合并行的再学习工业控制入侵检测方法 |
CN112085046A (zh) * | 2019-06-13 | 2020-12-15 | 中国科学院计算机网络信息中心 | 基于采样与特征约简的非平衡数据集转换的入侵检测方法及系统 |
CN116015787A (zh) * | 2022-12-14 | 2023-04-25 | 西安邮电大学 | 基于混合持续变分量子神经网络的网络入侵检测方法 |
CN116092059A (zh) * | 2022-11-30 | 2023-05-09 | 南京通力峰达软件科技有限公司 | 一种基于神经网络的车联网用户驾驶行为识别方法及系统 |
CN116796326A (zh) * | 2023-08-21 | 2023-09-22 | 北京遥感设备研究所 | 一种sql注入检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040215972A1 (en) * | 2003-04-14 | 2004-10-28 | Sung Andrew H. | Computationally intelligent agents for distributed intrusion detection system and method of practicing same |
US20090099986A1 (en) * | 2007-10-12 | 2009-04-16 | Microsoft Corporation | Learning tradeoffs between discriminative power and invariance of classifiers |
CN103870751A (zh) * | 2012-12-18 | 2014-06-18 | 中国移动通信集团山东有限公司 | 入侵检测方法及系统 |
CN107104988A (zh) * | 2017-07-07 | 2017-08-29 | 太原理工大学 | 一种基于概率神经网络的IPv6入侵检测方法 |
CN107895171A (zh) * | 2017-10-31 | 2018-04-10 | 天津大学 | 一种基于k均值与深度置信网络的入侵检测方法 |
CN107911346A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于极限学习机的入侵检测方法 |
CN108093406A (zh) * | 2017-11-29 | 2018-05-29 | 重庆邮电大学 | 一种基于集成学习的无线传感网入侵检测方法 |
-
2018
- 2018-07-11 CN CN201810754035.2A patent/CN109150830B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040215972A1 (en) * | 2003-04-14 | 2004-10-28 | Sung Andrew H. | Computationally intelligent agents for distributed intrusion detection system and method of practicing same |
US20090099986A1 (en) * | 2007-10-12 | 2009-04-16 | Microsoft Corporation | Learning tradeoffs between discriminative power and invariance of classifiers |
CN103870751A (zh) * | 2012-12-18 | 2014-06-18 | 中国移动通信集团山东有限公司 | 入侵检测方法及系统 |
CN107104988A (zh) * | 2017-07-07 | 2017-08-29 | 太原理工大学 | 一种基于概率神经网络的IPv6入侵检测方法 |
CN107895171A (zh) * | 2017-10-31 | 2018-04-10 | 天津大学 | 一种基于k均值与深度置信网络的入侵检测方法 |
CN107911346A (zh) * | 2017-10-31 | 2018-04-13 | 天津大学 | 一种基于极限学习机的入侵检测方法 |
CN108093406A (zh) * | 2017-11-29 | 2018-05-29 | 重庆邮电大学 | 一种基于集成学习的无线传感网入侵检测方法 |
Non-Patent Citations (2)
Title |
---|
JUN LIN 等: "A fast parameters selection method of support vector machine based on coarse grid search and pattern search", 《2013 FOURTH GLOBAL CONGRESS ON INTELLIGENT SYSTEMS》 * |
谢康: "基于神经网络的入侵检测相关技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902740A (zh) * | 2019-02-27 | 2019-06-18 | 浙江理工大学 | 一种基于多算法融合并行的再学习工业控制入侵检测方法 |
CN112085046A (zh) * | 2019-06-13 | 2020-12-15 | 中国科学院计算机网络信息中心 | 基于采样与特征约简的非平衡数据集转换的入侵检测方法及系统 |
CN116092059A (zh) * | 2022-11-30 | 2023-05-09 | 南京通力峰达软件科技有限公司 | 一种基于神经网络的车联网用户驾驶行为识别方法及系统 |
CN116092059B (zh) * | 2022-11-30 | 2023-10-20 | 南京通力峰达软件科技有限公司 | 一种基于神经网络的车联网用户驾驶行为识别方法及系统 |
CN116015787A (zh) * | 2022-12-14 | 2023-04-25 | 西安邮电大学 | 基于混合持续变分量子神经网络的网络入侵检测方法 |
CN116796326A (zh) * | 2023-08-21 | 2023-09-22 | 北京遥感设备研究所 | 一种sql注入检测方法 |
CN116796326B (zh) * | 2023-08-21 | 2023-11-14 | 北京遥感设备研究所 | 一种sql注入检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109150830B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109150830A (zh) | 一种基于支持向量机和概率神经网络的层次入侵检测方法 | |
Faraoun et al. | Neural networks learning improvement using the K-means clustering algorithm to detect network intrusions | |
CN109670528A (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN103150580B (zh) | 一种高光谱图像半监督分类方法及装置 | |
CN110083665A (zh) | 基于改进的局部异常因子检测的数据分类方法 | |
CN109902740B (zh) | 一种基于多算法融合并行的再学习工业控制入侵检测方法 | |
CN109522926A (zh) | 基于信息熵聚类的异常检测方法 | |
CN109873779A (zh) | 一种基于lstm的分级式无线信号调制类型识别方法 | |
Wang et al. | Anomaly detection via minimum likelihood generative adversarial networks | |
CN107579846B (zh) | 一种云计算故障数据检测方法及系统 | |
CN110309887A (zh) | 基于改进花朵授粉的模糊c-均值聚类异常检测方法 | |
CN102208020A (zh) | 基于最优维数标度切判据的人脸识别方法 | |
CN112560596B (zh) | 一种雷达干扰类别识别方法及系统 | |
Syarif et al. | Data mining approaches for network intrusion detection: from dimensionality reduction to misuse and anomaly detection | |
CN111428790A (zh) | 基于粒子群优化的双准确度加权随机森林算法 | |
CN109919320B (zh) | 基于语义层次结构的Triplet网络学习方法 | |
CN112949720B (zh) | 一种基于三元组损失的未知辐射源辨别方法 | |
CN116230105A (zh) | 化学品和蛋白质靶点相互作用的预测方法 | |
CN112446435B (zh) | 一种城市数据分类方法及系统 | |
CN108763926B (zh) | 一种具有安全免疫能力的工业控制系统入侵检测方法 | |
Guo et al. | Data-driven anomaly detection using OCSVM with boundary optimzation | |
CN110276395A (zh) | 基于正则化动态集成的不平衡数据分类方法 | |
Leng et al. | A wrapper-based feature selection for analysis of large data sets | |
CN108549913A (zh) | 基于密度半径的改进K-means聚类算法 | |
CN113341379A (zh) | 基于自适应阈值和迭代控制的雷达信号分选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |