CN109150830A

CN109150830A - 一种基于支持向量机和概率神经网络的层次入侵检测方法

Info

Publication number: CN109150830A
Application number: CN201810754035.2A
Authority: CN
Inventors: 洪榛; 陈焕; 邵茜
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2019-01-04
Anticipated expiration: 2038-07-11
Also published as: CN109150830B

Abstract

本发明涉及一种基于支持向量机和概率神经网络的层次入侵检测方法，包括：用基于网格寻优的支持向量机模型执行二分类：采用支持向量机模型执行二分类操作，通过调整训练集抽样比例消除原始数据集各类别的非平衡性，并以粗细结合的网格搜索方法优化模型参数，并将捕获的数据记录归为U2R类和非U2R类；利用基于聚类和双平滑因子优化的概率神经网络模型进行分类：通过聚类和调节抽样比例得到R2L类的有效训练集，并利用微粒子群方法寻找最优双平滑因子以优化概率神经网络模型模型，并将被识别为非U2R类的数据记录流入概率神经网络模型进行R2L和Normal的二分类操作。本发明在保证较高正常类识别率的基础上，最大程度提高对于R2L和U2R攻击类的检测准确率。

Description

一种基于支持向量机和概率神经网络的层次入侵检测方法

技术领域

本发明涉及层次入侵检测技术领域，具体是指一种基于支持向量机和概率神经网络的层次入侵检测方法。

背景技术

室内DoS攻击和Probe攻击是两种典型的网络级攻击，即其在短时间区间内会造成明显区别于正常网络状态数据的流量波动异常，且具有可量化的频繁操作，易于识别，检测数据包报头即可。而U2R和R2L攻击是两种具有代表性的嵌入型攻击，攻击通常设置于数据包内部，数据外部特征与正常数据及其相似，识别难度高，且不具有频繁序列模式，必要时需要利用高级协议进行数据包内容解析。因此，在室内场景中危险级别最高的攻击类型为嵌入型攻击，该类攻击隐蔽性强，且极易被识别为正常类，不法分子可通过此攻击手段成为合法用户随意操控室内智能系统。

从U2R和R2L类攻击的出现频率和攻击行为模式来看，若想利用基于特征分析的数据挖掘技术提高这两类攻击的识别率，急需要解决的两个主要问题是：

(1)相比于Normal类大量频繁的操作记录，U2R、R2L类攻击的数据记录极少，获取难度高，训练的分类模型易倾向于频繁操作类；

(2)U2R、R2L类和Normal类的网络特征具有相似性。

针对第一个问题，可以通过改变数据采样方式来减少非平衡性，而对于第二个问题，需要从攻击行为模式出发分析U2R、R2L类和Normal类的相似程度。通常U2R类攻击的操作需要通过溢出操作得到root权限的shell，从而提权成为合法用户，与R2L类无需提权而直接利用监控盲区“隐形”潜入主机的操作方式相比，U2R类攻击存在连接内容上的改变，更易被识别。R2L类攻击不具备提权特征，又和U2R以及Normal类中向主机所请求的服务有所重叠。通过以上分析可得出类别之间的相关性：

(1)U2R类攻击具有显著的网络连接内容特征，与Normal类的重叠程度小；

(2)R2L类攻击不具有显著的时间、内容特征，与Normal类重叠程度较高，攻击隐蔽性强。

由U2R、R2L类与Normal类的相关性可知，U2R类攻击是最易检测的，而R2L类与Normal类的区分则需要对于网络中不同变化设置点获取的信息进行提炼，一种分类器下一对一或者一对多的分类模型采用的是并行衡量，类与类之间的相似性势必会影响分类结果。

发明内容

为了克服上述背景技术的不足，本发明提供一种基于支持向量机和概率神经网络的层次入侵检测方法，能够保证较高正常类识别率的基础上，最大程度提高对于R2L和U2R攻击类的检测准确率的层次混合入侵检测系统。

为了实现上述目的，本发明具有如下构成：

该基于支持向量机和概率神经网络的层次入侵检测方法，包括如下步骤：

(1)用基于网格寻优的支持向量机模型执行二分类：采用支持向量机模型执行二分类操作，通过调整训练集抽样比例消除原始数据集各类别的非平衡性，并以粗细结合的网格搜索方法优化模型参数，并将捕获的数据记录归为U2R类和非U2R类；

(2)利用基于聚类和双平滑因子优化的概率神经网络模型进行分类：通过聚类和调节抽样比例得到R2L类的有效训练集，并利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型，并将所述步骤(1)中被识别为非U2R类的数据记录流入概率神经网络模型进行R2L和Normal的二分类操作。

可选地，所述步骤(1)中，以粗细结合的网格搜索方法优化模型参数，包括如下步骤：

利用粗搜索和细搜索相结合的方式进行参数寻优以在较快时间内寻得较优参数，其中，粗搜索方式寻找惩罚因子C和核函数参数γ相互制约的过程中形成的类似于扇形的合理参数备选区；在锁定合理参数备选区之后，缩小搜索范围，在合理区域内进行细致的搜索以找到全局最优解。

可选地，所述步骤(1)包括如下步骤：

(1.1)保留U2R类所有训练样本，对非U2R类样本进行欠采样得到训练样本集，并对训练集和测试集进行归一化处理；

(1.2)粗搜索：赋予C和γ的阈值范围分别为[2^-10,2¹⁰]和[2^-10,2¹⁰]，按一定间距形成网格，同时选定第一步长进行寻优，利用五折交叉检验结果评估模型泛化能力，并据此绘制训练模型预测精度等高线图，锁定合理参数备选区，选择包含备选区的矩形区域所对引的参数阈值作为细搜索的搜索范围；

(1.3)按照步骤(1.2)中得到的阈值范围形成网格，并选择第二步长进行寻优操作，第二步长小于第一步长，以五折交叉检验结果评估模型泛化能力，遍历表格内所有参数组合之后，选择对应检测精度最高的C和γ作为全局最优解并绘制细搜索条件下的训练模型预测精度等高线图；

(1.4)输入训练样本和最优C和γ，得到支持向量机分类器模型；

(1.5)采用训练得到的支持向量机分类器模型将捕获的数据记录归为U2R类和非U2R类。

可选地，所述步骤(2)中，通过聚类和调节抽样比例得到R2L类的有效训练集，包括(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例，

所述(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例，包括如下步骤：

设定具有不同倾向性的数据抽样样本：R2L：Normal＝1；R2L：Normal>1；R2L：Normal<1，并同时在不同范围内选取21个spread值，构建多个概率神经网络分类模型，利用所述具有不同倾向性的数据抽样样本测试集进行模型测试并得到各类别检测准确率的变化曲线，确定用于规约的数据比例倾向。

可选地，所述步骤(2)中，通过聚类和调节抽样比例得到R2L类的有效训练集，包括(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约，

所述(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约，包括如下步骤：

(2.2.1)使用层次结构的平衡迭代归约和聚类方法建立聚类特征树CFtree，其由CF元组组成；依据CF元组特性设置簇半径r_max和CF内数据点数目的阈值L_max分别为T和L，遵循该条件执行数据的插入过程，数据点依次被插入不同的CF元组，并形成聚类特征树CFtree；

(2.2.2)对Normal和R2L类数据分别构建一棵聚类特征树CFtree，并利用Calinski-Harabaz指数作为聚类效果的评价指标对簇半径和元组内数据点数目上限阈值T,L进行选取，计算公式如下：

其中m为训练集样本数，k为类别数，B_k为类别之间的协方差矩阵，W_k为类别内部数据的协方差矩阵，tr用于计算矩阵的对角线元素之和，在T,L的选择过程中，如果选择参数所对应的聚类簇数占对应类别(Normal，R2L)所设定样本的50％～100％且可以保证Calinski-Harabaz指数在300以上，则返回该聚簇结果的簇中心作为训练集的新样本。

可选地，所述步骤(2)中，利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型，包括如下步骤：

(2.3.1)设定粒子维度(x₁,x₂)，种群规模g、粒子取值范围、惯性权重w和学习因子(c₁,c₂),训练集为步骤(2.2)中得到的簇中心样本集；

(2.3.2)随机初始化群体中所有微粒的速度v_i和位置x_i；

(2.3.3)计算每个微粒的适应度，利用各微粒训练不同的概率神经网络模型模型，并利用该概率神经网络模型模型对测试集进行分类得到Normal和R2L的检测准确率，依据该计算得到适应度函数如下：

fitness(x₁,x₂)＝(acc_Normal-1)²+(acc_R2L-1)²

根据如上公式acc_Normal，acc_R2L分别为Normal，R2L因子，计算各微粒适应度值fitness(x₁,x₂)，并每个微粒的当前位置和适应度函数值P_best，同时使全局变量G_best等于最小的适应度值P_best；

(2.3.4)各微粒采用以下公式进行速度和位置的更新：

v_i,j(t+1)＝w·v_i,j(t)+c₁r₁·[P_best(i,j)-x_i,j(t)]+c₂r₂·[G_best(j)-x_i,j(t)]

x_i,j(t+1)＝x_i,j(t)+v_i,j(t+1)(i＝g,j＝2)

(2.3.5)各个微粒依据步骤(2.3.3)中的公式计算适应度，v_i,j为粒子的速度，w为惯性权重，c₁，c₂分别为两个学习因子，g为种群规模，并将当前适应度与历史P_best中的比较，如果小于历史P_best，则更新P_best存放的位置和适应度值，待各个微粒调整自身P_best之后，从所有P_best中选择拥有最小适应度值的P_best存入G_best；

(2.3.6)如果达到最大迭代次数T_MAX，搜索停止，输出最优结果；否则返回步骤(2.3.4)继续搜索。

可选地，还包括如下步骤：

将支持向量机模型分类器和概率神经网络模型分类器进行串联形成一个综合分类模型。

该发明中的基于支持向量机和概率神经网络的层次入侵检测方法的有益效果在于：经过不同层次的处理，所有数据记录都会被识别为U2R、R2L和Normal类中的一种，该入侵检测方法的优化目标能够保证较高正常类识别率的基础上，最大程度提高对于R2L和U2R攻击类的检测准确率。

附图说明

图1为本发明实施例的基于支持向量机和概率神经网络的层次入侵检测方法的流程图；

图2为本发明实施例的滑因子和不同比例训练集下的PNN分类结果；

图3为本发明实施例的聚类特征树(CFtree)结构；

图4为本发明实施例的混合IDS数据检测流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

如图1所示，为了解决上述技术问题，本发明涉及一种基于支持向量机(SupportVector Machine，SVM)和概率神经网络模型(Probabilistic Neural Network，PNN)的层次式混合入侵检测方法(Hybrid Intrusion Detection System，HIDS)，用于应对室内智能场景下易出现的远程操控(Remote to login，R2L)、越权(User to root，U2R)类渗透性攻击的识别，包括以下步骤：

(1)用基于网格寻优的支持向量机模型执行二分类：在第一层采用支持SVM模型执行二分类操作，该层通过调整训练集抽样比例消除原始数据集各类别的非平衡性，并以粗细结合的网格搜索方法优化模型参数，并将捕获的数据记录归为U2R类和Non-U2R类，其中Non-U2R类指代R2L和Normal类。

(2)利用基于聚类和双平滑因子优化的概率神经网络模型进行分类：第一层被识别为Non-U2R类的数据记录会流入优化后的概率神经网络模型进行R2L和Normal的二分类操作。第二层利用概率神经网络模型模型进一步抽象直接特征以更准确的识别R2L类攻击，通过聚类和调节抽样比例得到R2L类的有效训练集，并利用微粒子群方法(Particle SwarmOptimization，PSO)寻找最优双平滑因子以进一步优化PNN模型。

因此，通过采用本发明的基于支持向量机和概率神经网络的层次入侵检测方法，经过不同层次的处理，所有数据记录都会被该层次入侵检测方法识别为U2R、R2L和Normal类中的一种。该入侵检测方法的优化目标能够保证较高正常类识别率的基础上，最大程度提高对于R2L和U2R攻击类的检测准确率。

具体地，本发明一实施例的基于支持向量机和概率神经网络的层次入侵检测方法包括如下步骤：

步骤1：用基于网格寻优的支持向量机模型(SVM)执行二分类：在第一层采用SVM模型执行二分类操作，该层通过调整训练集抽样比例消除原始数据集各类别的非平衡性，并以粗细结合的网格搜索方法优化模型参数，并将捕获的数据记录归为U2R类和Non-U2R类，其中Non-U2R类指代R2L和Normal类。

SVM模型的优化和分类过程为：

SVM通过把线性不可分的数据映射到高维空间以找到超平面使得数据变得可分，而此超平面与支持向量机所在平面之间的距离被称为几何间隔，几何间隔不能无限小，所以在具有一定约束条件下使得几何间隔最小化是SVM模型的优化目标，其实质上是一个凸二次规划问题：

其中w和b是平面系数，y_i代表样本的分类标记，x_i则是训练样本。该优化问题利用拉格朗日乘子法和KKT(Karush-Kuhn-Tucker)条件转化为对偶问题：

其中a_i为拉格朗日乘子。该优化问题可利用SMO(Sequential MinimalOptimization)方法或者最小二乘法进行求解。上述模型皆为硬间隔模型，其硬性规定要求所有样本都必须满足与分类平面的距离大于一定阈值，不具有容错性，这使得该模型极易受到噪声干扰。由于U2R数据和非U2R数据存在一定相似性，很容易会出现错分的数据点，为了避免模型被这些数据点干扰，在二次规划问题中引入松弛变量得到一阶软间隔模型：

C为惩罚因子，ε_i是离群程度，由错分点到对应类别支持向量所在平面的距离表示，正确分类样本点的ε_i＝0，惩罚项由所有的离群点所确定。将该模型进行高维映射所得到的对偶问题形式为：

s.t.,C≥a_i≥0,i＝1,2,...,n

本文中所选择的映射函数是较为稳定的高斯函数：

利用粗搜索和细搜索相结合的方式进行参数寻优以在较快时间内寻得较优参数，粗搜索策略主要用于寻找惩罚因子C和核函数参数γ相互制约的过程中形成的类似于扇形的合理参数备选区，该区域内的C和γ都较小且求解难度低、稳定性高；在锁定合理区域之后，缩小搜索范围，在合理区域内进行细致的搜索以找到全局最优解。为了减少原始数据中攻击类和正常类数据的不平衡性，分别对U2R类和Non-U2R类进行过采样和欠采样获得训练样本集，并利用网格搜索进行模型的参数寻优，具体的步骤为：

A.保留U2R类所有训练样本，对非U2R类样本(R2L、Normal)进行欠采样得到训练样本集，并对训练集和测试集进行归一化处理；

B.粗搜索：赋予C和γ较大的阈值范围按一定间距形成网格，同时选定较大步长进行寻优，利用五折交叉检验结果评估模型泛化能力，锁定“合理参数备选区”，选择包含备选区的矩形区域所对引的参数阈值作为细搜索的搜索范围；

C.按照B中得到的阈值范围形成网格，并选择较小步长进行寻优操作，同样以五折交叉检验结果评估模型泛化能力，遍历表格内所有参数组合之后，选择对应检测精度最高的C和γ作为全局最优解；

D.输入训练样本和最优C和γ，得到SVM分类器模型。

步骤2：利用基于聚类和双平滑因子优化的概率神经网络模型进行分类：第一层被识别为Non-U2R类的数据记录会流入优化后的概率神经网络模型进行R2L和Normal的二分类操作。经过不同层次的处理，所有被捕获的数据记录都会被该识别为U2R、R2L和Normal类中的一种。第二层利用PNN模型进一步抽象直接特征以更准确的识别R2L类攻击，通过聚类和调节抽样比例得到R2L类的有效训练集，并利用PSO寻找最优双平滑因子以进一步优化PNN模型。PNN的优化具体过程如下：

A.调节抽样比例

设定具有不同倾向性的数据抽样样本(R2L：Normal＝1；R2L：Normal>1；R2L：Normal<1)，并同时在不同范围内选取21个spread值，构建多个PNN分类模型，利用前述的具有不同倾向性的数据抽样样本测试集进行模型测试并得到各类别检测准确率的变化曲线用于分析，确定用于规约的数据比例倾向，具体如图2所示，图2中表示在数据抽取比例R2L：Normal大于1的条件下所抽取的训练集样本量越大，分类器在R2L类检测准确率达到90％以上的同时对于Normal类的检测准确率越高，分类器综合检测效果越好；

B.层次结构的平衡迭代归约和聚类

a.使用层次结构的平衡迭代归约和聚类方法(BIRCH)建立聚类特征树CFtree，其由CF元组组成。由于两个独立的CF元组满足可加性，利用该性质可进行聚类树CFtree的构建。依据CF元组特性设置簇半径r_max和CF内数据点数目的阈值L_max分别为T和L，遵循该条件执行数据的插入过程，数据点依次被插入不同的CF元组，并形成CFtree，具体如图3所示；

b.对Normal和R2L类数据分别构建一棵CFtree，并利用Calinski-Harabaz指数作为聚类效果的评价指标对簇半径和元组内数据点数目上限阈值T,L进行选取，计算形式如下：

其中m为训练集样本数，k为类别数，B_k为类别之间的协方差矩阵，W_k为类别内部数据的协方差矩阵，tr用于计算矩阵的对角线元素之和。在T,L的选择过程中，若选择参数所对应的聚类簇数占对应类别(Normal，R2L)所设定样本的50％～100％且可以保证较大的Calinski-Harabaz指数，则返回该聚簇结果的簇中心作为训练集的新样本；

C.PSO寻找最优双平滑因子

在对PNN模型的矢量中心进行选取之后，需要对平滑因子进行优化，在原始PNN分类器中，默认条件下取同一个平滑因子，该默认条件无法凸显不同样本的概率特性，所以多数研究会利用遗传算法对模式层中所有神经元对应的平滑因子进行寻优，该问题即衍化成为多参数优化问题。这种注重个体差异的方法显然可以突出所有训练样本的特点，但是该方法只适用于数据量较小的样本集，且寻优过程慢，效率低。另外，过分凸显各个样本的差异往往会削弱类别间的差异性，尤其是针对R2L和Normal这两类数据量较大且相似度较高的数据集，该方法适用性较差。因此，本文弱化样本差异度，通过为同类训练样本分配同样的平滑因子以增强类别间差异度，并利用微粒子群方法对双平滑因子进行寻优，其具体步骤如下：

a.设定粒子维度(x₁,x₂)，种群规模g、粒子取值范围、惯性权重w和学习因子(c₁,c₂),训练集为上一小节利用BIRCH规约得到的簇中心样本集；

b.随机初始化群体中所有微粒的速度v_i和位置x_i；

c.计算每个微粒的适应度，本文利用各微粒训练不同的PNN模型，并利用该模型对测试集进行分类得到Normal和R2L的检测准确率，依据该计算得到适应度函数：

fitness(x₁,x₂)＝(acc_Normal-1)²+(acc_R2L-1)²

于是利用上式计算各微粒适应度值，并为每个微粒设置P_best存放当前位置和适应度函数值，同时选择拥有最小适应度值的P_best存放于G_best；

d.各微粒利用以下公式进行速度和位置的更新：

x_i,j(t+1)＝x_i,j(t)+v_i,j(t+1)(i＝g,j＝2)

e.各个微粒依据步骤C中的公式计算适应度，并将当前适应度与历史P_best中的比较，若小于P_best，则更新P_best存放的位置和适应度值。待各个微粒调整自身P_best之后，从所有P_best中选择拥有最小适应度值的P_best存入G_best；

f.达到最大迭代次数T_MAX，搜索停止，输出最优结果；否则返回步骤D继续搜索。

步骤3：对步骤1和步骤2中的分类器模型进行串联得到三分类器模型SVM-PNNHIDS，使得所有数据记录都会被识别为U2R、R2L和Normal类的一种，具体的数据流程为：

将前述所建立的SVM分类模型和PNN分类进行如图4所示的衔接得到完整的SVM-PNN HIDS模型。结合所需识别攻击的特点，SVM-PNN HIDS模型融合了基于主机和网络的入侵检测系统的特点，在信息收集的过程中通过实时访问主机的审计记录和日志文件，同时监测出入网络的数据量以从不同信息源获得与所识别攻击行为相关的特征。

在信息分析阶段，则依据U2R类和R2L类攻击直接特征的明显程度，采用分类方法建立了两个误用检测模块，第一个误用检测模块中采用直接特征匹配以最大程度识别明显度较高的U2R攻击，第二个误用检测则进一步抽象R2L类攻击特征，从而识别明显程度极低的R2L类攻击。其中第一个误用检测模块以SVM分类模型为基础，通过调整抽样比例获得训练集以弥补原始样本的数据信息量差异，并设置粗精结合的网格搜索法快速又准确的锁定SVM分类模型的最佳超参组合，最终得到优化后的SVM分类模型。而另外一个误用检测模块利用PNN神经网络对R2L类攻击的特征进行描绘，并利用PSO方法寻优双平滑因子改善分类边界精度。此外，利用BIRCH聚类对不同类的原始样本进行规约，从而获得数量小、具有代表性且遵从一定比例的训练样本，为进一步精简神经网络模型和提高模型分类准确率奠定了基础。

在SVM-PNN HIDS应用于室内智能场景时，该系统会以一定频率获得当前时间点对应的TCP连接以及网络流量特征并形成一条条数据信息，这些信息在被送入SVM分类模型前需要对数据进行非数值变量转化和归一化等预处理操作，预处理后被送入SVM模型进行U2R和Non-U2R分类，若数据被识别为Non-U2R类，则数据流向下一个PNN分类器；反之，则标记为U2R攻击。由于在SVM模型中处理的数据经过了归一化处理，会使得R2L类数据中的特征明显性被削弱，而与Normal类的相似性增强。为保留R2L类原始性，在PNN分类模型前增加反归一化对数据进行还原，再送入PNN分类器，PNN分类器会将送入的Non-U2R类数据识别为R2L或者Normal类。所有经过该系统的数据都会被映射成为R2L，U2R和Normal的其中一种，一条条信息在被给予标志后会被及时送入入侵响应模块，响应模块会采取相应的防御措施。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，所述步骤(1)中，以粗细结合的网格搜索方法优化模型参数，包括如下步骤：

3.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，所述步骤(1)包括如下步骤：

(1.2)粗搜索：赋予C和γ的阈值范围分别为[2^-10，2¹⁰]和[2^-10，2¹⁰]，按一定间距形成网格，同时选定第一步长进行寻优，利用五折交叉检验结果评估模型泛化能力，并据此绘制训练模型预测精度等高线图，锁定合理参数备选区，选择包含备选区的矩形区域所对引的参数阈值作为细搜索的搜索范围；

4.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，所述步骤(2)中，通过聚类和调节抽样比例得到R2L类的有效训练集，包括(2.1)通过聚类和调节抽样比例得到R2L、Normal类的有效训练集的比例，

设定具有不同倾向性的数据抽样样本：R2L：Normal＝1；R2L：Normal＞1；R2L：Normal＜1，并同时在不同范围内选取21个spread值，构建多个概率神经网络分类模型，利用所述具有不同倾向性的数据抽样样本测试集进行模型测试并得到各类别检测准确率的变化曲线，确定用于规约的数据比例倾向。

5.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，所述步骤(2)中，通过聚类和调节抽样比例得到R2L类的有效训练集，包括(2.2)通过聚类和调节抽样比例得到R2L类的有效训练集的规约，

(2.2.2)对Normal和R2L类数据分别构建一棵聚类特征树CFtree，并利用Calinski-Harabaz指数作为聚类效果的评价指标对簇半径和元组内数据点数目上限阈值T，L进行选取，计算公式如下：

其中m为训练集样本数，k为类别数，B_k为类别之间的协方差矩阵，W_k为类别内部数据的协方差矩阵，tr用于计算矩阵的对角线元素之和，在T，L的选择过程中，如果选择参数所对应的聚类簇数占对应类别(Normal，R2L)所设定样本的50％～100％且可以保证Calinski-Harabaz指数在300以上，则返回该聚簇结果的簇中心作为训练集的新样本。

6.根据权利要求5所述的基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，所述步骤(2)中，利用微粒子群方法寻找最优双平滑因子以进一步优化概率神经网络模型模型，包括如下步骤：

(2.3.1)设定粒子维度(x₁，x₂)，种群规模g、粒子取值范围、惯性权重w和学习因子(c₁，c₂)，训练集为步骤(2.2)中得到的簇中心样本集；

(2.3.2)随机初始化群体中所有微粒的速度v_i和位置x_i；

fitness(x₁，x₂)＝(acc_Normal-1)²+(acc_R2L-1)²

根据如上公式，acc_Normal，acc_R2L分别为Normal，R2L因子，计算各微粒适应度值fitness(x₁，x₂)，并且得到每个微粒的当前位置和适应度函数值P_best，同时使全局变量G_best等于最小的适应度值P_best；

(2.3.4)各微粒采用以下公式进行速度和位置的更新：

v_i，j(t+1)＝w·v_i，j(t)+c₁r₁·[P_best(i，j)-x_i，j(t)]+c₂r₂·[G_best(j)-x_i，j(t)]

x_i，j(t+1)＝x_i，j(t)+v_i，j(t+1) (i＝g，j＝2)

(2.3.5)各个微粒依据步骤(2.3.3)中的公式计算适应度，v_i，j为粒子的速度，w为惯性权重，c₁，c₂分别为两个学习因子，g为种群规模，并将当前适应度与历史P_best中的比较，如果小于历史P_best，则更新P_best存放的位置和适应度值，待各个微粒调整自身P_best之后，从所有P_best中选择拥有最小适应度值的P_best存入G_best；

7.根据权利要求1所述的基于支持向量机和概率神经网络的层次入侵检测方法，其特征在于，还包括如下步骤：