CN113947150A

CN113947150A - 一种基于共形预测的高可靠入侵检测方法

Info

Publication number: CN113947150A
Application number: CN202111215093.6A
Authority: CN
Inventors: 金海波; 赵欣越
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-18

Abstract

本发明提供一种基于共形预测的高可靠入侵检测方法，涉及网络安全入侵检测技术领域。借助共型预测方法具有评估预测结果置信度的属性，将Adaboost(Adaptive boosting)算法与共形预测(conformal prediction,CP)算法相结合，首先对工业控制系统网络连接记录的数据进行数字化、标准化和降维预处理，然后在CP框架下使用Adaboost算法训练分类模型，利用CP算法来保证分类结果的可靠性。通过使用本方法对工业控制系统网络数据的高可靠性监控，提前感知系统的入侵病毒，将会大大提高工业系统的安全性，减少系统由于入侵病毒导致的系统瘫痪及异常，提高了企业工作的效率与质量。

Description

一种基于共形预测的高可靠入侵检测方法

技术领域

本发明涉及网络安全入侵检测技术领域，尤其涉及一种基于共形预测的高可靠入侵检测方法。

背景技术

诸多机器学习算法在入侵检测模型中已开始大量应用且取得较好的检测效果，然而随着网络攻击逐渐呈现多步协同、分布式处理等特点，这些机器学习算法对入侵检测原始数据样本分类预测的可靠性并不理想。近年来，学者们提出了一系列基于机器学习的IDS相关算法，如支持向量机(support vector machine,SVM)，决策树(decision tree,DT)，随机森林(Random Forest,SF)，贝叶斯网络(Bayesian network)，人工神经网络(ArtificialNeural Network,ANN)，K近邻算法(K-Nearest Neighbor,K-NN)等并有效的应用到IDS中。如Ikram等提出了一种将卡方特征提取与多分类SVM相结合的入侵检测模型。该模型通过计算每个属性特征的方差并确定最大属性方差来优化RBF核参数。如果核参数与方差成反比，则高方差将产生更好的核参数，通过这种方式使入侵检测的性能有所提升。姚等人提出了将决策树与朴素贝叶斯算法结合用来解决入侵检测分类问题，该方法降低了系统的误报率和漏报率,同时也增强了系统的自学习能力和实时性。Al-Yaseen等提出了一种基于SVM和极限学习机的多级混合入侵检测模型，该模型能够识别已知攻击和未知攻击，且通过采用k-means聚类方法产生新的小规模训练集从而减少分类器的训练时间。沈等人提出了一种基于人工蜂群优化的BP神经网络入侵检测模型，该模型根据人工蜂群算法全局寻优以及群体智能的特点,将神经网络的误差作为人工蜂群算法的适应度,选择适应度最好的一组参数作为神经网络的权值和阈值,避免神经网络陷入局部最优和收敛速度慢的问题。

可见，诸多机器学习算法已成功应用在IDS中，但上述研究大多是基于单一的传统机器学习方法，虽然在样本识别能力上都有提升，但是表达复杂函数的能力有限，泛化能力较弱，不能很好地处理复杂分类问题并且这些分类算法只输出预测结果，缺少对预测结果置信度的评价机制，因此无法保证预测结果的可靠性。2005年，Vladimir Vovk及同事提出了共形预测(Conformal Prediction,CP)算法，该算法的新颖之处在于用有效的置信度来衡量预测结果的可靠性。其主要思想是利用过去已有的经验确定当前数据预测的置信度。它基于一致性原理且定义明确的数学框架用以衡量校准集与测试实例的符合程度，使用数据实例的奇异度(不一致性)确定新实例预测的置信值，同时生成一组具有限定错误率在某一范围内的预测类标签，唯一的假设是训练集样本和被预测实例须独立同分布。

近年来，共形预测逐渐应用于各个领域，如Matiz和Barner提出了一种基于主动学习的CP算法，该算法通过求解带约束条件的线性回归问题结合预测数据的不确定性、多样性和典型性确定预测数据之间的关联性，之后通过CP计算预测结果的可信度和置信值。作者将该算法应用在人脸识别上并取得了良好的效果。Johansson等针对使用回归树进行预测时，多个测试实例会划分到一个叶结点中但得到不同预测区间的现象，提出了使用CP解释这种现象发生的合理性，该文颇有一定新意。Sergio Matiz等人提出ICP-CNN模型，将CP算法融入卷机神经网络中，在人脸和对象识别数据库上进行的实验表明，ICP-CNN不仅在一定程度上增加了对新对象预测的可靠性，还提高了CNN的分类性能。Tadiparthi V.R.H等将CP算法与矩阵分解技术相结合灵活运用在推荐系统中，提出并分析了基于矩阵分解的不同不一致性度量保障了预测的错误率，由此可看出CP模型在不断变化的条件下拥有较强的通用性。Zhang等提出将CP算法与随机森林的基础算法结合用来解决无声语音识别可靠性问题，利用CP算法对无标签数据进行预测，不仅保证了识别的错误率还可获得单个数据预测的置信区间，增加了对新对象预测的可靠性。Wang等基于CP算法提出一种分布回归的区间预测算法，通过内核平均嵌入将输入分布嵌入到复制内核希尔伯特空间，构建了可靠的预测系统，并将此方法首次应用于温度和降水综合预测领域中，取得了新的突破，展现出CP算法的通用性及有效性。由此可见CP算法及相关框架正逐渐走向成熟并在预测结果可靠性计算上起到了积极的作用。

发明内容

针对现有技术存在的问题，本发明提供一种基于共形预测的高可靠入侵检测方法。借助共型预测方法具有评估预测结果置信度的属性，将Adaboost(Adaptive boosting)算法与共形预测(conformal prediction,CP)算法相结合，首先对工业控制系统网络连接记录的数据(以传统KDD CUP99数据集为例)进行数字化、标准化和降维预处理，然后在CP框架下使用Adaboost算法训练分类模型，利用CP算法来保证分类结果的可靠性。

为了解决上述技术问题，本发明采用以下的技术方案：

一种基于共形预测的高可靠入侵检测方法，包括以下步骤：

步骤1：采集工业控制系统的网络入侵检测数据，并对入侵检测数据进行预处理；

将入侵检测数据进行离散特征数值化，然后进行归一化处理，最后进行数据降维，将降维后的数据分为训练集、校准集和测试集；

所述归一化处理，公式如下：

其中u＝I，...，n，u是入侵检测数据的每条数据，z_u是每条数据归一化的结果，x_u是观测值，E(x)是特征数据的均值，D(x)是特征数据的方差；

所述数据进行降维采用PCA算法，设入侵检测数据高维样本的矩阵表示为：

其中，n表示样本数量，m表示样本维度，确定输入的样本数据X后，对样本的特征进行均值运算：

其中x_j是样本X的第j行向量，计算X的协方差矩阵C：

其中LL^T是m维方阵，将矩阵LL^T的特征向量按照对应特征值由大到小的顺序排列成矩阵，根据贡献率取该矩阵的前ξ行组成矩阵P，ξ＜m，根据矩阵P，计算降维后的目标矩阵Y：

所述贡献率μ为：

式中，π_c是矩阵LL^T的第c个特征值；

步骤2：初始化训练集中数据的权值分布，赋予训练集中每个样本一个权重，构成权重向量

其中N为训练集样本数，v＝1，...，M，M为迭代次数；使用支持向量机SVM对训练集中的样本数据进行训练；根据训练集中的样本数据构造k个SVM模型，其中k表示样本数据标签的数量，每个模型负责区分标签数据为f的数据和标签数据不为f的数据，其中f＝1，...，k

步骤2.1：初始化训练集中数据的权值分布，设训练集带有标签的样本为z＝{(x_i，y_i)，i＝1，...，N}，x_i是第i个训练样本的特征向量，y_i∈Y，其中Y是标签集合，设定每个样本的初始权重w_vi都相等；

步骤2.2：构造Adaboost算法中的弱分类器h，即非线性SVM模型，其分类超平面为：

f(x)＝η^Tφ(x)+b

其中，η为超平面法向量，x表示为特征变量，φ(x)表示x映射后的特征向量，b为常数；将数据样本根据标签取值分为两个数据子集Z₁＝{(x_i，y_i)|y_i＝r₁}和Z₂＝Z-Z₁，其中r₁是标签集合Y中的一种设定标签，根据Z1构造带约束条件的凸二次规划问题如下：

步骤2.3：引入拉格朗日乘子λ_i，i＝1，...，N，构造拉格朗日函数：

采用径向基核函数对高维空间中的内积进行计算：

步骤2.4：通过KKT条件求解拉格朗日函数，得到乘子λ_i，i＝1，...，N，对应(y_i＝r₁)vs(y_i≠r₁)的分类函数如下：

式中b₁为常数，将训练集按照标签取下一个值，即y_i＝r₂重新分成两个子集，其中r₂是标签集合Y中的另一种设定标签，并重复步骤2.2到步骤2.4，得到第二个分类函数f₂(x)；

步骤2.5：重复步骤2.2到步骤2.4，直至得到所有分类函数，f₁(x)，...，f_s(x)，其中S＝|Y|表示标签类别的数量。

步骤3：使用CP算法构造不一致测量函数A_N，得到衡量不一致程度的得分α，并计算校准集的不一致得分α_N′：

α_N′＝A_N({(x₁，y₁)，...，(x_N′-1，y_N′-1)，(x_N′，y_N′)})

其中N为训练集样本数，N′为校准集样本数。

设o₁，o₂，...，o_s是SVM算法输出数据实例x属于每个标签的概率，满足

构造CP框架下的不一致函数：

其中

σ∈[0，1]，α均随着o_q的增大而减小；

步骤4：计算训练集中每条数据的不一致得分α_j，并分别与校准集的不一致得分α_N′计算进行比较，获得校准集的不一致得分集α_cali，其中cali＝1，...，t，t为校准集的数量，同时建立改进p-value公式，计算每条训练数据对应的p-value值

将α_j分别与α_cali进行比较进而计算数据实例的p-value，改进p-value公式如下：

其中，

表示x_j对应标签为Y_q∈Y时的不一致得分，τ是抖动系数，τ∈[0，1]，

表示满足条件

的cali的数量；

步骤5：根据p-value值计算对应的每条训练数据可信度与置信值；

可信度C_r定义为：

置信值C_o定义为：

其中，

步骤6：当置信值大于等于设定阈值时，认为该数据预测成功，当前数据置信值为该条数据的最终置信值；反之，当置信值小于设定阈值时，认为该数据预测失败。

步骤7：计算弱分类器h的分类误差率，以及弱分类器h在强分类器中所占的权重，其中强分类器是由M个弱分类器组成的，M为提升迭代的次数。

弱分类器h的分类误差率e_v：

其中v＝1，...，M，M为提升迭代的次数；i＝1，...，N，N为训练样本数；H_v为第v个基本分类器，I(·)为判断分类器类型的概率函数，计算弱分类器在强分类器中所占权重β_v：

步骤8：依据步骤6的预测结果对数据权重D_v＝(w_v1，w_v2，…，w_vN)进行更新，降低预测正确的数据权重，提高预测错误的数据权重，并根据上一次训练结果更新训练样本的权值分布D_v+1：

其中Q_v为归一化常数，

步骤9：重复步骤2至步骤8，进行M次循环，得到M个弱分类器；

步骤10：按照弱分类器的权重β_v组合各个弱分类器g(x)得到最终的强分类器H_final：

步骤11：将测试数据集输入至强分类器H_final，输出预测结果，根据预测结果判断测试数据集的数据类型，若该数据为Normal类型数据，则存储在数据库中，反之，则发出预警并将其剔除。

本发明所产生的有益效果在于：

本发明提出一种基于共形预测的高可靠入侵检测方法，具备以下有益效果：

1、通过使用本方法对工业控制系统网络数据的高可靠性监控，提前感知系统的入侵病毒，将会大大提高工业系统的安全性，减少系统由于入侵病毒导致的系统瘫痪及异常，提高了企业工作的效率与质量。

2、设计了基于共形预测的入侵检测模型，该模型将共形预测融入到机器学习算法中(adaboost算法)，保证了机器学习算法对网络数据分类的高可靠性。

3、构造了CP框架下适合adaboost算法(以SVM为基分类器)的不一致性的计算公式。提高了估计预测结果置信度的精度，进而提高了模型的整体检测性能。

4、CP算法在计算p-value时，会随着校准集规模的增大而出现抖动现象。为了避免或消除该现象，通过引入平滑因子改进了p-value的计算公式，使其能够以更平滑的方式计算预测实例与校准集的不一致程度，从而改善了模型的稳定性。

附图说明

图1为本发明基于共形预测算法的高可靠入侵检测方法流程图；

图2为本发明传统Adaboost算法流程图(以SVM作为弱分类器)。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于共形预测的高可靠入侵检测方法，如图1所示，包括以下步骤：

步骤1：采集工业控制系统的网络入侵数据，本实施例中KDD CUP99数据集作为网络入侵数据，对KDD CUP99数据集入侵检测数据进行预处理；

将KDD CUP99数据集的入侵检测数据进行离散特征数值化，然后进行归一化处理，最后进行数据降维，将降维后的数据分为训练集、校准集和测试集；

由于数据集中各个特征下取值的数量级和量纲均各不相同，因而将数值化后的输入数据进行归一化处理，公式如下：

其中u＝I，...，n，u是入侵检测数据的每条数据，z_u是每条数据归一化的结果，x_u是观测值，E(x)是特征数据的均值，D(x)是特征数据的方差。标准化后的数据均值为0，标准差为1。为了降低数据特征间的冗余并提高数据的处理速度，对数据集进行降维。采用PCA算法对数据进行降维，保留主成分累计贡献率达95％的特征。

设入侵检测数据高维样本的矩阵表示为：

其中x_j是样本x的第j行向量，计算X的协方差矩阵C：

所述贡献率μ度量每个特征携带有效信息的多少，定义为：

式中，π_c是矩阵LL^T的第c个特征值；为保证用较少的特征携带较多的有效信息，用PCA对数据降维后，本文取贡献率占总贡献95％的前l个特征作为最后的降维结果。

其中N为训练集样本数，v＝1，...，M，M为迭代次数；使用支持向量机SVM对训练集中的样本数据进行训练；

本实施例中采用支持向量机作为Adaboost的基本分类器，如图2所示，由于网络入侵检测数据的多样性，因此需要在二分类SVM基础上，构造相应的多分类SVM模型，采用一对多构造方法，即根据训练集中的样本数据构造k个SVM模型，其中k表示样本数据标签的数量，每个模型负责区分标签数据为f的数据和标签数据不为f的数据，其中f＝1，...，k

f(x)＝η^Tφ(x)+b

其中，η为超平面法向量，x表示为特征变量，φ(x)表示x映射后的特征向量，b为常数；将数据样本根据标签取值分为两个数据子集Z₁＝{(x_i，y_i)|y_i＝r₁}和Z₂＝Z-Z₁，其中r₁是标签集合Y中的一种设定标签，根据乙构造带约束条件的凸二次规划问题如下：

当遇到高维或无穷维问题时，利用核函数可避φ(x_i)^Tφ(x_j)求解困难问题，核函数的类型众多，公式如下：

K(x_i，x_j)＝<φ(x_i)，φ(x_j)>＝φ(x_i)^Tφ(x_j)

采用径向基核函数(Radial Basis Kernel Function，简称RBF)对高维空间中的内积进行计算：

δ为大于0的参数；

其中N为训练集样本数，N′为校准集样本数。

构造CP框架下适合Adaboost算法的不一致函数：

其中

σ∈[0，1]，α均随着o_q的增大而减小，符合CP理论中对不一致的定义。

步骤4：计算训练集中每条数据的不一致得分α_j，并分别与校准集的不一致得分α_N′计算进行比较，获得校准集的不一致得分集α_cali，其中cali＝1，...，t，t为校准集的数量，同时建立了一种防止大规模数据造成随机抖动现象的改进p-value公式，计算每条训练数据对应的p-value值

它反映了训练集数据与校准集的差异程度。

其中，

表示满足条件

的cali的数量；可知

越大，预测数据x_j与校准集越一致。

可信度反映预测标签与真实标签之间的符合程度，而置信值反映的是预测标签等于真实标签的可信程度。可信度C_r定义为：

置信值C_o定义为：

其中，

即置信值等于1减去第二大的p-value。

显著性水平(Significance Level)是假设检验中的一个概念，是指当原假设为正确时将其拒绝了的概率或风险，它是公认的小概率事件的概率值，要在每次统计检验之前确定，本文将显著性水平记作ε∈[0，1]，本发明取ε＝0.05，在预先给定的显著性水平ε下，CP算法的不一致性得分当满足：

因而置信值阈值设为1-ε。当置信值大于等于阈值时，认为该数据预测成功，当前数据置信值为该条数据的最终置信值；反之，当置信值小于阈值时，认为该数据预测失败。

步骤7：计算弱分类器h(非线性SVM模型)的分类误差率，以及弱分类器h在强分类器中所占的权重，其中强分类器是由M个弱分类器组成的，M为提升迭代的次数。

弱分类器h的分类误差率e_v：

步骤8：依据步骤6的预测结果对数据权重D_v＝(w_v1，w_v2，...，w_vN)进行更新，降低预测正确的数据权重，提高预测错误的数据权重，并根据上一次训练结果更新训练样本的权值分布D_v+1：

其中Q_v为归一化常数，

步骤11：将测试数据集输入至强分类器H_final，输出预测结果，根据预测结果判断测试数据集的数据类型，若该数据为Normal类型数据，则存储在数据库中，反之，则发出预警并将其剔除以免影响工业系统的平稳运行。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。