CN113947150A - 一种基于共形预测的高可靠入侵检测方法 - Google Patents

一种基于共形预测的高可靠入侵检测方法 Download PDF

Info

Publication number
CN113947150A
CN113947150A CN202111215093.6A CN202111215093A CN113947150A CN 113947150 A CN113947150 A CN 113947150A CN 202111215093 A CN202111215093 A CN 202111215093A CN 113947150 A CN113947150 A CN 113947150A
Authority
CN
China
Prior art keywords
data
training
prediction
value
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111215093.6A
Other languages
English (en)
Inventor
金海波
赵欣越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202111215093.6A priority Critical patent/CN113947150A/zh
Publication of CN113947150A publication Critical patent/CN113947150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于共形预测的高可靠入侵检测方法,涉及网络安全入侵检测技术领域。借助共型预测方法具有评估预测结果置信度的属性,将Adaboost(Adaptive boosting)算法与共形预测(conformal prediction,CP)算法相结合,首先对工业控制系统网络连接记录的数据进行数字化、标准化和降维预处理,然后在CP框架下使用Adaboost算法训练分类模型,利用CP算法来保证分类结果的可靠性。通过使用本方法对工业控制系统网络数据的高可靠性监控,提前感知系统的入侵病毒,将会大大提高工业系统的安全性,减少系统由于入侵病毒导致的系统瘫痪及异常,提高了企业工作的效率与质量。

Description

一种基于共形预测的高可靠入侵检测方法
技术领域
本发明涉及网络安全入侵检测技术领域,尤其涉及一种基于共形预测的高可靠入侵检测方法。
背景技术
诸多机器学习算法在入侵检测模型中已开始大量应用且取得较好的检测效果,然而随着网络攻击逐渐呈现多步协同、分布式处理等特点,这些机器学习算法对入侵检测原始数据样本分类预测的可靠性并不理想。近年来,学者们提出了一系列基于机器学习的IDS相关算法,如支持向量机(support vector machine,SVM),决策树(decision tree,DT),随机森林(Random Forest,SF),贝叶斯网络(Bayesian network),人工神经网络(ArtificialNeural Network,ANN),K近邻算法(K-Nearest Neighbor,K-NN)等并有效的应用到IDS中。如Ikram等提出了一种将卡方特征提取与多分类SVM相结合的入侵检测模型。该模型通过计算每个属性特征的方差并确定最大属性方差来优化RBF核参数。如果核参数与方差成反比,则高方差将产生更好的核参数,通过这种方式使入侵检测的性能有所提升。姚等人提出了将决策树与朴素贝叶斯算法结合用来解决入侵检测分类问题,该方法降低了系统的误报率和漏报率,同时也增强了系统的自学习能力和实时性。Al-Yaseen等提出了一种基于SVM和极限学习机的多级混合入侵检测模型,该模型能够识别已知攻击和未知攻击,且通过采用k-means聚类方法产生新的小规模训练集从而减少分类器的训练时间。沈等人提出了一种基于人工蜂群优化的BP神经网络入侵检测模型,该模型根据人工蜂群算法全局寻优以及群体智能的特点,将神经网络的误差作为人工蜂群算法的适应度,选择适应度最好的一组参数作为神经网络的权值和阈值,避免神经网络陷入局部最优和收敛速度慢的问题。
可见,诸多机器学习算法已成功应用在IDS中,但上述研究大多是基于单一的传统机器学习方法,虽然在样本识别能力上都有提升,但是表达复杂函数的能力有限,泛化能力较弱,不能很好地处理复杂分类问题并且这些分类算法只输出预测结果,缺少对预测结果置信度的评价机制,因此无法保证预测结果的可靠性。2005年,Vladimir Vovk及同事提出了共形预测(Conformal Prediction,CP)算法,该算法的新颖之处在于用有效的置信度来衡量预测结果的可靠性。其主要思想是利用过去已有的经验确定当前数据预测的置信度。它基于一致性原理且定义明确的数学框架用以衡量校准集与测试实例的符合程度,使用数据实例的奇异度(不一致性)确定新实例预测的置信值,同时生成一组具有限定错误率在某一范围内的预测类标签,唯一的假设是训练集样本和被预测实例须独立同分布。
近年来,共形预测逐渐应用于各个领域,如Matiz和Barner提出了一种基于主动学习的CP算法,该算法通过求解带约束条件的线性回归问题结合预测数据的不确定性、多样性和典型性确定预测数据之间的关联性,之后通过CP计算预测结果的可信度和置信值。作者将该算法应用在人脸识别上并取得了良好的效果。Johansson等针对使用回归树进行预测时,多个测试实例会划分到一个叶结点中但得到不同预测区间的现象,提出了使用CP解释这种现象发生的合理性,该文颇有一定新意。Sergio Matiz等人提出ICP-CNN模型,将CP算法融入卷机神经网络中,在人脸和对象识别数据库上进行的实验表明,ICP-CNN不仅在一定程度上增加了对新对象预测的可靠性,还提高了CNN的分类性能。Tadiparthi V.R.H等将CP算法与矩阵分解技术相结合灵活运用在推荐系统中,提出并分析了基于矩阵分解的不同不一致性度量保障了预测的错误率,由此可看出CP模型在不断变化的条件下拥有较强的通用性。Zhang等提出将CP算法与随机森林的基础算法结合用来解决无声语音识别可靠性问题,利用CP算法对无标签数据进行预测,不仅保证了识别的错误率还可获得单个数据预测的置信区间,增加了对新对象预测的可靠性。Wang等基于CP算法提出一种分布回归的区间预测算法,通过内核平均嵌入将输入分布嵌入到复制内核希尔伯特空间,构建了可靠的预测系统,并将此方法首次应用于温度和降水综合预测领域中,取得了新的突破,展现出CP算法的通用性及有效性。由此可见CP算法及相关框架正逐渐走向成熟并在预测结果可靠性计算上起到了积极的作用。
发明内容
针对现有技术存在的问题,本发明提供一种基于共形预测的高可靠入侵检测方法。借助共型预测方法具有评估预测结果置信度的属性,将Adaboost(Adaptive boosting)算法与共形预测(conformal prediction,CP)算法相结合,首先对工业控制系统网络连接记录的数据(以传统KDD CUP99数据集为例)进行数字化、标准化和降维预处理,然后在CP框架下使用Adaboost算法训练分类模型,利用CP算法来保证分类结果的可靠性。
为了解决上述技术问题,本发明采用以下的技术方案:
一种基于共形预测的高可靠入侵检测方法,包括以下步骤:
步骤1:采集工业控制系统的网络入侵检测数据,并对入侵检测数据进行预处理;
将入侵检测数据进行离散特征数值化,然后进行归一化处理,最后进行数据降维,将降维后的数据分为训练集、校准集和测试集;
所述归一化处理,公式如下:
Figure BDA0003310326140000021
其中u=I,...,n,u是入侵检测数据的每条数据,zu是每条数据归一化的结果,xu是观测值,E(x)是特征数据的均值,D(x)是特征数据的方差;
所述数据进行降维采用PCA算法,设入侵检测数据高维样本的矩阵表示为:
Figure BDA0003310326140000031
其中,n表示样本数量,m表示样本维度,确定输入的样本数据X后,对样本的特征进行均值运算:
Figure BDA0003310326140000032
其中xj是样本X的第j行向量,计算X的协方差矩阵C:
Figure BDA0003310326140000033
其中LLT是m维方阵,将矩阵LLT的特征向量按照对应特征值由大到小的顺序排列成矩阵,根据贡献率取该矩阵的前ξ行组成矩阵P,ξ<m,根据矩阵P,计算降维后的目标矩阵Y:
Figure BDA0003310326140000034
所述贡献率μ为:
Figure BDA0003310326140000035
式中,πc是矩阵LLT的第c个特征值;
步骤2:初始化训练集中数据的权值分布,赋予训练集中每个样本一个权重,构成权重向量
Figure BDA0003310326140000036
其中N为训练集样本数,v=1,...,M,M为迭代次数;使用支持向量机SVM对训练集中的样本数据进行训练;根据训练集中的样本数据构造k个SVM模型,其中k表示样本数据标签的数量,每个模型负责区分标签数据为f的数据和标签数据不为f的数据,其中f=1,...,k
步骤2.1:初始化训练集中数据的权值分布,设训练集带有标签的样本为z={(xi,yi),i=1,...,N},xi是第i个训练样本的特征向量,yi∈Y,其中Y是标签集合,设定每个样本的初始权重wvi都相等;
步骤2.2:构造Adaboost算法中的弱分类器h,即非线性SVM模型,其分类超平面为:
f(x)=ηTφ(x)+b
其中,η为超平面法向量,x表示为特征变量,φ(x)表示x映射后的特征向量,b为常数;将数据样本根据标签取值分为两个数据子集Z1={(xi,yi)|yi=r1}和Z2=Z-Z1,其中r1是标签集合Y中的一种设定标签,根据Z1构造带约束条件的凸二次规划问题如下:
Figure BDA0003310326140000041
步骤2.3:引入拉格朗日乘子λi,i=1,...,N,构造拉格朗日函数:
Figure BDA0003310326140000042
采用径向基核函数对高维空间中的内积进行计算:
Figure BDA0003310326140000043
步骤2.4:通过KKT条件求解拉格朗日函数,得到乘子λi,i=1,...,N,对应(yi=r1)vs(yi≠r1)的分类函数如下:
Figure BDA0003310326140000044
式中b1为常数,将训练集按照标签取下一个值,即yi=r2重新分成两个子集,其中r2是标签集合Y中的另一种设定标签,并重复步骤2.2到步骤2.4,得到第二个分类函数f2(x);
步骤2.5:重复步骤2.2到步骤2.4,直至得到所有分类函数,f1(x),...,fs(x),其中S=|Y|表示标签类别的数量。
步骤3:使用CP算法构造不一致测量函数AN,得到衡量不一致程度的得分α,并计算校准集的不一致得分αN′
αN′=AN({(x1,y1),...,(xN′-1,yN′-1),(xN′,yN′)})
其中N为训练集样本数,N′为校准集样本数。
设o1,o2,...,os是SVM算法输出数据实例x属于每个标签的概率,满足
Figure BDA0003310326140000045
构造CP框架下的不一致函数:
Figure BDA0003310326140000051
其中
Figure BDA0003310326140000052
σ∈[0,1],α均随着oq的增大而减小;
步骤4:计算训练集中每条数据的不一致得分αj,并分别与校准集的不一致得分αN′计算进行比较,获得校准集的不一致得分集αcali,其中cali=1,...,t,t为校准集的数量,同时建立改进p-value公式,计算每条训练数据对应的p-value值
Figure BDA0003310326140000053
将αj分别与αcali进行比较进而计算数据实例的p-value,改进p-value公式如下:
Figure BDA0003310326140000054
其中,
Figure BDA0003310326140000055
表示xj对应标签为Yq∈Y时的不一致得分,τ是抖动系数,τ∈[0,1],
Figure BDA0003310326140000056
表示满足条件
Figure BDA0003310326140000057
的cali的数量;
步骤5:根据p-value值计算对应的每条训练数据可信度与置信值;
可信度Cr定义为:
Figure BDA0003310326140000058
置信值Co定义为:
Figure BDA0003310326140000059
其中,
Figure BDA00033103261400000510
步骤6:当置信值大于等于设定阈值时,认为该数据预测成功,当前数据置信值为该条数据的最终置信值;反之,当置信值小于设定阈值时,认为该数据预测失败。
步骤7:计算弱分类器h的分类误差率,以及弱分类器h在强分类器中所占的权重,其中强分类器是由M个弱分类器组成的,M为提升迭代的次数。
弱分类器h的分类误差率ev
Figure BDA00033103261400000511
其中v=1,...,M,M为提升迭代的次数;i=1,...,N,N为训练样本数;Hv为第v个基本分类器,I(·)为判断分类器类型的概率函数,计算弱分类器在强分类器中所占权重βv
Figure BDA00033103261400000512
步骤8:依据步骤6的预测结果对数据权重Dv=(wv1,wv2,…,wvN)进行更新,降低预测正确的数据权重,提高预测错误的数据权重,并根据上一次训练结果更新训练样本的权值分布Dv+1
Figure BDA0003310326140000061
其中Qv为归一化常数,
Figure BDA0003310326140000062
步骤9:重复步骤2至步骤8,进行M次循环,得到M个弱分类器;
步骤10:按照弱分类器的权重βv组合各个弱分类器g(x)得到最终的强分类器Hfinal
Figure BDA0003310326140000063
Figure BDA0003310326140000064
步骤11:将测试数据集输入至强分类器Hfinal,输出预测结果,根据预测结果判断测试数据集的数据类型,若该数据为Normal类型数据,则存储在数据库中,反之,则发出预警并将其剔除。
本发明所产生的有益效果在于:
本发明提出一种基于共形预测的高可靠入侵检测方法,具备以下有益效果:
1、通过使用本方法对工业控制系统网络数据的高可靠性监控,提前感知系统的入侵病毒,将会大大提高工业系统的安全性,减少系统由于入侵病毒导致的系统瘫痪及异常,提高了企业工作的效率与质量。
2、设计了基于共形预测的入侵检测模型,该模型将共形预测融入到机器学习算法中(adaboost算法),保证了机器学习算法对网络数据分类的高可靠性。
3、构造了CP框架下适合adaboost算法(以SVM为基分类器)的不一致性的计算公式。提高了估计预测结果置信度的精度,进而提高了模型的整体检测性能。
4、CP算法在计算p-value时,会随着校准集规模的增大而出现抖动现象。为了避免或消除该现象,通过引入平滑因子改进了p-value的计算公式,使其能够以更平滑的方式计算预测实例与校准集的不一致程度,从而改善了模型的稳定性。
附图说明
图1为本发明基于共形预测算法的高可靠入侵检测方法流程图;
图2为本发明传统Adaboost算法流程图(以SVM作为弱分类器)。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于共形预测的高可靠入侵检测方法,如图1所示,包括以下步骤:
步骤1:采集工业控制系统的网络入侵数据,本实施例中KDD CUP99数据集作为网络入侵数据,对KDD CUP99数据集入侵检测数据进行预处理;
将KDD CUP99数据集的入侵检测数据进行离散特征数值化,然后进行归一化处理,最后进行数据降维,将降维后的数据分为训练集、校准集和测试集;
由于数据集中各个特征下取值的数量级和量纲均各不相同,因而将数值化后的输入数据进行归一化处理,公式如下:
Figure BDA0003310326140000071
其中u=I,...,n,u是入侵检测数据的每条数据,zu是每条数据归一化的结果,xu是观测值,E(x)是特征数据的均值,D(x)是特征数据的方差。标准化后的数据均值为0,标准差为1。为了降低数据特征间的冗余并提高数据的处理速度,对数据集进行降维。采用PCA算法对数据进行降维,保留主成分累计贡献率达95%的特征。
设入侵检测数据高维样本的矩阵表示为:
Figure BDA0003310326140000072
其中,n表示样本数量,m表示样本维度,确定输入的样本数据x后,对样本的特征进行均值运算:
Figure BDA0003310326140000073
其中xj是样本x的第j行向量,计算X的协方差矩阵C:
Figure BDA0003310326140000074
其中LLT是m维方阵,将矩阵LLT的特征向量按照对应特征值由大到小的顺序排列成矩阵,根据贡献率取该矩阵的前ξ行组成矩阵P,ξ<m,根据矩阵P,计算降维后的目标矩阵Y:
Figure BDA0003310326140000075
所述贡献率μ度量每个特征携带有效信息的多少,定义为:
Figure BDA0003310326140000081
式中,πc是矩阵LLT的第c个特征值;为保证用较少的特征携带较多的有效信息,用PCA对数据降维后,本文取贡献率占总贡献95%的前l个特征作为最后的降维结果。
步骤2:初始化训练集中数据的权值分布,赋予训练集中每个样本一个权重,构成权重向量
Figure BDA0003310326140000082
其中N为训练集样本数,v=1,...,M,M为迭代次数;使用支持向量机SVM对训练集中的样本数据进行训练;
本实施例中采用支持向量机作为Adaboost的基本分类器,如图2所示,由于网络入侵检测数据的多样性,因此需要在二分类SVM基础上,构造相应的多分类SVM模型,采用一对多构造方法,即根据训练集中的样本数据构造k个SVM模型,其中k表示样本数据标签的数量,每个模型负责区分标签数据为f的数据和标签数据不为f的数据,其中f=1,...,k
步骤2.1:初始化训练集中数据的权值分布,设训练集带有标签的样本为z={(xi,yi),i=1,...,N},xi是第i个训练样本的特征向量,yi∈Y,其中Y是标签集合,设定每个样本的初始权重wvi都相等;
步骤2.2:构造Adaboost算法中的弱分类器h,即非线性SVM模型,其分类超平面为:
f(x)=ηTφ(x)+b
其中,η为超平面法向量,x表示为特征变量,φ(x)表示x映射后的特征向量,b为常数;将数据样本根据标签取值分为两个数据子集Z1={(xi,yi)|yi=r1}和Z2=Z-Z1,其中r1是标签集合Y中的一种设定标签,根据乙构造带约束条件的凸二次规划问题如下:
Figure BDA0003310326140000083
步骤2.3:引入拉格朗日乘子λi,i=1,...,N,构造拉格朗日函数:
Figure BDA0003310326140000084
当遇到高维或无穷维问题时,利用核函数可避φ(xi)Tφ(xj)求解困难问题,核函数的类型众多,公式如下:
K(xi,xj)=<φ(xi),φ(xj)>=φ(xi)Tφ(xj)
采用径向基核函数(Radial Basis Kernel Function,简称RBF)对高维空间中的内积进行计算:
Figure BDA0003310326140000091
δ为大于0的参数;
步骤2.4:通过KKT条件求解拉格朗日函数,得到乘子λi,i=1,...,N,对应(yi=r1)vs(yi≠r1)的分类函数如下:
Figure BDA0003310326140000092
式中b1为常数,将训练集按照标签取下一个值,即yi=r2重新分成两个子集,其中r2是标签集合Y中的另一种设定标签,并重复步骤2.2到步骤2.4,得到第二个分类函数f2(x);
步骤2.5:重复步骤2.2到步骤2.4,直至得到所有分类函数,f1(x),...,fs(x),其中S=|Y|表示标签类别的数量。
步骤3:使用CP算法构造不一致测量函数AN,得到衡量不一致程度的得分α,并计算校准集的不一致得分αN′
αN′=AN({(x1,y1),...,(xN′-1,yN′-1),(xN′,yN′)})
其中N为训练集样本数,N′为校准集样本数。
设o1,o2,...,os是SVM算法输出数据实例x属于每个标签的概率,满足
Figure BDA0003310326140000093
构造CP框架下适合Adaboost算法的不一致函数:
Figure BDA0003310326140000094
其中
Figure BDA0003310326140000095
σ∈[0,1],α均随着oq的增大而减小,符合CP理论中对不一致的定义。
步骤4:计算训练集中每条数据的不一致得分αj,并分别与校准集的不一致得分αN′计算进行比较,获得校准集的不一致得分集αcali,其中cali=1,...,t,t为校准集的数量,同时建立了一种防止大规模数据造成随机抖动现象的改进p-value公式,计算每条训练数据对应的p-value值
Figure BDA0003310326140000096
它反映了训练集数据与校准集的差异程度。
将αj分别与αcali进行比较进而计算数据实例的p-value,改进p-value公式如下:
Figure BDA0003310326140000101
其中,
Figure BDA0003310326140000102
表示xj对应标签为Yq∈Y时的不一致得分,τ是抖动系数,τ∈[0,1],
Figure BDA0003310326140000103
表示满足条件
Figure BDA0003310326140000104
的cali的数量;可知
Figure BDA0003310326140000105
越大,预测数据xj与校准集越一致。
步骤5:根据p-value值计算对应的每条训练数据可信度与置信值;
可信度反映预测标签与真实标签之间的符合程度,而置信值反映的是预测标签等于真实标签的可信程度。可信度Cr定义为:
Figure BDA0003310326140000106
置信值Co定义为:
Figure BDA0003310326140000107
其中,
Figure BDA0003310326140000108
即置信值等于1减去第二大的p-value。
步骤6:当置信值大于等于设定阈值时,认为该数据预测成功,当前数据置信值为该条数据的最终置信值;反之,当置信值小于设定阈值时,认为该数据预测失败。
显著性水平(Significance Level)是假设检验中的一个概念,是指当原假设为正确时将其拒绝了的概率或风险,它是公认的小概率事件的概率值,要在每次统计检验之前确定,本文将显著性水平记作ε∈[0,1],本发明取ε=0.05,在预先给定的显著性水平ε下,CP算法的不一致性得分当满足:
Figure BDA0003310326140000109
因而置信值阈值设为1-ε。当置信值大于等于阈值时,认为该数据预测成功,当前数据置信值为该条数据的最终置信值;反之,当置信值小于阈值时,认为该数据预测失败。
步骤7:计算弱分类器h(非线性SVM模型)的分类误差率,以及弱分类器h在强分类器中所占的权重,其中强分类器是由M个弱分类器组成的,M为提升迭代的次数。
弱分类器h的分类误差率ev
Figure BDA00033103261400001010
其中v=1,...,M,M为提升迭代的次数;i=1,...,N,N为训练样本数;Hv为第v个基本分类器,I(·)为判断分类器类型的概率函数,计算弱分类器在强分类器中所占权重βv
Figure BDA00033103261400001011
步骤8:依据步骤6的预测结果对数据权重Dv=(wv1,wv2,...,wvN)进行更新,降低预测正确的数据权重,提高预测错误的数据权重,并根据上一次训练结果更新训练样本的权值分布Dv+1
Figure BDA0003310326140000111
其中Qv为归一化常数,
Figure BDA0003310326140000112
步骤9:重复步骤2至步骤8,进行M次循环,得到M个弱分类器;
步骤10:按照弱分类器的权重βv组合各个弱分类器g(x)得到最终的强分类器Hfinal:
Figure BDA0003310326140000113
Figure BDA0003310326140000114
步骤11:将测试数据集输入至强分类器Hfinal,输出预测结果,根据预测结果判断测试数据集的数据类型,若该数据为Normal类型数据,则存储在数据库中,反之,则发出预警并将其剔除以免影响工业系统的平稳运行。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种基于共形预测的高可靠入侵检测方法,其特征在于,包括以下步骤:
步骤1:采集工业控制系统的网络入侵检测数据,并对入侵检测数据进行预处理;
将入侵检测数据进行离散特征数值化,然后进行归一化处理,最后进行数据降维,将降维后的数据分为训练集、校准集和测试集;
步骤2:初始化训练集中数据的权值分布,赋予训练集中每个样本一个权重,构成权重向量Dv=(wv1,wv2,...,wvN),
Figure FDA0003310326130000011
其中N为训练集样本数,v=1,...,M,M为迭代次数,使用支持向量机SVM对训练集中的样本数据进行训练;根据训练集中的样本数据构造k个SVM模型,其中k表示样本数据标签的数量,每个模型负责区分标签数据为f的数据和标签数据不为f的数据,其中f=1,...,k;
步骤3:使用CP算法构造不一致测量函数AN,得到衡量不一致程度的得分α,并计算校准集的不一致得分αN′
αN′=AN({(x1,y1),...,(xN′-1,yN′-1),(xN′,yN′)})
其中N为训练集样本数,N′为校准集样本数;
设o1,o2,...,oS是SVM算法输出数据实例x属于每个标签的概率,满足
Figure FDA0003310326130000012
构造CP框架下的不一致函数:
Figure FDA0003310326130000013
其中
Figure FDA0003310326130000014
σ∈[0,1],α均随着oq的增大而减小;
步骤4:计算训练集中每条数据的不一致得分αj,并分别与校准集的不一致得分αN′计算进行比较,获得校准集的不一致得分集αcali,其中cali=1,...,t,t为校准集的数量,同时建立改进p-value公式,计算每条训练数据对应的p-value值
Figure FDA0003310326130000015
将αj分别与αcali进行比较进而计算数据实例的p-value,改进p-value公式如下:
Figure FDA0003310326130000016
其中,
Figure FDA0003310326130000017
表示xj对应标签为Yq∈Y时的不一致得分,τ是抖动系数,τ∈[0,1],
Figure FDA0003310326130000018
表示满足条件
Figure FDA0003310326130000019
的cali的数量;
步骤5:根据p-value值计算对应的每条训练数据可信度与置信值;
步骤6:当置信值大于等于设定阈值时,认为该数据预测成功,当前数据置信值为该条数据的最终置信值;反之,当置信值小于设定阈值时,认为该数据预测失败;
步骤7:计算弱分类器h的分类误差率ev,以及弱分类器h在强分类器中所占的权重,其中强分类器是由M个弱分类器组成的,M为提升迭代的次数;
步骤8:依据步骤6的预测结果对数据权重Dv=(wv1,wv2,...,wvN)进行更新,降低预测正确的数据权重,提高预测错误的数据权重,并根据上一次训练结果更新训练样本的权值分布Dv+1
Figure FDA0003310326130000021
其中Qy为归一化常数,
Figure FDA0003310326130000022
步骤9:重复步骤2至步骤8,进行M次循环,得到M个弱分类器;
步骤10:按照弱分类器的权重βv组合各个弱分类器g(x)得到最终的强分类器Hfinal
Figure FDA0003310326130000023
Figure FDA0003310326130000024
步骤11:将测试数据集输入至强分类器Hfinal,输出预测结果,根据预测结果判断测试数据集的数据类型,若该数据为Normal类型数据,则存储在数据库中,反之,则发出预警并将其剔除。
2.根据权利要求1所述的一种基于共形预测的高可靠入侵检测方法,其特征在于,步骤1中所述归一化处理,公式如下:
Figure FDA0003310326130000025
其中u=I,...,n,u是入侵检测数据的每条数据,zu是每条数据归一化的结果,xu是观测值,E(x)是特征数据的均值,D(x)是特征数据的方差;
所述数据进行降维采用PCA算法,设入侵检测数据高维样本的矩阵表示为:
Figure FDA0003310326130000026
其中,n表示样本数量,m表示样本维度,确定输入的样本数据X后,对样本的特征进行均值运算:
Figure FDA0003310326130000027
其中xj是样本X的第j行向量,计算X的协方差矩阵C:
Figure FDA0003310326130000031
其中LLT是m维方阵,将矩阵LLT的特征向量按照对应特征值由大到小的顺序排列成矩阵,根据贡献率取该矩阵的前ξ行组成矩阵P,ξ<m,根据矩阵P,计算降维后的目标矩阵Y:
Figure FDA0003310326130000032
3.根据权利要求2所述的一种基于共形预测的高可靠入侵检测方法,其特征在于,所述贡献率μ为:
Figure FDA0003310326130000033
式中,πc是矩阵LLT的第c个特征值。
4.根据权利要求1所述的一种基于共形预测的高可靠入侵检测方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:初始化训练集中数据的权值分布,设训练集带有标签的样本为z={(xi,yi),i=1,...,N},xi是第i个训练样本的特征向量,yi∈Y,其中Y是标签集合,设定每个样本的初始权重wvi都相等;
步骤2.2:构造Adaboost算法中的弱分类器h,即非线性SVM模型,其分类超平面为:
f(x)=ηTφ(x)+b
其中,η为超平面法向量,x表示为特征变量,φ(x)表示x映射后的特征向量,b为常数;将数据样本根据标签取值分为两个数据子集Z1={(xi,yi)|yi=r1}和Z2=Z-Z1,其中r1是标签集合Y中的一种设定标签,根据Z1构造带约束条件的凸二次规划问题如下:
Figure FDA0003310326130000034
s.t.yiTΦ(xi)+b)≥1,i=1,2,...,N
步骤2.3:引入拉格朗日乘子λi,i=1,...,N,构造拉格朗日函数:
Figure FDA0003310326130000035
λi≥0,i=1,2,...,N,j=1,2,...,N
采用径向基核函数对高维空间中的内积进行计算:
Figure FDA0003310326130000041
步骤2.4:通过KKT条件求解拉格朗日函数,得到乘子λi,i=1,...,N,对应(yi=r1)vs(yi≠r1)的分类函数如下:
Figure FDA0003310326130000042
式中b1为常数,将训练集按照标签取下一个值,即yi=r2重新分成两个子集,其中r2是标签集合Y中的另一种设定标签,并重复步骤2.2到步骤2.4,得到第二个分类函数f2(x);
步骤2.5:重复步骤2.2到步骤2.4,直至得到所有分类函数,f1(x),...,fs(x),其中S=|Y|表示标签类别的数量。
5.根据权利要求1所述的一种基于共形预测的高可靠入侵检测方法,其特征在于,步骤5中所述可信度Cr定义为:
Figure FDA0003310326130000043
置信值Co定义为:
Figure FDA0003310326130000044
其中,
Figure FDA0003310326130000045
6.根据权利要求1所述的一种基于共形预测的高可靠入侵检测方法,其特征在于,步骤7中所述所述弱分类器h的分类误差率ev
Figure FDA0003310326130000046
其中v=1,...,M,M为提升迭代的次数;i=1,...,N,N为训练样本数;Hv为第v个基本分类器,I(·)为判断分类器类型的概率函数,计算弱分类器在强分类器中所占权重βv
Figure FDA0003310326130000047
CN202111215093.6A 2021-10-19 2021-10-19 一种基于共形预测的高可靠入侵检测方法 Pending CN113947150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111215093.6A CN113947150A (zh) 2021-10-19 2021-10-19 一种基于共形预测的高可靠入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111215093.6A CN113947150A (zh) 2021-10-19 2021-10-19 一种基于共形预测的高可靠入侵检测方法

Publications (1)

Publication Number Publication Date
CN113947150A true CN113947150A (zh) 2022-01-18

Family

ID=79331396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111215093.6A Pending CN113947150A (zh) 2021-10-19 2021-10-19 一种基于共形预测的高可靠入侵检测方法

Country Status (1)

Country Link
CN (1) CN113947150A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900331A (zh) * 2022-04-13 2022-08-12 中山大学 基于can报文特征的车载can总线入侵检测方法
CN115329670A (zh) * 2022-08-11 2022-11-11 深圳朗道智通科技有限公司 一种无人驾驶车辆的数据采集方法
CN117934247A (zh) * 2024-03-22 2024-04-26 广东电网有限责任公司 基于时序分解的碳排放因子预测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114900331A (zh) * 2022-04-13 2022-08-12 中山大学 基于can报文特征的车载can总线入侵检测方法
CN114900331B (zh) * 2022-04-13 2023-06-09 中山大学 基于can报文特征的车载can总线入侵检测方法
CN115329670A (zh) * 2022-08-11 2022-11-11 深圳朗道智通科技有限公司 一种无人驾驶车辆的数据采集方法
CN117934247A (zh) * 2024-03-22 2024-04-26 广东电网有限责任公司 基于时序分解的碳排放因子预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113947150A (zh) 一种基于共形预测的高可靠入侵检测方法
US10956808B1 (en) System and method for unsupervised anomaly detection
Mirza Computer network intrusion detection using various classifiers and ensemble learning
Hady et al. Semi-supervised learning
Markou et al. Novelty detection: a review—part 1: statistical approaches
US11455518B2 (en) User classification from data via deep segmentation for semi-supervised learning
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN110134803B (zh) 基于哈希学习的图像数据快速检索方法
Huerta et al. Inhibition in multiclass classification
CN110458213A (zh) 一种分类模型鲁棒性能评估方法
CN111177224A (zh) 一种基于条件式规整化流模型的时间序列无监督异常检测方法
CN112395168A (zh) 一种基于Stacking的边缘侧业务行为识别方法
CN116484289A (zh) 一种碳排放异常数据检测方法、终端及存储介质
Al-Zubaidi et al. Stroke prediction using machine learning classification methods
Ali et al. Pohmm/svm: A hybrid approach for keystroke biometric user authentication
CN110334508B (zh) 一种主机序列入侵检测方法
Karankar et al. Comparative study of various machine learning classifiers on medical data
CN111107082A (zh) 一种基于深度信念网络的免疫入侵检测方法
Dessein et al. Parameter estimation in finite mixture models by regularized optimal transport: A unified framework for hard and soft clustering
Faouzi et al. Classic machine learning algorithms
Deineko et al. Data stream online clustering based on fuzzy expectation-maximization approach
CN115079660A (zh) 一种多工况过程故障监测与诊断方法
Anowar et al. Incremental Learning with Self-labeling of Incoming High-dimensional Data.
Soni et al. Metric Learning for comparison of HMMs using Graph Neural Networks
CN113516180B (zh) 一种针对Z-Wave智能设备识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination