CN110581840B - 基于双层异质集成学习器的入侵检测方法 - Google Patents
基于双层异质集成学习器的入侵检测方法 Download PDFInfo
- Publication number
- CN110581840B CN110581840B CN201910671353.7A CN201910671353A CN110581840B CN 110581840 B CN110581840 B CN 110581840B CN 201910671353 A CN201910671353 A CN 201910671353A CN 110581840 B CN110581840 B CN 110581840B
- Authority
- CN
- China
- Prior art keywords
- classifiers
- classifier
- probability
- algorithm
- intrusion detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于双层异质集成学习器的入侵检测方法,包括以下步骤:使用PKPCA数据降维算法对原始数据进行降维处理,得到预处理数据集;使用N个分类器对预处理数据集进行处理,使用分层十折交叉验证方法防止过拟合;采用分类器评估算法选择表现最好的M个分类器作为异质学习器,其中2≤M<N;执行多分类器融合算法对M个分类器的输出结果进行基于概率的加权投票,该概率是指分类器对于每个输入向量所对应的输出类别的概率,采用对M个分类器的概率加权公式来得到其权值,投票结果作为最后的入侵检测结果。本发明能够在保证准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。
Description
技术领域
本发明提出一种基于双层异质集成学习器的入侵检测方法,它采用了基于异常的策略进行入侵检测,属于网络安全领域。
背景技术
入侵检测技术是检测网络安全攻击的常用方法。当前入侵检测分为两大类方法,一类是基于误用的入侵检测方法,采用的是签名模式匹配的方法,该类方法基本原理是将已知的签名或攻击模式与受监控的流量进行匹配以此来监控入侵标志的网络流量信息。其优点在于误报率较低,其难点在于如何设计模式既能够表达“入侵”现象,又不会将正常的活动包含进来。它的缺点在于只能够对已知的攻击进行建模,很难检测到未写入规则库的攻击;此外,在发现新攻击和部署其相应签名之间可能存在较大的时间间隔,安全管理员也需对开发的签名进行管理、分发、保持最新。一旦攻击者稍微修改一些已知的恶意软件,就会带来较大挑战。
另一类是基于异常的入侵检测方法,基本原理是通过在训练阶段对正常网络行为进行建模,然后部署学习模型以监视网络流量来寻找入侵迹象。相比基于误用的入侵检测方法,其优点在于能够检测出未知的攻击,但是仍然存在误报率和漏报率较高的缺点。
为此,提出了本发明的方法,通过采用学习器集成的异常检测方法在保证检测率的情况下,减少入侵检测的误报率和漏报率。
在基于异常的网络入侵检测中,很多研究者对机器学习算法进行了改进和应用。将传统机器学习的入侵检测方法分为两类:使用单个分类器进行入侵检测,以及融合多个分类器来进行检测。使用单个分类器的检测方法具有较高错误率,因为在分类过程中,这些方法的性能通常会随着不同的分类器和/或不同的数据集的变化而变化,因此会产生较高错误率。而以合理的方式融合多个分类器可以减少整体分类错误并增强模型的泛化能力。这个融合过程被称为集成学习。近年来,基于深度学习的异常检测研究也越来越广泛。然而,由于缺乏理论基础、超参数和网络设计,深度神经网络被认为是一个“黑匣子”,其计算非常耗时,解释性也较差。同时,通过应用传统的机器学习方法,可以轻松调整超参数并改变模型设计。因此,使用传统的机器学习模型更具说明性和效率。集成学习具有很强的泛化能力,可以降低错误率,因此几种传统分类器的组合可以降低错误率,使能够更全面地了解数据和底层算法。
对于入侵检测,还需要考虑时间消耗,因为许多研究人员以牺牲过多的时间消耗为代价来提高模型的检测率。这对于入侵检测来说是不可取的,因为大量的时间消耗会影响其实用性。
综上所述,目前有关入侵检测的应用大都无法应对未知的攻击,而基于异常的入侵检测方法虽然已经有一些初步的应用,但是大都以时间消耗为代价来保证误报率和漏报率。由于入侵检测误报和漏报的代价较高,已有的方法并不能完全达到高精确率、低误报率漏报率,和时间消耗较小的入侵检测要求。
发明内容
为解决上述问题,本发明提出一种基于双层异质集成学习器的入侵检测方法(intrusion detection model using double-layer heterogeneous ensemble learnerstrategy,IDHEL),能够在保证准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。
一种基于双层异质集成学习器的入侵检测方法,其步骤包括:
1)数据预处理。使用概率核主成分分析方法(PKPCA)数据降维算法,尽可能减少信息损失和降低计算开销。PKPCA算法相比于PCA算法,既能够将数据的概率分布考虑进去,又能够利用数据的高阶统计信息,以此来得到更好的降维效率。其具体步骤如下所示:
1.将原始数据按列组成n行m列矩阵X;
2.计算核矩阵,选定高斯径向核函数中的参数,计算核矩阵K,修正核矩阵得到KL;
3.求出协方差矩阵C,运用Jacobi迭代算法计算KL的特征值和特征向量;
4.将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵;
5.通过施密特正交化方法单位正交化特征向量得到P;
6.Y=PX即为降维到k维后的数据。
2)单分类过程。使用N个分类器对预处理数据集进行实验,应用了分层十折交叉验证方法来防止模型过拟合。其中,N取值越大,则最终投票结果的准确度会越高,但会增加后续步骤的处理难度,故优选地,使用五个分类器为宜,该五个分类器包括朴素贝叶斯、Bp神经网络、C4.5决策树、逻辑回归和SVM。分层十折交叉验证方法则是在交叉验证的基础上,考虑了数据的类别,使得每一份数据都能够体现原始数据的数据比例。
3)分类器筛选过程。采用分类器评估算法(CEA)选择表现最好的M个分类器作为异质学习器。CEA算法综合考量了F值和AUC值,能够完善得对分类器的表现进行评估。其中,2≤M<N,M取值偏小,最终投票结果误差会增大,取值偏大,会增加处理的难度,故优选地,选择三个分类器。
4)多分类器集成过程。执行多分类器融合算法(McFA)对结果进行基于概率的加权投票,投票结果作为最后的入侵检测结果。概率指的是分类器对于每个输入向量所对应的输出类别的概率,采用对各个分类器的概率加权公式来得到其权值。
与当前已有的相关技术相比,本发明具有以下几点优势:
1、本发明采用了概率核主成分分析方法来降低数据维度,能够在捕获数据高维信息的同时,考虑其概率分布;
2、本发明采用了基于概率加权投票的双层异质学习器集成学习策略,能够在减少整体分类误差,降低时间消耗。
本发明的目的是对基于异常的入侵检测方法进行改进和优化,在保证入侵检测准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。
附图说明
图1是本发明的一种基于双层异质集成学习器的入侵检测方法总览图。
图2是数据分层十折交叉验证示意图。
图3是分类器分层十折交叉验证算法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本实施例公开一种基于双层异质集成学习器的入侵检测方法,本方法的总体思路是通过采用基于概率加权投票的双层异质学习器集成学习策略,在保证入侵检测准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。本方法分为两个部分:第一部分是数据预处理,使用PKPCA数据降维算法,它结合了PPCA和KPCA的优点,能够尽可能地减少信息损失和降低计算开销。第二部分是入侵检测的双层策略,又分为两部分。首先是单分类过程,使用五种不同的分类器来分别检测,包括:朴素贝叶斯、Bp神经网络、C4.5决策树、逻辑回归和SVM。此外,应用了分层十折交叉验证方法来防止模型过拟合。其次是多分类器集成过程,使用分类器评估算法(CEA)选择最好的三个分类器作为异质学习器,然后执行多分类器融合算法(McFA)进行再处理。
本方法的整体流程图如图1所示,其具体步骤细节描述如下:
(1)使用PKPCA数据降维算法。
使用概率核主成分分析(PKPCA)方法,该方法不仅能够捕获数据的高维信息,而且还考虑了其概率分布。该方法具体描述如下:
假设{x1,x2,...,xN}是数据空间Rd中的训练数据,xN表示第N条入侵检测数据集中的训练数据,并且数据由映射函数Ψ被映射到高维数据空间Rf中,其中f>d。映射数据用Ψf×N={Ψ1,Ψ2,...,ΨN}表示。
隐藏变量模型是Ψ(x)=Wz+μ+ε,其中z~N(0,Iq),ε~N(0,ρIf),W表示f×q的因子矩阵。参数μ和W的最大似然估计表示为:
其中R是任何q×q大小的旋转矩阵,λq和Uq分别是第q大特征值和相应的包含C的特征向量。
采用最大期望算法(EM算法)在PKPCA中查找参数Q和该算法的简单思路是先初始化隐含变量,然后估计出每个类别对应的分布参数,接着再根据这个分布参数去调整每个样本的隐含参数,依次迭代。本发明使用了以下迭代公式:
使用PKPCA数据降维算法进行降维处理的过程如下:
1.将原始数据按列组成n行m列矩阵X;
2.计算核矩阵,选定高斯径向核函数中的参数,计算核矩阵K,修正核矩阵得到KL;
3.求出协方差矩阵C,运用Jacobi迭代算法计算KL的特征值和特征向量;
4.将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵;
5.通过施密特正交化方法单位正交化特征向量得到P;
6.Y=PX即为降维到k维后的数据。
(2)使用五种经典的分类器对预处理数据集进行处理,应用分层十折交叉验证方法来防止模型过拟合。
在分类过程中,单个分类器可能带来分类偏差,导致较高的错误率。集成策略意味着融合多个分类器可以产生更好的结果。如果以合理的方式融合多个异质学习器,可能就会得到理想的分类结果,并且整体分类误差也会减少。单分类器分类过程中应用分层十折交叉验证方法来防止模型过拟合。
分层意味着原始数据中每个类别的比例关系在每个折叠中保持不变。具体方法如图2所示。假设有两种类型的原始数据,比例为1:2,那么十个折叠中的每一个中的数据类别保持1:2的比率,这使得结果更可靠。
采用分层十折交叉验证算法来进行分类的学习器示意图如图3所示。首先将数据集按类别等比例划分成10份,用9份作训练集,1份作测试集,每个分类器经过10次交叉验证,最终得到五种分类器结果。接着,进入下一步基于概率投票加权的分类器集成算法(即下文两步骤的CEA和McFA)。
(3)采用分类器评估算法(CEA)选择表现最好的三个分类器作为异质学习器。
使用以下公式来评估每个分类器的效果:
其中,F表示F-Measure,AUC表示AUC的值,即ROC曲线下的面积。
根据CEA公式,可以选择出针对该数据集适用于PKPCA的三种效率最高的分类算法。
由于单独的高精确率和高召回率并不能够证明算法的有效性,本发明使用F值对精度和召回率进行综合评估,F值得计算公式如下所示:
ROC曲线则将false positive rate作为横坐标,true positive rate作为纵坐标,它能够很容易地查出任意界限值时的对性能的识别能力,可以通过分别计算各个ROC曲线下的面积(AUC)来比较实验结果的优劣。
其中,正样本个数为m+,负样本个数为m-,D+为所有正例组成的集合,x+是其中的一个正例,D-为所有反例组成的集合,x-是其中的一个反例,f(x)是模型对样本x的预测结果,在0-1之间,W仅在x为真时取1,否则取0。
由上分析可以看出,F值和AUC能够比较直观地评判分类效果,因此使用了F-Measure和AUC的调和平均数来综合评判分类效果。
(4)执行多分类器融合算法(McFA)对结果进行基于概率的加权投票。
本发明采用了概率加权投票的方式来集成多个分类器。投票法是最简单也是最广泛的集成方法,这种方法是对各个分类器的判决进行投票,其最大得票的判决作为最后系统的识别结果。
假设给定的模式空间由两yi=(0.9,0.1)个互斥的集合构成,即S=D1∪D2,若分类器ci对于来自Di的样本有一个期待的输出向量并且有那么,当分类器ci有一个输出向量yi=(0.9,0.1)或yi=(0.6,0.4)时,分类器都会将这两个输出向量识别为相同的类D1。然而,对于输出向量yi=(0.6,0.4)来说,它的分类效果显然比不上。因此,可以考虑给概率P{S∈Dj|ci(xi)=yi}赋予不同的权重值,xi指的是输入向量,即特征值。
由于本发明所采用的三种分类算法的输出向量并不一致,所以在进行多分类器融合之前,首先要将输出结果转换成统一的概率模式,然后再计算各个分类器的加权值。当满足ci(xi)=yi时,对于各个分类器ci的概率加权定义为:
因此,基于异质学习器的输出向量加权投票表决规则表示为:
其中Tk是表决阈值,它能根据不同的应用需求设定不同的值。此外,为了提高算法的可靠性,本发明采用了拒绝识别的方法。
本发明提供的基于双层异质集成学习器的入侵检测方法,可以应对未知的攻击,能够在保证入侵检测准确率的情况下,降低误报率和漏报率,并尽可能减少时间消耗。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明专利范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应当以所附权利要求为准。
Claims (9)
1.一种基于双层异质集成学习器的入侵检测方法,包括以下步骤:
使用概率核主成分分析方法数据降维算法对原始数据进行降维处理,得到预处理数据集;
使用N个分类器对预处理数据集进行处理,使用分层十折交叉验证方法防止过拟合;
采用分类器评估算法选择表现最好的M个分类器作为异质学习器,其中2≤M<N;
分类器评估算法如下:
其中,F表示F-Measure,AUC表示AUC的值,即ROC曲线下的面积;
执行多分类器融合算法对M个分类器的输出结果进行基于概率的加权投票,该概率是指分类器对于每个输入向量所对应的输出类别的概率,采用对M个分类器的概率加权公式来得到其权值,投票结果作为最后的入侵检测结果;
分类器的概率加权公式为:
2.如权利要求1所述的方法,其特征在于,降维处理的步骤包括:
将原始数据按列组成n行m列矩阵X;
计算核矩阵,选定高斯径向核函数中的参数,计算核矩阵K,修正核矩阵得到KL;
求出协方差矩阵C,运用Jacobi迭代算法计算KL的特征值和特征向量;
将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵;
通过施密特正交化方法单位正交化特征向量得到P;
Y=PX即为降维到k维后的数据。
3.如权利要求1所述的方法,其特征在于,使用五个分类器对预处理数据集进行实验。
4.如权利要求3所述的方法,其特征在于,五个分类器包括朴素贝叶斯、Bp神经网络、C4.5决策树、逻辑回归和SVM。
5.如权利要求1、3或4所述的方法,其特征在于,选择表现最好的三个分类器作为异质学习器。
6.如权利要求1所述的方法,其特征在于,分层十折交叉验证方法为:将数据集按类别等比例划分成10份,用9份作训练集,1份作测试集,每个分类器经过10次交叉验证,最终得到各分类器结果。
8.如权利要求1所述的方法,其特征在于,在执行多分类器融合算法之前,将各个分类器的输出结果转换成统一的概率模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910671353.7A CN110581840B (zh) | 2019-07-24 | 2019-07-24 | 基于双层异质集成学习器的入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910671353.7A CN110581840B (zh) | 2019-07-24 | 2019-07-24 | 基于双层异质集成学习器的入侵检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110581840A CN110581840A (zh) | 2019-12-17 |
CN110581840B true CN110581840B (zh) | 2020-10-16 |
Family
ID=68810538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910671353.7A Active CN110581840B (zh) | 2019-07-24 | 2019-07-24 | 基于双层异质集成学习器的入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110581840B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3786855A1 (en) * | 2019-08-30 | 2021-03-03 | Accenture Global Solutions Limited | Automated data processing and machine learning model generation |
CN112183678A (zh) * | 2020-11-27 | 2021-01-05 | 同方威视技术股份有限公司 | 判图方法和系统 |
CN112836215A (zh) * | 2021-01-15 | 2021-05-25 | 南京航空航天大学 | 一种基于投票机制的人工智能主动式入侵检测方法 |
CN117997652B (zh) * | 2024-04-03 | 2024-06-07 | 江西师范大学 | 一种基于集成学习的车辆入侵检测方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108540451A (zh) * | 2018-03-13 | 2018-09-14 | 北京理工大学 | 一种用机器学习技术对网络攻击行为进行分类检测的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
US10062039B1 (en) * | 2017-06-28 | 2018-08-28 | CS Disco, Inc. | Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents |
CN108764486A (zh) * | 2018-05-23 | 2018-11-06 | 哈尔滨工业大学 | 一种基于集成学习的特征选择方法及装置 |
CN109962909B (zh) * | 2019-01-30 | 2021-05-14 | 大连理工大学 | 一种基于机器学习的网络入侵异常检测方法 |
-
2019
- 2019-07-24 CN CN201910671353.7A patent/CN110581840B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108540451A (zh) * | 2018-03-13 | 2018-09-14 | 北京理工大学 | 一种用机器学习技术对网络攻击行为进行分类检测的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110581840A (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110581840B (zh) | 基于双层异质集成学习器的入侵检测方法 | |
Kim et al. | Web traffic anomaly detection using C-LSTM neural networks | |
Chen et al. | Intrusion detection using multi-objective evolutionary convolutional neural network for Internet of Things in Fog computing | |
Fan et al. | Robust deep auto-encoding Gaussian process regression for unsupervised anomaly detection | |
Zhong et al. | Clustering-based network intrusion detection | |
Wang et al. | Feature selection and multi-kernel learning for adaptive graph regularized nonnegative matrix factorization | |
CN112734000A (zh) | 一种入侵检测方法、系统、设备及可读存储介质 | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
CN110602120B (zh) | 一种面向网络的入侵数据检测方法 | |
Praanna et al. | A CNN-LSTM model for intrusion detection system from high dimensional data | |
Alejo et al. | Making accurate credit risk predictions with cost-sensitive mlp neural networks | |
Huang et al. | An anomaly detection method based on normalized mutual information feature selection and quantum wavelet neural network | |
An et al. | A new intrusion detection method based on SVM with minimum within‐class scatter | |
Rouhani et al. | Curtail: Characterizing and thwarting adversarial deep learning | |
Therdphapiyanak et al. | An analysis of suitable parameters for efficiently applying K-means clustering to large TCPdump data set using Hadoop framework | |
Balafar et al. | Active learning for constrained document clustering with uncertainty region | |
Ghanty et al. | NEUROSVM: An Architecture to Reduce the Effect of the Choice of Kernel on the Performance of SVM. | |
Jiang et al. | Graph learning-convolutional networks | |
Kaur et al. | Network traffic classification using multiclass classifier | |
Naoum et al. | Hybrid system of learning vector quantization and enhanced resilient backpropagation artificial neural network for intrusion classification | |
Pu et al. | Optimization of intrusion detection system based on improved convolutional neural network algorithm | |
Sabir et al. | A Lightweight Deep Autoencoder Scheme for Cyberattack Detection in the Internet of Things. | |
Almas et al. | Enhancing the performance of decision tree: A research study of dealing with unbalanced data | |
Ince | A novel approach for intrusion detection systems: V-IDS | |
Ruiz-Moreno et al. | Prototype generation method using a growing self-organizing map applied to the banking sector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |