CN108023876B - 基于可持续性集成学习的入侵检测方法及入侵检测系统 - Google Patents
基于可持续性集成学习的入侵检测方法及入侵检测系统 Download PDFInfo
- Publication number
- CN108023876B CN108023876B CN201711156164.3A CN201711156164A CN108023876B CN 108023876 B CN108023876 B CN 108023876B CN 201711156164 A CN201711156164 A CN 201711156164A CN 108023876 B CN108023876 B CN 108023876B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- individual
- data set
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于网络入侵检测技术领域,公开了一种基于可持续性集成学习的入侵检测方法及入侵检测系统,将个体学习器的类概率输出和分类置信度乘积作为训练数据构建多类别的回归模型,使集成学习的决策过程对攻击类型具有适应性以提高检测精度,模型更新阶段将历史模型的参数和决策结果加入新模型的训练过程,完成模型的增量式学习。本发明采用多回归模型的集成学习融合方案,细粒度的分配了在对不同攻击类型检测过程中个体学习器的决策权重,并通过将历史模型的参数和结果用于训练新的模型,提高了检测模型的稳定性并保证了学习过程的可持续性。并将实验结果与现有的MV、WMV方案对比验证了本发明在准确率、稳定性和可持续性。
Description
技术领域
本发明属于网络入侵检测技术领域,尤其涉及一种基于可持续性集成学习的入侵检测方法及入侵检测系统。
背景技术
随着基于网络的计算服务和应用的迅速发展,互联网受到越来越多的安全威胁,入侵检测系统(Intrusion Detection System,IDS)作为网络安全深层防卫系统的重要组成部分显得尤为重要。入侵检测系统通过检测和分析网络流量或主机行为,发现和识别系统中的入侵行为。为了检测大规模数据流量下的异常行为,基于机器学习的入侵检测系统成为重点,通过机器学习技术在大量的数据中提取特征,并针对已标记的数据集建立分类模型,实现对网络流量或者主机行为的分类,检测系统中的入侵行为,不仅可以检测已知攻击,还可以检测新的或未知的攻击,但是存在误报率和漏报率较高导致检测准确率低或拒绝服务的问题。为了降低基于机器学习的异常检测系统中的误报率和漏报率,经常利用多个机器学习模型融合的方式建立检测模型,通过对多个机器学习模型结果的投票或者加权投票,得出最终决策结果,从而提高系统整体的检测准确率;仍然存在以下问题:1)不考虑个体学习器对攻击类型的敏感性导致检测模型适应性较差,在复杂的网络环境中攻击种类多种多样并随时间不断地变化,检测算法对攻击类型具有敏感性,即不同算法对不同攻击类型的检测精度不同;通过集成机器学习的一种或几种算法决策结果的投票或加权投票得出最终的结果,由于不考虑检测模型对攻击类型的敏感性导致检测模型获取的权重固定,适应性较弱,易造成检测模型的准确率较低。2)在模型更新过程中缺乏稳定性和可持续性,动态变化的网络环境下需要检测模型的不断更新来保证模型的准确性,并不适用集成学习的环境,没有考虑检测模型更新过程中知识的关联,仅提出随时间推移根据新数据完全重新训练新检测模型,不考虑历史模型和新模型间知识的积累与传递,更新模型缺乏稳定性和持续性。基于机器学习的方案已经得到了许多研究者的广泛关注。现有技术一通过信息增益和关联规则对训练数据集进行特征选择预处理,选择出25个重要特征并使用人工神经网络(Artificial Neural Network,ANN)进行训练,建立基于ANN的分类器用于入侵检测。现有技术二利用k-近邻(k-Nearest Neighbor,kNN)分类器进行遗传编程的方法,建立了一种高效的入侵检测模型。最优特征选择任务是由遗传编程来完成的,而执行分类过程的数据挖掘分类器是kNN。现有技术三基于支持向量机(Support Vector Machine,SVM)的入侵检测架构,通过实现对数边际密度比变换,将数据转换成高质量的原始特征,提高了SVM的检测能力。现有技术四最小化决策树(Decision Tree,DT)的检测模型,基于粒子群优化(Particle Swarm Optimization,PSO)算法对生成的决策树进行修剪,以减小分类器的复杂性,提高其检测精度。然而,单一算法的检测模型使泛化能力较弱,容易导致较高的误报率和漏报率,并且由于模型本身简单,受训练数据影响较大,稳定性较差,不适用于攻击手段复杂的网络环境。考虑单一算法模型的局限性,将多个弱分类器结合起来构建强分类器提高检测精度的集成学习受到越来越多研究者的关注,现有技术四基于遗传搜索和排名搜索算法作为特征选择工具选取了12个关键特征,并集成贝叶斯网络,朴素贝叶斯(NaiveBayesian,NB)和J48决策树三种基分类器建立集成学习模型,并通过多数投票法(MajorityVoting,MV)将基分类器的分类结果进行集成来确定最终分类结果。现有技术五则使用PSO方法进行属性选择并且基于加权多数投票(Weighted Majority Voting,WMV)的决策方法集成C4.5树,随机森林和CART树,在一定程度提高了模型的检测精度。现有技术六提出了一种新的综合构造方法,利用PSO算法产生的权重来创建分类器的集成被证明对入侵检测具有较好的准确性。LUS采样方法被用作元优化器,以便为PSO找到更好的行为参数,并集成六个SVM模型和六个kNN模型,结果较传统WMV方法具有更高的准确率。现有技术七一种分类器的组合概率框架,研究了集成学习四种组合方案:多数投票,加权多数投票,召回组合和朴素贝叶斯组合方式,基于类条件独立性和个体精确度假设给出了模型组合方案的优劣性,并且通过诱导标签噪声说明了组合方式的稳定性和可塑性存在平衡,表示没有明确的最佳组合方案。现有基于集成学习的方案大多采用投票法或加权投票法将多个个体学习器的检测结果进行融合并产生最终的决策结果,此类方案均没有考虑个体学习器的差异性和对攻击类型的敏感性,分类器获取的权重固定,导致模型融合时缺乏适应性,从而降低检测精度。
综上所述,现有技术存在的问题是:现有基于集成学习方法没有考虑个体学习器的差异性和对攻击类型的敏感性,分类器获取的权重固定,导致模型融合时缺乏适应性,降低检测精度。现有基于集成学习的方案均没有考虑检测模型更新过程中知识的关联,仅提出随时间推移根据新数据完全重新训练新检测模型,不考虑历史模型和新模型间知识的积累与传递,更新模型缺乏稳定性和持续性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于可持续性集成学习的入侵检测方法及入侵检测系统
本发明是这样实现的,一种基于可持续性集成学习的入侵检测方法,所述基于可持续性集成学习的入侵检测方法将个体学习器的类概率输出和分类置信度乘积作为训练数据构建多类别的回归模型,使集成学习的决策过程对攻击类型具有适应性;模型更新阶段,将历史模型的参数和决策结果加入新模型的训练过程,完成模型的增量式学习。
进一步,所述基于可持续性集成学习的入侵检测方法包括以下步骤:
步骤一,集成若干机器学习算法作为个体学习器,充分检测多种攻击类型,同时改变个体学习器的输出,以类概率输出和分类器置信度加权作为新的数据用于训练改进的融合模型以提高检测模型的适应性;
步骤二,模型更新阶段,通过将历史模型模型参数传递给新模型,作为预训练,并将历史模型的检测结果加入新模型的训练过程,从而将知识传递到新模型中,提高检测精度的同时保证了模型更新后的稳定性,使模型的更新变得可持续。
进一步,所述个体学习器模型的构建与输出数据处理具体包括:
1)通过经过属性抽取的N个数据子集{D1,D2,...,DN}分别训练对应的个体学习器模型;
4)将个体学习器的输出计算实例在模型中的输出,并根据集合所有个体学习器的结果作为新的实例数据,作为下一阶段的训练数据集E。
进一步,所述4)计算实例在模型中的输出公式为:
所述根据集合所有个体学习器的结果作为新的实例数据的公式为:
其中f(xi)表示数据xi的分类结果,sgn()为符号函数并且sgn(f(xi)=yi)表示分类结果和实际结果相同,所得结果为1,否则为0,表示实例xi在个体学习器中被分类于yc类的概率,表示个体学习器在数据集Dk上的对于类别yc的准确率,eki表示个体学习器在Dk中xi的输出结果。
进一步,通过将多个回归模型作为个体学习器输出的融合模型,每次决策时分别计算不同回归模型对不同类别的判断概率,选择最大的概率结果作为最终的决策结果,具体包括以下步骤:
3)通过在上一阶段构造的数据集E上采用平方损失函数计算模型的损失,并通过不断优化决策模型以达到最小化损失函数;
4)对于新的数据实例xi选择输出概率最高的类别作为最终的检测结果。
根据建立C个类别的回归模型的公式为:
计算不断优化决策模型以达到最小化损失函数为:
计算新的数据实例xi的公式为:
进一步,所述模型更新过程具体包括:
2)对于对于新的数据集D',根据训练N个体学习器并且构建数据集E';
3)将数据集E'中的所有数据ei按照无标记的方式通过Old-LR获得相应的检测结果,其中包括历史模型对ei所有类别的输出类概率Py(ei)和历史融合模型在数据集E'中不同类别的准确率acc(E');
4)计算所有数据ei的输出结果e(N+1)i=accT(Dold)*Py(ei),构造新的数据ei=[e1i,e2i,...,eNi,e(N+1)i,yi],得到新的数据集E”;
5)按照在原有参数的基础上计算更新New-LR模型,以最小化均方误差,完成模型的更新;
本发明的另一目的在于提供一种使用所述基于可持续性集成学习的入侵检测方法的入侵检测系统。
本发明针对检测模型适应性较弱的问题,通过建立集成学习模型,选择若干个体学习器,将各个体学习器对各类别的类概率和个体学习器分类置信度进行加权后,建立单类别的回归模型对个体学习器的结果进行融合,动态选择最适应权值,从而提高模型的适应性和检测精度。分别在NSL-KDD数据集和密西西比州立大学关键基础设施保护中心提出的标准数据集上进行对比实验,从方案的检测性能、准确率等方面验证了本发明较现有方案的优点。
本发明针对现有的集成学习方案不考虑个体学习器对攻击类型的敏感性和检测模型更新阶段缺乏稳定性和可持续性的问题,采用了多回归模型的集成学习融合方案,细粒度的分配了在对不同攻击类型检测过程中个体学习器的决策权重,并通过将历史模型的参数和结果用于训练新的模型,从而提高了检测模型的稳定性并保证了学习过程的可持续性。分别在NSL-KDD数据集和2014年发布的标准数据集上进行实验,并将实验结果与现有的MV、WMV方案对比验证了本发明在稳定性和可持续性。
附图说明
图1是本发明实施例提供的基于可持续性集成学习的入侵检测方法流程图。
图2是本发明实施例提供的集成学习中个体学习器模型示意图。
图3是本发明实施例提供的个体学习器结果输出示意图。
图4是本发明实施例提供的权值分布示意图。
图5是本发明实施例提供的检测模型更新过程示意图。
图6是本发明实施例提供的二维决策模型更新示意图。
图7是本发明实施例提供的单模型与本文方案的检测结果示意图;
图中:(a)攻击类型;(b)检测模型。
图8是本发明实施例提供的与集成学习方案对比示意图。
图9是本发明实施例提供的在NSL-KDD数据集二分类中检测性能对比示意图。
图10是本发明实施例提供的在2014标准数据集中的检测结果示意图;
图中:(a)输气系统结果;(b)储水系统结果。
图11是本发明实施例提供的稳定性对比示意图。
图12是本发明实施例提供的持续性对比示意图。
图13是本发明实施例提供的训练数据集规模和个体学习器数量对结果的影响示意图;
图中(a)对检测准确率的影响;(b)对训练花费时间的影响。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明在保证各个体学习器可以完全发挥适应性的同时在检测模型更新阶段将历史模型加入到新模型的训练和检测过程中,完成知识在更新过程中的传递,使得学习过程变得可持续,进一步提高了模型的稳定性和准确率。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于可持续性集成学习的入侵检测方法包括以下步骤:
S101:集成若干机器学习算法作为个体学习器,充分检测多种攻击类型,同时改变个体学习器的输出,以类概率输出和分类器置信度加权作为新的数据用于训练改进的融合模型以提高检测模型的适应性;
S102:模型更新阶段,通过将历史模型模型参数传递给新模型,作为预训练,并将历史模型的检测结果加入新模型的训练过程,从而将知识传递到新模型中,提高检测精度的同时保证了模型更新后的稳定性,使模型的更新变得可持续。
下面结合附图对本发明的应用原理作进一步的描述。
1、基于可持续性集成学习的入侵检测
首先集成若干机器学习算法作为个体学习器,以充分检测多种攻击类型,同时改变个体学习器的输出,以类概率输出和分类器置信度加权作为新的数据用于训练改进的融合模型以提高检测模型的适应性。并将历史模型加入到新模型的训练过程完成在模型更新时知识的传递,保证学习过程的可持续性和稳定性。为了排除NSL-KDD和2014年发布的标准数据集中数据类型或量纲对个体学习器结果的影响,需要对训练数据进行相应的预处理,对标称属性进行one-hot编码,对连续属性进行min-max标准化处理,从而得到本发明所使用的数据集。
1.1个体学习器模型的构建与输出数据处理
本发明首先集成N个个体学习器,如图2所示,其中分别记为M1、M2…MN。
对训练数据集D进行属性随机采样,假设数据集D含有I个样本{(x1,y1),(x2,y2),...,(xI,yI)},每个实例xi含有m个属性其类别标记为yi。每次有放回的从属性集合中抽取一个属性,共抽取m次,除去冗余的属性,从而得到将全部的I个样本组成的训练子集D1,重复N-1次得到N个训练子集{D1,D2,...,DN},分别用于训练对应的个体学习器。
其中个体学习器对于Dk(k=1,2…,N)中每一个实例通过个体学习器的检测,改变原有方案输出类别标识作为输出,通过输出类概率作为现有个体学习器的输出,其中对于所有的个体学习器我们假设所属类别yc的概率为(yc表示相应的类别,设共C个类别,并且);
具体包括以下步骤:
1)通过经过属性抽取的N个数据子集{D1,D2,...,DN}分别训练对应的个体学习器模型;
4)将个体学习器的输出按照公式(3)计算该实例在模型中的输出,并根据公式(4)集合所有个体学习器的结果作为新的实例数据,作为下一阶段的训练数据集E:
其中f(xi)表示数据xi的分类结果,sgn()为符号函数并且sgn(f(xi)=yi)表示分类结果和实际结果相同,那么所得结果为1,否则为0,表示实例xi在个体学习器中被分类于yc类的概率,表示个体学习器在数据集Dk上的对于类别yc的准确率,eki表示个体学习器在Dk中xi的输出结果。
以图3为例说明上述过程,首先将经过随机属性抽取的子数据集用于训练个体学习器,这里以模型M1为例,假设D1中共有两类数据:正常和异常,记正常为1类,异常为0类,经过上述步骤2)得到该模型在数据集D1上的准确率此时,任取D1中一条异常实例(xi,0),经过步骤3)通过模型得到正常类的类概率为P1(xi)=0.2,异常的类概率为P0(xi)=0.8,那么,根据公式(3)计算模型对于实例xi在两类中的输出e1i=[0.2*0.85,0.80*0.95]=[0.17,0.76],然后对于所有的个体学习器模型构造新的数据ei=[e1i,e2i,...,eNi,yi]T最终对于数据集D中的每一个实例x通过四个个体学习器均产生输出e,构造新的数据集E。
个体学习器输出了实例xi在每个分类的类概率,相比于输出类别标记的方案,可以进一步的反映个体学习器对该数据检测的置信度,假设对某数据正常和异常的类概率分别为0.49和0.51,如果以类标记作为输出,那么该数据将会被分类为异常数据,但是真实情况应该为分类器几乎无法判断该数据所属的类别,通过类概率的输出,可以避免这样的情况出现。同时,本发明将类概率和模型准确率的乘积作为输出,是因为准确率反映了分类器对训练数据整体的性能,如假设对正常和异常的准确率分别为0.2和0.9,那么最终的输出为0.098和0.459,因此可以进一步的确定分类结果,对下一阶段模型的建立具有积极的影响。
1.2融合模型的训练与决策
假设一个类别为0的异常样本四个个体学习的输出结果为[1,1,1,0],那么根据投票法的原则则不可能将该样本正确分类。即使是对一些加权投票的方案,也是基于全局的准确率来确定投票权重,对于不同类型的攻击,个体学习器获取的权重固定,并没有适应性。而本发明通过改变个体学习器的输出,将原来的类别输出改变为类概率和准确率的乘积,并且对不同类型的攻击,适应性的分配不同权重,如图4所示;另一方面在个体学习器的结果融合阶段通过对不同类别分别建立回归模型取代原有的投票方式,通过将多个回归模型作为个体学习器输出的融合模型,每次决策时分别计算不同回归模型对不同类别的判断概率,选择最大的概率结果作为最终的决策结果,充分考虑个体学习器对不同类别的敏感性,具体包括以下步骤:
3)然后通过在上一阶段构造的数据集E上采用平方损失函数计算模型的损失,并通过公式(8)不断优化决策模型以达到最小化损失函数(7);
4)对于新的数据实例xi通过公式(9),选择输出概率最高的类别作为最终的检测结果。
假设经过上节内容获取了四个个体学习器的输出ei=[e1i,e2i,e3i,e4i,0],其中e1i=[0.3,0.6],e2i=[0.1,0.8],e3i=[0.2,0.6],e4i=[0.5,0.4],则根据公式(5)并且由于yi=0类,得到将和分别带入训练回归模型和经过数据集E中的全部数据后,模型整体的均方误差最小化,即可完成模型的训练。检测阶段,对于上一阶段输出的不带标记的和分别带入训练完成的回归模型,如果LR0>LR1,则最终决策结果为0,否则为1。
通过对所有类别分别建立回归模型,可以对个体学习器在不同类别上分配不同的权重,这完全取决于个体学习器对类别数据的敏感性,如假设模型Mi对于正常样本具有较高的准确率,因此在正常类别的回归模型中,模型Mi的输出所得到的权重可能会更大,有助于提高该回归模型结果的正确性,反之该模型输出异常的概率就会变小,同样有助于提高异常类别回归模型结果的正确性,从而降低均方误差。
因此在复杂的网络环境下,模型能够根据不同个体学习器对攻击类型的敏感性,细粒度的分配个体学习器在不同类别下的权重,使检测模型整体的适应性更强,具有更好的检测性能。
1.3模型的可持续性更新
本发明增量式的模型更新方式,在模型更新时首先将New-LR接受Old-LR的所有参数作为预训练结果,然后将融合模型的Old-LR模型作为新的个体学习器,同时接收个体学习器的输出作为输入,且给出历史检测模型的结果,同个体学习器的结果一同作为新数据用于New-LR。具体的结果如图5所示。
模型更新过程的具体步骤如下:
2)对于对于新的数据集D',根据训练N个体学习器并且构建数据集E';
3)将数据集E'中的所有数据ei按照无标记的方式通过Old-LR获得相应的检测结果,其中包括历史模型对ei所有类别的输出类概率Py(ei)和历史融合模型在数据集E'中不同类别的准确率acc(E');
4)计算所有数据ei的输出结果e(N+1)i=accT(Dold)*Py(ei),构造新的数据ei=[e1i,e2i,...,eNi,e(N+1)i,yi],从而得到新的数据集E”;
5)按照在原有参数的基础上根据(11)更新New-LR模型,以最小化均方误差,完成模型的更新。
由于数据集D和D'都为系统底层流量或者主机行为数据,因此具有相似性,在Old-LR模型中已经包含了历史数据D中所具有的性质,而新数据集D'中除了包含一些由于网络环境变化而有的新特性,仍然包括历史数据中的一些特点,因此新的训练过程只需要在原来的基础上进行微小的修改即可快速完成可持续训练。以图6中二维回归模型为例,“Δ”为历史数据,其中白色表示正常类别,黑色表示异常类别,“O”表示新数据,表示正常类别,表示异常类别,虚线部分为历史模型Old-LR的分类边界,而实线为New-LR分类边界,易知Old-LR已经可以满足大部分新数据的正确分类,只需要做微小的调整,即可得到新的分类边界。既保证新模型可以快速训练完成,而且保证权重仅做微小的调整即可满足新数据的要求,并且对历史数据仍然可以正确分类,通过该过程使模型的更新过程更加平稳高效,因此本发明具有稳定性和可持续性。
下面结合实验对本发明的应用效果作详细的描述。
1实验及结果分析
1.1实验环境
本实验采用目前入侵检测领域公开的基准数据集NSL-KDD对本发明的性能进行评估,该数据集收集于美国空军局域网的网络环境,其中包括各种用户类型、各种不同网络流量和包括DoS、Probe、U2L和R2L四大类攻击类型以及Normal正常类型,其中原始文件共包括五百多万条记录,本实验采用了10%的样本数据作为本发明的主要实验数据。并且为了进一步证明本发明在不同网络环境下的性能,本发明还采用密西西比州立大学关键基础设施保护中心2014年发布的标准数据集来评估本发明的性能。该数据集包含天然气传输(gas_final.arff)和储水池(water_final.arff)两个控制系统遭受网络攻击的数据。实验环境为PC机,Windows764位系统,i7-6700主频3.4GHz,内存8G,使用Python语言和Sklearn机器学习库作为编程语言和工具。
1.2实验结果分析
1.2.1方案的有效性分析
首先将NSL-KDD数据集中数据分为五大类别,分别为Normal、DOS、Probe、R2L和U2L。然后采用本发明所使用到的个体学习器决策树(DT)模型、支持向量机(SVM)模型、朴素贝叶斯(NB)模型、k近邻(KNN)模型和本发明所设计方案对该数据集进行测试,检测准确率如图7所示。
如图5所示,四种个体学习器对不同攻击类型的数据检测结果具有差异,其中DT模型对DOS攻击的准确率较高,而SVM模型对R2L检测准确率达到96.92%,但是对Probe和U2L攻击准确率仅为63.08%和68.6%,NB模型和KNN模型对不同的攻击类型准确率也有较大的差异,表明不同的检测算法对攻击类型具有不同的敏感性,这是由于不同类型的攻击具有不同的外在表现,反映在底层的流量特征也不相同,而由于单模型的泛化能力有限,无法对所有种类的攻击都具有很高的检测准确率,本发明由于集成了四种个体学习器的结果,因此在所有攻击类型中,本发明准确率均为最高。这说明集成学习的方案较单模型方案具有较好的性能。
同时,将本发明与现有的常用基于多数投票法和加权多数投票的集成学习方案进行对比,其准确率结果如图所示,实验中将四个个体学习器方案的平均准确率(avg_Base)作为参照以体现集成学习的优势。
图8中可以看出,本发明在五种类型数据中精确度均为最高,其中在Probe和R2L攻击中比现有最优的WMV方案分别提高5.74%和4.81%,在Normal数据中提高了4.24%。MV方案在投票时容易产生票数相等的情况,从而会在等票数的类别中随机选择决策结果,WMV方案虽然通过给个体学习器赋权值避免了此类情况,但是没有考虑不同个体学习器对不同攻击类别的敏感性,从而导致准确率依然受到限制。而本发明可以获得较高的准确率这是因为本发明在进行结果集成时充分的考虑了不同个体学习器对攻击类型的敏感性,通过采用多回归模型组合的模型在训练数据中学习到对不同类别攻击决策时的权重分配,使得对当前检测数据效果最好的个体学习器获取较高的决策权重,从而保证了较高检测准确率。
表1个体学习器对不同攻击类型准确率
表2个体学习器对不同攻击类型的决策权重
表1中给出了某次各个个体学习器对五中类型的测试准确率,表2为各个基学习模型对五种类型的集成结果权值的对应关系(标准化后结果),由表中数据可以发现两个问题:1)基学习模型准确率普遍较高模型其对应决策权重也越大,如DT模型和KNN模型,对五种类型的数据准确率均较高,因此得到的权重较大;2)对特定类型数据检测准确率较高的模型其对应类型的决策权重越大,如SVM模型对DOS攻击检测率较高,相比于其他类型,SVM在该类型的决策中权重占比最高为0.1794,以及NB模型对DOS攻击也具有同样的性质。当然,个体学习器的权重不仅与自身对攻击检测的效果有关,还与其他个体学习器的结果以及实验过程中的随机性有关,因此少数权重不全满足该特性。
本发明在进行模型集成时充分考虑了不同个体学习器对不同类型的敏感性,同时定量的给出了不同模型决策时对结果的影响权重,因此针对不同类型的数据,在集成决策结果时更加灵活,更具适应性。部分情况下,检测模型仅需要区分正常流量和异常流量两大类,因此将提到的四类攻击标记为0,将Normal数据标记为1,采用通用的检测模型的四种评估指标,准确率(Accuracy),检测率(Detection Rate),误警率(FalseAlarm)和漏报率(False Negative Rate),同样进行上述实验过程,其实验结果如图9所示。本发明的误警率和漏报率较WMV方案分别降低了35.4%和36.5%,这说明本发明不但能够考虑对攻击类型的敏感性,其本质是对于不同类别的敏感性,通过多回归模型的自动权重分配,使在面对不同类别数据时,总是效果较好的个体学习器获取较高的权重,从而全面提高检测性能。为了验证本发明在不同网络环境下的检测性能优势,进一步采用密西西比大学的输气和储水系统数据集进行测试,其实验结果如图10所示。从图中可以看出,本发明在两个数据集中的检测性能仍然优于现有方案,在四个评估标准方面均具有更高的性能,这说明本发明在不同网络环境下对入侵行为的检测更具适应性。
1.2.2本发明的稳定性和可持续性
为了验证本发明在模型更新过程中具有更高的稳定性和可持续性,将NSL-KDD数据集进行分割,并分别对MV、WMV和本发明进行了50次的模型更新,以验证本发明在不同训练数据集输出的情况下,检测性能的稳定性,分别计算了模型更新过程中准确率,检测率,误警率和漏报率及各评估参数的方差在模型更新过程中的变化趋势,如图11所示。由图11中可以看出,模型更新过程中本发明在四个评估标准中均具有准确率和检测率高、误警率和漏报率低的优点,同时通过各个评估参数的方差可以看出,本发明模型的方差均为最小,MV方案由于在投票过程中各个个体学习器的权重相同,票数相同时随机选择分类导致其稳定性最差,WMV方案虽然也有较高的性能和稳定性,但是由于其对于每个类别权重固定,而且模型更新过程中每次重新训练权重,不能保证已有知识的传递以及训练过程的可持续性,导致其性能较本发明仍然较低,而本发明在模型更新时采用了历史模型作为预训练结果,同时决策时参考了历史模型的检测结果,在更新阶段较好的完成了知识的传递,保证了学习的可持续性,从而保证了本发明具有更好的稳定性。考虑在入侵检测领域正确标记的数据集是有限的,在原有数据集的基础上每次随机重新抽取10%数据作为模型更新数据集对本发明所提方案进行测试,为了避免测试数据的随机性导致实验误差,模型共进行50次更新,并且重复50次实验,求取结果的平均值作为最终结果,实验结果如图所示。图12中Base方案不考虑模型的持续性训练,每次根据训练数据完全重新训练模型。由图中可以看出,在初始更新模型阶段,两种方案准确率和检测率几乎相同,随着模型更新次数的增加,本发明的准确率和检测总体呈逐渐上升趋势,误警率和漏报率总体呈逐渐下降趋势,并且逐渐趋于稳定,而Base方案的准确率上下浮动频繁。这是因为本发明考虑了历史模型的训练结果,并在历史模型的基础上展开新模型的训练,在多次更新过程完成了知识的积累与传递,使得新模型不但可以学习到新的知识,而且还保留了历史知识,因此在面对新的测试数据时从而具有更好的性能。所以相比于现有的模型更新方案,本发明所提方案具有稳定性和可持续性。
1.2.3训练集大小和模型数量对结果的影响
为了进一步探究训练数据集规模和个体学习器数量对本发明检测性能的影响,分别选取了不同规模的训练数据以及不同数量的个体学习器进行进一步实验,其中数据集规模分别选取80,160,400,800,1500,3000和6000条进行测试,考虑上述实验过程中SVM模型效果最差且在最终决策中权值最小,其次为NB模型,实验中使用含有四种个体学习器的方案(ALL)分别对比了在没有SVM模型的情况和没有SVM和NB模型的情况,分别记为“-SVM”和“-SVM/NB”。
通过图13(a)可知,个体学习器数量越多,训练数据集规模越大,检测准确率越高,一方面因为越多的个体学习器对各个攻击类型的泛化能力越强,对结果的集成就越精确;另一方面数据集规模越大,训练过程所获取的知识就越多,对检测也越有利。图13(b)可知,数据集规模越大,训练过程所消耗的时间越多,并且含有四个个体学习器的方案时间开销最大,这是因为SVM的算法复杂度较高,当数据规模较大时,所消耗的时间增长较快。因此综合(a)(b),在训练数据规模较小时,应优先选择四种个体学习器集成以获得最好的检测准确率,同时所消耗的时间并无较大差异;当数据规模较大时,应优先选择除SVM以外的其他三种个体学习器集成,在保证较高检测准确率的同时具有较低的时间开销。并且推荐训练数据规模为800到3000条。
本发明针对现有的集成学习方案不考虑个体学习器对攻击类型的敏感性和检测模型更新阶段缺乏稳定性和可持续性的问题,采用了多回归模型的集成学习融合方案,细粒度的分配了在对不同攻击类型检测过程中个体学习器的决策权重,并通过将历史模型的参数和结果用于训练新的模型,从而提高了检测模型的稳定性并保证了学习过程的可持续性。分别在NSL-KDD数据集和2014年发布的标准数据集上进行实验,并将实验结果与现有的MV、WMV方案对比验证了本发明在准确率、稳定性和可持续性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于可持续性集成学习的入侵检测方法,其特征在于,所述基于可持续性集成学习的入侵检测方法将个体学习器的类概率输出和分类器置信度乘积作为训练数据构建多类别的回归模型,使集成学习的决策过程对攻击类型具有适应性;模型更新阶段,将历史模型的参数和决策结果加入新模型的训练过程,完成模型的增量式学习;
所述基于可持续性集成学习的入侵检测方法包括以下步骤:
步骤一,集成若干机器学习算法作为个体学习器,充分检测多种攻击类型,同时改变个体学习器的输出,以类概率输出和分类器置信度乘积作为新的数据用于训练改进的融合模型以提高检测模型的适应性;
步骤二,将历史模型加入到新模型的训练过程完成在模型更新时知识的传递;
所述回归模型的构建与输出数据处理具体包括:
1)通过经过属性抽取的N个数据子集{D1,D2,...,DN}分别训练对应的个体学习器模型;
4)将个体学习器的输出计算实例在模型中的输出,并根据集合所有个体学习器的结果作为新的实例数据,作为下一阶段的训练数据集E;
其中f(xi)表示实例xi的分类结果,sgn()为符号函数并且sgn(f(xi)=yi)表示分类结果和实际结果相同,所得结果为1,否则为0,表示实例xi在个体学习器中被分类于yc类的概率,表示个体学习器在数据集Dk上的对于类别yc的准确率;
所述4)中计算实例在模型中的输出公式为:
所述根据集合所有个体学习器的结果作为新的实例数据的公式为:
eki表示个体学习器在Dk中xi的输出结果;
通过将多个回归模型作为个体学习器输出的融合模型,每次决策时分别计算不同回归模型对不同类别的判断概率,选择最大的概率结果作为最终的决策结果,具体包括以下步骤:
3)通过在上一阶段构造的数据集E上采用平方损失函数计算模型的损失,并通过不断优化决策模型以达到最小化损失函数;
4)对于新的数据实例xi选择输出概率最高的类别作为最终的检测结果;
根据建立C个类别的回归模型的公式为:
计算不断优化决策模型以达到最小化损失函数为:
所述模型更新阶段具体包括:
2)对于新的数据集D',训练N个个体学习器并且构建数据集E';
3)将数据集E'中的所有数据ei按照无标记的方式通过历史模型获得相应的检测结果,其中包括历史模型对ei所有类别的输出类概率Py(ei)和历史模型在数据集E'中不同类别的准确率acc(E');
4)计算所有数据ei的输出结果e(N+1)i=accT(Dold)*Py(ei),构造新的数据ei=[e1i,e2i,...,eNi,e(N+1)i,yi],得到新的数据集E″;
5)按照在原有参数的基础上计算更新新模型,以最小化均方误差,完成模型的更新;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711156164.3A CN108023876B (zh) | 2017-11-20 | 2017-11-20 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711156164.3A CN108023876B (zh) | 2017-11-20 | 2017-11-20 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108023876A CN108023876A (zh) | 2018-05-11 |
CN108023876B true CN108023876B (zh) | 2021-07-30 |
Family
ID=62079955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711156164.3A Active CN108023876B (zh) | 2017-11-20 | 2017-11-20 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108023876B (zh) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108684043B (zh) * | 2018-05-15 | 2021-09-28 | 南京邮电大学 | 基于最小风险的深度神经网络的异常用户检测方法 |
CN108921300A (zh) * | 2018-06-21 | 2018-11-30 | 第四范式(北京)技术有限公司 | 执行自动机器学习的方法和装置 |
CN112384892A (zh) * | 2018-07-09 | 2021-02-19 | 富士通株式会社 | 信息处理装置、信息处理方法以及信息处理程序 |
CN109510811B (zh) * | 2018-07-23 | 2022-08-09 | 中国科学院计算机网络信息中心 | 基于数据包的入侵检测方法、装置及存储介质 |
CN109359677B (zh) * | 2018-10-09 | 2021-11-23 | 中国石油大学(华东) | 一种耐噪在线多分类核学习算法 |
CN109672666B (zh) * | 2018-11-23 | 2021-12-14 | 北京丁牛科技有限公司 | 一种网络攻击检测方法及装置 |
CN111382874B (zh) * | 2018-12-28 | 2024-04-12 | 第四范式(北京)技术有限公司 | 实现线上机器学习模型的更新迭代的方法和装置 |
CN109842614B (zh) * | 2018-12-29 | 2021-03-16 | 杭州电子科技大学 | 基于数据挖掘的网络入侵检测方法 |
CN111600919B (zh) * | 2019-02-21 | 2023-04-07 | 北京金睛云华科技有限公司 | 智能网络应用防护系统模型的构建方法和装置 |
CN111835541B (zh) * | 2019-04-18 | 2021-10-22 | 华为技术有限公司 | 一种流量识别模型老化检测方法、装置、设备及系统 |
CN111832588A (zh) * | 2019-04-18 | 2020-10-27 | 四川大学 | 一种基于集成分类的暴恐图像标注方法 |
CN110163381A (zh) * | 2019-04-26 | 2019-08-23 | 美林数据技术股份有限公司 | 智能学习方法及装置 |
CN110149330A (zh) * | 2019-05-22 | 2019-08-20 | 潘晓君 | 基于信息增益的pso特征选择权重入侵检测方法及系统 |
CN110163442A (zh) * | 2019-05-27 | 2019-08-23 | 华北理工大学 | 一种基于集成学习的气井积液预测方法 |
CN110324316B (zh) * | 2019-05-31 | 2022-04-22 | 河南九域恩湃电力技术有限公司 | 一种基于多种机器学习算法的工控异常行为检测方法 |
CN110177112B (zh) * | 2019-06-05 | 2021-11-30 | 华东理工大学 | 基于双重子空间采样和置信偏移的网络入侵检测方法 |
CN110377002B (zh) * | 2019-06-06 | 2021-07-30 | 西安电子科技大学 | 一种自适应的车内can总线安全控制方法及系统 |
CN110247910B (zh) * | 2019-06-13 | 2022-08-09 | 深信服科技股份有限公司 | 一种异常流量的检测方法、系统及相关组件 |
CN110378430B (zh) * | 2019-07-23 | 2023-07-25 | 广东工业大学 | 一种基于多模型融合的网络入侵检测的方法及系统 |
CN110505114B (zh) * | 2019-07-23 | 2022-08-09 | 昆明理工大学 | 一种云计算环境下节点异常判断方法 |
CN110532895B (zh) | 2019-08-06 | 2020-10-23 | 创新先进技术有限公司 | 人脸识别过程中的欺诈行为检测方法、装置及设备 |
CN110596492B (zh) * | 2019-09-17 | 2021-04-27 | 昆明理工大学 | 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法 |
CN110716496B (zh) * | 2019-10-30 | 2022-03-22 | 南京理工大学 | 一种基于集成学习的智能控制系统异常预测方法 |
CN111181939B (zh) * | 2019-12-20 | 2022-02-25 | 广东工业大学 | 一种基于集成学习的网络入侵检测方法及装置 |
CN111199253A (zh) * | 2019-12-30 | 2020-05-26 | 北京小白世纪网络科技有限公司 | 基于3d cnn深度学习的前列腺癌症图像识别方法 |
CN113497785B (zh) * | 2020-03-20 | 2023-05-12 | 深信服科技股份有限公司 | 恶意加密流量检测方法、系统、存储介质和云端服务器 |
CN111582498B (zh) * | 2020-04-30 | 2023-05-12 | 重庆富民银行股份有限公司 | 基于机器学习的qa辅助决策方法及系统 |
CN111683048B (zh) * | 2020-05-06 | 2021-05-07 | 浙江大学 | 一种基于多周期模型stacking的入侵检测系统 |
CN111340144B (zh) * | 2020-05-15 | 2020-08-11 | 支付宝(杭州)信息技术有限公司 | 风险样本检测方法、装置、电子设备及存储介质 |
CN112149119A (zh) * | 2020-09-27 | 2020-12-29 | 苏州遐视智能科技有限公司 | 一种用于人工智能系统的动态主动安全防御方法、系统及存储介质 |
CN112347479B (zh) * | 2020-10-21 | 2021-08-24 | 北京天融信网络安全技术有限公司 | 恶意软件检测的误报纠正方法、装置、设备和存储介质 |
CN112382382B (zh) * | 2020-10-23 | 2024-04-12 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112507332A (zh) * | 2020-11-27 | 2021-03-16 | 兰州理工大学 | 人工智能网络安全攻击流量检索方法 |
CN112561705A (zh) * | 2020-12-28 | 2021-03-26 | 杭州趣链科技有限公司 | 基于人工智能的联盟链自治方法及装置、设备、存储介质 |
CN112651444B (zh) * | 2020-12-29 | 2022-08-02 | 山东科技大学 | 一种基于自学习的非平稳过程异常检测方法 |
CN113127806A (zh) * | 2021-04-19 | 2021-07-16 | 上海工程技术大学 | 一种基于机器学习的回归分析模型选择方法 |
CN113259369B (zh) * | 2021-06-02 | 2021-09-07 | 华中科技大学 | 一种基于机器学习成员推断攻击的数据集认证方法及系统 |
CN114826690B (zh) * | 2022-04-02 | 2023-11-17 | 中电科普天科技股份有限公司 | 一种基于边缘云环境的入侵检测方法和装置 |
CN115118450B (zh) * | 2022-05-17 | 2024-01-05 | 北京理工大学 | 融合多级特征的增量式动态权值集成学习入侵检测方法 |
CN115829120B (zh) * | 2022-11-29 | 2023-07-18 | 中国环境科学研究院 | 基于机器学习方法的水质预测预警系统 |
CN116403270B (zh) * | 2023-06-07 | 2023-09-05 | 南昌航空大学 | 一种基于多特征融合的人脸表情识别方法及系统 |
CN116738415A (zh) * | 2023-08-10 | 2023-09-12 | 北京中超伟业信息安全技术股份有限公司 | 基于粒子群优化加权朴素贝叶斯入侵检测方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002025405A2 (en) * | 2000-09-19 | 2002-03-28 | The Regents Of The University Of California | Methods for classifying high-dimensional biological data |
CN104598552A (zh) * | 2014-12-31 | 2015-05-06 | 大连钜正科技有限公司 | 一种支持增量式更新的大数据特征学习的方法 |
CN106503723A (zh) * | 2015-09-06 | 2017-03-15 | 华为技术有限公司 | 一种视频分类方法及装置 |
CN106803081A (zh) * | 2017-01-25 | 2017-06-06 | 东南大学 | 一种基于多分类器集成的脑电分类方法 |
CN107067025B (zh) * | 2017-02-15 | 2020-12-22 | 重庆邮电大学 | 一种基于主动学习的文本数据自动标注方法 |
-
2017
- 2017-11-20 CN CN201711156164.3A patent/CN108023876B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108023876A (zh) | 2018-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108023876B (zh) | 基于可持续性集成学习的入侵检测方法及入侵检测系统 | |
Ahmed et al. | Feature selection–based detection of covert cyber deception assaults in smart grid communications networks using machine learning | |
CN110213222B (zh) | 基于机器学习的网络入侵检测方法 | |
US10970650B1 (en) | AUC-maximized high-accuracy classifier for imbalanced datasets | |
Din et al. | Exploiting evolving micro-clusters for data stream classification with emerging class detection | |
CN106778832B (zh) | 基于多目标优化的高维数据半监督集成分类方法 | |
Gama et al. | Recurrent concepts in data streams classification | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
Kadwe et al. | A review on concept drift | |
Al Hamad et al. | Accuracy vs. cost in decision trees: A survey | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
Santos et al. | Optimizing the parameters of drift detection methods using a genetic algorithm | |
Rani et al. | Design of an intrusion detection model for IoT-enabled smart home | |
CN112418987B (zh) | 交通运输单位信用评级方法、系统、电子设备及存储介质 | |
CN109919236A (zh) | 一种基于标签相关性的bp神经网络多标签分类方法 | |
KR102537113B1 (ko) | 인공 신경망의 추론 데이터에 대한 신뢰도를 판단하는 방법 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
Alija et al. | Predicting students performance using supervised machine learning based on imbalanced dataset and wrapper feature selection | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
Loganathan et al. | Development of machine learning based framework for classification and prediction of students in virtual classroom environment | |
CN113516189B (zh) | 基于两阶段随机森林算法的网站恶意用户预测方法 | |
Degirmenci et al. | iMCOD: Incremental multi-class outlier detection model in data streams | |
Darling et al. | Toward uncertainty quantification for supervised classification | |
Parvin et al. | A scalable method for improving the performance of classifiers in multiclass applications by pairwise classifiers and GA | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |