CN111654479A - 一种基于随机森林与XGBoost的洪泛攻击检测方法 - Google Patents

一种基于随机森林与XGBoost的洪泛攻击检测方法 Download PDF

Info

Publication number
CN111654479A
CN111654479A CN202010438357.3A CN202010438357A CN111654479A CN 111654479 A CN111654479 A CN 111654479A CN 202010438357 A CN202010438357 A CN 202010438357A CN 111654479 A CN111654479 A CN 111654479A
Authority
CN
China
Prior art keywords
xgboost
model
random forest
center network
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010438357.3A
Other languages
English (en)
Inventor
杨武
苘大鹏
吕继光
王巍
玄世昌
张吉顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010438357.3A priority Critical patent/CN111654479A/zh
Publication of CN111654479A publication Critical patent/CN111654479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/32Flooding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于信息中心网络的洪泛攻击检测技术领域,具体涉及一种基于随机森林与XGBoost的洪泛攻击检测方法。本发明采用当前较流行的集成学习算法随机森林和梯度提升算法XGBoost,在特征选择方面,提出了基于集成学习思想的特征选择模型,模型采用随机森林算法,解决了模型特征选择问题,提高了检测模块构建的速度,降低了过拟合的风险,提升了检测模块的准确率。本发明解决了传统统计检测方法需要手动设置阈值的问题,方法通过模型学习得到分类标准,降低了阈值设置对检测率的影响,提升了分类效果,增加了虚假兴趣包洪泛攻击检测的准确率。

Description

一种基于随机森林与XGBoost的洪泛攻击检测方法
技术领域
本发明属于信息中心网络的洪泛攻击检测技术领域,具体涉及一种基于随机森林与XGBoost的洪泛攻击检测方法。
背景技术
信息中心网络作为极具潜力的下一代网络架构,摒弃了传统网络架构IP地址的概念,而是以内容作为网络的核心。信息中心网络在数据传输过程中是以内容名称为中心,而不管内容的具体来源,通过订阅-发布的方式实现生产者与消费者之间的通信。信息中心网络通过路由器节点缓存的特点减少传输的冗余数据,提高了传输效率,增加了网络利用率。所以,在信息中心网络架构中对路由节点有较高的性能要求。内容中心网络被广泛认为是信息中心网络的一种很有前途的表示和实现,是未来Internet体系结构的一个潜在候选人,本章开始以内容中心网络为例作为研究对象。内容中心网络的安全受到一个重要的安全隐患兴趣包洪范攻击的威胁,兴趣包洪范攻击是基于IP网络上DoS和分布式DoS攻击的演化。兴趣包攻击者可以在一个指定的数据网络中创建大量的恶意兴趣包,快速耗尽内容中心网络路由器的通信信道带宽和缓存容量,严重影响了路由器接收和转发普通用户的数据包的能力。
在传统IP网络中,洪泛攻击严重影响网络状态消耗大量的网络资源进而影响正常用户的请求。在内容中心网络中,由于在内容中心网络中兴趣包洪泛攻击消耗路由器中PIT表空间,当路由器接收正常用户的兴趣包而没有表空间则拒绝正常用户请求的兴趣包。此外,当攻击者采取间断攻击模式或在正常请求兴趣包下混杂攻击兴趣包,对于攻击的检测则变得更加困难。
发明内容
本发明的目的在于提供用于信息中心网络的,具有更高的性能,可以适应更加复杂的网络环境的一种基于随机森林与XGBoost的洪泛攻击检测方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:提取内容中心网络路由器的数据,采集攻击情况以及正常情况下内容中心网络路由器节点相关的信息;将采集到的数据分为训练集以及测试集;
步骤2:采集内容中心网络路由节点的备选特征;计算内容中心网络路由器兴趣包的信息熵;
步骤3:采用随机森林特征选择算法对内容中心网络路由节点的备选特征进行特征的排序筛选,排除内容中心网络中冗余的属性,选择出有效的特征;
步骤4:依照筛选出的特征按照正样本以及负样本的比例对训练集进行数据采集,获得新特征下的训练集和测试集;
步骤5:用新特征下的训练集训练XGBoost模型;模型构建完成后,采用新特征下的测试集验证构建的模型,最终得到有效的XGBoost模型;
步骤6:将测试集中的数据输入到XGBoost模型中,得到检测结果。
本发明的有益效果在于:
本发明是基于随机森林与XGBoost的洪泛攻击检测方法,对内容中心网络兴趣包洪泛攻击进行判断。本发明消除了传统人工阈值判断手段对检测的准确性影响,基于模型学习的检测手法,较传统的检测手法在准确率上有一定程度的提升。本发明采用当前较流行的集成学习算法随机森林和梯度提升算法XGBoost,在信息收集方面,提取出两大类特征,基于信息熵和基于路由器节点状态信息。在路由器节点状态信息中选择了能体现洪泛攻击的特征,在信息熵的计算算法中通过统计兴趣包分布来进行熵的计算;在特征选择方面,提出了基于集成学习思想的特征选择模型,模型采用随机森林算法,解决了模型特征选择问题,提高了检测模块构建的速度,降低了过拟合的风险,提升了检测模块的准确率;在攻击检测方面,本发明提出的基于XGBoost模型学习的检测方法解决传统统计检测方法需要手动设置阈值的问题,方法通过模型学习得到分类标准,降低了阈值设置对检测率的影响,提升了分类效果,增加了虚假兴趣包洪泛攻击检测的准确率。
附图说明
图1是本发明的特征选择架构示意图。
图2是本发明的整体架构示意图。
图3是检测模型分别为XGBoost与随机森林模型对比图.
图4是本发明较传统BSD检测方法分析图。
图5是在内容中心网络中基于随机森林的算法具体实现伪代码图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明是基于随机森林与XGBoost的洪泛攻击检测方法,对内容中心网络兴趣包洪泛攻击进行判断。本发明消除了传统人工阈值判断手段对检测的准确性影响,基于模型学习的检测手法,较传统的检测手法在准确率上有一定程度的提升。
在内容中心网络中,当潜在攻击用户发动兴趣包洪泛攻击发生时,从内容中心网络路由器角度来看存在一些共同的特征。当路由器在短时间收到大量不存在的内容名称前缀会导致PIT表项占用率短期激增、路由器收到兴趣包以及收到数据包比率变化较大等一系列的特点。但是,存在上述一些特征的路由器不一定是存在攻击。在不同的时间段网络流量的大小是不相同的。当节假日或者每天晚上网络高峰期PIT的占用率也会出现明显的上升。所以在应用随机森林模型进行训练以及分类时需提取多个相关特征。同时,对于备选的多个特征来说,并不是所有的属性都与分类结构相关联,所以应用随机森林对备选特征进行特征的重新选择。
传统对于内容中心网络中兴趣包洪泛攻击检测一般采用的统计学方式进行判断,例如信息熵、贝叶斯算法等。通常情况下需要要设置多个阈值。本发明是基于集成学习算法随机森林进行特征选择,应用XGBoost进行决策。不用设置阈值。学习速度快、准确率高。
本发明针对虚假兴趣包洪泛攻击问题提出了一种基于随机森林与XGBoost的洪泛攻击检测方法,方法中采用当前较流行的集成学习算法随机森林和梯度提升算法XGBoost。方法在信息收集方面,提取出两大类特征,基于信息熵和基于路由器节点状态信息。在路由器节点状态信息中选择了能体现洪泛攻击的特征,在信息熵的计算算法中通过统计兴趣包分布来进行熵的计算;在特征选择方面,提出了基于集成学习思想的特征选择模型,模型采用随机森林算法,解决了模型特征选择问题,提高了检测模块构建的速度,降低了过拟合的风险,提升了检测模块的准确率;在攻击检测方面,本发明提出的基于XGBoost模型学习的检测方法解决传统统计检测方法需要手动设置阈值的问题,方法通过模型学习得到分类标准,降低了阈值设置对检测率的影响,提升了分类效果,增加了虚假兴趣包洪泛攻击检测的准确率。
在内容中心网络中基于随机森林的算法具体实现如图5所示。通过算法计算后对备选特征属性影响值进行排序。首先去除改动前后差值不变的特征。其次,对于差值较大的属性说明对于分类结果影响比较大,将其选出作为特征。反之,对于差值较小的说明对于分类结果有较小的影响,说明其与最终的分类结果无关。最终,根据上述特征选择方法求解出对检测影响较大的几个特征来进行分类模型的构建。通过上述方法,排除了对于构建模型有干扰的噪声特征,删除了对于最终模型构建影响较小的特征,最终选择出了有效的特征。
传统对于内容中心网络中兴趣包洪泛攻击检测一般采用的统计学方式进行判断,例如信息熵、贝叶斯算法等。通常情况下需要要设置多个阈值。本兴趣包洪泛攻击检测方法是基于集成学习算法随机森林进行特征选择,应用XGBoost进行决策。不用设置阈值。学习速度快、准确率高。本兴趣包洪泛检测方法具体步骤如下所示。
步骤一:首先,提取内容中心网络路由器的数据,采集攻击情况以及正常情况下内容中心网络路由器节点相关的信息。对于采集到的数据,按照一定的比例分为数据集以及测试集。
步骤二:采集内容中心网络路由节点的备选数据。例如:PIT总数、PIT使用情况、兴趣包的接收情况、丢包率情况等节点信息。通过计算,求得内容中心网络路由器兴趣包的信息熵。
步骤三:对于备选特征用上述随机森林特征选择算法进行相应的特征的排序筛选。排除内容中心网络中冗余的属性,选择出有效的特征。
步骤四:依照筛选出的特征按照正样本以及负样本的比例重新进行数据采集,获得新特征下的训练集和测试集。
步骤五:XGBoost算法作为判断模型进行路由器状态的判断,根据上述筛选得到的属性以及数据集中的训练集进行XGBoost模型的构建。模型构建完成,通过测试集来验证构建的模型。最终得到有效的判定模型。
步骤六:定期获取内容中心网络中路由器节点信息状况输入进决策模型进行判断当前路由器是否存在攻击。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于随机森林与XGBoost的洪泛攻击检测方法,其特征在于,包括以下步骤:
步骤1:提取内容中心网络路由器的数据,采集攻击情况以及正常情况下内容中心网络路由器节点相关的信息;将采集到的数据分为训练集以及测试集;
步骤2:采集内容中心网络路由节点的备选特征;计算内容中心网络路由器兴趣包的信息熵;
步骤3:采用随机森林特征选择算法对内容中心网络路由节点的备选特征进行特征的排序筛选,排除内容中心网络中冗余的属性,选择出有效的特征;
步骤4:依照筛选出的特征按照正样本以及负样本的比例对训练集进行数据采集,获得新特征下的训练集和测试集;
步骤5:用新特征下的训练集训练XGBoost模型;模型构建完成后,采用新特征下的测试集验证构建的模型,最终得到有效的XGBoost模型;
步骤6:将测试集中的数据输入到XGBoost模型中,得到检测结果。
CN202010438357.3A 2020-05-22 2020-05-22 一种基于随机森林与XGBoost的洪泛攻击检测方法 Pending CN111654479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010438357.3A CN111654479A (zh) 2020-05-22 2020-05-22 一种基于随机森林与XGBoost的洪泛攻击检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010438357.3A CN111654479A (zh) 2020-05-22 2020-05-22 一种基于随机森林与XGBoost的洪泛攻击检测方法

Publications (1)

Publication Number Publication Date
CN111654479A true CN111654479A (zh) 2020-09-11

Family

ID=72348341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010438357.3A Pending CN111654479A (zh) 2020-05-22 2020-05-22 一种基于随机森林与XGBoost的洪泛攻击检测方法

Country Status (1)

Country Link
CN (1) CN111654479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206860A (zh) * 2021-05-17 2021-08-03 北京交通大学 一种基于机器学习和特征选择的DRDoS攻击检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108347442A (zh) * 2018-02-09 2018-07-31 重庆邮电大学 内容中心网络中检测兴趣包泛洪攻击的方法及系统
CN108712446A (zh) * 2018-06-19 2018-10-26 中国联合网络通信集团有限公司 一种内容中心网络中兴趣包洪泛攻击的防御方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108347442A (zh) * 2018-02-09 2018-07-31 重庆邮电大学 内容中心网络中检测兴趣包泛洪攻击的方法及系统
CN108712446A (zh) * 2018-06-19 2018-10-26 中国联合网络通信集团有限公司 一种内容中心网络中兴趣包洪泛攻击的防御方法及装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
KUMAR, NAVEEN , A. K. SINGH , AND S. SRIVASTAVA: ""Feature selection for interest flooding attack in named data networking"", 《INTERNATIONAL JOURNAL OF COMPUTERS AND APPLICATIONS》 *
姚东等: "基于改进非广延熵特征提取的双随机森林实时入侵检测方法", 《计算机科学》 *
张梓童等: "基于特征选择和梯度提升算法的高光谱遥感地物识别", 《数学的实践与认识》 *
张龙等: "SDN中基于信息熵与DNN的DDoS攻击检测模型", 《计算机研究与发展》 *
江泽涛等: "基于特征选择的两级混合入侵检测方法", 《计算机工程与设计》 *
赵雪峰等: "NDN中一种基于节点的攻击检测与防御机制", 《网络空间安全》 *
魏金太等: "基于信息增益和随机森林分类器的入侵检测系统研究", 《中北大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206860A (zh) * 2021-05-17 2021-08-03 北京交通大学 一种基于机器学习和特征选择的DRDoS攻击检测方法

Similar Documents

Publication Publication Date Title
CN111935170B (zh) 一种网络异常流量检测方法、装置及设备
Loukas et al. Likelihood ratios and recurrent random neural networks in detection of denial of service attacks
CN102420723A (zh) 一种面向多类入侵的异常检测方法
CN107370752B (zh) 一种高效的远控木马检测方法
CN109151880B (zh) 基于多层分类器的移动应用流量识别方法
CN113206860B (zh) 一种基于机器学习和特征选择的DRDoS攻击检测方法
CN112235288B (zh) 一种基于gan的ndn网络入侵检测方法
CN107248996A (zh) 一种dns放大攻击的检测与过滤方法
CN111782700B (zh) 基于双层结构的数据流频次估计方法、系统及介质
Eom et al. Network traffic classification using ensemble learning in software-defined networks
CN111654479A (zh) 一种基于随机森林与XGBoost的洪泛攻击检测方法
CN109120733B (zh) 一种利用dns进行通信的检测方法
KR100681000B1 (ko) 플로우별 트래픽 측정 장치 및 방법
CN112235254A (zh) 一种高速主干网中Tor网桥的快速识别方法
CN113645182A (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN110650157B (zh) 基于集成学习的Fast-flux域名检测方法
Man et al. Cache pollution detection method based on GBDT in information-centric network
Yuan et al. Information entropy based clustering method for unsupervised internet traffic classification
CN111447169A (zh) 一种在网关上的实时恶意网页识别方法及系统
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN113382092B (zh) 基于图社区发现的活跃地址探测方法及装置
CN115002031A (zh) 基于不平衡数据分布的联邦学习网络流量分类模型训练方法、模型及分类方法
CN110049039B (zh) 一种基于gbdt的信息中心网络缓存污染检测方法
CN114330504A (zh) 基于Sketch的网络恶意流量检测方法
CN113938292A (zh) 一种基于概念漂移的漏洞攻击流量检测方法及检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911