CN111654479A

CN111654479A - 一种基于随机森林与XGBoost的洪泛攻击检测方法

Info

Publication number: CN111654479A
Application number: CN202010438357.3A
Authority: CN
Inventors: 杨武; 苘大鹏; 吕继光; 王巍; 玄世昌; 张吉顺
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-11

Abstract

本发明属于信息中心网络的洪泛攻击检测技术领域，具体涉及一种基于随机森林与XGBoost的洪泛攻击检测方法。本发明采用当前较流行的集成学习算法随机森林和梯度提升算法XGBoost，在特征选择方面，提出了基于集成学习思想的特征选择模型，模型采用随机森林算法，解决了模型特征选择问题，提高了检测模块构建的速度，降低了过拟合的风险，提升了检测模块的准确率。本发明解决了传统统计检测方法需要手动设置阈值的问题，方法通过模型学习得到分类标准，降低了阈值设置对检测率的影响，提升了分类效果，增加了虚假兴趣包洪泛攻击检测的准确率。

Description

一种基于随机森林与XGBoost的洪泛攻击检测方法

技术领域

本发明属于信息中心网络的洪泛攻击检测技术领域，具体涉及一种基于随机森林与XGBoost的洪泛攻击检测方法。

背景技术

信息中心网络作为极具潜力的下一代网络架构，摒弃了传统网络架构IP地址的概念，而是以内容作为网络的核心。信息中心网络在数据传输过程中是以内容名称为中心，而不管内容的具体来源，通过订阅-发布的方式实现生产者与消费者之间的通信。信息中心网络通过路由器节点缓存的特点减少传输的冗余数据，提高了传输效率，增加了网络利用率。所以，在信息中心网络架构中对路由节点有较高的性能要求。内容中心网络被广泛认为是信息中心网络的一种很有前途的表示和实现，是未来Internet体系结构的一个潜在候选人，本章开始以内容中心网络为例作为研究对象。内容中心网络的安全受到一个重要的安全隐患兴趣包洪范攻击的威胁，兴趣包洪范攻击是基于IP网络上DoS和分布式DoS攻击的演化。兴趣包攻击者可以在一个指定的数据网络中创建大量的恶意兴趣包，快速耗尽内容中心网络路由器的通信信道带宽和缓存容量，严重影响了路由器接收和转发普通用户的数据包的能力。

在传统IP网络中，洪泛攻击严重影响网络状态消耗大量的网络资源进而影响正常用户的请求。在内容中心网络中，由于在内容中心网络中兴趣包洪泛攻击消耗路由器中PIT表空间，当路由器接收正常用户的兴趣包而没有表空间则拒绝正常用户请求的兴趣包。此外，当攻击者采取间断攻击模式或在正常请求兴趣包下混杂攻击兴趣包，对于攻击的检测则变得更加困难。

发明内容

本发明的目的在于提供用于信息中心网络的，具有更高的性能，可以适应更加复杂的网络环境的一种基于随机森林与XGBoost的洪泛攻击检测方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：提取内容中心网络路由器的数据，采集攻击情况以及正常情况下内容中心网络路由器节点相关的信息；将采集到的数据分为训练集以及测试集；

步骤2：采集内容中心网络路由节点的备选特征；计算内容中心网络路由器兴趣包的信息熵；

步骤3：采用随机森林特征选择算法对内容中心网络路由节点的备选特征进行特征的排序筛选，排除内容中心网络中冗余的属性，选择出有效的特征；

步骤4：依照筛选出的特征按照正样本以及负样本的比例对训练集进行数据采集，获得新特征下的训练集和测试集；

步骤5：用新特征下的训练集训练XGBoost模型；模型构建完成后，采用新特征下的测试集验证构建的模型，最终得到有效的XGBoost模型；

步骤6：将测试集中的数据输入到XGBoost模型中，得到检测结果。

本发明的有益效果在于：

本发明是基于随机森林与XGBoost的洪泛攻击检测方法，对内容中心网络兴趣包洪泛攻击进行判断。本发明消除了传统人工阈值判断手段对检测的准确性影响，基于模型学习的检测手法，较传统的检测手法在准确率上有一定程度的提升。本发明采用当前较流行的集成学习算法随机森林和梯度提升算法XGBoost，在信息收集方面，提取出两大类特征，基于信息熵和基于路由器节点状态信息。在路由器节点状态信息中选择了能体现洪泛攻击的特征，在信息熵的计算算法中通过统计兴趣包分布来进行熵的计算；在特征选择方面，提出了基于集成学习思想的特征选择模型，模型采用随机森林算法，解决了模型特征选择问题，提高了检测模块构建的速度，降低了过拟合的风险，提升了检测模块的准确率；在攻击检测方面，本发明提出的基于XGBoost模型学习的检测方法解决传统统计检测方法需要手动设置阈值的问题，方法通过模型学习得到分类标准，降低了阈值设置对检测率的影响，提升了分类效果，增加了虚假兴趣包洪泛攻击检测的准确率。

附图说明

图1是本发明的特征选择架构示意图。

图2是本发明的整体架构示意图。

图3是检测模型分别为XGBoost与随机森林模型对比图.

图4是本发明较传统BSD检测方法分析图。

图5是在内容中心网络中基于随机森林的算法具体实现伪代码图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明是基于随机森林与XGBoost的洪泛攻击检测方法，对内容中心网络兴趣包洪泛攻击进行判断。本发明消除了传统人工阈值判断手段对检测的准确性影响，基于模型学习的检测手法，较传统的检测手法在准确率上有一定程度的提升。

在内容中心网络中，当潜在攻击用户发动兴趣包洪泛攻击发生时，从内容中心网络路由器角度来看存在一些共同的特征。当路由器在短时间收到大量不存在的内容名称前缀会导致PIT表项占用率短期激增、路由器收到兴趣包以及收到数据包比率变化较大等一系列的特点。但是，存在上述一些特征的路由器不一定是存在攻击。在不同的时间段网络流量的大小是不相同的。当节假日或者每天晚上网络高峰期PIT的占用率也会出现明显的上升。所以在应用随机森林模型进行训练以及分类时需提取多个相关特征。同时，对于备选的多个特征来说，并不是所有的属性都与分类结构相关联，所以应用随机森林对备选特征进行特征的重新选择。

传统对于内容中心网络中兴趣包洪泛攻击检测一般采用的统计学方式进行判断，例如信息熵、贝叶斯算法等。通常情况下需要要设置多个阈值。本发明是基于集成学习算法随机森林进行特征选择，应用XGBoost进行决策。不用设置阈值。学习速度快、准确率高。

本发明针对虚假兴趣包洪泛攻击问题提出了一种基于随机森林与XGBoost的洪泛攻击检测方法，方法中采用当前较流行的集成学习算法随机森林和梯度提升算法XGBoost。方法在信息收集方面，提取出两大类特征，基于信息熵和基于路由器节点状态信息。在路由器节点状态信息中选择了能体现洪泛攻击的特征，在信息熵的计算算法中通过统计兴趣包分布来进行熵的计算；在特征选择方面，提出了基于集成学习思想的特征选择模型，模型采用随机森林算法，解决了模型特征选择问题，提高了检测模块构建的速度，降低了过拟合的风险，提升了检测模块的准确率；在攻击检测方面，本发明提出的基于XGBoost模型学习的检测方法解决传统统计检测方法需要手动设置阈值的问题，方法通过模型学习得到分类标准，降低了阈值设置对检测率的影响，提升了分类效果，增加了虚假兴趣包洪泛攻击检测的准确率。

在内容中心网络中基于随机森林的算法具体实现如图5所示。通过算法计算后对备选特征属性影响值进行排序。首先去除改动前后差值不变的特征。其次，对于差值较大的属性说明对于分类结果影响比较大，将其选出作为特征。反之，对于差值较小的说明对于分类结果有较小的影响，说明其与最终的分类结果无关。最终，根据上述特征选择方法求解出对检测影响较大的几个特征来进行分类模型的构建。通过上述方法，排除了对于构建模型有干扰的噪声特征，删除了对于最终模型构建影响较小的特征，最终选择出了有效的特征。

传统对于内容中心网络中兴趣包洪泛攻击检测一般采用的统计学方式进行判断，例如信息熵、贝叶斯算法等。通常情况下需要要设置多个阈值。本兴趣包洪泛攻击检测方法是基于集成学习算法随机森林进行特征选择，应用XGBoost进行决策。不用设置阈值。学习速度快、准确率高。本兴趣包洪泛检测方法具体步骤如下所示。

步骤一：首先，提取内容中心网络路由器的数据，采集攻击情况以及正常情况下内容中心网络路由器节点相关的信息。对于采集到的数据，按照一定的比例分为数据集以及测试集。

步骤二：采集内容中心网络路由节点的备选数据。例如：PIT总数、PIT使用情况、兴趣包的接收情况、丢包率情况等节点信息。通过计算，求得内容中心网络路由器兴趣包的信息熵。

步骤三：对于备选特征用上述随机森林特征选择算法进行相应的特征的排序筛选。排除内容中心网络中冗余的属性，选择出有效的特征。

步骤四：依照筛选出的特征按照正样本以及负样本的比例重新进行数据采集，获得新特征下的训练集和测试集。

步骤五：XGBoost算法作为判断模型进行路由器状态的判断，根据上述筛选得到的属性以及数据集中的训练集进行XGBoost模型的构建。模型构建完成，通过测试集来验证构建的模型。最终得到有效的判定模型。

步骤六：定期获取内容中心网络中路由器节点信息状况输入进决策模型进行判断当前路由器是否存在攻击。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于随机森林与XGBoost的洪泛攻击检测方法，其特征在于，包括以下步骤：