CN110049039B

CN110049039B - 一种基于gbdt的信息中心网络缓存污染检测方法

Info

Publication number: CN110049039B
Application number: CN201910300369.7A
Authority: CN
Inventors: 苘大鹏; 杨武; 王巍; 玄世昌; 吕继光; 穆永嘉
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2021-09-10
Anticipated expiration: 2039-04-15
Also published as: CN110049039A

Abstract

在信息中心网络中，传统的缓存污染检测方法采用设置阈值的方式，使用阈值的方式需要人为这是阈值，一旦网络环境发生变化，之前阈值就会失效需要重新设置阈值，因此这种方式对不同网络环境的适应性较差。本发明提出一种基于GBDT的信息中心网络缓存污染检测方法，适用于NDN路由器，该方法的优势在于不必手工的设置参数，可以通过模型学习到检测方式，该检测模型提取节点状态信息特征以及路径信息特征，对于不同的网络环境有着较好的适应性以及较高的准确率。

Description

一种基于GBDT的信息中心网络缓存污染检测方法

技术领域

本发明属于计算机领域，具体涉及一种基于GBDT的信息中心网络缓存污染检测方法。

背景技术

由于信息中心网络设计的初衷就包含使用缓存增加网络利用率，因此缓存在信息中心网络中是必不可少的一部分，如果没有缓存，网络的效率会显著下降。在基于IP的网络中，有各种网络攻击，其中一类著名的攻击就是DDos攻击。在信息中心网络中与IP网络不同的是，信息中心网络中的主体是内容而不是IP，攻击者无法指定将某一包定向发送至目标主机，因此信息中心网络天生的具有对这种攻击的抗性。然而由于信息中心网络中大量使用缓存来增加网络效率，就自然的带来了一种缓存污染攻击。攻击者可以通过被控制的主机，大量发送非流行内容的请求，使得路径上的路由器都缓存了这种非流行的内容，当正常用户进行请求时，因为节点缓存查不到相应内容，缓存命中失败，路由器只有转发请求到内容生产者处进行处理，这让信息中心网路设计的初衷，使用缓存来最大限度的优化网络消息变得无用，使得网络中主干链路部分的流量大幅增加，造成网络拥堵等现象。

虽然ICN重新考虑了一些优化和创新的设计理念，但是在很多方面，一些核心问题在初期的ICN网络框架中还没有得到彻底地解决。缓存污染攻击是信息中心网络中一类破坏效果最强的攻击，当前大多数检测算法都需要手工设置阈值，这些方法对不同环境的适应性较差，因此，本发明提出一种基于GBDT的缓存污染检测方法，该方法不需要手工设置阈值并且具有较高的准确率。

发明内容

本发明目的在于提供解决信息中心网络中缓存污染检测问题，在不同的网络环境下有良好的适应性并且具有较高的准确率和训练速度的一种基于GBDT的信息中心网络缓存污染检测方法。

本发明的目的通过如下技术方案来实现：

一种基于GBDT的信息中心网络缓存污染检测方法，包括以下步骤：

步骤一：在无缓存污染攻击下从NDN路由器中提取节点状态信息特征和路径信息特征；

步骤二：在有缓存污染攻击下从NDN路由器中提取节点状态信息特征和路径信息特征；

步骤三：构建GBDT模型，并通过模型训练得到基于GBDT的缓存污染检测模型；

步骤四：将从NDN路由器中导出的数据包导入基于GBDT的缓存污染检测模型，检测信息中心网络是否受到缓存污染攻击；

所述的步骤一和步骤二中提取的节点状态信息特征包括兴趣包占比向量VEI、缓存命中率VHit和缓存命中率向量VH；所述的兴趣包占比向量VEI的计算公式为：

式中cnt_k表示单位时间内数量最多的K个兴趣包的数量，total表示单位时间内兴趣包的总数；所述的缓存命中率VHit为缓存替换策略下的缓存替换率；所述的缓存命中率向量VH为与兴趣包对应的K个缓存命中率；

所述的步骤一和步骤二中提取的路径信息特征为内容C的多样化率CP(C)，具体包括：

在兴趣包中添加一个PATH字段；每个NDN路由器启动时，选择一个随机整数作为路由器的ID，消费者发送兴趣包的PATH字段都为0：当NDN路由器收到一个兴趣包时，PATH的更新公式为

PATH_i+1＝PATH_i xor ID_i+1

式中PATH_i+1代表第i+1个路由器转发的兴趣包中的PATH值，ID_i+1代表第i+1个路由器的ID，xor表示计算机中的亦或操作；

定义Unique(C)表示在当前终端中请求内容C的兴趣包中的不相同的PATH值数量；定义Cnt(C)表示当前终端中请求内容C的兴趣包数量；内容C的多样化率CP(C)为：

CP(C)＝Unique(C)/Cnt(C)。

本发明还可以包括：

所述的步骤三中构建GBDT模型具体包括：

GBDT模型是对CART树进行梯度提升后的模型，CART树使用基尼指数来确定最优划分点，基尼指数的定义为：

每次分割需要使用属性A的第i个属性值来划分，公式为：

决策树的每次决策选择argmax_A，i(Gain_A，i(S))特征A的第i个属性值作为划分依据；f(x)代表决策树的整个决策过程；损失函数为：

L(y，f(x))＝log(1+exp(-yf(x)))

(y∈(-1，+1))

第t轮的第i个样本的损失函数的负梯度表示为：

r_ti＝y_i/(1+exp(y_if(x_i)))

利用利用(xi，rti)，i＝1，2，..m拟合一颗CART回归树，得到第t颗回归树，其对应的叶节点区域Rtj，j＝1，2，...，J，其中J为叶子节点的个数；各个叶子节点的最佳残差拟合值为：

由此得到每次迭代的拟合函数为：

最终得到的GBDT模型的表达式为：

本发明的有益效果在于：

本发明提出的一种基于GBDT的信息中心网络缓存污染检测方法对于不同的网络环境有着较好的适应性以及较高的准确率。通过实验对比，可以证明该方法在准确率上相比传统方法更高，且训练速度较快。

附图说明

图1为获得基于GBDT的缓存污染检测模型的流程图。

图2为仿真实验网络拓扑图。

图3为训练时的迭代次数与损失函数关系图。

图4为GBDT模型迭代次数与时间关系图。

图5为攻击强度与正确性关系图。

图6为攻击强度与检测准确率图。

具体实施方式

下面结合附图对本发明做进一步描述。

缓存污染检测模型使用GBDT模型构建，主要的构建流程为先构造基础的GBDT模型，然后根据产生的训练数据，通过机器学习的方式更新GBDT模型参数，从而最终的一个检测模型。

缓存污染检测模型实质上是一个分类器，且是一个二分类的分类器，一类是当前节点在被攻击，另一类是当前节点未被攻击。本章节使用GBDT模型进行缓存污染检测，GBDT是Gradient Boost Decision Tree的缩写，也就是梯度提升树，该模型实际上在决策树进行的梯度提升的模型，也就是多个决策树根据梯度提升的方式进行融合。

GBDT模型是对CART树进行梯度提升后的模型，CART树使用基尼指数来确定最优划分点，基尼指数的定义为

基尼指数也可以表示一件事物的不确定性，基尼指数越大不确定性越大，选择基尼指数小的特征，这样的特征对于划分数据集的准确性会更高，由于CART是一颗二叉决策树，每次划分只能将集合化成两部分，因此每次分割需要使用属性A的第i个属性值来划分，公式为

式子中P_k表示样本点属于第k类的概率。

决策树的每次决策选择argmax_A，i(Gain_A，i(S))特征A的第i个属性值作为划分依据，下面将使用f(x)代表决策树的整个决策过程。

GBDT是采用迭代的方式对CART树进行增强，对于缓存污染检测问题，可以使用对数损失函数，损失函数为

L(y，f(x))＝log(1+exp(-yf(x)))

(y∈(-1，+1))

第t轮的第i个样本的损失函数的负梯度表示为

在这里将缓存污染问题的损失函数带入，此时的负梯度误差为

r_ti＝y_i/(1+exp(y_if(x_i)))

利用(xi，rti)(i＝1，2，..m)，可以拟合一颗CART回归树，得到了第t颗回归树，其对应的叶节点区域Rtj，j＝1，2，...，J。其中J为叶子节点的个数。

对每一个叶子节点里的样本，使损失函数最小，拟合叶子节点最好的输出值C_tj为

对于本发明提供的问题，将缓存污染问题的损失函数带入，各个叶子节点的最佳残差拟合值为

由于上式较难优化，使用近似值代替，如式

由此得到每次迭代的拟合函数为

最终得到的强学习器的表达式为

本发明提出一种基于GBDT的信息中心网络缓存污染检测方法，适用于NDN路由器，该方法的优势在于不必手工的设置参数，可以通过模型学习到检测方式。该检测模型提取节点状态信息特征以及路径信息特征。这两种特征的选择方式如下。

(1)节点状态信息

在NDN中，最直观反映攻击发生的量是正常请求的缓存命中率，但是负责转发与缓存的中间路由器无法区分正常的请求兴趣包与攻击兴趣包，因此该数据无法通过路由器直接或间接获得，只能通过一些可获得量来估计攻击的是否发生。NDN路由器中可以获得的量如表3.1所示。

表3.1NDN路由器可获得量

首先，缓存污染攻击是通过向网络发送大量非流行兴趣包实现的，因此数据包的相关量没有太大的意义，不作为特征。其次，对于攻击检测模型来说，一些总计的量对模型的检测并无意义，比如兴趣包总数，总缓存命中率，因此这些量不适合作为模型参数。此外，一些ID类型的量例如兴趣包的名称，缓存的兴趣包名称等实质上与缓存攻击无关，因此这类ID类型的变量也不应作为模型的特征。现有的研究已经表明，对于路由器中的兴趣包请求，正常情况下满足zipf分布，即请求最频繁的只占所有数据中很少的部分。因此，选取特征时，应考虑能提取能体现内容分布的特征，考虑将单位时间内兴趣包的数量可以体现内容的分布，使用单位时间内前K个请求数量最多的兴趣包数量构成一个K维的特征来让模型能够学习得到当前的分布特征，然后选择跟内容对应的K个的缓存命中率一起作为特征。

对于上述特征而言，兴趣包的数量会因为网络的使用情况有较大的差异，例如上网高分期和低峰期网络中的兴趣包总数差异很大，但是这种差异并不代表是否被攻击，所以如果直接选择兴趣包的数量作为特征，可能会使模型过于依赖网络中的包的数量信息。因此需要对兴趣包数量进行归一化，不使用数量，使用占比作为特征，归一化公式为

式中cnt_k表示单位时间内数量最多的K个兴趣包的数量，total表示单位时间内兴趣包的总数，最终选择节点的特征如表3.2所示。

表3.2模型的节点特征

(2)路径信息特征

在NDN网络中，除了基于节点状态的特征，还可以提取基于路径的信息作为辅助，为了需要保存路径信息，需要在兴趣包中添加一个PATH字段，本小节提出一种基于哈希的路径特征提取算法，该算法在运算时几乎只用执行几条汇编指令即可，几乎不会降低原路由器处理数据包的速度，在内存占用上，该算法只需要在兴趣包中添加一个整型变量，内存方面也几乎不影响网络带宽。

该算法需要每个NDN路由器启动时，选择一个随机整数作为路由器的ID，消费者发送兴趣包的PATH字段都为0，也就是内容消费者不参与整个路径的维护流程，如果攻击者企图更改这这个字段来伪造路径信息，第一跳的路由器也能够根据该值非零判断攻击者的攻击。路由器的算法如下：

当NDN路由器收到一个兴趣包时，PATH的更新公式为

PATH_i+1＝PATH_i xor ID_i+1

式中PATH_i+1代表第i+1个路由器转发的兴趣包中的PATH值，ID_i+1代表第i+1个路由器的ID，XOR表示计算机中的亦或操作，这种替换或者填充每次转发只产生一条汇编代码，所以几乎不会影响兴趣包的传递速率。

上述的PATH值可以近似代表兴趣包到达某个终端的路径，定义Unique(C)表示在当前终端中请求内容C的兴趣包中的不相同的PATH值数量，定义Cnt(c)表示当前终端中请求内容C的兴趣包数量，显然在无缓存污染情况下，兴趣包的数量Cnt(C)与Unique(PATH)之间存在正相关关系，因此不能直接将Unique(PATH)作为特征，应对Unique(PATH)做归一化处理，定义内容C的多样化率CP(C)为

CP(C)＝Unique(C)/Cnt(C)

多样化率一定程度上可以反映某种内容C的来源丰富程度，根据定义可知多样化率CP的范围在0到1之间，数值越小可以表明兴趣包的来源越单一，越有可能是攻击，该特征与缓存攻击存在负相关关系，因此作为特征可以增加模型的准确率。

从式可知，计算内容C的多样化率CP(C)需要计算Cnt(C)以及Unique(C)，这两个值都是统计值，Cnt(C)即单位时间内兴趣包C的数量，该值需要使用数值型变量，而Unique(C)是不同种类的PATH值的数量，对于一个NDN网络而言，考虑到网络流量，不能存储兴趣包，因此需要使用哈希的方式进行统计，将PATH进行哈希，此外使用位图来减少内存使用，使用一比特表示当前PATH是否出现过，每次讲哈希过的那位比特位置1，单位时间到时统计一次当前有多少比特位的值为1即可近似认为是路径的种类。

在信息中心网络中，传统的缓存污染检测方法采用设置阈值的方式，使用阈值的方式需要人为设置阈值，一旦网络环境发生变化，之前阈值就会失效需要重新设置阈值，因此这种方式对不同网络环境的适应性较差。本发明提出的基于GBDT的信息中心网络缓存污染检测方法对于不同的网络环境有着较好的适应性以及较高的准确率。通过实验对比，可以证明该方法在准确率上相比传统方法更高，且训练速度较快。实验过程如下：

(1)实验环境

实验环境如表1所示：

表1实验配置表

(2)实验方案

通过更改Interest包结构的源码，增加PATH变量，为每个NDN路由随机分配ID，在路由转发流程中添加对PATH变量的相关操作。在已知的复杂拓扑上进行仿真实验，实验网络拓扑图如图2。每次实验中，攻击者随机选择主机作为被控主机，被控主机发送大量非流行请求。

根据目前的研究，大多数研究者认为信息中心网络中的请求应该服从齐普夫分布，即zipf分布，因此，仿真实验网络中的请求需遵循zipf分布，正常请求分布取a＝1.2，发包速率为1000个/s。实验中NDN路由器的缓存策略采取LRU策略。实验通过ndnSIM搭建环境，通过修改源代码进行实验相关数据包括兴趣包到达的数量进行统计。为了得到训练GBDT的数据，分别仿真无攻击时以及有攻击时的网络，通过攻击者发送大量的非流行兴趣包仿真攻击的发生，将有攻击时的统计量以及无攻击时的统计数据分别记录保存，并将数据分为训练集和测试集进行了多次实验。每次实验中训练集和测试集数据选取如表4.2所示。

表4.2训练集和测试集数据选取

使用python的lightGBM库进行GBDT模型的搭建，lightGBM是微软推出的boosting框架，与xgboost相比有更快训练效率，更低的内存使用，更高的准确率，还支持并行化学习，本实验通过在10000组数据中使用GBDT模型进行训练，在2000组数据中进行测试，分许模型的准确率。

在训练模型时，为了防止模型的过拟合，需设置GBDT模型中的决策树最大深度以及最多叶子节点数，以及设置正则化参数，此外，对于迭代次数，选择快停止策略，将训练数据再次分成两份，一份作为训练集，一份作为评价集(为了与测试集区分，这里称为评价集)，用来做快停止，训练集与评价集是不想交的集合，实验时它们的比例为4:1，每次迭代都计算在评价集上的损失函数，当评价集上的表现不会再提高时(即损失函数不会变的更小时)，就停止训练，模型损失函数采用logloss函数。训练GBDT模型时，使用lightGBM的一些参数设置如表4.3所示。

表4.3 lightGBM相关参数设置

(3)实验结果分析

图3为在10000组数据上进行训练时的损失函数与迭代次数关系，可以从图中看出随着迭代次数的不断增加，训练集的表现不断变的更好，但是评价集的表现不再变好，且有变差的趋势，如果迭代次数继续增加，会出现过拟合情况，当前模型参数中，在736次迭代时训练集和评价集的损失函数较好，此时评价集上的损失函数为0.0386，训练集上的损失函数为0.0029175，测试集上的损失为0.015377，因此在当前特征下，应取迭代736次的模型参数。

从图4中可以看出，使用lightGBM进行GBDT模型的训练，10000组数据情况下训练也非常快，在迭代300次左右时，时间仍没超过1秒，对应该仿真实验中，最好迭代时，仅用时2秒左右，这意味着lightGBM进行GBDT模型训练非常迅速。

检测过程中定义攻击强度θ为请求包中攻击包所占比例，攻击强度越强大，对网络结点状态的影响也越大，模型的准确率与攻击强度有一定的关系，因此，在下面仿真实验中，分析攻击强度与检测准确率之间的关系。

从图5和图6中可以看出随着攻击强度的增强，不论哪种检测模型对缓存污染的感知能力都逐渐增强，对于GBDT模型来说，随着攻击强度增加，召回率不断增加，模型对于攻击的辨别更加清晰，这也是由于攻击强度的增强，网络中节点的缓存命中率以及兴趣包比例分布等受到的影响也会越来越大，导致模型更容易检测出攻击，通过对比LightWeightMechanism方法，该模型在各种攻击强度的检测中都更加准确，并且传统的LWM方法需要设置阈值，阈值影响了模型的检测准确度，而该缓存污染方式采用了当前主流的机器学习方式，学习得到判断标准，因此不需要设置阈值，从数值中可以看出在2.5％的攻击强度下，GBDT模型的检测准确率已经可以达到85％以上，因此可以说明该模型具有相当强的缓存污染感知能力。

对于本发明提出GBDT模型，采用了两种类型的特征，节点状态以及路径信息，由于采用了归一化，所有的值都在[0,1]范围内，并且对于NDN的缓存污染攻击，由于攻击者的攻击强度会存在数值上的强弱之分，不同攻击强度下特征也在某一范围内变化，因此最后得到的判定模型应是一个范围模型，这种特性与决策树的特性相似，GBDT是当前一个效果非常好的对决策树进行提升的模型，因此采用了该模型，实验也证明使用该模型可以达到良好的检测效果。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。