CN111464510B

CN111464510B - 基于快速梯度提升树分类模型的网络实时入侵检测方法

Info

Publication number: CN111464510B
Application number: CN202010191536.1A
Authority: CN
Inventors: 金冬子; 陆以勤; 覃健诚; 王君君; 毛中书; 李佳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2021-06-08
Anticipated expiration: 2040-03-18
Also published as: CN111464510A

Abstract

本发明公开了一种基于快速梯度提升树模型的网络实时入侵检测方法，该方法包括下述步骤：使用训练数据训练快速梯度提升树分类模型；在连续的时间窗口抓取网络流量数据，每个时间窗口中抓取的原始流量数据作为一个数据块；对数据块进行统计分析，生成多个特征向量；采用快速梯度提升树分类模型对特征向量进行分类，区分正常行为和网络入侵行为；若判定为网络入侵行为，输出网络入侵告警信号。本发明能够克服分类性能的类别偏向性问题和降低误报率，同时模型建立阶段和决策阶段的匹配过程满足实时性的要求。

Description

基于快速梯度提升树分类模型的网络实时入侵检测方法

技术领域

本发明涉及网络安全领域，具体涉及一种基于快速梯度提升树分类模型的网络实时入侵检测方法。

背景技术

常见的网络安全防护技术有防火墙，数据加密，认证和数字签名等，这些静态的被动防守式网络安全工具服务方式单一，难以应对当今复杂多变的网络入侵。

网络流量是入侵检测的一个重要数据来源，常见的网络入侵检测方法可以根据原理分为基于误用的网络入侵检测和基于异常的网络入侵检测，但现实网络环境中得到的训练数据为不平衡数据，因此基于误用的入侵检测方法通常在分类性能上存在类别偏向性，即对于一些数据量少的入侵行为检测性能较差，此外，基于误用的入侵检测方法常常比较复杂，因而难以满足实时性的要求；另一方面，界定正常行为和入侵行为本就是具有挑战性的任务，况且当前环境中正常用户的行为并非静态不变的，基于异常的网络入侵检测可能会把正常行为误判为入侵行为，因而常具有较高的误报率。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法，能够克服分类性能的类别偏向性问题和降低误报率，同时模型建立阶段和决策阶段的匹配过程满足实时性的要求。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法，包括下述步骤：

使用训练数据训练快速梯度提升树分类模型；

在连续的时间窗口抓取网络流量数据，每个时间窗口中抓取的原始流量数据作为一个数据块；

对所述数据块进行统计分析，生成多个特征向量；

采用所述快速梯度提升树分类模型对所述特征向量进行分类，区分正常行为和网络入侵行为；

若判定为网络入侵行为，输出网络入侵告警信号。

作为优选的技术方案，所述训练数据的具体构建步骤包括：

对原始数据采用GOSS进行采样，采用EFB对互斥的稀疏特征绑定后得到训练数据，表示为特征向量集：

其中，N表示特征向量的个数，x_i表示特征属性，y_i表示标签。

作为优选的技术方案，所述快速梯度提升树分类模型的具体训练步骤包括：

所述快速梯度提升树分类模型由M棵决策树构成，初始化第一棵决策树为常数，表示为：

其中，f₀代表初始化的决策树，

代表初始化的预测值；

训练下一棵决策树，使用按叶子的生长策略，通过最小化损失函数得到第t次迭代中得到的决策树模型，表示为：

其中，f_t(x_i)表示在第t次迭代中得到的决策树模型，L_(t)表示损失函数，y_i表示第i个实例的标签值，

表示在第t次迭代中对第i个实例的预测值；

将上一次迭代中的决策树模型与当前次迭代中得到的决策树模型相加，得到新的模型：

完成M次模型迭代后，得到并返回最终的训练模型：

作为优选的技术方案，所述在连续的时间窗口抓取网络流量数据，具体采用Tcpdump在连续的时间窗口内对主机网卡进行监听，抓取网络中的原始流量数据。

作为优选的技术方案，所述生成多个特征向量，具体步骤包括：

根据源IP和目的IP将所述数据块中的数据划分成双向流；

采用CICFlowMeter对数据块进行基于双向流的特征提取，生成特征向量。

作为优选的技术方案，所述区分正常行为和网络入侵行为，具体步骤包括：

将特征向量代入快速梯度提升树分类模型进行判别，得到预测值

若预测值

与正常行为的标签相同，则判定当前流属于正常行为；若与入侵类别标签相同，则判定当前流属于入侵行为。

作为优选的技术方案，所述网络入侵告警信号包括网络入侵行为发生时间、网络入侵行为类别信息和网络入侵行为的网络来源。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明基于快速梯度提升树模型进行网络入侵检测，在模型训练前先采用GOSS对样本数据采样以减低数据量，通过EFB对互斥的稀疏特征进行绑定以降低特征维度，进而到达到提升模型建立阶段实时性的目的。

(2)本发明的快速梯度提升树模型在生成每个决策树时，采用按叶生长的策略，在增长一个叶子节点的情况下，比按层生长的策略能够降低更多的误差；为了防止模型过拟合，快速梯度提升树模型限制每个决策树的深度，在最终得到的模型中由较少的决策树和叶子节点构成，这一特点使得快速梯度提升树模型在决策阶段的匹配过程具有良好的时间高效性。

(3)本发明在每次训练新的决策树时对原始样本数据采用GOSS方法进行采样，再将决策树加起来得到最终的预测结果，一定程度上能够克服训练数据的不平衡，并且起到改善检测性能，特别是降低误报率的效果。

附图说明

图1为本实施例基于快速梯度提升树分类模型的网络实时入侵检测方法的流程示意图；

图2为本实施例建立基于快速梯度提升树的分类模型的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于快速梯度提升树分类模型的网络实时入侵检测方法，包括下述步骤：

S1、模型建立阶段，使用训练数据训练快速梯度提升树分类模型；

如图2所示，建立基于快速梯度提升树的分类模型具体步骤包括：

对原始数据采用GOSS(Gradient-based One-Side Sampling)进行采样从而降低数据量，同时通过EFB(Exclusive Feature Bundling)对互斥的稀疏特征绑定从而降低特征维度，之后得到的数据作为训练数据；

训练数据集来源于入侵检测系统所部署的网络环境，表示为特征向量集：

其中，N代表特征向量的个数，x_i为特征属性，y_i为标签；

快速梯度提升树模型由M棵决策树构成，将第一棵决策树初始化为常数，其表示形式如下所示：

其中，f₀代表初始化的决策树，

代表初始化的预测值；

训练下一棵决策树，使用按叶子的生长策略，通过最小化损失函数得到，其表示形式如下：

其中y_i是第i个实例的标签值，

是在第t次迭代中对第i个实例的预测值，f_t(x_i)代表在第t次迭代中得到的决策树模型，L_(t)是损失函数，用来衡量预测值

和目标值y_i的误差；

迭代得到新的模型，将上一次迭代中的模型与本次迭代中得到的决策树相加，得到本次迭代的模型，其表示形式如下：

之后继续迭代，通过最小化损失函数生成新的决策树，并通过加法方式得到新一轮迭代中的模型；

判定是否达到停止条件，迭代的停止条件为完成第M次迭代，其中M为预先确定的迭代次数，完成M次模型迭代后，得到并返回最终的训练模型，其表示形式如下：

至此完成基于快速梯度提升树的分类模型的建立；

S2、数据获取阶段，在连续的时间窗口从网络中抓取流量数据，每个时间窗口中抓取的原始流量数据作为一个数据块；

具体步骤为：采用Tcpdump在连续的时间窗口内对主机网卡进行监听，抓取网络中的原始流量数据；

单个时间窗口的长度取为2s,每个时间窗口中抓取的数据被存储为一个数据块，文件格式为.pcap；

S3、数据预处理阶段，通过对每一个数据块进行统计分析，生成若干个特征向量；

具体步骤为：将数据块中的数据，根据源IP和目的IP将数据包划分成双向流；

采用CICFlowMeter对数据块进行基于双向流的特征提取，生成由84个特征表示的特征向量；

S4、决策阶段，通过已经建立的快速梯度提升树模型对特征向量进行分类，分为正常行为和若干具体的入侵行为；

具体步骤为：将特征向量代入基于快速梯度提升树的分类模型进行判别，得到预测值

若

与正常行为的标签相同，则认为该流为正常行为，否则若与具体的入侵类别标签相同，认为该流属于这类入侵行为；

S5、响应阶段，若决策阶段发现入侵行为，入侵检测系统向系统管理员发送告警信号；

具体步骤包括：对检测到的入侵行为，向系统管理员发送告警信号，该信号内容包括入侵行为发生时间、入侵行为的具体类别信息和入侵行为的网络来源。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。