CN117081858B

CN117081858B - 一种基于多决策树入侵行为检测方法、系统、设备及介质

Info

Publication number: CN117081858B
Application number: CN202311329174.8A
Authority: CN
Inventors: 娄国庆; 徐丽娟; 赵大伟; 杨淑棉
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-19
Anticipated expiration: 2043-10-16
Also published as: CN117081858A

Abstract

本发明涉及一种基于多决策树入侵行为检测方法、系统、设备及介质，属于基于网络流量的入侵检测研究技术领域，包括：获取网络流量数据，进行特征提取，获得网络流量数据集；将网络流量数据集划分为训练集和测试集；针对网络流量数据集中存在的攻击类型种类，构建相应的入侵检测集成模型。对入侵检测集成模型进行训练，得到训练后的入侵检测集成模型；使用测试集输入训练后的入侵检测集成模型判断是否发生异常；本发明对位于入侵检测集成模型的第一层的多棵决策树作为基分类器，使用特殊处理的训练集分别进行单独训练，提高了每个基分类器对真实网络环境中存在的多种攻击流量的敏感性，进而提升整个入侵检测集成模型对攻击的敏感性。

Description

一种基于多决策树入侵行为检测方法、系统、设备及介质

技术领域

本发明属于基于网络流量的入侵检测研究技术领域，具体涉及一种基于多决策树集成的轻量型高速入侵方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

网络安全是一项国际挑战，随着世界各国互联互通程度的提高，其重要性日益突出。系统对计算资产的依赖使得它们很容易受到攻击。传统方法中，由安全操作员监控网络和系统状态，他们主要依靠入侵检测系统提供的报警信息。最初入侵检测系统大都采用深度数据包检测，其原理是通过深入检查数据包的有效载荷来确定流量的合法性，在入侵检测方面具有较高的准确性。但是，由于需要查看流量内容，深度数据包检测技术会有较大的计算开销且不适用于加密流量检测任务场景。此外，传统的机器学习算法也取得了长足的进步，其中一些变体已经成功地应用于解决与入侵检测相关的分类任务。深度学习技术的发展及其在不同领域的成功也为网络入侵检测提供了潜在的解决方案。近年来，随着人工智能算法的发展，基于机器学习算法的方法在入侵检测领域显示出独特的优势。机器学习模型可以直接从流量中提取特征，能够适应更复杂的网络环境。与深度学习技术相比，机器学习模型具有速度快、效率高、硬件要求低、模型可靠性高的优点。

随着高速网络的普及，入侵检测系统应该能够及时的在高速网络环境下检测出流量数据中存在的攻击行为。然而，目前提出的大多数入侵检测系统主要侧重于提高检测准确率和降低误报率等，难以应对高速网络环境下的入侵检测任务，这就给攻击者留下了可乘之机。更重要的是，近年来带有大量流量数据的网络攻击出现频率越来越高。因此，急需一种轻量且检测速度较快的入侵检测解决方案。

发明内容

针对现有入侵检测技术的不足，本发明提供了一种基于多决策树集成的轻量型高速入侵检测方法。

本发明旨在解决入侵检测系统在对网络流量数据进行入侵检测分析判断时，检测用时高、效率低、识别攻击类型敏感性差、硬件要求高的问题，目的是提高入侵检测系统对真实网络环境中存在的多种攻击流量的敏感性的同时，进一步提高模型的检测效率，降低检测模型对硬件系统的配置要求。

本发明首先监听被检测设备网卡，获取流经该网卡的全部网络流量，使用流量特征提取工具对其提取数据特征。为降低检测带来的计算开销，提高检测速度，选择了决策树作为集成模型的基本分类器。决策树的高效性能使得其在处理任务时能够迅速而准确地进行决策，从而显著加速整个检测过程；同时考虑到网络攻击的多样性，为提高模型对攻击类别识别的敏感性，采用分层集成、逐层分析的检测思路，首先位于集成模型第一层的多棵决策树作为基本分类模型均独立地对特征数据进行分析判断并输出结果，位于集成模型第二层的决策树作为元分类器接收第一层多个决策树的输出进行检测判断，输出最终的检测结果。

本发明还提供了一种基于多决策树集成的轻量型高速入侵检测系统、设备及存储介质。

术语解释：

1、决策树：决策树是一种基于树状结构的机器学习模型，用于解决分类和回归问题。它将数据集逐步划分为子集，每个划分对应一个决策节点，直到达到叶节点，叶节点对应最终的预测结果。决策树的每个划分都基于特征值，以便根据特征的不同取值进行数据的分割，从而实现数据分类或回归预测。

2、基本分类器：基本分类器是指在集成学习中用作构建更复杂模型的基础模型。它通常是一个简单的分类或回归算法，如决策树、支持向量机、朴素贝叶斯等。基本分类器的预测结果会被组合或集成，以产生更准确的最终预测结果。

3、集成模型：集成模型是一种将多个基本分类器组合在一起的机器学习模型。它通过整合多个基本分类器的预测结果，从而获得比单个分类器更强大和更准确的预测能力。集成模型的常见类型包括随机森林、梯度提升树和AdaBoost等。集成模型能够充分利用多个基本分类器的优势，提高模型的泛化性能和预测准确率。

4、cicflowmeter工具，CICFlowMeter（Canadian Institute for CybersecurityFlowMeter）是一个用于网络流量分析的工具，旨在帮助网络管理员、安全专业人员和研究人员更好地理解和监控网络流量。目前已用于许多网络安全数据集；例如IPS/IDS数据集(CICIDS2017)、Android恶意软件数据集(CICAndMal2017)等。

本发明的技术方案为：

一种基于多决策树集成的轻量型高速入侵检测方法，包括：

获取网络流量数据，进行特征提取，获得网络流量数据集；

将网络流量数据集划分为训练集和测试集；

针对网络流量数据集中存在的攻击类型种类，构建相应的入侵检测集成模型。

对入侵检测集成模型进行训练，得到训练后的入侵检测集成模型；

使用测试集输入训练后的入侵检测集成模型判断是否发生异常；

其中，构建基于决策树的入侵检测集成模型，利用网络流量数据集中存在的攻击类型种类构建位于入侵检测集成模型的第一层的决策树基模型中决策树的数量；

其中，对入侵检测集成模型训练时，对训练集进行重新处理，使位于入侵检测集成模型的第一层的决策树基模型接收单独其处理的训练数据，决策树基模型包括多棵决策树，保证每棵决策树在多种网络攻击流量混淆的环境中识别出单独某一种攻击类型；同时，使用训练集对训练完成的位于入侵检测集成模型的第一层的决策树基模型进行测试，测试输出为位于入侵检测集成模型的第二层的元分类器的训练集。

根据本发明优选的，利用攻击类型种类，兼顾不同攻击实现原理，构建基于决策树的入侵检测集成模型，包括：

假设在网络环境中收集到的网络流量数据集中共存在M种攻击小类的网络流量；

对存在的M种攻击小类的网络流量进行分析，分类判断其中所含有的攻击类型，假设攻击类型最终归类为T种；

在入侵检测集成模型的第一层设置T棵决策树作为决策树基模型；

入侵检测集成模型的第二层单独设置一颗决策树，作为元分类器，接收第一层的决策树基模型的输出，并输出最终的检测结果。

根据本发明优选的，决策树包括结点和有向边；结点包括内部结点和叶结点；内部结点表示一个特征即属性；叶结点表示一个类别；有向边则对应其所属内部结点的可选项即属性的取值范围；在决策树中，每个内部结点视为一个条件，每对内部结点之间的有向边视为一个选项，则从根结点到叶结点的每一条路径都看做是一个规则，而叶结点则对应着在该规则下的分类结果。

根据本发明优选的，对入侵检测集成模型训练，假设入侵检测集成模型的第一层设置T棵决策树作为决策树基模型，包括：

分别为决策树基模型的第一层的每一棵决策树进行训练集的预处理；针对决策树基模型的第一层的每一棵决策树，其训练集只保留其识别的攻击类型的标签，其余攻击类型均改为“良性”标签；为位于决策树基模型的第一层的每一棵决策树生成单独的训练集进行训练；

使用决策树基模型的第一层所有训练好的决策树，对原数据集进行检测并输出检测结果；将输出的检测结果与原数据集中的标签信息打包形成新的训练集，通过新的训练集对位于入侵检测集成模型的第二层的元分类器进行训练。

根据本发明优选的，特征提取，包括：采用cicflowmeter工具提取网络流级统计特征；对pcap格式的网络流量文件进行特征提取，得到直接用于检测分析的特征数据。

根据本发明优选的，获取网络流量数据，包括：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据；获取的网络流量数据是以pcap或pcapng格式存在的网络流量文件。

一种基于多决策树集成的轻量型高速入侵检测系统，包括：

系统启动模块，被配置为：启动入侵检测程序，监听网卡流量；

特征获取模块，被配置为：对网络流量数据进行特征提取；

数据预处理模块，被配置为：划分网络流量数据集为训练集和测试集，在入侵检测集成模型训练阶段，对训练集进行预处理，为位于入侵检测集成模型的第一层的多棵决策树生成专门的训练数据集；测试阶段，数据预处理模块不工作；

入侵检测模块，被配置为：使用提前训练好的入侵检测集成模型，对传送的特征数据进行检测，判断是否有入侵行为的发生。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于多决策树集成的轻量型高速入侵检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于多决策树集成的轻量型高速入侵检测方法的步骤。

本发明的有益效果为：

现有的入侵检测系统在对网络流量数据进行入侵检测分析判断时，存在检测用时高、效率低、识别攻击类型敏感性差、硬件要求高的问题。与现有的检测模型相比，本发明的有益效果有以下几点：

1、本发明提出的入侵检测集成模型通过分层集成、逐层分析的检测思路，对位于入侵检测集成模型的第一层的多棵决策树作为基分类器，使用特殊处理的训练集分别进行单独训练，提高了每个基分类器对真实网络环境中存在的多种攻击流量的敏感性，进而提升整个入侵检测集成模型对攻击的敏感性。

2、本发明提出的入侵检测集成模型选择决策树作为基分类器，显著降低检测带来的计算开销，保障了检测速度。决策树的高效性能使得其在处理任务时能够迅速而准确地进行决策，从而显著加速整个检测过程。

附图说明

图1为本发明入侵检测集成模型的结构示意图；

图2为本发明所提出的轻量快速基于多决策树集成的入侵检测系统的结构示意图；

图3为本发明决策树的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例1

一种基于多决策树集成的轻量型高速入侵检测方法，包括：

获取网络流量数据，进行特征提取，获得网络流量数据集；

将网络流量数据集划分为训练集和测试集；

使用本发明设计的模型训练方法对入侵检测集成模型进行训练，得到训练后的入侵检测集成模型；

其中，对入侵检测集成模型训练时，对训练集进行重新处理，使位于入侵检测集成模型的第一层的决策树基模型接收单独其处理的训练数据，决策树基模型包括多棵决策树，保证每棵决策树在多种网络攻击流量混淆的环境中识别出单独某一种攻击类型；提高检测模型对识别网络攻击以及具体攻击类型的敏感性。同时，使用训练集对训练完成的位于入侵检测集成模型的第一层的决策树基模型进行测试，测试输出为位于入侵检测集成模型的第二层的元分类器的训练集。

实施例2

根据实施例1所述的一种基于多决策树集成的轻量型高速入侵检测方法，其区别在于：

利用攻击类型种类，兼顾不同攻击实现原理，构建基于决策树的入侵检测集成模型，包括：

如图1所示，在入侵检测集成模型的第一层设置T棵决策树作为决策树基模型；

如图3所示，决策树包括结点和有向边；结点包括内部结点（圆型表示）和叶结点（矩形表示）；内部结点表示一个特征即属性；叶结点表示一个类别；有向边则对应其所属内部结点的可选项即属性的取值范围；在决策树中，每个内部结点视为一个条件，每对内部结点之间的有向边视为一个选项，则从根结点到叶结点的每一条路径都看做是一个规则，而叶结点则对应着在该规则下的分类结果。这样的规则具有互斥性和完备性，从根结点到叶结点的每一条路径代表了一类实例，并且这个实例只能在这条路径上。从这个角度来看，决策树相当于是一个if-then 的规则集合，因此决策树具有非常好的可解释性。

在用决策树进行分类时，首先从根结点出发，对实例在该结点的对应属性进行测试，接着根据测试结果，将实例分配到其子结点；然后，在子结点继续执行这一流程，如此递归地对实例进行测试并分配，直至到达叶结点；最终，该实例将被分类到叶结点所指示的结果中。

为提高入侵检测模型对攻击流量的敏感性，本发明提出了一种新的入侵检测集成模型的训练方法。对入侵检测集成模型训练，假设入侵检测集成模型的第一层设置T棵决策树作为决策树基模型，包括：

分别为决策树基模型的第一层的每一棵决策树进行训练集的预处理；针对决策树基模型的第一层的每一棵决策树，其训练集只保留其识别的攻击类型的标签，其余攻击类型均改为“良性”标签；例如：对于入侵检测集成模型的第一层的某一棵决策树，其专门用于识别M种攻击流量中的一种，设其识别的攻击流量类型为M1。则对这棵决策树训练使用的训练集中的M1攻击样本标签进行保留，其余类别标签均调整为‘良性’。为位于决策树基模型的第一层的每一棵决策树生成单独的训练集进行训练；其余攻击类型均改为‘良性’标签。例如：对于入侵检测集成模型的第一层的某一棵决策树，其专门用于识别M种攻击流量中的一种，设其识别的攻击流量类型为M1。则对这棵决策树训练使用的训练集中的M1攻击样本标签进行保留，其余类别标签均调整为‘良性’。

特征提取，包括：采用cicflowmeter工具提取网络流级统计特征；也可针对不同的网络环境，专门定制流量特征提取算法，如：加密流量首字节特征提取算法、负载特征提取算法等；对pcap格式的网络流量文件进行特征提取，得到直接用于检测分析的特征数据。特征数据可以是数字、字符、也可以是表示具体信息的字符串。以cicids2017数据集为例，其中csv文件每一行数据均为一组特征数据，可用于对模型训练或检测。

获取网络流量数据，包括：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据；获取的网络流量数据是以pcap或pcapng格式存在的网络流量文件。

实施例3

根据实施例1或2所述的一种基于多决策树集成的轻量型高速入侵检测方法，其区别在于：

本实施实例选用加拿大网络安全研究所的CICIDS2017数据集进行验证。

本实施例的实验条件如下：

高性能服务器一台，linux系统，python编译环境。

实施的详细过程如下：

步骤1：通过对数据集进行分析得知，数据集包含的攻击类型有15种，详情见表1；其中DOS Hulk，DoS GoldenEye，DoS slowloris，DoS Slowhttptest这四种攻击方式其本质均为DoS攻击，只是发起攻击的工具不同，所以将这四类攻击统一归类为Dos攻击类型。同理FTP-Patator，SSH-Patator统一归类为Patator（密码爆破）类攻击类型。Web AttackBruteForce、Web Attack xss、Infiltration、Web Attack Sql Injection统一归类为Web攻击。Heartbleed因数量只有11个，直接删除，后续不做检测处理。最终数据集种共有6种攻击流量，分别为：Dos、DDOS、Web、Patator、Bot。详情见表2。

步骤2：以8：2的比例拆分数据集为训练集和测试集。

步骤3：对训练集进行预处理，为入侵检测集成模型第一层的每棵决策树生成特殊的训练集。例如：第一层第一个棵决策树是专门用于识别网络流量中的web攻击，则其训练集中除web攻击的其他所有流量都标注为‘良性’。第一层的6棵决策树训练完成后，其本质是能够在复杂的网络环境中识别出其中特殊的一种。

步骤4：使用训练集对第一层的基模型进行测试，并将训练集中每个数据样例的测试结果和原有标签打包形成新的训练集，对位于入侵检测集成模型的第二层的元分类器进行训练。

步骤5：使用测试集对入侵检测集成模型进行测试，得到测试数据。

从以下四个方面对入侵检测集成模型的检测效果进行评估。

首先将实验结果分为以下四种样本集合：

（1）TP：实际为正常样本且被模型检测为正常的实例数。

（2）FP：实际为异常样本但被模型检测为正常的实例数。

（3）FN：实际为正常样本但被模型检测为异常的实例数。

（4）TN：实际为异常样本且被模型检测为异常的实例数。

对结果进行分类后，可通过计算准确率(Accuracy)，精确率(Precision)，召回率(Recall)和F-Measure来评价模型的性能。具体定义如下：

从以下两个方面对模型的检测速率进行评估。

（1）入侵检测集成模型训练用时：多决策树集成模型使用cicids2017数据集训练用时。

（2）入侵检测集成模型测试用时：多决策树集成模型使用cicids2017数据集测试用时。

表1为CICIDS2017数据集所包含的流量类型、数量及所占比例信息表；

表1

表2为经调整后的数据集所包含的流量类型、数量信息表；

表2

表3为本发明在CICIDS2017数据集上实施实例的性能指标；

表3

实施例4

一种基于多决策树集成的轻量型高速入侵检测系统，如图2所示，包括：

特征获取模块，被配置为：对网络流量数据进行特征提取；

实施例5

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一所述的基于多决策树集成的轻量型高速入侵检测方法的步骤。

实施例6

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1-3任一所述的基于多决策树集成的轻量型高速入侵检测方法的步骤。

Claims

1.一种基于多决策树集成的轻量型高速入侵检测方法，其特征在于，包括：

获取网络流量数据，进行特征提取，获得网络流量数据集；

将网络流量数据集划分为训练集和测试集；

针对网络流量数据集中存在的攻击类型种类，构建相应的入侵检测集成模型；

其中，对入侵检测集成模型训练时，对训练集进行重新处理，使位于入侵检测集成模型的第一层的决策树基模型接收其单独处理的训练数据，决策树基模型包括多棵决策树，保证每棵决策树在多种网络攻击流量混淆的环境中识别出单独某一种攻击类型；同时，使用训练集对训练完成的位于入侵检测集成模型的第一层的决策树基模型进行测试，测试输出为位于入侵检测集成模型的第二层的元分类器的训练集；

对入侵检测集成模型训练，假设入侵检测集成模型的第一层设置T棵决策树作为决策树基模型，包括：

分别为决策树基模型的第一层的每一棵决策树进行训练集的预处理；针对决策树基模型的第一层的每一棵决策树，其训练集只保留其识别的攻击类型的标签，其余攻击类型均改为“良性”标签；为位于决策树基模型的第一层的每一棵决策树生成单独的训练集进行训练；使用决策树基模型的第一层所有训练好的决策树，对原数据集进行检测并输出检测结果；将输出的检测结果与原数据集中的标签信息打包形成新的训练集，通过新的训练集对位于入侵检测集成模型的第二层的元分类器进行训练。

2.根据权利要求1所述的一种基于多决策树集成的轻量型高速入侵检测方法，其特征在于，利用攻击类型种类，兼顾不同攻击实现原理，构建基于决策树的入侵检测集成模型，包括：

3.根据权利要求1所述的一种基于多决策树集成的轻量型高速入侵检测方法，其特征在于，决策树包括结点和有向边；结点包括内部结点和叶结点；内部结点表示一个特征即属性；叶结点表示一个类别；有向边则对应其所属内部结点的可选项即属性的取值范围；在决策树中，每个内部结点视为一个条件，每对内部结点之间的有向边视为一个选项，则从根结点到叶结点的每一条路径都看做是一个规则，而叶结点则对应着在该规则下的分类结果。

4.根据权利要求1所述的一种基于多决策树集成的轻量型高速入侵检测方法，其特征在于，特征提取，包括：采用cicflowmeter工具提取网络流级统计特征；对pcap格式的网络流量文件进行特征提取，得到直接用于检测分析的特征数据。

5.根据权利要求1-4任一所述的一种基于多决策树集成的轻量型高速入侵检测方法，其特征在于，获取网络流量数据，包括：通过对设备网卡进行流量监听，得到流经此设备网卡的全部网络流量数据；获取的网络流量数据是以pcap或pcapng格式存在的网络流量文件。

6.一种基于多决策树集成的轻量型高速入侵检测系统，其特征在于，包括：

特征获取模块，被配置为：对网络流量数据进行特征提取，获得网络流量数据集；

数据预处理模块，被配置为：划分网络流量数据集为训练集和测试集，在入侵检测集成模型训练阶段，对训练集进行预处理，为位于入侵检测集成模型的第一层的多棵决策树生成训练数据集；测试阶段，数据预处理模块不工作；

入侵检测模块，被配置为：使用提前训练好的入侵检测集成模型，对传送的特征数据进行检测，判断是否有入侵行为的发生；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5任一所述的基于多决策树集成的轻量型高速入侵检测方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一所述的基于多决策树集成的轻量型高速入侵检测方法的步骤。