CN116702132A

CN116702132A - 网络入侵检测方法及系统

Info

Publication number: CN116702132A
Application number: CN202310656699.6A
Authority: CN
Inventors: 陈宏伟; 张风周; 陈子璇
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-05

Abstract

本发明提供网络入侵检测方法及系统，能够有效提高分类检测能力，使得网络入侵检测模型具有很好的检测准确性。方法包括：拆分原始数据得到训练集和测试集，再经过数据处理后得到RDD数据，以便分布式处理；使用训练数据并行构建级联层深度森林，并划分子森林并行计算；使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和，挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林；使用验证集对当前优化过的深度森林模型并行测试，并将类概率向量同训练集一起并行训练以构建下一级联层；对级联每一层都采用前述过程进行优化和训练，得到最终的网络入侵检测模型；采用网络入侵检测模型对网络访问数据进行检测。

Description

网络入侵检测方法及系统

技术领域

本发明属于网络入侵检测技术领域，具体涉及网络入侵检测方法及系统。

背景技术

在计算机视觉、信息安全和医学等领域，数据分类经常受到一类数据分布的偏斜影响。深度森林算法是一种集成学习算法，由随机森林和极端随机森林组成，其在不平衡学习领域得到了众多学者的青睐，另外，其具有良好的可并行性。在大数据时代下，不论是传统的基于统计学的机器学习算法还是近年来新兴大火的各种深度学习手段都被国内外研究者针对不平衡学习领域的特点进行改造，应用于该领域。

网络入侵数据集的显著特点就是数据不均衡和数据规模大，常见的机器学习算法，如逻辑回归算法、随机森林算法等在直接训练这类不均衡数据集时，效果都会大打折扣。所以常用的处理方式是，先将机器学习算法进行改进，然后再用改进后算法进行集成训练。深度森林作为一种较新的集成学习算法，其组成包括随机森林和极端随机森林，但在处理大规模数据时，随机森林数量限制了其并行计算的程度，用于网络入侵检测则会影响检测准确性。

发明内容

为了解决上述问题，本发明提供了网络入侵检测方法及系统，能够有效提高分类检测能力，防止决策树对某些样本数据的识别能力趋于一致，使得网络入侵检测模型具有很好的检测准确性。

本发明采用了以下方案：

<方法>

本发明提供网络入侵检测方法，包括以下步骤：

步骤1，对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理，获得可用于进行机器学习的原始数据集；

步骤2，拆分原始数据得到训练集和测试集，再经过数据处理后得到RDD数据，以便分布式处理；

步骤3，使用训练数据并行构建级联层深度森林，并划分子森林并行计算；

步骤4，使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和，挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林；

步骤4.1，计算各节点的AUC_i值；

步骤4.2，基于每个节点的AUC_i得到相应决策树的AUC值：

式中，k为节点数量，n_i为第i个节点的样本数，AUC_i为第i个节点的AUC值；

然后将决策树的AUC值按从大到小顺序排列，保留预定比例的AUC值高的决策树；

步骤4.3，计算决策树内积和，计算公式如下：

式中，k为包括决策树根节点在内的非叶子节点索引，采用深度优先策略遍历这些节点，在遍历的同时获得该节点分裂时的特征索引和特征值，对节点中的(i,v)对计算内积和S；

步骤4.4，基于步骤4.3，对每个子森林：比较任意决策树与其他决策树的内积和差值，将比较的目标记为目标决策树，将与之比较的其他决策树记为比较决策树；对于每个目标决策树，遍历计算其与所有比较决策树的内积和差值，并求取均值：

式中，P为目标决策树上的非叶节点总数，Q为比较决策树上的非叶节点总数，p和q分别是目标决策树P和比较决策树Q上非叶节点的序号，i_p+1和i_q+1分别为序号为p+1和q+1的特征索引，v_p+1和i_q+1分别为序号为p+1和q+1基尼系数最小的特征值；A_mn为含有m个决策树的子森林中第n个子决策树内积和差值的均值；

步骤4.5，将每个子森林中所有A_mn＞阈值的目标决策树保留，每个子森林中保留的决策树形成新的子森林，所有新的子森林形成优化过的深度森林模型；

步骤5，使用验证集对当前优化过的深度森林模型并行测试，并将类概率向量同训练集一起并行训练以构建下一级联层；

步骤6，对级联每一层都采用步骤4和5进行优化，训练得到最终的网络入侵检测模型；

步骤7，采用网络入侵检测模型对网络访问数据进行检测。

优选地，本发明提供的网络入侵检测方法，在步骤4.2中，预定比例为3/4～1/2范围内任意值。

优选地，本发明提供的网络入侵检测方法，在步骤4.5中，阈值为25～35范围内任意值。

优选地，本发明提供的网络入侵检测方法，在步骤4.2中，预定比例A为2/3；在步骤4.5中阈值为30。

优选地，本发明提供的网络入侵检测方法，步骤3包括以下子步骤：

步骤3.1，使划分前后深度森林所产生的类向量保持完全一致；设子森林中决策树数量为m，则样本类向量的输出为：

式中，u_i为子森林中第i棵树产生的类向量；

步骤3.2，设原深度森林中总共有M棵树，划分出的子森林数为G，则最终类向量为：

式中，m_g为第g个子森林中决策树的数量；Q(m_g)为第g个子森林输出的最终类向量。

优选地，本发明提供的网络入侵检测方法，在步骤4.1中，第i个节点的AUC值AUC_i：

式中，1[f(t₀)<f(t₁)]为一个指示函数，当f(t₀)<f(t₁)时返回1，否则返回0；D_i ⁰是第i个节点的反例集合，D_i ¹是第i个节点的正例集合。

<系统>

进一步，本发明还提供了网络入侵检测系统，能够自动实现上述<方法>，包括：

数据获取部，对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理，获得可用于进行机器学习的原始数据集；

预处理部，拆分原始数据得到训练集和测试集，再经过数据处理后得到RDD数据，以便分布式处理；

级联模型构建部，使用训练数据并行构建级联层深度森林，并划分子森林并行计算；

优化部，执行以下步骤4.1～4.5，使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和，挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林；

步骤4.1，计算各节点的AUC_i值；

步骤4.2，基于每个节点的AUC_i得到相应决策树的AUC值：

步骤4.3，计算决策树内积和，计算公式如下：

训练部，使用验证集对当前优化过的深度森林模型并行测试，并将类概率向量同训练集一起并行训练以构建下一级联层；

检测模型生成部，对级联每一层都采用优化部和训练部进行优化、训练，得到最终的网络入侵检测模型；

检测部，采用网络入侵检测模型对网络访问数据进行检测；

控制部，与数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部均通信相连，控制它们的运行。

优选地，本发明提供的网络入侵检测系统，还可以包括：输入显示部，与控制部通信相连，用于让用户输入操作指令，并进行相应显示。

优选地，本发明提供的网络入侵检测系统，在优化部中，预定比例为3/4～1/2范围内任意值。

优选地，本发明提供的网络入侵检测系统，在优化部中，阈值为25～35范围内任意值。

发明的作用与效果

本发明将深度森林算法作为网络入侵检测模型中的分类器，将深度森林划分为了多个子森林并行计算，在分布式计算中，每个节点训练出一个局部模型，然后将所有局部模型的预测结果进行聚合，得到全局模型的预测结果。在计算AUC时，将每个节点的AUC_i进行加权平均得到相应决策树的AUC值，并将决策树的AUC值按从大到小顺序排列，保留预定比例的AUC值高的决策树；进一步，对每个子森林，比较任意决策树与其他决策树的内积和差值，进而得到差值累加的平均值A_mn，将每个子森林中所有A_mn＞阈值的目标决策树保留形成新的子森林，所有新的子森林形成优化过的深度森林模型；通过此对模型的每一级联层进行优化。能够充分提高模型的分类能力，特别是对不平衡数据的分类能力，有效防止了决策树对某些样本数据的识别能力趋于一致。本发明最终生成的网络入侵检测模型具有很好的检测准确性，并且有效提高了算法的并行度，加快了入侵检测的速度，适用于大规模数据处理。并且，本发明分布式设计提高了方法的可扩展性和可靠性。

附图说明

图1为本发明实施例一涉及的网络入侵检测方法的主要处理过程的流程图；

图2为发明实施例一涉及的网络入侵检测方法的具体处理过程的流程图。

具体实施方式

以下结合附图对本发明涉及的网络入侵检测方法及系统的具体实施方案进行详细地说明。

<实施例一>

如图1～2所示，本实施例提供的网络入侵检测方法，该方法包含以下步骤：

步骤1，先对从UCI数据库中直接拿到的原始数据进行数据清洗与特征工程处理，获得可用于进行机器学习的原始数据集。这里数据库不限于UCI数据库，也可以采用NSL-KDD、CIC-IDS-2017、CIC-IDS-2018、UNSW-NB15等二分类异常检测数据集。

步骤2，拆分原始数据得到训练集和测试集，再经过数据处理后得到RDD数据，以便分布式处理。

步骤3，使用训练数据并行构建级联层随机森林，并划分子森林并行计算。具体实现包含以下子步骤：

步骤3.1，保证划分前后随机森林所产生的类向量保持完全一致。设子森林中决策树数量为m，则样本类向量的输出为：

式中，u_i为子森林中第i棵树产生的类向量。

步骤3.2，若原森林中总共有M棵树，划分出的子森林数为G，则最终类向量为：

式中，m_g为第g个子森林中决策树的数量，Q(m_g)为第g个子森林输出的最终类向量。

步骤4，使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和，挑选出泛化能力和相似度较低的决策树重新组成随机森林。具体实现包含以下子步骤：

步骤4.1，计算各节点的AUC_i值，其定义为：

式中，1[f(t₀)<f(t₁)]是一个指示函数，当f(t₀)<f(t₁)时返回1，否则返回0，

D_i ⁰是反例集合，D_i ¹是正例集合。

步骤4.2，基于每个节点的AUC_i得到相应决策树的AUC值：

上式中，k为节点数量，n_i为第i个节点的样本数，AUC_i为第i个节点的AUC值。

然后将决策树的AUC值按从大到小顺序排列，保留2/3的AUC值高的决策树；

步骤4.3，计算决策树内积和，计算公式如下：

式中，k为包括决策树根节点在内的非叶子节点索引，这里采用了深度优先策略遍历这些节点，在遍历的同时获得该节点分裂时的特征索引和特征值，对节点中的(i,v)对计算内积和S。

步骤4.4，计算子森林内积和用于分布式处理，假设子森林由l棵深度为D的决策树组成，每个非叶节点向量为v_i，输入数据为x，则内积和的输出可以表示为：

式中，ω_ij为第j棵树的第i个节点的权重向量，这里的ν_ij是v_i的一个子集。

步骤4.5，对每个子森林：比较任意决策树与其他决策树的内积和差值，将比较的目标记为目标决策树，将与之比较的其他决策树记为比较决策树；对于每个目标决策树，遍历计算其与所有比较决策树(即、当前子森林中除该目标决策树以外的其余每个决策树)的内积和差值，并求取均值：

步骤4.6，将每个子森林中所有A_mn＞30的目标决策树保留，每个子森林中保留的决策树形成新的子森林，所有新的子森林形成优化过的深度森林模型；

步骤5，使用验证集对当前级联层的模型并行测试，并将类概率向量同训练集一起并行训练以构建下一级联层。

步骤6，在级联每一层都采用步骤4和5对随机森林进行相似度优化和训练，得到最终的网络入侵检测模型。

步骤7，采用步骤6中训练好的网络入侵检测模型对网络访问数据进行检测。

为了验证本发明方法的效果，本实施例中，还对构建的优化过的深度森林模型(LCHCDF)进行了测试：

首先，从UCI公共数据库中随机选择13个不平衡数据集，按照7:3的比例划分训练集和测试集，将测试集输入由训练集训练好的不平衡数据分类模型中，将模型预测值与测试集的标签进行比较。

然后，设计基准模型进行对比实验，采用绝对百分比误差MAPE评价指标的排名来评估拟合模型的优劣。MAPE的排名越接近0，代表模型拟合误差越小，拟合精度越高。

本实施例中主要对比的基线模型包括Adaboost、XGBoost、深度森林(DF)和相似度优化深度森林。表1给出了四个模型的训练参数，表2给出了四个模型对不平衡数据的预测结果，从中可以看出本发明所构建的不平衡分类模型的MAPE的平均排名为1.15，拟合结果精度最高，表示本发明构建的不平衡数据分类模型可在较高的置信水平下对不平衡数据中的少数类样本进行有效识别、分类，有利于准确、有效地对网络入侵进行识别检测。

表1各算法参数配置情况

表2各算法对13个UCI数据集的分类准确度比较情况

<实施例二>

进一步，本实施例二中提供能够自动实现以上本发明方法的网络入侵检测系统，该系统包括数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部、输入显示部、控制部。

数据获取部用于执行上文步骤1所描述的内容，对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理，获得可用于进行机器学习的原始数据集；

预处理部用于执行上文步骤2所描述的内容，拆分原始数据得到训练集和测试集，再经过数据处理后得到RDD数据，以便分布式处理；

级联模型构建部用于执行上文步骤3所描述的内容，使用训练数据并行构建级联层深度森林，并划分子森林并行计算；

优化部用于执行上文步骤4所描述的内容，使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和，挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林。

训练部用于执行上文步骤5所描述的内容，使用验证集对当前优化过的深度森林模型并行测试，并将类概率向量同训练集一起并行训练以构建下一级联层；

检测模型生成部用于执行上文步骤6所描述的内容，对级联每一层都采用优化部和训练部进行优化、训练，得到最终的网络入侵检测模型；

检测部用于执行上文步骤7所描述的内容，采用网络入侵检测模型对网络访问数据进行检测；

输入显示部用于让用户输入操作指令，并进行相应显示。

控制部与数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部、输入显示部均通信相连，控制它们的运行。

以上实施例仅仅是对本发明技术方案所做的举例说明。本发明所涉及的网络入侵检测方法及系统并不仅仅限定于在以上实施例中所描述的内容，而是以权利要求所限定的范围为准。本发明所属领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换，都在本发明的权利要求所要求保护的范围内。

Claims

1.网络入侵检测方法，其特征在于，包括：

步骤4.1，计算各节点的AUC_i值；

步骤4.2，基于每个节点的AUC_i得到相应决策树的AUC值：

步骤4.3，计算决策树内积和，计算公式如下：

步骤7，采用网络入侵检测模型对网络访问数据进行检测。

2.根据权利要求1所述的网络入侵检测方法，其特征在于：

其中，在步骤4.2中，预定比例为3/4～1/2范围内任意值。

3.根据权利要求1所述的网络入侵检测方法，其特征在于：

其中，在步骤4.5中，阈值为25～35范围内任意值。

4.根据权利要求1所述的网络入侵检测方法，其特征在于：

其中，在步骤4.2中，预定比例A为2/3；在步骤4.5中阈值为30。

5.根据权利要求1所述的网络入侵检测方法，其特征在于：

其中，步骤3包括以下子步骤：

式中，u_i为子森林中第i棵树产生的类向量；

6.根据权利要求1所述的网络入侵检测方法，其特征在于：

其中，在步骤4.1中，第i个节点的AUC值AUC_i：

7.网络入侵检测系统，其特征在于，包括：

步骤4.1，计算各节点的AUC_i值；

步骤4.2，基于每个节点的AUC_i得到相应决策树的AUC值：

步骤4.3，计算决策树内积和，计算公式如下：

检测部，采用网络入侵检测模型对网络访问数据进行检测；

8.根据权利要求7所述的网络入侵检测系统，其特征在于，还包括：

输入显示部，与控制部通信相连，用于让用户输入操作指令，并进行相应显示。

9.根据权利要求7所述的网络入侵检测系统，其特征在于：

其中，在优化部中，预定比例为3/4～1/2范围内任意值。

10.根据权利要求7所述的网络入侵检测系统，其特征在于：

其中，在优化部中，阈值为25～35范围内任意值。