CN116916317A

CN116916317A - 一种基于大白鲨和随机森林的入侵检测方法

Info

Publication number: CN116916317A
Application number: CN202310672088.0A
Authority: CN
Inventors: 赵慧奇; 李营; 范方; 张华杰; 马耀文; 类蕊; 刘璐; 郭玉龙; 孙顺发; 玄其林
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-10-20

Abstract

本发明提供了一种基于大白鲨和随机森林的入侵检测方法，具体包括如下步骤：S1，对原始大白鲨算法进行三种并行策略的改进；S2，对改进后的大白鲨算法进行测试；S3，对入侵检测数据集进行预处理，打上分类标签获得训练集；S4，使用改进后的大白鲨算法优化随机森林参数，以构建入侵检测模型；S5，使用入侵检测数据集对入侵检测模型进行测试，并输出分类结果。本发明的技术方案克服现有技术中入侵检测方法收敛速度慢、准确率不高的问题。

Description

一种基于大白鲨和随机森林的入侵检测方法

技术领域

本发明涉及网络入侵检测技术领域，具体涉及一种基于大白鲨和随机森林的入侵检测方法。

背景技术

近年来无线传感网络在气候检测、环境温度、二氧化碳含量和湿度等情况的探测中发挥了重要作用。传感器技术、计算智能、无线通信技术、嵌入式计算技术和分布式信息处理技术的不断进步，推动了多功能传感器的快速发展，使其能在微小的体积内能够完成信息采集、数据处理和无线通信等多重功能。无线传感器网络是由大量无线设备组成的监测系统，在没有基础设施的情况下形成多跳网络。

入侵检测系统的研究主要针对识别入侵者、识别入侵行为、检测和监视已成功的突破以及为对抗入侵及时提供重要信息，阻止事件的发生和事态的扩大。入侵检测一般基于入侵者的行为与合法用户行为明显不同，并且检测到许多未经授权的行为，通常入侵检测采用统计异常和基于规则的滥用模型来检测入侵。

入侵检测系统是网络安全的重要组成部分，近年来，人们一直努力提出大量算法来提高入侵检测模型的准确率和效率，然而攻击正在向着更复杂和更多变方向演进，一旦攻击成功，可能会导致整个系统功能失调或者重要信息泄露，更具体的说，随着物联网的发展，更多异构和资源受限的设备正在相继连接，这些设备的处理能力和资源有限，尤其是在检测入侵方面，要有效地分析更多的恶意活动大数据，以及数据泄露、损坏和完全系统故障，就需要对传统的入侵检测流程进行优化。现有的基于随机森林的入侵检测方法在分类性能上存在的收敛速度慢、准确率不高的问题，并且无线传感网络节点需要更加轻量级的检测系统。无线传感网络的传感器节点体积微小，处理能力较弱，收集的数据需要实时快速处理，所以要求传感器节点的更加轻量级，准确率更高。更加轻量级的检测系统更加符合传感器节点处理能力不强的特点。大白鲨算法具有优越的寻优能力，可以优化随机森林的树的棵数和深度这两个重要参数，以提高入侵检测的准确率。

因此，现需要一种收敛速度更快、准确率更高的基于大白鲨和随机森林的入侵检测方法。

发明内容

本发明的主要目的在于提供一种基于大白鲨和随机森林的入侵检测方法，以解决现有技术中入侵检测方法收敛速度慢、准确率不高的问题。

为实现上述目的，本发明提供了一种基于大白鲨和随机森林的入侵检测方法，具体包括如下步骤：S1，对原始大白鲨算法进行三种并行策略的改进；S2，对改进后的大白鲨算法进行测试；S3，对入侵检测数据集进行预处理，打上分类标签获得训练集；S4，使用改进后的大白鲨算法优化随机森林参数，以构建入侵检测模型；S5，使用入侵检测数据集对入侵检测模型进行测试，并输出分类结果。

进一步地，步骤S1具体包括如下步骤：

S1.1，初始化位置、速度、参数和适应度函数，将大白鲨种群分组；

S1.2，更新每组大白鲨的位置和速度信息，通过随机森林评估每个大白鲨的适应度值；

S1.3，比较适应度函数值，运用三种并行策略对大白鲨算法进行改进。

进一步地，步骤S1.1具体为，在大白鲨初始化阶段时，设大白鲨的群体总数为N，将大白鲨种群分为G组，每组的大白鲨数为N/G，即其中x_N/G代表大白鲨，初始化相应参数以及适应函数。

进一步地，步骤S1.3中的三种并行策略分别为：

策略一，在每一次迭代过程中，根据适应度函数的值进行排序，将每组大白鲨种群中适应度函数值最差的个体替换为适应度函数值最好的个体；

策略二，在每一次迭代过程中，根据适应度函数的值进行排序，求每组大白鲨种群中的平均值X_ave，用平均值X_ave代替适应度函数值最差的个体，公式(1)为平均值计算公式，其中

x₁，x₂....，x_worst是根据适应度函数进行从好到坏排序，pop为大白鲨个体数，g为并行分组数，为5；

策略三，根据适应度函数的值对粒子即大白鲨个体进行排序：

当前迭代次数t小于指定迭代次数Itermax/2，将每组大白鲨种群中适应度函数最差的个体替换为每组中的平均值，其中Itermax为最大迭代次数；

当前迭代次数t大于指定迭代次数Itermax/2，将每组适应度函数值最差的粒子替换为适应度函数最佳的粒子，其中Itermax为最大迭代次数。

进一步地，步骤S3中对数据集的预处理包括：对无关数据进行删除，对非数值数据进行数值化和对缺失数据进行整体删除或者填充；对数据集进行训练集与测试集话费，并根据攻击数据与非攻击数据对数据集进行二分类的划分。

进一步地，步骤S4中使用改进后的大白鲨算法优化随机森林参数具体包括：

S4.1，在二维空间中生成一组大白鲨的位置，并根据大白鲨算法中的三种位置更新方式对大白鲨的位置进行更新；

S4.2，利用三种并行策略找到适应度函数最优值，即找到最优位置，将最优位置传输给随机森林，用以优化ntree和mtry两个参数，其中ntree是树的颗树，mtry是指定节点中用于二叉树的变量个数。

进一步地，步骤S4.1中的三种位置更新方式包括：向猎物移动位置更新、鱼群行为更新和朝着最好的大白鲨运动更新；

向猎物移动位置更新公式：

其中，是第i条白鲨在第k步中的当前位置向量，其中/>和/>是由公式定义的一维二进制向量，f表示波浪的频率，u为WSO建议的收缩因子，rand是定义在[0,1]之间的随机数,/>为按位异或运算，参数mv表示白鲨听觉和嗅觉的强度，其中k表示当前迭代次数，K表示最大迭代次数；a₀、a₁表示用于管理探索和开发的正的常数；

鱼群行为更新公式：

是第i条白鲨相对于猎物位置的更新位置，/>定义为白鲨i在第k步的速度矢量。

朝着最好的大白鲨运动更新公式：

是第i条白鲨相对于猎物位置的更新位置,/>表示目前为止任意白鲨在第k次迭代，sgn(r₂-0.5)给出1或-1的结果以改变搜索的方向，变量r₁、r₂和r₃是在[0,1]范围内的随机数，D_w是猎物与白鲨之间的距离；

s_s是一个参数，用来表示大白鲨跟随其他接近最佳猎物的大白鲨时的嗅觉和视觉强度，其计算公式为：

其中，k表示当前迭代次数，K表示最大迭代次数，a₂是一个常数，用于控制探索和开发行为，a₂＝0.0005。

本发明具有如下有益效果：

本发明提供的方法，解决了无线传感器网络节点需要轻量级入侵检测系统以及入侵检测系统准确率低的问题。为了解决随机森林在入侵检测数据集分类性能上存在的不足，使用优化算法大白鲨对随机森林两个重要参数进行优化，即树的颗树以及树的深度，使随机森林在入侵检测方面分类准确率有所提高。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本发明的一种基于大白鲨和随机森林的入侵检测方法的流程图；

图2示出了图1的随机森林的模型图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示的一种基于大白鲨和随机森林的入侵检测方法，具体包括如下步骤：S1，对原始大白鲨算法进行三种并行策略的改进；S2，对改进后的大白鲨算法进行测试；S3，对入侵检测数据集进行预处理，打上分类标签获得训练集；S4，使用改进后的大白鲨算法优化随机森林参数，以构建入侵检测模型；S5，使用入侵检测数据集对入侵检测模型进行测试，并输出分类结果。

具体地，步骤S1具体包括如下步骤：

S1.1，初始化位置、速度、参数和适应度函数，将大白鲨种群分组。

S1.2，更新每组参数位置和速度信息，通过随机森林评估每个大白鲨的适应度值。

具体地，步骤S1.1具体为，在大白鲨初始化阶段时，设大白鲨的群体总数为N，将大白鲨种群分为G组，每组的大白鲨数为N/G，即其中x_N/G代表大白鲨，初始化相应参数以及适应函数。

本发明提供的方法根据适应度函数的值评估每组的最优大白鲨位置，并找到每组最优解也就是最佳适应度函数值以及每组最佳适应度函数值对应的每组最优位置，最后将G组的每组最优解进行对比，选择G组最优解中的全组最优解为全局最优解并记录。

由于大多数启发式算法都有容易陷入局部最优的缺点，所以在每组之间设定迭代次数以交换信息，防止算法进入局部最优。

具体地，步骤S1.3中的三种并行策略分别为：

策略一，在每一次迭代过程中，根据适应度函数的值进行排序，将每组大白鲨种群中适应度函数值最差的个体替换为适应度函数值最好的个体。

x₁，x₂....，x_worst是根据适应度函数进行从好到坏排序，pop为大白鲨个体数，g为并行分组数，为5。

策略三，根据适应度函数的值对粒子即大白鲨个体进行排序。

当前迭代次数t小于指定迭代次数Itermax/2，将每组大白鲨种群中适应度函数最差的个体替换为每组中的平均值，其中Itermax为最大迭代次数。

基于在种群之间进行交流策略，可以极大的避免算法陷入局部最优。

具体地，步骤S2中，使用CEC-2013和CEC-2017测试改进后的大白鲨算法PWSO在单模函数、多模函数、复杂函数和混合函数上的表现能力，CEC2017以及CEC2013一共58个测试函数，对每一个测试函数进行1000次的迭代次数以及进行20次的重复实验，并进行大量仿真实验，对20次实验大数据进行记录，从20次实验数据中计算四种算法的最优值、平均值、方差和标准差，以确保能全方位的对改进算法的性能评估。

具体地，步骤S3中对数据集的预处理包括：数据集的预处理包括，对无关数据进行删除，对非数值数据进行数值化，对缺失数据进行整体删除或者填充，填充方式可以是任意值，也可以是该特征平均值，对数据集进行训练集与测试集，7：3随机划分，对数据集根据攻击数据与非攻击数据进行二分类的判断，并进行二分类的标签划分。

具体地，对入侵检测模型的建立，单纯使用随机森林分类器会使入侵检测模型的准确率比较低，所以借助群体智能算法良好的寻优能力对随机森林进行优化，鉴于原始大白鲨算法在收敛速度以及避免局部最优上的局限性，通过三种不同的并行策略，对原始大白鲨算法进行改进，在大白鲨算法迭代过程中，找到全局最优值，步骤S4中使用改进后的大白鲨算法优化随机森林参数具体包括：

S4.1，在二维空间中生成一组大白鲨的位置，并根据大白鲨算法中的三种位置更新方式对大白鲨的位置进行更新。

S4.2，利用三种并行策略找到适应度函数最优值，即找到最优位置，将最优位置传输给随机森林，用以优化ntree和mtry两个参数，其中ntree是树的颗树，mtry是指定节点中用于二叉树的变量个数。对随机森林分类器进行优化，在大白鲨算法进行种群迭代过程中，参数也在随着适应度函数的值进行变换，直到找到参数最优，用此参数进行随机森林的建立。根据适应度函数进行评价，每次迭代保留最优位置。

具体地，大白鲨算法具有良好的寻优能力，并具有鲁棒性强，对于初值和参数选择敏感，简单易实现，但随着求解问题空间的逐渐增大，大白鲨串行算法的执行存在计算量大，速度慢，甚至有时无法得到满意的结果，所以将大白鲨算法结合并行的思想以优化大白鲨算法。

大白鲨算法的核心理念和基础思路受到大白鲨捕猎时的行为的启发，通过随机生成初始解决方案池来开始。

上述公式表示在d维搜索空间中，n条大白鲨。表示每只白鲨的位置，表示一个位置的候选解决方案，为一个二维矩阵。

大白鲨的三种行为被用来寻找猎物，由于猎物运动而发生的波浪，而朝向猎物运动；白鲨利用鱼群行为，在海洋深处随机搜索猎物；向最接近猎物的最佳大白鲨移动，基于这些行为，所有大白鲨将被更新为最优解。

步骤S4.1中的三种位置更新方式包括：向猎物移动位置更新、鱼群行为更新和朝着最好的大白鲨运动更新；

向猎物移动位置更新公式：

其中，是第i条白鲨在第k步中的当前位置向量，其中/>和/>是由公式定义的一维二进制向量，f表示波浪的频率，u为WSO建议的收缩因子，rand是定义在[0,1]之间的随机数,/>为按位异或运算，参数mv表示白鲨听觉和嗅觉的强度，其中k表示当前迭代次数，K表示最大迭代次数；a₀、a₁表示用于管理探索和开发的正的常数。

鱼群行为更新公式：

朝着最好的大白鲨运动更新公式：

如图2所示的随机森林的建立过程，假如有K个样本，则有放回的随机选择K个样本。用选择好了的K个样本用来训练一个决策树，作为决策树根节点处的样本。当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m远远小于M。然后从这m个属性中采用某种策略(比如说信息增益，或者信息增益率)来选择1个属性作为该节点的分裂属性，在选择时尽量考虑节点的选择使决策时的信息增益或者信息增益率越大越好。决策树形成过程中每个节点都要按照步骤2来分裂,如果属性分裂完毕，则该节点已经达到了叶子节点，无须继续分裂了，一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。按照上述过程建立大量的决策树，大量决策树构成随机森林。

在随机森林中，决策树的棵数以及树的深度是决定随机森林分类性能好坏的重要参数，将大白鲨算法的问题维度设置为2，传入大白鲨算法进行寻优，根据不同的适应度函数进行排序，在大白鲨算法的迭代过程中，避免局部最优，找到全局最优的大白鲨位置，如图1所示，使用改进后的大白鲨算法找到的最优位置，即在问题维度下的最优参数(位置)，传入随机森林算法，提高入侵检测模型的分类性能。

表1为UNSW-NB 15入侵检测数据集实验结果，表2为WSN-DS入侵检测数据集实验结果。Precision体现了入侵检测模型对负样本的区别能力，Precision的值越接近1，模型对负样本的区别能力越强；Recall体现了模型对正样本的区分能力，Recall的值越接近于1，模型对正样本的区分能力就越好。F-score是对Precision和Recall两者综合的评价，F-score越接近于1，说明模型越健壮。三种改进的大白鲨算法，即基于策略一、策略二和策略三改进的大白鲨算法(P1WSO-RF、P2WSO-RF、P3WSO-RF)，和原始的大白鲨算法(WSO-RF)相比，在对入侵检测模型进行UNSW-NB15入侵检测数据集测试中，准确率都达到了90％以上，说明所建立的入侵检测模型在对负样本的区别能力上比较优越，在对入侵检测模型进行WSN-DS入侵检测数据集测试中，Precision，Recall，F-score都达到了99％以上，说明所建立的入侵检测模型具有较好的表现。

表1UNSW-NB 15入侵检测数据集实验结果

表2WSN-DS入侵检测数据集实验结果

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于大白鲨和随机森林的入侵检测方法，其特征在于，具体包括如下步骤：

S1，对原始大白鲨算法进行三种并行策略的改进；

S2，对改进后的大白鲨算法进行测试；

S3，对入侵检测数据集进行预处理，打上分类标签获得训练集；

S4，使用改进后的大白鲨算法优化随机森林参数，以构建入侵检测模型；

S5，使用入侵检测数据集对入侵检测模型进行测试，并输出分类结果。

2.根据权利要求1所述的一种基于大白鲨和随机森林的入侵检测方法，其特征在于，步骤S1具体包括如下步骤：

3.根据权利要求2所述的一种基于大白鲨和随机森林的入侵检测方法，其特征在于，步骤S1.1具体为，在大白鲨初始化阶段时，设大白鲨的群体总数为N，将大白鲨种群分为G组，每组的大白鲨数为N/G，即其中x_N/G代表大白鲨，初始化相应参数以及适应函数。

4.根据权利要求2所述的一种基于大白鲨和随机森林的入侵检测方法，其特征在于，步骤S1.3中的三种并行策略分别为：

策略二，在每一次迭代过程中，根据适应度函数的值进行排序，求每组大白鲨种群中的平均值X_ave，用平均值X_ave代替适应度函数值最差的个体，平均值计算公式如下，

其中，x₁，x₂....，x_worst是根据适应度函数进行从好到坏排序，pop为大白鲨个体数，g为并行分组数，为5；

5.根据权利要求1所述的一种基于大白鲨和随机森林的入侵检测方法，其特征在于，步骤S3中对数据集的预处理包括：对无关数据进行删除，对非数值数据进行数值化和对缺失数据进行整体删除或者填充；对数据集进行训练集与测试集话费，并根据攻击数据与非攻击数据对数据集进行二分类的划分。

6.根据权利要求1所述的一种基于大白鲨和随机森林的入侵检测方法，其特征在于，步骤S4中使用改进后的大白鲨算法优化随机森林参数具体包括：

7.根据权利要求6所述的一种基于大白鲨和随机森林的入侵检测方法，其特征在于，步骤S4.1中的三种位置更新方式包括：向猎物移动位置更新、鱼群行为更新和朝着最好的大白鲨运动更新；

向猎物移动位置更新公式：

其中，是第i条白鲨在第k步中的当前位置向量，其中/>和是由公式定义的一维二进制向量，f表示波浪的频率，u为WSO建议的收缩因子，rand是定义在[0,1]之间的随机数,/> 为按位异或运算，参数mv表示白鲨听觉和嗅觉的强度，其中k表示当前迭代次数，K表示最大迭代次数；a₀、a₁表示用于管理探索和开发的正的常数；

鱼群行为更新公式：

朝着最好的大白鲨运动更新公式：

是第i条白鲨相对于猎物位置的更新位置，/>表示目前为止任意白鲨在第k次迭代，sgn(r₂-0.5)给出1或-1的结果以改变搜索的方向，变量r₁、r₂和r₃是在[0,1]范围内的随机数，D_w是猎物与白鲨之间的距离；