CN116502088A

CN116502088A - 一种网络入侵检测方法、系统、电子设备及存储介质

Info

Publication number: CN116502088A
Application number: CN202310476240.8A
Authority: CN
Inventors: 王乐; 张志强; 顾钊铨; 李润恒; 景晓; 余涛; 陈元; 孟令逍; 谢敏容
Original assignee: Sichuan Yilan Situation Technology Co ltd; Guangzhou University; Peng Cheng Laboratory
Current assignee: Sichuan Yilan Situation Technology Co ltd; Guangzhou University; Peng Cheng Laboratory
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-28

Abstract

本发明公开了一种网络入侵检测方法、系统、电子设备及存储介质，该方法通过将待检测数据输入至多个训练好的分类器中进行网络入侵检测，获得每个训练好的分类器输出的入侵检测结果；对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得目标萤火虫个体；将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置；根据多个权重系数和每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果。本发明能够提高网络入侵检测的精确度。

Description

一种网络入侵检测方法、系统、电子设备及存储介质

技术领域

本发明涉及网络入侵检测技术领域，尤其是涉及一种网络入侵检测方法、系统、电子设备及存储介质。

背景技术

现有技术为了解决网络入侵检测场景下样本不均衡的问题，通常单独采用过采样或欠采样方法。对于过采样的方法，有人提出了一种基于自适应合成过采样技术和LightGBM的网络入侵检测系统，该方法主要通过ADASYN过采样技术增加少数攻击样本，以解决由于训练数据不平衡导致的少数攻击检测率低的问题。另外，也有人提出了一种在线过采样主成分分析算法做入侵检测，该方法允许根据产生的主导特征向量的变化来确定目标实例的异常。对于欠采样的方法，有人提出了一种基于聚类的欠采样方法，使用基于密度的聚类方法来学习入侵检测数据集以识别入侵行为。另外，也有人使用基于聚类的欠采样随机森林分类器来平衡样本的不均衡现象，从而能够更好的识别入侵事。

现有的欠采样技术存在数据浪费的现象，并且欠采样保留的数据并不能有效代表样本的特征。而现有过采样技术往往引入了过多背离样本分布特征的数据，从而使得入侵检测效果变得更糟糕。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种网络入侵检测方法、系统、电子设备及存储介质，能够解决数据浪费、采样数据不能有效代表样本特征以及引入过多背离样本分布特征的数据的问题，能够提高网络入侵检测的精确度。

第一方面，本发明实施例提供了一种网络入侵检测方法，所述网络入侵检测方法包括：

获取待检测数据、若干数量的正样本和若干数量的负样本；

将所述待检测数据输入至多个训练好的分类器中进行网络入侵检测，获得每个训练好的分类器输出的入侵检测结果；其中，所述多个分类器的训练方式如下：

根据所述正样本的数量和所述负样本的数量计算欠采样的第一组数和过采样的第二组数；

根据所述第一组数对正样本进行欠采样，获得第一组数的欠采样数据集；每组所述欠采样数据集包含数量相同的正样本和负样本；

根据所述第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集；每组所述过采样数据集包含数量相同的正样本和负样本；

采用每组所述欠采样数据集和所述过采样数据集分别单独训练一个分类器，获得多个训练好的分类器；

初始化萤火虫算法参数并获得多个萤火虫个体，对若干个所述萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个所述第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个所述第一萤火虫种群中符合目标条件的目标萤火虫个体；

将所述每个所述第一萤火虫种群的所述目标萤火虫个体组成新种群，找出所述新种群中符合目标条件的目标萤火虫个体，并将所述新种群中的所述目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到所述萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置；所述目标萤火虫个体的位置包括多个权重系数，所述多个权重系数分别对应各个所述分类器；

根据所述多个权重系数和所述每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果。

与现有技术相比，本发明第一方面具有以下有益效果：

本方法通过根据正样本的数量和负样本的数量计算欠采样的第一组数和过采样的第二组数，根据第一组数对正样本进行欠采样，根据第二组数对欠采样后剩余的正样本进行过采样，通过过采样和欠采样形成多个样本均衡的组别，从而解决数据浪费、采样数据不能有效代表样本特征以及引入过多背离样本分布特征的数据的问题，并且通过样本均衡的数据集训练分类器，能够提高训练好的分类器入侵检测的精确度；通过初始化萤火虫算法参数并获得多个萤火虫个体，对若干个萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第一萤火虫种群中符合目标条件的目标萤火虫个体，通过将若干个萤火虫个体划分成几个种群，不同种群并行计算互不干扰从而能够提升萤火虫算法的训练速度，加快算法收敛；将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置，通过将不同种群的目标萤火虫个体组合成新的种群，实现不同种群之间信息交互从而能够寻找更优解，能够提升目标萤火虫个体的位置的精确度；根据多个权重系数和每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果，由于提升了目标萤火虫个体的位置的精确度，而目标萤火虫个体的位置包括多个权重系数，使得通过根据多个权重系数计算得到的最终的入侵检测结果的精确度进一步得到了提升。

根据本发明的一些实施例，所述分类器采用朴素贝叶斯分类器。

根据本发明的一些实施例，所述根据所述第一组数对正样本进行欠采样，获得第一组数的欠采样数据集，包括：

根据所述第一组数，采用随机不重复欠采样方法对所述若干数量的正样本中进行欠采样，获得第一组数的欠采样数据集。

根据本发明的一些实施例，所述根据所述第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集，包括：

根据所述第二组数，采用SMOTE过采样方法对欠采样后剩余的正样本中进行过采样，获得第二组数的过采样数据集。

根据本发明的一些实施例，所述对每个所述第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个所述第一萤火虫种群中符合目标条件的目标萤火虫个体，包括：

计算每个所述第一萤火虫种群中的每个萤火虫个体对附近萤火虫个体的吸引度；

计算每个所述第一萤火虫种群中的每个萤火虫个体当前位置的适应度值；

根据所述吸引度，选出最大亮度萤火虫个体，并采用随机移动位置的方式更新所述最大亮度萤火虫个体的位置，获得第一位置；

对除所述最大亮度萤火虫个体的其他萤火虫个体，使每个萤火虫个体找到附近对本身吸引度高的萤火虫个体，并向所述吸引度高的萤火虫个体靠近，获得第二位置；

计算所述第一位置或所述第二位置的适应度值，若所述第一位置或所述第二位置的适应度值优于飞行之前的所述当前位置的适应度值，则所述萤火虫个体飞行到所述第一位置或所述第二位置；

比较位置优化后的每个萤火虫位置的适应度值，获得每个所述第一萤火虫种群中所述适应度值最优萤火虫个体。

根据本发明的一些实施例，所述将所述每个所述第一萤火虫种群的所述目标萤火虫个体组成新种群，找出所述新种群中符合目标条件的目标萤火虫个体，并将所述新种群中的所述目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到所述萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置，包括：

将所述每个所述第一萤火虫种群的所述目标萤火虫个体组成新种群，对所述新种群采用所述萤火虫算法进行萤火虫位置优化，获得位置优化后的所述新种群中符合目标条件的第一目标萤火虫个体；

将所述新种群中的所述第一目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群；

对每个所述第二萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个所述第二萤火虫种群中符合目标条件的目标萤火虫个体；

将每个所述第二萤火虫种群的所述目标萤火虫个体组成新种群，找出所述新种群中符合目标条件的第二目标萤火虫个体，并将所述新种群中的所述第二目标萤火虫个体加入每个第二萤火虫种群中作为下一次迭代的第三萤火虫种群，直到所述萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置。

根据本发明的一些实施例，通过如下公式计算得到最终的入侵检测结果：

其中，i表示第i组，P_i表示正样本数量，P_j表示负样本数量，W_i表示第i组的权重系数，R_i表示第i组分类器输出的入侵检测结果，Result表示最终的入侵检测结果。

第二方面，本发明实施例还提供了一种网络入侵检测系统，所述网络入侵检测系统包括：

数据获取模块，用于获取待检测数据、若干数量的正样本和若干数量的负样本；

入侵检测模块，用于将所述待检测数据输入至多个训练好的分类器中进行网络入侵检测，获得每个训练好的分类器输出的入侵检测结果；所述入侵检测模块包括数据计算子模块、欠采样子模块、过采样子模块和数据训练子模块，其中：

所述数据计算子模块，用于根据所述正样本的数量和所述负样本的数量计算欠采样的第一组数和过采样的第二组数；

所述欠采样子模块，用于根据所述第一组数对正样本进行欠采样，获得第一组数的欠采样数据集；每组所述欠采样数据集包含数量相同的正样本和负样本；

所述过采样子模块，用于根据所述第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集；每组所述过采样数据集包含数量相同的正样本和负样本；

所述数据训练子模块，用于采用每组所述欠采样数据集和所述过采样数据集分别单独训练一个分类器，获得多个训练好的分类器；

位置优化模块，用于初始化萤火虫算法参数并获得多个萤火虫个体，对若干个所述萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个所述第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个所述第一萤火虫种群中符合目标条件的目标萤火虫个体；

权重系数获取模块，用于将所述每个所述第一萤火虫种群的所述目标萤火虫个体组成新种群，找出所述新种群中符合目标条件的目标萤火虫个体，并将所述新种群中的所述目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到所述萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置；所述目标萤火虫个体的位置包括多个权重系数，所述多个权重系数分别对应各个所述分类器；

检测结果获取模块，用于根据所述多个权重系数和所述每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果。

第三方面，本发明实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述至少一个计算机程序被存储在所述至少一个存储器中，所述至少一个处理器执行所述至少一个计算机程序以实现上述第一方面所述的一种网络入侵检测方法。

第四方面，本发明实施例还提供了一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行上述第一方面所述的一种网络入侵检测方法。

可以理解的是，上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例的一种网络入侵检测方法的流程图；

图2是本发明一实施例的步骤S200中的流程图；

图3是本发明一实施例的结合过采样和欠采样重构数据集的示意图；

图4是本发明一实施例的欠采样的流程图；

图5是本发明一实施例的过采样的流程图；

图6是本发明一实施例的一种网络入侵检测系统的结构图；

图7是本发明一实施例的入侵检测模块中子模块的结构图；

图8是本发明一实施例的电子设备的硬件结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，如果有描述到第一、第二等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

为解决上述问题，本发明通过根据正样本的数量和负样本的数量计算欠采样的第一组数和过采样的第二组数，根据第一组数对正样本进行欠采样，根据第二组数对正样本进行过采样，通过过采样和欠采样形成多个样本均衡的组别，从而解决数据浪费、采样数据不能有效代表样本特征以及引入过多背离样本分布特征的数据的问题，并且通过样本均衡的数据集训练分类器，能够提高训练好的分类器入侵检测的精确度；通过初始化萤火虫算法参数并获得多个萤火虫个体，对若干个萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第一萤火虫种群中符合目标条件的目标萤火虫个体，通过将若干个萤火虫个体划分成几个种群，不同种群并行计算互不干扰从而能够提升萤火虫算法的训练速度，加快算法收敛；将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置，通过将不同种群的目标萤火虫个体组合成新的种群，实现不同种群之间信息交互从而能够寻找更优解，能够提升目标萤火虫个体的位置的精确度；根据多个权重系数和每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果，由于提升了目标萤火虫个体的位置的精确度，而目标萤火虫个体的位置包括多个权重系数，使得通过根据多个权重系数计算得到的最终的入侵检测结果的精确度进一步得到了提升。

参照图1至图2，本发明实施例提供了一种网络入侵检测方法，本网络入侵检测方法包括但不限于步骤S100至步骤S500，其中：

步骤S100、获取待检测数据、若干数量的正样本和若干数量的负样本；

步骤S200、将待检测数据输入至多个训练好的分类器中进行网络入侵检测，获得每个训练好的分类器输出的入侵检测结果；其中，多个分类器的训练方式如下：

步骤S210、根据正样本的数量和负样本的数量计算欠采样的第一组数和过采样的第二组数；

步骤S220、根据第一组数对正样本进行欠采样，获得第一组数的欠采样数据集；每组欠采样数据集包含数量相同的正样本和负样本；

步骤S230、根据第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集；每组过采样数据集包含数量相同的正样本和负样本；

步骤S240、采用每组欠采样数据集和过采样数据集分别单独训练一个分类器，获得多个训练好的分类器；

步骤S300、初始化萤火虫算法参数并获得多个萤火虫个体，对若干个萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第一萤火虫种群中符合目标条件的目标萤火虫个体；

步骤S400、将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置；目标萤火虫个体的位置包括多个权重系数，多个权重系数分别对应各个分类器；

步骤S500、根据多个权重系数和每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果。

在一些实施例的步骤S100至步骤S500中，为了提高入侵检测的精确度，本实施例通过将待检测数据输入至多个训练好的分类器中进行网络入侵检测，获得每个训练好的分类器输出的入侵检测结果；为了解决数据浪费、采样数据不能有效代表样本特征以及引入过多背离样本分布特征的数据的问题，本实施例通过根据正样本的数量和负样本的数量计算欠采样的第一组数和过采样的第二组数，根据第一组数对正样本进行欠采样，根据第二组数对正样本进行过采样，通过过采样和欠采样形成多个样本均衡的组别；为了提升萤火虫算法的训练速度，加快算法收敛，本实施例通过初始化萤火虫算法参数并获得多个萤火虫个体，对若干个萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第一萤火虫种群中符合目标条件的目标萤火虫个体；为了进一步提升入侵检测结果的精确度，本实施例通过将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置；目标萤火虫个体的位置包括多个权重系数，多个权重系数分别对应各个分类器，根据多个权重系数和每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果。

需要说明的是，本实施例中的目标萤火虫为最优萤火虫，群体最优萤火虫即亮度最大的萤火虫。

在一些实施例中，分类器采用朴素贝叶斯分类器。

本实施例中采用朴素贝叶斯分类器，由于经过欠采样和过采样相结合后构建的多组数据集都是均衡的小样本数据集，而朴素贝叶斯算法在小规模数据集上的表现通常优于其他分类算法。这是因为朴素贝叶斯算法不需要估计很多参数，而且可以处理高维数据集，并且朴素贝叶斯分类算法对缺失数据容忍度高。在朴素贝叶斯分类算法中，如果某个特征的值在训练集中缺失，仅会在计算概率时将该特征忽略，而不是丢弃整个样本。这种容忍度使得朴素贝叶斯算法能够在存在缺失数据的情况下仍能有效地进行分类。

在一些实施例中，根据第一组数对正样本进行欠采样，获得第一组数的欠采样数据集，包括：

根据第一组数，采用随机不重复欠采样方法对若干数量的正样本中进行欠采样，获得第一组数的欠采样数据集。

在本实施例中，通过随机不重复欠采样方法依照负样本数量对若干数量的正样本中进行欠采样，从而构建第一组数的均衡的欠采样数据集，解决了数据浪费和采样数据不能有效代表样本特征的问题。

在一些实施例中，根据第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集，包括：

根据第二组数，采用SMOTE过采样方法对欠采样后剩余的正样本中进行过采样，获得第二组数的过采样数据集。

在本实施例中，通过SMOTE过采样方法依照负样本数量对欠采样后剩余的正样本中进行过采样，从而构建第二组数的均衡的过采样数据集，解决了引入过多背离样本分布特征的数据的问题。

在一些实施例中，对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第一萤火虫种群中符合目标条件的目标萤火虫个体，包括：

计算每个第一萤火虫种群中的每个萤火虫个体对附近萤火虫个体的吸引度；

计算每个第一萤火虫种群中的每个萤火虫个体当前位置的适应度值；

根据吸引度，选出最大亮度萤火虫个体，并采用随机移动位置的方式更新最大亮度萤火虫个体的位置，获得第一位置；

对除最大亮度萤火虫个体的其他萤火虫个体，使每个萤火虫个体找到附近对本身吸引度高的萤火虫个体，并向吸引度高的萤火虫个体靠近，获得第二位置；

计算第一位置或第二位置的适应度值，若第一位置或第二位置的适应度值优于飞行之前的当前位置的适应度值，则萤火虫个体飞行到第一位置或第二位置；

比较位置优化后的每个萤火虫位置的适应度值，获得每个第一萤火虫种群中适应度值最优萤火虫个体。

在本实施例中，通过将若干个萤火虫个体划分成几个种群，不同种群并行计算互不干扰从而能够提升萤火虫算法的训练速度，加快算法收敛。

在一些实施例中，将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置，包括：

将每个第一萤火虫种群的目标萤火虫个体组成新种群，对新种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的新种群中符合目标条件的第一目标萤火虫个体；

将新种群中的第一目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群；

对每个第二萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第二萤火虫种群中符合目标条件的目标萤火虫个体；

将每个第二萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的第二目标萤火虫个体，并将新种群中的第二目标萤火虫个体加入每个第二萤火虫种群中作为下一次迭代的第三萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置。

在本实施例中，通过将不同种群的目标萤火虫个体组合成新的种群，实现不同种群之间信息交互从而能够寻找更优解，能够提升目标萤火虫个体的位置的精确度。

在一些实施例中，通过如下公式计算得到最终的入侵检测结果：

在本实施例中，由于提升了目标萤火虫个体的位置的精确度，而目标萤火虫个体的位置包括多个权重系数，使得通过根据多个权重系数计算得到的最终的入侵检测结果的精确度进一步得到了提升。

为方便本领域人员理解，以下提供一组最佳实施例：

步骤S21：获取若干良性样本和恶意样本，计算良性样本(即正样本)与恶意样本(即负样本)的比例：P_i:P_j。

步骤S22：计算总采样组数＝P_i//P_j+1(//表示除取整)，其中P_i//P_j表示良性与恶意样本数量刚好均衡，而1表示余下的良性样本数量比恶意样本数量少，此时需要对少的那组良性样本进行扩充使该组良性样本与恶意样本达到均衡。例如：

参照图3，图3中P_i是P_j的4.6倍，因而能够通过欠采样产生4组良性与恶意样本数量均衡的组，对于第5组余下的0.6良性样本需要做过采样处理以扩充样本数量使得良性样本数量与恶意样本数量均衡。

步骤S23：从正样本中随机不重复欠采样数据，欠采样的数量标准为：每组正样本数量依照负样本数量进行欠采样，从而构建P_i//P_j组均衡数据集(即欠采样数据集)，欠采样流程参照图4。

步骤S24：由于正样本数量往往不一定是负样本数量的整倍数，因此将正样本采样后余下的数据集进行SMOTE过采样，过采样的数量标准为：剩余的正样本数量依照负样本数量进行过采样从而再次构建一组均衡数据集(即过采样数据集)，过采样流程参照图5。

具体的，参照图3，在原始数据集中良性样本A1数量远大于恶意样本B的数量，为了将正负样本均衡化处理，需要对良性样本采样处理。首先对A1进行随机欠采样，采样出的样本数量放进组1，使得组1中的良性样本数量与恶意样本数量B一样，同时将所有恶意样本B复制一份放进组1。重复上述过程直到获得4组样本均衡的数据集。此时A1还剩余一部分样本，为了减少数据浪费，本实施例对剩余的样本A2进行SMOTE过采样处理，使得过采样后形成的最终数据量与恶意样本B数据量一致。同样的，本实施例将过采样形成的数据集放进组5，并将恶意样本B也放进组5。至此，本实施例对原始数据集中的所有样本都充分使用到了，这样可以确保优质样本不会丢失。

步骤S25：采用上述步骤构建的P_i//P_j组欠采样数据集和1组过采样数据集对多组分类器进行训练。具体的，本实施例采用的是朴素贝叶斯分类器，采用P_i//P_j组欠采样数据集和1组过采样数据集对P_i//P_j+1组分类器展开单独训练，一组数据集对应训练一组分类器，对每组分类器进行参数优化，使每组分类器能够表现最优，获得每组训练好的分类器。

经过欠采样和过采样相结合后构建的多组数据集都是均衡的小样本数据集，而朴素贝叶斯算法在小规模数据集上的表现通常优于其他分类算法。这是因为朴素贝叶斯算法不需要估计很多参数，而且可以处理高维数据集。并且朴素贝叶斯分类算法对缺失数据容忍度高：在朴素贝叶斯分类算法中，如果某个特征的值在训练集中缺失，仅会在计算概率时将该特征忽略，而不是丢弃整个样本。这种容忍度使得朴素贝叶斯算法能够在存在缺失数据的情况下仍能有效地进行分类。

步骤S26：采用每组入侵检测数据集训练好的朴素贝叶斯分类器单独进行入侵检测输出入侵检测结果R_i。

步骤S27：通过如下公式将每组分类器输出的结果乘对应的权重系数，并将结果相加作为最终的入侵检测结果。

步骤S28：对萤火虫进行分组，获得多个萤火虫种群，初始化每个种群的萤火虫数目n和初始位置L，初始吸引度β₀，最大吸引度β_max，最小吸引度β_min，光强吸收系数y，步长因子α，最大迭代次数T。萤火虫的位置L代表了权重集合W＝{W₁,W₂,...,W_n}，由于包含多个权重系数，所以萤火虫位置是高维空间。

步骤S29：计算萤火虫两两之间的欧式距离和萤火虫对周围萤火虫的吸引度β_r。

其中，r表示两个萤火中之间的欧式距离，即萤火虫i和萤火虫j之间的距离。

步骤S30：根据萤火虫的位置计算适应度值(即根据每个萤火虫的权重向量计算分类器集成后的入侵检测率)。具体的：

因为萤火虫的位置就是表示权重集合(置信度)W＝{W₁,W₂,...,W_n}，W是一个位置向量，而每组数据集结合分类器对验证集数据做入侵检测会分别得到一个检测结果形成检测结果集合R＝{R₁,R₂,...,R_n}，结合步骤S207会得到入侵检测的实际输出结果，而验证集存在真实的实际标签，因此计算实际输出结果与真实标签的准确率作为适应度值(即入侵检测率)。

步骤S31：每个萤火虫找到对自己吸引度最高的萤火虫个体，并更新位置向对其吸引度最高的萤火虫靠近。位置更新公式如下：

其中，X_i表示萤火虫当前位置，X_i′表示更新后的位置，位置即权重系数W＝{W₁,W₂,...,W_n}，β₀表示预先定义的初始吸引度，α表示扰动的步长因子，rand表示均匀分布在[0,1]之间的随机数。

步骤S32：群体最优即亮度最大的萤火虫通过如下公式随机移动位置。

X_i'＝X_i+αrand Guass()

其中，Guass表示高斯函数公式。

步骤S33：计算萤火虫向所有比自己亮度高的其它个体飞行后所到的新位置的适应度值，若该位置优于飞行之前的位置，则该萤火虫将飞行到新的位置，否则萤火虫将停留在原处。

本实施例中的步骤S29至步骤S33，区别于传统的萤火虫优化算法将所有萤火虫视为一个种群进行训练，本实施例在此处做了改进，将大量萤火虫进行随机分组形成多个萤火虫集群。在后续步骤的计算萤火虫之间的吸引度、萤火虫位置更新等步骤(即步骤S29到步骤S33)都是每个种群独立进行，互不干扰。

本实施例改进的萤火虫优化算法在下面步骤对传统的萤火虫优化算法添加了种群信息交互过程(传统萤火虫优化算法没有将萤火虫分组形成多个种群的概念)，因此，本实施例能够提升萤火虫优化算法的训练速度，加快算法收敛，同时能够提升目标解的精确度。

步骤S34：每一轮种群内部萤火虫位置优化后将每一组的目标个体结合起来形成一个新的种群，并对该种群重复执行步骤S29到步骤S33从而从该种群中找出更优的解，并将该解代入回原来的所有种群。

步骤S35：重复执行上述过程，若算法达到最大迭代次数则将搜索到的目标萤火虫的位置作为解输出，否则将跳到步骤S30。

参照图6至图7，本发明实施例还提供了一种网络入侵检测系统，本网络入侵检测系统包括数据获取模块100、入侵检测模块200、位置优化模块300、权重系数获取模块400和检测结果获取模块500，其中：

数据获取模块100，用于获取待检测数据、若干数量的正样本和若干数量的负样本；

入侵检测模块200，用于将待检测数据输入至多个训练好的分类器中进行网络入侵检测，获得每个训练好的分类器输出的入侵检测结果；入侵检测模块包括数据计算子模块210、欠采样子模块220、过采样子模块230和数据训练子模块240，其中：

数据计算子模块210，用于根据正样本的数量和负样本的数量计算欠采样的第一组数和过采样的第二组数；

欠采样子模块220，用于根据第一组数对正样本进行欠采样，获得第一组数的欠采样数据集；每组欠采样数据集包含数量相同的正样本和负样本；

过采样子模块230，用于根据第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集；每组过采样数据集包含数量相同的正样本和负样本；

数据训练子模块240，用于采用每组欠采样数据集和过采样数据集分别单独训练一个分类器，获得多个训练好的分类器；

位置优化模块300，用于初始化萤火虫算法参数并获得多个萤火虫个体，对若干个萤火虫个体进行分组，获得多个第一萤火虫种群；并对每个第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个第一萤火虫种群中符合目标条件的目标萤火虫个体；

权重系数获取模块400，用于将每个第一萤火虫种群的目标萤火虫个体组成新种群，找出新种群中符合目标条件的目标萤火虫个体，并将新种群中的目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置；目标萤火虫个体的位置包括多个权重系数，多个权重系数分别对应各个分类器；

检测结果获取模块500，用于根据多个权重系数和每个训练好的分类器输出的入侵检测结果，计算得到最终的入侵检测结果。

需要说明的是，由于本实施例中的一种网络入侵检测系统与上述的一种网络入侵检测方法基于相同的发明构思，因此，方法实施例中的相应内容同样适用于本系统实施例，此处不再详述。

本申请实施例还提供了一种电子设备，该电子设备包括：至少一个存储器，至少一个处理器，至少一个计算机程序，至少一个计算机程序被存储在至少一个存储器中，至少一个处理器执行至少一个计算机程序以实现上述实施例中任一种网络入侵检测方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

参照图8，图8示意了另一实施例的一种电子设备的硬件结构，该电子设备包括：

处理器810，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器820，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器820可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行本申请实施例的一种网络入侵检测方法；

输入/输出接口830，用于实现信息输入及输出；

通信接口840，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线850，在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息；

其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，该存储介质为计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序用于使计算机执行上述实施例中任一种网络入侵检测方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储、闪存、或其他非暂态固态存储。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参阅附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种网络入侵检测方法，其特征在于，所述网络入侵检测方法包括：

获取待检测数据、若干数量的正样本和若干数量的负样本；

2.根据权利要求1所述网络入侵检测方法，其特征在于，所述分类器采用朴素贝叶斯分类器。

3.根据权利要求1所述网络入侵检测方法，其特征在于，所述根据所述第一组数对正样本进行欠采样，获得第一组数的欠采样数据集，包括：

4.根据权利要求1所述网络入侵检测方法，其特征在于，所述根据所述第二组数对欠采样后剩余的正样本进行过采样，获得第二组数的过采样数据集，包括：

5.根据权利要求1所述网络入侵检测方法，其特征在于，所述对每个所述第一萤火虫种群采用萤火虫算法进行萤火虫位置优化，获得位置优化后的每个所述第一萤火虫种群中符合目标条件的目标萤火虫个体，包括：

6.根据权利要求5所述网络入侵检测方法，其特征在于，所述将所述每个所述第一萤火虫种群的所述目标萤火虫个体组成新种群，找出所述新种群中符合目标条件的目标萤火虫个体，并将所述新种群中的所述目标萤火虫个体加入每个第一萤火虫种群中作为下一次迭代的第二萤火虫种群，直到所述萤火虫算法达到最大迭代次数，得到目标萤火虫个体的位置，包括：

7.根据权利要求1所述网络入侵检测方法，其特征在于，通过如下公式计算得到最终的入侵检测结果：

8.一种网络入侵检测系统，其特征在于，所述网络入侵检测系统包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个计算机程序；

所述至少一个计算机程序被存储在所述至少一个存储器中，所述至少一个处理器执行所述至少一个计算机程序以实现：

如权利要求1至7任一项所述的一种网络入侵检测方法。

10.一种存储介质，所述存储介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行：

如权利要求1至7中任一项所述的一种网络入侵检测方法。