CN115296898B

CN115296898B - 用于构建网络入侵检测系统的多目标演化特征选择方法

Info

Publication number: CN115296898B
Application number: CN202210926471.XA
Authority: CN
Inventors: 钱超; 程子航; 尚昊璞
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2023-11-07
Anticipated expiration: 2042-08-03
Also published as: CN115296898A

Abstract

本发明公开一种用于构建网络入侵检测系统的多目标演化特征选择方法，将网络入侵检测中的特征选择问题建模成一个三目标优化问题，同时优化特征数量、分类准确率和检测率，并使用多目标演化算法来求解此优化问题。这种建模方式解决了以往的方法忽略检测率这一重要指标，从而导致构建的入侵检测系统在实际应用上漏掉大量网络入侵的问题。在多个网络入侵数据集上的实验表明，本发明的建模方式优于以往方法，对异常攻击的检测率有明显提高。

Description

用于构建网络入侵检测系统的多目标演化特征选择方法

技术领域

本发明涉及一种包含检测率的用于构建网络入侵检测系统的多目标演化特征选择方法，属于网络入侵检测技术领域。

背景技术

随着互联网的发展，网络入侵也出现得越来越频繁，许多组织的信息系统通常面临着严重的网络攻击，因此，网络入侵检测是网络安全领域最重要的问题之一。在过去的研究工作中，许多机器学习技术被用于构建入侵检测系统，即将网络入侵检测视作一个分类问题，并使用有效的机器学习算法来解决它。然而，在网络入侵检测领域中，描述网络连接的特征数量繁多复杂，其中包含有不少冗余或带噪声的特征，这给机器学习模型的学习过程带来了额外的计算开销和分类性能的损失。因此，在使用机器学习技术构建入侵检测系统时通常需要执行特征选择过程来挑选最合适的特征子集。

对于网络入侵检测中的特征选择问题，以往的工作主要使用包裹式的方法，即在优化过程中直接将最终要使用的学习器的性能作为特征子集的评价准则，并使用各种优化技术去搜索得到好的特征子集。

演化算法是一类受自然进化启发的具有广泛适用性的全局优化算法，它维护由多个解组成的种群，并模拟生物的进化过程对解进行交叉和变异操作，从而生成新的种群。演化算法在子集选择问题上已经有不错的理论保证和实践应用，因此，许多相关工作使用演化算法来解决网络入侵检测当中的特征选择问题，例如，将包裹式学习器的分类准确率作为优化目标，使用遗传算法来搜索最优子集；或同时考虑特征子集的大小和学习器的分类准确率，使用多目标演化算法NSGA-II来求解特征选择问题。但现有方法在优化过程中通常不考虑检测率这一目标，从而导致构建的入侵检测系统在实际应用中有着较低检测率。

发明内容

发明目的：相比于一般的机器学习分类问题，在网络入侵检测领域中，对入侵的检测率表示了真实攻击中有多少比例能够被正确识别出来，因而比分类准确率更受关注。

本发明就是为了解决现有方法表现出低检测率的问题，将网络入侵检测中的特征选择问题建模成一个三目标优化问题，即最小化特征数量，最大化分类准确率以及最大化对异常攻击的检测率，并使用多目标演化算法NSGA-II来求解此优化问题，从而构建出性能更好的入侵检测系统。其中，优化算法NSGA-II可以替换为NSGA-III或MOEA/D等其它的多目标演化算法。

技术方案：针对现有的网络入侵检测中的特征选择方法很少在优化过程中考虑检测率这一重要指标，从而导致应用时漏掉大量真实异常的问题，提出了一种包含检测率的用于构建网络入侵检测系统的多目标演化特征选择方法，利于构建出整体性能更好的入侵检测系统。

(一)一种用于构建网络入侵检测系统的多目标演化特征选择方法，将网络入侵检测中的特征选择问题形式化为一个三目标优化问题，三目标优化包括：最小化特征数量，最大化分类准确率，以及最大化对异常攻击的检测率。

将特征选择问题形式化为一个三目标优化问题，如下：

其中，用长度为n的0-1串x∈{0,1}ⁿ表示所选择的特定特征子集，其中1代表对应位的特征被选择，0代表对应位特征不被选择。第一个目标-Size(x)是特征子集大小的相反数，第二个目标Accuracy(x)是在相应特征子集上训练的包裹式分类器的准确率，第三个目标DR(x)是在相应特征子集上训练的包裹式分类器对异常的检测率(查全率)。相比于以往多目标建模的相关工作通常只考虑特征子集大小和分类准确率，本发明额外将检测率作为优化过程中的优化目标，从而能够搜索到使模型检测率更高的特征子集，提升入侵检测系统的整体分类性能。

如果一个解只有一个目标函数，那么对比两个解的优劣就比较容易，即直接比较这两个解在该目标上的大小，但当一个解涉及到多个目标时，我们无法直接对比单个目标来判断解的优劣。此时，引入在多目标优化中对解的支配关系的定义：对于两个解x和x’，如果，

(1)对任意目标函数，x在该目标函数上的值都不小于x′在该目标上的值；

(2)存在某一个目标函数，x在该目标函数上的值大于x′在该目标上的值。

则称解x支配解x′。

有了多目标优化中定义的解的支配关系，以及将特征选择问题建模为三目标优化的形式，就可以直接使用多目标演化算法来求解此特征选择问题。本发明中主要使用NSGA-II作为求解此特征选择优化问题的多目标演化算法。

(二)以NSGA-II为例，介绍多目标演化算法实现的功能，NSGA-II整体流程如下：

算法流程1：

其中，父代选择通常使用二元锦标赛选择，交叉算子和变异算子分别使用均匀交叉(Uniform crossover)和逐位变异(Bit-wise mutation)。均匀交叉是对两个用0-1串的形式表示的解，对应的每一位都以1/2的概率进行交换；逐位变异就是对于一个0-1串，每一位以1/n的概率进行翻转(0以1/n的概率翻转成1，1以1/n的概率翻转成0)。

快速非支配排序：对种群内的每个个体x维护两个参数n_x和S_x，其中n_x表示种群中支配个体x的个体数，S_x为种群中被个体x支配的个体集合。通过遍历整个种群，获得每个个体的n_n和S_x，进而获得每个个体的等级(rank)。快速非支配排序的主要步骤如下：

步骤101：对于种群中n_x为0的所有个体，保存在当前集合F₁中；

步骤102：对于当前集合F₁中的个体i，遍历S_i中的每个个体y，执行n_y＝n_y-1，如果n_y＝0则将个体i保存在集合Q中；

步骤103：记F₁为等级为1(rank＝1)的非支配个体集合，并以Q为当前集合；

步骤104：重复步骤101-步骤103，直到整个种群被分级完成。

拥挤距离：NSGA-II通过计算拥挤距离来保持种群的多样性。拥挤距离描述种群中个体所处环境的拥挤程度，和目标函数值有关。其计算方法如下：

步骤201：记个体i的拥挤距离为d_i，设d_i＝0；

步骤202：设f_m为目标函数，m＝1,2,…,M，在每个目标函数f_m上，对每个个体进行升序排列，将目标函数值最大和最小的个体拥挤度距离设为无穷大，其它个体的拥挤距离计算如下：

其中，和/>表示第m个目标函数上的最大和最小值，f_m(i)表示第i个个体在第m个目标函数上的值。

有了每个个体非支配排序和拥挤距离的结果，在选择阶段，优先选择那些非支配排序中等级较低的个体，对于同一等级的个体，再比较他们的拥挤距离，拥挤距离越大的越优先被选择。

由此，提出的三目标特征选择的问题能够使用上述多目标演化算法解决。本发明的最终目的是构建出能够识别网络入侵的入侵检测系统(IDS)，多目标特征选择过程是为入侵检测系统挑选出最适合问题背景的数据集的特征子集，整个网络入侵检测的算法流程如下：

算法流程2：

上述算法流程2是本发明的算法框架，其中，特征选择阶段所使用的多目标演化算法可以使用NSGA-II，NSGA-III或MOEA/D来具体实现；特征选择阶段和分类测试阶段中，用于构建入侵检测系统(IDS)的分类器可以使用CART决策树，逻辑回归(LogisticRegression)或随机森林(RandomForest)来具体实现。

按照上述算法流程2，即可完成网络入侵检测系统的构建。值得注意的是，在特征选择阶段使用多目标演化算法进行优化得到的是一个非支配解集，即特征子集的集合，在实际使用过程中具体选择使用哪个特征子集构建的IDS需要根据实际问题来确定。

(三)按照上述算法流程，采用的多目标优化算法以NSGA-II为例，本发明提出的用于构建网络入侵检测系统的多目标演化特征选择方法，包含以下步骤：

步骤1：给定原始网络入侵数据集D，数据集D中每条记录是一个网络事件，包含多种描述网络链接的特征，如源IP地址，源端口，目标IP地址，目标端口，传输协议，源(目标)到目标(源)字节数，时间戳及其它内容特征等，记特征总数为L。同时，每一条记录都存在标签记录其属于正常或攻击。对原始网络入侵数据集D进行预处理，包括数据清理，缺失值和无穷值的处理。

步骤2：将原始网络入侵数据集D划分为训练集D_train、验证集D_val和测试集D_test，每个划分中样本包含的特征同原始数据集一致。

步骤3：特征选择阶段。由于描述网络事件的特征繁多复杂，且含有冗余信息，这会带来额外的计算开销，甚至可能会对入侵检测系统产生误导。本阶段的目的是从描述网络事件的记录的多种特征中挑选出一个(或多个)非支配特征子集作为特定的特征子集，进而在数据集的特征子集上取得更好的入侵检测效果。实现本功能使用的是多目标演化算法NSGA-II，其处理步骤如3.1-3.5所示。

步骤3.1：种群初始化。演化算法使用0-1串来表示解，每个解(0-1串)代表一个特定的特征子集，其中0-1串的长度等于特征总数L，0代表对应位的特征不选，1代表对应位的特征被选取。初始化过程即为0-1串的生成过程，对于0-1串中的每一位，以1/2的概率生成0，以1/2的概率生成1，初始种群大小为N。

步骤3.2：选择、交叉和变异。从种群中使用二元锦标赛选择两个父代个体，对两个父代个体进行均匀交叉(Uniform crossover)和逐位变异(Bit-wise mutation)生成两个子代个体。此过程重复进行，直到生成N个子代个体。此时每个子代个体以0-1串的形式代表一个特定的特征子集。

步骤3.3：适应度评估。通过在每个个体对应的特征子集上训练包裹式分类器的评估，来判断解的优劣。训练集D_train被用于分类器的训练，验证集D_val被用于分类器的评估，包含三个目标函数的评估：特征子集大小，模型在验证集D_val上的分类准确率及异常检测率。

步骤3.4：生存选择。通过快速非支配排序和拥挤距离从N个父代个体和N个子代个体中挑选出N个个体组成新一代种群。

步骤3.5：判断终止条件。如果未达到设定的终止条件(如固定迭代轮数)，则重复步骤3.2-3.4，否则返回最后一代种群中的非支配解集。

步骤4：根据实际应用场景需要，从非支配解集中选择合适的特征子集用于入侵检测系统的构建。本方法使用多目标演化算法进行特征选择，因此会得到多个特征子集，需要根据实际问题的需求，如计算资源、入侵检测系统精度要求，检测率要求来挑选最合适的特征子集。例如，在对检测率要求高(即漏掉的攻击会带来极大损失)的场景中，尽量挑选在验证集上检测率较高的解。

根据选择的特征子集，使用CART决策树，逻辑回归或随机森林算法在训练集D_train上训练分类模型，从而构建出入侵检测系统。最终，在测试集D_test上对入侵检测系统进行评估，得到最终构建的入侵检测系统的性能。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的用于构建网络入侵检测系统的多目标演化特征选择方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的用于构建网络入侵检测系统的多目标演化特征选择方法的计算机程序。

有益效果：本发明提供了一种用于构建网络入侵检测系统的多目标演化特征选择方法，将特征选择建模成一个三目标优化问题，即最小化特征数量，最大化分类准确率以及对异常攻击的检测率，进一步使用多目标演化算法来寻找最优特征子集。在多个学习器(CART决策树，逻辑回归LR，随机森林RF)上的实验表明，本发明的建模方式提升了IDS的整体性能，最重要的是，检测率相比于以往效果最好的方法最高提升8.49％。

附图说明

图1是本发明实施例中整个入侵检测系统的构建以及性能评估的流程图；

图2是图1中的多目标演化特征选择过程，其从所有特征中选出最优子集来构建入侵检测系统；

图3是数据集NSL-KDD上各方法的结果(特征减少率-准确率投影面)；

图4是数据集NSL-KDD上各方法的结果(特征减少率-检测率投影面)；

图5是数据集NSL-KDD上各方法的结果(准确率-检测率投影面)。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种用于构建网络入侵检测系统的多目标演化特征选择方法，通过多目标演化算法的选择、交叉和变异可以获得一组优质的特征选择结果(非支配解集)。

以NSL-KDD和UNSW-NB15两个流行的网络入侵检测数据集为例，下面用实验的方式展示我们的发明的检测效果。NSL-KDD数据集共包含41维特征，训练集和测试集分别包含了125972和22543条网络数据，以描述正常流量及四种攻击类型：DoS,Probe,R2L,U2R。UNSW-NB15数据集是由澳大利亚网络安全中心(ACCS)创建的，其中数据特征包含五类：流量特征，基本特征，内容特征，时间特征及额外生成的特征。官方提供的训练集和测试集数据分别包括175341和82332条，每个数据样本包含42维特征。为了简单起见，我们将入侵检测系统构建为一个二分类器，用于识别正常和攻击两种类型。

在该具体问题下，用于构建网络入侵检测系统的多目标演化特征选择方法，流程如下：

步骤1：对原始数据集NSL-KDD和UNSW-NB15进行预处理，包括数据清理，缺失值和无穷值的处理，使用序号编码(Ordinal Encoder)将类别型特征转换为数值型特征，并对所有特征归一化到0和1之间。

步骤2：将数据集划分为训练集D_train、验证集D_val和测试集D_test。对NSL-KDD数据集而言，使用官方给的训练集KDDTrain+.txt中随机划分20％作为验证集，剩下80％作为训练集，而KDDTest+.txt作为测试集；对UNSW-NB15数据集，同样从官方文档的UNSW_NB15_training-set.csv中随机划分出20％作为验证集，其余80％作为训练集，UNSW_NB15_testing-set.csv作为测试集。

步骤3：种群初始化。演化算法对于个体中的每一位，以1/2的概率生成0，以1/2的概率生成1，初始种群大小设为100。

步骤4：选用特定的多目标演化算法进行优化。在本实验中，分别使用NSGA-II，NSGA-III和MOEA/D来验证实验效果，其中前两个算法是基于帕累托支配的方式进行种群的迭代，第三个是基于分解的方式将多目标优化问题转换为多个单目标优化问题分别求解再合并。

步骤4.1：选择、交叉和变异。从原始种群中使用二元锦标赛选择父代解，交叉和变异算子分别使用均匀交叉(Uniformcrossover)和逐位变异(Bit-wise mutation)，交叉概率p_c＝0.9，变异概率p_m＝1，其中每一位以1/n的概率翻转，n为特征总数。

步骤4.2：适应度评估。通过在每个个体对应的特征子集上训练的包裹式分类器(CART决策树，逻辑回归LR，随机森林RF)在验证集上的性能，根据技术方案(一)中定义的解的支配关系来判断解的优劣。包含三个目标函数的评估，特征子集大小，模型分类准确率及异常检测率。

步骤4.3：生存选择。以NSGA-II为例，通过快速非支配排序和拥挤距离从100个父代个体和100个子代个体中挑选出100个个体组成新一代种群。

步骤4.4：判断终止条件。如果未达到设定的终止条件(固定迭代轮数为500)，则重复步骤4.1-4.3，否则返回最终得到的非支配解集。

步骤5：本发明使用多目标演化算法，因此会得到多个非支配的特征子集，实验过程中对于所有解都进行评估。具体来说，在算法返回的多个特征子集上分别使用CART决策树，逻辑回归LR以及随机森林RF算法来训练分类模型，从而构建出入侵检测系统，将待检测的网络数据输入入侵检测系统，完成对于异常攻击的检测。

在测试集上对构建的网络入侵检测系统的性能进行评估，得到的结果如下表1和表2所示，表中展示了各个方法在测试集上准确率(Accuracy)最高的解，并重复十次取平均的结果，每一列最优的结果用加粗表示。此处我们的方法记为NSGA-II-3objs，代表选用NSGA-II作为具体的多目标演化算法实现，对比方法中NSGA-II-2objs代表使用NSGA-II优化特征数量和准确率两个目标的结果，GA代表使用遗传算法优化准确率的结果。其它非演化类算法包括顺序前向搜索(SFS)，递归特征消除(RFE)及主成分分析(PCA)。评估指标有特征数量(Size)，准确率(Accuracy)和检测率(DR)。图3-5是在数据集NSL-KDD上各算法的比较结果，CART决策树被用作分类器。为方便比较，所有解被映射到三个二维目标空间中，三个目标分别是特征减少率，准确率和检测率，越大代表解越好，其中，使用了多目标演化算法的方法在各个投影面上均包含多个解(五角星和方块)。从图和表所展示的结果来看，本发明提出的方法(NSGA-II-3objs)构建的入侵检测系统在各个目标的整体性能上能达到相比已有方法更优的结果。

显然，本领域的技术人员应该明白，上述的本发明实施例的用于构建网络入侵检测系统的多目标演化特征选择方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

表1 NSL-KDD数据集上本发明提出的方法NSGA-II-3objs与其它特征选择方法的比较

表2 UNSW-NB15数据集上本发明提出的方法NSGA-II-3objs与其它特征选择方法的比较

Claims

1.一种用于构建网络入侵检测系统的多目标演化特征选择方法，其特征在于，将网络入侵检测中的特征选择问题建模成一个三目标优化问题，即最小化特征数量，最大化分类准确率以及最大化对异常攻击的检测率，并使用多目标演化算法来求解三目标优化问题；三目标优化问题，如下：

其中，用长度为n的0-1串x∈{0,1}ⁿ表示所选择的特定特征子集，其中1代表对应位的特征被选择，0代表对应位特征不被选择；第一个目标-Size(x)是特征子集大小的相反数，第二个目标Accuracy(x)是在相应特征子集上训练的包裹式分类器的准确率，第三个目标DR(x)是在相应特征子集上训练的包裹式分类器对异常的检测率；

引入在多目标优化中对解的支配关系的定义：对于两个解x和x’，如果，

(2)存在某一个目标函数，x在该目标函数上的值大于x′在该目标上的值；

则称解x支配解x′；

采用的多目标演化为NSGA-II，特征选择方法包含以下步骤：

步骤1：给定原始网络入侵数据集D，数据集D中每条记录是一个网络事件，包含多种描述网络链接的特征，记特征总数为L；每一条记录都存在标签记录其属于正常或攻击；对原始网络入侵数据集D进行预处理；

步骤2：将原始网络入侵数据集D划分为训练集D_train、验证集D_val和测试集D_test，每个划分中样本包含的特征同原始数据集一致；

步骤3：特征选择；从描述网络事件的记录的多种特征中挑选出部分特征组成特征子集，实现步骤如下：

步骤3.1：种群初始化；演化算法使用0-1串来表示解，每个解代表一个特定的特征子集，其中0-1串的长度等于特征总数L，0代表对应位的特征不选，1代表对应位的特征被选取；初始化过程即为0-1串的生成过程，初始种群大小为N；

步骤3.2：选择、交叉和变异；从大小为N的父代种群中使用二元锦标赛选择挑出两个父代个体，对两个父代个体进行均匀交叉和逐位变异生成两个子代个体；此过程重复进行，直到生成N个子代个体；此时每个子代个体以0-1串的形式代表一个特定的特征子集；

步骤3.3：适应度评估；通过在每个个体对应的特征子集上训练包裹式分类器的评估，来判断解的优劣；训练集D_train被用于分类器的训练，验证集D_val被用于分类器的评估，包含三个目标函数的评估：特征子集大小，模型在验证集D_val上的分类准确率及异常检测率；

步骤3.4：生存选择；根据步骤3.3中适应度评估的结果，通过快速非支配排序和拥挤距离从N个父代个体和N个子代个体中挑选出N个个体组成新一代种群；

步骤3.5：判断终止条件；如果未达到多目标演化算法设定的终止条件，则重复步骤3.2-3.4，否则返回最后一代种群中的非支配解集；

步骤4：在实际应用时，根据应用场景需要，从得到的非支配解集中选择一个特征子集用于入侵检测系统的构建。

2.根据权利要求1所述的用于构建网络入侵检测系统的多目标演化特征选择方法，其特征在于，根据选择的特征子集，使用CART决策树，逻辑回归或随机森林算法在训练集D_train上训练分类模型，从而构建出入侵检测系统；最终，在测试集D_test上对入侵检测系统进行评估，得到最终构建的入侵检测系统的性能。

3.根据权利要求1所述的用于构建网络入侵检测系统的多目标演化特征选择方法，其特征在于，多目标演化算法NSGA-II可替换为NSGA-III或MOEA/D的多目标演化算法。

4.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-3中任一项所述的用于构建网络入侵检测系统的多目标演化特征选择方法。

5.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-3中任一项所述的用于构建网络入侵检测系统的多目标演化特征选择方法的计算机程序。