CN116055175A

CN116055175A - 联合对称不确定性和超参数优化神经网络的入侵检测方法

Info

Publication number: CN116055175A
Application number: CN202310040830.6A
Authority: CN
Inventors: 王倩; 姜海阳; 刘韩; 王学航; 任家东; 张炳
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-05-02

Abstract

本发明公开了一种基于联合对称不确定性和超参数优化神经网络的入侵检测方法，属于网络安全、入侵检测技术领域，首先对于非数值特征进行独热编码，转换为数值特征，并对数值做归一化处理；基于对称不确定性和松散条件下的马尔可夫毯，使用联合对称不确定性进行特征选择，获得最优特征子集，降低了原始数据的维度；基于CNN和LSTM构建CNN‑LSTM融合神经网络分类模型，并使用改进后的PSO算法对模型的超参数进行自动优化，提高算法的泛化能力。本发明具有更好的特征选择性能，同时也具有更好的入侵检测流量分类性能。从而在准确率、精确率、召回率等多维评价指标中表现出较好性能。

Description

联合对称不确定性和超参数优化神经网络的入侵检测方法

技术领域

本发明属于网络安全、入侵检测技术领域，特别涉及一种网络流量异常检测方法，即联合对称不确定性和超参数优化神经网络的入侵检测方法。

背景技术

在入侵检测数据的高维特征中包含大量的无关特征和冗余特征。无关特征的学习容易导致模型过拟合，冗余特征会增加分类模型的学习代价。利用特征选择技术根据评价准则选择最小的特征子集，可以减少对原始数据的训练时间并提高分类模型的性能。特征的相关性可以分为特征-类别相关性(C-相关性)和特征-特征相关性(F-相关性)。Kira等人在The Feature Selection Problem:Traditional Methods and a New Algorithm文章中提出的Relief算法，通过随机采样来测量C-相关性，但是忽略了F-相关性，也就导致了在选取的特征子集中仍然存在着冗余特征。Zhang等人在Feature Subset Selection withCumulate Conditional Mutual Information Minimization文章中提出了累计条件互信息最小化准则方法，以找到与原始子集等价的子集并删除冗余特征，但该方法的评估条件过于严格，会去除掉与类别标签有强相关性的特征。Peng等人在Feature Selection basedon Mutual Information Criteria of Max-Dependency,Max-Relevance,and Min-Redundancy文章中提出一种基于信息论的最大相关最小冗余特征选择算法，同时考虑了C-相关性和F-相关性，但该方法需要人为设定选取的特征数量，可能会过多删除强相关特征或者过多保留冗余特征。

传统机器学习算法有着容易过拟合，分类准确率较低的问题，因而，深度学习在入侵检测领域得到了广泛的应用。Gao等人在Research on Network Intrusion Detectionbased on Incremental Extreme Learning Machine and Adaptive PrincipalComponent Analysis文章中提出增量神经网络模I-ELM，相比于传统机器学习模型具有较快的检测效率，但是其误报率较高，这是由于神经网络模型的浅层架构，使得模型对于网络数据特征的抽象能力以及学习能力较差，而入侵检测模型的应用场景往往是海量的高维数据。常见的深度学习算法如CNN，LSTM等则具有深层神经网络架构，因此，具有更强的学习能力。Kim等人在CNN-based Network Intrusion Detection Against Denial-of-ServiceAttacks文章中提出基于CNN的入侵检测算法，但是整体模型较为关注Dos攻击的识别，对于其他样本较少的攻击类别的识别性能较差；Clausen等人在Better Anomaly Detectionfor Access Attacks Using Deep Bidirectional LSTMs文章中采用双向LSTM算法，有效地学习网络流中的短期序列模式作为条件事件概率，以识别网络的时序关联性异常。

深度学习模型在入侵检测分析中具有一定的优势，其中涉及超参数的设置问题，超参数的优化能够提高模型的性能，也是产生优秀的性能结果的基本因素。Bekri等人在文章PSO Based Intrusion Detection:A Pre-Implementation Discussion中使用粒子群优化算法进行自动超参数优化，相对于手动调整，其参数优化所耗费的时间以及优化后模型的性能都得到了一定程度的提升；Torres等人在文章Random Hyper-parameter Search-Based Deep Neural Network for Power Consumption Forecasting中使用随机搜索超参数优化算法对人工网络模型进行超参数优化，揭示了随机搜索技术用于神经网络模型可以减少模型的错误概率并且减少模型的运行时间，能够提高超参数调整的速度。

目前入侵检测领域特征选择算法存在现有特征选择方法或者没有兼顾特征间的冗余性和特征类别间的相关性，或者没有考虑特征的组合效应，或者因为人为设定特征数量或评估条件过于严格，导致无法得到最优特征子集；单独的深度学习算法在海量高维数据的场景下优于传统机器学习算法和浅层神经网络，但仍然存在着对数据特征学习能力的局限性，进而导致分类性能较差；深度学习模型超参数的手动调整存在着耗费时间以及可能错过全局最优点的问题，导致深度学习模型分类效果和算法可移植性差的特点。

发明内容

本发明针对入侵检测，提出了联合对称不确定性和超参数优化神经网络的入侵检测方法。该方法基于联合对称不确定性进行特征选择，并采用改进的粒子群优化算法(PSO)优化卷积神经网络-记忆神经网络(CNN-LSTM)分类模型对网络流量进行分类。

为解决上述技术问题，本发明所采用的技术方案是：

研究对称不确定性用于计算特征与类别之间的相关性，以及松散条件下的近似马尔科夫毯用于计算特征与特征之间的冗余关系，将对称不确定性与松散条件下的近似马尔科夫毯联合，特别关注特征之间的组合效应，将组合特征集与类别的相关性作为最优特征子集选择的依据；

单独的深度神经网络模型不能兼顾局部特征和长时间依赖特征，往往不能全面地对特征进行学习。研究基于卷积神经网络和循环神经网络融合的入侵检测模型，其中，卷积神经网络通过卷积层提取局部特征，循环神经网络通过门函数控制历史数据的记忆和遗忘来提取时序特征；

研究基于粒子群的自动化超参数寻优方法，针对粒子群早熟收敛而陷入局部最优等问题，通过自适应动态惯性权重调整粒子个体认知的局部寻优能力和社会群体交流的全局寻优能力，确保粒子群收敛在最优的位置上以得到最优超参数。

一种联合对称不确定性和超参数优化神经网络的入侵检测方法，包括以下步骤：

S1、数据预处理，对于非数值特征进行独热编码，转换为数值特征，并对数值做归一化处理；

S2、特征选择，利用对称不确定性用于计算特征与类别之间的相关性，利用松散条件下的近似马尔科夫毯用于计算特征与特征之间的冗余关系，将对称不确定性与松散条件下的近似马尔科夫毯联合，形成联合不确定性的特征选择方法，选择最优特征子集；

S3、采用卷积神经网络和记忆神经网络构建CNN-LSTM分类模型，利用CNN学习数据的空间特征，利用LSTM学习数据的时间特征；

S4、使用改进后的PSO算法对CNN-LSTM模型中卷积核大小filter、隐藏神经元个数units、学习率learning rate和池化层参数dropout进行自动超参数优化，最终确定优化后的CNN-LSTM模型；

S5、算法评估，在KDD99、UNSW-NB15数据集上对提出的算法的入侵检测性能进行验证，从准确率、精确率、召回率、F1分数、马修斯相关系数和卡帕相关系数多个评价指标上与其他算法进行对比，证明了算法的优越性，也证明了算法在不同数据集上超参数优化的有效性。

本发明技术方案的进一步改进在于：步骤S1中对于非数值特征进行独热编码，最大最小归一化方法的公式如下：

本发明技术方案的进一步改进在于：步骤S2中，松散条件下的近似马尔可夫毯的公式如下：

SU(x_i,x_j)-SU(x_j,C)≥δ

其中，x_i和x_j表示特征，C表示类别标签，δ为松散因子，取值范围是[0,1]；

基于松散条件下的近似马尔可夫毯用于冗余特征的聚类，如果特征x_i存在马尔科夫毯MB_i，那么，特征x_i和MB_i将被归为同一个簇中，如果不存在，那么就添加一个仅包含x_i的新簇，不需要事先指定簇的个数，在完成聚类后，根据SU(x_i,C)的值对每个簇中的特征进行排序，簇内排名第一的特征称为占优特征，然后使用每个簇的占优特征对簇进行排序。

本发明技术方案的进一步改进在于：所述联合不确定性的特征选择方法为在遵循簇排序、簇内特征排序的前提下，充分考虑特征之间组合而形成的联合效应，

特征X和特征Y联合后与类别标签C的联合互信息的定义如下所示：

I(X,Y；C)＝H(X,Y)+H(C)-H((X,Y),C)

其中H(X,Y)，H((X,Y),C)定义如下：

H(X,Y)＝-∑_j∑_iP(x_i,y_j)log₂P(x_i,y_j)

H(C)定义如下：

H(X)＝-∑_iP(x_i)log₂P(x_i)

使用对称不确定性对上述联合互信息进行标准化，可以得到特征X和特征Y联合后与类别标签C的联合不确定性SU(X,Y；C)，如下所示：

其中，P(x_i)表示变量X＝x_i的概率，随机变量Y＝{y₁,y₂,…,y_j}，P(x_i,y_j)是X和Y的联合概率，H(X,Y)为两个随机变量X和Y的联合熵。

本发明技术方案的进一步改进在于：基于联合不确定性进行特征选择的过程如下：

步骤一，选择排名第一的簇中的占优特征初始化最优特征子集并丢弃其所在簇中的其他特征；

步骤二，按簇的排名顺序和簇内特征排序，从簇中的占优特征开始，计算占优特征与最优特征子集中的每个特征的联合不确定性值并进行求和，直到遍历所有簇中特征，取联合不确定性值加和最大的特征，加入到最优特征子集中；

步骤三：重复步骤二，直至遍历所有的簇，最终得到最优特征子集。

本发明技术方案的进一步改进在于：步骤S4中改进PSO算法具体方法如下：

在粒子群算法的速度更新方程中引入采用余弦函数动态调整的惯性权重ω_iter，用以控制历史速度对粒子的当前移动速度的影响程度，对速度公式进行如下改进：

其中，iter表示当前迭代次数，iter_max表示最大迭代次数，本算法中惯性权重ω_iter取值范围为[0.1,1.1]，因此，取ω_min＝0.1，ω_max＝1.1；

对c₁和c₂的计算方法进行改进，如下所示：

其中，c_1,start、c_1,end和c_2,start、c_2,end的取值范围为[0.5,2.5]，在初始化时，为了使得迭代初期的发散性较强以及迭代后期的收敛性较强，设置c_1,start＝2.5，c_1,end＝0.5，c_2,start＝0.5，c_2,end＝0.5。

本发明技术方案的进一步改进在于：步骤S4中优化CNN-LSTM分类模型如下：

采用改进后的PSO算法寻找CNN-LSTM模型的最优参数，包括模型整体的learning-rate和dropout，以及CNN中的filter和LSTM中的units，共四个超参数进行寻优，进而改进CNN-LSTM模型的分类性能。

在改进PSO算法中，通过最小化Loss的值找到最优的超参数组合，Loss的计算方法如下所示：

Loss＝1-Accuracy

其中，Accuracy表示模型分类的准确率。

本发明技术方案的进一步改进在于：步骤S4中算法评估：

首先，在KDD99数据集上，验证联合不确定性特征选择方法、改进的PSO算法及CNN-LSTM分类模型的有效性，主要包括同类特征选择方法的对比，改进PSO算法与未改进PSO算法的对比，CNN-LSTM分类模型与其他分类模型的对比，以及算法的消融实验对比；

其次，验证算法的整体性能，包括算法与其他同类算法在各指标上的对比；

最后，将算法应用于UNSW-NB15数据集，以证明算法可以根据数据的不同进行超参数优化的有效性。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明是基于松散条件下的马尔可夫毯条件，使用联合对称不确定性进行特征选择，基于卷积神经网络(CNN)和记忆神经网络(LSTM)构建CNN-LSTM融合神经网络分类模型，并使用改进后的PSO算法对模型的超参数进行自动优化。首先基于松散条件的马尔可夫毯条件，能够避免丢掉与类别特征强相关的特征，进而使用联合对称不确定性特征选择算法能够获得最优特征子集，降低了原始数据的维度；其次基于CNN空间特征提取的能力和LSTM提取时间特征的能力，构建融合神经网络，提取网络流量数据的时空特征并进行学习；最后使用改进PSO算法优化深度学习模型的超参数，提高算法的泛化能力。与上述的其他发明相比，本发明具有更好的特征选择性能，同时也具有更好的入侵检测流量分类性能。从而在准确率、精确率、召回率等多维评价指标中表现出较好性能。

本发明充分考虑了特征与类别标签的相关性、特征与特征之间的相关性以及特征组合与类别标签的相关性，在降低原始数据维度的同时，获得分类性能最优的特征子集。

本发明将融合神经网络应用于入侵检测领域，充分利用卷积神经网络提取网络流量数据空间特征能力、记忆神经网络(LSTM)提取网络流量数据时间特征能力，获得较好的分类器，在准确率、精确率、召回率、F1分数、马修斯相关系数(MCC)、卡帕相关系数(Kappa)等多维评价指标中表现出较好性能。

本发明使用改进后粒子群优化算法(PSO)对深度学习模型中超参数进行自动优化。避免了手动调整的耗时并且超参数仅适用于当前数据集的问题，使得分类模型针对不同数据集具有泛化能力和可移植性。

附图说明

图1是本发明算法流程图；

图2是CNN网络结构图；

图3是LSTM结构图；

图4是超参数优化图；

图5是KDD99数据集分类结果的混淆矩阵；

图6是UNSW-15B数据集分类结果的混淆矩阵。

具体实施方式

下面结合实施例对本发明做进一步详细说明：

本发明针对入侵检测，主要分为5个部分：数据预处理、特征选择、时空特征融合神经网络、超参数优化和算法评估。详细算法框架及流程图如图1所示：

1.数据预处理

在数据预处理阶段，对于非数值特征进行独热编码，如KDD99数据集中的三个字符型特征‘protoco_type’,’service’,’flag’；对数据的分布使用最大最小归一化方法，避免不同特征的数据范围对特征选择以及分类效果的影响。最大最小归一化方法公式如下：

X_max和X_min分别是特征X的最大值和最小值。

2.特征选择

2.1对称不确定性

在信息熵理论中，用熵来描述随机变量不确定性的大小，即随机变量X＝{x₁,x₂,…,x_i}的信息熵为H(X)，公式如下所示：

H(X)＝-∑_iP(x_i)log₂P(x_i) (2)

其中，P(x_i)表示变量X＝x_i的概率。

随机变量Y＝{y₁,y₂...,y_j}，两个随机变量X和Y的联合熵为H(X,Y)，公式如下所示：

H(X,Y)＝-∑_j∑_iP(x_i,y_j)log₂P(x_i,y_j) (3)

其中，P(x_i,y_j)是X和Y的联合概率。在给定的随机变量Y下随机变量X的条熵为H(X∣Y)，公式如下所示：

H(X∣Y)＝-∑_jP(y_j)∑_iP(x_i∣y_j)log₂P(x_i∣y_j) (4)

其中，P(x_i∣y_j)表示在变量Y＝y_j条件下变量X＝x_i的后验概率。

信息增益可以用来描述一个特征带来的信息量的多少，公式如下所示：

IG(X|Y)＝H(X)-H(X|Y) (5)

这里X和Y是两个随机变量，信息增益值IG(X|Y)越大，信息不确定性减少的程度就越大，那么这两个随机变量之间的相关性就越强。但是这样计算两个随机变量之间的相关性会受到这两个随机变量的单位和值的影响，需要进一步同质化。为了消除这些影响，可以使用规范化的信息增益，即对称不确定性SU(X,Y)，公式如下所示：

SU是一种基于信息熵定义的非线性相关信息度量。SU(X,Y)的取值范围为[0,1]。SU(X,Y)的值大小与X和Y之间的相关性呈正相关，当SU(X,Y)为1时表示X和Y为两个完全相关的变量，SU(X,Y)为0时表示X和Y相互独立。

对称不确定性用来确定特征和类别之间的相关性，也就是C-关系，SU的值越大，表示当前特征与类别C的相关性越强。

2.2松散条件下的马尔可夫毯

特征x_i是特征x_j的近似马尔可夫毯，其中，i≠j，当且仅当下列两个条件成立。

SU(x_i,C)＞SU(x_j,C) 条件(1)

SU(x_i,x_j)≥SU(x_j,C) 条件(2)

其中，x_i和x_j表示特征，C表示类别标签。

这里条件(1)意味着特征x_i比特征x_j包含更多的类标签信息，条件(2)意味着特征x_i和特征x_j之间有较强的相关性。如果特征x_i为特征x_j的近似马尔可夫毯，特征x_j被判断为冗余特征。

但是，近似马尔科夫毯思想的判断冗余条件比较严格，经过近似马尔科夫毯判定为冗余的特征中，可能存在与类别标签强相关的特征。因此，本申请提出了松散条件下的近似马尔可夫毯，以尽可能多地保留与类别标签强相关的特征，对条件(2)进行改进，如条件(3)所示。

SU(x_i,x_j)-SU(x_j,C)≥δ 条件(3)

其中，δ为松散因子，取值范围是[0,1]。

基于松散条件下的近似马尔可夫毯用于冗余特征的聚类，如果特征x_i存在马尔科夫毯MB_i，那么，特征x_i和MB_i将被归为同一个簇中，如果不存在，那么就添加一个仅包含x_i的新簇，这样聚类方法的优点在于不需要事先指定簇的个数。在完成聚类后，根据SU(x_i,C)的值对每个簇中的特征进行排序，簇内排名第一的特征称为占优特征，然后使用每个簇的占优特征对簇进行排序。

2.3联合对称不确定性

如果在聚类后，从每个簇中直接选出各个簇中的占优特征组成特征子集，虽然保证了从每个簇中选出的特征与类别标签的关联性最大，但却忽略了特征之间的联合效应，而这种联合效应与分类标签的关联性是决定分类性能的关键因素，某些占优特征的贡献可能不如非占优特征。因此，本申请提出了联合对称不确定性的特征选择方法，即在遵循簇排序、簇内特征排序的前提下，充分考虑特征之间组合而形成的联合效应。

互信息是两个随机变量间的相互依赖性度量，用I(X；Y)表示。公式如下：

I(X；Y)＝H(X,Y)-H(X|Y)-H(Y|X) (7)

其中，H(X,Y)如公式(3)所示，H(X|Y)、H(Y|X)如公式(4)所示

联合互信息可以用来度量两个随机变量联合之后与第三个随机变量的相互依赖性，可以用于度量两个特征联合之后与类别标签之间的相关性。特征X和特征Y联合后与类别标签C的联合互信息的定义公式如下所示：

I(X,Y；C)＝H(X,Y)+H(C)-H((X,Y),C) (8)

其中H(X,Y)，H((X,Y),C)如公式(3)所示，H(C)如公式(2)所示。

使用对称不确定性对上述联合互信息进行标准化，可以得到特征X和特征Y联合后与类别标签C的联合不确定性SU(X,Y；C)，公式如下所示：

基于联合不确定性进行特征选择的过程如下：

3.时空融合神经网络

3.1 CNN

卷积神经网络是深度学习的代表算法之一，它由3部分组成：输入层、隐藏层和输出层，其中隐藏层又包含卷积层、池化层、全连接层。其网络结构如图2所示。

卷积层通过控制卷积核的大小提取样本的局部特征，并且在后续的全连接层对卷积层提取到的局部特征进行整合，因此，CNN可以获取输入数据的空间特征，本申请中使用Relu作为其激活函数。池化层是CNN中下采样的过程，主要是为了减少特征维度，加速网络收敛，能够在一定程度上防止网络过拟合。本申请在池化层采用最大池化的方式。全连接层是指每个节点都与上一层的所有节点相连，合成上一层提取的特征，通过全连接层对全局的局部特征进行整合，形成整体特征。

3.2LSTM

长短期记忆LSTM是循环神经网络的变形，它由1个记忆单元和3个门控单元组合而成。通过引入记忆单元和门机制，有效克服了循环神经网络在训练过程中出现的梯度消失和梯度爆炸问题。并且LSTM基于记忆单元和门机制，可以处理具有时间序列特征的问题，能够较好地联系上下文，进而获取时间特征。其网络模型结构如图3所示。计算如公式(10-15)所示：

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)(10)

i_t＝σ(w_xix_t+w_hih_t-1+b_i)(11)

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)(14)

h_t＝o_t·tanh(c_t)(15)

其中，在t时刻，c_t为记忆单元，f_t为遗忘门，i_t为输入门，o_t为输出门，x_t表示输入数据，h_t表示隐藏层。w和b分别表示权重与偏置。σ表示Sigmoid激活函数。

3.3CNN-LSTM分类器

网络流量数据具有随机性、非线性、分布不均匀和长时间内表现出周期性等明显特征。其中包含着空间特征，比如IP地址，端口号等信息，同时网络流量之间的先后顺序又包含着时间信息，因此，网络流量数据之间存在着上下文的时序关联。这些时间和空间特征在入侵检测系统中起着至关重要的作用。CNN通过卷积层提取局部特征，然后在更高层将局部特征综合起来获得全局特征，因此，具有提取数据的空间特征的能力，但CNN缺乏对网络流量中时间关联的提取分析。而网络攻击事件在时间上有很强的关联性，LSTM通过门函数控制历史数据的记忆和遗忘，具有提取数据的时间特征的能力。因此，本申请提出CNN-LSTM的融合神经网络用于时空特征的学习，从而达到更好的入侵检测分类效果。

4.超参数优化

深度学习模型具有较好的分类性能，但很大程度上取决于超参数的设置。超参数的设置对于模型的性能有着直接的影响，超参数选择不恰当可能会导致模型的效果不佳或者是出现过拟合问题。本申请采用的CNN-LSTM分类模型就包含了很多超参数的设置，例如学习率(learning rate)、池化层参数(dropout)、卷积核大小(filter)、隐藏层神经元个数(units)等。大部分已有算法都是通过多次实验人工地选择效果最好的超参数值，但是这样的方式耗费大量时间且难以实现最优超参数的选择。同时，参数的设置需要根据数据集改变，在不同数据集上要重复调参的工作。超参数优化过程如图4所示。

4.1基本PSO算法

粒子群优化算法(Particle Swarm Optimization，PSO)是一种启发式算法，优点是，在稀疏数据的情况下，也能够通过群体中粒子之间的信息交互来寻找最优解。粒子在迭代前期会快速收敛至个体极值点附近，在算法迭代后期，各个粒子会进行更细粒度的寻优，以找到全局最优解。

粒子群算法的原理如下：在一个d维搜索空间中，存在N个粒子组成的群体，每个粒子都按照一定的速度在飞行。对于粒子群中的第i个粒子而言，t时刻它在空间中的位置是

速度是

所有粒子的位置和速度均有限制：X_min≤X_i≤X_max,V_min≤V_i≤V_max)，X_max和X_min为粒子位置上下限，V_max和V_min为粒子速度上下限。粒子i在t时刻中经过的最优位置称为个体最优位置，记作

所有粒子的

中的最优位置就成为了全局最优位置，记作gbest_d。在找到个体最优位置和全局最优位置后，粒子根据公式(16)和(17)进行寻优。

其中，

代表i粒子t时刻在第d维空间中的速度；

代表i粒子t时刻时在第d维空间中的坐标。c₁代表认知因子，c₂代表社交因子，二者统称为加速常数，分别用于调整粒子的个体经验和社会经验在飞行中的作用，表示将每个粒子趋向

和gbest_d位置的加速能力的权重。c₁设置过小会导致粒子缺乏自我学习能力，信息交换过程中很容易陷入局部最优；c₂设置过小会导致粒子间失去社交分享的能力，PSO会变成多个初值点的随机搜索，无法收敛。通常c₁和c₂取值范围为[0,4]，一般取c₁＝c₂＝2。r₁和r₂是[0,1]之间的随机数，用来给搜索过程添加随机性，可以帮助算法尽快收敛。

粒子群优化算法的具体步骤如下：

步骤一：初始化PSO的参数，包括：种群大小(N)、空间维度(d)、随机化的粒子的初始位置

和速度

最大迭代次数Max(循环结束条件)，加速常数c₁和c₂。

步骤二：将粒子的位置和速度信息带入适应度函数，得到适应度值作为

并计算

步骤三：更新粒子的速度和位置，要遵守边界限制的原则：当V_i＞V_max时，取V_max，V_i＜V_min时，取V_min；当X_i＞X_max时，取X_max，X_i＜X_min时，取X_min。

步骤四：更新

和

将粒子带入适应度函数求出适应度值，与粒子i的个体最优值

比较，如果适应度值优于

则更新，否则不更新。再比较

和gbest_d，如果

优于gbest_d，则更新gbest_d。

步骤五：判断是否满足收敛精度或者迭代次数达到Max，不满足条件则回到步骤二继续进行下一次迭代；满足条件则完成迭代并输出当前的gbest_d。

4.2改进PSO算法

基本PSO算法中所有粒子都使用相同的学习策略来更新粒子位置，局部粒子偏离最优解会造成整个粒子群早熟收敛，陷入局部最优。为了解决基本PSO算法中收敛早熟的问题，本申请引入一种自适应的粒子群优化算法，通过动态惯性权重调整粒子局部寻优和全局寻优能力，确保粒子群收敛在合适的位置上。首先，在粒子群算法的速度更新方程中引入了采用余弦函数动态调整的惯性权重ω_iter，用以控制历史速度对粒子的当前移动速度的影响程度。ω_iter能使粒子保持飞行惯性，拥有拓展搜索空间的趋势，是平衡算法个体和全局搜索能力的重要参数。因此，对速度公式进行如下改进。

其中，iter表示当前迭代次数，iter_max表示最大迭代次数，本算法中惯性权重ω_iter取值范围为[0.1,1.1]，因此，取ω_min＝0.1，ω_max＝1.1。

由上式可以发现，粒子到达个体最优附近时，主要由第一项来决定速度更新。较大的ω_iter可以增强PSO的全局搜索能力，较小的ω_iter则能增强PSO的局部搜索能力^[46]。本申请的动态惯性权重可以保证在迭代前期有较好的全局优化能力，而在迭代后期可以更好地对最优位置进行精细化搜索。

同时，在PSO算法中，学习因子c₁和c₂分别代表了自我因子和社会因子，c₁用于对自身所处的最优情况的学习，c₂用于向全局最优情况的学习。在寻优初期，应该更加关注个体的认知，而随着迭代次数的增加，应该更加注重个体获取社会信息的能力，因此，本申请对c₁和c₂的计算方法进行改进，如公式(20)和公式(21)所示。

其中c_1,start、c_1,end和c_2,start、c_2,end的取值范围为[0.5,2.5]，在初始化时，为了使得迭代初期的发散性较强以及迭代后期的收敛性较强，设置c_1,start＝2.5，c_1,end＝0.5，c_2,start＝0.5，c_2,end＝2.5。

这样更新学习因子，就可以使得在算法迭代初期，有较大的c₁和较小的c₂，使粒子种群尽量发散到搜索空间，即强调个体意识，较少受到种群中其他粒子的影响；在算法迭代后期，有较大的c₂和较小的c₁，加强了后期粒子向全局最优点的收敛能力。

4.3优化CNN-LSTM分类模型

在改进PSO算法中，通过最小化Loss的值找到最优的超参数组合。Loss的计算方法如公式(22)所示。

Loss＝1-Accuracy(22)

其中，Accuracy表示模型分类的准确率。

5.算法评估

为了验证本申请提出算法的有效性。首先，在KDD99数据集上，验证本申请提出的联合不确定性特征选择方法、改进的PSO算法及CNN-LSTM分类模型的有效性，主要包括同类特征选择方法的对比，改进PSO算法与未改进PSO算法的对比，CNN-LSTM分类模型与其他分类模型的对比，及算法的消融实验对比。进而，验证算法的整体性能，包括算法与其他同类算法在各指标上的对比。最后，将算法应用于UNSW-NB15数据集，由于数据集的属性和分类标签等均不相同，UNSW-NB15数据集上本申请提出算法的优越性可以证明本申请提出的算法在利用改进PSO优化算法参数时使算法具有很好的泛化能力和可移植性。

实施例1

本申请实验环境为64位Windows12操作系统，英特尔i7处理器，8GB内存计算机。该实验使用了Python机器学习库Scikit learn。

本申请采用入侵检测领域中常用的公开数据集KDD99和UNSW-NB15，KDD99数据集包含5个类别和41个特征。5个类别中包含4个攻击类型和1个正常类，攻击类型分别为DoS(Denial of Service)，R2U(Remote to User)，U2R(User to Root)和Probing，正常类型为Normal。具体的类别样本数量分布及特征名称如表1和表2所示。UNSW-NB15数据集包括10个类别和49个特征。10个攻击类包括9个攻击类和1个正常类，攻击类型分别为Fuzzers，Analysis，Backdoors，DoS，Exploits，Generic，Reconnaissance，Shellcode和Worms，分布如表3所示。

表1 KDD99数据集的类别样本分布

ID	Class	Size	Distribution(％)
				1	Normal	157,871	19.61
2	Probe	8,273	1.02
				3	DoS	621,311	77.17
4	U2R	280	0.03
				5	R2L	17,315	2.15
Totals		805,050	100

表2 KDD99的41个特征名称

表3 UNSW-NB15数据集的类别样本分布

ID	Class	Size	Distribution(％)
				1	Normal	56,000	31.94
2	Generic	40,000	22.81
				3	Exploits	33,393	19.04
4	Fuzzers	18,184	10.37
				5	DoS	12,264	6.99
6	Reconnaissance	10,491	5.98
				7	Analysis	2,000	1.14
8	Backdoor	1,746	1
				9	Shellcode	1,133	0.65
10	Worms	130	0.07
				Totals		175,341	100

数据预处理

在数据预处理阶段，对于非数值特征进行独热编码，如KDD99数据集中的三个字符型特征‘protoco_type’,’service’,’flag’；对数据使用最大最小归一化方法进行，避免不同特征的数据范围对特征选择以及分类效果的影响。最大最小归一化方法如公式(1)所示。

评价指标

本申请采用基于混淆矩阵的评价指标来验证提出算法的有效性，包括准确率(Accuracy)，精确率(Precision Rate,PR)，召回率(Recall)，F1值(F1-measure)，误报率(False Positive Rate,FPR)，漏报率(False Negative Rate,FNR)，马修斯相关系数(MCC)和卡帕系数(Kappa)，其中MCC和Kappa更侧重于对模型整体分类性能的评价。混淆矩阵如表4所示。各指标的计算如公式(23)-(34)所示。

表4混淆矩阵

其中，TN(True Negative)表示数据正常且预测正常的数据，TP(True Positive)表示数据是攻击类型且预测为攻击类型的数据，FN(False Negative)表示数据是攻击类型但预测为正常的数据，FP(False Positive)表示数据是正常类型但预测为攻击类型的数据。

Obsolute＝Accuracy (31)

准确率，精确率，召回率，F1值，误报率，漏报率，取值均大于0，其中，准确率，精确率，召回率，F1值取值越大越好，误报率和漏报率取值越小越好。马修斯相关系数(MCC)的值位于-1到1之间，取值为1时表示对受试对象的完美预测，取值为0时表示预测的结果还不如随机预测的结果，-1是指预测分类和实际分类完全不一致。Kappa系数取值为-1到1之间，在分类问题中，由于各个类别的样本数量往往不太平衡，在这种不平衡数据集上如不加以调整，模型很容易偏向大类别而放弃小类别，因此，就算整体的Accuracy较高，但是部分少数类的效果却较差，因此，可以使用Kappa系数来惩罚模型的偏向性，使用Kappa系数能更客观的给模型打分。马修斯相关系数(MCC)和Kappa系数的值也是越大越好。

将本申请的算法与同类算法CFS-ANN算法、ELM-PT算法、RGB-GS-CNN算法、Rmsprop-LSTM算法、Conv-LSTM算法，HAST-IDS算法、OCNN-HMLSTM算法在多指标上进行对比。实验结果如表5和表6所示。

表5不同算法在KDD99数据集上的整体性能对比

从表5中可以看出，本申请算法在所有指标上表现均最优，其中，在MCC和Kappa系数两个指标均较大程度优于其他模型，达到了0.9846和0.9786，MCC系数能够说明本申请在类别预测上的优越性，而Kappa系数更能反映出对于不平衡数据集模型的分类性能的优越性。

表6不同算法在UNSW-NB15数据集上的整体性能对比

从表6可以看出，除了PR和F1-measure之外，本申请算法的其他指标均优于对比算法，Accuracy达到了96.69％为最高，FPR相较于其他算法为最低，达到0.37％。PR为96.82％，已经达到了较高的值，相较100％具有较小的可接受的差距。F1-measure为PR和Recall的调和平均值，因此，尽管在Recall值最高的情况下，受PR影响较大，因此，其值也略有下降，较最高值仅差0.432％。此外，本申请算法的MCC和Kappa系数远高于其他分类模型，因此，可以说明本申请算法相对于其他模型有着更优越的分类性能，也说明了本申请算法通过超参数的自动调优具有较好的泛化能力和可移植性。

为了证明本申请算法在小类别上的分类性能，图5展示了本申请算法在各个类别上的混淆矩阵，表7是算法在KDD99数据集各个类别上的指标值。可以看出，Normal类的Accuracy达到了99.6％，Dos和Probe类的Accuracy也达到了99％和96.8％。对于R2L和U2R类，其包含的样本数量较少，在KDD99的训练集中，U2R的样本数量仅为52个，造成了极大的类不平衡性，而类不平衡性是影响分类效果的重要因素之一。在这种情况下，本申请算法依然能保持R2L和U2R分别为0.732和0.714的准确率，说明本申请算法在小类别分类性能上也具有一定的优势。

表7本申请算法在KDD99数据集各个类别上的指标值

图6进一步展示了本申请算法在UNSW-NB15数据集上的分类混淆矩阵。

表8是本申请算法在UNSW-NB15数据集各个类别上的指标值。相比于KDD99数据集来说，UNSW-NB15与KDD99的特征及类别都不相同，但两者均为不平衡数据集。其中，Backdoor、Dos、Generic、Normal和Worms的准确率比较高，均高于98％，并且除了Reconnaisance和Shellcode这两个样本数较少的类别之外，其他类别的分类准确率均在90％以上，展示了较好的分类性能。

表8本申请算法在UNSW-NB15数据集各个类别上的指标值