CN115604025A

CN115604025A - 一种基于pli4da的网络入侵检测方法

Info

Publication number: CN115604025A
Application number: CN202211466784.8A
Authority: CN
Inventors: 邓在辉; 李卓文; 同小军
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-01-13
Anticipated expiration: 2042-11-22
Also published as: CN115604025B

Abstract

本发明涉及一种基于PLI4DA的网络入侵检测方法，包括：定义含有源域正则化和目标自学习分支的目标模型并从预训练源域模型加载参数和权重；获取每条无标签目标域样本经过目标自学习分支的分类预测矩阵并计算每条样本的自熵值；将每类样本对应的最小自熵中的最大值作为阈值，筛选样本特征矩阵并添加到ARSM中；通过ARSM计算每条目标域样本的伪标签；使用基于置信的过滤机制进一步决定是否使用该伪标签；另外为了防止域偏置，目标域模型需计算源域正则损失L _src和自学习损失L _self，共同优化网络后得到最终模型，从而实现网络入侵检测。

Description

一种基于PLI4DA的网络入侵检测方法

技术领域

本发明涉及伪标签迭代域适应(Pseudo Label Iteration for DomainAdaptation, PLI4DA)的网络入侵检测方法，特别涉及基于源域模型和无标注目标域数据的网络入侵检测方法。

背景技术

信息技术给予人们便利的同时亦存在着安全问题，因为互联网的开放、共享等等特性，网络犯罪也随之而来，技术的发展也使得网络犯罪活动日益猖獗。随着移动支付、电子商务、金融行业的发展，网络环境中每天都有大量的用户信息交换，所以建立网络信息安全的入侵检测系统变得越来越重要。

基于规则的网络入侵检测方法，使用网络先验知识，如某些攻击类型的数据包的数据分布，基于此可以创建针对此种类型攻击的规则并添加到网络入侵检测系统中。虽然这种入侵检测系统加入新攻击拦截时操作简单，但对于噪音或不完整数据无法补偿，另外对未知、新型攻击又要制定新的规则，对用户的专业性要求较高，同时降低了检测即时性；基于统计的入侵检测方法，可以处理不太精确的信息，但计算代价太大，如果入侵检测系统位于网络流量大的环境中，则显得力不从心；基于传统机器学习的入侵检测方法，例如随机森林(Random Forest, RF)和聚类(Cluster)等，可以在大量数据上训练，但数据特征的提取和表达能力不足；基于深度学习的入侵检测方法，例如基于卷积神经网络(Convolutional Neural Network, CNN)，自编码器(Auto Encoder, AE)或循环神经网络(Recurrent Neural Network, RNN)等等，对输入的数据进行逐层提取，使得低级线性特征经过深层神经网络的学习变为高级组合特征，从而提高对数据的深层理解能力，虽然基于深度学习的入侵检测方法可以训练出高准确率模型，但大多数情况下更适合检测攻击类型的分布同原有数据相似或相同，而且新型攻击数据往往和原有训练数据的分布不同，亦没有足够标注，为了保持高准确率需要代入已标注新攻击数据重新训练，即基于深度学习的入侵检测方法没有很好地利用模型原有的学习知识。另外，由于入侵检测数据集包含了部分网络环境的敏感信息和知识产权保护条例，不是所有的高校或公司等机构愿意公开他们的数据集。

发明内容

基于深度学习的网络入侵检测方法效果虽好，但极其依赖大量已标注数据，若训练数据不足或新型攻击数据分布与训练数据差异较大则无法达到很高的检测准确率，而重新训练的计算代价太大。针对以上问题，本发明的目的是提出一种基于PLI4DA的网络入侵检测方法，基于PLI4DA的网络入侵检测方法仅需要源域模型和无标注目标域数据，减少对源域数据和已标注目标域数据的依赖。为实现上述目的，本发明采取以下技术方案：一种基于PLI4DA的网络入侵检测方法，包括以下步骤：

步骤1，获取数据集并进行预处理，获取常用、公开的入侵检测数据集，对数据集进行预处理成可以输入神经网络的格式，同时将训练集作为源域数据，测试集作为目标域数据；

步骤2，模拟训练源域模型，使用源域数据训练一个单分支源域模型；

所述源域模型包括多个一维卷积层、池化层、全连接层和分类层；

步骤3，定义新的目标域模型，其中目标域模型在分类层之前的网络结构和源域模型相同，并加载源域模型中已经训练好的权重、参数，目标域模型中定义两个输出单元数均为n的全连接层分支，分别为源域正则化和目标自学习分支；

步骤4，利用目标域模型获取目标域数据伪标签，具体实现方式如下：

步骤4.1，获取每条样本经过目标域模型的分类预测矩阵，依据此矩阵计算每条样本的自熵值；

步骤4.2，找到每类样本对应的最小自熵，然后从分类的自熵中找到最大值作为阈值，选出小于等于该阈值的样本，经过目标域模型的特征提取得到的特征矩阵并添加到按分类对应的字典里，该字典称为适应性可靠样本存储ARSM；

步骤4.3，计算每条无标签目标域样本的相似分数，样本经过特征提取得到特征矩阵，和步骤4.2的字典中每一类包含的全部样本特征矩阵计算相似分数，分数最高对应的类型即为目标域数据的伪标签；

步骤5，目标域模型中神经网络的梯度更新、反向传播，

步骤6，每隔几轮训练次数更新步骤4.2中的字典，以获得更接近真值标签的伪标签；

步骤7，最终得到一个新的目标域模型文件，其中存储了目标域模型中神经网络的权重，加载该目标域模型文件以实现网络入侵检测。

进一步的，步骤1的具体实现包括；

步骤1.1，数据清洗，删除异常值、填补缺失值；

步骤1.2，为了加快神经网络的收敛速度，将数据进行min-max归一化处理，X为某条数据，X _min和X _max分别代表数据的最小和最大值，公式如下：

其中X _N为归一化处理后的数据。

进一步的，步骤2中源域模型的具体结构如下；

步骤2.1，定义5个一维卷积层，分别命名为Conv1, Conv2, Conv3, Conv4,Conv5，卷积核个数分别为32、32、64、32、32，卷积核大小分别为3、5、5、5、5，激活函数均为RELU，其中Conv1,Conv2,Conv3依序相连，而Conv4, Conv5分别连接至Conv2, Conv3；

步骤2.2，定义2两个最大池化层，分别命名为Maxpool1,Maxpool2，激活函数均为RELU，池化大小均为3，步长分别为2、1，分别同卷积层Conv4和Conv5相连；

步骤2.3，定义2个全连接层，分别命名为FC1, FC3，单元数为512和32，激活函数均为RELU，并使用Dropout方法临时停用部分神经元以防止过拟合，Dropout概率为0.5，分别同Maxpool1和Maxpool2相连；

步骤2.4，再定义2个全连接层，命名为FC2, FC4，单元数均为32，激活函数均为RELU，分别同FC1, FC3相连，随后利用拼接函数concat进行特征矩阵拼接；

步骤2.5，定义最终的单分支输出全连接层FC5，单元数为5，激活函数为Softmax，作为最终的分类层。

进一步的，步骤3的具体实现方式如下；

步骤3.1 冻结源域模型的所有层；

步骤3.2 和单分支源域模型不同，目标域模型中定义两个输出单元数均为n的全连接层分支，激活函数均为Softmax，分别为源域正则化和目标自学习分支；

步骤3.3 目标域模型加载源域模型的权重、参数。

进一步的，步骤4.1中自熵值的计算公式如下；

其中H(x _t)为自熵值，l(x _t)为分类预测概率，N _c为分类数量，x _t表示目标域样本。

进一步的，步骤4.2中设C={1,…,N _c}为类集，则阈值为

，c为分类编号，H _c表示第c分类目标域样本的自熵值；存储每类中的可靠样本到集合

，X _c表示第c分类目标域样本集，F _t (x _t)表示目标域样本x _t经过目标域模型特征提取后的特征矩阵，F _t(·)为特征提取函数；作为字典，ARSM中的键为类集C，值为M _c，由此ARSM中添加了C和M _c之间的映射关系。

进一步的，步骤4.3中相似分数的计算公式如下：

其中，S _c为x _t在第c类的相似分数，x _t表示目标域样本，M _c是ARSM的第c类对应的特征矩阵集，p _c为M _c中某个特征矩阵，f _t即为F _t (x _t)。

进一步的，步骤4还包括，计算每个目标域样本的置信分数，基于置信的过滤机制筛选特征矩阵和伪标签，若w(x_t )=1表示f _t和伪标签

是可取的，x _t表示目标域样本；

设单元素集合S={f _t }，f _t为目标域样本经过目标域模型的特征矩阵，S同M _t1的相似度可以用Hausdorff距离定义，公式如下：

M _t1表示第一近类对应的特征矩阵集，第一近类为步骤4.3中得到的相似分数最高对应的类别；

S同M _t2的距离则计算为：

M _t2表示第二近类对应的特征矩阵集，第二近类为步骤4.3中得到相似分数排名第二所对应的类型，其中

为距离度量函数，a，b为变量；

最终的每个目标域样本的置信分数为：

。

进一步的，步骤5的具体实现方式如下；

步骤5.1，为了防止域偏置，无标签目标域数据经过源域模型得到面向源域的伪标签

，D _t为目标域数据，E为每个分类的数学期望，经过目标域模型的源域正则分支也得到一个预测标签，计算两者的源域正则损失L _src，公式如下：

其中，公式中的1为指示函数，当

时，即面向源域的伪标签

为第c类时，该指示函数输出为1，否则为0，

为目标域模型的源域正则化分支输出；

步骤5.2，无标签目标域数据经过目标域模型的预测标签，和步骤4.3得到的伪标签

计算得到自学习损失L _self，公式如下：

其中，公式中的1为指示函数，当

时，即步骤4.3得到的伪标签

为第c类时，该指示函数输出为1，否则为0，C _t为目标域模型的目标自学习分支输出；

因此网络总体优化目标为：

上式中的α表示源域正则化损失和自学习损失的平衡参数，且α∈(0,1)，α越小则说明模型学习更偏向源域，反之更偏向目标域，最后，依据总体损失函数

对目标域模型中神经网络进行梯度更新、反向传播。

本发明由于采取了以上的技术方案，与现有技术相比，其具有以下优势：

（1）与传统的深度学习方法相比，减少了对标签的依赖，避免了手动标注的繁琐；同时本发明还利用了源域数据获取的知识，减少了模型的在目标域上的偏置。另外，本发明引入的计算方法在模型迭代时伪标签更为可靠，因此能够检测出更多攻击流量。

（2）同现有的一些迁移学习方法相比，从源域数据的需求角度来看，本发明在实际运用中无需大量已标注源域数据，只需预训练的源域模型，因此避免了源域数据外泄引起的安全、知识产权等问题。此外，本发明提出的方法可以以在线、增量方式迭代更新模型，无需在当下收集完整的目标域数据。

附图说明

图1为本发明的整体流程图。

图2为本发明采用改进的卷积神经网络结构图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，本发明提供一种基于PLI4DA的网络入侵检测方法，包括如下步骤：

步骤1，获取数据集并进行预处理，获取常用、公开的入侵检测数据集，对数据集进行预处理成可以喂入神经网络的格式，同时将训练集作为源域数据，测试集作为目标域数据，

步骤1.1，数据清洗，删除异常值、填补缺失值；

其中X _N为归一化处理后的数据。

步骤2，模拟训练源域模型，由于没有公开的源域模型，所以使用源域数据训练一个单分支源域模型，模型采用改进的卷积神经网络(Improved Convolutional NeuralNetwork, ICNN)，其定义如下步骤2.1至2.5所示；

步骤2.5，定义最终的单分支输出全连接层FC5，单元数为5，激活函数为Softmax，作为最终的分类层；

步骤3，定义新的目标域模型，其中目标域模型在分类层之前的网络结构和源域模型相同，并加载源域模型中已经训练好的权重、参数，

步骤3.1，冻结源域模型的所有层；

步骤3.2，和单支源域模型不同，目标域模型中定义两个输出单元数均为5的全连接层分支，激活函数均为Softmax，分别为源域正则化分支和目标自学习分支；

步骤3.3，目标域模型加载源域模型的权重、参数。

步骤4，获取目标域数据伪标签，

步骤4.1，获取每条样本经过目标域模型的分类预测矩阵，依据此矩阵计算每条样本的自熵值，计算公式如下，

步骤4.2，找到每类样本对应的最小自熵，然后从这些分类的自熵中找到最大值作为阈值，选出小于等于该阈值的样本，经过目标域模型全连接层分支前的特征提取得到特征矩阵并添加到按分类对应的字典里，该字典称为“适应性可靠样本存储”(AdaptiveReliable Samples Memory，ARSM)；设C={1,…,N _c}为类集，则阈值为

步骤4.3，计算每条无标签目标域样本的相似分数，样本经过特征提取得到特征矩阵，和步骤4.2的ARSM中每一类包含的全部样本特征矩阵计算相似分数，分数最高对应的类型即为目标域数据的伪标签，计算公式如下，

步骤4.4，第一近类为相似分数最高对应类，第二近类为步骤4.3中得到相似分数排名第二所对应的类型，则第一近类对应的特征矩阵集为M _t1，第二近类对应的特征矩阵集为M _t2。设单元素集合S={f _t }，f _t为目标域样本经过目标模型的特征矩阵。计算每个目标域样本的置信分数，使用基于置信的过滤机制筛选特征矩阵和伪标签，若某个目标域样本的特征矩阵在ARSM中存储的M _t1特征矩阵集的最大距离小于M _t2特征矩阵集的最小距离，则表明f _t是可取的以及伪标签

可以代入损失函数

运算，即w(x_t )=1表示f _t是可取的以及伪标签

可以代入损失函数

运算。

S同M _t1的相似度可以用Hausdorff距离定义，公式如下：

S同M _t2的距离则计算为：

其中

为距离度量函数，a，b为变量。

最终的每个目标域样本的置信分数为：

。

步骤5，目标域模型中神经网络的训练，以及梯度更新和反向传播；

其中，公式中的1为指示函数，当

时，即面向源域的伪标签

为第c类时，该指示函数输出为1，否则为0，

为目标域模型的源域正则化分支输出。

计算得到自学习损失

，并代入步骤4.4的过滤机制共同优化网络，公式如下：

其中，公式中的1为指示函数，当

时，即步骤4.3得到的伪标签

因此网络总体优化目标为：

上式中的α表示源域正则化损失和自学习损失的平衡参数，且α∈(0,1)，α越小则说明模型学习更偏向源域，反之更偏向目标域。最后，依据总体损失函数

对目标域模型中神经网络进行梯度更新、反向传播。

步骤6，每隔几轮训练次数更新步骤4.2中的ARSM，以获得更接近真值标签的伪标签。

步骤7，最终得到一个新的目标域模型文件，其中存储了目标域模型中神经网络的权重，即为本发明的输出结果，可以加载该文件以实现网络入侵检测。

下面通过实例来说明本发明的优势：

表1为NSL-KDD的KDDTest+数据集在ICNN（改进的卷积神经网络），BiLSTM（双向长短时记忆网络），GoogleNet, RF（随机森林）, PLI4DA（本发明提出的方法）的客观评价指标，包括Accuracy, Recall, F1，表中可见本发明方法的各客观评价指标均优于其它方法。

表1 KDDTest+在各方法下的客观评价指标对比（%）

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于PLI4DA的网络入侵检测方法，其特征在于，包括如下步骤：

步骤5，目标域模型中神经网络的训练；

2.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法，其特征在于：步骤1的具体实现包括；

步骤1.1，数据清洗，删除异常值、填补缺失值；

其中X _N为归一化处理后的数据。

3.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法，其特征在于：步骤2中源域模型的具体结构如下；

步骤2.1，定义5个一维卷积层，分别命名为Conv1, Conv2, Conv3, Conv4, Conv5，卷积核个数分别为32、32、64、32、32，卷积核大小分别为3、5、5、5、5，激活函数均为RELU，其中Conv1,Conv2,Conv3依序相连，而Conv4, Conv5分别连接至Conv2, Conv3；

4.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法，其特征在于：步骤3的具体实现方式如下；

步骤3.1 冻结源域模型的所有层；

步骤3.3 目标域模型加载源域模型的权重、参数。

5.如权利要求1所述的一种基于PLI4DA的网络入侵检测方法，其特征在于：步骤4.1中自熵值的计算公式如下；