CN114547598A

CN114547598A - 一种改进byol自监督学习的网络入侵检测方法

Info

Publication number: CN114547598A
Application number: CN202210083852.6A
Authority: CN
Inventors: 王振东; 李泽煜; 王俊岭; 李大海; 杨书新
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-05-27

Abstract

本发明公开了一种改进BYOL自监督学习的网络入侵检测方法，其包括以下步骤：步骤一、对UNSW‑NB15入侵检测数据集进行预处理，对字符型数据进行独热编码处理和数据归一化处理；步骤二：改进BYOL入侵检测模型训练：步骤三：改进BYOL入侵检测模型测试，将经过预处理后的测试数据集输入到特征提取编码器f_θ得到本数据集每条数据的特征表示，再将特征表示输入到分类器，进而得到每条数据的分类结果。本发明的优点：引入多头注意力机制的BoTNet抑制入侵检测数据中对分类贡献较小的特征，增大对分类贡献较大的特征，以此增强模型各项性能指标；优化BYOL损失函数，使模型训练过程更加平稳且收敛速度加快，以此增强模型的稳定性和鲁棒性。

Description

一种改进BYOL自监督学习的网络入侵检测方法

技术领域

本发明涉及一种改进BYOL自监督学习的网络入侵检测方法，属于网络入侵检测技术领域。

背景技术

随着信息化时代的到来以及互联网的普及，我们生活的方方面面都有了很大的变化，互联网在给予我们巨大便利的同时也带来了各种各样的网络安全问题。如何避免这些安全问题成为了业界密切关注的焦点，入侵检测作为网络安全体系的重要组成部分，它首先是由Anderson 提出的，他将入侵尝试或威胁定义为：潜在的、有预谋的、未经授权的访问信息、操作信息，致使系统不可靠或无法使用的企图。最早的入侵检测模型是由Denning提出的，该模型主要根据主机系统审计记录数据,生成有关系统的若干轮廓,并监测轮廓的变化差异发现系统的入侵行为。根据数据来源的不同，可以将入侵检测系统分为：基于主机的入侵检测(Host-based Intrusion Detection System,HIDS)和基于网络的入侵检测(Network-based Intrusion Detection System,NIDS)。NIDS观察并分析实时网络流量和监视多个主机，旨在收集数据包信息并查看其中内容，以此检测网络中的入侵行为。以往研究者大多数采用模式匹配算法来对其进行数据分析，特征选择则通常包括三种方案，分别是过滤式方式(例如信息增益和相关系数算法)；封装式方法(例如遗传算法和粒子群算法[)；嵌入式方法(例如LASSO回归算法)，特征提取则采用线性变换方法，例如主成分分析(Principal Component Analysis,PCA)和线性判别分析等，以及非线性变换方法，例如基于核方法的主成分分析等，但上述方法均存在一定的缺陷，例如遗传算法容易产生早熟收敛的问题，PCA算法中主成分各个特征维度的含义具有一定的模糊性，不如原始样本的可解释性强等。

传统NIDS同时也存在大量问题：对未知攻击检测能力差、误报率高和占用资源多等，鉴于机器学习算法易于理解和解释、泛化能力强和实现简单等优点，近些年传统机器学习算法如支持向量机(Support Vector Machine，SVM)、决策树(Decision Tree，DT)和K近邻算法(K Nearest Neighbor)被引入到入侵检测领域以提高入侵检测效率、降低漏报率和误报率。然而，由于传统机器学习算法的复杂性，使其在处理高维度海量数据的性能和准确率与深度学习有很大的差距，不仅如此，传统机器学习算法还依赖特征工程，需要设计算法来提取网络流量的有效特征，大大的增加了计算成本。深度学习不需要人工设计提取特征而是机器算法自动从数据中学习到特征，即所谓的表示学习，这意味着告别了任务繁重的特征工程，并且深度学习能从海量数据中提取更好的特征表示从而创建泛化能力更强的模型。近年以来，卷积神经网络(Convolutional neural network，CNN)和循环神经网络(Recurrent neural network， RNN)被广泛地应用于入侵检测领域当中。例如CNN方法将一维的网络流量转换为二维灰度图片，再利用卷积核特征提取的功能提取网络流量的有效特征提升入侵检测的检测率。然而在基于有监督学习的入侵检测模型存在许多缺点，最主要的一点便是获取攻击标记数据的代价是昂贵的，它需要专业的网络安全专家仔细检查流量数据，并决定某一特定模式是否为新的攻击方式，这无疑加大了入侵检测的成本。基于上述缺点，最近无监督学习也在入侵检测领域逐渐受到重视，各种类型的自编码器(例如变分自编码器、稀疏自编码器以及去噪自编码器等等)和对抗神经网络被应用到重构网络流量样本，学习网络流量的特征表示。虽然无监督学习可以不需要标签数据，但是无监督学习到的特征仅适用于本数据集而不能迁移到其他数据集上，这无疑限制了模型的泛化能力。

随着时代的发展和技术的进步，机器学习、深度学习和无监督学习在入侵检测领域均取得了良好地进展，表1给出了研究者所使用的不同入侵检测算法的对比。

表1入侵检测算法对比

发明内容

本发明要解决的技术问题，在于提供一种全新的针对入侵检测数据的数据增强策略以及基于无标签自监督学习的入侵检测流程，使用全新数据增强策略引入扰动增强模型学习到不变性的特征表示能力，采用改进的BYOL自监督学习方法无标签训练UNSW-NB15入侵检测数据集提取网络流量特征表示，在UNSW-NB15数据集上进行线性评估及NSK-KDD、KDDCUP99、CIC IDS2017 和CIDDS_001上进行迁移学习所得各项指标均取得优异的表现。

本发明通过下述方案实现：一种改进BYOL自监督学习的网络入侵检测方法，其包括以下步骤：

步骤一、对UNSW-NB15入侵检测数据集进行预处理，对字符型数据进行独热编码处理和数据归一化处理；

步骤二：改进BYOL入侵检测模型训练：

步骤三：改进BYOL入侵检测模型测试，将经过预处理后的测试数据集输入到特征提取编码器f_θ得到本数据集每条数据的特征表示，再将特征表示输入到分类器，进而得到每条数据的分类结果。

所述改进BYOL入侵检测模型训练包括以下步骤：

步骤a：初始化模型参数并确定网络模型的结构；

步骤b：对UNSW-NB15数据集进行分别进行两组数据增强操作；

步骤c：将两组增强数据分别输入到在线网络和目标网络，根据公式

所得损失调整训练过程的误差直到在线网络和目标网络两个网络模型均达到收敛。

步骤d：取出特征提取编码器f_θ，得到网络流量的特征表示并将f_θ权值保存。

所述步骤c中L_θ，ξ通过下列公式计算，

一种改进BYOL自监督学习的网络入侵检测方法，其包括以下流程：

流程一、数据增强；流程二、特征表示；流程三、特征投影；流程四、对比学习。

所述流程一使用random_shuffle函数来随机打乱特征间的位置得到增强数据x′，假设输入的一条网络流量数据为x＝[x₁，x₂，...，x_d]，其中

d为特征数量，x_i表示样本数据中第i 个特征。

所述将流程一增强数据进行reshape函数操作，之后再从水平翻转、竖直翻转、按比例缩放和random_shuffle的四种数组增强操作中挑选多个增强操作组成一组数据增强操作，分别经过两组不同的数据增强后得到两组不同增强下的网络流量视图v和v′之后才能将其输入到特征编码器f_θ和f_ξ进行特征提取。

所述流程二采用全局多头注意力机制的BoTNet作为编码器的基础，将原始网络流量的两组不同增强后的视图v和v′输入到特征编码器f_θ和f_ξ进行编码来提取特征，所述全局多头注意力机制的流程可以用下式表示：

z＝softmax(f_Q(x)(R_h+R_w)^T+f_Q(x)f_K(x)^T)f_V(x)。

所述过程三经过特征提取编码器f_θ和f_ξ编码后的网络流量由输入的灰度图格式转换为向量的形式y_θ和y_ξ，即：y_θ＝f_θ(v)，y′_ξ＝f_ξ(v′)，其中网络流量的特征表示y_θ和y_ξ均对应于BoTNet最终平均池化层的输出，v和v′分别为经过两组数据增强操作所得到的视图，并且

d为人为设置的超参数，然后，将所得的网络流量的特征表示y_θ和y′_ξ经过由两个隐藏层和一个BN层组成的多层感知机g_θ和g_ξ由高维的特征空间投影到低维的隐空间得到z_θ和z_ξ，即：

其中W和b为全连接层的权值和偏差，BN为批归一化层，σ为ReLU激活函数。

所述过程四经过特征投影处理后网络流量被投影到低维的向量空间得到z_θ和z′_ξ，此时经过在线网络的网络流量还需要经过预测头q_θ处理然后得到预测向量q_θ(z_θ)，经过目标网络的网络流量则不需要上述处理，q_θ、g_θ、g_ξ均是由两个隐藏层和一个BN层组成的多层感知机，即：

所述在线网络得到的预测向量q_θ(z_θ)，z′_ξ可视为由目标网络产生的关于网络流量的真实数据，使用均方误差作为损失函数，即：

将BYOL中的L_θ，ξ替换为iL_θ，ξ，从而使特征提取编码器f_θ能够提取到有效的特征信息且训练过程更加稳定，再由公式

所得Loss利用梯度下降法更新在线网络权值的同时利用EMA权重更新方式更新目标网络的权值直到两个网络收敛。此时，丢弃在线网络中数据增强操作t、特征投影的g_θ和特征预测的q_θ，便得到了特征提取编码器f_θ中对网络流量特征表示，并以此为依据区分网络流量的类别。

本发明的有益效果为：

1、本发明一种改进BYOL自监督学习的网络入侵检测方法与现有的入侵检测模型不同，本申请基于自监督学习方法，充分考虑到标签数据获取的难度以及模型泛化能力，提出了改进 BYOL自监督学习入侵检测模型，将其应用于基准数据集KDD CUP99、NSL-KDD、UNSW-NB15、CIC IDS2017和CIDDS_001，本申请使用的入侵检测数据集较为完善，并且采用了准确率、精确率、检测率、F1_Score、ROC曲线和AUC值等多种评价指标评估模型性能，对所提出方法的评价更加科学和全面；

2、本发明一种改进BYOL自监督学习的网络入侵检测方法将自监督学习引入到入侵检测领域并且验证了自监督学习在入侵检测领域中强大的潜力和发展空间。

3、本发明一种改进BYOL自监督学习的网络入侵检测方法提出一种全新的针对入侵检测数据集的数据增强策略，引入不同的扰动，生成不同视角的样本加强模型学习数据特征的特征表示能力；

3、本发明一种改进BYOL自监督学习的网络入侵检测方法引入多头注意力机制的BoTNet 抑制入侵检测数据中对分类贡献较小的特征，增大对分类贡献较大的特征，以此增强模型各项性能指标；优化BYOL损失函数，使模型训练过程更加平稳且收敛速度加快，以此增强模型的稳定性和鲁棒性。

附图说明

图1为入侵检测模型流程图，图2为正常流量数据增强对比图片，图3为异常流量数据增强对比图片，图4为MHSA结构，图5为不同encoder异常检测准确率图像，图6为不同encoder 异常检测精确率图像，图7为不同encoder异常检测检测率图像，图8为不同encoder异常检测F1 Score图像，图9为不同d值异常检测准确率图像，图10为不同d值异常精确率图像，图11为不同d值异常检测检测率图像，图12为不同d值异常检测F1 Score图像，图13为同损失函数的loss曲线，图14为不同损失函数异常检测指标图像，图15为UNSW-NB15异常检测ROC曲线，图16为KDD CUP99异常检测性能指标图像，图17为NSL-KDD异常检测性能指标图像，图18为CIC IDS2017异常检测性能指标图像，图19为CIDDS_001异常检测性能指标图像，图20为KDD CUP ROC曲线，图21为NSL-KDD ROC曲线，图22为CIC IDS2017 ROC曲线，图23为CIDDS_001ROC曲线，图24为KDD CUP99可视化图像，图25为BYOL处理后KDD CUP99 可视化图像，图26为NSL-KDD可视化图像，图27为BYOL处理后NSL-KDD可视化图像，图28 为CICIDS2017可视化图像，图29为BYOL处理后CIC IDS2017可视化图像，图30为CIDDS_001 可视化图像，图31为BYOL处理后CIDDS_001可视化图像。

具体实施方式

下面结合图1-31对本发明进一步说明，但本发明保护范围不局限所述内容。

为了清楚，不描述实际实施例的全部特征，在下列描述中，不详细描述公知的功能和结构，因为它们会使本发明由于不必要的细节而混乱，应当认为在任何实际实施例的开发中，必须做出大量实施细节以实现开发者的特定目标，例如按照有关系统或有关商业的限制，由一个实施例改变为另一个实施例，另外，应当认为这种开发工作可能是复杂和耗费时间的，但是对于本领域技术人员来说仅仅是常规工作。

表2符号解释

如图1所示，一种改进BYOL自监督学习的网络入侵检测方法，其包括以下步骤：

步骤二：改进BYOL入侵检测模型训练：

改进BYOL入侵检测模型训练包括以下步骤：

步骤a：初始化模型参数并确定网络模型的结构；

步骤b：对UNSW-NB15数据集进行分别进行两组数据增强操作；

所得损失调整训练过程的误差直到在线网络和目标网络两个网络模型均达到收敛，假设x∈X (X为符合2D卷积神经网络输入格式的入侵检测网络流量数据集)，分别对x做两组不同的数据增强操作t和t′，所得增强后的视图为v和v′，即v＝t(x)，v′＝t′(x)，分别送入在线网络和目标网络中得到向量q_θ(z_θ)和z′_ξ，我们再对q_θ(z_θ)和z′_ξ做L2-normalization，即：

取两个隐变量的单位长度，只保留其方向性，为后面求损失函数做铺垫，BYOL的损失函数是通过约束两个网络输出特征的相似度来训练在线网络和目标网络的，即：

得到损失L_θ，ξ后，我们可以将v′和v送入在线网络和目标网络里得到对称损失

则BYOL 的损失函数可以记为：

使用梯度下降法更新在线网络后，目标网络的参数更新取决于当前更新后的在线网络和当前的目标网络参数，即：ξ＝τ·ξ+(1-τ)·ξ，也被称为EMA权重更新方式，其中τ∈[0，1]，是人为设定的超参数。

流程一使用random_shuffle函数来随机打乱特征间的位置得到增强数据x′，假设输入的一条网络流量数据为x＝[x₁，x₂，...，x_d]，其中

d为特征数量，x_i表示样本数据中第i个特征。

将流程一增强数据进行reshape函数操作，例如经过预处理后的UNSW-NB15网络流量样本具有196个维度，即

经过reshape操作后将其转换成灰度图格式

之后再从水平翻转、竖直翻转、按比例缩放和本申请所提出random_shuffle的四种数组增强操作中挑选多个增强操作组成一组数据增强操作，例如：数据增强操作 t＝{水平翻转，random_shuffle，按比列缩放}，数组增强操作t′＝{水平翻转，竖直翻转，按比例缩放}，分别经过两组不同的数据增强后得到两组不同增强下的网络流量视图v和v′之后才能将其输入到特征编码器encoderf_θ和f_ξ进行特征提取。挑选了UNSW-NB15数据集中两组不同的网络流量数据增强对比图片进行可视化如图2和图3所示，可以发现数据增强后的网络流量保留了原始流量特征的同时也引入了不同的扰动，这样使得模型学习到的特征表示更具有泛化能力，能够使模型学习到网络流量不变性的特征表示。

流程二采用全局多头注意力机制的BoTNet作为编码器的基础，将原始网络流量的两组不同增强后的视图v和v′输入到特征编码器f_θ和f_ξ进行编码来提取特征，如图4所示，假设输入图片为

和

指的是图片x高度和宽度的相对位置编码，代表着垂直和水平方向的相对信息，将输入图片x分别经过三个1×1的不同卷积后得到图像的查询矩阵q，图像的键矩阵k，图像的值矩阵v，q＝f_Q(x)，k＝f_K(x)，v＝f_V(x)，其中f_Q(x)、f_K(x) 和f_v(x)代表对x进行卷积操作，

将图像的查询矩阵q与图像的键矩阵转置进行点乘得到位置-位置编码，即：content_content＝qk^T，将图片x高度和宽度的相对位置编码相加转置再与图像的查询矩阵q进行点乘得到内容-位置编码，即： content_position＝q(R_h+R_w)^T，得到两种编码后我们便可通过softmax函数得到原图像的注意力矩阵最后再与图像的值矩阵v点乘便得到输出，即： z＝softmax(content_content+content_position)v，整个MHSA流程可以用下式表示： z＝softmax(f_Q(x)(R_h+R_w)^T+f_Q(x)f_K(x)^T)f_V(x)。该方法思想简单但是功能强大，卷积神经网络可以有效地学习图像中抽象和低分辨率的特征图，全局自注意力机制可以处理和汇总特征图中包含的信息，正是这一改进使得BoTNet在ImageNet准确率相较于ResNet有了较大的提升，并且与ResNet50相比，BoTNet50的模型参数少了1.2倍。

过程三经过特征提取编码器f_θ和f_ξ编码后的网络流量由输入的灰度图格式转换为向量的形式y_θ和y′_ξ，即：y_θ＝f_θ(v)，y′_ξ＝f_ξ(v′)，其中网络流量的特征表示y_θ和y′_ξ均对应于BoTNet 最终平均池化层的输出，v和v′分别为经过两组数据增强操作所得到的视图，并月

d为人为设置的超参数，然后，将所得的网络流量的特征表示y_θ和y_ξ经过由两个隐藏层和一个BN 层组成的多层感知机g_θ和g_ξ由高维的特征空间投影到低维的隐空间得到z_θ和z_ξ，即：

其中W和b为全连接层的权值和偏差，BN为批归一化层，σ为ReLU激活函数。该隐空间理解为网络流量的一种删减非必要特征信息(例如图像的位置信息)后的特征表示，同时降低特征维度减少计算量，特征投影可以识别出数据增强中的不变性，同时可以删除可能对下游任务有用的信息，如数据增强后图片中对象的颜色或方向，通过利用非线性转换g_θ和g_ξ，更多的信息可以在y_θ和y′_ξ中形成和保持。特征投影这一步骤是必不可少的，假设没有特征投影这一步骤的话，入侵检测模型将可能出现模型坍塌现象，即online network和target network可以通过将两者网络中的权值和偏差降低到零从而使两个网络中所有网络流量图像的表示相似化，这样会导致入侵检测模型并没有学到任何有效的特征信息。从信息瓶颈的角度来看，神经网络是逐渐丢失对分类任务的非必要信息(例如上文所提及的数据增强后图片中对象的颜色或方向，即数据增强所带来的数据扰动)，而加入特征投影后，取投影前的特征空间则会保留更多对分类任务有用的信息，这样便使得在线网络和目标网络中的权值和偏差避免趋零，从而学习到更加有用的特征信息。

过程四经过特征投影处理后网络流量被投影到低维的向量空间得到z_θ和z′_ξ，此时经过在线网络的网络流量还需要经过预测头q_θ处理然后得到预测向量q_θ(z_θ)，经过目标网络的网络流量则不需要上述处理，q_θ的组成与g_θ和g_ξ相似，两者均是由两个隐藏层和一个BN层组成的多层感知机，即：

在线网络得到的预测向量q_θ(z_θ)，z′_ξ可视为由目标网络产生的关于网络流量的真实数据，使用均方误差作为损失函数，即：

则均方误差通过向量相减后再平方求和可以避免产生较大的梯度值(由于向量

和

是由同一网络流量的两组不同增强后的视图经过特征提取和特征投影等操作所得到的向量，故两者差异较小，向量相减后再平方求和会得到较小的损失值)，这样便可以使模型在训练过程中更加稳定。因此，我们可以将BYOL中的L_θ，ξ替换为iL_θ，ξ，从而使特征提取编码器f_θ能够提取到有效的特征信息且训练过程更加稳定，再由公式

所得Loss利用梯度下降法更新在线网络权值的同时利用EMA权重更新方式更新目标网络的权值直到两个网络收敛(之所以使用EMA的方式来更新目标网络的权值是因为这样做可以有效地保持在线网络和目标网络的权值参数是不一样的，从而避免模型坍塌的现象)。此时，丢弃在线网络中数据增强操作t、特征投影的g_θ和特征预测的q_θ，便得到了特征提取编码器f_θ中对网络流量特征表示，并以此为依据区分网络流量的类别。

实验数据集和预处理

为了验证基于改进BYOL入侵检测模型的强大检测能力与泛化能力，本申请不仅在旧的入侵检测数据集KDD CUP99和NSL-KDD上进行试验，同时也在新的入侵检测数据集UNSW-NB15、CIC IDS2017和CIDDS_001进行试验。由于UNSW-NB15包含的攻击类型较为全面且包含的特征信息丰富，故本申请通过在UNSW-NB15进行改进BYOL入侵检测得到网络流量的特征表示，以此在KDD CUP99、NSL-KDD、CICIDS2017以及CIDDS_001数据集上进行迁移学习来验证本申请提出模型的强大泛化能力。实验部分的运行环境如下表所示：

表3实验环境

Experimental environment	Environment configuration
		Operating system	Windows 10
Programing language	Python 3.7
		Deep learning framework	Pytorch1.7
Machine learning library	Scikit-learn 0.23.2
		Graphics card	RTX 2070

实验数据集：KDD CUP99数据集来源于1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行的一项入侵检测评估项目。网络流量被标记为正常或异常，异常类型被细分为4 大类(Probe,DoS,U2R,R2L)共39种攻击类型，其中22种攻击类型出现在训练集中，另有 17种未知攻击类型出现在测试集中，该数据集包含41个属性和一个类别标签。表4详细描述了KDD Cup99数据集。

NSL-KDD数据集是KDD CUP99数据集的优化，它虽然解决了KDD CUP99数据集中数据冗余、重复数据等问题。NSL-KDD数据集中包含4中异常类型，分别为Dos、Probe、U2R和R2L，每一条入侵记录具有42维特征，其中42个特征是由9种TCP连接基本特征、13种TCP连接的内容特征、9种基于时间的网络流量统计特征、10种基于主机的网络流量统计特征以及1个类别标签。表4详细描述了NSL-KDD数据集。

表4 KDD CUP99与NSL-KDD数据集标签数量

UNSW-NB15数据集由澳大利亚网络安全中心(ACCS)于2015年创建。数据集中包含了两种标签的数据，1代表攻击类别，而0代表正常类别；一共9种不同类别的攻击方式，整个数据集一共包含49个特征，其中47个为与攻击有关的特征，一个具体的攻击方式类别标签，一个攻击与正常类别标签。表5详细描述了UNSW-NB15数据集。

表5 UNSW-NB15数据集标签数量

CIC IDS2017数据集是加拿大网络安全研究所于2017年采集并公开的网络流量数据集，该数据集包含周一到周五采集的五天网络流量数据，其中包含了正常流量与常见攻击导致的异常流量。本申请使Wednesday-workingHours.csv作为入侵检测数据集，表6详细描述了CIC IDS2017数据集。

表6 CIC IDS2017数据集标签数量

CIDDS_001是一个基于标记流量的数据集，用于评估基于异常的入侵检测系统。该数据集包括三个日志文件(攻击日志、客户配置和客户日志)和两个服务器的流量数据，每个服务器的流量包括4个为期4周的捕获流量数据。表7详细描述了CIDDS_001数据集。

表7 CIDDS_001数据集标签数量

数据预处理：由于输入数据集必须符合卷积神经网络的输入格式，则需要对实验数据集进行预处理，预处理步骤如下：

(1)字符型数据One-Hot encoding处理

以NSL-KDD数据集为例，其中protocol、flag和service这三个特征的元素类型为字符型则需将其转换为独热编码，例如其中protocol包含了UDP、TCP和ICMP 3种类别，则协议类型被处理为[1,0,0]、[0,1,0]、[0,0,1]的形式，其他特征处理过程类似，最终每条数据的长度为121维。

(2)数据归一化处理

为了取消量纲，使梯度始终朝着最小值的方向前进和加速收敛则需要对特征映射后的数据做归一化处理，本申请采用最大最小归一化的方法。

其中x为原始数据，x_min为相同特征中的最小值，x_max为相同特征中的最大值，x_norm为采用最大最小归一化的结果。

评价指标：由于网络入侵检测数据比较复杂，评价模型的好坏不能仅仅凭借准确率作为唯一的评价标准，故本申请将采用准确率(ACC)、精确率(Precision)、检测率(DR)和F1_Score 作为入侵检测的评价指标，通过以上指标进行综合对比验证模型的精确性和稳定性。上述指标的计算公式如下：

其中，TP为真实值是positive，模型认为是positive的数量；FN为真实值是positive，模型认为是negative的数量；FP为真实值是negative，模型认为是positive的数量；TN为真实值是negative，模型认为是negative的数量。

实验结果与分析：本申请一共有4组实验，各组实验的目的分别为：第一组实验通过在 UNSW-NB15上进行Linear evaluation验证3.1.2中提出的改进BYOL中encoder架构的正确性和3.1.3中超参数d对UNSW-NB15异常检测影响以及3.1.4中优化BYOL损失函数后模型训练的稳定性；第二组实验在UNSW-NB15上进行Linear evaluation，验证使用改进后BYOL所提取的网络流量特征表示具有强大的网络流量辨别能力以及本申请所提出数据增强操作的有效性；第三组实验在KDD CUP99、NSL-KDD、CIC IDS2017和CIDDS_001使用经典深度学习模型 DNN、CNN、RNN和本模型进行对比实验，验证使用改进后BYOL所提取特征表示具有区分网络流量的可行性；第四组实验在KDD CUP99、NSL-KDD、CIC IDS2017和CIDDS_001进行迁移学习并与其他在本数据集上表现SOTA的模型进行对比，验证使用改进后BYOL所提取的特征表示具有强大的泛化能力。

改进BYOL自监督学习框架的有效性：首先验证3.1.2中提出的改进BYOL中encoder架构的正确性和3.1.3中超参数d对UNSW-NB15异常检测准确率的影响以及验证3.1.4中提出的优化BYOL损失函数后模型训练的稳定性，图5-8为不同encoder架构对UNSW-NB15异常检测的各项性能指标影响图像，图9-12为d∈{64，128，256，512，600}时对UNSW-NB15异常检测的各项性能指标影响图像。由图5-8可知，当特征提取编码器encoder架构为BoTNet时，UNSW-NB15 异常检测准确率、精确率和其他性能指标最高且训练过程相对更加稳定，进一步验证了3.1.2 中引入注意力机制可以有效抑制入侵检测数据中对分类贡献较小的特征，增大对分类贡献较大的特征从而增加网络异常流量的识别率，同时也验证了改进BYOL中encoder架构选择BoTNet 的正确性。由图9-12可知，当d取512时，UNSW-NB15异常检测准确率、精确率和其他性能指标最高，故之后的实验中特征提取编码器encoder架构均采用d为512的BoTNet模型。由13 可知，使用本申请提出的优化损失函数后，训练过程的loss变得更加平稳，并且模型收敛速度相较于原BYOL论文所提出的损失函数会更快，同时由图14可知，模型所得准确率、精确率和其他性能指标与原BYOL论文所提出的损失函数在UNSW-NB15异常检测上相差无几，即可验证本申请所提出的优化BYOL损失函数后模型训练更加稳定性、收敛速度更快。

线性评估：使用改进BYOL训练UNSW-NB15数据集得到网络流量的特征表示后，为了验证此特征表示的有效性，采用Linear evaluation的方式，即将训练好的BoTNet的权值冻结只训练一层线性层来进行网络流量分类，同时采用有监督学习方式训练BoTNet和一些表现SOTA 的模型进行对比实验，实验结果如表8和图15所示，其中“-”代表论文中未给出该指标结果。由表8可知，有监督BoTNet和Linear evaluation所得各种指标结果均相差无几，且仅使用一层线性层便可达到89.97％的UNSW-NB15异常检测准确率，比有监督BoTNet准确率94.05％仅仅低了4.08％，比SADE-ELM高出17.59％，在精确率指标上分别比VLSTM和SADE-ELM高3.72％和19.78％，比MFFSEM和TSIDS低4.16％和5.44％，在检测率指标上与最高的VLSTM仅相差2.54％，比TSIDS高出0.11％基本可以忽略不计，分别比MFFSEM和SADE-ELM高14.82％和7.84％，在F1 Score指标上甚至比SADE-ELM模型高出14.7％，分别比VLSTM和MFFSEM高1.71％和5.77％，与最高的BoTNet也仅相差2.91％。ROC曲线有一个巨大的优势，当正负样本的分布发生变化时，其形状能够基本保持一致，因此该评估指标能降低不同测试集带来的干扰，更加客观的衡量模型本身的性能。从图15可知，自监督BoTNet的AUC为0.94，相较于改进BYOL的0.88仅提升了0.6，进一步验证了改进BYOL所提取的网络流量特征表示的有效性，能够充分有效地区分网络流量的类别。结合表8和图15可知，本模型能够有效地区分网络异常流量，证明了本申请提出的数据增强操作random_shuffle能够使改进BYOL入侵检测模型学习到网络流量不变性的特征表示，进而对网络流量进行正确地分类。

表8不同模型在UNSW-NB15异常检测实验结果

传统深度学习算法对比实验：为了验证使用改进BYOL训练UNSW-NB15数据集所提取特征表示具有区分网络流量的可行性，我们在KDD CUP99、NSL-KDD、CIC IDS2017和CIDDS_001数据集上使用经典深度学习模型DNN、CNN、RNN和本模型迁移学习进行对比实验，其中DNN由两层隐藏层组成，分别有128和64个神经元，CNN由三层卷积层组成，分别有32、64和128个 3×3卷积核，而RNN则由一层70个神经元的LSTM组成。实验结果如下：

表9不同模型在KDD CUP99异常检测实验结果

表10不同模型在NSL-KDD异常检测实验结果

表11不同模型在CIC IDS2017异常检测实验结果

表12不同模型在CIDDS_001异常检测实验结果

表9、10、11和12详细描述了DNN、CNN、RNN和本模型迁移学习对KDD CUP99、NSL-KDD、 CIC IDS2017和CIDDS_001数据集进行异常检测时准确率(Accuracy)、精确率(Precision)、检测率(Detection rate)和F1 Score值。图16-19为各算法在各数据集异常检测性能指标图像则更加直观地显示了DNN、CNN、RNN和本模型迁移学习在各个数据集上异常检测的性能指标的差异。由表10和图16可知，由于KDD CUP99较为简单且存在大量数据冗余，故所有深度学习模型均取得较好的性能指标，各项指标都能达到99％以上；由表10和图17可知，由于 NSL-KDD数据集解决了KDD CUP99数据集存在的数据冗余问题，各模型在NSL-KDD数据集上性能指标均有所下降，而本模型所得结果较其他三个模型稍差一些，这主要是因为模型将较多正常流量归类成异常流量从而导致模型性能较差；由表11和图18可知，DNN在CIC IDS2017数据集上表现较好，各项性能指标均能够达到99％以上，CNN和RNN表现稍微差点，本模型表现相对较差，但性能指标仍然能够达到95％以上；由表12和图19可知，DNN、RNN和CNN所得结果表现较好，所有性能指标均能达到99％以上，而本模型所得性能指标能够达到98％以上，仍然能够有效地区分CIDDS_001数据集的异常流量。综上所述，由于数据集较为简单以及数据集本身存在的一些问题，DNN、CNN和RNN等传统深度学习算法和本模型均能在KDD CUP99、 NSL-KDD、CIC IDS2017和CIDDS_001数据集上取得良好的异常检测结果，同时验证了使用改进BYOL训练UNSW-NB15数据集所提取特征表示完全具有区分网络流量的可行性。

迁移学习：为了验证使用改进BYOL训练UNSW-NB15数据集得到网络流量的特征表示具有强大的泛化能力，我们在KDD CUP99、NSL-KDD、CIC IDS2017和CIDDS_001入侵检测数据集上进行迁移学习，即将UNSW-NB15所学习到的网络流量特征迁移到KDD CUP99、NSL-KDD、CIC IDS2017和CIDDS_001数据集上来验证模型的泛化能力和特征的通用性，同时与在各数据集上表现SOTA模型进行对比实验，实验结果如下表所示，其中“-”代表论文中未给出该指标结果。

表13不同模型在KDD CUP99异常检测实验结果

表14不同模型在NSL-KDD异常检测实验结果

表15不同模型在CIC IDS2017异常检测实验结果

表16不同模型在CIDDS_001异常检测实验结果

图20-23为各数据集有监督BoTNet和无监督学习ROC曲线，由表13和图20可知，在KDD CUP99入侵检测数据集上，在UNSW-NB15数据集得到网络流量的特征表示来迁移学习得到的性能指标完全可以和有监督学习BoTNet媲美，两者相差仅仅零点几个百分点，这是因为改进BYOL 入侵检测模型具有强大的特征提取能力，能够有效地提取区分网络流量的特征。相较于其他在KDD CUP99上表现SOTA的模型，迁移学习所得结果在性能指标上甚至比有监督学习SADE-ELM 模型提升了1％-6％，与DT-EnSVM模型准确率相比仅相差0.67％；由表16和图23可知，相较于其他在CIDDS_001数据集上表现SOTA的模型，迁移学习所得结果与准确率最高的MLIDS模型仅相差2.37％，比准确率最低的SADE-ELM模型高出4.97％，在检测率方面本模型迁移学习所得结果为97.82％，比最高的有监督学习BoTNet和MLIDS检测率低2.04％，比DBN和RF低0.99％和0.51％，而比SADE-ELM高出6.45％，这说明本模型能够较为全面的检测出入侵数据且误判较少；由表14和图21可知，由于数据集复杂度的提升，本模型迁移学习所得结果在NSL-KDD数据集上对比有监督学习BoTNet准确率稍微有所下降，下降了将近5％，但相较于其他在NSL-KDD 数据集上表现SOTA的模型，迁移学习所得结果所有指标仍然优于其他模型，甚至在准确率指标上高出SADE-ELM模型将近16％，但在精确率上却略低于其2.73％，在F1 Score方面本模型迁移学习所得结果为0.9196，比有监督学习BoTNet低7.54％，分别比SADE-ELM、LCVAE、FL-NIDS 和IGAN-IDS高16.96％、11.18％、7.09％和7.79％，这说明本模型性能较为全面无严重缺点；由表15和图22可知，相较于其他在CIC IDS2017上表现SOTA的模型，迁移学习所得结果在准确率、精确率、检测率和F1Score上略低于其他模型，在F1 Score方面分别比IGAN-IDS、 DBN和LSTM-RNN低4.29％、3.26％和2.95％，在精确率方面分别比DBN和LSTM-RNN低4.72％和4.6％，在检测率方面分别比NB-SVM、DBN和LSTM-RNN低3.75％、1.89％和0.53％，在准确率方面分别比IGAN-IDS、NB-SVM和DBN低3.09％、2.22％和1.17％，这说明本模型在CIC IDS2017 数据集特征泛化能力稍弱，模型泛化能力还可以继续提高。总体来说，各个算法均能够对KDD CUP99、NSL-KDD、CIC IDS2017和CIDDS_001数据集进行检测过程中各项性能指标均能达到一个较优值，这说明各类算法均能对网络入侵数据进行有效的检测，但本模型迁移学习所得结果均明显优于其他模型，充分证明改进BYOL所提取的网络流量特征表示具有强大的网络流量辨别能力。

为了更好地可视化经过改进BYOL处理后入侵检测数据集的样本分布情况，我们分别随机选取10000条未经过处理和经过改进BYOL处理后的KDD CUP99、NSL-KDD、CICIDS2017和 CIDDS_001数据集的记录，并使用t-SNE算法对10000条记录进行降维并可视化。图24-25KDD CUP数据集异常检测可视化图像，图26-27NSL-KDD数据集异常检测可视化图像，图28-29CIC IDS2017数据集异常检测可视化图像，图30-31CIDDS_001数据集异常检测可视化图像。

图24、图26、图28和图30分别为KDD CUP99、NSL-KDD、CIC IDS 2017和CIDDS_001未经过处理异常检测10000条记录的可视化图像。由图可知，所有数据集的数据都是线性不可分的，相较于KDD CUP99和CIC IDS2017数据集，NSL-KDD和CIDDS_001数据集明显更加复杂，更加难以区分，从迁移学习所得结果也能体现。而图25、图27、图29和图31是经过改进BYOL 模型处理后的异常检测可视化图像，对比未经处理所得异常检测可视化图像可知，不同类别的样本在特征空间中呈现聚集趋势，几乎可线性分开，这足以说明了在UNSW-NB15数据集得到网络流量的特征表示具有强大的泛化能力，能够有效区分各种网络异常流量。

本申请提出一种全新的针对入侵检测数据的数据增强策略以及基于无标签自监督学习的入侵检测流程，使用改进BYOL自监督学习算法提取网络流量特征表示，为避免融合过多无效特征造成模型泛化能力变差，引入多头注意力机制抑制入侵检测数据中对分类贡献较小的特征，增大对分类贡献较大的特征，提取网络流量特征后以此为依据判断网络流量的异常，解决了传统自监督学习算法中需要标签数据才能训练模型的缺点。在入侵检测基准数据集KDD CUP99、NSL-KDD、UNSW-NB15、CIC IDS2017和CIDDS_001进行训练和测试表明，本申请所提出的模型具有较强的识别网络流量能力和泛化能力，与有监督学习所得结果相差无几。

尽管已经对本发明的技术方案做了较为详细的阐述和列举，应当理解，对于本领域技术人员来说，对上述实施例做出修改或者采用等同的替代方案，这对本领域的技术人员而言是显而易见，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：其包括以下步骤：

步骤二：改进BYOL入侵检测模型训练：

2.根据权利要求1所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述改进BYOL入侵检测模型训练包括以下步骤：

步骤a：初始化模型参数并确定网络模型的结构；

步骤b：对UNSW-NB15数据集进行分别进行两组数据增强操作；

3.根据权利要求2所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述步骤c中L_θ，ξ通过下列公式计算，

4.根据权利要求1所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：其包括以下流程：

流程一、数据增强；

流程二、特征表示；

流程三、特征投影；

流程四、对比学习。

5.根据权利要求4所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述流程一使用random_shuffle函数来随机打乱特征间的位置得到增强数据x′，假设输入的一条网络流量数据为x＝[x₁，x₂，...，x_d]，其中

d为特征数量，x_i表示样本数据中第i个特征。

6.根据权利要求4所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述将流程一增强数据进行reshape函数操作，之后再从水平翻转、竖直翻转、按比例缩放和random_shuffle的四种数组增强操作中挑选多个增强操作组成一组数据增强操作，分别经过两组不同的数据增强后得到两组不同增强下的网络流量视图v和v′之后才能将其输入到特征编码器f_θ和f_ξ进行特征提取。

7.根据权利要求4所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述流程二采用全局多头注意力机制的BoTNet作为编码器的基础，将原始网络流量的两组不同增强后的视图v和v′输入到特征编码器f_θ和f_ξ进行编码来提取特征，所述全局多头注意力机制的流程可以用下式表示：

z＝softmax(f_Q(x)(R_h+R_w)^T+f_Q(x)f_K(x)^T)f_V(x)。

8.根据权利要求4所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述过程三经过特征提取编码器f_θ和f_ξ编码后的网络流量由输入的灰度图格式转换为向量的形式y_θ和y′_ξ，即：y_θ＝f_θ(v)，y′_ξ＝f_ξ(v′)，其中网络流量的特征表示y_θ和y′_ξ均对应于BoTNet最终平均池化层的输出，v和v′分别为经过两组数据增强操作所得到的视图，并且

d为人为设置的超参数，然后，将所得的网络流量的特征表示y_θ和y′_ξ经过由两个隐藏层和一个BN层组成的多层感知机g_θ和g_ξ由高维的特征空间投影到低维的隐空间得到z_θ和z′_ξ，即：

9.根据权利要求4所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述过程四经过特征投影处理后网络流量被投影到低维的向量空间得到z_θ和z′_ξ，此时经过在线网络的网络流量还需要经过预测头q_θ处理然后得到预测向量q_θ(z_θ)，经过目标网络的网络流量则不需要上述处理，q_θ、g_θ、g_ξ均是由两个隐藏层和一个BN层组成的多层感知机，即：

10.根据权利要求9所述的一种改进BYOL自监督学习的网络入侵检测方法，其特征在于：所述在线网络得到的预测向量q_θ(z_θ)，z′_ξ可视为由目标网络产生的关于网络流量的真实数据，使用均方误差作为损失函数，即：

所得Loss利用梯度下降法更新在线网络权值的同时利用EMA权重更新方式更新目标网络的权值直到两个网络收敛。此时，丢弃在线网络中数据增强操作t、特征投影的projector g_θ和特征预测的predictor q_θ，便得到了特征提取编码器f_θ中对网络流量特征表示，并以此为依据区分网络流量的类别。