CN117375924A

CN117375924A - 一种基于改进Swin-Transformer模型的网络攻击识别方法

Info

Publication number: CN117375924A
Application number: CN202311338871.XA
Authority: CN
Inventors: 张珣; 李惠富; 江东; 付晶莹; 郝蒙蒙; 李金�
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS; Beijing Technology and Business University
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS; Beijing Technology and Business University
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-09

Abstract

本发明公布了一种基于改进Swin‑Transformer模型的网络攻击识别方法，构建基于改进Swin‑Transformer的网络攻击识别模型；首先通过网络攻击识别模型的卷积特征提取模块进行网络数据特征提取；然后经过网络攻击识别模型的Swin‑Trans模块的多头注意力机制进一步挖掘得到网络特征信息；最后将提取到的网络特征信息输入网络攻击识别模型尾部的全连接Softmax分类网络进行网络攻击识别。采用本发明方法，在整体上增强模型泛化能力、减小模型对数据量的依赖，且能够有效从特征图全局提取信息，更好地提取图像特征，实现识别准确率的提升。

Description

一种基于改进Swin-Transformer模型的网络攻击识别方法

技术领域

本发明涉及网络安全技术领域，特别地涉及一种基于改进Swin-Transformer模型的网络攻击识别方法。

背景技术

针对当前网络安全严峻的形式，传统的网络防御手段如防火墙和入侵检测系统等已经不足以解决日益复杂的网络攻击手段。我们需要更加精细和先进的网络安全防御技术来抵御未来的网络威胁。目前最广泛采用的有效措施是实时检测和控制网络的整体运行状态和内部环境，这是通过采用主动防御策略、及时处理问题以及尽可能地恢复原始数据来实现。

大规模网络安全态势感知可以帮助网络管理者了解目标网络的安全状态，并在一定程度上提供决策参考依据，是网络安全领域的一个重要研究方向，对于网络信息安全防护具有重要意义。对于态势感知来说，一般情况下它被划分为认识、理解和预测的三层概念模型，其中的认识理解就是网络攻击识别和网络态势评估的过程。网络安全态势感知具有直观反映网络系统运行状态和提供预测的功能，为网络管理提供意见参考，有助于预防网络攻击并保证网络的安全运营。网络安全态势感知的研究具有广泛而重要的现实意义，因为它可以提高网络安全性，减少网络攻击及相关损失，并为网络安全保驾护航。尽管目前这项研究已经有了较大的发展，但仍然存在态势评估准确率低等问题，亟需进一步研究解决。

网络攻击识别问题的本质就是对数据集进行特征提取，随后将提取特征输入到分类网络中进行攻击分类，实现网络攻击分类识别。网络攻击识别包括两部分，网络数据要素提取和特征分类。网络攻击识别的质量直接关系着之后网络安全态势评估和网络安全态势预测的精度，直接影响了提供给网络管理员的决策知识准确性。网络攻击识别通过对网络流量数据进行特征提取输入分类网络，实现网络攻击识别，但受限于网络安全数据高维和冗余，网络要素特征提取直接影响网络攻击识别效果。目前尚未出现将卷积神经网络CNN与Transformer注意力机制模型结合从而实现对网络攻击进行识别的技术。

发明内容

为了解决上述现有技术存在的不足，本发明提供一种基于改进Swin-Transformer的网络攻击识别模型方法，实现更好的特征提取效果，提高网络攻击分类是不的有效性和准确度。

本发明的技术方案为：

一种基于改进Swin-Transformer的网络攻击识别方法，本发明提出一种基于改进Swin-Transformer的网络攻击识别模型，模型具有卷积神经网络CNN和Swin-Transformer模型中的自注意力机制的优势。首先用卷积神经网络CNN进行数据特征提取，然后经过Swin-Transformer模型中的多头注意力机制，窗口式多头自注意力挖掘局部和整体的信息，更紧凑地挖掘特征信息，最后将提取的特征要素输入模型尾部的全连接Softmax分类网络进行攻击识别。具体实施时，首先对网络特征数据进行匹配模型输入的预处理后输入网络攻击识别模型，如图4所示，模型中的卷积特征提取层和Swin-Trans层进行网络特征数据的挖掘，将挖掘特征输入Softmax分类网络中，得到网络攻击识别结果。

包括如下步骤：

步骤S1：对网络流量特征数据进行预处理，得到二维输入特征图F；

网络攻击识别模型的输入数据为网络流量特征数据，包括网络流量的流特征、基本特征、内容特征、时间特征、通用特征以及连接特征等多种特征。特征类型包括数值型和字符型，需要进行one-hot独热编码处理字符型特征。为匹配卷积网络的输入格式，将1维的网络流量特征数据矩阵化，转为网络流量二维特征矩阵，进一步得到二维输入特征图F。

步骤S11：数据平衡处理

对输入的网络流量特征数据集进行数据平衡处理，降低大样本数据的数量，保留小样本数据数量，以达到样本数量均衡的目的。

步骤S12：数据one-hot编码

使用one-hot独热编码，将网络流量数据字符型特征在经过one-hot处理后变为网络流量数据数值型特征。

步骤S13：数据矩阵化

通过数据矩阵化方法将数据维度特征向量转化为二维特征矩阵，1维数组reshape操作转换为N*N的二维数组，其中对于特征不足数据进行填空补足。

步骤S14：数据归一化

为防止数值的特征会对最后的模型分类结果造成影响，将经过矩阵化的数据进行归一化，得到网络攻击识别模型的二维输入特征图F。

步骤S2：构建基于改进Swin-Transformer的网络攻击识别模型；

针对网络攻击识别中，网络要素特征提取困难且分类受限的问题，相比于现有网络攻击识别方法，本发明基于transformer与CNN，实现网络攻击识别模型的构建。本发明融合CBAM-ResNet(有CBAM注意力机制的卷积神经网络模型)和Swin-Transformer模型构建网络攻击识别模型，模型包括：卷积特征提取模块、、Swin-Trans模块(包括窗口式多头注意力机制模块)和全连接Softmax分类网络。卷积特征提取模块包括CBAM注意力模块；CBAM注意力模块包括通道注意力模块和空间注意力模块。Swin-Trans模块中的窗口式多头自注意力机制进一步用于实现局部和全局的数据特征挖掘。其中，Swin-Trans模块基于Swin-Transformer图像分类模型，具体是去除了Swin-Transformer原模型头部的PatchPartition和Linear Embeding模块，并在模型头部加入有CBAM注意力机制的卷积网络特征提取层。

步骤S21：通过所构建网络攻击识别模型的卷积特征提取模块进行特征提取；

步骤S211：通道注意力模块

如图2，二维输入特征图F输入卷积特征提取模块中的CBAM注意力模块，先经过CBAM注意力模块的通道注意力模块进行特征提取，输出特征提取后的特征图F′。

步骤S212：空间注意力模块

经过通道注意力层输入特征图F转变为特征图F′，进入CBAM注意力模块中的空间注意力模块，降低特征图维度后，再经过一次卷积恢复到特征图原来的维度，提取得到网络流量的空间特征。

步骤S213：卷积特征提取层输出

如图2所示，输入数据特征图F连续通过三个CBAM注意力模块，将空间注意力模块输出的特征图和通道注意力模块输出的特征图合并，输出特征提取结果。

步骤S22：特征数据通过Swin-Trans模块，进一步提取特征图数据特征；

将卷积特征提取层的特征数据输入如图3所示的Swin-Trans模块(去除了PatchPartition和Linear Embeding模块的Swin-Transformer模型)，进一步提取特征图数据特征。具体实施时，采用如图3所示模型结构包括2、2、6、2排列的Swin Transformer模块，以及各部分链接的合并下采样层。

步骤S221：Swin-Trans模块特征图处理

Swin-Trans模块与Swin Transformer图像分类模型相比，去除了PatchPartition和Linear Embeding模块，通过一个卷积核为4x4的卷积层，实现改变输入特征图的形状，再输入模型的Swin-Trans模块。

步骤S222：特征数据经过Swin-Trans模块中Swin Transformer Block模块的窗口式多头自注意力挖掘局部和整体的信息；

如图3的Swin-Trans模块结构图所示，特征图F′数据重复进入Patch Merging层进行下采样，后进入Swin Transformer Block模块，每个Swin Transformer Block中采用窗口式多头自注意力W-MSA和移动窗口多头自注意力SW-MSA，每个窗口单独计算注意力和移动窗口实现窗口之间的信息交流，在Swin Transformer Block模块中特征图数据重复经过层归一化LN层和窗口式多头自注意力W-MSA或者移动窗口多头自注意力SW-MSA，两种窗口式自注意力分别实现窗口内和窗口间的特征信息交流。如图3中所示，每个SwinTransformer Block模块中成对使用W-MSA和SW-MSA结构，先使用W-MSA，后面连接使用SW-MSA。

步骤S23：有监督分类网络(全连接Softmax分类网络)；

如图4所示，将提取特征输入模型的有监督分类网络模块，先通过一个LN层、后链接一个全局平均池化层、最后通过一个带Softmax的全连接层，输出网络攻击特征数据的分类结果，包括：正常、拒绝访问、蠕虫等多种攻击类别。

将网络流量特征历史数据集采用步骤S1的方法进行处理，得到的二维输入特征图F输入到步骤S2构建的基于改进Swin-Transformer的网络攻击识别模型进行训练，得到训练好的模型。

步骤S3：将待识别的网络流量特征数据采用步骤S1的方法进行处理，得到的二维输入特征图，输入到训练好的模型中，得到网络攻击分类。

与现有技术相比，本发明的有益效果是：

第一，本发明提出一种基于改进Swin-Transformer的网络攻击识别模型方法，加入CBAM注意力的卷积特征提取层有效提高了模型的特征提取能力，Swin Transformer中的层级构建和窗口式自注意力能够有效从特征图全局提取信息，更好地提取图像特征实现识别准确率的提升。

第二，在模型的前端加入的CBAM-ResNet模块，可利用卷积神经网络对于局部数据关联性的关注特点，实现增强模型局部建模能力的目的，实现提高识别准确率的目的，也可以在整体上增强模型泛化能力、减小模型对数据量的依赖。

附图说明

为了更清楚地阐述本发明现有技术中的技术方案或实施例，下面将简单地介绍实施例中需要使用的附图，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图

图1是本发明实施例提供的网络攻击识别流程框图。

图2是本发明实施例提供的卷积特征提取层结构框图。

图3是本发明实施例提供的Swin-Trans模块结构框图。

图4是本发明实施例提供的网络攻击识别模型结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提出一种基于改进Swin-Transformer的网络攻击识别模型方法，针对网络攻击识别中，网络要素特征提取困难且分类受限的问题，融合CBAM-ResNet和SwinTransformer构建网络攻击识别模型，综合利用了卷积和自注意力的优势。首先用卷积神经网络CNN进行数据特征提取，后经过Swin-Transformer模型中的多头注意力机制，连接任何位置的信息，更紧凑地挖掘特征信息，最后将提取地特征要素输入分类网络进行攻击识别。模型窗口式自注意力能够有效从特征图全局提取信息，更好地提取图像特征实现识别准确率的提升，添加的CBAM-ResNet模块能增强模型局部建模能力，实现提高识别准确率的目的。

针对网络攻击识别中，网络要素特征提取困难且分类受限的问题，相比于现有网络攻击识别方法，本发明基于transformer与CNN，实现网络攻击识别模型的构建，如图4模型结构图所示，本发明的网络攻击识别模型结构中，Swin-Trans层模块来自于Swin-Transformer图像分类模型，去除了Swin-Transformer原模型头部的Patch Partition和Linear Embeding模块，并在模型头部加入有CBAM注意力机制的卷积网络特征提取层。如图4所示，融合CBAM-ResNet(有CBAM注意力机制的卷积神经网络模型)和Swin-Transformer模型构建网络攻击识别模型，包括：卷积特征提取模块、多头注意力机制模块、Swin-Trans模块和全连接Softmax分类网络。卷积特征提取模块包括CBAM注意力模块；CBAM注意力模块包括通道注意力模块和空间注意力模块。Swin-Trans模块中的窗口自注意力机制进一步是实现局部和全局的数据特征挖掘。

本发明所述方法具体包括4个执行步骤。网络攻击识别模型方法过程中执行这4个步骤，通过步骤S1进行网络攻击特征数据的预处理，在步骤S2、S3和S4中进行网络数据的特征提取和分类网络的网络攻击分类识别：

步骤S1：数据预处理

步骤S11：数据平衡处理

在数据处理中，数据集中不同类别的样本数量不均衡可能导致模型对样本数量较多的类别过于偏重，忽略了样本数量较少的类别。进行数据平衡处理旨在减少不同类别之间的样本数量差异，使得不同类别数据在网络攻击识别模型训练中具有相同的权重。对数据集进行数据平衡处理，降低大样本数据的数量，保留小样本数据数量，以达到样本数量均衡的目的，并提高模型的性能和泛化能力，让模型具有更好的适用性和实际意义。

步骤S12：数据one-hot编码

对于网络流量特征数据中的众多的离散型特征，所以需要把离散型数据转换成数值型数据。使用one-hot即独热编码，将字符型特征在经过one-hot处理后变为数值型特征加上原有的数值型特征扩展数据维度。

步骤S13：数据矩阵化

由于网络攻击识别的特征提取模块中使用了卷积，因此将一维特征向量的转化为二维特征矩阵。数据矩阵化将数据维度特征向量转化为二维特征矩阵，1维数组reshape操作转换为N*N的二维数组，其中对于特征不足数据进行填空补足。

步骤S14：数据归一化

由于连续性数值型特征的取值范围不同，为防止数值的的特征会对最后的模型分类结果造成影响，且数据规范在一定范围内可以使模型加快收敛和提高精度，需要将经过矩阵化的数据进行归一化。归一化公式如下：

其中，x使维度中的值，min(x)和max(x)是维度中的最小值和最大值，x’是处理后的归一化值。

步骤S2：通过卷积特征提取层进行特征提取

步骤S21：通道注意力模块

卷积特征提取模块中的CBAM注意力机制，通道注意力在前，空间注意力在后。网络流量特征图F输入后，经过通道注意力模块，具体计算过程如下所示：

M_C(F)＝σ((MLP(AvgPool(F))+MLP(MaxPool(F)))

其中，M_C(F)为网络数据特征图经过注意力模块的输出结果；AvgPool表示的含义为平均池化操作和MaxPool表示的含义为最大池化操作，MLP用来计算全连接层，σ表示的含义为Sigmoid函数。

步骤S22：通道注意力模块

经过通道注意力层的特征图F′，进入空间注意力模块，并进行池化操作，然后通过卷积核为7x7的卷积层行Relu激活函数，降低特征图维度后再经过一次卷积恢复到特征图原来的维度，最后将经过Sigmoid激活函数归一化处理的特征图，计算公式如下所示：

M_S(F)＝σ(f^7×7[AvgPool(F)；(MaxPool(F)])

其中，M_S(F′)为空间注意力模块输出结果；f^7×7表示卷积操作；

步骤S23：卷积特征提取层输出

如图4所示，输入特征图F首先经过卷积核为7x7的一个卷积层，后接一个实现降采样的7x7的最大池化层操作，降采样后的特征图输入连续三个CBAM注意力模块。经过CBAM注意力模块，将空间注意力输出的特征图和通道注意力输出的特征图合并，输出特征提取结果。

步骤S3：Swin-Trans模块特征提取

步骤S31：Swin-Trans模块特征图处理

Swin-Transformer模型中特征图数据首先通过Patch Partition将输入特征图按照4x4相邻像素为一个patch划分为不重合的patch集合，把每个patch在通道方向展平得到的特征图。其次堆叠了4个stage构建不同大小的特征图进行注意力计算，只有第一个stage通过Linear Embedding变化特征维度，后三个stage通过Patch Merging来进行下采样，减半特征图的高和宽同时深度加倍。Swin-Trans模块对比Swin Transformer模型，去除了Patch Partition和Linear Embeding模块，通过一个卷积核4x4，步长stride＝4的卷积层，实现改变输入形状，来匹配W-MSA和SW-MSA的计算。

stage中Swin Transformer Block采用2、2、6、2分布，每个Swin TransformerBlock中采用窗口式多头自注意力W-MSA和移动窗口多头自注意力SW-MSA，每个窗口单独计算注意力和移动窗口实现窗口之间的信息交流，关注全局信息建模同时引入局部建模能力。

步骤S32：特征数据经过窗口式多头自注意力

在改变特征图维度以后，进入Swin Transformer Block模块，重复经过层归一化LN层和W-MSA或者SW-MSA。其中LN层的作用是取同一样本的不同通道做归一化，保证数据特征分布的稳定性。然后接一个DropPath层实现正则化，然后输入另一个LN层连接MLP(Multilayer Perceptron，多层感知机)，最后再接一个DropPath层。每个SwinTransformer Block模块中成对使用W-MSA和SW-MSA结构，第一个模块使用W-MSA，后面连接第二个模块使用SW-MSA。通过局部注意力和全局注意力构造特征图数据学习结果。

步骤S4：通过分类网络进行网络攻击分类识别

特征提取结果输入到有监督的分类网络中，进行网络攻击分类，设置的网络攻击类别包括：正常(Normal)、通用攻击(Generic)、漏洞攻击(Exploits)、模糊攻击(Fuzzers)、拒绝服务访问(DoS)、侦察攻击(Reconnaissance)、分析攻击(Analysis)、后门攻击(Backdoor)、外壳代码攻击(Shellcode)和蠕虫攻击(Worms)等多种。特征数据经过一个LN层、一个全局平均池化层和Softmax全连接层，输出网络数据的网络攻击分类结果。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于改进Swin-Transformer模型的网络攻击识别方法，其特征是，构建基于改进Swin-Transformer的网络攻击识别模型；首先通过网络攻击识别模型的卷积特征提取模块进行网络数据特征提取；然后经过网络攻击识别模型的Swin-Trans模块的多头注意力机制进一步挖掘得到网络特征信息；最后将提取到的网络特征信息输入网络攻击识别模型尾部的全连接Softmax分类网络进行网络攻击识别；包括如下步骤：

网络流量特征数据包括网络流量的流特征、基本特征、内容特征、时间特征、通用特征以及连接特征；预处理包括：数据平衡处理、独热编码处理、数据矩阵化和数据归一化；

步骤S2：基于CBAM-ResNet模型和Swin-Transformer模型构建网络攻击识别模型并进行训练；

网络攻击识别模型包括：卷积特征提取模块、Swin-Trans模块和全连接Softmax分类网络；

卷积特征提取模块包括CBAM注意力模块；CBAM注意力模块包括通道注意力模块和空间注意力模块；

二维输入特征图F输入卷积特征提取模块中的CBAM注意力模块，先经过CBAM注意力模块的通道注意力模块进行特征提取，输出特征提取后的特征图F′；

F′进入CBAM注意力模块中的空间注意力模块，降低特征图维度后，再经过一次卷积恢复到特征图原来的维度，提取得到网络流量的空间特征；

连续通过三个CBAM注意力模块，将空间注意力模块输出的特征图和通道注意力模块输出的特征图合并，输出卷积特征提取结果；

Swin-Trans模块基于Swin-Transformer图像分类模型进行改进，即去除Swin-Transformer模型头部的Patch Partition模块和Linear Embeding模块，包括窗口式多头自注意力机制模块；在Swin-Trans模块的头部加入有CBAM注意力机制的卷积网络特征提取层；Swin-Trans模块中的窗口式多头自注意力机制用于进一步实现局部和全局的数据特征挖掘；

Swin-Trans模块通过卷积层实现改变输入特征图的形状；

改变形状的特征数据经过Swin-Trans模块中Swin Transformer Block模块的窗口式多头自注意力，包括：窗口式多头自注意力W-MSA和移动窗口多头自注意力SW-MSA；每个窗口单独计算注意力和移动窗口实现窗口之间的信息交流，先使用W-MSA，后使用SW-MSA；

步骤S23：全连接Softmax分类网络为有监督分类网络；将提取特征输入模型的全连接Softmax分类网络，先通过一个LN层、后链接一个全局平均池化层、最后通过带Softmax的全连接层，输出网络攻击特征数据的分类结果，即网络攻击类别；

将网络流量特征历史数据集采用步骤S1的方法进行处理，得到的二维输入特征图F输入到步骤S2构建的基于改进Swin-Transformer的网络攻击识别模型进行训练，得到训练好的网络攻击识别模型；

步骤S3：将待识别的网络流量特征数据采用步骤S1的方法进行处理，将得到的二维输入特征图，输入到训练好的模型中，即可得到网络攻击分类。

2.如权利要求1所述基于改进Swin-Transformer模型的网络攻击识别方法，其特征是，步骤S1：对网络流量特征数据进行预处理，得到二维输入特征图F；具体包括：

步骤S11：数据平衡处理：对输入的网络流量特征数据集进行数据平衡处理，降低大样本数据的数量，保留小样本数据数量，以使得样本数量均衡；

步骤S12：数据one-hot编码：使用one-hot独热编码，将网络流量数据字符型特征在经过one-hot处理后变为网络流量数据数值型特征；

步骤S13：数据矩阵化：通过数据矩阵化方法将数据维度特征向量转化为二维特征矩阵，1维数组reshape操作转换为N*N的二维数组，并对于特征不足数据进行填空补足；

步骤S14：数据归一化：将经过矩阵化的数据进行归一化，得到网络攻击识别模型的二维输入特征图F。

3.如权利要求1所述基于改进Swin-Transformer模型的网络攻击识别方法，其特征是，步骤S2通过卷积特征提取层进行特征提取，具体是：特征图首先经过卷积核为7x7的一个卷积层，后接一个实现降采样的7x7的最大池化层操作，降采样后的特征图输入连续三个CBAM注意力模块；经过CBAM注意力模块，将空间注意力输出的特征图和通道注意力输出的特征图合并，输出特征提取结果；

其中，网络流量特征图经过通道注意力模块的具体计算过程表示为：

M_C(F)＝σ((MLP(AvgPool(F))+MLP(MaxPool(F)))

其中，M_C(F)为网络数据特征图经过注意力模块的输出结果；AvgPool表示平均池化操作；MaxPool表示最大池化操作；MLP表示计算全连接层；σ表示Sigmoid函数；

特征图进入空间注意力模块并进行池化操作，然后通过卷积核为7x7的卷积层进行Relu激活，降低特征图维度后再经过一次卷积恢复到特征图原来的维度，最后经过Sigmoid激活函数归一化处理得到特征图；计算过程表示为：

M_S(F)＝σ(f^7×7[AvgPool(F)；(MaxPool(F)])

其中，M_S(F′)为空间注意力模块输出结果；f^7×7表示卷积操作。

4.如权利要求1所述基于改进Swin-Transformer模型的网络攻击识别方法，其特征是，Swin-Trans模块具体是通过一个卷积核为4x4、步长为stride＝4的卷积层，实现改变输入的网络特征图形状，用于后续W-MSA和SW-MSA进行计算。

5.如权利要求1所述基于改进Swin-Transformer模型的网络攻击识别方法，其特征是，Swin-Trans模块的窗口式多头自注意力机制具体是：进入Swin Transformer Block模块，重复经过层归一化LN层和W-MSA或者SW-MSA；其中LN层用于取同一样本的不同通道做归一化；然后接一个DropPath层实现正则化，然后输入到另一个LN层连接多层感知机MLP，最后再接DropPath层；每个Swin Transformer Block模块中成对使用W-MSA和SW-MSA结构；通过局部注意力和全局注意力构造特征图数据学习结果。

6.如权利要求1所述基于改进Swin-Transformer模型的网络攻击识别方法，其特征是，网络攻击类别，包括：拒绝访问类别、通用攻击类别、漏洞攻击类别、模糊攻击类别、侦察攻击类别、分析攻击类别、后门攻击类别、外壳代码攻击类别、蠕虫攻击类别。