CN117527389A

CN117527389A - 一种可变形视觉转换器的工业入侵检测方法

Info

Publication number: CN117527389A
Application number: CN202311552887.0A
Authority: CN
Inventors: 何戡; 张伟; 宗学军; 宁博伟; 连莲; 孙逸菲; 郑洪宇; 王国刚
Original assignee: Shenyang University of Chemical Technology
Current assignee: Shenyang University of Chemical Technology
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-06

Abstract

本发明一种基于可变形视觉转换器的入侵检测方法，涉及一种工业控制网络入侵检测方法，本发明可变形视觉转换器(DE‑VIT)加入了一种新的可变形注意力机制模块，其中可变形注意力机制中的键和值对的位置以数据依赖的方式选择，这种灵活的方案使可变形注意力机制模块能够专注于相关区域并捕获更多信息特征。不仅减少了算力，而且取到比VIT更好的效果。在嵌入层还使用了deformable convolution增加了patch的感受野,同时为了提高DE‑VIT局部特征的建模能力，提出了一种滑动窗口机制，同时采用分层焦点损失函数提高了分类效果，解决了数据不平衡的问题。

Description

一种可变形视觉转换器的工业入侵检测方法

技术领域

本发明涉及一种工业控制网络入侵检测方法，特别是涉及一种可变形视觉转换器的工业入侵检测方法。

背景技术

随着互联网的高速发展，在给人们带来便捷的同时，也伴随的大量的多媒体信息在互联网传播，黑客的攻击和信息的泄漏也向互联网安全发出挑战，摆在面前的问题是，如何有效的防止网络入侵是网络安全的主要问题，为了解决这个问题，发展入侵检测技术成为了必要。

如果设计一个安全有效的网络入侵检测系统，首先检测已成为所有依赖信息系统的基础设施的首要任务。这些攻击在数量和复杂性上都在不断发展，导致许多组织使用传统的网络防御系统，而这些系统可能无法阻止此类攻击。由于连接到互联网的设备的多样性创造了重要的攻击媒介，因此企业网络的完全安全更加复杂。因此，在攻击发生之前或过程中识别攻击就成为保护数据隐私和维护的必要条件。

从经济损失到敏感信息被盗，甚至是关键基础设施中断。多年来，网络安全领域通过实施新的创新网络防御工具来跟踪这一技术进步。长期以来，基于规则的检测系统被集成到反病毒和入侵检测系统(IDS)中，以从先前已知的模式检测网络和系统级入侵。这些方法的局限性在于它们很难泛化到新的模式，并且只需对攻击序列进行少量修改就足以绕过规则或签名检测。为了解决这些问题，机器学习(ML)和深度学习(DL)在网络安全任务中取得了巨大成功。

发明内容

本发明的目的在于提供一种可变形视觉转换器的工业入侵检测方法，该方法提出一种Deformable Vision Transformer(DE-VIT)的新的入侵检测模型；首先，基于VIT本身的特点，对模型进行了改进，使其更适合于入侵检测任务。更具体地说，由于VIT在直接将图像分割成固定长度的令牌时忽略了局部结构，通过使用滑动窗口机制来分割数据来改善这一缺点，可以更好地保留边缘信息。同时加入可变形注意力机制，因为在VIT中使用密集自注意力机制会导致过多的内存和计算成本，并且特征可能受到超出兴趣区域的不相关部分的影响。具体来说，每个查询补丁的键数过多会产生高计算成本和缓慢的收敛，并增加过拟合的风险。

另一方面，卷积模块使用了可变形卷积，在不增加卷积核的同时加大每个patch的感受野。同时在该模型中，使用分层焦点损失函数为具有不同分类效果的样本分配不同的权重。该模型既能有效拟合具有预测误差的样本，又能减弱离群点对模型的影响，提高分类效果。通过在CIC IDS2017和UNSW-NB15数据集上的仿真实验，证明了所提出的入侵检测方法显著提高了准确性。

本发明的目的是通过以下技术方案实现的：

一种基于可变形视觉转换器的工业入侵检测方法，所述方法包括以下步骤：

步骤1：对入侵检测数据集进行数据预处理，特征图像化，将其划分为训练集与测试集；

步骤2：将训练集先经过可变形卷积提取特征，并进行embedding，使得每个patch都为768维向量；

步骤3：将二维的图像展开为一维序列，经过归一化输入可变形注意力机制中，经过可变形注意力机制提取特征后，连一个全连接层，最后softmax输出；

步骤4：设置L-Focal损失函数负责计算预测值与真实值之间的差距，利用梯度下降算法更新网络参数，保存训练好的可变形视觉转换器模型；

步骤5：将测试集传入可变形视觉转换器模型完成分类。

所述的一种基于可变形视觉转换器的工业入侵检测方法，所述数据处理，将特征图像化后采用分块展开方法，更具体地说，对图像进行分块得到/>使用可变形卷积将图像变成一个向量大小为P×P×C的一维向量，然后对每个向量进行线性变换，将其维数压缩为D。

所述的一种基于可变形视觉转换器的工业入侵检测方法，所述可变形卷积实现如下：基于传统CNN对大型，未知形状变换的建模存在固有的缺陷，即卷积单元对输入特征图的固定位置进行采样，在同一层卷积中，所有的激活单元的感受野是一样的，但由于不同位置可能对应着不同尺度或变形的物体，因此对尺度或者感受野大小进行自适应是进行精确定位所需要的。

所述的一种基于可变形视觉转换器的工业入侵检测方法，所述可变形注意力机制；Deformable Vision Transformer由重复堆叠L次的编码块组成，编码块之间具有相同的结构；每个编码块有两个子层；其中包括归一化层、多头可变形注意力机制层和残差单元；另一部分包括归一化层、多层感知器和残差单元。

所述的一种基于可变形视觉转换器的工业入侵检测方法，所述可变形视觉转换器模型，根据可变形视觉转换器模型的分类结果作为入侵检测的识别结果。

本发明的优点与效果是：

本发明提出了一种尖端方法DE-VIT来应对入侵检测的挑战。DE-VIT通过将入侵检测数据转换为图像数据，采用图像分类算法来有效解决该问题。该方法不仅细化了原始的VIT，还采用了更先进的可变形注意力机制来代替自注意力。为了进一步优化模型，引入了增强的滑动窗口机制以实现卓越的边缘信息提取，同时利用可变形卷积来提取边缘信息并扩大每个块的感受野。为了注意力机制能学习到位置信息，使用正余弦位置编码来表示不同位置的不同特征，随着位置嵌入随着维度序列号逐渐变化，从而产生充满位置信息的纹理。

DE-VIT引入了一种创新的可变形注意力机制模块，该模块以数据依赖的方式选择键值对的位置。这种敏捷的解决方案使可变形注意力机制模块能够专注于相关区域并捕获更多信息特征，从而避免过多的内存和计算成本。为了解决数据集不平衡的问题，提出了一种分层焦点损失函数，称为L-Focal损失函数，将注意力集中在难以分类的样本上，从而提高分类精度。

实验结果证明了DE-VIT相对于其他算法的优越性。在二元分类实验中，在CICIDS2017数据集上获得了99.5％的准确率，在UNSW-NB15数据集上获得了97.25％的准确率，优于CNN、LSTM和DBN-KELM等大多数主流算法。在多分类实验中，算法继续超越其他算法，在大多数类别上实现了值得称赞的准确性和精确度。在损失函数的约束下，小样本的准确率没有明显下降，最终获得了总体令人满意的实验结果。

本发明的显著特点如下：

1.将DE-VIT应用于ids的设计。解决了CNN等传统神经网络在探索特征间空间关系方面效果不佳的问题，提高了检测模型的泛化能力。

2.输入图像的硬分割被滑动窗口机制所取代，使得在每个patch和相邻patch之间构建更好的相关性成为可能。因此，可以更好地对局部信息进行建模，例如边缘和线条。

3.加入可变形注意力机制计算距离无关的两个位置之间的关联，可以使模型更好更快地提取特征，同时能够专注于相关区域并捕获更多信息特征，降低运算力。加入可变形卷积增大每个patch的感受野，在不增加卷积核大小的情况下，使得每个patch蕴含更多的信息。

4.加入正余弦位置编码，由于不同位置代表特征不同，加入位置编码来赋予每个特征位置信息，可以使模型更好理解他们之间的关系。

5.使用分层焦点损失函数可以更有效地削弱异常值对所提模型的影响，在解决数据不平衡问题的同时提高分类效果。

附图说明

图1为本发明模型架构图；

图2为可变形卷积图；

图3为正余弦位置编码图；

图4为可变形注意力机制模块图；

图5为UNSW-NB15数据集可视化

图6为CIC IDS2017数据集可视化

图7为CICIDS2017数据集的训练曲线图；

图8为UNSW-NB15数据集上的DE-VIT架构的混淆矩阵；

图9为CICIDS2017数据集的DE-VIT架构的混淆矩阵。

具体实施方式

下面结合附图所示实施例对本发明进行详细说明。

本发明提出的入侵检测模型流程图如图1所示。提出的基于改进DE-VIT的入侵检测模型首先对数据集进行预处理，包括特征变量数字化、数据归一化，数据图像化。然后在二维空间重构数据后，通过可变形卷积滑动窗口提取数据，将提取的数据展开为序列，最后送入Deformable Vision Transformer(DE-VIT)提取特征，达到最佳结果进行分类，停止训练。

具体实施步骤如下：

步骤1：数据处理。将特征图像化后采用分块展开方法，更具体地说，对图像进行分块得到/>使用可变形卷积将图像变成一个向量大小为P×P×C的一维向量，然后对每个向量进行线性变换，将其维数压缩为D。

可变形卷积实现如下：基于传统CNN对大型，未知形状变换的建模存在固有的缺陷，即卷积单元对输入特征图的固定位置进行采样，在同一层卷积中，所有的激活单元的感受野是一样的，但由于不同位置可能对应着不同尺度或变形的物体，因此对尺度或者感受野大小进行自适应是进行精确定位所需要的。为了解决或者减轻这个问题，引入deformable convolution来提高对形变的建模能力。它基于一个平行网络学习offset(偏移)，使得卷积核在input feature map的采样点发生偏移，集中于感兴趣的区域或者目标，如图2所示。

传统的卷积是在输入特征图y上使用规则网格R进行采样，由w加权的采样值的总和。R是输出特征图的每个点的相对坐标，p₀为特征图y上的点，与卷积核中心点对应，p_n是p₀在卷积核范围内的每个偏移量。

R＝{(-1，-1)，(-1，0)，...，(0，1)，(1，1)}#(1)

而可变形卷积则在传统卷积的基础上为每个点引入了一个偏移量Δp_n，偏移量是由输入特征图与另一个卷积生成的，通常是小数。

由于加入偏移量后的位置非整数，并不对应feature map上实际存在的像素点，因此需要使用插值来得到偏移后的像素值，通常可采用双线性插值，p＝p₀+p_n+Δp_n，q枚举特征映射x中的所有积分空间位置，G(·，·)为双线性插值核。

步骤2：位置编码。在传统的自然语言处理任务中，RNN等序列模型包含单词位置信息。变压器使用自注意力机制来处理长序列，丢弃它们的位置信息，并使其对序列的顺序不敏感。然而，对于图像来说，每个patch的顺序包含了图像的整体结构，这些信息对物体的模式理解起着重要的作用。于是提出一种正余弦位置编码，如图3所示，由于不同位置代表特征不同，加入位置编码是非常有必要的。位置嵌入在维度上随着维度序号增大，周期变化会越来越慢，而产生一种包含位置信息的纹理。如公式(1)所示：

pos为第几个patch，d_model为每个patch的嵌入维度，i为第几个维度，根据其奇偶性分别计算。

步骤3：可变形注意力机制。Deformable Vision Transformer由重复堆叠L次的编码块组成，编码块之间具有相同的结构。每个编码块有两个子层。其中包括归一化层、多头可变形注意力机制层和残差单元。另一部分包括归一化层、多层感知器和残差单元。

传统的自注意力机制中，每个位置的特征向量都是通过对整个特征图进行加权求和得到的。而在可变形注意力机制中，每个位置的特征向量是通过对相邻小块的特征向量进行加权求和得到的，这些小块可以在不同的方向上进行平移、旋转、缩放等变换。这种可变形的方式使得模型能够更好地适应不同形状和大小的目标，并且能够更准确地捕捉目标之间的相互作用。

Transformer注意力应用于图像特征映射的核心问题是，它会查看所有可能的空间位置。为了解决这个问题，提出可变形注意力机制模块代替可变形注意力机制模块。其实可变形注意力机制最早也是受变形卷积启发，可变形注意模块只关注参考点周围的一小部分关键采样点，而不考虑特征映射的空间大小，如图4所示。通过为每个查询分配少量固定数量的键，可以减轻收敛和特征空间分辨率的问题。

给定一个输入特征映射设q索引一个具有内容特征z_q和二维参考点P_q的查询元素，可变形注意力特征计算式为：

其中，M表示注意头总数，K表示采样键总数，其中K是小于HW的。Δp_mqk、A_mqk分别表示第m个注意头和第k个采样点的采样偏移量和注意权值。注意权值A_mqk的取值范围为[0，1]，且为无约束范围的二维实数。由于P_q+Δp_mqk为分数阶，所以采用双线性插值来计算偏移后的实际数值，Δp_mqk、A_mqk都是通过查询特征z_q上的线性投影得到的。W_m、W′_m为投影矩阵.在实现中，将查询特征z_q馈送给3MK通道的线性投影算子，其中前2MK通道编码采样偏移量Δp_mqk，剩余的MK通道馈送给softmax算子获得注意权值A_mqk，因为每个注意头都有K个采样键，每个采样键都需要预测偏移量的横纵坐标，而权值只需要个数值。

计算总流程为二维参考点P_q加偏移量A_mqk得到偏移后的坐标，根据坐标得到在特征图x找到偏移后的值，然后偏移后的坐标在乘以注意权重A_mqk，最后经过全连接层输出。

步骤4：损失函数。为了解决入侵检测数据集的不平衡问题，提出了分层焦点损失函数，称为L-Focal损失函数。首先我将从二值分类的交叉熵损失出发，逐渐引入L-Focal损失函数。

其中y为样本的标签，y′∈[0，1]为模型对标签y＝1的类的估计概率。

CE(p，y)＝CE(p)＝-log(p)#(8)

在入侵检测数据集中不同标签类型的数量存在明显的不平衡，正常流量的样本明显多于其他类型攻击的样本。负样品造成的损耗占总损耗的绝大部分。该模型将攻击流量盲目预测为正常流量，减少了损失，提高了准确率。然而，这与初衷相反，使得模型的优化不能令人满意。L-Focal损耗函数通过设置权重因子α来控制正、负样本在总损耗中的权重，即样本数量越多，权重越小，对损失函数的影响也越小。

当易区分负样本超级多时，整个训练过程将会围绕着易区分负样本进行，进而淹没正样本，造成大损失。所以这里引入了一个调制因子γ，用来聚焦难分样本，在focalloss函数(1-p)^γ中，使用作为调节因子来增加难以分类的样本的损失，并削弱易于分类的样本对模型的影响。然而，对于具有不同输入值的指数参数，输出结果的差异可能非常大。所以异常值的存在会导致过拟合问题。

对于所提出的入侵检测模型，数据集中存在一些罕见的攻击类型(如U2R)是非常正常的现象。在模型训练过程中，直接使用(1-p)^γ作为调节因子的损失函数会导致损失不断缩小，但模型的精度并没有持续提高，而且精度会出现波动，不利于模型的发展。相比之下，在L-Focal损失函数中，对不同分类程度的样本进行分级。目标是使模型正确地对p＝0.5附近的样本进行分类，而不是苛化极可分类的样本p＞＞0.5和离群数据p＜＜0.5。

其中g(p)为调制因子，α∈[0，1]为加权因子，p∈[0，1]为模型的估计概率，0≤a≤0.5，0≤γ1＜γ2≤5。通过在L-Focal损失函数中设置一个值对样本进行分级，当p在[0.5-a，0.5+a]之间时，就是想要集中训练的样本。相反，样本要么是一个离群值，容易导致模型过拟合，要么是个容易分类的样本。而这些大量堆积的样本损失会主导梯度，不利于模型优化。

步骤5：最后模型预测的值和标签值通过损失函数计算预测值与真实值之间的差距，利用梯度下降算法更新网络参数，保存训练好的模型；

步骤6：输入测试集进行分类；

步骤7：根据可变形视觉转换器模型的分类结果作为入侵检测的识别结果。

下面为实验：

实验所使用的操作系统为windows10 64位系统，GPU为RTX-3060，运行内存12g，深度学习框架为pyrorch。

实验数据来源

在本研究中，使用的两个数据集是CIC IDS2017和UNSW-NB15。之所以选择这两个数据集，不仅是因为其中有各种各样的攻击类型，还因为它们具有需要的与服务器识别和到达时间相关的所有特征，CIC IDS2017和UNSW-NB15数据分布如表1所示。

表1数据集描述

数据预处理

去除掉标准差为零的无关特征，再去除一些脏数据，然后字符数值化和归一化，剩下64个特征，重塑为8×8的图像数据，UNSW-NB15数据集可视化如图5所示，CIC IDS2017数据集可视化如图6所示。

评价指标

有各种评价NIDS性能的指标，例如：真阳性(TP)，攻击样本预测为攻击样本；真阴性(TN)，正常样本预测为正常样本；假阴性(FN)，攻击样本预测为正常样本；FP(假阳性)，正常样本预测为攻击样本。基于以上指标，将使用以下指标对NIDS进行测试。

精度(P)：正确识别的攻击样本在所有被判断为攻击的样本中所占的比例。

召回率(RC)：衡量正确识别的攻击样本在整个攻击样本中的比例。

准确率(ACC)：正确分类的样本占所有正常和异常错误实例的百分比。

假阳性率(FPR)：所有正常样本中被判断为攻击的正常样本的比例。

DE-VIT中的输入图像大小为8×8，patchsize大小为3×3，隐藏层大小为768，多头可变性注意力的头部数量为12。层数为12，MLP大小为3072，可变形注意力机制中参考点周围的采样点为8，可变形卷积卷积核大小为3×3，步长为1。学习率采用余弦退火衰减策略。LFocal损失函数中，α＝0.65，γ1＝2，γ2＝3，α＝0.3。并与普通VIT模型实验作对比。

基于数据的两个标签(良性和恶性)做了分类结果，，并且将数据集分为三部分，70％的训练集，10％的验证集，20％的测试集，DE-VIT在CICIDS2017数据集的训练曲线如图7，CIC IDS2017和UNSW-NB15 datasets进行训练并做测试，精度(ACC)and假阳率(FPR)结果如表2所示。

表2实验最终结果

根据实验结果，已经证明DE-VIT在召回率，准确性和精度方面非常优秀。此外，结果表明DE-VIT可以在各种计算机视觉任务中提供更好的性能。这些发现对于计算机视觉领域的研究人员和从业者来说意义重大，因为他们可以利用DE-VIT来提高模型的准确性并增强其应用程序的性能。总体而言，这项研究的结果强调了为计算机视觉任务选择合适的模型的重要性，并展示了DE-VIT在这方面的潜力。

表3与其他二元分类方法的比较

表3为使用方法的DE-VIT模型在精度和准确率上与其他模型的对比，将结果与一些最新的使用机器学习或深度学习的NIDS方法进行比较，如BP、CNN、SVM、DBN和DBN-KELM，RNN，LSTM。图8和图9展示了UNSW-NB15数据集和CIC IDS2017数据集上用于二分类的DE-VIT架构的混淆矩阵。

总而言之，DE-VIT加入了一种新的可变形注意力机制模块，这种灵活的方案使可变形注意力机制模块能够专注于相关区域并捕获更多信息特征。不仅减少了算力，而且取得了更好的效果。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于可变形视觉转换器的工业入侵检测方法，其特征在于，所述方法包括以下步骤：

步骤5：将测试集传入可变形视觉转换器模型完成分类。

2.根据权利要求1所述的一种基于可变形视觉转换器的工业入侵检测方法，其特征在于，所述数据处理，将特征图像化后采用分块展开方法，更具体地说，对图像进行分块得到/>使用可变形卷积将图像变成一个向量大小为P×P×C的一维向量，然后对每个向量进行线性变换，将其维数压缩为D。

3.根据权利要求1所述的一种基于可变形视觉转换器的工业入侵检测方法，其特征在于，所述可变形卷积实现如下：基于传统CNN对大型，未知形状变换的建模存在固有的缺陷，即卷积单元对输入特征图的固定位置进行采样，在同一层卷积中，所有的激活单元的感受野是一样的，但由于不同位置可能对应着不同尺度或变形的物体，因此对尺度或者感受野大小进行自适应是进行精确定位所需要的。

4.根据权利要求1所述的一种基于可变形视觉转换器的工业入侵检测方法，其特征在于，所述可变形注意力机制；Deformable Vision Transformer由重复堆叠L次的编码块组成，编码块之间具有相同的结构；每个编码块有两个子层；其中包括归一化层、多头可变形注意力机制层和残差单元；另一部分包括归一化层、多层感知器和残差单元。

5.根据权利要求1所述的一种基于可变形视觉转换器的工业入侵检测方法，其特征在于，所述可变形视觉转换器模型，根据可变形视觉转换器模型的分类结果作为入侵检测的识别结果。