CN117095243A

CN117095243A - 基于分支策略的小样本网络入侵检测增量学习分类方法

Info

Publication number: CN117095243A
Application number: CN202311345466.0A
Authority: CN
Inventors: 顾钊铨; 杜磊; 张明瑞; 段晨芸; 李嘉瑞; 李鉴明; 张志强; 廖清; 夏文; 李诗逸
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-11-21
Anticipated expiration: 2043-10-18
Also published as: CN117095243B

Abstract

本发明提供一种基于分支融合策略的小样本类增量网络入侵检测方法，包括：步骤一：将采集到的网络流量样本进行拆分处理，处理后的网络流量样本被转化为灰度图像表示；步骤二：将网络流量样本的灰度图像输入到骨干网络ViT中用于自监督模式的预训练以提高特征嵌入的表示能力；步骤三：初始化基础会话分支分类器的投影层参数，用于训练初始的检测分类模型；步骤四：学习每个新会话分支分类器模块，进而使用分支融合策略关联基础会话和新会话分支分类器从而帮助分类器模型完成训练和推理。本发明的有益效果是：本发明方法在不会遗忘已学习攻击类别的情况下，允许以增量、小样本、灵活的方式持续学习新攻击类别，实现保护目标网络系统免受恶意攻击。

Description

基于分支策略的小样本网络入侵检测增量学习分类方法

技术领域

本发明涉及网络信息安全技术领域，尤其涉及一种基于分支策略的小样本网络入侵检测增量学习分类方法。

背景技术

网络入侵检测系统 (NIDS) 检测网络系统中的多种恶意行为模式，是保护目标网络的可行方案。在过去的研究中已经提出了许多基于预定义类别的有监督学习网络入侵检测方法，但在实际应用中，数据格式是流式的，新的漏洞和攻击类别不断涌现，比如0-day、N-day，并且仅有少量的新攻击类别样本可被收集用于构建模型。这表明仅考虑已知的攻击类别，而不考虑不断容纳新增攻击类别的检测方法已无法满足有效网络入侵的实际应用需求。

考虑到已有攻击类别和持续新增攻击类别在可使用攻击样本数量上的差异，现有的解决方案主要可分为已知攻击类别模型训练和新攻击类别模型训练。在已有攻击类别模型训练中通过预定义类别的大规模训练样本预先训练一个初始检测模型用于预定义类别的网络入侵检测，进而在新攻击类别模型中采用不同的方法来帮助模型完成新攻击类别知识的学习。根据两个训练过程的划分，现有的解决方案主要有四种类型：基于模型重新训练的方法、基于模型微调的方法、基于增量学习的方法和基于小样本类增量学习的方法。在基于模型重新训练的方法中，当后续新增的攻击类别和样本可用时，利用所有可用的训练数据重新训练一个检测模型来替换初始的检测模型。随着数据的累积，训练样本越来越大，模型训练所需的时间也将线性增加，已有攻击类别和新增攻击类别可用样本数量的不平衡都严重阻碍了在现实世界中的应用。在基于模型微调的方法中，对后续不断新增的攻击类别仅利用收集的少量样本在初始检测模型上进行微调，而不考虑已使用过的大量训练样本，导致在学习新的攻击类别知识时存在严重的灾难性遗忘。基于增量学习的方法以增量的方法学习新攻击类别知识，并且仅使用每次新增数据。然而，这种类型的方法受到可用攻击样本数量的限制，当只有少量样本可用时面临严重的类不平衡问题，过拟合问题导致新类别检测性能不佳。此外，攻击样本的获取难度大，标注成本高也是应用时的难点。在此基础上，小样本类增量学习的方法被提出，能够实现使用少量的攻击样本不断学习新的攻击类别，同时不会忘记学习到的攻击类别知识。这种类型的方法被考虑为一种可行的解决方案。

现有的小样本类增量学习方法大多采用标准的监督模式来训练预训练模型。然而，标准的监督模式需要依赖于样本标签，在有限样本可用时无法有效增强模型的泛化能力。此外，使用预训练模型作为统一的特征提取器不可避免地混淆不同类别样本地特征嵌入，从而损失不同类别样本特征嵌入的独特性。为此，设计一个以增量方式学习只有少量样本的新攻击类别，同时不会忘记已经学习的攻击类别知识的网络入侵检测模型是一个紧迫的问题。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于分支策略的小样本网络入侵检测增量学习分类方法。

本发明提供了一种基于分支策略的小样本网络入侵检测增量学习分类方法，包括以下步骤：

步骤一：通过网络流量表示模块采集网络流量样本，网络流量样本包括已有攻击类别样本和新增攻击类别样本，将采集到的网络流量样本按照五元组、双向流的格式进行拆分处理，处理后的网络流量样本被转化为灰度图像；

步骤二：特征提取器使用ViT模型作为骨干网络，将所述步骤一的灰度图像输入ViT模型用于完成自监督模式的预训练以提高特征嵌入的表示能力，从而形成自监督预训练模型的参数；

步骤三：分支分类器学习模块包括基础会话分支分类器和新会话分支分类器，自监督预训练模型的参数在基础会话分支分类器中被进一步训练以完成初始的检测分类模型；

步骤四：对每个分支分类器学习模块进行学习训练，使用分支融合策略关联基础会话分支分类器和新会话分支分类器以帮助ViT模型的有效训练和推理。

作为本发明的进一步改进，在所述步骤一中，每个网络流量样本由不同数量的数据包组成，每个数据包由可变长度的字节组成，使用网络流量样本的前个数据包来表示整个网络流量样本，每个数据包前/>个字节表示；检查每个网络流量样本的数据包个数和每个数据包的字节数是否满足要求，即数据包的长度是否为/>，前/>个数据包中每个数据包的字节数是否为/>，如果不满足，则补0填充，如果超过，则将超出的部分截断，进而，数据包中的前/>个字节被表示为数值矩阵/>，/>表示数据包的高度，/>表示数据包的宽度，个数据包按到达的时间序列排列，最终网络流量样本被转换成灰度图像/>。

作为本发明的进一步改进，在所述步骤一中，还包括：

归一化步骤：将每个字节的数值归一化到范围0-1；

匿名化步骤：使用匿名化将网络流量样本的数据包中的 MAC 和 IP 地址替换为全0；

灰度图像设置步骤：将灰度图像设置为正方形，即，网络流量样本数据包的长度/>设置为 16，数据包的字节数/>设置为256。

作为本发明的进一步改进，在所述步骤二中，ViT模型将输入的灰度图像划分为多个块，使用块之间的位置编码表示块之间的时间序列关系，以满足网络流量数据格式要求，数据包对应划分的块，数据包的时间序列关系对应块间的位置编码。

作为本发明的进一步改进，在所述步骤二中，采用补丁掩码数据增强技术训练特征提取器，具体为：灰度图像通过随机块掩码增强，每个块和位置嵌入被输入到ViT模型中，每个块大小为，对应网络流量样本中的一个数据包。

作为本发明的进一步改进，所述步骤三包括：

步骤S1：针对不同会话进行重新投影，以增强不同会话中攻击类别样本特征嵌入的区分性；

步骤S2：使用余弦距离cosine作为度量函数计算网络流量样本的特征嵌入和所有类原型向量之间的相似度得分。

作为本发明的进一步改进，所述步骤S1具体为：

将所有会话的学习分为基础会话分类器学习阶段和新会话分类器学习阶段，基础会话分类器学习阶段对应已有攻击类别的学习，新会话分类器学习阶段对应新增攻击类别的学习，每个会话都设有一个对应的投影层用于学习原始特征嵌入的重新投影。

作为本发明的进一步改进，在执行所述步骤三之前，要先优化特征提取器的参数，特征提取器的参数优化和基础会话投影层的训练同时进行；在所述步骤S1中，在新会话分类器学习阶段，只训练新会话的投影层/>，基础会话的重投影参数用于新会话重投影的初始化，然后微调以适应新会话的攻击类别。

作为本发明的进一步改进，在所述步骤四中，包括：

分类器的训练步骤：在分类器的训练过程中，首先初始化会话投影层的参数和会话类的原型向量，然后通过计算网络流量样本的特征表示和会话类中的原型向量的相似度得分优化会话投影层的参数，新会话的投影层使用基础会话投影层的参数进行初始化后，再计算与所有已学习类原型的相似度分数；

分类器的推理步骤：在分类器推理期间，查询样本的特征嵌入被输入到对应分支分类器的投影层，并为每个会话计算所有类原型向量和相似度分数，不同会话的相似度得分被融合成一个完整的相似度得分矩阵，相似度得分最高的预测标签作为最终的预测结果。

本发明的有益效果是：1. 本发明方法在不会遗忘已学习的攻击类别的情况下，允许以增量、小样本、灵活的方式持续学习新攻击类别，实现了保护目标网络系统免受恶意攻击；2.本发明的方法具有很好的特征嵌入表示能力，并能够持续保持所有已见过攻击类别之间的判别能力。

附图说明

图1是本发明原始网络流量转化为灰度图像表示实例图；

图2是本发明基于分支策略的小样本网络入侵检测增量分类方法的整体框架图。

实施方式

本发明提出了一种基于分支策略的小样本网络入侵检测增量分类方法，该方法具有很好的特征嵌入表示能力，并持续保持所有已见过攻击类别之间的判别能力。本发明所提出的方法包括三个模块：网络流量表示模块、特征提取器模块和分支分类器学习模块。网络流量表示模块用于对捕获到的网络流量按照五元组格式进行拆分，进而转化为灰度图表示。特征提取器模块使用Visual Transformer (ViT) 作为骨干网络来学习网络流量样本的行为模式，并使用自监督模式的预训练模型来学习更丰富的特征嵌入。分支分类器学习模块包括基础会话分支分类器和新会话分支分类器，通过为不同的分支分类器设置对应的重新投影以增强不同攻击类别特征嵌入的判别性。基础会话分支分类器的投影层和基础分类器同时训练，后续的新会话分支分类器仅训练投影层，进一步使用分支融合策略关联不同分类器之间的上下文关系，辅助模型的训练和推理。

为了保护目标网络系统免受恶意攻击，本发明提出了一种基于分支策略的小样本网络入侵检测增量分类方法，包括以下步骤：

本发明提出了一种简洁直观的网络流量表示方法，该方法将网络流量样本转换为灰度图像，同时保持网络流量数据包之间的时间序列关系。具体来说，每个网络流量样本由不同数量的数据包组成，每个数据包由可变长度的字节组成。使用样本的前个数据包来表示整个样本，每个数据包前/>个字节表示。每个网络流量样本是一个网络流量会话，一个会话包括多个数据包（packets），每个数据包中的数据是二进制的字节。对于每个数据包前个字节表示，就是提取每个数据包中的/>个二进制字节码。为规范数据的输入格式需要检查网络流量样本的数据包个数和每个数据包的字节数是否满足要求：网络流量样本的数据包的长度为/>，前/>个数据包中每个数据包的字节数为B。如果不足，则补0填充；如果超过，则将超出的部分截断。进而，数据包中的前B个字节被表示为数值矩阵/>，/>表示数据包的高度，/>表示数据包的宽度，/>个数据包按到达的时间序列排列，最终样本为转换成灰度图像/>。

在所述步骤一中，还包括：

归一化步骤：由于网络流量数据包的字节采用8位十六进制编码，每个字节的数值类型对应灰度图中的一个像素值，范围为0-255，进一步将数值归一化到范围0-1以便于建模和参数优化。

作为本发明的进一步优选，出于安全和隐私原因，使用匿名化将网络流量样本的数据包中的 MAC 和 IP 地址替换为全 0。

作为本发明的进一步优选，为了处理方便，将灰度图像设置为正方形，即。网络流量样本数据包的长度/>和数据包的字节数/>的大小分别设置为16 和 256。以一个DoS-GoldenEye攻击样本为例，每个数据包的256个字节表示为数值为矩阵/>，整个攻击样本用灰度图表示为/>。该处理过程如图1所示。

为了获得更丰富的特征嵌入，本发明采用自监督的方式来预训练特征提取器。在网络流量表示模块中，网络流量样本被转换为灰度图像，由于网络流量中数据包所具有的时间序列特性，灰度图像并不直接等同于灰度图像。一个合适的特征提取器模块应该能够学习网络流量样本中的两个方面的信息，包括每个数据包的特征嵌入和数据包之间的上下文时间序列关系。Visual Transformer (ViT) 将输入的灰度图像划分为多个块，使用块之间的位置编码来表示块之间的时间序列关系，其能够满足网络流量数据格式要求，数据包对应划分的块，包的时间序列关系对应块间的位置编码。本发明选择ViT模型作为特征提取器的骨干网络架构。此外，采用补丁掩码数据增强技术来训练特征提取器。灰度图像通过随机块掩码增强，每个块和位置嵌入被输入到ViT模型中，每个块大小为，对应网络流量样本中的一个数据包，如图2中的(a)所示。

分支分类器学习模块负责网络流量样本的攻击检测任务，在攻击检测任务上，本发明采用原型网络的方式计算分类相似度，它是一种采用度量思想的小样本学习方法。在训练过程中，提供给模型（小样本网络入侵检测增量学习分类模型）的数据是支持集和查询样本。支持集包含来自多个类的数据，用于计算类的原型向量。类原型是类样本特征嵌入的平均值，计算公式为：

表示第i个会话中第k个类的原型向量，/>，/>是支持集，/>是特征提取器。/>是样本/>的真实标签。查询集样本的预测标签是用类原型向量计算的相似度得分最高的类。在FSCIL（小样本类增量学习）任务中，只有训练数据可用，而不是将其分为支持集和查询集，而是将其作为查询集来训练特征提取器，然后将其用作支持集来更新类原型向量。此外，本发明实施了更简单的训练策略，而不是情景元学习。为此，本发明利用随机初始化的原型向量和样本的特征嵌入来训练特征提取器并计算相似度得分。

所述步骤三包括：

在小样本类增量网络入侵检测中，使用一个特征提取器为所有会话提取最佳特征表示的同时不可避免的会丢失不同会话中攻击类别所特有的特征表示。为了缓解这个问题，本发明提出针对不同会话进行重新投影，以增强不同会话中攻击类别样本特征嵌入的区分性。如图2中的(b)所示，所有会话的学习分为两个阶段，基础会话学习阶段和新会话学习阶段，分别对应已有攻击类别和新增攻击类别的学习。每个会话都有一个对应的投影层用于学习原始特征嵌入的重新投影。此外，自监督预训练骨干网络是灰度图像重建任务，下游任务是攻击检测任务。预训练特征提取器与下游应用有不同的优化目标，在应用于攻击检测任务之前，需要优化特征提取器的参数。为了节省模型（小样本网络入侵检测增量学习分类模型）训练所需的时间，特征提取器的优化和基础会话/>层的训练同时进行。

表示预训练的特征提取器，/>和/>对应基础会话和后续会话/>层的训练。/>是一个全连接神经网络层，用于将样本的原始特征嵌入转换到另一个特征表示空间。

在新会话分类器学习阶段，只训练新会话的投影层。由于新会话中每个类只有少量数据可用，基础会话的重投影参数用于新会话重投影的初始化，然后微调以适应新会话的攻击类别。

步骤S2：使用余弦距离cosine作为度量函数计算网络流量样本的特征嵌入和所有类原型向量之间的相似度得分。表示第i个会话中的类原型向量。

步骤四：为了打破在增量学习过程中不同会话分支分类器学习之间的界限，对每个分支分类器学习模块进行学习训练，并使用分支融合策略关联基础会话分支分类器和新会话分支分类器以帮助ViT模型的有效训练和推理。

在步骤四中，包括：

分类器的训练步骤：在分类器的训练过程中，首先初始化会话投影层的参数和会话类的原型向量，然后通过计算网络流量样本的特征表示和会话类中的原型向量的相似度得分优化投影层的参数。新会话的投影层使用基础会话投影层的参数进行初始化，并计算与所有已学习类原型的相似度分数。每个会话中有一些类原型向量，并且每个会话中的类别标签不同。

分类器的推理步骤：在分类器推理期间，查询样本的特征嵌入被输入到对应分支分类器的投影层，并为每个会话计算所有类原型向量和相似性分数。P表示目前已学习过的所有类原型向量集合。

使用交叉熵损失函数计算分支分类器的训练损失，并使用反向传播算法优化模型。这些不同会话的相似度得分被融合成一个完整的相似度得分矩阵，相似度得分最高的预测标签作为最终的预测结果。

本发明的创新点为：

1.提出了一种基于分支策略的小样本网络入侵检测增量分类方法，该分支策略能够融合不同会话分支分类器的上下文关系；

2.提出了采用自监督预训练的ViT骨干模型来表示网络流量特征表示，并使用带有块掩码来获得更丰富的特征表示；

3.提出了一种简洁直观的网络流量表示方法，该方法将网络流量表示为灰度图像，同时保持数据包之间的时间序列关系。

本发明的有益效果是：1.本发明方法在不会遗忘已学习的攻击类别的情况下，允许以增量、小样本、灵活的方式持续学习新攻击类别，实现了保护目标网络系统免受恶意攻击；2.本发明的方法具有很好的特征嵌入表示能力，并能够持续保持所有已见过攻击类别之间的判别能力。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于分支策略的小样本网络入侵检测增量学习分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的小样本网络入侵检测增量学习分类方法，其特征在于，在所述步骤一中，每个网络流量样本由不同数量的数据包组成，每个数据包由可变长度的字节组成，使用网络流量样本的前个数据包来表示整个网络流量样本，每个数据包前/>个字节表示；检查每个网络流量样本的数据包个数和每个数据包的字节数是否满足要求，即数据包的长度是否为/>，前/>个数据包中每个数据包的字节数是否为/>，如果不满足，则补0填充，如果超过，则将超出的部分截断，进而，数据包中的前/>个字节被表示为数值矩阵/>，/>表示数据包的高度，/>表示数据包的宽度，/>个数据包按到达的时间序列排列，最终网络流量样本被转换成灰度图像/>。

3.根据权利要求2所述的小样本网络入侵检测增量学习分类方法，其特征在于，在所述步骤一中，还包括：

归一化步骤：将每个字节的数值归一化到范围0-1；

灰度图像设置步骤：将灰度图像设置为正方形，即，网络流量样本数据包的长度/>设置为16，数据包的字节数/>设置为256。

4.根据权利要求1所述的小样本网络入侵检测增量学习分类方法，其特征在于，在所述步骤二中，ViT模型将输入的灰度图像划分为多个块，使用块之间的位置编码表示块之间的时间序列关系，以满足网络流量数据格式要求，数据包对应划分的块，数据包的时间序列关系对应块间的位置编码。

5.根据权利要求4所述的小样本网络入侵检测增量学习分类方法，其特征在于，在所述步骤二中，采用补丁掩码数据增强技术训练特征提取器，具体为：灰度图像通过随机块掩码增强，每个块和位置嵌入被输入到ViT模型中，每个块大小为，对应网络流量样本中的一个数据包。

6.根据权利要求1所述的小样本网络入侵检测增量学习分类方法，其特征在于，所述步骤三包括：

步骤S2：使用余弦距离作为度量函数计算网络流量样本的特征嵌入和所有类原型向量之间的相似度得分。

7.根据权利要求6所述的小样本网络入侵检测增量学习分类方法，其特征在于，所述步骤S1具体为：

8.根据权利要求7所述的小样本网络入侵检测增量学习分类方法，其特征在于在，在执行所述步骤三之前，要先优化特征提取器的参数，特征提取器的参数优化和基础会话投影层的训练同时进行；在所述步骤S1中，在新会话分类器学习阶段，只训练新会话的投影层/>，基础会话的重投影参数用于新会话重投影的初始化，然后微调以适应新会话的攻击类别。

9.根据权利要求1所述的小样本网络入侵检测增量学习分类方法，其特征在于，在所述步骤四中，包括：