CN117729015A

CN117729015A - 一种基于对齐原型网络的小样本异常流量分类方法

Info

Publication number: CN117729015A
Application number: CN202311730942.0A
Authority: CN
Inventors: 王俊峰; 林同灿; 葛文翰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-19

Abstract

本发明提供了一种基于对齐原型网络的小样本异常流量分类方法，涉及网络安全技术领域。该方法包括对待分类流量进行抽取、采样、图像表征，形成待分类样本的集合，选用历史数据作为支撑集和查询集。利用骨干网络获取支撑集中各流量类别的类别原型P，并进行内部对齐和外部对齐获得类别原型计算待分类样本与属于各类别原型的概率，确定待分类样本的类别，并基于已预先分类的类别实现异常流量分类。该方法可在样本数量极少时抽取类别原型，实现高性能分类；内、外部对齐可避免监督崩溃，生成更加动态、精准的类别原型，可调整新型异常流量的特征抽取和类别原型刻画，与原型网络框架共同作用实现有效、高效的稀疏异常流量分类。

Description

一种基于对齐原型网络的小样本异常流量分类方法

技术领域

本发明涉及网络安全技术领域，特别是涉及一种基于对齐原型网络(AlignedPrototype Network，APN)的小样本异常流量分类方法。

背景技术

在如今网络攻击进化快的时代背景下，能采集到的新型异常流量的标记样本数量极少，当训练样本不足时，现有技术中基于数据支持的检测模型的性能会显著降低。

针对于此，小样本期望是一种更适用的识别检测方法。该方法利用少量的标记数据来学习异常的模式特征，可在减少训练成本的同时，提升对新型异常流量的检测能力，能够有效应对稀疏数据的挑战。但当前的小样本期望的方法在网络流量的环境下还面临监督崩溃和操作效率有限两个问题。

监督崩溃：对于网络流量而言，传输环境、报文格式、数据包上下文关系都存在着明显的相似性，但是上述不同的信息也蕴含着不同攻击模式的特征。因此，背景信息也就显得更加重要。在样本数量很少的情况下，背景信息的偏差较大，会导致监督崩溃的加剧。

操作效率：模型需要在特征提取和运行效率之间取得平衡，深度学习叠加模块以及孪生网络多次对比的方式会导致模型参数增多、复杂性提高、运行时间加长，不能够满足当前检测系统快速的要求。

发明内容

为解决现有技术中存在的上述技术问题，本发明提供了一种基于基于对齐原型网络的小样本异常流量分类方法。

该方法包括：采用带实际标签的历史样本作为支持集X_s和查询集X_q，

式中，C为类别c的集合，为X_s中的样本，/>为/>对应的类别，i＝1,2,...,K，K为/>的数量；/>为X_q中的样本，/>为/>对应的类别，j＝1,2,...,Q，Q为/>的数量；其中，类别已预先分类为正常流量类别和异常流量类别；

通过APN的骨干网络f(·)将X_s和X_q转换为一维表示，并平均所有的特征向量得到每个类别的类别原型P，

通过距离函数d计算和各类别原型P之间的距离，再通过SoftMax来计算/>属于各类别的概率/>

式中，c′为C中的任一类别，P′为c′的类别原型；

对有迁移权重为/>

通过迁移权重矫正类别原型P，获得经内部对齐的类别原型

式中，α为矫正阈值，α∈[0,1]；

计算查询集中样本和类别原型之间的余弦相似性度量/>

计算类别原型迁移到查询集空间所需的权重/>

基于类别原型空间到查询集空间的迁移向量调整类别原型获得经外部对齐的类别原型/>

式中，表示元素逐个相乘；

对网络流量T进行流量抽取、采样和图像表征，形成待检测样本的集合X；

通过距离函数d计算集合X中样本X_k和各类别原型之间的距离，再通过SoftMax来计算样本X_k属于各类别的概率，将概率最高的类别作为样本X_k的类别，并基于类别实现异常流量分类。

进一步地，该方法还包括：通过距离函数d计算和各类别原型之间的距离，再通过SoftMax来计算/>属于各类别的概率/>获取对应的预测分类/>

式中，c′为C中的任一类别，P′为c′的类别原型，y为的实际标签，为/>属于y对应类别的概率；

通过熵损失函数L_ori更新的标签；

L_ori＝CE((X_q,Y_q),C,P)；

式中，Y_q为的集合；

通过SoftMax计算属于各类别的概率，获取/>的预测分类，并与实际标签比对，通过交叉熵计算内部对齐的损失，

式中，Y_s为的集合；

通过SoftMax来计算属于各类别的概率，获取/>的预测分类，并与实际标签比对，通过交叉熵计算外部对齐的损失，

计算APN的总损失，

L＝L_ori+λL_IA+γL_EA；

式中，λ和γ为预先设置的权重参数，

通过APN的总损失更新类别原型

进一步地，比较与更新后的类别原型/>

优选地，上述采样具体为：保留五元组网络流量的前M个包，并截留每个包的前N²字节；五元组网络流量包括预设时段内的源IP、目的地IP、源端口、目的地端口和协议。

优选地，图像表征包括截断或掩盖网络流量每个字节序列的IP和端口，并将每个字节以16进制的方式转换为灰度数值；具体为：

重新排列T，生成W×H的像素矩阵；

当W×H≥M×N²时，像素矩阵的每个像素点对应一个字节的值；

当字节数量达到像素矩阵的宽度时，进行跳行排列，并以0填充空余像素点。

该方法基于原型网络框架，能够抽取类别的原型表示，可在样本数量极少的情况下实现较高性能的分类；引入内部对齐和外部对齐可避免监督崩溃，生成更加动态、精准的类别原型，可调整新型异常流量的特征抽取和类别原型刻画，与原型网络框架共同作用实现有效、高效的稀疏异常流量分类。

附图说明

图1为本发明中基于对齐原型网络的小样本异常流量分类网络(APN)的整体流程示意图。

图2为本发明中内部对齐和外部对齐的机制示意图。

图3为本发明中基于对齐原型网络的小样本异常流量分类网络(APN)的网络结构示意图。

图4为本发明中类原型和测试样本可视化分布的效果验证示意图。

图5为本发明中样本和原型的平均距离对比数据柱状图。

图6为本发明中类别间的原型距离对比数据柱状图。

具体实施方式

随着网络技术的高速发展和普及，全球网络所遭受的攻击数量也在不断增加。2022年，全球遭受高水平网络攻击的次数同比增长38％。随着ChatGPT等人工智能技术的快速进步，黑客可以更快、更自动化的方式产生新的、更复杂的攻击方法，开展攻击活动。海量网络攻击致使新的异常网络流量出现，使得本已具有挑战性的网络安全形势进一步加剧。因此，在稀疏环境下，对于网络异常流量的识别是一个重要的研究和应用方向，对于网络安全防御、网络安全建设具有重要价值。

网络异常流量检测和分类的发展已经历经了统计特征分析、规则分析、机器学习和深度学习等多个阶段。基于统计的方法利用的是网络流量的分布规律，通过计算已知的每一类的网络流量的概率密度函数的参数，然后再测试新的样本是否属于某种分布，包括单变量、多变量、时序模型等。规则分析通过创建一个知识库来定义规则对异常或正常流量进行刻画，包括有限状态机、描述语言、专家系统、指纹识别等，往往需要大量的专家经验并且鲁棒性差，不能适应网络攻击的快速发展。机器学习和深度学习方法已被广泛应用于提高异常流量检测的自动化和智能化。然而，其性能表现依赖于大量的训练样本，导致训练和分析成本较高。

而基于小样本期望检测分类方法存在监督崩溃和操作效率有限的问题，导致稀疏异常流量分类的效率有限。

基于以上技术问题，本发明提供了一种基于对齐原型网络的小样本异常流量分类方法，如图1所示，具体包括：

采用带实际标签的历史样本作为支持集X_s和查询集X_q，

式中，C为类别c的集合，为X_s中的样本，/>为/>对应的类别，i＝1,2,...,K，K为/>的数量；/>为X_q中的样本，/>为/>对应的类别，j＝1,2,...,Q，Q为/>的数量；其中，类别已预先分类为正常流量类别和异常流量类别。

其中，采用带实际标签的历史样本作为支持集X_s和查询集X_q具体包括：从所有的样本集合抽样组成任务集Episode，设定为N-WayK-Shot Q-Query的一个分类任务，其中N表示分类任务中类别的数量，K表示每个类中包括的支持集样本的数量，Q表示每个类包括的查询集样本的数目。在小样本框架中，定义每个分类任务中的训练和测试数据集为支持集和查询集。对于每次训练，APN随机组装任务，然后让模型执行分类任务，通过损失来指导模型更新。对于标签较少的新类，APN类似地构建分类任务，并提供有限的样本作为支持集。

通过骨干网络f(·)将X_s和X_q转换为一维表示，即获得其D维表示R^D，其中，R为实数集。

平均所有的特征向量得到每个类别的类别原型P，

式中，c′为C中的任一类别，P′为c′的类别原型。

对有迁移权重为/>

通过迁移权重矫正P，获得经内部对齐的类别原型

式中，α为矫正阈值，α∈[0,1]。其中，内部对齐机制如图2(a)所示。

计算查询集中样本和类别原型之间的余弦相似性度量/>

计算类别原型迁移到查询集空间所需的权重/>

基于类别原型空间到查询集空间的迁移向量调整类别原型获得经外部对齐的类别原型/>即比较类别原型/>与查询集样本之间的余弦相似性，

式中，表示元素逐个相乘。其中，外部对齐机制如图2(b)所示。

在长期多次的异常流量分类过程中，还需要根据APN网络的总损失对查询集中样本的类别原型进行更新。APN采用两层Conv2D作为骨干网络来执行输入样本的嵌入表示，并通过对嵌入空间中支持样本的表示进行平均来获得类原型。通过内部对齐和外部对齐来更新类原型，从而获得矫正后的类原型。其内部对齐模块通过支撑集的预测损失来矫正原型在样本分布空间中的偏差，外部对齐模块通过对比原型和查询集中样本之间的相似性，将原型嵌入进查询集的分布空间，生成动态矫正后的类原型。具体的，包括类别原型更新的异常流量分类流程如图3所示。

通过距离函数d计算和各类别原型之间的距离，再通过SoftMax来计算/>属于各类别的概率/>获取对应的预测分类/>

式中，y为的实际标签，/>为/>属于y对应类别的概率；

通过熵损失函数L_ori更新的标签；

L_ori＝CE((X_q,Y_q),C,P)；

式中，Y_q为的集合。

其中，CE((X_q,Y_q),C,P)为交叉熵，定义为：

式中，Y_s为的集合；

计算APN的总损失，

L＝L_ori+λL_IA+γL_EA；

式中，λ和γ为预先设置的权重参数，

通过APN的总损失更新类别原型

进一步地，还可以比较与更新后的类别原型/>

优选地，在进行采样时，可根据各系统样本所对应的历史数据的统计分析结果和经验判断选择合适的中位数设定数值M和N。具体地，保留五元组网络流量的前M个包，并截留每个包的前N²字节。而M之后的包和N²之后的直接内容全部截断。其中，五元组网络流量包括预设时段内的源IP、目的地IP、源端口、目的地端口和协议。

优选地，为对原始流量信息进行特征刻画，以便于人工智能模型进行处理，使用图像模态对流量进行表示。对于流量的每一个字节序列，预处理如IP、端口等头部字段信。然后按照十六进制读取字节序列，按照每8位对应一个16进制数的方式，将每个字节转换成一个0-255的数字，对应灰度图中的一个像素点。本方法采用灰度图像来压平通道，减少通道之间先验关系的影响，最大限度地保留原始输入信息的时空结构。具体操作包括：首先对原始流量进行重新排列，生成大小为W和H的像素矩阵，满足.像素的每个点对应字节的值，字节的值为0～255，因此像素矩阵在视觉上是灰度图像。线性排列用于组织像素，当达到图像的宽度时，像素继续排列在下一行。如果所有像素都排列完成，而图像空间仍然有剩余，则用0填充图像。

简言之，即截断或掩盖网络流量每个字节序列的IP和端口，并将每个字节以16进制的方式转换为灰度数值；具体为：重新排列T，生成W×H的像素矩阵；当W×H≥M×N²时，像素矩阵的每个像素点对应一个字节的值；当字节数量达到像素矩阵的宽度时，进行跳行排列，并以0填充空余像素点。

为验证本发明所以出技术方案的技术效果，发明人进行了如下实验评估。

选取CIC-IDS2017和CSE-CIC-IDS2018作为基准数据集，基于小样本场景进一步开展重构和验证。IC-IDS2017和CSE-CIC-IDS2018被广泛应用于入侵检测研究,是目前最新的完整数据集。它们具有多样的网络攻击类型、丰富的流量来源，以及反映真实环境的特点，并且都提供了原始流量数据，能够有效评估本发明方法对全流量信息的分析能力。

数据集和指标设计：基于小样本场景的设置，并基于两个数据集重新采样，保持与原始分布一致，分别控制每个类别中的样本数量，构建小样本异常流量数据集，分别命名为CIC-FS-IDS-2017和CIC-FS-IDS-2018。

CIC-FS-IDS-2017有9类异常流量，CIC-FS-IDS-2018有7类异常流量。采样数据分为训练支持集和测试集两部分.根据训练和支持样本的大小，数据集可以分为三类：充足、标准和少量。充足表示样本量在1000-2000之间，而标准表示样本量介于10-1000之间。少量表示样本数量非常少，在实验条件下，根据K值的设置，样本数量为1、5或10，并且这些样本在测试阶段仅用作支持集样本，在训练过程中，样本数量设置为0。

实验性能评估是作为一个多分类问题在测试集上进行的，其指标包括准确性、精确度、召回率和F1分数。所有度量都是使用多分类的宏平均值来计算的，以获得最终值。此外，实验评估还报告了用于模型检测的时间，以显示效率。20次后取平均值报告所有结果。

性能对比和分析：本次实验评估首先在CIC-FS-IDS2017的数据集上测试了5-Way5-Shot的异常流量分类任务，然后在CSE-FS-IDS2018数据集上测试了4-Way 5-Shot的分类任务，其分类性能评价如表1所示。

表1异常流量分类性能表现

从分类评价结果中，分析有以下发现：

(1)孪生网络在分类性能上略好于原型网络，并且比原型网络慢得多。从结果中可以看出，孪生网络的分类性能比原型网络高出1％，但运行时间是原型网络的10倍。孪生网络将测试样本与所有支持样本进行比较，信息量更大，比较细节更丰富，但逐一比较的形式导致了运行时间更长、成本更高的问题。因此，孪生网络难以满足实时有效的异常分类系统的要求。同时，原型网络只将测试样本与类原型进行比较，大大减少了特征提取和相似性比较的运行时间。

(2)APN在任务和所有度量中都获得了最佳的分类结果。在CIC-FS-IDS2017的5-way 5-shot设置下，准确率、召回率、精确率和F1的指标都有所提高，提升范围从3％到5％.该模型的最终准确率和召回率可达98％，在降低误报次数的同时保持了较高的检测准确率。

在CSE-FS-IDS2018的4-way 5-shot设置下，APN在准确度、召回率、准确度和F1方面也超过现有方法，准确度全面提高约0.5％至3.5％，取得最佳效果。

FC Net和Siamese Capsule Network增强用于特征提取的骨干网络，并重建相似性度量的功能，但没有考虑监督信息的深度利用和不断变化的环境，因此对小样本数据场景的适应性和泛化性能仍然有限。同时APN将支持集和查询集的特征对齐，以利用监督知识，减少特征偏差，最终更好地提高表征和比较能力。

(3)APN继承原型网络运行速度快的优点，优于其他方法.在这两项任务上，APN分别将运行时间减少了约1/10和1/15，并且可以在1s-2s的时间范围内完成异常流量分类任务，可满足实时高效的分类系统的需求。可见，原型网络的比较方式减少了比较次数，显著提高操作效率。

本实验评估中所使用的主干简单到2层Conv2D，与FC Net和Siamese Capsule Net的主干相比，降低了特征提取的成本。此外，因APN提出的IA和EA模块本质上都是计算低成本和快速的，因此不会给运行时带来额外的负担。

本发明的实验评估进一步比较和讨论所提出的内部对齐和外部对齐模块的效果，探讨APN在更多小样本场景下的灵敏性。

如表1所示，与CIC-FS-IDS2017和CSE-IC-IDS2018数据集上分类准确率分别为93.39％和92.58％的原始原型网络相比，APN将准确率提高了3％-5％。值得注意的是，在表中列出的所有方法中，原始原型网络的准确率最低，但时间最短。本发明提出的方法只以平衡的方式增加了少量的时间，具有更好的分类性能。

比较“APN(IA)”和“APN”的结果可以发现，外部比对模块的改进多于内部比对模块。在CIC-FS-IDS-2017数据集上，使用EA的APN的准确率为97.35％，与原始原型网络的93.39％准确率相比显著提高3.96％，召回率、准确率和F1值也分别显著提高3.96％、3.46％和4.85％。另一方面，IA带来了3.19％、3.19％、3.22％和2.27％的改进。

同时，带有IA和EA的APN可实现最佳性能，运行时间增加0.15s的情况下，准确率、召回率、精密度和F1值分别提高4.68％、4.68％、3.46％和4.85％。在CSE-IC-IDS2018数据集上的结果可得出相同的结论。采用EA的APN准确率提高了2.51％，IA提高了2.24％。采用两个模块的APN运行时间增加0.04s的情况下，准确率、召回率、精密度和F1值显著提高，分别提高3.20％、3.20％、2.92％、3.37％，。

以上两个结果都表明两个模块的有效性。外部对齐模块考虑样本在动态环境中的特征，带来更明显的收益。内部对齐模块只提高支持样本的利用率，而部分样本已经包含在类原型的构建中。因此，信息增益相对较小。

图4将从定性可视化的角度出发来验证这一影响。图4是通过T-SNE对特征图进行降维表示，在二维空间中进行绘制，分析CIC-FS-IDS-20175Way 5shot设置下类原型和测试样本之间的分布关系。

通过图4的对比可以发现：引进内部对齐和外部对齐模块之后，类的内部距离变大，类集群之间的距离也跟着变大。由此我们可以得到一个更加清晰的决策边界，使得边界的特性是对类的内部具有更大的包容性，能够减少来自噪声点的干扰。对于不同的类簇，则区分得更加明显。此外，可以看到，矫正后的原型的距离更靠近核心的样本实例，因为在跟查询样本对齐之后，受异常点的干扰也更小。

效果验证和数据分析：图5和图6通过距离的对比同样验证了上述结论。图5和图6是在原始的特征空间中计算而来的距离，图5表示的是类别内部测试样本与类原型的平均距离，图6表示的是类原型之间的距离。

从图5来看，类别内部的距离都明显增大，但是不同的类别有着不同程度的增幅，这可能是源自于不同类别的粒度有所差异，有些类别粒度较粗，涵盖的攻击特性更加广泛；或者在当前的网络环境下，该类别的相关样本特征变化范围较大，使得最终生成的类原型的辐射边界也得到进一步的扩大。

相比之下，原始原型网络的类别内部的距离较为一致，浮动较小，说明静态生成的类原型的辐射范围是相对固定的，也正因此，在动态变化的网络环境中失去了自适应的能力。从图6来看，类间的距离也有了不同程度的增幅，类与类之间的边界被拉大，其中class4相关的类间距明显增大，提示该类与其他类的显著差异，从而形成更远的决策边界。

效果鲁棒性验证：如表2所示，本次实验评估进一步探索模型在不同条件下的性能表现来验证模型在不同场景下的鲁棒性，主要包括更多的类别数和更少的支撑样本数。

表2真实环境聚类准确率和效率实验结果

对于CIC-FS-IDS-2017数据集而言，设置模型在N＝5的条件下进行训练，然后在测试阶段分别设置N＝5和N＝9。将本发明所提出的方法和原始的原型网络进行性能上的对比。从表2可以发现，两个方法从N＝5到N＝9的性能表现都有所下降，但是原始的原型网络下降大约5％的准确率，而本发明所提出的方法只下降了1.5％的准确率。对于CSE-CIC-IDS2018数据集而言，设置模型在N＝4的条件下进行训练，然后在测试阶段分别设置N＝4和N＝7，将本发明所提出的方法和原始的原型网络进行性能上的对比。从表2可以发现，两个方法从N＝4到N＝7的性能表现都有所下降，但是原始的原型网络下降了大约6％的准确率，而本发明所提出的方法只下降1.31％的准确率。

实验验证，本发明所提出的方法，在引入新的类别的时候，性能损失更小，说明本发明的方法在应对类别数量动态增加的情况下具备更稳定、更鲁棒的性能表现，能够满足真实系统的需要。

另一个场景是支撑样本数量的减少，随着小样本类别的增多，对于一些特别新的类别，样本可能是极端少的，出现one-shot的情况。因此固定训练时的支撑样本数量，在测试阶段选择不减少或者减少支撑集样本数量，来验证模型在支撑集样本数量减少的情况下的泛化能力。对于CIC-FS-IDS-2017数据集而言，设置模型在K＝5的条件下进行训练，然后在测试阶段分别设置K＝5和K＝1，将本文所提出的方法和原始的原型网络进行性能上的对比。从表2可以发现，两个方法都有比较明显的下降，但是原始的原型网络下降了接近20％的准确率，而本文所提出的方法只下降15％的准确率，略好于原始的原型网络。对于CSE-CIC-IDS2018数据集而言，同样设置模型在K＝5的条件下进行训练，然后在测试阶段分别设置K＝5和K＝1，原始的原型网络下降了大约16％的准确率，而本发明所提出的方法只下降12％的准确率。实验验证，本发明所提出的方法，在减少支撑样本数量的时候，性能损失更小。

两个场景的实验验证了本发明提出的方法在引入新类或较少支持样本时具有较小的性能损失，表明该方法在面对异常流量增量的动态变化环境或满足实际系统需求的有限标签能力时具有更稳定和鲁棒的性能。

可见，该方法基于原型网络框架，能够抽取类别的原型表示，可在样本数量极少的情况下实现较高性能的分类；引入内部对齐和外部对齐可避免监督崩溃，生成更加动态、精准的类别原型，可调整新型异常流量的特征抽取和类别原型刻画，与原型网络框架共同作用实现有效、高效的稀疏异常流量分类。

各优选方案在取得上述有益效果的同时，进一步地还取得了以下有益效果：基于APN网络的损失对查询集样本进行类别原型更新，可提高准确率、召回率、精密度和F1值；比较查询集中的样本与更新后的类别原型，可验证更新后类别原型的准确程度；对网络流量进行采样和图像表征可使得后续的数据处理更为高效准确。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在发明的保护范围之内。

Claims

1.一种基于对齐原型网络的小样本异常流量分类方法，其特征在于，包括：

采用带实际标签的历史样本作为支持集X_s和查询集X_q，

式中，c′为C中的任一类别，P′为c′的类别原型；

对有迁移权重为/>

通过迁移权重矫正类别原型P，获得经内部对齐的类别原型

式中，α为矫正阈值，α∈[0,1]；

计算查询集中样本和类别原型之间的余弦相似性度量/>

计算类别原型迁移到查询集空间所需的权重/>

式中，表示元素逐个相乘；

2.如权利要求1所述的一种基于对齐原型网络的小样本异常流量分类方法，其特征在于，还包括对更新查询集中样本的类别原型：

式中，y为的实际标签，/>为/>属于y对应类别的概率；

通过熵损失函数L_ori更新的标签；

L_ori＝CE((X_q,Y_q),C,P)；

式中，Y_q为的集合；

式中，Y_s为的集合；

计算APN的总损失，

L＝L_ori+λL_IA+γL_EA；

式中，λ和γ为预先设置的权重参数，

通过APN的总损失更新类别原型

3.如权利要求2所述的一种基于对齐原型网络的小样本异常流量分类方法，其特征在于，还包括：

比较与更新后的类别原型/>

4.如权利要求1所述的一种基于对齐原型网络的小样本异常流量分类方法，其特征在于，所述采样包括：

保留五元组网络流量的前M个包，并截留每个包的前N²字节；

所述五元组网络流量包括预设时段内的源IP、目的地IP、源端口、目的地端口和协议。

5.如权利要求1所述的一种基于对齐原型网络的小样本异常流量分类方法，其特征在于，所述图像表征包括截断或掩盖网络流量每个字节序列的IP和端口，并将每个字节以16进制的方式转换为灰度数值；具体为：

重新排列T，生成W×H的像素矩阵；

当W×H≥M×N²时，像素矩阵的每个像素点对应一个字节的值；