CN114553790A

CN114553790A - 一种基于多模态特征的小样本学习物联网流量分类方法及系统

Info

Publication number: CN114553790A
Application number: CN202210239823.4A
Authority: CN
Inventors: 贾文旭; 王一鹏; 赖英旭; 赵子健; 刘静
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-12
Filing date: 2022-03-12
Publication date: 2022-05-27

Abstract

本发明公开了一种基于多模态特征的小样本学习物联网流量分类方法及系统。该方法包括训练阶段和分类阶段；训练阶段包括：对捕获到的物联网设备流量进行预处理；使用训练数据进行学习训练，构建多模态特征编码器模型；分类阶段包括物联网设备流量采集预处理；根据训练阶段得到的多模态特征编码器，对已标记样本构成的物联网流量支持集中样本以及待分类流量样本样进行多模态特征提取；对获得的特征进行特征比较，从而对待分类的物联网设备流量设备类型进行判别。本发明通过从多个特征维度对于物联网设备产生的网络流量进行准确刻画，从而形成更具表达能力的物联网设备流量指纹，并且基于小样本学习理论构建分类模型，从而解决在物联网设备标记样本量不足的情况下进行准确分类的问题。

Description

一种基于多模态特征的小样本学习物联网流量分类方法及系统

技术领域

本发明涉及在仅使用少量物联网设备流量标记样本的情况下使用小样本学习的方法对物联网设备产生的网络流量进行准确分类，具体涉及一种基于多模态特征的小样本学习物联网流量分类方法及系统。

背景技术

随着物联网技术的进步，物联网(IoT)设备已被用于制造、农业、家具、医药和各种其他行业。由于当今互联网服务提供商(ISP)需要为非常异构的IoT设备提供分层网络管理和网络保护，因此IoT流量类型的正确分类长期以来一直是研究重点。物联网流量分类是指将物联网流映射到生成这些流的相应类型的物联网设备。然而，随着研究的深入，物联网流量分类项目遇到了两个重大问题：(1)首先，海量且不断增加的物联网设备类型给网络流量分析带来了巨大挑战。特别是，高度异构的物联网设备会产生更复杂的物联网流量。物联网流量包括明文和加密流量，以及众所周知的应用协议流量和私有协议流量。(2)其次，物联网设备的工作模式相对简单，与传统互联网流量相比，使用最少数量的标记样本即可准确识别。具体来说，在现实中，大多数物联网设备只有启动、工作和待机等几种状态。此外，一些物联网设备仅生成少量流量样本，但是，这些样本足以支持物联网流量的识别。因此，受上述两个问题的启发，本发明设计了一种物联网流量分类方法，该方法可以仅用少量标记样本对物联网流量进行分类。

本发明设计并实现了一个基于多模态特征的小样本学习物联网流量分类方法及系统，该方法及系统通过一种基于多模态特征的小样本学习神经网络模型来解决在仅使用少量物联网设备流量标记样本的情况下对物联网设备产生的网络流量进行准确分类的问题。(本发明中多模态特征为物联网流量的包长特征与负载字节特征。)

近年来，由于机器学习在各个领域的成功应用，基于传统机器学习(ML)或深度学习(DL) 的物联网流量分类方法也带来了令人满意的结果。然而，上述方法仍然存在以下限制。

1)标签样本不足处理困难，容易导致过拟合。当标记的样本不足以进行训练时，传统的 ML和DL作为数据数据驱动的方法会出现过拟合，即样本的某些特征被认为是某一类的一般属性，从而导致分类精度降低。

2)流量统计特征和负载特征都不能完全描述物联网流量。一方面，流量统计特征通过计算或组合流的包头信息中特定字段的值(例如，包平均字节数、包负载长度序列)来表征流量行为。但是，此功能通常会忽略数据包原始字节中的网络协议关键字，从而难以区分功能相似的物联网设备产生的具有相似行为的流量。另一方面，有负载特征更关注原始字节中协议关键字的位置和值，但很难捕获单个流中数据包之间的关系，使得使用相同网络协议但具有不同流量行为的物联网流难以分类。

本发明拟解决此前方法或系统所存在的上述技术缺陷。

发明内容

本发明的目的在于设计并实现一种基于多模态特征的小样本学习物联网流量分类方法及系统，该方法及系统通过多次不同小样本分类任务的训练，使得训练后的整体模型拥有仅需几个样本便可以进行快速学习的能力，从而解决在仅使用少量物联网设备流量标记样本的情况下对物联网设备产生的网络流量进行准确分类的问题。为实现上述目的，本发明采用的技术方案如下：

一种基于多模态特征的小样本学习物联网流量分类方法及系统，包括训练阶段和分类阶段；所述训练阶段主要为多模态特征编码器的构建。

多模态特征编码器的构建包含如下步骤：

1)以一组已标记物联网设备产生的、样本数量足够多的网络数据流量为输入，对其进行预处理，得到物联网大样本设备序列样本训练集。

2)以步骤1)得到的物联网大样本设备序列样本训练集作为输入，采用小样本学习的训练方式，构建多模态特征编码器；

所述分类阶段包括如下步骤：

3)以网络流量数据为输入，获取待分类网络流量序列，并将待分类序列转换为与步骤1) 相同的序列样本；

4)根据训练阶段中步骤2)得到的多模态特征编码器，以物联网设备流量样本支持集对待分类物联网流量的设备类别属性进行判别，并输出判别结果。

一种基于多模态特征的小样本学习物联网流量分类系统，包括用于训练阶段的物联网设备流量采集预处理模块、多模态特征编码器构建模块、特征比较模块以及用于分类阶段的物联网设备流量采集预处理模块、特征提取模块、特征比较模块；其中，

物联网设备流量采集处理模块负责对输入的原始网络流量数据提取TCP\UDP负载字节以及负载长度并将其处理为统一长度的序列样本；

训练阶段的多模态特征编码器构建模块负责根据已标记物联网设备类型的序列样本集合，对多模态特征编码器模型中的网络参数进行调整，使其满足训练终止条件，以供分类阶段使用；

分类阶段的特征提取模块负责根据训练阶段所生成的多模态特征编码器模型对未知物联网设备流量与支持集中样本提取特征。

分类阶段的特征比较模块负责对所提特征进行特征比较，从而对待分类的物联网设备流量设备类型进行判别，并输出判别结果。

本发明的关键技术点在于：

1.提出了一种基于多模态特征的小样本学习神经网络模型来解决在仅使用少量物联网设备流量标记样本的情况下对物联网设备产生的网络流量进行准确分类的问题。该模型从原始物联网流量中提取特征，并通过比较流量特征之间的相似程度来预测，从而实现对网络流量的分类。

2.综合考虑了包长特征和负载字节特征的优势，对一条物联网流量从流行为角度和包构成两方面进行了描述，从而防止了单一种类特征的缺点。

3.将分类器训练与预测部分拆分为特征提取模块和特征比较模块两部分，其中特征提取是基于深度学习算法的特征提取模型，它依靠深度学习算法优秀的特征提取能力，可以在学习阶段学习到特征提取能力，并在测试阶段快速应用到样本量不足的类别上，从而达到特征提取的目的。特征比较部分则是基于测试样本和标记样本特征之间的相似度，根据相似度给出最终类别判断，本设计使用了不依赖参数的度量方法，防止参数过拟合情况的发生。

利用本发明的方法可以解决在仅使用少量物联网设备流量标记样本的情况下对物联网设备产生的网络流量进行准确分类的问题。与已公开的相关技术相比，具有如下优点：

1.设计了一种基于多模态特征的小样本学习物联网设备的网络流量分类方法。与以前的方法需要大量标记样本相比，本发明可以在仅使用少量物联网设备流量标记样本的情况下对物联网设备流量进行分类，并有着良好的分类效果。

2.设计了综合包长特征和负载字节特征的特征提取方法。与以前的方法相比，本发明所提取的特征具有很强的泛化能力，不在乎物联网流量是否有相似的工作方式或者有相似的数据包组成，可以全面准确地描述物联网流量。

附图说明

图1是一种基于多模态特征的小样本学习物联网流量分类方法的模型构建阶段流程图。

图2是多模态特征编码器模型构建的神经网络结构图。

图3是基于多模态特征的小样本学习物联网流量分类方法的分类阶段流程图。

图4是基于多模态特征的小样本学习物联网流量分类系统架构图。

图5是本发明在实验场景A上的实验结果。

图6是本发明在实验场景B上的实验结果。

图7是本发明在实验场景A和B的混淆矩阵。(a)为实验场景A；(b)为实验场景B。

图8是BSNN在实验场景A和B的混淆矩阵。(a)为实验场景A；(b)为实验场景B。

图9是FS-Net在实验场景A和B的混淆矩阵。(a)为实验场景A；(b)为实验场景B。

具体实施方式

本发明的工作流程，可分为训练阶段和分类阶段。在训练阶段，通过模拟多次小样本分类任务，训练多模态特征编码器模型网络中的可学习参数，使模型从大量带有标签注释的物联网流量样本中学习足够的可转移的元知识。在分类阶段，基于训练完成的模型参数，对于流量不足的物联网设备，只需要对其几个样本进行学习便可实现对该类物联网设备流量的分类。

训练阶段中，本发明主要为多模态特征编码器模型的构建。多模态特征编码器构建过程的输出为满足物联网设备网络流量分类需求的多模态特征编码器模型。

本发明的多模态特征编码器模型的构建基于小样本学习的训练方法来构建，构建流程如图1所示，其具体实施步骤如下：

1.该步对物联网大样本设备产生的网络数据流量进行预处理，输入为一组已标记物联网设备产生的、样本数量足够多的网络数据流量，输出为对网络数据流量进行预处理后得到的物联网大样本设备序列样本训练集集合D_t。具体预处理步骤如下：给定模型所使用的最大包数K和最大字节数B，对每条物联网大样本设备网络数据流量提取其所有TCP\UDP负载长度序列，形成负载长度序列l＝{l₁,l₂,...,l_K}，若该条流量负载长度大于等于K，则保留前K个数据包；若该条流量负载长度小于K，则填充0至负载长度等于K；接着，提取首个TCP\UDP 负载原始字节，以构成负载字节序列b＝{b₁,b₂,...,b_B}，若首个TCP\UDP负载原始字节数大于等于B，则保留前B个字节，若字节数小于B则在末尾填充0至字节数等于B。最后经过拼接操作，将负载长度序列l和负载字节序列b进行拼接得到最终序列样本x＝{l,b}。完成上述操作后，得到预处理后的物联网大样本设备序列样本训练集集合D_t＝{(x₁,y₁),...,(x_n,y_n)} (集合D_t包含λ个物联网大样本设备，一共n条物联网大样本设备流量序列样本。其中 y_i∈C_original＝{1,2,...,λ})。后续将以D_t作为训练的基础，进行特征提取器与比较器的训练。

2.在开始多模态特征编码器神经网络结构训练前，需要根据超参数设置，对其中的可训练参数进行初始化。神经网络参数初始化可以使用加载现有模型参数、随机初始化、自定义初始化等方法进行，在本发明中，使用随机初始化的方法为神经网络中的可训练参数赋予初始值。

若使用后需要对本发明中神经网络的可学习参数进行微调，也可跳过此步骤，不进行参数初始化，而是直接加载原有参数，在原有参数基础上调整模型效果。

3.该步骤以训练集集合D_t进行小样本分类任务的生成，得到小样本任务Task＝{Q_u,S_a}，其中S_a代表样本集，Q_u代表查询集。具体步骤如下：对于完成步骤1后所得到的物联网大样本设备序列样本训练集集合D_t，首先，从设备类别集合C_original中随机地选择N个物联网设备类别。再分别从这N个类别的训练数据中随机抽取S个物联网设备序列样本放入样本集S_a， B^q个样本放入查询集Q_u。样本集S_a与查询集Q_u合起来为一个小样本分类任务Task＝{Q_u,S_a}。

4.该步对生成的小样本分类任务Task的样本集S_a与查询集Q_u中的每个物联网设备序列样本使用特征编码进行特征提取，得到其特征向量F＝{Fl,Fb}。整个特征提取方法如图2 所示，分为两个部分，分别是包长特征提取阶段和负载字节特征提取阶段。在包长特征提取阶段中，对于输入进特征提取器的流量样本，特征提取器会对输入x进行包长特征提取。具体步骤如下：对于输入x＝{l,b}的负载长度序列l使用嵌入编码层来表示序列中元素的高级抽象。嵌入层是一个可训练矩阵

序列l中每个元素l_i都可以转换为d维向量

由此得到 l的嵌入张量e＝{e₁,e₂,...,e_K}，其中

然后将嵌入向量e输入到双向LSTM层中，并将所有层的前向和后向的最终隐藏状态连接起来以获得输入x的包长特征Fl。对于输入 x＝{l,b}的负载字节序列b使用独特编码层将字节序列b转换为稀疏矩阵

其中o_i是与序列b的第i个字节b_i对应的d_o维向量。接着，使用多分支卷积结构来捕获不同长度的应用层协议关键字。具体地说，多分支卷积结构的第一层是一个卷积核大小为(1,256)的 2D卷积，它使用o作为输入来获得初始特征f。然后，f被分别送入到三个并行一维卷积分支，卷积核大小分别为1，3，5。因此，可以得到并行卷积的输出f₁，f₂，f₃。由于不同长度的关键词在协议描述中的作用不同，在细节设计中，本发明引入了三个可学习权重作为对三个不同长度关键词的关注度，分别表示为w₁，w₂，w₃。最后，将加权并行卷积结果与f相加，得到负载字节特征Fb＝w₁*f₁+w₂*f₂+w₃*f₃+f。包长特征Fl与负载字节特征Fb合起来为流量样本x的特征向量F＝{Fl,Fb}。该步所有卷积核数量都为C₀。

5.该步骤对查询集Q_u所有查询样本和样本集S_a所有标记样本进行特征比较，使用余弦距离计算其包长特征相似度LS和有负载字节特征相似度BS。具体地说，对于第i个查询样本与类别为j的第h个标记样本，其包长特征相似度LS_i,(j,h)＝Cosine_Similarity(Fl_i,Fl_(j,_h))，负载字节特征相似度BS＝Cosine_Similarity(Fb_i,Fb_(j,h))，其中i∈[1,N]，h∈[1,S]，余弦距离计算公式

然后，取第j类的S个标记样本中包长特征相似度LS和负载字节特征相似度BS的最高平均值作为第i个测试样本和第j类的相似度得分S_i,j＝max[mean(LS_i,(j,1),BS_i,(j,1)),...,mean(LS_i,(j,S),BS_i,(j,S))]。相似度得分最高的类别是最终预测类别。

6.该步对得到的预测类别与真实类别计算损失函数，以评估当前计算结果与实际数据的拟合程度。本发明所使用的损失函数为均方差损失函数(MSE Loss)。

7.该步骤重复步骤(3)-(6)的流程并判断神经网络计算的结果满足结束条件E。(a) 若计算结果满足结束条件E，则停止神经网络的训练过程，将包含神经网络参数值的多模态特征编码器作为训练阶段的最终结果输出，以供分类阶段进行物联网设备网络流量分类；(b) 若计算结果不满足结束条件，则根据网络分类结果计算损失函数值，使用反向传播更新神经网络参数，返回步骤(3)小样本分类任务生成，重复(3)-(7)流程。结束条件E的设置，可包括但不局限于下述条件：达到最大迭代周期、达到期望损失函数值、达到期望统计评价指标等。

分类阶段的工作如图3所示，该阶段以训练阶段所得到的多模态特征编码器模型为基础，以待分类的物联网设备流量和物联网设备流量样本支持集为输入，对捕获的待分类物联网设备流量进行分类判别。

1.本发明的物联网设备流量采集处理模块负责捕获物联网设备流量并对所有待分类物联网设备进行预处理。根据预先设置的最大包数K以及最大字节数B对负载长度序列和负载字节序列进行截断或补零，形成待分类的物联网设备序列样本。

2.依据训练阶段生成的多模态特征编码器模型，对待分类物联网设备字节流流量样本以及物联网设备流量样本支持集中样本进行特征提取。物联网设备流量样本支持集是所有需要被分类的物联网设备字节流样本的几个示例的集合。示例数量与训练阶段设置的样本集每类样本数量S相同。

3.对提取出的待分类物联网设备流量样本的特征与从支持集中提取出的各个物联网设备字节流样本的特征进行特征比较，并最终得到待分类物联网设备流量的所属类别。

本发明在实际应用过程中，可根据发明在不同数据集上的分类效果等因素，重新启动训练阶段，对神经网络进行调整、重新训练。通过训练阶段与分类阶段的多次迭代，对本方法所使用的神经网络参数进行更新，保证本方法性能满足物联网设备的网络流量分类需求。

结合上述基于多模态特征的小样本学习物联网流量分类方法，本发明同时公开了一种基于多模态特征的小样本学习物联网流量分类系统。本系统主要由训练阶段和分类阶段两个阶段构成，系统图架构如图4所示。

1.训练阶段：首先，以已标记物联网大样本类设备产生的网络流量为输入，由(1)物联网设备流量采集预处理模块对每条物联网设备流量提取负载长度序列和负载字节序列并进行截断或补零，使之长度相同。然后，由(2)多模态特征编码器构建模块使用已处理好的物联网大样本类设备序列样本，对本发明设计的多模态特征编码器进行训练，使多模态特征编码器的性能满足分类需求。(2)多模态特征编码器模型构建模块的输出结果是完成构建的多模态特征编码器。

2.分类阶段：分类阶段以待分类的物联网设备流量以及已标记物联网设备流量为输入，其中已标记物联网设备流量用于构建物联网设备流量样本支持集。由(1)物联网设备流量采集预处理模块对输入的流量数据进行处理，形成序列样本并统一序列长度。(4)高维特征提取模块以未知物联网设备流量与物联网设备流量样本支持集中样本为输入，使用(2)多模态特征编码器构建模块所生成的多模态特征编码器模型，对待分类物联网设备流量与支持集中样本提取特征。(5)特征比较器模型使用不依赖参数的方法对所提特征进行特征比较，从而对待分类的物联网设备流量设备类型进行判别。分类阶段的输出结果为待分类的物联网设备流量所对应的设备类别。

本发明在两个公开物联网流量数据集上开展实例验证，分别是新南威尔士大学物联网流量数据集和Mon(IoT)r物联网数据集。新南威尔士大学物联网流量数据集源于他们所搭建的智能实验床环境，其中包含包含了一共28种独特的物联网设备以及一些非物联网设备所产生的流量。对于物联网设备来说，数据集中囊括了摄像头，开关和触发器，集线器，空气质量传感器和灯泡。连接在实验床上的非物联网设备包括如笔记本电脑、手机和Android平板电脑。这些平板电脑用于按照各自设备制造商的建议配置物联网设备。Mon(IoT)r物联网数据集包含位于美国和英国的实验室中物联网设备在一个月内产生的网络流量。这些设备包含多种类别可用。

本发明的实验部分首先从两个数据集之中分别都选择了16个类别的物联网设备所产生的流量，分别构成了物联网数据集-I和物联网数据集-II，考虑到本发明所提出的流量分类方法是在流级别之上对于类别进行识别，因此对于pcap文件之中的数据包数据依靠网络五元组来重构网络流，网络五元组指的是源IP，目的IP，源端口，目的端口，传输层所使用协议TCP/UDP]。在重构之后，发明对于两个物联网数据集中的设备类型和每个类型的流样本数量进行了统计。物联网数据集-I和物联网数据集-II的详细信息分别汇总在表格1和表格2中。值得注意的是在物联网数据集-II中，发明在对于实验数据进行分析后，将Echo Spot、Echo Plus和Echo Dot 视为同一类，因为它们是同一数据集中同一公司不同版本的同类设备。

在后续评估中，每个类别被随机选出了3,000个流量。如果某个类别中的流数量少于3,000 个，则将使用此类别的所有流。

表格1：物联网数据集-I中各个物联网设备类别名称及其对应的应用流数目

表格2：物联网数据集-II中各个物联网设备类别名称及其对应的应用流数目

ID	物联网类别名称	应用流数目
			M1	Blink Hub	982
M2	TP-Link Bulb	4,896
			M3	WeMo Plug	9,912
M4	Philips Hue	14,826
			M5	Sengled Hub	1,881
M6	Echo Spot	6,778
			M6	Echo Dot	1,951
M6	Echo Plus	5,329
			M7	Nest Thermostat	6,352
M8	Anova Sousvide	363
			M9	TP-Link Plug	2,268
M10	Samsung TV	6,058
			M11	Insteon Hub	2,189
M12	Lightify Hub	320
			M13	Smartthings Hub	5,207

为了对于本发明所提出的方法进行实验评估，在实验前首先需要定义适当的评估指标。对于一条由物联网设备d产生的流量，分类器对这条流量进行分类的结果会有如下四种情况：

(1)真阳(True Positive)：被分类器分类为d类，且确实是由物联网设备d产生的；

(2)假阳(False Positive)：被分类器分类为d类，但是并非是由物联网设备d产生的；

(3)真阴(True Negative)：被分类器分类为不属于d类，并且确实不是由物联网设备 d产生的；

(4)假阴(False Negative)：被分类器分类为不属于d类，但是确实是由物联网设备d 产生的。

根据上述四种情况，我们可以定义出三种指标用来评价一个分类器对物联网设备d产生的流量的分类质量，分别为召回率(Recall)，精确率(Precision)，F值(F-Measure)，公式如下：

此外，对于物联网设备流量多分类的实验场景，使用准确率(Accuracy)来衡量整体性能，其中η表示要分类的类别编号。

在实验中，首先会设置以下参数，从而观察本发明所提出方法在不同参数下的效果，以进行敏感性分析。

(B):流首个带负数据包的TCP/UDP负载中用于构造负载字节序列的字节数量。

(K):用于构建数据包长度序列的流的带负载数据包的数量。

(S):任务中每个类作为对照的标记流量样本数。

在表格3中总结了本发明中设置的神经网络超参数和其他实验参数的值。

表格3：参数设置

超参数名称	数值
		训练任务数	15000
更新任务数	100
		C<sub>0</sub>	32
LSTM层数J	2
		学习率	0.001
B<sup>q</sup>	5
		嵌入向量维度h<sub>E</sub>	256
LSTM隐藏层维度h<sub>L</sub>	256

为了验证本发明所提出的物联网流量分类方法的有效性以及其鲁棒性，本发明在试验阶段根据实验数据集构建了两个实验场景。具体地说，从物联网数据集-I中选择其中流数量最少的5个类别视为小样本类别从而构建出实验场景A。接着对于物联网数据集-II，同样从中选择了流量数最少的5个类别视为小样本类，从而构建了实验场景B。在每一个场景下都对三个参数S、K以及B进行了多个数值的设置，其具体数值如下S＝{5,10,15}，K＝{4,8,16,32}， B＝{8,16,32,64}。并且对于不同的数值组合本发明重复进行5次实验，并将5次实验的结果结合作为该组参数组合最终的实验结果。接下来，将展示本发明的方法对于标记样本足够的原始类别物联网流量(即“Original”)和对于包括小样本类别的所有类别物联网流量(即“All”)在不同场景下的实验结果。

如图5，绘制了实验场景A的实验结果。具体地说，图6a、图6b和图6c分别展示出了在实验场景A中，当S＝5、S＝10和S＝15时，对于B和K的不同值，对于“Original”的分类准确率。从这三个图可以看出，对于所有的参数组合，本发明所提出的方法对于有足够标记样本的原始类别的分类精度从98.27％到99.74％。图6d、图6e和图6f则显示了在不同参数组合下对“All”进行分类的精度范围，具体为94.19％到98.7％。总体来看，将对两种情况的分类结果结合起来后，可以分析出场A中参数的最佳组合是S＝15，K＝32，B＝32，对应的“Original” 和“All”的平均精度分别为99.56％和98.42％。

图6显示了在场景B中，当B、K和S变化时，对于“Original”和“All”的分类精度。从图 6a可以观察到对“Original”的分类精度在95.26％到97.17％之间。此外，从图6b可以看出对于 “All”的分类精度介于93.3％和96.94％之间。从上述“Original”和“All”的两组实验结果来看，当参数组合取得S＝15，K＝16，B＝8时在场景B下可以取得最佳的分类结果，此时“Original” 的平均分类准确率为96.33％，而“All”的平均分类准确率为96.62％。

总的来说，本发明所提出的方法在两个场景下对于“Original”和“All”的分类，在准确度方面都取得了令人满意的实验结果。接下来，本发明将通过比较三种场景下几组实验结果的总体趋势，来分析不同参数进行敏感性分析。从图5到图6，可以观察到，当K和B不变时，分类精度随着S的增加而上升。具体地说，场景A的准确度最高可提高2.88％，场景B的准确度最高可提高1.72％。这是因为S的增加有助于分类器观察更多的标记流样本作为参考，从而增加了发现更相似标记流的可能性。

当将S固不变时，增加K或B的值的大小不一定会得到更好的结果，甚至有可能会导致精度的降低。这是因为K和B的过大值会导致输入数据中存在噪声，干扰了分类器的最终分类效果。接下来，从这两个参数所代表的意义来更具体地分析原因。由于一个流中的数据包数量有限，当实验中设置一个较大的K值时，数据包的数量有可能会不足，从而导致大量的零填充数据包，这将一定程度上降低数据包长度特征的差异性。另一方面，设置过大的B值可能会增加输入中的非固定字段字节数。这将导致负载字节功能不准确地描述协议格式信息。这也是为什么前文中提到说，这两种情况都会产生噪声，干扰分类器的最终分类效果。

为了进一步验证本发明提出方法的有效性，将本发明方法与现有两种先进的流量分类方法进行比较。

与BSNN进行比较。BSNN是Li等人在2018年提出的一种基于数据包载荷的深度学习流量分类方法。BSNN采用先进的循环神经网络神经网络(RNN)模型，并将序列RNN模型与注意机制相结合。BSNN方法的工作方式如下。首先，BSNN将每个数据包的负载划分为L 个字节段。然后，这些字节段作为输入被送入由带有注意力层的RNN神经网络单元组成的双层注意力编码器。最后，BSNN使用softmax函数输出类别标签。BSNN在编码器中尝试了两种RNN神经网络单元，即门控循环单元(GRU)和长短期记忆网络(LSTM)。在发明中，为了保证对比的准确和公平，在实验阶段准确并仔细地对BSNN的神经网络架构进行了实现。

对图7和图8中的结果进行分析，接下来将对于两个实验场景下的结果进行说明。首先对于BSNN而言，它在实验场景A中的平均召回率是88.8％，平均精确率是84.29％，平均 F1-得分是84.99％。在实验场景B的平均召回率是69.2％，平均精确率是67.24％，平均F1- 得分是66.56％。反观本发明所提出的方法，在场景A中其平均召回率，精确率以及F1-得分分别为98.42％，98.43％以及98.42％。从F1-得分角度整体评价来看，本发明所提出的方法相对于BSNN在场景A下提高了14.13％。对于实验场景B而言，发明所提出的方法的平均召回率，精确率以及F1-得分达到了96.61％，96.64％，以及96.63％。平均F1-得分相比于BSNN 提高了30.07％。从两个场景来看，本发明的方法的分类能力更优于BSNN。接着来将重点关注两种方法对于样本量不足的小样本类别的效果，本发明所提出的方法在场景A下对小样本类别分类的平均召回率比BSNN高9.6％，在场景B下高18.52％。因此的出结论，本发明的方法在场景A下的总体分类效果和对小样本类的分类效果都优于BSNN。

与FS-Net进行比较。FS-Net，由Liu等人提出。2019年，是一种用于加是流量分类的端到端深度学习方法。具体来说，FS-Net将每个流的包长度序列作为输入，输出每个网络流的具体标签。与BSNN一样，FS-Net也采用循环神经网络结构。此外，FS-Net结合了编码器、解码器和重构机制来构造复杂的分类特征。具体地说，FS-Net按如下方式依次运行。(1)。首先，FS-Net通过嵌入层将数据包长度序列中的每个元素嵌入到一个向量中。(2)。然后，将嵌入向量送入由双向门控循环单元(bi-GRU)组成的编码器生成压缩特征。(3)。然后将压缩后的特征放入同样由bi-GRU构成的解码器中以重构原始输入序列。(4)。同时，将编码器和解码器产生的特征组合在一起，得到新的特征。(5)。最后，FS-Net应用Softmax函数输出类别标签。在发明中，同样在试验阶段进行了模型的复现，并在接下来给出实验结果。

对图7和图9的结果进行分析可以得到如下结论。在实验场景A中，FS-Net的平均召回率是92.99％，平均精确率是89.82％，平均F1-得分是90.31％。相比于FS-Net，在场景A下本发明所提出的方法的F1-得分提高了8.11％。对于场景A中的小样本类型，本发明提出的方法相较于FS-Net的平均召回率提高了9.58％。此外，在实验场景B中，FS-Net的平均召回率是87.97％，平均精确率是86.43％，平均F1-得分是86.59％。相比于FS-Net，在场景B下本发明所提出的方法的F1-得分提高了10.04％。对于场景A中的小样本类型，本发明提出的方法相较于FS-Net的平均召回率提高了6.36％。由此可以得出结论，本发明的方法在两个场景下的分类效果和应对样本量不足的类别的能力都优于FS-Net。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，包括训练阶段和分类阶段；

所述训练阶段包括如下步骤：

1)将已标记物联网设备产生的有足够多样本数量的大样本类别物联网原始流量作为输入，对其进行流量预处理工作，得到大样本类物联网设备流量序列样本训练集，其中序列样本由负载长度序列和负载字节序列组成；

2)以步骤1)得到的大样本类物联网设备流量序列样本训练集作为输入，采用小样本学习的训练方式，构建多模态特征编码器模型；

所述分类阶段包括如下步骤：

3)以待测物联网设备流量数据为输入，获取待测物联网设备流量序列样本，并将待测序列样本转换为与步骤1)相同的序列样本；

4)根据训练阶段中步骤2)得到的多模态特征编码器模型进行多模态特征提取，获得物联网设备流量样本支持集序列样本以及待分类物联网流量序列样本的特征；

5)使用不依赖参数的方法进行多模态特征比较，以物联网设备流量支持集样本对待分类物联网流量样本的设备类别属性进行判别，并输出判别结果。

2.如权利要求1所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，步骤1)进行流量预处理工作的具体操作方法是：

1-1)利用网络五元组将数据包组合为网络流,提取每条流中每个带负载数据包的负载长度获得负载长度序列；提取每一条单向流中第一个负载数据包的负载数据，获得负载字节序列；

1-2)根据给定的数据包数以及负载字节数，对提取出的负载长度序列和负载字节序列进行长度调整；对超出给定数据包数的负载长度序列和超出给定负载字节数的负载字节序列的部分进行丢弃操作，对不满足条件的负载长度序列和负载字节序列进行填充操作。

3.如权利要求1所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，步骤2)，构建特征编码器模型的具体操作方法是：

2-1)以步骤1)得到的大样本类物联网设备流量序列样本训练集作为输入，进行小样本分类任务构建，获得包含样本集与查询集的小样本分类任务；

2-2)以步骤2-1)得到的小样本分类任务作为输入，对样本集与查询集中的每个序列样本使用多模态特征编码器进行特征编码操作，得到样本特征向量集合与查询特征向量集合；

2-3)以步骤2-2)得到的样本特征集合与查询特征集合作为输入，将查询特征集合中的任一特征向量与样本特征集合中所有特征向量逐一组成特征对，进行特征比较操作，得到该特征向量与样本集特征向量集合中所有特征向量之间的相似度得分集合；

2-4)以步骤2-3)得到的相似度得分集合作为输入，根据相似度得分数值对该特征向量所属类别进行判别，获得该流量样本的设备类别；

2-5)重复步骤2-3)与步骤2-4)，直到查询特征向量集合中所有特征向量遍历完毕，得到预测的查询集中所有特征向量的流量样本设备类别；

2-6)以步骤2-5)得到查询集样本的预测类别与步骤2-1)中的查询集样本真实类别为输入，计算分类准确率、损失函数值等指标，若指标满足训练终止条件E，则停止多模态特征编码器的神经网络构建过程，输出多模态特征编码器模型；若指标不满足训练终止条件，则重复步骤2-1)～步骤2-6)。

4.如权利要求3所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，步骤2-1)所述小样本分类任务构建的具体操作方法是：

首先，从大样本类别中随机选取N个物联网设备类别；再分别从这N个类别的标记样本中随机抽取S个物联网设备序列样本构成样本集，接着再从这N个类别的标记样本中随机抽取B^q个样本构成查询集；样本集和查询集相结合构成一个小样本分类任务。

5.如权利要求3所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，步骤2-2)所述特征编码的具体操作方法是：

2-2-1)对输入的序列样本中的负载长度序列进行序列特征提取操作，获得序列样本的包长特征，同时，对输入的序列样本中的负载字节序列进行负载特征提取操作，获得序列样本的负载字节特征；

2-2-2)将2-2-1)中获得的包长特征和负载字节特征共同组成序列样本的编码特征向量。

6.如权利要求3所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，步骤2-3)所述特征比较的具体操作方法是：

2-3-1)将特征对作为输入，使用余弦相似度的计算方法进行相似度计算；获得特征对中包长特征的包长相似度，以及特征对中负载字节特征的负载字节相似度；

2-3-2)将2-3-1)中的包长相似度和负载字节相似度相加计算平均值，获得两个特征的相似度得分。

7.如权利要求3所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于，步骤2-4)所述物联网设备流量分类的具体操作方法是：

以步骤2-3)得到的相似度得分集合作为输入，对相似度得分集合的中的所有相似度得分进行排列找出其中最大的相似度得分，该最大相似度得分所代表的样本集中的序列样本所属的类别则为待分类序列样本的预测类别。

8.如权利要求5所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于步骤2-2-1)所述序列特征提取的具体操作方法是：

以序列样本中的负载长度序列作为输入进入嵌入编码层进行嵌入编码操作，得到嵌入编码向量；将得到的嵌入编码向量作为输入，使用一个层数为J，隐藏层维度为h_L的双向LSTM层进行高维特征提取，得到包长特征。

9.如权利要求5所述的一种基于多模态特征的小样本学习物联网流量分类方法，其特征在于步骤2-2-2)所述负载特征提取的具体操作方法是：

2-2-2-1)以序列样本中的负载字节序列作为输入，进行独热编码操作，得到独热编码向量，接着使用一个二维卷积对独热编码向量进行特征提取操作，从而获得初始特征向量；

2-2-2-2)以步骤2-2-2-1)得到的初始特征向量作为输入，分别送入由若干个并行的一维卷积分支构成的卷积结构中，由此获得各个分支的分支特征向量；

2-2-2-4)以步骤2-2-2-3)中获得各个分支的分支特征向量作为输入，使用若干个个可学习的权重作为注意力参数，进行带权相加，获得负载字节特征。

10.一种基于小样本学习的物联网流量分类方法及系统，其特征在于，包括用于训练阶段的物联网设备流量采集预处理模块、多模态特征编码器构建模块以及用于分类阶段的物联网设备流量采集预处理模块、多模态特征提取模块、特征比较模块；其中，

物联网设备流量采集处理模块负责对输入的原始物联网设备网络流量数据提取负载长度序列和负载字节序列，并将两部分分别处理为统一长度，将两部分相结合获得一条原始网络流的序列样本；

训练阶段的多模态特征编码器构建模块负责根据属于大样本类别的已标记物联网设备流量的序列样本集合，对多模态特征编码器中的网络参数进行调整，使其满足训练终止条件，以供分类阶段使用；

分类阶段的多模态特征提取模块负责根据训练阶段所生成的多模态特征编码器模型，对待分类的物联网设备流量序列样本以及支持集中的序列样本进行多模态特征提取工作；

分类阶段的特征比较模块负责对所提取的多模态特征进行特征比较，从而对待分类的物联网设备流量所属类别进行判定，并输出最终的判定结果。