CN113935398A

CN113935398A - 一种物联网环境下基于小样本学习的网络流量分类方法及系统

Info

Publication number: CN113935398A
Application number: CN202110999641.2A
Authority: CN
Inventors: 王一鹏; 赵子健; 赖英旭; 云晓春
Original assignee: Beijing University of Technology; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Technology; National Computer Network and Information Security Management Center
Priority date: 2021-08-29
Filing date: 2021-08-29
Publication date: 2022-01-14
Anticipated expiration: 2041-08-29
Also published as: CN113935398B

Abstract

本发明公开了一种物联网环境下基于小样本学习的网络流量分类方法及系统，包括训练阶段和分类阶段；训练阶段包括：对物联网设备流量样本进行统一处理；对训练数据进行学习训练，构建特征提取器模型和多个比较器模型；对多个比较器模型进行集成，形成集成比较器；分类阶段包括采集物联网设备流量并统一处理；根据训练阶段得到的特征提取器模型，对待分类流量样本与物联网设备流量支持集中样本进行特征提取；根据训练阶段得到的集成比较器对提取出的特征向量进行特征比较，从而对待分类的物联网设备流量设备类型进行判别。本发明可以进行快速学习的能力，从而解决在物联网设备数据不充足的情况下进行准确分类的问题。

Description

一种物联网环境下基于小样本学习的网络流量分类方法及系统

技术领域

本发明涉及在物联网设备流量不充足情况下使用小样本学习的方法对物联网设备产生的网络流量进行准确分类，具体涉及一种物联网环境下基于小样本学习的网络流量分类方法及系统。

背景技术

随着物联网技术的发展，物联网设备的数量以及多样性快速增长。在这种物联网设备的数量以及多样性爆发式的增长趋势下，网络服务提供商(ISP)如何更高效、更智能地管理物联网网络，保证网络的服务质量(QoS)以及保障网络的安全可靠成为了一大难题。由于物联网设备不同于通用计算设备，本质上是可移动的、更具动态化的，所以不同的物联网设备对于服务质量(QoS)有着不同的要求，如网络带宽或对数据包丢失的容忍度。例如，智能家用摄像头相比于智能灯泡则需要更高的带宽，智能烟雾探测器或智能钥匙锁相比于智能咖啡机则需要更可靠的通信，否则可能威胁生命或安全。另外，物联网设备的安全性往往十分令人担忧，它们存在着许多的安全问题，例如：物联网设备更容易被僵尸网络入侵，默认情况下会附带着不安全的设置，无法及时更新设备的硬件或软件，容易被其他人远程访问等等。这些安全问题大大增加了物联网网络管理，安全保障的难度。管理物联网网络以及保障网络安全的首要工作便是将物联网流量准确、高效地进行分类。为此，本发明以此作为背景，设计了对于物联网环境下使用少量样本作为数据支撑的网络流量分类方法及系统。

本发明设计并实现了一个基于小样本学习的网络流量分类方法及系统，该方法及系统通过一种基于小样本学习的神经网络模型来解决在物联网设备流量数据不充足的情况下分类不准确的问题。

目前，利用机器学习或深度学习是解决物联网设备流量分类问题的主流方法。具体地说，该方法通过选取数据包中的有效负载，或者数据包的包长、数据包到达时间的间隔等统计信息作为特征，利用大量的流量数据学习训练物联网设备的网络流量分类器从而达到分类的目的。当用于训练的物联网设备流量样本数据量充足时，该分类器通过学习大量的样本，找到同类样本特征之间的相似性以及不同类样本之间特征的差异性，从而学到适用于所有潜在样本的普遍性质。这样才能够较好地构建出各类样本的分类决策边界。然而，当用于训练的物联网设备流量样本数据量很少时，分类器会因为以下两点原因导致产生严重的过拟合现象，导致分类器泛化能力降低，在遇到新样本时无法做出正确判断，分类的准确率大幅下降。

第一，样本数据量很少情况下训练该分类器，分类器会因为反复观察这些少量样本，而导致过度关注于这些样本自身，将这些样本自身的一些特点当作适用于所有潜在样本的普遍性质，而不是从统计的角度出发来找出样本之间的共性，使得分类器构建的分类决策边界只限于这些少量的流量样本，对出现新样本做出错误判断。

第二，少量样本的数据分布往往与真实的数据分布相差较大。当数据量足够时，分类器所观察到的数据分布是真实的样本分布。而当只有少量样本时，分类器所能看到的数据分布只是真实数据分布的一部分，并不能代表全部的数据分布。这就使得分类器在这种数据分布下所学习到的分类决策边界与真实数据的分类决策边界相比变得歪斜。

本发明拟解决此前方法或系统所存在的上述技术缺陷。

发明内容

本发明的目的在于设计并实现一种物联网环境下基于小样本学习的网络流量分类方法及系统，该方法及系统通过多次不同小样本分类任务的训练，使得训练后的整体模型拥有仅需几个样本便可以进行快速学习的能力，从而解决在物联网设备产生的数据不充足的情况下进行准确分类的问题。为实现上述目的，本发明采用的技术方案如下：

一种物联网环境下基于小样本学习的网络流量分类方法及系统，包括训练阶段和分类阶段；所述训练阶段包括两个部分：(1)特征提取器和比较器模型的构建，(2)比较器模型的集成。

特征提取器和比较器模型的构建包含如下步骤：

1)以一组已知物联网设备产生的、样本数量足够多的网络数据流量为输入，对其进行预处理，得到物联网大样本设备字节流样本训练集。

2)以步骤1)得到的物联网大样本设备字节流样本训练集作为输入，采用小样本学习的训练方式，构建特征提取器模型以及多个不同结构的比较器模型；

比较器模型的集成包含如下步骤：

3)以一组已知物联网设备产生的网络数据流量为输入，这些已知物联网设备包括在步骤

1)中所使用的样本数量足够的大样本设备以及样本数量不充足的物联网设备(称为小样本设备)，对其进行预处理，得到物联网设备字节流样本验证集

4)以步骤3)中得到的物联网设备字节流样本验证集作为输入，对步骤2)中得到的多个不同结构的比较器进行参数微调并集成，得到集成比较器。

所述分类阶段包括如下步骤：

5)以网络流量数据为输入，获取待测网络字节流序列，并将待测字节流序列转换为与步骤1)相同的字节流样本；

6)根据训练阶段中步骤2)得到的特征提取器以及步骤4)中得到的集成比较器，以物联网设备流量样本支持集对待分类物联网流量的设备类别属性进行判别，并输出判别结果。

一种物联网环境下基于小样本学习的网络流量分类系统，包括用于训练阶段的物联网设备流量采集处理模块、特征提取器和比较器模型构建模块、比较器模型集成模块以及用于分类阶段的物联网设备流量采集处理模块、特征提取模块、特征比较模块；其中，

物联网设备流量采集处理模块负责对输入的原始网络流量数据提取字节流并将其处理为统一长度的字节流序列；

训练阶段的特征提取器和比较器模型构建模块负责根据物联网设备类型已知的字节流序列集合，对特征提取器和比较器模型中的网络参数进行调整，使其满足训练终止条件，以供分类阶段使用；

训练阶段的比较器模型集成模块负责对完成构建的比较器模型进行集成，得到集成比较器模型。

分类阶段的特征提取模块负责根据训练阶段所生成的特征提取器模型对未知物联网设备流量与支持集中样本提取特征。

分类阶段的特征比较模块负责根据训练阶段所生成的集成比较器模型对所提特征进行特征比较，从而对待分类的物联网设备流量设备类型进行判别，并输出判别结果。

本发明的关键技术点在于：

1.提出了一种基于小样本学习的神经网络模型来解决在物联网设备流量数据不充足的情况下分类不准确的问题。该模型从原始物联网流量的字节流中提取特征，并通过比较流量特征之间的相似程度来预测，从而实现对网络流量的分类。

2.设计了具有两个阶段(包特征提取阶段和包特征融合阶段)的特征提取器网络结构，该网络结构可以灵活提取字节流当中的不同长度的关键字，并且依靠带权融合方法降低对分类无意义的关键字以及数据包对整个特征表达的影响。

3.提出了通过集成多个比较器形成集成比较器的方法。相比于单个比较器从单一视角进行特征比较，集成比较器可以从多个不同视角对特征进行全方位的比较，集成比较器可以从多个不同视角对特征进行全方位的比较，从而提升分类表现。

利用本发明的方法可以解决在物联网设备产生的网络流量不充足的情况下，直接训练分类器导致分类表现不好的问题。与已公开的相关技术相比，具有如下优点：

1.设计了一种基于小样本学习的针对物联网设备的网络流量分类方法。。与以前的方法在流量数据不充足情况下分类表现不满足需要相比，本发明可以在物联网设备流量不充足的情况下依然能够对物联网设备流量进行分类，并且达到良好的分类效果。

2.设计了通过多个比较器集成，形成集成比较器的方法。与以前的方法相比，本发明使得比较器的设计无需特别关注，并且在分类时集成比较器可以从多个不同视角对特征进行全方位的比较，从而提升分类表现。

附图说明

图1是物联网环境下基于小样本学习的网络流量分类方法的模型构建阶段流程图。

图2是特征提取器模型构建的神经网络结构图。

图3是物联网环境下基于小样本学习的网络流量分类方法比较器集成阶段流程图。

图4是物联网环境下基于小样本学习的网络流量分类方法的分类阶段流程图。

图5是物联网环境下基于小样本学习的网络流量分类系统架构图。

图6是本发明在IoTDeviceDataset-I上的实验结果。

图7是本发明在IoTDeviceDataset-II上的实验结果。

具体实施方式

本发明的工作流程，可分为训练阶段和分类阶段。在训练阶段，通过模拟多次小样本分类任务，训练特征提取器和比较器网络中的可学习参数，使模型从大量带有标签注释的物联网流量样本中学习足够的可转移的元知识。另外，本发明还通过使用集成算法集成多个训练后的比较器网络进行多角度的特征比较，提升物联网设备流量的分类效果。在分类阶段，基于训练完成的模型参数，对于流量不足的物联网设备，只需要对其几个样本进行学习便可实现对该类物联网设备流量的分类。

训练阶段中，本发明包含两个部分：(1)特征提取器和比较器模型的构建，(2)比较器模型的集成。特征提取器和比较器模型构建过程的输出为满足物联网设备网络流量分类需求的特征提取器模型和比较器模型。比较器模型集成过程的输出为集成有多个比较器模型的集成比较器模型。

本发明的特征提取器和比较器模型构建基于小样本学习的训练方法来构建，构建流程如图1所示，其具体实施步骤如下：

1.该步对物联网大样本设备产生的网络数据流量进行预处理，输入为一组已知物联网设备产生的、样本数量足够多的网络数据流量(将这些流量样本数量足够多的物联网设备称为物联网大样本设备)，输出为对网络数据流量进行预处理后得到的物联网大样本设备字节流样本训练集集合D_train。具体预处理步骤如下：给定模型所使用的最大包数M和最大字节数B，对每条物联网大样本设备网络数据流量提取其字节流序列，若该条字节流数据包数大于等于M，则保留前M个数据包；若该条字节流数据包数小于M，则补上元素全部为0的空包至包数等于M；此外，若数据包中字节数大于等于B，则保留前B个字节，若数据包中字节数小于B则在末尾填充0至字节数等于B。完成上述操作后，得到预处理后的物联网大样本设备字节流样本训练集集合

(集合D_train包含K个物联网大样本设备，每个类别有h条字节流，一共h×K条物联网大样本设备流量字节流。其中x_(m,i)代表类别为y_i的第m条字节流，y_i代表x_(m,i)所对应的物联网大样本设备类别，其中

y_i∈{largedevice₁,…,largedevice_K})。后续将以D_train作为训练的基础，进行特征提取器与比较器的训练。

2.在开始特征提取器、比较器神经网络结构训练前，需要根据超参数设置，对其中的可训练参数进行初始化。神经网络参数初始化可以使用加载现有模型参数、随机初始化、自定义初始化等方法进行，在本发明中，使用随机初始化的方法为神经网络中的可训练参数赋予初始值。

若使用后需要对本发明中神经网络的可学习参数进行微调，也可跳过此步骤，不进行参数初始化，而是直接加载原有参数，在原有参数基础上调整模型效果。

3.该步骤以训练集集合D_train进行小样本分类任务的生成，得到小样本任务T＝{D_Sample,D_Query}，其中D_Sample代表样本集，D_Query代表查询集。具体步骤如下：对于完成步骤1后所得到的物联网大样本设备字节流样本训练集集合

首先，从设备类别集合{largedevice₁,…,largedevice_K}中随机地选择λ个物联网设备类别{largedevice′₁,…,largedevice′_λ}。再分别从这λ个类别的训练数据中随机抽取P个物联网设备字节流样本，并选取其中S个字节流样本放入样本集

剩余的P-S个字节流样本放入查询集

其中

表示类别为y_i的来自样本集D_Sample第m个物联网大样本设备字节流样本，

表示类别为y_j的来自查询集D_Query第n个物联网大样本设备字节流样本。样本集D_Sample与查询集D_Query合起来为一个小样本分类任务T＝{D_Sample,D_Query}。

4.该步对生成的小样本分类任务T的样本集D_Sample与查询集D_Query中的每个物联网设备字节流样本使用特征提取器进行特征提取，得到样本集特征向量集合F_Sample与查询集特征向量集合F_Query。为表示方便，这里统一用x表示来自样本集D_Sample的字节流样本

或查询集D_Query的字节流样本

注意，这里x的维度为(1×(M×B))。整个特征提取方法如图2所示，分为两个阶段，分别是包特征提取阶段和包特征融合阶段。在包特征提取阶段中，对于输入进特征提取器的流量样本，特征提取器会对输入x进行包特征提取。具体步骤如下：首先对于输入x的最后一维按照每B个元素一组，也就是一个数据包为一组的方式分成M个向量{x₁,…,x_M}，每个向量维度为(1×1×B)。对于某个分组x_i，其中i∈{1,…,M}，特征提取器对利用l个大小不同的1D卷积核分别对这个数据包进行卷积操作，第j个卷积核大小为1×k_j，每种卷积核有C₀个，即对应的通道数为C₀。为了使卷积后的输出具有同样的维度，在卷积时进行padding操作，使得卷积后的l个输出{f_i,1,…,f_i,l}维度都为(1×C₀×B))，其中f_i,j∈{f_i,1,…,f_i,l}对应使用大小为1×k_j的1D卷积核卷积后得到的特征向量。在卷积层的转换完成后，需要使用非线性激活函数和数据归一化，以优化数据分布、加快神经网络整体训练速度、提升训练效果。本发明使用的非线性激活函数为ReLU函数(RectifiedLinearUnit)、数据归一化方式是批次归一化(batchnormalization)，在网络结构中所有需要非线性激活和归一化的步骤，也可使用其他方法。

之后，再将得到的l个特征向量{f_i,1,…,f_i,l}进行带权融合，l个特征向量权重分别为{w₁,w₂,…,w_l}(∑w_j＝1)，得到融合后的带权特征向量

其维度为(1×C₀×B))。注意带权融合操作时的权重w是可以学习的参数，而非固定的参数。在输入x的全部分组{x₁,…,x_M}进行包特征提取后，得到所有分组的特征向量{f₁,…,f_M}进入包特征融合阶段。对所有得到的特征向量再次进行带权融合。对于某个特征向量f_i，其权重为w′_i(∑w′_i＝1)，融合后得到最后的带权特征向量

其维度为(1×C₀×B))。同样，这里的权重w′是可以学习的参数。

在对样本集D_Sample与查询集D_Query中的每个物联网设备字节流样本完成上述特征提取后，分别得到样本集D_Sample中所有物联网设备字节流样本的特征向量集合

与查询集D_Query中所有物联网设备字节流样本的特征向量集合

其中

表示类别为y_i的来自样本集D_Sample第m个物联网大样本设备字节流样本所提取的特征向量，

表示类别为y_j的来自查询集D_Query第n个物联网大样本设备字节流样本所提取的特征向量。

5.该步选择查询集特征向量集合F_Query中一个特征向量

与样本集特征向量集合F_Sample中所有特征向量使用比较器逐一进行特征比较，得到该该特征向量与样本集特征向量集合中所有特征向量之间的相似程度Score_(n,j)。具体步骤如下，给定来自查询集的特征向量集合F_Query中的某个特征向量

以及样本集特征向量集合

首先将来自查询集的特征向量

与样本集特征向量集合F_Sample中所有特征向量

在隐藏层维度上进行拼接操作得到拼接后的向量集合

其中

表示特征向量

和

拼接后形成的向量，维度为(1×(2×C₀)×B)，

表示被拼接的来自查询集的特征向量

的类别为y_j，来自样本集的特征向量

的类别为y_i。然后，将得到的向量集合F_Concatenate中的所有向量

分别输入到不同比较器网络中进行特征比较。比较器是一个卷积神经网络，本发明通过改变卷积网络的层数、卷积核大小、滑动步长、通道数、池化层大小来设计α个不同结构的比较器网络模型{comparison₁,…,comparison_α}。下面将对使用第b个比较器comparison_b对特征向量集合F_Concatenate中的某个特征向量

进行特征比较的步骤进行描述。对于第b个比较器网络模型comparison_b，其对应网络层数为layer_b，卷积核大小为kernel_size_b，滑动步长为stride_b，通道数为C_b，池化层大小为poolingsize_b。对

首先使用C_b个大小为1×kernel_size_b、滑动步长为stride_b的1D卷积核进行卷积操作，同样在卷积时使用padding操作保证该特征向量最后一层卷积前后维度一致，得到卷积后的输出

其维度为(1×C_b×B)。在卷积层的转换完成后，使用ReLU(Rectified Linear Unit)非线性激活函数和批次归一化(batch normalization)对得到的输出

进行处理。接着，使用大小为poolingsize_b的池化层对

进行特征压缩，得到压缩后的特征向量

其维度为(1×C_b×(B/poolingsize_b))。之后，将压缩后的特征向量

进行维度转换，得到转换后的特征向量

其维度为(1×(C_b×(B/poolingsize_b)))。最后，使用全连接层以及sigmoid函数将压缩后的特征向量

映射为一个维度为(1×1)的值

其范围为[0,1]。

表示特征向量

和

之间的相似程度。

在完成对所选取的特征向量

与样本集特征向量集合F_Sample中所有特征向量

逐一进行特征比较后，可得到相似程度

6.该步依据得到的所选择的特征向量

的相似程度Score_(n,j)，对其所代表的查询集流量样本

进行分类。具体步骤如下，对于所选取的特征向量

有其相似程度集合

对集合中所有元素进行数值排列找出其中最大元素

其中m′∈[1,S]，i∈[1,…,λ]，则特征向量

类别被分类为y_i′，即物联网大样本设备字节流样本被分类为类别largedivece′_i′。

7.重复步骤(5)与步骤(6)，直到遍历查询集特征向量集合中的所有特征向量，得到预测的查询集中所有特征向量所代表的流量样本的设备类别，依据预测类别与真实类别计算损失函数。对特征向量

真实类别y_i，可得到真实相似程度集合

根据计算的其相似程度集合Score_(n,j)以及真实相似度集合TrueScore_(n,j)，可计算损失函数，以评估当前计算结果与实际数据的拟合程度。本发明所使用的损失函数为均方差损失函数(MSELoss)。

8.该步骤重复步骤(3)-(8)的流程并判断神经网络计算的结果满足结束条件L₁。(a)若计算结果满足结束条件L₁，则停止神经网络的训练过程，将包含神经网络参数值的特征提取器模型和比较器模型作为训练阶段的最终结果输出，以供比较器集成阶段进行比较器的集成以及分类阶段进行物联网设备网络流量分类(注意本发明在此阶段对所有α个比较器进行训练，得到α个训练好的比较器模型)；(b)若计算结果不满足结束条件，则根据网络分类结果计算损失函数值，使用反向传播更新神经网络参数，返回步骤(3)小样本分类任务生成，重复(3)-(7)流程。结束条件L₁的设置，可包括但不局限于下述条件：达到最大迭代周期、达到期望损失函数值、达到期望统计评价指标等。

本发明的比较器模型集成基于集成算法来实现，比较器集成的流程如图3所示，其具体实施步骤如下：

1.该步对物联网设备产生的网络数据流量进行预处理，输入为一组已知物联网设备产生的网络数据流量，这些已知物联网设备包括在模型构建阶段所使用的样本数量足够的大样本设备{largedevice₁,…,largedevice_K}以及样本数量不充足的物联网设备(称为小样本设备){fewdevice₁,…,fewdevice_K′}，输出为对网络数据流量进行预处理后得到的物联网设备字节流样本验证集集合

(集合D_valid包含θ个类别的物联网设备类别，每个类别有h′条字节流，一共h′×θ条物联网设备流量字节流，其中x_(m,i)代表类别为y_i的第m条字节流，y_i代表x_(m,i)所对应的物联网设备类别，y_i∈{device₁,…,device_θ}。注意此阶段中物理网设备类别集合{device₁,…,device_θ}为模型构建阶段的物联网大样本设备类别集合{largedevice₁,…,largedevice_K}与无法进行传统机器学习或深度学习分类方法的物联网小样本设备类别集合{fewdevice₁,…,fewdevice_K′}的总和，即{device₁,…,device_θ}＝{largedevice₁,…,largedevice_K}∪{fewdevice₁,…,fewdevice_K′})。预处理方式如模型构建阶段步骤(1)中相同，给定模型所使用的最大包数M和最大字节数B，将每条字节流变成(1×(M×B))的向量表达形式，得到物联网设备字节流样本验证集集合

后续将以D_valid作为比较器集成的基础，进行比较器模型的集成。

2.该步使用验证集D_valid对模型构建阶段得到的α个比较器模型{comparison₁,…,comparison_α}进行参数微调，得到参数调整过后的α个比较器模型{comparison′₁,…,comparison′_α}。具体步骤如下：给定物联网设备字节流样本验证集集合

以及在模型构建阶段得到的特征提取器模型以及α个比较器模型，微调方法如模型构建阶段相同：使用D_valid生成小样本分类任务，注意此步骤中任务的类别数不再为λ，而是D_valid中全部的类别数θ；然后，对任务中的样本集与查询集中样本使用特征提取器提取特征；接着，使用比较器进行特征比较；最后，对查询集中样本进行分类，根据分类结果来更新神经网络参数，注意这里只对每个比较器进行参数更新。完成步骤2后，得到参数微调后的α个比较器模型{Comparison′₁,...,Comparison′_α}。

3.该步以验证集D_valid为基础进行小样本任务分类的生成，得到小样本分类任务T_i′，其中T_i′表示第i次迭代时生成的小样本分类任务。具体步骤如下：给定物联网设备字节流样本验证集集合

进行小样本任务生成，方法与模型构建阶段的步骤(3)相同。同样，注意此步骤中任务的类别数量不再为λ，而是D_valid中全部的类别数θ，得到小样本分类任务T_i′。

4.该步骤对参数微调后的α个比较器模型{Comparison′₁,...,Comparison′_α}进行遍历并加入现有的集成比较器中，得到一组的候选集成比较器。具体步骤如下：给定步骤(2)中得到的参数微调后的α个比较器模型{Comparison′₁,...,Comparison′_α}以及第i-1次迭代所得到的集成比较器E_i-1＝{Comparison¹,…,Comparison^i-1}(集成比较器E是一个比较器模型的集合，其中Comparisonⁱ表示在第i次迭代时所选择的比较器模型。特别的，当i＝1时，E₀＝{})，依次遍历选择比较器模型{Comparison′₁,...,Comparison′_α}，使用Comparison′_j表示遍历得到的比较器模型。将Comparison′_j放入集成比较器E_i-1，得到候选集成比较器E_i-1,j。遍历全部比较器后，最终得到一组候选集成比较器

5.该步骤分别使用得到的每个候选集成比较器E_i-1,j以及特征提取器对小样本任务T_i′进行分类，得到关于每个候选集成比较器在验证集上的分类准确率

分类方法与训练阶段步骤(6)方法相同，通过比较相似程度大小进行分类，但在该步是将候选集成比较器E_i-1,j中所有比较器所计算的相似程度进行相加，再根据相加后的相似程度进行分类。在分类完成后，计算分类的准确率Acc_j并记录。Acc_j代表使用集成比较器E_i-1,j的分类效果。在使用所有的候选集成比较器后，得到关于每个候选集成比较器的分类准确率集合

6.该步骤以分类效果集合

为基础，进行候选集成比较器的挑选并更新现有的集成比较器。具体步骤如下：对于分类效果集合Acc，选取其中数值最大的一项，记作Acc_max。然后将E_i-1,max替换现有的集成比较器E_i-1，得到更新后的集成比较器E_i。

7.该步骤判断更新后的集成比较器E_i是否满足结束条件L₂：(a)若计算结果满足结束条件L₂，则停止集成算法的迭代过程，将集成比较器模型作为比较器集成阶段的最终结果输出，以供分类阶段进行物联网设备的网络流量分类；(b)若计算结果不满足结束条件，则将集成比较器E_i用于下一次迭代，重复(3)-(7)流程。结束条件L₂的设置，可包括但不局限于下述条件：达到最大迭代周期、达到期望统计评价指标等。

分类阶段的工作如图4所示，该阶段以训练阶段所得到的特征提取器模型以及集成比较器模型为基础，以待分类的物联网设备流量和物联网设备流量样本支持集为输入，对捕获的待分类物联网设备流量进行分类判别。

1.本发明的物联网设备流量采集处理模块负责捕获物联网设备流量并对所有待分类物联网设备字节流进行统计处理。根据预先设置的最大包数M以及最大字节数B对字节流进行截断或补零，形成待分类的物联网设备字节流流量样本。

2.依据训练阶段生成的特征提取器模型，对待分类物联网设备字节流流量样本以及物联网设备流量样本支持集中样本进行特征提取。物联网设备流量样本支持集是所有需要被分类的物联网设备字节流样本的几个示例的集合。示例数量与训练阶段设置的样本集每类样本数量S相同。

3.依据训练阶段生成的集成比较器模型，对提取出的待分类物联网设备流量样本的特征与从支持集中提取出的各个物联网设备字节流样本的特征进行特征比较，并最终得到待分类物联网设备流量的所属类别。

本发明在实际应用过程中，可根据发明在不同数据集上的分类效果等因素，重新启动训练阶段，对神经网络进行调整、重新训练。通过训练阶段与分类阶段的多次迭代，对本方法所使用的神经网络参数进行更新，保证本方法性能满足物联网设备的网络流量分类需求。

结合上述物联网环境下基于小样本学习的网络流量分类方法，本发明同时公开了一种物联网环境下基于小样本学习的网络流量分类系统。本系统主要由训练阶段和分类阶段两个阶段构成，系统图架构如图5所示。

1.训练阶段：首先，以已知物联网大样本类设备产生的网络流量为输入，由(1)物联网设备流量采集处理模块对每条物联网设备流量提取字节流并进行截断或补零，使之长度相同。然后，由(2)特征提取器、比较器模型构建模块使用已处理好的物联网大样本类设备字节流流量样本，对本发明设计的特征提取器以及比较器模型进行训练，使特征提取器以及比较器模型的性能满足分类需求。(2)特征提取器、比较器模型构建模块的输出结果是完成构建的特征提取器与比较器模型。最后，由(3)比较器集成模块对完成构建的比较器模型进行集成。(3)比较器集成模块的输出结果是完成集成算法的集成比较器。

2.分类阶段：分类阶段以待分类的物联网设备流量以及已知物联网设备流量为输入，其中已知物联网设备流量用于构建物联网设备流量样本支持集。由(1)物联网设备流量采集处理模块对输入的流量数据进行处理，形成字节流序列并统一序列长度。(4)特征提取模块以未知物联网设备流量与物联网设备流量样本支持集中样本为输入，使用(2)特征提取器、比较器模型构建模块所生成的特征提取器模型，对待分类物联网设备流量与支持集中样本提取特征。(5)特征比较模型使用(3)比较器集成模块所生成的集成比较器对所提特征进行特征比较，从而对待分类的物联网设备流量设备类型进行判别。分类阶段的输出结果为待分类的物联网设备流量所对应的设备类别。

本发明在两个公开物联网流量数据集上开展实例验证，分别是新南威尔士大学物联网流量数据集和Mon(IoT)r物联网数据集。首先，对这两个数据集按照五元组信息[源ip,目的ip,源端口，目的端口，传输层协议]划分为不同的双向流，并且将每个包中的以太网层以及IP层从数据包中移去。另外，在此过程中过滤掉了一些协议的流量，包括：DNS，NTP，NetBIOS，DHCP。对于新南威尔士大学物联网流量数据集，它包含21种物联网设备所产生的流量。从中选取了K＝9类设备作为大样本类，K′＝5类设备作为小样本类，一共θ＝14类设备，构成第一个实验数据集(参数对应)，命名为IoTDeviceDataset-I。选取的类别名称以及流量数目如表1中所示。类似的，对于Mon(IoT)r物联网数据集，它包含从英国以及美国两个国家的实验室捕获的物联网设备的流量，其中有共有的26种物联网设备，从这共有的26类设备中选取了K＝8类设备作为大样本类，K′＝5类设备作为小样本类设备，一共θ＝13类设备，构成第二个实验数据集，命名为IoTDeviceDataset-II。选取的类别名称以及流量数目如表2中所示。

在实例验证中，对大样本类每类随机选择了h＝2000个样本构成训练集。同时，对所有类每类选取了h＝100个样本构成验证集。在构建小样本任务时，每类随机抽取P＝20个样本，另外在模型构建阶段小样本任务类别数λ＝5。对于特征提取器网络，设计具有l＝3个大小分别为1×1，1×3，1×5的1D卷积核，每种卷积核有C₀＝32个。对于比较器网络，设计10个不同的比较器，每个比较器的层数、卷积核大小、滑动步长、通道数、池化层大小如表3中所示。

表格1：IoTDeviceDataset-I中各个物联网设备类别名称及其对应的应用流数目

表格2：IoTDeviceDataset-II中各个物联网设备类别名称及其对应的应用流数目

表格3：比较器模型参数设置

另外，在验证中，对于超参数(1)每条流使用的最大包数M、(2)每个包使用的最大字节数N、(3)构建任务时每类所用的样本数S设定了不同的取值范围。对于超参数M设定其取值范围为{1,2,3,4,5}。对于超参数N，设定其取值范围为{64,128,256}。对于超参数S，取值范围设定为{5,10,15}。在不同超参数设置的情况下分别进行实验，并将本发明与现有的基于深度学习的物联网设备流量分类方法在流量数据不充足的情况下进行对比。

首先，定义评价指标。对于一条由物联网设备d产生的流量，分类器对这条流量进行分类的结果会有如下四种情况：

(1)真阳(True Positive)：被分类器分类为d类，且确实是由物联网设备d产生的；

(2)假阳(False Positive)：被分类器分类为d类，但是并非是由物联网设备d产生的；

(3)真阴(True Negative)：被分类器分类为不属于d类，并且确实不是由物联网设备d产生的；

(4)假阴(False Negative):被分类器分类为不属于d类，但是确实是由物联网设备d产生的。

根据上述四种情况，我们可以定义出三种指标用来评价一个分类器对物联网设备d产生的流量的分类质量，分别为召回率(Recall)，精确率(Precision)，F值(F-Measure)，公式如下：

物联网环境下基于小样本学习的网络流量分类方法与系统在两个数据集IoTDeviceDataset-I和IoTDeviceDataset-I上的实验结果分别如图6、7所示。

根据实验结果，对于IoTDeviceDataset-I，分类器在所有的M、N、S取值下，召回率，精确率以及F1值都在99％附近。最好的参数为M＝3、N＝128、S＝15，对应的召回率，精确率以及F1值都为99.43％。对于IoTDeviceDataset-II，分类器在所有M、N、S的取值下，召回率，精确率以及F1值的变化范围在74％-86％。最好的参数为M＝4、N＝256、S＝15，此时召回率为85.45％，精确率为84.68％，F1值为84.91％。

表格4：与现有基于深度学习的物联网设备的网络流量分类方法在流量数据量不充足情况下的对比实验结果

从表格4中可以明显地观察到，本发明在两个实验数据集上的分类效果均优于现有的基于深度学习的分类方法和系统(BSNN、BitCoding)。对于数据集IoTDeviceDataset-I上，本发明在三个评价指标的结果都高于其他两种方法，三个评价指标都提升了大约2％。对于数据集IoTDeviceDataset-II，本发明在三个评价指标的结果明显高于其他两种方法。对比BSNN，三个指标都提升了5％左右；对比BitCoding,召回率提升10％左右，精准率提升3％左右，F1值提升10％左右。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，包括训练阶段和分类阶段；

所述训练阶段包括两个部分：(1)特征提取器和比较器模型的构建，(2)比较器模型的集成；

特征提取器和比较器模型的构建包含如下步骤：

1)以一组已知物联网设备产生的、样本数量足够多的网络数据流量为输入，对其进行预处理，得到物联网大样本设备字节流样本训练集；

比较器模型的集成包含如下步骤：

3)以一组已知物联网设备产生的网络数据流量为输入，这些已知物联网设备包括在步骤1)中所使用的样本数量足够的大样本设备以及样本数量不充足的物联网设备(称为小样本设备)，对其进行预处理，得到物联网设备字节流样本验证集

4)以步骤3)中得到的物联网设备字节流样本验证集作为输入，对步骤2)中得到的多个不同结构的比较器进行参数微调并集成，得到集成比较器；

所述分类阶段包括如下步骤：

5)以待测网络流量数据为输入，获取待测网络流量字节流序列，并将待测字节流序列转换为与步骤1)相同的字节流样本；

2.如权利要求1所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤1)进行预处理的具体操作方法是：

1-1)对输入的网络流量，提取每条流量的字节流序列；

1-2)根据给定的最大包数和最大字节数，对提取出的字节流序列进行长度调整；丢弃超出指定最大包数的数据包或者超出最大字节数的字节序列，对不足最大包数的字节流序列补上空包，不足最大字节数的在尾部补零。

3.如权利要求1所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤2)，构建特征提取器模型以及多个比较器模型的具体操作方法是：

2-1)以步骤1)得到的物联网大样本设备字节流样本训练集作为输入，进行小样本分类任务生成操作，得到小样本分类任务，该任务包含样本集与查询集；

2-2)以步骤2-1)得到的小样本分类任务作为输入，对任务中的样本集与查询集中的每个物联网设备字节流样本使用特征提取器进行特征提取操作，得到样本集特征向量集合与查询集特征向量集合；

2-3)以步骤2-2)得到的样本集特征向量集合与查询集特征向量集合作为输入，选择查询集特征向量集合中的一个特征向量，并将其与样本集特征向量集合中所有特征向量使用比较器逐一进行特征比较操作，得到该特征向量与样本集特征向量集合中所有特征向量之间的相似程度集合；

2-4)以步骤2-3)得到的所选取的特征向量的相似程度集合作为输入，根据相似程度数值对该特征向量所代表的流量样本进行判别，得到查询集中该样本的设备类别；

2-5)重复步骤2-3)与步骤2-4)，直到遍历查询集特征向量集合中的所有特征向量，得到预测的查询集中所有特征向量所代表的流量样本的设备类别；

2-6)以步骤2-5)得到的预测的查询集中样本的设备类别与步骤2-1)中的查询集样本真实设备类别为输入，计算分类准确率、损失函数值等指标，若指标满足结束条件L₁，则停止模型构建流程，输出特征提取器模型和比较器模型(在步骤2)对所有比较器进行训练，得到多个训练好的比较器模型)；若指标不满足结束条件L₁，则重复步骤2-1)～步骤2-6)。

4.如权利要求1所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤3)进行预处理的具体操作方法与步骤1)相同：

3-1)对输入的网络流量，提取每条流量的字节流序列；

3-2)根据给定的最大包数和最大字节数，对提取出的字节流序列进行长度调整；丢弃超出指定最大包数的数据包或者超出最大字节数的字节序列，对不足最大包数的字节流序列补上空包，不足最大字节数的在尾部补零。

5.如权利要求1所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤4)对多个不同结构的比较器进行参数微调并集成的具体操作方法是：

4-1)以步骤3)得到的物联网设备字节流样本验证集作为输入，对步骤2)中得到的多个比较器模型进行参数微调操作，得到参数微调后的多个比较器模型；参数微调方法具体操作方法与模型构建阶段相同：使用物联网设备字节流样本验证集生成小样本分类任务，注意此时任务的类别数不再为λ，而是验证集中全部类别的总数；然后，对任务中的样本集与查询集中样本使用特征提取器提取特征；接着，使用比较器进行特征比较；最后，对查询集中样本进行分类，根据分类结果来更新神经网络参数，注意这里只对每个比较器进行参数更新；

4-2)以步骤3)得到的物联网设备字节流样本验证集作为输入，进行小样本分类任务生成操作，得到小样本分类任务；具体操作方法与步骤2-1)相同；同样，注意此时任务的类别数量不再为λ，而是验证集中全部类别的总数；

4-3)以步骤4-2)得到的参数微调后的多个比较器模型为基础，对其进行遍历，并分别加入现有的集成比较器中(集成比较器是一个比较器模型的集合，在最初时集成比较器为空集)，形成一组候选集成比较器；

4-4)以步骤4-3得到的一组候选集成比较器为基础，依次使用其中的候选集成比较器以及步骤2)中得到的特征提取器对步骤4-2)中得到的小样本分类任务进行物联网设备流量分类，得到关于每个候选集成比较器的分类准确率；分类方法与步骤2-4)方法相同，通过比较相似程度的大小得到预测的设备类别，但此时是将候选集成比较器中所有比较器所计算的相似程度进行相加，再根据相加后的相似程度进行分类；

4-5)以步骤4-4)中得到的关于每个候选集成比较器的分类准确率为基础，选取其中数值最大一项对应的候选集成比较器，将现有的集成比较器替换为选取的候选集成比较器；

4-6)以步骤4-5)中得到的集成比较器为基础，判断其分类准确率、所集成的比较器个数等指标是否满足结束条件L₂；若满足结束条件L₂，则停止比较器集成流程，输出集成比较器；若不满足结束条件L₂，则重复步骤4-2)～步骤4-6)。

6.如权利要求3所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤2-1)所述小样本分类任务生成的具体操作方法是：

从设备类别集合中随机地选择λ个物联网设备类别；再分别从这λ个类别的训练数据中随机抽取P个物联网设备字节流样本，并选取其中S个字节流样本放入样本集，剩余P-S个字节流样本放入查询集；样本集与查询集合起来为一个小样本分类任务。

7.如权利要求3所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤2-2)所述特征提取的具体操作方法是：

2-2-1)对输入字节流样本按照其所属的数据包进行分组，属于相同数据包的字节流在同一分组中，属于不同数据包的字节流则在不同的分组中；

2-2-2)对于其中某个分组，利用l个大小不同的1D卷积核分别对这个数据包进行卷积操作并提取特征，每种卷积核有C₀个，即对应通道数为C₀，得到l个特征向量；并且在卷积时进行padding操作，使卷积后的输出具有同样的维度；在卷积层的转换完成后，可以使用激活函数、归一化、随机丢弃及其他功能性操作；最后，对得到的l个特征向量进行带权融合，得到融合后的带权特征向量；注意带权融合的权重是可以学习的参数，而非固定的参数；

2-2-3)在输入字节流样本的全部分组进行步骤2-2-2)后，对得到的所有分组的特征向量再次进行带权融合，得到最后的带权特征向量；同样，这里的权重是可以学习的参数。

8.如权利要求3所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤2-3)所述特征比较的具体操作方法是：

2-3-1)将输入的两个特征向量在隐藏层维度上进行拼接操作得到拼接后的特征向量；

2-3-2)以步骤2-3-1)得到的特征向量为输入，使用C_b个大小为1×kernel_size_b、滑动步长为stride_b的1D卷积核进行卷积操作，同样在卷积时使用padding操作保证该特征向量最后一层卷积前后维度一致，得到卷积后的输出；在卷积层的转换完成后，可以使用激活函数、归一化、随机丢弃及其他功能性操作；接着，使用大小为poolingsize_b的池化层对卷积后的输出进行特征压缩，得到压缩后的特征向量；

2-3-3)以步骤2-3-2)得到的压缩后的特征向量为输入，使用全连接层以及sigmoid函数将其映射为一个维度为1的值，其范围为[0,1]。

9.如权利要求3所述的一种物联网环境下基于小样本学习的网络流量分类方法，其特征在于，步骤2-4)所述物联网设备流量分类的具体操作方法是：

以步骤2-3)得到的相似程度集合作为输入，对相似程度集合中所有元素进行数值排列找出其中最大元素，最大元素所代表的样本集中的字节流样本类别则为预测的待分类字节流序列设备类别。

10.一种物联网环境下基于小样本学习的网络流量分类系统，其特征在于，包括用于训练阶段的物联网设备流量采集处理模块、特征提取器和比较器模型构建模块、比较器模型集成模块以及用于分类阶段的物联网设备流量采集处理模块、特征提取模块、特征比较模块；其中，

训练阶段的比较器模型集成模块负责对完成构建的比较器模型进行集成，得到集成比较器模型；

分类阶段的特征提取模块负责根据训练阶段所生成的特征提取器模型对未知物联网设备流量与支持集中样本提取特征；