CN115361195A

CN115361195A - 一种基于时空代价成本的大规模物联网流量多分类方法

Info

Publication number: CN115361195A
Application number: CN202210983986.3A
Authority: CN
Inventors: 徐小龙; 朱士洲
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-18

Abstract

本发明公开一种基于时空代价成本的大规模物联网流量多分类方法，获取待识别的物联网异常及加密流量；将待识别的物联网异常及加密流量输入预先训练的目标网络模型，获得类别预测向量和对应的预测标签。预先训练目标网络模型：根据格式化后物联网异常及加密流量样本数量相对分布，创建成本代价矩阵；将格式化样本向量集合和成本代价矩阵输入构建的目标网络模型中，得到多分类预测序列；提取多分类预测序列中的类别预测向量，类别预测向量代表物联网异常及加密流量样本所属各个类别对应的最终预测值；根据最终预测值中的最大值，获取对应的类别和对应类别的预测标签。

Description

一种基于时空代价成本的大规模物联网流量多分类方法

技术领域

本发明涉及一种基于时空代价成本的大规模物联网流量多分类方法，属于深度学习、物联网异常及加密流量识别、数据不平衡和物联网网络安全应用技术领域。

背景技术

随着物联网在各个领域的不断融合，如何识别大规模物联网中异常及加密流量的具体类型，已经是大规模物联网中网络安全的基本前提。到目前为止，已经有很多传统网络下的流量分析技术被应用于物联网网络，主要分为有效负载检查、基于统计和基于机器学习的方法。然而，一方面，大规模物联网的复杂性使得网络中的流量更加的复杂多样，另一方面，流量的加密技术使得网络中的异常及加密流量更加的不易识别；这使得目前流量识别方法无法满足大规模物联网的稳定性、健壮性以及安全性等要求。对于具有关键任务需求的IoT应用服务，如电力物联网(Power Internet of Things,PIoT)服务、工业物联网(Industrial Internet of Things，IIoT)服务和医疗物联网(MedicalInternet ofThings，MIoT)服务来说，必须确保其持续的正常运行时间，提高其服务质量。基于有效载荷的方法，其在有效负载未加密的情况下工作，但加密、隐私、复杂性和高处理时间仍然是其缺点。基于统计的方法是有效载荷方法的一种改进，其通过使用独立的负载容量参数(如数据包长度、到达时间和流长度)来避免对负载容量访问的拒绝。虽然基于统计的方法不能提供相当高的精度，但是它们能够快速的对流量进行分类。基于机器学习的方法已经成为网络流量多分类领域的重要方法，通过引入多个基于机器学习的分类方法来克服传统方法的局限性，但是其有效性很大程度上取决于特征的提取过程。此外，作为机器学习的一个分支，深度学习方法由于能够自动提取特征，近年来在物联网流量分类领域受到广泛研究。

综上，当前工作中对于大规模物联网异常及加密流量多分类的研究仍存在以下不足：

一、随着加密技术的普及，尤其对于异常流量，使得现有的流量分析方法更加不易识别流量类型，基于有效负载的方法对异常及加密流量的特征提取更加困难，多分类识别性能效率低。

二、基于机器学习与基于统计的方法，这些方法大多依赖于特征的提取，通常需要手动设计特征，但是对于异常及加密流量的识别仍然比较困难，且需要花费更多的时间收集流量数据，实时性低。

三、基于深度学习的流量识别方法往往需要对样本进行特定的处理，可能会导致样本信息丢失或者冗余，从而导致模型分类器性能下降。四、对于大规模物联网的复杂网络环境，采集的数据存在着严重的数据不平衡情况。尤其相对普通流量来说，异常及加密流量只占少数部分，数据严重倾斜，容易导致模型多分类性能不高。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于时空代价成本的大规模物联网流量多分类方法。

为达到上述目的，本发明提供一种基于时空代价成本的大规模物联网流量多分类方法，包括：

获取待识别的物联网异常及加密流量；

将待识别的物联网异常及加密流量输入预先训练的目标网络模型，获得类别预测向量和对应的预测标签。

优先地，预先训练目标网络模型，通过以下步骤实现：

获取训练集，训练集包括不同类别的物联网异常及加密流量样本、格式化样本向量集合和物联网异常及加密流量样本的真实标签；

根据格式化后物联网异常及加密流量样本数量相对分布，创建成本代价矩阵；

将格式化样本向量集合和成本代价矩阵输入构建的目标网络模型中，得到多分类预测序列；提取多分类预测序列中的类别预测向量，类别预测向量代表物联网异常及加密流量样本所属各个类别对应的最终预测值；

根据最终预测值中的最大值，获取对应的类别和对应类别的预测标签。

优先地，预先训练目标网络模型，还包括：

判断物联网异常及加密流量样本的真实标签和预测标签是否相同，若相同则成本代价惩罚取值为0，并继续输入下一个待识别的物联网异常及加密流量样本；

若不相同，则利用成本代价矩阵对该物联网异常及加密流量样本进行成本代价惩罚，更新类别预测向量；

将更新的类别预测向量转换成各个类别的概率值；

基于各个类别的概率值，使用改进的交叉熵损失函数重新计算目标网络模型的损失，并更新目标网络模型的权重；

若交叉熵损失函数收敛于一定值，则停止训练，获得最终的目标网络模型。

优先地，获取训练集，通过以下步骤实现：

对物联网异常及加密流量样本按照相同五元组进行流拆分，获得多个流样本文件；

将无效的流样本文件进行清除，获得剩余流样本文件；

从剩余流样本文件中选取若干个连续的数据包；

对选取的数据包进行过滤和屏蔽IP地址；

将选取的数据包进行向量化和标准化处理，得到格式化样本向量。

优先地，所述目标网络模型为基于时空代价成本的神经网络模型；

目标网络模型由两层堆叠双向LSTM神经网络、两层一维卷积神经网络层、全连接神经网络层和成本代价层，两层堆叠双向LSTM神经网络、两层一维卷积神经网络层、全连接神经网络层和成本代价层依次连接；

目标网络模型提取时序特征和空间特征。

优先地，对选取的数据包进行屏蔽IP地址，通过以下步骤实现：

根据数据包的IP地址首部字段判断每个数据包是否为一个有效的IP数据包，若不是则将对应的数据包移除；

将所有数据包的源IP地址的向量化数值和目的IP地址的向量化数值修改为0；

优先地，对选取的数据包进行过滤，通过以下步骤实现：

从数据包的起点开始按照(n,m)规格顺序读取并过滤数据字段为空的数据包，直到读取n个数据字段不为空的数据包，若数据包数量不足n个，则用零补全数据包；

将n个数据包保留m长度字节数，若长度字节数超过m则对数据包进行截断，若长度字节数不足m则用零补全数据包；

将每个数据包转化为(n,m)的二维向量；

对转化为(n,m)的二维向量进行向量标准化处理；

创建的成本代价矩阵的表达式为：

式中，Cost_i,j为第j个类别被错误分类为第i个类别的成本代价，N_j为第j个类别的样本数量，N_i为第i个类别的样本数量。

优先地，获取训练集，还包括：

将格式化样本向量转换成图片形式存储，得到格式化样本向量集合；

将格式化样本向量集合划分为训练集和测试集；

每个是格式化样本向量都为n×m形式的单精度浮点数的二维向量，每个数据包都为1×m形式的一维向量。

优先地，预先训练目标网络模型，还包括：

将格式化样本向量视为具有时序关系的n步序列，每步长为m，输入目标网络模型，每步输入1×m的格式化样本向量；

将输入的格式化样本向量分别接入向前和向后的两个LSTM中，捕获数据包前后的时序特征；将数据包前后的时序特征作为空间特征提取的输入，使用一维卷积方法进行提取；

目标网络模型输出类别预测向量；

其中，输出的类别预测向量中的每一个值代表物联网异常及加密流量样本对应每一类的真实度预测P；

利用成本代价矩阵计算物联网异常及加密流量样本的各个类别的成本代价Cost_i,j；

成本代价惩罚的表达式为：

P_A＝y_t*y_p

y_i＝y_p+y_t*(P_A*Cost_i,j)

其中，y_t为真实标签向量；y_p为预测标签向量，包括物联网异常及加密流量样本所属各个类别对应的最终预测值；P_A值为预测标签向量中真实类别对应的预测值；y_i为成本代价矩阵施加成本代价惩罚后更新的类别预测向量；Cost_i,j为成本代价。

优先地，预先训练目标网络模型，还包括：

使用SoftMax将更新的类别预测向量转换成各个类别的概率值，各个类别的概率值组合获得概率预测向量(p₁,p₂,…,p_k)；

使用改进的交叉熵损失函数计算各个类别的概率值与物联网异常及加密流量样本的真实标签y的损失，交叉熵损失函数的表达式为：

其中，y_t为真实标签对应的独热编码，y_p为概率预测向量，log函数底数为e；

根据计算出的真实标签y的损失，使用反向传播算法更新目标网络模型权重，得到最佳网络参数。

本发明所达到的有益效果：

一、本发明提出的训练方式，结合预处理方法以及模型特征，先进行数据包之间的时序特征提取，再进行整个流中空间特征提取，保证了特征提取的健壮性，大大增强了模型特征提取能力，防止了空间特征提取破坏数据包之间的时序特征，且该方法不需要进行手动设计特征，在多个真实物联网网络数据集的测试中，表现高于基于机器学习的识别方法，包括目前具有代表性的深度学习方法；

二、本发明在使用格式化样本向量保证训练效率的情况下，考虑到大规模物联网中存在的数据不平衡现象，通过成本代价矩阵对错误分类进行成本代价惩罚，少数类样本的错误分类惩罚更高，以此使得目标网络模型对少数类样本的识别更加的敏感，从而提升少数类样本的分类准确度，接着使用改进的交叉熵损失函数重新计算样本分类损失，针对样本分类的正确与否以及真实标签向量(独热编码)激活损失计算的不同部分得到最终的损失，在多个真实物联网网络数据集的测试中，对于相同条件下，使用本发明提出的训练方式在整体准确率上高于其他方法的训练方式，且在少数类别的预测准确率上具有明显提升；

三、使用本发明提出的基于时空代价成本的大规模物联网流量多分类方法中的训练策略、多分类识别方式以及数据不平衡的处理的异常及加密流量多分类模型，在多个物联网真实网络数据集的测试中显示出，在面对更新的异常流量类型以及更少的类别样本，即使实际应用或测试模型输入样本的特征明显少于训练时所用的样本，模型的整体准确度表现也没有出现明显下降。

附图说明

图1为本发明实施例一的流程示意图；

图2为本发明实施例二的目标网络模型结构示意图；

图3为本发明实施例二成本代价惩罚示意图；

图4为本发明实施例二改进的交叉熵损失函数的损失计算的流程示意图；

图5为本发明实施例二过滤并屏蔽IP地址处理的流程示意图；

图6为本发明实施例二样本数据向量化、格式化处理及成本代价矩阵创建示意图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

基于有效载荷的流量分类方法从数据包中提取未加密的的数据特征，而基于统计的流量分类方法则是从数据包中提取如数据包长度、到达时间和流长度等统计特征完成分类，传统的使用机器学习的方法实现流量分类，通常需要手动设计特征提取，其时间耗费非常大。

近年来深度学习技术在物联网异常及加密流量分类领域被许多研究者广泛研究，且取得了比包括传统机器学习方法在内的流量分类方法更好的分类效果；然而，一方面大规模物联网的复杂性使得网络中的流量更加的复杂多样，使得流量数据包含大量无效的冗余信息，如协议的头部信息，且由于当前流量加密技术的普及应用，使得异常流量更加的不易识别，这导致基于深度学习方法的物联网流量多分类识别的准确度受到限制；另一方面，目前基于深度学习的流量多分类识别技术是自动提取特征，这需要从流中采集一定长度的样本数据才能进行有效识别，且对于样本之间的数据不平衡没有很好的进行处理，这也影响了基于深度学习方法的分类识别效果。

基于深度学习的流量分类方法往往具有不同的模型以及相应的模型输入，所以往往预处理方式会有所不同，例如，有的选择所有层中的数据，有的只选择应用层中的数据，并且在这些方法的预处理步骤中往往需要对数据进行裁剪和零填充的步骤，这使得输入模型的数据都是固定长度的样本，不同的是有的直接选取流中前n个字节，超过进行截断，不足则补0，然后转换成正方形图片形式进行存储，有的则是按照流中数据包进行选取，取流中前n个数据包，每个数据包取固定m字节长度作为样本，最终模型输出的分类也是整个样本的分类预测值或是分类概率，这可能与固定长度样本相比不定长度样本更易于高效训练有关。

而对于从流中选取一段数据作为训练样本，目前并没有公认的方法知道选取的数据是否能够支持分类，以及支持分类能够达到何种程度，如ToN-IoT数据集，其中类别存储文件均为PCAP格式，且每一类的格式文件数量均不相同，这致使每一类的流样本数量有很大差距，产生数据不平衡的问题，且每一个流中的数据包数量也极不相同，跨度达1到几十万的程度，所以通常选取较长数据作为训练样本防止信息缺失，这无疑也使得计算开销增大，而为了减少类别样本之间数据不平衡对模型训练的影响，通常在数据级上进行处理，即通过欠采样和过采样来平衡类别之间的数据，但这也需要消耗大量时间进行处理。

参照图1，本发明提供一种基于时空代价成本的大规模物联网流量多分类方法，包括：

获取待识别的物联网异常及加密流量；

进一步地，本实施例中预先训练目标网络模型，通过以下步骤实现：

进一步地，本实施例中预先训练目标网络模型，还包括：

将更新的类别预测向量转换成各个类别的概率值；

进一步地，本实施例中获取训练集，通过以下步骤实现：

将无效的流样本文件进行清除，获得剩余流样本文件；

从剩余流样本文件中选取若干个连续的数据包；

对选取的数据包进行过滤和屏蔽IP地址；

进一步地，本实施例中所述目标网络模型为基于时空代价成本的神经网络模型；

目标网络模型提取时序特征和空间特征。

进一步地，本实施例中对选取的数据包进行屏蔽IP地址，通过以下步骤实现：

进一步地，本实施例中对选取的数据包进行过滤，通过以下步骤实现：

将每个数据包转化为(n,m)的二维向量；

对转化为(n,m)的二维向量进行向量标准化处理；

创建的成本代价矩阵的表达式为：

进一步地，本实施例中获取训练集，还包括：

将格式化样本向量集合划分为训练集和测试集；

进一步地，本实施例中预先训练目标网络模型，还包括：

目标网络模型输出类别预测向量；

成本代价惩罚的表达式为：

P_A＝y_t*y_p

y_i＝y_p+y_t*(P_A*Cost_i,j)

进一步地，本实施例中预先训练目标网络模型，还包括：

利用测试集测试目标网络模型是否合格，包括：

将测试集输入到预先训练好的目标网络模型中；

通过目标网络模型输出测试集的预测向量、对应的类别和对应类别的预测标签；

计算测试集的预测准确率；

若预测准确率高于设定的阈值，则判断目标网络模型合格。

最佳网络参数包括权重和偏差。

基于深度学习的物联网流量多分类方法的性能极大程度上取决于分类模型对于流量中样本的时序特征和空间特征的提取和识别能力，且流量样本之间的数据不平衡也会影响分类模型的分类效果。而若只选取较短样本信息时，可能会导致模型因为样本有效信息太少而难以训练，为了使得模型的训练效果更好，通常需要在预处理阶段将样本处理成适合模型训练的格式，而为了更好的从信息中提取特征，防止样本信息缺失或有效信息不足，使用选取一定长度数据的方法使得模型从其中获取特征。此外，对于数据不平衡的问题，通常在数据级上使用过采样或者欠采样来手动的使类别平衡，但这会产生虚假信息或是冗余信息，同时也增大了极大的开销，而在算法级上则是通过设置权值的方法来较少数据不平衡对模型训练的影响。

在本实施例中，设计了一种预处理、样本训练分类和算法级数据不平衡处理的方式，以实现特定条件的模型，并且尽可能将以上存在的问题影响降低，首先通过预处理方式将样本处理成训练所需的格式并创建成本代价矩阵，然后通过模型本身的特征和训练方式进行特征提取，即时序特征提取在前，空间特征提取在后，以防止空间特征提取对时序特征的影响，最终得到样本的预测向量，其元素值分别对应每一个类别的预测值，其中预测值最大的类别即为预测的最终标签，接着在成本代价层引入成本代价矩阵，若预测正确，则代价为0，若预测错误，则通过对预测向量中对应的真实标签赋予成本代价矩阵中的代价值来进行惩罚，其中少数类别样本的错误分类的成本代价值更高，再将预测向量转换成概率，最后使用改进的交叉熵损失函数计算损失，通过反向传播算法更新模型权重，这整个模型方法不仅使得特征提取的健壮性更高，而且对于数据不平衡的处理使得物联网流量多分类的准确度更高。

参照图1，其展示了基于时空代价成本的大规模物联网流量多分类的预处理方法、训练方法、测试方法以及数据不平衡处理方法的主要步骤，基于时空代价成本的训练和测试方法中的样本预处理过程均相同，即将原始流量文件按照五元组进行流切分，过滤无效流文件，再将流文件格式化成预设的维度最终形成样本向量，将样本分为训练集和测试集作为训练方法和测试方法所用样本；分类方法将序列化的样本输入到神经网络模型中，先提取数据包之间的时序特征，再提取整个流样本中的空间特征，再经过全连接层输出样本的预测向量，其中预测向量中最大的元素值对应的类别即为预测标签；在成本代价层应用成本代价矩阵来减少数据不平衡对模型训练的影响，对于整个样本预测，若预测类别与真实类别不相符则使用成本代价矩阵进行惩罚，其中少数类样本的错误分类代价更高，并且通过增加预测向量中真实标签的值来减少与实际标签的差距；若预测正确，则惩罚为零；更新后的预测向量转换成预测类别对应的概率，便于计算损失；然后使用改进的交叉熵损失函数计算样本损失，当真实标签的取值为0或1时(独热编码)分别激活损失函数的不同部分，以此使得模型对于少数类样本更加的敏感；最后使用反向传播算法更新模型权重参数。

本实施例中的基于时空代价成本的神经网络模型，是一类具有特定特征的流量多分类模型，所述特定特征是：对于一个包含一定维度的序列化模型输入，通过时空特征提取，即时序特征提取在前，空间特征提取在后，以防止空间特征提取破坏样本中数据包之间的时序关系，保证特征的健壮性，模型输出样本的预测向量，在成本代价层根据成本代价矩阵对模型分类进行惩罚，最后使用改进的交叉熵损失函数重新计算损失，一个典型的满足所述要求的模型如图2所示，该目标网络模型由堆叠双向LSTM神经网络、一维卷积神经网络、全连接层、成本代价层共同构成，目标网络模型结构和功能包括：

两层堆叠双向LSTM神经网络层，LSTM神经网络层可以捕获样本中数据包之间的时间特征，将输入样本的多个通道视作多个时间步，则候选值，即当前单元状态的计算公式如下：

c_t ^～＝tanh(W_cxx_t+W_chh_t-1+b_c)

其中x_t∈R^m，表示输入样本任意通道t上的向量，维度与输入样本的维度m相同；h_t-1∈R^s为上一个时间步隐藏层的输出，维度由堆叠双向LSTM神经网络单元的隐藏层维度的参数s决定；c_t ^～为当前层的中间输出；W_cx和b_c分别为权重和偏差。

两层一维卷积神经网络层，通过一维卷积神经网络层可以捕获样本的空间特征，一个卷积层中往往包含多个卷积核，且卷积核维度m即为堆叠双向LSTM神经网络层生成的新的特征维度，当对新的特征图进行一维卷积操作时，由于卷积核参数不同，生成新特征图的通道也会不同；如，对于一个序列化的输入x，卷积核t：

x＝[x_1:k,x_k+1:2k,…,x_n-k+1:n]

一维卷积操作如下：

a_i ^t＝f(w*h_i:i+k-1+b)

其中f是非线性激活函数，w是在x上的滑动窗口，b为偏移值，a_i ^t则为卷积核t在相应滑动窗口上生成的特征；对于整个输入，由于一维卷积核的高度设置不为1，因此生成特征图的序列数会少于输入的序列数，减少了参数运算。

全连接神经网络层，在基于时空代价成本的神经网络模型中用于将输出的特征图转换为对每个分类的预测值，将一维卷积的每一个卷积核生成的特征图作为全连接层的输入，作为每一个卷积核特征图的预测，通过这种方法确保一维卷积的卷积核操作的特征提取预测，最终整合形成整个样本的预测向量。

成本代价层，主要分为样本错误分类的惩罚以及使用改进的交叉熵损失函数重新计算损失两部分；首先对错误分类的惩罚，根据在预处理阶段创建的成本代价矩阵，当分类正确则惩罚为0，否则将惩罚作用在预测向量中真实标签对应的预测值，其中少数类样本的错误分类惩罚更高；接着将样本向量转换成概率形式，使用改进的交叉熵损失函数重新计算损失，其中实际标签采用独热编码形式，当真实标签取值为0或1时，分别激活损失函数的不同部分计算损失，最后使用反向传播方法更新模型参数，以此使得模型对少数类样本更加的敏感，减少数据不平衡对分类的影响，并且提高了少数类样本的分类准确度。

本发明利用神经网络的时空特征提取能力，并且时间特征提取在前，空间特征提取在后，一定程度上提高了特征提取的健壮性；此外，本发明针对大规模物联网中存在的严重数据不平衡问题，在算法级上使用改进的成本代价矩阵，在成本代价层针对模型的错误分类进行惩罚，最后使用改进的交叉熵损失函数计算损失，使得模型能够针对大规模物联网中异常及加密流量的多分类进行高速、高精度的识别。

实施例二

参照图2到图6，为本发明的第二个实施例，该实施例提供了一种基于时空代价成本的大规模物联网流量多分类方法的详细验证说明，具体包括：

本实施例的预处理包括，流切分、过滤、向量化、标准化和创建成本代价矩阵五个阶段，首先将原始流量文件进行流切分，然后删除过滤无效文件，在向量化的过程中过滤无效数据包，并屏蔽无效数据，接着进行标准化处理使得样本格式化为模型输入样式，并将样本集合存储，最后根据处理完后的类别样本数量的相对分布创建成本代价矩阵，具体实施步骤如下：

S1：根据原始流量文件的分布，将原始文件按照流进行切分，如图5所示，具体过程如下：

①按照相同五元组(源IP地址、源端口、目标IP地址、目标端口和传输层协议)进行流切分。

②对切分后的流样本文件进行检测，判断其是否是有效流文件，不是则进行清除。

③将流文件按照类别进行划分和标记。

S2：从给定的流文件中顺序读取数据包，对数据包进行检测判断，如图5所示，具体过程如下：

①对当前读取的数据包检测其是否为有效的IP数据包，不是则将该数据包进行清除。

②进一步检测其数据包中的数据字段是否为空，为空则进行清除。

③将数据包中的源和目的IP地址都更改为0，以防止模型根据IP地址进行分类，影响模型真实性能。

S3：重复S2，直到获得n个有效数据包，若流样本文件中获得的有效数据包超过n个则进行截断，若不足n个，则用0补全。

S4：将每个样本转化为n×m的二维向量，将流样本转换成相同维度的样本向量，以便于模型的输入以及运算，在本方法中，n＝10，m＝1000，选择此数量的n和m的原因是获得适当的特征信息以保证模型的性能，实现高精度的流量多分类。

具体过程如下：

对于每个数据包，每8个byte转换成一个0到255之间的整数，每个数据包保留前m个整数，若长度多于m则进行截断，若长度不足m则用0进行补齐，图展示了这一过程。

格式化后的样本，转换成了n×m的二维向量，每个元素值均是0到255之间的十进制整数。

为了防止模型训练过程中发生梯度爆炸问题，对二维样本向量进行归一化处理，因为二维向量中的元素值均为0到255的整数值，所以直接除以255，使得元素值在0到1之间，完成归一化处理。

S5：根据格式化后的类别样本数量的相对分布，创建一个大小为k×k的成本代价矩阵，k为类别数，成本代价矩阵横轴为真实类别，竖轴为预测类别；

多分类方法包括预处理阶段、分类阶段和成本代价惩罚阶段，将原始流量按照流进行切分，并将流文件格式化成模型输入的维度，创建成本代价矩阵，分类模型根据输入完成当前样本的预测分类，在成本代价层判断分类准确性以使用成本代价进行惩罚，最后使用改进的交叉熵损失函数计算损失。

具体操作步骤如下：

S1：将原始流量文件按照相同五元组进行流切分，并将无效的流文件进行清除，接着顺序读取流文件中的数据包，过滤无效数据包，直至有效数据包个数达到n个。

S2：对于每个数据包，将其转换成十进制整数后，选取其长度m，多截少补，使得样本为n×m的二维向量，接着进行标准化处理以便于模型的训练。

S3：根据最终的类别样本数量的相对分布创建成本代价矩阵。

S4：将样本向量以n步m长的形式输入到目标模型中进行特征的提取，先进行时序特征提取，再进行空间特征提取，输出当前输入样本的预测向量，预测向量中预测值最大对应的类别即为预测类别。

S5：在成本代价层判断预测类别是否和真实类别相同，若相同则代价为0，若不相同则根据错误预测类别找到成本代价矩阵中对应的代价进行惩罚。

S6：最后使用改进的交叉熵损失函数计算损失，然后使用反向传播方法更新模型中的权重。

基于时空代价成本的物联网流量多分类方法的原理为：

由于大规模物联网的环境中的流量数据存在着严重的数据不平衡现象，多数类与少数类样本的差距往往很大，这会使得模型对于少数类流量的识别变得困难，由于少数类样本数量少，使得模型对于少数类样本的训练不足，无法准确的识别到样本；此外，对于训练过程中特征提取的健壮性不足问题，使得模型训练出的分类器性能较差，模型很难从流中提取到稳定的特征，同时还会带来巨大的计算开销。

设一个格式化样本x∈R为一个二维向量n×m：

x＝[x₁,x₂,…,x_n]

x_i＝[k₁,k₂,…,k_m],i∈[1,n]

其中，x_i为一个样本中的第i个数据，即流中第i个数据包，共有n个数据包，每个数据包长为m，即每个数据包都是长为m的一维向量，整个x为一个n×m的二维向量，其中x＝x_1:n，x_i＝k_1:m。

参照图2、图3和图4，为基于时空代价成本流量多分类方法的核心思想，将维度为n×m的二维向量样本输入模型中进行训练，使用双向堆叠LSTM和一维卷积提取样本中的特征以保证提取特征的健壮性，在训练过程中，包括每一步之间的时序特征以及整个样本的空间特征，对于时序特征提取，将一个样本看作是n步，步长为m的输入，使用c_t ^～＝tanh(W_cxx_t+W_chh_t-1+b_c)计算当前的单元状态，对于每一步的输入，都会生成新的特征向量s＝[y₁,y₂,…,y_m]，将每一步生成的特征向量组合成新的特征图作为接下来一维卷积特征提取的输入，使用a_i ^t＝f(w*h_i:i+k-1+b)来进行卷积操作，对于整个输入，由于一维卷积核的高度设置不为1，因此生成特征图的序列数会少于输入的序列数，减少了参数运算，最终经过全连接层生成整个样本的预测向量p，其中，

p＝[p₁,p₂,…,p_t]

对于最终生成的预测向量，其中每一个元素值即为模型对当前样本识别的类别置信度，对于每一个类别都有一个数值，其中最大数值对应的类别即为模型对当前样本的预测分类。

除了在训练过程中特征的提取会影响最终的分类性能，对于类别样本之间存在的数据不平衡也会影响，模型会更加偏向于样本数量足够的多数类别，而对少数类别的样本很不友好，对于预测向量中预测值与真实标签值可能相差较大。

因此，将预测向量输入到成本代价层，使用在预处理阶段创建的成本代价矩阵来对错误预测进行惩罚。若分类正确则成本为0，若预测错误则根据成本代价矩阵中对应的错误分类代价进行惩罚，其中少数类的错误分类代价更高，以使得模型对于少数类样本的识别更加敏感。对于预测向量p＝[p₁,p₂,…,p_t]，实际标签向量y_true为独热编码，成本代价矩阵为Cost，成本代价惩罚如下：

P_A＝y_true*p

y_i＝y_p+y_t*(P_A*Cost_i,j)

其中，P_A值为预测标签中对应真实类别的预测值；y_i为通过成本矩阵施加惩罚后的预测输出值；Cost_i,j为成本代价；通过施加惩罚来缩小实际类别与错误类别之间的差距，以此减少数据不平衡对模型性能的影响。假设当前样本属于类别A，其预测当前样本为B，且样本A为少数类，B为多数类，由于A样本数量少，模型训练不足，常常会导致少数类被错误分类成多数类，用S_A表示类别A对应预测向量中的值，即属于A的特征数据量，

表示预测向量中的其它类别的特征数据量，由此可以看出对于错误分类来说，样本中真实标签的特征数据量没有其它类别的特征数据量多，即可能样本的特征提取不足，尤其对于少数类别，因此对于预测向量中的每一个类别的预测值都取决于S_i，即理想状态的预测向量为S_k<S_i>S_j(k≠i≠j)，当错误分类发生时，其惩罚在于缩小真实类别与错误类别之间特征数据量之间的差距。

将经过惩罚的预测向量经过SoftMax转换成概率，然后传输给改进的交叉熵损失函数进行损失计算，损失函数根据真实标签中独热编码的0和1分别激活不同的损失函数部分，然后引入注意力机制对损失计算进行加权；根据计算出的损失使用反向传播算法更新模型权重，得到最佳网络参数，对少数类样本的识别性能更高。

则一个训练批次的损失为：

其中batchsize为一个训练批次的样本数量。

基于时空代价成本的物联网流量多分类方法包括预处理阶段、训练阶段和数据不平衡处理阶段，预处理阶段即将原始流量经过处理、过滤和加工成模型可以训练的格式化样本，并创建成本代价矩阵；训练阶段即将样本输入到模型中，经过时序特征提取和空间特征提取，再经过全连接层输出当前样本的预测向量；数据不平衡处理阶段即将预测向量传输到成本代价层，判断模型分类是否正确，使用成本代价矩阵进行错误分类惩罚，最后再使用改进的交叉熵损失函数计算损失，然后使用反向传播方法更新模型中的权重，使得模型对样本的识别分类更加的灵敏。具体操作步骤如下：

S1：获取多个原始异常及加密流量文件，将原始流量文件进行流切分并标注对应的分类标签，然后清除无效流文件。

S2：从每一个流文件中依次读取数据包，保留有效数据包，过滤掉无效数据包，直至有效数据包达到n个，若有效数据包不足n个则用0补全。

S3：对于处理后的流中有效数据包，将其每8个字节转换成0到255之间的十进制整数，其中数据包长度保留至1000字节数，若超过则截断，若不足则用0补全。

S4：将处理后的二维向量n×m的样本进行标准化处理，使得样本向量的元素值在0到1之间。

S5：根据处理后的类别样本之间数量的相对分布创建成本代价矩阵。

S6：将样本输入到模型训练当中，先进行时序特征提取，再经过空间特征提取，最后经过全连接层输出样本的预测向量。

S7：将预测向量传输到成本代价层，使用成本代价矩阵对错误分类进行惩罚，若预测正确则成本代价为0，其中少数类错误分类的成本代价更高。

S8：将经过惩罚后的预测向量转换成概率，传输给改进的交叉熵损失函数计算每个样本的损失，其中通过引入注意力机制的加权方式使得模型对流量识别更加灵敏，使用反向传播方法更新模型中的权重。

S9：重复步骤S6、S7和S8，直到模型收敛，即完成基于时空代价成本的多分类识别训练。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，包括：

获取待识别的物联网异常及加密流量；

2.根据权利要求1所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，预先训练目标网络模型，通过以下步骤实现：

将格式化样本向量集合和成本代价矩阵输入构建的目标网络模型中，得到多分类预测序列；

提取多分类预测序列中的类别预测向量，类别预测向量代表物联网异常及加密流量样本所属各个类别对应的最终预测值；

3.根据权利要求2所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，预先训练目标网络模型，还包括：

将更新的类别预测向量转换成各个类别的概率值；

4.根据权利要求2所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，获取训练集，通过以下步骤实现：

将无效的流样本文件进行清除，获得剩余流样本文件；

从剩余流样本文件中选取若干个连续的数据包；

对选取的数据包进行过滤和屏蔽IP地址；

5.根据权利要求4所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，所述目标网络模型为基于时空代价成本的神经网络模型；

目标网络模型提取时序特征和空间特征。

6.根据权利要求4所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，对选取的数据包进行屏蔽IP地址，通过以下步骤实现：

将所有数据包的源IP地址的向量化数值和目的IP地址的向量化数值修改为0。

7.根据权利要求4所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，对选取的数据包进行过滤，通过以下步骤实现：

将每个数据包转化为(n,m)的二维向量；

对转化为(n,m)的二维向量进行向量标准化处理；

创建的成本代价矩阵的表达式为：

8.根据权利要求4所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，获取训练集，还包括：

将格式化样本向量集合划分为训练集和测试集；

9.根据权利要求1所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，预先训练目标网络模型，还包括：

将输入的格式化样本向量分别接入向前和向后的两个LSTM中，捕获数据包前后的时序特征；

将数据包前后的时序特征作为空间特征提取的输入，使用一维卷积方法进行提取；

目标网络模型输出类别预测向量；

成本代价惩罚的表达式为：

P_A＝y_t*y_p

y_i＝y_p+y_t*(P_A*Cost_i,j)

10.根据权利要求1所述的一种基于时空代价成本的大规模物联网流量多分类方法，其特征在于，预先训练目标网络模型，还包括：