CN114519390A

CN114519390A - 一种基于多模态深度学习的quic流量分类方法

Info

Publication number: CN114519390A
Application number: CN202210145136.6A
Authority: CN
Inventors: 袁越
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-02-17
Filing date: 2022-02-17
Publication date: 2022-05-20

Abstract

本发明公开了一种基于多模态深度学习的QUIC流量分类方法，S1、QUIC流量预处理，将要分类的QUIC流量做分流处理，得到双向流样本，并提取双向流样本的流统计学特征和流有效载荷，S2、流有效载荷转图像，提取流的有效载荷的字段转化为灰度图样本，本发明涉及网络通信与机器学习技术领域。该基于多模态深度学习的QUIC流量分类方法，网络流量的流统计学特征和时序特征能够表达流整体报文的时间结构关系，流量的有效载荷能够表达每个报文的内容特征，它们在流量特征上体现整体和细节两种不同的侧重维度本文能够利用两种不同流量信息模式的异构性，更好的还原流量特征。

Description

一种基于多模态深度学习的QUIC流量分类方法

技术领域

本发明涉及网络通信与机器学习技术领域，具体为一种基于多模态深度学习的QUIC流量分类方法。

背景技术

目前加密流量分类方法大致有：传统方法、机器学习方法、深度学习方法。传统方法即为依靠数据包包头中的端口号、流量的行为模式等进行分类的手段。

传统流量分类方法在传统的网络环境下识别效率和准确率非常高，但是随着网络中越来越多的加密流量协议出现，且大量网络应用开始使用动态端口技术，传统流量分类方法逐渐失去其优势。机器学习方法和深度学习方法即为通过机器学习和深度学习算法学习流量有效载荷、时序特征、流统计学特征等流量信息的深层特征来对流量分类。现有的机器学习和深度学习流量分类方法大多数都仅考虑但模态的流量信息，无法充分利用流量不同模态信息间的异构性。

发明内容

针对现有技术的不足，本发明提供了一种基于多模态深度学习的QUIC流量分类方法，利用流量的多模态信息来提高流量分类的准确率，且能够应对更强大的加密流量方式。本发明提出的方法，旨在利用QUIC流量的子流有效载荷和流的统计特征两个模态实现考虑多模态流量信息对QUIC协议的服务类型分类。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于多模态深度学习的QUIC流量分类方法，具体包括以下步骤：

S1、QUIC流量预处理，将要分类的QUIC流量做分流处理，得到双向流样本，并提取双向流样本的流统计学特征和流有效载荷；

S2、流有效载荷转图像，提取流的有效载荷的字段转化为灰度图样本；

S3、多模态QUIC流量分类，将经过特征选择后的流特征和有效载荷灰度图像输入进多模态流量分类模型中，生成流量分类结果标签。

优选的，所述步骤S1中具体包括以下步骤：

a1、对QUIC流量数据集进行分流，不同的QUIC流有不同的cid标记，根据QUIC流量标记的cid识别QUIC流，得到QUIC双向流样本，即包含客户端到服务器端和服务器端到客户端两个方向的流样本；

a2、根据a1分流后的双向流样本，依据QUIC流的pcap文件中的报文大小、报文方向、报文到达时间信息计算提取每个QUIC流的73个特征作为QUIC 流特征向量。

a3、根据a1分流后的双向流样本，去除QUIC流pcap文件中的pcap header和packetheader，得到QUIC流的有效载荷字节。

优选的，所述步骤S2中具体包括以下步骤：

b1、根据a3的结果填充QUIC流有效载荷，对不足1024字节的流进行0 比特填充；

b2、提取b1填充后的有效载荷的前1024字节的有效载荷转化为灰度图像样本，一字节八位的二进制数据转化为0-255的数值，进而转化成灰度图中的像素点，最终每个流形成一个32*32的灰度图片。

优选的，所述步骤S3中具体包括以下步骤：

c1、将QUIC流特征向量输入统计学特征模态，统计学特征模态通过1D-CNN 学习流特征向量信息的深层特征，并进行特征展平；

c2、将QUIC流有效载荷灰度图输入有效载荷模态，有效载荷模态通过 2D-CNN学习流有效载荷信息的深层特征，并进行特征展平；

c3、融合两模态的深层特征，融合层在两模态学习模型之后，用拼接的方式融合两个模态的深层特征，通过全连接层捕获学习模态间相关特征，最终使用Softmax函数进行结果分类。

优选的，所述步骤c1中流统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层。

优选的，所述步骤c2中流有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层。

有益效果

本发明提供了一种基于多模态深度学习的QUIC流量分类方法。与现有的技术相比具备以下有益效果：

(1)该基于多模态深度学习的QUIC流量分类方法，通过在基于多模态深度学习的QUIC流量分类方法利用QUIC流量的子流有效载荷和流的统计特征两个模态对QUIC协议的应用类型分类，网络流量的流统计学特征和时序特征能够表达流整体报文的时间结构关系，流量的有效载荷能够表达每个报文的内容特征，它们在流量特征上体现整体和细节两种不同的侧重维度本文能够利用两种不同流量信息模式的异构性，更好的还原流量特征。

(2)该基于多模态深度学习的QUIC流量分类方法，通过在模态融合时使用中端特征融合方法，即将不同模态学习到的特征进行融合进而学习融合后的多模态特征得出分类结果，此方法能够先学习不同模态内的特征关系，再学习融合后的不同模态间的特征关系，可以有效利用多模式信息提升流量分类效果，能提高QUIC流量分类准确率，且使分类模型能够应对更强大的加密流量方式。

附图说明

图1为本发明流程示意图；

图2为本发明流有效载荷转图像流程图；

图3为本发明多模态QUIC流量分类流程图；

图4为本发明流特征模态特征学习卷积神经网络结构图；

图5为本发明有效载荷模态特征学习卷积神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-5，本发明提供一种技术方案：一种基于多模态深度学习的 QUIC流量分类方法，具体包括以下步骤：

具体的为：a1、对QUIC流量数据集进行分流，不同的QUIC流有不同的 cid标记，根据QUIC流量标记的cid识别QUIC流，得到QUIC双向流样本，即包含客户端到服务器端和服务器端到客户端两个方向的流样本；

73个特征包含：前10个包的报文长度(用正号表示客户端到服务器端的报文、负号表示服务器端到客户端的报文)、前10个包的报文到达时间间隔、子流(流中前10个包)前向报文(客户端到服务器端的报文)比例、子流后向(客户端到服务器端的报文)报文比例、子流最大向前报文长度、子流最小前向报文长度、子流前向报文平均长度、子流向前报文长度标准差、子流最大后向报文长度、子流最小后向报文长度、子流后向报文平均长度、子流向后报文长度标准差、子流前向报文最长时间间隔、子流前向报文最短时间间隔、子流前向报文时间间隔平均值、子流前向报文时间间隔标准差、子流后向报文最长时间间隔、子流后向报文最短时间间隔、子流后向报文时间间隔平均值、子流后向报文时间间隔标准差、流前向报文个数、流前向报文小包(包长小于400的数据包)个数与流前向包文个数的比例、流前向报文中包(包长大于等于400且小于800的数据包)个数与流前向包文个数的比例、流前向报文中包(包长大于等于800的数据包)个数与流前向包文个数的比例、流前向报文长度均值、流前向报文长度最大值、流前向报文长度最小值、流前向报文长度标准差、流前向报文时间间隔均值、流前向报文时间间隔最大值、流前向报文时间间隔最小值、流前向报文时间间隔标准差、流后向报文个数、流后向报文小包个数与流后向包文个数的比例、流后向报文中包个数与流后向包文个数的比例、流后向报文大包个数与流后向包文个数的比例、流后向报文长度均值、流后向报文长度最大值、流后向报文长度最小值、流后向报文长度标准差、流后向报文时间间隔均值、流后向报文时间间隔最大值、流后向报文时间间隔最小值、流后向报文时间间隔标准差、流持续时长、流报文时间间隔均值、流报文时间间隔最大值、刘报文时间间隔最小值、流报文时间间隔标准差、流报文长度均值、流报文长度最大值、流报文长度最小值、流报文长度标准差、流前向包文个数与流报文个数的比例、流后向包文个数与流报文个数的比例；

a3、根据a1分流后的双向流样本，去除QUIC流pcap文件中的的pcap header和packet header，得到QUIC流的有效载荷字节。

具体的为：b1、根据a3的结果填充QUIC流有效载荷，对不足1024字节的流进行0比特填充；

具体的为：c1、将QUIC流特征向量输入统计学特征模态，统计学特征模态通过1D-CNN学习流特征向量信息的深层特征，并进行特征展平；

流的统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层，如图4所示。首先，输入层接收长度为60的一维特征向量，通过卷积核长度为1的一维卷积层获得更深层次的特征，之后用池化窗口为2 的池化层对特征进行压缩，再经过一个卷积核长度为1的一维卷积层学习得到30*16的特征输出，最终通过展平层将流特征模态展平为共480个特征。

流的有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层，如图5所示。首先有效载荷灰度图通过卷积核为3*3的二维卷积层学习其深度有效载荷特征视图，之后经过池化窗口为2*2的池化层对特征降维，重复卷积层和池化层的学习，得到4*4*64的特征输出，最终经过展平层将有效载荷模态展平为共1024个特征；

c3、融合两模态的深层特征，融合层在两模态学习模型之后，用拼接的方式融合两个模态的深层特征，通过全连接层捕获学习模态间相关特征，最终使用Softmax函数进行结果分类；

其中，z为深度学习输出数组，z_i为数组中第i个元素，C为数组元素个数， S_i为第i个标签的softmax值，即将输出的数组映射成(0,1)的值，概率最大的标签即为预测的分类标签。

进一步的，所述步骤c1中流统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层。

进一步的，所述步骤c2中流有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多模态深度学习的QUIC流量分类方法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的一种基于多模态深度学习的QUIC流量分类方法，其特征在于：所述步骤S1中具体包括以下步骤：

a2、根据a1分流后的双向流样本，依据QUIC流的pcap文件中的报文大小、报文方向、报文到达时间信息计算提取每个QUIC流的73个特征作为QUIC流特征向量。

3.根据权利要求2所述的一种基于多模态深度学习的QUIC流量分类方法，其特征在于：所述步骤S2中具体包括以下步骤：

b1、根据a3的结果填充QUIC流有效载荷，对不足1024字节的流进行0比特填充；

4.根据权利要求3所述的一种基于多模态深度学习的QUIC流量分类方法，其特征在于：所述步骤S3中具体包括以下步骤：

c1、将QUIC流特征向量输入统计学特征模态，统计学特征模态通过1D-CNN学习流特征向量信息的深层特征，并进行特征展平；

c2、将QUIC流有效载荷灰度图输入有效载荷模态，有效载荷模态通过2D-CNN学习流有效载荷信息的深层特征，并进行特征展平；

5.根据权利要求4所述的一种基于多模态深度学习的QUIC流量分类方法，其特征在于：所述步骤c1中流统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层。

6.根据权利要求5所述的一种基于多模态深度学习的QUIC流量分类方法，其特征在于：所述步骤c2中流有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层。