CN114519390A - 一种基于多模态深度学习的quic流量分类方法 - Google Patents

一种基于多模态深度学习的quic流量分类方法 Download PDF

Info

Publication number
CN114519390A
CN114519390A CN202210145136.6A CN202210145136A CN114519390A CN 114519390 A CN114519390 A CN 114519390A CN 202210145136 A CN202210145136 A CN 202210145136A CN 114519390 A CN114519390 A CN 114519390A
Authority
CN
China
Prior art keywords
flow
quic
stream
mode
payload
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210145136.6A
Other languages
English (en)
Inventor
袁越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210145136.6A priority Critical patent/CN114519390A/zh
Publication of CN114519390A publication Critical patent/CN114519390A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态深度学习的QUIC流量分类方法,S1、QUIC流量预处理,将要分类的QUIC流量做分流处理,得到双向流样本,并提取双向流样本的流统计学特征和流有效载荷,S2、流有效载荷转图像,提取流的有效载荷的字段转化为灰度图样本,本发明涉及网络通信与机器学习技术领域。该基于多模态深度学习的QUIC流量分类方法,网络流量的流统计学特征和时序特征能够表达流整体报文的时间结构关系,流量的有效载荷能够表达每个报文的内容特征,它们在流量特征上体现整体和细节两种不同的侧重维度本文能够利用两种不同流量信息模式的异构性,更好的还原流量特征。

Description

一种基于多模态深度学习的QUIC流量分类方法
技术领域
本发明涉及网络通信与机器学习技术领域,具体为一种基于多模态深度学习的QUIC流量分类方法。
背景技术
目前加密流量分类方法大致有:传统方法、机器学习方法、深度学习方法。传统方法即为依靠数据包包头中的端口号、流量的行为模式等进行分类的手段。
传统流量分类方法在传统的网络环境下识别效率和准确率非常高,但是随着网络中越来越多的加密流量协议出现,且大量网络应用开始使用动态端口技术,传统流量分类方法逐渐失去其优势。机器学习方法和深度学习方法即为通过机器学习和深度学习算法学习流量有效载荷、时序特征、流统计学特征等流量信息的深层特征来对流量分类。现有的机器学习和深度学习流量分类方法大多数都仅考虑但模态的流量信息,无法充分利用流量不同模态信息间的异构性。
发明内容
针对现有技术的不足,本发明提供了一种基于多模态深度学习的QUIC流量分类方法,利用流量的多模态信息来提高流量分类的准确率,且能够应对更强大的加密流量方式。本发明提出的方法,旨在利用QUIC流量的子流有效载荷和流的统计特征两个模态实现考虑多模态流量信息对QUIC协议的服务类型分类。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于多模态深度学习的QUIC流量分类方法,具体包括以下步骤:
S1、QUIC流量预处理,将要分类的QUIC流量做分流处理,得到双向流样本,并提取双向流样本的流统计学特征和流有效载荷;
S2、流有效载荷转图像,提取流的有效载荷的字段转化为灰度图样本;
S3、多模态QUIC流量分类,将经过特征选择后的流特征和有效载荷灰度图像输入进多模态流量分类模型中,生成流量分类结果标签。
优选的,所述步骤S1中具体包括以下步骤:
a1、对QUIC流量数据集进行分流,不同的QUIC流有不同的cid标记,根据QUIC流量标记的cid识别QUIC流,得到QUIC双向流样本,即包含客户端到服务器端和服务器端到客户端两个方向的流样本;
a2、根据a1分流后的双向流样本,依据QUIC流的pcap文件中的报文大小、报文方向、报文到达时间信息计算提取每个QUIC流的73个特征作为QUIC 流特征向量。
a3、根据a1分流后的双向流样本,去除QUIC流pcap文件中的pcap header和packetheader,得到QUIC流的有效载荷字节。
优选的,所述步骤S2中具体包括以下步骤:
b1、根据a3的结果填充QUIC流有效载荷,对不足1024字节的流进行0 比特填充;
b2、提取b1填充后的有效载荷的前1024字节的有效载荷转化为灰度图像样本,一字节八位的二进制数据转化为0-255的数值,进而转化成灰度图中的像素点,最终每个流形成一个32*32的灰度图片。
优选的,所述步骤S3中具体包括以下步骤:
c1、将QUIC流特征向量输入统计学特征模态,统计学特征模态通过1D-CNN 学习流特征向量信息的深层特征,并进行特征展平;
c2、将QUIC流有效载荷灰度图输入有效载荷模态,有效载荷模态通过 2D-CNN学习流有效载荷信息的深层特征,并进行特征展平;
c3、融合两模态的深层特征,融合层在两模态学习模型之后,用拼接的方式融合两个模态的深层特征,通过全连接层捕获学习模态间相关特征,最终使用Softmax函数进行结果分类。
优选的,所述步骤c1中流统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层。
优选的,所述步骤c2中流有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层。
有益效果
本发明提供了一种基于多模态深度学习的QUIC流量分类方法。与现有的技术相比具备以下有益效果:
(1)该基于多模态深度学习的QUIC流量分类方法,通过在基于多模态深度学习的QUIC流量分类方法利用QUIC流量的子流有效载荷和流的统计特征两个模态对QUIC协议的应用类型分类,网络流量的流统计学特征和时序特征能够表达流整体报文的时间结构关系,流量的有效载荷能够表达每个报文的内容特征,它们在流量特征上体现整体和细节两种不同的侧重维度本文能够利用两种不同流量信息模式的异构性,更好的还原流量特征。
(2)该基于多模态深度学习的QUIC流量分类方法,通过在模态融合时使用中端特征融合方法,即将不同模态学习到的特征进行融合进而学习融合后的多模态特征得出分类结果,此方法能够先学习不同模态内的特征关系,再学习融合后的不同模态间的特征关系,可以有效利用多模式信息提升流量分类效果,能提高QUIC流量分类准确率,且使分类模型能够应对更强大的加密流量方式。
附图说明
图1为本发明流程示意图;
图2为本发明流有效载荷转图像流程图;
图3为本发明多模态QUIC流量分类流程图;
图4为本发明流特征模态特征学习卷积神经网络结构图;
图5为本发明有效载荷模态特征学习卷积神经网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,本发明提供一种技术方案:一种基于多模态深度学习的 QUIC流量分类方法,具体包括以下步骤:
S1、QUIC流量预处理,将要分类的QUIC流量做分流处理,得到双向流样本,并提取双向流样本的流统计学特征和流有效载荷;
具体的为:a1、对QUIC流量数据集进行分流,不同的QUIC流有不同的 cid标记,根据QUIC流量标记的cid识别QUIC流,得到QUIC双向流样本,即包含客户端到服务器端和服务器端到客户端两个方向的流样本;
a2、根据a1分流后的双向流样本,依据QUIC流的pcap文件中的报文大小、报文方向、报文到达时间信息计算提取每个QUIC流的73个特征作为QUIC 流特征向量。
73个特征包含:前10个包的报文长度(用正号表示客户端到服务器端的报文、负号表示服务器端到客户端的报文)、前10个包的报文到达时间间隔、子流(流中前10个包)前向报文(客户端到服务器端的报文)比例、子流后向(客户端到服务器端的报文)报文比例、子流最大向前报文长度、子流最小前向报文长度、子流前向报文平均长度、子流向前报文长度标准差、子流最大后向报文长度、子流最小后向报文长度、子流后向报文平均长度、子流向后报文长度标准差、子流前向报文最长时间间隔、子流前向报文最短时间间隔、子流前向报文时间间隔平均值、子流前向报文时间间隔标准差、子流后向报文最长时间间隔、子流后向报文最短时间间隔、子流后向报文时间间隔平均值、子流后向报文时间间隔标准差、流前向报文个数、流前向报文小包(包长小于400的数据包)个数与流前向包文个数的比例、流前向报文中包(包长大于等于400且小于800的数据包)个数与流前向包文个数的比例、流前向报文中包(包长大于等于800的数据包)个数与流前向包文个数的比例、流前向报文长度均值、流前向报文长度最大值、流前向报文长度最小值、流前向报文长度标准差、流前向报文时间间隔均值、流前向报文时间间隔最大值、流前向报文时间间隔最小值、流前向报文时间间隔标准差、流后向报文个数、流后向报文小包个数与流后向包文个数的比例、流后向报文中包个数与流后向包文个数的比例、流后向报文大包个数与流后向包文个数的比例、流后向报文长度均值、流后向报文长度最大值、流后向报文长度最小值、流后向报文长度标准差、流后向报文时间间隔均值、流后向报文时间间隔最大值、流后向报文时间间隔最小值、流后向报文时间间隔标准差、流持续时长、流报文时间间隔均值、流报文时间间隔最大值、刘报文时间间隔最小值、流报文时间间隔标准差、流报文长度均值、流报文长度最大值、流报文长度最小值、流报文长度标准差、流前向包文个数与流报文个数的比例、流后向包文个数与流报文个数的比例;
a3、根据a1分流后的双向流样本,去除QUIC流pcap文件中的的pcap header和packet header,得到QUIC流的有效载荷字节。
S2、流有效载荷转图像,提取流的有效载荷的字段转化为灰度图样本;
具体的为:b1、根据a3的结果填充QUIC流有效载荷,对不足1024字节的流进行0比特填充;
b2、提取b1填充后的有效载荷的前1024字节的有效载荷转化为灰度图像样本,一字节八位的二进制数据转化为0-255的数值,进而转化成灰度图中的像素点,最终每个流形成一个32*32的灰度图片。
S3、多模态QUIC流量分类,将经过特征选择后的流特征和有效载荷灰度图像输入进多模态流量分类模型中,生成流量分类结果标签。
具体的为:c1、将QUIC流特征向量输入统计学特征模态,统计学特征模态通过1D-CNN学习流特征向量信息的深层特征,并进行特征展平;
流的统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层,如图4所示。首先,输入层接收长度为60的一维特征向量,通过卷积核长度为1的一维卷积层获得更深层次的特征,之后用池化窗口为2 的池化层对特征进行压缩,再经过一个卷积核长度为1的一维卷积层学习得到30*16的特征输出,最终通过展平层将流特征模态展平为共480个特征。
c2、将QUIC流有效载荷灰度图输入有效载荷模态,有效载荷模态通过 2D-CNN学习流有效载荷信息的深层特征,并进行特征展平;
流的有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层,如图5所示。首先有效载荷灰度图通过卷积核为3*3的二维卷积层学习其深度有效载荷特征视图,之后经过池化窗口为2*2的池化层对特征降维,重复卷积层和池化层的学习,得到4*4*64的特征输出,最终经过展平层将有效载荷模态展平为共1024个特征;
c3、融合两模态的深层特征,融合层在两模态学习模型之后,用拼接的方式融合两个模态的深层特征,通过全连接层捕获学习模态间相关特征,最终使用Softmax函数进行结果分类;
Figure BDA0003508553430000061
其中,z为深度学习输出数组,zi为数组中第i个元素,C为数组元素个数, Si为第i个标签的softmax值,即将输出的数组映射成(0,1)的值,概率最大的标签即为预测的分类标签。
进一步的,所述步骤c1中流统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层。
进一步的,所述步骤c2中流有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于多模态深度学习的QUIC流量分类方法,其特征在于:具体包括以下步骤:
S1、QUIC流量预处理,将要分类的QUIC流量做分流处理,得到双向流样本,并提取双向流样本的流统计学特征和流有效载荷;
S2、流有效载荷转图像,提取流的有效载荷的字段转化为灰度图样本;
S3、多模态QUIC流量分类,将经过特征选择后的流特征和有效载荷灰度图像输入进多模态流量分类模型中,生成流量分类结果标签。
2.根据权利要求1所述的一种基于多模态深度学习的QUIC流量分类方法,其特征在于:所述步骤S1中具体包括以下步骤:
a1、对QUIC流量数据集进行分流,不同的QUIC流有不同的cid标记,根据QUIC流量标记的cid识别QUIC流,得到QUIC双向流样本,即包含客户端到服务器端和服务器端到客户端两个方向的流样本;
a2、根据a1分流后的双向流样本,依据QUIC流的pcap文件中的报文大小、报文方向、报文到达时间信息计算提取每个QUIC流的73个特征作为QUIC流特征向量。
a3、根据a1分流后的双向流样本,去除QUIC流pcap文件中的pcap header和packetheader,得到QUIC流的有效载荷字节。
3.根据权利要求2所述的一种基于多模态深度学习的QUIC流量分类方法,其特征在于:所述步骤S2中具体包括以下步骤:
b1、根据a3的结果填充QUIC流有效载荷,对不足1024字节的流进行0比特填充;
b2、提取b1填充后的有效载荷的前1024字节的有效载荷转化为灰度图像样本,一字节八位的二进制数据转化为0-255的数值,进而转化成灰度图中的像素点,最终每个流形成一个32*32的灰度图片。
4.根据权利要求3所述的一种基于多模态深度学习的QUIC流量分类方法,其特征在于:所述步骤S3中具体包括以下步骤:
c1、将QUIC流特征向量输入统计学特征模态,统计学特征模态通过1D-CNN学习流特征向量信息的深层特征,并进行特征展平;
c2、将QUIC流有效载荷灰度图输入有效载荷模态,有效载荷模态通过2D-CNN学习流有效载荷信息的深层特征,并进行特征展平;
c3、融合两模态的深层特征,融合层在两模态学习模型之后,用拼接的方式融合两个模态的深层特征,通过全连接层捕获学习模态间相关特征,最终使用Softmax函数进行结果分类。
5.根据权利要求4所述的一种基于多模态深度学习的QUIC流量分类方法,其特征在于:所述步骤c1中流统计学特征模态的网络结构包括输入层、一维卷积层、最大池化层和连接展平层。
6.根据权利要求5所述的一种基于多模态深度学习的QUIC流量分类方法,其特征在于:所述步骤c2中流有效载荷模态的网络结构包括输入层、二维卷积层、最大池化层和连接展平层。
CN202210145136.6A 2022-02-17 2022-02-17 一种基于多模态深度学习的quic流量分类方法 Pending CN114519390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210145136.6A CN114519390A (zh) 2022-02-17 2022-02-17 一种基于多模态深度学习的quic流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210145136.6A CN114519390A (zh) 2022-02-17 2022-02-17 一种基于多模态深度学习的quic流量分类方法

Publications (1)

Publication Number Publication Date
CN114519390A true CN114519390A (zh) 2022-05-20

Family

ID=81598849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210145136.6A Pending CN114519390A (zh) 2022-02-17 2022-02-17 一种基于多模态深度学习的quic流量分类方法

Country Status (1)

Country Link
CN (1) CN114519390A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277888A (zh) * 2022-09-26 2022-11-01 中国电子科技集团公司第三十研究所 一种移动应用加密协议报文类型解析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277888A (zh) * 2022-09-26 2022-11-01 中国电子科技集团公司第三十研究所 一种移动应用加密协议报文类型解析方法及系统
CN115277888B (zh) * 2022-09-26 2023-01-31 中国电子科技集团公司第三十研究所 一种移动应用加密协议报文类型解析方法及系统

Similar Documents

Publication Publication Date Title
CN112163594B (zh) 一种网络加密流量识别方法及装置
CN113179223B (zh) 一种基于深度学习和序列化特征的网络应用识别方法及系统
CN110730140B (zh) 基于时空特性相结合的深度学习流量分类方法
CN112511555A (zh) 基于稀疏表示和卷积神经网络的私有加密协议报文分类法
CN108462707B (zh) 一种基于深度学习序列分析的移动应用识别方法
CN110072119B (zh) 一种基于深度学习网络的内容感知视频自适应传输方法
CN110717532A (zh) 基于SE-RetinaGrasp模型的机器人目标抓取区域实时检测方法
CN110099280B (zh) 一种无线自组织网络带宽受限下的视频业务质量增强方法
CN112887291A (zh) 基于深度学习的i2p流量识别方法及系统
CN113344826B (zh) 图像处理方法、装置、电子设备及存储介质
CN113037646A (zh) 一种基于深度学习的列车通信网络流量识别方法
CN114039901A (zh) 基于残差网络和循环神经网络混合模型的协议识别方法
CN112686287A (zh) 一种基于非因果时间卷积神经网络的加密流量分类方法
CN114519390A (zh) 一种基于多模态深度学习的quic流量分类方法
CN114915575A (zh) 一种基于人工智能的网络流量检测装置
CN116110036A (zh) 基于机器视觉的电力铭牌信息缺陷等级判断方法及装置
Zhou et al. Encrypted network traffic identification based on 2d-cnn model
CN116468625A (zh) 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统
CN114650229A (zh) 基于三层模型sftf-l的网络加密流量分类方法与系统
CN114979017B (zh) 基于工控系统原始流量的深度学习协议识别方法及系统
CN111160262A (zh) 一种融合人体关键点检测的人像分割方法
CN114338437B (zh) 网络流量分类方法、装置、电子设备及存储介质
CN116094971A (zh) 一种工控协议识别方法、装置、电子设备及存储介质
CN111583130A (zh) 一种用于lpr的恢复车牌图像的方法
CN118400195B (zh) 基于掩码自动编码器预训练的恶意流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication