CN117614747A - 基于包头与载荷分离的多模型融合的流量分类方法及系统 - Google Patents
基于包头与载荷分离的多模型融合的流量分类方法及系统 Download PDFInfo
- Publication number
- CN117614747A CN117614747A CN202410094842.1A CN202410094842A CN117614747A CN 117614747 A CN117614747 A CN 117614747A CN 202410094842 A CN202410094842 A CN 202410094842A CN 117614747 A CN117614747 A CN 117614747A
- Authority
- CN
- China
- Prior art keywords
- classification
- model
- data packet
- packet
- packet header
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000926 separation method Methods 0.000 title claims abstract description 28
- 238000013145 classification model Methods 0.000 claims abstract description 87
- 238000011156 evaluation Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 2
- 238000006731 degradation reaction Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明属于网络流量分类和恶意软件检测技术领域,提供了一种基于包头与载荷分离的多模型融合的流量分类方法及系统。该方法包括,基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;所述融合模型训练的过程包括:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
Description
技术领域
本发明属于网络流量分类和恶意软件检测技术领域,尤其涉及一种基于包头与载荷分离的多模型融合的流量分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
网络空间是人类通信技术发展的伟大成果。随着新一代信息技术的发展和网络基础的建设,网络规模不断扩大,同时,网络安全问题也随之出现。
在源头处理异常事件是保护网络空间安全的最好方法。因此,如果能在流量数据未到达主机用户时,检测出异常并及时处理,网络空间的安全性将大大提高。因此网络恶意流量的检测对于维护网络空间的安全是至关重要的。
由于网络攻击流量的多样性,攻击流量可以划分为多个类别,因此入侵检测问题常被建模为流量分类问题。总体来说,网络流量分类在服务质量(QoS)控制、恶意软件/木马检测、网络攻击识别和网络入侵检测等方面发挥着非常重要的作用。
而近年来的网络流量分类或异常流量检测技术多采用基于会话的,取会话的前784字节作为深度学习模型的输入,不考虑一个会话中数据包之间的相对独立性,不对包头与载荷进行区分,不考虑网络流量数据包包头的特定意义的协议字段等,即使模型取得较好的性能,也不知其所以然,可解释型较低。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于包头与载荷分离的多模型融合的流量分类方法及系统,其将处理后的包头与载荷分别输入到模型中进行训练,保持了其相对独立性,最后使用结果融合策略,又保持了其关联性,从而提高了流量分类结果的准确性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于包头与载荷分离的多模型融合的流量分类方法。
基于包头与载荷分离的多模型融合的流量分类方法,包括:
获取原始网络流量,并进行处理,得到数据包;
对数据包进行预处理,得到预处理后的数据包;
基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;
所述融合模型训练的过程包括:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;所述第一分类模型采用SE(squeeze and excitation)-LSTM模型,所述第二分类模型采用SE-Perceiver模型;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
进一步地,所述获取原始网络流量具体包括:利用Wireshark抓包工具直接提取特定网络节点的原始流量,并直接输出为pcap的文件格式。
进一步地,所述并进行处理具体包括:
利用tshark命令过滤出载荷长度为零的数据包,通过python脚本提取数据包载荷,并统一长度为最大有效载荷长度;
进一步地,所述对数据包进行预处理具体包括:利用nprint工具提取数据包包头,并完成数据包包头的对齐和长度统一,通过python脚本将数据包包头按照字节或协议字段合并。
进一步地,所述根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型的具体过程包括:
数据包包头分类结果和数据包载荷分类结果均进行二值化处理,分类正确判为1,分类错误判为0;
将数据包包头分类结果和数据包载荷分类结果进行对齐,并相减;其中,值为0表示两个模型的分类结果相同,值为1表示第一分类模型分类正确且第二分类模型分类错误,值为-1表示第一分类模型分类错误且第二分类模型分类正确;
统计相减结果中值为0的样本数量占总样本数量的比例,得到第一评价指标,其中第一评价指标在[0,1]之间,用来表示模型相关度;
用1减去第一评价指标表示模型间的差异度;
将相减结果中值为1的样本数量与第二分类模型中值为0的样本数量进行相除,得到第二评价指标,所述第二评价指标表示模型融合时,第一分类模型可能给第二分类模型带来的性能提升;
将相减结果中值为-1的样本数量与第一分类模型中值为1的样本数量进行相除,得到第三评价指标,所述第三评价指标表示模型融合时,第一分类模型可能给第二分类模型带来的性能下降;
根据第一评价指标、第二评价指标和第三评价指标,对数据包包头分类结果的第一分类模型和数据包载荷分类结果的第二分类模型,采用结果融合策略进行融合,得到融合模型。
本发明的第二个方面提供一种基于包头与载荷分离的多模型融合的流量分类系统。
基于包头与载荷分离的多模型融合的流量分类系统,包括:
数据获取模块,其被配置为:获取原始网络流量,并进行处理,得到数据包;
预处理模块,其被配置为:对数据包进行预处理,得到预处理后的数据包;
分类模块,其被配置为:基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;
融合模型训练模块,其被配置为:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;所述第一分类模型采用SE-LSTM模型,所述第二分类模型采用SE-Perceiver模型;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于包头与载荷分离的多模型融合的流量分类方法及系统,包括基于包头和基于载荷两个数据部分的流量分类方法,可以对普通流量,加密流量和恶意软件流量等做到在线实时检测和离线检测。使用不同的模型对数据进行特征提取,然后根据模型之间的相关度,对多模型进行融合,确保了分类性能的同时,增加了多模型融合的科学性。
本发明将数据包包头进行对齐,提出了按照协议字段进行数据的合并,减少了模型输入的维度,增加了可解释性。
本发明提出了一类评估指标,可以用于量化多模型之间的相关度,及数据不同部分或不同模态数据之间的用于分类的信息的相关度,可以作为多模型或多模态数据融合的评估指标。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明提出的基于包头与载荷分离的多模型融合的流量分类方法的框架图;
图2是本发明提供的SE模块模型图;
图3是本发明提供的基于数据包头的SE-LSTM模型框图;
图4是本发明提供的基于数据包有效载荷的SE-Perceiver模型框图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
本实施例提供了一种基于包头与载荷分离的多模型融合的流量分类方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
获取原始网络流量,并进行处理,得到数据包;
对数据包进行预处理,得到预处理后的数据包;
基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;
所述融合模型训练的过程包括:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;所述第一分类模型采用SE-LSTM模型,所述第二分类模型采用SE-Perceiver模型;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
下面结合附图对本实施例进行更清晰的描述,如图1所示,本实施例所述的分类方法包括:
步骤1:获取原始的网络流量,利用Wireshark抓包工具直接提取特定网络节点的原始流量,并直接输出为pcap的文件格式;
步骤2:对网络流量数据进行预处理,具体如下:
利用nprint工具提取出数据包的包头部分,并完成包头部分的数据对齐和长度统一,然后通过python脚本将其按照字节或协议字段合并;
利用tshark命令过滤出载荷长度为零的数据包,然后通过python脚本提取出数据包的载荷部分,并统一长度为最大有效载荷长度,即1460字节;
步骤3:对预处理后的数据包,分别将包头以byte的形式输入到SE-LSTM模型,载荷以byte形式输入到SE-Perceiver模型进行训练,具体如下:
首先搭建LSTM模型和Perceiver模型,然后在两个模型中分别添加SE模块(如图2所示),构成SE-LSTM(如图3所示)模型和SE-Perceiver(如图4所示)模型。其中,LSTM模型由一个LSTM层,一个全连接层,一个Relu层和一个softmax层组成;Perceiver模型由多个互注意力模块和自注意力模块组成,其中每个模块中包含前馈层、残差层和归一化层。在Perceiver模型进行K次循环。SE模块由全局平均池化层,一个全连接层,一个Relu层和一个全连接层组成,为基于通道的注意力机制模块。
步骤4:建立一类新的评估指标对多个流量分类模型进行模型间相关度的量化,并据此将多模型融合,得到有无恶意流量及恶意软件所属的恶意软件家族的最佳识别结果,具体如下:
显而易见地,进行多模型融合时,模型性能相当的情况下,当各个模型的相关度越低,融合的效果会更好,而模型之间的相关性可以通过各个模型的分类结果的差异来表征。对这种差异进行量化,可以作为多模型融合的前置条件。
在本实施例中,首先将每个模型的分类结果二值化,即分类正确判为1,分类错误判为0;其次按照数据样本将每个模型的分类结果进行对齐,并相减,值为0表示两个模型的分类结果相同,值为1表示第一个模型分类正确且第二个模型分类错误,值为-1表示第一个模型分类错误且第二个模型分类正确;统计相减结果中值为0的样本数量占总样本数量的比例,该值在[0,1]之间,可以用来表示模型相关度,这里用1减去该值表示模型间的差异度;统计相减结果中值为1的样本数量,并将其与第二个模型中值为0的样本数量进行相除,该值可以表示进行第一个模型可能给第二个模型带来的性能提升;统计相减结果中值为-1的样本数量,并将其与第一个模型中值为1的样本数量进行相除,该值可以表示进行第一个模型可能给第二个模型带来的性能下降。
根据该指标和各模型的分类性能指标,对基于数据包的包头分类结果和载荷分类结果使用结果融合策略,得到最佳的数据包分类结果。
对于网络流量而言,包头与载荷既密切相关,又具有相对独立性。在本实施例中,将处理后的包头与载荷分别输入到模型中进行训练,保持了其相对独立性,最后使用结果融合策略,又保持了其关联性,从而提高了流量分类结果的准确性。
实施例二
本实施例提供了一种基于包头与载荷分离的多模型融合的流量分类系统。
基于包头与载荷分离的多模型融合的流量分类系统,包括:
数据获取模块,其被配置为:获取原始网络流量,并进行处理,得到数据包;
预处理模块,其被配置为:对数据包进行预处理,得到预处理后的数据包;
分类模块,其被配置为:基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;
融合模型训练模块,其被配置为:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;所述第一分类模型采用SE-LSTM模型,所述第二分类模型采用SE-Perceiver模型;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
此处需要说明的是,上述数据获取模块、预处理模块、分类模块和融合模型训练模块与实施例一中的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,包括:
获取原始网络流量,并进行处理,得到数据包;
对数据包进行预处理,得到预处理后的数据包;
基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;
所述融合模型训练的过程包括:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;所述第一分类模型采用SE-LSTM模型,所述第二分类模型采用SE-Perceiver模型;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
2.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,所述获取原始网络流量具体包括:利用Wireshark抓包工具直接提取特定网络节点的原始流量,并直接输出为pcap的文件格式。
3.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,所述并进行处理具体包括:
利用tshark命令过滤出载荷长度为零的数据包,通过python脚本提取数据包载荷,并统一长度为最大有效载荷长度。
4.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,所述对数据包进行预处理具体包括:利用nprint工具提取数据包包头,并完成数据包包头的对齐和长度统一,通过python脚本将数据包包头按照字节或协议字段合并。
5.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,所述根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型的具体过程包括:
数据包包头分类结果和数据包载荷分类结果均进行二值化处理,分类正确判为1,分类错误判为0;
将数据包包头分类结果和数据包载荷分类结果进行对齐,并相减;其中,值为0表示两个模型的分类结果相同,值为1表示第一分类模型分类正确且第二分类模型分类错误,值为-1表示第一分类模型分类错误且第二分类模型分类正确;
统计相减结果中值为0的样本数量占总样本数量的比例,得到第一评价指标,其中第一评价指标在[0,1]之间,用来表示模型相关度;
用1减去第一评价指标表示模型间的差异度;
将相减结果中值为1的样本数量与第二分类模型中值为0的样本数量进行相除,得到第二评价指标;
将相减结果中值为-1的样本数量与第一分类模型中值为1的样本数量进行相除,得到第三评价指标;
根据第一评价指标、第二评价指标和第三评价指标,对数据包包头分类结果的第一分类模型和数据包载荷分类结果的第二分类模型,采用结果融合策略进行融合,得到融合模型。
6.根据权利要求5所述的基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,所述第二评价指标表示模型融合时,第一分类模型可能给第二分类模型带来的性能提升。
7.根据权利要求5所述的基于包头与载荷分离的多模型融合的流量分类方法,其特征在于,所述第三评价指标表示模型融合时,第一分类模型可能给第二分类模型带来的性能下降。
8.基于包头与载荷分离的多模型融合的流量分类系统,其特征在于,包括:
数据获取模块,其被配置为:获取原始网络流量,并进行处理,得到数据包;
预处理模块,其被配置为:对数据包进行预处理,得到预处理后的数据包;
分类模块,其被配置为:基于预处理后的数据包,采用已训练的融合模型,得到数据包分类结果;
融合模型训练模块,其被配置为:基于数据包包头,采用第一分类模型,得到数据包包头分类结果;基于数据包载荷,采用第二分类模型,得到数据包载荷分类结果;所述第一分类模型采用SE-LSTM模型,所述第二分类模型采用SE-Perceiver模型;根据数据包包头分类结果和数据包载荷分类结果,设计评价指标,量化第一分类模型和第二分类模型;将第一分类模型和第二分类模型进行融合,得到融合模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094842.1A CN117614747A (zh) | 2024-01-24 | 2024-01-24 | 基于包头与载荷分离的多模型融合的流量分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410094842.1A CN117614747A (zh) | 2024-01-24 | 2024-01-24 | 基于包头与载荷分离的多模型融合的流量分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117614747A true CN117614747A (zh) | 2024-02-27 |
Family
ID=89953898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410094842.1A Pending CN117614747A (zh) | 2024-01-24 | 2024-01-24 | 基于包头与载荷分离的多模型融合的流量分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117614747A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113660220A (zh) * | 2021-07-28 | 2021-11-16 | 上海海事大学 | 一种提升不平衡恶意流量样本识别精度的双模态融合检测方法 |
CN114866485A (zh) * | 2022-03-11 | 2022-08-05 | 南京华飞数据技术有限公司 | 一种基于聚合熵的网络流量分类方法及分类系统 |
CN115456056A (zh) * | 2022-08-30 | 2022-12-09 | 丽水学院 | 基于差异指标的概念漂移数据流集成分类方法及系统 |
US11658989B1 (en) * | 2022-01-13 | 2023-05-23 | National University Of Defense Technology | Method and device for identifying unknown traffic data based dynamic network environment |
CN117056797A (zh) * | 2023-08-01 | 2023-11-14 | 广州大学 | 基于非平衡数据的加密流量分类方法、设备及介质 |
-
2024
- 2024-01-24 CN CN202410094842.1A patent/CN117614747A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113660220A (zh) * | 2021-07-28 | 2021-11-16 | 上海海事大学 | 一种提升不平衡恶意流量样本识别精度的双模态融合检测方法 |
US11658989B1 (en) * | 2022-01-13 | 2023-05-23 | National University Of Defense Technology | Method and device for identifying unknown traffic data based dynamic network environment |
CN114866485A (zh) * | 2022-03-11 | 2022-08-05 | 南京华飞数据技术有限公司 | 一种基于聚合熵的网络流量分类方法及分类系统 |
CN115456056A (zh) * | 2022-08-30 | 2022-12-09 | 丽水学院 | 基于差异指标的概念漂移数据流集成分类方法及系统 |
CN117056797A (zh) * | 2023-08-01 | 2023-11-14 | 广州大学 | 基于非平衡数据的加密流量分类方法、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284606B (zh) | 基于经验特征与卷积神经网络的数据流异常检测系统 | |
CN110851321B (zh) | 一种业务告警方法、设备及存储介质 | |
CN111191767B (zh) | 一种基于向量化的恶意流量攻击类型的判断方法 | |
CN108063768B (zh) | 基于网络基因技术的网络恶意行为识别方法及装置 | |
CN112801155B (zh) | 基于人工智能的业务大数据分析方法及服务器 | |
CN108718298A (zh) | 一种恶意外连流量检测方法及装置 | |
CN112383516A (zh) | 图神经网络构建方法、基于图神经网络的异常流量检测方法 | |
CN111800430A (zh) | 一种攻击团伙识别方法、装置、设备及介质 | |
CN111881164B (zh) | 基于边缘计算和路径分析的数据处理方法及大数据云平台 | |
CN104767736A (zh) | 将未知单协议数据流分离为不同类型的数据帧的方法 | |
CN113452672A (zh) | 基于协议逆向分析的电力物联网终端流量异常分析方法 | |
CN111402156B (zh) | 一种涂抹图像的复原方法、装置及存储介质和终端设备 | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
CN111224998A (zh) | 一种基于极限学习机的僵尸网络识别方法 | |
CN116915720A (zh) | 物联网设备流量识别方法、系统、电子设备及存储介质 | |
CN117540334A (zh) | 基于大数据和边缘计算的数据整合方法 | |
CN117614747A (zh) | 基于包头与载荷分离的多模型融合的流量分类方法及系统 | |
CN111193631B (zh) | 信息处理方法、系统和计算机可读存储介质 | |
CN114884704B (zh) | 一种基于对合和投票的网络流量异常行为检测方法和系统 | |
CN112149121A (zh) | 一种恶意文件识别方法、装置、设备及存储介质 | |
CN115659135A (zh) | 一种面向多源异构工业传感器数据的异常检测方法 | |
CN111586052B (zh) | 一种基于多层级的群智合约异常交易识别方法及识别系统 | |
CN111917715B (zh) | 一种基于802.11ac MAC层指纹的设备识别方法 | |
CN117331839A (zh) | 一种基于代码相似检测的智能攻击向量的生成方法及系统 | |
CN117195096A (zh) | 面对开放流量的物联网设备识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |