CN117614747A

CN117614747A - 基于包头与载荷分离的多模型融合的流量分类方法及系统

Info

Publication number: CN117614747A
Application number: CN202410094842.1A
Authority: CN
Inventors: 刘治; 李鑫
Original assignee: Qingdao Fengyang Intelligent Technology Co ltd
Current assignee: Qingdao Fengyang Intelligent Technology Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-02-27

Abstract

本发明属于网络流量分类和恶意软件检测技术领域，提供了一种基于包头与载荷分离的多模型融合的流量分类方法及系统。该方法包括，基于预处理后的数据包，采用已训练的融合模型，得到数据包分类结果；所述融合模型训练的过程包括：基于数据包包头，采用第一分类模型，得到数据包包头分类结果；基于数据包载荷，采用第二分类模型，得到数据包载荷分类结果；根据数据包包头分类结果和数据包载荷分类结果，设计评价指标，量化第一分类模型和第二分类模型；将第一分类模型和第二分类模型进行融合，得到融合模型。

Description

基于包头与载荷分离的多模型融合的流量分类方法及系统

技术领域

本发明属于网络流量分类和恶意软件检测技术领域，尤其涉及一种基于包头与载荷分离的多模型融合的流量分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

网络空间是人类通信技术发展的伟大成果。随着新一代信息技术的发展和网络基础的建设，网络规模不断扩大，同时，网络安全问题也随之出现。

在源头处理异常事件是保护网络空间安全的最好方法。因此，如果能在流量数据未到达主机用户时，检测出异常并及时处理，网络空间的安全性将大大提高。因此网络恶意流量的检测对于维护网络空间的安全是至关重要的。

由于网络攻击流量的多样性，攻击流量可以划分为多个类别，因此入侵检测问题常被建模为流量分类问题。总体来说，网络流量分类在服务质量(QoS)控制、恶意软件/木马检测、网络攻击识别和网络入侵检测等方面发挥着非常重要的作用。

而近年来的网络流量分类或异常流量检测技术多采用基于会话的，取会话的前784字节作为深度学习模型的输入，不考虑一个会话中数据包之间的相对独立性，不对包头与载荷进行区分，不考虑网络流量数据包包头的特定意义的协议字段等，即使模型取得较好的性能，也不知其所以然，可解释型较低。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于包头与载荷分离的多模型融合的流量分类方法及系统，其将处理后的包头与载荷分别输入到模型中进行训练，保持了其相对独立性，最后使用结果融合策略，又保持了其关联性，从而提高了流量分类结果的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于包头与载荷分离的多模型融合的流量分类方法。

基于包头与载荷分离的多模型融合的流量分类方法，包括：

获取原始网络流量，并进行处理，得到数据包；

对数据包进行预处理，得到预处理后的数据包；

基于预处理后的数据包，采用已训练的融合模型，得到数据包分类结果；

所述融合模型训练的过程包括：基于数据包包头，采用第一分类模型，得到数据包包头分类结果；基于数据包载荷，采用第二分类模型，得到数据包载荷分类结果；所述第一分类模型采用SE（squeeze and excitation）-LSTM模型，所述第二分类模型采用SE-Perceiver模型；根据数据包包头分类结果和数据包载荷分类结果，设计评价指标，量化第一分类模型和第二分类模型；将第一分类模型和第二分类模型进行融合，得到融合模型。

进一步地，所述获取原始网络流量具体包括：利用Wireshark抓包工具直接提取特定网络节点的原始流量，并直接输出为pcap的文件格式。

进一步地，所述并进行处理具体包括：

利用tshark命令过滤出载荷长度为零的数据包，通过python脚本提取数据包载荷，并统一长度为最大有效载荷长度；

进一步地，所述对数据包进行预处理具体包括：利用nprint工具提取数据包包头，并完成数据包包头的对齐和长度统一，通过python脚本将数据包包头按照字节或协议字段合并。

进一步地，所述根据数据包包头分类结果和数据包载荷分类结果，设计评价指标，量化第一分类模型和第二分类模型；将第一分类模型和第二分类模型进行融合，得到融合模型的具体过程包括：

数据包包头分类结果和数据包载荷分类结果均进行二值化处理，分类正确判为1，分类错误判为0；

将数据包包头分类结果和数据包载荷分类结果进行对齐，并相减；其中，值为0表示两个模型的分类结果相同，值为1表示第一分类模型分类正确且第二分类模型分类错误，值为-1表示第一分类模型分类错误且第二分类模型分类正确；

统计相减结果中值为0的样本数量占总样本数量的比例，得到第一评价指标，其中第一评价指标在[0,1]之间，用来表示模型相关度；

用1减去第一评价指标表示模型间的差异度；

将相减结果中值为1的样本数量与第二分类模型中值为0的样本数量进行相除，得到第二评价指标，所述第二评价指标表示模型融合时，第一分类模型可能给第二分类模型带来的性能提升；

将相减结果中值为-1的样本数量与第一分类模型中值为1的样本数量进行相除，得到第三评价指标，所述第三评价指标表示模型融合时，第一分类模型可能给第二分类模型带来的性能下降；

根据第一评价指标、第二评价指标和第三评价指标，对数据包包头分类结果的第一分类模型和数据包载荷分类结果的第二分类模型，采用结果融合策略进行融合，得到融合模型。

本发明的第二个方面提供一种基于包头与载荷分离的多模型融合的流量分类系统。

基于包头与载荷分离的多模型融合的流量分类系统，包括：

数据获取模块，其被配置为：获取原始网络流量，并进行处理，得到数据包；

预处理模块，其被配置为：对数据包进行预处理，得到预处理后的数据包；

分类模块，其被配置为：基于预处理后的数据包，采用已训练的融合模型，得到数据包分类结果；

融合模型训练模块，其被配置为：基于数据包包头，采用第一分类模型，得到数据包包头分类结果；基于数据包载荷，采用第二分类模型，得到数据包载荷分类结果；所述第一分类模型采用SE-LSTM模型，所述第二分类模型采用SE-Perceiver模型；根据数据包包头分类结果和数据包载荷分类结果，设计评价指标，量化第一分类模型和第二分类模型；将第一分类模型和第二分类模型进行融合，得到融合模型。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提出了一种基于包头与载荷分离的多模型融合的流量分类方法及系统，包括基于包头和基于载荷两个数据部分的流量分类方法，可以对普通流量，加密流量和恶意软件流量等做到在线实时检测和离线检测。使用不同的模型对数据进行特征提取，然后根据模型之间的相关度，对多模型进行融合，确保了分类性能的同时，增加了多模型融合的科学性。

本发明将数据包包头进行对齐，提出了按照协议字段进行数据的合并，减少了模型输入的维度，增加了可解释性。

本发明提出了一类评估指标，可以用于量化多模型之间的相关度，及数据不同部分或不同模态数据之间的用于分类的信息的相关度，可以作为多模型或多模态数据融合的评估指标。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明提出的基于包头与载荷分离的多模型融合的流量分类方法的框架图；

图2是本发明提供的SE模块模型图；

图3是本发明提供的基于数据包头的SE-LSTM模型框图；

图4是本发明提供的基于数据包有效载荷的SE-Perceiver模型框图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

本实施例提供了一种基于包头与载荷分离的多模型融合的流量分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

获取原始网络流量，并进行处理，得到数据包；

对数据包进行预处理，得到预处理后的数据包；

所述融合模型训练的过程包括：基于数据包包头，采用第一分类模型，得到数据包包头分类结果；基于数据包载荷，采用第二分类模型，得到数据包载荷分类结果；所述第一分类模型采用SE-LSTM模型，所述第二分类模型采用SE-Perceiver模型；根据数据包包头分类结果和数据包载荷分类结果，设计评价指标，量化第一分类模型和第二分类模型；将第一分类模型和第二分类模型进行融合，得到融合模型。

下面结合附图对本实施例进行更清晰的描述，如图1所示，本实施例所述的分类方法包括：

步骤1：获取原始的网络流量，利用Wireshark抓包工具直接提取特定网络节点的原始流量，并直接输出为pcap的文件格式；

步骤2：对网络流量数据进行预处理，具体如下：

利用nprint工具提取出数据包的包头部分，并完成包头部分的数据对齐和长度统一，然后通过python脚本将其按照字节或协议字段合并；

利用tshark命令过滤出载荷长度为零的数据包，然后通过python脚本提取出数据包的载荷部分，并统一长度为最大有效载荷长度，即1460字节；

步骤3：对预处理后的数据包，分别将包头以byte的形式输入到SE-LSTM模型，载荷以byte形式输入到SE-Perceiver模型进行训练，具体如下：

首先搭建LSTM模型和Perceiver模型，然后在两个模型中分别添加SE模块（如图2所示），构成SE-LSTM（如图3所示）模型和SE-Perceiver（如图4所示）模型。其中，LSTM模型由一个LSTM层，一个全连接层，一个Relu层和一个softmax层组成；Perceiver模型由多个互注意力模块和自注意力模块组成，其中每个模块中包含前馈层、残差层和归一化层。在Perceiver模型进行K次循环。SE模块由全局平均池化层，一个全连接层，一个Relu层和一个全连接层组成，为基于通道的注意力机制模块。

步骤4：建立一类新的评估指标对多个流量分类模型进行模型间相关度的量化，并据此将多模型融合，得到有无恶意流量及恶意软件所属的恶意软件家族的最佳识别结果，具体如下：

显而易见地，进行多模型融合时，模型性能相当的情况下，当各个模型的相关度越低，融合的效果会更好，而模型之间的相关性可以通过各个模型的分类结果的差异来表征。对这种差异进行量化，可以作为多模型融合的前置条件。

在本实施例中，首先将每个模型的分类结果二值化，即分类正确判为1，分类错误判为0；其次按照数据样本将每个模型的分类结果进行对齐，并相减，值为0表示两个模型的分类结果相同，值为1表示第一个模型分类正确且第二个模型分类错误，值为-1表示第一个模型分类错误且第二个模型分类正确；统计相减结果中值为0的样本数量占总样本数量的比例，该值在[0,1]之间，可以用来表示模型相关度，这里用1减去该值表示模型间的差异度；统计相减结果中值为1的样本数量，并将其与第二个模型中值为0的样本数量进行相除，该值可以表示进行第一个模型可能给第二个模型带来的性能提升；统计相减结果中值为-1的样本数量，并将其与第一个模型中值为1的样本数量进行相除，该值可以表示进行第一个模型可能给第二个模型带来的性能下降。

根据该指标和各模型的分类性能指标，对基于数据包的包头分类结果和载荷分类结果使用结果融合策略，得到最佳的数据包分类结果。

对于网络流量而言，包头与载荷既密切相关，又具有相对独立性。在本实施例中，将处理后的包头与载荷分别输入到模型中进行训练，保持了其相对独立性，最后使用结果融合策略，又保持了其关联性，从而提高了流量分类结果的准确性。

实施例二

本实施例提供了一种基于包头与载荷分离的多模型融合的流量分类系统。

基于包头与载荷分离的多模型融合的流量分类系统，包括：

此处需要说明的是，上述数据获取模块、预处理模块、分类模块和融合模型训练模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，包括：

获取原始网络流量，并进行处理，得到数据包；

对数据包进行预处理，得到预处理后的数据包；

2.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，所述获取原始网络流量具体包括：利用Wireshark抓包工具直接提取特定网络节点的原始流量，并直接输出为pcap的文件格式。

3.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，所述并进行处理具体包括：

利用tshark命令过滤出载荷长度为零的数据包，通过python脚本提取数据包载荷，并统一长度为最大有效载荷长度。

4.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，所述对数据包进行预处理具体包括：利用nprint工具提取数据包包头，并完成数据包包头的对齐和长度统一，通过python脚本将数据包包头按照字节或协议字段合并。

5.根据权利要求1所述的基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，所述根据数据包包头分类结果和数据包载荷分类结果，设计评价指标，量化第一分类模型和第二分类模型；将第一分类模型和第二分类模型进行融合，得到融合模型的具体过程包括：

用1减去第一评价指标表示模型间的差异度；

将相减结果中值为1的样本数量与第二分类模型中值为0的样本数量进行相除，得到第二评价指标；

将相减结果中值为-1的样本数量与第一分类模型中值为1的样本数量进行相除，得到第三评价指标；

6.根据权利要求5所述的基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，所述第二评价指标表示模型融合时，第一分类模型可能给第二分类模型带来的性能提升。

7.根据权利要求5所述的基于包头与载荷分离的多模型融合的流量分类方法，其特征在于，所述第三评价指标表示模型融合时，第一分类模型可能给第二分类模型带来的性能下降。

8.基于包头与载荷分离的多模型融合的流量分类系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于包头与载荷分离的多模型融合的流量分类方法中的步骤。