CN115563533A

CN115563533A - 一种基于多任务学习的加密流量分类系统、方法、计算机及存储介质

Info

Publication number: CN115563533A
Application number: CN202211166951.7A
Authority: CN
Inventors: 孙广路; 李叶光; 黄凯
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-01-03

Abstract

本发明为提高加密流量分类模型的泛化能力，提出一种基于多任务学习的加密流量分类方法。本发明包括：将采集到的带标签的加密流量数据按双向流分割，每条双向流的数据作为一个训练样本；提取所述训练样本的时间序列特征，将其做为多任务分类模型的输入；设置多任务分类模型的辅助任务和主任务，并设计辅助任务的类别划分器，为每条流量数据添加对应的辅助任务标签；构建基于软参数共享机制的多任务分类模型；将所述训练样本的时间序列特征输入多任务分类模型，根据各个任务对应的标签同时训练多个任务，每个任务都有独立的输出。

Description

一种基于多任务学习的加密流量分类系统、方法、计算机及存储介质

技术领域

本发明涉及计算机网络安全技术领域，更具体地，本发明涉及一种基于多任务学习的加密流量分类系统、方法、计算机及存储介质，该方法在加密流量分类方面有着很好的应用。

背景技术

随着互联网及各种在线应用的快速增长，加密流量在网络传输中的比重越来越大，这给流量识别和分类带来了巨大的挑战。加密流量采用的端口混淆和端口跳变技术导致传统的基于端口的流量识别方法的准确率大幅下降，加密流量对传输载荷进行加密的特性也导致了基于载荷关键字的流量识别方法的准确率下降。此外，传统的机器学习方法也已不太适用加密流量的分类，该类方法不能捕获复杂模式下互联网流量，导致准确性下降，且大多依赖于从整个流量中获得的统计特征，不适合早期分类。

随着深度学习在图像识别、文本翻译和自动驾驶等领域取得的巨大成功，越来越多的研究者尝试将深度学习的模型和方法应用到加密流量识别领域。这是因为深度学习能够学习复杂模式和进行自动特征提取，因此可通过对握手阶段中未加密的时序特征进行提取，采用不同的深度学习算法可实现对相应加密流量的分类。其中，CNN、RNN等算法在流量分类中应用颇为广泛，但大多数应用于单任务场景中。多任务学习的方法与单任务相比，其优势在于多任务学习将多个相关的任务同时并行学习，梯度同时反向传播，多个任务通过底层的共享表示来互相帮助学习，可以提升模型的泛化效果。

发明内容

为了解决加密流量分类问题，本发明公开了一种基于多任务学习的加密流量分类系统，包括，数据处理模块、特征提取模块、生成主任务及辅助任务模块、软参数共享机制模块；

所述数据处理模块用于对得到的加密流量数据进行流分割，如果两条流数据满足传输层协议相同，一条流的源IP、目的IP、源端口号、目的端口号与另一条流的目的IP、源IP、目的端口号、源端口号相同，则合并为双向流，每条双向流数据作为一个训练样本；

所述特征提取模块用于对预处理后的样本进行时间序列特征提取，主要提取的特征有数据包的到达间隔时间、数据包的长度、数据包的方向；

所述生成主任务及辅助任务模块用于确定系统分类的目标，主任务目标是实现对流量进行服务类型的分类，辅助任务目标是实现流量的带宽分类和持续时间分类；

所述软参数共享机制模块用于构建多任务分类模型的共享层，设置专家网络和门控网络，将所述训练样本的时间序列特征输入多任务分类模型，根据各个任务对应的标签同时训练多个任务，每个任务都有独立的输出。

为此，本系统提供了如下技术方案：

一种基于多任务学习的加密流量分类系统，包括以下步骤：

S1：将采集到的带标签的加密流量数据按双向流分割，每条双向流的数据作为一个训练样本；

S2：提取所述训练样本的时间序列特征：数据包的到达间隔时间、数据包长度、数据包方向；

S3：生成多任务分类模型的辅助任务和主任务，主任务为流量的服务类型分类，辅助任务包括流量的带宽分类和持续时间分类，并设计辅助任务的类别划分器，为每条流量数据添加对应的辅助任务标签；

S4：构建基于软参数共享机制的多任务分类模型，基于软参数共享机制的多任务分类模型有浅层共享层和特定任务层两层，浅层共享层主要用于设置专家网络，特定任务层用于设置门控网络；

S5：将步骤S2中提取得到的时间序列特征与步骤S3中得到的标签作为输入，系统根据各个任务对应的标签同时训练多个任务，浅层任务层中专家系统的参数共享，然后特定任务层的门控系统针对特定任务与专家系统的结果进行加权求和，最终每个任务输出各自独立的分类结果。

优选的，步骤S1中，按双向流分割加密流量数据，其具体步骤为：

S11.按照到达时间的先后顺序从保存原始流量的pcap文件中提取数据包的五元组5-tuple＝{源IP，目的IP，源端口号，目的端口号，传输层协议}。

S12.依次将双向五元组相同的数据包合并到同一条双向流中，这里的双向五元组表示某五元组和将该五元组的源IP、源端口号与目的IP、目的端口号互换后形成的五元组均属于相同的双向五元组。

S13.数据集中同时存在UDP和TCP流量。对于TCP流，我们查找FIN报文来识别TCP流的结束；对于UDP流，我们使用流超时15秒来标记UDP流的结束。

S14.为了使样本有充足的信息用于训练，保留数据包数量大于60的双向流，而数据包数量小于60的双向流则丢弃。

优选的，所述步骤S2中，时间序列特征的提取，其具体步骤为：

S21.提取数据包的到达间隔时间，按顺序将训练样本中每个数据包的到达时间分别减去第一个数据包的到达时间，得到一个到达间隔时间的序列。

S22.提取数据包的长度，将训练样本中每个数据包的字节长度作为数据包的长度，每个训练样本将得到一个数据包长度的序列。

S23.提取数据包的方向，正向数据包用1表示，即从客户端到服务器，反向数据包用-1表示，即从服务器到客户端，默认每条双向流的第一个数据包为正向数据包。

S24.合并数据包的长度和方向，将长度与表示方向的数值相乘，长度的正值表示正向数据包的长度，负值表示反向数据包的长度。

优选的，所述步骤S3中，辅助任务和主任务的设置、设计辅助任务的类别划分器以及辅助任务标签的添加，其具体步骤为：

S31.确定主任务，如流量的协议类型识别、流量的服务类型分类等，通常根据数据集附带的标签或实际需求而定，这里我们确定的主任务是流量的服务类型分类。确定辅助任务，这里我们确定的辅助任务是实现流量的带宽分类和持续时间分类。

S32.计算各条双向流的所有数据包大小之和S＝{s₁,s₂,...,s_n}，其中s_i表示第i条双向流中所有的数据包大小之和。

S33.统计流的持续时间，每条双向流的最后一个数据包的到达时间减去第一个数据包的到达时间，即可得到各条双向流的持续时间T＝{t₁,t₂,...,t_n}，其中t_i表示第i条双向流的持续时间。

S34.统计流的带宽，某条双向流的带宽为该流所有的数据包大小之和除以该流的持续时间，即各条双向流的带宽B＝{s₁/t₁,s₂/t₂,,...,s_n/t_n}。

S35.设计辅助任务的类别划分器。根据主任务的类别分别计算各类别带宽和持续时间的平均值

和

其中k表示主任务的类别数量，

表示第i类别的带宽均值，

表示第i类别的持续时间均值。将所得的均值B_avg和T_avg分别排序，取两两均值的中数作为类别划分器的各个界限值，分别得到带宽类别划分器

和

其中

S36.根据所设计的类别划分器确定每个样本对应辅助任务的标签。以带宽分类任务为例，根据样本的带宽值b_sample在带宽类别划分器中的位置来确定该样本带宽分类任务的标签，若

则标记为类别1；若

则标记为类别k；若

则标记为类别i+1。持续时间分类任务的标签同上。

优选的，所述步骤S4中，基于软参数共享机制的多任务分类模型的构建，其具体步骤为：

S41.将步骤S2中得到的时间序列特征以及步骤S3得到的辅助任务标签作为多任务分类模型的输入。

S42.构建多任务分类模型的共享层，所述共享层为m个专家网络组成，专家网络为一个简单的CNN模型用于提取浅层共享特征，提供共享参数，在门控网络中不同的任务可以融合不同的专家网络的共享参数从而得到最终的分类结果，系统中m设置为2。

S43.实现软参数共享机制，所述特定任务层为n个门控网络组成，门控网络为MLP模型，通过所述门控网络融合各个专家网络的输出，融合后的结果作为特定任务层的输入。即对所有专家网络的输出结果进行加权求和，门控网络输出的概率作为各个专家网络输出结果的权重系数，n个门控网络将得到n个融合结果，系统中n设置为3。

S44.针对n个任务构建n个特定的任务层，任务层用于最终的分类。所述任务层根据任务复杂度添加隐藏层，隐藏层通常为全连接层，任务层将所述共享层的融合结果作为输入，每个门控网络的输出层通过softmax激活函数得到一组输出结果，输出结果对应分类任务中各个类别的概率。

一种计算机，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现一种基于多任务学习的加密流量分类系统的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现一种基于多任务学习的加密流量分类系统。

本发明的有益效果如下：

1.本发明是一种基于多任务学习的加密流量分类方法，该方法共享特征提取层，减少了模型参数，能够加快训练速度；同时，该方法学习多个任务的共享特征表示，降低了过拟合的风险。

2.本发明使用基于软参数共享机制的多任务学习方法，当任务之间相关性较低时仍然有效。

3.本发明同样适用于样本数较少的任务，可以通过添加样本数较多的辅助任务来提升目标任务的准确率。

附图说明：

图1为本发明实施方式中多任务学习的加密流量分类流程图。

具体实施方式：

为了使本发明的实施例中的技术方案能够清楚和完整地描述，以下结合实施例中的附图，对本发明进行进一步的详细说明。

实例一、本实施公开了一种基于多任务学习的加密流量分类方法的流程，如图1所示，包括以下步骤。

步骤1加密流量数据分割过程如下：

S11通过scapy库加载pcap文件，并获取流量中每个数据包的五元组信息。

S12将双向五元组相同的数据包合并到一条双向流中。

S13根据FIN报文或超时15s来标识TCP或UDP流的结束，并将数据包数量大于60且已经结束的流保存到pcap文件中。

步骤2提取时间序列特征的过程如下：

S21使用scapy库加载分割后的双向流，并提取所述流中各个数据包的时间戳和字节长度。

S22将双向流中各个数据包的时间戳分别减去第一个数据包的时间戳，并转换为以秒为单位的数值。

S23默认将双向流中第一个数据包的方向作为正向，记为1表示，即从客户端到服务器，与之方向相反即为反向，记为-1。

S24合并各个数据包的字节长度和方向，两个数值相乘即可。

步骤3设置多任务分类模型的辅助任务和主任务，并设计辅助任务的类别划分器，为每条流量数据添加对应的辅助任务标签的过程如下：

S31主任务为服务类型分类，所得的QUIC流量数据均有服务类型标签，包括聊天、视频、语音、文件传输等，将各标签数值化，便于后续模型训练。

S32分别计算每条流带宽和持续时间以便用于带宽分类和持续时间分类两个辅助任务的训练。

S33通过所有样本的带宽和持续时间分别计算出各自任务的类别划分器，再根据类别划分器得到样本的对应辅助任务的类别标签。

步骤4多任务分类模型分类的过程如下：

S41将每条双向流前60个数据包的时间序列特征输入给多任务分类模型的专家网络和门控网络。

S42多个专家网络提取不同的浅层特征，门控网络得到每个专家网络输出结果的概率，两者结合后，得到融合结果。

S43将融合后的结果传递给门控网络对应的特定任务层，由特定的任务层提取更具有针对性的特征进行最后的分类。

实施例二、本实例在QUIC数据集上与以往方法进行了对比实验验证了本发明提出的基于多任务学习的加密流量分类方法的有效性。

1.数据集

本文选择的数据集为含有时间序列特征的QUIC流量数据集。该QUIC流量数据集捕获于加州大学戴维斯分校，它包含有5种类别谷歌服务的QUIC流量，分别是Google Drive，Youtube，Google Docs，Google Search和Google Music。该数据集中大部分流量均是通过编写的脚本模拟人类行为所捕获的，通过脚本的方式能够节省大量的精力，此外，该数据集也捕获了少量真人操作谷歌服务的流量数据，以便测试通过脚本捕获的样本训练的模型在真实人类行为样本上准确率的变化。

2.对比结果

本发明在数据集QUCI的对比结果如表1所示，在针对多任务分类中，本发明提出的一种基于多任务学习的加密流量分类方法的性能优于现有的对比方法。

表1

本发明的工作原理：

本系统将采集得到加密流量数据集进行双向流合并后提取得到时间序列特征，根据设置的辅助任务设计类别划分器为每条数据添加辅助任务标签，将时间序列特征以及辅助任务得到的标签作为输入，系统根据各个任务对应的标签同时训练多个任务，浅层任务层中专家系统的参数共享，然后特定任务层的门控系统针对特定任务与专家系统的结果进行加权求和，最终每个任务输出各自独立的分类结果。

本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例。

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。