CN114972836A

CN114972836A - 一种基于多模块融合的加密流量分类方法

Info

Publication number: CN114972836A
Application number: CN202111580226.XA
Authority: CN
Inventors: 翟江涛; 许历隆; 林鹏; 崔永富
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-08-30

Abstract

本发明公开了一种多模块融合的加密流量分类方法，所述方法包括以下步骤：数据集采集、数据集预处理、自注意力模块设计、残差收缩模块设计、多模块融合的神经网络模型搭建、分类模型训练及评估。本发明将自注意力机制和深度残差收缩网络与深度学习模型相结合，有效提升了神经网络的特征提取和处理能力，使得部署于网络中的加密流量分类器精度得到提升。本发明方法可部署于网络出口处对进出网络的流量进行分类，以提高网络管理和安全防护能力。

Description

一种基于多模块融合的加密流量分类方法

技术领域

本发明涉及加密流量识别领域，具体涉及一种基于多模块融合的加密流量分类方法，所设计方法可部署于网络出口处，用于识别加密流量，为网络安全与管理提供技术支撑。

背景技术

现有以僵尸网络、高级持续性威胁(APT)、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵系统。因此对加密流量的识别已经成为防御网络攻击的重点。

近年来随着网络空间安全的受到越来越多的关注，研究人员针对流量分类的研究也逐渐深入。流量分类方法主要分为四类：基于端口的分类方法，基于深度包检测(DPI)的方法，基于传统机器学习和基于深度学习的方法。基于端口的方法对于具有特定端口号的应用程序(例如，具有端口21的FTP流量)的分类性能很好，但是由于随机端口和端口伪装技术的普遍使用，该方法对加密流量分类的精确率低，已不再适用于加密流量的分类。DPI分析整个数据包数据，然后识别其网络协议和应用程序。因为流量负载数据通常用协议加密或封装，包含较少的恒定特征，使得DPI在加密流量分类任务中不再可行。而基于机器学习的方法，通过提取流量数据的行为和统计特征，并用之训练支持向量机(SVM)，随机森林(RF)等传统的机器学习模型，从而实现加密流量的高精度分类。但该方法需要手动设计反映网络流量的特征集，耗费大量的成本并且特征的设计和提取直接影响分类效果，其泛化性能也有待提高。而深度学习作为机器学习的分支，可以有效避免依赖人工设计提取特征的问题。基于深度学习的分类方法是一种端到端的流量分类方法，自动从原始数据中提取特征，学习原始数据和目标输出之前的关系，有利于获得全局问题的最优解。

目前，卷积神经网络作为一种深度学习方法，因其优良的特征提取能力和分类性能，在流量分类领域中得到了广泛的应用。在神经网络中，卷积层通过卷积核和原始特征的线性结合提取特征，但是卷积核往往只能提取原始特征的局本部信息，无法提取全局信息。为了增加感受野，通过堆叠卷积层和增大卷积核尺寸的方式来增加可提取的信息范围，但是该做法增加了计算开销，模型的性能也不能得到保证。除此之外，原始流量数据中往往包含噪声和冗余信息，使得深度学习模型从中自动提取到的特征中也包含冗余特征。这些对分类无用的冗余特征，进一步增加了模型的训练难度和分类性能。因此，设计一种具有更强的特征提取能力和特征处理能力的深度学习模型来提升加密流量的识别精度具有重要意义。

发明内容

本发明提供一种可部署于网络出口处的流量解决方案，该方案通过捕获原始特征的全局信息，自适应滤除所提取特征的噪声，增强模型的特征提取和处理能力，提高加密流量分类准确率的方法。

为实现上述目的，本发明采用以下技术方案：一种基于多模块融合的加密流量分类方法。包括以下步骤：

S1数据集采集：捕获流量，生成会话，按照五元组对所采集的网络流量数据过滤分流，获取原始实验数据集。

S2数据集预处理：读取流量数据，剔除数据链路层，统一数据长度，归一化并转为包字节矩阵，生成灰度图像训练集和测试集。

S3自注意力模块设计：通过三个并行1*1卷积核生成三个二维特征空间 f,g,h，由特征空间f和g生成注意力特征图，并最后与特征空间h生成自注意力特征矩阵图。

S4残差收缩模块设计：设计残差网络模块，嵌入自适应生成阈值子网络形成残差收缩模块。

S5多模块融合的神经网络模型搭建：通过自注意力机制模块从原始流量数据灰度图中提取特征信息，通过残差收缩模块对所提取特征自适应滤除冗余特征并获取高维特征图，全局平均池化降维特征信息，最后通过全连接层输出分类结果。

S6分类模型训练并评估：输入训练集训练深度学习模型，对加密流量分类；分析指标结果，选择最优参数，优化分类器。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1为数据集采集，具体包括以下步骤：

S11定义TCP流为以握手协议中的SYN标志位开始，并且以FIN标志位或以RST标志位结尾的TCP双向流；

S12定义UDP流为以第一个数据包到达为开始，如果两个数据包到达的时间间隔超过一分钟，则认为数据流结束，新数据流的开始；

S13捕获流量是用Wireshark抓取网络流量，生成PCAP格式文件；

S14按照五元组过滤分流流量数据，生成实验数据集。

进一步地，步骤S2为数据集预处理，处理步骤S1中获取的流量数据集，将原始流量处理成神经网络模型可输入的格式。

进一步地，步骤S2具体包括以下步骤：

S21依次读取数据流，剔除数据链路层负载；

S22填充UDP头部，达到TCP报头长度；

S23统一数据流长度，对大于1521字节的数据流进行截断，对少于1521 字节的补零；

S24对提取的数据进行归一化处理；

S25将每条流量数据生成39*39的包字节矩阵并生成灰度图像数据集；

S26按9:1比例划分训练集和测试集。

进一步地，步骤S3为自注意力模块设计，将步骤S2中用原始流量映射出的灰度图像作为神经网络输入，利用自注意力机制从原始流量灰度图中提取细粒度特征，并克服传统卷积层感受野有限的局限性，提取出原始特征的全局信息。

进一步地，步骤S3具体包括以下步骤：

S31通过3个1*1卷积核，从原始流量灰度图中提取出三个特征空间f(x)， g(x)，h(x)；

S32将f(x)，g(x)两个特征空间做矩阵乘法运算经过softmax层归一化处理后得到一个特征空间的注意力图β_ij，即β_ij＝softmax(f(x_i)^Tg(x_j))，

S_ij＝f(x_i)^Tg(x_j)。其中x为输入特征矩阵，β_ij用来表示位置i对生成区域j的关系权重，N是特征位置的数目；softmax(.)为归一化指数函数。

S33将特征空间h(x)与注意力特征图β_ij点乘得到自注意力层的输出结果即全局特征信息o_j，计算公式为

h(x_i)＝W_hx_i,v(x_i)＝ W_vx_i。其中W_h为卷积参数；W_v为权重系数，可由模型自动学习优化。

S4全局特征信息o_j乘以一个系数再加上原来的特征图就是自注意力模块最后输出结果y_i＝x_i+yo_i。其中x_i为原始特征图；y为可变系数，由模型自动学习优化。

进一步地，步骤S4为残差收缩模块设计，搭建残差块并在其中嵌入自适应生成阈值的自网络，以达到对步骤S3中提取的全局特征进一步的降噪处理，增加高层特征的判别性。

进一步地，步骤S4具体包括以下步骤：

S41通过两个批归一化(Batch Normalization,BN),两个卷积层(Convolutionallayer,Conv),两个整流线性单元ReLU和一个恒等路径组成一个残差块；

S42通过两层全连接层FC，一个全局平均池化层(Global Average Pooling，GAP)，一个批归一化BN，一个整流线性单元ReLU和Sigmoid激活函数搭建子网络；

S43将残差块中第二个卷积层的输出作为子网络的输入并对其取绝对值，并通过全局平均池化GAP获得子网络特征A；

S44将特征A输入子网络中的小型全连接层，获得一个子网络高级特征，并通过Sigmoid激活函将输出归一化到0和1之间，获得一个系数，记为α。最终的阈值可以表示为α×A。

S45在残差块中嵌入子网络自适应的生成阈值，用ReLU进行阈值软化，对通过的特征实现噪声或者冗余特征的过滤。

进一步地，步骤S5为多模块融合的神经网络模型搭建，依据步骤S3和步骤S4搭建融合自注意力模块和残差收缩模块这两大功能模块的神经网络，提升深度学习模型的特征提取和特征处理能力。

进一步地，步骤S5具体包括以下步骤：

S51依据输入特征尺寸大小，选择自注意注意力模块串联的个数以保证模型对流量数据的特征提取能力，提取足够细粒度的全局信息。

S52依据输入数据大小，选择串联的残差收缩模块的个数以保证模型对冗余特征的滤除性能。

S53通过M个自注意力模块，N个残差收缩模块，3个全连接层，2个BN 层，2个整流线性单元，1个平均池化层搭建多模块融合的神经网络模型，实现对加密流量的分类。

进一步地，步骤S6分类模型训练并评估。使用训练集训练步骤S5中搭建的深度学习模型，并用测试集评估分类模型，调整模型参数，模块数量使得模型达到最优，最后实现加密流量的高精度分类

本发明的有益效果是：本发明融合了自注意力机制和深度残差收缩网络模型对加密流量进行分类。由于是一种端到端的模型，本发明可自动学习输入数据和输出数据之间的非线性关系，避免了人工提取特征。引入的自注意力机制，可以从原始特征中提取全局信息，避免了传统卷积层处理原始输入特征的局限性。引入的残差收缩网络模型，通过残差网络中的恒等路径，优化深度学习模型中参数的反向传播，减轻模型的训练难度，加速收敛；其嵌入的生成阈值子的网络，可从每张样本图片中学习不同的阈值，自适应的消除冗余特征，提升神经网络高层特征的判别性，最终实现加密流量的高精度分类。本发明通过对融合自注意力模块和残差收缩模块，进一步提升了流量分类领域中深度学习模型的特征提取和特征处理能力。具有识别率高，误报率低，对加密流量表现出较好的分类性能的优势。

附图说明

图1为本发明的加密流量分类模型整体框图；

图2为本发明数据集预处理流程图；

图3自注意力机制模块示意图；

图4为本发明的残差模块示意图；

图5为本发明的残差收缩模块示意图；

图6为本发明的基于深度残差收缩网络模型的示意图；

图7本发明与对比实验指标精确率的结果对比图；

图8本发明与对比实验指标召回率的结果对比图；

图9本发明与对比实验指标F1-Measure的结果对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、 “后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明提供了一种融合自注意力机制的和深度残差收缩网络的加密流量分类方法，针对卷积神经网络无法提取原始特征的全局信息的局限性，引入自注意力机制代替卷积层，增强模型对原始特征的提取能力。针对深度学习模型从网络流量样本中学习到的冗余特征影响分类性能的问题，通过引入深度残差收缩网络，将软阈值化作为非线性层，嵌入到神经网络中以消除不重要特征。在传统残差网络的基础上，通过增加一个子网络，实现阈值的自适应设置。从而使得神经网络根据不同的流量样本，设置不同的阈值，达到冗余特征的自适应消除的目的。此外，通过残差网络中的恒等路径，优化参数反向传播，减轻模型训练难度。最终实现加密流量的高精度分类。

如图1所示，本发明的一些示例中，公开了一种基于深度残差收缩网络的加密流量分类方法，至少包括以下步骤：数据集采集、数据集预处理、设计自注意力模块、设计残差收缩模块、搭建多模块融合的神经网络模型、训练分类模型并评估几个步骤。

在本发明的一些示例中，采集数据集是用Wireshark抓取网络流量，生成 PCAP格式文件，通过五元组对流量过滤分流获取原始实验数据集。其中对于 TCP流，本发明实验判定条件是以握手协议中的SYN标志位开始，并且以FIN 标志位或者RST标志位结尾的TCP双向流。对于UDP流，由于UDP协议设计特点不同于TCP协议有着显式的FIN结束标志，本发明则以第一个数据包到达为开始，如果两个数据包到达的时间间隔超过一分钟，则可认为数据流结束，意味着新数据流的开始。对所捕获的网络流量数据按照五元组进行过滤分流，生成PCAP格式的会话文件，作为原始实验数据集。

在本发明的一些示例中，如图2，对采集的数据集进行进一步处理。为了防止物理硬件对分类的影响，需要去除数据包的数据链路层字节。由于UDP头部比TCP头部少12字节，为了消除实验误差影响需要在UDP头部填充0。过滤不包含负载的数据流，对少于M个字节的流进行补零，对超过的M个字节的流进行截断。将处理好的数据流归一化并生成K*K的包字节矩阵，最终制作成灰度图像集。为了保证提取数据包负载，本示例中将数据流截断的长度定在1521 个字节，则每个数据流生成的灰度图像的像素为39*39。最后按9:1比例，划分训练集和测试集。

在本发明的一些示例中，注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。在图像领域中，其提取特征全局信息的能力可以克服统卷积神经网络感受野有限的不足，进而提供一种特征提取的新方案。

如图3，在自注意力机制模块中将原始流量特征图(convolution feature maps)经过三个尺寸为1x1的卷积核映射到上述的三个不同的特征空间f(x)，g(x)， h(x)，其中f(x)＝W_f*x,g(x)＝W_g*x，h(x)＝W_h*x。然后将f(x)，g(x)两个特征空间做矩阵乘法运算经过softmax层归一化处理后得到一个特征空间的注意力图(attention map)β_ij。其中β_ij＝softmax(f(x_i)T_g(x_j))，即

S_ij＝f(x_i)^Tg(x_j)。β_ij用来表示位置i对生成区域j的关系权重，N是特征位置的数目。将特征空间h(x)与注意力特征图β_ij点乘得到自注意力层的输出结果 (self-attention maps)o＝(o₁,o₂,...,o_j,...o_n)。输出结果o_j的计算公式为：

h(x_i)＝W_hx_i,v(x_i)＝W_vx_i。其中W_f，W_g，W_h都是1×1的卷积参数；W_v是权重系数，可由模型自动学习优化。最后获得的全局特征信息o_j乘以一个系数再加上原来的特征图就是最后的结果y_i＝x_i+yo_i。其中y是一个可学习的参数，在训练过程中初始化为0，网络在训练初始阶段主要依赖邻域特征，之后慢慢的增大对较远区域依赖的权重。

通过自注意力模块对原始特征进行全局信息的提取，克服传统卷积层智能提取局部信息的局限性。在自注意力模块中通过设置1*1卷积核的通道数C，从而获得不同维度的自注意力特征图，以备下一步处理。针对分类样本的尺寸大小，可使M个自注意力模块级联，以获取更高维度的全局特征信息，以提升模型的拟合能力。本发明流量特征的尺寸选为39*39，自注意力模块数M选为1。

在本发明的一些示例中，深度残差收缩网络(Deep Residual ShrinkageNetwork，DRSN)是深度残差网络(Deep Residual Network,ResNet)的一种改进网络。引入该网络旨加强深度神经网络从含噪声样本中提取有用特征的能力，剔除冗余特征，提升神经网络模型的分类准确率；并且通过残差网络的恒等映射，使反向传播更为方便，降低神经网络训练的难度并防止梯度爆炸。而残差收缩模块的设计是搭建深度残差收缩网络的重要一步。残差收缩模块的搭建分为以下两步：

(1)构建残差块

如图4所示，残差模块由两个批归一化(Batch Normalization,BN),两个卷积层(Convolutional layer,Conv),两个整流线性单元ReLU和一个恒等路径组成。与普通神经网络相比，交叉熵损失函数的梯度可通过恒等路径更有效的反向传播至低层，使得参数可以更有效的更新。

(2)嵌入生成阈值子网络

深度残差收缩网络中嵌入的软阈值化模块是实现噪声数据剔除的关键部分。软阈值化是降噪的关键步骤，其将绝对值小于某个阈值的特征删除掉，将绝对值大于这个阈值的特征朝着零的方向进行收缩。它可以通过以下公式来实现：

软阈值化的输出对于输入的导数为：

由上可知，软阈值化的导数要么是1，要么是0。这个性质是和线性整流单元ReLU是相同的。因此，软阈值化也能够减小深度学习算法遭遇梯度弥散和梯度爆炸的风险。

图5为残差收缩模块(Residual Shrinkage Block，RSB)。在普通残差模块上嵌入了一个子网络来自适应生成阈值。该子网络由两层全连接层FC，一个全局平均池化层(Global Average Pooling，GAP)，一个批标准化BN，一个整流线性单元ReLU和Sigmoid激活函数组成。在这个子网络中，首先对输入特征图的所有特征，求它们的绝对值。然后经过全局平均值池化，获得一个特征，记为A。在另一条路径中，全局平均池化之后的特征图，被输入到一个小型的全连接网络。这个全连接网络以Sigmoid函数作为最后一层，将输出归一化到0和1之间，获得一个系数，记为α。最终的阈值可以表示为α×A。因此，阈值就是，一个 0和1之间的数字×特征图的绝对值的平均。这种方式，不仅保证了阈值为正，而且不会太大，不同的样本就有了不同的阈值。因此，在一定程度上，可以理解成一种特殊的注意力机制：注意到与当前任务无关的特征，通过软阈值化，将它们置为零，保留与当前任务相关的特征信息。

在本发明的一些示例中，如图6所示，多模块融合的神经网络模型主要由M 个自注意力模块，N个残差收缩模块，3个全连接层，2个BN层，2个整流线性单元，1个平均池化层组成。将流量1*K*K维度灰度图片输入神经网络。调整自注意力模块中1*1尺寸卷积核的通道数C，来控制从原始流量特征中提取的全局特征图的数量。形成维度为C*K*K的特征图。再通过堆叠N个残差收缩模块，对每张特征图自适应的滤除冗余特征，输出维度依然为C*K*K的纯净高维特征。之后通过全局平均池化，生成1*C的高级特征向量。最后通过全连接层和softmax函数输出分类标签。本示例中将通道数C设成32，K设成39，N设置为3，M设置为1。可以根据输入样本的大小数量增加N和M的个数，以提升模型拟合,特征降噪和特征提取的能力。使用全局平局池化，对每个特征图的所有像素求平均，可以达到快速降维，减少参数量，计算量并且防止过拟合。此外由于卷积次数较多，使用BN层可以有效提高模型收敛速度，防止梯度爆炸。

在本发明的一些示例中，将预处理好的训练集输入深度残差收缩网络模型中，设置模型超参数，并输入训练集开始训练模型。然后通过测试集评估分类结果，调整模型超参数和其他相关参数，以使得模型达到最优的分类性能。本示例中，经过多次实验，将迭代次数设置为100，Batchsize设置为128，选择adam 优化器，学习率设置为0.001。

为了测试并对比本发明方法对加密流量分类的性能，在VPN-nonVPN数据集下选择了深度学习中较典型的算法模型CNN进行对比实验。通过对该数据集中VPN加密流量进行6分类，从实验结果图7～9可以看出，由于CNN是较为基本的深度学习模型，其训练过程相对简单，实验平均的精确率、召回率和 F1-Measure仅有89.1％、88.3％和88.4％。本发明通过融合自注意力机制和残差收缩模块，自动从原始流量中提取特征的全局信息，并自适应滤除样本中冗余特征信息，增加了高层特征的判别性，进一步提高深度学习模型的特征提取与处理能力。最终提高模型平均的精确率、召回率和F1-Measure，达到了96.5％、95.7％和96.1％，本发明模型再加密流量分类的任务中取得了良好的分类效果。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种加密流量分类方法，其特征在于，包括以下步骤：

步骤1：采集网络流量，生成会话，按照五元组对所采集的原始网络流量数据过滤分流，获取原始实验数据集；

步骤2：读取原始流量数据，剔除数据链路层，统一数据长度，归一化并转为包字节矩阵，生成灰度图像训练集和测试集；

步骤3：通过三个卷积核生成三个特征空间，通过其中任意两个特征空间生成注意力特征图，并与剩余的特征空间生成自注意力特征矩阵图；

步骤4：构建残差收缩模块；

步骤5：通过自注意力机制模块从原始流量数据灰度图中提取特征信息，通过残差收缩模块对所提取特征自适应滤除冗余特征，全局平均池化降维特征信息，输出分类结果；

步骤6：将所述训练集输入深度残差收缩网络模型中训练深度学习模型，对加密流量分类。

2.根据权利要求1所述的加密流量分类方法，其特征在于，

所述的捕获流量是用Wireshark抓取网络流量，生成PCAP格式文件。

3.根据权利要求1所述的加密流量分类方法，其特征在于，将步骤2中用原始流量映射出的灰度图像作为神经网络输入，利用自注意力机制从原始流量灰度图中提取细粒度特征，进而提取出原始特征的全局信息。

4.根据权利要求1所述的加密流量分类方法，其特征在于，所述步骤3包括以下步骤：

通过3个卷积核，从原始流量灰度图中提取出三个特征空间；

将任意两个特征空间做矩阵乘法运算经过softmax层归一化处理后得到一个特征空间的注意力特征图；

将剩下的特征空间与注意力特征图点乘得到自注意力层的输出结果即全局特征信息；

全局特征信息乘以可变系数再加上原来的特征图即获得所述的注意力特征矩阵图。

5.根据权利要求1所述的加密流量分类方法，其特征在于，所述的构建残差收缩模块包括以下步骤，搭建残差网络模块并在其中嵌入自适应生成阈值，通过软阈值化，将噪声数据特征置为零。

6.根据权利要求1所述的加密流量分类方法，其特征在于，所述步骤4包括以下步骤：

通过两层全连接层、全局平均池化层、批归一化、整流线性单元和Sigmoid激活函数搭建子网络；

将残差块中的一个卷积层的输出作为子网络的输入并对其取绝对值，通过全局平均池化获得子网络特征；

将子网络特征输入子网络中的全连接层，获得一个子网络特征A，并通过Sigmoid激活函将输出归一化到0和1之间，获得一个系数，所述的自适应生成阈值为：所述系数×子网络特征A；

在残差块中嵌入所述自适应生成阈值，用整流线性单元进行阈值软化，对通过的特征实现噪声或者冗余特征的过滤。

7.根据权利要求1所述的加密流量分类方法，其特征在于，所述步骤5包括以下步骤：

依据输入特征尺寸大小，选择自注意力模块串联的个数以保证模型对流量数据的特征提取能力，提取足够细粒度的全局信息；

依据输入数据大小，选择串联的残差收缩模块的个数以保证模型对冗余特征的滤除性能；

通过自注意力模块、残差收缩模块、全连接层、批归一化、整流线性单元、平均池化层搭建多模块融合的神经网络模型，实现对加密流量的分类。

8.根据权利要求1所述的加密流量分类方法，其特征在于，所述步骤6包括以下步骤：使用训练集训练步骤5中搭建的深度学习模型，并用测试集评估分类模型，调整模型参数，模块数量使得模型达到最优，最后实现加密流量的分类。

9.根据权利要求4所述的加密流量分类方法，其特征在于，通过神经网络中的参数反向传播，自适应的不断优化所述的可变系数。