CN114362988A

CN114362988A - 网络流量的识别方法及装置

Info

Publication number: CN114362988A
Application number: CN202111152905.7A
Authority: CN
Inventors: 任勇毛; 周旭; 陈卓; 唐海娜; 谢高岗
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-04-15
Anticipated expiration: 2041-09-29
Also published as: CN114362988B

Abstract

本发明公开了一种网络流量的识别方法及装置。其中，该方法包括：获取待识别的目标网络流量的数据包；通过小波变换和直方图均衡化对数据包进行增强；将增强后的数据包输入识别模型，由识别模型输出目标网络流量的类型，其中，识别模型包括残差模块和注意力模块，识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及网络流量的所属类型。本发明解决了相关技术中传统的网络流量识别方法，识别准确率较低的技术问题。

Description

网络流量的识别方法及装置

技术领域

本发明涉及流量识别领域，具体而言，涉及一种网络流量的识别方法及装置。

背景技术

随着互联网的普及，网络用户数量呈现出井喷式的增长。目前，流量加密技术存在于社会的各行各业，给远程教育、在线问诊、视频通话等各种对隐私要求高的应用带来落地的解决方案。各种网站也普遍开始采用HTTPS协议来确保不被恶意攻击。在Google等搜索引擎中，使用HTTPS 加密协议的网站会被优先排名。然而，技术是一把双刃剑。流量加密技术同样被用作扰乱网络安全的工具，加密流量的滥用会给网络空间安全与网络运维管理带来大量的隐患，主要体现在如下方面：

1、一些企业或个人可以通过使用加密隧道来规避网络服务提供商(ISP)的监控管理。例如在Telegram、Discord等聊天软件中，网络攻击者可以使用匿名通信来规避网络审查机制。

2、大量的网络病毒采用高强度的加密算法进行传播。例如一种名为Globelmposter 的病毒对多家医院的诊断数据进行加密，其目的是为了勒索钱财。

3、加密流量可以增加传统网络攻击的威胁性。例如僵尸网络将传统的DDos攻击威胁系数升级，通过加密恶意邮件等方式传播网络蠕虫。被控制的主机可以继续向外界传播恶意邮件，从而实现一对多的攻击链，引发大规模的数据安全问题。

4、流量识别是流量工程实施和流量管理的基础。一些企业需要限制视频与图片传输等娱乐相关的流量，以保证邮件等优先度较高的任务能够顺利进行。然而在流量数据包经过SSL等加密技术封装后，企业无法有效管制员工行为。

由于加密流量拥有身份隐匿、内容加密的特性，会对个人隐私与信息安全造成极大的威胁。并且由于加密流量在轮廓、尺寸等多种特征上都与常规流量有着较大的差异，对这些违法行为的取证相当困难。尽管有针对前向加密的破解技术，密钥的获取仍需要耗费大量计算资源，低成本的加密与高代价的解密使得原有的网络攻防平衡被打破。为了减少流量加密技术给社会带来的负面效应，近年来对加密流量识别的研究已成为一个热点。

传统的流量分类识别方法主要基于端口和基于深度包检测DPI技术，但是流量经加密后，这些直接的方法通常很难对加密流量进行分类识别。机器学习为加密流量的识别提供了一种间接的方法。目前利用深度学习方法解决加密流量识别问题的研究主要针对协议层面数据包的分类。多数方法将加密流量识别任务分为特征处理与流量分类两步完成。通用做法是在特征处理阶段使用分析手段提取数据包的轮廓特征与流特征，随后在分类阶段采用浅层的卷积神经网络(CNN)计算输入特征的标签。这种方法在实际操作过程中，对特征的提取不够充分，并且在分析流量数据的特征时缺乏足够的数据量，从而导致分类性能不理想。在加密协议日益增加的当下，这种传统方法在面对复杂数据集时出现的分类错误率较高。随着深度学习技术在计算机视觉与文本分类领域的发展，一些先进的理论方法可以应用于对加密流量进行分析。设计精细化、高准确度的加密流量识别模型是当下现实的需求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种网络流量的识别方法及装置，以至少解决相关技术中传统的网络流量识别方法，识别准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种网络流量识别方法，包括：获取待识别的目标网络流量的数据包；通过小波变换和直方图均衡化对所述数据包进行增强；将所述增强后的数据包输入识别模型，由所述识别模型输出所述目标网络流量的类型，其中，所述识别模型包括残差模块和注意力模块，所述识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及所述网络流量的所属类型。

可选的，获取待识别的目标网络流量的数据包包括：获取所述目标网络流量的多个数据包；对所述数据包进行筛选，得到有效数据包；对所述有效数据包进行欠采样，得到所述目标网络流量的数据包。

可选的，获取所述目标网络流量的多个数据包包括：通过抓包工具根据目标数据包的特征提取目标网络流量的流量段，其中，所述流量段包括一个或多个所述目标数据包；对所述流量段进行分割，得到所述目标网络流量的多个数据包。

可选的，对所述数据包进行筛选，得到有效数据包包括：根据筛选规则对所述数据包文件进行筛选，得到有效数据包，其中，所述筛选规则包括下列至少之一：筛除非预设协议的数据包，筛除重复数据包，筛除载荷为空的数据包。

可选的，通过小波变换和直方图均衡化对所述数据包进行增强包括：通过Daubechies离散小波变换函数对所述数据包进行分解，获取所述数据包的高频分量和低频分量；通过直方图均衡化对低频分量进行增强，得到增强后的低频分量；将所述低频分量和高频分量进行组合，进行逆分解，得到增强后的数据包。

可选的，将所述增强后的数据包输入识别模型之前，还包括：获取采样的不同类型的多个网络流量；将多个网络流量分为训练集和测试集；根据所述残差模块和注意力模块，构件初始识别模型；通过所述训练集对所述初始识别模型进行训练；通过测试集对训练完成的初始识别模型进行测试，测试通过的情况下，得到所述识别模型。

可选的，通过所述训练集对所述初始识别模型进行训练之前，还包括：获取网络流量的数据包，并通过小波变换和直方图均衡化对所述数据包进行增强；通过所述训练集对所述初始识别模型进行训练包括：将训练集中的网络流量输入识别模型，由识别模型的特征提取模块，提取预设尺寸的特征矩阵；将所述特征矩阵输入深度残差网络，确定输出矩阵，其中，所述深度残差网络包括残差模块和注意力模块；将所述输出矩阵输入分类器，得到分类结果；通过相似度算法计算所述分类结果与所述训练集的网络流量的类型的相似度；在所述相似度满足预设要求的情况下，确定所述初始识别模型训练完成。

可选的，将所述特征矩阵输入深度残差网络，确定输出矩阵包括：将所述特征矩阵输入残差模块，由所述残差模块确定输出特征矩阵；将所述输出特征矩阵输入注意力模块，对所述输出特征矩阵进行多次点乘后，通过规范矩阵尺寸得到注意力映射单元；根据所述注意力映射单元和所述输出特征矩阵，确定所述注意力模块输出的注意力矩阵；将所述注意力矩阵重新输出残差模块，得到最终的输出矩阵。

根据本发明实施例的另一方面，还提供了一种网络流量识别装置，包括：获取模块，用于获取待识别的目标网络流量的数据包；预处理模块，用于通过小波变换和直方图均衡化对所述数据包进行增强；识别模块，用于将所述增强后的数据包输入识别模型，由所述识别模型输出所述目标网络流量的类型，其中，所述识别模型包括残差模块和注意力模块，所述识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及所述网络流量的所属类型。

可选的，所述识别模型包括：特征提取模块，用于提取输入识别模型的数据包的特征矩阵；第一残差模块，用于对所述特征矩阵进行识别，得到输出矩阵；注意力模块，用于对输出矩阵进行注意力机制的处理，得到输出矩阵对应的注意力矩阵；第二残差模块，用于对所述注意力矩阵进行识别，得到最终的识别结果。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的网络流量的识别方法。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，所述计算机存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机存储介质所在设备执行上述中任意一项所述的网络流量的识别方法。

在本发明实施例中，采用获取待识别的目标网络流量的数据包；通过小波变换和直方图均衡化对数据包进行增强；将增强后的数据包输入识别模型，由识别模型输出目标网络流量的类型，其中，识别模型包括残差模块和注意力模块，识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及网络流量的所属类型的方式，通过对目标网络流量的数据包进行增强，对增强后的数据包通过带有残差模块和注意力模块的识别模型进行识别，确定目标网络流量所属的类型，达到了准确有效识别目标网络流量的类型的目的，从而实现了提高目标网络流量的识别准确率的技术效果，进而解决了相关技术中传统的网络流量识别方法，识别准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种网络流量的识别方法的流程图；

图2是根据本发明实施方式的加密流量识别框架的示意图；

图3是根据本发明实施方式的特征变换框架的示意图；

图4是根据本发明实施方式的残差模块计算过程的示意图；

图5是根据本发明实施方式的Softmax+CenterLoss计算过程的示意图；

图6是根据本发明实施方式的加密流量分类实验结果的示意图；

图7是根据本发明实施例的一种网络流量的识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种网络流量的识别方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例1的一种网络流量的识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待识别的目标网络流量的数据包；

步骤S104，通过小波变换和直方图均衡化对数据包进行增强；

步骤S106，将增强后的数据包输入识别模型，由识别模型输出目标网络流量的类型，其中，识别模型包括残差模块和注意力模块，识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及网络流量的所属类型。

通过上述步骤，采用获取待识别的目标网络流量的数据包；通过小波变换和直方图均衡化对数据包进行增强；将增强后的数据包输入识别模型，由识别模型输出目标网络流量的类型，其中，识别模型包括残差模块和注意力模块，识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及网络流量的所属类型的方式，通过对目标网络流量的数据包进行增强，对增强后的数据包通过带有残差模块和注意力模块的识别模型进行识别，确定目标网络流量所属的类型，达到了准确有效识别目标网络流量的类型的目的，从而实现了提高目标网络流量的识别准确率的技术效果，进而解决了相关技术中传统的网络流量识别方法，识别准确率较低的技术问题。

上述网络流量可以为难以直接读取的压缩流量，或者加密流量。可以直接读取的流量，在确定其流量类型时，可读取其内容，确定其所属的类型。但是无法直接读取的流量，想要确定其类型就比较困难了。因此，本实施例采用机器学习的识别模型，对网络流量进行识别。在识别模型中增加了残差模型和注意力模块。可以提高识别模型的准确率，提升识别模型的性能。具体如下：

在流量分类阶段，传统的深度包检测很难识别出加密数据包的内容。针对这种现象，目前普遍的改善手段是采用深度学习方法，用来自主学习数据包的长度，报文头部及有效载荷内容等。在传统的卷积神经网络(CNN)中，改进性能的常用方法是增加神经元数量并加深层数。然而，网络层数的增加导致训练过程中出现梯度爆炸与梯度弥散，损失值反而会增加，造成深层的卷积网络收敛效率下降。残差网络是一种拥有残差结构的神经网络，其核心思路是在一个浅层的CNN中加入一种短路机制，可以不增加计算量的前提下提升深层模型的性能。因此，本实施例采用残差网络替代 CNN以提升分类模型的性能。

在数据包中，报文头部装载着IP与端口地址的信息，而有效载荷是一些被加密的描述信息。两者有着相互关联的特征，进行识别操作时会合并这两种输入并共同进行训练。然而由于二维化预处理操作，加密流量序列在二维化后被折叠，原本相邻的像素被置于图像的两端。为了使分布在二维流量数据边缘的像素点之间产生联系，本发明通过一种自注意力机制来增强特征信息的长相关性。因此，为了进一步加强分类模型的表现，本实施例将注意力机制与改进的损失函数加入模型来提升分类的准确度与细粒度。注意力模块是一种通过非局部滤波操作帮助卷积神经网络获得长距离依赖的组件。由于在传统的卷积神经网络中，下层的网络节点只能通过上层的卷积核尺寸的节点计算求得。而如果想要得到更远范围的信息，只能在若干层后通过下采样的反向传播机制等手段对特征矩阵缩减尺寸。这种操作会使得网络变深，从而导致网络的运行效率变低。Non-Local的注意力机制可以使每一个节点在计算过程中与周边节点都产生联系，从而减少二维化操作对数据包序列造成的影响。

上述通过小波变换和直方图均衡化对数据包进行增强，可以降低数据包噪音信息权重，使得数据包信息更加准确，在通过识别模型识别时，也能够一定程度提高识别的准确率，消除噪音信息对识别结果的影响。上述小波变换可以为Daubechies离散小波变换，结合直方图均衡化方法对数据包的低频信号进行增强，具有优秀的正则性，可以将数据进行平滑的处理，可以加强数据包特征中包含的与识别类型有关的有效信息，以提高数据包的识别准确率。

可选的，获取待识别的目标网络流量的数据包包括：获取目标网络流量的多个数据包；对数据包进行筛选，得到有效数据包；对有效数据包进行欠采样，得到目标网络流量的数据包。

上述目标网络流量中包含的信息很多，也包括了一些无用的数据包，因此，在识别之前，可以将目标网络流量中的无用数据包进行筛除，得到有效数据包。具体的，对数据包进行筛选，得到有效数据包包括：根据筛选规则对数据包文件进行筛选，得到有效数据包，其中，筛选规则包括下列至少之一：筛除非预设协议的数据包，筛除重复数据包，筛除载荷为空的数据包。

在本实施例的一种实施方式中，该预设协议可以为发送目标网络流量的协议，该目标网络流量是通过TCP协议发出的，则筛除非预设协议的数据包，可以筛除目标网络流量中非TCP协议的数据包，以对TCP协议数据包进行更高效的处理。筛除重复数据包，可以通过对数据帧的以太网层TYPE字段和IP的protocol字段进行判断，找到IPv4下的TCP协议报文，对数据帧中可能存在的源地址、目的地址、源端口、目的端口、序列号、应答号等标志位进行识别，过滤掉在TCP重传阶段产生的重复TCP 流。4)由于流量采集于真实网络环境，部分数据包来自建立连接的三次握手阶段。筛除载荷为空的数据包，可以将排除SYN、FIN与ACK标志位为1且载荷部分为空的数据包。

在另一些实施例中，对有效数据包进行欠采样，得到目标网络流量的数据包之前，还包括：对有效数据包的头部文件中的非标识内容进行随机化处理。具体的，在对数据包的有效载荷进行转码，然后将保留的TCP下应用层数据组成序列，并与头部特征拼接组成新的字节序列。由于数据包的IP地址与MAC地址并不能区分来自不同协议或应用的流量，为了不对后续分类环境造成干扰，在筛选后的数据包报文头部中，可以将随机化处理IP地址与MAC字段，在不影响字段长度的前提下随机排列IP与MAC 字段的内部顺序。

上述对有效数据包进行欠采样，得到目标网络流量的数据包，是由于不同的待识别的目标网络流量存在大小流不均衡的情况，使用欠采样方法，随机减少一些样本数量较大的数据包类别的数量，使数据包数量达到相对均衡的状态，从而保证对数据量差别较大的不同目标流量保持识别准确率的稳定性。

可选的，获取目标网络流量的多个数据包包括：通过抓包工具根据目标数据包的特征提取目标网络流量的流量段，其中，流量段包括一个或多个目标数据包；对流量段进行分割，得到目标网络流量的多个数据包。

上述对流量进行分割，可以通过SplitCap分割器分割采集到的流量段。对多个流量段分别进行分割，可以得到目标流量的多个数据包。

可选的，通过小波变换和直方图均衡化对数据包进行增强包括：通过Daubechies离散小波变换函数对数据包进行分解，获取数据包的高频分量和低频分量；通过直方图均衡化对低频分量进行增强，得到增强后的低频分量；将低频分量和高频分量进行组合，进行逆分解，得到增强后的数据包。

具体的，通过Daubechies离散小波变换函数对数据包进行分解，获取数据包的高频分量和低频分量，将消失矩阶数设为1。此时平移长度的尺度函数的表达式满足

所示。尺度函数可以分离出数据包的低频信息。相对应的，数据包的高频噪音可以用小波函数来表示，

通过使用正弦波形对信号进行解析，能为二维图像去除噪音。小波分解的过程中，二维图像被看作一个矩阵，依次将尺度函数与小波函数作用于矩阵的行和列，分别计算出原图低频与高频的系数，由此分离出矩阵的趋势信号与噪音信号。伸缩尺度为α的小波函数分解完成后，得到去噪的图片的尺寸为原图的1/2，其计算过程如

所示。相较于其他信号增强手段，小波变换的非线性扩展有效地避免了由小波系数的编码量化带来的误差，在图像边缘保留了更多的细节特性。

在使用识别模型之前，需要对模型进行训练，可选的，将增强后的数据包输入识别模型之前，还包括：获取采样的不同类型的多个网络流量；将多个网络流量分为训练集和测试集；根据残差模块和注意力模块，构件初始识别模型；通过训练集对初始识别模型进行训练；通过测试集对训练完成的初始识别模型进行测试，测试通过的情况下，得到识别模型。

可选的，通过训练集对初始识别模型进行训练之前，还包括：获取网络流量的数据包，并通过小波变换和直方图均衡化对数据包进行增强；通过训练集对初始识别模型进行训练包括：将训练集中的网络流量输入识别模型，由识别模型的特征提取模块，提取预设尺寸的特征矩阵；将特征矩阵输入深度残差网络，确定输出矩阵，其中，深度残差网络包括残差模块和注意力模块；将输出矩阵输入分类器，得到分类结果；通过相似度算法计算分类结果与训练集的网络流量的类型的相似度；在相似度满足预设要求的情况下，确定初始识别模型训练完成。

在相似度满足预设要求的情况下，确定初始识别模型训练完成，可以通过相似度计算方法Centerloss进行确定。在本实施例中，通过Centerloss与Softmax确定损失函数，进而确定分类结果的损失值，判定初始识别模型是否训练完成，以增加类内数据包的聚合度。通过Softmax与CenterLoss结合来计算训练过程中的损失，该结构可以缩短类内数据之间的距离，避免出现类间间距大于类内间距的情况出现，可以应对分类细粒度不高的问题。在实际运算过程中，CenterLoss损失值的优化过程会与交叉熵损失的计算结合。首先Softmax将不同类别的数据大致分离开，随后CenterLoss将缩短同类数据间的距离。本实验将交叉熵损失与CenterLoss损失结合。

可选的，将特征矩阵输入深度残差网络，确定输出矩阵包括：将特征矩阵输入残差模块，由残差模块确定输出特征矩阵；将输出特征矩阵输入注意力模块，对输出特征矩阵进行多次点乘后，通过规范矩阵尺寸得到注意力映射单元；根据注意力映射单元和输出特征矩阵，确定注意力模块输出的注意力矩阵；将注意力矩阵重新输出残差模块，得到最终的输出矩阵。

需要说明的是，本实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

本实施方式提供一种针对加密流量进行特征变换与识别(Encrypted TrafficClassification based on Feature Transformation，ETC-FT)的方法，将传统的信号处理方法与基于深度学习的分类模型相结合。其中，特征变换阶段改进了传统的信号处理方法，通过增强数据包序列中不含噪音的序列，来降低噪音对分类结果的影响。在分类阶段，本实施方式主要使用了深度学习方法来进行分类，并融入计算机视觉领域的方法来提高分类的准确度。最后对损失函数进行改进，提升类内特征聚合度。

加密流量分类识别的技术方案如下所述：

S1：数据分割阶段，使用开源文件分割器对加密流量进行分割。

S2：数据预处理阶段，对数据包进行筛选，去除重要性较低的数据包与数据字段，构建对训练辅助效果更大的数据包序列。

S3：特征变换阶段，使用小波变换提取低频的数据包分量，并在该数据包分量上用直方图均衡化来增强数据包的趋势信息，降低噪音在输入特征中的权重。

S4：分类阶段，将特征变换后的数据分割成训练与测试数据集，使用深度学习算法构建识别模型，验证加密流量分类框架的性能。

本实施方式将就ETC-FT展开更详细的介绍。在上述步骤S1中，开启单一应用，并使用抓包工具对该应用产生的加密流量数据包进行采集，提取加密数据包的特征，包括数据包头部的数据链路层标志位、协议种类、ip地址与MAC地址(Media Access ControlAddress媒体存取控制位址)、加密应用层数据与长度。

与此同时，使用分割器SplitCap分割采集到的数据包，得到单个数据包文件，并将数据包文件以二进制的形式存储。

在上述步骤S2中，将筛除对提升分类准确度无益的数据包文件与单个数据包中的冗余信息。

1)根据识别传输协议类型，筛除采用非TCP协议的数据包。需要说明的是，本实施方式方法也适用于UDP等其他传输协议的数据包，由于互联网流量大部分为TCP 协议的数据包，因此，我们特别针对TCP协议数据包进行了更高效地处理。

2)对数据帧的以太网层TYPE字段和IP的protocol字段进行判断，找到IPv4下的TCP协议报文，对数据帧中可能存在的源地址、目的地址、源端口、目的端口、序列号、应答号等标志位进行识别，过滤掉在TCP重传阶段产生的重复TCP流。

3)在对数据包的有效载荷进行转码后，将保留的TCP下应用层数据组成序列，并与头部特征拼接组成新的字节序列。其次，由于数据包的IP地址与MAC地址并不能区分来自不同协议或应用的流量，为了不对后续分类环境造成干扰，在筛选后的数据包报文头部中，本模块将随机化处理IP地址与MAC字段，在不影响字段长度的前提下随机排列IP与MAC字段的内部顺序。

4)由于流量采集于真实网络环境，部分数据包来自建立连接的三次握手阶段。本实施方式将排除SYN、FIN与ACK标志位为1且载荷部分为空的数据包。

5)由于原数据集存在大小流不均衡的情况，本实施方式将使用欠采样方法，随机减少一些样本数量较大的数据包类别的数量，使数据包数量达到相对均衡的状态。

在步骤S3中，将采用小波变换来降低数据包噪音信息权重。小波变换是运用于图像处理的变换域滤波器，在信号处理以及图像降噪领域，小波变换方法因可以作用于不同维度的数据而被广泛使用。相较于传统的空间域滤波器，小波变换可以对局部空间进行收缩，在进行特征处理时可以有效地应对加密流量中的波动干扰及额外生成的噪音。然而，传统的小波变换方法在处理二维数据时会损失其边缘信息，为了实现不损失原有信息的特征变换方法，本实施方式将采用Daubechies离散小波变换与直方图均衡化方法对数据包的低频信号进行增强。该方法拥有优秀的正则性，可以将数据进行平滑的处理。该步骤可以用来加强数据包特征包含的有效信息，是本实施方式的核心创新之一。

1)Daubechies离散小波变换对数据包进行一次分解，依次将尺度函数与小波函数作用于矩阵的行和列，分离出原图低频分量与高频分量。

2)本实施方式使用直方图均衡化对低频分量的特征进行纹理增强，对像素点较多的灰度值进行加宽，对像素较少的灰度值进行合并，从而增强数据包低频分量的对比度。

在步骤S4中，本实施方式将采用更加深层的残差网络来改进传统方法中的浅层卷积神经网络。在流量分类阶段，传统的深度包检测很难识别出加密数据包的内容。针对这种现象，目前普遍的改善手段是采用深度学习方法，用来自主学习数据包的长度，报文头部及有效载荷内容等。在传统的卷积神经网络(CNN)中，改进性能的常用方法是增加神经元数量并加深层数。然而，网络层数的增加导致训练过程中出现梯度爆炸与梯度弥散，损失值反而会增加，造成深层的卷积网络收敛效率下降。残差网络是一种拥有残差结构的神经网络，其核心思路是在一个浅层的CNN中加入一种短路机制，可以不增加计算量的前提下提升深层模型的性能。因此，本实施方式采用残差网络替代CNN以提升分类模型的性能。

在数据包中，报文头部装载着IP与端口地址的信息，而有效载荷是一些被加密的描述信息。两者有着相互关联的特征，进行识别操作时会合并这两种输入并共同进行训练。然而由于二维化预处理操作，加密流量序列在二维化后被折叠，原本相邻的像素被置于图像的两端。为了使分布在二维流量数据边缘的像素点之间产生联系，本实施方式通过一种自注意力机制来增强特征信息的长相关性。因此，为了进一步加强分类模型的表现，本实施方式将注意力机制与改进的损失函数加入模型来提升分类的准确度与细粒度。该步骤是本实施方式的核心创新之二。

1)Non-Local注意力模块是一种通过非局部滤波操作帮助卷积神经网络获得长距离依赖的组件.由于在传统的卷积神经网络中，下层的网络节点只能通过上层的卷积核尺寸的节点计算求得。而如果想要得到更远范围的信息，只能在若干层后通过下采样的反向传播机制等手段对特征矩阵缩减尺寸。这种操作会使得网络变深，从而导致网络的运行效率变低。Non-Local的注意力机制可以使每一个节点在计算过程中与周边节点都产生联系，从而减少二维化操作对数据包序列造成的影响。

2)在实际运算过程中，数据包的特征矩阵x在输入non_local模块后会进入3个嵌入式空间，通过减半通道数来节省计算资源。

3)特征矩阵通过两次点乘计算后，通过重新规范矩阵尺寸操作得到一个规范化的注意力映射单元，注意力映射单元可以与原矩阵进行相关计算，得到特征矩阵中所有像素对某个像素点的权重和，可以理解为得到了一个点与周围所有点的关联性参数。

4)CenterLoss是一种相似度学习方法，可以将原始数据编码为特征向量并计算特征向量之间的相似度。CenterLoss可以在数据训练过程中进行均衡分布的仿真，用来解决分类器Softmax在分类时导致的类内间距过大的问题。在初始阶段，类中心点的位置是随机的在对特征分析时，CenterLoss加入了一种聚类奖惩单元，在识别不同的类y的同时维护更新一个类中心点。CenterLoss需要评估每个批次数据与类中心的距离，并实时修正参数，使同类的数据与其对应中心的距离缩小。

在实施时，本实施方式实验数据采用的是ISCX_VPN-2016开源数据集，该数据集包含6种常规加密流量与6种VPN加密流量。在本实施方式的实现中，主要是对流量分类的特征提取阶段与模型结构进行改良。图2是根据本发明实施方式的加密流量识别框架的示意图，如图2所示，本实施方式在加密流量识别的不同阶段所做的工作可以分为如下几个步骤：

S11：首先，本实施方式将网络流量的流文件分割成离散的数据包，将原始数据集中含有的部分Pcapng文件转化成Pcap格式并保留流层面的数据包，最后将得到的离散数据包标记为Chat、Email、File Transfer、P2P、Streaming和VoIP这6种协议类别。

S21：本实施方式对数据帧的以太网层TYPE字段和IP的protocol字段进行判断，找到IPV4下的TCP协议报文，对数据帧中可能存在的源地址、目的地址、源端口、目的端口、序列号、应答号等标志位进行识别，过滤掉在TCP重传阶段产生的重复 TCP流。以保证输入数据的唯一性。

S22：在对数据包的有效载荷字符进行16进制转码后，将保留的TCP下应用层数据组成序列，并与头部特征拼接组成新的字节序列。其次，由于数据包的IP地址与 MAC地址并不能区分来自不同协议或应用的流量，为了不对后续分类环境造成干扰，在筛选后的数据包报文头部中，本实施方式将随机化处理IP地址与MAC字段，在不影响字段长度的前提下随机排列IP与MAC字段的内部顺序。

S23：由于该数据集采集于真实网络，当中普遍存在空包的现象，尤其是在建立连接的三次握手阶段。本实施方式将排除SYN、FIN与ACK标志位为1且载荷部分为空的数据包。

S24：由于原数据集存在大小流不均衡的情况，本实施方式将使用欠采样方法，随机减少一些样本数量较大的数据包类别的数量。对于一些样本数量超过1000K的类别，只采用其中1000K的样本，使数据包数量达到相对均衡的状态。

S31：随着消失矩的增加，小波函数的曲率会变高，频率会变快，对图像造成过度压缩，从而损失低频信号的信息。所以本实施方式将消失矩阶数设为1。此时对于原数据包序列上数值大小为x的点，其平移τ长度的尺度函数ψ的表达式满足公式(1) 所示。

尺度函数可以分离出数据包的低频信息。相对应的，数据包的高频噪音可以用小波函数

来表示，如公式(2)。

通过使用正弦波形对信号进行解析，能为二维图像去除噪音。小波分解的过程中，二维图像被看作一个矩阵，依次将尺度函数与小波函数作用于矩阵的行和列，分别计算出原图低频与高频的系数，由此分离出矩阵的趋势信号与噪音信号。伸缩尺度为α的小波函数分解完成后，得到去噪的图片的尺寸为原图的1/2，其计算过程如公式3所示。相较于其他信号增强手段，小波变换的非线性扩展有效地避免了由小波系数的编码量化带来的误差，在图像边缘保留了更多的细节特性。

其中x是二维化后数据包序列上的数值大小，α是小波函数的伸缩尺度，τ是小波函数的平移长度，f是小波函数，ψ是尺度函数，F是加入伸缩尺度和平移长度后的小波生成图像。

S32：在去噪后，本实施方式希望能够增强已经去噪部分的纹理。经过在数据包图像上应用Daubechies小波分解，得到数据包低频分量。本实施方式使用直方图均衡化对该部分特征进行纹理增强。直方图均衡化是一种直观高效的空间滤波器，其基本原理是对图像中像素较多的灰度值进行加宽，对像素较少的灰度值进行合并，从而增强数据包低频分量的对比度。首先需要统计数据包矩阵packet中各个灰度出现的概率P (公式4)，随后求出数据包概率分布p_packet对应的累计归一化直方图(公式5)。

其中L是最大灰度数255，N是数据包的长度，k是单个像素的灰度级，n_k是灰度级为k的像素总数，cdf_x是累计归一化直方图，i是作为cdf_x输入的数据包分布。其次，该步骤在数据包低频分量上使用变换函数T进行转化，如公式6。

其中s_i是经转换后的数据包低频分量，k_max和k_min分别代表数据包中的最大和最小像素值。

达到特征变换的目的后，为了使图像的尺寸不变，需要将增强后的低频信号与高频噪音信号进行重构。小波的重构即小波分解的逆运算，将上述操作依次反向执行。由于对低频信号做了直方图均衡化处理，最终得到了趋势信号区分度增强的输入。

在数据包中，报文头部装载着IP与端口地址的信息，而有效载荷是一些被加密的描述信息。两者有着相互关联的特征，进行识别操作时会合并这两种输入并共同进行训练。然而由于二维化预处理操作，加密流量序列在二维化后被折叠，原本相邻的像素被置于图像的两端。为了使分布在二维流量数据边缘的像素点之间产生联系。本实施方式通过一种自注意力机制来增强特征信息的长相关性。

S41：如图2所示，识别模型的整个网络结构由三小部分组成。第一部分是特征提取模块，图3是根据本发明实施方式的特征变换框架的示意图，如图3所示，特征提取模块由卷积层、Relu激活函数与下采样层组成。在特征提取模块，本实施方式用32 个5*5的大卷积核对数据包进行初步的信息提取，步长为1。大尺寸卷积核可以获得更好的感受野，但是会影响训练速度，所以特征提取模块中只设置了一层卷积。特征提取模块会向残差模块输出28*28的特征矩阵。

第二部分是残差单元，图4是根据本发明实施方式的残差模块计算过程的示意图，如图4所示，本实施方式以Resnet-18为思路来源设计了深度残差模块，可以起到减缓网络梯度消失的作用，进一步提升识别模型的准确度。在深度残差模块，本实施方式设置了2个相似的残差单元Res1和Res2，其输出通道数分别为32与64的特征矩阵。每个子残差单元中有2个并行运算的卷积子结构，其中第一个子残差单元中进行尺寸分别为3、3、1的三次卷积，并用残差理念将一个额外的卷积的结果相加。第二个子残差单元直接将3、3、1三层卷积与上一层的输出相加。残差单元最后输出32个14*14 的特征矩阵后，每个特征矩阵在经过平均池化后尺寸都被压缩为7*7。特征像素经过压平后进入两个连续的全连接层，第1个1024的全连接层进一步扩大通道数，第二个全连接层将取决于分类的类别数。模型中的每层卷积后都采用了same padding且会做批规范化处理来抑制梯度消失。

S42：第三部分是注意力模块，Non-Local注意力模块是一种通过非局部滤波操作帮助卷积神经网络获得长距离依赖的组件。由于在传统的卷积神经网络中，下层的网络节点只能通过上层的卷积核尺寸的节点计算求得。而如果想要得到更远范围的信息，只能在若干层后通过下采样的反向传播机制等手段对特征矩阵缩减尺寸。这种操作会使得网络变深，从而导致网络的运行效率变低。Non-Local的注意力机制可以使每一个节点在计算过程中与周边节点都产生联系，表达方式f主要有3种。分别是Gaussian (如公式7)、EmbeddingGaussian(如公式8)和Dot Product(如公式9)。

其中，θ(X_i)和

是两种不同的嵌入式空间表达，X_i和X_j是输入数据中不同的两点,T代表矩阵的转置。通过选定函数f计算两点之间的相关性以进行匹配，并结合输入变换函数g生成下一层对应节点Y_i。其计算方法可以用公式10与公式11表达，其中C(x)是归一化函数，可以确保这一转变前后的一致性。

本实施方式在第一个残差单元后加入了Non-Local模块进行特征矩阵之间的点乘，以此在长距离的像素点间建立依赖关系。在实际运算过程中，数据包的特征矩阵在输入non_local模块后会进入3个嵌入式空间，通过减半通道数来节省计算资源。随后特征矩阵通过两次点乘计算后，通过重新规范矩阵尺寸操作得到一个规范化的注意力映射单元，注意力映射单元可以与原矩阵进行相关计算，得到特征矩阵中所有像素对某个像素点的权重和，可以理解为得到了一个点与周围所有点的关联性参数。最终输出一个通道数不变的28*28的矩阵。由于Non-Local注意力机制的输入与输出尺度相同，可以以残差的形式插入原有的网络中，与原有网络层并行地计算。

S43：出于提升分类细粒度的考虑，本实施方式在模型的结尾引入了Centerloss与Softmax以增加类内数据包的聚合度。CenterLoss是一种相似度学习方法，可以将原始数据编码为特征向量并计算特征向量之间的相似度。CenterLoss可以在数据训练过程中进行均衡分布的仿真，用来解决Softmax在分类时导致的类内间距过大的问题。在初始阶段，类中心点的位置是随机的在对特征分析时，CenterLoss加入了一种聚类奖惩单元，在识别不同的类y的同时维护更新一个类中心点。CenterLoss需要评估每个批次数据与类中心的距离，并实时修正参数，使同类的数据与其对应中心的的距离缩小。

图5是根据本发明实施方式的Softmax+CenterLoss计算过程的示意图，如图5所示，本实施方式将Softmax与CenterLoss结合来计算训练过程中的损失，该结构可以缩短类内数据之间的距离，避免出现类间间距大于类内间距的情况出现，可以应对分类细粒度不高的问题。在实际运算过程中，CenterLoss损失值的优化过程会与交叉熵损失的计算结合。首先Softmax将不同类别的数据大致分离开，随后CenterLoss将缩短同类数据间的距离。本实验将交叉熵损失(见公式12)与CenterLoss损失结合。实验中损失值的计算过程如公式13所示。

其中，Loss_{cross_entropy}表示交叉熵损失值，m是批尺寸，c是类中心点坐标，x 是Res2输出的特征矩阵，y是数据类别，λ是CenterLoss损失所占的权重，实验中设置为0.005。Loss_{cross_entropy}的具体原理见公式12。由于聚类中心点只和当前数据类别的样本有关，CenterLoss的损失值需要通过同类数据样本与聚类中心点的距离均值来进行优化，其中优化梯度见公式14。由于类中心点的初始位置随机，需要在训练过程中更新类中心点的实时位置，如公式15和16所示。

其中，δ是条件公式，当括号中的条件满足时，即c_j与y_i的类别相同，此时类中心点才会更新。

S44：本实施方式在VPN加密数据集上展开6分类实验，对比了1D-CNN、2D-CNN 与ETC-FT在该数据集上的分类准确度。图6是根据本发明实施方式的加密流量分类实验结果的示意图，如图6所示，从实验结果可以看出，在训练到一定轮数后，二维输入的分类方法的分类准确度更高，意味着CNN的卷积机制更加适合在二维输入上进行识别。ETC-FT的分类性能相对于传统的加密流量分类方法拥有显著的提升，在 4000轮训练后达到的准确度为95.6％。本实施方式沿用了深度学习分类的思路，结合特征变换加强流量特征的提取，并在分类阶段优化深度学习模型，形成一套完整的框架。在协议层面的加密流量分类任务中具有良好的性能。

图7是根据本发明实施例的一种网络流量的识别装置的示意图，如图7所示，根据本发明实施例的另一方面，还提供了一种网络流量识别装置，包括：获取模块72，预处理模块74和识别模块76，下面对该装置进行详细说明。

获取模块72，用于获取待识别的目标网络流量的数据包；预处理模块74，与上述获取模块72相连，用于通过小波变换和直方图均衡化对数据包进行增强；识别模块 76，与上述预处理模块74相连，用于将增强后的数据包输入识别模型，由识别模型输出目标网络流量的类型，其中，识别模型包括残差模块和注意力模块，识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及网络流量的所属类型。

通过上述装置，采用获取模块72获取待识别的目标网络流量的数据包；预处理模块74通过小波变换和直方图均衡化对数据包进行增强；识别模块76将增强后的数据包输入识别模型，由识别模型输出目标网络流量的类型，其中，识别模型包括残差模块和注意力模块，识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及网络流量的所属类型的方式，通过对目标网络流量的数据包进行增强，对增强后的数据包通过带有残差模块和注意力模块的识别模型进行识别，确定目标网络流量所属的类型，达到了准确有效识别目标网络流量的类型的目的，从而实现了提高目标网络流量的识别准确率的技术效果，进而解决了相关技术中传统的网络流量识别方法，识别准确率较低的技术问题。

可选的，识别模型包括：特征提取模块，用于提取输入识别模型的数据包的特征矩阵；第一残差模块，用于对特征矩阵进行识别，得到输出矩阵；注意力模块，用于对输出矩阵进行注意力机制的处理，得到输出矩阵对应的注意力矩阵；第二残差模块，用于对注意力矩阵进行识别，得到最终的识别结果。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的网络流量的识别方法。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质包括存储的程序，其中，在程序运行时控制计算机存储介质所在设备执行上述中任意一项的网络流量的识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种网络流量识别方法，其特征在于，包括：

获取待识别的目标网络流量的数据包；

通过小波变换和直方图均衡化对所述数据包进行增强；

将增强后的数据包输入识别模型，由所述识别模型输出所述目标网络流量的类型，其中，所述识别模型包括残差模块和注意力模块，所述识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及所述网络流量的所属类型。

2.根据权利要求1所述的方法，其特征在于，获取待识别的目标网络流量的数据包包括：

获取所述目标网络流量的多个数据包；

对所述数据包进行筛选，得到有效数据包；

对所述有效数据包进行欠采样，得到所述目标网络流量的数据包。

3.根据权利要求2所述的方法，其特征在于，获取所述目标网络流量的多个数据包包括：

通过抓包工具根据目标数据包的特征提取目标网络流量的流量段，其中，所述流量段包括一个或多个所述目标数据包；

对所述流量段进行分割，得到所述目标网络流量的多个数据包。

4.根据权利要求2所述的方法，其特征在于，对所述数据包进行筛选，得到有效数据包包括：

根据筛选规则对所述数据包文件进行筛选，得到有效数据包，其中，所述筛选规则包括下列至少之一：

筛除非预设协议的数据包，筛除重复数据包，筛除载荷为空的数据包。

5.根据权利要求1所述的方法，其特征在于，通过小波变换和直方图均衡化对所述数据包进行增强包括：

通过Daubechies离散小波变换函数对所述数据包进行分解，获取所述数据包的高频分量和低频分量；

通过直方图均衡化对低频分量进行增强，得到增强后的低频分量；

将所述低频分量和高频分量进行组合，进行逆分解，得到增强后的数据包。

6.根据权利要求1所述的方法，其特征在于，将所述增强后的数据包输入识别模型之前，还包括：

获取采样的不同类型的多个网络流量；

将多个网络流量分为训练集和测试集；

根据所述残差模块和注意力模块，构件初始识别模型；

通过所述训练集对所述初始识别模型进行训练；

通过测试集对训练完成的初始识别模型进行测试，测试通过的情况下，得到所述识别模型。

7.根据权利要求6所述的方法，其特征在于，通过所述训练集对所述初始识别模型进行训练之前，还包括：

获取网络流量的数据包，并通过小波变换和直方图均衡化对所述数据包进行增强；

通过所述训练集对所述初始识别模型进行训练包括：

将训练集中的网络流量输入识别模型，由识别模型的特征提取模块，提取预设尺寸的特征矩阵；

将所述特征矩阵输入深度残差网络，确定输出矩阵，其中，所述深度残差网络包括残差模块和注意力模块；

将所述输出矩阵输入分类器，得到分类结果；

通过相似度算法计算所述分类结果与所述训练集的网络流量的类型的相似度；

在所述相似度满足预设要求的情况下，确定所述初始识别模型训练完成。

8.根据权利要求7所述的方法，其特征在于，将所述特征矩阵输入深度残差网络，确定输出矩阵包括：

将所述特征矩阵输入残差模块，由所述残差模块确定输出特征矩阵；

将所述输出特征矩阵输入注意力模块，对所述输出特征矩阵进行多次点乘后，通过规范矩阵尺寸得到注意力映射单元；

根据所述注意力映射单元和所述输出特征矩阵，确定所述注意力模块输出的注意力矩阵；

将所述注意力矩阵重新输出残差模块，得到最终的输出矩阵。

9.一种网络流量的识别装置，其特征在于，包括：

获取模块，用于获取待识别的目标网络流量的数据包；

预处理模块，用于通过小波变换和直方图均衡化对所述数据包进行增强；

识别模块，用于将增强后的数据包输入识别模型，由所述识别模型输出所述目标网络流量的类型，其中，所述识别模型包括残差模块和注意力模块，所述识别模型由多组训练数据训练而成，每组训练数据包括输入的网络流量的数据包，以及所述网络流量的所属类型。

10.根据权利要求9所述的装置，其特征在于，所述识别模型包括：

特征提取模块，用于提取输入识别模型的数据包的特征矩阵；

第一残差模块，用于对所述特征矩阵进行识别，得到输出矩阵；

注意力模块，用于对输出矩阵进行注意力机制的处理，得到输出矩阵对应的注意力矩阵；

第二残差模块，用于对所述注意力矩阵进行识别，得到最终的识别结果。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的网络流量的识别方法。