CN114386079B

CN114386079B - 基于对比学习的加密流量分类方法及装置

Info

Publication number: CN114386079B
Application number: CN202210289814.6A
Authority: CN
Inventors: 赵子一; 安常青; 张程远; 王会; 喻涛; 王继龙
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-12-06
Anticipated expiration: 2042-03-23
Also published as: CN114386079A

Abstract

本发明提出一种基于对比学习的加密流量分类方法及装置，其中方法包括，获取加密流量数据，并对加密流量数据进行预处理，得到预处理后的数字序列；对数字序列进行数据增强，得到数字序列对应的增强样本；基于对比学习方法设计编码器，利用训练好的编码器对所述增强样本进行特征提取得到增强样本对应的表征向量；将表征向量输入分类器中进行分类，得到表征向量预测的最大概率以及最大概率对应的标签；通过表征向量预测的最大概率以及最大概率对应的标签对加密流量数据进行分类。本申请保证了表征向量包含更多的关键特征更少的低价值特征，使得表征向量更加具有鲁棒性，更好地指导分类器的训练，从而得到更好的分类效果。

Description

基于对比学习的加密流量分类方法及装置

技术领域

本申请涉及计算机网络管理和网络安全技术领域，尤其涉及基于对比学习的加密流量分类。

背景技术

流量分类的目的是将流量按照某种粒度的标签进行分类。高效准确的流量分类技术对于网络管理和恶意软件跟踪都是很有必要的。最开始，有两种方法可以解决这个问题：第一种是基于端口号的匹配。可惜的是，随着动态端口分配技术的出现，这种方法的准确率大幅下降。第二种是深度包检测（DPI）技术。这种技术主要是通过数据包内容的关键字或者模式串匹配来实现流量分类的。但是随着网络技术的发展，尤其是以HTTPS为代表的流量加密技术的出现和普及，加密流量开始成为了网络流量的主要成分，DPI技术也开始失效。因为已经加密后的数据包是很难提取出具有代表性的关键字和模式串的。

最近几年，一些研究者尝试利用机器学习方法来解决加密流量分类的问题。虽然这些方法都很有效，但是这些方法都十分依赖特征工程。特征工程需要耗费大量的人力和时间。为了削弱对特征工程的依赖，研究者开始将目光投向深度学习。深度学习可以自动提取特征，然而这种特征提取是没有明确控制的。所谓“没有明确控制”在这里指的是这些模型虽然可以提取特征，但是并没有对特征进行进一步的筛选和过滤，导致可能有低价值的特征被保留了下来。这些低价值的特征可能会误导分类器的训练进而对分类器的最终效果产生负面影响。

因此，有必要提出一种方法，该方法在提取特征的同时也会对特征进行过滤和筛选，保证留下的特征更多是能够反映数据本质的特征，从而加快分类器的训练并提升分类效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于对比学习的加密流量分类方法，用于解决传统的深度学习方法在对加密流量数据做特征提取时无法对特征进行筛选和过滤，从而降低表征向量的鲁棒性，并进一步影响分类器的学习效率和分类效果的问题。

本发明的第二个目的在于提出一种基于对比学习的加密流量分类装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于对比学习的加密流量分类方法，包括：获取加密流量数据，并对所述加密流量数据进行预处理，得到预处理后的数字序列；对所述数字序列进行数据增强，得到所述数字序列对应的增强样本；基于对比学习方法设计编码器，利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量；将所述表征向量输入训练好的分类器中进行分类，得到所述表征向量预测的最大概率以及最大概率对应的标签；通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类。

另外，根据本发明上述实施例的基于对比学习的加密流量分类方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，其特征在于，所述获取加密流量数据，并对所述加密流量数据进行预处理，得到预处理后的数字序列，包括以下步骤：

将所述加密流量数据按照数据流粒度进行分割；

提取加密流量数据流的第一个数据包中的前784个字节，不足的部分用ASCII码0填充，超出的部分直接丢弃；

将每个字节映射成ASCII码数字，然后进行归一化操作，得到数字序列并保存。

进一步地，在本发明的一个实施例中，其特征在于，所述对所述数字序列进行数据增强，得到所述数字序列对应的增强样本，包括以下步骤：

对所述数字序列复制多份；

对每一条数字序列都随机选取一个位置，将该位置及其之后连续的若干个数字用0进行替换，得到增强样本。

进一步地，在本发明的一个实施例中，其特征在于，基于对比学习方法设计编码器，利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量，包括以下步骤：

从所述增强样本中提取表征向量；

用投射器对表征向量进行进一步的提取和压缩，将结果归一化；

用归一化的结果计算对比损失函数；

最小化对比损失函数，对表征向量的提取进行优化，保证表征向量包含更多的有价值特征并过滤掉低价值特征。

进一步地，在本发明的一个实施例中，其特征在于，所述用归一化的结果计算对比损失函数，表示为：

，

其中，

表示由同一个训练批次的数据增强样本构成的集合，

表示

中的某个数据增强样本，

表示增强样本

的损失函数；

其中，

可表示为：

，

其中，

表示与

源自同一个数据的其他数据增强样本构成的集合，

表示数据增强样本

与

之间的余弦相似度，

用于控制整个公式对余弦相似度的敏感程度；

其中，余弦相似度可进一步表示为：

，

其中，

和

分别表示

和

对应的投射器输出。

进一步地，在本发明的一个实施例中，其特征在于，其特征在于，在所述将所述表征向量输入分类器中进行学习之前，还包括：

将训练好的编码器与分类器进行拼接；

以所述数字序列作为所述编码器的输入，得到所述表征向量；

所述表征向量送入分类器进行进一步学习，得到分类器对其预测的最大概率以及最大概率对应的标签。

进一步地，在本发明的一个实施例中，其特征在于，还包括：

最小化交叉熵损失函数，对所述分类器的学习进行优化。

为达上述目的，本发明第二方面实施例提出了一种基于对比学习的加密流量分类装置，其特征在于，包括：

预处理模块，用于对加密流量数据进行预处理，得到数字序列并保存；

数据增强模块，用于对所述数字序列进行数据增强，得到增强样本；

编码模块，用于基于对比学习方法设计编码器，利用训练好的编码器对所述增强样本进行特征提取得到表征向量；

训练模块，用于将所述表征向量输入分类器中进行学习，得到所述表征向量预测的最大概率以及最大概率对应的标签；

分类模块，用于通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的基于对比学习的加密流量分类方法。

为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的基于对比学习的加密流量分类方法。

本发明实施例提出的基于对比学习的加密流量分类方法及装置，解决了传统模型在对数据进行特征提取时“没有明确控制”即不会对特征进行进一步的筛选和过滤，导致可能有低价值的特征被保留了下来，进而误导分类器的训练进而对分类器的最终效果产生负面影响的问题。高效准确的加密流量分类技术对于网络管理和恶意软件跟踪都具有重要意义。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于对比学习的加密流量分类方法的流程示意图。

图2为本发明实施例所提供的一种基于对比学习的加密流量分类装置的流程示意图。

图3为本发明实施例所提供的基于对比学习的加密流量分类方法对数据的特征提取可视化示意图。

图4-a为本发明实施例所提供的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛情况在TFB数据集上的结果示意图。

图4-b为本发明实施例所提供的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛情况在TFM数据集上的结果示意图。

图4-c为本发明实施例所提供的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛情况在THC数据集上的结果示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于对比学习的加密流量分类方法和装置。

如图1所示，该基于对比学习的加密流量分类方法包括以下步骤：

S1:获取加密流量数据，并对加密流量数据进行预处理，得到预处理后的数字序列；

S2:对数字序列进行数据增强，得到数字序列对应的增强样本；

S3:基于对比学习方法设计编码器，利用训练好的编码器对增强样本进行特征提取得到增强样本对应的表征向量；

S4:将表征向量输入训练好的分类器中进行学习，得到表征向量预测的最大概率以及最大概率对应的标签；

S5:通过表征向量预测的最大概率以及最大概率对应的标签对加密流量数据进行分类。

进一步地，在本发明的一个实施例中，其特征在于，获取加密流量数据，并对加密流量数据进行预处理，得到预处理后的数字序列，包括以下步骤：

将加密流量数据按照数据流粒度进行分割；

进一步地，在本发明的一个实施例中，其特征在于，对数字序列进行数据增强，得到数字序列对应的增强样本，包括以下步骤：

对所述数字序列复制多份；

进一步地，在本发明的一个实施例中，其特征在于，基于对比学习方法设计编码器，利用训练好的编码器对增强样本进行特征提取得到增强样本对应的表征向量，包括以下步骤：

从所述增强样本中提取表征向量；

用归一化的结果计算对比损失函数；

进一步地，在本发明的一个实施例中，其特征在于，用归一化的结果计算对比损失函数，表示为：

，

其中，

表示由同一个训练批次的数据增强样本构成的集合，

表示

中的某个数据增强样本，

表示增强样本

的损失函数；

其中，

可表示为：

，

其中，

表示与

源自同一个数据的其他数据增强样本构成的集合，

表示数据增强样本

与

之间的余弦相似度，

用于控制整个公式对余弦相似度的敏感程度；

其中，余弦相似度可进一步表示为：

，

其中，

和

分别表示

和

对应的投射器输出。

进一步地，在本发明的一个实施例中，其特征在于，其特征在于，在将表征向量输入分类器中进行学习之前，还包括：

将训练好的编码器与分类器进行拼接；

以数字序列作为所述编码器的输入，得到表征向量；

表征向量送入分类器进行进一步学习，得到分类器对其预测的最大概率以及最大概率对应的标签。

最小化交叉熵损失函数，对分类器的学习进行优化。

图3为本申请实施例的基于对比学习的加密流量分类方法对数据的特征提取可视化。

图3的可视化结果是从编码器的第一层提取出来的，由于第一层的神经网络是直接与输入数据接触的，因此从该可视化结果中可以发现编码器对数据不同位置的关注程度。编码器对某区域关注程度越大，该区域对应的颜色越深，反之则越浅。

如图3所示，以三百条同类别的数据作为输入，横坐标表示每条数据的字节位置，纵坐标表示每条数据。基于对比学习的加密流量分类方法对加密流量数据的某一些区域关注更多，但是对其他的位置几乎忽略。这说明该方法在提取特征时的确会进行筛选，只从关注度高的位置提取特征，而其他位置的特征则被其视为低价值特征。

图4-a、图4-b、图4-c分别为本申请实施例的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛在TFB、TFM、THC数据集上的结果情况。

其中，CL-ETC代表基于对比学习的加密流量分类方法，AE-ETC代表基于自动编码器的加密流量分类方法。两种方法唯一的区别就是编码器的训练方式不同。另外，实验采用的数据集共有三个，其类别与规模如表1所示。

表1

如图4-a、图4-b、图4-c所示，基于对比学习的加密流量分类方法可以令分类器在训练时，损失函数的起点、损失函数的收敛速度以及损失函数达到的最佳状态都是要优于基于自动编码器的加密流量分类方法的。这说明基于对比学习的加密流量分类方法确实可以更好地指导分类器的训练，使其可以快速地达到更好地收敛状态。

另外，两种训练方法对三个数据集的分类效果如表2所示。

表2

其中，精确率指所有样本中被正确预测的比例，准确率指被预测为各个类别的样本中被正确预测的比例的加权平均数，召回率指被各个类别中被正确预测的样本的比例的加权平均数，F1-值指准确率和召回率的调和平均数。

本发明实施例提出的基于对比学习的加密流量分类方法，在训练编码器的时候，需要做数据增强，增强后的数据送给编码器训练，训练分类器的时候就不用数据增强了，数据先经过编码器，然后编码器的输出也就是表征向量再送入分类器。解决了传统模型在对数据进行特征提取时“没有明确控制”即不会对特征进行进一步的筛选和过滤，导致可能有低价值的特征被保留了下来，进而误导分类器的训练进而对分类器的最终效果产生负面影响的问题。高效准确的加密流量分类技术对于网络管理和恶意软件跟踪都具有重要意义。

为了实现上述实施例，本发明还提出一种基于对比学习的加密流量分类装置。

图2为本发明实施例提供的一种基于对比学习的加密流量分类装置的结构示意图。

如图2所示，该基于对比学习的加密流量分类装置包括：预处理模块10，数据增强模块20，编码模块30，训练模块40，分类模块50，其中，预处理模块，用于对加密流量数据进行预处理，得到数字序列并保存；数据增强模块，用于对所述数字序列进行数据增强，得到增强样本；编码模块，用于基于对比学习方法设计编码器，利用训练好的编码器对所述增强样本进行特征提取得到表征向量；训练模块，用于将所述表征向量送入分类器中进行学习，得到所述表征向量预测的最大概率以及最大概率对应的标签；分类模块，用于通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类。该装置解决了传统模型在对数据进行特征提取时“没有明确控制”即不会对特征进行进一步的筛选和过滤，导致可能有低价值的特征被保留了下来，进而误导分类器的训练进而对分类器的最终效果产生负面影响的问题。高效准确的加密流量分类技术对于网络管理和恶意软件跟踪都具有重要意义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。