CN114386079B - 基于对比学习的加密流量分类方法及装置 - Google Patents

基于对比学习的加密流量分类方法及装置 Download PDF

Info

Publication number
CN114386079B
CN114386079B CN202210289814.6A CN202210289814A CN114386079B CN 114386079 B CN114386079 B CN 114386079B CN 202210289814 A CN202210289814 A CN 202210289814A CN 114386079 B CN114386079 B CN 114386079B
Authority
CN
China
Prior art keywords
data
enhanced
learning
maximum probability
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210289814.6A
Other languages
English (en)
Other versions
CN114386079A (zh
Inventor
赵子一
安常青
张程远
王会
喻涛
王继龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210289814.6A priority Critical patent/CN114386079B/zh
Publication of CN114386079A publication Critical patent/CN114386079A/zh
Application granted granted Critical
Publication of CN114386079B publication Critical patent/CN114386079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于对比学习的加密流量分类方法及装置,其中方法包括,获取加密流量数据,并对加密流量数据进行预处理,得到预处理后的数字序列;对数字序列进行数据增强,得到数字序列对应的增强样本;基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到增强样本对应的表征向量;将表征向量输入分类器中进行分类,得到表征向量预测的最大概率以及最大概率对应的标签;通过表征向量预测的最大概率以及最大概率对应的标签对加密流量数据进行分类。本申请保证了表征向量包含更多的关键特征更少的低价值特征,使得表征向量更加具有鲁棒性,更好地指导分类器的训练,从而得到更好的分类效果。

Description

基于对比学习的加密流量分类方法及装置
技术领域
本申请涉及计算机网络管理和网络安全技术领域,尤其涉及基于对比学习的加密流量分类。
背景技术
流量分类的目的是将流量按照某种粒度的标签进行分类。高效准确的流量分类技术对于网络管理和恶意软件跟踪都是很有必要的。最开始,有两种方法可以解决这个问题:第一种是基于端口号的匹配。可惜的是,随着动态端口分配技术的出现,这种方法的准确率大幅下降。第二种是深度包检测(DPI)技术。这种技术主要是通过数据包内容的关键字或者模式串匹配来实现流量分类的。但是随着网络技术的发展,尤其是以HTTPS为代表的流量加密技术的出现和普及,加密流量开始成为了网络流量的主要成分,DPI技术也开始失效。因为已经加密后的数据包是很难提取出具有代表性的关键字和模式串的。
最近几年,一些研究者尝试利用机器学习方法来解决加密流量分类的问题。虽然这些方法都很有效,但是这些方法都十分依赖特征工程。特征工程需要耗费大量的人力和时间。为了削弱对特征工程的依赖,研究者开始将目光投向深度学习。深度学习可以自动提取特征,然而这种特征提取是没有明确控制的。所谓“没有明确控制”在这里指的是这些模型虽然可以提取特征,但是并没有对特征进行进一步的筛选和过滤,导致可能有低价值的特征被保留了下来。这些低价值的特征可能会误导分类器的训练进而对分类器的最终效果产生负面影响。
因此,有必要提出一种方法,该方法在提取特征的同时也会对特征进行过滤和筛选,保证留下的特征更多是能够反映数据本质的特征,从而加快分类器的训练并提升分类效果。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于对比学习的加密流量分类方法,用于解决传统的深度学习方法在对加密流量数据做特征提取时无法对特征进行筛选和过滤,从而降低表征向量的鲁棒性,并进一步影响分类器的学习效率和分类效果的问题。
本发明的第二个目的在于提出一种基于对比学习的加密流量分类装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于对比学习的加密流量分类方法,包括:获取加密流量数据,并对所述加密流量数据进行预处理,得到预处理后的数字序列;对所述数字序列进行数据增强,得到所述数字序列对应的增强样本;基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量;将所述表征向量输入训练好的分类器中进行分类,得到所述表征向量预测的最大概率以及最大概率对应的标签;通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类。
另外,根据本发明上述实施例的基于对比学习的加密流量分类方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,其特征在于,所述获取加密流量数据,并对所述加密流量数据进行预处理,得到预处理后的数字序列,包括以下步骤:
将所述加密流量数据按照数据流粒度进行分割;
提取加密流量数据流的第一个数据包中的前784个字节,不足的部分用ASCII码0填充,超出的部分直接丢弃;
将每个字节映射成ASCII码数字,然后进行归一化操作,得到数字序列并保存。
进一步地,在本发明的一个实施例中,其特征在于,所述对所述数字序列进行数据增强,得到所述数字序列对应的增强样本,包括以下步骤:
对所述数字序列复制多份;
对每一条数字序列都随机选取一个位置,将该位置及其之后连续的若干个数字用0进行替换,得到增强样本。
进一步地,在本发明的一个实施例中,其特征在于,基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量,包括以下步骤:
从所述增强样本中提取表征向量;
用投射器对表征向量进行进一步的提取和压缩,将结果归一化;
用归一化的结果计算对比损失函数;
最小化对比损失函数,对表征向量的提取进行优化,保证表征向量包含更多的有价值特征并过滤掉低价值特征。
进一步地,在本发明的一个实施例中,其特征在于,所述用归一化的结果计算对比损失函数,表示为:
Figure DEST_PATH_IMAGE001
其中,
Figure 671461DEST_PATH_IMAGE002
表示由同一个训练批次的数据增强样本构成的集合,
Figure DEST_PATH_IMAGE003
表示
Figure 913348DEST_PATH_IMAGE004
中的某个数据增强样本,
Figure DEST_PATH_IMAGE005
表示增强样本
Figure 675768DEST_PATH_IMAGE006
的损失函数;
其中,
Figure 654088DEST_PATH_IMAGE005
可表示为:
Figure DEST_PATH_IMAGE007
其中,
Figure 109341DEST_PATH_IMAGE008
表示与
Figure 71480DEST_PATH_IMAGE006
源自同一个数据的其他数据增强样本构成的集合,
Figure DEST_PATH_IMAGE009
表示数据增强样本
Figure 699908DEST_PATH_IMAGE010
Figure 735997DEST_PATH_IMAGE011
之间的余弦相似度,
Figure DEST_PATH_IMAGE012
用于控制整个公式对余弦相似度的敏感程度;
其中,余弦相似度可进一步表示为:
Figure 925932DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
Figure 640947DEST_PATH_IMAGE015
分别表示
Figure 745169DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE016
对应的投射器输出。
进一步地,在本发明的一个实施例中,其特征在于,其特征在于,在所述将所述表征向量输入分类器中进行学习之前,还包括:
将训练好的编码器与分类器进行拼接;
以所述数字序列作为所述编码器的输入,得到所述表征向量;
所述表征向量送入分类器进行进一步学习,得到分类器对其预测的最大概率以及最大概率对应的标签。
进一步地,在本发明的一个实施例中,其特征在于,还包括:
最小化交叉熵损失函数,对所述分类器的学习进行优化。
为达上述目的,本发明第二方面实施例提出了一种基于对比学习的加密流量分类装置,其特征在于,包括:
预处理模块,用于对加密流量数据进行预处理,得到数字序列并保存;
数据增强模块,用于对所述数字序列进行数据增强,得到增强样本;
编码模块,用于基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到表征向量;
训练模块,用于将所述表征向量输入分类器中进行学习,得到所述表征向量预测的最大概率以及最大概率对应的标签;
分类模块,用于通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于对比学习的加密流量分类方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于对比学习的加密流量分类方法。
本发明实施例提出的基于对比学习的加密流量分类方法及装置,解决了传统模型在对数据进行特征提取时“没有明确控制”即不会对特征进行进一步的筛选和过滤,导致可能有低价值的特征被保留了下来,进而误导分类器的训练进而对分类器的最终效果产生负面影响的问题。高效准确的加密流量分类技术对于网络管理和恶意软件跟踪都具有重要意义。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于对比学习的加密流量分类方法的流程示意图。
图2为本发明实施例所提供的一种基于对比学习的加密流量分类装置的流程示意图。
图3为本发明实施例所提供的基于对比学习的加密流量分类方法对数据的特征提取可视化示意图。
图4-a为本发明实施例所提供的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛情况在TFB数据集上的结果示意图。
图4-b为本发明实施例所提供的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛情况在TFM数据集上的结果示意图。
图4-c为本发明实施例所提供的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛情况在THC数据集上的结果示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于对比学习的加密流量分类方法和装置。
图1为本发明实施例所提供的一种基于对比学习的加密流量分类方法的流程示意图。
如图1所示,该基于对比学习的加密流量分类方法包括以下步骤:
S1:获取加密流量数据,并对加密流量数据进行预处理,得到预处理后的数字序列;
S2:对数字序列进行数据增强,得到数字序列对应的增强样本;
S3:基于对比学习方法设计编码器,利用训练好的编码器对增强样本进行特征提取得到增强样本对应的表征向量;
S4:将表征向量输入训练好的分类器中进行学习,得到表征向量预测的最大概率以及最大概率对应的标签;
S5:通过表征向量预测的最大概率以及最大概率对应的标签对加密流量数据进行分类。
进一步地,在本发明的一个实施例中,其特征在于,获取加密流量数据,并对加密流量数据进行预处理,得到预处理后的数字序列,包括以下步骤:
将加密流量数据按照数据流粒度进行分割;
提取加密流量数据流的第一个数据包中的前784个字节,不足的部分用ASCII码0填充,超出的部分直接丢弃;
将每个字节映射成ASCII码数字,然后进行归一化操作,得到数字序列并保存。
进一步地,在本发明的一个实施例中,其特征在于,对数字序列进行数据增强,得到数字序列对应的增强样本,包括以下步骤:
对所述数字序列复制多份;
对每一条数字序列都随机选取一个位置,将该位置及其之后连续的若干个数字用0进行替换,得到增强样本。
进一步地,在本发明的一个实施例中,其特征在于,基于对比学习方法设计编码器,利用训练好的编码器对增强样本进行特征提取得到增强样本对应的表征向量,包括以下步骤:
从所述增强样本中提取表征向量;
用投射器对表征向量进行进一步的提取和压缩,将结果归一化;
用归一化的结果计算对比损失函数;
最小化对比损失函数,对表征向量的提取进行优化,保证表征向量包含更多的有价值特征并过滤掉低价值特征。
进一步地,在本发明的一个实施例中,其特征在于,用归一化的结果计算对比损失函数,表示为:
Figure 698082DEST_PATH_IMAGE001
其中,
Figure 495137DEST_PATH_IMAGE002
表示由同一个训练批次的数据增强样本构成的集合,
Figure 103972DEST_PATH_IMAGE003
表示
Figure 339782DEST_PATH_IMAGE004
中的某个数据增强样本,
Figure 350463DEST_PATH_IMAGE005
表示增强样本
Figure 971999DEST_PATH_IMAGE006
的损失函数;
其中,
Figure 68131DEST_PATH_IMAGE005
可表示为:
Figure 514156DEST_PATH_IMAGE007
其中,
Figure 441660DEST_PATH_IMAGE008
表示与
Figure 580518DEST_PATH_IMAGE006
源自同一个数据的其他数据增强样本构成的集合,
Figure 226263DEST_PATH_IMAGE009
表示数据增强样本
Figure 475978DEST_PATH_IMAGE010
Figure 461252DEST_PATH_IMAGE011
之间的余弦相似度,
Figure 833327DEST_PATH_IMAGE012
用于控制整个公式对余弦相似度的敏感程度;
其中,余弦相似度可进一步表示为:
Figure 904052DEST_PATH_IMAGE017
其中,
Figure 521240DEST_PATH_IMAGE014
Figure 361020DEST_PATH_IMAGE015
分别表示
Figure 841680DEST_PATH_IMAGE006
Figure 462017DEST_PATH_IMAGE016
对应的投射器输出。
进一步地,在本发明的一个实施例中,其特征在于,其特征在于,在将表征向量输入分类器中进行学习之前,还包括:
将训练好的编码器与分类器进行拼接;
以数字序列作为所述编码器的输入,得到表征向量;
表征向量送入分类器进行进一步学习,得到分类器对其预测的最大概率以及最大概率对应的标签。
进一步地,在本发明的一个实施例中,其特征在于,还包括:
最小化交叉熵损失函数,对分类器的学习进行优化。
图3为本申请实施例的基于对比学习的加密流量分类方法对数据的特征提取可视化。
图3的可视化结果是从编码器的第一层提取出来的,由于第一层的神经网络是直接与输入数据接触的,因此从该可视化结果中可以发现编码器对数据不同位置的关注程度。编码器对某区域关注程度越大,该区域对应的颜色越深,反之则越浅。
如图3所示,以三百条同类别的数据作为输入,横坐标表示每条数据的字节位置,纵坐标表示每条数据。基于对比学习的加密流量分类方法对加密流量数据的某一些区域关注更多,但是对其他的位置几乎忽略。这说明该方法在提取特征时的确会进行筛选,只从关注度高的位置提取特征,而其他位置的特征则被其视为低价值特征。
图4-a、图4-b、图4-c分别为本申请实施例的基于对比学习的加密流量分类方法中分类器在训练过程中的收敛在TFB、TFM、THC数据集上的结果情况。
其中,CL-ETC代表基于对比学习的加密流量分类方法,AE-ETC代表基于自动编码器的加密流量分类方法。两种方法唯一的区别就是编码器的训练方式不同。另外,实验采用的数据集共有三个,其类别与规模如表1所示。
Figure 319115DEST_PATH_IMAGE018
表1
如图4-a、图4-b、图4-c所示,基于对比学习的加密流量分类方法可以令分类器在训练时,损失函数的起点、损失函数的收敛速度以及损失函数达到的最佳状态都是要优于基于自动编码器的加密流量分类方法的。这说明基于对比学习的加密流量分类方法确实可以更好地指导分类器的训练,使其可以快速地达到更好地收敛状态。
另外,两种训练方法对三个数据集的分类效果如表2所示。
Figure DEST_PATH_IMAGE019
表2
其中,精确率指所有样本中被正确预测的比例,准确率指被预测为各个类别的样本中被正确预测的比例的加权平均数,召回率指被各个类别中被正确预测的样本的比例的加权平均数,F1-值指准确率和召回率的调和平均数。
本发明实施例提出的基于对比学习的加密流量分类方法,在训练编码器的时候,需要做数据增强,增强后的数据送给编码器训练,训练分类器的时候就不用数据增强了,数据先经过编码器,然后编码器的输出也就是表征向量再送入分类器。解决了传统模型在对数据进行特征提取时“没有明确控制”即不会对特征进行进一步的筛选和过滤,导致可能有低价值的特征被保留了下来,进而误导分类器的训练进而对分类器的最终效果产生负面影响的问题。高效准确的加密流量分类技术对于网络管理和恶意软件跟踪都具有重要意义。
为了实现上述实施例,本发明还提出一种基于对比学习的加密流量分类装置。
图2为本发明实施例提供的一种基于对比学习的加密流量分类装置的结构示意图。
如图2所示,该基于对比学习的加密流量分类装置包括:预处理模块10,数据增强模块20,编码模块30,训练模块40,分类模块50,其中,预处理模块,用于对加密流量数据进行预处理,得到数字序列并保存;数据增强模块,用于对所述数字序列进行数据增强,得到增强样本;编码模块,用于基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到表征向量;训练模块,用于将所述表征向量送入分类器中进行学习,得到所述表征向量预测的最大概率以及最大概率对应的标签;分类模块,用于通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类。该装置解决了传统模型在对数据进行特征提取时“没有明确控制”即不会对特征进行进一步的筛选和过滤,导致可能有低价值的特征被保留了下来,进而误导分类器的训练进而对分类器的最终效果产生负面影响的问题。高效准确的加密流量分类技术对于网络管理和恶意软件跟踪都具有重要意义。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的基于对比学习的加密流量分类方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的基于对比学习的加密流量分类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于对比学习的加密流量分类方法,其特征在于,包括以下步骤:
获取加密流量数据,并对所述加密流量数据进行预处理,得到预处理后的数字序列;
对所述数字序列进行数据增强,得到所述数字序列对应的增强样本;
基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量;
将所述表征向量输入分类器中进行分类,得到所述表征向量预测的最大概率以及最大概率对应的标签;
通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类;
其中,所述基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量,包括以下步骤:
从所述增强样本中提取表征向量;
用投射器对表征向量进行进一步的提取和压缩,将结果归一化;
用归一化的结果计算对比损失函数;
最小化对比损失函数,对表征向量的提取进行优化,保证表征向量包含更多的有价值特征并过滤掉低价值特征;
其中,所述用归一化的结果计算对比损失函数,表示为:
Figure 179577DEST_PATH_IMAGE001
其中,
Figure 19357DEST_PATH_IMAGE002
表示由同一个训练批次的数据增强样本构成的集合,
Figure 562333DEST_PATH_IMAGE003
表示
Figure 854775DEST_PATH_IMAGE004
中的某个数据增强样本,
Figure 711872DEST_PATH_IMAGE005
表示增强样本
Figure 247238DEST_PATH_IMAGE006
的损失函数;
其中,
Figure 898800DEST_PATH_IMAGE005
可表示为:
Figure 740854DEST_PATH_IMAGE007
其中,
Figure 136063DEST_PATH_IMAGE008
表示与
Figure 684856DEST_PATH_IMAGE006
源自同一个数据的其他数据增强样本构成的集合,
Figure 835214DEST_PATH_IMAGE009
表示数据增强样本
Figure 102248DEST_PATH_IMAGE010
Figure 363465DEST_PATH_IMAGE011
之间的余弦相似度,
Figure 766764DEST_PATH_IMAGE012
用于控制整个公式对余弦相似度的敏感程度;
其中,余弦相似度可进一步表示为:
Figure 25707DEST_PATH_IMAGE013
其中,
Figure 343818DEST_PATH_IMAGE014
Figure 80830DEST_PATH_IMAGE015
分别表示
Figure 604216DEST_PATH_IMAGE006
Figure 361956DEST_PATH_IMAGE016
对应的投射器输出。
2.如权利要求1所述的基于对比学习的加密流量分类方法,其特征在于,所述获取加密流量数据,并对所述加密流量数据进行预处理,得到预处理后的数字序列,包括以下步骤:
将所述加密流量数据按照数据流粒度进行分割;
提取加密流量数据流的第一个数据包中的前784个字节,不足的部分用ASCII码0填充,超出的部分直接丢弃;
将每个字节映射成ASCII码数字,然后进行归一化操作,得到数字序列并保存。
3.如权利要求1所述的基于对比学习的加密流量分类方法,其特征在于,所述对所述数字序列进行数据增强,得到所述数字序列对应的增强样本,包括以下步骤:
对所述数字序列复制多份;
对每一条数字序列都随机选取一个位置,将该位置及其之后连续的若干个数字用0进行替换,得到增强样本。
4.如权利要求1所述的基于对比学习的加密流量分类方法,其特征在于,在所述将所述表征向量输入分类器中进行分类之前,还包括:
将训练好的编码器与分类器进行拼接;
以所述数字序列作为所述编码器的输入,得到所述表征向量;
所述表征向量送入分类器进行进一步学习,得到分类器对其预测的最大概率以及最大概率对应的标签。
5.如权利要求4所述的基于对比学习的加密流量分类方法,其特征在于,还包括:
最小化交叉熵损失函数,对所述分类器的学习进行优化。
6.一种基于对比学习的加密流量分类装置,其特征在于,包括:
预处理模块,用于对加密流量数据进行预处理,得到数字序列并保存;
数据增强模块,用于对所述数字序列进行数据增强,得到增强样本;
编码模块,用于基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到表征向量;
训练模块,用于将所述表征向量送入分类器中进行分类,得到所述表征向量预测的最大概率以及最大概率对应的标签;
分类模块,用于通过所述表征向量预测的最大概率以及最大概率对应的标签对所述加密流量数据进行分类;
其中,所述基于对比学习方法设计编码器,利用训练好的编码器对所述增强样本进行特征提取得到所述增强样本对应的表征向量,包括以下步骤:
从所述增强样本中提取表征向量;
用投射器对表征向量进行进一步的提取和压缩,将结果归一化;
用归一化的结果计算对比损失函数;
最小化对比损失函数,对表征向量的提取进行优化,保证表征向量包含更多的有价值特征并过滤掉低价值特征;
其中,所述用归一化的结果计算对比损失函数,表示为:
Figure 338002DEST_PATH_IMAGE001
其中,
Figure 675443DEST_PATH_IMAGE002
表示由同一个训练批次的数据增强样本构成的集合,
Figure 318914DEST_PATH_IMAGE003
表示
Figure 654080DEST_PATH_IMAGE004
中的某个数据增强样本,
Figure 445319DEST_PATH_IMAGE005
表示增强样本
Figure 524133DEST_PATH_IMAGE006
的损失函数;
其中,
Figure 22110DEST_PATH_IMAGE005
可表示为:
Figure 357539DEST_PATH_IMAGE007
其中,
Figure 573757DEST_PATH_IMAGE008
表示与
Figure 253000DEST_PATH_IMAGE006
源自同一个数据的其他数据增强样本构成的集合,
Figure 605484DEST_PATH_IMAGE009
表示数据增强样本
Figure 548032DEST_PATH_IMAGE010
Figure 48283DEST_PATH_IMAGE011
之间的余弦相似度,
Figure 468900DEST_PATH_IMAGE012
用于控制整个公式对余弦相似度的敏感程度;
其中,余弦相似度可进一步表示为:
Figure 941470DEST_PATH_IMAGE013
其中,
Figure 851657DEST_PATH_IMAGE014
Figure 776888DEST_PATH_IMAGE015
分别表示
Figure 564978DEST_PATH_IMAGE006
Figure 892054DEST_PATH_IMAGE016
对应的投射器输出。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的基于对比学习的加密流量分类方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的基于对比学习的加密流量分类方法。
CN202210289814.6A 2022-03-23 2022-03-23 基于对比学习的加密流量分类方法及装置 Active CN114386079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210289814.6A CN114386079B (zh) 2022-03-23 2022-03-23 基于对比学习的加密流量分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210289814.6A CN114386079B (zh) 2022-03-23 2022-03-23 基于对比学习的加密流量分类方法及装置

Publications (2)

Publication Number Publication Date
CN114386079A CN114386079A (zh) 2022-04-22
CN114386079B true CN114386079B (zh) 2022-12-06

Family

ID=81206011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210289814.6A Active CN114386079B (zh) 2022-03-23 2022-03-23 基于对比学习的加密流量分类方法及装置

Country Status (1)

Country Link
CN (1) CN114386079B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110417729A (zh) * 2019-06-12 2019-11-05 中国科学院信息工程研究所 一种加密流量的服务与应用分类方法及系统
CN111460956A (zh) * 2020-03-26 2020-07-28 山东科技大学 一种基于数据增强与损失加权的不平衡心电样本分类方法
CN113920296A (zh) * 2021-11-23 2022-01-11 厦门市美亚柏科信息股份有限公司 一种基于对比学习的文本识别方法与系统
CN114120447A (zh) * 2021-11-25 2022-03-01 中科南京人工智能创新研究院 一种基于原型对比学习的行为识别方法及系统、存储介质
WO2022041394A1 (zh) * 2020-08-28 2022-03-03 南京邮电大学 一种网络加密流量识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9485222B2 (en) * 2013-08-20 2016-11-01 Hewlett-Packard Development Company, L.P. Data stream traffic control

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110417729A (zh) * 2019-06-12 2019-11-05 中国科学院信息工程研究所 一种加密流量的服务与应用分类方法及系统
CN111460956A (zh) * 2020-03-26 2020-07-28 山东科技大学 一种基于数据增强与损失加权的不平衡心电样本分类方法
WO2022041394A1 (zh) * 2020-08-28 2022-03-03 南京邮电大学 一种网络加密流量识别方法及装置
CN113920296A (zh) * 2021-11-23 2022-01-11 厦门市美亚柏科信息股份有限公司 一种基于对比学习的文本识别方法与系统
CN114120447A (zh) * 2021-11-25 2022-03-01 中科南京人工智能创新研究院 一种基于原型对比学习的行为识别方法及系统、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张文哲等.基于卷积神经网络的SSLVPN流量的识别研究.《电子设计工程》.2020,(第12期),全文. *
栗刚等.一种基于条件变分自编码器的加密流量识别方法.《计算机应用研究》.2020,全文. *

Also Published As

Publication number Publication date
CN114386079A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN109978890B (zh) 基于图像处理的目标提取方法、装置及终端设备
CN106529380B (zh) 图像的识别方法及装置
EP3493101B1 (en) Image recognition method, terminal, and nonvolatile storage medium
Bai et al. Nhl pathological image classification based on hierarchical local information and googlenet-based representations
CN102165490B (zh) 图像同一性尺度计算系统
CN111695453B (zh) 绘本识别方法、装置及机器人
CN108520215B (zh) 基于多尺度联合特征编码器的单样本人脸识别方法
CN107368856A (zh) 恶意软件的聚类方法及装置、计算机装置及可读存储介质
CN111046879A (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN108933928A (zh) 办公场所实时报警系统
Habibi et al. Splicing image forgery detection and localization based on color edge inconsistency using statistical dispersion measures
Chidester et al. Discriminative bag-of-cells for imaging-genomics
CN114386079B (zh) 基于对比学习的加密流量分类方法及装置
CN114528913A (zh) 基于信任和一致性的模型迁移方法、装置、设备及介质
CN112037174B (zh) 染色体异常检测方法、装置、设备及计算机可读存储介质
CN116363538B (zh) 一种基于无人机的桥梁检测方法及系统
Jiang et al. An effective multi-classification method for NHL pathological images
CN105488529A (zh) 图片的源相机型号的识别方法和装置
CN111199228B (zh) 一种车牌定位的方法及装置
CN117173172A (zh) 一种基于机器视觉的硅胶成型效果检测方法及系统
CN109872307B (zh) 一种检测生物组织图像中肿块的方法、相应设备及介质
CN113313124B (zh) 基于图像分割算法识别车牌号码的方法、装置和终端设备
CN115713669A (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN111401432B (zh) 对数字图像的身份伪造识别方法、装置、设备及存储介质
TWI754241B (zh) 指紋圖像的特徵提取方法、裝置及電腦可讀存儲介質

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant