CN109525508B

CN109525508B - 基于流量相似性比对的加密流识别方法、装置及存储介质

Info

Publication number: CN109525508B
Application number: CN201811537166.1A
Authority: CN
Inventors: 叶可江; 赵世林; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-12-15
Filing date: 2018-12-15
Publication date: 2022-06-21
Anticipated expiration: 2038-12-15
Also published as: CN109525508A

Abstract

本发明涉及加密流识别技术领域，具体涉及一种基于流量相似性比对的加密流识别方法、装置及存储介质。本发明的识别方法包括如下步骤：采集网络流量；数据预处理；提取多层次特征；样本打标签，包括：基于相似流和多层次特征聚类；基于聚类算法形成相似流；在分类算法上训练建模并测试验证，可提高分类模型效率和鲁棒性。本发明的基于流量相似性比对的加密流识别方法通过分析加密流的特征和数据流间的相似性，确保在加密流识别过程中，能充分挖掘到数据流相似特征，并进行训练，以提供分类精度。

Description

基于流量相似性比对的加密流识别方法、装置及存储介质

技术领域

本发明涉及加密流识别技术领域，具体涉及一种基于流量相似性比对的加密流识别方法、装置及存储介质。

背景技术

流量分类对不同的应用提供不同的个性化服务和安全监控是一个很重要的任务，随着加密应用和隧道技术的出现，使得分类识别流量变得困难。由于加密数据传输加密流量已经成为趋势，网络环境随之也变得非常复杂和多样化，这对流量管理是一大挑战，尤其是对于那些依靠网络流量类型来分析和和检测的方法。因此对网络的正常运行、网络服务、资源实时分配和流量管理有更高的要求，此时能有一种有效的监管网络活动的方法非常重要。加密流量分类识别是网络安全监管的重要一步。如果能准确的把加密流量分类和识别，可对网络安全和网络管理服务效率有很大提升，也可以保证用户信息安全。

现有技术提供了一种面向网络加密流量的恶意移动应用检测方法，包括如下步骤：步骤A.识别获得待判断加密网络流量所对应的移动应用，作为待判断移动应用对象，然后进入步骤B；步骤B.分析待判断移动应用对象的整体网络行为是否异常，以及分析待判断加密网络流量是否异常；若两者分析均不存在异常，则判定待判断移动应用对象为非恶意应用，针对待判断加密网络流量的检测结束；若两者分析中存在异常，则获得全部异常信息，并进入步骤C；步骤C.基于异常信息，使用分类方法判断待判断加密网络流量是否为恶意攻击流量，是则判定待判断移动应用对象为恶意应用，针对待判断加密网络流量的检测结束；否则判定待判断移动应用对象为非恶意应用，针对待判断加密网络流量的检测结束。

现有技术还提供了一种基于特征自学习的加密流量识别方法，所述方法包括：将获取的当前网络流量数据包转换为归一化数值或归一化灰度值；将所述当网网络流量数据包对应的归一化数值保存到文本文件中；或者将所述当网网络流量数据包对应的归一化灰度值生成灰度图像，并保存到图片文件中；将所述文本文件或所述图片文件作为预先训练得到的加密流量分类器的测试输入；通过所述加密流量分类器识别所述当前网络流量数据包的流量类型。

现有技术中的加密流量分类方法没有针对加密流量内容特性进行分析和研究，也不能很好的挖掘加密流量和正常流量间的潜在联系。目前，随着加密流量复杂多变，已存在的分类识别方法在分类精度上已有欠缺，不能达到很好的分类效果。如何精确检测出加密流量仍是一个难点。

鉴于此，克服以上现有技术中的缺陷，提供一种新的成为本领域亟待解决的技术问题。

发明内容

本发明的目的在于针对现有技术的上述缺陷，提供一种基于流量相似性比对的加密流识别方法、装置及存储介质。

本发明的目的可通过以下的技术措施来实现：

本发明第一方面提供了一种基于流量相似性比对的加密流识别方法，该识别方法包括：

采集网络流量数据，从所述网络流量数据中提取网络数据流，所述网络数据流包括未加密数据流和加密数据流；

提取所述未加密数据流的第一特征和所述加密数据流的第二特征；

将所述未加密数据流和网络日志中已识别网络应用进行匹配，根据匹配结果得到未加密数据标签流；根据所述第一特征和所述第二特征对加密数据流进行聚类处理，根据聚类结果得到加密数据标签流；未加密数据标签流和加密数据标签流形成标签流；

将所述标签流和网络数据流样本进行聚类处理，根据聚类结果获取未加密数据流和加密数据流的相似流；

将所述相似流进行训练得到分类算法模型，根据所述分类算法模型识别所述加密数据流的应用类型。

优选地，该识别方法还包括：

对所述未加密数据流和所述加密数据流进行数据清洗操作和归一化处理。

优选地，所述“提取所述未加密数据流的第一特征”的步骤包括：

提取每条未加密数据流的信息和相关参数，以形成数据流统计信息；

根据检测到的未加密数据流的数据包参数长度和所述数据流统计信息，提取未加密数据流的特征。

优选地，所述“提取所述加密数据流的第二特征”的步骤包括：

提取每个加密数据流的第一个数据包；

根据所述第一个数据包的连接信息提取加密协议特征。

优选地，所述“将所述未加密数据流和网络日志中已识别网络应用进行匹配，根据匹配结果得到未加密数据标签流”的步骤包括：

获取未加密数据流的关键信息，所述关键信息包括源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型；

将未加密数据流的关键信息和网络日志中与已识别网络应用关联的IP地址字段、端口字段和传输协议字段进行匹配；

根据匹配结果对所述未加密数据流进行特征标签添加，以得到未加密数据标签流。

优选地，所述“根据所述第一特征和所述第二特征对加密数据流进行聚类处理，根据聚类结果得到加密数据标签流”的步骤包括：

从加密数据流中抽取多个数据包；

应用相似流聚类算法，根据所述第一特征和所述第二特征，对加密数据流的多个数据包进行聚类；

根据聚类结果进行特征选择，根据所选择的特征对加密数据流进行特征标签添加，得到加密数据标签流。

优选地，所述“将所述标签流和网络数据流样本进行聚类处理，根据聚类结果获取未加密数据流和加密数据流的相似流”的步骤包括：

将所述标签流和样本网络数据流输入至K-means聚类算法；

根据不同k取值迭代计算对应的BIC值，选择最小的BIC值所对应的k取值；

根据第一特征和第二特征进行层次聚类，利用层次聚类结果中每个类的中心点来初始K-means聚类算法的类簇中心点；

计算样本网络数据流和标签流的相似度，根据所述相似度对样本网络数据流和标签流进行关联；计算每条网络数据流到对应类簇中心点的距离，按距离值从小到大进行排序，完成聚类；利用K-近邻算法对每个类簇进行簇内分层，得到多个层次簇类别；计算每个层次簇类别的最大概率估计，并取得该簇中心点，作为原始簇的中心点；重复本步骤，直到层次簇的个数和聚类精度不再变化；

根据聚类结果获取未加密数据流和加密数据流的相似流。

优选地，该识别方法还包括：

接收测试加密数据流；

根据所述分类算法模型识别所述测试加密数据流的应用类型，并获取所述分类算法模型的识别正确率；

根据所述识别正确率调整所述分类算法模型的参数。

本发明第二方面提供了一种基于流量相似性比对的加密流识别装置，该装置包括：处理器和存储器，所述处理器和所述存储器在工作时实现上述的基于流量相似性比对的加密流识别方法。

本发明第三方面提供了一种存储介质，该存储介质内存储有程序，所述程序在被执行时实现上述的基于流量相似性比对的加密流识别方法。

本发明的基于流量相似性比对的加密流识别方法通过分析加密流的特征和数据流间的相似性，确保在加密流识别过程中，能充分挖掘到数据流相似特征，并进行训练，以提供分类精度。

附图说明

图1是本发明实施例的基于流量相似性比对的加密流识别方法的流程图。

图2是本发明实施例的基于流量相似性比对的加密流识别方法的原理图。

图3是本发明实施例的基于流量相似性比对的加密流识别方法中聚类算法模型训练的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本揭示内容的叙述更加详尽与完备，下文针对本发明的实施方式与具体实施例提出了说明性的描述；但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而，亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。

本发明实施例提出一种基于流量相似性比对的加密流量识别方法，该方案利用加密流量间的相似关联性和多层次特征，可以做标签关联和相似流属性迁移，相比之前的研究，可取得不错的分类效果。本发明实施例利用TCP/UDP协议中基于包和基于流统计特性，可保证各个层次特征都可获得，同时利用基于加密协议传输的信息统计；应用相似流聚类不仅可以利用流，包和协议统计信息来测量评估，也可以针对加密流量负载难以细化分析和提取特性情况，可做到相似流标签关联，一来扩大标签集可提高分类精度，二来引入加密流信息统计可丰富特征属性。把经过相似流聚类的标签集和样本数据集进行聚类，可精确的得到携有流相关信息和各层次特征的相似流，在用这样的相似流去训练分类算法，表现出很好的分类效果。相比现有技术，本发明方法能高效的提升加密流量识别的精度和性能。

图1是根据本发明一个实施例的基于流量相似性比对的加密流识别方法，请参阅图1和图2所示，该识别方法包括：

S101，采集网络流量数据，从该网络流量数据中提取网络数据流，该网络数据流包括未加密数据流和加密数据流。

S102，提取该未加密数据流的第一特征和该加密数据流的第二特征。

S103，将该未加密数据流和网络日志中已识别网络应用进行匹配，根据匹配结果得到未加密数据标签流；根据该第一特征和该第二特征对加密数据流进行聚类处理，根据聚类结果得到加密数据标签流；未加密数据标签流和加密数据标签流形成标签流。

S104，将该标签流和网络数据流样本进行聚类处理，根据聚类结果获取未加密数据流和加密数据流的相似流。

S105，将该相似流进行训练得到分类算法模型，根据该分类算法模型识别该加密数据流的应用类型。

在步骤S101中，首先，选择网络数据中心，准备采集样本数据，进一步地，获取加密网络数据的途径，可从加密流量数据库或者从人控加密应用网络环境中获取；同时，设置高性能网络监控软件并结合网络防火墙，来获取对应未加密流量，并截取网络日志。然后，用Wireshark采集网络流量数据，分别从中获得普通未加密数据流和加密数据流，例如，加密数据流包括BT数据流、Skype数据流和Donkey数据流。

进一步地，在步骤S101之后还包括如下步骤：对该未加密数据流和该加密数据流进行数据清洗操作和归一化处理。步骤S101中，从网络流量数据获得的网络数据流量经过预处理之后即为样本数据集，请参阅图2所示，样本数据集中包括加密数据流和未加密数据流。

在步骤S102中，“提取该未加密数据流的第一特征”的步骤进一步包括：

S1021，提取每条未加密数据流的信息和相关参数，以形成数据流统计信息。

S1022，根据检测到的未加密数据流的数据包参数长度和该数据流统计信息，提取未加密数据流的特征。

“提取该加密数据流的第二特征”的步骤进一步包括：

S1023，提取每个加密数据流的第一个数据包。

S1024，根据该第一个数据包的连接信息提取加密协议特征。

未加密数据流的第一特征包括多个层次的特征，加密数据流的第二特征主要为加密协议特征，第一特征和第二特征形成多层次特征，建立特征集。具体地，对于未加密数据流，提取每条未加密TCP流和UDP流信息和每条流的相关参数；基于检测到的包参数长度再结合流统计信息，提取特征。对于加密数据流，提取加密应用客户端和服务器间SSL，TLS，SSH流，只要每个流的第一个数据包；基于第一个数据包连接信息提取协议特征流。最后，取得特征集。

在步骤S103中，进一步包括如下步骤：

S1031，获取未加密数据流的关键信息，该关键信息包括源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型。

S1032，将未加密数据流的关键信息和网络日志中与已识别网络应用关联的IP地址字段、端口字段和传输协议字段进行匹配。

S1033，根据匹配结果对该未加密数据流进行特征标签添加，以得到未加密数据标签流。

S1034，从加密数据流中抽取多个数据包。

S1035，应用相似流聚类算法，根据该第一特征和该第二特征，对加密数据流的多个数据包进行聚类。

S1036，根据聚类结果进行特征选择，根据所选择的特征对加密数据流进行标签特征添加，得到加密数据标签流。

S1037，未加密数据标签流和加密数据标签流形成标签流，建立集群标签集。

具体地，找出未加密流量的IP地址、端口号、传输协议关键信息；通过匹配网络日志中与已知网络应用关联的IP地址、端口等字段，完成未加密流量打标签。应用相似流(Bagof Flow，BoF)聚类算法，从加密流量里抽取大量的数据包，并基于提取的多层次特征(第一特征和第二特征)，由特征选择机制(Feature Selection，FS)可得到一套组合的高效相似流特征，训练算法，可完成聚类标签。得到标签流，建立集群标签群。

在步骤S104中，请参阅图3所示，进一步包括如下步骤：

S1041，将该标签流和样本网络数据流输入至K-means聚类算法。

S1042，根据不同k取值迭代计算对应的BIC值，选择最小的BIC值所对应的k取值。

S1043，根据第一特征和第二特征进行层次聚类，利用层次聚类结果中每个类的中心点来初始K-means聚类算法的类簇中心点。

S1044，计算样本网络数据流和标签流的相似度，根据该相似度对样本网络数据流和标签流进行关联；计算每条网络数据流到对应类簇中心点的距离，按距离值从小到大进行排序，完成聚类；利用K-近邻算法对每个类簇进行簇内分层，得到多个层次簇类别；计算每个层次簇类别的最大概率估计，并取得该簇中心点，作为原始簇的中心点；重复本步骤S404，直到层次簇的个数和聚类精度不再变化。

S1045，根据聚类结果获取未加密数据流和加密数据流的相似流。具体地，所得相似流为相互关联的多个加密数据流和多个未加密数据流，形成数据流组合，把此组合相似流输入到J48分类算法训练，得到分类算法模型，基于输入流统计特征的待测流量可取得很好的分类精度。再经过训练得到分类结果。

进一步地，在步骤S104之后，还包括如下对分类算法模型的测试步骤：

接收测试加密数据流；根据该分类算法模型识别该测试加密数据流的应用类型，并获取该分类算法模型的识别正确率；根据该识别正确率调整该分类算法模型的参数。

本发明实施例的基于流量相似性比对的加密流量识别方法，其关键点在于：

第一，基于相似流聚类可得到相似流标签-特征集。具体地，利用网络流之间的共有特性，可以找到加密流，未加密流的潜在相似特征，把这些相似特征经过模型测试，可以得到很好的数据标签关联效果。取样本集数据和相似流标签输入K-means聚类算法上训练，进行聚类训练参数优化，得到很好的层次簇类。

第二，用相似流去训练分类算法，经过模型验证，可得到很好的分类识别效果。具体地，得到的相似流含有多层次优化特征和流相关信息，可有效的提高分类精度。用相似流去训练分类算法，可充分利用流之间的关联关系和相似流特征，经过训练，得到分类模型有很高的分类精度，可以很好的识别加密流量。

本发明实施例还提供了一种基于流量相似性比对的加密流量识别装置，包括处理器和存储器，处理器和存储器在工作时实现上述的识别方法。

其中，处理器可以是一个通用中央处理器、微处理器、特定应用集成电路、或一个或多个用于控制本申请方案程序执行的集成电路。

此外，存储器可以是只读存储器、可存储静态信息和指令的静态存储设备、随机存取存储器、或者可存储信息和指令的动态存储设备，也可以是电可擦可编程只读存储器、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质或者其他磁存储设备。存储器与处理器可以通过通信总线相连接，也可以和处理器集成在一起。

上述存储器可用于存储执行本申请方案的程序数据，处理器可用于执行存储器中存储的程序数据，以实现上述实施例描述的速记方法。

本发明实施例还提供了一种存储介质，该存储介质内存储有程序，该程序在被执行时实现上述的识别方法。

需要说明的是，本实施例中存储介质可以是只读存储器、可存储静态信息和指令的静态存储设备、随机存取存储器、或者可存储信息和指令的动态存储设备，也可以是电可擦可编程只读存储器、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质或者其他磁存储设备。

需要说明的是，本实施例中的程序可被一种或更多编程语言的任何组合来书写，包括面向对象的编程语言，如JAVA、Smalltalk、C++或类似的编程语言，还包括传统的过程编程语言，如“C”编程语言或类似的编程语言。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于流量相似性比对的加密流识别方法，其特征在于，该识别方法包括：

2.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，该识别方法还包括：

3.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，所述“提取所述未加密数据流的第一特征”的步骤包括：

4.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，所述“提取所述加密数据流的第二特征”的步骤包括：

提取每个加密数据流的第一个数据包；

根据所述第一个数据包的连接信息提取加密协议特征。

5.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，所述“将所述未加密数据流和网络日志中已识别网络应用进行匹配，根据匹配结果得到未加密数据标签流”的步骤包括：

6.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，所述“根据所述第一特征和所述第二特征对加密数据流进行聚类处理，根据聚类结果得到加密数据标签流”的步骤包括：

从加密数据流中抽取多个数据包；

7.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，所述“将所述标签流和网络数据流样本进行聚类处理，根据聚类结果获取未加密数据流和加密数据流的相似流”的步骤包括：

将所述标签流和样本网络数据流输入至K-means聚类算法；

根据聚类结果获取未加密数据流和加密数据流的相似流。

8.根据权利要求1所述的基于流量相似性比对的加密流识别方法，其特征在于，该识别方法还包括：

接收测试加密数据流；

根据所述识别正确率调整所述分类算法模型的参数。

9.一种基于流量相似性比对的加密流识别装置，其特征在于，该装置包括：处理器和存储器，所述处理器和所述存储器在工作时实现权利要求1至8任一项所述的基于流量相似性比对的加密流识别方法。

10.一种存储介质，其特征在于，该存储介质内存储有程序，所述程序在被处理器执行时实现权利要求1至8任一项所述的基于流量相似性比对的加密流识别方法。