CN109525508B - 基于流量相似性比对的加密流识别方法、装置及存储介质 - Google Patents

基于流量相似性比对的加密流识别方法、装置及存储介质 Download PDF

Info

Publication number
CN109525508B
CN109525508B CN201811537166.1A CN201811537166A CN109525508B CN 109525508 B CN109525508 B CN 109525508B CN 201811537166 A CN201811537166 A CN 201811537166A CN 109525508 B CN109525508 B CN 109525508B
Authority
CN
China
Prior art keywords
data stream
stream
encrypted
clustering
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811537166.1A
Other languages
English (en)
Other versions
CN109525508A (zh
Inventor
叶可江
赵世林
须成忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201811537166.1A priority Critical patent/CN109525508B/zh
Publication of CN109525508A publication Critical patent/CN109525508A/zh
Application granted granted Critical
Publication of CN109525508B publication Critical patent/CN109525508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/825Involving tunnels, e.g. MPLS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/827Aggregation of resource allocation or reservation requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及加密流识别技术领域,具体涉及一种基于流量相似性比对的加密流识别方法、装置及存储介质。本发明的识别方法包括如下步骤:采集网络流量;数据预处理;提取多层次特征;样本打标签,包括:基于相似流和多层次特征聚类;基于聚类算法形成相似流;在分类算法上训练建模并测试验证,可提高分类模型效率和鲁棒性。本发明的基于流量相似性比对的加密流识别方法通过分析加密流的特征和数据流间的相似性,确保在加密流识别过程中,能充分挖掘到数据流相似特征,并进行训练,以提供分类精度。

Description

基于流量相似性比对的加密流识别方法、装置及存储介质
技术领域
本发明涉及加密流识别技术领域,具体涉及一种基于流量相似性比对的加密流识别方法、装置及存储介质。
背景技术
流量分类对不同的应用提供不同的个性化服务和安全监控是一个很重要的任务,随着加密应用和隧道技术的出现,使得分类识别流量变得困难。由于加密数据传输加密流量已经成为趋势,网络环境随之也变得非常复杂和多样化,这对流量管理是一大挑战,尤其是对于那些依靠网络流量类型来分析和和检测的方法。因此对网络的正常运行、网络服务、资源实时分配和流量管理有更高的要求,此时能有一种有效的监管网络活动的方法非常重要。加密流量分类识别是网络安全监管的重要一步。如果能准确的把加密流量分类和识别,可对网络安全和网络管理服务效率有很大提升,也可以保证用户信息安全。
现有技术提供了一种面向网络加密流量的恶意移动应用检测方法,包括如下步骤:步骤A.识别获得待判断加密网络流量所对应的移动应用,作为待判断移动应用对象,然后进入步骤B;步骤B.分析待判断移动应用对象的整体网络行为是否异常,以及分析待判断加密网络流量是否异常;若两者分析均不存在异常,则判定待判断移动应用对象为非恶意应用,针对待判断加密网络流量的检测结束;若两者分析中存在异常,则获得全部异常信息,并进入步骤C;步骤C.基于异常信息,使用分类方法判断待判断加密网络流量是否为恶意攻击流量,是则判定待判断移动应用对象为恶意应用,针对待判断加密网络流量的检测结束;否则判定待判断移动应用对象为非恶意应用,针对待判断加密网络流量的检测结束。
现有技术还提供了一种基于特征自学习的加密流量识别方法,所述方法包括:将获取的当前网络流量数据包转换为归一化数值或归一化灰度值;将所述当网网络流量数据包对应的归一化数值保存到文本文件中;或者将所述当网网络流量数据包对应的归一化灰度值生成灰度图像,并保存到图片文件中;将所述文本文件或所述图片文件作为预先训练得到的加密流量分类器的测试输入;通过所述加密流量分类器识别所述当前网络流量数据包的流量类型。
现有技术中的加密流量分类方法没有针对加密流量内容特性进行分析和研究,也不能很好的挖掘加密流量和正常流量间的潜在联系。目前,随着加密流量复杂多变,已存在的分类识别方法在分类精度上已有欠缺,不能达到很好的分类效果。如何精确检测出加密流量仍是一个难点。
鉴于此,克服以上现有技术中的缺陷,提供一种新的成为本领域亟待解决的技术问题。
发明内容
本发明的目的在于针对现有技术的上述缺陷,提供一种基于流量相似性比对的加密流识别方法、装置及存储介质。
本发明的目的可通过以下的技术措施来实现:
本发明第一方面提供了一种基于流量相似性比对的加密流识别方法,该识别方法包括:
采集网络流量数据,从所述网络流量数据中提取网络数据流,所述网络数据流包括未加密数据流和加密数据流;
提取所述未加密数据流的第一特征和所述加密数据流的第二特征;
将所述未加密数据流和网络日志中已识别网络应用进行匹配,根据匹配结果得到未加密数据标签流;根据所述第一特征和所述第二特征对加密数据流进行聚类处理,根据聚类结果得到加密数据标签流;未加密数据标签流和加密数据标签流形成标签流;
将所述标签流和网络数据流样本进行聚类处理,根据聚类结果获取未加密数据流和加密数据流的相似流;
将所述相似流进行训练得到分类算法模型,根据所述分类算法模型识别所述加密数据流的应用类型。
优选地,该识别方法还包括:
对所述未加密数据流和所述加密数据流进行数据清洗操作和归一化处理。
优选地,所述“提取所述未加密数据流的第一特征”的步骤包括:
提取每条未加密数据流的信息和相关参数,以形成数据流统计信息;
根据检测到的未加密数据流的数据包参数长度和所述数据流统计信息,提取未加密数据流的特征。
优选地,所述“提取所述加密数据流的第二特征”的步骤包括:
提取每个加密数据流的第一个数据包;
根据所述第一个数据包的连接信息提取加密协议特征。
优选地,所述“将所述未加密数据流和网络日志中已识别网络应用进行匹配,根据匹配结果得到未加密数据标签流”的步骤包括:
获取未加密数据流的关键信息,所述关键信息包括源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型;
将未加密数据流的关键信息和网络日志中与已识别网络应用关联的IP地址字段、端口字段和传输协议字段进行匹配;
根据匹配结果对所述未加密数据流进行特征标签添加,以得到未加密数据标签流。
优选地,所述“根据所述第一特征和所述第二特征对加密数据流进行聚类处理,根据聚类结果得到加密数据标签流”的步骤包括:
从加密数据流中抽取多个数据包;
应用相似流聚类算法,根据所述第一特征和所述第二特征,对加密数据流的多个数据包进行聚类;
根据聚类结果进行特征选择,根据所选择的特征对加密数据流进行特征标签添加,得到加密数据标签流。
优选地,所述“将所述标签流和网络数据流样本进行聚类处理,根据聚类结果获取未加密数据流和加密数据流的相似流”的步骤包括:
将所述标签流和样本网络数据流输入至K-means聚类算法;
根据不同k取值迭代计算对应的BIC值,选择最小的BIC值所对应的k取值;
根据第一特征和第二特征进行层次聚类,利用层次聚类结果中每个类的中心点来初始K-means聚类算法的类簇中心点;
计算样本网络数据流和标签流的相似度,根据所述相似度对样本网络数据流和标签流进行关联;计算每条网络数据流到对应类簇中心点的距离,按距离值从小到大进行排序,完成聚类;利用K-近邻算法对每个类簇进行簇内分层,得到多个层次簇类别;计算每个层次簇类别的最大概率估计,并取得该簇中心点,作为原始簇的中心点;重复本步骤,直到层次簇的个数和聚类精度不再变化;
根据聚类结果获取未加密数据流和加密数据流的相似流。
优选地,该识别方法还包括:
接收测试加密数据流;
根据所述分类算法模型识别所述测试加密数据流的应用类型,并获取所述分类算法模型的识别正确率;
根据所述识别正确率调整所述分类算法模型的参数。
本发明第二方面提供了一种基于流量相似性比对的加密流识别装置,该装置包括:处理器和存储器,所述处理器和所述存储器在工作时实现上述的基于流量相似性比对的加密流识别方法。
本发明第三方面提供了一种存储介质,该存储介质内存储有程序,所述程序在被执行时实现上述的基于流量相似性比对的加密流识别方法。
本发明的基于流量相似性比对的加密流识别方法通过分析加密流的特征和数据流间的相似性,确保在加密流识别过程中,能充分挖掘到数据流相似特征,并进行训练,以提供分类精度。
附图说明
图1是本发明实施例的基于流量相似性比对的加密流识别方法的流程图。
图2是本发明实施例的基于流量相似性比对的加密流识别方法的原理图。
图3是本发明实施例的基于流量相似性比对的加密流识别方法中聚类算法模型训练的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。
本发明实施例提出一种基于流量相似性比对的加密流量识别方法,该方案利用加密流量间的相似关联性和多层次特征,可以做标签关联和相似流属性迁移,相比之前的研究,可取得不错的分类效果。本发明实施例利用TCP/UDP协议中基于包和基于流统计特性,可保证各个层次特征都可获得,同时利用基于加密协议传输的信息统计;应用相似流聚类不仅可以利用流,包和协议统计信息来测量评估,也可以针对加密流量负载难以细化分析和提取特性情况,可做到相似流标签关联,一来扩大标签集可提高分类精度,二来引入加密流信息统计可丰富特征属性。把经过相似流聚类的标签集和样本数据集进行聚类,可精确的得到携有流相关信息和各层次特征的相似流,在用这样的相似流去训练分类算法,表现出很好的分类效果。相比现有技术,本发明方法能高效的提升加密流量识别的精度和性能。
图1是根据本发明一个实施例的基于流量相似性比对的加密流识别方法,请参阅图1和图2所示,该识别方法包括:
S101,采集网络流量数据,从该网络流量数据中提取网络数据流,该网络数据流包括未加密数据流和加密数据流。
S102,提取该未加密数据流的第一特征和该加密数据流的第二特征。
S103,将该未加密数据流和网络日志中已识别网络应用进行匹配,根据匹配结果得到未加密数据标签流;根据该第一特征和该第二特征对加密数据流进行聚类处理,根据聚类结果得到加密数据标签流;未加密数据标签流和加密数据标签流形成标签流。
S104,将该标签流和网络数据流样本进行聚类处理,根据聚类结果获取未加密数据流和加密数据流的相似流。
S105,将该相似流进行训练得到分类算法模型,根据该分类算法模型识别该加密数据流的应用类型。
在步骤S101中,首先,选择网络数据中心,准备采集样本数据,进一步地,获取加密网络数据的途径,可从加密流量数据库或者从人控加密应用网络环境中获取;同时,设置高性能网络监控软件并结合网络防火墙,来获取对应未加密流量,并截取网络日志。然后,用Wireshark采集网络流量数据,分别从中获得普通未加密数据流和加密数据流,例如,加密数据流包括BT数据流、Skype数据流和Donkey数据流。
进一步地,在步骤S101之后还包括如下步骤:对该未加密数据流和该加密数据流进行数据清洗操作和归一化处理。步骤S101中,从网络流量数据获得的网络数据流量经过预处理之后即为样本数据集,请参阅图2所示,样本数据集中包括加密数据流和未加密数据流。
在步骤S102中,“提取该未加密数据流的第一特征”的步骤进一步包括:
S1021,提取每条未加密数据流的信息和相关参数,以形成数据流统计信息。
S1022,根据检测到的未加密数据流的数据包参数长度和该数据流统计信息,提取未加密数据流的特征。
“提取该加密数据流的第二特征”的步骤进一步包括:
S1023,提取每个加密数据流的第一个数据包。
S1024,根据该第一个数据包的连接信息提取加密协议特征。
未加密数据流的第一特征包括多个层次的特征,加密数据流的第二特征主要为加密协议特征,第一特征和第二特征形成多层次特征,建立特征集。具体地,对于未加密数据流,提取每条未加密TCP流和UDP流信息和每条流的相关参数;基于检测到的包参数长度再结合流统计信息,提取特征。对于加密数据流,提取加密应用客户端和服务器间SSL,TLS,SSH流,只要每个流的第一个数据包;基于第一个数据包连接信息提取协议特征流。最后,取得特征集。
在步骤S103中,进一步包括如下步骤:
S1031,获取未加密数据流的关键信息,该关键信息包括源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型。
S1032,将未加密数据流的关键信息和网络日志中与已识别网络应用关联的IP地址字段、端口字段和传输协议字段进行匹配。
S1033,根据匹配结果对该未加密数据流进行特征标签添加,以得到未加密数据标签流。
S1034,从加密数据流中抽取多个数据包。
S1035,应用相似流聚类算法,根据该第一特征和该第二特征,对加密数据流的多个数据包进行聚类。
S1036,根据聚类结果进行特征选择,根据所选择的特征对加密数据流进行标签特征添加,得到加密数据标签流。
S1037,未加密数据标签流和加密数据标签流形成标签流,建立集群标签集。
具体地,找出未加密流量的IP地址、端口号、传输协议关键信息;通过匹配网络日志中与已知网络应用关联的IP地址、端口等字段,完成未加密流量打标签。应用相似流(Bagof Flow,BoF)聚类算法,从加密流量里抽取大量的数据包,并基于提取的多层次特征(第一特征和第二特征),由特征选择机制(Feature Selection,FS)可得到一套组合的高效相似流特征,训练算法,可完成聚类标签。得到标签流,建立集群标签群。
在步骤S104中,请参阅图3所示,进一步包括如下步骤:
S1041,将该标签流和样本网络数据流输入至K-means聚类算法。
S1042,根据不同k取值迭代计算对应的BIC值,选择最小的BIC值所对应的k取值。
S1043,根据第一特征和第二特征进行层次聚类,利用层次聚类结果中每个类的中心点来初始K-means聚类算法的类簇中心点。
S1044,计算样本网络数据流和标签流的相似度,根据该相似度对样本网络数据流和标签流进行关联;计算每条网络数据流到对应类簇中心点的距离,按距离值从小到大进行排序,完成聚类;利用K-近邻算法对每个类簇进行簇内分层,得到多个层次簇类别;计算每个层次簇类别的最大概率估计,并取得该簇中心点,作为原始簇的中心点;重复本步骤S404,直到层次簇的个数和聚类精度不再变化。
S1045,根据聚类结果获取未加密数据流和加密数据流的相似流。具体地,所得相似流为相互关联的多个加密数据流和多个未加密数据流,形成数据流组合,把此组合相似流输入到J48分类算法训练,得到分类算法模型,基于输入流统计特征的待测流量可取得很好的分类精度。再经过训练得到分类结果。
进一步地,在步骤S104之后,还包括如下对分类算法模型的测试步骤:
接收测试加密数据流;根据该分类算法模型识别该测试加密数据流的应用类型,并获取该分类算法模型的识别正确率;根据该识别正确率调整该分类算法模型的参数。
本发明实施例的基于流量相似性比对的加密流量识别方法,其关键点在于:
第一,基于相似流聚类可得到相似流标签-特征集。具体地,利用网络流之间的共有特性,可以找到加密流,未加密流的潜在相似特征,把这些相似特征经过模型测试,可以得到很好的数据标签关联效果。取样本集数据和相似流标签输入K-means聚类算法上训练,进行聚类训练参数优化,得到很好的层次簇类。
第二,用相似流去训练分类算法,经过模型验证,可得到很好的分类识别效果。具体地,得到的相似流含有多层次优化特征和流相关信息,可有效的提高分类精度。用相似流去训练分类算法,可充分利用流之间的关联关系和相似流特征,经过训练,得到分类模型有很高的分类精度,可以很好的识别加密流量。
本发明实施例还提供了一种基于流量相似性比对的加密流量识别装置,包括处理器和存储器,处理器和存储器在工作时实现上述的识别方法。
其中,处理器可以是一个通用中央处理器、微处理器、特定应用集成电路、或一个或多个用于控制本申请方案程序执行的集成电路。
此外,存储器可以是只读存储器、可存储静态信息和指令的静态存储设备、随机存取存储器、或者可存储信息和指令的动态存储设备,也可以是电可擦可编程只读存储器、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质或者其他磁存储设备。存储器与处理器可以通过通信总线相连接,也可以和处理器集成在一起。
上述存储器可用于存储执行本申请方案的程序数据,处理器可用于执行存储器中存储的程序数据,以实现上述实施例描述的速记方法。
本发明实施例还提供了一种存储介质,该存储介质内存储有程序,该程序在被执行时实现上述的识别方法。
需要说明的是,本实施例中存储介质可以是只读存储器、可存储静态信息和指令的静态存储设备、随机存取存储器、或者可存储信息和指令的动态存储设备,也可以是电可擦可编程只读存储器、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质或者其他磁存储设备。
需要说明的是,本实施例中的程序可被一种或更多编程语言的任何组合来书写,包括面向对象的编程语言,如JAVA、Smalltalk、C++或类似的编程语言,还包括传统的过程编程语言,如“C”编程语言或类似的编程语言。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于流量相似性比对的加密流识别方法,其特征在于,该识别方法包括:
采集网络流量数据,从所述网络流量数据中提取网络数据流,所述网络数据流包括未加密数据流和加密数据流;
提取所述未加密数据流的第一特征和所述加密数据流的第二特征;
将所述未加密数据流和网络日志中已识别网络应用进行匹配,根据匹配结果得到未加密数据标签流;根据所述第一特征和所述第二特征对加密数据流进行聚类处理,根据聚类结果得到加密数据标签流;未加密数据标签流和加密数据标签流形成标签流;
将所述标签流和网络数据流样本进行聚类处理,根据聚类结果获取未加密数据流和加密数据流的相似流;
将所述相似流进行训练得到分类算法模型,根据所述分类算法模型识别所述加密数据流的应用类型。
2.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,该识别方法还包括:
对所述未加密数据流和所述加密数据流进行数据清洗操作和归一化处理。
3.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,所述“提取所述未加密数据流的第一特征”的步骤包括:
提取每条未加密数据流的信息和相关参数,以形成数据流统计信息;
根据检测到的未加密数据流的数据包参数长度和所述数据流统计信息,提取未加密数据流的特征。
4.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,所述“提取所述加密数据流的第二特征”的步骤包括:
提取每个加密数据流的第一个数据包;
根据所述第一个数据包的连接信息提取加密协议特征。
5.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,所述“将所述未加密数据流和网络日志中已识别网络应用进行匹配,根据匹配结果得到未加密数据标签流”的步骤包括:
获取未加密数据流的关键信息,所述关键信息包括源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型;
将未加密数据流的关键信息和网络日志中与已识别网络应用关联的IP地址字段、端口字段和传输协议字段进行匹配;
根据匹配结果对所述未加密数据流进行特征标签添加,以得到未加密数据标签流。
6.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,所述“根据所述第一特征和所述第二特征对加密数据流进行聚类处理,根据聚类结果得到加密数据标签流”的步骤包括:
从加密数据流中抽取多个数据包;
应用相似流聚类算法,根据所述第一特征和所述第二特征,对加密数据流的多个数据包进行聚类;
根据聚类结果进行特征选择,根据所选择的特征对加密数据流进行特征标签添加,得到加密数据标签流。
7.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,所述“将所述标签流和网络数据流样本进行聚类处理,根据聚类结果获取未加密数据流和加密数据流的相似流”的步骤包括:
将所述标签流和样本网络数据流输入至K-means聚类算法;
根据不同k取值迭代计算对应的BIC值,选择最小的BIC值所对应的k取值;
根据第一特征和第二特征进行层次聚类,利用层次聚类结果中每个类的中心点来初始K-means聚类算法的类簇中心点;
计算样本网络数据流和标签流的相似度,根据所述相似度对样本网络数据流和标签流进行关联;计算每条网络数据流到对应类簇中心点的距离,按距离值从小到大进行排序,完成聚类;利用K-近邻算法对每个类簇进行簇内分层,得到多个层次簇类别;计算每个层次簇类别的最大概率估计,并取得该簇中心点,作为原始簇的中心点;重复本步骤,直到层次簇的个数和聚类精度不再变化;
根据聚类结果获取未加密数据流和加密数据流的相似流。
8.根据权利要求1所述的基于流量相似性比对的加密流识别方法,其特征在于,该识别方法还包括:
接收测试加密数据流;
根据所述分类算法模型识别所述测试加密数据流的应用类型,并获取所述分类算法模型的识别正确率;
根据所述识别正确率调整所述分类算法模型的参数。
9.一种基于流量相似性比对的加密流识别装置,其特征在于,该装置包括:处理器和存储器,所述处理器和所述存储器在工作时实现权利要求1至8任一项所述的基于流量相似性比对的加密流识别方法。
10.一种存储介质,其特征在于,该存储介质内存储有程序,所述程序在被处理器执行时实现权利要求1至8任一项所述的基于流量相似性比对的加密流识别方法。
CN201811537166.1A 2018-12-15 2018-12-15 基于流量相似性比对的加密流识别方法、装置及存储介质 Active CN109525508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811537166.1A CN109525508B (zh) 2018-12-15 2018-12-15 基于流量相似性比对的加密流识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811537166.1A CN109525508B (zh) 2018-12-15 2018-12-15 基于流量相似性比对的加密流识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109525508A CN109525508A (zh) 2019-03-26
CN109525508B true CN109525508B (zh) 2022-06-21

Family

ID=65795871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811537166.1A Active CN109525508B (zh) 2018-12-15 2018-12-15 基于流量相似性比对的加密流识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109525508B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110012029B (zh) * 2019-04-22 2020-05-26 中国科学院声学研究所 一种区分加密和非加密压缩流量的方法和系统
CN110311925B (zh) * 2019-07-30 2022-06-28 百度在线网络技术(北京)有限公司 DDoS反射型攻击的检测方法及装置、计算机设备与可读介质
CN113469366B (zh) * 2020-03-31 2024-06-18 北京观成科技有限公司 一种加密流量的识别方法、装置及设备
CN112311791B (zh) * 2020-10-29 2023-04-14 贵州电网有限责任公司 一种适用于办公业务流量的统计方法及系统
CN112291277B (zh) * 2020-12-29 2021-05-25 腾讯科技(深圳)有限公司 一种恶意软件检测方法、装置、设备及存储介质
CN112995172B (zh) * 2021-02-24 2022-09-09 合肥优尔电子科技有限公司 物联网设备和物联网平台之间对接的通信方法及通信系统
CN114978593B (zh) * 2022-04-15 2023-03-10 中国科学院信息工程研究所 基于图匹配的不同网络环境的加密流量分类方法及系统
CN117972461B (zh) * 2024-04-02 2024-06-14 济宁职业技术学院 一种发酵生产过程关键参量的软测量方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102299863A (zh) * 2011-09-27 2011-12-28 北京网康科技有限公司 一种网络流量聚类的方法及其设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL248306B (en) * 2016-10-10 2019-12-31 Verint Systems Ltd System and method for creating data sets for learning to recognize user actions
IL250948B (en) * 2017-03-05 2021-04-29 Verint Systems Ltd A system and method for using transfer learning to identify user actions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102299863A (zh) * 2011-09-27 2011-12-28 北京网康科技有限公司 一种网络流量聚类的方法及其设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VoIP traffic classification in IPSec tunnels;Taner Yildirim 等;《2010 International Conference on Electronics and Information Engineering》;20100902;全文 *
基于k-means聚类和潜在语义分析的网络流量分类方法研究;缪承志;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20141115;全文 *
基于改进的k均值聚类算法的P2P流量识别的研究;赵魏雨;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20140315;全文 *

Also Published As

Publication number Publication date
CN109525508A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109525508B (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
CN111277578B (zh) 加密流量分析特征提取方法、系统、存储介质、安全设备
WO2020119662A1 (zh) 一种网络流量分类方法
CN109450842B (zh) 一种基于神经网络的网络恶意行为识别方法
Fu et al. Service usage classification with encrypted internet traffic in mobile messaging apps
CN109995601B (zh) 一种网络流量识别方法及装置
CN106649831B (zh) 一种数据过滤方法及装置
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN105530265B (zh) 一种基于频繁项集描述的移动互联网恶意应用检测方法
CN111147394B (zh) 一种远程桌面协议流量行为的多级分类检测方法
Perera Jayasuriya Kuranage et al. Network traffic classification using machine learning for software defined networks
Papadogiannaki et al. Otter: A scalable high-resolution encrypted traffic identification engine
CN113328985B (zh) 一种被动物联网设备识别方法、系统、介质及设备
CN106850338B (zh) 一种基于语义分析的r+1类应用层协议识别方法与装置
CN109660656A (zh) 一种智能终端应用程序识别方法
Salman et al. Data representation for CNN based internet traffic classification: a comparative study
CN109275045B (zh) 基于dfi的移动端加密视频广告流量识别方法
CN113762377A (zh) 网络流量识别方法、装置、设备及存储介质
CN112861894A (zh) 一种数据流分类方法、装置及系统
CN110519228B (zh) 一种黑产场景下恶意云机器人的识别方法及系统
Tang et al. HSLF: HTTP header sequence based lsh fingerprints for application traffic classification
Yujie et al. End-to-end android malware classification based on pure traffic images
CN112839055B (zh) 面向tls加密流量的网络应用识别方法、装置及电子设备
CN105207829B (zh) 一种入侵检测数据处理方法、装置,及系统
CN102098346B (zh) 一种在未知流量中识别p2p流媒体流量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant