CN102271090A - 基于传输层特征的流量分类方法及装置 - Google Patents

基于传输层特征的流量分类方法及装置 Download PDF

Info

Publication number
CN102271090A
CN102271090A CN2011102619351A CN201110261935A CN102271090A CN 102271090 A CN102271090 A CN 102271090A CN 2011102619351 A CN2011102619351 A CN 2011102619351A CN 201110261935 A CN201110261935 A CN 201110261935A CN 102271090 A CN102271090 A CN 102271090A
Authority
CN
China
Prior art keywords
data
data flow
grader
transport layer
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102619351A
Other languages
English (en)
Other versions
CN102271090B (zh
Inventor
钱峰
刘萧
胡光岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaopin Sichuan Kechuang Technology Co ltd
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN2011102619351A priority Critical patent/CN102271090B/zh
Publication of CN102271090A publication Critical patent/CN102271090A/zh
Application granted granted Critical
Publication of CN102271090B publication Critical patent/CN102271090B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及互联网应用技术领域,尤其涉及互联网应用中基于传输层特征对流量进行分类的方法。包含如下步骤:采集作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征参数构建一个分类器;利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类。不需要了解数据包的端口号、特征字段等负载内容,只需要提取出流的传输层特征,就可识别该流的应用类型。不涉及用户的隐私,且使本技术能够识别基于动态端口号的、或已加密的流;而且本发明准确率高、完整性好,可以识别新型应用,还能提醒用户检查那些疑似的病毒攻击流。

Description

基于传输层特征的流量分类方法及装置
技术领域
本发明涉及互联网应用技术领域,尤其涉及互联网应用中基于传输层特征对流量进行分类的方法及装置。
背景技术
近年来,信息技术取得了突飞猛进式的发展,网络带宽迅速提高,网络容量急剧扩大,各种各样的互联网应用也如雨后春笋般地出现,网络结构从传统的客户/服务器(C/S)、浏览器/服务器(B/S)模式,逐渐转向P2P结构的应用模式。传统的WWW、FTP、MAIL业务虽仍然是不可或缺的互联网应用,但已不再占据互联网的统治地位;语音、视频、网络电视等应用迅速流行,并逐渐成为占用网络带宽的主流应用。这些主流应用不仅占用大量带宽资源,容易引起网络拥塞,增加了运营商的运维成本,而且容易传播计算机病毒,对网络安全构成了严重威胁;又由于网络结构日益复杂,传统的网络管理工具已经无法完成网络分析与管理的工作,网络的安全性、可管理性受到严重挑战。尽管网络管理人员及研究人员等提出了容量规划、流量控制等一系列策略来提高网络的运营效率。然而,无论是根据用户需求对网络资源进行QoS调度,还是根据网络应用的发展趋势对现有网络进行扩容改造,都必须对网络流量中各种应用进行准确的分类与识别。因此流分类技术是许多其他网络管理技术的基础。例如网络管理员需要对各种应用类型进行实时的监控和管理,以分析用户上网行为、流量计费或优化网络等。另外,准确的流分类在网络安全、应用趋势分析等研究领域,也具有极其重要的意义。
流分类技术的目的就是根据一定的策略和规则,识别数据流属于何种应用类型,从而可以确切的掌握网络中实际运行着何种应用程序,从而为管理、完全、研究等网络相关业务提供前提条件。所谓流即数据流,相同的是指即具有相同源IP、源端口、目的IP、目的端口、传输层协议的所有数据包。如何快速、准确地实现流分类,并不是一个简单的任务。传统的流分类方法主要有以下两种:
(1)基于端口号的流分类技术:早期的互联网应用较少,且大多都使用固定端口号(特别是一些常用服务,它们甚至使用静态端口)进行数据传输。例如FTP使用端口号21实现文件传输,Telnet使用端口号23实现远程登录,HTTP使用端口号80实现超文本传输等等。通过截获这些应用产生的数据包,将其中的端口号与应用类型一一对应起来即可识别出其应用类型,准确性、实时性都较高。但目前一方面由于许多互联网应用类型已经不再使用固定的、或可预知的端口号作为其通信端口,所以以前常用的基于端口号的分类方法不再适用,另一方面网络地址转换(NAT,Network Addresses Transformation)技术以及代理技术的运用使端口号无法再作为识别流的有效标识。
(2)基于特征字段的流分类技术:本技术主要应用于识别P2P流。近年来,P2P流占网络总流的比重逐年增加,有很多网络中甚至超过了50%,所以,一旦能准确识别出P2P流,流分类工作就已完成了一大半。主要的实现方案是针对数据流中的TCP流进行了详细分析,在这些数据流的有效载荷中找到了具有代表性的、唯一的特征字段及其位置,然后进一步利用这些特征字段及其位置来判断各数据包是否是P2P流。已经有研究人员总结了当时几种流行P2P协议的特征字段。遗憾的是该实现方案也只能识别特征字段已知的P2P流,不能识别所有流,完整性低。
近年来,人们又提出了基于传输层的新型流分类技术,目前已经有一定研究成果的方案有以下两种:
(1)BLINC(Blind classification)流分类方案:该方案所提首先提出利用主机在传输层表现出的行为模式来实现流分类,该方法又叫BLINC流分类方法,其工作原理如下:首先观察Internet上单个主机的行为特点,例如是否同时与多台主机通信,或者同时扫描另一台主机的多个端口;然后从三个层次对主机行为进行分析,即反映主机连通度的社会层(Social)、反映服务提供者或消费者行为的功能层(Functional)以及表示传输层拓扑连接的应用层(Application);并将观察到的主机群行为模式与已知的应用特征进行匹配,即根据事先构造好的图表进行匹配。最后,利用由统计数据或凭经验得到的启发式进一步完善算法性能。一方面由于该方案利用了网络应用的行为属性,不仅容易随着网络应用自身的改进而失效,也会因为网络环境的不同而导致分类性能出现显著的变化。又由于其分类模型较为复杂,计算量大,较难直接用作流量分类。
(2)基于统计特征的流分类方法:该方案通过将贝叶斯分类理论引入流分类领域,统计流的各种特征,利用机器学习,对网络上的流进行分类。利用工具根据源IP、目的IP、源Port、目的Port以及传输层协议(TCP或UDP)将数据包划分为不同的流,并分别提取流的各项参数,例如平均包长、平均包间隔时间、流持续时间等流特征。之后,将流的统计数据以及初始的流属性模型用于自分类的机器学习算法,即无人监督的贝叶斯分类方法。机器学习的时间越长,则分类的准确性越高,一旦达到某个标准,就可以对后续的输入数据流自动分类。但是该方案同样存在计算量大和处理速度慢的问题。
综上所述,有必要围绕不同应用类型的传输层行为特征进行分析,提出一完整性好、计算简单的基于传输层特征的新型流分类技术。
发明内容
本发明针对现有流分类方法的缺陷和通信网络的特点,围绕不同应用类型的传输层行为特征进行分析,提出了一种有监督的、基于传输层特征的流量分类方法。
鉴于以上目的,本发明提供了一种基于传输层特征的流量分类方法,包括如下步骤:
A、采集作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征构建一个分类器;
B、利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类。
具体的,所述步骤A中,利用从数据包中提取的数据流的传输层特征构建一个分类器的详细步骤如下:
A1.首先采集一段时间内的所有数据包,并从数据包中提取作为训练数据的数据流;
A2.对数据流进行预处理后,提取数据流的传输层特征参数;
A3.根据传输层特征参数,对数据流进行手工分类,标记该数据流所属的应用类型;
A4.对经过手工分类的数据流的传输层特征参数进行机器学习,不断得到作为分类器的决策树;
A5.继续学习后续产生的数据流,直到决策树达到稳定的状态,即得到了一个有效的分类器。
更进一步的,所述步骤B中,利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类,详细步骤如下:
B1、从后续采集到的数据包中提取数据流并进行预处理;
B2、提取所述经过预处理的数据流的传输层特征;
B3、将所述数据流的传输层特征作为参数,传递给分类器,分类器即可通过这些参数确定该数据流的所属应用类型。
优选的,所述传输层的特征参数包括数据流的平均数据包大小、各数据包之间的到达时间间隔、IP层的数据部分大小的统计特征、数据包的控制字段大小、源端向目的端发送的数据包的数量和目的端向源端发送的数据包的数量。
本发明的另一个目的,提供一种基于传输层特征的流量分类装置,包括:
数据采集模块,用于采集作为训练数据的网络数据包以及需要进行流量分量网络数据包;
分类器构建模块,用于利用数据采集模块采集的作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征构建一个分类器;
分类模块,用于利用生成的分类器对数据采集模块采集到的网络数据进行分类。
具体的,所述分类器构建模块包括:
数据流提取单元,用于从训练数据中提取数据流;
预处理单元,用于对数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类标记单元,用于根据传输层特征,通过从训练数据中提取的数据流进行手工分类,然后根据手工分类结果标记该数据流所属的应用类型;
算法实现单元,用于采用C4.5决策树算法构建分类器对于经过手工分类的流的传输层特征进行机器学习,生成一个分类器。
9.更进一步的,所述分类模块包括:
数据流提取单元,用于从数据采集模块不断获取需要进行数据流分类的数据包,并从所述数据包中提取数据流;
预处理单元,用于对数据流提取单元提取的数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类实现单元;利用生成的分类器对经过预处理的数据流进行分类。
从以上技术方案可以看出,本发明提出了一种有监督的、基于传输层特征的流分类技术,它将流分类问题视作数据挖掘中的分类发现问题,并采用C4.5决策树归纳算法构建分类器,进一步利用该分类器识别流的类型,从而实现流分类,具有以下优点:
(1)不需要了解数据包的端口号、特征字段等负载内容,只需要提取出流的传输层特征,就可识别该流的应用类型。不涉及用户的隐私,且使本技术能够识别基于动态端口号的、或已加密的流。
(2)准确率高、完整性好,可以识别新型应用,还能提醒用户检查那些疑似的病毒攻击流。本发明通过分析各应用类型的传输层特征实现流分类,对于同一应用类型,其传输层特征基本上是相似的,因而只要新型应用的传输层特征与训练数据中的应用类型的传输层特征相同,就可识别出该新型应用类型,完整性高。
附图说明
图1是本发明提供的一种基于传输层特征的流量分类方法的流程图;
图2是本发明实施例提供的一种构建分类器的方法流程图;
图3是本发明实施例提供的进行数据采集的网络环境示意图;
图4是本发明实施例提供的分类器实现流分类具体的流程图;
图5是本发明提出的一种基于传输层特征的流量分类装置的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
对于一个网络,在某一段时间内,各种应用流的传输层特征也是相对稳定的;同一应用类型的流的传输层特征也极其相似;不同应用类型流的传输层特征表现为一定的差异。不同应用产生的数据流在数据链路层、网络层、传输层、应用层都具有其区别于其他应用流的特征;有人总结了可用于流分类的249个流特征。因此,在一个相对稳定的网络环境下,可以通过提取流的传输层特征并学习,了解不同类型的流之间的差异,构建分类器,以实现流分类。
本发明围绕流不同应用类型的传输层行为特征进行分析,提出了一种有监督的、基于传输层特征的流分类方法,通过提取并处理流的传输层特征参数,实现网络流的分类与识别,为网络管理提供有效的流分类工具。本发明借助数据挖掘技术,将流分类问题视为数据挖掘中的分类发现问题,采用C4.5决策树归纳分类算法,学习流的传输层特征训练数据,并构建分类器,以识别流的应用类型,实现流分类。
如图1所示,为本发明提出的基于传输层特征的流量分类方法的流程图,其解决方案主要分两个步骤进行:
步骤101是构建分类器,即采集一段时间内的所有数据包,并从数据包中提取数据流的传输层特征作为训练数据,即通过学习训练数据,得到有效的分类器。
首先本发明提取该网络在某一时间段内的所有数据包作为训练数据,按照五元组源IP、目的IP、源端口、目的端口和协议的方式提取出流,并把这些流进行预处理,划分成不同的完整流;然后提取这些流的传输层特征参数,如数据流的平均数据包大小、各数据包之间的到达时间间隔、IP层的数据部分大小的统计特征、数据包的控制字段大小、源端向目的端发送的数据包的数量和目的端向源端发送的数据包的数量等;然后对这些流进行手工分类,标记出这些流的应用类型,这就得到了训练数据;采用C4.5算法学习这些训练数据,构建得到一个稳定、有效的分类器。
步骤102是利用构建的分类器实现分类:即利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类。构建分类器时,本发明采用由C4.5决策树分类算法构建一棵决策树作为分类器,利用该分类器对该网络中后续的流进行分类。由于目前各种应用主要利用TCP、UDP协议实现数据包的传输,因此在本发明中,只针对TCP流和UDP流实现了流分类。
如图2所示,是本发明实施例的构建分类器的详细步骤,包括:
步骤201,首先采集一段时间内的所有数据包,并从数据包中提取数据流作为训练数据。在获得网络数据时,需要获得丰富的流量相关信息。利用操作系统底层抓包库实现数据采集,能够获得详细的数据包信息,从而能从中获得丰富的流相关信息,是研究流分类的比较理想的流采集方式。常用的抓包库有libpcap,winpcap,bpf等。一种可行的采集数据的网络环境如图3所示。使用网管型交换机连接内网交换机和缺省网关(路由器)。在网管型交换机上做端口镜像,镜像端口上接数据采集终端。通过端口镜像,使得所有进出内网的数据被拷贝到镜像端口,进而被数据采集终端全部采集。
步骤202,对步骤201中提取的数据流进行预处理后,不断得到完整的数据流,并提取出该数据流的传输层特征。预处理的目的是提取出完整的数据流,丢弃不完整的数据流,提取出完整数据流的传输层特征,并处理噪声数据和残缺数据。利用TCP协议实现数据传输的过程有三个步骤,即建立连接、传输数据、拆除连接。完整的TCP数据流是指一次具有三个完整的步骤的数据传输过程中产生的所有数据包。按照五元组(源IP、目的IP、源端口、目的端口、传输层协议)提取TCP数据流时,由于TCP数据传输过程有建立连接和拆除连接的过程,其产生的数据包也具有明显的开始和结束标志,所以可以方便地确定出TCP数据流是否完整。由于无法确定UDP数据流的起始和结束,故本发明将具有相同五元组的UDP数据包归为同一个UDP数据流,并认为它是完整的流。
由于网络不稳定等各种原因,可能造成数据包在传输过程中被丢弃,并导致TCP连接异常中断,从而形成不完整的TCP数据流。由于不完整的数据流不足以代表该应用类型,此外,不完整数据流的传输层特征变化幅度大,不利于构建稳定的分类器,故本发明只通过完整流的传输层特征来实现流分类,识别出各流的应用类型;对于不完整流采取直接丢弃的处理方式。
提取出来的数据流只是一连串的数据包,为了构建基于传输层特征的分类器,还需要提取出这些数据包的传输层特征参数。典型的特征参数有数据流的平均数据包大小、各数据包之间的到达时间间隔、IP层的数据部分大小的统计特征、数据包的控制字段大小、源端向目的端发送的数据包的数量和目的端向源端发送的数据包的数量等,具体可参见表1:
Figure BDA0000089326190000091
表1:传输层的特征参数示例表
提取得到的特征参数可能不完整,形成残缺数据。有些特征则存在噪声属性,例如一些流的数据包太少,从而导致该流的部分特征参数无效(如数据包的到达时间间隔的FFT)。计算这类流的特征参数时,这部分特征参数是不正常情况下的计算结果,就是噪声数据,需要剔除。本发明采用平滑的方式来填充残缺的数据,即以相邻的、相同属性的若干个值的平均值作为缺失值;对于噪声数据,则采取将该流从数据集中剔除的方式处理。
步骤203,根据传输层特征,对流进行手工分类,标记该数据流所属的应用类型。目前互联网上常见的应用类型与对应的典型应用见下表2:
  互联网应用类型   典型应用
  BULK   FTP
  DATABASE   Postgres,slqnet,oracle,ingress
  INTERACTIVE   Ssh,klogin,rlogin,telnet
  MAIL   Imap,pop2/3,smtp
  SERVICES   X11,dns,ident,ldap,ntp
  WWW   www
  P2P   Xunlei,KaZaA,BitTorrent,GnuTella
  ATTACK   Worm,virus
  GAMES   Half-Life,Warcraft
  MULTIMEDIA   Windows Media Player,Real Player
表2:互联网应用类型与对应的典型应用
本发明通过手工分类,即标记出数据流的应用类型,如WWW、P2P、FTP等,目的是为构建分类器提供训练数据集。只有正确地标识出数据流的类型,才能构建出识别率高的分类器。其中需要采取多种技术实现手工分类,如通过端口可标识出诸如FTP、Telnet等应用的流;通过应用层特征字段可标识出部分P2P应用的流等。手工分类可精确地标识出流的应用类型,为构建分类器提供良好的训练数据集。但手工分类过程复杂,速度慢,因此仅适用于对训练数据进行流分类,不适用于对大量的数据进行流分类。
步骤204,对经过手工分类的数据流的传输层特征进行机器学习,不断得到作为分类器的决策树。本发明采用的是有监督的分类技术,在预处理、手工分类后,就可通过数据挖掘中的基于决策树的分类算法构建分类树。在创建决策树时,由于数据中噪声的影响,许多分枝反映的是训练数据中的异常,需要通过剪枝方法剪去这些不可靠的分枝。剪枝后的树更小,复杂度更低。
步骤205,继续学习后续产生的数据流,直到决策树达到稳定的状态,即得到了一个有效的分类器。刚开始得到的决策树是不稳定的,变化幅度较大;继续学习后续产生的流,直到决策树达到稳定的状态,即得到了一个有效的分类器。
如图4所示,为本发明实施例的分类器实现流分类具体的流程图。得到分类器后,就可对后续的流进行分类,识别出其应用类型,具体步骤如下:
步骤401,从后续采集到的数据包中提取数据流,并进行预处理。
步骤402,提取所述经过预处理的数据流的传输层特征。本步骤中,预处理后续数据包后,丢弃不完整的流,不断得到完整的流,并处理噪声数据和残缺数据后,并提取该流的传输层特征。
步骤403,将所述数据流的传输层特征作为参数,传递给分类器,分类器即可通过这些参数确定该数据流的所属应用类型。
如图5所示,为本发明实施例的基于传输层特征的流量分类装置,该装置实施了上述本发明的传输层特征的流量分类方法。本装置包括:
数据采集模块,用于采集作为训练数据的网络数据包以及需要进行流量分量网络数据包;
分类器构建模块,用于利用数据采集模块采集的作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征构建一个分类器;
分类模块,用于利用生成的分类器对数据采集模块采集到的网络数据进行分类。
本发明实施例的分类器构建模块包括:
数据流提取单元,用于从训练数据中提取数据流;
预处理单元,用于对数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类标记单元,用于根据传输层特征,通过从训练数据中提取的数据流进行手工分类,然后根据手工分类结果标记该数据流所属的应用类型;
算法实现单元,用于采用C4.5决策树算法构建分类器对于经过手工分类的流的传输层特征进行机器学习,生成一个分类器。
另外,本发明实施例的分类模块包括:
数据流提取单元,用于从数据采集模块不断获取需要进行数据流分类的数据包,并从所述数据包中提取数据流;
预处理单元,用于对数据流提取单元提取的数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类实现单元;利用生成的分类器对经过预处理的数据流进行分类。
本发明提出了一种有监督的、基于传输层特征的流分类技术,它将流分类问题视作数据挖掘中的分类发现问题,并采用C4.5决策树归纳算法构建分类器,进一步利用该分类器识别流的类型,从而实现流分类。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (10)

1.基于传输层特征的流量分类方法,其特征在于,包括如下步骤:
A、采集作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征参数构建一个分类器;
B、利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类。
2.根据权利要求1所述的方法,其特征在于,所述步骤A中,利用从数据包中提取的数据流的传输层特征构建一个分类器的详细步骤如下:
A1.首先采集一段时间内的所有数据包,并从数据包中提取作为训练数据的数据流;
A2.对数据流进行预处理后,提取数据流的传输层特征参数;
A3.根据传输层特征参数,对数据流进行手工分类,标记该数据流所属的应用类型;
A4.对经过手工分类的数据流的传输层特征参数进行机器学习,不断得到作为分类器的决策树;
A5.继续学习后续产生的数据流,直到决策树达到稳定的状态,即得到了一个有效的分类器。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤B中,利用构建的分类器,实现对后续采集到的数据包中提取的数据流的分类,详细步骤如下:
B1、从后续采集到的数据包中提取数据流并进行预处理;
B2、提取所述经过预处理的数据流的传输层特征参数;
B3、将所述数据流的传输层特征参数,传递给分类器,分类器即可通过这些参数确定该数据流的所属应用类型。
4.根据权利要求2所述的方法,其特征在于,所述传输层特征参数包括数据流的平均数据包大小、各数据包之间的到达时间间隔、IP层的数据部分大小的统计特征、数据包的控制字段大小、源端向目的端发送的数据包的数量和目的端向源端发送的数据包的数量。
5.根据权利要求4所述的方法,其特征在于,所述数据预处理步骤中,对于建立连接标志和拆除连接标志不完整的TCP数据流进行丢弃;并将具有相同五元组的UDP数据包归为一个完整的UDP流。
6.根据权利要求4或5所述的方法,其特征在于,步骤A4中,构建分类器时,采用C4.5决策树分类算法构建一棵决策树作为分类器。
7.根据权利要求6所述的方法,其特征在于,在采用C4.5决策树算法构建分类器过程中,用平滑的方式来填充残缺的数据,即以相邻的、相同属性的若干个值的平均值作为缺失值;对于噪声数据,则采取将该流从数据集中剔除的方式处理。
8.基于传输层特征的流量分类装置,其特征在于,包括:
数据采集模块,用于采集作为训练数据的网络数据包以及需要进行流量分量网络数据包;
分类器构建模块,用于利用数据采集模块采集的作为训练数据的数据包,利用从数据包中提取的数据流的传输层特征构建一个分类器;
分类模块,用于利用生成的分类器对数据采集模块采集到的网络数据进行分类。
9.如权利要求8所述的装置,其特征在于,所述分类器构建模块包括:
数据流提取单元,用于从训练数据中提取数据流;
预处理单元,用于对数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类标记单元,用于根据传输层特征,通过从训练数据中提取的数据流进行手工分类,然后根据手工分类结果标记该数据流所属的应用类型;
算法实现单元,用于采用C4.5决策树算法构建分类器对于经过手工分类的流的传输层特征进行机器学习,生成一个分类器。
10.如权利要求8或9所述的装置,其特征在于,所述分类模块包括:
数据流提取单元,用于从数据采集模块不断获取需要进行数据流分类的数据包,并从所述数据包中提取数据流;
预处理单元,用于对数据流提取单元提取的数据流进行预处理后,提取数据流的传输层特征;所述预处理是指去掉不完整的数据流;
分类实现单元;利用生成的分类器对经过预处理的数据流进行分类。
CN2011102619351A 2011-09-06 2011-09-06 基于传输层特征的流量分类方法及装置 Expired - Fee Related CN102271090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102619351A CN102271090B (zh) 2011-09-06 2011-09-06 基于传输层特征的流量分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102619351A CN102271090B (zh) 2011-09-06 2011-09-06 基于传输层特征的流量分类方法及装置

Publications (2)

Publication Number Publication Date
CN102271090A true CN102271090A (zh) 2011-12-07
CN102271090B CN102271090B (zh) 2013-09-25

Family

ID=45053257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102619351A Expired - Fee Related CN102271090B (zh) 2011-09-06 2011-09-06 基于传输层特征的流量分类方法及装置

Country Status (1)

Country Link
CN (1) CN102271090B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523241A (zh) * 2012-01-09 2012-06-27 北京邮电大学 基于决策树高速并行处理的网络流量在线分类方法及装置
CN102883182A (zh) * 2012-09-26 2013-01-16 同济大学 编码级多媒体流分类方法
CN103546444A (zh) * 2012-07-16 2014-01-29 清华大学 层次化加密代理通道检测方法
CN103780435A (zh) * 2014-02-18 2014-05-07 迈普通信技术股份有限公司 使用端口号掩码对数据流进行分类的方法及系统
CN104579845A (zh) * 2015-01-19 2015-04-29 太仓市同维电子有限公司 智能监控孩子上网记录装置的报警方法
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN104994016A (zh) * 2014-01-14 2015-10-21 马维尔国际有限公司 用于分组分类的方法和装置
CN105141455A (zh) * 2015-08-24 2015-12-09 西南大学 一种基于统计特征的有噪网络流量分类建模方法
CN105656730A (zh) * 2016-04-12 2016-06-08 北京北信源软件股份有限公司 一种基于tcp数据包的网络应用快速发现方法和系统
CN105872779A (zh) * 2016-04-20 2016-08-17 上海清鹤科技股份有限公司 清鹤数字电视头端获取电信清流的应用软件
CN106452970A (zh) * 2016-11-03 2017-02-22 合肥微梦软件技术有限公司 一种面向网络流量监控的分析系统
CN106656398A (zh) * 2016-05-03 2017-05-10 中国移动通信集团湖北有限公司 一种时钟同步监管方法和装置
CN107360032A (zh) * 2017-07-20 2017-11-17 中国南方电网有限责任公司 一种网络流识别方法及电子设备
CN107395693A (zh) * 2017-07-04 2017-11-24 大连工业大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择设备
CN107391912A (zh) * 2017-07-04 2017-11-24 大连大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择方法
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN107948172A (zh) * 2017-11-30 2018-04-20 恒安嘉新(北京)科技股份公司 一种基于人工智能行为分析的车联网入侵攻击检测方法和系统
CN107992750A (zh) * 2017-12-19 2018-05-04 深圳豪客互联网有限公司 病毒文件识别方法和装置
CN108322354A (zh) * 2017-01-18 2018-07-24 中国移动通信集团河南有限公司 一种偷跑流量账户识别方法及装置
CN108632269A (zh) * 2018-05-02 2018-10-09 南京邮电大学 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN108667747A (zh) * 2018-04-28 2018-10-16 深圳信息职业技术学院 网络流应用类型识别的方法、装置及计算机可读存储介质
CN108737212A (zh) * 2018-05-18 2018-11-02 中国人民解放军61062部队科技装备处 一种传输协议符合性检测装置、系统及方法
CN109063777A (zh) * 2018-08-07 2018-12-21 北京邮电大学 网络流量分类方法、装置及实现装置
CN109120612A (zh) * 2018-08-06 2019-01-01 浙江衣拿智能科技有限公司 一种数据包过滤方法、系统及应用程序
CN110392013A (zh) * 2018-04-17 2019-10-29 深圳先进技术研究院 一种基于网络流量分类的恶意软件识别方法、系统及电子设备
CN110502649A (zh) * 2019-07-02 2019-11-26 中国联合网络通信集团有限公司 一种多媒体业务的分类方法及装置
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN111541621A (zh) * 2019-12-25 2020-08-14 西安交通大学 一种基于转向包间隔概率分布的vpn流量分类方法
US11166053B2 (en) 2018-03-06 2021-11-02 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
US11429891B2 (en) 2018-03-07 2022-08-30 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
CN115146741A (zh) * 2022-08-02 2022-10-04 统信软件技术有限公司 一种操作系统层级的特征确定方法、计算设备及存储介质
CN117240611A (zh) * 2023-11-13 2023-12-15 傲拓科技股份有限公司 一种基于人工智能的plc信息安全保护系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101282331A (zh) * 2008-05-09 2008-10-08 西安交通大学 基于传输层特征的p2p网络流量识别方法
US7551620B1 (en) * 2004-12-15 2009-06-23 Orbital Data Corporation Protecting data integrity in an enhanced network connection
CN101814977A (zh) * 2010-04-22 2010-08-25 北京邮电大学 利用数据流头部特征的tcp流量在线识别方法及装置
CN102035698A (zh) * 2011-01-06 2011-04-27 西北工业大学 基于决策树分类算法的http隧道检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7551620B1 (en) * 2004-12-15 2009-06-23 Orbital Data Corporation Protecting data integrity in an enhanced network connection
CN101282331A (zh) * 2008-05-09 2008-10-08 西安交通大学 基于传输层特征的p2p网络流量识别方法
CN101814977A (zh) * 2010-04-22 2010-08-25 北京邮电大学 利用数据流头部特征的tcp流量在线识别方法及装置
CN102035698A (zh) * 2011-01-06 2011-04-27 西北工业大学 基于决策树分类算法的http隧道检测方法

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523241B (zh) * 2012-01-09 2014-11-19 北京邮电大学 基于决策树高速并行处理的网络流量在线分类方法及装置
CN102523241A (zh) * 2012-01-09 2012-06-27 北京邮电大学 基于决策树高速并行处理的网络流量在线分类方法及装置
CN103546444B (zh) * 2012-07-16 2016-12-21 清华大学 层次化加密代理通道检测方法
CN103546444A (zh) * 2012-07-16 2014-01-29 清华大学 层次化加密代理通道检测方法
CN102883182A (zh) * 2012-09-26 2013-01-16 同济大学 编码级多媒体流分类方法
CN102883182B (zh) * 2012-09-26 2015-06-03 同济大学 编码级多媒体流分类方法
CN104994016A (zh) * 2014-01-14 2015-10-21 马维尔国际有限公司 用于分组分类的方法和装置
CN103780435A (zh) * 2014-02-18 2014-05-07 迈普通信技术股份有限公司 使用端口号掩码对数据流进行分类的方法及系统
CN103780435B (zh) * 2014-02-18 2017-09-26 迈普通信技术股份有限公司 使用端口号掩码对数据流进行分类的方法及系统
CN104883278A (zh) * 2014-09-28 2015-09-02 北京匡恩网络科技有限责任公司 一种利用机器学习对网络设备进行分类的方法
CN104579845A (zh) * 2015-01-19 2015-04-29 太仓市同维电子有限公司 智能监控孩子上网记录装置的报警方法
CN105141455A (zh) * 2015-08-24 2015-12-09 西南大学 一种基于统计特征的有噪网络流量分类建模方法
CN105141455B (zh) * 2015-08-24 2018-08-17 西南大学 一种基于统计特征的有噪网络流量分类建模方法
CN105656730A (zh) * 2016-04-12 2016-06-08 北京北信源软件股份有限公司 一种基于tcp数据包的网络应用快速发现方法和系统
CN105872779A (zh) * 2016-04-20 2016-08-17 上海清鹤科技股份有限公司 清鹤数字电视头端获取电信清流的应用软件
CN106656398A (zh) * 2016-05-03 2017-05-10 中国移动通信集团湖北有限公司 一种时钟同步监管方法和装置
CN106656398B (zh) * 2016-05-03 2018-12-18 中国移动通信集团湖北有限公司 一种时钟同步监管方法和装置
CN106452970A (zh) * 2016-11-03 2017-02-22 合肥微梦软件技术有限公司 一种面向网络流量监控的分析系统
CN108322354B (zh) * 2017-01-18 2020-10-23 中国移动通信集团河南有限公司 一种偷跑流量账户识别方法及装置
CN108322354A (zh) * 2017-01-18 2018-07-24 中国移动通信集团河南有限公司 一种偷跑流量账户识别方法及装置
CN108109702A (zh) * 2017-07-04 2018-06-01 大连大学 应用大小流分类的数据选择方法
CN107391912A (zh) * 2017-07-04 2017-11-24 大连大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择方法
CN107395693A (zh) * 2017-07-04 2017-11-24 大连工业大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择设备
CN107360032A (zh) * 2017-07-20 2017-11-17 中国南方电网有限责任公司 一种网络流识别方法及电子设备
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN107948172A (zh) * 2017-11-30 2018-04-20 恒安嘉新(北京)科技股份公司 一种基于人工智能行为分析的车联网入侵攻击检测方法和系统
CN107992750A (zh) * 2017-12-19 2018-05-04 深圳豪客互联网有限公司 病毒文件识别方法和装置
US11606584B2 (en) 2018-03-06 2023-03-14 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
US11166053B2 (en) 2018-03-06 2021-11-02 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
US11699103B2 (en) 2018-03-07 2023-07-11 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
US11429891B2 (en) 2018-03-07 2022-08-30 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
CN110392013A (zh) * 2018-04-17 2019-10-29 深圳先进技术研究院 一种基于网络流量分类的恶意软件识别方法、系统及电子设备
CN108667747A (zh) * 2018-04-28 2018-10-16 深圳信息职业技术学院 网络流应用类型识别的方法、装置及计算机可读存储介质
CN108632269A (zh) * 2018-05-02 2018-10-09 南京邮电大学 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN108632269B (zh) * 2018-05-02 2020-06-02 南京邮电大学 基于c4.5决策树算法的分布式拒绝服务攻击检测方法
CN108737212A (zh) * 2018-05-18 2018-11-02 中国人民解放军61062部队科技装备处 一种传输协议符合性检测装置、系统及方法
CN109120612B (zh) * 2018-08-06 2021-04-30 浙江衣拿智能科技股份有限公司 一种数据包过滤方法、系统及应用程序
CN109120612A (zh) * 2018-08-06 2019-01-01 浙江衣拿智能科技有限公司 一种数据包过滤方法、系统及应用程序
CN109063777A (zh) * 2018-08-07 2018-12-21 北京邮电大学 网络流量分类方法、装置及实现装置
CN110502649B (zh) * 2019-07-02 2022-04-08 中国联合网络通信集团有限公司 一种多媒体业务的分类方法及装置
CN110502649A (zh) * 2019-07-02 2019-11-26 中国联合网络通信集团有限公司 一种多媒体业务的分类方法及装置
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN111541621A (zh) * 2019-12-25 2020-08-14 西安交通大学 一种基于转向包间隔概率分布的vpn流量分类方法
CN111541621B (zh) * 2019-12-25 2021-09-07 西安交通大学 一种基于转向包间隔概率分布的vpn流量分类方法
CN115146741A (zh) * 2022-08-02 2022-10-04 统信软件技术有限公司 一种操作系统层级的特征确定方法、计算设备及存储介质
CN117240611A (zh) * 2023-11-13 2023-12-15 傲拓科技股份有限公司 一种基于人工智能的plc信息安全保护系统和方法
CN117240611B (zh) * 2023-11-13 2024-01-30 傲拓科技股份有限公司 一种基于人工智能的plc信息安全保护系统和方法

Also Published As

Publication number Publication date
CN102271090B (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN102271090B (zh) 基于传输层特征的流量分类方法及装置
Carela-Español et al. Analysis of the impact of sampling on NetFlow traffic classification
Callado et al. A survey on internet traffic identification
Alshammari et al. Machine learning based encrypted traffic classification: Identifying ssh and skype
CN102739457B (zh) 一种基于dpi和svm技术的网络流量识别方法
CN102420701B (zh) 一种互联网业务流特征的提取方法
CN102307123B (zh) 基于传输层流量特征的nat流量识别方法
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN107404400A (zh) 一种网络态势感知实现方法及装置
CN102724317B (zh) 一种网络数据流量分类方法和装置
Dusi et al. Quantifying the accuracy of the ground truth associated with Internet traffic traces
Qin et al. Robust application identification methods for P2P and VoIP traffic classification in backbone networks
Tammaro et al. Exploiting packet‐sampling measurements for traffic characterization and classification
CN102315974A (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
Mori et al. Characterizing traffic flows originating from large-scale video sharing services
CN104052639A (zh) 基于支持向量机的实时多应用网络流量识别方法
Pekár et al. Adaptive aggregation of flow records
Shi et al. Protocol-independent identification of encrypted video traffic sources using traffic analysis
Qin et al. MUCM: multilevel user cluster mining based on behavior profiles for network monitoring
Peng et al. Feature evaluation for early stage internet traffic identification
Fernandes et al. A stratified traffic sampling methodology for seeing the big picture
Carela-Espanol et al. Traffic classification with sampled netflow
Bassi et al. Online peer-to-peer traffic identification. based on complex events processing of traffic event signatures
Seufert et al. Marina: Realizing ML-Driven Real-Time Network Traffic Monitoring at Terabit Scale
Callado et al. A Survey on Internet Traffic Identification and Classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SICHUAN ZHILIAN KECHUANG TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA

Effective date: 20141203

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 611731 CHENGDU, SICHUAN PROVINCE TO: 610041 CHENGDU, SICHUAN PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20141203

Address after: 610041, No. 1, building 1, No. 104, No. 1129, Century Road, Chengdu hi tech Zone, Sichuan, 1

Patentee after: Zhaopin Sichuan Kechuang Technology Co.,Ltd.

Address before: 611731 Chengdu province high tech Zone (West) West source Avenue, No. 2006

Patentee before: University of Electronic Science and Technology of China

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130925

Termination date: 20210906