CN102315974B - 基于层次化特征分析的tcp、udp流量在线识别方法和装置 - Google Patents

基于层次化特征分析的tcp、udp流量在线识别方法和装置 Download PDF

Info

Publication number
CN102315974B
CN102315974B CN201110312763.6A CN201110312763A CN102315974B CN 102315974 B CN102315974 B CN 102315974B CN 201110312763 A CN201110312763 A CN 201110312763A CN 102315974 B CN102315974 B CN 102315974B
Authority
CN
China
Prior art keywords
data
stream
type
service
data flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110312763.6A
Other languages
English (en)
Other versions
CN102315974A (zh
Inventor
顾仁涛
秦军
纪越峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201110312763.6A priority Critical patent/CN102315974B/zh
Publication of CN102315974A publication Critical patent/CN102315974A/zh
Application granted granted Critical
Publication of CN102315974B publication Critical patent/CN102315974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种基于层次化特征分析的TCP、UDP流量在线识别方法和装置,其中方法包括:离线阶段通过协议分析确定第一层待识别业务类型常用的端口号,以及第二层待识别业务数据流的特征字段,构建端口号及特征字段库,同时采用机器学习的方法训练得到第三层贝叶斯决策树模型。在线分类阶段利用特征库和学习模型完成对流量的业务类型识别。发明装置包括:数据流分离模块,特征提取模块,特征存储模块,特征匹配模块,属性提取模块,模型构建与分类模块,分类结果显示模块。本发明实例能准确的识别各种基于TCP、UDP的应用层业务,并且识别过程简单高效,适于硬件装置实现,可用于高速骨干网以及接入网中需要在线流量识别的设备和系统。

Description

基于层次化特征分析的TCP、UDP流量在线识别方法和装置
技术领域
本发明涉及计算机网络与通信技术领域,尤其涉及一种流量识别的方法和装置。
背景技术
随着Internet重要性的日益提高和网络结构的日益复杂,网络用户迅猛增加,各种新的网络应用、服务、标准和协议层出不迭。对网络中的流量进行准确的识别是众多的网络活动的基础,如安全监测、记账,保证传送业务的QoS、给运营者从长远角度提供有用的预测。同时,网络管理者只有随时了解当前网络的运行状态,掌握网络中各种流量的情况,才能对网络进行适度的控制,这都涉及到流量识别的技术。因此,选择合适的方法来研究应用层流量显得尤为重要。
目前国内外使用的流量识别方法主要包括基于传输层端口、应用层协议有效载荷和基于流量统计特征识别。基于传输层端口号的识别方法,该方法根据数据包首部的源端口号或目的端口号识别常见的流量,如HTTP,SMTP,TELENT等,该方法原理简单,容易实现。基于应用层签名的识别方法也叫做深度包检测DPI方法,所谓“深度”是和普通的报文分析层次相比较而言,普通报文检测仅分析IP包的五元组信息即{源地址目的地址,源端口,目的端口,协议类型},而DPI除了对前面的层次进行分析外,还增加了应用层协议有效载荷分析,从而识别各种应用业务类型。基于流量统计特征的识别方法基于一系列流量的统计行为特征,建立流量特征模型,通过分析会活连接流的包长、连接速率、传输字节量、包与包之间的间隔等信息来与流量模型对比,从而实现对应用业务类型的鉴别。与基于应用层签名的流量识别方法相比,基于流量统计特征的流量识别方法有以下优点:(1)易于检测加密的流量;(2)易于检测特征有效载荷未知的应用层流量;适用于对安全和网络性能要求较高的网络。而且由于基于流量特征的流量识别方法一般都只需要对所关注的流量特征的统计信息,不需要像基于签名特征的流量检测法那样对每个包进行净荷匹配,所以效率较高,基于DPI的带宽管理系统的处理能力达到线速1Gbps左右,而基于流量统计特征识别的系统则可以达到线速10Gbps的流量监控能力,完全可以满足运营商需求,不会成为网络的瓶颈;对硬件的要求相对较低,成本较低。但基于流量特征的检测方法也并非十全十美,它的缺点在于:(1)识别方法较为复杂;(2)识别精度不如基于应用层签名流量识别方法,并且很难对应用层流量进行准确地实时的分类。由于DPI采用逐包分析、模式匹配技术,因此,可以对流量中的具体应用类型和协议做到比较准确的识别,而基于流量统计特征的方法仅对流量行为分析,因此只能对应用类型进行笼统分类。
目前,由于端口号的滥用,尤其是如P2P、被动FTP等类型业务采用动态端口号,使得单纯基于传输层端口号进行业务识别的方法失去了有效性。而针对载荷特征的方法,由于涉及较为复杂的操作,不适用于高速骨干网的流量识别。同时采用机器学习方法进行流量识别的方法,由于其计算复杂性和准确率等问题,不适于网络设备的硬件实现,因而限制了其在高速骨干网的应用。
发明内容
本发明的目的是提供一种基于层次化特征分析的TCP、UDP流量在线识别方法和装置。通过提取TCP、UDP流中的端口号与特征字段与库中的存储进行匹配同时结合机器学习方法,利用数据流的统计信息,提取一个数据流中头部若干包的包长、修正的包间隔时间等参数,训练贝叶斯决策树模型,利用得到的模型对前两个阶段尚未识别的业务进行识别。利用层次化的结构,输出结果为各部分结果的互补。本发明提供的方法包括以下步骤:
步骤1,前期真实流量数据的获取及梳理:采集多个网络真实流量数据集,这些数据集在不同时间采自于待部署网络。通过查找数据流的起始数据包,以及{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将所得流量数据集分离为不同的TCP、UDP流,使得流量数据集就转换为TCP流与UDP流的集合。
步骤2,依端口号划分数据流:将步骤1中获得的TCP与UDP流分别按照事先划分的业务类型的常用端口号进行划分,对于端口号不易确定的常见业务类型以及P2P型业务统一划分到未知端口区。这样TCP与UDP数据流依照端口号划分成了数据流块。
步骤3,规划层次识别模型下各层需识别的业务类型:本着识别准确率高以及处理高效的原则,对于第一层采用常用端口号识别的业务类型应具有端口号较为固定且不易被其他业务类型占用,对于此类型的业务划分到第一层进行识别。第二层采用数据包有效载荷识别的业务类型应具有协议字段较为固定、易于提取等特点。第三层利用基于数据流头部特征采用机器学习的方法进行业务识别,其识别的业务类型应具有的特点是第一、二层处理难度较大,如加密、特征字段不明显型以及特征字段难以提取的流量及UDP型流量等。依照上述原则在对网络中所有流量业务类型划分的基础上对各层待识别的业务类型进行规划。
步骤4,端口号及协议特征字段的提取:对步骤3中第一二层采用基于端口号和有效载荷的方法所要识别的业务类型的端口号及协议特征字段进行提取,可以采用协议分析法同时结合前人的工作经验,必要情况下也可以人为在终端上产生流量并在传输路径上加以采集然后做分析。值得一提的是,端口号及协议特征字段的提取都是在流的基础上的操作,协议类型与特征字段存在一对多的情况,所以应选取有效的特征字段但其数量可以不定。
步骤5,数据流头部特征提取:在不同时间采集待部署网络真实流量数据集,按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将采集到的数据集进行分类,分成不同的TCP、UDP流。提取每条流中关于数据包的统计特征,并按照数据包在该流的先后顺序构建一个特征序列。对于TCP数据流通过查找数据流的起始数据包,如其Set-up包等确定流的开始,而对于UDP数据流由于其没有明显的起始数据包,通常通过限定时间的方法获得截取,同样按照五元组将其分为不同的UDP流。
步骤6,端口号、协议特征字段及数据流头部特征存储:步骤4中得到的端口号和协议特征字段按照与协议相对应的模式进行存储,同时将步骤5中得到的数据流头部特征进行存储以用于后一阶段机器学习分类器模型的训练。此步骤中可以设置不同的存储模块也可以同一存储模块划分成不同的存储区域。同时应注意特征字段库的更新。
步骤7,训练机器学习分类模型:利用步骤6中存储的数据流头部特征的数据对贝叶斯决策树分类器进行训练得到贝叶斯决策树分类模型,由于TCP与UDP数据流的差异性,此时针对TCP流和UDP流分别构建分类器,后期分别对TCP和UDP进行模型应用。
步骤8,提取待分析数据流的端口号与协议特征字段:按照数据包在该数据流中到达的先后顺序,提取其端口号与协议特征字段并予以存储,可以采用协议分析手段并结合前人工作经验。
步骤9,端口及协议字段匹配与业务标记:将步骤8中提取到的端口号和特征字段与存储模块进行匹配,如果发现存在匹配状态则标记为存储模块中相对应的业务类型。如果端口为相应的存储模块中的端口则标记为其对应业务类型,同样发现匹配的特征字段也标记为相应的业务类型。对于匹配过程采用高效的匹配机制或算法将有效提高此过程效率。
步骤10,提取待分析数据流统计特征值:此阶段处理的数据流为经过步骤9尚未做出业务类型标记的数据流。同样按照数据流数据包在该数据流中到达的先后顺序,依次提取这些数据包的统计特征如包长、到达时间间隔统计属性值等组成一个特征序列,并予以存储。
步骤11,利用学习模型分类:利用步骤7中训练得到的机器学习模型以及步骤10中的数据流的统计特征值作为输入对尚未识别的数据流进行分类。
步骤12,分类结果汇总输出:将步骤9与步骤11中的结果汇总输出。
本发明还提供了一种基于本方法的流量在线识别装置,其至少包括:
数据流分离模块,完成两方面工作,一从监测流量中按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组对TCP、UDP流进行数据流分离,以便于提取特征和后期的流量管理;二将TCP、UDP流按照特定的端口号划分成TCP、UDP数据流块。
特征字段及流属性提取模块,从数据流块中提取特征字段以及按顺序提取头部若干个数据包的特征,组成特征序列;
端口号、特征字段匹配模块,完成提取端口号协议特征字段与存储库的比对;
标记检测模块,检测到达的数据包的业务类型是否已经被标识;
贝叶斯决策树模型分类模块,完成利用流属性值的离线训练生成模型实现实时的在线分类。
端口号协议特征字段及流属性值存储模块,存储通过前期采集数据分析得到的端口号、协议特征,以及离线训练学习模型所需要的流属性参数值的存储。
分类结果汇总显示模块,将两个阶段的分类结果汇总显示。
附图说明
为了更清楚地说明本发明实施例,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显然地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得的更多的附图。
图1是本发明一个实施例提供的实时在线流量识别方法流程图;
图2是本发明一个实施例提供的流量识别装置的结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
图1为本发明一个实施例提供的流量识别方法的流程图,如图1所示,该方法包括:
S101、收集多个真实网络流量数据集并梳理成TCP与UDP流的集合;
网络流量识别装置一般部署在一定的网络环境中,为了提高协议特征字段库的精确度,需要在待部署的网络中布置测量设备,从网络中采集真实流量数据集。其中,该流量数据集包括用于通过端口号、有效载荷检查等方式确定流量协议类型以及提取特征字段所需的信息,同时包含数据包长、包间隔时间等后续步骤所需的特征参数;显然,S101所述的真实流量数据集可通过探针方式在承载众多用户的网络中获得,同时也包括其它方式获得的真实流量,如人为在某些终端上产生某种特定业务类型流量并在传输路径上加以采集。采集完成后把流量按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组的形式将数据集分离为不同的流,即TCP与UDP流,这样流量数据集就变为了TCP与UDP流的集合。
S102、依端口号把数据流划分成数据流块;
经过S101之后数据流为TCP流与UDP流的集合,经过S102将TCP流与UDP流按照约定的端口号分别划分成TCP流块与UDP流块,以做后续处理。
S103、端口号、协议特征字段提取;
对第一阶段所要识别的业务类型的端口号及协议特征字段进行提取,可以采用协议分析法同时结合前人的工作经验。同样,必要情况下也可以人为在终端上产生流量并在传输路径上加以采集然后做分析。
S104、数据流头部特征提取;
本流量识别方法中都是针对数据流进行处理,把流量按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将S101所得流量数据集分离为不同的流,即TCP与UDP流,这样流量数据集就变为了TCP与UDP流的集合。其中,TCP流的头部的判断依据可以使用但不限于TCP的Setup、Setup/ACK、ACK数据包,并且一个数据流中数据包必须按照达到观测点的先后顺序排列。而对于UDP数据流由于其没有明显的起始数据包,通常通过限定时间的方法获得截取,同样按照五元组将其分为不同的UDP流。在此,利用协议分析法,获得TCP和UDP数据流的业务协议类型,如WWW、MAIL、FTP、P2P、Service、IM等。然后对于TCP与UDP数据流分别提取每条流中关于数据包的统计特征,并按照数据包在该流的先后顺序构建一个特征序列。即需要提取每条流头部若干个包的包长、修正包间隔时间以及传送方向等若干属性对应的参数值,其包数可以根据实际测试情况加以调整,实验可知理想数目为5-10。由于包长和修正间隔时间范围较大且需要离散化,可能需要数据的归一化处理,如采用Log函数,arctan函数对原始数据进行处理,并选取合适的离散刻度。同时,由于部分数据包因为丢失和延迟过大引起重传,此部分数据可以剔除以提高精确度。
S105、端口号、协议特征字段及数据流头部特征存储;
此发明实例中需要提取第一层识别中需要识别的业务协议类型对应的端口号及第二层待识别业务特征字段以及第三层机器学习构建分类模型过程中需要输入的数据流的属性对应的参数值,此过程有S103及S104完成;S104过程中,每一条流可以获得如下的特征序列:{{第一个包长,第一个修正包间隔时间,第一个包传送方向},{第二个包长,第二个修正包间隔时间,第二个包传送方向},{第三个包长,第三个修正包间隔时间,第三个包传送方向},……,{第n个包长,第n个修正包间隔时间,第n个包传送方向}},其中,n为使用的数据流头部数据包的数目。对于所用的数据流的属性的选择依据是有模型训练阶段利用某些属性进行训练得到的分类准确率的大小。将S103过程获得的协议特征序列及S104获得的属性对应的如上的特征序列进行存储。需要注意的是,此时的数据流的业务类型已有前续过程识别完成,从而可作为下一步中机器学习模型训练的输入。
S106、训练机器学习分类模型;
机器学习方法从思考问题的一般性角度出发,完成从获取信息,提取特征建立模型和使用模型的完整过程。机器学习算法性能的好坏决定了模型的分类效果的差异。本发明中采用的贝叶斯决策树算法结合了贝叶斯与决策树两大经典理论的优点,采用混合式的分类算法。利用S104部分提取的训练所需属性的参数值及其对应的业务的类型作为训练过程输入,输出贝叶斯决策树分类模型。
S107,提取待分析数据流的端口号并与存储库匹配;
按照数据包在该数据流中到达的先后顺序,采用协议分析方法提取数据包端口号同时与存储库进行匹配,如果有匹配项则标记为相应的业务类型。
S108、提取待分析数据流数据包的特征字段并与已知的协议特征库进行匹配,确定其业务类型;
按照数据包在该数据流中到达的先后顺序,采用协议分析方法提取数据包特征字段同时与存储库进行匹配,如果有匹配项则标记为相应的业务类型。
S109、对于经过S107、S108后尚未确定其业务类型的数据流,提取该数据流的数据包特征;
对于到达的一个未知业务类型TCP或UDP数据流,从到达的第一个数据包开始分析,提取这个流的属性值,数据包长,到达间隔时间,传送方向以及平均包长等。如果S104中使用了前n个包的特征,那么S109也将提取该数据流前n个包的特征,组成一个特征序列:{{第一个包长,第一个修正包间隔时间,第一个包传送方向},{第二个包长,第二个修正包间隔时间,第二个包传送方向},{第三个包长,第三个修正包间隔时间,第三个包传送方向},……,{第n个包长,第n个修正包间隔时间,第n个包传送方向}},其中,n为使用的数据流头部数据包的数目。
S110、利用机器学习获得的模型进行分类;
利用S106中训练得到的机器学习模型以及S109中的数据流的统计特征值作为输入对尚未识别的数据流进行分类,最后输出得到尚未识别数据流的业务类型。对于经过机器学习类算法训练得到的模型,由于最终的类别的化属是基于概率型的,具有最大概率的类别即作为其输出,因此总会存在一定的误差。
S111、分类结果输出;
将S107、S108与S110中的结果汇总输出。
图2提供了本发明一个实施例提供的流量识别装置的结构示意图。从功能上看,可以分为在线和离线两个部分。离线部分主要完成端口号、协议特征字段库以及机器学习分类模型的构造;在线部分主要负责识别未知数据流的业务类型。其中,前期数据流量采集211、数据流分离212、数据流端口号及特征字段提取存储213、214以及TCP、UDP分类模型的构建可在装置部署前完成,因此不是使用流量识别的装置或者系统的必要组成部分。而数据流分离模块221、端口号提取及匹配模块222、特征字段提取及匹配模块223,业务类型标记检测模块224,数据流属性提取模块225、贝叶斯决策树模型分类模块226及结果输出模块227一般应在使用流量识别的装置或系统中出现。
每一模块具体功能和处理流程如下:在带有流量识别的装置或系统使用前,需要使用探针等手段进行前期数据采集211,数据流分离212,数据流端口号与特征字段及流属性提取213,以及构建端口号、协议特征字段库与业务类型匹配的存储模块214(包含215过程训练的输入数据流的属性的参数值)和贝叶斯决策树机器学习模型的训练模块215。其中,端口号、协议特征字段库及的存储模块214一般可以置于装置中的存储器如ROM,FLASN等。当未知业务类型的流量进入流量识别装置后,数据流分离模块221按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将流量按照数据流分离开来,进而把TCP流与UDP流分别按照事先划分的业务类型的常用端口号将其划分成数据流块。端口号、特征字段提取模块222、223按数据包先后顺序,依次提取端口号、特征字段并完成相应的匹配过程,同时对识别的流量进行业务标记。数据流属性提取模块225提取尚未识别业务类型数据流的包长、修正包间隔时间、传送方向等流统计参数,形成特征序列,待分析的数据包的个数即为前面所提到的n值。然后将数据流送入下一层利用贝叶斯决策树模型进行分类。完成图1中S110部分的工作。最后将综合三个层次的分类结果进行显示输出。
本实施例提供的方法和装置,采用基于端口号、有效载荷和机器学习相结合的方法,采用层次化的分类结构,可以有效的识别UDP与TCP流的业务类型,同时保证了准确率。贝叶斯决策树算法克服了贝叶斯和决策树单一分类模型的缺陷,采用混合分类模型,结合了决策树与贝叶斯理论的优点,很好的提升了学习模型的分类性能。训练属性的选择上使用了数据包本身的基于流的属性;使用修正包间隔时间,增强了协议特征的显著性,避免了往返时延对于结果的影响。仅使用数据流头部若干个包的特征,不需要数据流整体信息,因此可以方便的实现流量的在线识别。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于层次化特征分析的TCP、UDP流量在线识别方法,其特征在于包括以下步骤: 
步骤1,前期真实流量数据的获取及梳理:采集多个网络真实流量数据集,这些数据集在不同时间采自于待部署网络;通过查找数据流的起始数据包,以及由源地址、目的地址、源端口、目的端口、传输层协议类型构成的五元组将所得流量数据集分离为不同的TCP、UDP流,使得流量数据集就转换为TCP流与UDP流的集合; 
步骤2,将步骤1中获得的TCP流与UDP流分别按照事先划分的业务类型的常用端口号进行划分,对于端口号不易确定的业务类型以及P2P型业务统一划分到未知端口区;这样步骤1中的TCP流与UDP流依照端口号被划分成了数据流块; 
步骤3,规划层次识别模型下各个层次阶段需识别的业务类型:本着识别准确率高以及处理高效的原则,对于第一层采用常用端口号识别的业务类型应具有端口号较为固定且不易被其他业务类型占用,对于此类型的业务划分到第一层进行识别;第二层采用数据包有效载荷识别的业务类型应具有协议字段较为固定、易于提取特点;第三层利用基于数据流头部特征采用机器学习的方法进行业务识别,其识别的业务类型应具有的特点是第一、二层处理难度较大,不易识别的业务,依照上述原则在对网络中所有流量业务类型划分的基础上对各层待识别的业务类型进行规划; 
步骤4,端口号、协议特征字段的提取:对步骤3中第一二层采用基于端口号和有效载荷的方法所要识别的业务类型的端口号及协议特征字段进行提取,采用协议分析法同时结合前人的工作经验,必要情况下通过人为在终端上产生流量并在传输路径上加以采集然后做分析; 
步骤5,数据流头部特征提取:在不同时间采集待部署网络真实流量数据集,按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将采集到的数据集进行处理,分成不同的TCP、UDP流,提取数据流中关于数据包的统计特征,并按照数据包在该流的先后顺序构建一个特征序列; 
步骤6,端口号、协议特征字段及数据流头部特征存储:将步骤3步骤4中得到的端口号和协议特征字段按照与业务相对应的模式进行存储,同时存储步骤5中得到的数据流头部特征以用于后一阶段机器学习分类器模型的训练;此步骤中可以设置不同的存储模块也可以同一存储模块划分成不同的存储区域; 
步骤7,训练机器学习分类模型:利用步骤6中存储的数据流头部特征的数据对贝叶斯决策树分类器进行训练得到贝叶斯决策树分类模型,此时针对TCP流和UDP流分别构建分类器; 
步骤8,提取待分析数据流的端口号完成端口匹配和业务标记:按照数据包在该数据流中到达的先后顺序,提取端口号并予以存储,同时与存储模块进行匹配,如果发现存在匹配项则标记为存储模块中相对应的业务类型;此属第一层处理范畴; 
步骤9,协议字段提取匹配与业务标记:按照数据包在该数据流中到达的先后顺序,提取协议特征字段并予以存储,同时将特征字段与存储模块进行匹配,如果发现存在匹配状态则标记为存储模块中相对应的业务类型,此属第二层处理范畴: 
步骤10,提取待分析数据流统计特征值:此阶段处理的数据流为经过步骤8、9后尚未做出业务类型标记的数据流块;同样按照数据流数据包在该数据流中到达的先后顺序,依次提取这些数据包的统计特征包长、到达时间间隔组成一个特征序列,并予以存储,此属第三层前期处理范畴; 
步骤11,利用学习模型分类:利用步骤7中训练得到的机器学习分类模型以及步骤10中的数据流的统计特征值作为输入对尚未识别的数据流进行业务分类,此属第三层处理范畴; 
步骤12,分类结果汇总输出,将步骤9与这步骤11中的结果汇总输出。 
2.根据权利要求1所述的方法,其特征在于,设置按常用端口号对TCP、UDP数据流的划分以及对分层处理的业务类型的规划过程,对前期的数据进行搜集,并进行人工分类,提取端口号和有效的特征字段,构建端口号、协议特征字段与业务类型相匹配的库同时利用获取的数据流的属性统计值离线训练生成两个相对独立的针对TCP流和UDP流的分类器模型。 
3.根据权利要求1所述的方法,其特征在于,依照端口号把数据流划分为数据流块。 
4.根据权利要求1所述的方法,其特征在于,能够同时识别TCP和UDP类型的流量以及加密型的数据流。 
5.根据权利要求1所述的方法,其特征在于,采用层次型的模型,融合传统与新兴理念,利用基于常用端口号以及有效载荷同时结合基于机器学习贝叶斯决策树模型的识别方法。 
6.根据权利要求1所述的方法,其特征在于,识别未知业务类型的数据流时,仅提取数据流头部若干包的特征,而不需要提取整个数据流的属性。 
7.根据权利要求1所述的方法,用于TCP、UDP业务的在线流量识别方法及装置,其特征在于,采集的特征序列遵照同一数据流中数据包到达的顺序。 
8.根据权利要求1所述的方法,用于TCP、UDP业务的在线流量识别方法及装置,其特征在于,对UDP型流量的处理采用限定时间段的方法获得数据流。 
9.根据权利要求1所述的方法,其特征在于,步骤5、10中的提取的TCP、UDP流包的特征包括多种类型,具体视离线训练阶段各特征对分类器性能的影响。 
10.一种基于层次化特征分析的TCP、UDP流量在线识别装置,其特征在于, 
数据流分离模块,从监测流量中按照由源地址、目的地址、源端口、目的端口、传输层协议类型构成的五元组进行数据流分离,同时按照端口号把数据流划分为数据流块; 
端口号提取及匹配模块、特征字段提取及匹配模块,完成提取端口与特征字段与存储库的查找匹配,以及按照最大概率或者加权最大概率原则进行仲裁,并标记业务类型; 
贝叶斯决策树模块,利用贝叶斯决策树算法训练得到学习模型,对端口与有效载荷无法识别的流量业务类型进行识别; 
流属性提取模块,从数据流中按顺序提取头部若干个数据包的统计特征包长、到达时间间隔特征,组成 特征序列; 
分类结果汇总显示模块,将三层识别方法的识别结果汇总输出。 
CN201110312763.6A 2011-10-17 2011-10-17 基于层次化特征分析的tcp、udp流量在线识别方法和装置 Active CN102315974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110312763.6A CN102315974B (zh) 2011-10-17 2011-10-17 基于层次化特征分析的tcp、udp流量在线识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110312763.6A CN102315974B (zh) 2011-10-17 2011-10-17 基于层次化特征分析的tcp、udp流量在线识别方法和装置

Publications (2)

Publication Number Publication Date
CN102315974A CN102315974A (zh) 2012-01-11
CN102315974B true CN102315974B (zh) 2014-08-27

Family

ID=45428811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110312763.6A Active CN102315974B (zh) 2011-10-17 2011-10-17 基于层次化特征分析的tcp、udp流量在线识别方法和装置

Country Status (1)

Country Link
CN (1) CN102315974B (zh)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102780588B (zh) * 2012-05-22 2014-12-03 华为技术有限公司 深度报文检测方法、装置、网络设备及系统
CN102694733B (zh) * 2012-06-06 2015-03-25 济南大学 一种获得具有准确应用类型标识的网络流量数据集的方法
CN102739457B (zh) * 2012-07-23 2014-12-17 武汉大学 一种基于dpi和svm技术的网络流量识别方法
CN102801634B (zh) * 2012-08-29 2016-04-27 珠海网博信息科技有限公司 一种三位一体网络流量智能识别方法
CN103475537A (zh) * 2013-08-30 2013-12-25 华为技术有限公司 一种报文特征提取方法和装置
CN103973589B (zh) * 2013-09-12 2017-04-12 哈尔滨理工大学 网络流量分类方法及装置
WO2016049802A1 (en) * 2014-09-29 2016-04-07 Hewlett-Packard Development Company, L.P. Adaptive split and compression
CN105991373B (zh) * 2015-04-30 2019-06-25 杭州迪普科技股份有限公司 一种应用协议识别方法及装置
CN106301874A (zh) * 2015-06-26 2017-01-04 中兴通讯股份有限公司 端口匹配方法、装置、控制单板、电交叉单板及网管设备
CN108028807B (zh) * 2015-10-09 2021-03-05 华为技术有限公司 用于在线自动识别网络流量模型的方法和系统
CN105512173B (zh) * 2015-11-23 2019-02-01 国云科技股份有限公司 一种数据采集调查及统计模型实现方法
WO2018018572A1 (zh) * 2016-07-29 2018-02-01 华为技术有限公司 样本数据采集方法、装置及系统
CN106330603A (zh) * 2016-08-22 2017-01-11 上海国云信息科技有限公司 连接检测方法及系统、客户端、及dpi设备
WO2018036641A1 (en) * 2016-08-26 2018-03-01 Huawei Technologies Co., Ltd. Device and method arranged for executing information processing on a data stream
CN108234345B (zh) * 2016-12-21 2021-11-30 中国移动通信集团湖北有限公司 一种终端网络应用的流量特征识别方法、装置和系统
CN107104852A (zh) * 2017-03-28 2017-08-29 深圳市神云科技有限公司 监控云平台虚拟网络环境的方法及装置
CN108366042B (zh) * 2017-04-07 2020-02-07 北京安天网络安全技术有限公司 一种基于探针的自动流量特征收集方法及系统
CN107222343A (zh) * 2017-06-03 2017-09-29 中国人民解放军理工大学 基于支持向量机的专用网络流分类方法
CN107292154B (zh) * 2017-06-09 2020-12-11 奇安信科技集团股份有限公司 一种终端特征识别方法及系统
CN107395693A (zh) * 2017-07-04 2017-11-24 大连工业大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择设备
CN107547511B (zh) * 2017-07-11 2020-10-30 新华三信息安全技术有限公司 一种报文处理方法及装置
CN109600790B (zh) * 2017-09-30 2021-09-14 华为技术有限公司 获取特征参数的方法和装置
CN107967311B (zh) * 2017-11-20 2021-06-29 创新先进技术有限公司 一种对网络数据流进行分类的方法和装置
CN109905328B (zh) 2017-12-08 2021-06-01 华为技术有限公司 数据流的识别方法和装置
CN109951347B (zh) * 2017-12-21 2021-11-19 华为技术有限公司 业务识别方法、装置及网络设备
CN108183768B (zh) * 2017-12-26 2019-08-20 广东欧珀移动通信有限公司 数据传输方法及相关设备
CN108289093B (zh) * 2017-12-29 2021-09-17 北京拓明科技有限公司 App应用特征码库的构建方法及构建系统
CN107948208A (zh) * 2018-01-05 2018-04-20 宝牧科技(天津)有限公司 一种网络应用层透明加密的方法及装置
CN110233769B (zh) * 2018-03-06 2021-09-14 华为技术有限公司 流量检测方法和设备、样本训练方法和设备、以及介质
CN108462707B (zh) * 2018-03-13 2020-08-28 中山大学 一种基于深度学习序列分析的移动应用识别方法
CN108712292B (zh) * 2018-05-29 2021-04-02 广州大学 一种基于深度学习的网络流类型预测方法
CN109150742A (zh) * 2018-08-13 2019-01-04 南京中新赛克科技有限责任公司 一种基于网络处理器的流量筛选系统及其方法
CN109246027B (zh) * 2018-09-19 2022-02-15 腾讯科技(深圳)有限公司 一种网络维护的方法、装置和终端设备
CN109361618B (zh) * 2018-10-11 2022-10-28 平安科技(深圳)有限公司 数据流量标记方法、装置、计算机设备及存储介质
CN114513456A (zh) * 2018-10-12 2022-05-17 华为技术有限公司 一种业务流处理方法及装置
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN109151880B (zh) * 2018-11-08 2021-06-22 中国人民解放军国防科技大学 基于多层分类器的移动应用流量识别方法
CN109726744B (zh) * 2018-12-14 2020-11-10 深圳先进技术研究院 一种网络流量分类方法
CN111385273B (zh) * 2018-12-29 2022-07-01 中国移动通信集团北京有限公司 一种物联网业务流程识别方法、装置、电子设备及介质
CN109871948A (zh) * 2019-03-26 2019-06-11 中国人民解放军陆军工程大学 一种基于二维卷积神经网络的应用层协议识别方法
CN110049037B (zh) * 2019-04-15 2021-12-14 兰州理工大学 一种基于数据链路层的网络视频数据获取方法
CN110460488B (zh) * 2019-07-01 2022-10-18 华为技术有限公司 业务流识别方法和装置、模型生成方法和装置
CN110380989B (zh) * 2019-07-26 2022-09-02 东南大学 网络流量指纹特征二阶段多分类的物联网设备识别方法
CN111541621B (zh) * 2019-12-25 2021-09-07 西安交通大学 一种基于转向包间隔概率分布的vpn流量分类方法
CN111314170B (zh) * 2020-01-16 2021-12-03 福建奇点时空数字科技有限公司 一种基于连接统计规律分析的特征模糊p2p协议识别方法
CN111404833B (zh) * 2020-02-28 2022-04-12 华为技术有限公司 一种数据流类型识别模型更新方法及相关设备
CN111917665A (zh) * 2020-07-23 2020-11-10 华中科技大学 一种终端应用数据流识别方法及系统
CN111866995B (zh) * 2020-07-26 2021-01-19 广云物联网科技(广州)有限公司 一种基于微信小程序的智能设备配网方法及系统
CN112003850A (zh) * 2020-08-14 2020-11-27 北京浪潮数据技术有限公司 一种基于云网络的流量监控方法、装置、设备及存储介质
CN112272121B (zh) * 2020-09-21 2022-01-18 中国科学院信息工程研究所 一种用于流量监测的效果验证方法及系统
CN112350956B (zh) * 2020-10-23 2022-07-01 新华三大数据技术有限公司 一种网络流量识别方法、装置、设备及机器可读存储介质
CN114301694B (zh) * 2021-12-29 2024-03-15 赛尔网络有限公司 网络异常流量分析方法、装置、设备及介质
CN115051955B (zh) * 2022-06-22 2023-12-19 东北大学 一种基于三重特征选择和增量学习的在线流分类方法
CN115766471A (zh) * 2022-10-20 2023-03-07 中国舰船研究设计中心 一种基于组播流量的网络业务质量分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202652A (zh) * 2006-12-15 2008-06-18 北京大学 网络应用流量分类识别装置及其方法
CN101902484A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 局域网http应用业务分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860121B2 (en) * 2007-10-31 2010-12-28 Cortina Systems, Inc. Forwarding loop prevention apparatus and methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101202652A (zh) * 2006-12-15 2008-06-18 北京大学 网络应用流量分类识别装置及其方法
CN101902484A (zh) * 2009-05-25 2010-12-01 北京启明星辰信息技术股份有限公司 局域网http应用业务分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于多变的网络环境的网络流量分析》;金红 等;《内蒙古科技与经济》;20110831;正文第65页右栏第2段至第66页左栏第6段 *
金红 等.《基于多变的网络环境的网络流量分析》.《内蒙古科技与经济》.2011,

Also Published As

Publication number Publication date
CN102315974A (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN105871832B (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
US8797901B2 (en) Method and its devices of network TCP traffic online identification using features in the head of the data flow
CN104270392B (zh) 一种基于三分类器协同训练学习的网络协议识别方法及系统
CN102523241B (zh) 基于决策树高速并行处理的网络流量在线分类方法及装置
CN101714952B (zh) 一种接入网的流量识别方法和装置
CN102271090B (zh) 基于传输层特征的流量分类方法及装置
CN101841440B (zh) 基于支持向量机与深层包检测的对等网络流量识别方法
Da Silva et al. Identification and selection of flow features for accurate traffic classification in SDN
Alshammari et al. A flow based approach for SSH traffic detection
CN103200133A (zh) 一种基于网络流引力聚类的流量识别方法
Alshammari et al. Investigating two different approaches for encrypted traffic classification
CN109768981B (zh) 一种在sdn架构下基于机器学习的网络攻击防御方法和系统
CN104102700A (zh) 一种面向因特网不平衡应用流的分类方法
CN101562534A (zh) 一种网络行为分析系统
CN101645806A (zh) Dpi和dfi相结合的网络流量分类系统及分类方法
CN104468567B (zh) 一种网络多媒体业务流识别和映射的系统及方法
CN104092588B (zh) 一种基于SNMP与NetFlow结合的网络异常流量检测方法
CN105592487A (zh) 一种lte网络业务流量评估方法及装置
CN109299742A (zh) 自动发现未知网络流的方法、装置、设备及存储介质
CN108028807A (zh) 用于在线自动识别网络流量模型的方法和系统
CN101321097A (zh) 基于净荷深度检测的腾讯网络直播业务识别方法
CN110266603A (zh) 基于http协议的身份认证业务网络流量分析系统及方法
CN112291226B (zh) 一种网络流量的异常检测方法及装置
CN105553787B (zh) 基于Hadoop的边缘网出口网络流量异常检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant