CN102883182A - 编码级多媒体流分类方法 - Google Patents

编码级多媒体流分类方法 Download PDF

Info

Publication number
CN102883182A
CN102883182A CN2012103649240A CN201210364924A CN102883182A CN 102883182 A CN102883182 A CN 102883182A CN 2012103649240 A CN2012103649240 A CN 2012103649240A CN 201210364924 A CN201210364924 A CN 201210364924A CN 102883182 A CN102883182 A CN 102883182A
Authority
CN
China
Prior art keywords
stream
code level
media stream
code
level media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103649240A
Other languages
English (en)
Other versions
CN102883182B (zh
Inventor
张大陆
周华磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201210364924.0A priority Critical patent/CN102883182B/zh
Publication of CN102883182A publication Critical patent/CN102883182A/zh
Application granted granted Critical
Publication of CN102883182B publication Critical patent/CN102883182B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种编码级多媒体流分类方法,该方法至少包括以下步骤:1)采集流,通过分类得到该流的编码类型,并分析该流的统计特征;所述该流的编码类型和获得的各个统计特征的数值构成一样本;所述样本构成数据集;所述统计特征包括平均报文长度、平均包间间隔、报文长度标准差、包间间隔标准差和平均比特率;2)从所述数据集中划分出训练集,并采用所述训练集训练流分类器,得到编码级多媒体流分类器;3)采用所述编码级多媒体流分类器对待分类流的统计特征进行分析,得到所述待分类流的编码类别。本发明的编码级多媒体流分类方法利用流的初始报文的统计特征进行分类,可获得高分类准确率,并支持在线分类。

Description

编码级多媒体流分类方法
技术领域
本发明属于网络通信领域,涉及一种流分类方法,特别是涉及一种编码级多媒体流分类方法。
背景技术
随着视频点播、视频会议、VOIP等流媒体应用的普及,网络中多媒体流量的比例正逐步提高,网络运营商也正努力实现对多媒体流的识别,从而能够根据不同的策略对它们进行相应的处理。然而,相关研究表明,网络中的QoS参数对于不同应用类型甚至不同编码的多媒体流所产生的影响存在差异。因此,对于多媒体流的编码级分类是面向用户体验的网络管理亟需解决的问题。
当前的流分类方法主要包括基于特定字段的分类、基于主机行为的分类、深度报文检测(DPI)以及机器学习。基于特定字段的分类利用报文头部的端口、协议域等进行流分类,但目前动态端口技术以及私有协议的大量使用导致越来越多的流量无法被这类方法识别。基于主机行为的分类方法利用主机之间的连接模式进行流分类,但这类方法依赖于拓扑位置和连接状态,无法进行大规模应用。DPI技术通过扫描报文的载荷进行关键字的匹配,从而完成流分类,通常这类方法具有较高的识别准确率,但它们需要较长的搜索时间而且无法识别加密流量,同时也涉及用户隐私等问题。基于机器学习的流分类方法则是利用报文级别或者流级别特征(比如报文长度、包间间隔、流的持续时间等)设计分类器并应用于流分类,这类方法能够较好地应对动态端口、私有协议、加密流量等问题,因此也成为了目前流分类研究领域的热点。
基于机器学习算法的流分类器主要分为两类:离线分类器和在线分类器。离线分类器利用完整流(包含流的所有数据包)的统计特征完成分类。A. Moore等提出了一种基于朴素贝叶斯算法的流分类方法,该方法利用流的200多个特征获得了95%以上的分类准确率。R. Sun等提出了基于随机神经网络的流分类方法,并利用流的22个特征获得了90%左右的分类准确率。但这类方法需要统计每条流所包含的所有报文,因此只能进行离线分类,无法满足在线业务的需求。在线分类器则利用流的少量起始数据包的统计特征完成分类,因此能够进行实时的流分类。L.Bernaille等提出了一种基于观察窗口的流分类器,当观察窗口的大小设置为5时,即只提取流的前5个报文的统计特征,该分类器采用聚类算法,并获得了90%左右的总体分类准确率。W.Li等基于同一思想,设计了基于C4.5的分类器,并获得了高达99.8%的分类准确率。
然而,已有的基于机器学习的流分类方法主要用于流量所属应用类型的分类,比如将IP流分为WWW、P2P、ATTACK、Multimedia等不同类型的流。也有部分研究专门针对多媒体流的分类,但仍然面向具体应用层面的分类,比如将多媒体流分为Skype、IPTV、IM等类型,而很少有细化到编码级的多媒体流分类方法。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种编码级多媒体流分类方法,用于解决现有技术中在线多媒体流分类准确率不高的问题。
为实现上述目的及其他相关目的,本发明提供一种编码级多媒体流分类方法,该方法至少包括以下步骤:
1)采集流,通过分类得到该流的编码类型,并分析该流的统计特征;所述该流的编码类型和获得的各个统计特征的数值构成一样本;所述样本构成数据集;所述统计特征包括平均报文长度、平均包间间隔、报文长度标准差、包间间隔标准差和平均比特率;
2)从所述数据集中划分出训练集,并采用所述训练集训练流分类器,得到编码级多媒体流分类器;
3)采用所述编码级多媒体流分类器对待分类流的统计特征进行分析,得到所述待分类流的编码类别。
可选地,于所述步骤3)中,在采用所述编码级多媒体流分类器对待分类流进行分析之前还包括如下步骤:路由器接收报文并利用该报文的五元组从其维护的流表中查找该报文所属的流,若无法找到,则在流表中新建待分类流,并等待下一个报文;若能够找到,则接着判断该流是否已分类,若已分类,则获取该流编码类型并等待下一个报文,若未分类,则将该流汇聚,并更新计数器,然后判断该待分类流报文数量是否达到窗口大小,若未达到,则继续等待下一个报文,若达到窗口大小,则将该待分类流的统计特征输入所述编码级多媒体流分类器。
可选地,所述五元组包括源IP地址、源端口、目的IP地址、目的端口和传输层协议。
可选地,所述窗口大小为整数,其取值范围是10~25。
可选地,于所述步骤2)中,采用机器学习算法训练分类器。
可选地,所述机器学习算法包括C4.5决策树算法、KNN算法和朴素贝叶斯算法中的任意一种。
如上所述,本发明的编码级多媒体流分类方法,具有以下有益效果:利用流的初始报文的统计特征进行分类,在较短的分类延迟情况下准确识别流的类型;支持在线分类,能将多媒体流分类细化到编码级,并达到99.57%的总体分类准确率;同时基于机器学习,不仅适用于现有的编码类型分类,对于其它编码类型,通过学习也可以分类,具有良好的扩展性。
附图说明
图1显示为本发明的编码级多媒体流分类方法采集环境的网络拓扑图。
图2显示为本发明的编码级多媒体流分类方法采集的流的包间间隔与报文长度分布图。
图3显示为本发明的编码级多媒体流分类方法采集的H.264流与MPEG-4流的包间间隔标准差与报文长度标准差分布图。
图4显示为本发明的编码级多媒体流分类方法中训练后得到的多媒体流分类器应用于路由器并进行在线流分类时的分类方法流程图。
元件标号说明
1 互联网
2边缘路由器
3A局域网
31视频服务器
32VOIP客户端
4B局域网
41采集点
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1至图4。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1至图4所示,本发明提供一种编码级多媒体流分类方法,包括以下步骤:
步骤1,采集流,通过分类得到该流的编码类型,并分析该流的统计特征;所述该流的编码类型和获得的各个统计特征的数值构成一样本;所述样本构成数据集;所述统计特征包括平均报文长度、平均包间间隔、报文长度标准差、包间间隔标准差和平均比特率;
具体的,请参阅图1,显示为本发明的编码级多媒体流分类方法采集环境的网络拓扑图。如图1所示,采集环境的网络拓扑图包括互联网1,边缘路由器2,A局域网3和B局域网4,其中A局域网3包括视频服务器31和VOIP客户端32,B局域网4包括采集点41。在实验环境中的采集点41采集流,并通过手工分类的方法对采集到的流进行编码级的分类,本实施例中,采集的流来源于A局域网3。
Figure BDA0000219723641
表1
请参阅表1,显示为本发明的编码级多媒体流分类方法采集到的流集。如表1所示,采集的多媒体流的编码类型为G.711、G.729、MPEG-4和H.264,但不仅限于以上4种。其中G.711与G.729这两种编码类型的流的应用类型为VOIP,MPEG-4与H.264这两种编码类型的流的应用类型为VOD。需要指出的是,对于应用类型为Tradition的流,比如FTP、HTTP等,其没有编码的概念,将其统一为一类,称为传统(Tradition)类型的流,亦或是非多媒体流,本实施例中,将其编码类型标记为无。本实施例中,共采集了695个流,其中编码类型为G.711的流数量为114个,编码类型为G.729的流数量为95个,编码类型为MPEG-4的流数量为113个,编码类型为H.264的流数量为110个,编码类型为无的传统类型的流数量为263个。
采集到流集后,分析流集中每条流初始的15(此处15为优选值,并不仅限于此数目)个报文的5个统计特征,其中5个统计特征分别为平均包间间隔、平均报文长度、包间间隔标准差、报文长度标准差以及比特率。通过分析得到每条流的5个统计特征的值。将每条流的编码类型和该流的5个统计特征的值构成一样本,即数据集中的每个样本可以描述成编码类型=(平均包间间隔,平均报文长度,包间间隔标准差,报文长度标准差,比特率)的形式。通过以上过程共得到695个样本,所有样本构成数据集。
请参阅图2~图3,平均包间间隔、平均报文长度、包间间隔标准差、报文长度标准差以及比特率这5个统计特征的选定过程如下:首先统计每条流中初始的15(此处15为优选值,并不仅限于此数目)个报文,并从平均包间间隔和报文长度的角度得到所有流的分布,如图2所示,显示为本发明的编码级多媒体流分类方法采集的流的包间间隔与报文长度分布图。从图2中可见,H.264流与MPEG-4流之间的差异并不明显,需要提取更多的统计特征。因此,又从包间间隔标准差和报文长度标准差的角度进行分析,得到H.264与MPEG-4两种流的分布,如图3所示,显示为本发明的编码级多媒体流分类方法采集的H.264流与MPEG-4流的包间间隔标准差与报文长度标准差分布图。从图3中可见,H.264流与MPEG-4流之间的差异非常明显。
Figure BDA0000219723642
表2
同时,可统计得到采集的流的流量模型,请参阅表2,如表2所示,显示为本发明的编码级多媒体流分类方法采集的流的流量模型,从表2中可见,不同编码类型的流的比特率差异也比较明显。
根据上述数据分析,即可选定平均包间间隔、平均报文长度、包间间隔标准差、报文长度标准差以及比特率这5个统计特征作为分类特征。
步骤2,从所述数据集中划分出训练集,并采用所述训练集训练流分类器,得到编码级多媒体流分类器;
具体的,于步骤1中得到数据集后,从所述数据集中划分出训练集,用于训练分类器。本发明的多媒体流分类器基于机器学习算法,包括C4.5决策树算法、KNN算法和朴素贝叶斯算法中的任意一种。本实施例中,优选C4.5决策树算法作为多媒体流分类器的算法,并采用10折交叉验证的方法划分训练集与测试集,用所述训练集训练多媒体流分类器,训练后得到一颗C4.5决策树,并形成编码级多媒体流分类器。
机器学习算法 总体分类准确率
C4.5 99.57%
表3
Figure BDA0000219723643
表4
训练得到的编码级多媒体流分类器可被用于编码级的流分类。采用划分出的所述测试集对编码级多媒体流分类器进行性能的验证。请参阅表3,显示为本发明的编码级多媒体流分类方法训练后得到的编码级多媒体流分类器经性能验证表现出的总体分类准确率,其已经能够达到99.57%的高分类准确率。请参阅表4,显示为本发明的编码级多媒体流分类方法在观察窗口大小为15时编码级多媒体流分类器对每一编码类型流的查全率与查准率,从表中可知,对于每一类流,该分类方法均可获得98%以上的查全率和查准率。
步骤3,采用所述编码级多媒体流分类器对待分类流的统计特征进行分析,得到所述待分类流的编码类别。可选的,在采用所述编码级多媒体流分类器对待分类流进行分析之前还包括对流的一系列预判断和处理过程。
具体的,请参阅图4,显示为本发明的编码级多媒体流分类方法中训练后得到的多媒体流分类器应用于路由器并进行在线流分类时的分类方法流程图。首先,路由器接收报文并提取其头部,利用该报文的五元组从路由器维护的流表中查找该报文所属的流,若无法找到,则在流表中新建待分类流,并等待下一个报文;若能够找到,则接着判断该流是否已分类,若已分类,则获取该流编码类型并等待下一个报文,若未分类,则将该流汇聚,并更新计数器,然后判断该待分类流报文数量是否达到窗口大小,若未达到,则继续等待下一个报文,若达到窗口大小,则将该待分类流的统计特征输入所述编码级多媒体流分类器。所述编码级多媒体流分类器对待分类流的统计特征进行分析,得到所述待分类流的编码类别,然后路由器等待下一个报文,重新开始上述过程。本实施例中,多媒体流分类器利用其训练后得到的决策树对待分类流的统计特征进行分析得到该流的编码类别。
具体的,所述五元组包括源IP地址、源端口、目的IP地址、目的端口和传输层协议。所述窗口大小为整数,其取值范围是10~25,本实施例中,所述窗口大小优选为15。
综上所述,本发明的编码级多媒体流分类方法利用流的初始报文的统计特征进行分类,在较短的分类延迟情况下准确识别流的类型;支持在线分类,能将多媒体流分类细化到编码级,并达到99.57%的总体分类准确率;同时基于机器学习,不仅适用于现有的编码类型分类,对于其它编码类型,通过学习也可以分类,具有良好的扩展性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (6)

1.一种编码级多媒体流分类方法,其特征在于,所述方法至少包括以下步骤:
1)采集流,通过分类得到该流的编码类型,并分析该流的统计特征;所述该流的编码类型和获得的各个统计特征的数值构成一样本;所述样本构成数据集;所述统计特征包括平均报文长度、平均包间间隔、报文长度标准差、包间间隔标准差和平均比特率;
2)从所述数据集中划分出训练集,并采用所述训练集训练流分类器,得到编码级多媒体流分类器;
3)采用所述编码级多媒体流分类器对待分类流的统计特征进行分析,得到所述待分类流的编码类别。
2.根据权利要求1所述的编码级多媒体流分类方法,其特征在于:于所述步骤3)中,在采用所述编码级多媒体流分类器对待分类流的统计特征进行分析之前还包括如下步骤:路由器接收报文并利用该报文的五元组从其维护的流表中查找该报文所属的流,若无法找到,则在流表中新建待分类流,并等待下一个报文;若能够找到,则接着判断该流是否已分类,若已分类,则获取该流编码类型并等待下一个报文,若未分类,则将该流汇聚,并更新计数器,然后判断该待分类流报文数量是否达到窗口大小,若未达到,则继续等待下一个报文,若达到窗口大小,则将该待分类流的统计特征输入所述编码级多媒体流分类器。
3.根据权利要求2所述的编码级多媒体流分类方法,其特征在于:所述五元组包括源IP地址、源端口、目的IP地址、目的端口和传输层协议。
4.根据权利要求2所述的编码级多媒体流分类方法,其特征在于:所述窗口大小为整数,其取值范围是10~25。
5.根据权利要求1或2所述的编码级多媒体流分类方法,其特征在于:于所述步骤2)中,采用机器学习算法训练分类器。
6.根据权利要求5所述的编码级多媒体流分类方法,其特征在于:所述机器学习算法包括C4.5决策树算法、KNN算法和朴素贝叶斯算法中的任意一种。
CN201210364924.0A 2012-09-26 2012-09-26 编码级多媒体流分类方法 Expired - Fee Related CN102883182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210364924.0A CN102883182B (zh) 2012-09-26 2012-09-26 编码级多媒体流分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210364924.0A CN102883182B (zh) 2012-09-26 2012-09-26 编码级多媒体流分类方法

Publications (2)

Publication Number Publication Date
CN102883182A true CN102883182A (zh) 2013-01-16
CN102883182B CN102883182B (zh) 2015-06-03

Family

ID=47484295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210364924.0A Expired - Fee Related CN102883182B (zh) 2012-09-26 2012-09-26 编码级多媒体流分类方法

Country Status (1)

Country Link
CN (1) CN102883182B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640793A (zh) * 2008-08-01 2010-02-03 深圳市朗驰欣创科技有限公司 一种音视频数据的解码方法、系统及解码器
CN101743749A (zh) * 2007-04-17 2010-06-16 数码士有限公司 位流解码装置及方法
CN102271090A (zh) * 2011-09-06 2011-12-07 电子科技大学 基于传输层特征的流量分类方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101743749A (zh) * 2007-04-17 2010-06-16 数码士有限公司 位流解码装置及方法
CN101640793A (zh) * 2008-08-01 2010-02-03 深圳市朗驰欣创科技有限公司 一种音视频数据的解码方法、系统及解码器
CN102271090A (zh) * 2011-09-06 2011-12-07 电子科技大学 基于传输层特征的流量分类方法及装置

Also Published As

Publication number Publication date
CN102883182B (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN102271090B (zh) 基于传输层特征的流量分类方法及装置
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN102307123B (zh) 基于传输层流量特征的nat流量识别方法
CN105787512B (zh) 基于特征选择方法的网络浏览与视频分类方法
CN101645806B (zh) Dpi和dfi相结合的网络流量分类系统及分类方法
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN104052639B (zh) 基于支持向量机的实时多应用网络流量识别方法
CN101841440B (zh) 基于支持向量机与深层包检测的对等网络流量识别方法
EP4280575A3 (en) Multi-phase ip-flow-based classifier with domain name and http header awareness
CN109067612A (zh) 一种基于增量聚类算法的在线流量识别方法
CN104244035A (zh) 基于多层聚类的网络视频流分类方法
CN106330584A (zh) 一种业务流的识别方法及识别装置
CN111953552B (zh) 数据流的分类方法和报文转发设备
CN102984269B (zh) 一种点对点流量识别方法和装置
CN102739457A (zh) 一种基于dpi和svm技术的网络流量识别系统及方法
CN102571946B (zh) 一种基于对等网络的协议识别与控制系统的实现方法
WO2015154484A1 (zh) 流量数据分类方法及装置
CN106789242A (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析引擎
CN104348741A (zh) 基于多尺度分析和决策树的p2p流量检测方法和系统
CN111711545A (zh) 一种软件定义网络中基于深度包检测技术的加密流量智能识别方法
Min et al. Online Internet traffic identification algorithm based on multistage classifier
Qin et al. MUCM: multilevel user cluster mining based on behavior profiles for network monitoring
Jesudasan et al. Generic attributes for skype identification using machine learning
CN101764754A (zh) 基于dpi和dfi的业务识别系统中的样本获取方法
CN102883182B (zh) 编码级多媒体流分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150603

Termination date: 20170926