CN105787512A - 基于新型特征选择方法的网络浏览与视频分类方法 - Google Patents

基于新型特征选择方法的网络浏览与视频分类方法 Download PDF

Info

Publication number
CN105787512A
CN105787512A CN201610113179.0A CN201610113179A CN105787512A CN 105787512 A CN105787512 A CN 105787512A CN 201610113179 A CN201610113179 A CN 201610113179A CN 105787512 A CN105787512 A CN 105787512A
Authority
CN
China
Prior art keywords
data
average
feature
packet
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610113179.0A
Other languages
English (en)
Other versions
CN105787512B (zh
Inventor
董育宁
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610113179.0A priority Critical patent/CN105787512B/zh
Publication of CN105787512A publication Critical patent/CN105787512A/zh
Application granted granted Critical
Publication of CN105787512B publication Critical patent/CN105787512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于新型特征选择方法的网络浏览与视频分类方法,该方法的特征选择是通过计算类别内部以及类别之间的变异系数判断特征的重要程度。该方法相对于现有方法具有更低的计算复杂度,能有效地减少特征选择过程的时间和空间复杂度。同时,将本发明方法运用于Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(即含视频)六种业务分类。实验结果表明,本发明方法可以比现有方法获得更好的分类性能,证明了本发明方法的有效性以及合理性。另外,本发明考虑网页浏览内容因素对于QoS的影响,首次对网页浏览进行了细粒度的分类,能为用户提供更好的QoS保障。

Description

基于新型特征选择方法的网络浏览与视频分类方法
技术领域
本发明涉及模式识别与分类技术领域,特别涉及一种基于新型特征选择方法的网络浏览与视频分类方法。
背景技术
网络业务流的准确识别在网络管理、云计算和大数据中心架构、QoS保障等方面扮演着不可或缺的角色。随着基于HTTP的网络业务(如网页浏览、网络音频、视频等)的不断增长,网络业务流识别与分类面临这巨大的挑战。基于HTTP协议的网页不再是简单的静态文本,而是包含着大量的图片、视频的信息载体,以及承载着各种各样应用的网络平台。随着云计算的兴起,基于HTTP协议的浏览器也为任何设备访问云端数据提供了一种快捷的手段。丰富的网络应用、方便的访问方式极大地提高了用户体验质量,但也给网络流识别与分类带来了巨大的挑战。
传统的分类方法主要有基于端口的方法和基于有效负载的方法。基于端口的方法主要是根据互联网数字分配机构(IANA)建议的端口映射来区分不同的网络应用。但是由于动态端口号和基于HTTP隧道技术的广泛使用,导致基于端口号的分类方法变得不再可靠,识别率降低和分类的准确率不高。为了克服基于端口号的方法的缺点,研究人员提出了基于有效负载的方法,又称为深度包检测(DeepPacketInspection,DPI)。基于载荷内容特征匹配的分类方法通过检测包的载荷,与已知协议中特定的签名进行比较,从而实现业务流的分类。但是该方法容易侵犯用户隐私,并且随着加密和新型应用的出现,深度包检测方法的有效性逐渐下降。研究人员发现,使用业务流的统计特征进行业务流识别与分类,既可以避免传统方法的缺陷,又具有较高的稳定性和准确率。
随着机器学习算法应用到业务流识别领域,基于统计特征的机器学习分类被广泛采用。许多研究表明,合理的行为特征是实现高准确率的关键所在。因此,如何提高分类器的效率,降低计算开销和时延,合理地减少特征数量是非常有必要的,简单、易获取的特征对于提高分类器的性能也起着重要的作用。而本发明能够很好地解决上面的问题、
发明内容
本发明目的在于针对网络业务流的统计特征选择以及网络视频和网页浏览业务进行识别分类的问题,提出了一种基于新型特征选择方法的网络浏览与视频分类方法,该方法针对Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(含视频)六种业务进行分析研究,提出了一种基于变异系数的新型特征选择方法。通过对比不同的特征选取方法所得到的特征的分类效果,结果表明该方法可以比现有方法获得更高的总体正确率。同时,本发明从QoS角度首次对网页浏览使用了细粒度划分。对于采用HTTP协议的网络业务的分类,大部分文献都将网页浏览视为一个类别。但是随着网络应用的发展,网页内容变得更加复杂,例如包含有视频的网页浏览,单纯地将网络浏览作为一个业务类,变得不再合适。所以对网页浏览进行细粒度的分析是可行的,也是必要的。实验结果证明对网页浏览进行一定程度上的细粒度分类是合理的。。
本发明解决其技术问题所采取的技术方案是:一种基于变异系数的新型特征选择方法,该方法能选择出简单、有效的QoS特征子集,并利用K近邻分类器对网络浏览和视频进行有效的分类。本发明首次对网页浏览进行了细粒度划分,为用户提供更好的QoS保障。
方法流程:
步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下可以对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征,具体步骤为:
i.通过网络数据包分析工具wireshark进行网页浏览和网络视频业务流的数据获取,然后对获取的数据进行格式处理,转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小;
ii.数据包采样不是一个必不可少的过程。但是由于网络中获取的数据量非常大,如果直接对如此庞大的数据进行特征计算,势必会造成巨大的计算资源耗费。此时可以对数据包进行采样处理以降低分类器的处理压力;
iii.数据包过滤是指对滤除不感兴趣并且不会对分类结果产生影响的数据包。例如大部分网络流量分类指对TCP和UDP数据包感兴趣,那么该系统就可以将其他类型的数据包过滤;
iv.利用gawk和perl等文本处理工具对标准五元组网络流数据进行处理获得网络业务流的统计特征,比如下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差、数据包大小的三阶中心矩、下行字节速率等统计特征。
步骤2:对业务流的统计特征进行分析,并使用本发明提出的基于变异系数的新型特征选择方法进行特征筛选,具体步骤为:
i.对所有业务流的的统计特征值进行离散化操作,以降低在特征选择过程中的计算复杂度;
ii.计算每类业务的每个特征的变异系数IN_CVij,表示第i类业务的第j个特征的变异系数;其中,变异系数描述了一组数据相对于均值的标准偏差,是反映数据离散程度的统计量。一般情况下,变异系数可以反映数据的变化程度。变异系数越大,说明该组数据分布越分散;反之,则分布越集中。它能对数据集中不同类型的数据进行比较,因为它与数据的量纲无关;
iii.计算每类业务每个特征的均值Mij,然后利用Mij计算所有业务之间的变异系数OUT_CVj,表示所有业务之间的第j个特征的变异系数;
iv.定义重要程度系数,并计算重要程度系数其中CIij代表第i类业务的第j个特征的重要程度系数,OUT_CVj代表业务之间的变异系数,IN_CVij代表业务内部的变异系数;
v.对于固定的每个特征j,计算所有业务的重要程度系数的均值CIj=MEAN(CIij),其中MEAN代表求均值,CIj代表第j个特征的重要程度系数,CIij代表第i类业务的第j个特征的重要程度系数;
vi.对CIj进行排序,得到特征对于该数据集的重要程度顺序。
vii.采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征有四个:
1)平均下行字节速率
属于HTTP下载的http_dload的平均下行字节速率最高,对于cbox_sopcast和youku_iqiyi来说,二者都属于网络在线视频,二者的平均下行字节速率仅次于http_dload的平均下行字节速率。对于sina_NG和csdn_times来说,二者属于都网页浏览,对网络资源占用率再次之。最后,Skype属于网络语音会话,对于网络资源的带宽需求最小。
2)数据包大小均值
数据包大小均值是用来反映业务数据包的整体情况。http_dload和youku_iqiyi的平均数据包大小最大,由于http_dload是HTTP下载业务,所以在带宽充足的情况下它会尽可能地利用带宽。而youku_iqiyi属于非直播的在线视频观看,youku_iqiyi的平均数据包大小相对于http_dload略小一点。虽然sina_NG和csdn_times都属于网页浏览业务,但是前者的平均数据包大小会大于后者。cbox_sopcast属于视频直播,由于视频直播要满足实时性的要求,所以整体上的平均数据包大小基本在500至1000字节之间。而Skype的平均数据包大小最小。
3)下上行分组数之比
youku_iqiyi的下上行分组数之比大约为2,而cbox_sopcast的下上行分组数之比小于等于1,由于cbox_sopcast属于直播类型的视频业务,所以客户端和服务器的数据交互明显会多于属于视频观看(非直播)业务的youku_iqiyi。sina_NG的下上行分组数之比大于1,而csdn_times的下上行分组数之比大约为1。Skype的下上行分组数之比基本维持在1左右,因为Skype属于交互式音频,所以上下行分组数基本是相等的。
4)数据包间隔时间均值
数据包到达间隔时间均值也是网络流的基本特征属性。http_dload和cbox_sopcast的平均包到达间隔时间最小。而对属于视频直播类型的cbox_sopcast来说,由于视频直播必须满足实时性的要求,所以具有较小数据包到达间隔时间。而对于Skype语音来说,不同时间段获取的数据流的平均包到达时间间隔基本一致,都保持在0.02秒左右。虽然youku_iqiyi和sina_NG属于不同类型的业务,但是二者在数据包平均间隔时间上比较相似,因为二者业务中都含有视频。csdn_times属于只含有图片和文字的网页浏览,不同时间段获取的数据在平均数据包间隔时间波动比较大。
步骤3:以特征选择方法获得的统计特征作为表示业务流的特征向量,然后利用K近邻分类器对未知业务流进行分类,得到分类结果,具体步骤为:
i.利用本发明提出的特征选择方法对已知流的QoS统计特征进行特征提取,然后用带标签的特征向量表示已知流,并使用特征向量对K近邻分类器进行训练;
ii.同样,获取未知流的统计特征向量,并作为分类器的输入,对未知流进行分类识别。
有益效果:
1、本发明提出的基于变异系数的新型特征选择方法相较于其他常用的特征选取方法具有更低的计算复杂度,能过降低特征选择过程中的时间以及空间开销,提高特征选择的效率。
2、本发明同时从类别内部的变异系数和类之间的变异系数两个角度综合考虑,相较于传统的特征选择方法考虑的因素更全面,所以能够提取到合理、高效、稳定的特征组合,提高分类器的分类性能。
附图说明
图1是本发明基于新型特征选择方法的网络浏览与视频的分类流程图。
图2是本发明提出的特征选择方法所选取特征的二维分布图。
其中,图2(a)表示数据包间隔时间均值和数据包大小均值的二维分布,图2(b)表示数据包大小均值和下行字节速率的二维分布图,图2(c)表示数据包间隔时间均值和下上行分组数之比的二维分布。
图3是本发明与现有技术的性能比较图。
具体实施方式
以下结合说明书附图对本发明创造作进一步的详细说明。
如图1所示,本发明提出的一种基于新型特征选择方法的网络浏览与视频的分类方法,该方法包括网络业务流获取与统计特征计算、基于变异系数的QoS特征选择与分析、基于K近邻分类器的网络业务流分类等,包括如下步骤:
步骤1,网络业务流获取与统计特征计算:通过网络数据包分析工具wireshark获取网页浏览和网络视频业务流的数据,主要包括Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(含视频)六种业务。然后将获取的数据转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小。最后通过网络数据分析平台计算六种网络业务的QoS统计特征。
步骤2,基于变异系数的QoS特征选择与分析:首先计算每类业务内部每个特征的变异系数,然后计算每类业务之间每个特征的变异系数,并将后者与前者的比值定义为重要程度系数,作为判断特征重要性的依据。最后,采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征有四个:数据包大小均值、数据包达到时间间隔均值、下行字节速率、下上行字节数之比。
首先从宏观上分析,结合图2(a)和图2(b)我们可以看出,HTTP下载对于网络资源占用率最高。因为http_dload的数据包平均间隔时间最小,但平均数据包大小却是最大,所以HTTP下载会尽可能多地利用网络带宽,网络时延最小,因此该类业务在这六类业务中对网络可用资源占用率最高。对于cbox_sopcast和youku_iqiyi来说,二者都属于网络在线视频,从图2(b)可以看到,二者的平均下行字节速率仅次于http_dload的平均下行字节速率,而且对于网络时延的要求也比较小,所以对于网络资源的占用率次之。对于sina_NG和csdn_times来说,二者属于都网页浏览,对网络资源占用率再次之,对属于网络浏览业务的二者来说,网络资源占用率低于在线视频也是合乎常理的。最后,Skype属于网络语音会话,对于网络资源的带宽需求最小。
进一步细分,对于cbox_sopcast和youku_iqiyi来说,cbox_sopcast是属于在线视频直播,youku_iqiyi是属于在线视频观看(非直播)。从图2(a)可以看到,youku_iqiyi的包间隔时间均值要大于cbox_sopcast的包间隔时间均值。从图2(b)可以看到,youku_iqiyi的平均包大小基本保持在1400字节左右,而cbox_sopcast的平均包大小在400-1100字节左右。从图2(c)可以看出,youku_iqiyi的下上行分组数之比大约为2,而cbox_sopcast的下上行分组数之比小于等于1。导致这些差异的原因是:1)由于两者业务的应用层协议不一样,youku和iqiyi的应用层采用的是HTTP协议,而cbox_sopcast中CBox和Sopcast的应用层采用的是应用内部私有协议;2)由于youku和iqiyi的传输层采用的是TCP协议,而CBox和Sopcast的传输层采用的是UDP协议。TCP协议是面向连接的协议,在会话发起阶段有“三次握手”机制,在数据传输过程中有丢失重传、拥塞控制、发送确认等机制;而UDP是面向无连接的协议,不存在发送确认等循环过程,所以就会导致youku_iqiyi的包间隔时间均值明显要大于cbox_sopcast的包间隔时间均值;3)由于cbox_sopcast属于直播类型的视频业务,所以客户端和服务器的数据交互明显会多于属于视频观看(非直播)业务的youku_iqiyi,甚至上行请求分组数可能超过下行分组数。
对于sina_NG和csdn_times来说,前者属于含有文字、图片和视频的网页浏览,而后者属于只含有文字、图片的网页浏览。从图2(a)可以看出,sina_NG的平均数据包大小大于csdn_times的平均包大小,且sina_NG的包间隔时间均值小于csdn_times的包间隔时间均值;从图2(b)可以看到,sina_NG的平均下行字节速率高于csdn_times的平均下行字节速率。从图2(c)可以看到,sina_NG的下上行分组数之比大于1,而csdn_times的下上行分组数之比大约为1。这可能是由于sina_NG业务中包含的视频内容,且视频类型的数据包明显要大于其他业务类型的数据包,所以会导致sina_NG的平均数据包大小大于csdn_times的平均数据包大小;另外,视频的数据量远大于文字或图片的数据量,所以sina_NG的下上行分组数之比大于csdn_times的下上行分组数之比。对于Skype来说,从图2(a)可以看到,其平均数据包大小基本保持在150字节到180字节之间,平均间隔时间基本在0.02s左右,所以Skype的网络带宽需求并不高。从图2(b)也可以看出,Skype的网络带宽需求是这六类业务中比较低的。从图2(c)可以看到,Skype的下上行分组数之比基本维持在1左右,因为Skype属于交互式音频,所以上下行分组数基本是相等的。
从上述分析中可以看出,基于变异系数的特征选择方法选取的特征可以较明显地将这六类业务区分,证明了该方法的有效性。
步骤3,基于K近邻分类器的网络业务流分类:利用本发明提出的特征选择方法对已知流的QoS统计特征进行特征提取,然后用带标签的特征向量表示已知流,并使用特征性向量对K近邻分类器进行训练;同样,获取未知流的统计特征向量,并作为分类器的输入,对未知流进行分类识别。
本发明的实验结果:
为了进一步验证本发明提出的基于变异系数的特征选择方法的有效性,将对六种网络业务流的统计特征利用本发明方法进行筛选,然后使用获得的特征子集利用K近邻分类器进行分类识别。利用综合性能指标F测度来衡量不同特征选择方法的性能。图3中表示了四种特征选择方法(本发明方法,基于相关性,基于信息增益、基于卡方检验)的F测度。sina_NG和youku_iqiyi在某些特征上(如包时间间隔均值、数据包大小均值和下行字节速率等)会发生部分“混叠”,所以对于sina_NG和youku_iqiyi,本发明方法的F测度略低于其他方法。但是,基于本发明的F测度在整体上是高于基于其他三种方法的,这是因为本发明方法获取到了更加有效、合理的QoS统计特征。

Claims (5)

1.基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法包括如下步骤:
步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下,对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征;
步骤2:对业务流的统计特征进行分析,并进行特征筛选;
步骤3:获得统计特征作为表示业务流的特征向量,然后利用K近邻分类器(K表示分类器的未知参数)对未知业务流进行分类,得到分类结果。
2.根据权利要求1所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法的步骤1中包括:
步骤1-1:通过网络数据包分析工具wireshark进行网页浏览和网络视频业务流的数据获取,然后对获取的数据进行格式处理,转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小;
步骤1-2:数据包采样不是一个必不可少的过程,由于网络中获取的数据量非常大,如果直接对如此庞大的数据进行特征计算,势必会造成巨大的计算资源耗费,此时对数据包进行采样处理以降低分类器的处理压力;
步骤1-3:数据包过滤是指对滤除不感兴趣并且不会对分类结果产生影响的数据包;步骤1-4:利用gawk和perl文本处理工具对标准五元组网络流数据进行处理获得网络业务流的统计特征,即下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差、数据包大小的三阶中心矩、下行字节速率统计特征。
3.根据权利要求1所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法的步骤2中包括:
步骤2-1:对所有业务流的的统计特征值进行离散化操作,以降低在特征选择过程中的计算复杂度;
步骤2-2:计算每类业务的每个特征的变异系数IN_CVij,表示第i类业务的第j个特征的变异系数;其中,变异系数描述了一组数据相对于均值的标准偏差,是反映数据离散程度的统计量,变异系数可以反映数据的变化程度,变异系数越大,说明该组数据分布越分散;反之,则分布越集中,它能对数据集中不同类型的数据进行比较,因为它与数据的量纲无关;
步骤2-3:计算每类业务每个特征的均值Mij,然后利用Mij计算所有业务之间的变异系数OUT_CVj,表示所有业务之间的第j个特征的变异系数;
步骤2-4:定义重要程度系数,并计算重要程度系数其中CIij代表第i类业务的第j个特征的重要程度系数,OUT_CVj代表业务之间的变异系数,IN_CVij代表业务内部的变异系数;
步骤2-5:对于固定的每个特征j,计算所有业务的重要程度系数的均值CIj=MEAN(CIij),其中MEAN代表求均值,CIj代表第j个特征的重要程度系数,CIij代表第i类业务的第j个特征的重要程度系数;
步骤2-6:对CIj进行排序,得到特征对于该数据集的重要程度顺序;
步骤2-7采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征。
4.根据权利要求3所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述QoS统计特征包括:
1)平均下行字节速率;
属于HTTP下载的http_dload的平均下行字节速率最高,对于cbox_sopcast和youku_iqiyi来说,二者都属于网络在线视频,二者的平均下行字节速率仅次于http_dload的平均下行字节速率,对于sina_NG和csdn_times来说,二者属于都网页浏览,对网络资源占用率再次之,最后,Skype属于网络语音会话,对于网络资源的带宽需求最小,
2)数据包大小均值;
数据包大小均值是用来反映业务数据包的整体情况,http_dload和youku_iqiyi的平均数据包大小最大,由于http_dload是HTTP下载业务,所以在带宽充足的情况下它会尽可能地利用带宽,而youku_iqiyi属于非直播的在线视频观看,youku_iqiyi的平均数据包大小相对于http_dload略小一点,虽然sina_NG和csdn_times都属于网页浏览业务,但是前者的平均数据包大小会大于后者,cbox_sopcast属于视频直播,由于视频直播要满足实时性的要求,所以整体上的平均数据包大小基本在500至1000字节之间,而Skype的平均数据包大小最小;
3)下上行分组数之比;
youku_iqiyi的下上行分组数之比大约为2,而cbox_sopcast的下上行分组数之比小于等于1,由于cbox_sopcast属于直播类型的视频业务,所以客户端和服务器的数据交互明显会多于属于视频观看(非直播)业务的youku_iqiyi,sina_NG的下上行分组数之比大于1,而csdn_times的下上行分组数之比大约为1,Skype的下上行分组数之比基本维持在1左右,因为Skype属于交互式音频,所以上下行分组数基本是相等的;
4)数据包间隔时间均值;
数据包到达间隔时间均值也是网络流的基本特征属性,http_dload和cbox_sopcast的平均包到达间隔时间最小,而对属于视频直播类型的cbox_sopcast来说,由于视频直播必须满足实时性的要求,所以具有较小数据包到达间隔时间,而对于Skype语音来说,不同时间段获取的数据流的平均包到达时间间隔基本一致,都保持在0.02秒左右,虽然youku_iqiyi和sina_NG属于不同类型的业务,但是二者在数据包平均间隔时间上比较相似,因为二者业务中都含有视频,csdn_times属于只含有图片和文字的网页浏览,不同时间段获取的数据在平均数据包间隔时间波动比较大。
5.根据权利要求1所述的基于新型特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法的步骤3中包括:
步骤3-1:对已知流的QoS统计特征进行特征提取,然后用带标签的特征向量表示已知流,并使用特征向量对K近邻分类器进行训练;
步骤3-2:获取未知流的统计特征向量,并作为分类器的输入,对未知流进行分类识别。
CN201610113179.0A 2016-02-29 2016-02-29 基于特征选择方法的网络浏览与视频分类方法 Active CN105787512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610113179.0A CN105787512B (zh) 2016-02-29 2016-02-29 基于特征选择方法的网络浏览与视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610113179.0A CN105787512B (zh) 2016-02-29 2016-02-29 基于特征选择方法的网络浏览与视频分类方法

Publications (2)

Publication Number Publication Date
CN105787512A true CN105787512A (zh) 2016-07-20
CN105787512B CN105787512B (zh) 2019-08-02

Family

ID=56386807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610113179.0A Active CN105787512B (zh) 2016-02-29 2016-02-29 基于特征选择方法的网络浏览与视频分类方法

Country Status (1)

Country Link
CN (1) CN105787512B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341343A (zh) * 2016-09-14 2017-01-18 晶赞广告(上海)有限公司 一种自动服务降级系统及方法
CN107648854A (zh) * 2017-08-30 2018-02-02 武汉斗鱼网络科技有限公司 一种游戏分类方法、装置及电子设备
CN108183768A (zh) * 2017-12-26 2018-06-19 广东欧珀移动通信有限公司 数据传输方法及相关设备
CN108492182A (zh) * 2018-03-07 2018-09-04 阿里巴巴集团控股有限公司 一种交易事件分群方法、装置及设备
CN108874850A (zh) * 2018-02-14 2018-11-23 南京邮电大学 基于psogsa-ci的网络视频业务特征选择方法
CN112307260A (zh) * 2020-10-30 2021-02-02 北京字节跳动网络技术有限公司 视频鉴别方法、装置、电子设备及计算机可读存储介质
US11166053B2 (en) 2018-03-06 2021-11-02 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
CN113824644A (zh) * 2020-06-18 2021-12-21 中国移动通信集团陕西有限公司 Https业务内容识别方法、装置和设备
US11429891B2 (en) 2018-03-07 2022-08-30 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
CN117077030A (zh) * 2023-10-16 2023-11-17 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110013820A1 (en) * 2009-06-16 2011-01-20 Reed Jason C Methods and systems for measuring a property of a macromolecule
CN104244035A (zh) * 2014-08-27 2014-12-24 南京邮电大学 基于多层聚类的网络视频流分类方法
CN104657747A (zh) * 2015-01-30 2015-05-27 南京邮电大学 一种基于统计特征的网络游戏流分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110013820A1 (en) * 2009-06-16 2011-01-20 Reed Jason C Methods and systems for measuring a property of a macromolecule
CN104244035A (zh) * 2014-08-27 2014-12-24 南京邮电大学 基于多层聚类的网络视频流分类方法
CN104657747A (zh) * 2015-01-30 2015-05-27 南京邮电大学 一种基于统计特征的网络游戏流分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
房曙光,等: "无线网络服务过程建模及突发特性", 《中国科技论文》 *
林平,等: "基于流统计特性的网络流量分类算法", 《北京邮电大学学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341343A (zh) * 2016-09-14 2017-01-18 晶赞广告(上海)有限公司 一种自动服务降级系统及方法
CN106341343B (zh) * 2016-09-14 2019-06-18 晶赞广告(上海)有限公司 一种自动服务降级系统及方法
CN107648854A (zh) * 2017-08-30 2018-02-02 武汉斗鱼网络科技有限公司 一种游戏分类方法、装置及电子设备
CN107648854B (zh) * 2017-08-30 2020-09-08 武汉斗鱼网络科技有限公司 一种游戏分类方法、装置及电子设备
CN108183768A (zh) * 2017-12-26 2018-06-19 广东欧珀移动通信有限公司 数据传输方法及相关设备
CN108874850B (zh) * 2018-02-14 2022-02-22 南京邮电大学 基于psogsa-ci的网络视频业务特征选择方法
CN108874850A (zh) * 2018-02-14 2018-11-23 南京邮电大学 基于psogsa-ci的网络视频业务特征选择方法
US11166053B2 (en) 2018-03-06 2021-11-02 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
US11606584B2 (en) 2018-03-06 2023-03-14 At&T Intellectual Property I, L.P. Method for intelligent buffering for over the top (OTT) video delivery
CN108492182A (zh) * 2018-03-07 2018-09-04 阿里巴巴集团控股有限公司 一种交易事件分群方法、装置及设备
US11429891B2 (en) 2018-03-07 2022-08-30 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
US11699103B2 (en) 2018-03-07 2023-07-11 At&T Intellectual Property I, L.P. Method to identify video applications from encrypted over-the-top (OTT) data
CN113824644A (zh) * 2020-06-18 2021-12-21 中国移动通信集团陕西有限公司 Https业务内容识别方法、装置和设备
CN112307260A (zh) * 2020-10-30 2021-02-02 北京字节跳动网络技术有限公司 视频鉴别方法、装置、电子设备及计算机可读存储介质
CN117077030A (zh) * 2023-10-16 2023-11-17 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及系统
CN117077030B (zh) * 2023-10-16 2024-01-26 易停车物联网科技(成都)有限公司 一种面向生成模型的少样本视频流分类方法及系统

Also Published As

Publication number Publication date
CN105787512B (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN105787512A (zh) 基于新型特征选择方法的网络浏览与视频分类方法
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN106815112B (zh) 一种基于深度包检测的海量数据监控系统及方法
CN102739457B (zh) 一种基于dpi和svm技术的网络流量识别方法
EP1764951A1 (en) Statistical trace-based method, apparatus, node and system for real-time traffic classification
US20120182891A1 (en) Packet analysis system and method using hadoop based parallel computation
EP1722508A1 (en) Distributed traffic analysis
CN102315974A (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
Areström et al. Early online classification of encrypted traffic streams using multi-fractal features
CN103067218B (zh) 一种高速网络数据包内容分析装置
CN108881028A (zh) 基于深度学习实现应用感知的sdn网络资源调度方法
Lin et al. The roles of 5G mobile broadband in the development of IoT, big data, cloud and SDN
CN104753732A (zh) 一种基于分布式的网络流量分析系统及方法
US20230281204A1 (en) Monitoring network traffic to determine similar content
CN109873797A (zh) 基于统计分析的会话视频业务QoE-QoS参数映射方法
CN106535240A (zh) 基于云平台的移动app集中性能分析方法
CN103973589A (zh) 网络流量分类方法及装置
US11558769B2 (en) Estimating apparatus, system, method, and computer-readable medium, and learning apparatus, method, and computer-readable medium
CN110266603B (zh) 基于http协议的身份认证业务网络流量分析系统及方法
CN106257867A (zh) 一种加密流量的业务识别方法和装置
CN111310796B (zh) 一种面向加密网络流的Web用户点击识别方法
CN113382039A (zh) 一种基于5g移动网络流量分析的应用识别方法和系统
CN104602142A (zh) 基于神经网络学习的业务分类方法
CN114679318B (zh) 一种高速网络中轻量级的物联网设备识别方法
CN116248530A (zh) 一种基于长短时神经网络的加密流量识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant