CN103973589A - 网络流量分类方法及装置 - Google Patents

网络流量分类方法及装置 Download PDF

Info

Publication number
CN103973589A
CN103973589A CN201310414970.1A CN201310414970A CN103973589A CN 103973589 A CN103973589 A CN 103973589A CN 201310414970 A CN201310414970 A CN 201310414970A CN 103973589 A CN103973589 A CN 103973589A
Authority
CN
China
Prior art keywords
port
corresponding relation
decision
making
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310414970.1A
Other languages
English (en)
Other versions
CN103973589B (zh
Inventor
孙广路
董辉
李丹丹
何勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201310414970.1A priority Critical patent/CN103973589B/zh
Publication of CN103973589A publication Critical patent/CN103973589A/zh
Application granted granted Critical
Publication of CN103973589B publication Critical patent/CN103973589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种网络流量分类方法及装置,涉及计算机网络安全领域。该方法包含离线训练阶段和在线识别阶段:离线训练阶段包含:S1、构建训练数据集的应用类型分布图,得到对应关系,并计算概率;S2、构建端口与应用的对应关系表;S3、确立决策因子;在线识别阶段包含:S4、获取端口对,选择其中一个端口作为决策端口;S5、进行分类器选择;S6、选择基于载荷的分类模块为分类器,当分类结果不为空时,对对应关系及其概率值进行单向监督,评价对应关系并更新概率。本发明在网络流量分类过程中减少对于数据包内容的检测,降低对内存和带宽的需求,以及对用户隐私的侵犯,实现在高速网络链路下高速度、高精度的流量分类。

Description

网络流量分类方法及装置
技术领域
本发明涉及计算机网络安全领域,具体涉及一种网络流量分类方法及装置。
背景技术
网络流量分类技术在网络管理中扮演着十分重要的角色,网络管理者或网络服务提供商(ISP)可以根据分类结果制定流量控制策略或为当前或下一代的服务提供支持。因此,快速并准确地对网络流量进行分类是网络管理与监控的关键。现行的网络流量分类主要面临两个问题:1)面对越来越多的新应用(例如P2P、游戏和流媒体)生成的复杂流量,如何实现高精度的识别;2)如何高速的处理剧增的网络数据量。
传统方法解决上述的问题主要采用的有基于端口的分类方法和基于载荷的分类方法:基于端口的分类方法依据传输层的端口号进行分类,由于不需要进行额外的计算,因此具有较高的识别速度;基于载荷的分类方法对网络数据包的内容进行深度检测,采用一组载荷的特征(精确特征与正则表达式)识别网络流量中的应用,它具有十分高的识别精度,因此被广泛的使用。
以上,基于端口的分类方法对于识别多数传统的应用具有较高的识别精度,在已有方法中是速度最快和最简单的方法,但是越来越多的新应用使用动态端口或使用其它协议作为隐藏的应用,导致了基于端口分类方法的失效。基于载荷的分类方法,由于其具有很高的计算复杂度,导致在高速网络中的表现越来越差,并且识别过程有可能侵犯用户的隐私。尽管有许多优化手段去改善基于载荷的分类方法的缺陷,但是它们需要特殊的硬件或高性能的处理器以及大量的存储单元,或者需要处理大量的数据包内容。也就是说,传统的分类方法不能有效的解决上述问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供一种网络流量分类方法及装置,使得对流经网关的网络流量进行快速并准确的分类。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种网络流量分类方法,包含离线训练阶段和在线识别阶段:
所述离线训练阶段包含步骤:
S1、基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;
S2、根据所述对应关系和所述概率构建端口与应用的对应关系表;
S3、根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
所述在线识别阶段包含步骤:
S4、获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;
S5、通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,执行步骤S6;
S6、选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
2、如权利要求1所述的网络流量分类方法,其特征在于,步骤S6后进一步包含步骤S7,
S7、当定时器到达预设衰减周期T时,逐个对所述对应关系表中的所有端口进行扫描,若一端口中存在的一对应关系满足决策因子,则对此端口中满足决策因子的所述对应关系的概率值进行衰减;并对此端口中其它对应关系的概率值进行增益。
优选的,对所述对应关系的概率值进行衰减的表达式为:
p ( c | p i ) = r j - &gamma; | T - &gamma; | ( 0 &le; j < n )
对其它对应关系的概率值进行增益的表达式为:
p ( c &prime; | p i ) = r m | T - &gamma; | ( 0 &le; m < n , m &NotEqual; j )
式中,pi表示为某一端口,c表示需要进行衰减的对应关系,rj为对应关系c的记录数目,c'表示需要进行增益的对应关系,rm为对应关系c'的记录数目,T表示端口pi包含的对应关系记录的总数,γ为衰减因子,γ取值为γ=0.01×rj
优选的,步骤S2中计算所述对应关系成立的概率的表达式为:
p ( a j | p i ) = r ij T ( 0 &le; j < n )
式中,pi表示第i端口,aj表示属于第i端口的第j个应用,rij表示端口pi与应用aj对应关系成立的记录数目,n表示端口pi包含的所有对应关系的数目,T表示端口pi包含的对应关系记录的总数;其中,属于端口pi的所有的对应关系的概率值相加得1。
优选的,步骤S3中:所述决策概率值DP是根据所述对应关系成立的概率值进行决策;
所述决策记录数DR是根据所述对应关系的记录数目进行决策。
优选的,DP取值为0.90,DR取值为1000。
优选的,步骤S4中,所述待识别会话的源端口和目的端口对为{SrcPort,DestPort},选择决策端口的方法为:
若SrcPort小于等于1024且DestPort大于1024,则选择SrcPort为决策端口;
若DestPort小于等于1024且SrcPort大于1024,则DestPort为决策端口;
若两个端口均大于或小于1024,则分别选取出两个端口中符合决策因子且概率值最高的对应关系,对比两条对应关系,具有概率值最高的对应关系对应的端口作为决策端口。
优选的,步骤S6中的单向监督过程为:
S61、将端口pi包含的对应关系所记录的总数T加1,即T=T+1;
S62、遍历待识别会话中端口pi包含的对应关系,如果一条对应关系符合监督条件,即此对应关系中的应用于基于载荷方法的分类结果一致,将此条对应关系的记录数加1;反之,此条对应关系的记录数目不变,更新此条对应关系的概率值,并更新对应关系表;
S63、如果待识别会话中端口pi未包含符合监督条件的对应关系,则需要将对应关系{pi,a}添加到pi的对应关系中,此条对应关系的记录数目为1,其中,a为基于载荷方法的分类结果;此时,pi包含的对应关系数目加1,更新此条对应关系的概率,并更新对应关系表;
S64、将端口pi新的对应关系表应用于识别过程。
本发明还提供了一种网络流量分类装置,其特征在于,包含以下模块:
离线训练阶段模块,为基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;根据所述对应关系和所述概率构建端口与应用的对应关系表;根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
在线识别阶段模块,为获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
优选的,该系统进一步包含定时器衰减增益模块,
所述定时器衰减增益模块为当定时器到达预设衰减周期T时,逐个对所述对应关系表中的所有端口进行扫描,若一端口中存在的一对应关系满足决策因子,则对此端口中满足决策因子的所述对应关系的概率值进行衰减;并对此端口中其它对应关系的概率值进行增益。
(三)有益效果
本发明通过提供一种网络流量分类方法及装置,包含两个阶段:1)离线阶段,通过基于载荷的分类方法统计端口与应用的对应关系;2)在线阶段,通过决策因子和决策端口进行分类器选择,并依据基于载荷的分类模块的识别结果对端口与应用的对应关系进行单向监督并更新其概率,同时,使用概率衰减算法防止分类器收敛于基于端口的分类模块,避免当应用的通信端口发生改变时降低基于端口的分类模块的分类性能。本发明在网络流量分类过程中可以减少对于数据包内容的检测,不仅降低了对内存和带宽的需求,而且降低了对用户隐私的侵犯,实现在高速网络链路下高速度、高精度的流量分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的网络流量分类方法的一种流程示意图;
图2为本发明实施例的网络流量分类方法的另一种流程示意图;
图3为本发明实施例的场景应用示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本发明实施例提供了一种网络流量分类方法,包含离线训练阶段和在线识别阶段:
所述离线训练阶段包含步骤:
S1、基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;
S2、根据所述对应关系和所述概率构建端口与应用的对应关系表;
S3、根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
所述在线识别阶段包含步骤:
S4、获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;
S5、通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,执行步骤S6;
S6、选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
本发明实施例通过提供一种网络流量分类方法,包含两个阶段:1)离线阶段,通过基于载荷的分类方法统计端口与应用的对应关系;2)在线阶段,通过决策因子和决策端口进行分类器选择,并依据基于载荷的分类模块的识别结果对端口与应用的对应关系进行单向监督并更新其概率。本发明在网络流量分类过程中可以减少对于数据包内容的检测,不仅降低了对内存和带宽的需求,而且降低了对用户隐私的侵犯,实现在高速网络链路下高速度、高精度的流量分类。
下面对本发明实施例进行详细的说明:
如图2所示,本实施例提供的一种网络流量分类方法,包含离线训练阶段和在线识别阶段:
所述离线训练阶段包含步骤:
S1、基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;
具体步骤为:依据训练数据集,进行数据包的预处理与网络流的建立,将得到的网络流信息进行基于载荷方法的分类,使用网络流标记的应用进行协议分布真相的构建。
S2、根据所述对应关系和所述概率构建端口与应用的对应关系表APT(Application Port Table);
具体步骤为:依据协议分布真相,对端口与应用的对应关系进行统计,包含对应关系以及记录的数目,并计算每一条对应关系成立的概率,依据统计信息构建端口与应用的对应关系表。
所述对应关系成立的概率的表达式为:
p ( a j | p i ) = r ij T ( 0 &le; j < n )
式中,pi表示第i端口,aj表示属于第i端口的第j个应用,rij表示端口pi与应用aj对应关系成立的记录数目,n表示端口pi包含的所有对应关系的数目,T表示端口pi包含的对应关系记录的总数;其中,属于端口pi的所有的对应关系的概率值相加得1。
表一为对应关系表APT的部分记录:
表一
S3、根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
具体步骤为:依据端口与应用的对应关系表信息,采用不同的数据集以及DP和DR值进行大量实验,通过对实验结果的统计得出最优的DP和DR值。
所述决策概率值DP是根据所述对应关系成立的概率值进行决策;所述决策记录数DR是根据所述对应关系的记录数目进行决策。
优选的,DP取值为0.90,DR取值为1000。
所述在线识别阶段包含步骤:
S4、获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;
具体步骤为:对流经核心网管的网络流量进行捕获,依据数据包头部信息创建网络流,依据一次会话流信息选择出决策端口,用来进行分类器选择。
所述待识别会话的源端口和目的端口对为{SrcPort,DestPort},选择决策端口的方法为:
若SrcPort小于等于1024且DestPort大于1024,则选择SrcPort为决策端口;
若DestPort小于等于1024且SrcPort大于1024,则DestPort为决策端口;
若两个端口均大于或小于1024,则分别选取出两个端口中符合决策因子且概率值最高的对应关系,对比两条对应关系,具有概率值最高的对应关系对应的端口作为决策端口。
S5、通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,执行步骤S6;
S6、选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
其中,单向监督过程为:
S61、将端口pi包含的对应关系所记录的总数T加1,即T=T+1;
S62、遍历待识别会话中端口pi包含的对应关系,如果一条对应关系符合监督条件,即此对应关系中的应用于基于载荷方法的分类结果一致,将此条对应关系的记录数加1;反之,此条对应关系的记录数目不变,更新此条对应关系的概率值,并更新对应关系表;
S63、如果待识别会话中端口pi未包含符合监督条件的对应关系,则需要将对应关系{pi,a}添加到pi的对应关系中,此条对应关系的记录数目为1,其中,a为基于载荷方法的分类结果;此时,pi包含的对应关系数目加1,更新此条对应关系的概率,并更新对应关系表;
S64、将端口pi新的对应关系表应用于识别过程。
其中,步骤S62和步骤S63中更新此条对应关系的概率的表达式为:
p ( a j | p i ) = r ij T ( 0 &le; j < n )
式中,pi表示第i端口,aj表示属于第i端口的第j个应用,rij表示端口pi与应用aj对应关系成立的记录数目,n表示端口pi包含的所有对应关系的数目,T表示端口pi包含的对应关系记录的总数;其中,属于端口pi的所有的对应关系的概率值相加得1。
需要说明的是,作为对本发明实施例的改进,步骤S6后进一步包含步骤S7:
S7、当定时器到达预设衰减周期T时,对所有的对应关系进行扫描,若某一端口中存在的对应关系满足决策因子,则对所述对应关系的概率值进行衰减;并对此端口中其它对应关系的概率值进行增益。
其中,对所述对应关系的概率值进行衰减的表达式为:
p ( c | p i ) = r j - &gamma; | T - &gamma; | ( 0 &le; j < n )
对其它对应关系的概率值进行增益的表达式为:
p ( c &prime; | p i ) = r m | T - &gamma; | ( 0 &le; m < n , m &NotEqual; j )
式中,pi表示为某一端口,c表示需要进行衰减的对应关系,rj为对应关系c的记录数目,c'表示需要进行增益的对应关系,rm为对应关系c'的记录数目,T表示端口pi包含的对应关系记录的总数,γ为衰减因子,γ取值为γ=0.01×rj
本发明实施例通过使用增加定时器,采用概率衰减方法防止分类器收敛于基于端口的分类模块,进而避免了当应用的通信端口发生改变时降低基于端口的分类模块的分类性能。
实施例2:
本发明实施例还提供了一种网络流量分类装置,包含以下模块:
离线训练阶段模块,为基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;根据所述对应关系和所述概率构建端口与应用的对应关系表;根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
在线识别阶段模块,为获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
优选的,该装置进一步包含定时器衰减增益模块,
所述定时器衰减增益模块为当定时器到达预设衰减周期T时,逐个对所述对应关系表中的所有端口进行扫描,若一端口中存在的一对应关系满足决策因子,则对此端口中满足决策因子的所述对应关系的概率值进行衰减;并对此端口中其它对应关系的概率值进行增益。
实施例3:
如图3所示,本发明实施例还提供了一种网络流量分类系统,网络流分类系统可以位于网络中的边缘网络或者骨干网络,网络管理者或网络服务提供商(ISP)将本发明部署在相应的核心路由器(交换机)上,对所有流经的流量进行实时分类,或者可以对流量进行拷贝或镜像进行识别。
通过采用本系统,网络管理者为了对所在网络的成分进行分析与管理,合理分配网络资源,剔除网络中的有害流量,在核心路由器(交换机)上部署本系统,对流经的网络流量进行分类,得到流量的成分组成图,主要包括应用的种类、包数、流数和字节数等。其次,网络服务提供商(ISP)在核心路由器(交换机)上部署本系统,通过对流量的成分进行分析,得到其提供的服务的使用情况,为提升服务质量与开拓业务提供指导。被监控网络上的所有网络流量都将会被分类系统进行分类。
综上所示,本发明实施例通过提供一种网络流量分类方法、装置及系统,在网络流量分类过程中可以减少对于数据包内容的检测,不仅降低了对内存和带宽的需求,而且降低了对用户隐私的侵犯,实现在高速网络链路下高速度、高精度的流量分类。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网络流量分类方法,其特征在于,包含离线训练阶段和在线识别阶段:
所述离线训练阶段包含步骤:
S1、基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;
S2、根据所述对应关系和所述概率构建端口与应用的对应关系表;
S3、根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
所述在线识别阶段包含步骤:
S4、获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;
S5、通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,执行步骤S6;
S6、选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
2.如权利要求1所述的网络流量分类方法,其特征在于,步骤S6后进一步包含步骤S7,
S7、当定时器到达预设衰减周期T时,逐个对所述对应关系表中的所有端口进行扫描,若一端口中存在的一对应关系满足决策因子,则对此端口中满足决策因子的所述对应关系的概率值进行衰减;并对此端口中其它对应关系的概率值进行增益。
3.如权利要求2所述的网络流量分类方法,其特征在于,
对所述对应关系的概率值进行衰减的表达式为:
p ( c | p i ) = r j - &gamma; | T - &gamma; | ( 0 &le; j < n )
对其它对应关系的概率值进行增益的表达式为:
p ( c &prime; | p i ) = r m | T - &gamma; | ( 0 &le; m < n , m &NotEqual; j )
式中,pi表示为某一端口,c表示需要进行衰减的对应关系,rj为对应关系c的记录数目,c'表示需要进行增益的对应关系,rm为对应关系c'的记录数目,T表示端口pi包含的对应关系记录的总数,γ为衰减因子,γ取值为γ=0.01×rj
4.如权利要求1所述的网络流量分类方法,其特征在于,步骤S2中计算所述对应关系成立的概率的表达式为:
p ( a j | p i ) = r ij T ( 0 &le; j < n )
式中,pi表示第i端口,aj表示属于第i端口的第j个应用,rij表示端口pi与应用aj对应关系成立的记录数目,n表示端口pi包含的所有对应关系的数目,T表示端口pi包含的对应关系记录的总数;其中,属于端口pi的所有的对应关系的概率值相加得1。
5.如权利要求1所述的网络流量分类方法,其特征在于,步骤S3中:所述决策概率值DP是根据所述对应关系成立的概率值进行决策;所述决策记录数DR是根据所述对应关系的记录数目进行决策。
6.如权利要求1或5所述的网络流量分类方法,其特征在于,DP取值为0.90,DR取值为1000。
7.如权利要求1所述的网络流量分类方法,其特征在于,步骤S4中,所述待识别会话的源端口和目的端口对为{SrcPort,DestPort},选择决策端口的方法为:
若SrcPort小于等于1024且DestPort大于1024,则选择SrcPort为决策端口;
若DestPort小于等于1024且SrcPort大于1024,则DestPort为决策端口;
若两个端口均大于或小于1024,则分别选取出两个端口中符合决策因子且概率值最高的对应关系,对比两条对应关系,具有概率值最高的对应关系对应的端口作为决策端口。
8.如权利要求1所述的网络流量分类方法,其特征在于,步骤S6中的单向监督过程为:
S61、将端口pi包含的对应关系所记录的总数T加1,即T=T+1;
S62、遍历待识别会话中端口pi包含的对应关系,如果一条对应关系符合监督条件,即此对应关系中的应用于基于载荷方法的分类结果一致,将此条对应关系的记录数加1;反之,此条对应关系的记录数目不变,更新此条对应关系的概率值,并更新对应关系表;
S63、如果待识别会话中端口pi未包含符合监督条件的对应关系,则需要将对应关系{pi,a}添加到pi的对应关系中,此条对应关系的记录数目为1,其中,a为基于载荷方法的分类结果;此时,pi包含的对应关系数目加1,更新此条对应关系的概率,并更新对应关系表;
S64、将端口pi新的对应关系表应用于识别过程。
9.一种网络流量分类装置,其特征在于,包含以下模块:
离线训练阶段模块,为基于载荷的分类方法构建训练数据集的应用类型分布图,得到端口与应用的对应关系,并计算所述对应关系成立的概率;根据所述对应关系和所述概率构建端口与应用的对应关系表;根据所述对应关系表确立决策因子,所述决策因子包括决策概率值DP和决策记录数DR;
在线识别阶段模块,为获取待识别会话的源端口和目的端口对,选择其中一个端口作为决策端口;通过所述决策端口和所述决策因子进行分类器选择;若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR,则选择基于端口的分类模块为分类器,采用对应关系表进行分类;否则,选择基于载荷的分类模块为分类器,当分类结果不为空时,则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督,评价所述对应关系并更新对应关系成立的概率。
10.如权利要求9所述的网络流量分类装置,其特征在于,进一步包含定时器衰减增益模块,
所述定时器衰减增益模块为当定时器到达预设衰减周期T时,逐个对所述对应关系表中的所有端口进行扫描,若一端口中存在的一对应关系满足决策因子,则对此端口中满足决策因子的所述对应关系的概率值进行衰减;并对此端口中其它对应关系的概率值进行增益。
CN201310414970.1A 2013-09-12 2013-09-12 网络流量分类方法及装置 Active CN103973589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310414970.1A CN103973589B (zh) 2013-09-12 2013-09-12 网络流量分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310414970.1A CN103973589B (zh) 2013-09-12 2013-09-12 网络流量分类方法及装置

Publications (2)

Publication Number Publication Date
CN103973589A true CN103973589A (zh) 2014-08-06
CN103973589B CN103973589B (zh) 2017-04-12

Family

ID=51242648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310414970.1A Active CN103973589B (zh) 2013-09-12 2013-09-12 网络流量分类方法及装置

Country Status (1)

Country Link
CN (1) CN103973589B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394056A (zh) * 2014-11-24 2015-03-04 中国联合网络通信集团有限公司 二层隧道协议l2tp网络的保护方法和装置
CN104468273A (zh) * 2014-12-12 2015-03-25 北京百度网讯科技有限公司 识别流量数据的应用类型的方法及系统
US9444730B1 (en) 2015-11-11 2016-09-13 International Business Machines Corporation Network traffic classification
CN106485560A (zh) * 2015-08-26 2017-03-08 阿里巴巴集团控股有限公司 一种在线事务数据处理模型发布的方法和装置
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN111711633A (zh) * 2020-06-22 2020-09-25 中国科学技术大学 多阶段融合的加密流量分类方法
US10897474B2 (en) 2016-06-23 2021-01-19 Cisco Technology, Inc. Adapting classifier parameters for improved network traffic classification using distinct private training data sets

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN103078897A (zh) * 2012-11-29 2013-05-01 中山大学 一种实现Web业务细粒度分类与管理的系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN103078897A (zh) * 2012-11-29 2013-05-01 中山大学 一种实现Web业务细粒度分类与管理的系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUI DONG 等: "A Hybrid Method for Network Traffic Classification", 《2013 2ND INTERNATIONAL CONFERENCE ON MEASUREMENT, INFORMATION AND CONTROL》 *
董辉 等: "基于链路同质性的应用层流量分类方法", 《哈尔滨理工大学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394056A (zh) * 2014-11-24 2015-03-04 中国联合网络通信集团有限公司 二层隧道协议l2tp网络的保护方法和装置
CN104468273A (zh) * 2014-12-12 2015-03-25 北京百度网讯科技有限公司 识别流量数据的应用类型的方法及系统
CN106485560A (zh) * 2015-08-26 2017-03-08 阿里巴巴集团控股有限公司 一种在线事务数据处理模型发布的方法和装置
US9444730B1 (en) 2015-11-11 2016-09-13 International Business Machines Corporation Network traffic classification
US9596171B1 (en) 2015-11-11 2017-03-14 International Business Machines Corporation Network traffic classification
US9882807B2 (en) 2015-11-11 2018-01-30 International Business Machines Corporation Network traffic classification
US9942135B2 (en) 2015-11-11 2018-04-10 International Business Machines Corporation Network traffic classification
US10897474B2 (en) 2016-06-23 2021-01-19 Cisco Technology, Inc. Adapting classifier parameters for improved network traffic classification using distinct private training data sets
WO2020062390A1 (zh) * 2018-09-25 2020-04-02 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN111711633A (zh) * 2020-06-22 2020-09-25 中国科学技术大学 多阶段融合的加密流量分类方法

Also Published As

Publication number Publication date
CN103973589B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103973589A (zh) 网络流量分类方法及装置
Yamansavascilar et al. Application identification via network traffic classification
WO2018054342A1 (zh) 一种网络数据流分类的方法及系统
CN102315974B (zh) 基于层次化特征分析的tcp、udp流量在线识别方法和装置
CN105917632B (zh) 用于电信中的可扩缩分布式网络业务分析的方法
Bacquet et al. Genetic optimization and hierarchical clustering applied to encrypted traffic identification
CN104052639B (zh) 基于支持向量机的实时多应用网络流量识别方法
CN108199863B (zh) 一种基于两阶段序列特征学习的网络流量分类方法及系统
CN104244035A (zh) 基于多层聚类的网络视频流分类方法
CN110417729B (zh) 一种加密流量的服务与应用分类方法及系统
CN107360032A (zh) 一种网络流识别方法及电子设备
WO2015154484A1 (zh) 流量数据分类方法及装置
CN102739457A (zh) 一种基于dpi和svm技术的网络流量识别系统及方法
CN109151880A (zh) 基于多层分类器的移动应用流量识别方法
CN103839037A (zh) 一种基于众核和gpu的网络视频流不良内容检测方法和系统
CN110034966A (zh) 一种基于机器学习的数据流分类方法及系统
US9374383B2 (en) Events from network flows
Cai et al. Flow identification and characteristics mining from internet traffic with hadoop
CN106257867A (zh) 一种加密流量的业务识别方法和装置
CN112235254A (zh) 一种高速主干网中Tor网桥的快速识别方法
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN114866301B (zh) 基于直推图的加密流量识别与分类方法及系统
Dener et al. Rfse-gru: Data balanced classification model for mobile encrypted traffic in big data environment
CN108141377A (zh) 网络流早期分类
CN108307231A (zh) 基于遗传算法的网络视频流特征选择与识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant