CN103973589A

CN103973589A - 网络流量分类方法及装置

Info

Publication number: CN103973589A
Application number: CN201310414970.1A
Authority: CN
Inventors: 孙广路; 董辉; 李丹丹; 何勇军
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2014-08-06
Anticipated expiration: 2033-09-12
Also published as: CN103973589B

Abstract

本发明提供了一种网络流量分类方法及装置，涉及计算机网络安全领域。该方法包含离线训练阶段和在线识别阶段：离线训练阶段包含：S1、构建训练数据集的应用类型分布图，得到对应关系，并计算概率；S2、构建端口与应用的对应关系表；S3、确立决策因子；在线识别阶段包含：S4、获取端口对，选择其中一个端口作为决策端口；S5、进行分类器选择；S6、选择基于载荷的分类模块为分类器，当分类结果不为空时，对对应关系及其概率值进行单向监督，评价对应关系并更新概率。本发明在网络流量分类过程中减少对于数据包内容的检测，降低对内存和带宽的需求，以及对用户隐私的侵犯，实现在高速网络链路下高速度、高精度的流量分类。

Description

网络流量分类方法及装置

技术领域

本发明涉及计算机网络安全领域，具体涉及一种网络流量分类方法及装置。

背景技术

网络流量分类技术在网络管理中扮演着十分重要的角色，网络管理者或网络服务提供商（ISP）可以根据分类结果制定流量控制策略或为当前或下一代的服务提供支持。因此，快速并准确地对网络流量进行分类是网络管理与监控的关键。现行的网络流量分类主要面临两个问题：1）面对越来越多的新应用（例如P2P、游戏和流媒体）生成的复杂流量，如何实现高精度的识别；2）如何高速的处理剧增的网络数据量。

传统方法解决上述的问题主要采用的有基于端口的分类方法和基于载荷的分类方法：基于端口的分类方法依据传输层的端口号进行分类，由于不需要进行额外的计算，因此具有较高的识别速度；基于载荷的分类方法对网络数据包的内容进行深度检测，采用一组载荷的特征（精确特征与正则表达式）识别网络流量中的应用，它具有十分高的识别精度，因此被广泛的使用。

以上，基于端口的分类方法对于识别多数传统的应用具有较高的识别精度，在已有方法中是速度最快和最简单的方法，但是越来越多的新应用使用动态端口或使用其它协议作为隐藏的应用，导致了基于端口分类方法的失效。基于载荷的分类方法，由于其具有很高的计算复杂度，导致在高速网络中的表现越来越差，并且识别过程有可能侵犯用户的隐私。尽管有许多优化手段去改善基于载荷的分类方法的缺陷，但是它们需要特殊的硬件或高性能的处理器以及大量的存储单元，或者需要处理大量的数据包内容。也就是说，传统的分类方法不能有效的解决上述问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供一种网络流量分类方法及装置，使得对流经网关的网络流量进行快速并准确的分类。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种网络流量分类方法，包含离线训练阶段和在线识别阶段：

所述离线训练阶段包含步骤：

S1、基于载荷的分类方法构建训练数据集的应用类型分布图，得到端口与应用的对应关系，并计算所述对应关系成立的概率；

S2、根据所述对应关系和所述概率构建端口与应用的对应关系表；

S3、根据所述对应关系表确立决策因子，所述决策因子包括决策概率值DP和决策记录数DR；

所述在线识别阶段包含步骤：

S4、获取待识别会话的源端口和目的端口对，选择其中一个端口作为决策端口；

S5、通过所述决策端口和所述决策因子进行分类器选择；若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR，则选择基于端口的分类模块为分类器，采用对应关系表进行分类；否则，执行步骤S6；

S6、选择基于载荷的分类模块为分类器，当分类结果不为空时，则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督，评价所述对应关系并更新对应关系成立的概率。

2、如权利要求1所述的网络流量分类方法，其特征在于，步骤S6后进一步包含步骤S7，

S7、当定时器到达预设衰减周期T时，逐个对所述对应关系表中的所有端口进行扫描，若一端口中存在的一对应关系满足决策因子，则对此端口中满足决策因子的所述对应关系的概率值进行衰减；并对此端口中其它对应关系的概率值进行增益。

优选的，对所述对应关系的概率值进行衰减的表达式为：

p (c | p_{i}) = \frac{r_{j} - γ}{| T - γ |} (0 \leq j < n)

对其它对应关系的概率值进行增益的表达式为：

p (c^{'} | p_{i}) = \frac{r_{m}}{| T - γ |} (0 \leq m < n, m &NotEqual; j)

式中，p_i表示为某一端口，c表示需要进行衰减的对应关系，r_j为对应关系c的记录数目，c'表示需要进行增益的对应关系，r_m为对应关系c'的记录数目，T表示端口p_i包含的对应关系记录的总数，γ为衰减因子，γ取值为γ＝0.01×r_j。

优选的，步骤S2中计算所述对应关系成立的概率的表达式为：

p (a_{j} | p_{i}) = \frac{r_{ij}}{T} (0 \leq j < n)

式中，p_i表示第i端口，a_j表示属于第i端口的第j个应用，r_ij表示端口p_i与应用a_j对应关系成立的记录数目，n表示端口p_i包含的所有对应关系的数目，T表示端口p_i包含的对应关系记录的总数；其中，属于端口p_i的所有的对应关系的概率值相加得1。

优选的，步骤S3中：所述决策概率值DP是根据所述对应关系成立的概率值进行决策；

所述决策记录数DR是根据所述对应关系的记录数目进行决策。

优选的，DP取值为0.90,DR取值为1000。

优选的，步骤S4中，所述待识别会话的源端口和目的端口对为{SrcPort，DestPort}，选择决策端口的方法为：

若SrcPort小于等于1024且DestPort大于1024，则选择SrcPort为决策端口；

若DestPort小于等于1024且SrcPort大于1024，则DestPort为决策端口；

若两个端口均大于或小于1024，则分别选取出两个端口中符合决策因子且概率值最高的对应关系，对比两条对应关系，具有概率值最高的对应关系对应的端口作为决策端口。

优选的，步骤S6中的单向监督过程为：

S61、将端口p_i包含的对应关系所记录的总数T加1，即T=T+1；

S62、遍历待识别会话中端口p_i包含的对应关系，如果一条对应关系符合监督条件，即此对应关系中的应用于基于载荷方法的分类结果一致，将此条对应关系的记录数加1；反之，此条对应关系的记录数目不变，更新此条对应关系的概率值，并更新对应关系表；

S63、如果待识别会话中端口p_i未包含符合监督条件的对应关系，则需要将对应关系{p_i,a}添加到p_i的对应关系中，此条对应关系的记录数目为1，其中，a为基于载荷方法的分类结果；此时，p_i包含的对应关系数目加1，更新此条对应关系的概率，并更新对应关系表；

S64、将端口p_i新的对应关系表应用于识别过程。

本发明还提供了一种网络流量分类装置，其特征在于，包含以下模块：

离线训练阶段模块，为基于载荷的分类方法构建训练数据集的应用类型分布图，得到端口与应用的对应关系，并计算所述对应关系成立的概率；根据所述对应关系和所述概率构建端口与应用的对应关系表；根据所述对应关系表确立决策因子，所述决策因子包括决策概率值DP和决策记录数DR；

在线识别阶段模块，为获取待识别会话的源端口和目的端口对，选择其中一个端口作为决策端口；通过所述决策端口和所述决策因子进行分类器选择；若决策端口中的一条对应关系同时满足决策概率值DP和决策记录数DR，则选择基于端口的分类模块为分类器，采用对应关系表进行分类；否则，选择基于载荷的分类模块为分类器，当分类结果不为空时，则使用此分类结果对本次待识别会话中的端口对所包含的对应关系及其概率值进行单向监督，评价所述对应关系并更新对应关系成立的概率。

优选的，该系统进一步包含定时器衰减增益模块，

所述定时器衰减增益模块为当定时器到达预设衰减周期T时，逐个对所述对应关系表中的所有端口进行扫描，若一端口中存在的一对应关系满足决策因子，则对此端口中满足决策因子的所述对应关系的概率值进行衰减；并对此端口中其它对应关系的概率值进行增益。

（三）有益效果

本发明通过提供一种网络流量分类方法及装置，包含两个阶段：1）离线阶段，通过基于载荷的分类方法统计端口与应用的对应关系；2）在线阶段，通过决策因子和决策端口进行分类器选择，并依据基于载荷的分类模块的识别结果对端口与应用的对应关系进行单向监督并更新其概率，同时，使用概率衰减算法防止分类器收敛于基于端口的分类模块，避免当应用的通信端口发生改变时降低基于端口的分类模块的分类性能。本发明在网络流量分类过程中可以减少对于数据包内容的检测，不仅降低了对内存和带宽的需求，而且降低了对用户隐私的侵犯，实现在高速网络链路下高速度、高精度的流量分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的网络流量分类方法的一种流程示意图；

图2为本发明实施例的网络流量分类方法的另一种流程示意图；

图3为本发明实施例的场景应用示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本发明实施例提供了一种网络流量分类方法，包含离线训练阶段和在线识别阶段：

所述离线训练阶段包含步骤：

所述在线识别阶段包含步骤：

本发明实施例通过提供一种网络流量分类方法，包含两个阶段：1）离线阶段，通过基于载荷的分类方法统计端口与应用的对应关系；2）在线阶段，通过决策因子和决策端口进行分类器选择，并依据基于载荷的分类模块的识别结果对端口与应用的对应关系进行单向监督并更新其概率。本发明在网络流量分类过程中可以减少对于数据包内容的检测，不仅降低了对内存和带宽的需求，而且降低了对用户隐私的侵犯，实现在高速网络链路下高速度、高精度的流量分类。

下面对本发明实施例进行详细的说明：

如图2所示，本实施例提供的一种网络流量分类方法，包含离线训练阶段和在线识别阶段：

所述离线训练阶段包含步骤：

具体步骤为：依据训练数据集，进行数据包的预处理与网络流的建立，将得到的网络流信息进行基于载荷方法的分类，使用网络流标记的应用进行协议分布真相的构建。

S2、根据所述对应关系和所述概率构建端口与应用的对应关系表APT（Application Port Table）；

具体步骤为：依据协议分布真相，对端口与应用的对应关系进行统计，包含对应关系以及记录的数目，并计算每一条对应关系成立的概率，依据统计信息构建端口与应用的对应关系表。

所述对应关系成立的概率的表达式为：

p (a_{j} | p_{i}) = \frac{r_{ij}}{T} (0 \leq j < n)

表一为对应关系表APT的部分记录：

表一

具体步骤为：依据端口与应用的对应关系表信息，采用不同的数据集以及DP和DR值进行大量实验，通过对实验结果的统计得出最优的DP和DR值。

所述决策概率值DP是根据所述对应关系成立的概率值进行决策；所述决策记录数DR是根据所述对应关系的记录数目进行决策。

优选的，DP取值为0.90,DR取值为1000。

所述在线识别阶段包含步骤：

具体步骤为：对流经核心网管的网络流量进行捕获，依据数据包头部信息创建网络流，依据一次会话流信息选择出决策端口，用来进行分类器选择。

所述待识别会话的源端口和目的端口对为{SrcPort，DestPort}，选择决策端口的方法为：

若DestPort小于等于1024且SrcPort大于1024，则DestPort为决策端口；

其中，单向监督过程为：

S61、将端口p_i包含的对应关系所记录的总数T加1，即T=T+1；

S64、将端口p_i新的对应关系表应用于识别过程。

其中，步骤S62和步骤S63中更新此条对应关系的概率的表达式为：

p (a_{j} | p_{i}) = \frac{r_{ij}}{T} (0 \leq j < n)

需要说明的是，作为对本发明实施例的改进，步骤S6后进一步包含步骤S7：

S7、当定时器到达预设衰减周期T时，对所有的对应关系进行扫描，若某一端口中存在的对应关系满足决策因子，则对所述对应关系的概率值进行衰减；并对此端口中其它对应关系的概率值进行增益。

其中，对所述对应关系的概率值进行衰减的表达式为：

p (c | p_{i}) = \frac{r_{j} - γ}{| T - γ |} (0 \leq j < n)

对其它对应关系的概率值进行增益的表达式为：

p (c^{'} | p_{i}) = \frac{r_{m}}{| T - γ |} (0 \leq m < n, m &NotEqual; j)

本发明实施例通过使用增加定时器，采用概率衰减方法防止分类器收敛于基于端口的分类模块，进而避免了当应用的通信端口发生改变时降低基于端口的分类模块的分类性能。

实施例2：

本发明实施例还提供了一种网络流量分类装置，包含以下模块：

优选的，该装置进一步包含定时器衰减增益模块，

实施例3：

如图3所示，本发明实施例还提供了一种网络流量分类系统，网络流分类系统可以位于网络中的边缘网络或者骨干网络，网络管理者或网络服务提供商（ISP）将本发明部署在相应的核心路由器（交换机）上，对所有流经的流量进行实时分类，或者可以对流量进行拷贝或镜像进行识别。

通过采用本系统，网络管理者为了对所在网络的成分进行分析与管理，合理分配网络资源，剔除网络中的有害流量，在核心路由器（交换机）上部署本系统，对流经的网络流量进行分类，得到流量的成分组成图，主要包括应用的种类、包数、流数和字节数等。其次，网络服务提供商（ISP）在核心路由器（交换机）上部署本系统，通过对流量的成分进行分析，得到其提供的服务的使用情况，为提升服务质量与开拓业务提供指导。被监控网络上的所有网络流量都将会被分类系统进行分类。

综上所示，本发明实施例通过提供一种网络流量分类方法、装置及系统，在网络流量分类过程中可以减少对于数据包内容的检测，不仅降低了对内存和带宽的需求，而且降低了对用户隐私的侵犯，实现在高速网络链路下高速度、高精度的流量分类。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络流量分类方法，其特征在于，包含离线训练阶段和在线识别阶段：

所述离线训练阶段包含步骤：

所述在线识别阶段包含步骤：

2.如权利要求1所述的网络流量分类方法，其特征在于，步骤S6后进一步包含步骤S7，

3.如权利要求2所述的网络流量分类方法，其特征在于，

对所述对应关系的概率值进行衰减的表达式为：

p (c | p_{i}) = \frac{r_{j} - γ}{| T - γ |} (0 \leq j < n)

对其它对应关系的概率值进行增益的表达式为：

p (c^{'} | p_{i}) = \frac{r_{m}}{| T - γ |} (0 \leq m < n, m &NotEqual; j)

4.如权利要求1所述的网络流量分类方法，其特征在于，步骤S2中计算所述对应关系成立的概率的表达式为：

p (a_{j} | p_{i}) = \frac{r_{ij}}{T} (0 \leq j < n)

5.如权利要求1所述的网络流量分类方法，其特征在于，步骤S3中：所述决策概率值DP是根据所述对应关系成立的概率值进行决策；所述决策记录数DR是根据所述对应关系的记录数目进行决策。

6.如权利要求1或5所述的网络流量分类方法，其特征在于，DP取值为0.90,DR取值为1000。

7.如权利要求1所述的网络流量分类方法，其特征在于，步骤S4中，所述待识别会话的源端口和目的端口对为{SrcPort，DestPort}，选择决策端口的方法为：

若DestPort小于等于1024且SrcPort大于1024，则DestPort为决策端口；

8.如权利要求1所述的网络流量分类方法，其特征在于，步骤S6中的单向监督过程为：

S61、将端口p_i包含的对应关系所记录的总数T加1，即T=T+1；

S64、将端口p_i新的对应关系表应用于识别过程。

9.一种网络流量分类装置，其特征在于，包含以下模块：

10.如权利要求9所述的网络流量分类装置，其特征在于，进一步包含定时器衰减增益模块，