CN1633111B - 高速网络业务流分类方法 - Google Patents

高速网络业务流分类方法 Download PDF

Info

Publication number
CN1633111B
CN1633111B CN 200510004248 CN200510004248A CN1633111B CN 1633111 B CN1633111 B CN 1633111B CN 200510004248 CN200510004248 CN 200510004248 CN 200510004248 A CN200510004248 A CN 200510004248A CN 1633111 B CN1633111 B CN 1633111B
Authority
CN
China
Prior art keywords
node
hash
packet
search
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200510004248
Other languages
English (en)
Other versions
CN1633111A (zh
Inventor
杨建华
谢高岗
张广兴
李忠诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN 200510004248 priority Critical patent/CN1633111B/zh
Publication of CN1633111A publication Critical patent/CN1633111A/zh
Application granted granted Critical
Publication of CN1633111B publication Critical patent/CN1633111B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及计算机网络流量监测分析技术领域,特别是一种高速网络业务流分类方法。该方法特别针对基于业务流的网络流量监测与分析,适合没有初始规则库的业务流监测需要,可以根据业务流定义规则以及实际网络流量自动探测新的业务流,并对业务流进行分类、更新与老化。方法采用三阶段查找方法,第一阶段采用Hash方法,尽量分散流记录的分布;第二阶段提供两种方式避免哈希冲突,一种是线性链表,另一种是查找树;最后一个阶段是线性查找与记录更新。实验结果显示单个数据包查找不成功后插入新流记录和查找成功并更新流记录信息的平均处理时间分别为1.8μs和1.3μs。

Description

高速网络业务流分类方法
技术领域
本发明涉及计算机网络流量监测分析技术领域,特别是一种高速网络业务流分类方法。
背景技术
网络流量监测是分析网络承载流量、了解业务性能、定位网络瓶颈的重要手段之一。随着网络应用不断发展,网络带宽的增加以及高带宽、高服务质量需求的实时业务的出现,基于SNMP(Simple NetworkManagement Protocol)实现的链路级流量监测已越来越不能满足需要。基于使用情况的网络计费、服务质量监测、攻击/入侵检测、网络流量建模等越来越多的应用和网络管理迫切需要基于业务流(Flow)的流量监测。目前基于流的流量监测主要集中在流大小(包个数)分布、特大流(elephant)的监测等,而基于流的精确监测方法相对较少,尤其针对高速链路更是面临挑战。
基于业务流的流量监测方法通常首先捕获网络数据包,根据业务流规则定义分析数据包头部信息;在已有的流记录表中查找匹配的流记录,如查找成功则更新匹配的流记录,否则在流记录表中增加新的流记录。同时流监测方法还必须定期或根据流会话控制协议判断业务流是否结束,统计结束流记录信息或把结束流记录传回采集中心保存。对于10Gbps的以太网链路,即使流采用最大包(1518Bytes)封装业务,需要线速监测业务流的流量,每个数据包的处理延迟不能超过1.2us,否则将产生丢包。高性能流监测不仅仅需要高性能的分析处理器,还需要高速业务流监测方法。设计高速业务流监测方法的关键点包括高速数据包捕获、高速流分类、高速流记录老化更新、高速结果回收,其中最关键的是高速业务流分类方法。
业务流分类方法根据流规则是否预先建立可以分为有源流分类方法与无源流分类方法。有源流分类方法有初始规则库,方法根据规则库建立流分类数据结构,规则库的改变需要人为干预。无源流分类方法没有任何初始规则库,通过分析网络流量的特征根据指定字段自动创建规则并对数据包进行分类的方法。无源流分类方法和一般的包分类方法有很大的相似性,如都包含一个规则库(只是流分类方法的规则库是指流记录库),需要在规则库中查找匹配的规则,需规则库的更新等。但由于其目的不同,在方法的要求上也有所不同。当前的包分类研究主要应用在IP路由查找、4层交换、数据包过滤等方面,这些包分类技术的前提大都是有一个初始的规则库,其更新频率相对较小,因此大都侧重于查找效率;而无源流分类方法没有初始规则库,分类规则主要是数据包的某些字段,典型的为5元组,源、目的IP地址,源、目的端口和协议,只有这些字段的值都完全相同的数据包才属于同一个业务流。无源流分类方法根据业务流规则定义中规定的字段查找匹配的流记录,查找成功则更新,不成功则增加新的流记录。因此庞大的规则数(流记录数)、频繁的记录更新、大量存储空间的要求都高效无源业务流分类方法的设计带来了巨大的挑战。
业务流分类技术是实现基于流的流量监测的基础,其研究主要集中在传统的包分类技术上。包分类是路由器需完成最基本的功能,最早的包分类主要是IP分类,用于寻找目的主机的路由。随着网络用户对网络需求的不断提高,ISP(Internet Service Provider)纷纷开始提供增值服务,为不同应用提供不同的服务质量,因此路由器开始具有接入控制、资源预留、公平排队等功能。仅依靠原有的IP分类技术已不能满足要求,因此开始出现多维(多字段)包分类技术。多维包分类技术也广泛应用于防火墙和入侵监测系统。
评价包分类方法优劣的准则包括如下几个方面:查找速度;低存储需求;支持的规则数目;快速更新;对多维匹配的支持程度;规则格式的灵活性等。在实际工程中,往往综合考虑内存大小、查询速度要求、规则更新速度,设计适合的方法。文献[11]中还对几种包分类方法进行了性能分析,主要考虑了三种评测指标,查找时间更新时间和存储需求。
无源流分类方法是一种特殊的包分类方法,和包分类方法有很大相似性。方法没有初始规则库,其规则库的建立是在规则查找过程中创建。该方法适合于对网络链路流量进行业务流分类、统计分析,分析网络流量特征。方法首先根据数据包的信息在流记录库中查找匹配的流记录,如果查找成功则更新流记录,否则作为新的流记录(规则)插入到流记录库中。因此无源流分类方法必须支持庞大的规则数目,存储空间的需求相对较大。无源流分类方法除了没有初始规则库,其规则格式和现有的包分类方法也有较大不同。包分类方法大都支持的是前缀匹配和范围匹配,而用于流量监测的无源流分类方法主要侧重精确匹配。
发明内容
本发明的目的在于提供一种高速网络业务流分类方法。
本发明是一种高速网络业务流分类方法,是一种无源业务流分类方法,该方法的关键在于,其适合于没有初始规则库的基于业务流的分类,具体内容叙述如下:
1)业务流分类定义
定义1业务流规则:由多个字段组成,RF={FD1,FD2,...,FDd},每个字段由偏移和长度表示。
定义2流分类器:每个流分类器包括N个规则C={R1,R2,...,RN}每个规则对应一个Flow,N表示基于流的监测分析系统能够支持的并发流数目。每个规则对应业务流定义中规定的各个字段的值
Figure G2005100042486D00031
其中d表示字段数。
定义3业务流分类:当数据包p到达时,可以从p中根据业务流规则定义解析出d个字段的值,P={f1,f2,...fd},如存在分类器中的规则Ri满足任意1<j<d,则认为数据包p属于Ri对应的业务流,并更新Ri对应的流记录信息;否则认为p属于新的业务流,并把P={f1,f2,...fd}作为新的规则插入到流分类器C中。
2)无源业务流分类方法及数据结构
本发明的关键技术在于方法采用三阶段查找方法,第一阶段采用Hash方法,尽量分散流记录的分布;第二阶段提供两种方式,一种是线性链表,另一种是查找树;最后一个阶段是线性查找。第一阶段Hash表的大小为255*255。方法关键在于Hash函数的选择,即Hash索引值的计算方法。
无源业务流分类方法,第一阶段采用了一种通过网络数据包的源IP地址和目的IP地址的最后一个字节计算Hash索引值并在Hash链表中查找,如果数据包为出境则采用的Hash计算方法为公式(1)。
无源业务流分类方法,第二阶段提供两种方式数据结构,线性链表或者Trie结构;
并根据结构的不同提供两种第二阶段查找方法,即线性查找或者二分查找。
对于一条被监测链路,链路两端分别对应一组用户群或者服务器群,根据IPv4地址分配原则,IPv4地址的最后一个字节分布最广泛也最分散,根据此特点,设计Hash函数如下。对于一条被监测链路,选择一端为内部,另一端为外部,因此流量可以被划分为出境和入境。如果捕获的数据包为出境流量,则选择数据包的源IP地址的最后1个字节作为低8位,目的IP地址的最后一个字节为高8位组合而成的一个16位hash索引值,如公式(1)。
Hash_index=(src_ip4)<<8+(dst_ip4)    (1)
其中src_ip4,dst_ip4分别表示源、目的IP地址的最后一个字节。
反之如果为入境流量则把数据表的目的IP地址的最后一个字节作为低8位,源IP地址的最后一个字节作为高8位组成hash索引值。如公式(2)。
Hash_index=(dst_ip4)<<8+(src_ip4)    (2)
第二阶段可选用线性链表方式,每个Hash表项指向一个IP地址对结点链表,即所有Hash索引值相同的IP地址对结点形成一个线性链表。每个IP地址对结点则包含一个Flow记录链表,这些Flow记录具有相同的IP地址对。其数据结构如图1所示。
第二阶段也可使用查找树,则Hash表项指向的是一个由IP地址对结点组成的树。树结构为有序三叉树,树中结点进行排序的关键值T_key通过如下方法构造。对于出境数据包,用源IP地址的倒数第二个字节构造T_key的1~4字节和9~12字节,目的IP地址的倒数第二个字节作为后8位构构造T_key的5~8字节和13~16字节,如公式(3)。
T_key=(src_ip3&0x0f)<<12+(dst_ip3&0x0f)<<8+    (3)
(src_ip3&0xf0)+(dst_ip3&0xf0)>>4
如果为入境数据包,则用目的IP地址的倒数第二个字节构造T_key的1~4字节和9~12字节,源IP地址的倒数第二个字节作为后8位构造T_key的5~8字节和13~16字节,如公式(4)。
T_key=(dst_ip3&0x0f)<<12+(src_ip3&0x0f)<<8+    (4)
(dst_ip3&0xf0)+(src_ip3&0xf0)>>4
T_Key较大的结点作为右子结点,较小的为左结点,相等的作为中间结点。任何一个IPPair结点的左右子结点是一个子树,而中间结点则串成一个线性链表。其数据结构如图2。
3)高速网络业务流分类方法
高速网络业务流分类方法包括四个部分:查找流记录、插入/更新IPPair结点,插入/更新流记录结点,流记录老化与信息统计。由于方法针对基于业务流的流量监测设计,查找与更新同时并存,即如果查找成功则更新流记录信息,否则插入新的流记录结点。该方法不需要初始规则库,可以根据网络中的流量以及流规则定义自动识别并统计网络中的业务流信息,其中查找与更新的部分伪码如图3所示。其中如果分类方法的第二阶段采用线性表,则查找链表是是顺序查找,每次插入新的IPPair结点均插入在相应Hash表指向链表的第一个结点,新的流记录信息也插入在相应IPPair结点指向的流记录链表的第一个结点;若第二阶段采用的是Trie结构,则在查找到一个IPPair结点后首先计算T_Key,并根据T_Key大小决定在IPPair结点的左子树、右子树或者中间子树中继续查找直到查到T_Key相同结点。该方法在一种基于网络处理器的板卡上实现并做了相关实验,实验结果显示单个数据包查找不成功后插入新流记录和查找成功并更新流记录信息的平均处理时间分别为1.8μs和1.3μs。图4为数据包的总分析时间,流分析时间和第二阶段的链表长度的关系图,实验结果显示流分析过程,特别是流链表查找,是流量监测分析主要耗时过程,提高流分析速度将提高流量监测分析的吞吐量;插入流链表记录的流分析过程,数据包处理耗时大于已建立链表流分析过程,数据包平均处理时间较已建链表大0.5μs。
附图说明
图1是无源业务流分类方法数据结构,第二阶段采用线性表结构示意图。
图2是无源业务流分类方法数据结构,第二阶段采用Trie结构示意图。
图3是无源业务流分类方法-查找与更新部分伪码图。
图4是数据包总分析时间、流分析时间和第二阶段链表长度的关系图。
图5是高速网络业务流分类方法流程图。
具体实施方式
图1:无源业务流分类方法数据结构示意图,第二阶段采用线性表结构。线性表结构实现简单,更新(增加或者删除)方便,并且方法中采用的插入新的流记录的方式为每次插入到队列头部,最新的流总是最先被处理,符合网络流量特征。
图2:无源业务流分类方法数据结构示意图,第二阶段采用Trie结构。Trie结构根据所设计的键值计算方法,利用键值的大小构造三叉树,大小分列两边相等键值的则列在中间,该方法比较适合第一阶段的Hash链表长度较长的情况,虽然构造比线性表复杂,但其查找速度理论上相对较快。
图3:无源业务流分类方法-查找与更新部分伪码。该图说明了高速业务流分类方法的基本实现步骤。
图4:数据包总分析时间、流分析时间和第二阶段链表长度的关系图。由图可知流分析过程,特别是流链表查找,是流量监测分析主要耗时过程,提高流分析速度将提高流量监测分析的吞吐量;插入流链表记录的流分析过程,数据包处理耗时大于已建立链表流分析过程,数据包平均处理时间较已建链表大0.5μs。
图5:是高速网络业务流分类方法流程图,其步骤如下:
首先网络收到数据包后根据源、目的IP地址计算Hash表索引值,并根据索引值在Hash表对应结点所指的链表或树中查找对应的IPPair结点,如果查找成功则在查找到的IPPair结点指向的流记录链表中查找相应的流记录结点,如果查找成功则更新流记录否则创建新的流记录结点;否则如果查找IPPair结点不成功则创建新的IPPair结点以及新的流记录结点。
具体步骤为:
步骤S1,根据数据包的源、目的IP地址计算Hash索引值;
步骤S2,在索引值指定的Hash表结点所指的链表中查找相应的IPPair结点;
步骤S3,如果查找成功,则已查找成功的IPPair结点所指的流记录结点中查找相应的流记录,否则转步骤S5;
步骤S4,如果查找流记录成功则更新流记录信息,一次查找结束,否则转S6;
步骤S5,创建新的IPPair结点并插入到相应Hash表结点指向的链表中;
步骤S6,创建新的流记录结点并插入到IPPair结点指向的流记录链表中,一次查找结束。

Claims (2)

1.一种高速网络业务流分类方法,其特征在于,方法分为三个阶段实现,第一阶段采用Hash方法,尽量分散流记录的分布;第二阶段提供两种方式,一种是线性链表,另一种是查找树;最后一个阶段是线性查找;首先网络收到数据包后根据源、目的IP地址计算Hash表索引值,并根据索引值在Hash表对应结点所指的链表或树中查找对应的IPPair结点,如果查找成功则在查找到的IPPair结点指向的流记录链表中查找相应的流记录结点,如果查找成功则更新流记录否则创建新的流记录结点;否则如果查找IPPair结点不成功则创建新的IPPair结点以及新的流记录结点;其中:
第一阶段采用一种通过网络数据包的源IP地址和目的IP地址的最后一个字节计算Hash索引值,并在Hash链表中查找,如果数据包为出境则采用的Hash计算方法为:
Hash_index=(src_ip4)<<8+(dst_ip4)        (1)
如果数据包为入境数据包则采用的Hash方法为:
Hash_index=(dst_ip4)<<8+(src_ip4)         (2)
其中src_ip4,dst_ip4分别表示源、目的IP地址的最后一个字节;
第二阶段提供两种方式数据结构,线性链表或者Trie结构,并根据结构的不同提供两种第二阶段查找方法,即线性查找或者二分查找。
2.根据权利要求1所述的高速网络业务流分类方法,其特征在于,如果第二阶段采用Trie结构,则通过源IP地址和目的IP地址的倒数第二个字节计算创建Trie结构的键值,如果数据包为出境则采用的键值计算方法为:
T_key=(src_ip3&0x0f)<<12+(dst_ip3&0x0f)<<8+
                                                    (3)
       (src_ip3&0xf0)+(dst_ip3&0xf0)>>4
如果数据包为入境则采用的键值计算方法为:
T_key=(dst_ip3&0x0f)<<12+(src_ip3&0x0f)<<8+
                                                    (4)
       (dst_ip3&0xf0)+(src_ip3&0xf0)>>4
CN 200510004248 2005-01-14 2005-01-14 高速网络业务流分类方法 Expired - Fee Related CN1633111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510004248 CN1633111B (zh) 2005-01-14 2005-01-14 高速网络业务流分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510004248 CN1633111B (zh) 2005-01-14 2005-01-14 高速网络业务流分类方法

Publications (2)

Publication Number Publication Date
CN1633111A CN1633111A (zh) 2005-06-29
CN1633111B true CN1633111B (zh) 2010-04-28

Family

ID=34853020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510004248 Expired - Fee Related CN1633111B (zh) 2005-01-14 2005-01-14 高速网络业务流分类方法

Country Status (1)

Country Link
CN (1) CN1633111B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100459574C (zh) * 2005-09-19 2009-02-04 北京大学 对网络流进行分类、状态跟踪和报文处理的装置和方法
CN100417140C (zh) * 2005-10-24 2008-09-03 华为技术有限公司 一种流分类装置和方法以及采用该流分类装置的基站
US7675918B2 (en) * 2006-11-13 2010-03-09 Cisco Technology, Inc Hash-based preemption
CN101119321B (zh) * 2007-09-29 2010-11-03 杭州华三通信技术有限公司 网络流量分类处理方法及网络流量分类处理装置
CN101577705A (zh) * 2008-05-08 2009-11-11 北京东华合创数码科技股份有限公司 一种多核并行的网络业务流负载均衡方法及其系统
CN101309216B (zh) * 2008-07-03 2011-05-04 中国科学院计算技术研究所 一种ip包分类方法和设备
CN101719907B (zh) * 2009-11-26 2012-08-29 西北工业大学 基于BitTorrent的被动式载荷信息监测方法
CN102664773A (zh) * 2012-05-22 2012-09-12 中国人民解放军信息工程大学 一种网络流量的探测方法和探测装置
CN103220223B (zh) * 2013-04-26 2016-04-20 北京百度网讯科技有限公司 网络数据流分类方法和系统
CN103746919A (zh) * 2014-01-14 2014-04-23 浪潮电子信息产业股份有限公司 一种结合多路决策树和哈希表进行网络包快速分类的方法
CN104503842B (zh) * 2014-12-22 2018-05-04 广州品唯软件有限公司 基于多层分流实验框架的策略执行方法和装置
CN106209663B (zh) * 2016-07-12 2019-06-18 优酷网络技术(北京)有限公司 流量切分方法及系统
CN110019325A (zh) * 2018-08-15 2019-07-16 北京天地和兴科技有限公司 一种工业规则的快速匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078309A2 (en) * 2000-04-11 2001-10-18 P-Cube Ltd. A method and apparatus for wire-speed application layer classification of data packets
CN1404591A (zh) * 2000-12-22 2003-03-19 三星电子株式会社 执行高速互联网协议路由查找和管理路由选择/转发表的装置和方法
US6754662B1 (en) * 2000-08-01 2004-06-22 Nortel Networks Limited Method and apparatus for fast and consistent packet classification via efficient hash-caching
CN1540929A (zh) * 2003-10-31 2004-10-27 中国科学院计算技术研究所 一种分布式网络主动测试结果存储方法
US6820121B1 (en) * 2000-08-24 2004-11-16 International Business Machines Corporation Methods systems and computer program products for processing an event based on policy rules using hashing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078309A2 (en) * 2000-04-11 2001-10-18 P-Cube Ltd. A method and apparatus for wire-speed application layer classification of data packets
US6754662B1 (en) * 2000-08-01 2004-06-22 Nortel Networks Limited Method and apparatus for fast and consistent packet classification via efficient hash-caching
US6820121B1 (en) * 2000-08-24 2004-11-16 International Business Machines Corporation Methods systems and computer program products for processing an event based on policy rules using hashing
CN1404591A (zh) * 2000-12-22 2003-03-19 三星电子株式会社 执行高速互联网协议路由查找和管理路由选择/转发表的装置和方法
CN1540929A (zh) * 2003-10-31 2004-10-27 中国科学院计算技术研究所 一种分布式网络主动测试结果存储方法

Also Published As

Publication number Publication date
CN1633111A (zh) 2005-06-29

Similar Documents

Publication Publication Date Title
CN1633111B (zh) 高速网络业务流分类方法
US11757739B2 (en) Aggregation of select network traffic statistics
US11061942B2 (en) Unstructured data fusion by content-aware concurrent data processing pipeline
US8619766B2 (en) Method and apparatus for classifying packets
US8233493B2 (en) Packet router having improved packet classification
Baboescu et al. Scalable packet classification
US20090006346A1 (en) Method and Apparatus for Efficient Aggregate Computation over Data Streams
CN106452868A (zh) 一种支持多维度聚合分类的网络流量统计实现方法
CN103401777A (zh) Openflow的并行查找方法和系统
CN100385880C (zh) 分组分类装置和使用字段级特里结构的方法
Abbasi et al. MBitCuts: optimal bit-level cutting in geometric space packet classification
US11799745B2 (en) Distributed and timely network flow summarization at scale
Lim et al. Two-dimensional packet classification algorithm using a quad-tree
Yu et al. Characterizing rule compression mechanisms in software-defined networks
Shen et al. Optimizing multi-dimensional packet classification for multi-core systems
Bienkowski et al. Online aggregation of the forwarding information base: Accounting for locality and churn
Chang Efficient multidimensional packet classification with fast updates
KR20120085400A (ko) 하둡 기반 병렬 연산에 의한 패킷분석 시스템 및 방법
CN113259263B (zh) 一种深度报文检测集群中的数据包调度方法
Vijay et al. Implementation of memory-efficient linear pipelined IPv6 lookup and its significance in smart cities
CN100425039C (zh) 标志集合式两维报文分类及查找方法和设备
Chen et al. A new lookup model for multiple flow tables of open flow with implementation and optimization considerations
Rafiee et al. Pruned Kd-tree: a memory-efficient algorithm for multi-field packet classification
US20170244642A1 (en) Multi-dimensional packet classification
Hanna et al. Advanced hashing schemes for packet forwarding using set associative memory architectures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100428

Termination date: 20190114