CN113632427A - 一种报文匹配方法、装置、网络设备及介质 - Google Patents

一种报文匹配方法、装置、网络设备及介质 Download PDF

Info

Publication number
CN113632427A
CN113632427A CN202180001644.0A CN202180001644A CN113632427A CN 113632427 A CN113632427 A CN 113632427A CN 202180001644 A CN202180001644 A CN 202180001644A CN 113632427 A CN113632427 A CN 113632427A
Authority
CN
China
Prior art keywords
pipeline
output interface
data
hash value
interface data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180001644.0A
Other languages
English (en)
Inventor
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Publication of CN113632427A publication Critical patent/CN113632427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • H04L45/745Address table lookup; Address filtering
    • H04L45/748Address table lookup; Address filtering using longest matching prefix
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/622Queue service order
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • H04L45/745Address table lookup; Address filtering
    • H04L45/7453Address table lookup; Address filtering using hashing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/48Routing tree calculation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/48Routing tree calculation
    • H04L45/488Routing tree calculation using root node determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • H04L45/742Route cache; Operation thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • H04L45/745Address table lookup; Address filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1515Non-blocking multistage, e.g. Clos
    • H04L49/1546Non-blocking multistage, e.g. Clos using pipelined operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • H04L49/3063Pipelined operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供一种报文匹配方法、装置、网络设备及介质,涉及通信技术领域。包括将N个第一数据报文加入N条流水线中,将每条流水线的级stage均设置为决策树的根节点;计算N条流水线中第一条流水线的第一哈希值,并异步从内存中预取并缓存第一哈希值对应的第一出接口数据,在从内存中预取第一出接口数据的同时计算N条流水线中第二条流水线的第二哈希值;当N条流水线中每条流水线的哈希值均已计算完成,从缓存中获取第一出接口数据;当第一出接口数据表征为用于转发第一条流水线中的第一数据报文时,将第一条流水线中的第一数据报文从第一条流水线中删除,并当接收到第二数据报文时,将第二数据报文加入第一条流水线。可以加快报文匹配速度。

Description

一种报文匹配方法、装置、网络设备及介质
技术领域
本申请涉及通信技术领域,特别是涉及一种报文匹配方法、装置、网络设备及介质。
背景技术
目前,网络交换机或路由器等网络设备使用转发信息库(ForwardingInformation Base,FIB)指导网际互连协议(Internet Protocol,IP)报文或命名数据网络(Named Data Networking,NDN)报文的转发。在报文转发过程中,利用最长匹配原则,从FIB中获取用于转发报文的出接口。该出接口所在的FIB表项为FIB中与目的地址匹配的前缀长度最长的表项。
FIB表项以key-value的形式存放到hash表中,其中,前缀/前缀长度的哈希值作为key,前缀/前缀长度对应的出接口作为value。为了加快报文匹配的速度,引入动态决策树。决策树中的每个节点表示一个可能的前缀长度,决策树的根节点为在报文匹配过程中命中率最高的前缀长度,其他可能的前缀长度按照匹配命中率以从高到低的顺序依次分布于该决策树的子节点上。
当接收到待转发报文时,通过查找决策树的方式,对待转发报文的目的地址进行匹配,得到待转发报文对应的出接口。即计算目的地址与决策树的节点对应前缀长度的哈希值,进而从内存的哈希表中查找是否存在该哈希值对应的出接口。网络设备的CPU需要多次访问内存才能完成对一个待转发报文的匹配,在接收到的待转发报文较多的情况下,会导致对待转发报文的匹配速度较慢,不能及时转发待转发报文。
发明内容
本申请实施例的目的在于提供一种报文匹配方法、装置、网络设备及介质,以加快对报文匹配的速度,及时转发报文。具体技术方案如下:
第一方面,本申请提供一种报文匹配方法,包括:
将N个第一数据报文加入N条流水线中,将每条流水线的级stage均设置为决策树的根节点,所述决策树中的每个节点代表一种前缀长度且每个节点代表的前缀长度不同;
计算所述N条流水线中第一条流水线的第一哈希值,并异步从内存中预取所述第一哈希值对应的第一出接口数据,并将所述第一出接口数据存储在缓存中,在从内存中预取所述第一出接口数据的同时计算所述N条流水线中第二条流水线的第二哈希值,重复执行异步从内存中预取哈希值对应的出接口数据,并将出接口数据存储在缓存中,在从内存中预取出接口数据的同时计算流水线的哈希值的过程,直至所述N条流水线中每条流水线的哈希值均已计算完成时停止;其中,流水线的哈希值为流水线中的数据报文的目的地址与stage代表的前缀长度的哈希值;
当所述N条流水线中每条流水线的哈希值均已计算完成,从所述缓存中获取所述第一出接口数据;
当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线中的第一数据报文从所述第一条流水线中删除,并当接收到第二数据报文时,将所述第二数据报文加入所述第一条流水线。
在一种可能的实现方式中,在从所述缓存中获取所述第一出接口数据之后,所述方法还包括:
当所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为所述根节点的右子节点,将所述第一条流水线中的出接口信息更新为所述第一出接口数据。
在一种可能的实现方式中,在从所述缓存中获取所述第一出接口数据之后,所述方法还包括:
判断所述决策树中,所述根节点的右子节点是否为空;
若是,则确定所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文;
若否,则确定所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文。
在一种可能的实现方式中,所述方法还包括:
如果从所述缓存中获取不到所述第一哈希值对应的第一出接口数据,则将所述第一条流水线的stage更新为所述根节点的左子节点。
在一种可能的实现方式中,所述方法还包括:
当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为完成匹配;
所述将所述第一条流水线中的第一数据报文删除,包括:
当所述N条流水线的stage均完成一次更新后,将stage为完成匹配的流水线中的第一数据报文从流水线中删除。
第二方面,本申请提供一种报文匹配装置,包括:
设置模块,用于将N个第一数据报文加入N条流水线中,将每条流水线的级stage均设置为决策树的根节点,所述决策树中的每个节点代表一种前缀长度且每个节点代表的前缀长度不同;
预取模块,用于计算所述N条流水线中第一条流水线的第一哈希值,并异步从内存中预取所述第一哈希值对应的第一出接口数据,并将所述第一出接口数据存储在缓存中,在从内存中预取所述第一出接口数据的同时计算所述N条流水线中第二条流水线的第二哈希值,重复执行异步从内存中预取哈希值对应的出接口数据,并将出接口数据存储在缓存中,在从内存中预取出接口数据的同时计算流水线的哈希值的过程,直至所述N条流水线中每条流水线的哈希值均已计算完成时停止;其中,流水线的哈希值为流水线中的数据报文的目的地址与stage代表的前缀长度的哈希值;
获取模块,用于当所述N条流水线中每条流水线的哈希值均已计算完成,从所述缓存中获取所述第一出接口数据;
所述设置模块,还用于当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线中的第一数据报文从所述第一条流水线中删除,并当接收到第二数据报文时,将所述第二数据报文加入所述第一条流水线。
在一种可能的实现方式中,所述装置还包括:
更新模块,用于当所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为所述根节点的右子节点,将所述第一条流水线中的出接口信息更新为所述第一出接口数据。
在一种可能的实现方式中,所述装置还包括:判断模块,用于:
判断所述决策树中,所述根节点的右子节点是否为空;
若是,则确定所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文;
若否,则确定所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文。
在一种可能的实现方式中,所述装置还包括:
更新模块,用于如果从所述缓存中获取不到所述第一哈希值对应的第一出接口数据,则将所述第一条流水线的stage更新为所述根节点的左子节点。
在一种可能的实现方式中,所述装置还包括:
更新模块,用于当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为完成匹配;
所述设置模块,具体用于当所述N条流水线的stage均完成一次更新后,将stage为完成匹配的流水线中的第一数据报文从流水线中删除。
第三方面,本申请实施例提供一种网络设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中所述的方法。
第五方面,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中所述的数据处方法。
本申请实施例提供的报文匹配方法、装置、网络设备及介质,可以通过N条流水线对N个第一数据报文进行匹配,在将N个第一数据报文加入N个流水线中之后,可以计算N条流水线中第一流水线的第一哈希值,并异步从内存中预取第一哈希值对应的第一出接口数据,并将第一出接口数据存储在缓存中,在从内存中预取第一出接口数据的同时计算N条流水线中第二条流水线的第二哈希值。如此,相当于每计算出N条流水线中的一条流水线的哈希值,则异步从内存中预取该哈希值对应的出接口数据,如此,在需要获取第一哈希值对应的第一出接口数据时,无需访问内存,可直接从缓存中获取第一出接口数据,减少了报文匹配所需的时间。且如果第一出接口数据表征为用于转发第一条流水线中的第一数据报文时,则将该第一条流水线中的第一数据报文从第一条流水线中删除,从而将第二数据报文加入第一条流水线中进行处理。相比于现有技术中将N条流水线中的第一数据报文均完成转发后才能对接收到的第二数据报文进行处理,本申请实施例中,只要有数据报文被从流水线中删除,就可以将第二数据报文加入到该流水线中并开始处理,可以加快对接收到的数据报文的匹配与转发速度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例和现有技术的技术方案,下面对实施例和现有技术中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种决策树的示例性示意图;
图2为本申请实施例提供的另一种决策树的示例性示意图;
图3为本申请实施例提供的一种用于生成决策树的矩阵的示例性示意图;
图4a和图4b为本申请实施例提供的一种生成决策树的过程的示例性示意图;
图5a、图5b和图5c为本申请实施例提供的另一种生成决策树的过程的示例性示意图;
图6为本申请实施例提供的一种报文匹配方法的流程图;
图7为本申请实施例提供的一种报文匹配装置的结构示意图;
图8为本申请实施例提供的一种网络设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本申请进一步详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为方便理解,首先对本申请实施例涉及的相关概念进行介绍。
一、FIB表项。
FIB表项用于指导IPv4/IPv6/NDN报文的转发。FIB表项的核心结构为:前缀/前缀长度+出接口。其中,前缀长度用于表示前缀的哪一部分是有效匹配部分。
1.以IPv4的FIB为例,FIB包括的两条表项如下:
Entry1:IP前缀:10.0.0.0/8 出接口:接口2。
Entry2:IP前缀:10.20.0.0/16 出接口:接口3。
其中,“10.0.0.0/8”中的“10.0.0.0”为前缀,“8”为前缀长度,代表着如果接收到的报文的目的地址与前缀中的“10.”匹配,则通过接口2转发报文。
“10.20.0.0/16”中的“10.20.0.0”为前缀,“16”为前缀长度,代表着如果接收到的报文的目的地址与前缀中的“10.20.”匹配,则通过接口3转发报文。
另外,基于FIB表项进行报文匹配时遵循最长匹配原则,即若报文的目的地址与多条表项匹配,则选择所匹配的表项中前缀长度最长的表项中的出接口。
例如,假设接收到的报文的目的IP地址为10.0.0.1,该目的IP地址只能匹配上述Entry1,所以网络设备将选择Entry1中的出接口2作为该报文的转发接口。
再例如,假设接收到的报文的目的IP地址为10.20.0.1,该目的IP地址同时匹配上述Entry1和Entry2,但是Entry2的前缀长度16比Entry1的前缀长度8更长,所以网络设备会选择Entry2中的出接口3作为该报文的转发接口。
2.再以NDN网络的FIB为例,NDN网络与IP网络类似,将IP地址变成了目录形式,为支持文本字符的目录。
例如,FIB包括的三条表项如下:
Entry1:NDN前缀:/Book/Fiction/Science 出接口:接口1
Entry2:NDN前缀:/Book 出接口:接口2
Entry3:NDN前缀:/Shoe 出接口:接口3
其中,“/”用于对前缀进行分层,NDN的FIB同样遵循最长前缀匹配原则。
例如,如果接收到的报文的目的地址是:/Book/Fiction/Science/BladeRunner,该目的地址与Entry1和Entry2均匹配,但是Entry1的前缀长度为3,Entry2的前缀长度为1,所以网络设备将Entry1包括的出接口1作为作为该报文的转发接口。
再例如,如果接收到的报文的目的地址是:/Book/Fiction/Ancient,则可确定该目的地址与Entry2匹配,所以网络设备将Entry2包括的出接口2作为该报文的转发接口。
IP网络可以被看作是特殊的NDN网络:NDN支持任意字符,任意长度的前缀分割,IP网络支持0/1两种Bit的分割,而且IP报文有固定的最大前缀长度。其中,IPv6的最大前缀长度为128Bit,IPv4的最大前缀长度为32Bit。
二、HASH FIB
FIB的表项中包括的前缀信息和出接口信息以key-value的形式保存在内存的哈希表中,假设FIB中包括以下表项:
Figure BDA0003135937530000081
在接收到报文后,需要将报文的目的地址分别与每条表项中的前缀匹配,将匹配到的最长的前缀对应的接口作为该报文的转发接口。但是每匹配一个表项都要访问一次内存,会导致报文匹配所需的时间较长。
为了加快对报文的匹配速度,可以采用二分法查找与报文的目的地址匹配的表项。对于目的地址为/a/b/c/d/f的报文,如果采用二分法查找,则首先尝试匹配前缀/a/b/c,可以看出FIB的表项中不存在前缀/a/b/c。此时若网络设备错误的认为不能匹配到比/a/b/c更长的前缀,则网络设备将在FIB中寻找更短的前缀,比如前缀/a,并通过Entry2中的出接口2转发该报文。但是实际上该目的地址匹配的最长前缀应该是Entry3中的前缀/a/b/c/d,导致报文被错误转发。
为了解决无法通过二分法正确查找HASH FIB的问题,可以在HASH FIB中增加虚拟表项(Virtual Entry)。
仍以上述HASH FIB为例,Entry1路径上的虚拟表项包括的前缀有:/a,/a/b,/a/b/c,/a/b/c/d,其中,/a和/a/b/c/d已经存在,因此不用增加。需要为Entry1补充前缀为/a/b和/a/b/c的两个虚拟Entry。
Entry2的前缀长度为1,所以无需补充虚拟Entry。
Entry3路径上的虚拟表项包括的前缀有:/a,/a/b,/a/b/c,其中/a已经存在,所以可以补充前缀为/a/b/c和/a/b的虚拟Entry。
Entry4路径上的虚拟表项包括的前缀有:/f,可以补充前缀为/f的虚拟Entry。
在补充上述虚拟Entry之后,得到的HASH FIB包括:
Figure BDA0003135937530000091
在补充虚拟Entry后,即可实现采用二分法的方式查找表项。例如,若接收到的报文的目的地址为/a/b/w/x/y/z。通过查找HASH FIB确定/a/b/w不存在,所以可确定针对/a/b/w/x/y/z必定不存在比/a/b/w更优的前缀匹配,因此可以直接从/a/b/w中递归进行二分查找,大大加快了HASH FIB的查找速度。搜索的次数可以由N次提升为Log2(N)次,N为最大前缀长度,比如对于IPv6网络,N的最大值为128。
三、最优决策树
为了进一步提高报文匹配速度,在本申请实施例中,可以将所有可能的前缀长度生成决策树。其中,生成决策树的原则为匹配命中率越高的前缀长度越靠近决策树的根节点,每个节点的左子节点代表的前缀长度比右子节点的前缀长度短。
例如,若网络设备接收到的大多数报文都命中长度为128的前缀(下文中简称为Prefix 128),则生成的决策树如图1所示。其中,Prefix 128作为根节点,其他前缀长度均为根节点的左分支,因Ipv6报文的最大前缀长度为128bit,不存在比128更长的前缀,所以根节点的右子节点为空。
在接收到Prefix 128的报文后,只需匹配一次决策树的根节点即可确定出接口。
再例如,若网络设备接收到的大多数报文都命中长度为127的前缀(即Prefix127),则生成的决策树如图2所示。其中,Prefix 127作为根节点,Prefix 128作为根节点的右子节点,其他前缀长度均为根节点的左分支。
在接收到Prefix 127的报文后,先匹配决策树的根节点Prefix 127,此时匹配成功,基于匹配最长前缀的原则,还需再与根节点的右子节点Prefix 128进行匹配,此时匹配失败,且右子节点Prefix 128没有左右分支,所以最终确定Prefix 127的报文与根节点匹配。通过两次匹配决策树的过程即可确定出接口。
上述决策树可以根据转发报文命中各前缀长度的概率生成,为方便描述,在本申请实施例中,所涉及到的符号含义如下:
Px表示报文命中Prefix X的概率;
cost(m,n)表示查找从prefix m到prefix n的最优的决策树,所需消耗的步骤的期望。
以ipv6为例,构建最优决策树的目标为求解cost(1,128),即查找从prefix 1到prefix 128的最优决策树,所需消耗的步骤的期望。
对于cost(1,128),假设选择50作为根节点,那么报文有P1+P2+…+P49的概率进入50的左分支。有P50+P51+…+P128的概率进入50的右分支。
此时选择50作为根节点的期望消耗步骤是:1+(P1+P2+…+P49)*Cost(1,49)+(P50+P51+…+P128)*Cost(51,128)。
上述公式中,1为匹配决策树的根节点消耗的步骤。Cost(1,49)是匹配决策树的左分支消耗的步骤。Cost(51,128)是匹配决策树的右分支消耗的步骤。
在选择根节点时,以cost(1,128)最小为目标,即匹配决策树消耗的步骤越少,则报文整体匹配速度越快。
所以,cost(1,128)=min(1+(P1+P2+…+Pj-1)*Cost(1,j-1)+(Pj+Pj+1+…+P128)*Cost(j+1,128)),其中1<=j<=128,且规定当j+1>128时,Cost(j+1,128)=0。
而对于Cost(1,1),Cost(2,2),…,Cost(n,n),取值固定为1。
那么,对于Cost(m,n),其公式为:
Cost(m,n)=min(1+(Pm-1+Pm+…Pj-1)/(Pm-1+Pm+…Pn)*Cost(m,j-1)+(Pj+…Pn)/(Pm-1+Pm+…Pn)*Cost(j+1,n))。
其中m<=j<=n,且规定当j+1>n时,Cost(j+1,n)=0。如果m-1为0,那么Pm-1按0计算。
对报文进行从prefix m到prefix n的匹配有两种情况:一种是报文此时匹配的最长前缀是m-1,进入cost(m,n)是为了确认是否没有比前缀m-1更优的匹配。另一种情况是报文匹配的最长前缀比m-1长,所以需要在prefix m到prefix n中寻找更优的匹配。
针对第一种情况,如果报文命中m-1的概率很高,但命中m的很低,假设在计算cost(m,n)时,不考虑报文命中m-1的概率,那么在cost(m,n)这颗子决策树中前缀m对应的节点可能离cost(m,n)的根节点很远,导致对于m-1来说,确定其最长匹配时反而消耗了更多的步骤。所以,本申请实施例中,在计算cost(m,n)时还要考虑报文命中m-1的概率,从而加快报文匹配速度。
结合Cost(m,n)的定义,可以通过矩阵动态生成最优决策树。
对于IPv6网络,前缀的最大长度为128bit,所以可以定义一个128X 128的矩阵,矩阵的每个点包含两个信息:代表该节点的Cost和为计算该Cost时选取的分裂点。
例如点(2,5)记录着Cost(2,5)以及计算Cost(2,5)时选择的分裂点。
在通过矩阵计算最优决策树时,可以生成一个矩阵,首先对矩阵的对角线上的点计算Cost(m,n)和分裂点(Split),然后将对角线整体右移一格,计算右移后得到的斜线上各个点的Cost(m,n)和分裂点(Split),然后继续右移,直至矩阵的对角线右侧的点被全部计算完成。
以5X5的矩阵为例,计算顺序如图3所示。
第一轮自左上往右下开始计算左斜线阴影处的点对应的Cost及分裂点。
第二轮自左上往右下开始计算横线阴影处的点对应的Cost及分裂点。
第三轮自左上往右下开始计算竖线阴影处的点对应的Cost及分裂点。
第四轮自左上往右下开始计算右斜线阴影处的点对应的Cost及分裂点。
第五轮计算网格阴影处的点对应的Cost及分裂点。
然后从矩阵的(1,5)开始进行遍历即可获取最终的决策树。
假设节点(1,5)的Split为2,那么得到的决策树形状如图4a所示,根节点为prefix2,左子节点对应于矩阵中的(1,1),右子节点对应于矩阵中的(3,5)。假设(3,5)对应的Split为4,那么构建得到的最优决策树形状如图4b所示。
以下结合具体实例对构建最优决策树的方法进行说明,以最长的前缀为5为例,则构建一个5x 5的矩阵。
网络设备可以周期性计算接收到的报文命中各个前缀长度的概率,并基于该概率生成最优决策树,使得命中率越高的前缀长度越靠近根节点。
假设:命中Prefix 1的概率为20%。
命中Prefix2的概率为5%。
命中Prefix3的概率为10%。
命中Prefix4的概率为10%。
命中Prefix5的概率为55%。
首先,计算矩阵中对角线上各个点的Cost和分裂点,Cost(1,1),Cost(2,2),…,Cost(5,5),取值固定为1,且均不存在分裂点,所以计算的结果如表1所示。
表1
Figure BDA0003135937530000121
然后计算Cost(1,2),Cost(2,3),Cost(3,4),Cost(4,5)
在计算Cost(1,2)时,可以选择1或者2为分裂点,
选择1作为分裂点时Cost(1,2)为:1+(20%+5%)/(20%+5%)*Cost(2,2)=2;
选择2作为分裂点时Cost(1,2)为:1+20%/(20%+5%)*Cost(1,1)=1.8
故Cost(1,2)的分裂点应该为2,且其Cost(1,2)=1.8。
在计算Cost(2,3)时,可以选择2或者3作为分裂点,
选择2作为分裂点时Cost(2,3)=1+(5%+10%)/(20%+5%+10%)*Cost(3,3)=1.42;
在选择3作为分裂点时,Cost(2,3)=1+(20%+5%)/(20%+5%+10%)*Cost(2,2)=1.71;
故Cost(2,3)的分裂点应该为2,且Cost(2,3)=1.42。
在计算Cost(3,4)时,可以选择3或者4作为分裂点,
选择3作为分裂点时,Cost(3,4)=1+(10%+10%)/(5%+10%+10%)*Cost(4,4)=1.8;
在选择4作为分裂点时,Cost(3,4)=1+(5%+10%)/(5%+10%+10%)*Cost(3,3)=1.6;
故Cost(3,4)的分裂点应该为4,且Cost(3,4)=1.6。
在计算Cost(4,5)时,可以选择4或者5作为分裂点
选择4作为分裂点时,Cost(4,5)=1+(10%+55%)/(10%+10%+55%)*Cost(4,4)=1.86;
选择5作为分裂点时,其Cost(4,5)=1+(10%+10%)/(10%+10%+55%)*Cost(5,5)=1.26
故Cost(4,5)的分裂点应为5,且Cost(4,5)=1.26。
此时表1的矩阵被更新为如下表2。
表2
Figure BDA0003135937530000141
接下来计算Cost(1,3),Cost(2,4),Cost(3,5)
对于Cost(1,3),可以选择1,2或3作为分裂点:
选择1作为分裂点时,Cost(1,3)=1+(20%+5%+10%)/(20%+5%+10%)*Cost(2,3)=2.42;
选择2作为分裂点时,Cost(1,3)=1+20%/(20%+5%+10%)*Cost(1,1)+(5%+10%)/(20%+5%+10%)*Cost(3,3)=2;
选择3作为分裂点时,Cost(1,3)=1+(20%+5%)/(20%+5%+10%)*Cost(1,2)=2.28;
故Cost(1,3)的分裂点应为2,且Cost(1,3)=2。
对于Cost(2,4),可以选择2,3或4作为分裂点:
选择2作为分裂点时,Cost(2,4)=1+(5%+10%+10%)/(20%+5%+10%+10%)*Cost(3,4)=2.15;
选择3作为分裂点时,Cost(2,4)=1+(20%+5%)/(20%+5%+10%+10%)*Cost(2,2)+(10%+10%)/(20%+5%+10%+10%)*Cost4,4)=2;
选择4作为分裂点时,Cost(2,4)=1+(20%+5%+10%)/(20%+5%+10%+10%)*Cost(2,3)=2.10;
故Cost(2,4)的分裂点应该为3,且Cost(2,4)=2。
对于Cost(3,5),可以选择3,4或5作为分裂点:
选择3作为分裂点时,Cost(3,5)=1+(10%+10%+55%)/(5%+10%+10%+55%)*Cost(4,5)=2.18;
选择4作为分裂点时,Cost(3,5)=1+(5%+10%)/(5%+10%+10%+55%)*Cost(3,3)+(10%+55%)/(5%+10%+10%+55%)*Cost(5,5)=2
选择5作为分裂点时,Cost(3,5)=1+(5%+10%+10%)/(5%+10%+10%+55%)*Cost(3,4)=1.5;
故Cost(3,5)的分裂点应该为5,Cost(3,5)=1.5。
此时表2所示的矩阵更新为如下表3:
表3
Figure BDA0003135937530000151
然后计算Cost(1,4)和Cost(2,5)。
对于Cost(1,4),可以选择的分裂点有1,2,3或4。
选择1作为分裂点时,Cost(1,4)=1+(20%+5%+10%+10%)/(20%+5%+10%+10%)*Cost(2,4)=3;
选择2作为分裂点时,Cost(1,4)=1+(20%)/(20%+5%+10%+10%)*Cost(1,1)+(5%+10%+10%)/(20%+5%+10%+10%)*Cost(3,4)=2.33;
选择3作为分裂点时,Cost(1,4)=1+(20%+5%)/(20%+5%+10%+10%)*Cost(1,2)+(10%+10%)/(20%+5%+10%+10%)*Cost(4,4)=2.44;
选择4作为分裂点时,Cost(1,4)=1+(20%+5%+10%)/(20%+5%+10%+10%)*Cost(1,3)=2.55;
所以Cost(1,4)的分裂点应该为2,且Cost(1,4)=2.33。
对于Cost(2,5),可选择的分裂点有2,3,4或5。
选择2作为分裂点时,Cost(2,5)=1+(5%+10%+10%+55%)/100%*Cost(3,5)=2.20;
选择3作为分裂点时,Cost(2,5)=1+(20%+5%)/100%*Cost(2,2)+(10%+10%+55%)/100%*Cost(4,5)=2.195;
选择4作为分裂点时,Cost(2,5)=1+(20%+5%+10%)/100%*Cost(2,3)+(10%+55%)/100%*Cost(5,5)=2.147;
选择5作为分裂点时,Cost(2,5)=1+(20%+5%+10%+10%)/100%*Cost(2,4)=1.9
故Cost(2,5)的分裂点应该为5,且Cost(2,5)=1.9。
此时表3所示的矩阵更新为如下表4:
表4
Figure BDA0003135937530000161
Figure BDA0003135937530000171
最后,计算Cost(1,5),其可选的Split点有1,2,3,4或5。
选择1作为分裂点时,Cost(1,5)=1+(20%+5%+10%+10%+55%)/100%*Cost(2,4)=3;
选择2作为分裂点时,Cost(1,5)=1+20%/100%*Cost(1,1)+80%/100%*Cost(3,5)=2.4;
选择3作为分裂点时,Cost(1,5)=1+25%/100%*Cost(1,2)+75%/100%*Cost(4,5)=2.395;
选择4作为分裂点时,Cost(1,5)=1+35%/100%*Cost(1,3)+65%/100%*Cost(5,5)=2.35;
选择5作为分裂点时,Cost(1,5)=1+45%/100%*Cost(1,4)=2.04
故Cost(1,5)的分裂点应该为5,且Cost(1,5)=2.04。
此时表4所示的矩阵更新为如下表5:
表5
Figure BDA0003135937530000172
然后从矩阵的(1,5)开始,逐层遍历分裂点以生成决策树。
首先,(1,5)的分裂点为5,此时树的形状如图5a所示,前缀5作为根节点,根节点的左侧分支为前缀1到前缀4,右侧分支为空。
然后从矩阵中可知,(1,4)的分裂点为2,则决策树的形状如图5b所示,分裂点2的左侧分支为1,右侧分支为前缀3到前缀4。
(3,4)的分裂点为4,所以决策树的形状如图5c所示,分裂点4的左侧分支为3,无右侧分支,图5c即为生成的最优决策树。
在本申请实施例中,上述最优决策树以数组结构的形式缓存于CPU的缓存中,而相应的FIB以key-value的形式存储于内存中,在报文匹配过程中,需频繁地访问内存以获取报文匹配的前缀长度对应的出接口,使得报文匹配速度较慢。
为了加快匹配速度,可通过数据预取指令(Prefetch)提示CPU某些内存中的数据即将被访问,使得CPU的内存管理模块异步从内存中获取即将被访问的数据。
但是因最优决策树的左右两个分支不平衡,对每个待转发报文的查找路径长度也不一致,比如若同时对报文1和报文2进行匹配,若对报文1经过一次决策树匹配即可确定出接口,而对报文2要经过5次决策树匹配才可以确定出接口。那么在对报文1匹配一次后,即可完成对报文1的转发。后续实际上是在为报文2这一个报文进行匹配,那么预取操作也就没有意义,依然存在报文匹配速度慢的问题。
为了解决上述问题,本申请实施例提供一种报文匹配方法,如图6所示,该方法包括:
S601、将N个第一数据报文加入N条流水线中,将每条流水线的级(stage)均设置为决策树的根节点。
其中,下文中所描述的决策树均为最优决策树。决策树中的每个节点代表一种前缀长度。N可基于CPU的处理能力预先设置,作为示例,N可以为2。
假设当前网络设备接收到两个数据报文,分别为报文1和报文2,报文1和报文2的目的地址分别为IPv6Addr1和IPv6Addr2。可将报文1加入流水线1,将报文2加入流水线2,流水线1和流水线2的stage均为决策的树的根节点。因决策树的根节点为被匹配到的概率最大的前缀长度,所以本申请实施例中,每个待转发报文都从决策树的根节点开始匹配,可以提高报文匹配速度。
S602、计算N条流水线中第一条流水线的第一哈希值,并异步从内存中预取第一哈希值对应的第一出接口数据,并将第一出接口数据存储在缓存中,在从内存中预取第一出接口数据的同时计算N条流水线中第二条流水线的第二哈希值,重复执行异步从内存中预取哈希值对应的出接口数据,并将出接口数据存储在缓存中,在从内存中预取出接口数据的同时计算流水线的哈希值的过程,直至N条流水线中每条流水线的哈希值均已计算完成时停止。
其中,每个流水线的哈希值为该流水线包括的数据报文的目的地址与stage对应的前缀长度的哈希值。
上述从内存中预取第一出接口数据的过程为异步操作,从内存中预取第一出接口数据的同时计算N条流水线中第二条流水线的第二哈希值是指:在计算第条一流水线的第一哈希值后,CPU的线程继续计算第二条流水线的哈希值,与此同时,CPU的内存管理模块开始异步从内存中预取第一出接口数据。
同理,CPU的线程计算第二条流水线的哈希值后,无论CPU的内存管理模块是否已预取到第一出接口数据,CPU的线程均会继续计算第三流水线的哈希值。
延续上一步骤中的举例,假设根节点的前缀长度为PrefixLen1,则网络设备可以计算IPv6Addr1与PrefixLen1的哈希值,得到HashValue1。并异步执行网络设备的CPU的预取指令,使得CPU的内存管理模块异步从内存中获取HashValue1对应的出接口数据,并缓存于CPU的缓存中。
其中,执行上述预取指令的操作为异步操作,即CPU的线程在计算得到HashValue1之后,继续计算IPv6Addr2与PrefixLen1的哈希值得到HashValue2,执行CPU的预取指令的操作,不会影响CPU的线程依次为N条流水线中的每条流水线计算哈希值的过程。
S603、当N条流水线中每条流水线的哈希值均已计算完成,从缓存中获取第一出接口数据。
因CPU已提前从内存中获取HashValue1对应的出接口数据,并缓存于CPU的缓存中,所以在网络设备计算完成上述N条流水线的哈希值后,需要获取HashValue1对应的出接口数据时,HashValue1对应的出接口数据已缓存在CPU的缓存中,所以网络设备可从缓存中获取HashValue1对应的出接口数据。
同理,网络设备在计算得到HashValue2后,也会异步预取HashValue2对应的出接口数据,并缓存于CPU的缓存中。进而,在网络设备需要获取HashValue2对应的出接口数据时,无需访问内存,而是可以直接从缓存中获取HashValue2对应的出接口数据。
相应地,网络设备可以依次从缓存中获取每条流水线的哈希对应的出接口数据。
S604、当第一出接口数据表征为用于转发第一条流水线中的第一数据报文时,将第一条流水线中的第一数据报文从第一流水线中删除,并当接收到第二数据报文时,将第二数据报文加入第一条流水线。
对于每条流水线,如果该流水线的哈希值对应的出接口数据表征为用于转发该流水线中的数据报文,则通过该流水线的哈希值对应的出接口转发该流水线中的数据报文,并将该流水线中的数据报文从该流水线中删除。
在本申请实施例中,在将第一条流水线中的第一数据报文从第一流水线中删除后,第一流水线则变为空闲状态,若网络设备接收到第二数据报文,或者网络设备中有未匹配出接口的第二数据报文,则将第二数据报文加入第一流水线中,并将第一流水线的stage设置为决策树的根节点。
采用本申请实施例,可以通过N条流水线对N个第一数据报文进行匹配,在将N个第一数据报文加入N个流水线中之后,可以计算N条流水线中第一流水线的第一哈希值,并异步从内存中预取第一哈希值对应的第一出接口数据,并将第一出接口数据存储在缓存中,在从内存中预取第一出接口数据的同时计算N条流水线中第二条流水线的第二哈希值。如此,相当于每计算出N条流水线中的一条流水线的哈希值,则异步从内存中预取该哈希值对应的出接口数据,如此,在需要获取第一哈希值对应的第一出接口数据时,无需访问内存,可直接从缓存中获取第一出接口数据,减少了报文匹配所需的时间。且如果第一出接口数据表征为用于转发第一条流水线中的第一数据报文时,则将该第一条流水线中的第一数据报文从第一条流水线中删除,从而将第二数据报文加入第一条流水线中进行处理。相比于现有技术中将N条流水线中的第一数据报文均完成转发后才能对接收到的第二数据报文进行处理,本申请实施例中,只要有数据报文被从流水线中删除,就可以将第二数据报文加入到该流水线中并开始处理,可以加快对接收到的数据报文的匹配与转发速度。
其中,本申请实施例不限制HASH FIB在内存中的存储结构。作为示例,在本申请的一个实施例中,FIB的摘要存储于哈希表的哈希桶(Bucket)中,每个Bucket为64Bytes的存储空间,可以存储8个FIB摘要,每个FIB摘要包括标签(TAG)和数据指针(DATAPointer),TAG为根据IPv6Addr和PrefixLen计算出HASH值,数据指针用于指示实际FIB ENTRY的存储位置。
基于上述存储结构,以当前网络设备接收到两个第一数据报文,且网络设备的CPU中有两条流水线为例,假设接收到报文1和报文2,报文1和报文2的目的地址分别为IPv6Addr1和IPv6Addr2,将报文1加入流水线1,将报文2加入流水线2。决策树的根节点为PrefixLen1。则上述过程可以表示为:
HashValue1=Hash(IPv6Addr1,PrefixLen1);//计算IPv6Addr1与PrefixLen1的哈希值,得到HashValue1;
Prefetch(&Bucket[HashValue1]);//提示CPU即将访问包括HashValue1的Bucket,以使得CPU预取Bucket[HashValue1]中的FIB摘要;
HashValue2=Hash(IPv6Addr2,PrefixLen1););//计算IPv6Addr2与PrefixLen1的哈希值,得到HashValue2;
Prefetch(&Bucket[HashValue2])//提示CPU即将访问包括HashValue2的Bucket,以使得CPU预取Bucket[HashValue2]中的FIB摘要;
DataPointer1=Bucket[HashValue1];//网络设备获取Bucket[HashValue1]中的数据,此时因Bucket[HashValue1]中的数据已在缓存中,所以无需访问内存,此时不会造成CPU等数据的现象。网络设备在获取到Bucket[HashValue1]中的FIB摘要后,可判断该FIB摘要中是否存在HashValue1对应的DataPointer1,如果存在,则后续将会获取DataPointer1对应的出接口数据。
Prefetch(DataPointer1);//提示CPU即将访问DataPointer1,以使得CPU从内存中预取并缓存DataPointer1对应的出接口数据。
DataPointer2=Bucket[HashValue2];//网络设备获取Bucket[HashValue2]中的数据,此时因Bucket[HashValue2]中的FIB摘要已在缓存中,所以无需访问内存,此时不会造成CPU等数据的现象。网络设备在获取到Bucket[HashValue2]中的FIB摘要后,可判断该Bucket中是否存在HashValue1对应的DataPointer2,如果存在,则后续将会获取DataPointer2对应的出接口数据。
Prefetch(DataPointer2);//提示CPU即将访问DataPointer2,以使得CPU从内存中预取并缓存DataPointer2对应的出接口数据。
Access DataPointer1;//获取DataPointer1对应的出接口数据,因DataPointer1对应的出接口数据已存在于缓存中,所以此时无需访问内存,不会造成CPU等待。
Access DataPointer2;//获取DataPointer2对应的出接口数据,因DataPointer2对应的出接口数据已存在于缓存中,所以此时无需访问内存,不会造成CPU等待。
Update IPv6Addr1 Stage&Output Interface;//更新IPv6Addr1的报文所属流水线的Stage和出接口;
Update IPv6Addr2 Stage&Output Interface//更新IPv6Addr2的报文所属流水线的Stage和出接口。
可见,网络设备在每次需要获取内存中的数据时,所需访问的数据已经被预先获取并缓存,如此可以节省网络设备在需获取数据时再访问内存所消耗的时间,可以加快报文匹配速度。
在本申请另一实施例中,在上述S603从缓存中获取第一出接口数据之后,该方法还包括:
判断决策树中,根节点的右子节点是否为空;若是,则确定所述第一出接口数据表征为用于转发第一条流水线中的第一数据报文;若否,则确定第一出接口数据不表征为用于转发第一条流水线中的第一数据报文。
对于决策树中的每个节点,该节点的左子节点的前缀长度均小于右子节点的前缀长度。若已经获取到第一出接口数据,且根节点的右子节点为空,说明决策树中不存在更优的匹配,所以可以确定第一出接口数据表征为用于转发第一条流水线中的第一数据报文,则完成对该待转发报文的匹配,通过第一出接口数据转发第一条流水线中的第一数据报文。
如果根节点的右子节点为空,说明HASH FIB中还存在比根节点对应的前缀长度更长的前缀长度。根据最长匹配原则,还需进一步判断第一流水线中的第一数据报文是否能够命中更长的前缀长度,所以此时第一数据接口数据可能不是最优匹配,即第一出接口数据不表征为用于转发第一条流水线中的第一数据报文。
在本申请实施例中,当第一出接口数据不表征为用于转发第一条流水线中的第一数据报文时,将第一条流水线的stage更新为根节点的右子节点,将第一条流水线中的出接口信息更新为第一出接口数据。从而在下一轮匹配过程中,将第一条流水线中的第一数据报文与更新后的stage代表的前缀长度进行匹配。
其中,在下一轮匹配过程中,将计算第一条流水线中的第一数据报文与更新后的stage代表的前缀长度的哈希值,并异步获取该哈希值对应的出接口数据。如果未获取到该哈希值对应的出接口数据,则说明上述第一出接口数据表征为用于转发第一条流水线中的第一数据报文。如果获取到该哈希值对应的出接口数据,则将第一条流水线中的出接口信息更新为此次获取到的出接口数据。
在本申请另一实施例中,如果从缓存中获取不到第一哈希值对应的第一出接口数据,则将第一条流水线的stage更新为根节点的左子节点。
其中,如果从缓存中获取不到第一哈希值对应的第一出接口数据,说明未从内存中预取到第一哈希值对应的第一出接口数据,也就是说第一流水线中的第一数据报文与决策树的根节点代表的前缀长度不匹配,应该在下一轮匹配过程中与更短的前缀长度进行匹配,所以可以将第一条流水线的stage更新为根节点的左子节点。
可以理解的是,在本申请实施例中,对每条流水线中的第一数据报文进行一次匹配后,需对该流水线中的stage进行一次更新,以第一条流水线为例,具体分为以下情况:
情况一、从缓存中获取到第一流水线的第一哈希值对应的第一出接口数据,且第一出接口数据表征为用于转发第一条流水线中的第一数据报文,则将第一条流水线的stage更新为完成匹配。
情况二、从缓存中获取到第一流水线的第一哈希值对应的第一出接口数据,且第一出接口数据不表征为用于转发第一条流水线中的第一数据报文,则将第一条流水线的stage更新为当前stage的右子节点。
例如,如果第一条流水线的当前stage为根节点,则将第一条流水线的stage更新为根节点的右子节点。
情况三、未从缓存中获取到第一流水线的第一哈希值对应的第一出接口数据,则将第一流水线的stage更新为当前stage的左子节点。
例如,如果第一条流水线的当前stage为根节点,则将第一条流水线的stage更新为根节点的左子节点。
在上述S603中,当N条流水线中每条流水线的哈希值均已计算完成时,网络设备可依次从缓存中获取每条流水线的哈希值对应的出接口数据,并依次根据获取每条流水线的哈希值对应的出接口数据的情况,更新流水线的stage。
其中,更新每条流水线的stage的方法与本申请实施例中描述的更新第一条流水线的stage的方法相同。
当N条流水线中的每条流水线的stage均完成一次更新后,可以将stage为完成匹配的流水线中的第一数据报文从流水线中删除,从而可以将网络设备接收到的其他数据报文加入到流水线中,可以提高对接收到的数据报文的匹配和转发效率。
需要说明的是,一种情况中,如果N条流水线中的每条流水线的stage均完成一次更新后,不存在流水线的stage流水线为完成匹配,则对N条流水线中的第一数据报文进行下一轮匹配。进行下一轮匹配的方法与上述S602-S604的方法相同。
另一种情况中,如果已将网络设备接收到的其他数据报文加入到流水线中,且此时不存在空闲流水线;或者网络设备中不存在其他待转发的数据报文,则对N条流水线中的数据报文进行下一轮匹配。
可见,本申请实施例中,可以实现通过N条流水线对N条数据报文进行匹配,当完成对任意一个数据报文的匹配后,则将该数据报文从流水线中删除,并将其他待转发报文加入到流水线中,可以加对快待转发报文的匹配速度。
以下以图5c所示的决策树为例,对处理流水线的过程进行说明。
假设流水线的数量为2,即最大同时处理的待转发报文数量为2。
如果当前网络设备中有4个待转发报文,按照接收时间从早到晚的时间顺序排序,分别为Packet 1、Packet 2、Packet 3、Packet 4。假设各待转发报文可以命中的前缀长度分别为:
Packet 1命中Prefix 5;
Packet 2命中Prefix 3;
Packet 3命中Prefix 5;
Pakcet 4命中Prefix 2。
并假设Prefix1对应的出口(Output interface)是1,Prefix2对应的出接口是2,Prefix3对应的出接口是3,Prefix4对应的出接口是4,Prefix5对应的出接口是5。
首先,分别将Packet 1和Packet 2加入流水线,此时流水线如表6所示:
表6
Figure BDA0003135937530000251
在经过一次对流水线的处理(advance操作)之后,Packet1的目的地址与Prefix 5匹配,且从图5c中可知,Prefix 5的右子节点为空,所以Packet1匹配完成,将流水线1的Stage更新为匹配完成(FINISH)。且Packet2的目的地址与Prefix 5匹配失败,所以Packet2下次需要与Prefix 5的左子节点Prefix 2进行匹配,所以将流水线2的Stage更新为2。此时各流水线如表7所示:
表7
Figure BDA0003135937530000252
此时已完成对各流水线的一次处理,可以检测是否存在流水线的Stage为匹配完成,根据表7可知,Packet1已完成匹配,所以可以将Packet1从Pipeline1中删除,并通过出接口5转发Packet1。
在将Packet1从Pipeline1中删除后,Pipeline1变为空闲状态,则可将Packet 3加入Pipeline1。因Packet 2还未匹配完成,所以Packet 2仍被保留在Pipeline2中。此时各流水线如表8所示:
表8
Figure BDA0003135937530000261
再经过一次对流水线的处理后,各流水线如表9所示:
表9
Figure BDA0003135937530000262
根据表9可知,Packet3已匹配完成,所以将Packet3从Pipeline1中删除,并将Packet4加入Pipeline1。此时各流水线如表10所示:
表10
Figure BDA0003135937530000263
再经过一次对流水线的处理后,各流水线如表11所示:
表11
Figure BDA0003135937530000264
再经过一次对流水线的处理后,各流水线如表12所示:
表12
Figure BDA0003135937530000265
Figure BDA0003135937530000271
此时,Packet2完成匹配,将Packet2从Pipeline2中删除,此时网络设备中不存在新接收的待转发报文,所以Pipeline2为空,再次对Pipeline1进行处理后,各流水线如表13所示。
表13
Figure BDA0003135937530000272
再进行一次处理后,各流水线如表14所示。
表14
Figure BDA0003135937530000273
此时,完成了对Packet1、Packet 2、Packet 3、Packet 4的处理。
对应于上述方法实施例,本申请实施例还提供一种报文匹配装置,如图7所示,该装置包括:
设置模块701,用于将N个第一数据报文加入N条流水线中,将每条流水线的级stage均设置为决策树的根节点,决策树中的每个节点代表一种前缀长度且每个节点代表的前缀长度不同;
预取模块702,用于计算N条流水线中第一条流水线的第一哈希值,并异步从内存中预取第一哈希值对应的第一出接口数据,并将第一出接口数据存储在缓存中,在从内存中预取第一出接口数据的同时计算N条流水线中第二条流水线的第二哈希值,重复执行异步从内存中预取哈希值对应的出接口数据,并将出接口数据存储在缓存中,在从内存中预取出接口数据的同时计算流水线的哈希值的过程,直至N条流水线中每条流水线的哈希值均已计算完成时停止;其中,流水线的哈希值为流水线中的数据报文的目的地址与stage代表的前缀长度的哈希值;
获取模块703,用于当N条流水线中每条流水线的哈希值均已计算完成,从缓存中获取第一出接口数据;
设置模块701,还用于当第一出接口数据表征为用于转发第一条流水线中的第一数据报文时,将第一条流水线中的第一数据报文从第一条流水线中删除,并当接收到第二数据报文时,将第二数据报文加入第一条流水线。
可选的,该装置还包括:
更新模块,用于当第一出接口数据不表征为用于转发第一条流水线中的第一数据报文时,将第一条流水线的stage更新为根节点的右子节点,将第一条流水线中的出接口信息更新为第一出接口数据。
可选的,该装置还包括:判断模块,用于:
判断决策树中,根节点的右子节点是否为空;
若是,则确定第一出接口数据表征为用于转发第一条流水线中的第一数据报文;
若否,则确定第一出接口数据不表征为用于转发第一条流水线中的第一数据报文。
可选的,该装置还包括:
更新模块,用于如果从缓存中获取不到第一哈希值对应的第一出接口数据,则将第一条流水线的stage更新为根节点的左子节点。
可选的,该装置还包括:
更新模块,用于当第一出接口数据表征为用于转发第一条流水线中的第一数据报文时,将第一条流水线的stage更新为完成匹配;
设置模块701,具体用于当N条流水线的stage均完成一次更新后,将stage为完成匹配的流水线中的第一数据报文从流水线中删除。
本申请实施例还提供了一种网络设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现上述方法实施例中的方法步骤。
上述网络设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述网络设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一报文匹配方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一报文匹配方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种报文匹配方法,其特征在于,包括:
将N个第一数据报文加入N条流水线中,将每条流水线的级stage均设置为决策树的根节点,所述决策树中的每个节点代表一种前缀长度且每个节点代表的前缀长度不同;
计算所述N条流水线中第一条流水线的第一哈希值,并异步从内存中预取所述第一哈希值对应的第一出接口数据,并将所述第一出接口数据存储在缓存中,在从内存中预取所述第一出接口数据的同时计算所述N条流水线中第二条流水线的第二哈希值,重复执行异步从内存中预取哈希值对应的出接口数据,并将出接口数据存储在缓存中,在从内存中预取出接口数据的同时计算流水线的哈希值的过程,直至所述N条流水线中每条流水线的哈希值均已计算完成时停止;其中,流水线的哈希值为流水线中的数据报文的目的地址与stage代表的前缀长度的哈希值;
当所述N条流水线中每条流水线的哈希值均已计算完成,从所述缓存中获取所述第一出接口数据;
当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线中的第一数据报文从所述第一条流水线中删除,并当接收到第二数据报文时,将所述第二数据报文加入所述第一条流水线。
2.根据权利要求1所述的方法,其特征在于,在从所述缓存中获取所述第一出接口数据之后,所述方法还包括:
当所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为所述根节点的右子节点,将所述第一条流水线中的出接口信息更新为所述第一出接口数据。
3.根据权利要求1或2所述的方法,其特征在于,在从所述缓存中获取所述第一出接口数据之后,所述方法还包括:
判断所述决策树中,所述根节点的右子节点是否为空;
若是,则确定所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文;
若否,则确定所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果从所述缓存中获取不到所述第一哈希值对应的第一出接口数据,则将所述第一条流水线的stage更新为所述根节点的左子节点。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为完成匹配;
所述将所述第一条流水线中的第一数据报文删除,包括:
当所述N条流水线的stage均完成一次更新后,将stage为完成匹配的流水线中的第一数据报文从流水线中删除。
6.一种报文匹配装置,其特征在于,包括:
设置模块,用于将N个第一数据报文加入N条流水线中,将每条流水线的级stage均设置为决策树的根节点,所述决策树中的每个节点代表一种前缀长度且每个节点代表的前缀长度不同;
预取模块,用于计算所述N条流水线中第一条流水线的第一哈希值,并异步从内存中预取所述第一哈希值对应的第一出接口数据,并将所述第一出接口数据存储在缓存中,在从内存中预取所述第一出接口数据的同时计算所述N条流水线中第二条流水线的第二哈希值,重复执行异步从内存中预取哈希值对应的出接口数据,并将出接口数据存储在缓存中,在从内存中预取出接口数据的同时计算流水线的哈希值的过程,直至所述N条流水线中每条流水线的哈希值均已计算完成时停止;其中,流水线的哈希值为流水线中的数据报文的目的地址与stage代表的前缀长度的哈希值;
获取模块,用于当所述N条流水线中每条流水线的哈希值均已计算完成,从所述缓存中获取所述第一出接口数据;
所述设置模块,还用于当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线中的第一数据报文从所述第一条流水线中删除,并当接收到第二数据报文时,将所述第二数据报文加入所述第一条流水线。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
更新模块,用于当所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为所述根节点的右子节点,将所述第一条流水线中的出接口信息更新为所述第一出接口数据。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:判断模块,用于:
判断所述决策树中,所述根节点的右子节点是否为空;
若是,则确定所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文;
若否,则确定所述第一出接口数据不表征为用于转发所述第一条流水线中的第一数据报文。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
更新模块,用于如果从所述缓存中获取不到所述第一哈希值对应的第一出接口数据,则将所述第一条流水线的stage更新为所述根节点的左子节点。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
更新模块,用于当所述第一出接口数据表征为用于转发所述第一条流水线中的第一数据报文时,将所述第一条流水线的stage更新为完成匹配;
所述设置模块,具体用于当所述N条流水线的stage均完成一次更新后,将stage为完成匹配的流水线中的第一数据报文从流水线中删除。
11.一种网络设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202180001644.0A 2021-06-25 2021-06-25 一种报文匹配方法、装置、网络设备及介质 Pending CN113632427A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/102426 WO2022267018A1 (zh) 2021-06-25 2021-06-25 一种报文匹配方法、装置、网络设备及介质

Publications (1)

Publication Number Publication Date
CN113632427A true CN113632427A (zh) 2021-11-09

Family

ID=78391289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180001644.0A Pending CN113632427A (zh) 2021-06-25 2021-06-25 一种报文匹配方法、装置、网络设备及介质

Country Status (5)

Country Link
US (1) US12003418B2 (zh)
EP (1) EP4175233B1 (zh)
JP (1) JP7436712B2 (zh)
CN (1) CN113632427A (zh)
WO (1) WO2022267018A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710421A (zh) * 2022-04-14 2022-07-05 合肥卓讯云网科技有限公司 一种基于数据预取的网络连接状态维护装置和方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878676B (zh) * 2023-02-08 2023-05-05 成都数联云算科技有限公司 一种预览文件的方法、装置、设备和介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3570323B2 (ja) * 1999-05-11 2004-09-29 日本電気株式会社 アドレスに関するプレフィクスの格納方法
JP5529976B2 (ja) 2009-12-22 2014-06-25 ジュネイト エフ. バズラマッチ 高速ipルックアップのためのシストリック・アレイ・アーキテクチャ
CN102473950B (zh) 2010-03-18 2015-04-15 松下电器产业株式会社 燃料电池发电系统以及燃料电池发电系统的运转停止方法
US8856203B1 (en) * 2011-02-08 2014-10-07 Pmc-Sierra Us, Inc. System and method for algorithmic TCAM packet classification
CN102281196B (zh) * 2011-08-11 2017-10-10 中兴通讯股份有限公司 决策树生成方法及设备、基于决策树报文分类方法及设备
CN102739551B (zh) 2012-07-17 2015-03-18 中山大学 多存储器流水路由体系结构
CN102739550B (zh) 2012-07-17 2015-11-25 中山大学 基于随机副本分配的多存储器流水路由体系结构
US9712439B2 (en) * 2013-02-28 2017-07-18 Texas Instruments Incorporated Packet processing match and action unit with configurable memory allocation
US9628382B2 (en) * 2014-02-05 2017-04-18 Intel Corporation Reliable transport of ethernet packet data with wire-speed and packet data rate match
WO2015188319A1 (zh) 2014-06-10 2015-12-17 华为技术有限公司 一种查找装置、查找配置方法和查找方法
CN104579941A (zh) 2015-01-05 2015-04-29 北京邮电大学 一种OpenFlow交换机中的报文分类方法
US10063474B2 (en) * 2015-09-29 2018-08-28 Keysight Technologies Singapore (Holdings) Pte Ltd Parallel match processing of network packets to identify packet data for masking or other actions
US10135734B1 (en) 2015-12-28 2018-11-20 Amazon Technologies, Inc. Pipelined evaluations for algorithmic forwarding route lookup
US20170359259A1 (en) * 2016-06-09 2017-12-14 Hewlett Packard Enterprise Development Lp Packet field matching in openflow
US10148571B2 (en) 2016-06-20 2018-12-04 Mellanox Technologies Tlv Ltd. Jump on a match optimization for longest prefix match using a binary search tree
US10757028B1 (en) * 2017-04-23 2020-08-25 Barefoot Networks, Inc. Configurable forwarding element deparser
US10397263B2 (en) * 2017-04-25 2019-08-27 Futurewei Technologies, Inc. Hierarchical pattern matching for deep packet analysis
US10771387B1 (en) * 2017-09-28 2020-09-08 Barefoot Networks, Inc. Multiple packet data container types for a processing pipeline
US10397115B1 (en) * 2018-04-09 2019-08-27 Cisco Technology, Inc. Longest prefix matching providing packet processing and/or memory efficiencies in processing of packets
US10616113B2 (en) 2018-07-19 2020-04-07 Mellanox Technologies Tlv Ltd. Longest prefix match using a binary search tree with compressed hash tables
CN113037640A (zh) 2019-12-09 2021-06-25 华为技术有限公司 数据转发方法、数据缓存方法、装置和相关设备
US11494189B2 (en) * 2020-02-21 2022-11-08 Pensando Systems Inc. Methods and systems for processing data in a programmable data processing pipeline that includes out-of-pipeline processing
CN112866115B (zh) 2020-12-31 2023-04-07 杭州迪普科技股份有限公司 一种实现透明串接的方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114710421A (zh) * 2022-04-14 2022-07-05 合肥卓讯云网科技有限公司 一种基于数据预取的网络连接状态维护装置和方法
CN114710421B (zh) * 2022-04-14 2022-10-25 合肥卓讯云网科技有限公司 一种基于数据预取的网络连接状态维护装置和方法

Also Published As

Publication number Publication date
EP4175233A4 (en) 2023-08-30
US20240137317A1 (en) 2024-04-25
EP4175233B1 (en) 2024-05-08
US12003418B2 (en) 2024-06-04
EP4175233A1 (en) 2023-05-03
JP7436712B2 (ja) 2024-02-22
WO2022267018A1 (zh) 2022-12-29
JP2023534123A (ja) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110191428B (zh) 一种基于智能云平台的数据分配方法
CN113632427A (zh) 一种报文匹配方法、装置、网络设备及介质
CN109656923B (zh) 一种数据处理方法、装置、电子设备及存储介质
US10164884B2 (en) Search apparatus, search configuration method, and search method
JP5960863B1 (ja) 検索装置、検索方法、プログラム、及び記録媒体
JP2001326679A (ja) 情報装置、テーブル検索装置、テーブル検索方法、及び記録媒体
CN107729053B (zh) 一种实现高速缓存表的方法
CN103051543A (zh) 一种路由前缀的处理、查找、增加及删除方法
CN113824814B (zh) 一种转发表的地址匹配方法、装置、网络设备及介质
CN111949648B (zh) 内存缓存数据系统和数据索引方法
CN115086221B (zh) 一种报文处理方法、装置、转发设备和存储介质
US20090063417A1 (en) Index attribute subtypes for LDAP entries
CN114338529B (zh) 五元组规则匹配方法及装置
CN110908996A (zh) 一种数据处理的方法和装置
KR101587756B1 (ko) 블룸 필터 선-검색을 이용한 스트링 정보 검색 장치 및 방법
Huang et al. Approximately-perfect hashing: Improving network throughput through efficient off-chip routing table lookup
CN114268608A (zh) 一种地址段检索方法、装置、电子设备及存储介质
CN114866471B (zh) 路由查找方法、装置及设备
CN117411738B (zh) 组播复制方法、装置、电子设备和存储介质
CN116600031B (zh) 报文处理方法、装置、设备及存储介质
JP6205463B2 (ja) 検索装置、検索方法、プログラム、及び記録媒体
JP6495343B2 (ja) リスト内でのアイテム一致の検索
CN117290262A (zh) 路由缓存方法、装置、设备和计算机可读存储介质
CN118282945A (zh) 一种基于IPv6的IP查找方法及装置
CN117997834A (zh) 一种查找表更新、表项查找方法、装置、网络设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination