CN111061972B

CN111061972B - 一种用于url路径匹配的ac查找优化方法和装置

Info

Publication number: CN111061972B
Application number: CN201911360520.2A
Authority: CN
Inventors: 刘卫; 牛晨光; 王赟; 张本军
Original assignee: Wuhan Greenet Information Service Co Ltd
Current assignee: Wuhan Greenet Information Service Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-05-16
Anticipated expiration: 2039-12-25
Also published as: CN111061972A

Abstract

本发明涉及特征库管理技术领域，提供了一种用于URL路径匹配的AC查找优化方法和装置。方法包括遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，建立索引树，并在索引树的叶子节点中存储相应URL字符串的相关信息；使用所述索引树进行目标URL字符串匹配时，在目标URL字符串中由“/”符号分隔的各级路径，与各层索引树所存储的各级路径完全匹配后，得出匹配成功结果；在所述匹配成功后，将相应叶子节点中存储的URL字符串的相关信息，作为所述目标URL的匹配结论反馈。本发明对以路径节点代替字符节点，从而大量减少数据结构中的节点数目，节省内存，降低硬件成本。

Description

一种用于URL路径匹配的AC查找优化方法和装置

【技术领域】

本发明涉及特征库管理技术领域，特别是涉及一种用于URL路径匹配的AC查找优化方法和装置。

【背景技术】

电信运营商相关网络安全系统中，为了能够检测网络数据包中的URL是否命中恶意URL特征库，要求检测设备能够支持海量URL快速匹配。

目前以省为单位建设的DPI系统承载的用户数大都在1000万以上，实时产生的原始信令包速据高达6000000pps。因此需要实现一个高性能，单机可用的快速URL匹配算法。

鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

【发明内容】

本发明要解决的技术问题是提供一种专门针对URL的路径快速匹配解决方案。

本发明采用如下技术方案：

第一方面，本发明提供了一种用于URL路径匹配的AC查找优化方法，预先搜集到待整理的一批URL字符串，方法包括：

遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，建立索引树，并在索引树的叶子节点中存储相应URL字符串的相关信息；

使用所述索引树进行目标URL字符串匹配时，在目标URL字符串中由“/”符号分隔的各级路径，与各层索引树所存储的各级路径完全匹配后，得出匹配成功结果；

在所述匹配成功后，将相应叶子节点中存储的URL字符串的相关信息，作为所述目标URL的匹配结论反馈。

优选的，遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，建立索引树，具体包括：

遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，在存储分隔出的首个字符串时，配套的将整个URL字符串所包含的“/”符号总数量。

优选的，在进行使用所述索引树进行目标URL字符串匹配时，在目标URL字符串中由“/”符号分隔的各级路径之后，且在与各层索引树所存储的各级路径完全匹配之前，所述方法还包括：

在目标URL字符串中由“/”符号分隔出来的首个字符串与索引树中的第一级路径匹配后，通过目标URL字符串中包含的“/”符号总数量与所述第一级路径中记载的“/”符号总数量相同作为筛选条件，筛选掉条件不符的一个或者多个第一级字符串。

优选的，所述索引树中存储所述第一级路径的节点，除了存储所述第一级路径，所述“/”符号总数量以外，还存储有ULR最后的格式标识符，则所述通过目标URL字符串中包含的“/”符号总数量与所述第一级路径中记载的“/”符号总数量相同作为筛选条件，筛选掉条件不符的一个或者多个第一级字符串之后方法还包括：

通过所述记载的ULR最后的格式标识符进一步筛选掉不符的一个或者多个第一级字符串。

优选的，ULR最后的格式标识符包括images、js、css、jpg、html中的一项或者多项。

优选的，所述第一级地址存储万维网地址或者IP地址。

优选的，若分级路径匹配过程中，在匹配目标URL的第i级地址和索引树中第一树枝的第i级地址失败，则启动补偿分析过程，具体的：

在索引树中查找所述第i级地址，若在所述索引树中再次匹配到所述第i级地址相同的第二树枝时，并在完成目标URL剩余各级地址均与所述第二树枝中剩余各级地址相同；

则分析所述索引树中第一树枝和第二树枝的关联关系，得到对所述目标URL的综合评定。

在索引树中查找所述第i级地址，若在所述索引树中再次匹配到所述第i级地址相同的第二树枝时；在进行目标URL剩余各级地址均与所述第二树枝中剩余各级地址中的第j级地址不同，则在索引树中查找所述第j级地址，若在所述索引树中再次匹配到所述第j级地址相同的第三树枝后，完成所述目标URL剩余各级地址的匹配；

则分析所述索引树中第一树枝、第二树枝和第三树枝的关联关系，得到对所述目标URL的综合评定。

第二方面，本发明还提供了一种用于URL路径匹配的AC查找优化装置，用于实现第一方面所述的用于URL路径匹配的AC查找优化方法，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的用于URL路径匹配的AC查找优化方法。

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的用于URL路径匹配的AC查找优化方法。

本发明对以路径节点代替字符节点，从而大量减少数据结构中的节点数目，节省内存，降低硬件成本。路径名通过动态字典表方式管理，同名路径只保存一份，统一管理。树中的节点存储字典数据的引用指针，进一步降低内存消耗。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种现有AC查找架构示意图；

图2是本发明实施例提供的一种用于URL匹配的优化后的AC查找架构示意图；

图3是本发明实施例提供的一种用于URL路径匹配的AC查找优化方法流程示意图；

图4是本发明实施例提供的一种用于URL路径匹配的AC查找的改良方法流程示意图；

图5是本发明实施例提供的一种用于URL路径匹配的AC查找的进一步改良方法流程示意图；

图6是本发明实施例提供的一种用于URL路径匹配的AC查找的还一种改良方法流程示意图；

图7是本发明实施例提供的一种用于URL路径匹配的AC查找的还一种改良方法流程示意图；

图8是本发明实施例提供的一种用于URL匹配的优化后的AC查找架构实例示意图；

图9是本发明实施例提供的一种用于URL匹配的优化后的AC查找架构实例示意图；

图10是本发明实施例提供的一种用于URL路径匹配的AC查找优化装置结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

首先简要介绍一下AC自动机(英文全称为：Aho-Corasick automation)，该算法在1975年产生于贝尔实验室，是著名的多模匹配算法之一。一个常见的例子就是给出n个单词，再给出一段包含m个字符的文章，让你找出有多少个单词在文章里出现过。要搞懂AC自动机，先得有模式树(字典树)Trie和KMP(英文全称：Knuth-Morris-Pratt)模式匹配算法的基础知识。KMP算法是单模式串的字符匹配算法，AC自动机是多模式串的字符匹配算法。

AC自动机和字典树的关系比较大。字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串(但不仅限于字符串)，所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。

简而言之：字典树就是像平时使用的字典一样的，把所有的单词编排入一个字典里面，当查找单词的时候，首先看单词首字母，进入首字母所再的树枝，然后看第二个字母，再进入相应的树枝，假如该单词再字典树中存在，那么只用花费单词长度的时间查询到这个单词。

现有AC算法举例说明：

Ac算法主要依靠建立trie树，加载特征库。

例如特征库:

ash

sha

she

bcd

把上述四个特征加入trie树，如图1所示。

现有的AC算法的缺点：

传统的AC算法，是基于单个字符的快速多模匹配算法，因此，需要每个字符都要建立节点数据结构。在特征库比较小的情况下，使用AC算法能够达到快速匹配特征库的目的，并且速度更优。

在运营商省级骨干网流量背景下，URL特征库非常大并且特征串长度较长，AC算法为每个字符都创建节点，需要耗费的内存非常大，最终造成此算法无法在真实系统中使用。

本发明所提出的优化方案：

1)由于URL字符串包含以下特征：

整个URL串字符以“/”符号将各级路径分隔，具有明显的树装结构。匹配时要求是各级路径完全匹配后才视为最终匹配成功。特征库中字符串长度较大但是路径深度较小。不同URL特征中经常出现相同的路径名称(如images、js、css等)。

2)基于以上特点本算法中对AC算法进行两处优化改造：

以路径节点代替字符节点，从而大量减少数据结构中的节点数目，节省内存，降低硬件成本。路径名通过动态字典表方式管理，同名路径只保存一份，统一管理。树中的节点存储字典数据的引用指针。进一步降低内存消耗。

3)假设特征库包含如下URL信息，则优化后的结构组织如图2所示：

www.baidu.com/images

www.youku.com/images

下面将通过具体实施例阐述本发明上述的改进方案的实现过程。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

本发明实施例1提供了一种用于URL路径匹配的AC查找优化方法，预先搜集到待整理的一批URL字符串，如图3所示，方法包括：

在步骤201中，遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，建立索引树，并在索引树的叶子节点中存储相应URL字符串的相关信息。

在步骤202中，使用所述索引树进行目标URL字符串匹配时，在目标URL字符串中由“/”符号分隔的各级路径，与各层索引树所存储的各级路径完全匹配后，得出匹配成功结果。

在步骤203中，在所述匹配成功后，将相应叶子节点中存储的URL字符串的相关信息，作为所述目标URL的匹配结论反馈。

结合本发明实施例，对于上述步骤201中所述涉及的遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，建立索引树，还提供了一种具体的可实现方案：

遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，在存储分隔出的首个字符串时，配套的存储整个URL字符串所包含的“/”符号总数量。

之所以要存储包含“/”符号总数量，是在充分研究了URL特性之后，发现若在存储分隔出的首个字符串的树节点上，开辟一个字节来存储整个URL字符串所包含的“/”符号总数量，对于实际树的大小来说不会有多大影响，但是，通过其可以筛选掉至少70％不相关的树枝(相对于索引树而言，一条树枝为一有效URL地址)，在进行使用所述索引树进行目标URL字符串匹配时，在目标URL字符串中由“/”符号分隔的各级路径之后，且在与各层索引树所存储的各级路径完全匹配之前，如图4所述方法还包括：

在步骤2021中，在目标URL字符串中由“/”符号分隔出来的首个字符串与索引树中的第一级路径匹配。

在步骤2022中，通过目标URL字符串中包含的“/”符号总数量与所述第一级路径中记载的“/”符号总数量相同作为筛选条件，筛选掉条件不符的一个或者多个第一级字符串。

在本发明实施例中，所述索引树中存储所述第一级路径的节点，除了存储所述第一级路径，所述“/”符号总数量以外，还存储有ULR最后的格式标识符，则所述通过目标URL字符串中包含的“/”符号总数量与所述第一级路径中记载的“/”符号总数量相同作为筛选条件，筛选掉条件不符的一个或者多个第一级字符串之后，如图5所示，方法还包括：

在步骤2023中，通过ULR最后的格式标识符进一步筛选掉不符的一个或者多个第一级字符串。

在本发明实施例中，通常ULR最后的格式标识符包括images、js、css、jpg、html中的一项或者多项。所述目标URL字符串的第一级地址通常存储万维网地址或者IP地址。例如：“www.baidu.com”、“www.youku.com”等等。

结合本发明实施例，进一步分析URL的特性，例如一些非法的网站，其在更高网站第一级地址后，通常后面几级的地址会进行保留，这是因为他们经常会被查封网站，而其为了节省维护成本，通常会更改一个一级地址便会重新上线，由此，若能发现后面几级地址某一树枝部分或者完全匹配，便能够将关联的几个树枝进行综合分析，从而得出更为精准的分析结论，因此，结合本发明实施例还存在一种优选的实现方案，具体的若分级路径匹配过程中，在匹配目标URL的第i级地址和索引树中第一树枝的第i级地址失败，则启动补偿分析过程，如图6所示，包括：

在步骤301中，在索引树中查找所述第i级地址，若在所述索引树中再次匹配到所述第i级地址相同的第二树枝时，并在完成目标URL剩余各级地址均与所述第二树枝中剩余各级地址相同。其中，i为大于等于1的自然数(即有可能)。

需要指出的是，在第一数值和第二数值仅仅是为了方便与统一描述对象“数值”区别开来，方便描述其在方法过程中具有的特定意义，而其称呼上的“第一”或者“第二”不具有对保护范围上的限缩作用。

其中，若索引树中查找所述第i级地址失败，则进一步查找第i+1级地址、第i+2级地址，直到补偿分析完所述URL的各级地址。进一步，存在一种优选方案，即一旦逐级失败，抵达所述URL中间级地址时，便可以放弃进一步往下查了，因为地址的延续特性，一旦超过一半都匹配不上，便可认定该地址为新地址，从而可以跳转到直接从URL网站内容进行例如网站安全性、是否非法的分析。

在步骤302中，则分析所述索引树中第一树枝和第二树枝的关联关系，得到对所述目标URL的综合评定。例如：在确定第二树枝是违法网站时，则对于匹配满足第一树枝的

在本发明实施例中，若要求对URL各级地址进行递归式的补偿分析匹配，则能够得出匹配结果的可能不止一条树枝，因此，结合本发明实施，出于可实现方案可能性考虑，还存在一种实现方案，如图7所示，具体的：

在步骤301’中，若分级路径匹配过程中，在匹配目标URL的第i级地址和索引树中第一树枝的第i级地址失败，则启动补偿分析过程。

在步骤302’中，在索引树中查找所述第i级地址，若在所述索引树中再次匹配到所述第i级地址相同的第二树枝时，在进行目标URL剩余各级地址均与所述第二树枝中剩余各级地址中的第j级地址不同，则在索引树中查找所述第j级地址，若在所述索引树中再次匹配到所述第j级地址相同的第三树枝后，完成所述目标URL剩余各级地址的匹配。

在步骤303’中，则分析所述索引树中第一树枝、第二树枝和第三树枝的关联关系，得到对所述目标URL的综合评定。

实施例2：

本发明实施例作为实施例1所描述诸多方法过程中一种最典型的简单实例进行展示：

为方便举例，下文的图中忽略动态字典表的管理方式，以直接存储字符串方式表现。现在有特征如下URL特征需要进行匹配：

www.baidu.com/test/ab/cd

www.baidu.com/test/cd/ef

www.youku.com/api/fg

www.youku.com/test/api

本发明实施例将URL种的路径字符“/”当做分隔符，用来描述父子关系，URL每一级路径当做节点，于是特征库加载到trie树之后，如图8所示(失配指针和传统AC算法相同，省略)：

若当前有一个带匹配的URL如下：

www.baidu.com/test/ab/cd/login？username＝test

把”/”当做分隔符，每一级路径当做节点，去匹配上述trie树，应该走如下路径如图9中灰色节点所示。

故能够匹配上第一条URL特征。

实施例3：

如图10所示，是本发明实施例的用于URL路径匹配的AC查找优化装置的架构示意图。本实施例的用于URL路径匹配的AC查找优化装置包括一个或多个处理器21以及存储器22。其中，图10中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的用于URL路径匹配的AC查找优化方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行用于URL路径匹配的AC查找优化方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的用于URL路径匹配的AC查找优化方法，例如，执行以上描述的图3-图7所示的各个步骤。

值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于URL路径匹配的AC查找优化方法，其特征在于，预先搜集到待整理的一批URL字符串，方法包括：

在所述匹配成功后，将相应叶子节点中存储的URL字符串的相关信息，作为所述目标URL的匹配结论反馈；

若分级路径匹配过程中，在匹配目标URL的第i级地址和索引树中第一树枝的第i级地址失败，则启动补偿分析过程，具体的：

2.根据权利要求1所述的用于URL路径匹配的AC查找优化方法，其特征在于，遍历所述待整理的URL字符串，并以“/”符号作为各级路径分隔的标识符，建立索引树，具体包括：

3.根据权利要求2所述的用于URL路径匹配的AC查找优化方法，其特征在于，在进行使用所述索引树进行目标URL字符串匹配时，在目标URL字符串中由“/”符号分隔的各级路径之后，且在与各层索引树所存储的各级路径完全匹配之前，所述方法还包括：

4.根据权利要求3所述的用于URL路径匹配的AC查找优化方法，其特征在于，所述索引树中存储所述第一级路径的节点，除了存储所述第一级路径，所述“/”符号总数量以外，还存储有ULR最后的格式标识符，则所述通过目标URL字符串中包含的“/”符号总数量与所述第一级路径中记载的“/”符号总数量相同作为筛选条件，筛选掉条件不符的一个或者多个第一级字符串之后方法还包括：

通过所述ULR最后的格式标识符进一步筛选掉不符的一个或者多个第一级字符串。

5.根据权利要求3所述的用于URL路径匹配的AC查找优化方法，其特征在于，ULR最后的格式标识符包括images、js、css、jpg、html中的一项或者多项。

6.根据权利要求3所述的用于URL路径匹配的AC查找优化方法，其特征在于，所述目标URL字符串的第一级地址存储万维网地址或者IP地址。

7.根据权利要求1所述的用于URL路径匹配的AC查找优化方法，其特征在于，若分级路径匹配过程中，在匹配目标URL的第i级地址和索引树中第一树枝的第i级地址失败，则启动补偿分析过程，具体的：

8.一种用于URL路径匹配的AC查找优化装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行权利要求1-7任一所述的用于URL路径匹配的AC查找优化方法。