CN101359325A

CN101359325A - 一种快速内容分析的多关键词匹配方法

Info

Publication number: CN101359325A
Application number: CNA2007101198452A
Authority: CN
Inventors: 叶润国; 华东明; 李博; 胡振宇
Original assignee: BEIJING QIMING XINGCHEN INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING QIMING XINGCHEN INFORMATION TECHNOLOGY Co Ltd; Beijing Venus Information Technology Co Ltd
Priority date: 2007-08-01
Filing date: 2007-08-01
Publication date: 2009-02-04
Anticipated expiration: 2027-08-01
Also published as: CN101359325B

Abstract

本发明公开了一种快速内容分析的多关键词匹配方法。所述发明方法包括预处理阶段和模式匹配阶段。其中，所述的预处理阶段包括关键词特征串裁剪和关键词特征分片集合的构建、基于关键词特征分片集合的Bloom Filte(布隆过滤器)构造，以及原始关键词集合线性表构造，所述关键词匹配阶段包括：依据Bloom Filter实现当前窗口中文本串不与任何关键词特征分片匹配的快速判定；只在判定失败情况下通过字符串比较操作实现与候选关键词的精确匹配；将文本匹配窗口连续多字节快速跳跃。本发明充分利用了待匹配文本与关键词匹配成功概率异常低的特点，可实现大数量关键词场景下的高速匹配，非常适合病毒检测等在线病毒扫描应用。

Description

一种快速内容分析的多关键词匹配方法

技术领域

本发明涉及内容分析技术领域，具体涉及一种快速内容分析的多关键词匹配方法。

背景技术

多关键词匹配(Multiple Pattern String Matching)是计算机科学领域中的基本问题之一。其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、信息检索和病毒检测等领域。

目前涌现出了大量多关键词匹配算法，包括Aho-Corasick[1]、Wu-Manber[2]和E2XB[3]等(引用的所有文献出处位于背景技术结尾处)。这些多关键词匹配算法都存在一个理想的应用条件，比如，Aho-Corasick算法的最佳应用条件为小数量短关键词场合，Wu-Manber的最佳应用条件为中等数量长关键词应用场合，E2XB的最佳应用为入侵检测场合。这些多关键词匹配算法在大数量长关键词应用场合下效果并不理想，因此并不适合实时病毒检测类应用场合。实时病毒检测类应用场合下的多关键词匹配具有如下特点：1)关键词数量非常大，一般在6万到20万条左右；2)关键词长度一般比较大，最小为8字节；3)待检测文本长度较大，从几千字节到几兆字节不等；4)待检测文本与任何关键词匹配的成功概率异常低。

文献[4]给出了一种针对病毒检测类应用场合多关键词匹配特点而设计的多关键词匹配方法：HASH-AV，它构建一个可容纳于现代CPU高速缓存中的Bloom Filter(布隆过滤器)，并巧妙设计了一组Bloom Filter散列函数，通过依次调用该组散列函数来实现当前窗口中文本串不与任一关键词匹配的快速判定。由于病毒检查等应用场合下，文本数据流与任一关键词匹配的概率异常低，绝大多数情况下这种基于Bloom Filter的快速判定都是成功的，因此并不需要执行代价昂贵的全关键词比较操作。与其它关键词匹配方法相比，该关键词匹配方法更多地考虑了病毒检测领域独有的特性，在病毒检测应用场合表现出了较好的扫描速率；但该方法仍然是一种线性的关键词匹配方法，它无法实现文本匹配窗口的连续多字节跳跃。

背景技术中引用的文献列表如下：

1)A.V.Aho，M.J.Corasick.Efficient String Matching：An Aid toBibliographic Search，(中文名称：一种用于目录搜索的高效的字符串匹配方法)Communications of the ACM，1975，18(6)：333-340

2)S.Wu，U.Manber.A Fast Algorithm For Multi-Pattern Searching(中文名称：一种快速的多模式匹配算法).Technical Report TR-94-17，University of Arizona.1994：1-11

3)K.G.Anagnostakis，S.Antonatos，M.Polychronakis，and E.P.Markatos.：A domain-specific string matching algorithm for intrusiondetection(中文名称：一种领域相关的为入侵检测设计得多模式匹配算法).In Proceedings of IFIP International Information SecurityConference(SEC′03)，May 2003

4)Erdogan，O.；Pei Cao，Hash-AV：fast Virus signature scanning by cache-resident filters(中文名称：HASH-AV：一种采用缓存驻留过滤器的快速病毒特征扫描方法)，Global Telecommunications Conference，2005.GLOBECOM apos；05.IEEE Volume 3，Issue，28 Nov.-2 Dec.2005Page(s)：6pp.

发明内容

本发明目的是克服现有技术的上述缺点，提供一种适合于实时病毒检测场合的多关键词匹配方法，它利用Bloom Filter(布隆过滤器)实现当前窗口中文本不与任何关键词匹配的快速判定，同时允许文本匹配窗口连续多字节跳跃。

本发明的目的是通过以下技术方案实现的：

一种快速内容分析的多关键词匹配方法，包括预处理阶段和模式匹配阶段，其中，

A)所述预处理阶段包括以下步骤：

A1、根据设定的关键词特征串长度，对关键词集合中各关键词进行特征串抽取；

A2、根据设定的文本匹配窗口跳跃步长，将各关键词特征串分割为多个指定长度子串，即关键词特征分片；

A3、构造一个包含多个散列函数的Bloom Filter结构体，将分割出的所有关键词特征分片映射到Bloom Filter结构体中；

A4、构造一个哈希表，将分割出的所有关键词特征分片映射到哈希表各单元中，对于具有哈希值冲突的元素，用链表方式串接起来；

A5、构建一个包含所有原始关键词的线性表，在步骤A4中建立的关键词特征分片哈希表的各表项中包含对应原始关键词的索引号；

B)所述模式匹配阶段包括以下步骤：

B1、设置一个与关键词特征分片等长度的文本匹配窗口，首先将文本匹配窗口与待匹配文本左对齐；

B2、以当前文本匹配窗口中文本串为输入，依次调用步骤A3中构造Bloom Filter时选择的散列函数组，并检查散列函数值对应的Bloom Filter位串中比特位值：如果值为0，则直接跳跃到步骤B5执行；如果值为1，则继续调用下一个散列函数；如果所有散列函数对应的Bloom Filter中的比特位均为1，则进入步骤B3；

B3、依据文本匹配窗口中当前文本检索关键词特征分片哈希表，如果找到匹配的关键词特征分片表项，则执行步骤B4；如果未找到任何匹配表项，则直接跳跃到步骤B5执行；

B4、根据关键词特征分片表项中的索引号从原始关键词线性表读取对应的原始关键词，并与当前匹配窗口处文本串进行全长度字符串比较，如果匹配成功则报告一个成功的关键词匹配事件；继续执行步骤B5；

B5、将当前文本匹配窗口向右移动指定跳跃步长，并跳跃到步骤B2继续执行，直至整个文本扫描结束。

优选地，本发明所述的快速内容分析多关键词匹配方法中，所述预处理阶段A的步骤A1为：对于原始关键词集合中各关键词，抽取的关键词特征串为整个关键词集合中出现次数最少的关键词子串。

优选地，本发明所述的快速内容分析多关键词匹配方法，在步骤A3中构造Bloom Filter结构体时，为该Bloom Filter结构体设计的散列函数组满足如下要求：该散列函数组中各散列函数是依次调用的；依次调用的各散列函数的计算复杂度逐次增大，均匀特性也逐次变好。

优选地，本发明所述的快速内容分析多关键词匹配方法，在步骤A4构造关键词特征分片哈希表时，选择的哈希表散列函数就是步骤A3中构造Bloom Filter时依次调用的散列函数组中的最后一个散列函数。

由以上本发明提供的技术方案可以看出，本发明对关键词集合中各关键词进行特征串抽取后，将抽取的关键词特征串分割成多个关键词特征分片，并构建了基于关键词特征分片集合的Bloom Filter，以实现文本扫描过程中当前文本不与任何关键词特征分片匹配的快速判定，并允许文本匹配窗口连续多字节跳跃，从而大大加快了文本扫描速度。在同等试验条件下，本发明方法在选择不同连续跳跃步长时，均比HASH-AV方法快，特别在连续跳跃步长为3字节时，文本扫描速度比HASH-AV快1倍。本发明方法非常适合于在线实时入侵检测和病毒检测等应用场合。

附图说明

图1为将一个元素插入到Bloom Filter数据结构的过程；

图2为判定某元素是否属于Bloom Filter所表示集合的过程；

图3为本发明方法的预处理阶段工作流程图。

图4是本发明方法的模式匹配阶段的文本扫描实现流程图。

具体实施方式

本发明方法包括预处理阶段和模式匹配阶段。下面结合附图详细说明本发明方法各个阶段的具体实施步骤。

在预处理阶段，本发明方法需要对原始关键词集合进行预处理，并生成几个关键的数据结构，以辅助模式匹配阶段的文本扫描过程。

如附图3所示，本发明方法预处理阶段的实施步骤如下：

步骤301、根据设定的关键词特征串长度，对关键词集合中各关键词进行特征串抽取；

步骤302、根据设定的文本匹配窗口跳跃步长，将各关键词特征串分割为多个指定长度子串，即关键词特征分片；

步骤303、构造一个包含多个散列函数的Bloom Filter(布隆过滤器)结构体，将分割出的所有关键词特征分片映射到Bloom Filter结构体中；

步骤304、构造一个哈希表，将分割出的所有关键词特征分片映射到哈希表各单元中，对于具有哈希值冲突的元素，用链表方式串接起来；

步骤305、构建一个包含所有原始关键词的线性表，在步骤304中建立的关键词特征分片哈希表的各表项中包含对应原始关键词的索引号。

实施例1：

假设有K个需要搜寻的原始关键词，表示为P＝{P₁，P₂，...，P_k}。在实际应用场合中，需要搜寻的原始关键词长度是不相等的。为便于实现多个关键词的并行匹配，本发明需要对所有关键词进行等长度裁剪，即选择一个关键词子串长度值W，对集合P中每个原始关键词P_i，将其裁剪为W字节长度的关键词子串M_i。这个裁剪出的W字节长度的关键词子串M_i称为原始关键词特征串。由抽取的各关键词特征串M_i组成的集合为关键词特征串集合M。注意，在选择关键词特征串长度时，W值大小不能大于原始关键词集合中最短关键词的长度。最简单的裁剪方法为取每个关键词的W字节前缀或后缀作为原始关键词的关键词特征串。在文本扫描过程中，首先判定当前文本是否与某一关键词特征串匹配，如果匹配成功，则将当前文本与整个原始关键词进行匹配，以实现全模式长度的精确匹配。

在构建了关键词特征串集合M后，需要对各关键词特征串进一步进行子串分割，以确保文本匹配窗口连续多字节跳跃时不会漏掉任何可能的关键词匹配事件。假设要实现文本匹配窗口以S字节为步长的连续跳跃，为保证文本匹配窗口连续跳跃过程中不漏掉任何可能的关键词匹配，则需要将关键词特征串集合M中各关键词特征串M_i分割为S个长度为W-S+1字节的关键词特征分片K_i1，K_i2，...K_iS。由所有这些关键词特征分片K_i1，K_i2，...K_iS组成的集合为关键词特征分片集合K。

关键词特征分片集合K构建完毕后，需要构造一个包含关键词特征分片集合K中所有元素的Bloom Filter结构体。

Bloom Filter是一个压缩的数据结构，用来表示一个集合中所有元素，并支持对该集合中元素的查找，即可以回答“某个元素是否属于某个集合？”的问题。

Bloom Filter使用长度为m的位串(bit Vector)V来表达数据元素集合A＝{a₁，a₂，...a_n}。设有k个具有均匀分布特性的散列函数{h_i}，i＝1，...，k，满足如下条件：

&ForAll; x &Element; A,

h_i(x)∈{1，2，...，m}，基于Bloom Filter的集合元素表示法和集合元素查找法如下：

集合元素表示方法：对于集合中任一元素a_i，使用预先定义的k个散列函数依次对a_i进行哈希，得到k个散列值{b₁，b₂，...b_k}，b_i∈[1..m]，然后依次将位串V的b₁，b₂，...b_k位置1。附图1示例了将一个元素插入到Bloom Filter数据结构的过程(k＝3)。

集合元素查找方法：当需要判定某一元素a是否属于Bloom Filter表示的集合时，方法如下：1)使用预先定义的k个散列函数依次对元素a进行散列运算，得到k个散列值{b₁，b₂，...b_k}，b_i∈[1..m]；然后判断位串V的b₁，b₂，...b_k位置上是否都为1，如果都为1，则表示该元素在集合中，否则表示不在集合中。附图2示例了基于Bloom Filter的集合元素查找过程(即归属判定过程)。

基于Bloom Filter实现集合元素查找时可能存在误报，但是，可以通过控制位串V的长度m来将误报率控制在可接受的范围之内。

本发明基于上面描述的公知的Bloom Filter构造方法构造用于表示关键词特征分片集合K中所有元素的Bloom Filter：

a)设置一个长度为v的位串V，并为该Bloom Filter选定K个散列函数H₁，H₂，..H_k；

b)对于关键词特征分片集合K中各元素K_ij，依次调用K个散列函数H₁，H₂，..H_k，将位串V中的K个散列函数值对应的比特位置1。

为实现文本匹配窗口中文本串与候选的关键词特征分片子集进行精确匹配，本发明还为关键词特征分片集合K构造了一个哈希表。为了使得构造的哈希表具有较好的平衡性，需要为哈希表构造一个均匀性较好的哈希映射函数H。并且，所构造的哈希映射函数H应具有较高的计算效率，以减少哈希表的检索开销。对于关键词特征分片集合K中具有散列值冲突的关键词特征分片，本发明采用链表方式将它们串接起来，并将链表中元素按字典升序排列。

本发明还需要构建一个包含原始关键词集合P中各关键词的线性表L，以便于文本匹配窗口中文本串与某一关键词特征分片匹配成功后，能够读取与该关键词特征分片对应的原始关键词进行全长度的精确匹配，从而得到最后的关键词匹配结果。为使得在文本匹配窗口中文本串与某一关键词特征分片匹配成功后能够快速找到相关的原始关键词，本发明在A4步骤中建立的关键词特征分片哈希表的各表项中包含了对应原始关键词的索引号。

在模式匹配阶段，本发明将基于预处理阶段构建的数据结构体实现对待检测文本的快速扫描。为了使本技术领域的人员更好地理解本发明，下面结合附图4详细介绍本发明涉及的模式匹配过程。包括以下步骤：

步骤401、设置文本匹配窗口宽度为W-S+1字节，其中，W为关键词特征串长度，S为文本匹配窗口跳跃步长，将文本匹配窗口与待匹配文本左对齐；

步骤402：以当前文本匹配窗口中文本串(长度为W-S+1字节)为输入，依次调用关键词特征分片Bloom Filter中选择的散列函数组H₁，H₂，...H_k，并检查Bloom Filter位串中对应比特位的值：如果某个散列函数H_i对应的Bloom Filter中的比特位为0，则直接跳跃到步骤405执行；如果当前散列函数H_i对应的Bloom Filter中的比特位为1，则继续调用下一个散列函数H_i+1；如果所有散列函数对应的Bloom Filter中的比特位均为1，则继续执行步骤403。

步骤403：基于关键词特征分片哈希表中的散列函数H，对当前文本匹配窗口中文本串进行散列运算，根据散列值定位某一关键词特征分片子链，并将文本匹配窗口中文本串与子链中各关键词特征分片进行精确匹配：如果与某关键词特征分片匹配成功，则继续执行步骤404；如果未与子链中任何关键词特征分片匹配成功，则直接跳跃到步骤405执行。

步骤404：从找到的关键词特征分片表项中取出原始关键词索引号，从原始关键词线性表中加载对应的原始关键词，将其与当前文本匹配窗口位置处文本串进行基于字符比较的全匹配，如果匹配成功，则报告一个成功的原始关键词匹配事件；最后，不管匹配是否成功，都继续执行步骤405。

步骤405：将当前文本匹配窗口向右移动S字节(S为跳跃步长)，并跳跃到步骤402继续执行，直至整个待检测文本扫描结束。

在实施本发明时，本发明所述的预处理阶段A的步骤A1可以采用如下的优选实施方式：对于关键词集合P＝{P₁，P₂，...，P_k}中每一关键词P_i，抽取的关键词特征串M_i为整个关键词集合中出现次数最少的关键词子串。

可以采用如下方法使得抽取的关键词特征串M_i为整个关键词集合中出现次数最少的关键词子串：

a)建立一个哈希表，用于存放所有可能的长度为W的关键词子串；

b)对于任一长度为n_i的原始关键词P_i，可以分割出(n_i-W)个长度为W的关键词子串，对于每个分割出的关键词子串，首先判断其是否在关键词子串哈希表中：如果不在哈希表中，则创建新的关键词子串表项，并将计数器值设置为1；如果相关关键词表项出现在哈希表中，则将对应表项的计数器值加1；

c)当原始关键词集合中所有关键词按步骤b)处理结束后，开始为每个原始关键词选择出现次数最少的关键词子串，具体过程为：对于任一长度为n_i的原始关键词P_i，检索关键词子串哈希表，分别统计其(n_i-W)个长度为W字节的关键词子串的计数值，选这(n_i-W)个关键词子串中计数值最小者为本原始关键词P_i的关键词特征串。

在实施本发明时，在步骤A3构造用于表示关键词特征分片集合中所有元素的Bloom Filter时，可以采用如下优选方式构造其K个散列函数H₁，H₂，..H_k：即使得构造的散列函数组满足如下要求：该K个散列函数的计算复杂度为H₁≤H₂≤...≤H_k。

将K个散列函数的计算复杂度设置为H₁≤H₂≤...≤H_k的原因在于：在判定当前文本匹配窗口中文本串是否与某一关键词特征分片匹配时，这K个散列函数是顺序调用的，如果某个散列函数H_i能够判断当前窗口中文本串不与Bloom Filter所表示的任何元素匹配时，后续散列函数H_i+1，..H_k无需再调用；在病毒检测等关键词匹配成功概率异常低的情况下，多数情况下只需少数几个散列函数就可以做出当前文本串不属于关键词特征分片集合的判定，而无需全部调用K个散列函数，因此，这种将K个散列函数的计算复杂度设置为H₁≤H₂≤...≤H_k方法可以大大提高Bloom Filter判定效率。

一般情况下，设计得比较简单的散列函数，其计算复杂度小，但其散列值均匀性稍差，构造出的Bloom Filter可能不是最优的；设计得比较复杂的散列函数，其计算复杂度大，但可以获得一个均匀性较好的散列函数，构造出的Bloom Filter则较好。在具体实施本发明时，建议采用移位和异或操作来构造简单但均匀性稍差的散列函数，而采用置换和替换等操作来构造复杂但均匀性好的散列函数。

在实施本发明时，在步骤A4构造关键词特征分片哈希表时，为节省哈希表检索时间，可以直接使用步骤A3中构造Bloom Filter时K个散列函数中的最后一个散列函数H_k作为本关键词特征分片哈希表的散列函数H，这样就省去了散列函数H的计算时间，加快了哈希表检索效率。并且，由于散列函数H_k是Bloom Filter中K个散列函数中均匀性最好的，因此，基于H_k构造的关键词特征分片哈希表将具有较好的平衡性。

实施例2：

下面通过一个实施例对本发明整个技术方案作进一步说明。

假设关键词集合为P＝{abcdefg，abcopq，wyzopq}，待匹配文本为bcgilmnom。

按照本发明方法的预处理过程如下：

首先，确定关键词特征串长度并裁减出各关键词对应的关键词特征串。这里选择关键词长度为3字节，并按照关键词子串最少出现原则选择各关键词的特征串，最后得到的关键词特征串集合为M＝{bcd，cop，wyz}。

然后，设定文本匹配窗口跳跃步长并确定关键词特征分片集合。这里选择文本匹配窗口跳跃步长为2字节，于是，可从关键词特征串集合M得到所对应的关键词特征分片集合K＝{bc，cd，co，op，wy，yz}。

然后，开始基于关键词特征分片集合K构造Bloom Filter。这里选择位串大小为128比特，并定义三个散列函数H₁，H₂，H₃，其中H₁函数值为两字节整数的最尾7比特所代表的数值，H₂函数值由两字节的移位和异或操作定义，H₃基于置换和替换操作定义。

然后，基于构造Bloom Filter时的散列函数H₃构造关键词特征分片哈希表。该哈希表中将包含关键词特征分片集合中所有元素，即K＝{bc，cd，co，op，wy，yz}。

最后，为原始关键词集合P＝{abcdefg，abcopq，wyzopq}构造一个线性表，并将各原始关键词的索引号存储在关键词特征分片哈希表的各相关表项中，比如，表项bc和cd中存储原始关键词abcdefg的索引号0，表项co和op中存储原始关键词abcopq的索引号1，表项wy和yz中存储原始关键词wyzopq的索引号2。

按照本发明方法的模式匹配过程如下：

首先，确定文本匹配窗口宽度为2字节，将两字节文本匹配窗口与待匹配文本bcgilmnom左对齐。

对于当前文本匹配窗口中文本bc，依次调用关键词特征分片BloomFilter中的3个散列函数并判断Bloom Filter位串中对应比特位的取值。由于当前文本串bc属于关键词特征分片集合K，因此，散列函数H₁，H₂，H₃散列值对应比特位都为1，快速排除判定失败。这时，需要根据散列函数H₃(bc)的值检索关键词特征分片哈希表，可以找到匹配的关键词特征分片表项bc，然后根据该表项中存储的原始关键词索引号0取出原始关键词abcdefg，并与当前窗口处文本进行全匹配，匹配失败；匹配结束后，文本匹配窗口向前连续跳跃2字节，此时，当前窗口中文本为gi。然后，依次调用关键词特征分片Bloom Filter中的3个散列函数并判断位串中对应比特位的取值，发现散列函数H₁(gi)散列值在Bloom Filter位串对应比特位处的值为0，说明当前文本gi不等于关键词特征分片集合中任一元素，不再继续调用H₂，H₃函数，直接将文本匹配窗口向前连续跳跃2字节，此时，当前窗口文本为ln。后续的文本扫描过程与上面类似，直到整个文本扫描完毕，整个模式匹配阶段结束。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims

1.一种快速内容分析的多关键词匹配方法，包括预处理阶段和模式匹配阶段，其特征在于包括以下步骤：

A)所述预处理阶段包括以下步骤：

B)所述模式匹配阶段包括以下步骤：

2.根据权利要求1所述的快速内容分析多关键词匹配方法，其特征在于，所述预处理阶段A的步骤A1为：对于原始关键词集合中各关键词，抽取的关键词特征串为整个关键词集合中出现次数最少的关键词子串。

3、根据权利要求1所述的快速内容分析多关键词匹配方法，其特征在于，在步骤A3中构造Bloom Filter结构体时，为该Bloom Filter结构体设计的散列函数组满足如下要求：该散列函数组中各散列函数是依次调用的；依次调用的各散列函数的计算复杂度逐次增大，均匀特性也逐次变好。

4.根据权利要求1所述的快速内容分析多关键词匹配方法，其特征在于，在步骤A4构造关键词特征分片哈希表时，选择的哈希表散列函数就是步骤A3中构造Bloom Filter时依次调用的散列函数组中的最后一个散列函数。