CN101876989A

CN101876989A - 一种对海量含通配符黑名单高速匹配的方法

Info

Publication number: CN101876989A
Application number: CN2009102323340A
Authority: CN
Inventors: 杨卓敏; 方艾芬; 翁育峰; 张森; 马庆; 刘太国
Original assignee: Traffic Management Research Institute of Ministry of Public Security
Current assignee: Traffic Management Research Institute of Ministry of Public Security
Priority date: 2009-12-07
Filing date: 2009-12-07
Publication date: 2010-11-03

Abstract

本发明涉及一种对海量含通配符黑名单高速匹配的方法，用快速排序法对海量含通配符的黑名单进行排序，形成有序数组；然后对输入的比对字符串，根据第一个字符，采用两次二分查找法比对黑名单第一个字符确定一个子有序数组；当所述子有序数组为空、为一个或多个相同黑名单时，返回匹配结果，否则分两条线向后递归迭代：一是将当前字符替换为通配符向后递归迭代，另一是保留原字符向后递归迭代；直至返回匹配结果或输入字符串所有字符递归迭代完成。本发明适用于交通监控等监控对象无法100％识别或黑名单无法精确设定的领域，提供一种高速实时匹配。

Description

一种对海量含通配符黑名单高速匹配的方法

技术领域

本发明涉及一种字符串高速匹配方法，特别是一种对含通配符的海量黑名单的高速匹配的方法。

背景技术

通配符(wildcard)是一类键盘字符，包括星号(*)、问号(？)和百分号(％)等，当进行文件或字符内容匹配时不知道真正字符或者不想键入完整单词时，可以使用它来代替真正字符或完整的单词。通配符其特征是以一个指定符号或词组匹配零个、一个或多个字符(可以为指定范围的字符)。

含有通配符的格式化字符串(本文称为黑名单)常用于检索文件名、标题、简介、文章等字符串(本文称为目标字符串)比对操作，一般是通过黑名单与目标字符串逐个比对的方式进行。这在黑名单数量比较少时(比如文件检索通常只有一个格式化字符串)或对实时性要求不高的情况下没有什么问题。但当黑名单数量较大时就会出现运算不过来的情况，实际试验当超过100个黑名单时对一个目标字符串的匹配就会出现明显的迟滞，无法满足某些要求实时匹配的情况。

在实际工作中我们开发了一个机动车缉查布控系统，其中有个比对报警程序，功能是每过一辆车，就将车辆号牌与数据库中的机动车黑名单进行匹配，实时得到是否布控车辆(在黑名单中)的结果。因为对车辆号牌识别准确性问题(如车牌中‘8’、‘0’容易混淆)和其他业务需要的原因，含有通配符的黑名单数量极大(超过10万条)，逐个匹配的方式是完全无法胜任的。

对于不含通配符的黑名单，我们采取的算法是对黑名单以快速排序法进行排序，而后通过二分查找法同过车车牌进行高速匹配，在普通PC机上实测表明对超过100万条黑名单匹配时间在1毫秒左右。由此，我们考虑通过加强这种算法来支持含通配符的黑名单匹配。

首先想到了通过通配符逐个迭代目标字符串(车牌)的方法，机动车车牌一般是7位(也有9位13位的)，逐个迭代通配符有

等于126次，匹配时间从1毫秒左右上升到超过0.1秒。这个速度在只有一个通配符的情况下勉强可以接受，但当有多个通配符时，迭代次数将以126的指数级增加，要实现实时匹配将完全不可行。必须设计一个方法将迭代次数降下来。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种对海量含通配符黑名单高速匹配的方法，比传统方法的匹配效率有极大提高。

按照本发明提供的技术方案，所述对海量含通配符黑名单高速匹配的方法，用快速排序法对海量含通配符的黑名单进行排序，形成有序数组；然后对输入的比对字符串，根据第一个字符，采用两次二分查找法比对黑名单第一个字符确定一个子有序数组；当所述子有序数组为空、为一个或多个相同黑名单时，返回匹配结果，否则分两条线向后递归迭代：一是将当前字符替换为通配符向后递归迭代，另一是保留原字符向后递归迭代；直至返回匹配结果或输入字符串所有字符递归迭代完成。

所述通配符是以一个指定符号或词组匹配零个、一个或多个字符。

所述通配符包括“*””和“？”，“*”可以匹配任何字符序列，包括无字符的情况；“？”可以匹配任何单个字符。

所述快速排序法采用通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据小，然后分别对两部分数据递归的进行快速排序，最后达到整个数据变成有序序列。

本发明的优点是：不仅减少了迭代次数，而且每次迭代的黑名单规模也显著下降，大大提高了整个匹配效率。

具体实施方式

本发明的执行系统包括：输入模块，用于从数据库、文件等读入黑名单选择含通配符的黑名单输入系统；海量黑名单快速排序模块，用于对输入的黑名单快速排序形成有序数组；快速查找模块，用于确定一个子有序数组；通配符递归迭代模块，用于通过递归迭代匹配输入字符串，在递归迭代过程中通过快速查找模块减少有序数组规模，从而提高匹配速度。

本发明用快速排序法对海量含通配符的黑名单进行排序，形成有序数组。然后对输入的比对字符串，根据第一个字符，采用两次二分查找法比对黑名单左起第一个字符和输入字符串左起第一个字符以确定一个子有序数组。

如黑名单为

...“A11？65”、“B1？123”、“B11？23”、“C2？123”...

按递增排序，输入字符串为“B12345”，第一次查找第一个字符小于“B”的最大黑名单即“A11？65”，第二次则查找第一个字符大于“B”的最小黑名单即“C2？123”，两次查找即确定了黑名单中第一个字符为“B”的子数组，且该数组保持了有序状态(递增)，避免了再次排序的时间消耗。

当两次二分查找能得到一个唯一的匹配结果时，即该子有序数组为空、为一个或多个相同黑名单，返回比对结果，否则分两条线向右递归迭代，一是将该字符替换为通配符，再次采用两次二分查找法进行比对，唯一匹配则返回结果，不唯一匹配则向右递归迭代，另一是保留原字符直接向后递归迭代，直至匹配或输入字符串所有字符递归迭代比对完成。第n次迭代比对过程只比对黑名单左起n个字符，通过逐步增加比对特征，逐步减少黑名单规模，高速接近比对结果。最坏情况下迭代次数与前述方法差不多也有

等于126次，但因为每次黑名单规模高速减少，即使是最坏情况比对消耗时间远小于前述方法，且经实验测试，因黑名单设置的规律性和有限性(即便达到百万条黑名单，占可能的组合比仍然不过百万分之一)，一个通配符多数情况下迭代次数8次以下即可比对命中或排除，极大地提高了黑名单匹配效率。多通配符下，迭代次数也仅在(n+1)的3次方(n为通配符数)，比如有3个通配符时，为64次，比原方法在一个通配符下迭代次数还少，更不用说因为每次迭代黑名单规模减少而提高的效率。

所述的快二分查找法充分利用了元素间的次序关系，采用分治策略，算法复杂度是O(log n)，即在最坏的情况下用O(log n)次比较完成搜索任务。它的基本思想是，将n个元素分成个数大致相同的两半，取a[n/2]与欲查找的x作比较，如果x＝a[n/2]则找到x，算法终止。采用其他快速查找方法也可行。

综上，本方法对含通配符的黑名单匹配，即使是理论上最坏的情况，也比传统方法的效率有极大提高。在实际应用环境中，因为黑名单的规律性和有限性，比对效率则更高，在百万条黑名单条件下，含通配符比对与不含通配符黑名单比对效率在一个数量级内(即毫秒级内)。

Claims

1.一种对海量含通配符黑名单高速匹配的方法，其特征是：用快速排序法对海量含通配符的黑名单进行排序，形成有序数组；然后对输入的比对字符串，根据第一个字符，采用两次二分查找法比对黑名单第一个字符确定一个子有序数组；当所述子有序数组为空、为一个或多个相同黑名单时，返回匹配结果，否则分两条线向后递归迭代：一是将当前字符替换为通配符向后递归迭代，另一是保留原字符向后递归迭代；直至返回匹配结果或输入字符串所有字符递归迭代完成。

2.如权利要求1所述对海量含通配符黑名单高速匹配的方法，其特征是所述通配符是以一个指定符号或词组匹配零个、一个或多个字符。

3.如权利要求1、2所述对海量含通配符黑名单高速匹配的方法，其特征是所述通配符包括“*”和“？”，“*”可以匹配任何字符序列，包括无字符的情况；“？”可以匹配任何单个字符。

4.如权利要求1所述对海量含通配符黑名单高速匹配的方法，其特征是所述快速排序法采用通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据小，然后分别对两部分数据递归的进行快速排序，最后达到整个数据变成有序序列。