CN103425739B

CN103425739B - 一种字符串匹配方法

Info

Publication number: CN103425739B
Application number: CN201310287683.9A
Authority: CN
Inventors: 韩飞; 杨松; 莫展鹏; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2016-09-14
Anticipated expiration: 2033-07-09
Also published as: EP2860645A1; EP2860645A4; WO2015003421A1; US20160224552A1; CN103425739A

Abstract

本发明涉及信息处理技术领域，尤其是一种快速字符串匹配方法。本发明首先对目标字符串进行预先处理，得到其各个字符的一个简单哈希表；当匹配到首个字符后即进行匹配目标字符串的最后一个字符。本发明可以有效提升匹配效果，避免重复匹配效率低下等问题；可以应用于文本编辑器、搜索引擎、全文检索系统等需要用到快速字符串搜索的领域。

Description

一种字符串匹配方法

技术领域

本发明涉及信息处理技术领域，尤其是一种一种快速字符串匹配方法。

背景技术

在文本编辑器、搜索引擎、数据处理、通信系统等应用中，经常需要在一大段源字符串之中对一个目标字符串进行快速的搜索定位和统计。假设源字符串长度为m，目标字符串长度为n。对于朴素字符串匹配算法而言，比如C标准库函数strstr()所使用的算法；这种算法依次序从头到尾对字符串进行匹配，存在大量的对目标字符串字符的重复匹配，效率低下，最坏情况下的时间复杂度是O(m*n)。对于KMP等改进的匹配算法，其降低了对目标字符串字符的重复匹配，相对朴素算法而言提高了效率，但是仍然存在对整个m长度源字符串的匹配，效率有待进一步提升。

发明内容

本发明解决的技术问题在于提供一种快速的字符串匹配方法；可以有效提升对目标字符串匹配、搜索的效率。

本发明解决上述技术问题的技术方案是：

包括如下步骤，

步骤1：对目标字符串进行预先处理，得到其各个字符的一个简单哈希表，使确定任意一个字符是否从属于目标字符串的时间复杂度为1；

步骤2：开始匹配，查找源字符串中与目标字符串第一个字符匹配的首个字符，如果搜索到源字符串末尾，结束搜索；

步骤3：如匹配到目标字符串的第一个字符，跳转到步骤5；

步骤4：如果不匹配，把源字符的字符指针移向下一个字符，继续步骤2；

步骤5：检查源字符串中以匹配的首个字符为开头的目标字符串长度的最后一个字符是否属于目标字符串中的一个，如果是，则到步骤6，否则到步骤8；

步骤6：检查目标字符串是否全部或部分位于由匹配字符开始到目标字符串长度后范围内的字符串之内并且整个字符串得到匹配，如果匹配，到步骤7，否到步骤8；

步骤7：字符指针从新匹配的首个字符位置处再向后偏移目标字符串长度的偏移量，回到步骤2；

步骤8：字符指针从原来匹配的首个字符位置处再向后偏移目标字符串长度的偏移量，回到步骤2。

本发明的工作原理基于实际应用中的一种高概率的事件，源字符指代要被检索的字符串，目标字符指代要被匹配的字符串：

1、字符串中的字符不是随机字符。

2、因为不是随机字符，也就是字符之间尤其是相邻字符之间是有某种相关关系的。例如，非元音字母旁边出现元音字母的概率就要比非元音字母高，‘我’字旁边出现‘的’字的概率就要远高于‘地’字。相互靠得更近的两个或多个字符，如果匹配了其中一部分，那么其旁边的字符匹配的概率相对更远距离的字符也越高。这个事实等价于距离已匹配部分的字符越远的字符不匹配的概率相对更高。

3、即便是对于完全随机的字符串来说，任意一个字符是欲搜索字符串的一部分的概率也要远低于不是其一部分的概率。如果把这个位于最后的字符属于目标字符串中的一个视为匹配，则如果匹配了目标字符串首个字符但是最后一个字符不匹配(由上面论述可知不匹配的概率要高于匹配)，则马上可以肯定从首个到最后一个字符之间的这段字符不用比较就可以确定是不匹配的，从而可以直接忽略这部分字符，直接跳到最后一个字符之后的一个字符，继续剩下的匹配运算。

4、在源字符串中，不匹配的字符串远多于匹配的字符串，因此提高查找不匹配字符串的效率相对提高查找匹配字符串效率有更积极的意义。

5、本算法基于以上这些实际应用中的情况，通过比对最后一个字符，提高匹配“不匹配”字符串的效率从而得到更高的匹配“匹配”字符串的效率。与以上所述条件愈匹配，则效能越高。

6、即便在随机字符的模式匹配中，本算法相对朴素算法也具有效率上的优势。

经测试，本发明所述算法相对朴素字符串匹配算法平均有不低于20％的时间效率优势，可以有效提高字符串匹配的效率。

附图说明

下面结合附图对本发明进一步说明：

图1是本发明的算法流程图；

图2是本发明匹配示例框图。

具体实施方式

如图1所示，本发明以target指代目标字符串，text指代源字符串，pos为源字符串的位置指针，found为匹配到的数目；假设字符为ASCII编码；示例代码以C语言代码给出。

首先，对目标字符串进行预处理，生成一个用于快速检索的简单哈希表，使确定任意一个字符是否从属于目标字符串的时间复杂度为1。

具体程序如下：

然后，对text进行以target为目标的检索，进行如下步骤：

步骤2：查找匹配的首个字符，如果搜索到源字符串末尾，结束搜索；

步骤3：如匹配到目标字符串的第一个字符，跳转到步骤5；

步骤5：检查源字符串中以匹配的首个字符为开头的最后一个字符是否属于目的字符串中的一个，如果是，则到步骤6，否则到步骤8；

具体程序如下：

如图2所示，是本发明匹配字符串的具体示例；其中，目标字符串：HANDLER，源字符串：HEAD AND SHOULDERS。具体匹配如下：

1、如图2a，匹配首个字符，皆为‘H’，匹配成功，如果不匹配，则把源字符串的字符指针后移一个位置；

2、如图2b，匹配最后一个字符，字符‘N’从属于于目标字符串，匹配成功；

3、如图2c，根据匹配的最后一个字符在目标字符串中的位置，移动字符指针；

4、如图2d，把字符指针移动到和目标字符串首个字符‘H’对应的位置处，发现源字符串该位置处是空格，和目标字符串字符‘H’不对应，匹配失败；尝试匹配目标字符串的另外一个‘N’，发现不存在，则此次匹配彻底失败。将字符指针从源字符串中的‘H’处向后移动目标字符串长度的距离，即移动7个位置。

5、然后回到步骤1，继续下一轮匹配。

因此，不论最终能否完整匹配到整个目标字符串，都将最少略过对目标字符串长度的字符的匹配，从而提高效率。

本发明所说明的字符串搜索算法比朴素字符串搜索算法等常规搜索算法的效率要高，可以加快字符串匹配的速度。在简单测试中，对一段包含程序源代码的文本进行指定的字符串检索，得结果如下(Pentium(R)Dual-Core CPUE58003.20GHz，4G，无编译优化)：

＞＞./search list./stringsrc

search text is[list]

strstr()found 42 in 0 sec 350 usec

fastsearch()found 42in 0 sec 267 usec，make 0 step

对存在的字符串的搜索中，本发明的算法时间效率比朴素字符串搜索算法高24％。

＞＞./search vector./stringsrc

search text is[vector]

strstr()found 0 in 0 sec 335 usec

fastsearch()found 0 in 0 sec 261 usec，make 0 step

对不存在的字符串的搜索中，本发明的算法时间效率比朴素字符串搜索算法高22％。

＞＞./search ffffffffffffffffffffffffffff./stringsrc

search text is[ffffffffffffffffffffffffffff]

strstr()found 0 in 0 sec 919 usec

fastsearch()found 0 in 0 sec 467 usec，make 0 step

对某些特殊字符串的搜索的时间效率则要高得多，如上面示例则有接近50％的提升。

Claims

1.一种字符串匹配方法，其特征在于：包括如下步骤，

步骤3：如匹配到目标字符串的第一个字符，跳转到步骤5；