CN107229759A

CN107229759A - 一种字符串模式匹配的方法

Info

Publication number: CN107229759A
Application number: CN201710622746.XA
Authority: CN
Inventors: 周聪伟
Original assignee: Shenzhen Happy Technology Co Ltd
Current assignee: Shenzhen Happy Technology Co Ltd
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2017-10-03
Anticipated expiration: 2037-07-27
Also published as: CN107229759B

Abstract

本发明公开了一种字符串模式匹配的方法，在检索模式串过程中，坏字符移动规则取得M1，与尾字符移动规则取得M2，M1与M2的最大值即为模式串可移动的最大距离，相比于传统的KMP算法、Horspool算法和Boyer‑Moore算法，能够达到更好的移动模式串的效果，且检索手段丰富多变，可以更快速的定位模式串在文本串中出现的位置，具有高效的检索字符串功能，从而提升用户体验。

Description

一种字符串模式匹配的方法

技术领域

本发明涉及字符串检索技术领域，具体为一种字符串模式匹配的方法。

背景技术

字符串检索在现实生活中有广泛的应用。如何高效的从一大段文本中定位到自己想查找的内容是很有必要的。如今也有一些算法，如KMP算法、Horspool算法、Boyer-Moore算法等为大家熟知。而每种算法的时间复杂度根据具体情况的不同而不同，但最终的目的都是用最少的步骤，检索到内容。也就是当每次没有匹配到要检索的字符串时，尽可能忽略更多的字符继续向后检索。

KMP算法是从左到右的匹配过程，在很多情况下不如从右到左的匹配高效。从右到左的匹配过程中有很大的概率第一个字符就不匹配，这时就可以移动模式串长度+1个位置继续匹配。

Boyer-Moore算法的好后缀方法具体实现的时候比较繁琐。

Horspool算法改进了Boyer-Moore算法的坏字符方法，但是比较单一，有时不能达到较好的移动模式串的效果。

发明内容

本发明的目的在于提供一种字符串模式匹配的方法，高效的检索字符串，提升用户体验，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种字符串模式匹配的方法，包括以下步骤：

S1：假设：文本串X为：x₁x₂x₃……x_n，模式串Y为：y₁y₂y₃……y_m，其m、n均为正整数；

S2：分析Y在X中首次出现的位置p，若Y没有出现在X中，则结果p＝0，否则p应该应满足条件：p＞＝1且p＜n-m+1；

S3：由S2得：

S2.1：若n＜m则p＝0；

S2.2：若n＝m，依次比较x_n与y_m，x_n-1与y_m-1…… x₁与y₁，出现有比较不相等，则可停止比较；p＝1当且仅当所有的比较都相等，否则p＝0；

S2.3：若n＞m，假设此时Y与X的子集X’：x_k-m+1x_k-m+2…… x_k对齐，如下：

x₁x₂……x_k-mx_k-m+1x_k-m+2……x_kx_k+1……x_n

y₁ y₂…… y_m

其中k＞＝m且k＜＝n，依次比较x_k与y_m，x_k-1与y_m-1…… x_k-m+1与y₁；

S2.4：由S2.3得：

S2.3.1：若x_k！＝y_m，其x_k与y_m不相等，设Y的子串Y’：y₁y₂…… y_m-1，从右到左查找x_k在Y’中的位置p’，找到后即可停止查询；分为以下分析步骤：

S2.3.1.1：若p’＝0，即x_k不在Y’中，则可使Y右移m个位置，使Y与X的子集X”：x_k+ ₁x_k+2…… x_k+m对齐，如下：

x₁x₂……x_k-1x_kx_k+1x_k+2……x_k+mx_k+m+1……x_n

y₁ y₂…… y_m

若k+m＞n，则p＝0；

若k+m＝n，则依次比较x_n与y_m，x_n-1与y_m-1…… x_k+1与y₁，若有比较不相等，则可停止比较，p＝n-m+1当且仅当所有的比较都相等，否则p＝0；

若k+m＜n，则令X’＝X”，k＝k+m，重复步骤S2.3.1；

S2.3.1.2：若p’！＝0，即x_k在Y中，从y_m-1开始，从右到左查找x_k，找到即可停止查询；设x_k＝＝y_j，j＞＝1且j＜m，此时可右移Y，使得x_k与y_j对齐，如下：

x₁x₂……x_k-j+1x_k-j+2……x_kx_k+1x_k+2……x_k+m-j……x_n

y₁ y₂…… y_jy_j+1y_j+2……y_m

此时可移动Y的位置为m-j个字符，令X’：x_k-j+1x_k-j+2……x_kx_k+1x_k+2……x_k+m-j，k＝k+m-j，重复步骤S2.3.1；

S2.3.2：若X’与Y从右到左比较有i，其i为正整数且i＜＝m个字符相等；

S2.3.2.1：若i＝m，则p＝k-m+1；

S2.3.2.2：若i＜m，即x_1+k-ix_2+k-i…… x_k＝＝y_1+m-i y_2+m-i …… y_m且x_k-i！＝y_m-I，则Y中剩余为比较的字符串为：Y’：y₁y₂……y_m-i-1。；

S2.3.2.2.1：若m-i＝1，则Y’不存在，此时设Y”：y₁ y₂ …… y_m-1，从右到左查找x_k在Y”中的位置；

S2.3.2.2.1.1：如果x_k不在Y”中则可移动Y串m个字符的位置，使得y₁与x_k+1对齐，结果如下：

x₁x₂……x_kx_k+1x_k+2……x_k+m-1……x_n

y₁ y₂…… y_m

若k+m-1＞n，则p＝0，否则令X’：x_kx_k+1x_k+2……x_k+m-1，k＝k+m-1，重复步骤S2.3.1：

S2.3.2.2.1.2：如果x_k在Y”中，在Y”中从右到左查询x_k，找到即停止查寻，假设x_k＝y_j，则可向右移动Y串m-j个字符的位置，使得y_j与x_k对齐，如下：

x₁x₂……x_k-j+1x_k-j+2……x_kx_k+1……x_k+m-j……x_n

y₁ y₂…… y_jy_j+1……y_m

若k+m-j＞n，则p＝0，否则令X’：x_k-j+1x_k-j+2……x_kx_k+1……x_k+m-j，k＝k+m-j，重复步骤S2.3.1；

S2.3.2.2.2：若m-i＞1，则Y’存在，令Y”：y₁y₂……y_m-i-1；

S2.3.2.2.2.1：首先从右到左查找x_k-i在Y”中的位置，找到即停止查询；若x_k-i不在Y”中，则Y可向右移动的距离为M1＝m-i+1，使得y₁与x_k-i+1对齐，如下：

x₁x₂……x_k-i-1x_k-i+1x_k-i+2……x_k-1x_kx_k+1……x_k+m-i……x_n-1x_n

y₁ y₂…… y_i-1y_iy_i+1……y_m

若在Y”找到y_j，其j＞＝1且j＜＝m-i-1，使得x_k-i＝y_j，则Y可向右移动的距离为M1＝m-i-j，使得x_k-i与y_j对齐，如下：

x₁x₂……x_k-i-j+1x_k-i-j+2……x_k-i-1x_k-ix_k-i+1……x_k-i-j+mx_k-i-j+m+1……x_n

y₁ y₂…… y_j-1 y_j y_j+1…… y_m

S2.3.2.2.2.2：其次从右到左查找x_k在Y”’：y₁ y₂……y_m-1中的位置，找到即停止查询；同从右到左查找x_k-i在Y”中的位置一样，此时设Y可向右移动的距离为M2，取M＝MAX(M1，M2)，即为Y可向右移动的距离；

若k+M＞n，则p＝0，否则向右移动Y M个字符的距离，即有如下对齐方式：

x₁x₂……x_k+M-mx_k+M-m+1x_k+M-m+2……x_k+Mx_k+M+1……x_n

y₁ y₂…… y_m

令X’：x_k+M-m+1x_k+M-m+2……x_k+M，k＝k+M，重复执行步骤S2.3.1。

优选的，所述方法用于检索模式串首次出现在文本串中的位置，其与文本串中检索出所有模式串的方法一样。

优选的，所述步骤S2.3.2.2.2.2中，M1为坏字符移动规则取得，M2为尾字符移动规则取得，M1与M2的最大值即为模式串可移动的最大距离。

与现有技术相比，本发明的有益效果是：

本字符串模式匹配的方法，相比于传统的KMP算法、Horspool算法和Boyer-Moore算法，能够更快速的定位模式串在文本串中出现的位置，具有高效的检索字符串功能，从而提升用户体验。

附图说明

图1为本发明整体结构流程图；

图2为本发明A部放大图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明实施例中：一种字符串模式匹配的方法，该方法只检索模式串首次出现在文本串中的位置，要从文本串中检索出所有的模式串，方法一样；完整的方案如下：

第一步：假设：文本串X为：x₁x₂x₃……x_n，模式串Y为：y₁y₂y₃……y_m，其m、n均为正整数；

第二步：分析Y在X中首次出现的位置p，若Y没有出现在X中，则结果p＝0，否则p应该应满足条件：p＞＝1且p＜n-m+1；

第三步：由第二步得：

(2.1)：若n＜m则p＝0；

(2.2)：若n＝m，依次比较x_n与y_m，x_n-1与y_m-1…… x₁与y₁，出现有比较不相等，则可停止比较；p＝1当且仅当所有的比较都相等，否则p＝0；

(2.3)：若n＞m，假设此时Y与X的子集X’：x_k-m+1x_k-m+2…… x_k对齐，如下：

x₁x₂……x_k-mx_k-m十1x_k-m+2……x_kx_k+1……x_n

y₁ y₂…… y_m

其中k＞＝m且k＜＝n，依次比较x_k与y_m，x_k-1与y_m-1……x_k-m+1与y₁；

(2.4)：由(2.3)得：

(2.3.1)：若x_k！＝y_m，其x_k与y_m不相等，设Y的子串Y’：y₁y₂…… y_m-1，从右到左查找x_k在Y’中的位置p’，找到后即可停止查询；分为以下分析步骤：

第一步：若p’＝0，即x_k不在Y’中，则可使Y右移m个位置，使Y与X的子集X”：x_k+ ₁x_k+2…… x_k+m对齐，如下：

x₁x2……x_k-1x_kx_k+1x_k+2……x_k+mx_k+m+1……x_n

y₁ y₂…… y_m

若k+m＞n，则p＝0；

若k+m＜n，则令X’＝X”，k＝k+m，重复步骤(2.3.1)；

第二步：若p’！＝0，即x_k在Y中，从y_m-1开始，从右到左查找x_k，找到即可停止查询；设x_k＝＝y_j，j＞＝1且j＜m，此时可右移Y，使得x_k与y_j对齐，如下：

x₁x₂……x_k-j+1x_k-j+2……x_kx_k+1x_k+2……x_k+m-j……x_n

y₁ y₂…… y_jy_j+1y_j+2……y_m

(2.3.2)：若X’与Y从右到左比较有i，其i为正整数且i＜＝m个字符相等；

若i＝m，则p＝k-m+1；

若i＜m，即x_1+k-ix_2+k-i…… x_k＝＝y_1+m-i y_2+m-i …… y_m且x_k-i！＝y_m-I，则Y中剩余为比较的字符串为：Y’：y₁y₂…… y_m-i-1。；分为以下分析步骤：

第一步：若m-i＝1，则Y’不存在，此时设Y”：y₁ y₂ …… y_m-1，从右到左查找x_k在Y”中的位置；

如果x_k不在Y”中则可移动Y串m个字符的位置，使得y₁与x_k+1对齐，结果如下：

x₁x₂……x_kx_k+1x_k+2……x_k+m-1……x_n

y₁ y₂…… y_m

如果x_k在Y”中，在Y”中从右到左查询x_k，找到即停止查寻，假设x_k＝y_j，则可向右移动Y串m-j个字符的位置，使得y_j与x_k对齐，如下：

x₁x₂……x_k-j+1x_k-j+2……x_kx_k+1……x_k+m-j……x_n

y₁ y₂…… y_jy_j+i……y_m

第二步：若m-i＞1，则Y’存在，令Y”：y₁y₂ …… y_m-i-1；

首先从右到左查找x_k-i在Y”中的位置，找到即停止查询；若x_k-i不在Y”中，则Y可向右移动的距离为M1＝m-i+1，使得y₁与x_k-i+1对齐，如下：

y₁ y₂…… y_i-1y_iy_i+1……y_m

y₁ y₂…… y_j-1 y_j y_j+i…… y_m

其次从右到左查找x_k在Y”’：y₁y₂……y_m-1中的位置，找到即停止查询；同从右到左查找x_k-i在Y”中的位置一样，此时设Y可向右移动的距离为M2，取M＝MAX(M1，M2)，即为Y可向右移动的距离；M1为坏字符移动规则取得，M2为尾字符移动规则取得，M1与M2的最大值即为模式串可移动的最大距离；

x₁x₂……x_k+M-mx_k+M-m+1x_k+M-m+2……x_k+Mx_k+M+1……x_n

y₁ y₂…… y_m

令X’：x_k+M-m+1x_k+M-m+2……x_k+M，k＝k+M，重复执行步骤(2.3.1)。

由上述步骤可得，本发明的字符串模式匹配的方法，相比于传统的KMP算法、Horspool算法和Boyer-Moore算法，能够更快速的定位模式串在文本串中出现的位置，具有高效的检索字符串功能，从而提升用户体验。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种字符串模式匹配的方法，其特征在于，包括以下步骤：

S3：由S2得：

S2.1：若n＜m则p＝0；

S2.2：若n＝m，依次比较x_n与y_m，x_n-1与y_m-1……x₁与y₁，出现有比较不相等，则可停止比较；p＝1当且仅当所有的比较都相等，否则p＝0；

S2.3：若n＞m，假设此时Y与X的子集X’：x_k-m+1x_k-m+2……x_k对齐，如下：

x₁x₂……x_k-mx_k-m+1x_k-m+2……x_kx_k+1……x_n

y₁ y₂…… y_m

S2.4：由S2.3得：

S2.3.1：若x_k！＝y_m，其x_k与y_m不相等，设Y的子串Y’：y₁y₂……y_m-1，从右到左查找x_k在Y’中的位置p’，找到后即可停止查询；分为以下分析步骤：

S2.3.1.1：若p’＝0，即x_k不在Y’中，则可使Y右移m个位置，使Y与X的子集X”：x_k+1x_k+2……x_k+m对齐，如下：

x₁x₂……x_k-1x_kx_k+1x_k+2……x_k+mx_k+m+1……x_n

y₁ y₂…… y_m

若k+m＞n，则p＝0；

若k+m＝n，则依次比较x_n与y_m，x_n-1与y_m-1……x_k+1与y₁，若有比较不相等，则可停止比较，p＝n-m+1当且仅当所有的比较都相等，否则p＝0；

若k+m＜n，则令X’＝X”，k＝k+m，重复步骤S2.3.1；

x₁x₂……x_k-j+1x_k-j+2……x_kx_k+1x_k+2……x_k+m-j……x_n

y₁ y₂…… y_jy_j+1y_j+2……y_m

S2.3.2.1：若i＝m，则p＝k-m+1；

S2.3.2.2：若i＜m，即x_1+k-ix_2+k-i……x_k＝＝y_1+m-i y_2+m-i……y_m且x_k-i！＝y_m-I，则Y中剩余为比较的字符串为：Y’：y₁y₂……y_m-i-1。；

S2.3.2.2.1：若m-i＝1，则Y’不存在，此时设Y”：y₁y₂……y_m-1，从右到左查找x_k在Y”中的位置；

x₁x₂……x_kx_k+1x_k+2……x_k+m-1……X_n

y₁ y₂…… y_m

若k+m-1＞n，则p＝0，否则令X’：x_kx_k+1x_k+2……x_k+m-1，k＝k+m-1，重复步骤S2.3.1；

x₁X₂……x_k-j+1x_k-j+2……x_kx_k+1……x_k+m-j……x_n

y₁ y₂…… y_jy_j+1……y_m

S2.3.2.2.2：若m-i＞1，则Y’存在，令Y”：y₁y₂……y_m-i-1；

y₁ y₂…… y_i-1y_iy_i+1……y_m

y₁ y₂…… y_j-1 y_j y_j+1…… y_m

x₁x₂……x_k+M-mx_k+M-m+1x_k+M-m+2……x_k+Mx_k+M+1……x_n

y₁ y₂…… y_m

令X’：x_k+M-m+1x_k+M-m+2……x_k+M，k＝k+M，重复执行步骤S2.3.1。

2.根据权利要求1所述的一种字符串模式匹配的方法，其特征在于，所述方法用于检索模式串首次出现在文本串中的位置，其与文本串中检索出所有模式串的方法一样。

3.根据权利要求1所述的一种字符串模式匹配的方法，其特征在于，所述步骤S2.3.2.2.2.2中，M1为坏字符移动规则取得，M2为尾字符移动规则取得，M1与M2的最大值即为模式串可移动的最大距离。