CN108304469B

CN108304469B - 用于字符串模糊匹配的方法和装置

Info

Publication number: CN108304469B
Application number: CN201711441987.0A
Authority: CN
Inventors: 吴文昊; 吕伊蒙; 冯哲
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-12-07
Anticipated expiration: 2037-12-27
Also published as: CN108304469A

Abstract

本发明涉及数据处理技术，特别涉及用于用于字符串模糊匹配的方法、实施该方法的装置以及包含实施该方法的计算机程序的计算机可读存储介质。按照本发明一个方面的用于字符串模糊匹配的方法包含下列步骤：构建关于多个业务规则参数的哈希表，其中，所述业务规则参数以字符串的形式表示；确定用于表示业务规则参数的字符串的各个字符的匹配规则；以及在所述哈希表中遍历查找表示待匹配业务类型的字符串并且基于所述匹配规则获得待匹配业务类型的匹配结果。

Description

用于字符串模糊匹配的方法和装置

技术领域

本发明涉及数据处理技术，特别涉及用于用于字符串模糊匹配的方法、实施该方法的装置以及包含实施该方法的计算机程序的计算机可读存储介质。

背景技术

目前，随着支付行业的蓬勃发展，金融系统中无论是实时处理系统或是批量处理系统面对的数据压力越来越大。随着客户需求的多样化与复杂化，绝大数系统都会采用参数化的方式进行一些业务规则的配置，从而提供高可用的匹配规则，满足业务方的需求。

字符串的模糊匹配在相关规则中起着无可替代作用。现有的模糊字符串匹配算法包括传统的基于单个字符串的比较算法和基础哈希匹配算法。在基于单个字符串的比较算法中，需要考虑规则中哪些位置上的字符可能为通配符而需要作特殊处理，这增加了处理的复杂性；此外，基于单个字符串的比较算法性能较差，无法支持较为灵活的模块规则。在基础哈希匹配算法中，哈希表的设置较为复杂，对于冲突的处理也不够充分，并且存在很大的回溯可能性；此外，基础哈希匹配算法需要辅助空间进行匹配，这增加了系统开销。

有鉴于此，迫切需要一种用于字符串模糊匹配的方法和装置能够克服现有技术的各种缺点。

发明内容

本发明的一个目的是提供一种用于字符串模糊匹配的方法和装置，其具有处理效率高和无需回溯等优点。

按照本发明一个方面的用于字符串模糊匹配的方法包含下列步骤：

构建关于多个业务规则参数的哈希表，其中，所述业务规则参数以字符串的形式表示；

确定用于表示业务规则参数的字符串的各个字符的匹配规则；以及

在所述哈希表中遍历查找表示待匹配业务类型的字符串并且基于所述匹配规则获得待匹配业务类型的匹配结果。

优选地，在上述方法中，按照下列方式构建哈希表：

读取业务规则参数表，其中业务规则参数以行的顺序放置；

构建多个层级的结构体，每个所述结构体包含多个可放置字符的位置，每个所述位置包含指向下一个需要遍历的结构体的指针；以及

按照下列方式填充结构体：

将业务参数表第n列的字符放入第n层级的结构体中的其中一个，使得业务参数表第n列中的、对应于业务参数表第n-1列中同一字符的字符位于第n层级的结构体中的同一个结构体，并且使放置业务参数表第n-1列中的同一字符的位置的指针指向该同一个结构体。

优选地，在上述方法中，所述存储区域为内存，所述将业务规则参数以哈希散列的形式放入存储区域的步骤进一步包括：

对所述哈希表进行压缩。

优选地，在上述方法中，按照下列方式确定用于表示业务规则参数的字符串的各个字符的匹配规则：

对于业务规则参数的字符串的每个字符，当待匹配业务类型的字符串中的字符与其匹配时，将被赋予相应的匹配TAG分数值。

对于业务规则参数的字符串的每个字符，当待匹配业务类型的字符串中的字符与其不匹配时，将被作负无穷化处理或从匹配队列中丢弃。

优选地，在上述方法中，业务规则参数的字符包括普通字符和特殊字符，并且普通字符和特殊字符被赋予不同的匹配TAG分数值。

优选地，在上述方法中，普通字符和特殊字符的匹配TAG分数值满足下列条件：

((SCORE_MATCH-SCORE_WILDCARD)*(N-1)<SCORE_WILDCARD)这里SCORE_MATCH为普通字符的匹配分数，SCORE_WILDCARD为特殊字符的匹配分数，N为用于表示业务规则参数的字符串的长度。

优选地，在上述方法中，按照下列方式获得待匹配业务类型的匹配结果：

初始化一个队列，其每个队列元素本身是一个子队列；

使每一个子队列包含待匹配业务类型的字符串的每个字符的匹配结果序列；

使每个子字队列的元素得分是前面所有路径匹配的得分总和；

记录每个子队列的元素得分和前一个匹配的位置；以及

如果初始队列的长度小于业务规则参数的字符串的长度，则返回为空的结果，如果初始队列的长度等于业务规则参数的字符串的长度，则返回匹配的业务规则参数。

按照本发明另一个方面的用于字符串模糊匹配的装置包含：

第一模块，用于构建关于多个业务规则参数的哈希表，其中，所述业务规则参数以字符串的形式表示；

第二模块，用于确定用于表示业务规则参数的字符串的各个字符的匹配规则；以及

第三模块，用于在所述哈希表中遍历查找表示待匹配业务类型的字符串并且基于所述匹配规则获得待匹配业务类型的匹配结果。

按照本发明另一个方面的用于字符串模糊匹配的装置包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序以执行如上所述的方法。

本发明的还有一个目的是提供一种计算机可读存储介质，其上存储计算机程序，该程序被处理器执行时实现如上所述的方法。

附图说明

本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解，附图中相同或相似的单元采用相同的标号表示。附图包括：

图1为按照本发明一个实施例的用于字符串模糊匹配的方法的流程图。

图2为可应用于图1所示方法流程的哈希表构建过程的示意图。

图3为可应用于图1所示方法的构建哈希表方法的流程图。

图4示出了一个示例性的匹配结果队列。

图5为按照本发明另一个实施例的用于识别异常交易行为的装置的框图。

图6为按照本发明另一个实施例的用于识别异常交易行为的装置的框图。

具体实施方式

下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现，而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整，以将本发明的保护范围更为全面地传达给本领域技术人员。

在本说明书中，诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

图1为按照本发明一个实施例的用于字符串模糊匹配的方法的流程图。优选地但非必须地，图1所示的方法可在云端服务器或后台交易处理系统处执行。

如图1所示，在步骤110中，构建关于多个业务规则参数的哈希表。在本实施例中，业务规则参数以字符串的形式表示，其中每个字符可用于表示特定的业务特征。在本实施例中，业务规则参数可按照数据库中的一张或者多张表的形式存储，或者也可以存储为相关的参数配置文件。图2的上半部分示出了业务规则参数表的一个示例，在表中业务规则参数以行的顺序放置。但是可以理解的是，业务规则参数也可以列的顺序放置。

随后进入步骤120，确定用于表示业务规则参数的字符串的各个字符的匹配规则。

最后进入步骤130，在步骤110构建的哈希表中遍历查找表示待匹配业务类型的字符串并且基于步骤120中确定的匹配规则得到待匹配业务类型的匹配结果。

以下详细描述构建哈希表的一个示例性方式。

图3为可应用于图1所示方法的构建哈希表方法的流程图。

如图3所示，在步骤310，读取例如图2所示的业务规则参数表。

随后在步骤320，构建多个层级的结构体，每个结构体包含多个可放置字符的位置，每个位置包含指向下一个结构体的指针。以图2所示的情形为例(参见图2的下半部分)，结构体从左至右被划分为第一至第四层级，每个层级包含一个或多个结构体。这里所述的结构体可以看作一个数组，该数组的每个位置(其对应于诸如内存之类的存储区域的一个存储位置)可放置属于预先确定的字符集的其中一个字符并且包含一个指向下一个需要遍历的结构体的指针。示例性地，该字符集可以由数字、字母和通配符(例如“*”)等构成。

随后进入步骤330，将业务规则参数按照哈希散列的方式填充结构体以完成哈希表的构建。例如可以按照下列规则执行填充操作：

再次以图2所示的情形为例，对于业务规则参数表中的第一列中的字符“E”，第二列与其对应的位置上出现了字符“D”和“2”，因此字符“D”和“2”被放置在第二层级中的同一个结构体(图2中位于第二层级上部的结构体)内，并且第一层级的结构体中存储字符“E”的位置的指针也指向该结构体；接着，业务规则参数表的第三列中与字符“D”对应的位置上出现了字符“E”，因此第二层级的结构体中存储字符“D”的位置的指针指向第三层级中存储字符“E”的结构体；随后，业务规则参数表的第四列中与字符“E”对应的位置上出现了字符“*”，因此第三层级的结构体中存储字符“E”的位置的指针指向第四层级中存储字符“*”的结构体。对于业务规则参数表中的其它字符，也采用类似的放置规则，由此构建出如图2所示的哈希表。

接着进入步骤340，对内存中存储的哈希表进行压缩以避免稀疏矩阵的出现。需要指出是，步骤340是可选地而非必需的步骤。

以下描述用于表示业务规则参数的字符串的各个字符的匹配规则的一个示例。在该示例中，字符包括普通字符(例如字母和数字)和特殊字符(例如通配符“*”)。

1.匹配TAG分数值

对于业务规则参数中的普通字符和特殊字符，当待匹配业务类型的字符串中的字符与其匹配时，将被赋予相应的匹配TAG分数值。在本示例中，优选地，可根据业务规则参数的字符串长度为各个普通字符和特殊字符赋予不同的匹配TAG分数值。更好地，普通字符和特殊字符的匹配TAG分数值满足下列条件：

((SCORE_MATCH-SCORE_WILDCARD)*(N-1)<SCORE_WILDCARD)这里SCORE_MATCH为普通字符的匹配分数值，SCORE_WILDCARD为特殊字符的匹配分数值，N为用于表示业务规则参数的字符串的长度。

2.非匹配TAG分数值

对于业务规则参数中的普通字符和特殊字符，当待匹配业务类型的字符串中的字符与其不匹配时，可采用两种赋值方式，其中一种方式是直接将该字符的TAG分数值作负无穷化处理，另一种方式是将该字符从匹配队列中丢弃。

在图1所示的方法流程的步骤130中，在所构建的哈希表中遍历查找表示待匹配业务类型的字符串并且基于匹配规则得到待匹配业务类型的匹配结果。特别是，可以根据匹配规则对待匹配的业务类型的字符串进行动态打分，从而得到最好的匹配结果。

以下对此作进一步的描述。

步骤S1：初始化一个队列，其每个队列元素本身又是一个子队列。

步骤S2：使每一个子队列包含待匹配业务类型的字符串的每个字符的匹配结果序列。

步骤S3：使每个子字队列的元素得分是前面所有路径匹配的得分总和。

步骤S4：记录每个子队列的元素得分和前一个匹配的位置，因而在得到结果时可以根据位置信息进行全路径的输出，而不需要进行倒叙的查找，从而节省遍历时间，提高数据结果的性能。

步骤S5：如果匹配结果队列的长度小于业务规则参数的字符串的长度，则表明不存在完全匹配的业务规则参数，此时返回为空的结果；如果匹配结果队列的长度等于业务规则参数的字符串的长度，则表明存在完全匹配的业务规则参数。在这种情况下，如果子队列的长度大于1，表明有多个业务规则参数匹配成功，则可返回其中一个匹配的业务规则参数。图4示出了一个示例性的匹配结果队列。

图5所示的装置50包含存储器510、处理器520以及存储在存储器510上并可在处理器520上运行的计算机程序530，其中，计算机程序530通过在处理器520上运行以可执行如上借助图1-3所述实施例的方法。

图6所示的装置60包含第一模块610、第二模块620和第三模块630，其中，第一模块610用于构建关于多个业务规则参数的哈希表，其中，所述业务规则参数以字符串的形式表示，第二模块620用于确定用于表示业务规则参数的字符串的各个字符的匹配规则，第三模块630用于在所述哈希表中遍历查找表示待匹配业务类型的字符串并且基于所述匹配规则获得待匹配业务类型的匹配结果。

按照本发明的一个方面，提供一种计算机可读存储介质，其上存储计算机程序，该程序被处理器执行时实现借助图1-3所述实施例的方法。

与现有技术相比，本发明的上述实施例具有下列优点：

1)具有高效的性能，时间复杂度接近O(n)。

2)存储空间接近于n*m(n和m分别的为业务规则参数表的行数和列数，并且可以选择是否进行存储压缩。

3)除了正常的字符串匹配外还支持模糊匹配，而且自适应长度变化。

4)基于TAG的无回溯算法以打分的方式进行最优路径探索，避免了传统匹配算法的回溯。

5)在匹配后不再需要缓存作为先行过滤条件。

6)可以多个线程或者进程同时共享一份实例。

7)具有广泛的适用性，可推广至各式各样的业务。

提供本文中提出的实施例和示例，以便最好地说明按照本技术及其特定应用的实施例，并且由此使本领域的技术人员能够实施和使用本发明。但是，本领域的技术人员将会知道，仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。

鉴于以上所述，本公开的范围通过以下权利要求书来确定。

Claims

1.一种用于字符串模糊匹配的方法，其特征在于，包含下列步骤：

在所述哈希表中遍历查找表示待匹配业务类型的字符串并且基于所述匹配规则获得待匹配业务类型的匹配结果，

其中，按照下列方式获得待匹配业务类型的匹配结果：

初始化一个队列，其每个队列元素本身是一个子队列；

记录每个子队列的元素得分和前一个匹配的位置；以及

如果匹配结果队列的长度小于业务规则参数的字符串的长度，则返回为空的结果，如果匹配结果队列的长度等于业务规则参数的字符串的长度，则返回匹配的业务规则参数。

2.如权利要求1所述的方法，其中，按照下列方式构建哈希表：

读取业务规则参数表，其中业务规则参数以行的顺序放置；

按照下列方式填充结构体：

3.如权利要求2所述的方法，其中，构建关于多个业务规则参数的哈希表的步骤进一步包括：

对所述哈希表进行压缩。

4.如权利要求2所述的方法，其中，按照下列方式确定用于表示业务规则参数的字符串的各个字符的匹配规则：

5.如权利要求2所述的方法，其中，按照下列方式确定用于表示业务规则参数的字符串的各个字符的匹配规则：

6.如权利要求4所述的方法，其中，业务规则参数的字符包括普通字符和特殊字符，并且普通字符和特殊字符被赋予不同的匹配TAG分数值。

7.如权利要求5所述的方法，其中，普通字符和特殊字符的匹配TAG分数值满足下列条件：

8.一种用于字符串模糊匹配的方法的装置，包含：

第三模块，用于在所述哈希表中遍历查找表示待匹配业务类型的字符串并且基于所述匹配规则获得待匹配业务类型的匹配结果，

其中，所述第三模块按照下列方式获得待匹配业务类型的匹配结果：

初始化一个队列，其每个队列元素本身是一个子队列；

记录每个子队列的元素得分和前一个匹配的位置；以及

9.一种用于字符串模糊匹配的方法的装置，包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任意一项所述的方法。