CN105183788A - 一种基于关键词字典树检索的中文ac自动机工作方法 - Google Patents

一种基于关键词字典树检索的中文ac自动机工作方法 Download PDF

Info

Publication number
CN105183788A
CN105183788A CN201510515483.3A CN201510515483A CN105183788A CN 105183788 A CN105183788 A CN 105183788A CN 201510515483 A CN201510515483 A CN 201510515483A CN 105183788 A CN105183788 A CN 105183788A
Authority
CN
China
Prior art keywords
pointer
article
retrieval
current
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510515483.3A
Other languages
English (en)
Other versions
CN105183788B (zh
Inventor
司冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Timely News Network Information Technology (beijing) Co Ltd
Original Assignee
Timely News Network Information Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Timely News Network Information Technology (beijing) Co Ltd filed Critical Timely News Network Information Technology (beijing) Co Ltd
Priority to CN201510515483.3A priority Critical patent/CN105183788B/zh
Publication of CN105183788A publication Critical patent/CN105183788A/zh
Application granted granted Critical
Publication of CN105183788B publication Critical patent/CN105183788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关键词字典树检索的中文AC自动机工作方法,包括:获取所有关键词,并根据所有关键词建立关键词字典树;在关键词字典树中建立并初始化检索指针;获取待检测文章,将文章编码,建立并初始化文章指针;判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针;判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针;使文章指针扫过整篇文章,统计所有关键词的出现次数。本发明通过使用检索指针在字典树的节点之间移动来将关键词与文章进行比对的技术方案,有效地利用了字典树中具有相同前缀的关键词排布在相邻位置的特性,压缩了中文AC自动机的工作占用空间。

Description

一种基于关键词字典树检索的中文AC自动机工作方法
技术领域
本发明涉及信息技术领域,特别地,涉及一种基于关键词字典树检索的中文AC自动机工作方法。
背景技术
AC自动机(Aho-Corasickautomaton)是一种著名的多模匹配方法,用于在文章当中检索多个关键词出现的次数。传统的AC自动机只能识别26个英文字母,现有技术则将传统的AC自动机工作原理套用到了中文文章中,但这种方案下中文AC自动机工作的空间复杂度过高,缺乏实际应用价值。
针对现有技术中中文AC自动机工作的空间复杂度过高的问题,目前尚未有有效的解决方案。
发明内容
针对现有技术中系统结构识别与优化方法抑或主观片面、计算能力差,抑或耗时费力、仿真精度低的问题,本发明的目的在于提出一种基于关键词字典树检索的中文AC自动机工作方法,能够用降低中文AC自动机工作时需要的空间复杂度,压缩了中文AC自动机的工作占用空间。
基于上述目的,本发明提供的技术方案如下:
根据本发明的一个方面,提供了一种基于关键词字典树检索的中文AC自动机工作方法,包括:
获取所有关键词,并根据所有关键词建立关键词字典树;
在关键词字典树中建立并初始化检索指针;
获取待检测文章,将文章编码,建立并初始化文章指针;
判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针;
判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针;
使文章指针扫过整篇文章,统计所有关键词的出现次数。
其中:
将文章编码,为将文章中的所有汉字按照指定的汉字编码方式以数字组合的形式表示;
在关键词字典树中初始化检索指针,为在关键词字典树中将检索指针置为指向虚根;
初始化文章指针,为将文章指针置为指向文件头第一字符编码。
并且,数字组合为十六进制数字的数字组合;指定的汉字编码方式为以下之一:GB2312、GBK、BIG5、UTF-8。
同时,判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针包括:
获取当前文章指针指向的编码数字;
获取当前检索指针指向节点的所有子节点;
将当前文章指针指向的编码数字在当前检索指针指向节点的所有子节点中进行比对,判断是否存在一个子节点上的数字与当前文章指针指向的编码数字相匹配;若是,则继续判断当前检索指针的匹配子节点是否为终止节点;若否,则将检索指针置为当前检索指针指向节点的失败指针指向的节点。
并且,若不存在一个子节点上的数字与当前文章指针指向的编码数字相匹配,且当前检索指针指向虚根或当前检索指针指向节点的失败指针指向虚根,则将文章指针后移一位,并重新判断当前文章指针与当前检索指针的任一子节点是否匹配。
并且,判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针包括:
在关键词字典树中获取匹配子节点的节点信息;
根据匹配子节点的节点信息判断匹配子节点是否为终止节点;若是,则从关键词字典树中解码出该终止节点所代表的关键词,并将该关键词被检索到的次数累加1,同时将检索指针重置为指向虚根、文章指针后移一位;若否,则将检索指针置为指向匹配子节点、文章指针后移一位;
重新判断当前文章指针与当前检索指针的任一子节点是否匹配。
并且,使文章指针扫过整篇文章并统计所有关键词的出现次数,为将文章指针在上述操作中移动到文章末尾,统计每个关键词被检索到的次数,并将每个关键词与其在文章中被检索到的次数信息输出。
从上面所述可以看出,本发明提供的技术方案通过使用检索指针在字典树的节点之间移动来将关键词与文章进行比对的技术方案,有效地利用了字典树中具有相同前缀的关键词排布在相邻位置的特性,使得节点对查询其子节点所在位置的信息量被大幅度压缩,避免使用占用大量空间复杂度的哈希表,因此降低了中文AC自动机工作时需要的空间复杂度,压缩了中文AC自动机的工作占用空间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于关键词字典树检索的中文AC自动机工作方法的流程图;
图2为根据本发明实施例的一种基于关键词字典树检索的中文AC自动机工作方法中,字典树各节点生成过程示意图;
图3为根据本发明实施例的一种基于关键词字典树检索的中文AC自动机工作方法中,字典树各节点的前缀指针生成过程示意图;
图4为根据本发明实施例的一种基于关键词字典树检索的中文AC自动机工作方法中,字典树各节点的失败指针生成过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种基于关键词字典树检索的中文AC自动机工作方法。
如图1所示,根据本发明的实施例提供了一种基于关键词字典树检索的中文AC自动机工作方法包括:
步骤S101,获取所有关键词,并根据所有关键词建立关键词字典树;
步骤S103,在关键词字典树中建立并初始化检索指针;
步骤S105,获取待检测文章,将文章编码,建立并初始化文章指针;
步骤S107,判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针;
步骤S109,判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针;
步骤S111,使文章指针扫过整篇文章,统计所有关键词的出现次数。
其中:
将文章编码,为将文章中的所有汉字按照指定的汉字编码方式以数字组合的形式表示;
在关键词字典树中初始化检索指针,为在关键词字典树中将检索指针置为指向虚根;
初始化文章指针,为将文章指针置为指向文件头第一字符编码。
并且,数字组合为十六进制数字的数字组合;指定的汉字编码方式为以下之一:GB2312、GBK、BIG5、UTF-8。
同时,判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针包括:
获取当前文章指针指向的编码数字;
获取当前检索指针指向节点的所有子节点;
将当前文章指针指向的编码数字在当前检索指针指向节点的所有子节点中进行比对,判断是否存在一个子节点上的数字与当前文章指针指向的编码数字相匹配;若是,则继续判断当前检索指针的匹配子节点是否为终止节点;若否,则将检索指针置为当前检索指针指向节点的失败指针指向的节点。
并且,若不存在一个子节点上的数字与当前文章指针指向的编码数字相匹配,且当前检索指针指向虚根或当前检索指针指向节点的失败指针指向虚根,则将文章指针后移一位,并重新判断当前文章指针与当前检索指针的任一子节点是否匹配。
并且,判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针包括:
在关键词字典树中获取匹配子节点的节点信息;
根据匹配子节点的节点信息判断匹配子节点是否为终止节点;若是,则从关键词字典树中解码出该终止节点所代表的关键词,并将该关键词被检索到的次数累加1,同时将检索指针重置为指向虚根、文章指针后移一位;若否,则将检索指针置为指向匹配子节点、文章指针后移一位;
重新判断当前文章指针与当前检索指针的任一子节点是否匹配。
并且,使文章指针扫过整篇文章并统计所有关键词的出现次数,为将文章指针在上述操作中移动到文章末尾,统计每个关键词被检索到的次数,并将每个关键词与其在文章中被检索到的次数信息输出。
下面根据具体实施例进一步阐述本发明的技术方案。
字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种,它将所有的模式串组织在一棵树的树边上,根节点是一个虚根,每条树边代表一个字母,从虚根到任意一个节点的路径上的边的有序集合代表某个模式串的某个前缀。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。字典树利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
如图2、3、4所示,在本实施例中,白色点表示虚根,灰色点表示内部节点,黑色点表示终止节点,即从虚根到终止节点的每条路径代表了一个模式串,由于"11"是"110"的前缀,所以在图中"11"这两条边是这两个字符串路径的共用部分,这样就节省了存储空间,由于trie树的虚根到每个节点的路径(边权)都代表了一个模式串的前缀,所以它又叫前缀树。
构造字典树的前提一般是给定一系列的关键词,然后对每个关键词进行插入字典树的操作。图2示出的是字典树各节点的生成过程,如图2所示,初始情况下字典树只有一个虚根,进行四个关键词的插入后就完成了字典树的节点生成,每次插入在末尾节点设置终止节点印记,可以注意到,第四次操作实际上没有生成新的节点,只是设置了一个新的终止节点印记,由于它的这个性质,使得字典树的节点数目不会很多,大大压缩了存储结构。
对于一篇给定的文章,要求在由关键词构建的字典树中查找这个文章中有多少个关键词,我们可以设定一个检索指针p,初始状态下它指向虚根,然后从前往后枚举文章,对每一个文章中的字符c,如果在检索指针p指向节点的出边集合中能够找到字符c对应的边,那么将检索指针p指向c对应边的子节点,循环往复,直到匹配失败,那么退回到检索指针p节点的前缀指针指向的节点继续同样的匹配,当遇到一个终止节点时,计数器+1。
每个非虚根节点都有一个前缀指针。图3示出的是字典树各节点的前缀指针生成过程,如图3所示,虚根子节点的前缀指针指向虚根,因为当一个字符都不能匹配时要跳到字符串首重新匹配;每个节点的前缀指针都是由它父节点的前缀指针决定的,所以一次宽度优先搜索(BreadthFirstSearch,下文中简称为BFS)就可以把所有节点的前缀指针逐层求解出来。
为了方便描述,我们先把所有字典树上的节点进行编号,编号顺序为节点的插入顺序,虚根编号为0。图4示出的是字典树各节点的失败指针生成过程,如图4所示,我们发现如果现在是1号节点,当接收一个'1'这个字符,则进入2号节点,因为沿着字符'1'的出边到达的状态正好是2号节点;但是如果接受的是'0'字符,我们发现1号节点没有'0'字符代表的出边,所以我们需要补上这条'0'边,这条1号节点的“0”边指向1号节点的前缀指针指向的状态的'0'边对应的节点,而这个状态正好是它自己,所以向自己补一条边权为'0'的边,在图4中以灰色箭头表示,这就是条1号节点的“0”边的失败指针。同样地,利用BFS可逐层求解所有节点的后继状态。我们发现所有节点遍历完后,每个节点都有且仅有两条出边,即完成了关键词字典树的建立。
现有的中文AC自动机中,汉字被转化为UTF8编码。设文章共N篇,每篇长度为L,关键词共M个,每个长度为K,则有算法本身时间复杂度为O(N*L+K)、空间复杂度为O(M*K*26),26是子节点hash表的大小。汉字转化成字符在linux下为3个字符,字符的取值范围为0~255,则时间复杂度为(N*3L+3K),空间复杂度为(M*3K*255)。
而在本发明的技术方案中,对于任一节点I,必然存在一个区间[P,Q],使得除了这个区间外没有它的子节点,并且区间内全是它的子节点,即区间[P,Q]与节点I的子节点集合完全相等。因此,我们可以在判断上舍弃了哈希表,把空间复杂度降到O(2*M*3K),每次判断子节点是需要判断256次,此时时间复杂度为O(256*3*(N*L+K))。本发明相对于现有技术的空间复杂度降低了O(M*K*759),即压缩了99.22%的工作占用空间。
在另一个实施例中,可以将中文的汉字转化为拼音,汉字转化成拼音一般为2~6个字母,这里取4。此时,时间复杂度为O(N*4L+4K),空间复杂度为O(M*4K*26),同样起到了降低空间复杂度的效果。但是一样的字母组成的话多种多样,此算法需要匹配后再实际比对文字是否相同,所以时间复杂度为O(K*(N*4L+4K))。
综上所述,借助于本发明的上述技术方案,通过使用检索指针在字典树的节点之间移动来将关键词与文章进行比对的技术方案,有效地利用了字典树中具有相同前缀的关键词排布在相邻位置的特性,使得节点对查询其子节点所在位置的信息量被大幅度压缩,避免使用占用大量空间复杂度的哈希表,因此降低了中文AC自动机工作时需要的空间复杂度,压缩了中文AC自动机的工作占用空间
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,包括:
获取所有关键词,并根据所有所述关键词建立关键词字典树;
在所述关键词字典树中建立并初始化检索指针;
获取待检测文章,将所述文章编码,建立并初始化文章指针;
判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针;
判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针;
使文章指针扫过整篇文章,统计所有关键词的出现次数。
2.根据权利要求1所述的一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,包括:
将所述文章编码,为将所述文章中的所有汉字按照指定的汉字编码方式以数字组合的形式表示;
在所述关键词字典树中初始化检索指针,为在所述关键词字典树中将所述检索指针置为指向虚根;
所述初始化文章指针,为将所述文章指针置为指向文件头第一字符编码。
3.根据权利要求2所述的一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,所述数字组合为十六进制数字的数字组合;所述指定的汉字编码方式为以下之一:GB2312、GBK、BIG5、UTF-8。
4.根据权利要求2所述的一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,判断当前文章指针与当前检索指针的任一子节点是否匹配并由此移动文章指针与检索指针包括:
获取当前文章指针指向的编码数字;
获取当前检索指针指向节点的所有子节点;
将当前文章指针指向的编码数字在当前检索指针指向节点的所有子节点中进行比对,判断是否存在一个子节点上的数字与当前文章指针指向的编码数字相匹配;若是,则继续判断当前检索指针的匹配子节点是否为终止节点;若否,则将检索指针置为当前检索指针指向节点的失败指针指向的节点。
5.根据权利要求4所述的一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,若不存在一个子节点上的数字与当前文章指针指向的编码数字相匹配,且当前检索指针指向虚根或当前检索指针指向节点的失败指针指向虚根,则将文章指针后移一位,并重新判断当前文章指针与当前检索指针的任一子节点是否匹配。
6.根据权利要求5所述的一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,判断当前检索指针的匹配子节点是否为终止节点并由此移动文章指针与检索指针包括:
在所述关键词字典树中获取所述匹配子节点的节点信息;
根据所述匹配子节点的节点信息判断所述匹配子节点是否为终止节点;若是,则从所述关键词字典树中解码出该终止节点所代表的关键词,并将该关键词被检索到的次数累加1,同时将检索指针重置为指向虚根、文章指针后移一位;若否,则将检索指针置为指向所述匹配子节点、文章指针后移一位;
重新判断当前文章指针与当前检索指针的任一子节点是否匹配。
7.根据权利要求6所述的一种基于关键词字典树检索的中文AC自动机工作方法,其特征在于,使文章指针扫过整篇文章并统计所有关键词的出现次数,为将文章指针在上述操作中移动到文章末尾,统计每个关键词被检索到的次数,并将所述每个关键词与其在文章中被检索到的次数信息输出。
CN201510515483.3A 2015-08-20 2015-08-20 一种基于关键词字典树检索的中文ac自动机工作方法 Active CN105183788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510515483.3A CN105183788B (zh) 2015-08-20 2015-08-20 一种基于关键词字典树检索的中文ac自动机工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510515483.3A CN105183788B (zh) 2015-08-20 2015-08-20 一种基于关键词字典树检索的中文ac自动机工作方法

Publications (2)

Publication Number Publication Date
CN105183788A true CN105183788A (zh) 2015-12-23
CN105183788B CN105183788B (zh) 2019-01-25

Family

ID=54905871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510515483.3A Active CN105183788B (zh) 2015-08-20 2015-08-20 一种基于关键词字典树检索的中文ac自动机工作方法

Country Status (1)

Country Link
CN (1) CN105183788B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021397A (zh) * 2016-05-12 2016-10-12 武汉斗鱼网络科技有限公司 一种关键词查找的树结构及实现方法
CN107291743A (zh) * 2016-03-31 2017-10-24 北京小度信息科技有限公司 数据的调用方法和装置
CN107609032A (zh) * 2017-08-09 2018-01-19 联动优势科技有限公司 一种匹配方法及电子设备
CN108021569A (zh) * 2016-11-01 2018-05-11 中国移动通信有限公司研究院 Ac自动机的构建和中文多模式匹配方法及相关装置
CN108304484A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 关键词匹配方法及装置、电子设备和可读存储介质
CN108628907A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN109524068A (zh) * 2018-10-16 2019-03-26 东华大学 一种基于ac自动机的疾病症状提取方法
CN109918664A (zh) * 2019-03-05 2019-06-21 北京声智科技有限公司 分词方法和装置
CN109978498A (zh) * 2019-03-15 2019-07-05 河北冀联人力资源服务集团有限公司 任务信息处理方法及装置
CN110297883A (zh) * 2018-03-22 2019-10-01 卡西欧计算机株式会社 信息显示装置、信息显示方法及记录介质
CN110389875A (zh) * 2019-03-29 2019-10-29 中国银联股份有限公司 用于监控计算机系统运行状态的方法、装置和存储介质
CN110956283A (zh) * 2019-11-14 2020-04-03 国网安徽省电力有限公司 Scd文件与软压板匹配的方法及系统
CN111061829A (zh) * 2019-12-16 2020-04-24 北京软通智慧城市科技有限公司 一种树型检索方法及装置
CN111309970A (zh) * 2020-03-27 2020-06-19 北京奇艺世纪科技有限公司 一种数据检索方法、装置、电子设备及存储介质
CN113297348A (zh) * 2021-04-15 2021-08-24 国网江苏省电力有限公司南京供电分公司 语音识别中文文本的校正方法
CN117033563A (zh) * 2023-10-10 2023-11-10 北京轻松怡康信息技术有限公司 一种文本检索方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023883A (zh) * 2012-11-26 2013-04-03 清华大学 基于ac自动机和后缀树的字符串匹配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023883A (zh) * 2012-11-26 2013-04-03 清华大学 基于ac自动机和后缀树的字符串匹配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALFRED V. AHO: "Efficient string matching:an aid to bibliographic search", 《COMMUNICATIONS OF THE ACM》 *
侯整风: "一种节约内存的中文多模式匹配算法", 《微型机与应用》 *
杨波: "基于有限状态自动机的中文多模式匹配算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马志柔: "一种有效的多关键词词频统计方法", 《计算机工程》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291743B (zh) * 2016-03-31 2020-10-16 北京星选科技有限公司 数据的调用方法和装置
CN107291743A (zh) * 2016-03-31 2017-10-24 北京小度信息科技有限公司 数据的调用方法和装置
CN106021397A (zh) * 2016-05-12 2016-10-12 武汉斗鱼网络科技有限公司 一种关键词查找的树结构及实现方法
CN108021569A (zh) * 2016-11-01 2018-05-11 中国移动通信有限公司研究院 Ac自动机的构建和中文多模式匹配方法及相关装置
CN108628907A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN108628907B (zh) * 2017-03-24 2021-09-17 北京京东尚科信息技术有限公司 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN107609032A (zh) * 2017-08-09 2018-01-19 联动优势科技有限公司 一种匹配方法及电子设备
CN107609032B (zh) * 2017-08-09 2020-12-04 联动优势科技有限公司 一种匹配方法及电子设备
CN108304484A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 关键词匹配方法及装置、电子设备和可读存储介质
CN110297883B (zh) * 2018-03-22 2023-10-31 卡西欧计算机株式会社 信息显示装置、信息显示方法及记录介质
CN110297883A (zh) * 2018-03-22 2019-10-01 卡西欧计算机株式会社 信息显示装置、信息显示方法及记录介质
CN109524068A (zh) * 2018-10-16 2019-03-26 东华大学 一种基于ac自动机的疾病症状提取方法
CN109918664B (zh) * 2019-03-05 2023-04-18 北京声智科技有限公司 分词方法和装置
CN109918664A (zh) * 2019-03-05 2019-06-21 北京声智科技有限公司 分词方法和装置
CN109978498A (zh) * 2019-03-15 2019-07-05 河北冀联人力资源服务集团有限公司 任务信息处理方法及装置
CN110389875A (zh) * 2019-03-29 2019-10-29 中国银联股份有限公司 用于监控计算机系统运行状态的方法、装置和存储介质
CN110389875B (zh) * 2019-03-29 2023-06-06 中国银联股份有限公司 用于监控计算机系统运行状态的方法、装置和存储介质
CN110956283A (zh) * 2019-11-14 2020-04-03 国网安徽省电力有限公司 Scd文件与软压板匹配的方法及系统
CN110956283B (zh) * 2019-11-14 2024-03-22 国网安徽省电力有限公司 Scd文件与软压板匹配的方法及系统
CN111061829A (zh) * 2019-12-16 2020-04-24 北京软通智慧城市科技有限公司 一种树型检索方法及装置
CN111309970A (zh) * 2020-03-27 2020-06-19 北京奇艺世纪科技有限公司 一种数据检索方法、装置、电子设备及存储介质
CN113297348A (zh) * 2021-04-15 2021-08-24 国网江苏省电力有限公司南京供电分公司 语音识别中文文本的校正方法
CN117033563A (zh) * 2023-10-10 2023-11-10 北京轻松怡康信息技术有限公司 一种文本检索方法、装置、电子设备及存储介质
CN117033563B (zh) * 2023-10-10 2024-04-26 北京轻松怡康信息技术有限公司 一种文本检索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105183788B (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN105183788A (zh) 一种基于关键词字典树检索的中文ac自动机工作方法
CN105260354A (zh) 一种基于关键词字典树构造的中文ac自动机工作方法
Claude et al. The wavelet matrix: An efficient wavelet tree for large alphabets
Kreft et al. On compressing and indexing repetitive sequences
Bille et al. Random access to grammar-compressed strings
US4782325A (en) Arrangement for data compression
Gagie et al. Colored range queries and document retrieval
CN103365992B (zh) 一种基于一维线性空间实现Trie树的词典检索方法
Arroyuelo et al. Stronger Lempel-Ziv based compressed text indexing
US9754050B2 (en) Path-decomposed trie data structures
CN101071420A (zh) 一种切分索引分词的方法及系统
Müller et al. Retrieval and perfect hashing using fingerprinting
Mortensen et al. On dynamic range reporting in one dimension
US9720976B2 (en) Extracting method, computer product, extracting system, information generating method, and information contents
CN103123650A (zh) 一种基于整数映射的xml数据库全文索引方法
CN106067824A (zh) 一种基于二联密码子的测序数据压缩方法
CN107871169B (zh) 一种利用多叉树结构的工程量清单编码自动生成方法
Arroyuelo et al. Reducing the space requirement of LZ-index
CN106599097A (zh) 海量特征串集合的匹配方法和装置
CN112256821B (zh) 中文地址补全的方法、装置、设备及存储介质
Navarro et al. Faster top-k document retrieval in optimal space
Navarro et al. New space/time tradeoffs for top-k document retrieval on sequences
Köppl et al. In-place bijective burrows-wheeler transforms
CN109446198B (zh) 一种基于双数组的trie树节点压缩方法及装置
CN103294735B (zh) 基于tcam的确定性有穷状态自动机dfa的匹配方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant