CN108304484A - 关键词匹配方法及装置、电子设备和可读存储介质 - Google Patents

关键词匹配方法及装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN108304484A
CN108304484A CN201711482337.0A CN201711482337A CN108304484A CN 108304484 A CN108304484 A CN 108304484A CN 201711482337 A CN201711482337 A CN 201711482337A CN 108304484 A CN108304484 A CN 108304484A
Authority
CN
China
Prior art keywords
keyword
dictionary
mark
matched
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711482337.0A
Other languages
English (en)
Inventor
张忠飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Urban Network Neighbor Information Technology Co Ltd
Beijing City Network Neighbor Technology Co Ltd
Original Assignee
Beijing City Network Neighbor Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing City Network Neighbor Technology Co Ltd filed Critical Beijing City Network Neighbor Technology Co Ltd
Priority to CN201711482337.0A priority Critical patent/CN108304484A/zh
Publication of CN108304484A publication Critical patent/CN108304484A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质。该方法包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。从而可以提高关键词匹配的准确性和匹配效率。

Description

关键词匹配方法及装置、电子设备和可读存储介质
技术领域
本发明实施例涉及计算机领域,尤其涉及一种关键词匹配方法及装置、电子设备和可读存储介质。
背景技术
现如今,各大网站或应用程序(APP)的相应页面每天都会有大量的帖子发布,有的帖子内容是符合规定的,有的帖子是违规的(如涉黄、涉暴),因此需要一种能对文本特定关键词进行匹配、检测的系统,能在用户发帖的第一时间判断该用户所发帖子是否符合规定,从而对违规的帖子及时拦截处理。
现有技术中的关键词匹配系统,采用的是定制化的开发模式,定制化的开发模式具体含义是:所有关键词存储在一个关键词词库中,关键词词库中按照关键词所包含的总的字符个数存储关键词,如“开发成本”对应存储的就是4个字符“开发成本”,在关键词匹配时采用一对一的方式进行匹配。
上述方式中,由于对关键词的命中有一定的局限性,因此准确性不高,且匹配效率较低。
发明内容
本发明实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质,以提高关键词匹配的准确性和匹配效率。
第一方面,本发明实施例提供一种关键词匹配方法,包括:
从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;
根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;
根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
可选的,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。
可选的,所述从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,包括:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
可选的,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。
可选的,所述方法还包括:
对待检测的文本进行关键词划分,得到多个待匹配关键词。
第二方面,本发明实施例提供一种关键词匹配装置,包括:
查找模块,用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;
获取模块,用于根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;
匹配模块,用于根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
可选的,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。
可选的,所述查找模块用于:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
可选的,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。
可选的,所述装置还包括:
划分模块,用于对待检测的文本进行关键词划分,得到多个待匹配关键词。
第三方面,本发明实施例提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面的关键词匹配方法。
第四方面,本发明实施例提供一种可读存储介质,可读存储介质中存储有计算机程序,当关键词匹配装置的至少一个处理器执行该计算机程序时,关键词匹配装置执行第一方面的关键词匹配方法。
第五方面,本发明实施例提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。关键词匹配装置的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得关键词匹配装置实施第一方面的关键词匹配方法。
本实施例提供的关键词匹配方法及装置、电子设备和可读存储介质,通过从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库,根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。其中不同的词库以维度划分且被分布式缓存在多个服务器上,不同的维度下关键词的属性不同,一方面,词库以维度划分可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面,采用分布式缓存可同时匹配多个词库,提高匹配效率,还可防止某一服务器宕机不能工作,提升性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种关键词匹配方法实施例的流程图;
图2为本发明实施例中字典树的数据结构示意图;
图3为本发明实施例提供的另一种关键词匹配方法实施例的流程图;
图4为本发明实施例提供的一种关键词匹配装置实施例的结构示意图;
图5为本发明实施例提供的另一种关键词匹配装置实施例的结构示意图;
图6为本发明实施例提供的一种关键词匹配装置实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
现有的关键词匹配方法中,首先所有关键词存储在一个关键词词库中,关键词词库中按照关键词所包含的总的字符个数存储关键词,如“开发成本”对应存储的就是4个字符“开发成本”,在关键词匹配时采用一对一的方式进行匹配,关键词在不同场景下含义不同,因此在关键词的匹配时对关键词的命中有一定的局限性,因此准确性不高,其次,在关键词匹配时采用一对一的方式进行匹配,因此匹配效率较低。为解决上述问题,本申请中,在存储关键词时,不同的词库以关键词的维度(用于区分不同场景)划分且被分布式缓存在多个服务器上,本地缓存中存储关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,在关键词匹配时,首先根据关键词的属性在本地缓存中查找出关键词所属的词库的标识和词库所在的服务器的标识,从服务器获取关键词所属的词库,然后进行关键词匹配,在本地缓存进行关键词匹配,词库以关键词的维度划分且被以分布式缓存的方式存储在多个服务器上,一方面可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面可同时匹配多个词库,提高匹配效率。进一步地,本申请中采用字典树的数据结构存储,一方面考虑到关键词的拆分,可以节省存储容量,另一方面可以毫秒内查找出关键词所属的词库的标识和词库所在的服务器的标识,进一步提高匹配效率。下面结合附图详细说明本申请的技术方案。
首先,下面对本发明实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、关键词的维度:用于区分不同的场景,如城市(例如北京、上海、西安、深圳)、业务线(例如招聘、房产、二手车)为两个不同的维度。
2、关键词的属性:属性为关键词在词库对应维度下的具体含义,不同的维度下关键词的属性不同。
3、词库:多个关键词的集合,不同的词库维度不同,一个词库的维度可以为一个或多个。
图1为本发明实施例提供的一种关键词匹配方法实施例的流程图,本实施例的执行主体可以为任一具有执行关键词匹配方法的设备,可选的,该设备可以是处理器,如图1所示,本实施例的方法可以包括:
S101、从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,维度用于区分不同的场景。
具体来说,关键词的维度用于区分不同的场景,如城市、业务线,不同的词库以关键词的维度划分,一个词库的维度可以为一个或多个,以一个维度为例,如词库A存储的是维度为“城市”的关键词,即对地域进行划分,词库A中的关键词包括:北京、上海、西安、深圳等,词库B存储的是维度为“业务线”的关键词,词库B中的关键词包括:招聘、房产、二手车等,以两个维度为例,如词库C存储的是维度为“城市”和“业务线”的关键词,词库C中的关键词包括:上海-招聘、上海-房产、上海-二手车。不同的词库被分布式缓存在多个服务器上,例如一共有N个词库,N个词库采用分布式缓存的方式存储在M个服务器上,一个服务器上可以存储多个词库,不同服务器上可以存储相同的词库,采用分布式缓存,一方面可以防止某一服务器宕机不能工作,提升性能,另一方面,可以同时匹配多个词库。
其中,词库为多个关键词的集合,词库中的每一关键词都有自己的属性,属性为关键词在一词库对应维度下的具体含义,不同的维度下关键词的属性不同。
S101中,首先本地缓存中存储的是关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识,词库的标识也称为词库的索引,如服务器一共有3个,作为一种可实施的方式,可选的,本实施例中可以采用哈希表的形式存储,本地缓存的内容如下表一所示:
表一本地缓存的内容
具体来说,词库存储的是关键词在不同维度下的属性。
现有的关键词匹配方法中,关键词词库中按照关键词所包含的总的字符个数存储关键词,但是,有的关键词是可以拆分的,例如关键词“开发成本”可以拆分为“开发”、“成本”和“开发成本”,若按现有技术中按照关键词所包含的总的字符个数存储关键词,则“开发成本”对应存储的就是4个字符“开发成本”,首先需要存储的关键词多,所需的存储容量就较多,本申请中,作为另一种可实施的方式,本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。图2为本发明实施例中字典树的数据结构示意图,根节点(Root)为空,根节点下依次存储多个关键词,关键词按照包含的字符个数存储,关键词所属的词库的标识和词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中,如图2所示,灰色节点均为关键词的最后一个字符对应的节点,采用这种存储结构,关键词可以叠加存储,如H节点对应的关键词包含一个字符,A-B-C、A-B-D、E-F-G节点对应的关键词包含三个字符,A-B-C-D节点对应的关键词包含四个字符。从而可以节省存储容量。
采用字典树的数据结构存储关键词时,S101中从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,具体可以为:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
本实施例中,采用字典树的数据结构,一方面可以节省存储容量,另一方面可以在毫秒内查找出关键词,利用的是以空间换时间的概念,支持最大匹配,提高匹配的效率。
S102、根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库。
例如,目标词库的标识为A,目标服务器的标识为1,则从服务器1中获取词库A。
S103、根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。
具体地,若从目标词库中的关键词的属性中匹配到待匹配关键词,则命中关键词,判定待匹配关键词为违规的内容。
进一步地,上述方法还可以包括:
对待检测的文本进行关键词划分,得到多个待匹配关键词。
对每一个待匹配关键词采用S101~S103的步骤进行关键词匹配,若命中任一待匹配关键词,则判定待检测的文本违规,如是涉黄涉暴的文本。
本实施例提供的关键词匹配方法,通过从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库,根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。其中不同的词库以维度划分且被分布式缓存在多个服务器上,不同的维度下关键词的属性不同,一方面,词库以维度划分可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面,采用分布式缓存可同时匹配多个词库,提高匹配效率,还可防止某一服务器宕机不能工作,提升性能。
下面采用一个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
图3为本发明实施例提供的另一种关键词匹配方法实施例的流程图,本实施例中以本地缓存中以字典树的数据结构存储关键词为例说明,如图3所示,本实施例的方法可以包括:
S201、检测到用户发帖后,对待检测的文本进行关键词划分,得到多个待匹配关键词,用户所发帖子为待检测文本。
对于每一个待匹配关键词,进行如下S202~S204的操作:
S202、从本地缓存的字典树的数据结构中查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
其中,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,维度用于区分不同的场景,字典树的数据结构如图2所示,关键词按照包含的字符个数存储,关键词所属的词库的标识和词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中,图2中灰色节点均为关键词的最后一个字符对应的节点。
S203、根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库。
S204、根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。
得到所有待匹配关键词的匹配结果后,若命中任一待匹配关键词,则判定待检测的文本违规,如是涉黄涉暴的文本。
本实施例提供的关键词匹配方法及装置、电子设备和可读存储介质,通过从本地缓存的字典树的数据结构中查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库,最后根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。其中不同的词库以维度划分且被分布式缓存在多个服务器上,不同的维度下关键词的属性不同,一方面,采用字典树的数据结构,可以节省存储容量,还可以在毫秒内查找出关键词,提高匹配的效率,且词库以维度划分可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面,采用分布式缓存可同时匹配多个词库,提高匹配效率,还可防止某一服务器宕机不能工作,提升性能。
图4为本发明实施例提供的一种关键词匹配装置实施例的结构示意图,如图4所示,本实施例的装置可以包括:查找模块11、获取模块12和匹配模块13,
其中,查找模块11用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,维度用于区分不同的场景。
获取模块12用于根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库。
匹配模块13用于根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。
可选的,本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。
可选的,查找模块11用于:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
可选的,本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。
本实施例的装置,可以用于执行图1或图3所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例提供的关键词匹配装置,通过从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库,根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,属性为关键词在目标词库对应维度下的具体含义。其中不同的词库以维度划分且被分布式缓存在多个服务器上,不同的维度下关键词的属性不同,一方面,词库以维度划分可以区分关键词在不同场景下的含义,从而可以提高关键词匹配的准确性,另一方面,采用分布式缓存可同时匹配多个词库,提高匹配效率,还可防止某一服务器宕机不能工作,提升性能。
图5为本发明实施例提供的另一种关键词匹配装置实施例的结构示意图,如图5所示,本实施的装置在图4所示装置的基础上,进一步地,还可以包括:划分模块14,划分模块14用于对待检测的文本进行关键词划分,得到多个待匹配关键词。
本实施例的装置,可以用于执行图1或图3所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本发明实施例中可以根据上述方法示例对关键词匹配装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例各实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6为本发明实施例提供的一种电子设备实施例的结构示意图,如图6 所示,本实施例的电子设备可以包括:存储器21和处理器22,
存储器21,用于存储程序指令,该存储器可以是flash(闪存)。
处理器22,用于调用并执行存储器中的程序指令,以实现图1或图3所示的关键词匹配方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器21既可以是独立的,也可以是存储器21跟处理器22集成在一起。
本发明实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当关键词匹配装置的至少一个处理器执行该计算机程序时,关键词匹配的装置执行上述方法实施例中的关键词匹配方法。
本发明实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。关键词匹配装置的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得关键词匹配装置实施上述方法实施例中的关键词匹配方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。

Claims (12)

1.一种关键词匹配方法,其特征在于,包括:
从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;
根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;
根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
2.根据权利要求1所述的方法,其特征在于,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。
3.根据权利要求2所述的方法,其特征在于,所述从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,包括:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
4.根据权利要求1所述的方法,其特征在于,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述方法还包括:
对待检测的文本进行关键词划分,得到多个待匹配关键词。
6.一种关键词匹配装置,其特征在于,包括:
查找模块,用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;
获取模块,用于根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;
匹配模块,用于根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
7.根据权利要求6所述的装置,其特征在于,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。
8.根据权利要求7所述的装置,其特征在于,所述查找模块用于:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
9.根据权利要求6所述的装置,其特征在于,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。
10.根据权利要求6~9任一项所述的装置,其特征在于,所述装置还包括:
划分模块,用于对待检测的文本进行关键词划分,得到多个待匹配关键词。
11.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现权利要求1~5任一项所述的关键词匹配方法。
12.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当关键词匹配装置的至少一个处理器执行所述计算机程序时,关键词匹配装置执行权利要求1~5任一项所述的关键词匹配方法。
CN201711482337.0A 2017-12-29 2017-12-29 关键词匹配方法及装置、电子设备和可读存储介质 Pending CN108304484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711482337.0A CN108304484A (zh) 2017-12-29 2017-12-29 关键词匹配方法及装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711482337.0A CN108304484A (zh) 2017-12-29 2017-12-29 关键词匹配方法及装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN108304484A true CN108304484A (zh) 2018-07-20

Family

ID=62867771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711482337.0A Pending CN108304484A (zh) 2017-12-29 2017-12-29 关键词匹配方法及装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN108304484A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447469A (zh) * 2018-10-30 2019-03-08 阿里巴巴集团控股有限公司 一种文本检测方法、装置及设备
CN109783607A (zh) * 2018-12-19 2019-05-21 南京莱斯信息技术股份有限公司 一种在任意文本中匹配识别海量关键词的方法
CN110211584A (zh) * 2019-06-04 2019-09-06 广州小鹏汽车科技有限公司 车辆控制方法、装置、存储介质及控制终端
CN110677313A (zh) * 2019-08-25 2020-01-10 北京亚鸿世纪科技发展有限公司 一种vpn软件后台服务器的发现方法
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN110881056A (zh) * 2018-09-05 2020-03-13 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN110956271A (zh) * 2019-10-21 2020-04-03 北京明朝万达科技股份有限公司 一种海量数据的多级分类方法及装置
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN112507068A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 文档查询方法、装置、电子设备和存储介质
CN113672963A (zh) * 2021-08-30 2021-11-19 国家计算机网络与信息安全管理中心 一种基于彩虹表的匹配方法、装置、存储介质及电子设备
CN114239496A (zh) * 2021-11-12 2022-03-25 北京卓思天成数据咨询股份有限公司 服务状态生成方法、装置、设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055420A1 (en) * 2000-02-01 2005-03-10 Infogin Ltd. Methods and apparatus for analyzing, processing and formatting network information such as web-pages
CN101923580A (zh) * 2010-09-09 2010-12-22 北京开心人信息技术有限公司 一种基于多词表的关键词快速匹配的方法与系统
CN101964080A (zh) * 2009-07-21 2011-02-02 国际商业机器公司 用于将文件作为片段存储在存储元件上的方法及其系统
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN104765749A (zh) * 2014-01-07 2015-07-08 阿里巴巴集团控股有限公司 一种数据存储方法及装置
CN105183788A (zh) * 2015-08-20 2015-12-23 及时标讯网络信息技术(北京)有限公司 一种基于关键词字典树检索的中文ac自动机工作方法
CN105354265A (zh) * 2015-10-23 2016-02-24 北京京东尚科信息技术有限公司 一种自动构建投放关键词关联结构的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055420A1 (en) * 2000-02-01 2005-03-10 Infogin Ltd. Methods and apparatus for analyzing, processing and formatting network information such as web-pages
CN101964080A (zh) * 2009-07-21 2011-02-02 国际商业机器公司 用于将文件作为片段存储在存储元件上的方法及其系统
CN101923580A (zh) * 2010-09-09 2010-12-22 北京开心人信息技术有限公司 一种基于多词表的关键词快速匹配的方法与系统
CN104765749A (zh) * 2014-01-07 2015-07-08 阿里巴巴集团控股有限公司 一种数据存储方法及装置
CN103942347A (zh) * 2014-05-19 2014-07-23 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105183788A (zh) * 2015-08-20 2015-12-23 及时标讯网络信息技术(北京)有限公司 一种基于关键词字典树检索的中文ac自动机工作方法
CN105354265A (zh) * 2015-10-23 2016-02-24 北京京东尚科信息技术有限公司 一种自动构建投放关键词关联结构的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姜广坤: "《SQL 2000实用教程》", 31 December 2000 *
林厚从: "《高级数据结构》", 31 December 2012 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110881056A (zh) * 2018-09-05 2020-03-13 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN109447469B (zh) * 2018-10-30 2022-06-24 创新先进技术有限公司 一种文本检测方法、装置及设备
CN109447469A (zh) * 2018-10-30 2019-03-08 阿里巴巴集团控股有限公司 一种文本检测方法、装置及设备
CN109783607A (zh) * 2018-12-19 2019-05-21 南京莱斯信息技术股份有限公司 一种在任意文本中匹配识别海量关键词的方法
CN110211584A (zh) * 2019-06-04 2019-09-06 广州小鹏汽车科技有限公司 车辆控制方法、装置、存储介质及控制终端
CN110677313A (zh) * 2019-08-25 2020-01-10 北京亚鸿世纪科技发展有限公司 一种vpn软件后台服务器的发现方法
CN110956271A (zh) * 2019-10-21 2020-04-03 北京明朝万达科技股份有限公司 一种海量数据的多级分类方法及装置
CN110956271B (zh) * 2019-10-21 2022-12-09 北京明朝万达科技股份有限公司 一种海量数据的多级分类方法及装置
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN112507068A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 文档查询方法、装置、电子设备和存储介质
CN112507068B (zh) * 2020-11-30 2023-11-14 北京百度网讯科技有限公司 文档查询方法、装置、电子设备和存储介质
CN113672963A (zh) * 2021-08-30 2021-11-19 国家计算机网络与信息安全管理中心 一种基于彩虹表的匹配方法、装置、存储介质及电子设备
CN114239496A (zh) * 2021-11-12 2022-03-25 北京卓思天成数据咨询股份有限公司 服务状态生成方法、装置、设备及计算机可读存储介质
CN114239496B (zh) * 2021-11-12 2023-10-24 北京卓思天成数据咨询股份有限公司 服务状态生成方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108304484A (zh) 关键词匹配方法及装置、电子设备和可读存储介质
CN110321344B (zh) 关联数据的信息查询方法、装置、计算机设备及存储介质
CN105528372B (zh) 一种地址搜索方法和设备
CN108255958A (zh) 数据查询方法、装置和存储介质
CN103810237B (zh) 数据管理方法和系统
CN106202548B (zh) 数据存储方法、查找方法及装置
CN106033416A (zh) 一种字符串处理方法及装置
US10275486B2 (en) Multi-system segmented search processing
CN102810116B (zh) 一种基于数据库连接的自动路由和负载均衡的方法及系统
US10528328B2 (en) Learning from input patterns in Programing-By-Example
CN103455335A (zh) 一种多级分类的Web实现方法
CN105359142B (zh) 哈希连接方法和装置
CN102867049A (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
US9158852B2 (en) Geographical area correlated websites
CN108509545A (zh) 一种文章的评论处理方法及系统
CN104021117B (zh) 语言处理方法与电子设备
JP2022137281A (ja) データ照会方法、装置、電子デバイス、記憶媒体、及びプログラム
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
US11789940B2 (en) Natural language interface to databases
CN111090668B (zh) 数据检索方法及装置、电子设备和计算机可读存储介质
US20090171651A1 (en) Sdram-based tcam emulator for implementing multiway branch capabilities in an xml processor
CN111666302A (zh) 用户排名的查询方法、装置、设备及存储介质
CN109918661A (zh) 同义词获取方法及装置
US11755633B2 (en) Entity search system
US10963490B2 (en) Text extraction and processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180720