CN112765433B - 文本关键词扫描方法、装置、设备及计算机可读存储介质 - Google Patents
文本关键词扫描方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112765433B CN112765433B CN202110038882.0A CN202110038882A CN112765433B CN 112765433 B CN112765433 B CN 112765433B CN 202110038882 A CN202110038882 A CN 202110038882A CN 112765433 B CN112765433 B CN 112765433B
- Authority
- CN
- China
- Prior art keywords
- target
- text
- dictionary
- word
- red
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000014509 gene expression Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 16
- 239000003607 modifier Substances 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 241000120622 Rhizophoraceae Species 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及文本处理技术领域,公开了一种文本关键词搜索方法,该方法包括:获取目标文本;将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。通过上述方式,本发明实施例实现了对文本快速精准地扫描。
Description
技术领域
本发明实施例涉及文本处理技术领域,具体涉及一种文本关键词扫描方法、装置、设备及计算机可读存储介质。
背景技术
目前,网络信息安全越来越受到重视,在用户创建的内容发布到网络上时,需要进行敏感词、禁用词扫描。另外,在房地产行业中,需要快速扫描、识别某篇文章中是否出现了某些楼盘、小区的关键字,是否出现了某些行业关键词等。然而现有的关键词搜索方法匹配精准度低、不支持模糊匹配,且搜索效率低。
发明内容
鉴于上述问题,本发明实施例提供了一种文本关键词扫描方法、装置、设备及计算机可读存储介质,用于解决现有技术中存在的匹配精准度低且效率低的问题。
根据本发明实施例的一个方面,提供了一种文本关键词扫描方法,所述方法包括:
获取目标文本;
将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
在一种可选的方式中,所述目标词典包括多个词典词条;
所述将所述目标文本与预设的索引树进行匹配之前,包括:
从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;
根据所述多个目标词条构建目标红黑树的目标节点。
在一种可选的方式中,所述目标节点包括第一级节点以及剩余节点;
根据所述多个目标词条构建目标红黑树的目标节点,包括:
根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;
按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点。
在一种可选的方式中,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。
在一种可选的方式中,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标敏感词;
在所述目标文本中对所述目标敏感词进行过滤操作。
在一种可选的方式中,所述目标词典为行业词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标行业词;
根据所述目标行业词对所述目标文本进行处理。
根据本发明实施例的另一方面,提供了一种文本关键词搜索装置,包括:
获取模块,用于获取目标文本;
匹配模块,用于将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
确定模块,用于将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
在一种可选的方式中,所述目标词典包括多个词典词条;
所述装置还包括:构建模块,用于从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;根据所述多个目标词条构建目标红黑树的目标节点。
根据本发明实施例的另一方面,提供了一种文本关键词搜索设备,包括:
包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的文本关键词搜索方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在文本关键词搜索设备上运行时,使得文本关键词搜索设备执行上述的文本关键词搜索方法的操作。
本发明实施例通过构建目标词典对应的多个红黑树,将目标文本与红黑树进行匹配,来确定目标关键词,缩小了扫描的深度,能够实现对目标文本快速精准地进行关键词扫描的有益效果。
进一步地,本发明实施例在构建红黑树时,红黑树的节点包括了目标词条中的精准词以及正则表达式,在保证扫描的速度及精度的同时,还可以实现模糊匹配。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的文本关键词搜索方法的流程示意图;
图2示出了本发明实施例提供的文本关键词搜索装置的结构示意图;
图3示出了本发明实施例提供的文本关键词搜索设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
图1示出了本发明实施例提供的文本关键词搜索方法的流程图,该方法由文本关键词搜索设备执行。该文本关键词搜索设备可以是计算机设备、终端设备等。如图1所示,该方法包括以下步骤:
步骤110:获取目标文本。
其中,该目标文本可以是用户输入的文本,也可以是web或终端上的文章。
本发明实施例的一种具体场景为:对目标文本中的敏感词进行过滤操作中的文本扫描。本发明实施例的另一种具体场景为:对行业文章进行爬取操作过程中的文本扫描。
步骤120:将目标文本与预设的索引树进行匹配,索引树为根据目标词典预先建立的多个红黑树。
其中,将目标文本与预设的索引树进行匹配,指的是将目标文本中的字与多个红黑树的节点数据进行匹配。
本发明实施例中,索引树是根据目标词典预先建立的多个红黑树。红黑树(RedBlack Tree)是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构。该红黑树包括多个节点。
其中,在将目标文本与预设的索引树进行匹配之前,预先建立该多个目标红黑树的具体步骤包括:
步骤001:建立目标词典。该目标词典包括多个词典词条,该词条可以是行业词,也可以是敏感词。其中,该词条包括所述目标精确词或者目标精确词与其他词的组合;其它词为正则表达式、变量或者与修饰词中的一种或者多种。也即,该词条中包括精确词,可以只包括精确词,也可以是精确词与正则表达式的组合,可以是精确词与修饰词的组合,还可以是精确词与正则表达式及修饰词的组合,该词条中还可以包括变量。其中,精确词指得是由确定的字组成的词,如“万达”等。正则表达式及修饰词则为不确定的字符。例如正则表达式“<cityName>市?”,精确词与正则表达式的组合“<cityName>市?万科”,精确词与正则表达式及修饰词的组合“<cityName>市?万科[广场/楼盘/小区/笋盘]”等。
步骤002:从所述多个词典词条中确定第一个字相同的多个目标词条。
其中,目标词条为所述多个词典词条中任意一个词典词条,可以为目标精确词或者目标精确词与其他词的组合;其它词为正则表达式、变量或者与修饰词中的一种或者多种。目标红黑树为所述多个红黑树中任意一个红黑树。也即,将目标词典中的词典词条按照精确词的第一个字进行分类。对于字典词条中,如可以包括词条“万科广场”,也可以包括词条“万达”。对于“万科广场”和“万科”其第一个字均为“万”,因此二者为第一个字相同的目标词条。其中,第一个字指的是词典词条中精确词的第一个字。
步骤003:根据多个目标词条构建目标红黑树的目标节点。
其中,目标节点包括第一级节点以及剩余节点。首先,根据目标词条的第一个字确定所述目标红黑树的第一级节点,也即:将目标词条的目标精确词中的第一个字作为目标红黑树的第一级节点。然后,按照目标词条的目标精确词中剩余字的顺序依次确定目标红黑树的剩余节点。例如,对于字典词条中,包括词条“万科广场”以及词条“万达”,则首先将第一个字“万”字作为目标红黑树的第一级节点,然后将“科”及“达”作为第二级节点,将“广”作为“科”下面关联的第三级节点,将“场”作为“广”下面关联的第四级节点,从而形成一个红黑树。
本发明实施例中,多个目标红黑树构成索引树。其中,目标红黑树的第一级节点为第一级索引结构,第二级节点为第二级索引结构,以此类推。此外,各个目标红黑树之间可能存在引用关系。
其中,红黑树的节点数据包括节点对应的当前节点值、相邻的其它词、下级节点指针。当前节点值为当前节点对应的字。红黑树的终止节点中还包括终止数据,该终止数据可以是第一级节点对应的字到终止节点对应的字所组成的词。例如:当目标词条是目标精确词与其它词的组合,若目标精确词中字的左侧或右侧包括有其他词,则在该字对应的节点中存储有对应的其他词。例如,目标词条为“<cityName>市?万科”,则对应的目标精确词为“万科”,第一个字为“万”,因此将“万”字作为目标红黑树的第一级节点,将“万”及“<cityName>市?”将存储在第一级节点中。
本发明实施例中,将目标文本与预设的索引树进行匹配的具体步骤包括:
步骤1201:将目标文本中的当前文本字与该索引树中的第一级索引结构匹配,确定匹配红黑树。也即将当前文本字与多个红黑树的第一级节点进行匹配。
步骤1202:若匹配到匹配红黑树,则执行步骤1203;若未匹配到,则执行步骤1206。
步骤1203:确定该当前文本字命中,将该当前文本字作为一个命中字。
步骤1204:将目标文本中的下一个文本字与所述匹配红黑树的下一个节点进行匹配。
步骤1205:若下一个文本字与所述下一个节点匹配,则确定该下一个文本为一个命中字,并执行步骤1204,直至到达匹配红黑树的终止节点,将所有的命中字组合得到目标文本中与预设的索引树匹配的词;若不匹配,则返回执行步骤1201。
步骤1206:若未匹配到匹配红黑树,则确定当前文本字未命中,并将下一个文本字作为当前文本字,返回步骤1201,执行进一步地匹配操作。
步骤130:将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
本发明实施例中,在得到目标文本中与预设的索引树匹配的词之后,将其确定为目标关键词。该目标关键词可以为禁用词、行业词、敏感词等。
在本发明的一个实施例中,目标词典为敏感词词典。将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将目标关键词作为目标敏感词;
在目标文本中对所述目标敏感词进行过滤操作。该过滤操作可以是模糊处理、删除等操作。
通过这样的方式能够快速确定目标文本中出现的敏感词,并进行相应的处理操作,提高了敏感词的扫描及识别效率。
在本发明的另一个实施例中,目标词典为行业词词典。将目标文本中与预设的索引树匹配的词确定为目标关键词之后,包括:
将目标关键词作为目标行业词;
根据目标行业词对所述目标文本进行处理。对目标文本进行处理包括提取目标文本信息等操作。
通过这样的方式能够快速确定目标文本中是否涉及行业关键词,并进行相应的处理操作,提高了行业关键词的扫描及识别效率。
本发明实施例通过构建目标词典对应的多个红黑树,将目标文本与红黑树进行匹配,来确定目标关键词,缩小了扫描的深度,能够实现对目标文本快速精准地进行关键词扫描的有益效果。
进一步地,本发明实施例在构建红黑树时,红黑树的节点包括了目标词条中的精准词以及正则表达式,在保证扫描的速度及精度的同时,还可以实现模糊匹配。
图2示出了本发明实施例提供的文本关键词搜索装置的结构示意图。如图2所示,该装置200包括:获取模块210、匹配模块和确定模块230。
获取模块210,用于获取目标文本;
匹配模块220,用于将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
确定模块230,用于将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
本发明实施例中,所述目标词典包括多个词典词条。所述装置还包括:
构建模块,用于构建模块,用于从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;根据所述多个目标词条构建目标红黑树的目标节点。
在一种可选的方式中,所述目标节点包括第一级节点以及剩余节点;
根据所述多个目标词条构建目标红黑树的目标节点,包括:
根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;
按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点。
在一种可选的方式中,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。
在一种可选的方式中,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标敏感词;
在所述目标文本中对所述目标敏感词进行过滤操作。
在一种可选的方式中,所述目标词典为行业词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标行业词;
根据所述目标行业词对所述目标文本进行处理。
本发明实施例的文本关键词搜索装置的具体工作步骤与上述文本关键词搜索方法实施例的具体方法步骤流程相同,此处不再赘述。
本发明实施例通过构建目标词典对应的多个红黑树,将目标文本与红黑树进行匹配,来确定目标关键词,缩小了扫描的深度,能够实现对目标文本快速精准地进行关键词扫描的有益效果。
进一步地,本发明实施例在构建红黑树时,红黑树的节点包括了目标词条中的精确词以及正则表达式,在保证扫描的速度及精度的同时,还可以实现模糊匹配。
图3示出了本发明实施例提供的文本关键词搜索设备的结构示意图,本发明具体实施例并不对文本关键词搜索设备的具体实现做限定。
如图3所示,该文本关键词搜索设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于文本关键词搜索方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。文本关键词搜索设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使文本关键词搜索设备执行以下操作:
获取目标文本;
将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
在一种可选的方式中,所述目标词典包括多个词典词条;
所述将所述目标文本与预设的索引树进行匹配之前,包括:
从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;
根据所述多个目标词条构建目标红黑树的目标节点。
在一种可选的方式中,所述目标节点包括第一级节点以及剩余节点;
根据所述多个目标词条构建目标红黑树的目标节点,包括:
根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;
按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点。
在一种可选的方式中,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。
在一种可选的方式中,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标敏感词;
在所述目标文本中对所述目标敏感词进行过滤操作。
在一种可选的方式中,所述目标词典为行业词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标行业词;
根据所述目标行业词对所述目标文本进行处理。
本发明实施例的文本关键词搜索设备的具体工作步骤与上述文本关键词搜索方法实施例的具体方法步骤流程相同,此处不再赘述。
本发明实施例通过构建目标词典对应的多个红黑树,将目标文本与红黑树进行匹配,来确定目标关键词,缩小了扫描的深度,能够实现对目标文本快速精准地进行关键词扫描的有益效果。
进一步地,本发明实施例在构建红黑树时,红黑树的节点包括了目标词条中的精确词以及正则表达式,在保证扫描的速度及精度的同时,还可以实现模糊匹配。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在文本关键词搜索设备上运行时,使得所述文本关键词搜索设备执行上述任意方法实施例中的文本关键词搜索方法。
可执行指令具体可以用于使得文本关键词搜索设备执行以下操作:
获取目标文本;
将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
在一种可选的方式中,所述目标词典包括多个词典词条;
所述将所述目标文本与预设的索引树进行匹配之前,包括:
从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;
根据所述多个目标词条构建目标红黑树的目标节点。
在一种可选的方式中,所述目标节点包括第一级节点以及剩余节点;
根据所述多个目标词条构建目标红黑树的目标节点,包括:
根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;
按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点。
在一种可选的方式中,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。
在一种可选的方式中,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标敏感词;
在所述目标文本中对所述目标敏感词进行过滤操作。
在一种可选的方式中,所述目标词典为行业词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标行业词;
根据所述目标行业词对所述目标文本进行处理。
本发明实施例的计算机可读存储介质的具体程序步骤与上述文本关键词搜索方法实施例的具体方法步骤流程相同,此处不再赘述。
本发明实施例通过构建目标词典对应的多个红黑树,将目标文本与红黑树进行匹配,来确定目标关键词,缩小了扫描的深度,能够实现对目标文本快速精准地进行关键词扫描的有益效果。
进一步地,本发明实施例在构建红黑树时,红黑树的节点包括了目标词条中的精确词以及正则表达式,在保证扫描的速度及精度的同时,还可以实现模糊匹配。
本发明实施例提供一种文本关键词搜索装置,用于执行上述文本关键词搜索方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使文本关键词搜索设备执行上述任意方法实施例中的文本关键词搜索方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的文本关键词搜索方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (7)
1.一种文本关键词搜索方法,其特征在于,所述方法包括:
获取目标文本;
从多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;目标红黑树为所述多个红黑树中任意一个红黑树;根据所述多个目标词条构建目标红黑树的目标节点;目标词典包括多个词典词条;
所述目标节点包括第一级节点以及剩余节点;根据所述多个目标词条构建目标红黑树的目标节点,包括:根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点;
将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标敏感词;
在所述目标文本中对所述目标敏感词进行过滤操作。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述目标词典为行业词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标行业词;
根据所述目标行业词对所述目标文本进行处理。
5.一种文本关键词搜索装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本;
构建模块,用于从多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;目标红黑树为所述多个红黑树中任意一个红黑树;根据所述多个目标词条构建目标红黑树的目标节点;目标词典包括多个词典词条;
所述目标节点包括第一级节点以及剩余节点;根据所述多个目标词条构建目标红黑树的目标节点,包括:根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点;
匹配模块,用于将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
确定模块,用于将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。
6.一种文本关键词搜索设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4任意一项所述的文本关键词搜索方法的操作。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在文本关键词搜索设备上运行时,使得文本关键词搜索设备执行如权利要求1-4任意一项所述的文本关键词搜索方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038882.0A CN112765433B (zh) | 2021-01-12 | 2021-01-12 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110038882.0A CN112765433B (zh) | 2021-01-12 | 2021-01-12 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765433A CN112765433A (zh) | 2021-05-07 |
CN112765433B true CN112765433B (zh) | 2024-04-26 |
Family
ID=75701649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110038882.0A Active CN112765433B (zh) | 2021-01-12 | 2021-01-12 | 文本关键词扫描方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765433B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893102A (en) * | 1996-12-06 | 1999-04-06 | Unisys Corporation | Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression |
CN102023989A (zh) * | 2009-09-23 | 2011-04-20 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN105843950A (zh) * | 2016-04-12 | 2016-08-10 | 乐视控股(北京)有限公司 | 敏感词过滤方法及装置 |
CN105930362A (zh) * | 2016-04-12 | 2016-09-07 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
CN106383814A (zh) * | 2016-09-13 | 2017-02-08 | 电子科技大学 | 一种英文社交媒体短文本分词方法 |
CN112035595A (zh) * | 2020-08-31 | 2020-12-04 | 平安医疗健康管理股份有限公司 | 医疗领域中审核规则引擎的构建方法、装置和计算机设备 |
-
2021
- 2021-01-12 CN CN202110038882.0A patent/CN112765433B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893102A (en) * | 1996-12-06 | 1999-04-06 | Unisys Corporation | Textual database management, storage and retrieval system utilizing word-oriented, dictionary-based data compression/decompression |
CN102023989A (zh) * | 2009-09-23 | 2011-04-20 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN105843950A (zh) * | 2016-04-12 | 2016-08-10 | 乐视控股(北京)有限公司 | 敏感词过滤方法及装置 |
CN105930362A (zh) * | 2016-04-12 | 2016-09-07 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
CN106383814A (zh) * | 2016-09-13 | 2017-02-08 | 电子科技大学 | 一种英文社交媒体短文本分词方法 |
CN112035595A (zh) * | 2020-08-31 | 2020-12-04 | 平安医疗健康管理股份有限公司 | 医疗领域中审核规则引擎的构建方法、装置和计算机设备 |
Non-Patent Citations (3)
Title |
---|
Procedures of extending the alphabet in combined coding for prediction by partial string matching in text compression;Radu Rădescu等;《 2017 9th International Conference on Electronics, Computers and Artificial Intelligence (ECAI)》;20171207;1-6 * |
U社区后台核心模块的设计与实现;矫云媛;《中国优秀硕士学位论文全文数据库信息科技辑》;20150915(第09期);I139-53 * |
带可变长度通配符的模式匹配算法研究;刘应玲;《中国博士学位论文全文数据库 信息科技辑》;20140915(第09期);I138-54 * |
Also Published As
Publication number | Publication date |
---|---|
CN112765433A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106033416B (zh) | 一种字符串处理方法及装置 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN109857957B (zh) | 建立标签库的方法、电子设备及计算机存储介质 | |
CN111125408A (zh) | 基于特征提取的搜索方法、装置、计算机设备和存储介质 | |
CN107577943B (zh) | 基于机器学习的样本预测方法、装置及服务器 | |
CN115344805A (zh) | 素材审核方法、计算设备及存储介质 | |
CN109635072B (zh) | 舆情数据分布式存储方法、装置、存储介质和终端设备 | |
CN103914479B (zh) | 资源请求的匹配方法和装置 | |
CN116560984A (zh) | 一种基于调用依赖图的测试用例聚类分组方法 | |
CN113468339B (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN110427496B (zh) | 用于文本处理的知识图谱扩充方法及装置 | |
CN112765433B (zh) | 文本关键词扫描方法、装置、设备及计算机可读存储介质 | |
CN110990701B (zh) | 书籍搜索方法、计算设备及计算机存储介质 | |
CN106202127B (zh) | 一种垂直搜索引擎对检索请求的处理方法及装置 | |
CN110968666A (zh) | 基于相似度的标题生成模型的训练方法及计算设备 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN114884686B (zh) | 一种php威胁识别方法及装置 | |
CN110598115A (zh) | 一种基于人工智能多引擎的敏感网页识别方法及系统 | |
CN112784061B (zh) | 知识图谱的构建方法、装置、计算设备及存储介质 | |
CN110968763A (zh) | 数据处理的方法及装置 | |
EP3113038B1 (en) | A data handling method | |
CN109815312B (zh) | 一种文档查询的方法、装置、计算设备及计算机存储介质 | |
CN109543024B (zh) | 一种文本处理方法及装置 | |
CN110543622A (zh) | 文本相似度检测方法、装置、电子设备及可读存储介质 | |
CN106407215A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |