CN111191105A - 政务信息的搜索方法、装置、系统、设备及存储介质 - Google Patents
政务信息的搜索方法、装置、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN111191105A CN111191105A CN201911051073.2A CN201911051073A CN111191105A CN 111191105 A CN111191105 A CN 111191105A CN 201911051073 A CN201911051073 A CN 201911051073A CN 111191105 A CN111191105 A CN 111191105A
- Authority
- CN
- China
- Prior art keywords
- search
- expression
- search expression
- target
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000014509 gene expression Effects 0.000 claims abstract description 319
- 238000003058 natural language processing Methods 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 24
- 238000005065 mining Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 19
- 238000009825 accumulation Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 8
- 238000007418 data mining Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 244000062793 Sorghum vulgare Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 235000019713 millet Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及政务信息的搜索方法、装置、系统、设备及存储介质,属于网络技术领域。该方法包括:获取初始搜索表达式;通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;确定与所述候选搜索表达式对应的目标搜索规则;根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。上述技术方案,解决了目前搜索方法无法达到准确搜索政务信息目的的问题。在获取到初始搜索表达式时,能准确分析出其要搜索的目标政务信息,实现政务信息的智能搜索。
Description
技术领域
本发明涉及网络技术领域,特别是涉及政务信息的搜索方法、装置、系统、计算机设备及存储介质。
背景技术
随着网络技术的发展,搜索技术的重要性逐步体现。随着检索技术的逐步深入,对搜索的准确性要求也越来越高,特别是政务领域,其所要搜索的内容较多较杂,对准确性要求更为严格。在实现本发明过程中,发明人发现传统方式中至少存在如下问题:目前的搜索技术主要是对用户输入的关键词进行匹配检索。如果词库中存在用户输入的关键词,则针对性地输出检索结果;而如果不存在对应的关键词,则不会输出检索结果,此时就需要用户替换新的关键词,这种搜索方法无法达到智能化地搜索政务信息的目的。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于此,本发明实施例提供了政务信息的搜索方法、装置、系统、计算机设备及存储介质,能实现对政务信息的智能化搜索。
本发明实施例的内容如下:
第一方面,本发明实施例提供一种政务信息的搜索方法,包括:获取初始搜索表达式;通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;确定与所述候选搜索表达式对应的目标搜索规则;根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
第二方面,本发明实施例提供一种政务信息的搜索装置,包括:初始表达式获取模块,用于获取初始搜索表达式;候选表达式获取模块,用于通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;搜索规则确定模块,用于确定与所述候选搜索表达式对应的目标搜索规则;表达式改写模块,用于根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;政务信息获取模块,用于根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
第三方面,本发明实施例提供一种政务信息的搜索系统,包括:搜索服务平台、自然语言处理平台、规则配置引擎以及政务存储引擎;所述搜索服务平台,用于获取初始搜索表达式,将所述初始搜索表达式发送给所述自然语言处理平台;所述自然语言处理平台,用于对所述初始搜索表达式进行处理,得到候选搜索表达式,将所述候选搜索表达式通过所述搜索服务平台发送给所述规则配置引擎;所述规则配置引擎,用于确定与所述候选搜索表达式对应的目标搜索规则,将所述目标搜索规则返回给所述搜索服务平台;所述搜索服务平台,还用于根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式,将所述目标搜索表达式发送给所述政务存储引擎;所述政务存储引擎,用于根据所述目标搜索表达式,获取对应的目标政务信息并返回给所述搜索服务平台;所述搜索服务平台,还用于输出所述目标政务信息。
第四方面,本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取初始搜索表达式;通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;确定与所述候选搜索表达式对应的目标搜索规则;根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
第五方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取初始搜索表达式;通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;确定与所述候选搜索表达式对应的目标搜索规则;根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过自然语言处理平台对初始搜索表达式进行处理,得到候选搜索表达式;根据与候选搜索表达式对应的目标搜索规则,对候选搜索表达式进行改写,得到目标搜索表达式;根据目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。在获取到初始搜索表达式时,通过搜索规则确定出最有可能要检索的内容,进而改写搜索表达式,能自动准确分析出要搜索的目标政务信息,实现智能搜索。
附图说明
图1为一个实施例中政务信息的搜索方法的应用环境图;
图2为一个实施例中政务信息的搜索方法的流程示意图;
图3为一个实施例中同义词配置的界面示意图;
图4为一个实施例中确定候选搜索表达式的流程示意图;
图5为一个实施例中停用词配置的界面示意图;
图6为一个实施例中分词配置的界面示意图;
图7为一个实施例中同义词挖掘的界面示意图;
图8为一个实施例中词条挖掘的界面示意图;
图9为一个实施例中搜索规则配置的界面示意图;
图10为另一个实施例中搜索规则配置的界面示意图;
图11为一个实施例中敏感词配置的界面示意图;
图12为一个实施例中建议词显示的界面示意图;
图13为一个实施例中建议词配置的界面示意图;
图14为一个实施例中过滤条件和建议词配置的界面示意图;
图15为另一个实施例中政务信息的搜索方法的流程示意图;
图16为一个实施例中政务信息的搜索装置的结构框图;
图17为一个实施例中政务信息的搜索系统的结构框图;
图18为另一个实施例中政务信息的搜索系统的结构框图;
图19为一个实施例中计算机设备的内部结构。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供的政务信息的搜索方法可以应用于如图1所示的应用环境中。该应用环境中包含有搜索服务平台101、自然语言处理平台102以及政务存储引擎103,三者通过网络进行通信。搜索服务平台101在获取到初始搜索表达式之后,将初始搜索表达式发送给自然语言处理平台102以得到候选搜索表达式,搜索服务平台101确定目标搜索规则并对候选搜索表达式进行改写,得到对应的目标搜索表达式,根据该目标搜索表达式,从政务存储引擎103中获取对应的目标政务信息。其中,搜索服务平台101、自然语言处理平台102以及政务存储引擎103均可以通过终端设备或者服务器实现,具体的,终端设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明实施例提供一种政务信息的搜索方法、装置、系统、计算机设备及存储介质。以下分别进行详细说明。在本发明实施例中,搜索服务平台、自然语言处理平台以及政务存储引擎可以整合为一个系统。因此,在实施例描述过程中涉及到的系统可以指由搜索服务平台、自然语言处理平台以及政务存储引擎构成的系统。
在一个实施例中,如图2所示,提供了一种政务信息的搜索方法(以该方法应用于图1中的搜索服务平台为例进行说明),包括以下步骤:
S201、获取初始搜索表达式。
其中,搜索表达式指的是在搜索过程中输入到搜索框中的表达式,可以是文本、图片、视频等形式,具体的,对于搜索表达式为文本的情况,可以为单个字、词等,也可以是一段文字、一篇文章等。
初始搜索表达式可以指用户输入的原始搜索表达式,也可以是原始搜索表达式进行简单处理之后得到的表达式。进一步地,初始搜索表达式可以是直接读取用户输入的原始搜索表达式,也可以在读取用户输入的原始搜索表达式后进行运算得到,还可以是从内存或者其他设备中读取得到。
S202、通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式。
其中,自然语言处理平台指的是能够对表达式进行自然语言处理的平台,这个平台可以通过计算机设备实现,也可以通过应用程序等实现。进一步地,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理(Nature Language Processing,NLP)是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。自然语言处理平台可以简称为NLP平台。进一步地,自然语言处理平台可以通过知文NLP平台实现。
其中,以初始搜索表达式为文本为例,对初始搜索表达式进行的处理可以是对初始搜索表达式进行词语分析、词性分析、同义词查找等操作,即确定初始搜索表达式中所包含的词语(若无明确说明,本发明实施例中的词语包括单个字的情况),并确定这些词语的含义,进而根据词语的含义确定同义词等,根据所确定的词语以及对应的同义词得到候选搜索表达式。当然,对于初始搜索表达式为图片和视频的情况,可以先将图片和视频转化为文本的形式(例如:确定图片代码、视频代码,提取图片和视频中的文字,将图片和视频中所要表达的内容转换成文字形式),进而通过自然语言处理平台进行处理,此时处理过程可以参见对文本进行处理的过程。
S203、确定与所述候选搜索表达式对应的目标搜索规则。
其中,搜索规则指的是进行信息搜索应当遵循的映射规则,可以通过表格的形式记载在规则映射表中。其中,规则映射表中可以包含有规则名称、搜索表达式、权重等。
因此,搜索服务平台在确定候选搜索表达式后,将其输入到政务存储引擎中,政务存储引擎通过查询数据库的规则映射表就能查找出相匹配的搜索规则,这个相匹配的搜索规则就可以作为目标搜索规则。
S204、根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式。
规则映射表中包含有权重等信息,因此可以根据权重等信息对候选搜索表达式进行改写,改写后得到的表达式就可以作为目标搜索表达式。这个权重可以根据对应表达式出现的可能性来确定,出现可能性越高的表达式对应的权重越高。
S205、根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
其中,政务存储引擎中可以存储各种类型的政务数据。政务领域有很多政务专业词,而且会经常增加,还有纠错(例如拼写纠错等)需要经过专业训练,而这个训练没有政务语料库是训练不了的,而且目前缺乏提供同义词挖掘和新词挖掘的工具,本发明实施例可以根据从广东政务服务网、数智贵阳、长沙超脑等平台中挖掘政务领域的专业词语,有效解决现有技术的上述问题。另一方面,政务存储引擎可以通过hermes(实时检索分析平台)存储引擎等实现。
上述实施例提供的政务信息的搜索方法,在获取到初始搜索表达式时,通过搜索规则确定出最有可能要检索的内容,进而改写搜索表达式,能自动准确分析出要搜索的目标政务信息,实现智能搜索;对于用户而言,用户只需要输入关键词(其中甚至可以包含错别字),就能得到真正想要检索的内容,而不需要替换关键词,这样能有效简化用户的检索过程,提升用户在检索过程中的体验。
在一个实施例中,规则映射表可以存储在政务存储引擎中,具体的,可以存储于政务存储引擎的数据库中。因此,搜索服务平台通过访问政务存储引擎就能根据规则映射表获取到目标搜索规则,对搜索服务平台而言,它不需要占用内存空间去保存规则映射表,同时能通过访问政务存储引擎快速获取到目标搜索规则。
在一个实施例中,所述通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式的步骤,包括:通过自然语言处理平台,对所述初始搜索表达式进行词语分析,得到第一候选搜索词;所述词语分析包括以下至少一项:词语识别、拼写纠错和词性分析;对所述第一候选搜索词进行语义分析,根据语义分析的结果得到第二候选搜索词;通过自然语言处理平台,确定所述第二候选搜索词对应的同义词;所述同义词包括政务正式术语;所述同义词根据语义网络算法、词向量算法和/或编辑距离算法挖掘得到;根据所述第二候选搜索词以及所述同义词,得到所述候选搜索表达式。在本发明实施例中,同义词的个数可以为一个、两个甚至多个,当同义词为两个或者多个时,可以根据同义词与原始词语(也可以称为原始分词)的相似度进行排序,优先搜索相似度更高的同义词。
其中,词语识别指的是识别初始搜索表达式中包含的词语,具体的,可以将初始搜索表达式尽可能地拆分为单个词语、单词或字母。还可以对词语进行拼写;另外,如果表达式中包含有拼音、单词等,也可以对其进行拼写纠错,例如:初始搜索表达式中包含有“licende”(将license执照这个单词中的s错写成了d)这样的拼写,则自然语言处理平台可以自动为其纠错,认为用户真正想要输入的是“license”。更进一步地,还可以对初始搜索表达式中的内容进行词性分析,例如:当输入“license”时,自然语言处理平台会认为是一个名词,当输入“click”时,自然语言处理平台会认为是一个动词,当输入“the”时,自然语言处理平台会认为是一个定冠词,进行词性分析后,可以将其中不影响搜索结果的词去掉,例如:副词、定冠词、语气词等。在一些实施例中,自然语言处理平台进行的这些词语分析过程也可以由搜索服务平台来执行。经过上述的词语分析后,可以将拆分出来的词语确定为第一候选搜索词,用于后续的分析过程。
进一步地,在自然语言处理平台得到第一候选搜索词之后,搜索服务平台可以对第一候选搜索词进行语义分析。语义分析举例如下:当输入“license”时,搜索服务平台会认为是执照;当输入29-32位的数字+字母(例如:11440000MB2D02343720D02343720)时,搜索服务平台会猜测该初始搜索表达式是想按实施清单编码检索办事指南。在一些实施例中,对第一候选搜索词进行语义分析的过程也可以在自然语言处理平台中进行。
政务领域里的很多用语是非常专业而且严谨的,但是用户往往只知道通俗的说法,要使搜索服务平台能够理解用户的意图,同义词可以很好地解决这个问题,比如用户输入驾照(用户通俗用法),那么可以把驾驶证(专业词汇)作为驾照的同义词搜索出来。
另外,可以对第二候选搜索词以及同义词进行简单排序后得到一个表达式,该表达式即可作为候选搜索表达式。
在一些实施例中,可以根据语义网络算法、词向量算法或编辑距离算法挖掘得到同义词。对于语义网络算法,可以根据用户的历史搜索日志来确定同义词,例如,网络用户搜索“苹果”这一关键词,其目标政务信息是安装有IOS系统的手机,网络用户搜索“iPhone”这一关键词,其目标政务信息也是安装有IOS系统的手机,则可以认为“苹果”和“iPhone”互为同义词;对于词向量算法,可以分别确定语料中各个词的词向量,当某两个或多个词向量的相似度高于某一阈值(例如:90%)时,则认为对应的词互为同义词;对于编辑距离算法,可以通过计算欧式距离、Levenshtein距离等方式确定语料中词汇为同义词的概率,若两个词语对应的距离高于某一阈值(例如:90%)时,则认为对应的词互为同义词。
另外,也可以由用户设置同义词,例如,通过图3所示的界面,将驾驶证和驾照设置为同义词。
在一个实施例中,如图4所示,确定候选搜索表达式的具体实现过程可以如下:
S401、搜索服务平台将初始搜索表达式发送给自然语言处理平台。
S402、自然语言处理平台对初始搜索表达式进行词语分析,得到第一候选搜索词。
S403、自然语言处理平台将第一候选搜索词返回给搜索服务平台。
S404、搜索服务平台对第一候选搜索词进行语义分析,得到第二候选搜索词。
S405、搜索服务平台将第二候选搜索词发送给自然语言处理平台。
S406、自然语言处理平台确定第二候选搜索词对应的同义词。
S407、自然语言处理平台将同义词返回给搜索服务平台。
S408、搜索服务平台根据第二候选搜索词以及同义词,得到候选搜索表达式。
为了更好地理解上述实施例,以下具体说明确定候选搜索表达式的过程:
假设所获取的初始搜索表达式为:怎么查询自己的驾照剩余份数。
1、自然语言处理平台对初始搜索达式进行词语拆分,拆分得到的词语为:怎么、查询、自己、的、驾照、剩余、份数,经过拼写检查确定“份数”实际上指的是“分数”。
2、自然语言处理平台分别确定这些词语的词性,得出结果:“怎么”为副词,“查询”为动词,“自己”、“驾照”以及“分数”为名词,“的”为助词,“剩余”为形容词。此时将第一候选搜索词确定为:怎么-查询-自己-的-驾照-剩余-分数-份数,将第一候选词以及这些词的词性返回给搜索服务平台。
3、搜索服务平台对这些第一候选搜索词进行语义分析,确定各个词语对应的含义,进而得到第二候选搜索词:驾照-剩余-分数-份数,并将第二候选搜索词发送给自然语言处理平台。
4、自然语言处理平台确定“驾照”对应的同义词为“驾驶证”,因此,将候选搜索表达式确定为:(驾照OR驾驶证)AND剩余AND(分数OR份数)。其中,“OR”表示前后两个词为或的关系,“AND”表示前后两个词为和的关系。
上述实施例结合自然语言处理平台对初始搜索表达式进行词语分析、同义词确定等,并结合对搜索词的语义分析,得到候选搜索表达式。所得到的候选搜索表达式对用户初始输入的表达式进行多方面的扩展分析,自动建立起用户常规表达与政务专业检索之间的桥梁,能实现政务信息的智能准确搜索,同时,能实现对搜索表达式的纠错,省去用户重新修改搜索表达式的麻烦,提高政务信息的搜索效率。
在一个实施例中,使用自然语言处理平台进行新词挖掘或同义词挖掘的时候,需要配置stopwords(即,停用词或者停词)。可以通过图5所示的界面进行停用词的配置,例如,在挖掘同义词时,去除词语中的“一”和“——”。在获取到初始搜索表达式后,可以过滤初始搜索表达式中的停用词,根据过滤停用词后的初始搜索表达式进行新词的挖掘或者确定对应的同义词。这样可以过滤掉输入语料文件中不需要的词,以免影响新词挖掘或同义词挖掘的效果,提高政务信息搜索的准确性和效率。
其中,挖掘新词可以指发现政务存储引擎中未存储的词。进一步地,新词挖掘可以根据用户的搜索日志来确定,例如,当用户输入的搜索表达式中包含有某个人名A,而人名A并未存储在政务存储引擎中,则搜索服务器可以将人名A存储到政务存储引擎中,并为人名A建立索引(将某个人对应的政务信息与这个人名A建立索引),因此,在用户下一次输入人名A时,自动为其搜索对应的政务信息。分词是建立索引的基础,如果对于一个不在词库里的词进行检索,因为没有索引就不会被检索出来。这个时候通过添加一个新词(添加到系统中的词就可以称为分词),让系统识别这个词,再次检索时就可以获得比较准确的结果。具体的,可以通过如图6所示的界面进行分词的添加。
需要说明的是,在本发明实施例中,进行配置时都可以设置有效时间,使得所配置的分词、停用词、同义词、敏感词等在有效时间内可用。有效时间经过,则可以续期或者配置新的分词、停用词、同义词、敏感词等。
在一个实施例中,搜索服务平台可以包含有数据挖掘工具,以进行新词发现、同义词挖掘以及词条挖掘等功能。在本发明实施例中,数据挖掘可以指在根据网络数据进行信息扩展,进一步地,数据挖掘可以定期多次进行。具体的,在非互联网行业,比如政务、司法、公安等领域,NLP词库里可能未收录某些垂直领域的相关词,可以通过执行新词挖掘任务发现新词,新词发现可以增量执行(即增加新的以前没有出现过的词),可以针对新的语料文件(例如:腾讯云机器登录方式、智能语音客服机器人)进行挖掘,通过人工review(审查)后添加到NLP词库中(分词管理),从而丰富NLP词库并且提高搜索的准确性;可以通过图7所示的界面进行同义词挖掘,例如,用户在选择“出生证”之后,通过语义网络的方式获取“出生证”的同义词,还能更进一步地获取相关词语,例如“二孩”、“二胎”等,通过人工review后确认生效(添加到同义词管理中),同义词可以让用户使用更贴近生活的用语来检索专业的知识;可以通过图8所示的界面进行词条的挖掘,例如,为“老年”这一词所挖掘的词条可以为“老年优待证办”、“老年优待证办理申请”、“老年优待证办理”等,挖掘结果通过人工review后,可以添加到搜索建议词中,还可以添加这些词条的热度(热度可以根据词条出现的频率确定)。
进一步地,如果上一次进行数据挖掘任务是手工停止任务,则可以根据历史任务执行耗时情况,确保上一个任务已经真正停止并释放CPU和内存资源后再开启新任务,以防止出现多任务运行的情况,导致所挖掘新词的混乱(因为新词可能根据热度不同实时更新,如果多个任务一起执行,则可能这些任务所挖掘出的新词结果不同)。
在一个实施例中,所述根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式的步骤,包括:根据所述目标搜索规则,分别确定所述同义词对应的第一权重和所述第二候选搜索词对应的第二权重;根据所述第一权重和所述第二权重对所述候选搜索表达式进行改写,得到所述目标搜索表达式。对候选搜索表达式的改写除了通过上述第一权重和第二权重进行,还可以根据拼写纠错前后词语的权重进行改写,例如:纠错前的词语权重为P1,纠错后的词语权重为P2(P2可以比P1小),根据P1和P2对候选搜索表达式进行改写。当然,还可以通过第一权重、第二权重、拼写纠错前词语的权重、拼写纠错后词语的权重中的一个或多个来进行候选搜索表达式的改写。
进一步地,在一个实施例中,所述确定与所述候选搜索表达式对应的目标搜索规则的步骤,包括:通过规则配置引擎中的规则映射表,确定与所述候选搜索表达式对应的目标搜索规则;所述规则映射表中包含有搜索表达式与搜索规则的对应关系;其中,所述搜索规则包括词性校验规则和正则表达式规则。
其中,规则映射表可以如下所示:
表1规则映射表
其中,该规则映射表中包含有10条搜索规则。regex表示规则映射表中搜索规则的规范化格式,它可以表示词性校验规则(如8和9),也可以表示正则表达式规则(如1-7以及10);rule_name表示的是搜索规则名称;type表示的是搜索规则的类型,1表示正则表达式规则,2表示词性校验规则;content表示规则的示例;priority表示权重,可以根据对应内容在搜索服务平台中出现的频率确定。在搜索服务平台确定候选搜索表达式后,将该表达式与regex中的格式进行匹配,如果存在相匹配的格式,则判定该候选搜索表达式对应的是该条搜索规则。另外,还可以有同义词规则关联,例如:A1和A2互为同义词,则在映射表中查询到A1对应的搜索规则后,可以根据该同义词关联规则找到A2对应的搜索规则。
基于此,在确定候选搜索表达式后,通过查询规则映射表就能获知相匹配的目标搜索规则(初始搜索表达式中的原始词语以及同义词可以对应不同的目标搜索规则),进而能确定对应的权重。由于规则映射表中包含的搜索规则不止一个,在接收到初始搜索表达式之后,可以为规则映射表中所有的搜索规则都设置权重。具体的,当用户输入“广东省教育厅”的搜索表达式时,系统会猜测其检索的是办事指南里的组织机构名称,那么检索时匹配命中的组织机构搜索规则将获得配置的权重(一般来说这个权重会比较大,例如80),默认其他搜索规则的权重都是1(当然,还可以为其他值),那么检索返回结果就可以精确匹配到用户想检索的内容。
进一步地,在确定原始词语的同义词后,可以分别确定原始词语和同义词的权重,两者权重可以不一样,同义词权重可以比原始词语小。另外,纠错前的词和纠错后的词也会可以有不同的权重。根据上述这些权重对候选表达式进行改写,得到目标搜索表达式。
具体的,对候选搜索表达式进行改写的过程可以举例如下:初始搜索表达式为“广州公鸡金贷款”。进行分词处理为:广州,公鸡金,贷款;搜索服务平台会进行纠错为广州,公积金,贷款,分别确定这些词对应的搜索规则以及权重,进而得到候选搜索表达式为:广州AND(公鸡金OR公积金)AND贷款。进行规则识别,比如对应到广州这一规则,搜索服务平台会理解为搜索区域为广州的公积金贷款,因此确定目标搜索表达式为:广州^80AND(公鸡金贷款^100OR公积金贷款^80)。其中,^后面的数值表示^前面词语对应的权重。
上述实施例通过规则映射表来确定目标搜索规则和权重,进而对搜索表达式进行改写,所得到的目标搜索表达式充分考虑了用户原始输入的内容、搜索服务平台以及自然语言处理平台扩展、纠错得到的内容,能尽可能搜索出用户想要搜索的内容,有效提高政务信息搜索的准确性。另外,通过字段权重的分配,干预结果文档的评分,评分高的将排在最前面,从而智能识别用户搜索的意图,提高搜索准确性。
在一个实施例中,在进行政务信息的搜索之前,还可以包括规则配置的过程,具体的配置界面可以如图9所示,可以对事项实施清单编码、机构名、人名、邮箱、年份、企业注册号、座机号码(可带分机或不带分机)、统一社会信用代码和手机号等。进一步地,点击图9中对应规则的触发控件,可以对这些规则进行具体配置,例如,对事项实施清单编码进行配置的界面可以如图10所示,可以通过操作(修改或删除)对搜索规则的权重、数据库表名(规则映射表所存储的数据库的表名)、数据库字段等进行配置。如图10所示,还可以显示各个规则相互关联的规则,例如,与同义词对应的规则进行关联。
在一个实施例中,政务信息的搜索方法还包括以下步骤:若从政务存储引擎中未获取到对应的目标政务信息,根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表。
当从政务存储引擎中未获取到对应的目标政务信息,即没有结果返回时,可以通过分析其原因。这里的原因可以有两个:1、问法不合适,即搜索表达式不够规范,例如,表达式中的检索词不符合政务信息的常规表达,例如,表达式中为“瞎子”,则政务存储引擎中存储的相关信息为“盲人”,或者,表达式中为“驾照”,则政务存储引擎中存储的相关信息为“驾驶证”;2、分词问题,例如,搜索了一个人名,但是人名不在词典(不在映射关系表)里。
进一步地,在一个实施例中,所述根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表的步骤,包括:将所述初始搜索表达式作为新词;将所述新词添加到所述规则配置引擎的对应规则映射表中。
在一个实施例中,所述根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表的步骤,包括:确定与所述初始搜索表达式对应的同义词,将该同义词添加到所述规则配置引擎的对应规则映射表中。
在一个实施例中,所述根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表的步骤,包括:确定改写得到的所述目标搜索表达式是否正确;若不正确,重新确定目标搜索表达式。
具体的,在确定没有结果返回之后,搜索服务平台可以进行以下优化操作:1、词条挖掘,搜索建议词里可以添加一些用户常用的检索词,例如,将用户前述输入的“瞎子”和“驾照”输入记载到政务存储引擎中;2、提升搜索效果,建立瞎子-盲人、驾照-驾驶证之间的同义词关系(对应到规则映射表中则可以为规则关联);3、检查搜索的改写是否正确,是否得当,例如:经过改写得到目标搜索表达式R1,而根据R1搜索不到对应的政务信息,则可以重新改写得到目标搜索表达式R2(例如:重新确定同义词、权重等),如果此时根据R2能够搜索到对应的政务信息,则说明R1不正确,此时可以调整规则映射表中对应的权重等信息。
上述实施例根据政务信息的搜索结果调整规则映射表,能及时更新规则映射表,保证所获取的政务信息的准确性。
在一些实施例中,还可以对初始搜索表达式进行评分,若评分值高于预设的第一阈值(第一阈值的大小可以根据实际情况确定),则执行后续的政务信息搜索步骤,若评分值等于或低于第一阈值,则不执行后续的政务信息搜索步骤。其中,评分值可以是热度、词频等。
进一步的,若初始搜索表达式的评分值低于第二阈值(第一阈值可以等于也可以不等于第二阈值)时,也可以进行前述实施例中的优化操作,优化操作能使得政务信息的搜索结果更为准确。
在一个实施例中,所述获取初始搜索表达式的步骤之前,还包括:接收原始搜索表达式;判断所述原始搜索表达式是否符合预设的表达式过滤条件;若符合,结束所述政务信息的搜索方法的执行过程;若不符合,输出与所述原始搜索表达式对应的建议词;所述建议词根据历史搜索日志确定;所述获取初始搜索表达式的步骤,包括:接收根据所述建议词发送的初始搜索表达式。
判断所述原始搜索表达式是否符合预设的表达式过滤条件可以指判断原始搜索表达式中是否包含有敏感词,如果是敏感词,则判定符合预设的表达式过滤条件,不进行后续的搜索过程。其中,敏感词可以是带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语,也可以是根据实际情况设定的一些只适用特定应用程序的特殊敏感词。可以通过如图11所示的界面进行敏感词的添加(如果导入失败,则可以),当敏感词导入成功后,可以与用户输入的搜索表达式进行匹配,当用户输入的搜索表达式与导入的敏感词匹配时,就不进行后续的政务信息搜索过程。
其中,建议词可以指向用户推荐的搜索信息,例如,如图12所示,在用户在搜索输入框中输入“公积金”时,在下拉框的位置上显示“公积金提取”和“公积金贷款”,这时,如果用户要搜索的正是公积金提取的相关内容,则直接点击“公积金提取”的下拉框就可以搜索“公积金提取”的相关政务信息。
在一些实施例中,建议词根据历史搜索日志确定,可以将搜索频率较高的搜索表达式与其中特定的检索词建立对应关系,例如,在过去的一个月中,用户在输入“公积金”之后,继续输入对应信息,所对应的表达式有以下几种:1、公积金提取、公积金贷款、公积金余额查询,这几种情况出现的概率分别为50%、40%和10%。因此,可以将“提取”和“贷款”确定为“公积金”的建议词,在用户在搜索框中输入“公积金”时,在下拉框分别输出“公积金提取”和“公积金贷款”。另外,建议词也可以根据热度来显示,如图13所示,根据用户搜索“居住证申请”、“居住证办理”、“公积金贷款”和“公积金提取”的频率,分别将它们的热度确定为10/8/5/2。因此,在用户输入“居住证”时,就能按照热度大小分别显示“居住证申请”和“居住证办理”;在用户输入“公积金”时,就能按照热度大小分别显示“公积金贷款”和“公积金提取”。
可以通过图14所示的界面进行过滤条件和建议词的配置(其中,“查询关键字”对应的为建议词),通过如图14所示的配置,在用户输入:粳米、黄米、炒米等检索词时,可以输出小米品牌(一个手机品牌)的建议词,当然,也可以输出小米食品(一种主食)的建议词。
上述实施例过滤原始搜索表达式中的敏感词,能有效保证网络环境的安全性和稳定性;另外,在原始搜索表达式中没有敏感词时,为其输出建议词,这样的方式能有效提高搜索的效率,提高用户的体验。
在一些实施例中,搜索表达式中可以包含有另一个网站或者应用程序的信息,通过这样的方式,可以实现网站的跳转,用户在网上办事的入口只需要一个,就可以查询到各种想要查询的目标政务信息,能有效提高用户搜索的便捷性。
在一个实施例中,如图15所示,以下以搜索服务平台为例,详细阐述一个本发明政务信息的搜索方法的应用实例。
S1501、接收原始搜索表达式。
S1502、判断所述原始搜索表达式是否符合预设的表达式过滤条件。
S1503、若符合,结束所述政务信息的搜索方法的执行过程。
S1504、若不符合,输出与所述原始搜索表达式对应的建议词。
S1505、接收根据所述建议词发送的初始搜索表达式。
S1506、通过自然语言处理平台(可以为知文NLP),对所述初始搜索表达式进行词语分析,得到第一候选搜索词。
S1507、对所述第一候选搜索词进行语义分析,根据语义分析的结果得到第二候选搜索词。
S1508、通过自然语言处理平台,确定所述第二候选搜索词对应的同义词。
S1509、根据所述第二候选搜索词以及所述同义词,得到候选搜索表达式。
S1510、通过规则配置引擎(可以为hermes)中的规则映射表,确定与所述候选搜索表达式对应的目标搜索规则。
S1511、根据所述目标搜索规则,分别确定所述同义词对应的第一权重和所述第二候选搜索词对应的第二权重。
S1512、根据所述第一权重和所述第二权重对所述候选搜索表达式进行改写,得到目标搜索表达式。
S1513、根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
S1514、若从政务存储引擎中未获取到对应的目标政务信息,根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表。
本发明实施例的政务信息的搜索方法,可以基于建设广东政务服务网、数智贵阳、长沙超脑等深入挖掘政务信息,尤其是事项目录系统、12345的专有名词,并引入知文的NLP处理能力和hermes存贮能力,通过日志挖掘、行为分析、语义分析,让搜索能尽力像人一样准确识别用户的意图,并通过历史的项目积累的政务领域分词、同义词、搜索建议,并进行纠错、拼音识别、敏感词识别等,很好解决了用户在政务服务网上搜不到、查不准、找不到办事入口办事难的问题。获取政务相关数据有一定的门槛,外部成熟的专业搜索产品无法获得政务领域数据,而传统服务对政务领域的搜索产品不成熟,导致政务领域的搜索重复建设,效果不理想,本发明实施例成功挖掘了非常多政务领域的分词、同义词、敏感词,并且通过规则的配置和搜索的意图识别,准确捕捉用户的搜索意图,提高了用户检索准确性和满意度,可以在政务市场快速复用并产生较高经济效益。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的政务信息的搜索方法相同的思想,本发明还提供政务信息的搜索装置和系统,该装置和系统可用于执行上述政务信息的搜索方法。为了便于说明,政务信息的搜索装置和系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在一个实施例中,如图16所示,提供一种政务信息的搜索装置1600,包括初始表达式获取模块1601、候选表达式获取模块1602、搜索规则确定模块1603、表达式改写模块1604和政务信息获取模块1605,详细说明如下:
初始表达式获取模块1601,用于获取初始搜索表达式。
候选表达式获取模块1602,用于通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式。
搜索规则确定模块1603,用于确定与所述候选搜索表达式对应的目标搜索规则。
表达式改写模块1604,用于根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式。
政务信息获取模块1605,用于根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
本发明实施例提供的政务信息的搜索装置,在获取到初始搜索表达式时,能准确分析出其要搜索的目标政务信息,实现智能搜索。
在一个实施例中,候选表达式获取模块1602,包括:第一搜索词确定子模块,用于通过自然语言处理平台,对所述初始搜索表达式进行词语分析,得到第一候选搜索词;所述词语分析包括以下至少一项:词语识别、拼写纠错和词性分析;第二搜索词确定子模块,用于对所述第一候选搜索词进行语义分析,根据语义分析的结果得到第二候选搜索词;同义词确定子模块,用于通过自然语言处理平台,确定所述第二候选搜索词对应的同义词;所述同义词包括政务正式术语;所述同义词根据语义网络算法、词向量算法和/或编辑距离算法挖掘得到;候选表达式确定子模块,用于根据所述第二候选搜索词以及所述同义词,得到所述候选搜索表达式。
在一个实施例中,表达式改写模块1604,包括:权重确定子模块,用于根据所述目标搜索规则,分别确定所述同义词对应的第一权重和所述第二候选搜索词对应的第二权重;表达式改写子模块,用于根据所述第一权重和所述第二权重对所述候选搜索表达式进行改写,得到所述目标搜索表达式。
在一个实施例中,搜索规则确定模块1603,还用于通过规则配置引擎中的规则映射表,确定与所述候选搜索表达式对应的目标搜索规则;所述规则映射表中包含有搜索表达式与搜索规则的对应关系;其中,所述搜索规则包括词性校验规则和正则表达式规则。
在一个实施例中,政务信息的搜索装置1600,还包括:映射表调整模块,用于若从政务存储引擎中未获取到对应的目标政务信息,根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表。
在一个实施例中,政务信息的搜索装置1600,还包括:原始表达式接收模块,用于接收原始搜索表达式;过滤条件判断模块,用于判断所述原始搜索表达式是否符合预设的表达式过滤条件;过程结束模块,用于若符合,结束所述政务信息的搜索方法的执行过程;建议词输出模块,用于若不符合,输出与所述原始搜索表达式对应的建议词;所述建议词根据历史搜索日志确定;初始表达式获取模块1601,还用于接收根据所述建议词发送的初始搜索表达式。
在一个实施例中,如图17所示,提供一种政务信息的搜索系统,包括:搜索服务平台1701、自然语言处理平台1702、规则配置引擎1703以及政务存储引擎1704;其中,自然语言处理平台1702、规则配置引擎1703以及政务存储引擎1704分别与搜索服务平台1701网络连接。具体的,所述搜索服务平台,用于获取初始搜索表达式,将所述初始搜索表达式发送给所述自然语言处理平台;所述自然语言处理平台,用于对所述初始搜索表达式进行处理,得到候选搜索表达式,将所述候选搜索表达式通过所述搜索服务平台发送给所述规则配置引擎;所述规则配置引擎,用于确定与所述候选搜索表达式对应的目标搜索规则,将所述目标搜索规则返回给所述搜索服务平台;所述搜索服务平台,还用于根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式,将所述目标搜索表达式发送给所述政务存储引擎;所述政务存储引擎,用于根据所述目标搜索表达式,获取对应的目标政务信息并返回给所述搜索服务平台;所述搜索服务平台,还用于输出所述目标政务信息。
本发明实施例提供的政务信息的搜索系统,在获取到初始搜索表达式时,能准确分析出其要搜索的目标政务信息,实现智能搜索。
在一个实施例中,如图18所示,提供一种政务信息的搜索系统,包括:控制单元1801、规则配置单元1802以及数据挖掘单元1803;规则配置单元1802以及数据挖掘单元1803分别与控制单元1801网络连接;所述规则配置单元,用于提供搜索规则;所述控制单元,用于获取初始搜索表达式;通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;从规则配置单元提供的提供搜索规则中,确定与所述候选搜索表达式对应的目标搜索规则;根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息;所述数据挖掘单元,用于根据所述初始搜索表达式挖掘新词、同义词和建议词,并根据所挖掘的新词、同义词和建议词对规则配置引擎的规则映射表进行调整。
需要说明的是,本发明的政务信息的搜索装置、系统与本发明的政务信息的搜索方法一一对应,在上述政务信息的搜索方法的实施例阐述的技术特征及其有益效果均适用于政务信息的搜索装置、系统的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述示例的政务信息的搜索装置、系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述政务信息的搜索装置、系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
本申请提供的政务信息的搜索方法可以应用于如图19所示的计算机设备中。该计算机设备可以是服务器,也可以是终端设备,其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置等。其中,处理器用于提供计算和控制能力;存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统、计算机程序(该计算机程序被处理器执行时实现一种政务信息的搜索方法)和数据库,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境;数据库用于存储政务信息的搜索方法执行过程中涉及到的数据,可以设置于政务存储引擎中,该数据库中可以存储规则映射表等数据;网络接口用于与外部的终端通过网络连接通信,例如:与外接键盘连接,用于接收键盘输入的搜索表达式;显示屏可以是液晶显示屏或者电子墨水显示屏,输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。进一步的,终端设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本领域技术人员可以理解,图19中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的政务信息的搜索装置可以实现为一种计算机程序的形式,计算机程序可在如图19所示的计算机设备上运行。计算机设备的存储器中可存储组成该政务信息的搜索装置的各个程序模块,比如,图16所示的初始表达式获取模块1601、候选表达式获取模块1602、搜索规则确定模块1603、表达式改写模块1604和政务信息获取模块1605。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的政务信息的搜索方法中的步骤。
例如,图19所示的计算机设备可以通过如图16所示的政务信息的搜索装置中的初始表达式获取模块1601执行S201,可通过候选表达式获取模块1602执行S202,可通过搜索规则确定模块1603执行S203,可通过表达式改写模块1604执行S204,可通过政务信息获取模块1605执行S205。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述政务信息的搜索方法的步骤。此处政务信息的搜索方法的步骤可以是上述各个实施例的政务信息的搜索方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述政务信息的搜索方法的步骤。此处政务信息的搜索方法的步骤可以是上述各个实施例的政务信息的搜索方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种政务信息的搜索方法,其特征在于,包括:
获取初始搜索表达式;
通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;
确定与所述候选搜索表达式对应的目标搜索规则;
根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;
根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
2.根据权利要求1所述的方法,其特征在于,所述通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式的步骤,包括:
通过自然语言处理平台,对所述初始搜索表达式进行词语分析,得到第一候选搜索词;所述词语分析包括以下至少一项:词语识别、拼写纠错和词性分析;
对所述第一候选搜索词进行语义分析,根据语义分析的结果得到第二候选搜索词;
通过自然语言处理平台,确定所述第二候选搜索词对应的同义词;所述同义词包括政务正式术语;所述同义词根据语义网络算法、词向量算法和/或编辑距离算法挖掘得到;
根据所述第二候选搜索词以及所述同义词,得到所述候选搜索表达式。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式的步骤,包括:
根据所述目标搜索规则,分别确定所述同义词对应的第一权重和所述第二候选搜索词对应的第二权重;
根据所述第一权重和所述第二权重对所述候选搜索表达式进行改写,得到所述目标搜索表达式。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述候选搜索表达式对应的目标搜索规则的步骤,包括:
通过规则配置引擎中的规则映射表,确定与所述候选搜索表达式对应的目标搜索规则;所述规则映射表中包含有搜索表达式与搜索规则的对应关系;其中,所述搜索规则包括词性校验规则和正则表达式规则。
5.根据权利要求4所述的方法,其特征在于,还包括:
若从政务存储引擎中未获取到对应的目标政务信息,根据所述初始搜索表达式调整所述规则配置引擎中的规则映射表。
6.根据权利要求1所述的方法,其特征在于,
所述获取初始搜索表达式的步骤之前,还包括:
接收原始搜索表达式;
判断所述原始搜索表达式是否符合预设的表达式过滤条件;
若符合,结束所述政务信息的搜索方法的执行过程;
若不符合,输出与所述原始搜索表达式对应的建议词;所述建议词根据历史搜索日志确定;
所述获取初始搜索表达式的步骤,包括:
接收根据所述建议词发送的初始搜索表达式。
7.一种政务信息的搜索装置,其特征在于,包括:
初始表达式获取模块,用于获取初始搜索表达式;
候选表达式获取模块,用于通过自然语言处理平台对所述初始搜索表达式进行处理,得到候选搜索表达式;
搜索规则确定模块,用于确定与所述候选搜索表达式对应的目标搜索规则;
表达式改写模块,用于根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式;
政务信息获取模块,用于根据所述目标搜索表达式,从政务存储引擎中获取对应的目标政务信息。
8.一种政务信息的搜索系统,其特征在于,包括:搜索服务平台、自然语言处理平台、规则配置引擎以及政务存储引擎;
所述搜索服务平台,用于获取初始搜索表达式,将所述初始搜索表达式发送给所述自然语言处理平台;
所述自然语言处理平台,用于对所述初始搜索表达式进行处理,得到候选搜索表达式,将所述候选搜索表达式通过所述搜索服务平台发送给所述规则配置引擎;
所述规则配置引擎,用于确定与所述候选搜索表达式对应的目标搜索规则,将所述目标搜索规则返回给所述搜索服务平台;
所述搜索服务平台,还用于根据所述目标搜索规则,对所述候选搜索表达式进行改写,得到目标搜索表达式,将所述目标搜索表达式发送给所述政务存储引擎;
所述政务存储引擎,用于根据所述目标搜索表达式,获取对应的目标政务信息并返回给所述搜索服务平台;
所述搜索服务平台,还用于输出所述目标政务信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911051073.2A CN111191105B (zh) | 2019-10-31 | 2019-10-31 | 政务信息的搜索方法、装置、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911051073.2A CN111191105B (zh) | 2019-10-31 | 2019-10-31 | 政务信息的搜索方法、装置、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191105A true CN111191105A (zh) | 2020-05-22 |
CN111191105B CN111191105B (zh) | 2024-06-07 |
Family
ID=70709082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911051073.2A Active CN111191105B (zh) | 2019-10-31 | 2019-10-31 | 政务信息的搜索方法、装置、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191105B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737499A (zh) * | 2020-07-27 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于自然语言处理的数据搜索方法及相关设备 |
CN112035598A (zh) * | 2020-11-03 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种智能语义检索方法、系统和电子设备 |
CN112579765A (zh) * | 2020-12-18 | 2021-03-30 | 中国平安人寿保险股份有限公司 | 基于布尔表达式的数据筛选方法、装置、设备及存储介质 |
CN112732876A (zh) * | 2021-02-08 | 2021-04-30 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN107784014A (zh) * | 2016-08-30 | 2018-03-09 | 广州市动景计算机科技有限公司 | 信息搜索方法、设备及电子设备 |
CN110019738A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种搜索词的处理方法、装置及计算机可读存储介质 |
-
2019
- 2019-10-31 CN CN201911051073.2A patent/CN111191105B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN107784014A (zh) * | 2016-08-30 | 2018-03-09 | 广州市动景计算机科技有限公司 | 信息搜索方法、设备及电子设备 |
CN110019738A (zh) * | 2018-01-02 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种搜索词的处理方法、装置及计算机可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737499A (zh) * | 2020-07-27 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于自然语言处理的数据搜索方法及相关设备 |
CN112035598A (zh) * | 2020-11-03 | 2020-12-04 | 北京淇瑀信息科技有限公司 | 一种智能语义检索方法、系统和电子设备 |
CN112579765A (zh) * | 2020-12-18 | 2021-03-30 | 中国平安人寿保险股份有限公司 | 基于布尔表达式的数据筛选方法、装置、设备及存储介质 |
CN112732876A (zh) * | 2021-02-08 | 2021-04-30 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
CN112732876B (zh) * | 2021-02-08 | 2022-07-08 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111191105B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790006B2 (en) | Natural language question answering systems | |
US11720572B2 (en) | Method and system for content recommendation | |
US11442932B2 (en) | Mapping natural language to queries using a query grammar | |
US10198491B1 (en) | Computerized systems and methods for extracting and storing information regarding entities | |
CN111191105B (zh) | 政务信息的搜索方法、装置、系统、设备及存储介质 | |
CN109815333B (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
WO2020057022A1 (zh) | 关联推荐方法、装置、计算机设备和存储介质 | |
CN106462604B (zh) | 识别查询意图 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
US8296309B2 (en) | System and method for high precision and high recall relevancy searching | |
US20110087961A1 (en) | Method and System for Assisting in Typing | |
US20120117102A1 (en) | Query suggestions using replacement substitutions and an advanced query syntax | |
US8825620B1 (en) | Behavioral word segmentation for use in processing search queries | |
CN109933708A (zh) | 信息检索方法、装置、存储介质及计算机设备 | |
US9317608B2 (en) | Systems and methods for parsing search queries | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
WO2013071305A2 (en) | Systems and methods for manipulating data using natural language commands | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
Gacitua et al. | Relevance-based abstraction identification: technique and evaluation | |
US11151317B1 (en) | Contextual spelling correction system | |
US11681732B2 (en) | Tuning query generation patterns | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN110569419A (zh) | 问答系统优化方法、装置、计算机设备及存储介质 | |
CN114860887A (zh) | 基于智能联想的疾病内容推送方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |