CN113312540A - 信息处理方法、装置、设备、系统及可读存储介质 - Google Patents
信息处理方法、装置、设备、系统及可读存储介质 Download PDFInfo
- Publication number
- CN113312540A CN113312540A CN202110664381.3A CN202110664381A CN113312540A CN 113312540 A CN113312540 A CN 113312540A CN 202110664381 A CN202110664381 A CN 202110664381A CN 113312540 A CN113312540 A CN 113312540A
- Authority
- CN
- China
- Prior art keywords
- synonym
- target
- target service
- added
- database table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000012423 maintenance Methods 0.000 abstract description 11
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 11
- 240000003768 Solanum lycopersicum Species 0.000 description 11
- 238000007726 management method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种信息处理方法、装置、设备、系统及可读存储介质,涉及计算机技术领域,以提高对同义词的维护效率。该方法包括:获取目标业务系统的目标业务场景的待添加同义词;对所述待添加同义词进行预处理,得到目标同义词;利用所述目标同义词更新所述同义词处理插件的同义词数据库表。本申请实施例可以提高对同义词的维护效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息处理方法、装置、设备、系统及可读存储介质。
背景技术
近年来,搜索引擎技术在垂直搜索、互联网搜索领域的应用场景变得越来越广泛。但是,在搜索引擎的应用场景增多的同时,也出现了一些问题。比如,番茄和西红柿为同义词,表达的含义相同,但是搜索引擎技术无法分辨出这两个同义词。因此,需要对具有相同含义的同义词进行映射。
ES(Elastic Search,弹性搜索)搜索引擎是一种分布式搜索引擎。针对ES搜索引擎,现有技术中提供了以下两种方案进行同义词的管理:一种是通过本地文件静态设置同义词方案;第二种是开源同义词插件提供了一种远程服务器文件通过HTTP(Hyper TextTransfer Protocol,超文本传输协议)接口动态更新同义词方案。
但是,无论是现有技术中的哪种方案,都存在对同义词的维护效率较低的问题。
发明内容
本申请实施例提供一种信息处理方法、装置、设备、系统及可读存储介质,以提高对同义词的维护效率。
第一方面,本申请实施例提供了一种信息处理方法,应用于ES集群中的同义词处理插件,包括:
获取目标业务系统的目标业务场景的待添加同义词;
对所述待添加同义词进行预处理,得到目标同义词;
利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
第二方面,本申请实施例还提供一种信息处理装置,应用于ES集群中的同义词处理插件,包括:
第一获取模块,用于获取目标业务系统的目标业务场景的待添加同义词;
第一处理模块,用于对所述待添加同义词进行预处理,得到目标同义词;
第一更新模块,用于利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
第三方面,本申请实施例还提供一种信息处理系统,包括:至少一个业务系统,ES集群,所述ES集群包括多个ES节点,每个所述ES节点设置有同义词处理插件;
所述业务系统,用于发送目标业务场景的待添加同义词;
所述同义词处理插件,用于对所述待添加同义词进行预处理,得到目标同义词;利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
第四方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的信息处理方法中的步骤。
第五方面,本申请实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的信息处理方法中的步骤。
第六方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,在本申请实施例中,在目标业务系统的目标业务场景需要增加同义词的情况下,更新同义词,实现了动态更新同义词,达到快速响应业务需求;通过同义词数据表对同义词进行集中维护,避免了维护混乱问题;将同义词处理插件作为同义词更新的执行主体,实现了业务系统、ES集群和同义词管理的解耦,提高了系统的可用性和可维护性;获取的待添加同义词是同一业务场景的,实现了同一业务场景的同义词的集中更新,提升了同义词的维护效率。
附图说明
图1是本申请实施例提供的信息处理系统的示意图之一;
图2是本申请实施例提供的信息处理系统的示意图之二;
图3是本申请实施例提供的信息处理方法的流程图之一;
图4是本申请实施例提供的配置信息的配置方式示意图;
图5是本申请实施例提供的信息处理方法的流程图之二;
图6是本申请实施例提供的信息处理装置的结构图。
具体实施方式
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例的信息处理系统的示意图。在该系统中,可包括至少一个业务系统101,ES集群102,所述ES集群包括多个ES节点,每个所述ES节点设置有同义词处理插件1021。其中,一个业务系统可由多个同义词处理插件为其提供服务。
在该系统中,所述业务系统101,用于发送目标业务场景的待添加同义词;所述同义词处理插件1021,用于对所述待添加同义词进行预处理,得到目标同义词;利用所述目标同义词更新所述同义词处理插件的同义词数据库表。所述业务系统是其中的任意一个系统;业务场景可以包括金融,搜索领域等等;所述目标场景可以指的是业务系统支持的任一业务场景。
为了进一步便于同义词的集中化管理,如图2所示,本申请实施例的系统还可包括:WEB应用103,用于接收所述业务系统发送的目标业务场景的待添加同义词,并将待添加同义词存储到同义词数据库中,所述同义词数据库用于存储同义词数据库表。此时,所述同义词处理插件1021,用于根据所述业务系统对应的同义词更新检查周期,通过所述WEB应用查找同义词数据库,当确定所述目标业务系统需要更新同义词时,通过所述WEB应用获取所述目标业务系统的目标业务场景的待添加同义词。
在本申请实施例中,可通过WEB应用提供操作同义词数据库表的接口,如增加、删除、查询等。通过设置的WEB应用可维护同义词的增加、删除、修改和查询等,同时还可避免操作文件而带来的失误,也便于同义词插件进行同义词的增量更新。在进行数据库表的维护时,可为每个业务场景下的同义词设置唯一索引,用以保证同一个业务场景下同义词的唯一性。当操作完某个同义词之后,可通过查找该同义词的索引标识其操作状态,从而可避免对该同义词的重复操作以及通过文件维护产生的数据冗余。
可以看出,在本申请实施例中,在目标业务系统的目标业务场景需要增加同义词的情况下,更新同义词,实现了动态更新同义词,达到快速响应业务需求;通过同义词数据表对同义词进行集中维护,避免了维护混乱问题;将同义词处理插件作为同义词更新的执行主体,实现了业务系统、ES集群和同义词管理的解耦,提高了系统的可用性和可维护性;获取的待添加同义词是同一业务场景的,实现了同一业务场景的同义词的集中更新,提升了同义词的维护效率。
参见图3,图3是本申请实施例提供的信息处理方法的流程图,应用于ES集群中的同义词处理插件,如图3所示,包括以下步骤:
步骤301、获取目标业务系统的目标业务场景的待添加同义词。
其中,所述目标业务系统可以指的是信息处理系统中的任一业务系统,所述目标业务场景可以是该目标业务系统支持的任一业务场景。
在此步骤中,可根据所述目标业务系统对应的同义词更新检查周期,通过WEB应用查找同义词数据库,所述同义词数据库用于存储同义词数据库表。所述同义词更新检查周期可以通过目标业务系统的配置信息确定。当确定所述目标业务系统需要更新同义词时,通过所述WEB应用获取目标业务系统的目标业务场景的待添加同义词。例如,当通过WEB应用获取的目标业务场景的同义词数据库表和自身存储的不一致时,即可确定所述目标业务系统需要更新同义词。此时,可通过所述WEB应用获取目标业务系统的目标业务场景的待添加同义词。通过这种方式,可对同义词实行集中化的管理,并且减少不必要的更新,从而节约系统资源。
在一种实现方式中,在步骤301之前,方法还包括:
接收所述目标业务系统的查询请求;
当通过所述查询请求查询同义词数据库表得到候选索引时,向所述目标业务系统发送所述候选索引;
所述获取目标业务系统的目标业务场景的待添加同义词,包括:当通过所述查询请求查询同义词数据库表无法得到候选索引时,获取目标业务系统的目标业务场景的待添加同义词,所述待添加同义词位于所述查询请求中。
具体的,在实际应用中,可接收目标业务系统发送的查询请求,所述查询请求中可包括多个关键词或者语句。经对该关键词或者语句进行分词处理后,可以得到多个词语。同义词处理插件查找自身存储的ES索引,如果未能查找到与该多个词语中的某个词语或者字相匹配的ES索引也即候选索引,则该词语可作为该目标业务场景的待添加同义词,从而对同义词数据库表进行扩充。当通过所述查询请求查询同义词数据库表得到候选索引时,向所述目标业务系统发送所述候选索引,以通过目标业务系统将该候选索引输出。通过这种方式,不仅能够满足业务系统的查询请求还可对同义词库表进行更新,还可使得获得的同义词数据库表更符合业务的需求。
步骤302、对所述待添加同义词进行预处理,得到目标同义词。
在一种实现方式中,步骤302的具体实现方式有:
获取所述目标业务场景对应的目标同义词规则;根据目标同义词规则对所述待添加同义词进行处理,得到目标同义词。
其中,同一业务系统的不同业务场景对应的同义词规则可以是相同的,也可以是不同的,在此不做限定;不同业务系统的相同业务场景对应的同义词规则可以是相同的,也可以是不同的,在此不做限定。
其中,所述同义词规则用于指示不同词语和索引之间的映射方式,所述同义词规则中指示的索引用于表示搜索或查询结果。
在一示例中,同义词规则可有两种:单向同义词和双向同义词。单向同义词可表示为:a,b=>c,即词a和词b都会解析成为词c,词c存入索引中。双向同义词:a,b,c,即在出现词a或词b或词c的地方,词a或词b或词c都会解析成a,b,c,那么将a,b,c存入索引中。
在一示例中,所述目标业务系统的配置信息包括所述目标同义词规则。另外,所述目标业务系统的配置信息除了包括目标同义词规则外,还可包括同义词访问地址、同义词更新检查周期、分词器信息、对同义词所包括的字母表示方式(如大小写转换)的设置信息等。
进一步的,为使得获得的同义词更符合不同业务场景的需求,还可在所述待添加同义词包含字母时,根据所述第一目标业务系统目标业务系统的配置信息,将所述待添加同义词中所包括的字母进行表示方式转换,所述配置信息包括所述第一目标业务系统目标业务系统对同义词所包括的字母表示方式的设置信息。例如,如果配置信息表示同义词都为小写字母,那么,如果所述待添加同义词包含字母且字母为大写,那么,需将其中包含的大写字母转换为小写。
由于同义词的规则是人为设置的,因此,为确保转换后的待添加同义词的准确性,在此,还可进一步的对其进行校验。具体的,在得到目标同义词之后,还可利用所述第一目标业务系统目标业务系统对应的分词器对目标同义词进行分词处理,得到分词结果。若所述分词结果和所述目标同义词一致,则利用所述目标同义词更新所述同义词处理插件的同义词数据库表。若不一致,则需要处理待添加同义词。例如,待添加同义词为A,那么,对添加同义词进行分词后,如果分词结果为A,那么表示分词结果和所述目标同义词一致。
通过以上的预处理和通过分词器校验同义词规则,可增加同义词的可维护性、容错性,并可丰富同义词的功能。
步骤303、利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
在本申请实施例中,采用数据库表的方式对同义词进行集中式管理,从而可便于对同义词进行增加、删除、修改和查找等,进而提高工作效率。如表1所示,在数据库中预定义同义词表synonym_word_tb。
表1
其中,字段id用于表示用于标识同义词,synonym_rule表示同义词规则,status表示状态配置信息,1表示将同义词作为同义词进行应用;0表示不将同义词作为同义词进行应用;system_key和business_key分别表示系统标识和业务场景标识,create_time用于表示同义词的创建时间,也即表示该同义词的获取时间。
实际应用中,不同的业务数据可对应到统一的数据库表中,同义词存储在数据库表中的格式可如表2所示:
表2
在实际应用中,业务系统可根据实际场景预先定义系统key和业务key(例如,互联网实时新闻,系统key可定义为internet,业务key可定义为realtime_news),并且选择合适的分词器、考虑是否需要忽略大小写,考虑动态同义词需要多久更新一次(即同义词更新检查周期)。通过以上信息,可形成配置信息。如前所述,所述配置信息包括同义词规则、还可包括同义词访问地址、同义词更新检查周期、分词器信息、对同义词所包括的字母表示方式的设置信息等。
因此,在此步骤中,可获取所述目标业务系统的第一标识和所述目标业务场景的第二标识,然后,根据所述第一标识和所述第二标识查找所述同义词数据库表,将所述目标同义词存储到所述同义词数据库表的对应位置。
进一步的,为了保证信息的全面性,在此还可获取所述目标同义词的创建时间和/或所述目标业务系统对所述目标同义词的状态配置信息,然后,将所述创建时间和/或状态配置信息存储到所述同义词数据库表的对应位置。其中,所述状态配置信息可以是由维护人员预定义的。所述创建时间例如可以是获取待添加同义词的时间,或者,还可以是将待添加同义词预处理并得到目标同义词的时间。
其中,所述状态配置信息表示是否将本是同义词的词语作为同义词进行应用。例如,西红柿和番茄是同义词,可根据具体的应用场景,确定是否将其作为同义词,此时,可通过设置状态配置信息来体现。如果状态配置信息设置为1,那么,表示将西红柿和番茄作为同义词,在搜索时,西红柿和番茄可映射为相同的词;否则,将西红柿和番茄不作为同义词,在搜索时,西红柿和番茄可映射为不同的词。
可以看出,在本申请实施例中,在目标业务系统的目标业务场景需要增加同义词的情况下,更新同义词,实现了动态更新同义词,达到快速响应业务需求;通过同义词数据表对同义词进行集中维护,避免了维护混乱问题;将同义词处理插件作为同义词更新的执行主体,实现了业务系统、ES集群和同义词管理的解耦,提高了系统的可用性和可维护性;获取的待添加同义词是同一业务场景的,实现了同一业务场景的同义词的集中更新,提升了同义词的维护效率。
在本申请实施例中,还可在第一次执行本申请实施例的方法时初始化所述同义词处理插件。当然,在后续执行本申请实施例的过程中,也可初始化同义词处理插件。初始化的过程主要是利用各业务系统的配置信息对同义词处理插件进行配置,并根据初始获取的同义词等进行同义词数据表的生成。
具体的,在初始化同义词处理插件时,获取目标业务系统的目标业务场景的配置信息,其中,所述配置信息包括同义词规则、同义词访问地址、同义词更新检查周期、分词器信息、对同义词所包括的字母表示方式的设置信息。然后,获取初始同义词数据库表。其中,初始同义词数据库表可以是根据业务系统的历史数据处理信息获取的数据库表等。之后,利用所述目标业务系统的目标业务场景的同义词规则,将所述初始同义词数据库表中的同义词进行转换,得到处理后的初始同义词数据库表,并利用所述目标业务系统的目标业务场景的分词器对所述处理后的初始同义词数据库表中的同义词进行分词,得到分词结果。若所述分词结果和所述处理后的初始同义词数据库表中的同义词一致,则加载所述处理后的初始同义词数据库表。由于同义词的规则是人为设置的,因此,通过此种方式的校验,可确保转换后的待添加同义词的准确性。
对其他目标业务系统的同义词插件进行初始化的方式和对目标业务系统的同义词插件进行初始化的方式原理相同。
具体的,可根据业务场景下的同义词规则,根据预先定义的系统key和业务key,通过WEB应用提供的接口导入同义词表进行同义词规则初始化。接着,在根据业务场景预先定义的系统key和业务key,定义索引mapping(映射)和setting(设置),并在setting中自定义分析器。其中,索引mapping和setting的定义如图4所示。例如,可在图4的JSON(JavaScriptObject Notation,JS对象简谱)的analyzer_with_dynamic_synonym中的自定义分析器。之后,同义词处理插件获取配置参数,配置同义词的访问接口(该接口由WEB应用提供)、定时任务时间间隔、分词器等配置信息,比如图4的JSON里的faq_synonym。
在图4中,synonym_url:必须配置,表示同义词访问地址,需要根据具体业务场景和业务系统配置;
tokenizer:表示指定分词器;
ignore_case:表示是否忽略字母大小写,true(真)为忽略,false(假)为不忽略;
interval:非必须配置的,默认值是60,单位秒,表示定时任务时间间隔,也即检查同义词数据库表是否有更新的时间间隔;
expand:对于双向同义词来说,当expand为true(真)时,当出现以下任何一个token(令牌),三个token都会存入倒排索引中;当expand为false(假)时,当出现以下任何一个token,第一个token会存入倒排索引中。
参见图5,图5是本申请实施例提供的信息处理方法的流程图,如图5所示,包括以下步骤:
步骤501、初始化同义词处理插件。
其中,初始化的过程可包括:
1)调用同义词HTTP接口获取同义词规则数据。
具体的,可首先获取业务系统的配置信息,其中,所述配置信息包括同义词规则、同义词访问地址、同义词更新检查周期、分词器信息、对同义词所包括的字母表示方式的设置信息。其中,所述目标业务系统可以是任意的业务系统。然后,获取初始同义词数据库表。其中,初始同义词数据库表可以是根据业务系统的历史数据处理信息获取的数据库表等。
2)利用业务系统的同义词规则,将所述初始同义词数据库表中的同义词进行转换,得到处理后的初始同义词数据库表。
3)利用业务系统的分词器对所述处理后的初始同义词数据库表中的同义词进行分词,得到分词结果。若所述分词结果和所述处理后的初始同义词数据库表中的同义词一致,则加载所述处理后的初始同义词数据库表。
步骤502、接收业务系统的查询请求。
步骤503、根据所述查询请求以及当前存储的同义词数据库表进行查找。
步骤504、当通过所述查询请求查询同义词数据库表能够得到目标索引时,向所述业务系统发送所述目标索引。
步骤505、当通过所述查询请求查询同义词数据库表无法得到目标索引时,获取所述业务系统的待添加同义词,所述待添加同义词位于所述查询请求中。
步骤506、根据所述待添加同义词对所述同义词数据库表进行更新。
其中,步骤506的过程可参照前述实施例的描述。
例如,可初始化如下表3的数据到ES集群的互联网公司实时新闻标题索引库:
表3
根据业务场景,定义系统key为internet,业务key为realtime_news。初始化互联网公司名的同义词到数据库,如下表4所示。
表4
以上表3和表4的数据可同步到各个ES节点的同义词处理插件。
假设,用户输入的查询请求包括“google”,“eBay”。通过查找表3,可获得对应索引,如“如何重新定义公司?看谷歌是如何成功运营”,“eBay将在大中华区推出管理支付服务简化购物流程”。但是,当用户输入的查询请求包括“wechat”或者“apple”时,将无法获得对应的索引。此时,需要更新表4的内容。此时,业务系统可通过WEB应用接口,按照系统key和业务key将“微信,wechat,wx”、“苹果,apple”等同义词初始化到数据库中,更新后的数据库内容如表5所示:
表5
同义词处理插件定时检测同义词的更新状态。如果需要进行同义词更新,则按照前述的方法更新同义词数据库表,并将同义词数据库表同义词更新到ES集群的各个节点。那么,在用户的再次输入如果包括“微信”时,那么,即可获得对应的索引,如“微信上线十年了!最初的好友还有联系吗?”等。
通过以上的描述可以看出,在本申请实施例中,可通过更新数据库表的方式动态更新同义词,从而能够快速的响应业务需求。同时,通过将所有同义词通过数据库进行维护,还便于同义词的集中管理以及抽取出公共的同义词。此外,通过同义词处理插件将业务系统、ES集群中间件、同义词管理进行解耦,提高了系统的可用性、可维护性。当业务有变更需求时,可直接通过WEB应用对同义词进行调整,能够快速响应业务需求,不会影响业务系统和ES集群,极大的避免了人为操作出错的概率。
本申请实施例还提供了一种信息处理装置。如图6所示,信息处理装置600包括:
第一获取模块601,用于获取目标业务系统的目标业务场景的待添加同义词;第一处理模块602,用于对所述待添加同义词进行预处理,得到目标同义词;第一更新模块603,用于利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
可选的,所述第一处理模块包括:第一获取子模块,用于获取所述目标业务场景对应的目标同义词规则;第一处理子模块,用于根据目标同义词规则对所述待添加同义词进行处理,得到目标同义词。
可选的,当所述待添加同义词包含字母时,所述第一处理子模块,还用于根据所述目标业务系统的配置信息,将所述待添加同义词中所包括的字母进行表示方式转换,所述配置信息包括所述目标业务系统对同义词所包括的字母表示方式的设置信息。
可选的,所述装置还包括:
第二处理模块,用于利用所述目标业务系统对应的分词器对目标同义词进行分词处理,得到分词结果;所述第一更新模块,用于若所述分词结果和所述目标同义词一致,则利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
可选的,所述第一更新模块包括:
第一获取子模块,用于获取所述目标业务系统的第一标识和所述目标业务场景的第二标识;第一更新子模块,用于根据所述第一标识和所述第二标识查找所述同义词数据库表,将所述目标同义词存储到所述同义词数据库表的对应位置。
可选的,所述装置还可包括:
第二获取模块,用于获取所述目标同义词的创建时间和/或所述目标业务系统对所述目标同义词的状态配置信息;第二更新模块,用于将所述创建时间和/或状态配置信息存储到所述同义词数据库表的对应位置,所述状态配置信息用于表示是否将所述目标同义词作为同义词进行应用。
可选的,所述第一获取模块包括:
第一获取子模块,用于根据所述目标业务系统对应的同义词更新检查周期,通过WEB应用查找同义词数据库,得到查找结果,所述同义词数据库用于存储同义词数据库表;第二获取子模块,用于当根据所述查找结果确定所述目标业务系统需要更新同义词时,通过所述WEB应用获取目标业务系统的目标业务场景的待添加同义词。
可选的,所述装置还可包括:
初始化模块,用于初始化所述同义词处理插件。
可选的,所述初始化模块包括:
第一获取子模块,用于获取目标业务系统的目标业务场景的配置信息,其中,所述配置信息包括同义词规则、同义词访问地址、同义词更新检查周期、分词器信息、对同义词所包括的字母表示方式的设置信息;第一获取子模块,用于获取初始同义词数据库表;第一转换子模块,用于利用所述目标业务系统的目标业务场景的同义词规则,将所述初始同义词数据库表中的同义词进行转换,得到处理后的初始同义词数据库表;第一分词子模块,用于利用所述目标业务系统的目标业务场景的分词器对所述处理后的初始同义词数据库表中的同义词进行分词,得到分词结果;第一处理子模块,用于若所述分词结果和所述处理后的初始同义词数据库表中的同义词一致,则加载所述处理后的初始同义词数据库表。
可选的,所述装置还可包括:
接收模块,用于接收所述目标业务系统的查询请求;发送模块,用于当通过所述查询请求查询同义词数据库表能够得到目标索引时,向所述目标业务系统发送所述目标索引;所述第一获取模块,用于当通过所述查询请求查询同义词数据库表无法得到目标索引时,获取目标业务系统的目标业务场景的待添加同义词,所述待添加同义词位于所述查询请求中。
本申请实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的信息处理方法中的步骤。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述信息处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (15)
1.一种信息处理方法,应用于弹性搜索ES集群中的同义词处理插件,其特征在于,包括:
获取目标业务系统的目标业务场景的待添加同义词;
对所述待添加同义词进行预处理,得到目标同义词;
利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
2.根据权利要求1所述的方法,其特征在于,所述对所述待添加同义词进行预处理,得到目标同义词,包括:
获取所述目标业务场景对应的目标同义词规则;
根据所述目标同义词规则对所述待添加同义词进行预处理,得到目标同义词。
3.根据权利要求1或2所述的方法,其特征在于,在所述获取目标业务系统的目标业务场景的待添加同义词之后,所述方法还包括:
若所述待添加同义词中包括字母,则根据所述目标业务系统的配置信息,将所述待添加同义词中包括的字母进行表示方式转换,所述配置信息包括所述目标业务系统对同义词包括的字母表示方式的设置信息。
4.根据权利要求1所述的方法,其特征在于,在所述得到目标同义词之后,所述方法还包括:
利用所述目标业务系统对应的分词器对所述目标同义词进行分词处理,得到分词结果;
所述利用所述目标同义词更新所述同义词处理插件的同义词数据库表,包括:若所述分词结果和所述目标同义词一致,则利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
5.根据权利要求1所述的方法,其特征在于,所述利用所述目标同义词更新所述同义词处理插件的同义词数据库表,包括:
获取所述目标业务系统的第一标识和所述目标业务场景的第二标识;
根据所述第一标识和所述第二标识查找所述同义词数据库表,将所述目标同义词存储到所述同义词数据库表的对应位置。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述目标同义词的创建时间和/或所述目标业务系统对所述目标同义词的状态配置信息;
将所述创建时间和/或所述状态配置信息存储到所述同义词数据库表的对应位置,所述状态配置信息用于表示是否将所述目标同义词作为同义词进行应用。
7.根据权利要求1所述的方法,其特征在于,所述获取目标业务系统的目标业务场景的待添加同义词,包括:
根据所述目标业务系统对应的同义词更新检查周期,通过WEB应用查找同义词数据库,得到查找结果,所述同义词数据库用于存储同义词数据库表;
当根据所述查找结果确定所述目标业务系统需要更新同义词时,通过所述WEB应用获取目标业务系统的目标业务场景的待添加同义词。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:初始化所述同义词处理插件。
9.根据权利要求8所述的方法,其特征在于,所述初始化所述同义词处理插件,包括:
获取所述目标业务系统的目标业务场景的配置信息,其中,所述配置信息包括同义词规则、同义词访问地址、同义词更新检查周期、分词器信息、对同义词包括的字母表示方式的设置信息;
获取初始同义词数据库表;
利用所述目标业务系统的目标业务场景的同义词规则,将所述初始同义词数据库表中的同义词进行转换,得到处理后的初始同义词数据库表;
利用所述目标业务系统的目标业务场景的分词器,对所述处理后的初始同义词数据库表中的同义词进行分词,得到分词结果;
若所述分词结果和所述处理后的初始同义词数据库表中的同义词一致,则加载所述处理后的初始同义词数据库表。
10.根据权利要求1所述的方法,其特征在于,在所述获取目标业务系统的目标业务场景的待添加同义词之前,所述方法还包括:
接收所述目标业务系统的查询请求;
当通过所述查询请求查询同义词数据库表得到候选索引时,向所述目标业务系统发送所述候选索引;
所述获取目标业务系统的目标业务场景的待添加同义词,包括:
当通过所述查询请求查询同义词数据库表无法得到候选索引时,获取目标业务系统的目标业务场景的待添加同义词,所述待添加同义词位于所述查询请求中。
11.一种信息处理装置,应用于ES集群中的同义词处理插件,其特征在于,包括:
第一获取模块,用于获取目标业务系统的目标业务场景的待添加同义词;
第一处理模块,用于对所述待添加同义词进行预处理,得到目标同义词;
第一更新模块,用于利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
12.一种信息处理系统,其特征在于,包括:至少一个业务系统,ES集群,所述ES集群包括多个ES节点,每个所述ES节点设置有同义词处理插件;
所述业务系统,用于发送目标业务场景的待添加同义词;
所述同义词处理插件,用于对所述待添加同义词进行预处理,得到目标同义词;利用所述目标同义词更新所述同义词处理插件的同义词数据库表。
13.根据权利要求12所述的系统,其特征在于,所述系统还包括:
WEB应用,用于接收所述业务系统发送的目标业务场景的待添加同义词,并将待添加同义词存储到同义词数据库中,所述同义词数据库用于存储同义词数据库表;
所述同义词处理插件,用于根据所述业务系统对应的同义词更新检查周期,通过所述WEB应用查找同义词数据库,当确定目标业务系统需要更新同义词时,通过所述WEB应用获取所述目标业务系统的目标业务场景的待添加同义词。
14.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现包括如权利要求1至10中任一项所述的信息处理方法中的步骤。
15.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时包括如权利要求1至10中任一项所述的信息处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110664381.3A CN113312540A (zh) | 2021-06-16 | 2021-06-16 | 信息处理方法、装置、设备、系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110664381.3A CN113312540A (zh) | 2021-06-16 | 2021-06-16 | 信息处理方法、装置、设备、系统及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113312540A true CN113312540A (zh) | 2021-08-27 |
Family
ID=77379098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110664381.3A Withdrawn CN113312540A (zh) | 2021-06-16 | 2021-06-16 | 信息处理方法、装置、设备、系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312540A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113992414A (zh) * | 2021-10-28 | 2022-01-28 | 马上消费金融股份有限公司 | 数据的访问方法、装置及设备 |
-
2021
- 2021-06-16 CN CN202110664381.3A patent/CN113312540A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113992414A (zh) * | 2021-10-28 | 2022-01-28 | 马上消费金融股份有限公司 | 数据的访问方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
US8429099B1 (en) | Dynamic gazetteers for entity recognition and fact association | |
US8903800B2 (en) | System and method for indexing food providers and use of the index in search engines | |
US9129606B2 (en) | User query history expansion for improving language model adaptation | |
WO2020248849A1 (zh) | 一种网页语言的切换方法、装置及终端设备 | |
CN109617647B (zh) | 报文转换方法、装置、计算机设备及计算机可读存储介质 | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN107103011B (zh) | 终端数据搜索的实现方法和装置 | |
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
US20200142674A1 (en) | Extracting web api endpoint data from source code | |
CN112559717B (zh) | 搜索匹配方法、装置、电子设备以及存储介质 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN114900546B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN113312539B (zh) | 一种检索服务的提供方法、装置、设备和介质 | |
CN109086414B (zh) | 用于搜索区块链数据的方法、装置及存储介质 | |
CN113312540A (zh) | 信息处理方法、装置、设备、系统及可读存储介质 | |
CN110674383B (zh) | 舆情查询方法、装置及设备 | |
CN111078773A (zh) | 一种数据处理方法及装置 | |
CN112115228A (zh) | 搜索方法、装置、终端及存储介质 | |
CN107220249B (zh) | 基于分类的全文搜索 | |
CN113821514B (zh) | 数据拆分方法、装置、电子设备和可读存储介质 | |
US20220043934A1 (en) | System and method for entity resolution of a data element | |
CN109495464B (zh) | 跟踪应用访问的方法、装置、设备及系统 | |
CN115905274A (zh) | 数据处理的方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210827 |
|
WW01 | Invention patent application withdrawn after publication |