CN114519090B - 一种停用词的管理方法、装置及电子设备 - Google Patents

一种停用词的管理方法、装置及电子设备 Download PDF

Info

Publication number
CN114519090B
CN114519090B CN202011308970.XA CN202011308970A CN114519090B CN 114519090 B CN114519090 B CN 114519090B CN 202011308970 A CN202011308970 A CN 202011308970A CN 114519090 B CN114519090 B CN 114519090B
Authority
CN
China
Prior art keywords
target
data
update
stop word
database table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011308970.XA
Other languages
English (en)
Other versions
CN114519090A (zh
Inventor
李国冬
李云彬
王洪斌
权圣
蒋宁
吴海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202011308970.XA priority Critical patent/CN114519090B/zh
Publication of CN114519090A publication Critical patent/CN114519090A/zh
Application granted granted Critical
Publication of CN114519090B publication Critical patent/CN114519090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种停用词的管理方法、装置及电子设备,其中,停用词的管理方法,包括:获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。本发明实施例提供的方案至少可以解决现有技术中,对停用词的更新过程较为繁琐的问题。

Description

一种停用词的管理方法、装置及电子设备
技术领域
本发明涉及数据处理领域,具体涉及一种停用词的管理方法、装置及电子设备。
背景技术
在信息检索领域中,通常利用停用词将搜索条件中的无用信息进行过滤,以提高检索的精确性。在对后台所维护的停用词进行管理的过程中,由于不同的业务系统所需的停用词通常不同,因此,通常采用不同的文件储存各个业务系统的停用词,当需要对某些业务系统所对应的停用词进行更新时,通常需要逐一编辑业务系统所对应的停用词文件,并在停用词文件中逐一进行修改。这样,将导致停用词的更新过程较为繁琐的问题。
发明内容
本发明提供了一种停用词的管理方法、装置和电子设备,以解决现有技术中,对停用词的更新过程较为繁琐的问题。
为了解决上述技术问题,本发明的具体实现方案如下:
第一方面,本发明实施例提供了一种停用词的管理方法,应用于服务器,包括:
获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;
基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
第二方面,本发明实施例还提供一种停用词的管理装置,包括:
获取模块,用于获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;
更新模块,用于基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
第三方面,本发明实施例还一种电子设备,包括:
接收模块,用于接收用户输入的更新数据,其中,所述更新数据包括停用词字段;
发送模块,用于将所述更新数据发送至所述目标数据库表,以对所述目标数据库表中存储的停用词数据进行更新。
第五方面,本发明实施例还提供一种终端,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述停用词的管理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述停用词的管理方法的步骤。
本发明实施例中,通过目标数据库表对至少两个业务系统对应的停用词数据进行存储,这样,当需要对各个业务系统所维护的停用词数据进行更新时,仅需在目标数据库表中进行修改,在完成修改之后,将目标数据库表中的更新数据更新至目标节点;由于所述更新数据中包括用于标识目标业务系统的第一字段,这样,后续各业务系统可以基于更新数据中的第一字段,从目标节点获取对应的更新数据,从而实现对各个业务系统进行更新的过程。该过程中,用户仅需对目标数据库表进行编辑,而无需逐一编辑各个节点的停用词文件,从而简化了停用词的更新过程。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种停用词的管理方法的流程图之一;
图2是本发明实施例提供的一种停用词的管理方法的流程图之二;
图3是采用本申请实施例提供的停用词的管理方法的分布式搜索引擎处理用户提问的流程示意图;
图4是本发明实施例提供的一种停用词的管理方法的流程图之三;
图5是本发明实施例提供的停用词的管理装置的结构图;
图6是本发明实施例提供的一种电子设备的结构图;
图7是本发明实施例提供的另一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种停用词的管理方法,包括:
步骤101、获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统。
上述至少两个业务系统可以是同一平台中,基于不同的业务场景所设置不同的业务系统。例如,以金融公司的业务处理平台为例,其可以包括处理电销业务的电销业务系统、处理贷款业务的贷款业务系统、处理咨询业务的咨询业务系统、处理投诉业务的投诉业务系统等不同的系统,在此情况下,所述至少两个业务系统可以包括:电销业务系统、贷款业务系统、咨询业务系统和投诉业务系统。
上述目标数据库表可以用于存储各个业务系统所维护的停用词数据,以及可以用于存储用户输入的更新数据。
上述更新数据可以是指用户输入的新的停用词数据,例如,当需要在某些业务系统中增加新的停用词时,用户可以在目标数据库表中增加与业务系统相对应的停用词数据;所述更新数据也可以是用户输入的对目标数据库表中某一停用词数据进行修改的停用词数据,此时,可以利用修改后的停用词数据替换目标数据库表中的停用词数据。此外,也可以通过在所述目标数据库表中删除某些业务系统对应的停用词数据,同时,还可以通过所述目标数据库表查看各个业务系统所维护的停用词数据。其中,当需要在所述目标数据库表中删除某些业务系统对应的停用词数据之后,可以在对应的停用词数据中增设一个删除标签,并将具有删除标签的停用词数据作为更新数据,这样,业务系统在读取到该具有删除标签的更新数据之后,可以删除所维护的停用词数据。
上述获取目标数据库表中的更新数据可以是指:从目标数据库表中获取一条更新数据,也可以是指:从目标数据库表中同时获取两条或多条更新数据。
应当说明的是,上述更新数据中包括所需更新的停用词,例如,所述停用词可以是“怎么”、“怎么样”、“如何”、“为什么”、“为何”、“为什麽”、“的”、“我”、“了”等。
步骤102、基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
上述停用词的管理方法可以用于分布式搜索引擎(ElasticSearch,ES)集群,其中,ES集群包括多个ES节点,ES集群可以把一个完整索引分成多个索引分片并分布到不同的ES节点上,以实现分布式搜索。当上述停用词的管理方法应用于ES集群中的停用词进行管理时,上述目标节点可以是ES集群中的任意ES节点,上述ES集群中的多个ES节点可以分别为多个目标节点,多个目标节点共同为至少两个业务系统提供相对应的停用词数据。此时,上述多个目标节点可以分别为同一服务器集群中的不同服务器。
当所述停用词的管理方法应用于ES集群时,上述基于所述更新数据,对目标节点所存储的停用词数据进行更新,可以是指:基于所述更新数据对至少两个目标节点所存储的停用词数据分别进行更新,以确保各个目标节点所维护的停用词数据始终与目标数据库表同步。
上述基于所述更新数据对目标节点所维护的停用词数据进行更新可以是指:基于所述更新数据对所述目标节点对应的索引进行更新,具体而言,可以对所述目标节点所对应的索引mapping和setting进行修改,并设置停用词访问接口(该接口由WEB应用提供)和初始化数据。这样,即可实现对目标节点所维护的停用词数据进行更新。
该实施方式中,通过目标数据库表对至少两个业务系统对应的停用词数据进行存储,这样,当需要对各个业务系统所维护的停用词数据进行更新时,仅需在目标数据库表中进行修改,在完成修改之后,将目标数据库表中的更新数据更新至目标节点;由于所述更新数据中包括用于标识目标业务系统的第一字段,这样,后续各业务系统可以基于更新数据中的第一字段,从目标节点获取对应的更新数据,从而实现对各个业务系统进行更新的过程。该过程中,用户仅需对目标数据库表进行编辑,而无需逐一编辑各个节点的停用词文件,从而简化了停用词的更新过程。
可选地,所述更新数据包括第二字段,所述第二字段用于标识所述更新数据的更新时间,所述获取目标数据库表中的更新数据,包括:
检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,所述第一时间节点为所述目标节点上一次对停用词数据进行更新的时间节点;
将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
应当说明的是,所述目标数据库表中的每个停用词数据均包括停用词、第一字段、第二字段和第三字段。
所述目标数据库表可以将所述至少两个业务系统所维护的停用词数据与用户输入的更新数据一并进行存储。由于每个停用词数据和每个更新数据中均包括第二字段,所述第二字段记录了对应的数据的更新时间。这样,当需要从目标数据库表中获取更新数据时,可以基于所述第二字段所记录的对应数据的更新时间,确定目标数据库表中的数据是否为更新数据。具体而言,每次检测之前,可以设置一个时间节点,如设置在第一时间节点之前更新的数据为至少两个节点所维护的停用词数据,在第一时间节点以后更新的数据为用户输入的更新数据。
该实施方式中,通过第二字段标识目标数据库表中的数据的更新时间,以便准确的从目标数据库表中确定更新数据。
可选地,所述检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,包括:
每隔第一时长,检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据。
其中,所述第一时长可以根据实际需求进行设置,例如,所述第一时长可以是1秒、1分钟、30分钟等,这样,每隔第一时长执行一次检测任务,从而确保及时将目标数据库表中的更新数据更新至目标节点。
该实施方式中,通过以第一时长作为时间间隔,每隔第一时长检测在过去的第一时长内目标数据库表所新增的更新数据,在检测到更新数据之后,基于所述更新数据对对应的业务系统所维护的停用词数据进行更新,从而确保目标数据库表中的更新数据可以及时在索引中生效。
可选地,所述ES集群包括目标插件,所述目标插件与客户端的目标接口通信连接,所述检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,包括:
所述目标插件基于设定的定时任务,通过所述目标接口获取所述目标数据库表;
所述目标插件基于停用词数据的第二字段,检测所述目标数据库表中更新时间位于所述第一时间节点之后的停用词数据;
所述将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据,包括:
若所述目标插件检测到所述更新时间位于所述第一时间节点之后的停用词数据时,则将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据;
所述基于所述更新数据,对目标节点所存储的停用词数据进行更新,包括:
所述目标插件将所述更新数据传递至所述目标节点,以对所述目标节点所述存储的停用词数据进行更新。
上述定时任务中所设定的相邻两次任务之间的时间间隔可以是上述第一时长,这样,目标插件可以每隔第一时长执行在目标数据库表中检测更新数据的任务。当目标数据库表中存在更新数据时,目标插件可以基于定时任务获取到目标数据库表中的更新数据,并可将更新数据传递至对应的目标节点,从而实现将目标数据库表中的更新数据更新至目标节点。
具体地,当所述停用词的管理方法应用于ES集群时,可以分别在每个ES节点设置一个对应的目标插件,每个ES节点由对应的目标插件将目标数据库表中的更新数据同步至对应的ES节点。
该实施方式中,通过在每个ES节点对应设置一个目标插件,这样,每个ES节点中的目标插件可以分别基于定时任务每隔第一时长执行一次检测任务,从而确保及时将目标数据库表中的更新数据更新至各个目标节点。
可选地,上述目标插件在对目标数据库表中的停用词数据进行检测,并确定所述目标数据库表中包括至少一个更新数据的情况下,也可以直接以目标数据库表替换所对应的目标节点中所存储的停用词数据。
该实施方式中,通过在每个目标节点设置一个对应的目标插件,以完成对各个目标节点所存储的停用词数据进行热更新的过程。
可选地,所述由目标插件基于设定的定时任务,通过目标接口获取所述目标数据库表之前,所述方法还包括:
对所述目标插件进行初始化,其中,所述初始化至少包括以下处理方式:设定所述定时任务以及定义所述目标接口的地址。
具体地,通过对目标插件进行初始化,以设定目标插件的工作参数,进而使得目标插件可以基于用户设定的参数完成对目标节点所储存的停用词数据的热更新过程。
可选地,所述目标业务系统包括至少两个不同业务,所述更新数据还包括第三字段,所述第三字段用于标识所述两个不同业务中的目标业务;
所述目标节点为所述至少两个业务系统提供对应的停用词数据,包括:
所述目标节点为所述至少两个业务系统提供与目标业务相对应的停用词数据。
具体地,由于不同的业务场景下实际上存在不同的业务,例如,在贷款业务场景下可以包括:房贷业务、信用卡贷款业务、消费贷款业务等。又例如,电销业务场景下,所销售的产品不同,则所对应的业务也不相同。
由于同一业务系统中的不同业务所对应的停用词可能不同。因此,用户所输入的更新数据中还可以包括第三字段,以对所述更新数据所对应的目标业务进行标识,即通过所述第三字段标识所述更新数据相对应的具体业务,这样,业务系统可以基于不同的业务从目标节点中获取对应的更新数据,并基于所获取到的更新数据,对对应的业务的停用词数据进行更新。
此外,还可以为上述目标数据库表中所存储的所有停用词数据设置一个ID,这样,可以确保所述目标数据库表中所存储的停用词数据的唯一性。
可选地,可以按照下表的形式,表示上述停用词数据在目标数据库表中的存储形式:
字段 类型 长度 是否允许为空 字段说明
id bigint 20 自增ID(主键)
停用词字段 varchar 32 停用词
第一字段 varchar 32 业务场景
第二字段 varchar 32 具体业务
第二字段 datetime 更新时间
请参见图2,本发明实施例提供的一种具体的停用词管理方法的流程图,具体包括以下步骤:首先对目标插件进行初始化,主要包括:停用词访问URL,定时任务时间间隔等参数的设置,然后根据配置的入参进行目标插件的初始化。在确定目标插件初始化成功之后,封装WEB应用的http接口,以获取用户通过WEB应用输入的更新数据。然后基于http接口将封装后的更新数据加载至目标数据库表。最后,目标插件基于定时任务在目标数据库表中检测更新数据,并在检测到更新数据的情况下,将更新数据更新于ES集群中的对应节点,结束流程。应当说明的是,当上述初始化过程失败的情况下,可以直接结束流程,并向用户发送目标插件更新失败的提示信息,以便于用户及时处理相关故障。
请参见图3,采用本发明实施例的方法的分布式搜索引擎,在处理用户提问过程的流程示意图,具体包括如下步骤:
首先接收用户的输入,然后由分词器对用户的输入进行分词,过滤掉事先定义好的停用词得到预测后的词,将预处理后的词与索引库中的问法进行比对进行打分,找到最匹配的问题,输出相应标准话术返回给用户。同时在该过程中,通过目标插件从目标数据库表中获取更新数据,对分布式搜索引擎中的目标节点所维护的停用词进行热更新。
以下以一具体实施例对上述停用词的管理方法作进一步的解释说明,以金融公司的ES集群的FAQ索引库为例,可以初始化如下表格到ES集群的FAQ索引库:
同时,可以将以下停用词存储于目标数据库表“怎么”、“怎么样”、“如何”、“为什么”、“为何”、“为什麽”。这样,目标插件可以将这些停用词自动更新于ES集群。
当用户输入问题,比如“如何主动还款”,“为什么还款失败”等问题时,业务系统可以很准确的命中相关问题。因为“如何”、“为什么”都被当做停用词,被过滤掉了,这样就能够显著提高检索的准确率。但是当用户输入如下问题“我的还款失败了”或者“我要主动还款”时,搜索引擎的问题匹配准确率就会降低。此时通过业务分析,发现如“我”、“的”、“了”这类词语并没有携带有用信息,此时,可以将这类词语生成更新数据存入目标数据库表,其中,管理人员可以通过电子设备中的WEB应用输入更新数据,WEB应用可以通过HTTP接口将用户输入的更新数据传输至目标数据库表进行存储。这样,目标插件可以基于定时任务检测到目标数据库表中的更新数据,并将更新数据更新于ES集群。后续,当用户再次输入如下问题“我的还款失败了”或者“我要主动还款”时,“我”、“的”、“了”都被当做停用词,被过滤掉了,从而显著提高检索的准确率。
请参见图4,本发明实施例还提供了一种停用词的管理方法,应用于电子设备,包括:
步骤401、接收用户输入的更新数据;
步骤402、将所述更新数据发送至所述目标数据库表,以对所述目标数据库表中存储的停用词数据进行更新。
该实施方式中,用户可以通过预装与电子设备中的WEB应用,对目标数据库表进行增删改查等操作。
本发明实施例提供的停用词的管理方法能够实现上述实施例中电子设备的各个过程,为避免重复,这里不再赘述。
请参见图5,图5是本发明实施例提供的一种停用词的管理装置500,包括:
获取模块501,用于获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;
更新模块502,用于基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
可选地,所述更新数据包括第二字段,所述第二字段用于标识所述更新数据的更新时间,所述获取模块501,包括:
检测子模块,用于检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,所述第一时间节点为所述目标节点上一次对停用词数据进行更新的时间节点;
获取子模块,用于将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
可选地,所述检测子模块,具体用于每隔第一时长,检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据。
可选地,所述ES集群包括目标插件,所述目标插件与客户端的目标接口通信连接,所述检测子模块,包括:
获取单元,用于使所述目标插件基于设定的定时任务,通过所述目标接口获取所述目标数据库表;
检测单元,用于使所述目标插件基于停用词数据的第二字段,检测所述目标数据库表中更新时间位于所述第一时间节点之后的停用词数据;
所述获取子模块,具体用于在所述目标插件检测到所述更新时间位于所述第一时间节点之后的停用词数据的情况下,将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
可选地,所述更新模块502,具体用于使所述目标插件将所述更新数据传递至所述目标节点,以对所述目标节点所述存储的停用词数据进行更新。
可选地,所述装置还包括:
初始化模块,用于对所述目标插件进行初始化,其中,所述初始化至少包括以下处理方式:设定所述定时任务以及定义所述目标接口的地址。
可选地,述目标业务系统包括至少两个不同业务,所述更新数据还包括第三字段,所述第三字段用于标识所述两个不同业务中的目标业务;
所述目标节点为所述至少两个业务系统提供对应的停用词数据,包括:
所述目标节点为所述至少两个业务系统提供与所述目标业务相对应的停用词数据。
本发明实施例提供的停用词的管理装置500能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
请参见图6,图6是本发明实施例提供的一种电子设备600,包括:
接收模块601,用于接收用户输入的更新数据,其中,所述更新数据包括停用词字段;
发送模块602,用于将所述更新数据发送至所述目标数据库表,以对所述目标数据库表中存储的停用词数据进行更新。
本发明实施例提供的电子设备600能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
参见图7,图7是本发明又一实施提供的电子设备的结构图,如图7所示,电子设备,包括:服务接口流控装置700包括:处理器701、存储器702及存储在所述存储器702上并可在所述处理器上运行的计算机程序,数据发送装置700中的各个组件通过总线接口703耦合在一起,所述计算机程序被所述处理器701执行时实现如下步骤:
获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;
基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
可选地,所述更新数据包括第二字段,所述第二字段用于标识所述更新数据的更新时间,所述获取目标数据库表中的更新数据,包括:
检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,所述第一时间节点为所述目标节点上一次对停用词数据进行更新的时间节点;
将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
3、根据权利要求2所述的方法,其特征在于,所述检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,包括:
每隔第一时长,检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据。
可选地,所述ES集群包括目标插件,所述目标插件与客户端的目标接口通信连接,所述检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,包括:
所述目标插件基于设定的定时任务,通过所述目标接口获取所述目标数据库表;
所述目标插件基于停用词数据的第二字段,检测所述目标数据库表中更新时间位于所述第一时间节点之后的停用词数据;
所述将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据,包括:
若所述目标插件检测到所述更新时间位于所述第一时间节点之后的停用词数据时,则将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
可选地,所述基于所述更新数据,对目标节点所存储的停用词数据进行更新,包括:
所述目标插件将所述更新数据传递至所述目标节点,以对所述目标节点所述存储的停用词数据进行更新。
可选地,所述目标插件基于设定的定时任务,通过目标接口获取所述目标数据库表之前,所述方法还包括:
对所述目标插件进行初始化,其中,所述初始化至少包括以下处理方式:设定所述定时任务以及定义所述目标接口的地址。
可选地,所述目标业务系统包括至少两个不同业务,所述更新数据还包括第三字段,所述第三字段用于标识所述两个不同业务中的目标业务,所述目标节点为所述至少两个业务系统提供对应的停用词数据包括:
所述目标节点为所述至少两个业务系统提供与所述目标业务相对应的停用词数据。
本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (10)

1.一种停用词的管理方法,其特征在于,包括:
获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;
基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
2.根据权利要求1所述的方法,其特征在于,所述更新数据包括第二字段,所述第二字段用于标识所述更新数据的更新时间,所述获取目标数据库表中的更新数据,包括:
检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,所述第一时间节点为所述目标节点上一次对停用词数据进行更新的时间节点;
将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
3.根据权利要求2所述的方法,其特征在于,所述检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,包括:
每隔第一时长,检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据。
4.根据权利要求2所述的方法,其特征在于,所述ES集群包括目标插件,所述目标插件与客户端的目标接口通信连接,所述检测所述目标数据库表中更新时间位于第一时间节点之后的停用词数据,包括:
所述目标插件基于设定的定时任务,通过所述目标接口获取所述目标数据库表;
所述目标插件基于停用词数据的第二字段,检测所述目标数据库表中更新时间位于所述第一时间节点之后的停用词数据;
所述将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据,包括:
若所述目标插件检测到所述更新时间位于所述第一时间节点之后的停用词数据时,则将所述更新时间位于第一时间节点之后的停用词数据确定为所述更新数据,并获取所述更新数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述更新数据,对目标节点所存储的停用词数据进行更新,包括:
所述目标插件将所述更新数据传递至所述目标节点,以对所述目标节点所存储的停用词数据进行更新。
6.根据权利要求4所述的方法,其特征在于,所述目标插件基于设定的定时任务,通过目标接口获取所述目标数据库表之前,所述方法还包括:
对所述目标插件进行初始化,其中,所述初始化至少包括以下处理方式:设定所述定时任务以及定义所述目标接口的地址。
7.根据权利要求1所述的方法,其特征在于,所述目标业务系统包括至少两个不同业务,所述更新数据还包括第三字段,所述第三字段用于标识所述两个不同业务中的目标业务,所述目标节点为所述至少两个业务系统提供对应的停用词数据包括:
所述目标节点为所述至少两个业务系统提供与所述目标业务相对应的停用词数据。
8.一种停用词的管理装置,其特征在于,包括:
获取模块,用于获取目标数据库表中的更新数据,其中,所述目标数据库表用于存储至少两个业务系统对应的停用词数据,所述更新数据为所述目标数据库表中的停用词数据,且所述更新数据包括第一字段,所述第一字段用于标识所述至少两个业务系统中的目标业务系统;
更新模块,用于基于所述更新数据,对ES集群中的目标节点所存储的停用词数据进行更新,其中,所述目标节点为所述至少两个业务系统提供对应的停用词数据。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述停用词的管理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述停用词的管理方法的步骤。
CN202011308970.XA 2020-11-20 2020-11-20 一种停用词的管理方法、装置及电子设备 Active CN114519090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011308970.XA CN114519090B (zh) 2020-11-20 2020-11-20 一种停用词的管理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011308970.XA CN114519090B (zh) 2020-11-20 2020-11-20 一种停用词的管理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114519090A CN114519090A (zh) 2022-05-20
CN114519090B true CN114519090B (zh) 2023-11-21

Family

ID=81594484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011308970.XA Active CN114519090B (zh) 2020-11-20 2020-11-20 一种停用词的管理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114519090B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201006A (zh) * 2011-06-10 2011-09-28 互动在线(北京)科技有限公司 批量更新词条页面内容块的装置和方法
GB201315971D0 (en) * 2013-09-09 2013-10-23 Ibm Business rule management system
CN106021527A (zh) * 2016-05-24 2016-10-12 努比亚技术有限公司 一种数据处理方法及搜索服务器、同步服务器
CN108027814A (zh) * 2015-12-01 2018-05-11 华为技术有限公司 停用词识别方法与装置
CN110188100A (zh) * 2019-05-17 2019-08-30 中国银行股份有限公司 数据处理方法、装置及计算机存储介质
CN110609865A (zh) * 2018-05-29 2019-12-24 优信拍(北京)信息科技有限公司 一种信息同步方法,装置及系统
CN111026416A (zh) * 2019-09-17 2020-04-17 拉扎斯网络科技(上海)有限公司 数据更新方法、系统、装置、电子设备及计算机存储介质
CN111414410A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805382B2 (en) * 2005-04-11 2010-09-28 Mkt10, Inc. Match-based employment system and method
US20180130329A1 (en) * 2016-11-06 2018-05-10 Energy Control Technologies, Inc. Automated material safety data management

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201006A (zh) * 2011-06-10 2011-09-28 互动在线(北京)科技有限公司 批量更新词条页面内容块的装置和方法
GB201315971D0 (en) * 2013-09-09 2013-10-23 Ibm Business rule management system
CN108027814A (zh) * 2015-12-01 2018-05-11 华为技术有限公司 停用词识别方法与装置
CN106021527A (zh) * 2016-05-24 2016-10-12 努比亚技术有限公司 一种数据处理方法及搜索服务器、同步服务器
CN110609865A (zh) * 2018-05-29 2019-12-24 优信拍(北京)信息科技有限公司 一种信息同步方法,装置及系统
CN111414410A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN110188100A (zh) * 2019-05-17 2019-08-30 中国银行股份有限公司 数据处理方法、装置及计算机存储介质
CN111026416A (zh) * 2019-09-17 2020-04-17 拉扎斯网络科技(上海)有限公司 数据更新方法、系统、装置、电子设备及计算机存储介质
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Real-Time Local Word Database Construction from Twitter;T. Kamimura等;《IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity)》;299-306 *
交通银行贵州分行零售客户关系管理系统的研究与分析;朱睿怡;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2015卷(第9期);I138-597 *
网络环境下叙词表协同编制系统的构建;赵捷等;《图书情报工作》;第55卷(第22期);6-10 *

Also Published As

Publication number Publication date
CN114519090A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US11201929B2 (en) On-line browsing preference management
CN107169094B (zh) 信息聚合方法及装置
CN112434015B (zh) 数据存储的方法、装置、电子设备及介质
CN103577483A (zh) 数据存储方法和系统以及数据访问的方法和系统
CN112925757A (zh) 一种追踪智能设备操作日志的方法、设备、存储介质
CN107357557B (zh) 一种信息更新方法及装置
US20150378828A1 (en) Test data management
CN114328566A (zh) 关系图谱的更新方法、装置、介质、设备及生成方法
CN116170331B (zh) Api资产管理方法、装置、电子设备和存储介质
CN114519090B (zh) 一种停用词的管理方法、装置及电子设备
CN107636644B (zh) 用于在全局分布式环境中保持相互依赖的公司数据一致性的系统和方法
US20190286671A1 (en) Algorithmic computation of entity information from ip address
CN111522881A (zh) 业务数据处理方法、装置、服务器及存储介质
CN111753141A (zh) 一种数据管理方法及相关设备
CN113778950B (zh) 授信文件的获取方法、索引服务器、查询服务器和介质
CN114693358A (zh) 数据处理方法、装置、电子设备及存储介质
CN110457332B (zh) 一种信息处理方法及相关设备
US20160117401A1 (en) Network-based gathering of background information
CN113609130B (zh) 获取网关接入数据的方法、装置、电子设备及存储介质
CN113744066B (zh) 信息推送方法及装置
CN111708757B (zh) 数据资源处理方法、装置和系统,存储介质和电子设备
CN116644065A (zh) 数据库表管理方法、装置及电子设备
KR100901624B1 (ko) 웹 사이트 디렉토리 서비스 시스템에서 전화번호 및 주소자동 갱신 방법
CN115168378A (zh) 一种银行客户信息交易历史的记录方法、装置及设备
CN115082205A (zh) 追踪数据变更情况的方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant