CN112684915A - 候选词输出方法、装置、电子设备及计算机存储介质 - Google Patents

候选词输出方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN112684915A
CN112684915A CN202110001436.2A CN202110001436A CN112684915A CN 112684915 A CN112684915 A CN 112684915A CN 202110001436 A CN202110001436 A CN 202110001436A CN 112684915 A CN112684915 A CN 112684915A
Authority
CN
China
Prior art keywords
candidate word
user input
content information
input content
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110001436.2A
Other languages
English (en)
Inventor
费腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Chenxing Software Technology Co ltd
Original Assignee
Shanghai Chenxing Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Chenxing Software Technology Co ltd filed Critical Shanghai Chenxing Software Technology Co ltd
Priority to CN202110001436.2A priority Critical patent/CN112684915A/zh
Publication of CN112684915A publication Critical patent/CN112684915A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请提供了一种候选词输出方法、装置、电子设备及计算机存储介质。该候选词输出方法,应用于服务端,包括:接收客户端发送的用户输入内容信息;分别计算用户输入内容信息和各个预设的类别的相似度;在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。根据本申请实施例,能够更加准确地输出候选词。

Description

候选词输出方法、装置、电子设备及计算机存储介质
技术领域
本申请属于输入法调频排序技术领域,尤其涉及一种候选词输出方法、装置、电子设备及计算机存储介质。
背景技术
在输入法调频排序技术领域,调频技术就是利用额外信息(上下文信息、用户使用习惯信息、所在地域信息、输入App信息等)对候选词进行二次打分,然后进行重排序的技术。
目前,各家输入法调频的方法都是相似的,就是利用上面提到的额外信息训练相关的模型,然后将各个模型融合进行打分。但是,针对每一种信息训练出来的模型由于受到客户端内存、性能等限制,模型的尺寸限制很厉害,所以模型涉及到的词的范围很受限制,一般只能涉及到一些高频的词,导致输入法推荐的候选词不准确。
因此,如何更加准确地输出候选词是本领域技术人员亟需解决的技术问题。
发明内容
本申请实施例提供一种候选词输出方法、装置、电子设备及计算机存储介质,能够更加准确地输出候选词。
第一方面,本申请实施例提供一种候选词输出方法,应用于服务端,包括:
接收客户端发送的用户输入内容信息;
分别计算用户输入内容信息和各个预设的类别的相似度;
在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。
可选的,在分别计算用户输入内容信息和各个预设的类别的相似度之前,方法还包括:
获取样本用户输入内容信息;
对样本用户输入内容信息进行聚类,确定各个预设的类别。
可选的,在对样本用户输入内容信息进行聚类,确定各个预设的类别之后,方法还包括:
针对每个类别中的样本用户输入内容信息进行分词,得到类别对应的候选词集合。
可选的,获取样本用户输入内容信息,包括:
从用户输入日志中获取样本用户输入内容信息。
第二方面,本申请实施例提供了一种候选词输出装置,应用于服务端,包括:
接收模块,用于接收客户端发送的用户输入内容信息;
计算模块,用于分别计算用户输入内容信息和各个预设的类别的相似度;
发送模块,用于在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。
可选的,该装置还包括:
获取模块,用于获取样本用户输入内容信息;
聚类模块,用于对样本用户输入内容信息进行聚类,确定各个预设的类别。
可选的,该装置还包括:
分词模块,用于针对每个类别中的样本用户输入内容信息进行分词,得到类别对应的候选词集合。
可选的,获取模块,包括:
获取单元,用于从用户输入日志中获取样本用户输入内容信息。
第三方面,本申请实施例提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面所示的候选词输出方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的候选词输出方法。
本申请实施例的候选词输出方法、装置、电子设备及计算机存储介质,能够更加准确地输出候选词。该候选词输出方法,应用于服务端,包括:接收客户端发送的用户输入内容信息;分别计算用户输入内容信息和各个预设的类别的相似度;在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。可见,该方法在分别计算用户输入内容信息和各个预设的类别的相似度之后,在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,故能够更加准确地输出候选词。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的候选词输出方法的流程示意图;
图2是本申请一个实施例提供的候选词输出装置的结构示意图;
图3是本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本申请实施例提供了一种候选词输出方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的候选词输出方法进行介绍。
图1示出了本申请一个实施例提供的候选词输出方法的流程示意图。如图1所示,该候选词输出方法,应用于服务端,包括:
S101、接收客户端发送的用户输入内容信息。
S102、分别计算用户输入内容信息和各个预设的类别的相似度。
在一个实施例中,在分别计算用户输入内容信息和各个预设的类别的相似度之前,方法还包括:
获取样本用户输入内容信息;
对样本用户输入内容信息进行聚类,确定各个预设的类别。
在一个实施例中,在对样本用户输入内容信息进行聚类,确定各个预设的类别之后,方法还包括:
针对每个类别中的样本用户输入内容信息进行分词,得到类别对应的候选词集合。
在一个实施例中,获取样本用户输入内容信息,包括:
从用户输入日志中获取样本用户输入内容信息。
S103、在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。
该候选词输出方法,应用于服务端,包括:接收客户端发送的用户输入内容信息;分别计算用户输入内容信息和各个预设的类别的相似度;在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。可见,该方法在分别计算用户输入内容信息和各个预设的类别的相似度之后,在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,故能够更加准确地输出候选词。
下面以一个具体实施例对上述技术方案进行说明。
本实施例基于用户已输入的内容推测出用户整段想要的输入内容,然后对命中推测输入内容的词进行调频,这样可以弥补原有模型只涉及高频词的问题,使得输入法推荐的候选词更加准确。比如,用户输入“锄禾日当午,汗滴禾下土”,这时输入法根据已输入内容,推测出用户想要输入“锄禾日当午,汗滴禾下土,谁知盘中餐,粒粒皆辛苦。”,当用户接着输入“szpzc”,这时候选“谁知盘中餐”命中了推测的内容,该候选将被奖励排序靠前的位置。
该方法的步骤如下:
(1)训练推测用户输入内容的模型,具体方法如下:
(1.1)从用户输入日志里抽取用户连续时间输入的内容作为模型训练的语料;
(1.2)对(1.1)抽取的语料进行聚类,聚成N类,将意思相近的输入内容聚在同一个类中;
(1.3)分别对每个类的内容进行分词,所有词组成该类对应的词的集合。
(2)用户输入过程中预测用户将要输入的内容,具体方法如下:
(2.1)用户输入过程中,将用户输入的内容持续上传到服务端;
(2.2)服务端根据用户输入的内容,计算与每个类的相似度,如果相似度达到阈值,则认为用户的输入与该类的内容相似;
(2.3)如果找到相似输入内容的类,则将该类对应的词的集合下发到客户端。
(3)针对用户输入进行候选词调频,方法如下:
(3.1)客户端将预测用户的输入词的集合缓存下来;
(3.2)针对用户输入的候选词,如果某个候选词命中缓存的词,则对该候选词的得分进行奖励;
(3.3)最后将所有候选词根据得分进行排序,这样命中预测内容缓存的候选词会由于奖励而排在比较靠前的位置。
图2示出了本申请实施例提供的候选词输出装置的结构示意图。该候选词输出装置,应用于服务端,如图2所示,其包括:
接收模块201,用于接收客户端发送的用户输入内容信息;
计算模块202,用于分别计算用户输入内容信息和各个预设的类别的相似度;
发送模块203,用于在相似度达到预设的相似度阈值的情况下,向客户端发送相似度对应类别的候选词集合,以使客户端将候选词集合中的每个候选词依据预设的得分进行排序输出。
在一个实施例中,该装置还包括:
获取模块,用于获取样本用户输入内容信息;
聚类模块,用于对样本用户输入内容信息进行聚类,确定各个预设的类别。
在一个实施例中,该装置还包括:
分词模块,用于针对每个类别中的样本用户输入内容信息进行分词,得到类别对应的候选词集合。
在一个实施例中,获取模块,包括:
获取单元,用于从用户输入日志中获取样本用户输入内容信息。
图2所示装置中的各个模块/单元具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图3示出了本申请实施例提供的电子设备的结构示意图。
电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在电子设备的内部或外部。在特定实施例中,存储器302可以是非易失性固态存储器。
在一个实例中,存储器302可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种候选词输出方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种候选词输出方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种候选词输出方法,其特征在于,应用于服务端,包括:
接收客户端发送的用户输入内容信息;
分别计算所述用户输入内容信息和各个预设的类别的相似度;
在所述相似度达到预设的相似度阈值的情况下,向所述客户端发送所述相似度对应类别的候选词集合,以使所述客户端将所述候选词集合中的每个候选词依据预设的得分进行排序输出。
2.根据权利要求1所述的候选词输出方法,其特征在于,在所述分别计算所述用户输入内容信息和各个预设的类别的相似度之前,所述方法还包括:
获取样本用户输入内容信息;
对所述样本用户输入内容信息进行聚类,确定各个预设的所述类别。
3.根据权利要求2所述的候选词输出方法,其特征在于,在所述对所述样本用户输入内容信息进行聚类,确定各个预设的所述类别之后,所述方法还包括:
针对每个所述类别中的所述样本用户输入内容信息进行分词,得到所述类别对应的候选词集合。
4.根据权利要求2所述的候选词输出方法,其特征在于,所述获取样本用户输入内容信息,包括:
从用户输入日志中获取所述样本用户输入内容信息。
5.一种候选词输出装置,其特征在于,应用于服务端,包括:
接收模块,用于接收客户端发送的用户输入内容信息;
计算模块,用于分别计算所述用户输入内容信息和各个预设的类别的相似度;
发送模块,用于在所述相似度达到预设的相似度阈值的情况下,向所述客户端发送所述相似度对应类别的候选词集合,以使所述客户端将所述候选词集合中的每个候选词依据预设的得分进行排序输出。
6.根据权利要求5所述的候选词输出装置,其特征在于,所述装置还包括:
获取模块,用于获取样本用户输入内容信息;
聚类模块,用于对所述样本用户输入内容信息进行聚类,确定各个预设的所述类别。
7.根据权利要求6所述的候选词输出装置,其特征在于,所述装置还包括:
分词模块,用于针对每个所述类别中的所述样本用户输入内容信息进行分词,得到所述类别对应的候选词集合。
8.根据权利要求6所述的候选词输出装置,其特征在于,所述获取模块,包括:
获取单元,用于从用户输入日志中获取所述样本用户输入内容信息。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的候选词输出方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的候选词输出方法。
CN202110001436.2A 2021-01-04 2021-01-04 候选词输出方法、装置、电子设备及计算机存储介质 Pending CN112684915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110001436.2A CN112684915A (zh) 2021-01-04 2021-01-04 候选词输出方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001436.2A CN112684915A (zh) 2021-01-04 2021-01-04 候选词输出方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112684915A true CN112684915A (zh) 2021-04-20

Family

ID=75456935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001436.2A Pending CN112684915A (zh) 2021-01-04 2021-01-04 候选词输出方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112684915A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备
CN109002184A (zh) * 2017-06-07 2018-12-14 北京搜狗科技发展有限公司 一种输入法候选词的联想方法和装置
CN111125344A (zh) * 2019-12-23 2020-05-08 北大方正集团有限公司 相关词推荐方法和装置
CN111868668A (zh) * 2018-09-03 2020-10-30 华为技术有限公司 一种中文输入法候选词的搜索方法、终端及服务器
US20200364298A1 (en) * 2019-05-17 2020-11-19 International Business Machines Corporation Word grouping using a plurality of models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备
CN109002184A (zh) * 2017-06-07 2018-12-14 北京搜狗科技发展有限公司 一种输入法候选词的联想方法和装置
CN111868668A (zh) * 2018-09-03 2020-10-30 华为技术有限公司 一种中文输入法候选词的搜索方法、终端及服务器
US20200364298A1 (en) * 2019-05-17 2020-11-19 International Business Machines Corporation Word grouping using a plurality of models
CN111125344A (zh) * 2019-12-23 2020-05-08 北大方正集团有限公司 相关词推荐方法和装置

Similar Documents

Publication Publication Date Title
CN108280542B (zh) 一种用户画像模型的优化方法、介质以及设备
CN112200273B (zh) 数据标注方法、装置、设备及计算机存储介质
CN107729453B (zh) 一种提取中心产品词的方法和装置
CN109961311B (zh) 客户推荐方法、装置、计算设备及存储介质
CN116543221B (zh) 关节病变智能检测方法、装置、设备及可读存储介质
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
US20150220660A1 (en) Method and apparatus for pushing network information
CN111538823A (zh) 信息处理方法、模型训练方法、装置、设备及介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN112684915A (zh) 候选词输出方法、装置、电子设备及计算机存储介质
CN113282831A (zh) 一种搜索信息的推荐方法、装置、电子设备及存储介质
CN114492389A (zh) 语料类型的确定方法、装置、设备及存储介质
CN114547380B (zh) 数据遍历查询方法、装置、电子设备及可读存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN111625619A (zh) 查询省略方法、装置、计算机可读介质及电子设备
CN112698736A (zh) 信息输出方法、装置、电子设备及计算机存储介质
CN114417830A (zh) 风险评价方法、装置、设备及计算机可读存储介质
CN114090643A (zh) 招聘信息推荐方法、装置、设备及存储介质
CN114117031A (zh) 名单筛查方法、装置、设备及计算机存储介质
CN114863574A (zh) 手写签名识别方法、装置、设备、介质及程序产品
CN113139386A (zh) 一种信息处理方法、装置、设备及计算机存储介质
CN114202494A (zh) 基于细胞分类模型分类细胞的方法、装置及设备
CN111353015B (zh) 众包题目推荐方法、装置、设备及存储介质
CN114547101B (zh) 数据中台的数据质量评估方法、装置、设备及存储介质
CN111353803A (zh) 广告主分类方法及装置、计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210420

WD01 Invention patent application deemed withdrawn after publication