CN114564556A - 一种词条推荐方法、装置和用于推荐词条的装置 - Google Patents

一种词条推荐方法、装置和用于推荐词条的装置 Download PDF

Info

Publication number
CN114564556A
CN114564556A CN202011360947.5A CN202011360947A CN114564556A CN 114564556 A CN114564556 A CN 114564556A CN 202011360947 A CN202011360947 A CN 202011360947A CN 114564556 A CN114564556 A CN 114564556A
Authority
CN
China
Prior art keywords
target
entries
vocabulary
entry
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011360947.5A
Other languages
English (en)
Inventor
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202011360947.5A priority Critical patent/CN114564556A/zh
Priority to PCT/CN2021/102187 priority patent/WO2022110789A1/zh
Publication of CN114564556A publication Critical patent/CN114564556A/zh
Priority to US18/165,069 priority patent/US20230185836A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种词条推荐方法、装置和用于推荐词条的装置。该方法的实施例包括:基于多路召回策略召回多个词表,各词表中的词条具有原始得分;分别针对各词表对原始得分进行归一化处理,得到各词表中的词条的目标得分,并分别确定各词表中的词条的权重;基于目标得分和权重,从多个词表中选取目标词条,并将目标词条推送至目标客户端。该实施方式所推荐给用户的词条可更高程度覆盖用户的输入需求,并提高了推荐给用户的词条的准确性。

Description

一种词条推荐方法、装置和用于推荐词条的装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种词条推荐方法、装置和用于推荐词条的装置。
背景技术
输入法客户端通常配置有系统词库,该词库中包含全量用户的高频词以及一些权威词、热点词等。在用户输入过程中,可从系统词库中选取若干词作为候选项推荐给用户。但随着新词条、新表达方式不断涌现,用户输入需求的差异化越来越大,导致用户的一些个性化的高频词条往往无法入选系统词库,因而系统词库无法满足用户的输入需求。
现有技术中,通常通过单一或是多路召回策略召回针对某个用户的词表,以满足该用户的输入偏好。然而,采用单一的召回策略召回的词表通常无法准确覆盖用户的输入需求,采用多路召回策略召回的词表之间不存在可比性,因而无法从中筛选出准确的词条为用户推荐。
发明内容
本申请实施例提出了一种词条推荐方法、装置和用于推荐词条的装置,以解决现有技术中推荐给用户的词条无法覆盖用户的输入需求以及准确性较低的技术问题。
第一方面,本申请实施例提供了一种词条推荐方法,该方法包括:基于多路召回策略召回多个词表,各词表中的词条具有原始得分;分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
在一些实施例中,所述分别确定所述各词表中的词条的权重,包括:基于所述原始得分,对所述各词表中的词条进行分组;确定各组词条的权重,其中,同组词条具有相同的权重。
在一些实施例中,所述基于所述目标得分和所述权重,从所述多个词表中选取目标词条,包括:基于所述权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分;按照加权得分由大到小的次序,对所召回的词条进行排序;基于排序结果,选取预设数量的词条作为目标词条。
在一些实施例中,将所述目标词条推送至目标客户端,包括:将所述目标词条进行汇总,得到目标词表;将所述多路召回策略所针对的用户作为目标用户,将所述目标词条推送至所述目标用户所使用的目标客户端。
在一些实施例中,所述分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,包括:对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
在一些实施例中,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值;对于该词表中的每个词条,确定该词条的原始得分与所述最小值的第一差值,确定所述最大值与所述最小值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
在一些实施例中,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值,将所述最小值与预设偏差值之和作为第一目标值,将所述最大值与所述预设偏差值之差作为第二目标值;对于该词表中的每个词条,确定该词条的原始得分与所述第一目标值的第一差值,确定所述第二目标值与所述第一目标值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
第二方面,本申请实施例提供了一种词条推荐装置,该装置包括:召回单元,被配置成基于多路召回策略召回多个词表,各词表中的词条具有原始得分;处理单元,被配置成分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;推送单元,被配置成基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
在一些实施例中,所述处理单元,进一步被配置成:基于所述原始得分,对所述各词表中的词条进行分组;确定各组词条的权重,其中,同组词条具有相同的权重。
在一些实施例中,所述推送单元,进一步被配置成:基于所述权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分;按照加权得分由大到小的次序,对所召回的词条进行排序;基于排序结果,选取预设数量的词条作为目标词条。
在一些实施例中,所述推送单元,进一步被配置成:将所述目标词条进行汇总,得到目标词表;将所述多路召回策略所针对的用户作为目标用户,将所述目标词条推送至所述目标用户所使用的目标客户端。
在一些实施例中,所述处理单元,进一步被配置成:对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
在一些实施例中,所述处理单元,进一步被配置成:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值;对于该词表中的每个词条,确定该词条的原始得分与所述最小值的第一差值,确定所述最大值与所述最小值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
在一些实施例中,所述处理单元,进一步被配置成:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值,将所述最小值与预设偏差值之和作为第一目标值,将所述最大值与所述预设偏差值之差作为第二目标值;对于该词表中的每个词条,确定该词条的原始得分与所述第一目标值的第一差值,确定所述第二目标值与所述第一目标值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
第三方面,本申请实施例提供了一种用于推荐词条的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令::基于多路召回策略召回多个词表,各词表中的词条具有原始得分;分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
在一些实施例中,所述分别确定所述各词表中的词条的权重,包括:基于所述原始得分,对所述各词表中的词条进行分组;确定各组词条的权重,其中,同组词条具有相同的权重。
在一些实施例中,所述基于所述目标得分和所述权重,从所述多个词表中选取目标词条,包括:基于所述权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分;按照加权得分由大到小的次序,对所召回的词条进行排序;基于排序结果,选取预设数量的词条作为目标词条。
在一些实施例中,将所述目标词条推送至目标客户端,包括:将所述目标词条进行汇总,得到目标词表;将所述多路召回策略所针对的用户作为目标用户,将所述目标词条推送至所述目标用户所使用的目标客户端。
在一些实施例中,所述分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,包括:对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
在一些实施例中,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值;对于该词表中的每个词条,确定该词条的原始得分与所述最小值的第一差值,确定所述最大值与所述最小值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
在一些实施例中,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值,将所述最小值与预设偏差值之和作为第一目标值,将所述最大值与所述预设偏差值之差作为第二目标值;对于该词表中的每个词条,确定该词条的原始得分与所述第一目标值的第一差值,确定所述第二目标值与所述第一目标值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所描述的方法。
本申请实施例提供的词条推荐方法、装置和用于推荐词条的装置,通过多路召回策略召回多个词表;而后分别针对所述各词表对词条的原始得分进行归一化处理,得到各词表中的词条的目标得分,并分别确定各词表中的词条的权重;最后基于所述目标得分和所述权重选取目标词条,从而将目标词条推送至目标客户端。一方面,由于多路召回策略可召回更丰富的词条,因而所召回的词条更高程度覆盖用户的输入需求。另一方面,基于归一化和权重的处理能够使不同词表中的词条具有可比性,由此从所召回的词表中进行目标词条的选取,能够提高推荐给用户的目标词条的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的词条推荐方法的一个实施例的流程图;
图2是根据本申请的词条推荐方法中基于目标得分和权重选取目标词条的步骤的流程图;
图3是根据本申请的词条推荐装置的一个实施例的结构示意图;
图4是根据本申请的一种用于推荐词条的装置的结构示意图;
图5是根据本申请的一些实施例中服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的词条推荐方法的一个实施例的流程100。上述词条推荐方法可运行于各种电子设备,上述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
本申请实施例中所提到的输入法应用能够支持多种输入法。其中,输入法可以是一种为了将各种符号输入到如计算机、手机等电子设备而采用的编码方法,用户可以使用输入法应用便利地将需要的字符或者字符串输入电子设备。需要注意的是,在本申请实施例中输入法除了支持常见的中文输入法(比如拼音输入法、五笔输入法、注音输入法、语音输入法、手写输入法等)以外,还可以支持其他语种的输入法(比如英文输入法、日文平假名输入法、韩文输入法等),在此不对输入法以及输入法的语言种类做任何限定。
本实施例中的词条推荐方法,可以包括以下步骤:
步骤101,基于多路召回策略召回多个词表,各词表中的词条具有原始得分。
在本实施例中,词条推荐方法的执行主体(如上述电子设备)可以基于多路召回策略召回多个词表。其中,多路召回策略可以指多种不同的召回策略。多路召回策略可包括但不限于以下至少一项:基于主题的召回策略、基于深度树匹配(Tree-based Deep Match,TDM)模型的召回策略、基于词向量的召回策略、基于地域的召回策略、基于客户端的召回策略、以及现有的可应用于词条召回的其他召回策略等。
其中,通过每种召回策略可召回一个词表,每个词表中可包含大量的词条。不同词表中可包含相同的词条以及不同的词条。不同词表中的词条相互独立。例如,基于深度树匹配模型的召回策略可召回“冲锋衣”、“滑雪”、“滑雪一族”等词条。基于词向量的召回策略可召回“滑冰”、“雪上运动”、“北京B滑雪”等词条。基于客户端的召回策略可召回“学滑雪”、“滑雪一族”、“趣滑雪”等词条。基于地域的召回策略可召回“北京A滑雪场”、“北京B滑雪场”、“北京C滑雪场”等。
在本实施例中,所召回的各词表中的词条可具有原始得分。原始得分即为在执行召回策略过程中所计算出的得分。由于不同的词表基于不同召回策略召回,因而各词表中的词条的得分相互独立,不存在可比性。
例如,基于深度树匹配模型的召回策略所召回的“冲锋衣”一词的得分为1.8、“滑雪”一词的得分为1.7、“滑雪一族”一词的得分为1.5。基于词向量的召回策略可召回“滑冰”一词的得分为2.7、“雪上运动”一词的得分为2.6、“北京B滑雪”一词的得分为2.5。基于客户端的召回策略可召回“学滑雪”一词的得分为3.7、“滑雪一族”一词的得分为3.6、“趣滑雪”一词的得分为3.4。基于地域的召回策略可召回“北京A滑雪场”一词的得分为4.6、“北京B滑雪场”一词的得分为4.5、“北京C滑雪场”一词的得分为4.4。由此可见,“滑雪一族”在基于深度树匹配模型的召回策略所召回的词表中的得分为1.5,在基于客户端的召回策略可召回的词表中的得分为3.6,二者相互独立。
步骤102,分别针对各词表对原始得分进行归一化处理,得到各词表中的词条的目标得分,并分别确定各词表中的词条的权重。
在本实施例中,对于所召回的每一个词表,上述执行主体可以对该词表中的每个词条的原始得分进行归一化处理,得到该词表中的各词条的目标得分。此处的归一化处理可以是将原始得分进行数值转换,使转换后的数值位于目标数值区间(如[0,1])的数据处理方式。分别将各词表中的词条的原始得分进行归一化处理,可使不同词表中的词条的目标得分分布在同一个数值区间,使原本不具有可比性的词表具备可比性,以便于从中选取目标词条。
在本实施例中,对于所召回的每一个词表,上述执行主体还可以分别为该词表中的词条设置权重。作为示例,对于所召回的每一个词表,上述执行主体可以按照原始得分由高到低的次序对该词表中的词条进行排序。而后,可以基于排序结果对该词表中的词条进行分组,每组中的词条的数量可以相同或不同。最后,可分别为各组词条设置权重。其中,同一组中的词条的权重相同,不同组中的词条的权重不同,且权重与每组中的词表的平均得分呈正相关。
例如,各词表中均含有6万个词条,则针对每一个词表,可以按照排序结果,依次将每2万个词条划分为一组,从而将各词表中的词条分别分成三组,每个词表的每组词条具有相同权重。例如,基于深度树匹配模型的召回策略召回的词表中,各组词条的权重依次为0.7、0.5、0.4。基于词向量的召回策略召回的词表中,各组词条的权重依次为0.6、0.5、0.3。基于客户端的召回策略召回的词表中,各组词条的权重依次为0.4、0.2、0.1。基于地域的召回策略召回的词表中,各组词条的权重依次为0.4、0.3、0.1等。
需要说明的是,通过各种召回策略召回的每组词条的权重可以基于大量数据统计而预先设定,此处对每组词条的权重数值不作具体限定。此外,除通过分组的方式设定权重外,还可以根据需要采用其他权重设定规则进行权重设定,例如将同一词表中的词条设置相同权重等,此处不再一一赘述。
在本实施例中的一些可选的实现方式中,对于所召回的每个词表,上述执行主体可以基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
作为示例,对于所召回的每个词表,上述执行主体可以首先确定该词表中的词条的原始得分中的最小值(可记为min)和最大值(可记为max)。而后,对于该词表中的每个词条,确定该词条的原始得分(可记为x)与最小值的第一差值,确定最大值与最小值的第二差值,将第一差值与第二差值的比值确定为该词条的目标得分(可记为x)。参见如下公式:
Figure BDA0002803964510000091
作为又一示例,上述执行主体可以首先确定该词表中的词条的原始得分中的最小值(可记为min)和最大值(可记为max)。而后,将最小值与预设偏差值(可记为bias)之和作为第一目标值(即min+bias),将最大值与预设偏差值之差作为第二目标值(即max-bias)。之后,对于该词表中的每个词条,确定该词条的原始得分(可记为x)与第一目标值的第一差值,确定第二目标值与第一目标值的第二差值,将第一差值与第二差值的比值确定为该词条的目标得分(可记为x’)。通过引入预设偏差值,可避免目标得分为0或1,使归一化结果位于数值取件(0,1)内。参见如下公式:
Figure BDA0002803964510000092
需要说明的是,除上述归一化方式外,还可以采用其他归一化方式分别针对各词表进行原始得分的归一化处理,得到各词表中的词条的目标得分,此处不再赘述。
步骤103,基于目标得分和权重,从上述多个词表中选取目标词条,并将目标词条推送至目标客户端。
在本实施例中,基于目标得分和权重上述执行主体可以采用加权计算或者加权求和等方式从上述多个词表中选取目标词条,并将所选取的目标词条推送至目标客户端。其中,目标客户端可以是目标用户所使用的客户端,目标用户可以是上述多路召回策略所针对的用户。
作为示例,由于每一个词表中的每一个词条具有目标得分和权重,因而上述执行主体可以首先基于权重,对每一个词表中的每一个词条的目标得分进行加权计算,得到加权得分。而后,可以基于加权得分从多个词表中选取目标词条。例如,可以分别从各词表中选取满足预设条件(如加权得分大于某一预设阈值)的词条作为目标词条,或者,可以分别从各词表中选取加权得分较高的固定数量的词条作为目标词条。
在本实施例中的一些可选的实现方式中,参见图2,上述执行主体可以按照如下子步骤选取目标词条:
子步骤S11,基于权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分。
此处,每个词条可具有至少一个目标得分和相应的权重。当同一词条出现于至少两个词表中时,则具有至少两个目标得分以及相应的权重。上述执行主体可以采用加权求和的方式,对所召回的词表中的每一个词条进行处理,并将加权处理结果作为该词条的加权得分。由此,每一个词条的加权得分融合了其在所属的各个词表中的目标得分,由此可将多路召回策略下的召回结果融合比较,能够使推荐给用户的词条更准确且更符合用户的输入偏好。
作为示例,基于深度树匹配模型的召回策略可召回词条“冲锋衣”、“滑雪”、“滑雪一族”,且“冲锋衣”、“滑雪”、“滑雪一族”的目标得分依次为0.9、0.66、0.1,权重依次为0.7、0.7、0.7。
基于词向量的召回策略可召回词条“滑冰”、“雪上运动”、“北京B滑雪”,且“滑冰”、“雪上运动”、“北京B滑雪”的目标得分依次为0.9、0.5、0.1,权重依次为0.6、0.6、0.6。
基于客户端的召回策略可召回词条“学滑雪”、“滑雪一族”、“趣滑雪”,且“学滑雪”、“滑雪一族”、“趣滑雪”的目标得分依次为0.9、0.66、0.1,权重依次为0.4、0.4、0.4。
基于地域的召回策略可召回词条“北京A滑雪场”、“北京B滑雪场”、“北京C滑雪场”,且“北京A滑雪场”、“北京B滑雪场”、“北京C滑雪场”的目标得分依次为0.9、0.5、0.1,权重依次为0.4、0.4、0.1。
基于权重,对所召回的每个词条的目标得分进行加权求和,可得到如下加权得分:“冲锋衣”的加权得分为0.9*0.7=0.63;“滑雪”的加权得分为0.66*0.7=0.46;“滑雪一族”的加权得分为0.1*0.7+0.66*0.4=0.33;“滑冰”的加权得分为0.9*0.6=0.54;“雪上运动”的加权得分为0.5*0.6=0.3;“北京B滑雪”的加权得分为0.1*0.6+0.5*0.4=0.26;“学滑雪”的加权得分为0.9*0.4=0.36;“趣滑雪”的加权得分为0.1*0.4=0.04;“北京A滑雪场”的加权得分为0.9*0.4=0.36;“北京C滑雪场”的加权得分为0.1*0.1=0.01。
子步骤S12,按照加权得分由大到小的次序,对所召回的词条进行排序。
此处,所召回的每一个词具有一个加权得分。由于加权得分融合了其在所属的各个词表中的归一化后的目标得分,因而融合了多路召回策略下的召回结果,由此实现了对多路召回策略召回的词条的融合排序,提高了词条排序结果的准确性。
子步骤S13,基于排序结果,选取预设数量(如6万个)的词条作为目标词条。
由于所选取的目标词条为排序结果靠前的词条,即加权得分较高的词条,因而能够提高推荐给用户的目标词条的准确性。
在本实施例中的一些可选的实现方式中,在将目标词条推送至目标客户端时,可首先将目标词条进行汇总,得到目标词表;而后,将多路召回策略所针对的用户作为目标用户,将目标词条推送至目标用户所使用的目标客户端。由此,可在系统词表、细胞词表的基础上,在目标客户端中配置针对目标用户的目标词表,该词表通过对多路召回策略召回的词条进行融合排序后得到,因而能够提高推荐给用户的目标词条的覆盖率和准确性。
本申请的上述实施例提供的方法,通过多路召回策略召回多个词表;而后分别针对上述各词表对词条的原始得分进行归一化处理,得到各词表中的词条的目标得分,并分别确定各词表中的词条的权重;最后基于上述目标得分和上述权重选取目标词条,从而将目标词条推送至目标客户端。一方面,由于多路召回策略可召回更丰富的词条,因而所召回的词条可更高程度覆盖用户的输入需求。另一方面,归一化处理能够使不同词表中的词条具有可比性,由此从所召回的词表中进行目标词条的选取,能够提高推荐给用户的目标词条的准确性。
进一步参考图3,作为对上述各图所示方法的实现,本申请提供了一种词条推荐装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例上述的词条推荐装置300包括:召回单元301,被配置成基于多路召回策略召回多个词表,各词表中的词条具有原始得分;处理单元302,被配置成分别针对上述各词表对上述原始得分进行归一化处理,得到上述各词表中的词条的目标得分,并分别确定上述各词表中的词条的权重;推送单元303,被配置成基于上述目标得分和上述权重,从上述多个词表中选取目标词条,并将上述目标词条推送至目标客户端。
在本实施例的一些可选的实现方式中,上述处理单元302,进一步被配置成:基于上述原始得分,对上述各词表中的词条进行分组,并预测各组词条的召回率;基于上述各组词条的召回率,确定上述各组词条的权重。
在本实施例的一些可选的实现方式中,上述推送单元303,进一步被配置成:基于上述权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分;按照加权得分由大到小的次序,对所召回的词条进行排序;基于排序结果,选取预设数量的词条作为目标词条。
在本实施例的一些可选的实现方式中,上述推送单元303,进一步被配置成:将上述目标词条进行汇总,得到目标词表;将上述多路召回策略所针对的用户作为目标用户,将上述目标词条推送至上述目标用户所使用的目标客户端。
在本实施例的一些可选的实现方式中,上述处理单元302,进一步被配置成:对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
在本实施例的一些可选的实现方式中,上述处理单元302,进一步被配置成:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值;对于该词表中的每个词条,确定该词条的原始得分与上述最小值的第一差值,确定上述最大值与上述最小值的第二差值,将上述第一差值与上述第二差值的比值确定为该词条的目标得分。
在本实施例的一些可选的实现方式中,上述处理单元302,进一步被配置成:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值,将上述最小值与预设偏差值之和作为第一目标值,将上述最大值与上述预设偏差值之差作为第二目标值;对于该词表中的每个词条,确定该词条的原始得分与上述第一目标值的第一差值,确定上述第二目标值与上述第一目标值的第二差值,将上述第一差值与上述第二差值的比值确定为该词条的目标得分。
本申请的上述实施例提供的装置,通过多路召回策略召回多个词表;而后分别针对上述各词表对词条的原始得分进行归一化处理,得到各词表中的词条的目标得分,并分别确定各词表中的词条的权重;最后基于上述目标得分和上述权重选取目标词条,从而将目标词条推送至目标客户端。一方面,由于多路召回策略可召回更丰富的词条,因而所召回的词条可更高程度覆盖用户的输入需求。另一方面,归一化处理能够使不同词表中的词条具有可比性,由此从所召回的词表中进行目标词条的选取,能够提高推荐给用户的目标词条的准确性。
图4是根据一示例性实施例示出的用于输入的装置400的框图,该装置400可以为智能终端或者服务器。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在上述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如上述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,上述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是本申请的一些实施例中服务器的结构示意图。该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,一个或一个以上键盘556,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时,使得装置能够执行一种词条推荐方法,上述方法包括:基于多路召回策略召回多个词表,各词表中的词条具有原始得分;分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
可选的,所述分别确定所述各词表中的词条的权重,包括:基于所述原始得分,对所述各词表中的词条进行分组,并预测各组词条的召回率;基于所述各组词条的召回率,确定所述各组词条的权重。
可选的,所述基于所述目标得分和所述权重,从所述多个词表中选取目标词条,包括:基于所述权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分;按照加权得分由大到小的次序,对所召回的词条进行排序;基于排序结果,选取预设数量的词条作为目标词条。
可选的,将所述目标词条推送至目标客户端,包括:将所述目标词条进行汇总,得到目标词表;将所述多路召回策略所针对的用户作为目标用户,将所述目标词条推送至所述目标用户所使用的目标客户端。
可选的,所述分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,包括:对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
可选的,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值;对于该词表中的每个词条,确定该词条的原始得分与所述最小值的第一差值,确定所述最大值与所述最小值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
可选的,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值,将所述最小值与预设偏差值之和作为第一目标值,将所述最大值与所述预设偏差值之差作为第二目标值;对于该词表中的每个词条,确定该词条的原始得分与所述第一目标值的第一差值,确定所述第二目标值与所述第一目标值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上对本申请所提供的一种词条推荐方法、装置和一种用于推荐词条的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种词条推荐方法,其特征在于,所述方法包括:
基于多路召回策略召回多个词表,各词表中的词条具有原始得分;
分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;
基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
2.根据权利要求1所述的方法,其特征在于,所述分别确定所述各词表中的词条的权重,包括:
基于所述原始得分,对所述各词表中的词条进行分组;
确定各组词条的权重,其中,同组词条具有相同的权重。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标得分和所述权重,从所述多个词表中选取目标词条,包括:
基于所述权重,对所召回的每个词条的目标得分进行加权求和,得到所召回的每个词条的加权得分;
按照加权得分由大到小的次序,对所召回的词条进行排序;
基于排序结果,选取预设数量的词条作为目标词条。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标词条推送至目标客户端,包括:
将所述目标词条进行汇总,得到目标词表;
将所述多路召回策略所针对的用户作为目标用户,将所述目标词条推送至所述目标用户所使用的目标客户端。
5.根据权利要求1所述的方法,其特征在于,所述分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,包括:
对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分。
6.根据权利要求5所述的方法,其特征在于,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:
对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值;
对于该词表中的每个词条,确定该词条的原始得分与所述最小值的第一差值,确定所述最大值与所述最小值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
7.根据权利要求5所述的方法,其特征在于,所述对于所召回的每个词表,基于该词表中的词条的原始得分中的最小值和最大值,对该词表中的词条的原始得分进行归一化处理,得到该词表中的词条的目标得分,包括:
对于所召回的每个词表,确定该词表中的词条的原始得分中的最小值和最大值,将所述最小值与预设偏差值之和作为第一目标值,将所述最大值与所述预设偏差值之差作为第二目标值;
对于该词表中的每个词条,确定该词条的原始得分与所述第一目标值的第一差值,确定所述第二目标值与所述第一目标值的第二差值,将所述第一差值与所述第二差值的比值确定为该词条的目标得分。
8.一种词条推荐装置,其特征在于,所述装置包括:
召回单元,被配置成基于多路召回策略召回多个词表,各词表中的词条具有原始得分;
处理单元,被配置成分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;
推送单元,被配置成基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
9.一种用于推荐词条的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
基于多路召回策略召回多个词表,各词表中的词条具有原始得分;
分别针对所述各词表对所述原始得分进行归一化处理,得到所述各词表中的词条的目标得分,并分别确定所述各词表中的词条的权重;
基于所述目标得分和所述权重,从所述多个词表中选取目标词条,并将所述目标词条推送至目标客户端。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011360947.5A 2020-11-27 2020-11-27 一种词条推荐方法、装置和用于推荐词条的装置 Pending CN114564556A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011360947.5A CN114564556A (zh) 2020-11-27 2020-11-27 一种词条推荐方法、装置和用于推荐词条的装置
PCT/CN2021/102187 WO2022110789A1 (zh) 2020-11-27 2021-06-24 词条推荐方法、装置和用于推荐词条的装置
US18/165,069 US20230185836A1 (en) 2020-11-27 2023-02-06 Entry recommendation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011360947.5A CN114564556A (zh) 2020-11-27 2020-11-27 一种词条推荐方法、装置和用于推荐词条的装置

Publications (1)

Publication Number Publication Date
CN114564556A true CN114564556A (zh) 2022-05-31

Family

ID=81711723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011360947.5A Pending CN114564556A (zh) 2020-11-27 2020-11-27 一种词条推荐方法、装置和用于推荐词条的装置

Country Status (2)

Country Link
CN (1) CN114564556A (zh)
WO (1) WO2022110789A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186855A (ja) * 2010-03-09 2011-09-22 Nippon Telegr & Teleph Corp <Ntt> 質問推薦装置及び方法及びプログラム
CN109669550A (zh) * 2017-10-17 2019-04-23 北京搜狗科技发展有限公司 一种获取用户词库的方法和装置
CN111353836A (zh) * 2018-12-20 2020-06-30 百度在线网络技术(北京)有限公司 商品推荐方法、装置及设备
CN111581545A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256239B (zh) * 2017-05-23 2021-03-26 努比亚技术有限公司 一种推荐候选词的方法及装置
CN110442796A (zh) * 2019-08-14 2019-11-12 北京思维造物信息科技股份有限公司 一种推荐策略分桶方法、装置及设备
CN111008278B (zh) * 2019-11-22 2022-06-21 厦门美柚股份有限公司 内容推荐方法及装置
CN111259232B (zh) * 2019-12-03 2022-08-12 江苏艾佳家居用品有限公司 一种基于个性化召回的推荐系统优化方法
CN111241388A (zh) * 2019-12-13 2020-06-05 北京三快在线科技有限公司 多策略召回方法、装置、电子设备及可读存储介质
CN111160023B (zh) * 2019-12-23 2023-06-20 华南理工大学 一种基于多路召回的医疗文本命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186855A (ja) * 2010-03-09 2011-09-22 Nippon Telegr & Teleph Corp <Ntt> 質問推薦装置及び方法及びプログラム
CN109669550A (zh) * 2017-10-17 2019-04-23 北京搜狗科技发展有限公司 一种获取用户词库的方法和装置
CN111353836A (zh) * 2018-12-20 2020-06-30 百度在线网络技术(北京)有限公司 商品推荐方法、装置及设备
CN111581545A (zh) * 2020-05-12 2020-08-25 腾讯科技(深圳)有限公司 一种召回文档的排序方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄颖 等: "MediaWiki平台下工程经验知识审阅的专家推荐方法", 《上海交通大学学报》, no. 12, 28 December 2015 (2015-12-28), pages 95 - 103 *

Also Published As

Publication number Publication date
WO2022110789A1 (zh) 2022-06-02

Similar Documents

Publication Publication Date Title
CN111460150B (zh) 一种分类模型的训练方法、分类方法、装置及存储介质
CN107608532A (zh) 一种联想输入方法、装置及电子设备
CN108073303A (zh) 一种输入方法、装置及电子设备
CN111104807B (zh) 一种数据处理方法、装置和电子设备
CN107346316A (zh) 一种搜索方法、装置及电子设备
CN109521888B (zh) 一种输入方法、装置和介质
CN107665218B (zh) 一种搜索方法、装置及电子设备
CN107436896B (zh) 一种输入推荐方法、装置及电子设备
CN110858099B (zh) 候选词生成方法及装置
CN110908523B (zh) 一种输入方法及装置
CN110780749B (zh) 一种字符串纠错方法和装置
CN112306251A (zh) 一种输入方法、装置和用于输入的装置
CN109426354B (zh) 一种输入方法、装置和用于输入的装置
CN114564556A (zh) 一种词条推荐方法、装置和用于推荐词条的装置
US20230185836A1 (en) Entry recommendation method and apparatus
CN111103986B (zh) 用户词库管理方法及装置、输入方法及装置
CN114115550A (zh) 联想候选的处理方法、装置和用于处理联想候选的装置
CN114330305B (zh) 一种词条召回方法、装置和用于召回词条的装置
CN114330325A (zh) 个性化词条的处理方法和装置
CN112052395A (zh) 一种数据处理方法及装置
CN109388252B (zh) 一种输入方法及装置
CN112181163A (zh) 一种输入方法、装置和用于输入的装置
CN114330305A (zh) 一种词条召回方法、装置和用于召回词条的装置
CN109213332A (zh) 一种表情图片的输入方法和装置
CN113741783B (zh) 按键识别方法、装置和用于识别按键的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination