CN114330305A - 一种词条召回方法、装置和用于召回词条的装置 - Google Patents

一种词条召回方法、装置和用于召回词条的装置 Download PDF

Info

Publication number
CN114330305A
CN114330305A CN202011058208.0A CN202011058208A CN114330305A CN 114330305 A CN114330305 A CN 114330305A CN 202011058208 A CN202011058208 A CN 202011058208A CN 114330305 A CN114330305 A CN 114330305A
Authority
CN
China
Prior art keywords
entries
target
user
entry
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011058208.0A
Other languages
English (en)
Inventor
李鑫
崔欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202011058208.0A priority Critical patent/CN114330305A/zh
Publication of CN114330305A publication Critical patent/CN114330305A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种词条召回方法、装置和用于召回词条的装置。该方法的实施例包括:对用户语料中的多个词条进行聚类,以得到各词条的主题;获取目标用户的历史特征词,并从多个词条中确定出与历史特征词具有相同主题的目标词条;召回满足预设条件的目标词条,并发送至目标用户的客户端。该实施方式提高了所召回的词条与用户输入内容的相关性,且所召回的词条能够满足用户的多样性需求。

Description

一种词条召回方法、装置和用于召回词条的装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种词条召回方法、装置和用于召回词条的装置。
背景技术
输入法客户端通常配置有系统词库,该词库中通常包含全量用户的高频词以及一些权威词、热点词等。在用户输入过程中,可从系统词库中选取若干词作为候选项推荐给用户。但由于专业术语等低频词通常无法入选系统词库,因而系统词库通常无法满足用户的输入需求。
现有技术中,通常通过配置多种细胞词库,为用户提供其所需领域的词,以满足不同偏好用户的输入需求。然而,细胞词库中的词通常来源于开放式数据,例如专业书籍、文章等,或是依赖于专业领域专家人工构建,覆盖面有限,与用户输入内容的相关性较弱,导致细胞词库无法满足用户输入内容的多样性需求。
发明内容
本申请实施例提出了一种词条召回方法、装置和用于召回词条的装置,以解决现有技术中细胞词库中的词与用户输入内容的相关性较弱、以及无法满足用户输入内容的多样性需求的技术问题。
第一方面,本申请实施例提供了一种词条召回方法,该方法包括:对用户语料中的多个词条进行聚类,以得到各词条的主题;获取目标用户的历史特征词,并从所述多个词条中确定出与所述历史特征词具有相同主题的目标词条;召回满足预设条件的目标词条,并发送至所述目标用户的客户端。
第二方面,本申请实施例提供了一种词条召回装置,该装置包括:聚类单元,被配置成对用户语料中的多个词条进行聚类,以得到各词条的主题;确定单元,被配置成获取目标用户的历史特征词,并从所述多个词条中确定出与所述历史特征词具有相同主题的目标词条;召回单元,被配置成召回满足预设条件的目标词条,并发送至所述目标用户的客户端。
第三方面,本申请实施例提供了一种用于召回词条的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:对用户语料中的多个词条进行聚类,以得到各词条的主题;获取目标用户的历史特征词,并从所述多个词条中确定出与所述历史特征词具有相同主题的目标词条;召回满足预设条件的目标词条,并发送至所述目标用户的客户端。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所描述的方法。
本申请实施例提供的词条召回方法、装置和用于召回词条的装置,通过对用户语料中的多个词条进行聚类,以得到各词条的主题;而后获取目标用户的历史特征词,并从上述多个词条中确定出与历史特征词具有相同主题的目标词条;最后召回满足预设条件的目标词条,从而发送至上述目标用户的客户端。由此,一方面,召回的目标词条是从用户语料中获取,覆盖面广,且更贴近真实输入场景,提高了目标词条与用户输入内容的相关性,使目标词条更易符合用户输入内容的多样性需求。另一方面,召回的目标词条与目标用户的历史特征词具有相同主题,当存在主题不同的多个历史特征词时,召回的目标词条可以涉及多个主题,从而能够进一步满足用户输入内容的多样性需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的词条召回方法的一个实施例的流程图;
图2是本申请中主题获取过程的流程图;
图3是本申请中目标词条召回过程的流程图;
图4是本申请的词条召回装置的一个实施例的结构示意图;
图5是本申请的一种用于召回词条的装置的结构示意图;
图6是本申请的一些实施例中服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的词条召回方法的一个实施例的流程100。上述词条召回方法可运行于各种电子设备,上述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
本申请实施例中所提到的输入法客户端能够支持多种输入法。其中,输入法可以是一种为了将各种符号输入到如计算机、手机等电子设备而采用的编码方法,用户可以使用输入法应用便利地将需要的字符或者字符串输入电子设备。需要注意的是,在本申请实施例中输入法除了支持常见的中文输入法(比如拼音输入法、五笔输入法、注音输入法、语音输入法、手写输入法等)以外,还可以支持其他语种的输入法(比如英文输入法、日文平假名输入法、韩文输入法等),在此不对输入法以及输入法的语言种类做任何限定。
本实施例中的词条召回方法,可以包括以下步骤:
步骤101,对用户语料中的多个词条进行聚类,以得到各词条的主题。
在本实施例中,词条召回方法的执行主体(如上述电子设备)可以首先获取用户语料。用户语料可包括用户输入的语句。实践中,可通过输入法客户端(包括但不限于智能手机、平板电脑、台式计算机、膝上型便携计算机等设备上安装的输入法客户端)收集用户语料。例如,用户A输入了语句“今天上午我们去XX专卖店买冲锋衣,下午去滑雪”,则该语句可视为一个语料。
需要说明的是,本实施例中的用户语料,可以是多个用户(如全量用户)在某一预设时段(如近一年内)的语料集。由此可提高语料的覆盖面,从而有助于提高所召回的词的数量以及多样性。
在获取到用户语料后,上述执行主体可以从用户语料中选取多个词条。例如,对于某语料“今天上午我们去XX专卖店买冲锋衣,下午去滑雪”,则可从中选取待进行聚类的词“XX专卖店”、“冲锋衣”和“滑雪”。而后,可对所选取的多个词条进行聚类。此处可采用各种聚类算法进行聚类,如K-均值聚类算法(k-means clustering algorithm,K-means)、K最近邻(k-Nearest Neighbor,KNN)算法等,本实施例对此不作限定。
对上述多个词条进行聚类后,可得到多个簇。每个词条属于一个簇,且每个簇可对应一个主题。由此,可得到各个词条的主题。其中,每个簇中的词条的语义通常较为相似,属于不同簇中的两个词条的语义通常不相似。
通过对用户语料中的多个词条进行聚类,可自动将词条进行类别划分,得到多个主题。由于主题的个数可预先设置和调试,相较于依赖专业领域专家人工构建不同领域的细胞词库的方式,可通过配置主题的个数,提高主题的覆盖程度,从而易于满足用户输入内容的多样性需求。
在本实施例的一些可选的实现方式中,可按照如下子步骤S11至子步骤S14对用户语料中的多个词条进行聚类,得到各词条的主题:
子步骤S11,从用户语料中选取多个词条。
作为示例,可首先利用分词方法对用户语料进行分词。而后,从分词结果中,选取多个词条。其中,上述分词方法可以是基于统计的分词方法。具体的,可以对用户语料中的相邻的各个字的组合的频度进行统计,计算出字的组合出现的频率。当上述概率高于预设概率阈值时,则判定上述组合构成了词,从而实现对用户语料的分词。
作为又一示例,可首先将用户语料与预设的词库或词表中的词进行匹配。而后基于匹配结果,选取用户语料中的多个词条。例如,若用户语料中的某一个词存在于预设的词库或词表中,则可将该词进行选取。其中,预设的词库可包括但不限于系统词库、细胞词库、用户词库、专业领域词库等。预设的词表可包括但不限于上述各项词库中的词表。
子步骤S12,获取多个词条中的各词条的词向量。
此处,词向量是用于表示词的特征的向量,词向量的每一维的值可以代表一个具有一定的语义和语法上解释的特征。其中,特征可以是用于对词的基本要素进行表征的各种信息。可以利用各种词向量生成方式生成各个词条的词向量,例如,可以使用现有的词向量生成工具(例如word2vec等)生成,或者利用训练神经网络的方式生成。
作为示例,从用户语料中所选取的多个词条包括“XX专卖店”、“冲锋衣”和“滑雪”,依次对应的词向量可以是[0.21,0.32,0.34]、[0.33,0.53,0.65]和[0.32,0.45,0.52]。
子步骤S13,对所获取的词向量进行聚类,得到多个簇,每个簇对应一个主题。
以K-均值聚类算法为例,首先,可设定K个初始的聚类中心,各聚类中心可以是词向量,且可随机初始化。而后,检测所获取的各词条向量到各聚类中心的距离。例如,可使用向量的内积计算结果表征到聚类中心的距离。之后,对于所获取的每一个词向量,可将与词向量距离最小的聚类中心对应的簇作为该词向量所属的簇,并更新该簇的聚类中心。当各个词向量均被聚类后,可得到K个簇。每个簇可对应一个主题。
子步骤S14,基于各词条所属的簇,确定各词条的主题。
此处,每个词向量所属的簇,即为该词向量对应的词所属的簇。由于从用户语料中选取的多个词条中的每个词对应一个簇,且每个簇可对应一个主题,因而可得到从用户语料中选取的每一个词的主题。
通过获取用户语料中的多个词条的词向量,并对词向量进行聚类,可准确地对用户语料中的多个词条进行主题划分,使相同主题中的词条具有近似的语义。
步骤102,获取目标用户的历史特征词,并从多个词条中确定出与历史特征词具有相同主题的目标词条。
在本实施例中,上述执行主体可以首先获取目标用户的历史特征词,而后确定历史特征词的主题,最后确定上述多个词条中与所获取的历史特征词的主题相同的目标词条。
其中,历史特征词可以从用户在预设历史时段内(如近一个月)的历史输入信息中获取。历史特征词的主题可通过与上述多个词条进行匹配的方式确定。例如,若上述多个词条中包含历史特征词,则可直接读取历史特征词的主题。此外,历史特征词的主题也可通过检测词向量所属的簇确定。此处,例如,可计算历史特征词的词向量与各聚类中心的距离,确定出距离最小的聚类中心所属的簇,从而得知历史特征词的主题。
需要说明的是,历史特征词的数量可以是一个或多个。当获取到多个历史特征词时,针对每一个历史特征词,可从上述多个词条中,确定出与该历史特征词具有相同主题的目标词条。作为示例,用户语料中的上述多个词条中,包括“滑雪”、“滑冰”、“溜冰”、“冲锋衣”、“羽绒服”、“防寒服”、“铅笔”和“水彩笔”。其中,“滑雪”、“滑冰”和“溜冰”的主题相同,“冲锋衣”、“羽绒服”和“防寒服”的主题相同,“铅笔”和“水彩笔”的主题相同。若历史特征词包括“滑雪”和“冲锋衣”,则针对历史特征词“滑雪”,其目标词条为“滑雪”、“滑冰”和“溜冰”。针对历史特征词“冲锋衣”,其目标词条为“冲锋衣”、“羽绒服”和“防寒服”。
在本实施例的一些可选的实现方式中,可按照如下步骤获取上述目标用户的历史特征词:首先,获取上述目标用户在预设历史时段内(如近一个月)的历史输入信息。而后,将上述历史输入信息与预设的词库或词表中的词进行匹配。其中,预设的词库可包括但不限于系统词库、细胞词库、用户词库、专业领域词库等。预设的词表可包括但不限于上述各项词库中的词表。最后,基于匹配结果,从历史输入信息中提取目标用户的历史特征词。例如,若历史输入信息中的某个词存在于预设的词库或词表中,则可将该词作为目标用户的历史特征词。
步骤103,召回满足预设条件的目标词条,并发送至目标用户的客户端。
在本实施例中,上述执行主体可以召回满足预设条件的目标词条,并发送至目标用户的客户端(如输入法客户端)。此处,召回目标词条的预设条件可根据需要进行设定,例如,可对目标词条进行打分,并将预设条件设定为得分大于预设阈值,由此可召回得分大于预设阈值的目标词条。再例如,可按照得分顺序对目标词条排序,将预设条件设定为顺序位于目标次序(如1000)前,由此可召回顺序位于前1000的目标词条。
由于召回的目标词条是从用户语料中获取,因而更贴近真实输入场景,提高了召回的词条与输入内容的相关性,使召回的词条更易符合用户需求。
在本实施例的一些可选的实现方式中,可按照如下子步骤S21至子步骤S23召回目标词条:
子步骤S21,基于词频-逆向文件频率方法,确定历史特征词的得分。
其中,词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)方法的主要思想是,如果某个词或短语在一篇文章中出现的频率(Term Frequency,TF)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。而逆向文件频率(Inverse Document Frequency,IDF)主要是指,如果包含某个词或短语的文档越少,则IDF越大,则说明该词或短语具有很好的类别区分能力。由此,使用词频-逆向文件频率方法,可以计算某个词或短语在某篇文章里面的重要性。通过词频-逆向文件频率方法确定出的值,即为历史特征词的得分。
作为示例,上述执行主体可以首先获取目标用户在预设历史时段内(如近一个月)的历史输入信息,统计历史特征词在历史输入信息中的词频(即TF)。而后,统计历史特征词在上述用户语料中的逆向文件频率(即IDF)。最后,基于词频和逆向文件频率(即TF×IDF),确定历史特征词的得分。
需要说明的是,当存在两个或两个以上历史特征词时,每个历史特征词均可通过上述方式计算出得分。
子步骤S22,基于历史特征词的得分,确定目标词条的得分。
此处,上述执行主体可以直接将历史特征词的得分作为目标词条的得分。当存在两个或两个以上历史特征词时,对于每一个历史特征词,可将该历史特征词的得分,作为多个词条中与该历史特征词的主题相同的目标词条的得分。
作为示例,历史特征词包括“滑雪”和“冲锋衣”。历史特征词“滑雪”对应的目标词条为“滑雪”、“滑冰”和“溜冰”。历史特征词“冲锋衣”对应的目标词条为“冲锋衣”、“羽绒服”和“防寒服”。若“滑雪”的得分为0.8,则目标词条“滑雪”、“滑冰”和“溜冰”的得分可设定为0.8。若“冲锋衣”的得分为0.7,则目标词条“冲锋衣”、“羽绒服”和“防寒服”的得分可设定为0.7。
需要说明的是,若存在两个或两个以上具有相同主题的历史特征词,则可以将其中一个历史特征词的得分,作为相应的目标词条的得分。或者,也可以具有相同主题的历史特征词的得分进行加权求和,将加权求和结果作为相应的目标词条的得分。
子步骤S23,按照目标词条的得分由大到小的次序,召回预设数量的目标词条;或者,召回得分大于预设阈值的目标词条。
作为示例,目标词条包括“滑雪”、“滑冰”、“溜冰”、“冲锋衣”、“羽绒服”、“防寒服”、“铅笔”和“水彩笔”。其中,“滑雪”、“滑冰”、“溜冰”的得分为0.8,“冲锋衣”、“羽绒服”、“防寒服”的得分为0.7,“铅笔”和“水彩笔”的得分为0.3。
以召回预设数量的目标词条为例,若预设数量为6,则召回的目标词条为“滑雪”、“滑冰”、“溜冰”、“冲锋衣”、“羽绒服”和“防寒服”。
以召回得分大于预设阈值的目标词条为例,若预设阈值为0.5,则召回的目标词条为“滑雪”、“滑冰”、“溜冰”、“冲锋衣”、“羽绒服”和“防寒服”。如预设阈值为0.75,则召回的目标词条为“滑雪”、“滑冰”、“溜冰”。
通过确定与历史特征词具有相同主题的目标词条的得分,进而选取召回的目标词条,能够使召回的目标词条更易满足用户的输入需求。
在本实施例的一些可选的实现方式中,上述执行主体可以按照如下步骤将召回的目标词条发送至目标用户的客户端:首先,按照主题将所召回的目标词条进行汇总,得到至少一个个性化词库。其中,所召回的目标词条所对应的每个主题,可对应一个个性化词库。而后,将所得到的至少一个个性化词库发送至目标用户的客户端。由此,可在客户端中配置不同主题的个性化词库,丰富词库的多样性。
本申请的上述实施例提供的方法,通过对用户语料中的多个词条进行聚类,以得到各词条的主题;而后获取目标用户的历史特征词,并确定上述多个词条中与上述历史特征词的主题相同的目标词条;最后召回满足预设条件的目标词条,从而发送至上述目标用户的客户端。由此,一方面,召回的目标词条是从用户语料中获取,覆盖面广,且更贴近真实输入场景,提高了目标词条与用户输入内容的相关性,使目标词条更易符合用户输入内容的多样性需求。另一方面,召回的目标词条与目标用户的历史特征词具有相同主题,当存在主题不同的多个历史特征词时,召回的目标词条可以涉及多个主题,从而能够进一步满足用户输入内容的多样性需求。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种词条召回装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例上述的词条召回装置400包括:聚类单元401,被配置成对用户语料中的多个词条进行聚类,以得到各词条的主题;确定单元402,被配置成获取目标用户的历史特征词,并从上述多个词条中确定出与上述历史特征词具有相同主题的目标词条;召回单元403,被配置成召回满足预设条件的目标词条,并发送至上述目标用户的客户端。
在本实施例的一些可选的实现方式中,上述聚类单元401,进一步被配置成:从用户语料中选取多个词条;获取上述多个词条中的各词条的词向量;对所获取的词向量进行聚类,得到多个簇,每个簇对应一个主题;基于各词条所属的簇,确定各词条的主题。
在本实施例的一些可选的实现方式中,上述聚类单元401,进一步被配置成:将用户语料与预设的词库或词表中的词进行匹配;基于匹配结果,选取上述用户语料中的多个词条。
在本实施例的一些可选的实现方式中,上述确定单元402,进一步被配置成:获取上述目标用户在预设历史时段内的历史输入信息;将上述历史输入信息与预设的词库或词表中的词进行匹配;基于匹配结果,从上述历史输入信息中提取上述目标用户的历史特征词。
在本实施例的一些可选的实现方式中,上述召回单元403,进一步被配置成:基于词频-逆向文件频率方法,确定上述历史特征词的得分;基于上述历史特征词的得分,确定上述目标词条的得分;按照上述目标词条的得分由大到小的次序,召回预设数量的目标词条;或者,召回得分大于预设阈值的目标词条。
在本实施例的一些可选的实现方式中,上述召回单元403,进一步被配置成:获取上述目标用户在预设历史时段内的历史输入信息,统计上述历史特征词在上述历史输入信息中的词频;统计上述历史特征词在上述用户语料中的逆向文件频率;基于上述词频和上述逆向文件频率,确定上述历史特征词的得分。
在本实施例的一些可选的实现方式中,上述召回单元403,进一步被配置成:对于每一个历史特征词,将该历史特征词的得分,作为上述多个词条中与该历史特征词的主题相同的目标词条的得分。
在本实施例的一些可选的实现方式中,上述召回单元403,进一步被配置成:按照主题将所召回的目标词条进行汇总,得到至少一个个性化词库;将上述至少一个个性化词库发送至目标用户的客户端。
本申请的上述实施例提供的装置,通过对用户语料中的多个词条进行聚类,以得到各词条的主题;而后获取目标用户的历史特征词,并确定上述多个词条中与上述历史特征词的主题相同的目标词条;最后召回满足预设条件的目标词条,从而发送至上述目标用户的客户端。由此,一方面,召回的目标词条是从用户语料中获取,覆盖面广,且更贴近真实输入场景,提高了目标词条与用户输入内容的相关性,使目标词条更易符合用户输入内容的多样性需求。另一方面,召回的目标词条与目标用户的历史特征词具有相同主题,当存在主题不同的多个历史特征词时,召回的目标词条可以涉及多个主题,从而能够进一步满足用户输入内容的多样性需求。
图5是根据一示例性实施例示出的用于输入的装置500的框图,该装置500可以为智能终端或者服务器。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在上述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如上述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,上述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是本申请的一些实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时,使得装置能够执行一种词条召回方法,上述方法包括:对用户语料中的多个词条进行聚类,以得到各词条的主题;获取目标用户的历史特征词,并从上述多个词条中确定出与上述历史特征词具有相同主题的目标词条;召回满足预设条件的目标词条,并发送至目标用户的客户端。
可选的,所述对用户语料中的多个词条进行聚类,以得到各词条的主题,包括:从用户语料中选取多个词条;获取所述多个词条中的各词条的词向量;对所获取的词向量进行聚类,得到多个簇,每个簇对应一个主题;基于各词条所属的簇,确定各词条的主题。
可选的,所述从用户语料中选取多个词条,包括:将用户语料与预设的词库或词表中的词进行匹配;基于匹配结果,选取所述用户语料中的多个词条。
可选的,所述获取目标用户的历史特征词,包括:获取所述目标用户在预设历史时段内的历史输入信息;将所述历史输入信息与预设的词库或词表中的词进行匹配;基于匹配结果,从所述历史输入信息中提取所述目标用户的历史特征词。
可选的,所述召回满足预设条件的目标词条,包括:基于词频-逆向文件频率方法,确定所述历史特征词的得分;基于所述历史特征词的得分,确定所述目标词条的得分;按照所述目标词条的得分由大到小的次序,召回预设数量的目标词条;或者,召回得分大于预设阈值的目标词条。
可选的,所述基于词频-逆向文件频率方法,确定所述历史特征词的得分,包括:获取所述目标用户在预设历史时段内的历史输入信息,统计所述历史特征词在所述历史输入信息中的词频;统计所述历史特征词在所述用户语料中的逆向文件频率;基于所述词频和所述逆向文件频率,确定所述历史特征词的得分。
可选的,所述基于所述历史特征词的得分,确定所述目标词条的得分,包括:对于每一个历史特征词,将该历史特征词的得分,作为所述多个词条中与该历史特征词的主题相同的目标词条的得分。
可选的,所述发送至目标用户的客户端,包括:按照主题将所召回的目标词条进行汇总,得到至少一个个性化词库;将所述至少一个个性化词库发送至目标用户的客户端。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上对本申请所提供的一种词条召回方法、装置和一种用于召回词条的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种词条召回方法,其特征在于,所述方法包括:
对用户语料中的多个词条进行聚类,以得到各词条的主题;
获取目标用户的历史特征词,并从所述多个词条中确定出与所述历史特征词具有相同主题的目标词条;
召回满足预设条件的目标词条,并发送至所述目标用户的客户端。
2.根据权利要求1所述的方法,其特征在于,所述对用户语料中的多个词条进行聚类,以得到各词条的主题,包括:
从用户语料中选取多个词条;
获取所述多个词条中的各词条的词向量;
对所获取的词向量进行聚类,得到多个簇,每个簇对应一个主题;
基于各词条所属的簇,确定各词条的主题。
3.根据权利要求2所述的方法,其特征在于,所述从用户语料中选取多个词条,包括:
将用户语料与预设的词库或词表中的词进行匹配;
基于匹配结果,选取所述用户语料中的多个词条。
4.根据权利要求1所述的方法,其特征在于,所述获取目标用户的历史特征词,包括:
获取所述目标用户在预设历史时段内的历史输入信息;
将所述历史输入信息与预设的词库或词表中的词进行匹配;
基于匹配结果,从所述历史输入信息中提取所述目标用户的历史特征词。
5.根据权利要求1所述的方法,其特征在于,所述召回满足预设条件的目标词条,包括:
基于词频-逆向文件频率方法,确定所述历史特征词的得分;
基于所述历史特征词的得分,确定所述目标词条的得分;
按照所述目标词条的得分由大到小的次序,召回预设数量的目标词条;或者,召回得分大于预设阈值的目标词条。
6.根据权利要求5所述的方法,其特征在于,所述基于词频-逆向文件频率方法,确定所述历史特征词的得分,包括:
获取所述目标用户在预设历史时段内的历史输入信息,统计所述历史特征词在所述历史输入信息中的词频;
统计所述历史特征词在所述用户语料中的逆向文件频率;
基于所述词频和所述逆向文件频率,确定所述历史特征词的得分。
7.根据权利要求5所述的方法,其特征在于,所述基于所述历史特征词的得分,确定所述目标词条的得分,包括:
对于每一个历史特征词,将该历史特征词的得分,作为所述多个词条中与该历史特征词的主题相同的目标词条的得分。
8.一种词条召回装置,其特征在于,所述装置包括:
聚类单元,被配置成对用户语料中的多个词条进行聚类,以得到各词条的主题;
确定单元,被配置成获取目标用户的历史特征词,并从所述多个词条中确定出与所述历史特征词具有相同主题的目标词条;
召回单元,被配置成召回满足预设条件的目标词条,并发送至所述目标用户的客户端。
9.一种用于召回词条的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对用户语料中的多个词条进行聚类,以得到各词条的主题;
获取目标用户的历史特征词,并从所述多个词条中确定出与所述历史特征词具有相同主题的目标词条;
召回满足预设条件的目标词条,并发送至所述目标用户的客户端。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011058208.0A 2020-09-29 2020-09-29 一种词条召回方法、装置和用于召回词条的装置 Pending CN114330305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011058208.0A CN114330305A (zh) 2020-09-29 2020-09-29 一种词条召回方法、装置和用于召回词条的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011058208.0A CN114330305A (zh) 2020-09-29 2020-09-29 一种词条召回方法、装置和用于召回词条的装置

Publications (1)

Publication Number Publication Date
CN114330305A true CN114330305A (zh) 2022-04-12

Family

ID=81011459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011058208.0A Pending CN114330305A (zh) 2020-09-29 2020-09-29 一种词条召回方法、装置和用于召回词条的装置

Country Status (1)

Country Link
CN (1) CN114330305A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470732A (zh) * 2007-12-26 2009-07-01 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN103729359A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种推荐搜索词的方法及系统
CN106708886A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 站内搜索词的显示方法及装置
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470732A (zh) * 2007-12-26 2009-07-01 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN103729359A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种推荐搜索词的方法及系统
CN106708886A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 站内搜索词的显示方法及装置
CN108304444A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 信息查询方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王末 等: "《地学数据共享网用户Web行为预测及数据推荐方法》", 《地球信息科学学报》, vol. 19, no. 5, 31 May 2017 (2017-05-31), pages 595 - 604 *

Similar Documents

Publication Publication Date Title
CN107608532B (zh) 一种联想输入方法、装置及电子设备
CN110008401B (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN112784142A (zh) 一种信息推荐方法及装置
CN111708943A (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN109521888B (zh) 一种输入方法、装置和介质
CN108628461B (zh) 一种输入方法和装置、一种更新词库的方法和装置
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN107436896B (zh) 一种输入推荐方法、装置及电子设备
CN112052395B (zh) 一种数据处理方法及装置
CN114330305A (zh) 一种词条召回方法、装置和用于召回词条的装置
CN114610163A (zh) 推荐方法、装置和介质
CN109426359B (zh) 一种输入方法、装置以及机器可读介质
CN112306252A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112306251A (zh) 一种输入方法、装置和用于输入的装置
CN112214692A (zh) 基于输入法的数据处理方法、装置和机器可读介质
CN111103986A (zh) 用户词库管理方法及装置、输入方法及装置
CN110929122A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN115494965A (zh) 一种请求发送方法、装置和用于发送请求的装置
WO2022110789A1 (zh) 词条推荐方法、装置和用于推荐词条的装置
CN114510154A (zh) 一种输入方法、装置和用于输入的装置
CN110716653B (zh) 一种联想源确定方法和装置
CN112445347A (zh) 一种输入方法、装置和用于输入的装置
CN114330325A (zh) 个性化词条的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination