CN109739367A - 候选词列表生成方法及装置 - Google Patents
候选词列表生成方法及装置 Download PDFInfo
- Publication number
- CN109739367A CN109739367A CN201811621658.9A CN201811621658A CN109739367A CN 109739367 A CN109739367 A CN 109739367A CN 201811621658 A CN201811621658 A CN 201811621658A CN 109739367 A CN109739367 A CN 109739367A
- Authority
- CN
- China
- Prior art keywords
- word
- entry
- heat
- target
- searches
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000011218 segmentation Effects 0.000 claims abstract description 48
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 235000015220 hamburgers Nutrition 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Abstract
本发明提出一种候选词列表生成方法及装置,其中方法包括:获取输入框中已输入的文本;对文本进行分词,获取最后一个分词词语;根据分词词语查询热搜词库,判断是否存在与分词词语匹配的目标热搜词条;若存在目标热搜词条,则获取目标热搜词条中分词词语后面的目标词语;将目标词语添加到文本对应的候选词列表中的预设位置,得到处理后的候选词列表,从而候选词列表中会出现短时间段内的热词或者热搜词条,为用户提供更合理的候选词,提高输入法应用的输入效率,提高用户使用输入法应用的输入体验。
Description
技术领域
本发明涉及输入法技术领域,尤其涉及一种候选词列表生成方法及装置。
背景技术
目前输入法应用中,候选词列表的生成过程为,获取输入框中的文本,将文本输入N元模型,获取文本后可能出现的候选词,以及各个候选词的出现概率;根据各个候选词的出现概率,生成候选词列表。其中,N元模型是根据当前时刻之前很长一段时间内的分词词库以及训练数据生成的,很长一段时间例如3个月、6个月、1年等,而短时间段内的热词或者热搜词条在分词词库中的权重很低,从而导致候选词列表中一般不会出现短时间段内的热词或者热搜词条,难以给用户提供合理的候选词,降低了输入效率以及用户的输入体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种候选词列表生成方法,用于解决现有技术中输入法应用难以向用户推荐新词、热词,导致输入效率低的问题。
本发明的第二个目的在于提出一种候选词列表生成装置。
本发明的第三个目的在于提出另一种候选词列表生成装置。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种候选词列表生成方法,包括:
获取输入框中已输入的文本;
对所述文本进行分词,获取所述文本中的最后一个分词词语;
根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条;
若存在所述目标热搜词条,则获取所述目标热搜词条中所述分词词语后面的目标词语;
将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表。
进一步的,所述预设位置包括:所述候选词列表的首要位置。
进一步的,所述热搜词库中包括:热搜词条,所述热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条;
所述根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条之前,还包括:
获取预设时间段内出现的各个词条,以及所述各个词条在预设时间段内的搜索次数;
将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;
对所述热搜词条进行分词,获取对应的分词结果;
根据所述热搜词条以及对应的分词结果,生成热搜词库。
进一步的,所述获取所述目标热搜词条中所述分词词语后面的目标词语,包括:
获取所述目标热搜词条对应的分词结果;
将所述分词结果中所述分词词语后面的词语,确定为目标词语。
进一步的,所述根据所述热搜词条以及对应的分词结果,生成热搜词库之后,还包括:
在到达预设更新时间点时,针对所述热搜词库中的各个词条,获取当前时刻之前预设时间段内所述词条的第一搜索次数;
删除所述热搜词库中对应的第一搜索次数小于第二预设次数阈值的词条;
获取当前时刻之前预设时间段内的热搜词条,将所述热搜词条添加到所述热搜词库中。
进一步的,所述将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表之前,还包括:
采用N元模型对所述文本进行预测,生成所述文本对应的候选词列表。
本发明实施例的候选词列表生成方法,通过获取输入框中已输入的文本;对文本进行分词,获取文本中的最后一个分词词语;根据分词词语查询热搜词库,判断是否存在与分词词语匹配的目标热搜词条;若存在目标热搜词条,则获取目标热搜词条中分词词语后面的目标词语;将目标词语添加到文本对应的候选词列表中的预设位置,得到处理后的候选词列表,从而候选词列表中会出现短时间段内的热词或者热搜词条,为用户提供更合理的候选词,提高输入法应用的输入效率,提高用户使用输入法应用的输入体验。
为达上述目的,本发明第二方面实施例提出了一种候选词列表生成装置,包括:
获取模块,用于获取输入框中已输入的文本;
分词模块,用于对所述文本进行分词,获取所述文本中的最后一个分词词语;
判断模块,用于根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条;
所述获取模块,还用于在存在所述目标热搜词条时,获取所述目标热搜词条中所述分词词语后面的目标词语;
添加模块,用于将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表。
进一步的,所述预设位置包括:所述候选词列表的首要位置。
进一步的,所述热搜词库中包括:热搜词条,所述热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条;
所述的装置,还包括:确定模块;
所述获取模块,还用于获取预设时间段内出现的各个词条,以及所述各个词条在预设时间段内的搜索次数;
所述确定模块,用于将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;
所述分词模块,还用于对所述热搜词条进行分词,获取对应的分词结果;
所述生成模块,还用于根据所述热搜词条以及对应的分词结果,生成热搜词库。
进一步的,所述获取模块具体用于,
获取所述目标热搜词条对应的分词结果;
将所述分词结果中所述分词词语后面的词语,确定为目标词语。
进一步的,所述的装置还包括:更新模块;
所述获取模块,还用于在到达预设更新时间点时,针对所述热搜词库中的各个词条,获取当前时刻之前预设时间段内所述词条的第一搜索次数;
所述更新模块,用于删除所述热搜词库中对应的第一搜索次数小于第二预设次数阈值的词条;
所述更新模块,还用于获取当前时刻之前预设时间段内的热搜词条,将所述热搜词条添加到所述热搜词库中。
进一步的,所述的装置还包括:生成模块,用于采用N元模型对所述文本进行预测,生成所述文本对应的候选词列表。
本发明实施例的候选词列表生成装置,通过获取输入框中已输入的文本;对文本进行分词,获取文本中的最后一个分词词语;根据分词词语查询热搜词库,判断是否存在与分词词语匹配的目标热搜词条;若存在目标热搜词条,则获取目标热搜词条中分词词语后面的目标词语;将目标词语添加到文本对应的候选词列表中的预设位置,得到处理后的候选词列表,从而候选词列表中会出现短时间段内的热词或者热搜词条,为用户提供更合理的候选词,提高输入法应用的输入效率,提高用户使用输入法应用的输入体验。
为达上述目的,本发明第三方面实施例提出了另一种候选词列表生成装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的候选词列表生成方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令被处理器执行时,实现如上所述的方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种候选词列表生成方法的流程示意图;
图2为输入框中输入文本的示意图;
图3为本发明实施例提供的另一种候选词列表生成方法的流程示意图;
图4为本发明实施例提供的一种候选词列表生成装置的结构示意图;
图5为本发明实施例提供的另一种候选词列表生成装置的结构示意图;
图6为本发明实施例提供的另一种候选词列表生成装置的结构示意图;
图7为本发明实施例提供的另一种候选词列表生成装置的结构示意图;
图8为本发明实施例提供的另一种候选词列表生成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的候选词列表生成方法及装置。
图1为本发明实施例提供的一种候选词列表生成方法的流程示意图。如图1所示,该候选词列表生成方法包括以下步骤:
S101、获取输入框中已输入的文本。
本发明提供的候选词列表生成方法的执行主体为候选词列表生成装置,候选词列表生成装置具体可以为终端设备、服务器等硬件设备,或者硬件设备上安装的软件。其中,软件例如可以为输入法应用,硬件设备例如可以为输入法应用对应的后台服务器、或者安装有输入法应用的终端设备。
本实施例中,输入法应用可以用于向各种软件提供的输入框中输入文本,例如微信、QQ、钉钉、APP商店等。如图2所示,为在输入框中输入文本的示意图。在图2中,输入框中已输入的文本为“扎克伯格”。
S102、对文本进行分词,获取文本中的最后一个分词词语。
本实施例中,对文本进行分词的方法可以有多种,例如基于词典的分词算法、基于HMM模型等的分词算法、基于神经网络的分词算法等,此处不再做详细描述。以文本“扎克伯格”为例,对该文本进行分词后,只得到一个分词词语“扎克伯格”。又例如,以文本“扎克伯格解雇员工”为例,对该文本进行分词后,可以得到3个分词词语“扎克伯格”、“解雇”、“员工”。
S103、根据分词词语查询热搜词库,判断是否存在与分词词语匹配的目标热搜词条。
本实施例中,热搜词库中包括:热搜词条,热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条。候选词列表生成装置执行步骤103的过程具体可以为,根据分词词语查询热搜词库,判断热搜词库中是否存在包括分词词语的热搜词条,若存在,则将包括分词词语的热搜词条确定为与分词词语匹配的目标热搜词条;若不存在,则热搜词库中不存在目标热搜词条。
本实施例中,热搜词条指的是,预设时间段内对应的搜索次数大于第一预设次数阈值的词条。其中,预设时间段例如6小时、10小时等。热搜词条例如“扎克伯格解雇员工”、“周一围女助理”、“锤子科技陷入危机”等。
本实施例中,热搜词库的获取途径很多,例如,爬取微博热搜词条、爬取百度热搜词条、通过输入法应用统计来发现热搜词条等。
S104、若存在目标热搜词条,则获取目标热搜词条中分词词语后面的目标词语。
本实施例中,目标词语可以为目标热搜词条中分词词语后面的一个或者多个词语。以目标热搜词条“扎克伯格解雇员工”、分词词语为“扎克伯格”为例,此时的目标词语可以为“解雇”和“员工”。
本实施例中,热搜词库中可以保存有热搜词条以及对应的分词结果。对应的,候选词列表生成装置执行步骤104的过程具体可以为,获取目标热搜词条对应的分词结果;将分词结果中分词词语后面的词语,确定为目标词语。
S105、将目标词语添加到文本对应的候选词列表中的预设位置,得到处理后的候选词列表。
其中,预设位置例如可以为候选词列表中的首要位置或者其他位置。将目标词语添加到候选词列表中的首要位置,当用户的输入需求为该目标词语时,用户可以直接通过回车键将该目标词语添加到输入框中。如图2所示,候选词列表中的首要位置上的词语为目标词语“解雇员工”。另外,其他位置例如候选词列表中的第二个位置、或者候选词列表之前新增加一行,在该行中显示目标词语等。
进一步的,在上述实施例的基础上,步骤105之前,所述的方法还可以包括以下步骤:采用N元模型对文本进行预测,生成文本对应的候选词列表。
本实施例中,N元模型是根据当前时刻之前很长一段时间内的分词词库以及训练数据生成的,很长一段时间例如3个月、6个月、1年等。N元模型的输入为文本或者文本的分词结果,输出为文本后可能出现的候选词,以及各个候选词的出现概率;根据文本后可能出现的候选词,以及各个候选词的出现概率,就可以按照出现概率对各个候选词进行排序,将排序在前的多个候选词确定为候选词列表中的候选词。
本发明实施例的候选词列表生成方法,通过获取输入框中已输入的文本;对文本进行分词,获取文本中的最后一个分词词语;根据分词词语查询热搜词库,判断是否存在与分词词语匹配的目标热搜词条;若存在目标热搜词条,则获取目标热搜词条中分词词语后面的目标词语;将目标词语添加到文本对应的候选词列表中的预设位置,得到处理后的候选词列表,从而候选词列表中会出现短时间段内的热词或者热搜词条,为用户提供更合理的候选词,提高输入法应用的输入效率,提高用户使用输入法应用的输入体验。
图3为本发明实施例提供的另一种候选词列表生成方法的流程示意图。如图3所示,在图1所示实施例的基础上,热搜词库中包括:热搜词条,热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条。对应的,步骤103之前,所述的方法还可以包括以下步骤:
S106、获取预设时间段内出现的各个词条,以及各个词条在预设时间段内的搜索次数。
本实施例中,针对百度、微博等中的词条,当用户感兴趣时,一般会点击词条,获取词条的详细内容,例如点击“扎克伯格解雇员工”获取详细内容。用户在点击词条获取详细内容的过程中,爬虫等可以采集到用户对词条的点击行为,将该点击行为确定为一次搜索。因此,通过爬虫从百度、微博等数据源实时抓取的数据,可以用于统计预设时间段内出现的各个词条,以及各个词条在预设时间段内的搜索次数。
S107、将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条。
S108、对热搜词条进行分词,获取对应的分词结果。
本实施例中,热搜词条一般是按照主题+事件的方式组织的,为了更好的向用户提供候选词列表,候选词列表生成装置执行步骤109的过程例如可以为,对热搜词条进行分词,获取热搜词条中的主题以及事件,将主题以及事件作为热搜词条对应的分词结果。对应的,获取目标热搜词条中分词词语后面的目标词语的过程具体可以为,将分词词语确定为主题词语,获取目标热搜词条中与分词词语对应的事件词语。其中,在热搜词条“扎克伯格解雇员工”、“锤子科技陷入危机”等中,主题例如“扎克伯格”和“锤子科技”;事件例如“解雇员工”和“陷入危机”。
S109、根据热搜词条以及对应的分词结果,生成热搜词库。
进一步的,为了确保热搜词库的实时性,步骤110之后,所述的方法还可以包括以下步骤:在到达预设更新时间点时,针对热搜词库中的各个词条,获取当前时刻之前预设时间段内词条的第一搜索次数;删除热搜词库中对应的第一搜索次数小于第二预设次数阈值的词条;获取当前时刻之前预设时间段内的热搜词条,将热搜词条添加到热搜词库中。
本实施例中,预设更新时间点可以为每隔一定时间段的时间点,例如每隔6个小时的时间点。其中,当热搜词库中某个词条对应的第一搜索次数小于第二预设次数阈值时,表示该词条已经不是热搜词条,因此可以删除该词条,以免将非热搜词条中的目标词语显示在候选词列表中,占用候选词列表空间。同时,获取当前时刻之前预设时间段内的热搜词条,并添加到热搜词库中,以实现对热搜词库中词条的更新,确保热搜词库的时效性。
本发明实施例的候选词列表生成方法,通过获取预设时间段内出现的各个词条,以及各个词条在预设时间段内的搜索次数;将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;对热搜词条进行分词,获取对应的分词结果;根据热搜词条以及对应的分词结果,生成热搜词库,同时周期性对热搜词库进行更新,删除热搜词库中已经不是热搜词条的词条,在热搜词库中增加新的热搜词条,确保热搜词库的时效性,从而能够及时在候选词列表中显示热搜词条中的词语,满足用户的输入需求。
图4为本发明实施例提供的一种候选词列表生成装置的结构示意图。如图4所示,包括:获取模块41、分词模块42、判断模块43和添加模块44。
其中,获取模块41,用于获取输入框中已输入的文本;
分词模块42,用于对所述文本进行分词,获取所述文本中的最后一个分词词语;
判断模块43,用于根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条;
所述获取模块41,还用于在存在所述目标热搜词条时,获取所述目标热搜词条中所述分词词语后面的目标词语;
添加模块44,用于将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表。
本发明提供的候选词列表生成装置具体可以为终端设备、服务器等硬件设备,或者硬件设备上安装的软件。其中,软件例如可以为输入法应用,硬件设备例如可以为输入法应用对应的后台服务器、或者安装有输入法应用的终端设备。以候选词列表生成装置为输入法应用为例。本实施例中,输入法应用可以用于向各种软件提供的输入框中输入文本,例如微信、QQ、钉钉、APP商店等。
本实施例中,对文本进行分词的方法可以有多种,例如基于词典的分词算法、基于HMM模型等的分词算法、基于神经网络的分词算法等,此处不再做详细描述。以文本“扎克伯格”为例,对该文本进行分词后,只得到一个分词词语“扎克伯格”。又例如,以文本“扎克伯格解雇员工”为例,对该文本进行分词后,可以得到3个分词词语“扎克伯格”、“解雇”、“员工”。
本实施例中,热搜词库中可以包括:热搜词条,热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条。判断模块43具体可以用于,根据分词词语查询热搜词库,判断热搜词库中是否存在包括分词词语的热搜词条,若存在,则将包括分词词语的热搜词条确定为与分词词语匹配的目标热搜词条;若不存在,则热搜词库中不存在目标热搜词条。其中,热搜词条指的是,预设时间段内对应的搜索次数大于第一预设次数阈值的词条。其中,预设时间段例如6小时、10小时等。热搜词条例如“扎克伯格解雇员工”、“周一围女助理”、“锤子科技陷入危机”等。
本实施例中,目标词语可以为目标热搜词条中分词词语后面的一个或者多个词语。以目标热搜词条“扎克伯格解雇员工”、分词词语为“扎克伯格”为例,此时的目标词语可以为“解雇”和“员工”。
本实施例中,热搜词库中可以保存有热搜词条以及对应的分词结果。对应的,获取模块41获取目标词语的过程具体可以为,获取目标热搜词条对应的分词结果;将分词结果中分词词语后面的词语,确定为目标词语。
本实施例中,预设位置例如可以为候选词列表中的首要位置或者其他位置。将目标词语添加到候选词列表中的首要位置,当用户的输入需求为该目标词语时,用户可以直接通过回车键将该目标词语添加到输入框中。如图2所示,候选词列表中的首要位置上的词语为目标词语“解雇员工”。另外,其他位置例如候选词列表中的第二个位置、或者候选词列表之前新增加一行,在该行中显示目标词语等。
进一步的,结合参考图5,在图4所示实施例的基础上,所述的装置还可以包括:生成模块45,用于采用N元模型对文本进行预测,生成文本对应的候选词列表。
本实施例中,N元模型是根据当前时刻之前很长一段时间内的分词词库以及训练数据生成的,很长一段时间例如3个月、6个月、1年等。N元模型的输入为文本或者文本的分词结果,输出为文本后可能出现的候选词,以及各个候选词的出现概率;根据文本后可能出现的候选词,以及各个候选词的出现概率,就可以按照出现概率对各个候选词进行排序,将排序在前的多个候选词确定为候选词列表中的候选词。
本发明实施例的候选词列表生成装置,通过获取输入框中已输入的文本;对文本进行分词,获取文本中的最后一个分词词语;根据分词词语查询热搜词库,判断是否存在与分词词语匹配的目标热搜词条;若存在目标热搜词条,则获取目标热搜词条中分词词语后面的目标词语;将目标词语添加到文本对应的候选词列表中的预设位置,得到处理后的候选词列表,从而候选词列表中会出现短时间段内的热词或者热搜词条,为用户提供更合理的候选词,提高输入法应用的输入效率,提高用户使用输入法应用的输入体验。
进一步的,结合参考图6,在图4所示实施例的基础上,热搜词库中包括:热搜词条,热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条。对应的,所述的装置还可以包括:确定模块46;
其中,所述获取模块41,还用于获取预设时间段内出现的各个词条,以及所述各个词条在预设时间段内的搜索次数;
所述确定模块46,用于将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;
所述分词模块42,还用于对所述热搜词条进行分词,获取对应的分词结果;
所述生成模块44,还用于根据所述热搜词条以及对应的分词结果,生成热搜词库。
本实施例中,针对百度、微博等中的词条,当用户感兴趣时,一般会点击词条,获取词条的详细内容,例如点击“扎克伯格解雇员工”获取详细内容。用户在点击词条获取详细内容的过程中,爬虫等可以采集到用户对词条的点击行为,将该点击行为确定为一次搜索。因此,通过爬虫从百度、微博等数据源实时抓取的数据,可以用于统计预设时间段内出现的各个词条,以及各个词条在预设时间段内的搜索次数。
本实施例中,热搜词条一般是按照主题+事件的方式组织的,为了更好的向用户提供候选词列表,分词模块42具体可以用于,对热搜词条进行分词,获取热搜词条中的主题以及事件,将主题以及事件作为热搜词条对应的分词结果。对应的,获取目标热搜词条中分词词语后面的目标词语的过程具体可以为,将分词词语确定为主题词语,获取目标热搜词条中与分词词语对应的事件词语。其中,在热搜词条“扎克伯格解雇员工”、“锤子科技陷入危机”等中,主题例如“扎克伯格”和“锤子科技”;事件例如“解雇员工”和“陷入危机”。
进一步的,为了确保热搜词库的实时性,结合参考图7,在图6所示实施例的基础上,所述的装置还可以包括:更新模块47;
所述获取模块41,还用于在到达预设更新时间点时,针对所述热搜词库中的各个词条,获取当前时刻之前预设时间段内所述词条的第一搜索次数;
所述更新模块47,用于删除所述热搜词库中对应的第一搜索次数小于第二预设次数阈值的词条;
所述更新模块47,还用于获取当前时刻之前预设时间段内的热搜词条,将所述热搜词条添加到所述热搜词库中。
本实施例中,预设更新时间点可以为每隔一定时间段的时间点,例如每隔6个小时的时间点。其中,当热搜词库中某个词条对应的第一搜索次数小于第二预设次数阈值时,表示该词条已经不是热搜词条,因此可以删除该词条,以免将非热搜词条中的目标词语显示在候选词列表中,占用候选词列表空间。同时,获取当前时刻之前预设时间段内的热搜词条,并添加到热搜词库中,以实现对热搜词库中词条的更新,确保热搜词库的时效性。
本发明实施例的候选词列表生成装置,通过获取预设时间段内出现的各个词条,以及各个词条在预设时间段内的搜索次数;将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;对热搜词条进行分词,获取对应的分词结果;根据热搜词条以及对应的分词结果,生成热搜词库,同时周期性对热搜词库进行更新,删除热搜词库中已经不是热搜词条的词条,在热搜词库中增加新的热搜词条,确保热搜词库的时效性,从而能够及时在候选词列表中显示热搜词条中的词语,满足用户的输入需求。
图8为本发明实施例提供的另一种候选词列表生成装置的结构示意图。该候选词列表生成装置包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的候选词列表生成方法。
进一步地,候选词列表生成装置还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的候选词列表生成方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的候选词列表生成方法。
本实施例还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,如上所述的候选词列表生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种候选词列表生成方法,其特征在于,包括:
获取输入框中已输入的文本;
对所述文本进行分词,获取所述文本中的最后一个分词词语;
根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条;
若存在所述目标热搜词条,则获取所述目标热搜词条中所述分词词语后面的目标词语;
将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表。
2.根据权利要求1所述的方法,其特征在于,所述预设位置包括:所述候选词列表的首要位置。
3.根据权利要求1所述的方法,其特征在于,所述热搜词库中包括:热搜词条,所述热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条;
所述根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条之前,还包括:
获取预设时间段内出现的各个词条,以及所述各个词条在预设时间段内的搜索次数;
将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;
对所述热搜词条进行分词,获取对应的分词结果;
根据所述热搜词条以及对应的分词结果,生成热搜词库。
4.根据权利要求3所述的方法,其特征在于,所述获取所述目标热搜词条中所述分词词语后面的目标词语,包括:
获取所述目标热搜词条对应的分词结果;
将所述分词结果中所述分词词语后面的词语,确定为目标词语。
5.根据权利要求3所述的方法,其特征在于,所述根据所述热搜词条以及对应的分词结果,生成热搜词库之后,还包括:
在到达预设更新时间点时,针对所述热搜词库中的各个词条,获取当前时刻之前预设时间段内所述词条的第一搜索次数;
删除所述热搜词库中对应的第一搜索次数小于第二预设次数阈值的词条;
获取当前时刻之前预设时间段内的热搜词条,将所述热搜词条添加到所述热搜词库中。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表之前,还包括:
采用N元模型对所述文本进行预测,生成所述文本对应的候选词列表。
7.一种候选词列表生成装置,其特征在于,包括:
获取模块,用于获取输入框中已输入的文本;
分词模块,用于对所述文本进行分词,获取所述文本中的最后一个分词词语;
判断模块,用于根据所述分词词语查询热搜词库,判断是否存在与所述分词词语匹配的目标热搜词条;
所述获取模块,还用于在存在所述目标热搜词条时,获取所述目标热搜词条中所述分词词语后面的目标词语;
添加模块,用于将所述目标词语添加到所述文本对应的候选词列表中的预设位置,得到处理后的候选词列表。
8.根据权利要求7所述的装置,其特征在于,所述预设位置包括:所述候选词列表的首要位置。
9.根据权利要求7所述的装置,其特征在于,所述热搜词库中包括:热搜词条,所述热搜词条为预设时间段内对应的搜索次数大于第一预设次数阈值的词条;
所述的装置,还包括:确定模块;
所述获取模块,还用于获取预设时间段内出现的各个词条,以及所述各个词条在预设时间段内的搜索次数;
所述确定模块,用于将对应的搜索次数大于第一预设次数阈值的词条确定为热搜词条;
所述分词模块,还用于对所述热搜词条进行分词,获取对应的分词结果;
所述生成模块,还用于根据所述热搜词条以及对应的分词结果,生成热搜词库。
10.根据权利要求9所述的装置,其特征在于,所述获取模块具体用于,
获取所述目标热搜词条对应的分词结果;
将所述分词结果中所述分词词语后面的词语,确定为目标词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811621658.9A CN109739367A (zh) | 2018-12-28 | 2018-12-28 | 候选词列表生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811621658.9A CN109739367A (zh) | 2018-12-28 | 2018-12-28 | 候选词列表生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109739367A true CN109739367A (zh) | 2019-05-10 |
Family
ID=66361748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811621658.9A Pending CN109739367A (zh) | 2018-12-28 | 2018-12-28 | 候选词列表生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109739367A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765239A (zh) * | 2019-10-29 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN112416142A (zh) * | 2020-11-20 | 2021-02-26 | 维沃移动通信有限公司 | 输入文字的方法、装置和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631929A (zh) * | 2013-12-09 | 2014-03-12 | 江苏金智教育信息技术有限公司 | 一种用于搜索的智能提示的方法、模块和系统 |
CN104391588A (zh) * | 2014-11-07 | 2015-03-04 | 腾讯科技(深圳)有限公司 | 一种输入提示的方法及装置 |
CN104731364A (zh) * | 2015-03-30 | 2015-06-24 | 天脉聚源(北京)教育科技有限公司 | 一种输入法及输入法系统 |
CN105426498A (zh) * | 2015-11-24 | 2016-03-23 | 小米科技有限责任公司 | 输出提示词的方法及装置 |
CN105653705A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN106125955A (zh) * | 2016-06-23 | 2016-11-16 | 百度在线网络技术(北京)有限公司 | 一种用于在输入法应用中提供热词的方法和装置 |
CN107609098A (zh) * | 2017-09-11 | 2018-01-19 | 北京金堤科技有限公司 | 搜索方法及装置 |
CN108897438A (zh) * | 2018-06-29 | 2018-11-27 | 北京金山安全软件有限公司 | 一种面向印地语的多语言混合输入方法及装置 |
-
2018
- 2018-12-28 CN CN201811621658.9A patent/CN109739367A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631929A (zh) * | 2013-12-09 | 2014-03-12 | 江苏金智教育信息技术有限公司 | 一种用于搜索的智能提示的方法、模块和系统 |
CN104391588A (zh) * | 2014-11-07 | 2015-03-04 | 腾讯科技(深圳)有限公司 | 一种输入提示的方法及装置 |
CN104731364A (zh) * | 2015-03-30 | 2015-06-24 | 天脉聚源(北京)教育科技有限公司 | 一种输入法及输入法系统 |
CN105426498A (zh) * | 2015-11-24 | 2016-03-23 | 小米科技有限责任公司 | 输出提示词的方法及装置 |
CN105653705A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种热门事件搜索方法和装置 |
CN106125955A (zh) * | 2016-06-23 | 2016-11-16 | 百度在线网络技术(北京)有限公司 | 一种用于在输入法应用中提供热词的方法和装置 |
CN107609098A (zh) * | 2017-09-11 | 2018-01-19 | 北京金堤科技有限公司 | 搜索方法及装置 |
CN108897438A (zh) * | 2018-06-29 | 2018-11-27 | 北京金山安全软件有限公司 | 一种面向印地语的多语言混合输入方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765239A (zh) * | 2019-10-29 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
CN112416142A (zh) * | 2020-11-20 | 2021-02-26 | 维沃移动通信有限公司 | 输入文字的方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121795B (zh) | 用户行为预测方法及装置 | |
CN107609098B (zh) | 搜索方法及装置 | |
US10289674B2 (en) | Generation apparatus, generation method, and program | |
CN104731776B (zh) | 翻译信息的提供方法及系统 | |
US20060173819A1 (en) | System and method for grouping by attribute | |
US8412728B1 (en) | User interface (UI) for presentation of match quality in auto-complete suggestions | |
CN109189991A (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
CN106571139B (zh) | 基于人工智能的语音搜索结果处理方法及装置 | |
US20160217129A1 (en) | Method and Apparatus for Determining Semantic Matching Degree | |
CN107578292B (zh) | 一种用户画像构建系统 | |
US8229909B2 (en) | Multi-dimensional algorithm for contextual search | |
US11442694B1 (en) | Merging database tables by classifying comparison signatures | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
WO2005050473A2 (en) | Clustering of text for structuring of text documents and training of language models | |
CN108021558A (zh) | 关键词的识别方法、装置、电子设备和存储介质 | |
US20170262447A1 (en) | Topical analytics for online articles | |
CN110188350A (zh) | 文本一致性计算方法及装置 | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110287440A (zh) | 搜索引擎优化方法、装置、计算机设备及计算机可读存储介质 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
US10289624B2 (en) | Topic and term search analytics | |
DE102018008188A1 (de) | Erstellen von Inhalt basierend auf einer Mehr-Satz-Komprimierung eines Quellinhalts | |
CN109743589A (zh) | 文章生成方法及装置 | |
US9495275B2 (en) | System and computer program product for deriving intelligence from activity logs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190510 |
|
RJ01 | Rejection of invention patent application after publication |