CN104281649A

CN104281649A - 一种输入方法、装置及电子设备

Info

Publication number: CN104281649A
Application number: CN201410455924.0A
Authority: CN
Inventors: 崔欣; 任尚昆; 唐拯; 张扬
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2014-09-09
Filing date: 2014-09-09
Publication date: 2015-01-14
Anticipated expiration: 2034-09-09
Also published as: US10496687B2; CN104281649B; US20170316086A1; WO2016037519A1

Abstract

本发明实施例提供了一种输入方法、装置及电子设备。该输入方法包括：获取输入光标处的文本信息，所述文本信息包括位于所述输入光标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息；提取所述文本信息中的关键词；查找所述关键词的联想候选词库，获得所述输入光标处的上屏候选词队列；输出所述上屏候选词队列。本发明实施例通过获取输入光标处的文本信息，并基于该文本信息中的关键词确定出上屏词候选队列，解决了现有技术中输入光标改变位置后由于无法获取可靠上屏词条而无法联想给出上屏候选词的问题。

Description

一种输入方法、装置及电子设备

技术领域

本发明涉及通信技术领域，尤其涉及一种输入方法、装置及电子设备。

背景技术

拼音输入是一种最简单的汉字输入方法，它的发展非常快，从第一代的以字输入为主，即用户一次只能输入一个汉字，发展到第二代以词输入为主并具有智能调频功能，这个时候主要依赖的是输入法的词典，发展到第三代，用户可以进行语句的输入，输入法词典中没有的句子也可以进行输入，组词功能对输入的体验有着很大的影响。

输入法联想功能是拼音输入法主动输入的一种扩展，它的出现减少了用户主动输入的次数、按键的次数，并增加了输入法的智能性。该输入法的实现过程是首先获取用户上一次上屏的词条，并根据该词条查询系统二元库等预建词库来获取上屏候选词队列，然后输出该上屏候选词队列。

然而，该输入法中的上屏候选词队列由于必须依赖于上一次上屏的词条，当输入光标改变位置时，就无法获取可靠的上屏词条，进而也无法联想给出该输入光标处的上屏候选词队列。因此，目前需要本领域技术人员迫切解决的一个技术问题就是：如何在输入光标移动时获得可靠的上屏候选词队列。

发明内容

本发明实施例所要解决的技术问题是提供一种输入方法，能够在输入光标移动时获得可靠的上屏候选词队列。

相应的，本发明实施例还提供了一种输入装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明公开了一种输入方法，包括：

获取输入光标处的文本信息，所述文本信息包括位于所述输入光标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息；

提取所述文本信息中的关键词；

查找所述关键词的联想候选词库，获得所述输入光标处的上屏候选词队列；

输出所述上屏候选词队列。

进一步，所述获取输入光标处的文本信息，包括：

当检测到所述输入光标位于文本框内，且停止文本输入的时间超过时间阈值时，获取所述输入光标处的文本信息。

进一步，所述获取输入光标处的文本信息，包括：

以所述输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界，获取所述输入光标处的文本信息。

进一步，所述查找所述关键词的联想候选词库，获得所述输入光标处的上屏候选词队列，包括：

根据所述关键词与所述输入光标之间的距离关系和/或所述关键词所属的应用属性确定所述关键词对应的语言模型；

查找所述语言模型的联想候选词库，获得所述输入光标处的上屏候选词队列。

进一步，所述根据所述关键词与所述输入光标之间的距离关系确定所述关键词对应的语言模型，包括：

若所述关键词为一个，则当所述关键词与所述输入光标之间的距离关系为邻接关系时，确定所述关键词对应的语言模型为邻近二元语言模型；当所述距离关系为非邻接关系时确定所述关键词对应的语言模型为远距离二元语言模型；

当所述关键词为两个时，确定所述关键词对应的语言模型为三元语言模型。

进一步，在所述根据所述关键词与所述输入光标之间的距离关系确定所述关键词对应的语言模型之前，还包括：

建立语言模型及其联想候选词库，所述语言模型包括邻近二元语言模型，远距离二元语言模型及三元语言模型；

所述建立语言模型及其联想候选词库，包括：

收集训练语料；

提取所述训练语料中的训练候选词及训练关键词，所述训练关键词与所述训练候选词之间的距离关系包括邻接关系和非邻接关系，所述训练关键词至少为一个；

对所述训练候选词及所述训练关键词进行模型训练，获得所述语言模型及其联想候选词库。

进一步，所述根据所述关键词所属的应用属性确定所述关键词对应的语言模型，包括：

根据所述关键词所属的用户使用习惯特征确定所述关键词对应的用户模型；或者，

根据所述关键词所属的应用领域确定所述关键词对应的垂直模型；或者；

根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型；或者，

根据所述关键词所属的话题情景确定所述关键词对应的情景模型。

进一步，所述查找所述语言模型的联想候选词库，获得所述输入光标处的上屏候选词队列，包括：

当所述语言模型至少有两个时，分别确定各所述语言模型的联想候选词库中的上屏候选词；

根据各所述语言模型的预设权重，按照权重线性叠加合并所述上屏候选词；

对合并后的上屏候选词按照权重由高到低进行排序获得所述输入光标处的上屏候选词队列。

进一步，在所述输出所述上屏候选词队列之前，还包括：

根据所述输入光标处的话题情景对所述上屏候选词队列进行调序；

所述输出所述上屏候选词队列，包括：

输出调序后的上屏候选词队列。

进一步，所述根据所述输入光标处的话题情景对所述上屏候选词队列进行调序，包括：

根据命中各情景特征标签的所述关键词的个数及所述关键词命中所述各情景特征标签的概率和，确定所述各情景特征标签的特征得分；

按照所述各情景特征标签的特征得分，由高到底对所述情景特征标签进行排序；

按照所述情景特征标签的顺序对所述上屏候选词队列进行调序，其中，所述上屏候选词队列中的上屏候选词均具有各自的情景特征标签。

本发明还公开了一种输入装置，包括：

文本获取单元，用于获取输入光标处的文本信息，所述文本信息包括位于所述输入光标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息；

关键词提取单元，用于提取所述文本信息中的关键词；

队列获取单元，用于查找所述关键词的联想候选词库，获得所述输入光标处的上屏候选词队列；

队列输出单元，用于输出所述上屏候选词队列。

进一步，所述文本获取单元，具体用于当检测到所述输入光标位于文本框内，且停止文本输入的时间超过时间阈值时，获取所述输入光标处的文本信息。

进一步，所述文本获取单元，具体用于以所述输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界，获取所述输入光标处的文本信息。

进一步，所述队列获取单元包括：

模型确定子单元，用于根据所述关键词与所述输入光标之间的距离关系和/或所述关键词所属的应用属性确定所述关键词对应的语言模型；

队列获取子单元，用于查找所述语言模型的联想候选词库，获得所述输入光标处的上屏候选词队列。

进一步，所述模型确定子单元，具体用于若所述关键词为一个，则当所述关键词与所述输入光标之间的距离关系为邻接关系时，确定所述关键词对应的语言模型为邻近二元语言模型；当所述距离关系为非邻接关系时确定所述关键词对应的语言模型为远距离二元语言模型；当所述关键词为两个时，确定所述关键词对应的语言模型为三元语言模型。

进一步，所述队列获取单元还包括：

模型建立子单元，用于在所述模型确定子单元确定所述关键词对应的语言模型之前，建立语言模型及其联想候选词库，所述语言模型包括邻近二元语言模型，远距离二元语言模型及三元语言模型；

所述模型建立子单元包括：

收集子单元，用于收集训练语料；

提取子单元，用于提取所述训练语料中的训练候选词及训练关键词，所述训练关键词与所述训练候选词之间的距离关系包括邻接关系和非邻接关系，所述训练关键词至少为一个；

训练子单元，用于对所述训练候选词及所述训练关键词进行模型训练，获得所述语言模型及其联想候选词库。

进一步，所述模型确定子单元，具体用于根据所述关键词所属的用户使用习惯特征确定所述关键词对应的用户模型；或者，根据所述关键词所属的应用领域确定所述关键词对应的垂直模型；或者；根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型；或者，根据所述关键词所属的话题情景确定所述关键词对应的情景模型。

进一步，所述队列获取子单元包括：

确定子单元，用于当所述语言模型至少有两个时，分别确定各所述语言模型的联想候选词库中的上屏候选词；

合并子单元，用于根据各所述语言模型的预设权重，按照权重线性叠加合并所述上屏候选词；

排序子单元，用于对合并后的上屏候选词按照权重由高到低进行排序获得所述输入光标处的上屏候选词队列。

进一步，所述装置还包括：

队列调序单元，用于在所述队列输出单元输出所述上屏候选词队列之前，根据所述输入光标处的话题情景对所述上屏候选词队列进行调序；

所述队列输出单元，用于输出调序后的上屏候选词队列。

进一步，所述队列调序单元包括：

得分计算子单元，用于根据命中各情景特征标签的所述关键词的个数及所述关键词命中所述各情景特征标签的概率和，确定所述各情景特征标签的特征得分；

情景排序子单元，用于按照所述各情景特征标签的特征得分，由高到底对所述情景特征标签进行排序；

调序子单元，用于按照所述情景特征标签的顺序对所述上屏候选词队列进行调序，其中，所述上屏候选词队列中的上屏候选词均具有各自的情景特征标签。

本发明还公开了一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令或代码，所述处理器和所述存储器耦合，用于执行所述存储器中的计算机指令或代码，实现以下方法：

提取所述文本信息中的关键词；

输出所述上屏候选词队列。

与现有技术相比，本发明实施例至少包括以下优点：

本发明实施例通过获取输入光标处的文本信息，并基于该文本信息中的关键词确定出上屏词候选队列，解决了现有技术中输入光标改变位置后由于无法获取可靠上屏词条而无法联想给出上屏候选词的问题。该方法不仅能够在输入光标移动时获得可靠的上屏候选词，而且，该输入方法不单单依靠上一次的上屏词条联想给出上屏候选词队列，而是可以利用输入光标前、后的文本信息，以及远距离的文本信息来联想给出上屏候选词队列，该方法可以更全面、更正确的理解用户的输入意图，从而可以给出更可靠的上屏候选词队列。

附图说明

图1为本发明实施例一种输入方法的流程示意图；

图2是本发明实施例中一种获得输入光标处的上屏候选词队列的方法流程图；

图3是本发明实施例中一种系统模型及其联想候选词库的建立方法流程图；

图4是本发明实施例中一种根据语言模型对应的联想候选词库获得输入光标处的上屏候选词队列的方法流程图；

图5是本发明实施例中一种根据输入光标处的话题情景对上屏候选词队列进行调序的方法流程图；

图6为本发明实施例一种输入装置的结构示意图；

图7为本发明实施例中一种队列获取单元的结构示意图；

图8为本发明实施例中一种模型建立子单元的结构示意图；

图9为本发明实施例中一种队列获取子单元的结构示意图；

图10为本发明实施例另一种输入装置的结构示意图；

图11为本发明实施例中一种队列调序单元的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，为本发明实施例一种输入方法的流程示意图。

在用户进行文本输入的过程可以采用本发明实施例的方法来直接代替或结合现有的根据上一次上屏词条预测上屏候选词的方法给出输入光标处的上屏候选词队列，也可以是在某种条件下执行本发明实施例的方法，具体的，当输入装置检测到输入光标位于文本框内，且停止文本输入的时间超过时间阈值时，例如，当用户需要修改或增加文本信息而改变输入光标在文本框内的位置时，可以按照本实施例方法给出输入光标处的上屏候选词队列。该方法可以包括如下步骤：

步骤101，获取输入光标处的文本信息。

在本步骤中，输入装置首先通过系统API接口读取输入光标处的文本信息，可以以输入光标所在的整句分割点或文本框边界作为该文本信息的长度边界。

其中，该文本信息可以包括位于输入光标之前的上文文本信息，或者位于输入光标之后的下文文本信息，当然，如果输入光标的前后都存在文本信息，也可以同时获取上文文本信息和下文文本信息。

步骤102，提取文本信息中的关键词。

在本实施例中可以预先设置关键词元词表，该关键词元词表是一个集合，其中包含可以作为关键词的词条。可以约定凡是出现在该关键词元词表中的词条都可以作为关键词，不在这个关键词元词表中的词条都不作为关键词。

在本步骤中即可提取文本信息中所有属于该关键词元词表中的词条作为关键词。具体的，对于上文文本信息，可以从输入光标处开始，向前到整句的分割点或者文本框边界结束，利用动态规划算法进行遍历得到上文文本信息中的关键词，对于下文文本信息，可以输入光标处开始，向后到整句的分割点或者文本框边界结束，利用动态规划算法进行遍历得到下文文本信息中的关键词。上文文本信息中的关键词和下文文本信息中的关键词可以分别存入不同的集合，或者进行区分标注，以便于后续搜索上屏候选词，具体请参见后续实施例的描述。

按照上述方法提取的文本信息中的关键词可以有一个也可能有多个，可能关键词均位于上文文本信息，也可能关键词均位于下文文本信息，还可能上文文本信息和下文文本信息中均存在关键词。

步骤103，查找关键词的联想候选词库，获得输入光标处的上屏候选词队列。

在获得文本信息的关键词后，可以根据该关键词查找对应的联想候选词库，从而获得输入光标处的上屏候选词队列。

其中一种方式，可以是每个关键词对应一个联想候选词库，该联想候选词库内的上屏候选词按照使用概率由大到小进行排序，查询多个关键词的联想候选词库时，可以将各词库中的上屏候选词按照重复率由高到底排列，从而获得输入光标处的上屏候选队列。

另一种方式，还可以是预先建立语言模型及其联想候选词库。该语言模型可以是基于关键词与输入光标之间的多种距离关系建立的；也可以是基于关键词所属的应用属性建立的，其中，应用属性可以是用户对关键词的使用习惯，也可以是关键词所属的应用领域，如时间、地理位置、节日祝福语等领域，也可以是关键词所属的常用词汇，还可以是关键词所属的话题情景等。在执行本步骤时，可以只确定上步骤提取的关键词对应的一种语言模型，然后根据该确定出的语言模型的联想候选词库获得输入光标处的上屏候选词队列；也可以确定出所提取关键词对应的多种语言模型，然后将多种语言模型的联想候选词库进行合并，确定出最终的输入光标处的上屏候选词队列。具体请参见后续实施例的描述。

当然还可以存在其它方式，此处不再一一列举。

步骤104，输出上屏候选词队列。

在获得上屏候选词队列后，可以直接输出该上屏候选词队列供用户选择，也可以首先对该上屏候选词队列进行调序后再输出调序后的上屏候选词队列，调序方法有多种。

在本发明的另一实施例中，如前所述，在执行步骤103查找关键词的联想候选词库，获得输入光标处的上屏候选词队列时，其中一种方式可以如图2所示，包括以下步骤：

步骤201，建立语言模型及其联想候选词库。

首先，本步骤无需在每次获得输入光标处的上屏候选词队列时重复执行，只在初始状态执行一次即可。

本步骤中建立的语言模型可以有多种，本实施例中，可以包括系统模型，用户模型，垂直模型，常见词语言模型，情景模型。

系统模型是针对关键词与输入光标之间的距离关系建立的语言模型；用户模型，垂直模型，常见词语言模型，情景模型均是针对关键词所属的应用属性建立的语言模型。其中，用户模型是针对用户对关键词的使用习惯建立的模型；垂直模型是针对关键词所属的应用领域，如时间、地理位置、节日祝福语等领域建立的模型；常见词语言模型是针对关键词所属的常用词汇建立的模型；情景模型是针对关键词所属的话题情景建立的模型。下面对各模型分别进行介绍。

1)系统模型包括邻近二元语言模型，远距离二元语言模型及三元语言模型。该系统模型及其联想候选词库的建立过程，如图3所示，可以包括：

步骤301，收集训练语料。

步骤302，提取训练语料中的训练候选词及训练关键词。

针对每一个训练语料均按照关键词元词表来提取关键词，作为训练关键词，并设定训练语料中的某一位置的词条作为训练候选词，其中，为了训练得到不同的系统模型，需要训练关键词与训练候选词之间的距离关系包括邻接关系和非邻接关系，且训练关键词至少为一个。

其中，邻接关系是指训练关键词语训练候选词之间没有间隔或者是仅间隔停用字，非邻接关系反之。停用字是指辅助用户的字词，例如语气词，“哈”“了”“嗯”等。

步骤303，对训练候选词及训练关键词进行模型训练，获得语言模型及其对应的联想候选词库。

该模型训练的过程与现有技术中邻近二元语言模型的训练过程类似，此处不再赘述。

在模型训练后即可获得邻近二元语言模型，远距离二元语言模型及三元语言模型，及各模型的联想候选词库。

其中，邻近二元语言模型用来解决邻接的关键词与上屏候选词的二元关系，该邻接关系可能是上文文本信息中的关键词与上屏候选词之间的关系，也可能是上屏候选词与下文文本信息中的关键词之间的关系。例如，举行～晚宴，举行是上屏候选词，晚宴是下文文本信息中的关键词。邻近二元语言模型是确定性较高的语言模型，缺点是信息量较少，能够预测出的候选过多，难以从中选择用户想要的。

远距离二元语言模型用来解决非邻接关系的关键词与上屏候选词之间的二元关系，该远距离关系可能是上文文本信息中的关键词与上屏候选词之间的关系，也可能是上屏候选词与下文文本信息中的关键词之间的关系。与邻近二元语言模型不同的是，远距离二元不需要两个元词是相邻的；例如，关键词“苹果”和上屏候选词“梨”。远距离二元语言模型是两个元词共现关系的一种体现，它往往表征着两个元词之间的关联度。

三元语言模型用来解决两个关键词与上屏候选词之间的三元关系，给出两个关键词对上屏候选词的预测。该两个关键词与上屏候选词之间的预测关系可能是两个上文文本信息中的关键词对上屏候选词的预测，或者，两个下文文本信息中的关键词对上屏候选词之间的预测，还或者，上、下文文本信息中各出现一个关键词以两边夹的方式对中间上屏候选词的预测。两个上文文本信息中的关键词对上屏候选词的预测，例如：“会议在晚上(召开)”，“召开”为上屏候选词，“会议～召开”是一个比较显著的远距离二元，“召开”作为上屏候选词的排位靠前；“在晚上～召开”虽然二元关系显著，但是排位在百位以后；如果只根据现有技术中的邻接二元关系，“召开”这个上屏候选词很可能被遗漏掉，而通过引进该三元语言模型“A～B～C”，A表示远距离上文文本信息中的某一个关键词，B表示近距离/邻接的关键词，C则为上屏候选词，即可获得可靠的上屏候选词。另外一种情况，如果输入光标前后各提出关键词“脚本”和“指南”，那么“脚本～学习～指南”则会被利用来预测上屏候选词“学习”。

2)用户模型包括用户二元模型，用户三元模型，远距离用户二元模型。其中，用户二元模型用于解决前一次用户上屏与下一次用户上屏存在的用户二元关系；用户三元模型用于解决连续三次用户上屏存在的用户三元关系；远距离用户二元模型用于解决一定距离内用户上屏词与本次用户上屏词存在的远距离二元关系。该用户模型是基于对用户对词条的使用习惯进行统计所获得的模型，每种模型对应统计有各自的联想候选词库。

3)垂直模型包括诸多个垂直领域的语言模型，这些语言模型与词条所属领域的分类有关，例如，时间相关的领域系统二元语言模型，例如，“晚上”对应的垂直模型的联系候选词库中包含“9点、10点、11点”，”周六”对应的垂直模型的联系候选词库中包含“上午、下午”；位置相关的领域语言模型，例如，“五道口”对应的垂直模型的联系候选词库中包含“清华同方、日昌、华联”等；量词相关的领域语言模型；推荐相关的领域语言模型；输入app环境的领域语言模型；称谓、人名相关的领域语言模型；节日相关祝福语领域语言模型等，各垂直模型是基于词条所属领域进行统计所获得的模型，每种模型对应统计有各自的联想候选词库。

4)常见词语言模型(系统词语言模型)用来覆盖对一个实体词不完整输入的情况，完成其对完整词条后缀的预测，该模型是基于对常见词条进行统计所获得的模型；例如，上文文本信息中的关键词是“笑傲”，则给出的上屏候选词为“江湖”。

5)情景模型是针对关键词所属的话题情景所建立的模型。例如，会议情景，聚餐情景等，每个关键词都具有一个或多个情景特征标签，每种情景特征标签对应一个情景模型，每种情景模型都具有各自的联想候选词库。

在预先建立上述语言模型后即可执行步骤202。

步骤202，根据关键词与输入光标之间的距离关系和/或关键词所属的应用属性确定关键词对应的语言模型。

本步骤中可以根据关键词与输入光标之间的距离关系确定关键词对应的系统模型，若提取的关键词为一个，则当关键词与输入光标之间的距离关系为邻接关系时，确定关键词对应的语言模型为近距离二元语言模型；当距离关系为非邻接关系时确定关键词对应的语言模型为远距离二元语言模型；当关键词为两个时，确定关键词对应的语言模型为三元语言模型。

也可以根据关键词所属的某一应用属性确定关键词对应的语言模型，例如，根据关键词所属的用户使用习惯特征确定关键词对应的用户模型；或者，根据关键词所属的应用领域确定关键词对应的垂直领域；或者，根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型；或者，根据关键词所属的话题情景确定关键词对应的情景模型等。

还可以同时确定关键词对应的多种语言模型，例如远距离二元模型、邻接二元模型、三元模型、用户二元模型，以及常见词语言模型等。

步骤203，根据语言模型对应的联想候选词库获得输入光标处的上屏候选词队列。

对于系统规模、用户模型、垂直模型，为了便于查找语言模型的联想候选词库中的上屏候选队列，还可以在各联想候选词库中按照常规方式建立索引，例如左元索引和右元索引。当关键词来源于上文文本信息时，可以利用语言模型的联想候选词库中的左元索引查找输入光标处的上屏候选词队列；当关键词来源于下文文本信息时，可以利用语言模型的联想候选词库中的右元索引查找输入光标处的上屏候选词队列；当关键词来源于上、下文文本信息时，则会兼顾两个方向的搜索，除此之外，还会增加以中间元的为搜索目标的查询，为此，三元模型的联想候选词库中会建立两个二级索引，以便在两个方向上搜索中间元。对于常见词模型，与现有联想方式类似，可以采用匹配前缀的方式获得输入光标处的上屏候选词队列。

当上步骤确定出的语言模型至少有两个时，该获得输入光标处的上屏候选词队列的过程，如图4所示，还可以进一步包括以下步骤：

步骤401，确定各语言模型的联想候选词库中的上屏候选词。

步骤402，根据各语言模型的预设权重，按照权重线性叠加合并上屏候选词。

步骤403，对合并后的上屏候选词按照权重由高到低进行排序获得输入光标处的上屏候选词队列。

通过结合关键词对应的多种语言模型可以获得更理想更可靠的上屏候选词队列。例如，输入光标处的文本信息为“明天我到大连，我想去发现[光标]”，用户的输入意图是他想去发现王国这个游乐场。提取上文文本信息中的关键词“大连”和“发现”，其中“大连”提示了用户目的地的位置，该关键词属于垂直模型，那么结合关键词“发现”，即可获得可靠的上屏候选词“王国”。

在本发明的另一实施例中，在基于上述方式获得上屏候选队列后可以直接输出该上屏候选队列供用户选择，也还可以在输出该上屏候选队列之前，对上屏候选队列进行调序，然后再输出调序后的上屏候选词队列。

调序方式有多种，其中一种可以根据输入光标处的话题情景对上屏候选词队列进行调序的方法，如图5所示，可以包括：

步骤501，根据命中各情景特征标签的关键词的个数及关键词命中各情景特征标签的概率和，确定各情景特征标签的特征得分。

每一关键词可能命中一个或多个情景特征标签，每个情景特征标签对应一种话题情景，而最终上屏结果中关键词命中某一情景特征标签的概率可以根据统计获得，因此，每个情景特征标签i的特征得分feature_i即可表示为：其中，N_i个关键词命中情景特征标签i；word_j是最终上屏结果中第j个关键词命中该情景特征标签i的概率，j＝1，……，N_i。

步骤502，按照情景特征标签的特征得分，由高到底对各情景特征标签进行排序。

得分越高的情景特征标签对应的话题情景最可能是最终上屏词所属的话题情景。

步骤503，根据情景特征标签的顺序对上屏候选词队列进行调序。

在经过前述实施例的方法获得上屏候选词队列后，该上屏候选词队列中的上屏候选词均具有各自的情景特征标签。本步骤中，即可根据情景特征标签的顺序对上屏候选词进行调序，进而获得最终的上屏候选队列。

本发明实施例结合了情景感知功能，通过对上屏候选词进行排序调整，将理想候选词排位靠前，给出了更可靠的上屏候选词队列。

下面通过具体实例进行说明。

例如，输入光标处的文本信息为“我们安排在花园酒店，在晚上[光标]盛大的宴会”。按照本发明实施例的方法，提取文本信息中的关键词：“安排”、“花园”、“酒店”、“晚上”、“盛大”、“宴会”；根据关键词与输入光标之间的距离关系确定关键词对应的语言模型为：邻接二元模型、远距离二元模型、三元模型；根据语言模型对应的联想候选词库获得输入光标处的上屏候选词队列为：(晚上)睡觉、(晚上)约会、举行(宴会)、(安排)发货、(花园)门口、(晚上)举行(宴会)；对上屏候选词队列进行调序后获得最终的上屏候选队列为：举行、睡觉、约会、门口、发货。

在这个例子中，支持“举行”这个上屏候选词出现的技术点有两个：第一，支持输入光标下文文本信息的理解；第二，需要远距离的触发上屏候选词的过程支持。“在晚上”和“举行”是存在一定二元关系，但是其关系极弱，一般联想预测结果将这个例子提前会略显突兀。在获取输入光标后的下文文本信息中，邻接下文为“盛大”，必定不能对“举行”这个预测候选做出任何贡献。而“举行～宴会”是一对极为强烈的远距离二元语言模型，这对“举行”候选的预测起着至关重要的作用。

再例如，输入光标处的文本信息为“去年中秋去了韩国，今年想去[光标]”。用户的输入意图是上屏“日本”。输入光标所在处为“想去”的后面，那么按照传统的联想策略，会利用“去”和“想去”进行上屏候选词搜索。按照本发明实施例方法，“韩国”和“日本”是一个抽取好的远距离二元语言模型的联想候选词库，“去”和“日本”是一个抽取好的邻近二元语言模型的联想候选词库；那么在二者协同关系的作用下，“日本”这个上屏候选词即会在上屏候选词队列中极为靠前，能够产生的类似上屏候选词的还可能有”泰国”、”新加坡”。

再例如，如果上文文本信息的关键词是“晚上”，那么根据该关键词对应的时间领域的垂直模型以及用户模型，利用当前的系统时间以及用户输入历史中上屏过的时间数据进行预测，即可给出上屏候选词队列：{10点9点11点}；如果用户选择了其中的某个上屏候选词，则会继续输出上屏候选词队列：{半、一刻、三刻}。

再例如，如果上文文本信息的关键词是“五道口”，那么根据该关键词对应的地理领域的垂直模型以及用户模型，利用用户输入历史中的地名输入历史数据以及即时获取到的位置信息，即可给出附近以及相关地名名词作为上屏候选词队列：{清华同方、日昌、华联}；那么，该方式在用户输入了五道口以后，系统提供的上屏候选词除了”城铁”之外，又提供了”清华同方”，让用户眼前为之一亮。

再例如，用户想表达”故都的秋”这个意思，用户已经完成对前三字的输入，但用户的上屏形式可能是多种多样的，“故都～的～秋“，“故～都～的～秋”，“故都的～秋”；这样同样是对“秋”这个上屏候选词进行联想，上一次上屏信息却差异很大，能够预测出“秋”这个候选也许只能通过最后一种用户输入时的断句方式；而本发明方法通过提取关键词“故都”进而根据该关键词对应的语言模型，例如常见词语言模型，进行上屏候选词的预测，即可获得上屏候选词“秋”。

上述实施例公开的方法可以更全面、更正确的理解用户输入意图。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，为本发明实施例一种输入装置的结构示意图。

该装置可以包括如下单元：

文本获取单元601，用于获取输入光标处的文本信息，所述文本信息包括位于所述输入光标之前的上文文本信息和/或位于所述输入光标之后的下文文本信息。

关键词提取单元602，用于提取所述文本信息中的关键词。

队列获取单元603，用于查找所述关键词的联想候选词库，获得所述输入光标处的上屏候选词队列。

队列输出单元604，用于输出所述上屏候选词队列。

该装置通过获取输入光标处的文本信息，并基于该文本信息中的关键词确定出上屏词候选队列，解决了现有技术中输入光标改变位置后由于无法获取可靠上屏词条而无法联想给出上屏候选词的问题。该装置不仅能够在输入光标移动时获得可靠的上屏候选词，而且，该输入方法不单单依靠上一次的上屏词条联想给出上屏候选词队列，而是可以利用输入光标前、后的文本信息，以及远距离的文本信息来联想给出上屏候选词队列，该装置可以更全面、更正确的理解用户的输入意图，从而可以给出更可靠的上屏候选词队列。

在本发明另一实施例中，文本获取单元601，具体可以用于当检测到所述输入光标位于文本框内，且停止文本输入的时间超过时间阈值时，获取所述输入光标处的文本信息。文本获取单元，还可以具体用于以所述输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界，获取所述输入光标处的文本信息。

在本发明另一实施例中，如图7所示，队列获取单元603可以进一步包括：

模型建立子单元701，用于在所述模型确定子单元702确定所述关键词对应的语言模型之前，建立语言模型及其联想候选词库，所述语言模型包括邻近二元语言模型，远距离二元语言模型及三元语言模型。

模型确定子单元702，用于根据所述关键词与所述输入光标之间的距离关系和/或所述关键词所属的应用属性确定所述关键词对应的语言模型。

队列获取子单元703，用于查找所述语言模型的联想候选词库，获得所述输入光标处的上屏候选词队列。

其中，如图8所示，模型建立子单元701又进一步可以包括：

收集子单元801，用于收集训练语料。

提取子单元802，用于提取所述训练语料中的训练候选词及训练关键词，所述训练关键词与所述训练候选词之间的距离关系包括邻接关系和非邻接关系，所述训练关键词至少为一个。

训练子单元803，用于对所述训练候选词及所述训练关键词进行模型训练，获得所述语言模型及其联想候选词库。

其中，模型确定子单元702，具体用于若所述关键词为一个，则当所述关键词与所述输入光标之间的距离关系为邻接关系时，确定所述关键词对应的语言模型为邻近二元语言模型；当所述距离关系为非邻接关系时确定所述关键词对应的语言模型为远距离二元语言模型；当所述关键词为两个时，确定所述关键词对应的语言模型为三元语言模型。

模型确定子单元702，还具体可以用于根据所述关键词所属的用户使用习惯特征确定所述关键词对应的用户模型；或者，根据所述关键词所属的应用领域确定所述关键词对应的垂直模型；或者；根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型；或者，根据所述关键词所属的话题情景确定所述关键词对应的情景模型。

如图9所示，队列获取子单元703又进一步可以包括：

确定子单元901，用于当所述语言模型至少有两个时，分别确定各所述语言模型的联想候选词库中的上屏候选词。

合并子单元902，用于根据各所述语言模型的预设权重，按照权重线性叠加合并所述上屏候选词。

排序子单元903，用于对合并后的上屏候选词按照权重由高到低进行排序获得所述输入光标处的上屏候选词队列。

参见图10，为本发明实施例另一种输入装置的结构示意图。

该装置除了可以包括上述文本获取单元601，关键词提取单元602，队列获取单元603，队列输出单元604之外，还可以包括：

队列调序单元1001，用于在所述队列输出单元604输出所述上屏候选词队列之前，根据所述输入光标处的话题情景对所述上屏候选词队列进行调序。

队列输出单元604，用于输出调序后的上屏候选词队列。

其中，如图11所示，队列调序单元1001可以进一步包括：

得分计算子单元1101，用于根据命中各情景特征标签的所述关键词的个数及所述关键词命中所述各情景特征标签的概率和，确定所述各情景特征标签的特征得分。

情景排序子单元1102，用于按照所述各情景特征标签的特征得分，由高到底对所述情景特征标签进行排序。

调序子单元1103，用于按照所述情景特征标签的顺序对所述上屏候选词队列进行调序，其中，所述上屏候选词队列中的上屏候选词均具有各自的情景特征标签。

该装置结合了情景感知功能，通过对上屏候选词进行排序调整，将理想候选词排位靠前，给出了更可靠的上屏候选词队列。

本发明实施例还提供了一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令或代码，所述处理器和所述存储器耦合，用于执行所述存储器中的计算机指令或代码，实现以下方法：

提取所述文本信息中的关键词；

输出所述上屏候选词队列。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种输入方法、装置和电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种输入方法，其特征在于，包括：

提取所述文本信息中的关键词；

输出所述上屏候选词队列。

2.根据权利要求1所述的方法，其特征在于，所述获取输入光标处的文本信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取输入光标处的文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述查找所述关键词的联想候选词库，获得所述输入光标处的上屏候选词队列，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述关键词与所述输入光标之间的距离关系确定所述关键词对应的语言模型，包括：

6.根据权利要求5所述的方法，其特征在于，在所述根据所述关键词与所述输入光标之间的距离关系确定所述关键词对应的语言模型之前，还包括：

所述建立语言模型及其联想候选词库，包括：

收集训练语料；

7.根据权利要求4所述的方法，其特征在于，所述根据所述关键词所属的应用属性确定所述关键词对应的语言模型，包括：

8.根据权利要求4所述的方法，其特征在于，所述查找所述语言模型的联想候选词库，获得所述输入光标处的上屏候选词队列，包括：

9.根据权利要求1至8中任意一项所述的方法，其特征在于，在所述输出所述上屏候选词队列之前，还包括：

所述输出所述上屏候选词队列，包括：

输出调序后的上屏候选词队列。

10.根据权利要求9所述的方法，其特征在于，所述根据所述输入光标处的话题情景对所述上屏候选词队列进行调序，包括：

11.一种输入装置，其特征在于，包括：

关键词提取单元，用于提取所述文本信息中的关键词；

队列输出单元，用于输出所述上屏候选词队列。

12.根据权利要求11所述的装置，其特征在于，

所述文本获取单元，具体用于当检测到所述输入光标位于文本框内，且停止文本输入的时间超过时间阈值时，获取所述输入光标处的文本信息。

13.根据权利要求11所述的装置，其特征在于，

所述文本获取单元，具体用于以所述输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界，获取所述输入光标处的文本信息。

14.根据权利要求11所述的装置，其特征在于，所述队列获取单元包括：

15.根据权利要求14所述的装置，其特征在于，

所述模型确定子单元，具体用于若所述关键词为一个，则当所述关键词与所述输入光标之间的距离关系为邻接关系时，确定所述关键词对应的语言模型为邻近二元语言模型；当所述距离关系为非邻接关系时确定所述关键词对应的语言模型为远距离二元语言模型；当所述关键词为两个时，确定所述关键词对应的语言模型为三元语言模型。

16.根据权利要求15所述的装置，其特征在于，所述队列获取单元还包括：

所述模型建立子单元包括：

收集子单元，用于收集训练语料；

17.根据权利要求14所述的装置，其特征在于，

所述模型确定子单元，具体用于根据所述关键词所属的用户使用习惯特征确定所述关键词对应的用户模型；或者，根据所述关键词所属的应用领域确定所述关键词对应的垂直模型；或者；根据所述关键词所属的常用词汇确定所述关键词对应的常见词语言模型；或者，根据所述关键词所属的话题情景确定所述关键词对应的情景模型。

18.根据权利要求14所述的装置，其特征在于，所述队列获取子单元包括：

19.根据权利要求11至18中任意一项所述的装置，其特征在于，所述装置还包括：

所述队列输出单元，用于输出调序后的上屏候选词队列。

20.根据权利要求19所述的装置，其特征在于，所述队列调序单元包括：

21.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机指令或代码，所述处理器和所述存储器耦合，用于执行所述存储器中的计算机指令或代码，实现以下方法：

提取所述文本信息中的关键词；

输出所述上屏候选词队列。