CN107704102A

CN107704102A - 一种文本输入方法及装置

Info

Publication number: CN107704102A
Application number: CN201710931060.9A
Authority: CN
Inventors: 马士杰
Original assignee: Beijing Xinmeihutong Technology Co
Current assignee: Beijing Xinmeihutong Technology Co
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2018-02-16
Anticipated expiration: 2037-10-09
Also published as: CN107704102B

Abstract

本发明实施例公开一种文本输入方法及装置。该方法中，通过已输入的单词和RNN语言模型，确定第一候选词语，综合第一候选词的第一字符串相似度和第一词频分数，得到第一候选词语的词语分数。接收正在输入的初始键码串后，确定初始键码串中包含的目标字符的周围字符，根据目标字符及周围字符，获取初始键码串与词典中各个单词之间的第二字符串相似度，根据第二字符串相似度确定第二候选词，综合第二候选词的第二字符串相似度和第二词频分数，得到第二候选词语的词语分数。该方法解决了现有技术中N元语言模型数据稀疏，导致的推荐精度低的问题，并且，该方法在获取第二候选词时，考虑了目标字符的周围字符，能够起到纠错作用，进一步提高推荐精度。

Description

一种文本输入方法及装置

技术领域

本申请涉及输入法技术领域，尤其涉及一种文本输入方法及装置。

背景技术

随着科技的发展，多种终端设备应运而生，例如手机、iPad和电脑等，满足了用户在工作和生活方面的多种需求。另外，用户使用各种终端设备的过程中，经常需要向终端设备输入文本，例如，在使用终端设备中安装的通讯软件，以及利用终端设备记录信息时，都需要向终端设备输入文本。

在向终端设备输入文本时，通常会根据用户输入的内容，向用户推荐相应的信息，以简化用户的输入步骤。例如，当用户输入“happy”时，终端设备可能会向用户推荐“newyear”和“birthday”等多个候选词语，用户点击其中一个候选词语，即可输入该候选词语。在现有技术中，为了实现该功能，需要预先根据大规模语料，统计多个长度为N的词组的出现频率，据此创建N元语言模型。在用户输入N-1个词语后，终端设备通过查询该N元语言模型，确定能够与用户输入的N-1个词语组成词组的各个候选词语，并通过N元语言模型，确定用户输入的N-1个词语与各个候选词组组成的词组的词频，根据词频向用户推荐各个候选词语。

但是，发明人在本申请的研究过程中发现，N元语言模型的参数会随着n的增长而急剧增多，需要的终端设备的存储空间也相应的急剧增长。例如，假如词典中有100000个单词，二元语言模型中最多有100000²个参数，三元语言模型中最多有100000³个参数，相对于二元语言模型来说，参数数量急剧增多，需要更大的存储空间。因此，目前终端设备采用的输入法通常最多应用三元语言模型，且在三元语言模型中只保留高频词组，因此存在数据稀疏问题，有时向用户推荐的候选词语并非用户所需要的词语，导致推荐精度低。另外，用户在向终端设备进行文本输入的过程中，有时会发生输入错误，例如误触到目标字符的周围字符，导致输入错误字符，从而进一步降低推荐的精度。

发明内容

为了解决现有技术中的输入方法，由于使用的N元语言模型存在数据稀疏，以及由于用户输入错误，导致推荐精度低的问题，本发明通过以下各个实施例公开一种文本输入方法及装置。

在本发明的第一方面，公开一种文本输入方法，包括：

接收用户已输入单词和正在输入的初始键码串；

通过RNN语言模型，确定已输入单词的各个第一候选词语，获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度，并获取所述第一候选词语的第一词频分数，根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数；

根据所述目标字符和所述目标字符的周围字符，遍历词典，获取所述初始键码串与所述词典中各个单词的第二字符串相似度，其中，第二字符串相似度大于预设值的单词为第二候选词，查询第二候选词在所述词典中的第二词频分数，根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数；

根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词。

可选的，所述获取所述第一候选词语的第一词频分数，包括：

通过所述RNN语言模型，获取所述第一候选词语在所述RNN语言模型中的RNN词频分数；

查询词典，获取所述第一候选词语在所述词典中的词典词频分数；

通过所述第一候选词语的RNN词频分数和词典词频分数，获取所述第一候选词语的第一词频分数。

可选的，所述通过所述第一候选词语的RNN词频分数和词典词频分数，获取所述第一候选词语的第一词频分数，包括：

通过预先设定的线性插值法，确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系；

根据所述线性关系，计算所述第一候选词语的第一词频分数。

可选的，若已输入单词和正在输入的初始键码串为英文，所述词典为树形层级结构，并且所述词典中的每一个节点包括至少一个英文字符；

所述词典的第一层包括26个英文大写字符和/或26个英文小写字符；

从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词；

所述词典中存储有各个单词的词频。

可选的，所述获取所述初始键码串与所述词典中各个单词的第二字符串相似度，包括：

根据所述周围字符与所述目标字符的距离，确定所述目标字符与周围字符的权重；

根据字符输入顺序，以及所述目标字符与周围字符的权重，构建相应的键码串权重列表；

通过所述键码串权重列表遍历所述词典，获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数，其中，所述所需操作包括：字符插入操作、字符删除操作和周围字符替换操作；

根据所述最少操作次数，以及进行周围字符替换操作时，所述目标字符与周围字符在所述键码串权重列表中的权重，确定所述初始键码串与所述词典中各个单词的第二字符串相似度。

可选的，所述根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词，包括：

根据所述第一候选词语的词语分数，从所述第一候选词语中选择词语分数最高的r个第一目标候选词语；

根据所述第二候选词语的词语分数，从所述二候选词语中选择词语分数最高的r个第二目标候选词语；

删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语，并综合对比剩余词语的词语分数，根据词语分数对所述剩余词语进行排序并推荐；

其中，r为预设的正整数。

在本发明的第二方面，公开一种文本输入装置，包括：

接收模块，用于接收用户已输入单词和正在输入的初始键码串；

第一分数获取模块，用于通过RNN语言模型，确定已输入单词的各个第一候选词语，获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度，并获取所述第一候选词语的第一词频分数，根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数；

第二分数获取模块，用于根据所述目标字符和所述目标字符的周围字符，遍历词典，获取所述初始键码串与所述词典中各个单词的第二字符串相似度，其中，第二字符串相似度大于预设值的单词为第二候选词，查询第二候选词在所述词典中的第二词频分数，根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数；

候选词推荐模块，用于根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词。

可选的，所述第一分数获取模块包括：

RNN词频分数获取单元，用于通过所述RNN语言模型，获取所述第一候选词语在所述RNN语言模型中的RNN词频分数；

词典词频分数获取单元，用于查询词典，获取所述第一候选词语在所述词典中的词典词频分数；

第一词频分数获取单元，用于通过所述第一候选词语的RNN词频分数和词典词频分数，获取所述第一候选词语的第一词频分数。

可选的，所述第一词频分数获取单元包括：

线性关系确定单元，用于通过预先设定的线性插值法，确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系；

第一词频分数计算单元，用于根据所述线性关系，计算所述第一候选词语的第一词频分数。

所述词典中存储有各个单词的词频。

可选的，所述第二分数获取模块包括：

权重确定单元，用于根据所述周围字符与所述目标字符的距离，确定所述目标字符与周围字符的权重；

权重列表创建单元，用于根据字符输入顺序，以及所述目标字符与周围字符的权重，构建相应的键码串权重列表；

操作确定单元，用于通过所述键码串权重列表遍历所述词典，获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数，其中，所述所需操作包括：字符插入操作、字符删除操作和周围字符替换操作；

第二字符串相似度确定单元，用于根据所述最少操作次数，以及进行周围字符替换操作时，所述目标字符与周围字符在所述键码串权重列表中的权重，确定所述初始键码串与所述词典中各个单词的第二字符串相似度。

可选的，所述候选词推荐模块包括：

第一词语选择单元，用于根据所述第一候选词语的词语分数，从所述第一候选词语中选择词语分数最高的r个第一目标候选词语；

第二词语选择单元，用于根据所述第二候选词语的词语分数，从所述二候选词语中选择词语分数最高的r个第二目标候选词语；

词语排序推荐单元，用于删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语，并综合对比剩余词语的词语分数，根据词语分数对所述剩余词语进行排序并推荐；

其中，r为预设的正整数。

本发明公开一种文本输入方法及装置。该方法中，在接收用户已输入单词后，通过用户已输入的单词和RNN语言模型，确定第一候选词语，然后综合第一候选词的第一字符串相似度以及第一词频分数，得到第一候选词语的词语分数。并且，该方法中，在接收用户正在输入的初始键码串后，确定初始键码串中包含的目标字符的周围字符，并根据目标字符及周围字符，遍历词典，获取初始键码串与所述词典中各个单词之间的第二字符串相似度，根据第二字符串相似度确定第二候选词，再综合第二候选词的第二字符串相似度和第二词频分数，得到第二候选词语的词语分数。

也就是说，本发明实施例公开的方案中，分别通过已输入单词和RNN语言模型，确定第一候选词语，以及通过正在输入的初始键码串和词典，确定第二候选词语，并综合考虑了各个候选词语的字符串相似度和词频分数，确定各个候选词语的词语分数，以便根据词语分数对各个候选词语进行排序，根据排序结果向用户推荐。因此，解决了现有技术中N元语言模型数据稀疏，所导致的推荐精度低的问题，并且，由于该方法在获取第二候选词时，考虑了目标字符的周围字符，从而能够起到纠错作用，进一步提高推荐精度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种文本输入方法的工作流程示意图；

图2为本发明实施例公开的又一种文本输入方法的工作流程示意图；

图3为本发明实施例公开的一种文本输入方法中的词典的示意图；

图4为本发明实施例公开的又一种文本输入方法的工作流程示意图；

图5为本发明实施例公开的又一种文本输入方法的工作流程示意图；

图6为本发明实施例公开的一种文本输入装置的结构示意图。

具体实施方式

本发明第一实施例公开一种文本输入方法，参见图1所示的工作流程示意图，本发明实施例公开的文本输入方法包括以下步骤：

步骤S11、接收用户已输入单词和正在输入的初始键码串。

在初始键码串中，包含用户正在输入的各个字符。

步骤S12、通过RNN语言模型，确定已输入单词的各个第一候选词语，获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度，并获取所述第一候选词语的第一词频分数，根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数。

通过查询RNN语言模型，即可确定已输入单词的各个第一候选词语，例如，若已输入单词为“three days”，则通过查询RNN语言模型，可获取“ago”和“later”等词语，“ago”和“later”等词语即为第一候选词语。

另外，初始键码串中往往包含多个字符，将初始键码串中包含的字符称为目标字符。获取第一候选词语后，根据目标字符与各个第一候选词语的匹配程度，即可获取目标字符与第一候选词语之间的第一字符串相似度。

在获取第一字符串相似度和第一候选词语的第一词频分数后，可通过预设的计算方法，计算第一候选词语的词语分数。例如，可将第一字符串相似度与第一词频分数相加的和作为第一候选词语的词语分数，或者，分别为第一字符串相似度和第一词频分数设置不同的权重，并将第一字符串相似度与其对应权重的积和第一词频分数与其对应权重的积相加，得到的值作为第一候选词语的词语分数。当然，也可以通过其他方式计算第一候选词语的词语分数，本发明实施例对此不做限定。

步骤S13、根据所述目标字符和所述目标字符的周围字符，遍历词典，获取所述初始键码串与所述词典中各个单词的第二字符串相似度，其中，第二字符串相似度大于预设值的单词为第二候选词，查询第二候选词在所述词典中的第二词频分数，根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数。

其中，周围字符即为目标字符相邻的字符。用户在文本输入的过程中，有可能会误触周围字符。例如，根据键盘布局可知，字符“N”即为字符“B”的周围字符，当用户需要输入“an”时，有可能误触周围字符，从而输入“ab”。

这种情况下，确定所述初始键码串包含的各个目标字符，根据键盘布局，确定目标字符的周围字符，然后，根据所述目标字符和所述周围字符遍历词典，与词典中各个单词相匹配，确定初始键码串与所述词典中各个单词的第二字符串相似度。

然后，根据第二字符串相似度确定第二候选词，通常查询词典，获取第二候选词的第二词频分数。

在获取第二字符串相似度和第二候选词语的第二词频分数后，可通过预设的计算方法，计算第二候选词语的词语分数。例如，可将第二字符串相似度与第二词频分数相加的和作为第二候选词语的词语分数，或者，分别为第二字符串相似度和第二词频分数设置不同的权重，并将第二字符串相似度与其对应权重的积和第二词频分数与其对应权重的积相加，得到的值作为第二候选词语的词语分数。当然，也可以通过其他方式计算第二候选词语的词语分数，本发明实施例对此不做限定。

步骤S14、根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词。

该步骤中，在确定第一候选词语的词语分数和第二候选词语的词语分数，通常根据词语分数由大到小的顺序对各个候选词语排序，并将排序结果显示给用户，以实现向用户推荐候选词。

本发明第一实施例公开一种文本输入方法。该方法中，在接收用户已输入单词后，通过用户已输入的单词和RNN语言模型，确定第一候选词语，然后综合第一候选词的第一字符串相似度以及第一词频分数，得到第一候选词语的词语分数。并且，该方法中，在接收用户正在输入的初始键码串后，确定初始键码串中包含的目标字符的周围字符，并根据目标字符及周围字符，遍历词典，获取初始键码串与所述词典中各个单词之间的第二字符串相似度，根据第二字符串相似度确定第二候选词，再综合第二候选词的第二字符串相似度和第二词频分数，得到第二候选词语的词语分数。

也就是说，本发明实施例公开的文本输入方法中，分别通过已输入单词和RNN语言模型，确定第一候选词语，以及通过正在输入的初始键码串和词典，确定第二候选词语，并综合考虑了各个候选词语的字符串相似度和词频分数，确定各个候选词语的词语分数，以便根据词语分数对各个候选词语进行排序，根据排序结果向用户推荐。因此，解决了现有技术中N元语言模型数据稀疏，所导致的推荐精度低的问题，并且，由于该方法在获取第二候选词时，考虑了目标字符的周围字符，从而能够起到纠错作用，进一步提高推荐精度。

另外，在本发明第一实施例及图1公开的工作流程示意图中，确定已输入单词的各个第一候选词语，并获取第一候选词语的词语分数之后，再根据初始键码串中的目标字符及目标字符的周围字符确定第二候选词语，并获取第二候选词语的词语分数。但在实际的文本输入过程中，二者并没有严格的时间先后顺序，可以先执行确定第二候选词语，并获取第二候选词语的词语分数的操作，然后再确定已输入单词对应的各个第一候选词语，并获取第一候选词语的词语分数。或者，还可以同时执行这两项操作，本发明对此不做限定。

在上述实施例中，通过步骤S12公开了在确定已输入单词的各个第一候选词语之后，获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度的操作。其中，该第一字符串相似度取决于目标字符与各个第一候选词语之间的匹配程度。

例如，若已输入单词为“three days”，通过查询RNN语言模型，确定“ago”和“later”等词语为第一候选词语，这种情况下，若用户正在输入的初始键码串为“ag”，由于其中的目标字符与“ago”的匹配程度更高，则目标字符与“ago”的第一字符串相似度大于目标字符与“later”的第一字符串相似度。

通过步骤S12，公开了获取第一候选词语的第一词频分数的操作。为了对该步骤进行详细阐述，作为图1方法的细化，在本发明另一实施例中，如图2所示，所述获取所述第一候选词语的第一词频分数，包括以下步骤：

步骤S21、通过所述RNN语言模型，获取所述第一候选词语在所述RNN语言模型中的RNN词频分数。

将各个已输入单词依次输入至RNN语言模型，RNN语言模型能够输出各个第一候选词语的列表，以及各个第一候选词语的RNN词频分数。

例如，若已输入单词为“three days”，将“three days”输入至RNN语言模型后，RNN语言模型可输出：{“age”:0.22,“later”:0.18,……}。其中，“age”和“later”即为第一候选词语，0.22为“age”的RNN词频分数，0.18为“later”的RNN词频分数。

步骤S22、查询词典，获取所述第一候选词语在所述词典中的词典词频分数。

步骤S23、通过所述第一候选词语的RNN词频分数和词典词频分数，获取所述第一候选词语的第一词频分数。

该步骤中，将第一候选词语的RNN词频分数和词典词频分数相结合，得到第一词频分数。

本发明实施例在计算第一候选词语的第一词频分数时，综合考虑了第一候选词语的RNN词频分数和词典词频分数，从而提高了获取第一候选词语的词频分数的准确性。

进一步的，在步骤S23中，公开了通过所述第一候选词语的RNN词频分数和词典词频分数，获取所述第一候选词语的第一词频分数的操作，该操作可通过以下步骤实现：

首先，通过预先设定的线性插值法，确定所述第一候选词语的RNN词频分数和词典词频分数的线性关系。

然后，根据所述线性关系，计算所述第一候选词语的第一词频分数。

在通过该步骤计算第一词频分数时，需要预先设定线性插值法，通过该线性插值法，能够确定第一候选词语的RNN词频分数和词典词频分数的线性关系，通过该线性关系，即可计算得到第一候选词语的第一词频分数。

另外，还可将第一候选词语的RNN词频分数和词典词频分数相加，将二者的和作为第一候选词语的第一词频分数。

当然，还可以采用其他方式获取第一候选词语的第一词频分数，本发明实施例对此不做限定。

在上述实施例公开的文本输入方法中，需要应用词典。为了详细阐述文本输入方法中的各个步骤，在本发明另一实施例中，对该词典进行介绍。

参见图3所示的词典示意图，本发明实施例中，若已输入单词和正在输入的初始键码串为英文，所述词典为树形层级结构，并且所述词典中的每一个节点包括至少一个英文字符。

若已输入单词和正在输入的初始键码串为英文，也就是说，用户本次进行文本输入时采用的是英文输入法。这种情况下，为了能够向用户推荐候选词语，采用的词典为英文输入法的词典，因此，所述词典中的每一个节点包括至少一个英文字符。

并且，所述词典的第一层包括26个英文大写字符和/或26个英文小写字符。从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词。另外，在词典中，还存储有各个单词的词频。通常情况下，可将各个单词的词频存储至该单词的根节点处。其中，每个单词的词频通过对预先获取到的大量语料进行统计得到。

其中，在图3所示的示意图中，该词典的第一层同时包括26个英文大写字符和26个英文小写字符。另外，该词典的第一层中包含的各个节点即为首节点。

在该词典中，第二层的子节点在第一层的节点之下，相应的，各层的子节点均在上一层的节点之下。从所述词典的首节点到每个根节点的路径所经过的节点中包含的字符构成一个单词，该单词的首字符即为第一层的节点中包含的字符。

进一步的，在该词典中，还可以在每个节点中存储该字符是否可以成为一个单词的结尾的标签，并且，还可以存储该节点字符串的长度等。

另外，若已输入单词和正在输入的初始键码串为其他国家的文字，词典中各个节点包含的字符为相应国家采用语言的字符，以便使本发明实施例公开的文本输入方法能够应用于多种语言的应用场景下。

上述实施例中，通过步骤S13公开了根据所述目标字符和所述目标字符的周围字符，遍历词典，获取所述初始键码串与所述词典中各个单词的第二字符串相似度的操作。为了对该步骤进行详细阐述，作为图1方法的细化，在本发明另一实施例中，如图4所示，所述获取所述初始键码串与所述词典中各个单词的第二字符串相似度，包括以下步骤：

步骤S31、根据所述周围字符与所述目标字符的距离，确定所述目标字符与周围字符的权重。

在本发明实施例中，在确定用户正在输入的初始键码串中包含的各个目标字符后，根据键盘布局，确定周围字符。

这种情况下，在步骤S31中，将周围字符在键盘上的按键的中心点坐标与目标字符在键盘上的按键的中心点坐标之间的距离，作为周围字符与目标字符的距离，然后根据距离远近为周围字符标记相应权重，其中，距离越近的周围字符其权重越高。

例如，若初始键码串为“BUT”，用户在输入时，按照顺序分别在键盘上点击“B”、“U”和“T”三个目标字符，其中，目标字符“B”的周围字符分别为V、G、H、J和N五个字符，目标字符“U”的周围字符分别为Y、H、J和I四个字符，目标字符“T”的周围字符分别为周围字符分别为R、F、G、H和Y五个字符。

在其中一种设置目标字符与周围字符的权重的方法中，假设目标字符的权重为5.0，那么距离目标字符最近的周围字符的权重标记为4.5，距离目标字符第二近的周围字符的权重标记为4.0，并以此类推。

步骤S32、根据字符输入顺序，以及所述目标字符与周围字符的权重，构建相应的键码串权重列表。

在键码串权重列表中，包含各个目标字符、和周围字符及其对应的权重。例如，若初始键码串为“BUT”，则键码串权重列表可如下所示：

{

{[B，5.0]，[N，4.5]，[J，4.0]，[V，3.5]，[H，3.0]，[G，2.5]}，

{[U，5.0]，[I，4.5]，[J，4.0]，[H，3.5]，[Y，3.0]}，

{[T，5.0]，[R，4.5]，[F，4.0]，[G，3.5]，[Y，3.0]}，

}

步骤S33、通过所述键码串权重列表遍历所述词典，获取将所述初始键码串转换为所述词典中的各个单词所需操作的最少操作次数，其中，所述所需操作包括：字符插入操作、字符删除操作和周围字符替换操作。

用户在输入初始键码串时，有可能发生误触，导致用户输入目标字符的周围字符，即输入错误字符，和/或漏输入字符，和/或输入多余字符。

例如，若用户希望输入的初始键码串为but”，但是，用户在输入字符“u”时，有可能触碰到字符“i”，导致用户实际输入的初始键码串为“bit”；或者，用户漏输入字符“u”，导致用户实际输入的初始键码串为“bt”；或者，用户输入多余字符，导致用户实际输入的初始键码串可能为“bnut”等。若同时出现两种以上的错误，例如，若用户输入了周围字符“i”，且输入多余字符，则用户输入的初始键码串可能为“bite”。

由于用户在输入初始键码串时，可能会发生输入周围字符、漏输入字符和/或输入多余字符的问题，因此，在遍历词典的过程中，需要获取将初始键码串转换为词典中各个单词所需的最少操作次数。其中，插入一个字符，为一次操作次数。相应的，删除一个字符，以及与一个周围字符进行替换，分别为一次操作次数。

步骤S34、根据所述最少操作次数，以及进行周围字符替换操作时，所述目标字符与周围字符在所述键码串权重列表中的权重，确定所述初始键码串与所述词典中各个单词的第二字符串相似度。

该步骤中，通常将初始键码串转换为一个单词时，所需的最少操作次数越小，以及进行周围字符替换操作时，周围字符的权重越大，则该初始键码串与该单词之间的第二字符串相似度越大。

另外，在计算第二字符串相似度的过程中，可采用以下公式：

初始键码串与词典中某一个单词的第二字符串相似度＝(初始键码串长度-相似度参数)/初始键码串长度。

相似度参数通过将该初始键码串转换为所述单词所需的最少操作次数，以及进行周围字符替换操作时，所述周围字符在所述键码串权重列表中的权重来确定。其中，每发生一次字符插入操作，或每发生一次字符删除操作，则相似度参数累加1。另外，若发生一次周围字符替换操作，则周围字符替换操作导致的相似度参数的累加值＝(目标字符的权重与周围字符的权重之间的差值)/目标字符的权重。

这种情况下，若用户输入的初始键码串为“bite”，计算“bite”与“but”之间的第二字符串相似度时，需要将字符“e”删除，即执行一次字符删除操作，则相似度参数累加1。另外，还需要将“i”替换为“u”，该操作中，目标字符为“i”，周围字符为“u”，而目标字符“i”的权重为5，周围字符“u”的权重为4.5，则周围字符替换操作导致的相似度参数的累加值＝(5-4.5)/5。

这种情况下，其中，“4”为初始键码串的长度，1为将字符“e”删除操作对相似度参数的累加值，为将目标字符“i”替换为周围字符“u”导致的相似度参数的累加值。

当然，在获取最少操作次数，以及进行周围字符替换操作时，所述目标字符与周围字符在所述键码串权重列表中的权重之后，也可通过其他方法确定初始键码串与所述词典中各个单词的第二字符串相似度，本发明实施例对此不做限定。

另外，在上述实施例中，通过步骤S14公开了根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词的操作。

为了对该步骤进行详细阐述，作为图1方法的细化，在本发明另一实施例中，如图5所示，所述根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词，包括以下步骤：

步骤S41、根据所述第一候选词语的词语分数，从所述第一候选词语中选择词语分数最高的r个第一目标候选词语。

步骤S42、根据所述第二候选词语的词语分数，从所述二候选词语中选择词语分数最高的r个第二目标候选词语。

步骤S43、删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语，并综合对比剩余词语的词语分数，根据词语分数对所述剩余词语进行排序并推荐。其中，r为预设的正整数。

r的具体数值可由工作人员预先设定。例如，若在文本输入的过程中，设定每次向用户推荐的候选词语为10个，则r的取值通常为10，通过步骤S41的操作，从第一候选词语中选择词语分数最高的10个词语，并通过步骤S42的操作，从第二候选词语中选择词语分数最高的10个词语，然后排除其中重复的词语，再将剩余的词语中按照词语分数从高到低的顺序进行排序，选择排序在前10位的词语，并向用户推荐。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

在本发明另一实施例中，公开一种文本输入装置。参见图6所示的结构示意图，所述文本输入装置包括：接收模块100、第一分数获取模块200、第二分数获取模块300和候选词推荐模块400。

其中，所述接收模块100用于接收用户已输入单词和正在输入的初始键码串。

所述第一分数获取模块200，用于通过RNN语言模型，确定已输入单词的各个第一候选词语，获取所述初始键码串包含的各个目标字符与所述第一候选词语之间的第一字符串相似度，并获取所述第一候选词语的第一词频分数，根据所述第一字符串相似度和所述第一词频分数获取所述第一候选词语的词语分数。

其中，通过查询RNN语言模型，即可确定已输入单词的各个第一候选词语，例如，若已输入单词为“three days”，则通过查询RNN语言模型，可获取“ago”和“later”等词语，“ago”和“later”等词语即为第一候选词语。

第二分数获取模块300，用于根据所述目标字符和所述目标字符的周围字符，遍历词典，获取所述初始键码串与所述词典中各个单词的第二字符串相似度，其中，第二字符串相似度大于预设值的单词为第二候选词，查询第二候选词在所述词典中的第二词频分数，根据所述第二字符串相似度和第二词频分数获取所述第二候选词的词语分数。

其中，周围字符即为目标字符相邻的字符。用户在文本输入的过程中，有可能会误触周围字符。例如，根据键盘布局可知，字符“N”即为字符“B”的周围字符，当用户需要输入“an”时，有可能误触周围字符，从而输入“ab”。这种情况下，确定所述初始键码串包含的各个目标字符，根据键盘布局，确定目标字符的周围字符，然后，根据所述目标字符和所述周围字符遍历词典，与词典中各个单词相匹配，确定初始键码串与所述词典中各个单词的第二字符串相似度。

候选词推荐模块400，用于根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词。

其中，所述候选词推荐模块400在确定第一候选词语的词语分数和第二候选词语的词语分数，通常根据词语分数由大到小的顺序对各个候选词语排序，并将排序结果显示给用户，以实现向用户推荐候选词。

进一步的，在本发明实施例公开的文本输入装置中，所述第一分数获取模块包括：

其中，将各个已输入单词依次输入至RNN语言模型，RNN语言模型能够输出各个第一候选词语的列表，以及各个第一候选词语的RNN词频分数，从而能够获取第一候选词语在所述RNN语言模型中的RNN词频分数。

通过RNN词频分数获取单元、词典词频分数获取单元和第一词频分数获取单元，在计算第一候选词语的第一词频分数时，综合考虑了第一候选词语的RNN词频分数和词典词频分数，从而提高了获取第一候选词语的词频分数的准确性。

进一步的，所述第一词频分数获取单元包括：

在本发明实施例公开的方案中，需要应用词典。以下对该词典进行介绍。

进一步的，在本发明实施例公开的文本输入装置中，所述第二分数获取模块包括：

其中，在本发明实施例中，在确定用户正在输入的初始键码串中包含的各个目标字符后，根据键盘布局，确定周围字符。另外，将周围字符在键盘上的按键的中心点坐标与目标字符在键盘上的按键的中心点坐标之间的距离，作为周围字符与目标字符的距离，然后根据距离远近为周围字符标记相应权重，其中，距离越近的周围字符其权重越高。

所述第二字符串相似度确定单元在计算第二字符串相似度时，通常将初始键码串转换为一个单词时，所需的最少操作次数越小，以及进行周围字符替换操作时，周围字符的权重越大，则该初始键码串与该单词之间的第二字符串相似度越大。

进一步的，在本发明实施例公开的文本输入装置中，所述候选词推荐模块包括：

词语排序推荐单元，用于删除所述r个第一目标候选词语和所述r个第二目标候选词语中的重复词语，并综合对比剩余词语的词语分数，根据词语分数对所述剩余词语进行排序并推荐；其中，r为预设的正整数。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于……实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种文本输入方法，其特征在于，包括：

接收用户已输入单词和正在输入的初始键码串；

2.根据权利要求1所述的文本输入方法，其特征在于，所述获取所述第一候选词语的第一词频分数，包括：

3.根据权利要求2所述的文本输入方法，其特征在于，所述通过所述第一候选词语的RNN词频分数和词典词频分数，获取所述第一候选词语的第一词频分数，包括：

4.根据权利要求1所述的文本输入方法，其特征在于，

若已输入单词和正在输入的初始键码串为英文，所述词典为树形层级结构，并且所述词典中的每一个节点包括至少一个英文字符；

所述词典中存储有各个单词的词频。

5.根据权利要求1所述的文本输入方法，其特征在于，所述获取所述初始键码串与所述词典中各个单词的第二字符串相似度，包括：

6.根据权利要求1所述的文本输入方法，其特征在于，所述根据所述第一候选词语的词语分数和所述第二候选词语的词语分数，确定本次向用户推荐的候选词，包括：

其中，r为预设的正整数。

7.一种文本输入装置，其特征在于，包括：

8.根据权利要求7所述的文本输入装置，其特征在于，所述第一分数获取模块包括：

9.根据权利要求8所述的文本输入装置，其特征在于，所述第一词频分数获取单元包括：

10.根据权利要求7所述的文本输入装置，其特征在于，

所述词典中存储有各个单词的词频。

11.根据权利要求7所述的文本输入装置，其特征在于，所述第二分数获取模块包括：

12.根据权利要求7所述的文本输入装置，其特征在于，所述候选词推荐模块包括：

其中，r为预设的正整数。