CN108932069A

CN108932069A - 输入法候选词条确定方法、装置、设备及可读存储介质

Info

Publication number: CN108932069A
Application number: CN201810757305.5A
Authority: CN
Inventors: 张强; 潘嘉; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-04
Anticipated expiration: 2038-07-11
Also published as: CN108932069B

Abstract

本申请公开了一种输入法候选词条确定方法、装置、设备及可读存储介质，本申请通过获取输入的当前编码信息及当前编码信息之前输入的历史编码信息对应的历史词序列，进一步按照当前的输入法语种，对当前编码信息进行解码得到候选词，本申请结合历史词序列中的历史词，也即考虑候选词之前的历史词，预测候选词的表达语种，进而将候选词按照表达对应的表达语种，表达为候选词条并输出。由此可见，本申请方案能够实现根据历史词来预测输入的当前编码信息对应候选词的表达语种，进而将候选词按照预测的表达语种表达为候选词条输出，不需要用户在不同语种的输入法之间进行切换，大大提高了输入效率。

Description

输入法候选词条确定方法、装置、设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体地说，涉及输入法候选词条确定方法、装置、设备及可读存储介质。

背景技术

对于现代社会而言，语言上的交流不再限制为单一的语种，人们在日常的工作或与他人的对话里都或多或少使用到了除自己母语以外的其他语种。比如说，一个经常在日本、美国等地往返经商的中国人，由于受到了不同文化的影响，他在通过聊天软件和别人交流时，可能会同时混用中文、英文和日文这三种语言，并且会伴随一定的文法习惯。这在当今国际化的趋势下，刺激了人们在使用输入法时多语种输入的需求。

当前的输入系统通常默认只有一种语种，用户在选定语种的输入法下输入编码之后，系统按照输入法语种对编码进行解码，并将解码后的候选词条呈现给用户。当用户在使用其他语种时，需要在不同语种的输入法间来回切换，这种策略使得输入时间成本增大，影响了多语种输入的效率。

发明内容

有鉴于此，本申请提供了一种输入法候选词条确定方法、装置、设备及可读存储介质，用于解决现有输入系统在多语种输入时需要频繁切换输入法，降低输入效率的问题。

为了实现上述目的，现提出的方案如下：

一种输入法候选词条确定方法，包括：

获取输入的当前编码信息，以及所述当前编码信息之前输入的历史编码信息对应的历史词序列，所述历史词序列包含至少一历史词；

按照所述当前编码信息输入时对应的输入法语种，对所述当前编码信息进行解码，得到当前编码信息对应的候选词；

根据所述历史词序列中的历史词，确定所述候选词的表达语种；

将所述候选词按照对应的表达语种，表达为候选词条并输出。

优选地，所述根据所述历史词序列中的历史词，确定所述候选词的表达语种，包括：

对所述候选词及所述历史词序列中的历史词，获取用于进行语种预测的语种预测特征；

根据所述语种预测特征及所述当前编码信息的输入用户的输入习惯，确定所述候选词的表达语种。

可选的，所述根据所述语种预测特征及所述当前编码信息的输入用户的输入习惯，确定所述候选词的表达语种，包括：

将所述语种预测特征输入预置的与所述当前编码信息的输入用户对应的语种预测模型，得到语种预测模型输出的所述候选词的表达语种；

所述语种预测模型为，以对所述输入用户对应的训练语料中目标词及目标词之前的历史词序列获取的语种预测特征为训练样本，以所述训练语料中所述目标词的表达语种为样本标签训练得到。

优选地，所述对所述候选词及所述历史词序列中的历史词，获取用于进行语种预测的语种预测特征，包括：

获取所述历史词序列中的历史词的语义信息和语种信息，以及获取所述候选词的语义信息，组成语种预测特征。

优选地，所述将所述候选词按照对应的表达语种，表达为候选词条并输出，包括：

判断所述候选词对应的表达语种是否与所述输入法语种相同；

若是，则将所述候选词作为候选词条输出；

若否，则将所述候选词按照对应的表达语种进行翻译，并将翻译结果作为候选词条输出。

优选地，在判断所述候选词对应的表达语种与所述输入法语种不相同时，该方法还包括：

将所述候选词也作为候选词条输出。

优选地，所述语种预测模型的生成过程，包括：

获取所述输入用户的历史上屏语料，作为训练语料；

对所述训练语料包含的词进行语种标定，得到词的语种向量；

将所述训练语料包含的词，按照所述输入法语种进行表达，并确定表达后的词的语义向量；

将每个词的语种向量及其语义向量拼接成词语特征向量；

在训练语料中选取目标词，以及确定目标词之前的各词组成的历史词序列；

以所述历史词序列中各词的词语特征向量，及所述目标词的语义向量，组成训练样本，以所述目标词的语种向量作为样本标签，训练语种预测模型。

优选地，所述语种预测模型的生成过程，还包括：

根据所述输入用户的位置信息及行为信息，对训练语料进行扩充。

一种输入法候选词条确定装置，包括：

数据获取单元，用于获取输入的当前编码信息，以及所述当前编码信息之前输入的历史编码信息对应的历史词序列，所述历史词序列包含至少一历史词；

解码单元，用于按照所述当前编码信息输入时对应的输入法语种，对所述当前编码信息进行解码，得到当前编码信息对应的候选词；

表达语种确定单元，用于根据所述历史词序列中的历史词，确定所述候选词的表达语种；

第一候选词条确定单元，用于将所述候选词按照对应的表达语种，表达为候选词条并输出。

优选地，所述表达语种确定单元包括：

语种预测特征获取单元，用于对所述候选词及所述历史词序列中的历史词，获取用于进行语种预测的语种预测特征；

基于习惯确定单元，用于根据所述语种预测特征及所述当前编码信息的输入用户的输入习惯，确定所述候选词的表达语种。

可选的，所述基于习惯确定单元包括：

模型预测单元，用于将所述语种预测特征输入预置的与所述当前编码信息的输入用户对应的语种预测模型，得到语种预测模型输出的所述候选词的表达语种；

优选地，所述语种预测特征获取单元包括：

语种及语义信息获取单元，用于获取所述历史词序列中的历史词的语义信息和语种信息，以及获取所述候选词的语义信息，组成语种预测特征。

优选地，所述第一候选词条确定单元包括：

语种判断单元，用于判断所述候选词对应的表达语种是否与所述输入法语种相同；

候选词确定单元，用于在所述语种判断单元判断为是时，将所述候选词作为候选词条输出；

翻译单元，用于在所述语种判断单元判断为否时，将所述候选词按照对应的表达语种进行翻译，并将翻译结果作为候选词条输出。

优选地，还包括：

第二候选词条确定单元，用于在判断所述候选词对应的表达语种与所述输入法语种不相同时，将所述候选词也作为候选词条输出。

优选地，还包括：

模型生成单元，用于生成语种预测模型，该过程包括：

获取所述输入用户的历史上屏语料，作为训练语料；

将每个词的语种向量及其语义向量拼接成词语特征向量；

一种输入法候选词条确定设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上输入法候选词条确定方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上输入法候选词条确定方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的输入法候选词条确定方法，通过获取输入的当前编码信息及当前编码信息之前输入的历史编码信息对应的历史词序列，进一步按照当前的输入法语种，对当前编码信息进行解码得到候选词，本申请结合历史词序列中的历史词，也即考虑候选词之前的历史词，预测候选词的表达语种，进而将候选词按照表达对应的表达语种，表达为候选词条并输出。由此可见，本申请方案能够实现根据历史词来预测输入的当前编码信息对应候选词的表达语种，进而将候选词按照预测的表达语种表达为候选词条输出，不需要用户在不同语种的输入法之间进行切换，大大提高了输入效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种输入法候选词条确定方法流程图；

图2a-2c示例了三种候选词条的展示方式；

图3示意了语种预测特征的组成形式；

图4为本申请实施例公开的一种输入法候选词条确定装置结构示意图；

图5为本申请实施例公开的一种输入法候选词条确定设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过几个具体事例来引出现有技术的缺陷。

1)一个中国的公司经理经常出差美国，平时说话时习惯中英文混合着说。比如他在和同事通过聊天软件聊天时，针对一张照片引发的讨论，该经理想要表达：

那个女生看上去很shy。

其中“shy”是英文表达，对应的中文意思是“紧张”。

按照现有输入法系统，该经理选择中文输入法之后，通过拼音形式输入了“那个女生看上去很”。由于接下来要输入的是英文，因此需要他将输入法从中文切换至英文，进而才能够输入“shy”。

2)一个用户特别喜欢日本景观及文化，某天在和好友软件聊天时想要表达：

北海道的桜花开了，我们周末去看看吧。

其中“桜花”是日文表达，对应的中文意思是“樱花”。

按照现有输入法系统，该用户选择中文输入法之后，通过拼音形式输入了“北海道的”。由于接下来要输入的是日文，因此需要他将输入法从中文切换至日文，进而才能够打出“桜花”。进一步，接下来要输入的又是中文，需要用户再次将输入法从日文切换至中文，才能够输入“我们周末去看看吧”。整个输入过程涉及两次输入法的切换。

显然，按照现有方案用户在多语种输入时需要频繁进行输入法的切换，降低了用户的输入效率，同时用户体验也不高。

为了解决这个问题，本案发明人首先想到的解决方案是：

将用户输入的编码按照选定的输入法语种，解码成候选词条并输出显示。进一步，由用户选择所要的候选词上屏。再进一步，由用户从屏幕上显示的多个词中，选择所要进行语种翻译的目标词，由系统按照用户选择的目标语种，将目标词翻译成目标语种。

这种解决方案不需要用户在输入过程进行多语种输入法的切换，但是其仍需要在输入内容上屏后，由用户选择所要进行语种翻译的目标词，进而进行语种翻译。这也会增加用户的操作，降低输入效率。

在此基础上，本案发明人进行了深入研究，最终发现：用户在进行多语种输入时，有着固有的文法习惯，一般会在特定的句式结构中对特定语段使用非母语词汇，而多数情况下都还是使用母语表达。因此，如果能够在用户使用一种语种进行输入时，根据用户的语言习惯预判出他使用其他语种来表达的可能性，即可直接按照预判的语种来对当前词进行表达，这将极大提升用户的多语种输入效率，减少繁琐的交互逻辑。基于这一思路，下面详细阐述本案的输入法候选词条确定方案。

参见图1，图1为本申请实施例公开的一种输入法候选词条确定方法流程图。如图1所示，该方法包括：

步骤S100、获取输入的当前编码信息，以及所述当前编码信息之前输入的历史编码信息对应的历史词序列。

其中，所述历史词序列包含至少一历史词。

具体地，用户选定输入法语种之后，在此输入法下输入编码信息。示例如，用户选定的输入法是中文拼音输入法，则输入的编码信息是拼音。

本步骤中获取输入的当前编码信息。同时，还需要获取在当前编码信息之前输入的历史编码信息对应的历史词序列。以如下示例说明：

“台上的女生看起来很jinzhang”

上述句子中，“jinzhang”为输入的当前编码信息，“台上的女生看起来很”可以作为历史编码信息对应的历史词序列。

可以理解的是，可以通过句法关系、词数量等来限定历史词序列与当前编码信息间的关系，如将当前编码信息之前输入的设定数量的词作为历史词序列，或者，将当前编码信息之前，最近一个设定类型符号之后的词作为历史词序列，该设定类型符号可以是“句号”、“逗号”等。

步骤S110、按照所述当前编码信息输入时对应的输入法语种，对所述当前编码信息进行解码，得到当前编码信息对应的候选词。

具体地，用户在输入编码信息时会选定输入法，本步骤中按照当前编码信息输入时对应的输入法语种，对当前编码信息进行解码，得到当前编码信息对应的候选词。

仍以上述示例为例，当前编码信息为“jinzhang”，按照中文对当前编码信息进行解码，得到的候选词可以包括一个或多个，如按照正确率由高至低排序包括：“紧张”、“进账”、“金章”等。

步骤S120、根据所述历史词序列中的历史词，确定所述候选词的表达语种。

具体地，本步骤中可以针对前一步骤中得到的每一个候选词，均确定其表达语种。除此之外，考虑到正确的候选词(被用户选中上屏的候选词)基本都在前述排序的topN(N可以由用户设定，如N＝3)中，因此可以按照前述正确率排序的顺序，选取前设定数量个候选词，作为本步骤中需要进行表达语种确定的对象。如，选择前三个候选词，分别确定其表达语种。

候选词的表达语种可以理解为，预测的用户所要对候选词进行表达的语种，如预测用户想要通过日文对候选词进行表达，则日文即为候选词的表达语种。

考虑到候选词之前输入的历史词序列，能够有助于确定候选词所在语句的句式结构，及候选词位于语句中的语段，进而能够助于确定候选词的表达语种。

步骤S130、将所述候选词按照对应的表达语种，表达为候选词条并输出。

在上一步骤中确定了候选词对应的表达语种之后，可以按照该表达语种，将候选词表达为候选词条输出。

可以理解的是，候选词对应的表达语种可能是一种或多种，则本步骤中可以按照每一种表达语种，将候选词表达为候选词条输出。

仍以上述“台上的女生看起来很jinzhang”为例，进行说明：

当前编码信息“jinzhang”按照中文语法解码后对应的候选词包括：“紧张”、“进账”、“金章”。

根据历史词序列“台上的女生看起来很”，确定上述三个候选词的表达语种，分别是：

“紧张”的表达语种为中文和英语，“进账”和“金章”的表达语种为中文。

则按照候选词对应的表达语种，表达为候选词条并输出展示，展示效果如图2a-2c所示。

其中，图2a-2c示例了三种候选词条的展示方式。图2a中，若候选词的表达语种存在两种及以上，则将该多种表达近邻排序。

图2b中，若候选词的表达语种存在两种及以上，可以将各候选词的与输入法语种相同的语种表达按照正确率顺序排序，并在排序末端，将候选词的非输入法语种外的其它语种表达排序。

图2c中，若候选词的表达语种存在两种及以上，可以设置多行候选词条展示，行数与所有候选词的表达语种的总数量相同。且每一行中仅展示同一表达语种的候选词条。

当然，上述仅仅示例了三种候选词条的展示效果，除此之外，还可以设计其它展示方式。

可以理解的是，实施本申请上述方案的可以是供用户进行内容输入仅展示的终端，除此之外，还可以是与终端具备通信连接的服务器，如输入法对应的服务器。再一种情况下，还可以是终端与服务器配合实现，如终端获取输入的当前编码信息以及历史词序列，并发送给服务器，由服务器进行解码、确定表达语种的过程，并最终由终端输出候选词条。

在本申请的另一个实施例中，对上述步骤S130，将所述候选词按照对应的表达语种，表达为候选词条并输出的过程进行介绍。

可以理解的是，由于候选词是按照输入法语种进行解码的，而步骤S120中所确定的候选词的表达语种有可能与输入法语种相同，也有可能与输入法语种不同。如果二者不同，则需要将候选词按照确定的表达语种进行翻译，如果二者相同，则不需要讲候选词进行翻译。基于此，步骤S130的实施过程可以包括：

S1、判断所述候选词对应的表达语种是否与所述输入法语种相同；

S2、若是，则将所述候选词作为候选词条输出；

具体地，如果判断候选词对应的表达语种与输入法语种相同，则无需对候选词进行翻译，可以直接作为候选词条输出。

S3、若否，则将所述候选词按照对应的表达语种进行翻译，并将翻译结果作为候选词条输出。

具体地，如果判断候选词对应的表达语种与输入法语种不相同，则需要将候选词从输入法语种翻译至表达语种，并将翻译结果作为候选词条输出。

可以理解的是，当候选词的表达语种存在两个以上时，可以分别针对每一表达语种执行上述S1-S3的过程。

示例如：

候选词为“紧张”，确定的其表达语种包括中文和英文，而“紧张”本身就是中文表达，因此针对中文表达时可以直接将“紧张”作为候选词条输出。进一步，针对英文表达，需要将“紧张”翻译成英文，对应的是“nervous”，进而将“nervous”作为候选词条输出。

进一步地，在上述S1判断基础上，如果判断所述候选词对应的表达语种与所述输入法语种不相同时，本申请方案还可以进一步将候选词也作为候选词条输出。

示例如候选词为“害羞”。确定的其表达语种仅包含英文，将“害羞”翻译成英文“shy”，可以将“shy”作为候选词条输出显示。

在此基础上，为了给用户提供更多语种表达选择，还可以将输入法语种表达的候选词“害羞”也作为候选词条输出显示。

最终呈现的结果就是，同时将输入法语种和确定的表达语种下的候选词条：“害羞”和“shy”均输出显示。

在本申请的又一个实施例中，对上述步骤S120，根据所述历史词序列中的历史词，确定所述候选词的表达语种的过程进行介绍。

首先需要说明的是，用户在进行内容输入之前，可以通过账户登录输入法，以便本申请确定输入用户。进而根据输入用户的历史输入习惯，来确定输入的当前编码信息对应候选词的表达语种。这里，定义输入当前编码信息的为输入用户。

步骤S120的实现方式可以包括：

1、对所述候选词及所述历史词序列中的历史词，获取用于进行语种预测的语种预测特征。

这里，语种预测特征为用于进行语种预测的特征。

2、根据所述语种预测特征及所述当前编码信息的输入用户的输入习惯，确定所述候选词的表达语种。

一种可选的实施方案中，本申请可以通过收集输入用户大量的历史输入语料，来统计用户输入习惯，如统计出目标句式结构中，目标语段习惯使用目标语种表达，建立句式结构和所处语段的组合，与表达语种的对应关系。

基于此，在获取到当前编码信息之前输入的历史编码信息对应的历史词序列，并得到当前编码信息对应的候选词之后，可以根据历史词序列中的历史词，确定候选词所处的句式结构及候选词在句式中所处的语段，将确定候选词所处的句式结构及候选词在句式中所处的语段作为语种预测特征。基于此，根据语种预测特征及输入习惯确定候选词的表达语种的过程，可以包括：

查找对应关系，确定与候选词所处句式结构及所处语段的组合对应的表达语种，作为候选词的表达语种。

另一种可选的实施方案中，可以基于神经网络模型来实现。

本申请可以根据输入用户的输入习惯，预先训练语种预测模型，该语种预测模型可以是深度神经网络中的前馈神经网络、卷积神经网络或循环神经网络中的一种或多种的组合形式。根据输入用户的输入习惯，训练语种预测模型的过程，可以包括：预先获取输入用户对应的训练语料，从训练语料中确定目标词，对目标词及目标词之前的历史词序列获取语种预测特征，作为训练样本。进一步，将训练语料中目标词的表达语种作为样本标签，训练语种预测模型。

语种预测模型的输出可以是语种预测向量形式，该向量为预测的用户对候选词可能使用的不同语种的概率值组成。如语种预测向量包含n个元素，分别对应n个表达语种，每个元素的概率值表示使用对应表达语种的预测概率。

根据输出的语种预测向量可以确定候选词对应的表达语种。具体地，可以预先设定一个概率阈值，当语种预测向量中某个元素的概率值超过概率阈值时，表示该元素对应的表达语种为候选词对应的表达语种，相反，当语种预测向量中某个元素的概率值不超过概率阈值时，表示该元素对应的表达语种不是候选词对应的表达语种。

示例如，候选词为“紧张”，通过语种预测模型确定的该候选词的语种预测向量为[0.563,0.324,0.031,0.082]，其中向量包含的四个元素从前至后依次对应：中文、英文、日文、韩文。预设概率阈值为0.25，则可以确定前两个元素对应的概率值超过了概率阈值，而后两个元素对应的概率值没有超过概率阈值。因此，将中文和英文确定为“紧张”这一候选词对应的表达语种。

再比如，候选词为“进账”，通过语种预测模型确定的该候选词的语种预测向量为[0.856,0.049,0.035,0.06]，显然，只有第一个元素对应的概率值超过了概率阈值，因此将中文确定为“进账”这一候选词对应的表达语种。

可以理解的是，针对不同输入用户，需要分别训练对应的语种预测模型，以实现对对应输入用户输入信息的表达语种的预测过程。

基于输入用户的训练后的语种预测模型，确定候选词的表达语种的过程，可以包括：

首先，对候选词及历史词序列中的历史词，获取语种预测特征。这里，语种预测特征为用于进行语种预测的特征，可选的，语种预测特征可以包括：词的语义信息、语种信息等。

进一步，将获取的语种预测特征输入前述针对所述输入用户训练后的语种预测模型，得到语种预测模型输出的候选词的表达语种。

一种可选的情况下，上述输入至语种预测模型的语种预测特征的获取过程，可以包括：

获取历史词序列中的历史词的语义信息和语种信息，以及获取候选词的语义信息，将历史词的语义信息和语种信息、候选词的语义信息组合为语种预测特征。

语种预测特征的组成结构可以参照图3所示。

图3示意了语种预测特征的组成形式，包括候选词的语义词向量，以及，候选词之前的多个历史词的语义词向量和语种词向量。

可以理解的是，历史词属于已经确定的词，其语种和语义都是确定的。而候选词仅能够确定其语义，语种是需要进行预测的，为此，本申请实施例可以选择将历史词的语种词向量、语义词向量，以及候选词的语义词向量拼接成语种预测特征。

其中，语义词向量指代词的语义信息，语种词向量指代词的语种信息。

接下来，本申请又一个实施例中对语种预测模型的生成过程进行介绍。

1)、获取输入用户的历史上屏语料，作为训练语料。

本实施例中以针对输入用户生成对应的语种预测模型的过程为例进行说明。

其中，历史上屏语料为输入用户通过输入法应用软件输出到屏幕上的所有文本语料，文本语料不受语种限制。

可选的，本申请实施例还可以对训练语料进行扩展。

一种可选的扩展方式，可以将与输入用户进行交互的用户的上屏语料也作为训练语料。以及，将输入用户浏览的网页中的文本语料也作为训练语料。

另一种可选的扩展方式，可以根据输入用户的位置信息及行为信息，对训练语料进行扩展。

示例如：

通过获取输入用户的位置信息，发现用户在韩国。获取的输入用户的行为信息包括：购买护肤品。

基于此，可以扩展得到训练语料：

a)的护肤品很便宜。

b)韩国的很好用。

在进行语料扩展时，可以对特定句式设置槽，根据输入用户的位置信息及行为信息，确定槽内所需填入的信息，进而得到扩充后的语料。

示例如：句式为“帮我找一下附件的<槽>”。其中，<槽>内需要填入的信息可以根据用户的位置信息及行为信息来确定。如：

星巴克、Starbucks

停车场、parking lot、駐車場

酒店、ホテル、hotel

通过对训练语料进行扩充，可以得到输入用户的大量的训练语料，从而更好的训练语种预测模型。

2)对所述训练语料包含的词进行语种标定，得到词的语种向量。

具体地，可以对训练语料进行分词，得到训练语料包含的词。进一步，对分词后的每个词进行语种标定，即标注词的表达语种。具体语种标定形式可以是one-hot向量形式来表示词的语种向量，示例如输入用户可能使用到的语种共有4种，分别是中文、英文、日文、韩文，则4种语种对应的向量可以表示为：

中文：[1,0,0,0]

英文：[0,1,0,0]

日文：[0,0,1,0]

韩文：[0,0,0,1]

也即，通过向量中不同元素对应不同类的语种，且元素存在两种取值，当取值为1时表示对应的语种被选中，当取值为0时表示对应的语种未被选中。

假设训练语料共包含四条，分别为：

1.那个女生看上去很shy。

2.北海道的桜花开了，我们周末去看看吧。

3.的护肤品很便宜。

4.韩国的很好用。

分别对每一条训练语料进行分词，结果如下：

1.那个女生看上去很shy。

2.北海道的桜花开了，我们周末去看看吧。

3.的护肤品很便宜。

4.韩国的很好用。

接着，对每个分词进行语种标定，得到每条训练语料的语种向量序列，如下：

1.{[1,0,0,0],[1,0,0,0],[1,0,0,0],[1,0,0,0],[0,1,0,0]}

2.{[1,0,0,0],[1,0,0,0],[0,0,1,0],[1,0,0,0],[1,0,0,0],[1,0,0,0],[1,0,0,0],[1,0,0,0],

[1,0,0,0]}

3.{[0,0,0,1],[1,0,0,0],[1,0,0,0],[1,0,0,0],[1,0,0,0]}

4.{[1,0,0,0],[1,0,0,0],[0,0,0,1],[1,0,0,0],[1,0,0,0]}

其中，每条训练语料的语种向量序列为，训练语料包含的每个词的语种向量按照排序排列后的语种向量组合。

3)将所述训练语料包含的词，按照所述输入法语种进行表达，并确定表达后的词的语义向量。

仍以上述示例的四条训练语料为例进行说明：

假设输入法语种为中文，则按照中文对四条训练语料表达后，结果如下所示：

1.那个女生看上去很害羞。

2.北海道的樱花开了，我们周末去看看吧。

3.韩国的护肤品很便宜。

4.韩国的护肤品很好用。

进一步地，确定中文表达的训练语料中每个词的语义向量：

词的语义向量可以表示为一个低维的实数向量，维度可以是50、100等。语义向量用于刻画不同词之间的相关性或相似性。词的语义向量可以通过现有技术获取，如在训练语言模型的过程中，获取词的语义向量。

以上述第1条训练语料为例，包含的词对应的语义向量序列如下：

{[0.792,-0.177,-0.107,0.109,-0.542,…,],

[-0.286,-0.365,0.984,-0.023,0.744,…,],

[0.663,-0.214,-0.365,0.984,0.297,…,],

[0.852,-0.349,0,287,0.231,0.101,…,],

[0.211,0.989,-0.324,0.963,-0.241,…,]}

4)将每个词的语种向量及其语义向量拼接成词语特征向量。

具体地，在多语种输入环节下，可以同时考虑输入用户的语义表达习惯和语种表达习惯，因此需要将此的语种向量和语义向量拼接起来，作为词的词语特征向量，完整地对词进行表达。

以上述示例的第1条训练语料中词的语义向量和语种向量为例，拼接后的词语特征向量如下：

{[0.792,-0.177,-0.107,0.109,-0.542,…,1,0,0,0],

[-0.286,-0.365,0.984,-0.023,0.744,…,1,0,0,0],

[0.663,-0.214,-0.365,0.984,0.297,…,1,0,0,0],

[0.852,-0.349,0,287,0.231,0.101,…,1,0,0,0],

[0.211,0.989,-0.324,0.963,-0.241,…,0,1,0,0]}5*54

上述{}外的“5*54”表示词特征向量是由语义向量和语种向量组合而成，54表示词特征向量的维度，等于语义向量的50维加上语种向量的4维，5表示第1条训练语料中包含的词的个数。

对于第2-4条训练语料，其词语特征向量形式与第1条训练语料相似，再次不再赘述。

5)在训练语料中选取目标词，以及确定目标词之前的各词组成的历史词序列。

具体地，目标词为用于作为需要进行表达语种预测的词。

为了简化说明，对于上一步骤中示例的第1条训练语料对应的词语特征向量通过数学符号简化表示为：

{[w₁,L₁],[w₂,L₂],[w₃,L₃],[w₄,L₄],[w₅,L₅],}

其中，w表示词的语义向量，L表示词的语种向量。

针对该条训练语料，可以从中随机选取一个词作为目标词，如将第5个词作为目标词，第5个词的语义向量为w₅，语种向量为L₅。进一步可以将第5个词之前的4个词均作为历史词序列中的词。历史词的词语特征向量组成的序列为[w₁,L₁,w₂,L₂,w₃,L₃,w₄,L₄]。

6)以所述历史词序列中各词的词语特征向量，及所述目标词的语义向量，组成训练样本，以所述目标词的语种向量作为样本标签，训练语种预测模型。

具体地，按照上述示例，训练样本具体可以表示为：

[w₁,L₁,w₂,L₂,w₃,L₃,w₄,L₄,w₅]

样本标签为L₅。

训练语种预测模型时，可以将语种预测模型根据训练样本预测的目标词的语种向量与目标词的真实语种向量之间的差异作为代价函数。可选的，可以将目标词的真实语种向量的转置，与预测的目标词的语种向量的乘积作为代价函数。

语种预测模型的训练过程，即以最小化代价函数为目标不断训练语种预测模型。

训练后的语种预测模型可以存储在后台服务器，也可以存储在终端本地，存储时需要建立语种预测模型与对应的输入用户间的对应关系。

下面对本申请实施例提供的输入法候选词条确定装置进行描述，下文描述的输入法候选词条确定装置与上文描述的输入法候选词条确定方法可相互对应参照。

参见图4，图4为本申请实施例公开的一种输入法候选词条确定装置结构示意图。如图4所示，该装置可以包括：

数据获取单元11，用于获取输入的当前编码信息，以及所述当前编码信息之前输入的历史编码信息对应的历史词序列，所述历史词序列包含至少一历史词；

解码单元12，用于按照所述当前编码信息输入时对应的输入法语种，对所述当前编码信息进行解码，得到当前编码信息对应的候选词；

表达语种确定单元13，用于根据所述历史词序列中的历史词，确定所述候选词的表达语种；

第一候选词条确定单元14，用于将所述候选词按照对应的表达语种，表达为候选词条并输出。

可选的，上述表达语种确定单元可以包括：

可选的，所述基于习惯确定单元可以包括：

可选的，上述语种预测特征获取单元可以包括：

可选的，上述第一候选词条确定单元可以包括：

可选的，本申请的装置还可以包括：

模型生成单元，用于生成语种预测模型，该过程包括：

获取所述输入用户的历史上屏语料，作为训练语料；

将每个词的语种向量及其语义向量拼接成词语特征向量；

可选的，上述模型生成单元生成语种预测模型的过程还可以包括：

本申请实施例提供的输入法候选词条确定装置可应用于输入法候选词条确定设备，如PC终端、云平台、服务器及服务器集群等。可选的，图5示出了输入法候选词条确定设备的硬件结构框图，参照图5，输入法候选词条确定设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种输入法候选词条确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史词序列中的历史词，确定所述候选词的表达语种，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语种预测特征及所述当前编码信息的输入用户的输入习惯，确定所述候选词的表达语种，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述候选词及所述历史词序列中的历史词，获取用于进行语种预测的语种预测特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述候选词按照对应的表达语种，表达为候选词条并输出，包括：

若是，则将所述候选词作为候选词条输出；

6.根据权利要求5所述的方法，其特征在于，在判断所述候选词对应的表达语种与所述输入法语种不相同时，该方法还包括：

将所述候选词也作为候选词条输出。

7.根据权利要求3所述的方法，其特征在于，所述语种预测模型的生成过程，包括：

获取所述输入用户的历史上屏语料，作为训练语料；

将每个词的语种向量及其语义向量拼接成词语特征向量；

8.根据权利要求7所述的方法，其特征在于，所述语种预测模型的生成过程，还包括：

9.一种输入法候选词条确定装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述表达语种确定单元包括：

11.根据权利要求10所述的装置，其特征在于，所述基于习惯确定单元，包括：

12.根据权利要求10所述的装置，其特征在于，所述语种预测特征获取单元包括：

13.根据权利要求9所述的装置，其特征在于，所述第一候选词条确定单元包括：

14.根据权利要求13所述的装置，其特征在于，还包括：

15.根据权利要求11所述的装置，其特征在于，还包括：

模型生成单元，用于生成语种预测模型，该过程包括：

获取所述输入用户的历史上屏语料，作为训练语料；

将每个词的语种向量及其语义向量拼接成词语特征向量；

16.一种输入法候选词条确定设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-8中任一项所述的输入法候选词条确定方法的各个步骤。

17.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8中任一项所述的输入法候选词条确定方法的各个步骤。