CN111090341A

CN111090341A - 输入法候选结果展示方法、相关设备及可读存储介质

Info

Publication number: CN111090341A
Application number: CN201911345811.4A
Authority: CN
Inventors: 刘一凡; 丁克玉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-01

Abstract

本申请公开了一种输入法候选结果展示方法、相关设备及可读存储介质，由于基于用户的历史输入数据确定出的目标音节的每种错误输入形式的统计数据，能够反映出用户在使用当前输入法时，出现的各种误输入情况，因此，在获取用户当前输入的字符串之后，基于预先确定的每种错误形式的统计数据，确定出的该字符串对应的候选结果的排序权重，是考虑了用户各种可能误输入情况并纠错后给出的，实现了不修改字符串却对字符串进行纠错的目的。

Description

输入法候选结果展示方法、相关设备及可读存储介质

技术领域

本申请涉及输入法技术领域，更具体的说，是涉及一种输入法候选结果展示方法、相关设备及可读存储介质。

背景技术

随着社会科学技术的不断发展，各种电子设备(如，计算机、智能手机、平板电脑等)逐渐普及，相应的，为了支撑电子设备的用户输入功能，已经开发出了多种输入法，比如，拼音输入法、笔画输入法、手写输入法、英文输入法、五笔输入法等。并且，各种输入设备(如，键盘、触摸屏等)也广泛应用。

用户在通过输入设备采用任一输入法输入内容至电子设备时，都可能存在输入错误的情况，这种情况下，用户需要手动修改错误的输入内容再重新输入正确的输入内容实现纠错，而修改错误的输入内容会影响用户输入的流畅度。比如，用户通过触摸屏采用拼音输入法输入内容至电子设备时，由于用户的触感不会因为触发触摸屏的不同位置而出现不同的触感，往往会导致输入错误拼音，这种情况下，用户需要通过触发回删按键把错误拼音及在其之后输入的拼音都删除再重新输入正确拼音，或者，用户需要把输入光标移动到错误拼音位置，将错误拼音修改，然后再把输入光标移动到已输入的最后一个拼音位置处继续输入。

因此，需要一种不用修改错误的输入内容的输入方式。

发明内容

鉴于上述问题，提出了本申请以便提供一种输入法候选结果展示方法、相关设备及可读存储介质。具体方案如下：

一种输入法候选结果展示方法，包括：

获取用户当前输入的字符串；

基于预先确定的所述用户的错误形式集合，确定所述字符串对应的各候选结果的排序权重，所述用户的错误形式集合为，基于用户的历史输入数据所确定的各误输入音节及每个误输入音节的统计数据，每个误输入音节对应目标音节的一种错误输入形式；

以确定的排序权重为排序条件，对各候选结果排序展示。

可选地，所述基于预先确定的所述用户的错误形式集合，确定所述字符串对应的各候选结果的排序权重，包括：

基于预先确定的所述用户的错误形式集合，确定所述字符串对应的目标误输入音节以及所述目标误输入音节的统计数据，所述目标误输入音节为所述用户的错误形式集合中的误输入音节；

基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重。

可选地，所述基于预先确定的所述用户的错误形式集合，确定所述字符串对应的目标误输入音节以及所述目标误输入音节的统计数据，包括：

对所述字符串进行切分，获取所述字符串的各子字符串；

确定所述预先确定的所述用户的错误形式集合中，与目标子字符串一致的误输入音节为目标误输入音节，所述目标子字符串为所述各子字符串中的子字符串；

确定所述预先确定的所述用户的错误形式集合中，与所述目标子字符串一致的误输入音节的统计数据，为目标误输入音节的统计数据。

可选地，所述基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重，包括：

利用所述目标误输入音节对应的目标音节，替换所述目标子字符串，获取所述字符串对应的纠错字符串；

获取所述字符串对应的初始候选结果，以及，所述纠错字符串对应的初始候选结果；

保持所述字符串对应的初始候选结果的排序权重不变，并基于所述目标误输入音节的统计数据，更新所述纠错字符串对应的初始候选结果的排序权重，得到所述字符串对应的各候选结果的最终排序权重，其中，所述纠错字符串对应的初始候选结果更新后的排序权重大于更新前的排序权重。

可选地，所述基于所述目标误输入音节的统计数据，更新所述纠错字符串对应的初始候选结果的排序权重，包括：

基于所述目标误输入音节的统计数据，确定更新权重，所述更新权重与所述目标误输入音节的统计数据成正比；

基于所述更新权重，更新所述纠错字符串对应的初始候选结果的排序权重。

获取所述字符串对应的各候选结果的通顺程度参数；

获取所述每个候选结果中各个字对应所述目标音节的统计数据；

根据所述字符串对应的各候选结果的通顺程度参数、所述目标误输入音节的统计数据，以及，所述每个候选结果中各个字对应所述目标音节的统计数据，确定所述字符串对应的各候选结果的排序权重。

可选地，所述基于用户的历史输入数据确定每个误输入音节的统计数据，包括：

分析用户的历史输入数据，得到每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数；

根据所述每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数，计算得到每个误输入音节的统计数据。

可选地，所述分析用户的历史输入数据，得到每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数，包括：

分析用户的历史输入数据，得到纠错数据集，所述纠错数据集中包括多个纠错数据，每个纠错数据包括用户每次输入信息的原始输入音节和与所述原始输入音节对应的目标音节；

统计所述纠错数据集中原始输入音节为每个误输入音节的纠错数据的个数，为每个误输入音节的出现次数；

统计所述纠错数据集中原始输入音节为每个误输入音节对应的目标音节的纠错数据的个数，为每个误输入音节对应的目标音节的出现次数。

一种输入法候选结果展示装置，包括：

字符串获取单元，用于获取用户当前输入的字符串；

确定单元，用于基于预先确定的所述用户的错误形式集合，确定所述字符串对应的各候选结果的排序权重，所述用户的错误形式集合为，基于用户的历史输入数据所确定的各误输入音节及每个误输入音节的统计数据，每个误输入音节对应目标音节的一种错误输入形式；

展示单元，用于以确定的排序权重为排序条件，对各候选结果排序展示。

可选地，所述确定单元，包括：

目标误输入音节及其统计数据确定单元，用于基于预先确定的所述用户的错误形式集合，确定所述字符串对应的目标误输入音节以及所述目标误输入音节的统计数据，所述目标误输入音节为所述用户的错误形式集合中的误输入音节；

候选结果排序权重确定单元，用于基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重。

可选地，所述目标误输入音节及其统计数据确定单元，包括：

切分单元，用于对所述字符串进行切分，获取所述字符串的各子字符串；

目标误输入音节确定单元，用于确定所述预先确定的所述用户的错误形式集合中，与目标子字符串一致的误输入音节为目标误输入音节，所述目标子字符串为所述各子字符串中的子字符串；

目标误输入音节的统计数据确定单元，用于确定所述预先确定的所述用户的错误形式集合中，与所述目标子字符串一致的误输入音节的统计数据，为目标误输入音节的统计数据。

可选地，所述候选结果排序权重确定单元，包括：

纠错字符串生成单元，用于利用所述目标误输入音节对应的目标音节，替换所述目标子字符串，生成所述字符串对应的纠错字符串；

初始候选结果获取单元，用于获取所述字符串对应的初始候选结果，以及，所述纠错字符串对应的初始候选结果；

排序权重更新单元，用于保持所述字符串对应的初始候选结果的排序权重不变，并基于所述目标误输入音节的统计数据，更新所述纠错字符串对应的初始候选结果的排序权重，得到所述字符串对应的各候选结果的最终排序权重，其中，所述纠错字符串对应的初始候选结果更新后的排序权重大于更新前的排序权重。

可选地，所述排序权重更新单元，包括：

更新权重确定单元，用于基于所述目标误输入音节的统计数据，确定更新权重，所述更新权重与所述目标误输入音节的统计数据成正比；

更新单元，用于基于所述更新权重，更新所述纠错字符串对应的初始候选结果的排序权重。

可选地，所述确定单元，包括：

通顺程度参数获取单元，用于获取所述字符串对应的各候选结果的通顺程度参数；

字与目标音节的统计数据获取单元，用于获取所述每个候选结果中各个字对应所述目标音节的统计数据；

排序权重确定单元，用于根据所述字符串对应的各候选结果的通顺程度参数、所述目标误输入音节的统计数据，以及，所述每个候选结果中各个字对应所述目标音节的统计数据，确定所述字符串对应的各候选结果的排序权重。

可选地，所述确定单元，包括：

分析单元，用于分析用户的历史输入数据，得到每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数；

统计数据计算单元，根据所述每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数，计算得到每个误输入音节的统计数据。

可选地，所述分析单元，包括：

分析子单元，用于分析用户的历史输入数据，得到纠错数据集，所述纠错数据集中包括多个纠错数据，每个纠错数据包括用户每次输入信息的原始输入音节和与所述原始输入音节对应的目标音节；

第一统计单元，用于统计所述纠错数据集中原始输入音节为每个误输入音节的纠错数据的个数，为每个误输入音节的出现次数；

第二统计单元，用于统计所述纠错数据集中原始输入音节为每个误输入音节对应的目标音节的纠错数据的个数，为每个误输入音节对应的目标音节的出现次数。

一种输入法候选结果展示系统，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的输入法候选结果展示方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的输入法候选结果展示方法的各个步骤。

借由上述技术方案，本申请公开了一种输入法候选结果展示方法、相关设备及可读存储介质，由于基于用户的历史输入数据确定出的目标音节的每种错误输入形式的统计数据，能够反映出用户在使用当前输入法时，出现的各种误输入情况，因此，在获取用户当前输入的字符串之后，基于预先确定的每种错误形式的统计数据，确定出的该字符串对应的候选结果的排序权重，是考虑了用户各种可能误输入情况并纠错后给出的，实现了不修改字符串却对字符串进行纠错的目的。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的一种输入法候选结果展示方法的流程示意图；

图2为本申请实施例公开的一种输入法候选结果展示装置结构示意图；

图3为本申请实施例公开的一种输入法候选结果展示系统的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例公开的一种输入法候选结果展示方法的流程示意图，该方法可以包括：

S101：获取用户当前输入的字符串。

在本申请中，用户当前输入的字符串可以为用户通过输入设备(如，键盘、触摸屏等)采用任一输入法输入的任意字符串，该字符串可以为任意类型的字符串，比如，拼音串、字串等，作为一种优选实施方式，该字符串可以为全拼汉语拼音串。示例如：shurufa。

S102：基于预先确定的所述用户的错误形式集合，确定所述字符串对应的各候选结果的排序权重。

在本申请中，所述用户的错误形式集合为，基于用户的历史输入数据所确定的各误输入音节及每个误输入音节的统计数据，每个误输入音节对应目标音节的一种错误输入形式。用户的历史输入数据可以为用户输入字符串采用的输入法的用户日志，目标音节可以为用户输入字符串采用的输入法对应的标准音节，不同的输入法具有不同的目标音节，以拼音输入法为例，目标音节为可以为汉字对应的无调拼音中去除单字母音节(a，e，o)之外的无调拼音(如bao，zao，chen等)。每个误输入音节的统计数据可以为每个误输入音节在用户的历史输入数据中的出现频率，出现次数、出现概率等。

作为一种可实施方式，用户的错误形式可以为纠错对，则用户的错误形式集合中包含多个纠错对以及每个纠错对的统计数据。作为一种可实施方式，纠错对可以表示为(目标音节丨目标音节对应的一种误输入音节)，比如，目标音节bao对应的一种误输入音节为bbao，则表示为纠错对(bao丨bbao)。需要说明的是，在本申请中，可以基于输入法的输入原理确定每个目标音节的错误输入形式，而不同的输入法的输入原理不同，因此，不同的输入法，每个目标音节的错误输入形式也不相同，以拼音输入法为例，每个目标音节的各种错误输入形式可以为该目标音节的拼写错误形式(比如：多拼、少拼、错拼等)。

为便于理解，本申请中以拼音输入法为例，给出一种确定每个目标音节的各种错误输入形式的具体实现方式，该方式具体如下：

对于汉字对应的无调拼音中去除单字母音节(a，e，o)之外的每个无调拼音分别按照多拼一个字母、少拼一个字母、替换一个字母、相邻两个字母颠倒的错误制造与该无调拼音对应的全部字母串，并将该无调拼音与每个字母串组合得到该无调拼音的一种错误形式。

具体地，对每个无调拼音，按照多拼一个字母的错误制造与该无调拼音对应的全部字母串的方式可以为：遍历该无调拼音中的每个字母，在遍历到的字母后面添加a至z中的每一个字母。示例如：qiang变成qiiang。

对每个无调拼音，按照少拼一个字母的错误制造与该无调拼音对应的全部字母串的方式可以为：遍历该无调拼音中的每个字母，将遍历到的字母去掉。示例如：qiang变成qiag。

对每个无调拼音，按照替换一个字母的错误制造与该无调拼音对应的全部字母串的方式可以为：遍历该无调拼音中的每个字母，把遍历到的字母修改成a至z中除该字母之外的每一个字母。示例如：qiang变成qisng。

对每个无调拼音，按照相邻两个字母颠倒的错误制造与该无调拼音对应的全部字母串的方式可以为：遍历该无调拼音中的每个字母，颠倒遍历到的字母和该字母后一个字母的位置。示例如：qiang变成qaing。

进一步需要说明的是，在本申请中，通过基于输入法的输入原理确定每个目标音节的错误输入形式能够规定输入纠错的边界，也就是说，只有字符串中包含用户的错误形式集合种包含的某个目标音节的错误输入形式时，才对该字符串进行纠错，否则不对该字符串进行纠错。

S103：以确定的排序权重为排序条件，对各候选结果排序展示。

在本申请中，在确定所述字符串对应的各候选结果的排序权重之后，可以以确定的排序权重为排序条件，将各候选结果进行排序，并展示给所述用户，以供所述用户从各候选结果中选取最终上屏词。

本实施例公开了一种法候选结果展示方法，由于基于用户的历史输入数据确定出的目标音节的每种错误输入形式的统计数据，能够反映出用户在使用当前输入法时，出现的各种误输入情况，因此，在获取用户当前输入的字符串之后，基于预先确定的每种错误形式的统计数据，确定出的该字符串对应的候选结果的排序权重，是考虑了用户各种可能误输入情况并纠错后给出的，实现了不修改字符串却对字符串进行纠错的目的。

作为一种可实施方式，本申请中公开了一种基于预先确定的用户的错误形式集合，确定字符串对应的各候选结果的排序权重的具体实现方式，该方式可以包括如下步骤：

S201：基于预先确定的所述用户的错误形式集合，确定所述字符串对应的目标误输入音节以及所述目标误输入音节的统计数据。

在本申请中，所述目标误输入音节为所述用户的错误形式集合中的至少一个误输入音节。

作为一种可实施方式，本申请中可以先对字符串进行切分，得到该字符串对应的各个子字符串，再将各个子字符串与预先确定的所述用户的错误形式集合进行匹配，确定所述预先确定的所述用户的错误形式集合中，与所述各子字符串中的目标子字符串一致的误输入音节为目标误输入音节，确定所述预先确定的所述用户的错误形式集合中，与所述目标子字符串一致的误输入音节的统计数据，为目标误输入音节的统计数据。

S202：基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重。

在本申请中，基于目标误输入音节的统计数据，确定字符串对应的各候选结果的排序权重的实现方式可以有多种。具体将通过以下实施例详细说明。

作为一种可实施方式，本申请公开了基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重的一种具体实现方式，该方式可以包括如下步骤：

S301：利用所述目标误输入音节对应的目标音节，替换所述目标子字符串，生成所述字符串对应的纠错字符串。

在本申请中，预先确定的所述用户的错误形式集合中，包括与各误输入音节对应的目标音节，因此，本申请中，可以基于预先确定的所述用户的错误形式集合，得到所述目标误输入音节对应的目标音节，而目标误输入音节与目标子字符串是一致的，因此，本申请中，将字符串中的目标子字符串替换为与该目标子字符串一致的目标误输入音节对应的目标音节，可以得到纠错字符串。

为便于理解，假设字符串为hrxie，目标误输入音节hr，目标音节为he，则与字符串对应的纠错字符串为hexie。

S302：获取所述字符串对应的初始候选结果，以及，所述纠错字符串对应的初始候选结果。

在本申请中，可以基于目前通用的语言模型(如N-Gram语言模型)分别算出所述字符串对应的初始候选结果，以及所述纠错字符串对应的初始候选结果。

为便于理解，假设字符串为hrxie，与字符串对应的纠错字符串为hexie，则本申请中获取hrxie对应的初始候选结果，以及，hexie对应的初始候选结果。

S303：保持所述字符串对应的初始候选结果的排序权重不变，并基于所述目标误输入音节的统计数据，更新所述纠错字符串对应的初始候选结果的排序权重，得到所述字符串对应的各候选结果的最终排序权重。

在本申请中，所述字符串对应的各候选结果可以从字符串对应的初始候选结果以及纠错字符串对应的初始候选结果中确定，所述字符串对应的初始候选结果中携带字符串对应的各初始候选结果的初始权重，所述纠错字符串对应的初始候选结果中携带纠错字符串对应的各初始候选结果的初始权重，在本申请中，为了保证纠错效果，一般情况下，不是将纠错字符串对应的初始候选结果作为优于原字符串对应的初始候选结果的候选结果，而是考虑纠错字符串对应的初始候选结果优于原字符串对应的初始候选结果的可能性，对所述纠错字符串对应的初始候选结果的排序权重进行更新，得到纠错字符串对应的初始候选结果更新后的排序权重，然后，综合纠错字符串对应的初始候选结果更新后的排序权重以及字符串对应的初始候选结果的排序权重，从二者中确定出字符串对应的各候选结果的最终排序权重。

需要说明的是，在本申请中，纠错字符串对应的初始候选结果更新后的排序权重大于更新前的排序权重。

为便于理解，假设字符串为hrxie，目标误输入音节hr，目标音节为he，与字符串对应的纠错字符串为hexie，则本申请中根据目标误输入音节hr的统计数据，对hexie对应的初始候选结果的排序权重进行更新。

需要说明的是，本申请中，可以根据字符串对应的初始候选结果的排序权重和纠错字符串对应的初始候选结果的新的排序权重，从字符串对应的初始候选结果以及纠错字符串对应的初始候选结果中选取预设数量个候选结果，这些候选结果即为字符串对应的各候选结果，这些候选结果对应的排序权重即为字符串对应的各候选结果的排序权重。

作为一种可实施方式，本申请实施例提供了基于所述目标误输入音节的统计数据，更新所述纠错字符串对应的初始候选结果的排序权重的一种实现方式，该方式可以包括如下步骤：

S401：基于所述目标误输入音节的统计数据，确定更新权重，所述更新权重与所述目标误输入音节的统计数据成正比。

在本申请中，可以预设一个系数，将所述目标误输入音节的统计数据与系数相乘，确定更新权重。需要说明的是，字符串中的目标误输入音节可能有多个，这种情况下，目标误输入音节的统计数据也有多个，则本申请中需要根据多个目标误输入音节的统计数据确定更新权重，具体地，可以将每个目标误输入音节的统计数据相加，再将相加结果乘以上述系数即可得到更新权重，另外，也可以为每个目标误输入音节的统计数据分别预设一个系数，将目标误输入音节的统计数据与对应系数相乘得到乘积，再将多个乘积相加即可得到更新权重。

S402：基于所述更新权重，更新所述纠错字符串对应的初始候选结果的排序权重。

在本申请中，可以将所述更新权重与所述纠错字符串对应的原始候选结果的排序权重相加，从而实现更新所述纠错字符串对应的初始候选结果的排序权重。

传统的基于N-Gram语言模型，如HMM(Hidden Markov Model，隐形马尔科夫模型)的输入法解码模型的原理是发现最能够表示一串字符串P的候选结果W，用数学语言描述就是最大化条件概率Pr(W|P)，根据推导可以得出如下公式：

公式中的Pr(W)表示候选结果W的通顺程度，通常使用N-Gram语言模型或其他的语言模型(如神经网络语言模型)单独计算，P(P|W)是显示候选结果W时输入的字符串是P的概率，可以分解为候选结果中每一个字w_i对应子字符串p_i的概率Pr(p_i|w_i)的连乘ΠPr(p_i|w_i)，i为候选结果中字索引。

正常情况下，基于HMM的输入法解码模型的输入为用户输入的字符串，输出为基于上述公式算出的与用户输入的字符串对应的候选结果，由于用户输入的字符串存在错误的可能，因此，基于上述公式算出的与用户输入的字符串对应的候选结果不一定是用户实际想输入的字符串对应的候选结果，基于此，本申请发明人对上述公式进行修改，修改后的公式如下：

修改后的公式相对于修改之前的公式，加入Pr(P’|P)，该部分表示用户输入的原始字符串是P，但是用户实际想输入的字符串却是P‘的概率。该部分跟可以由多个Pr(p_i|p’_i)连乘得到，其中，p_i为候选结果中每一个字w_i对应的误输入音节，p’_i为候选结果中每一个字w_i对应的目标音节，i为候选结果中字索引，Pr(p_i|p’_i)为p’_i错误输入成p_i的概率，本申请中，可以用误输入音节p_i的统计数据表示。Pr(p’_i|w_i)为候选结果中各个字对应所述目标音节的统计数据。

基于以上公式，作为又一种可实施方式，本申请公开了基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重的另一种具体实现方式，该方式可以为：

获取所述字符串对应的各候选结果的通顺程度参数；

需要说明的是，可以基于上述修改后的公式，确定所述字符串对应的各候选结果的排序权重，其中，所述字符串对应的各候选结果的通顺程度参数即为上述公式中的Pr(W)，所述每个候选结果中各个字对应所述目标音节的统计数据即为上述公式中的Pr(P’|W)，所述目标误输入音节的统计数据即为上述公式中的Pr(P’|P)。

作为又一种可实施方式，本申请公开了基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重的另一种具体实现方式，将所述字符串输入至预先构建的纠错模型，得到所述字符串对应的各候选结果的排序权重，所述纠错模型可以为利用所述用户的错误形式集合训练得到的神经网络模型，如NMT(NeuralMachineTranslation，神经网络机器翻译)模型。对此，本申请不进行任何限定。

需要说明的是，基于NMT(NeuralMachine Translation，神经网络机器翻译)模型训练纠错模型时，由于带注音的数据过于稀疏，只能通过用户日志获取，想要获得更好的效果，本申请中基于用户的错误形式集合，结合大量未注音的语料生成新的带注音的语料，即在给无拼音信息训练语料注音时，先按照字进行切分，每个字根据该字对应目标音节的各误输入音节的统计数据随机生成错误注音和正确注音的训练语料，得到扩展的训练数据，最终使用扩展的训练数据训练神经网络模型得到纠错模型。将字符串输入训练好的纠错模型，则可以直接得到字符串对应的各候选结果的排序权重。

作为一种可实施方式，本申请中公开了基于用户的历史输入数据确定每个误输入音节的统计数据的一种实现方式，该方式可以包括如下步骤：

S501：分析用户的历史输入数据，得到每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数。

在本申请中，分析用户的历史输入数据，得到纠错数据集，纠错数据集中包括多个纠错数据，每个纠错数据包括原始输入音节和与原始输入音节对应的目标音节。需要说明的是，每个纠错数据中，原始输入音节和目标音节可以相同，这种情况下，说明用户实际输入音节即为用户想输入的音节，原始输入音节和目标音节也可以不同，这种情况下，说明用户实际输入音节不是用户想输入的音节，用户想输入的音节是与原始输入音节对应的目标音节。因此，在本申请中，统计所述纠错数据集中原始输入音节为每个误输入音节的纠错数据的个数，为每个误输入音节的出现次数；统计所述纠错数据集中原始输入音节为每个误输入音节对应的目标音节的纠错数据的个数，为每个误输入音节对应的目标音节的出现次数。

S502：根据所述每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数，计算得到每个误输入音节的统计数据。

在本申请中，可以先计算所述每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数的和值，再计算每个误输入音节的出现次数与所述和值的比值，得到每个误输入音节的统计数据。

为便于理解，假设目标音节为bao，误输入音节为bbao和baao，bbao的出现次数(即用户原始输入字符串中包含bbao的次数)为5，baao的出现次数(即用户原始输入字符串中包含baao的次数)为8，bao出现的次数(即用户原始输入字符串中包含bao的次数)为3，则bbao的统计数据为5/(5+8+3)，baao的统计数据为8/(5+8+3)。

作为一种可实施方式，本申请中公开了一种分析用户的历史输入数据，得到纠错数据集的具体实现方式，该方式可以包括如下步骤：

S601：分析用户的历史输入数据，确定用户每次输入信息的原始输入字符串、最终输入字符串以及最终上屏词。

需要说明的是，用户输入原始输入字符串之后未作出额外操作(除了敲击键盘和从候选词中选择最终上屏词的操作以外的操作)，则最终输入字符串与原始输入字符串相同；用户输入原始输入字符串之后作出额外操作(如回删操作)，则原始输入字符串与最终输入字符串不同，其中，原始输入字符串是回删操作之前的字符串，最终输入字符串是回删操作之后的字符串。

为便于理解，假设用户想输入和谐(hexie)，实际输入为hrxie####exie(#键代表按下了一次回删键)且最终选择了和谐这个单词，这时只需采用进栈出栈算法即可得到原始输入字符串hrxie以及最终输入字符串hexie。

S602：根据所述原始输入字符串、所述最终输入字符串以及所述上屏词，确定与所述原始输入字符串对应的纠错字符串。

在本申请中，不同情形下，与原始输入字符串对应的纠错字符串可以为原始输入字符串、最终输入字符串以及最终上屏词对应的字符串中的任意一个。比如，所述原始输入字符串、所述最终输入字符串以及所述最终上屏词对应的字符串相同时，其中任意一个即为纠错字符串，所述原始输入字符串与所述最终输入字符串不同，最终输入字符串与最终上屏词对应的字符串相同时，最终输入字符串与最终上屏词对应的字符串中任意一个即为纠错字符串，所述原始输入字符串与所述最终输入字符串不同，最终输入字符串与最终上屏词对应的字符串也不同时，最终上屏词对应的字符串为纠错字符串。

S603：根据所述原始输入字符串以及所述纠错字符串，得到纠错训练数据集。

作为一种可实施方式，所述根据所述原始输入字符串以及所述纠错字符串，得到纠错训练数据集，可以包括：对所述纠错字符串按字切分，获取目标音节；根据所述目标音节，对所述原始输入字符串切分，获取与所述目标音节对应的原始输入音节；将所述原始输入音节和所述目标音节按字进行组合，得到纠错训练数据集。

为便于理解，假设原始输入字符串为hrxie，纠错字符串为hexie，则先将hexie按字切分为he和xie，再根据he和xie将hrxie切分为hr和xie，将he和hr组合得到纠错训练数据(he|hr)，将xie和xie组合得到纠错训练数据(xie|xie)。

下面对本申请实施例公开的输入法候选结果展示装置进行描述，下文描述的输入法候选结果展示装置与上文描述的输入法候选结果展示方法可相互对应参照。

参照图2，图2为本申请实施例公开的一种输入法候选结果展示装置结构示意图。如图2所示，该输入法候选结果展示装置可以包括：

字符串获取单元21，用于获取用户当前输入的字符串；

确定单元22，用于基于预先确定的所述用户的错误形式集合，确定所述字符串对应的各候选结果的排序权重，所述用户的错误形式集合为，基于用户的历史输入数据所确定的各误输入音节及每个误输入音节的统计数据，每个误输入音节对应目标音节的一种错误输入形式；

展示单元23，用于以确定的排序权重为排序条件，对各候选结果排序展示。

可选地，所述确定单元，包括：

可选地，所述候选结果排序权重确定单元，包括：

可选地，所述排序权重更新单元，包括：

可选地，所述确定单元，包括：

可选地，所述分析单元，包括：

图3为本申请实施例公开的一种输入法候选结果展示系统的硬件结构框图，参照图3，输入法候选结果展示的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取用户当前输入的字符串；

以确定的排序权重为排序条件，对各候选结果排序展示。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取用户当前输入的字符串；

以确定的排序权重为排序条件，对各候选结果排序展示。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种输入法候选结果展示方法，其特征在于，包括：

获取用户当前输入的字符串；

以确定的排序权重为排序条件，对各候选结果排序展示。

2.根据权利要求1所述的方法，其特征在于，所述基于预先确定的所述用户的错误形式集合，确定所述字符串对应的各候选结果的排序权重，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预先确定的所述用户的错误形式集合，确定所述字符串对应的目标误输入音节以及所述目标误输入音节的统计数据，包括：

对所述字符串进行切分，获取所述字符串的各子字符串；

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重，包括：

利用所述目标误输入音节对应的目标音节，替换所述目标子字符串，生成所述字符串对应的纠错字符串；

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标误输入音节的统计数据，更新所述纠错字符串对应的初始候选结果的排序权重，包括：

6.根据权利要求2所述的方法，其特征在于，所述基于所述目标误输入音节的统计数据，确定所述字符串对应的各候选结果的排序权重，包括：

获取所述字符串对应的各候选结果的通顺程度参数；

7.根据权利要求1所述的方法，其特征在于，所述基于用户的历史输入数据确定每个误输入音节的统计数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述分析用户的历史输入数据，得到每个误输入音节的出现次数，以及，与所述每个误输入音节对应的目标音节的出现次数，包括：

9.一种输入法候选结果展示装置，其特征在于，包括：

字符串获取单元，用于获取用户当前输入的字符串；

10.一种输入法候选结果展示系统，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至8中任一项所述的输入法候选结果展示方法的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的输入法候选结果展示方法的各个步骤。