CN103049458A

CN103049458A - 一种修正用户词库的方法和系统

Info

Publication number: CN103049458A
Application number: CN201110314509XA
Authority: CN
Inventors: 张扬; 王坚
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2011-10-17
Filing date: 2011-10-17
Publication date: 2013-04-17
Anticipated expiration: 2031-10-17
Also published as: CN103049458B

Abstract

本发明提供了一种修正用户词库的方法和系统，所述方法包括：检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。本发明可以更智能的记录用户输入信息，尽可能的避免对错误输入进行学词，减少在用户词库中的数据噪音。本发明不需要对用户编辑行为做更多限定，大大拓展了词库修正的应用广度和深度，可以更好的去除一些现有技术无法发现的数据噪音。

Description

一种修正用户词库的方法和系统

技术领域

本发明涉及输入法技术领域，特别是涉及一种修正用户词库的方法和系统。

背景技术

随着计算机技术以及互联网技术的普及与发展，输入法已经成为用户与计算机交互的重要手段，不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。

现有的输入法一般通过提高系统词库中词条的更新程度以及词频信息的准确度，来提高用户输入字符时的效率。

随输入法软件安装包安装到用户机器上的词库往往是满足一般用户通用输入需要的基本词库，我们称之为系统词库。而对于各个用户输入中那些个性化的不具有普遍性的词条，比如自己亲友同事的姓名、称谓，自己熟悉的地名机构名，以及使用范围非常有限的专业术语等，在系统词库中一般是不予收录的。这种需求基本上是靠用户词库解决：在用户第一次(或若干次)输入自造词之后，输入法软件会把这些词条作为用户词记录下来。如果用户在今后再次输入，会将用户词作为一个候选展现出来，而且往往给予比系统词条更高的优先级进行展现。

有时用户输入中会存在输入错误(例如由于敲击键盘速度过快等原因)，而现有输入法软件对错误输入和正确输入不予区分，就不可避免的对错误输入也进行学词，从而在用户词数据引入噪音。

比如用户希望输入shenme，意欲输出“什么”，结果不小心敲成“shenem”，上屏文字为“神恶魔”。而现有的输入法软件会认为“神恶魔”是用户的个性化输入，作为用户词保存下来。日积月累，这种因误输入而记录的用户词条越来越多，会造成如下问题：

1、记录大量本不需要记录的错误输入作为用户词，占据用户词空间，降低用户词查找匹配效率。

2、如果用户想输入的其他词条恰好与这些垃圾词条的输入编码(拼音、五笔等)相同，这些词条会排在比较靠前的位置，这势必会给用户输入带来干扰，影响用户体验。

腾讯公司申请号为200710302282的中国专利《一种更新用户词库的方法及装置》，提供了一个解决方案，可以在一定程度上解决前述的技术问题。

其主要方案是：用户先后进行了两次连续的编辑操作，并且用户在前一次编辑完成后进行了删除处理。如果这两次操作都在同一位置，并且两次输入的词条都具有同一编码(拼音全拼、拼音简拼或五笔)的话，则认定前一次输入为错误输入，使用后一次的输入来替换这次输入，同时更新用户词库信息。

例如，用户输入“nh”，由于失误，将“年号”作为输入字符上屏了，而后发现错误，将“年号”删除，重新输入“nhao”，并在候选项中选择了“年号”的更正字符“你好”重新作为输入字符上屏。200710302282的中国专利首先判断更正字符“你好”和原字符“年号”是否位置相同，并进一步判断更正字符“你好”是否存在于原字符“年号”的并列候选项中，如果都满足，则认定前一输入字符“年号”为错误输入。

但是该方案存在如下缺陷：

a、限定在同一位置的输入。这无疑限制了该方案的应用范围，用户光标变换的操作一直在频繁的发生。而用户自发的对输入的更正，并不局限于在同一位置的修改，编辑位置完全可能发生变动，例如，用户在写完一段话后检查时，才发现错误并返回加以更正是很正常的。

b、只考虑前后两次连续输入，并必须存在删除操作。首先，用户对输入的更正，可能并不是连续的，而是间断的；并且，对于IM(即时通信)、搜索引擎等应用场景中，原始输入是无法进行编辑的，即用户无法删除原输入字符，不存在删除操作。

总之，本申请希望使输入法软件能够修正用户词库，能够更智能的记录用户输入信息，尽可能的避免对错误输入进行学词，减少在用户词库中的数据噪音，并避免上述现有方案的限制。

发明内容

本发明所要解决的技术问题是提供一种修正用户词库的方法和装置，能够尽可能的避免对错误输入进行学词，减少在用户词库中的数据噪音。

为了解决上述问题，本发明公开了一种修正用户词库的方法，包括：检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

优选的，所述用户已完成输入内容为：用户在一个输入会话内的已完成输入内容。

优选的，，所述一个输入会话为：在当前客户端上，由当前输入法账户进行的输入行为；和/或，输入法软件绑定到一个应用程序内的输入行为。

优选的，通过以下方式判断输入编码是否相近：判断两个输入编码之间的编辑距离是否在一定范围内。

优选的，当满足条件时，还包括筛选步骤，采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。

优选的，所述筛选步骤具体包括：基于以下特征中的一个或者多个进行评判，当评判结果大于一预设阈值时，则筛选通过；所述特征包括但不限于：纠错内容与当前输入内容输入频率的比值；纠错内容与当前输入内容的编辑距离；纠错内容与当前输入内容间相隔的其他输入句子数；纠错内容被当前用户输入的频率；当前输入内容被当前用户输入的频率；纠错内容被所有用户输入的频率；当前输入内容被所有用户输入的频率。

优选的，所述对用户词库的修正包括：基于纠错内容，在用户词库中确定待修正文字；对待修正文字的词频减一；或者，采用当前输入内容的文字替换待修正文字，将待修正文字的词频加到当前输入内容的文字的词频上。

优选的，所述用于与当前输入内容进行比较的用户已完成输入内容，最远距离当前输入内容N句或者N个字词。

优选的，所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列；所述输入序列为用户输入上屏的一次完整内容；或者，所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间，对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词；或者，所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字词。

优选的，基于当前输入内容和纠错内容，对用户词库中的数据进行修正后，还包括：当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时，采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分，将替换得到的输入序列作为用户词记录至用户词库。

依据本发明的另一实施例，还公开了一种用户词库修正系统，包括：

输入错误检测模块，用于检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；

用户词管理模块，用于当满足条件时，基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

优选的，所述一个输入会话为：在当前客户端上，由当前输入法账户进行的输入行为；和/或，输入法软件绑定到一个应用程序内的输入行为。

优选的，所述输入错误检测模块通过以下方式判断输入编码是否相近：判断两个输入编码之间的编辑距离是否在一定范围内。

优选的，所述的系统还包括用于对当前输入内容和纠错内容进行筛选的候选筛选模块；所述用户词管理模块采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。

优选的，所述候选筛选模块具体用于：基于以下特征中的一个或者多个进行评判，当评判结果大于一预设阈值时，则筛选通过；所述特征包括但不限于：纠错内容与当前输入内容输入频率的比值；纠错内容与当前输入内容的编辑距离；纠错内容与当前输入内容间相隔的其他输入句子数；纠错内容被当前用户输入的频率；当前输入内容被当前用户输入的频率；纠错内容被所有用户输入的频率；当前输入内容被所有用户输入的频率。

优选的，所述的系统还可以包括输入内容管理模块：用于基于用户输入过程中敲击键盘事件的停顿时间，对用户输入上屏的一次完整内容进行划分，将得到的更细粒度的字词作为输入序列；或者，用于基于拼音边界对用户已完成输入内容进行切分，将得到的更细粒度的字词作为输入序列；所述输入错误检测模块采用输入序列为单位，将用户已完成输入内容与当前输入内容进行比较。

优选的，所述的系统还可以包括第二修正模块，用于：当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时，采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分，将替换得到的输入序列作为用户词记录至用户词库。

与现有技术相比，本发明具有以下优点：

本发明提出的对用户词库的修正方案，可以更智能的记录用户输入信息，尽可能的避免对错误输入进行学词，减少在用户词库中的数据噪音。本发明尤其适用于用户工作于非编辑状态的情况，能够对已经输入完成，并不能编辑(如删除操作)的错误输入进行用户词库修正。

进一步，本发明还可以避免腾讯等现有方案的限制，不需要用户必须存在删除更改动作，也不需要用户必须在同一编辑位置进行。本发明可以基于用户当前输入内容和之前的已完成输入内容进行比较，智能判断是否可能是需要纠错的输入内容，从而对错误学词进行修正。本发明不需要对用户编辑行为做更多的限定，可以大大拓展词库修正的应用广度和深度，从而可以更好的减少在用户词库中的数据噪音，去除一些现有技术无法发现的数据噪音。

另外，本发明也不需要限定前后两次输入要有相同的编码，例如，具有相同的简拼编码(nh)的“你好”和“年号”本发明可以识别纠错，同时，对于编码不相同的“什么”和“神恶魔”，本发明也可以识别纠错。

再者，本发明可以对输入内容的片段进行识别和纠错，而不是必须对前后两个完整的输入内容进行比较，这样可以更广泛和准确的识别错误学词。

附图说明

图1是本发明一种修正用户词库的方法实施例的流程图；

图2是本发明另一种修正用户词库的方法实施例的流程图；

图3是本发明一种用户词库修正系统的实施例的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一种修正用户词库的方法实施例，具体可以包括：

步骤101、检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；

步骤102、如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。当然，某些情况下，对应部分也可以为已完成输入内容的全部。

当前输入内容和用户已完成输入内容通常都会涉及文字和编码两部分，因为用户需要通过输入编码才能上屏文字。

所述对用户词库的修正具体可以包括：基于纠错内容，在用户词库中确定待修正文字；对待修正文字的词频减一；或者，采用当前输入内容的文字替换待修正文字，将待修正文字的词频加到当前输入内容的文字的词频上。

需要说明的是，在本发明的实现方式中，步骤101可以同时检查两种情况(文字同而编码不同，或者编码同而文字不同)，当符合任一时，进行修正。在另外的实现方式中，步骤101也可以选择二者中的一个进行检查，例如仅检查第一种情况(编码同而文字不同)或者仅检查第二种情况(文字同而编码不同)，当符合时，对用户词库进行修正。

在输入法领域，无论是中文、日文、韩文还是其它语言的输入法，都是把用户的输入编码转换成相应语言的候选项，然后由用户来选择输出至应用程序的内容，这里输出至应用程序的内容也即上屏内容。

输入法系统(IME，Input Method Editor)是指计算机用户使用键盘、手写板等输入工具向计算机输入文字、符号的编辑工具。输入法使用一定编码规则，将用户输入序列(拼音序列、五笔、手写板输入等)转化为机器可处理的文字编码。输入法是用户，尤其非拼音文字(中文、日文、韩文等)用户进行计算机信息处理的入口程序。本发明这里涉及的输入法系统应是平台无关的，不具体到PC、无线或其他终端设备上的任一特定操作系统或平台。

在本发明的一种应用示例中，用户词库的记录可以包括：用户输入的已有字词及相应的属性参数；和/或，用户输入的自造字词及相应的属性参数。用户词库记录的数据存储结构可以表示为：

(词条：属性参数1；属性参数2；......；属性参数n)

其中，属性参数可以包括：最后记忆、词频信息、分类信息、级别或权重信息等等，通常最重要的就是词频信息。每次将上屏内容学入用户词库时，本发明都可以依据预置规则对用户词库进行自动更新，其中，所述预置规则可由用户设置。例如，将这个上屏内容作为相应输入编码的最后记忆进行存储，并且，判断用户词库中是否存在与这个上屏内容相同的词条，若是，则将用户词库中相应词条的词频加一，否则，将这个上屏内容作为新的词条添加到用户词库中。可以理解，本领域技术人员还可以根据需要，设计除最后记忆、词频信息、分类信息、级别或权重信息之外的属性参数。

在一种实现方式中，该用户进行之后的输入时，输入法系统首先会从用户词库中查找与输入编码相匹配的词条，如果能直接命中，则会将命中的候选项进行排序，其中，在排序的过程中，输入法系统会优先考虑该输入编码的最后记忆，然后进一步根据候选项的词频进行排序，词频高的候选项排在前面，词频低的排在后面。

参照图2，示出了本发明一种修正用户词库的方法实施例，具体可以包括：

步骤201、检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；

在用户的连续输入过程中，一旦通过上屏动作输出上屏内容，这些上屏内容都可被记录。例如：李纲|事件|过去|后(“|”表示用户上屏动作)，四次上屏内容都会被依次被记录。这些上屏内容就构成了用户已完成输入内容的文字部分。

优选的，所记录的已完成输入内容可以包括用户输入的字母序列，字母序列被输入法进行音字转换后的结果两列。

步骤202、如果满足，则依据预置条件，对当前输入内容和纠错内容进行筛选；其中，所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

步骤203、基于筛选通过的当前输入内容和纠错内容，对用户词库中的数据进行修正。

下面以一个具体的输入例子对本发明作进一步的说明。

用户a：你啥时候去的天坛？

用户b：我近台南去的

用户a：哦

用户b：我今天

在上面的例子中，用户b将“今天/jintian”错输为“近台南/jintain”。

当用户输入编码jintain，并进而将“近台南”错误上屏输出后，输入法系统将“近台南”学入用户词库，输入法会判断用户词库中是否存在“近台南”，若是，则将用户词库中“近台南”的词频加一，否则，将“近台南”作为新的词条添加到用户词库中。由于“近台南”并没有满足本发明的条件(之前没有编码相同或相近的输入内容)，因此，输入法可以直接学词，而不是采用修正的方式学词。在某些优选的用户学词过程中，还会将用户词库中输入编码“jintain”的最后记忆更新为“近台南”。

下次用户输入“jintain”时，会将候选项“近台南”排在前面。但是实际上，这个学词是不应该的，因为这是用户的一个错误输入。

对于本发明而言，当用户继续输入到“今天”时，本发明发现用户上屏的输入内容“今天”和之前已输入的“近台南”，二者的在输入编码(jintian，jintain)是相近的，而文字是不同的；因此，满足本发明的条件，可以启动对用户词库的修正操作。

此时，在具体实现中，可以记录当前输入内容和纠错内容(用户已完成输入内容的相应部分)，例如上面例子中的“今天”和“近台南”。为了方便说明，在下面的实施例中，我们将“当前输入内容和纠错内容”作为“纠错信息对”进行描述。

优选的，纠错信息对可以采用一个四元组来记录当前输入内容和纠错内容。比如如下四元组：(今天/jintian，近台南/jintain)，分别表示纠正的字母序列及上屏内容，以及错输的字母序列及上屏内容。当然，具体纠错信息对的记录方式和内容，本发明不需要加以限定，例如，还可以采用仅仅记录前后编码(jintian，jintain)或者前后文字(今天，近台南)的二元组等等。

进一步，本发明还可以对上面的纠错信息对进行筛选，筛选主要是判断当前输入内容是不是在较大概率上确实属于用户对纠错内容的纠正。例如，通常会考虑以下特征中的一个或者多个：纠错内容与当前输入内容输入频率的比值；纠错内容与当前输入内容的编辑距离；纠错内容与当前输入内容间相隔的其他输入句子数；纠错内容被当前用户输入的频率；当前输入内容被当前用户输入的频率；纠错内容被所有用户输入的频率；当前输入内容被所有用户输入的频率。

通过筛选，对认为上述纠错信息对(今天/jintian，近台南/jintain)属于应该修正的情况，则本发明对用户词库进行修正。具体的修正策略可以为：对在先文字(纠错内容的文字)的词频减一；或者，采用在后文字(当前输入内容的文字)替换在先文字(纠错内容的文字)，将在先文字(纠错内容的文字)的词频加到在后文字(当前输入内容的文字)的词频上。

例如，本发明将用户词库已经学词的“近台南”的词频减一，如果发现“近台南”的频率被减为0，则在用户词库中删除“近台南”。

或者，本发明也可以在用户词库内，采用“今天”对“近台南”进行全局替换，并将“近台南”的输入频率加到“今天”上，之后将词条“近台南”从用户词库内删除。

总之，本方案发现这两次输入中的输入编码jintian和jintain编辑距离为1，在预置范围内，因此可以将(近台南，今天)作为可能的纠错候选进行评判打分(同理也可以将(我近台南，我今天)作为可能的纠错候选对)，如果打分大于一定阈值就可以基于其对用户词库进行修正。即就可以在用户词库中删除“近台南”和“我近台南”这类的错输词条。在本发明的优选实施方式中，甚至可以删除jintain、wojintain这种原始输入对应的其他词条，例如，“金泰你”、“我今太牛”。因为基于本发明的智能筛选，可以确定出“金泰你”、“我今太牛”也是属于需要修正的错输词条。

当然，除了全拼之外，本发明对于简拼，五笔编码同样可以支持。

再例如，下面是用户a与用户b的一段IM聊天记录。

用户a：你的机器好了没？

用户b：昨天就号了

用户a：恩，那还行

用户b：好了

其中“好了”和“号了”都是已回车上屏的输入内容，发送到IM聊天会话中的文字。本方案能识别出在用户b的输入会话中，“好了”是用来纠正“号了”的正确拼写，将会记录“好了”为一次用户输入，而替代错误输入的“号了”。与现有技术有区别的地方在于，本方案能处理IM这种输入编码不可再编辑的场合。即本发明尤其适用于IM聊天会话、搜索请求这种无法对上文进行再修改的场合。

从前面的描述和示例可以看出，本发明适用的范围非常宽。用户前后输入的文字不一定要紧邻；输入字数不一定要求一致，可以是部分匹配；而输入的编码不限于全拼，还可以是简拼、五笔编码等；而输入编码也不一定要相同，可以是在一定编辑距离范围内的近似相同，因而具有更大的覆盖面，能够更多更好的发现对用户错误输入的学词，提高用户词库的学词准确性。

上面给出的实施例中，是基于输入编码相同(或相近)而文字不同，对用户词库进行的纠错，实际上是针对文字的纠错；而在实际应用中，本发明也可以基于文字相同而输入编码不同，对用户词库进行纠错，即可以实现针对输入编码的纠错(例如，对于错误读音的纠错)。

具体的，由于用户词库通常都是同时记录字词和编码串的，如果某个字是多音字，而用户不知道某个词的正确读音，在用错误的读音输入正确的字词后，用户词库会记录错误读音和正确字词以及二者的对应关系。但是实际上，这是一个错误记录，用户本身并不希望记录这样的配对，这对于以后输入也会带来麻烦。

因此，当后续用户采用正确的读音输入同样的字词时，本发明的输入法系统能够在判断其符合条件时(当前输入内容的文字和纠错内容的文字相同，但输入编码不同)，对用户词库中的输入编码进行纠错。

由于对用户词库中的文字进行纠错和对用户词库中的输入编码进行纠错，二者的技术原理和实现过程是基本相似的，因此，在本申请的说明书中，主要基于对用户词库中的文字进行纠错的实施例进行说明。

下面对本发明判断输入编码是否相近作详细的说明。

在本发明的实现中，可以通过以下方式判断输入编码是否相近：判断两个输入编码之间的编辑距离是否在一定范围内；所述编辑距离是指一个输入编码转变为另一个输入编码所需的编辑次数。

其中，编辑距离(Edit Distance)是指，将一个字符串转变为另一个字符串所需要的编辑开销。这里涉及的字符表可以是英语字母、汉字和/或标点符号等。编辑操作是指进行字符的插入、删除、替换或交换操作。编辑开销如全部定义为1，那么将zipo转变为zippo的编辑距离是1，将englsi转变为english的编辑距离是2，反过来也是如此。

输入编码相近是指两个输入编码在一定的编辑距离内，这里的编辑可以是插入、删除、替换、交换字母。如从dog变成fog，编辑距离为1；shenem变成shenme，编辑距离为1；shenem变成shenmo，编辑距离为2。

在本发明的一些实现中，可以将当前用户之前的已完成输入内容都记录一下，以便根据后续输入内容进行核对，看是否存在错误学词需要纠正的情况。而在本发明的优选实施例中，则可以对用户已完成输入内容进行选择，以提高筛选的精度和速度。

例如，本发明可以仅缓存用户在一个输入会话内的输入内容。因为在一个输入会话内，用户更正之前错误输入的可能性比较大，而用户在一个输入会话中去更正另外一个输入会话中错误输入的可能性很低，因此，为了提高精度和速度，本发明可以仅缓存用户在一个输入会话内的输入内容，当前输入内容仅与本输入会话内容的已完成输入内容进行比较核对。

具体的，所述一个输入会话为：在当前客户端上，由当前输入法账户进行的输入行为；和/或，输入法软件绑定到一个应用程序内的输入行为。换言之，在本发明的优选实施例中，一个输入会话可以是：

1)在当前机器上，由当前输入法账户输入(如果不与输入法账户绑定，即为当前的默认账户)；或者

2)输入法软件绑定到同一个程序内前后发生的输入行为。

满足以上条件之一或者全部的上下文场景称为一个输入会话。区分不同的输入会话，有助于提升本方案的的处理精度和效率。

用户词库数据的修正主要是用于：去掉之前记录的错误用户词，更正为对应的正确形式；同时更新用户词的其他信息，如输入频率，最后输入时间等。例如，在本发明的实施例中，通常采用的修正方式可以包括：基于纠错内容，在用户词库中确定待修正文字；对待修正文字的词频减一；或者，采用当前输入内容的文字替换待修正文字，将待修正文字的词频加到当前输入内容的文字的词频上。

上文中，前者属于温和的情况，见到一个错输的，修正一次。后者属于极端情况，比如对于那些之前没有应用本方案的错误学词，在这次发现错输的情况下，趁这个机会把历史遗留下来的错误给一并纠正了。

当然，实际中，还可能采用其他各种修正的方式对用户词库进行修正。同时也可能对用户词库中的其他信息进行修正，总之，本发明的核心改进在于对错误信息的更好的发现，而对于具体如何修正(对错误信息的应用)并不需要加以限制，本领域技术人员依据实际需要选用即可。

下面对本发明具体依据预置条件，筛选当前输入内容和纠错内容的过程加以详细介绍。

具体筛选过程可以包括：基于当前输入内容和纠错内容以下特征中的一个或者多个进行评判，当评判结果大于一预设阈值时，则筛选通过；所述特征包括但不限于：

纠错内容与当前输入内容输入频率的比值；

纠错内容与当前输入内容的编辑距离；

纠错内容与当前输入内容间相隔的其他输入句子数；

纠错内容被当前用户输入的频率；

当前输入内容被当前用户输入的频率；

纠错内容被所有用户输入的频率；

当前输入内容被所有用户输入的频率。

对于上述特征的评判过程中，由于纠错内容与当前输入内容通常都涉及文字和编码，可以二者都采用，也可以基于特征的不同，着重采用文字或者着重采用编码，例如，对于编辑距离的比较，通常主要采用编码，而对于输入频率的比较，通常主要采用文字。

具体实现中，对形如(A，B)打分的依据有很多，参见表1列出的打分评判特征模板，其中，A为纠错内容，B为当前输入内容。当然，如果前后的输入编码不相同而是相近，那么A和B可以是输入编码，也可以是上屏的汉字。

表1：打分评判特征模板

其中，打分方法可以是机器学习的判别模型，也可以是规则模型，在这里不做限定。基于上面给出的这些特征，逐项评判后可以得到一个总体的评判结果，当评判结果大于一定阈值时，本发明中认为当前输入内容B是对纠错内容A的纠正。则就可以基于其对用户词库进行修正，以纠正前次学词的错误。

实际上，对纠错内容A和当前输入内容B进行评判的方法还有很多，上面仅仅是列出了经常用到的一些因素，在具体评判时可以采用上述因素中的一个或者多个，也可以引入上面未列出的其他因素。

由于所存储的已完成输入内容可能有很多，而用户输入话题的连贯性决定了只有在一定范围内纠正之前的错误输入才有意义，同时这也是出于对性能的考虑，所以本发明引入“滑动窗口”概念，作为确定用户已完成输入内容的依据。对当前用户的输入句，考虑距离该用户输入这句之前的N句的输入作为该句的上下文(用于检查核对的已完成输入内容)。这里N即为滑动窗口的大小。当然，也可以采用距离当前字词之前N个字词的输入作为用于检查核对的已完成输入内容。概括就是，所述用于与当前输入内容进行比较的用户已完成输入内容，最远距离当前输入内容N句或者N个字词。

下面以拼音输入为例说明如何对当前输入进行检查核对，以获得纠错信息对(四元组)。

1、在滑动窗口范围内查看是否有与当前输入的拼音串完全匹配的句子。如是且汉字不同，则抽取这个四元组作为候选。

2、在滑动窗口范围内查看是否有与当前输入的拼音串部分匹配的句子，条件为前后输入编码在一定编辑距离范围内，音节数在一定范围内，且输入汉字不同。满足则生成该候选。

策略上，1、2可以互斥，即满足1就不考虑2了；也可以同时处理。

这里的部分匹配，可以是窗口内句子的一部分，也可以是用户一次上屏字词的其中一部分。比如表2中weishenme，就能匹配上一句yiweishenema中的“weishenem”部分。这里的部分匹配要同时考虑拼音边界和编辑距离，即不能将汉字对应音节拆分开进行匹配。匹配的方法可以是把当前完整拼音串拿去跟前文匹配；也可以是先进行拼音切分，然后逐字查找。

举例来说，限定全局编辑距离为2，音节数差异为3。对于当前输入weishenme，拼音切分结果是wei’shen’me，首先找到窗口内与wei近似匹配的句子，如weishenem中的wei，weigongcun中的wei、wuyiweibao中的wu。Wu与wei编辑距离为2，下面的匹配的编辑距离必须为0，否则就不满足约束了。接下来匹配shen音节，weigongcun和wuyiweibao不满足，过滤掉。以此类推，最后weishenem与weishenme的全局编辑距离为1，音节数相差2，符合条件，作为候选选出。

当然这种通盘查找比较占用计算资源，所以可以用一些启发式规则来加速这个过程。比如一般可以认定如果上文有错，那通常错误发生在靠近句子后面结束的位置，因此，为了节省资源，在检查核对时，优先从靠近结束的位置开始。再例如，为了节省资源，本申请的实施例还可以在检查核对时，限定要求第一个汉字的拼音与生成候选的拼音必须一致等等。总之，本发明对与节省资源的一些优化措施无需加以限制。

在本发明的实施例中，用于对当前输入内容进行检查核对的已完成输入内容可以整体进行比对，也可以基于每次用户输入上屏的一次完整内容(较粗的输入序列)进行比对，还可以将其拆分成更细粒度的输入序列进行比对(例如，所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间所划分的更细粒度的词句)。即优选的，本发明还可以记录这些已完成输入内容是如何被用户逐字逐词输入的。

比如用户在编辑框内输入“nijintianpaobumeiyou”，输入法给出候选“你今天跑步没有”，上屏。这是可以被记录的完整内容。

而其实一般用户在输入过程中在自然的词边界之间是有些许停顿的，在这个例子就可以是先输入ni，然后停顿下，输入jintian，然后再停顿下输入paobu，最后再输入meiyou。则本发明优选的就是记录这些更细粒度的信息，即用户的输入停顿所划分出的自然词。这些信息同样可以分为(输入字母序列，输入字母序列被输入法音字转换的结果)两列。这样可记录用户输入的词边界信息，有助于进一步提升本方法的精度。但需要说明的是，这一优选实现方式是可选的。

用户在输入过程中的停顿从时间上判断即可。输入法捕捉用户敲击键盘的事件，如果超过预定时间间隔则认为此处有用户主观确定的词边界。

表2：两种输入解析比较

如果采用整体上屏内容的方式，在B输入“为什么”的时候，会对该用户全文进行检索。从“为什么”的首字母音节开始，根据汉字简拼发现很多发音相同或相近的已输入编码或已上屏结果。首先从首字母音节开始，找到表2示例里的“魏公村下”、“咦为神恶魔啊”与为什么的“wei”存在同音(要达到更好的覆盖率，可以同时考虑与首字音节相近的)。然后查看这些候选对的输入编码的编辑距离是否在给定的范围内，否则从左右两边的某边砍掉一个汉字(相应的砍掉输入编码的音节)，直到编辑距离符合要求，或者字被减完为止。

如果采用更细粒度的方式，则在这个例子上，我们记录了用户的输入背景，所以可以生成更细粒度的候选。比如我们根据表2右列，可以知道魏公村和神恶魔前后有词边界，生成(weigongcun，魏公村，weishenme，为什么)、(weishenem，为神恶魔，weishenme，为什么)两个候选。经编辑距离判断可过滤掉第一个候选。这个时候就不用将用户输入的整句作为一个候选并进行拆字的判断了，可以大大提高检错的性能。

再例如，下面是用户a与用户b的另一段IM聊天记录。

用户a：今天去了没？

用户b：我排到号了

用户a：哇哇哇，恭喜了

用户b：好了，我先下了，再聊哈

在这段用户输入中，本方案不会将“好了”替换掉前文“我排到号了”的“号了”，因为基于用户停顿时间所提供的用户输入序列信息，用户b的输入序列对应的汉字串是“我/排到号/了”，这样就可以知道“号了”并不是该用户输入的一个合法片段。从这里可以看出，更细粒度的输入序列有助于提升本发明的判断精度和性能。

下面请看另一个例子，用户在聊天时输入“叫/金克拉/的/钾肥”，回车发送消息后发现输错了，于是又发送“坷垃”的补充信息。本方案可以识别出来“坷垃”是替换前文输入的“克拉”。

进一步可以扩展的是，基于本发明前述对于用户已完成输入内容细粒度划分的输入序列，可以得知/金克拉/这个三字的片段本身也是一个有意义(至少对该用户而言)的词，因此，也可以将“金坷垃”记录入用户词库。

也就是说，更优选的修正实施例中，还可以包括：当所述纠错内容所属的输入序列(如“金克拉”)的文字字数(3个)比所述纠错内容(如“克拉”)的字数(2个)多时，采用当前输入内容的文字(如“坷垃”)替换该输入序列中所述纠错内容(如“克拉”)的对应部分，将替换得到的输入序列(如“金坷垃”)作为用户词记录至用户词库。

参照图3，示出了本发明一种用户词库修正系统的实施例，具体可以包括：

输入错误检测模块301，用于检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；

用户词管理模块302，用于当满足条件时，基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

本领域技术人员易于得知，可以采用的修正方式多种多样，可以修正的信息也有多种，下面仅给出本发明的一个示例：所述修正可以直接对在先文字的词频减一；也可以采用在后文字替换在先文字，将在先文字的词频加到在后文字的词频上。

优选的，图3所示的用户词库修正系统可以设置在输入法系统，也可以设置在输入法系统之外。即本发明的用户词库修正系统可以用于对自己输入法系统的用户词库的改进，也可以用于对其他输入法系统用户词库的改进。

进一步，图3所示的用户词库修正系统还可以包括输入内容管理模块303，用于缓存用户在一个输入会话内的输入内容。当然，该输入内容管理模块303可以位于输入法系统中，也可以位于输入法系统之外。当本发明的用户词库修正系统对当前输入内容进行检查核对时，直接调取其所缓存的已完成输入内容即可。

优选的是，输入内容管理模块303可以用于基于用户输入过程中敲击键盘事件的停顿时间，对用户输入上屏的一次完整内容进行划分，将得到的更细粒度的字词作为输入序列；所述输入错误检测模块301采用输入序列为单位，将用户已完成输入内容与当前输入内容进行比较。

或者，输入内容管理模块303也可以用于基于拼音边界对用户已完成输入内容进行切分，将得到的更细粒度的字词作为输入序列；所述输入错误检测模块301采用输入序列为单位，将用户已完成输入内容与当前输入内容进行比较。

当然，上述划分输入序列的工作也可以由独立于输入内容管理模块303之外的其他模块完成，进而将划分结果存储至输入内容管理模块303即可。

优选的，所述用户已完成输入内容为：用户在一个输入会话内的已完成输入内容。其中，所述一个输入会话在具体实现时可以确定为：在当前客户端上，由当前输入法账户进行的输入行为；和/或，输入法软件绑定到一个应用程序内的输入行为。由于对此在前述实施例中已经详细描述了，因此，在此不再赘述。当然，也可以采取其他范围的限定，上面仅用于示例。

在本发明的优选实现中，所述输入错误检测模块301通过以下方式判断输入编码是否相近：判断两个输入编码之间的编辑距离是否在一定范围内。通常的，所述编辑距离是指一个输入编码转变为另一个输入编码所需的编辑次数。

当然，在另外一些实现中，所述输入错误检测模块也可以通过其他的编码字母序列比对来判断是否相近，具体规则可以依据实际应用的需要由本领域技术人员确定即可。

在本发明的另一优选实施例中，图3所示的用户词库修正系统还可以包括用于对当前输入内容和纠错内容进行筛选的候选筛选模块304；所述用户词管理模块采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。具体的，所述候选筛选模块可以基于以下特征中的一个或者多个进行评判，当评判结果大于一预设阈值时，则筛选通过；所述特征包括但不限于：纠错内容与当前输入内容输入频率的比值；纠错内容与当前输入内容的编辑距离；纠错内容与当前输入内容间相隔的其他输入句子数；纠错内容被当前用户输入的频率；当前输入内容被当前用户输入的频率；纠错内容被所有用户输入的频率；当前输入内容被所有用户输入的频率。

所述候选筛选模块304用预制规则模型的方式或者预制判别模型的方式实现。具体评判的规则可以可以依据实际应用的需要由本领域技术人员确定即可，本发明在此仅仅给出一个示例。

为了避免对不相关内容执行检查核对操作，在本发明优选实施例中，所述用于与当前输入内容进行比较的用户已完成输入内容，最远距离当前输入内容N句或者N个字词。即当前输入内容仅与距离当前一定范围内的已完成输入内容进行核对。

进一步优选的是，图3所示的系统实施例还可以包括第二修正模块，用于：当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时，采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分，将替换得到的输入序列作为用户词记录至用户词库。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本发明所提供的一种修正用户词库的方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种修正用户词库的方法，其特征在于，包括：

检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，在输入编码上相同或相近，而文字不同；和/或，检查当前输入内容是否与用户已完成输入内容的全部或者其一部分，文字相同而输入编码不同；

如果满足条件，则基于当前输入内容和纠错内容，对用户词库中的数据进行修正；所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。

2.如权利要求1所述的方法，其特征在于，所述用户已完成输入内容为：

用户在一个输入会话内的已完成输入内容。

3.如权利要求2所述的方法，其特征在于，所述一个输入会话为：

在当前客户端上，由当前输入法账户进行的输入行为；

和/或，输入法软件绑定到一个应用程序内的输入行为。

4.如权利要求1所述的方法，其特征在于，通过以下方式判断输入编码是否相近：

判断两个输入编码之间的编辑距离是否在一定范围内。

5.如权利要求1所述的方法，其特征在于，当满足条件时，还包括筛选步骤，采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。

6.如权利要求5所述的方法，其特征在于，所述筛选步骤具体包括：

基于以下特征中的一个或者多个进行评判，当评判结果大于一预设阈值时，则筛选通过；所述特征包括但不限于：

纠错内容与当前输入内容输入频率的比值；

纠错内容与当前输入内容的编辑距离；

纠错内容与当前输入内容间相隔的其他输入句子数；

纠错内容被当前用户输入的频率；

当前输入内容被当前用户输入的频率；

纠错内容被所有用户输入的频率；

当前输入内容被所有用户输入的频率。

7.如权利要求1至6任意一项所述的方法，其特征在于，所述对用户词库的修正包括：

基于纠错内容，在用户词库中确定待修正文字；

对待修正文字的词频减一；

或者，采用当前输入内容的文字替换待修正文字，将待修正文字的词频加到当前输入内容的文字的词频上。

8.如权利要求1至6任意一项所述的方法，其特征在于，所述用于与当前输入内容进行比较的用户已完成输入内容，最远距离当前输入内容N句或者N个字词。

9.如权利要求1至6任意一项所述的方法，其特征在于，所述与当前输入内容进行比较的用户已完成输入内容的单位为输入序列；

所述输入序列为用户输入上屏的一次完整内容；或者，所述输入序列为基于用户输入过程中敲击键盘事件的停顿时间，对用户输入上屏的一次完整内容进行划分所得的更细粒度的字词；或者，所述输入序列为基于拼音边界对用户已完成输入内容进行切分得到的字词。

10.如权利要求9所述的方法，其特征在于，基于当前输入内容和纠错内容，对用户词库中的数据进行修正后，还包括：

当所述纠错内容所属的输入序列的文字字数比所述纠错内容的字数多时，采用当前输入内容的文字替换该输入序列中所述纠错内容的对应部分，将替换得到的输入序列作为用户词记录至用户词库。

11.一种用户词库修正系统，其特征在于，包括：

12.如权利要求11所述的系统，其特征在于，所述用户已完成输入内容为：用户在一个输入会话内的已完成输入内容。

13.如权利要求12所述的系统，其特征在于，所述一个输入会话为：

在当前客户端上，由当前输入法账户进行的输入行为；

和/或，输入法软件绑定到一个应用程序内的输入行为。

14.如权利要求11所述的系统，其特征在于，所述输入错误检测模块通过以下方式判断输入编码是否相近：判断两个输入编码之间的编辑距离是否在一定范围内。

15.如权利要求11所述的系统，其特征在于，还包括用于对当前输入内容和纠错内容进行筛选的候选筛选模块；所述用户词管理模块采用通过筛选的当前输入内容和纠错内容对用户词库中的数据进行修正。

16.如权利要求15所述的系统，其特征在于，所述候选筛选模块具体用于：

纠错内容与当前输入内容输入频率的比值；

纠错内容与当前输入内容的编辑距离；

纠错内容与当前输入内容间相隔的其他输入句子数；

纠错内容被当前用户输入的频率；

当前输入内容被当前用户输入的频率；

纠错内容被所有用户输入的频率；

当前输入内容被所有用户输入的频率。

17.如权利要求11至16任意一项所述的系统，其特征在于，所述用于与当前输入内容进行比较的用户已完成输入内容，最远距离当前输入内容N句或者N个字词。

18.如权利要求11至16任意一项所述的系统，其特征在于，还包括输入内容管理模块：

用于基于用户输入过程中敲击键盘事件的停顿时间，对用户输入上屏的一次完整内容进行划分，将得到的更细粒度的字词作为输入序列；

或者，用于基于拼音边界对用户已完成输入内容进行切分，将得到的更细粒度的字词作为输入序列；

所述输入错误检测模块采用输入序列为单位，将用户已完成输入内容与当前输入内容进行比较。

19.如权利要求18所述的系统，其特征在于，还包括第二修正模块，用于：