CN101241514B

CN101241514B - 一种生成纠错数据库的方法、自动纠错的方法和系统

Info

Publication number: CN101241514B
Application number: CN200810102471.8A
Authority: CN
Inventors: 苏雪峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2008-03-21
Filing date: 2008-03-21
Publication date: 2014-11-05
Anticipated expiration: 2028-03-21
Also published as: CN101241514A

Abstract

本发明提供了一种生成纠错数据库的方法和装置以及一种自动纠错的方法和系统。所述生成纠错数据库的方法可以包括以下步骤：收集日志信息，所述日志信息包括用户的输入历史记录；利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；存储所述字符纠错关系，得到纠错数据库。本发明通过记录和收集包括有用户输入过程信息的日志，从中将用户手动纠错的信息挖掘出来，生成纠错数据库，以用于实现对更多用户更准确的自动纠错，还可以用于实现对该用户的个性化自动纠错。由于本发明所应用的纠错信息是从包括有用户输入过程信息的日志中得到的，相对于计算机的分析查错而言，本发明更符合用户需求，更为准确。

Description

一种生成纠错数据库的方法、自动纠错的方法和系统

技术领域

本发明涉及计算机字符处理的技术领域，特别是涉及一种生成针对字符数据的纠错数据库的方法和装置，以及一种自动纠错的方法和系统。

背景技术

目前随着互联网技术应用的越来越广泛，人们很多的日常工作和娱乐都在网络上进行，用户越来越频繁的需要通过计算机输入信息而完成人机交互。但是用户在很多情况下有可能输入了错误信息，需要进行纠错。例如，由于碰触了其他的键盘按键而导致输入错误；由于记忆不准确而导致输入错误(包括中文字符输入和英文字符输入)等等。

传统的拼写校正研究早在上个世纪中叶就已开始，但主要是针对文本处理的，给出的建议也往往不只一个，现在的典型应用包括Microsoft Word里的纠错模块等等。但是目前的大部分研究都是基于英文的，英文查询纠错研究主要基于噪音信道模型和一些判别训练模型，使用到的特征包括编辑距离、发音相似度、各种词典资源、语言模型等信息。

随着技术发展，现有技术也出现了一些针对中文拼写校正的自动纠错的解决方案。例如，《基于特征与学习的中文文本自动校对方法》(张磊，周明，黄昌宁，鲁明羽；第3届中文智能控制及智能自动化会议论文集)等。由于汉字不是拼音文字，电子文档中汉字的拼写错误主要是由于音近(如“按步就班”中的“步”应为“部”)、形近(如“人”和“入”)、意近(如“既往不究”中的“究”应为“咎”)、输入法的键盘输入序列引起的。上述系统主要是针对混淆集中的单词在上下文搭配上引起的错误，采用歧义消解的思路进行校正。

再例如，Google公司所申请的名称为“用于非罗马字符和字的拼写校正系统和方法”，公开号为“CN 101002198A”的中国专利，也公开了一种使用基于规则的分类器和隐马尔可夫模型，通过中间语言的变换来处理和校正非罗马字符的拼写错误。

但是现有的各种自动纠错方案主要都是依据预置模型、简单语法分析或者简单词语比对等方式进行的，其存在一定的局限性，准确性无法保证；并且，英文(中文)纠错的解决方案一般并不能直接应用在中文(英文)纠错中，解决方案的适用性较差。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够创造性的提出一种能够满足对多种语言字符进行自动纠错，并且覆盖面和准确度都较高的自动纠错解决方案。

发明内容

本发明所要解决的技术问题是提供一种能够满足对多种语言字符进行自动纠错，并且覆盖面和准确度都较高的自动纠错解决方案。

相应的，本发明还提供了一种生成可用于上述自动纠错过程的纠错数据库的方法和装置。

为了解决上述问题，本发明公开了一种生成纠错数据库的方法，可以包括：收集日志信息，所述日志信息包括用户的输入历史记录；利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；其中，所述输入历史记录包括用户手动纠错的信息，所述用户手动纠错的信息包括用户的删除操作信息和/或用户输入时所采用的编码-候选项变换方式信息，所述序列信息包括输入的前后顺序、相邻关系和/或输入时间；存储所述字符纠错关系，得到纠错数据库。

优选的，所述日志信息包括查询日志，所述查询日志包括用户查询关键词的输入历史记录，则采用以下的分析挖掘步骤，获取字符纠错关系：判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件，如果是，则确定该相邻关键词字符串属于字符纠错关系。

优选的，所述输入历史记录包括用户输入的编码字符串及相应的输入候选项，则采用以下的分析挖掘步骤，获取字符纠错关系：查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。优选的，还可以包括：将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。优选的，还可以包括：将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入候选项的过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的。优选的，还可以包括：将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式，则采用以下的分析挖掘步骤，获取字符纠错关系：如果所述输入历史记录包括：第一编码字符串-第二编码字符串-候选项，并且第一编码字符串和第二编码字符串属于不同的编码变换方式；则获取该候选项在第一编码变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。优选的，还可以包括：将所述候选项也纳入所述字符纠错关系中。

优选的，所述方法在确定字符纠错关系之前还包括：判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔，是否符合预置条件，如果是，则再作进一步判断。

优选的，所述方法在最终确定字符纠错关系之前还包括：判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离，如果是，则认可该字符纠错关系；或者，判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离，如果是，则认可该字符纠错关系。

优选的，所述还可以进一步包括：在各个用户的日志信息中统计所述字符纠错关系的出现次数，如果其出现次数大于一定阈值，则确定所述字符纠错关系为通用字符纠错关系，生成通用纠错数据库。

依据本发明的另一优选实施例，还公开了一种自动纠错的方法，可以包括：收集日志信息，所述日志信息包括用户的输入历史记录；利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；其中，所述输入历史记录包括用户手动纠错的信息，所述用户手动纠错的信息包括用户的删除操作信息和/或用户输入时所采用的编码-候选项变换方式信息，所述序列信息包括输入的前后顺序、相邻关系和/或输入时间；接收用户输入信息；依据所述字符纠错关系，向用户返回纠错提示信息。

优选的，所述输入历史记录包括用户输入的编码字符串及相应的输入候选项，则采用以下的分析挖掘步骤，获取字符纠错关系：查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入候选项的过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式，则采用以下的分析挖掘步骤，获取字符纠错关系：如果所述输入历史记录存在：第一编码字符串-第二编码字符串-候选项，并且第一编码字符串和第二编码字符串属于不同的编码变换方式；则获取该候选项在第一编码变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。

优选的，在最终确定字符纠错关系之前还可以包括：判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离，如果是，则认可该字符纠错关系；或者，判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离，如果是，则认可该字符纠错关系。

优选的，所述纠错提示信息包括：符合字符纠错关系的正确编码字符串及其相应的候选项；或者，符合字符纠错关系的正确编码字符串的相应候选项；或者，符合字符纠错关系的正确编码字符串；或者，符合字符纠错关系的候选项及其相应的编码字符串；或者，符合字符纠错关系的候选项的相应编码字符串；或者，符合字符纠错关系的候选项字符串。

依据本发明的另一优选实施例，还公开了一种自动纠错的系统，可以包括：

日志收集单元，用于收集日志信息，所述日志信息包括用户的输入历史记录；

纠错挖掘单元，用于利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；其中，所述输入历史记录包括用户手动纠错的信息，所述用户手动纠错的信息包括用户的删除操作信息和/或用户输入时所采用的编码-候选项变换方式信息，所述序列信息包括输入的前后顺序、相邻关系和/或输入时间；

接口单元，用于接收用户输入信息；

纠错单元，用于依据所述字符纠错关系，向用户返回纠错提示信息。

优选的，所述日志信息包括查询日志，所述查询日志包括用户查询关键词的输入历史记录，则所述纠错挖掘单元采用以下方式获取字符纠错关系：判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件，如果是，则确定该相邻关键词字符串属于字符纠错关系。

优选的，所述输入历史记录包括用户输入的编码字符串及相应的输入候选项，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找用户在输入候选项的过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的。

优选的，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式，则所述纠错挖掘单元采用以下方式获取字符纠错关系：如果所述输入历史记录存在：第一编码字符串-第二编码字符串-候选项，并且第一编码字符串和第二编码字符串属于不同的编码变换方式；则获取该候选项在第一编码变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。

优选的，上述系统还可以包括：时间间隔判断单元，用于判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔，是否符合预置条件，如果是，则再作进一步判断。

优选的，上述系统还可以包括：相近原则判断单元，用于判断所述初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离，如果是，则最终确定该字符纠错关系；或者，相近原则判断单元，用于判断所述初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离，如果是，则最终确定该字符纠错关系。

依据本发明的另一实施例，还公开了一种生成纠错数据库的装置，包括：

数据库生成单元，用于存储所述字符纠错关系，得到纠错数据库。

与现有技术相比，本发明具有以下优点：

本发明通过记录和收集包括有用户输入过程信息的日志，从中将用户手动纠错的信息挖掘出来，生成纠错数据库，以用于实现对更多用户更准确的自动纠错，还可以用于实现对该用户的个性化自动纠错。

由于本发明所应用的纠错信息是从包括有用户输入过程信息的日志中得到的，而该信息可以反映用户手动纠错的信息，相对于计算机的分析查错而言，用户手动纠错更符合用户需求，更为准确。

其次，由于本发明是基于用户的输入历史记录得到的，具体分析的是用户手动纠错的过程，而无需关心其具体字符的形式，所以本发明可以同时适用在如中英文这样的非罗马字符和罗马字符纠错过程中，适用面很广。并且，由于本发明的纠错信息是直接从用户日志中分析得到的，会得到一些采用预置模型等方式无法知悉的纠错关系，因此，本发明针对纠错的覆盖面更广，能够校正更多类型的输入错误。

附图说明

图1是本发明一种生成纠错数据库的方法实施例的步骤流程图；

图2是本发明一种自动纠错的方法实施例的步骤流程图；

图3是本发明一种自动纠错的系统实施例的结构框图；

图4是本发明一种生成纠错数据库的装置实施例的结构框图；

图5是本发明一种同时应用于输入领域和搜索领域的自动纠错系统实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参照图1，示出了本发明一种生成纠错数据库的方法实施例，包括以下步骤：

步骤101、收集日志信息，所述日志信息包括用户的输入历史记录；

步骤102、利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；本发明所述的字符可以包括编码字符串、候选项(如字、词、短语)等；

步骤103、存储所述字符纠错关系，得到纠错数据库。

一般的，不管是中文输入还是英文输入，用户在使用输入法(包括拼音、五笔等各类输入法)的过程中，经常会出现输入错误的情况，其中输入错误的类型大致可以分为输入码序列多、少、错等三种情况。例如，

多：用户多敲了按键、用户码型记错了、用户模糊音区分不清等；

少：用户少敲了按键、用户码型记错了、用户模糊音区分不清等；

错：用户敲错了按键、用户码型记错了、用户模糊音区分不清等；

然而，用户在输入错误的情况下，一般能够根据输入法软件的返回结果，意识到自己的输入错误，并且大部分情况下，用户能够在紧接着下一次输入中输入正确的输入码。即用户在输入的过程中就存在很多的手动纠错的信息，这样，我们就有可能根据大规模的用户输入历史记录，从中训练学习出错误码和正确码之间的对应关系，进而生成纠错数据库，帮助纠错过程。而一般的，用户都会在紧邻错误码的位置点和时间点上输入正确码，因此，利用用户输入历史记录中的序列信息，可以较好的得到所需的字符纠错关系。

对于图1所示实施例得到的纠错数据库，可以为由某个用户的日志信息中分析挖掘得到的针对该用户的个性化纠错数据库，也可以为由大量用户的日志信息统计、分析、挖掘得到的针对大部分用户的通用纠错数据库。

本发明所需的包括用户输入历史记录信息的日志，可以为输入法日志，也可以为查询日志，本发明并不需要对具体的日志形式加以限定。本发明的输入历史记录可以包括中文、日文、英文等等，故纠错数据库也可以应用在中文、日文、英文等语言输入中。总的来说，由于用户手动纠错是和具体语言无关的，因此，本发明从理论上而言，可以应用在各种语言环境中。在本发明的说明书优选采用中文字词为例进行说明，其他语言可以参照理解。

在上述技术核心构思的指导下，利用输入历史记录的序列信息，可以采用各种可行的分析挖掘步骤或者其组合。所述的序列信息可以包括输入的前后顺序、相邻关系、输入时间等各种因素。下面给出几个具体的实施例，以作说明。

实施例1

本实施例以查询日志作为数据源为例进行说明，一般的，所述查询日志可以由搜索引擎记录得到，通过IP地址或者用户登录名将各个用户的查询记录分开；当然，所述查询记录也可以由本地客户端记录，然后汇集起来。

所述查询日志一般可以包括用户查询关键词的输入历史记录，例如，

10.10.1.1上海2008-02-25.09:00:00

10.10.1.1搏斗2008-02-25.12:00:00

10.10.1.1博斗2008-02-25.12:00:09

192.10.1.1搏斗2008-02-23.13:00:00

192.10.1.1博斗2008-02-23.13:00:05

192.10.1.1南京2008-02-23.15:00:05

上述日志信息中的每一行表示一个用户查询串，一行记录中包括有如下信息：用户标识(例如，帐号、昵称、IP等等，一般可以用来唯一表示一个用户)，用户输入的查询关键词，行为发生时间。由于一般用户的查询关键词输入时间和执行查询的时间比较接近，因此，在本发明的分析挖掘中可以将二者同一看待。

当收集到如上的日志信息之后，可以采用以下的分析挖掘步骤，获取字符纠错关系：判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件，如果是，则确定该相邻关键词字符串属于字符纠错关系。本发明所述的“相邻”并不限于仅仅表示两个相邻，而可以表示多个相邻。

假设预置条件为输入时间间隔小于10秒，则可以发现，对于用户10.10.1.1而言，历史记录“上海2008-02-25.09:00:00”和下一条输入记录相隔3小时，因此过滤掉。同样原理可以将“192.10.1.1南京2008-02-23.15:00:05”也过滤掉。这样，对于用户“10.10.1.1”生成了一条“搏斗”->“博斗”的相邻关系对，对于“192.10.1.1”用户也生成一条“搏斗”->“博斗”的相邻关系。其中，“博斗”一词为新词，用于表示博客争斗的意思。

即得到的字符纠错关系如下：

10.10.1.1“搏斗”->“博斗”

192.10.1.1“搏斗”->“博斗”

优选的，在最终确定上述字符纠错关系之前，还可以判断两个串之间的相似度或者编辑距离是否满足一定条件，如果是，则认可上述字符纠错关系。因为在某些情况下，用户是可能在短时间内先后输入两个查询关键词，但是如果考虑了两个串之间的相似度或者编辑距离，则属于纠错行为的可能性就大大增加了，因此，本优选步骤可以增加本发明对纠错关系确定的准确性。

相似度一般是指两个串之间存在编码相似(如音似)、字形相似、字义相似等等。编辑距离是计算文本相似度的一种方法。编辑距离定义为，一个词变成另一个词所需要添加、删除、替换字符操作的次数。编辑距离越小的词，其纠错的可能性就越大。

本发明可以将上述纠错关系发送至相应用户，以实现针对该用户的个性化纠错功能；当然，也可以进一步统计在各个用户中所述字符纠错关系“搏斗”->“博斗”的出现次数，如果其出现次数大于一定阈值，则确定所述字符纠错关系为通用字符纠错关系，生成通用纠错数据库。

实施例2

本实施例以用户的输入法日志信息为例进行说明。所述输入法日志信息可以包括用户输入的编码字符串及相应的输入候选项，在本实施例中可以利用用户输入序列信息挖掘获取所需的字符纠错关系，如下：

查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。

对于用户的输入历史记录，输入法日志可以记录信息“用户标识-编码字符串-输入候选项”，当然，其中的“用户标识”属于可选记录字段。在用户手动纠错的情况下，输入法日志可能记录信息“用户标识-编码字符串-编码字符串-输入候选项”，甚至“用户标识-编码字符串-编码字符串-编码字符串-输入候选项”等。

为了简便说明，以前者为例，用户先输入“gulou”，发现没有所需的候选项，则重新输入“goulou”，得到所需的候选项“佝偻”，完成一次完整的输入。输入法日志记录信息为“用户标识-gulou-goulou-佝偻”。由于一般情况下，用户正常输入时不会出现两个编码字符串(严格意义上应该具体指相似的编码字符串)紧邻出现的情况，典型的就是因为用户手动纠错而出现的，因此，当出现编码字符串紧邻的情况时，可以确定该相邻编码字符串属于字符纠错关系，如：“gulou->goulou”，并可以确定最后一个用于输入候选项的编码字符串“goulou”是正确的。优选的，在最终确定上述字符纠错关系之前，还可以判断两个串之间的相似度或者编辑距离是否满足一定条件，如果是，则认可上述字符纠错关系。

优选的，为了能够向用户提供更多的纠错信息，上述实施例2还可以包括：将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。即形成字符纠错关系：“gulou->goulou->佝偻”，以便在纠错提示中直接向用户提供候选项“佝偻”。

实施例3

本实施例以输入法日志为例进行说明，与实施例2的区别在于，本实施例的输入法日志还记录有用户的相关删除操作，例如退格键、delete键、Esc键，替换操作等等。其中，替换操作可以看出是删除操作和重新输入操作的结合。

由于一般情况下，用户正常输入时不会采用删除操作，一个典型情况就是因为用户手动纠错而出现的，因此，当在用户的输入记录中出现了删除操作，则可以确定此处存在用户手动纠错的信息。本实施例可以采用以下的分析挖掘步骤，获取字符纠错关系：

查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。

对于用户的输入历史记录，输入法日志可以记录信息“用户标识-编码字符串-输入候选项”，当然，其中的“用户标识”属于可选记录字段。在用户手动纠错的情况下，输入法日志可能记录信息“用户标识-编码字符串-删除操作-编码字符串-输入候选项”。

例如，用户先输入“shanhai”，发现没有所需的候选项，则删除“hai”，并继续输入“ghai”，得到编码字符串“shanghai”，进而选择所需的候选项“上海”，完成一次完整的输入。从所记录的信息“用户标识-shanhai-删除操作-shanghai-上海”，可以分析得知，与删除操作相邻的两个编码字符串属于字符纠错关系：“shanhai”->“shanghai”，并可以确定最后一个用于输入候选项的编码字符串“shanghai”是正确的。

需要说明的是，本实施例中“与所述删除操作相邻的编码字符串”中的“相邻”还包括如下类似的历史记录：“用户标识-shanhai-山海-删除操作-shanghai-上海”；即用户确定候选项上屏后(例如习惯性按空格键确认)才发现不对，然后将候选项删除，重新输入编码字符串“shanghai”，进而选择所需的候选项“上海”，完成一次完整的输入。可以分析得知，与删除操作相邻的两个编码字符串属于字符纠错关系：“shanhai”->“shanghai”。

优选的，在最终确定上述字符纠错关系之前，还可以判断两个串之间的相似度或者编辑距离是否满足一定条件，如果是，则认可上述字符纠错关系。

优选的，为了能够向用户提供更多的纠错信息，上述实施例3还可以包括：将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。即形成字符纠错关系：“shanhai”->“shanghai”->“上海”，以便在纠错提示中直接向用户提供候选项“上海”。

实施例4

本实施例以输入法日志为例进行说明，与实施例3的区别在于，本实施例直接针对候选项进行纠错关系的挖掘。所述候选项可以包括中文候选项，也可以包括英文候选项。

对于候选项，本实施例可以采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的。

对于用户的输入历史记录，输入法日志可以记录信息“用户标识-输入候选项”，当然，其中的“用户标识”属于可选记录字段。在用户手动纠错的情况下，输入法日志可能记录信息“用户标识-输入候选项-删除操作-输入候选项”。

例如，用户先输入“beijin”，上屏输入了候选项“被禁”，之后发现该候选项并不是自己所需的，则删除候选项“被禁”，并继续输入“beijing”，进而选择所需的候选项“北京”，完成一次完整的输入。从所记录的信息“用户标识-被禁-删除操作-北京”，可以分析得知，与删除操作相邻的两个候选项字符串属于字符纠错关系：“被禁”->“北京”。而对于被用户词库所记录的“被禁”一词，当判断出其属于字符纠错关系：“被禁”->“北京”中的错词时，可以直接自动将其从用户词库中删除，或者通知用户手动选择删除。以免该词在用户词库中的存在影响其他候选项的排序。

再例如，用户采用英文输入法输入了候选项“aslo”，发现不对，又重新输入了候选项“also”，则通过本实施例挖掘得到纠错关系“aslo”->“also”。

优选的，为了能够向用户提供更多的纠错信息，上述实施例4还可以包括：将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。即形成字符纠错关系：“被禁”->“北京”->“beijing”，以便在纠错提示中直接向用户提供正确的编码字符串“beijing”。

实施例5

本实施例仍然以输入法日志为例进行说明，与之前实施例的区别在于，本实施例的输入法日志还记录有用户输入所采用的编码-候选项变换方式(例如，拼音输入、五笔输入、字形辅助输入等等)。

由于一般情况下，用户正常输入时都会选用比较熟悉的编码-候选项变换方式，在输入过程中并不会经常更换，例如，习惯使用拼音输入的用户，不会一会采用拼音输入，一会又采用五笔输入。一个典型情况就是因为用户手动纠错而出现的，如用户输入了错误的第一编码字符串，但是却不知道所需候选项在第一编码-候选项变换方式下的正确编码字符串，所以只好采用第二编码-候选项变换方式输入得到所需候选项。因此，当用户日志信息中出现编码-候选项变换方式的更换时，就可能存在用户手动纠错的信息，则本实施例可以采用以下的分析挖掘步骤，获取字符纠错关系：

如果所述输入历史记录存在：第一编码字符串-第二编码字符串-候选项，并且第一编码字符串和第二编码字符串属于不同的编码-候选项变换方式；则获取该候选项在第一编码-候选项变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。优选的，在最终确定上述字符纠错关系之前，还可以判断两个串之间的相似度或者编辑距离是否满足一定条件，如果是，则认可上述字符纠错关系。

例如，用户先输入“lingwu”，却没有发现所需的候选项“囹圄”，并且不知悉该候选项的正确拼音编码，则该用户通过字形辅助输入的方式或者五笔输入的方式，得到了候选项“囹圄”。则本实施例可以获取候选项“囹圄”在拼音编码方式(第一编码-候选项变换方式)下的正确编码字符串“lingyu”，进而确定如下的字符纠错关系：“lingwu”->“lingyu”。

优选的，为了能够向用户提供更多的纠错信息，上述实施例5还可以包括：将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。即形成字符纠错关系：“lingwu”->“lingyu”->“囹圄”，以便在纠错提示中直接向用户提供所需的候选项“囹圄”。

如果前述各个实施例中的前后序列信息的时间间隔较长，则属于用户手动纠错的可能性会大大降低。所以在本发明中，优选的，还可以包括以下步骤：判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔，是否符合预置条件，如果是，则再作进一步判断。

在本发明中，如果为了得到面向大多数用户的纠错数据库，则还可以在前述实施例的基础上进一步包括：在各个用户的日志信息中统计所述字符纠错关系的出现次数，如果其出现次数大于一定阈值，则确定所述字符纠错关系为通用字符纠错关系，生成通用纠错数据库。

参照图2，示出了本发明一种自动纠错的方法实施例，包括：

步骤201、收集日志信息，所述日志信息包括用户的输入历史记录；

步骤202、利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；

步骤203、接收用户输入信息；

步骤204、依据所述字符纠错关系，向用户返回纠错提示信息。

本实施例所述纠错行为是在前述实施例得到纠错关系的基础上完成的，由于相应内容已经在前面详细描述了，因此在此不再赘述。

本实施例步骤203和204可以用于对用户输入过程的纠错，也可以用于搜索过程中的查询关键词纠错，下面就分别进行详细说明。其中，对于具体的纠错提示信息包括哪些内容以及该信息如何展示，本发明并不需要加以限定，因此在此就不详述了，本领域技术人员可以采用各种可行的方式。

一般的，所述纠错提示信息可以包括符合字符纠错关系的正确编码字符串及其相应的候选项。

或者，所述纠错提示信息也可以仅包括符合字符纠错关系的正确编码字符串的相应候选项；

或者，所述纠错提示信息也可以仅包括符合字符纠错关系的正确编码字符串；

或者，所述纠错提示信息也可以包括符合字符纠错关系的候选项及其相应的编码字符串；

或者，所述纠错提示信息也可以仅包括符合字符纠错关系的候选项的相应编码字符串；

或者，所述纠错提示信息也可以仅包括符合字符纠错关系的候选项字符串。

例1

本实施例以搜索过程中的查询纠错为例进行说明。

用户在搜索输入框中输入“被禁”，搜索引擎或者页面脚本依据前述得到的纠错关系，得知存在匹配的字符纠错关系：“被禁”->“北京”，则提示用户“您是不是希望检索与‘北京’相关的内容？”，并可以赋以相关的超链接，当用户点击提示信息时，就可以直接返回与“北京”相关的检索结果。

上述提示信息可以出现在对“被禁”检索之前(如用户输入‘被禁’至搜索输入框的同时)，也可以出现在对“被禁”的检索之后，即所述提示信息和与“被禁”相关的检索结果一同展示。

例2

本实施例以用户输入过程中的拼写纠错为例进行说明。

用户输入编码字符串“moban”，当前输入法系统依据前述得到的纠错关系(例如，以纠错词库的形式存在)，得知存在匹配的字符纠错关系：“moban”->“muban”->“模板”，则提示用户“您是不是希望输入‘模板(muban)’”，或采用“模(mú)板”的形式进行提示。即可以通知告知正确的编码字符串。优选的，上述纠错信息“模板(muban)”还可以直接出现在候选项中，如果用户确认，则可以将“模板”上屏输出，而不需要用户重新输入，在纠错的基础上进一步提高输入效率。

参照图3，示出了本发明一种自动纠错的系统实施例，具体可以包括：

日志收集单元301，用于收集日志信息，所述日志信息包括用户的输入历史记录；

纠错挖掘单元302，用于利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；

接口单元303，用于接收用户输入信息；

纠错单元304，用于依据所述字符纠错关系，向用户返回纠错提示信息。

在本发明的一个优选实施例中，所述日志信息包括查询日志，所述查询日志包括用户查询关键词的输入历史记录，则所述纠错挖掘单元可以采用以下方式获取字符纠错关系：判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件，如果是，则确定该相邻关键词字符串属于字符纠错关系。

在本发明的另一个优选实施例中，所述输入历史记录包括用户输入的编码字符串及相应的输入候选项，则所述纠错挖掘单元可以采用以下方式获取字符纠错关系：查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。优选的，还可以将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。

在本发明的另一个优选实施例中，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则所述纠错挖掘单元也可以采用以下方式获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的。优选的，还可以将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。

在本发明的另一个优选实施例中，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的。优选的，还可以将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。

在本发明的另一个优选实施例中，所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式，则所述纠错挖掘单元采用以下方式获取字符纠错关系：如果所述输入历史记录存在：第一编码字符串-第二编码字符串-候选项，并且第一编码字符串和第二编码字符串属于不同的编码变换方式；则获取该候选项在第一编码变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。优选的，还可以将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。

优选的，为了提高字符纠错关系认定的准确性，本发明还可以包括相近原则判断单元，用于判断所述初步确定为具有字符纠错关系的字符串之间是否具有一定的相似度或者编辑距离，如果是，则最终确定该字符纠错关系。所述字符串包括具有字符纠错关系的编码字符串，也可以包括具有字符纠错关系的候选项字符串。

优选的，本发明还可以包括：时间间隔判断单元，用于判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔，是否符合预置条件，如果是，则再作进一步判断。所述时间间隔判断单元可以进一步提高纠错信息挖掘的准确性。

优选的，本发明还可以包括：统计单元，用于进一步在各个用户的日志信息中统计所述字符纠错关系的出现次数，如果其出现次数大于一定阈值，则确定所述字符纠错关系为通用字符纠错关系。即本发明可以完成针对某个用户的个性化纠错，也可以完成针对大部分用户的通用纠错。

参照图4，示出了本发明一种生成纠错数据库的装置实施例，包括：

日志收集单元401，用于收集日志信息，所述日志信息包括用户的输入历史记录；

纠错挖掘单元402，用于利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；

数据库生成单元403，用于存储所述字符纠错关系，得到纠错数据库。

前述的自动纠错系统实施例中的优选附件模块或者具体实现方式都可以应用在本实施例中，因此，在此不再赘述。

参照图5，示出了本发明一种同时应用于输入领域和搜索领域的自动纠错系统，具体包括：

日志收集模块501，用于收集用户在客户端或者网络端的输入历史记录，得到日志信息；所述日志信息包括输入法日志和搜索查询日志；

日志存储模块502，用于通过日志存储服务器508将海量用户日志信息进行存储得到日志数据库506，以供后续模块使用；

纠错挖掘模块503，用于利用用户输入序列信息，从所述日志信息中挖掘获取纠错关系，得到自动纠错数据库507；

信息分发模块504，用于将纠错关系分发给各个输入法客户端；

查询服务模块505，用于将纠错关系应用于搜索引擎服务中。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种生成纠错数据库的方法和装置，以及一种自动纠错的方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种生成纠错数据库的方法，其特征在于，包括：

收集日志信息，所述日志信息包括用户的输入历史记录；

利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；

存储所述字符纠错关系，得到纠错数据库；

其中，

所述日志信息包括查询日志，所述查询日志包括用户查询关键词的输入历史记录，则采用以下的分析挖掘步骤，获取字符纠错关系：判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件，如果是，则确定该相邻关键词字符串属于字符纠错关系；

或，

所述输入历史记录包括用户输入的编码字符串及相应的输入候选项，则采用以下的分析挖掘步骤，获取字符纠错关系：查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的；

或，

所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的；

或，

所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则采用以下的分析挖掘步骤，获取字符纠错关系：查找用户在输入候选项的过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的；

或，

所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式，则采用以下的分析挖掘步骤，获取字符纠错关系：如果所述输入历史记录包括：第一编码字符串　－　第二编码字符串　－　候选项，并且第一编码字符串和第二编码字符串属于不同的编码变换方式，则获取该候选项在第一编码变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。

2.如权利要求1所述的方法，其特征在于，还包括：

将所述正确的编码字符串相对应的候选项也纳入所述字符纠错关系中。

3.如权利要求1所述的方法，其特征在于，还包括：

将所述正确的候选项相对应的编码字符串也纳入所述字符纠错关系中。

4.如权利要求1所述的方法，其特征在于，还包括：

将所述候选项也纳入所述字符纠错关系中。

5.如权利要求1－4所述的任一方法，其特征在于，在确定字符纠错关系之前还包括：

判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔，是否符合预置条件，如果是，则再作进一步判断。

6.如权利要求1－4所述的任一方法，其特征在于，在最终确定字符纠错关系之前还包括：

判断初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离，如果是，则认可该字符纠错关系；

或者，判断初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离，如果是，则认可该字符纠错关系。

7.如权利要求1－4所述的任一方法，其特征在于，还包括：

进一步在各个用户的日志信息中统计所述字符纠错关系的出现次数，如果其出现次数大于一定阈值，则确定所述字符纠错关系为通用字符纠错关系，生成通用纠错数据库。

8.一种自动纠错的方法，其特征在于，包括：

收集日志信息，所述日志信息包括用户的输入历史记录；

接收用户输入信息；

依据所述字符纠错关系，向用户返回纠错提示信息；

其中，

或，

9.如权利要求8所述的方法，其特征在于，在最终确定字符纠错关系之前还包括：

10.如权利要求8所述的方法，其特征在于，所述纠错提示信息包括：

符合字符纠错关系的正确编码字符串及其相应的候选项；

或者，符合字符纠错关系的正确编码字符串的相应候选项；

或者，符合字符纠错关系的正确编码字符串；

或者，符合字符纠错关系的候选项及其相应的编码字符串；

或者，符合字符纠错关系的候选项的相应编码字符串；

或者，符合字符纠错关系的候选项字符串。

11.一种自动纠错的系统，其特征在于，包括：

纠错挖掘单元，用于利用所述输入历史记录的序列信息，从所述日志信息中挖掘获取字符纠错关系；

接口单元，用于接收用户输入信息；

纠错单元，用于依据所述字符纠错关系，向用户返回纠错提示信息；

其中，

所述日志信息包括查询日志，所述查询日志包括用户查询关键词的输入历史记录，则所述纠错挖掘单元采用以下方式获取字符纠错关系：判断一用户相邻查询的关键词的输入时间间隔是否满足预置条件，如果是，则确定该相邻关键词字符串属于字符纠错关系；

或，

所述输入历史记录包括用户输入的编码字符串及相应的输入候选项，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找是否存在编码字符串直接相邻的情况，如果是，则确定该相邻编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的；

或，

所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找用户在输入过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的编码字符串属于字符纠错关系，并确定最后一个用于输入候选项的编码字符串是正确的；

或，

所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及删除操作，则所述纠错挖掘单元采用以下方式获取字符纠错关系：查找用户在输入候选项的过程中是否应用了删除操作，如果是，则确定与所述删除操作相邻的候选项字符串属于字符纠错关系，并确定最后一个输入的候选项是正确的；

或，

所述输入历史记录包括用户输入的编码字符串、相应的输入候选项以及编码变换方式，则所述纠错挖掘单元采用以下方式获取字符纠错关系：如果所述输入历史记录存在：第一编码字符串　－　第二编码字符串　－　候选项，并且第一编码字符串和第二编码字符串属于不同的编码变换方式，则获取该候选项在第一编码变换方式下的正确编码字符串，确定所述正确编码字符串和第一编码字符串属于字符纠错关系。

12.如权利要求11所述的系统，其特征在于，还包括：

时间间隔判断单元，用于判断所述相邻的编码字符串的输入时间间隔或者相邻候选项的输入时间间隔，是否符合预置条件，如果是，则再作进一步判断。

13.如权利要求11所述的系统，其特征在于，还包括：

相近原则判断单元，用于判断初步确定为具有字符纠错关系的编码字符串之间是否具有一定的相似度或者编辑距离，如果是，则最终确定该字符纠错关系；

或者，相近原则判断单元，用于判断初步确定为具有字符纠错关系的候选项之间是否具有一定的相似度或者编辑距离，如果是，则最终确定该字符纠错关系。

14.如权利要求11所述的系统，其特征在于，所述纠错提示信息包括：