CN101002198A

CN101002198A - 用于非罗马字符和字的拼写校正系统和方法

Info

Publication number: CN101002198A
Application number: CNA2005800263504A
Authority: CN
Inventors: 吴军; 朱鸿隽; 朱会灿; 黄炜华; 陈钊琪
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2004-06-23
Filing date: 2005-06-21
Publication date: 2007-07-18
Anticipated expiration: 2025-06-21
Also published as: JP2008504605A; KR20070027726A; WO2006002219A3; CN101002198B; KR101146539B1; JP2012069142A; US20050289463A1; WO2006002219A2; JP5444308B2

Abstract

本发明披露了一种使用基于规则的分类器和隐马尔可夫模型来处理和校正诸如汉语、日语和韩语的基于非罗马字体的字的拼写错误的系统和方法。该方法一般地包括将诸如汉语的第一语言的输入条目转换为不同于第一语言的诸如拼音的中间表示的至少一个中间条目，将中间条目转换为第一语言的输入的至少一个可能的可选拼写或形式，并且当输入条目和输入条目的所有可能可选拼写之间的匹配项分别被定位或没有定位时，确定输入条目是正确或可疑的输入条目。可以基于由变换规则发生器生成的变换规则，使用例如基于变换规则的分类器对可疑输入条目进行分类。

Description

用于非罗马字符和字的拼写校正系统和方法

技术领域

本发明一般地涉及处理基于非罗马字体的语言。更具体地，涉及用于使用基于规则的分类器和隐马尔可夫(Markov)模型处理和校正诸如汉语、日语、和韩语的基于非罗马字体的字的拼写错误的系统和方法。

背景技术

拼写校正通常包括检测错字并且为错字确定适当的替换。在依字母顺序的即诸如英语的基于罗马字体的语言中，大部分拼写错误是词表外的词，例如，“thna”而不是“than”，或有效的字不适当地用在其上下文中，例如“stranger then”而不是“stranger than”。检测和校正基于罗马字体的语言中的词表外拼写错误的拼写检验器是众所周知的。

然而，诸如汉语、日语、和韩语(CJK)的基于非罗马字体的语言在任何计算机字符集(例如，UTF-8字符集)中都没有编码的有效字符，使得大部分拼写错误是不适当地用在上下文中的有效字符，而不是词汇拼写错误。在汉语中，字的正确使用通常只能在上下文中确定。因此，用于基于非罗马字体的语言的有效拼写检验器应该使用上下文信息来确定上下文中哪个字符和/或字是不合适的。

对于诸如CJK语言的非罗马字体语言的拼写校正也是复杂的和具有挑战性的，由于这种语言没有标准词典，因为CJK字的定义不清楚。例如，某些可能将汉语中的“Beijing city”看作一个词，而其他的可能将它们看作两个词。与此相反，在英文拼写校正中，英文词典/单词表查找是关键特征，因此，英文拼写校正方法不能很容易适用于CJK语言。另外，与英文的26个字母不相同，有几千个常用的汉字，从而使得由所有选择替换非法汉字中不正确的字符，然后确定新创建的词是否是适当的很不实际。而且，汉语具有大量同形词和同音字以及引起多义性的不可见的(或隐藏的)字边界，这也使得高效和有效的汉语拼写校正很复杂并且难于执行。很明显，由于汉语和英语之间的这种差别，英文拼写校正可用的许多有效技术不适于汉语拼写校正。

从而需要一种用于有效、高效和准确的检测以及校正诸如汉语、日语和韩语的非罗马字体语言中的拼写错误的计算机系统和方法。

发明内容

本发明披露了一种使用基于规则的分类器和隐马尔可夫模型处理和校正诸如汉语、日语、和韩语的基于非罗马字体的字中的拼写错误的系统和方法。特别地，该系统和方法使用变换规则、隐马尔可夫模型以及易混淆字符的相似性矩阵。在汉语拼写检查应用中，如果简体汉字或繁体汉字中的字符具有相同的发音和/或共享一些输入按键，则在一对易混淆字符之间的相似性(similarity)可为正数。否则，该值为零。在一个实施例中，相似性可具有布尔值，例如，1用于一对易混淆字符，0用于一对非易混淆字符。该系统和方法特别可应用于基于网络的搜索引擎和在客户端站点(site)可下载的应用程序，例如，在工具栏或桌面任务栏中执行，但是可应用于各种其他的应用。应该理解，可以通过许多方式实施本发明，包括诸如过程、设备、系统、装置、方法或诸如计算机可读存储介质或计算机网络的计算机可读介质，其中，程序指令通过光或电子通信线路被发送。术语“计算机”通常指的是诸如个人数字助理(PDA)、移动电话、和网络交换机的具有计算能力的任何装置。下面描述本发明的几个独创性实施例。

本方法一般地包括将诸如汉语的第一语言的输入条目(entry)转换为不同于第一语言(诸如拼音)的中间表示的至少一个中间条目，将中间条目转换为第一语言的输入的至少一种可能选择拼写，并且当分别定位或没有定位出输入条目和输入条目的所有可能选择拼写之间的匹配项时，确定输入条目是正确的或可疑的输入条目。如此处所使用的，“pinyin”指的是所有简体或繁体汉字的拼音符号，包括注音符号(Bopomofo，汉语拼音字母)，即，“带注释的语音的符号”。可以根据中间表示中的公共标记限定成对的第一语言的易混淆字符之间的相似性。可以基于由变换规则发生器生成的变换规则，使用例如基于变换规则的分类器来分类可疑输入条目。可以类似地采用诸如决策树和神经网络分类器的各种其他分类器。

转换可包括转换多个输入条目，例如查询日志中的用户查询。该方法还可以包括，：基于诸如拼写校正变换规则的一组规则，例如通过基于变换规则的分类器，将可疑条目分类为正确拼写或不正确拼写的条目。用户的表决(vote)，例如，查询日志和/或网页，被优选地应用以生成变换规则。该方法还可以包括利用可疑输入条目和可能的选择拼写使用变换规则发生器来生成和训练拼写校正变换规则。该方法还包括接收第一语言的用户输入，确定是否有任何规则应用于用户输入，当确定至少一个规则应用于用户输入时，生成对应于用户输入的第一语言的至少一个候选拼写，比较用户输入的相似性与用户输入的至少一个候选拼写的相似性，并且使用用户输入(具有比用户输入更高的相似性)的至少一个候选拼写给出拼写校正建议和/或进行拼写校正。

系统通常包括：第一转换器，用于将第一语言的输入转换为输入条目的至少一个中间表示，中间表示不同于第一语言；第二转换器，用于将中间表示转换为第一语言的输入的至少一个可能的选择拼写，通过将可能的选择拼写与输入条目相比较来定位匹配项，并且如果没有从所有可能的选择拼写中定位出匹配项，则确定输入条目是可疑的输入条目，如果定位出匹配项，则输入条目是正确的输入条目。

一种计算机程序产品，用于结合计算机系统使用，计算机程序产品具有其上存储有计算机处理器可执行的指令的计算机可读存储介质，指令通常包括：接收第一语言的输入条目，将输入条目转换为输入条目的至少一个中间表示，中间表示不同于第一语言，将中间表示转换为第一语言的至少一种可能的选择拼写，通过将输入条目的至少一个可能的选择拼写与输入条目进行比较来定位匹配项，并且如果没有从所有可能的选择拼写中定位出匹配项，则确定输入条目是可疑的输入条目，如果定位出了匹配项，则输入条目是正确的输入条目。

执行本系统和方法的应用程序可以在服务器站点上(例如在搜索引擎上)执行或在诸如用户计算机的客户端站点上执行(例如，下载的)，以提供对输入到文档中的文本的拼写校正，或与诸如搜索引擎的远程服务器进行交互。客户端站点应用程序可选地包括停止规则模式的用户可编辑表，其允许用户通过指定某些拼写校正是被禁止的(例如，决不替换X和Y，除非X在Z前或跟在Z之后)来定制应用程序。

本发明的这些以及其他的特征和优点将在下列具体描述和通过实例示出了本发明的原理的附图中更详细地展示。

附图说明

通过下列结合附图的详细描述，将很容易地理解本发明，其中附图中相同的参考标号表示相同的结构元件。

图1是用于执行正向转换到基于非罗马字体语言的中间形式和从基于非罗马字体语言的中间形式反向转换，以确定可疑的原始输入的可能候选拼写的说明性的系统和方法的框图。

图2是用于从条目集合生成拼写校正变换规则的说明性的系统和方法的框图。

图3是示出用于自动生成拼写校正变换规则的过程的流程图。

图4是示出利用用于处理条目以确定拼写校正建议(如果有的话)的变换规则的过程的流程图。

具体实施方式

本发明披露了使用基于规则的分类器和隐马尔可夫模型处理和校正基于非罗马字体的字(例如汉语、日语、韩语)的系统和方法。应该注意，只是为了清楚起见，此处展示的实例可应用于汉语拼写错误检测和校正，更具体地是简体汉字拼写错误检测和校正。然而，用于拼写错误检测和校正的系统和方法可类似地应用于其他基于非罗马字体的语言(例如繁体汉语、日语、韩语、泰国语等)。提出下列描述以使得本领域任何技术人员都能够实现和使用本发明。提供具体实施例的描述和应用只是作为实例，对于本领域技术人员来说，各种修改将是显而易见的。在不脱离本发明的精神和范围的情况下，此处限定的一般原理可应用到其他实施例和应用。因此，本发明将被给予包括大量选择、修改以及与此处披露的原理和特征一致的等同物的最宽的保护范围。为了清楚起见，没有详细描述关于在涉及本发明的技术领域中已知的技术材料，以免不必要地模糊本发明。

此处描述的系统和方法一般地涉及使用由输入条目生成的拼写校正变换规则来处理和校正非罗马字体语言中的拼写错误的系统和方法。如此处所使用的，术语“拼写”指的是词表外的字符或字以及在上下文中不适当使用的有效字符或字。另外，术语输入的候选拼写或候选形式用在此处指的是不同于输入但是与输入相同语言的字符和/或字的集合，无论输入是单字符或字、字符和/或字的系列或集合、短语、句子等。从输入条目中识别可疑输入条目，并且由图1中示出的可疑输入条目检测器生成可能的候选拼写。使用可疑输入条目和由可疑输入条目检测器生成的可能的候选拼写作为输入，然后生成和训练拼写校正变换规则并且通过如图2中所示的变换规则生成器和分类器将可疑条目分类为正确的或不正确的。本系统和方法使用变换规则、隐马尔可夫模型和易混淆字符的相似性矩阵。在汉语应用中，如果在简体汉字或繁体汉字(traditionalChinese)中字符具有相同的发音和/或共享一些输入按键，则一对易混淆字符之间的相似性可为正数。否则，值为零。在一个实施例中，相似性可具有布尔值，例如，1用于一对易混淆字符，0用于一对非易混淆字符。图4的流程图中示出了使用拼写校正变换规则的训练集合来识别拼写错误和生成建议的拼写校正的过程。这样，通过使用输入集合来训练变换规则，最普通的拼写错误和校正可以被确定和处理以增强拼写检查和校正系统的效率和有效性。

图1是用于执行正向转换到简体汉字的中间形式(例如，拼音)和从简体汉字的中间形式反向转换，以识别可疑原始输入并确定可疑原始输入的可能的候选拼写的示意性可疑输入条目检测器100的框图。图1中示出的可疑输入条目检测器100利用拼音是用于简体汉字的普遍使用的输入方法这个方便的事实。然而，可以实现和使用基于罗马字体或基于非罗马字体的任何其他中间形式。类似地，可疑输入条目检测器100适于使用各种其他基于非罗马字体的语言。

如图1所示，字-拼音转换器104将每个汉字的原始条目102转换为一个或多个对应于原始条目102的发音或拼音106。然后，拼音-字转换器108将拼音106转换为可能的拼写110。可以采用用于将第一语言的文本转换为中间表示，然后转换回第一语言的其他的合适转换器104、106。拼音仅是汉字或简体汉字的方便的中间表示。比较器112将都为第一语言的原始条目102和可能拼写110进行比较，以确定是否存在匹配项。如果原始条目102与由拼音-字转换器108输出的可能拼写110中的一个相匹配，则原始条目102匹配，假定被正确地拼写114。然而，如果原始条目102不与由拼音-字转换器108输出的可能拼写110中的任何一个相匹配，则原始条目102是可疑条目116，即，它可能是不正确的。

拼音是主要用于输入简体汉字的语音输入方法。如此处所指出的，拼音通常指的是汉字的语音表达(phonetic representation)，具有或没有与汉字相关的音调的表示。特别地，“拼音”指的是简体或繁体汉语的所有语音符号，包括注音符号(Bopomofo，汉语拼音字母)，即，“带注释的语音的符号”。

拼音使用罗马字体字符并且具有以多音节字形式列出的词汇。因为汉语具有大量同形字和同音字，所以每个原始条目102可以通过字-拼音转换器104转换为多个拼音106，并且类似地，每个拼音106通过拼音-字转换器108可以被转换为汉字110的多个可能拼写。特别地，由于只有大约1300个具有音调的不同语音音节(这可以由拼音表示)，以及大约400个没有表示好几万汉字(Hanzi)的语音音调的语音音节，一个语音音节(具有或没有音调)可对应于许多不同汉字。例如，普通话中“yi”的发音可对应于超过100个汉字。因此，考虑到为同形字和/或同音字的汉字的巨大比例，由字-拼音转换器104和拼音-字转换器108执行的将每个原始条目102转换为拼音106然后转换回汉字110的过程可能并不是很平常的。

此处描述的系统和方法使用变换规则、隐马尔可夫模型和易混淆字符的相似性矩阵。中文应用中，如果字符具有相似的发音、共享相似的输入按键、和/或拼写相似(即，视觉上相似)，则一对易混淆字符之间的相似性可为正数。否则，值为零。在一个实施例中，相似性可具有布尔值，例如，1用于一对易混淆字，0用于一对非易混淆字。在第一语言的一对易混淆字符之间的相似性可根据中间表示中的公共标记而被限定。

可以实施用于将汉字转换为拼音和用于将拼音转换为汉字的各种机制。例如，各种译码器可适于将拼音转换为汉字(中文字符)。在一个实施例中，可以实施使用隐马尔可夫模型的Viterbi译码器。例如，可以通过收集经验计数或通过计算期望值并且执行迭代最大化处理，来实现隐马尔可夫模型。Viterbi算法是根据马尔可夫通信信道的输出观察来译码源输入的有用、高效的算法。Viterbi算法已经成功地在用于自然语言处理(例如语音识别、光学字符识别、机器翻译、语音标记(tagging)、解析和拼写检查)的各种应用中实施。然而，应该理解，代替马尔可夫假设，在执行译码算法中可以做出其他各种适当的假设。另外，Viterbi算法只是一种可以由译码器执行的适当译码算法，并且也可以执行各种其他适当的译码算法，例如有限状态机、Bayesian网络、决策平面算法(高维Viterbi算法)或Bahl-Cocke-Jelinek-Raviv(BCJR)算法(两通道正向/反向Viterbi算法)。

由可疑输入条目检测器100检测到的可疑条目通常基本包括所有拼写错误。然而，可疑条目也通常包括较高的假报警/假的正比率，即，被标记为不正确的正确查询数量与不正确查询的数量的比率。这将在下面进行更详细地描述，然后，由可疑条目检测器100确定的可疑查询116可被分类为正确的或不正确的。分类器可为基于变换规则的分类器，这是优选的，或者可以为决策树分类器、神经网络分类器等。对于分类为正确的条目，不给出建议。对于分离为不正确的条目，可根据每个可能的选择拼写的相似性给出拼写校正建议。

图2是用于从由可疑条目检测器100处理的原始条目集合102生成拼写校正变换规则的示意性系统和方法120的框图。特别地，原始条目集合102可包括诸如网络搜索引擎的查询日志的用户输入条目和/或例如从诸如那些互联网上可用的文档导出的条目。在用户输入条目的情况下，原始输入集合102可包括例如来自过去三周或两个月的用户查询集合。文档实例可包括诸如报纸、书籍、杂志、网页等的网络内容和各种出版物。原始输入集合102可从文档(例如，以互联网上可用的简体和/或繁体汉字写的文档)的组、集合或储存库导出。应该指出，此处所述的示意性系统和方法特别可应用于网络搜索引擎的上下文中，并且可应用于包括有组织的数据的数据库的搜索引擎中。然而，应该理解本系统和方法可以被修改和用于拼写错误检测和校正的各种其他应用，特别用于在非罗马字体语言中的条目。例如，本系统和方法适于CJK文本输入应用，例如，检测和校正拼写错误的字处理应用。

变换规则发生器和分类器120由Eric Brill引入的基于变换的学习算法(1earning algorithm)，该算法在训练过程中，根据来自训练数据(例如，人注释的不正确拼写)的置信度测量结果自动提取(学习)和排列变换规则。这些变换规则由注释器/表决器124使用。注意，变换规则不同于语言学中使用的语法规则，因为变换规则是基于统计学而不是语言学知识。因此，例如，如果大部分条目以相同的错误方式错误地拼写某些字，则错误的拼写将被分类为正确的。关于基于变换规则的方法的其他信息出现在2004年1月27日公布的Eric Brill的第6684201号，题为“Linguistic Disambiguation Systemand Method Using String-Based Pattern Training to Learn to ResolveAmbiguity sites”的美国专利，其全部内容结合与此作为参考。因此，变换规则发生器120通过利用用户的表决自动地(即，无人监控地)生成规则。换言之，字符模式的正确性是根据数据库中表决的多数来确定的，例如，查询日志，而不是人注释的数据。

每个变换规则均与置信度测量结果相关联，使得具有较高置信度测量结果的规则被应用在具有较低置信度测量结果的规则之后。例如，如果B在X之前，则第一变换规则可以指定用Y替换X。如果E在Y之后，则具有较高置信度测量结果的第二变换规则可指定用用X替换Y。因此，第一变换规则将首先被应用到条目BXE以生成BYE。然后，第二变换规则将被应用到所得到的条目BYE以将该条目转换回BXE。这是很明显的，变换规则被应用的顺序会影响结果。还应该注意，被替换的字符和替换字符可以为条目的任何成分，而不必是字。类似地，条件可以基于任何上下文，词性(part-of-speech)标记或语法非末端标签(例如，NP用于名词短语)。还要注意，虽然基于变换规则的分类器是优选的，然而，可以类似地实施简单Bayesian分类器、决策树分类器、神经网络分类器、或任何多种其他合适的分类器，以分类可疑条目116。

回到图2，如所示，由可疑条目检测器100输出的每个可疑条目116和其相应的可能的候选拼写110通过拼写校正变换规则发生器120的注释器(annotator)124接收。注释器124最初基于初始变换规则126并且最终基于提取的和排列的变换规则130来分类条目128。

学习阶段可被监督(即，由人)和/或无人监督。在一个实施例中，少数普通人工创建的变换规则的初始集合被用于自动地注释可疑条目的小集合，一些人监控或通过利用用户的表决而没有人监控。在初始学习阶段之后，生成其他变换规则，优选地还有一些人监控，并且其他可疑条目被注释。所得到的规则(其例如使用较少的规则管理相当数量的用户通信量)可被看作非常可靠的，并且因此对应于高置信度测量结果。注意，由于具有较高置信度的规则通常比具有较低置信度的那些规则具有较小的覆盖率，所以具有高置信度的规则和具有较低置信度的规则都被使用。

为了成本效率，可自动地生成较大数量的剩余可疑条目(例如占用户通信量的较小比例)，无须人监督。一种用于自动生成这种规则的示意性过程150如图3的流程图所示。特别地，对于在循环152中的每个可疑查询Q以及对于在循环154中的每个相应候选拼写Q’，在框156处，将Q和候选拼写Q’进行比较，以确定Q中的字符可能是不适当以及它们的替代C’。在框158处，具有C的前N个字符以及后N个字符的宽度为2N+1的窗口被打开。注意，可以实施任何合适的上下文的长度，例如2N+1，并且在有疑问的字符之前或之后的上下文的长度可以但不需要相等。所有C_{-N}，...C，...，C_{N}的子序列(pre-C，C，post-C)的频率F(pre-C，C，post-C)均被计数以确定规则是有效的(significant)，即，规则是否能够覆盖可疑条目中拼写错误的合理大比例。如果1≤s1＜s2...＜sj＜k，则字符串S＝x_s1，x_s2，...，x_sj是字符串X＝x₁，x₂，...x_k的子序列。

接下来，在框160处，通过替换C和C’，确定相应的频率。然后决策框162通过使用查询日志和网页，即，用户表决，来确定规则是否是可靠的。如果确定规则是可靠的，则提取变换规则(即，用C’替换给定pre-C和post-C的C)。特别地，如果满足下列条件则认为变换规则是可靠的：

F(pre-C，C，post-C)＞T1以及

F(pre-C，C，post-C)/F(pre-C，C，post-C)＞T2，

其中，T1是最小有效阈值，T2是最小置信阈值。如上所述，通过利用用户表决使得根据数据库(即，查询日志)中的表决的多数而不是人注释的数据确定字符模式的正确性，由变换规则发生器执行的过程150自动(即，无人监督地)生成规则。

因为最常见的变换规则将支配错误模式的非常大的一部分，规则集合的大小优选地不随可疑条目的数量迅速增加。也可设置每个规则的最小具体值(minimum occurrence)以限制变换规则集合的大小。

实施此处描述的系统和方法的应用程序可以在诸如搜索引擎的服务器站点上执行，或可以在诸如终端用户的计算机的客户端站点(例如，下载的)上执行，以对输入到字处理文档中的文本提供拼写校正，或与诸如搜索引擎的远程服务器相互作用。客户端站点应用程序可以在例如工具栏内执行，并且可以可选地包括停止规则模式的用户可编辑表，该表允许用户通过指定某些拼写校正是被禁止的(例如，决不替换X和Y，除非当X在Z之前或Z之后)来定制应用程序。例如，一些汉字，例如“买”和“卖”，在该语言中具有相同的发音“mai”(但是音调不同)并且具有几乎相同的语法角色，然而具有完全不同的意义。许多自动拼写规则生成程序倾向于将“买”改为“卖”，反之亦然。终端用户可以在停止规则模式表中指定停止规则“(X，Y)”，以防止拼写校正应用程序用Y替换X。

图4是示出利用用于处理条目的变换规则以确定拼写校正建议(如果有的话)的过程200的流程图。决策框202确定是否有任何拼写校正规则应用到用户输入。为了执行决策框202，可以检查拼写校正变换规则的哈希表，以确定是否有任何变换规则应用到用户输入。例如，对于给定汉语用户输入ABCDE，如果变换规则指示如果C前面的字符是AB，则用C’替换字符C，然后将该特定规则应用到用户输入。如果没有规则可应用于用户输入，不为用户输入做出拼写校正建议。可选地，在框204处，对于每个可应用于用户输入的拼写校正变换规则，生成对应于可应用的拼写变换规则的候选拼写。在上述实例中，为对应于可应用的拼写校正变换规则的用户输入ABCDE生成候选拼写ABC’DE。

在决策框206处，确定每个候选拼写的相似性，并且与用户输入的相似性进行比较。在一个实施例中，决策框206可利用隐马尔可夫模型和Viterbi译码器以计算相似性。在当前实例中，ABCED和ABC’DE的相对输出概率被确定和比较。如果下式成立，则候选拼写具有比用户输入更高的相似性，因此被看作有效校正：

P(ABC’DE)×P(变换规则)＞P(ABCDE)，

其中，P(变换规则)可被限定为成功校正数量和校正总数量的比率。注意，P(ABCDE)应该考虑分割的多义性。例如，如果ABCDE有两个可能的分割AB-CDE和ABC-DE，则概率是Bayesian概率乘积的和：

P(ABCDE)＝P(输入-结束/CDE)×P(CDE/AB)×P(AB/输入-开始)+P(输入-结束/DE)×P(DE/ABC)×P(ABC/输入-开始)

注意，上面的方程是通过应用马尔可夫假设(其通过前面的字而不是通过整个历史来确定当前字)由原始Bayesian概率导出的Bayesian概率。可以类似地确定P(ABC’DE)。

如果给定的候选拼写不比在决策框206处所确定的用户输入更合适，则不给出特定拼写校正建议。然而，如果给定的候选拼写比在在决策框206处所确定的用户输入更合适，则在框208处建议和/或自动生成用户输入的相应候选拼写。

此处描述的用于拼写校正的系统和方法特别适合用于基于非罗马字体的语言，并且在检测拼写错误和生成候选拼写建议或校正方面非常有效。另外，用于拼写校正的系统和方法还特别可应用在网络搜索引擎环境中以及应用到包括有组织的数据的数据库的搜索引擎中，执行各种用户输入或查询的拼写校正。

虽然此处示出和描述了本发明的代表性实施例，然而应该理解它们只是说明性的，并且在不脱离本发明的精神和范围的情况下，可以对这些实施例进行修改。因此，本发明的范围将只由下列可以被修改的权利要求的术语所限定，其中每个权利要求均被特意地结合到该具体实施方式部分作为本发明的实施例。

Claims

1.一种方法，包括：

接收第一语言的输入条目；

将所述输入条目转换为不同于所述第一语言的中间表示的至少一个中间条目；

将所述中间条目转换为所述第一语言的所述输入条目的至少一个可能的选择形式；

将所述输入条目与所述输入条目的至少一个可能的选择形式进行比较以定位匹配项；以及

基于所述比较确定所述输入条目是可疑输入条目。

2.根据权利要求1所述的方法，其中：

所述中间条目被转换为所述第一语言的所述输入条目的一个以上可能的选择形式，

所述比较包括将所述输入条目与所述第一语言的所述输入条目的每个可能的替换进行比较，以及

所述确定包括：如果没有从所有可能的选择形式定位出匹配项，则确定所述输入条目是可疑输入条目，并且如果定位出了匹配项，则所述输入条目是正确输入条目。

3.根据权利要求1所述的方法，其中，所述第一语言是基于非罗马字体的语言。

4.根据权利要求1所述的方法，其中，所述第一语言是汉语并且所述中间表示是拼音。

5.根据权利要求1所述的方法，其中，所述输入条目是查询日志中的用户查询。

6.根据权利要求1所述的方法，其中，所述接收包括接收多个输入条目。

7.根据权利要求1所述的方法，还包括：

基于规则集合将所述可疑条目分类为正确拼写的条目和不正确拼写的条目之一。

8.根据权利要求7所述的方法，其中，所述分类由基于变换规则的分类器执行。

9.根据权利要求7所述的方法，其中，所述规则是拼写校正变换规则，还包括：

使用利用所述可疑输入条目和所述至少一个可能的选择形式的变换规则发生器，生成和训练所述拼写校正变换规则。

10.根据权利要求9所述的方法，其中，使用可疑输入条目的数据库自动执行所述生成和训练所述拼写校正变换规则。

11.根据权利要求7所述的方法，其中，以自动和人工监控中的至少一种来执行所述分类。

12.根据权利要求7所述的方法，还包括：

接收所述第一语言的用户输入；

确定是否有任何规则应用到所述用户输入；

当确定至少一个规则应用到所述用户输入时，生成对应于所述用户输入的所述第一语言的至少一个候选形式；

将所述用户输入的相似性与所述用户输入的至少一个候选形式的相似性进行比较；以及

使用比所述用户输入具有更高相似性的用户输入的至少一个候选形式，给出拼写校正建议和进行拼写校正中的至少一个。

13.根据权利要求12所述的方法，还包括：

维持停止规则模式的用户可编辑表，所述停止规则模式禁止对用户输入和候选拼写的特定指定结合给出拼写校正建议或进行拼写校正。

14.一种系统，包括：

第一转换器，用于将所述第一语言的所述输入转换为不同于所述第一语言的中间表示的至少一个中间条目；

第二转换器，用于将所述中间条目转换为所述第一语言的所述输入的至少一个可能的选择拼写；以及

比较器，用于将所述输入条目与至少一个可能的选择拼写进行比较以定位匹配项，所述比较器还被用于基于所述比较来确定所述输入条目是否是可疑输入条目。

15.根据权利要求14所述的系统，其中：

所述第二转换器用于将所述中间条目转换为所述第一语言的所述输入条目的一个以上可能的选择形式，

所述比较器用于将所述输入条目与所述第一语言的所述输入条目的至少一个可能的选择中的每个进行比较并且如果没有从所有所述可能的选择形式定位出匹配项，则确定所述输入条目是可疑输入条目，并且如果定位出匹配项则所述输入条目是正确输入条目。

16.根据权利要求14所述的系统，其中，所述第一语言是基于非罗马字体的语言。

17.根据权利要求14所述的系统，其中，所述第一语言是汉语并且所述中间表示是拼音。

18.根据权利要求14所述的系统，其中，所述输入条目是查询日志中的用户查询。

19.根据权利要求14所述的系统，还包括：

分类器，用于基于规则集合将所述可疑条目分类为正确拼写的条目和不正确拼写的条目之一。

20.根据权利要求19所述的系统，其中，所述分类器是基于变换规则的分类器。

21.根据权利要求19所述的系统，其中，所述分类器的所述规则是拼写校正变换规则，所述分类器还包括：变换规则发生器，用于使用所述可疑输入条目和所述第一语言的所述输入的所述至少一个可能的选择拼写来生成所述拼写校正变换规则。

22.根据权利要求21所述的系统，其中，所述变换规则发生器使用可疑输入条目的数据库自动生成所述变换规则。

23.根据权利要求19所述的系统，其中，所述分类器执行自动监控和人工监控中的至少一种。

24.根据权利要求19所述的系统，还包括：

检测器，用于确定是否有任何规则应用到用户输入；

发生器，用于在确定至少一个规则应用到所述用户输入时，生成所述第一语言的所述用户输入的至少一个候选拼写；

比较器，用于将所述用户输入的相似性与所述用户输入的至少一个候选的拼写的相似性进行比较；以及

校正器，用于使用比所述用户输入具有更高相似性的所述用户输入的至少一个候选拼写给出拼写校正建议和进行拼写校正中至少一个。

25.根据权利要求24所述的系统，还包括：

可定制的停止规则模式表，其禁止所述校正器对用户输入和候选拼写的特定指定组合给出拼写校正建议或进行拼写校正。

26.一种计算机程序产品，用于结合计算机系统使用，所述计算机程序产品包括计算机可读存储介质，所述存储介质上存储有计算机处理器可执行的指令，所述指令包括：

接收第一语言的输入条目；

基于所述比较确定所述输入条目是可疑输入条目。

27.根据权利要求26所述的计算机程序产品，其中：

所述比较包括将所述输入条目与所述第一语言的所述输入条目的每个可能的选择进行比较，以及

所述确定包括：如果没有从所述可能的选择形式定位出匹配项，则所述输入条目是可疑输入条目，并且如果定位出所述匹配项，则所述输入条目是正确输入条目。

28.根据权利要求26所述的计算机程序产品，其中，所述第一语言是基于非罗马字体的语言。

29.根据权利要求26所述的计算机程序产品，其中，所述第一语言是汉语并且所述中间表示是拼音。

30.根据权利要求26所述的计算机程序产品，其中，所述输入条目是查询日志中的用户查询。

31.根据权利要求26所述的计算机程序产品，其中，所述接收包括接收多个输入条目。

32.根据权利要求26所述的计算机程序产品，其中，所述计算机程序产品在工具栏中的客户端站点处被执行。

33.根据权利要求26所述的计算机程序产品，所述指令还包括：

基于规则集合将所述可疑输入分类为正确拼写的和不正确拼写的中的至少一个。

34.根据权利要求33所述的计算机程序产品，其中，所述分类是基于变换规则的分类。

35.根据权利要求33所述的计算机程序产品，其中，所述规则是拼写校正变换规则，所述指令还包括：

使用利用可疑输入条目和所述至少一个可能的选择形式的变换规则发生器，生成和训练所述拼写校正变换规则。

36.根据权利要求35所述的计算机程序产品，其中，使用可疑输入条目的数据库自动生成所述拼写校正变换规则。

37.根据权利要求33所述的计算机程序产品，其中，以自动监控和人工监控中的至少一种执行所述分类。

38.根据权利要求33所述的计算机程序产品，其中，所述指令还包括：

接收所述第一语言的用户输入；

确定是否有任何规则应用到所述用户输入；

在确定至少一个规则应用到所述用户输入时，生成对应于所述用户输入的所述第一语言的至少一个候选形式；

使用比所述用户输入具有更高的相似性的所述用户输入的至少一个候选形式给出拼写校正建议和进行拼写校正中至少一个。

39.根据权利要求38所述的计算机程序产品，所述指令还包括：

维持停止规则模式的用户可编辑表，所述停止规则模式禁止对用户输入和候选形式的特定指定组合给出所述拼写校正建议或进行拼写校正。