CN101133411A

CN101133411A - 非罗马字符的容错罗马化输入方法

Info

Publication number: CN101133411A
Application number: CNA2005800367128A
Authority: CN
Inventors: 吴军; 陈利人
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2004-08-25
Filing date: 2005-08-15
Publication date: 2008-02-27
Anticipated expiration: 2025-08-15
Also published as: US9069753B2; CN101133411B; US7810030B2; WO2006026156A2; WO2006026156A3; US20110022952A1; US20060048055A1; US20080028303A1

Abstract

本发明公开容错系统和方法以处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误。该方法可以用于使用拼音的汉语输入方法。例如，该方法通常包括接收代表汉字的拼音输入，该输入至少有一个初始拼音，识别输入中的潜在错误拼音。把每一个潜在错误拼音都扩展为至少一个附加可选拼音，每一对潜在错误和相应的可选拼音都具有近似性测量，把每一个输入的拼音和每一个可选拼音都转换成汉字，计算拼音输入可能转换成汉字的可能性，每一个可能的汉字转换都是该输入的被转换的初始和/或可选拼音的结合，概率基于近似性测量并可选地根据可能的汉语转换的上下文语境，从可能的转换中确定最有可能的汉语转换。

Description

非罗马字符的容错罗马化输入方法

发明领域

本发明总的来说涉及了处理基于非罗马系的语言，更具体来说，涉及了容错系统和方法以处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误。

背景技术

拼写校正通常包括检测错误词并且确定对错误词的适当替换。基于罗马语言如英语的大部分字母拼写错误，是指出现了词汇表以外的词，如“thna”应该是“than”，或本身正确但不适当的用在其语境(或称上下文)的词，如“stranger then”应该是“stranger than”。检测和纠正在基于罗马语言的词汇表之外的那些拼写错误的拼写检查器是公知的。

诸如汉语、日语和韩语(CJK)等基于非罗马系语言的用户经常使用基于罗马(用字母形式)输入方法。例如，很多汉语用户使用拼音(语音拼写)输入汉字。然而，汉语用户可能由于如其自身方言/或口音等因素而并不知道某些汉字的正确发音(拼音)，从而会键入错误的拼音输入。

典型说来，常规的拼音输入系统转换拼音输入，并提供候选汉字集合列表供用户可以从中选择预期的汉字集合。然而，由于很多拼音输入方法只有低容错性或根本没有容错性，造成用户所预期的汉字集合可能不在候选列表中。

另外，诸如汉语、日语和韩语(CJK)等基于非罗马系语言通常在任意计算机字符集中，例如UTF-8字符集中，没有非法字符进行编码，这就会经常出现许多拼写错误是由于合法字符被不正确地用于上下文语境而不是词汇表之外的拼写错误。在汉语中，词汇的正确使用通常只能在上下文语境中确定。因此，基于非罗马系的语言的有效拼写检查器应该利用语境信息来确定文中的哪些字和/或词不合适。

对诸如CJK语言等基于非罗马系语言的拼写校正也是复杂而具有挑战性的，原因在于，CJK词汇定义不清造成了这类语言没有标准字典。例如，在汉语中，有些人认为“北京市”是一个词，而另一些人又认为其为两个词。相对说来，英语字典/词汇表查找是英语拼写校正的关键特性，因此，英语拼写校正方法并不能简单用于CJK语言。此外，汉语具有大量的同形异义词和同音词，以及造成含糊的隐藏词汇分界，使得有效可行的汉语拼写校正复杂化且难于实现。由于汉语和英语之间有如此明显的区别，使得许多适用于英语拼写校正的有效技术却并不适用于汉语拼写校正。

因此，需要一种计算机系统和方法，用于高效、可行及准确地处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的拼写错误。

发明内容

本发明公开了处理并校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误的容错系统和方法。特别，本系统和方法使用隐含马尔可夫模型(Markov model)和具有容易混淆发音的拼音的相似性矩阵。在容错拼音输入方法中，如果发音相似，一对易混相似拼音之间的近似性则可以是一个正数，否则，该值就是零。在一实施例中，所述近似性可以是值在0和1之间的概率或称可能性。本系统和方法特别适合那些基于环球网的搜索引擎以及例如，用工具栏和桌面栏实现的、客户端可下载的应用程序，但也可以用于其他各种应用程序。应该被意识到的是，本发明可以用多种方式实现，包括处理程序、装置、系统、设备、方法或诸如计算机可读存储介质的计算机可读介质或者，其中的程序指令是在光或电通讯线上传送的计算机网络。术语“计算机”通常指具有计算能力的任意设备，如个人数字助理(PDA)、手机、以及网络开关。本发明的一些发明实施例如下所述。

容错输入方法通常包括：接收用表示一种语言字符的格式的输入，该输入至少有一个初始组件，识别潜在错误的输入组件，将每一个潜在错误组件都扩展为至少一个附加可选组件，每一对潜在错误组件及其相应的可选组件都具有近似性测量，将每一输入组件和每一可选组件都转换成语言，计算这个输入可能转换为该语言字符的概率，每一个可能转换都是所述输入的经过转换的初始和/或其可选输入组件的结合，概率基于近似性测量并可选地根据可能转换的语境，以及，从所述可能的转换中确定最有可能的转换。

作为一个例子，该方法可以应用于使用拼音的汉语输入方法。例如，该方法可以包括：接收一拼音输入，其中有表示汉字的至少一个初始拼音，识别潜在的错误拼音，将每一个潜在错误拼音都扩展为至少一个附加可选拼音，每一对潜在错误及其相应的可选拼音都具有近似性测量，将输入的拼音及其可选拼音都转换为汉字，计算所述拼音输入可能转换为汉字的概率，每一个可能的汉语转换都是所述输入的经过转换的初始和/或其可选拼音的结合，概率基于近似性测量并可选地根据可能的汉语转换的上下文语境，以及，从所述可能的转换中确定最有可能的汉语转换。

识别潜在错误输入组件的过程可以基于成对的易混相似组件，而这些组件又可以基于容易混淆的成对元音和辅音。每一个潜在错误都至少可与一个易混相似可选项相关，因此，所述扩展就包括了把每一个潜在错误组件都扩展为每一个与其相关的附加可选组件。转换过程可以在每个组件上单独进行和/或在多个组件上结合进行。所述确定最有可能的转换的过程可以包括确定多个最有可能的转换。例如，最可能的转换可以包括至少一个仅从该输入的初始组件进行转换的可能初始转换。最可能的转换还可以包括可能的被修改转换，而其又至少包括一个被转换的可选组件，举例来说，如果所述可能的被修改转换的概率超过了可能初始转换的概率某一预先确定阈值的话。

该语言可以是诸如汉语、日语和韩语(CJK)或泰国语等基于非罗马系的语言。在这个例子，语言是指汉语且更典型是指简体汉字，格式可以是拼音。该方法可以用于诸如输入是用户搜索查询的搜索引擎之类的多种应用程序。各种其他系统可以类似地使用诸如语言输入系统这样的容错输入方法。

容错输入系统通常包括：用于接收至少一个以代表语言字符的格式的初始组件输入的接收器，用于识别所接收输入的潜在错误组件的识别器，用于把每一个所接收输入的潜在错误组件都扩展为至少一个有所述格式的附加可选组件的扩展器，每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量，用于把每个所接收输入的组件和每个有所述格式的附加可选组件都转换为语言的转换器，用于计算所接收的输入转换成语言字符的可能转换概率的计算模块，每个可能转换都是所接收输入的被转换的初始和/或可选组件的结合，概率至少部分依据近似性测量，以及，用于从可能输入转换中确定最有可能的语言字符转换的输出模块。

计算机程序产品用于与计算机系统相结合，计算机程序产品通常包括计算机可读存储介质，其上存储着计算机处理器执行的指令，其指令又包括接收以代表语言字符的格式的输入，这些输入至少有一个初始组件，识别潜在错误输入组件，将每一个潜在输入错误组件都扩展为至少一个附加可选组件，每一对潜在错误组件及其相应的附加可选组件都具有近似性测量，将每个输入组件和每个附加可选组件都以所述格式转换为语言，计算输入转换为语言字符的可能转换概率，每个可能转换都是所输入的被转换的初始和/或可选输入组件的结合，概率至少部分依据近似性测量，以及，从可能输入转换中确定最有可能的语言字符转换。

生成近似性测量的方法通常可包括：收集以代表语言字符的格式的用户输入以及从所述用户输入被解码到语言的相应候选的用户选择比率，把具有选择比率低的候选选择的用户输入识别为非被选择输入，确定被键入的而未被任一被解码的候选所进行用户选择的每一个非被选择输入的百分比，分配一个在易混相似性方面接近的被修改的输入给每个相应非被选择输入以作为相应的预期输入，所修改的输入比与其相应的非被选择输入有更高的候选选择比率，根据相应的非被选择输入作为输入的被键入次数和根据其中未被用户选择过的任意一个被解码候选的相应非被选择输入的被键入次数，为每对被修改输入和非被选择输入确定近似性测量。易混相似性可以根据成对用所述格式的易混相似元素的某一列表来决定，而通过一对或多对易混相似元素，被修改输入和相应的非被选择输入相互进行区分。

执行本系统和方法的应用程序可以在诸如搜索引擎的服务器场所进行，也可下载到诸如用户计算机的客户端进行，以为对输入到文档中的文本所进行的拼写校正作好准备，或者来作为诸如搜索引擎等远程服务器的接口。

本发明的这些和其他特点和益处将在下面说明书中详细介绍和描述，并以附图形式来图示本发明的示例性原理。

附图说明

本发明可以通过下面图文并貌的详细描述而被容易理解，图中相似的引用符号指明相似的结构元素。

图1是汉语元音和辅音中常见易混发音对的示例性集合的列表。

图2是包含了潜在错误(易混淆)输入拼音得出各种预期拼音概率的易混拼音的相似性矩阵。

图3是自动将易混拼音输入转换为可包含与正确拼写的拼音输入相应的一个或多个候选项的候选集合的处理流程图。

图4是从一个示例性拼音输入“zhong guo zhen fu”且根据图1的“汉语元音和辅音中常见易混发音对列表”而生成的易混拼音列表。

图5是对于示例性拼音输入“zhong guo zhen fu”而从图4的易混拼音列表中生成的汉字或词的转换列表。

图6是显示以图4和5的示例性拼音输入“zhong guo zhen fu”的易混拼音，其中一些的汉字和词的转换，以及用于该示例性拼音输入的这些汉字/词转换的每对之间过渡关系的网格图。

图7是两条图示的用户界面，其各自表示了以图4到6示例性拼音输入“zhong guo zhen fu”的三个最有可能的候选转换的一个候选列表，包括与拼写校正过的拼音输入相应的一个候选转换。

图8是分别显示经过和不经过容错输入处理的字符转换准确率相对于易混拼音输入错误率之关系的示图。

图9是分别显示经过和不经过容错输入处理的查询转换准确率相对于易混拼音输入错误率之关系的示图。

图10是展示用于训练容错输入处理器的处理流程图。

具体实施方式

本发明公开了处理和校正诸如汉语、日语和韩语(CJK)等基于非罗马系语言的输入拼写错误的容错系统和方法。本文描述的容错输入系统和方法总的来说涉及到利用源自用户的输入条目和诸如查询日志的相关用户选择的概率来处理、检测并校正拼写错误。需要注意的是，仅为了达到清楚的目的，本文所举出的例子总的来说根据的是处理、检测和校正汉语拼音输入。然而，检测并校正拼写错误的系统和方法也可以类似地适用于诸如日语、韩语、泰国语等其它基于非罗马系的语言。下面的描述说明能使得本领域的任何技术人员都可以作出并使用本发明。具体实施和应用方式仅提供实例并且各种修改对那些本领域的技术人员来说是容易且清楚的。本文定义的一般原则可以被用于其他的实施例和应用程序而不脱离本发明精神和范围。因此，本发明将被给予最宽的范围，包括大量与本文公开的原则和特性相一致的替代，修改和等同物。出于达到清楚的目的，只要没有引起对本发明不必要的含混模糊，在与本发明有关的技术领域已经公知的技术资料之细节就不再赘述。

诸如汉语、日语和韩语(CJK)等基于非罗马系语言的用户经常使用基于罗马(用字母形式)输入方法。例如，很多汉语用户使用拼音(语音拼写)输入汉字，以用于如搜索引擎的搜索查询。拼音是主要用于输入简体汉字的语音输入方法。像本文所提到的，拼音通常指的是表示汉字的语音，汉字的表示可以有或没有音调(四声)。特别地，本文所用的“拼音”指的是用于简体或繁体汉语的所有语音符号，包括注音符号(Bopomofo)。

一些汉语用户可能由于其自身方言或口音等因素而并不知道某些汉字的正确拼音，因此会键入错误的拼音输入。然而，尽管有错误的拼音输入，容错拼音输入处理系统仍可以把错误的拼音输入进行转换，并意图提供包括用户预期的汉字集合在内的候选汉字集合表。

最经常的是，归结于错误发音的拼音拼写错误是基于一组元音和辅音的易混发音对。换言之，大量归结于错误发音的拼音拼写错误都可能是由于用户把某个元音或辅音易混对中的一个混淆成另一个而引起的。图1的表格列出了成对的通常容易混淆的汉语元音和辅音发音的一组示范性例子。列在图1中的易混辅音和/或元音的发音对于许多汉语用户是相似和易混的，因此包含一个或多个易混辅音和/或元音的拼音输入就可能被拼错。应理解，附加和/或可选的易混辅音和/或元音可以存在并可以被本文描述的容错输入系统和方法所考虑，图1仅仅是应用在本文描述的系统和方法的一组示范性例子。如图所示，常见易混辅音对可以包括卷舌音和平舌音，如sh/s，ch/c等等，和其它种类的易混辅音对如h/f，l/n等等。常见易混元音可以包括前鼻音和后鼻音如an/ang，in/ing等等。

为了识别和校正拼音输入错误，由给定输入拼音得出的预期拼音的概率可以用来方便确定输入的拼音是否可能是错误的，而如果是错的，还要确定最可能被校正的或预期的拼音和/或根据被校正和预期拼音得出最可能的拼音到对应的字符/词的转换。由给定输入拼音P得出的预期拼音P’的概率，即p(P’|P)，的汇集可以在相似性矩阵中被提供，相似性矩阵在本文也叫做模糊拼音矩阵。图2就是易混拼音对的规范化相似性或模糊拼音矩阵的例子。本文所称的易混拼音，通常涉及到包含所识别的、被如图1列出的常见易混辅音或元音对之中的至少一对的拼音。换言之，易混拼音是容易发错音的，并因此造成基于如图1所示的常见易混发音对集合的拼写错误。其它所有拼音都是非易混拼音，即，不包含在所识别的、被如图1列出的常见易混辅音或元音对之中任一对的拼音。

再参考图2，相似性矩阵的每个单元都指出了当用户键入拼音P时为实际真正预期拼音P’的可能性有多大。矩阵包含给定的易混输入拼音P对各种可能预期拼音P’的概率。空单元表示其值为0，即，相应该拼音对内两者之间不会混在一起。举例说明，给定一输入拼音P“lin”，用户预期拼音P’可以是“lin”(初始输入拼音，即P’＝P)，“ling”(in-ing是图1中的易混对)，“nin”(l-n易混对)，或“ning”(l-n和in-ing都是易混对)。每个可能的预期拼音P’都对应着给定输入拼音P得出的用户预期拼音P’经过估计或计算的概率。

相似性矩阵的建立可以根据汉语发音的一些知识或推想，并可选地根据汉语用户出错频率统计。这些知识和/或统计可以从例如搜索查询日志中获得。仅为了达到减少计算复杂性的目的，模糊拼音矩阵一旦被建立，错误拼写就可以不依赖上下文语境作出推断，尽管这样的推断也许并不正确。

图2的矩阵是所有可能易混拼音对的一个小的子集，且仅示出了可被计算出来的、或另外被指定到相关易混拼音对的一些可能性或概率，不同的可能性或概率可以类似地被计算或另外指定。特别，假设图1的表列出了所有汉语元音和辅音的易混对，那么，约408个汉语拼音中大概一半会与其它易混汉语拼音相混淆。键入拼音P而出现预期拼音P’的、经过估算的概率可以用于确定输入拼音是否可能被拼错，并且，如果错了，就要确定最有可能正确或预期的拼音或候选字符，上下文语境相关的概率还可以用来确定一组可能的候选汉字以提高此项确定的准确率。被估算的概率能够用于确定相应汉字的概率。因此，给定的拼音(初始输入或其它)越可能是预期拼音，则是相应汉字的概率也就越高。仅作为实例，如果每个预期输入“san”和“shan”被错发音或错拼成“shang”的可能性分别近似为1％和3％，则相应于拼音“san”的汉字的权重就被分配为相应于拼音“shan”的汉字的三分之一。因此，出现了几乎等同于未考虑易混拼音的那种混乱性。混乱性产生的原因是由于给定语境的可能字符为平均数。混乱性越高，字符就越不确定。

图3是展示处理过程20的流程图，该过程自动把可包含一个或多个易混拼音的拼音输入转换为可包含与正确拼写的拼音输入相应的一个或多个汉字集的候选汉字集合。在步骤22，用户拼音输入被接收，在步骤24，拼音输入中如果有任意易混拼音，则其每个易混拼音就都被识别并扩展为包含其它的可能预期拼音。在步骤26，最可能的转换候选被确定。在执行步骤24和26中，如图2所示的模糊拼音相似性矩阵可被用来识别对于给定的易混拼音的可能预期拼音及其相应的概率。另外，在步骤26，确定最可能的转换的过程中，上下文相关的概率也可以被运用。在步骤28，前N(例如3)个最可能的转换候选呈现给用户。

适合于诸如在步骤26执行的、把每个模糊拼音都转换为汉字和/或词的多种机制可以被应用。例如，各种解码器适用于把拼音转换为汉字(汉语字符)。在一实施例，使用隐含马尔可夫模型的Viterbi解码器可以被执行。隐含马尔可夫模型的训练，举例来说，可以通过收集经验数据或通过计算期望值和执行迭代最大化处理过程来实现。Viterbi算法是根据马尔可夫通信通道中的输出观察来对源输入进行解码的有用有效的算法。Viterbi算法已经被成功地应用于各种自然语言处理的应用程序，诸如语音识别，视觉字符识别，机器翻译，语音标注，分析和拼写检查。然而，应该明白，除了马尔可夫假设，各种其它合适的假设也可以用于实现解码算法。此外，Viterbi算法仅是一个可执行的合适解码算法，而各种其它合适的解码算法，诸如有限状态机，贝业斯网络(Bayesian network)，决策阶段(decision plane)算法(即，一种高维数Viterbi算法)，或BCJR算法(两次向前/向后的Viterbi算法)等等均可被使用。

图4-6示出了处理过程20的一个实例，它把作为例子的易混拼音输入“zhong guo zhen fu”转换为可包括了与某一拼写校正拼音输入相对应的一个或多个汉字组的候选汉字集合。具体来说，图4是把易混拼音输入“zhong guo zhen fu”中的每个拼音都根据汉字元音和辅音常见易混发音对列表扩展为相应的易混或模糊拼音(即，初始拼音和任何其它易混拼音)。例如，可查看如图2所示的相似性矩阵以便把易混拼音输入中的每个拼音都扩展为与其相应的易混或模糊拼音。如图所示，每个“zhong”，“zhen”和“fu”都分别被扩展为多个易混拼音。相比之下，而仅仅与自身有关的“guo ”通常不会与其它任何拼音相混淆，也就是说不会含混。

图5是一个表格，它列出了从图4的示例性拼音输入“zhong guozhen fu”的模糊或易混拼音扩展表所产生的汉字或词的一些可能转换。如图所示，不考虑上下文，每个汉语拼音都能对应多个汉字。例如，拼音“fu”可以对应幅、府、福、夫等等，而拼音“hu”对应胡、湖、虎等等。此外，两个或更多个拼音可以组成一汉语词，而多个拼音也可以被转换为同一个汉语词。例如，拼音“zhong guo”可以被转换为中国人或中国。

图6是显示以图4和5中示例性拼音输入“zhong guo zhen fu”的易混/模糊拼音，其中一些汉字或词的转换，以及用于该示例性拼音输入这些汉字/词转换每对之间的过渡关系的网格图。如图所示，每个模糊拼音节点都与模糊拼音的概率p(P’|P)，即给定的输入拼音P得出预期拼音P’的概率相关。例如，模糊拼音“zong”和“zhong”成为输入拼音“zhong”的预期拼音的概率p(zong|zhong)和p(zhong|zhong)分别为0.15和0.85。注意，因为输入拼音“guo”仅与自身有关，它的概率就被赋值为1.0。

图6还示出了一些模糊拼音转换成的汉字或词以及每个可能对的汉字/词转换之间的一些过渡关系。仅为了达到清楚的目的，并不是所有的模糊拼音到汉字或词的转换都被列出，同样也没有把所有转换的过渡都列出来。例如，每个链接或过渡的概率都可以根据语境而被赋值。因此，每种可能路径(即从最前一个到最后一个的拼音转换)的概率或可能性都可以被确定。在一实施例中，给定路径的概率范围可以根据该路径中每个节点概率的乘积来确定，亦即根据路径中每个链接的概率来确定。

图7是两条用户界面的形式，各自表示了图4到6中示例性拼音输入“zhong guo zhen fu”的N(例如3)个最可能的可选择转换的候选列表，注意，各种其它适当的用户界面也可以被使用。展现给用户的前N个可能的转换候选可以既从初始输入产生的候选中，也从使用容错方法产生的候选(如果有的话)中选择。是否显示拼写校正转换候选的决定可以依据：例如，拼写校正候选的概率值是否超过了第一和/或第二个最可能的初始输入候选概率的最小预先确定阈值。如图所示，前两个最可能的候选转换30，32是来自初始拼音输入“zhong guo zhen fu”的转换，而第三个候选转换34则是来自拼写校正拼音输入“zhong guo zheng fu”的转换。特别地，候选转换30对应于图6所示的中国-振-幅路径，而候选转换32对应于图6所示的中国-振-富路径。拼写校正候选转换34对应于图6所示的中国-政府路径。

拼写校正或模糊候选转换34可以表现为与初始拼音候选转换30，32不同的方式以便指给并提醒用户模糊转换34对应的是拼写校正拼音输入而不是初始拼音输入。仅仅作为例子，被校正的候选转换34可以被显示为不同颜色和/或不同字体(字号，下划线，黑体，和/或斜体等)。

图8是分别显示具有(上曲线)和不具有(下曲线)容错输入处理的字符转换准确率和易混拼音输入错误率之间相对关系的图形。易混拼音输入错误率(X坐标)指的是被错误键入的易混拼音的百分比。例如，图8的图形可以从一组诸如用户查询的用户输入中产生。如图所示，易混拼音输入错误率为0％时的转换准确率大约可有96％之高。然而，如果字符输入中的拼音有任何错误，也就是与另一个近似发音的拼音发生混淆，则字符转换准确率就会下降。下曲线表明不使用容错(模糊)拼音输入处理时，随着易混拼音输入错误率的增加，字符转换准确率相对明显下降。例如，当易混拼音输入错误率为100％时，字符转换准确率下降到大约62％。注意，即使输入的所有易混拼音都错了，由于输入中可以包含非易混拼音，所以即便在易混拼音输入错误率为100％时，转换准确率也不会是0％。上曲线表明使用容错(模糊)拼音输入处理后，即使当易混拼音输入错误率增加时，字符转换准确率也降低的很慢。例如，即便在易混拼音输入错误率为100％时，字符转换准确率也保持相对不变。

图9是分别显示具有(上曲线)和不具有(下曲线)容错输入处理的查询转换准确率和易混拼音输入错误率之间相对关系的图形。如果给定查询中的一个词或字被错误转换，则整个查询就被认为错误。例如，一个查询包含4个字，其中的1个是非易混的而3个是易混的，且若这3个易混拼音中的1个出错，那么该查询就会有33％的易混拼音输入错误率。有鉴于此，在查询级的转换准确率就要低于字符级，这一点参考以上图8所示出和描述。易混拼音输入错误率(X坐标)代表查询输入中易混拼音被错误键入的百分比。如图所示，查询易混拼音输入错误率为0％时转换准确率可高达约85％。然而，如果查询输入中的拼音有任何错误，也就是说与另一个近似发音的拼音发生混淆，则查询转换准确率就会下降。下曲线表明不使用容错(模糊)拼音输入处理时，随着易混拼音输入错误率的增加，查询转换准确率相对明显下降。例如，当易混拼音输入错误率为100％时，查询转换准确率下降到大约25％。上曲线表明使用容错(模糊)拼音输入处理后，即使当易混拼音输入错误率增加时，查询转换准确率也降低得很慢。例如，即便在易混拼音输入错误率为100％时，查询转换准确率也下降的很小，几乎还是大约80％。

图10是展示处理过程40的流程图。该处理过程用于训练容错输入系统和方法，并且更具体地用于生成如图2所示的相似性矩阵。特别是，生成相似性矩阵的处理过程可以利用从用户拼音输入及其相关的用户选择这两者中收集的数据，以便生成模糊拼音概率。通过使用一组输入来训练相似性矩阵，拼音输入中的拼写错误可能性就可以被确定并被处理，从而提高容错输入系统的效率和效果。

训练容错输入系统和方法的以及更具体地用于生成相似性矩阵的处理过程可以使用从用户拼音输入及其相关的用户选择这两者中收集的数据，以便生成模糊拼音概率。例如，在搜索引擎的语境中，用户查询和被用户选择的被转换的查询均被追踪和处理。例如，在步骤42，关于用户拼音输入的和被每个相应转换/解码候选项的用户选择的比率的数据都被收集起来。通过使用一组实际用户输入来训练相似性矩阵，拼音输入中的拼写错误可能性就可被确定并被处理，从而提高容错输入系统的效率和效果。

当至少包含一个拼写错误拼音的输入拼音被键入时，由于通常没有一个候选对应于用户的预期输入，则用户往往不会选择任何常规的转换(即，未经容错处理的转换)候选。相反，当用户正确键入一拼音输入时，可能就会有一个转换汉语候选被选择。因此，在步骤44，被候选选中比例很低的非被选择拼音输入就被识别为可包含与预期拼音P’可能有一定区别的拼错拼音P的那些拼音输入。此外，在步骤46，用户键入的拼音输入中没有被转换候选所选中的百分比或比率就被确定为近似性测量(概率)p(P’|P)。

处理过程40还为非被选择错误拼音输入确定所有可能的正确(预期)拼音输入。特别地，在步骤48，对每个非被选择拼音输入来说，在易混相似性方面与所述非被选择拼音输入相关的且具有相对较高(或最高)用户选择比例(即，接近根据诸如图1所示的易混拼音元素对所确定的编辑距离(editing distance))的拼音输入就被确定为预期拼音输入。换言之，易混相似性根据易混相似拼音对列表来确定。因此，拼错的拼音P(包含在初始拼音输入中)与预期拼音P’(包含在预期拼音输入中)通过一对或多对易混相似拼音元素来相互区别。

在步骤50，近似性测量用来关联每对易混拼音P和P’。例如，非被选择拼音输入和预期拼音输入可以被比较以确定错误拼音P和预期拼音P’。与易混拼音对P和P’相关的近似性测量就涉及到了用户键入拼音输入P和预期输入为P’的可能性，即，输入拼音P应被拼音P’所替代的频度。具体来说，给定易混拼音对P和P’的近似性测量p(P’|P)(在步骤46被确定)被确定为n(P-＞P’)/n(P)，其中，n(P)是拼音输入P被用户键入的次数，n(P-＞P’)是拼音输入P应被与其相应的模糊拼音P’所替代的次数，也就是用户不曾从候选转换列表进行选择的次数。

显然，处理过程40中各步骤的顺序仅仅是图示性的且是可以改变的。此外，注意，相似性矩阵一旦生成则可以保持固定，也可以随着时间根据新用户拼音输入和选择数据逐步来被定期修改。如果没有足够的数据量来产生有意义的概率，则将用另外一个生成相似性矩阵的处理过程来为每对易混拼音之间的相似性(概率)都设置一个估计常数值。例如，可以假设用户预期拼音“shan”而键入拼音“shang”的可能性或概率为0.03。注意，对于给定的易混输入拼音P来说，输入拼音就是预期拼音(即P’＝P)的可能性或概率与输入拼音不是预期拼音的可能性或概率之总和应大约为1.0。

提示，本文描述的图示化容错输入系统和方法特别适用于环球网搜索引擎的语境和包含经过组织的数据的数据库搜索引擎。然而，应该明白，所述容错输入系统和方法可以被改变用在其他各种应用程序，特别是对于非罗马化语言条目进行拼写错误检查和校正。举例来说，该系统和方法可以用于CJK文本输入应用程序，如，字词处理应用程序，以进行拼写错误检查和校正。

容错输入系统和方法特别适合用在基于非罗马系的语言，并且在发现拼写错误以及从带有拼写错误的拼音输入中校正汉字这两方面具有高效率。这样的容错输入系统和方法就使得汉语用户可以使用近似发音来输入汉字词而不必用精确的拼音。该方法还可以用上下文语境以进一步降低不确定性和/或迷惑性。

本文说明和图示了本发明的多个示例性实施例，值得理解的是，它们仅仅用于图示，并且可对这些实施例进行修改而不偏离本发明的精神和范围。因此，本发明的范围意图为仅根据可被修改的权利要求所定义，每个权利要求都与本“具体实施方式”中的发明实施例明确相结合。

Claims

1.一种容错输入处理方法，包括：

接收用代表一种语言字符的格式所进行的输入，所述输入至少有一个初始组件；

识别所述输入的多个潜在错误组件；

将所述输入的每一个潜在错误组件都扩展为用所述格式的至少一个附加可选组件，每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量；

把所述输入的每一个组件和用所述格式的每一个附加可选组件都转换成所述语言；

计算所述输入可能转换为所述语言字符的可能性，每一个可能转换都是所述输入的被转换的初始和/或可选组件的结合，所述可能性至少部分依据所述近似性测量；以及

从所述输入的可能转换中确定最可能的语言字符转换。

2.根据权利要求1所述的方法，其中，所述识别该输入的潜在错误组件的过程基于成对易混相似组件。

3.根据权利要求1所述的方法，其中，所述识别该输入的潜在错误组件的过程基于容易混淆的成对元音和辅音。

4.根据权利要求1所述的方法，其中，每个潜在错误组件都是与至少一个易混相似的附加可选组件相关，以及其中，所述扩展的过程包括：把每个潜在错误组件都扩展为与所述潜在错误组件相关的每一个附加可选组件。

5.根据权利要求1所述的方法，其中，所述每个组件的转换包括：每个组件单独的转换和多个组件结合的转换这两者其中之一。

6.根据权利要求1所述的方法，其中，所述计算可能性的过程也基于所述可能转换的语境。

7.根据权利要求1所述的方法，其中，所述确定最可能转换包括：确定多于一个的最可能转换。

8.根据权利要求1所述的方法，其中，所述最可能的转换包括：仅仅包含所述输入的被转换的初始组件的第一可能转换；以及，至少包含所述输入的一个被转换的可选组件的第二可能转换，如果所述第二可能转换的可能性超过所述第一可能转换的可能性一个预先确定的阈值的话。

9.根据权利要求1所述的方法，其中，所述语言是指基于非罗马系的语言。

10.根据权利要求1所述的方法，其中，所述语言是汉语，以及所述格式是拼音。

11.根据权利要求1所述的方法，其中，所述输入是指用户搜索查询。

12.一种容错输入系统，包括：

接收器，用于接收以代表一种语言字符的格式的至少一个初始组件的输入；

识别器，用于识别所接收输入的潜在错误组件；

扩展器，用于把每一个所接收输入的潜在错误组件都扩展为至少一个有所述格式的附加可选组件，每一对所述输入的潜在错误组件及其相应的附加可选组件都具有近似性测量；

转换器，用于把每个所接收输入的组件和每个有所述格式的附加可选组件都转换为所述语言；

计算模块，用于计算所接收输入转换成语言字符的可能转换的可能性，每个可能转换都是所接收输入的被转换的初始和/或可选组件的结合，该可能性至少部分依据所述近似性测量；以及

输出模块，用于从所述输入的可能转换中确定最可能的语言字符转换。

13.根据权利要求12所述的系统，其中，所述识别器进一步用来基于成对易混相似组件进行识别。

14.根据权利要求12所述的系统，其中，所述识别器进一步用来基于容易混淆的成对元音和辅音进行识别。

15.根据权利要求12所述的系统，其中，每个潜在错误组件都是与至少一个易混相似的附加可选组件相关，以及其中，所述扩展器进一步用来把每个潜在错误组件都扩展为与所述潜在错误组件相关的每一个附加可选组件。

16.根据权利要求12所述的系统，其中，所述转换器进一步用于通过每个组件单独的转换和多个组件结合的转换这两者其中之一来转换每一组件。

17.根据权利要求12所述的系统，其中，所述计算模块进一步用于依据所述可能转换的语境来计算可能性。

18.根据权利要求12所述的系统，其中，所述输出模块进一步用来确定多于一个的最可能转换。

19.根据权利要求12所述的系统，其中，所述最可能的转换包括：

仅仅包含所述输入的被转换的初始组件的第一可能转换；以及，至少包含所述输入的一个被转换的可选组件的第二可能转换，如果所述第二可能转换的可能性超过所述第一可能转换的可能性一个预先确定的阈值的话。

20.根据权利要求12所述的系统，其中，所述语言是指基于非罗马系的语言。

21.根据权利要求12所述的系统，其中，所述语言是汉语，以及所述格式是拼音。

22.根据权利要求12所述的系统，其中，所述系统是搜索引擎，以及所接收的输入是搜索查询。

23.一种计算机程序产品，用于与计算机系统相结合，所述计算机程序产品包括计算机可读存储介质，其上存储着可在计算机处理器执行的指令，这些指令包括：

识别所述输入的多个潜在错误组件；

将所述输入的每一个组件和用所述格式的每一个附加可选组件都转换为所述语言；

计算所述输入转为所述语言字符的可能转换的概率，每个可能转换都是所述输入的被转换的初始和/或可选组件的结合，所述概率至少部分依据近似性测量；以及

从所述输入的可能转换中确定最可能的语言字符转换。

24.根据权利要求23所述的计算机程序产品，其中，所述识别该输入的潜在错误组件基于成对的易混相似组件。

25.根据权利要求23所述的计算机程序产品，其中，所述识别该输入的潜在错误组件基于容易混淆的成对元音和辅音。

26.根据权利要求23所述的计算机程序产品，其中，每个潜在错误组件都是与至少一个易混相似的附加可选组件相关，以及其中，所述扩展包括：把每个潜在错误组件都扩展为与所述潜在错误组件相关的每一个附加可选组件。

27.根据权利要求23所述的计算机程序产品，其中，所述每个组件的转换包括：每个组件单独的转换和多个组件结合的转换这两者其中之一。

28.根据权利要求23所述的计算机程序产品，其中，所述计算概率也基于所述可能转换的语境。

29.根据权利要求23所述的计算机程序产品，其中，所述确定最可能转换包括：确定多于一个的最可能转换。

30.根据权利要求23所述的计算机程序产品，其中，所述最可能的转换包括：仅仅包含所述输入的被转换的初始组件的第一可能转换；以及，至少包含所述输入的一个被转换的可选组件的第二可能转换，如果所述第二可能转换的概率超过所述第一可能转换的概率一个预先确定的阈值的话。

31.根据权利要求23所述的计算机程序产品，其中，所述语言是指基于非罗马系的语言。

32.根据权利要求23所述的计算机程序产品，其中，所述语言是汉语，以及所述格式是拼音。

33.根据权利要求23所述的计算机程序产品，其中，所述输入是指用户搜索查询。

34.一种生成近似性测量的方法，包括：

收集以代表语言字符的格式的用户输入和从所述用户输入被解码到所述语言的相应候选的用户选择比率；

把具有候选选择低比率的用户输入识别为非被选择输入；

分配一个易混相似性方面接近的被修改的输入给每个相应的非被选择输入以作为相应的预期输入，所修改的输入比相应的非被选择输入有更高的候选选择比率；以及

基于被键入为输入的而不被任一被解码的候选进行用户选择的相应非被选择输入的百分比，来为每对被修改的输入和非被选择的输入确定近似性测量。

35.根据权利要求34所述的方法，其中，所述易混相似性基于成对以所述格式的易混近似元素的一个列表以及，通过一对或多对易混近似元素，所修改的输入和相应的非被选择输入相互区分。

36.根据权利要求34所述的方法，其中，所述语言是指基于非罗马系的语言，以及所述格式是所述语言的罗马化字符表现。

37.根据权利要求34所述的方法，其中，所述语言是汉语，以及所述格式是拼音。

38.根据权利要求34所述的方法，其中，所述用户输入是用户搜索查询。