CN1954315A

CN1954315A - 用于将汉语拼音翻译成汉字的系统和方法

Info

Publication number: CN1954315A
Application number: CNA2005800156697A
Authority: CN
Inventors: 吴军; 朱会灿; 朱鸿隽
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2004-03-16
Filing date: 2005-03-16
Publication date: 2007-04-25
Anticipated expiration: 2025-03-16
Also published as: WO2005091167A2; GB2427944A; WO2005091167A3; US20050209844A1; US20090070097A1; GB0620176D0; US8660834B2; CN1954315B; US7478033B2

Abstract

本发明披露了一种用于将拼音处理并翻译成汉字和词的系统和方法。通过以下处理训练汉语语言模型：从诸如文件和/或用户输入/查询的汉语输入中提取未知字符串；从未知字符串中确定有效词；以及基于汉语输入生成用于预测给定语境的词串的转换矩阵。用于翻译拼音输入的方法通常包括：使用包括从汉语输入得到的词的汉语字典和基于汉语输入训练的语言模型从拼音输入生成一组汉字符串，每个字符串均具有表示字符串对应于拼音输入的可能性的权重。可以通过识别用户输入中的不确定的拼音/非拼音ASC II词以及分析语境以分类用户输入，来将不确定的用户输入分类成非拼音或拼音。

Description

用于将汉语拼音翻译成汉字的系统和方法

技术领域

本发明广泛地涉及将汉语拼音翻译成汉字。更具体地，本发明披露了使用计算机将拼音汉语文本或拼音处理并翻译成汉字和词的系统和方法。

背景技术

在计算机上输入和处理汉语语言文本是非常困难的。这部分地是由于汉字的绝对数，还由于产生不确定的具有文本标准化、多个同音异义字、和隐形(或隐藏)词界的汉语语言中的固有问题，这使得汉语文本处理困难。

目前可用的用于将汉语语言文本输入到计算机系统中的一种常用方法是使用语音输入(例如，拼音)的方法。拼音使用罗马字符，并具有以多音节词形式列出的词汇表。然而，拼音输入法导致汉语语言处理过程中同音异义字的问题。具体地，因为仅用大约1300个不同的具有音调的语音音节(可由拼音表示)和大约410个不具有音调的语音音节来表示好几万个汉字(Hanzi)，所以一个语音音节(具有或不具有音调)可对应许多不同的Hanzi。例如，普通话中“yi”的发音可对应于超过100个的Hanzi。当将语音音节翻译成Hanzi时，这就会产生不确定。

许多语音输入系统使用多项选择法来解决这个同音异义字的问题。一旦用户输入语音音节，就显示出一列具有相同发音的可能的Hanzi字符。然而，输入并选择对应于每个音节的Hanzi的处理可能是缓慢、冗长、以及耗时的。其它语音输入系统以基于相邻Hanzi字符来确定每个可能Hanzi字符的可能性为基础。概率方法可以进一步与语法约束相结合。然而，当应用于文学作品(例如，具有许多的描写句和成语)和/或口语或非正式语言(如在用户查询和/或电子公告牌系统(BBS)站中的网页上所使用的)时，这种将语音转换为Hanzi的方法的准确性通常会受到限制。另外，较低的字典适用范围通常会导致较差的口语转换质量。

除了同音异义字的问题，当处理汉语语言文本时，还存在词界问题。具体地，虽然在现代汉语中有超过80％的词具有多个音节并因而包括两个或多个Hanzi，但是在汉字书写系统中不存在任何字分离。语音汉语的输入通常是一个音节接一个音节地执行，而并不考虑词界。具体地，在输入语音汉语(拼音)词界的过程中，用户间不存在一致性。例如，有些人认为“Beijing daxue”(语音表示是北京大学的含义)是两个词，而其他人可能认为这个拼音是一个词，并且没有任何边界地输入拼音(即，“Beijingdaxue”)。

同音异义字的问题和缺乏词界是造成很难提供一种用于汉语语言文本输入和处理的简单、有效和准确机制的起主要作用的两个因素。以拼音输入的给定汉语文本可能产生许多传统方法不能适当解决的不确定。

因而，需要一种计算机系统，其能够有效、高效并准确地将语音汉语文本(例如，拼音)处理并翻译成汉字和/或词。

发明内容

披露了使用计算机来将语音汉语文本或拼音处理并翻译成汉字和词的系统和方法。术语“计算机”通常指的是任何具有计算能力的装置，诸如个人数字助理(PDA)、移动电话、网络转接器。该系统和方法具体可应用于基于网络的搜索引擎，但是也可应用于各种其它应用。应当了解，本发明可以以许多方式来实施，包括例如处理、设备、系统、装置、方法、或诸如计算机可读存储介质的计算机可读介质、或计算机网络，其中，通过光或电通信线路来发送程序指令。下面描述本发明的几个发明实施例。

训练(training)汉语语言模型的方法通常包括：从一组汉语输入(例如，汉语文件和/或用户汉语输入和/或查询)中提取未知的字符串；通过比较未知字符串的出现频率与未知字符串中单个字的出现频率，从未知字符串确定出有效词；以及例如基于包括如从汉语输入产生的n元组(n-tuple)相邻和非相邻词的计数的n元模型计数(n-gram count)(n≥1)，产生用于预测给定语境的词串的条件概率的转换矩阵。n元模型计数可以包括每n个字序列(n-wordsequence)的出现次数。未知字符串的提取可利用先前存在的汉语字典。如果与未知字符串的单个字的出现频率相比，未知字符串的出现频率大于预定阈值，那么就可将未知字符串确定为有效的新字符串。

根据另一个实施例，用于训练汉语语言模型的系统通常包括：分词器(segmenter)，用于从一组汉语输入中分出未知字符串；新词分析器，用于通过比较未知字符串的出现频率与未知字符串中单个字符的出现频率，从未知字符串确定有效词；以及汉语语言模型训练模块，用于生成用于预测给定语境的词串的条件概率的转换矩阵。

根据又一实施例，提供了一种用于与计算机系统结合的计算机程序产品，该计算机程序产品具有在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质，指令通常包括：从一组汉语输入中提取未知字符串；通过比较未知字符串的出现频率与未知字符串中单个字符的出现频率，从未知字符串确定有效词；以及生成用于预测给定语境的词串的条件概率的转换矩阵。

用于将拼音输入翻译成至少一个汉语字符串的方法通常包括从拼音输入生成一组字符串，每组字符串均具有与之相关的表示字符串对应于拼音输入的可能性的权重，该生成包括使用包括从一组汉语输入中所提取的词和基于该组汉语输入而训练的语言模型的汉语字典。该生成可包括使用包括从该组汉语输入中所提取的词和基于该组汉语输入所训练的语言模型的汉语字典来执行Viterbi算法。该方法还可包括从拼音输入生成多个拼音候选，使得每个拼音候选对应于一组字符串。该方法可进一步包括根据拼音输入对应于字符串的可能性来分类并排列该组字符串。可将该方法用于执行搜索(例如，通过搜索引擎的网络搜索)以及对数据库的查询，该数据库包括由用户从字符串组中选择的字符串的有组织的数据(organized data)。

根据另一实施例，用于将拼音输入翻译成至少一个汉语字符串的系统通常包括拼音词解码器，用于从拼音输入生成一组字符串，每组字符串均具有与其相关联的表示词串对应于拼音输入的可能性的权重，该拼音词解码器还用于使用包括从一组汉语输入中提取的词以及基于该组汉语输入所训练的语言模型的汉语字典。

根据又一实施例，提供了用于与计算机系统结合的计算机程序产品，该计算机程序产品具有其上存储有可在计算机处理器上执行的指令的计算机可读存储介质，该指令包括从拼音输入生成一组字符串，每组字符串均具有与其相关联的表示字符串对应于拼音输入的可能性的权重，该生成包括使用包括从一组汉语输入提取的词以及基于该组汉语输入训练的语言模型的汉语字典。

用于对用户输入进行拼音分类的方法通常可包括：识别在用户输入中的不确定的词，不确定的词是从在非拼音和拼音中均有效的词的数据库中选择的；以及，分析用户输入的语境词，以选择性地将用户输入分类为非拼音或拼音。该方法还可包括：计算可从不确定的查询生成的可能汉语查询的可能性；以及如果所计算的至少一个可能性超过预定阈值(例如，在分析之后仍未决定用户输入)，则将用户输入分类为拼音输入。有效非拼音/拼音n元模型数据库可从非拼音用户查询中通常会出现的词中提取。

根据另一实施例，用于将用户输入分类为非拼音或拼音的拼音分类器通常包括：词数据库，在非拼音和拼音中均有效；以及分类引擎，用于从词数据库选择的用户输入中识别不确定的词以及用于分析用户输入的语境词，以将用户输入选择性地分类为非拼音或拼音。

将在以下通过本发明的实例原理阐述的详细描述和附图中详细给出本发明的这些和其它特征和优点。

附图说明

通过以下结合附图的详细描述将很容易理解本发明，其中，相同的数字表示相同的结构元件，其中：

图1是用于从诸如汉语文件和/或用户汉语条目或查询的汉语输入生成汉语字典的示例性系统和方法的框图；

图2是用于将拼音输入或查询翻译成汉字的示例性系统和方法的框图；

图3示出了表示从用户拼音查询“xian”翻译出的最佳汉语词串(其中之一可被用户选择以执行所选汉语词串的网络搜索)的搜索引擎服务器所服务的示例性页面；

图4是用于示出应用于输入拼音“zhong guo zheng fu”(意思是中国政府)的Viterbi算法的网格结构或格子结构；

图5是示出用于生成拼音分类器的示例性处理的流程图；以及

图6是示出用于处理包括不确定的拼音词的查询的示例性处理的流程图。

具体实施方式

本发明披露了使用计算机将语音汉语文本或拼音处理并翻译成汉字和词的系统和方法。给出以下描述以使本领域的任何技术人员都能实施并使用本发明。特定实施例的描述和应用仅提供作为实例，并且各种修改对本领域技术人员是显而易见的。可在不脱离本发明精神和范围的条件下，将本文中所限定的一般原理应用于其它实施例和应用。因而，本发明符合包括文中所披露的原理和特征相一致的许多替换、修改和等效物的最宽范围。为了简洁，没有详细描述与本发明相关的技术领域中已知的技术材料的详细描述，以避免不必要地混淆本发明。

该系统和方法通常涉及：如以下参考图1描述的通过获得并处理诸如文件和/或用户输入或查询的输入来训练语言模型，以及如以下参考图2描述的使用输入和所训练的语言模型来提供拼音翻译。通过使用该组输入，考虑用户偏好以及基于用户偏好来确定新的有效词。

图1是用于生成汉语字典以及用于基于用户汉语输入查询(诸如在网页搜索引擎中的用户汉语查询)和/或诸如那些例如在互联网上可用的汉语文件来训练汉语语言模型的示例性系统和方法100的框图。应当注意，文中所描述的是示例性系统和方法尤其可应用于例如与网页搜索引擎和用于包括有组织的数据的数据库的搜索引擎有关的汉语查询的语境中。然而，应当了解，该系统和方法适合并用于将拼音翻译成汉字的各种其它应用中。例如，该系统和方法适于从用户的拼音输入生成汉语文件的汉语文本输入应用。应当注意，拼音通常是指汉字的语音表示，具有或不具有与汉字相关的音调的表示。

汉语字典102和诸如用户汉语输入和/或汉语文件的一组用户汉语输入104可用作汉语分词器106的输入。例如，用户汉语输入或条目可以是用户汉语查询或各种或其它输入类型。汉语文件可包括汉语网页内容和诸如报纸、书籍、杂志、网页等的各种出版物。汉语字典102可以是各种适当标准或先前存在的汉语字典(包括各种单个和多个字符的汉语词或术语)中的一个或组合。在汉语查询的情况下，例如，该组汉语输入104可包括过去三周或两个月的用户汉语查询的集合。该组汉语文件104可以是一组汉语文件、汉语文件的集合或存储库，例如，汉语文件为在互联网上可以以简体和/或繁体汉字写入的文件。

汉语分词器106执行算法或规则，以将源汉语文本流(例如，句子或短语)分成汉语词单位或词语，并且还可任意地识别语法功能。例如，“toufa”是意思为“头发”的复合的二个字的汉语词，同样，表示“toufa”的汉字没有被分解，而是被当作一个单词。分词器106(或其它模块)可以在分词之前，首先将汉语文件输入104分成句子。可使用各种合适的分词器，包括那些市场上可以买到的，诸如剑桥、麻省的基础技术的分词器。

分词器106生成使用新词分析器110所分析的具有未知字符串的经过语法分析和分词的汉语条目108。新词分析器110分析未知或新的字符串，以确定字符串是否是有效的复合多字词以及哪个字符串是有效的复合多字词。特别地，给出大的和不同的词典，可能存在不确定的词分类、未知的合适名称、以及其它不在字典中的词(字符串或复合多字词)。例如，缩写词、截断术语、新造术语等可被形成并变得流行，并且可经常在文件和/或用户输入中被发现，但是不会出现在标准汉语字典中。在查询和口语中的超出词汇(OOV)(即，未知单词)出现的比率相对较高。例如，即使在使用大约250,000个最常用单词的大型词汇表时，搜索查询记录仍可包括大约4％的OOV。相反地，报纸和网页通常仅包括大约1％的OOV。新词分析器110可将复合多字符串的频率与各个字符单独出现的频率进行比较，以确定字符串是否是有效的复合多字词以及哪个字符串是有效的复合多字词。原始的汉语字典102与由新词分析器110所确定的新词的组合使得从诸如用户汉语条目或查询的汉语输入生成具有新词的新字典112。新字典112也可包括每个词与其所对应的一个或多个拼音的映射。如果给定的词对应于多个拼音，那么就可通过执行脚本以自动去除和/或通过手动去除无效拼音来改进汉字到拼音的映射质量。在多个拼音的情况下，该映射还可包括每个拼音的对应可能性。在新字典中的词到对应可能拼音以及多个可能拼音中的每个的可能性的映射在此处被称为生成矩阵。

在一个示例实施例中，新词分析器110可根据汉语输入是汉语文件还是用户汉语条目或查询来执行不同的分析。使用汉语文件，新词分析器110可计算每个新字符串的频率以及计算新字符串的子集的范围，以提取或确定覆盖在汉语文件的储存库中发现的所有新字符串的足够大部分的新有效字符串的相对较小的子集。为了进行更加全面的分析，新词分析器可分析所有新的字符串。可选的，新词分析器110可去除具有超过例如7个(或其它合适数目)的汉字的新字符串，然后根据汉字的数目，将剩余的新字符串(即，那些具有7或更少字的剩余新字符串)分成7组新字符串。对于每组新字符串，新词分析器110可计算其子集的范围。具体地，可以以频率{T₁，……，T_n}的降序排列7组中每个组的术语T。子表L_i的范围，{T₁，……，T_i}被计算作为通过该组中所有字符串的频率总和所分割的子表L_i中的术语的频率总和。例如，随后可将7组新字符串中的每组分成三个子集，其中，第一子集具有大于该组中98％的范围，以及第一和第二子集具有大于该组中99％的组合范围。也可进一步手动估计第二子集中的字符串，以去除任何不可能的字符串。可以结合第一子集和减少的第二子集，以形成从汉语文件的存储库生成的新一组有效词。将这些有效词添加到字典中。

为了从诸如用户查询的用户条目生成有效的新词，新词分析器110可确定具有高频率的n元模型(n≥2)，并且检查在n元模型中每个字符串的频率。如果n元模型具有高于每个单个字的频率，则认为新字符串为有效词并将新的有效词添加到字典中。由于在网络搜索中使用的许多词没有包括在出版的字典中，所以从用户查询提取的这样新的有效词的添加将有助于改进搜索质量。

具体地，在将用户条目进行分词之后，新词分析器110可将所有多个单个字的串看作可能的新词。例如，如果用户输入“abcdefghij”被分成“ab-cd-e-f-g-hij”，则单个字的串“e-f-g”被看作可能的新词。计算可能的新词的频率(例如，P(efg))，然后与单个字的频率(例如，P(e)、P(f)，和P(g))进行比较。如果信息增益G大于信息增益阈值，则将术语“efg”看作新的有效词。信息增益G的计算通常取决于以下应用的模型或假设。例如，信息增益G可以被确定为

P(efg)×log[P(efg)/(P(e)×P(f)×P(g))]，即，Kullback-Leibler发散。概念是：如果给定的多字符串频繁地一起出现而很少单个或单独出现，那么由于在这种情况下的信息增益G很大，就将该多字符串看作有效的新词。与从汉语文件提取的有效新词类似，从用户条目中提取的有效新词也被添加到字典中。

包括从汉语文件和/或用户汉语条目中提取的新词的新字典112接下来被汉语分词器106b使用来执行第二分词处理，以使用包括新有效词的新字典来生成经过语法分析和分词的汉语条目114。随后，包括新有效词的经过语法分析和分词的汉语条目114用于使用汉语语言模型训练程序116来生成或训练汉语语言模型118。

特别地，汉语语言模型训练程序116生成用于预测给定语境的当前词的语言模型的条件概率的转换矩阵。语言模型通常是指概率模型，用于从诸如先前和随后或下面的词的语境中预测当前的词。可基于当前词及其语境的任何适当统计(例如，n个先前词和/或先前词的词类标记(part-of-speech tag))生成转换矩阵。例如，可基于从汉语输入(例如，用户条目和/或汉语文件)生成的n元模型(一个或多个词序列，即，n≥1)计数来生成转换矩阵。n元计数表示当前词、其语境(或预测值)、和词与其语境的组合的统计。

使用来自汉语输入的新有效词增加汉语字典并且基于汉语输入训练汉语语言模型，可以提供一种用于将拼音翻译成汉字的改进系统和方法。特别地，执行预处理和后处理，以进行拼音翻译。具体地，可通过过滤用户输入、保存非拼音记号及它们在输入中各自的位置、以及自动将拼音串分解成多个拼音候选来执行预处理。可通过从拼音解码所产生的结果的多个候选(即，Hanzi)进行分类，以及将结果与先前保存的非拼音记号合并来执行后处理。

图2是用于将拼音输入或查询翻译成汉字的示例系统和方法140的框图。特别地，原始用户输入或查询144由用户输入预处理器148接收并过滤。因为原始用户输入或查询144可包括字母字符和非字母字符(数字、标点和诸如汉语/日语/韩语(CJK)字符的非ASCII字符)，所以用户输入预处理器148过滤掉非拼音记号152并保存它们各自的位置。为了确定非拼音记号，用户输入预处理器148可过滤掉任何非字母字符并且可选地过滤掉任何非拼音字母输入。特别地，用户输入预处理器148可以如将参照图5和图6更详细描述的将字母输入分类为拼音或非拼音。

拼音输入150由拼音分解器154来处理，拼音分解器154将拼音输入150分解成多个拼音候选或选项PY₁、PY₂、......、PY_m156。拼音输入150可具有或不具有诸如空格、破折号或连字符等的定界符(delimiter)，以分割不同的词、字符或音节。拼音分解器154可使用各种规则来执行分解功能，以生成各种拼音候选或选项PYi。例如，拼音输入“xian”，拼音分解器154可生成两个候选的拼音输入“xi-an”和“xian”。

m个候选拼音用作拼音-词转换器或汉语拼音解码器158的输入。解码器158也使用具有新有效词的汉语字典112以及使用汉语输入所训练的语言模型118，以生成每个拼音候选PY_i的可能词串WS_i-1、WS_i-2等。具体地，为每个拼音候选PY_i所生成的词串可被限制为k个最可能的词串WS_i-1、WS_i-2、......、WS_i-k，其中，k可以是任何适当的数。每个词串WS_i-1、WS_i-2等可与表示特定词串WS对应于拼音输入150的概率或可能性的权重相联系。随后，基于它们的各自权重，通过分类和排列模块162来分类并排列多达m^*k个可能的词串WS，其中，可从拼音输入150所生成的前(top)N(例如，N＝3)个翻译的汉语词串164中选择权重。通过结果合并器，根据它们各自的位置152将前N个翻译的词串164与所保存的非拼音记号合并，并将前N个翻译的词串164被呈现或提供给用户。在搜索引擎的情况下，用户可随后选择N个合并结果166中的一个作为期望的搜索查询。

图3示出了由搜索引擎服务器所服务的示例性网页，其表示从用户查询“xian”144翻译出的前3个汉语词串164。前3个汉语词串中的一个可基于网络搜索由用户来选择。3个最可能的汉语词串164包括如可由拼音分解器154生成的作为单个字或音节的“xian”的两种不同的汉字翻译以及作为两个字或音节的“xian”的一种翻译。在搜索引擎的情况下，由于用户查询的记录被不断更新，所以用户输入可以周期性地(例如，每周)处理，以使用从汉语输入得到的新词来更新汉语字典以及更新基于汉语输入训练的汉语语言模型。

参考图3所示的用户接口，类似于当搜索引擎检测到查询可能被拼错时网络搜索引擎表示拼写校正的方式，可向用户呈现用户输入或查询的多种可能翻译。特别地，多种可能翻译在短语“您的意思是”(其自身可选择性地为汉字或Hanzi)之前。如果确定用户输入或查询可能被拼错，那么除可能翻译的列表之外，还可提供用户输入或查询的拼写校正(即，以ASCII)。不仅如此，多种可能翻译和拼写校正中的每一个均可为关于特定翻译的网络搜索的超链接。这样的用户接口(interface)可以是用于除拼音-汉字翻译之外的其它语言或语言格式的翻译，并且甚至可以延伸到两种非ASCII语言格式(例如，汉语-韩语)之间的翻译。

因为拼音-词解码器使用通过使用汉语输入和汉语字典(由从汉语输入得到的新词增加的)所训练的汉语语言模型，所以拼音-词解码器可将输入拼音的更佳翻译组提供给汉语词串。例如，如果仅使用网页和报纸而不使用新词来训练语言模型，则通常有大约67％的拼音查询被正确转换，即，用户的拼音输入的汉字翻译反映用户的预期查询。使用输入或查询数据来识别新的有效词以及训练语言模型可将准确度提高到大约85％。用于将拼音输入或查询翻译成汉字的系统和方法可应用于各种应用。例如，汉字输入应用可使用用于从用户拼音输入的文件生成汉字这样的系统和方法。作为另一个实例，诸如基于网络搜索引擎的搜索引擎可在生成对应于用户拼音输入的最可能的汉语词串过程中使用这样的系统和方法，用户可基于搜索从用户拼音输入中选择一个或多个汉语词串。

以下将更详细描述汉语拼音解码器158。可实现用于将拼音输入解码为可能的汉语词的各种适当机制。各种解码器均适合于将拼音翻译成Hanzi(汉字)。在一个实施例中，可实现使用HiddenMarkov模型的Viterbi解码器。例如，可通过收集试验计数或通过计算期望值和执行反复的最大值化处理来完成训练Hidden Markov模型。Viterbi算法是有用且有效地的算法，用于根据Markov通信信道的输出观察资料来解码源输入。Viterbi算法已在各种用于自然语言处理(例如，语音识别、光学字符识别、机器翻译、语音标记、语法分析和拼写检查)的应用中成功实现。然而，应当了解，代替Markov假设，在执行解码算法的过程中可作出各种其它合适的假设。另外，Viterbi算法不仅是一种可通过解码器执行的适当解码算法，也可执行各种其它合适的解码算法，例如，有限状态机、Bayesian网络、决策平面算法(高维Viterbi算法)或Bahl-Cocke-Jelinek-Raviv(BCJR)算法(双行程向前/向后Viterbi算法)。

Hidden Markov模型包括生成矩阵和条件概率的转换矩阵。如上所述的生成矩阵是在包括新术语的字典中的汉语术语到对应的可能拼音和多个可能拼音中的每个的可能性的映射。如上所述的条件概率的转换矩阵还是用于预测给定语境的当前词的语言模型，并且其可基于从诸如文件和/或用户条目的汉语输入所生成的n元模型计数来建置。

图4是用于示出被应用到输入拼音“zhong guo zheng fu”(意思是中国政府)的Viterbi算法的网格结构或格子结构。在图4中，将每个候选单词作为节点示出。例如，“zhong”可指中、忠、或钟，“guo”可指国或郭，“zhong guo”指中国，“zheng”可指政或挣，“fu”可指府、福、或夫，以及“zheng fu”可指政府、正/负、或征服。

当Viterbi算法遇到拼音“guo”时，该算法不仅找到生成这个拼音的词，而且找到与其之前的拼音结合生成这个拼音的所有词，即，意思是中国的“zhong guo”。因而，生成拼音zhong-guo的中国也可以作为候选词。考虑所有候选词的长度，使得在每个候选之前的单词能够被适当确定。特别地，每一单音节/字词具有长度1，而每个双音节字词具有长度2等。例如，能够在时间t＝4生成的单音节/字词(长度1的词)府、福和夫前面的候选词可为在时间t＝3生成的政或挣，而不可能是在时间t＝2生成的国或郭。相反，能够在时间t＝4生成的双音节/字词(长度2的词)政府、正/负和征服前面的候选单词可为在时间t＝2生成的国、郭、或中国。

图4中所示的每个节点具有如由生成矩阵所提供的对应生成概率，并且两个节电之间的每个链接都具有如由条件概率的转换矩阵所提供的对应转换概率。在列举所有状态之后，Viterbi算法或解码器确定最佳路径。在图3的实例中，最佳路径是如粗体所示的中国政府。

如上所述，在过滤掉非字母字符之后，以及在处理并翻译作为拼音输入的用户输入的字母字符之前，期望检查用户输入，以检验用户输入是拼音输入而不是诸如英语、法语、或德语输入的非拼音的ASCII输入，即，将输入分类为拼音或非拼音ASCII。具体地，可使用拼音分类器来检测不确定的输入或查询是拼音还是非拼音。特别地，英语和汉语拼音共用相同字符组，即，字母表中的26个字母甚至还有一些单词。例如，每个词“Beijing”、“women”和“dilute”可以被看作英语单词和/或汉语拼音。在一种情况下，英语单词和拼音在两种语言中具有相同的语义，如“Beijing”的情况。在另一种情况下，相同的单词在拼音和英语中均有效，但是具有不同的语义，如“woman”的情况。在又一种情况下，单词可能具有英语(或汉语)意思，但是在汉语(或英语)中可能是无意义或无效的。例如，“dilute”是英语单词，但是即使对应于“di”、“lu”和“te”的字在汉语中是很常用的，“dilute”在汉语中也是无意义的。因而，拼音分类器(classifier)有助于检测不确定的输入或查询的语言。

图5和图6是分别示出用于生成拼音分类器的示例性处理200和用于处理包括不确定的拼音/非拼音ASCII单词的用户输入或查询的示例性处理220的流程图。在如图5所示的用于生成拼音分类器的示例性处理200中，在块202中，提取在非拼音ASCII用户输入中出现的最常用的ASCII n元模型，例如，非拼音ASCII或英语一元模型(unigram)或单词。在块204中，处理200确定最常用的ASCII n元模型中的每一个是否也可以是拼音，以生成一组可用在拼音和非拼音ASCII中的n元模型。因而，如果用户输入包括这些不确定的拼音/非拼音ASCII n元模型中的一个，那么用户输入是拼音还是非拼音就不是很确定。

为了解决不明确性，可以检验输入或查询的语境词。特别地，在用于处理包括如图6中所示的不确定的拼音/非拼音ASCII n元模型的查询的示例性处理220中，如在确定块222所确定地无论何时遇到拼音/非拼音ASCII n元模型中的一个，在块226中检验如在确定块224所确定的语境词，即，主语不确定的n元模型的向左(之前)和向右(之后)的词，以试图确定不确定的拼音/非拼音ASCII n元模型的语言，从而确定查询语言。例如，包括单词“women education”的查询可以被分类为英语查询，因为“education”明显是英语单词。另一方面，“women de jiayuan”(汉语是“我们的家园”)被分类为汉语拼音查询，因为“jiayuan”明显不是英语单词或其它非拼音ASCII n元模型。

在不存在如块224中所确定的语境(例如，单个术语查询)，或者如果在块228中所确定的语境也是不确定的情况下，在块230中计算可从不确定的查询生成的一个或多个可能汉语查询的可能性或概率。如果如在确定块232中所确定的可从不确定的查询中生成的至少一个可能汉语查询具有成为拼音查询的很高的可能性，那么在块234中将该查询看作英语查询。可选地，如果可从不确定的查询生成的可能汉语查询中的任何一个都不具有成为拼音查询的很高的可能性，那么在块236中将该查询看作英语查询。作为实例，一个词查询“magazine”可被看作非拼音或英语查询，因为当将“magazine”看作拼音查询时，可从“magazine”生成的可能汉语查询的任何一个都不具有成为拼音查询“ma-ga-zi-ne”的很高的可能性。

虽然在这里描述和示出了本发明的优选实施例，但应该明白，它们仅仅是说明性的，并且在不背离本发明的精神和范围的前提下，可以对这些实施例进行修改。因此，仅根据可修改的权利要求来对本发明进行限定，每条权利要求都明显地结合到如本发明实施例的特性实施例的描述中。

Claims

1.一种用于从汉语输入训练汉语语言模型的方法，包括：

从一组汉语输入中提取未知字符串；

通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率，从所述未知字符串确定有效词；以及

生成用于预测给定语境的词的条件概率的转换矩阵。

2.根据权利要求1所述的方法，其中，所述未知字符串的所述提取使用先前存在的汉语字典。

3.根据权利要求1所述的方法，其中，基于从所述汉语输入生成的n元模型计数来生成所述条件概率的转换矩阵，其中n≥1。

4.根据权利要求3所述的方法，其中，所述n元模型计数包括在所述组汉语输入中的相邻和非相邻词的n元组的计数。

5.根据权利要求3所述的方法，其中，所述n元模型计数包括每n个词序列的出现次数。

6.根据权利要求1所述的方法，其中，如果与所述未知字符串的所述单个字符的出现频率相比，所述未知字符串的所述出现频率大于预定阈值，那么就将所述未知字符串确定为有效的新字符串。

7.根据权利要求1所述的方法，其中，所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。

8.根据权利要求7所述的方法，其中，所述组汉语输入包括对网络搜索引擎的一组用户汉语查询。

9.一种与计算机系统一起使用的计算机程序产品，所述计算机程序产品包括在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质，所述指令包括：

从一组汉语输入中提取未知字符串；

生成用于预测给定语境的词串的条件概率的转换矩阵。

10.一种用于训练汉语语言模型的系统，包括：

分词器，用于从一组汉语输入中划分未知字符串；

新词分析器，用于通过比较所述未知字符串的出现频率与所述未知字符串中的单个字符的出现频率，从所述未知字符串确定有效词；以及

汉语语言模型训练模块，用于生成用于预测给定语境的词串的条件概率的转换矩阵。

11.根据权利要求10所述的系统，其中，所述分词器使用先前存在的汉语字典来划分所述未知词串。

12.根据权利要求10所述的系统，其中，所述新词分析器还用于从所述汉语输入生成n元模型计数，以及基于所述n元模型计数来生成条件概率的所述转换矩阵，其中n＞1。

13.根据权利要求12所述的系统，其中，所述n元模型计数包括在所述组汉语输入中相邻和非相邻单词的n元组的计数。

14.根据权利要求12所述的系统，其中，所述n元模型计数包括每n个词序列的出现次数。

15.根据权利要求10所述的系统，其中，所述新词分析器还用于确定：与所述未知字符串的所述单个字符的出现频率相比，如果所述未知字符串的所述出现频率大于预定阈值，那么未知字符串就是有效的新字符串。

16.根据权利要求10所述的系统，其中，所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。

17.根据权利要求16所述的系统，其中，所述组汉语输入包括对网络搜索引擎的一组用户汉语查询。

18.一种用于将拼音输入翻译成至少一个汉语字符串的方法，包括：

从所述拼音输入生成一组字符串，每个字符串均具有与其相关联的表示所述字符串对应于所述拼音输入的可能性的权重，所述生成包括：使用包括从一组汉语输入中提取的词以及基于所述组汉语输入所训练的语言模型的汉语字典。

19.根据权利要求18所述的方法，其中，所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。

20.根据权利要求19所述的方法，其中，所述组汉语输入包括对网络搜索引擎的一组用户汉语查询。

21.根据权利要求18所述的方法，还包括：

在所述生成之前，从所述拼音输入过滤掉非字母字符并存储它们在所述拼音输入中各自的位置；以及

在所述生成之后，将每个所述字符串与在对应于它们的存储位置的位置上的所述非字母字符进行合并。

22.根据权利要求18所述的方法，还包括：

在所述生成之前，识别所述拼音输入中的不确定的词，所述不确定的词是从在非拼音和拼音中均有效的n元模型的数据库中选取的；以及

分析所述用户输入的语境，以选择性地将所述拼音输入分类为非拼音和拼音，其中，仅在所述拼音输入被分类为拼音时才执行所述生成。

23.根据权利要求18所述的方法，还包括从所述拼音输入生成多个拼音候选，其中，所述生成包括生成用于每个拼音候选的一组字符串。

24.根据权利要求18所述的方法，还包括根据所述拼音输入对应于所述字符串的可能性来分类并排列所述组字符串。

25.根据权利要求18所述的方法，其中，所述生成包括使用所述汉语字典来执行Viterbi算法，其中，所述汉语字典包括从所述组汉语输入中提取的词以及基于所述组汉语输入的所述语言模型。

26.根据权利要求18所述的方法，还包括：

对由用户从所述组字符串选择的字符串执行搜索。

27.根据权利要求18所述的方法，其中，所述搜索是由搜索引擎执行的网络搜索。

28.根据权利要求18所述的方法，还包括：

从所述组汉语输入提取未知字符串；

通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率，从所述未知字符串确定有效词，以生成所述汉语字典，所述汉语字典包括所述词到它们对应的拼音的映射；以及

生成用于预测给定语境的词串的所述语言模型。

29.一种与计算机系统一起使用的计算机程序产品，所述计算机程序产品包括在其上存储有可在计算机处理器上运行的指令的计算机可读存储介质，所述指令包括：

从所述拼音输入生成一组字符串，每组字符串均具有与其相关联的表示所述字符串对应于所述拼音输入的可能性的权重，所述生成包括使用包括从一组汉语输入中提取的词以及基于所述组汉语输入训练的语言模型的汉语字典。

30.一种用于将拼音输入翻译成至少一个汉语字符串的系统，包括：

拼音-词解码器，用于从所述拼音输入生成一组字符串，每个字符串均具有与其相关联的表示所述字符串对应于所述拼音输入的可能性的权重，所述拼音-词解码器还用于使用包括从一组汉语输入中提取的词以及基于所述组汉语输入训练的语言模型的汉语字典。

31.根据权利要求30所述的系统，其中，所述组汉语输入包括用户汉语输入和一组汉语文件中的至少一个。

32.根据权利要求30所述的系统，还包括拼音候选生成器，用于从所述拼音输入生成多个拼音候选，其中，所述拼音-词解码器用于为每个拼音候选生成一组字符串。

33.根据权利要求30所述的系统，还包括分类以及排列模块，用于根据所述拼音输入对应于所述字符串的所述可能性来分类并排所述组词串。

34.根据权利要求30所述的系统，其中，所述拼音-词解码器还用于使用所述汉语字典执行Viterbi算法，其中，所述汉语字典包括从所述组汉语输入中提取的词以及基于所述组汉语输入的语言模型。

35.根据权利要求30所述的系统，还包括：

分词器，用于从所述组汉语输入中划分未知字符串；

新词分析器，用于通过比较所述未知字符串的出现频率与所述未知字符串中单个字符的出现频率，从所述未知字符串确定有效词；以及

36.一种用于分类用户输入的拼音分类器，包括：

在非拼音和拼音中均有效的词数据库；以及

分类引擎，用于识别从所述词数据库中选择的所述用户输入中的不确定的词以及用于分析所述用户输入的语境词，以将所述用户输入选择性地分类为非拼音或拼音。

37.根据权利要求36所述的拼音分类器，其中，所述分类引擎还用于计算可从不确定的查询生成的可能汉语查询的可能性，以及如果计算的至少一个所述可能性超过预定阈值，就将所述用户输入分类为拼音输入。

38.根据权利要求37所述的拼音分类器，其中，所述分类引擎还用于如果在所述分类引擎分析所述语境词之后仍未决定所述用户输入，则计算可能汉语查询的所述可能性。

39.根据权利要求36所述的拼音分类器，其中，从在非拼音用户查询中通常会出现的词中提取在非拼音和拼音中均有效的所述词数据库。

40.一种用于用户输入的拼音分类方法，包括：

识别所述用户输入中的不确定的词，从在非拼音和拼音中均有效的n元模型数据库中选择所述不确定的词；以及

分析所述用户输入的语境词，以将所述用户输入选择性地分类为非拼音或拼音。

41.根据权利要求40所述的拼音分类方法，还包括：

计算可从不确定的查询生成的可能汉语查询的可能性；以及

如果计算的至少一个所述可能性超过预定阈值，就将所述用户输入分类为拼音输入。

42.根据权利要求41所述的拼音分类方法，其中，如果在所述分析之后仍未决定所述用户输入，则执行所述计算和分类。

43.根据权利要求40所述的拼音分类方法，其中，从在非拼音用户查询中通常会出现的词中提取在非拼音和拼音中均有效的词数据库。

44.一种用于表示用户输入的可能翻译的方法，包括：

提供用于所述用户输入的每个可能翻译的超链接，所述用户输入和所述用户输入的每个可能翻译为不同的语言或语言格式。

45.根据权利要求44所述的用于表示可能翻译的方法，其中，所述用户输入是拼音且每个所述可能的翻译是Hanzi。

46.根据权利要求44所述的用于表示可能翻译的方法，还包括：

提供对应于所述用户输入的拼写校正的至少一个其它超链接。

47.根据权利要求44所述的用于表示可能翻译的方法，其中，所述超链接是所述用户输入的所述对应可能翻译的网络搜索。