CN101707873A

CN101707873A - 机器翻译中的大语言模型

Info

Publication number: CN101707873A
Application number: CN200880016830A
Authority: CN
Inventors: 托尔斯滕·布兰奇; 阿肖克·C·珀派特; 徐鹏; 弗朗茨·约瑟夫·欧池; 杰弗里·迪安
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2007-03-26
Filing date: 2008-03-25
Publication date: 2010-05-12
Anticipated expiration: 2028-03-25
Also published as: KR20100015518A; JP5484317B2; US8812291B2; WO2008118905A2; EP2137639B1; US20080243481A1; CN101707873B; JP2010522938A; EP2137639A2; US20130346059A1; WO2008118905A3; US8332207B2

Abstract

本发明提供了用于机器翻译的系统、方法和计算机程序产品。在一些实现中，提供了一种系统。该系统包括语言模型，该语言模型包括：来自语料库的n-gram的集合，每个n-gram具有在语料库中的对应的相对频率和与在n-gram中的符号的数量对应的级n，每个n-gram与具有n-1的级的回退n-gram对应；和回退分值的集合，每个回退分值与n-gram相关联，该回退分值被确定为回退因子和在语料库中对应的回退n-gram的相对频率的函数。

Description

机器翻译中的大语言模型

技术领域

该说明书涉及统计机器翻译。

背景技术

由人类操作员进行的对文本的人工翻译可能费时且费钱。机器翻译的一个目标是自动地将源语言的文本翻译为目标语言的对应文本。机器翻译具有若干不同的方法，包括基于示例的机器翻译和统计机器翻译。统计机器翻译试图识别对于源语言的特定输入的目标语言的最可能翻译。例如，当将句子从法语翻译为英语时，统计机器翻译识别对法语句子的最可能英语句子。该最大可能翻译可以被写为：

\underset{e}{\arg \max} P (e | f)

其描述了在所有可能的句子中的提供了关于P(e|f)的最高值的英语句子e。此外，贝斯法则规定：

P (e | f) = \frac{P (e) P (f | e)}{P (f)}

利用贝斯法则，该最可能的句子可以被重写为：

\underset{e}{\arg \max} P (e | f) = \underset{e}{\arg \max} P (e) P (f | e)

因此，最可能的e(即，最可能的英语翻译)是使e发生的概率和e将被翻译成f的概率(即，给定的英语句子被翻译成法语句子的概率)的乘积最大化的英语翻译。

发明内容

提供了用于机器翻译的系统、方法和计算机程序产品。一般地，在一个方面，提供了一种系统。该系统包括语言模型，该语言模型包括：来自语料库的n-gram的集合，每个n-gram具有在语料库中的对应的相对频率和与在n-gram中的符号的数量对应的级n，每个n-gram与具有n-1的级的回退n-gram对应；和回退分值的集合，每个回退分值与n-gram相关联，该回退分值被确定为回退因子和在语料库中的对应的回退n-gram的相对频率的函数。该方面的其他实施例包括对应的系统、设备、计算机程序产品和计算机可读介质。

一般地，在一个方面，提供了一种方法。该方法包括生成语言模型，包括：识别来自训练数据的语料库的n-gram的集合，集合的每个n-gram具有在语料库中出现的对应的相对频率和与在n-gram中的符号的数量对应的级n，每个n-gram与具有n-1的级的回退n-gram对应；和识别一个或多个回退因子，其中回退因子被用于作为回退n-gram的相对频率的函数识别关于一个或多个n-gram的回退分值。

一般地，在另一个方面，提供了一种方法.该方法包括：接收具有多个符号的输入字符串，该输入字符串被划分成一个或多个n-gram，每个n-gram具有级，该级识别在n-gram中的符号的数量；以及利用语言模型识别在输入字符串中的每个n-gram的概率.当在语言模型中没有发现输入字符串中的第一n-gram时，识别回退n-gram，回退n-gram具有比第一n-gram的级小1的级，并且此时在语言模型中发现回退n-gram；以及识别关于第一n-gram的回退分值，该回退分值是回退因子和在语言模型中的回退n-gram的相对频率的函数.该方面的其他实施例包括对应的系统、设备、计算机程序产品和计算机可读介质.

在该说明书中描述的主题的具体实施例可以被实施为实现一个或多个下面的优点。可以在不计算关于回退n-gram的归一化概率的情况下直接作为相对频率的函数确定关于n-gram的回退。可以在其中关于特定n-gram的n-gram回退值可以在同一分片(shard)上生成的分布环境中生成语言模型。

在该说明书中描述的主题的一个或多个实施例的细节在下面的附图和描述中被说明。根据描述、附图以及权利要求，主题的其他特征、方面和优点将会更加清楚。

附图说明

图1是示例机器翻译系统的框图。

图2是示例语言模型的框图。

图3示出了用于生成语言模型的方法。

图4是用于执行翻译的示例系统。

在各个附图中类似的参考数字和标记表示类似的元素。

具体实施方式

图1是示例机器翻译系统100的框图。机器翻译系统包括目标语料库102、语言模型104、平行语料库106、翻译模型108、和解码器110。将输入文本112提供给翻译系统100产生翻译文本114。

目标语料库102提供目标语言(例如，英语)的文本集，其被用于训练语言模型104。目标语料库102可以包括多个不同的文本源，包括例如网页和新闻文章。在一些实现中，目标语料库102包括百亿到千亿数量级或者更多的词的文本。一个这样的语料库是语言数据联盟(“LDC”)Web 1T 5-gram Version 1语料库，LDC目录No.：DC2006T13，ISBN：1-58563-397-6，由Google公司贡献。该语料库使用的来自公共可访问的网页的大约一万亿个文本符号(token)(包括个体词、标点符号、以及识别个体句子的开始和结束的标志)。

语言模型104识别源语言的特定字符串(例如，短语、句子、或句子集合)出现的概率。因此，对于英语，语言模型104识别英语的特定字符串出现的概率。为了识别特定字符串出现的概率，语言模型104计算字符串出现在目标语料库102中的次数除以在目标语料库102中的字符串的总数。例如，如果在100,000,000个词的语料库中短语“Thered wheelbarrow(红色手推车)”出现了53,000次，则概率等于：

p (The red wheelbarrow) = \frac{53,000}{100,000,000} = 0.00053

然而，大量可能的字符串具有零的概率，因为在目标语料库102内没有发现它们.因此，在一些实现中，特定字符串的概率被计算为子字符串组件的概率的函数.用于表示子字符串的一种技术是通过使用n-gram.n-gram是n个连续符号的序列.n-gram具有级(order)，其为在n-gram中的符号的数量.例如，1-gram(或者单gram)包括一个符号，2-gram(或者二gram)包括两个符号.

n-gram语言模型使用n-gram子字符串来计算字符串的概率。给定字符串的概率可以被计算为n-gram条件概率的乘积。关于二gram的条件概率，表示为P(y|x)，是词y跟随(follow)词x的概率。条件概率一般被根据在目标语料库102中的相对频率根据经验确定。在上面的示例中，词y相对于词x的概率被给定为：

P (y | x) = \frac{f (xy)}{f (x)}

其中，f(xy)是在目标语料库102中字符串“xy”出现的频率或者计数。

字符串的概率可以被确定为条件概率的乘积。例如，为了利用二gram语言模型计算以短语“The red wheelbarrow”开始的句子的P(Thered wheelbarrow)，n-gram语言模型计算：

p(The|<start>)P(red|The)P(wheelbarrow|red)，

其中，<start>表示句子的开始，从而p(The|<start>)表示句子以“The”开始的概率。

该字符串概率可以被归纳为：

p (e_{1}, . . ., e_{k}) = Π_{i = 1}^{k} p (e_{i} | e_{i - n + 1}, . . ., e_{i - 1})

其中(e₁，...，e_k)表示在字符串中的符号，而n是在语言模型中允许的最大n-gram的级。

平行语料库106包括源语言(例如，英语)的文本集和一种或多种目标语言(例如，法语)的对应翻译。平行语料库106可以包括多个不同的文本源，包括例如网页和新闻文章对，其中，每个对包括源语言的文本以及目标语言的对应翻译文本。在另一示例中，平行语料库106可以包括多语言数据。例如，联合国会议录是可用的，其提供六种语言的平行翻译。

翻译模型108识别特定目标语言字符串相对于特定源字符串的条件概率。因此，对于英语源语言和法语目标语言，翻译模型108识别法语字符串f相对于英语字符串e的概率P(f|e)。翻译模型可以以多个不同方式被生成。在一些实现中，多个参数被估计以确定P(f|e)。例如，可以根据以下四个参数定义翻译模型：t、n、d和p(例如，在P.F.Brown，V.J.Della Pietra，S.A.Della Pietra和R.L.Mercer的TheMathematics of Statistical Machine Translation：ParameterEstimation，Computational Linguistics 19(2)，1993中描述的IBM模型3)。

翻译参数t提供了从源词产生翻译词的概率，例如t(bonjour|hello)。生育率(fertility)参数n提供了源词将会产生n个目标词的概率。例如，n(2|hello)代表源词“hello”将会产生正好两个法语词的概率。失真参数d提供与在目标句子中的目标词的位置相对于在源句子中的对应源词的位置相关联的概率。例如，d(3|5)表示在句子的位置5中的英语词(例如，第五个词)将会提供在翻译的法语句子的位置3中的法语词(例如，第三个词)的概率。另外，参数p提供包括假性(spurious)词的翻译的概率。假性词是在源语言字符串的目标语言翻译中出现的与在源字符串中的源词不对应的词。

如果在源和目标句子对中的词是全部对准的，则模型参数的值可以被直接估计.术语“对准”将被用来指表示在一对句子中的源词和目标词(例如，在一个句子中的“hello”与“bonjour”对准)之间的词对词连接的数据结构.在一些实现中，对准简单地是识别各种目标词所连接到的源词的位置的矢量.如果对准是已知的，则可以估计参数值.

可能存在多于一个的可能的对准。例如，句子对可具有两个相等可能的对准。因此，可对于特定对准计算概率。对准概率定义了词以特定方式对准的可能。特定对准相对于特定句子对的概率可以被写为P(a|e，f)，其中：

P (a | e, f) = \frac{p (a, f | e)}{p (f | e)}

其中，

P (f | e) = \underset{a}{Σ} p (a, f | e)

并且其中，P(a，f|e)是在所有的对准a上的总计，并且表示在对准和源句子相对于目标句子的联合概率。对准a是由单个字母表示，然而，它表示其维数可以改变的矩阵。具体地，a是矩阵随机变量，其特定值是指在特定源句子和特定成对的目标句子之间的关联(例如，链接)的矩阵。列对应于源词位置，而行对应于目标词位置。在其中没有对应关系的情形中，附加的行和列可以利用空词标注。矩阵中的元素是0和1，表示在对应的源和目标句子词之间存在或不存在关联。根据使用的对准模型，在矩阵中链接可能发生(例如，源词是否能映射到多个目标词、词是否能映射到空词等)的情况下可以施加约束。

因此，可以根据P(a，f|e)描述P(a|e，f)。然而，P(a，f|e)也可以被描述为参数值的函数。因此，如果参数值是已知的，则可以直接计算对准概率。

特定的对准a是指在特定的(f，e)对之间的特定对准，而P(a|e，f)是对于特定的(f，e)对在可能的对准上的后验概率。P(a|e，f)通过如下所述参数被描述，即，所述参数可以通过一些训练过程而被估计，所述训练过程通过如下所述重复地学习参数，即：在大量的(f，e)句子对上进行循环、使用当前的参数值获得比在前一迭代中获得的更好的每对之间的字对准、然后使用对准更新参数值，然后重复。例如在FranzJoseph Och和Hermann Ney的A Systematic Comparison of VariousStatistical Alignment Models，Computational Linguistics，29(1)：9--51，March 2003中可发现关于对准的附加细节。

可以使用期望最大化(“EM”)算法来利用迭代过程直到确定局部最优值而估计参数值和对准概率。在概率性模型中EM算法计算变量的最大似然估计。EM算法是两步过程。期望步骤通过包括如同所被观察到的变量值而计算似然期望值。最大化步骤通过使在期望步骤中所计算的期望似然最大化而计算最大似然估计。过程在期望步骤和最大化步骤之间迭代，其中在最大化步骤中计算的变量的值被用于下一个期望步骤。术语“EM算法”是指一类相关算法：期望和最大化步骤提供用于开发具体EM算法的路线图。在一些实现中，使用除了EM算法以外的其他技术来发现最大似然估计，例如梯度下降或共轭梯度技术。

利用诸如EM算法的技术，翻译模型108被训练以对于给定的源语言和目标语言确定最可能的参数值以及对准概率。

解码器110将语言模型104和翻译模型108应用于给定的字符串(例如，来自输入文本112)以产生翻译字符串(例如，翻译文本114)。具体地，解码器110通过寻找最大化由语言模型104确定的P(e)和由翻译模型108确定的P(f|e)的乘积的句子e(例如英语句子)，翻译观察到的句子f(例如法语句子)。

图2是示例语言模型200的框图。语言模型200包括n-gram 202、n-gram概率204、和回退分值206。n-gram 202从训练数据得到，例如，从目标语料库102得到。对于特定语言模型200，n-gram 202包括每个级的n-gram。例如，对于5-gram语言模型，n-gram 202包括从训练数据得到的5-gram、4-gram、3-gram、2-gram和1-gram。在一些实现中，n-gram代表连续符号的字符串，其中，符号可以包括标点符号和其他信息，例如句子的开始的标识符。

n-gram概率204是作为在训练数据中的n-gram相对频率的函数计算的概率估计。例如，L个符号的字符串可以表示为w₁ ^L＝(w₁，w₂，...w_L)。概率可以被指定给字符串w₁ ^L为：

p (w_{1}^{L}) = Π_{i = 1}^{L} p (w_{i} | w_{1}^{i - 1}) \approx Π_{i = 1}^{L} \hat{p} (w_{i} | w_{i - n + 1}^{i - 1}),

其中，该逼近(approximation)基于马尔可夫假设，即，当预测字符串中的下一个词时，仅仅最近的(n-1)个符号是相关的，并且P的“^”标注指示它是概率函数的逼近。

对于字符串w_i ^L的任何子字符串(例如，特定n-gram)，表示为w_i ^j，可以计算频率f(w_i ^j)。子字符串的频率表示在训练数据中该子字符串的出现的频率，其可以被认为是长的固定样本字符串。关于n-gram的最大似然概率估计由它们的相对频率给出。关于每个n-gram的相对频率可以被确定为：

r (w_{i} {| w}_{i - n + 1}^{i - 1}) = \frac{f (w_{i - n + 1}^{i})}{f (w_{i - n + 1}^{i - 1})}

n-gram的相对频率是n-gram的频率除以(n-1)-gram的频率。在训练数据中关于每个n-gram的概率估计可以被计算，并且对于每个n-gram作为n-gram概率204被存储在语言模型200中。

对于特定n-gram，如果它们在训练数据中没有被发现，相对频率可以是零或者不确定的。结果，相应的概率估计可能是不准确的或不确定的。这被称为稀疏数据问题。另外，更高的级的n-gram的使用尽管潜在地增加了语言模型准确性，但加剧了稀疏数据问题。结果，可使用平滑技术来解决缺少的n-gram。

平滑可以由回退分值206提供。回退分值206可以被用于保证对于给定n-gram总具有非零概率。一般地，回退考虑n-gram的一部分是否出现。例如，如果没有发现三gram“xyz”，则执行平滑以识别回退n-gram“yz”是否出现。如果“yz”没有出现，则平滑可以递归地识别“z”是否出现。

在一些实现中，回退分值206被直接计算为n-gram的相对频率的函数。因此，对于给定n-gram的概率，当n-gram存在时，p(w_i|w_i-k+1 ^i-1)可以表示为n-gram的相对频率。因此，当n-gram频率大于零时，

f (w_{i - k + 1}^{i}) > 0,

概率估计简单地是相对频率：

\frac{f (w_{i - k + 1}^{i})}{f (w_{i - k + 1}^{i - 1})}

然而，当n-gram频率不大于零时，回退分值被计算为：

αS(w_i|w_i-k+2 ^i-1)，

其中，α是回退因子，并且S被用于表示计算是分值而不是概率，因为利用n-gram的相对频率直接计算它们。尤其，回退因子将惩罚施加于回退n-gram的相对频率(例如，以补偿不存在的n-gram)。回退因子α在一些实现中可以取决于k(即，n-gram级)。用于确定变量α值的技术的示例在下面被描述。替选地，不管n-gram级如何，可以指定单个值(例如α＝0.4)。

对于没有被发现的回退n-gram，递归计算，直到回退已经达到单gram。在单gram水平，分值变成：

S (w_{i}) = \frac{f (w_{i})}{N},

其中N是训练数据的大小。

在一些替选的实现中，对于特定的n-gram级，回退分值206包括一个或多个α值。利用关于n-gram级的α值和识别的回退n-gram的相对频率，关于特定n-gram的具体分值然后在运行时响应于输入n-gram被计算。因此，各个回退分值不被存储在语言模型200中，而是根据需要被生成。

图3示出了用于生成语言模型的方法300。为简便，将相对于执行方法300的系统描述方法300。

系统接收302训练数据。训练数据可以是例如目标语料库(例如，目标语料库102)中的文本的一部分或全部。在一些实现中，利用识别的训练数据生成n-gram语言模型。

另外，在一些实现中，分布式训练环境被用于大的训练数据(例如，百万兆字节的数据)。用于分布式训练的一个示例技术是MapReduce。术语MapReduce描述用于处理和生成大的数据集的模型的实现和编程模型两者。模型和它的库实现将都被称为MapReduce。利用MapReduce，程序员指定映射函数和化简函数，其中，映射函数处理输入(键，值)对以生成中间(键，值)对的集，化简函数合并与同一中间键相关的所有中间值。以该函数风格编写的程序可以自动地在大集群的商业计算机上被并行化并且执行。运行系统或框架可以被执行为对输入数据进行划分，跨越一组机器调度程序的运行，处理机器故障并且管理需要的机器间通信。

MapReduce计算采取一组输入(键，值)对，并且产生一组输出(键，值)对。用户将计算表达为两个函数：映射和化简。

Map，例如是由程序员编写的，接纳输入(键，值)对，并且产生一组中间(键，值)对。MapReduce库将与同一中间键I相关的所有中间值分组在一起并且将它们传递到化简函数。

化简函数，也例如是由程序员编写的，接受中间键I和关于该键的一组值。它将这些值合并在一起以形成可能更小组的值。典型地，对于每一化简调用(invocation)，仅仅产生零或一个输出值。中间值通过迭代器被提供给用户的化简函数。按照这种方式，可以处理太大而不能适配在存储器中的值的列表。在J.Dean和S.Ghemawat，MapReduce：Simplified Data Processing on Large Clusters，Proceedings of the 6thSymposium on Operating Systems Design and Implementation，pp.137150(2004年11月6日)中描述了MapReduce的附加细节。

典型地，若干映射任务在不同的处理器(例如，在不同的计算装置上)独立地运行，并且在输入数据的不同部分上运行。类似地，若干化简任务在中间数据的一部分上独立地运行。中间数据的部分根据中间键被划分，从而相同的化简器在关于给定的中间键的所有值上运行。

系统从训练数据生成304词汇表。词汇表识别在训练数据中的各个符号(例如词、标点符号)。MapReduce可以被应用到训练数据以生成词汇表和与在词汇表中的每个符号相关联的频率计数。

映射阶段采用输入(键、值)对，并且产生中间(键，值)对。具体地，映射阶段的输入(键、值)对对应于识别节点的键和是在节点中的文本的值。中间(键，值)对具有对应于各个词的键值和关于该词的对应值。化简阶段将具有相同键的中间(键，值)对化简为单个输出(键、值)。具体地，化简输出关于在训练数据中的词的词汇表以及它们的频率(词，词汇表)。

例如，对于三个分片S1、S2和S3，可以生成词汇表和词频率。分片S1包括训练数据文本“a rose”。分片S2包括文本“is a rose”。分片S3包括文本“a rose is a rose”。在映射阶段，关于每个分片的输入是键＝ID并且值＝句子。映射输出是：键＝词并且值＝1。具体地，来自S1的映射产生中间(键，值)对：

(<s>，1)

(a，1)

(rose，1)

(</s>，1)。

来自S2的映射被输出为中间(键，值)对：

(<s>，1)

(is，1)

(a，1)

(rose，1)

(</s>，1)。

最后，来自S3的映射产生中间(键，值)对：

(<s>，1)

(a，1)

(rose，1)

(is，1)

(a，1)

(rose，1)

(</s>，1)。

在一些实现中，通过简化冗余条目，可以在化简阶段之前优化中间(键，值)对。例如，来自S3的中间(键，值)对可以被优化为：

(<s>，1)

(a，2)

(rose，2)

(is，1)

(</s>，1)。

在化简阶段，中间(键，值)对被组合以产生输出(键，值)对，其中，键＝词并且值＝计数。在该示例中的结果输出(键，值)对是：

(<s>，3)

(a，4)

(is，2)

(rose，4)

(</s>，3)。

化简阶段的结果提供关于在训练数据中的文本的词汇表以及词频率。在一些实现中，为特定分片的中间(键，值)，利用例如散列函数识别特定化简分片。

用于生成词汇表的映射和化简函数可以表示如下：

Map(string key，string value){

//key＝docid，ignored；value＝document

array words＝Tokenize(value)；

for i＝1..#words Emit(words[i]，“1”)；}

int ShardForKey(string key，int nshards){return Hash(key)％n

shards；

}

Reduce(string key，iterator values){

//key＝term；values＝counts

int sum＝0；

for each v in values

sum+＝Parselnt(v)；

Emit(AsString(sum))；

}

系统利用词汇表生成306n-gram。词汇表允许系统确定达到最大n-gram级的词汇表符号的每个可能组合。系统可利用MapReduce被实现，以生成训练数据中的n-gram以及它们的频率。

映射阶段可以根据词汇表处理训练数据分片。化简阶段组合n-gram从而输出(键，值)对是(n-gram，频率)对。

例如，利用MapReduce，三个示例分片被用于说明关于2-gram的n-gram。时例分片是S4、S5、和S6。分片S4包括文本“a rose foo”。分片S5包括文本“is a rose bar”并且分片S6包括文本“a rose is a rose”。

在映射阶段，映射函数被应用于节点的输入(键，值)作为词汇表的函数。在该示例中词汇表是(<s>，</s>，<UNK>，a，is，rose)，其中<UNK>提供代表在训练数据中的罕见词例如“foo”的通用占位符。在映射阶段产生的中间(键，值)对具有等于2-gram的键和关于该2-gram的值。因此，对于S4，中间(键，值)对是：

(<s>a，1)

(a rose，1)

(rose<UNK>，1)

(<UNK></s>，1)。

对于S5，中间(键，值)对是：

(<s>is，1)

(is a，1)

(a rose，1)

(rose<UNK>，1)

(<UNK></s>，1)。

最后，对于S6的中间(键，值)对是：

(<s>a，1)

(a rose，1)

(rose is，1)

(is a，1)

(a rose，1)

(rose</s>，1)。

在化简阶段期间，中间(键，值)对被组合以产生输出(键，值)对，其中，键是独特的2-gram，并且值是关于每个n-gram的计数：键＝2-gram，值＝计数。在示例中的结果输出(键，值)对是：

(<s>a，2)

(<s>is，1)

(a rose，3)

(is a，2)

(rose is，1)

(rose<UNK>，2)

(rose</s>，1)

(<UNK></s>，2)。

因此，化简阶段的结果提供2-gram和在语料库中的它们的频率。

用于生成n-gram的映射函数可以被表示为如下：

Map(string key，string value){

//key＝docid，ignored；value＝document

array ids＝Tolds(Tokenize(value))；

for i＝1..#ids

for j＝0..maxorder-1

Emit(ids[i-j..i]，“1”)；

}

化简函数可以以与用于词汇表生成的化简函数相同的方式表示。

系统确定308关于n-gram的相对频率。回忆，在上面相对频率被定义为：

r (w_{i} | w_{i - n + 1}^{i - 1}) = \frac{f (w_{i - n + 1}^{i})}{f (w_{i - n + 1}^{i - 1})}

利用MapReduce也可以识别在语料库中的n-gram的相对频率。例如，n-gram可以被划分成多个分片。n-gram和频率的输入可以在映射和化简阶段中被处理，从而以与上述类似的方式产生关于n-gram的相对频率。

具体地，可以使用分片函数，其设置用于分子和分母的值，以计算在同一分片上的相对频率。具体地，散列函数可以被应用到n-gram的第一个词。结果，需要的n-gram w_i-n+1 ⁱ和w_i-n+1 ^i-1将共享相同的第一个词w_i-n+1，并且将被设置在相同的分片上(除了所有的单gram以外)。

然而，在一些实现中，利用第一个词进行分片只能导致不平衡的分片。例如，在不匀称数量的n-gram的开始可以发现一些词语(例如停用词(stopwords)、一些标点符号标志、或句子的开始标志)。通过基于n-gram的前两个词进行散列，可以使分片更加平衡，例如：

Int ShardForkey(string key，int nshards){

String prefix＝FirstTwoWords(key)；

Return Hash(prefix)％nshards；

}

另外，在每个分片上再生单gram计数，以计算在各个分片中的相对频率。然而，与n-gram的总数相比，数据量小。

系统确定310回退分值。各个分片包括计算在分片中的n-gram的相对频率所必需的所有信息。当没有发现完整的n-gram时，计算回退分值。因此，如果没有发现完整的n-gram的相对频率r(w_i|w_i-n+1 ^i-1)，则系统递归地寻找回退相对频率，例如r(w_i|w_i-n+2 ^i-1)、r(w_i|w_i-n+3 ^i-1)等，直到达到单gram回退。因为在其最后两个词上分片的n-gram和在每个分片上复制的所有的单gram，所以所有回退计算可以在同一分片中执行。

在一些实现中，回退分值被存储在每个分片上，用于分片的各自回退n-gram。替选地，系统存储关于回退因子α的值，所述值被各个分片使用以在运行时响应于输入n-gram(例如，来自将被翻译的输入字符串)计算特定回退分值。

总而言之，语言模型可以在下面步骤中从语料库生成。系统生成词汇表。利用来自语料库的输入文本，系统输出1-gram的词汇表以及它们的频率。接着，n-gram和它们的频率被识别。将文本和词汇表用作输入来识别n-gram和它们的频率。利用n-gram和它们各自的频率来计算关于n-gram的相对频率。利用如上所述的MapReduce实现在该过程中的每个步骤。然后作为n-gram的相对频率的函数直接确定回退分值。

如上述，根据n-gram级可能具有多个关于回退因子α的值。例如，如果对于特定样本数据，经常使用4-gram，则用于从5-gram回退到4-gram的惩罚(即α值)应该小。相反，如果在样本数据中经常使用4-gram，那么用于从4-gram回退到3-gram的惩罚应该大。

对于被称为留存数据(heldout data)的特定样本数据，可以获得关于在每一级多少n-gram也出现在语言模型中的计数.用于在n-gram语言模型中确定多个回退因子α的一种技术包括确定与在每一级的计数成比例的回退因子.例如，对于特定留存数据集，检验达到某个最大级n的所有k-gram，即，k＝1，...，n.在级k的n-gram的覆盖被计算为在也出现于语言模型中的留存数据中的级k的n-gram出现的数量除以在留存数据中的级k的n-gram出现的总数，即，C_k＝L_k/N_k，其中，L_k小于或等于N_k。另外，C_k小于或等于在低一级的n-gram级的覆盖，即，C_k小于或等于C_k-1。假定计算值为C_k，在每一级的回退因子值α_k被确定为：

α_k＝1-C_k 如果k＝n(最高的级)并且

α_{k} = \frac{(1 - C_{k})}{α (k + 1)}

如果k＝1，...，(n-1)。

因此，在每一级α_k值与计数成比例。例如，对于一组留存数据和最大级5，可以计算下面的回退因子：α₅＝0.7012，α₄＝0.6090，α₃＝0.2547，α₂＝0.1052，α₁＝0.0399。符号α₅表示当从5-gram回退到4-gram时的回退因子。在一些实现中，不存在从1-gram到0-gram的回退，因此α₁值不被使用。

另一技术稍微调整用于计算回退因子的公式为：

α_k＝1-C_k 如果k＝n(最高的级)并且

α_{k} = \frac{(1 - C_{k})}{(1 - C_{k + 1})}

如果k＝1，...，(n-1)。

上述调整导致关于较低级的回退的α_k值略有增加。例如，利用相同的留存数据，回退因子被计算为：

α₅＝0.7012，α₄＝0.6090，α₃＝0.3632，并且α₂＝0.1728。

在另一技术中，用于计算回退因子的公式对于较高级的回退提供更高的回退值：

α_k＝(C_k-1-C_k)/C_k如果k＝n(最高的级)，

α_{k} = \frac{(C_{k - 1} - C_{k})}{(C_{k} - C_{k + 1})}

如果k＝2，...，(n-1)，并且

α_{k} = \frac{(1 - C_{k})}{(C_{k} - C_{k + 1})}

如果k＝1。

上述公式将上面的样本α_k值调整如下：α₅＝0.9177，α₄＝0.9916，α₃＝0.4719，α₂＝0.1761，α₁＝0.1858。如上，对于给定的语言模型，α₁可以被忽略。

在一些实现中，可以包括上限值(cap value)。上限值可以被引入以防止回退值变得太大。因此，可以将回退因子的上限定为α_max，使得回退值等于计算的α_k值或α_max的最小值。例如，在上面的样本α值中，当使用α_max＝0.95时，回退因子α₄被从计算的值0.9916减小到上限值0.95。

在用于计算回退因子的另一技术中，引入术语M_k。M_k是在留存数据集中使用的在级k的概率的总和。回退因子然后被计算，从而在级k的回退分布的总量与在级k的留存集的概率量成比例：

α_k＝M_k-1/M_k 如果k＝2...n并且

α_k＝0 如果k＝1。

再次对于留存数据的相同样本集，上面公式提供了下面的示例回退值：α₅＝0.5396，α₄＝0.5138，α₃＝0.1111，α₂＝0.0248，α₁＝0.0。如同前一示例，最大回退值α_max可以被用于对回退值设定上限。

在一些实现中，可以使用区别训练来确定关于一个或多个回退因子的值。机器翻译系统典型地使用区别训练技术优化自由参数，以在一组参考翻译对其是可用的一些样本数据上最小化翻译质量的自动化测量，例如，双语评估替代(“BLEU”)分值。区别训练不试图直接优化数值分值。而是，识别产生比其他回退因子值好的翻译分值的一组回退因子值。例如在Papineni，K.，Roukos，S.，Ward，T.，和Zhu，W.J.“BLEU：a method for automatic evaluation of machine translation”inACL-2002：40th Annual meeting of the Association for ComputationalLinguistics pp.311-318(2002)中描述了BLEU分值。

具体地，为了区别地训练回退因子，利用关于回退因子的不同值来翻译对其翻译是可用的句子的集合。导致较高值的BLEU(或类似的)分值的回退因子被使用。在Franz Josef Och，Minimum error rate trainingin statistical machine translation，In Proc.of the 41st Annual Meeting ofthe Association for Computational Linguistics(ACL)，160-167页(2003)中描述了在统计机器翻译中区别地训练特征的一个示例方法。上面的方法可以被用于训练回退因子。通过将当在翻译期间在每一词位置应用语言模型时所遇到的实际回退的程度作为附加“特征函数”，在上面文献中描述的一般方法可以被应用于确定回退因子。作为结果的特征函数权重然后被利用对数线性关系(例如，解码研究目标函数的对数线性公式)转换为回退因子。特征函数可以是关于特定回退水平的指标函数(例如，当语言模型已经确切地回退k次时为1，否则为零)、阶跃函数(例如，当语言模型已经回退至少k次时为1)、或其他参数化。

已经参考机器翻译系统描述了该说明书。然而，公开的语言模型和用于生成和训练语言模型的技术可以在使用包括例如语音识别、光学字符识别、和字符识别等的语言模型的其他系统中被实现。

图4是用于机器翻译的示例系统。数据处理设备410可以包括硬件/固件、操作系统和包括翻译程序420的一个或多个程序。翻译程序420与数据处理设备410联合运行，以完成在该说明书中描述的操作。因此，与一个或多个处理器以及计算机可读介质(例如，存储器)结合，翻译程序420表示在系统400中的一个或多个结构组件。

翻译程序420可以是翻译处理应用或一部分。如这里使用的，应用是计算机程序，该计算机程序被用户理解为用于确定目的的独特计算机工具。应用可以被完全构建于数据处理设备410的操作系统(OS)中，或者应用可以具有位于不同位置的不同部件(例如，在OS或核心模式中的一部分、在用户模式中的一部分、以及在远程服务器的一部分)，并且应用可以被构建在用作设备410的软件平台的运行库上。此外，利用一个或多个处理器490可以将应用处理分布在网络480上。例如，翻译程序420的语言模型可以分布地在一个或多个处理器490上训练。

数据处理设备410包括一个或多个处理器430和至少一个计算机可读介质440(例如，随机存取存储器、存储装置等)。数据处理设备410还可以包括通信接口450、一个或多个用户接口装置460、以及一个或多个附加装置470。用户接口装置460可以包括显示屏幕、键盘、鼠标、指示笔或其组合。

一旦被编程，数据处理设备410可操作以将回退因子识别为相对n-gram频率的函数。另外，语言模型可以被生成为使得回退因子可以从单个分片取得。

在该说明书中描述的主题和功能操作的实施例可以以数字电子电路、或者以计算机软件、固件、或硬件或者以它们的一个或多个的组合实现，包括在该说明书中公开的结构和它们的结构等效物。在该说明书中描述的主题的实施例可以被实现为一个或多个计算机程序产品，即，在有形的程序载体上编码的计算机程序指令的一个或多个模块，以用于数据处理设备的运行或者以控制数据处理设备的操作。有形的程序载体可以是传输的信号或计算机可读介质。传输的信号是人工生成的信号，例如机器生成的电、光或电磁信号，其被生成以编码信息用于传输到合适的接收器设备，便于计算机的运行。计算机可读介质可以是机器可读存储装置、机器可读存储基底、存储器装置、实现机器可读传输信号的物质的构成，或者它们中的一个或多个的组合。

术语“数据处理设备”涵盖用于处理数据的所有设备、装置、和机器，例如包括可编程处理器、计算机或者多处理器或计算机。除了硬件，设备可以包括为所讨论的计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。

计算机程序(也被称为程序、软件、软件应用、脚本或代码)可以以任何编程语言形式被编写，包括编译或解释语言、或者声明或过程语言，并且可以以任何格式被部署，包括作为独立程序或作为适合于在计算环境中使用的模块、组件、子程序或其他单元。计算机程序不必对应于文件系统中的文件。程序可以被存储在保持其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、在专用于所讨论的程序的单个文件中或在多个协同文件中(例如，存储一个或多个模块、子程序、或部分代码的文件)。计算机程序可以被部署为在位于一个位置或分布在多个位置上并且通过通信网络互连的一个或多个计算机上被执行。

在该说明书中描述的过程和逻辑流程可以通过运行一个或多个计算机程序的一个或多个可编程处理器执行，以通过对输入数据操作以及生成输出而执行功能。过程和逻辑流程也可以通过专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行，并且设备也可以被实现为专用逻辑电路。

适合计算机程序的运行的处理器包括例如通用和专用微处理器，以及任何种类的数字计算机的一个或多个处理器。一般地，处理器将会从只读存储器或随机存取存储器或两者接收指令和数据。计算机的重要元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器装置。一般地，计算机也将包括一个或多个用于存储数据的大容量存储装置，例如磁盘、磁光盘、或光盘，或者计算机被可操作地耦接以从上面的大容量存储装置接收数据或向上面的大容量存储装置传递数据或既接收数据又传递数据。然而，计算机不必具有如此的装置。并且，计算机可以被嵌入在另一装置中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器，这里只列举了少数。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，举例来说，包括：半导体存储器装置，例如EPROM、EEPROM、以及闪存装置；磁盘，例如内置硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以通过专用逻辑电路补充，或者合并在专用逻辑电路中。

为了提供与用户的交互，在该说明书中描述的主题的实施例可以被实现在具有显示装置、键盘和指示装置的计算机上，显示装置例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息，指示装置例如是鼠标或跟踪球，通过指示装置用户可以向计算机提供输入.其他种类的装置也可以用于提供与用户的交互，例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈、或触觉反馈；并且来自用户的输入可以以任何形式被接收，包括声学、语音、或触觉输入.

在该说明书中描述的主题的实施例可以被实现在包括例如数据服务器的后端组件的计算系统、或者包括例如应用程序服务器的中间件组件的计算系统、或者包括例如具有图形用户接口或Web浏览器的客户端计算机的前端组件的计算系统，或者包括一个或多个这种后端、中间件、或前端组件的任何组合的计算系统中，其中用户通过所述图形用户接口或Web浏览器可以与在该说明书中的描述的主题的实现交互。系统的组件可以通过任何形式或介质的数字数据通信例如通信网络而互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行的并且彼此具有客户端-服务器关系的计算机程序而发生。

尽管该说明书包括很多细节，但是这些不应该被理解为本发明的范围的限制或要求保护的限制，而是可以特定于特定发明的具体实施例的特征的描述。在该说明书中在分立实施例的上下文中描述的某些特征可以在单个实施例中以组合的形成被实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中或者在任何的子组合中分立地被实现。而且，虽然特征可以被如上地描述为在某些实施例中作用并且被最初地如此要求保护，但是来自要求保护的组合的一个或多个特征在一些情形中可以从组合中被除去，并且要求保护的组合可以涉及子组合或子组合的变化。

类似地，尽管按照特定顺序在附图中描述了操作，但是这不应该被理解为操作需要被按照示出的该特定顺序或连续的顺序执行，或者所有示出的操作都应该被执行，以实现期望的结果。在某些环境下，多任务和并行处理可以是有利的。而且，在上面描述的实施例中的各种系统组件的分离不应该被理解为在所有实施例中都需要这种分离，并且应该理解，描述的程序组件和系统一般可以被集成在单个软件产品中或者被封装到多个软件产品中。

已经描述了在该说明书中描述的主题的具体实施例。其他实施例在所附权利要求的范围内。例如，在权利要求中引用的动作可以按不同的顺序被执行，并且仍然实现理想的结果。作为一个示例，在附图中描述的过程不必需要示出的特定顺序或连续的顺序，以实现理想的结果。在某些实现中，多任务和并行处理可以是有利的。

Claims

1.一种系统，包括：

语言模型，所述语言模型包括：

来自语料库的n-gram的集合，每个n-gram具有在所述语料库中的对应的相对频率和与在所述n-gram中的符号的数量对应的级n，每个n-gram与具有n-1的级的回退n-gram对应；和

回退分值的集合，每个回退分值与n-gram相关联，所述回退分值被确定为回退因子和在所述语料库中的对应的回退n-gram的相对频率的函数。

2.根据权利要求1所述的系统，其中所述回退因子包括恒定的惩罚值。

3.根据权利要求1所述的系统，其中所述回退因子取决于n-gram级。

4.根据权利要求3所述的系统，其中利用在样本数据中出现的每个级的n-gram的数量取得所述回退因子。

5.根据权利要求1所述的系统，其中利用翻译模型的区别训练取得所述回退因子。

6.根据权利要求5所述的系统，其中指标特征函数被用于识别所述回退因子。

7.一种方法，包括：

生成语言模型，包括：

识别来自训练数据的语料库的n-gram的集合，所述集合的每个n-gram具有在所述语料库中出现的对应的相对频率和与在所述n-gram中的符号的数量对应的级n，每个n-gram与具有n-1的级的回退n-gram对应；和

识别一个或多个回退因子，其中所述回退因子被用于作为回退n-gram的相对频率的函数识别关于一个或多个n-gram的回退分值。

8.根据权利要求7所述的方法，其中识别所述一个或多个回退因子包括：

对一组样本数据执行区别训练，所述区别训练识别最大化翻译质量的测量的关于所述一个或多个回退因子的值。

9.根据权利要求8所述的方法，其中指标特征函数被用于识别所述一个或多个回退因子。

10.根据权利要求7所述的方法，其中识别所述一个或多个回退因子包括：

确定关于每个n-gram级的回退因子，其中所述回退因子是从在样本数据集中的每个级的n-gram的出现数量得到的。

11.根据权利要求7所述的方法，进一步包括利用所述一个或多个回退因子计算关于n-gram的回退分值以及存储所述回退分值。

12.一种计算机程序产品，编码在有形的程序载体上，可操作以使数据处理设备执行操作，所述操作包括：

生成语言模型，包括：

13.根据权利要求12所述的计算机程序产品，其中识别所述一个或多个回退因子包括：

14.根据权利要求13所述的计算机程序产品，其中指标特征函数被用于识别所述一个或多个回退因子。

15.根据权利要求12所述的计算机程序产品，其中识别所述一个或多个回退因子包括：

16.根据权利要求12所述的计算机程序产品，进一步包括：包括利用所述一个或多个回退因子计算关于n-gram的回退分值以及存储所述回退分值的操作。

17.一种方法，包括：

接收具有多个符号的输入字符串，所述输入字符串被划分成一个或多个n-gram，每个n-gram具有级，所述级识别在所述n-gram中的符号的数量；以及

利用语言模型识别在所述输入字符串中每个n-gram的概率；

当在所述语言模型中没有发现在所述输入字符串中的第一n-gram时，

识别回退n-gram，所述回退n-gram具有比所述第一n-gram的级小1的级，并且此时在所述语言模型中发现所述回退n-gram 并且

识别关于所述第一n-gram的回退分值，所述回退分值是回退因子和在所述语言模型中所述回退n-gram的相对频率的函数。

18.根据权利要求17所述的方法，其中识别回退分值包括查找经计算的关于所述n-gram的回退分值。

19.根据权利要求17所述的方法，其中识别回退分值包括利用关于所述n-gram的所述回退因子和所述回退n-gram的所述相对频率计算所述回退分值。

20.一种计算机程序产品，编码在有形的程序载体上，可操作以使数据处理设备执行操作，所述操作包括：

利用语言模型识别在所述输入字符串中每个n-gram的概率；

识别回退n-gram，所述回退n-gram具有比所述第一n-gram的级小1的级，并且此时在所述语言模型中发现所述回退n-gram；并且

21.根据权利要求20所述的计算机程序产品，其中识别回退分值包括查找经计算的关于所述n-gram的回退分值。

22.根据权利要求20所述的计算机程序产品，其中识别回退分值包括利用关于所述n-gram的所述回退因子和所述回退n-gram的所述相对频率计算所述回退分值。