CN102150156B

CN102150156B - 优化用于机器翻译的参数

Info

Publication number: CN102150156B
Application number: CN200980133134.8A
Authority: CN
Inventors: 沃尔夫冈·马赫赖; 尚卡尔·库马尔; 罗伊·W·特朗布利; 弗朗茨·约瑟夫·欧池; 伊格纳西奥·E·塞耶; 雅各布·乌兹科瑞特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2008-07-03
Filing date: 2009-07-02
Publication date: 2015-06-10
Anticipated expiration: 2029-07-02
Also published as: EP2318953A4; KR20110043645A; US20100004920A1; JP2011527471A; WO2010003117A2; CN102150156A; KR101623891B1; US8744834B2; JP5572624B2; WO2010003117A3; US20100004919A1; WO2010003117A8; EP2318953A2

Abstract

公开了用于语言翻译的方法、系统和装置，包括计算机程序产品。在一个实施方式中，提供了一种方法。该方法包括访问假设空间；执行对翻译格阵的解码以获得使相对于证据空间计算的预期分类误差最小化的翻译假设；以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。

Description

优化用于机器翻译的参数

技术领域

本说明书涉及统计机器翻译。

背景技术

由人类操作员进行的对文本的人工翻译可能费时且费钱。机器翻译的一个目标是自动地将源语言的文本翻译成目标语言的对应文本。存在针对机器翻译的若干不同的方法，包括基于示例的机器翻译和统计机器翻译。统计机器翻译试图识别对于源语言的特定输入的目标语言的最可能翻译。例如，当将句子从法语翻译成英语时，统计机器翻译识别对法语句子的最可能英语句子。该最大可能翻译可以被表示为：

\underset{e}{\arg \max} P (e | f),

其描述了在所有可能的句子中的提供了关于P(e|f)的最高值的英语句子e。此外，贝叶斯规则规定：

P (e | f) = \frac{P (e) P (f | e)}{P (f)} .

使用贝叶斯规则，该最可能的句子可以被重写为：

\underset{e}{\arg \max} P (e | f) = \underset{e}{\arg \max} P (e) P (f | e) .

因此，最可能的e(即，最可能的英语翻译)是使e发生的概率和e将被翻译成f的概率(即，给定的英语句子被翻译成法语句子的概率)的乘积最大化的e。

执行语言翻译任务的翻译部分的组件经常被称为解码器。在某些情况下，第一解码器(第一遍解码器)可以生成可能翻译的列表，例如N-最佳列表。然后可以将例如最小贝叶斯风险(MBR)解码器的第二解码器(第二遍解码器)应用于所述列表以如通过使为识别的一部分的损失函数最小化来测量的，理想地识别可能翻译中的哪些是最准确。典型地，N-最佳列表包含在100到10,000之间的候选翻译或假设。增加候选翻译的数量提高了MBR解码器的翻译性能。

发明内容

本说明书描述了与语言翻译有关的技术。

总的来说，可以将在本说明书中描述的主题的一个方面具体化在包括下述动作的方法中：访问翻译格阵(lattice)，其中翻译格阵表示多个候选翻译；执行对翻译格阵的解码以获得使翻译格阵中的预期分类误差最小化的翻译假设；以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。本方面的其它实施例包括相应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括下述特征中的一个或多个。该方法进一步包括生成翻译格阵，包括将源语言的源样本提供给解码器。执行MBR解码包括计算语料库BLEU增益的逼近(approximation)。语料库BLEU增益的逼近被表示为：其中w是单词，θ_w是常量，E是候选翻译，E′是自动翻译，#_w(E′)是w在E′中出现的次数，以及如果w∈E，则δ_w(E)为1，否则为0。

执行对格阵的解码包括执行最小贝叶斯风险(MBR)解码。执行MBR解码包括计算：其中w是单词，θ_w是常量，E′是自动翻译，#_w(E′)是w在E′中出现的次数，Ψ表示翻译格阵，以及P(w|Ψ)是w在翻译格阵中的后验概率。其中Ψ_w＝{E∈Ψ|δ_w(E)＞0}表示翻译格阵的包含w至少一次的路径，Z(Ψ_w)表示Ψ_w中路径的权重的总和，以及Z(Ψ)表示Ψ中路径的权重的总和。

总的来说，可以将在本说明书中描述的主题的另一个方面具体化在包括下述动作的方法中：访问假设空间，其中假设空间表示多个候选翻译；执行对假设空间的解码以获得使相对于证据空间计算的预期分类误差最小化的翻译假设；以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。本方面的其它实施例包括相应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括下述特征中的一个或多个。假设空间被表示为格阵。证据空间被表示为N-最佳列表。

可以实现在本说明书中描述的主题的特定实施例来实现下述优势中的一个或多个。对格阵的MBR解码增加了假设和证据空间的大小，从而增加了可获得的候选翻译的数量以及获得准确翻译的可能性。另外，MBR解码提供了(如将在下面进一步详细描述的)语料库BLEU分值的更好逼近，从而进一步提高了翻译性能。此外，对格阵的MBR解码是运行时间高效的，从而由于对格阵的MBR解码可以在运行时间执行而增加了统计机器翻译的灵活性。

总的来说，可以将在本说明书中描述的主题的另一个方面具体化在包括下述动作的方法中：对于翻译格阵中的多个特征函数，确定在翻译格阵中表示的一个或多个候选翻译中的每一个的相应多个误差表面(error surface)；通过对训练集中的短语遍历多个误差表面的组合来调整特征函数的权重；选择使有关遍历的组合的误差计数最小化的权重值；以及应用所选择的权重值来将文本样本从第一语言转换成第二语言。本方面的其它实施例包括相应的系统、装置和计算机程序产品。

这些和其它实施例可以可选地包括下述特征中的一个或多个。翻译格阵包括短语格阵。短语格阵中的弧线表示短语假设以及短语格阵中的节点表示部分翻译假设被重组所处的状态。使用线形最优化技术来确定并且遍历误差表面。对于组中的每一个特征函数和句子，线形最优化技术确定并且遍历有关候选翻译集的误差表面。线形最优化技术从参数空间中的随机点开始确定并且遍历误差表面。线形最优化技术使用随机方向来确定并且遍历误差表面以调整权重。

权重由约束限制。使用权重先验(weights priors)来调整权重。在句子组中的所有句子上调整权重。该方法进一步包括从多个候选翻译选择使翻译格阵的后验概率最大化的目标翻译。翻译格阵表示多于十亿的候选翻译。短语包括句子。短语均包括句子。

总的来说，可以将在本说明书中描述的主题的另一个方面具体化在包括语言模型的系统中，所述语言模型包括：翻译格阵中的特征函数集合；跨特征函数的候选语言翻译集的多个误差表面；以及被选择为使遍历误差表面的误差最小化的用于特征函数的权重值。本方面的其它实施例包括相应的系统、装置和计算机程序产品。

基于格阵的最小误差率训练(MERT)为翻译格阵中的所有翻译提供了精确的误差表面，从而进一步提高了统计机器翻译系统的翻译性能。用于基于格阵的MERT的系统和技术还是空间和运行时间高效的，从而减少了所使用的存储器的容量，例如将存储器需求限制为(至多)与格阵的大小线性相关的，以及增加了翻译性能的速度。

在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优势从描述、附图以及权利要求将变得显而易见。

附图说明

图1是用于将输入文本从源语言翻译成目标语言的示例过程的概念图。

图2A图示了示例翻译格阵。

图2B图示了用于图2A的翻译格阵的示例MBR自动机。

图3图示了示例翻译格阵的一部分。

图4示出了用于MBR解码的示例过程。

图5A示出了用于对于格阵的最小误差率训练(MERT)的示例过程。

图5B图示了示例最小误差率训练器。

图6示出了通用计算机设备和通用移动计算机设备的示例。

在各个附图中相同的参考数字和标记指示相同的元素。

具体实施方式

统计翻译概述

机器翻译试图获得一种语言的输入文本，并且将其准确地转换成另一种语言的文本。通常，针对专家人类翻译输入的方式来测量翻译的准确性。自动翻译系统可以分析人类专家执行的先前翻译来形成从一种语言到另一种语言的翻译统计模型。然而，由于单词的含义通常取决于上下文(context)，所以没有这样的模型可以是完整的。因此，对单词从一种语言到另一种语言的步进式逐字变换可能没有提供可接受的结果。例如，诸如“babe in the woods(涉世未深的人)”的习语或俚语短语在照字面逐字变换时翻译得不是很好。

适当的语言模型可以帮助为自动翻译过程提供这样的上下文。例如，模型可以提供有关两个单词在正常用法中-例如在训练数据中-彼此相邻出现或其它的多个单词或元素(n-gram)组在一种语言中出现的频率的指示。n-gram是n个连续符号(token)-例如单词或字符-的序列。n-gram具有级(order)或大小，其为在n-gram中的符号的数目。例如，1-gram(或者单gram)包括一个符号；2-gram(或者双gram)包括两个符号。

给定n-gram可以根据该n-gram的不同部分来描述。n-gram可以被描述为上下文和未来符号(context，w)，其中context(上下文)具有长度n-1并且w表示未来符号。例如，3-gram“c₁c₂c₃”可以按照n-gram上下文和未来符号来描述，其中c₁、c₂和c₃每一个表示字符。n-gram左部上下文包括在n-gram的最末符号之前的n-gram的所有符号。在给出的示例中，“c₁c₂”为上下文。在上下文中的最左部符号被称为左部符号。未来符号为n-gram的最末符号，其在该示例中为“c₃”。n-gram还可以关于右部上下文来描述。右部上下文包括在n-gram的第一符号之后的n-gram的所有符号，被表示为(n-1)-gram。在上面的示例中，“c₂c₃”为右部上下文。

每一个n-gram可以具有被计算为在训练数据中的出现的计数相对于在训练数据中的总计出现的计数的函数的相关联的概率估计，例如对数概率。在一些实施方式中，n-gram为输入文本的翻译的概率使用在训练数据-例如包括源语言的文本集和目标语言的对应文本的训练数据-中在目标语言中被表示为源语言的对应文本的参考翻译的n-gram的相对频率来训练。

此外，在一些实施方式中，将分布式训练环境用于大型训练数据(例如，兆兆字节数据)。用于分布式训练的一个示例技术是MapReduce。在J.Dean和S.Ghemawat的在Proceedings of the 6thSymposium on Operating System Design and Implementation(2004年12月6日)第137-150页的MapReduce：Simplified Data Processing on LargeClusters中描述了MapReduce的细节。

由训练集表示的过去用法可以用于预测一种语言的样本应当被如何翻译成目标语言。特别地，可以将n-gram、相关联的概率估计和相应计数存储在语言模型中以供例如贝叶斯解码器的解码器使用来识别输入文本的翻译。指示输入文本可以被翻译成目标语言的对应文本的可能性的分值可以通过将包括在输入文本中的n-gram映射到特定翻译的相关联的概率估计来计算。

示例翻译过程

图1是用于将输入文本从源语言翻译成目标语言的示例过程100的概念图。源样本102被示出为中文文本段落，以及被提供给第一解码器104。解码器104可以采取多种形式，以及可以被使用以对于在解码器104的训练阶段已经提供给解码器104的训练文档集106，试图使该段落的后验概率最大化。在翻译样本102时，解码器104可以从文档内选择n-gram，并且试图翻译所述n-gram。解码器104除其它可能的模型外可以提供有重新排序模型、对准模型以及语言模型。模型在从样本102内选择n-gram用于翻译时指引解码器104。作为一个简单的示例，模型可以使用定界符，例如诸如逗号或句号的标点符号，来识别可以表示单词的n-gram的末尾。

解码器104可以产生各种输出，例如包括可能翻译的数据结构。例如，解码器104可以产生翻译的N-最佳列表。在一些实施方式中，解码器104如将在下面进一步详细描述地生成翻译格阵108。

第二解码器110然后处理翻译格阵108。虽然第一解码器104的目标通常是使翻译的后验概率最大化，即将输入与历史文档集合106可以指示为其它段落的过去专家人工翻译的最佳匹配的内容进行匹配，但是第二解码器110的目标是使翻译的质量测量最大化。如此，第二解码器110可以对驻存在翻译格阵中的候选翻译进行重新排名以产生可以向系统100的用户显示的“最佳”翻译。该翻译由与中文样本102的翻译相对应的英语样本112来表示。

第二解码器110可以使用被称为MBR解码的过程，其查找使预期分类误差最小化的假设(或候选翻译)。该过程因此直接将损失函数合并入用于进行翻译选择的决策标准。

最小贝叶斯风险解码

最小贝叶斯风险(MBR)解码的目标是找到在概率模型下具有最小预期误差的翻译假设，例如候选翻译。统计机器翻译可以被描述为将源语言的输入文本F映射到目标语言的翻译文本E。例如解码器104的解码器δ(F)可以执行该映射。如果参考翻译E是已知的，则解码器性能可以由损失函数L(E，δ(F))来测量。给定在自动翻译E′和参考翻译E之间的这样的损失函数L(E，E′)，以及基本概率模型P(E，F)，例如第二解码器110的MBR解码器可以由下述表示：

\hat{E} = \underset{E^{'} &Element; Ψ}{\arg \min} R (E^{'}) = \underset{E^{'} &Element; Ψ}{\arg \min} \underset{E^{'} &Element; Ψ}{Σ} L (E, E^{'}) P (E | F),

其中R(E)表示候选查询E′在损失函数L下的贝叶斯风险，以及Ψ表示翻译空间。对于N-最佳MBR，空间Ψ是例如由第一解码器104产生的N-最佳列表。在使用翻译格阵时，Ψ表示编码在翻译格阵中的候选翻译。

如果在任何两个假设之间的损失函数可以是有界的，即L(E，E′)≤L_max，则可以根据增益函数G(E，E′)＝L_max-L(E，E′)将MBR解码器写为：

\hat{E} = \underset{E^{'} &Element; Ψ}{\arg \max} \underset{E^{'} &Element; Ψ}{Σ} G (E, E^{'}) P (E | F) .

(等式1)

在一些实施方式中，MBR解码将不同的空间用于假设选择和风险计算。例如，假设可以从N-最佳列表选择，以及风险可以基于翻译格阵来计算。在该示例中，可以将MBR解码器重写为：

\hat{E} = \underset{E^{'} &Element; Ψ_{h}}{\arg \max} \underset{E^{'} &Element; Ψ_{e}}{Σ} G (E, E^{'}) P (E | F),

其中Ψ_h表示假设空间，以及Ψ_e表示用于计算贝叶斯风险的证据空间。

可以通过使用较大空间，即假设和风险计算空间，来改进MBR解码。格阵可以包括比N-最佳列表更多的候选翻译。例如，格阵可以包括多于十亿的候选翻译。如此，使用格阵来表示假设和风险计算空间提高了MBR解码的准确性，从而增加了提供准确翻译的可能性。

示例翻译格阵和MBR解码

图2A图示了示例翻译格阵200。特别地，翻译格阵200是可以被认为是用于翻译假设的非常大的N-最佳列表和它们的可能性的简洁表示的翻译n-gram格阵。具体地，格阵是包括状态(例如，状态0至6)和表示在状态之间的翻译的弧线的非循环加权有限状态受体。每一条弧线与n-gram(例如单词或短语)和权重相关联。例如，在翻译格阵200中，n-gram由标记″a″、″b″、″c″、″d″和″e″表示。状态0连接到提供到状态1的路径的第一弧线、提供从状态1到状态4的路径的第二弧线、以及提供从状态4到状态5的路径的第三弧线。第一弧线与“a”和权重0.5相关联，第二弧线与“b”和权重0.6相关联，以及第三弧线还与“d”和权重0.3相关联。

在翻译格阵200中的包括以起始状态(例如状态0)开始和以最终状态(例如状态6)结束的连续翻译的每一条路径表示候选翻译。根据模型，对沿着路径的权重的聚合产生路径的候选翻译H(E，F)的权重。路径的候选翻译的权重将翻译E相对于源句子F的后验概率表示为：

P (E, F) = \frac{\exp (α \cdot H (E, F))}{\underset{E^{'} &Element; Ψ}{Σ} \exp (α \cdot H (E^{'}, F))},

其中α∈(0，∞)是当α＜1时使分布扁平化以及当α＞1时使分布锐化的比例因子。

在一些实施方式中，增益函数G被表示为局部增益函数g_i的总和。如果可以使用加权有限状态转换器(WFST)组合物将增益函数应用于格阵中的所有路径，导致在格阵中的状态数量N中增加o(N)，则增益函数可以被认为是局部增益函数。局部增益函数可以为n-gram赋予权重。例如，给定n-gram集N＝{w₁，...，w_|N|}，局部增益函数其中w∈N，可以被表示为：

g_w(E|E′)＝θ_w·#_w(E′)·δ_w(E)，

其中θ_w是常量，#_w(E′)是w在E′中出现的次数，以及如果w∈E，则δ_w(E)为1，否则为0。假定总体增益函数G(E，E′)可以被写为局部增益函数和常量θ₀乘以假设E′的长度的总和，总体增益函数可以被表示为：

G (E, E^{'}) = θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} {g_{w} (E| E^{'}) = θ}_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{′}) \cdot δ_{w} (E) .

使用该总体增益函数，风险，即可以被重写，使得(等式1中)用于格阵的MBR解码器被表示为：

\hat{E} = \underset{E^{'} &Element; Ψ}{\arg \max} {θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot P (w | Ψ)},

(等式2)

其中P(w|Ψ)是n-gram w在格阵中的后验概率，或以及可以被表示为：

P (w | Ψ) = Σ_{E &Element; Ψ_{w}} P (E | F) = \frac{Z (Ψ_{w})}{Z (Ψ)},

(等式3)

其中Ψ_w＝{E∈Ψ|δ_w(E)＞0}表示格阵的包含n-gram w至少一次的路径，以及Z(Ψ_w)和Z(Ψ)分别表示格阵Ψ_w和Ψ中的所有路径的权重的总和。

在一些实施方式中，使用WFST来实现MBR解码器(等式2)。例如通过按拓扑顺序遍历格阵中的弧线来提取包括在格阵中的n-gram集。格阵中的每一个状态具有相应的n-gram前缀集。离开状态的每一条弧线以单个单词扩展状态的前缀中的每一个。在后跟格阵中的弧线的状态出现的n-gram包括在所述集合中。作为初始化步骤，可以最初将空前缀添加到每一个状态的集合。

对于每一个n-gram w，生成匹配包含n-gram的路径的自动机(例如，另一个格阵)，并且使该自动机与格阵相交以找到包含n-gram的路径集，即Ψ_w。例如，如果Ψ表示赋予权重的格阵，则Ψ_w可以被表示为：

Ψ_w＝Ψ∩(∑^＊w∑^＊)。

n-gram w的后验概率P(w|Ψ)可以如上在等式3中所给出的被计算为Ψ_w中的路径的总权重与原始格阵Ψ中的路径的总权重的比率。

每一个n-gram w的后验概率可以如上述来计算，然后乘以如关于等式2描述的θ_w(n-gram因子)。生成接受带有等于n-gram在输入中出现的次数乘以θ_w的权重的输入的自动机。该自动机可以使用加权正则表达式来表示：

\overset{&OverBar;}{w} {(w / (θ_{w} P (w | Ψ)) \overset{&OverBar;}{w})}^{*},

其中是包括不包含n-gram w的所有字符串的语言。

依次使每一个生成的自动机与每一个作为格阵的未赋予权重的副本开始的第二自动机相交。通过使未赋予权重的格阵与接受(∑/θ₀)^＊的自动机相交来生成这些第二自动机中的每一个。作为结果的自动机表示每一条路径的总预期增益。在作为结果的自动机中的表示单词序列E′的路径具有成本：

θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot P (w | Ψ) .

例如根据等式2，从作为结果的自动机提取与最小成本相关联的路径，以产生格阵MBR候选翻译。

在假设和证据空间格阵是不同的实施方式中，证据空间格阵用于提取n-gram，并且计算相关联的后验概率。构建以假设空间格阵的未赋予权重的副本开始的MBR自动机。依次使n-gram自动机中的每一个与假设空间格阵的未赋予权重的副本相交。

对BLEU分值的逼近用于将总体增益函数G(E，E′)的分解计算为局部增益函数的总和。BLUE分值是已被进行机器翻译的文本的翻译质量的指示符。在IBM Research Division的Technical Report RC22176(W0109-022)中、K.Papineni，S.Roukes，T.Ward和W.Zhu.2001年发表的BLEU：a Method for Automatic Evaluation of Machine Translation(用于自动评估机器翻译的方法)中描述了Bleu的额外细节。特别地，系统计算对从语料库中包括句子到不包括该句子的语料库BLUE分值的变化的一阶泰勒级数逼近。

给定语料库的参考长度r(例如，参考句子的长度或多个参考句子的长度的总和)、候选长度c₀和n-gram匹配的数目{c_n|1≤n≤4}，语料库BLEU分值B(r，c₀，c_n)可以被近似为：

\log B = \min (0,1 - \frac{4}{c_{0}}) + \frac{1}{4} Σ_{n = 1}^{4} \log \frac{c_{n}}{c_{0} - Δ_{n}} \approx \min (0,1 - \frac{4}{c_{0}}) + \frac{1}{4} Σ_{n = 1}^{4} \log \frac{c_{n}}{c_{0}},

其中Δ_n，在候选中的单词的数目与n-gram的数目之间的差：Δ_n＝n-1被假定是可忽略的。

语料库log(BLEU)增益被定义为当将新句子的(E’)统计包括在语料库统计中时log(BLEU)的变化，并且可以被表示为：

G＝logB′-logB，

其中在B’中的计数是B中的添加到对当前句子的计数的那些。在一些实施方式中，使用c≤r的假定，以及只有c_n被当作变量。因此，语料库log BLEU增益可以由关于c_n的初始值的一阶向量泰勒级数展开近似为：

G = Σ_{n = 0}^{N} ({c^{'}}_{n} - c_{n}) \frac{&PartialD; \log B^{'}}{{&PartialD; c}_{n}} |_{{c^{'}}_{n} = c_{n}},

其中偏导数被表示为：

\frac{&PartialD; \log B}{{&PartialD; c}_{0}} = \frac{- 1}{c_{0}},

以及

\frac{&PartialD; \log B}{{&PartialD; c}_{n}} = \frac{1}{{4 c}_{n}} .

因此，语料库log(BLEU)增益可以被重写为：

G = Δ \log B \approx - \frac{Δ c_{0}}{c_{0}} + \frac{1}{4} Σ_{n = 1}^{4} \frac{Δ c_{n}}{c_{n}},

其中Δ条件计算在感兴趣的句子而不是作为整体的语料库方面的各种统计。这些逼近表明(例如，等式2中的)值θ₀和θ_w可以被表示为：

θ_{0} = \frac{- 1}{c_{0}},

以及

θ_{w} = \frac{1}{4 c_{| w |}} .

假定每一个n-gram的精确度是恒比r乘以对应(n-1)-gram的精确度，可以在句子层级累积BLEU分值。例如，如果语料库中的平均句子长度被假定为25个单词，则：

\frac{# (n) gram_tokens}{# (n - 1) gram_tokens} = 1 - \frac{1}{25} = 0.96 .

如果单gram精确度为p，则作为参数p和r以及单gram符号T的数目的函数的n-gram因子(n∈{1，2，3，4})可以被表示为：

θ_{0} = \frac{- 1}{T},

以及

θ_{w} = \frac{1}{Tp \cdot 4 {(0.96 \cdot r)}^{n}} .

在一些实施方式中，p和r被设置为单gram精确度的平均值和跨多个训练集的精确率。替代等式2中的n-gram因子提供例如MBR决策规则的MBR解码器不取决于T，以及可以使用T的多个值。

图2B图示了用于图2A的翻译格阵的示例MBR自动机。在图2A中的翻译格阵200中的粗体路径是最大后验(MAP)假设，以及图2B中的MBR自动机250中的粗体路径是MBR假设。在图2A和2B所图示的示例中，T＝10，p＝0.85以及r＝0.75。注意到，MBR假设(bcde)具有相对于MAP假设(abde)的更高的解码器成本。然而，由于bcde与第三排名的假设(bcda)共享更多n-gram，所以bcde接收比abde更高的预期增益，这说明了格阵可以如何帮助选择不同于MAP翻译的MBR翻译。

最小误差率训练(MERT)概述

最小误差率训练(MERT)测量用于分类的决策规则的误差度量，例如使用0-1损失函数的MBR决策规则。特别地，MERT估计模型参数，以使根据0-1损失函数的决策使对训练语料库的端到端性能测量最大化。与对数-线性模型结合，训练过程优化不平滑的误差计数。如前所述，使后验概率最大化的翻译可以基于来选择。

由于真实的后验分布是未知的，所以以例如将一个或多个特征函数h_m(e，f)与特征函数权重λ_m，其中m＝1，...，M相结合的对数-线性翻译模型来逼近P(e|f)。该对数-线性翻译模型可以被表示为：

P (e | f) = P_{λ_{1}^{M}} (e | f) = \frac{\exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e, f)]}{Σ_{e^{'}} \exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e^{'}, f)]} .

特征函数权重是模型的参数，以及MERT标准找到使用例如的决策规则使对代表性训练句子集的误差计数最小化的参数集给定训练语料库的源句子参考翻译以及K候选翻译集C_s＝{e_s，1，...e_s，k}，翻译的基于语料库的误差计数可被加性地分解

成各个句子的误差计数，即MRET标准可以被表示为：

λ_{1}^{M} \underset{λ_{1}^{M}}{= \arg \min} {Σ_{s = 1}^{S} E (r_{s}, \hat{e} (f_{s}; λ_{1}^{M}))} = \underset{λ_{1}^{M}}{\arg \min} {Σ_{s = 1}^{S} Σ_{k = 1}^{K} E (r_{s}, r_{s, k}) δ (\hat{e} (f_{s}; λ_{1}^{M}), e_{s, k})},

(等式4)

其中

\hat{e} (f_{s}; λ_{1}^{M}) = \underset{e}{\arg \max} {Σ_{m = 1}^{M} λ_{m} h_{m} (e, f_{s})} .

线形最优化技术可以用于训练根据MERT标准的线性模型。对于每一个特征函数h_m和句子f_s，线形最优化确定对于候选翻译集C_s的精确误差表面。然后通过遍历训练语料库中的句子的组合误差表面并且将权重设置到在那里作为结果的误差是最小的点来调整特征函数权重。

C_s中的沿着线的最可能的句子假设可以被定义为：

\hat{e} (f_{s}; γ) = \underset{e &Element; C_{s}}{\arg \max} {{(λ_{1}^{M} + γ \cdot d_{1}^{M})}^{T} \cdot h_{1}^{M} (e, f_{s})} .

任何候选翻译的总分值对应于带有作为自变量的γ的平面中的线。总的来说，C_s定义K条线，其中由于与其它K-1条线的可能相交，每一条线可以被分成至多K条线段。

对于每一个γ，解码器(例如第二解码器110)确定产生最高分值，因此对应于最上面的线段的相应候选翻译。最上面的线段序列构成为遍及由C_s定义的所有线的逐点最大值的上包络。上包络是凸体(convex hull)，并且可以内接有凸多边形，所述凸多边形的边是以γ的分段线性函数的部段。在一些实施方式中，使用扫描线技术来计算上包络。例如，在W.Macherey，F.Och，I.Thayer和J.Uzskoreit的在2008年10月火奴鲁鲁Proceedings of the 2008 Conference on EmpiricalMethods in Natural Language Processing的第725-734页的Lattice-basedMinimum Error Rate Training for Statistical Machine Translation(用于统计机器翻译的基于格阵的最小误差率训练)中描述了扫描线技术的细节。

对于格阵的MERT

源句子f的格阵(例如，短语格阵)可以被定义为带有顶点集v_f、唯一源和汇点(sink)节点s，t∈v_f以及弧线集的连接的、有向非循环图G_f＝(v_f，ε_f)。每一条弧线用短语和该短语的(局部)特征函数值标记。G_f中的路径π＝(υ₀，ε₀，υ₁，ε₁，...，ε_n-1，υ_n)(其中ε_i∈ε_f以及作为ε_i的头部和尾部的υ_i，υ_i+1∈v_f，0≤i＜n)定义(f的)部分翻译e，其是沿着该路径的所有短语的连接。通过对特定于弧线的特征函数值求和来获得相关特征函数值：

在下述论述中，符号enter(v)和leave(v)分别是指对于节点υ∈v_f的传入(incoming)和传出(outgoing)弧线集。类似地，head(ε)和tail(ε)分别表示弧线ε的头部和尾部。

图3图示了示例翻译格阵300的一部分。在图3中，传入弧线302、304和306进入节点v 310。另外，传出弧线312和314离开节点v310。

以源节点s开始并且以v(例如，节点v 310)结束的每一条路径定义可以被表示为线(参照等式4)的部分翻译假设。假定这些部分翻译假设的上包络是已知的，以及定义包络的线由f₁，...，f_N表示。例如，弧线312的为集合leave(v)的元素的传出弧线ε表示这些部分候选翻译的延续。每一条传出弧线定义由g(ε)表示的另一条线。将g(ε)的参数添加到集合f₁，...，f_N中的所有线产生由下述定义的上包络：

f₁+g(ε)，...，f_N+g(ε)。

由于对g(ε)的添加不会改变线段的数量或它们的在包络中的相对顺序，所以保留了凸体的结构。因此，可以通过传出弧线ε将作为结果的上包络传播到后继节点υ′＝head(ε)。v′的其它传入弧线可以与不同的上包络相关联。可以将上包络合并成单个、组合的包络，其是关于构成各个包络的线集合的并集的凸体。通过组合每一条传入弧线v′的上包络，生成与以源节点s开始并且以v′结束的路径相关联的所有部分候选翻译的上包络。

其它实施方式是可能的。特别地，可以执行额外精化来提高(用于格阵的)MERT的性能。例如，为了防止线形最优化技术停留在低劣的局部最优，MERT可以探查通过对参数空间取样来随机选择的额外起始点。作为另一个示例，可以通过定义权重约束来限制部分或所有特征函数权重的范围。特别地，用于特征函数h_m的权重约束可以被指定为区间

R_m＝[l_m，r_m]，l_m，r_m∈R∪{-∞，+∞}，其定义了特征函数权重λ_m可以从中来选择的容许区域。如果线形最优化根据权重约束来执行，γ被选择使得：

l_{1}^{M} \leq λ_{1}^{M} + γ \cdot d_{1}^{M} \leq r_{1}^{M} .

在一些实施方式中，可以使用权重先验。如果新的权重被选择以匹配某一目标值则权重先验针对目标函数提供较小(正或负的)提升(boost)ω：

γ_{opt} = \underset{r}{\arg \min} {\underset{s}{Σ} E (r_{s}, \hat{e} (f_{s}; γ)) + \underset{m}{Σ} δ (λ_{m} + γ \cdot d_{m}, λ_{m}^{*}) \cdot ω}

零权重先验允许特征选择，因为没有判别力的特征函数的权重被设置为0。例如，初始权重先验可以用于限制参数的变化，使得更新的参数集具有相对于初始权重集的较小差异。

在一些实施方式中，将具有等于零的在误差计数上的变化的翻译假设的区间与它的左邻翻译假设的区间合并。作为结果的区间具有较大范围，并且可以提高对λ的最优值的选择的可靠性。

在一些实施方式中，系统使用随机方向来同时更新多个特征函数。如果在线形最优化中使用的方向是M维参数空间的坐标轴，则每一次迭代导致对单个特征函数的更新。虽然该更新技术根据特征函数的判别力提供对它们的排名，例如，每一次迭代选择对于其改变相应权重产生最高增益的特征函数，但是该更新技术不考虑特征函数之间的可能相互关系。结果，最优化可能停止在低劣的局部最优。对随机方向的使用允许多个特征函数被同时更新。对随机方向的使用可以通过选择连接M维超球体的表面上一个或多个随机点与(由初始参数集定义的)超球体的中心的线来实现。

图4示出了用于MBR解码的示例过程400。为了方便起见，将关于执行解码的系统描述MBR解码。系统访问410假设空间。假设空间表示例如源语言的相应输入文本的目标语言的多个候选翻译。例如，解码器(例如，图1中的第二解码器110)可以访问翻译格阵(例如，翻译格阵108)。系统执行420对假设空间的解码以获得使相对于证据空间计算的预期分类误差最小化的翻译假设。例如，解码器可以执行该解码。系统提供430所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。例如，解码器可以提供翻译文本(例如，英语样本112)以供用户使用。

图5A示出了用于对于格阵的MERT的示例过程500。为了方便起见，将关于执行训练的系统描述执行MERT。系统对于翻译格阵中的多个特征函数，确定510在翻译格阵中表示的一个或多个候选翻译中的每一个的相应多个误差表面。例如，图5B中的最小误差率训练器550的误差表面生成模块560可以确定相应多个误差表面。系统通过遍历训练集中的短语的多个误差表面的组合来调整520特征函数的权重。例如，最小误差率训练器550的更新模块570可以调整权重。系统选择530使有关遍历的组合的误差计数最小化的权重值。例如，最小误差率训练器550的误差最小化模块580可以选择权重值。系统应用540所选择的权重值来将文本样本从第一语言转换成第二语言。例如，最小误差率训练器550可以将所选择的权重值应用于解码器。

图6示出了可以与所描述的技术(例如，过程400和500)一起使用的通用计算机设备600和通用移动计算机设备650的示例。计算设备600意在表示各种形式的数字计算机，诸如膝上型机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其它适当的计算机。计算设备650意在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能手机以及其它类似的计算设备。在此示出的组件、它们的连接和关系以及它们的功能意在只是示例性的，并且并不意在限制在本文档中描述和/或主张的系统和技术的实施方式。

计算设备600包括处理器602、存储器604、存储设备606、连接到存储器604和高速扩展端口610的高速接口608以及连接到低速总线614和存储设备606的低速接口612。组件602、604、606、608、610和612中的每一个使用各种总线互连，并且可以视情况被安装在公共主板上或以其它方式安装。处理器602可以处理用于在计算设备600内执行的指令，包括存储在存储器604中或存储设备606上用来在诸如耦接到高速接口608的显示616的外部输入/输出设备上显示GUI的图形信息的指令。在其它实施方式中，可以视情况使用多个处理器和/或多个总线以及多个存储器和存储器类型。并且，可以连接多个计算设备600，其中每一个设备提供部分必需操作(例如，作为服务器簇、刀片服务器组或多处理器系统)。

存储器604存储在计算设备600内的信息。在一个实施方式中，存储器604是易失性存储器单元。在另一个实施方式中，存储器604是非易失性存储器单元。存储器604还可以是另一种形式的计算机可读介质，诸如磁或光盘。

存储设备606能够为计算设备600提供海量存储。在一个实施方式中，存储设备606可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或带设备、闪存或其它类似的固态存储器设备、或设备阵列，包括在存储区域网络或其它配置中的设备。计算机程序产品可以被有形地包含在信息载体中。计算机程序产品还可以包含在被执行时执行诸如上述那些方法的一个或多个方法的指令。信息载体是计算机或机器可读介质，诸如存储器604、存储设备606或在处理器602上的存储器。

高速控制器608管理关于计算设备600的带宽密集型操作，而低速控制器612管理较低带宽密集型操作。职责的这样的分配只是示例性的。在一个实施方式中，高速控制器608(例如通过图形处理器或加速器)耦接到存储器604、显示616，以及耦接到可以接受各种扩展卡(未示出)的高速扩展端口610。在该实施方式中，低速控制器612耦接到存储设备606和低速扩展端口614。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口可以耦接到诸如键盘、指示设备、扫描仪的一个或多个输入/输出设备，或例如通过网络适配器耦接到诸如交换机或路由器的联网设备。

计算设备600可以如图中所示以多种不同的形式实现。例如，计算设备600可以被实现为标准服务器620或更多时间被实现在在一组这样的服务器中。计算设备600还可以被实现为机架服务器系统624的一部分。另外，计算设备600可以在诸如膝上型计算机622的个人计算机中实现。替选地，来自计算设备600的组件可以与诸如设备650的移动设备(未示出)中的其它组件相结合。这样的设备中的每一个可以包含计算设备600、650中的一个或多个，以及整个系统可以由相互通信的多个计算设备600、650组成。

除其它组件外，计算设备650包括处理器652、存储器664、诸如显示654的输入/输出设备、通信接口666以及收发器668。设备650还可以提供有诸如微型驱动器或其它设备的存储设备以提供额外的存储。组件650、652、664、654、666和668中的每一个使用各种总线互连，以及组件中的数个可以视情况被安装在公共主板上或以其它方式安装。

处理器652可以执行在计算设备650内的指令，包括存储在存储器664中的指令。处理器可以被实现为包括独立和多个模拟和数字处理器的芯片的芯片集。处理器可以提供例如对设备650的其它组件的协调，诸如对用户接口、由设备650运行的应用以及经由设备650的无线通信的控制。

处理器652可以通过耦接到显示654的控制接口658和显示接口656与用户通信。显示654可以是例如TFT(薄膜晶体管液晶显示)显示或OLED(有机发光二极管)显示或其它适当的显示技术。显示接口656可以包括用于驱动显示654向用户呈现图形和其它信息的适当的电路。控制接口658可以从用户接收命令并且将命令进行转换以提交给处理器652。另外，可以提供与处理器652通信的外部接口662，以使得设备650能够与其它设备进行近区域通信。外部接口662可以例如在一些实施方式中提供有线通信，或在其它实施方式中提供无线通信，以及还可以使用多个接口。

存储器664存储在计算设备650内的信息。存储器664可以被实现为计算机可读介质、易失性存储器单元或非易失性存储器单元中的一个或多个。还可以提供扩展存储器674并且通过可以包括例如SIMM(单列直插内存模块)卡接口的扩展接口672将其连接到设备650。这样的扩展存储器674可以为设备650提供额外的存储空间，或还可以存储用于设备650的应用或其它信息。具体地，扩展存储器674可以包括指令来实现或补充上述过程，以及还可以包括安全信息。因此，扩展存储器674可以例如作为用于设备650的安全模块提供，以及可以被编程有许可安全使用设备650的指令。另外，安全应用以及额外的信息可以经由SIMM卡提供，诸如以不可非法侵入的方式将标识信息放置在SIMM卡上。

存储器可以如下所述包括例如闪存和/或NVRAM存储器。在一个实施方式中，将计算机程序产品有形地包含在信息载体中。计算机程序产品包含在被执行时执行诸如上述那些方法的一个或多个方法的指令。信息载体是计算机或机器可读介质，诸如存储器664、扩展存储器674、在处理器652上的存储器或可以例如通过收发器668或外部接口662接收的传播信号。

设备650可以在需要的情况下通过可以包括数字信号处理电路的通信接口666无线地通信。通信接口666可以提供在各种模式或协议下的通信，诸如GSM语音通话、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。可以例如通过射频收发器668来发生这样的通信。另外，诸如使用蓝牙、WiFi或其它这样的收发器(未示出)，可以发生短程通信。另外，GPS(全球定位系统)接收器模块670可以向设备650提供可以由运行在设备650上的应用视情况使用的额外的导航和位置相关的无线数据。

设备650还可以使用音频编解码器660可听见地通信，音频编解码器660可以从用户接收口语信息并且将其转换为可使用的数字信息。同样，音频编解码器660可以诸如通过例如在设备650的送受话器中的扬声器，为用户生成可听见的声音。这样的声音可以包括来自语音电话呼叫的声音，可以包括已记录的声音(例如，语音消息、音乐文件等)以及还可以包括由在设备650上操作的应用生成的声音。

计算设备650可以如图中所示以多种不同的形式实现。例如，计算设备650可以被实现为蜂窝电话680。计算设备650还可以被实现为智能电话682、个人数字助理或其它类似的移动设备的部分。

可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或以上的组合中实现在此描述的系统和技术的各种实施方式。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，所述可编程系统包括至少一个可编程处理器，其可以是专用或通用的，被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。

这些计算机程序(也被称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级程序和/或面向对象的编程语言、和/或汇编/机器语言来实现。如在此所使用的，术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，在此描述的系统和技术可以在具有下述的计算机上实现：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示)监视器)，以及用户通过其可以向计算机提供输入的键盘和指示设备(例如，鼠标或跟踪球)。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感知反馈(例如，视觉反馈、听觉反馈或触觉反馈)；以及可以以任何形式，包括声学的、话音的或触觉的输入，接收来自用户的输入。

在此描述的系统和技术可以在包括后端组件(例如作为数据服务器)、或包括中间件组件(例如应用服务器)、或包括前端组件(例如具有用户通过其可以与在此描述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机)、或者这样的后端、中间件或前端组件的任何组合的计算系统中实现。系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(″LAN″)、广域网(″WAN″)以及因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系依靠在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。

虽然本说明书包含许多具体实施方式细节，但是这些细节不应当被解释为对任何实施方式或可以主张的内容的范围的限制，而应当被解释为对可以具体到特定实施方式的特定实施例的特征的描述。还可以将在本说明书中在分立的实施例的情境中描述的某些特征组合在单个实施例中实现。相反地，也可以将在单个实施例的情境中描述的各种特征分离地在多个实施例中实现或在任何适当的子组合中实现。此外，尽管可能在上面将特征描述为在某些组合中起作用，甚至最初主张如此，但是可以在一些情况下将来自所主张的组合的一个或多个特征从组合中删去，并且可以将所主张的组合指向子组合或者子组合的变体。

类似地，虽然在附图中以特定顺序描绘了操作，但是不应当将这理解为需要以所示的特定顺序或者以连续顺序执行这样的操作、或者需要执行所有图示的操作才能达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。此外，不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离，而应当理解的是，通常可以将所描述的程序组件和系统集成到一起成为单个软件产品或封装为多个软件产品。

已经描述了本说明书中描述的主题的特定实施例。其它实施例在所附权利要求的范围内。例如，可以以不同的顺序来执行权利要求中记载的动作并且仍然达到期望的结果。作为一个示例，在附图中描绘的过程不必需要所示的特定顺序或连续顺序才能达到期望的结果。在某些实施方式中，多任务以及并行处理可以是有利的。

Claims

1.一种用于确定候选翻译的计算机实现的方法，包括：

访问翻译格阵，其中所述翻译格阵表示多个候选翻译；

执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译假设，其中执行对所述翻译格阵的解码包括：执行最小贝叶斯风险MBR解码，其中执行MBR解码包括计算语料库BLEU增益的逼近；以及

提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用，

其中所述语料库BLEU增益的所述逼近被表示为：

G (E, E^{'}) = θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot δ_{w} (E),

其中w是单词，θ_w是常量，θ₀是常量，N是n-gram的集合，E是候选翻译，E'是自动翻译，|E'|是E'的长度，#_w(E')是w在E'中出现的次数，以及如果w∈E，则δ_w(E)为1，否则为0。

2.根据权利要求1所述的方法，进一步包括：生成所述翻译格阵，包括将源语言的源样本提供给解码器。

3.一种用于确定候选翻译的计算机实现的方法，包括：

访问翻译格阵，其中所述翻译格阵表示多个候选翻译；

执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译假设，其中执行对所述翻译格阵的解码包括：执行最小贝叶斯风险MBR解码；以及

其中执行MBR解码包括计算：

\hat{E} = \underset{E^{'} &Element; Ψ}{\arg \max} {θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot P (w | Ψ)},

其中w是单词，θ_w是常量，θ₀是常量，N是n-gram的集合，E'是自动翻译，|E'|是E'的长度，#_w(E')是w在E'中出现的次数，Ψ表示所述翻译格阵，以及P(w|Ψ)是w在所述翻译格阵中的后验概率。

4.根据权利要求3所述的方法，其中其中E是候选翻译，并且如果w∈E，则δ_w(E)为1，否则为0，并且Ψ_w＝{E∈Ψ|δ_w(E)＞0}表示所述翻译格阵的包含w至少一次的路径，Z(Ψ_w)表示Ψ_w中路径的权重的总和，F表示源语言的输入文本，以及Z(Ψ)表示Ψ中路径的权重的总和。

5.一种用于确定候选翻译的计算机实现的方法，包括：

访问假设空间，其中所述假设空间表示多个候选翻译；

执行对所述假设空间的解码以获得使相对于证据空间计算的预期分类误差最小化的翻译假设，其中执行对所述假设空间的解码包括：执行最小贝叶斯风险MBR解码，其中执行MBR解码包括计算语料库BLEU增益的逼近；以及

其中所述语料库BLEU增益的所述逼近被表示为：

G (E, E^{'}) = θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot δ_{w} (E),

6.根据权利要求5所述的方法，其中所述假设空间被表示为格阵。

7.根据权利要求6所述的方法，其中所述证据空间被表示为N-最佳列表。

8.一种用于确定候选翻译的计算机系统，所述计算机系统包括：

用于访问翻译格阵的装置，其中所述翻译格阵表示多个候选翻译；

用于执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译假设的装置，其中执行对所述翻译格阵的解码包括：执行最小贝叶斯风险MBR解码，其中执行MBR解码包括计算语料库BLEU增益的逼近；以及

用于提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用的装置，

其中所述语料库BLEU增益的所述逼近被表示为：

G (E, E^{'}) = θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot δ_{w} (E),

9.根据权利要求8所述的计算机系统，进一步包括：用于生成所述翻译格阵的装置，包括用于将源语言的源样本提供给解码器的装置。

10.一种用于确定候选翻译的计算机系统，包括：

用于执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译假设的装置，其中执行对所述翻译格阵的解码包括：执行最小贝叶斯风险MBR解码；以及

其中执行MBR解码包括计算：

\hat{E} = \underset{E^{'} &Element; Ψ}{\arg \max} {θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot P (w | Ψ)},

11.根据权利要求10所述的计算机系统，其中其中E是候选翻译，并且如果w∈E，则δ_w(E)为1，否则为0，并且Ψ_w＝{E∈Ψ|δ_w(E)＞0}表示所述翻译格阵的包含w至少一次的路径，Z(Ψ_w)表示Ψ_w中路径的权重的总和，F表示源语言的输入文本，以及Z(Ψ)表示Ψ中路径的权重的总和。

12.一种用于确定候选翻译的计算机系统，所述计算机系统包括：

用于访问假设空间的装置，其中所述假设空间表示多个候选翻译；

用于执行对所述假设空间的解码以获得使相对于证据空间计算的预期分类误差最小化的翻译假设的装置，其中执行对所述假设空间的解码包括：执行最小贝叶斯风险MBR解码，其中执行MBR解码包括计算语料库BLEU增益的逼近；以及

其中所述语料库BLEU增益的所述逼近被表示为：

G (E, E^{'}) = θ_{0} | E^{'} | + \underset{w &Element; N}{Σ} θ_{w} \cdot #_{w} (E^{'}) \cdot δ_{w} (E),

13.根据权利要求12所述的计算机系统，其中所述假设空间被表示为格阵。

14.根据权利要求13所述的计算机系统，其中所述证据空间被表示为N-最佳列表。