CN103189860A

CN103189860A - 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法

Info

Publication number: CN103189860A
Application number: CN2011800534041A
Authority: CN
Inventors: 黄永淑; 金尚范; 尹昌浩; 李娟修; 李承昱; 林海彰
Original assignee: SK Telecom Co Ltd
Current assignee: 11th Street Co., Ltd.
Priority date: 2010-11-05
Filing date: 2011-07-20
Publication date: 2013-07-03
Anticipated expiration: 2031-07-20
Also published as: KR20120048104A; US20130226556A1; KR101762866B1; WO2012060540A1; US10198437B2; CN103189860B

Abstract

本发明涉及统计机器翻译以及用于对传.统的基于短语的统计机器翻译（SMT）和基于句法的SMT的缺点进行补充并将其优点进行组合的机器翻译装置和机器翻译方法。为此，从平行语料库提取句法转换知识和词汇转换知识，以提取各个转换概率，并且同时从单语料库获取目标语言的生成概率，通过利用翻译模型学习装置使得能够学习各个转换知识和各个概率，来对加权的翻译模型进行建模，并且将经建模的翻译模型应用于实时输入的源句子，以经由句法转换器和词汇转换器的解码处理生成目标句子。

Description

组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法

技术领域

本发明涉及统计机器翻译，更具体地说，涉及通过将翻译步骤建模为句法转换处理和词翻译处理这两个步骤，并且将该模型应用于实时输入的源语言句子，来经由句法转换器与词翻译器的解码处理，将句法转换模型与词翻译模型组合以生成目标语言句子的机器翻译以及机器翻译方法。

背景技术

自动翻译技术指的是将一种语言自动转换为另一种语言的软件技术。从20世纪中期，美国出于军事目的已经开始研究该项技术。近来，在全世界，多个实验室和私人公司出于扩展信息获取范围以及对人机接口进行创新的目的积极地研究该项技术。

在自动翻译技术的初始阶段，基于由专家手工准备的双语字典以及将一种语言转换为另一种语言的规则，开发了自动翻译技术。然而，从计算能力迅速发展的21世纪初期以来，从大量数据以统计方式自动学习翻译算法的统计翻译技术的开发取得了积极进展。

统计机器翻译（SMT）系统根据大量平行语料库以统计方式对翻译处理进行建模，并且学习翻译知识和翻译概率以及针对目标语言的创建概率，以生成最适合于基于此输入的源句子的目标句子。

最近的统计机器翻译系统总体上可以分为基于短语的SMT（下文称作PBSMT）型和基于句法（语法）的SMT（下文称作SBSMT）型。

将连续词串（下文称作短语）作为一个单元进行翻译而不是执行单独的逐词翻译的PBSMT是一种在学习了逐个短语的翻译知识和翻译概率之后，在解码期间生成具有最大概率的短语组合的方法。

最具代表性的PBSMT模型是Koehn等人（2003）以及Och和Ney（2004a）提出的模型。该模型比较简单，并且其特征在于容易改变短距离词序，并且自然地执行利用多个词表达的翻译。然而，在该模型中，不容易改变长距离词序，具体地说，在词序彼此明显不同的语言对（例如，英语-韩语翻译）中会导致较大问题。原因在于，在PBSMT的翻译模型中，仅考虑了短语之间的所有可用排列中的一些排列来确定句子中的词序，而未明确地对语法间（intergrammer）转换进行建模。

因此，近年来，主要研究了一种对基于语法的句法的转换进行建模的方法，并且将该方法称作SBSMT。为了学习句法转换知识，SBSMT从平行语料库中的与两种语言对应的句法树，学习逐个树或树到字符串转换知识和概率。SBSMT的特征在于，与PBSMT相比，更容易改变长距离词序并且更容易翻译非连续短语。然而，由于SBSMT严重依赖于句法分析器的性能并且翻译知识局限于语法短语单元，所以自身要使用的翻译知识非常少。结果，当不存在要使用的翻译知识时，连续词串的翻译变为不与连接词（linked word）匹配的简单的逐词翻译或不自然的翻译。代表性的方法包括Galley等人（2004、2006）、Lavie等人（2008）、Yamada和Knight、Gildea等人提出的方法等。

与此相似，在现有技术中的统计机器翻译技术中，PBSMT型改进了连续词翻译的流畅性，但是未能改变长距离词序，从而生成完全不同的句子。在SBSMT型中，生成的目标句子的词序是正确的，但是由于翻译知识的缺乏而执行简单的逐词翻译，结果，翻译是不自然的。

发明内容

技术问题

本发明致力于解决该问题，本发明的目的在于提供一种机器翻译装置和机器翻译方法，该机器翻译装置和机器翻译方法通过从平行语料库提取句法转换知识和词翻译知识来在提取相应转换概率的同时，从单语料库获取针对目标语言的创建概率；通过利用翻译模型学习装置使得能够学习各个转换知识和各个概率，来对加权的翻译模型进行建模；以及通过将翻译模型应用于实时输入的源句子，来经由句法转换器和词翻译器的解码处理生成目标句子，从而解决现有的基于短语的SMT和基于句法的SMT的缺点并组合这些SMT的优点。

技术方案

根据本发明的第一方面，一种统计机器翻译装置包括：翻译模型构造器，该翻译模型构造器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取目标句子的句法转换知识和词翻译知识，并且针对相应的提取的知识计算转换概率；翻译模型学习装置，该翻译模型学习装置通过学习经由翻译模型构造器提取的相应翻译知识和转换概率，来生成句法转换模型和词翻译模型；以及翻译句子（translated sentence）生成器，该翻译句子生成器通过针对实时输入的源句子应用经由翻译模型学习装置学习的句法转换模型和词翻译模型，将源句子解码为目标句子。

根据本发明的第二方面，一种翻译模型构造装置包括：句法转换知识提取器，该句法转换知识提取器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取针对目标句子的句法转换知识，并且针对所提取的知识计算转换概率；以及词翻译知识提取器，该词翻译知识提取器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取词翻译知识，并且针对所提取的知识计算转换概率。

根据本发明的第三方面，一种翻译句子生成装置包括：句法转换器，该句法转换器对实时输入的源句子进行句法分析，从经分析的源句子的句法提取目标句子的句法转换知识，并且使得针对所提取的知识学习转换概率；词翻译器，该词翻译器基于词翻译模型生成目标词汇串，在该词翻译模型中，约束条件被施加于经由句法转换器提取的目标句子的句法；以及概率计算器，该概率计算器将经由词翻译器提取的目标词汇串的创建概率与经由句法转换器提取的转换概率进行组合，并且此后，将具有最高概率的目标词汇串生成为翻译句子。

根据本发明的第四方面，一种翻译模型构造方法包括以下步骤：（a）利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取针对目标句子的句法转换知识；（b）利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和源句子的句法分析信息来提取词翻译知识；以及（c）分别计算针对句法转换知识和词翻译知识的转换概率，并且使得针对各个转换概率学习权重。

根据本发明的第五方面，一种机器翻译方法包括以下步骤：（a）对实时输入的源句子进行句法分析，并且从经分析的源句子的句法提取目标句子的句法转换知识和转换概率；（b）基于词翻译模型生成目标词汇串，在该词翻译模型中，约束条件被施加于从目标句子的句法转换知识提取的目标句子的句法；以及（c）通过将目标句子的句法转换概率与目标词汇串的创建概率进行组合，来将具有最高概率的目标词汇串生成为翻译句子。

有益效果

根据本发明，可以解决现有的基于词汇的翻译模型和基于句法的翻译模型的缺点，并且可以组合这些模型的优点。

即，根据本发明，可以经由句法转换模型来改进长距离词重新排布的性能，并且因为使用了大量非句法转换知识，所以执行适合于上下文的适当翻译，以改进翻译句子的适当性和自然性。

附图说明

图1是例示根据本发明的示例性实施方式的机器翻译装置的构造的图。

图2是例示根据本发明的示例性实施方式的机器翻译装置被分为句法转换模型和词翻译模型的构造的图。

图3是例示根据本发明的示例性实施方式的翻译句子生成器的构造的图。

图4是例示图2所示的句法转换知识提取器的详细构造的图。

图5是例示根据本发明的示例性实施方式的翻译句子生成器的词翻译器的图。

图6是用于描述根据本发明的示例性实施方式的句法转换模型与词翻译模型之间的差别的示例性图。

图7是完整描述根据本发明的另一示例性实施方式的机器翻译方法的流程图。

图8是描述根据本发明的示例性实施方式的构造针对机器翻译的翻译模型的方法的流程图。

主要附图标记说明

100：翻译模型构造器110：句法转换知识提取器

120：句法转换知识数据库130：词翻译知识提取器

140：词翻译知识数据库150：语言模型生成器

160：语言模型300：翻译模型学习装置

400：翻译句子生成器410：句法转换器

420：词翻译器111：句子选择器

113：源树生成器115：树节点重新排序器

117：树转换知识提取器119：概率计算器

421：特征提取器422：翻译选项生成器

423：翻译选项约束装置424：假设（hypothesis）搜索

425：翻译失真约束装置

具体实施方式

下文将参照附图详细描述本发明的示例性实施方式。通过以下详细描述，将清楚地理解本发明的构造及其操作效果。在详细描述本发明之前，应当注意，附图中任何可能的位置上的相同的标号对应于相同的部件，并且当公知的构造可能使得本发明的主旨不必要地模糊时，将省略详细描述。

下面要描述的源句子或源语言句子是要翻译的源语言的句子，目标句子或目标语言句子指的是通过将源句子翻译为期望语言而输出的目标语言的句子。

图1是例示根据本发明的示例性实施方式的机器翻译装置的构造的图。图2是例示根据本发明的示例性实施方式的机器翻译装置被分为句法转换模型和词翻译模型的构造的图。

参照图1和图2，根据本发明的示例性实施方式的机器翻译装置总体上包括翻译模型构造器100、翻译模型学习装置300和翻译句子生成器400。

翻译模型构造器100包括句法转换知识提取器110和词翻译知识提取器130，该句法转换知识提取器110和词翻译知识提取器130从由源语言和目标语言构成的平行语料库提取句法转换知识和词翻译知识，并且计算各个转换概率。所提取的句法转换知识和词翻译知识分别存储在句法转换知识数据库（DB）120和词翻译知识数据库（DB）140中。

进一步地，翻译模型构造器100包括语言模型生成器150，该语言模型生成器150从由目标语言构成的单语料库提取语言的创建概率。所提取的语言的创建概率被存储在语言模型数据库（DB）160中，以构造语言模型。

翻译模型学习装置300学习经由翻译模型构造器100提取的各个特征的权重。翻译模型学习装置300可以类似地使用Bertoldi、Haddow和Fouet（2009）提出的最小误差学习（MERT）方法。

翻译句子生成器400执行解码处理的两个步骤。即，第一步骤是句法转换处理，第二步骤是词翻译处理。在图3所示的句法转换器410、词翻译器420和概率计算器430中执行各个步骤。

即，执行第一步骤的句法转换器410生成具有高概率的N个目标句法，并且基于该结果，执行第二步骤的词翻译器420从可用的目标词汇串选择具有最高概率的M个目标词汇串。概率计算器430在将句法转换器410中生成的N个概率与词翻译器420中生成的M个概率进行组合之后，最终将具有最高概率的目标词汇串输出为翻译句子。

因此，根据本发明的示例性实施方式的机器翻译装置从由源语言和目标语言构成的平行语料库提取句法转换知识和词翻译知识以及各个转换概率，并且通过学习各个转换知识和概率，来从单语料库获取目标语言的创建概率，以对经加权的翻译模型进行建模。另外，通过将完成建模的翻译模型应用于实时输入的源句子，来经由句法转换器410和词翻译器420的两个解码处理生成最终的目标句子。

将详细描述机器翻译装置的组成部件。

如图2所示，翻译模型构造器100是提取翻译知识和翻译概率的模块。

具体地说，根据本发明的示例性实施方式的翻译模型构造器100是基于下面要描述的统计翻译模型的。假设句子e由句法S(e)和词汇串L(e)构成，则可以利用所有可用的句法S(e)来如式1所示表示该句子。

式1

e = \underset{s (e)}{Σ} < S (e), L (e) >

在该情况下，将源句子f翻译为目标句子e可以如下式2所示进行定义。即，具有源句子f被翻译为目标句子e的概率当中的最大概率的句子e^被设置为翻译句子。

式2

\hat{e} = \underset{e}{\arg \max} p (e | f)

在本发明中，如下式3所示，以上基本翻译模型概念被分为句法转换模型和词翻译模型。

式3

(e | f) = \underset{S (e)}{Σ} p (S (e), L (e) | S (f), L (f))

= \underset{S (e)}{Σ} p (S (e) | S (f), L (f)) \times p (L (e) | S (e), S (f), L (f))

即，在式3中，p(S(e)|S(f),L(f))表示句法转换模型，并且p(L(e)|S(e),S(f),L(f))表示词翻译模型。

句法转换模型指的是当给出源句子的词汇串L(f)和源句子的句法S(f)时示出任意目标句子的句法S(e)的概率。词翻译模型指的是当给出源句子的词汇串L(f)和句法S(f)5以及目标句子的句法S(e)时示出预定目标句子的词汇串L(e)的概率。在该情况下，可以利用提取1-最佳结果的句法分析器来唯一地确定源句子的句法S(f)。

下面将详细展开句法转换模型。

式4

p (S (e) | S (f), L (f))

= \underset{i}{Π} p (s_{i} (e_{i}) | S (f), L (f))

= \underset{i}{Π} p (s_{i} (e) | s_{1} (f), s_{2} (f), \cdot \cdot \cdot, s_{J} (f), L (f))

= \underset{i}{Π} p (d_{i} | L (f))

= \underset{i}{Π} p (d_{i} | l_{i} (f))

在以上式4中，S_i表示S（句法）的第i个子树，并且源句法的子树和目标句法的子树可以通过i彼此对应。L_i表示句子的与第i个子树对应的部分字符串。d_i表示从s_i(f)到s_i(e)的导数。在该情况下，在式4中，假设子树彼此独立，各个导数彼此独立，并且子树与外部词汇串独立。

如图5和图6所示，作为一个示例，可以根据特征函数F₁和F₂来展开词翻译模型部分。

式5

p(L(e)|S(e),S(f),L(f))

=p(L(e)|F₁(S(e),S(f),L(F)))

=p(L(e)|Pos(e),Dst,L(f))

式6

p(L(e)|S(e),S(f),L(f)

=p(L(e)|F₂(S(e),S(f),L(f))))

=p(L(e)\Dst,L(f)0

在以上式5中，F₁是将根据目标句子的句法S(e)和源句子的句法S(f)以及句法间排布信息的目标句子的语音串Pos(e)的一部分和仅包括在源句子中的词的翻译顺序Dst的约束作为特征输出的函数。

在式6中，F₂是仅输出包括在源句子中的词的翻译顺序Dst（作为比F₁进一步缓和的约束条件）作为特征的函数。图6例示了F₁和F₂的示例。在图6中，F₁示出利用目标句子的语音串Pos(e)的一部分、源句子的词汇串L(f)和包括在源句子中的词的目标句子中的排布顺序Dst的特征作为条件，基于目标句子的语音串信息的一部分创建词汇串的一个示例，而F2示出仅利用源句子的词汇串L(f)和包括在源句子中的词的目标句子中的排布顺序Dst的特征作为条件来生成目标句子的词汇串的一个示例。

进一步地，除了如现有PBSMT中使用的转换概率以外，可以利用各种特征来按照对数线性模式最终计算词翻译模型。

式7

p (L (e) | Dst, L (f))

= \exp Σ_{i}^{n} λ_{i} h_{i} (L (e), Dst, L (f))

本发明的用于制作语法转换模型的句法转换知识提取器110包括图4中详细例示的组件。

句法转换知识提取器110用于提取以上式4中使用的各个导数d_i的知识和概率。即，现有技术中用于提取句法转换知识的技术基于词重新排序信息来执行源语言的短语树和目标语言的短语树的节点排布，并且此后基于排布的节点提取转换知识。然而，在现有技术的方法中，需要针对源语言和目标语言这两者来使用句法分析器，并且可能由于明显受句法分析器的性能的影响的方法而出现针对翻译知识的错误扩散问题。

然而，如图4所示，本发明的句法转换知识提取器110仅执行对源语料库的句法分析，以提取句法转换知识，句子选择器111选择经句法分析的源语料库和词重新排序信息，并且源树生成器113执行合并、删除、分离/附接、重新排序、插入和分解这六种操作，从而生成目标树。另外，树节点重新排序器115基于由源树生成器113生成的源树和目标树来确定节点排布，并且此后，经由树转换知识提取器117提取各个节点中的子树的转换知识。针对所有句子执行提取。然后，概率计算器119以统计方式计算针对所提取的知识的转换概率和创建概率。

重新参照图2，可以经由以上式5和式6来执行翻译模型构造器100中的词翻译知识提取器130。这里，假设短语翻译与词的翻译顺序Dst独立，并且不另外计算考虑句子位置的翻译概率。然而，为了约束式5所示的语音串Pos(e)的一部分，需要另外提取各个词翻译知识的目标词汇串的语音串的一部分并且需要另外计算其概率。

结果，如果词翻译知识提取器130使用现有的基于短语的统计机器翻译（PBSMT）中使用的方法，则可以允许任何词翻译知识提取器130，并且通常，在该步骤中可以另外计算式7中可以使用的转换概率、语言模型概率等。

可以利用外部模块（SRILM语言建模工具包、IRST语言建模工具包等）来构造语言模型生成器150，并且如果语言模型生成器150示出N元语言模型结果，则可以使用任何一个。

翻译模型学习装置300学习以上式7中的各个特征的权重，以生成句法转换模型和词翻译模型。

翻译句子生成器400的句法转换器410是通过参照在句法转换知识提取器110中学习的句法转换模型来对输入句子进行句法分析并生成具有高分数的最多N个目标树的模块。

句法转换器410在从较低节点开始遍历针对输入源句子的句法分析结果以最高概率生成的源树的同时存储适用规则，并且执行束搜索，以寻找具有较高分数的N个导数集合。在该情况下，通过将转换概率乘以创建概率来计算分数，并且假设规则彼此独立。

词翻译器420是通过设置在句法转换器410中生成的目标句子的句法中的约束条件，来基于在词翻译知识提取器130中学习的词翻译知识生成目标词汇串的模块。

可以通过特征函数来约束目标句子的句法，这些特征函数包括如以上式5和式6所示的源句子的词汇串/句法以及目标句子的语音串的一部分的约束条件。约束被反映到式7中的翻译选项特征函数和失真（顺序重新排布）特征函数。特征函数值可以被直接反映到基于短语的解码期间的短语选项约束和失真约束。在该情况下，可以将特征函数F₁和F₂选择作为系统选项，并且用户可以根据短语表的大小来选择特征函数F₁和F₂。

具体地说，根据本发明的词翻译器420的解码处理如图5所示。

这里，作为与现有技术的组件不同的组件，下文将分别描述特征提取器421、翻译选项约束装置423、翻译失真约束装置425和M-最佳跟踪器427。

特征提取器421基于输入到词翻译器420中的源句子的词汇串、源句子的句法和目标句子的句法，来提取特征。

翻译选项约束装置423可以明确地约束根据由特征提取器421生成的语音串Pos(e)的一部分和翻译顺序Dst的翻译选项。当未明确执行剪枝时，将非常低的概率值赋予根据现有方法生成的翻译选项。这里，翻译选项指的是可以是词汇翻译的单位的所有可用短语。

根据现有技术，翻译失真约束装置425随机地确定翻译顺序而无固定顺序，但是在本发明中，可以通过经由特征提取器421获取的词序的约束明确地确定翻译顺序，或者通过关于概率确定翻译顺序，来约束翻译顺序。

例如，翻译选项不是随机选择的，而是可以被明确约束，以便通过目标顺序来确定翻译顺序，或者可以关于概率进行约束，以便在违反目标位置的顺序的情况下具有非常低的概率。

M-最佳跟踪器427是用于在执行假设空间搜索424之后选择具有最高分数的M个假设的模块，该M-最佳跟踪器427通过在搜索结束的点执行反向跟踪来输出N个词汇串（导数集合）。现有技术中最终仅选择一个假设，而在式3中可见，针对生成同一e的所有可用的情况需要概率的组合，因此，在本发明中，选择了M个假设。

最后，在关于针对N个句法中生成的M个假设生成同一句子e的情况对概率进行了组合之后，具有最高概率的目标词汇串被选择作为要输出的翻译句子。

图7是完整地描述根据本发明的另一示例性实施方式的机器翻译方法的流程图。

当首先输入源时，翻译句子生成器的句法转换器对实时输入的源句子进行句法分析，以提取针对目标句子的句法转换知识和句法转换概率（S100和S110）。可以经由预先学习的翻译模型（即，句法转换模型）来提取针对目标句子的句法转换知识和句法转换概率。

此后，从所提取的句法转换知识生成目标词汇串（S120）。可以经由预先学习的翻译模型（即，词翻译模型）来提取目标词汇串。

换言之，基于句法分析信息和从翻译句子生成器的句法转换器输入的源句子的词重新排序信息，来提取目标句子的特征，在特征中设置要约束的翻译选项，并且通过将所设置的翻译选项反映到特征来检索假设。通过计算针对检索后的假设生成同一目标词汇串的概率，来使用选择具有高概率的目标词汇串的方法。这里，翻译选项包括一些条件，这些条件包括语音串的一部分、翻译词序等。

此后，通过将目标词汇串的句法转换概率与创建概率进行组合，来将具有高概率的目标词汇串生成为翻译句子（S130和S140）。

图8是例示根据本发明的示例性实施方式的构造针对机器翻译的翻译模型的方法的流程图。

首先，利用源句子与目标句子之间的词重新排序信息和源句子的句法分析信息，从平行语料库提取针对目标句子的句法转换知识（S200）。提取句法转换知识的方法包括以下处理：利用源句子的词重新排序信息和目标句子的词重新排序信息来生成目标句子的句法树，基于所生成的句法树和通过源句子的句法分析的源树来排布节点，并且此后，提取各个节点中的子树的转换知识。

此后，利用源句子与目标句子之间的词重新排序信息和源句子的句法分析信息，从平行语料库提取词翻译知识（S210）。

此后，分别计算针对句法转换知识和词翻译知识的转换概率，并且学习针对各个转换概率的权重，以分别形成句法转换模型和词翻译模型（S220和S230）。

此外，本发明可以在软件程序中实现使用依存丛林（dependency forest）的翻译规则生成和使用该翻译规则的机器翻译方法，并通过将该程序记录在预定的计算机可读记录介质中，来将该程序应用于各种再现设备。

该各种再现设备可以是PC、笔记本、便携式终端等。

例如，记录介质可以是作为各种再现设备的内部装置的硬盘、闪存、RAM、ROM等，或者是作为各种再现设备的外部装置的光盘（例如CD-R或CD-RW）、微型闪存卡、智能介质、记忆棒、多媒体卡等。

在以上描述中，本发明仅是示例性的，并且在不脱离本发明的精神的范围内，本领域技术人员可以做出各种修改。因此，本发明的说明书中描述的示例性实施方式并不限制本发明。本发明的范围应当由所附权利要求来解释，并且本发明的等效范围内的所有技术应当解释为被包括在本发明的范围内。

工业实用性

现有技术中的基于短语或基于句法的统计机器翻译无法改变长距离词序来生成完全不同的句子，或者现有技术中的基于短语或基于句法的统计机器翻译具有的问题在于：目标句子的词序是正确的，但是由于翻译知识的缺乏而实现了简单的逐词翻译，但是在本发明中，从源语言和目标语言的平行语料库执行句法转换和词翻译的两种建模，可以解决基于短语的统计机器翻译和基于句法的统计机器翻译的缺点，并且可以通过基于此进行解码来组合这些翻译的优点，结果，执行适合于上下文的适当翻译，以改进翻译句子的适当性和自然性。

Claims

1.一种统计机器翻译装置，该统计机器翻译装置包括：

翻译模型构造器，该翻译模型构造器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和句法分析信息来提取所述目标句子的句法转换知识和词翻译知识，并且针对所述各个提取的知识计算转换概率；

翻译模型学习装置，该翻译模型学习装置通过学习经由所述翻译模型构造器提取的所述各个翻译知识和转换概率，来生成句法转换模型和词翻译模型；以及

翻译句子生成器，该翻译句子生成器通过针对实时输入的源句子应用经由所述翻译模型学习装置学习的所述句法转换模型和所述词翻译模型，来将所述源句子解码为所述目标句子。

2.根据权利要求1所述的统计机器翻译装置，其中，

所述翻译模型构造器还包括语言模型生成器，该语言模型生成器通过从所述目标句子的单语料库提取目标词汇串的创建概率，来生成语言模型。

3.根据权利要求1所述的统计机器翻译装置，其中，

所述翻译句子生成器通过将由所述句法转换模型输出的多个句法转换概率与由所述词翻译模型输出的多个词翻译概率进行组合，来将具有高概率的目标词汇串生成为最终的翻译句子。

4.一种翻译模型构造装置，该翻译模型构造装置包括：

句法转换知识提取器，该句法转换知识提取器利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和所述源句子的句法分析信息来提取针对目标句子的句法转换知识，并且针对所提取的知识计算转换概率；以及

词翻译知识提取器，该词翻译知识提取器利用所述多个平行语料库中的所述源句子与所述目标句子之间的所述词重新排序信息和所述源句子的所述句法分析信息来提取词翻译知识，并且针对所提取的知识计算所述转换概率。

5.根据权利要求4所述的翻译模型构造装置，其中，

所述句法转换提取器包括：

树生成器，该树生成器利用所述多个平行语料库中的所述源句子和所述目标句子的所述词重新排序信息来生成所述目标句子的句法树（目标树）；

树节点重新排序器，该树节点重新排序器基于在所述树生成器中生成的所述目标树和根据所述源句子的所述句法分析信息的源树，来对节点重新排序；

树转换知识提取器，该树转换知识提取器提取各个节点中的子树的转换知识；以及

概率计算器，该概率计算器针对由所述树转换知识提取器提取的所述知识，以统计方式计算所述转换概率。

6.根据权利要求4所述的翻译模型构造装置，其中，

所述词翻译提取器通过应用特征函数来提取所述词翻译概率，在该特征函数中，在所述源句子与所述目标句子之间的所述词重新排序信息和所述源句子的所述句法分析信息中限定预定的约束条件。

7.根据权利要求6所述的翻译模型构造装置，其中，

所述特征函数是根据所述目标句子的句法和所述源句子的句法以及句法间排布信息来约束所述目标句子的语音串的一部分和包括在所述源句子中的词的翻译顺序，并且将所述受约束的语音串的一部分和翻译顺序作为特征输出的函数。

8.根据权利要求6所述的翻译模型构造装置，其中，

所述特征函数是仅将包括在所述源句子中的所述词的根据所述目标句子的所述句法和所述源句子的所述句法以及所述句法间排布信息的所述翻译顺序作为所述特征输出的函数。

9.一种翻译句子生成装置，该翻译句子生成装置包括：

句法转换器，该句法转换器对实时输入的源句子进行句法分析，从所述经分析的源句子的句法提取目标句子的句法转换知识，并且使得针对所提取的知识学习转换概率；

词翻译器，该词翻译器基于词翻译模型生成目标词汇串，在该词翻译模型中，约束条件被施加于经由所述句法转换器提取的所述目标句子的所述句法；以及

概率计算器，该概率计算器将经由所述词翻译器生成的所述目标词汇串的创建概率与经由所述句法转换器学习的所述转换概率进行组合，并且此后，将具有最高概率的目标词汇串生成为翻译句子。

10.根据权利要求9所述的翻译句子生成装置，其中，

所述词翻译器包括：

特征提取器，该特征提取器基于句法分析信息、所述目标句子的句法分析信息以及从所述句法转换器输入的所述源句子的词重新排序信息，来提取特征；

翻译选项约束装置，该翻译选项约束装置根据由所述特征提取器提取的语音串的一部分和翻译顺序来约束翻译选项；

翻译失真约束装置，该翻译失真约束装置通过对由所述特征提取器提取的所述词序进行约束，来重新排布所述翻译顺序；

假设搜索器，该假设搜索器通过将经由所述翻译选项约束装置和所述翻译失真约束装置确定的约束条件反映到经由所述特征提取器提取的所述特征，来搜索假设；以及

M-最佳跟踪器，该M-最佳跟踪器通过针对在所述假设搜索器中搜索的所述假设计算创建目标词汇串的概率，来选择具有高概率的该同一目标词汇串。

11.一种机器翻译方法，该机器翻译方法包括以下步骤：

（a）对实时输入的源句子进行句法分析，并且从所述经分析的源句子的句法提取目标句子的句法转换知识和转换概率；

（b）基于词翻译模型生成目标词汇串，在该词翻译模型中，约束条件被施加于从所述目标句子的所述句法转换知识提取的所述目标句子的所述句法；以及

（c）通过将所述目标句子的所述句法转换概率与所述目标词汇串的创建概率进行组合，来将具有高概率的目标词汇串生成为翻译句子。

12.根据权利要求11所述的机器翻译方法，其中，

步骤（b）包括以下步骤：

基于句法分析信息、所述目标句子的句法分析信息以及从所述句法转换器输入的所述源句子的词重新排序信息，来提取特征；

设置翻译选项，以约束所述特征；

通过将所述翻译选项反映到所述特征，来搜索假设；以及

通过针对所搜索的假设计算生成目标词汇串的概率来选择具有高概率的该同一目标词汇串。

13.根据权利要求11所述的机器翻译方法，其中，

所述翻译选项选择性地包括语音串的一部分和翻译顺序中的至少一个。

14.一种翻译模型构造方法，该翻译模型构造方法包括以下步骤：

（a）利用多个平行语料库中的源句子与目标句子之间的词重新排序信息和所述源句子的句法分析信息来提取针对目标句子的句法转换知识；

（b）利用所述多个平行语料库中的所述源句子与所述目标句子之间的所述词重新排序信息和所述源句子的所述句法分析信息来提取词翻译知识；以及

（c）分别计算针对所述句法转换知识和所述词翻译知识的转换概率，并且使得针对各个转换概率学习权重。

15.根据权利要求14所述的翻译模型构造方法，其中，

步骤（a）包括以下步骤：

利用所述多个平行语料库中的所述源句子的所述词重新排序信息和所述目标句子的词重新排序信息来生成所述目标句子的句法树；

基于所述目标句子的句法树和根据所述源句子的句法分析信息的源树，来排布节点；以及

提取各个节点中的子树的转换知识。

16.根据权利要求14所述的翻译模型构造方法，其中，

在步骤（c）中的所述词翻译概率的计算过程中，

通过应用特征函数来提取信息，在该特征函数中，在所述源句子的所述词重新排序信息和所述目标句子的所述词重新排序信息以及所述目标句子的所述句法分析信息中限定预定的约束条件。

17.根据权利要求16所述的翻译模型构造方法，其中，

所述特征函数使用根据所述目标句子的句法和所述源句子的句法以及句法间排布信息约束所述目标句子的语音串的一部分和包括在所述源句子中的词的翻译顺序，并且将所述受约束的语音串的一部分和翻译顺序作为特征输出的函数。

18.根据权利要求16所述的翻译模型构造方法，其中，

所述特征函数使用仅将包括在所述源句子中的所述词的根据所述目标句子的所述句法和所述源句子的所述句法以及所述句法间排布信息的所述翻译顺序作为所述特征输出的函数。

19.一种计算机可读记录介质，该计算机可读记录介质中记录有用于执行根据权利要求11至18中的任一项所述的处理的程序。