CN102193912A

CN102193912A - 短语划分模型建立方法、统计机器翻译方法以及解码器

Info

Publication number: CN102193912A
Application number: CN2010101248701A
Authority: CN
Inventors: 何中军; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-03-12
Filing date: 2010-03-12
Publication date: 2011-09-21
Anticipated expiration: 2030-03-12
Also published as: CN102193912B

Abstract

本发明公开了一种短语划分模型建立方法、统计机器翻译方法以及解码器。所述短语模型建立方法包括：从双语语料库中获取训练样本；将所获取的训练样本输入到最大熵模型的参数训练工具中进行参数训练，得到最大熵模型的权重参数；以及将权重参数代入最大熵模型中，生成短语划分模型。

Description

短语划分模型建立方法、统计机器翻译方法以及解码器

技术领域

本发明涉及统计机器翻译领域，具体而言，涉及一种短语划分模型建立方法、统计机器翻译方法以及解码器。

背景技术

基于层次化短语的统计机器翻译方法是近年来统计机器翻译领域的一种主流方法。在层次化短语模型中，允许短语中包含子短语，并使用变量X来代替子短语，从而使模型具有泛化能力。也就是说，从一个短语中学习到的翻译知识，可以用来翻译具有相同模式的其他短语。

例如，对于以下短语对：

短语对1：于四月访问中国visit China in April“四月，April”和“中国，China”可以看作2个子短语。分别用X₁和X₂代替这两个子短语，则可以得到一条翻译规则：

规则1：X-><于X₁访问X₂，visit X₂in X₁>

其中X是变量，下标表示变量之间的对应关系。例如，在规则1中，变量X₁在汉语端处于第二个位置，而当翻译为英语后，X₁处于英语端的第四个位置。

规则1具有泛化能力，能够用来翻译其他短语或句子。例如，当用它来翻译“于6月访问美国华盛顿”时，如果令X₁＝“6月”，X₂＝“美国华盛顿”，则可以得到翻译结果：

于X₁：{6月}访问X₂：{美国华盛顿}visit U.S.Washingtonin June

然而，基于层次化短语的统计机器翻译方法面临的一个问题是，在规则匹配过程中，难以确定短语边界，因而造成翻译的不准确。

例如，以下是一个由汉语句子及其英语译文组成的双语句对的例子：

在该例子中，连线表示汉语词和英语词的对应关系，这称为词语对齐。为了叙述方便，对词语进行了编号(标注下标)。另外，变量X_[i，j]中的下标[i，j]表示该变量所匹配的短语范围，从第i个词开始，到第j个词结束。其中i、j为正整数，且i≤j，j的最大值为该汉语句子中的汉语词的总数。

作为示例，使用以下翻译规则：

规则2：X-><X_L的X_R，X_R in X_L>

该规则的作用是将汉字“的”翻译为英语“in”，并在将汉语句子翻译成英语时将“的”左右两边的汉语短语所对应的英译文调换位置。

从上述双语句对例子中可以看出，在“的”字的左边有5种匹配方式，而在“的”字的右边有3种匹配方式。因此，对于规则2，该双语句对共有15(5＊3)种匹配方式。在这15种匹配方式中，只有1种是正确的匹配，能够得到正确的翻译结果，如以下的短语划分和翻译结果1所示：

短语划分和翻译结果1：

其中X_L的匹配范围是[4，5]，即“印度有史以来”，X_R的匹配范围是[7，9]，即“首位女总统”。在使用规则2时，X_[7，9]作为一个整体与X_[4，5]交换了位置。

而以下的短语划分和翻译结果2显示了一种错误的匹配：

短语划分和翻译结果2：

其中由于X_R的匹配范围是[7，8]，即“首位女”，因此在翻译的时候，[7，8]这2个词被作为一个整体和词[4，5]交换了位置，得到了错误的翻译。

在上述短语划分和翻译结果1和2中，根据匹配方式的不同，得到了2种不同的短语划分方式(用“||”分割)。短语划分和翻译结果1将句子划分为4个短语，而短语划分和翻译结果2将句子划分为5个短语。反过来，短语划分也影响规则匹配。如果能够对一个句子进行正确的短语划分，在规则匹配时，短语作为一个整体被翻译或者调整顺序，那么就有可能得到正确的翻译结果。

在统计机器翻译领域，已经提出了多种方法来限制规则匹配，例如参见非专利文献(1)：Yuval Marton和Philip Resnik于2008年在Proceedingsof the 46th Annual Meeting of the Association for Computational Linguistics：Human Language Technologies第1003-1011页发表的“Soft syntacticconstraints for hierarchical phrased-based translation”，非专利文献(2)：Colin Cherry于2008年在Proceedings of the 46th Annual Meeting of theAssociation for Computational Linguistics：Human Language Technologies第72-80页发表的“Cohesive phrase-based decoding for statistical machinetranslation”，以及非专利文献(3)：Deyi Xiong、Min Zhang、Aiti Aw和Haizhou Li于2009年在ACL-IJCNLP 2009的第315-323页发表的“Asyntax-driven bracketing model for phrase based translation”。然而，这些方法的共同点是都利用句法信息来限制规则匹配，因此受限于句法分析的准确率，并且复杂度高。

发明内容

鉴于以上问题，本发明提出了一种短语划分模型建立方法、统计机器翻译方法以及解码器。

根据本发明的一个方面，一种基于最大熵模型的短语划分模型建立方法包括：从双语语料库中获取训练样本；将所获取的训练样本输入到最大熵模型的参数训练工具中进行参数训练，得到最大熵模型的权重参数；以及将所述权重参数代入最大熵模型中，生成所述短语划分模型。

根据本发明的另一方面，一种用于将输入的源语言句子翻译成目标语言句子的统计机器翻译方法包括：通过查询翻译规则表来获得用于翻译所述源语言句子的规则；组合所述规则以得到中间翻译结果；以及利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子。其中，所述方法还包括：将短语划分模型作为一种特征函数结合到统计机器翻译模型中，其中所述短语划分模型是根据本发明的短语划分模型建立方法建立的短语划分模型。

根据本发明的另一方面，一种用于将输入的源语言句子翻译成目标语言句子的解码器包括：解码单元，配置用于通过查询翻译规则表来获得用于翻译所述源语言句子的规则；组合所述规则以得到中间翻译结果；以及利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子；以及短语划分模型单元，配置用于将短语划分模型作为一种特征函数结合到统计机器翻译模型中。其中所述短语划分模型是根据本发明的短语划分模型建立方法建立的短语划分模型。

本发明的方法和装置没有使用句法树信息，不受句法分析的限制，能够相对容易且准确地确定短语边界，从而对规则匹配进行约束，提高机器翻译质量。

根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

根据本发明的另一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1示出根据本发明的实施例的短语划分模型建立方法的流程图；

图2示出根据本发明的实施例的获取训练样本的步骤的流程图；

图3示出根据本发明的实施例的短语划分步骤的流程图；

图4示出根据本发明的实施例的划分最大单调短语的步骤的流程图；

图5示出根据本发明的实施例的统计机器翻译方法的流程图；

图6示出根据本发明的实施例的结合短语划分模型的步骤的流程图；

图7示出根据本发明的另一实施例的结合短语划分模型的步骤的流程图；

图8示出根据本发明的实施例的短语划分模型建立装置的示意性框图；

图9示出根据本发明的实施例的训练样本获取单元的示意性框图；

图10示出根据本发明的实施例的解码器的示意性框图；

图11示出根据本发明的实施例的短语划分模型单元的示意性框图；

图12示出根据本发明的实施例的统计机器翻译系统的示意性框图；以及

图13示出可用于实施根据本发明实施例的方法、装置及系统的计算机的示意性框图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

本发明的一个目的是通过对句子进行短语划分，以确定短语边界，从而对规则匹配进行约束，提高翻译质量。

为此，首先，本发明提出一种短语划分模型建立方法。利用所述方法建立的短语划分模型可以在翻译过程中结合到解码器中，以提高翻译质量，这将在后面描述。

本发明使用经典的数学模型-最大熵模型来构建短语划分模型。最大熵模型的公式如下所示：

P_{tag} (t | f_{j}, F_{1}^{J}) =

\frac{\exp (Σ_{i} λ_{i} h_{i} (t, f_{j}, F_{1}^{J}))}{Σ_{t} \exp (Σ_{i} λ_{i} h_{i} (t, f_{j}, F_{1}^{J}))}

(公式1)

其中，F₁ ^J是一个包含J个词的句子；f_j是句子F₁ ^J中的第j个词；t是f_j对应的边界标签，t的取值范围是(b，m，e，s)，用于指示词f_j是其所在的短语的开始(b)、中间(m)、结束(e)部分还是所述短语本身(s)。P_tag(t|f_j，F₁ ^J)计算给一个词f_j赋予边界标签t的概率。h_i(t，f_j，F₁ ^J)是特征函数，λ_i是h_i(t，f_i，F₁ ^J)的权重。模型可以使用多个特征函数，h_i是第i个特征函数，特征函数的数目可以根据实际应用需要而确定。

图1示出根据本发明的实施例的短语划分模型建立方法的流程图。如图1所示，在步骤S110中，从双语语料库中获取训练样本。在步骤S120中，将获取的训练样本输入到最大熵模型的参数训练工具中进行参数训练，得到最大熵模型的权重参数。在步骤S130中，将权重参数代入最大熵模型中，从而生成短语划分模型。所生成的短语划分模型即是对于一个或更多个特征函数h_i，确定了相应的权重λ_i的上述公式1。

通常，双语语料库中包括多个由源语言句子和目标语言句子组成的双语句对，每个双语句对已经进行了词的切分和对齐。

根据本发明的一个实施例，针对双语语料库中的每个双语句对中的源语言句子或目标语言句子，可以利用如图2所示的过程来获取训练样本。应当理解，图2所示的过程仅作为示例给出，并不是要将本发明的范围限制于此。

如图2所示，在步骤S210中，对句子进行短语划分。在本发明的实施例中，可以沿用统计机器翻译中对短语对的定义：

假设(F₁ ^J，e₁ ^I，A)是一个双语句对，其中源语言句子F₁ ^J包含J个词，目标句子e₁ ^I包含I个词，A表示源语言句子和目标句子之间单词的对应关系。则当且仅当满足以下条件时，(f_j1 ^j2，e_i1 ⁱ²，a)是一个短语对：

a.f_j1 ^j2和e_i1 ⁱ²是连续的词串；

b.存在f_j(j1≤j≤j2)，其有对应的目标语言词e_i(i1≤i≤i2)，即f_j1 ^j2中存在一些词其在e_i1 ⁱ²中有对应的译文，反之亦然；并且

c.对于f_j1 ^j2中任意的词f_j(j1≤j≤j2)，其对应的译文e_i必须满足i1≤i≤i2，反之亦然。

也就是说，对于一个短语对来说，源语言短语和目的语言短语均为源语言句子和目的语言句子中的连续词串；并且对于源语言短语中的每个词，都能在目的语言短语中找到至少一个对应的词，反之亦然。

例如，对于前文中给出的双语句对的例子，满足上述短语对的条件，是一个短语对。而则不是一个短语对，因为英语短语e₂ ⁹存在单词例如president，它对应的汉语词是“总统”，其位置是9，不在汉语短语f₂ ⁴中。这里省略了词语对齐关系a。

根据本发明的另一实施例，为了进一步提高翻译的准确率和流利度，步骤S210可以包括将句子划分为多个最大单调短语，如图3的步骤S310所示。

对于一个短语对(f_j1 ^j2，e_i1 ⁱ²，a)，如果满足以下条件：

&ForAll; k_{1}, k_{2} &Element; [j_{1}, j_{2}],

k_{1} < k_{2} &LeftRightArrow; {la}_{k_{1}} \leq {la}_{k_{2}}

≤则f_j1 ^j2是一个单调短语。其中，和

分别表示词和

对应的英语单词的最小位置。

例如，对于前文中给出的双语句对的例子，短语对

中，“她将成为”是一个单调短语。而短语对

中，“印度有史以来的”则不是一个单调短语。原因是，对于f₅＝有史以来，f₆＝的，其对应的英语单词的最小位置la₅＝10，la₆＝8，la₅＞la₆。

也就是说，如果源语言短语中的词的顺序与目标语言短语中的对应词的顺序一致，则所述源语言短语和所述目标语言短语均称为单调短语。

另外，如果f_j1 ^j2是一个单调短语，并且f_j1 ^j2+1不是一个单调短语，那么f_j1 ^j2是一个最大单调短语。

例如，“她将”是一个单调短语，但不是一个最大单调短语，因为“她将成为”也是一个单调短语。而后者也是一个最大单调短语。

也就是说，如果通过单调短语在其所在的句子中的扩展所生成的任何新短语都不是单调短语，则该单调短语是最大单调短语。

根据以上定义，可以将一个句子划分为多个最大单调短语。例如，对于前文中给出的双语句对的例子，可以将中文句子划分为4个短语：

她将成为

印度有史以来

的

首位女总统

可以使用各种方法来将句子划分为多个最大单调短语。作为示例，图4示出根据本发明的实施例的划分最大单调短语的步骤的流程图。如图4所述，在步骤S410中，根据以上关于短语的定义，可以穷举出句子中的所有短语。在步骤S420中，根据以上关于单调短语的定义，可以从短语中穷举出所有单调短语。在步骤S430中，根据以上关于最大单调短语的定义，可以从单调短语中穷举出所有最大单调短语。

返回来参考图2，在步骤S220中，为所划分出的短语中的每个词标注边界标签。例如，对于上述短语划分结果，根据各个边界标签的含义，可以为每个短语标注边界标签如下：

她(b)将(m)成为(e)

印度(b)有史以来(e)

的(s)

首位(b)女(m)总统(e)

其中括号中的字母是每个词对应的边界标签。

在步骤S230中，确定句子中的每个词的上下文特征的值。句子中的每个词及其边界标签、上下文特征值就组成一个训练样本。

利用根据本发明实施例的训练样本获取过程，可以自动地从双语语料库中获得训练样本，无需人工干预指导。

根据本发明的一个实施例，可以使用词的上下文单词特征和上下文词性特征之一或者二者来作为词的上下文特征。对于词f0：

1)上下文单词特征可以表示为函数f_w，其中w可以取正整数和/或负整数。当取正整数时，f_w表示词f₀右边的第w个词，而当取负正整，f_w表示f₀左边的第w个词。w是在f_w周围取词的窗口大小，可预先定义，且最大值为句子中词的个数。

2)上下文词性特征可以表示为函数p_w，其表示词f_w的词性。即在该实施例中，函数f_w和p_w可以作为公式1中的特征函数h_i。

例如，对于前文中给出的双语句对的例子，每个词的词性为：

S她|r将|d成为|v印度|ns有史以来|l的|u首位|n女|b总统|n E其中“|”后面的字母表示“|”前面的词的词性，S表示句子开始，E表示句子结束。

则对于词“成为”而言，当w＝2时，它的特征值如下：

f_-2＝她，f_-1＝将，f₀＝成为，f₊₁＝印度，f₊₂＝有史以来

p_-2＝r， p_-1＝d， p₀＝v， p₊₁＝ns， p₊₂＝l

通过上述步骤S210、S220和S230，对于前文中给出的双语句对的例子，可以得到例如如下的训练样本集合：

表1

f₀

tag

f_-2

f_-1

f₊₁

f₊₂

p_-2

p_-1

p₀

p₊₁

p₊₂

她

b

S

将

成为

S

r

d

v

将

m

S

她

成为

印度

S

r

d

v

ns

成为

e

她

将

印度

有史以来

r

d

v

ns

l

印度

b

将

成为

有史以来

的

d

v

ns

l

u

有史以来

e

成为

印度

的

首位

v

ns

l

u

n

的

s

印度

有史以来

首位

女

ns

l

u

n

b

首位

b

有史以来

的

女

总统

l

u

n

b

n

女

m

的

首位

总统

E

u

n

b

n

E

总统

e

首位

女

E

n

b

n

E

其中栏目tag表示边界标签，表中的每一行为一个训练样本。

对双语语料库中的所有句子都获取训练样本，就可以得到所有训练样本。然后可以将训练样本输入训练工具中以训练最大熵模型的参数λi。根据本发明的一个实施例，可以使用开源工具作为最大熵模型的参数训练工具。一个开源工具的示例见http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html(2009年3月11日最后访问)。

将所得到的参数λ_i代入P_tag(t|f_j，F₁ ^J)，得到的最大熵模型作为短语划分模型。

接着，参考图5-7来描述根据本发明的实施例的统计机器翻译方法。现有技术的统计机器翻译方法从双语语料库中抽取规则构成规则表，解码器利用规则表将源语言句子翻译为中间翻译结果，并利用统计机器翻译模型从中间翻译结果中确定最终的目标语言句子。本发明的统计机器翻译方法将短语划分模型结合到统计机器翻译模型中，以提高翻译质量。

图5示出根据本发明的实施例的统计机器翻译方法的流程图。如图5所示，在所述方法中，在步骤S510通过查询翻译规则表来获得用于翻译源语言句子的规则。在步骤S520组合所述规则以得到中间翻译结果。在步骤S530利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子。这种自底向上的翻译过程可以参考非专利文献(4)：David Chiang于2007年在Computational Linguistics的第33卷第2期：第201-228页发表的“Hierarchical phrase-based translation”。

与现有技术不同，根据本发明的方法还包括步骤S540。在步骤S540中，将短语划分模型作为一种特征函数结合到统计机器翻译模型中。也就是说，在统计机器翻译的过程中，要考虑短语划分的贡献。利用短语划分模型计算出各种短语划分情况的翻译结果(此时称为中间翻译结果)所对应的分数(也称为短语划分分数)，然后将得到的分数作为特征函数值输入统计机器翻译模型中，由统计机器翻译模型计算出各种特征函数值所对应的概率。可以取概率最大的情况所对应的中间翻译结果作为最终翻译结果。所述短语划分模型可以是利用本发明的短语划分模型建立方法建立的模型。以下将具体描述这种结合过程。

可以使用以对数线性模型为基础来建立的统计机器翻译模型，公式如下：

P (e | f) &Proportional; \underset{i}{Σ} β_{i} g_{i}

(公式2)

其中，g_i是特征函数，β_i是权重。一般的，特征函数g_i包含：翻译概率、目标语言句子中包含的单词个数、语言模型等。

在根据本发明实施例的统计机器翻译方法中，将短语划分模型作为一个特征加入到翻译模型中，即将以下特征函数作为公式2中的一个特征函数：

g_{ps} (F_{1}^{J}) = \log (Π_{j = 1}^{J} P_{tag} (t | f_{j}, F_{1}^{J}))

(公式3)

其中P_tag(t|f_j，F₁ ^J)的值可以根据根据本发明的方法建立的短语划分模型求得。

图6示出根据本发明的实施例的结合短语划分模型的步骤的流程图。如图6的虚线框所示，对于用于翻译所述源语言句子的每个规则，在步骤S610中，为所述规则中的每个源语言词标注初始边界标签。在组合规则之后，在步骤S620中，更新中间翻译结果中的源语言词的边界标签，以保证所述边界标签所形成的标签序列的合理性。例如，连续的两个边界标签“b”或“e”就是不合理的情况，因为不可能连续两个词都是短语的开始或结束部分。在步骤S630中，基于短语划分模型和中间翻译结果中的源语言词的边界标签来计算对应于中间翻译结果的短语划分分数，作为统计机器翻译模型的特征函数值。

图7示出根据本发明的另一实施例的结合短语划分模型的步骤的流程图。在图7所示的过程中，在步骤S610之前，在步骤S710中对源语言句子中的每个词，利用短语划分模型来计算它对应于每种边界标签的概率，以形成单词-标签矩阵。在组合规则之前，在步骤S720中基于每个规则中的每个源语言词的初始边界标签和所形成的单词-标签矩阵来计算每个规则的短语划分分数。并且图6所示的步骤630可以进一步包括：在步骤S630’中，合计每个规则的短语划分分数以及边界标签更新所导致的短语划分分数变化量，以得到翻译结果所对应的短语划分分数。

图7所示的过程有助于快速高效地计算中间翻译结果的短语划分分数。由于预先形成单词-标签矩阵，在后续计算短语划分分数时，可以通过直接查询单词-标签矩阵而得到单词被赋予对应标签的概率；通过对中间翻译结果中每个词对应的概率进行简单运算，例如对概率或概率对数求和，可以容易地得到该中间翻译结果的短语划分分数。

为了方便理解，以下结合具体示例来对上述方法步骤进行说明。

假设要翻译的句子是：

F₁ ^J＝“她将成为”，

其中J＝3。应当理解，由于各种情况，例如在分句过程中存在对标点符号的误读，或者标题等也作为一个句子，因此语料库中的句子有可能并不严格符合语言学中对句子的要求。例如，以上的句子F₁ ^J并不完整具备语言学中句子的主语、谓语和宾语。但这并不影响对本发明的基本原理和实质精神的理解。

对于句子F₁ ^J中的每个词f_j(1≤j≤J)，利用公式1构成的短语划分模型来计算该词对应的所有边界标签的概率P_tag(t|f_i，F₁ ^J)，得到一个4×J的单词-标签矩阵T，如以下的表2所示(对应于步骤S710)。矩阵中的元素T[i，j]表示单词f_j被标记为标签t_i的概率。

表2.单词-标签概率矩阵

	她	将	成为
				b	0.78	0.10	1.2e-5
m	6.4e-8	0.75	5.4e-5
				e	2.1e-8	0.11	0.87
s	0.22	004	0.13

对于用于翻译句子F₁ ^J的每一个规则，对规则中的每个词标注一个初始边界标签(对应于步骤S610)。可以使用以上参考图2描述的过程来进行初始边界标签的标注。例如，先将规则中的连续词序列作为句子进行短语划分，然后对短语中的词标注边界标签。

例如，假设对于句子F₁ ^J，获得了如下两个翻译规则(对应于步骤S510)并对其标注了初始边界标签：

规则3：

规则4：X₁→(将^b成为^e，will become)

其中规则3的初始标签是(b＊)，这里变量X的标签用＊表示。规则4的初始标签是(be)。

接着，可以根据表2来计算规则3和规则4的短语划分模型的分数，即特征函数g_ps的值(对应于步骤S720)：

Score(规则3)＝log(T[1，1])

Score(规则4)＝log(T[1，2])+log(T[3，3])

这里，对概率取对数以将乘法变换为加法，以便于计算机处理。

然后，组合规则3和规则4可以得到中间翻译结果(对应于步骤S520)：

其中，当这两个规则组合时，源语言端组成了一个大的单调短语“她将成为”。此时，连续出现了两个边界标签“b”，这是不合理的。这里，应把后一个词“将”的标签从“b”更新为“m”(对应于步骤S620)。该词后面的词“成为”的边界标签是“e”，因此可知词“将”出现在短语的中间。

同时，由于词的初始边界标签发生了变化，因此短语划分的分数也应作相应更新(对应于步骤S630’)：

g_ps(F)＝Score(规则3)+Score(规则4)+ΔScore

其中，ΔScore＝log(T[2，2])-log(T[1，2])，其反映了边界标签变化后的短语划分分数变化。即由于词“将”的边界标签由“b”变为“m”，因此短语划分分数也对应地减去“b”所对应的分数，加上“m”所对应的分数。

这样，就完成了对“她将成为”的翻译，其译文是“She will become”。同时，也完成了短语划分。以上句子F₁ ^J的标签为“b m e”，表示这是一个包含3个词的短语。

在实际应用中，对于结构复杂的句子，可能会有多种规则匹配方式，相应地会应用多组规则。这种情况下，将得到多个中间翻译结果。可以类似地计算每个中间翻译结果所对应的短语划分分数。然后，与现有技术类似，将得到的短语划分分数作为特征函数值输入到如公式2所示的统计机器翻译模型中，计算这种中间翻译结果所对应的概率P(e/f)，最终取P(e/f)最大的一个所对应的中间翻译结果作为目标语言句子(对应于步骤S530)。

在根据本发明实施例的上述统计机器翻译方法中，将短语划分模型结合到统计机器翻译模型中。在完成翻译的同时完成了对句子的短语划分。

以下参考附图来说明根据本发明的装置和系统。

图8示出根据本发明的实施例的短语划分模型建立装置的示意性框图。如图8所示，短语划分模型建立装置800包括训练样本获取单元810、参数训练单元820和短语划分模型生成单元830。

根据本发明的一个实施例，训练样本获取单元810被配置用于从双语语料库中获取训练样本；参数训练单元820被配置用于将所获取的训练样本输入到最大熵模型的参数训练工具中进行训练，得到最大熵模型的权重参数；短语划分模型生成单元830被配置用于将权重参数代入最大熵模型中，生成短语划分模型。

图9示出根据本发明的实施例的训练样本获取单元的示意性框图。如图9所示，训练样本获取单元810包括短语划分单元910、边界标签标注单元920和上下文特征值确定单元930。

根据本发明的一个实施例，短语划分单元910被配置用于对双语语料库中的源语言句子或目标语言句子进行短语划分；边界标签标注单元920被配置用于为短语划分单元910所划分出的短语中的每个词标注边界标签，所述边界标签指示该词是所述短语的开始、中间、结束部分还是所述短语本身；上下文特征值确定单元930被配置用于确定双语语料库中的源语言句子或目标语言句子中的每个词的上下文特征的值。其中，双语语料库中的源语言句子或目标语言句子中的每个词及其边界标签、上下文特征值组成一个训练样本。

根据本发明的另一实施例，短语划分单元910被进一步配置用于将句子划分为多个最大单调短语。与根据本发明实施例的上述方法中的定义相同，如果源语言短语中的词的顺序与目标语言短语中的对应词的顺序一致，则所述源语言短语和所述目标语言短语均称为单调短语；并且如果通过所述单调短语在其所在的句子中的扩展所生成的任何新短语都不是单调短语，则所述单调短语是最大单调短语。

根据本发明的另一实施例，短语划分单元910被进一步配置用于穷举出句子中的所有短语；从所述短语中穷举出所有单调短语；以及从所述单调短语中穷举出所有最大单调短语。

根据本发明的另一实施例，上下文特征包括上下文单词特征和上下文词性特征中的至少一种。

图10示出根据本发明的实施例的解码器的示意性框图。如图10所示，解码器1000包括短语划分模型单元1020和解码单元1010。

根据本发明的一个实施例，解码单元1010被配置用于通过查询翻译规则表来获得用于翻译源语言句子的规则；组合所述规则以得到中间翻译结果；以及利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子。短语划分模型单元1020被配置用于将短语划分模型作为一种特征函数结合到统计机器翻译模型中。可以利用根据本发明实施例的短语划分模型建立方法来建立所述短语划分模型。

图11示出根据本发明的实施例的短语划分模型单元的示意性框图。如图11所示，短语划分模型单元1020包括边界标签标注单元1110和短语划分分数计算单元1120。

根据本发明的一个实施例，边界标签标注单元1110被配置用于对于用于翻译所述源语言句子的每个规则，为所述规则中的每个源语言词标注初始边界标签；以及更新解码单元1010得到的中间翻译结果中的源语言词的边界标签，以保证所述边界标签所形成的标签序列的合理性。短语划分分数计算单元1120被配置用于基于所述短语划分模型和所述中间翻译结果中的源语言词的边界标签来计算对应于所述中间翻译结果的短语划分分数，作为所述统计机器翻译模型的特征函数值。

根据本发明的另一实施例，边界标签标注单元1110被进一步配置用于对输入的源语言句子中的每个词，利用所述短语划分模型来计算它对应于每种边界标签的概率以形成单词-标签矩阵。短语划分分数计算单元1120被进一步配置用于基于初始边界标签和单词-标签矩阵来计算每个规则的短语划分分数；以及合计每个规则的短语划分分数以及所述边界标签更新所导致的短语划分分数变化量，以得到所述翻译结果所对应的短语划分分数。

根据本发明的另一实施例，所述统计机器翻译模型以对数线性模型为基础来建立。

图12示出根据本发明的实施例的统计机器翻译系统的示意性框图。如图12所示，统计机器翻译系统1200包括解码器1210和短语划分模型建立装置1220。解码器1210用于将输入的源语言句子翻译成目标语言句子。短语划分模型建立装置1220用于基于最大熵模型来建立短语划分模型。可以使用根据本发明实施例的解码器作为解码器1210，并且可以使用根据本发明实施例的短语划分模型建立装置作为短语划分模型建立装置1220。

关于本发明的装置和系统的操作的进一步细节，可以参考以上所述的方法的各个实施例，这里不再详细描述。

根据本发明的方法、装置和系统没有使用句法树信息，不受句法分析的限制，能够相对容易且准确地确定短语边界，从而对规则匹配进行约束，提高翻译质量。

另外，上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图13所示的通用计算机1300)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图13中，中央处理单元(CPU)1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，还根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图13所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

附记1.一种基于最大熵模型的短语划分模型建立方法，包括：

从双语语料库中获取训练样本；

将所获取的训练样本输入到最大熵模型的参数训练工具中进行参数训练，得到最大熵模型的权重参数；以及

将所述权重参数代入最大熵模型中，生成所述短语划分模型。

附记2.如附记1所述的方法，其中，所述获取训练样本的步骤包括：

针对所述双语语料库中的每个双语句对中的源语言句子或目标语言句子执行以下步骤：

对所述句子进行短语划分；

为所划分出的短语中的每个词标注边界标签，所述边界标签指示该词是所述短语的开始、中间、结束部分还是所述短语本身；以及

确定所述句子中的每个词的上下文特征的值，

其中所述句子中的每个词及其边界标签、上下文特征值组成一个训练样本。

附记3.如附记2所述的方法，其中所述短语划分步骤包括：

将所述句子划分为多个最大单调短语，

其中如果源语言短语中的词的顺序与目标语言短语中的对应词的顺序一致，则所述源语言短语和所述目标语言短语均称为单调短语，并且

如果通过所述单调短语在其所在的句子中的扩展所生成的任何新短语都不是单调短语，则所述单调短语是最大单调短语。

附记4.如附记3所述的方法，其中，所述将所述句子划分为多个最大单调短语的步骤包括：

穷举出所述句子中的所有短语；

从所述短语中穷举出所有单调短语；以及

从所述单调短语中穷举出所有最大单调短语。

附记5.如附记2所述的方法，其中所述上下文特征包括上下文单词特征和上下文词性特征中的至少一种。

附记6.一种统计机器翻译方法，用于将输入的源语言句子翻译成目标语言句子，所述方法包括：

通过查询翻译规则表来获得用于翻译所述源语言句子的规则；

组合所述规则以得到中间翻译结果；以及

利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子，

其中，所述方法还包括：

将短语划分模型作为一种特征函数结合到统计机器翻译模型中，

其中所述短语划分模型是根据附记1-5中任意一项所述的方法建立的短语划分模型。

附记7.如附记6所述的方法，其中，所述结合步骤包括：

对于用于翻译所述源语言句子的每个规则，为所述规则中的每个源语言词标注初始边界标签；

在组合所述规则之后，更新所述中间翻译结果中的源语言词的边界标签，以保证所述边界标签所形成的标签序列的合理性；以及

基于所述短语划分模型和所述中间翻译结果中的源语言词的边界标签来计算对应于所述中间翻译结果的短语划分分数，作为所述统计机器翻译模型的特征函数值。

附记8.如附记7所述的方法，其中所述结合步骤还包括：

在标注初始边界标签的步骤之前，对所述输入的源语言句子中的每个词，利用所述短语划分模型来计算它对应于每种边界标签的概率以形成单词-标签矩阵；以及

在组合所述规则的步骤之前，基于所述初始边界标签和所述单词-标签矩阵来计算每个规则的短语划分分数，并且

其中，所述计算对应于所述中间翻译结果的短语划分分数的步骤包括：

合计每个规则的短语划分分数以及所述边界标签更新所导致的短语划分分数变化量，以得到所述翻译结果所对应的短语划分分数。

附记9.如附记6所述的方法，其中所述统计机器翻译模型以对数线性模型为基础来建立。

附记10.一种基于最大熵模型的短语划分模型建立装置，包括：

训练样本获取单元，配置用于从双语语料库中获取训练样本；

参数训练单元，配置用于将所获取的训练样本输入到最大熵模型的参数训练工具中进行训练，得到最大熵模型的权重参数；以及

短语划分模型生成单元，配置用于将所述权重参数代入最大熵模型中，生成所述短语划分模型。

附记11.如附记10所述的装置，其中所述训练样本获取单元包括：

短语划分单元，配置用于对所述双语语料库中的源语言句子或目标语言句子进行短语划分；

边界标签标注单元，配置用于为所述短语划分单元所划分出的短语中的每个词标注边界标签，所述边界标签指示该词是所述短语的开始、中间、结束部分还是所述短语本身；以及

上下文特征值确定单元，配置用于确定所述双语语料库中的源语言句子或目标语言句子中的每个词的上下文特征的值，

其中所述双语语料库中的源语言句子或目标语言句子中的每个词及其边界标签、上下文特征值组成一个训练样本。

附记12.如附记11所述的装置，其中所述短语划分单元进一步配置用于

将所述句子划分为多个最大单调短语，

附记13.如附记12所述的装置，其中所述短语划分单元进一步配置用于：

穷举出所述句子中的所有短语；

从所述短语中穷举出所有单调短语；以及

从所述单调短语中穷举出所有最大单调短语。

附记14.如附记10所述的装置，其中所述上下文特征包括上下文单词特征和上下文词性特征中的至少一种。

附记15.一种解码器，用于将输入的源语言句子翻译成目标语言句子，所述解码器包括：

解码单元，配置用于通过查询翻译规则表来获得用于翻译所述源语言句子的规则；组合所述规则以得到中间翻译结果；以及利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子；以及

短语划分模型单元，配置用于将短语划分模型作为一种特征函数结合到统计机器翻译模型中，

附记16.如附记15所述的解码器，其中所述短语划分模型单元包括：

边界标签标注单元，配置用于对于用于翻译所述源语言句子的每个规则，为所述规则中的每个源语言词标注初始边界标签；以及更新所述解码单元得到的所述中间翻译结果中的源语言词的边界标签，以保证所述边界标签所形成的标签序列的合理性；以及

短语划分分数计算单元，配置用于基于所述短语划分模型和所述中间翻译结果中的源语言词的边界标签来计算对应于所述中间翻译结果的短语划分分数，作为所述统计机器翻译模型的特征函数值。

附记17.如附记16所述的解码器，其中：

所述边界标签标注单元进一步配置用于对所述输入的源语言句子中的每个词，利用所述短语划分模型来计算它对应于每种边界标签的概率以形成单词-标签矩阵；并且

所述短语划分分数计算单元进一步配置用于基于所述初始边界标签和所述单词-标签矩阵来计算每个规则的短语划分分数；以及合计每个规则的短语划分分数以及所述边界标签更新所导致的短语划分分数变化量，以得到所述翻译结果所对应的短语划分分数。

附记18.如附记15所述的解码器，其中

所述统计机器翻译模型以对数线性模型为基础来建立。

附记19.一种统计机器翻译系统，包括：

解码器，用于将输入的源语言句子翻译成目标语言句子；以及

短语划分模型建立装置，用于基于最大熵模型来建立短语划分模型，其中所述解码器为根据附记15-18所述的解码器，并且所述短语划分模型建立装置为根据附记10-14所述的短语划分模型建立装置。

Claims

1.一种基于最大熵模型的短语划分模型建立方法，包括：

从双语语料库中获取训练样本；

2.如权利要求1所述的方法，其中，所述获取训练样本的步骤包括：

对所述句子进行短语划分；

确定所述句子中的每个词的上下文特征的值，

3.如权利要求2所述的方法，其中所述短语划分步骤包括：

将所述句子划分为多个最大单调短语，

4.如权利要求2所述的方法，其中所述上下文特征包括上下文单词特征和上下文词性特征中的至少一种。

5.一种统计机器翻译方法，用于将输入的源语言句子翻译成目标语言句子，所述方法包括：

组合所述规则以得到中间翻译结果；以及

其中，所述方法还包括：

其中所述短语划分模型是根据权利要求1-4中任意一项所述的方法建立的短语划分模型。

6.如权利要求5所述的方法，其中，所述结合步骤包括：

7.如权利要求6所述的方法，其中所述结合步骤还包括：

8.一种解码器，用于将输入的源语言句子翻译成目标语言句子，所述解码器包括：

9.如权利要求8所述的解码器，其中所述短语划分模型单元包括：

10.如权利要求9所述的解码器，其中：