CN102270196A

CN102270196A - 一种机器翻译方法

Info

Publication number: CN102270196A
Application number: CN2010101917698A
Authority: CN
Inventors: 张大鲲; 孙乐; 李文波
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2010-06-04
Filing date: 2010-06-04
Publication date: 2011-12-07

Abstract

本发明公开了一种机器翻译方法，属于自然语言处理技术领域。本发明的方法为：1)将词对齐的双语句子转换为双语句法树结构；2)在双语句法树的每一层抽取带有结构属性的短语，计算短语翻译概率组成短语翻译表；3)根据短语翻译表，利用搜索算法对待翻译双语句子进行翻译；其中，双语句法树的树节点为互为翻译的双语词对或者双语短语对，句法树的父节点的源语言端由该父节点所有儿子节点的源语言端保序组合得到、目标语言端由该父节点所有儿子节点的目标语言端以设定的词语组合顺序组合得到，句法树中相邻上下层中的节点在目标语言端的组合顺序相反；组合顺序包括保序或反序。本发明通过改善翻译候选的内部结构，从而达到提高翻译质量的效果。

Description

一种机器翻译方法

技术领域

本发明属于自然语言处理技术领域，具体来说，本发明涉及一种机器翻译方法。

背景技术

在统计机器翻译方法中对句子结构的分析可以提高译文的质量。目前主要的对句子结构分析的方法有两类，一类是使用符合语言学意义的句法分析器对句子结构进行分析的语言学句法方法(参考K.Yamada and K.Knight.2001.A Syntax-based Statistical Translation Model.inProceedings of ACL.p.523-530.和Y.Liu，Q.Liu，and S.Lin.2006.Tree-to-String AlignmentTemplate for Statistical Machine Translation.in Proceedings of ACL.p.609-616.)，另一类是不需要明确句法分析过程的形式化句法方法(参考D.Wu，Stochastic Inversion TransductionGrammars and Bilingual Parsing of Parallel Corpora.Computational Linguistics，1997.23(3)：p.377-404.和D.Chiang，Hierarchical phrase-based translation.Computational Linguistics，2007.33(2)：p.201-228.)。基于语言学句法的方法首先需要利用句法分析器对句子结构进行分析，不管是对单语还是对双语的分析方法，都会使模型的学习过程变得复杂，因此，在实际计算时需要增加限制条件以进行简化。在基于形式化句法的方法中，句法结构直接从平行语料中学习，不依赖于复杂的语言学方法进行分析，不考虑所得到的分析结果是否符合语言学标准。因此，相比之下，形式化句法复杂度低，算法效率高。

主要的形式化句法的方法有两种，一种是基于层次型短语的方法，另一种是基于反向转录语法的方法。基于层次型短语的方法从词对齐的双语句子中抽取带有间隔的短语，利用对间隔的扩展得到一棵层次型的句法分析树，这种方法在句子结构生成的过程中，只考虑了输入源语言句子的信息，没有考虑目标语言端对翻译时的影响。基于反向转录语法的方法允许两种形式的词语位置交换(保序和反序)，每次交换的词语个数限制为两个，因此，生成的句子结构表示成一棵二叉树的形式，这种方法的不足在于限制了词语的位置交换只能在两个节点之间进行，在实际翻译时可能出现过多无用的交换结构，导致翻译错误率过高的问题。

发明内容

本发明的目的在于提供一种机器翻译方法，通过本发明改进的双语句法树结构对训练和解码过程进行约束，可大大提高翻译的性能和质量。本发明提供的机器翻译方法属于形式化句法方法范畴。

为实现上述发明目的，本发明的技术方案为：

一种机器翻译方法，其步骤为：

1)将词对齐的双语句子转换为双语句法树结构；

2)在双语句法树的每一层抽取带有结构属性的短语，计算短语翻译概率组成短语翻译表；

3)根据短语翻译表，利用搜索算法对待翻译双语句子进行翻译；

其中，所述双语句法树的树节点为互为翻译的双语词对或者双语短语对，句法树的父节点的源语言端由该父节点所有儿子节点的源语言端保序组合得到、目标语言端由该父节点所有儿子节点的目标语言端以设定的词语组合顺序组合得到，句法树中相邻上下层中的节点在目标语言端的组合顺序相反；其中组合顺序包括保序或反序。

进一步的，所述父节点为双语短语对，所述儿子节点为双语词对或双语短语对。

进一步的，步骤1)中的转换方法为：

a)将训练数据中双语句子的词对齐关系表示成对齐矩阵的形式；

b)标定整个双语句子为当前要处理的块，并设置当前块的组合顺序；所述组合顺序为保序或反序；

c)根据当前块的组合顺序和词语对齐信息，构造当前双语句子的句法树当前层树节点，如果不能构造出当前层的树节点，则更改当前块的组合顺序重新构造当前层树节点；如果保序或反序均不能构造出当前层的树节点，则将当前块中的双语翻译对作为不能继续分解的短语节点添加到句法树结构中；

d)找出并标定上一层中非词语对齐的树节点为当前要处理的块，并设置其组合顺序后，重复步骤c)；直到生成整个双语句子的双语句法树结构。

进一步的，所述短语翻译表包括：正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。

进一步的，所述短语结构概率采用公式

计算，其中

为短语对

在结构属性为o时出现的次数，o取值为保序或反序；为短语对

在语料中出现的总次数，即保序和反序次数的总和。

进一步的，所述搜索算法为柱搜索算法。

进一步的，所述利用柱搜索算法对待翻译双语句子进行翻译的方法为：

1)从短语翻译表中选出能够匹配待翻译句子的短语翻译候选；其中每一个短语翻译候选包括源语言短语、目标语言短语，以及正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率；

2)组合不同的短语翻译候选以覆盖待翻译句子中的不同区域，根据已覆盖的待翻译句子中的词数个数将翻译候选放置到相应的柱中；

3)计算每个柱中每个翻译候选的翻译概率总和，并根据概率总和对翻译候选进行排序；

4)扩展已覆盖的待翻译句子词语，直到覆盖整个待翻译句子为止，将得到的全部覆盖整个待翻译句子的候选翻译项中概率最高的一项作为最终的翻译结果。

进一步的，所述翻译概率总和包括语言模型概率、正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。

进一步的，计算所述翻译概率总和时，如果某个翻译候选的短语翻译对出现在保序层，则在该翻译候选的翻译概率总和上减去该翻译候选的短语翻译对出现在反序层的短语结构概率；如果某个翻译候选的短语翻译对出现在反序层，则在该翻译候选的翻译概率总和上减去该翻译候选的短语翻译对出现在保序层的短语结构概率。

本发明提供的基于改进的双语句法树结构的机器翻译方法，主要包括以下步骤(图1)：其中步骤1)和步骤2)为训练过程，步骤3)为翻译解码过程。

步骤1)将词对齐的双语句子转换为改进的双语句法树结构；

步骤2)基于这种双语句法树结构，在句法树的每一层抽取带有结构属性的短语，计算短语翻译概率组成短语表；

步骤3)利用搜索算法，计算每一个翻译候选的总翻译代价(即翻译概率总和)，包括翻译概率、语言模型概率以及用于描述翻译候选结构的结构概率，根据总翻译代价对翻译候选进行排序，并逐渐扩展到整句的翻译候选，得到最终的翻译结果。

上述技术方案中，所述步骤1)中，将词对齐的双语句子(训练数据)转换得到对应的双语句法树结构的方法，其主要思想为：给定待解析的双语句对(或者互为翻译的词序列)和期望组合顺序(保序和反序中的一种)，在这个组合顺序的前提下，生成当前层的树节点，如果不能构造出符合当前期望组合顺序的树节点，则利用另一个组合顺序重复上述过程，如果两种期望组合顺序都不能构造出树节点，则待解析的双语翻译对作为不能继续分解的短语节点添加到树结构中。递归对每一个短语对节点进行上述过程，直到生成整个句子对的双语句法树结构(图2)。

本发明提供的改进双语句法树结构约束如下：

a)树节点为互为翻译的双语词对或者双语短语对；

b)父节点(双语短语对)的源语言端由其所有儿子节点(双语词对或双语短语对)的源语言端保序组合得到，其目标语言端由其所有儿子节点的目标语言端以某一种(保序或反序)词语组合顺序组合得到。

c)树结构中相邻的上下两层其节点在目标语言端的组合顺序必须不同，组合顺序交叉为保序或反序。

上述约束条件a)中，双语词对允许对空词的出现，即某一个词在另一种语言中没有对应的翻译词，则利用和空词对应来表示。双语短语对包含两种情况，一种是由子节点组合而成的双语短语对；另一种是不能够利用这种结构进行继续分解的独立短语对。

上述约束条件b)中，整个双语句法树的根节点即为互为翻译的双语句对。

上述约束条件c)，保证了双语句法树结构的唯一性，对于能够继续分解的双语短语对，需要在其儿子节点层尽可能的分解到词一级，不允许相同的组合顺序层连续出现。

上述约束条件的形式化表示为：

A→[A₁A₂...A_m]|<A₁A₂...A_n>|f/e

其中，非终结符A在目标语言端可以以保序(用[]表示)或者反序(用<>表示)的方式进行组合，也可以转化为叶子节点——终结符组成的词对(f/e)。

上述技术方案中，所述步骤2)中，短语的抽取过程利用枚举的方式组合得到，其结果如下：

Level 3(1) go/去保序层

Level 3(1)(2) go to/去保序层

Level 3(2) to/ε 保序层

Level 3(2)(3) to Kenya/肯尼亚保序层

Level 3(3) Kenya/肯尼亚保序层

Level 3(4) with/和保序层

Level 3(5) you/你保序层

Level 2(1) go to Kenya/去肯尼亚反序层

Level 2(2) with you/和你反序层

短语的长度利用源语言端组合的词数多少进行限制。短语的结构属性为当前层的目标语言端的组合顺序(保序或反序)，该层的所有节点组合得到的短语对(即父节点)的结构属性由父节点所在的层决定(和当前层的其他短语结构属性相反)。

上述技术方案中，所述步骤3)中，解码方法基于柱搜索算法(图3)，在翻译的每一个阶段，唯一确定每个短语对的对齐关系，得到对应的句法树结构，利用上述步骤2)中得到的结构属性概率对所得到的句法树结构进行概率计算。结构概率的计算方法为：在当前句法树结构中若该短语处于保序层，则减去其结构属性中在反序层中的出现概率；若该短语处于反序层，则减去其结构属性中在保序层中的出现概率。

本发明具有如下技术效果：

本发明利用改进的双语句法树结构，能够对现有的短语翻译对给出结构上的信息(结构属性)，在翻译解码的过程中能够利用这种结构信息辅助目标句子的生成，改善翻译候选的内部结构，从而达到提高翻译质量的目的。本发明的翻译性能和通常的短语方法相比，在基于BLEU值的评价指标上能够得到7％的提高。

附图说明

图1：本发明提供的基于双语句法树结构的翻译模型流程图；

图2：本发明提供的双语句法树结构实例；

图3：本发明提供的基于双语句法树结构的翻译解码示意图；

图3(A)为柱搜索解码过程示意图，

图3(B)为图3(A)柱2中候选项a的结构图，

图3(C)为图3(A)柱2中候选项b的结构图，

图3(D)为图3(A)柱4中候选项a的结构图，

图3(E)为图3(A)柱4中候选项b的结构图，

图4：基本的词对齐关系和转换得到双语句法树结构实例；

图4(A)为保序连接的词语对齐(两个词)及相应的句法树结构

图4(B)为反序连接的词语对齐(两个词)及相应的句法树结构

图4(C)为保序连接的词语对齐(三个词)及相应的句法树结构

图4(D)为保序和反序连接的词语对齐(三个词)及相应的句法树结构

图5：需要进一步处理的短语节点及其内部子树结构实例。

图5(A)为复杂的词对齐关系

图5(B)为图5(A)对应的句法树结构及子树结构

具体实施方式

下面通过具体实施例结合附图对本发明作更详细的说明。

如图1所示，图1为本发明提供的基于改进的双语句法树结构的机器翻译方法总体技术方案的实现流程图，该方法包括以下步骤：

步骤1)将词对齐的双语句子转换为改进的双语句法树结构；

本实例说明如何生成一棵改进的双语句法树结构(图2)。

给定词对齐的双语句子：

生成对应的双语句法树结构，具体过程描述如下：

a)将双语句子的词对齐关系表示成对齐矩阵的形式，如下

其中，●表示词语之间存在对应关系，○表示词语之间不存在对应关系。

b)当前需要处理的块为整个双语句子，其边界利用上下左右所在行/列标记可以表示为(A1，A9，G9，G1)(分别为左上、左下、右下和右上4个对齐矩阵的位置标记)，设置当前块的期望节点组合顺序为保序；

c)在当前块和当前期望组合顺序(保序)的条件下，根据词语对齐信息，将当前块分割为若干符合保序条件的节点，第一个节点边界为(A1，A1，A1，A1)，对应双语词对“I/我”；第二个节点边界为(B2，B2，B2，B2)，对应双语词对“want/想”；第三个节点边界为(0，0，0，0)，对应双语词对“to/ε”；第四个节点边界为(C4，C8，F8，F4)，对应双语短语对“go to Kenya with you/和你去肯尼亚”；第五个节点边界为(G9，G9，G9，G9)，对应双语词对“./。”；以上五个节点构成了句法树结构的第一层(上面的对齐矩阵中的阴影部分)，其父节点为ROOT根节点；(注：如果根据当前期望组合顺序(保序)不能得到节点的切分结果，则尝试另一种期望组合顺序(反序)。)

d)找出以上五个节点中的非词语对齐节点，对每个非词语对齐节点继续进行分析，当前的非词语对齐节点只有第四个节点；直到所有节点均为词语对齐节点，或者所有非词语对齐节点都不能再继续分解(两种组合顺序都不能实现切分)，则算法停止；

e)当前块(句法树第一层中的第四个节点)的边界表示为(C4，C8，F8，F4)；当前块的期望节点组合顺序为保序；

f)在当前块(第四个节点)和当前期望组合顺序(保序)的条件下，根据词语对齐信息，不能将当前块分割为若干符合保序条件的节点；

g)将当前块(句法树第一层中的第四个节点)的边界表示为(C4，C8，F8，F4)；当前块的期望节点组合顺序为反序；

h)在当前块(第四个节点)和当前期望组合顺序(反序)的条件下，根据词语对齐信息，将当前块分割为若干符合反序条件的节点，第一个节点边界为(E4，E6，F4，F6)，对应双语短语对“go to Kenya/去肯尼亚”；第二个节点边界为(C7，C8，D8，D7)，对应双语短语对“with you/和你”；以上两个节点构成了句法树结构的第二层(上面的对齐矩阵中的黑框线部分)，其父节点为第一层中的第四个节点；

i)重复步骤d)到步骤h)，分析过程同上，直到得到完整的双语句法树结构，如图2所示。

图4为基本的词语对齐关系和利用上述步骤转换得到双语句法树结构实例，其中带有横线的部分表示该节点的子节点的组合顺序为反序，否则为保序。

在上述步骤f)中，不能根据当前的期望顺序(保序)生成句法树的节点，如果在步骤h)中也不能根据期望顺序(反序)生成句法树的节点，则当前待分析块作为不可进一步分解的短语节点添加到句法结构中。对于这种不可进一步分解的短语节点，还需要考虑其内部结构，即那些可以利用这种结构表示的子树结构。如图5所示，短语节点“e1 e2 e3/f1 f2 f3 f4”在双语句对形成的句法树中作为一个不可继续分解的节点存在，而其内部仍然存在符合句法树约束的子树结构，生成由“e2/f2”和“e3/f3”两个节点组成的子树。

步骤201)基于这种双语句法树结构，在句法树的每一层抽取带有结构属性的短语。以图2中的Level 3为例，针对不同父节点下的所有子节点进行枚举。比如当父节点为节点II“goto Kenya/去肯尼亚”时，可以得到子节点组合(1)，(1)(2)，(2)，(2)(3)，(3)，其结构属性均为保序层；当父节点为节点III“with you/和你”时，可以得到子节点组合(4)，(5)，其结构属性均为保序层。当前层的所有节点的组合在其父节点层进行抽取，如子节点组合(1)(2)(3)对应的节点II和子节点组合(4)(5)对应的节点III，应在Level 2抽取，其结构属性为反序层。抽取得到的短语及其结构属性如下：

Level 3(1) go/去保序层

Level 3(1)(2) go to/去保序层

Level 3(2) to/ε 保序层

Level 3(2)(3) to Kenya/肯尼亚保序层

Level 3(3) Kenya/肯尼亚保序层

Level 3(4) with/和保序层

Level 3(5) you/你保序层

Level 2(1) go to Kenya/去肯尼亚反序层

Level 2(2) with you/和你反序层

步骤202)计算短语翻译概率组成短语翻译表。短语的翻译概率和词汇化概率计算方法与通常的短语翻译模型中的计算方法一致。其中短语翻译概率包括：正向短语翻译概率，反向短语翻译概率，正向词汇化翻译概率，反向词汇化翻译概率。本发明中增加一项短语翻译概率：短语结构概率，特有的短语结构概率的计算采用相对频率的方法：

p_{o} (\overset{&OverBar;}{f}, \overset{&OverBar;}{e}) = \frac{count (\overset{&OverBar;}{f}, \overset{&OverBar;}{e}, o)}{Σ_{o &Element; {srtaight, inverted}} count (\overset{&OverBar;}{f}, \overset{&OverBar;}{e}, o)} - - - (1)

其中

为短语对

在结构属性为o(取值为保序straight或反序inverted)时出现的次数，

为短语对

在语料中出现的总次数，即保序和反序次数的总和。当短语对

没有在训练语料的句法树结构中的其中一层出现过时，其概率值为0。

步骤301)从短语翻译表中选出能够匹配待翻译句子的短语翻译候选，每一个短语翻译候选包括源语言短语、目标语言短语和5种短语翻译概率。

步骤302)组合不同的短语翻译候选以覆盖待翻译句子中的不同区域(指待翻译句子中的词，连续的或者是不连续的部分)，根据已覆盖的待翻译句子中的词数个数将翻译候选放置到相应的“柱”中。图3是基于双语句法树结构的解码方法示例。在图3(A)中，从0到4的“柱”矩形表示了不同的翻译状态——从没有词翻译的初始状态到翻译了4个词的中间状态。在标号2的矩形中，候选翻译a和b都已经翻译了两个词。

步骤303)计算“柱”中每个翻译候选的翻译代价(概率)总和，包括语言模型代价、短语翻译代价和短语结构代价，并根据代价的多少进行排序。在图3(A)标号2的矩形中，候选翻译a和b，它们的总翻译代价除了语言模型代价外，其余是一样的。而实际上，这两个候选翻译的内部结构完全不同，利用双语句法树结构表示，可以得到图3(B)和图3(C)所示的结构。图3(C)的候选翻译是先翻译的短语t2，再翻译的短语t1，因此在t1和t2之间存在一个反序的组合关系。这时，再加上覆盖第3个词到第4个词的短语t3，又形成了一个新的顺序组合关系，其结构如图3(E)所示。根据句法树的约束，这种情况需要一个新的结构层(图3(E)中的节点3-4)，其与图3(D)中的同在一层的结构完全不同。上述这一解码过程在图3(A)中使用点线来进行描述。

另一个问题是概率计算。双语句法树结构概率作为惩罚加入到总的翻译代价中，根据步骤202中的公式，每个短语翻译对都会计算出其出现在两种组合层的结构概率

和

在解码时，每个翻译候选都可以利用句法树结构进行表示(图3(B)-图3(E))，如果某个翻译候选的短语翻译对出现在保序层，则在其总概率上减去其出现在反序层的结构概率举例来说，短语对“他说/he said that”的结构概率为

和

表明该短语对在训练语料中没有在反序层出现过。假定对于解码过程中的候选翻译，这一短语对仍然出现在保序层，那么其惩罚概率为

即不对该结构进行惩罚。

步骤304)扩展已覆盖的待翻译句子词语，直到覆盖整个待翻译句子为止，将得到的全部覆盖整个待翻译句子的候选翻译项中概率最高的一项作为最终的翻译结果。

最后所应说明的是，以上仅用以说明本发明理论原理和技术方案而非限制。本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种机器翻译方法，其步骤为：

1)将词对齐的双语句子转换为双语句法树结构；

2.如权利要求1所述的方法，其特征在于所述父节点为双语短语对，所述儿子节点为双语词对或双语短语对。

3.如权利要求2所述的方法，其特征在于步骤1)中的转换方法为：

4.如权利要求1或2或3所述的方法，其特征在于所述短语翻译表包括：正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。

5.如权利要求4所述的方法，其特征在于所述短语结构概率采用公式计算，其中

为短语对

在结构属性为o时出现的次数，o取值为保序或反序；

为短语对

在语料中出现的总次数，即保序和反序次数的总和。

6.如权利要求4所述的方法，其特征在于所述搜索算法为柱搜索算法。

7.如权利要求6所述的方法，其特征在于所述利用柱搜索算法对待翻译双语句子进行翻译的方法为：

8.如权利要求7所述的方法，其特征在于所述翻译概率总和包括语言模型概率、正向短语翻译概率、反向短语翻译概率、正向词汇化翻译概率、反向词汇化翻译概率、短语结构概率。

9.如权利要求8所述的方法，其特征在于计算所述翻译概率总和时，如果某个翻译候选的短语翻译对出现在保序层，则在该翻译候选的翻译概率总和上减去该翻译候选的短语翻译对出现在反序层的短语结构概率；如果某个翻译候选的短语翻译对出现在反序层，则在该翻译候选的翻译概率总和上减去该翻译候选的短语翻译对出现在保序层的短语结构概率。