CN101989257A

CN101989257A - 基于树到树翻译模型的翻译规则抽取方法和翻译方法

Info

Publication number: CN101989257A
Application number: CN2009100902029A
Authority: CN
Inventors: 刘洋; 吕亚娟; 刘群; 熊皓
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-07-31
Filing date: 2009-07-31
Publication date: 2011-03-23

Abstract

本发明提供一种基于树到树翻译模型的翻译规则抽取方法，包括下列步骤：1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林；2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。根据该翻译规则进行测试语料的翻译，有效提高了翻译质量。

Description

基于树到树翻译模型的翻译规则抽取方法和翻译方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种语言翻译规则抽取方法和翻译方法。

背景技术

基于句法的翻译模型已经逐渐成为统计机器翻译的主流模型，根据是否在源语言端和目标语言端建立句法树，基于句法的翻译模型可以分为以下三类：1)树到串翻译模型，例如刘洋(Yang Liu)等人于2006年在第四十四届计算语言学年会(ACL 2006)上所公开的；2)串到树翻译模型，马库等人在2006年基于经验主义方法的自然语言处理会议(EMNLP 2006)上所公开的；3)树到树翻译模型，例如艾斯勒等人于2003年在第四十一届计算语言学年会上所公开的。

现有的树到树的翻译模型由于在源语言端和目标语言端分别建立唯一的一棵句法树。句法树的质量很大程度上决定了最终翻译的结果。当句法分析不准确时，最优句法分析结果可能是错误的，因此将对后面的解码准确率造成影响。而现有的句法分析技术准确率并不高，英语只能达到91％，而汉语仅能达到85％左右。

另外，现有的树到树模型的翻译规则都是从对齐的双语句法树中抽取出来的，其中，对齐的双语句法树由一棵源语言句法树和对应的一棵目标语言句法树共同构成。在这种情况下，能抽取的规则数量十分有限，通常一对句法树只能抽取出几十条规则。

所以，现有的基于树到树的翻译模型的翻译质量不够理想。

发明内容

为解决上述技术问题，本发明提供一种翻译质量较高的基于树到树翻译模型的翻译方法。

为实现上述目的，根据本发明的一个方面，提供了一种一种基于树到树翻译模型的翻译规则抽取方法，包括下列步骤：

1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林；

2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。

该翻译规则抽取方法中，所述步骤2)进一步包括：

获取关于所述训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合；

获取所述每个节点的所述训练语料的目标语言压缩共享句法森林中的对应节点，并获取关于所述对应节点的第二前沿树集合，根据所述第一前沿树集合和所述第二前沿树集合构造前沿树对集合；

在所述前沿树对集合中抽取最小前沿树对，并根据所述最小前沿树对构建翻译规则。

该翻译规则抽取方法中，

所述步骤2)包括：将所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林进行缩减，根据缩减后的训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林抽取翻译规则。

根据本发明的另一方面，还提供了一种根据翻译规则抽取方法所抽取的翻译规则基于树到树翻译模型的翻译方法，包括下列步骤：

3)、分析测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林；

4)、根据所述翻译规则和所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。

在该翻译方法中，

所述步骤4)包括：对所述测试语料的源语言压缩共享句法森林进行缩减，根据所述翻译规则和缩减后的所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。

本发明的优点在于，有效提高了句法分析准确率；另外，还增加了可用的翻译规则，扩大了搜索空间；从而有效提高了翻译质量。

附图说明

图1是根据本发明一个具体实施例的基于树到树机器翻译模型的翻译方法的流程图；

图2是根据本发明一个具体实施例的对齐的训练语料双语压缩共享句法森林示意图；

图3(a)是根据本发明一个具体实施例的前沿树示意图；

图3(b)是根据本发明一个具体实施例的最小前沿树示意图；

图3(c)是根据本发明一个具体实施例的前沿树对示意图；

图3(d)是根据本发明一个具体实施例的最小前沿树对示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的基于树到树翻译模型的翻译规则抽取方法和翻译方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

根据本发明的一个具体实施例，在树到树模型中引入了压缩共享句法森林，其中保存的并不是句法分析的一棵最优句法树，而是可能保存了多达上万棵句法树，从而提高了句法分析准确率。虽然现有技术中已经存在将压缩共享句法森林应用于树到串的翻译模型的翻译方法。但将压缩共享句法森林引入树到树的翻译模型，由于树是一种复杂的结构，而且压缩共享森林存储的不仅仅是一棵树，而是包含了多棵句法树，因此从源语言端和目标语言端的这两个森林中抽取出理想的规则难度较大。

图1示出了根据本发明一个具体实施例的基于树到树机器翻译模型的统计机器翻译方法的流程图，如图1所示，该方法包括以下步骤：

步骤11)，利用句法分析器分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林，由这两个压缩共享句法森林共同组成对齐的训练语料双语压缩共享句法森林。其中，压缩是指采用超图的数据结构可以将巨大的森林压缩成一个简易的图结构；共享是指多个树节点可以共享同一个子树。句法分析的主要目的是从输入的源语言串分析出与目标语言串相应的句法树。本领域普通技术人员可以理解，句法分析可采用如下多种短语树句法分析器：查尼亚克句法分析器(Charniak parser)、比科尔句法分析器(Bikel Parser)、斯坦福句法分析器(Stanford parser)、柯林斯句法分析器(Collins Parser)。句法分析器不仅要输出一颗最优的句法分析树，而且根据所分析的所有句法树构建并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林。图2示出了根据本发明一个具体实施例的对齐的训练语料双语压缩共享句法森林示意图，其中上部是训练语料的源语言压缩共享句法森林，下部是训练语料的目标语言压缩共享句法森林。其中，每条超边包括一个节点Head和一个节点集合Tails，如图2所示，对于超边e1，Head(e1)＝IP¹，Tails(e1)＝NPB⁶和VP³。

通常上述在训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林内均含有大量概率很低的垃圾超边和节点，为加快搜索翻译的速度，根据本发明的优选实施例，还包括步骤12)利用剪枝算法分别对在训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林进行缩减。具体缩减方法如下：

对于待缩减的压缩共享句法森林中的每个节点v，计算维特比(Viterbi)向内概率负对数β(v)、向外概率负对数α(v)；再对于每个句法超边e_p依次计算参数：

δ (e_{p}) = α (Head (e_{p})) + \underset{v_{i} &Element; Tails (e_{p})}{Σ} β (v_{i}) - β (TOP)

其中β(TOP)为最优句法树概率之负对数值，如果参数δ(e_p)小于预定的阈值t，则保留超边e_p，否则删除，其中优选地3≤t≤15。最终将留下的超边和与之相关的节点组成缩减后的压缩共享句法森林。

步骤21)，从生成的训练语料双语压缩共享句法森林中抽取翻译规则。通常可以抽取出上百甚至上千条规则。因此提供了丰富的规则用于翻译。由这些翻译规则构成翻译规则的集合

。表1给了部分翻译规则：

表1：翻译规则表

(1)IP(x₁：NPB，x₂：VP)→S(x₁：NP，x₂：VP)

(2)NPB(x₁：NR)→NP(x₁：NNP)

(3)NR(bushi)→NNP(Bush)

(4)VP(x₁：PP，VPB(x₂：VV，AS(le)，x₃：NPB))→VP(x₂：VBD，NP(DT(a)，x₃：NP)，x₁：PP)

以翻译规则(1)为例，翻译规则r₁为IP(x₁：NPB x₂：VP)→S(x₁：NP，x₂：VP)，其表示：代表源语言端的IP(NPB VP)子树可以替换成目标语言端的S(NP VP)子树。

步骤31)对于测试语料中的待翻译的句子，重复步骤11)所述的方法，利用句法分析器根据测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林。优选地，为加快搜索翻译的速度，还对所生成的测试语料的源语言压缩共享句法森林进行缩减。

步骤41)，遍历测试语料的源语言压缩共享句法森林，如果测试语料的源语言压缩共享句法森林已经被缩减，则遍历缩减后的测试语料的源语言压缩共享句法森林，从所抽取的翻译规则的集合中搜索可用翻译规则，最终生成待翻译句子的翻译森林。根据本发明的具体实施例，该生成待翻译句子的翻译森林的过程具体如下：

遍历测试语料的源语言压缩共享句法森林中的每个节点v，搜索每一个翻译规则如果LHS(r)和以v为根节点的子树片段完全匹配则生成与该节点v对应的翻译超边e，其中LHS(r)表示规则r的左部，例如对于表1中的规则r₁，LHS(r₁)＝IP(NPB VP)；由测试语料的源语言压缩共享句法森林中的节点与翻译超边构建待翻译句子的翻译森林，从而在测试语料的源语言压缩共享句法森林上附加了翻译规则，换句话说，为测试语料的源语言压缩共享句法森林的每一条超边从规则表中寻找一条翻译规则与其对应，如果规则表中没有找到对应的翻译规则，则构造一条默认的翻译规则，即将测试语料的源语言压缩共享句法森林的超边作为翻译规则。

步骤42)遍历待翻译句子的翻译森林，逐步构造待翻译句子的目标语言端句法树并最终生成翻译结果。根据本发明的优选实施例，该步骤过程如下：按照后续遍历顺序，自底向上对于测试语料的源语言压缩共享翻译森林中的每个节点v，根据所有的Head(e_t)＝v的翻译超边e_t提取出节点v对应的翻译规则，并在目标语言端建立对应的子树结构，再按照柱状图剪枝，去除概率较小的子树结构。最终搜索出目标语言端一棵概率最大的待翻译句子的目标语言端句法树，进而从待翻译句子的目标语言端句法树中得到叶子节点，即待翻译句子的翻译结果。

下面根据本发明的具体实施例，详细说明上述步骤21)的抽取翻译规则的步骤。为此首先对相关定义进行说明。

节点的区间σ(v)，表示该节点所覆盖的源语言单词的索引区间，图2中的节点VPB⁵覆盖了源语言串的三个单词：“juxing le huitan”，所以其区间为σ(v)＝{4-6}。

节点的目标语言端区间γ(v)，表示该节点覆盖的源语言串对应的目标语言串的索引区间，图2中的节点VPB⁵对应的目标语言端语言串为：“heldtalk”，所以其目标语言端区间为γ(v)＝{2-4}。

节点的补集区间δ(v)，表示非该节点的祖先和后代的节点代表的目标区间γ(v)的合集，图2中的非VPB⁵节点的祖先和后代节点集合为{NP²，NPB⁶，NR⁹，CC¹⁰，P¹¹，PP⁴，NPB⁷，NR¹²}，其对应的目标语言串为“Bush withSharon”，所以节点VPB⁵的补集区间为δ(v)＝{1，5-6}，。

根据检查节点是否符合对齐一致性，因为图2中的节点VPB⁵的γ(v)和δ(v)的交集

所以该节点符合对齐一致性。

前沿节点是符合对齐一致性的节点，即对于节点v，在目标语言端存在一个对应节点v′使得

根据本发明的具体实施例，在训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林都寻找前沿节点，并构成前沿节点对。如图2所示的节点PP⁴为一个前沿节点，因为可以在目标语言端找到一个对应节点PP²⁶，使得

且

前沿树为符合如下限制的树：①根节点为前沿节点；②如果树只含一个节点，那么这个节点必须是词汇化的前沿节点；③如果树含有不止一个节点，树的叶子节点为词汇化的非前沿节点和非词汇化的前沿节点两者之一。图3(a)示出了一棵前沿树示意图。

最小前沿树，表示一棵前沿树中除了根节点和叶子节点以外，其他所有节点都是非前沿节点。图3(b)示出了一棵最小前沿树示意图。

前沿树对，前沿树对是一个三元组<t_s，t_t，≈>，满足条件：t_s为源语言端前沿树；t_t为目标语言端前沿树；≈表示t_t和t_s中的叶子节点(最底层节点)有着一一对应关系。图3(c)示出一棵前沿树对示意图。

前沿树对的子图，前沿树对<t′_s，t′_t，≈>为<t_s，t_t，≈>的子图，满足条件：root(t′_s)＝root(t_s)；root(t′_t)＝root(t_t)，其中，t′_s是t_s的子图；t′_t是t_t的子图。

最小前沿树对，表示该前沿树对不是任何前沿树对的子图。图3(d)示出一棵最小前沿树对示意图。

根据如上描述从生成的双语压缩共享句法森林中抽取翻译规则：首先获取关于训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合；然后，获取上述每个节点的训练语料的目标语言压缩共享句法森林中的对应节点，并获取关于对应节点的第二前沿树集合，关于每个节点根据上述第一前沿树集合和第二前沿树集合构造前沿树对集合；最后，在前沿树对集合中抽取最小前沿树对，并根据最小前沿树对构建翻译规则。

采用本发明具体实施例的树到树统计机器翻译方法，在3万平行双语语料数据集上，相比于现有的基于树到树翻译模型的统计机器翻译方法，本发明具体实施例所提供的翻译方法的翻译性能高3.6个评测值(简称BLEU)。

最后所应说明的是，本领域的普通技术人员应当理解，对本发明的技术方案进行适应性修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于树到树翻译模型的翻译规则抽取方法，包括下列步骤：

2.根据权利要求1所述的翻译规则抽取方法，其特征在于，所述步骤2)进一步包括：

3.根据权利要求1或2所述的翻译规则抽取方法，其特征在于，

4.一种根据上述权利要求1至3任意一项所述的翻译规则抽取方法所抽取的所述翻译规则基于树到树翻译模型的翻译方法，包括下列步骤：

5.根据权利要求4所述的翻译方法，其特征在于，