CN102662932B

CN102662932B - 构建树结构及基于树结构的机器翻译系统的方法

Info

Publication number: CN102662932B
Application number: CN201210068782.3A
Authority: CN
Inventors: 宗成庆; 翟飞飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Zhongkefan Language Technology Co Ltd
Priority date: 2012-03-15
Filing date: 2012-03-15
Publication date: 2014-05-14
Anticipated expiration: 2032-03-15
Also published as: CN102662932A

Abstract

本发明涉及一种构建树结构及基于相应树结构的机器翻译系统的方法，所述方法包括如下步骤：对所述双语语料中的双语句子对进行分词、词性标注和词对齐；根据所述词对齐的结果，对所述双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的所述双语子句对重新进行词对齐；根据所述双语子句对词对齐的结果，进行子句合并以获得所述双语句子对的词对齐，并为所述双语句子对构造压缩森林；从所述压缩森林中选择适合于机器翻译的树结构。本发明无需任何句法树资源，只要有词性标注资源的语言对，就可以构建基于树结构的翻译系统。

Description

构建树结构及基于树结构的机器翻译系统的方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种构建树结构及基于该树结构的机器翻译系统的方法，特别是利用双语语料进行无监督的树结构推导以构建树结构的方法，以及构建基于该树结构的机器翻译系统的方法。

背景技术

统计机器翻译是一种从平行双语语料库中自动学习翻译规则，并有效利用这些翻译规则对待翻译语句进行自动翻译的技术。统计机器翻译主要包括基于词的模型、基于短语的模型和基于句法分析树结构的模型的翻译系统。其中，基于句法分析树(或称句法树)结构模型的翻译系统是当前机器翻译领域的研究热点。这类模型的翻译系统已经能够取得与短语模型的翻译系统相媲美的翻译质量，有些甚至已经显著地超过了短语模型的翻译系统的性能。

构建基于句法树结构的翻译系统的一般方法是：首先对双语语料进行自动词对齐；然后使用句法分析器对双语句子对的一端(树到串翻译模型、串到树翻译模型)或者两端(树到树翻译模型)进行句法分析，构建句法树；最后利用得到的双语词对齐和句法树，自动抽取翻译规则并用于最终的翻译解码。

然而，在上述过程中，由于自动词对齐和句法分析是分开进行的，就使得双语词对齐和句法树之间产生了巨大的不协调性，即句法分析器只是专注于本身语言的结构合法性，而忽略了词对齐信息和另一端的句子信息；而且由于目前的句法分析器性能和准确度较低，使得大量的分析错误存在于句法树中，导致许多非常有用的翻译规则无法被当前的翻译模型所获取，从而大大降低了翻译规则的覆盖率和最终的翻译质量。

另外，目前的句法分析器一般都需要大量句法树资源的支持，例如宾州树库。但是由于当前人工标注的树库资源十分有限，许多语言对仅仅拥有限定的几个领域的资源，而一旦涉及到其他领域的句子，句法分析器的准确率将大幅降低以至于无法使用。更为严重的是，目前大量的语言对，尤其是小语种，甚至没有对应的句法树资源，这就使得这些语言对根本无法使用这些先进的翻译模型，从而大大限制了这类基于句法树结构的统计机器翻译模型的适用性。

因此，如果能够在不使用任何句法树资源的情况下获取双语句子的树结构，同时考虑双语句子间的对齐信息，用来替代传统的句法分析树结构，并构造一种基于该树结构(非句法分析树结构)的翻译系统，将完全打破句法分析器所带来的缺陷，是一个富有挑战且非常有意义的工作。

发明内容

(一)要解决的技术问题

本发明的解决的技术问题是针对如何有效利用双语语料，在没有任何句法树资源的情况下获取树结构的难题，提出一种利用双语语料进行无监督的树结构推导以构建树结构的方法，以及构建基于该树结构的机器翻译系统的方法，使得在仅仅使用词性标注资源的条件下，能够从双语语料中推导出树结构，并构造基于该树结构的机器翻译系统，提高机器翻译系统的翻译性能并大大扩展其适用性。

(二)技术方案

为了解决上述技术问题，本发明提供一种利用双语语料构建树结构的方法，并将所述树结构用于构建机器翻译系统，所述方法包括如下步骤：对所述双语语料中的双语句子对进行分词、词性标注和词对齐；根据所述词对齐的结果，对所述双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的所述双语子句对重新进行词对齐；根据所述双语子句对词对齐的结果，进行子句合并以获得所述双语句子对的词对齐，并为所述双语句子对构造压缩森林；从所述压缩森林中选择适合于机器翻译的树结构。

根据本发明的优选实施例，当所述双语不包含汉语时，则不进行分词。

根据本发明的优选实施例，对所述双语句子对进行双语切分的方法为：

根据本发明的优选实施例，根据所述词对齐的结果，配对子句必须满足如下规则：A、每个子句的长度大于一个长度阈值；B、双语对齐的子句的长度比小于一个长度比阈值；C、每个子句中，最少有第一百分比的词汇能够对齐到与它配对的子句中；D、从每个子句发出的对齐线中，最多有第二百分比的对齐线(align link)无法对应到与它配对的子句中；E、只在用于断句的标点符号处寻找双语句子对的切分点。

根据本发明的优选实施例，利用所述双语句子对构造压缩森林的步骤包括：构造压缩森林的节点标签；削减与目标语言句子所对应的树结构；根据所述节点标签和与目标语言句子所对应的树结构构造压缩森林。

根据本发明的优选实施例，构造压缩森林的节点标签的步骤包括：把森林中的所有非叶子节点按照所控制的词汇的个数进行分类：I、单词节点，控制句子中的一个词，节点标签即为这个词的词性标注；II、双词节点，控制句子中的两个词，节点标签是这两个词的词性标注的组合；III、多词节点，控制句子中的多个词，节点标签定义为开头和结尾两个词的词性标注的组合。

根据本发明的优选实施例，所述削减与目标语言句子所对应的树结构的搜索空间的步骤包括：只保留所述树结构中边界节点数目最多的路径。

根据本发明的优选实施例，在利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林的步骤中，使用二叉结构构造压缩森林。

根据本发明的优选实施例，从所述压缩森林中选择适合于机器翻译的树结构的步骤包括：利用期望最大化算法并通过概率估计迭代地获取能够更好的解释所述双语语料的树结构。

根据本发明的优选实施例，所述概率估计是通过内外向算法进行的。

本发明还提供一种构建基于树结构的机器翻译系统的方法，其采用如前所述的构建树结构的方法来构建该机器翻译系统的树结构，并基于该树结构构建机器翻译系统。

(三)有益效果

本发明的有益效果是：无需任何句法树资源，只要有词性标注资源的语言对，就可以构建基于树结构的翻译系统，大大扩展了翻译系统的适用性。而且，由于本发明构建的树结构是根据双语句子和词对齐信息构建的，这些树结构与双语词对齐之间有着更好的协调性，大大增加了翻译规则的覆盖率。

附图说明

图1是根据本发明的利用双语语料进行无监督的树结构推导以构建基于该树结构的翻译系统的方法的流程图；

图2是一个示例句子对的双语切分的结果示意图；

图3(a)是一个示例句子的基本树结构示意图，图3(b)是与图3(a)对应生成的最终的压缩森林示意图。

图4是生成压缩森林的一个实例的流程示意图，其中灰色覆盖的节点为边界节点，变量L和F分别表示跨度的长度和当前二叉结构含有的边界节点的数目；

图5(a)和图5(b)分别是根据本发明构建的树结构与传统的句法树结构的一个实例的示意图；图5(c)和图5(d)分别是从图5(a)和图5(b)的句法树结构抽取的串到树翻译规则的示意图，其中灰色覆盖的节点为边界节点。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出了一种利用双语语料进行无监督的树结构推导以构建基于该树结构的翻译系统的方法。图1是根据本发明的方法的流程图。如图1所示，本发明的最终结果是构建基于树结构的翻译系统。本发明首先对双语语料进行自动分词、自动词对齐和自动词性标注。然后，根据自动词对齐的结果，对双语语料进行双语切分，获得一一对齐的子句对，从而可以得到一个由子句组成的句子数目更多但句长更短的双语语料。为了保证后续建立的压缩森林与词对齐之间的协调性，本发明对这个子句双语语料重新进行自动词对齐，并把自动词对齐的结果进行合并得到原始的整句双语语料的最终词对齐结果。之后，通过利用目标语言句子自动词性标注的结果来标注森林节点，本发明根据边界节点假设建立压缩森林。最后，通过利用期望最大化(expectation maximization，EM)算法最大化整个双语语料的似然值，从压缩森林中选择最优的树结构并用于建立串到树翻译系统。

下面我们就以汉-英平行句子对作为一个实施例来详细阐述本发明的原理与实现方法。

1.对双语语料中的双语句子对进行分词、词性标注与词对齐。具体实施方式如下：

对双语句子对中的源语言句子和目标语言句子进行分词，得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语，则不需要进行分词。如果源语言或目标语言中包含汉语，则需要对汉语进行分词。对汉语进行分词的方法有很多种。在本发明的实施例中，以词法分析工具Urheen对汉语进行自动分词。Urheen词法分析工具可以在以下网址免费下载：http://www.openpr.org.cn/index.php/NLP-Toolkit-for-Natural-Language-Processing/。

得到所述的源语言端和目标语言端的分词结果之后，需要对目标语言端的句子进行词性标注，以便于用于标注压缩森林中的节点(这将在后文中描述)。同样地，本发明的实施例中使用词法分析工具Urheen对目标语言端(英语)句子进行自动词性标注。

得到所述的源语言端和目标语言端的分词结果之后，需要对双语句子对进行词对齐。进行词对齐的方法有多种。在本发明的实施例中，使用GIZA++工具对汉-英句子对进行自动词对齐，得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载：http://fjoch.com/GIZA++.html。在使用GIZA++时要选择某个启发式策略来得到对称的词对齐结果，我们选择了grow-diag-final-and策略，因为该启发式策略被许多研究工作证明在中英翻译中是最有效的启发式策略。

2.根据词对齐的结果对双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的双语子句对重新进行自动词对齐。

给定一个三元组(f，e，a)作为输入，其中f代表源语言句子，e代表目标语言句子，a代表词对齐信息。双语切分的目的是为了获取切分后的子句对BSP：

BSP = {f_{{ss}_{1}}^{{ss}_{M}}, e_{{ss}_{1}}^{{ss}_{M}}, α_{1}^{M}}

其中，和分别代表源语言端和目标语言端的子句序列，

代表两端的子句之间的一一对齐信息。

理论上来说，如果

是一个对齐的子句对，那么这个子句对中的所有词汇都不能对应到不属于这个子句对的词汇上。然而，由于对齐错误的存在，我们需要松弛这个严格的限制，而是只遵循以下经验的规则来寻找配对子句：A、每个子句的长度大于一个长度阈值，该长度阈值例如为4；B、双语对齐的子句的长度比小于一个长度比阈值，该长度比阈值例如为1∶3；C、每个子句中，最少有第一百分比的词汇能够对齐到与之配对的子句中，所述第一百分比例如是30％；D、从每个子句发出的对齐线中，最多有第二百分比的对齐线(align link)无法对应到与它配对的子句中，所述第二百分比例如是30％；E、只在用于断句的标点符号处寻找双语句子的切分点，所述标点符号例如是句号、逗号、冒号、分号、问号、感叹号。

根据上述规则，我们遍历所有可能的双语句子对的切分点，并寻找产生了最少错误对齐词的最优切分点。根据这个最优切分点，把双语句子对切分为两个短的子句对。然后，递归地对上述得到的子句对进行再次切分，直到没有切分点为止。经过切分之后，我们得到了若干个对齐的双语子句对，就可以用于进行重新词对齐和压缩森林的构建了。

需要说明的是，切分过程中，我们把涉及到的用于断句的标点符号作为一个子句。如图2所示，示例句子对被本发明所使用的双语切分方法切分为四个子句对。

双语切分的目的是为了削减句子对应的句法树结构的搜索空间，这些经验规则经实验证明十分有效，能够有效的对双语句子进行准确的切分。双语切分之后，原先的双语句子对被切分为几个一一对齐的子句对，这些子句对构成了一个句子数目更多但句长更短的双语语料。为了保证后续建立的压缩森林与词对齐之间的协调性，对这个子句双语语料重新进行自动词对齐。同样地，我们使用所述第1步的方法，即利用GIZA++和grow-diag-final-and策略进行自动词对齐。最终，我们把子句词对齐的结果进行合并得到原始的整句双语语料的最终词对齐结果，以用于压缩森林的构建。

3.利用所述双语句子对构造压缩森林

压缩森林(packed forest)是一种数据结构，它能够通过共享存储的方式在多项式空间内表示指数级的树结构空间，因而能够把成千上万的树结构都压缩到一棵森林里面表示。在本发明中，我们需要把目标语言句子对应的所有可能的树结构都压缩到一棵压缩森林里面，以方便使用期望最大化(expectation maximization，EM)算法选择最优的树结构。然而为了建造压缩森林，我们需要解决两个问题：1)如何为压缩森林的节点构造标签；2)纵使已经进行了双语切分，当某些子句仍然非常长时，目标语言句子所对应的树结构的空间仍然非常巨大，不利于EM算法的执行，因此，进一步削减空间也是一个亟待解决的问题。

3.1构造压缩森林的节点标签

受到文献【Andreas Zollmann and Stephan Vogel，2011.A Word-ClassApproach to Labeling PSCFG Rules for Machine Translation.In Proc.of ACL2011】中使用边界词汇的词类来标注层次短语规则的启发，在本发明中，我们也采用相似的方法来标注压缩森林中的节点。我们把森林中的所有非叶子节点按照所控制的词汇的个数进行分类：I、单词节点，控制句子中的一个词，节点标签即为这个词的词性标注，如“C”；II、双词节点，控制句子中的两个词，节点标签是这两个词的词性标注的组合，如“C1+C2”；III、多词节点，控制句子中的多个词，节点标签定义为开头和结尾两个词的词性标注的组合，例如“C1…Cn”。例如，在图3(b)中，覆盖了短语“we meet again”的森林节点即为一个多词节点，最后被标注为“PRP…RB”。

边界词汇已经被证明能够十分有效地代表整个短语【Deyi Xiong，QunLiu，and Shouxun Lin，2006.Maximum Entropy Based Phrase ReorderingModel for Statistical Machine Translation.In Proc.of COLING-ACL 2006】，我们使用边界词汇的词性标注来构建压缩森林中节点的标签，能够很好地对各种调序操作进行建模。

3.2削减与目标语言句子所对应的树结构的搜索空间

给定一个目标语言句子，如果我们考虑它对应的所有可能的树结构，那么即使使用压缩森林，也是非常庞大并且难以处理的。若一个句子长度为L，那么压缩森林中将包含有0.5L(L+1)个非叶子节点(每个跨度都对应一个节点)。而且，每个控制着m(m＞＝2)个词汇的节点又能够引出m-1条二叉边(binary edge)，总共就有

条边。这样构造的森林将是非常复杂的，特别是对于那些长度很长(超过50个词)的句子。因此，在构造压缩森林之前，我们首先要进行双语切分，把原先较长的句子对切分为多个较短的子句对。如此一来，在构造压缩森林时，就不再为那些横跨切分点的跨度构造节点，大大削减了树结构的搜索空间。例如，在图3(b)中，压缩森林中没有考虑跨度“meet again，but”所对应的节点，因为它不属于任何子句对。

然而，即使进行双语切分之后，树结构的搜索空间依然很大，特别是当切分后的子句仍然非常长时。因此，为了进一步削减空间，在构造压缩森林的过程中，我们遵循边界节点假设：

边界节点假设：树结构中包含的边界节点越多，那么对于机器翻译模型来说这个树结构就越合理。

边界节点是指那些目标语言端的树节点通过词对齐能够对应到源语言端的一个连续的子串。边界节点假设意味着树结构和词对齐越协调，那么这个树结构对于机器翻译模型来说越合理。这个假设是十分有效的，因为在机器翻译模型中，为了获取较高的翻译规则覆盖率，我们倾向于抽取许多规模较小的最小规则(minimal rules)，并通过合并的方式获取较大的复杂规则(composed rules)。最大化边界节点的数目能够达到这个目的【John DeNero and Dan klein.2007.Tailoring Word Alignments to SyntacticMachine Translation.In Proc.of ACL 2007，pages 17-24.】。因此，在构造压缩森林过程中，我们只保留那些边界节点数目最多的路径，从而大大减小了树结构的搜索空间。

3.3利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林

在本发明中，我们构造的压缩森林以二叉结构为基本结构。文献【WeiWang，Kevin Knight，and Daniel Marcu.2007.Binarizing syntax trees toimprove syntax-based machine translation accuracy.In Proc.of the EMNLP2007.】，文献【Hao Zhang，Licheng Fang，Peng Xu，Xiaoyun Wu，2011.Binarized Forest to String Translation.In Proc.ofACL 2011.】和文献【FeifeiZhai，Jiajun Zhang，Yu Zhou and Chengqing Zong.Simple but EffectiveApproaches to Improving Tree-to-Tree Model.2011.MT-Summit-11】已经验证了二叉结构对于基于树结构的机器翻译模型的有效性。因此，在构建压缩森林的过程中，我们直接使用二叉结构(即二叉边，binary edge)作为基本结构，而不使用那些复杂的非二叉结构。

构造压缩森林的基本思想是：首先根据双语切分的结果构造一棵基本树(basic tree)，然后对这棵基本树进行边二叉化，获取二叉压缩森林，边二叉化过程中只保留那些含有最多边界节点的路径。其中，基本树是指，把每个子句规约到一个子句节点，然后把这些子句节点再规约到一个根节点所构成的树结构，图3(a)就是为示例句子构造的一棵基本树。

图4是根据图3(a)中的基本树(basic tree)生成压缩森林的一个实例的流程示意图，图4中灰色部分覆盖的节点为边界节点，变量L和F分别表示跨度的长度和当前二叉结构含有的边界节点的数目。边二叉化是指把一条非二叉边(non-binary edge)转换为由多条新产生的二叉边(binary edge)组成的结构的过程。以图3(a)中的节点NN…RB所覆盖的子句“Todaywe meet again”为例，图4为对节点NN…RB所引出的边进行边二叉化的过程。为了进行边二叉化，我们自底向上不断地为每个跨度创建新的节点直到到达最终的节点，此处即为NN…RB。此处的跨度指的是以当前处理的边的子结点为基础的跨度，例如，在此例中，跨度【0，2】指的就是节点序列“NN PRP”。同时，在这个过程中，只保留那些包含最多边界节点的路径。例如，在图4中，跨度【1，4】可以由跨度【1，2】和跨度【2，4】合并得来，也可以由跨度【1，3】和跨度【3，4】合并得到。然而，由跨度【1，3】和跨度【3，4】构造的路径只包含4个边界节点(三个单词节点和跨度【1，4】对应的节点PRP…RB)，而包含跨度【1，2】和跨度【2，4】的路径则含有5个边界节点(三个单词节点，跨度【2，4】对应的节点VBP+RB和跨度【1，4】对应的节点PRP…RB)。因此，根据边界节点假设，我们只保留含有最多边界节点的路径，即由跨度【1，2】和跨度【2，4】构成的路径。图3(b)即为示例句子所得到的最终的二叉压缩森林。如图所示，所有为子句“Today we meet again”保留下来的树结构都含有最多的7个边界节点。需要说明的是，图4仅仅是一个图解过程，实际上，整个操作过程的目的是生成一棵压缩森林，而不是许多棵树。

4.从所述压缩森林中选择适合于机器翻译的树结构。

利用EM算法选择最优的树结构，这些树结构能够很好的解释整个双语语料，并可以用于构造基于树结构的机器翻译系统。

给定一个双语语料库，以及它的目标语言句子所对应的压缩森林，我们的目的是得到一系列的树结构(t_e1 t_e2…t_en)，来最大化整个语料库(t_e，f，a)的似然值，其中t_e代表目标语言端的树结构，f指的是源语言端的训练句子，而a是指二者之间的词对齐关系：

{(t_{e 1} t_{e 2} . . . t_{en})}^{*} = \underset{(t_{e 1} t_{e 2} . . . t_{en})}{\arg \max} Π_{i = 1}^{n} p (t_{ei}, f_{i}, a_{i})

三元组(t_ei，f_i，a_i)的概率可以通过合并所有推导D中的每个推导d所包含的翻译规则的概率得到：

p (t_{ei}, f_{i}, a_{i}) = \underset{D}{Σ} \underset{r &Element; d}{Π} p (r)

为了获取所有可能的推导，在本发明中，我们使用文献【Haitao Mi，Liang Huang and Qun Liu，2008.Forest-based translation.In Proc.ofACL-2008.】中描述的转换算法，把我们的二叉压缩森林转换为同步推导森林(synchronous derivation forests)。为了降低推导森林的复杂度，我们仅仅使用最小规则，所使用的算法为文献【Michel Galley，Mark Hopkins，Kevin Knight and Daniel Marcu，2004.What’s in a translation rule.In Proc.ofHLT-NAACL 2004，pages 273-280.】和文献【Haitao Mi and Liang Huang，2008.Forest-based Translation Rule Extraction.In Proc.of EMNLP 2008，pages 206-214.】中描述的最小规则抽取算法。

利用同步推导森林，我们使用文献【Jonathan Graehl and Kevin Knight.2004.Training Tree Transducers.In Proceedings of NAACL-HLT 2004.】中介绍的内外向算法(inside-outside algorithm)来估计翻译规则的概率。此处，我们使用leaf(r)和root(r)分别表示翻译规则r的树片段的边界节点和头节点。那么，推导森林中节点N的内外向概率即为：

p_{IN} (N) = \underset{r &Element; R (N)}{Σ} [p (r) \times \underset{N_{l} &Element; leaf (r)}{Π} p_{IN} (N_{l})]

p_{OUT} (N) = \underset{r : N &Element; leaf (r)}{Σ} [p (r) \times p_{OUT} (root (r)) \times \underset{N_{l} &Element; leaf (r) - {N}}{Π} p_{IN} (N_{l})]

其中，R(N)代表节点N处能够匹配的翻译规则集合。

在求期望阶段(expectation step)，在一棵推导森林中，规则r的一个实例对应的期望次数为：

p {(r)}^{*} p_{OUT} {(root (r))}^{*} \underset{N_{l} &Element; leaf (r)}{Π} p_{IN} (N_{l})

在最大化阶段(maximization step)，我们使用规则的期望次数c(r)来更新规则的概率：

p (r) = \frac{c (r)}{\underset{r_{a} : root (r_{a}) = root (r)}{Σ} c (r_{a})}

本发明的实验中进行了20次EM算法迭代，之后我们遍历同步推导森林，并获取最优推导d^*和它对应的最优树结构。然后，这些树结构就可以用于构造任意的基于树结构的机器翻译系统。

5.实验设置

虽然本发明的一个优势是大大扩展了基于树结构的机器翻译系统的适应性，使之能够在任意的语言对上使用。但在我们进行的实验中，我们使用中英翻译，目的是通过与基于传统句法树结构的机器翻译系统进行比较，以验证本发明的无监督的树结构推导方法的有效性。实验中使用语言数据联盟(Linguistic Data Consortium)发布的新闻汉英双语语料库(FBIS)作为训练语料，其中，中文部分包含约7,100,000个词语，英文部分包含约9,200,000单词。

我们使用国际机器翻译评测(NIST MT Evaluation)中从2003年至2005年的所有测试集MT03-MT05作为开发集和测试集。其中MT03作为我们的开发集，用来优化机器翻译系统中各个翻译特征的权重。测试集包括MT04和MT05。

在目标语言模型的训练中，我们采用开源的SRILM语言模型训练工具。除了用双语训练数据的目标语言部分外，还加入了英语Gigaword语料中Xinhua部分约181,1000,000个单词，最终训练了一个5元语法的语言模型。SRILM语言模型训练工具可从下面的网站免费下载：

http://www-speech.sri.com/projects/srilm/download.html。

我们的基线对比系统是基于传统句法树的串到树翻译系统。首先我们根据文献【Michel Gally，Jonathan Graehl，Kevin Knight，Daniel Marcu，SteveDeNeefe，Wei Wang and Ignacio Thayer，2006.Scalable inference and trainingof context-rich syntactic translation models.In Proc.of ACL-COLING 2006.】和【Daniel Marcu，Wei Wang，Abdessamad Echihabi and Kevin Knight，2006.SPMT：Statistical machine translation with syntactified target language phrases.In Proc.of EMNLP 2006，pages 44-52.】实现了基于串到树模型的翻译系统。目标端的句法树由Berkeley句法分析器获得。Berkeley句法分析器是一种常用的开源句法分析工具，而且是当前最好的句法分析器之一。Berkeley句法分析器可以从以下的网址免费下载：http://code.google.com/p/berkeleyparser/。

我们还使用头二叉化(head binarization)【Wei Wang，Kevin Knight，andDaniel Marcu.2007.Binarizing syntax trees to improve syntax-based machinetranslation accuracy.In Proc.of the EMNLP 2007.】的方法对句法树进行了二叉化，获取了基于二叉化后的传统句法树的串到树翻译系统作为另一个基线对比系统。

另外，我们还使用了开源的基于层次短语模型的翻译系统Joshua【Zhifei Li，Chris Callison-Burch，Chris Dyer，Juri Ganitkevitch，SanjeevKhudanpur，Lane Schwartz，Wren N.G.Thornton，Jonathan Weese and Omar F.Zaidan，2009.Joshua：An open source toolkit for parsing-based machinetranslation.In Proc.of ACL 2009，pages 135-139.】作为对比系统，因为基于层次短语模型的翻译系统是被广泛公认的当前最好的翻译系统之一。

在对比实验中，我们使用大小写不敏感的BLEU-4【Papineni，Kishore.，Roukos，Salim，Ward，Todd，and Zhu Wei-Jing.2002.BLEU：a method forautomatic evaluation of machine translation.In Proc.of ACL.】作为评测指标。最后我们采用文献【Philipp Koehn，2004.Statistical significance tests formachine translation evaluation.In Proc.of EMNLP 2004，pages 388-395.】中介绍的重采样方法比较两个翻译系统间翻译质量的显著性差异。

6.实验结果

附表1给出了不同的翻译系统在测试集上的表现。首先，从表中我们可以看到，基于串到树模型的翻译系统s2t在每个测试集上都统计显著地好于基于层次短语模型的翻译系统Joshua，这充分的表明串到树模型的优越性，同时也说明我们重新实现的串到树翻译系统是正确的，用来作为我们的基线对比系统是可靠的。

附表1：层次短语翻译系统Joshua，基于传统句法树的串到树翻译系统s2t，基于二叉化后的传统句法树的串到树翻译系统s2t-hb，利用本发明所构建的树结构所构造的串到树翻译系统s2t-IT在测试集上的BLUE分值。其中，re-align指的是使用对生成的子句对进行重新词对齐并合并得到的词对齐构造的翻译系统。*/#分别表示在p＝0.01的水平上统计显著地好于与它紧邻的上面的翻译系统和所有的翻译系统。

附表1还验证了二叉化结构的有效性。因为无论是否进行重新词对齐，头二叉化的方法总是能够帮助改善s2t翻译系统的翻译质量。在所有的翻译系统中，本发明的方法构建的树结构所构造的串到树翻译系统s2t-IT获得了最好的翻译表现。在MT04和MT05测试集上，它比最好的基于传统句法树的翻译系统分别提高了0.98和1.3BLEU值。而且，即使使用了头二叉化的方法，基于传统句法树的串到树翻译系统的翻译质量仍然不如s2t-IT翻译系统。在合并的测试集上，s2t-IT翻译系统比最好的s2t-hb翻译系统提高了0.61个BLEU值。

图5(a)和图5(b)分别是根据本发明构建的树结构与传统的句法树结构的一个实例的示意图；图5(c)和图5(d)分别是从图5(a)和图5(b)的树结构抽取的串到树翻译规则的示意图。我们可以看到，本发明构建的树结构携带了更多的边界节点，因此就能够被拆分为更多更小的子结构。也就是说，使用本发明构建的树结构，抽取的翻译规则更小，适应性和普遍性更强。例如，在图5中，翻译规则(c)和(d)是从两个结构中分别抽取的用于翻译汉语短语“有利于”的翻译规则。显然地，翻译规则(c)所含节点数目更少，而且可以不受任何限制的使用。而翻译规则(d)则不行，因为它要求在短语“is conducive to”后面的翻译结果必须能够规约为一个标签为“S”的节点。另外，使用这些小的最小规则(minimal rules)，通过合并的方式，我们可以获取许多大的包含了上下文信息的复杂规则(composed rules)。因此，本发明所构建的树结构既有利于抽取那些足够具体的翻译规则，又利于抽取那些足够普适的翻译规则，从而能够获取更高的翻译规则覆盖率和更好的翻译质量。

附表2：不同的串到树翻译系统的平均节点数目和文法规模

为了验证上述分析，附表2提供了不同的串到树翻译系统的文法规模和每棵树所含有的平均边界节点数目。从表中我们可以看到，头二叉化的方法能够帮助基于传统句法树的翻译系统获取更多的边界节点，因而提高了翻译质量。同时，使用本发明构建的树结构所构造的s2t-IT翻译系统，平均每棵树结构含有47.4个边界节点。然而，传统句法树构造的翻译系统仅仅为33.9个边界节点。这说明本发明构建的树结构与词对齐更为协调兼容，也就更有利于抽取更多有效的翻译规则。正如表中所示，s2t-IT翻译系统共获取了5190万条翻译规则，而基于传统句法树的翻译系统仅仅为1550万条翻译规则。

附表3本发明所构建的树结构中经常出现的节点标签的比例

另一个需要探讨的问题就是本发明所构建的树结构中使用的节点标签的数目。据统计，在最终推导得到的树结构中，总共有2862个标签用于标注非叶子节点。这么多的节点标签是否会引起数据稀疏问题呢？附表3详细的回答了这个问题。在附表3中，例如，第2行指的是：最频繁的143个标签(占总标签数量的5％)被用于标注了76.5％的边界节点和82.4％的句法树节点。正如附表3所示，87％的边界节点和90.3％的树节点是由最为频繁的286个节点标签(占总标签数量的10％)标注的。这表明，大部分的翻译规则是由这些翻译规则组成的。与传统句法树中所使用的70个标签(44个词性标签，21个短语标签和5个子句标签)相比较，本发明所使用的标签既足够具体以区分不同的翻译规则，又足够普适从而避免了数据稀疏问题。

由于本发明的方法不是针对两种特定的语言而提出的，所以本发明的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行了实验，但本发明同时也适用于其它语言对，特别是那些没有任何句法树资源的语言对。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用双语语料构建树结构的方法，所述树结构用于构建机器翻译系统，其特征在于，所述方法包括如下步骤：

对所述双语语料中的双语句子对进行分词、词性标注和词对齐；

根据所述词对齐的结果，对所述双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的所述双语子句对重新进行词对齐；

根据所述双语子句对词对齐的结果，进行子句合并以获得所述双语句子对的词对齐，并构造压缩森林的节点标签，削减与目标语言句子所对应的树结构空间，以及利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林；

从所述压缩森林中选择适合于机器翻译的树结构。

2.如权利要求1所述的利用双语语料构建树结构的方法，其特征在于，当所述语言对不包含汉语时，则不进行分词。

3.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，对所述双语句子对进行双语切分的方法为：

根据所述词对齐的结果，配对子句必须满足如下规则：

A、每个子句的长度大于一个长度阈值；

B、双语对齐的子句的长度比小于一个长度比阈值；

C、每个子句中，最少有第一百分比的词汇能够对齐到与它配对的子句中；

D、从每个子句发出的对齐线中，最多有第二百分比的对齐线(alignlink)无法对应到与它配对的子句中；

E、只在用于断句的标点符号处寻找双语句子对的切分点。

4.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，构造压缩森林的节点标签的步骤包括：

把森林中的非叶子节点按照所控制的词汇的个数进行分类：

I、单词节点，控制句子中的一个词，节点标签即为这个词的词性标注；

II、双词节点，控制句子中的两个词，节点标签是这两个词的词性标注的组合；

III、多词节点，控制句子中的多个词，节点标签定义为开头和结尾两个词的词性标注的组合。

5.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，所述削减与目标语言句子所对应的树结构的搜索空间的步骤包括：

只保留边界节点数目最多的树结构。

6.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，在利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林的步骤中，使用二叉结构构造压缩森林。

7.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，从所述压缩森林中选择适合于机器翻译的树结构的步骤包括：

利用期望最大化算法并获取能够更好的解释所述双语语料的树结构。

8.如权利要求7所述的利用双语语料构建树结构的方法，其特征在于，在期望最大化算法中，概率估计是通过内外向算法进行的。

9.一种构建基于树结构的机器翻译系统的方法，其特征在于，采用如权利要求1至8中任一项所述的构建树结构的方法来构建该机器翻译系统的树结构，并基于该树结构构建基于树结构的机器翻译系统。