CN102117270A

CN102117270A - 一种基于模糊树到精确树的统计机器翻译方法

Info

Publication number: CN102117270A
Application number: CN2011100772821A
Authority: CN
Inventors: 宗成庆; 张家俊
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-03-29
Filing date: 2011-03-29
Publication date: 2011-07-06
Anticipated expiration: 2031-03-29
Also published as: CN102117270B

Abstract

本发明是一种基于模糊树到精确树的统计机器翻译方法，本发明是一种在串到树翻译模型的基础上充分且恰当地利用源语言端句法结构知识提高统计机器翻译译文质量的方法，步骤1：对双语句对进行分词、自动词对齐和句法分析；步骤2：从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。步骤3：对抽取出的翻译规则进行概率估计，并训练目标端的语言模型；步骤4：设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则，并估计其匹配概率；步骤5：设计翻译模型的优化目标，并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。在国际机器翻译评测中文到英文的翻译任务上验证了本发明的有效性。

Description

一种基于模糊树到精确树的统计机器翻译方法

技术领域

本发明涉及自然语言处理技术领域，是一种新颖的基于模糊树到精确树的统计机器翻译方法。

背景技术

统计机器翻译就是一种利用统计的方法从平行的双语语料库中自动学习出翻译规则，并有效利用这些规则对测试语句进行自动翻译的技术。在统计机器翻译经历了基于词的、基于短语的翻译模型后，基于句法结构的翻译模型成为当前的研究热点，其中基于串到树模型(源语言端是串，目标语言端是句法树)的翻译系统在2009年国际机器翻译评测中取得了最好的成绩，并显著超越了非常流行的基于短语的翻译系统。基于串到树的翻译模型是当前最好的统计机器翻译模型之一。图1示出一个基于串到树翻译模型的例子，例子中所使用的9条规则r1-r9如下所示：每条规则中箭头的左部表示源语言的单词串或者变量序列，箭头表示翻译方向，箭头右部表示目标语言的单词串或者变量序列以及单词串或变量序列所对应的句法标记。标记NP表示名词短语，标记CC表示连词，标记IN表示介词，标记VP表示动词短语，标记PP表示介词短语，标记S表示一个句子。r1表示中文单词“海珊”翻译成英文名词短语“hessein”；r2表示中文单词“和”翻译成英文的连词“and”；r3表示中文单词“和”翻译成英文的介词“with”；r4表示中文的词串“恐怖组织网”翻译成英文的名词短语“terrorist networks”；r5表示中文的词串“建立了联系”翻译成英文的动词短语“established relations”；r6-r9表示合并规则，r6表示如果在翻译过程中我们已经利用三条规则(譬如r1，r2和r4)分别将源语言相邻的三个词串翻译成了目标语言的名词短语(x0：NP)、连词(x1：CC)以及名词短语(x2：NP)，现在可以利用规则r6将这三个独立的翻译合并成一个目标译文，并且这个目标译文的句法标记为名词短语NP；r7表示在翻译过程中如果源语言端连续的两个词串翻译成目标语言的名词短语(x0：NP)和动词短语(x1：VP)，r7便可顺序合并这个相邻词串的翻译得到目标译文，并且这个目标译文的句法标记是句子S；r8与r7类似都是顺序合并两个相邻词串的翻译；r9表示在翻译过程中源语言端的第一个词串x1翻译成了目标语言的介词短语(x1：PP)，第二个词串x0翻译成了目标语言的动词短语(x0：VP)，r9便在合并这两个相邻词串的翻译时交换目标译文的位置，也即将表示介词短语的目标译文移至表示动词短语的目标译文后面。

规则集：r1：海珊→NP(hessein) r2：和→CC(and)

r3：和→IN(with)

r4：恐怖组织网→NP(terrorist networks)

r5：建立了联系→VP(established relations)

r6：x0 x1 x2→NP(x0：NP x1：CC x2：NP)

r7：x0 x1→S(x0：NP x1：VP)

r8：x0 x1→PP(x0：IN x1：NP)

r9：x1 x0→VP(x0：VP x1：PP)

测试语句：海珊和恐怖组织网建立了联系，

串到树翻译系统首先利用规则r1，r2，r4与r5将源语言的串转换为目标语言的句法节点：NP，CC，NP与VP；然后利用规则r6将前三个句法节点合并成一个句法节点NP，最后利用规则r7将最新得到的NP节点与前面的VP节点合并得到一颗完整的目标语言句法树。我们将获得的目标语言句法树中的表示终结符的叶节点拼接起来，便得到最终的目标翻译：hessein and terrorist networks established relations。

由于串到树模型在翻译过程中以建立目标语言句法树为目标，因此得到的目标翻译串非常符合目标语言的句法结构，使得目标语言显得比较通顺流畅。

然而，该翻译模型没有利用任何源语言端的句法知识，导致该系统在翻译中无法处理一些歧义性规则。譬如在上面的规则集中，r2将中文的“和”翻译成目标语言的连词“and”；而r3将“和”翻译成目标语言的介词“with”。从我们的训练语料抽取的规则中，我们发现r2的出现频率要远远高于r3，这就导致串到树模型在翻译过程中更偏向使用r2将“和”翻译为连词“and”。虽然，在上面给出的测试例子中，“和”在中文端是介词，翻译为目标端的介词更合适。如果有效利用“和”是介词这个信息，当重新翻译测试用例时，我们应该使用规则r1，r3，r4与r5将源语言的串转换为目标语言的句法节点：NP，IN，NP与VP；然后利用规则r8将节点IN与其后面的NP合并为PP节点，我们再利用规则r9将PP节点与VP节点合并为一个新的VP节点，最后采用规则r7形成最终的目标语言句法树。利用这一组规则，我们便能得到更准确的目标翻译：hessein established relations with terrorist networks。因此，我们看到在充分利用目标语言句法树的基础上，若能恰当且有效地利用源语言端的句法知识，基于句法结构的统计机器翻译的译文质量必然将会有更进一步的提高。

近几年来，许多研究者对如何利用双语语言的句法树知识进行翻译建模做了大量的研究。有学者曾提出树到树的翻译模型【Jason Eisner，2003.Learning non-isomorphic tree mappings for machinetranslation.In Proc.of ACL 2003，pages 205-208.】该方法从双语的句法树中抽取出对齐的子树对，测试时在源语言端的句法树中自顶向下地寻找匹配的规则，然后对目标端子树进行拼接，形成最终的目标翻译。基于树到树模型的实验证明，该方法甚至无法达到基于短语翻译模型的效果【Brooke Cowan，Ivona Kucerova and Michael Collins，2006.A discriminative model for tree-to-tree translation.In Proc.ofEMNLP，pages 232-241.】于是有学者认识到树到树翻译模型表现不好的原因之一是源语言端与目标语言端都采用的是1-best句法分析树，导致数据稀疏问题非常严重，便提出基于树序列到树序列的翻译模型【MinZhang，Hongfei Jiang，Aiti Aw，Haizhou Li，Chew Lim Tan and ShengLi，2008.A Tree Sequence Alignment-based Tree-to-TreeTranslation Model.In Proc.of ACL 2008，pages 559-567.】以及基于压缩森林的树到树翻译模型(源端与目标短都采用一个句法共享森林代替1-best句法分析树)【Yang Liu，Yajuan Lv and Qun Liu，2009.Improving tree-to-tree translation with packed forests.In Proc.of ACL-IJCNLP 2009，pages 558-566.】虽然改进后的树到树翻译模型相对于原先模型有了明显的提高，但是即使利用了两端的句法森林，该翻译模型仍然无法显著地超越基于短语的翻译模型，更无法与源端没有利用任何句法信息的串到树模型相比。有学者提出树到树模型表现不好的最大原因是在规则抽取和利用规则解码阶段对双语两端都要求精确句法树的约束太严格，容易导致在规则抽取时忽略了大量非常有用的规则以及在解码时无法找到匹配规则的情形。因此，如何在串到树翻译模型的基础上，恰当地利用源语言端的句法知识进一步提高翻译质量是一个富有挑战但非常有意义的任务。

发明内容

针对如何有效利用双语句法知识提高翻译质量的难题，本发明的目的是提出一种模糊树到精确树的翻译模型，使得在完全利用目标语言句法树的基础上充分挖掘并有效利用源语言端的句法知识，从而进一步提高当前统计机器翻译的最佳性能。

为了实现所述目的，本发明提供一种基于模糊树到精确树的统计机器翻译方法，所述方法的实现步骤如下：

步骤1：对双语句对进行分词、自动词对齐和句法分析；

步骤2：从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则。

步骤3：对抽取出模糊树到精确树翻译规则进行概率估计，并训练目标端的语言模型；

步骤4：设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则，并估计其匹配概率；

步骤5：设计翻译模型的优化目标，并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。

本发明的有益效果：由于句法结构是对语言中超越字串层面的更深层的理解，在高效利用目标语言端句法结构的串到树模型达到当前统计机器翻译的最好水平的基础上恰当地利用源语言端的句法结构必能进一步提高统计机器翻译的最高水平。本发明能够利用源语言端的句法结构与模糊树到精确树翻译规则的模糊匹配使得翻译过程偏向于在符合目标语言端句法结构的同时使用更尊重源语言端句法结构的规则。我们在国际机器翻译评测(NIST MT Evaluation)中英任务上进行了实验。利用本发明中的任何一种模糊匹配算法，我们的翻译系统都统计显著地超越了当前最好的串到树翻译系统。尤其是采用句法结构相似度匹配的算法相比于串到树模型的翻译系统平均提高了1.05个BLUE值。这充分证明了基于模糊树到精确树模型的翻译系统的有效性和优越性。

附图说明

图1是串到树模型与本发明的模糊树到精确树模型的一个对比翻译实例；

图2a、图2b和图2c是模糊树到精确树翻译规则与串到树翻译规则以及树到树翻译规则的相互关系的一个实例；

图3是串到树翻译规则抽取以及本发明的模糊树到精确树翻译规则抽取的一个实例；

图4是本发明的模糊树到精确树翻译系统的整体的实现流程。

具体实施方式

下面结合附图对本发明作具体说明。应该指出，所描述的实例仅仅视为说明的目的，而不是对本发明的限制。

本发明所有代码实现都是用C++编程语言完成，开发平台是Ubuntu Linux 8.04。由于所写程序没有用到任何平台相关的代码，因此所述的系统实现也可以运行于Windows操作系统上。

本发明的基本思想是恰当地利用源语言端的句法知识，提出一种基于模糊树到精确树的翻译模型，以提高统计机器翻译的译文质量。例如，图1给出了串到树翻译模型与本发明的模糊树到精确树翻译模型的一个对比翻译实例(图1中上端的源语言中文端是串，下端的目标语言英文端是树)：实线箭头表示了串到树模型的翻译过程，虚线箭头表示了模糊树到精确树的翻译过程。

由于串到树模型没有利用任何源语言端的句法信息，而规则r2在训练语料中出现的次数要远大于规则r3在训练语料中出现的次数，因此在绝大多数情形下不管源语言端的“和”是介词还是连词，串到树模型都偏向于选择规则r2将“和”翻译为连词，导致实线所示的翻译过程得到了不理想的目标翻译结果。若我们能够恰当地利用源语言端的句法信息，知道在该测试语句中，“和”是介词，通过将这种句法知识转化为概率，使得我们在翻译时偏向于选择规则r3将表示介词的“和”翻译为目标端的介词“with”，从而得到理想的翻译结果。一种直接利用方式就是要求源语言端也是精确的句法结构树，然后在翻译源语言句子时，首先得到句法分析树，然后以自顶向下的方式在句法分析树中查找与句法子树完全匹配的树到树的规则，我们称之为硬性匹配。多项研究工作表明这种方式既不能提高串到树翻译模型的性能，而且都无法超越基于短语的翻译模型。因此，我们不能直接利用源语言端的句法结构进行硬性匹配，而应该寻找一种更恰当更有效地方式利用源语言端的句法知识。

本发明提出基于模糊树到精确树模型的翻译方法。本发明方法的框架结构如图4所示。下面我们以汉-英平行句对作为实施例来详细阐述本发明的原理与实现方法。

1.对双语句对进行自动分词、自动词对齐与自动句法分析。具体实施方式如下：

对双语句对中的源语言和目标语言句子进行自动分词，得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语，则不需要进行分词。如果源语言或目标语言中包含汉语，则需要用对汉语进行分词。对汉语进行分词的方法有很多种。在本发明的实施例中我们以开源的中文分词工具ICTCLAS对汉语进行分词。ICTCLAS中文分词工具一个常用的开源中文分词工具。ICTCLAS中文分词工具可以在以下网址免费下载：

http://ictclas.org/ictclas_download.asp

得到所述的源语言端和目标语言端的分词结果之后，需要对双语句对自动进行词对齐。自动进行词对齐的方法有多种。在本发明的实施例中我们使用GIZA++工具对汉-英句对进行词对齐，得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载http://fjoch.com/GIZA++.html。在使用GIZA++时要选择某个启发式策略来得到对称的词对齐结果，我们选择了grow-diag-final策略，因为该启发式策略被许多研究工作证明在中英翻译中是最有效的启发式规则。

得到所述的源语言端与目标语言端的分词结果之后，我们需要对双语句子进行句法分析。自动句法分析的方法有多种。在本发明的实施例中我们使用Berkeley句法分析器对双语句子进行句法分析。Berkeley句法分析器是一种常用的开源句法分析工具，而且是当前最好的句法分析器之一。Berkeley句法分析器可以从以下的网址免费下载：

http://code.google.com/p/berkeleyparser/。

2.针对所述步骤1中得到的词对齐的双语句法分析树对，自动从中抽取出模糊树到精确树翻译规则；具体实施方式如下：

如图4所示是本发明的模糊树到精确树翻译系统的整体的实现流程，针对所述步骤1中所得到的词对齐的双语句法树对，我们需要设计算法从中抽取出模糊树到精确树翻译规则。

图2a，图2b和图2c是模糊树到精确树翻译规则与串到树翻译规则以及树到树翻译规则的相互关系的一个实例。

如图2b对应模糊树到精确树翻译规则：

和{P，C C}→IN(with)

这个规则表示不管源语言端中文单词“和”分析成介词P还是连词CC，我们在翻译中都可以使用这条规则将“和”翻译为英文的介词“with”；但是我们的方法会对“和”的不同分析结果(介词P或者连词CC)时使用这条规则赋予一个匹配概率，可能介词P的匹配概率要更大一些。

图2a对应树到树翻译规则：

第一条规则表示只有在中文单词“和”分析成介词P时，才能使用这条规则将“和”翻译为英文的介词“with”，若“和”分析成连词或其他则不能使用该规则；第二条规则表示只有在中文单词“和”分析成连词CC时，才能使用这条规则将“和”翻译为英文的介词“with”，其他情形都不能使用该规则。

图2c对应串到树翻译规则：

和→IN(with)

这条规则表示中文单词“和”在任何情形下都可使用该规则将“和”翻译为英文介词“with”，所以不管“和”分析成什么样的句法结果，都等同对待，虽然在直觉上，当“和”为介词P时这条规则的使用概率应该更高。

如上所述，一方面，模糊树到精确树翻译规则可以看作树到树翻译规则的退化，也即所有只是源语言端句法标记不同的树到树翻译规则合并成为一条模糊树到精确树翻译规则，譬如将图2b中的两条规则的源语言端“和”的句法标记P和CC合并，便得到图2a中的模糊树到精确树翻译规则；另一方面，模糊树到精确树翻译规则也可以看作串到树翻译规则的句法加强形式，也即在串到树翻译规则的源语言端添加上相应的句法结构信息，譬如给图2c中的源语言端“和”加上它在训练数据中出现过的句法标记P和CC，便可得到图2a中的模糊树到精确树翻译规则。在本发明中，我们采用第二种路线，即由串到树翻译规则转换成模糊树到精确树翻译规则。因此在该步骤中，我们需要子步骤的操作：

步骤21：在词对齐的双语句法树对中抽取串到树翻译规则；

步骤22：利用范畴语法(categorial grammar)的形式为每一条抽取出的串到树翻译规则的源语言端从源语言句法树中计算并生成一个相应的句法结构表示；

步骤23：将计算出的句法结构表示赋予串到树翻译规则的源语言端，从而形成一个模糊树到精确树翻译规则。

针对子步骤1，本发明根据文献【Michel Gally，Jonathan 6raehl，Kevin Knight，Daniel Marcu，Steve DeNeefe，Wei Wang and IgnacioThayer，2006.Scalable inference and training of context-richsyntactic translation models.In Proc.of ACL-COLIN62006.】以及【Daniel Marcu，Wei Wang，Abdessamad Echihabi and Kevin Knight，2006.SPMT：Statistical machine translation with syntactifiedtarget language phrases.In Proc.of EMNLP 2006，pages 44-52.】所描述的算法，我们实现了串到树翻译规则的抽取模块。所述的串到树翻译规则抽取模块以源语言句子f，目标语言句法树e_t以及词对齐a作为输入，输出串到树翻译规则集合。所述串到树翻译规则的抽取首先计算目标语言句法树中每个节点n的对齐跨度span(n)以及互补对齐跨度complement_span(n)。对齐跨度span(n)就是与节点n所管辖的目标语言词串对齐的源语言词集合在源语言中的范围，譬如span(n)＝(1，3)。互补对齐跨度complement_span(n)就是目标语言句法树中除节点n以及其子孙节点、祖先节点外的所有节点的对齐跨度的并集。若节点n满足以下的约束，则称节点n为边界节点(frontier)：

span(n)∩complement_span(n)＝φ

图3是串到树翻译规则抽取以及本发明的模糊树到精确树翻译规则抽取的一个实例。

所述句法树对中的中文句子是“我乐意和他们讨论此事”，所述中文句子中每个词语的词性分别为(我，PN)，(乐意，AD)，(和，P)，(他们，PN)，(讨论，VV)与(此事，NN)。(讨论，VV)的上层节点为VP形成句法结构VP(VV(讨论))；(此事，NN)上层节点为NP形成句法结构NP(NN(此事))；句法结构VP(VV(讨论))与句法结构NP(NN(此事))的上层节点为VP并形成句法子树VP(VP(VV(讨论))，NP(NN(此事)))。(他们，PN)的上层节点是NP形成句法结构NP(PN(他们))；句法结构(和，P)与句法结构NP(PN(他们))的上层节点为PP并成型句法子树PP(P(和)，NP(PN(他们)))。(乐意，AD)的上层节点是ADJP形成句法结构ADJP(AD(乐意))；三个句法结构ADJP(AD(乐意))，PP(P(和)，NP(PN(他们)))与VP(VP(VV(讨论))，NP(NN(此事)))的上层节点是VP并形成句法子树VP(ADJP(AD(乐意))，PP(P(和)，NP(PN(他们)))，VP(VP(VV(讨论))，NP(NN(此事))))。(我，PN)的上层节点是NP形成句法结构NP(PN(我))；两个句法结构NP(PN(我))与VP(ADJP(AD(乐意))，PP(P(和)，NP(PN(他们)))，VP(VP(VV(讨论))，NP(NN(此事))))的上层点点是IP形成整棵中文端句法树。

所述句法树对中的英文句子是“i am happy to discuss the matterwith them”；所述英文句子中每个单词的词性分别为(i，FW)，(am，VBP)，(happy，JJ)，(to，TO)，(discuss，VB)，(the，DT)，(matter，NN)，(with，IN)与(them，NP)。(with，IN)与(them，NP)的上层节点是PP并形成句法子树PP(IN(with)，NP(them))。(the，DT)与(matter，NN)的上层节点是NP并形成句法子树NP(DT(the)，NN(matter))。三个句法结构(discuss，VB)，NP(DT(the)，NN(matter))与PP(IN(with)，NP(them))的上层句法节点是VP并形成句法子树VP(VB(discuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them)))。两个句法结构(to，TO)与VP(VB(discuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them)))的上层句法节点是VP并形成句法子树VP(TO(to)，VP(VB(discuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them))))。两个句法结构(happy，JJ)与VP(TO(to)，VP(VB(discuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them))))的上层句法节点是ADJP并形成句法子树ADJP(JJ(happy)，VP(TO(to)，VP(VB(di scuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them)))))。两个句法结构(am，VBP)与ADJP(JJ(happy)，VP(TO(to)，VP(VB(di scuss)，NP(DT(the)，NN(matt er))，PP(IN(with)，NP(them)))))的上层句法节点是VP并形成句法子树VP(VBP(am)，ADJP(JJ(happy)，VP(TO(to)，VP(VB(discuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them))))))。(i，FW)的上层节点是NP并形成句法子树NP(FW(i))；两个句法结构NP(FW(i))与VP(VBP(am)，ADJP(JJ(happy)，VP(TO(to)，VP(VB(discuss)，NP(DT(the)，NN(matter))，PP(IN(with)，NP(them))))))的上层节点是S并形成整棵英文端句法树。

所述词语对齐包括(我，i)，(乐意，happy)，(和，with)，(他们，them)，(讨论，discuss)，(此事，the)与(此事，matter)。

图3所示的目标语言(英文)的句法树中带斜体黑体的节点都是边界节点。所述串到树翻译规则的抽取从目标语言句法树的根节点开始深度优先遍历，当遇到每一个边界节点时，以该边界节点为根节点，遍历其子树使得其子树的每个叶节点要么是边界节点要么是目标语言词语，以该子树为目标语言端，以跟其对齐的源语言端的词串与变量作为源语言端构成一条串到树翻译规则。因此，每个边界节点都会对应一条串到树翻译规则，这样的规则称为最小规则，如下所示的r_a到r_i都是最小规则。

r_a：我→FW(i)

r_b：乐意→JJ(happy)

r_c：和→IN(with)

r_d：他们→NP(them)

r_e：讨论→VB(discuss)

r_f：此事→NP(DT(the)NN(matter))

r_g：x₀ x₁→PP(x₀：IN x₁：NP)

r_h：x₂ x₀ x₁→VP(x₀：VB x₁：NP x₂：PP)

r_i：x₀→VP(TO(to)x₀：VP)

我们根据文献【Daniel Marcu，Wei Wang，Abdessamad Echihabi andKevin Knight，2006.SPMT：Statistical machine translation withsyntactified target language phrases.In Proc.of EMNLP 2006，pages 44-52.】中的算法抽取出最小规则没有覆盖到的短语翻译规则。然后，任何两个最小规则若其中的一条规则的根节点是另一条规则的叶节点，那么我们可以合并这两条最小规则成为一条复合规则。三条最小规则若满足以上所述条件也可以合并为一条复合规则。如下所示规则r_j就是规则r_c与r_g合并而成的一条复合规则。

r_j：和x₀→PP(IN(with)x₀：NP)

针对子步骤2，我们利用范畴语法(categorial grammar)的形式为每一条串到树翻译规则在源语言句法树中计算一个句法结构，具体实施方式如下：

针对子步骤1中抽取出的某条串到树翻译规则，其源语言端可能没有相应的句法结构与之对应，因此，用传统的句法约束就会丢失大量有用的规则。譬如图3所示，“discuss…them”在目标语言端对应句法节点VP，而与之对应的源语言串“和他们讨论此事”没有正好被某个句法节点所覆盖，若要求源语言端有某个传统的句法节点对之对应，那么这条揭示调序信息的串到树翻译规则r_h就会被遗憾地排除掉。因此，我们不采用传统的句法约束，而借鉴文献【Yehoshua Bar-Hillel，1953.A quasi-arithmetical notation for syntactic description.Language，29(1).pages 47-58】以及文献【Andreas Zollmann andAshish Venugopal，2006.Syntax augmented machine translation viachart parsing.In Proc.of Workshop on Statistical MachineTranslation 2006，pages 138-141】中所介绍的范畴语法(categorialgrammar)的形式为串到树翻译规则的源语言端计算一个句法结构。具体实施方法如下：

(1)若源语言端的串正好被某个句法节点C所覆盖，那么我们用句法节点C表示源语言端的句法结构信息；

(2)否则，我们按顺序计算源语言端的串是否可以由如下的三种虚拟句法节点之一表示：C1*C2，C1/C2，C2\C1。C1*C2说明源语言端的串可以由相邻的两个句法节点的联合表示；C1/C2说明源语言端的串可以由句法节点C1去除其最右端的孩子节点C2表示；C2\C1说明源语言端的串可以由句法节点C1去除其最左端的孩子节点C2表示。

(3)若(2)失败，我们按顺序计算源语言端的串是否可以由如下的两种虚拟句法节点之一表示：C1*C2*C3，C1..C2。C1*C2*C3说明源语言端的串可以由相邻的三个句法节点的联合表示；C1..C2说明源语言端的串可以由最左边的句法节点C1和最右边的句法节点C2近似表示。

(4)若(3)仍然失败，我们采用默认的虚拟句法节点X表示源语言端串的句法信息。

我们发现利用规则(1)到(3)基本能解决所有的源语言端串的句法信息的计算。当我们将每条串到树翻译规则的源语言端赋予一个句法结构后，串到树翻译规则就自动转换成了我们所要求的模糊树到精确树翻译规则。如下所示的规则r_k到r_o都是模糊树到精确树翻译规则。

r_k：我{PN}→FW(i)，

r_l：乐意{AD}→JJ(happy)，

r_m：和{P}→IN(with)，

r_n：x₂ x₀ x₁{PP*VP}→VP(x₀：VB x₁：NP x₂：PP)，

r_o：x₀{PP*VP}→VP(TO(to)x₀：VP)。

应该注意，不同的双语句法树对可能产生这样的两条规则：除源语言端的句法结构信息外，其他完全一样，譬如规则和{CC}→IN(with)和规则和{P}→IN(with)。此时，我们这样的规则进行合并，并记录源语言端不同的句法结构出现的次数，譬如抽取完整个训练语料后，我们得到如下的模糊树到精确树翻译规则和{P6，CC 4}→IN(with)说明和{P}→IN(with)出现了6次而和{CC}→IN(with)出现了4次。

3.将抽取出的模糊树到精确树翻译规则进行概率估计，并训练目标端的语言模型，具体实施方式如下：

对步骤2抽取出的所有模糊树到精确树翻译规则，我们采用最大似然估计的方法计算，翻译模型优化目标采用对数线性模型，利用对数线性模型组合的特征有：

1)模糊树到精确树翻译规则具有五个翻译特征：(1)模糊树到精确树翻译规则相对于根节点的条件概率，(2)模糊树到精确树翻译规则相对于源语言端的条件概率，(3)模糊树到精确树翻译规则相对于目标语言端的条件概率：

P (r | root (r)) = \frac{c (r)}{Σ_{r^{'} : root (r^{'}) = root (r)} c (r^{'})}

P (r | root (r)) = \frac{c (r)}{Σ_{r^{'} : lhs (r^{'}) = lhs (r)} c (r^{'})}

P (r | root (r)) = \frac{c (r)}{Σ_{r^{'} : rhs (r^{'}) = rhs (r)} c (r^{'})}

r表示当前需要计算概率的模糊树到精确树翻译规则，r′表示规则空间中的任意一条模糊树到精确树翻译规则，c(r)和c(r′)分别表示规则r和规则r′的出现次数，root(r)和root(r′)分别表示规则r和规则r′的目标语言端句法结构的根节点，lhs(r)和lhs(r′)分别表示规则r和规则r′的源语言端，rhs(r)和rhs(r′)分别表示规则r和规则r′的目标语言端。

而(4)模糊树到精确树翻译规则源语言端相对于目标语言端的词汇化翻译概率，(5)目标端相对于源语言端的词汇化翻译概率；

2)语言模型概率；

3)对译文长度的惩罚特征；

4)控制使用规则数量的特征；

5)使用规则是否为复合规则的二值特征；

6)源语言端句法结构与模糊树到精确树翻译规则的模糊匹配概率特征。

目标端相对于源语言端的词汇化翻译概率由如下的公式计算；

P_{w} (f^{'} | e^{'}, a) = Π_{i = 1}^{n} \frac{1}{| j | (i, j) &Element; a |} \underset{(i, j) &Element; a}{Σ} w ({f_{i}}^{'} | {e_{j}}^{'})

P_{w} (e^{'} | f^{'}, a) = Π_{i = 1}^{n} \frac{1}{| i | (i, j) &Element; a |} \underset{(i, j) &Element; a}{Σ} w ({e_{j}}^{'} | {f_{i}}^{'})

公式中p_w表示词汇化概率，f′表示模糊树到精确树翻译规则源语言端的词语集合，e′表示模糊树到精确树翻译规则目标语言端词语集合，a表示f′与e′间的词对齐信息。n表示f′中词语的数目，f_i′表示f′中的第i个词语，e_j′表示e′中的第j个词语。|i|(i，j)∈a|表示满足(i，j)∈a的i的个数，|j|(i，j)∈a|表示满足(i，j)∈a的j的个数。w(f_i′|e_j′)表示目标语言词语e_j′翻译为源语言词语f_i′的概率，w(e_j′|f_i′)表示源语言词语f_i′翻译为目标语言词语e_j′的概率。

针对目标端的语言模型，我们采用N元语法来计算。实现N元语法的工具有多种，我们采用开源的SRILM语言模型训练工具对目标语言的所有句子训练一个5元语言模型。SRILM语言模型训练工具可从下面的网站免费下载：

http://www-speech.sri.com/projects/srilm/download.html。

4.设计源语言端句法结构与模糊树到精确树翻译规则的匹配准则，并估计其匹配概率，具体实施方式如下：

所述源语言端句法结构与模糊树到精确树规则的匹配准则是本发明的核心，匹配准则决定了我们如何恰当而有效地利用源语言端的句法结构知识。为了充分比较不同匹配准则的效果，我们由浅入深地设计了三种匹配准则：1)0-1匹配准则；2)似然度匹配准则；3)句法结构相似度匹配准则。

4.1 0-1匹配准则

对抽取出的模糊树到精确树翻译规则进行转换，保留模糊树到精确树翻译规则中源语言端最可靠的句法结构，最可靠的句法结构是似然度最大的句法结构；当翻译源语言句子时，考察源语言串对应的句法结构与模糊树到精确树翻译规则的匹配情况，若与模糊树到精确树翻译规则中源语言端的句法结构完全匹配，就对使用所述的模糊树到精确树翻译规则赋予奖励表明所述的模糊树到精确树翻译规则的使用遵循了源语言端的句法结构信息，否则便对使用所述的模糊树到精确树翻译规则给予惩罚表明所述的模糊树到精确树翻译规则的使用违反了源语言端的句法结构信息。

0-1匹配准则是基于这样一个假设：任何一个模糊树到精确树翻译规则源语言端最具信息量的句法结构应该是出现频率最大的那个句法结构，其他句法结构都可以忽略。

根据上述假设，我们可以对每一个模糊树到精确树翻译规则进行转换，只保留模糊树到精确树翻译规则中源语言端最具信息量的句法结构。譬如在步骤2中我们抽取出如下的规则和{P6，CC 4}→IN(with)，因为该规则源语言端的句法结构P出现频率高，所以经转换，我们得到规则和{P}→IN(with)。

根据转换后的规则，我们设计如下的匹配准则：若待翻译源语言句子中“和”的句法结构为P，我们给使用规则和{P}→IN(with)一个奖励；否则我们给使用规则和{P}→IN(with)一个惩罚。为了使翻译过程偏向使用尊重源语言句法结构的规则，我们设计如下的两个特征融入翻译过程：

match_count：累计翻译过程中使用的与被测试的源语言端句法结构相匹配的规则数目；

unmatch_count：累计翻译过程中使用的与被测试的源语言端句法结构不匹配的规则数目。

4.2似然度匹配准则

所述4.1中0-1匹配准则的假设太过强烈，只关心出现频率最高的源语言端句法结构，而其他句法结构的出现频率有可能只是略低于最高频的句法结构，若被丢弃，是一种损失。因此，我们更进一步地利用句法结构似然度的匹配准则。

似然度匹配准则基于这样一个假设：模糊树到精确树翻译规则源语言端中句法结构的贡献由其该句法结构的似然度决定。

根据上述假设，我们需要对步骤2中抽取出的模糊树到精确树翻译规则进行转换。最简单的方法就是直接利用最大似然估计将实例规则和{P6，CC 4}→IN(with)转换成和{P0.6，CC 0.4}→IN(with)，但是这样的规则无法处理未出现过的源语言端句法结构，因此我们采用文献【TomM.Mitchell，1997.Machine learning.Mac Graw Hill】中的m-概率估计方法计算每个源语言端句法结构的似然度：

{likelihood}_{t} = \frac{n_{t} + mp}{n + m}

其中n_t是句法结构n_t出现的次数，n表示源端所有句法结构出现的总次数，m称为等价样本大小，我们使用m＝1，p是句法结构n_t的先验，我们取p＝1/12599，12599是源端所有可能的句法结构种类。

根据上述转换后的规则，我们设计如下的似然度匹配准则：若待翻译源语言句子中某个串对应的句法结构与模糊树到精确树翻译规则的源语言端的句法结构集合中的某个句法结构相同，便用所述的某个句法结构对应的似然度表示匹配概率；否则便赋予一个平滑概率表示匹配概率；我们使用该句法结构对应的似然度表示使用该规则的概率；否则我们使用经上述公式平滑后的未出现句法结构的似然度表示使用该规则的概率。在翻译过程中，我们使用这样的匹配概率作为特征鼓励使用尊重源语言端句法结构的规则。

4.3句法结构相似度匹配准则

所述4.2中的似然度匹配准则无法度量源语言端两个不同的句法结构的相似度，譬如NP与DNP的相似度。因此，我们更深入一步，将每个源语言端的句法结构都映射至某个m维实数向量，然后在m维的实数向量空间中计算任意两个源语言端句法结构的相似度。

为了实现将每个源语言端句法结构映射至某个m维的实数向量，我们根据文献【Zhongqiang Huang，Martin Cmejrek and Bowen Zhou，2010.Soft syntactic constraints for hierarchical phrase-basedtranslation using latent syntactic distributions.In Proc.ofEMNLP 2010，pages 138-147】中的思想，使用浅层变量模型(latentvariable model)将所有的句法结构都视为终结符，而假设有m个浅层变量产生这些终结符，每个变量都可能产生某个给定的句法结构。因此，每个句法结构都会对应一个m维的实数向量，其中第k维的值表示该句法结构产生第k个浅层变量的概率。我们根据文献【Zhongqiang Huang，Martin Cmejrek and Bowen Zhou，2010.Soft syntactic constraintsfor hierarchical phrase-based translation using latent syntacticdistributions.In Proc.of EMNLP 2010，pages 138-147】中的描述，采用期望最大化算法(EM)计算每个源语言端句法结构所对应的m维实数向量。我们在实验中选择m＝16。

经过上述的学习算法，我们得到源语言端句法结构t对应的m维实数向量为我们采用点积(dot-product)算法计算任意两个句法结构t与t’的相似度：

\overset{&RightArrow;}{F} (t) \cdot \overset{&RightArrow;}{F} (t^{'}) = \underset{1 \leq i \leq m}{Σ} f_{i} (t) f_{i} (t^{'})

我们计算两个句法结构相似度的目的是为了计算句法结构与模糊树到精确树翻译规则的相似度。我们首先需要利用浅层变量模型(latent variable model)将模糊树到精确树翻译规则源端的句法结构集合映射至唯一的一个m维的实数向量，对模糊树到精确树翻译规则的源端的句法结构集合利用似然度进行加权得到唯一的一个实数向量表示模糊树到精确树翻译规则源语言端的句法结构，当翻译源语言句子时，考察源语言串对应的句法结构，并利用浅层变量模型将该结构映射至一个实数向量，最后利用点积(dot-product)计算该句法结构与某规则的相似度，并利用该相似度表示匹配概率。我们对步骤2中抽取出的模糊树到精确树翻译规则直接利用最大似然估计将源端的句法结构出现次数转换为似然度，譬如实例规则和{P6，CC 4}→IN(with)转换成和{P0.6，CC 0.4}→IN(with)。然后，我们对模糊树到精确树翻译规则源端的句法结构集合进行加权：

\overset{&RightArrow;}{F} (RS) = \underset{t &Element; RS}{Σ} P_{RS} (t) \overset{&RightArrow;}{F} (t)

RS表示模糊树到精确树翻译规则中源语言端的句法结构集合，P_RS(t)表示句法结构t的似然度。我们用

表示模糊树到精确树翻译规则源端的句法信息。最后我们采用点积计算待测试源语言句子中的句法结构与模糊树到精确树翻译规则的相似度：

DeepSim (t, RS) = \overset{&RightArrow;}{F} (t) \cdot \overset{&RightArrow;}{F} (RS)

5.设计翻译模型的优化目标，并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。

模糊树到精确树翻译模型的目标就是从将待翻译源语言句子f翻译成目标语言句法树的所有推导D中，搜索一个最佳的推导d^*。我们采用如下的对数线性模型融合多个翻译特征：

d^{*} = \underset{d &Element; D}{\arg \max} λ_{1} \log p_{LM} (τ (d)) + λ_{2} | τ (d) | + λ_{3} | d | + R (d | f)

R (d | f) = \underset{r &Element; d}{Σ} λ_{4} \log p (r | root (r)) + λ_{5} \log p (r | lhs (r))

+ λ_{6} \log p (r | rhs (r)) + λ_{7} \log p_{lex} (lhs (r) | rhs (r))

+ λ_{8} \log p_{lex} (rhs (r) | lhs (r)) + λ_{9} δ (is_comp)

+ δ (DeepSim) λ_{10} \log (DeepSim (tag, r))

+ δ (likelihood) λ_{11} \log (likelihood (tag, r))

+ δ (01) {λ_{12} δ (match) + λ_{13} δ (unmatch)

其中p(r|root(r))，p(r|lhs(r))和p(r|rhs(r))分别表示规则相对于根节点的条件概率，规则相对于源语言端的条件概率，以及规则相对于目标语言端的条件概率；p_lex(lhs(r)|rhs(r))和p_lex(rhs(r)|lhs(r))分别表示模糊树到精确树翻译规则源语言端相对于目标语言端的词汇化翻译概率，目标端相对于源语言端的词汇化翻译概率；DeepSim(tag，r)表示句法结构相似度匹配概率；likelihood(tag，r)表示似然度匹配概率；δ(match)与δ(unmatch)表示0-1匹配特征；δ(DeepSim)，δ(likelihood)和δ(01)是选择函数，我们将其中某个赋值1表示选择该匹配准则。λ₁～λ₁₃分别为相应特征的权重，我们根据文献【Franz Josef Och，2003.Minimum error rate training in statistical machine translation.In Proc.of ACL 2003，pages 160-167.】中描述的最小错误率训练(MERT)算法实现的模块在开发集上优化λ₁～λ₁₃。

6.实验设置

在实验中我们从语言数据联盟(Linguistic Data Consortium)发布的中-英训练数据中抽取75，4000中英对齐句对作为训练语料，训练语料的中文部分包含约17,000,000词语，英文部分包含约19,000,000单词。

我们使用国际机器翻译评测(NIST MT Evaluation)中从2003年至2006年的所有测试集MT03-MT06作为开发集和测试集。其中MT06作为我们的开发集，用来优化各个翻译特征的权重。为了加快参数优化的速度，我们只保留MT06中长度小于等于20个词的句子。测试集包括MT03-MT05。

在目标语言模型的训练中，我们除了用双语训练数据的目标语言部分外，还加入了英语Gigaword语料中Xinhua部分约181，1000,000个单词，最终训练了一个5元语法的语言模型。

为了进行对比实验，我们根据文献【Michel Gally，Jonathan Graehl，Kevin Knight，Daniel Marcu，Steve DeNeefe，Wei Wang and IgnacioThayer，2006.Scalable inference and training of context-richsyntactic translation models.In Proc.of ACL-COLING 2006.】和【Daniel Marcu，Wei Wang，Abdessamad Echihabi and Kevin Knight，2006.SPMT：Statistical machine translation with syntactifiedtarget language phrases.In Proc.of EMNLP 2006，pages 44-52.】实现了基于串到树模型的翻译系统。为了说明串到树翻译模型是当前最好的翻译模型之一，我们还使用了开源的基于层次短语模型的翻译系统Joshua【Zhifei Li，Chris Cailison-Burch，Chris Dyer，JuriGanitkevitch，Sanjeev Khudanpur，Lane Schwartz，Wren N.G.Thornton，Jonathan Weese and Omar F.Zaidan，2009.Joshua：An opensource toolkit for parsing-based machine translation.In Proc.of ACL 2009，pages 135-139.】作为对比，因为层次短语翻译模型被广泛公认的当前最好的翻译模型之一。

在对比实验中，我们使用大小写不敏感的BLEU-4【Papineni，Kishore.，Roukos，Salim，Ward，Todd，and Zhu Wei-Jing.2002.BLEU：a method for automatic evaluation of machine translation.InProc.of ACL.】作为评测指标。最后我们采用文献【Philipp Koehn，2004.Statistical significance tests for machine translationevaluation.In Proc.of EMNLP 2004，pages 388-395.】中的重采样方法比较两个翻译系统间翻译质量的显著差异。

7.实验结果

附表1给出了不同的翻译系统在开发集与测试集上的表现。首先，从表中我们可以看到，基于串到树模型的翻译系统s2t在每个测试集上都比基于层次短语模型的翻译系统Joshua提高了1个多的BLEU值，这充分表明串到树模型的优越性，同时也说明我们重新实现的串到树翻译系统是正确的，用来作为我们的基线对比系统是可靠的。

附表1中的最后三行是本发明的基于模糊树到精确树模型的翻译系统的测试结果。我们可以看到无论用哪一种匹配准则，基于模糊树到精确树的翻译模型在所有的测试集上都统计显著地超越了基于串到树的翻译模型。尤其是本发明使用的基于句法结构相似度的方法，在MT03-MT05中的每个测试集上相比于基于串到树模型的翻译系统提高了1个多的BLEU值。我们认为基于句法结构相似度的方法充分体现了句法结构的内在相似程度，附表2给出了一组非常相似与非常不相似的句法结构的例子。我们可以清楚地看到，浅层变量模型能够深入地挖掘任意两个句法结构间的相似程度，譬如NP与DT*NN从直觉上就非常相似，ADJP与VP在直觉上非常不相似，浅层变量模型能够容易地体现出来。因此，基于句法结构相似度的模糊树到精确树模型的翻译系统会表现最好。

总之，实验结果表明本发明的模糊树到精确树的翻译模型确实能够充分地利用源语言端的句法结构知识，而且统计显著地提高了统计机器翻译的译文质量。

附表1：层次短语翻译模型系统Joshua，串到树翻译系统s2t以及本发明利用不同匹配准则的模糊树到精确树翻译系统FT2ET在开发集和测试集上的BLUE分值。*/**分别表示在p＝0.05和p＝0.01的水平上统计显著地好于串到树翻译系统。

附表2：一组句法结构对之间相似程度的例子

由于本发明的方法不是针对两种特定的语言而提出的，所以本发明的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行了实验，但本发明同时也适用于其它语言对，如日语和汉语、阿拉伯语和英语。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.基于模糊树到精确树的统计机器翻译方法，其特征在于，所述方法包括步骤如下：

步骤1：对双语句对进行分词、自动词对齐和句法分析；

步骤2：从词对齐的双语句法分析树中自动抽取出模糊树到精确树翻译规则；

步骤5：设计翻译模型优化目标，并利用模糊树到精确树翻译规则以及目标端语言模型搜索测试语句的目标翻译。

2.根据权利要求1所述的基于模糊树到精确树的统计机器翻译方法，其特征在于：所述模糊树到精确树翻译规则的抽取步骤如下：

步骤21：首先从词对齐的双语句法树对中抽取出串到树翻译规则；

步骤23：将计算出的句法结构表示赋予串到树翻译规则的源语言端，形成模糊树到精确树翻译规则。

3.根据权利要求1所述的基于模糊树到精确树的统计机器翻译方法，其特征在于：所述源语言端句法结构与模糊树到精确树翻译规则的匹配准则包括：1)0-1匹配准则；2)似然度匹配准则；3)句法结构相似度匹配准则。

4.根据权利要求3所述的基于模糊树到精确树的统计机器翻译方法，其特征在于：所述0-1匹配准则是：

5.根据权利要求3所述的基于模糊树到精确树的统计机器翻译方法，其特征在于：所述似然度匹配准则是：

当翻译源语言句子时，考察源语言串对应的句法结构与模糊树到精确树翻译规则的匹配情况，若与模糊树到精确树翻译规则中源语言端句法结构集合中的某个句法结构相同，便用所述的某个句法结构对应的似然度表示匹配概率；否则便赋予一个平滑概率表示匹配概率。

6.根据权利要求3所述的基于模糊树到精确树的统计机器翻译方法，其特征在于：所述句法结构相似度匹配是：

利用浅层变量模型(latent variable model)将每个源语言端的句法结构映射到唯一的一个m维实数向量；对模糊树到精确树翻译规则的源端的句法结构集合利用似然度进行加权得到唯一的一个实数向量表示所述模糊树到精确树翻译规则源端的句法结构，当翻译源语言句子时，考察源语言串对应的句法结构，并利用浅层变量模型将该结构映射至一个实数向量，最后利用点积(dot-product)计算该句法结构与某规则的相似度，并利用该相似度表示匹配概率。

7.根据权利要求1所述的基于模糊树到精确树的统计机器翻译方法，其特征在于：所述翻译模型优化目标采用对数线性模型，利用对数线性模型组合的特征有：

1)模糊树到精确树翻译规则具有五个翻译特征：(1)模糊树到精确树翻译规则相对于根节点的条件概率，(2)模糊树到精确树翻译规则相对于源语言端的条件概率，(3)模糊树到精确树翻译规则相对于目标语言端的条件概率，(4)源语言端相对于目标语言端的词汇化翻译概率，(5)目标语言端相对于源语言端的词汇化翻译概率；

2)语言模型概率；

3)对译文长度的惩罚特征；

4)控制使用规则数量的特征；

5)使用规则是否为复合规则的二值特征；