CN102156692A

CN102156692A - 统计机器翻译中的基于森林的系统融合方法

Info

Publication number: CN102156692A
Application number: CN2011100463669A
Authority: CN
Inventors: 赵铁军; 刘宇鹏
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2011-02-25
Filing date: 2011-02-25
Publication date: 2011-08-17

Abstract

统计机器翻译中的基于森林的系统融合方法，涉及机器翻译技术领域。本发明解决了现有系统融合中存在的对于解码空间剪枝的过程中，把可能未来是好的侯选翻译剪枝掉、以及在混淆网络的构建后会把除骨架翻译翻译外的所有翻译假设的语序打乱的问题。本发明的基于森林的系统融合方法为：一、构建混淆网络；二、根据构建的混淆网络中的信息构建森林；三、将短语及依存句法信息以特征值的形式加入到森林中，对森林中的每个节点的所有边进行重新排序，获得新的森林；四、对获得的新的森林进行统计解码，获得最终译文信息。本发明在森林的基础上提出了两遍解码，从而生成更好的英文译文。本发明将森林技术引入到了系统融合中，进一步提升了系统融合的性能。

Description

统计机器翻译中的基于森林的系统融合方法

技术领域

本发明涉及机器翻译技术领域，具体涉及到一种系统融合技术。

背景技术

所谓统计机器翻译，是利用统计学的知识来进行翻译，源语言可以通过使用机器翻译模型来翻译得到目标语言。统计机器翻译按照是否带有句法信息可以分为：基于词的，基于短语的和基于句法的翻译系统；对于句法的翻译系统又可以分为树到串，串到树和树到树的翻译系统。统计机器翻译一直是自然语言研究的重点。

所谓系统融合，是在解码阶段或是在后处理阶段来对多个翻译结果来融合，参见图1所示。其好处是由于每个翻译系统都有相应的特点，为了使得各个翻译系统之间能够取长补短，可以把多个翻译结果进行融合。系统融合在近几年得到了很好的发展。由于系统融合技术对于机器翻译性能的提高起到了重要作用，近几年在国际(NIST)和国内(CWMT)知名的机器翻译评测中把系统融合作为单独一项评估任务。

虽然国内外学者对于系统融合技术进行大量的探索，但在系统融合仍然存在以下两个方面的问题：

1)、系统融合在解码方法上与统计机器翻译的解码方法基本一致，都存在着对于解码空间剪枝的过程中，把可能未来是好的侯选翻译剪枝掉。

2)、在混淆网络的构建后会把除骨架翻译翻译外的所有翻译假设的语序打乱，造成在解码时候，只是靠语言模型来恢复短语结构，对原有的句法信息可能造成破坏。

从上面两个问题出发，提出了基于森林的系统融合。

发明内容

本发明为了解决现有系统融合中存在的对于解码空间剪枝的过程中，把可能未来是好的侯选翻译剪枝掉、以及在混淆网络的构建后会把除骨架翻译翻译外的所有翻译假设的语序打乱的问题，本发明提出了一种统计机器翻译中的基于森林的系统融合方法。

本发明所述的统计机器翻译中的基于森林的系统融合方法为：

一、根据多个机器翻译结果构建混淆网络；

二、根据构建的混淆网络中的信息构建森林；

三、将短语及依存句法信息以特征值的形式加入到森林中，对森林中的每个节点的所有边进行重新排序，获得新的森林；

四、对步骤三获得的森林进行统计解码，获得最终译文信息。

本发明在森林的基础上提出了两遍解码：第一遍是生成森林和英文译文；第二遍为了得到更好的目标翻译，对森林中的每个节点根据新特征的分数进行重排序，从而生成更好的英文译文。本发明解码方法的优点有：

第一遍解码的好处：在传统的解码方法中没有很好的对语言模型得分进行合适的计算，为了使得系统融合中语言模型的得分得到计算，本发明采用先生成森林，然后在森林上进行“立方体生长”的解码方法实现解码。因为在传统解码方法中会剪枝掉在将来会生成更好翻译结果，而森林能够表示更大的搜索空间，把原来剪掉的翻译恢复出来。

第二遍解码的好处：由于在构建混淆网络过程中，会丢掉原来机器翻译系统生成翻译的一些信息(如句法信息，依存句法和短语信息等)，为了把这些信息能继续利用起来，我们把这些信息以特征的形式加入到森林中进行重排序，进行第二次解码，生成更好的英文译文。

本发明将森林技术引入到了系统融合中，进一步提升了系统融合的性能，在国际标准开发集和测试集合上得到了1.5个BLEU得分的提高。

附图说明

图1现有系统融合的原理图。图2是本发明所述的系统融合方法的实现原理框图，图3是本发明所述的森林的结构示意图。

具体实施方式

具体实施方式一：本实施方式所述的统计机器翻译中的基于森林的系统融合方法的过程为：

一、根据多个机器翻译结果构建混淆网络；

二、根据构建的混淆网络中的信息构建森林；

所谓基于森林的解码方法，是现有技术中在机器翻译和句法分析领域中使用的一种解码方法，而在系统融合任务中的解码方法和机器翻译/句法分析的解码方法有着相似性，为了进一步提高词一级系统融合的性能，本实施方式将解码框架建立在森林的基础上，并且利用短语和依存句法信息进行重排序，参见图2所示，是本实施方式所述的系统融合方法的实现原理框图。

具体实施方式二：本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤一做进一步限定，在步骤一中，构建混淆网络的过程为：

A1、骨架翻译的确定，根据多个机器翻译结果，通过最小贝叶斯风险来选择骨架翻译E_b，

E_{b} = \underset{E^{'} &Element; E}{\arg \min} \underset{E &Element; E}{Σ} TER (E^{'}, E) - - - (1)

公式中，E′表示任意一个翻译结果，E表示多个机器翻译的结果的集合；

A2、翻译假设对齐归一化，采用对齐算法建立骨架翻译和假设翻译间的对齐，并通过在骨架翻译和假设翻译插入“NULL”词来拉伸两种翻译结果，使得两种翻译结果实现对齐；

A3、拉伸骨架翻译并计算特征值，构建混淆网络；将步骤A2中的骨架翻译进行拉伸对齐，然后计算拉伸对齐后的翻译结果的特征值信息，最后获得混淆网络。

步骤A1中所述的多个机器翻译的结果是每个系统的n个最好的翻译结果，系统融合就是对这些结果加工生成新的译文。

步骤A1中采用最小贝叶斯风险来选择骨架翻译，能够获得和其他翻译E′最接近的系统翻译结果。

步骤A2中所述的翻译假设对齐归一化，是系统融合中混淆网络构建的关键。

步骤A2中所述的对齐算法可采用现有常用的对其算法，例如：双语对齐工具(GIZA++)、间接隐马尔科夫模型(IHMM)、翻译错误率(TER)、增量IHMM/TER等。

步骤A2中，可以同时引入了汉语语言句子和WordNet来进行消歧，进而指导对齐。进而达到了增强对齐质量的IHMM的技术效果。

因为系统融合是为了提高汉-英翻译的质量，上述方法中引入汉语语言句子指导英文对齐，提高对齐的质量。

因为同一个词在不同的语境下可能有不同的含义，上述方法中引入WordNet可有效解决同义词之间的匹配以及考虑了语境的词义消歧，进而提高对齐的质量。

在步骤A3中，拉伸骨架翻译的过程为：

对假设翻译结果进行调序，并将每个骨架翻译中的实词进行对齐，同时把每个假设翻译进行拉伸对齐。

由于在对假设翻译进行调序的单元在归一化处理过程中，生成插入”NULL”的位置可能不一样，所以，要把和每个假设翻译对齐的每个骨架翻译中的实词(非”NULL”词)进行对齐，实词对齐是为了给每个词一个置信分数，即是词置信特征。

在步骤A3中，计算特征值，是计算获得对齐后的的假设翻译结果的特征值。

所述特征值的计算方法采用系统融合中的通用计算方法既可。例如：如果第i个系统的第k个翻译结果对于词w有贡献，就把该词的第i个系统的置信值增加1/(1+k)，对于词w的每一个系统都有一个词置信特征。

具体实施方式三：本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤二做进一步限定，本实施方式中，步骤二所述的构建森林的过程为：根据混淆网络，采用自底向上的构建方式，通过节点和边来生成森林。

所述生成森林的具体过程为：根据叶子节点，使用边由底向上依次生成一个或多个中间结点，直到生成根节点，所有节点和边组成了森林，在生成中间结点和根节点时，均计算相应节点的语言模型的得分和翻译模型的得分，所述两个得分的和作为该节点的最终得分。参见图2所示的一种森林，图中就是对于生成同样翻译结果的孩子节点放到同一个父亲节点下，圆形节点表示结点(是翻译过程中生成的部分翻译)，标识R的节点是生成的整个翻译结果，标识为C_i为的孩子节点；带有两个分叉(由于我们的翻译规则是含有两个终结符，所以有两个分叉)的线表示边，边的上方出发位置是父亲节点，边的下方结束的位置是孩子节点，边旁标识的R_i为翻译规则(也就是通过翻译规则把孩子节点的部分翻译组合成为父亲节点的部分翻译)；每个父亲节点有多个边，表示有多个孩子节点和边能组成父亲节点；省略号部分为我们省略了一些边和节点。

具体实施方式四：本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤三做进一步限定，本实施方式中的步骤三所述的重新排序的过程为：

对森林中的每一个节点，根据知识评价特征对其得分进行重新计算，并根据所述重新计算的结果对该节点的所有边进行调序。

所述根据知识评价特征对其得分进行重新计算，是指在该节点原得分基础之上，增加知识评价特征对应的得分，进而获得重新计算后的得分。

所述知识评价特征，是用来连接重排序模型和知识源，以能够加入新生成的特征。

对节点的所有边进行重新调序的原则是以得分高的为优选。

由于某些新特征(知识评价特征)只有在整个森林生成之后才能作计算，该模块利用这些特征来对同一节点的不同边进行重新排序，进而把更好的部分翻译结果排到前面。

在混淆网络构建后，就已经把大部分的假设翻译的语序打乱，而这样会使得在解码中仅仅靠语言模型的得分来控制英文译文的语序，可能破坏了句法结构或是原有的短语结构。本发明通过一种“软约束”的形式来实现，也就是采用知识评价特征来修正得分，并根据修正后的得分进行重排序，本发明所述的短语等知识源中主要包含有英文短语及英文依存句法知识源。

具体实施方式五：本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤四做进一步限定，本实施方式中的步骤四中所述的统计解码采用现有的立方体生长的森林解码方法(Cube Growing)。

所述立方体生长的森林解码方法是采用自顶向下的方法对森林进行解码，从根节点开始，采用递归的算法自顶向下遍历子节点，直到叶子节点，根据每个叶子节点对应的反回路径中的信息来得到对应的英文译文。

在解码的过程中，所有特征的权重是通过最小错误率训练(MERT)得到的。最小错误率训练的目标是根据参考译文调节特征权重，得到的权重结果被应用到测试集合上来进行解码。

Claims

1.统计机器翻译中的基于森林的系统融合方法，其特征在于，该方法的过程为：

一、根据多个机器翻译结果构建混淆网络；

二、根据构建的混淆网络中的信息构建森林；

2.根据权利要求1所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，在步骤一中，构建混淆网络的过程为：

A1、骨架翻译的确定，根据多个机器翻译结果，通过通过最小贝叶斯风险来选择骨架翻译E_b，

3.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，步骤A1中所述的多个机器翻译的结果是每个系统的n个最好的翻译结果。

4.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，步骤A1中采用最小贝叶斯风险来选择骨架翻译。

5.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，步骤A2中所述的对齐算法采用现有对其算法，可采用双语对齐工具、间接隐马尔科夫模型、翻译错误率、或者增量IHMM/TER算法。

6.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，步骤A2中，同时引入汉语语言句子和WordNet来进行消歧，进而指导对齐。

7.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，在步骤A3中，拉伸骨架翻译的过程为：对假设翻译结果进行调序，并将每个骨架翻译中的实词进行对齐，同时把每个假设翻译进行拉伸对齐。

8.根据权利要求1所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，步骤二所述的构建森林的过程为：根据混淆网络，采用自底向上的构建方式，通过节点和边来生成森林。

9.根据权利要求6所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，所述生成森林的具体过程为：根据叶子节点，使用边由底向上依次生成一个或多个中间结点，直到生成根节点，所有节点和边组成了森林，在生成中间结点和根节点时，均计算相应节点的语言模型的得分和翻译模型的得分，所述两个得分的和作为该节点的最终得分。

10.根据权利要求1所述的统计机器翻译中的基于森林的系统融合方法，其特征在于，步骤三所述的重新排序的过程为：