CN102156692A - 统计机器翻译中的基于森林的系统融合方法 - Google Patents

统计机器翻译中的基于森林的系统融合方法 Download PDF

Info

Publication number
CN102156692A
CN102156692A CN2011100463669A CN201110046366A CN102156692A CN 102156692 A CN102156692 A CN 102156692A CN 2011100463669 A CN2011100463669 A CN 2011100463669A CN 201110046366 A CN201110046366 A CN 201110046366A CN 102156692 A CN102156692 A CN 102156692A
Authority
CN
China
Prior art keywords
translation
forest
node
skeleton
fusion method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100463669A
Other languages
English (en)
Inventor
赵铁军
刘宇鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2011100463669A priority Critical patent/CN102156692A/zh
Publication of CN102156692A publication Critical patent/CN102156692A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

统计机器翻译中的基于森林的系统融合方法,涉及机器翻译技术领域。本发明解决了现有系统融合中存在的对于解码空间剪枝的过程中,把可能未来是好的侯选翻译剪枝掉、以及在混淆网络的构建后会把除骨架翻译翻译外的所有翻译假设的语序打乱的问题。本发明的基于森林的系统融合方法为:一、构建混淆网络;二、根据构建的混淆网络中的信息构建森林;三、将短语及依存句法信息以特征值的形式加入到森林中,对森林中的每个节点的所有边进行重新排序,获得新的森林;四、对获得的新的森林进行统计解码,获得最终译文信息。本发明在森林的基础上提出了两遍解码,从而生成更好的英文译文。本发明将森林技术引入到了系统融合中,进一步提升了系统融合的性能。

Description

统计机器翻译中的基于森林的系统融合方法
技术领域
本发明涉及机器翻译技术领域,具体涉及到一种系统融合技术。
背景技术
所谓统计机器翻译,是利用统计学的知识来进行翻译,源语言可以通过使用机器翻译模型来翻译得到目标语言。统计机器翻译按照是否带有句法信息可以分为:基于词的,基于短语的和基于句法的翻译系统;对于句法的翻译系统又可以分为树到串,串到树和树到树的翻译系统。统计机器翻译一直是自然语言研究的重点。
所谓系统融合,是在解码阶段或是在后处理阶段来对多个翻译结果来融合,参见图1所示。其好处是由于每个翻译系统都有相应的特点,为了使得各个翻译系统之间能够取长补短,可以把多个翻译结果进行融合。系统融合在近几年得到了很好的发展。由于系统融合技术对于机器翻译性能的提高起到了重要作用,近几年在国际(NIST)和国内(CWMT)知名的机器翻译评测中把系统融合作为单独一项评估任务。
虽然国内外学者对于系统融合技术进行大量的探索,但在系统融合仍然存在以下两个方面的问题:
1)、系统融合在解码方法上与统计机器翻译的解码方法基本一致,都存在着对于解码空间剪枝的过程中,把可能未来是好的侯选翻译剪枝掉。
2)、在混淆网络的构建后会把除骨架翻译翻译外的所有翻译假设的语序打乱,造成在解码时候,只是靠语言模型来恢复短语结构,对原有的句法信息可能造成破坏。
从上面两个问题出发,提出了基于森林的系统融合。
发明内容
本发明为了解决现有系统融合中存在的对于解码空间剪枝的过程中,把可能未来是好的侯选翻译剪枝掉、以及在混淆网络的构建后会把除骨架翻译翻译外的所有翻译假设的语序打乱的问题,本发明提出了一种统计机器翻译中的基于森林的系统融合方法。
本发明所述的统计机器翻译中的基于森林的系统融合方法为:
一、根据多个机器翻译结果构建混淆网络;
二、根据构建的混淆网络中的信息构建森林;
三、将短语及依存句法信息以特征值的形式加入到森林中,对森林中的每个节点的所有边进行重新排序,获得新的森林;
四、对步骤三获得的森林进行统计解码,获得最终译文信息。
本发明在森林的基础上提出了两遍解码:第一遍是生成森林和英文译文;第二遍为了得到更好的目标翻译,对森林中的每个节点根据新特征的分数进行重排序,从而生成更好的英文译文。本发明解码方法的优点有:
第一遍解码的好处:在传统的解码方法中没有很好的对语言模型得分进行合适的计算,为了使得系统融合中语言模型的得分得到计算,本发明采用先生成森林,然后在森林上进行“立方体生长”的解码方法实现解码。因为在传统解码方法中会剪枝掉在将来会生成更好翻译结果,而森林能够表示更大的搜索空间,把原来剪掉的翻译恢复出来。
第二遍解码的好处:由于在构建混淆网络过程中,会丢掉原来机器翻译系统生成翻译的一些信息(如句法信息,依存句法和短语信息等),为了把这些信息能继续利用起来,我们把这些信息以特征的形式加入到森林中进行重排序,进行第二次解码,生成更好的英文译文。
本发明将森林技术引入到了系统融合中,进一步提升了系统融合的性能,在国际标准开发集和测试集合上得到了1.5个BLEU得分的提高。
附图说明
图1现有系统融合的原理图。图2是本发明所述的系统融合方法的实现原理框图,图3是本发明所述的森林的结构示意图。
具体实施方式
具体实施方式一:本实施方式所述的统计机器翻译中的基于森林的系统融合方法的过程为:
一、根据多个机器翻译结果构建混淆网络;
二、根据构建的混淆网络中的信息构建森林;
三、将短语及依存句法信息以特征值的形式加入到森林中,对森林中的每个节点的所有边进行重新排序,获得新的森林;
四、对步骤三获得的森林进行统计解码,获得最终译文信息。
所谓基于森林的解码方法,是现有技术中在机器翻译和句法分析领域中使用的一种解码方法,而在系统融合任务中的解码方法和机器翻译/句法分析的解码方法有着相似性,为了进一步提高词一级系统融合的性能,本实施方式将解码框架建立在森林的基础上,并且利用短语和依存句法信息进行重排序,参见图2所示,是本实施方式所述的系统融合方法的实现原理框图。
具体实施方式二:本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤一做进一步限定,在步骤一中,构建混淆网络的过程为:
A1、骨架翻译的确定,根据多个机器翻译结果,通过最小贝叶斯风险来选择骨架翻译Eb
E b = arg min E ′ ∈ E Σ E ∈ E TER ( E ′ , E ) - - - ( 1 )
公式中,E′表示任意一个翻译结果,E表示多个机器翻译的结果的集合;
A2、翻译假设对齐归一化,采用对齐算法建立骨架翻译和假设翻译间的对齐,并通过在骨架翻译和假设翻译插入“NULL”词来拉伸两种翻译结果,使得两种翻译结果实现对齐;
A3、拉伸骨架翻译并计算特征值,构建混淆网络;将步骤A2中的骨架翻译进行拉伸对齐,然后计算拉伸对齐后的翻译结果的特征值信息,最后获得混淆网络。
步骤A1中所述的多个机器翻译的结果是每个系统的n个最好的翻译结果,系统融合就是对这些结果加工生成新的译文。
步骤A1中采用最小贝叶斯风险来选择骨架翻译,能够获得和其他翻译E′最接近的系统翻译结果。
步骤A2中所述的翻译假设对齐归一化,是系统融合中混淆网络构建的关键。
步骤A2中所述的对齐算法可采用现有常用的对其算法,例如:双语对齐工具(GIZA++)、间接隐马尔科夫模型(IHMM)、翻译错误率(TER)、增量IHMM/TER等。
步骤A2中,可以同时引入了汉语语言句子和WordNet来进行消歧,进而指导对齐。进而达到了增强对齐质量的IHMM的技术效果。
因为系统融合是为了提高汉-英翻译的质量,上述方法中引入汉语语言句子指导英文对齐,提高对齐的质量。
因为同一个词在不同的语境下可能有不同的含义,上述方法中引入WordNet可有效解决同义词之间的匹配以及考虑了语境的词义消歧,进而提高对齐的质量。
在步骤A3中,拉伸骨架翻译的过程为:
对假设翻译结果进行调序,并将每个骨架翻译中的实词进行对齐,同时把每个假设翻译进行拉伸对齐。
由于在对假设翻译进行调序的单元在归一化处理过程中,生成插入”NULL”的位置可能不一样,所以,要把和每个假设翻译对齐的每个骨架翻译中的实词(非”NULL”词)进行对齐,实词对齐是为了给每个词一个置信分数,即是词置信特征。
在步骤A3中,计算特征值,是计算获得对齐后的的假设翻译结果的特征值。
所述特征值的计算方法采用系统融合中的通用计算方法既可。例如:如果第i个系统的第k个翻译结果对于词w有贡献,就把该词的第i个系统的置信值增加1/(1+k),对于词w的每一个系统都有一个词置信特征。
具体实施方式三:本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤二做进一步限定,本实施方式中,步骤二所述的构建森林的过程为:根据混淆网络,采用自底向上的构建方式,通过节点和边来生成森林。
所述生成森林的具体过程为:根据叶子节点,使用边由底向上依次生成一个或多个中间结点,直到生成根节点,所有节点和边组成了森林,在生成中间结点和根节点时,均计算相应节点的语言模型的得分和翻译模型的得分,所述两个得分的和作为该节点的最终得分。参见图2所示的一种森林,图中就是对于生成同样翻译结果的孩子节点放到同一个父亲节点下,圆形节点表示结点(是翻译过程中生成的部分翻译),标识R的节点是生成的整个翻译结果,标识为Ci为的孩子节点;带有两个分叉(由于我们的翻译规则是含有两个终结符,所以有两个分叉)的线表示边,边的上方出发位置是父亲节点,边的下方结束的位置是孩子节点,边旁标识的Ri为翻译规则(也就是通过翻译规则把孩子节点的部分翻译组合成为父亲节点的部分翻译);每个父亲节点有多个边,表示有多个孩子节点和边能组成父亲节点;省略号部分为我们省略了一些边和节点。
具体实施方式四:本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤三做进一步限定,本实施方式中的步骤三所述的重新排序的过程为:
对森林中的每一个节点,根据知识评价特征对其得分进行重新计算,并根据所述重新计算的结果对该节点的所有边进行调序。
所述根据知识评价特征对其得分进行重新计算,是指在该节点原得分基础之上,增加知识评价特征对应的得分,进而获得重新计算后的得分。
所述知识评价特征,是用来连接重排序模型和知识源,以能够加入新生成的特征。
对节点的所有边进行重新调序的原则是以得分高的为优选。
由于某些新特征(知识评价特征)只有在整个森林生成之后才能作计算,该模块利用这些特征来对同一节点的不同边进行重新排序,进而把更好的部分翻译结果排到前面。
在混淆网络构建后,就已经把大部分的假设翻译的语序打乱,而这样会使得在解码中仅仅靠语言模型的得分来控制英文译文的语序,可能破坏了句法结构或是原有的短语结构。本发明通过一种“软约束”的形式来实现,也就是采用知识评价特征来修正得分,并根据修正后的得分进行重排序,本发明所述的短语等知识源中主要包含有英文短语及英文依存句法知识源。
具体实施方式五:本实施方式是对具体实施方式一中所述的统计机器翻译中的基于森林的系统融合方法中的步骤四做进一步限定,本实施方式中的步骤四中所述的统计解码采用现有的立方体生长的森林解码方法(Cube Growing)。
所述立方体生长的森林解码方法是采用自顶向下的方法对森林进行解码,从根节点开始,采用递归的算法自顶向下遍历子节点,直到叶子节点,根据每个叶子节点对应的反回路径中的信息来得到对应的英文译文。
在解码的过程中,所有特征的权重是通过最小错误率训练(MERT)得到的。最小错误率训练的目标是根据参考译文调节特征权重,得到的权重结果被应用到测试集合上来进行解码。

Claims (10)

1.统计机器翻译中的基于森林的系统融合方法,其特征在于,该方法的过程为:
一、根据多个机器翻译结果构建混淆网络;
二、根据构建的混淆网络中的信息构建森林;
三、将短语及依存句法信息以特征值的形式加入到森林中,对森林中的每个节点的所有边进行重新排序,获得新的森林;
四、对步骤三获得的森林进行统计解码,获得最终译文信息。
2.根据权利要求1所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,在步骤一中,构建混淆网络的过程为:
A1、骨架翻译的确定,根据多个机器翻译结果,通过通过最小贝叶斯风险来选择骨架翻译Eb
Figure DEST_PATH_FDA0000065891280000011
公式中,E′表示任意一个翻译结果,E表示多个机器翻译的结果的集合;
A2、翻译假设对齐归一化,采用对齐算法建立骨架翻译和假设翻译间的对齐,并通过在骨架翻译和假设翻译插入“NULL”词来拉伸两种翻译结果,使得两种翻译结果实现对齐;
A3、拉伸骨架翻译并计算特征值,构建混淆网络;将步骤A2中的骨架翻译进行拉伸对齐,然后计算拉伸对齐后的翻译结果的特征值信息,最后获得混淆网络。
3.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,步骤A1中所述的多个机器翻译的结果是每个系统的n个最好的翻译结果。
4.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,步骤A1中采用最小贝叶斯风险来选择骨架翻译。
5.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,步骤A2中所述的对齐算法采用现有对其算法,可采用双语对齐工具、间接隐马尔科夫模型、翻译错误率、或者增量IHMM/TER算法。
6.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,步骤A2中,同时引入汉语语言句子和WordNet来进行消歧,进而指导对齐。
7.根据权利要求2所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,在步骤A3中,拉伸骨架翻译的过程为:对假设翻译结果进行调序,并将每个骨架翻译中的实词进行对齐,同时把每个假设翻译进行拉伸对齐。
8.根据权利要求1所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,步骤二所述的构建森林的过程为:根据混淆网络,采用自底向上的构建方式,通过节点和 边来生成森林。
9.根据权利要求6所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,所述生成森林的具体过程为:根据叶子节点,使用边由底向上依次生成一个或多个中间结点,直到生成根节点,所有节点和边组成了森林,在生成中间结点和根节点时,均计算相应节点的语言模型的得分和翻译模型的得分,所述两个得分的和作为该节点的最终得分。
10.根据权利要求1所述的统计机器翻译中的基于森林的系统融合方法,其特征在于,步骤三所述的重新排序的过程为:
对森林中的每一个节点,根据知识评价特征对其得分进行重新计算,并根据所述重新计算的结果对该节点的所有边进行调序。 
CN2011100463669A 2011-02-25 2011-02-25 统计机器翻译中的基于森林的系统融合方法 Pending CN102156692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100463669A CN102156692A (zh) 2011-02-25 2011-02-25 统计机器翻译中的基于森林的系统融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100463669A CN102156692A (zh) 2011-02-25 2011-02-25 统计机器翻译中的基于森林的系统融合方法

Publications (1)

Publication Number Publication Date
CN102156692A true CN102156692A (zh) 2011-08-17

Family

ID=44438193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100463669A Pending CN102156692A (zh) 2011-02-25 2011-02-25 统计机器翻译中的基于森林的系统融合方法

Country Status (1)

Country Link
CN (1) CN102156692A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
WO2015096529A1 (zh) * 2013-12-24 2015-07-02 哈尔滨工业大学 面向通用机译引擎的个性化翻译方法及装置
CN107943794A (zh) * 2016-10-12 2018-04-20 阿里巴巴集团控股有限公司 一种翻译方法及系统
CN112395892A (zh) * 2020-12-03 2021-02-23 内蒙古工业大学 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015096529A1 (zh) * 2013-12-24 2015-07-02 哈尔滨工业大学 面向通用机译引擎的个性化翻译方法及装置
CN103646019A (zh) * 2013-12-31 2014-03-19 哈尔滨理工大学 一种多个机器翻译系统融合的方法及装置
CN107943794A (zh) * 2016-10-12 2018-04-20 阿里巴巴集团控股有限公司 一种翻译方法及系统
CN112395892A (zh) * 2020-12-03 2021-02-23 内蒙古工业大学 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
Liang et al. An end-to-end discriminative approach to machine translation
US10073673B2 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
US10268685B2 (en) Statistics-based machine translation method, apparatus and electronic device
CN110895932B (zh) 基于语言种类和语音内容协同分类的多语言语音识别方法
He et al. Decoding with value networks for neural machine translation
CN103189860B (zh) 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN107818141B (zh) 融入结构化要素识别的生物医学事件抽取方法
CN105068997B (zh) 平行语料的构建方法及装置
CN103631772A (zh) 机器翻译方法及装置
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN112989806A (zh) 一种智能化文本纠错模型训练方法
CN106649289A (zh) 同时识别双语术语与词对齐的实现方法及实现系统
CN102156692A (zh) 统计机器翻译中的基于森林的系统融合方法
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Mermer Unsupervised search for the optimal segmentation for statistical machine translation
Zhang et al. Bidirectional transformer reranker for grammatical error correction
CN106548787B (zh) 优化生词的评测方法及评测系统
JP5555542B2 (ja) 自動単語対応付け装置とその方法とプログラム
US8655640B2 (en) Automatic word alignment
Zheng et al. Directed automatic speech transcription error correction using bidirectional lstm
Huck et al. The Edinburgh machine translation systems for IWSLT 2015
Nabende Applying dynamic Bayesian Networks in transliteration detection and generation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110817