CN101398815A - 一种机器翻译方法 - Google Patents

一种机器翻译方法 Download PDF

Info

Publication number
CN101398815A
CN101398815A CNA2008101149499A CN200810114949A CN101398815A CN 101398815 A CN101398815 A CN 101398815A CN A2008101149499 A CNA2008101149499 A CN A2008101149499A CN 200810114949 A CN200810114949 A CN 200810114949A CN 101398815 A CN101398815 A CN 101398815A
Authority
CN
China
Prior art keywords
translation
forest
node
source language
sentence structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101149499A
Other languages
English (en)
Other versions
CN101398815B (zh
Inventor
米海涛
黄亮
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2008101149499A priority Critical patent/CN101398815B/zh
Publication of CN101398815A publication Critical patent/CN101398815A/zh
Application granted granted Critical
Publication of CN101398815B publication Critical patent/CN101398815B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种机器翻译方法,包括以下步骤:步骤1)分析源语言串,得到源语言串的共享压缩句法森林;步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。本发明利用共享压缩森林来指导翻译,能够从大量的树中搜索翻译结果,远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上,与使用30-best树解码的模型相比,本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。

Description

一种机器翻译方法
技术领域
本发明属于自然语言处理技术领域,具体地说,本发明涉及一种基于树的统计机器翻译技术领域。
背景技术
基于句法的统计机器翻译模型已经成为当前主流的翻译方法,按照输入的不同,可以分为基于串的模型和基于树的模型(基于树的模型可参考Yang Liu,Qun Liu,and Shouxun Lin.2006.Tree-tostring alignment template for statistical machinetranslation.In Proceedings of COLING-ACL,pages 609-616,Sydney,Australia,July.和Liang Huang,Kevin Knight,and Aravind Joshi.2006.Statistical syntax-directed translation with extended domain oflocality.In Proceedings of AMTA.)。与基于串的模型相比,基于树的模型以句法树作为输入,优点是:解码速度快、模型简洁、不需要二叉化;然而该模型有一个缺陷:只使用单棵句法树来指导翻译,由于基于句法的模型对句法分析性能很敏感,导致句法分析错误会引入错误的翻译。一种简单的方法是使用N-best树,对每棵树都解码,最后输出概率最高的翻译结果,但这种方法搜索空间有限,并且不能共享不同树相同的节点,导致许多节点要重复解码,既浪费空间又消耗时间。同时,这种基于树的统计机器翻译系统由于只使用单棵句法树指导翻译,往往会出现翻译错误率过高的问题。
发明内容
本发明的目的是克服现有技术的不足,结合共享压缩森林技术,提出一种能够提高翻译性能,降低翻译时间和存储空间消耗的机器翻译方法。
为实现上述发明目的,本发明提供的机器翻译方法,包括以下步骤:
步骤1)分析源语言串,得到源语言串的共享压缩句法森林;
步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;所述共享压缩翻译森林是一个图G=(节点集合V,翻译超边集合E)。其中,节点是具有句法意义的节点;翻译超边是一个三元组:(翻译规则,头节点,尾节点集合),翻译规则描述了源语言与目标语言对齐关系。共享压缩翻译森林表示了源语言到目标语言的推导过程。
步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。
上述技术方案中,所述步骤1)中,还包括对所述共享压缩句法森林进行剪枝处理;所述步骤2)中,进行匹配的所述句法森林是经过剪枝处理后的共享压缩句法森林。
上述技术方案中,所述剪枝处理的方法是:对于共享压缩句法森林中的每个节点v,计算Viterbi向内概率负对数β(v)、向外概率负对数α(v);对于每个句法超边ep依次计算
αβ ( e p ) = α ( Head ( e p ) ) + Σ v i ∈ Tails ( e p ) β ( v i )
δ(ep)=αβ(ep)-β(TOP)
如果δ(ep)小于预先设定的阈值t,则保留超边ep,否则删除;
其中Head(ep)表示超边ep的头节点,Tails(ep)表示超边ep的尾节点集合,β(TOP)为1-best句法树概率之负对数值。
上述技术方案中,所述步骤1)中,通过句法分析器对源语言串进行分析,所述句法分析器是Charniak parser、Bikel Parser、Stanford parser、Collins Parser或MuskCpars句法分析器。
上述技术方案中,所述步骤2)中,所述源语言与目标语言之间的翻译规则集合中的翻译规则从包含三元组的语料库中抽取得出,所述三元组是源语言树或串,目标语言串或树以及源语言与目标语言间的词语对齐方式。
上述技术方案中,所述翻译规则采用GHKM算法进行抽取。
上述技术方案中,所述步骤3)中,遍历句法分析森林中的每个节点,使用枚举的方式对翻译规则集合和句法森林进行匹配,得到每个节点的翻译超边和与其相应的首尾节点,从而组成翻译森林。
本发明具有如下技术效果:
本发明利用共享压缩森林来指导翻译,能够从大量的树中搜索翻译结果,远远超过了单独使用N-best树的搜索空间。在223万平行双语语料数据集上,与使用30-best树解码的模型相比,本发明的翻译速度快1.4倍、翻译性能高1.7个BLEU点。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1为本发明提供的基于共享压缩森林机器翻译方法总体技术方案的实现流程图;
图2为三元组实例;三元组包括源语言树,目标语言串,源语言与目标语言间的词语对齐;
图3为翻译规则实例;
图4为共享压缩句法森林实例;
图5为共享压缩翻译森林实例。
具体实施方式
如图1所示,图1为本发明提供的基于共享压缩森林的机器翻译解码方法总体技术方案的实现流程图,该方法包括以下步骤:
步骤101)、利用句法分析器分析源语言串并输出共享压缩句法森林;
句法分析的主要任务是将输入的源语言串分析出相应的句法树。可用的短语树句法分析器:Charniak parser、Bikel Parser、Stanford parser、Collins Parser、MuskCpars;句法分析器不仅要输出1-best树,而且要输出整个共享压缩森林,即:最终生成根节点的所有可能的句法分析树组成的共享压缩森林。本实施例中,采用的是MuskCpar分析器可参考Deyi Xiong,Shuanglong Li,Qun Liu,Shouxun Lin,Yueliang Qian.2005.Parsing the Penn Chinese Treebank withSemantic Knowledge.In Proceedings of IJCNL P05,Jeju Island,Korea.。图4给出了一个句法森林实例:节点IP0,6表示该节点标记为IP,跨度为0到6;超边ep1表示一个语法规则:IP0,6(NPB0,1VP1,6);对于每个超边,用Head(ep1)表示头节点:Head(ep1)=IP0,6,Tails(ep1)表示尾节点集合:Tails(ep1)={NPB0,1,VP1,6}。一个或多个相互连接的超边形成句法分析子树片段。句法分析器要输出共享句法分析森林,具体实施方案:从根节点开始递归输出所有节点和相应的句法分析超边。这些节点与超边组成共享压缩句法森林。
步骤102)、利用剪枝算法生成剪枝后共享压缩句法森林;
步骤101输出的整个共享压缩森林含有大量概率很低的垃圾超边和节点,需利用剪枝算法进行缩减,具体剪枝算法如下:
首先,对于共享压缩句法森林中的每个节点v,计算Viterbi向内概率负对数β(v)、向外概率负对数α(v);再对于每个句法超边ep依次计算
αβ ( e p ) = α ( Head ( e p ) ) + Σ v i ∈ Tails ( e p ) β ( v i )
δ(ep)=αβ(ep)-β(TOP)
其中β(TOP)为1-best句法树概率之负对数值,如果δ(ep)小于预先设定的阈值t,则保留超边ep,否则删除。最终将留下的超边和与之相关的节点组成剪枝后的共享压缩句法森林。该方法的特点是对每一条句法超边进行Viterbi向内向外概率计算,而不是对每一个节点进行计算,这样能剪掉更多的垃圾超边,使得剪枝处理更加有效。本步骤中向内概率负对数β(v)、向外概率负对数α(v)的计算方法可参考Charniak,Eugene.1993.Statistical LanguageLearning,MIT Press.Cambridge,Massachusetts.
步骤103)、根据源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林。
以共享压缩句法森林与翻译规则集合
Figure A200810114949D0007131103QIETU
作为输入,利用转换算法生成翻译森林。其中,共享压缩句法森林为步骤102)的输出;翻译规则集合
Figure A200810114949D0007131103QIETU
可通过以下现有技术得到:主要是从三元组(源语言树或串,目标语言串或树,源语言与目标语言的词语对齐)中抽取相应的翻译规则,使用GHKM算法抽取。GHKM算法可参考Michel Galley,Mark Hopkins,Kevin Knight,and Daniel Marcu.2004.What’sin a translation rule?In Proceedings of the Human Language Technology Conference/North AmericanChapter of the Association for Computational Linguistics(HLT/NAACL).
图2给出了一个实例(源语言为汉语、目标语言为英语),利用GHKM算法可以抽出翻译规则。表1中是部分抽出的翻译译规则:
r1=VPB(VV(juxing)AS(le)x0:NPB)→held a x0
翻译译规r1的左部LHS(r1)为一个树结构,如图3所示,规则尾节点集合Tails(r1)={NPB};表示当源语言端树结构为VPB(VV(juxing)AS(1e)NPB),且NPB节点的翻译结果为“meeting”时,VPB覆盖部分的翻译结果:held a meeting。
表1
Figure A200810114949D00081
本实施例中,通过枚举的方式对翻译规则集合和句法森林进行匹配。具体方法如下:
按照先续顺序遍历句法分析森林中的每个节点v,
在对每一个以v为根节点的句法分析超边e进行如下操作:
1、在翻译规则集合
Figure A200810114949D0007131103QIETU
中,查找所有以v的句法标记为根节点且能够覆盖e表示的语法规则的翻译规则r∈
Figure A200810114949D0007131103QIETU
,即:e表示的语法规则为LHS(r)的子树片段(子树片段是指森林或树中连续节点、边组成的子图);
2、对每一个翻译规则r的LHS(r),按照先续遍历LHS(r)每个节点并从v节点开始匹配,先查看LHS(r)的根节点是否与v节点一致,再查看孩子节点是否一致,如果一致则继续匹配下一个孩子节点,直到LHS(r)被遍历完,如果不一致,则返回匹配失败信息。如果匹配成功则生成一个翻译超边e;翻译超边是一个三元组:(翻译规则,头节点,尾节点集合)。例:当搜索到图4中的IP0,6节点时,翻译规则r5:IP(x1:NPB x2:VP)→x1x2与子树片段:IP0,6(NPB0,1VP1,6)完全匹配,即:所有规则左部树结构(IP(NPB VP))与子树片段(IP(NPB VP))树结构及对应节点句法标记都相同,则生成翻译超边e1=(r5,IP0,6,{NPB0,1,VP1,6})。翻译超边与翻译规则对应关系可参考表2。
3、如果2中所有匹配都失败,将根据以v为根节点的所有句法超边生成相应的缺省翻译超边。如:如果VPB36没有可用翻译规则,则根据句法超边ep2=P3,6(VV3,4AS4,5NPB5,6)生成相应的翻译超边et1=(P3,6(x1:VV3,4x2:AS4,5x3:NPB5,6)→x1x2x3,IP3,6,{VV3,4AS4,5NPB5,6}),即我们认为该翻译超边进行顺序翻译。
遍历句法分析森林中的每个节点后,得到每个节点的翻译超边和与其相应的首尾节点,从而组成翻译森林(如图5所示)。
表2
Figure A200810114949D00091
步骤104)、利用柱状解码算法遍历压缩森林并生成最终翻译结果。
以步骤103输出的共享压缩翻译森林作为输入,利用搜索算法生成最终的翻译结果,具体过程如下:
按照后续遍历顺序,自底向上对于共享压缩翻译森林中的每个节点v,对所有的Head(et)=v的翻译超边et,生成相应的翻译假设,再根据柱状图,按照预先设定的阈值剪枝,即:与最高翻译假设得分差值超过某一个设定值则会被剪掉。最终输出翻译假设得分最高的翻译结果。柱状图解码算法以及该解码算法中涉及到的翻译假设得分和柱状图等概念可以参考Philipp Koehn.2004.Pharaoh:a beam search decoder for phrase-based statistical machine translation models.InProceedings of AMTA,pages 115-124.
最后所应说明的是,以上仅用以说明本发明理论原理和技术方案而非限制。本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种机器翻译方法,包括以下步骤:
步骤1)分析源语言串,得到源语言串的共享压缩句法森林;
步骤2)根据已知的源语言与目标语言之间的翻译规则集合,对句法森林进行匹配,得到共享压缩翻译森林;
步骤3)利用搜索算法遍历所述翻译森林生成最终翻译结果。
2.根据权利要求1所述的机器翻译方法,其特征在于,所述步骤1)中,还包括对所述共享压缩句法森林进行剪枝处理;所述步骤2)中,进行匹配的所述句法森林是经过剪枝处理后的共享压缩句法森林。
3.根据权利要求2所述的机器翻译方法,其特征在于,所述剪枝处理的方法是:对于共享压缩句法森林中的每个节点v,计算Viterbi向内概率负对数β(v)、向外概率负对数α(v);对于每个句法超边ep依次计算
αβ ( e p ) = α ( Head ( e p ) ) + Σ v i ∈ Tails ( e p ) β ( v i )
δ(ep)=αβ(ep)-β(TOP)
如果δ(ep)小于预先设定的阈值t,则保留超边ep,否则删除;
其中Head(ep)表示超边ep的头节点,Tails(ep)表示超边ep的尾节点集合,β(TOP)为1-best句法树概率之负对数值。
4.根据权利要求1所述的机器翻译方法,其特征在于,所述步骤1)中,通过句法分析器对源语言串进行分析,所述句法分析器是Charniakparser、Bikel Parser、Stanford parser、Collins Parser或MuskCpars句法分析器。
5.根据权利要求1所述的机器翻译方法,其特征在于,所述步骤2)中,所述源语言与目标语言之间的翻译规则集合中的翻译规则从包含三元组的语料库中抽取得出,所述三元组是源语言树或串,目标语言串或树以及源语言与目标语言间的词语对齐方式。
6.根据权利要求5所述的机器翻译方法,其特征在于,所述翻译规则采用GHKM算法进行抽取。
7.根据权利要求5所述的机器翻译方法,其特征在于,所述步骤3)中,遍历句法分析森林中的每个节点,使用枚举的方式对翻译规则集合和句法森林进行匹配,得到每个节点的翻译超边和与其相应的首尾节点,从而组成翻译森林。
8.根据权利要求1所述的机器翻译方法,其特征在于,所述步骤2)中,所述共享压缩翻译森林是一个图G=(节点集合V,翻译超边集合E),其中,所述节点是具有句法意义的节点;所述翻译超边是一个三元组:翻译规则,头节点,尾节点集合;翻译规则描述了源语言与目标语言对齐关系。
CN2008101149499A 2008-06-13 2008-06-13 一种机器翻译方法 Expired - Fee Related CN101398815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101149499A CN101398815B (zh) 2008-06-13 2008-06-13 一种机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101149499A CN101398815B (zh) 2008-06-13 2008-06-13 一种机器翻译方法

Publications (2)

Publication Number Publication Date
CN101398815A true CN101398815A (zh) 2009-04-01
CN101398815B CN101398815B (zh) 2011-02-16

Family

ID=40517378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101149499A Expired - Fee Related CN101398815B (zh) 2008-06-13 2008-06-13 一种机器翻译方法

Country Status (1)

Country Link
CN (1) CN101398815B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853248A (zh) * 2010-05-27 2010-10-06 河南大学 航空天气报告的解码方法
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102662932A (zh) * 2012-03-15 2012-09-12 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法
CN102693309A (zh) * 2011-05-26 2012-09-26 中国科学院计算技术研究所 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
CN103154939A (zh) * 2010-08-23 2013-06-12 Sk普兰尼特有限公司 使用依存丛林的统计机器翻译方法
CN103189860A (zh) * 2010-11-05 2013-07-03 Sk普兰尼特有限公司 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN103473223A (zh) * 2013-09-25 2013-12-25 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
WO2015169091A1 (zh) * 2014-05-08 2015-11-12 华为技术有限公司 一种机器翻译的方法及其设备
CN110232193A (zh) * 2019-04-28 2019-09-13 清华大学 一种结构化文本翻译方法及装置
CN110506279A (zh) * 2017-04-14 2019-11-26 易享信息技术有限公司 采用隐树注意力的神经机器翻译

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853248B (zh) * 2010-05-27 2012-02-15 河南大学 航空天气报告的解码方法
CN101853248A (zh) * 2010-05-27 2010-10-06 河南大学 航空天气报告的解码方法
CN103154939A (zh) * 2010-08-23 2013-06-12 Sk普兰尼特有限公司 使用依存丛林的统计机器翻译方法
CN103154939B (zh) * 2010-08-23 2016-04-27 Sk普兰尼特有限公司 使用依存丛林的统计机器翻译方法
CN103189860A (zh) * 2010-11-05 2013-07-03 Sk普兰尼特有限公司 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN102693309A (zh) * 2011-05-26 2012-09-26 中国科学院计算技术研究所 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
CN102799578A (zh) * 2011-07-22 2012-11-28 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102799578B (zh) * 2011-07-22 2014-11-05 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102662932A (zh) * 2012-03-15 2012-09-12 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法
CN102662932B (zh) * 2012-03-15 2014-05-14 中国科学院自动化研究所 构建树结构及基于树结构的机器翻译系统的方法
CN103473223A (zh) * 2013-09-25 2013-12-25 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
CN103473223B (zh) * 2013-09-25 2017-05-03 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
WO2015169091A1 (zh) * 2014-05-08 2015-11-12 华为技术有限公司 一种机器翻译的方法及其设备
CN110506279A (zh) * 2017-04-14 2019-11-26 易享信息技术有限公司 采用隐树注意力的神经机器翻译
CN110506279B (zh) * 2017-04-14 2024-04-05 硕动力公司 采用隐树注意力的神经机器翻译
CN110232193A (zh) * 2019-04-28 2019-09-13 清华大学 一种结构化文本翻译方法及装置

Also Published As

Publication number Publication date
CN101398815B (zh) 2011-02-16

Similar Documents

Publication Publication Date Title
CN101398815B (zh) 一种机器翻译方法
Mi et al. Forest-based translation rule extraction
Chiang et al. Parsing arabic dialects
Hwa et al. Bootstrapping parsers via syntactic projection across parallel texts
US10303775B2 (en) Statistical machine translation method using dependency forest
Liu et al. Improving tree-to-tree translation with packed forests
CN104268132B (zh) 机器翻译方法及系统
CN103942192B (zh) 一种双语最大名词组块分离-融合的翻译方法
CN102243626A (zh) 一种基于依存句法树的翻译规则抽取方法和翻译方法
Tu et al. Dependency forest for statistical machine translation
Huang et al. Soft syntactic constraints for hierarchical phrase-based translation using latent syntactic distributions
CN104268133A (zh) 机器翻译方法及系统
CN103020045B (zh) 一种基于谓词论元结构的统计机器翻译方法
Zhang et al. A tree-to-tree alignment-based model for statistical machine translation
CN101989257A (zh) 基于树到树翻译模型的翻译规则抽取方法和翻译方法
KR101740330B1 (ko) 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법
Rambow et al. Parsing arabic dialects
Horvat et al. Hierarchical statistical semantic realization for Minimal Recursion Semantics
Guo et al. Character-level dependency model for joint word segmentation, POS tagging, and dependency parsing in Chinese
Alshawi et al. Learning phrase-based head transduction models for translation of spoken utterances.
Li et al. The extracting method of Chinese-Naxi translation template based on improved dependency tree-to-string
Nakazawa et al. Statistical phrase alignment model using dependency relation probability
Rahul et al. Rule based reordering and morphological processing for English-Malayalam statistical machine translation
Zhu et al. Improving decoding generalization for tree-to-string translation
Gascó et al. ITI-UPV system description for IWSLT 2010

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110216

Termination date: 20210613