CN103020045B - 一种基于谓词论元结构的统计机器翻译方法 - Google Patents
一种基于谓词论元结构的统计机器翻译方法 Download PDFInfo
- Publication number
- CN103020045B CN103020045B CN201210534093.7A CN201210534093A CN103020045B CN 103020045 B CN103020045 B CN 103020045B CN 201210534093 A CN201210534093 A CN 201210534093A CN 103020045 B CN103020045 B CN 103020045B
- Authority
- CN
- China
- Prior art keywords
- argument
- predicate
- pas
- translation
- transformation rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims description 67
- 239000000284 extract Substances 0.000 claims description 11
- 230000008878 coupling Effects 0.000 claims description 7
- 238000010168 coupling process Methods 0.000 claims description 7
- 238000005859 coupling reaction Methods 0.000 claims description 7
- 230000013011 mating Effects 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 7
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于谓词论元结构的统计机器翻译方法,所述方法包括如下步骤:对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果。
Description
技术领域
本发明涉及自然语言处理技术领域,是一种新颖的基于谓词论元结构(简称为PAS)的统计机器翻译方法。
背景技术
当前的统计机器翻译方法主要是从双语语料库中自动学习翻译规则,并利用这些规则对测试语句进行翻译的过程。统计机器翻译模型经历了基于词的、基于短语、以及基于句法结构的翻译模型,翻译质量也取得了长足的发展。然而,当前的翻译模型最多只考虑了句子的层次结构属性,而并没有对句子中的语义知识进行建模。
同时,调序(reordering)一直都是机器翻译研究中的一个既重要又困难的课题。当前的翻译模型对于局部调序(local reordering)进行了很好的建模。然而,对于全局调序(global reordering),也就是把句子的整体结构考虑在内的调序,当前的机器翻译模型并没有非常好的解决办法。因此,如果建立一个机器翻译模型,能够对句子的语义知识进行建模,同时又能够很好地处理全局调序问题,将大大推动机器翻译领域的发展,是一项富有挑战且非常有意义的工作。
谓词论元结构体现了句子中一个谓词和它的所属论元之间的关系。因此,它从某种程度上就指示了句子的语义属性和主体的骨架结构。根据谓词论元结构的特性,发现它不仅仅提供了机器翻译所需要的语义知识,而且提供了一种骨架结构,可以用于在句子的骨架层面进行全局调序。同时,文献【Pascale Fung,Wu Zhaojun,Yang Yongsheng,and Dekai Wu.(2006).Automatic learning of chinese english semantic structure mapping.InIEEE/ACL 2006 Workshop on Spoken Language Technology(SLT 2006)】和【Dekai Wu and Pascale Fung.(2009b).Semantic roles for smt:A hybridtwo-pass model.In Proceedings of Human Language Technologies:The 2009Annual Conference of the North American Chapter of the Association forComputational Linguistics,Companion Volume:Short Papers】还证明了两种语言之间的谓词论元结构比句法结构更能保持结构上的一致性。也就是说,由于当前的基于句法结构的翻译模型总是受到双语句子之间句法结构差异性的限制,谓词论元结构将是句法结构一个非常合适的替代品。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是针对如何有效利用句子中的语义信息,并同时处理机器翻译过程中的全局调序问题,提出了一种基于谓词论元结构的统计机器翻译方法。这种方法使得翻译模型能够充分使用待翻译句子的谓词论元结构中所携带的语义信息,并同时对句子在骨架层面的全局调序进行建模,以提高当前统计机器翻译系统的性能。
(二)技术方案
为了解决上述技术问题,本发明提供一种利用句子的谓词论元结构进行统计机器翻译的方法。所述方法包括如下步骤:对所述双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的对应关系进行建模;利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;根据所述翻译规则的匹配和翻译结果,构造解码超图,最终生成翻译结果。
根据本发明的优选实施例,所述抽取PAS转换规则的具体步骤如下:
步骤1:首先利用自动词对齐的结果对双语联合语义角色标注的结果进行修改,以确定双语谓词论元结构的对应关系;
步骤2:根据双语谓词论元结构的对应关系,抽取PAS转换规则。
步骤3:根据所获得的PAS转换规则,对这些规则进行泛化扩展。
根据本发明的优选实施例,在源语言的谓词论元结构中,若存在多个论元对齐到目标语言的一个或多个论元的情况,不抽取PAS转换规则。
根据本发明的优选实施例,利用基于谓词的规则翻译概率和基于源端谓词论元结构的规则翻译概率来衡量PAS转换规则的置信度。
根据本发明的优选实施例,使用PAS转换规则匹配待翻译句子的多个语义角色标注结果时,只保留那些含有最多的论元或者覆盖了最多词汇的匹配结构。
根据本发明的优选实施例,使用PAS转换规则匹配待翻译句子的多个语义角色标注结果时,使用结构匹配打分来衡量所获得的句子的谓词论元结构的置信度。
根据本发明的优选实施例,使用PAS转换规则进行翻译时时,根据多个句法分析的结果,把间隔词汇附着到与其相邻的元素上。
根据本发明的优选实施例,对匹配得到的谓词论元结构进行翻译时,使用基于CKY模式的解码算法进行翻译。
根据本发明的优选实施例,生成翻译超图时,没有被谓词论元结构覆盖的跨度,使用传统的翻译方法生成翻译候选。
根据本发明的优选实施例,生成翻译超图时,被谓词论元结构覆盖的跨度,使用PAS转换规则,或者传统的翻译方法生成翻译候选。
(三)有益效果
本发明的有益效果是:谓词论元结构描述了句子中谓词和论元之间的关系。它既有效的表示了句子的语义信息,又定义了句子的一种全局骨架结构。本发明能够充分利用谓词论元结构中所携带的语义信息,又能够利用这种骨架结构进行有效的全局调序,对于基于语义的机器翻译有着重大的推动作用。
附图说明
图1是本发明的基于谓词论元结构的统计机器翻译方法的流程图;
图2中(a)是一个双语联合语义角色标注的例子;(b)是完整的PAS转换规则示例;(c)是简化的PAS转换规则示例;
图3是一个使用词对齐对双语联合语义角色标注的结果进行修改的例子;
图4是一个示例句子所获得的多个语义角色标注的结果,以及最终的PAS转换规则匹配的结果;
图5是一个利用句法分析树对间隔词进行附着的例子;
图6是使用基于CKY模式的解码算法对目标端的谓词论元结构TP进行解码的例子;
图7是本发明翻译超图的一个示例;
图8是本发明翻译超图的一个示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提出了一种利用谓词论元结构(简称为PAS)进行统计机器翻译的方法。图1是本发明的总体流程图。如图1所示,本发明首先对双语语料中的双语句子进行自动分词、自动词对齐、句法分析以及双语联合语义角色标注。然后,根据双语联合语义角色标注的结果,抽取PAS转换规则,也就是能够把源语言句子的谓词论元结构转换为目标语言句子的谓词论元结构的规则。然后,本发明把机器翻译的过程分解为三个步骤:1)PAS获取:即通过语义角色标注获取待翻译句子的谓词论元结构,即PAS;2)PAS转换:使用前面从训练语料中得到的PAS转换规则,匹配待翻译句子的谓词论元结构,并利用规则将其转换为目标语言句子的谓词论元结构。3)PAS翻译:根据目标语言句子的谓词论元结构,对各个论元和谓词的翻译结果进行合并,以获取最终的句子翻译结果。
下面就以汉-英平行句子对作为一个实施例来详细阐述本发明的原理与实现方法。该方法包括以下各步骤:
1.对双语语料中的双语句子进行自动分词、自动词对齐、句法分析以及双语联合语义角色标注。具体实施方式如下:
对双语句子对中的源语言句子和目标语言句子进行分词,得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语,则不需要进行分词。如果源语言或目标语言中包含汉语,则需要对汉语进行分词。在本发明的实施例中,以词法分析工具Urheen对汉语进行自动分词。Urheen词法分析工具可以在以下网址免费下载:
http://www.openpr.org.cn/index.php/NLP-Toolkit-for-Natural-Language-Processing/。
得到所述的源语言端和目标语言端的分词结果之后,需要对双语句子对进行词对齐。在本发明的实施例中,使用GIZA++工具对汉-英句子对进行自动词对齐,得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载:http://fjoch.com/GIZA++.html。在使用GIZA++时要选择某个启发式策略来得到对称的词对齐结果,分别选择grow-diag-final-and策略,因为该启发式策略被许多研究工作证明在中英翻译中是最有效的启发式策略。
得到所述的源语言端与目标语言端的分词结果之后,需要对双语句子进行句法分析。在本文的实施例中分别使用Berkeley句法分析器、standford句法分析器以及bike句法分析器对双语句子进行句法分析。它们都可以免费下载,下载地址分别为:
http://code.google.com/p/berke]eyparser/。
http://nlp.stanford.edu/software/lex-parser.shtml
http://www.cis.upenn.edu/~dbikel/software.html
最后,根据【Tao Zhuang and Chengqing Zong,2010.Joint Inference forBilingual Semantic Role Labeling.Proc.of EMNLP 2010.pages 304-314】中的方法对训练语料进行双语联合语义角色标注。语义角色标注是获取谓词论元结构的一个有效方法。双语联合语义角色标注不仅能够同时获得双语两端的谓词论元结构,而且能够获取句子两端论元之间的对齐关系,有利于抽取PAS转换规则。双语联合语义角色标注的结果如图2(a)所示。
2.根据所述的双语两端的谓词论元结构,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的转换关系进行建模。
给定一个双语联合语义角色标注的结果,可以很容易得到一条完整的PAS转换规则,如图2(b)所示。规则中包含了很多句子的语义信息(谓词与论元之间的依赖关系)和双语论元之间的对齐信息。但在这条规则中,并不是所有的信息都会在机器翻译进程中使用。于是对这条规则进行简化,得到了如图2(c)所示的简化的PAS转换规则。利用这样的规则,就能够把汉语谓词论元结构转换为英语的谓词论元结构,然后把各个论元的翻译结果填充到这个英语的谓词论元结构中,就可以获得最终的翻译结果了。
一条简化的PAS转换规则是一个三元组{Pred,SP,TP},其中Pred是源端谓词,SP代表源端的谓词论元结构,TP代表目标端的谓词论元结构。例如,在图2(c)中的规则即为一个三元组,其中Pred为汉语动词“提供”,SP为<[A0]1[AM-ADV]2[A2]3[Pred]4[A1]5>,TP为<X1 X2 X4 X5 X3>。其中,两个结构SP和TP中相同的下标表示两个结构中两个对齐的元素。在这里,用元素表示一个谓词论元结构中的谓词([Pred])或者论元(例如:[A0])。
有了PAS转换规则,对SP的各个元素进行翻译,然后按照TP的模式把各个元素的翻译结果组织起来,就能够得到最终的翻译结果。这就要求SP和TP的元素之间存在着一一对应关系,如此才能把一个SP元素的翻译结果传递给TP元素。
然而,许多情况下,双语联合语义角色标注的结果并不满足这种一一对齐的关系。在源端的谓词论元结构中,有些论元没有对齐到目标端论元,有些论元则对齐到了多个目标端的论元上。为了能够抽取PAS转换规则,使用词对齐对语义角色标注的结果进行修正。对于那些没有对齐到目标端的源端论元,根据词对齐找到它在目标端对应的跨度,即目标语言句子中与源端论元对应的范围。如果这个跨度和目标端的各个论元不交叉,而且这个跨度和源端论元的跨度满足对齐一致性,那么就把这个跨度作为一个虚拟的目标端论元用于抽取PAS转换规则。否则,就不考虑这个源端论元。两个跨度满足对齐一致性是指,根据词对齐,一个跨度中的词汇只能对齐到另外一个跨度中,反之也成立。
对于那些对齐到多个目标端论元的源端论元,找到那个能够覆盖所有与之对齐的目标端论元的最小的连续跨度。同样地,如果这个跨度和其他的目标端论元没有交叉,并且它和源端论元的跨度满足对齐一致性,那么把它作为一个虚拟的目标端论元用于抽取PAS转换规则。否则,不考虑这个源端论元。另外,若存在多个源端论元对齐到一个或多个目标端论元的情况,则不抽取PAS转换规则。
图3是一个使用词对齐对双语联合语义角色标注的结果进行修改的例子,其中(a)是一个待修改的双语联合语义角色标注的例子,(b)是修改后所抽取的简化的PAS转换规则。在图3(a)中,虽然源端论元[AM-ADV]没有对齐到目标端论元,但通过词对齐,把它对齐到了目标端词汇“has”上。而对于源端论元[AM-TMP],把与它对齐的两个目标端论元[AM-TMP]进行合并,形成一个大的目标端论元用于规则抽取。最终,得到如图3(b)所示的PAS转换规则。
另外,在谓词论元结构中,一些修饰论元对于句子的整体结构来说是没有必要的。这里说的修饰论元是指那些前缀为AM的论元。例如,在图3(a)中,[AM-TMP]就是一个修饰论元。如果把它和与它对齐的目标端论元丢弃掉,那么剩余的谓词论元结构仍然是有意义的。因此,可以根据这个结论对PAS转换规则进行扩展,以增加其通用性,称这个过程为规则的泛化扩展。具体地,对于一条PAS转换规则的每一个修饰论元,都可以丢掉它和与它的对齐论元,并用剩余的结构构造一条新的PAS转换规则。这样一来,一条规则中有多少个修饰论元,就可以获得多少条新的PAS转换规则。例如,在图3(a)中,丢掉源端论元[AM-TMP]后,可以得到PAS转换规则,这条规则的Pred是“公布”,SP是<[A1]1[AM-ADV]2[Pred]3>,TP是<X1 X2 X3>。
本发明把所有的PAS转换规则都被存放在一棵Trie树结构中,用TRTrie表示。在这个结构中,使用规则的Pred和SP作为键值,TP作为节点值用于存放。
同时,本发明还使用两个与PAS转换规则息息相关的概率,以衡量PAS转换规则的置信度:基于谓词的规则翻译概率Ppred(r)和基于SP的规则翻译概率PSP(r):
其中,TSP(r)表示规则r的SP和TP。c(r)和c(TSP(r)分别为规则r和TSP(r)出现的次数。Pred(r)和SP(r)分别表示规则r的Pred和SP。概率Ppred(r)中,分母为对所有与当前规则r具有相同谓词Pred的规则进行求和。同理,概率PSP(r)中,分母为对所有与r具有相同源端结构SP的规则进行求和。这两个概率将作为翻译特征用于最终的解码。其中,第一个概率主要用于评价一个特定的源端谓词使用这条PAS转换规则的可能性。而第二个概率则用于衡量哪一个TP更适合于给定的SP。这两个特征从不同的角度对双语谓词论元结构的分布进行建模,能够帮助机器翻译解码器选择合适的PAS转换规则用于翻译。
3.利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译。
本发明把基于谓词论元结构的翻译方法分为三个过程:1)PAS获取:使用一个单语的语义角色标注系统对每一个待翻译句子进行语义角色标注。为了缓和语义角色标注错误带来的消极影响,使用多个语义角色标注的结果。也就是说,对于每个待翻译句子,使用Berkeley句法分析器产生的最好的3棵句法树、Standford句法分析器产生的最好的句法树以及Bikel句法分析器产生的句法树,总共5棵句法树用于语义角色标注。每棵句法树产生一个语义角色标注的结果,将它们综合起来,即得到语义角色标注结果,如图4(a)所示。其中,A0代表谓词“提供”的施事论元,A1表示受事论元,前缀为AM的则为修饰论元。2)PAS转换:使用PAS转换规则匹配所产生的多个语义角色标注结果SP,将其转换为目标端的谓词论元结构TP。3)PAS翻译:根据产生的目标端的谓词论元结构TP,进行解码以生成最终的翻译。
3.1PAS转换
获得待翻译句子的多个语义角色标注的结果之后,根据第2节抽取的PAS转换规则,本发明使用动态规划算法匹配获得待翻译句子所有可能的谓词论元结构。首先,在储存了PAS规则的TRTrie中寻找当前的谓词,并得到节点P_N。从P_N开始,根据语义角色标注的结果,不断的匹配PAS转换规则中的各个元素,也就是沿着TRTrie扩展。最后就能够得到所有可能的谓词论元结构以及对应的PAS转换规则。本发明仅仅保留那些含有数量最多的论元,或者覆盖了最多源端词汇的谓词论元结构。例如,在图4(b)给出了图4(a)的匹配结果。在图4(b)中,匹配结果M1覆盖了最多数量的源端词汇,结果M3含有最多数量的论元,而M2则同时满足了这两个条件。得到匹配的结果之后,根据PAS转换规则,就可以得到目标端的谓词论元结构TP。
本发明中,使用结构匹配得分来衡量匹配的谓词论元结构的置信度。对于一个谓词论元结构<Am1,...,Amn>,例如,<[A0][AM-ADV][A2][Pred][A1]>(图4(b)中的匹配结果M1),它的结构匹配得分为:
在这里,S和Pred分别表示待翻译句子和谓词,m’表示对所有匹配的谓词论元结构进行求和。p(Amj|S,pred)表示语义角色标注系统对元素Amj的概率。结构匹配得分将作为解码器中的一个翻译特征,用于奖励好的谓词论元结构。
3.2间隔词的附着
在一个匹配的谓词论元结构中,相邻的源端元素有时候会被句子中的间隔词分开。例如,在图4(b)中的匹配结果M3中,元素[Pred]和[A1]就被一个间隔词“减税”分开。对于一个谓词论元结构,如果它的元素被间隔词分开,那么这个结构就不是连续的,因此就无法单纯的根据PAS转换规则对其进行翻译。为了解决这个问题,本发明通过句法树,把这些间隔词附着到与之相邻的左侧或右侧的元素上。对于一个间隔词,找到那个能够覆盖它和与它相邻的元素,且高度最低的句法树节点。这个间隔词左侧和右侧的元素各对应一个节点,把间隔词附着到那个高度低的节点所对应的元素上。例如,图5给出了一个利用句法树对间隔词进行附着的例子。在图5的句法树中,与词汇相连接的节点标签代表词性,例如VV代表动词。而更上层的节点标签表示它所覆盖的短语的句法属性。例如,VP覆盖了短语“提供 减税 优惠”,表示一个动词短语,而NP表示名词短语。标签中的下标表示它所覆盖的短语在句子中的范围。间隔词“减税”和元素[A1]的节点是NP11,12,而“减税”和元素[Pred]对应的节点是VP10,12。因此,我们把“减税”附着到[A1]上,就得到了图5中的结果PAS2。
实际情况下,左侧和右侧的元素有时会对应到同一个节点上,这是因为在句法树中一个父节点可以覆盖多个子结点。为了解决这个问题,我们使用【Wei Wang,Kevin Knight,and Daniel Marcu.2007.Binarizing syntaxtrees to improve syntax-based machine translation accuracy.In Proc.of theEMNLP 2007.】中介绍的头节点二叉化的方法,以把句法树转换为二叉树使用。另外,本发明同时使用前面提到的5棵句法树,采用投票的方法(投票的方法指,若2棵句法树的结果是附着到元素a上,有三棵句法树的结果是附着到元素b上,那么就把当前的间隔词附着到元素b上。)确定如何附着一个间隔词。附着之后得到的许多谓词论元结构可能是相同的,例如图4(b)中的匹配结果M2和M3。只保留那个结构匹配得分最高的结果。
3.3PAS翻译
在PAS翻译阶段,本发明使用传统的机器翻译方法对每个元素进行翻译。然后,根据3.1节得到的目标端的谓词论元结构TP,把每个元素的翻译结果进行合并,以得到最终的翻译结果。可以使用【Chiang.2007.Hierarchical phrase-based translation.In Computational Linguistics,33(2):201-228】提出的立方体剪枝的方法直接合并各个元素的翻译结果。然而,由于每个源端元素都是独立翻译的,许多元素的长度很短,导致许多有效的短语翻译规则无法使用,从而大大限制了机器翻译的解码空间,使得翻译质量较差。因此,本发明提出一种基于CKY模式的解码算法对目标端的谓词论元结构TP进行解码。
在基于CKY模式的解码算法中,根据目标端的谓词论元结构TP,把源端元素按照目标语言的顺序组织起来。例如,在图6中,使用图2(c)中的规则把源端元素组织起来,就得到跨度列表[3,5],[6,6],[10,10],[11,12],[7,9]。然后,类似于传统的CKY算法,以自底而上的方式合并这些跨度。两者之间的区别是,此处采用的算法只搜寻所有可能的跨度的合并方式。例如,在图6中,首先对源端相邻的跨度[3,5]和[6,6],以及跨度[10,10]和[11,12]进行合并,然后继续往上合并以得到最终的跨度[3,12]。向上合并的过程中,会产生很多新的跨度,这些跨度的翻译候选来自于两个方面:一是利用立方体剪枝对它的子跨度的翻译候选进行合并,另一方面是直接使用短语翻译规则。这些产生的新的跨度大大增加了搜索空间,从而产生了好的翻译性能。
然而,只有当目标端的谓词论元结构TP能够二叉化时,上述解码算法才能够使用。据统计,本发明所抽取的几乎所有的PAS转换规则中的TP都可以进行二叉化。对于那些不能二叉化的规则,直接使用立方体剪枝的方法来合并翻译候选。
4.根据所述PAS转换规则的匹配和翻译结果,构造解码超图,最终生成整个句子的翻译结果。
谓词论元结构表示了句子的主体结构。然而,有些时候,特别是当一个句子中含有多个谓词时,一个句子并不能完全为一个谓词论元结构所覆盖。因此,为了翻译整个句子,根据基于谓词论元结构的翻译方法,本发明设计了一种CKY类型的解码算法,用于翻译整个句子。
在解码器中,本发明把翻译候选的整个搜索空间组织到一个翻译超图中。对于那些被谓词论元结构所覆盖的跨度(简称PAS跨度),使用多叉边把它和PAS中的各个元素连结起来。而对于没有被谓词论元结构覆盖的跨度(简称非PAS跨度),考虑它所有可能的二分方式,并使用二叉边进行连结,如图7所示。图7是翻译超图的一个示例。图中,n表示句子的长度。跨度[3,n]和跨度[j+1,n]表示PAS跨度。它们的子跨度(即组成这些跨度的小跨度)则都是谓词论元结构中的各个元素的跨度。图8是翻译超图的一个真实例子,其中图8(b)提供了一个真实的翻译超图的例子。示例句子中有两个谓词:“提供”和“说”。谓词“提供”所对应的谓词论元结构是图4(b)中的匹配结果M1和M2,而“说”对应的谓词论元结构如图8(a)所示,图中省略了非PAS跨度。
获得翻译超图之后,本发明以自底而上的方式向超图中的跨度中填充翻译候选。对于PAS跨度,使用第3.3小节介绍的算法生成翻译候选。而对于非PAS跨度,使用传统的机器翻译方法。任意的基于CKY的解码算法都可以在这里使用,例如基于括号转录文法的BTG翻译模型和基于层次短语的翻译模型。在生成较大的跨度的翻译候选时,PAS跨度和非PAS跨度被同等的对待和使用。这是因为不好的谓词论元结构可能危害翻译的质量,而PAS跨度和非PAS跨度的竞争能够使得解码器倾向于使用好的谓词论元结构。
对于一个确定的跨度,使用所述第2节中的两个概率,以及所述3.1小节的结构匹配得分来区分不同的翻译候选。这些概率或得分作为谓词论元结构的特征用于翻译解码。它们的权重和其他的翻译特征(例如,语言模型)的权重一起学习。称这样的系统为基于PAS转换的翻译系统。
在基于PAS转换的翻译系统中,PAS跨度的翻译候选是根据PAS转换规则产生的,而传统的机器翻译方法也可以为相同的PAS跨度产生翻译候选。由于二者是从不同的角度进行翻译的,它们之间是互补的。因此,对于PAS跨度,既可以使用基于谓词论元结构的翻译方法,也可以使用传统的翻译方法。也就是说,PAS跨度的翻译候选可以由这两种方法产生,称这样的翻译系统为基于PAS融合的翻译系统。
在实验中,本发明从语言数据联盟(Linguistic Data Consortium)发布的中-英训练数据中抽取了26万中英句对作为训练语料。为了保证语义角色标注的准确性,限定训练语料的长度在10个词到30个词之间。使用国际机器翻译评测(NIST MT Evaluation)中从2003年至2005年的所有测试集MT03-MT05作为开发集和测试集。其中MT03作为开发集,用来优化机器翻译系统中各个翻译特征的权重。测试集为MT04和MT05的并集。同样地,为了保证语义角色标注的准确性,也限定开发集和测试集的句子长度都在10个词到30个词之间。
在目标语言模型的训练中,采用开源的SRILM语言模型训练工具。除了使用训练语料的目标语言部分外,还加入了英语Gigaword语料中Xinhua部分约181,1000,000个单词,最终训练了一个5元语法的语言模型。SRILM语言模型训练工具可从下面的网站免费下载:
http://www-speech.sri.com/projects/srilm/download.html。
本发明所使用的基线系统是基于括弧转录文法的BTG系统(简写为BTG)。使用PAS(BTG)来表示基于PAS转换的系统,使用PAS+BTG来表示基于PAS融合的系统。同时,还使用了Moses作为对比系统,因为Moses是被广泛公认的最好的翻译系统之一。另外,使用大小写不敏感的BLEU-4【Papineni,Kishore.,Roukos,Salim,Ward,Todd,and Zhu Wei-Jing.2002.BLEU:a method for automatic evaluation of machine translation.In Proc.ofACL.】作为评测指标。
在训练数据中,共抽取得到226968对相互对齐的谓词对,并从中抽取了92278条PAS转换规则。为了详细分析这些规则,附表1给出了这些规则中最多的5条保序规则和调序规则。
附表1:数量最多的5条保序规则和5条调序规则。5条保序规则的数量从1745到5101,而5条调序规则的数量从157到339。
首先分析这些调序规则。谓词“提供”的PAS转换规则把元素[A2]移动到元素[Pred]和[A1]后面。一般情况下,[A2]是介词短语,以介词“为”或者“向”开头。正如图2(a)所示,对于中英翻译来说,把介词短语移动到动词短语后面是正确的。从这些PAS转换规则就可以看出,本发明根据整个谓词论元结构对结构中的各个元素进行顺序的调整,说明本发明基于谓词论元结构的统计机器翻译方法非常有利于全局调序。
对于保序规则,这5条规则都归结于三个元素:[A0]、[Pred]和[A1]。这说明了中文和英文都是主谓宾语序的语言。因此,在中英翻译中,可以根据保序的规则保持句子的主谓宾总体结构不变。
附表2给出了最终各个系统的翻译结果打分。首先,从表中可以看到,BTG系统要好于Moses,这说明BTG翻译系统是正确的,用来作为本发明的基线对比系统是可靠的。
附表2给出了不同的翻译系统在测试集上的表现(大小写不敏感的BLEU打分)。
翻译系统 | Moses | BTG | PAS(BTG) | PAS+BTG |
BLUE打分 | 32.42 | 32.75 | 33.13 | 33.89 |
附表2充分验证了本发明的基于谓词论元结构的机器翻译方法的有效性。无论是基于PAS转换的系统PAS(BTG),还是基于PAS融合的系统PAS+BTG,都要比BTG系统要好。特别是PAS+BTG系统,在测试集上,它比基线系统BTG系统提高了1.14BLEU值。
由于本发明的方法不是针对两种特定的语言而提出的,所以本发明的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行了实验,但本发明同时也适用于其它语言对。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.基于谓词论元结构的统计机器翻译方法,其特征在于包括如下步骤:
步骤1:基于谓词论元结构对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注;
步骤2:根据所述双语联合语义角色标注的结果,抽取所述双语句子对的PAS转换规则,以对两种语言的谓词论元结构之间的关系进行建模;
步骤3:利用所述PAS转换规则,使用基于CKY模式的解码算法,匹配待翻译句子的多个语义角色标注结果,并相应进行翻译;
步骤4:根据所述PAS转换规则的匹配和翻译结果,构造翻译超图,最终生成翻译结果;
其中,抽取PAS转换规则的具体步骤如下:
步骤21:首先利用自动词对齐的结果对双语联合语义角色标注的结果进行修正,以确定双语谓词论元结构的对应关系;
步骤22:根据双语谓词论元结构的对应关系,抽取PAS转换规则;
步骤23:根据所获得的PAS转换规则,对这些规则进行泛化扩展。
2.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于,所述修正具体为:
对于没有对齐到目标端的源端论元,如果根据词对齐,其跨度和目标端的各个论元不交叉,而且这个跨度和源端论元的跨度满足对齐一致性,就把这个跨度作为一个虚拟的目标端论元用于抽取PAS转换规则;否则,不考虑这个源端论元;
对于对齐到多个目标端论元的源端论元,找到能够覆盖所有与之对齐的目标端论元的最小的连续跨度,如果这个跨度和其他的目标端论元没有交叉,并且它和源端论元的跨度满足对齐一致性,把它作为一个虚拟的目标端论元用于抽取PAS转换规则;否则,不考虑这个源端论元;
若存在多个源端论元对齐到一个或多个目标端论元的情况,则不抽取PAS转换规则。
3.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于,所述泛化扩展包括:
将谓词论元结构中的修饰论元和与它对齐的目标端论元丢弃掉,用剩余的结构构造一条新的PAS转换规则。
4.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:建模时利用基于谓词的规则翻译概率和基于源端谓词论元结构的规则翻译概率来衡量PAS转换规则的置信度。
5.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果时,只保留那些含有最多的论元或者覆盖了最多源端词汇的匹配结构。
6.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:利用所述PAS转换规则,匹配待翻译句子的多个语义角色标注结果时,使用结构匹配得分来衡量所获得的句子的谓词论元结构的置信度。
7.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:使用PAS转换规则进行翻译时,把间隔词汇附着到与其相邻的元素上。
8.根据权利要求1或7所述的基于谓词论元结构的统计机器翻译方法,其特征在于:使用PAS转换规则进行翻译时,根据多棵句法分析树,使用投票的方法把间隔词汇附着到与其相邻的元素上。
9.根据权利要求8所述的基于谓词论元结构的统计机器翻译方法,其特征在于:把间隔词汇附着到与其相邻的元素上后,若存在完全相同的结构,那么只保留其中结构匹配得分最高的一个。
10.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:步骤3中使用的基于CKY模式的解码算法只搜寻所有可能的跨度的合并方式。
11.根据权利要求10所述的基于谓词论元结构的统计机器翻译方法,其特征在于:合并后产生的新跨度的翻译候选来自于两个方面:一是利用立方体剪枝对它的子跨度的翻译候选进行合并,另一个是直接使用短语翻译规则。
12.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:生成翻译超图时,没有被谓词论元结构覆盖的跨度,使用传统的翻译方法生成翻译候选。
13.根据权利要求1所述的基于谓词论元结构的统计机器翻译方法,其特征在于:生成翻译超图时,被谓词论元结构覆盖的跨度,使用PAS转换规则,或者传统的翻译方法生成翻译候选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210534093.7A CN103020045B (zh) | 2012-12-11 | 2012-12-11 | 一种基于谓词论元结构的统计机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210534093.7A CN103020045B (zh) | 2012-12-11 | 2012-12-11 | 一种基于谓词论元结构的统计机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103020045A CN103020045A (zh) | 2013-04-03 |
CN103020045B true CN103020045B (zh) | 2015-05-13 |
Family
ID=47968662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210534093.7A Active CN103020045B (zh) | 2012-12-11 | 2012-12-11 | 一种基于谓词论元结构的统计机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103020045B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111917B (zh) * | 2013-04-19 | 2017-04-12 | 富士通株式会社 | 数据处理装置、数据处理方法以及电子设备 |
CN103577398B (zh) * | 2013-10-17 | 2016-05-25 | 中国科学院计算技术研究所 | 一种基于谓词论元结构的层次机器翻译方法及系统 |
CN104268133B (zh) * | 2014-09-11 | 2018-02-13 | 北京交通大学 | 机器翻译方法及系统 |
CN104268132B (zh) * | 2014-09-11 | 2017-04-26 | 北京交通大学 | 机器翻译方法及系统 |
CN105824800B (zh) * | 2016-03-15 | 2018-06-26 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN107025220A (zh) * | 2016-10-25 | 2017-08-08 | 西北民族大学 | 一种融合形式化语法和语言学语法的藏汉机器翻译方法 |
CN110334360B (zh) * | 2019-07-08 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 机器翻译方法及装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
CN101989260B (zh) * | 2009-08-01 | 2012-08-22 | 中国科学院计算技术研究所 | 统计机器解码特征权重的训练方法和解码方法 |
CN101908042B (zh) * | 2010-08-09 | 2016-04-13 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
-
2012
- 2012-12-11 CN CN201210534093.7A patent/CN103020045B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN103020045A (zh) | 2013-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020045B (zh) | 一种基于谓词论元结构的统计机器翻译方法 | |
JP3385141B2 (ja) | 機械翻訳システム | |
Tiedemann | Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing | |
CN102799578B (zh) | 一种基于依存句法树的翻译规则抽取方法和翻译方法 | |
Shen et al. | String-to-dependency statistical machine translation | |
KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
CN102117270A (zh) | 一种基于模糊树到精确树的统计机器翻译方法 | |
Alqudsi et al. | A hybrid rules and statistical method for Arabic to English machine translation | |
CN106156013B (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Nesson et al. | Induction of probabilistic synchronous tree-insertion grammars for machine translation. | |
CN108491399A (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
Lavie et al. | Experiments with a Hindi-to-English transfer-based MT system under a miserly data scenario | |
Liu et al. | Joint parsing and translation | |
Liu et al. | Maximum entropy based rule selection model for syntax-based statistical machine translation | |
Cmejrek et al. | Czech-English Dependency Tree-Based Machine Translation | |
Jiang et al. | Relaxed cross-lingual projection of constituent syntax | |
Cicekli et al. | Learning translation rules from a bilingual corpus | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
Chang et al. | A corpus-based statistics-oriented transfer and generation model for machine translation | |
Wong | Learning for semantic parsing using statistical machine translation techniques | |
Venkatapathy et al. | A discriminative approach for dependency based statistical machine translation | |
Güvenir et al. | Corpus-based learning of generalized parse tree rules for translation | |
Probst | Automatically induced syntactic transfer rules for machine translation under a very limited data scenario | |
Blahuš et al. | Extending Czech WordNet using a bilingual dictionary | |
Cicekli | Inducing translation templates with type constraints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |