CN102799578B - 一种基于依存句法树的翻译规则抽取方法和翻译方法 - Google Patents
一种基于依存句法树的翻译规则抽取方法和翻译方法 Download PDFInfo
- Publication number
- CN102799578B CN102799578B CN201210227973.XA CN201210227973A CN102799578B CN 102799578 B CN102799578 B CN 102799578B CN 201210227973 A CN201210227973 A CN 201210227973A CN 102799578 B CN102799578 B CN 102799578B
- Authority
- CN
- China
- Prior art keywords
- node
- word
- rule
- qualifier
- centre word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供基于依存句法树的翻译规则抽取方法及翻译方法,将翻译调序关系直接表示于源端为中心词及其所有修饰成分组成的依存句法树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。通过这种方法抽取的翻译规则,可以提高了基于依存句法树的翻译方法的性能。在154万平行双语语料数据集上,本发明的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于依存句法树的统计机器翻译方法。
背景技术
依存文法是自然语言处理中最为流行的文法之一。与短语结构文法相比,依存文法兼具语法和语义信息,具有以下特点:依存结构具有最好的短语结合性质(phrasal cohesion properties);依存边给出了语义信息。因此,依存文法是机器翻译领域中非常具有吸引力的资源。但是现有的依存句法树到串模型(参考文献1:Deyi Xiong,Qun Liu,and Shouxun Lin.ADependency Treelet String Correspondence Model for Statistical MachineTranslation.In Proceedings of Second Workshop on Statistical MachineTranslation.2007.)以源语言依存句法树中的任意连通子图作为翻译规则的基本结构,这种翻译规则没有明确的语言学意义,更重要的是这种翻译规则不能表达全部的调序关系,需要借助启发式或调序模型来约束翻译得到的串的词序以完成整个翻译过程。此外,即使引入启发式或调序模型来约束翻译结果的词序,现有依存句法树到串模型的性能依然落后于主流的成分树到串模型(参考文献2:Yang Liu,Qun Liu,and Shouxun Lin.2006.Tree-to-String Alignment Template for Statistical Machine Translation.In Proceedings of COLING/ACL 2006,pages 609-616,Sydney,Australia,July.)。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于依存句法树的翻译方法,通过将调序关系直接表示于翻译规则中来提高翻译的性能。
本发明的目的是通过下述技术方案实现的:
一方面,本发明提供了一种基于依存句法树的翻译规则抽取方法,包括以下步骤:
步骤1)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点n标记中心词跨度和依存跨度,所述中心词跨度是与n对齐的所有目标词的位置的集合;所述依存跨度指以n为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;
步骤2)对源语言依存树中对齐一致的节点,生成中心词规则;
步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;
其中所述中心词-修饰词片段为以中心(head)词为根节点,以修饰(dependent)词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词(head-dependent)片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
根据本发明实施例的翻译规则抽取方法,其中步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括:
(i)中心词节点的中心词跨度对齐一致,
(ii)所有修饰词的依存跨度不为空,
(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交;
根据本发明实施例的翻译规则抽取方法,步骤3)包括以下步骤:
(3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;
(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,
a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;
b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。
根据本发明实施例的翻译规则抽取方法,步骤3)还包括以下步骤:
(3-3)改变词汇化中心词-修饰词规则的源语言端的一个或多个节点为非词汇化约束变量,得到非词汇化中心词-修饰词规则的源语言端;
(3-4)如果被改变的节点对应于依存句法树的内部节点,则目标语言端不变;否则,将该节点对应的目标语言端端变为一个新的变量,得到非词汇化中心词-修饰词片段规则的目标语言端。
又一方面,本发明还提供了一种基于依存句法树的翻译方法,包括以下步骤:
步骤5-1)通过分析源语言串得到源语言串的依存句法树;
步骤5-2)遍历源语言串的依存句法树,通过枚举中心词-修饰词片段所对应修饰关系的所有实例的来对翻译规则集合和依存句法树进行匹配,直到访问源语言串的依存句法树的所有节点为止;
其中,所述的翻译规则集合包括中心词-修饰词规则,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
根据本发明实施例的翻译方法,所述步骤5-1)中通过依存句法分析器对源语言串进行分析获得源语言串的依存句法树。
根据本发明实施例的翻译方法,所述步骤5-1)中通过成分树句法分析器分析源语言串得到成分句法树并将其映射为源语言串依存句法树。
根据本发明实施例的翻译方法,所述步骤5-2)中所述的翻译规则是根据上面的实施例的翻译规则抽取方法得到的规则。
根据本发明实施例的翻译方法,所述步骤5-2)包括以下步骤:
后序遍历源语言依存句法树,对于访问到的每个源语言串依存句法树的节点,
步骤5-2-1)若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节点不变;
步骤5-2-2)如果该节点为内部节点,则枚举以该节点为中心词的中心词-修饰词片段所对应修饰关系的所有词汇化与非词汇化实例,在翻译规则集合查找匹配的规则,使用找到的翻译规则进行翻译;
步骤5-2-3)如果在步骤5-2-2)中没有找到匹配的翻译规则,则根据中心词-修饰词片段的词序进行顺序翻译;
重复步骤5-2-1)、5-2-2)和5-2-3)直到访问了源语言串依存句法树的所有节点为止。
与现有技术相比,本发明的优点在于:
直接将翻译调序信息表示于源端为中心(head)节点及其所有修饰(dependent)节点组成的树片段、目标端为串的翻译规则中,更好的利用了依存句法树包含的语法和语义知识,从而使翻译规则可以明确地指导翻译过程。在154万平行双语语料数据集上,本发明实施例中的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为依存句法树的一个示例;
图2(a)、图2(b)和图2(c)为图1所示的依存句法树所包含的三个中心词-修饰词片段的示意图;
图3(a)为根据本发明实施例的兼具翻译和调序两种功能的中心词-修饰词规则的示意图;
图3(b)为根据本发明实施例的中心词规则的示意图;
图4为根据本发明实施例的为每个节点标记了中心词跨度和依存跨度的依存句法树的示意图;
图5为根据本发明实施例的词汇化中心词-修饰词规则生成过程的示意图;
图6为根据本发明实施例的具有一个非词汇化节点的非词汇化中心词-修饰词规则生成过程的示意图;
图7为根据本发明实施例提供的基于依存句法树的翻译方法的流程示意图;
图8为根据本发明实施例提供的翻译方法中规则匹配的示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的一个实施例中,提供了一种基于依存句法树的翻译规则抽取方法。该方法从包含三元组的语料库中抽取翻译规则,所述三元组为源语言依存句法树、目标语言串以及源语言与目标语言间的词语对齐关系,即(源语言依存句法树,目标语言串,对齐)。在本实施例中,源语言和目标语言间的对齐关系通过对齐工具GIZA++(参考文献3:Franz Josef Och,Hermann Ney."A Systematic Comparison of Various Statistical AlignmentModels",Computational Linguistics,volume 29,number 1,pp.19-51 March2003.)自动获得。本领域普通技术人员应理解在其他实施例中可以采用现有的其他对齐工具来获得源语言和目标语言间的词语对齐关系。下面以图1为例来具体说明本实施例的基于依存句法树抽取翻译规则的方法。
图1给出了一个中文句子“2010年FIFA世界杯在南非成功举行”的依存句法树(也可简称为依存树)。为了便于下文中对抽取翻译规则方法的说明,对图1所示的依存句法树的每个节点标记了对应词的词性。所述词性标记为美国宾州大学中文语言处理计划定义的标记(参考文献4:Xia,Fei.2000.The Part-of-Speech Tagging Guidelines for the Penn ChineseTreebank(3.0).http://www.cis.upenn.edu/~chinese/posguide.3rd.ch.pdf.)。例如,节点“举行/VV”指“举行”的词性为动词,“成功/AD”指“成功”的词性为副词,“2010年/NT”指“2010年”的词性为表示时间的名词,“世界杯/NR”指“世界杯”为专有名词等。
在本实施例中要抽取的翻译规则包括中心词-修饰词规则和中心词规则两种类型的规则。其中,中心词规则的源语言端为中心词,目标语言端为串,用于翻译词语。中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,其给出了源语言端和目标语言之间的调序关系,同时兼有翻译和调序的功能。
所述中心词-修饰词片段为中心词节点与其孩子节点组成的依存句法树片段(如图2所示)。图2给出了图1所示的依存句法树中包含的三个中心词-修饰词片段。其中,图2(a)是以“举行”为中心词,“世界杯”、“在”和“成功”为修饰词组成的中心词-修饰词片段,其中“*”指明节点为依存句法树的内部节点。该中心词-修饰词片段对应一个句子模式,由依存边及各节点的词性确定。例如,该中心词-修饰词片段对应由一个“专有名词短语”、一个“介词短语”、一个“副词”及一个“动词”组成的句子模式,说明如下修饰关系:动词被一个名词短语(做为主语),一个介词短语和一个副词修饰;图2(b)是以“世界杯”为中心词,“2010年”和“FIFA”为修饰词组成的中心词-修饰词片段。该中心词-修饰词对应一个短语模式。即由两个“专有名词”和一个“表示时间的名词”组成的名词短语模式,说明如下修饰关系:一个“专有名词”可以被一个“表示时间的名词”和另一个“专有名词”修饰组成名词短语。图2(c)是以“在”为中心词,“南非”为修饰词组成的中心词-修饰词片段。该中心词-修饰词对应一个短语模式。即由一个“介词”和一个“专有名词”组成的介词短语模式,说明如下修饰关系:一个“介词”可以被一个“专有名词”修饰组成介词短语。
图3(a)为中心词-修饰词规则的示例。图3(a)所示规则的源语言端(左端)对应的中心词节点与其孩子节点组成的依存句法树片段;其中,下划线表示该节点为叶子节点;“x1:世界杯”和“x2:在”为词汇化约束变量,表明节点可分别由以“世界杯”和“在”为根的子树替换;“x3:AD”为词性约束变量,表明节点可以由词性为AD的词替换。图3(a)所示规则的目标语言端(右端)为串“x1 was held x3 x2”。该中心词-修饰词规则左右两端的变量的对应关系说明了源语言端和目标语言端之间的调序关系,其中源语言端的“x1:世界杯”,“x2:在”和“x3:AD”分别与目标语言端的“x1”、“x2”和“x3”对应。该中心词-修饰词规则捕捉了这样的语言现象,汉语中介词短语和副词通常放在动词之前,而在英语中介词短语和副词通常放在动词之后。
与现有工作将翻译规则表示在源语言依存句法树中任意连通子图的方法相比,中心词-修饰词规则具有以下优点:1)语言学意义更加清晰明确,直接捕捉源语言的句式和短语模式,而这些模式已经被语言学家广泛接受;2)负责全部的调序工作,与中心词规则配合,不需要借助启发式或调序模型即可完成整个翻译过程。例如,图3(a)的中心词-修饰词规则捕捉到句式“名词短语+介词短语+副词+动词”的一个实例的翻译方式,其明确指明了动词为“举行”、名词短语为“世界杯”组成的名词短语、介词短语为“在”组成的介词短语时的翻译方法。
图3(b)为中心词规则的示例,这类规则的源语言端为中心词,目标段为串,用于翻译词语。如图3(b)所示的规则指明“成功”可以翻译为“successfully”。
现参考图4、图5和图6来说明基于依存树抽取翻译规则的方法,具体包括如下步骤:
步骤1),对于给定的三元组,利用源语言和目标语言间的词语对齐关系对源语言依存句法树的每个节点n标记如下两个属性:
中心词跨度:与n对齐的所有目标词的位置的集合;
依存跨度:以n为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包。当以n为根的子树中不存在对齐一致的节点时,该节点的依存跨度为空。
图4所示的是为每个节点标记了中心词跨度和依存跨度的依存句法树的一个实施例的示意图。其中,例如目标语言串为“2010 FIFA World Cupwas held successfully in South Africa”,为了说明的方便,对目标语言串中的每个词的位置分别编号为1-10,例如2010对应位置1,FIFA对应位置2,World对应位置3,Cup对应位置4,……,Africa对应位置10。源语言串为“2010年FIFA世界杯在南非成功举行”。那么对于这个源语言串的依存句法树的节点“世界杯”,与其对齐的目标词为“World Cup”,与其对齐的目标词的位置的集合为{3,4},因此该节点的中心词跨度为{3,4}。对于每个节点标记两个跨度,前一个跨度为中心词跨度,后一个跨度为依存跨度,例如以节点“举行/VV”为例,{6}为中心词跨度,而{2-10}为依存跨度。如上所述,对于每个节点的依存跨度是以该节点为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包。所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空。例如,由于GIZA++的对齐通常带有错误,如图4中“2010年”和“在”均被错误地对齐到目标语言中的“was”,这导致这两个节点的中心跨度交集不为空,因此这两个节点都不是对齐一致的。除这两个节点之外,其他节点的中心词跨度均不与依存句法树中的除该节点外的其他节点的中心词跨度相交,因此是对齐一致的。所述集合的闭包是包含该集合所有位置的、最小的连续位置组成的集合。现以图5中节点“世界杯”和“2010年”为例说明依存跨度。以“世界杯”为根的子树包含“2010年”、“FIFA”和“世界杯”三个节点,其中“2010年”对齐不一致,而节点“FIFA”和“世界杯”对齐一致,两个节点的中心词跨度分别为{2}和{3,4},因此节点“世界杯”的依存跨度为{2,3,4}。为便于书写面,图4中将{2,3,4}记为{2-4}。节点“2010年”是叶子节点,且不是对齐一致的,所以其依存跨度为空,图4中以{}表示。
在本发明的实施例中的依存跨度不同于GHKM方法(参考文献5:M.Galley,M.Hopkins,K.Knight,and D.Marcu.2004.What’s in atranslation rule?In Proc.of HLT/NAACL-04)及短语系统(参考文献6:Philipp Koehn,Franz Josef Och,Daniel Marcu,Statistical phrase-basedtranslation,Proceedings of the 2003 Conference of the North AmericanChapter of the Association for Computational Linguistics on Human LanguageTechnology,p.48-54,May27-June 01,2003,Edmonton,Canada.)中的跨度的概念。由于GHKM中的跨度和短语系统中的跨度本质上是相同的,此处仅比较本发明所提出的依存跨度和GHKM跨度的区别。首先,依存跨度和GHKM跨度基于不同的语言学直觉,依存跨度的直觉是“语义上近邻的词倾向于在不同的语言中保持近邻”,而GHKM跨度的直觉是“连续短语倾向于在不同语言中保持连续”。其次,使用GHKM跨度会失去一些捕捉有用语言学句式的机会。以图4的对齐关系为例,由于节点“2010年”和“在”的对齐错误,对于中心词“举行”和修饰词“世界杯”、“在”和“成功”组成的中心词-修饰词片段,节点“世界杯”和“在”的GHKM跨度将分别为{1-5}和{5-10},两个节点的GHKM跨度均与中心词节点“举行”中心词跨度{6}重叠,且节点“在”的GHKM跨度与节点“成功”的GHKM跨度(同中心词跨度){9,10}重叠,从而导致无法获得该中心词-修饰词片段相关的翻译规则。
步骤2)对对齐一致的节点生成中心词规则,例如,对于“成功”“世界杯”“南非”等节点采用与短语系统相同的方法(参考文献7:F.Och,H.Ney,The Alignment Template Approach to Statistical Machine Translation,Computational Linguistics,2004.)来生成翻译规则,例如“成功→successfully”;“世界杯→World Cup”“南非→South Africa”等。
步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成具有相同修饰关系的所有词汇化和非词汇化翻译规则:
i)中心词节点的中心词跨度对齐一致,
ii)所有修饰词的依存跨度不为空,
iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交。
图4中用阴影标记了所有对齐一致的节点,方框标记了所有依存跨度不为空的节点。可以很容易的判断出,图4中仅有一个中心词-修饰词片段满足如上条件,即由节点“世界杯”、“在”、“成功”和“举行”组成的中心词-修饰词片段。从该中心词-修饰词片段中,可以生成一系列词汇化和非词汇化中心词-修饰词规则,具体过程如下:
(1)词汇化中心词-修饰词规则生成
提取中心词-修饰词片段对应的词汇化修饰关系,即完全由中心词-修饰词片段的依存边和各节点的词组成的修饰关系,将对应于源语言依存句法树中内部节点的节点标记为词汇化约束的变量,得到翻译规则的源语言端。所述修饰关系是指中心词-修饰词片段所对应的句子或短语模式实例。现以图5为例说明该过程,例如,提取出对应的修饰关系,例如,(世界杯)(在)(成功)举行,将对应于源语言依存句法树的内部节点的“世界杯”和“在”两个节点分别标记为词汇化约束的变量“x1:世界杯”和“x2:在”,从而得到中心词-修饰词规则的源语言端。
按照如下过程生成词汇化中心词-修饰词规则的目标端。首先,按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点。对于上述修饰关系实例中的每个节点:如果该节点是词汇化的,且该节点为中心词节点或者依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;如果该节点为依存句法树的内部节点,则用该节点对应的词汇化约束变量替换该节点。
现以图5为例说明说明该过程。按照集合中最小元素从小到大排序对中心词“举行”的中心词跨度及修饰词“世界杯”、“在”和“成功”的依存跨度进行排序,排序得到的序列为{2-4}(世界杯)、{6}(举行)、{7}(成功)和{9,10}(在)。为了清晰起见,在图5中直接给出了排序后各跨度对应的英文串(见图5左下部的英文串)。虚线表明了英文串与中心词-修饰词片段中各节点的对应关系。由于节点“世界杯”和“在”为依存句法树的内部节点,对应部分替换为变量x1和x2,从而得到规则的目标端“x1held successfully x2”。
(2)非词汇化中心词-修饰词规则生成
由于完全使用词汇化规则会带来数据稀疏问题,为了缓解这一问题,从词汇化的中心词-修饰词规则中生成了一系列非词汇化中心词-修饰词规则,具体方法如下:改变词汇化中心词-修饰词规则的源语言端,将一个或多个节点修改为非词汇化约束变量(例如词性约束变量、依存类型约束变量),得到非词汇化中心词-修饰词规则的源语言端;如果被改变的节点为依存句法树的内部节点,则目标端不变;否则,将该节点对应的目标端变为一个新的变量。对于包含m个节点的中心词-修饰词片段,通过这一过程可以得到2m-1个非词汇化中心词-修饰词规则。
图6示例了将一个节点转变为非词汇化约束的变量得到四条非词汇化中心词-修饰词规则的过程。四条规则中,第一条通过将中心词“举行”转变为词性约束变量“x4:VV”、对应目标端转变为变量x4得到;第二条通过词汇化约束变量“x1:世界杯”转变为词性约束变量“x1:NR”得到;第三条通过词汇化约束变量“x2:在”转变为词性约束变量“x2:P”得到;第四条通过将修饰词“成功”转变为词性约束变量“x4:AD”得到,下划线表示该变量为叶子节点。同理,可以得到同时改变两个、三个和四个节点为词性约束变量的非词汇化中心词-修饰词规则。
表1给出了通过上述步骤可以从图4所示的三元组(源语言依存句法树树,目标语言串,对齐)抽取的部分翻译规则实例。
表1
R1:(x1:世界杯)(x2:在)(x3:AD)举行→x1 was held x3 x2 |
R2:(x1:NR)(x2:P)(x3:AD)举行→x1 was held x3 x2 |
R3:(x1:世界杯)(x2:在)(x3:AD)x4:VV→x1 x4 x3 x2 |
R4:(x1:N R)(x2:P)(x3:AD)x4:VV→x1 x4 x3 x2 |
R5:世界杯→World Cup |
R6:举行→held |
R7:南非→South Africa |
表1中,规则中的下划线表示对应的节点为依存句法树的叶子节点。其中,以规则R2为例说明非词汇化中心词-修饰词规则,该规则说明当源语言端(左端)的修饰关系为“动词“举行”被专有名词短语(由x1:NR表示)、介词短语(由x2:P表示)及副词(由带下划线的x3:AD表示)修饰”时的翻译方法。
通过上述方法,直接将翻译调序信息表示于源端为中心节点及其所有修饰节点组成的依存句法树片段、目标端为串的翻译规则中,更好的利用了依存结构包含的语法和语义知识。下面结合图7和图8来讨论根据上述方法得到的翻译规则来进行翻译的方法。
图7为基于依存句法树的翻译方法的一个实施例的流程示意图。该方法是一种依存句法树到串翻译方法。首先通过句法分析器分析源语言串,得到源语言串的依存句法树(也可简称为依存树)(步骤101);然后根据源语言与目标语言之间的翻译规则,利用解码算法对源语言依存句法树进行解码,解码过程每个中心词-修饰词关系可能对应多种匹配的翻译规则,因此解码过程将产生翻译森林,并输出最终的翻译结果(步骤102)。所述翻译森林表示了源语言到目标语言的所有推导过程。其中,翻译规则集合中的翻译规则是根据如图4-6有关的上文所讨论的方法从包含三元组的语料库中抽取得出的(步骤103),所述三元组为(源语言依存句法树,目标语言串,对齐)。下面将更详细地对上述步骤进行讨论。
步骤101,利用句法分析器分析源语言串并输出依存句法树;
句法分析的主要任务是对输入的源语言串进行分析得到相应的依存句法树。在一个实施例中,句法分析器可以是依存句法分析器,通过依存句法分析器分析源语言串得到依存句法树,其中,所采用的依存句法分析器可以是MSTParser、MaltParser等。在又一个实施例中,句法分析器可以是成分树句法分析器,通过成分树句法分析器分析源语言串得到成分句法树,然后通过适当的映射方法(参考文献8:Collins,Michael,1999.Head-Driven Statistical Models for Natural Language Parsing.Ph.D.thesis,University of Pennsylvania,Philadephia,PA.;Marie-Catherine de Marneffe,BillMacCartney and Christopher D.Manning.2006.Generating Typed DependencyParses from Phrase Structure Parses.In LREC2006.)得到依存句法树,其中所采用的成分句法分析器可以是Charniak parser、Charniak-Johnson Parser、Berkeley Parser、Bikel Parser、Stanford parser、Collins Parser、MuskCpars句法分析器等。在本实施例中,采用的是成分句法分析器Stanford parser(参考文献9:Dan Klein and Christopher D.Manning.2003.AccurateUnlexicalized Parsing.Proceedings of the 41 st Meeting of the Association forComputational Linguistics,pp.423-430)。Stanford parser工具包中已经集成相应的转换工具,通过在输入命令中设置-outputFormat选项的值为typedDependencies,可以直接得到输入串的依存句法树。
为了说明的方便,还是以中文句子“2010年FIFA世界杯在南非成功举行”为例进行说明,经过Stanford parser分析得到的依存句法树如图1所示。其中,在图2所示的依存句法树的每个节点标记对应词的词性是为了说明上文中讨论的基于依存句法树的翻译规则的抽取方法,仅其示例作用而不进行任何限制。
步骤102、根据源语言与目标语言之间的翻译规则集合,使用解码算法对源语言依存句法树解码。解码过程将生成翻译森林,并输出最终的翻译结果(即目标语言串)。其中,所述翻译规则集合中的规则包括上文所述的本发明的实施例抽取的中心词-修饰词规则和中心词规则。
在本发明的一个实施例中使用的解码算法后序遍历输入的依存句法树的每个节点,直到根节点完成翻译过程。具体步骤包括:对于访问到的每个节点n,若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节点不变;如果该节点为内部节点,则枚举以n为中心词的中心词-修饰词片段所对应修饰关系的所有词汇化与非词汇化实例,然后在翻译规则集合查找匹配的规则,如果翻译规则中没有匹配的规则,则根据中心词-修饰词片段的词序构造伪翻译规则,然后利用CubePruning算法(参考文献10:D.Chiang.2007.Hierarchical phrase-basedtranslation.Computational Linguistics,33(2).)完成该中心词-修饰词片段的翻译。本发明实施例所提供的解码算法具有以下特点:1)规则匹配只涉及一层,不涉及多层规则匹配;2)若访问的节点n为输入依存句法树的内部节点,则规则匹配不是简单的字面匹配,而是由以n为中心词的中心词-修饰词片段出发,生成所有该中心词-修饰词片段所对应修饰关系的所有实例,然后查找规则集合获得匹配的翻译规则。
下面参考图8来说明具体的匹配和翻译步骤。其中翻译过程使用的翻译规则及其与翻译超边(e1,e2,e3,e4)的对应关系如下:
中心词-修饰词规则:
e1:(x1:2010年)(x2:FIFA)x3:世界杯→x1 x2 x3
e2:在(x1:NR)→in x1
e3:x1:P(南非)→x1 South Africa
e4:(x1:世界杯)(x2:在)(x3:AD)举行→x1 was held x3 x2
中心词规则:
2010年→2010
FIFA→FIFA
世界杯→World Cup
南非→South Africa
南非→Africa
成功→successfully
其中,所述翻译超边是一个三元组:(翻译规则,头节点,尾节点集合),翻译规则描述了源语言与目标语言对应关系。应指出,上述中心词规则和中心词-修饰词规则是从语料库三元组集合中抽取得到,并不限制于图4所示例三元组所抽取的规则范围。
首先,后序遍历源语言依存句法树,对于访问到的每个节点v,
1)如果v为叶子节点,则在翻译规则集合中查找所有以v对应的词为源端的中心词规则,使用查找到的规则翻译该节点。例如,图8中节点“2010年”为叶子节点,从翻译规则集合中查找以“2010年”为源端的中心词规则,找到规则“2010年→2010”,使用该规则翻译节点“2010年”,翻译结果标记于节点下方的方框内。图8中其他叶子节点使用同样的方法进行翻译,结果标记于节点下方的方框内。
2)如果v为内部节点,则枚举所有以v为中心词节点的中心词-修饰词片段对应的修饰关系的所有词汇化和非词汇化实例,在翻译规则集合中查找所有匹配的中心词-修饰词翻译规则。为书写方便,此处使用括号表示方法来表示一个中心词-修饰词片段。如“在”和“南非”组成的中心词-修饰词片段可以表示为“在(南非)”,其中括号内部的为修饰词,括号外部的为中心词。对于内部节点“在”,生成“在”和“南非”组成的中心词-修饰词片段具有如下四个词汇化和非词汇化实例:在(x1:NR)、x2:P(x1:NR)、在(南非)和x2:P(南非)。为了便于表示这种关系,图8中每个节点标记有两个状态:词和引导的词性。如边e2对应非词汇化的实例“在(x1:NR)”表示“由“在”和“专有名词”组成的介词短语”。在图8的示例中,四个词汇化和非词汇化实例中有两个实例(在(x1:NR)和x2:P(南非))在规则集合中匹配到翻译规则,使用匹配的规则翻译该中心词-修饰词片段得到翻译“in South Africa”。
3)如果步骤2中所有词汇化和非词汇化实例在翻译规则集合中均找不到匹配的规则,则根据节点v及其所有修饰词的词序生成伪翻译规则,即认为以v为中心词的中心词-修饰词片段进行顺序翻译。图8中,中心词-修饰词片段“(2010年)(FIFA)世界杯”对应的修饰关系的所有词汇化和非词汇化实例都不能在规则集合中找到匹配的翻译规则。于是,不改变源语言中的次序关系,即根据“(2010年)(FIFA)世界杯”的次序关系来构建伪翻译规则“(x1:2010年)(x2:FIFA)x3:世界杯→x1 x2 x3”,将对应节点的翻译结果顺序拼接起来,得到该片段的翻译结果“2010 FIFA WorldCup”。图8中,该条伪翻译规则对应超边e1,“x”标记表明该边对应伪翻译规则。
重复上述过程,直到访问输入的源语言依存句法树的所有节点。此时翻译过程结束,根节点上具有最高分数的翻译假设即为最终翻译结果。图8中,使用规则“(x1:世界杯)(x2:在)(x3:AD)举行→X1 was held x3 x2”完成以根节点“举行”为中心词的中心词-修饰词片段,得到最终翻译结果“2010 FIFA World Cup was held successfully in South Africa”。
上述本发明具体实施例,直接将翻译调序关系表示于源端为中心词及其所有修饰成分组成的树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。在154万平行双语语料数据集上,本发明的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (9)
1.一种基于依存句法树的翻译规则抽取方法,包括以下步骤:
步骤1)对于由源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系组成的三元组,利用所述对齐关系对源语言依存句法树的每个节点n标记中心词跨度和依存跨度,所述中心词跨度是与节点n对齐的所有目标词的位置的集合;所述依存跨度指以节点n为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;
步骤2)对源语言依存树中对齐一致的节点,生成中心词规则,其中,所述中心词规则的源语言端为中心词,目标语言端为串;
步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;
其中所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
2.根据权利要求1所述的翻译规则抽取方法,其中步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括:
(i)中心词节点的中心词跨度对齐一致,
(ii)所有修饰词的依存跨度不为空,
(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交。
3.根据权利要求1或2所述的翻译规则抽取方法,步骤3)包括以下步骤:
(3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;
(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,
a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;
b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。
4.根据权利要求3所述的翻译规则抽取方法,步骤3)还包括以下步骤:
(3-3)改变词汇化中心词-修饰词规则的源语言端的一个或多个节点为非词汇化约束变量,得到非词汇化中心词-修饰词规则的源语言端;
(3-4)如果被改变的节点对应于依存句法树的内部节点,则目标语言端不变;否则,将该节点对应的目标语言端端变为一个新的变量,得到非词汇化中心词-修饰词片段规则的目标语言端。
5.一种基于依存句法树的翻译方法,包括以下步骤:
步骤5-1)通过分析源语言串得到源语言串的依存句法树;
步骤5-2)遍历源语言串的依存句法树,通过枚举中心词-修饰词片段所对应修饰关系的所有实例的来对翻译规则集合和依存句法树进行匹配,直到访问源语言串的依存句法树的所有节点为止;
其中,所述的翻译规则集合包括中心词-修饰词规则,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
6.根据权利要求5所述的翻译方法,所述步骤5-1)中通过依存句法分析器对源语言串进行分析获得源语言串的依存句法树。
7.根据权利要求5所述的翻译方法,所述步骤5-1)中通过成分树句法分析器分析源语言串得到成分句法树并将其映射为源语言串依存句法树。
8.根据权利要求5所述的翻译方法,所述步骤5-2)中所述的翻译规则是根据权利要求1、2、3或4所述的翻译规则抽取方法得到的规则。
9.根据权利要求5所述的翻译方法,所述步骤5-2)包括以下步骤:
后序遍历源语言依存句法树,对于访问到的每个源语言串依存句法树的节点,
步骤5-2-1)若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节点不变;
步骤5-2-2)如果该节点为内部节点,则枚举以该节点为中心词的中心词-修饰词片段所对应修饰关系的所有词汇化与非词汇化实例,在翻译规则集合查找匹配的规则,使用找到的翻译规则进行翻译;
步骤5-2-3)如果在步骤5-2-2)中没有找到匹配的翻译规则,则根据中心词-修饰词片段的词序进行顺序翻译;
重复步骤5-2-1)、5-2-2)和5-2-3)直到访问了源语言串依存句法树的所有节点为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210227973.XA CN102799578B (zh) | 2011-07-22 | 2012-07-02 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110207750.2 | 2011-07-22 | ||
CN 201110207750 CN102243626A (zh) | 2011-07-22 | 2011-07-22 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN201210227973.XA CN102799578B (zh) | 2011-07-22 | 2012-07-02 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102799578A CN102799578A (zh) | 2012-11-28 |
CN102799578B true CN102799578B (zh) | 2014-11-05 |
Family
ID=44961689
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110207750 Pending CN102243626A (zh) | 2011-07-22 | 2011-07-22 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
CN201210227973.XA Expired - Fee Related CN102799578B (zh) | 2011-07-22 | 2012-07-02 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110207750 Pending CN102243626A (zh) | 2011-07-22 | 2011-07-22 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN102243626A (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577394B (zh) * | 2012-07-31 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 一种基于双数组搜索树的机器翻译方法和装置 |
CN102945231B (zh) * | 2012-10-19 | 2015-03-11 | 中国科学院计算技术研究所 | 一种面向增量式翻译的结构化语言模型构建方法及系统 |
JP6296592B2 (ja) * | 2013-05-29 | 2018-03-20 | 国立研究開発法人情報通信研究機構 | 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム |
CN103473223B (zh) * | 2013-09-25 | 2017-05-03 | 中国科学院计算技术研究所 | 一种基于句法树的规则抽取及翻译方法 |
CN104239290B (zh) * | 2014-08-08 | 2017-02-15 | 中国科学院计算技术研究所 | 基于依存树的统计机器翻译方法及系统 |
CN104268132B (zh) * | 2014-09-11 | 2017-04-26 | 北京交通大学 | 机器翻译方法及系统 |
CN104268133B (zh) * | 2014-09-11 | 2018-02-13 | 北京交通大学 | 机器翻译方法及系统 |
CN104933027B (zh) * | 2015-06-12 | 2017-10-27 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN106844353B (zh) * | 2016-12-30 | 2020-05-08 | 语联网(武汉)信息技术有限公司 | 一种可预测交互翻译方法 |
CN110895660B (zh) * | 2018-08-23 | 2024-05-17 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
CN111615697A (zh) * | 2018-12-24 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 基于文本片段搜索的人工智能医学症状识别系统 |
CN110059324B (zh) * | 2019-04-26 | 2022-12-13 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
CN110309516B (zh) * | 2019-05-30 | 2020-11-24 | 清华大学 | 机器翻译模型的训练方法、装置与电子设备 |
CN112527953B (zh) * | 2020-11-20 | 2023-06-20 | 出门问问创新科技有限公司 | 规则匹配方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398815A (zh) * | 2008-06-13 | 2009-04-01 | 中国科学院计算技术研究所 | 一种机器翻译方法 |
US7596485B2 (en) * | 2004-06-30 | 2009-09-29 | Microsoft Corporation | Module for creating a language neutral syntax representation using a language particular syntax tree |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182547A1 (en) * | 2008-01-16 | 2009-07-16 | Microsoft Corporation | Adaptive Web Mining of Bilingual Lexicon for Query Translation |
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
CN101989257A (zh) * | 2009-07-31 | 2011-03-23 | 中国科学院计算技术研究所 | 基于树到树翻译模型的翻译规则抽取方法和翻译方法 |
CN101706777B (zh) * | 2009-11-10 | 2011-07-06 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
-
2011
- 2011-07-22 CN CN 201110207750 patent/CN102243626A/zh active Pending
-
2012
- 2012-07-02 CN CN201210227973.XA patent/CN102799578B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7596485B2 (en) * | 2004-06-30 | 2009-09-29 | Microsoft Corporation | Module for creating a language neutral syntax representation using a language particular syntax tree |
CN101398815A (zh) * | 2008-06-13 | 2009-04-01 | 中国科学院计算技术研究所 | 一种机器翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102799578A (zh) | 2012-11-28 |
CN102243626A (zh) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102799578B (zh) | 一种基于依存句法树的翻译规则抽取方法和翻译方法 | |
Wong et al. | Learning for semantic parsing with statistical machine translation | |
Quirk et al. | Dependency treelet translation: Syntactically informed phrasal SMT | |
Mi et al. | Forest-based translation rule extraction | |
Cherry et al. | A probability model to improve word alignment | |
US7447623B2 (en) | Machine translation | |
Xie et al. | A novel dependency-to-string model for statistical machine translation | |
US20060142995A1 (en) | Training for a text-to-text application which uses string to tree conversion for training and decoding | |
US20050015240A1 (en) | Machine translation | |
CN104239290B (zh) | 基于依存树的统计机器翻译方法及系统 | |
CN103473223B (zh) | 一种基于句法树的规则抽取及翻译方法 | |
Williams et al. | Ghkm rule extraction and scope-3 parsing in moses | |
Zhang et al. | A tree-to-tree alignment-based model for statistical machine translation | |
CN103020045A (zh) | 一种基于谓词论元结构的统计机器翻译方法 | |
Liu et al. | Maximum entropy based rule selection model for syntax-based statistical machine translation | |
JP6096138B2 (ja) | 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム | |
Varges et al. | Instance-based natural language generation | |
MacKinlay et al. | The effects of semantic annotations on precision parse ranking | |
Gimpel et al. | Quasi-synchronous phrase dependency grammars for machine translation | |
Görgün et al. | English-Turkish parallel treebank with morphological annotations and its use in tree-based smt | |
Wong | Learning for semantic parsing and natural language generation using statistical machine translation techniques | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
Alansary et al. | The universal networking language in action in English-Arabic machine translation | |
Čmejrek | Using Dependency Tree Structure for Czech-English Machine Translation | |
CN107526727A (zh) | 基于统计机器翻译的语言生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141105 Termination date: 20210702 |