CN103473223B - 一种基于句法树的规则抽取及翻译方法 - Google Patents
一种基于句法树的规则抽取及翻译方法 Download PDFInfo
- Publication number
- CN103473223B CN103473223B CN201310450616.4A CN201310450616A CN103473223B CN 103473223 B CN103473223 B CN 103473223B CN 201310450616 A CN201310450616 A CN 201310450616A CN 103473223 B CN103473223 B CN 103473223B
- Authority
- CN
- China
- Prior art keywords
- node
- phrase
- component
- syntax tree
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013519 translation Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 239000012634 fragment Substances 0.000 claims abstract description 69
- 238000012986 modification Methods 0.000 claims abstract description 33
- 239000000470 constituent Substances 0.000 claims description 19
- 230000001419 dependent effect Effects 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 239000003607 modifier Substances 0.000 description 12
- 230000004048 modification Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于句法树的规则抽取方法,包括:1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;2)遍历步骤1)标记好的源语言依存句法树,抽取中心‑修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心‑修饰片段,得到含成分短语节点的中心‑修饰片段;3)依据所抽取的含成分短语节点的中心‑修饰片段,生成含成分短语的中心‑修饰规则。本发明具有较强的长距离翻译调序能力和较好的短语兼容性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地说,本发明涉及一种基于句法树的规则抽取及翻译方法。
背景技术
当前,句法树到串的翻译模型是统计机器翻译的热点。根据语言学结构的差异,这些模型可分为两大类:成分句法树到串模型(参考文献1:Yang Liu,Qun Liu,and ShouxunLin.2006.Tree-to-String Alignment Te mplate for Statistical MachineTranslation.In Proceedings of COLING/A CL 2006,pages 609-616,Sydney,Australia,July.)和依存句法树到串模型(参考文献2:Jun Xie,Haitao Mi,and QunLiu.2011.A Novel Dep endency-to-String Model for Statistical MachineTranslation.In Proceedin gs of EMNLP 2011,pages 216-226,Edinburgh,UK,July.)。这两种模型能够分别捕获不同的语言学现象。成分句法树描述句子中词语以及词语序列(sequence of words)的句法成分组成,具有良好的短语兼容性,然而其长距离调序的表达不如依存句法树直接。依存句法树描述句子中词语之间的文法关系,能够更简单、直接地描述词语间的长距离依赖,然而,它的短语兼容性又有所不足,对于整块短语的翻译效果、流利度不如成分句法树的效果好。
发明内容
因此,本发明的任务是克服现有技术的缺陷,提出一种既具有较强的长距离调序能力,又具有很好的短语兼容性的基于句法树的规则抽取及翻译方法。
为实现上述发明目的,本发明提供了一种基于句法树的规则抽取方法,包括下列步骤:
1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;
2)遍历步骤1)标记好的源语言依存句法树,抽取中心-修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心-修饰片段,得到含成分短语节点的中心-修饰片段;
3)依据所抽取的含成分短语节点的中心-修饰片段、目标语言串以及源语言与目标语言间的词语对齐关系,生成含成分短语的中心-修饰规则。
其中,所述步骤1)中,如果以成分句法树中某个成分短语节点为根的子树所覆盖的源语言端连续词序列恰好被一个依存句法树片段完全覆盖,则该依存句法树片段与所述成分短语节点相对应。
本发明还提供了相应的基于句法树的翻译方法,包括下列步骤:
a)分析待翻译的源语言串,得到其成分句法树和依存句法树,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;
b)根据源语言与目标语言之间的翻译规则集合,基于步骤a)标记好的源语言依存句法树生成翻译森林,并输出最终的翻译结果;其中,所述翻译规则集合中的规则包括:基于前述的基于句法树的规则抽取方法所得到的规则。
与现有技术相比,本发明具有下列技术效果:
1、本发明具有较强的长距离翻译调序能力;具有较好的短语兼容性,弥补了单纯用依存句法树指导翻译的不足。
2、本发明使得短语的翻译和短语级别的长距离调序更好地表达。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1(a)示出了成分句法树的一个示例;
图1(b)示出了依存句法树的一个示例;
图1(c)示出了根据本发明一个实施例的标记了成分短语节点的依存句法树的一个示例;
图2(a)示出了一个无成分短语节点的中心-修饰片段的示例;
图2(b)示出了一个含成分短语节点的中心-修饰片段的示例;
图2(c)示出了另一个含成分短语节点的中心-修饰片段的示例;
图3(a)示出了一个无成分短语节点的中心-修饰规则示例;
图3(b)示出了一个含成分短语节点的中心-修饰规则示例;
图3(c)示出了一个双语短语规则示例;
图4示出了为每个依存树节点标记了节点跨度和子树跨度,并为每个成分短语节点标记了短语跨度的依存句法树示例;
图5(a)示出了词汇化的无成分短语节点的中心-修饰规则的示例;
图5(b)示出了半词汇化的含成分短语节点的中心-修饰规则的示例;
图6(a)示出了非词汇化的无成分短语节点的中心-修饰规则的示例;
图6(b)示出了非词汇化的含成分短语节点的中心-修饰规则的示例;
图7示出了本发明一个实施例的流程示意图;
图8示出了一个翻译森林的示例。
具体实施方式
为了使发明目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供了一种基于成分句法树和依存句法树相结合的翻译规则抽取方法,具体包括下列步骤:
步骤1:对于四元组(源语言成分句法树,源语言依存句法树,目标语言串,源语言与目标语言间的词语对齐关系),遍历源语言成分句法树上的每个成分短语节点m,若以m为根的子树所覆盖的源语言端连续词序列A,能够在源语言依存句法树上找到恰好完全覆盖A的依存句法树连续节点片段d,则将成分短语节点m标记到依存句法树的片段d上。
本实施例是从包含四元组的语料库中抽取翻译规则。四元组为源语言成分句法树,源语言依存句法树,目标语言串,以及源语言与目标语言之间的词语对齐关系的组合。源语言和目标语言之间的对齐关系可以通过对齐工具GIZA++(参考文献3:Franz JosefOch,Hermann Ney.“A Syste matic Comparison of Various Statistical AlignmentModels”,Computation al Linguistics,volume 29,number 1,pages 19-51,March2003.)自动获得。本领域普通技术人员应该理解在其他实施例中可以采用现有的其他对齐工具来获得源语言和目标语言间的词语对齐关系。
图1(a)给出了中文句子“英特尔将推出亚洲第一款超级笔记本”的成分句法树(也可称成分树),图1(b)给出了该句子的依存句法树(也可称依存树)。为了便于下文中对规则抽取方法的说明,对图1(b)中的依存树的每个节点标记了对应词的词性。图1(a)中的节点标记为美国宾州大学中文语言处理计划定义的成分句法树短语节点标记和词性标记,其中每个词语的直接父亲为词性标记(参考文献4:Nianwen Xue,Fei Xia.2000.TheBracketing Guidelines for the Penn Chinese Tr eebank(3.0).http://www.cis.upenn.edu/~chinese/parseguide.3rd.ch.pdf)。例如节点“NP”表示以该节点为根的子树覆盖的源语言词为名词短语,“VP”表示以该节点为根的子树覆盖的源语言词为动词短语,等等。图1(b)中的词性标记为美国宾州大学中文语言处理计划定义的词性标记,依存句法树的节点除了词以外还标记了词性(参考文献5:Fei Xia.2000.The Par t-of-Speech Tagging Guidelines for the Penn Chinese Treebank(3.0).http://www.cis.upenn.edu/~chinese/posguide.3rd.ch.pdf.)。例如节点“推出/VV”指“推出”的词性为动词,“将/AD”指“将”的词性为副词,“笔记本/NN”指“笔记本”的词性为名词,等等。
参考图1(a),遍历源语言成分句法树上的每个成分短语节点,即遍历IP、VP3、VP2、NP、QP、NP1等节点,其中,以成分短语节点VP3为根的子树所覆盖的源语言端连续词序列为“将推出亚洲第一款超级笔记本”),而参考图1(b),依存句法树连续节点片段{“将/AD、”“推出/VV、”“亚洲/NR、”“第一/OD、”“款/M、”“超级/JJ、”“笔记本/NN”}恰好完全覆盖源语言端连续词序列“将推出亚洲第一款超级笔记本”,因此将成分短语节点VP3标记到依存句法树的片段{“将/AD、”“推出/VV、”“亚洲/NR、”“第一/OD、”“款/M、”“超级/JJ、”“笔记本/NN”}上。同理,以成分短语节点VP2为根的子树所覆盖的源语言端连续词序列为“推出亚洲第一款超级笔记本”,而依存句法树连续节点片段{“推出/VV、”“亚洲/NR、”“第一/OD、”“款/M、”“超级/JJ、”“笔记本/NN”}恰好完全覆盖源语言端连续词序列“推出亚洲第一款超级笔记本”,因此将成分短语节点VP2标记到依存句法树的片段{“推出/VV、”“亚洲/NR、”“第一/OD、”“款/M、”“超级/JJ、”“笔记本/NN”}上。以成分短语节点NP1为根的子树所覆盖的源语言端连续词序列为“超级笔记本”,而依存句法树连续节点片段{“超级/JJ”、“笔记本/NN”}恰好完全覆盖源语言端连续词序列“超级笔记本”,因此将成分短语节点NP1标记到依存句法树的片段{“超级/JJ”、“笔记本/NN”}上。图1(c)示出标记了成分短语节点的依存句法树的示例。
步骤2:遍历标记好的源语言依存句法树,抽取中心-修饰片段,在遍历过程中,当遇到标记为成分短语节点的依存句法树的片段时,在抽取中心-修饰片段时将该依存句法树的片段视为中心-修饰片段的一个节点。为方便描述,将所抽取的中心-修饰片段称为成分短语化的中心-修饰片段。
成分短语化的中心-修饰片段是由中心成分和修饰成分两部分组成的成分短语化的依存句法树片段。本实施例中,成分短语化的中心-修饰片段包括含成分短语节点的中心-修饰片段和无成分短语节点的中心-修饰片段。
图1(c)所示的成分短语化的依存句法树是将图1(a)所示的成分短语节点NP1,VP2和VP3标记于图1(b)所示的依存句法树而得到。成分短语化的中心-修饰片段包括含成分短语节点的中心-修饰片段,如图2(b)和图2(c)所示。图2(b)以VP2为根节点,作为中心,以“英特尔”和“将”为孩子节点,作为修饰成分,所述中心和修饰成分组成含成分短语节点的中心-修饰片段。图2(c)是以VP3为根节点,作为中心,以“英特尔”为孩子节点,作为修饰成分所组成的含成分短语节点的中心-修饰片段。
图2(a)所示为无成分短语节点的中心-修饰片段,它是以“推出”为根节点,作为中心,以“英特尔”、“将”和“笔记本”为孩子节点,作为修饰成分所组成的无成分短语节点的中心-修饰片段。对于无成分短语节点的中心-修饰片段,其抽取方案与现有的依存句法树抽取中心-修饰片段的方案是一致的。根据本发明的另一个实施例,步骤2中也可以仅抽取含成分短语节点的中心-修饰片段,这是本领域技术人员易于理解的。
步骤3:依据所抽取的中心-修饰片段、目标语言串以及源语言与目标语言间的词语对齐关系,生成成分短语化的中心-修饰规则。成分短语化的中心-修饰规则的源语言端为成分短语化的中心-修饰片段对应句子模式或短语模式的实例,目标语言端为串,并给出了源语言和目标语言之间调序关系,同时兼有词以及短语的翻译和调序功能。
图3(a)为无成分短语节点的中心-修饰规则示例,图3(b)为含成分短语节点的中心-修饰规则示例,二者合称为成分短语化的中心-修饰规则。图3(a)所示的源语言端(左端)对应的无成分短语的中心-修饰片段,其中下划线表示叶子节点;“x1:AD”为词性约束标量,可以由以词性为“AD”的词替换;“x2:笔记本”为词汇化约束变量,可以由以“笔记本”为根的子树替换。图3(a)所示的目标语言端(右端)为串“Intel x1 la unch x2”,源语言端的“x1:AD”和“x2:笔记本”分别与目标语言端的“x1”和“x2”对应。图3(b)所示的源语言端(左端)对应的含成分短语的中心-修饰片段,其中下划线表示叶子节点;“x1:AD”为词性约束变量,可以由以词性为“AD”的词替换;“x2:VP2”为短语约束变量,可以由以“VP2”为根的短语替换。图3(b)所示的目标语言端(右端)为串“Intel x1 x2”,源语言端的“x1:AD”和“x2:VP2”分别与目标语言端的“x1”和“x2”对应。
与现有的依存树到串翻译规则相比,成分短语化的中心-修饰规则可以捕获原始依存句法树到串无法表示的非依存句法短语信息。如图3(b)所示的“VP2”包含了“推出”和“笔记本”这两个节点,在现有方法的依存树到串翻译规则中,无法将这两个节点以组合的形式捕获进来,而本发明提供的方法可以捕获这种信息。
根据本发明的另一个实施例,步骤3还包括:抽取双语短语规则。双语短语规则的源语言端和目标语言端都是串,用于翻译词语和短语。图3(c)为双语短语(包括一个词或多个词)示例,指明“将”可以翻译成“will”。
根据本发明的再一个实施例,还提供了一种基于成分句法树和依存句法树相结合的翻译规则抽取方法,具体包括如下步骤:
步骤1:对于四元组(源语言成分句法树,源语言依存句法树,目标语言串,源语言与目标语言间的词语对齐关系),遍历源语言成分句法树上的每个成分短语节点m,若以m为根的子树所覆盖的源语言端连续词序列A,能够在源语言依存句法树上找到恰好完全覆盖A的依存句法树连续节点片段d,则将成分短语节点m标记到依存句法树的片段d上。其中,将源语言成分句法树上的成分短语节点m依据源语言跨度标记到源语言依存句法树上,所述源语言跨度,对应于成分句法树,是以m为根的子树覆盖的源语言词位置的集合,对应于依存句法树,是连续的节点(一个或多个)覆盖的源语言词位置的集合。
根据本发明的一个实施例,在标记成分短语节点m时,还需要满足以下两个限定条件:
(i)成分短语节点m依据源语言跨度对应到源语言依存句法树上不是恰好覆盖一个依存句法树节点。
(ii)成分短语节点m依据源语言跨度对应到源语言依存句法树上不是恰好覆盖完整的依存句法子树。
增加上述两个限定条件,可以减少抽取不必要的规则,在不降低翻译性能的情况下,减小翻译规则表的规模,提升翻译解码的速度。
对于已经标记成分短语节点的源语言依存句法树,对于每个依存句法树节点n,利用所述对齐关系标记节点跨度和子树跨度;对于每个成分短语节点m标记短语节点跨度;所述节点跨度是与n对齐的所有目标词的位置的集合;所述子树跨度是指以n为根的子树中所有节点的节点跨度的并集的闭包;所述短语跨度是指m包含的所有依存句法树节点的节点跨度的并集的闭包。标记成分短语节点和节点跨度,即可在依存句法树中清楚地表达对应于成分短语节点的依存句法树片段,便于后续处理。
图4示出了为每个依存树节点标记了节点跨度和子树跨度,并为每个成分短语节点标记了短语跨度的依存句法树示例。其中,目标语言串为“Intel will launch thefirst Ultrabook in Asia”,为了说明方便,对目标语言串的每个词位置分别标记为1-8,其中,“Intel”对应的位置为1,“will”对应的位置为2,…,“Asia”对应的位置为8。源语言串为“英特尔将推出亚洲第一款超级笔记本”。依存树节点每个节点标记了节点跨度以及子树跨度,成分短语节点标记短语跨度。例如,对于节点“笔记本”,其对应的目标语言词为“Ultrabook”,因此其节点跨度为{6-6},节点“笔记本”作为子树的根,其对应的子树跨度为{4-8},节点“NP1”对应的短语跨度为<6-6>。若节点对应目标端为空,则比较为“null”,例如“款”对应的节点跨度为{null}。
步骤2:遍历标记好的源语言依存句法树,抽取中心-修饰片段,在遍历过程中,当遇到标记为成分短语节点的依存句法树的片段时,在抽取中心-修饰片段时将该依存句法树的片段当作一个完整的节点。其中,
(i)对于无成分短语节点的中心-修饰片段,根节点的节点跨度对齐一致,并且所有孩子节点的子树跨度对齐一致。
(ii)对于含成分短语节点的中心-修饰片段,
a)若成分短语节点覆盖根节点,要求根节点的短语跨度对齐一致,孩子节点的子树跨度对齐一致;
b)若成分短语节点不覆盖根节点,要求根节点的节点跨度对齐一致,孩子节点中,成分短语节点的短语跨度对齐一致,其他孩子节点的子树跨度对齐一致。
图4中标记了实心框的节点为节点跨度对齐不一致的节点,其它依存树节点的节点跨度和子树跨度对齐一致,成分短语节点的短语跨度对齐一致。
步骤3:依据所抽取的中心-修饰片段,生成成分短语化的中心-修饰规则。从成分短语化的中心-修饰片段,可以生成一系列词汇化、半词汇化和非词汇化的成分短语化的中心-修饰规则,具体生成过程如下:
(1)词汇化的无成分短语节点的中心-修饰规则
对于无成分短语节点的中心-修饰片段,对应于依存句法树内部节点的节点,标记为词汇化约束变量,得到无成分短语节点的词汇化中心-修饰片段规则的源语言端;按照根节点的节点跨度及孩子节点的子树跨度排列中心-修饰片段中所有节点,对于其中的依存句法树内部节点,用该节点对应的变量替换该节点,从而得到无成分短语节点的词汇化中心-修饰片段规则的目标语言端。如图5(a)所示,左端为无成分短语节点的中心-修饰片段,右端上部分为规则源端,右端下部分为规则目标端。规则片段中心为“推出”,修饰部分为“英特尔”、“将”和“笔记本”,目标端分别为“launch”、“Intel”、“will”和“the firstUltrabook in Asia”,“x1:笔记本”作为替换节点,规则目标端对应为x1。
(2)半词汇化的含成分短语节点的中心-修饰规则
对于含成分短语节点的中心-修饰片段,对应于依存句法树内部节点的节点,标记为词汇化约束变量;对应于成分短语节点,标记为短语类别约束变量,得到含成分短语节点的中心-修饰片段规则的源语言端;构造含成分短语节点的词汇化中心-修饰片段规则的目标语言端按如下步骤:若成分短语节点覆盖根节点,按照根节点的短语跨度及孩子节点的子树跨度排列中心-修饰片段中所有节点,对于其中的依存句法树内部节点以及成分短语节点,用该节点对应的变量替换该节点;若成分短语节点不覆盖根节点,按照根节点的节点跨度,孩子节点中,成分短语节点的短语跨度以及其他孩子节点的子树跨度排列中心-修饰片段中所有节点,对于其中的依存句法树内部节点以及成分短语节点,用该节点对应的变量替换该节点。所述词汇化约束变量表示对应该节点的词汇化约束变量的节点可由一棵子树替换,要求这个子树的根节点与该节点的词汇化信息相同,短语类别约束变量表示对应该短语类别约束变量的节点可由与该节点短语类别相同的短语替换。如图5(b)所示,左端为含成分短语节点的中心-修饰片段,右端上部分为规则源端,右端下部分为规则目标端。规则片段中心为“VP2”,修饰部分为“英特尔”和“将”,目标端分别为“launch the firstUltrabook in Asia”、“Intel”、“will”和“launch”,“x1:VP2”作为替换节点,规则目标端对应为x1。
(3)非词汇化的无/含成分短语节点的中心-修饰规则
改变词汇化的无成分短语节点的中心-修饰规则中的词汇化约束变量为其相应的非词汇化约束变量(例如词性约束变量),得到无成分短语节点的非词汇化中心-修饰规则的源语言端;改变半词汇化的含成分短语节点的中心-修饰规则中的词汇化约束变量为其相应的非词汇化约束变量,得到非词汇化的含成分短语节点的中心-修饰规则的源语言端。对于以上两种规则的目标语言端生成方式如下:如果被改变的节点对应于依存句法树的内部节点或者成分短语节点,则其目标语言端保持不变;否则,将该节点对应的目标语言端变为一个新变量将该节点对应的目标语言端变为一个与源语言端变化后的变量相对应的新变量(在目标端,每个变量均与源语言端的一个变量存在对应关系,表示此处可以被替换,目标端的变量不需要用短语类别、词性以及词汇化信息约束),得到非词汇化无/含成分短语节点的中心-修饰规则的目标语言端。词性约束变量表示:对应该词性约束变量的节点可由一棵子树替换,要求这个子树的根节点与该节点的词性相同。图6(a)示例了图5(a)对应的非词汇化的无成分短语节点的中心-修饰规则,图6(b)示例了图5(b)对应的非词汇化的含成分短语节点的中心-修饰规则。对于图6(a)是由图5(a)的词汇化的无成分短语节点的中心-修饰规则生成了四个非词汇化的无成分短语节点的中心-修饰规则,第一条通过将中心词“推出”转变为词性约束变量“x1:VV”,第二条通过将中间节点“x1:笔记本”转变为词性约束变量“x1:NN”,第三条通过将叶子节点“英特尔”转变为词性约束变量“x1:NR”,第四条通过将叶子节点“将”转变为词性约束变量“x1:AD”。同理,可以得到同时改变两个、三个、四个…节点为词性约束变量的非词汇化的无成分短语节点的中心-修饰规则。图6(b)的生成示例类似于图6(a)。
步骤3还包括:抽取双语短语规则,双语短语规则的源语言端和目标语言端都是串,抽取双语短语规则的具体实现可以参考基于短语的翻译模型采用的方法(PhilippKoehn,Franz Josef Och,and Daniel Marcu.2003.Statistical phrase-basedtranslation.Proceedings of ACL 2003,pages 48-54,Sapporo,Japan.)。
根据本发明的又一个实施例,还提供了一种基于成分短语化的中心-修饰规则的翻译方法,图7示出了该实施例的流程示意图,包括下列步骤:
步骤101:利用句法分析器分析源语言串并输出成分句法树和依存句法树。句法分析的主要任务是对输入的源语言串进行分析得到相应的成分句法树和依存句法树。
句法分析器包括成分句法分析器和依存句法分析器,通过句法分析器分析源语言串得到成分句法树和依存句法树,其中,可以只用成分句法分析器,先生成源语言串的成分句法树,然后通过适当的映射方法(参考文献:Collins,Michael,1999.Head-DrivenStatistical Models for Natural Language Parsing.Ph.D.thesis,University ofPennsylvania,Philadephia,PA.;Marie-Catherine de Marneffe,Bill MacCartney andChristopher D.Manning.2006.Generating Typed Dependency Parses from PhraseStructure Parses.In LREC 2006.)得到依存句法树,其中所采用的成分句法分析器可以是Charniak parser、Charniak-Johnson Parser、Berkeley Parser、Bikel Parser、Stanford parser、Collins Parser、MuskCpars句法分析器等。在另一个实施例中,可以直接采用依存句法分析器生成依存树,如MSTParser、MaltParser等。在本实施例中,采用的是成分句法分析器Stanford parser(参考文献:Dan Klein and ChristopherD.Manning.2003.Accurate Unlexicalized Parsing.Proceedings of the 41st Meetingof the Association for Computational Linguistics,pp.423-430)。Stanford parser工具包中已经集成相应的转换工具,通过在输入命令中设置-outputFormat选项的值为typedDependencies,可以直接得到输入串的依存句法树。
为了说明的方便,还是以中文句子“英特尔将推出亚洲第一款超级笔记本”为例进行说明,经过Stanford parser分析得到的成分句法树和依存句法树,分别如图1(a)、(b)所示。其中,在图1(a)和图1(b)所示的每个节点标记对应词的词性和短语标记是为了说明上文中讨论的基于成分树和依存树的翻译规则的生成方法,仅起示例作用而不进行任何限制。
步骤102:根据源语言与目标语言之间的翻译规则集合,使用解码算法对源语言依存句法树解码。解码过程将生成翻译森林,并输出最终的翻译结果(即目标语言串)。其中,所述翻译规则集合中的规则包括上文所述的成分短语化的中心-修饰规则和双语短语。
在本发明的一个实施例中,使用的解码算法后序遍历输入的成分短语化的依存句法树的每个节点,直到根节点完成翻译过程。具体步骤包括:对于访问到的每个节点依存树n,若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的双语短语,使用找到的双语短语翻译该节点,如果双语短语中没有匹配的规则,则保持该节点不变;如果该节点为内部节点,则枚举以n为中心的成分短语化的中心-修饰片段所对应修饰关系的所有词汇化与非词汇化实例,然后在翻译规则集合查找匹配的规则,如果翻译规则中没有匹配的规则,根据成分短语化的中心-修饰片段的词序构造伪翻译规则,然后利用Cube Pruning算法(参考文献:D.Chiang.2007.Hierarchical phrase-based translation.ComputationalLinguistics,33(2).)完成该中心-修饰片段的翻译。
上述实施例所提供的解码算法具有以下特点:1、规则匹配只涉及一层,不涉及多层规则匹配;2、若访问的节点n为输入依存句法树的内部节点,则规则匹配不是简单的字面匹配,而是由以n为中心的成分短语化的中心-修饰片段出发,生成所有该成分短语化的中心-修饰片段所对应修饰关系的所有实例,然后查找规则集合获得匹配的翻译规则。
下面参考图8来说明具体的匹配和翻译步骤(即解码算法)。其中翻译过程使用的翻译规则及翻译超边(e1,e2,e3)的对应关系如下:
e1:(英特尔)(将)推出(x1:笔记本)–>Intel will launch x1
e2:(x1:亚洲)(x2:款)(超级)笔记本–>x2 super laptop x1
e3:(x1:亚洲)(x2:款)x3:NP1–>x2 x3 x1
e4:(x1:第一)款–>x1
双语短语:
第一–>the first
亚洲–>in Asia
英特尔–>Intel
将–>will
超级–>super
亚洲–>in Asia
超级笔记本–>Ultrabook
其中,所述翻译超边是一个三元组:(翻译规则,头结点,尾节点集合),翻译规则描述了源语言与目标语言对应关系。应指出,上述中心-修饰规则和双语短语是从语料库三元组集合中抽取得到,并不限制与图4所示例四元组所抽取出的规则范围。
解码算法包括:
步骤1021:后序遍历源语言成分短语化的依存句法树,对于访问到的每个依存树节点n,
1)如果v为叶子节点,则在翻译规则集合中查找所有以v对应的词为源端的双语短语,使用查找到的双语短语翻译该节点。例如,图8中节点“第一”为叶子节点,从规则表集合中查找以“第一”为源端的双语短语,找到“第一–>the first”,翻译节点“第一”,翻译结果标记于节点下方的方框内。图8中其他叶子节点使用同样的方法进行翻译,结果标记于节点下方的方框内。
2)如果v为内部节点,则枚举所有以v为中心的成分短语化的中心-修饰片段对应的修饰关系的所有词汇化和非词汇化实例,在翻译规则集合中查找所有匹配的成分短语化的中心-修饰翻译规则。为书写方便,此处使用括号表示方法来表示一个成分短语化的中心-修饰片段。如“NP1”、“亚洲”和“款”组成的成分短语化的中心-修饰片段可以表示为“(亚洲)(款)NP1”,其中括号内部的为修饰部分,括号外部的为中心。为了便于表示这种关系,图8中每个节点标记有两个状态:词和“/”引导的词性。如边e2对应非词汇化的实例“(x1:亚洲)(x2:款)x3:NP1”表示一个名词短语。在图8的示例中,用e1和e2可以得到“亚洲第一款超级笔记本”翻译为“the first Ultrabook in Asia”。
3)如果2)中所有词汇化和非词汇化实例在翻译规则集合中均找不到匹配的规则,则根据节点v及其所有修饰词的词序生成伪翻译规则,即认为以v为中心词的中心词-修饰词片段进行顺序翻译。图8中,如果中心-修饰片段“(英特尔)(将)(笔记本)推出”对应的修饰关系的所有词汇化和非词汇化实例都不能在规则集合中找到匹配的翻译规则。于是,不改变源语言中的次序关系,即根据“(英特尔)(将)(笔记本)推出”的次序关系来构建伪翻译规则“(x1:英特尔)(x2:将)(x3:笔记本)x4:推出–>x1 x2 x3 x4”,将对应节点的翻译结果顺序拼接起来,得到该片段的翻译假设,进而得到最终翻译结果候选:“Intel will launchthe first Ultrabook in Asia”和“Intel will launch the first super laptop inAsia”。
步骤1022:重复步骤1021,直到访问输入的源语言成分短语的依存句法树的所有节点。此时翻译过程结束,根节点上具有最高分数的翻译假设即为最终翻译结果。图8中,使用规则“(英特尔)(将)推出(x1:笔记本)–>Intel will launch x1”完成以根节点“推出”为中心的中心-修饰片段,得到最终翻译结果“Intel will launch the first Ultrabook inAsia”。
本发明结合成分句法树到串模型兼容短语的优势和依存句法树到串模型善于长距离调序的优势,将成分句法树的成分短语信息融入到依存句法树,并将二者的优势融合于成分短语化的中心-修饰翻译规则中,从而更好的指导翻译过程。在125万平行双语语料数据集上,本发明的基于成分句法树和依存句法树相结合的翻译模型的性能较成分树到串模型提高2.37个BLEU点,较依存树到串模型提高0.91个点。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (11)
1.一种基于句法树的规则抽取方法,其特征在于,包括下列步骤:
1)对于源语言成分句法树,源语言依存句法树,目标语言串以及源语言与目标语言间的词语对齐关系的四元组,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;其中,若以某个成分短语节点为根的子树所覆盖的源语言端连续词序列,能够在源语言依存句法树上找到恰好完全覆盖所述源语言端连续词序列的连续节点所构成的依存句法树片段,则将该成分短语节点标记到该依存句法树片段上,并且,在标记所述成分短语节点时,还满足以下两个限定条件:(i)所述成分短语节点依据源语言跨度对应到源语言依存句法树上不是恰好覆盖一个依存句法树节点,(ii)所述成分短语节点依据源语言跨度对应到源语言依存句法树上不是恰好覆盖完整的依存句法子树;
2)遍历步骤1)标记好的源语言依存句法树,抽取中心-修饰片段,在遍历过程中,对于与成分短语节点相对应的依存句法树片段,将该依存句法树片段视为一个节点来抽取中心-修饰片段,得到含成分短语节点的中心-修饰片段;
3)依据所抽取的含成分短语节点的中心-修饰片段、目标语言串以及源语言与目标语言间的词语对齐关系,生成含成分短语的中心-修饰规则。
2.根据权利要求1所述的基于句法树的规则抽取方法,其特征在于,所述步骤1)中,如果以源语言成分句法树中某个成分短语节点为根的子树所覆盖的源语言端连续词序列恰好被一个依存句法树片段完全覆盖,则该依存句法树片段与所述成分短语节点相对应。
3.根据权利要求2所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)中,所述含成分短语的中心-修饰规则中包括短语类别约束变量,所述短语类别约束变量表示对应该短语类别约束变量的节点可由与该节点短语类别相同的成分短语节点替换。
4.根据权利要求3所述的基于句法树的规则抽取方法,其特征在于,所述步骤2)中,在抽取含成分短语节点的中心-修饰片段时,若成分短语节点覆盖依存中心词节点,则以成分短语节点作为中心-修饰片段的根节点,以依存修饰词为中心-修饰片段的孩子节点;若成分短语节点不覆盖依存中心词节点,则以依存中心词节点为中心-修饰片段的根节点,以成分短语节点及不被成分短语节点覆盖的其它依存修饰节点作为为中心-修饰片段的孩子节点。
5.根据权利要求4所述的基于句法树的规则抽取方法,其特征在于,所述步骤2)还包括:抽取无成分短语节点的中心-修饰片段;
所述步骤3)还包括:依据所抽取的无成分短语节点的中心-修饰片段、目标语言串以及源语言与目标语言间的词语对齐关系,生成无成分短语的中心-修饰规则。
6.根据权利要求5所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)还包括:抽取双语短语规则,双语短语规则的源语言端和目标语言端都是串。
7.根据权利要求2所述的基于句法树的规则抽取方法,其特征在于,对于已经标记成分短语节点的源语言依存句法树,对于每个依存句法树节点,利用所述对齐关系标记依存句法树节点跨度和子树跨度;所述依存句法树节点跨度是与该依存句法树节点对齐的所有目标词的位置的集合;所述子树跨度是指以所述依存句法树节点为根的子树中所有节点的节点跨度的并集的闭包;对于每个成分短语节点,标记短语节点跨度,所述短语节点跨度是该成分短语节点包含的所有依存句法树节点的节点跨度的并集的闭包。
8.根据权利要求7所述的基于句法树的规则抽取方法,其特征在于,所述步骤2)中,在抽取含成分短语节点的中心-修饰片段时,若成分短语节点覆盖依存中心词节点,则以成分短语节点作为中心-修饰片段的根节点,以依存修饰词为中心-修饰片段的孩子节点;若成分短语节点不覆盖依存中心词节点,则以依存中心词节点为中心-修饰片段的根节点,以成分短语节点及不被成分短语节点覆盖的其它依存修饰节点作为为中心-修饰片段的孩子节点;
对于含成分短语节点的中心-修饰片段,若成分短语节点覆盖根节点,根节点的短语跨度对齐一致,孩子节点的子树跨度对齐一致;若成分短语节点不覆盖根节点,根节点的节点跨度对齐一致,孩子节点中,成分短语节点的短语跨度对齐一致,其它孩子节点的子树跨度对齐一致。
9.根据权利要求8所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)中,所述含成分短语的中心-修饰规则包括半词汇化的含成分短语的中心-修饰规则,其构造方法为:构造半词汇化的含成分短语的中心-修饰规则源语言端,将依存句法树内部节点标记为词汇化约束变量;将成分短语节点标记为短语类别约束变量;构造半词汇化的含成分短语的中心-修饰规则目标语言端:按照含成分短语节点的中心-修饰片段中各个节点所标记的跨度排列中心-修饰片段中所有节点,并用词汇化约束变量替换其中依存句法树内部节点,用短语类别约束变量替换其中成分短语节点;短语类别约束变量表示对应该短语类别约束变量的节点可由与该节点短语类别相同的短语替换。
10.根据权利要求9所述的基于句法树的规则抽取方法,其特征在于,所述步骤3)中,所述含成分短语的中心-修饰规则还包括非词汇化的含成分短语的中心-修饰规则,其构造方法为:将半词汇化的含成分短语的中心-修饰规则中的一个或多个节点的词汇化约束变量转换为词性约束变量。
11.一种基于句法树的翻译方法,其特征在于,包括下列步骤:
a)分析待翻译的源语言串,得到其源语言成分句法树和源语言依存句法树,在源语言依存句法树中找出并标记与源语言成分句法树中的成分短语节点相对应的依存句法树片段;
b)根据源语言与目标语言之间的翻译规则集合,基于步骤a)标记好的源语言依存句法树生成翻译森林,并输出最终的翻译结果;其中,所述翻译规则集合中的规则包括:基于权利要求1~10任意一项所述的基于句法树的规则抽取方法所得到的规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310450616.4A CN103473223B (zh) | 2013-09-25 | 2013-09-25 | 一种基于句法树的规则抽取及翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310450616.4A CN103473223B (zh) | 2013-09-25 | 2013-09-25 | 一种基于句法树的规则抽取及翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103473223A CN103473223A (zh) | 2013-12-25 |
CN103473223B true CN103473223B (zh) | 2017-05-03 |
Family
ID=49798082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310450616.4A Expired - Fee Related CN103473223B (zh) | 2013-09-25 | 2013-09-25 | 一种基于句法树的规则抽取及翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103473223B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239290B (zh) * | 2014-08-08 | 2017-02-15 | 中国科学院计算技术研究所 | 基于依存树的统计机器翻译方法及系统 |
CN106156041B (zh) * | 2015-03-26 | 2019-05-28 | 科大讯飞股份有限公司 | 热点信息发现方法及系统 |
CN106502987B (zh) * | 2016-11-02 | 2019-08-09 | 广东惠禾科技发展有限公司 | 一种基于种子句子的句子模板召回的方法和设备 |
CN107656921B (zh) * | 2017-10-10 | 2021-01-08 | 上海数眼科技发展有限公司 | 一种基于深度学习的短文本依存分析方法 |
CN110569494B (zh) * | 2018-06-05 | 2023-04-07 | 北京百度网讯科技有限公司 | 用于生成信息的方法、装置、电子设备及可读介质 |
CN109614497B (zh) * | 2018-11-14 | 2021-08-24 | 金色熊猫有限公司 | 基于知识图谱的对齐方法、装置及介质 |
CN112836516B (zh) * | 2019-11-25 | 2023-09-08 | 中移(苏州)软件技术有限公司 | 一种语义分析方法及装置、终端、存储介质 |
CN113283250B (zh) * | 2021-05-26 | 2024-06-21 | 南京大学 | 一种基于句法成分分析的自动化机器翻译测试方法 |
CN114065733B (zh) * | 2021-10-18 | 2024-07-26 | 浙江香侬慧语科技有限责任公司 | 基于机器阅读理解的依存句法分析方法、装置及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398815A (zh) * | 2008-06-13 | 2009-04-01 | 中国科学院计算技术研究所 | 一种机器翻译方法 |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
-
2013
- 2013-09-25 CN CN201310450616.4A patent/CN103473223B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398815A (zh) * | 2008-06-13 | 2009-04-01 | 中国科学院计算技术研究所 | 一种机器翻译方法 |
CN102243626A (zh) * | 2011-07-22 | 2011-11-16 | 中国科学院计算技术研究所 | 一种基于依存句法树的翻译规则抽取方法和翻译方法 |
Non-Patent Citations (2)
Title |
---|
A Novel Dependency-to-String Model for Statistical Machine Translation;Jun Xie等;《Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing》;20110731;第216-226页 * |
融合丰富语言知识的汉语统计句法分析;熊德意等;《中文信息学报》;20050525;第19卷(第3期);第61-66页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103473223A (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103473223B (zh) | 一种基于句法树的规则抽取及翻译方法 | |
Wu | Stochastic inversion transduction grammars and bilingual parsing of parallel corpora | |
CN102799578B (zh) | 一种基于依存句法树的翻译规则抽取方法和翻译方法 | |
US7565281B2 (en) | Machine translation | |
JP5452868B2 (ja) | トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング | |
CN102831109B (zh) | 一种基于智能匹配的机器翻译装置及其方法 | |
CN104679850B (zh) | 地址结构化方法及装置 | |
US20040254781A1 (en) | Machine translation | |
US20050137853A1 (en) | Machine translation | |
CN103235775B (zh) | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 | |
CN104239290B (zh) | 基于依存树的统计机器翻译方法及系统 | |
CN101271451A (zh) | 计算机辅助翻译的方法和装置 | |
JP6096138B2 (ja) | 語順入替装置、方法及びプログラム、並びに翻訳品質評価装置及びプログラム | |
Lavie et al. | Experiments with a Hindi-to-English transfer-based MT system under a miserly data scenario | |
Xiong et al. | A dependency treelet string correspondence model for statistical machine translation | |
Zhang et al. | Forest-based tree sequence to string translation model | |
Vandeghinste et al. | Parse and corpus-based machine translation | |
Richardson et al. | Kyotoebmt: An example-based dependency-to-dependency translation framework | |
Rana et al. | Example based machine translation using fuzzy logic from English to Hindi | |
Hearne et al. | Data-oriented parsing and the Penn Chinese Treebank | |
Malik et al. | Qualitative Analysis of Contemporary Urdu Machine Translation Systems. | |
Tambouratzis et al. | Accurate phrase alignment in a bilingual corpus for EBMT systems | |
Pérez et al. | Speech translation with phrase based stochastic finite-state transducers | |
Razmara | Application of tree transducers in statistical machine translation | |
Li et al. | The extracting method of Chinese-Naxi translation template based on improved dependency tree-to-string |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170503 Termination date: 20210925 |
|
CF01 | Termination of patent right due to non-payment of annual fee |