CN106021224B - 一种双语篇章标注方法 - Google Patents

一种双语篇章标注方法 Download PDF

Info

Publication number
CN106021224B
CN106021224B CN201610317745.XA CN201610317745A CN106021224B CN 106021224 B CN106021224 B CN 106021224B CN 201610317745 A CN201610317745 A CN 201610317745A CN 106021224 B CN106021224 B CN 106021224B
Authority
CN
China
Prior art keywords
chapter
bilingual
basic
unit
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610317745.XA
Other languages
English (en)
Other versions
CN106021224A (zh
Inventor
张家俊
刘洋
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610317745.XA priority Critical patent/CN106021224B/zh
Publication of CN106021224A publication Critical patent/CN106021224A/zh
Application granted granted Critical
Publication of CN106021224B publication Critical patent/CN106021224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。

Description

一种双语篇章标注方法
技术领域
本发明涉及自然语言处理技术领域,是一种新颖的面向双语场景的篇章标注方法。
背景技术
在自然语言处理任务中,其基本单位从小到大可以分为词、短语、句子最后形成篇章。而篇章分析的目的就是要从整体上对句子进行语义级别的分析以及理解。
与句法分析类似,篇章分析是许多自然语言处理任务的中间环节,它被使用在各种任务中,例如:自动文摘,问答系统,机器翻译,机器理解,文本生成等。篇章技术之所以受到关注的主要原因在于以下几点:(1)与句法分析以词为最基本的分析单位不同,篇章分析中以基本篇章单元为基本单元,基本篇章单元切分块通常与人类的语言理解一致;(2)基本篇章单元之间的关系包含了相应的基本篇章单元在整个篇章中的语义功能信息;(3)篇章的结构也表示了整个段落或者句子的组织方式。因此,随着对语义级别信息的需求日益增大,一些研究者们提出了许多篇章标注的方法与相应的语料,其中比较重要的是修辞结构理论篇章标注方法。
修辞结构理论是由文献“Matthiessen,Christian M.I.M.and SandraA.Thompson(1987).The Structure of Discourse and″Subordination″.ClauseCombining in Discourse and Grammar,ed.by J.Haiman and S.A.Thompson.Amsterdam,John Benjamins.”等提出的有关篇章分析和生成的理论,主要针对的是篇章连贯性问题。在具体的操作中,修辞结构风格的篇章分析首先将整个文本(句子)完整切分成不重合的基本篇章单元,然后通过判断相邻两个基本篇章单元语义关系是否连接紧密,进而依次将这些基本篇章单元结合到一起成为新的语义块,并判断连接两个语义块的修辞结构关系,不断迭代上述两个过程,最后直至整个句子只剩下一个语义块,并最终得到篇章结构树,至此篇章分析过程结束。一个基于修辞结构理论的篇章分析过程如下所示:
测试句子为:“报道称,科学家完成了这些染色体的定序,这些染色体与初期失智症有关。”。
针对该句子的汉语篇章分析过程分成三个步骤,如下所示(其中EDU指的是基本篇章单元):
第1步:EDUs={“e1:报道称,”
“e2:科学家完成了对这些染色体的定序,”
“e3:这些染色体与初期失智症有关。”}
在第一步中,我们得到了3个最基本的EDU。接下来我们将对其进行操作。
第2步:EDUs={“e1:报道称,”
“e23:科学家完成了对这些染色体的定序,<e(2,3):详述[N][S]>这些染色体与初期失智症有关。”}
在第2步中,根据篇章分析,e2和e3合并到了一起,成为了一个新的EDU块e23,在两个块之间我们标注为<e(2,3)>,同时将其连接到一起的关系为:详述,这两个块之间的重要性相应为[N][S],其中左边的N表示的是在两个edu组成的新的文本块中,左边的文本块处于nucleus的地位(核心),右边的S表示satellite表示卫星。如此,我们可以得到第3步的操作,这样所有基本的EDU都组合成了一整块,分析过程结束。
第3步:EDUs={“e123:报道称,<e(1,23):详述[N][S]>科学家完成了对这些染色体的定序,<e(2,3):详述[N][S]>这些染色体与初期失智症有关。”}
其最后生成的修辞结构理论风格的篇章分析树如图1所示。
如上面的例子所示:句子首先被切分成标记为e1,e2和e3的结构段,同样也被称为篇章基本单元;然后通过分析e1,e2和e3之间的关系,根据e1,e2和e3之间的语义紧密程度来确定e1,e2和e3之间的结合顺序;在确定了e1,e2和e3的相对结构之后,再判断这些结构段之间的修辞结构关系。如图1所示,修辞关系为详述,NS分别表示两端的基本篇章单元是核心与卫星。
宾州篇章树库风格篇章分析(简称宾州分析)则与修辞结构理论分析有很大的区别,宾州分析认为在一个文本中,真正需要关注的部分并不一定是全句,在整个文本中,存在着一对论元,在这两个论元之间存在着确定的篇章关系。特别地,与修辞结构理论不同的是,除了在篇章关系类别上有所不同之外,宾州篇章树库并不要求对全句进行分析,可以仅对句子的一部分进行讨论。
在上述两种篇章分析风格中,修辞结构理论风格对整个文本都进行了处理,并且生成的篇章结构树表达了整个篇章语义的表达方式以及篇章的生成过程,其在许多任务中都得到了应用,并且根据任务而产生的变体更是五花八门。而宾州篇章树库在自然语言处理领域中有评测任务支持(CoNLL shared task),因此其关注度一直很高。
然而,以上描述的篇章分析方法中,无论是修辞结构理论篇章分析还是宾州树库篇章分析,都只针对一种语言,其认同度评价(agreement)亦是收集单语使用者的数据,进而在一些双语的应用中,开发者基于现有的篇章分析方法倾向于只分析源端或者目标端的篇章结构和关系,但是从直觉上来说,如果能够同时利用两端的篇章信息肯定更能提高效能。但是,在实际应用中我们发现,语言之间的差异会导致篇章分析结果的巨大差异,源端与目标端之间分析的不一致性成为了一个不容忽视的问题。例如在机器翻译任务中,法英翻译时,我们发现其篇章一致性较高,因为法语与英语的语言风格相似;相对的,日英或者汉英翻译时,其篇章一致性则较低,因为亚洲语言普遍与英语风格迥异。
比如,从篇章分析的结果来说,对一个文本(句子)进行分析的最终结果是一个篇章结构,其包括了基本篇章单元的切分信息,单元之间的结构信息,以及篇章关系信息。但是在双语情况下,比如:
S:[科学家对攸关初期失智症的染色体完成定序]e1
T:[scientist complete sequencing of the chromosome]e 1[linked toearly dementia]e2
在源端(S)的中文句子中整个句子就是一个基本篇章单元,将其标记为e1,相应的目标端(T)的英语句子却被切分成e1和e2,从这个例子中可以看到,虽然在语义上中文与英语保持一致,但得到的篇章分析结果却是截然不同的,这就导致了在实际应用中即使想要加入篇章信息,但由于其源端篇章信息与目标端篇章信息不一致或者不完整,也就导致了基于篇章分析的双语自然语言处理任务实际上只能使用源端或者目标端的篇章信息。换言之,如果我们能得到一个篇章信息在两端都一致性较高的篇章分析结果,双语自然语言处理任务就可以兼顾两端语言的篇章分析信息,这必然将会得到进一步的提高。
近几年来,有一些学者对如何利用双语的篇章知识进行了许多的研究。有学者提出一个在双语的情况下,将篇章信息进行转换的模型“Daniel Marcu,Lynn Carlson,MakiWatanbe,2000.The Automatic Translation of Discourse Structures.In Proc.Of ACL2000”,该工作选择的语言对是日英语言对,日语和英语的差别非常明显,叙述方式也非常不一致,该工作提出首先对一种语言进行篇章分析,进而将分析结果进行转换,尽量减少源端篇章分析结果与目标端之间的差别。还有学者研究不同语言中如何进行对齐的工作“冯文贺,2013.汉英篇章结构平行语料库的对齐标注研究,中文信息学报2013,Vol.27Issue(6):158-165”,该文章考察了中英语言对篇章标注的差异,并且分析了篇章切分,篇章关系对齐,以及篇章层次结构的对齐方式,发现对于双语情况下,将两个语言的句子中篇章级别的信息进行合理地对齐非常的有必要。因此,探讨如何在双语环境下,克服语言差异而得到一致性较高的篇章分析结果是一个很有意义且富有挑战的任务。
发明内容
针对如何在双语环境下,使两端篇章结构与信息对齐的问题,本发明提出一种从篇章切分到篇章结构进行对齐的双语篇章标注方法,该方法使得从最基本的切分开始,源端篇章信息就可以与目标端篇章信息进行较好的对齐,这样源端得到的篇章结构与篇章关系信息就可以很好的利用到任务中,从而进一步提高使用篇章信息任务的最佳性能。
为了实现所述目的,本发明提供一种双语篇章标注方法,该方法包括以下步骤:
步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;
步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;
步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。
可选地,所述篇章分析树至少包括篇章切分、篇章结构和篇章关系信息。
可选地,所述步骤2进一步包括以下步骤:
步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;
步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;
步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映射包含关系,抽取两端基本篇章单元级别的映射关系。
可选地,所述步骤23抽取的基本篇章单元级别的映射关系包括:一端与另一端基本篇章单元一一对应的关系和一端与另一端基本篇章单元一对多的对应关系。
可选地,所述步骤3进一步包括以下步骤:
步骤31,根据所述步骤2得到的两端句子中的基本篇章单元构建双语基本篇章单元集合,该集合中包括了两端所有的双语基本篇章单元;
步骤32,根据双语篇章分析树的结构关系,递归寻找叶子级别的基本篇章单元,以及与叶子相关联的基本篇章单元,将寻找到的基本篇章单元对从所述双语基本篇章单元集合中删除;
步骤33,将所述步骤32寻找到的基本篇章单元对根据原本的文本顺序组合成一个完整的块单元,并将其重新加入所述双语基本篇章单元集合;
步骤34,重复步骤32以及步骤33,直到所述双语基本篇章单元集合中只剩下一个块单元。
可选地,所述步骤31-步骤34中,整个过程所产生的块单元、篇章单元的合并以及层次化分析结果均作为双语篇章结构最后的输出。
可选地,所述双语篇章结构包括树形结构和/或链式结构。
可选地,在所述树形结构中,根据双语基本篇章单元之间的关系以及核心和卫星的关系构建树形关系。
可选地,在所述链式结构中,根据双语基本篇章单元之间的关系,按照句子顺序来进行链式构建,所有基本篇章单元之间的关系都被简化为顺序关系,嵌套结构的部分从主结构部分中抽取出来,使用嵌套关系链接到主结构后面。
本发明的有益效果在于:由于篇章结构是基于句法结构之上的对句法树更深层面的理解,在高效利用双语两端篇章信息的基础上,首先肯定会优于只使用一端篇章信息的应用,其次双语篇章信息更能帮助我们理解语言之间的差异与一致之处。本发明能够利用两端语言的篇章信息,包括篇章切分信息,篇章结构信息,篇章关系信息,来改进双语情况下篇章分析的最终结果。从效果上说,本发明使得在目标端篇章分析的同时也能利用源端篇章分析的结果,而且在一些任务中,例如机器翻译,其最终的目标端是不可知的,得到一个能够尊重目标端风格的源端篇章分析信息的支持非常重要。利用本发明的标注方法,在中英语言对双语平行语料上进行实验,实验证明,本发明的标注结果统计显著地在切分一致性和结构一致性上超过了单语风格的篇章标注结果。特别是在切分一致性上,不仅能够提升不同语言之间基本篇章单元的切分结果,同时也能提升同一种语言不同句子表达形式的结果,这充分证明了本发明双语篇章标注方法的有效性和合理性。
附图说明
图1是一个中文单语篇章分析结果的实例示意图;
图2是一个中文句子篇章分析结果与相同意思的英文句子的篇章分析结果实例示意图;
图3是根据本发明一实施例的双语篇章标注方法流程图;
图4是中文句子和其英文句子的词对齐以及篇章单元切分结果;
图5是不同情况下的双语篇章单元切分规则的示例;
图6A是层次篇章结构的展示示意图;
图6B是链式篇章结构的展示示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的基本思想是恰当地使用双语两端的篇章信息,提出一种针对双语的篇章标注方法以提高双语篇章分析结果的一致性。例如,图2给出了相同意思的汉语句子与英语句子同时利用修辞结构理论分析得到的两个篇章分析结果。这两个句子从切分开始就遵循不同的规则,在英语中对基本篇章单元的定义是语法上合法的一个子句(clause),类似地汉语中对基本篇章单元的定义也类似。但是,由于两种语言的差异,主要是在用语习惯和语法规则上的差异,最终导致两个句子的篇章分析结果中,中文与英文的分析结果存在一定的差异。这就导致在实际应用中,即便对源端的篇章进行了分析,通常这些信息也很难对目标端的应用有所帮助。若我们能够恰当地对两端篇章信息进行修改,使其一致性保持在较高水平,这样在切分结构上目标端和源端都可以双向互用,必然能够对应用起到帮助。一种提高一致性的方式是,只保留一端的篇章信息,比如源端或者目标端,以机器翻译应用为例,由于事先不知道目标端的最终结果,许多方法都对源端进行分析,通过得到的结果来帮助翻译的解码过程得到更好的输出,但是由于源端篇章信息与目标端信息的不一致,这种方法通常只能选择一致性较高的部分或者交集的部分,这极大制约了篇章信息在应用上的潜力。另一种类型的应用,譬如双语摘要抽取,则要求同时得到中文和英文的摘要。这种情况下无所谓源端或者目标端,更多的是要求两端语言在进行分析时尽量保持一致。同样的理由,传统的篇章分析并不能保证得到一致性较高的结果。因此,我们不能直接利用单端,无论是源语言端还是目标语言端进行篇章分析,并以此作为基础,而是应该寻找一种恰当的更有效的方式来利用双语两端的篇章知识。
本发明提出了一种双语篇章标注方法,下面以汉-英语言对平行句子对为例对于本发明的原理与实现方法进行详细阐述,但本领域技术人员可以理解的是,本发明方法对于其他语言对的篇章标注同样有效。
图3是根据本发明一实施例的双语篇章标注方法流程图,如图3所示,所述双语篇章标注方法包括以下步骤:
步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;
其中,对所述双语句子对中的源语言端和目标语言端句子进行自动分词(Tokenize,Segmentation),可以得到源语言端和目标语言端的分词结果。这里需要注意的是,源语言或者目标语言中不管是否包含汉语都需要对句子进行符号化的操作(Tokenize),而如果某一端包含了汉语则需要对其(汉语端)进行分词。对汉语进行分词的方法有很多种,在本实施例中,以开源分词工具ICTCLAS对汉语进行分词。ICTCLAS中文分词工具是一个常用的开源中文分词工具,ICTCLAS中文分词工具可以在以下网址免费下载:http://ictclas.org/ictclas_download.asp。
得到所述源语言端和目标语言端的分词结果之后,需要对双语句子对自动进行词对齐。自动进行词对齐的方法有多种,在本实施例中,使用GIZA++工具对汉-英句子对进行词对齐,得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载http://fjoch.com/GIZA++.html。在使用GIZA++时要选择某个启发式策略来得到对称的词对齐结果,本实施例选择了grow-diag-final策略,因为该启发式策略被许多研究工作证明在中英翻译中是最有效的启发式规则。
得到所述源语言端和目标语言端的分词结果之后,还需要对双语句子进行篇章分析,在经过篇章分析可以得到两端句子的篇章分析结果,即篇章分析树,主要包括篇章切分、篇章结构和篇章关系信息。自动篇章分析的方法有多种,在本实施例中,使用由多伦多大学冯薇开发的自动篇章分析工具Discourse Parser,该自动篇章分析工具得到的结果是目前篇章自动分析领域中最好的,针对不同的语言,只需提供相应的训练语料即可对该语言的全文进行篇章切分、篇章结构生成、篇章关系分类等任务。该工具可以在以下网址免费下载:http://www.cs.toronto.edu/~weifeng/software.html。
步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;
如图4所示,该步骤中,首先将步骤1中得到的词对齐信息和双语两端的篇章分析结果融合到一起,通过词对齐信息得到一个模糊的粗略的基本篇章单元对应关系。块级别对齐时以词对齐关系为准,而各个篇章分析的边界信息则以各个篇章分析的边界为准,因为在实验中我们发现词对齐信息的准确性并没有达到能够进行篇章切分的程度,词对齐信息对篇章单元的边界常常是不敏感的。因此在该步骤中,需要下面几个步骤的操作:
步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;
步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;
步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映射包含关系,抽取两端基本篇章单元级别的映射关系。
针对步骤23,在具体抽取两端基本篇章单元级别的映射关系时,考虑到其情况的复杂性,为这个步骤设计了几条规则,其具体实施方法如下:
针对双语基本篇章单元映射关系的问题,其出现的情况大概有如下3种形式:1、一端与另一端的基本篇章单元是一一对应的关系,体现在词对齐信息上是一端的一个基本篇章单元的词映射索引能够完全或者大部分映射到另一端的某一个篇章单元;2、一端与另一端的基本篇章单元是一对多的对应关系,体现在词对齐信息上是一端的一个基本篇章单元的词映射索引能够完全或者大部分映射到另一端的某几个篇章单元上;最后一种最复杂,一端与另一端的基本篇章单元是多对多的对应关系,体现在词对齐信息上是一端的一个基本篇章单元映射到另一端的某几个基本篇章单元上,但是这些基本篇章单元却并不完全对应原端的基本篇章单元,而是同时也包含了其他几个基本篇章单元的词索引信息,导致出现了多对多的情况,这种情况在步骤23中不予抽取,即步骤23仅仅抽取前2种情况。
针对步骤23抽取不同对齐的情况,本发明提出了针对性的抽取和分析的规则,具体为:
(1)抽取规则时,如果源端中文句子篇章单元与目标端英语句子篇章单元中词索引相互完全对齐,语义一致,两端的篇章切分一致(边界一致),即上面所述的两端篇章基本单元一一对应的情况,那么将这两段基本篇章单元标记为篇章对齐的基本篇章单元。
(2)抽取规则时,如果源端中文句子篇章单元在语义上被切分成两个目标端英文句子篇章单元,那么应该先将源端单元(较大)切分成两个与目标端篇章单元语义对应的两个单元,并且进行相互对齐,进而抽取得到相应的对齐的篇章单元。
(3)如果词对齐非常混乱,不能得到清晰的篇章单元边界,那么就应该整体进行抽取,其理由在于,单元语义现在更多的表现在词和词之间而不是块和块之间,不需要进行块级别的单元抽取。
(1)在抽取单元与词的对齐规则时,如图5中所示情况1,从源端中文句子Se1映射到目标端英语句子Se2的词索引为:Se1={0,1,2,3,5,6},相应的目标端第1个基本篇章单元Te1,Te1={0,1,2,3,4,5,6},所以给出标记为h{}h,这个标记表示的是抽取两端文本作为对齐的块。从而抽取总体的基本篇章单元对为Se1:Te1;发现属于上述第一种情况,即两端基本篇章单元一一对应的情况,那么将这两端基本篇章单元标记为篇章对齐的基本篇章单元;
(2)抽取规则时,如图5中所示情况2,Se2对应Te1,Te2,则需要对Se2进行再切分得到Se1.1和Se1.2:Se1->Se1.1,Se1.2。将新切分得到的Se1.1,Se1.2标记为语义对齐的基本篇章单元,发现属于第二种情况,即两端基本单元的某一端的基本篇章单元包含了另一端的数个基本篇章单元。
步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。
由于存在嵌入结构,传统的二叉树形结构不适用于双语篇章结构的构建,本发明在构建双语篇章结构时主要采用层次生成树以及链式结构。
在构建层次生成树时,主要考虑结构的一致性与语义一致性,两端句子同时生成双语篇章树时,按照终结符扩展的顺序来生成。如图6中展示的一个双语篇章生成树的过程。
在图6中,两端一共抽取得到了3个双语基本篇章单元对。根据单语端得到的篇章分析结果,按照下列步骤依次组合这些基本双语篇章单元:
步骤31,根据所述步骤2得到的两端句子中的基本篇章单元构建双语基本篇章单元集合,该集合中包括了两端所有的双语基本篇章单元;
步骤32,根据双语篇章分析树的结构关系,递归寻找叶子级别的基本篇章单元,以及与叶子相关联的基本篇章单元,将寻找到的基本篇章单元对从所述双语基本篇章单元集合中删除;
步骤33,将所述步骤32寻找到的基本篇章单元对根据原本的文本顺序组合成一个完整的块单元,并将其重新加入所述双语基本篇章单元集合;其操作目的是将小块的篇章单元逐步拼接成大块的篇章单元,以体现篇章对文本的层次化分析结果;
步骤34,重复步骤32以及步骤33,直到所述双语基本篇章单元集合中只剩下一个块单元,该过程结束,整个过程中所产生的块单元、篇章单元的合并以及层次化分析结果作为双语篇章结构最后的输出。
该步骤中,根据实际的需要主要生成下面两种比较常见的篇章结构:
1)树形结构(也叫作层次结构),根据双语基本篇章单元之间的关系,以及核心和卫星的关系构建树形关系;
2)链式结构,根据双语基本篇章单元之间的关系,严格按照句子顺序来进行链式构建,所有基本篇章单元之间的关系都被简化为顺序关系,嵌套结构的部分从主结构部分中抽取出来,使用嵌套关系链接到主结构后面,由此构成链式结构。
图6A展示的是树形结构形式的输出结果,图6B展示了链式结构形式的输出结果。
在实验中我们从国际机器翻译评测(NIST MT Evaluation)中英语言对机器翻译测试集发布的中-英测试数据中抽取NIST MT 2003,NIST MT 2004,NIST MT 2005中英对齐句对作为测试标注语料,训练语言的中文部分包括3789句,英文部分包括15156句。其中一句中文句子与四句英文句子为一组,这五个句子所表达的意思是相同的。
为了进行对比试验,首先分别使用中英语端的针对单语的篇章分析工具进行分析,其中根据文献【Vanessa Wei Feng and Graeme Hirst,2014.A Linear-Time Bottom-Up Discourse Parser with Constraints and Post-Editing.In Proceedings of the52th Annual Meeting of the Association for Computational Linguistics(ACL-2014),pages 511-521,Baltimore,USA】所述,这是目前最好的篇章分析工具。在进行完自动分析之后,对其结果进行了人工校正。
在测量其一致性时,主要采用的是人工校对方式,通过映射一端语言篇章分析结果到另一端来判断其是否正确。在实验中,采用的是将中文映射到英文端的方法。
同时,在另外一组实验中,我们测试了在同种语种下,表达相同意思的不同句子的一致性。同样的,作为对比,使用本发明方法将其重新标注一遍,测试其同种语种情况下,是否亦有所提高。
实验结果
表1给出了在NIST2003上进行的随机抽样的调查的表现,表2则给出了相应的使用单语篇章标注方法得到的结果。首先从表中可以看到,基于双语篇章的标注方法在基本篇章单元切分上要明显优于单语篇章标注结果,随着基本篇章单元的切分一致性的提高,篇章结构的一致性也随之提高了。这充分说明了本发明双语方法在双语环境下的有效性,可以较高的改善双语环境下两种语言因差异导致源端篇章分析结果与目标篇章分析结果不一致的情况。
表1:采用双语篇章标注方法进行的标注结果,从标注完成的NIST2003数据集上抽取得到,在一个句子组中,一句中文四句英文的意思相同,其中TEST表示的是中文句子,REF0-3表示的是相应的四个英文句子
表2:采用单语的篇章分析得到的篇章分析结果,随机抽取的句子与其对应的最相似的英语句子
同时,我们也设计了另外一种实验,那就是同种语言两个相同意思句子的篇章分析结果的一致性分析。我们发现即使实在同种语言中,相同意思的句子表达依然是存在一定的不一致性的,当然相应的这种不一致性相比不同语言的情况要好的多,以英语为例,表3中给出了相应的英语相同意思句对的一致性调查结果。同理,表4给出来经过本发明方法处理之后,切分的一致性和结构的一致性都有所提高。
表3:意思相同的4个英语句子中,随机抽取检查其在单语篇章分析结果中的切分、结构、以及关系的一致性。
表4:在采用本发明标注方法进行了标注之后,其相应的切分和结构一致性都有所提高。
分析其原理,本发明提出的双语篇章分析方法主要是关注于句子的语义构成,即篇章生成过程。对于不同语言来说,即使是句法上有很大的差异,但是语义块的差异并不是很大,篇章语义单元中所包含了意图,动机,意义,事件描述等信息这些语义块具体的模式千差万别,但是,从语言角度来说,它们具有一定的特点:
1)整体性,为了表达特定的语义,这些语义块通常会整体出现,在句子中呈现为连续的词序列。
2)连贯性,连贯性在双语体系下表现为,在特定语言中,有特定语义功能的基本篇章单元总是与其语义关联对象保持一定的联系,这种联系在句子中呈现为结构词,例如汉语中的‘的’字结构,英语中的定语从句等等。连贯性主要指的是通过良好的组织使得句子更好的被人理解。在不同的语言中,这种连贯性的具体体现就是在句子中不同的基本篇章单元被特定的结构组织到一起。
3)衔接性,从句子组织逻辑性来说,一般的语言中都会伴随一定的逻辑衔接词,这些词主要起到过渡的作用,也提示了上下文的关系。例如,中文中的“如果”,“但是”等等。通常在不同的语言中,这种衔接性特征也具有较高的一致性。
根据以上的分析,本发明采用基本篇章单元作为不同语言之间一致性的标准是合理的,是有效的。通过本发明方法,在实验中看到的确显著地提高了双语中篇章分析标注的一致性,甚至同样语种不同的句子的篇章分析标注的一致性也有所提高。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种双语篇章标注方法,其特征在于,所述方法包括以下步骤:
步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;
步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;
步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构;
所述步骤2进一步包括以下步骤:
步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;
步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;
步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映射包含关系,抽取两端基本篇章单元级别的映射关系;
所述步骤3进一步包括以下步骤:
步骤31,根据所述步骤2得到的两端句子中的基本篇章单元构建双语基本篇章单元集合,该集合中包括了两端所有的双语基本篇章单元;
步骤32,根据双语篇章分析树的结构关系,递归寻找叶子级别的基本篇章单元,以及与叶子相关联的基本篇章单元,将寻找到的基本篇章单元对从所述双语基本篇章单元集合中删除;
步骤33,将所述步骤32寻找到的基本篇章单元对根据原本的文本顺序组合成一个完整的块单元,并将其重新加入所述双语基本篇章单元集合;
步骤34,重复步骤32以及步骤33,直到所述双语基本篇章单元集合中只剩下一个块单元。
2.根据权利要求1所述的方法,其特征在于,所述篇章分析树至少包括篇章切分、篇章结构和篇章关系信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤23抽取的基本篇章单元级别的映射关系包括:一端与另一端基本篇章单元一一对应的关系和一端与另一端基本篇章单元一对多的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述步骤31-步骤34中,整个过程所产生的块单元、篇章单元的合并以及层次化分析结果均作为双语篇章结构最后的输出。
5.根据权利要求1所述的方法,其特征在于,所述双语篇章结构包括树形结构和/或链式结构。
6.根据权利要求5所述的方法,其特征在于,在所述树形结构中,根据双语基本篇章单元之间的关系以及核心和卫星的关系构建树形关系。
7.根据权利要求5所述的方法,其特征在于,在所述链式结构中,根据双语基本篇章单元之间的关系,按照句子顺序来进行链式构建,所有基本篇章单元之间的关系都被简化为顺序关系,嵌套结构的部分从主结构部分中抽取出来,使用嵌套关系链接到主结构后面。
CN201610317745.XA 2016-05-13 2016-05-13 一种双语篇章标注方法 Active CN106021224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610317745.XA CN106021224B (zh) 2016-05-13 2016-05-13 一种双语篇章标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610317745.XA CN106021224B (zh) 2016-05-13 2016-05-13 一种双语篇章标注方法

Publications (2)

Publication Number Publication Date
CN106021224A CN106021224A (zh) 2016-10-12
CN106021224B true CN106021224B (zh) 2019-03-15

Family

ID=57100776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610317745.XA Active CN106021224B (zh) 2016-05-13 2016-05-13 一种双语篇章标注方法

Country Status (1)

Country Link
CN (1) CN106021224B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3622412A1 (en) * 2017-05-10 2020-03-18 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US11809825B2 (en) 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
CN111149100B (zh) * 2017-09-28 2023-08-29 甲骨文国际公司 基于命名实体的解析和识别确定跨文档的修辞相互关系
EP3791292A1 (en) 2018-05-09 2021-03-17 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
CN109977372B (zh) * 2019-03-26 2023-06-27 苏州大学 中文篇章树的构建方法
US11580298B2 (en) 2019-11-14 2023-02-14 Oracle International Corporation Detecting hypocrisy in text
CN112257412B (zh) * 2020-09-25 2023-12-01 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN114580439B (zh) * 2022-02-22 2023-04-18 北京百度网讯科技有限公司 翻译模型训练方法、翻译方法、装置、设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2083733A1 (en) * 1991-12-30 1993-07-01 Kenneth Ward Church Word disambiguation methods and apparatus
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN104915337A (zh) * 2015-06-18 2015-09-16 中国科学院自动化研究所 基于双语篇章结构信息的译文篇章完整性评估方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2083733A1 (en) * 1991-12-30 1993-07-01 Kenneth Ward Church Word disambiguation methods and apparatus
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN104915337A (zh) * 2015-06-18 2015-09-16 中国科学院自动化研究所 基于双语篇章结构信息的译文篇章完整性评估方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bilingual Semantic Role Labeling Inference via Dual Decomposition;HAITONG YANG等;《ACM Transactions on Asian and Low-Resource Language Information Processing》;20160303;第15卷(第3期);全文 *
Joint Inference for Bilingual Semantic Role Labeling;Tao Zhuang等;《Proceeding EMNLP 10 Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing》;20101231;第306页右栏至308页左栏,第310页右栏 *
基于最大熵的汉语篇章结构自动分析方法;涂眉等;《北京大学学报(自然科学版)》;20140131;第50卷(第1期);全文 *
汉英双语命名实体识别与对齐的交互式方法;陈钰枫等;《计算机学报》;20110930;第34卷(第9期);全文 *

Also Published As

Publication number Publication date
CN106021224A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021224B (zh) 一种双语篇章标注方法
CN104679850B (zh) 地址结构化方法及装置
JP5452868B2 (ja) トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
Dellert et al. NorthEuraLex: A wide-coverage lexical database of Northern Eurasia
Gracia et al. The apertium bilingual dictionaries on the web of data
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN106383818A (zh) 一种机器翻译方法及装置
CN104239286A (zh) 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN106055623A (zh) 一种跨语言推荐方法和系统
CN109829173B (zh) 一种英文地名翻译方法及装置
CN104239290B (zh) 基于依存树的统计机器翻译方法及系统
Azzopardi et al. Integrating natural language and formal analysis for legal documents
Al-Arfaj et al. Towards ontology construction from Arabic texts-a proposed framework
Anju et al. Malayalam to English machine translation: An EBMT system
Alkhalifa et al. Automatically extending NE coverage of Arabic WordNet using Wikipedia
Jurkiewicz-Rohrbacher et al. Clitic climbing, finiteness and the Raising-Control distinction. a corpus–based study
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Shilliday et al. Data for a worldwide ICEWS and ongoing research
Saraswathi et al. Bilingual translation system
Zhao et al. Learning to transform and select elementary trees for improved syntax-based machine translations
CN111368091A (zh) 文档翻译方法及装置
Cheng et al. The revised wordframe model for the Filipino language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant