CN101908042B - 一种双语联合语义角色的标注方法 - Google Patents

一种双语联合语义角色的标注方法 Download PDF

Info

Publication number
CN101908042B
CN101908042B CN201010248198.7A CN201010248198A CN101908042B CN 101908042 B CN101908042 B CN 101908042B CN 201010248198 A CN201010248198 A CN 201010248198A CN 101908042 B CN101908042 B CN 101908042B
Authority
CN
China
Prior art keywords
argument
bilingual
character labeling
semantic
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010248198.7A
Other languages
English (en)
Other versions
CN101908042A (zh
Inventor
宗成庆
庄涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201010248198.7A priority Critical patent/CN101908042B/zh
Publication of CN101908042A publication Critical patent/CN101908042A/zh
Priority to PCT/CN2011/074877 priority patent/WO2012019478A1/zh
Priority to US13/519,626 priority patent/US9411802B2/en
Application granted granted Critical
Publication of CN101908042B publication Critical patent/CN101908042B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明是一种双语联合语义角色的标注方法,所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法,步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;步骤3:将所述初始候选论元进行合并,得到正式候选论元;步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。

Description

一种双语联合语义角色的标注方法
技术领域
本发明涉及自然语言处理技术领域,是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法。
背景技术
语义角色标注是一种浅层语义分析技术,它的目标是找出一个句子中的谓词的各个论元,并为这些论元加上表示其角色的标签。一个例子如下所示:
外商投资企业成为中国外贸投资增长点
[A0][Pred][A1]
在上面的例子中,“成为”是谓词;“外商投资企业”是“成为”这个动作的施事者,从而是“成为”的一个论元,其角色标签是A0;“中国外贸投资增长点”是“成为”这个动作的受事者,从而是“成为”的另一个论元,其角色标签是A1。目前广泛使用的一个语义角色标注体系是命题库(PropBank)的标注体系,关于这个标注体系的具体说明可以参考文献【MarthaPalmer,DanielGildea,andPaulKingsbury.2005.ThePropositionBank:AnAnnotatedCorpusofSemanticRoles.ComputationalLinguistics,31(1):71-106.】。所述标注体系定义了一套通用的标签集,所述标签集中有A0、A1、A2、A3、A4、A5这六个关键语义角色标签,以及以AM开头的许多附属性语义角色标签,如AM-TMP,AM-ADV等。对于一个谓词,不同的语义角色表示不同的含义。例如语义角色A0表示谓词所代表的动作的施事者,而语义角色A1则表示谓词所代表的动作的受事者。从上述的例子我们可以看出,语义角色标注能够提取出一个句子的谓词-论元结构,从而反映出这个句子的语义框架。如果语义角色标注能够做好,将能极大地提高包括信息检索与抽取、机器翻译、自动文摘在内的多项技术的水平。
我们称对双语平行句子对进行语义角色标注为双语的语义角色标注。双语的语义角色标注有着重要的应用领域,例如机器翻译。近几年来,许多研究者对多种语言的语义角色标注进行了大量的研究。但是却没有人提出一个有效地进行双语的语义角色标注的方法。由于英语有着较为丰富的语义角色标注语料库,而德语却缺乏这样的语料库,所以有学者曾经提出一种利用英德平行语料库来自动生成一些德语语义角色标注语料的方法。这种方法只在英语端作语义角色标注,然后利用词对齐将英语端的结果映射到德语端。这种方法简单地将英语端的结果映射到德语端,忽视了两种语言的差异性,因而在德语端得到的语义角色标注结果很差。所以这种方法无法解决双语的语义角色标注问题。对于双语的语义角色标注,另外一种传统的方法是在源语言端和目标语言端分别进行单语的语义角色标注。但是,这种方法没有挖掘和利用双语句子对所包含的语义上的深层信息,而只将其视为两种不同语言各自的语义角色标注问题。由于目前单语的语义角色标注的准确率都不高,上述的传统的方法很难在源语言端和目标语言端同时获得准确的语义角色标注结果。
发明内容
针对传统方法的缺陷,本发明的目的在于利用双语之间论元结构的一致性来提高语义角色标注的准确率,并且同时对齐源语言端和目标语言端的论元。
为了实现所述目的,本发明提供一种双语联合语义角色的标注方法,所述方法的步骤如下:
步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;
步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;
步骤3:将所述初始候选论元进行合并,得到正式候选论元;
步骤4:针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。
优选实施例,逐个考察双语句子对中自动对齐的词对,如果自动对齐的词对中的两个词都是动词,则认为这一对词是一个谓词对;从双语句子对中找出所有这样的谓词对。
优选实施例,所述生成多个语义角色标注结果的具体步骤如下:
步骤21:对双语句子对中的每一个句子,使用句法分析器生成多个句法分析结果;
步骤22:将所述的每一个句法分析结果输入给单语的语义角色标注系统,从而得到一个语义角色标注结果,所述语义角色标注结果中的每一个论元都是一个初始候选论元。
优选实施例,所述对初始候选论元进行合并是将具有相同位置和标签的初始候选论元合并成一个正式候选论元。
优选实施例,所述双语联合推断模型同时考虑了三个相互关联的因素;这三个因素是:源语言端语义角色标注的正确性,目标语言端语义角色标注的正确性,以及源语言端和目标语言端语义角色标注结果之间论元对齐的合理性。
优选实施例,在分别考虑源语言端和目标语言端语义角色标注的正确性时,双语联合推断模型的目标是使标注正确的论元的个数的数学期望最大;双语联合推断模型的约束条件包括以下两类:
1)关键语义角色不重复:对于六种关键语义角色类型A0~A5,不能有重复的论元;
2)论元位置不重叠:一个句子中的任何两个论元在位置上不能重叠。
优选实施例,为了衡量源语言端和目标语言端语义角色标注结果之间论元对齐的合理性,使用了一个对数线性模型来计算对齐两个论元的概率;对于任意给定的一个源语言端的论元和一个目标语言端的论元,所述对数线性模型能计算出这两个论元对齐的概率;所述对数线性模型使用的特征有:
1)词对齐特征:所述词对齐特征定义为两个论元所包含的词互相对齐的杰卡德相似度(Jaccard)系数;
2)中心词对齐特征:将两个论元的中心词是否对齐作为一个特征;
3)两个论元的语义角色标签;
4)谓词对,即源语言端的谓词和目标语言端的谓词。
优选实施例,在考虑源语言端和目标语言端语义角色标注结果之间论元对齐的合理性时,双语联合推断模型的目标是使正确对齐的论元的个数的数学期望最大;双语联合推断模型的约束条件包括以下三类:
1)与双语的语义角色标注的结果相容:所述条件要求被对齐的候选论元必须是出现在最终双语语义角色标注结果中的论元;
2)一对多的个数限制:每个论元至多只能和三个论元对齐;
3)论元对齐的完备性:源语言端的每个论元必须至少和一个目标语言端的论元对齐;同样,目标语言端的每个论元必须至少和一个源语言端的论元对齐;同时,所述约束又是一种软约束,即允许违背上述的论元对齐的完备性要求,但对于违背的情况加以惩罚,违背越多惩罚就越大。
本发明的积极效果:由于双语平行句子对是互为翻译的一对句子,因而它们在语义上是等价的。这种语义等价关系意味着双语平行句子对应当具有一致的谓词-论元结构。即对于互为翻译的一对谓词,其论元结构应当是一致的。这种论元结构的一致性可以指导我们找到更好的语义角色标注结果。本发明能够利用双语间论元结构的一致性来指导双语的语义角色标注。目前效果最好的语义角色标注方法是单语融合的方法。我们在中英平行命题库(PropBank)上的进行了实验。利用本发明,中文和英文的语义角色标注结果的F1值分别达到了80.06%和81.12%,比单语融合的方法分别提高了2.05和1.71个百分点。这充分证明了本方法的有效性和优越性。
附图说明
图1a和图1b是一个典型的取自汉-英平行命题库(PropBank)中的例子;
图2是本发明的系统框架以及工作流程图;
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
本发明所有代码实现都是用Python2.6语言完成的,开发平台是UbuntuLinux9.04。由于Python代码运行于Python虚拟机上,具有跨平台的能力,因此所述的实现也可以运行于Windows操作系统上。
本发明的基本思想是利用双语间论元结构的一致性来指导双语的语义角色标注。例如,图1a和图1b是一个典型的取自汉-英平行命题库(PropBank)中的例子。在图1a中,语义角色标注的结果是由单语语义角色标注系统给出的。英语端的语义角色标注的结果是正确的。汉语端标记为“R1”的那一行的结果是正确的;而标记为“R2”的那一行的结果是错误的。所述汉语端正确结果的论元结构与英语端正确结果的论元结构是一致的;而所述汉语端错误结果的论元结构与英语端正确结果的论元结构不一致。在这个例子中,因为汉语端的AM-TMP论元嵌入到了一个不连续的A1论元之中,所以汉语端的正确结果比英语端的更难得到。而论元结构的一致性可以指导我们选出汉语端正确的语义角色标注结果。而附图1b给出了英语端和汉语端正确的语义角色标注结果之间的合理的论元对齐。附图1b表明双语句子对之间一致的论元结构可以通过它们之间合理的论元对齐反映出来。
本发明提出了一个联合推断模型来进行双语的语义角色标注。本发明的系统框架结构如图2所示。下面我们以汉-英平行句子对作为实施例来详细阐述本发明的原理与实现方法。
1.对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对。具体实施方式如下:
对双语句子对中的源语言和目标语言句子进行自动分词,得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语,则不需要进行分词。如果源语言或目标语言中包含汉语,则需要用对汉语进行分词。对汉语进行分词的方法有很多种。在本文的实施例中我们以开源的斯坦福中文分词工具(StanfordChineseWordSegmenter)对汉语进行分词。斯坦福中文分词工具一个常用的开源中文分词工具。斯坦福中文分词工具可以在以下网址免费下载:
http://nlp.stanford.edu/software/segmenter.shtml
得到所述的源语言端和目标语言端的分词结果之后,分别对源语言端和目标语言端的分词结果进行词性标注,得到源语言端和目标语言端的词性标注结果。进行词性标注的方法有很多种。在本文的实施例中我们用开源的斯坦福词性标注工具(StanfordPOSTagger)来对汉语和英语进行词性标注。斯坦福词性标注工具是一个常用的开源词性标注工具,可以在以下网址免费下载:
http://nlp.stanford.edu/software/tagger.shtml
得到所述的源语言端和目标语言端的分词结果之后,需要对双语句子对自动进行词对齐。自动进行词对齐的方法有多种。在本文的实施例中我们使用GIZA++工具对汉-英句子对进行词对齐,得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载http://fjoch.com/GIZA++.html。在使用GIZA++时要选择其中的intersection启发式策略来得到词对齐结果,因为这样做可以得到准确率很高的词对齐结果。
利用所述的源语言端和目标语言端的词性标注结果和词对齐结果,逐个考察双语句子对中自动对齐的词对,如果自动对齐的词对中的两个词都是动词,则认为这一对词是一个谓词对。从双语句子对中找出所有这样的谓词对。
2.针对所述步骤1中得到的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;具体实施方式如下:
如图2所示,针对所述步骤1中所得到的双语句子对中的谓词对,我们需要用单语的语义角色标注系统为每个谓词生成多个语义角色标注结果。单语的语义角色标注系统有许多种。在本文的实施例中,根据文献【NianwenXue.2008.LabelingChinesePredicateswithSemanticRoles.ComputationalLinguistics,34(2):225-255.】所描述的方法,我们实现了一个基于最大熵分类器的单语语义角色标注系统。所述的基于最大熵分类器的单语语义角色标注系统以短语结构句法树作为输入,输出单语语义角色标注结果。当使用所述的基于最大熵分类器的单语语义角色标注系统做汉语的语义角色标注时,使用的特征与文献【NianwenXue.2008.LabelingChinesePredicateswithSemanticRoles.ComputationalLinguistics,34(2):225-255.】中使用的特征一致。当使用所述的基于最大熵分类器的单语语义角色标注系统做英语的语义角色标注时,使用的特征与文献【SameerS.Pradhan,WayneWard,JamesH.Martin.2008.TowardsRobustSemanticRoleLabeling.ComputationalLinguistics,34(2):289-310.】中使用的特征一致。在本文的实施例中,我们使用了开源的最大熵工具包来实现所述的基于最大熵分类器的单语语义角色标注系统。所述开源的最大熵工具包可以在以下网址免费下载:
http://homepages.inf.ed.ac.uk/lzhang10/maxenttoolkit.html
所述开源的最大熵工具包的使用方法可参考所述开源的最大熵工具包中的说明文件。
对于每一个论元,所述最大熵分类器都能输出一个分类概率,我们就用这个分类概率作为所述论元的概率。如附表1所示,单语语义角色标注系统输出结果中的每一个论元都有三个属性:论元在句子中的位置loc,所述位置表示为它的第一个和最后一个词的词号;论元的语义角色l;以及论元的概率p。这样,单语语义角色标注系统输出结果中的每一个初始候选论元都是一个三元组(loc,l,p)。例如附表1中的A0论元就是((0,2),A0,0.94)。
附表1
句子:外商投资企业成为中国外贸重要增长点
论元:[A0][Pred][A1]
loc:(0,2)(4,7)
l:A0A1
p:0.940.92
为了给每个句子生成多个候选结果,我们使用多个句法分析结果作为单语语义角色标注系统的输入。进行句法分析有多种方法。在本文的实施例中我们使用了三个不同的句法分析器:Berkeley句法分析器,Bikel句法分析器,和Stanford句法分析器。在本文的实施例中我们使用的句法分析结果有Berkeley句法分析器的3-best输出,以及Bikel句法分析器和Stanford句法分析器的各自的1-best输出。这样,对每个句子我们都得到5个句法分析结果,将这些结果输入到单语语义角色标注系统中就能得到5个语义角色标注结果。这些语义角色标注结果中的每一个论元都是一个初始候选论元。
3.将所述初始候选论元进行合并,得到正式候选论元。具体实施方式如下:
找出所有初始候选论元中具有相同位置和标签的初始候选论元;然后将这些初始候选论元合并成一个正式候选论元。合并后得到的正式候选论元的位置和标签与被合并的初始候选论元相同,而所述正式候选论元的概率是所有被合并的初始候选论元的概率的平均值。经过合并之后,对于一个正式候选论元(loc,l,p),我们称p为将标签l赋予位置loc的概率。
4.针对所述正式候选论元,利用双语联合推断模型同时生成双语句子对的语义角色标注结果。具体实施方式如下:
符号说明
本文中所用的数学符号比较多,为了便于比较,附表2中列出了出现次数较多的一些符号及其含义。对于附表2中未列出的数学符号,本文在它们出现的地方也给出了说明。
附表2
双语联合推断模型同时考虑了三个相互关联的因素:源语言端语义角色标注的正确性,目标语言端语义角色标注的正确性,以及源语言端和目标语言端语义角色标注结果之间论元对齐的合理性。因此双语联合推断模型可以从概念上分为三个组成部分:源语言部分,目标语言部分,以及论元对齐部分。双语联合推断模型的目标函数是三个子目标的加权和:
maxOs1Ot2Oa(1)
其中,Os和Ot分别代表了源语言端和目标语言端语义角色标注的正确性;Oa代表了源语言端和目标语言端的语义角色标注结果之间论元对齐的合理性;Os、Ot和Oa的具体定义将在后面介绍;λ1和λ2是相应于Ot和Oa的权值,我们根据经验令λ1=1.02,λ2=1.21。
4.1源语言部分
源语言部分要提高源语言端语义角色标注的正确性。而这等同于一个单语语义角色标注的融合问题。
如附表2所示,Ls表示源语言语义角色标签的类别数,我们记源语言端的语义角色标签集为,其中分别表示源语言的六个关键语义角色标签A0~A5。在源语言端所有的正式候选论元中,一共包含Ns个不同的位置:。而将语义角色标签赋予位置的概率是此处表示源语言端正式候选论元中的第i个位置,表示源语言标签集中的第个j标签。
定义整数变量xij为:
式(1)中源语言部分的子目标Os是使源语言端标注正确的论元的个数的数学期望最大:
O s = Σ i = 1 N s Σ j = 1 L s ( p ij s - T s ) x ij - - - ( 2 )
其中Ts是一个常数阈值,我们根据经验令Ts=0.15。加入Ts的目的是过滤掉概率太小的源语言端的正式候选论元。
源语言部分的约束条件包括以下两类:
1)关键语义角色不重复:对于六种关键语义角色类型A0~A5,不能有重复的论元。
2)论元位置不重叠:一个句子中的任何两个论元在位置上不能重叠。
其实还有一个隐含的约束,即对源语言端的每一个位置只能赋予一个语义角色标签,所述隐含的约束可以表示成式(3):
∀ 1 ≤ i ≤ N s : Σ j = 1 L s x ij ≤ 1 - - - ( 3 )
式(4)表示的是上述的关键语义角色不重复约束:
∀ 1 ≤ j ≤ 6 : Σ i = 1 N s x ij ≤ 1 - - - ( 4 )
对源语言端的一个位置令Ci表示集合中除本身之外与重叠的位置的下标集,那么上述的论元位置不重叠约束可以表示为式(5):
∀ 1 ≤ i ≤ N s : Σ u ∈ C i Σ j = 1 L s x uj ≤ ( 1 - Σ j = 1 L s x ij ) M - - - ( 5 )
其中M表示一个充分大的常数,M只要比正式候选论元的个数大就可以了,我们将M取为500。
4.2目标语言部分
目标语言部分和上述的源语言部分在原理上是完全相同的,只是数学表示符号不同,我们在此给出其数学表示。
如附表2所示,Lt表示目标语言语义角色标签的类别数,我们记目标语言端的语义角色标签集为,其中分别表示目标语言的六个关键语义角色标签A0~A5。在目标语言端所有的正式候选论元中,一共包含Nt个不同的位置:。而将语义角色标签赋予位置的概率是,此处表示目标语言端正式候选论元中的第k个位置,表示目标语言标签集中的第个j标签。
定义整数变量ykj为:
式(1)中目标语言部分的子目标Ot是使目标语言端标注正确的论元的个数的数学期望最大:
O t = Σ k = 1 N t Σ j = 1 L t ( p kj t - T t ) y kj - - - ( 6 )
其中Tt是一个常数阈值,我们根据经验令Tt=0.26。加入Tt的目的是过滤掉概率太小的目标语言端的正式候选论元。
一个隐含的约束是对目标语言端的每一个位置只能赋予一个语义角色标签,所述隐含的约束可以表示成式(7):
∀ 1 ≤ k ≤ N t : Σ j = 1 L t y kj ≤ 1 - - - ( 7 )
式(8)表示的是目标语言端的关键语义角色不重复约束:
∀ 1 ≤ j ≤ 6 : Σ k = 1 N t y kj ≤ 1 - - - ( 8 )
式(9)表示的是目标语言端的论元位置不重叠约束:
∀ 1 ≤ k ≤ N t : Σ v ∈ C k Σ j = 1 L t y vj ≤ ( 1 - Σ j = 1 L t y kj ) M - - - ( 9 )
其中Ck表示中除本身之外与重叠的位置的下标集,常数M取为500。
4.3论元对齐部分
论元对齐部分是联合推断模型的核心部分。论元对齐部分将从双语候选语义角色标注结果中选出论元对齐更合理的结果。
对于一个源语言端的论元和一个目标语言端的论元令zik为如下整数变量:
我们用表示对齐的概率,即我们称对齐的概率。
4.3.1论元对齐概率模型
我们建立了一个论元对齐概率模型来计算对齐的概率所述模型是一个对数线性模型。令(s,t)表示一个双语句子对,wa表示(s,t)上的词对齐。所述对数线性模型定义了变量zik在给定五元组的条件下的概率分布:
P(zik|tup)∝exp(wTφ(tup))
其中φ(tup)代表特征向量,w是与特征向量φ(tup)相应的特征权值向量,wT表示w的转置。有了这个模型,就可以如下计算了:
p ik q = P ( z ik = 1 | tup )
上述论元对齐概率模型使用的特征有:
1)词对齐特征。词对齐特征定义为两个论元所包含的词互相对齐的杰卡德相似度系数(JaccardSimilaritycoefficient)。计算杰卡德相似度系数时要进行双向计算,并取两个方向结果的平均值作为特征。词对齐特征的具体计算方法可以参考文献【SebastianPado,andMirellaLapata.2009.Cross-lingualAnnotationProjectionofSemanticRoles.JournalofArtificialIntelligenceResearch,36:307-340.】
2)中心词对齐特征。将两个论元的中心词是否对齐作为一个特征。
3)两个论元的语义角色标签。
4)谓词对。即源语言端的谓词和目标语言端的谓词。
为了研究实际语料中论元对齐的情况,同时为了给论元对齐概率模型提供训练数据。我们手工为汉-英平行命题库(PropBank)中的60个文件(chtb_0121.fid至chtb_0180.fid)做了论元对齐。我们用这些手工对齐的数据来训练上述论元对齐概率模型。从模型的类别上看,所述对齐概率模型是一个对数线形模型。实现对数线性模型的方法有多种。在本文的实施例中,我们用开源的最大熵工具包来实现论元对齐概率模型。所述开源的最大熵工具包可以在以下网址免费下载:
http://homepages.inf.ed.ac.uk/lzhang10/maxenttoolkit.html对齐概率模型具体的训练与计算方法可以参考所述最大熵工具包中的说明。
4.3.2论元对齐模型
式(1)中论元对齐部分的子目标Oa使正确对齐的论元个数的数学期望最大:
O a = Σ i = 1 N s Σ k = 1 N t ( p ik a - T a ) z ik - - - ( 10 )
其中Ta是一个常数阈值,我们根据经验令Ta=0.42,加入Ta的目的是过滤掉概率太小的论元对齐;而则是根据4.3.1部分所述的方法计算出来的。
Oa能反映源语言端和目标语言端论元结构的一致性。Oa的值越大,表明源语言端和目标语言端的论元对齐得越好,从而源语言端和目标语言端的论元结构越一致。
论元对齐部分的约束条件包括以下三类:
1)与双语的语义角色标注的结果相容:所述条件要求被对齐的候选论元必须是出现在最终双语语义角色标注结果中的论元。
2)一对多的个数限制:每个论元至多只能和三个论元对齐。
3)论元对齐的完备性:源语言端的每个论元必须至少和一个目标语言端的论元对齐;同样,目标语言端的每个论元必须至少和一个源语言端的论元对齐;同时,所述约束又是一种软约束,即允许违背上述的论元对齐的完备性要求,但对于违背的情况加以惩罚,违背越多惩罚就越大。
所述与双语的语义角色标注的结果相容约束,是将双语语义角色标注结果与论元对齐合理地整合在一起的一个必要条件。所述与双语的语义角色标注的结果相容约束条件可以用式(11)、(12)来表示:
∀ 1 ≤ i ≤ N s , 1 ≤ k ≤ N t : Σ j = 1 L s x ij ≥ z ik - - - ( 11 )
∀ 1 ≤ k ≤ N t , 1 ≤ i ≤ N s : Σ j = 1 L t y kj ≥ z ik - - - ( 12 )
所述一对多的个数限制约束来源于我们在手工对齐的语料上的观察结果。在手工对齐的语料上,我们发现没有任何一个论元和三个以上的论元对齐。所述一对多的个数限制约束条件可以用式(13)、(14)来表示:
∀ 1 ≤ i ≤ N s : Σ k = 1 N t z ik ≤ 3 - - - ( 13 )
∀ 1 ≤ k ≤ N t : Σ i = 1 N s z ik ≤ 3 - - - ( 14 )
所述论元对齐的完备性约束则来源于双语句子对在语义上的等价性。尽管所述论元对齐的完备性约束在理论上是合理的,但在实际中所述论元对齐的完备性约束并不总是成立。我们在手工标注语料上发现双语句子对中的一些论元有时在另一端并没有可以对齐的论元。因此将所述论元对齐的完备性约束作为一个软约束对待更符合实际情况。所述论元对齐的完备性约束的具体实施方式如下:
如果一个论元没有与另一端的任何一个论元对齐,我们就称它与NUL对齐。定义如下整数变量:
对于任何一个与NUL对齐的论元我们在目标函数中施加一个惩罚λ3。这样,式(10)中的子目标Oa就变成了式(15)的形式:
O a = Σ i = 1 N s Σ k = 1 N t ( p ik a - T a ) z ik - λ 3 ( Σ i = 1 N s z i , NUL + Σ k = 1 N t z NUL , k ) - - - ( 15 )
式(15)中的Ta是一个常数阈值,我们根据经验令Ta=0.42;式(15)中的λ3是违背了论元对齐的完备性要求所受到的惩罚因子,我们根据经验令λ3=0.15。
为了使zi,NUL和zNUL,k与原有的变量zik相容,必须引入式(16-19)所表示的约束:
∀ 1 ≤ i ≤ N s , 1 ≤ k ≤ N t : z i , NUL ≤ 1 - z ik - - - ( 16 )
∀ 1 ≤ i ≤ N s : Σ k = 1 N t z ik + z i , NUL ≥ 1 - - - ( 17 )
∀ 1 ≤ k ≤ N t , 1 ≤ i ≤ N s : z NUL , k ≤ 1 - z ik - - - ( 18 )
∀ 1 ≤ k ≤ N t : Σ i = 1 N s z ik + z NUL , k ≥ 1 - - - ( 19 )
4.4双语联合推断模型总结
至此,我们给出了双语联合推断模型。从数学模型的类别上看,所述双语联合推断模型是一个整数线性规划模型。所述双语联合推断模型的目标函数由式(1,2,6,15)所定义。所述双语联合推断模型的约束条件由式(3-5,7-9,11-14,16-19)所定义。所述双语联合推断模型的整数变量包含三类:第一类整数变量是xij(1≤i≤Ns,1≤j≤Ls),第一类整数变量的解给出了源语言端语义角色标注的结果;第二类整数变量是ykj(1≤k≤Nt,1≤j≤Lt),第二类整数变量的解给出了目标语言端语义角色标注的结果;第三类整数变量是zik(1≤i≤Ns,1≤k≤Nt),zi,NUL(1≤i≤Ns),zNUL,k(1≤k≤Nt),第三类整数变量的解给出了源语言端和目标语言端的语义角色标注结果之间的论元对齐。
建立起所述双语联合推断模型后,我们需要求解所述双语联合推断模型。所述双语联合推断模型是一个整数线性规划模型,而求解整数线性规划的方法有多种。在本文的实施例中,我们采用了开源工具包lpsolve来在程序中描述并求解所述双语联合推断模型。lpsolve是一个常用的描述并求解整数线性规划模型的开源工具包。所述开源工具包lpsolve可从以下网址免费下载http://lpsolve.sourceforge.net/。所述开源工具包lpsolve的具体使用方法请参考lpsolve工具包中的说明文件。
5、实验设置
在实验中我们使用了LinguisticDataConsortium(LDC)的OntoNotesRelease3.0语料中所包含的汉-英XinhuaNews数据。这部分数据是由325个文件(chtb_0001.fid至chtb_0325.fid)所组成的汉-英平行命题库(PropBank)。在这个汉-英平行命题库(PropBank)中,由于英语端只标注了动词性谓词的语义角色,所以我们只考虑动词性谓词的语义角色标柱。
我们使用了GIZA++工具来做双语的词对齐。为了生成较好的词对齐结果,我们除了使用上述汉-英平行命题库(PropBank)中包含的句子对之外,还使用了额外的4,500K汉-英句子对来生成词对齐。在分别生成了两个方向的词对齐结果之后,我们采用了intersection的启发式规则来得到最终的词对齐结果。
我们使用汉-英平行命题库(PropBank)中的80个文件(chtb_0001.fid至chtb_0080.fid)作为测试集,40个文件(chtb_0081.fid至chtb_0120.fid)作为开发集。尽管本发明中的双语联合推断模型不需要训练,但是双语联合推断模型要用到论元对齐概率模型,而论元对齐概率模型需要训练。所以我们用手工标注了论元对齐的60个文件(chtb_0121.fid至chtb_0180.fid)作为论元对齐概率模型的训练数据。由于自动词对齐的效果在一对多的汉-英句子对上很差,所以我们在上述的数据集中只包含了一对一的汉-英句子对。
对于步骤2中所描述的单语语义角色标注系统,我们单独进行了训练。对于汉语的语义角色标注系统,我们用汉语命题库(PropBank)中的608个文件(chtb_0121.fid至chtb_0885.fid)作为训练集。由于XinhuaNews和WSJ是不同的领域,所以英语的语义角色标注系统不仅使用了英语命题库(PropBank)中的WSJSections02~21作为训练数据,还使用了汉-英平行命题库(PropBank)中英语端的205个文件(chtb_0121.fid至chtb_0325.fid)作为训练数据。
6、实验结果
附表3列出了在步骤2中所述的单语语义角色标注系统产生的各个候选语义角色标注结果。在附表3中,Out1~Out3是利用Berkeley句法分析器的3-best输出分别作为单语语义角色标注系统的输入,所分别得到的语义角色标注结果,Out4和Out5是分别用Stanford句法分析器和Bikel句法分析器的1-best输出作为单语语义角色标注系统的输入,所得到的语义角色标注结果。
附表3.单语语义角色标注系统在测试集上的多个结果
本实验的对比系统是文献【MihaiSurdeanu,Llu′isM`arquez,XavierCarreras,andPereR.Comas.2007.CombinationStrategiesforSemanticRoleLabeling.JournalofArtificialIntelligenceResearch(JAIR),29:105-151.】中的单语语义角色融合系统。所述对比系统也代表了目前语义角色标注的最高水平。本发明和上述对比系统在测试集上的结果如附表4所示。在附表4中,我们用MonoCmb来表示上述的对比系统,用Joint来表示本发明的系统。
附表4.本发明Joint与单语融合系统MonoCmb在测试集上的结果
从附表3和附表4可以看出,本实验的对比系统MonoCmb的结果的F1值在汉语上和英语上分别比最好的单语语义角色标注系统的结果高出了2.32和2.49个百分点。这说明本实验的对比系统MonoCmb确实具有先进的性能,不容易被超过。即便如此,附表4中的结果显示本发明的系统Joint不论在汉语和英语上都较大幅度地超过了对比系统MonoCmb。本发明的结果的F1值在汉语和英语上分别比对比系统MonoCmb高出了2.05和1.71个百分点。在英语上,本发明的结果的F1值达到了81.12%,这和目前文献中最好的英语语义角色标注的结果相当。而在汉语上,本发明的结果的F1值达到了80.06%。据我们所知,本发明在汉语上的这个结果超过了目前所有文献中所报告过的汉语语义角色标注的最好结果。
由于本发明的方法不是针对两种特定的语言而提出的,所以本发明的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行了实验,但本发明同时也适用于其它语言,如日语、阿拉伯语、法语、德语。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种双语联合语义角色标注的方法,其特征在于:
步骤1:对双语句子对进行分词、词性标注和自动词对齐,并找出双语句子对中包含的谓词对;
步骤2:针对所述的谓词对,利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果,从而得到多个初始候选论元;
步骤3:将所述初始候选论元进行合并,得到正式候选论元;
步骤4:针对所述正式候选论元,利用双语语义角色标注的联合推断模型,下文简称为双语联合推断模型,同时生成双语句子对的语义角色标注结果,具体步骤包括:
首先,用计算机自动地计算双语联合推断模型的目标;在考虑源语言端和目标语言端语义角色标注结果之间论元对齐的合理性时,双语联合推断模型的目标是使正确对齐的论元的个数的数学期望最大;
然后,用计算机自动地在源语言和目标语言之间建立约束条件;在考虑源语言端和目标语言端语义角色标注结果之间论元对齐的合理性时,双语联合推断模型的约束条件包括以下三类:
1)与双语的语义角色标注的结果相容:所述条件要求被对齐的候选论元必须是出现在最终双语语义角色标注结果中的论元;
2)一对多的个数限制:每个论元至多只能和三个论元对齐;
3)论元对齐的完备性:源语言端的每个论元必须至少和一个目标语言端的论元对齐;同样,目标语言端的每个论元必须至少和一个源语言端的论元对齐;同时,所述约束又是一种软约束,即允许违背上述的论元对齐的完备性要求,但对于违背的情况加以惩罚,违背越多惩罚就越大;
最后,用计算机自动求解双语联合推断模型;求解双语联合推断模型所得到的结果即为双语句子对的语义角色标注结果。
2.根据权利要求1所述的双语联合语义角色标注的方法,其特征在于:使用计算机自动地逐个考察双语句子对中自动对齐的词对,如果自动对齐的词对中的两个词都是动词,则认为这一对词是一个谓词对;从双语句子对中找出所有这样的谓词对。
3.根据权利要求1所述的双语联合语义角色标注的方法,其特征在于:所述生成多个语义角色标注结果的具体步骤如下:
步骤21:对双语句子对中的每一个句子,使用句法分析器生成多个句法分析结果;
步骤22:将所述的每一个句法分析结果输入给单语的语义角色标注系统,从而得到一个语义角色标注结果,所述语义角色标注结果中的每一个论元都是一个初始候选论元。
4.根据权利要求1所述的双语联合语义角色标注的方法,其特征在于:所述对初始候选论元进行合并是将具有相同位置和标签的初始候选论元合并成一个正式候选论元。
5.根据权利要求1所述的双语联合语义角色标注的方法,其特征在于:所述双语联合推断模型同时考虑了三个相互关联的因素;这三个因素是:源语言端语义角色标注的正确性,目标语言端语义角色标注的正确性,以及源语言端和目标语言端语义角色标注结果之间论元对齐的合理性。
6.根据权利要求5所述的双语联合语义角色标注的方法,其特征在于:为了衡量源语言端和目标语言端语义角色标注结果之间论元对齐的合理性,使用了一个对数线性模型来计算对齐两个论元的概率;对于任意给定的一个源语言端的论元和一个目标语言端的论元,所述对数线性模型能计算出这两个论元对齐的概率;所述对数线性模型使用的特征有:
1)词对齐特征:所述词对齐特征定义为两个论元所包含的词互相对齐的杰卡德相似度(Jaccard)系数;
2)中心词对齐特征:将两个论元的中心词是否对齐作为一个特征;
3)两个论元的语义角色标签;
4)谓词对,即源语言端的谓词和目标语言端的谓词。
CN201010248198.7A 2010-08-09 2010-08-09 一种双语联合语义角色的标注方法 Expired - Fee Related CN101908042B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201010248198.7A CN101908042B (zh) 2010-08-09 2010-08-09 一种双语联合语义角色的标注方法
PCT/CN2011/074877 WO2012019478A1 (zh) 2010-08-09 2011-05-30 对双语平行句子对进行语义角色标注的方法
US13/519,626 US9411802B2 (en) 2010-08-09 2011-05-30 Method for labeling semantic role of bilingual parallel sentence pair

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010248198.7A CN101908042B (zh) 2010-08-09 2010-08-09 一种双语联合语义角色的标注方法

Publications (2)

Publication Number Publication Date
CN101908042A CN101908042A (zh) 2010-12-08
CN101908042B true CN101908042B (zh) 2016-04-13

Family

ID=43263504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010248198.7A Expired - Fee Related CN101908042B (zh) 2010-08-09 2010-08-09 一种双语联合语义角色的标注方法

Country Status (3)

Country Link
US (1) US9411802B2 (zh)
CN (1) CN101908042B (zh)
WO (1) WO2012019478A1 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908042B (zh) * 2010-08-09 2016-04-13 中国科学院自动化研究所 一种双语联合语义角色的标注方法
WO2013058118A1 (ja) * 2011-10-20 2013-04-25 日本電気株式会社 テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体
CN102662931B (zh) * 2012-04-13 2015-03-25 厦门大学 一种基于协同神经网络的语义角色标注方法
CN102693314B (zh) * 2012-05-29 2015-07-29 代松 一种基于事件搜索的敏感信息监控方法
CN103678270B (zh) * 2012-08-31 2016-08-24 富士通株式会社 语义单元抽取方法和语义单元抽取设备
CN103020045B (zh) * 2012-12-11 2015-05-13 中国科学院自动化研究所 一种基于谓词论元结构的统计机器翻译方法
CN103020295B (zh) * 2012-12-28 2016-01-27 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
CN104035916B (zh) * 2013-03-07 2017-05-24 富士通株式会社 标准化标注工具的方法和设备
CN103176963B (zh) * 2013-03-08 2015-06-03 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103577398B (zh) * 2013-10-17 2016-05-25 中国科学院计算技术研究所 一种基于谓词论元结构的层次机器翻译方法及系统
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
CN103714055B (zh) * 2013-12-30 2017-03-15 北京百度网讯科技有限公司 从图片中自动提取双语词典的方法及装置
CN105446962B (zh) * 2015-12-30 2018-08-10 语联网(武汉)信息技术有限公司 原文和译文的对齐方法和装置
US9898460B2 (en) 2016-01-26 2018-02-20 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
CN106066870B (zh) * 2016-05-27 2019-03-15 南京信息工程大学 一种语境标注的双语平行语料库构建系统
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统
CN106874362B (zh) * 2016-12-30 2020-01-10 中国科学院自动化研究所 多语言自动文摘方法
CN107273357B (zh) * 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
KR102069692B1 (ko) * 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치
CN108280063B (zh) * 2018-01-19 2021-04-20 中国科学院软件研究所 基于半监督学习的语义分析方法及系统
US10872122B2 (en) * 2018-01-30 2020-12-22 Government Of The United States Of America, As Represented By The Secretary Of Commerce Knowledge management system and process for managing knowledge
CN108491373B (zh) * 2018-02-01 2022-05-27 北京百度网讯科技有限公司 一种实体识别方法及系统
CN108664598B (zh) * 2018-05-09 2019-04-02 北京理工大学 一种具有综合优势的基于整数线性规划的抽取式文摘方法
CN109582949B (zh) * 2018-09-14 2022-11-22 创新先进技术有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109460455B (zh) * 2018-10-25 2020-04-28 第四范式(北京)技术有限公司 一种文本检测方法及装置
CN110781685B (zh) * 2019-10-18 2022-08-19 四川长虹电器股份有限公司 基于用户反馈自动标注语义分析结果正误性的方法
CN111178089B (zh) * 2019-12-20 2023-03-14 沈阳雅译网络技术有限公司 一种双语平行数据一致性检测与纠正方法
CN111339269B (zh) * 2020-02-20 2023-09-26 来康科技有限责任公司 模板自动生成的知识图谱问答训练及应用服务系统
US11657229B2 (en) * 2020-05-19 2023-05-23 International Business Machines Corporation Using a joint distributional semantic system to correct redundant semantic verb frames
CN114970500A (zh) * 2021-02-18 2022-08-30 阿里巴巴集团控股有限公司 观点角色标注模型训练方法以及装置
CN113342343B (zh) * 2021-04-20 2022-05-27 山东师范大学 基于多跳推理机制的代码摘要生成方法及系统
CN113177108B (zh) * 2021-05-27 2024-07-16 中国平安人寿保险股份有限公司 语义角色标注方法、装置、计算机设备和存储介质
CN113743115A (zh) * 2021-09-07 2021-12-03 北京沃东天骏信息技术有限公司 文本处理的方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101419606A (zh) * 2008-11-13 2009-04-29 浙江大学 一种基于语义和内容的半自动图像标注方法
CN101446942A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义角色标注方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
JP4256891B2 (ja) * 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN101908042B (zh) * 2010-08-09 2016-04-13 中国科学院自动化研究所 一种双语联合语义角色的标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101419606A (zh) * 2008-11-13 2009-04-29 浙江大学 一种基于语义和内容的半自动图像标注方法
CN101446942A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义角色标注方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统

Also Published As

Publication number Publication date
US9411802B2 (en) 2016-08-09
CN101908042A (zh) 2010-12-08
WO2012019478A1 (zh) 2012-02-16
US20130204606A1 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
CN101908042B (zh) 一种双语联合语义角色的标注方法
Zhang et al. Semantic NLP-based information extraction from construction regulatory documents for automated compliance checking
Li et al. Building Chinese discourse corpus with connective-driven dependency tree structure
Al Qady et al. Concept relation extraction from construction documents using natural language processing
Meziane et al. Generating natural language specifications from UML class diagrams
CN105955956A (zh) 一种汉语隐式篇章关系识别方法
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN101251862A (zh) 一种基于内容的问题自动分类方法及其系统
CN100555271C (zh) 基于替换词技术的无指导词义消歧方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN110516240A (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
Zhu et al. Machine Learning‐Based Grammar Error Detection Method in English Composition
Li et al. Neural factoid geospatial question answering
Saini et al. Automated traceability for domain modelling decisions empowered by artificial intelligence
Pust et al. Using syntax-based machine translation to parse english into abstract meaning representation
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Guo et al. Automatic extraction of emergency response process models from chinese plans
Tezcan et al. Detecting grammatical errors in machine translation output using dependency parsing and treebank querying
CN101246473B (zh) 一种分词系统的评测方法和一种分词评测系统
Wu A computational neural network model for college English grammar correction
Nguyen et al. Systematic knowledge acquisition for question analysis
CN114186068A (zh) 一种基于多级注意力网络的审计制度依据问答方法
Rao et al. Automatic identification of concepts and conceptual relations from patents using machine learning methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160413

Termination date: 20190809