CN101908042B

CN101908042B - 一种双语联合语义角色的标注方法

Info

Publication number: CN101908042B
Application number: CN201010248198.7A
Authority: CN
Inventors: 宗成庆; 庄涛
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2010-08-09
Filing date: 2010-08-09
Publication date: 2016-04-13
Anticipated expiration: 2030-08-09
Also published as: US9411802B2; CN101908042A; WO2012019478A1; US20130204606A1

Abstract

本发明是一种双语联合语义角色的标注方法，所述方法是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法，步骤1：对双语句子对进行分词、词性标注和自动词对齐，并找出双语句子对中包含的谓词对；步骤2：针对所述的谓词对，利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果，从而得到多个初始候选论元；步骤3：将所述初始候选论元进行合并，得到正式候选论元；步骤4：针对所述正式候选论元，利用双语联合推断模型同时生成双语句子对的语义角色标注结果。在汉-英平行命题库(PropBank)上验证了本发明方法的有效性。

Description

一种双语联合语义角色的标注方法

技术领域

本发明涉及自然语言处理技术领域，是一种在双语平行句子对上将源语言句子和目标语言句子联合起来做语义角色标注的方法。

背景技术

语义角色标注是一种浅层语义分析技术，它的目标是找出一个句子中的谓词的各个论元，并为这些论元加上表示其角色的标签。一个例子如下所示：

外商投资企业成为中国外贸投资增长点

[A0][Pred][A1]

在上面的例子中，“成为”是谓词；“外商投资企业”是“成为”这个动作的施事者，从而是“成为”的一个论元，其角色标签是A0；“中国外贸投资增长点”是“成为”这个动作的受事者，从而是“成为”的另一个论元，其角色标签是A1。目前广泛使用的一个语义角色标注体系是命题库(PropBank)的标注体系，关于这个标注体系的具体说明可以参考文献【MarthaPalmer，DanielGildea，andPaulKingsbury.2005.ThePropositionBank：AnAnnotatedCorpusofSemanticRoles.ComputationalLinguistics，31(1)：71-106.】。所述标注体系定义了一套通用的标签集，所述标签集中有A0、A1、A2、A3、A4、A5这六个关键语义角色标签，以及以AM开头的许多附属性语义角色标签，如AM-TMP，AM-ADV等。对于一个谓词，不同的语义角色表示不同的含义。例如语义角色A0表示谓词所代表的动作的施事者，而语义角色A1则表示谓词所代表的动作的受事者。从上述的例子我们可以看出，语义角色标注能够提取出一个句子的谓词-论元结构，从而反映出这个句子的语义框架。如果语义角色标注能够做好，将能极大地提高包括信息检索与抽取、机器翻译、自动文摘在内的多项技术的水平。

我们称对双语平行句子对进行语义角色标注为双语的语义角色标注。双语的语义角色标注有着重要的应用领域，例如机器翻译。近几年来，许多研究者对多种语言的语义角色标注进行了大量的研究。但是却没有人提出一个有效地进行双语的语义角色标注的方法。由于英语有着较为丰富的语义角色标注语料库，而德语却缺乏这样的语料库，所以有学者曾经提出一种利用英德平行语料库来自动生成一些德语语义角色标注语料的方法。这种方法只在英语端作语义角色标注，然后利用词对齐将英语端的结果映射到德语端。这种方法简单地将英语端的结果映射到德语端，忽视了两种语言的差异性，因而在德语端得到的语义角色标注结果很差。所以这种方法无法解决双语的语义角色标注问题。对于双语的语义角色标注，另外一种传统的方法是在源语言端和目标语言端分别进行单语的语义角色标注。但是，这种方法没有挖掘和利用双语句子对所包含的语义上的深层信息，而只将其视为两种不同语言各自的语义角色标注问题。由于目前单语的语义角色标注的准确率都不高，上述的传统的方法很难在源语言端和目标语言端同时获得准确的语义角色标注结果。

发明内容

针对传统方法的缺陷，本发明的目的在于利用双语之间论元结构的一致性来提高语义角色标注的准确率，并且同时对齐源语言端和目标语言端的论元。

为了实现所述目的，本发明提供一种双语联合语义角色的标注方法，所述方法的步骤如下：

步骤1：对双语句子对进行分词、词性标注和自动词对齐，并找出双语句子对中包含的谓词对；

步骤2：针对所述的谓词对，利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果，从而得到多个初始候选论元；

步骤3：将所述初始候选论元进行合并，得到正式候选论元；

步骤4：针对所述正式候选论元，利用双语联合推断模型同时生成双语句子对的语义角色标注结果。

优选实施例，逐个考察双语句子对中自动对齐的词对，如果自动对齐的词对中的两个词都是动词，则认为这一对词是一个谓词对；从双语句子对中找出所有这样的谓词对。

优选实施例，所述生成多个语义角色标注结果的具体步骤如下：

步骤21：对双语句子对中的每一个句子，使用句法分析器生成多个句法分析结果；

步骤22：将所述的每一个句法分析结果输入给单语的语义角色标注系统，从而得到一个语义角色标注结果，所述语义角色标注结果中的每一个论元都是一个初始候选论元。

优选实施例，所述对初始候选论元进行合并是将具有相同位置和标签的初始候选论元合并成一个正式候选论元。

优选实施例，所述双语联合推断模型同时考虑了三个相互关联的因素；这三个因素是：源语言端语义角色标注的正确性，目标语言端语义角色标注的正确性，以及源语言端和目标语言端语义角色标注结果之间论元对齐的合理性。

优选实施例，在分别考虑源语言端和目标语言端语义角色标注的正确性时，双语联合推断模型的目标是使标注正确的论元的个数的数学期望最大；双语联合推断模型的约束条件包括以下两类：

1)关键语义角色不重复：对于六种关键语义角色类型A0～A5，不能有重复的论元；

2)论元位置不重叠：一个句子中的任何两个论元在位置上不能重叠。

优选实施例，为了衡量源语言端和目标语言端语义角色标注结果之间论元对齐的合理性，使用了一个对数线性模型来计算对齐两个论元的概率；对于任意给定的一个源语言端的论元和一个目标语言端的论元，所述对数线性模型能计算出这两个论元对齐的概率；所述对数线性模型使用的特征有：

1)词对齐特征：所述词对齐特征定义为两个论元所包含的词互相对齐的杰卡德相似度(Jaccard)系数；

2)中心词对齐特征：将两个论元的中心词是否对齐作为一个特征；

3)两个论元的语义角色标签；

4)谓词对，即源语言端的谓词和目标语言端的谓词。

优选实施例，在考虑源语言端和目标语言端语义角色标注结果之间论元对齐的合理性时，双语联合推断模型的目标是使正确对齐的论元的个数的数学期望最大；双语联合推断模型的约束条件包括以下三类：

1)与双语的语义角色标注的结果相容：所述条件要求被对齐的候选论元必须是出现在最终双语语义角色标注结果中的论元；

2)一对多的个数限制：每个论元至多只能和三个论元对齐；

3)论元对齐的完备性：源语言端的每个论元必须至少和一个目标语言端的论元对齐；同样，目标语言端的每个论元必须至少和一个源语言端的论元对齐；同时，所述约束又是一种软约束，即允许违背上述的论元对齐的完备性要求，但对于违背的情况加以惩罚，违背越多惩罚就越大。

本发明的积极效果：由于双语平行句子对是互为翻译的一对句子，因而它们在语义上是等价的。这种语义等价关系意味着双语平行句子对应当具有一致的谓词-论元结构。即对于互为翻译的一对谓词，其论元结构应当是一致的。这种论元结构的一致性可以指导我们找到更好的语义角色标注结果。本发明能够利用双语间论元结构的一致性来指导双语的语义角色标注。目前效果最好的语义角色标注方法是单语融合的方法。我们在中英平行命题库(PropBank)上的进行了实验。利用本发明，中文和英文的语义角色标注结果的F1值分别达到了80.06％和81.12％，比单语融合的方法分别提高了2.05和1.71个百分点。这充分证明了本方法的有效性和优越性。

附图说明

图1a和图1b是一个典型的取自汉-英平行命题库(PropBank)中的例子；

图2是本发明的系统框架以及工作流程图；

具体实施方式

下面结合附图对本发明作具体说明。应该指出，所描述的实例仅仅视为说明的目的，而不是对本发明的限制。

本发明所有代码实现都是用Python2.6语言完成的，开发平台是UbuntuLinux9.04。由于Python代码运行于Python虚拟机上，具有跨平台的能力，因此所述的实现也可以运行于Windows操作系统上。

本发明的基本思想是利用双语间论元结构的一致性来指导双语的语义角色标注。例如，图1a和图1b是一个典型的取自汉-英平行命题库(PropBank)中的例子。在图1a中，语义角色标注的结果是由单语语义角色标注系统给出的。英语端的语义角色标注的结果是正确的。汉语端标记为“R1”的那一行的结果是正确的；而标记为“R2”的那一行的结果是错误的。所述汉语端正确结果的论元结构与英语端正确结果的论元结构是一致的；而所述汉语端错误结果的论元结构与英语端正确结果的论元结构不一致。在这个例子中，因为汉语端的AM-TMP论元嵌入到了一个不连续的A1论元之中，所以汉语端的正确结果比英语端的更难得到。而论元结构的一致性可以指导我们选出汉语端正确的语义角色标注结果。而附图1b给出了英语端和汉语端正确的语义角色标注结果之间的合理的论元对齐。附图1b表明双语句子对之间一致的论元结构可以通过它们之间合理的论元对齐反映出来。

本发明提出了一个联合推断模型来进行双语的语义角色标注。本发明的系统框架结构如图2所示。下面我们以汉-英平行句子对作为实施例来详细阐述本发明的原理与实现方法。

1.对双语句子对进行分词、词性标注和自动词对齐，并找出双语句子对中包含的谓词对。具体实施方式如下：

对双语句子对中的源语言和目标语言句子进行自动分词，得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语，则不需要进行分词。如果源语言或目标语言中包含汉语，则需要用对汉语进行分词。对汉语进行分词的方法有很多种。在本文的实施例中我们以开源的斯坦福中文分词工具(StanfordChineseWordSegmenter)对汉语进行分词。斯坦福中文分词工具一个常用的开源中文分词工具。斯坦福中文分词工具可以在以下网址免费下载：

http://nlp.stanford.edu/software/segmenter.shtml

得到所述的源语言端和目标语言端的分词结果之后，分别对源语言端和目标语言端的分词结果进行词性标注，得到源语言端和目标语言端的词性标注结果。进行词性标注的方法有很多种。在本文的实施例中我们用开源的斯坦福词性标注工具(StanfordPOSTagger)来对汉语和英语进行词性标注。斯坦福词性标注工具是一个常用的开源词性标注工具，可以在以下网址免费下载：

http://nlp.stanford.edu/software/tagger.shtml

得到所述的源语言端和目标语言端的分词结果之后，需要对双语句子对自动进行词对齐。自动进行词对齐的方法有多种。在本文的实施例中我们使用GIZA++工具对汉-英句子对进行词对齐，得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载http://fjoch.com/GIZA++.html。在使用GIZA++时要选择其中的intersection启发式策略来得到词对齐结果，因为这样做可以得到准确率很高的词对齐结果。

利用所述的源语言端和目标语言端的词性标注结果和词对齐结果，逐个考察双语句子对中自动对齐的词对，如果自动对齐的词对中的两个词都是动词，则认为这一对词是一个谓词对。从双语句子对中找出所有这样的谓词对。

2.针对所述步骤1中得到的谓词对，利用单语语义角色标注系统为每一个谓词生成多个语义角色标注结果，从而得到多个初始候选论元；具体实施方式如下：

如图2所示，针对所述步骤1中所得到的双语句子对中的谓词对，我们需要用单语的语义角色标注系统为每个谓词生成多个语义角色标注结果。单语的语义角色标注系统有许多种。在本文的实施例中，根据文献【NianwenXue.2008.LabelingChinesePredicateswithSemanticRoles.ComputationalLinguistics，34(2)：225-255.】所描述的方法，我们实现了一个基于最大熵分类器的单语语义角色标注系统。所述的基于最大熵分类器的单语语义角色标注系统以短语结构句法树作为输入，输出单语语义角色标注结果。当使用所述的基于最大熵分类器的单语语义角色标注系统做汉语的语义角色标注时，使用的特征与文献【NianwenXue.2008.LabelingChinesePredicateswithSemanticRoles.ComputationalLinguistics，34(2)：225-255.】中使用的特征一致。当使用所述的基于最大熵分类器的单语语义角色标注系统做英语的语义角色标注时，使用的特征与文献【SameerS.Pradhan，WayneWard，JamesH.Martin.2008.TowardsRobustSemanticRoleLabeling.ComputationalLinguistics，34(2)：289-310.】中使用的特征一致。在本文的实施例中，我们使用了开源的最大熵工具包来实现所述的基于最大熵分类器的单语语义角色标注系统。所述开源的最大熵工具包可以在以下网址免费下载：

http://homepages.inf.ed.ac.uk/lzhang10/maxenttoolkit.html

所述开源的最大熵工具包的使用方法可参考所述开源的最大熵工具包中的说明文件。

对于每一个论元，所述最大熵分类器都能输出一个分类概率，我们就用这个分类概率作为所述论元的概率。如附表1所示，单语语义角色标注系统输出结果中的每一个论元都有三个属性：论元在句子中的位置loc，所述位置表示为它的第一个和最后一个词的词号；论元的语义角色l；以及论元的概率p。这样，单语语义角色标注系统输出结果中的每一个初始候选论元都是一个三元组(loc，l，p)。例如附表1中的A0论元就是((0，2)，A0，0.94)。

附表1

句子：外商投资企业成为中国外贸重要增长点

论元：[A0][Pred][A1]

loc：(0，2)(4，7)

l：A0A1

p：0.940.92

为了给每个句子生成多个候选结果，我们使用多个句法分析结果作为单语语义角色标注系统的输入。进行句法分析有多种方法。在本文的实施例中我们使用了三个不同的句法分析器：Berkeley句法分析器，Bikel句法分析器，和Stanford句法分析器。在本文的实施例中我们使用的句法分析结果有Berkeley句法分析器的3-best输出，以及Bikel句法分析器和Stanford句法分析器的各自的1-best输出。这样，对每个句子我们都得到5个句法分析结果，将这些结果输入到单语语义角色标注系统中就能得到5个语义角色标注结果。这些语义角色标注结果中的每一个论元都是一个初始候选论元。

3.将所述初始候选论元进行合并，得到正式候选论元。具体实施方式如下：

找出所有初始候选论元中具有相同位置和标签的初始候选论元；然后将这些初始候选论元合并成一个正式候选论元。合并后得到的正式候选论元的位置和标签与被合并的初始候选论元相同，而所述正式候选论元的概率是所有被合并的初始候选论元的概率的平均值。经过合并之后，对于一个正式候选论元(loc，l，p)，我们称p为将标签l赋予位置loc的概率。

4.针对所述正式候选论元，利用双语联合推断模型同时生成双语句子对的语义角色标注结果。具体实施方式如下：

符号说明

本文中所用的数学符号比较多，为了便于比较，附表2中列出了出现次数较多的一些符号及其含义。对于附表2中未列出的数学符号，本文在它们出现的地方也给出了说明。

附表2

双语联合推断模型同时考虑了三个相互关联的因素：源语言端语义角色标注的正确性，目标语言端语义角色标注的正确性，以及源语言端和目标语言端语义角色标注结果之间论元对齐的合理性。因此双语联合推断模型可以从概念上分为三个组成部分：源语言部分，目标语言部分，以及论元对齐部分。双语联合推断模型的目标函数是三个子目标的加权和：

maxO_s+λ₁O_t+λ₂O_a(1)

其中，O_s和O_t分别代表了源语言端和目标语言端语义角色标注的正确性；O_a代表了源语言端和目标语言端的语义角色标注结果之间论元对齐的合理性；O_s、O_t和O_a的具体定义将在后面介绍；λ₁和λ₂是相应于O_t和O_a的权值，我们根据经验令λ₁＝1.02，λ₂＝1.21。

4.1源语言部分

源语言部分要提高源语言端语义角色标注的正确性。而这等同于一个单语语义角色标注的融合问题。

如附表2所示，L_s表示源语言语义角色标签的类别数，我们记源语言端的语义角色标签集为，其中分别表示源语言的六个关键语义角色标签A0～A5。在源语言端所有的正式候选论元中，一共包含N_s个不同的位置：。而将语义角色标签赋予位置的概率是此处表示源语言端正式候选论元中的第i个位置，表示源语言标签集中的第个j标签。

定义整数变量x_ij为：

式(1)中源语言部分的子目标O_s是使源语言端标注正确的论元的个数的数学期望最大：

O_{s} = Σ_{i = 1}^{N_{s}} Σ_{j = 1}^{L_{s}} (p_{ij}^{s} - T_{s}) x_{ij} - - - (2)

其中T_s是一个常数阈值，我们根据经验令T_s＝0.15。加入T_s的目的是过滤掉概率太小的源语言端的正式候选论元。

源语言部分的约束条件包括以下两类：

1)关键语义角色不重复：对于六种关键语义角色类型A0～A5，不能有重复的论元。

其实还有一个隐含的约束，即对源语言端的每一个位置只能赋予一个语义角色标签，所述隐含的约束可以表示成式(3)：

&ForAll; 1 \leq i \leq N_{s} : Σ_{j = 1}^{L_{s}} x_{ij} \leq 1 - - - (3)

式(4)表示的是上述的关键语义角色不重复约束：

&ForAll; 1 \leq j \leq 6 : \overset{i = 1}{Σ} x_{ij} \leq 1 - - - (4)

对源语言端的一个位置令C_i表示集合中除本身之外与重叠的位置的下标集，那么上述的论元位置不重叠约束可以表示为式(5)：

&ForAll; 1 \leq i \leq N_{s} : \underset{u &Element; C_{i}}{Σ} Σ_{j = 1}^{L_{s}} x_{uj} \leq (1 - Σ_{j = 1}^{L_{s}} x_{ij}) M - - - (5)

其中M表示一个充分大的常数，M只要比正式候选论元的个数大就可以了，我们将M取为500。

4.2目标语言部分

目标语言部分和上述的源语言部分在原理上是完全相同的，只是数学表示符号不同，我们在此给出其数学表示。

如附表2所示，L_t表示目标语言语义角色标签的类别数，我们记目标语言端的语义角色标签集为，其中分别表示目标语言的六个关键语义角色标签A0～A5。在目标语言端所有的正式候选论元中，一共包含N_t个不同的位置：。而将语义角色标签赋予位置的概率是，此处表示目标语言端正式候选论元中的第k个位置，表示目标语言标签集中的第个j标签。

定义整数变量y_kj为：

式(1)中目标语言部分的子目标O_t是使目标语言端标注正确的论元的个数的数学期望最大：

O_{t} = Σ_{k = 1}^{N_{t}} Σ_{j = 1}^{L_{t}} (p_{kj}^{t} - T_{t}) y_{kj} - - - (6)

其中T_t是一个常数阈值，我们根据经验令T_t＝0.26。加入T_t的目的是过滤掉概率太小的目标语言端的正式候选论元。

一个隐含的约束是对目标语言端的每一个位置只能赋予一个语义角色标签，所述隐含的约束可以表示成式(7)：

&ForAll; 1 \leq k \leq N_{t} : Σ_{j = 1}^{L_{t}} y_{kj} \leq 1 - - - (7)

式(8)表示的是目标语言端的关键语义角色不重复约束：

&ForAll; 1 \leq j \leq 6 : Σ_{k = 1}^{N_{t}} y_{kj} \leq 1 - - - (8)

式(9)表示的是目标语言端的论元位置不重叠约束：

&ForAll; 1 \leq k \leq N_{t} : \underset{v &Element; C_{k}}{Σ} Σ_{j = 1}^{L_{t}} y_{vj} \leq (1 - Σ_{j = 1}^{L_{t}} y_{kj}) M - - - (9)

其中C_k表示中除本身之外与重叠的位置的下标集，常数M取为500。

4.3论元对齐部分

论元对齐部分是联合推断模型的核心部分。论元对齐部分将从双语候选语义角色标注结果中选出论元对齐更合理的结果。

对于一个源语言端的论元和一个目标语言端的论元令z_ik为如下整数变量：

我们用表示与对齐的概率，即我们称为与对齐的概率。

4.3.1论元对齐概率模型

我们建立了一个论元对齐概率模型来计算与对齐的概率所述模型是一个对数线性模型。令(s，t)表示一个双语句子对，wa表示(s，t)上的词对齐。所述对数线性模型定义了变量z_ik在给定五元组的条件下的概率分布：

P(z_ik|tup)∝exp(w^Tφ(tup))

其中φ(tup)代表特征向量，w是与特征向量φ(tup)相应的特征权值向量，w^T表示w的转置。有了这个模型，就可以如下计算了：

p_{ik}^{q} = P (z_{ik} = 1 | tup)

上述论元对齐概率模型使用的特征有：

1)词对齐特征。词对齐特征定义为两个论元所包含的词互相对齐的杰卡德相似度系数(JaccardSimilaritycoefficient)。计算杰卡德相似度系数时要进行双向计算，并取两个方向结果的平均值作为特征。词对齐特征的具体计算方法可以参考文献【SebastianPado，andMirellaLapata.2009.Cross-lingualAnnotationProjectionofSemanticRoles.JournalofArtificialIntelligenceResearch，36：307-340.】

2)中心词对齐特征。将两个论元的中心词是否对齐作为一个特征。

3)两个论元的语义角色标签。

4)谓词对。即源语言端的谓词和目标语言端的谓词。

为了研究实际语料中论元对齐的情况，同时为了给论元对齐概率模型提供训练数据。我们手工为汉-英平行命题库(PropBank)中的60个文件(chtb_0121.fid至chtb_0180.fid)做了论元对齐。我们用这些手工对齐的数据来训练上述论元对齐概率模型。从模型的类别上看，所述对齐概率模型是一个对数线形模型。实现对数线性模型的方法有多种。在本文的实施例中，我们用开源的最大熵工具包来实现论元对齐概率模型。所述开源的最大熵工具包可以在以下网址免费下载：

http://homepages.inf.ed.ac.uk/lzhang10/maxenttoolkit.html对齐概率模型具体的训练与计算方法可以参考所述最大熵工具包中的说明。

4.3.2论元对齐模型

式(1)中论元对齐部分的子目标O_a使正确对齐的论元个数的数学期望最大：

O_{a} = Σ_{i = 1}^{N_{s}} Σ_{k = 1}^{N_{t}} (p_{ik}^{a} - T_{a}) z_{ik} - - - (10)

其中T_a是一个常数阈值，我们根据经验令T_a＝0.42，加入T_a的目的是过滤掉概率太小的论元对齐；而则是根据4.3.1部分所述的方法计算出来的。

O_a能反映源语言端和目标语言端论元结构的一致性。O_a的值越大，表明源语言端和目标语言端的论元对齐得越好，从而源语言端和目标语言端的论元结构越一致。

论元对齐部分的约束条件包括以下三类：

1)与双语的语义角色标注的结果相容：所述条件要求被对齐的候选论元必须是出现在最终双语语义角色标注结果中的论元。

2)一对多的个数限制：每个论元至多只能和三个论元对齐。

所述与双语的语义角色标注的结果相容约束，是将双语语义角色标注结果与论元对齐合理地整合在一起的一个必要条件。所述与双语的语义角色标注的结果相容约束条件可以用式(11)、(12)来表示：

&ForAll; 1 \leq i \leq N_{s}, 1 \leq k \leq N_{t} : Σ_{j = 1}^{L_{s}} x_{ij} &GreaterEqual; z_{ik} - - - (11)

&ForAll; 1 \leq k \leq N_{t}, 1 \leq i \leq N_{s} : Σ_{j = 1}^{L_{t}} y_{kj} &GreaterEqual; z_{ik} - - - (12)

所述一对多的个数限制约束来源于我们在手工对齐的语料上的观察结果。在手工对齐的语料上，我们发现没有任何一个论元和三个以上的论元对齐。所述一对多的个数限制约束条件可以用式(13)、(14)来表示：

&ForAll; 1 \leq i \leq N_{s} : Σ_{k = 1}^{N_{t}} z_{ik} \leq 3 - - - (13)

&ForAll; 1 \leq k \leq N_{t} : Σ_{i = 1}^{N_{s}} z_{ik} \leq 3 - - - (14)

所述论元对齐的完备性约束则来源于双语句子对在语义上的等价性。尽管所述论元对齐的完备性约束在理论上是合理的，但在实际中所述论元对齐的完备性约束并不总是成立。我们在手工标注语料上发现双语句子对中的一些论元有时在另一端并没有可以对齐的论元。因此将所述论元对齐的完备性约束作为一个软约束对待更符合实际情况。所述论元对齐的完备性约束的具体实施方式如下：

如果一个论元没有与另一端的任何一个论元对齐，我们就称它与NUL对齐。定义如下整数变量：

对于任何一个与NUL对齐的论元我们在目标函数中施加一个惩罚λ₃。这样，式(10)中的子目标O_a就变成了式(15)的形式：

O_{a} = Σ_{i = 1}^{N_{s}} Σ_{k = 1}^{N_{t}} (p_{ik}^{a} - T_{a}) z_{ik} - λ_{3} (Σ_{i = 1}^{N_{s}} z_{i, NUL} + Σ_{k = 1}^{N_{t}} z_{NUL, k}) - - - (15)

式(15)中的T_a是一个常数阈值，我们根据经验令T_a＝0.42；式(15)中的λ₃是违背了论元对齐的完备性要求所受到的惩罚因子，我们根据经验令λ₃＝0.15。

为了使z_i，NUL和z_NUL，k与原有的变量z_ik相容，必须引入式(16-19)所表示的约束：

&ForAll; 1 \leq i \leq N_{s}, 1 \leq k \leq N_{t} : z_{i, NUL} \leq 1 - z_{ik} - - - (16)

&ForAll; 1 \leq i \leq N_{s} : Σ_{k = 1}^{N_{t}} z_{ik} + z_{i, NUL} &GreaterEqual; 1 - - - (17)

&ForAll; 1 \leq k \leq N_{t}, 1 \leq i \leq N_{s} : z_{NUL, k} \leq 1 - z_{ik} - - - (18)

&ForAll; 1 \leq k \leq N_{t} : Σ_{i = 1}^{N_{s}} z_{ik} + z_{NUL, k} &GreaterEqual; 1 - - - (19)

4.4双语联合推断模型总结

至此，我们给出了双语联合推断模型。从数学模型的类别上看，所述双语联合推断模型是一个整数线性规划模型。所述双语联合推断模型的目标函数由式(1，2，6，15)所定义。所述双语联合推断模型的约束条件由式(3-5，7-9，11-14，16-19)所定义。所述双语联合推断模型的整数变量包含三类：第一类整数变量是x_ij(1≤i≤N_s，1≤j≤L_s)，第一类整数变量的解给出了源语言端语义角色标注的结果；第二类整数变量是y_kj(1≤k≤N_t，1≤j≤L_t)，第二类整数变量的解给出了目标语言端语义角色标注的结果；第三类整数变量是z_ik(1≤i≤N_s，1≤k≤N_t)，z_i，NUL(1≤i≤N_s)，z_NUL，k(1≤k≤N_t)，第三类整数变量的解给出了源语言端和目标语言端的语义角色标注结果之间的论元对齐。

建立起所述双语联合推断模型后，我们需要求解所述双语联合推断模型。所述双语联合推断模型是一个整数线性规划模型，而求解整数线性规划的方法有多种。在本文的实施例中，我们采用了开源工具包lpsolve来在程序中描述并求解所述双语联合推断模型。lpsolve是一个常用的描述并求解整数线性规划模型的开源工具包。所述开源工具包lpsolve可从以下网址免费下载http://lpsolve.sourceforge.net/。所述开源工具包lpsolve的具体使用方法请参考lpsolve工具包中的说明文件。

5、实验设置

在实验中我们使用了LinguisticDataConsortium(LDC)的OntoNotesRelease3.0语料中所包含的汉-英XinhuaNews数据。这部分数据是由325个文件(chtb_0001.fid至chtb_0325.fid)所组成的汉-英平行命题库(PropBank)。在这个汉-英平行命题库(PropBank)中，由于英语端只标注了动词性谓词的语义角色，所以我们只考虑动词性谓词的语义角色标柱。

我们使用了GIZA++工具来做双语的词对齐。为了生成较好的词对齐结果，我们除了使用上述汉-英平行命题库(PropBank)中包含的句子对之外，还使用了额外的4,500K汉-英句子对来生成词对齐。在分别生成了两个方向的词对齐结果之后，我们采用了intersection的启发式规则来得到最终的词对齐结果。

我们使用汉-英平行命题库(PropBank)中的80个文件(chtb_0001.fid至chtb_0080.fid)作为测试集，40个文件(chtb_0081.fid至chtb_0120.fid)作为开发集。尽管本发明中的双语联合推断模型不需要训练，但是双语联合推断模型要用到论元对齐概率模型，而论元对齐概率模型需要训练。所以我们用手工标注了论元对齐的60个文件(chtb_0121.fid至chtb_0180.fid)作为论元对齐概率模型的训练数据。由于自动词对齐的效果在一对多的汉-英句子对上很差，所以我们在上述的数据集中只包含了一对一的汉-英句子对。

对于步骤2中所描述的单语语义角色标注系统，我们单独进行了训练。对于汉语的语义角色标注系统，我们用汉语命题库(PropBank)中的608个文件(chtb_0121.fid至chtb_0885.fid)作为训练集。由于XinhuaNews和WSJ是不同的领域，所以英语的语义角色标注系统不仅使用了英语命题库(PropBank)中的WSJSections02～21作为训练数据，还使用了汉-英平行命题库(PropBank)中英语端的205个文件(chtb_0121.fid至chtb_0325.fid)作为训练数据。

6、实验结果

附表3列出了在步骤2中所述的单语语义角色标注系统产生的各个候选语义角色标注结果。在附表3中，Out1～Out3是利用Berkeley句法分析器的3-best输出分别作为单语语义角色标注系统的输入，所分别得到的语义角色标注结果，Out4和Out5是分别用Stanford句法分析器和Bikel句法分析器的1-best输出作为单语语义角色标注系统的输入，所得到的语义角色标注结果。

附表3.单语语义角色标注系统在测试集上的多个结果

本实验的对比系统是文献【MihaiSurdeanu，Llu′isM`arquez，XavierCarreras，andPereR.Comas.2007.CombinationStrategiesforSemanticRoleLabeling.JournalofArtificialIntelligenceResearch(JAIR)，29：105-151.】中的单语语义角色融合系统。所述对比系统也代表了目前语义角色标注的最高水平。本发明和上述对比系统在测试集上的结果如附表4所示。在附表4中，我们用MonoCmb来表示上述的对比系统，用Joint来表示本发明的系统。

附表4.本发明Joint与单语融合系统MonoCmb在测试集上的结果

从附表3和附表4可以看出，本实验的对比系统MonoCmb的结果的F1值在汉语上和英语上分别比最好的单语语义角色标注系统的结果高出了2.32和2.49个百分点。这说明本实验的对比系统MonoCmb确实具有先进的性能，不容易被超过。即便如此，附表4中的结果显示本发明的系统Joint不论在汉语和英语上都较大幅度地超过了对比系统MonoCmb。本发明的结果的F1值在汉语和英语上分别比对比系统MonoCmb高出了2.05和1.71个百分点。在英语上，本发明的结果的F1值达到了81.12％，这和目前文献中最好的英语语义角色标注的结果相当。而在汉语上，本发明的结果的F1值达到了80.06％。据我们所知，本发明在汉语上的这个结果超过了目前所有文献中所报告过的汉语语义角色标注的最好结果。

由于本发明的方法不是针对两种特定的语言而提出的，所以本发明的方法具有普遍的适用性。本发明虽然只在汉语和英语两种语言上进行了实验，但本发明同时也适用于其它语言，如日语、阿拉伯语、法语、德语。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种双语联合语义角色标注的方法，其特征在于：

步骤3：将所述初始候选论元进行合并，得到正式候选论元；

步骤4：针对所述正式候选论元，利用双语语义角色标注的联合推断模型，下文简称为双语联合推断模型，同时生成双语句子对的语义角色标注结果，具体步骤包括：

首先，用计算机自动地计算双语联合推断模型的目标；在考虑源语言端和目标语言端语义角色标注结果之间论元对齐的合理性时，双语联合推断模型的目标是使正确对齐的论元的个数的数学期望最大；

然后，用计算机自动地在源语言和目标语言之间建立约束条件；在考虑源语言端和目标语言端语义角色标注结果之间论元对齐的合理性时，双语联合推断模型的约束条件包括以下三类：

2)一对多的个数限制：每个论元至多只能和三个论元对齐；

3)论元对齐的完备性：源语言端的每个论元必须至少和一个目标语言端的论元对齐；同样，目标语言端的每个论元必须至少和一个源语言端的论元对齐；同时，所述约束又是一种软约束，即允许违背上述的论元对齐的完备性要求，但对于违背的情况加以惩罚，违背越多惩罚就越大；

最后，用计算机自动求解双语联合推断模型；求解双语联合推断模型所得到的结果即为双语句子对的语义角色标注结果。

2.根据权利要求1所述的双语联合语义角色标注的方法，其特征在于：使用计算机自动地逐个考察双语句子对中自动对齐的词对，如果自动对齐的词对中的两个词都是动词，则认为这一对词是一个谓词对；从双语句子对中找出所有这样的谓词对。

3.根据权利要求1所述的双语联合语义角色标注的方法，其特征在于：所述生成多个语义角色标注结果的具体步骤如下：

4.根据权利要求1所述的双语联合语义角色标注的方法，其特征在于：所述对初始候选论元进行合并是将具有相同位置和标签的初始候选论元合并成一个正式候选论元。

5.根据权利要求1所述的双语联合语义角色标注的方法，其特征在于：所述双语联合推断模型同时考虑了三个相互关联的因素；这三个因素是：源语言端语义角色标注的正确性，目标语言端语义角色标注的正确性，以及源语言端和目标语言端语义角色标注结果之间论元对齐的合理性。

6.根据权利要求5所述的双语联合语义角色标注的方法，其特征在于：为了衡量源语言端和目标语言端语义角色标注结果之间论元对齐的合理性，使用了一个对数线性模型来计算对齐两个论元的概率；对于任意给定的一个源语言端的论元和一个目标语言端的论元，所述对数线性模型能计算出这两个论元对齐的概率；所述对数线性模型使用的特征有：

3)两个论元的语义角色标签；

4)谓词对，即源语言端的谓词和目标语言端的谓词。