CN107273354A

CN107273354A - 一种融合谓词先验信息的语义角色标注方法

Info

Publication number: CN107273354A
Application number: CN201710429422.4A
Authority: CN
Inventors: 杨海彤; 王炜
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2017-10-20

Abstract

本发明涉及自然语言处理技术领域，提供一种融合谓词先验信息的语义角色标注方法，对句子进行浅层语义分析的方法，包括步骤：(1)对句子进行分词和句法分析；(2)找出句子中的核心谓词；(3)针对当前谓词，利用一个基本语义角色标注系统生成初始语义角色标注结果，从而获得初始候选论元；(4)从训练数据中计算出每个谓词的谓词论元群组分布情况；(5)对初始语义角色标注结果进行联合分析，首先对所有的候选论元进行核心论元识别，然后根据当前谓词的谓词论元群组的概率分布，计算出得分最高的谓词论元群组，作为最终语义角色标注结果。本发明能够充分挖掘谓词本身的特性，合理利用谓词与论元之间的联系，提高语义角色标注的准确率。

Description

一种融合谓词先验信息的语义角色标注方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，是一种融合谓词先验信息的语义角色标注方法。

背景技术

语义角色标注是一种浅层语义分析技术，它以句子的谓词为中心，研究句子中的各个成分与谓词之间的语义关系，并用各种语义角色来描述这种关系。一般地，在语义角色标注中，句子中的一个谓词代表了一个事件，而与谓词相关的其他成分通常表示了与该事件相关的信息。下面是语义角色标注的一个例子：

[他们]A0[昨天]AM-TMP[在美国]AM-LOC[举行]Pred了[比赛]A1。

其中，“举行”是谓词，代表了一个事件，“他们”是事件的施事者，“比赛”是受事者，“昨天”是事件发生的时间，“在美国”是事件发生的地点。由上述例子可以看出，对于一个句子，语义角色标注给出了这个句子所描述事件的完整信息，包括了事件的参与者、事件发生的时间、地点、原因等。因此，可以认为语义角色标注以一种简单而有效的方式表达了一个句子所包含的浅层语义信息。

目前广泛使用的一个语义角色标注体系是Proposition Bank(PropBank)的标注体系，具体说明可以参考文献【Martha Palmer,Daniel Gildea,and PaulKingsbury.2005.The Proposition Bank:An Annotated Corpus of SemanticRoles.Computational Linguistics,31(1):71-106.】。所述标注体系定义了一套通用的标签集，所述标签集中有A0、A1、A2、A3、A4、A5这六个关键语义角色标签，以及以AM开头的附属性标签如AM-TMP，AM-ADV等。对于一个谓词，不同的语义角色表示不同的含义。例如在所述体系中语义角色A0表示谓词所代表的动作的施事方，而语义角色A1则表示谓词所代表的动作的受事方。从上述的例子我们也可以看出，语义角色标注能够提取出一个句子的谓词-论元结构，从而反映出这个句子的语义框架。如果语义角色标注能够做好，将能极大地提高包括信息检索与抽取、机器翻译、自动文摘在内的多项技术的水平。

一个句子描述了一个语义场景，而句子中的谓词和语义角色组成了场景的核心要素，因此谓词和语义角色是一个统一的整体，相互之间存在着紧密的联系。然而现有的语义角色标注系统却忽视了谓词和语义角色之间的联系。为了对一个候选论元赋予一个语义角色，现有的语义角色标注系统的做法是：对于一个候选论元，首先从句法树中抽取大量的句法和词汇化特征，然后把抽取到的特征输入到一个分类器中完成分类，之后再对其余的候选论元进行相同的操作。从上述过程中，可以得出以下结论：1)每个候选论元的标注过程是独立进行的；2)谓词对于候选论元标注的作用仅仅体现在特征中(谓词作为一种特征或是包含在其他的复合特征中)。由此可以看出一般的语义角色标注过程存在明显的不合理的地方。一方面，各个候选论元存在紧密的联系。一个常见的事实是在一个谓词―论元结构中核心论元最多出现一次，比如一个候选论元被标记为A0，其它候选论元不应再被标记为A0。除此之外，谓词与论元以及论元与论元之间的关系是多种多样的。另一方面，在谓词―论元结构中谓词处于支配地位，那么在具体的标注方法中也应当更加合理地利用谓词。然而在现有的方法中，谓词的作用仅仅体现在进行候选论元分类时作为一种特征，这显然与谓词在谓词―论元结构中的支配地位相悖。

发明内容

本发明的目的是为了克服上述现有技术中的不足，提出了一种融合谓词先验信息的语义角色标注方法，该方法能够充分挖掘谓词本身的特性，合理利用谓词与论元之间的联系，提高语义角色标注的准确率。

为了实现所述目的，本发明提供了一种融合谓词先验信息的语义角色标注方法，包括以下步骤：

步骤S1：对句子进行分词和句法分析；

步骤S2：找出核心谓词；对句子进行分词和句法分析后，遍历每个词，并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词；

步骤S3：针对每个核心谓词，利用一个基本语义角色标注系统生成初始语义角色标注结果，从而获得初始候选论元；

步骤S4：从训练数据中计算出每个谓词的谓词论元群组分布情况；

步骤S5：对初始语义角色标注结果进行联合分析，首先对所有的候选论元进行核心论元识别，然后根据当前谓词的谓词论元群组的概率分布，计算出得分最高的谓词论元群组，作为最终语义角色标注结果。

在上述技术方案中，步骤S3中所述基本语义角色标注系统采用一个基于最大熵分类器的语义角色标注系统，所述的基于最大熵分类器的语义角色标注系统以句法树作为输入，输出语义角色标注结果，从而获得初始候选论元；本发明使用开源的最大熵工具包来实现所述的基于最大熵分类器的语义角色标注系统，对于每一个论元，所述最大熵分类器都能输出一个分类概率，用这个分类概率作为所述论元的概率。

在上述技术方案中，基本语义角色标注系统中的分类器采用了最大熵分类器，分类器使用的特征包括：

(a)谓词；

(b)候选论元到谓词的句法路径；

(c)候选论元的头节点；

(d)候选论元头结点的词性；

(e)谓词类别；

(f)谓词和候选论元头节点的组合；

(g)谓词和候选论元句法标签的组合；

(h)谓词类别和候选论元头节点的组合；

(i)谓词类别和候选论元句法标签的组合。

在上述技术方案中，步骤S5中所述最终语义角色标注结果的生成步骤如下：

步骤S51：利用一个二元分类器将初始候选论元分为核心论元和修饰论元；

步骤S52：根据当前谓词的谓词论元群组分布情况，生成一个谓词论元群组；

步骤S53：将谓词论元群组中核心论元块的标签赋予步骤S51识别出的核心论元，并计算出该谓词论元群组的得分；其中，在将谓词论元群组中核心论元块的标签赋予核心论元的过程中需要遍历该谓词论元群组的所有的角色标签组合，将角色标签依次的赋给候选论元，从中选择得分最高的标签组合作为该谓词论元群组的最终结果；

步骤S54：重复步骤S52和步骤S53，从中选择得分最高的谓词论元群组作为最终语义角色标注结果。

在上述技术方案中，用于区分核心论元和修饰论元的分类器采用最大熵分类器，分类器使用的特征包括了全部论元分类的特征，此外还包括以下特征：

(A)谓词父节点的句法标签；

(B)候选论元父节点的句法标签；

(C)谓词的句法标签。

通过上述技术方案可知，本发明方法具有如下的积极效果：

(1)本发明通过谓词论元群组可直接将谓词与论元联系起来，并能从训练数据中获取到每个谓词的谓词论元群组的分布情况，从而可以将这些谓词的先验信息充分的挖掘出来，并将其融入到语义角色标注系统中；

(2)本发明由于考虑了谓词的先验信息，并通过一个概率模型合理地利用这些先验信息，因此可以显著地提升语义角色标注系统的性能。在一个标准数据集―中文命题库上进行了实验验证。结果表明，相对于基线系统，本发明使得论元分类的错误数降低了14％，整体效果显著地提升了1％。

附图说明

图1是本发明方法的系统框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明所有代码实现都是用C++编程语言完成，开发平台为Ubuntu 12.04，但不限于此，这些并不是对本发明的限制；由于所写程序没有用到任何平台相关的代码，因此所述的系统实现也可以运行于其他版本的操作系统上。

本发明的基本思想是深入挖掘谓词信息，提出一种融合谓词先验信息的语义角色标注方法，以提高语义角色标注的系统性能。本发明的系统框架图如图1所示。图1中：分词模块接收一个句子后，对句子进行分词处理；输出分词后进入到句法分析模块，对句子进行句法分析；之后，将获取的句法树输入到一个基本的语义角色标注系统(基线系统)中，对句子进行初始的语义角色标注分析；最后利用本发明方法对初始的语义角色标注结果联合分析，获取最终的语义角色标注结果。

下面举例说明本发明和基线系统对同一个句子进行分析的结果对比。

	百分之九十五的产品	销往	海外
				基线系统	A0	A1
本发明方法	A1		A2

在上表中例子中，待分析的句子是“百分之九十五的产品销往海外”。在该句中，关注谓词“销往”。对于“销往”，基线系统把“百分之九十五的产品”分析为A0，把“海外”分析为A1。然而，根据“销往”的字面含义，一般情况下都会伴随某个地点名词表示某个产品“销往”的地点。在这种情况下，该地点也一定会被标记为A2，产品被标记为A1，即谓词“销往”经常会同时伴随着A1和A2，因此从理论上讲，“销往”经常会同时伴随着A1和A2可以看做谓词“销往”的先验信息，如果把这种先验信息加入到模型中，应能提升语义角色标注的系统性能。本发明正是充分利用了这种谓词先验信息，最终得到了完全正确的语义角色标注结果。

本发明实施例提出了一种融合谓词先验信息的语义角色标注方法。下面来详细阐述本发明的原理与实现方法。

1、对句子进行分词和句法分析。

具体实施方式如下：

对汉语句子进行分词的方法有很多种。在本发明的实施例中我们以开源的分词工具Urheen对汉语进行分词。所述Urheen也可以对其它语言进行分词，如日语等，可以在以下网址免费下载：

http://www.openpr.org.cn/index.php/zh/NLP-Toolkit-For-Natural-Language-Processing/68-Urheen-A-Chinese/English-Lexical-Analysis-Toolkit/View-details.html

对汉语句子进行句法分析的方法有很多种。在本发明的实施例中我们以开源的句法分析工具BerkeleyParser对汉语进行句法分析。所述BerkeleyParser也可以对其它语言进行句法分析，如英语等，可以在以下网址免费下载https://github.com/slavpetrov/berkeleyparser。

2、识别核心谓词。

具体实施方式如下：

对句子进行分词和句法分析后，遍历句子中的每个词，并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词。

3、计算出每个谓词的谓词论元群组分布情况。

具体实施方式如下：

谓词论元群组的定义如下：

其中，pred表示谓词，(ArgX:n₁)表示核心论元ArgX跟随该谓词出现了n₁，(ArgM:n₂)表示核心论元ArgM跟随该谓词出现了n₂。

谓词论元群组分布的计算公式如下所示，

在上式中，pred表示某个谓词，PAC表示一个谓词论元群组，count(pred,PAC)和count(pred,PAC′)表示pred分别和PAC、PAC′在语料中出现的次数，∑count(pred,PAC′)表示对该pred所有谓词论元群组的次数。

4、对句法分析后的句子利用一个基本语义角色标注系统生成初步的语义角色标注结果。

具体实施方式如下：

本发明方法需要用一个语义角色标注系统为每个谓词生成多个语义角色标注结果。根据文献【Nianwen Xue.2008.Labeling Chinese Predicates withSemanticRoles.Computational Linguistics,34(2):225-255.】所描述的方法，采用一个基于最大熵分类器的语义角色标注系统。所述的基于最大熵分类器的语义角色标注系统以短语结构句法树作为输入，输出语义角色标注结果。当使用所述的基于最大熵分类器的语义角色标注系统做汉语的语义角色标注时，使用的特征与文献【Nianwen Xue.2008.LabelingChinese Predicates withSemantic Roles.Computational Linguistics,34(2):225-255.】中使用的特征一致。使用开源的最大熵工具包来实现所述的基于最大熵分类器的语义角色标注系统。所述开源的最大熵工具包可以在以下网址免费下载：http://homepages.inf.ed.ac.uk/lzhang10/maxent toolkit.html。所述开源的最大熵工具包的使用方法可参考所述开源的最大熵工具包中的说明文件。对于每一个论元，所述最大熵分类器都能输出一个分类概率，用这个分类概率作为所述论元的概率。

5、对初始结果进行联合分析，首先对所有的候选论元进行核心论元识别，然后根据当前谓词的谓词论元群组的概率分布，计算出得分最高的谓词论元群组，作为最终的结果。

具体实施方式如下：

(1)核心论元识别。

由于核心论元和修饰论元对谓词的作用不同，所以本发明实施例对它们进行了区别对待。对于区分核心论元和修饰论元的分类器采用了最大熵分类器进行分类，分类器使用的特征包括了全部论元分类的特征，此外还包括以下特征：

(A)谓词父节点的句法标签；

(B)候选论元父节点的句法标签；

(C)谓词的句法标签。

(2)根据当前谓词的谓词论元群组分布情况，生成一个谓词论元群组。

由于本发明是从一个离散分布中抽取出某个样本，所以本发明实施例采用了简单随机抽样的方法完成此步骤。本发明实现的简单随机抽样与文献【Yates,Daniel S.；DavidS.Moore,Daren S.Starnes(2008).The Practice of Statistics,3rd Ed】描述的具体步骤一致。该文对简单随机抽样方法描述详尽，通过参阅该文完全可以实现随机抽样方法。

(3)将生成的谓词论元群组中的标签赋给候选论元，并计算出该谓词论元群组的得分。

上述过程可以形式化为：

Structure^*

＝argmax P(Strucutre|Cand,Pred)

＝argmax P(Strucutre|Cand,PAC)P(PAC|Pred)

其中，Cand表示谓词全部的论元候选，Strucutre表示当前生成的一个结果，Structure^*表示通过优化求解到的最优的Strucutre。

在上式中，第二部分表示谓词的先验信息的概率得分，该项得分通过谓词的谓词论元群组的概率分布得到。

在上式中，第一项表示给定某个谓词论元群组和候选论元的情况下，得到最优的一个结构的得分。因此，需要将谓词论元群组中的所有标签赋予候选论元。由于PAC是一个多元集合，因此为完成上述目标，那么需要遍历所有可能的标签序列以取得最大值。该部分的详细计算公式如下：

其中，p(arg_i|cand_i)是把当前标签序列中第i个标签赋给第i个候选的概率，此概率由基线系统的分类器分类概率给出，all sequences of PAC表示当前PAC可以生成的所有的标签序列，该项只需遍历所有的标签序列即可得到，最后通过连乘所有的候选分类概率得到该PAC的得分，其中最高得分作为该PAC的得分。

(4)重复步骤(2)和(3)，得出得分最高的谓词论元群组作为最终的结果。

6、实验设置

为验证本发明的有效性，使用中文命题库1.0(Chinese PropBank)作为实验数据集，该语料是研究中文语义角色标注的一个标准的数据库。它的详细描述可参见【https://catalog.ldc.upenn.edu/LDC2013T13】。所有的数据被划分为三部分：648个文件(chtb_081.fid到chtb_899.fid)作为训练集、40个文件(chtb_041.fid到chtb_080.fid)作为开发集、72文件(chtb_001.fid到chtb_040.fid和chtb_900.fid到chtb_931.fid)作为测试集。该数据切分方式与文献【Nianwen Xue.2008.Labeling Chinese predicates withsemantic roles.Computational Linguistics,34(2),225-255】完全一致。本实施例采用Berkeley parser自动地生成短语结构树，同时句法模型也是在训练语料上重新训练得到的。基线系统中最大熵模型均借助张乐的最大熵工具包进行具体实现。

语义角色标注系统的评测标准通常采用准确率(Precision)、召回率(Recall)和F₁值作为衡量标准，它们的定义分别为：

7、实验结果

表1给出了本发明方法与基线系统的对比结果，评价标准是F₁，“*”表示置信度0.05的条件下显著地超过对比系统。从表中可以看出，在核心论元部分本发明方法显著地超出基线系统大约0.8％。这表明在语义角色标注中加入谓词的先验信息可以显著地提升核心论元分类的效果。对于其他论元部分，提出的方法也取得了比基线系统更好的结果。这主要是受益于核心论元识别阶段。在整体上，本发明方法达到了74.73％，超出基线系统大约0.7％。

表1 本发明与基线系统的对比

	数目	基线系统	本发明
				A0	2023	67.55	68.35*
A1	2649	78.63	79.43*
				A2	359	62.79	65.41*
A3	28	50.00	55.32
				A4	5	54.55	72.73
AM	3023	74.81	75.10
				All	8432	74.04	74.73*

表2列出了与计算F₁相关的统计值。其中，“False”表示被错误地识别为论元的候选数目；“Miss”表示丢失的论元数目；“Right”表示分类正确的论元数目；“Error”表示分类错误的论元数目。由于全局模型和基线系统采用完全相同的剪枝和论元识别阶段，所以“False”和“Miss”是完全相同的，但本发明相比于基线系统错误数目“Error”减少了13.8％，显示了本发明融入谓词信息的优越性。

表2 本发明与基线系统的详细的对比结果

方法	False	Miss	Right	Error
					基线系统	1159	2208	5897	377
本发明	1159	2208	5932	322

除了与基线系统进行对比，本发明还与文献【Nianwen Xue.2008.LabelingChinese predicates with semantic roles.Computational Linguistics,34(2),225-255】提出的方法进行了对比，实验结果如表3所示。从表中可以看到本发明相比该文献的方法提升了3个百分点，这表明本发明的效果明显好于对比系统，显示了本发明融入谓词信息的优越性。

表3 本发明与其它系统的对比结果

方法	Precision(％)	Recall(％)	F₁(％)
				对比系统	79.50	65.60	71.90
本发明	79.99	70.08	74.73

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合谓词先验信息的语义角色标注方法，其特征在于该方法包括以下步骤：

(1)对句子进行分词和句法分析；

(2)找出核心谓词；对句子进行分词和句法分析后，遍历句子的每个词，并从中挑选出词性为“VA”、“VC”、“VE”和“VV”的词作为核心谓词；

(3)针对每个核心谓词，利用一个基本语义角色标注系统生成初始语义角色标注结果，从而获得初始候选论元；

(4)从训练数据中计算出步骤(2)中获得的每个谓词的谓词论元群组分布情况；谓词论元群组的定义如下：

<mrow> <mi>P</mi> <mi>A</mi> <mi>C</mi> <mover> <mo>=</mo> <mi>&Delta;</mi> </mover> <mo><</mo> <mi>Pr</mi> <mi>e</mi> <mi>d</mi> <mo>,</mo> <mrow> <mo>(</mo> <mi>A</mi> <mi>r</mi> <mi>g</mi> <mi>X</mi> <mo>:</mo> <msub> <mi>n</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>A</mi> <mi>r</mi> <mi>g</mi> <mi>M</mi> <mo>:</mo> <msub> <mi>n</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>></mo> </mrow>

其中，pred表示谓词，(ArgX:n₁)表示核心论元ArgX跟随该谓词出现了n₁，(ArgM:n₂)表示修饰论元ArgM跟随该谓词出现了n₂；

谓词论元群组分布的计算公式如下所示，

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>P</mi> <mi>A</mi> <mi>C</mi> <mo>|</mo> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mo>,</mo> <mi>P</mi> <mi>A</mi> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>&Sigma;</mi> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mo>,</mo> <msup> <mi>PAC</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

在上式中，pred表示某个谓词，PAC表示一个谓词论元群组，count(pred,PAC)和count(pred,PAC′)表示pred分别和PAC、PAC′在语料中出现的次数，∑count(pred,PAC′)表示对该pred所有谓词论元群组的次数；

(5)对初始语义角色标注结果进行联合分析，首先对所有的候选论元进行核心论元识别，然后根据当前谓词的谓词论元群组的概率分布，计算出得分最高的谓词论元群组，作为最终语义角色标注结果。

2.根据权利要求1所述的融合谓词先验信息的语义角色标注方法，其特征在于步骤(3)中所述基本语义角色标注系统采用一个基于最大熵分类器的语义角色标注系统，所述的基于最大熵分类器的单语语义角色标注系统以短语结构句法树作为输入，输出语义角色标注结果，从而获得初始候选论元；使用开源的最大熵工具包来实现所述的基于最大熵分类器的语义角色标注系统，对于每一个论元，所述最大熵分类器都能输出一个分类概率，用这个分类概率作为所述论元的概率。

3.根据权利要求1所述的融合谓词先验信息的语义角色标注方法，其特征在于所述基本语义角色标注系统中的分类器采用最大熵分类器，分类器使用的特征包括：

(a)谓词；

(b)候选论元到谓词的句法路径；

(c)候选论元的头节点；

(d)候选论元头结点的词性；

(e)谓词类别；

(f)谓词和候选论元头节点的组合；

(g)谓词和候选论元句法标签的组合；

(h)谓词类别和候选论元头节点的组合；

(i)谓词类别和候选论元句法标签的组合。

4.根据权利要求1所述的融合谓词先验信息的语义角色标注方法，其特征在于步骤(5)中所述最终语义角色标注结果的生成步骤如下：

第一步，利用一个二元分类器将初始候选论元分为核心论元和修饰论元；

第二步，根据当前谓词的谓词论元群组分布情况，生成一个谓词论元群组；

第三步，将谓词论元群组中核心论元块的标签赋予第一步中识别出的核心论元，并计算出该谓词论元群组的得分；其中，在将谓词论元群组中核心论元块的标签赋予核心论元的过程中，需要遍历该谓词论元群组的所有的角色标签组合，将角色标签依次的赋给候选论元，从中选择得分最高的标签组合作为该谓词论元群组的最终结果；

第四步，重复第二步和第三步，从中选择得分最高的谓词论元群组作为最终语义角色标注结果。

5.根据权利要求4所述的融合谓词先验信息的语义角色标注方法，其特征在于步骤(5)中用于区分核心论元和修饰论元的分类器采用最大熵分类器，分类器使用的特征包括了全部论元分类的特征，此外还包括以下特征：

(A)谓词父节点的句法标签；

(B)候选论元父节点的句法标签；

(C)谓词的句法标签。