CN107818082B

CN107818082B - 结合短语结构树的语义角色识别方法

Info

Publication number: CN107818082B
Application number: CN201710877035.7A
Authority: CN
Inventors: 周俏丽; 杨凤玲
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2020-12-04
Anticipated expiration: 2037-09-25
Also published as: CN107818082A

Abstract

本发明涉及一种结合短语结构树的语义角色识别方法，包括：句子的剪枝：当系统输入一个句子时，对句子进行短语分析，将分析过后的结果通过插入语或并列结构进行剪枝，简化句子的复杂程度，缩短句子的长度；子句抽取处理：结合短语结构树对剪枝后句子中的子句进行抽取，将抽取出的子句和子句抽取之后剩下的部分分别进行语义角色分析，得到整句的语义角色，将语义角色的分析结果进行还原；边界修正：将还原过后的语义角色结合短语树对句子进行论元边界修正，最终输出句子的语义角色分析结果。本发明简化了句子的复杂程度、缩短了句子的长度，可以使相对比较复杂，且句子的长度较长的句子得到有效的处理，使语义角色的标注情况有所改善。

Description

结合短语结构树的语义角色识别方法

技术领域

本发明涉及一种自然语言翻译技术，具体为一种结合短语结构树的语义角色识别方法。

背景技术

浅层语义分析是近年来自然语言处理领域研究热点之一，而语义角色标注是目前浅层语义分析所采用的主要形式，语义角色标注(Semantic Role Labeling，简称SRL)主要任务是分析句子的“谓词-论元”结构，给定一个句子，找出句子中谓词的相应语义角色成分，包括核心语义角色(如施事、受事等)和附属语义角色(如地点、时间、方式、原因等)。SRL标注的语义角色对回答5W问题(who、what、when、where、why)提供了强有力的支持。例如，“He bought a bunch of roses yesterday at the Florist”，对谓词“bought”进行语义角色分析，其中“He”是动作的发出者，即施事A0，“a bunch of roses”是动作的承受者，即受事A1，“yesterday”是动作的发生时间，即AM-TMP，“at the Florist”是动作发生的地点，即AM-LOC。SRL综合利用了底层的分词、词性标注、句法分析、命名实体识别等信息。作为自然语言理解的底层研究在信息抽取、问答系统、指代消解、机器翻译等方面有着广泛的应用。

在语义角色标注中，最早进行研究的Gildea和Jurafsky等人提出利用机器学习的方法对语义角色进行自动标注，使用了语义角色标注系统最常使用的七个特征，其中在识别谓词和论元之间关系时用到了句法树的特征。在此基础之上，Gildea和Palmer等人进一步在PropBank语料库上做了同样的实验，基于手工标注的短语句法树，使F值有了进一步的提升。随后，有很多人尝试使用不同的标注单元、特征、分类器、机器学习等方法加以改进。Xue和Palmer等人提出在单一短语结构句法树的基础上，验证了Gildea的七个基本特征在SRL各个阶段的贡献，提出了新的特征，并基于手工标注的短语结构句法树，使F值又进一步提升。刘挺和车万翔等人选取了较多的特征，使用最大熵分类器将识别和分类进一步做训练，然后做相关的后处理，在单一自动短语结构句法分析上取得了比较好的结果，但并未详细给出性能提升的具体原因。Moschitti等人引入不同类型的树核捕捉句法树的结构相似度，该方法在自动学习到特征很有吸引力，但是同时也会带来高计算成本的开销。Boxwell等人提出了一种基于丰富特征的SRL方法，其中结合了组合范畴、短语结构和依存3种句法分析的特征，但多种句法分析在带来了丰富信息的同时，也带来了较大的噪声。李世奇等人提出基于短语结构句法分析的语义角色标注，即以句法为语义角色标注的单元，分为两个子任务：一是语义角色识别，目标是从句子中抽取所有可以充当语义角色的句法成分；二是语义角色分类，判断语义角色识别阶段所得的语义角色的类型，但对于比较复杂的句子处理并未得到好的处理效果。以上的分析方法结合短语结构树进行语义角色标注时并未对句子进行简化，仅仅将短语结构树作为一种特征。

以句法成分为标注单元的论元标注，需要一种简单的剪枝预处理方法来过滤句法分析树中一些不可能成为论元的句法成分，保留尽量少的候选句法成分，以提高准确性。刘挺和车万翔等人采用识别分类一步到位的方法对与谓词相关的全部句法成分进行训练和预测，只去除了句法类型为词性的句法成分。但使得AM-MOD和AM-NEG等角色对句法树上的句法成分匹配率很低，还要进行后处理。Dan Roth和Wen-tau Yih等人将语义角色标注分为四个阶段：剪枝、论元识别、论元分类、推理，其中剪枝阶段是根据短语结构句法树将不太可能作为谓词论元的候选集合进行去除，但会出现将一些论元错误判断为非论元的问题，使候选论元个数减少。Wang等人在Xue和Palmer等人的基础之上提出基于中心词的剪枝算法，该算法选取当前谓词结点和其祖先结点的兄弟结点以及这些兄弟结点的孩子结点作为候选论元角色，进一步扩大了候选论元集合，但是论元减少的问题仍然存在。Lei Sha等人利用二次优化的方法对论元之间的关系进行分类，分为两类：相容与不相容，若当两个论元属于同一个谓词时，则认为两个论元相容，若不属于同一个谓词，则认为两个论元是不相容的，这样做就可以将不是同一个谓词范围内的论元进行剪枝操作。Jiang Guo和WanxiangChe等人将SRL任务拆分成两个任务，即SRL用来描述论元与谓词之间的关系，另一类是判断两个实体之间的关系。上述的方法结合短语结构句法树对句子进行剪枝操作实现句子简化，但并未对句子的类型进行总结归类，对句子的简化程度并不充分。

发明内容

针对现有技术中的语义角色识别未对句子的类型进行总结归类、对句子的简化程度并不充分等不足，本发明要解决的问题是提供一种对复杂句子结构的语义角色识别具有更好的效果的结合短语结构树的语义角色识别方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种结合短语结构树的语义角色识别方法，包括以下步骤：

1)句子的剪枝：当系统输入一个句子时，对句子进行短语分析，将分析过后的结果通过插入语或并列结构进行剪枝，简化句子的复杂程度，缩短句子的长度；

2)子句抽取处理：结合短语结构树对剪枝后句子中的子句进行抽取，将抽取出的子句和子句抽取之后剩下的部分分别进行语义角色分析，得到整句的语义角色，将语义角色的分析结果进行还原；

3)边界修正：将还原过后的语义角色结合短语树对句子进行论元边界修正，最终输出句子的语义角色分析结果。

步骤1)中，句子的剪枝包括插入语以及并列结构剪枝，当句子含有插入语时，则将插入语剪枝，剪枝剩下的部分合并在一起作为语义角色分析单元。

若插入语中含有谓词，对插入语未剪枝之前的句子进行语义角色的分析，此时对插入语中的谓词以及相关论元进行保留。

结合短语结构树对并列结构进行判断分为有标记以及无标记两种识别方法；对于无标记的并列结构处理名词短语并列；对于有标记的并列结构包括名词短语并列、介词短语并列、从句并列以及子句并列。

当句子含有并列结构时，对于子句并列，将并列的各个子句分别进行语义角色分析；对于其它并列，采取剪枝的方式进行语义角色的分析。

步骤2)中，根据不同的子句采用不同的处理方式将句子中的子句总结为以下几种：

a.NP₁-->NP₂+(VP-->VB+(S-->(VP-->TO+VP)))；

b.VP-->VB+(SBAR-->IN+(S-->NP+VP))；

c.NP₁-->NP₂+(SBAR-->IN+(S-->NP₃+VP))；

d.NP₁-->NP₂+(SBAR-->WHNP+(S-->NP₃+VP))；

e.NP₁-->NP₂+(SBAR-->WHNP+(S-->VP+NP₃))；

f.SBAR-->S-->NP+VP；

g.S-->NP+VP，S不在SBAR中；

其中，NP表示名词短语，NP₁表示在句法树的第一层，NP₂表示在句法树的第二层，NP₃表示在句法树的第三层，VP表示动词短语，S表示子句，VB表示词语的词性为动词，TO为动词不定式to的标识，SBAR表示从句，WHNP表示引导从句的引导词，S-->NP+VP表示子句S由两部分NP与VP组成；

对于编号为a、b、f、g句子结构，当子句抽取结束之后，用子句S中的NP短语替换子句语义角色分析单元放回到原句；对于编号c、d、e句子结构，用NP₂替换子句语义角色分析单元放回到原句；当原始句子中所有的子句都用相对应的NP短语替换之后，对替换后的原句进行语义角色的分析，最后将子句分析的语义角色以及原句分析的语义角色合并在一起作为整句话的语义角色。

步骤3)中，对最容易出现问题的语义角色A0、A1、AM-MOD以及谓词的边界进行论元边界修正，即：对语义角色的施事A0、受事A1、情态动词AM-MOD以及谓词进行边界的修正；

若在短语结构树中，被识别成的A0、A1在树中是一个完整的NP或S，则论元不进行修正，若不是一个完整的NP或S，则对末尾的标点符号进行去除。

对于语义角色AM-MOD，在短语树中对应的部分是MD，若识别出的结果在短语树对应的部分超出MD的范围，则对其进行修正，其中MD为情态动词的在短语树中的标记。

还包括以下过程：结合短语结构树，判断谓词后面的第一个词是否为标记为PRT，若是，则与动词合并在一起作为一个谓词。

本发明具有以下有益效果及优点：

1.本发明提出结合短语结构树对句子进行剪枝、子句抽取、论元边界修正，当句子中含有并列结构时，将并列中的第一个并列成分代替整个并列结构，即将第二个并列成分进行剪枝；当句子中含有子句时针对不同的子句采取不同的处理方式，这样做的结果简化了句子的复杂程度、缩短了句子的长度。

2.本发明将处理过后的句子进行语义角色的分析，对最终的分析结果结合短语树的结果进行论元边界修正，本发明方法对复杂句子结构的语义角色识别会有更好的效果，可以使相对比较复杂，且句子的长度较长的句子得到有效的处理，使语义角色的标注情况有所改善。

3.本发明方法分别在CoNLL2004与CoNLL2005评测语料中做了实验，在CoNLL2005Shared Task的test_wsj数据集F值为88.25％，在CoNLL2004 Shared Task的test数据集上F值为85.66％。F值与baseline实验相比都有所提高，在CoNLL2004的test数据集上提升了3.64％，dev数据集上提升了2.87％，在CoNLL2005的test_wsj数据集上提升了3.24％，test_brown数据集上提升了2.86％。

附图说明

图1为本发明方法流程图；

图2为本发明中短语结构句法树图示；

图3为本发明中子句S以TO开头的句法树图示；

图4为本发明中子句S在从句SBAR中且SBAR在VP中的句法树；

图5为本发明中子句S在从句SBAR中且SBAR在NP中的句法树；

图6为本发明中子句S在从句SBAR中且SBAR的引导词词性为WP的句法树；

图7为本发明中子句S在从句SBAR中且SBAR的引导词词性为WDT的句法树；

图8为本发明中子句S在从句SBAR中且SBAR没有引导词的句法树；

图9为本发明中子句S不在从句SBAR中的句法树；

图10为本发明句子的总结形式。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图1所示，本发明一种结合短语结构树的语义角色识别方法，包括以下步骤：

a.NP₁-->NP₂+(VP-->VB+(S-->(VP-->TO+VP)))；(如图3所示)

b.VP-->VB+(SBAR-->IN+(S-->NP+VP))；(如图4所示)

c.NP₁-->NP₂+(SBAR-->IN+(S-->NP₃+VP))；(如图5所示)

d.NP₁-->NP₂+(SBAR-->WHNP+(S-->NP₃+VP))；(如图6所示)

e.NP₁-->NP₂+(SBAR-->WHNP+(S-->VP+NP₃))；(如图7所示)

f.SBAR-->S-->NP+VP；(如图8所示)

g.S-->NP+VP，S不在SBAR中；(如图9所示)

其中，NP表示名词短语，NP₁表示在句法树的第一层，NP₂表示在句法树的第二层，NP₃表示在句法树的第三层，VP表示动词短语，S表示子句，VB表示词语的词性为动词，TO为动词不定式to的标识，SBAR表示从句WHNP表示引导从句的引导词，S-->NP+VP表示子句S由两部分NP与VP组成；

对于编号为a、b、f、g句子结构，当子句抽取结束之后，用子句S中的NP短语替换子句语义角色分析单元放回到原句；对于编号c、d、e句子结构，用NP₂替换子句语义角色分析单元放回到原句；当原始句子中所有的子句都用相对应的NP短语替换之后，对替换后的原句进行语义角色的分析，最后将子句分析的语义角色以及原句分析的语义角色合并在一起作为整句话的语义角色。本发明句子的总结形式如图10所示。

步骤3)中，对最容易出现问题的语义角色A0、A1、AM-MOD以及谓词的边界进行论元边界修正，即：对语义角色的施事A0、受事A1、情态动词AM-MOD以及谓词进行边界的修正。

对于语义角色AM-MOD，在短语树中对应的部分是MD(情态动词的词性)，若识别出的结果在短语树对应的部分超出MD的范围，则对其进行修正。

步骤3)还包括以下过程：结合短语结构树，判断谓词后面的第一个词是否为标记为PRT，若是，则与动词合并在一起作为一个谓词。

本发明提出结合短语结构树对句子进行剪枝、子句抽取、论元边界修正。当句子中含有并列结构时，将并列中的第一个并列成分代替整个并列结构，即将第二个并列成分进行剪枝。当句子中含有子句时针对不同的子句采取不同的处理方式，这样做的结果简化了句子的复杂程度、缩短了句子的长度。将处理过后的句子进行语义角色的分析，对最终的分析结果结合短语树的结果进行论元边界修正。本发明方法对复杂句子结构的语义角色识别会有更好的效果。

步骤1)句子的剪枝

对句子进行剪枝操作包括插入语以及并列结构剪枝两种情况。插入语在句子中属于独立语，可以将其去掉使句子得到简化。并列结构中的并列成分在句子中的重要性是一致的，可以将并列中的第一个并列成分保留，其他的并列成分剪枝，剪枝过后句子同样得到简化。

(1)插入语：在句子中间插入一个成分，它既不是句子的成分，也不和句子的其他成分发生结构关系，称之为插入语，其属于独立语。给定一个句子，先进行短语结构分析，在短语结构中标记为PRN的部分为插入语。但当句子中含有括号的时候，虽括号中的部分在短语结构树中标记的不是PRN，但属于插入语的范畴，如图2所示。

当句子含有插入语，则将插入语剪枝，剪枝剩下的部分合并在一起作为语义角色分析单元。若插入语中含有谓词，对插入语未剪枝之前的句子进行语义角色的分析，此时对插入语中的谓词以及相关论元进行保留。

(2)并列结构：如果相同的两个成分所传递的信息在重要性上基本相等，一前一后地排列起来，或者用并列连词连接起来，称之为并列结构。本文主要处理的并结构有名词短语并列、介词短语并列、子句并列、从句并列。

结合短语结构树对并列结构进行判断分为有标记以及无标记两种识别方法，对于无标记的并列结构主要处理名词短语并列，在短语树中，若两个名词短语是兄弟的关系，则为并列结构。对于有标记的并列结构包括名词短语并列、介词短语并列、从句并列、子句并列。在短语树中，两个相同成分在树中是兄弟关系且两者之间标记为CC，则两个成分并列。对于并列结构的处理方式分为两种处理方式：(a)子句并列：对并列的各个子句分别进行语义角色分析；(b)其它并列：采取剪枝的方式进行语义角色的分析。

步骤2)子句的抽取

给定一个句子，先进行短语结构分析，当短语树中的成分标记为S时，则该成分称之为子句。结合短语树对子句抽取，不仅将抽取出的子句进行分析，而且将子句抽取之后剩下的部分同样进行分析。根据不同的子句采用不同的处理方式将句子中的子句总结为以下几种：

表1句子类型分类

其中“+”表示左右结点为兄弟结点，“-->”表示右边的结点是左边结点的孩子结点，“()”表示括号中第一个结点含有孩子结点。

对于表1中编号a、b、f、g句子结构，当子句抽取结束之后，用子句S中的NP短语替换子句语义角色分析单元放回到原句。对于表1中编号c、d、e句子结构，用NP2替换子句语义角色分析单元放回到原句。当原始句子中所有的子句都用相对应的NP短语替换之后，对替换后的原句进行语义角色的分析，最后将子句分析的语义角色以及原句分析的语义角色合并在一起作为整句话的语义角色。

步骤3)边界修正

从短语树中可以分析出名词短语NP、介词短语PP、子句S、从句SBAR等模块，这些模块可以单独作为语义角色。本文所用的SRL工具[21]存在论元边界识别错误的现象，但结合短语树可以对论元边界进行修正。通过大量的错误实例分析发现A0、A1、AM-MOD以及谓词的边界最容易出现问题，本文主要针对这几个语义角色进行论元边界的修正。

短语树中的NP、S可以作为A0、A1，而现有的SRL工具在A0、A1末尾的标点符号是否是语义角色的一部分出现问题。结合短语树，若在短语结构树中，被识别成的A0、A1在树中是一个完整的NP或S，则论元不进行修正，若不是一个完整的NP或S，则对末尾的标点符号进行去除。

AM-MOD在短语树中对应的部分是MD，若识别出的结果在短语树对应的部分超出MD的范围，则对其进行修正。

现有的SRL工具，识别出的谓词都是单独的一个词语，而在实际的句子中，动词词组也可以作为一个谓词，如sits down。针对这种错误现象，结合短语结构树，判断谓词后面的第一个词是否为标记为PRT，若是，则与动词合并在一起作为一个谓词。

例如：并列结构剪枝

(1)[S After the trading halt in the S&P 500pit in Chicago,waves ofselling continued to hit stocks themselves on the Big Board],[CC and][Sspecialists continued to notch prices down]。

上述句子是由两个并列子句组成，CC为并列标记，两个子句中的谓词的论元是不相容的，所以可以分别进行语义角色的分析，则上述句子分成两个语义角色分析单元：

单元1：After the trading halt in the S&P 500pit in Chicago,waves ofselling continued to hit stocks themselves on the Big Board

单元2：specialists continued to notch prices down

(2)除子句并列，还有名词短语并列、介词短语并列、从句并列。对于名词短语并列的判断分为两类，一类含有并列标记，另一类不含有并列标记，当判断两个名词短语是并列结构时，将第一个名词短语保留，其他的进行剪枝。

例如：Benchmark grades sold for[NP[NP as much as 50cents][NP a pound]]last spring,have skidded to between[NP[NP 35cents][CC and][NP40cents]].

例子中，第一个并列的名词短语为：[NP[NP as much as 50cents][NP apound]]，[NP as much as 50cents]与[NP a pound]在树中为兄弟结点关系，为并列结构，将[NP as much as 50cents]保留，将[NP a pound]剪枝。

例子中，第二个并列的名词短语为：[NP[NP 35cents][CC and][NP 40cents]]，含有并列标记CC，同理将[NP 35cents]保留，将[NP 40cents]剪枝。则语义角色分析单元为：Benchmark grades sold for as much as 50cents last spring,have skidded tobetween 35cents.

对于介词并列、从句并列与名词短语并列同样的处理方式。剪枝的部分不单独进行分析，在还原时，剪枝的部分与它的并列结构属于同一个语义角色。

根据技术方案，我们总结了如下所示的规则，针对各个规则分别在CoNLL2004与CoNLL2005评测语料中做了实验：

表2规则表

实验结果如下所示：

表3各个规则的测试结果

Claims

1.一种结合短语结构树的语义角色识别方法，其特征在于包括以下步骤：

3)边界修正：将还原过后的语义角色结合短语树对句子进行论元边界修正，最终输出句子的语义角色分析结果；

a.NP₁-->NP₂+(VP-->VB+(S-->(VP-->TO+VP)))；

b.VP-->VB+(SBAR-->IN+(S-->NP+VP))；

c.NP₁-->NP₂+(SBAR-->IN+(S-->NP₃+VP))；

d.NP₁-->NP₂+(SBAR-->WHNP+(S-->NP₃+VP))；

e.NP₁-->NP₂+(SBAR-->WHNP+(S-->VP+NP₃))；

f.SBAR-->S-->NP+VP；

g.S-->NP+VP，S不在SBAR中；

对于编号为a、b、f、g句子结构，当子句抽取结束之后，用子句S中的NP短语替换子句语义角色分析单元放回到原句；对于编号为c、d、e句子结构，用NP₂替换子句语义角色分析单元放回到原句；当原始句子中所有的子句都用相对应的NP短语替换之后，对替换后的原句进行语义角色的分析，最后将子句分析的语义角色以及原句分析的语义角色合并在一起作为整句话的语义角色。

2.按权利要求1所述的结合短语结构树的语义角色识别方法，其特征在于步骤1)中，句子的剪枝包括插入语以及并列结构剪枝，当句子含有插入语时，则将插入语剪枝，剪枝剩下的部分合并在一起作为语义角色分析单元。

3.按权利要求2所述的结合短语结构树的语义角色识别方法，其特征在于：

4.按权利要求2所述的结合短语结构树的语义角色识别方法，其特征在于：结合短语结构树对并列结构进行判断分为有标记以及无标记两种识别方法；对于无标记的并列结构处理名词短语并列；对于有标记的并列结构包括名词短语并列、介词短语并列、从句并列以及子句并列。

5.按权利要求2或4所述的结合短语结构树的语义角色识别方法，其特征在于：当句子含有并列结构时，对于子句并列，将并列的各个子句分别进行语义角色分析；对于其它并列，采取剪枝的方式进行语义角色的分析。

6.按权利要求1所述的结合短语结构树的语义角色识别方法，其特征在于步骤3)中，对最容易出现问题的语义角色A0、A1、AM-MOD以及谓词的边界进行论元边界修正，即：对语义角色的施事A0、受事A1、情态动词AM-MOD以及谓词进行边界的修正；

7.按权利要求6所述的结合短语结构树的语义角色识别方法，其特征在于：对于语义角色AM-MOD，在短语树中对应的部分是MD，若识别出的结果在短语树对应的部分超出MD的范围，则对其进行修正，其中MD为情态动词的在短语树中的标记。

8.按权利要求6所述的结合短语结构树的语义角色识别方法，其特征在于还包括以下过程：结合短语结构树，判断谓词后面的第一个词是否为标记为PRT，若是，则与动词合并在一起作为一个谓词。