CN113239694B

CN113239694B - 一种基于论元短语的论元角色识别的方法

Info

Publication number: CN113239694B
Application number: CN202110622945.7A
Authority: CN
Inventors: 孙新; 常静娜; 侯超旭; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-06-14
Anticipated expiration: 2041-06-04
Also published as: CN113239694A

Abstract

本发明提出一种基于论元短语的论元角色识别方法，包括S1、输入的语句S和事件类型C，通过第一模型构建所述语句中每个论元的论元短语表示Span_i和所述事件类型的向量表示E_event；S2、将所述语句的论元短语表示Span_i和所述事件类型的向量表示E_event输入第二模型，获取所述语句中所有论元的角色类别。本发明充分考虑了在进行论元角色识别过程中单个单词的向量表示不具有很好的分类特征、没有利用短语信息等问题，利用事件论元的短语信息，从而有效地学习到论元的分类特征，进一步提升论元角色识别的效果。

Description

一种基于论元短语的论元角色识别的方法

技术领域

本发明涉及自然语言处理和深度学习技术领域，尤其涉及一种基于论元短语的论元角色识别的方法。

背景技术

论元角色识别技术是从语句中识别出作为事件参数的实体，并对它们在事件中扮演的角色进行分类。论元角色识别技术可以从大量的非结构化文本中提取人们感兴趣的信息，并将信息以结构化的形式存储以辅助完成其他自然语言处理任务如自动文摘、个性化新闻系统和金融分析等。论元角色识别技术的方法主要分为三类：基于规则的方法、基于概率图模型的方法和基于深度学习的方法。

基于规则的论元角色分类方法最初较为简单，主要是通过字符串匹配找寻词库中的命名实体，但是通常没有一个全面的实体库，而且找寻过程较为费时。后来在实体识别过程中加入语法规则、语义规则，然后通过规则匹配的方法识别各种类型的命名实体。这些规则通常需要领域专家和语言学者制定，而且它的可扩展性和迁移性比较弱，一旦出现新的实体，就会与之前的规则产生冲突，需要重新制定规则。

基于概率图模型的论元角色识别方法通过采样和概率模型构建等方式，对数据集进行分析。以文档为中心和以相似性为中心使用bootstrapping方法，通过过滤排序法对事件角色信息进行提取。借助文档级别信息，使用关于其他类型事件的信息来进行预测或解决关于给定事件的模糊性，通过训练语料库学习这些关系，并使用它们帮助预测文本中事件的发生以及事件参数。但是，基于概率图的方法实现过程过于复杂，建模过程较为繁琐，不光耗费大量时间，而且耗费大量的人力物力。

随着深度学习的快速发展，基于深度学习的论元角色识别方法也不断涌现。深度神经网络被用来自动表示具有低维向量的文本语义，基于上下文单词的信息，为输入句子中的每个单词计算一个抽象的表示向量，然后将单词的向量表示进行整合来完成论元角色识别任务。通常用到的深度学习模型有卷积神经网络(CNN)和循环神经网络(RNN)以及注意力机制。基于深度学习的方法简化了构建特征工程的难度，节省了大量的人力物力，并且提升了识别准确度。

目前主流的论元角色识别方法将整个识别过程分为论元识别和论元分类两个步骤。首先从句子中识别出所有论元的位置，然后对这些论元所扮演的角色进行分类。在分类过程中，一般使用BIO标注表示法对论元进行标注和分类，如图1所示，其中粗体下划线单词代表触发词，粗体斜体单词代表参与事件的论元，“B”表示当前单词是一个论元的开始，“I”表示当前单词是一个论元的中间部分，“O”表示当前单词不属于任何一个论元。

使用这种标注方式所带来的问题就是对论元进行分类的时候，只能根据某个单词进行分类，而不是以论元整体为单位进行分类。例如在图1中，论元角色识别方法需要将单词“Vivendi”划分到类别“B-Organization”中，将单词“University”划分到类别“I-Organization”中，同样将单词“Entertainment”划分到“I-Organization”中，但事实上“Vivendi University Entertainment”这个整体在当前句子中代表的是“Organization”这一事件元素，也就是说这些方法虽然使用BIO标注表示法，但是不会将它们作为一个整体，还是以单个单词为单位进行处理。这样做一方面会导致缺乏有效的分类特征，因为从单词的向量表示中并不能有效判断该单词在当前事件中扮演什么角色；另一方面没有充分利用短语信息，由于事件论元一般由多个单词组成，其中包含一些固定的短语搭配，如果只考虑单个单词的信息可能就会导致短语信息被丢失，从而使得论元识别的准确率下降。

因此，针对当前在论元角色识别过程中缺乏有效的分类特征、不能充分利用短语信息的现象，提高“BIO标注表示”情况下论元识别的准确率，是亟待解决的问题。

发明内容

为了解决在论元角色识别过程中缺乏有效的分类特征、不能充分利用短语信息的问题，本发明提供一种论元角色识别的方法，包括：

S1、对于输入的语句和事件类型，通过第一模型构建所述语句中每个论元的论元短语表示和所述事件类型的向量表示；

S2、将所述语句的论元短语表示和所述事件类型的向量表示输入第二模型，获取所述语句中所有论元的角色类别。

进一步的，所述第一模型和第二模型的训练方法包括：

S11、将训练集中的语句和事件类型分别转换为句子特征表示矩阵(e₁,e₂,…,e_n)和特征向量E_event；

S12、将所述句子的特征表示矩阵(e₁,e₂,…,e_n)输入双向GRU(Gate RecurrentUnit)网络，获取融合上下文信息的单词向量表示h_i和句中所有论元的位置序列信息p_i；

S13、将所述单词向量表示h_i通过与attention机制得到的权重加权求和，获取每个论元的特征表示Span_i；

S21、将论元短语向量表示Span_i和所述特征向量E_event拼接后通过一个全连接层得到输出O_i；

S22、将输出O_i输入softmax函数，得到所述语句中的所有论元的角色类别；

S23、通过反向传播算法训练第一模型的双向GRU网络、注意力机制和第二模型的全连接层、softmax函数。

进一步的，所述步骤S11包括：

将语句分词，获得单词序列S；

将单词序列S和所述语句的事件类型C输入到预先训练好的Bert模型，输出包含上下文语义信息的向量表示和事件类型的特征向量；

将每个单词的词性、实体类型与包含上下文语义信息的向量表示拼接，得到每个单词的向量表示；

语句中所有单词的向量表示构成句子特征表示矩阵。

进一步的，所述步骤S12中，所述注意力机制的计算公式如下：

s_ij＝tanh(W_att·h^θ+b_att)

其中，i和j分别代表第i个论元短语中的第j个单词，W_att和b_att分别为权重矩阵和偏置矩阵，h^θ为融合上下文信息的单词向量表示。α_ij为第i个论元短语中第j个单词的权重，ctx为语义关联向量。

进一步的，所述步骤S13中，通过对论元短语中每个单词表示进行加权求和，得到论元短语最终的向量表示：

进一步的，所述步骤S21中，全连接层的输出O_i的计算公式如下：

O_i＝W_cls·[Span_i；E_event]+b_cls

其中，W_cls和b_cls分别作为全连接层的权重矩阵和偏置矩阵，[；]代表向量的拼接操作，Span_i和E_event分别是论元短语向量表示和事件类型向量表示。

进一步的，在所述步骤S22中，论元短语从属于类别t的概率的计算方法如下：

其中L代表预定义好的论元类别数目，L+1代表将类别”O”也作为分类结果的一种，

代表句子中第i个论元短语从属于类别t的概率。

进一步的，所述步骤S23中，所述第一模型和第二模型通过反向传播算法训练，损失函数计算公式为：

L(θ)＝-∑_tlogp(A_t|O_t)

其中θ为第一模型和第二模型的参数集合。

本发明所述的一种基于论元短语的论元角色识别方法，与现有的论元角色识别方法相比，具有如下有益效果：

(1)本发明充分考虑了在进行论元角色识别过程中单个单词的向量表示不具有很好的分类特征、没有利用短语信息等问题，利用事件论元的短语信息，从而有效地学习到论元的分类特征，进一步提升论元角色识别的效果。

(2)本发明在获取论元短语表示阶段，区别于传统的向量拼接或向量均值方法，使用了注意力(attention)机制来表明每个单词在当前span(论元短语)中的重要程度，相比向量拼接方法，通过attention机制学习到的论元短语表示在长度方面是统一的，相比向量均值方法，通过attention机制能够更关注提供重要信息的单词，从而得到更加准确有效的论元短语表示。

(3)本发明在论元角色类别分类阶段，通过将论元的向量表示和句子的事件类型向量表示作拼接，使得在分类过程中句子的事件类型信息能够辅助论元角色的分类结果，提升论元角色识别的正确率。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为BIO标注示例图；

图2为论元位置序列图；

图3为根据本发明一个实施例的第一模型的结构示意图；

图4为根据本发明一个实施例的第二模型的结构示意图；

图5为根据本发明一个实施例的第一模型、第二模型的训练流程示意图；

图6为基于注意力机制的span-level(论元短语)表示学习图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明作进一步说明。

为了使本申请实例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实例可以相互结合。

本发明提供一种论元角色识别的方法，当用户输入句子“Barry Diller onWednesday quit as chief of Vivendi University Entertainment”以及事件类型“End-position”，通过第一模型构建该句子的论元短语表示；在论元短语表示的基础上通过第二模型对每个论元进行类别的判断，如“Barry Diller”的类别是“Person”、“VivendiUniversity Entertainment”的类别是“Organization”，最终输出就是语句中每个论元在该事件中所扮演的角色。

该方法包括如下步骤：

S1、对于输入的语句和事件类型，通过第一模型构建语句中每个论元的论元短语表示和事件类型的向量表示；

S2、将语句的论元短语表示和事件类型的向量表示输入第二模型，获取语句中所有论元的角色类别。

其中，第一模型包括双向GRU、基于论元短语的注意力机制，如图3所示，第二模型包括全连接层和分类器(即用softmax函数进行分类)，如图4所示，两个模型共同训练，训练方法如图5所示，包括：

S11、将数据集中的语句S和语句S的事件类型C分别转换为句子特征表示矩阵(e₁,e₂,…,e_n)和特征向量E_event；

S12、将句子的特征表示矩阵(e₁,e₂,…,e_n)输入双向GRU网络，获取融合上下文信息的单词向量表示h_i和句中所有论元的位置序列信息p_i；

S21、将语句的论元短语向量表示Span_i和语句的事件类型的向量表示E_event拼接后通过一个全连接层得到输出O_i；

S22、将输出O_i输入分类器，输出所述语句中所有论元的角色类别；

S23、通过反向传播算法训练第一模型的双向GRU网络、注意力机制和第二模型的全连接层和分类器的参数。

在步骤S11中，将数据集中包含事件的句子和该句子的事件类型转换为向量表示，具体包括：

接收一个包含事件的句子S＝(w₁,w₂,…,w_n)和当前句子的事件类型C，其中n为句子中单词的个数。将整个单词序列输入到预先训练好的Bert模型(Bert模型是一个当前将单词转换为特征向量的非常流行的工具，这里使用的是Google官方发布的预先训练好的Bert模型)，其输出就是每个单词包含上下文语义信息的向量表示E，具体表示如下公式：

E_word＝(e₁,e₂,…,e_n)＝Bert(w₁,w₂,…,w_n)

E_event＝Bert(C)

其中E_word表示单词的特征向量，E_event表示事件类型的特征向量，e_i表示第i个单词的特征向量。为了使每个单词的特征向量表示包含更多的信息，将每个单词的词性embedding(POStag Embedding)、实体类型embedding(Entity Embedding)作为辅助信息与单词的特征表示做拼接，最终，每个单词的向量表示为：

e_i＝[e_i；POStagemb；Entityemb]

其中[；]代表拼接操作。

在步骤S12中，使用双向GRU对语句的特征表示矩阵(e₁,e₂,…,e_n)进行编码，同时预测句子中论元所在位置，GRU是长短时记忆网络(LSTM)的一种效果很好的变体，可以解决传统循环神经网络的长期依赖问题。输入为句子的特征表示矩阵((e₁,e₂,…,e_n))，输出为句子的编码序列(h₁,h₂,…,h_n)以及句子中所有论元的位置信息序列(p₁,p₂,…,p_n)。其中论元位置信息序列中的每个元素为“B、I、O”三个类别之一，代表了单词是否为句子中的论元(其中“B”代表该单词属于论元的开头，“T”代表该单词属于论元的中间，“O”代表该单词不是论元)。本步骤中论元位置信息序列用于在步骤S13中做论元短语的融合。图2是一个论元位置序列图的示例。

GRU的具体运算过程如下：

r_t＝σ(W_r·[h_t-1,x_t]+b_r)

z_t＝σ(w_z·[h_t-1,x_t]+b_z)

其中W_θ和b_θ,θ∈[z,r]分别为更新门和重置门的参数矩阵以及偏置矩阵，h_t代表第t个时间步的隐藏状态，x_t代表第t个时间步的输入，

代表当前记忆内容，

和

分别是参数矩阵以及偏置矩阵。

为了使当前时间步的编码过程能同时利用之前时间步的信息和之后时间步的信息，这里使用双向GRU，设置前向和后向两个GRU，并将两个GRU的输出进行拼接，使得每个时间步既考虑了前文信息同样也考虑了后文信息，具体执行过程如下式：

其中，[；]表示两个向量的拼接操作，左箭头和右箭头分别表示前向GRU和后向GRU，x_i代表第i个时间步的输入。将h_i输入全连接层进行分类，得到句子中论元的位置信息：

其中w_p和b_p分别为权重矩阵和偏置矩阵，p_i表示句子中第i个单词的论元位置信息。

在步骤S13中，由于每个论元可能由多个单词构成，如何将一个论元内的多个单词的特征表示融合为论元的表示至关重要，与此同时，由于每个论元的长度不同，如何将不同长度的论元统一表示为固定长度的特征向量也是一个急需解决的问题。为了避免直接拼接带来的长度不同的问题以及求和取平均带来的缺乏分类特征问题，这里使用注意力机制，预先对一个论元中多个单词的重要程度进行打分，然后通过加权求和来获取论元的特征表示，使得论元的特征表示更关注那些提供重要信息的单词。在本步骤解决了背景技术中，判断Vivendi University Entertainment是一个论元而不是3个的问题。具体过程如图6所示。

为了获取span(论元短语)中词与词之间有效的权重信息，在此引入语义关联向量ctx用于抓取一个span(论元短语)中多个单词的重要程度信息。例如对论元短语“VivendiUniversity Entertainment”进行论元分类时，论元短语中的3个单词对“Organization”这个类别的贡献程度是不同的，其中“University”比“Entertainment”更容易被分类为“Organization”类别，因此“University”在论元短语中的重要程度也更大。

语义关联向量ctx是随机初始化的一个向量，全局使用同一个语义关联向量，它会随着训练过程的进行发生改变，权重信息的具体计算公式如下：

S_ij＝tanh(W_att·h^θ+b_att)

其中，i和j分别代表第i个span(论元短语)中的第j个单词，W_att和b_att分别为权重矩阵和偏置矩阵，h^θ为第j个单词对应步骤S12得到的向量表示，α_ij为第i个span(论元短语)中第j个单词的权重，ctx为语义关联向量。通过对span(论元短语)中每个单词表示进行加权求和，得到每个span(论元短语)最终的向量表示：

在步骤S21中，首先将每个span(论元短语)的特征表示和当前句子的事件类型向量表示做拼接后输入全连接层，获得输出O_i，具体计算公式如下：

O_i＝W_cls·[Span_i；E_event]+b_cls

其中O_i代表全连接层的输出，W_cls和b_cls分别作为全连接层(神经网络)的权重矩阵和偏置矩阵，也通过训练获得；[；]代表向量的拼接操作，Span_i和E_event分别是论元短语向量表示和事件类型向量表示。

在步骤S22中，输出O_i通过分类器的softmax函数将span(论元短语)映射到对应的论元类别中，具体计算过程如下：

代表句子中第i个span从属于类别t的概率。

在步骤S23中，第一模型和第二模型中各个参数通过反向传播算法进行训练，损失函数计算公式为：

L(θ)＝-∑_tlogp(A_t|O_t)

其中θ为第一、二模型中所有参数的集合，第一、二模型使用Adam优化算法来最小化损失函数。

步骤S2的创新之处在于，与传统分类过程相比，这里的分类是基于论元短语而不是基于单个单词做分类，通过利用短语信息克服了缺乏有效分类特征的问题，提升了论元分类的准确度。

经过上述训练后，应用时，通过第一模型得到融合了上下文语义信息的基于论元短语的论元短语表示，完成论元识别子任务；通过第二模型对论元短语进行论元分类，完成论元分类子任务。上述采用基于论元短语的论元角色识别方法有效的提升了论元角色识别的正确率。

下面以ACE2005数据集中的数据为例，说明基于论元短语的论元角色识别方法。

在具体训练模型之前，首先将ACE2005数据集分割为训练数据集和验证数据集两部分，然后将训练数据集输入第一模型中，获得数据集中每个语句基于论元短语的表示和事件类型的向量表示；接下来将训练数据集中每个语句基于论元短语的论元表示和事件类型的向量表示输入到第二模型，并通过反向传播算法得到第一模型和第二模型的各个参数。通过上述步骤训练完成整个模型后，利用已经分割好的验证集对模型进行验证对比实验，得到的实验结果如表1所示。从表1可以看出，本发明方法所提出的基于论元短语的论元角色识别方法相较于早期的基于特征的模型，F1值提升了8.7％；相较于其他深度学习模型，F1值提高了7.1％；相较于基于外部资源方法的模型，F1值提升了2.2％；相较于其他基于Bert的模型，F1值也有一定的提升，说明本发明提出的方法通过attention机制引入的基于论元短语的论元表示，有效提升了论元角色识别的效果。

表1实验结果图(最后一行为采用本发明方法的实验结果)

需要说明的是，本文中“第一”和“第二”仅仅用来区分名称相同的实体或操作，并不暗示这些实体或操作之间顺序或关系。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于论元短语的论元角色识别方法，其特征在于，所述方法包括：

S2、将所述语句的论元短语表示和所述事件类型的向量表示输入第二模型，获取所述语句中所有论元的角色类别；

所述第一模型和第二模型的训练方法包括：

S12、将所述句子的特征表示矩阵(e₁,e₂,…,e_n)输入双向GRU网络，获取融合上下文信息的单词向量表示h_i和句中所有论元的位置序列信息p_i；

S13、将所述单词向量表示h_i通过与注意力机制得到的权重加权求和，获取每个论元的特征表示Span_i；

2.根据权利要求1所述的方法，其特征在于，所述步骤S11包括：

将语句分词，获得单词序列S；

语句中所有单词的向量表示构成句子特征表示矩阵。

3.根据权利要求1所述的方法，其特征在于，所述步骤S12中，所述注意力机制的计算公式如下：

s_ij＝tanh(W_att·h^θ+b_att)

其中，i和j分别代表第i个论元短语中的第j个单词，W_att和b_att分别为权重矩阵和偏置矩阵，h^θ为融合上下文信息的单词向量表示，α_ij为第i个论元短语中第j个单词的权重，ctx为语义关联向量。

4.根据权利要求3所述的方法，其特征在于，所述步骤S 13中，通过对论元短语中每个单词表示进行加权求和，得到论元短语最终的向量表示：

其中k为论元短语中单词的个数。

5.根据权利要求1所述的方法，其特征在于，所述步骤S21中，全连接层的输出O_i的计算公式如下：

O_i＝W_cls·[Span_i；E_event]+b_cls

6.根据权利要求5所述的方法，其特征在于，在所述步骤S22中，论元短语从属于类别t的概率的计算方法如下：

其中L代表预定义好的论元类别数目，L+1代表将类别“O”也作为分类结果的一种，

代表句子中第i个论元短语从属于类别t的概率。

7.根据权利要求6所述的方法，其特征在于，所述步骤S23中，所述第一模型和第二模型通过反向传播算法训练，损失函数计算公式为：

L(θ)＝-∑_tlogp(A_t|O_t)

其中θ为第一模型和第二模型的参数集合。