CN111897908B

CN111897908B - 融合依存信息和预训练语言模型的事件抽取方法及系统

Info

Publication number: CN111897908B
Application number: CN202010398752.3A
Authority: CN
Inventors: 靳小龙; 郭嘉丰; 程学旗; 延浩然; 官赛萍; 范意兴; 席鹏弼
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-05-02
Anticipated expiration: 2040-05-12
Also published as: CN111897908A

Abstract

本发明提出一种融合依存信息和预训练语言模型的事件抽取方法及系统，包括以句子的依存句法树为输入，利用使用图卷积神经网络学习依存句法特征，并加入依存关系预测任务，通过多任务学习的方式捕捉更重要的依存关系，最后使用BERT预训练语言模型增强底层句法表达，完成中文句子的事件抽取。由此本发明对事件抽取任务下触发词抽取和论元抽取的性能均有所提高。

Description

融合依存信息和预训练语言模型的事件抽取方法及系统

技术领域

本发明涉及互联网技术领域，具体的说涉及一种可用于知识图谱和信息抽取领域的中文事件抽取方法和系统。

背景技术

事件(Event)作为信息的一种结构化表示，是指涉及某些参与者的实际发生的事情。作为一类特殊的信息抽取任务，事件抽取的目标是从给定文本中抽取出预定义事件类型的实例。事件一般由触发词(Trigger)和论元(Argument)两部分组成，其中触发词是文本中最能清楚地表达事件发生的词，一般是事件所在句子的核心动词；论元与事件相关，并在事件中扮演一定角色的实体。一般来说，事件抽取一般可以分为触发词抽取和论元抽取两个任务进行，其中触发词抽取任务的目标是找出事件的触发词，并判断事件类型；论元抽取任务的目标是对于给定文本及事件触发词，判断文本中的实体是否是事件的相关论元，如果是则判断该实体在事件中担任的角色。

由于中文事件触发词一般以字为粒度进行预测，现有的中文事件抽取方法大多以句子的字、词序列作为输入单位进行抽取。主要分为几个步骤，首先对输入的句子进行分词，接着分别对词序列和字序列进行特征表示，这一阶段一般使用人工设计的独立特征或基于神经网络计算的分布式表示特征，最后融合字、词特征进行触发词抽取和论元抽取的相关分类计算。

对于事件抽取任务来说，如何更好地学习输入词序列的特征表示非常重要。然而，在前文提到的序列式的输入中，触发词和论元之间往往存在许多与事件无关的词，这些词对事件的准确抽取造成了干扰。近两年来，在英文事件抽取任务下提出了一类使用待抽取句子的依存句法树为输入的方法。这类方法将依存树转换为带自环的双向连通图，使用图卷积神经网络学习句子的依存句法特征，通过句子的依存句法树，后续触发词可以以更短的距离访问到其相关的论元，避免无关修饰词的干扰。这类方法在英文事件抽取任务上取得了良好的表现。

此外，目前已有的事件抽取方法在使用句子的依存信息赋予了句子中所有依存关系同等的权重进行学习，这样的设置对所有的依存关系一视同仁，忽略了对事件抽取任务更为重要的依存关系，比如，待抽取句子中触发词到其论元的依存关系应当被赋予更高的权重以进行特征表示。

另一方面，由于标注代价高、难度大等问题，目前事件抽取领域可用数据量依然难以满足深度神经网络的学习需求。以最常用的事件抽取数据集ACE2005为例，中、英文数据分别仅有599和633篇文档。有方法使用外部知识库或语料资源作为补充，使用弱监督的方式对训练数据进行扩充，但是这类方法局限于人工规则和假设，其扩充的数据规模虽大，对抽取模型性能的提升非常有限。

综上所述，现有技术中主要缺陷是未能很好地建模依存特征和标注数据，从而导致抽取性能不足。

发明内容

为了克服现有技术中存在的不足，本发明提供了一种融合依存信息和预训练语言模型的中文事件抽取方法，可以通过一种融合依存信息和预训练语言模型的中文事件抽取方法来实现。该方法以句子的依存句法树为输入，利用使用图卷积神经网络学习依存句法特征，并加入依存关系预测任务，通过多任务学习的方式捕捉更重要的依存关系，最后使用BERT(Bidirectional Encoder Representation from Transformers)预训练语言模型增强底层句法表达，完成中文句子的事件抽取。

针对现有技术的不足，本发明提出一种融合依存信息和预训练语言模型的事件抽取方法，其中包括：

预处理步骤，对待事件抽取文本进行分句、分词、实体提取和句子级依存分析，得到中间数据，将该中间数据中触发词转换为BIO标注格式，得到预处理语料；

预编码步骤，以该预处理语料中句子的词序列作为输入，使用BERT预训练语言模型的分词模块进行分词，得到子词序列，输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码，得到预编码结果和句子的依存句法树；

图卷积神经网络学习步骤，将该依存句法树转换为自环双向连通图，以该预编码结果和该自环双向连通图为输入，使用多层图卷积神经网络学习词级依存句法特征，得到词编码结果；

事件抽取步骤，以该词编码结果为输入，得到任意两个单词间的依存关系；融合该编码结果中的字、词特征，以字级别序列标注的方式进行触发词抽取，得到触发词；合并该编码结果中的实体和该触发词，通过判断实体在该触发词所在事件中是否为其论元，得到论元角色；集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果。

所述的融合依存信息和预训练语言模型的事件抽取方法，其中该预处理步骤包括：使用自然语言处理工具对待事件抽取文本首先进行分句，然后对每个分句进行分词、实体识别和依存分析操作。

所述的融合依存信息和预训练语言模型的事件抽取方法，其中该图卷积神经网络学习步骤包括：将该依存句法树加入自环和反向边，构成一个带自环的双向连通图，保留该双向连通图“正向”、“反向”和“自环”三种类型的边，分别命名为A_along,A_rev和A_loop；

使用多层迭代式的该图卷积神经网络通过下式对该预编码结果中词序列进行编码：

其中f_conv(·)是图卷积网络的卷积函数，

是元素级加法运算，模型每次会将第k-1层的图表达作为输入，使用A_along,A_rev和A_loop分别进行图卷积的计算，然后进行求和，作为第i个单词第k层的图表达，具体来说，

其中σ是非线性激活函数，W_a,k和∈_a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置，dg(A_{along/rev/loop},i)计算了节点i在子图中的度，用于归一化。

所述的融合依存信息和预训练语言模型的事件抽取方法，其中该事件抽取步骤中依存关系的确定方法为：

d′_i,j＝sigmoid(W_D g(W_DT[p_i,p_j]))

其中W_D和W_DT是线性变换矩阵，g是ReLU非线性激活函数，d’_i,j为该依存关系且d′_i,j∈[0,1]。

所述的融合依存信息和预训练语言模型的事件抽取方法，其中该事件抽取步骤包括：

实体entity_i的最终表达e_i如下：

e_i-＝[he_i||trigger_i||event_i]

其中he_i为实体entity_i按词进行平均池化操作得到的平均表达，trigger_i为触发词的平均池化表达，event_i为实体类型向量；

然后使用Softmax分类器进行多分类：

其中

是实体entity_i为论元角色t的概率，W_arg是线性变换矩阵，N_arg是论元角色的种类数。

本发明还提出了一种融合依存信息和预训练语言模型的事件抽取系统，其中包括：

预处理模块，对待事件抽取文本进行分句、分词、实体提取和句子级依存分析，得到中间数据，将该中间数据中触发词转换为BIO标注格式，得到预处理语料；

预编码模块，以该预处理语料中句子的词序列作为输入，使用BERT预训练语言模型的分词模块进行分词，得到子词序列，输入至BERT预训练语言模型的多层Transformer模型对该子词序列进行预编码，得到预编码结果和句子的依存句法树；

图卷积神经网络学习模块，将该依存句法树转换为自环双向连通图，以该预编码结果和该自环双向连通图为输入，使用多层图卷积神经网络学习词级依存句法特征，得到词编码结果；

事件抽取模块，以该词编码结果为输入，得到任意两个单词间的依存关系；融合该编码结果中的字、词特征，以字级别序列标注的方式进行触发词抽取，得到触发词；合并该编码结果中的实体和该触发词，通过判断实体在该触发词所在事件中是否为其论元，得到论元角色；集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果。

所述的融合依存信息和预训练语言模型的事件抽取系统，其中该预处理模块包括：使用自然语言处理工具对待事件抽取文本首先进行分句，然后对每个分句进行分词、实体识别和依存分析操作。

所述的融合依存信息和预训练语言模型的事件抽取系统，其中该图卷积神经网络学习模块包括：将该依存句法树加入自环和反向边，构成一个带自环的双向连通图，保留该双向连通图“正向”、“反向”和“自环”三种类型的边，分别命名为A_along,A_rev和A_loop；

其中f_conv(·)是图卷积网络的卷积函数，

所述的融合依存信息和预训练语言模型的事件抽取系统，其中该事件抽取模块中依存关系的确定系统为：

d′_i,j＝sigmoid(W_D g(W_DT[p_i,p_j]))

所述的融合依存信息和预训练语言模型的事件抽取系统，其中该事件抽取模块包括：

实体entity_i的最终表达e_i如下：

e_i＝[he_i||trigger_i||event_i]

然后使用Softmax分类器进行多分类：

其中

与已有中文事件抽取技术相比，本发明具有以下优点：一是使用了图卷积神经网络学习句子的依存句法信息；二是通过多任务学习的方式引入依存关系预测任务，通过该任务的学习捕捉对中文事件抽取更重要的依存关系；三是使用了BERT预训练语言模型增强底层的语义表达；四是在中文事件抽取任务下触发词抽取和论元抽取的性能均有所提高，本发明在ACE2005中文数据测试集上触发词抽取F1值达到71.9％，论元抽取F1值达到58.3％。

附图说明

图1为本发明的整体流程图；

图2为本发明中BERT预训练语言模型预编码流程图；

图3为本发明中多层迭代式图卷积神经网络详细介绍图；

图4为本发明中依存关系预测详细介绍图；

图5为本发明中触发词抽取流程图；

图6为本发明中论元抽取流程图。

具体实施方式

一种融合依存信息和预训练语言模型的中文事件抽取方法，包括以下步骤：1)训练语料预处理，2)使用BERT预训练语言模型进行预编码，3)使用图卷积神经网络学习依存句法特征，4)依存关系预测，5)触发词抽取，6)论元抽取。本发明提出的中文事件抽取方法包括以下步骤：

1)训练语料预处理，本发明使用的训练语料选自ACE 2005中文数据集，处理过程包括分句、分词、标注实体提取、句子级依存分析，然后将触发词转换为BIO标注格式；

2)使用BERT预训练语言模型进行预编码，该步骤以句子的词序列作为输入，使用BERT预训练语言模型自带分词模块进行分词后，输入BERT的多层翻译Transformer模型对子词序列进行预编码，相比于传统的静态字、词向量来说，使用大规模语料训练的BERT可以提供更为丰富的动态语义表达；此步骤中的分词与上一步骤分词并不重复，BERT分词完的序列为“子词序列”，是一种在分词基础上更细化的切分过程。

3)使用图卷积神经网络学习依存句法特征，该步骤以BERT预编码结果和句子的依存句法树为输入，使用图卷积神经网络学习词级依存句法特征；其中该依存句法树是通过自然语言处理工具得到。

4)依存关系预测，该步骤以图卷积神经网络的词编码结果为依存关系预测模型的输入，预测任意两个单词间是否存在依存关系，以捕捉对事件抽取任务更为重要的依存关系；

5)触发词抽取，该步骤融合字、词特征，以字级别序列标注的方式进行触发词抽取；

6)论元抽取，该步骤合并句子中的实体表达和抽取出的触发词表达，判断实体在该触发词所在事件中是否为其论元，并给出论元角色。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提出了一种融合依存信息和预训练语言模型的中文事件抽取方法，方法的整体流程如图1所示。方法主要包括BERT预编码、图卷积神经网络、依存关系预测、触发词抽取和论元抽取五个部分。BERT预编码使用BERT预训练语言模型对输入字、词序列进行编码，获得其分布式语义表达。图卷积神经网络以句子的依存句法树为输入，学习句子的依存句法特征。依存关系预测通过预测任意两个单词之间是否存在依存关系来捕捉对事件抽取任务更为重要的依存关系。触发词抽取部分以BIO序列标注的方式对字进行分类，然后合并获得触发词内容及其事件类型。论元抽取部分枚举句子中的实体表达，结合触发词抽取结果中的触发词表达进行分类，判断该实体在对应事件中的论元角色。

具体方法步骤包括：

S1、使用BERT预训练语言模型对输入词序列进行预编码，获取每个字经BERT预训练模型编码后的分布式语义表达。

S2、将句子的依存句法树转换为带自环双向连通图，使用多层迭代式图卷积神经网络对词序列进行编码，学习句子的依存句法表达。

S3、将任何两个单词的图网络编码合并，使用Sigmoid函数预测判断两者之间是否存在依存关系。

S4、合并字、词序列编码，使用Softmax进行多分类，使用BIO序列标注方式进行触发词抽取。

S5、获取实体每个词的平均表达，与触发词的的平均表达进行合并，使用Softmax分类器进行论元角色分类。

具体地，S1包含两个子步骤，流程图如图2所示。

S101、训练数据预处理。使用自然语言处理工具对训练文档首先进行分句，然后对每个分句进行分词、实体识别、依存分析操作。由于中文触发词抽取需要以字为粒度进行，因此在预处理过程中需要记录每个词在字序列中的起始位置。最后需要对字、词序列根据最长序列长度进行补齐和切除。本发明限定最长字、词序列长度分别为256和128。

S102、BERT预训练模型编码。通过大规模语料预训练的BERT语言模型对输入字、词序列进行预编码，相比于传统静态词向量，该方法可以获得更为丰富的动态语义表达p_i式中w_i的含义是第i个子词。

p_i＝BERT(w_i)

进一步地，S2包括三个子步骤，其具体结构如图3所示：

S201、将句子的依存句法树加入自环和反向边，构成一个带自环的双向连通图。考虑到训练数据规模，本发明不对不同的依存关系进行区分，仅保留“正向”、“反向”和“自环”三种类型。具体地，该步骤以邻接矩阵的形式存储三种边，分别命名为A_along,A_rev和A_loop。

S202、使用多层迭代式图卷积神经网络对词序列进行编码，如图4所示，具体来说：

其中f_conv(·)是图卷积网络的卷积函数，

是元素级加法运算，h_i ^k的含义是第i个词在第k层图卷积网络的编码结果。模型每次会将第k-1层的图表达作为输入，使用A_along,A_rev和A_loop这三张子图分别进行图卷积的计算，然后进行求和，作为第i个单词第k层的图表达，具体来说，

其中σ是非线性激活函数，W_a,k和∈_a,k分别是子图a在第k层图卷积的线性变换矩阵及其偏置，dg(A_{along/rev/loop},i)计算了节点i在子图中的度，用于归一化，其计算公式如下：

S3的目标是判断任意两个词之间是否存在依存关系，其具体结构如图4所示，具体来说：

d′_i,j＝sigmoid(W_D g(W_DT[p_i,p_j]))

其中W_D和W_DT是线性变换矩阵，g是ReLU非线性激活函数，d′_i,j∈[0,1]。在损失函数部分，该模块损失计算公式如下：

其中N_s是训练集中句子的数量，即训练句子数。

S4流程如图5所示，主要以BIO的序列标注方式进行触发词抽取。鉴于中文触发词抽取需要以字为粒度进行，需要合并字与其对应词的编码：

q_i＝[c_i||Trans(h^k)_i]

其中Trans是一个映射函数，Trans(h^k)_i获取了第i个字符对应的单词的最后一层图卷积表达。

然后使用Softmax分类器进行触发词抽取：

其中

是字符i预测为触发词标签t的概率，W_event是线性变换矩阵，N_event是事件的种类数，由于该方法采用BIO的序列标注方式，因此共有2N_event+1种标签，

模型采用加权的交叉熵损失函数，最终的损失函数如下：

其中N_s是训练句子的数量，N_i,w是第i个句子包含的单词数，CE是交叉熵损失函数，y_i,j和y′_i,j分别是第i句的第j个单词的标签事件类型和预测的事件类型，λ_bias是人工设置的超参数，用于强化正样本的权重，I(O)是一个指示函数，当第i句的第j个单词是触发词的一部分时其取值为1，否则为0。

S5流程如图6所示，主要进行论元抽取。论元抽取的输入为实体和事件触发词，目标是判断该实体在触发词代表事件中的论元角色，实体entity_i的最终表达e_i如下：

e_i＝[he_i]|trigger_i|]event_i]

其中he_i是实体entity_i按词进行平均池化操作得到的平均表达，同理得到触发词的平均池化表达trigger_i，event_i是查表所得的实体类型向量。

然后使用Softmax分类器进行多分类：

其中

是实体entity_i预测为论元角色t的概率，W_arg是线性变换矩阵，N_arg是论元角色的种类数，

是e_i的第t个维度的表达。

论元抽取部分的损失函数如下：

其中N_Trigger是训练数据中事件触发词的数量，N_i,entity是第i个事件触发词所属句子中实体的数量，CE是交叉熵损失函数，y_i,j和y′_i,j分别代表第i个事件中第j个实体的标签论元角色和预测的论元角色。

与已有中文事件抽取技术相比，本发明具有以下优点：一是使用了图卷积神经网络学习句子的依存句法信息；二是通过多任务学习的方式引入依存关系预测任务，通过该任务的学习捕捉对中文事件抽取更重要的依存关系；三是使用了BERT预训练语言模型增强底层的语义表达，通过BERT预训练过程中使用的大规模无标注语料缓解事件抽取任务标注语料不足的问题；四是在中文事件抽取任务下触发词抽取和论元抽取的性能均有所提高，本发明在ACE2005中文数据测试集上触发词抽取F1值达到71.9％，论元抽取F1值达到58.3％。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

其中f_conv(·)是图卷积网络的卷积函数，

是元素级加法运算，模型每次会将第k-1层的图表达作为输入，使用A_along，A_rev和A_loop分别进行图卷积的计算，然后进行求和，作为第i个单词第k层的图表达，具体来说，

其中σ是非线性激活函数，W_a，k和∈_a，k分别是子图a在第k层图卷积的线性变换矩阵及其偏置，dg(A_{along/rev/loop}，i)计算了节点i在子图中的度，用于归一化。

d′_i，j＝sigmoid(W_D g(W_DT[p_i，p_j]))

其中W_D和W_DT是线性变换矩阵，g是ReLU非线性激活函数，d’_i，j为该依存关系且d′_i，j∈[0，1]。

实体entity_i的最终表达e_i如下：

e_i＝[he_i||trigger_i||event_i]

然后使用Softmax分类器进行多分类：

其中

Claims

1.一种融合依存信息和预训练语言模型的事件抽取方法，其特征在于，包括：

事件抽取步骤，以该词编码结果为输入，得到任意两个单词间的依存关系；融合该编码结果中的字、词特征，以字级别序列标注的方式进行触发词抽取，得到触发词；合并该编码结果中的实体和该触发词，通过判断实体在该触发词所在事件中是否为其论元，得到论元角色；集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果；

该事件抽取步骤中依存关系的确定方法为：

d′_i,j＝sigmoid(W_D g(W_DT[p_i,p_j]))

其中W_D和W_DT是线性变换矩阵，g是ReLU非线性激活函数，d’_i,j为该依存关系且d'_i,j∈[0,1]；

实体entity_i的最终表达e_i如下：

e_i＝[he_i||trigger_i||event_i]

然后使用Softmax分类器进行多分类：

其中

2.如权利要求1所述的融合依存信息和预训练语言模型的事件抽取方法，其特征在于，该预处理步骤包括：使用自然语言处理工具对待事件抽取文本首先进行分句，然后对每个分句进行分词、实体识别和依存分析操作。

3.如权利要求1所述的融合依存信息和预训练语言模型的事件抽取方法，其特征在于，该图卷积神经网络学习步骤包括：将该依存句法树加入自环和反向边，构成一个带自环的双向连通图，保留该双向连通图“正向”、“反向”和“自环”三种类型的边，分别命名为A_along,A_rev和A_loop；

其中f_conv(·)是图卷积网络的卷积函数，

4.一种融合依存信息和预训练语言模型的事件抽取系统，其特征在于，包括：

事件抽取模块，以该词编码结果为输入，得到任意两个单词间的依存关系；融合该编码结果中的字、词特征，以字级别序列标注的方式进行触发词抽取，得到触发词；合并该编码结果中的实体和该触发词，通过判断实体在该触发词所在事件中是否为其论元，得到论元角色；集合该依存关系、该触发词和该论元角色作为该待事件抽取文本的事件抽取结果；

其中，该事件抽取模块中依存关系的确定系统为：

d′_i,j＝sigmoid(W_Dg(W_DT[p_i,p_j]))

实体entity_i的最终表达e_i如下：

e_i＝[he_i||trigger_i||event_i]

然后使用Softmax分类器进行多分类：

其中

5.如权利要求4所述的融合依存信息和预训练语言模型的事件抽取系统，其特征在于，该预处理模块包括：使用自然语言处理工具对待事件抽取文本首先进行分句，然后对每个分句进行分词、实体识别和依存分析操作。

6.如权利要求4所述的融合依存信息和预训练语言模型的事件抽取系统，其特征在于，该图卷积神经网络学习模块包括：将该依存句法树加入自环和反向边，构成一个带自环的双向连通图，保留该双向连通图“正向”、“反向”和“自环”三种类型的边，分别命名为A_along,A_rev和A_loop；

其中f_conv(·)是图卷积网络的卷积函数，