CN115168541A

CN115168541A - 基于框架语义映射和类型感知的篇章事件抽取方法及系统

Info

Publication number: CN115168541A
Application number: CN202210827114.8A
Authority: CN
Inventors: 李茹; 卢江; 梁吉业; 谭红叶; 王智强
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-11

Abstract

本发明涉及知识图谱和自然语言处理领域，公开了一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。系统包括编码器模块、事件检测模块以及论元识别模块。方法中框架语义映射是在事件检测模块中将汉语框架网(Chinese FrameNet，CFN)与篇章事件进行映射，同时在文本输入阶段对篇章进行滑窗机制的文本切分并融入触发词释义信息，从而改善了篇章事件抽取中的数据稀疏问题；而类型感知则是在论元识别模块中通过事件类型标签对篇章多事件进行分离，将篇章多事件转化为多个单事件，缓解了多值论元耦合问题，最后本发明将事件检测与论元识别两个模块的输出标签进行整合，形成完整的事件表示，在中文篇章事件抽取相关数据集上取得了良好的效果。

Description

基于框架语义映射和类型感知的篇章事件抽取方法及系统

技术领域

本发明涉及知识图谱和自然语言处理领域，具体为一种基于框架语义映射和类型感知的篇章事件抽取方法及系统。

背景技术

篇章事件抽取(Document Event Extraction，DEE)是信息抽取(InformationExtraction)中的一个重要研究方向，旨在从非结构化文本中抽取结构化事件类型和事件要素。DEE是舆情监控和金融领域的重要任务之一，事件也是知识图谱(Knowledge Graph)的重要组成部分，事件抽取对于图谱推理和事件分析至关重要。

DEE包含事件检测和论元识别两部分，其任务难点主要在于文本的复杂性和事件结构的复杂性。文本的复杂性体现在输入文本为篇章，这使得输入文本受限的模型需要在考虑篇章全局信息的情况下进行数据预处理；事件结构的复杂性体现在篇章中包含多事件，不同事件之间互有重叠，较单一事件抽取难度更大。

分析主流的篇章事件抽取数据集发现，DEE任务面临的挑战主要体现在两个方面：1)篇章数据稀疏。现有数据集人工标注难度较大，导致篇章中各事件类型呈现长尾分布；2)篇章包含多事件。同一论元分布于不同事件中，存在多值论元耦合现象，也即论元重叠。因此本文探索引入汉语框架网(Chinese FrameNet，CFN)与事件建立一定的映射以改善数据稀疏问题，融合事件类型信息和篇章全局信息缓解多值论元耦合问题。

基于深度学习的事件抽取方法避免了人工设计特征的繁琐工作，使用具有丰富语言特征的词向量作为输入，以减少由底层NLP工具引起的错误。通过引入预训练模型，在一定程度上丰富了文本语义表示，但针对中文篇章事件检测任务，现阶段并未考虑引入外部知识提升其性能，同时将事件检测和论元识别任务孤立地完成，缺少信息间的交互。已有大多数篇章事件抽取方法使用深度学习和联合学习进行特征交互，通过图构建的方式捕获事件类型与论元之间的交互，避免了错误传播，但是针对篇章事件中多值论元耦合的问题并不能有效的解决。

事实上，事件检测和论元识别两阶段的上下文表示本质上捕获了不同的信息，然而联合抽取方式共享两者的模型结构和参数，因此会影响事件抽取整体性能。本文采用Pipeline抽取方式，相比于大多数Pipeline模型，更加注重事件类型与论元的交互。在事件检测阶段，引入框架语义映射，将CFN相关事件句作为外部数据在一定程度上改善了事件稀疏问题；在论元识别阶段，设计了基于类型感知的多事件分离策略，在一定程度上缓解了多值论元耦合问题。

发明内容

针对上述问题本发明提供了一种基于框架语义映射和类型感知的篇章事件抽取方法及系统，该方法及系统是基于框架语义映射和类型感知的篇章事件抽取，其中，框架语义映射是在事件检测阶段，通过建立CFN与篇章事件的映射，同时融入触发词释义信息和经过滑动窗口处理后的文本片段，从而改善了篇章事件抽取中的数据稀疏问题；而类型感知标签则是在论元识别阶段通过事件类型标签对篇章多事件进行分离，从而将篇章多事件转化为多个单事件，进一步缓解了多值论元耦合问题。最后本发明将事件检测与论元识别两个阶段进行联合优化，在中文篇章事件抽取相关数据集上取得了良好的效果。

为了达到上述目的，本发明采用了下列技术方案：

第一方面，本发明提供一种基于框架语义映射和类型感知的篇章事件抽取方法，包括以下步骤：

步骤1：通过编码器模块的编码器对事件检测模块和论元识别模块的文本分别进行编码，得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示；

步骤2：在事件检测模块中针对篇章事件数据稀疏问题，建立了CFN框架与中文事件的两级映射，进而融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测；

步骤3：在论元识别模块中针对多值论元耦合问题，建立了基于类型标签感知的多事件分离器，通过预先定义的事件论元角色对文本中的论元进行预测；

步骤4，将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接，即完成最终的篇章事件抽取。

进一步，所述步骤1的具体操作为：采用预训练语言模型BERT-Fin作为编码器，对事件检测模块和论元识别模块的文本分别进行编码；

其中，对事件检测模块文本的编码具体为：采用滑窗机制对输入文本进行数据预处理，将文本切分为多片段，每个片段s＝{c₁,c₂,c₃,...,c_i}作为事件检测任务的一次输入，c_i表示文本片段中的第i个字符；同时为了增强触发词对事件类型的语义理解，将其汉语释义信息t＝{t₁,t₂,...,t_j}拼接到文本片段的触发词之后，共同作为文本的输入，t_j表示触发词释义中的第j个字符，计算公式如下所示：

s₁＝[CLS]+s+[SEP]+t+[SEP]

s′₁＝Bert-FinEncoder(s₁)

其中，s₁表示事件检测模型的输入，[CLS]表示开始位置，[SEP]表示分隔符；s′₁＝{c₁,c₂,...,c_len}，s′₁∈R^len×d，len表示文本片段与释义信息的总长度，d为隐层维度；

对论元识别模块文本的编码具体为：采用滑窗机制对输入文本进行数据预处理，将文本切分为多片段，每个片段s＝{c₁,c₂,c₃,...,c_i}作为论元识别任务的一次输入，c_i表示文本片段中的的第i个字符；将事件检测阶段预测的每个事件类型标签e＝{e₁,e₂,...,e_j}分别与输入文本片段进行拼接共同作为模型输入特征，e_j表示当前事件类型的第j个字符，计算公式如下所示：

s₂＝[CLS]+s+[SEP]+e+[SEP]

s′₂＝Bert-FinEncoder(s₂)

其中，s₂表示论元识别模型的输入，s′₂＝{c₁,c₂,...,c_len}，s′₂∈R^len×d，len表示文本片段与类型标签的总长度，d为隐层维度。

进一步，所述步骤2包括CFN框架与中文事件映射和序列建模两部分；具体操作为：

(1)CFN框架与中文事件映射：将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s′₁，为了进一步增强篇章中的长实体信息的表示，在预训练模型之后加入bi_lstm进一步增强其语义表示，具体计算过程见如下公式所示：

h＝bi_lstm(s′₁)

h表示隐层向量，包含前向

向量和后向

向量，经过向量拼接作为下一层的输入I；

(2)序列建模：在解码阶段，将隐层输出作为CRF发射概率，CRF层转移概率矩阵A_i,j表示从第i个标签tag_i到第j个标签tag_j的转移得分，因此对于已知的输入序列s′₁＝{c₁,c₂,...,c_len}对应的输出标签结果为y_e＝(y₁,y₂,...,y_n)，定义当前序列得分的计算如下公式所示：

其中，I_i,yi表示第i个位置softmax输出为y_i的概率；完整序列的得分score(s′₁,y_e)等于每个位置打分之和，每个位置得分由隐层输出向量I和CRF转移矩阵A共同组成；最后利用softmax计算事件类型标签归一化后的概率，如下公式所示：

式中y′_e表示输出标签的归一化值，采用最大对数似然函数优化目标函数，其对数似然计算如下公式所示：

使用动态规划Viterbi算法求得最优标签序列，s₁′表示输入序列，y_e ^*表示真实标签，y_e表示预测标签，其计算如下公式所示：

y_e ^*＝argmax(score(y_e|s₁′))

经过融合CFN框架语义映射后的事件检测模型，能够很好的解决篇章事件中的数据稀疏问题，提升事件类型识别的准确率。

进一步，所述步骤3包括多类型感知层和多标签解码层两部分；具体操作为：

(1)多类型感知层：本阶段设置了一个类型感知模块，其核心在于将事件检测阶段感知的每个事件类型标签e＝{e₁,e₂,...,e_j}分别与输入文本片段s＝{c₁,c₂,c₃,.._i.c,拼接共同作为模型输入特征，依据不同的类型标签将文本中多事件转化为多个单事件，为了进一步增强事件检测与论元识别阶段的交互，将事件检测中的篇章全局信息经过maxpooling得到向量

然后和文本片段编码向量s′₂进行融合，进一步增强文本信息表示，隐藏层计算如下公式所示：

其中，I_n表示篇章中滑窗切分后的第n个片段的隐层编码，s″₂表示融合篇章全局信息的隐层表示；

(2)多标签解码层：将经过类型标签分离后的单事件分别经过各自的CRF解码层，由原先对多事件论元角色的分类转化为多个单事件论元角色的分类；CRF解码结构与事件检测阶段一致，CRF解码序列计算公式如下所示：

其中，

表示第i个事件经过CRF解码之后的标签序列，

表示所有事件的论元标签序列集合；为解决正负样本分布不均衡现象，采用Focal loss损失函数，计算过程如下公式所示：

其中，s′₂表示输入序列，y′_a表示输出标签的归一化值，P表示当前序列得分经过softmax后的归一化概率值，p^*表示样本真实标签的概率值，α为正负样本比例权重平衡因子，初始值设置为1.0；γ为样本难度权重平衡因子，初始值设置为2.0；

使用动态规划Viterbi算法求得最优标签序列，

表示真实标签，y_a表示预测标签，其计算如下公式所示：

将事件检测预测的全部事件类型标签

与论元识别预测的所有论元标签

进行拼接，y^*表示完整的事件，最终完成整体的篇章事件抽取。

第二方面，本发明提供一种基于框架语义映射和类型感知的篇章事件抽取系统，包括编码器模块、事件检测模块以及论元识别模块；其中：

所述编码器模块是对事件检测输入的文本片段和触发词释义信息进行编码，对论元识别输入的文本片段和事件类型标签进行编码，得到输入特征中每个字或词的向量表示；

所述事件检测模块是对编码器模块事件检测编码后的向量经过序列建模层完成事件类型的判断，然后采用序列标注的方式得到最优的事件类型序列标签；

所述论元识别模块是对编码器模块论元识别编码后的向量经过多类型感知层和多标签解码层进行判断，然后采用序列标注的方式得到最优的论元序列标签。

进一步，所述编码器模块包含两部分：1)事件检测阶段的篇章文本编码。通过对滑动窗口处理后的篇章片段、触发词释义信息以及CFN与篇章事件映射后的事件句进行编码，得到篇章片段和触发词释义信息中每个字或词的向量表示。2)论元识别阶段的篇章文本编码。通过对滑动窗口处理的篇章片段和事件类型标签进行编码，得到篇章片段和事件类型标签中每个字或词的向量表示；所述事件检测模块是基于汉语框架网与中文事件结构的相似性进行的两级映射，改善了事件检测中的数据稀疏问题；所述论元识别模块是基于事件类型标签感知的多事件分离方法，将篇章多事件分离为多个单事件，缓解了篇章多值论元耦合问题。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于框架语义映射和类型感知的篇章事件抽取方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，所述介质上存储有计算机程序，该计算机程序用于被处理器执行时实现上述基于框架语义映射和类型感知的篇章事件抽取方法。

与现有技术相比本发明具有以下优点：

(1)本发明将CFN与中文篇章事件抽取任务相结合，探索框架与事件间的关系，有助于改善篇章事件抽取中数据稀疏的问题。

(2)在事件检测阶段，本发明通过引入CFN这一外部知识，构造CFN框架与事件的二级映射，将CFN映射后的相关事件句作为外部数据改善了篇章事件抽取中数据稀疏问题。

(3)在论元识别阶段，通过融合事件类型标签以及整合全局上下文信息，将篇章多事件转化为多个单事件，在一定程度上缓解了多值论元耦合问题。

附图说明

图1为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取方法整体架构图；

图2为本发明使用的数据样例；

图3为本发明的事件检测模块结构图；

图4为本发明的论元识别模块结构图；

图5为本发明的多标签整合结构图；

图6为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取系统的结构示意图；

具体实施方式

下面结合实施例和附图对本发明做进一步详细描述，所举实施例只用于解释本发明，并非用于限定本发明的保护范围。

实施例1

图1为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取方法整体架构图，主要包括编码器模块、事件检测模块和论元识别模块。

各模块的具体内容如下：

编码器模块对事件检测和论元识别分别进行编码，得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示；

事件检测模块，利用CFN与中文事件的两级映射、滑动窗口机制以及触发词释义信息共同改善事件检测阶段数据稀疏问题。通过两级框架语义映射，将CFN中相关的事件句用于事件检测，提升事件检测任务的性能。

论元识别模块，利用类型感知标签和融合篇章全局信息缓解篇章中的多值论元耦合问题。通过类型感知模块将篇章多事件分离为多个单事件进行识别。

标签整合：将事件检测模块预测的全部事件类型标签与论元识别模块预测的所有论元标签进行拼接，完成最终的篇章事件抽取。

实施例2

图2为2021百度最新发布的金融领域篇章级事件抽取数据集(DuEE-fin)的示例，包含13个事件类型的1.17万个篇章，同时存在部分非目标篇章作为负样例。事件类型来源于常见的金融事件，数据集中的篇章来自金融领域的新闻和公告，覆盖了真实应用场景中诸多难以解决的问题。篇章级事件抽取输入：包含事件信息的一个或多个连续完整篇章；输出：预先定义的事件类型和论元角色的事件论元。

1、采用预训练语言模型BERT-Fin作为编码器，对事件检测模块和论元识别模块的文本分别进行编码。

事件检测模块文本的编码具体为：采用滑窗机制对输入文本进行数据预处理，将文本切分为多片段，每个片段s＝{c₁,c₂,c₃,...,c_i}作为事件检测任务的一次输入，c_i表示文本片段中的第i个字符；同时为了增强触发词对事件类型的语义理解，将其汉语释义信息t＝{t₁,t₂,...,t_j}拼接到文本片段的触发词之后，共同作为文本的输入，t_j表示触发词释义中的第j个字符，计算公式如下所示：

s₁＝[CLS]+s+[SEP]+t+[SEP]

s′₁＝Bert-FinEncoder(s₁)

论元识别模块文本的编码具体为：采用滑窗机制对输入文本进行数据预处理，将文本切分为多片段，每个片段s＝{c₁,c₂,c₃,...,c_i}作为论元识别任务的一次输入，c_i表示文本片段中的的第i个字符；将事件检测阶段预测的每个事件类型标签e＝{e₁,e₂,...,e_j}分别与输入文本片段进行拼接共同作为模型输入特征，e_j表示当前事件类型的第j个字符，计算公式如下所示：

s₂＝[CLS]+s+[SEP]+e+[SEP]

s′₂＝Bert-FinEncoder(s₂)

2、在事件检测模块中针对篇章事件数据稀疏问题，融合篇章触发词释义信息和CFN相关事件句对预先定义的事件类型进行预测，包括CFN框架与中文事件映射和序列建模两部分。事件检测模块结构图如图3所示。

h＝bi_lstm(s′₁)

h表示隐层向量，包含前向

向量和后向

向量，经过向量拼接作为下一层的输入I；

y_e ^*＝argmax(score(y_e|s₁′))

3、在论元识别阶段，针对多值论元耦合问题，通过预先定义的事件论元角色对文本中的论元进行预测，包括多类型感知层和多标签解码层两部分。论元识别模块结构图如图4所示。

其中，

表示第i个事件经过CRF解码之后的标签序列，

使用动态规划Viterbi算法求得最优标签序列，

表示真实标签，y_a表示预测标签，其计算如下公式所示：

将事件检测预测的全部事件类型标签

与论元识别预测的所有论元标签

本发明在最终预测阶段的多标签整合结构图如图5所示。

结合图2可以看出：本发明方法在中文篇章事件抽取相关数据集上取得了良好的效果。

实施例3

图6为本发明实施例提供的一种基于框架语义映射和类型感知的篇章事件抽取系统的结构示意图，如图6所示，该篇章事件抽取系统包括：编码器模块、事件检测模块、论元识别模块，其中：

编码器模块：对事件检测输入的文本片段和触发词释义信息进行编码，对论元识别输入的文本片段和事件类型标签进行编码，得到输入特征中每个字或词的向量表示；

事件检测模块：对事件检测编码后的向量经过序列建模层完成事件类型的判断，然后采用序列标注的方式得到最优的事件类型序列标签；

论元识别模块：对论元识别编码后的向量经过多类型感知层和多标签解码层进行判断，然后采用序列标注的方式得到最优的论元序列标签；

本发明实施例提供一种基于框架语义映射和类型感知的篇章事件抽取系统，具体执行上述一种框架语义映射和类型感知的篇章事件抽取方法实施例流程，具体请详见上述一种框架语义映射和类型感知的篇章事件抽取方法实施例的内容，在此不再赘述。

实施例4

本实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于框架语义映射和类型感知的篇章事件抽取方法。

实施例5

本实施例提供一种非暂态计算机可读存储介质，所述介质上存储有计算机程序，该计算机程序用于被处理器执行时实现上述的基于框架语义映射和类型感知的篇章事件抽取方法。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用于说明本发明的技术方案而并非对其进行限制，凡未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明技术方案的范围内。

Claims

1.一种基于框架语义映射和类型感知的篇章事件抽取方法，其特征在于：包括以下步骤：

步骤1：通过编码器模块对事件检测模块和论元识别模块的文本分别进行编码，得到篇章片段、触发词释义信息以及事件类型标签中每个字或词的向量表示；

2.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法，其特征在于：所述步骤1的具体操作为：采用预训练语言模型BERT-Fin作为编码器，对事件检测模块和论元识别模块的文本分别进行编码；

s₁＝[CLS]+s+[SEP]+t+[SEP]

s₁′＝Bert-FinEncoder(s₁)

其中，s₁表示事件检测模型的输入，[CLS]表示开始位置，[SEP]表示分隔符；s₁′＝{c₁,c₂,...,c_len}，s₁′∈R^len×d，len表示文本片段与释义信息的总长度，d为隐层维度；

s₂＝[CLS]+s+[SEP]+e+[SEP]

s′₂＝Bert-FinEncoder(s₂)

3.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法，其特征在于：所述步骤2包括CFN框架与中文事件映射和序列建模两部分；具体操作为：

(1)CFN框架与中文事件映射：将篇章事件与CFN框架映射后的相关事件句、触发词释义以及滑动窗口的文本片段通过编码器模块得到片段和触发词释义的向量s₁′，为了进一步增强篇章中的长实体信息的表示，在预训练模型之后加入bi_lstm进一步增强其语义表示，具体计算过程见如下公式所示：

h＝bi_lstm(s₁′)

h表示隐层向量，包含前向

向量和后向

向量，经过向量拼接作为下一层的输入I；

(2)序列建模：在解码阶段，将隐层输出作为CRF发射概率，CRF层转移概率矩阵A_i,j表示从第i个标签tag_i到第j个标签tag_j的转移得分，因此对于已知的输入序列s₁′＝{c₁,c₂,...,c_len}对应的输出标签结果为y_e＝(y₁,y₂,...,y_n)，定义当前序列得分的计算如下公式所示：

其中，I_i,yi表示第i个位置softmax输出为y_i的概率；完整序列的得分score(s₁′,y_e)等于每个位置打分之和，每个位置得分由隐层输出向量I和CRF转移矩阵A共同组成；最后利用softmax计算事件类型标签归一化后的概率，如下公式所示：

式中y_e′表示输出标签的归一化值，采用最大对数似然函数优化目标函数，其对数似然计算如下公式所示：

y_e ^*＝argmax(score(y_e|s₁′))

4.根据权利要求1所述的一种基于框架语义映射和类型感知的篇章事件抽取方法，其特征在于：所述步骤3包括多类型感知层和多标签解码层两部分；具体操作为：

(1)多类型感知层：本阶段设置了一个类型感知模块，其核心在于将事件检测阶段感知的每个事件类型标签e＝{e₁,e₂,...,e_j}分别与输入文本片段s＝{c₁,c₂,c₃,...,c_i}拼接共同作为模型输入特征，依据不同的类型标签将文本中多事件转化为多个单事件，为了进一步增强事件检测与论元识别阶段的交互，将事件检测中的篇章全局信息经过maxpooling得到向量