CN115630304A

CN115630304A - 一种文本抽取任务中的事件分割抽取方法及系统

Info

Publication number: CN115630304A
Application number: CN202211366417.0A
Authority: CN
Inventors: 宋艳枝; 吴同洲; 杨周旺
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-20

Abstract

本发明公开一种文本抽取任务中的事件分割抽取方法及系统，包括：采用Span片段的数据分割标注策略，搭建基于预训练模型的神经网络分割算法模型，使网络能够学习到事件的首尾token位置，进行事件的分割，以此减少抽取模型单次处理事件的数目；搭建基于预训练模型的神经网络抽取算法模型，将事件抽取任务转换成为论元识别，事件划分及图搜索三个子任务。上述方法能够避免抽取模型解码过于复杂，提升文本事件抽取的正确率，减少抽取错误。此外，本发明简单易实施，采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率，抽取效率高，并且理论上不存在传统自回归模型的曝光偏差问题。

Description

一种文本抽取任务中的事件分割抽取方法及系统

技术领域

本发明属于深度学习与人工智能技术领域，涉及一种文本事件分割及信息抽取的方法及系统，具体涉及一种文本抽取任务中的先分割事件后抽取事件的Pipeline技术。

背景技术

事件抽取任务，是信息抽取领域最重要，也是最常见的问题之一，其在文本摘要、自动问答、信息检索等领域有着广泛的应用。“事件”是指在特定的时空下，由一个或多个角色(事件主体)参与的，围绕某个主题开展的一系列活动。组成事件的各元素包括：触发词(trigger)、事件类型(event type)、事件论元(argument)及论元角色(role)。事件抽取的目标是在文本中抽取出较为关键的信息(组成事件的各元素)，将无结构化数据转换为结构化数据。根据事件所处的位置，事件抽取可分为句子级别以及文档级别。用深度学习解决这类问题的一般方式为，构造一个端到端的神经网络模型，目前事件抽取领域的主流方法分为四个步骤：触发词检测、事件/触发词类型识别、事件论元检测、论元角色识别。虽然这类方法在多个数据集中均取得了良好的效果，但是针对一些多事件且事件交叉较少的文本，随着文本中事件数目的增多，模型性能将会受到严重影响，并且大多现有方法只能处理单事件中论元角色与事件论元一对一的情况。

事件抽取的正确率受文本中事件数目的影响较大，因此降低处理的文本事件数目对模型事件抽取正确率的提升至关重要。但是依靠人工去划分事件之间的边界往往会耗费大量的人力资源。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种文本抽取任务中的事件分割抽取方法及系统，采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率。

本发明的目的是通过以下技术方案实现的：

第一方面，本发明提供了一种文本抽取任务中的事件分割抽取方法，文本抽取任务中先分割事件后抽取事件，分割的目的是尽可能的识别出事件之间的边界，使得模型一次处理较少的事件数目；抽取的目的是尽可能的识别出组成事件中的各元素；采用分割与抽取Pipeline的方式大大提升了文本事件抽取的正确率。

上述方法包括以下步骤：

步骤1：对每篇文档中的若干事件进行首尾标注，生成分割标注的样本数据集；所述首尾标注采用Span片段的标注策略；

步骤2：搭建基于预训练模型的神经网络分割算法模型，并对步骤1得到的分割标注的样本数据集进行训练；

步骤3：利用训练后的所述分割算法模型，对外部测试集进行事件的分割，得到事件分割结果；

步骤4：根据事件分割结果中已完成分割的事件，对组成事件的元素进行标注，生成抽取标注的样本数据集；

步骤5：搭建基于预训练模型的神经网络抽取算法模型，并对步骤4得到的抽取标注的样本数据集进行训练；

步骤6：利用训练后的所述抽取算法模型，对外部测试集进行事件元素的抽取，得到文本中的事件抽取结果。

进一步，所述步骤2中：基于预训练模型的神经网络分割算法模型实现如下：

(1)在预训练模型中的特征提取部分，使用中文预训练模型进行token-level的特征表征后得到向量序列[h₁,h₂,…,h_i]，对向量序列[h₁,h₂,…,h_i]进行线性变换，得到变换结果，即向量序列[q₁,q₂,…,q_i]和[k₁,k₂,…,k_i]，其中线性变换公式：q_i＝W_qh_i+b_q和k_i＝W_kh_i+b_k，将q_i和k_i作为识别事件位置的向量序列，i的序列取值范围为1-n，W_q，W_k为权重系数，b_q，b_k为偏置项；

(2)基于向量序列，采用如下公式

计算从i到j的事件得分，i,j均为事件位置下标，1≤i≤j≤n；在得分中加入位置编码Q，Q满足

相对位置编码；

(3)采用改进的多标签分类损失函数，得到最终的优化目标loss为：

其中，E是分割标注的样本数据集中样本的所有事件的首尾集合，NE是分割标注的样本数据集中样本的所有非事件的首尾集合；

NE＝Ω-E

Ω＝{(i,j)|1≤i≤j≤n}

E＝{(i,j)|Span[i,j]is a event}。

进一步，所述步骤4中，所述基于预训练模型的神经网络抽取算法模型实现如下：

将事件抽取任务转换成为论元识别，事件划分以及图搜索三个子任务；三者呈现递进关系，首先进行论元识别用于找出所有论元，找出所有论元后进行事件的划分，构建一个事件图，每一个论元为事件图上的一个节点，若两个论元同属一个事件，则两个节点间连上一条边，最后在构建好的事件图中以递归的方式进行图搜索，用以识别图中的事件集合；

对于论元识别，将触发词作为事件的一个论元角色，统一事件中有无触发词的情况，将事件类型及论元角色组合，进而论元识别转化为实体识别任务，以此识别出事件中存在的所有论元；

事件的划分由图的构建完成，事件中的每一个论元看作图上的一个节点，此节点拥有事件类型、论元角色和位置下标相关信息，对于同一个事件中的任意两个论元之间存在关联，则在图上连上一条边使之成为相邻节点；如果两个论元从未出现在同一事件中，则对应的节点没有边，即图上不相邻；对于图上存在关联的两个节点，即同一个事件中的两个论元，定义Score_e(s_h,s_t,p,o_h,o_t)＝S(s_h,s_t)+S(o_h,o_t)+S(s_h,o_h|p)+S(s_t,o_t|p)作为两个节点存在关联的打分函数；

其中，S(s_h,s_t)与S(o_h,o_t)分别用来识别对应的节点，S(s_h,o_h|p)与S(s_t,o_t|p)分别用来匹配关系为p的首token位置与尾token位置特征对；s_h,o_h为两个论元的首token位置，s_t,o_t为两个论元的尾token位置，p为论元关系，这里仅有一种关联关系；

图搜索用于事件集合的识别，事件集合的识别采用改进的基于递归搜索的算法求解，具体实现如下：

(1)遍历图中的任意一对节点，若所有节点对都存在关联边，则该图所有节点构成一个事件，返回；若存在没有关联边的一对节点，执行步骤(2)；

(2)对于不存在关联边的一对节点，分别遍历找出其所有相邻节点构成子图，对每个子图分别执行步骤(1)；

(3)对得到的所有子图集合去重，得到最终的事件集合。

第二方面，本发明提供了文本抽取任务中的事件分割抽取系统，包括：

分割标注的样本数据集建立模块：对每篇文档中的若干事件进行首尾标注，生成分割标注的样本数据集；

基于预训练模型的神经网络分割算法模型模块：搭建基于预训练模型的神经网络分割算法模型，并对步骤1得到的分割标注的样本数据集进行训练；利用训练后的所述分割算法模型，对外部测试集进行事件的分割，得到事件分割结果；

所述基于预训练模型的神经网络分割算法模型实现如下：

抽取标注的样本数据集建立模块：根据事件分割结果中已完成分割的事件，对组成事件的元素进行标注，生成抽取标注的样本数据集；

基于预训练模型的神经网络抽取算法模型模块：搭建基于预训练模型的神经网络抽取算法模型，并对得到的抽取标注的样本数据集进行训练；利用训练后的所述抽取算法模型，对外部测试集进行事件元素的抽取，得到文本中的事件抽取结果。

第三方面，本发明还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述文本抽取任务中的事件分割抽取方法。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本抽取任务中的事件分割抽取方法。

本发明与现有技术相比的优点在于：

(1)本发明中模型在进行事件抽取之前先进行事件分割，将粗粒度数据转化为细粒度数据，进而使得抽取模型一次处理较少的事件数目，避免抽取模型解码过于复杂，相比其他现有的一次性处理多事件文本的方法能大大提升文本事件抽取的正确率，减少抽取错误。

(2)本发明分割模型中采用了基于Span片段的得分函数，并使用了相对位置编码Q，相比于绝对位置编码，更能扩展序列长度，同时针对损失函数，引入事件集合得分与非事件集合得分，能够更好的解决类别不平衡问题。

(3)本发明抽取模型中采用了事件划分与图搜索的方法，同时引入了判断论元是否同属一个事件的得分函数，采用基于递归的方法求解事件集合。相比于其他方法，我们的模型解码简单易实施，且效率较高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种文本抽取任务中的事件分割抽取方法的流程图；

图2为本发明实施例提供的图搜索结构示例图；

图3为本发明实施例提供的分割抽取方法实验数据。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种文本抽取任务中的事件分割抽取方法，如图1所示，其主要包括如下步骤：

步骤1、本发明实施例中，对每篇文档中的若干事件进行首尾标注，生成分割标注的样本数据集；所述首尾标注采用Span片段的标注策略；

步骤2、本发明实施例中，搭建基于预训练模型的神经网络分割算法模型，并对步骤1得到的分割标注的样本数据集进行训练；

(1)本发明实施例中，所述事件分割框架为自然语言处理领域一种主流的Transformer+全局指针解码的网络框架。在特征提取部分，使用中文预训练模型进行token-level的特征表征后得到向量序列[h₁,h₂,…,h_i]，对向量序列[h₁,h₂,…,h_i]进行线性变换，得到变换结果，即向量序列[q₁,q₂,…,q_i]和[k₁,k₂,…,k_i]，其中线性变换公式：q_i＝W_qh_i+b_q和k_i＝W_kh_i+b_k，将q_i和k_i作为识别事件位置的向量序列，i的序列取值范围为1-n，W_q，W_k为权重系数，b_q，b_k为偏置项；

(2)本发明实施例中，基于向量序列，采用如下公式

相对位置编码；

(3)本发明实施例中，采用改进的多标签分类损失函数，得到最终的优化目标loss为:

NE＝Ω-E

Ω＝{(i,j)|1≤i≤j≤n}

E＝{(i,j)|Span[i,j]is a event}。

步骤3、本发明实施例中，利用训练后的所述分割算法模型，对外部测试集进行事件的分割，得到事件分割结果；

本发明实施例中，搭建Transformer+全局指针解码的网络框架，按照常规方式选定训练参数与策略，并将步骤1中构造好的数据集作为训练数据，基于最终的优化目标对其进行训练。利用训练好的模型，对外部测试集进行事件分割，得到事件分割结果。

步骤4、本发明实施例中，根据事件分割结果中已完成分割的事件，对组成事件的元素进行标注，生成抽取标注的样本数据集；

步骤5、本发明实施例中，搭建基于预训练模型的神经网络抽取算法模型，将事件抽取任务转换成为论元识别，事件划分以及图搜索三个子任务，并对步骤4得到的抽取标注的样本数据集进行训练；

本发明实施例中，将触发词作为事件的一个论元角色，以此来统一事件中有无触发词的情况。在论元识别阶段，将事件类型及论元角色组合，进而转化为实体识别任务，以此尽可能全的识别出事件中存在的所有论元。

本发明实施例中，事件的划分主要由图的构建完成的。事件中的每一个论元可以看作图上的一个节点，此节点拥有事件类型、论元角色、位置下标等相关信息，对于同一个事件中的任意两个论元之间存在关联，则可以在图上连上一条边使之成为相邻节点。如果两个论元从未出现在同一事件中，那么对应的节点则没有边(图上不相邻)。

本发明实施例中，对于图上存在关联的两个节点(同一个事件中的两个论元)，定义Score_e(s_h,s_t,p,o_h,o_t)＝S(s_h,s_t)+S(o_h,o_t)+S(s_h,o_h|p)+S(s_t,o_t|p)作为两个节点存在关联的打分函数。

本发明实施例中，如图2所示，使用了基于递归搜索的算法求解图中的事件集合。

(3)对得到的所有子图集合去重，得到最终的事件集合。

步骤6、本发明实施例中，利用训练后的所述抽取算法模型，对外部测试集进行事件元素的抽取，得到文本中的事件抽取结果。

为了说明本发明实施例上述方案的效果，下面结合具体示例进行说明。

如图3所示，本示例采用了企业金融公告领域的数据集进行训练验证测试，平均一个样本存在7个事件，每个事件中均存在论元角色与事件论元一对多的情况。在事件分割算法中，其正确率可达0.98，说明事件分割模型在事件边界识别方面有着较好的识别能力。在事件抽取算法中，为了对比样本中的数目对事件抽取带来的影响，在基线中引入不进行事件分割的数据集进行。实验对比基线方法与分割抽取结合算法，分别展示F1值，准确率(Precision)与召回率(Recall)。实验结果显示，引入事件分割算法后，文档级事件抽取正确率有明显提升，F1值可达0.90，说明本发明在多事件且事件交叉较少的样本中有着明显的效果。

总之，本发明采用Span片段的数据分割标注策略，搭建基于预训练模型的神经网络分割算法模型，使网络能够学习到事件的首尾token位置，进行事件的分割，以此减少抽取模型单次处理事件数目；搭建基于预训练模型的神经网络抽取算法模型，将事件抽取任务转换成为论元识别，事件划分及图搜索三个子任务。上述方法能够避免抽取模型解码过于复杂，提升文本事件抽取的正确率，减少抽取错误。此外，该方法简单易实施，抽取效率高，并且理论上不存在传统自回归模型的曝光偏差问题。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种文本抽取任务中的事件分割抽取方法，其特征在于，包括以下步骤：

步骤1：对每篇文档中的若干事件进行首尾标注，生成分割标注的样本数据集；

2.根据权利要求1所述的文本抽取任务中的事件分割抽取方法，其特征在于：所述步骤1中：所述首尾标注采用Span片段的标注策略；

3.根据权利要求1所述的文本抽取任务中的事件分割抽取方法，其特征在于：所述步骤2中：基于预训练模型的神经网络分割算法模型实现如下：

(1)在预训练模型中的特征提取部分，使用中文预训练模型进行token-level的特征表征后得到向量序列[h₁，h₂，...，h_i]，对向量序列[h₁，h₂，...，h_i]进行线性变换，得到变换结果，即向量序列[q₁，q₂，...，q_i]和[k₁，k₂，...，k_i]，其中线性变换公式：q_i＝W_qh_i+b_q和k_i＝W_kh_i+b_k，将q_i和k_i作为识别事件位置的向量序列，i的序列取值范围为1-n，W_q，W_k为权重系数，b_q，b_k为偏置项；

(2)基于向量序列，采用如下公式

计算从i到j的事件得分，i，j均为事件位置下标，1≤i≤j≤n；Q为位置编码，Q满足

相对位置编码；

NE＝Ω-E

Ω＝{(i，j)|1≤i≤j≤n}

E＝{(i，j)|Span[i，j]is a event}。

4.根据权利要求1所述的文本抽取任务中的事件分割抽取方法，其特征在于：所述步骤5中，所述基于预训练模型的神经网络抽取算法模型实现如下：

事件的划分由图的构建完成，事件中的每一个论元看作图上的一个节点，此节点拥有事件类型、论元角色和位置下标相关信息，对于同一个事件中的任意两个论元，在图上连上一条边使之成为相邻节点；如果两个论元从未出现在同一事件中，则对应的节点没有边，即图上不相邻；对于图上存在关联的两个节点，即同一个事件中的两个论元，定义Score_e(s_h，s_t，p，o_h，o_t)＝S(s_h，s_t)+S(o_h，o_t)+S(s_h，o_h|p)+S(s_t，o_t|p)作为两个节点存在关联的打分函数；

其中，S(s_h，s_t)与S(o_h，o_t)分别用来识别对应的节点，S(s_h，o_h|p)与S(s_t，o_t|p)分别用来匹配关系为p的首token位置与尾token位置特征对；s_h，o_h为两个论元的首token位置，s_t，o_t为两个论元的尾token位置，p为论元关系，这里仅有一种关联关系；

图搜索用于事件集合的识别时，采用改进的基于递归搜索的算法实现。

5.根据权利要求4所述的文本抽取任务中的事件分割抽取方法，其特征在于：所述事件集合的识别采用改进的基于递归搜索的算法求解，具体实现如下：

(3)对得到的所有子图集合去重，得到最终的事件集合。

6.一种实现权利要求1-5任意之一所述的文本抽取任务中的事件分割抽取方法的系统，其特征在于，包括：

所述基于预训练模型的神经网络抽取算法模型实现如下：

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。