CN113705218A

CN113705218A - 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置

Info

Publication number: CN113705218A
Application number: CN202111031194.8A
Authority: CN
Inventors: 陈兴蜀; 蒋梦婷; 袁磊; 刘朋; 黄铁脉; 廖志红; 宋可儿; 冯科; 王海舟; 王文贤; 罗永刚
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-11-26
Anticipated expiration: 2041-09-03
Also published as: CN113705218B

Abstract

本发明公开了一种基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置，方法包括以下步骤：首先构建事件元素抽取基础模型，包括基于BERT的信息预学习表示层、字编码嵌入层、BiGRU双向门控循环神经网络层、自注意力层和CRF条件随机场输出层，并将基础模型按功能细化分为事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块；然后分别对事件触发词抽取模型、事件论元抽取模型和事件属性抽取模型进行抽取优化；最后采用训练得到的事件元素抽取模型对测试数据进行事件元素抽取的预测。本发明方法在事件元素抽取任务中表现良好，获得了较高的准确率。

Description

基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置

技术领域

本发明涉及事件抽取技术领域，具体涉及一种基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置。

背景技术

信息抽取技术是把关注的非结构化数据信息从海量文本数据中抽取出来，并转换为结构化的数据。通过信息抽取技术，可以过滤低价值的信息内容，快速获得精准和高质量信息。事件是信息的一种重要表达形式，信息抽取领域的重点研究方向即为事件抽取。该研究中的权威学会ACE(Automatic Content Extraction)对事件抽取作了明确定义，事件抽取要求将文本数据中表征事件信息的非结构化数据转化为结构化、可存储使用的精准知识。

当今社会，在网络新闻媒体上实时推送着各类大大小小的热点事件。面对日益增长的海量互联网信息，快速定位到公众讨论的具体事件变得至关重要。这不仅可以帮助舆情监管人员快速定位到具体事件，了解事件的具体要素，还可以将事件抽取结果提供给其他自然语言处理任务，以进行更深入的分析和应用。因网络和社会因素影响，事件抽取技术研究在国内外研究热度逐年升高。

发明内容

针对上述问题，本发明的目的在于提供一种基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置，事件元素网格化抽取是在事件检测任务的基础上，将模型细化为事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块，各网格模块既联合共享基础模型事件语义信息，又独立优化各自元素的抽取性能。技术方案如下：

一种基于字符嵌入的事件元素网格化抽取方法，包括以下步骤：

步骤1：构建事件元素抽取基础模型；

所述基础模型为字符嵌入神经网络深度学习模型，包括基于BERT的信息预学习表示层、字编码嵌入层、BiGRU双向门控循环神经网络层、自注意力层和CRF条件随机场输出层；其运行步骤如下：

步骤1.1：基于BERT的信息预学习表示层对样本数据上下文语义特征进行预学习，生成突发元事件域的文本表示模型；

步骤1.2：字编码嵌入层利用训练好的BERT语言模型中生成的语义表示向量输入到 BiGRU双向门控循环神经网络层；

步骤1.3：BiGRU双向门控循环神经网络层提取输入序列的上下文依赖的长距离深层特征；

步骤1.4：自注意力层对BiGRU双向门控循环神经网络层学习到的深层特征进行加权变换，以突出文本序列中重点词汇信息；

步骤1.5：CRF条件随机场输出层将触发词提取转化为序列标注任务，以解决传统词向量转化为字向量后上下文标注信息问题；

将所述基础模型细化为事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块；

步骤2：对事件触发词抽取模型进行抽取优化：从一个事件句抽取一个主事件触发词作为事件触发词，多余事件触发词作外部特征，辅助表征主事件；将标注数据中的所有事件触发词作为知识库，作为事件触发词抽取的先验特征；抽取句子中与知识库内事件触发词匹配的触发词，并标注出来，与句子BERT语义编码的输出的字符嵌入向量拼接；并将事件类型向量拼接到字符嵌入向量中；事件触发词抽取任务的目标向量由事件触发词的抽取结果表示，对应事件触发词的标注结果；

步骤3：对事件论元抽取模型进行抽取优化：在原文本BERT语义特征之上，将文本中所有字符到事件触发词的相对距离作为文本结构特征，事件触发词本身的相对距离为0；并将事件主体与客体联合，事件时间与地点联合，采用两个独立的模型进行提取；事件论元抽取任务的目标向量对应事件论元的抽取结果标注；

步骤4：对事件属性抽取模型进行抽取优化：定义事件属性为事件时态和事件极性，模型输出转变为多分类问题，将所述基础模型中CRF条件随机场输出层置换构造两个分类器；将事件触发词及左右两端进行动态池化获得的特征作为全局特征，与句子BERT语义编码的输出的字符嵌入向量拼接，并采用十折交叉验证方法进行优化；

步骤5：采用步骤1-步骤4训练得到的事件要素抽取模型对测试数据进行事件元素抽取结果的预测。

进一步的，所述步骤1.3中，BiGRU双向门控循环神经网络层同时包含一个正向的

和一个反向的

正向GRU捕捉0:t的上文特征信息a_t，反向GRU捕捉t:n-1的下文特征信息a′_t，通过拼接所捕获的上下文特征信息，获得句子的上下文信息y_t，如公式(1)-(3)所示：

y_t＝[a_t,a′_t] (3)

式中，x_t表示词序列特征向量；a_t表示正向GRU捕捉0:t的上文特征信息；a′_t表示反向GRU捕捉t:n-1的下文特征信息；y_t表示获得句子的上下文信息；

所述加权变换公式(4)所示：

式中，e_ij表示句子j的特征对句子i的重要性；a表示注意力机制；·表示共享参数的线性变换权重矩阵；y_i和y_j分别表示获得的句子i和句子j的上下文信息。

更进一步的，在事件触发词抽取任务中，假设词w_i的事件触发词类型目标向量为[tri₀,tri₁,tri₂,...,tri_j,...,tri_n]，则tri_j的设置方式如公式(5)所示：

所述步骤3中，在事件论元抽取任务中，假设词w_i的事件论元类型目标向量为[arg₀,arg₁,...,arg_j,...,arg_n]，其中arg_j的设置方式如公式(6)所示：

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所上述的方法。

本发明的有益效果是：本发明利用事件元素抽取基础模型，分别对模型细化的事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块进行抽取优化，各网格模块既联合共享基础模型事件语义信息，又独立优化各自元素的抽取性能，结果表明基于字符嵌入的事件元素网格化抽取模型在事件元素抽取任务中表现良好，在事件元素抽取任务中表现良好，获得了较高的准确率；此外，该模型后续可以开展更多的研究。

附图说明

图1是本发明方法流程示意图。

图2是本发明中建立的事件要素抽取基础模型示意图。

图3是本发明分模块事件论元抽取对比实验结果示意图。

图4是本发明分模块事件属性抽取优化方法对比分析实验结果示意图。

图5是本发明事件元素抽取不同方法对比实验结果。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。一种基于字符嵌入的事件元素网格化抽取方法，包括以下步骤：

步骤1：构建事件元素抽取基础模型；

如图2所示，事件元素抽取基础模型主要包含基于BERT的信息预学习表示层、字编码嵌入层、BiGRU双向门控循环神经网络层、Self-attention自注意力层和CRF条件随机场输出层。

使用BERT模型能够对样本数据上下文语义特征预学习，生成突发元事件域的文本表示模型。再利用训练好的BERT语言模型中生成的语义表示向量输入到BiGRU，利用BiGRU提取输入序列的上下文依赖的长距离深层特征。

其中，BERT语言模型是一个著名的语言模型，是2018年10月由Google AI研究院提出的一种预训练模型。本发明仅使用Bert模型进行语义表示。

BiGRU双向门控循环神经网络层同时包含一个正向的

和一个反向的

正向GRU捕捉0:t的上文特征信息a_t，反向GRU捕捉t:n-1的下文特征信息a′_t，通过拼接所捕获的上下文特征信息，获得句子的上下文信息y_t，如公式1- 3所示。

y_t＝[a_t,a′_t] (3)

Self-attention自注意力层用于对BiGRU学习到的深层特征进行加权变换，突出文本序列中重点词汇信息,如公式4所示。最终使用CRF将触发词提取转化为序列标注任务，解决传统词向量转化为字向量后上下文标注信息。

步骤2：对事件触发词抽取模型进行抽取优化；

一个事件描述句中可能存在多个事件触发词。在事件元素的抽取过程中，不仅要完成事件元素的抽取，还必须使事件元素和事件触发词对应。同时，一个事件描述句中信息元素有限，多个事件中存在主次关系。为了抽取出主要关注事件和更丰富的事件元素，一个事件句抽取一个主事件触发词作为事件触发词，多余事件触发词作外部特征，辅助表征主事件。将标注数据中的所有事件触发词作为知识库，类似于远程监督的方式，作为事件触发词抽取的先验特征。抽取句子中与知识库内事件触发词匹配的触发词标注出来，与句子BERT语义编码的输出的字符嵌入向量拼接。

另外，事件元素的组成和事件的类型有很大的关系，如“突袭”等涉恐涉爆事件，由触发词的含义可知是两方发生冲突，一般在触发词的邻近位置会有冲突的双方；“地震”等重大灾情事件，由触发词的含义可知是某处有灾情表述，那么触发词邻近位置出现地点要素的可能性会很大。因此，事件元素抽取中事件类型具有重要语义线索，事件类型向量拼接到字符嵌入向量中。

在事件触发词抽取任务中，目标向量是事件触发词的抽取结果表示，目标向量对应了事件触发词的标注结果。如表1所示，三种事件触发词标签长度，BIO标注模式分别是“B-Trigger”， “I-Trigger”和“Other”。

表1事件触发词标注标记于含义

假设词w_i的事件触发词类型目标向量为[tri₀,tri₁,tri₂]，其中tri_j的设置方式如公式(1) 所示：

步骤3：对事件论元抽取模型进行抽取优化；

事件论元中的事件主体、事件客体、事件时间和事件地点四个元素在语义结构上受到事件触发词的重要影响。为了获得事件论元元素在语句语义结构上的潜在特征，在原文本BERT 语义特征之上，将文本中所有字符到事件触发词的相对距离作为文本结构特征，事件触发词本身的相对距离为0。并将事件主体与客体联合，事件时间与地点联合，采用两个独立的模型进行提取。

在事件论元抽取任务中，目标向量对应了事件论元的抽取结果标注。各个事件元素标签类型及其含义如表2所示，九种事件触发词标签长度，BIO标注模式分别是“B-Subject”， “I-Subject”，“B-Object”，“I-Object”，“B-Time”，“I-Time”，“B-Location”，“I-Location”和 “Other”。

表2事件论元标注及含义

假设词w_i的事件论元类型目标向量为[arg₀,arg₁,...,arg_j,...,arg₈]，其中arg_j的设置方式如公式(2)所示：

在事件论元抽取中，事件主体、事件客体、事件时间和事件地点元素分布差距较大，一个模型会导致此事件时间和事件地点两元素抽取效果较差。为了提升事件论元抽取中各事件元素的抽取效果，表3所示为是否采用分模块进行事件论元抽取的对比实验结果。

表3分模块事件论元抽取对比实验结果

Sub&Obj和Tim&Loc表示将四个事件元素拆分为两个事件论元对，独立的训练两个模型，进行事件论元的抽取。由图1可知，分模块进行事件论元的抽取，能够解决数据中论元分布不均的问题，有效提升论元抽取效果。

步骤4：对事件属性抽取模型进行抽取优化；

定义事件属性分为事件时态和事件极性，事件时态分为“过去”、“现在”、“将来”和“其他”，事件极性分为“肯定”、“否定”和“可能”。模型输出转变为多分类问题，所将基础模型CRF输出层置换构造两个分类器。分类器激活使用softmax多分类函数，损失函数为CrossEntropyLoss。

表征事件时态和事件极性的词语大多存在事件触发词附近。相比与利用文本全局特征，设置事件触发词附近的池化窗口，提取相关的紧密局部特征，更有利于事件属性的抽取。采用将事件触发词及左右两端进行动态池化获得的特征作为全局特征，与句子BERT语义编码的输出的字符嵌入向量拼接。此外，为了提升模型泛化性能，考虑采用十折交叉验证方法进行优化。

事件属性优化抽取中，加入了事件触发词左右动态池化特征和十折交叉验证两种优化方法。为了验证上述事件属性元素抽取模型中所在采用的优化方法的有效性，对比分析实验结果如表4所示。

表4事件属性抽取优化方法对比分析实验结果

由图4可知，相比于基础模型无优化的情况，添加触发词池化特征或者进行十折交叉验证都能提高事件属性的抽取效果；同时添加触发词池化特征和进行十折交叉验证能大幅度提升事件属性的抽取性能。经过分析，事件触发词左右动态池化特征利用触发词与事件属性潜在关系，有利于提升事件属性元素的抽取性能；十折交叉验证可以在一定程度上减小过拟合，在有限的数据中获取尽可能多的有效信息，缓解数据中元素分布不均的问题，提升模型的泛化能力。

步骤5：采用步骤1-步骤4训练得到的事件要素抽取模型对测试数据进行事件元素抽取结果的预测。BiGRU-SATT-CRF为本发明提出的基于字符嵌入的事件元素抽取方法，实验结果如表5所示。

表5事件元素抽取不同方法对比实验结果

从图5的实验结果可以看出，基于字符嵌入的神经网络事件元素抽取方法的实验结果均优于其他抽取方法，这说明了基于字符嵌入和分模块优化的神经网络方法在事件元素抽取任务中具有一定的优势。

可将本发明方法编为程序代码，通过计算机刻度存储介质存储该代码，将程序代码传输给处理器，通过处理器执行本发明方法。

本发明利用事件元素抽取基础模型，分别对模型细化的事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块进行抽取优化，构造不同的特征向量和目标向量，结果表明基于字符嵌入的事件元素网格化抽取模型在事件元素抽取任务中表现良好。此外，该模型后续可以开展更多的研究。

Claims

1.一种基于字符嵌入的事件元素网格化抽取方法，其特征在于，包括以下步骤：

步骤1：构建事件元素抽取基础模型；

步骤1.2：字编码嵌入层利用训练好的BERT语言模型中生成的语义表示向量输入到BiGRU双向门控循环神经网络层；

步骤1.3：BiGRU双向门控循环神经网络层提取输入序列的上下文依赖的长距离深层特征；步骤1.4：自注意力层对BiGRU双向门控循环神经网络层学习到的深层特征进行加权变换，以突出文本序列中重点词汇信息；

将所述基础模型按功能细化分为事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块，以用于后续步骤根据不同模型的功能特性，分别对模型进行优化；

步骤2：对事件触发词抽取模型进行抽取优化：从一个事件句抽取一个主事件触发词作为事件触发词，多余事件触发词作外部特征，辅助表征主事件；将标注数据中的所有事件触发词作为知识库，作为事件触发词抽取的先验特征；抽取句子中与知识库内事件触发词匹配的触发词，并标注出来，与根据句子BERT语义表示模型获得的字符嵌入向量拼接；并将事件类型向量拼接到字符嵌入向量中；事件触发词抽取任务的目标向量由事件触发词的抽取结果表示，对应事件触发词的标注结果；

步骤4：对事件属性抽取模型进行抽取优化：定义事件属性为事件时态和事件极性，模型输出转变为多分类问题，将所述基础模型中CRF条件随机场输出层置换构造两个分类器；将事件触发词及左右两端进行动态池化获得的特征作为全局特征，与根据句子BERT语义表示模型获得的字符嵌入向量拼接，并采用十折交叉验证方法进行优化；

2.根据权利要求1所述的基于字符嵌入的事件元素网格化抽取方法，其特征在于，所述步骤1.3中，BiGRU双向门控循环神经网络层同时包含一个正向的

和一个反向的

所述加权变换公式(4)所示：

式中，e_ij表示句子j的特征对句子i的重要性；a表示注意力机制；W表示共享参数的线性变换权重矩阵；y_i和y_j分别表示获得的句子i和句子j的上下文信息。

3.根据权利要求1所述的基于字符嵌入的事件元素网格化抽取方法，其特征在于，所述步骤2中，在事件触发词抽取任务中，假设词w_i的事件触发词类型目标向量为[tri₀,tri₁,tri₂,...,tri_j,...,tri_n]，则tri_j的设置方式如公式(5)所示：

4.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。

5.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至3任一项中所述的方法。