CN111382575A

CN111382575A - 一种基于联合标注和实体语义信息的事件抽取方法

Info

Publication number: CN111382575A
Application number: CN202010197606.4A
Authority: CN
Inventors: 刘丹; 吴超; 任志愿; 赵明; 孟金凤
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-07

Abstract

本发明公开了一种基于联合标注和实体语义信息的事件抽取方法，自然语言智能处理技术领域。本发明的事件抽取方法，首先采用BERT模型作为特征提取器；其次，基于字特征输入建模，不进行分词操作，并采用BIO标注，降低触发词识别的错误；再将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。从而使得本发明所提取的文本对象的特征信息更丰富、降低中文文本语料分词的粒度不同所导致的触发词的识别准确率的影响，以及避免因同一事件的事件元素信息可能出现在多个不同的段落或句子对事件抽取的准确性的影响。

Description

一种基于联合标注和实体语义信息的事件抽取方法

技术领域

本发明属于自然语言智能处理技术领域，具体涉及一种基于联合标注和实体语义信息的事件抽取方法。

背景技术

事件抽取任务是识别描述事件信息的文本，从中抽取出事件元素并以结构化的形式呈现出来。事件抽取任务包括事件识别和事件元素抽取两个子任务。事件识别，即识别出文本中由事件触发词引导的事件实例并进行分类；事件元素抽取，即从事件描述句中抽取出事件元素并分类。根据抽取方法，事件抽取分为基于模式匹配的事件抽取和基于机器学习的事件抽取。

在2002年前，事件抽取主要聚焦于模式匹配的方法，但移植性较差。2002年至2013年间，基于建立在统计模型基础上的机器学习的方法成为主流，该方法一般将事件抽取建模成多分类问题，但在特征提取的过程中过分依赖依存句法分析、词性标注等传统的自然语言处理工具，容易造成累计误差。

2013年以来，越来越多的研究者开始转向基于神经网络的事件抽取，利用神经网络来挖掘事件中更深层次的语义信息，不再很大程度上依赖于人工定义的局部或全局特征，提升了事件抽取任务。

目前，事件抽取任务存在的难点在于：

第一、事件抽取过程中不仅要识别出事件触发词和事件类别，还要识别出事件元素和其在事件中的角色，因此需要挖掘出事件描述文本更深层次的特征。

第二、中文文本语料分词的粒度不同对触发词的识别存在一定影响。

第三、同一事件的事件元素信息可能出现在多个不同的段落或句子中。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种基于联合标注和实体语义信息的事件抽取方式，提升对事件的触发词的识别准确率。

本发明的基于联合标注和实体语义信息的事件抽取方法，包括以下步骤：

步骤1：通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句(简称句子)进行实体和事件触发词的抽取处理；

所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层；

在输入层中，对每个句子采用使用BERT(Bidirectional EncoderRepresentations from Transformers)预训练的词向量对句子中的每个词进行初始化，作为联合标注模块的输入；

在隐藏层中，包括前向LSTM(Long Short-Term Memory)层、后向LSTM层和拼接层；

其中，前向LSTM层用于捕获上文特征信息，其输出记为

后向LSTM层用于捕获下文特征信息，其输出记为

拼接层用于将前向LSTM层和后向LSTM层的输出进行拼接，得到最终的隐藏层向量

即事件描述句的上下文特征向量h_t；

本申请从前后两个方向获取句子的语义特征，可以更好的描绘事件描述句的信息。

在输出层中，采用CRF(Conditional random field)标注模型对隐藏层向量

进行字符序列化标注，为句子中的每一个字确定相应的标签；在CRF标注模型中，采用的序列标注机制为BIO标注机制，B表示字段开始，I表示字段中间，O表示其他字段；且句子中的每一个字的标签后设置有类型标识符；用于对句子中的实体和事件触发词的进行类型识别，即词的类型识别)，其中，实体为表征事件的描述词，事件触发词的类型用于表征句子对应的事件类型。

步骤2：将抽取得到的事件描述句的实体和事件触发词进行向量化表示，并传入自注意力机制层，基于自注意力机制层的输出得到实体语义特征向量。

即对于抽取得到的实体和事件触发词组成词序列W＝{w₁,...,w_n-1,w_m}，其中，m是抽取出来的实体和触发词的个数之和，w_j表示实体或触发词，j＝1,2,...,m；

对词序列W进行词向量转换，得到句子向量表示S＝{x₁,x₂,...,x_m}，再传入自注意力层，学习实体和触发词之间的依赖关系，得到实体语义特征向量Y＝{y₁,y₂,...,y_m}。

具体的，基于预设的自注意权重计算方式，将词向量x_j通过自注意力层得到每个词向量的带权重向量化表示

其中，自注意力权重a_j,k的计算公式为：

score函数为注意力打分函数，e表示自然底数，k,j＝1,2,...,m；

步骤3：将实体语义特征向量Y与上下文特征向量h_t拼接后，传入Tree-LSTM层；即将实体的实体语义特征向量中的每个元素y_j与下文特征向量h_t进行拼接，实现对其特征维度的扩展处理。

步骤4：将Tree-LSTM层输出的特征向量作为全连接层的输入；

并对全连接层Maxout的输出采用Softmax分类器对实体进行事件元素分类；

指定不同事件类型包括的事件元素类型，设置事件表示结构；所述事件表示结构包括：事件类型和对应类型的事件元素；

基于每个句子的事件类型，以及抽取的实体及其事件元素类型，得到事件表示，即事件抽取结果；

例如，对类型为突发事件的事件类型，指定其包括的事件元素类型为：时间，地点，对象，伤亡人数，动作；则突发事件的事件表示结构为：<事件类型，时间，地点，对象，伤亡人数，动作>。

步骤5：基于事件相似性对具有相同事件类型的事件整理和融合处理：

将具有相同事件类型的事件表示对应的事件分别记为事件A和事件B；

基于事件A和事件B之间的相似度，将相似度大于或等于相似度阈值的事件聚为一类；并对同一聚簇的事件进行整理和融合处理，包括：删除冗余事件和和缺失信息补全(即对缺失的事件元素进行补全)。

进一步的，步骤5中，事件A和事件B之间的相似度为事件之间的语义相似度、元素相似度和实体共现度的累加和；

其中，事件之间的语义相似度、元素相似度和实体共现度具体为：

(1)事件之间的语义相似度：

将事件A和事件B对应的事件描述句的词向量表示之间的余弦值作为事件之间的相似度；

其中，事件描述句的词向量表示为：对事件描述句中的每个词转换为词向量构成的词向量序列；

(2)事件之间的元素相似度：

基于事件表示结构，统计事件A和事件B之间同类型的事件元素中相同的元素占事件表示结构中的总元素(或者事件A和B包括的事件元素总数)的比例的总和作为事件之间的元素相似度；

(3)事件之间的实体共现度：

基于联合标注模型，分别得到事件A和事件B的实体集合；

统计两个实体集合的实体类型和实体数统计；

根据两个实体集合的共同实体类型数与两个实体结合的实体数总和的比值得到事件A和事件B的实体共现系度；

进一步的，在融合处理时，若同一事件元素类型下的事件元素存在冲突，则选用出现次数多的事件元素；若出现次数相同，则选用粒度高的事件元素。

综上所述，由于采用了上述技术方案，本发明的有益效果是：一方面通过序列标注的方法可以降低错误识别中文触发词的情况，另一方面在大规模非结构化的数据信息中，可以根据事件抽取技术得到句子级的事件信息，并通过事件融合得到事件信息相对完整的篇章级的结构化事件。

附图说明

图1是本具体实施方式的处理过程示意图；

图2是基于联合标注和实体语义特征向量的事件抽取处理过程示意图；

图3是本发明的事件表示结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明的基于联合标注和实体语义信息的事件抽取方法，首先采用BERT模型作为特征提取器，其特征提取能力优于RNN和卷积神经网络CNN，可以更加充分的描述字符级、词级、句子级的特征；其次，基于字特征输入建模，不进行分词操作，并采用BIO标注，降低触发词识别的错误；然后，将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。从而使得本发明所提取的文本对象的特征信息更丰富、降低中文文本语料分词的粒度不同所导致的触发词的识别准确率的影响，以及避免因同一事件的事件元素信息可能出现在多个不同的段落或句子对事件抽取的准确性的影响。除此之外，本发明将实体和事件触发词进行联合标注，引入自注意力机制编码后的实体语义向量，充分学习实体和事件触发词之间的相互依赖关系，完成事件元素抽取任务。

参见图1、图2，本发明首先对数据进行预处理，提取得到事件描述句；然后，基于事件识别模型对采集的事件描述句进行实体和事件触发词的抽取处理；

其中事件识别模型为序列标注的实体和事件触发词联合标注的事件识别模型，即使用BERT模型替换传统模型中的word2vec词嵌入部分，解决word2vec无法区分多义词不同语义的问题；

接着，对识别出的实体、触发词的词向量(编码信息)传入自注意力层，利用自注意力机制充分学习实体和事件触发词之间的依赖关系，编码得到实体语义特征向量；

再将BERT预处理得到的向量传入Bi-LSTM得到的全局特征向量，即上下文特征向量h_t；将h_t和得到的实体语义特征向量结合在一起，传入Tree-LSTM神经网络，捕获语义特征和句子结构特征，缓解BERT模型由于基于字特征输入建模而导致的完整语义表示能力差的不足；

再接着利用softmax作为分类器，完成事件元素角色抽取任务；

最后，对于抽取出的句子级的事件通过计算事件相似度进行同类型事件的事件信息整理和融合。

本发明的事件抽取方法的具体实现过程为：

步骤1：数据预处理：对原始文本进行分句、分词等操作，得到事件描述句；

步骤2：通过基于实体和事件触发词的联合标注模型对采集的每个句子进行实体和事件触发词的抽取处理；

参见图2，所述实体和事件触发词的联合标注模型包括输入层、隐藏层和输出层；

在输入层中，将输入句以字符为单位进行表示s＝{c₁,c₂,...,c_n}，其中，n表示句子中的字符个数，c_i(i＝1,2,...,n)表示句子中第i个字符。

在输入层中，对于句子中的每个词，使用BERT预训练的词向量进行初始化，作为联合标注的模型的输入。BERT采用双向Transformer结构，特征提取能力优于RNN和CNN神经网络，提取句子中的语言学特征，进而可以得到更好的语言学表示。

即本发明中，利用BERT预训练的词向量将输入的句子中的字符c_i映射成低维稠密的字符向量w_i，最终得到句子的向量化表示X＝{w₁,w₂,...,w_n}，其中，w_i表示句子中第i个字符的字符向量。由此，将自然语言组成的文本句子转化为向量X，并将其作为模型的输入；

在隐藏层中，隐藏层为双向长短时记忆网络LSTM。双向LSTM编码层包括前向LSTM层、后向LSTM层和拼接层。

其中，前向LSTM捕获上文特征信息

后向LSTM捕获下文特征信息

最后将前向LSTM向量

和后向LSTM向量

拼接在一起，得到最终的隐藏层向量

其中，x_t表示t时刻双向LSTM神经网络的输入，函数H表示预置的映射函数，

表示t时刻前向输入的权重矩阵，

表示前向上一时刻的权重矩阵、

表示t时刻后向输入的权重矩阵、

表示后向上一时刻的权重矩阵，

表示对应的偏执项；

在输出层中，使用CRF标注模型进行字符序列化标注。对于输入层每一个输入x＝{x₁,x₂...,x_m}，输出层将得到一个预测标签序列y＝{y₁,y₂,...,y_m}。定义预测得分为

其中，

为第j个位置softmax输出为y_j的概率，

为从y_j到y_j+1的转移概率。预测的时候，求出所有可能的y序列对应的得分s，然后取y^*＝argmaxs(x,y)作为预测结果输出。

以突发事件为例，标注的实体类别包括TIME(时间)、PER(人物)、LOC(地点)、ORG(组织)、VALUE(值)、VEH(运输工具)，事件类别包括EAR(地震)、FIRE(火灾)、POISON(食品中毒)、TRAFFIC(交通事故)、ATTACK(恐怖袭击)。

例如，“一辆公交车与小轿车在十字路口相撞”经过联合标注后为“一\O辆\O公\B-VEH交\I-VEH车\I-VEH与\O小\O轿\B-VEH车\I-VEH在\O十\B-LOC字\I-LOC路\I-LOC口\I-LOC相\B-TRAFFIC撞\I-TRAFFIC”。因此，得到交通事故触发词“相撞”，运输工具实体“公交车”、“轿车”，地点实体“十字路口”。

步骤3：获取实体语义特征向量；

将基于步骤1所构建的联合标注模型获取的实体和触发词组成词序列W＝{w₁,...,w_n-1,w_m}，其中，m是抽取出来的实体和触发词的个数之和，w_j(j＝1,2,...,m)表示实体或触发词。将该词序列经词向量生成模型word2vec得到向量表示S＝{x₁,x₂,...,x_m}，并传入自注意力层，得到词序列的最终表示Y＝{y₁,y₂,...,y_m}，即每个词向量x_j(j＝1,2,...,m)通过自注意力层得到每个词向量的带权重向量化表示

其中，自注意力权重a_j,k的计算公式：

score函数是注意力打分函数，采用加性模型，e表示自然底数。通过自注意力机制充分学习实体和触发词之间的关系，有利于判断实体在事件中扮演的角色。

例如：以步骤1中的例子为例，得到词序列{公交车、轿车、十字路口、相撞}，将词序列向量化后，传入自注意力层得到加了权重的向量化表示。

步骤4：将步骤2得到的实体语义特征向量{y₁,y₂,...,y_m}与事件句的上下文特征向量h_t拼接后，传入Tree-LSTM中。

步骤5：将步骤3输出的特征(Tree-LSTM的输出)作为全连接层Maxout的输入，最后利用Softmax分类器对实体进行事件元素分类。

指定不同事件类型包括的事件元素类型，设置事件表示结构；所述事件表示结构包括：事件类型和对应类型的事件元素；从而基于每个句子的事件类型，以及抽取的实体及其事件元素类型，得到事件表示。

对于不同的领域或者实现功能不同，事件的表示方式可能不同。比如将突发事件领域的事件组成六元组形式<事件类型，时间，地点，对象，伤亡人数，动作>，具体结构如图3所示。或者将金融领域的事件表示为<主语，谓语，宾语>三元组的形式。

例如：以步骤1中的例子为例，经过步骤5得到事件的部分元素。事件类型：交通事故，地点：十字路口，对象：公交车、轿车，动作：相撞。

本发明中，所涉及的神经网络的相关网络参数均基于常规的神经网络参数学习方式获取，训练数据为中文突发事件语料库。

例如，本具体实施方式中，从332篇新闻报道中选取252篇作为训练集，40篇作为测试集，剩下的40篇作为验证集。事件抽取的网络的训练评估指标是触发词正确识别且正确分类，实体正确识别且正确分类；事件融合的评估指标是相同的事件正确被融合。

步骤6：将抽取出来的事件通过事件相似度进行事件信息的整理和融合；

由于一个完整的事件信息可能分布在多个事件描述句中，因此需要对抽取得到的事件通过事件相似性进行整理和融合，提升数据质量。即对具有相同类型的事件进行事件元素信息的整理和融合。

本发明中，事件相似度从事件语义相似度、事件元素相似度和实体共现三个方面进行计算：

事件语义相似度方面：事件语义相似度是指两个事件表示的语义向量的余弦值。

事件A对应的事件描述句的向量表示为

事件B对应的事件描述句的向量表示为

通过计算两个向量的余弦值W_A,B来表示两个事件的语义相似性。

事件元素相似性方面：在步骤4得到的结构化事件信息的基础上，通过计算事件A和事件B中同类型元素中相同元素占总元素的比例的总和来表示事件元素相似度，记为

实体共现方面：在步骤1得到实体和事件触发词基础上，通过计算两个事件对应的事件句中实体共现程度来计算关联性。

事件A对应的事件句中实体集合为S_A＝{E_p,E_T,E_L,E_O,E_VA,E_VE}，事件B对应的事件句中实体集合为S_B＝{E_p,E_T,E_L,E_O,E_VA,E_VE}，其中，E_p为人物实体，E_T为时间实体，E_L为地点实体，E_O为组织实体，E_VA为值实体，E_VE为运输工具实体。事件A和事件B的实体共现系数为

n为共同出现在S_A和S_B中的实体个数，N为S_A和S_B中的实体总数。

最后得到事件相似度的计算公式

将相似性高的事件聚为一类，补全事件元素信息，即将sim(A,B)超过预置阈值的事件聚为一类。对于缺失的元素进行补全，比如，事件A缺少时间元素，存在地点元素，而事件B存在时间元素，缺少地点元素，事件A与事件B相似，那么在融合过程中，事件元素的信息就得以补全。对于融合冲突的情况，选用出现次数多的元素。对于出现次数一样的元素，选用粒度高的元素。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于联合标注和实体语义信息的事件抽取方式，其特征在于，包括以下步骤：

步骤1：通过基于实体和事件触发词的联合标注模型对采集的每个事件描述句进行实体和事件触发词的抽取处理；

在输入层中，对事件描述句采用使用BERT预训练的词向量对事件描述句中的每个词进行初始化，作为联合标注模块的输入；

在隐藏层中，包括前向LSTM层、后向LSTM层和拼接层；

其中，前向LSTM层用于捕获上文特征信息，其输出记为

后向LSTM层用于捕获下文特征信息，其输出记为

即事件描述句的上下文特征向量h_t；

在输出层中，采用CRF标注模型对隐藏层向量

进行字符序列化标注，为事件描述句中的每一个字确定相应的标签；且事件描述句中的每一个字的标签后设置有类型标识符，包括实体类型和事件触发词的事件类型；

步骤2：将抽取得到的事件描述句的实体和事件触发词进行向量化表示，并传入自注意力机制层，基于自注意力机制层的输出得到实体语义特征向量；

步骤3：将同一事件描述句的实体语义特征向量与下文特征向量h_t进行拼接，再传入Tree-LSTM层；

步骤4：将Tree-LSTM层输出的特征向量作为全连接层的输入；

基于每个事件描述句的事件类型，以及抽取的实体及其事件元素类型，得到事件描述句的事件表示；

基于事件A和事件B之间的相似度，将相似度大于或等于相似度阈值的事件聚为一类；并对同一聚簇的事件进行整理和融合处理，包括：删除冗余事件和和缺失信息补全。

2.如权利要求1所述的方法，其特征在于，步骤5中，事件A和事件B之间的相似度为事件之间的语义相似度、元素相似度和实体共现度的累加和；

(1)事件之间的语义相似度：

(2)事件之间的元素相似度：

基于事件表示结构，统计事件A和事件B之间同类型的事件元素中相同的元素占事件表示结构中的总元素的比例的总和作为事件之间的元素相似度；

(3)事件之间的实体共现度：

基于联合标注模型，分别得到事件A和事件B的实体集合；

统计两个实体集合的实体类型和实体数统计；

根据两个实体集合的共同实体类型数与两个实体结合的实体数总和的比值得到事件A和事件B的实体共现系度。

3.如权利要求2所述的方法，其特征在于，步骤5中，事件之间的元素相似度为：事件A和事件B之间同类型的事件元素中相同的元素占事件A和B包括的事件元素总数的比值。

4.如权利要求1所述的方法，其特征在于，步骤5中，在融合处理时，若同一事件元素类型下的事件元素存在冲突，则选用出现次数多的事件元素；若出现次数相同，则选用粒度高的事件元素。