CN111694924B

CN111694924B - 一种事件抽取方法和系统

Info

Publication number: CN111694924B
Application number: CN202010551486.3A
Authority: CN
Inventors: 孔小飞; 王晨; 程栋梁; 刘海峰
Original assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd
Current assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-05-26
Anticipated expiration: 2040-06-17
Also published as: CN111694924A

Abstract

本发明提出一种事件抽取方法，包括获取原始语料，对句子中的要素以[标签‑要素]的形式来进行标注，将标注的语料划分为训练集和测试集，预训练语言模型将训练集映射成向量，得到词嵌入向量，将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数，利用测试集对事件抽取模型评估，最终得到事件抽取模型，多次调整训练集和测试集结构，选取评估结果最好的事件抽取模型作为最佳模型，将新的原始语料输入至最佳模型，得到事件抽取的结果；本发明提出的事件抽取方法属于监督的神经网络抽取方法，结合本领域的细粒度语境化词向量，更符合专业领域事件抽取的场景。

Description

一种事件抽取方法和系统

技术领域

本发明属于事件抽取领域，特别涉及一种事件抽取方法和系统。

背景技术

事件抽取是从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来，这样便能从海量的自然文本中抽取事件，目前基于变压器故障事件抽取的研究还比较少，但是对于变压器大量的故障事件记录和经验的有效利用是实现变压器故障智能诊断和推理的重要途径。

现有的事件抽取的方法有基于模式匹配和基于机器学习的方法。其中专业领域的模式匹配需要定义大量的模板进行事件的识别和抽取；基于传统机器学习的方法一般将事件抽取问题转化为分类问题，基于短语或者句子层级的信息。通过对文本信息进行分句、分词、实体识别、句法和依存关系，利用自然语言处理的工具提取候选词的上下文的词义特征和语义特征，并构建特征向量，作为分类器的输入，运用一个分类器来预测事件发生的触发词，并根据触发词类型，判断该事件所属类型。

基于模式匹配的事件抽取方法，基于一定的模式(上下文环境)，将待抽取的句子与已有的模板进行匹配，其中模式的构建需要领域的专家知识，进行人工建立，人力、时间成本较高，并且移植性较差，从一个领域移植到另一个领域相当于重新建立；基于机器学习的事件抽取的方法，一是将事件抽取分为实体提取和事件判别两个阶段，命名实体识别的误差会影响事件的判别，会带来累计误差；二是对于具体的领域，往往需要构建大量的人工特征，特征选择的过程代价是很大的，随着模型复杂性的提高，可维护性会变得越来越差。

发明内容

针对上述问题，本发明提出一种事件抽取方法，包括：

获取原始语料：以待抽取内容作为原始语料；

数据标注：筛选包含事件的句子，对句子中的要素以[标签-要素]的形式来进行标注；

数据集分配：将标注的语料划分为训练集和测试集；

预训练：预训练语言模型将训练集映射成向量，得到词嵌入向量；

构建事件抽取模型：将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数；

评估：利用测试集对事件抽取模型评估，若评估成绩低于预定目标，重复所述构建事件抽取模型步骤，若评估成绩达到预定目标，终止所述构建事件抽取模型步骤，得到事件抽取模型；

多次调整训练集和测试集结构，重复所述预训练、所述构建事件抽取模型、所述评估步骤，得到多个事件抽取模型，选取评估结果最好的事件抽取模型作为最佳模型；

事件抽取：将新的原始语料输入至最佳模型，最佳模型输出新的原始语料对应的标签，基于标签抽取出格式化的事件数据，得到事件抽取的结果。

优选地，所述数据标注步骤之前还包括：

对原始语料进行清洗。

优选地，所述对句子中的要素以[标签-要素]的形式来进行标注具体为：

标签包括B-要素开始、M-要素内部、E-要素结尾和S-单个要素，句子中的其他部分标记为“O”。

优选地，所述神经网络模型包括具有超长记忆的变压器网络+条件随机场；

所述将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数，具体包括：

将词嵌入向量输入具有超长记忆的变压器网络，具有超长记忆的变压器网络输出特征向量，基于特征向量获取状态特征概率，选取状态特征概率最大值对应的标签；

将状态特征概率最大值对应的标签输入条件随机场，条件随机场输出转移概率矩阵，基于转移概率矩阵获取序列标签信息，基于序列标签信息建立损失函数。

优选地，所述具有超长记忆的变压器网络包括：

hⁿ _τ＝R^L*d为第τ段分段产生的第n层隐层，其中，h⁰ _τ为初始化的词嵌入向量，L为分段的长度，d为隐层的维度，τ为分段的索引，定义如下具有N层的具有超长记忆的变压器网络的单个Attention Head(n＝1，...，N)，最后将所有Attention Head得到的结果进行拼接：

MultiHead＝Concat(head₁，…head_i…head_h)W₀

Concat是矩阵拼接函数；head_i是第i个head的输出结果，h是head的个数；W₀是输出的映射参数矩阵；

head计算过程：

式中SG表示停止计算梯度，

表示将/>

和/>

在长度维度上进行连接，/>

代表上一分段的隐藏状态，/>

代表当前分段的隐藏状态，/>

代表的就是扩展的上下文表示，对两个隐向量沿着长度方向进行拼接，拼接之后的维度为2L x d；

式中对应W计算注意力所需的q，k，v的转化矩阵，q用于查询当前位置，k用于提供相关标签，v用于提供相关位置的值，k，v计算使用扩展上下文的表示，长度为2L，k和v使用了包括上个序列信息的隐藏层，查询q只与当前序列相关；

为生成的基于内容的键向量，/>

分别为q，v的映射矩阵，/>

指的是矩阵的转置；

式中是计算q_τ，i和K_τ，j在第τ段分段的注意力得分，其中四个部分的作用依次分别为j的内容相对于i的影响，i与j的距离对于i的影响，j的内容相对于整体的影响，i与j的距离对于整体的影响，

为生成的基于位置的键向量；

其中R_i-j的计算方式如下：

其中，k∈[0，1，…，d]，i-j∈[0，1，…，M+L-1]，a∈[0，d/2]，R_i-j仅在隐层传递中进行计算，初始化的时候并不进行计算；L为分段序列的长度，M为上述

的长度，u，v为可训练的参数；

上式是对注意力得分进行mask操作，将先通过softmax函数对注意力得分进行归一化，softmax函数如下：

其中，mask操作是将补全的部分标记出来，防止影响注意力的计算；

式中进行归一化操作，先对注意力分数进行残差层的计算，再加上n-1层隐层的结果，再进行LayerNorm计算得到结果；

其中，

u为x的均值，σ为方差，g和b为需要拟合的参数；

表示经历过两次线性变换和ReLU激活，公式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

式中W₁、W₂、b₁、b₂为可训练参数，最后经历一次线性变换和softmax操作，变换为每个汉字映射到标签的状态特征概率。

优选地，所述条件随机场输出转移概率矩阵，基于转移概率矩阵获取序列标签信息，基于序列标签信息建立损失函数包括：

设定标注的语料为：

x_i表示原始语料中的汉字，y_i表示标签；

/>

为具有超长记忆的变压器网络的输出，/>

为状态特征概率，

为转移概率矩阵；

对于目标：学习出一组条件概率分布模型：

找到θ，使得

为损失函数。

优选地，利用测试集对事件抽取模型评估的评估指标包括F-score，F-score公式如下：

其中，TP：预测为正例，实际为正例；

FP：预测为正例，实际为负例；

FN：预测为负例，实际为正例。

优选地，训练集和测试集中增加不包含事件的语料。

本发明还提出了一种事件抽取系统，包括：

语料获取单元，用于获取原始语料，以待抽取内容作为原始语料；

标注单元，用于数据标注，筛选包含事件的句子，对句子中的要素以[标签-要素]的形式来进行标注；

分配单元，用于数据集分配，将标注的语料划分为训练集和测试集；

预训练单元，用于预训练语言模型将训练集映射成向量，得到词嵌入向量；

神经网络单元，用于构建事件抽取模型，将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数；

评估单元，用于利用测试集对事件抽取模型评估，若评估成绩低于预定目标，重复所述构建事件抽取模型步骤，若评估成绩达到预定目标，终止所述构建事件抽取模型步骤，得到事件抽取模型；

事件抽取单元，用于将新的原始语料输入至最佳模型，输出新的原始语料对应的序列标签信息，基于序列标签信息抽取出格式化的事件数据，得到事件抽取的结果。

本发明的事件抽取方法和系统，属于监督的神经网络抽取方法，结合本领域的细粒度语境化词向量，更符合专业领域事件抽取的场景，利用语境化的词向量输入和神经网络的训练，得到可以直接进行事件抽取的模型，形成端到端的网络，避免错误传播，基于本领域的语境化词向量，可以针对性的提高事件抽取模型的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的事件抽取方法的流程图；

图2示出了根据本发明实施例采用具有超长记忆的变压器网络(Transformer-XL)+条件随机场(CRF)抽取示意图；

图3示出了根据本发明实施例具有超长记忆的变压器网络(Transformer-XL)的模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提出一种事件抽取方法，一般变压器故障的描述语境相对来说简单一些，利用端到端的深度学习的算法就可以，因此可以应用在变压器故障诊断领域，当然也可以应用在其他领域，不同领域的事件抽取，面对的语料的语境不一样。参照图1，事件抽取方法具体包括以下几个步骤。

获取原始语料：以待抽取内容作为原始语料，原始语料可以来自专业变压器故障书籍、故障记录文本，获取的语料的呈现方式可能有不同形式，例如图片格式、PDF格式等，需要将其转换为纯文本数据，例如可以采用OCR技术(光学字符识别)将非纯文本数据转换为纯文本数据，再利用程序和手动等办法处理，按照具体的变压器故障案例分为不同的文本进行储存；

数据标注：筛选包含事件的句子，这里的事件在本实施例中即为涉及变压器故障的句子，例如“主变压器油温高”，“铁芯出现间歇性多点接地”，对句子中的要素以[标签-要素]的形式来进行标注，事件要素主要包含“故障现象”、“具体故障设备”、“设备生产公司”等，每个要素获得一个标签；在其他的书籍文献中，[标签-要素]的形式可以表示为[边界位置-要素]。

数据集分配：将标注的语料划分为训练集和测试集；示例性的，可以按照4：1的比例分配训练集(train.txt)和测试集(test.txt)。

预训练：利用已有的大型预训练语言模型进行微调训练，预训练语言模型将训练集中的汉字映射成向量，得到词嵌入向量：E∈R^l*d，以适应变压器故障领域，不同的应用领域使用不同的预训练模型。

构建事件抽取模型：将词嵌入向量输入神经网络模型，神经网络模型输出序列标签信息，基于序列标签信息建立损失函数，通过优化损失函数的值，最终得到训练好的模型。

评估：利用测试集对事件抽取模型评估，若评估成绩低于预定目标，重复所述构建事件抽取模型步骤继续训练，若评估成绩达到预定目标，终止所述构建事件抽取模型步骤，得到事件抽取模型，将这个事件抽取模型保存。

多次调整训练集和测试集结构，就是把训练集(train.txt)和测试集(test.txt)两个文本里面的数据当作一个整体，对数据条数按照4：1的比例重新分配数据集为两个新的训练集(train.txt)和测试集(test.txt)，达到验证模型有效性的目的。重复所述预训练、所述构建事件抽取模型、所述评估步骤，得到多个事件抽取模型，选取评估结果最好的事件抽取模型作为最佳模型。

事件抽取：将待抽取的文本输入训练好的神经网络模型中，待抽取的文本可以是任意变压器相关故障资料，得到文本每一个字符的标注结果。然后把标签对应代表的含义读取出来，形成文本信息，把这些文本信息拼接形成一个文本句子，得到结构化的文本信息，或者单独存储在一个数据结构中。

在利用OCR技术转化为文本的过程中，会出现一定数量的文本、格式错误，需要对纯文本数据进行清洗，具体是过滤掉文本中多余的空格，修正文本中的错误，包括残缺数据、错误数据和重复数据，按照换行符和句号等进行文章句子分段。

本实施例中通过brat标注工具进行事件要素标注，所述对句子中的要素以[标签-要素]的形式来进行标注具体为：标签包括B-要素开始、M-要素内部、E-要素结尾和S-单个要素，句子中的其他部分全部标记为“O”；通过脚本程序处理成训练集和测试集，具体来说，此脚本的输入为brat标注的格式：

T48 guzhangxx 957 968铁芯出现间歇性多点接地

其中T48为事件标号，guzhangxx为事件标签，957，968为事件在原始语料中的首尾索引，输出为标准的训练数据格式：

铁B-guzhangxx

芯M-guzhangxx

出M-guzhangxx

现M-guzhangxx

间M-guzhangxx

歇M-guzhangxx

性M-guzhangxx

多M-guzhangxx

点M-guzhangxx

接M-guzhangxx

地E-guzhangxx

另外，在训练集和测试集中增加不包含事件的语料，增加数据的噪声，利于后期的模型训练和优化。

关于预训练，这个过程可以解释如下：假设已有A训练集，先用A对神经网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的神经网络，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的参数随着B任务的训练进行不断的改变，称为“fine-tuning”，即更好地把参数进行调整使得更适合当前的B任务。

本实施例中，在训练事件抽取模型之前，基于最新的预训练细粒度语境化词向量模型(本模型来源于github)进行微调(微调脚本来源于github)训练，得到一个适用于变压器故障领域的预训练模型；具体地，预训练语言模型将标注的汉字映射成向量，得到词嵌入向量：E∈R^l*d，作为模型的初始化输入到神经网络模型中，比如依次输入“变”，“压”，“器”的词向量，得到三个向量(H_L0，H_L1，H_L2)，将这个向量输入神经网络模型中。

本实施例中选用的神经网络模型是具有超长记忆的变压器网络(Transformer-XL，Transformer-extra long)+条件随机场(CRF)。

如果所述神经网络模型包括具有超长记忆的变压器网络+条件随机场；将预训练得到的词嵌入向量输入具有超长记忆的变压器网络，例如输入“变”，“压”，“器”的词向量，得到三个特征向量(H_L0，H_L1，H_L2)，将特征向量输入具有超长记忆的变压器网络进行编码操作，基于特征向量获取状态特征概率，即要素所能获得所有标签的得分，也即文本序列和标签之间的关系，选取状态特征概率最大值对应的标签，作为条件随机场的输入，条件随机场输出转移概率矩阵，即条件随机场可以学习到标签之间的转移关系，确保不会出现标签“M-guzhangxx”前面有一个“E-guzhangxx”标签，这属于无用序列，经过条件随机场得到最终的标签序列，基于标签序列建立损失函数。

参照图2，图2中w1、w2、w3、w4、w5为五个要素的特征向量，将这五个要素的特征向量分别输入具有超长记忆的变压器网络，基于特征向量获取到五个要素的状态特征概率，分别为：

	B	M	E	S	O
						W1	1.5	0.9	0.01	0.08	0.05
W2	0.2	0.4	0.1	0.11	0.05
						W3	0.09	0.02	0.03	0.08	0.1
W4	0.003	0.002	0.2	0.07	0.05
						W5	0.12	0.2	0.1	0.065	0.5

可知，w1状态特征概率最高的标签为B，w2状态特征概率最高的标签为M，w3状态特征概率最高的标签为O，w4状态特征概率最高的标签为E，w5状态特征概率最高的标签为O，将五个要素各自的状态特征概率最高的标签输入条件随机场，条件随机场根据转移概率矩阵，计算出每个输出的标签序列的得分，因此序列标签为“B-guzhangxx E-guzhangxx O OO”得分为0.9，得分最高，因此最终输出标签的就为上述序列标签。

参照图3，为长度为4的分段的Transformer-XL模型图示，假设上述输入序列分割成两个长度为L的序列：St＝[X_τ-1，1，…X_τ-1，L]和St＝[X_τ，1，…X_τ，L]，注意的是所有的序列都会处理成最长序列的长度，不足的位置会进行补全操作；所述具有超长记忆的变压器网络包括：

hⁿ _τ＝R^L*d为第τ段分段产生的第n层隐层，其中，h⁰ _τ为初始化的词嵌入向量，L为分段的长度，d为隐层的维度，τ为分段的索引，定义如下具有N层的Transformer-XL模型的单个Attention Head(n＝1，...，N)，最后将所有Attention Head得到的结果进行拼接：

MultiHead＝Concat(head₁，…head_i…head_h)W₀

head计算过程：

式中SG表示停止计算梯度(stop-gradient，不再对St的隐向量进行反向传播)，

表示将/>

和/>

在长度维度上进行连接，/>

代表着上一分段的隐藏状态，/>

代表的就是扩展的上下文表示，对两个隐向量沿着长度方向进行拼接，拼接之后的维度为2L xd；

式中对应W计算注意力所需的q，k，v的转化矩阵，q用于查询当前位置，计算跟传统Transfomer一样，仅使用当前的segment(片段)的隐向量，长度仍然为L，k用于提供相关标签，v用于提供相关位置的值，k，v计算使用了扩展上下文的表示，因此长度为2L，所以k和v使用了包括上个序列信息的隐藏层，而查询q只与当前序列相关，

为生成的基于内容的键向量，/>

分别为q，v的映射矩阵，/>

指的是矩阵的转置；

为生成的基于位置的键向量；

其中R_i-j的计算方式如下：

(记忆单元，实际使用中可以进行长度设置，进而实现记忆能力的扩展)的长度，u，v为可训练的参数；

/>

其中，

u为x的均值，σ为方差，g和b为需要拟合的参数；

式中表示经历过两次线性变换和ReLU激活，公式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

相对于传统的Tranformer，本实施例中的Tranformer-XL具有以下优点。

Transformer编码固定长度的上下文(比如512)，如果输入序列的长度小于固定长度可以通过填充的方式来解决，如果序列大于固定长度，常用的做法是将序列切割成多个固定长度片段(segment)，切割的时候并没有考虑句子的自然边界，而是根据固定长度来划分序列，在训练的时候每个segment单独训练，并没有考虑相邻的segment之间的上下文信息，所以存在上下文碎片问题(context fragmentation)。

在预测的时候，会对固定长度的segment做计算，一般取最后一个位置的隐向量作为输出。为了充分利用上下文关系，在做完一次预测之后，就对整个序列向右移动一个位置，再做一次计算，这导致计算效率非常低。

Transformer无法建模超过固定长度的依赖关系，对长文本编码效果差。而在变压器故障事件抽取中，事件的描述往往是长文本形式存在。(常用的LSTM编码器，学习长期依赖的能力更弱，一般只能建模200长度的上下文，并且无法并行训练导致训练速度很慢)。

为了解决上面的上下文分割的问题，应该建模长距离依赖，Transformer-XL提出片段级递归机制(segment-level recurrence mechanism)，引入一个记忆(memory)模块，循环用来建模片段之间的联系，使得长距离依赖的建模成为可能，使得片段之间产生交互，解决上下文碎片化问题。

下述公式

就是实现片段级递归机制的公式。

在Transformer中，为了表示序列中token(字符)的顺序关系，在模型的输入端，对每个token的输入embedding(词嵌入向量)，加一个位置embedding。位置编码embedding采用位置向量公式来生成，或者通过学习得到。在Transformer-XL中，这种方法行不通，每个segment都添加相同的位置编码，多个segments之间无法区分位置关系。Transformer-XL放弃使用绝对位置编码，而是采用相对位置编码。在计算当前位置隐向量的时候，考虑与之依赖token的相对位置关系。具体操作是，在算attention score的时候，只考虑query向量与key向量的相对位置关系，并且将这种相对位置关系，加入到每一层Transformer-XL的attention的计算中，如公式所示：

由于变压器故障事件文本的长度一般会超过Transfomer可以编码(最长为512)的长度，由于上述的Transformer-XL长距离依赖的建模的特性，能够更好的解决Transformer上下文碎片化的问题，并且由于Transformer-XL能够在不需要重新计算的情况下处理新段中的所有元素，显著提高了模型预测的速度。

对神经网络的参数，文本表示的权重利用预训练模型初始化，就是将文本字符映射成连续的向量，Transformer-XL和线性层参数随机初始化；尝试不同的dropout、hidden_dims、学习率、head等参数组合并观察训练结果以得到最优化的参数组合，比如将drop设置为0.5，hidden_dims设置为64，head设置为8等进行训练。

上述神经网络模型均通过条件随机场输出转移概率矩阵，在条件随机场中，设定标注的语料为：

x_i表示原始语料中的汉字，y_i表示标签；

在CRF模型中有这样的假设，即当前输出的标签只和上一级输出的标签以及当前的输入有关，那么，一个是转移概率矩阵，一个是状态特征概率。转移概率矩阵是指前一个输出标签为B的前提下当前输出标签为某个标签比如M的概率大小。而状态特征概率是指当前输入的词为某个词的条件下，当前输出标签为某个标签比如M的概率大小。上面的Transformer-XL的输出的其实是每个汉字映射到标签的状态特征概率，那么得分函数可以表示为：

为具有超长记忆的变压器网络的输出，/>

为状态特征概率，

为转移概率矩阵；

对于目标：学习出一组条件概率分布模型：

找到θ，使得

为损失函数，通过优化损失函数的值，最终得到最优模型。

利用测试集对事件抽取模型评估的评估指标包括F-score，F-score公式如下：

其中，

Precision：准确率；

Recall：召回率；

TP：预测为正例，实际为正例；

FP：预测为正例，实际为负例；

FN：预测为负例，实际为正例。

若F-score低于预定目标，重复所述构建事件抽取模型步骤，若F-score达到预定目标，终止所述构建事件抽取模型步骤，得到事件抽取模型；

本发明的实施例还提出一种事件抽取系统，包括：

事件抽取单元，用于将新的原始语料输入至最佳模型，输出新的原始语料对应的标签，基于标签抽取出格式化的事件数据，得到事件抽取的结果。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。