CN116562286A

CN116562286A - 一种基于混合图注意力的智能配置事件抽取方法

Info

Publication number: CN116562286A
Application number: CN202310500876.1A
Authority: CN
Inventors: 崔鸿雁; 李元鑫
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-08-08

Abstract

本发明公开了一种基于混合图注意力的智能配置事件抽取方法，具体分为事件类型分类和事件元素抽取两个部分，包括以下步骤：S1：事件类型分类，采用BERT预训练模型进行多标签分类得到事件类型；S2：事件元素抽取，基于获取的事件类型利用BERT和BiLSTM获取词向量嵌入，同时构建文本共现图和句法依存图，利用图注意力网络进行特征聚合，最后利用条件随机场得到预测标签序列。本发明检测智能配置事件文本中是否存在相应的事件类型，获取事件元素和触发词，将非结构化文本以结构化形式呈现。

Description

一种基于混合图注意力的智能配置事件抽取方法

技术领域

本发明涉及智能配置领域事件提取技术领域，尤其涉及基于混合图注意力的智能配置事件抽取方法。

背景技术

事件抽取可以从这些非结构化的案例文本中识别和提取出事件元素，并组织成结构化的信息元组，方便后续的配置分析，提高智能配置的效率。

智能配置事件文本中可能存在多个互相关联的事件，且涉及专业名词较多，随着信息化时代来临，智能配置需求也变得越来越频繁、复杂，网络规模不断扩大，管理难度也日益增加，因此，人们对提高网络配置效率、提前部署、降低人力和物力消耗提出了更高的要求。因此，事件抽取需要综合考虑语言学知识、深度学习技术和文本分析方法。

然而，智能配置事件实例可以包含多种事件类别，属于多标签文本分类问题，事件元素进行角色分类是细粒度文本分类存在着复杂的领域长词、元素共用、元素间依赖关系现象，为智能配置短文本事件分类带来了挑战，这使得按需服务的短文本语义理解的准确度成为瓶颈问题

针对于现有传统深度学习的事件抽取模型如RNN、LSTM会出现梯度爆炸，无法捕获长距离语义的问题和当前图神经网络没有考虑词级共现关系和句法依存关系的问题，难以实现同时构造文本共现图和句法依存图，难以使用两个独立的图注意力网络更新节点特征，难以使注意力分数可以动态更新，无法利用特征融合来学习不同特征的重要性，从而更好地聚合语料文本的特征信息，对于两个图的不同信息表征，因此，亟需一种基于混合图注意力的智能配置事件抽取方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的基于混合图注意力的智能配置事件抽取方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于混合图注意力的智能配置事件抽取方法，包括以下步骤：

S1：事件类型分类，采用BERT预训练模型进行多标签分类得到事件类型；

S2：事件元素抽取，基于获取的事件类型，利用BERT和BiLSTM获取词向量嵌入，同时构建文本共现图和句法依存图，利用图注意力网络(GAT)进行聚合，最后利用条件随机场(CRF)得到预测标签序列。

进一步地，事件抽取阶段的算法架构包括：基于BERT的嵌入模块、上下文信息编码模块、混合图注意力网络模块和信息融合及预测模块。

进一步地，基于BERT的嵌入模块的具体流程为：

以单字形式作为模型输入，经BERT的双向Transformer得到具有上下文信息的文本向量化表征，得到分词结果后，取BERT的隐藏层最后一层的输出结果，将对应位置的字向量进行相加。

进一步地，BERT模型在输入层将输入转化为三种嵌入，分别为字符嵌入，分隔嵌入和位置嵌入，其中，

因为注意力机制无法捕捉位置，采用位置嵌入来同时表达字词的绝对和相对的位置关系，计算方式如下：

其中，pos代表字符在序列中的位置，PE_(pos,2i)，PE_(pos,2i+1)分别表示字符在偶数和奇数位置时的位置嵌入向量，d_model表示维度，通过正弦曲线的嵌入方式可以通过相对位置学习实体间的位置特征，避免绝对位置的失效。

进一步地，上下文信息编码模块的具体流程为：引入BiLSTM模型对句子进行编码，前向BiLSTM接收BERT输出的字向量序列输入，BiLSTM将上下文中的时序语义向量表示引入到嵌入向量中，从而获得时序信息，BiLSTM拼接前向和后向LSTM，得到双向的语义关系。

进一步地，混合图注意力网络模块的具体流程为：

经过BiLSTM操作后，将BiLSTM模型的输出经过线性层对句法进行分析编码，并构建文本共现图G₁和建立句法依存图G₂；

采用图注意力网络分别对文本共现图G₁和句法依存图G₂进行特征聚合，在每张有向图中，中心节点根据邻居节点的特征，分配权重系数。

进一步地，建立句法依存图的具体流程为：

找寻获取句子中各个成分同时分析成分之间的关系；

在BiLSTM对句子进行编码后，使用DDparser自动化自然语言处理工具生成句法依存关系；

对文本进行分词，通过句法依赖构建词语间的依赖连接弧，建立句法依存图，其中：

通过依存关系，将事件文本句的序列结构转化为图结构G＝(V,E)，作为句子的句法依存同构图，V是节点的集合V＝v₁,v₂,…,v_n，n是句子长度，v_i是单词h_i在图中的节点表示，E是有向边的集合。

进一步地，信息融合及预测模块的具体流程为：

通过GAT网络提取到两个图的节点特征信息不同，将这些特征进行组合，其中，采用的特征融合方法，动态地调整每个特征在融合中所占的比重，以适应不同的数据；

采用CRF模型作为分类层来预测标签，计算每个标记序列的发射分数和转移分数，相加后选择总得分最高的标记序列作为最终的预测结果。

进一步地，采用特征融合方法的用于实现动态地调整每个特征在融合中所占的比重，以适应不同的数据，其具体计算方式为

h＝a*h_G1+(1-a)h_G2

其中，a可以被视为一种自适应的参数，在训练过程中通过不断迭代和调整a的值，模型可以找到最优的特征融合参数，以最大化模型的性能。

相比于现有技术，本发明的有益效果在于：

将智能配置事件的相关非结构化文本，有规律的进行事件抽取，检测目标文本中是否存在相应的事件类别，让散乱无章的文本结构更明确，形成专业知识经验，方便管理人员查看和借鉴，提高文本数据的应用价值，为后续自动化智能配置实施提供帮助；

实现面向专业领域智能配置事件数据集，通过事件抽取实现针对于事件短文本的类别分类和事件元素角色分类，同时解决注意力分数无法动态更新的问题，使用图注意力网络进行聚合，并利用特征融合学习特征的重要性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实现智能配置事件抽取方法的一个实施例流程图；

图2为本发明提出的基于混合图注意力网络的智能配置事件抽取的架构示意图；

图3为本发明实施例中事件类型多标签分类架构示意图；

图4为本发明实施例中实现事件抽取的逻辑示意图；

图5为本发明实施例中注意力网络节点更新流程逻辑图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，为本发明实现智能配置事件抽取方法的一个实施例流程图，包括以下步骤：

步骤101：确定智能配置事件文本训练集、进行数据清洗、数据去重的预处理步骤；

步骤102：将事件文本输入到事件分类模块，得到事件类别向量，其中一个事件包含多种类型；

步骤103：基于预训练模型和双向长短期记忆网络对事件文本进行编码，利用中文分词得到词向量；

步骤104：基于编码后的句子构建句法依存图，网络中每一个节点表示一个词，图中添加反向和自环边；根据句子中的单词间共现关系构建文本共现图；

步骤105：使用图注意力网络更新节点信息，中心节点根据邻居节点的特征，分配权重系数；

步骤106：融合文本共现图和句法依存图的特征信息，通过条件随机场得到预测的触发词和事件元素的最优标签序列。

参照图2-5，基于混合图注意力的智能配置事件抽取方法，包括以下步骤：

如图3所示，通过上述内容，实现事件类型多标签分类架构。

在事件文本分类后，进行事件抽取，在每个类别框架下进行触发词和事件元素的抽取。

其中：

参照图4，事件抽取阶段的算法架构包括：

(1)基于BERT的嵌入模块；

(2)上下文信息编码模块；

(3)混合图注意力网络模块

(4)信息融合及预测模块。

在本申请的具体实施例中，基于BERT的嵌入模块的具体流程为：

由于中文文本无法像英文文本一样天然分词，所以以单字形式作为模型输入，经BERT的双向Transformer得到具有上下文信息的文本向量化表征，得到分词结果后，取BERT的隐藏层最后一层的输出结果，将对应位置的字向量进行相加。

BERT模型在输入层将输入转化为三种嵌入，分别为字符嵌入，分隔嵌入和位置嵌入。因为注意力机制无法捕捉位置关系，所以需要位置嵌入来同时表达字词的绝对和相对的位置关系：

其中pos代表字符在序列中的位置，PE_(pos,2i)，PE_(pos,2i+1)分别表示字符在偶数和奇数位置时的位置嵌入向量，d_model表示维度，通过正弦曲线的嵌入方式可以通过相对位置学习实体间的位置特征，避免绝对位置的失效。

自注意力机制作为BERT中的核心组成成分，获取每个词在词向量序列上下文中的权重和词间关联程度。句向量代表每个字在多句子任务中的句子序号，上述的三个向量相加，再进行微调训练从而适应下游任务。

与英文自动以单词分词不同，中文句子的基本单位是字，需要进行文本分词操作，将一连串的文字切割为有意义的词语。得到分词结果后，取BERT的隐藏层最后一层的输出结果，将对应位置的字向量进行相加。

在本申请的具体实施例中，上下文信息编码模块的具体流程为：引入BiLSTM模型对句子进行编码，前向BiLSTM接收BERT输出的字向量序列输入，BiLSTM将上下文中的时序语义向量表示引入到嵌入向量中，从而获得时序信息，BiLSTM拼接前向和后向LSTM，得到双向的语义关系。

更为具体的，引入BiLSTM模型对句子进行编码，前向BiLSTM接收BERT输出的字向量序列输入，BiLSTM将上下文中的时序语义向量表示引入到嵌入向量中，从而获得时序信息；

BiLSTM拼接前向和后向LSTM，得到双向的语义关系。对于词向量序列{w₁,…,w_i,…,w_n}，BiLSTM层的编码计算方式：

前向训练方式如公式所示：

h_t＝o_t⊙tanh(c_t)

其中，W，b是训练学习到的权重参数，σ指Sigmoid函数，⊙是向量的点乘操作，如公式(3-10)所示，其中[；]表示向量的逐位拼接，将前向LSTM和后向LSTM得到的语义向量表示拼接起来，得到句子编码后含有上下文信息的的特征向量序列h_l＝{h₁,…,h_i,…,h_n}。

在本申请的具体实施例中，混合图注意力网络模块的具体流程为：

更为具体的，经过BiLSTM操作后，句子向量转换成h_l＝{h₁,…,h_i,…,h_n}，将BiLSTM模型的输出经过线性层，得到是权重矩阵参数，既可以是固定值也可以是模型需要学习的参数，为偏置项；

需要进一步说明的是：

参照图5，文本共现图的建立流程为：

构建文本共现图的过程中，将句子中的每个词语看作图中的一个节点，设定固定大小为m的滑动窗口，按照句子顺序从左到右滑动。对于窗口内的中心单词为w_i，若其他单词w_j也在该窗口内，则在w_i和w_j之间建立一条无向边来表示它们之间的共现关系，节点w_i和w_j的边权重为：

其中c_ij表示节点i和j共同出现在滑动窗口的次数。这样计算出来的边权重可以反映出两个节点之间的相关性或者联系紧密程度。

句法依存图的建立流程为：

找到句子中各个成分同时分析成分之间的关系。在BiLSTM对句子进行编码后，使用百度的DDparser自动化自然语言处理工具生成句法依存关系，过程中首先对文本进行分词，通过句法依赖构建词语间的依赖连接弧，建立句法依存图。

通过依存关系，将事件文本句的序列结构转化为图结构G＝(V,E)，作为句子的句法依存同构图，V是节点的集合V＝v₁,v₂,…,v_n，n是句子长度，v_i是单词h_i在图中的节点表示，E是有向边的集合。在v_i到v_j中存在一条有向语法依赖边，从头节点v_i指向依赖节点v_j，计为边(i,j)。句法依存弧是有指向性的，所以信息会沿着箭头方向传递流动；但句法依存信息是双向相关性的表示，所以要添加从依赖节点v_j指向头节点v_i的反向依赖边(j,i)，使信息可以反向传播。特征聚合时，每个节点不仅需要得到依赖节点的特征，也需要要获取自己的特征，我们在图中增加自环边，即(i,i)，设置三种类型的边表示不同的指向关系，总结公式如下：

对于有向边集合E，E₁，E₂，E₃构成三个邻接矩阵A_α，(α＝1,2,3)每个句子构成三个有向图。

进一步实施的：

采用图注意力网络(Graph Attention Network，GAT)分别对文本共现图G₁和句法依存图G₂进行特征聚合。在每张有向图中，中心节点根据邻居节点的特征，分配权重系数。

将文本共现图和句法依存图的邻接矩阵，分别输入到GAT层中，单层的GAT中节点j对节点i的重要性：

其中，W表示所有共享的权重矩阵，a表示一个共享的自注意力机制：R^F'×R^F'→R。上述公式需要将两个节点的特征向量进行拼接操作，需要较高的GPU计算资源。在实际实验中，通过向量加性运算，计算节点v_i到邻居节点v_j的相关系数，其中M∈R^1×F',M'∈R^1×F'，σ是sigmoid函数：

在图结构中使用掩码注意力机制，解决自注意力机制将注意力分配到所有节点中，导致信息丢失的问题。对于目标节点i，只考虑其邻域内的节点j∈N_i，使用softmax函数进行归一化处理：

其中，a是单层前馈神经网络，参数为权重向量使用LeakyReLU作为非线性激活函数计算a：

其中，.T表示转置，||表示向量拼接。每个节点的最终输出特征向量为：

使用多头注意力机制来稳定自注意力学习，提高模型的拟合能力，调用多个W^k相互独立的注意力机制，合并各个W^k输出的结果：

其中，||表示合并拼接操作，是归一化后节点i和邻居节点j之间的注意力系数。最终输出的节点特征/>为了减少输出向量的维度，使用求和操作代替拼接得到/>

将图注意力网络得到的结果做特征融合后输入到CRF层进行元素的抽取。

在本申请的具体实施例中，信息融合及预测模块的具体流程为：

需要具体说明的：

通过GAT网络提取到两个图的节点特征信息不同，需要将这些特征进行组合。文本共现图表示词语间的共现关系，句法依存图则表示句法依赖关系。不同于简单的加权平均等方法来实现合并，本节采用的特征融合方法，可以动态地调整每个特征在融合中所占的比重，以适应不同的数据。

h＝a*h_G1+(1-a)h_G2

本节采用CRF模型作为分类层来预测标签，其主要思想是找出所有序列组合中概率最大的序列，记为全局最优。CRF可以更好地考虑序列中的上下文相关性，并对预测的标签增加了一些约束条件，以保证预测标签的有效性。

具体流程是计算每个标记序列的发射分数和转移分数，相加后选择总得分最高的标记序列作为最终的预测结果，记为最优标记序列

设输出的预测标签序列是y＝{y₁,y₂,…,y_n}，表示第i个词被标注为y_i标签的概率。转移矩阵/>表示标签从y_i转移到y_i+1的概率，转移分数是y_i与输入序列h和输出序列y上下文的依赖关系，计算转移分数的公式为：

将所有可能的序列路径归一化：

表示真实标签值，y_x表示所有可能出现的预测标签序列，对上述公式两边取对数来得到预测的标签序列的似然函数:

在最后的预测中，解码后得分最高的输出序列被作为输出结果:

为了更好的理解本申请的技术方案，以下结合实验设计进一步说明。

1.智能配置事件数据集

本实验的数据集来自华为公司外部公开的智能配置处理案例：

包括约15k条的文本及其所标注的事件元素，2k条验证文本，所包含7种事件类型，每种类型事件的元素角色及说明如表1所示。

表1事件类别与事件元素角色说明

表2事件类别与事件元素角色说明(续上表)

由上述可知，本申请将智能配置事件文本分字，通过BERT预训练模型得到字嵌入，通过双向长短时记忆网络BiLSTM学习词在上下文中的向量表征，基于文本词语间的共现关系构造文本共现图；分析句子中的句法依赖关系，构造句法依存图，通过图注意力网络充分聚合文本中的句法信息，得到词语的嵌入向量，通过特征融合，将两种图结构的特征表征融合到一起，最后使用条件随机场层作为预测模块，生成标记序列预测智能配置事件文本中的词语类别。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于混合图注意力的智能配置事件抽取方法，其特征在于，包括以下步骤：

S2：事件元素抽取，基于所述步骤S1中获取的事件类型，利用BERT和BiLSTM获取词向量嵌入，同时构建文本共现图和句法依存图，利用图注意力网络进行聚合，最后利用条件随机场得到预测标签序列，获取触发词和事件元素。

2.根据权利要求1所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，步骤S1包括：

S101：采用BERT预训练模型，提取CLS位置的向量特征和BERT其他位置的输出；

S102:将S101中所述输出向量通过全连接层，使用Sigmoid作为全连接层的激活函数，把多标签分类转化成多个神经元的二元分类；设置概率阈值，当输出的概率大于该阈值，则认为样本属于该类别；加入dropout层防止过拟合，最后输出类别向量层。

3.根据权利要求1所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，步骤S2包括：基于BERT的嵌入模块、上下文信息编码模块、混合图注意力网络模块和信息融合及预测模块。

4.根据权利要求3所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，基于BERT的嵌入模块的具体流程为：

5.根据权利要求4所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，BERT模型在输入层将输入转化为三种嵌入，分别为字符嵌入，分隔嵌入和位置嵌入，因为注意力机制无法捕捉位置，采用位置嵌入来同时表达字词的绝对和相对的位置关系，计算方式如下：

其中，pos代表字符在序列中的位置，PE_(pos,2i)，PE_(pos,2i+1)分别表示字符在偶数和奇数位置时的位置嵌入向量，d_moidel表示维度，通过正弦曲线的嵌入方式可以通过相对位置学习实体间的位置特征，避免绝对位置的失效。

6.根据权利要求5所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，上下文信息编码模块的具体流程为：引入BiLSTM模型对句子进行编码，前向BiLSTM接收BERT输出的字向量序列输入，BiLSTM将上下文中的时序语义向量表示引入到嵌入向量中，从而获得时序信息，BiLSTM拼接前向和后向LSTM，得到双向的语义关系。

7.根据权利要求6所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，混合图注意力网络模块的具体流程为：

8.根据权利要求7所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，建立句法依存图的具体流程为：

找寻获取句子中各个成分同时分析成分之间的关系；

9.根据权利要求8所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，信息融合及预测模块的具体流程为：

10.根据权利要求9所述的基于混合图注意力的智能配置事件抽取方法，其特征在于，采用特征融合方法的用于实现动态地调整每个特征在融合中所占的比重，以适应不同的数据，其具体计算方式为

h＝a*h_G1+(1-a)h_G2#