CN117271701A

CN117271701A - 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统

Info

Publication number: CN117271701A
Application number: CN202311178825.8A
Authority: CN
Inventors: 高德荃; 李济伟; 丁雪伟; 杨猛; 冯宝; 卞宇翔; 刘超; 邵月; 杜静; 白东霞; 李妍
Original assignee: State Grid Information and Telecommunication Co Ltd; Nari Information and Communication Technology Co
Current assignee: State Grid Information and Telecommunication Co Ltd; Nari Information and Communication Technology Co
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-22

Abstract

本发明公开了一种基于TGGAT和CNN的系统运行异常事件关系抽取方法及系统，获取文本数据，并进行预处理；运用BERT模型处理预处理后的文本数据，生成特征向量矩阵；将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征；将特征向量矩阵输入类型引导图注意网络TGGAT，提取句子的全局特征；将局部特征和全局特征进行拼接，然后通过自注意力得到经过注意力值加权后的表征向量矩阵；使用softmax分类器对加权后的表征向量矩阵进行事件关系分类。通过类型引导图注意网络考虑不同类型依赖关系的不同贡献，捕获长程句法依赖关系同时捕获类型信息，准确捕捉全局事件知识。

Description

一种基于TGGAT和CNN的系统运行异常事件关系抽取方法及系统

技术领域

本发明涉及文本数据识别，具体是涉及一种基于TGGAT和CNN的系统运行异常事件关系抽取方法及系统。

背景技术

事件关系提取是事件知识图谱中的一个重要步骤，它对信息提取、投资策略和问题解答等自然语言处理应用大有裨益。通过捕捉关联关系，相关事件可以相辅相成，充分发挥其价值。

目前，在事件关系提取的任务中，大多数研究集中在提取因果关系和时间关系上。机器学习在提取事件关系的任务中得到了广泛应用。Kruengkrai等人采用多列卷积神经网络处理多个背景知识源，以提取缺乏明确线索表明事件因果关系存在的因果关系。Ning等人结合整数线性规划和常识知识提取时间关系。Hu等人使用预训练的语言模型自适应地聚类化时间关系特征。Jiang等人提出了一种在分类中结合句法树结构的模型。为了提高分类效果，Fan等人提出了一种关系分类模型，利用双线神经网络提取句法信息来完成关系分类任务。人们还提出了处理文档级事件因果关系的不同思路，Trong等人设计了一种强化学习机制来从文档中选择关键上下文。

由于丰富的语言知识包含在句法依赖中，因此有很多基于句法依赖的方法被提出。Aldawsari等人使用依赖树中另一事件的祖先事件，同时融合话语和叙事特征，以获得更丰富的事件表示。Meng等人使用序列编码器对事件之间最短的依赖路径进行编码，以识别它们之间的关系。由于序列编码器不能很好地学习结构信息，因此有人提出了一些基于图的方法来完成这项任务。Wang等人提出了不同的约束条件来提取时间关系和子事件关系。Zhang等人提出使用图转换器来捕捉语法图中的时间知识。Mathur等人和Tran等人在使用句法依赖性的同时，还引入了修辞、话语和语义等其他知识，通过不同图中节点之间的交互来丰富事件的表示。

这些关系抽取模型部分是通用的关系抽取方法，部分用于金融领域的关系抽取模型，并没有针对数据库运维领域设计的关系抽取方法。另外，大多数现有的基于依赖关系的方法在对事件之间的语义上下文进行建模时，通常平等地对待不同类型的依赖关系，导致事件关系提取的性能下降。

发明内容

发明目的：针对以上缺点，本发明提供一种基于TGGAT和CNN的系统运行异常事件关系抽取方法，包括以下步骤：

(1)获取文本数据，并进行预处理；

(2)运用BERT模型处理预处理后的文本数据，生成特征向量矩阵；

(3)将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征；将特征向量矩阵输入类型引导图注意网络TGGAT，提取句子的全局特征；

(4)将局部特征和全局特征进行拼接，然后通过自注意力得到经过注意力值加权后的表征向量矩阵；

(5)使用softmax分类器对加权后的表征向量矩阵进行事件关系分类。

进一步的，所述步骤(1)中获取数据库系统告警日志文本数据进行预处理：在多个业务系统上的数据库中获取十多年报警日志记录的上万条文本数据。

进一步的，所述步骤(2)中生成的特征向量矩阵V的表达式如下：

其中，t表示序列长度，768表示单词向量的维度，cls表示句子的初始标签，seq表示句子的结尾标签，v表示单词向量矩阵。

进一步的，所述步骤(3)中将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征具体包括：

(3.11)对输入的特征向量矩阵进行一维卷积，形成局部特征向量f_i：

fi＝ReLu(k_iv_t:t+j-1+b)

其中，v表示输入的单词向量矩阵，j表示卷积核k_i的窗口大小，b表示偏置值；

(3.12)针对n个卷积核对输入的特征向量矩阵进行n个卷积运算，形成单词向量v_t上下文特征集合的高维向量F_t：

F_t＝{f₁,f₂,...,f_n}

(3.13)对高维向量F_t进行降低维数的最大池化运算，形成单词向量v_t的局部上下文特征M_t：

M_t＝max(F_t),

(3.14)对于输入长度为t的特征向量矩阵，使用卷积集K扫描整个文本，形成整个文本的局部特征集S：

S＝{M₁,M₂,...,M_t}

进一步的，所述步骤(3)中通过Stanford CoreNLP工具获得输入特征向量矩阵中句子的句法依赖树，通过在句法依赖树中构建输入句子的句法结构，将句子转换为图结构进行表示，其中将单词表示为节点，将句法依赖树构造单词之间的依赖关系表示为边；

将特征向量矩阵输入类型引导图注意网络TGGAT，提取句子的全局特征具体包括：

(3.21)使用TGGAT通过类型引导对句子的句法依赖树进行建模，获得与句子中每个单词相关的句法知识，然后利用依赖路径来转移和聚合句子中的单词信息，得到每个节点和所有相邻单词的注意力值为：

其中，W表示可学习的权重矩阵，a表示单层前馈反馈网络，表示节点i的语义向量，/>表示节点j的语义向量，/>表示节点i和节点j的依赖路径；

(3.22)使用SoftMax函数对注意力值进行归一化，得到注意力系数：

α_i,r,j＝softmax(d_i,r,t)

(3.23)通过注意力系数的加权求和，以及将原始节点i的初始信息相加，聚合计算得到节点i的新向量特征

其中，σ表示激活函数，W_r、W₀表示可学习的权重，N_i是节点i在句法依赖图中所有邻居节点j的集合，R是节点i在句法依赖图中所有边的集合；

(3.24)句子的全局特征如下：

进一步的，所述步骤(4)中将局部特征和全局特征进行拼接，然后通过自注意力得到经过注意力值加权后的表征向量矩阵，具体公式如下：

HS＝contact(H,S)

Q＝W^q·HS

K＝W^k·HS

V＝W^v·HS

A′＝softmax(K^T·Q)

O＝V·A′

其中，contact表示拼接函数，Q表示查询向量，W^q表示查询矩阵，K表示键向量，W^k表示键矩阵，V表示值向量，W^v表示值矩阵，A′表示对查询向量和键向量计算内积并缩放归一化得到的权重，O表示表征向量矩阵。

进一步的，所述步骤(5)中使用softmax分类器来预测文本中事件对的关系，并输出y以获得事件关系分类：

y＝relu(O·w+b)

其中，w和b是全连接层的参数和偏置条目。

本发明还采用一种基于TGGAT和CNN的系统运行异常事件关系抽取系统，包括：

获取模块，用于获取文本数据，并进行预处理；

处理模块，用于运用BERT模型处理预处理后的文本数据，生成特征向量矩阵；将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征；将特征向量矩阵输入类型引导图注意网络TGGAT，提取句子的全局特征；

拼接模块，用于将局部特征和全局特征进行拼接，然后通过自注意力得到经过注意力值加权后的表征向量矩阵；

分类模块，用于使用softmax分类器对加权后的表征向量矩阵进行事件关系分类。

有益效果：本发明相对于现有技术，其显著优点是通过类型引导图注意网络不仅可以捕获长程句法依赖关系，还可以捕获类型信息，这对于捕获事件的全局上下文语义信息至关重要。事件关系提取任务中的大多数句子属于长程难句，其中两个相关单词可能相距遥远，句法结构复杂，不同类型的依赖关系可能会有不同的贡献，使得仅使用句子的表面信息难以准确捕捉全局事件知识。因此，引入句法信息来整理句子的结构，并对句法中的类型相关知识进行建模，以进一步捕捉全局特征。

附图说明

图1为本发明数据库异常事件关系抽取流程示意图；

图2为本发明事件关系抽取系统结构框图；

图3为本发明示例句子的句法依赖树示意图；

图4为本发明中TGGAT的注意力机制的原理结构图。

具体实施方式

实施例1

如图1所示，本实施例中一种基于TGGAT和CNN的系统运行异常事件关系抽取方法，包括以下步骤：

(1)在多个业务系统上的Oracle数据库中获取十多年报警日志记录的上万条文本数据。

(2)对步骤(1)获取的Oracle数据库日志文本数据进行数据清洗与预处理。数据清洗包括主要包括去除不需要的字段、格式不一致的文本；对清洗后的数据库系统日志文本数据进行预处理，将日告警日志划分为句子，并使用BERT+CRF模型提取触发词。例如“由于事务[等待]资源会导致队列资源[陷入]僵局”,其中“等待”和“陷入”是触发单词。然后，根据事件对的类型、原因、伴随、处置、携带和子事件类别，将其标记为五类，分别用数字0、1、2、3和4表示形成数据集。最后，将数据集按8:1:1的比例划分为训练集、验证集和测试集，用于Oracle数据库事件关系提取的模型训练。

(3)将预处理后的数据输入编码器。运用BERT模型处理预处理后的文本数据。将输入的告警文本语句{w₁，w₂，…，w_t}生成为特征向量矩阵V。特征向量矩阵V的表达式如下：

其中，t是序列长度，768是单词向量的维度，cls是句子的初始标签，seq是句子的结尾标签，v表示单词向量矩阵，并且可以通过Bert模型将输入的每个句子转换为特征向量矩阵。

(4)将步骤(3)中生成的特征向量矩阵V输入到多尺度卷积神经网络CNN层，提取句子的局部特征。使用卷积核K对特征向量矩阵V进行卷积计算，对得到局部特征F_t设计池化层降低其维度，最终得到词向量的句法特征。在事件关系提取任务中，K＝{k₁,k₂,…,k_n}是卷积核的集合，n是卷积核数。具体包括：

(4.11)对输入的特征向量矩阵进行一维卷积，目标词向量可以形成局部特征向量f_i。具体公式如下：

f_i＝ReLu(k_iv_t:t+j-1+b)

其中，v表示输入的单词向量矩阵，j表示卷积核k_i的窗口大小，b表示偏置值。

(4.12)卷积核的整个集合K作用于窗口中心词向量，并形成该词向量v_t的不同局部特征，得到单词向量v_t上下文特征集合的高维向量F_t。n个卷积运算表示如下：

v_t＝F_t＝{f₁,f₂,...,f_n}

其中，F_t是在n次卷积运算之后由目标词v_t形成的上下文特征的集合。

(4.13)由于F_t是一个多特征的高维向量，使用池化操作来降低其维数。作为显著特征的因果语义角色词可以使用最大池化运算作为特征保留，其表达式为：

M_t＝max(F_t)

(4.14)每个局部特征向量f_i在最大池化操作之后保留的特征m被完全连接以固定其维度输出，并最终形成中心词向量v_t的局部上下文表示，其表达式为：

V_t＝M_t＝{m₁,m₂,...,m_n}

(4.15)对于输入长度为t的特征向量矩阵，使用卷积集K扫描整个文本，以形成具有以下表达式的整个文本的局部特征集S：

S＝{V₁,V₂,...,V_t}＝{M₁,M₂,...,M_t}

(5)将步骤(3)中生成的特征向量矩阵V输入到TGGAT模型中，将类型依赖性添加到图注意力机制计算中，聚合文本的关键信息。使用Stanford CoreNLP工具获得输入句子的句法依赖树。例如，“由于事务等待资源会导致队列资源陷入僵局”的句法依赖树如图3所示。引入句法信息来整理句子的结构，并对句法中的类型相关知识进行建模，以进一步捕捉全局特征。在BERT编码层之后，使用TGGAT对句法树进行编码，不仅提取单词的语义特征，还提取句法依赖特征，以增强模型对句子的理解，使关系提取更加准确。

通过在句法依赖树中构建输入句子的句法结构，将单词表示为节点，将句法依赖树构造单词之间的依赖关系表示为边，可以将句子转换为图结构进行表示。也就是说，在图中，本文通过句法依赖树将文本中的类型依赖信息转换为相应的邻接矩阵A。矩阵中的每个元素a_i,j表示第i个词和第j个词之间是否存在依赖关系。如果两个单词之间存在依赖关系，则a_i,j＝1，否则a_i,j＝0，如图4所示。

(5.11)为了充分利用句子的句法信息，使用TGGAT通过类型引导对句子的句法依赖树进行建模，以获得与句子中每个单词相关的句法知识，然后有效地利用依赖路径来转移和聚合句子中的单词信息。从而增强了单词的特征表示。每个节点和所有相邻单词的注意力值为：

其中，W表示可学习的权重矩阵，a表示单层前馈反馈网络，表示节点i的语义向量，/>表示节点j的语义向量，/>表示节点i和节点j的依赖路径。

(5.12)使用SoftMax函数对中心节点和所有相邻实体的注意力值进行归一化，归一化后的注意力权重是最终的注意力系数：

(5.13)节点的新向量表示是计算出的注意力系数的加权求和，并将原始节点的初始信息相加。聚合计算得到节点i的新向量特征

其中，σ表示激活函数，W_r、W₀表示可学习的权重，N_i是节点i在句法依赖图中所有邻居节点j的集合，R是节点i在句法依赖图中所有边的集合。

(5.14)为了进一步区分不同语境特征的重要性，本方案增加了多头注意机制。注意机制可以满足区分不同上下文的需要，帮助模型关注句子中的一些重要信息，而忽略不相关的上下文信息：

(5.15)输入文本的全局特征矩阵如下：

(6)将步骤(4)中得到的局部特征向量和步骤(5)中得到的全局特征向量进行拼接，使用自注意力来计算文本中每个单词与其他单词之间的注意力值，使单词之间相互关联，从而使每个单词具有不同的重要性，得到加权后的表征向量矩阵，具体公式如下：

HS＝contact(H,S)

Q＝W^q·HS

K＝W^k·HS

V＝W^v·HS

A′＝softmax(K^T·Q)

O＝V·A′

(7)使用softmax分类器对加权后的表征向量矩阵进行事件关系分类，输出y以获得事件关系分类：

y＝relu(O·w+b)

其中，w和b是全连接层的参数和偏置条目。

实施例2

如图2所示，本实施例中一种基于类型引导图注意网络(type-guided graphattention network，TGGAT)和CNN的系统运行异常事件关系抽取系统，包括获取模块，用于获取文本数据，并进行预处理；处理模块，用于运用BERT模型处理预处理后的文本数据，生成特征向量矩阵；将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征；将特征向量矩阵输入类型引导图注意网络TGGAT，提取句子的全局特征；拼接模块，用于将局部特征和全局特征进行拼接，然后通过自注意力得到经过注意力值加权后的表征向量矩阵；分类模块，用于使用softmax分类器对加权后的表征向量矩阵进行事件关系分类。

运用BERT模型对输入文本进行编码，得到语义特征向量矩阵。然后，为了提取全局信息，类型引导图注意网络以类型依赖知识为引导信号，对文本的句法依赖树进行编码。同时，CNN用于提取局部信息，以增强文本的代表性。

通过类型引导图注意网络不仅可以捕获长程句法依赖关系，还可以捕获类型信息，这对于捕获事件的全局上下文语义信息至关重要。事件关系提取任务中的大多数句子属于长程难句，其中两个相关单词可能相距遥远，句法结构复杂，使得仅使用句子的表面信息难以准确捕捉全局事件知识。因此，引入句法信息来整理句子的结构，并对句法中的类型相关知识进行建模，以进一步捕捉全局特征。

Claims

1.一种基于TGGATT和CNN的系统运行异常事件关系抽取方法，其特征在于，包括以下步骤：

(1)获取文本数据，并进行预处理；

(3)将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征；将特征向量矩阵输入类型引导图注意网络TGGATT，提取句子的全局特征；

2.根据权利要求1所述的系统运行异常事件关系抽取方法，其特征在于，所述步骤(1)中获取数据库系统告警日志文本数据进行预处理：在多个业务系统上的数据库中获取十多年报警日志记录的上万条文本数据。

3.根据权利要求1所述的系统运行异常事件关系抽取方法，其特征在于，所述步骤(2)中生成的特征向量矩阵V的表达式如下：

4.根据权利要求3所述的系统运行异常事件关系抽取方法，其特征在于，所述步骤(3)中将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征具体包括：

f_i＝ReLu(k_iv_t:t+j-1+b)

F_t＝{f₁,f₂,...,f_n}

M_t＝max(F_t),

S＝{M₁,M₂,...,M_t}。

5.根据权利要求4所述的系统运行异常事件关系抽取方法，其特征在于，所述步骤(3)中通过Stanford CoreNLP工具获得输入特征向量矩阵中句子的句法依赖树，通过在句法依赖树中构建输入句子的句法结构，将句子转换为图结构进行表示，其中将单词表示为节点，将句法依赖树构造单词之间的依赖关系表示为边；

将特征向量矩阵输入类型引导图注意网络TGGATT，提取句子的全局特征具体包括：

(3.21)使用TGGATT通过类型引导对句子的句法依赖树进行建模，获得与句子中每个单词相关的句法知识，然后利用依赖路径来转移和聚合句子中的单词信息，得到每个节点和所有相邻单词的注意力值为：

α_i,r,j＝softmax(d_i,r,t)

(3.24)句子的全局特征如下：

。

6.根据权利要求5所述的系统运行异常事件关系抽取方法，其特征在于，所述步骤(4)中将局部特征和全局特征进行拼接，然后通过自注意力得到经过注意力值加权后的表征向量矩阵，具体公式如下：

HS＝contact(H,S)

Q＝W^q·HS

K＝W^k·HS

V＝W^v·HS

A′＝softmax(K^T·Q)

O＝V·A′

7.根据权利要求6所述的系统运行异常事件关系抽取方法，其特征在于，所述步骤(5)中使用softmax分类器来预测文本中事件对的关系，并输出y以获得事件关系分类：

y＝relu(O·w+b)

其中，w和b是全连接层的参数和偏置条目。

8.一种基于TGGAT和CNN的系统运行异常事件关系抽取系统，其特征在于，包括：

获取模块，用于获取文本数据，并进行预处理；

处理模块，用于运用BERT模型处理预处理后的文本数据，生成特征向量矩阵；将特征向量矩阵输入多尺度卷积神经网络CNN，提取句子的局部特征；将特征向量矩阵输入类型引导图注意网络TGGATT，提取句子的全局特征；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。