CN112800774B

CN112800774B - 基于注意力机制的实体关系抽取方法、装置、介质和设备

Info

Publication number: CN112800774B
Application number: CN202110053273.2A
Authority: CN
Inventors: 姜小波; 杨博睿; 何嘉俊; 邓家风
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-07-18
Anticipated expiration: 2041-01-15
Also published as: CN112800774A

Abstract

本发明提供了一种基于注意力机制的实体关系抽取方法、装置、介质和设备。其中方法包括如下步骤：将原始文本的内容进行预处理，并输入到BERT预训练模型得到文本句子每个单词的文本向量表示；将文本向量输入卷积神经网络得到句子卷积特征向量；将文本向量经过注意力权重计算单元得到包含实体信息的语义上下文向量；之后连接成特征向量，然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率，其中最大的概率对应的就是实体对的实体关系类型。本发明通过计算实体信息注意力得到句子中每个单词对于每个实体的相关程度，依靠词级注意机制来选择重要的信息来进行关系的表示，使得实体关系抽取的精确率、召回率更高。

Description

基于注意力机制的实体关系抽取方法、装置、介质和设备

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种基于注意力机制的实体关系抽取方法、装置、介质和设备。

背景技术

随着互联网技术的高速发展，使得网络上的信息爆炸式增长。这些海量的数据中包含了大量有用的信息，如何利用自然语言处理技术有效采集并运用这些海量数据是大数据时代的一个重要课题。

信息抽取(Information Extraction)为解决上述问题提供了新的思路，其目的是从半结构化或者非结构化的自然语言文本中提取出有用信息，并整理成结构化内容。实体关系抽取作为其中重要的子任务之一，自然受到了广大学者的关注。实体关系抽取的主要任务是将句子中的命名实体识别出来后，判断实体之间的相互关系，并将其抽取出来。目前的许多自然语言处理任务都依赖于命名实体识别和实体关系等基础任务，例如，知识图谱中需要实体与实体关系来进行填充，才能构成完整的知识图谱。此外，在语义角色标注、文本情感分析和机器翻译等领域中也经常用到实体关系。因此，研究实体关系抽取对整个自然语言处理领域来说具有重要意义。

目前国内外使用最为广泛的的实体关系抽取方法是有监督学习方法。有监督学习方法是通过使用已经标注的数据集来训练机器学习模型，将得到泛化好的模型对测试数据的关系类型进行分类。有监督学习方法主要包括：基于特征的方法、基于核函数的方法和基于神经网络的方法。

最近，越来越多人关注神经网络模型在NLP任务可以减少特征工程的能力.此外，一些研究人员也在实体关系抽取领域关注神经网络的特征学习。2012年Socher等人引入了递归神经网络模型来学习任意句法类型和长度的短语和句子的组合向量表示。2014年Zeng等人利用卷积神经网络(CNN)进行关系分类。2015年Xu等人利用长短期记忆(LSTM)的递归神经网络来寻找最短依赖路径。

然而，现阶段这些神经网络模型设计时都是把句子中所有单词看做同等重要，并且每个单词对实体对关系判断的贡献也是相同的，然而，并非所有的词对实体对关系的表示都有同样的贡献，例如：The<e1>burst</e1>has been caused by water hammer<e2>pressure</e2>，在这句话中，“caused”在确定“原因-后果”的关系中具有特别重要的意义。因此，如何找到决定实体对关系的关键词是一项重要的任务。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于注意力机制的实体关系抽取方法、装置、介质和设备；本发明在注意力计算过程中，将句子中的每个单词和每个实体都遣送到注意力权重计算单元，得到一个归一化重要性权重，用来表示句子中每个单词对于每个实体的相关程度，然后把这个相关程度也融合到特征向量中，达到找到决定语义信息关键词的目的，从而提高实体关系抽取性能。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于注意力机制的实体关系抽取方法，其特征在于：包括如下步骤：

S1，将原始文本的内容进行预处理，并输入到BERT预训练模型中进行词嵌入处理，得到文本句子每个单词的文本向量表示；

S2，将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示，从而得到句子卷积特征向量

S3，将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度，将这个相关程度作为句子中单词向量的加权和，从而得到包含实体信息的语义上下文向量S_ij；

S4，将得到的句子卷积特征向量和语义上下文向量S_ij输出向量连接成一个固定长度的特征向量，然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率，其中最大的概率对应的就是实体对的实体关系类型。

优选地，所述步骤S2包括以下分步骤：

S21，顺序地从文本信息接收每个字的字嵌入，设x_i∈R^k是句子中的第i个词对应的k维词嵌入向量，得到长度为n的句子的词嵌入向量为x_1:n；

S22，将句子的词嵌入向量输入到卷积神经网络中，其中卷积神经网络包括滤波器w∈R^hk，h为滤波器的窗口大小，滤波器w以h个单词为窗口来产生卷积特征向量，其中滤波器的窗口也可能超出句子边界，对于超出句子边界的窗口部分填充0向量，其中x_i:i+h-1经过滤波器w以后产生卷积特征向量c_i；

滤波器w扫描句子中所有单词窗口{x_1:h，x_2:h+1,…,x_n-h+1:n}并生成对应的卷积特征图c；

S23，对卷积特征图c进行max-overtime池化操作并将最大值max{c}作为该句子的句子卷积特征向量

优选地，所述步骤S21中，词嵌入向量x_1:n为：

其中，是级联运算符；x_i:j代表x_i，x_i+1,…,x_i+j单词的级联；

所述步骤S22中，卷积特征向量c_i和卷积特征图c分别为：

c_i＝f(w·x_i:i+h-1)

c＝[c₁，c₂，…，c_n-h+1]

其中，f为非线性函数，比如双曲正切函数；c∈R^n-h+1；

优选地，所述步骤S3包括以下分步骤：

S31，设定每句话包含T个单词，w_it表示第i个句子中第t个单词词嵌入向量，其中t∈[1,T]；对于实体关系抽取任务，每个句子设定只有两个实体，e_ij代表第i个句子中第j个实体的词嵌入向量，其中j∈[1,2]；然后将实体向量e_ij和单词词嵌入向量w_it进行合并得到第t个单词的新向量表示

S32，将单词的新向量表示导入注意力权重计算单元中，其中注意力权重计算单元是一个多层感知器结构；注意力权重计算单元的输出是第i个句子中第t个单词相对于第j个实体的相关程度/>

S33，对于注意力权重计算单元的输出计算归一化重要性权重/>

S34，最后计算第j个实体的语义上下文向量S_ij；。

优选地，所述步骤S31中，向量表示为：

所述步骤S32中，相关程度为：

其中，tanh为激活函数，W_a和W_we为权重矩阵，b_we和b_a为偏置向量；

所述步骤S33中，归一化重要性权重为：

其中，exp为指数函数；

所述步骤S34中，语义上下文向量S_ij为：

优选地，所述步骤S4包括以下分步骤：

S41，将句子卷积特征向量和两个实体的语义上下文向量S_i1和S_i2进行合并操作生成一个固定长度的特征向量/>

S42，设定实体关系类型为p种，将特征向量输入一个全连接神经网络，输出一个维度为p的向量，再经过SoftMax函数来计算得到不同类型的概率，其中最大的概率对应的就是该实体对的实体关系类型。

优选地，所述步骤S41中，特征向量为：

一种基于注意力机制的实体关系抽取装置，其特征在于：包括：

词嵌入模块，用于将预处理后的原始文本内容输入到BERT预训练模型中进行词嵌入处理，得到文本句子每个单词的向量表示；

句子卷积模块，用于将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示，从而得到句子卷积特征向量

实体信息模块，用于将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度，将这个相关程度作为句子中单词向量的加权和，从而得到包含实体信息的语义上下文向量S_ij；

全连接模块，用于将句子卷积模块得到的句子卷积特征向量和实体信息模块得到的语义上下文向量S_ij连接成一个固定长度的特征向量，然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率，其中最大的概率对应的就是实体对的实体关系类型。

一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述基于注意力机制的实体关系抽取方法。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现上述基于注意力机制的实体关系抽取方法。

与现有技术相比，本发明具有如下优点与有益效果：

本发明在计算实体信息注意力时，将句子中的每个单词和每个实体馈送到注意力权重计算单元，输出的是句子中每个单词对于每个实体的相关程度，依靠词级注意机制来选择重要的信息来进行关系的语义表示，使得实体关系抽取的精确率、召回率更高。

本发明在卷积神经网络模型基础上，构建了一种基于注意力机制融合实体信息的卷积神经网络模型，这个模型不光通过卷积神经网络结合了句子的卷积特征，还通过实体信息模块结合了句子中不同单词对于每个实体的重要程度，这使得模型可以检测到更细微的线索，使得模型能够自动学习哪些部分与给定的实体关系相关。

本发明中判断的实体关系类型需要根据原始文本的领域知识来制定，而本发明提供的实体关系抽取方法、装置既可以在不同领域上使用，同时还能够保证实体关系抽取的效果。

附图说明

图1是本发明的一种基于注意力机制的实体关系抽取方法流程图；

图2是本发明的一种基于注意力机制的卷积神经网络模型图；

图3是本发明注意力权重计算单元结构示意图；

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

本实施例一种基于注意力机制的实体关系抽取方法，其流程如图1所示，包括如下步骤：

S1，将原始文本的内容进行预处理：包括对原始文本进行分句处理、通过命名实体识别获得原始文本中的实体、对这些实体进行两两匹配并标注；输入到BERT预训练模型中进行词嵌入处理，得到文本句子每个单词的文本向量表示；

S2，将词嵌入后的文本向量输入卷积神经网络来构造句子的分布式表示，从而得到句子卷积特征向量如图2所示；

具体地说，步骤S2包括以下分步骤：

S21，顺序地从文本信息接收每个字的字嵌入，设x_i∈R^k是句子中的第i个词对应的k维词嵌入向量，得到长度为n的句子的词嵌入向量为x_1:n：

是级联运算符，其中x_i:j代表x_i，x_i+1,…,x_i+j单词的级联；

S22，将句子的词嵌入向量输入到卷积神经网络中，其中卷积神经网络包括滤波器w∈R^hk，h为滤波器w的窗口大小，滤波器w以h个单词为窗口来产生卷积特征向量，其中滤波器的窗口也可能超出句子边界，对于超出句子边界的窗口部分填充0向量；例如x_i:i+h-1经过滤波器w以后产生的卷积特征向量c_i为：

c_i＝f(w·x_i:i+h-1)

其中f为非线性函数，比如双曲正切函数；

滤波器w扫描句子中所有可能的单词窗口{x_1:h，x_2:h+1,…,x_n-h+1:n}并生成对应的卷积特征图c：

c＝[c₁，c₂，…，c_n-h+1]

其中c∈R^n-h+1；

S23，对卷积特征图c进行max-overtime池化操作并将其最大值max{c}作为该句子的句子卷积特征向量

S3，将词嵌入后的文本向量经过注意力权重计算单元来计算句子中每个单词对于实体的相关程度，将这个相关程度作为句子中单词向量的加权和，从而得到包含实体信息的语义上下文向量S_ij，如图2所示。

具体地说，步骤S3包括以下分步骤：

S31，设定每句话包含T个单词，w_it表示第i个句子中第t个单词词嵌入向量，其中t∈[1,T]；对于实体关系抽取任务，每句话设定只有两个实体，e_ij代表第i个句子中第j个实体的词嵌入向量，其中j∈[1,2]；然后将实体向量e_ij和单词词嵌入向量w_it进行合并得到第t个单词的新向量表示

S32，将单词的新向量表示导入注意力权重计算单元中，其中注意力权重计算单元是一个多层感知器结构，如图3所示。而注意力权重计算单元的输出是第i个句子中第t个单词相对于第j个实体的相关程度/>

其中exp为指数函数；

S34，最后计算第j个实体的语义上下文向量S_ij：

S4，将得到的句子卷积特征向量和语义上下文向量S_ij连接成一个固定长度的特征向量，然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率，其中最大的概率对应的就是实体对的实体关系类型，如图2所示。

具体地说，步骤S4包括以下分步骤：

为实现本实施例基于注意力机制的实体关系抽取方法，本实施例还提供了一种基于注意力机制的实体关系抽取装置，包括：

实体信息模块，用于将词嵌入后的文本向量经过实体信息模块来计算句子中每个单词对于实体的相关程度，将这个相关程度作为句子中单词向量的加权和，从而得到包含实体信息的语义上下文向量S_ij。

表1是实体关系抽取任务中各网络性能对比，所使用的实体关系抽取数据集是SemEval2010_task8数据集，模型性能对比值为F1值，即查准率和查全率的调和平均指标。从实验结果可以看出基于注意力机制的卷积神经网络在实体关系抽取任务上的表现优于传统的支持向量机(SVM)、RNN网络、CNN网络和Bi-LSTM网络等模型。

表1实体关系抽取任务各网络性能对比表

实施例二

本实施例一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于注意力机制的实体关系抽取方法。

实施例三

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现实施例一所述的基于注意力机制的实体关系抽取方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的实体关系抽取方法，其特征在于：包括如下步骤：

S4，将得到的句子卷积特征向量和语义上下文向量S_ij输出向量连接成一个固定长度的特征向量，然后经过全连接神经网络和SoftMax函数计算得到不同类别的概率，其中最大的概率对应的就是实体对的实体关系类型；

所述步骤S3包括以下分步骤：

S34，最后计算第j个实体的语义上下文向量S_ij；

所述步骤S31中，向量表示为：

所述步骤S32中，相关程度为：

所述步骤S33中，归一化重要性权重为：

其中，exp为指数函数；

所述步骤S34中，语义上下文向量S_ij为：

所述步骤S4包括以下分步骤：

2.根据权利要求1所述的基于注意力机制的实体关系抽取方法，其特征在于：所述步骤S2包括以下分步骤：

S21，顺序地接收每个字的字嵌入，设x_i∈R^k是句子中的第i个词对应的k维词嵌入向量，得到长度为n的句子的词嵌入向量为x_1:n；

S22，将句子的词嵌入向量输入到卷积神经网络中，其中卷积神经网络包括滤波器w∈R^hk，h为滤波器w的窗口大小，滤波器w以h个单词为窗口来产生卷积特征向量，对于超出句子边界的窗口部分填充0向量，其中x_i:i+h-1经过滤波器w以后产生卷积特征向量c_i；

3.根据权利要求2所述的基于注意力机制的实体关系抽取方法，其特征在于：所述步骤S21中，词嵌入向量x_1:n为：

所述步骤S22中，卷积特征向量c_i和卷积特征图c分别为：

c_i＝f(w·x_i:i+h-1)

c＝[c₁，c₂，…，c_n-h+1]

其中，f为非线性函数；c∈R^n-h+1。

4.根据权利要求1所述的基于注意力机制的实体关系抽取方法，其特征在于：所述步骤S41中，特征向量为：

5.一种存储介质，其特征在于，其中所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-4中任一项所述的基于注意力机制的实体关系抽取方法。

6.一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-4中任一项所述的基于注意力机制的实体关系抽取方法。