CN113626537A

CN113626537A - 一种面向知识图谱构建的实体关系抽取方法及系统

Info

Publication number: CN113626537A
Application number: CN202110765116.4A
Authority: CN
Inventors: 徐小龙; 丁海杰; 段卫华
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-09
Anticipated expiration: 2041-07-06
Also published as: CN113626537B

Abstract

本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统，方法包括：数据预处理：对用户提交的数据文件进行预处理，并转换成实体关系抽取系统可以识别和处理的数据格式；上下文编码：对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播，计算序列的阶段性输出；实体关系分类：利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测，以得到所有实体关系分类的输出概率，并从中选出概率最大的关系分类作为结果输出。本发明可以根据用户输入的文本抽取其中实体对的关系分类，充分利用文本中给出的实体对和它们的潜在类型，无需用户手动输入数据特征，能很方便的抽取出文本中实体对之间的语义关系。

Description

一种面向知识图谱构建的实体关系抽取方法及系统

技术领域

本发明涉及一种面向知识图谱构建的实体关系抽取方法及系统，属于自然语言处理和数据挖掘的技术领域。

背景技术

知识图谱揭示了实体之间关系的语义网络，归纳和总结了世界的客观规律，可以大幅提升搜索引擎的搜索质量和用户体验。而实体关系抽取是一种利用人工智能领域的自然语言处理技术实现自动分析、内容挖掘和关系分类的技术，能够从非结构化文本中轻松的提取出关键的信息，为知识图谱的构建提供技术支持，是解决当前信息严重过剩问题的一种有效的辅助手段，能帮助人类更加快速、准确、全面的获取关键信息，在工业和商业方面都具有重要的实用意义。但是，当前应用在关系抽取领域的主流方法都基于神经网络模型，由于神经网络模型的不可解释性和黑盒等特性，最终得到的实体关系分类模型开始出现问题，例如：分类的准确性达不到工业要求或对源数据缺乏更有效的利用等问题。

如何解决实体关系分类过程中出现的准确性问题已经成为研究的焦点。目前采用的方法大多建立在基于递归神经网络和注意力机制的神经网络模型上，但是，注意力机制仍存在部分缺陷，在处理长文本时注意力会逐渐减弱，以及不能利用实体对的潜在类型特征。

针对如何对文本进行编码的问题，目前的处理方法大多是采用词嵌入技术，将文本映射到一个低维空间，但当同一个单词出现在不同的句子中时，它们所具有的含义却是不相同的。也就是说，仅仅通过词嵌入不能表示基于上下文的单词的隐性特征。

有鉴于此，确有必要提出一种面向知识图谱构建的实体关系抽取方法及系统，以解决上述问题。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种面向知识图谱构建的实体关系抽取方法及系统，基于该系统能够进行对文本中实体对之间的关系进行抽取和对结果的准确性进行验证。

为实现上述目的，本发明提供了一种面向知识图谱构建的实体关系抽取方法，主要包括以下步骤：

步骤A，数据预处理：对用户提交的数据文件进行预处理，并转换成实体关系抽取系统可以识别和处理的数据格式；

步骤B，上下文编码：对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播，计算序列的阶段性输出；

步骤C，实体关系分类：利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测，以得到所有实体关系分类的输出概率，并从中选出概率最大的关系分类作为结果输出。

作为本发明的进一步改进，所述步骤A包括如下步骤：

步骤A01，将文本w中的每个单词w_i作为系统的主要输入，采用词嵌入的方式对用户提交的数据文件进行编码，得到文本序列的词嵌入矩阵x，即x_i表示序列中第i个单词的词嵌入向量；

步骤A02，将词嵌入矩阵x作为下一步步骤B中多头自注意力网络的输入。

作为本发明的进一步改进，所述步骤B包括如下步骤：

步骤B01，通过多头自注意力机制，从不同单词之间抽取出它们的相关性，从文本中学习到更丰富的语义信息和结构信息，用语义向量head表示，即head_i表示序列中第i个单词的语义向量；

步骤B02，将语义向量head作为下一步步骤C中基于实体感知的注意力网络模型中的子网络，即双向长短期记忆神经网络的输入。

作为本发明的进一步改进，所述步骤B01具体为：

给定一个输入的词嵌入矩阵x，通过线性变换将其映射到Q(query)、K(key)、V(value)，其中Q和K分别表示匹配和被匹配向量，V表示内容向量，即通过Q对K做匹配，得到一个局部注意力值，再通过这个值从V中抽取出上下文信息；对K和V的计算方式与Q的计算方式相同，以Q为例，其计算方式为：

Q＝W_Qx+b_Q

其中，

是可学习的权重矩阵和偏置向量，d_w表示词嵌入的维度，attention(Q，K，V)表示通过Q对K做匹配并从V中抽取出的上下文信息；在多头自注意力机制中，线性变换和标度点积分别被作用在不同的head上，表示每一个head关注文本中的不同部分；其计算方式为：

m＝W_mhconcat(head₁，head₂，...，head_h)

其中，

是可学习的权重矩阵，h表示head的个数，concat表示向量拼接，head_h表示第h个head的注意力向量，而head_h的计算方式为：

head_h＝attention(Q_h，K_h，V_h)

其中，Q_h、K_h、V_h分别从Q、K、V中分裂复制得到，表示第h个head应该关注的局部结构。

作为本发明的进一步改进，所述步骤C利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的预测，包括如下步骤：

步骤C01，利用长短期记忆神经网络，学习实体对的结构信息和长序列依赖；

步骤C02，将不同单词的上下文环境作为决定其重要性的决策信息，并使用门控机制的神经网络来学习隐藏依赖，针对特定单词获取更准确的语义信息；

步骤C03，实体的潜在类型本身作为模型推理分类的基准特征，将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入；

步骤C04，通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量z_t；

步骤C05，将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入，通过softmax激活函数得到每个分类的条件概率P_i。

作为本发明的进一步改进，步骤C02具体为：

首先计算位置i处的单词对位置j处的单词的重要程度得分α_i，j，然后用α_i，j来求所有单词的依赖向量d_i，接着通过门控机制来获取新的上下文输出

具体为：

α_i，j＝softmax(h_iW_rh_j)

其中，h_i、h_j分别是双向长短期记忆神经网络在第i和第j个时间步的输出，

是可学习的权重矩阵，

是偏置向量，n是隐藏层维度；

控制着从每个时间步中可以获取到的信息量，即每个单词应该被施加的注意力，

是第i个时间步的上下文输出。

作为本发明的进一步改进，步骤C03具体为：

首先求得每个实体各自的潜在类型t_ei，然后经过非线性变换求得隐含实体对潜在类型的文本向量e，具体为：

其中

是实体e_i的隐藏状态向量，

和

是权重矩阵，

是偏置向量，lt是潜在类型的数量，n是隐藏层维度，concat表示向量拼接。

作为本发明的进一步改进，步骤C04具体为：

首先将单词的语义信息和实体对的潜在类型拼接，经过非线性变换后，通过基于注意力机制的神经网络求每个时间步的上下文向量z_t，具体为：

其中，

表示上下文输出，e表示隐含实体对潜在类型的文本向量，W_a和b_a是可学习的权重矩阵和偏置向量；v_t表示相关性向量v的第i个时间步；

是第j个时间步的上下文输出，e_t，j表示中间变量，d_n是词嵌入向量的维度，

表示位置t处的单词对位置j处的单词的重要程度得分；z_t表示每个时间步的上下文向量。

作为本发明的进一步改进，步骤C05具体为：

将上一层基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入，通过softmax激活函数得到每个分类的条件概率P_i，P_i＝P(y_i|w)，具体为：

P(Y|w)＝softmax(W_zz+b_z)

其中，w表示系统的输入文本序列，Y表示所有分类，y_i表示第i个分类，P(Y|w)是给定序列下所有分类的条件概率，则P_i＝P(y_i|w)表示给定序列下第i个分类的条件概率；

是权重矩阵和偏置向量，z是所有时间步的上下文向量，r是所有的分类数量，n是隐藏层维度；

是预测输出分类。

为实现上述目的，本发明还提出一种面向知识图谱构建的实体关系抽取系统，应用上述的任一项所述的方法，用于将目标用户提交的文本数据自动抽取其中实体对之间的分类，主要包括：

数据预处理模块，用于对用户提交的数据文件进行预处理，并转换成实体关系抽取系统可以识别和处理的数据格式；

上下文编码模块，用于对预处理之后的数据通过多头自注意力网络模型进行前向传播，计算序列的阶段性输出；

实体关系分类模块，用于利用基于实体感知的注意力网络模型对所述编码后的阶段性输出进行新的计算预测，以得到所有实体关系分类的输出概率，并从中选出概率最大的关系分类作为结果输出。

本发明的有益效果是：

本发明涉及的一种面向知识图谱构建的实体关系抽取方法及系统，一方面利用自然语言处理技术抽取文本中的实体对之间的语义关系，方便快速、准确的构建知识图谱系统；另一方面，通过强化的实体感知注意力网络和门控机制解决了关系抽取模型中输出分类和文本序列之间的映射关系，并解决了注意力机制无法有效处理长文本和结构信息以及不能有效利用文本中实体对的潜在类型特征的缺陷。

因此，本发明可以根据用户输入的文本抽取其中实体对的关系分类，充分利用文本中给出的实体对和它们的潜在类型。无需用户手动输入数据特征，能很方便的抽取出文本中实体对之间的语义关系。

附图说明

图1是本发明面向知识图谱构建的实体关系抽取系统的结构示意图。

图2是本发明面向知识图谱构建的实体关系抽取方法的流程图。

图3是本发明面向知识图谱构建的实体关系抽取系统的结构框图。

图4是本发明的图3中实体选择器的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明设计了一种面向知识图谱构建的实体关系抽取系统，该系统将文本作为输入，通过对数据进行预处理、转换以及推理，最终准确的抽取出文本中实体对之间的关系分类。

如图1所示，本发明涉及一种面向知识图谱构建的实体关系抽取系统，主要包括：

其中，基于实体感知的注意力网络模型包括作为子网络的双向长短期记忆神经网络、基于门控机制的神经网络、用于获取实体潜在类型的神经网络、基于注意力机制的神经网络和最后一层用于获取关系条件概率的全连接神经网络，其中所述基于门控机制的神经网络可以采用实体选择器网络。

如图2所示，根据上述系统，本发明还提出一种面向知识图谱构建的实体关系抽取方法，主要包括如下步骤：

步骤A，数据预处理：对用户提交的数据文件进行预处理，并转换成实体关系抽取系统可以识别和处理的数据格式，包括如下步骤：

步骤A01，将文本w中的每个单词w_i作为系统的主要输入，采用词嵌入的方式对用户提交的数据文件进行编码，得到文本序列的词嵌入矩阵x，即x_i表示序列中第i个单词的词嵌入向量。

为了能够快速的对文本数据进行向量化编码，增强该模型的可移植性，本发明首先在预处理阶段采用词嵌入的方式对用户提交的数据文件进行编码，并使用预训练模型Glove，通过结合矩阵分解方法和基于浅窗口方法的词嵌入模型的优点，可以尽可能的区分出两个单词之间的差异性。

步骤B，上下文编码：对预处理之后的数据利用预先设计好的多头自注意力网络模型进行前向传播，计算序列的阶段性输出，包括如下步骤：

步骤B01，通过多头自注意力机制，从不同单词之间抽取出它们的相关性，能够从文本中学习到更丰富的语义信息和结构信息，用语义向量head表示，即head_i表示序列中第i个单词的语义向量。

所述步骤B01中，给定一个输入的词嵌入矩阵x，通过线性变换将其映射到Q(query)、K(key)、V(value)，其中Q和K分别表示匹配和被匹配向量，V表示内容向量，即通过Q对K做匹配，得到一个局部注意力值，再通过这个值从V中抽取出上下文信息。对K和V的计算方式与Q的计算方式相同，以Q为例，其计算方式为：

Q＝W_Qx+b_Q

其中，

是可学习的权重矩阵和偏置向量，d_w表示词嵌入的维度，attention(Q，K，V)表示通过Q对K做匹配并从V中抽取出的上下文信息。在多头自注意力机制中，线性变换和标度点积分别被作用在不同的head上，表示每一个head关注文本中的不同部分(局部或整体结构)。其计算方式为：

m＝W_mhconcat(head₁，head₂，...，head_h)

其中，

head_h＝attention(Q_h，K_h，V_h)

所述基于实体感知的注意力网络模型包括作为子网络的双向长短期记忆神经网络、基于门控机制的神经网络、用于获取实体潜在类型的神经网络、基于注意力机制的神经网络和最后一层用于获取关系条件概率的全连接神经网络，其中所述基于门控机制的神经网络可以采用实体选择器网络。

如图1和图3所示，在关系分类模块中通过双向长短期记忆神经网络即LSTM网络来学习上下文的语义信息，通过基于门控机制的神经网络即实体选择器来决定单词之间的互相决策重要程度，通过基于注意力机制的神经网络来充分利用文本中的实体对和它们的潜在类型，包括具体步骤如下：

步骤C01，利用基于实体感知的注意力网络模型中的子网络即长短期记忆神经网络，学习实体对的结构信息和长序列依赖。

步骤C02，利用基于实体感知的注意力网络模型中的子网络即基于门控机制的神经网络，通过采用实体选择器网络，将不同单词的上下文环境作为决定其重要性的决策信息，并使用门控机制来学习隐藏依赖，针对特定单词获取更准确的语义信息，具体如下：

具体如下：

α_i，j＝softmax(h_iW_rh_j)

是可学习的权重矩阵，

是偏置向量，n是隐藏层维度，即表示神经网络的前向传播过程中隐藏层的维度。

是第i个时间步的上下文输出。

步骤C03，实体的潜在类型本身就可以作为模型推理分类的基准特征，将实体对和它们的潜在类型作为用于获取实体潜在类型的神经网络的辅助输入，具体如下：

其中

是实体e_i的隐藏状态向量，

和

是权重矩阵和偏置向量，lt是潜在类型的数量，n是隐藏层维度，concat表示向量拼接。

步骤C04，通过基于注意力机制的神经网络计算每一个时间步的上下文信息向量z_t，具体如下：

其中，

表示上下文输出，e表示隐含实体对潜在类型的文本向量；v_t表示相关性向量v的第i个时间步，W_a和b_a是可学习的权重矩阵和偏置向量；v_t表示相关性向量v的第i个时间步；

步骤C05，将基于注意力机制的神经网络的输出作为最后一层全连接神经网络的输入，通过softmax激活函数得到每个分类的条件概率P_i，P_i＝P(y_i|w)，具体如下：

P(Y|w)＝softmax(W_zz+b_z)

其中，w表示系统的输入文本序列，Y表示所有分类，y_i表示第i个分类，P(Y|w)是给定序列下所有分类的条件概率，则P_i＝P(y_i|w)表示给定序列下第i个分类的条件概率。

是权重矩阵和偏置向量，z是所有时间步的上下文向量，r是所有的分类数量，n是隐藏层维度。

是预测输出分类。

综上所述，本发明公开了一种面向知识图谱构建的实体关系抽取方法及系统，可以根据用户输入的文本抽取其中实体对的关系分类。设计了一种实体选择器来预先决定单词之间的互相决策重要程度，还设计了一种实体感知注意力网络来充分利用文本中给出的实体对和它们的潜在类型。整个过程基于端到端的处理方式，无需用户手动输入数据特征，能很方便的抽取出文本中实体对之间的语义关系。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。