CN113254675A

CN113254675A - 基于自适应少样本关系抽取的知识图谱构建方法

Info

Publication number: CN113254675A
Application number: CN202110808184.4A
Authority: CN
Inventors: 孙喜民; 周晶; 毕立伟; 李晓明; 王帅; 孙博; 郑斌; 刘丹; 常江
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-08-13
Anticipated expiration: 2041-07-16
Also published as: CN113254675B

Abstract

本发明公开了基于自适应少样本关系抽取的知识图谱构建方法，该抽取方法包括实体间关系采用自适应关系抽取模型提取，所述自适应关系抽取模型的构建包括：S100：利用文本编码器对训练集实例进行编码，生成上下文关系语义；S200：将支持集输入参数生成器，生成初始化softmax参数；S300：将步骤S100生成的上下文关系语义输入自适应图神经网络，利用自适应图神经网络对实例进行更新；S400：利用softmax分类器对更新后的实例进行分类预测，获取关系类型。本发明在获取关系时不需要大量的人工标注数据，避免了大量的人工打标带来的费时耗钱，且通过少量特定领域的标签数据就可以完成特定领域的关系抽取任务。

Description

基于自适应少样本关系抽取的知识图谱构建方法

技术领域

本发明属于自然语言处理领域，具体涉及基于自适应少样本关系抽取的知识图谱构建方法。

背景技术

知识图谱又称科学知识图谱，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。现有技术中，面向通用领域的知识图谱构建是利用原始的非结构化文本来形成知识图谱，主要包括步骤：（1）抽取实体，即从非结构化文本中自动识别实体；（2）抽取关系，即识别实体间的关系；（3）实体链接，即对抽取的实体及关系数据进行逻辑归属和消除冗余；（4）知识推理，即根据事实三元组自动推理出关系值缺失，进行知识图谱的补全。

上述步骤（1）和（2）均涉及信息抽取技术，信息抽取是自然语言处理中的重要组成部分，特别是在当今信息化社会中，从海量数据中抽取出有用的信息显得格外有意义。信息抽取可以分为实体抽取、关系抽取和事件抽取等。关系抽取任务一般形式是给定文本及文本中涉及的两个实体，判定实体之间是否存在关系以及存在何种关系。关系抽取不但是知识图谱构建中的重要环节，在自动问答、自动摘要、情感分析等技术中也被广泛使用。

传统的监督学习方法在关系抽取任务上取得了不错的效果，但在实际应用中，基于监督学习的关系抽取方法要求具有足够多且完全标注的训练数据，但对数据进行标注的工作需要耗费大量的人力物力，且难以迁移到其他领域中。因此研究如何利用少量标注甚至无标注数据提升关系抽取性能是必要的。

为了解决监督学习中的数据需求问题，一种解决思路是远程监督方法，基本思想是依赖已有的知识库，从文本中获取包含知识库中实体对的文本作为训练语料，且Mintz提出一个假设，如果知识库中某个实体对存在某种关系，那么所有包含此对实体的数据都表达这个关系。然而远程监督的缺陷是生成的数据存在大量的噪声数据，其依然无法从本质上解决样本分布的长尾问题。另一种解决思路是如何充分利用少量标注样本进行训练，使得模型具有更好的泛化能力，即少样本学习。

目前少样本关系抽取学习有两类主要方法：度量学习与元学习。度量学习是通过先验知识学习一个度量函数，利用度量函数将输入映射到一个子空间，使得相似和不相似的数据对可以很容易被分辨，通常用于分类问题。元学习主要是优化在假设空间寻找最优参数的策略，例如寻找一个合适的初始模型参数，学习一个优化器以直接输出参数更新。

图神经网络是近年来的新兴领域，其将传统神经网络延伸到非欧几里德空间，在图结构上进行图操作，具有一定的可解释性能。图神经网络将类别之间的结构信息当做信息传播的通道，可以很好地提取样本间的关系。其模仿人脑在认知中的相应关联和区分机制，获取关于新任务的更多辅助信息，从而弥补样本数据不足的问题。图神经网络可以很好地将类别与类别之间的差异捕捉，便于实现类别分类。

发明内容

本发明将图神经网络引入到少样本关系抽取中，提供了基于自适应少样本关系抽取的知识图谱构建方法。本发明可避免大量人工标注带来的费时耗钱，且通过少量特定领域的标签数据可以快速完成特定领域的关系抽取任务，同时可以对未见领域有很好的泛化性能。

本发明考虑到模型在旧任务到新任务的迁移中会遗忘旧任务，以及考虑到模型进行新任务训练时需要大量的带标签训练样本，将图网络神经应用到多任务问题中，利用图神经网络中信息可在节点间传播和聚合的特点，在不提供大量带标签训练样本只提供少量样本图像的基础上，实现快速精确的分类。

本发明实施例提供的基于自适应少样本关系抽取的知识图谱构建方法，包括：

从获取的非结构化文本中自动提取实体；

以原始的非结构化文本和所识别的实体作为关系模型的输入，则提取出实体间的关系；

基于提取的实体及关系数据进行实体链接；

根据事实三元组自动推理出关系值缺失，进行知识图谱的补全。

关系模型的构建如下：

给定训练集，其包含M个类别，每个类别下有N个实例，每个实例包括句子以及句子的头实体、尾实体；从训练集中随机抽取M1个类别，从每个类别中随机抽取K个实例，构造支持集

，

，

；从每个类别剩余的N-K个样本中随机抽取L个实例构造查询集；

S100：利用文本编码器对训练集实例进行编码，生成上下文关系语义；

S200：将支持集输入参数生成器，生成初始化softmax参数；

S300：将步骤S100生成的上下文关系语义输入自适应图神经网络，利用自适应图神经网络对实例进行更新；所述自适应图神经网络的构建如下：

S310：构建点图，其中节点表示一实例的特征向量，边描述实例之间的相似关系；

S320：构建分布图，其中节点表示一实例的分布，边描述分布与分布之间的相似关系；所述分布指一实例与其他所有实例的相似关系构成的向量；

S330：将支持集和查询集中实例的上下文关系语义作为特征向量，用来初始化点图的节点，利用节点间的相似关系初始化点图相应的边；

S340：利用支持集和查询集中各实例的相似关系向量初始化分布图的节点，利用节点间的相似关系初始化分布图相应的边；

相似关系向量

，

也即分布图中第i个节点；||表示，级联操作，

和

分别表示实例i和实例j的关系类别标签，如果

，则

，否则

；

S350：将点图中各节点间的相似关系和上一层分布图中该节点聚合，作为更新后的分布图节点，同时更新分布图的边；

S350：将更新后分布图中每个节点间的相似关系和行一层点图中对应节点聚合，作为更新后点图节点，同时更新点图到点图的聚合；

S400：利用softmax分类器对更新后的实例进行分类预测，获取关系类型。

进一步的，步骤S100中，对实例中句子及头实体、尾实体的位置进行编码。

进一步的，对实例中句子及头实体、尾实体的位置进行编码，进一步包括：

S110：将实例的句子中每个词映射成词向量；

S120：基于词向量，将每个词分别与该词所在句子的两个实体的相对位置进行编码，所得编码向量连接得词的位置编码；

S130：将实例和实例中词的位置编码输入文本编码器，生成各实例的上下文关系语义。

进一步的，步骤S200进一步包括：

S210：按关系类别对支持集实例进行划分；

S220：利用每一关系类别下的实例生成每一关系类别对应的权重和偏置；

S230：所有关系类别对应的权重和偏重构成权重向量和偏置向量，即初始化softmax参数。

进一步的，子步骤S330中，点图节点间的相似关系

，其中，

表示初始化的节点

与节点

间的相似关系，

表示两层卷积-正则化-RELU网络以及sigmoid激活层；

子步骤S340中，分布图节点间的相似关系来描述边

，

是一个两层卷积-正则化-RELU网络以及sigmoid激活层；

和

均为已有的神经网络。

本发明具有如下特点和有益效果：

本发明不仅提升了具体任务下关系抽取的准确性，还提升了对未出现任务的泛化性能。在获取关系时不需要大量的人工标注数据，避免了大量的人工打标带来的费时耗钱，且通过少量特定领域的标签数据就可以完成特定领域的关系抽取任务。

本发明不仅显示考虑实例与实例之间的关系，而且关注实例分布与实例分布之间的关系，这样可以更好刻画不同关系的边界，提升具体任务下关系表示的判别性。同时，由于自然语言的输入空间在所有NLP任务之间是共享的，因此基于元学习的自适应方法可能会泛化到看不见的任务，即在训练集中未出现的关系类别也可以进行抽取。

附图说明

图1为实施例中的关系抽取详细流程示意图。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

本发明知识图谱的构建方法使用的场景包括：知识图谱的构建装置和服务器，其中，服务器包括有该垂直领域的多类型非结构化文本，构建该垂直领域的知识图谱需要知识图谱的构建装置在该服务器中获取多个类型的非结构化文本，进而采用本发明知识图谱构建方法处理非结构化文本，从而构建该垂直领域的知识图谱。

本发明知识图谱的构建方法的执行主体可以是知识图谱的构建装置，该知识图谱的构建装置可由任意的软件和/或硬件实现。

本发明实施例基于自适应少样本关系抽取的知识图谱构建方法，具体步骤如下：

步骤一、抽取实体，即从非结构化文本中自动识别实体。

该步骤是从原始的非结构化文本中自动识别出命名实体。本实施例采用LSTM-CRF技术，将非结构化文本中的每个单词表示为一个词嵌入，将词嵌入作为LSTM模型的输入，输出每个单词的预测分数。将LSTM层预测的分数再输入CRF层。在CRF层中，选择预测得分最高的标签序列作为最佳答案。

步骤二、抽取关系，即识别实体间的关系。

本步骤即本发明知识图谱构建方法的关键创新处。将原始的非结构化文本和步骤一所识别的两个实体，输入到已训练的基于分布级关系的自适应关系抽取模型中，在模型输出的分类分数中选择得分最高的关系类别作为两个实体之间的关系。后文将提供本步骤的详细过程。

步骤三、实体链接，即对抽取的实体及关系数据进行逻辑归属和消除冗余。

从原始的非结构化文本中获取实体及实体间的关系后，再通过实体链接对实体及实体关系数据进行逻辑归属和冗杂错误过滤。根据自适应关系抽取模型更新后的实体表示，计算任意两个实体之间的相似度，本实施例使用余弦相似度，当相似度大于设定的阈值时，合并该两个实体以消除冗余，此时知识图谱已具雏形。

步骤四、知识推理，即根据事实三元组自动推理出关系值缺失，进行知识图谱的补全。

本步骤则是根据已存在的事实三元组，自动推理出丢失的事实，处理知识图谱之间关系值缺失，完成进一步的知识发现，进行知识图谱的补全。本实施例采用分布式推理模型TransE，将每个三元组实例 (head，relation，tail) 中的关系 relation 看做从实体head 到实体 tail 的映射，满足条件h + r=t，其中，h表示头实体向量，r表示关系向量，t表示尾实体向量。在知识图谱中，如果头尾实体向量不存在于已有的三元组，则通过t-h计算关系向量，得到头尾实体的关系来补充知识图谱。

图1所示为实施例中关系抽取的详细流程，具体过程如下：

接收原始的非结构化文本，即关系数据集，关系数据集采用数据集FewRel1.0，关系数据集是数据是按照关系类别组合。按照关系类别从关系数据集中抽取M个关系类别数据形成训练集

，剩余的关系类别数据组成测试集

。训练集

包含M个类别，每个类别下含有N个实例，每个实例

，

表示第i个实例，

表示句子，

表示句子

的头实体，

表示句子

的尾实体。为了在训练时期模拟测试时场景，从训练集

中随机抽取

个类别，从每个类别中随机抽取N1个实例构造支持集，支持集中第s个元素记为

，

为实例

对应的关系类别标签。从每个类别剩余的N-N1个样本中随机抽取N2个实例构造查询集

，查询集中第q个元素记为

，

为

对应的关系类别标签。

第一步，利用文本编码器对训练集中实例进行编码，生成上下文关系语义。

本步骤中编码包括对实例中句子进行编码以及句子中实体位置进行编码，并将句子编码和位置编码进行非线性组合。具体方法如下：

本具体实施方式中，对于每一个实例

，

表示第i个实例。使用word2vec将实例句子

中的每个词

映射成一个词向量

，

为词向量的维度，

表示实例句子

的第k个词，k依次取1、2、…K，K为句子

中单词数量。将

中每个词

分别与所在句子的两个实体（头实体与尾实体）的相对位置编码成两个相对向量，两个向量连接获得位置编码

，

，

为相对位置向量的维度，2个相对位置向量的连接，则维度就是

。此处，

与所在句子实体的相对位置指：

与实体在句子

中所间隔词的数量。

以实例

作为文本编码器的输入，所生成的上下文关系语义表示记为

。本具体实施方式中使用Transformer模型作为文本编码器。

第二步，将支持集

输入参数生成器，生成当前任务下的初始化生成器的softmax参数。

本步骤进一步包括子步骤：

（1）将支持集按

个类别划分，每个类别的实例集合记为

，

表示类别标签，

即第n类实例的集合。

（2）对每个类别下各实例

进行非线性映射加权求和，得到每个类别的表示

，

表示实例

经文本编码器

，再神经网络

的输出，再对第n类别所有实例的输出加权求和并取平均，

是权重向量，

是偏置向量。

具体指两层的多层感知机与tanh激活层，

是softmax中线性层的权重与偏置。对于

个类别权重向量

和偏置向量

分别记为：

，

。

第三步，基于分布级关系的自适应图神经网络，利用第一步输出作为输入微调获取特定任务下最优的参数，当前参数可以使基于分布级关系的图模型很好地对当前任务进行分类。

基于分布级关系的自适应图神经网络构建如下：

（1）构建点图

：

表示第l代实例点图，

表示节点集合，每个节点表示一个实例i的特征向量；

表示边集合，每个边描述实例i与实例j之间的相似关系。

（2）构建分布图

：

表示第l代分布图，

表示节点集合，每个节点

表示一个实例i的分布，实例i的分布为多维向量，其中j维度为点图中节点i与节点j的相似关系

，将节点i与点图中所有节点分别求相似关系，获得实例i的分布。

表示边集合，每个边描述实例i与实例j的分布之间的相似关系。

（3）初始化点图：

对于点图的初始化，提取支持集和查询集中实例对应的上下文关系语义，并用其初始化第一代点图的节点

，然后利用节点间的相似关系描述边

，

是一个两层卷积-正则化-RELU网络以及sigmoid激活层。

（4）初始化分布图：

分布图的目的是整合节点之间的联系，从而得到分布之间的关系，因此分布图的每个节点都是一个M1*N1维的相似关系特征向量，第 j行描述实例 i和实例j之间的相似关系。

第一代分布图节点的初始化方式如下：

（1）

式（1）中，||表示，级联操作，

和

分别表示实例i和实例j的关系类别标签，如果

，则

，否则

。

利用分布图节点间的相似关系来描述边

，

是一个两层卷积-正则化-RELU网络以及sigmoid激活层。

（5）点图到分布图的聚合与更新。

对于第l层的分布图，节点的计算方式如下：

（2）

其聚合了点图中每个节点之间的关系

和上一层分布图中该节点的信息

，

表示点图到分布图的传播过程，是一个一层的多层感知机网络。

分布图中边的更新方式与点图类似，

。

（6）更新后的分布图到点图的聚合与更新。

对于第l层的点图，用分布图推导出下一代点图中的节点信息，计算过程如下：

（3）

其聚合了分布图中每个节点之间的关系

和上一层点图中该节点的信息

，D2P表示分布图到点图传播过程，是一个一层的全连接层以及RELU激活层。T表示支持集和查询集中实例总数。

在第l层，给定l-1层（即上一层）点图中任意两节点的节点表示与编信息信息

更新方式如下：

，注意这里要进行归一化处理。

第四步，利用第三步得到的每个实例更新后的关系表示与第二步得到的基于当前分类任务的分类器参数进行分类预测，预测结果即抽取的关系类型。

对于测试样本

，

，

是步骤三中分布级关系的图神经网络，

是当前任务下的分类器参数。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。