CN113742491A

CN113742491A - 基于表示学习的时间知识图谱推理方法

Info

Publication number: CN113742491A
Application number: CN202110922890.1A
Authority: CN
Inventors: 闫凤麒; 周晓杰
Original assignee: Shanghai Xiye Information Technology Co ltd
Current assignee: Shanghai Xiye Information Technology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-12-03

Abstract

一种基于表示学习的时间知识图谱推理方法，包括三个步骤：构建带实体描述的时间知识图谱数据集；构建和训练融合实体描述的时间知识图谱表示学习模型；知识推理应用。本发明提出的方法，在时间知识图谱表示学习模型HyTE的基础上，引入了实体描述，丰富了实体信息，有利于模型对实体表示进行学习；并且本发明提出的基于时间与关系的注意力机制，能够根据四元组中时间与关系的不同，关注到实体描述中的不同的位置，学习最相关的信息。本发明提出的方法在预测任务中有很好的表现，提高了时间知识图谱推理的准确率。

Description

基于表示学习的时间知识图谱推理方法

技术领域

本发明涉及知识图谱以及自然语言处理领域。

表示学习与知识推理是知识图谱领域的一个重要分支。

背景技术

知识图谱推理是知识图谱应用中的一项重要任务，与自然语言处理紧密联系。在知识图谱中，知识(或事实)常常被表示为三元组的形式，即(头实体，关系，尾实体)表示头实体与尾实体之间存在关系。知识图谱推理旨在根据已有的知识推导出新的知识，使机器具有和人类一样的推理和决策能力，对问答、推荐等应用有重要作用。而基于表示学习的推理需要先将由文字符号表示的知识，转换为方便机器操作的向量表示，再学习其中的联系进行推理。现有的方法认为若是(头实体，关系，尾实体)这一知识正确，则头实体、关系、尾实体对应的向量表示 h、r、t存在h+r＝t，这也是模型损失函数设计以及判断知识是否正确的依据。

然而，现实中的许多知识是有时间约束的，一些知识只会在某段时间内是正确的。在时间知识图谱上，考虑时间这一维度之后，这项任务变得更具挑战性。受TransH的启发，Dasgupta等人提出了HyTE模型，使用了超平面的技巧，将时间知识图谱看成是由不同时间区间下的静态知识图谱组成，将属于不同时间区间的知识涉及的实体与关系映射到该时间区间的平面上进行学习。但现有的方法大都基于知识图谱的结构信息进行学习，若是实体出现的频率较低，而且与其他实体有相同的关系和邻居时，这些实体便是结构信息相似的实体，不容易被区分。融合结构以外的信息进行学习是解决此类问题的一种有效方法。Xie等人提出了基于卷积神经网络的联合表示模型DKRL，从实体描述构建实体的向量表示。该模型分别使用TransE和卷积神经网络来编码基于结构信息的表示和基于实体描述的表示，并利用两类表示计算损失函数。但该模型的卷积神经网络编码器尚未考虑实体描述中可能存在着实体在不同时间、不同关系下的信息，需要对不同位置的文本加以关注。

发明内容

知识图谱推理是与自然语言处理紧密联系的重要任务之一。知识图谱推理旨在根据已有的知识推导出新的知识，使机器具有和人类一样的推理和决策能力，对问答、推荐等应用有重要作用，而知识图谱表示学习是机器进行推理的基础。而在时间知识图谱上，考虑时间这一维度之后，这项任务变得更具挑战性。而现有的方法大都只利用知识图谱的结构信息进行学习，若是存在结构相似的实体，此类实体将拥有相似的表示，难以被区分。融合实体描述进行学习是解决此类问题的一种有效方法。但目前融合实体描述的方法无法注意到在时间知识图谱中，实体描述可能含有实体在不同时间下的信息，这类信息对不同时间段的表示学习有不同程度的作用。

为了解决此问题，本文提出了基于带注意力机制的卷积神经网络的融合实体描述信息的时间知识图谱表示学习方法。该方法基于时间知识图谱表示学习模型 HyTE编码实体的结构表示，利用带注意力机制的卷积神经网络编码实体的描述文本得到实体基于描述的表示，最后将两种表示进行加权求和，作为实体的最终表示。方法中的注意力机制将根据四元组中的关系与时间这一上下文而关注实体描述中的不同位置的信息，最终提高了预测的准确率。

为了实现上述目的，本发明给出的技术方案为：

一种基于表示学习的时间知识图谱推理方法，其特征在于，包括：

步骤1、构建带实体描述的时间知识图谱数据集；

步骤2、构建和训练融合实体描述的时间知识图谱表示学习模型；

步骤3、知识推理应用。

有益效果

本发明针对现有基于表示学习的时间知识图谱推理方法只关注结构信息的问题，提出了基于注意力机制的融合实体描述的时间知识图谱表示学习方法。我们在时间知识图谱表示学习的基础上，引入了实体描述。对于结构信息，本发明使用HyTE方法，学习实体在不同时间区间下的基于结构信息的表示。对于实体描述，本发明使用注意力机制与卷积神经网络学习实体的基于描述的表示，注意力机制将根据时间与关系这一上下文，关注实体描述中相关的部分。最终将实体基于不同信息得到的两种表示，按照一定比例求和作为最终的实体描述。通过引入实体描述，并用注意力机制关注文本中与四元组的时间、关系相关的位置，提高了在时间知识图谱上进行预测任务的准确率，对知识图谱推理领域有重大意义。

附图说明

附图是用来提动对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但不构成对本发明的限制。在附图中：

图1为时间知识图谱推理的表示学习方法的技术路线图；

图2为步骤一构建带实体描述的时间知识图谱数据集的流程图；

图3为训练融合实体描述的时间知识图谱表示学习模型的整体框架；

图4为带注意力机制的卷积神经网络的结构图；

图5为步骤二训练融合实体描述的时间知识图谱表示学习模型的流程图；

图6为步骤三知识推理的流程图。

具体实施方式

知识图谱推理旨在根据已有的知识推导出新的知识，使机器具有和人类一样的推理和决策能力的关键技术之一，对问答、推荐等应用有重要作用，而知识图谱表示学习是机器进行推理的基础。目前的知识图谱表示学习方法大多关注于静态知识图谱，未考虑大部分知识只在某一时间段内是正确的。并且大部分方法信息来源单一，容易存在信息相似的实体，造成预测效果较差。本发明提出一种用于时间知识图谱推理的表示学习方法,应用于知识图谱推理及缺失预测，其创新点在于在时间知识图谱表示学习方法的基础上，引入了实体描述信息，通过学习多源信息，解决了模型容易混淆结构信息相似的实体的问题。并且设计了基于时间与关系的注意力机制，关注与时间、关系相关的信息，有效地提高了预测任务的准确率。

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的具体实施方式进行清楚、完整的描述。应当理解的是，此处所描述的具体实施方法仅用于说明和解释本发明，并不用于限制本发明。

本发明的具体实施过程如图1所示，包括如下3个方面：

步骤1、构建带实体描述的时间知识图谱数据集；

步骤3、知识推理应用。

各个步骤详述如下。

第一步：构建带实体描述的时间知识图谱数据集，如图2所示

数据集中包含关系、实体、实体描述以及表示成四元组的知识：

1.1：利用爬虫技术，从百科类网站或现有知识库中，为知识图谱中的实体爬取实体描述文本，提供给步骤1.2。

1.2：实体描述文本预处理，提供步骤1.3。

1.2.1：移除所有标点符号，并将所有大写字母转换为小写字母；

1.2.2：删除非时间的数字，只保留3个数字或4个数字构成的代表年份的数字串。

1.3：利用知识抽取技术，从网络文本或现有知识库中，抽取带时间约束的知识，构建时间知识图谱，提供步骤1.4。

1.4：对知识中的关系、实体进行编号，将知识表示为四元组。其中，四元组(h,r,t,τ)，表示头实体h与尾实体t之间存在关系r这一事实只有在时间范围τ＝[τ_s,τ_e]下是正确的，τ_s和τ_e分别为开始时间与结束时间，提供步骤1.5。

1.5：对四元组中的时间标签预处理。根据时间区间将时间知识图谱拆分为多个静态的子图，每个子图由该时间区间下正确的四元组构成。假设划分了T个时间区间τ₁,τ₂,…,τ_T，则时间知识图谱

将τ₁,τ₂,…,τ_T进行编号并将数据集中的时间标签替换为所属时间区间的编号。

得到带实体描述的时间知识图谱数据集，数据集中的实体、关系编号以及四元组信息将提供给步骤2.1，实体描述信息将提供给步骤2.3。

第二步：构建和训练融合实体描述的时间知识图谱表示学习模型

融合实体描述的时间知识图谱表示学习模型的构造，包括两部分：基于HyTE 的结构表示学习以及基于带注意力机制的CNN的文本表示学习。首先，利用HyTE 模型来编码知识图谱的结构信息；然后利用带注意力机制的卷积神经网络编码实体的文本信息；最后使用一种机制学习两种信息的最佳权重，联合成最终的实体表示。模型整体框架如图3所示。

2.1：依次从步骤1.5得到的数据集中选择一个正样本X＝(h,r,t,τ)，并随机替换h、r、t其中之一得到负样本X′＝(h′,r′,t′，τ)，将正样本与负样本提供给步骤2.2和步骤2.3。

2.2：分别计算正样本中h、r、t在时间τ下的基于结构信息的表示

其中，h，r，

分别为h，r,t的原始的向量表示，d为向量的维度，

表示1*d 的矩阵，d为1时表示一个标量，以下同理；

为时间区间τ的参数。负样本的计算过程同正样本，得到

提供给步骤2.3.5和步骤2.4。

2.3：通过带注意力机制的卷积神经网络分别计算实体h，t在时间τ以及关系r 这一上下文中的基于描述信息的表示。在此步骤中，由于对实体h和t的处理过程相同，用e表示其中任意一个实体，其描述文本的词向量序列为x_1:n＝ [x₁，x₂,…,x_n]，

表示序列中的第i个向量，d₁为向量的维度，提供给步骤 2.3.1。神经网络结构如图4，各层操作如下：

2.3.1：第一卷积层。在卷积层中，使用大小为k的卷积核对输入序列进行一维卷积。所以卷积层输出的第i个向量为c_i＝σ(W·x_i:i+k-1+b)。其中，

是卷积核，d₁为输入向量的维度，d₂为输出向量的维度，在卷积层中可看作特征图的个数，

为偏置项，σ是激活函数，选择ReLU作为激活函数。最终卷积层的输出为c_1:m＝[c₁,c₂,…,c_m]，m＝n-k+1为池化层输入序列的长度。

2.3.2：最大池化层。在第一个卷积层之后，进行一次池化操作。池化操作可以压缩卷积层的输出与参数的数量，也在一定程度上防止了过拟合。池化层以上一个卷积层的输出序列c_1:m作为输入。我们使用最大池化，以一个大小为l的窗口在输入序列上以步长s进行滑动，则第i个窗口的输出为p_i＝max(c_{(i-1)·s+1:(i-1)·s+l}),

最终池化层的输出为

2.3.3：dropout。在训练期间，dropout层通过在输入的数据中随机选取一定比例的进行丢弃(置为0)，防止过拟合。我们对池化层的输出进行Dropout 操作，并作为第二个卷积层的输入。

2.3.4：第二卷积层。本层以2.3.3的输出序列为输入，处理同步骤2.3.1，记输出为y_1:o，o为输出序列的长度，输出到步骤2.3.5。

2.3.5：注意力层。以步骤2.3.4的输出y_1:o作为输入，依次计算序列中每一个序列的权重，并进行加权求和。对于序列中第i个向量y_i，计算其在关系r与时间τ约束下的权重

将序列y_1:o中所有向量根据其权重进行加权求和得到实体e在关系r与时间τ之下的基于实体描述的表示

作为输出提供给步骤2.4。

2.4：联合两种实体表示得到实体的最终表示。对于实体e，在关系r与时间τ下的最终表示为

其中σ为sigmoid函数，参数

为实体基于结构信息的表示的权重。相应的头实体h的最终表示记为h_τ，r，尾实体t的最终表示记为t_τ，r。

2.5：计算损失值。对于正样本X以及负样本X′，损失值loss＝max(0,f(X)- f(X′)+γ)，其中为f评分函数

为向量的第一或第二范式，γ>0为超参数，表示正负样本之间的间距。将损失值提供给步骤2.3。

2.6：优化模型参数。根据步骤2.5得到的损失值，使用梯度下降法或Adam 算法调整模型参数，最小化模型整体的损失值。

2.7：如果进行一次迭代后达到停止迭代的条件(损失值小于设置的阈值或迭代次数达到最大次数)，则结束训练，否则继续步骤2.1。

2.8：得到训练完的模型，提供给步骤3.1。

第三步：知识推理应用。给定待预测的(缺少实体或关系的)四元组，预测其缺失部分。流程如图6所示。

3.1：在步骤2.8得到的模型中，依次将知识图谱中的所有实体(或关系) 分别代入到该四元组的缺失部位中，并计算代入实体(或关系)后评分函数f的值，最后将所有实体(或关系)的评分提供给步骤3.2。

3.2：根据评分进行排序，选出评分最高的一个或多个实体(或关系)作为预测值。

参考文献

[1]Dasgupta S S,Ray S N,Talukdar P.Hyte:Hyperplane-based temporallyaware knowledge graph embedding[C]//Proceedings of the 2018 conference onempirical methods in natural language processing.2018:2001-2011.

[2]Xie R,Liu Z,Jia J,et al.Representation learning of knowledgegraphs with entity descriptions[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2016, 30(1).

创新点

提出了一种基于表示学习的时间知识图谱推理方法，不同于先前的时间知识图谱推理方法，我们在时间知识图谱表示学习模型HyTE的基础上，引入了实体描述，丰富了实体信息，有利于模型对实体表示进行学习。并且本发明提出的基于时间与关系的注意力机制，能够根据四元组中时间与关系的不同，关注到实体描述中的不同的位置，学习最相关的信息。

本发明提出的方法在预测任务中有很好的表现，提高了时间知识图谱推理的准确率。

Claims

1.一种基于表示学习的时间知识图谱推理方法，其特征在于，包括：

步骤1、构建带实体描述的时间知识图谱数据集；

步骤3、知识推理应用。

2.如权利要求1所述的一种基于表示学习的时间知识图谱推理方法，其特征在于，所述步骤1中，数据集中包含关系、实体、实体描述以及表示成四元组的知识：

1.1：利用爬虫技术，从百科类网站或现有知识库中，为知识图谱中的实体爬取实体描述文本，提供给步骤1.2；

1.2：实体描述文本预处理，提供给步骤1.3；

1.2.2：删除非时间的数字，只代表年份的数字串；

1.3：利用知识抽取技术，从网络文本或现有知识库中，抽取带时间约束的知识，构建时间知识图谱，提供步骤1.4；

1.4：对知识中的关系、实体进行编号，将知识表示为四元组；其中，四元组(h，r，t，τ)，表示头实体h与尾实体t之间存在关系r这一事实只有在时间范围τ＝[τ_s，τ_e]下是正确的，τ_s和τ_e分别为开始时间与结束时间，提供步骤1.5；

1.5：对四元组中的时间标签预处理；根据时间区间将时间知识图谱拆分为多个静态的子图，每个子图由该时间区间下正确的四元组构成；

3.如权利要求1所述的一种基于表示学习的时间知识图谱推理方法，其特征在于，所述步骤2中，融合实体描述的时间知识图谱表示学习模型的构造，包括两部分：基于HyTE的结构表示学习以及基于带注意力机制的CNN的文本表示学习；首先，利用HyTE模型来编码知识图谱的结构信息；然后利用带注意力机制的卷积神经网络编码实体的文本信息；最后使用一种机制学习两种信息的最佳权重，联合成最终的实体表示；具体步骤为：

2.1：依次从步骤1.5得到的数据集中选择一个正样本X＝(h，r，t，τ)，并随机替换h、r、t其中之一得到负样本X′＝(h′，r′，t′，τ)，将正样本与负样本提供给步骤2.2和步骤2.3；