CN108509654B

CN108509654B - 动态知识图谱的构建方法

Info

Publication number: CN108509654B
Application number: CN201810349808.9A
Authority: CN
Inventors: 贾维嘉; 丁建辉; 马世珩
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2021-12-28
Anticipated expiration: 2038-04-18
Also published as: CN108509654A

Abstract

本发明提供了一种动态知识图谱的构建方法，所述动态知识图谱的构建方法包括获得所有实体的组合结构向量，所有实体包括新实体和知识图谱中的实体；获得所有实体的文本向量；将所有实体的组合结构向量和文本向量组合，以形成的所有实体的联合向量，基于所有实体的联合向量构建动态知识图谱。通过将实体的组合结构向量和文本向量组合起来形成它们的联合向量，从而使得新实体以及知识图谱中的实体共享同一个结构特征空间以及文本特征空间，从而增加新实体与知识图谱中的实体的关联度，从而提高了构建动态知识图谱的准确率。

Description

动态知识图谱的构建方法

技术领域

本发明涉及信息抽取技术领域，特别涉及一种动态知识图谱的构建方法。

背景技术

知识图谱能提供高质量的结构化数据，目前已经广泛地应用于人工智能的多个领域，例如自动问答、搜索引擎以及信息抽取。典型的知识图谱通常以三元组的形式表示-(头实体，关系，尾实体)，例如(姚某某，国籍，中国)反映了姚某某的国籍是中国这件事实。然而，大多数现有的知识图谱都是以半自动或者人工的方式构建，因此存在两个问题：(1)不完整，知识图谱中很多实体之间潜在的关系没有被挖掘；(2)扩展性较差，不能自动地向知识图谱中添加新实体。

由于知识图谱是很多人工智能应用的基石。因此，很多工作都在研究知识图谱补全任务，即预测三元组中缺失的部分，例如(？，国籍，中国)、(姚某某，国籍，？)、(姚某某，？，中国)。为了更好地进行知识图谱补全任务，这些工作都聚焦于如何更好地表示知识图谱。除了利用知识图谱本身所蕴含的结构信息外，不少工作还结合了实体的描述、类型等额外信息来给知识图谱建立更准确的表示。根据具体所结合的信息，可以把相关工作分成两类：(1)仅利用知识图谱的结构信息(三元组)来建立实体和关系的表示向量。TransE是这类工作的代表，该模型的基本思想是认为尾实体向量是由头实体向量经过关系向量偏移得到的。虽然TransE具有简单高效的特点，但是它不适合对复杂关系进行建模，因此后续有许多工作，例如TransH、TransR、TransD都对它进行了改进，并在知识图谱补全任务中取得了较大的提升；(2)知识图谱中的实体通常拥有丰富的额外信息，例如实体的描述、名称、类型等。这些信息从不同方面对实体进行了刻画，许多方法将它们作为结构信息的一个补充，融入到知识图谱的表示学习中。

对于第一类方法，它们只适用于知识图谱中实体集、关系集都固定不变的场景。当向知识图谱中添加新实体或者新关系时，第一类方法通常无法直接获取新实体的向量。仅当新实体与知识图谱中实体有显性的(辅助)三元组关联时，第一类方法才能推理出新实体的向量。此外，在拥有辅助三元组的场景下，为了能更准确地获取新实体的向量，第一类方法通常需要将所有的数据(三元组)重新训练一遍，这种做法比较耗时并且扩展性较差。对于第二类方法，它们结合了实体的额外信息，能够直接建立新实体的语义向量。但是，在真实场景中，新实体的额外信息与知识图谱中实体的额外信息之间的重合程度不是特别高。例如实体的描述信息，新实体描述信息中的很多词没有在知识图谱中的实体描述中出现。同时，这些方法通常是从词层面对描述进行建模，会导致较为严重的未登录词问题。由于这些新词无法获得较为精准的语义向量并且它们所占的比例也不小，导致在仅用描述信息的情况下，很难在新实体与知识图谱中的实体建立有效的关联，从而无法高效的完成涉及新实体的知识图谱补全任务。

针对现有技术中构建动态知识图谱的方法存在的不足，本领域技术人员一直在寻找解决的方法。

发明内容

本发明的目的在于提供一种动态知识图谱的构建方法，以增强新实体与知识图谱中实体的关联，提升构建动态知识图谱的准确率。

为解决上述技术问题，本发明提供一种动态知识图谱的构建方法，所述动态知识图谱的构建方法包括如下步骤：

获得所有实体的组合结构向量，所有实体包括新实体和知识图谱中的实体；

获得所有实体的文本向量；

将所有实体的组合结构向量和文本向量组合，以形成的所有实体的联合向量，基于所有实体的联合向量构建动态知识图谱。

可选的，在所述的动态知识图谱的构建方法中，获得所有实体的组合结构向量的过程如下：

根据实体的相似度算法获得所有实体的最相似的K个基实体，K为正整数；

基于K个基实体的结构向量构建与之对应的实体的组合结构向量。

可选的，在所述的动态知识图谱的构建方法中，根据推理函数建立实体的组合结构向量，所述推理函数如下：

其中，I表示推理函数；e_s1表示实体e的基结构向量，通过学习获得；e_s2表示实体e的组合结构向量；P(e)代表了实体e最为相似的K个基实体的结构向量。

可选的，在所述的动态知识图谱的构建方法中，所述实体的相似度算法是基于实体的相似度进行计算，所述实体的相似度基于实体的描述信息和实体的类型信息构建。

可选的，在所述的动态知识图谱的构建方法中，任意两个实体的相似度的计算公式如下：

S(e_i,e_j)＝β*S_d(e_i,e_j)+(1-β)*S_t(e_i,e_j),

公式中，e_i，e_j表示实体；

S_d表示基于描述信息的实体相似度，S_t表示基于类型信息的实体相似度；β为用于平衡基于描述信息的相似度以及基于类型信息的相似度的超参数，β的取值范围为[0,1]；D_ei表示实体e_i的描述信息；D_ej表示实体e_j的描述信息；T_ei表示实体e_i的类型信息；T_ej表示实体e_j的类型信息。

可选的，在所述的动态知识图谱的构建方法中，某一实体的联合向量用公式表示如下：

e＝α*e_s2+(1-α)*e_d；

其中，α是实体e的组合结构向量的权重，α的取值范围为[0,1]；e_s2表示实体e的组合结构向量；e_d表示实体e的文本向量。

可选的，在所述的动态知识图谱的构建方法中，获取实体的文本向量的方式为：

采用循环神经网络生成。

采用循环神经网络中的双向GRU神经网络生成。

可选的，在所述的动态知识图谱的构建方法中，获取实体的文本向量的公式如下：

其中，e_d表示实体e的文本向量；

为双向GRU神经网络在时间步t的输出为正向和反向输出的拼接；每一个时间步输出的维度为n。

在本发明所提供的动态知识图谱的构建方法中，所述动态知识图谱的构建方法包括获得所有实体的组合结构向量，所有实体包括新实体和知识图谱中的实体；获得所有实体的文本向量；将所有实体的组合结构向量和文本向量组合，以形成的所有实体的联合向量，基于所有实体的联合向量构建动态知识图谱。通过将实体的组合结构向量和文本向量组合起来形成它们的联合向量，从而使得新实体以及知识图谱中的实体共享同一个结构特征空间以及文本特征空间，从而增加新实体与知识图谱中的实体的关联度，从而提高了构建动态知识图谱的准确率。

附图说明

图1是本发明一实施例的动态知识图谱的构建方法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明提出的动态知识图谱的构建方法作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

请参考图1，其为本发明一实施例的动态知识图谱的构建方法的流程图，如图1所示，所述动态知识图谱的构建方法，包括如下步骤：

首先，执行步骤S1，获得所有实体的组合结构向量，所有实体包括新实体和知识图谱中的实体；

接着，执行步骤S2，获得所有实体的文本向量；

接着，执行步骤S3，将所有实体的组合结构向量和文本向量组合，以形成的所有实体的联合向量，基于所有实体的联合向量构建动态知识图谱。

组合结构向量及文本向量各有各自的优点：前者能够捕获隐藏在三元组中的结构信息，而后者能够从实体描述中获取有价值的语义信息。

具体的，S1中，获得所有实体的组合结构向量的过程如下：

优选的，根据推理函数建立实体的组合结构向量，所述推理函数如下：

所述实体的相似度算法是基于实体的相似度进行计算，所述实体的相似度基于实体的描述信息和实体的类型信息构建；任意两个实体的相似度的计算公式如下：

S(e_i,e_j)＝β*S_d(e_i,e_j)+(1-β)*S_t(e_i,e_j),

公式公式中，e_i，e_j表示实体；

S2中，获取实体的文本向量的方式为：采用循环神经网络生成，相比卷积神经网络，循环神经网络更加适合对序列数据进行建模。

优选的，采用循环神经网络中的双向GRU(bidirectional gated recurrent unitnetwork)神经网络对实体的描述信息进行编码生成，获取实体的文本向量的公式如下：

其中，e_d表示实体e的文本向量；

具体学习及训练过程如下：

对于实体e的描述信息D_e＝(w₁，w₂，...，w_n)，首先利用word2vec算法学习到描述信息中每个词的向量；接着，利用双向GRU网络来对D_e进行编码，基于GRU网络中有个时间步的概念，在每个时间步向GRU网络输入一个词向量，这个词向量与之前学到的信息进行结合，然后传播到下一个时间步。其中，时间步的长度取决于实体描述信息包含的词的数量。

普通的GRU只能捕获序列单向的信息，例如从左到右(正向)对序列进行处理，这忽略了序列反向的信息。为了能够更加充分地利用序列的正向以及反向的信息，使用了双向GRU神经网络。其中，用

表示正向GRU神经网络在时间步t的输出，

表示反向GRU神经网络在时间步t的输出。而双向GRU神经网络在时间步t的输出

为正向和反向输出的拼接：

完整的双向GRU网络(BIGRU)则可以表示为：

其中，

表示双向GRU模型所有时间步输出的拼接。令每一个时间步输出的维度为n，时间步的数量为d，那么

是2d x n的一个矩阵。为了充分利用双向GRU每一个时间步的输出，以时间步为维度，将每一个时间步输出的平均作为双向GRU最终的输出：

通过层次结构表示学习以及双向GRU神经网络，得到所有实体的组合结构向量以及文本向量。

接下来，描述下具体的训练过程，对于训练集M，把第i个三元组表示为(h_i，r_i，t_i)，(i＝1，2，...，|M|)，其中，每一个三元组都有一个标签y_i来表明对应三元组是正样本(y_i＝1)还是负样本(y_i＝0)。正样本以及负样本集分别表示为L＝{(h_i，r_i，t_i)|y_i＝1}和L′＝{(h_i，r_i，t_i)|y_i＝1}。

假设在训练集中的三元组都是正样本，然后通过一定的规则构造负样本集：

L′_h＝{(h_i′，r_i，t_i)|h_i′≠h_i∩y_i＝1}

L′_t＝{(h_i，r_i，t_i′)|t_i′≠t_i∩y_i＝1}

L′_r＝{(h_i，r_i′，t_i)|r_i′≠r_i∩y_i＝1}

L′＝L′_h∪L′_t∪L′_r

为了与先前的工作保持一致，在训练过程中同时生成两类负样本，第一类按照关系的性质替换头尾实体，第二类是直接替换关系。其中，若生成的三元组在训练集中，则认为该三元组是正样本，需要重新生成。通过生成的负样本，定义了一个基于边距的目标函数P：

其中，γ用于控制正样本与负样本之间的距离，是一个大于0的常数。E(h，r，t)是前面已经定义过的能量函数。此外，为了减轻过拟合的风险，在最小化目标函数P的同时，结合L-2范数对实体的结构向量以及文本向量、关系的向量进行约束：

||e_s1||₂≤1，||e_s2||₂≤1，||e_d||₂≤1，||r||₂≤1。

S3中，以实体e为例，将实体e的组合结构向量和文本向量先行组合，形成的联合向量用公式表示如下：

e＝α*e_s2+(1-α)*e_d；

其中，α是实体e的组合结构向量的权重，α的取值范围为[0，1]，当α等于1时，说明实体e的联合向量仅由组合结构向量组成；当α等于0时，说明实体e的联合向量仅由文本向量组成；e_s2表示实体e的组合结构向量；e_d表示实体e的文本向量。

基于S3获得的联合向量，即构成联合模型，联合模型主要分成两个部分：第一部分主要是给新实体以及知识图谱中的实体寻找最为相似的K个基实体，然后用这些基实体构造对应的组合结构向量；第二部分则是根据实体的描述信息建立文本向量。

构成联合模型的具有的优点如下：

1)较好的扩展性。本发明的联合模型基于TransE，该模型是最基础的翻译模型。后续有许多工作对TransE进行了改进，例如TransD、TransR，我们的模型能够很容易地扩展到这些改进的模型上。

2)易于实现。通过基于描述以及类型的实体相似度算法，可以直接得到新实体以及知识图谱中实体的组合结构向量。

3)让新实体与知识图谱中的实体共享两个空间(结构特征&文本特征)，增强了两类实体之间的关联。

对于三元组(h，r，t)，利用e^(h)/e^(t)来分别标记它对应头/尾实体的联合向量，用r来标记对应的关系向量。构建的联合模型的能量函数定义如下：

其中，||·||_L1/L2表示L1-范数以及L2-范数。能量函数的值越小，对应三元组是正确的概率越大，由此可以获得本发明的联合模型对应的三元组的正确的概率。

为了验证本发明提供的动态知识图谱的构建方法的有效性，下面以在两个标准数据集(FB15K&FB20K)上做的对比实验进行验证说明。

做了知识图谱补全的两个经典子任务：实体预测以及关系预测。FB15K总共包含14904个不同的实体，以及1341个不同的关系。FB20K与FB15K共享相同的训练集、关系集以及部分实体。把FB15K中的实体当做知识图谱中的实体(In-KG entities)，而仅在FB20K中出现的实体当做新实体(Out-of-KG entities)。此外，根据头尾实体是否属于新实体，可以把FB20K中的测试集分成4类：(1)头尾实体都是In-KG(e-e)；(2)头实体是In-KG，尾实体是Out-of-KG(e-d)；(3)头实体是Out-of-KG，尾实体是In-KG(d-e)；(4)头尾实体都是Out-of-KG(d-d)。为了模拟涉及新实体的知识图谱补全任务，仅选择d-e以及e-d作为测试集。同时，为了与以前方法保持一致，将FB15K中的Valid集作为真实的验证集。

表1.FB15K以及FB20K的情况

直接使用先前工作用过的实体描述以及实体类型信息。为了维持句子的完整性，没有去掉句子中的stopwords，因为这些词可能对句子的语义表达有用处。去掉一些特殊的符号后，实体描述的平均长度为147。接着，通过word2vec算法得到每个实体描述中每个词的词向量，这些词向量被当做双向GRU的输入。

选取在涉及新实体的知识图谱补全任务上表现比较好的方法作为baseline：Partial-CBOW，CBOW，Partial-CNN以及CNN。

实体预测的目标是推理出三元组中缺失的实体，根据实体的位置可以分成两类：(1)预测尾实体，例如推理出三元组(姚某某，国籍，？)中的空缺实体；(2)预测头实体，例如推理出三元组(？，演员，张某某)中的空缺实体。

在实体预测这个任务上，采取与先前工作一致的测试方案。对于测试集中的三元组(h，r，t)，需要把头(尾)实体替换成实体集中的所有实体，计算对应三元组的得分并且按照降序排序。采用两种衡量标准：(1)HITS@10，该标准反映了正确三元组排名在前10的比例；(2)MRR，该标准反映了正确三元组排名的倒数的平均。值得一提的是，替换后生成的三元组可能存在于训练集、验证集以及测试集中，这些替换三元组其实也是正确的，因此把它们排在正确三元组前面也是符合情理的。因此，在对正确三元组进行排序的时候，把这些正确的替换三元组去掉，这种做法称为“filter”。其中，HITS@10以及MRR越高代表模型的效果越好。由于在训练过程中，负样本都是按照一定的策略随机生成，这造成实际上每次的训练数据都不一样。因此，为了确保结果的可靠性，把5次实验结果的平均作为最终结果。

由于数据集是一致的，直接使用baselines对应文章的结果。使用Adam作为梯度下降的优化算法，并且令mini-batch的大小为1024。在构建实体组合结构向量的过程中，使用最为相似的10个基实体。接着在{1，2}中选择γ，在{50，100}中选择词向量的维度n_w，在{0.0005，0.001}中选择学习率lr，在{50，100}中选择实体以及关系的维度k(实体和关系的维度保持一致)，在{0，0.3，0.5，0.7，1}中选择实体相似度算法中描述的比重β，在{0，0.5，1}中选择在联合表示中层次结构表示所占的比重α。在验证集上获得了最好的超参数组合。在“bern”这种负样本生成策略上，最优的超参数组合为：γ＝1，n_w＝1，lr＝0.0005，k＝100，β＝0.7，α＝0.5。此外，模型的迭代轮次统一为1000轮。

表2.FB20K上的HITS@10结果对比(实体预测)

表3.FB20K上的MRR结果对比(实体预测)

为了能更加清晰地分析出模型取得效果的原因，具体跑了4个模型：(1)Single(CNN)仅考虑了实体的描述，并用卷积神经网络(CNN)对实体描述进行建模；(2)Single(Bi-GRU)仅考虑了实体的描述，并用双向GRU对实体描述进行建模；(3)Single(AVG)仅考虑了知识图谱的结构信息，并用最为相似的基实体的平均构建实体的组合结构向量；(4)Jointly(Bi-GRU+AVG)则是(2)与(3)的结合，是一种联合学习模型。其中，(1)是先前工作的一种简化，(2)-(4)则是建立的联合模型。

从表2可知，在Hits@10这个指标上，联合模型取得了优于所有baseline的结果，并在total这个数据集上取得了4％的提升。这表明文本向量和结构向量的组合是有必要的。此外，对于实体预测任务，Single(Bi-GRU)以及Single(CNN)各有各自的优势：前者在Hits@10上取得较好的效果，而后者在MRR上取得了较好的效果。一个可能的原因是后者使用了更多的实体描述信息来建立文本表示向量。从表3的结果可知，预测新实体的MRR还非常差，这表明新实体的表示学得还不够好，导致无法有效地区分知识图谱中的实体和新实体，说明联合模型对这两类实体的区分能力还有待加强。

关系预测的目标是推理出三元组中缺失的关系，例如预测三元组(姚某某，？，中国)中缺失的关系。采用和实体预测任务一致的实验方案。对于测试集中的三元组(h，r，t)，需要替换关系集中的所有关系，并计算出替换三元组的得分。由于关系的数量小于实体的数量，并且在HITS@10上已经取得了较高的结果。为了能够更好地衡量模型的性能，把HITS@1作为衡量指标。由于数据集是一样的，直接使用baseline所在文章中的结果。在“bern”策略下，最优参数为：γ＝1，n_w＝1，lr＝0.0005，k＝100，β＝0.7，α＝0.5。此外，模型的迭代轮次统一为1000轮。

表4.FB20K上的HITS@1结果对比(关系预测)

表5.FB20K上的MRR结果对比(关系预测)

从表4&表5可知，在Hits@1上，单模型Single(AVG)取得了15.4％的提升。此外，与实体预测不同，Single(Bi-GRU)在Hits@1以及MRR这两个指标上均优于Single(CNN)。通过对比可知，模型在关系预测上取得的提升要比实体预测上大。主要的原因在于对于正确三元组，头尾实体的特性(例如类型)与关系有很大的相关性。例如，对于“国籍”这个关系，其头实体应该具有“人”这个类型。如果知道头尾实体的公有类型，可以很大概率上决定具体的关系。通过层次结构向量以及文本向量，模型能将相似的实体聚集在一起。

根据Single(Bi-GRU)、Single(AVG)以及Jointly(Bi-GRU+AVG)的结果，可以得知在关系预测上获得的提升主要来源于组合结构向量。有趣的是，Single(AVG)在关系预测上取得了最好的结果但在实体预测上几乎是最差的，这说明Single(AVG)可能导致相似实体的结构向量太过于相似，导致实体之间的区分度大大降低。当对结构以及文本信息进行联合学习时，结构向量主要捕获到了实体之间的相似，而文本向量则突出了实体之间的差异。

综上，在本发明所提供的动态知识图谱的构建方法中，所述动态知识图谱的构建方法包括获得所有实体的组合结构向量，所有实体包括新实体和知识图谱中的实体；获得所有实体的文本向量；将所有实体的组合结构向量和文本向量组合，以形成的所有实体的联合向量，基于所有实体的联合向量构建动态知识图谱。通过将实体的组合结构向量和文本向量组合起来形成它们的联合向量，从而使得新实体以及知识图谱中的实体共享同一个结构特征空间以及文本特征空间，从而增加新实体与知识图谱中的实体的关联度，从而提高了构建动态知识图谱的准确率。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。