CN111026875A

CN111026875A - 一种基于实体描述和关系路径的知识图谱补全方法

Info

Publication number: CN111026875A
Application number: CN201911170773.3A
Authority: CN
Inventors: 刘洋; 梁循
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-17

Abstract

本发明涉及一种基于实体描述和关系路径的知识图谱补全方法，步骤为：S1、以实体文本描述为基础，建立连续词袋模型，利用连续词袋模型将知识图谱中实体的实体描述进行向量表示，得到基于描述的向量；S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型，建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数，并通过最小化损失函数，学得实体、关系和路径的向量表示以及学习基于结构的向量表示；S3、采用学习到的实体向量表示，在不同任务中获取向量空间中的表示结果，对知识图谱进行补全或对潜在关系进行挖掘。

Description

一种基于实体描述和关系路径的知识图谱补全方法

技术领域

本发明涉及一种基于实体描述和关系路径的知识图谱补全方法，属于互联网技术领域。

背景技术

近年来，随着互联网技术和应用模式的迅猛发展，引发了互联网数据规模的爆炸式增长，其中包含大量有价值的知识。如何组织和表达这些知识，并对其进行深入计算和分析备受关注。知识图谱作为丰富直观的知识表达方式应运而生。面向知识图谱的知识推理是知识图谱的研究热点之一，已在垂直搜索、智能问答等应用领域发挥了重要作用。面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识。不同于传统的知识推理，由于知识图谱中知识表达形式的简洁直观、灵活丰富，面向知识图谱的知识推理方法也更加多样化。随着时间和新知识的增加，知识图谱的丰富性和完善性受到了一定的制约，因此，需要对知识图谱进行扩展学习推理。现有对知识图谱的学习和推理方法有：基于向量嵌入转换算法、基于张量分解推理算法、基于路径推理算法等。上述多种推理方法中，由于向量嵌入转换模型简单，参数较少，因此成为目前研究的主要方向。

知识图谱实体数量巨大，网络结构稀疏性严重。近年来在知识图谱的研究上取得了显著的进展，表示学习运用于知识图谱中，将所有实体与关系映射到一个低维连续向量空间中，解决了之前知识图谱学习时产生的稀疏性与效率问题。但是，目前已有的知识图谱表示学习方法在训练时需要学习实体之间的结构关系，而忽略了知识图谱中的实体文本描述等额外信息，知识图谱补全以及实体分类等任务中准确率比较低，现有基于翻译转化的知识图谱补全算法能很好地抓住数据的内在特征，算法高效且易操作，但是该算法依赖于纯粹的数据驱动，对实体之间关系的预测能有很好的解释，但是在低连通图中会出现严重的数据稀疏问题。

发明内容

针对上述问题，本发明的目的是提供一种能够提高计算效率以及复杂关系推理准确性的基于实体描述和关系路径的知识图谱补全方法。

为了实现上述目的，本发明采用的技术方案为：一种基于实体描述和关系路径的知识图谱补全方法，包括步骤：

S1、以实体文本描述为基础，建立连续词袋模型，利用连续词袋模型将知识图谱中实体的实体描述进行向量表示，得到基于描述的向量，其中，连续词袋模型是根据训练文本中词语的上下文来训练预测该词语的向量表示；

S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型，建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数，并通过最小化损失函数，学得实体、关系和路径的向量表示以及学习基于结构的向量表示；

S3、采用学习到的实体向量表示，在不同任务中获取向量空间中的表示结果，对知识图谱进行补全或对潜在关系进行挖掘。

进一步地，上述步骤S1的具体实现过程为：

S11、构建数据集，根据用户输入设置连续词袋模型参数，并对实体描述中的词向量进行初始化；其中，数据集包括知识图谱的实体关系三元组以及实体描述，三元组包括首实体的向量表示h，尾实体的向量表示t，关系向量表示r；

S12、基于连续词袋模型获取三元组实体描述文本，由描述文本进行建模后得到的词语向量表示，获得文本的向量矩阵，根据词向量相似度进行聚类合并，统计词频，获得所述文本词语分布矩阵，并利用文本词语分布矩阵，获得实体描述特征向量，利用文本的特征从实体描述中抽取关键词；

S13、基于关键词词向量构建基于实体描述的向量表示hd,td。

进一步地，上述步骤S2的具体实现过程为：

S21、获取头实体与尾实体(h,t)间关系路径p的置信度R(p|h,t)；

S22、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化，将实体集和关系集嵌入到低维连续向量空间，并进行规范；

S23、使用负采样的方法构造负例，替换有效三元组中元素，构造出无效三元组作为负例；

S24、计算有效三元组和无效三元组的势能函数以及关系路径的势能函数：

E(h，r，t)＝||h+r-t||

E(h，p，t)＝||h+p-t||；

S25、将有效三元组得到的势能函数、关系路径向量得到的势能函数构造损失函数L，并将关系路径p可信度值作为损失函数中多跳关系路径的路径向量和路径两端的头尾实体向量构成的势能函数的权重：

式中，L(h,r,t)表示关系三元组(h,r,t)基于边际的损失函数，L(h,p,t)表示路径三元组(h,p,t)基于边际的损失函数，R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性，Z表示归一化因子，S表示有效三元组集合，S-表示无效三元组集合；

S26、采用随机梯度下降的优化方法，根据损失函数值减小的方向对实体向量和关系向量进行更新操作，根据算法收敛的条件重复步骤S25，直至有效三元组和无效三元组的势能趋于稳定，无需再修正，迭代次数达到最大值，停止迭代，得到三元组向量表示。

进一步地，上述步骤S21的具体实现过程为：

S211、设r＝0于是初始值Rp(h)＝1；

S212、从h到t递归执行概率分配，将直接前驱所拥有概率平均分配给其直接后继，得到不同路径的出现概率，置信度高的路径出现概率越高，置信度低的路径出现的概率越低；

S213、从头实体h依次递归执行，得到关系路径的概率分配为其尾实体所包含从头实体到尾实体的所有路径的概率和，即得到头尾实体匹配概率。

进一步地，上述步骤S23的具体实现过程为：

对于知识图谱中存在的三元组，仅替换其头实体，构成无效三元组；

对于知识图谱中存在的三元组，仅替换其尾实体，构成无效三元组；

对于知识图谱中存在的三元组，仅替换其间关系，构成无效三元组。

本发明由于采取以上技术方案，其具有以下特点：本发明提出一种基于实体描述的关系路径的知识图谱补全方法，这种方法既利用了基于翻译转化方法的高效特点，结合了基于关系路径的优势，并且利用实体描述文本对实体进行建模，使得到的分布式知识表示向量不仅可以包含实体之间的多跳关系路径两端的实体之间隐含的新关系，提高了计算效率以及复杂关系推理的准确性。

附图说明

图1为本实施例的基于实体描述和多跳关系路径的关系预测示意图；

图2为本实施例的连续词袋模型的建立过程示意图；

图3为本实施例的知识图谱表示学习过程流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于实体描述与关系路径的知识图谱补全方法，引入实体描述以及关系路径，将知识图谱中的实体和关系嵌入到低维向量空间进行表示，并利用表示向量对知识图谱潜在关系进行挖掘，进而对知识图谱进行补全，具体实现过程为：

S1、如图1所示，以实体文本描述为基础建立连续词袋模型，利用连续词袋模型将知识图谱中实体的实体描述进行向量表示，得到基于描述的向量，具体过程为：

S11、构建数据集，根据用户输入设置基于连续词袋的模型参数，并对实体描述中的词向量进行初始化；

其中，连续词袋模型是根据训练文本中词语的上下文来训练预测该词语的向量表示。假设输入一个训练文本，词袋中一共有t个单词，设置上下文的窗口大小，如图2中的连续词袋模型的窗口大小参数为2，输入层为词语w_t的上下文w_t-2，w_t-1，w_t+1，w_t+2，中间一层为映射层，映射层对输入层的词向量做累加取平均值，当所有的窗口进行此操作后，再使用Hierarchical Softmax或Negative Sampling对模型进行训练，最后输出为词语w_t的向量表示形式，即词向量。

具体地，本实施例的数据集包括知识图谱的实体关系三元组，实体关系三元组能够表示实体以及实体间的语义关系，例如(马伊琍，生活在，上海)以及实体描述(关于马伊琍、上海的文本描述内容)；实体关系三元组包括首实体的向量表示h，尾实体的向量表示t，关系的向量表示r。

采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化，即定义参数所在层的输入维度为n，输出维度为m，那么参数将以均匀分布的方式在

(n为向量维度，k为模型层数，本实施例中k为2)的范围内进行初始化。根据用户输入设置连续词袋的模型参数，并根据词典规模设置词向量维度，模型训练学习率，获取实体三元组结构向量；

S12、基于连续词袋模型获取三元组实体描述文本，由描述文本进行建模后得到的词语向量表示，获得文本的向量矩阵，根据词向量相似度进行聚类合并，统计词频，获得所述文本词语分布矩阵，并利用所述文本词语分布矩阵，获得实体描述特征向量，利用文本的特征从实体描述中抽取关键词。

以Word2vec模型为例，即将文档词语集作为输入，利用Word2vec模型进行训练，将输出每个词对应出词向量添加至文档词语向量集中。得到文档词语向量集之后，通过无监督聚类对相同或相近的词语进行合并，并统计合并后的词频，生成文档词语分布矩阵。其中，进行聚类合并即根据向量相似度进行聚类，如基于向量之间的相似距离进行聚类合并划分。将文档词语分布矩阵输入至诸如LDA模型(Latent Dirichlet Allocation，一种文档主题生成模型)、NMF模型的文档主题生成模型中进行建模，获得文档主题分布矩阵和主题关键词分布矩阵。其中，NMF(non-negative matrix factorization，为非负矩阵分解)模型为一种矩阵分解方法。

S13、基于关键词词向量构建基于实体描述的向量表示hd,td。

LDA模型损失函数：

其中，v_i，j为文档词语，向量集中单词Wj在实体Hi的实体描述的频率，A_Hi为实体描述主题向量，S_wj为对应的单词主题分布向量，当Lloss最小时，LDA模型性能达到最优，输出文档主题分布矩阵和主题词语分布矩阵。

然后，通过查找文档主题分布矩阵和主题词语分布矩阵，确定出每个实体描述关联度最大的关键词，关键词的数量可用e表示，得到关键词向量矩阵。然后将关键词向量矩阵转换至多领域知识图谱三元组信息空间，便可获得实体描述特征向量。即获得三元组结构中关于关系的向量表示。具体地，可通过深度学习方法进行映射，获得实体描述特征向量。将关键词矩阵输入至神经网络中进行映射，获得实体描述特征向量。

S2、根据实体向量与关系向量以及实体向量与关系路径之间基于转化的模型，建立关系三元组(h,r,t)和路径三元组(h,p,t)的得分函数以及得分函数的损失函数，并通过最小化损失函数，学得实体、关系和路径的向量表示，学习基于结构的向量表示，采用本发明能够更好地表示加入路径后的实体对间的语义信息，且能够应用于复杂的知识图谱推理中，具体实现过程为：

S21、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化、将实体集和关系集嵌入到低维连续向量空间，并进行规范化，遍历实体集合，采用随机游走的方式(PRA)，获取头实体(马伊琍)与尾实体(中国)间关系路径p(生活在，位于)的置信度R(p|h,t)，目的是用于关系路径模型中损失函数的构建，具体过程为：

S211、设r＝0于是初始值Rp(h)＝1；

S212、从h到t递归执行概率分配，将直接前驱所拥有概率平均分配给其直接后继，得到不同路径的出现概率，置信度高的路径出现概率越高，置信度低的路径出现的概率越低。

其中，实体m∈Si，定义通过关系ri的直接前驱为Si-1(·,m),Si(n,·)为n∈Si-1的直接后继。假设初始值Rp(h)＝1。通过从h到t递归执行概率分配，表示不同路径的出现概率：

式中，Si表示为关系ri所指向的所有后继实体集，·表示任意实体，m、n分别表示指定后继实体和指定前驱实体。

S22、采用Xavier方法分别对基于三元组结构和基于实体描述信息的实体向量和关系向量进行随机初始化，初始化学习率、向量维度等参数。将实体集和关系集嵌入到低维连续向量空间(向量化即为嵌入)，并进行规范化，其中，在向量空间中，把关系看作是实体间向量的平移转换。

S23、使用负采样的方法构造负例，替换有效三元组中元素，构造出无效三元组作为负例，用于后续模型的训练。

具体地，负例三元组的构造方法：对于知识图谱中存在的三元组，仅替换其头实体，构成无效三元组；对于知识图谱中存在的三元组，仅替换其尾实体，构成无效三元组；对于知识图谱中存在的三元组，仅替换其间关系，构成无效三元组。假设S是知识图谱中存在的有效三元组的集合，S-是随机构造出的无效三元组。例如：(中国，生活在，上海)、(马伊琍，位于，上海)、(马伊琍，生活在，中国)等为构造的具体负例，也就是说，无效三元组由有效三元组中元素替换得到。与无效三元组相比，该目标将有利于降低有效三元组的分数。

S24、计算有效三元组和无效三元组的势能函数以及关系路径的势能函数，采用L2规范化构造实体与关系之间的能量函数，以及实体与关系路径之间能量函数。

其中，有效三元组和无效三元组的势能函数：

E(h，，r，t)＝||h+r-t||

关系路径的势能函数：

E(h，p，t)＝||h+p-t||

采用L2规范化构造实体与关系之间的能量函数，以及实体与关系路径之间能量函数，具体为：

S241、初等能量函数为三元组基于描述的实体向量(hd,td)与基于结构的实体向量(hs,ts)进行排列组合所得四对头尾实体与关系组成三元组向量(hs,r,ts)、(hd,r,ts)、(hs,r,td)、(hd,r,td)；其中，hs为首实体基于结构的向量表示，ts为尾实体基于结构的向量表示，hd为首实体基于描述的向量表示，td为尾实体基于描述的向量表示；

S242、构造实体与关系之间的能量函数，能量函数为三元组空间距离，即头实体向量加上关系向量与尾实体之间的距离，并进行规范化。需要说明的是，有效三元组的能量函数应尽可能小，而无效三元组之间的距离应尽可能大；

S243、构造实体与关系路径之间的能量函数为：

其中，P为实体间所包含所有关系路径p的集合，R(p|h,t)即为步骤S21所求实体(h,t)间关系路径p的置信度(即S213得到头尾实体匹配概率)，Z为正则化项。

具体地，关系路径的耦合有两种可选方案：

一、相加，将关系路径中各关系向量依次相加来得到关系路径的向量，并将其形式化为：p＝r1+r2+…+rl，具体，即将关系路径(生活在，位于)中关系向量‘生活在’，‘位于’相加；

二、相乘，将关系路径中各关系向量相乘得到关系路径向量，形式化为：p＝r1*r2*…*rl，具体，即将关系路径(生活在，位于)中关系向量‘生活在’，‘位于’相乘。

S25、将有效三元组得到的势能、关系路径向量得到的势能相加构造损失L，并将S21得到的关系路径可信度值作为损失中多跳关系路径的路径向量和路径两端的头尾实体向量构成的势能的权重，损失：

L(h，r，t)＝∑_{(h，r，t)∈S}∑_{(h′，r，t′)∈S}-[E(h，r，t)+γ-E(h′，r′，t′)]

式中，L(h,r,t)表示关系三元组(h,r,t)基于边际的损失函数，L(h,p,t)表示路径三元组(h,p,t)基于边际的损失函数，R(p|h,t)表示给定头尾实体对(h,t)的关系路径p的可靠性，Z表示归一化因子，γ为设定的边际值，(h,r,t)表示有效三元组，(h′，r′，t)表示随机替换掉头实体h、关系r或尾实体t所构建的无效三元组，(h,p,t)表示正确路径三元组，(h，p′，t)表示随机替换掉路径p所构建的无效路径三元组，S＝{(h,r,t)}∪{(h,p,t)}表示有效三元组集合，S-＝{(h′,r,t)}∪{(h,r′,t)}∪{(h,r,t′)}∪{(h,p′,t)}表示无效三元组集合；E(h,r,t)表示有效三元组(h,r,t)的得分函数，E(h′，r′，t′)表示无效三元组(h′，r′，t)的得分函数，E(h,p,t)表示正确路径三元组(h,r,t)的得分函数，E(h,p′,t)表示无效路径三元组的得分函数，[E(h,r,t)+γ-E(h′，r′，t′)]₊＝max(0,E(h,r,t)+γ-E(h′，r′，t′))，[E(h,p,t)+γ-E(h,p′,t)]₊＝max(0,E(h,p,t)+γ-E(h,p,t))。

S26、采用随机梯度下降的优化方法，根据损失值减小的方向对实体向量和关系向量进行更新操作，根据算法收敛的条件重复步骤S25过程，直至有效三元组和无效三元组的势能趋于稳定，无需再修正，迭代次数达到最大值，停止迭代，得到三元组向量表示。

S3、使用学习到的实体的向量表示，在不同任务中获取向量空间中的表示结果，进而可以对知识图谱进行补全或对潜在关系进行挖掘。

知识图谱的补全是指对于现有知识库中的潜在关系但未在知识库中标明的两个实体进行关系推理。即知识库中有以下两个实体关系三元组：(马伊琍，生活在，上海)，(上海，位于，中国)那么，希望推理出(马伊琍，国籍，中国)到现有知识图谱中，知识库关系补全需要两个阶段：

S31、存在潜在关系实体对的发现，对潜在关系的实体对，主要任务是测试通过表示学习得到的向量空间中的知识库；

S32、是否可以对这个潜在关系进行推理，并给出较为准确的答案抑或包含答案的候选集合。

以上方法，同时考虑实体描述所包含的语义信息，以及关系路径多跳关系的结构信息，使得知识图谱的分布式表示更加准确高效。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本申请进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种基于实体描述和关系路径的知识图谱补全方法，其特征在于包括步骤：

2.根据权利要求1所述的知识图谱补全方法，其特征在于，上述步骤S1的具体实现过程为：

S13、基于关键词词向量构建基于实体描述的向量表示hd,td。

3.根据权利要求1所述的知识图谱补全方法，其特征在于，上述步骤S2的具体实现过程为：

S21、获取头实体与尾实体(h,t)间关系路径p的置信度R(p|h,t)；

E(h，r，t)＝||h+r-t||

E(h，p，t)＝||h+p-t||；

4.根据权利要求3所述的知识图谱补全方法，其特征在于，上述步骤S21的具体实现过程为：

S211、设r＝0于是初始值Rp(h)＝1；

5.根据权利要求3所述的知识图谱补全方法，其特征在于，上述步骤S23的具体实现过程为：