CN109063021B

CN109063021B - 一种能够编码关系语义多样性结构的知识图谱分布式表示方法

Info

Publication number: CN109063021B
Application number: CN201810764406.5A
Authority: CN
Inventors: 陈华钧; 张文; 张宇轩
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2021-10-15
Anticipated expiration: 2038-07-12
Also published as: CN109063021A

Abstract

本发明公开了一种能够编码关系语义多样性结构的知识图谱分布式表示方法，从知识图谱中图结构多样性的角度出发，挖掘和总结含有丰富语义信息的子图结构，并将子图结构与关系相关的语义信息联系起来，例如自反性、对称性、传递性等；本发明方法能够更好地编码图结构的多样性，因而可以更好地捕捉知识图谱中存在的语义信息，并达到更好的补全和预测效果，在链接预测任务中能取得更好的表现，具有较强的扩展性，对于在知识图谱分布式表示中编码关系语义多样性结构的应用具有很好的实用价值。

Description

一种能够编码关系语义多样性结构的知识图谱分布式表示方法

技术领域

本发明属于数据存储与处理技术领域，具体涉及一种能够编码关系语义多样性结构的知识图谱分布式表示方法。

背景技术

知识图谱近年来受到了工业界极大的重视，在很多领域都有了成功的应用，例如搜索引擎、智能客服、语音机器人等，很多大型知识图谱被逐渐构建起来，例如GoogleKnowledge Graph以及开放的Freebase、Yago等。知识图谱主要包含实体、关系和三元组，每一个三元组表示一条知识，即两个实体之间存在某一种关系，用(h,r,t)表示，其中h、t分别表示头实体和尾实体，r表示关系，例如(杭州，位于国家是，中国)即表示了“杭州位于中国”这样一条知识。

知识图谱的分布式表示是针对大型知识图谱的补全和推理问题提出的，尽管有的大型知识图谱已经包含百万级的实体以及上亿的三元组，但大多数知识图谱仍然面临不全和知识缺失的问题，这使得知识图谱补全成为一个重要的任务。传统的补全方式多基于规则进行，但这在大规模知识图谱上效率不高，主要会面临的问题是规则的获取，规则获取方式一般有两种，一种是人工生成规则，这样的规则精度高但是覆盖率小；另一种是算法生成规则，这样的规则精度一般但可以大量生成，目前的方法多数基于图上的随机游走，在大型知识图谱上会面临搜索空间太大的问题。因此知识图谱的分布式表示应运而生，核心想法是为每一个实体和关系学习一个向量空间中的表示，可以是低维稠密的向量或者矩阵，最后通过这些表示之间的计算完成隐式的推理，可用于知识图谱补全等任务。

大型知识图谱是一个拥有复杂连接结构的有向图，很多子图结构包含了丰富的语义信息，尤其是与关系相关的语义信息，比如自反性，对称性，传递性等，含有这些语义信息的关系往往和特定的字图结构有密切关系。但现有的知识图谱分布式表示方法未能考虑图结构的多样性，故不能很好地处理这些多样的关系语义。

发明内容

鉴于上述，本发明提供了一种能够编码关系语义多样性结构的知识图谱分布式表示方法，从知识图谱中图结构和关系语义多样性分析出发，挖掘和总结含有丰富语义信息的子图结构，从而提升其捕捉知识图谱中关系语义多样性的能力。

一种能够编码关系语义多样性结构的知识图谱分布式表示方法，包括如下步骤：

(1)获取知识图谱中所有的三元组，计算每个三元组的置信度；

(2)以知识图谱中已有的三元组作为正样本，并为每个正样本构建对应的负样本并计算每个负样本的置信度；

(3)利用正样本和负样本对以下损失函数L进行最小化求解，从而得到知识图谱中所有实体和关系的向量以及所有关系的线性变换张量(为实现实体的多样性表示而设计的)；

其中：Φ为所有正样本组成的集合，Ω为所有负样本组成的集合，P为所有训练参数组成的集合，x为集合Φ中的正样本，y为集合Ω中的负样本，p为集合P中的训练参数,λ为正则系数，s_x为正样本x的置信度，s_y为负样本y的置信度。

进一步地，所述步骤(1)中对于知识图谱中的任一三元组(h,r,t)，通过以下公式计算出该三元组(h,r,t)的置信度s(h,r,t)：

s(h，r，t)＝σ(t·c(h，r))

其中：h、r、t分别表示三元组中的头实体、关系、尾实体，h为头实体向量，r为关系向量，t为尾实体向量，c(h,r)为头实体h与关系r的联合算子，

为头实体在关系r下的线性变换矩阵，

为关系r的线性变换矩阵，

和

均为d×d大小的对角矩阵且与关系r对应，b_c为全局偏差向量，d为自定义的矩阵维度，tanh(z)为双曲正切函数，σ(z)为sigmoid非线性激活函数，z为函数自变量。

进一步地，所述双曲正切函数tanh(z)和sigmoid非线性激活函数σ(z)的表达式如下：

进一步地，所述步骤(2)中对于知识图谱中的任一正样本，利用知识图谱中已有的任一实体替换该正样本三元组中的头实体或尾实体，即得到其对应的负样本。

进一步地，所述步骤(3)中利用正样本和负样本通过随机梯度下降算法对损失函数L进行最小化求解。

本发明能够表达三种与关系语义相关的图结构：度结构、性质结构、关联结构；其中，度结构包括一对一，一对多，多对一和多对多四种关系结构类型；性质结构包括三种同关系环结构(one-relation-circle)：分别为可代表自反性的一度同关系环结构、可代表对称性的二度同关系环结构以及可代表传递性的三度同关系环结构；关联结构主要包括同实体对多关系结构，即同一对实体之间存在多种关系，通常同实体对多关系结构与关系之间的相似性和等价性相关。

本发明从知识图谱中图结构多样性的角度出发，挖掘和总结含有丰富语义信息的子图结构，并将子图结构与关系相关的语义信息联系起来，例如自反性、对称性、传递性等，提出了一种新的知识图谱分布式表示方法，这个方法能够更好地编码图结构的多样性，因而可以更好地捕捉知识图谱中存在的语义信息，并达到更好的补全和预测效果，在链接预测任务中能取得更好的表现，具有较强的扩展性，对于在知识图谱分布式表示中编码关系语义多样性结构的应用具有很好的实用价值。

附图说明

图1为本发明模型训练的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明提出了一种能够编码关系语义多样性结构的知识图谱分布式表示方法，包括如下步骤：

(1)获取知识图谱中所有的三元组(h，r，t)，h为头实体，r为关系，t为尾实体；对于任一三元组(h，r，t)，计算该三元组(h，r，t)的置信度s(h，r，t)。

本发明通过定义一个评价函数来计算输入三元组(h，r，t)为真的概率即置信度s(h，r，t)，概率评价函数包括两部分：联合算子与相似度算子，通过为每个关系在联合算子中定义线性变换矩阵，来实现实体的多样性表达。

(2)对每个三元组(h，r，t)，首先将头实体和关系对输入联合算子，计算头实体与关系的联合表示。

联合算子的输入是一对头实体和关系(h，r)的嵌入表示，头实体的嵌入表示是一个向量

关系的嵌入表示是一个向量

联合算子定义为

维度d自定义。

其中：

是一个对角矩阵，用于头实体在关系r下的线性变换；

是一个对角矩阵，作为关系r的线性变换；

和

与关系r相对应且均为随机初始化，综合考虑多样的表达与学习参数的数量，

和

设计为对角矩阵而不是普通矩阵；

是一个全局偏差向量且随机初始化，

是一个非线性的激活函数，其输出值域在(-1,1)区间。

输入的头实体嵌入表示在经过关系相关的矩阵下的线性变换后得到新的头实体嵌入表示，与不同的关系组合会为头实体产生不同的嵌入表示，所以对一个头实体来说，有n_r个嵌入表示，n_r表示关系的数量。

(3)计算联合嵌入表示与尾实体嵌入表示的相似度，作为输入三元组的最终概率评价。

首先，将步骤(2)中获得的向量结果c_hr作为相似度算子的输入，使用相似度算子S(c_hr，t)计算c_hr与尾实体向量t间的相似度；然后，把相似度计算的结果用于评价当前三元组(h，r，t)为真的概率，相似度算子的定义为s(h，r，t)＝σ(t·c_hr)。

本发明使用点乘来模拟相似度计算，但是点乘不是相似度算子的唯一选择，也可以用欧式距离函数

等，

用于把最终的输出归一到(0,1)，作为概率评价。

为了保证实体在不同位置时的多样化表达，即为了区别实体是作为三元组中的头实体还是尾实体，这里直接使用尾实体嵌入表示，不进行任何转换；一个尾实体只有一个嵌入表示，和它作为头实体时的所有嵌入表示均不同，所以最终一个实体的嵌入表示个数为n_r+1。

(4)为每个正样本构造对应的负样本(h′，r′，t′)，正样本即知识图谱中已有的三元组(h，r，t)，对所有负样本三元组按照步骤(1)计算其置信度s(h′，r′，t′)；参考交叉熵定义如下损失函数L，算法优化目标为最小化此损失函数值。

其中：Δ表示所有正样本的集合，Δ′表示所有负样本的集合，P表示所有可训练参数的集合，

是一个正则项，λ为正则系数；(h，r，t)的负样本(h′，r′，t′)通过用知识库中的任一实体e替换头实体h得到即(e，r，t)，或替换尾实体t得到即(h，r，e)。

最小化损失函数的优化过程可采用任意基于随机梯度下降的优化算法进行优化，直至损失值收敛。

如图1所示，左侧一列表示四组输入：①

表示实体嵌入(entityembedding)的矩阵，每一行表示一个实体的嵌入向量，n_e表示实体的数量，d表示嵌入向量的维数；②

表示关系嵌入的矩阵，每一行表示一个关系向量，n_r表示关系的数量；③D^e表示头实体的线性变换张量，每一片是一个对角矩阵，与一个关系对应；④D^r表示关系的线性变换张量，每一片是一个对角矩阵，与一个关系对应。

在训练过程中，为简化起见，嵌入向量维度限制在30维，即d＝30，实际处理中为了取得更好的效果取的是200维；所有实体和关系相关的参数都按照区间为

的均匀分布随机初始化，包括实体的嵌入表示e、关系的嵌入表示r以及关系相关的变换矩阵

和

优化方法采用Adam算法，训练时优化批次大小(batchsize)设置为4000，学习率设置为0.01，每个正样本的负采样比例为总实体个数的0.5％，正则参数λ为10^-5；为了防止过拟合，在联合算子层增加一个dropout层，dropout的比例设置为0.5，迭代的最大次数设置为100。

以下为训练完成后的样例，输入三元组(h，r，t)为：

联合算子的输入是一对头实体和关系(h，r)的嵌入，其嵌入向量

为30维向量：

关系嵌入向量

为30维向量：

全局偏差向量

是一个30*30维的对角矩阵：

其特征值为：

计算得到

是一个对角矩阵，作为关系r的线性转置，其特征值为：

计算得到

使用以上结果得到联合算子输出

尾实体的嵌入

为30维向量：

以向量结果c_hr作为输入，使用相似度算子S(c_hr，t)计算c_hr与尾实体向量t间的相似度：s(h，r，t)＝σ(t·c_hr)，

t与c_hr点乘后用σ(z)归一，最终计算得到0.99498823228997846。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种能够编码关系语义多样性结构的知识图谱分布式表示方法，包括如下步骤：

(1)获取知识图谱中所有的三元组，计算每个三元组的置信度；对于知识图谱中的任一三元组(h，r，t)，通过以下公式计算出该三元组(h，r，t)的置信度s(h，r，t)：

s(h，r，t)＝σ(t·c(h，r))

其中：h、r、t分别表示三元组中的头实体、关系、尾实体，h为头实体向量，r为关系向量，t为尾实体向量，c(h，r)为头实体h与关系r的联合算子，

为头实体在关系r下的线性变换矩阵，

为关系r的线性变换矩阵，

和

均为d×d大小的对角矩阵且与关系r对应，b_c为全局偏差向量，d为自定义的矩阵维度，tanh(z)为双曲正切函数，σ(z)为sigmoid非线性激活函数，z为函数自变量；

(3)利用正样本和负样本对以下损失函数L进行最小化求解，从而得到知识图谱中所有实体和关系的向量以及所有关系的线性变换张量；

其中：Φ为所有正样本组成的集合，Ω为所有负样本组成的集合，P为所有训练参数组成的集合，x为集合Φ中的正样本，y为集合Ω中的负样本，p为集合P中的训练参数，λ为正则系数，s_x为正样本x的置信度，s_y为负样本y的置信度。

2.根据权利要求1所述的知识图谱分布式表示方法，其特征在于：所述步骤(2)中对于知识图谱中的任一正样本，利用知识图谱中已有的任一实体替换该正样本三元组中的头实体或尾实体，即得到其对应的负样本。

3.根据权利要求1所述的知识图谱分布式表示方法，其特征在于：所述步骤(3)中利用正样本和负样本通过随机梯度下降算法对损失函数L进行最小化求解。

4.根据权利要求1所述的知识图谱分布式表示方法，其特征在于：能够表达三种与关系语义相关的图结构：度结构、性质结构、关联结构；其中，度结构包括一对一，一对多，多对一和多对多四种关系结构类型；性质结构包括三种同关系环结构：分别为可代表自反性的一度同关系环结构、可代表对称性的二度同关系环结构以及可代表传递性的三度同关系环结构；关联结构主要包括同实体对多关系结构，即同一对实体之间存在多种关系，通常同实体对多关系结构与关系之间的相似性和等价性相关。

5.根据权利要求1所述的知识图谱分布式表示方法，其特征在于：所述双曲正切函数tanh(z)和sigmoid非线性激活函数σ(z)的表达式如下：