CN109189945A

CN109189945A - 一种基于可信度向量的知识图谱表示学习方法

Info

Publication number: CN109189945A
Application number: CN201811140337.7A
Authority: CN
Inventors: 熊盛武; 毛晶晶; 段鹏飞
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-01-11

Abstract

本发明提出了一种基于可信度向量的知识图谱表示学习方法，在该方法中基于可信度向量，实体在不同关系下具有不同表达形式，不同的关系关注实体不同的属性信息，本发明能够提升知识表示学习在复杂关系下的区分能力，并且避免了增加过多模型复杂度。本发明方法可以对知识图谱中的实体和关系进行表示，用于知识图谱的补全和推理，具有较好的实用性。

Description

一种基于可信度向量的知识图谱表示学习方法

技术领域

本发明涉及知识图谱表示学习问题，具体地指一种基于可信度向量的知识图谱表示学习方法，属于自然语言处理领域。

背景技术

近年来类人智能在世界各地迅猛发展，其成功离不开完善的知识图谱。知识图谱是智能问答、语义搜索等信息服务应用的重要基础技术，知识图谱覆盖的知识越全面，越能更好地提供所需答案。尽管目前已经有多个大规模、开放领域的知识图谱，但它们距离完备仍然相差甚远，例如Freebase中有大约30％的人物实体缺少其父母亲信息。通常情况下，人类都是以网络和图的架构来组织和表示知识图谱中所包含的知识，图和网络中的每一个节点都表示不同的实体，而每两个节点之间相连的边则表示两个实体之间存在的关系。因此，传统的知识图谱大多数都是采用<实体1，关系，实体2>三元组的方式来表示知识，其对应的是知识图谱中的两个节点以及连接这两个节点的边。在传统的网络表示形式下利用知识图谱进行推理、补全，需要设计专门的图算法，其计算效率极低。而利用知识表示学习模型，能在低维空间中挖掘出实体和关系之间的语义关系，提高知识理解和推理能力。

目前知识表示学习的代表模型是平移模型，该模型虽然简单高效，但平移模型无法很好地处理知识图谱中的复杂关系。这就是本发明的主要研究背景。

发明内容

本发明的目的在于克服上述现有技术的不足，而提出的一种知识图谱表示学习方法，该方法包括：

步骤1，输入知识图谱中的三元组(h,r,t)，根据关系r生成其对应的可信度向量；

步骤2，根据可信度向量，定义三元组(h,r,t)中实体向量、关系向量和可信度向量之间的相互关联；

步骤3，通过损失函数将实体向量、关系向量和可信度向量关联起来，并最小化损失函数，以学习实体向量、关系向量和可信度向量，达到优化目标。

在上述的一种基于可信度向量的知识图谱表示学习方法，每一个三元组关系有一个对应的可信度向量，并对其中的向量值进行随机初始化，赋值0或1。

在上述的一种基于可信度向量的知识图谱表示学习方法，在可信度向量对应的空间中，关系r和实体对(h,t)之间存在平移关系，其相互关联的能量函数为:

其中，h、t和r为头实体h、尾实体t和关系r对应的向量；c_r为关系的r可信度向量，其为一个二值向量，其中1代表激活，0代表抑制；h_r为头实体h经过可信度向量激活后的向量；t_r为尾实体t经过可信度向量激活后的向量；r_r为关系r经过可信度向量激活后的关系；为哈达吗积。

在上述的一种基于可信度向量的知识图谱表示学习方法，通过损失函数将实体向量、关系向量和可信度向量关联起来，并最小化损失函数，以学习实体向量、关系向量和可信度向量；损失函数为：

其中，[x]₊＝max(0,x)表示返回0和x之间的较大的那个值；γ为正确三元组损失函数值与错误三元组损失函数值之间的间隔距离；S为正确三元组的集合，S^-为错误三元组的集合；f_r(h,t)为正确三元组的能量函数；f_r'(h',t')错误三元组的能量函数；假设知识图谱中总共包含n_t个三元组，将第i个三元组标记为(h_i,r_i,t_i)(i＝1,2,3,....n_t)，同时每一个三元组还有一个标签y_i，如果这个三元组是正确三元组，则y_i＝1，如果这个三元组是错误三元组，则y_i＝0；S＝{(h_i,r_i,t_i)|y_i＝1}表示正确三元组的集合；相应的，错误三元组的集合表示为S^-＝{(h_i,r_i,t_i)|y_i＝0}；从知识图谱中获取正确三元组的集合S，自己构造相应的错误三元组S^-；通过分别替换正确三元组中的头实体、尾实体和关系，打破正确三元组，构造错误三元组。

本发明方法解决了传统TransE模型在处理知识图谱中一对多、多对一、多对多关系时的存在的问题，同时实体是由多个不同属性构成的一个综合体，在不同的关系中关注实体不同的属性，使得实体在不同关系下具有不同的表达形式，从而解决TransE模型在处理知识图谱中复杂关系建模能力不足的问题，同时算法复杂度低、简单易行，可操作性强，因此，本发明方法可用于对知识图谱中的知识进行表示的工作。

附图说明

图1是FB15K数据集实体预测计算结果。

图2是FB15K数据集上基于关系类型的预测实体结果。

图3是本发明的方法流程示意图。

具体实施方式

本文中提出的基于可信度向量的知识图谱表示学习方法：

1.根据三元组中的关系生成对应的可信度向量，并对其进行初始化；

2.对三元组中的实体和关系向量进行随机初始化；

3.在可信度向量对应的空间中，关系r和实体对(h,t)之间存在平移关系，其相互关联的能量函数为：

其中，h、t和r为实体h、t和关系r对应的向量；c为可信度向量，c是一个二值向量，其中1代表激活，0代表抑制；为哈达吗积；

4.S为正确三元组的集合，即知识图谱中包含的三元组；S^-为错误三元组的集合，通过分别替换正确三元组中的头实体、尾实体和关系，打破正确三元组，构造错误三元组。

5.通过损失函数将实体向量、关系向量和可信度向量关联起来。损失函数为：

其中，[x]₊＝max(0,x)表示返回0和x之间的较大的那个值；γ为正确三元组损失函数值与错误三元组损失函数值之间的间隔距离；S为正确三元组的集合，S^-为错误三元组的集合。

6.利用梯度下降算法对损失函数进行优化，学习得到实体向量、关系向量和可信度向量。

利用本发明提出的基于可信度向量的知识图谱表示学习方法对FB15K的数据进行知识图谱补全实验，其与其他方法的对比结果见图1。将FB15K中的关系分为四种，其结果见图2。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于可信度向量的知识图谱表示学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于可信度向量的知识图谱表示学习方法，其特征在于：每一个三元组关系有一个对应的可信度向量，并对其中的向量值进行随机初始化，赋值0或1。

3.根据权利要求1所述的一种基于可信度向量的知识图谱表示学习方法，其特征在于：在可信度向量对应的空间中，关系r和实体对(h,t)之间存在平移关系，其相互关联的能量函数为:

4.根据权利要求1所述的一种基于可信度向量的知识图谱表示学习方法，其特征在于：通过损失函数将实体向量、关系向量和可信度向量关联起来，并最小化损失函数，以学习实体向量、关系向量和可信度向量；损失函数为：