CN112434171A

CN112434171A - 一种基于强化学习的知识图谱推理补全方法及系统

Info

Publication number: CN112434171A
Application number: CN202011345623.4A
Authority: CN
Inventors: 李金键; 卓汉逵
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-02

Abstract

本发明公开了一种基于强化学习的知识图谱推理补全方法及系统，该方法包括：加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示；基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络；通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络；将待测知识图谱输入到训练完成的策略网络，完成对知识图谱的补全。该系统包括：解析模块、预训练模块、再训练模块和补全模块。本发明通过对奖励函数的设计，使得补全的关系推理路径更加可靠且具有多样性。本发明作为一种基于强化学习的知识图谱推理补全方法及系统，可广泛应用于知识图谱领域。

Description

一种基于强化学习的知识图谱推理补全方法及系统

技术领域

本发明属于知识图谱领域，尤其涉及一种基于强化学习的知识图谱推理补全方法及系统。

背景技术

知识图谱是一种大规模语义网络，包括实体、概念及其之间的各种语义关系。其中，强化学习的方法做知识图谱推理则是基于路径的推理，通过强化学习的方法推理出两个实体之间的路径，即实体间包含的关系集，从而找到实体对之间可靠的预测路径，实现知识图谱的补全，但是，目前的知识图谱表示学习模型忽略了这一方面，缺乏对知识图谱中实体之间关系多样性的问题的考虑。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于强化学习的知识图谱推理补全方法及系统，通过把找到的关系路径作为特征来学习目标关系，实现知识图谱补全的方法。

本发明所采用的第一技术方案是：一种基于强化学习的知识图谱推理补全方法，包括以下步骤：

加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示；

基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络；

通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络；

将待测知识图谱输入到训练完成的策略网络，完成对知识图谱的补全。

进一步，所述加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示这一步骤，其具体包括：

加载数据并对数据进行解析，得到知识图谱的三元组数据；

为知识图谱的三元组数据中的实体和关系编码并初始化实体和关系的向量表示。

进一步，所述得到训练完成的策略网络后还包括对训练完成的策略网络进行验证，评估策略网络的补全效果。

进一步，所述基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络这一步骤，其具体包括：

基于TranE模型做嵌入，将知识图谱映射到低维向量空间中；

基于强化学习的路径寻找方法寻找实体之间的关系路径；

对于关系路径，使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络，得到预训练策略网络。

进一步，所述使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络的表达式如下：

上式中，J(θ)为期望的总奖励值，θ为梯度，T为寻找路径的事件总数，R(S_T|e_S,r)为对应的奖励值，π_θ(a_t|s_t)为策略网络输出的动作选择的概率，e_s为头实体，r为查询的关系，a_t为当前动作，S_t为当前状态。

进一步，所述多个奖励函数包括全局奖励函数、路径高效性奖励函数、路径多样性奖励函数和有效动作奖励函数。

进一步，所述通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络这一步骤，其具体还包括：

通过全局奖励函数根据找到的路径的长度给予奖励，更新预训练策略网络；

通过路径高效性奖励函数根据找到的路径的高效性给予奖励，更新预训练策略网络；

通过路径多样性奖励函数根据找到的路径的相似度给予奖励，更新预训练策略网络；

通过有效动作奖励函数根据找到的路径的有效动作给予奖励，更新预训练策略网络；

得到训练完成的策略网络。

进一步，所述预构建的训练网络的输入层为lstm神经网络，输出层通过softmax函数归一化和REINFORCE算法梯度更新策略网络。

本发明所采用的第二技术方案是：一种基于强化学习的知识图谱推理补全系统，包括以下模块：

解析模块，用于加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示；

预训练模块，基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络；

再训练模块，用于通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络；

补全模块，用于将待测知识图谱输入到训练完成的策略网络，完成对知识图谱的补全。

本发明方法及系统的有益效果是：本发明将强化学习领域的技术应用到知识图谱推理补全上，设计特定的奖励函数以及路径寻找中的算法，并且在强化学习模型的基础上加入lstm和图注意力机制，通过特定的奖励函数来控制的关系路径推理，更加可靠且具有多样性。

附图说明

图1是本发明具体实施例一种基于强化学习的知识图谱推理补全方法的步骤流程图；

图2是本发明具体实施例一种基于强化学习的知识图谱推理补全系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明提供了一种基于强化学习的知识图谱推理补全方法，该方法包括以下步骤：

S1、加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示；

S2、基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络；

S3、通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络；

S4、将待测知识图谱输入到训练完成的策略网络，完成对知识图谱的补全。

进一步作为本方法的优选实施例，所述加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示这一步骤，其具体包括：

加载数据并对数据进行解析，得到知识图谱的三元组数据；

进一步作为本方法优选实施例，所述得到训练完成的策略网络后还包括对训练完成的策略网络进行验证，评估策略网络的补全效果。

进一步作为本发明的优选实施例，所述基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络这一步骤，其具体包括：

基于TranE模型做嵌入，将知识图谱映射到低维向量空间中；

基于强化学习的路径寻找方法寻找实体之间的关系路径；

具体地，为了捕捉到实体和关系间的语义信息，使用TranE模型做嵌入，将其映射到低维向量空间中，在该框架中，每个状态捕捉智能体在知识图谱中的位置。在执行一个动作后，智能体会从一个实体移动到另一个实体，两个状态通过刚执行的动作由智能体连接。i实体第t步的状态向量包括：

s_i，t＝[m_i，t；h_t；a_i]

上式中，m_i,t表示实体嵌入部分，利用TranE将实体和关系做嵌入，h_t为lstm神经网络输出的隐向量，负责记录历史信息，a_i为图注意力神经网络输出的注意力向量，代表着i实体邻接的实体对应的权重。

进一步作为本发明优选实施例，所述使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络的表达式如下：

上式中，J(θ)为期望的总奖励值，θ为梯度，T为寻找路径的事件总数，R(S_T|e_S,r)为对应的奖励值，π_θ(a_t|st)为策略网络输出的动作选择的概率，e_s为头实体，r为查询的关系，a_t为当前动作，S_t为当前状态。

具体地，对每一个关系，我们首先使用所有正样本(实体对)的子集来学习有监督的策略。对于每个正样本，一个两端BFS被用于找到实体之间的正确路径。

进一步作为本发明优选实施例，所述多个奖励函数包括全局奖励函数、路径高效性奖励函数、路径多样性奖励函数和有效动作奖励函数。

具体地，通过奖励再训练，为了找到受奖励函数控制的推理路径，使用奖励函数来限制监督策略网络，对每个关系，一个实体对的推理被视为一个episode。从源节点开始，智能体根据随机策略选择关系，它是所有关系上的概率分布，以扩展推理路径。关系链接可能引向一个新实体，或者失败，这些失败的步骤会使智能体获得负奖励。

进一步作为本方法的优选实施例，所述通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络这一步骤，其具体还包括：

具体地，对于当前的强化学习环境，智能体可以执行的操作数量可能非常大，错误的顺序决策比正确的顺序决策多得多，这些错误的决策序列的数量会随着路径的长度呈指数增长，所以设置的全局奖励函数定义如下：

r_GLOBAL＝+1

具体地，第二个奖励函数为路径高效性奖励函数，短路径相比长路径通常能提供更多可靠的推理证据，因此该奖励定义为：

具体地，第三个奖励函数为路径多样性奖励函数，为了鼓励智能体找到多样化的路径，使用当前路径和已有路径之间的余弦相似度定义一个多样化奖励函数：

具体地，第四个奖励函数为有效动作奖励函数，在寻找路径失败时对其失败路径中的有效动作，设计算法来选出来对有效动作集进行奖励：

r_valid＝+1

得到训练完成的策略网络。

具体地，本专利主要特色之一在于对奖励函数的设计，通过对找到路径的高效性、长度、路径相似度分别给予奖励，使找到的路径具有多样性、找路径的速率以及路径的长度满足特定的要求。

进一步作为本方法的优选实施例，所述预构建的训练网络的输入层为lstm神经网络，输出层通过softmax函数归一化和REINFORCE算法梯度更新策略网络。

如图2所示，一种基于强化学习的知识图谱推理补全系统，包括以下模块：

进一步作为本系统的优选实施例，所解析模块还包括以下子模块：

加载子模块，用于加载数据并对数据进行解析，得到知识图谱的三元组数据；。

初始化子模块，用于为知识图谱的三元组数据中的实体和关系编码并初始化实体和关系的向量表示。

进一步作为本系统的优选实施例，所述预训练模块还包括以下子模块：

嵌入子模块，基于TranE模型做嵌入，将知识图谱映射到低维向量空间中；

路径寻找子模块模块，基于强化学习的路径寻找方法寻找实体之间的关系路径；

策略更新子模块，对于关系路径，使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络，得到预训练策略网络。

上述系统实施例中的内容均适用于本方法实施例中，本方法实施例所具体实现的功能与上述系统实施例相同，并且达到的有益效果与上述系统实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于强化学习的知识图谱推理补全方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述加载数据并对数据进行解析，得到知识图谱的实体和关系的向量表示这一步骤，其具体包括：

加载数据并对数据进行解析，得到知识图谱的三元组数据；

3.根据权利要求2所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述得到训练完成的策略网络还包括对训练完成的策略网络进行验证，评估策略网络的补全效果。

4.根据权利要求3所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述基于TranE模型将实体和关系做嵌入并对预构建的策略网络进行预训练，得到预训练策略网络这一步骤，其具体包括：

基于TranE模型做嵌入，将知识图谱映射到低维向量空间中；

基于强化学习的路径寻找方法寻找实体之间的关系路径；

5.根据权利要求4所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述使用蒙塔卡洛策略梯度来最大化期望的累积奖励并更新策略网络的表达式如下：

6.根据权利要求5所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述多个奖励函数包括全局奖励函数、路径高效性奖励函数、路径多样性奖励函数和有效动作奖励函数。

7.根据权利要求6所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述通过多个奖励函数对预训练策略网络进行再训练，得到训练完成的策略网络这一步骤，其具体还包括：

得到训练完成的策略网络。

8.根据权利要求7所述一种基于强化学习的知识图谱推理补全方法，其特征在于，所述预构建的训练网络的输入层为lstm神经网络，输出层通过softmax函数归一化和REINFORCE算法梯度更新策略网络。

9.一种基于强化学习的知识图谱推理补全系统，其特征在于，包括以下模块：