CN117634599A

CN117634599A - 基于知识图谱的路径推理方法、装置、电子设备及介质

Info

Publication number: CN117634599A
Application number: CN202311346340.5A
Authority: CN
Inventors: 魏利卓; 张宏斌; 石春竹; 王博闻; 鞠奕明; 李东成; 贾星威; 孙世豪; 刘子健
Original assignee: 6th Research Institute of China Electronics Corp
Current assignee: 6th Research Institute of China Electronics Corp
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-03-01

Abstract

本申请提供了一种基于知识图谱的路径推理方法、装置、电子设备及介质，路径推理方法包括：获取路径推理任务中的搜索实体和查询关系；将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。采用本申请提供的技术方案能够通过结合元学习方式训练模型，将路径推理任务中的搜索实体和查询关系输入模型中推理找到搜索实体以及查询关系之间的有效路径，从而提升知识图谱推理效率，保障路径推理的准确性。

Description

基于知识图谱的路径推理方法、装置、电子设备及介质

技术领域

本申请涉及人工智能技术领域，尤其是涉及一种基于知识图谱的路径推理方法、装置、电子设备及介质。

背景技术

随着网络中信息数据的规模日益庞大，数据内容和存储格式多种多样，导致后期分析和处理等工作执行困难；为此，使用知识图谱通过图结构的形式存储数据，解决了行业领域数据应用中异构信息的表示问题；而在某些特定场景中，知识图谱的数据存在着隐私性较强、关系稀疏等特点，使得其无法还原特定场景的数据。针对于下游应用任务而言，采用带有噪声且数据量不足的知识图谱作为应用模型训练的基础，会使得模型的训练结果出现偏差，从而导致应用任务失败，在小样本数据的条件下进行知识图谱推理的任务亟待解决。

目前，在传统的知识图谱的推理过程中，需要人工手动挖掘推理规则，然而在正常情况下很难做到穷举知识图谱中全部的知识数据，而且这种方式在消耗大量的人力成本同时仍然无法保证规则的可靠性和推理的质量；因此，如何进行知识图谱路径的推理，成为了亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于知识图谱的路径推理方法、装置、电子设备及介质，能够通过结合元学习方式训练模型，将路径推理任务中的搜索实体和查询关系输入模型中推理找到搜索实体以及查询关系之间的有效路径，从而提升知识图谱推理效率，保障路径推理的准确性。

本申请主要包括以下几个方面：

第一方面，本申请实施例提供了一种基于知识图谱的路径推理方法，所述路径推理方法包括：

获取路径推理任务中的搜索实体和查询关系；

将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；

其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。

进一步的，所述将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果的步骤，包括：

将所述路径推理任务中的搜索实体和查询关系输入至知识嵌入模块中，确定搜索实体对应的搜索实体向量以及查询关系对应的查询关系向量；

将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，确定当前时刻的环境信息；

将所述当前时刻的环境信息输入至所述策略模块中，得到所述路径推理任务在所述知识图谱中对应的路径推理结果。

进一步的，所述将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，确定当前时刻的环境信息的步骤，包括：

将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，将所述搜索实体向量作为当前时刻的实体向量，在所述动作空间预先存储的每个三元组向量信息中确定出所述当前时刻的实体向量对应的尾实体向量以及每个尾实体向量对应的实体转移概率；其中，所述每个三元组向量信息均由头实体向量、对应关系向量以及尾实体向量构成；

将大于预设概率阈值的实体转移概率对应的尾实体向量的集合确定为尾实体概率向量；

按照采样策略在所述尾实体概率向量中筛选出一个尾实体向量作为预测尾实体向量；

从所述路径推理模型的长短期记忆网络中获取当前时刻的历史推理信息向量；

将所述预测尾实体向量、查询关系向量、当前时刻的实体向量、当前时刻的历史推理信息向量进行拼接，得到当前时刻的环境信息。

进一步的，通过以下步骤训练路径推理模型中的策略模块：

获取样本推理任务，基于所述样本推理任务在所述环境模块的动作空间中存储的三元组向量信息中按照预设比例对所述三元组向量信息进行随机采样，得到支持集与验证集；

将所述支持集中每个三元组向量信息的头实体向量和对应关系向量输入至策略模块中进行路径搜索，得到第一损失函数；

基于所述第一损失函数更新所述策略模块中的模块参数，继续对下一个样本推理任务进行路径搜索更新所述策略模块中的模块参数，直至所述第一损失函数收敛，得到更新后的策略模块；

将所述验证集中每个三元组向量信息的头实体向量和对应关系向量输入至策略模块中进行路径搜索，得到第二损失函数；

基于所述第二损失函数更新所述策略模块中的路径选择参数，继续对下一个样本推理任务进行路径搜索更新所述策略模块中的路径选择参数，直至所述第二损失函数收敛，得到训练好的策略模块。

进一步的，通过以下步骤在环境模块的动作空间中存储三元组向量信息：

获取多个三元组构成的样本数据集；其中，每个三元组包括一个事实的头实体、对应关系以及尾实体；

通过所述路径推理模型中的知识嵌入模块，将每个三元组以旋转向量的形式嵌入到复数空间中，并进行自对抗负采样训练，得到嵌入后的每个三元组对应的三元组向量信息；

将每个三元组向量信息输入至所述环境模块的动作空间中，生成每个三元组向量信息对应的实体转移概率，并将每个三元组向量信息以及每个三元组向量信息对应的实体转移概率存储在所述环境模块的动作空间中。

进一步的，所述将所述当前时刻的环境信息输入至所述策略模块中，得到所述路径推理任务在所述知识图谱中对应的路径推理结果的步骤，包括：

将所述当前时刻的环境信息输入至所述策略模块中，基于所述环境信息确定所述策略模块的策略函数；

在所述知识图谱中获取所述环境信息中当前时刻的实体向量对应的多条搜索路径，并通过所述策略函数确定每条搜索路径在当前时刻的关系概率；

针对每条搜索路径，基于该条搜索路径在当前时刻的关系概率，确定出该条搜索路径的评价得分；

在每条搜索路径的评价得分中，将数值最大的评价得分对应的搜索路径确定为推理路径；

将所述推理路径中的对应关系向量和所述查询关系向量进行相似度比对；

若相似度大于预设相似度，则将所述推理路径中所述对应关系向量对应的尾实体向量确定为所述路径推理任务在所述知识图谱中对应的路径推理结果。

进一步的，所述路径推理方法还包括：

若相似度不大于预设相似度，则在所述动作空间中将所述当前时刻的实体向量的下一个对应关系向量对应的尾实体向量更新为当前时刻的实体向量进行下一次路径推理，直至遍历完所述当前时刻的实体向量的所有对应关系向量。

第二方面，本申请实施例还提供了一种基于知识图谱的路径推理装置，所述路径推理装置包括：

获取模块，用于获取路径推理任务中的搜索实体和查询关系；

推理模块，用于将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的基于知识图谱的路径推理方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述的基于知识图谱的路径推理方法的步骤。

本申请实施例提供的一种基于知识图谱的路径推理方法、装置、电子设备及介质，所述路径推理方法包括：获取路径推理任务中的搜索实体和查询关系；将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。

这样，采用本申请提供的技术方案能够通过结合元学习方式训练模型，将路径推理任务中的搜索实体和查询关系输入模型中推理找到搜索实体以及查询关系之间的有效路径，从而提升知识图谱推理效率，保障路径推理的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于知识图谱的路径推理方法的流程图；

图2示出了本申请实施例所提供的另一种基于知识图谱的路径推理方法的流程图；

图3示出了本申请实施例所提供的一种路径推理流程的示意图；

图4示出了本申请实施例所提供的一种基于知识图谱的路径推理装置的结构图之一；

图5示出了本申请实施例所提供的一种基于知识图谱的路径推理装置的结构图之二；

图6示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“基于知识图谱的路径推理”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要基于知识图谱的路径推理的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的一种基于知识图谱的路径推理方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

值得注意的是，目前网络中的信息数据规模庞大，数据内容和存储格式各异，导致后期分析和处理等工作执行困难。为此，知识图谱通过图结构的形式存储数据，解决了行业领域数据应用中异构信息的表示问题。而在某些特定场景中，知识图谱的数据存在着隐私性较强、关系稀疏等特点，使得其无法还原特定场景的数据。针对于下游应用任务而言，采用带有噪声且数据量不足的知识图谱作为应用模型训练的基础，会使得模型的训练结果出现偏差，从而导致应用任务失败，在小样本数据的条件下进行知识图谱推理的任务亟待解决。

基于此，本申请提出了一种基于知识图谱的路径推理方法、装置、电子设备及介质，所述路径推理方法包括：获取路径推理任务中的搜索实体和查询关系；将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。

为便于对本申请进行理解，下面将结合具体实施例对本申请提供的技术方案进行详细说明。

请参阅图1，图1为本申请实施例所提供的一种基于知识图谱的路径推理方法的流程图，如图1中所示，所述路径推理方法包括：

S101、获取路径推理任务中的搜索实体和查询关系；

作为示例，本实施例可以实现知识问答和知识补全等知识图谱相关应用，例如，路径推理任务可以是：“张三的出生地是哪里”，其中，搜索实体是：“张三”，查询关系是：“出生地”，需要根据搜索实体和查询关系推理出张三的出生地。

S102、将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果。

该步骤中，路径推理模型包括知识嵌入模块、环境模块以及策略模块；策略模块是通过元学习方式进行训练得到。

这里，通过强化学习得到训练好的路径推理模型，强化学习的过程是一种建模动态系统的学习过程，通过与环境的交互，不断地学习更新神经网络模型，实现模型的自主推理功能，完成对知识图谱进行自动化的推理任务。在知识图谱推理和应用的过程中，需要通过知识表示方法将知识信息表示为计算机能理解的符号和语言，从而支持机器模拟人类的想法对事实进行解释与推理。利用知识图谱嵌入技术可以将知识图谱实体和关系信息转化为向量空间中的向量表示，实现以低维形式表示关系链接信息进行知识推理。在进行知识图谱中路径推理时，通过知识图谱嵌入技术将知识图谱中的实体和关系等元素以向量的形式表示在低维向量空间中，根据向量空间空间平移的特性，描述一个关系在不同实体之间的表示，从而最大化保留知识图谱中的元素特征信息。传统的机器学习往往依赖于特定任务的大规模数据集训练进行调参，而在处理样本较少的任务时训练效果不佳。通过元学习的技术提取小样本数据的特征进行训练，可以高速的完成学习任务。元学习是一种具有泛化性和适应性的机器学习范式，在进行知识图谱推理的任务决策过程中，通过元学习可以从多个数据集中的相关任务上进行训练获取一个优化参数，为路径推理模型的策略模块提供一个较好的初始参数，加速模型训练过程。

需要说明的是，在应用过程之前，也就是在执行步骤S102之前，需要得到训练好的路径推理模型，其中，主要是训练路径推理模型中的策略模块，这里，通过以下步骤训练路径推理模型中的策略模块：

一、获取样本推理任务，基于所述样本推理任务在所述环境模块的动作空间中存储的三元组向量信息中按照预设比例对所述三元组向量信息进行随机采样，得到支持集与验证集；

需要说明的是，通过以下步骤在环境模块的动作空间中存储三元组向量信息：

1)、获取多个三元组构成的样本数据集；

该步骤中，每个三元组包括一个事实的头实体、对应关系以及尾实体；可以在通用知识库中提取一定数量的三元组构成小样本数据集。

2)、通过所述路径推理模型中的知识嵌入模块，将每个三元组以旋转向量的形式嵌入到复数空间中，并进行自对抗负采样训练，得到嵌入后的每个三元组对应的三元组向量信息；

该步骤中，首先可以利用知识嵌入模块引入外部知识信息，丰富强化路径推理模型知识语义层面的表示；其次，定义以旋转向量形式表示包含实体和关系的三元组信息，将其嵌入到复数向量空间中，对于一个三元组(e_head，r，e_tail)，将其中的尾实体向量e_tail表示为头实体向量e_head沿着关系向量r的旋转方向转移的一段向量；这里，知识嵌入模块通过实体与关系之间的距离来评价关系表示的得分，实体向量和关系向量之间的计算公式可以表示为其中，r′为关系向量的偏置，/>表示哈德曼积。知识嵌入模块根据当前嵌入方法对负三元组样本进行自对抗负采样训练，以样本分布概率作为负样本，采取类似的自对抗负采样损失函数来进行优化，训练知识嵌入模块，输出三元组向量信息。

3)、将每个三元组向量信息输入至所述环境模块的动作空间中，生成每个三元组向量信息对应的实体转移概率，并将每个三元组向量信息以及每个三元组向量信息对应的实体转移概率存储在所述环境模块的动作空间中。

该步骤中，将嵌入表示后的三元组向量信息输入到路径推理模型的动作空间，生成实体转移概率存储在动作空间中，应用于后面的路径搜索预测，在进行每一步预测的时候都会在动作空间中找到关系和对应的尾实体，以及选择该关系的概率(实体转移概率)。

二、将所述支持集中每个三元组向量信息的头实体向量和对应关系向量输入至策略模块中进行路径搜索，得到第一损失函数；

该步骤中，通过模型无关性元学习模型为强化学习模型(路径推理模型)提供策略更新函数的初始参数和更新策略。首先根据样本推理任务T_r对三元组数据集进行随机采样，将其分为支持集D_S和验证集D_Q两部分。首先是基于支持集D_S训练策略模块，得到第一损失函数

三、基于所述第一损失函数更新所述策略模块中的模块参数，继续对下一个样本推理任务进行路径搜索更新所述策略模块中的模块参数，直至所述第一损失函数收敛，得到更新后的策略模块；

该步骤中，对样本推理任务T_r进行元学习，策略模块根据支持集D_S对路径进行搜索并更新参数θ_r′，更新函数为学习率α表示单个梯度步长，θ_r ^′表示策略模块中的模块参数，θ表示策略模块中的路径选择参数，/>表示梯度算子。

四、将所述验证集中每个三元组向量信息的头实体向量和对应关系向量输入至策略模块中进行路径搜索，得到第二损失函数；

五、基于所述第二损失函数更新所述策略模块中的路径选择参数，继续对下一个样本推理任务进行路径搜索更新所述策略模块中的路径选择参数，直至所述第二损失函数收敛，得到训练好的策略模块。

该步骤四至五中，在对D_S中对特定的参数进行学习后，根据对D_Q评估计算的梯度用于更新策略网络的路径选择参数θ，更新函数为元学习率β表示元策略更新的步长，/>为第二损失函数；通过批量执行多个样本推理任务对策略模块的路径搜索参数进行更新，直至损失函数收敛，得到训练好的策略模块。

在步骤S102中，将路径推理任务中的搜索实体和查询关系输入到路径推理模型中，执行路径推理任务。根据步骤S101中获取的路径推理任务信息进行路径信息预测，引导路径推理模型的路径决策。需要说明的是，请参阅图2，图2为本申请实施例所提供另一种基于知识图谱的路径推理方法的流程图，如图2中所示，将路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到路径推理任务在知识图谱中对应的路径推理结果的步骤，包括：

S201、将所述路径推理任务中的搜索实体和查询关系输入至知识嵌入模块中，确定搜索实体对应的搜索实体向量以及查询关系对应的查询关系向量；

该步骤中，将路径推理任务的搜索实体和查询关系输入到知识嵌入模块中，得到对应的向量表示。

S202、将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，确定当前时刻的环境信息；

需要说明的是，将搜索实体向量和查询关系向量输入至环境模块的动作空间中，确定当前时刻的环境信息的步骤，包括：

S2021、将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，将所述搜索实体向量作为当前时刻的实体向量，在所述动作空间预先存储的每个三元组向量信息中确定出所述当前时刻的实体向量对应的尾实体向量以及每个尾实体向量对应的实体转移概率；

该步骤中，每个三元组向量信息均由头实体向量、对应关系向量以及尾实体向量构成；获取路径推理任务基于查询三元组(e_start，r_query，e_end)中的查询关系r_query和搜索实体e_start，对知识嵌入模块表示的知识图谱进行启发式的束搜索，在每一步对路径搜索信息进行扩展时去掉实体转移概率相对较低的节点(关系和尾实体)，只保留概率较高的节点。

S2022、将大于预设概率阈值的实体转移概率对应的尾实体向量的集合确定为尾实体概率向量；

该步骤中，经过路径搜索得到的尾实体概率向量表示为p∈[p₁，p₂，…，p_i]，p的第i维值代表了对应实体e_i是正确尾实体的概率。

S2023、按照采样策略在所述尾实体概率向量中筛选出一个尾实体向量作为预测尾实体向量；

该步骤中，采样策略可以是集束搜索。根据概率部分p对实体进行抽样生成预测信息e_p，e_p为查询路径预测的尾实体(预测尾实体向量)。

S2024、从所述路径推理模型的长短期记忆网络中获取当前时刻的历史推理信息向量；

该步骤中，长短期记忆网络LSTM中存储了历史推理信息向量，初始状态中历史推理信息向量定义为h₀＝LSTM(0，a₁)；利用LSTM网络将当前动作中关系r_t及对应实体e_t的嵌入信息a_t＝[r_t+1；e_t+1]和历史推理信息向量h_t链接起来，可以输出下一时刻的历史推理信息向量h_t+1，链接过程公式为h_t+1＝LSTM(h_t，a_t)。

S2025、将所述预测尾实体向量、查询关系向量、当前时刻的实体向量、当前时刻的历史推理信息向量进行拼接，得到当前时刻的环境信息。

该步骤中，在查询路径预测信息结束后，将经过束搜索得到的路径信息与知识图谱环境中的信息融合，即将预测信息e_p(预测尾实体向量)附加到路径推理模型环境模块的状态中，共同组成路径推理任务训练过程中的当前时刻的环境信息s_t＝[e_p；r_p；e_t；h_t]，e_p为指引路径推理的预测信息(预测尾实体向量)，r_q为知识推理任务的查询关系r_query(查询关系向量)，e_t为当前时刻选定的实体信息(当前时刻的实体向量)，h_t为当前时刻状态下路径的历史推理信息(当前时刻的历史推理信息向量)。

S203、将所述当前时刻的环境信息输入至所述策略模块中，得到所述路径推理任务在所述知识图谱中对应的路径推理结果。

需要说明的是，将当前时刻的环境信息输入至策略模块中，得到路径推理任务在知识图谱中对应的路径推理结果的步骤，包括：

S2031、将所述当前时刻的环境信息输入至所述策略模块中，基于所述环境信息确定所述策略模块的策略函数；

该步骤中，将当前时刻的环境信息输入到策略模块中，通过组合多条路径，输出给定关系和路径的最终得分，策略函数为π_θ(a_t|s_t)＝σ(A_t(W₁ReLU(W₂s_t)))，π_θ(a_t|s_t)为t时刻所有动作的概率分布，σ代表归一化指数函数softmax，W₁和W₂是两个线性神经网络，A_t为t时刻的环境状态。

S2032、在所述知识图谱中获取所述环境信息中当前时刻的实体向量对应的多条搜索路径，并通过所述策略函数确定每条搜索路径在当前时刻的关系概率；

该步骤中，在通过策略函数确定每条搜索路径在当前时刻的关系概率时，可以在观测到一个状态s_t时，通过策略函数计算出每个动作的概率值a_t，然后做随机抽样选择动作。

S2033、针对每条搜索路径，基于该条搜索路径在当前时刻的关系概率，确定出该条搜索路径的评价得分；

该步骤中，可以通过蒙特卡罗策略梯度REINFORCE来更新策略网络的路径搜索参数，路径搜索参数的更新公式为关系r对应着生成路径，J(θ)是一个强化学习关卡的总得分，每完成一次路径选择就给予一个奖励，/>为当前实体e_s通过关系r到搜索实体e_o的期望，/>为知识图谱中的所有路径，/>为动作期望，R(s_T∣e_s，r)为当前时刻的奖励。

这里，可以通过随机采样的方式来计算搜索路径中期望值从而获取一个经验平均累计奖励作为该条搜索路径的评价得分。

S2034、在每条搜索路径的评价得分中，将数值最大的评价得分对应的搜索路径确定为推理路径；

S2035、将所述推理路径中的对应关系向量和所述查询关系向量进行相似度比对；

S2036、若相似度大于预设相似度，则将所述推理路径中所述对应关系向量对应的尾实体向量确定为所述路径推理任务在所述知识图谱中对应的路径推理结果。

该步骤中，比较推理路径和查询的路径信息，若对应关系向量与查询关系向量表示相似，则输出推理结果为对应关系向量对应的尾实体向量，否则执行下述步骤(1)搜索下一个实体。

需要说明的是，路径推理方法还包括：

(1)、若相似度不大于预设相似度，则在所述动作空间中将所述当前时刻的实体向量的下一个对应关系向量对应的尾实体向量更新为当前时刻的实体向量进行下一次路径推理，直至遍历完所述当前时刻的实体向量的所有对应关系向量。

示例性的，可以参阅图3，图3为本申请实施例所提供的一种路径推理流程的示意图，如图3所示，从Freebase和NELL等通用知识图谱数据集中的子集(小样本数据集)中抽取路径推理任务中所需要的三元组信息；将知识图谱的三元组信息以旋转向量的形式嵌入到复数空间中，进行自对抗负采样训练优化知识嵌入模块，实体向量和关系向量之间的计算公式为将嵌入的三元组信息存储在环境模块的动作空间中，对其进行采样，构建无关性元学习模型(环境模块和策略模块)，批量执行多个推理任务进行训练，得到一个较好拟合的路径搜索参数θ，支持路径推理模型在训练中快速适应每一个关系推理任务；将路径推理任务的头实体和查询关系信息输入到知识嵌入模块中得到头实体向量和查询关系向量，在动作空间中进行束搜索，得到预测信息，为环境模块中的状态动态地添加路径的预测信息，将预测信息发送给状态生成环境信息，利用环境信息引导策略模块选择正确路径进行搜索，避免由于路径缺失或者关系不明显导致推理结果出现误差，路径推理模型策略模块接收状态中的环境信息进行路径推理，得到推理信息，并将推理信息发送给长短期记忆网络确定历史推理信息，长短期记忆网络将历史推理信息发送给状态更新环境信息，继续下一次推理，直至推理信息中的关系向量与查询关系向量的相似度大于预设相似度，将推理信息中的目标实体作为路径推理结果输出，本实施例中的策略模块通过与环境信息的不断交互进行决策推理，最终得到头实体和查询关系对应的关系路径以及目标实体，完成路径推理任务。

综上，本实施例中的数据初始化可根据头尾实体以及关系的语义复杂度调整向量初始化的自身维度，提高了知识嵌入模块训练的效率和精度；将路径推理过程表示为马尔可夫决策过程，通过强化学习模型自动学习并搜索评分最高的关系路径和目标实体，提高路径推理的计算效率和扩展性能；在强化学习策略模块部分引入LSTM，将知识图谱关系中潜在的语义信息组合起来，增强实体和关系在路径推理过程中信息表示的能力；通过预测信息引导策略模块，优化路径搜索过程；通过元学习更新策略获取较好的初始化参数来优化现有的策略模块，使得强化学习模型(路径推理模型)可以快速适应对知识稀疏环境中关系信息，为知识图谱推理任务提供良好的训练特征。

本申请实施例提供的一种基于知识图谱的路径推理方法，所述路径推理方法包括：获取路径推理任务中的搜索实体和查询关系；将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。

基于同一申请构思，本申请实施例中还提供了与上述实施例提供一种基于知识图谱的路径推理方法对应的一种基于知识图谱的路径推理装置，由于本申请实施例中的装置解决问题的原理与本申请上述实施例一种基于知识图谱的路径推理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图4、图5，图4为本申请实施例所提供的一种基于知识图谱的路径推理装置的结构图之一，图5为本申请实施例所提供的一种基于知识图谱的路径推理装置的结构图之二。如图4中所示，所述路径推理装置410包括：

获取模块411，用于获取路径推理任务中的搜索实体和查询关系；

推理模块412，用于将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。

可选的，所述推理模块412具体用于：

可选的，所述推理模块412在用于将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，确定当前时刻的环境信息时，所述推理模块412具体用于：

可选的，如图5所示，所述路径推理装置410还包括训练模块413，所述训练模块413具体用于：

可选的，所述训练模块413在用于在环境模块的动作空间中存储三元组向量信息时，所述训练模块413具体用于：

可选的，所述推理模块412在用于将所述当前时刻的环境信息输入至所述策略模块中，得到所述路径推理任务在所述知识图谱中对应的路径推理结果时，所述推理模块412具体用于：

可选的，所述推理模块412还用于：

本申请实施例提供的一种基于知识图谱的路径推理装置，所述路径推理装置包括：获取模块，用于获取路径推理任务中的搜索实体和查询关系；推理模块，用于将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果；其中，所述路径推理模型包括知识嵌入模块、环境模块以及策略模块；所述策略模块是通过元学习方式进行训练得到。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1以及图2所示方法实施例中的基于知识图谱的路径推理方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的基于知识图谱的路径推理方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于知识图谱的路径推理方法，其特征在于，所述路径推理方法包括：

获取路径推理任务中的搜索实体和查询关系；

2.根据权利要求1所述的路径推理方法，其特征在于，所述将所述路径推理任务中的搜索实体和查询关系输入至所在的知识图谱训练好的路径推理模型中进行路径推理，得到所述路径推理任务在所述知识图谱中对应的路径推理结果的步骤，包括：

3.根据权利要求2所述的路径推理方法，其特征在于，所述将所述搜索实体向量和所述查询关系向量输入至所述环境模块的动作空间中，确定当前时刻的环境信息的步骤，包括：

4.根据权利要求1所述的路径推理方法，其特征在于，通过以下步骤训练路径推理模型中的策略模块：

5.根据权利要求4所述的路径推理方法，其特征在于，通过以下步骤在环境模块的动作空间中存储三元组向量信息：

6.根据权利要求2所述的路径推理方法，其特征在于，所述将所述当前时刻的环境信息输入至所述策略模块中，得到所述路径推理任务在所述知识图谱中对应的路径推理结果的步骤，包括：

7.根据权利要求6所述的路径推理方法，其特征在于，所述路径推理方法还包括：

8.一种基于知识图谱的路径推理装置，其特征在于，所述路径推理装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的基于知识图谱的路径推理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的基于知识图谱的路径推理方法的步骤。