CN115269861A

CN115269861A - 基于生成式对抗模仿学习的强化学习知识图谱推理方法

Info

Publication number: CN115269861A
Application number: CN202210697445.4A
Authority: CN
Inventors: 周焕来; 邢增桓; 李金润; 任利; 郭健煜; 林思远; 黄婧; 高源�
Original assignee: Chengdu Quantum Matrix Technology Co ltd
Current assignee: Chengdu Quantum Matrix Technology Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-01

Abstract

本发明结合生成式对抗模仿学习的方法提出一种基于RLKGR‑GAIL的知识图谱推理算法用于改进现有的基于强化学习的知识图谱路径推理模型。内容主要包括：提出了RLKGR‑GAIL算法，并给出了相应的总体框架图，然后在根据已有的维修文本构建的飞机维修领域知识图谱数据集，并和已有的知识图谱推理算法设置了对照实验，实验结果表明RLKGR‑GAIL模型关系链路预测任务上相较于其他模型都具有一定优势，证明了本文的RLKGR‑GAIL模型的优越性。

Description

基于生成式对抗模仿学习的强化学习知识图谱推理方法

技术领域

本发明属于自然语言处理领域。

背景技术

知识图谱推理任务能够在原有知识基础上，辅助推理出新事实、新关系等。面向知识图谱推理最直观的表现就是知识图谱的补全，知识图谱的补全主要围绕关系的补全展开，即根据于图谱中已有的事实或关系推断出未知的事实或关系，通常需要衡量知识图谱的组成元素：实体、关系和图谱结构三个方面的特征信息。

目前，强化学习在推理中获得了不错的效果。强化学习便是将知识图谱多跳推理建模构建成马尔可夫序列决策过程。DeepPath对知识图谱进行简单的采样，训练策略网络；并通过手工设计的奖励函数对策略网络进行再训练。DeepPath的主要任务是给定一个知识图谱中的实体对(head,tail)，使模型推理从entity1到entity2的路径评估模型的主要任务是链接预测和事实预测，也就是说DeepPath是通过确定一个三元组是否成立来实现事实判断的。但是DeepPath的奖励函数是手工设定的，这种手工设定的策略可能并不是最优的，并且针对不同的数据集可能需要不同的设置；它的采样方法可能导致策略网络出现过拟合现象；强化学习环境中的状态使用TransE简单地进行表示，表征能力可能不足。MINERVA的任务与DeepPath略有不同，模型的输入是给定的询问(head,relation)(即实体关系对，包含头实体和关系)，并且其子任务只包括事实预测，虽然该方法无需预训练，但存在动作空间比较大，导致趋于收敛性较差，因此它们往往需要从头开始进行大量试验才能找到可靠的证据路径，也就导致了训练代价大，以及，在强化学习中有效的反复试验优化要求手动设计奖励函数以适合特定数据集。但是，这样的奖励工程取决于具有领域专业知识的精心设计的人工设计，这在实践中可能会面临很大的挑战。

综上，当前主流的基于强化学习的知识图谱推理算法，无论是Deep Path还是后来的MINERVA都对其奖励函数极为敏感，其中的微小变化可能会导致推理性能出现重大波动。因此，对于不同的数据集，基于强化学习的方法中的奖励函数需要手动调整才能获得良好的性能，这不仅效率低下而且费力，而且难以适应现实世界知识图谱的快速发展。

发明内容

本发明提出一种基于RLKGR-GAIL的知识图谱推理算法。本发明内容如下：(1)提出了RLKGR-GAIL算法，并给出了相应的总体框架图。

(2)在根据飞机维修领域数据集构建出的飞机维修领域知识图谱上，对RLKGR-GAIL模型进行实验。

(3)通过对比实验证明了RLKGR-GAIL算法在关系链路预测任务上有效提高了Hits@1和MRR指标，验证了RLKGR-GAIL算法的优越性，通过消融实验，证明了本模型中各模块的有效性。

附图说明

图1为本发明的算法整体框图。

图2为本发明静态实例路径采样图。

图3为本发明的实验数据集。

图4为本发明的实验配置环境。

图5为本发明的模型参数。

图6为本发明在飞机维修领域知识图谱中链路预测实验结果。

图7为本发明的消融实验结果。

具体实施方式

知识图谱推理任务能够在原有知识基础上，辅助推理出新事实、新关系等。面向知识图谱推理最直观的表现就是知识图谱的补全，知识图谱的补全主要围绕关系的补全展开，即根据于图谱中已有的事实或关系推断出未知的事实或关系，通常需要衡量知识图谱的组成元素：实体、关系和图谱结构三个方面的特征信息。然而和大型商业知识图谱相比，飞机维修领域知识图谱完整度较低，且具有较大稀疏度，这样的飞机维修领域知识图谱应用系统准确性不理想。针对以上存在的问题，我们可以通过运用知识图谱推理算法，对已有知识图谱里面缺失的关系进行推理补全。具体来说就是，针对根据以飞机维修日志相关的文本信息生成的知识图谱，本发明提出基于生成式对抗模仿学习的强化学习知识图谱推理方法(Reinforcement Learning Knowledge Graph Reasoning Method based onGenerative Adversarial Imitation Learning，RLKGR-GAIL)。本发明通过结合生成式对抗模仿学习的方法，实现改进现有的基于强化学习的知识图谱路径推理模型。

本发明对已有的强化学习算法进行改进，目前基于强化学习的知识图谱推理算法存在的问题是：强化学习的奖励函数需要手动调整才能获得良好效果，以及游走路径为找到可靠的证据路径需要消耗大量计算资源。图1所示为本发明知识推理算法流程图，该算法主要包括一个生成式对抗推理模块和演示采样模块。RLKGR-GAIL使用了模仿学习的概念，结合生成对抗网络模仿从知识图谱中自动采样的示例样本来自适应地学习推理策略和奖励函数，而无需手动进行奖励工程，这有利于生成式对抗模仿学习解决了人工调整奖励函数的问题，以及无需专家经验也无需耗费大量计算资源，仍然能很好地自适应学习推理策略。

具体思路如下：通过双向广度优先搜索处理训练样本得到静态示例样本，然后提供语义匹配得到进入鉴别器中的专家示例样本；同时生成器也根据当前知识图谱得到生成路径；然后专家示例样本和生成样本以相同的格式，在提取语义特征后，在鉴别器中进行比对，根据鉴别器的反馈对生成器进行更新，以此往复，直至鉴别器无法区分示例样本和生成样本的语义特征，这样也自适应地就找到了推理策略和奖励函数。

具体步骤如下：

步骤一：示例样本采样

首先，对于每一个查询关系，从飞机维修领域知识图谱中，使用所用正实体对采样候选示例样本，即静态示例样本采样。在知识图谱推理场景中，由于推理链由关系组成，所以说示例样本也是只能由关系路径组成。对于每一个正实体对，使用双向广度优先搜索(bi-directional breadth-first search，BiBFS)来探索两个实体间的最短路径。由于较短的路径倾向于表征两个实体之间更直接的相关性，系统初始化可用到这些较短路径，这样可以保障候选示例样本的质量；至于较长的路径，因为它们更可能包含毫无价值甚至嘈杂的推理步骤，所以用处不大，但考虑到这些较长路径还是具有一些潜在的效用价值，因此训练阶段本发明将它们也纳入学习对象中。由此，得到了一个示例样本集Ω_E，这就是静态示例样本采样，而为了与GAIL中鉴别器固定输入维度相适应，选择Ω_E中的一个出现频率最高的子集P_e，静态示例样本采样操作流程如图2所示。

之后，为了全面考虑到飞机维修领域知识图谱中每个实体的特定环境，通过考虑实体的拓扑相关性来进行动态示例样本采样。给定一个正实体对(entity_head,entity_tail),引入一个包含所有与entity_head直接相关的关系集R_h。对于每一次推理尝试，在智能体开始推理的区域中，智能体“感兴趣的区域”(region of interest,ROI)其实就是R_h这样的一个包含了所有与entity_head直接相关的关系集,而与ROI相关的路径往往与当前实体对更加相关，于是，如下式所示动态示例样本采样就是：

其中Ω_E为静态示例样本，以及r₁(x)表示关系路径{r₁,r₂,...,r_t,..}中第一个关系。

最后，考虑到飞机维修领域初始知识图谱本身的稀疏性，本发明对静态示例样本中除去动态示例样本后的剩余候选样本C_E＝Ω_E\Ω′_E进行与动态示例样本的语义匹配，来扩充示例样本数量。也就是说用每一个动态示例样本查询剩余样本中与其自身有关的其他候选样本，具体实现是提供点积来衡量两个路径嵌入层间的语义匹配程度，如下式所示：

其中α_i表示当前候选

与Ω′_E中现有示例样本直接的匹配分数之和。最终，通过迭代选择具有α最大值的剩余候选样本来填充动态示例样本，直至满足鉴别器固定输入维度N。

步骤二：生成对抗推理

生成对抗推理模块采用生成式对抗模仿学习GAIL模型，包括生成器和判别器，根据生成式对抗训练从步骤一中提取的示例样本，通过模仿仅由关系路径组成的示例样本的路径级语义来学习推理策略。

生成器网络用于学习生成预测的推理关系路径，可以是所有现有基于强化学习的推理算法中基于策略的智能体，通过GAIL生成器可以在语义空间上，找到更多样化的、和示例样本分布相匹配的证据路径，也就是我们的生成路径。

由于卷积神经网络在自然语言处理领域提取语义特征方面表现出的良好性能，本发明选择CNN来构建鉴别器。由于本部分的鉴别器是利用生成器生成的路径与专家示例样本之间的语义相似性来更新鉴别器自身参数，所以语义的特征提取不可或缺。

对于每一个正实体对，将当前生成器生成的推理路径和对应的示例样本路径整合成一个统一形式：P＝{x₁,x₂,...,x_N},其中包含了N个关系路径，本发明将其编码为实值矩阵，如下式所示：

其中x_n∈R^k为k维路径嵌入层，

表示p∈R^k×N连接算子。

对于给定的关系路径x＝{r₁,r₂,...,r_t,…}，如下式所示，编码路径嵌入层x为：

其中每个关系r_t∈R^k通过TransE预训练进行实值嵌入。

由此，我们知道了当前生成器生成的推理路径和对应的示例样本路径将被整合成统一形式P的嵌入编码实现，将P输入到鉴别器中，这样就可以得到参数化P语义特征D(p)。具体来说就是，首先通过一个卷积层利用其滑动内核ω∈R^k×N来提取局部特征，其中这种卷积层是通过ReLU非线性激活的，如下式所示这样就可以获得新的特征图：

c＝ReLU(Conv(p,ω)+b_c)

其中bc为偏差项。

然后，通过一个全连接隐藏层和一个输出层用于进一步的语义特征提取，如下式所示。

D(p)＝σ(W₂ReLU(W₁c))

输出层由sigmoid函数归一化，而其他层由ReLU非线性激活。

步骤三：训练优化：

训练过程中，利用所有正实体对来为模仿学习过程生成示例候选样本Ω_E。具体来说就是，对于每一个正实体对，首先需要对应的示例样本路径，这就依靠前文的演示采样模块获得；同时训练过程也需要生成关系路径，而这就需要依靠生成器来实现。随后，将示例样本整合成P_e，生成的路径则根据其有效性从整合成不同的

生成路径的有效性其实也就是智能体能否沿当前路径到达目标实体，其中Ω_G是所有生成路径的集合。

对于每对整合后的生成路径和示例样本路径〈P_g|P_e〉，通过其损失函数最小化来训练鉴别器D，并希望鉴别器能成为区分P_g和P_e的专家。为了使对抗训练过程更加稳定有效，采用WGAN-GP中的损失函数来更新鉴别器，即如下式所示：

L_C＝E[D(P_g)]-E[D(P_e)

L_D＝L_C+L_P

其中L_C代表原始critic损失函数、L_P代表梯度惩罚函数、L_D代表鉴别器损失函数，而λ为梯度惩罚系数，以及

为沿P_g和P_e之间的直线均匀采样，根据鉴别器的反馈，如下式所示将奖励函数设置为：

R_G＝δ_gmax{E[D(P_g)]-E[D(P_n)]，0}

其中P_n表示由具有连续均匀分布的随机噪声组成的噪声嵌入，δ_g是表征P_g有效性的特征函数，

是所有有效生成路径的集合。

训练过程即，只对至少比噪声嵌入P_n具有更高期望的部分有效路径给予正奖励，而想要提高训练收敛速率，则需要利用噪声嵌入P_n来过滤掉质量较差的路径。一旦获得正向奖励，使用蒙特卡洛策略梯度最大化预期累积奖励来更新生成器G。

步骤四：实验与分析

(1)实验数据集

本发明的实验数据集来自于收集的维修文本经过实体识别和关系抽取之后的飞机维修初始图谱。对飞机维修初始知识图谱中的实体量、关系量、三元组数量进行统计，统计结果如图3所示。

(2)评价指标

本实验效果采用三个指标来进行评价，分别是：MRR、和Hits@N。

MRR(Mean Reciprocal Ranking)是平均倒数排名指标，通过评分函数对样本中测试集的测试结果进行评分，然后按照评分进行排序，MRR则是这些排名取倒数再求平均值，如下式所示：

其中N为测试三元组集，|N|测试集中三元组数量，rank_i为测试集中第i个三元组的排名，由此看出，MRR指标越高的模型效果越好。

Hits@n是描述知识图谱链路预测测试集中得分排名小于n的三元组占测试集所有三元组的比例，如下式所示。

其中II为指示函数，当测试样本得分排名小于n时指示函数值II_x≤n(rank_i)为1，否则II_x≤n(rank_i)为0；指标Hits@1统计测试集得分排名第一，Hits@10统计测试集中排名前十。

本发明的实验配置环境如图4所示。

(3)模型参数

实验所用的模型参数如图5所示。其中path_length为路径长度，hidden_size为隐藏层大小，embedding_size代表实体与关系的嵌入大小，batch_size则是单轮训练样本数量，β为熵正则化参数，Lambda为移动平均线参数、total_iterations是迭代次数，train_entity_embeddings则是代表训练样本实体嵌入层标志位，train_relation_embeddings为训练样本关系嵌入层标志位。

(4)结果分析

为了能够更直观地表明本发明提出的基于生成式对抗模仿学习的飞机维修知识图谱推理算法的性能和有效性，采用了对比实验的方法，将本发明提出的RLKGR-GAIL模型和TransE、Deep path以及MINERVA进行对比，对照实验结果如图6所示。

与DeepPath模型相比，我们的改进方法在飞机维修知识图谱数据集上，Hit@1，Hit@10，MRR指标分别增加了12.57％，4.99％，8.90％；与基础的MINERVA模型相比，我们的改进方法在飞机维修知识图谱数据集上，Hit@1，Hit@10，MRR分别增加4.45％，0％，1.99％。

由对照实验可以看出，本发明提出的MINERVA(RLKGR-GAIL)在关系链路预测上确实比其他模型具有更好的效果，说明本发明提出的结合生成式对抗模仿学习(GAIL)和强化学习可以在飞机维修知识图谱补全可以取得有效的推理效果。相较于现有的基于强化学习的知识图谱推理算法(Deep Path和MINERVA)，本发明提出MINERVA(RLKGR-GAIL)在Hits@1和MRR指标都具有一定优势，这也就验证了基于强化学习的知识图谱推理算法因为无法人工设定最佳奖励函数，而实验效果欠佳，RLKGR-GAIL模型则通过动态自适应学习奖励函数和推理路径克服了这些缺陷。

为了进一步验证本发明提出的RLKGR-GAIL算法的有效性，我们设计了消融实验。消融实验是利用控制变量法的一种实验思路，其目的是验证算法当中各个模块存在的必要性，消融实验结果如图7所示。

消融实验由四组实验组成，主要是针对语义匹配、动态示例采样、以及整个示例采样模块。第一组为取消长尾实体的语义匹配，取而代之的是根据其出现频率，直接从剩余示例样本中选取候选路径；第二组为取消动态示例样本采样，即只采用静态示例样本采样的方式获得示例样本；第三组为取消直接取消模仿学习的示例采样；第四组则是RLKGR-GAIL模型的MRR。

通过消融实验结果可以看出来，在基于模仿学习的条件下，即便只是通过静态采样的方式获得示例样本，也可以提高推理效果；此外，高质量的示例样本对于模仿学习的影响立竿见影，这表明本发明提出的RLKGR-GAIL中语义匹配和拓扑结构滤波在采样模块不可或缺。

Claims

1.本发明提出一种基于生成式对抗模仿学习的强化学习知识图谱推理方法，其特征在于，该算法包括以下步骤：

步骤一：示例样本采样，设计了一个自动采样器来从知识图谱中自动采样示例样本来充当GAIL的专家策略；

步骤二：生成对抗推理，采用生成式对抗模仿学习GAIL模型，包括生成器和判别器，通过生成式对抗训练从步骤一中提取的示例样本中学，通过模仿仅由关系路径组成的示例样本的路径级语义来学习推理策略。

步骤三：训练优化：训练过程中，利用所有正实体对来为模仿学习过程生成示例候选样本Ω_E。具体来说就是，对于每一个正实体对，首先需要对应的示例样本路径，这就依靠前文的演示采样模块获得；同时训练过程也需要生成关系路径，而这就需要依靠生成器来实现。随后，将示例样本整合成P_e，生成的路径则根据其有效性从整合成不同的

步骤四：实验与分析

(1)实验数据集

本发明的实验数据集来自于收集的维修文本经过实体识别和关系抽取之后的飞机维修初始图谱。对飞机维修初始知识图谱中的实体量、关系量、三元组数量进行统计。

(2)评价指标

(3)模型参数

path_length为路径长度，hidden_size为隐藏层大小，embedding_size代表实体与关系的嵌入大小，batch_size则是单轮训练样本数量，β为熵正则化参数，Lambda为移动平均线参数、total_iterations是迭代次数，train_entity_embeddings则是代表训练样本实体嵌入层标志位，train_relation_embeddings为训练样本关系嵌入层标志位。

(4)结果分析

为了能够更直观地表明本发明提出的基于生成式对抗模仿学习的飞机维修知识图谱推理算法的性能和有效性，采用了对比实验的方法，将本发明提出的RLKGR-GAIL模型和TransE、Deep path以及MINERVA进行对比，得到对照实验结果。

为了进一步验证本发明提出的RLKGR-GAIL算法的有效性，我们设计了消融实验。消融实验是利用控制变量法的一种实验思路，其目的是验证算法当中各个模块存在的必要性，得到消融实验结果。

2.根据权利要求1所述的示例样本采样方法，其特征在于，所述内容包括如下步骤：

S1)对于每一个查询关系，从飞机维修领域知识图谱中，使用所用正实体对采样候选示例样本，即静态示例样本采样。在知识图谱推理场景中，由于推理链由关系组成，所以说示例样本也是只能由关系路径组成。对于每一个正实体对，使用双向广度优先搜索(bi-directional breadth-first search，BiBFS)来探索两个实体间的最短路径。由于较短的路径倾向于表征两个实体之间更直接的相关性，系统初始化可用到这些较短路径，这样可以保障候选示例样本的质量；至于较长的路径，因为它们更可能包含毫无价值甚至嘈杂的推理步骤，所以用处不大，但考虑到这些较长路径还是具有一些潜在的效用价值，因此训练阶段本发明将它们也纳入学习对象中。由此，得到了一个示例样本集Ω_E，这就是静态示例样本采样，而为了与GAIL中鉴别器固定输入维度相适应，选择Ω_E中的一个出现频率最高的子集P_e。

S2)为了全面考虑到飞机维修领域知识图谱中每个实体的特定环境，通过考虑实体的拓扑相关性来进行动态示例样本采样。给定一个正实体对(entity_head，entity_tail)，引入一个包含所有与entity_head直接相关的关系集R_h。对于每一次推理尝试，在智能体开始推理的区域中，智能体“感兴趣的区域”(region of interest，ROI)其实就是R_h这样的一个包含了所有与entity_head直接相关的关系集，而与ROI相关的路径往往与当前实体对更加相关，于是，如下式所示动态示例样本采样就是：

S3)考虑到飞机维修领域初始知识图谱本身的稀疏性，本发明对静态示例样本中除去动态示例样本后的剩余候选样本C_E＝Ω_E\Ω′_E进行与动态示例样本的语义匹配，来扩充示例样本数量。也就是说用每一个动态示例样本查询剩余样本中与其自身有关的其他候选样本，具体实现是提供点积来衡量两个路径嵌入层间的语义匹配程度，如下式所示：

其中α_i表示当前候选

3.根据权利要求1所述的生成对抗推理方法，其特征在于，通过模仿仅由关系路径组成的示例样本的路径级语义来学习推理策略，所述内容包括如下步骤：

S1)由于卷积神经网络在自然语言处理领域提取语义特征方面表现出的良好性能，本发明选择CNN来构建鉴别器。由于本部分的鉴别器是利用生成器生成的路径与专家示例样本之间的语义相似性来更新鉴别器自身参数，所以语义的特征提取不可或缺。

对于每一个正实体对，将当前生成器生成的推理路径和对应的示例样本路径整合成一个统一形式：P＝{x₁,x₂,...,x_N}，其中包含了N个关系路径，本发明将其编码为实值矩阵，如下式所示：

P＝x₁⊕x₂⊕...⊕x_N

其中x_n∈R^k为k维路径嵌入层，⊕表示p∈R^k×N连接算子。

对于给定的关系路径x＝{r₁，r₂,...,r_t,…}，如下式所示，编码路径嵌入层x为：

其中每个关系r_t∈R^k通过TransE预训练进行实值嵌入。

S2)当前生成器生成的推理路径和对应的示例样本路径将被整合成统一形式P的嵌入编码实现，将P输入到鉴别器中，这样就可以得到参数化P语义特征D(p)。具体来说就是，首先通过一个卷积层利用其滑动内核ω∈R^k×N来提取局部特征，其中这种卷积层是通过ReLU非线性激活的，如下式所示这样就可以获得新的特征图：

c＝ReLU(Conv(p,ω)+b_c)

其中b_c为偏差项。

S3)通过一个全连接隐藏层和一个输出层用于进一步的语义特征提取，如下式所示。

D(p)＝σ(W₂ReLU(W₁c))

输出层由sigmoid函数归一化，而其他层由ReLU非线性激活。

4.根据权利要求1所述的训练优化方法，其特征在于，采用WGAN-GP中的损失函数来更新鉴别器，所述内容包括如下步骤：

对于每对整合后的生成路径和示例样本路径<P_g|P_e>，通过其损失函数最小化来训练鉴别器D，并希望鉴别器能成为区分P_g和P_e的专家。为了使对抗训练过程更加稳定有效，采用WGAN-GP中的损失函数来更新鉴别器，即如下式所示：

L_C＝E[D(P_g)]-E[D(P_e)

L_D＝L_C+L_P

R_G＝δ_gmax{E[D(P_g)]-E[D(P_n)],0}

是所有有效生成路径的集合。