CN112116069A

CN112116069A - 一种基于Attention-LSTM的强化学习Agent知识推理方法

Info

Publication number: CN112116069A
Application number: CN202010918363.9A
Authority: CN
Inventors: 舒明雷; 刘浩; 王英龙; 刘辉; 陈超
Original assignee: Shandong Institute of Artificial Intelligence
Current assignee: Shandong Institute of Artificial Intelligence
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-22
Also published as: NL2028258B1; NL2028258A

Abstract

一种基于Attention‑LSTM的强化学习Agent知识推理方法，通过双向长短期记忆网络可以有效记忆知识图谱推理路径，同时注意力机制对记忆路径状态加权获取需要关注的状态，抑制无效状态，实现记忆路径筛选，有效解决强化学习Agent的知识推理不能有效记忆推理路径问题，本发明通过在强化学习Agent中使用LSTM‑Attention网络模型进行关系路径特征提取，同时优化回报机制，有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。

Description

一种基于Attention-LSTM的强化学习Agent知识推理方法

技术领域

本发明涉及强化学习和深度学习技术领域，具体涉及一种基于Attention-LSTM的强化学习Agent知识推理方法。

背景技术

自动搭建的知识图谱和手动搭建的图谱，都面临不完整性、知识缺失、实例正确性判断等问题，难以应用到垂直搜索、问答系统等领域。解决方案之一通过对知识图谱实施有效的知识多跳推理，进行知识图谱补全、链接预测、实例正确性判断。目前，该领域技术涉及基于一阶逻辑规则的知识推理只适用单跳路径、基于随机路径排名的知识推理不适用大规模知识图谱、基于FNN强化学习Agent的知识推理不能有效记忆推理路径。

发明内容

本发明为了克服以上技术的不足，提供了一种有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于Attention-LSTM的强化学习Agent知识推理方法，包括如下步骤：

a)加载知识图谱三元组训练集、验证集、测试集，对数据集进行预处理操作；

b)加载知识嵌入模型，获取数据集的词向量表示；

c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化，定义交互函数；

d)搭建双向长短期记忆网络模型，进行LSTM模型参数设置，对LSTM模型的输出添加Attention注意力机制，对所有关系添加注意力权重参数；

e)根据步骤d)中的网络模型构建Agent，将步骤b)中的词向量输入LSTM模型，得到所有邻接关系的可能性概率估计；

f)根据时间步进行迭代，在迭代结束后对累加结果求导计算，得到更新后的模型网络参数；

g)当给定实体对(e₁,e₂)后，根据MRR和hit₁₀评估模型推理出该实体对之间路径的准确率。

进一步的，步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。

进一步的，步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型，得到三元组中实体关系的嵌入式词向量表示，每一个实体和关系都映射为一个密集连续词向量。

进一步的，步骤c)中通过公式P(S_t+1＝s′|S_t＝s,max(A_t)＝a)定义在t时刻的状态转移方程，式中P为t+1时刻选择一个s′的概率，s′为t+1时刻的状态变量，a为t时刻根据状态S_t选择的最大概率关系，S_t+1为t+1时刻的状态，s为与a相关联的实体，A_t＝P_softmax(a|θ)，θ为网络模型参数，通过公式

定义回报函数R(s_t)，式中e_end为关系路径推理的最终实体，e_target为关系路径推理的目标实体，e_source为给定训练路径中的实体集合，e_noanswer为推理路径的时候没找到节点，r₊表示回报值为正数，r_-表示回报值为负数。

进一步的，步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。

进一步的，步骤e)中根据状态转移方程选择最大概率估计关系，根据回报函数评估最大概率估计关系，通过公式

计算回报值累加值J(θ)，式中t为时间步，a为动作关系，

为t时间步时状态空间s_t和关系动作a_t下的回报值，R(s_t+1|e_s,a_t)为状态空间s_t和关系动作a_t下到达状态s_t+1时刻的回报值，策略函数π(a|s；θ)为网络模型参数θ和状态s情况下所有动作关系a，a₁,...,a_end～π_θ为在策略函数情况每一步选择的动作关系，E为根据下标函数进行迭代运算，A为动作关系空间中所有可能关系的集合，e_s为推理路径的初始实体E_source，π_θ为网络模型参数为θ条件下的策略函数。

进一步的，步骤f)中通过公式

计算得到更先后的模型网络参数，

为对模型参数θ求导，

为在t时刻的策略函数的导数，R(s_t|e_t,a_t)为每个时间步下的回报，e_t为推理路径的目标实体E_target。

本发明的有益效果是：通过双向长短期记忆网络可以有效记忆知识图谱推理路径，同时注意力机制对记忆路径状态加权获取需要关注的状态，抑制无效状态，实现记忆路径筛选，有效解决强化学习Agent的知识推理不能有效记忆推理路径问题，本发明通过在强化学习Agent中使用LSTM-Attention网络模型进行关系路径特征提取，同时优化回报机制，有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。

具体实施方式

下面对本发明做进一步说明。

a)加载知识图谱三元组(entity₁,relation,entity₂)训练集、验证集、测试集，对数据集进行预处理操作；

b)加载知识嵌入模型，获取数据集的词向量表示；

g)当给定实体对(e₁,e₂)后，根据MRR和hit₁₀评估模型推理出该实体对之间路径的准确率。经过测试在只是图谱多跳关系路径推理任务的典型数据集(NELL-995,FB15K-237)中实现较好推理精度。MRR和hit₁₀评估模型在多跳关系路径推理能力，MRR通用的对搜索算法的评估机制，hit₁₀表示推理预测评分的前10位。

通过双向长短期记忆网络可以有效记忆知识图谱推理路径，同时注意力机制对记忆路径状态加权获取需要关注的状态，抑制无效状态，实现记忆路径筛选，有效解决强化学习Agent的知识推理不能有效记忆推理路径问题，本发明通过在强化学习Agent中使用LSTM-Attention网络模型进行关系路径特征提取，同时优化回报机制，有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。

实施例1：

步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。

实施例2：

步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型，得到三元组中实体关系的嵌入式词向量表示，每一个实体和关系都映射为一个密集连续词向量。

实施例3：

步骤c)中通过公式P(S_t+1＝s′|S_t＝s,max(A_t)＝a)定义在t时刻的状态转移方程，式中P为t+1时刻选择一个s′的概率，s′为t+1时刻的状态变量，a为t时刻根据状态S_t选择的最大概率关系，S_t+1为t+1时刻的状态，s为与a相关联的实体，A_t＝P_softmax(a|θ)，θ为网络模型参数，通过公式

实施例4：

步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。

步骤e)中根据状态转移方程选择最大概率估计关系，根据回报函数评估最大概率估计关系，通过公式

计算回报值累加值J(θ)，式中t为时间步，a为动作关系，

为t时间步时状态空间s_t和关系动作a_t下的回报值，R(s_t+1|e_s,a_t)为状态空间s_t和关系动作a_t下到达状态s_t+1时刻的回报值，策略函数π(a|s；θ)为网络模型参数

θ和状态s情况下所有动作关系a，a₁,...,a_end～π_θ为在策略函数情况每一步选择的动作关系，E为根据下标函数进行迭代运算，A为动作关系空间中所有可能关系的集合，e_s为推理路径的初始实体E_source，π_θ为网络模型参数为θ条件下的策略函数。

实施例5：

步骤f)中通过公式

计算得到更先后的模型网络参数，

为对模型参数θ求导，

为在t时刻的策略函数的导数，R(s_t|e_t,a_t)为每个时间步下的回报，e_t为推理路径的目标实体E_target。公式标示对每个时间步下的回报值和策略网络梯度的累加近似为累加回报的导数。

Claims

1.一种基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于，包括如下步骤：

b)加载知识嵌入模型，获取数据集的词向量表示；

2.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于：步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。

3.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于：步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型，得到三元组中实体关系的嵌入式词向量表示，每一个实体和关系都映射为一个密集连续词向量。

4.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于：步骤c)中通过公式P(S_t+1＝s′|S_t＝s,max(A_t)＝a)定义在t时刻的状态转移方程，式中P为t+1时刻选择一个s′的概率，s′为t+1时刻的状态变量，a为t时刻根据状态S_t选择的最大概率关系，S_t+1为t+1时刻的状态，s为与a相关联的实体，A_t＝P_softmax(a|θ)，θ为网络模型参数，通过公式

e_end为关系路径推理的最终实体，e_target为关系路径推理的目标实体，e_source为给定训练路径中的实体集合，e_noanswer为推理路径的时候没找到节点，r₊表示回报值为正数，r_-表示回报值为负数。

5.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于：步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。

6.根据权利要求4所述的基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于：步骤e)中根据状态转移方程选择最大概率估计关系，根据回报函数评估最大概率估计关系，通过公式

计算回报值累加值J(θ)，式中t为时间步，a为动作关系，

7.根据权利要求4所述的基于Attention-LSTM的强化学习Agent知识推理方法，其特征在于：步骤f)中通过公式

计算得到更先后的模型网络参数，

为对模型参数θ求导，