CN112116069A - 一种基于Attention-LSTM的强化学习Agent知识推理方法 - Google Patents

一种基于Attention-LSTM的强化学习Agent知识推理方法 Download PDF

Info

Publication number
CN112116069A
CN112116069A CN202010918363.9A CN202010918363A CN112116069A CN 112116069 A CN112116069 A CN 112116069A CN 202010918363 A CN202010918363 A CN 202010918363A CN 112116069 A CN112116069 A CN 112116069A
Authority
CN
China
Prior art keywords
lstm
attention
reinforcement learning
model
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010918363.9A
Other languages
English (en)
Inventor
舒明雷
刘浩
王英龙
刘辉
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Institute of Artificial Intelligence filed Critical Shandong Institute of Artificial Intelligence
Priority to CN202010918363.9A priority Critical patent/CN112116069A/zh
Publication of CN112116069A publication Critical patent/CN112116069A/zh
Priority to NL2028258A priority patent/NL2028258B1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于Attention‑LSTM的强化学习Agent知识推理方法,通过双向长短期记忆网络可以有效记忆知识图谱推理路径,同时注意力机制对记忆路径状态加权获取需要关注的状态,抑制无效状态,实现记忆路径筛选,有效解决强化学习Agent的知识推理不能有效记忆推理路径问题,本发明通过在强化学习Agent中使用LSTM‑Attention网络模型进行关系路径特征提取,同时优化回报机制,有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。

Description

一种基于Attention-LSTM的强化学习Agent知识推理方法
技术领域
本发明涉及强化学习和深度学习技术领域,具体涉及一种基于Attention-LSTM的强化学习Agent知识推理方法。
背景技术
自动搭建的知识图谱和手动搭建的图谱,都面临不完整性、知识缺失、实例正确性判断等问题,难以应用到垂直搜索、问答系统等领域。解决方案之一通过对知识图谱实施有效的知识多跳推理,进行知识图谱补全、链接预测、实例正确性判断。目前,该领域技术涉及基于一阶逻辑规则的知识推理只适用单跳路径、基于随机路径排名的知识推理不适用大规模知识图谱、基于FNN强化学习Agent的知识推理不能有效记忆推理路径。
发明内容
本发明为了克服以上技术的不足,提供了一种有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于Attention-LSTM的强化学习Agent知识推理方法,包括如下步骤:
a)加载知识图谱三元组训练集、验证集、测试集,对数据集进行预处理操作;
b)加载知识嵌入模型,获取数据集的词向量表示;
c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化,定义交互函数;
d)搭建双向长短期记忆网络模型,进行LSTM模型参数设置,对LSTM模型的输出添加Attention注意力机制,对所有关系添加注意力权重参数;
e)根据步骤d)中的网络模型构建Agent,将步骤b)中的词向量输入LSTM模型,得到所有邻接关系的可能性概率估计;
f)根据时间步进行迭代,在迭代结束后对累加结果求导计算,得到更新后的模型网络参数;
g)当给定实体对(e1,e2)后,根据MRR和hit10评估模型推理出该实体对之间路径的准确率。
进一步的,步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。
进一步的,步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型,得到三元组中实体关系的嵌入式词向量表示,每一个实体和关系都映射为一个密集连续词向量。
进一步的,步骤c)中通过公式P(St+1=s′|St=s,max(At)=a)定义在t时刻的状态转移方程,式中P为t+1时刻选择一个s′的概率,s′为t+1时刻的状态变量,a为t时刻根据状态St选择的最大概率关系,St+1为t+1时刻的状态,s为与a相关联的实体,At=Psoftmax(a|θ),θ为网络模型参数,通过公式
Figure BDA0002664057300000021
定义回报函数R(st),式中eend为关系路径推理的最终实体,etarget为关系路径推理的目标实体,esource为给定训练路径中的实体集合,enoanswer为推理路径的时候没找到节点,r+表示回报值为正数,r-表示回报值为负数。
进一步的,步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。
进一步的,步骤e)中根据状态转移方程选择最大概率估计关系,根据回报函数评估最大概率估计关系,通过公式
Figure BDA0002664057300000022
计算回报值累加值J(θ),式中t为时间步,a为动作关系,
Figure BDA0002664057300000023
为t时间步时状态空间st和关系动作at下的回报值,R(st+1|es,at)为状态空间st和关系动作at下到达状态st+1时刻的回报值,策略函数π(a|s;θ)为网络模型参数θ和状态s情况下所有动作关系a,a1,...,aend~πθ为在策略函数情况每一步选择的动作关系,E为根据下标函数进行迭代运算,A为动作关系空间中所有可能关系的集合,es为推理路径的初始实体Esource,πθ为网络模型参数为θ条件下的策略函数。
进一步的,步骤f)中通过公式
Figure BDA0002664057300000031
计算得到更先后的模型网络参数,
Figure BDA0002664057300000032
为对模型参数θ求导,
Figure BDA0002664057300000033
为在t时刻的策略函数的导数,R(st|et,at)为每个时间步下的回报,et为推理路径的目标实体Etarget
本发明的有益效果是:通过双向长短期记忆网络可以有效记忆知识图谱推理路径,同时注意力机制对记忆路径状态加权获取需要关注的状态,抑制无效状态,实现记忆路径筛选,有效解决强化学习Agent的知识推理不能有效记忆推理路径问题,本发明通过在强化学习Agent中使用LSTM-Attention网络模型进行关系路径特征提取,同时优化回报机制,有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。
具体实施方式
下面对本发明做进一步说明。
一种基于Attention-LSTM的强化学习Agent知识推理方法,包括如下步骤:
a)加载知识图谱三元组(entity1,relation,entity2)训练集、验证集、测试集,对数据集进行预处理操作;
b)加载知识嵌入模型,获取数据集的词向量表示;
c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化,定义交互函数;
d)搭建双向长短期记忆网络模型,进行LSTM模型参数设置,对LSTM模型的输出添加Attention注意力机制,对所有关系添加注意力权重参数;
e)根据步骤d)中的网络模型构建Agent,将步骤b)中的词向量输入LSTM模型,得到所有邻接关系的可能性概率估计;
f)根据时间步进行迭代,在迭代结束后对累加结果求导计算,得到更新后的模型网络参数;
g)当给定实体对(e1,e2)后,根据MRR和hit10评估模型推理出该实体对之间路径的准确率。经过测试在只是图谱多跳关系路径推理任务的典型数据集(NELL-995,FB15K-237)中实现较好推理精度。MRR和hit10评估模型在多跳关系路径推理能力,MRR通用的对搜索算法的评估机制,hit10表示推理预测评分的前10位。
通过双向长短期记忆网络可以有效记忆知识图谱推理路径,同时注意力机制对记忆路径状态加权获取需要关注的状态,抑制无效状态,实现记忆路径筛选,有效解决强化学习Agent的知识推理不能有效记忆推理路径问题,本发明通过在强化学习Agent中使用LSTM-Attention网络模型进行关系路径特征提取,同时优化回报机制,有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。
实施例1:
步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。
实施例2:
步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型,得到三元组中实体关系的嵌入式词向量表示,每一个实体和关系都映射为一个密集连续词向量。
实施例3:
步骤c)中通过公式P(St+1=s′|St=s,max(At)=a)定义在t时刻的状态转移方程,式中P为t+1时刻选择一个s′的概率,s′为t+1时刻的状态变量,a为t时刻根据状态St选择的最大概率关系,St+1为t+1时刻的状态,s为与a相关联的实体,At=Psoftmax(a|θ),θ为网络模型参数,通过公式
Figure BDA0002664057300000051
定义回报函数R(st),式中eend为关系路径推理的最终实体,etarget为关系路径推理的目标实体,esource为给定训练路径中的实体集合,enoanswer为推理路径的时候没找到节点,r+表示回报值为正数,r-表示回报值为负数。
实施例4:
步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。
步骤e)中根据状态转移方程选择最大概率估计关系,根据回报函数评估最大概率估计关系,通过公式
Figure BDA0002664057300000052
计算回报值累加值J(θ),式中t为时间步,a为动作关系,
Figure BDA0002664057300000053
为t时间步时状态空间st和关系动作at下的回报值,R(st+1|es,at)为状态空间st和关系动作at下到达状态st+1时刻的回报值,策略函数π(a|s;θ)为网络模型参数
θ和状态s情况下所有动作关系a,a1,...,aend~πθ为在策略函数情况每一步选择的动作关系,E为根据下标函数进行迭代运算,A为动作关系空间中所有可能关系的集合,es为推理路径的初始实体Esource,πθ为网络模型参数为θ条件下的策略函数。
实施例5:
步骤f)中通过公式
Figure BDA0002664057300000061
计算得到更先后的模型网络参数,
Figure BDA0002664057300000062
为对模型参数θ求导,
Figure BDA0002664057300000063
为在t时刻的策略函数的导数,R(st|et,at)为每个时间步下的回报,et为推理路径的目标实体Etarget。公式标示对每个时间步下的回报值和策略网络梯度的累加近似为累加回报的导数。

Claims (7)

1.一种基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于,包括如下步骤:
a)加载知识图谱三元组训练集、验证集、测试集,对数据集进行预处理操作;
b)加载知识嵌入模型,获取数据集的词向量表示;
c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化,定义交互函数;
d)搭建双向长短期记忆网络模型,进行LSTM模型参数设置,对LSTM模型的输出添加Attention注意力机制,对所有关系添加注意力权重参数;
e)根据步骤d)中的网络模型构建Agent,将步骤b)中的词向量输入LSTM模型,得到所有邻接关系的可能性概率估计;
f)根据时间步进行迭代,在迭代结束后对累加结果求导计算,得到更新后的模型网络参数;
g)当给定实体对(e1,e2)后,根据MRR和hit10评估模型推理出该实体对之间路径的准确率。
2.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。
3.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型,得到三元组中实体关系的嵌入式词向量表示,每一个实体和关系都映射为一个密集连续词向量。
4.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤c)中通过公式P(St+1=s′|St=s,max(At)=a)定义在t时刻的状态转移方程,式中P为t+1时刻选择一个s′的概率,s′为t+1时刻的状态变量,a为t时刻根据状态St选择的最大概率关系,St+1为t+1时刻的状态,s为与a相关联的实体,At=Psoftmax(a|θ),θ为网络模型参数,通过公式
Figure FDA0002664057290000021
eend为关系路径推理的最终实体,etarget为关系路径推理的目标实体,esource为给定训练路径中的实体集合,enoanswer为推理路径的时候没找到节点,r+表示回报值为正数,r-表示回报值为负数。
5.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。
6.根据权利要求4所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤e)中根据状态转移方程选择最大概率估计关系,根据回报函数评估最大概率估计关系,通过公式
Figure FDA0002664057290000022
计算回报值累加值J(θ),式中t为时间步,a为动作关系,
Figure FDA0002664057290000023
为t时间步时状态空间st和关系动作at下的回报值,R(st+1|es,at)为状态空间st和关系动作at下到达状态st+1时刻的回报值,策略函数π(a|s;θ)为网络模型参数θ和状态s情况下所有动作关系a,a1,...,aend~πθ为在策略函数情况每一步选择的动作关系,E为根据下标函数进行迭代运算,A为动作关系空间中所有可能关系的集合,es为推理路径的初始实体Esource,πθ为网络模型参数为θ条件下的策略函数。
7.根据权利要求4所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤f)中通过公式
Figure FDA0002664057290000031
计算得到更先后的模型网络参数,
Figure FDA0002664057290000032
为对模型参数θ求导,
Figure FDA0002664057290000033
为在t时刻的策略函数的导数,R(st|et,at)为每个时间步下的回报,et为推理路径的目标实体Etarget
CN202010918363.9A 2020-09-03 2020-09-03 一种基于Attention-LSTM的强化学习Agent知识推理方法 Pending CN112116069A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010918363.9A CN112116069A (zh) 2020-09-03 2020-09-03 一种基于Attention-LSTM的强化学习Agent知识推理方法
NL2028258A NL2028258B1 (en) 2020-09-03 2021-05-20 Attention-lstm-based method for knowledge reasoning of reinforcement learning agent

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010918363.9A CN112116069A (zh) 2020-09-03 2020-09-03 一种基于Attention-LSTM的强化学习Agent知识推理方法

Publications (1)

Publication Number Publication Date
CN112116069A true CN112116069A (zh) 2020-12-22

Family

ID=73801827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010918363.9A Pending CN112116069A (zh) 2020-09-03 2020-09-03 一种基于Attention-LSTM的强化学习Agent知识推理方法

Country Status (2)

Country Link
CN (1) CN112116069A (zh)
NL (1) NL2028258B1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076743A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种基于网络结构和表示学习的知识图多跳推理方法
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN113688217A (zh) * 2021-08-24 2021-11-23 山东省人工智能研究院 一种面向搜索引擎知识库的智能问答方法
CN113743617A (zh) * 2021-08-05 2021-12-03 合肥工业大学 知识表示学习模型的生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160557B (zh) * 2019-12-27 2023-04-18 浙江大学 一种基于双代理增强学习路径搜索的知识表示学习方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076743A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种基于网络结构和表示学习的知识图多跳推理方法
CN113743617A (zh) * 2021-08-05 2021-12-03 合肥工业大学 知识表示学习模型的生成方法及装置
CN113639755A (zh) * 2021-08-20 2021-11-12 江苏科技大学苏州理工学院 一种基于深度强化学习的火灾现场逃生-救援联合系统
CN113688217A (zh) * 2021-08-24 2021-11-23 山东省人工智能研究院 一种面向搜索引擎知识库的智能问答方法

Also Published As

Publication number Publication date
NL2028258B1 (en) 2022-04-06
NL2028258A (en) 2021-08-17

Similar Documents

Publication Publication Date Title
CN112116069A (zh) 一种基于Attention-LSTM的强化学习Agent知识推理方法
WO2022083009A1 (zh) 一种基于异源数据差补融合的定制产品性能预测方法
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN109858647A (zh) 一种耦合gis和gbdt算法的区域洪涝灾害风险评价与预估方法
CN111047482B (zh) 基于层次记忆网络的知识追踪系统及方法
CN106886572B (zh) 基于Markov逻辑网的知识图谱关系类型推测方法及其装置
CN113190688B (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN107222333A (zh) 一种基于bp神经网络的网络节点安全态势评估方法
CN111415010B (zh) 一种基于贝叶斯神经网络的风电机组参数辨识方法
CN110046262A (zh) 一种基于法律专家知识库的上下文推理方法
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN106022517A (zh) 一种基于核极限学习机的风险预测的方法和装置
CN112215446A (zh) 一种基于神经网络的单位动态火灾风险评估方法
CN110363230A (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN112084341A (zh) 一种基于三元组重要性的知识图谱补全方法
CN111126758B (zh) 一种学术团队影响力传播预测方法、设备和存储介质
CN115269861A (zh) 基于生成式对抗模仿学习的强化学习知识图谱推理方法
CN114861917A (zh) 贝叶斯小样本学习的知识图谱推理模型、系统及推理方法
CN117436707B (zh) 基于人工智能的消防安全管理方法及系统
CN118040678A (zh) 一种短期海上风电功率组合预测方法
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN113837443B (zh) 基于深度BiLSTM的变电站线路负载预测方法
CN114363004B (zh) 风险评估方法、装置、计算机设备和存储介质
CN116524316A (zh) 强化学习框架下场景图骨架构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222