CN112116069A - 一种基于Attention-LSTM的强化学习Agent知识推理方法 - Google Patents
一种基于Attention-LSTM的强化学习Agent知识推理方法 Download PDFInfo
- Publication number
- CN112116069A CN112116069A CN202010918363.9A CN202010918363A CN112116069A CN 112116069 A CN112116069 A CN 112116069A CN 202010918363 A CN202010918363 A CN 202010918363A CN 112116069 A CN112116069 A CN 112116069A
- Authority
- CN
- China
- Prior art keywords
- lstm
- attention
- reinforcement learning
- model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于Attention‑LSTM的强化学习Agent知识推理方法,通过双向长短期记忆网络可以有效记忆知识图谱推理路径,同时注意力机制对记忆路径状态加权获取需要关注的状态,抑制无效状态,实现记忆路径筛选,有效解决强化学习Agent的知识推理不能有效记忆推理路径问题,本发明通过在强化学习Agent中使用LSTM‑Attention网络模型进行关系路径特征提取,同时优化回报机制,有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。
Description
技术领域
本发明涉及强化学习和深度学习技术领域,具体涉及一种基于Attention-LSTM的强化学习Agent知识推理方法。
背景技术
自动搭建的知识图谱和手动搭建的图谱,都面临不完整性、知识缺失、实例正确性判断等问题,难以应用到垂直搜索、问答系统等领域。解决方案之一通过对知识图谱实施有效的知识多跳推理,进行知识图谱补全、链接预测、实例正确性判断。目前,该领域技术涉及基于一阶逻辑规则的知识推理只适用单跳路径、基于随机路径排名的知识推理不适用大规模知识图谱、基于FNN强化学习Agent的知识推理不能有效记忆推理路径。
发明内容
本发明为了克服以上技术的不足,提供了一种有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于Attention-LSTM的强化学习Agent知识推理方法,包括如下步骤:
a)加载知识图谱三元组训练集、验证集、测试集,对数据集进行预处理操作;
b)加载知识嵌入模型,获取数据集的词向量表示;
c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化,定义交互函数;
d)搭建双向长短期记忆网络模型,进行LSTM模型参数设置,对LSTM模型的输出添加Attention注意力机制,对所有关系添加注意力权重参数;
e)根据步骤d)中的网络模型构建Agent,将步骤b)中的词向量输入LSTM模型,得到所有邻接关系的可能性概率估计;
f)根据时间步进行迭代,在迭代结束后对累加结果求导计算,得到更新后的模型网络参数;
g)当给定实体对(e1,e2)后,根据MRR和hit10评估模型推理出该实体对之间路径的准确率。
进一步的,步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。
进一步的,步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型,得到三元组中实体关系的嵌入式词向量表示,每一个实体和关系都映射为一个密集连续词向量。
进一步的,步骤c)中通过公式P(St+1=s′|St=s,max(At)=a)定义在t时刻的状态转移方程,式中P为t+1时刻选择一个s′的概率,s′为t+1时刻的状态变量,a为t时刻根据状态St选择的最大概率关系,St+1为t+1时刻的状态,s为与a相关联的实体,At=Psoftmax(a|θ),θ为网络模型参数,通过公式定义回报函数R(st),式中eend为关系路径推理的最终实体,etarget为关系路径推理的目标实体,esource为给定训练路径中的实体集合,enoanswer为推理路径的时候没找到节点,r+表示回报值为正数,r-表示回报值为负数。
进一步的,步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。
进一步的,步骤e)中根据状态转移方程选择最大概率估计关系,根据回报函数评估最大概率估计关系,通过公式
计算回报值累加值J(θ),式中t为时间步,a为动作关系,为t时间步时状态空间st和关系动作at下的回报值,R(st+1|es,at)为状态空间st和关系动作at下到达状态st+1时刻的回报值,策略函数π(a|s;θ)为网络模型参数θ和状态s情况下所有动作关系a,a1,...,aend~πθ为在策略函数情况每一步选择的动作关系,E为根据下标函数进行迭代运算,A为动作关系空间中所有可能关系的集合,es为推理路径的初始实体Esource,πθ为网络模型参数为θ条件下的策略函数。
本发明的有益效果是:通过双向长短期记忆网络可以有效记忆知识图谱推理路径,同时注意力机制对记忆路径状态加权获取需要关注的状态,抑制无效状态,实现记忆路径筛选,有效解决强化学习Agent的知识推理不能有效记忆推理路径问题,本发明通过在强化学习Agent中使用LSTM-Attention网络模型进行关系路径特征提取,同时优化回报机制,有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。
具体实施方式
下面对本发明做进一步说明。
一种基于Attention-LSTM的强化学习Agent知识推理方法,包括如下步骤:
a)加载知识图谱三元组(entity1,relation,entity2)训练集、验证集、测试集,对数据集进行预处理操作;
b)加载知识嵌入模型,获取数据集的词向量表示;
c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化,定义交互函数;
d)搭建双向长短期记忆网络模型,进行LSTM模型参数设置,对LSTM模型的输出添加Attention注意力机制,对所有关系添加注意力权重参数;
e)根据步骤d)中的网络模型构建Agent,将步骤b)中的词向量输入LSTM模型,得到所有邻接关系的可能性概率估计;
f)根据时间步进行迭代,在迭代结束后对累加结果求导计算,得到更新后的模型网络参数;
g)当给定实体对(e1,e2)后,根据MRR和hit10评估模型推理出该实体对之间路径的准确率。经过测试在只是图谱多跳关系路径推理任务的典型数据集(NELL-995,FB15K-237)中实现较好推理精度。MRR和hit10评估模型在多跳关系路径推理能力,MRR通用的对搜索算法的评估机制,hit10表示推理预测评分的前10位。
通过双向长短期记忆网络可以有效记忆知识图谱推理路径,同时注意力机制对记忆路径状态加权获取需要关注的状态,抑制无效状态,实现记忆路径筛选,有效解决强化学习Agent的知识推理不能有效记忆推理路径问题,本发明通过在强化学习Agent中使用LSTM-Attention网络模型进行关系路径特征提取,同时优化回报机制,有效提升基于强化学习的知识图谱推理算法在多个基准数据集下的推理精度。
实施例1:
步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。
实施例2:
步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型,得到三元组中实体关系的嵌入式词向量表示,每一个实体和关系都映射为一个密集连续词向量。
实施例3:
步骤c)中通过公式P(St+1=s′|St=s,max(At)=a)定义在t时刻的状态转移方程,式中P为t+1时刻选择一个s′的概率,s′为t+1时刻的状态变量,a为t时刻根据状态St选择的最大概率关系,St+1为t+1时刻的状态,s为与a相关联的实体,At=Psoftmax(a|θ),θ为网络模型参数,通过公式定义回报函数R(st),式中eend为关系路径推理的最终实体,etarget为关系路径推理的目标实体,esource为给定训练路径中的实体集合,enoanswer为推理路径的时候没找到节点,r+表示回报值为正数,r-表示回报值为负数。
实施例4:
步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。
步骤e)中根据状态转移方程选择最大概率估计关系,根据回报函数评估最大概率估计关系,通过公式
计算回报值累加值J(θ),式中t为时间步,a为动作关系,为t时间步时状态空间st和关系动作at下的回报值,R(st+1|es,at)为状态空间st和关系动作at下到达状态st+1时刻的回报值,策略函数π(a|s;θ)为网络模型参数
θ和状态s情况下所有动作关系a,a1,...,aend~πθ为在策略函数情况每一步选择的动作关系,E为根据下标函数进行迭代运算,A为动作关系空间中所有可能关系的集合,es为推理路径的初始实体Esource,πθ为网络模型参数为θ条件下的策略函数。
实施例5:
Claims (7)
1.一种基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于,包括如下步骤:
a)加载知识图谱三元组训练集、验证集、测试集,对数据集进行预处理操作;
b)加载知识嵌入模型,获取数据集的词向量表示;
c)定义用来实现强化学习Agent和评价函数交互的强化学习环境并对环境初始化,定义交互函数;
d)搭建双向长短期记忆网络模型,进行LSTM模型参数设置,对LSTM模型的输出添加Attention注意力机制,对所有关系添加注意力权重参数;
e)根据步骤d)中的网络模型构建Agent,将步骤b)中的词向量输入LSTM模型,得到所有邻接关系的可能性概率估计;
f)根据时间步进行迭代,在迭代结束后对累加结果求导计算,得到更新后的模型网络参数;
g)当给定实体对(e1,e2)后,根据MRR和hit10评估模型推理出该实体对之间路径的准确率。
2.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤a)中的预处理操作包括统计训练的推理路径信息、统计测试的推理路径信息及对实体关系令牌化。
3.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤b)中通过基于OpenKE的TransH、TransE、TransR、DistinctMult、CompLEx嵌入模型,得到三元组中实体关系的嵌入式词向量表示,每一个实体和关系都映射为一个密集连续词向量。
4.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤c)中通过公式P(St+1=s′|St=s,max(At)=a)定义在t时刻的状态转移方程,式中P为t+1时刻选择一个s′的概率,s′为t+1时刻的状态变量,a为t时刻根据状态St选择的最大概率关系,St+1为t+1时刻的状态,s为与a相关联的实体,At=Psoftmax(a|θ),θ为网络模型参数,通过公式
eend为关系路径推理的最终实体,etarget为关系路径推理的目标实体,esource为给定训练路径中的实体集合,enoanswer为推理路径的时候没找到节点,r+表示回报值为正数,r-表示回报值为负数。
5.根据权利要求1所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤d)中LSTM模型参数包括输出维度、隐藏层维度、训练次数epochs、测试次数、batch、最大步长、学习率、权重衰减、gamma、beta、Lambda、Adam优化器。
6.根据权利要求4所述的基于Attention-LSTM的强化学习Agent知识推理方法,其特征在于:步骤e)中根据状态转移方程选择最大概率估计关系,根据回报函数评估最大概率估计关系,通过公式
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010918363.9A CN112116069A (zh) | 2020-09-03 | 2020-09-03 | 一种基于Attention-LSTM的强化学习Agent知识推理方法 |
NL2028258A NL2028258B1 (en) | 2020-09-03 | 2021-05-20 | Attention-lstm-based method for knowledge reasoning of reinforcement learning agent |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010918363.9A CN112116069A (zh) | 2020-09-03 | 2020-09-03 | 一种基于Attention-LSTM的强化学习Agent知识推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112116069A true CN112116069A (zh) | 2020-12-22 |
Family
ID=73801827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010918363.9A Pending CN112116069A (zh) | 2020-09-03 | 2020-09-03 | 一种基于Attention-LSTM的强化学习Agent知识推理方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112116069A (zh) |
NL (1) | NL2028258B1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076743A (zh) * | 2021-03-30 | 2021-07-06 | 太原理工大学 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
CN113639755A (zh) * | 2021-08-20 | 2021-11-12 | 江苏科技大学苏州理工学院 | 一种基于深度强化学习的火灾现场逃生-救援联合系统 |
CN113688217A (zh) * | 2021-08-24 | 2021-11-23 | 山东省人工智能研究院 | 一种面向搜索引擎知识库的智能问答方法 |
CN113743617A (zh) * | 2021-08-05 | 2021-12-03 | 合肥工业大学 | 知识表示学习模型的生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160557B (zh) * | 2019-12-27 | 2023-04-18 | 浙江大学 | 一种基于双代理增强学习路径搜索的知识表示学习方法 |
-
2020
- 2020-09-03 CN CN202010918363.9A patent/CN112116069A/zh active Pending
-
2021
- 2021-05-20 NL NL2028258A patent/NL2028258B1/en active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076743A (zh) * | 2021-03-30 | 2021-07-06 | 太原理工大学 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
CN113743617A (zh) * | 2021-08-05 | 2021-12-03 | 合肥工业大学 | 知识表示学习模型的生成方法及装置 |
CN113639755A (zh) * | 2021-08-20 | 2021-11-12 | 江苏科技大学苏州理工学院 | 一种基于深度强化学习的火灾现场逃生-救援联合系统 |
CN113688217A (zh) * | 2021-08-24 | 2021-11-23 | 山东省人工智能研究院 | 一种面向搜索引擎知识库的智能问答方法 |
Also Published As
Publication number | Publication date |
---|---|
NL2028258B1 (en) | 2022-04-06 |
NL2028258A (en) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112116069A (zh) | 一种基于Attention-LSTM的强化学习Agent知识推理方法 | |
WO2022083009A1 (zh) | 一种基于异源数据差补融合的定制产品性能预测方法 | |
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
CN109858647A (zh) | 一种耦合gis和gbdt算法的区域洪涝灾害风险评价与预估方法 | |
CN111047482B (zh) | 基于层次记忆网络的知识追踪系统及方法 | |
CN106886572B (zh) | 基于Markov逻辑网的知识图谱关系类型推测方法及其装置 | |
CN113190688B (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN107222333A (zh) | 一种基于bp神经网络的网络节点安全态势评估方法 | |
CN111415010B (zh) | 一种基于贝叶斯神经网络的风电机组参数辨识方法 | |
CN110046262A (zh) | 一种基于法律专家知识库的上下文推理方法 | |
CN109523021A (zh) | 一种基于长短时记忆网络的动态网络结构预测方法 | |
CN106022517A (zh) | 一种基于核极限学习机的风险预测的方法和装置 | |
CN112215446A (zh) | 一种基于神经网络的单位动态火灾风险评估方法 | |
CN110363230A (zh) | 基于加权基分类器的stacking集成污水处理故障诊断方法 | |
CN116303786B (zh) | 一种基于多维数据融合算法的区块链金融大数据管理系统 | |
CN112084341A (zh) | 一种基于三元组重要性的知识图谱补全方法 | |
CN111126758B (zh) | 一种学术团队影响力传播预测方法、设备和存储介质 | |
CN115269861A (zh) | 基于生成式对抗模仿学习的强化学习知识图谱推理方法 | |
CN114861917A (zh) | 贝叶斯小样本学习的知识图谱推理模型、系统及推理方法 | |
CN117436707B (zh) | 基于人工智能的消防安全管理方法及系统 | |
CN118040678A (zh) | 一种短期海上风电功率组合预测方法 | |
CN112651499A (zh) | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 | |
CN113837443B (zh) | 基于深度BiLSTM的变电站线路负载预测方法 | |
CN114363004B (zh) | 风险评估方法、装置、计算机设备和存储介质 | |
CN116524316A (zh) | 强化学习框架下场景图骨架构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201222 |