CN109063823A - 一种智能体探索3d迷宫的批a3c强化学习方法 - Google Patents

一种智能体探索3d迷宫的批a3c强化学习方法 Download PDF

Info

Publication number
CN109063823A
CN109063823A CN201810820233.4A CN201810820233A CN109063823A CN 109063823 A CN109063823 A CN 109063823A CN 201810820233 A CN201810820233 A CN 201810820233A CN 109063823 A CN109063823 A CN 109063823A
Authority
CN
China
Prior art keywords
labyrinth
intelligent body
queue
movement
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810820233.4A
Other languages
English (en)
Other versions
CN109063823B (zh
Inventor
李玉鑑
聂小广
刘兆英
张婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810820233.4A priority Critical patent/CN109063823B/zh
Publication of CN109063823A publication Critical patent/CN109063823A/zh
Application granted granted Critical
Publication of CN109063823B publication Critical patent/CN109063823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种智能体探索3D迷宫的批A3C强化学习方法,为了达到相对较短的训练时间和较小的内存损耗的目标,本发明使用基于批的强化学习方法训练神经网络。神经网络划分为两个部分,第一部分主要包含若干个卷积层和MLP,得到原始屏幕像素的低维度表示;第二部分是一个LSTM即长短时记忆模型。LSTM的输入是第一部分的MLP的输出,LSTM的最后一个时间步的细胞输出外接两个MLP,分别用来预测当前状态下动作a的概率分布以及当前状态下的状态值v的预测。结合高效强化学习算法与深度学习方法实现智能体自主探索3D迷宫,并且以相对较短的训练时间和较小的内存损耗使得智能体能够成功的探索3D迷宫环境。

Description

一种智能体探索3D迷宫的批A3C强化学习方法
技术领域
本发明属于强化学习与深度学习领域,主要涉及到基于深度强化学习的智能体探索3D迷宫的方法,基于该场景我们可以评估各种深度强化学习模型的训练时间,内存损耗以及智能体在探索迷宫过程中的稳定性。
背景技术
强化学习(RL,Reinforcement Learning)被认为是设计人工智能系统的核心技术之一。强化学习起源于行为心理学的研究,很大程度上模仿了智能生物的学习模式,使得具备强化学习能力的智能体(Agent)逐渐的从自身的经验中学习到与环境之间最有效的交互方式,而不是事先告诉智能体如何与环境交互。智能体每次与环境交互的目标是使得当前状态下未来奖励最大化。但是强化学习方法在连续复杂环境中,每时每刻环境的状态可能都不相同,强化学习理论的瓶颈就会展现出来。面对高维度,巨大状态集合的动态规划问题时,单纯的RL会显得力不从心。但是神经网络非常适合处理高维度的信息,擅长从巨量的样本中抽取高维度多通道数据的核心(本质)特征,所以将神经网络与强化学习结合起来是非常有必要的。
以Google公司的DeepMind为主要代表的深度强化学习团队,一直致力于如何提升智能体探索交互环境的学习能力,从简单的2D游戏环境,复杂的2D游戏环境以及3D迷宫游戏环境都有着里程碑意义的研究成果。
DeepMind团队在2013年提出的基于Q-Learning的深度强化学习方法玩Atari游戏,智能体表现出来的效果甚至达到了人类玩家的水平,该方法引入了经验池(replaymenory),经验池的引入可以在一定程度上缓解智能体在探索环境过程中前后状态关联性过强,导致训练神经网络时的不稳定,难收敛等情况;引入了贪婪机制(greedypolicy),使得智能体能够探索环境的未知领域,学习更多交互技巧,同时也利用自身经验选择最佳动作。
DeepMind在2015年提出了增强版的Q-Learning算法,提出了非常经典的DQN模型(Deep Q-network),智能体在Atari 2600系列游戏中表现出众,在40多种游戏中的表现达到甚至超出人类玩家水平。与2013年提出的基于Q-Learning的深度强化学习模型不同的是DQN模型采用了两套神经网络参数,正是由于有了这Target Q-network,使得智能体在探索环境时更稳定,学习的更快,表现的更好。
DeepMind团队在2016年提出了无监督辅助任务强化学习方法,应用于DeepMind的强化学习核心引擎-DeepMind Lab的3D游戏场景的研究,并且达到了非常好的效果,这种方法的提出主要是为了缓解DeepMind团队之前提出的模型训练非常耗时等问题。
DeepMind团队也将深度强化学习的研究应用到人机对战当中。DeepMind开发的AlphaGo-Fan打败来了欧洲围棋冠军樊麾,AlphaGo-Lee打败了拥有18项世界围棋冠军头衔的李世乭,AlphaGo-master打败了世界顶级围棋冠军柯洁,AlphaGo-Zero以100∶0完胜AlphaGo-Lee,以89∶11战胜了升级版的AlphaGo-master。其中DeepMind最新公布的AlphaGo-Zero是完全基于深度强化习的强大智能体。
发明内容
本发明的目的是结合高效强化学习算法与深度学习方法实现智能体自主探索3D迷宫,并且以相对较短的训练时间和较小的内存损耗使得智能体能够成功的探索3D迷宫环境
为了达到相对较短的训练时间和较小的内存损耗的目标,本发明使用基于批的强化学习方法训练神经网络。
神经网络划分为两个部分,第一部分主要包含若干个卷积层和MLP,得到原始屏幕像素的低维度表示;第二部分是一个LSTM即长短时记忆模型。LSTM的输入是第一部分的MLP的输出,LSTM的最后一个时间步的细胞输出外接两个MLP,分别用来预测当前状态下动作a的概率分布以及当前状态下的状态值v的预测。
为实现上述目的,本发明采用的技术方案为一种批的A3C深度强化学习方法,该方法的实现过程如下:
步骤1、选择迷宫地图,迷宫地图为自己设计,或使用第三方提供的强化学习开源游戏引擎,比如DeepMind Lab、VizDoom等;
步骤2、强化学习系统主要包含两大块:环境及智能体;环境就是步骤1中的迷宫地图,下面定义的智能体将与迷宫环境交互,即走迷宫,智能体通过不断的走迷宫,学习迷宫环境,最终顺利的走出迷宫。定义智能体的n种基本动作,n为基本动作的种类数;n=5时的基本动作分别为:前进,后退,向左转,向右转,原地不动,以及各基本动作的组合如组合动作数目为32种,则组合动作集合Action={a1,a2,......,a32},其中每个组合动作用1个5元二进制向量表示,a=(1,0,1,0,0)的含义是前进和向左转的组合;
步骤3、智能体与环境交互,获取环境状态s,s取为游戏屏幕像素矩阵,以及当前状态下环境的回报r,把环境状态s经过若干层卷积和全连接层后,得到的低维度向量表示为vec=(f1,f2,......,fdim),dim是最后一个全连接层的节点个数;
步骤4、把向量vec输入到一个LSTM网络中,把LSTM网络中最后一个时间步的输出记为T;
步骤5、把LSTM网络的输出T分别经过两个MLP网络,一个产生动作a的概率分布,另一个产生状态值v,其中distribution_a中每一项都是对每个动作的预测,且状态值v的计算公式为v=wv T·cell_output_T+bv,其中wv和bv分别是MLP层的权重和偏置;
步骤6、用共享队列queue收集训练网络所需要的样本,共享队列的大小设置为200,其中每个样本都可以表示为一个四元组sample=(s,a,r,v):s表示当前状态,a表示当前状态下采取的动作,r表示环境对动作a的回报,v表示s的状态值;
步骤7、从共享队列中批量清除编号比较靠后的样本,共享队列的长度为200,固定清除10个样本,那么当队列长度达到200时,就清除编号为191~200的样本,并且将新获取的样本从队头插入到队列中,如果队列的长度不够200,那么直接将新样本添加进队列,并且循环上述过程,共享队列就总是能够保存一些相对较新的环境状态;
步骤8、定义损失函数,更新网络参数,优化网络模型,直至网络收敛,最后状态值v=wv T·cell_output_T+bv近似重建动作值Q,动作分布distribution_a收敛于状态s的最优策略。
与现有的技术相比,本发明具有以下有益效果。
采用基于批的A3C深度强化学习方法能够比较好的加快网络的训练时间,并且内存相对占用小。相较于典型的A3C方法,本方法只需要一个神经网络,一套参数,在多个进程的前提下,借助经验池的方法就可以比较快的完成网络的训练,并且能达到比较好的效果。实验表明在开3个进程、游戏窗口120*480的前提下,只需16小时的时间就可以完成2500万次的训练任务。而采用传统的A3C深度强化学习方法,由于涉及到多个子网络与主网络之间的参数传递,所以训练会消耗更长的时间。
附图说明
图1是本发明具体实现的神经网络部分,训练样本从经验池中获取,每次获取批量样本用于神经网络的训练,首先对高维像素矩阵进行降维,得到其低维度向量表示,然后经过一个LSTM循环神经网络,最后由若干个全连接层计算状态值以及动作分布。
图2是智能体与环境交互的示意图。也是神经网络工作的可视化。
具体实施方式
为了更进一步的说明本发明的目的,技术方案及其特点,下面结合具体实施本方法的例子并参照附图,对本发明进行进一步的说明。本发明采用基于批的A3C深度强化学习方法实现智能体探索3D迷宫。使用CNN-MLP来提取智能体的状态的低维度特征vec,然后使用LSTM+MLP分别预测智能体基于当前状态的动作分布的预测,以及当前状态的状态值,这个状态值近似的重建动作值函数。本发明的改进之处可以归纳为以下两个方面:1)只需要一套神经网络参数,借助经验池以及进程技术就可以完成基于A3C算法的深度强化学习完成智能体顺利探索3D迷宫的任务;2)采用较大规模的经验池,而不是LSTM细胞循环的步数,这样可以更有效的消解智能体前后若干状态之间的关联性;3)采用相对较多的进程,使得系统能够在很短的时间内就能够收集到足够多的样本,从而很快的训练网络参数,这比多个子网络分别探索环境收集样本的速度更快,并且训练网络的方式更直接。每次从共享队列中随机的选取一个批的大小的智能体历史状态更新网络参数,并且即时清除掉已经使用过的训练样本,这样就能够保证经验池里面的样本尽量最新。
图1为本发明的网络结构图,网络结构分为两个部分:CNN+MLP实现智能体状态的低维度表示,LSTM+MLP实现动作智能体动作概率分布的预测以及状态值的预测,图2是本发明中智能体与环境交互的示意图。其具体过程如下:
步骤1:本发明采用的强化学习平台:VizDoom,并且使用VizDoom提供的最新3D效果的迷宫地图。
步骤2、定义智能体的5种基本动作:前进,后退,向左转,向右转,原地不动,基本动作的组合数目为32种,则组合动作集合Action={a1,a2,......,a32},其中每个组合动作用1个5元二进制向量表示,如a=(1,0,1,0,0)的含义是前进和向左转的组合;
步骤3:本方法实现的智能体能够探索3D迷宫游戏任务不需要预先提供训练集,使用VizDoom提供的相关接口就可以在固定的时间间隔内获取智能体与环境交互的信息:屏幕像素矩阵s、智能体所采取的动作的环境回报r。智能体的状态s作为神经网络第一部分的输入,提取像素矩阵低维度的特征vec=(f1,f2,......,f512),其中512是神经网络第一部分最后一个MLP层的节点数目;
步骤4:vec作为LSTM(长短时记忆网络)的输入,细胞的最后一个时间步的输出为:T=(f1,f2,......,f512),其中512是LSTM细胞单元隐含层的节点数目。
步骤5:T分别作为两个独立的MLP网络的输入,最终得到网络对状态s的动作概率分布:a=(f1,f2,......,f32),以及对状态值v的估计,v是个标量值;
步骤6:对共享队列queue的管理。共享队列收集智能体(Agent)与3D迷宫游戏环境交互的结果,队列保存的每一项都是一个四元组(s,a,r,v)。其中,s表示当前状态,a表示策略网络对当前状态的动作的预测值,r表示环境对动作a的奖励或惩罚值,v表示状态s的状态值;
步骤7、设置共享队列的大小为200,在队列管理的过程中,删除过于陈旧的样本,并且保存同等数目的新样本;
步骤8、定义损失函数,更新网络参数,优化模型。采用经典的A3C算法计算网络各部分的损失,并且采用小批量随机梯度下降方法训练网络,从共享队列中随机选取批量样本训练网络。
实验设备和所需环境
linux,64位操作系统,intel处理器,CPU主频3.3GHz,内存8G。实验编程环境python及其各种依赖包,深度学习框架为Google目前开源的tensorflow,强化学习3D迷宫游戏引擎为VizDoom提供的3D效果的迷宫地图。
实验结果与说明。
实验中采用160*120的游戏窗口,每秒30帧,截取的游戏屏幕窗口都被压缩成80*80的矩阵。智能体的动作集合中包含32个基本动作以及基本动作的组合动作,网络架构中主要包含两种结构:1)CNN+MLP,2)LSTM+MLP。卷积核尺寸分别为8*8、4*4,过滤器的个数分别为16个和32个。卷积核采用均匀分布来进行初始化。两个卷积层后面接一个全连接层,输出512维的向量;LSTM的输入是前面CNN+MLP层输出的512维的向量,LSTM的循环时间步为25步,最后一步的细胞输出为512维的向量,LSTM后面分别接两个MLP-MLP1、MLP2。MLP1主要是对状态的动作的概率分布的预测。MLP2主要是对该状态的状态值的预测。
训练网络过程中共享队列的大小为:200,批的大小为64。规定,如果智能体在探索迷宫过程中在2100步之内还没有找到指定地点的“机器人”(探索迷宫结束的标志),智能体将结束该次探索。系统重新随机设置智能体的起始位置,智能体在新的位置开始探索3D迷宫。在以上设置的实验参数条件下,训练2500万步之后网络基本收敛,结束网络的训练。测试过程中,智能体每次在新的位置探索3D迷宫,智能体基本都能够在1分钟左右的时间内找到指定位置的“机器人”,顺利的结束迷宫的探索。因为系统设置了智能体在2100步之内没有找到出口,就算失败,所以测试过程中偶尔会出现智能体找不到出口(“机器人”)的情况,一方面是因为我采用的3D迷宫地图太大,迷宫中墙壁的颜色比较单调,导致智能体不太容易有效的探索,而DeepMind使用的3D迷宫地图比较小,实际效果也比较好。从测试结果来看,智能体能够在规定的时间内找到迷宫的出口,达到了实验目的,实验结果证明了本发明方法的有效性。

Claims (2)

1.一种智能体探索3D迷宫的批A3C强化学习方法,其特征在于:该方法的实现过程如下:
步骤1、选择迷宫地图;
步骤2、强化学习系统主要包含两大块:环境及智能体;环境就是步骤1中的迷宫地图,下面定义的智能体将与迷宫环境交互,即走迷宫,智能体通过不断的走迷宫,学习迷宫环境,最终顺利的走出迷宫。定义智能体的n种基本动作,n为基本动作的种类数;n=5时的基本动作分别为:前进,后退,向左转,向右转,原地不动,以及各基本动作的组合,组合动作数目为32种,则组合动作集合Action={a1,a2,......,a32},其中每个组合动作用1个5元二进制向量表示,a=(1,0,1,0,0)的含义是前进和向左转的组合;
步骤3、智能体与环境交互,获取环境状态s,s取为游戏屏幕像素矩阵,以及当前状态下环境的回报r,把环境状态s经过若干层卷积和全连接层后,得到的低维度向量表示为vec=(f1,f2,......,fdim),dim是最后一个全连接层的节点个数;
步骤4、把向量vec输入到一个LSTM网络中,把LSTM网络中最后一个时间步的输出记为T;
步骤5、把LSTM网络的输出T分别经过两个MLP网络,一个产生动作a的概率分布,另一个产生状态值v,其中distribution_a中每一项都是对每个动作的预测,且状态值v的计算公式为v=wv T·cell_output_T+bv,其中wv和bv分别是MLP层的权重和偏置;
步骤6、用共享队列queue收集训练网络所需要的样本,共享队列的大小设置为200,其中每个样本都可以表示为一个四元组sample=(s,a,r,v):s表示当前状态,a表示当前状态下采取的动作,r表示环境对动作a的回报,v表示s的状态值;
步骤7、从共享队列中批量清除编号比较靠后的样本,共享队列的长度为200,固定清除10个样本,那么当队列长度达到200时,就清除编号为191~200的样本,并且将新获取的样本从队头插入到队列中,如果队列的长度不够200,那么直接将新样本添加进队列,并且循环,共享队列就总是能够保存一些相对较新的环境状态;
步骤8、定义损失函数,更新网络参数,优化网络模型,直至网络收敛,最后状态值v=wv T·cell_output_T+bv近似重建动作值Q,动作分布distribution_a收敛于状态s的最优策略。
2.根据权利要求1所述的一种智能体探索3D迷宫的批A3C强化学习方法,其特征在于,迷宫地图为自己设计,或使用第三方提供的强化学习开源游戏引擎DeepMind Lab、VizDoom设计。
CN201810820233.4A 2018-07-24 2018-07-24 一种智能体探索3d迷宫的批a3c强化学习方法 Active CN109063823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810820233.4A CN109063823B (zh) 2018-07-24 2018-07-24 一种智能体探索3d迷宫的批a3c强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810820233.4A CN109063823B (zh) 2018-07-24 2018-07-24 一种智能体探索3d迷宫的批a3c强化学习方法

Publications (2)

Publication Number Publication Date
CN109063823A true CN109063823A (zh) 2018-12-21
CN109063823B CN109063823B (zh) 2022-06-07

Family

ID=64836274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810820233.4A Active CN109063823B (zh) 2018-07-24 2018-07-24 一种智能体探索3d迷宫的批a3c强化学习方法

Country Status (1)

Country Link
CN (1) CN109063823B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111260039A (zh) * 2020-05-06 2020-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于辅助任务学习的视频游戏决策方法
CN111582439A (zh) * 2020-04-14 2020-08-25 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN113139644A (zh) * 2021-03-24 2021-07-20 北京科技大学顺德研究生院 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
CN114413910A (zh) * 2022-03-31 2022-04-29 中国科学院自动化研究所 视觉目标导航方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
WO2018071392A1 (en) * 2016-10-10 2018-04-19 Deepmind Technologies Limited Neural networks for selecting actions to be performed by a robotic agent
CN108008627A (zh) * 2017-12-13 2018-05-08 中国石油大学(华东) 一种并行优化的强化学习自适应pid控制方法
CN108283809A (zh) * 2018-02-11 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
WO2018071392A1 (en) * 2016-10-10 2018-04-19 Deepmind Technologies Limited Neural networks for selecting actions to be performed by a robotic agent
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108008627A (zh) * 2017-12-13 2018-05-08 中国石油大学(华东) 一种并行优化的强化学习自适应pid控制方法
CN108283809A (zh) * 2018-02-11 2018-07-17 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGXUAN LU 等: "Deep reinforcement learning policy in Hex game system", 《2018 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》, 9 July 2018 (2018-07-09) *
刘世泽 等: "基于人工神经网络的迷宫路径策略问题研究", 《工业控制计算机》, 30 June 2013 (2013-06-30) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682392A (zh) * 2018-12-28 2019-04-26 山东大学 基于深度强化学习的视觉导航方法及系统
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN110472738A (zh) * 2019-08-16 2019-11-19 北京理工大学 一种基于深度强化学习的无人艇实时避障算法
CN110750096A (zh) * 2019-10-09 2020-02-04 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN110750096B (zh) * 2019-10-09 2022-08-02 哈尔滨工程大学 静态环境下基于深度强化学习的移动机器人避碰规划方法
CN111026127B (zh) * 2019-12-27 2021-09-28 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111582311B (zh) * 2020-04-09 2023-03-28 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111582439A (zh) * 2020-04-14 2020-08-25 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111582439B (zh) * 2020-04-14 2021-08-10 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111260039A (zh) * 2020-05-06 2020-06-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于辅助任务学习的视频游戏决策方法
CN111260039B (zh) * 2020-05-06 2020-08-07 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于辅助任务学习的视频游戏决策方法
CN113139644A (zh) * 2021-03-24 2021-07-20 北京科技大学顺德研究生院 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
CN113139644B (zh) * 2021-03-24 2024-02-09 北京科技大学顺德研究生院 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
CN114413910A (zh) * 2022-03-31 2022-04-29 中国科学院自动化研究所 视觉目标导航方法及装置

Also Published As

Publication number Publication date
CN109063823B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN109063823A (zh) 一种智能体探索3d迷宫的批a3c强化学习方法
Russell et al. Q-decomposition for reinforcement learning agents
Lee et al. The computational intelligence of MoGo revealed in Taiwan's computer Go tournaments
CN111766782B (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
CN111841018B (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
CN113688977B (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN107909153A (zh) 基于条件生成对抗网络的模型化策略搜索学习方法
CN111298439B (zh) 数据处理方法、装置、介质及电子设备
CN112215350A (zh) 一种基于强化学习的智能体控制方法及装置
CN112215364A (zh) 一种基于强化学习的敌-友深度确定性策略方法及系统
CN113919485A (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
CN116128060A (zh) 一种基于对手建模与蒙特卡洛强化学习的棋类博弈方法
CN115238891A (zh) 决策模型训练方法、目标对象的策略控制方法及装置
Xu Understanding the reinforcement learning
Fu Simulation-based algorithms for Markov decision processes: Monte Carlo tree search from AlphaGo to AlphaZero
Tong et al. A Monte-Carlo approach for ghost avoidance in the Ms. Pac-Man game
CN111589120A (zh) 目标物控制方法、计算机设备及计算机可读存储介质
Cowling et al. Search in real-time video games
Dobre et al. Online learning and mining human play in complex games
Crouch Space, living, atmospheres, affectivities
Lu et al. Deep reinforcement learning policy in Hex game system
Ji et al. Improving decision-making efficiency of image game based on deep Q-learning
Espinosa Leal et al. Reinforcement learning for extended reality: designing self-play scenarios
Gao Understanding the future of deep reinforcement learning from the perspective of game theory
Liu et al. Towards understanding chinese checkers with heuristics, monte carlo tree search, and deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant