CN111260072A - 一种基于生成对抗网络的强化学习探索方法 - Google Patents

一种基于生成对抗网络的强化学习探索方法 Download PDF

Info

Publication number
CN111260072A
CN111260072A CN202010018402.XA CN202010018402A CN111260072A CN 111260072 A CN111260072 A CN 111260072A CN 202010018402 A CN202010018402 A CN 202010018402A CN 111260072 A CN111260072 A CN 111260072A
Authority
CN
China
Prior art keywords
reinforcement learning
robot
method based
exploration
countermeasure network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010018402.XA
Other languages
English (en)
Inventor
洪伟峻
张伟楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010018402.XA priority Critical patent/CN111260072A/zh
Publication of CN111260072A publication Critical patent/CN111260072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于生成对抗网络的强化学习探索方法,辅助机器人在物流运输场景中进行探索,涉及强化学习探索方法领域。本发明通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对生成对抗网络的内部奖励,以鼓励探索。本发明生成对抗网络可以与任意强化学习算法结合使用,且不局限于特定的状态空间,可以针对各种维度、各种类型(连续或离散)的状态空间进行密度估计,从而给出内部奖励。实践证明,生成对抗网络的训练频率在远小于强化学习策略更新频率的情况下效果更为优秀,这意味着本发明相较于不辅助探索的强化学习算法的额外计算开销可以忽略不计,可以用于物流运输等强化学习应用场景中辅助机器人进行探索。

Description

一种基于生成对抗网络的强化学习探索方法
技术领域
本发明涉及强化学习探索方法领域,尤其涉及一种基于生成对抗网络的强化学习探索方法。
背景技术
强化学习探索问题,是指在强化学习技术中探索和利用的平衡问题。通常来讲,目前强化学习在落地到具体应用中时普遍存在探索不充分的情况,在机器人辅助物流运输的场景中使用强化学习时,通常需要人工地设计一些基于脚本的规则辅助机器人探索,来让强化学习关注于运筹优化的目标,但是人工设计的脚本难以最大限度地发挥强化学习的主动学习能力。而若不使用人工设计的脚本进行探索则机器人通常无法获得足够的外部奖励,难以快速准确地适应环境。
(一)分析近期关于强化学习探索的专利技术:
1、申请号为201910549586.X的中国发明专利申请《一种强化学习的高效探索方法》提出了一种利用预训练的计数估计函数进行强化学习的高效探索方法,该方法主要针对连续空间任务,并不适用于离散空间任务;
2、申请号为201810071032.9的中国发明专利申请《强化学习任务中高维连续动作空间离散化探索方法》,通过量化操作将连续的动作空间转化成一个离散的动作空间,进行降维编码并计数,进而提高智能体策略更新时的搜索效率,该方法主要针对高维连续动作空间进行探索的优化,而本方法主要针对状态空间进行探索的优化;
(二)分析近期基于强化学习探索的研究:
Bellemare等在Conference and Workshop on Neural Information ProcessingSystems(神经信息处理系统会议)会议(2016年第29届第1471-1479页)上发表的Unifyingcount-based exploration and intrinsic motivation.《结合基于计数的探索和内在驱动》,该文中将动作状态对进行伪计数来对近似的贝尔曼方程进行求解。其不足在于:伪计数的方法不适用于大状态空间和大动作空间;
Ostrovski等在International Conference on Machine Learning(机器学习国际会议)会议(2018年第35届)上发表的Count-based exploration with neural densitymodels.《基于计数且使用神经密度模型的探索》,该文中对状态的伪计数使用了PixelCNN给出密度估计来近似。其不足在于:PixelCNN是一种适用于图像这类二维离散状态的密度估计模型,具有其局限性。
对国内外相关专利分析以及相关研究可得出以下结论:目前在机器人进行物流运输的场景中没有适用于任意类型的(离散或连续的)任意规模的状态空间上的辅助强化学习探索的应用。
因此,本领域的技术人员致力于开发一种在机器人物流运输的场景中,可适用于任意类型的(离散或连续的)任意规模的状态空间上的辅助强化学习探索的应用。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的是现有强化学习探索方法不适用于在物流运输场景中的任意类型的(离散或连续的)任意规模的状态空间上辅助机器人进行探索的技术问题。
为实现上述目的,本发明提供了一种基于生成对抗网络的强化学习探索方法(Generative Adversarial Exploration,GAEX),其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inRt,以鼓励探索。
进一步地,所述负样本是生成器G生成的虚拟状态样本zt
进一步地,所述正样本是真实状态样本φt
进一步地,所述负样本与所述正样本相比,如果相似度高则所述判别器D给出高置信度,相应所述内部奖励inRt少,反之相似度低则给出所述内部奖励inRt多。
进一步地,包括如下步骤:
步骤1、定义机器人的状态空间,即机器人执行每一步时的输入st,包括空间中的坐标,运货物目的地的距离和方向,待运货物坐标和距离,传感器感知的周围障碍物方位和距离,对于第t步,转换计算所述真实状态样本φt;
步骤2、所述生成器G生成所述第t步使用的所述虚拟状态样本zt
步骤3、将所述第t步的所述真实状态样本φt与所述虚拟状态样本zt,输入所述判别器D,训练所述生成对抗网络,同时生成所述内部奖励inRt
步骤4、按照强化学习策略根据当前输入的所述st输出当前应当执行的动作at,所述动作at包括改变和保持移动方向,拿起和放下货物,以及前进的速度,根据环境执行所述第t步后得到的外部奖励exRt,结合所述内部奖励inRt,生成所述第t步机器人得到的奖励总合Rt;
步骤5、根据所述第t步的奖励总合Rt,使用强化学习的方法对机器人进行更新,得到更新策略的新的所述机器人。
进一步地,所述真实状态样本φt的转换计算方法为计算所述第t步过去四帧的叠加状态简化表示,包括如下步骤:
步骤1.1、令d表示任意数据降维方法,令s[-i]表示过去第i步的原始状态输入,令α表示介于0到1之间的衰减常量,令所述φt初始化为0;
步骤1.2、所述真实状态样本φt的计算方法为令i=3,2,1,反复代入φt=φt+α(d(s[-i+1])-d(s[-i]))。
进一步地,所述虚拟状态样本zt和所述真实状态样本φt具有相同的维度。
进一步地,令D(φt)表示所述判别器D输出的对于所述第t步的所述真实状态样本φt真实度的估计,则所述内部奖励inRt的计算方法为:inRt=β(1-D(φt))2
进一步地,所述生成器G和所述判别器D在所述机器人进行强化学习的同时进行训练,利用存储的所述真实状态样本φt,以及即时生成的所述虚拟状态样本zt分别作为所述正样本和所述负样本进行训练。
进一步地,在所述机器人进行强化学习策略更新时,利用所述第t步的所述奖励总合Rt进行训练,其中Rt=exRt+inRt
本发明中所运用到的生成对抗网络从规律上讲,所述生成器会不断地对真实样本的分布进行拟合,一旦所述机器人进入到了常遇到的环境时,所述判别器D会对所述真实状态样本φt给出高真实度估计,认为是正样本,从而降低了该状态下的内部奖励inRt,而一旦所述机器人进入到了未曾遇到或极少遇到的环境时,所述判别器D会对所述真实状态样本φt给出低真实度估计,认为是负样本,从而提高了该状态下的内部奖励inRt。而所述生成器G又会对新的状态样本进行学习,保持对环境状态样本真实度的始终有一个合理的评估,使得当极少遇到的环境在重复探索多次后其所述真实度估计会降低到正常值附近。从而所述机器人能够不断地得到有效的探索激励信号,主动地进行探索。从规律上讲更优的物流运输路径,更合理的避障方式都需要在机器人对环境中的不断探索中发现。
本发明具有如下技术效果:
1、本发明中机器人的控制算法逻辑十分灵活,可以结合做强化学习算法,只需将生成对抗网络中判别器给出的内部奖励inRt与外部奖励exRt结合相加得到奖励总合Rt进行训练即可。
2、本发明中机器人可以对多种输入类型进行处理,不局限于特定的状态空间,可以在任意类型的任意规模的状态空间上使用,于是可以与任意强化学习算法结合使用,如DQN、A3C、PPO等。
3、实践证明,本发明中生成对抗网络的训练频率在远小于强化学习策略更新频率的情况下效果更为优秀,这意味着本发明相较于不辅助探索的强化学习算法几乎不额外增加成本,但是效果更好。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明方法流程图。
具体实施方式
以下参考说明书附图介绍本发明的一个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
本发明实施例提供了一种基于生成对抗网络的强化学习探索方法,使用的强化学习的基线算法为深度Q网络,即DQN。本发明实施例将方法应用于机器人辅助物流运输的环境中,该环境中有若干待运输的货物,每个货物均有各自不同的目标运输地点。具体步骤如下:
1、定义物流运输场景中的状态空间(即算法的输入空间),包括在地图中的二维坐标(我们将机器人可活动范围定义为包含了所有货物及其目的地点的一个矩形,将坐标原点选取为矩形的中心),所有机器人身上在运货物目的地到机器人的距离和方向,地图上待运货物的坐标和到机器人的距离,传感器感知的周围障碍物到机器人的距离和方位等。定义机器人的动作空间为朝当前面向方向的前、后、左、右四个方向移动的四个动作,外加调整前进速度为可选的四个档次的四个动作,以及拿起或放下当前运输的某个货物的动作。定义机器人所能获得的外部奖励为成功运输一个货物得到1的奖励,以及每一分钟固定得到-1的奖励,因此机器人运输完所有货物所花费时间越长,外部奖励总和越小;
2、随机初始化Q网络,生成器网络G和判别器网络D;
3、对于每一段新的经历(episode),每一个步骤t:
(1)由机器人当前的策略选择并采取一个动作at,可以使用在DQN中广泛使用的ε-贪婪策略选取;
(2)利用判别器D计算当前所处状态st对应的内部奖励inRt
(3)将五元组(st,at,inRt,exRt,st+1)存储到缓冲池M中;
(4)如果t的值正好是200的倍数,即每200步时,从M中随机抽取n个五元组中的真实状态样本φt,并产生n组随机噪声经生成器生成n组虚拟状态样本zt,用于生成对抗网络的更新。
(5)如果t的值正好是200的倍数,即每4步时,从M中随机抽取n个五元组中,按照DQN的更新方法对机器人策略进行更新,其中Rt=exRt+inRt
在机器人辅助物流运输的场景中,本方法可以使得强化学习的探索进行得更加充分,在充分训练后,每段经历中相同时间内机器人搬运货物的数量相较于普通DQN方法有明显的提高。在仅使用DQN的情况下,由于缺少合适的外部奖励,机器人通常倾向于沿直线将各个货物分别地从原始地点搬运到目的地点,而本方法训练的机器人由于内部奖励的存在,经常会选择不同的路径,探索更优的货物分配顺序,在运筹优化空间大、路况复杂多变的场景下本方法效果有明显得提升。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于生成对抗网络的强化学习探索方法,其特征在于,通过生成负样本和正样本来训练生成对抗网络,并通过判别器D提供对所述生成对抗网络的内部奖励inRt,以鼓励探索。
2.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述负样本是生成器G生成的虚拟状态样本zt
3.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述正样本是真实状态样本φt
4.如权利要求1所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述负样本与所述正样本相比,如果相似度高则所述判别器D给出的所述内部奖励inRt少,反之相似度低则给出所述内部奖励inRt多。
5.如权利要求4所述的基于生成对抗网络的强化学习探索方法,其特征在于,包括如下步骤:
步骤1、定义机器人的状态空间,即机器人执行每一步时的输入st,包括空间中的坐标,运货物目的地的距离和方向,待运货物坐标和距离,传感器感知的周围障碍物方位和距离,对于第t步,转换计算所述真实状态样本φt
步骤2、所述生成器G生成所述第t步使用的所述虚拟状态样本zt
步骤3、将所述第t步的所述真实状态样本φt与所述虚拟状态样本zt,输入所述判别器D,训练所述生成对抗网络,同时生成所述内部奖励inRt
步骤4、按照强化学习策略根据当前输入的所述st输出当前应当执行的动作at,所述动作at包括改变和保持移动方向,拿起和放下货物,以及前进的速度,根据环境执行所述第t步后得到的外部奖励exRt,结合所述内部奖励inRt,生成所述第t步机器人得到的奖励总合Rt
步骤5、根据所述第t步的奖励总合Rt,使用强化学习的方法对机器人进行更新,得到更新策略的新的所述机器人。
6.如权利要求5所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述真实状态样本φt的转换计算方法为计算所述第t步过去四帧的叠加状态简化表示,包括如下步骤:
步骤1.1、令d表示任意数据降维方法,令s[-i]表示过去第i步的原始状态输入,令α表示介于0到1之间的衰减常量,令所述φt初始化为0;
步骤1.2、所述真实状态样本φt的计算方法为令i=3,2,1,反复代入φt=φt+α(d(s[-i+1])-d(s[-i]))。
7.如权利要求5所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述虚拟状态样本zt和所述真实状态样本φt具有相同的维度。
8.如权利要求5所述的基于生成对抗网络的强化学习探索方法,其特征在于,令D(φt)表示所述判别器D输出的对于所述第t步的所述真实状态样本φt真实度的估计,则所述内部奖励inRt的计算方法为:inRt=β(1-D(φt))2
9.如权利要求5所述的基于生成对抗网络的强化学习探索方法,其特征在于,所述生成器G和所述判别器D在所述机器人进行强化学习的同时进行训练,利用存储的所述真实状态样本φt,以及即时生成的所述虚拟状态样本zt分别作为所述正样本和所述负样本进行训练。
10.如权利要求5所述的基于生成对抗网络的强化学习探索方法,其特征在于,在所述机器人进行强化学习策略更新时,利用所述第t步的所述奖励总合Rt进行训练,其中Rt=exRt+inRt
CN202010018402.XA 2020-01-08 2020-01-08 一种基于生成对抗网络的强化学习探索方法 Pending CN111260072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010018402.XA CN111260072A (zh) 2020-01-08 2020-01-08 一种基于生成对抗网络的强化学习探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010018402.XA CN111260072A (zh) 2020-01-08 2020-01-08 一种基于生成对抗网络的强化学习探索方法

Publications (1)

Publication Number Publication Date
CN111260072A true CN111260072A (zh) 2020-06-09

Family

ID=70954136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010018402.XA Pending CN111260072A (zh) 2020-01-08 2020-01-08 一种基于生成对抗网络的强化学习探索方法

Country Status (1)

Country Link
CN (1) CN111260072A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
CN111950735A (zh) * 2020-06-30 2020-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112297012A (zh) * 2020-10-30 2021-02-02 上海交通大学 一种基于自适应模型的机器人强化学习方法
CN112508080A (zh) * 2020-12-03 2021-03-16 广州大学 基于经验回放的车辆型号识别方法、装置、设备及介质
CN112949384A (zh) * 2021-01-23 2021-06-11 西北工业大学 一种基于对抗性特征提取的遥感图像场景分类方法
CN113239629A (zh) * 2021-06-03 2021-08-10 上海交通大学 一种轨迹空间行列式点过程的强化学习探索和利用的方法
CN114492845A (zh) * 2022-04-01 2022-05-13 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN116079747A (zh) * 2023-03-29 2023-05-09 上海数字大脑科技研究院有限公司 机器人跨具身控制方法、系统、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110413838A (zh) * 2019-07-15 2019-11-05 上海交通大学 一种无监督视频摘要模型及其建立方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN107909153A (zh) * 2017-11-24 2018-04-13 天津科技大学 基于条件生成对抗网络的模型化策略搜索学习方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110413838A (zh) * 2019-07-15 2019-11-05 上海交通大学 一种无监督视频摘要模型及其建立方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG, ZI等: "Active model learning and diverse action sampling for task and motion planning", pages 18373130 *
WEIJUN HONG等: "Generative adversarial exploration for reinforcement learning", pages 1 - 5 *
柳洪义等: "《机器人技术基础》", 北京:冶金工业出版社, pages: 10 *
窦佳佳: "强化学习及其在智能仓储中的应用研究", no. 10, pages 140 - 25 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950735B (zh) * 2020-06-30 2023-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN111950735A (zh) * 2020-06-30 2020-11-17 上海交通大学 一种基于双向模型的强化学习方法
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
CN112183762A (zh) * 2020-09-15 2021-01-05 上海交通大学 一种基于混合行为空间的强化学习方法
CN112297012A (zh) * 2020-10-30 2021-02-02 上海交通大学 一种基于自适应模型的机器人强化学习方法
CN112297012B (zh) * 2020-10-30 2022-05-31 上海交通大学 一种基于自适应模型的机器人强化学习方法
CN112508080A (zh) * 2020-12-03 2021-03-16 广州大学 基于经验回放的车辆型号识别方法、装置、设备及介质
CN112508080B (zh) * 2020-12-03 2024-01-12 广州大学 基于经验回放的车辆型号识别方法、装置、设备及介质
CN112949384A (zh) * 2021-01-23 2021-06-11 西北工业大学 一种基于对抗性特征提取的遥感图像场景分类方法
CN112949384B (zh) * 2021-01-23 2024-03-08 西北工业大学 一种基于对抗性特征提取的遥感图像场景分类方法
CN113239629A (zh) * 2021-06-03 2021-08-10 上海交通大学 一种轨迹空间行列式点过程的强化学习探索和利用的方法
CN113239629B (zh) * 2021-06-03 2023-06-16 上海交通大学 一种轨迹空间行列式点过程的强化学习探索和利用的方法
CN114492845B (zh) * 2022-04-01 2022-07-15 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN114492845A (zh) * 2022-04-01 2022-05-13 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN116079747A (zh) * 2023-03-29 2023-05-09 上海数字大脑科技研究院有限公司 机器人跨具身控制方法、系统、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111260072A (zh) 一种基于生成对抗网络的强化学习探索方法
CN107403426B (zh) 一种目标物体检测方法及设备
Lin et al. Deeply learning the messages in message passing inference
Pashevich et al. Learning to augment synthetic images for sim2real policy transfer
CN112135716A (zh) 数据高效的分层强化学习
Zhu et al. Sim-real joint reinforcement transfer for 3d indoor navigation
Han et al. Deep reinforcement learning for robot collision avoidance with self-state-attention and sensor fusion
Likhachev et al. Learning behavioral parameterization using spatio-temporal case-based reasoning
Akbari et al. Ontological physics-based motion planning for manipulation
Xu et al. A learning method for AUV collision avoidance through deep reinforcement learning
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Zhu et al. Guiding online reinforcement learning with action-free offline pretraining
US20220269948A1 (en) Training of a convolutional neural network
CN115542912B (zh) 一种基于改进Q-learning算法的移动机器人路径规划方法
Ding et al. Capture uncertainties in deep neural networks for safe operation of autonomous driving vehicles
Liu et al. Hardware acceleration of robot scene perception algorithms
Pan et al. Learning navigation policies for mobile robots in deep reinforcement learning with random network distillation
Bar et al. Deep Reinforcement Learning Approach with adaptive reward system for robot navigation in Dynamic Environments
Jue et al. Navigation Method Based on Improved Rapid Exploration Random Tree Star-Smart (RRT*-Smart) and Deep Reinforcement Learning.
Li et al. A multi-objective bi-level task planning strategy for UUV target visitation in ocean environment
Chen et al. MMTP: Multi-modal trajectory prediction with interaction attention and adaptive task weighting
CN110533189A (zh) 机器学习系统
Watanabe et al. SHIRO: Soft Hierarchical Reinforcement Learning
Kangin et al. Continuous control with a combination of supervised and reinforcement learning
Liu et al. Towards efficient mapless navigation using deep reinforcement learning with parameter space noise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination