CN109540150B - 一种应用于危化品环境下多机器人路径规划方法 - Google Patents

一种应用于危化品环境下多机器人路径规划方法 Download PDF

Info

Publication number
CN109540150B
CN109540150B CN201811596806.6A CN201811596806A CN109540150B CN 109540150 B CN109540150 B CN 109540150B CN 201811596806 A CN201811596806 A CN 201811596806A CN 109540150 B CN109540150 B CN 109540150B
Authority
CN
China
Prior art keywords
action
environment
reward
state
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811596806.6A
Other languages
English (en)
Other versions
CN109540150A (zh
Inventor
曹政才
田珂
胡标
周萌
王晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201811596806.6A priority Critical patent/CN109540150B/zh
Publication of CN109540150A publication Critical patent/CN109540150A/zh
Application granted granted Critical
Publication of CN109540150B publication Critical patent/CN109540150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种应用于危化品环境下多机器人路径规划方法,属于机器人路径规划技术领域。此方法应用于智能机器人,可以在动态性强的复杂危化品环境下进行多机的全地图巡检,并对特殊事件实时编队反应。该方法的核心算法是好奇心驱使算法与深度确定性策略梯度相结合的深度强化学习算法,该算法避免了同类算法中人工设计环境奖励这一复杂繁琐的步骤,而是通过智能体自身内在奖励与稀疏的环境奖励对未知复杂环境进行探索、适应;同时,多机器人之间采用多Agent协作学习算法获得最优的协同工作策略。

Description

一种应用于危化品环境下多机器人路径规划方法
技术领域
本发明涉及机器人路径规划技术领域,具体是指一种应用于危化品环境下多机器人路径规划方法。
背景技术
近年来,随着诸多危化品环境事故的频繁发生,危化品环境等特殊环境的安全问题引起越来越大的关注。危化品环境具有布局复杂、危险系数高、实时响应性需求高等特点,考虑到环境的特殊性,具有无需建模,并不需要过多环境奖励的特点的基于好奇心驱使算法的多机路径规划算法及系统就提供了可行的解决方案。
近年来,深度学习与强化学习相结合的深度强化学习算法是机器学习领域的一个重要研究热点,已在多种分领域获得了令人瞩目的成就,深度学习方法侧重于对事物的感知和表达。强化学习方法更加侧重于学习解决问题的策略,深度强化学习作为两者的结合,具有两者的优点,形成了人工智能领域新的研究热点。但奖励函数的设计问题是其主要难点。
传统的深度强化学习算法需要人为的设计环境奖励函数,奖励函数的设计是一个冗长繁琐的过程,需要进行大量的尝试与调试,这便给技术工作者增加了很大的工作量,而且往往得不到较理想的仿真结果。此外,在动态环境发生变化时,奖励函数不再适配新环境,需要重新设计奖励函数,这便成了亟待解决的问题。
同时,在危化品环境中,多个机器人协同作业的工作效率、环境适应性与预防效果要远高于单个机器人的工作。但是多机器人之间的队形编队、动作策略选择等依旧是研究的难点。多个机器人的巡检、特殊事件(如火源、气体泄漏等)的及时响应等功能的良好实现,是实际机器人应用到化工环境需要解决的关键问题之一。
因此,如何解决以上问题,是解决机器人应用在危化品环境中的关键问题。
发明内容
以下给出一个或多个方面的主要概述以应对这些方面的基本理解。此概述不能将所有构想的方面进行详述,其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种应用于危化品环境下多机器人路径规划方法,该方法解决了奖励函数的设计问题,基于好奇心驱使算法,能够使机器人在稀疏环境奖励下进行训练,同时通过多Agent算法(Multi-Agent Reinforcement Learning,MARL),对多机进行策略训练,使机器人完成在复杂动态的危化品环境实现巡检及应对特殊事件实时响应的任务。
本发明提出一种应用于危化品环境下多机器人路径规划方法,包括:
步骤一:根据真实的危化品环境在Unity 3D引擎中进行模型建立,加入动态障碍物以及特殊事件以模拟真实环境,并搭建Unity 3D与Python接口进行训练;
步骤二:采用好奇心驱使算法与DDPG相结合的方法,在Python环境中对单个Agent智能体进行训练,使其能够在化工环境进行巡检,并在危险情况发生时做出实时响应,并规划最优路径;
步骤三:采用MARL使多Agent进行共同学习,并做出相应的决策,进而达成最优的联合动作策略,实现多机的巡检与对特殊事件的及时编队响应。
在步骤一中,包括以下步骤:
步骤1.1:危化品环境通过Unity 3D引擎参照真实危化品环境进行建立;
步骤1.2:环境中加入动态障碍物,模拟真实的环境,并随机产生特殊事件,以模仿现实危化品环境中的火源、气体泄漏等特殊情况。
在步骤二中,包括以下进一步步骤:
步骤2.1:设计稀疏的环境奖励,该奖励只需在机器人到达目标点后给予一定奖励,并在发生碰撞或产生错误路径等事故情况下给予惩罚;
步骤2.2:在Agent原始状态下,将原始状态作为策略输入,进行动作选择,这里的策略选择采用DDPG算法进行训练;
步骤2.3:动作选择之后进行动作的执行,在此过程中,Agent与含有稀疏奖励的环境进行交互,到达下一状态;
步骤2.4:在下一状态,Agent通过决策再进行继续的动作,以此达到一个训练的步骤循环。
步骤2.5:在一次完整的训练过程中,前后状态值与动作均要通过ICM内在好奇心模块进行计算。此过程输出的结果值即内在奖励值。
步骤2.6:ICM将前后状态进行编码,用特征状态值进行表示;Agent的动作将经过正向模型进行编码,此编码与下一状态的编码进行误差计算,通过此结果值得到内在奖励。
步骤2.7:同时,原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。
步骤2.8:好奇心算法的最终奖励是由外界奖励与内在奖励相加,最终目的是使其最大化,即:
Figure GDA0003555061330000041
其中,rt表示总奖励值,
Figure GDA0003555061330000042
表示Agent在t时刻产生的内在好奇心奖励,
Figure GDA0003555061330000043
表示同时刻的外界奖励,两者用符号i及符号ε加以区分。
在步骤三中,包括以下步骤:
步骤3.1:多Agent学习算法对多个协作者进行历史动作采样,计算长期得益的估计值,估计值最大的相应动作是当前最好的动作。
步骤3.2:对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源。
步骤3.3:基于LR的动作选择策略。动作选择过程为:对于某一个状态s的访问次数小于记忆长度m时,随机选择动作为x;否则依据BRi(s)选择动作x。
步骤3.4:训练过程的实施步骤如下,首先初始化状态;
步骤3.5:之后循环执行以下循环步骤:随机选择动作x,观察协作者的局部联合动作,更新该状态下的协作者动作队列;若长期奖励l(s)收敛到稳定值,则循环结束。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明中整体系统的框架图;
图2为本发明中在Unity 3D引擎中搭建的机器人模型在仿真危化品环境中的示意图;
图3为DDPG算法的流程图;
图4为本发明中ICM模块实现的实施流程图;
图5为本发明中多Agent强化学习算法的实施流程图;
图6为本发明中Agent的阶段奖励平均值仿真结果;
图7为本发明中Agent的奖励标准值;
图8所示为Agent的动作选择矢量编码。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
步骤1:危化品环境通过Unity 3D引擎依照真实的危化品环境进行搭建,其中设置了传统化工建筑的静态障碍物,如图2所示;
步骤2:在该环境中加入动态障碍物,模拟真实的环境中移动的物体,并规定目标点以模拟特殊事件发生地点;
步骤3:在Unity 3D引擎中,只需设计稀疏的环境奖励就能进行仿真训练,该奖励只需基于机器人到达目标点后的奖励,以及碰撞障碍物后发生的惩罚即可;
步骤4:训练过程中,在Agent原始状态下,将原始状态st作为策略判断的输入,该策略由DDPG实现,进行动作选择,这里的策略选择采用DDPG算法进行计算,DDPG算法流程图如图3所示;
步骤5:DDPG算法的流程,首先初始化网络,
步骤5.1随机初始化Actor网络和Critic网络;
步骤5.2初始化target网络,target网络的结构和actor和critic的一样,并且参数也相同;
步骤5.3初始化Replay Buffer R,因为强化学习的马尔科夫序列之间的数据具有非常大的关联性,采用R的目的就是打乱数据之间的相关性,使得数据之间满足独立同分布。
步骤6:训练Episode,初始化一个随机的N;获得观察值s1;选取动作,这个动作是由策略网络μ的输出与探索度两部分组成;执行代码,根据观察值st和动作,执行action,得到对应的奖励R和s';
步骤7:将学习的序列存储到R中,然后随机批量的读取R中的序列进行学习模型。
步骤8:定义标签yi,使用RMSE误差,更新的时候直接更新值函数的损失。
步骤9:DDPG进行动作选择之后,进行动作的执行,在此过程中,Agent通过环境的稀疏奖励获得外在奖励值,到达下一状态;
步骤10:在下一状态,Agent通过决策再进行继续的动作,以此达到一个训练的步骤循环。
步骤11:在一次完整的训练过程中,前后状态值,与动作均要通过ICM内在好奇心模块进行计算,ICM算法流程如图4所示。此过程输出的结果值即内在奖励值。
步骤12:好奇心算法的最终奖励是由外界奖励与内在奖励相加,最终目的是使其最大化,即:
Figure GDA0003555061330000071
其中,rt表示总奖励值,
Figure GDA0003555061330000072
表示Agent在t时刻产生的内在好奇心奖励,
Figure GDA0003555061330000073
表示同时刻的外界奖励,两者用符号i及符号ε加以区分。
步骤13:ICM中的编码器将前后状态进行编码,用特征状态值进行表示;Agent的动作将经过正向模型
Figure GDA0003555061330000074
进行编码,其中,
Figure GDA0003555061330000075
是动作的预测估计值,st与st+1表示Agent原始状态与下一状态,θI为神经网络参数。
步骤14:前向模型的状态预测与下一状态的编码进行误差计算,通过此计算结果得到内在奖励,编码原理如下公式:
Figure GDA0003555061330000076
其中,
Figure GDA0003555061330000077
表示状态预估值,
Figure GDA0003555061330000078
表示原始状态st编码的特征向量,θF为神经网络参数,学习函数f也称前向动力学模型。
步骤15:神经网络参数θF通过最小化损失函数LF来优化:
Figure GDA0003555061330000079
步骤16:通过以下公式来计算内在奖励值:
Figure GDA00035550613300000710
其中,η为比例因子,满足η>0。
步骤17:原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。
步骤18:好奇心算法的整体优化问题总结为:
Figure GDA0003555061330000081
其中,β与λ均为标量,β将逆模型与正向模型的损失进行加权,满足0≤β≤1,λ衡量梯度损失对学习内奖励信号的重要性,满足λ>0,LI为衡量预测和实际动作之间差异的损失函数。
步骤19:多Agent学习算法对多个协作者进行历史动作采样,计算长期得益的估计值,估计值最大的相应动作是当前最好的动作,算法流程如图5所示。
步骤20:对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源。
步骤21:基于LR的动作选择策略,计算公式为:
Figure GDA0003555061330000082
其中,Ai表示有限动作集合,n个Agent采取的联合动作a={a1,a2,…,an,},ai∈Ai构成了联合动作空间的元素,LR表示动作长期得益的估计值,s表示状态,x表示动作。
步骤22:基于LR的动作选择策略。动作选择过程为:对于某一个状态s的访问次数小于记忆长度m时,随机选择动作为x;否则依据BRi(s)选择动作x。
步骤23:初始化状态;
步骤24:循环执行以下循环步骤:n(s)≤m,随机选择动作x,否则依据
Figure GDA0003555061330000083
选择动作x,观察协作者的局部联合动作;更新该状态下的协作者动作队列;若长期奖励l(s)收敛到稳定值,则循环结束。
此系统经试验证明,能够运用所提出的算法达到良好的学习效果,Agent学习的实验结果如图6所示,在稀疏环境奖励的情况下,通过Agent在训练过程中的阶段奖励均值显示学习过程。
图7所示为奖励的标准值,代表Agent的学习效率。图8所示为多Agent动作中Agent在一定条件下动作选择的矢量编码,图中的变化显示了经过训练,Agent能够在面对相应情况时,动作达到收敛,做出正确的动作判断。
为了使得本方法的解释更简单化,已上述的图文描述为一系列步骤,但是应该理解并领会,这些方法不受操作的次序所限制,因为按照一个或多个步骤进行实施,一些动作可按不同的顺序发生,但本领域技术人员可以理解其动作发生的原理。
尽管方法已对本发明说明性的具体实施方式逐步进行了描述,以便于本技术领域的技术人员能够进行领会,但是本发明不仅限于具体实施方式的范围,本领域技术人员可以在权利要求的范围内做出各种变形或修改,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内。

Claims (6)

1.一种应用于危化品环境下多机器人路径规划方法,其特征在于,包括:
步骤一:根据真实的危化品环境在Unity 3D引擎中进行模型建立,加入动态障碍物以及特殊事件以模拟真实环境,并搭建Unity 3D与Python接口进行训练;
步骤二:采用好奇心驱使算法与DDPG相结合的方法,在Python环境中对单个Agent智能体进行训练,使其能够在化工环境进行巡检,并在危险情况发生时做出实时响应,并规划最优路径;
步骤三:采用MARL使多Agent进行共同学习,并做出相应的决策,进而达成最优的联合动作策略,实现多机的巡检与对特殊事件的及时编队响应;
步骤三中包括,步骤3.1:多Agent学习算法对多个协作者进行历史动作采样,计算长期得益的估计值,估计值最大的相应动作是当前最好的动作;
步骤3.2:对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源;
步骤3.3:基于LR的动作选择策略;动作选择过程为:对于某一个状态s的访问次数小于记忆长度m时,随机选择动作为x;否则依据BRi(s)选择动作x;
步骤3.4:训练过程的实施步骤如下,首先初始化状态;
步骤3.5:之后循环执行以下循环步骤:随机选择动作x,观察协作者的局部联合动作,更新该状态下的协作者动作队列;若长期奖励l(s)收敛到稳定值,则循环结束。
2.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,
步骤1.1:危化品环境通过Unity 3D引擎参照真实危化品环境进行建立;
步骤1.2:环境中加入动态障碍物,模拟真实的环境,并随机产生特殊事件,以模仿现实危化品环境中的火源、气体泄漏特殊情况。
3.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,
在步骤二中,包括以下进一步步骤:
步骤2.1:设计稀疏的环境奖励,该奖励只需在机器人到达目标点后给予一定奖励,并在发生碰撞或产生错误路径事故情况下给予惩罚;
步骤2.2:在Agent原始状态下,将原始状态作为策略输入,进行动作选择,这里的策略选择采用DDPG算法进行训练;
步骤2.3:动作选择之后进行动作的执行,在此过程中,Agent与含有稀疏奖励的环境进行交互,到达下一状态;
步骤2.4:在下一状态,Agent通过决策再进行继续的动作,以此达到一个训练的步骤循环;
步骤2.5:在一次完整的训练过程中,前后状态值与动作均要通过ICM内在好奇心模块进行计算;此过程输出的结果值即内在奖励值;
步骤2.6:ICM将前后状态进行编码,用特征状态值进行表示;Agent的动作将经过正向模型进行编码,此编码与下一状态的编码进行误差计算,通过此结果值得到内在奖励;
步骤2.7:同时,原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测;
步骤2.8:好奇心算法的最终奖励是由外界奖励与内在奖励相加,最终目的是使其最大化,即:
Figure FDA0003566820530000031
其中,rt表示总奖励值,
Figure FDA0003566820530000032
表示Agent在t时刻产生的内在好奇心奖励,
Figure FDA0003566820530000033
表示同时刻的外界奖励,两者用符号i及符号ε加以区分。
4.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,步骤二中,训练过程中,在Agent当前状态下,动作选择的策略选择采用DDPG算法,DDPG要经历初始化、训练Episode、存储学习序列、随机批量的读取序列进行模型学习、更新函数损失、动作选择步骤。
5.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,步骤三中,多Agent学习算法是对协作者进行历史动作采样,计算长期得益的估计值LR,估计最大的相应动作是当前最好的动作;对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源。
6.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,步骤三中,算法思路为:
初始化状态;循环执行以下步骤:①n(s)≤m,随机选择动作x,否则依据
Figure FDA0003566820530000034
选择动作x,②观察协作者的局部联合动作,③更新该状态下的协作者动作队列④若长期奖励l(s)收敛到稳定值,则循环结束;m表示记忆长度,LR表示动作长期得益的估计值,s表示状态,x表示动作。
CN201811596806.6A 2018-12-26 2018-12-26 一种应用于危化品环境下多机器人路径规划方法 Active CN109540150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811596806.6A CN109540150B (zh) 2018-12-26 2018-12-26 一种应用于危化品环境下多机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811596806.6A CN109540150B (zh) 2018-12-26 2018-12-26 一种应用于危化品环境下多机器人路径规划方法

Publications (2)

Publication Number Publication Date
CN109540150A CN109540150A (zh) 2019-03-29
CN109540150B true CN109540150B (zh) 2022-05-27

Family

ID=65858144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811596806.6A Active CN109540150B (zh) 2018-12-26 2018-12-26 一种应用于危化品环境下多机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN109540150B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147891B (zh) * 2019-05-23 2021-06-01 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备
CN110442129B (zh) * 2019-07-26 2021-10-22 中南大学 一种多智能体编队的控制方法和系统
CN110674470B (zh) * 2019-10-25 2022-09-23 中国人民解放军国防科技大学 一种动态环境中多机器人的分布式任务规划方法
CN111487962B (zh) * 2020-03-30 2021-10-01 北京化工大学 一种应用于仓储环境下多机器人路径快速规划方法
CN111260039B (zh) * 2020-05-06 2020-08-07 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于辅助任务学习的视频游戏决策方法
CN111260040B (zh) * 2020-05-06 2020-11-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于内在奖励的视频游戏决策方法
CN111625012B (zh) * 2020-06-09 2022-12-06 西北工业大学 一种多空间机器人分布式协同操作方法
CN112015174B (zh) * 2020-07-10 2022-06-28 歌尔股份有限公司 一种多agv运动规划方法、装置和系统
CN112187074B (zh) * 2020-09-15 2022-04-19 电子科技大学 一种基于深度强化学习的逆变器控制器
CN112231964B (zh) * 2020-11-06 2022-07-05 中国人民解放军国防科技大学 基于深度强化学习的气体泄漏源自主搜索及定位方法
CN112362066B (zh) * 2020-11-20 2023-02-10 西北工业大学 一种基于改进的深度强化学习的路径规划方法
CN113156940B (zh) * 2021-03-03 2022-08-30 河北工业职业技术学院 基于好奇心-贪婪奖励函数的机器人路径规划的方法
CN113326872A (zh) * 2021-05-19 2021-08-31 广州中国科学院先进技术研究所 一种多机器人轨迹规划方法
CN113406957B (zh) * 2021-05-19 2022-07-08 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113671825B (zh) * 2021-07-07 2023-09-08 西北工业大学 一种基于强化学习的机动智能决策规避导弹方法
CN114141028B (zh) * 2021-11-19 2023-05-12 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN114492845B (zh) * 2022-04-01 2022-07-15 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105120971A (zh) * 2012-11-07 2015-12-02 国际海洋工程公司 用于管理无轨车的装载、卸载和线路的方法及使用该方法的系统
US9212920B1 (en) * 2010-01-13 2015-12-15 Lockheed Martin Corporation System and method for real time optimization of driving directions

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7340043B2 (en) * 2003-01-16 2008-03-04 At&T Knowledge Ventures, L.P. Voice extensible markup language-based announcements for use with intelligent network services
EP2999940A4 (en) * 2013-05-22 2017-11-15 Neurala Inc. Methods and apparatus for early sensory integration and robust acquisition of real world knowledge

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9212920B1 (en) * 2010-01-13 2015-12-15 Lockheed Martin Corporation System and method for real time optimization of driving directions
CN105120971A (zh) * 2012-11-07 2015-12-02 国际海洋工程公司 用于管理无轨车的装载、卸载和线路的方法及使用该方法的系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Curiosity Driven Exploration of Learned Disentangled Goal Spaces;Adrien Laversanne-Finot 等;《Statistics》;20180809;第1-21页 *
State representation learning for control: An overview;TimothéeLesort 等;《Neural Networks》;20180804;第108卷;第379-392页 *
基于内发动机机制的移动机器人自主路径规划方法;张晓平 等;《控制与决策》;20180930;第33卷(第09期);第1605-1611页 *
基于强化学习的多智能体协同机制研究;孙清;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20160415(第04期);第I140-88页 *

Also Published As

Publication number Publication date
CN109540150A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109540150B (zh) 一种应用于危化品环境下多机器人路径规划方法
CN110321666A (zh) 基于先验知识与dqn算法的多机器人路径规划方法
CN108664022A (zh) 一种基于拓扑地图的机器人路径规划方法及系统
Panda et al. An effective path planning of mobile robot using genetic algorithm
Dan Improving the accuracy in software effort estimation: Using artificial neural network model based on particle swarm optimization
Wang et al. Scene mover: Automatic move planning for scene arrangement by deep reinforcement learning
CN113821041A (zh) 一种多机器人协同导航与避障的方法
Liu et al. Robot search path planning method based on prioritized deep reinforcement learning
KR20220154785A (ko) 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션
Su et al. Robot path planning based on random coding particle swarm optimization
Zhu et al. Deep reinforcement learning for real-time assembly planning in robot-based prefabricated construction
Park et al. Quantum multi-agent reinforcement learning for autonomous mobility cooperation
Serrano et al. Knowledge-based hierarchical POMDPs for task planning
Yuan-hui et al. Research on optimal planning method of USV for complex obstacles
Liu et al. Automated clash free rebar design in precast concrete exterior wall via generative adversarial network and multi-agent reinforcement learning
Chen et al. Survey of multi-agent strategy based on reinforcement learning
CN115562258A (zh) 基于神经网络的机器人社会自适应路径规划方法及系统
Tang et al. A novel path planning approach based on appart and particle swarm optimization
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Kono et al. Convergence estimation utilizing fractal dimensional analysis for reinforcement learning
CN105512754A (zh) 一种基于共轭先验的单模分布估计优化方法
Yang et al. Robot path planning based on q-learning Algorithm
Lin et al. Cross-domain Monitoring of Underwater Targets Based on Q-learning for Heterogeneous Unmanned Vehicles
CN112782980B (zh) 基于dqn的车间多功能机器人
Li et al. An online virtual maintenance path search method based on A* algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant