CN109540150A - 一种应用于危化品环境下多机器人路径规划方法 - Google Patents
一种应用于危化品环境下多机器人路径规划方法 Download PDFInfo
- Publication number
- CN109540150A CN109540150A CN201811596806.6A CN201811596806A CN109540150A CN 109540150 A CN109540150 A CN 109540150A CN 201811596806 A CN201811596806 A CN 201811596806A CN 109540150 A CN109540150 A CN 109540150A
- Authority
- CN
- China
- Prior art keywords
- environment
- reward
- agent
- harmful influence
- selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种应用于危化品环境下多机器人路径规划方法,属于机器人路径规划技术领域。此方法应用于智能机器人,可以在动态性强的复杂危化品环境下进行多机的全地图巡检,并对特殊事件实时编队反应。该方法的核心算法是好奇心驱使算法与深度确定性策略梯度相结合的深度强化学习算法,该算法避免了同类算法中人工设计环境奖励这一复杂繁琐的步骤,而是通过智能体自身内在奖励与稀疏的环境奖励对未知复杂环境进行探索、适应;同时,多机器人之间采用多Agent协作学习算法获得最优的协同工作策略。
Description
技术领域
本发明涉及机器人路径规划技术领域,具体是指一种应用于危化品环境下多机器人路径规划方法。
背景技术
近年来,随着诸多危化品环境事故的频繁发生,例如“8·12天津滨海新区爆炸事故”等,危化品环境等特殊环境的安全问题引起越来越大的关注。危化品环境具有布局复杂、危险系数高、实时响应性需求高等特点,考虑到环境的特殊性,具有无需建模,并不需要过多环境奖励的特点的基于好奇心驱使算法的多机路径规划算法及系统就提供了可行的解决方案。
近年来,深度学习与强化学习相结合的深度强化学习算法是机器学习领域的一个重要研究热点,已在多种分领域获得了令人瞩目的成就,深度学习方法侧重于对事物的感知和表达。强化学习方法更加侧重于学习解决问题的策略,深度强化学习作为两者的结合,具有两者的优点,形成了人工智能领域新的研究热点。但奖励函数的设计问题是其主要难点。
传统的深度强化学习算法需要人为的设计环境奖励函数,奖励函数的设计是一个冗长繁琐的过程,需要进行大量的尝试与调试,这便给技术工作者增加了很大的工作量,而且往往得不到较理想的仿真结果。此外,在动态环境发生变化时,奖励函数不再适配新环境,需要重新设计奖励函数,这便成了亟待解决的问题。
同时,在危化品环境中,多个机器人协同作业的工作效率、环境适应性与预防效果要远高于单个机器人的工作。但是多机器人之间的队形编队、动作策略选择等依旧是研究的难点。多个机器人的巡检、特殊事件(如火源、气体泄漏等)的及时响应等功能的良好实现,是实际机器人应用到化工环境需要解决的关键问题之一。
因此,如何解决以上问题,是解决机器人应用在危化品环境中的关键问题。
发明内容
以下给出一个或多个方面的主要概述以应对这些方面的基本理解。此概述不能将所有构想的方面进行详述,其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种应用于危化品环境下多机器人路径规划方法,该方法解决了奖励函数的设计问题,基于好奇心驱使算法,能够使机器人在稀疏环境奖励下进行训练,同时通过多Agent算法(Multi-AgentReinforcementLearning,MARL),对多机进行策略训练,使机器人完成在复杂动态的危化品环境实现巡检及应对特殊事件实时响应的任务。
本发明提出一种应用于危化品环境下多机器人路径规划方法,包括:
步骤一:根据真实的危化品环境在Unity3D引擎中进行模型建立,加入动态障碍物以及特殊事件以模拟真实环境,并搭建Unity3D与Python接口进行训练;
步骤二:采用好奇心驱使算法与DDPG相结合的方法,在Python环境中对单个Agent智能体进行训练,使其能够在化工环境进行巡检,并在危险情况发生时做出实时响应,并规划最优路径;
步骤三:采用MARL使多Agent进行共同学习,并做出相应的决策,进而达成最优的联合动作策略,实现多机的巡检与对特殊事件的及时编队响应。
在步骤一中,包括以下步骤:
步骤1.1:危化品环境通过Unity3D引擎参照真实危化品环境进行建立;
步骤1.2:环境中加入动态障碍物,模拟真实的环境,并随机产生特殊事件,以模仿现实危化品环境中的火源、气体泄漏等特殊情况。
在步骤二中,包括以下进一步步骤:
步骤2.1:设计稀疏的环境奖励,该奖励只需在机器人到达目标点后给予一定奖励,并在发生碰撞或产生错误路径等事故情况下给予惩罚;
步骤2.2:在Agent原始状态下,将原始状态作为策略输入,进行动作选择,这里的策略选择采用DDPG算法进行训练;
步骤2.3:动作选择之后进行动作的执行,在此过程中,Agent与含有稀疏奖励的环境进行交互,到达下一状态;
步骤2.4:在下一状态,Agent通过决策再进行继续的动作,以此达到一个训练的步骤循环。
步骤2.5:在一次完整的训练过程中,前后状态值与动作均要通过ICM内在好奇心模块进行计算。此过程输出的结果值即内在奖励值。
步骤2.6:ICM将前后状态进行编码,用特征状态值进行表示;Agent的动作将经过正向模型进行编码,此编码与下一状态的编码进行误差计算,通过此结果值得到内在奖励。
步骤2.7:同时,原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。
步骤2.8:好奇心算法的最终奖励是由外界奖励与内在奖励相加,最终目的是使其最大化,即:
其中,rt表示总奖励值,表示Agent在t时刻产生的内在好奇心奖励,表示同时刻的外界奖励,两者用符号i及符号ε加以区分。
在步骤三中,包括以下步骤:
步骤3.1:多Agent学习算法对多个协作者进行历史动作采样,计算长期得益的估计值,估计值最大的相应动作是当前最好的动作。
步骤3.2:对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源。
步骤3.3:基于LR的动作选择策略。动作选择过程为:对于某一个状态s的访问次数小于记忆长度m时,随机选择动作为x;否则依据Pr′选择动作x。
步骤3.4:训练过程的实施步骤如下,首先初始化状态;
步骤3.5:之后循环执行以下循环步骤:随机选择动作x,观察协作者的局部联合动作,更新该状态下的协作者动作队列;若长期奖励l(s)收敛到稳定值,则循环结束。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明中整体系统的框架图;
图2为本发明中在Unity3D引擎中搭建的机器人模型在仿真危化品环境中的示意图;
图3为DDPG算法的流程图;
图4为本发明中ICM模块实现的实施流程图;
图5为本发明中多Agent强化学习算法的实施流程图;
图6为本发明中Agent的阶段奖励平均值仿真结果;
图7为本发明中Agent的奖励标准值;
图8所示为Agent的动作选择矢量编码。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
步骤1:危化品环境通过Unity3D引擎依照真实的危化品环境进行搭建,其中设置了传统化工建筑的静态障碍物,如图2所示;
步骤2:在该环境中加入动态障碍物,模拟真实的环境中移动的物体,并规定目标点以模拟特殊事件发生地点;
步骤3:在Unity3D引擎中,只需设计稀疏的环境奖励就能进行仿真训练,该奖励只需基于机器人到达目标点后的奖励,以及碰撞障碍物后发生的惩罚即可;
步骤4:训练过程中,在Agent原始状态下,将原始状态st作为策略判断的输入,该策略由DDPG实现,进行动作选择,这里的策略选择采用DDPG算法进行计算,DDPG算法流程图如图3所示;
步骤5:DDPG算法的流程,首先初始化网络,
步骤5.1随机初始化Actor网络和Critic网络;
步骤5.2初始化target网络,target网络的结构和actor和critic的一样,并且参数也相同;
步骤5.3初始化ReplayBufferR,因为强化学习的马尔科夫序列之间的数据具有非常大的关联性,采用R的目的就是打乱数据之间的相关性,使得数据之间满足独立同分布。
步骤6:训练Episode,初始化一个随机的N;获得观察值s1;选取动作,这个动作是由策略网络μ的输出与探索度两部分组成;执行代码,根据观察值st和动作,执行action,得到对应的奖励R和s′;
步骤7:将学习的序列存储到R中,然后随机批量的读取R中的序列进行学习模型。
步骤8:定义标签yi,使用RMSE误差,更新的时候直接更新值函数的损失。
步骤9:DDPG进行动作选择之后,进行动作的执行,在此过程中,Agent通过环境的稀疏奖励获得外在奖励值,到达下一状态;
步骤10:在下一状态,Agent通过决策再进行继续的动作,以此达到一个训练的步骤循环。
步骤11:在一次完整的训练过程中,前后状态值,与动作均要通过ICM内在好奇心模块进行计算,ICM算法流程如图4所示。此过程输出的结果值即内在奖励值。
步骤12:好奇心算法的最终奖励是由外界奖励与内在奖励相加,最终目的是使其最大化,即:
其中,rt表示总奖励值,表示Agent在t时刻产生的内在好奇心奖励,表示同时刻的外界奖励,两者用符号i及符号ε加以区分。
步骤13:ICM中的编码器将前后状态进行编码,用特征状态值进行表示;Agent的动作将经过正向模型进行编码,其中,是动作的预测估计值,st与st+1表示Agent原始状态与下一状态,θI为神经网络参数。
步骤14:前向模型的状态预测与下一状态的编码进行误差计算,通过此计算结果得到内在奖励,编码原理如下公式:
其中,表示状态预估值,表示原始状态st编码的特征向量,θF为神经网络参数,学习函数f也称前向动力学模型。
步骤15:神经网络参数θF通过最小化损失函数LF来优化:
步骤16:通过以下公式来计算内在奖励值:
其中,η为比例因子,满足η>0。
步骤17:原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测。
步骤18:好奇心算法的整体优化问题总结为:
其中,β与λ均为标量,β将逆模型与正向模型的损失进行加权,满足0≤β≤1,λ衡量梯度损失对学习内奖励信号的重要性,满足λ>0,LI为衡量预测和实际动作之间差异的损失函数。
步骤19:多Agent学习算法对多个协作者进行历史动作采样,计算长期得益的估计值,估计值最大的相应动作是当前最好的动作,算法流程如图5所示。
步骤20:对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源。
步骤21:基于LR的动作选择策略,计算公式为:
其中,Ai表示有限动作集合,n个Agent采取的联合动作a={a1,a2,...,an,},ai∈Ai构成了联合动作空间的元素,LR表示动作长期得益的估计值,s表示状态,x表示动作。
步骤22:基于LR的动作选择策略。动作选择过程为:对于某一个状态s的访问次数小于记忆长度m时,随机选择动作为x;否则依据Pr′选择动作x。
步骤23:初始化状态;
步骤24:循环执行以下循环步骤:n(s)≤m,随机选择动作x,否则依据选择动作x,观察协作者的局部联合动作;更新该状态下的协作者动作队列;若长期奖励l(s)收敛到稳定值,则循环结束。
此系统经试验证明,能够运用所提出的算法达到良好的学习效果,Agent学习的实验结果如图6所示,在稀疏环境奖励的情况下,通过Agent在训练过程中的阶段奖励均值显示学习过程。
图7所示为奖励的标准值,代表Agent的学习效率。图8所示为多Agent动作中Agent在一定条件下动作选择的矢量编码,图中的变化显示了经过训练,Agent能够在面对相应情况时,动作达到收敛,做出正确的动作判断。
为了使得本方法的解释更简单化,已上述的图文描述为一系列步骤,但是应该理解并领会,这些方法不受操作的次序所限制,因为按照一个或多个步骤进行实施,一些动作可按不同的顺序发生,但本领域技术人员可以理解其动作发生的原理。
尽管方法已对本发明说明性的具体实施方式逐步进行了描述,以便于本技术领域的技术人员能够进行领会,但是本发明不仅限于具体实施方式的范围,本领域技术人员可以在权利要求的范围内做出各种变形或修改,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内。
Claims (7)
1.一种应用于危化品环境下多机器人路径规划方法,其特征在于,包括:
步骤一:根据真实的危化品环境在Unity 3D引擎中进行模型建立,加入动态障碍物以及特殊事件以模拟真实环境,并搭建Unity 3D与Python接口进行训练;
步骤二:采用好奇心驱使算法与DDPG相结合的方法,在Python环境中对单个Agent智能体进行训练,使其能够在化工环境进行巡检,并在危险情况发生时做出实时响应,并规划最优路径;
步骤三:采用MARL使多Agent进行共同学习,并做出相应的决策,进而达成最优的联合动作策略,实现多机的巡检与对特殊事件的及时编队响应。
2.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,
步骤1.1:危化品环境通过Unity 3D引擎参照真实危化品环境进行建立;
步骤1.2:环境中加入动态障碍物,模拟真实的环境,并随机产生特殊事件,以模仿现实危化品环境中的火源、气体泄漏等特殊情况。
3.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,
在步骤二中,包括以下进一步步骤:
步骤2.1:设计稀疏的环境奖励,该奖励只需在机器人到达目标点后给予一定奖励,并在发生碰撞或产生错误路径等事故情况下给予惩罚;
步骤2.2:在Agent原始状态下,将原始状态作为策略输入,进行动作选择,这里的策略选择采用DDPG算法进行训练;
步骤2.3:动作选择之后进行动作的执行,在此过程中,Agent与含有稀疏奖励的环境进行交互,到达下一状态;
步骤2.4:在下一状态,Agent通过决策再进行继续的动作,以此达到一个训练的步骤循环;
步骤2.5:在一次完整的训练过程中,前后状态值与动作均要通过ICM内在好奇心模块进行计算;此过程输出的结果值即内在奖励值;
步骤2.6:ICM将前后状态进行编码,用特征状态值进行表示;Agent的动作将经过正向模型进行编码,此编码与下一状态的编码进行误差计算,通过此结果值得到内在奖励;
步骤2.7:同时,原始状态与下一状态的编码结果会经过逆动力学模型进行动作预测;
步骤2.8:好奇心算法的最终奖励是由外界奖励与内在奖励相加,最终目的是使其最大化,即:
其中,rt表示总奖励值,表示Agent在t时刻产生的内在好奇心奖励,表示同时刻的外界奖励,两者用符号i及符号ε加以区分。
4.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,步骤二中,训练过程中,在Agent当前状态下,动作选择的策略选择采用DDPG算法,DDPG要经历初始化、训练Episode、存储学习序列、随机批量的读取序列进行模型学习、更新函数损失、动作选择步骤。
5.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,
步骤3.1:多Agent学习算法对多个协作者进行历史动作采样,计算长期得益的估计值,估计值最大的相应动作是当前最好的动作;
步骤3.2:对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源;
步骤3.3:基于LR的动作选择策略;动作选择过程为:对于某一个状态s的访问次数小于记忆长度m时,随机选择动作为x;否则依据Pr′选择动作x;
步骤3.4:训练过程的实施步骤如下,首先初始化状态;
步骤3.5:之后循环执行以下循环步骤:随机选择动作x,观察协作者的局部联合动作,更新该状态下的协作者动作队列;若长期奖励l(s)收敛到稳定值,则循环结束。
6.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,步骤三中,多Agent学习算法是对协作者进行历史动作采样,计算长期得益的估计值LR,估计最大的相应动作是当前最好的动作;对于所考察的Agent的协作者,对于每个动作需要维护一个一定长度的队列,按照时间顺序存放协作者的响应动作作为采样源。
7.根据权利要求1所述的一种应用于危化品环境下多机器人路径规划方法,其特征在于,步骤三中,算法思路为:
初始化状态;循环执行以下步骤:①n(s)≤m,随机选择动作x,否则依据选择动作x,②观察协作者的局部联合动作,③更新该状态下的协作者动作队列④若长期奖励l(s)收敛到稳定值,则循环结束;m表示记忆长度,LR表示动作长期得益的估计值,s表示状态,x表示动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811596806.6A CN109540150B (zh) | 2018-12-26 | 2018-12-26 | 一种应用于危化品环境下多机器人路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811596806.6A CN109540150B (zh) | 2018-12-26 | 2018-12-26 | 一种应用于危化品环境下多机器人路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109540150A true CN109540150A (zh) | 2019-03-29 |
CN109540150B CN109540150B (zh) | 2022-05-27 |
Family
ID=65858144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811596806.6A Active CN109540150B (zh) | 2018-12-26 | 2018-12-26 | 一种应用于危化品环境下多机器人路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109540150B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147891A (zh) * | 2019-05-23 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 应用于强化学习训练过程的方法、装置及电子设备 |
CN110442129A (zh) * | 2019-07-26 | 2019-11-12 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN110674470A (zh) * | 2019-10-25 | 2020-01-10 | 中国人民解放军国防科技大学 | 一种动态环境中多机器人的分布式任务规划方法 |
CN111260039A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于辅助任务学习的视频游戏决策方法 |
CN111260040A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN111487962A (zh) * | 2020-03-30 | 2020-08-04 | 北京化工大学 | 一种应用于仓储环境下多机器人路径快速规划方法 |
CN111625012A (zh) * | 2020-06-09 | 2020-09-04 | 西北工业大学 | 一种多空间机器人分布式协同操作方法 |
CN112015174A (zh) * | 2020-07-10 | 2020-12-01 | 歌尔股份有限公司 | 一种多agv运动规划方法、装置和系统 |
CN112187074A (zh) * | 2020-09-15 | 2021-01-05 | 电子科技大学 | 一种基于深度强化学习的逆变器控制器 |
CN112231964A (zh) * | 2020-11-06 | 2021-01-15 | 中国人民解放军国防科技大学 | 基于深度强化学习的气体泄漏源自主搜索及定位方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN113156940A (zh) * | 2021-03-03 | 2021-07-23 | 河北工业职业技术学院 | 基于好奇心-贪婪奖励函数的机器人路径规划的方法 |
CN113406957A (zh) * | 2021-05-19 | 2021-09-17 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
CN113671825A (zh) * | 2021-07-07 | 2021-11-19 | 西北工业大学 | 一种基于强化学习的机动智能决策规避导弹方法 |
CN114141028A (zh) * | 2021-11-19 | 2022-03-04 | 哈尔滨工业大学(深圳) | 智能红绿灯车流调控系统 |
CN114492845A (zh) * | 2022-04-01 | 2022-05-13 | 中国科学技术大学 | 资源受限条件下提高强化学习探索效率的方法 |
WO2022241808A1 (zh) * | 2021-05-19 | 2022-11-24 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040247094A1 (en) * | 2003-01-16 | 2004-12-09 | Sbc Knowledge Ventures, L.P. | Voice extensible markup language-based announcements for use with intelligent network services |
CN105120971A (zh) * | 2012-11-07 | 2015-12-02 | 国际海洋工程公司 | 用于管理无轨车的装载、卸载和线路的方法及使用该方法的系统 |
US9212920B1 (en) * | 2010-01-13 | 2015-12-15 | Lockheed Martin Corporation | System and method for real time optimization of driving directions |
US20160082597A1 (en) * | 2013-05-22 | 2016-03-24 | Neurala, Inc. | Methods and apparatus for early sensory integration and robust acquisition of real world knowledge |
-
2018
- 2018-12-26 CN CN201811596806.6A patent/CN109540150B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040247094A1 (en) * | 2003-01-16 | 2004-12-09 | Sbc Knowledge Ventures, L.P. | Voice extensible markup language-based announcements for use with intelligent network services |
US9212920B1 (en) * | 2010-01-13 | 2015-12-15 | Lockheed Martin Corporation | System and method for real time optimization of driving directions |
CN105120971A (zh) * | 2012-11-07 | 2015-12-02 | 国际海洋工程公司 | 用于管理无轨车的装载、卸载和线路的方法及使用该方法的系统 |
US20160082597A1 (en) * | 2013-05-22 | 2016-03-24 | Neurala, Inc. | Methods and apparatus for early sensory integration and robust acquisition of real world knowledge |
Non-Patent Citations (4)
Title |
---|
ADRIEN LAVERSANNE-FINOT 等: "Curiosity Driven Exploration of Learned Disentangled Goal Spaces", 《STATISTICS》 * |
TIMOTHÉELESORT 等: "State representation learning for control: An overview", 《NEURAL NETWORKS》 * |
孙清: "基于强化学习的多智能体协同机制研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张晓平 等: "基于内发动机机制的移动机器人自主路径规划方法", 《控制与决策》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147891A (zh) * | 2019-05-23 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 应用于强化学习训练过程的方法、装置及电子设备 |
CN110442129A (zh) * | 2019-07-26 | 2019-11-12 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN110442129B (zh) * | 2019-07-26 | 2021-10-22 | 中南大学 | 一种多智能体编队的控制方法和系统 |
CN110674470A (zh) * | 2019-10-25 | 2020-01-10 | 中国人民解放军国防科技大学 | 一种动态环境中多机器人的分布式任务规划方法 |
CN110674470B (zh) * | 2019-10-25 | 2022-09-23 | 中国人民解放军国防科技大学 | 一种动态环境中多机器人的分布式任务规划方法 |
CN111487962B (zh) * | 2020-03-30 | 2021-10-01 | 北京化工大学 | 一种应用于仓储环境下多机器人路径快速规划方法 |
CN111487962A (zh) * | 2020-03-30 | 2020-08-04 | 北京化工大学 | 一种应用于仓储环境下多机器人路径快速规划方法 |
CN111260040A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN111260040B (zh) * | 2020-05-06 | 2020-11-06 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于内在奖励的视频游戏决策方法 |
CN111260039B (zh) * | 2020-05-06 | 2020-08-07 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于辅助任务学习的视频游戏决策方法 |
CN111260039A (zh) * | 2020-05-06 | 2020-06-09 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于辅助任务学习的视频游戏决策方法 |
CN111625012A (zh) * | 2020-06-09 | 2020-09-04 | 西北工业大学 | 一种多空间机器人分布式协同操作方法 |
CN112015174A (zh) * | 2020-07-10 | 2020-12-01 | 歌尔股份有限公司 | 一种多agv运动规划方法、装置和系统 |
CN112015174B (zh) * | 2020-07-10 | 2022-06-28 | 歌尔股份有限公司 | 一种多agv运动规划方法、装置和系统 |
CN112187074A (zh) * | 2020-09-15 | 2021-01-05 | 电子科技大学 | 一种基于深度强化学习的逆变器控制器 |
CN112231964A (zh) * | 2020-11-06 | 2021-01-15 | 中国人民解放军国防科技大学 | 基于深度强化学习的气体泄漏源自主搜索及定位方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
CN113156940A (zh) * | 2021-03-03 | 2021-07-23 | 河北工业职业技术学院 | 基于好奇心-贪婪奖励函数的机器人路径规划的方法 |
CN113406957A (zh) * | 2021-05-19 | 2021-09-17 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
CN113406957B (zh) * | 2021-05-19 | 2022-07-08 | 成都理工大学 | 基于免疫深度强化学习的移动机器人自主导航方法 |
WO2022241808A1 (zh) * | 2021-05-19 | 2022-11-24 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113671825A (zh) * | 2021-07-07 | 2021-11-19 | 西北工业大学 | 一种基于强化学习的机动智能决策规避导弹方法 |
CN113671825B (zh) * | 2021-07-07 | 2023-09-08 | 西北工业大学 | 一种基于强化学习的机动智能决策规避导弹方法 |
CN114141028A (zh) * | 2021-11-19 | 2022-03-04 | 哈尔滨工业大学(深圳) | 智能红绿灯车流调控系统 |
CN114492845A (zh) * | 2022-04-01 | 2022-05-13 | 中国科学技术大学 | 资源受限条件下提高强化学习探索效率的方法 |
CN114492845B (zh) * | 2022-04-01 | 2022-07-15 | 中国科学技术大学 | 资源受限条件下提高强化学习探索效率的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109540150B (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109540150A (zh) | 一种应用于危化品环境下多机器人路径规划方法 | |
Wilkinson | Bayesian calibration of expensive multivariate computer experiments | |
Bhattacharya et al. | Reinforcement learning for POMDP: Partitioned rollout and policy iteration with application to autonomous sequential repair problems | |
Theocharous et al. | Approximate planning with hierarchical partially observable Markov decision process models for robot navigation | |
Zhao et al. | Water quality evolution mechanism modeling and health risk assessment based on stochastic hybrid dynamic systems | |
Lin et al. | Digital-twin-based improvements to diagnosis, prognosis, strategy assessment, and discrepancy checking in a nearly autonomous management and control system | |
Thomison et al. | A model reification approach to fusing information from multifidelity information sources | |
Alkayem et al. | A new self-adaptive quasi-oppositional stochastic fractal search for the inverse problem of structural damage assessment | |
Humeniuk et al. | A search-based framework for automatic generation of testing environments for cyber–physical systems | |
Sadraddini et al. | Formal methods for adaptive control of dynamical systems | |
Cannizzaro et al. | Towards a causal probabilistic framework for prediction, action-selection & explanations for robot block-stacking tasks | |
Chehelgami et al. | Safe deep learning-based global path planning using a fast collision-free path generator | |
Serrano et al. | Knowledge-based hierarchical POMDPs for task planning | |
Saeed et al. | The boundary node method for multi‐robot multi‐goal path planning problems | |
Tran et al. | Multi-gas source localization and mapping by flocking robots | |
Liu et al. | Automated clash free rebar design in precast concrete exterior wall via generative adversarial network and multi-agent reinforcement learning | |
Pan et al. | A probabilistic deep reinforcement learning approach for optimal monitoring of a building adjacent to deep excavation | |
Chowdhury et al. | Optimal path planning of autonomous marine vehicles in stochastic dynamic ocean flows using a GPU-accelerated algorithm | |
Sharan | Formal methods for control synthesis in partially observed environments: application to autonomous robotic manipulation | |
Plasencia-Salgueiro | Deep reinforcement learning for autonomous mobile robot navigation | |
Gampala et al. | Real-estate price prediction system using machine learning | |
Marah et al. | An architecture for intelligent agent-based digital twin for cyber-physical systems | |
Cannizzaro et al. | CAR-DESPOT: Causally-informed online POMDP planning for robots in confounded environments | |
Cunningham et al. | Large-scale experimental design for decentralized SLAM | |
Hatanaka et al. | Reinforcement Learning of Action and Query Policies with LTL Instructions under Uncertain Event Detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |