CN109760046A - 基于强化学习的空间机器人捕获翻滚目标运动规划方法 - Google Patents
基于强化学习的空间机器人捕获翻滚目标运动规划方法 Download PDFInfo
- Publication number
- CN109760046A CN109760046A CN201811611279.1A CN201811611279A CN109760046A CN 109760046 A CN109760046 A CN 109760046A CN 201811611279 A CN201811611279 A CN 201811611279A CN 109760046 A CN109760046 A CN 109760046A
- Authority
- CN
- China
- Prior art keywords
- robot
- space robot
- memory
- motion planning
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims description 20
- 230000002787 reinforcement Effects 0.000 claims description 17
- 238000005096 rolling process Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 22
- 230000006872 improvement Effects 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 11
- 238000013461 design Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000009987 spinning Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Landscapes
- Manipulator (AREA)
Abstract
本发明涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,包括设计了用以学习训练的智能体状态与动作具体形式,与到达任务的奖励函数;基于优先回放的DDPG算法改进;应用改进的DDPG算法进行抓捕任务的训练过程。本发明的有益效果是,不再需要对空间机器人与非合作环境进行精确建模,仅在观测特定状态的情况下进行智能算法的学习训练,即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声,使得机器人可以智能、自主地抓捕目标。
Description
技术领域
本发明属于空间机器人运动规划方法,涉及一种基于强化学习的空间机器人捕获翻滚目标运动规划方法。
背景技术
得益于空间机器人的灵活性、可重用性、多功能性等特点,使用其对日益增多的空间失效卫星进行在轨抓捕有着十分重要的应用前景。现有的方法通常将空间机器人抓捕非合作目标的任务分为抓捕前与抓捕后两阶段,对于抓捕前的机械臂轨迹规划问题,常见的要求包括机械臂对基座的姿态无扰、避奇异、及抓捕时末端碰撞力不能过大等。轨迹规划过程中,需要考虑非合作目标的最优抓捕点与抓捕时机、机械臂自身初始构型、机械臂关节电机驱动力等约束条件。见文献:Kawamoto S.,Nishida S.,and Kibe S.Research on aSpace Debris Removal System.NAL Res Prog(National Aerospace Lab.Japan),Vol.2002/2003,2003,pp.84-87.
已有的研究已经完成了通过辨识非合作目标的运动参数,实现机械臂对基座无扰的机械臂抓捕非合作目标的轨迹规划,然而如何在对非合作目标的观测信息有噪声、不能完全观测全局信息、机械臂建模有误差、输入变量存在不确定性的情况下,在不首先辨识非合作目标的运动参数的情况下,直接面向抓捕任务,自主智能地实现满足多目标抓捕任务的机械臂的轨迹规划,这对智能算法的轨迹规划实现提出了需求。强化学习算法在地面机器人运动规划问题中已经有了一些应用,由于机器人系统连续空间的特性,表格型强化学习不再适用。Depraetere.B等使用引入自然Actor-Critic算法的策略迭代方法控制机械臂完成羽毛球的击球动作,其中评价网络部分使用时间微分法,见文献:Depraetere,B.,Liu,M.,Pinte,G.,Grondman,I.,Babuˇska,R.:Comparison of model-free and model-basedmethods for time optimal hit control of a badminton robot.Mechatronics 24(8),1021–1030(2014)。LSTD-Q(λ)算法,T.Lillicrap等提出了用于连续控制问题的深度强化学习算法,见文献:T.Lillicrap,J.Hunt,A.Pritzel,N.Heess,T.Erez,Y.Tassa,D.Silver,and D.Wierstra.Continuous control with deep reinforcement learning.InProc.ofICLR,2016。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,采用深度确定性策略梯度算法,引入优先回放的算法改进,针对空间机器人抓捕非合作目标的运动规划进行学习训练与决策求解。针对未来空间机器人在轨服务翻滚目标任务,用于在无模型的情况下,空间机器人智能、自主地抓捕目标。
技术方案
一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于步骤如下:
步骤1、设计智能体状态与动作具体形式,设计奖励函数:
动作具体形式:
其中:τn为各关节的控制输入;
智能体的状态量为:
其中:机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮,其位置与姿态
连续的奖励函数设置:r=-||pe-pt||-||τ||2;
步骤2、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程:
以初始状态为s0,以DDPG决策器的初始参数为θ0,在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作st+1与当前奖励值Rt,存入记忆库并标记其优先级;进行一段时间的数据收集后,根据优先回放概率抽取记忆用以神经网络的训练;计算DDPG的策略梯度:
根据公式进行神经网络权重参数的更新,不断重复上述过程,直至训练收敛,最终收敛的网络权重参数即对应着最优策略。
所述步骤2计算DDPG的策略梯度的计算过程:记忆库大小为N,抽取记忆数量k,每一幕实验步数T:
0:初始化网络参数,初始化记忆库
1:for t=1 to T,do:
2:执行策略,记录记忆数据<st,at,rt,st+1>,记忆库数据容量n=n+1;
3:记录其被抽取概率
4:if n>N,do:
5:for j=1 to K,do:
6:根据概率抽取记忆
7:计算权重参数
8:更新TD误差
9:更新其对应的抽取概率pj←δj
10:end for.
11:end if.
12:end for.。
有益效果
本发明提出的一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,包括设计了用以学习训练的智能体状态与动作具体形式,与到达任务的奖励函数;基于优先回放的DDPG算法改进;应用改进的DDPG算法进行抓捕任务的训练过程;最后以实例验证了本发明提出的方法的有效性。
本发明的有益效果是,不再需要对空间机器人与非合作环境进行精确建模,仅在观测特定状态的情况下进行智能算法的学习训练,即可对空间机器人抓捕非合作目标进行运动规划。其学习到的策略可以应对一定程度的观测噪声,使得机器人可以智能、自主地抓捕目标。
附图说明
图1:空间机器人抓捕过程演示
图2:空间机器人抓捕曲线
图3:观测存在噪声时抓捕曲线
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明实施例包括设计了用以学习训练的智能体状态与动作具体形式,与到达任务的奖励函数;基于优先回放的DDPG算法改进;应用改进的DDPG算法进行抓捕任务的训练过程;最后以实例验证了本发明提出的方法的有效性。该发明的实施主要包括以下三个步骤:
步骤一、设计智能体状态与动作具体形式,设计奖励函数。
应用强化学习方法对空间机器人抓捕非合作目标运动规划问题进行策略学习与求解,首先需要以马尔可夫决策过程的形式描述机器人与任务环境。确定智能体的状态S、动作A与其到达任务对应的奖励函数R是强化学习求解的前提与关键。考虑空间机器人前向动力学,即:st+1=forward(at,st,Δt)。
对于到达任务的运动规划,智能体需要决策的动作为各关节的控制输入,即:
而根据特征工程,用以学习训练的状态量设计应该能全面表达学习的任务并考虑影响任务的根本因素。故对于到达任务,首要应考虑机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮,其位置与姿态对到达任务由直接影响。综上考虑,智能体的状态量为:
强化学习通过智能体与环境的交互来学习,其中环境对智能体策略的评价即奖励函数的设计直径影响强化学习算法的收敛,对于到达任务此类连续状态、动作空间问题,离散的奖励函数设置会造成稀疏问题,降低学习效率。故考虑到达任务,使用连续的奖励函数设置,即:
r=-||pe-pt||-||τ||2 (3)
步骤二、基于优先回放的DDPG改进算法设计
由于空间机器人抓捕非合作目标的运动规划问题属于连续控制问题,并且动作、状态空间较大,故采用基于策略迭代的深度确定性策略梯度算法进行最优策略的学习与求解。深度确定性策略梯度算法(DDPG)基于Actor-Critic结构并单独设置了评价网络与目标网络,同时为进一步打破神经网络训练数据相关性引入了记忆库的设计。
然而鉴于空间抓捕任务的特殊性,需要空间机器人通过尽可能少的训练次数进行最优策略的学习。这对DDPG的数据高效性提出了需求。DDPG算法中,过大的记忆库容量和随机抽取记忆的方式会导致训练效率低下,智能体的学习训练不能抽取到有效的记忆数据。为改进这一问题,采取基于优先回放的算法改进,即不再随机抽取记忆,而是根据不同重要性有侧重地抽取表现较好的记忆数据。为定量化衡量数据优先级,采用TD误差定义:
其对应的采样概率为:
其中,为了在引入优先回放后,仍不改变记忆数据原有的分布情况,引入重要性采样系数(IS-Weights):
表1表示了优先回放的算法流程。
表1优先回放算法流程
步骤三、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程
根据步骤一对具体空间机器人进行建模,其初始状态为s0,步骤二中DDPG决策器的初始参数为θ0,在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作st+1与当前奖励值Rt,存入记忆库并标记其优先级。进行一段时间的数据收集后,根据优先回放概率抽取记忆用以神经网络的训练。计算DDPG的策略梯度:
根据公式(7)进行神经网络权重参数的更新,不断重复上述过程,直至训练收敛,最终收敛的网络权重参数即对应着最优策略。
表2 7DOF空间机器人系统的运动学及动力学参数
对表1中的7DOF空间机械臂进行抓捕任务运动规划,其中抓捕目标为带有章动的自旋目标,其章动角速率为1.6°/s,自旋角速率5°/s,若存在观测误差时,其观测噪声服从高斯分布,即ε~N(0,0.012)。图2与图3分别为在有噪声与无噪声情况下通过强化学习算法学习到的运动规划结果,图1为该抓捕过程的仿真展示。
Claims (2)
1.一种基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于步骤如下:
步骤1、设计智能体状态与动作具体形式,设计奖励函数:
动作具体形式:
其中:τn为各关节的控制输入;
智能体的状态量为:
其中:机械臂末端与目标的相对位置关节控制输入直接影响的是各关节的位置与速度由于空间机器人基座自由漂浮,其位置与姿态
连续的奖励函数设置:r=-||pe-pt||-||τ||2;
步骤2、基于强化学习的空间机器人抓捕非合作目标运动规划训练与决策过程:
以初始状态为s0,以DDPG决策器的初始参数为θ0,在该策略参数下输出动作空间机器人采取该动作并记录下一刻动作st+1与当前奖励值Rt,存入记忆库并标记其优先级;进行一段时间的数据收集后,根据优先回放概率抽取记忆用以神经网络的训练;计算DDPG的策略梯度:
根据公式进行神经网络权重参数的更新,不断重复上述过程,直至训练收敛,最终收敛的网络权重参数即对应着最优策略。
2.根据权利要求1所述基于强化学习的空间机器人捕获翻滚目标运动规划方法,其特征在于:所述步骤2计算DDPG的策略梯度的计算过程:记忆库大小为N,抽取记忆数量k,每一幕实验步数T:
0:初始化网络参数,初始化记忆库
1:for t=1 to T,do:
2:执行策略,记录记忆数据<st,at,rt,st+1>,记忆库数据容量n=n+1;
3:记录其被抽取概率
4:if n>N,do:
5:for j=1 to K,do:
6:根据概率抽取记忆
7:计算权重参数
8:更新TD误差
9:更新其对应的抽取概率pj←δj
10:end for.
11:end if.
12:end for.。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811611279.1A CN109760046A (zh) | 2018-12-27 | 2018-12-27 | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811611279.1A CN109760046A (zh) | 2018-12-27 | 2018-12-27 | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109760046A true CN109760046A (zh) | 2019-05-17 |
Family
ID=66451040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811611279.1A Pending CN109760046A (zh) | 2018-12-27 | 2018-12-27 | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109760046A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110496377A (zh) * | 2019-08-19 | 2019-11-26 | 华南理工大学 | 一种基于强化学习的虚拟乒乓球手击球训练方法 |
CN111079936A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111142522A (zh) * | 2019-12-25 | 2020-05-12 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111515961A (zh) * | 2020-06-02 | 2020-08-11 | 南京大学 | 一种适用于移动机械臂的强化学习奖励方法 |
CN111596677A (zh) * | 2020-05-07 | 2020-08-28 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111687840A (zh) * | 2020-06-11 | 2020-09-22 | 清华大学 | 一种对空间目标实施抓捕的方法、装置和存储介质 |
CN111750870A (zh) * | 2020-06-30 | 2020-10-09 | 南京理工大学 | 一种空间翻滚火箭箭体的运动参数估计方法 |
CN112171660A (zh) * | 2020-08-18 | 2021-01-05 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
CN112809675A (zh) * | 2020-12-31 | 2021-05-18 | 西北工业大学深圳研究院 | 基于强化学习算法的超冗余机械臂自主抓捕空间碎片方法 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113268933A (zh) * | 2021-06-18 | 2021-08-17 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN114047745A (zh) * | 2021-10-13 | 2022-02-15 | 广州城建职业学院 | 机器人运动控制方法、机器人、计算机装置和存储介质 |
CN114800515A (zh) * | 2022-05-12 | 2022-07-29 | 四川大学 | 一种基于演示轨迹的机器人装配运动规划方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055901A (zh) * | 2016-06-02 | 2016-10-26 | 西北工业大学 | 一种自由漂浮空间机器人捕获翻滚目标的时机确定方法 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN106625671A (zh) * | 2016-12-27 | 2017-05-10 | 西北工业大学 | 一种空间机器人抓捕翻滚目标的最优轨迹规划方法 |
WO2018053187A1 (en) * | 2016-09-15 | 2018-03-22 | Google Inc. | Deep reinforcement learning for robotic manipulation |
CN108381553A (zh) * | 2018-04-28 | 2018-08-10 | 北京空间飞行器总体设计部 | 一种用于空间非合作目标捕获的相对导航近距离跟踪方法及系统 |
JP2018151876A (ja) * | 2017-03-13 | 2018-09-27 | 株式会社日立製作所 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
CN108983804A (zh) * | 2018-08-27 | 2018-12-11 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
CN109015658A (zh) * | 2018-09-20 | 2018-12-18 | 北京邮电大学 | 一种用于捕获翻滚目标的空间双臂机器人控制方法 |
-
2018
- 2018-12-27 CN CN201811611279.1A patent/CN109760046A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055901A (zh) * | 2016-06-02 | 2016-10-26 | 西北工业大学 | 一种自由漂浮空间机器人捕获翻滚目标的时机确定方法 |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
WO2018053187A1 (en) * | 2016-09-15 | 2018-03-22 | Google Inc. | Deep reinforcement learning for robotic manipulation |
CN106625671A (zh) * | 2016-12-27 | 2017-05-10 | 西北工业大学 | 一种空间机器人抓捕翻滚目标的最优轨迹规划方法 |
JP2018151876A (ja) * | 2017-03-13 | 2018-09-27 | 株式会社日立製作所 | 機械学習に使用される経験を格納する経験データベースを更新する方法 |
CN108381553A (zh) * | 2018-04-28 | 2018-08-10 | 北京空间飞行器总体设计部 | 一种用于空间非合作目标捕获的相对导航近距离跟踪方法及系统 |
CN108983804A (zh) * | 2018-08-27 | 2018-12-11 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
CN109015658A (zh) * | 2018-09-20 | 2018-12-18 | 北京邮电大学 | 一种用于捕获翻滚目标的空间双臂机器人控制方法 |
Non-Patent Citations (4)
Title |
---|
DEPRAETERE, B ETC.: "Comparison of model-free and model-based methods for time optimal hit control of a badminton robot", 《MECHATRONICS》 * |
LUO, JJ等: "Optimal capture occasion determination and trajectory generation for space robots grasping tumbling objects", 《ACTA ASTRONAUTICA》 * |
PHANITEJ, A. S. ETC.: "A Deep Reinforcement Learning Approach for Dynamically Stable Inverse Kinematics of Humanoid Robots", 《2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS (IEEE ROBIO 2017)》 * |
葛菊祥: "安全逼近空间翻滚目标的轨迹规划与控制研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110496377A (zh) * | 2019-08-19 | 2019-11-26 | 华南理工大学 | 一种基于强化学习的虚拟乒乓球手击球训练方法 |
CN110496377B (zh) * | 2019-08-19 | 2020-07-28 | 华南理工大学 | 一种基于强化学习的虚拟乒乓球手击球训练方法 |
CN111079936A (zh) * | 2019-11-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111079936B (zh) * | 2019-11-06 | 2023-03-14 | 中国科学院自动化研究所 | 基于强化学习的波动鳍推进水下作业机器人追踪控制方法 |
CN111142522A (zh) * | 2019-12-25 | 2020-05-12 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111142522B (zh) * | 2019-12-25 | 2023-06-09 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111596677A (zh) * | 2020-05-07 | 2020-08-28 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111596677B (zh) * | 2020-05-07 | 2021-11-30 | 北京航空航天大学 | 一种基于在线学习的航天器临近操作自主控制方法及系统 |
CN111515961A (zh) * | 2020-06-02 | 2020-08-11 | 南京大学 | 一种适用于移动机械臂的强化学习奖励方法 |
CN111515961B (zh) * | 2020-06-02 | 2022-06-21 | 南京大学 | 一种适用于移动机械臂的强化学习奖励方法 |
CN111687840B (zh) * | 2020-06-11 | 2021-10-29 | 清华大学 | 一种对空间目标实施抓捕的方法、装置和存储介质 |
CN111687840A (zh) * | 2020-06-11 | 2020-09-22 | 清华大学 | 一种对空间目标实施抓捕的方法、装置和存储介质 |
CN111750870B (zh) * | 2020-06-30 | 2023-12-26 | 南京理工大学 | 一种空间翻滚火箭箭体的运动参数估计方法 |
CN111750870A (zh) * | 2020-06-30 | 2020-10-09 | 南京理工大学 | 一种空间翻滚火箭箭体的运动参数估计方法 |
CN112171660A (zh) * | 2020-08-18 | 2021-01-05 | 南京航空航天大学 | 一种基于深度强化学习的空间双臂系统约束运动规划方法 |
CN112809675A (zh) * | 2020-12-31 | 2021-05-18 | 西北工业大学深圳研究院 | 基于强化学习算法的超冗余机械臂自主抓捕空间碎片方法 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113128705B (zh) * | 2021-03-24 | 2024-02-09 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113268933B (zh) * | 2021-06-18 | 2022-02-15 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN113268933A (zh) * | 2021-06-18 | 2021-08-17 | 大连理工大学 | 基于强化学习的蛇形急救机器人结构参数快速设计方法 |
CN114047745A (zh) * | 2021-10-13 | 2022-02-15 | 广州城建职业学院 | 机器人运动控制方法、机器人、计算机装置和存储介质 |
CN114800515A (zh) * | 2022-05-12 | 2022-07-29 | 四川大学 | 一种基于演示轨迹的机器人装配运动规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109760046A (zh) | 基于强化学习的空间机器人捕获翻滚目标运动规划方法 | |
Zhao et al. | Energy-based hindsight experience prioritization | |
CN114952828B (zh) | 一种基于深度强化学习的机械臂运动规划方法和系统 | |
CN113467508B (zh) | 面向围捕任务的多无人机智能协同决策方法 | |
Kaushik et al. | Fast online adaptation in robotics through meta-learning embeddings of simulated priors | |
CN115338859A (zh) | 机器人操纵的深度强化学习 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN111687840B (zh) | 一种对空间目标实施抓捕的方法、装置和存储介质 | |
Hussein et al. | Deep reward shaping from demonstrations | |
CN113110559A (zh) | 一种小天体表面弹跳运动最优控制方法 | |
Du et al. | Learning to control a free-floating space robot using deep reinforcement learning | |
Higuera et al. | Adapting learned robotics behaviours through policy adjustment | |
CN115091469A (zh) | 一种基于最大熵框架的深度强化学习机械臂运动规划方法 | |
CN117103282A (zh) | 一种基于matd3算法的双臂机器人协同运动控制方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN115542733A (zh) | 基于深度强化学习的自适应动态窗口法 | |
CN115860107A (zh) | 一种基于多智能体深度强化学习的多机探寻方法及系统 | |
CN114415507A (zh) | 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法 | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
Fang et al. | Quadrotor navigation in dynamic environments with deep reinforcement learning | |
CN112297012A (zh) | 一种基于自适应模型的机器人强化学习方法 | |
CN116360435A (zh) | 基于情节记忆的多智能体协同策略的训练方法和系统 | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
CN115542912A (zh) | 一种基于改进Q-learning算法的移动机器人路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190517 |