CN113843802B - 一种基于深度强化学习td3算法的机械臂运动控制方法 - Google Patents
一种基于深度强化学习td3算法的机械臂运动控制方法 Download PDFInfo
- Publication number
- CN113843802B CN113843802B CN202111211310.4A CN202111211310A CN113843802B CN 113843802 B CN113843802 B CN 113843802B CN 202111211310 A CN202111211310 A CN 202111211310A CN 113843802 B CN113843802 B CN 113843802B
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- environment
- setting
- arm
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开一种基于深度强化学习的机械臂运动控制方法。包括如下步骤:(1):建立机械臂的三维仿真环境;包括初始化机械臂环境,重置机械臂环境,设定机械臂更新步骤,设定奖励函数,渲染机械臂环境,对实验进行随机种子的设置和关闭机械臂环境;(2):在采用添加目标动作噪声衰减的深度强化学习算法TD3来对机械臂运动控制进行训练,TD3使用两个独立的评论家网络,使用值函数剪裁以及延迟策略更新,训练得到控制策略模型;(3):评估模型的效果。本发明通过加入动作探索噪声和目标网络噪声,平滑动作,有效缩短训练时间,收敛速度大幅度的增强;通过双评论家网络降低过高的估计值,降低误差积累,降低收敛失败的几率。
Description
技术领域
本发明属于机器人控制领域,具体涉及一种基于深度强化学习的机械臂运动控制方法。
背景技术
传统的机械臂控制方法在已知环境、确定环境、结构化场景下可以进行快速、稳定精确的控制任务,但在未知环境、不确定环境、非结构化场景下只能依赖预设的动作形式进行作业,且不具备基本的自主操作功能。同时,现代协作机械臂多为柔性机械臂结构,非线性要素分析复杂困难,需要对关节进行精确建模。随着工业领域对机械臂的性能要求越来越高,需要机械臂完成更多的交互或者复杂动态空间的作业任务,传统的方法便不再适用。
近年来,强化学习方法由于其自主学习的能力,在机械臂控制系统中的应用越来越多,用于代替传统控制算法中的正(逆)运动学结算方法。其中,策略梯度(PolicyGradient)对于连续动作空间的处理有很好的效果,非常适合机械臂环境的使用。文献“Continuous control with deep reinforcement learning”. Lillicrap T P,Hunt JJ,Pritzel A,et al.arXiv preprint arXiv:1509.02971, 2015.”提出了DDPG(DeepDeterministic Policy Gradient)算法,其解决连续状态动作空间问题,同时采用确定性策略策略使得网络收敛性更佳。然而DDPG 算法对于超参数的微调有鲁棒性不足的缺陷,并且带来了高估计的问题,对收敛速度和效果有所影响。
文献“Addressing function approximation error in actor-criticmethods”.Fujimoto S,Hoof H,Meger D.International Conference on MachineLearning.pp.1587-1596,2018”提出了结合Double DQN(Depp Q-network)思想的TD3(TwinDelayed DDPG)算法,其在多数环境下表现比DDPG 算法更佳优秀,但也存在收敛不稳定等问题,不能很好的控制机械臂的运动。
发明内容
本发明的目的在于提供一种基于深度强化学习的机械臂运动控制方法。
实现本发明目的的技术解决方案为:一种基于深度强化学习的机械臂运动控制方法,包括如下步骤:
步骤(1):建立机械臂的三维仿真环境;包括初始化机械臂环境,重置机械臂环境,设定机械臂更新步骤,设定奖励函数,渲染机械臂环境,对实验进行随机种子的设置和关闭机械臂环境;
步骤(2):在采用添加目标动作噪声衰减的深度强化学习算法TD3来对机械臂运动控制进行训练,TD3使用两个独立的评论家(Critic)网络,并在其基础上使用值函数剪裁以及延迟策略更新,训练得到控制策略模型;
步骤(3):将步骤(2)训练得到的控制策略模型重新传入,评估模型的效果。
进一步的,步骤(1)具体包括如下步骤:
步骤(11):初始化机械臂环境:设定o-xyz坐标系,规定工作空间和状态空间的上下界参数,设置相机位置,调整末端关节初始位置至平行于z轴,方向设置由欧拉角转化的四元数得到;
步骤(12):重置机械臂环境:用绿色的激光线标识出设定好的工作空间;导入七轴机械臂模型、地面模型、目标模型、支撑桌面模型;将所有的关节还原到初始状态,返回目标物位置;
步骤(13):设定机械臂更新步骤:从现有位置到更新位置的过程中,更新幅度为0.005*现有位置坐标,由更新位置、设置方向、关节阻尼计算逆运动学方程得到关节位置;同时对更新步数进行计数,为奖励函数提供参数;
步骤(14):设定奖励函数:
步骤(15):渲染机械臂环境:渲染机械臂环境中设定带图形用户界面渲染环境,以每步作为更新,逐步渲染机械臂动作;
步骤(16):对实验进行随机种子的设置:正常使用时选用随机化种子保证算法的性能,复现实验对比时选用相同的种子;
步骤(17):关闭机械臂环境和渲染器。
进一步的,步骤(14)设定奖励函数具体包括如下步骤:
步骤(141):机械臂运行超出工作区域给予-1000的惩罚;
步骤(142):更新步数超过最大回合步数给予-1000的惩罚;
步骤(143):奖励与距离有关,机械臂每运行一步给予机械臂末端到目标物位置的距离的10倍数值的惩罚,奖励大小为r=-(距离*10);
步骤(144):机械臂末端与目标物之间距离小于0.1视为到达目标位置,给予+1000的奖励。
进一步的,所述步骤(2)具体包括如下步骤:
步骤(21):清空经验池,规定存放数据的形式和指针;按批量大小100从经验池中取出数据,以字典存放批数据,取出时转化为张量;
步骤(22):初始化TD3网络,参数设定包括表演家-评论家(Actor-Critic)网络框架,随机种子,每个Epoch的步数为4000,Epoch个数为2000,经验池大小为107,贝尔曼方程中的衰减因子(γ)为0.99,软更新参数ρ=polyak为0.995, Actor网络学习率为1-3,Critic网络学习率为1-3;在每一个回合开始时,机械臂复位到初始设定位置;
步骤(23):更新前积累经验,存储经验的形式为 D={obs,act,rew,obs2,done},其参数分别对应经验池、状态、动作、奖励、下个状态、是否完成回合;
选择动作分为下面三种情况:
一是在步数不足20000时,采取随即动作积累经验;
二是当步数在(20000,80000)区间时,采取Actor-Critic网络输出的动作,同时添加噪声使得相似动作有相似输出;
三是当步数大于80000时,减小添加的噪声以缩小动作平滑化的范围,获得更佳准确的输出;
步骤(24):机械臂每运行一步都对奖励进行判定,对于奖励的划分,采取步骤(14)的形式,分为4部分;
当机械臂超出空间或者步数计数达到最大回合步数时,回合结束(done=1),当机械臂与目标物距离小于0.1时,回合结束(done=1),回合结束返回步骤(23),其他情况机械臂持续运行。
本发明与现有技术相比,其显著优点在于:
(1)通过加入动作探索噪声和目标网络噪声,平滑动作,有效缩短训练时间,相比现有技术训练得到的控制模型的收敛速度,有着大幅度的增强。
(2)通过双评论家(Critic)网络降低过高的估计值,从而降低误差积累,避免学习的策略失效,极大地降低了收敛失败的几率。
(3)通过延迟更新一方面降低误差积累,从而降低方差,另一方面降低不必要更新,在长时间学习中提升算法的速度。
具体实施方式
为了便于相关领域技术人员理解,下文结合实例对发明内容进一步阐述。
本实例提供的基于深度强化学习的机械臂运动控制方法,其应用在7轴协作机械臂环境中进行举例说明,具体步骤如下:
步骤1:建立机械臂的三维仿真环境,其主要模块包括初始化机械臂环境,重置机械臂环境,设定机械臂更新步骤,设定奖励函数,渲染机械臂环境,对实验进行随机种子的设置和关闭机械臂环境。
步骤1.1:在初始化机械臂环境中,设定o-xyz坐标系,规定工作空间和状态空间的上下界参数,设置相机位置以便于观察,调整末端关节初始位置至平行于z轴,方向设置由欧拉角转化的四元数得到。
步骤1.2:重置机械臂环境中,首先用绿色的激光线标识出设定好的工作区域,然后导入七轴机械臂模型、地面模型、目标模型、支撑桌面模型,再将所有的关节还原到初始状态,返回目标物位置。
步骤1.3:设定机械臂更新步骤,从现有位置到更新位置的过程中,更新幅度为0.005*现有位置坐标,由更新位置、设置方向、关节阻尼计算逆运动学方程得到关节位置。同时对更新步数进行计数,为奖励函数的设计提供时间相关的参数。
步骤1.4:设定奖励函数分为四部分:
一是机械臂运行超出工作区域给予-1000的惩罚;
二是更新步数超过最大回合步数(1000步)给予-1000的惩罚;
三是奖励与距离有关,机械臂每运行一步给予机械臂末端到目标物位置的距离的10倍数值的惩罚,奖励大小为r=-(距离*10);
四是机械臂末端与目标物之间距离小于0.1视为到达目标位置,给予+1000 的奖励;
最后返回(状态,奖励,是否完成回合,其他信息)的列表形式。
步骤1.5:渲染机械臂环境中设定带图形用户界面渲染环境,以每步作为更新,逐步渲染机械臂动作。
步骤1.6:对实验进行随机种子的设置,正常使用时选用随机化种子保证算法的性能,复现实验对比时选用相同的种子。
步骤1.7:关闭环境和渲染器。
步骤2:采用添加目标动作噪声衰减的深度强化学习算法TD3来对机械臂运动控制进行训练。TD3沿用Double DQN之前的双值函数的思想,使用两个独立的评论家(Critic)网络来防止过估计。同时为了防止高方差(Variance),又在其基础上提出了值函数剪裁以及延迟策略更新用于均衡。其训练如下:
步骤2.1:清空经验池,规定存放数据的形式和指针。按批量大小100从经验池中取出数据,以字典存放批数据,取出时转化为张量便于使用GPU进行计算加速。
步骤2.2:初始化TD3网络,参数设定包括表演家-评论家(Actor-Critic)网络框架,随机种子,每个Epoch的步数为4000,Epoch个数为2000,经验池大小为107,贝尔曼方程中的衰减因子(γ)为0.99,软更新参数ρ=polyak为0.995, Actor网络学习率为1-3,Critic网络学习率为1-3。在每一个回合开始时,机械臂复位到初始设定位置。
步骤2.3:为了避免经验池开始时的数据不够,需要在正式开始动作更新前积累足够的经验。存储经验的形式为D={obs,act,rew,obs2,done},其参数分别对应经验池、状态、动作、奖励、下个状态、是否完成回合。选择动作分为下面三种情况:
一是在步数不足20000时,采取随即动作积累经验;
二是当步数在(20000,80000)区间时,采取Actor-Critic网络输出的动作,同时添加噪声使得相似动作有相似输出;
三是当步数大于80000时,减小添加的噪声以缩小动作平滑化的范围,获得更佳准确的输出。
步骤2.4:机械臂每运行一步都对奖励进行判定,对于奖励的划分,采取步骤1.4的形式,分为4部分。
当机械臂超出空间或者步数计数达到最大回合步数时,回合结束(done=1),当机械臂与目标物距离小于0.1时,回合结束(done=1),回合结束返回步骤2.3,其他情况机械臂持续运行。
实施例1
本实例中采用的TD3算法逻辑如下:
初始化Actor和Critic网络的参数θμ和
将网络参数复制到目标网络θμ′←θμ,
初始化经验池D。
在总步数区间内循环,循环次数为steptotal=4000*Epoch。
Actor网络基于状态obs得到动作
执行动作act,得到下个状态obs2、奖励rew、是否完成回合done,将 {obs,act,rew,obs2,done}存入经验池D。
从经验池D中采样批大小为100的样本{obs,act,rew,obs2,done},作为批训练集。
通过将/>对权重的梯度置零。
计算两个Critic网络的目标Q值
当运行步数大于设定值时,给予更小的噪声范围,也就是/>
使用均方误差计算并相加得到LossQ,通过标准的反向梯度传播来得到Critic网络参数的梯度/>
采用Adam优化器更新Critic网络参数θQ。
对Actor网络进行延迟更新,在更新完两个Critic网络后,通过将Lossμ对权重的梯度置零。
定义J(μ)为θμ的确定性策略梯度,按照公式求出策略梯度。
采用Adam优化器更新Actor网络参数θμ。
通过软更新来更新目标Critic网络和目标Actor网络。
将训练得到的Actor_Critic网络模型以每五次保存的频率保存,选取最后20 次的模型重新传入环境进行评估,评估过程设定每回合最大1000步,循环50 个回合,不添加探索噪声和目标网络噪声。输出评估测试成功率和平均奖励。对于TD3这类离轨(off-policy)的算法采用平均测试回合奖励作为性能的评判标准。
Claims (3)
1.一种基于深度强化学习的机械臂运动控制方法,其特征在于,包括如下步骤:
步骤(1):建立机械臂的三维仿真环境;包括初始化机械臂环境,重置机械臂环境,设定机械臂更新步骤,设定奖励函数,渲染机械臂环境,对实验进行随机种子的设置和关闭机械臂环境;
步骤(2):在采用添加目标动作噪声衰减的深度强化学习算法TD3来对机械臂运动控制进行训练,TD3使用两个独立的评论家网络,并在其基础上使用值函数剪裁以及延迟策略更新,训练得到控制策略模型;
步骤(3):将步骤(2)训练得到的控制策略模型重新传入,评估模型的效果;
所述步骤(2)具体包括如下步骤:
步骤(21):清空经验池,规定存放数据的形式和指针;按批量大小100从经验池中取出数据,以字典存放批数据,取出时转化为张量;
步骤(22):初始化TD3网络,参数设定包括Actor-Critic网络框架,随机种子,每个Epoch的步数为4000,Epoch个数为2000,经验池大小为107,贝尔曼方程中的衰减因子γ为0.99,软更新参数ρ=polyak为0.995,Actor网络学习率为1-3,Critic网络学习率为1-3;在每一个回合开始时,机械臂复位到初始设定位置;
步骤(23):更新前积累经验,存储经验的形式为D={obs,act,rew,obs2,done},其参数分别对应经验池、状态、动作、奖励、下个状态、是否完成回合;
选择动作分为下面三种情况:
一是在步数不足20000时,采取随即动作积累经验;
二是当步数在[20000,80000]区间时,采取Actor-Critic网络输出的动作,同时添加噪声使得相似动作有相似输出;
三是当步数大于80000时,减小添加的噪声以缩小动作平滑化的范围,获得更佳准确的输出;
步骤(24):机械臂每运行一步都对奖励进行判定,对于奖励的划分,分为4部分;
当机械臂超出工作空间或者步数计数达到最大回合步数时,回合结束done=1,当机械臂与目标物距离小于0.1时,回合结束done=1,回合结束返回步骤(23),其他情况机械臂持续运行。
2.根据权利要求1所述的方法,其特征在于,步骤(1)具体包括如下步骤:
步骤(11):初始化机械臂环境:设定o-xyz坐标系,规定工作空间和状态空间的上下界参数,设置相机位置,调整末端关节初始位置至平行于z轴,方向设置由欧拉角转化的四元数得到;
步骤(12):重置机械臂环境:用绿色的激光线标识出设定好的工作空间;导入七轴机械臂模型、地面模型、目标模型、支撑桌面模型;将所有的关节还原到初始状态,返回目标物位置;
步骤(13):设定机械臂更新步骤:从现有位置到更新位置的过程中,更新幅度为0.005*现有位置坐标,由更新位置、设置方向、关节阻尼计算逆运动学方程得到关节位置;同时对更新步数进行计数,为奖励函数提供参数;
步骤(14):设定奖励函数:
步骤(15):渲染机械臂环境:渲染机械臂环境中设定带图形用户界面渲染环境,以每步作为更新,逐步渲染机械臂动作;
步骤(16):对实验进行随机种子的设置:正常使用时选用随机化种子保证算法的性能,复现实验对比时选用相同的种子;
步骤(17):关闭机械臂环境和渲染器。
3.根据权利要求2所述的方法,其特征在于,步骤(14)设定奖励函数具体包括如下步骤:
步骤(141):机械臂运行超出工作空间给予-1000的惩罚;
步骤(142):更新步数超过最大回合步数给予-1000的惩罚;
步骤(143):奖励与距离有关,机械臂每运行一步给予机械臂末端到目标物位置的距离的10倍数值的惩罚,奖励大小为r=-(距离*10);
步骤(144):机械臂末端与目标物之间距离小于0.1视为到达目标位置,给予+1000的奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211310.4A CN113843802B (zh) | 2021-10-18 | 2021-10-18 | 一种基于深度强化学习td3算法的机械臂运动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211310.4A CN113843802B (zh) | 2021-10-18 | 2021-10-18 | 一种基于深度强化学习td3算法的机械臂运动控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113843802A CN113843802A (zh) | 2021-12-28 |
CN113843802B true CN113843802B (zh) | 2023-09-05 |
Family
ID=78978656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111211310.4A Active CN113843802B (zh) | 2021-10-18 | 2021-10-18 | 一种基于深度强化学习td3算法的机械臂运动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113843802B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115366099B (zh) * | 2022-08-18 | 2024-05-28 | 江苏科技大学 | 基于正向运动学的机械臂深度确定性策略梯度训练方法 |
CN115890744B (zh) * | 2022-12-15 | 2024-07-26 | 武汉理工大学 | 一种基于td3的机械手臂6-dof物体操纵训练方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
WO2020056299A1 (en) * | 2018-09-14 | 2020-03-19 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
CN111515961A (zh) * | 2020-06-02 | 2020-08-11 | 南京大学 | 一种适用于移动机械臂的强化学习奖励方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
CN112433525A (zh) * | 2020-11-16 | 2021-03-02 | 南京理工大学 | 基于模仿学习及深度强化学习的移动机器人导航方法 |
CN112528552A (zh) * | 2020-10-23 | 2021-03-19 | 洛阳银杏科技有限公司 | 一种基于深度强化学习的机械臂控制模型构建方法 |
CN113033119A (zh) * | 2021-03-11 | 2021-06-25 | 山东大学 | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 |
-
2021
- 2021-10-18 CN CN202111211310.4A patent/CN113843802B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
WO2020056299A1 (en) * | 2018-09-14 | 2020-03-19 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
CN110632931A (zh) * | 2019-10-09 | 2019-12-31 | 哈尔滨工程大学 | 动态环境下基于深度强化学习的移动机器人避碰规划方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
CN111515961A (zh) * | 2020-06-02 | 2020-08-11 | 南京大学 | 一种适用于移动机械臂的强化学习奖励方法 |
CN112528552A (zh) * | 2020-10-23 | 2021-03-19 | 洛阳银杏科技有限公司 | 一种基于深度强化学习的机械臂控制模型构建方法 |
CN112433525A (zh) * | 2020-11-16 | 2021-03-02 | 南京理工大学 | 基于模仿学习及深度强化学习的移动机器人导航方法 |
CN113033119A (zh) * | 2021-03-11 | 2021-06-25 | 山东大学 | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 |
Non-Patent Citations (1)
Title |
---|
基于Deep Q Networks 的机械臂推动和抓握协同控制;贺道坤;《现代制造工程》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113843802A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113843802B (zh) | 一种基于深度强化学习td3算法的机械臂运动控制方法 | |
CN110515303B (zh) | 一种基于ddqn的自适应动态路径规划方法 | |
WO2020259504A1 (zh) | 一种强化学习的高效探索方法 | |
CN111645065A (zh) | 一种基于深度强化学习的机械臂运动规划方法 | |
CN114518751B (zh) | 基于最小二乘截断时域差分学习的路径规划决策优化方法 | |
CN115091469B (zh) | 一种基于最大熵框架的深度强化学习机械臂运动规划方法 | |
CN111352419B (zh) | 基于时序差分更新经验回放缓存的路径规划方法及系统 | |
CN113341972A (zh) | 一种基于深度强化学习的机器人路径寻优规划方法 | |
CN113894780B (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
CN108665322A (zh) | 口粮消费量预测模型的构建方法、消费量预测方法及装置 | |
CN116352715A (zh) | 一种基于深度强化学习的双臂机器人协同运动控制方法 | |
CN117705113A (zh) | 一种改进ppo的无人机视觉避障及自主导航方法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Liu et al. | Path planning based on improved deep deterministic policy gradient algorithm | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN117035049A (zh) | 智能体学习方法、装置、设备及存储介质 | |
CN113168553A (zh) | 机器人移动设备及相关方法 | |
CN113239472B (zh) | 一种基于强化学习的导弹制导方法和装置 | |
CN117601120A (zh) | 自适应变阻抗控制方法和装置、电子设备及存储介质 | |
CN117193008A (zh) | 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质 | |
CN116307251A (zh) | 一种基于强化学习的工作排程优化方法 | |
CN115542912A (zh) | 一种基于改进Q-learning算法的移动机器人路径规划方法 | |
CN113096153A (zh) | 一种基于深度强化学习仿人足球机器人的实时主动视觉方法 | |
CN110824917B (zh) | 基于注意力机制强化学习的半导体晶片测试路径规划方法 | |
CN112884129A (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |