CN111645065A - 一种基于深度强化学习的机械臂运动规划方法 - Google Patents

一种基于深度强化学习的机械臂运动规划方法 Download PDF

Info

Publication number
CN111645065A
CN111645065A CN202010218455.6A CN202010218455A CN111645065A CN 111645065 A CN111645065 A CN 111645065A CN 202010218455 A CN202010218455 A CN 202010218455A CN 111645065 A CN111645065 A CN 111645065A
Authority
CN
China
Prior art keywords
mechanical arm
planning
space
motion
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010218455.6A
Other languages
English (en)
Inventor
辛博
傅汇乔
陈春林
程旭
马晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanxin Medical Technology Research Institute Co ltd
Nanjing University
Original Assignee
Nanjing Nanxin Medical Technology Research Institute Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nanxin Medical Technology Research Institute Co ltd, Nanjing University filed Critical Nanjing Nanxin Medical Technology Research Institute Co ltd
Priority to CN202010218455.6A priority Critical patent/CN111645065A/zh
Publication of CN111645065A publication Critical patent/CN111645065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • B25J9/1666Avoiding collision or forbidden zones
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种基于深度强化学习的机械臂运动规划方法,包括:步骤1,在机械臂运动前采集一次环境图像,所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物;步骤2,根据采集到的环境图像,利用目标分割算法分离出禁止区域、工作区域以及目标位置,重构规划空间;步骤3,将重构得到的规划空间划分为三维栅格空间,并建立二值化栅格空间;步骤4,利用机器人逆向运动学在已知末端坐标下求得机械臂各关节对应解析解,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系;步骤5,为机械臂规划运动策略并获取最优运动策略,使得机械臂在避开障碍物的前提下,以最小代价运动到目标位置。

Description

一种基于深度强化学习的机械臂运动规划方法
技术领域
本发明涉及一种基于强化学习的动态智能规划方法,尤其是涉及一种6轴协作机械臂的运动规划方法。
背景技术
传统的机械臂轨迹规划多采用轨迹插补的方法,并结合高次多项式对机械臂的位置、速度以及加速度进行平滑,在这种方法下,机械臂的运动方案相对固定,无法主动避让环境中的障碍物。随着工业领域对机械臂的性能要求越来越高,需要机械臂完成更多的交互或者动态复杂空间的作业任务,传统的方法便不再适用。
近些年来,强化学习方法被越来越多地应用在机器人控制任务中,传统的强化学习方法如Q-learning算法,随着状态空间的增长,训练模型所需的内存空间也越大。2013年,谷歌Deepmind提出了DQN(Deep Q Network)算法,解决了高维度状态空间的问题。在DQN之前,人们普遍认为使用大型非线性函数逼近器来学习值函数是困难且不稳定的。该算法将深度学习与强化学习相结合,能够以稳定的方式使用类函数逼近器来学习价值函数,为了最小化样本之间的相关性,网络使用缓冲器中的样本进行离线训练,但难以应对高维连续动作空间。Actor-Critic方法能够处理连续动作空间问题,但使用随机性策略使得网络难以收敛。为此,2015年,谷歌Deepmind提出了DDPG(Deep Deterministic PolicyGradient)算法,利用Actor-Critic框架,融合DQN的优势,解决连续状态动作空间问题,同时采用确定性策略使得网络收敛性更佳。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明公开了一种机械臂运动规划方法,规划空间设置有标定完成的图像采集装置,用于划分工作区域与禁止区域。
技术方案:一种基于深度强化学习的机械臂运动规划方法,其特征在于,包括以下几个步骤:
步骤1,在机械臂运动前采集一次环境图像,所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物,得到初始规划空间;
步骤2,根据采集到的环境图像,利用目标分割算法分离出禁止区域、工作区域以及目标位置,重构初始规划空间;
步骤3,将重构得到的规划空间划分为三维栅格空间,并将栅格空间二值化,其中1代表禁止区域,0代表工作区域;
步骤4,利用机器人逆向运动学在已知末端坐标下求得机械臂各关节对应解析解,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系;
步骤5,利用深度强化学习算法在二值化后的规划空间中为机械臂规划运动策略并获取最优运动策略,使得机械臂在避开障碍物的前提下,以最小代价运动到目标位置。
本发明进一步限定的技术方案为:在步骤1中,利用三台RGB相机在机械臂运动前分别采集规划空间的正视图、侧视图和俯视图。
作为优选,在步骤2中,采用Mask R-CNN算法将所采集的规划空间图像像素点分为障碍物像素点、目标位置素点和其它像素点三类,得到重构后的环境三维空间信息。
作为优选,所述步骤3中,所述建立二值化三维栅格空间包括如下几个步骤:
步骤3.1,将步骤1中采集到的环境图像细化分割为等面积栅格;
步骤3.2,根据步骤2得到的障碍物Mask信息,对步骤3.1中的栅格进行分类;每个栅格中,若障碍物像素点占比超过预设的阈值50%,将此栅格设为障碍物栅格,并将其标记为黑色,否则,将其标记为白色,障碍物栅格构成禁止区域,非障碍物栅格构成工作区域。
作为优选,所述步骤4中,利用机器人逆向运动学在已知末端坐标下所求得的机械臂各关节对应解析解数量不唯一,选定一组解析解后,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系,作为所述步骤5中深度强化学习奖惩值给定依据。
作为优选,在步骤5中,包括:所述深度强化学习算法采用DDPG算法,输入量st包含机械臂末端点在栅格空间中的坐标与运动目标坐标,输出量at为机械臂末端点运动方向,分别为上、下、左、右、前和后,机械臂在避开障碍物的前提下,以最大回报为目标,运动到目标位置。
作为优选,所述DDPG算法,包括:
设置Actor网络和Critic网络的网络结构,隐藏层均使用ReLU作为激活函数,Actor网络的输出层使用tanh作为激活函数,输出其范围;
划分为6个区间,分别对应6个末端点运动方向,Critic网络的输出层不使用激活函数,训练过程中,学习网络的权重赋予给目标网络;
输出动作后,加入随机探索噪声增大训练初期探索概率,在程序中用正态分布曲线模拟该噪声,其期望为Actor网络输出值;
设置最大训练回合与每个回合最大步数。
作为优选,所述学习网络的权重赋予给目标网络的函数为:θ'←τθ+(1-τ)θ', 其中取τ=10-3,记忆库R的大小设为104
作为优选,所述训练过程包括以下几个步骤:
步骤5.1,初始化参数;
步骤5.2,在每一个训练回合开始时,使机械臂复位到零点位置;
步骤5.3,对于训练回合中的每一步,Actor网络输出带有随机探索噪声的动作;
步骤5.4,机械臂执行动作,运算出所有可能的解,然后将每组解根据运动代价升序排列,其中运动代价由机械臂每个自由度在当前位置下运动到目标位置角度的总和,根据步骤4,
若机械臂超出规划空间边界或者与禁止区域边界相交或者在当前末端点位置下没有可行的解析解存在,则给与第一惩罚值,机械臂回到上一状态;
若机械臂末端到达运动目标,则给与奖励,并结束当前回合,机械臂每走一步给与第二惩罚值,回合总步数大于预设每回合最大步数时结束当前回合;
若当前回合结束,则返回步骤5.2,若接收到第一惩罚值,当前回合未结束,则将机械臂设定到上一状态,返回步骤5.3;
步骤5.5,当训练回合数等于预设的最大回合数时,结束训练,得到规划空间下机械臂的最优运动策略。
作为优选,所述第一惩罚值为-10,第二惩罚值为-1,所述奖励为100。
有益效果:与现有技术相比,本发明(补充本方法相对目前方法的优点)
附图说明
图1为本发明实施例图像采集简化示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
本实施例提供一种基于深度强化学习的机械臂运动规划方法,以6自由度机械臂为例进行举例说明,具体包括以下几个步骤:
步骤1,图像采集装置在机械臂运动前采集一次环境图像,所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物,得到初始规划空间,其简化示意图如1所示。
步骤2,根据采集到的环境图像,利用目标分割算法分离出禁止区域(图1 中灰色区域)、工作区域即规划空间中除禁止区域外的机械臂末端运动空间以及目标位置,重构初始规划空间;
步骤3,将重构得到的规划空间划分为三维栅格空间,并将栅格空间二值化,其中1代表禁止区域,0代表工作区域;
步骤4,利用机器人逆向运动学在已知末端坐标下求得机械臂各关节对应解析解,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系;
步骤5,利用深度强化学习算法在二值化后的规划空间中为机械臂规划运动策略并获取最优运动策略,使得机械臂在避开障碍物的前提下,以最小代价运动到目标位置。
作为本实施例的优选,在步骤1中,利用三台RGB相机在机械臂运动前分别采集规划空间的正视图、侧视图和俯视图。
作为本实施例的优选,在步骤2中,采用Mask R-CNN算法将所采集的规划空间图像像素点分为障碍物像素点、目标位置素点和其它像素点三类,得到重构后的环境三维空间信息。
作为本实施例的优选,所述步骤3中,所述建立二值化三维栅格空间包括如下几个步骤:
步骤3.1,将步骤1中采集到的环境图像细化分割为等面积栅格;
步骤3.2,根据步骤2得到的障碍物Mask信息,对步骤3.1中的栅格进行分类;每个栅格中,若障碍物像素点占比超过预设的阈值50%,将此栅格设为障碍物栅格,并将其标记为黑色,否则,将其标记为白色,障碍物栅格构成禁止区域,非障碍物栅格构成工作区域。
作为本实施例的优选,所述步骤4中,对于6自由度机械臂,利用机器人逆向运动学在已知末端坐标下所求得的机械臂各关节对应解析解数量不唯一,选定一组解析解后,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系,作为步骤5中深度强化学习奖惩值给定依据。
作为本实施例的优选,在步骤5中,选择机械臂最优运动策略,是基于DDPG 算法,输入量st包含机械臂末端点在栅格空间中的坐标与运动目标坐标,输出量 at为机械臂末端点运动方向,分别为上、下、左、右、前和后,机械臂在避开障碍物的前提下,以最大回报为目标,运动到目标位置。在DDPG算法中,设置 Actor网络和Critic网络的网络结构为200×200×10×1,隐藏层均使用ReLU 作为激活函数,Actor网络的输出层使用tanh作为激活函数,其输出范围为[-1, 1],将其划分为6个区间,分别对应了6个末端点运动方向,Critic网络的输出层不使用激活函数,训练过程中,学习网络的权重赋予给目标网络:θ'←τθ+(1-τ)θ',其中取τ=10-3,记忆库R的大小设为104。在输出动作at后,加入了随机探索噪声增大训练初期探索概率,在程序中用正态分布曲线模拟该噪声,其期望为Actor网络输出值,方差从0.6逐渐下降到0。设置最大训练回合与每个回合最大步数为600。整个训练过程包括如下步骤:
步骤5.1,初始化参数;
步骤5.2,在每一个训练回合开始时,机械臂复位到零点位置;
步骤5.3,对于训练回合中的每一步,Actor网络输出带有随机探索噪声的动作at
步骤5.4,机械臂执行动作at,运算出所有可能的解,然后将每组解根据运动代价升序排列,其中运动代价由机械臂每个自由度在当前位置Pc下运动到目标位置Pt角度的总和,即
Figure RE-GDA0002562345540000061
根据步骤4,
若机械臂超出规划空间边界或者与禁止区域边界相交或者在当前末端点位置下没有可行的解析解存在,则给与-10惩罚,机械臂回到上一状态,
若机械臂末端到达运动目标,则给与100奖励,并结束当前回合,机械臂每走一步给与-1惩罚,回合总步数大于预设每回合最大步数时结束当前回合。
若当前回合结束,则返回步骤5.2,若接收到-10惩罚值,当前回合未结束,则将机械臂设定到上一状态,返回步骤5.3;
步骤5.5,当训练回合数等于预设的最大回合数时,结束训练,得到规划空间下机械臂的最优运动策略。
本实施例中DDPG算法逻辑如下:
1:初始化Actor和Critic的online神经网络参数θμ和θQ
2:将现实网络的参数复制到对应的估计网络参数:θQ′←θQ,θμ′←θμ
3:初始化预设内存缓冲区R
3.循环并对每一步
4:初始化UO随机过程
5:从(1到T)循环
6:Actor根据行为策略选择一个动作at,发送给环境并执行:
at=μ(stμ)+Nt
7:行为策略是一个根据当前现实网络策略μ和随机UO噪声生成的随机过程,这个随机过程采样获得的at的值
8:环境执行at,返回奖励rt和新的状态st+1
9:Actor将这个状态的转换过程(st,at,rt,st+1)存入内存缓冲区R中,作为训练现实网络的数据集
10:从内存缓冲区R中随机抽取N个样本作为现实策略网络,现实Q网络的一个小尺寸的训练数据集,用(si,ai,ri,si+1)表示其中的单个训练数据
11:计算现实Q网络的梯度:
Q网络的损失函数定义:使用类似于监督式学习的方法,定义损失为均方差:
Figure RE-GDA0002562345540000071
其中,yi可以看作“标签”:
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θ|Q′)
基于标准的反向传播方法,可以求出θQ的梯度:
Figure RE-GDA0002562345540000072
yi的计算使用的是估计策略网络μ′和估计Q网络Q′,可以使学习过程更稳定,易于收敛。
12:更新现实Q网络,采用Adam optimizer更新θQ
13:计算策略网络的策略梯度:
策略梯度定义为J函数针对θμ的梯度,在离线训练时其策略梯度算法为:
Figure RE-GDA0002562345540000073
存储的数据集(si,ai,ri,si+1)是基于智能体的行为策略β产生的,分布函数为ρβ,因此在内存缓冲区中随机采样获得训练数据集时,根据蒙特卡洛方法,将数据带入上式可改写为:
Figure RE-GDA0002562345540000081
14:更新现实策略网络参数θμ
15:软更新估计网络μ′和Q′
soft update:
Figure RE-GDA0002562345540000082
16:结束该步
17:结束循环
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (10)

1.一种基于深度强化学习的机械臂运动规划方法,其特征在于,包括以下几个步骤:
步骤1,在机械臂运动前采集一次环境图像,所述环境图像包括初始状态下的机械臂、运动目标点和中间障碍物,得到初始规划空间;
步骤2,根据采集到的环境图像,利用目标分割算法分离出禁止区域、工作区域以及目标位置,重构初始规划空间;
步骤3,将重构得到的规划空间划分为三维栅格空间,并将栅格空间二值化;
步骤4,利用机器人逆向运动学在已知末端坐标下求得机械臂各关节对应解析解,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系;
步骤5,利用深度强化学习算法在二值化后的规划空间中为机械臂规划运动策略并获取最优运动策略,使得机械臂在避开障碍物的前提下,以最小代价运动到目标位置。
2.根据权利要求1所述的基于深度强化学习的机械臂运动规划方法,其特征在于,在步骤1中,利用三台RGB相机在机械臂运动前分别采集规划空间的正视图、侧视图和俯视图。
3.根据权利要求2所述的基于深度强化学习的机械臂运动规划方法,其特征在于,在步骤2中,采用Mask R-CNN算法将所采集的规划空间图像像素点分为障碍物像素点、目标位置素点和其它像素点三类,得到重构后的环境三维空间信息。
4.根据权利要求3所述的基于深度强化学习的机械臂运动规划方法,其特征在于,所述步骤3中,所述建立二值化三维栅格空间包括如下几个步骤:
步骤3.1,将步骤1中采集到的环境图像细化分割为等面积栅格;
步骤3.2,根据步骤2得到的障碍物Mask信息,对步骤3.1中的栅格进行分类;每个栅格中,若障碍物像素点占比超过预设的阈值50%,将此栅格设为障碍物栅格,并将其标记为黑色,否则,将其标记为白色,障碍物栅格构成禁止区域,非障碍物栅格构成工作区域。
5.根据权利要求4所述的基于深度强化学习的机械臂运动规划方法,其特征在于,所述步骤4中,利用机器人逆向运动学在已知末端坐标下所求得的机械臂各关节对应解析解数量不唯一,选定一组解析解后,在全局坐标系下判定机械臂与规划空间边界、禁止区域边界和运动目标之间的相对位置关系,作为所述步骤5中深度强化学习奖惩值给定依据。
6.根据权利要求5所述的基于深度强化学习的机械臂运动规划方法,其特征在于,在步骤5中,包括:所述深度强化学习算法采用DDPG算法,输入量st包含机械臂末端点在栅格空间中的坐标与运动目标坐标,输出量at为机械臂末端点运动方向,分别为上、下、左、右、前和后,机械臂在避开障碍物的前提下,以最大回报为目标,运动到目标位置。
7.根据权利要求6所述的基于深度强化学习的机械臂运动规划方法,其特征在于,所述DDPG算法,包括:
设置Actor网络和Critic网络的网络结构,隐藏层均使用ReLU作为激活函数,Actor网络的输出层使用tanh作为激活函数,输出其范围;
划分为6个区间,分别对应6个末端点运动方向,Critic网络的输出层不使用激活函数,训练过程中,学习网络的权重赋予给目标网络;
输出动作后,加入随机探索噪声增大训练初期探索概率,在程序中用正态分布曲线模拟该噪声,其期望为Actor网络输出值;
设置最大训练回合与每个回合最大步数。
8.根据权利要求7所述的基于深度强化学习的机械臂运动规划方法,其特征在于,所述学习网络的权重赋予给目标网络的函数为:θ'←τθ+(1-τ)θ',其中取τ=10-3,记忆库R的大小设为104
9.根据权利要求7所述的基于深度强化学习的机械臂运动规划方法,其特征在于,所述训练过程包括以下几个步骤:
步骤5.1,初始化参数;
步骤5.2,在每一个训练回合开始时,使机械臂复位到零点位置;
步骤5.3,对于训练回合中的每一步,Actor网络输出带有随机探索噪声的动作;
步骤5.4,机械臂执行动作,运算出所有可能的解,然后将每组解根据运动代价升序排列,其中运动代价由机械臂每个自由度在当前位置下运动到目标位置角度的总和,根据步骤4,
若机械臂超出规划空间边界或者与禁止区域边界相交或者在当前末端点位置下没有可行的解析解存在,则给与第一惩罚值,机械臂回到上一状态;
若机械臂末端到达运动目标,则给与奖励,并结束当前回合,机械臂每走一步给与第二惩罚值,回合总步数大于预设每回合最大步数时结束当前回合;
若当前回合结束,则返回步骤5.2,若接收到第一惩罚值,当前回合未结束,则将机械臂设定到上一状态,返回步骤5.3;
步骤5.5,当训练回合数等于预设的最大回合数时,结束训练,得到规划空间下机械臂的最优运动策略。
10.根据权利要求9所述的基于深度强化学习的机械臂运动规划方法,其特征在于,所述第一惩罚值为-10,第二惩罚值为-1,所述奖励为100。
CN202010218455.6A 2020-03-25 2020-03-25 一种基于深度强化学习的机械臂运动规划方法 Pending CN111645065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010218455.6A CN111645065A (zh) 2020-03-25 2020-03-25 一种基于深度强化学习的机械臂运动规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010218455.6A CN111645065A (zh) 2020-03-25 2020-03-25 一种基于深度强化学习的机械臂运动规划方法

Publications (1)

Publication Number Publication Date
CN111645065A true CN111645065A (zh) 2020-09-11

Family

ID=72342008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010218455.6A Pending CN111645065A (zh) 2020-03-25 2020-03-25 一种基于深度强化学习的机械臂运动规划方法

Country Status (1)

Country Link
CN (1) CN111645065A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112340063A (zh) * 2020-09-28 2021-02-09 南京邮电大学 一种基于深度强化学习的卫星消旋方法
CN112684794A (zh) * 2020-12-07 2021-04-20 杭州未名信科科技有限公司 基于元强化学习的足式机器人运动控制方法、装置及介质
CN112975953A (zh) * 2021-01-28 2021-06-18 珠海迪沃航空工程有限公司 一种机械手运动轨迹规划方法及螺栓抓取检测系统
CN113000397A (zh) * 2021-01-28 2021-06-22 珠海迪沃航空工程有限公司 一种基于动态图像识别的螺栓抓取检测装置及控制系统
CN113232016A (zh) * 2021-04-13 2021-08-10 哈尔滨工业大学(威海) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN113843802A (zh) * 2021-10-18 2021-12-28 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113910221A (zh) * 2021-09-28 2022-01-11 广州杰赛科技股份有限公司 一种机械臂自主运动规划方法、装置、设备及存储介质
CN114012727A (zh) * 2021-11-11 2022-02-08 江苏昱博自动化设备有限公司 一种机械臂运动规划方法及系统
CN115091469A (zh) * 2022-08-05 2022-09-23 广东工业大学 一种基于最大熵框架的深度强化学习机械臂运动规划方法
CN116476042A (zh) * 2022-12-31 2023-07-25 中国科学院长春光学精密机械与物理研究所 基于深度强化学习的机械臂运动学逆解优化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
CN108015767A (zh) * 2017-11-30 2018-05-11 北京邮电大学 一种空间机械臂应急操作方法
US20190004518A1 (en) * 2017-06-30 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190004518A1 (en) * 2017-06-30 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
CN108015767A (zh) * 2017-11-30 2018-05-11 北京邮电大学 一种空间机械臂应急操作方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110632931A (zh) * 2019-10-09 2019-12-31 哈尔滨工程大学 动态环境下基于深度强化学习的移动机器人避碰规划方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KAIQIANG TANG: "Reinforcement Learning for Robots Path Planning with Rule-based Shallow-trial", 《REINFORCEMENT LEARNING FOR ROBOTS PATH PLANNING WITH RULE-BASED SHALLOW-TRIAL》 *
刘峡壁, 国防工业出版社 *
郝丽娜主编: "《工业机器人控制技术》", 30 November 2018, 华中科技大学出版社 *
陈建华: "基于深度强化学习的机械臂运动规划研究", 《基于深度强化学习的机械臂运动规划研究 *
陈慧岩: "《智能车辆理论与应用》", 31 July 2018, 北京理工大学出版社 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112340063A (zh) * 2020-09-28 2021-02-09 南京邮电大学 一种基于深度强化学习的卫星消旋方法
CN112340063B (zh) * 2020-09-28 2022-05-31 南京邮电大学 一种基于深度强化学习的卫星消旋方法
CN112232350B (zh) * 2020-10-27 2022-04-19 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112232350A (zh) * 2020-10-27 2021-01-15 广东技术师范大学 基于强化学习的水田机器人机械腿长度调整方法与系统
CN112684794A (zh) * 2020-12-07 2021-04-20 杭州未名信科科技有限公司 基于元强化学习的足式机器人运动控制方法、装置及介质
CN112975953A (zh) * 2021-01-28 2021-06-18 珠海迪沃航空工程有限公司 一种机械手运动轨迹规划方法及螺栓抓取检测系统
CN113000397A (zh) * 2021-01-28 2021-06-22 珠海迪沃航空工程有限公司 一种基于动态图像识别的螺栓抓取检测装置及控制系统
CN113232016A (zh) * 2021-04-13 2021-08-10 哈尔滨工业大学(威海) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN113910221B (zh) * 2021-09-28 2023-01-17 广州杰赛科技股份有限公司 一种机械臂自主运动规划方法、装置、设备及存储介质
CN113910221A (zh) * 2021-09-28 2022-01-11 广州杰赛科技股份有限公司 一种机械臂自主运动规划方法、装置、设备及存储介质
CN113843802A (zh) * 2021-10-18 2021-12-28 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN113843802B (zh) * 2021-10-18 2023-09-05 南京理工大学 一种基于深度强化学习td3算法的机械臂运动控制方法
CN114012727A (zh) * 2021-11-11 2022-02-08 江苏昱博自动化设备有限公司 一种机械臂运动规划方法及系统
CN115091469A (zh) * 2022-08-05 2022-09-23 广东工业大学 一种基于最大熵框架的深度强化学习机械臂运动规划方法
CN116476042A (zh) * 2022-12-31 2023-07-25 中国科学院长春光学精密机械与物理研究所 基于深度强化学习的机械臂运动学逆解优化方法及装置
CN116476042B (zh) * 2022-12-31 2024-01-12 中国科学院长春光学精密机械与物理研究所 基于深度强化学习的机械臂运动学逆解优化方法及装置

Similar Documents

Publication Publication Date Title
CN111645065A (zh) 一种基于深度强化学习的机械臂运动规划方法
CN108765481B (zh) 一种单目视频的深度估计方法、装置、终端和存储介质
CN112132893B (zh) 一种适用于室内动态环境的视觉slam方法
CN108369643B (zh) 用于3d手部骨架跟踪的方法和系统
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
US9361590B2 (en) Information processing apparatus, information processing method, and program
CN114782691A (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN111161364B (zh) 一种针对单视角深度图的实时形状补全和姿态估计方法
CN109726676B (zh) 自动驾驶系统的规划方法
CN110827295A (zh) 基于体素模型与颜色信息耦合的三维语义分割方法
CN111476089B (zh) 一种图像中多模态信息融合的行人检测方法、系统及终端
CN111368759A (zh) 基于单目视觉的移动机器人语义地图构建系统
CN113894780B (zh) 多机器人协作对抗方法、装置、电子设备和存储介质
CN111309035A (zh) 多机器人协同移动与动态避障方法、装置、设备及介质
CN112465858A (zh) 基于概率网格滤波的语义视觉slam方法
CN108921852B (zh) 基于视差与平面拟合的双分支室外非结构化地形分割网络
CN115965765A (zh) 一种基于神经变形的可变形场景中人体运动捕捉方法
CN113359744B (zh) 一种基于安全强化学习及视觉传感器的机器人避障系统
CN115049764A (zh) Smpl参数预测模型的训练方法、装置、设备及介质
CN114283228A (zh) 一种基于单目彩色相机的虚拟人物驱动方法及系统
CN113034675A (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
Zhao et al. End-to-end autonomous driving based on the convolution neural network model
JP5048381B2 (ja) 三次元形状復元装置
CN117830991B (zh) 一种基于多模融合的四足机器人复杂场景感知方法及系统
CN117854155B (zh) 一种人体骨骼动作识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911

RJ01 Rejection of invention patent application after publication