CN112605983B - 一种适用于密集环境下的机械臂推抓系统 - Google Patents

一种适用于密集环境下的机械臂推抓系统 Download PDF

Info

Publication number
CN112605983B
CN112605983B CN202011386636.6A CN202011386636A CN112605983B CN 112605983 B CN112605983 B CN 112605983B CN 202011386636 A CN202011386636 A CN 202011386636A CN 112605983 B CN112605983 B CN 112605983B
Authority
CN
China
Prior art keywords
module
depth
mechanical arm
robot
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011386636.6A
Other languages
English (en)
Other versions
CN112605983A (zh
Inventor
禹鑫燚
樊越海
胡加南
邹超
欧林林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011386636.6A priority Critical patent/CN112605983B/zh
Publication of CN112605983A publication Critical patent/CN112605983A/zh
Application granted granted Critical
Publication of CN112605983B publication Critical patent/CN112605983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/08Programme-controlled manipulators characterised by modular constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J15/00Gripping heads and other end effectors
    • B25J15/08Gripping heads and other end effectors having finger members
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J18/00Arms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/023Optical sensing devices including video camera means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

一种适用于密集环境下的机械臂推抓系统,包括PC,彩色深度相机,机械臂,智能夹持器;软件端包括CoppliaSim仿真平台;彩色深度相机通过USB与计算机相连接,机械臂通过局域网与PC连接;彩色深度相机获取彩色RGB图和深度图;计算机执行机械臂控制程序;机械臂执行动作;智能夹持器抓取或推物块。CoppliaSim仿真平台包括仿真模块、标定模块、图像预处理模块、特征提取模块、决策网络模块、动作策略模块、机器人I/O模块、机器人模块。本发明利用仿真和实际相结合,减少因训练而造成的机器人损坏,并加快抓取速度;利用深度强化学习的DQN,依据当前物体环境实时动态规划动作语义,实现推和抓的结合,同时规划出最适合抓取的方向,大大增加了机械臂抓取复杂环境的成功率。

Description

一种适用于密集环境下的机械臂推抓系统
技术领域
本发明涉及一种适用于密集环境下的机械臂推抓系统
背景技术
随着经济的发展和人口老龄化进程的加速,社会对实际可用行抓取机器人的需求日益增长。然而不同工业机器人在结构化环境下对工件的抓取,服务机器人将面临多种情况,其中就包括如何在密集型环境中高效抓取所需目标。然而就目前已存的大多数抓取系统而言,大多数仅适用于物体间隔空隙较大的场景,在面对密集物体排布时,由于物体周围没有足够的空间留给机械夹爪夹取物体,规划抓取变得十分困难。M.R.Dogar等研究人员在2012年发表了A planning framework for nonprehensile manipulation under clutterand uncertainty,提出可以通过抓扫结合的方式解决密集环境抓取困难问题。但是通过手工调制的方法只能针对一种环境,鲁棒性差,方法不可迁移。
近年来,随着计算机性能的提高和大数据的发展,深度学习突破了以往存在的限制。在大数据和深层次网络的前提下,基于深度神经网络的系统表现出了良好的性能。S.Levine等研究人员在2016年发表了End-to-end training of deep visuomotorpolicies,设计了一种基于深度神经网络的端到端机械臂推抓控制系统,该系统与M.R.Dogar等研究人员所提出的系统相比具有相对较好的泛化性。但是该系统由于将关节扭矩作为输出,造成了极高的样本复杂度,导致训练时间长,系统代价昂贵问题。
发明内容
本发明对克服现有技术存在的上述问题,提供一种适用于密集环境下的机械臂推抓系统。
本发明主要采用仿真与实际相结合的方式。首先对模型进行仿真训练,得到训练完成的神经网络参数并输入给实际网络;然后对机械臂进行标定;由深度照相机获取彩色图与深度图并做一定的预处理分别得到一个彩色高度图集和深度高度图集;将彩色高度图和深度高度图输入到特征提取网络得到相应的特征张量;将特征张量输入到推抓网络得到相应的Q值图;根据Q值图得到动作和坐标点输入给机械臂;最后机械臂根据指令执行动作。
本发明为解决现有技术问题所用的技术方案是:
一种适用于密集环境下的机械臂推抓系统,其特征在于:包括PC、彩色深度相机、机械臂,机械臂上装有智能夹持器;PC上安装的软件端包括CoppliaSim仿真平台;彩色深度相机通过USB与计算机相连接,机械臂通过局域网与PC连接;彩色深度相机获取彩色RGB图和深度图;计算机执行机械臂控制程序;机械臂执行动作,智能夹持器抓取或推物块;
所述的PC上安装有仿真模块、图像预处理模块、特征提取模块、决策网络模块、动作策略模块,机械臂上安装有标定模块、机器人I/O模块、机器人模块;仿真模块,采用机器人仿真软件搭建仿真环境,然后对仿真模型进行训练,并将其训练得到神经网络参数分别输出至特征提取模块和决策网络模块;标定模块,输入为深度相机图像中机械夹爪的相机坐标位置,计算并输出旋转矩阵R和平移矩阵M至图像预处理模块与机器人I/O模块;图像预处理模块,输入为深度相机直接得到的深度图像和彩色RGB图像以及标定模块得到的旋转矩阵R和平移矩阵M,在对图像进行一定处理之后输出彩色RGB高度图和深度高度图至特征提取模块;特征提取模块,输入为彩色RGB高度图和深度高度图以及仿真模块中得到的部分神经网络参数,经过神经网络,得到并输出一组彩色特征向量和一组深度特征向量至决策网络模块;决策网络模块,输入为特征向量以及仿真模块中得到的部分神经网络参数,经过神经网络,得到并输出Q值图至动作策略模块;动作策略模块,输入为Q值图,根据Q值图中Q值的高低选择动作及像素坐标点并输出至机器人I/O模块;机器I/O模块,输入为动作和像素坐标点以及标定模块中的旋转矩阵R和平移矩阵M,经过逆运动学得到关节位姿并输出至机器人模块;机器人模块,输入为各个关节的位姿并执行动作;
仿真模块包括:构建全卷积神经网络
Figure GDA0003475485980000021
其中
Figure GDA0003475485980000022
包括两个并行网络分别是PushNet推网络φp和GraspNet抓网络φg;利用机器人仿真软件构建仿真环境;从彩色深度相机获得大小均为224×224RGB图像Itc和深度图像Itd;将Itd和Itc进行坐标转换,去噪操作后得到RGB高度图I′tc和深度高度图I′td;并将RGB高度图I′tc和深度高度图I′td预处理后得到彩色图像图集Gtc.和深度图像图集Gtd,作为状态St;将Gtc和Gtd分别输入两个独立的网络φg和φp,输出一组每个动作对应的预测Q值图,Qpt和Qgt;根据一定策略以及式(1)和式(2)得到动作at′以及像素坐标(xp,yp,zp),zp为(xp,yp)像素处深度值;
Figure GDA0003475485980000031
(xp,yp)=argmax(x,y)(Qgt,Qpt)) (2)
式(1)中φp(st),φg(st)表示当前状态为St时,推网络和抓网络输出的Q值图。式(2)中xp,yp表示最大q值所对应的动作的像素坐标。
将像素坐标(xp,yp,zp)变换至世界坐标系坐标(xw,yw,zw),机械臂根据选择的动作at′=((xw,yw,zw),α),做出相应的动作,改变拾取环境,其中α表示推或者抓取动作以及下爪角度;待机械臂完成动作a′t后,深度相机得到下一时刻的彩色图像It+1,c和深度图像It+1,d,同时得到Gt+1,c和Gt+1,d作为下一状态st+1;根据当前状态st和st+1计算机械臂做出动作后的奖励值Rt;记录一条状态转移变量元组(st,at,Rg(st,st+1),st+1,F),并将其存至经验池
Figure GDA0003475485980000032
使用随机梯度下降的方法更新式(6)的优化目标值Jt,只通过计算估计执行动作的单像素p和对应执行动作的估计网络φψ梯度并反向传播,其他像素点的梯度以0损失反向传播,加快网络更新速度;
目标值函数:
yt=Rg(st,st+1)+γQ(st+1,argmax(Q(ss+1,a′t))) (3)
误差为:
δt=|Qπ(st,at)-yt| (4)损失函数:
Figure GDA0003475485980000033
优化目标函数为:
Figure GDA0003475485980000034
重复操作直至成功率达到阈值ρ,并在此之后维持此成功率一段时间,则结束训练,保存FCN网络参数文件。
标定模块包括:用棋盘格标定法获得相机外参Ecam,旋转矩阵R和平移矩阵M,设机械臂末端初始位置为Pxyz,并将待拾取物体随机置于工作空间中;
Figure GDA0003475485980000041
式(7)中
Figure GDA0003475485980000042
是空间机械夹爪坐标系,
Figure GDA0003475485980000043
是像素坐标系,R是旋转矩阵,M是平移矩阵。
图像预处理模块包括:从彩色深度相机获得大小均为224×224RGB彩色图像Itc和深度图像Itd;利用标定模块中的旋转矩阵R和平移矩阵M将Itd和Itc从像素坐标转换至机器人坐标,利用阈值法进行去噪后得到RGB高度图I′tc和深度高度图I′td;将RGB高度图I′tc和深度高度图I′td用最邻近插值的方法缩放至像素大小为448×448的彩色高度图I″tc和像素大小为448×448的深度高度图I″td
特征提取模块包括:将360°均分为16等份,得到旋转角度集合θr={22.5°,45°,…,360°};将彩色高度图I″tc和深度高度图I″td通过仿射变换旋转θ°,其中θ°∈θr,分别得到彩色图像集合Gtc={I″′tc0,I″′tc1...I″′tc15}和深度图集合Gtd={I″′td0,I″′td1...I″′td15};导入特征提取神经网络参数;将得到的Gtc和Gta取出16组相同角度的I″′tci和I″′tdi,依次输入特征提取神经网络得到彩色特征图Ici,深度特征图Idi,共计32张特征图,其中i∈{0,1,…,15}。
决策网络模块包括:将所有旋转同一角度的彩色特征图Ici和深度特征图Idi拼接成推张量Ii,共计16维,其中i∈{0,1,…,15};导入决策神经网络参数,决策网络包括PushNet深度Q网络和GraspNet深度Q网络;将Ii依次送入决策网络中的PushNet深度Q网络中得到像素级推Q值图,同时依次送入GraspNet深度Q网络中得到像素级抓Q值图;上采样恢复224×224尺寸大小,得到推预测Q值图集合Qpt={Qpt1,Qpt2,…,Qpt15}和抓预测Q值图集合Qgt={Qgt1,Qgt2,…,Qgt15}。
动作策略模块包括:判断推预测Q值图集合Qpt和抓取预测Q值图集合Qgt的最大值qpk和qgk;由式(1)和式(2)得到最大值q值的以及(xp,yp)像素处深度值zp和机械臂末端的旋转角度α,其中α=360/k。
机器I/O模块包括:利用标定模块中的旋转矩阵R和平移矩阵M将将像素坐标(xp,yp,zp)变换至世界坐标系坐标(xw,yw,zw);则经由InverseKinematics计算,得到机械臂各关节位姿,并输出给机器人。
机器人模块包括:机器人接受指令后,机械臂末端旋转
Figure GDA0003475485980000051
下爪至(xw,yw,zw);执行动作,执行完成,关闭机械夹爪,返回初始位置。
优选地,实现了端到端的控制,输入为视觉图像信息,输出为机械臂目标位置。
优选地,所述仿真模块中,以先在仿真环境中进行神经网络参数的训练,继而用于实际系统,提高实际抓取物体的效率。
本发明的优点和积极效果是:
首先本发明利用仿真和实际相结合,减少了实际系统因训练而造成的机器人损坏,并加快了实际系统的抓取速度。
本发明利用了深度强化学习的DQN,依据当前物体环境实时动态规划动作语义,实现了推和抓的结合,同时规划出最适合抓取的方向,大大增加了机械臂抓取复杂环境的成功率。
附图说明
图1为本发明的系统结构框图。
图2为本发明的仿真系统结构框图。
图3为本发明搭建的实际环境。
图4为发明图像预处理框架图。
图5为本发明决策系统总体框架。
图6为本发明的实际抓取流程图。
图7为本发明的仿真训练成功率图。
图8为本发明的FCN网络结构图。
图9为本发明的仿真训练流程图
具体实施方式
以下结合附图对本发明做进一步详述:
一种适用于密集环境下的机械臂推抓系统,其系统结构框架图如图1所示。平台硬件组成主要包括PC,彩色深度相机,机械臂,智能夹持器;软件端主要组成包括CoppliaSim仿真平台。彩色深度相机通过USB与计算机相连接,机械臂通过局域网与PC连接。彩色深度相机负责获取彩色RGB图和深度图;计算机负责执行机械臂控制程序;机械臂负责执行动作;智能夹持器负责抓取或推物块。
本发明的具体实施方式如下:
CoppliaSim仿真软件,Pycharm编程环境安装在Ubuntu环境下;PC使用CPU为Intelcore i7-7800k 3.50hz,GPU为Nvidia TITAN Xp;彩色深度相机使用RealsenseD435;机械臂使用Universal Robot公司生成的UR5机械臂;智能夹持器为BY-P80。
(1)仿真系统:其框架图如图2所示。采用CoppliaSim仿真软件导入机械臂,智能夹持器,深度彩色相机和九个形状颜色不同的物块。需改变摩擦系数,使其与真实世界相似;构造FCN神经网络并对其参数进行初始化操作,网络结构图如图8;采用Pycharm与CoppliaSim进行通信;环境配置完成后,开始对仿真环境进行训练;得到训练完成的神经网络参数进行保存,仿真流程图如图9,仿真训练成功率如图7。
(2)标定模块:对彩色深度相机中的内参进行标定;采用SVD分解得到旋转矩阵和平移矩阵;利用Nelder–Mead算法迭代得到最优旋转矩阵和平移矩阵,输出相机内参,最优旋转矩阵和最优平移矩阵。
(3)图像预处理模块:将彩色深度相机置于工作空间上方50cm,斜下方24°朝向处,如图3所示,并获取大小均为224×224×3彩色图像和深度图像;将图像的投影平面由像素坐标系转至机器人坐标系;利用阈值法对图像中的深度信息进行去噪处理;利用去噪后的深度信息对RGB图像进行排序,构造出上至下的垂直视角图像;将排序后的RGB图像像素赋值给RGB投影面像素,排序后的深度信息赋值给深度投影面,继而使原始图像转换至高度图;采用最邻近插值方法将彩色RGB高度图和深度高度图缩放至大小为448×448×3,通过仿射变换将其等角度旋转成16张大小均为224×224×3的彩色RGB高度图和16张大小均为224×224×3的深度高度图。图像预处理框架图见图4。
(4)特征提取网络模块:特征网络由Densenet-121网络构成,并采用Imagenet数据集对Densenet-121网络进行预训练。导入仿真系统训练完成的神经网络参数;将图像预处理以后的图像依次输入特征提取网络,输出16个大小为1024×1×14×14彩色高度特征张量和16个大小为1024×1×14×14深度高度特征张量。
(5)决策网络模块:决策网络由两个神经网络构成,分别是抓取网络和推网络,两个网络结构完全相同,由两个1×1的卷积层与非线性激活函数ReLU和一个空间标准化层构成。将仿真系统训练完毕的网络参数导入;将特征提取网络中输出的特征张量按彩色高度特征张量与深度高度特征张量等角度拼接成一个大小为1024×2×14×14张量,一共形成16个张量,输入决策网络中;在网络的输出中进行双线性上采样,得到与原始图像像素大小一致的Q值图,两个网络一共输出32张大小为224×224×1预测Q值图和1605632个预测Q值。特征提取网络模块与决策网络模块总体框架图如图5。此外,在仿真阶段,决策网络模块会根据动作策略模块输出的实际Q值图与预测Q值图做差值运算,采用Huber损失函数以及随机梯度下降优化算法进行整体FCN网络的训练更新。
(6)动作策略模块:根据推抓,下爪角度,下爪像素点位置生成一个动作空间,一共包括1605632个动作;由决策网络模块的输出作为动作策略模块的输入,根据Q值图最高的Q值选择相应的动作和对应的像素点位置。此外,在仿真阶段,该模块会生成一个随机数,当随机数小于一定阈值时,随机从动作空间中选择一个动作及对应的像素点位置;当随机数大于一定阈值时,根据Q值图中最高的Q值选择相对应的动作以及像素点位置,并生成实际的Q值图,用于网络参数的更新;将像素点从像素坐标转换到机器人坐标;最后将动作信息输出。
(7)机器I/O模块:由动作策略模块的输出作为输入;根据机器人坐标下的像素点位置,以及目标动作和旋转角度利用逆运动学求解出机械臂每个关节位姿;输出给机器人模块。
(8)机器人模块:该模块包括了机械臂和机械夹爪。机械臂根据机器I/O模块中得到的信息进行关节位姿的调整;机械夹爪是单独I/O控制的,根据下达开抓指令和闭爪指令来完成抓取。机器人和机械夹爪在完成相应指令动作后会回传当前状态信息,作为执行下一动作的判断标准和生成实际动作Q值图的必要信息。
以上是整个系统的控制情况。仿真模块的存在减少了实际训练时出现的问题;标定模块能对机械人进行位姿标定;图像预处理模快降低了图像的噪声,提升了抓取精确度;特征提取网络模块使用Densenet-121实现了特征的重用和效率的提升;特征提取网络模块和决策网络模块的连接实现了像素级的价值估计。动作策略模块在保持有效的寻找最优动作的前提下保证了一定的环境探索度。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.一种适用于密集环境下的机械臂推抓系统,其特征在于:包括PC、彩色深度相机、机械臂,机械臂上装有智能夹持器;PC上安装的软件端包括CoppliaSim仿真平台;彩色深度相机通过USB与计算机相连接,机械臂通过局域网与PC连接;彩色深度相机获取彩色RGB图和深度图;计算机执行机械臂控制程序;机械臂执行动作,智能夹持器抓取或推物块;
所述的PC上安装有仿真模块、图像预处理模块、特征提取模块、决策网络模块、动作策略模块,机械臂上安装有标定模块、机器人I/O模块、机器人模块;仿真模块,采用机器人仿真软件搭建仿真环境,然后对仿真模型进行训练,并将其训练得到神经网络参数分别输出至特征提取模块和决策网络模块;标定模块,输入为深度相机图像中机械夹爪的相机坐标位置,计算并输出旋转矩阵R和平移矩阵M至图像预处理模块与机器人I/O模块;图像预处理模块,输入为深度相机直接得到的深度图像和彩色RGB图像以及标定模块得到的旋转矩阵R和平移矩阵M,在对图像进行一定处理之后输出彩色RGB高度图和深度高度图至特征提取模块;特征提取模块,输入为彩色RGB高度图和深度高度图以及仿真模块中得到的部分神经网络参数,经过神经网络,得到并输出一组彩色特征向量和一组深度特征向量至决策网络模块;决策网络模块,输入为特征向量以及仿真模块中得到的部分神经网络参数,经过神经网络,得到并输出Q值图至动作策略模块;动作策略模块,输入为Q值图,根据Q值图中Q值的高低选择动作及像素坐标点并输出至机器人I/O模块;机器I/O模块,输入为动作和像素坐标点以及标定模块中的旋转矩阵R和平移矩阵M,经过逆运动学得到关节位姿并输出至机器人模块;机器人模块,输入为各个关节的位姿并执行动作;
仿真模块包括:构建全卷积神经网络
Figure FDA0003475485970000011
其中
Figure FDA0003475485970000012
包括两个并行网络分别是PushNet推网络φp和GraspNet抓网络φg;利用机器人仿真软件构建仿真环境;从彩色深度相机获得大小均为224×224RGB图像Itc和深度图像Itd;将Itd和Itc进行坐标转换,去噪操作后得到RGB高度图I′tc和深度高度图I′td;并将RGB高度图I′tc和深度高度图I′td预处理后得到彩色图像图集Gtc和深度图像图集Gtd,作为状态St;将Gtc和Gtd分别输入两个独立的网络φg和φp,输出一组每个动作对应的预测Q值图,Qpt和Qgt;根据一定策略以及式(1)和式(2)得到动作at′以及像素坐标(xp,yp,zp),zp为(xp,yp)像素处深度值;
Figure FDA0003475485970000021
(xp,yp)=argmax(x,y)(Qgt,Qpt)) (2)
式(1)中φp(st),φg(st)表示当前状态为St时,推网络和抓网络输出的Q值图;式(2)中xp,yp表示最大q值所对应的动作的像素坐标;
将像素坐标(xp,yp,zp)变换至世界坐标系坐标(xw,yw,zw),机械臂根据选择的动作at′=((xw,yw,zw),α),做出相应的动作,改变拾取环境,其中α表示推或者抓取动作以及下爪角度;待机械臂完成动作a′t后,深度相机得到下一时刻的彩色图像It+1,c和深度图像It+1,d,同时得到Gt+1,c和Gt+1,d作为下一状态st+1;根据当前状态st和st+1计算机械臂做出动作后的奖励值Rt;记录一条状态转移变量元组(st,at,Rg(st,st+1),st+1,F),并将其存至经验池
Figure FDA0003475485970000024
使用随机梯度下降的方法更新式(6)的优化目标值Jt,只通过计算估计执行动作的单像素p和对应执行动作的估计网络φψ梯度并反向传播,其他像素点的梯度以0损失反向传播,加快网络更新速度;
目标值函数:
yt=Rg(st,st+1)+γQ(st+1,argmax(Q(ss+1,a′t))) (3)
误差为:
δt=|Qπ(st,at)-yt| (4)
损失函数:
Figure FDA0003475485970000022
优化目标函数为:
Figure FDA0003475485970000023
重复操作直至成功率达到阈值ρ,并在此之后维持此成功率一段时间,则结束训练,保存FCN网络参数文件;
标定模块包括:用棋盘格标定法获得相机外参Ecam,旋转矩阵R和平移矩阵M,设机械臂末端初始位置为Pxyz,并将待拾取物体随机置于工作空间中;
Figure FDA0003475485970000031
式(7)中
Figure FDA0003475485970000032
是空间机械夹爪坐标系,
Figure FDA0003475485970000033
是像素坐标系,R是旋转矩阵,M是平移矩阵;
图像预处理模块包括:从彩色深度相机获得大小均为224×224RGB彩色图像Itc和深度图像Itd;利用标定模块中的旋转矩阵R和平移矩阵M将Itd和Itc从像素坐标转换至机器人坐标,利用阈值法进行去噪后得到RGB高度图I′tc和深度高度图I′td;将RGB高度图I′tc和深度高度图I′td用最邻近插值的方法缩放至像素大小为448×448的彩色高度图I″tc和像素大小为448×448的深度高度图I″td
特征提取模块包括:将360°均分为16等份,得到旋转角度集合θr={22.5°,45°,…,360°};将彩色高度图I″tc和深度高度图I″td通过仿射变换旋转θ°,其中θ°∈θr,分别得到彩色图像集合Gtc={I″′tc0,I″′tc1...I″′tc15}和深度图集合Gtd={I″′td0,I″′td1...I″′td15};导入特征提取神经网络参数;将得到的Gtc和Gta取出16组相同角度的I″′tci和I″′tdi,依次输入特征提取神经网络得到彩色特征图Ici,深度特征图Idi,共计32张特征图,其中i∈{0,1,…,15};
决策网络模块包括:将所有旋转同一角度的彩色特征图Ici和深度特征图Idi拼接成推张量Ii,共计16维,其中i∈{0,1,…,15};导入决策神经网络参数,决策网络包括PushNet深度Q网络和GraspNet深度Q网络;将Ii依次送入决策网络中的PushNet深度Q网络中得到像素级推Q值图,同时依次送入GraspNet深度Q网络中得到像素级抓Q值图;上采样恢复224×224尺寸大小,得到推预测Q值图集合Qpt={Qpt1,Qpt2,…,Qpt15}和抓预测Q值图集合Qgt={Qgt1,Qgt2,…,Qgt15};
动作策略模块包括:判断推预测Q值图集合Qpt和抓取预测Q值图集合Qgt的最大值qpk和qgk;由式(1)和式(2)得到最大值q值的以及(xp,yp)像素处深度值zp和机械臂末端的旋转角度α,其中α=360/k;
机器I/O模块包括:利用标定模块中的旋转矩阵R和平移矩阵M将将像素坐标(xp,yp,zp)变换至世界坐标系坐标(xw,yw,zw);则经由InverseKinematics计算,得到机械臂各关节位姿,并输出给机器人;
机器人模块包括:机器人接受指令后,机械臂末端旋转
Figure FDA0003475485970000041
下爪至(xw,yw,zw);执行动作,执行完成,关闭机械夹爪,返回初始位置。
2.根据权利要求1所述的一种适用于密集环境下的机械臂推抓系统,其特征在于:实现端到端的控制,输入视觉图像信息,输出机械臂目标位置。
3.根据权利要求1所述的一种适用于密集环境下的机械臂推抓系统,其特征在于:所述仿真模块中,以先在仿真环境中进行神经网络参数的训练,继而用于实际系统,提高实际抓取物体的效率。
CN202011386636.6A 2020-12-01 2020-12-01 一种适用于密集环境下的机械臂推抓系统 Active CN112605983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386636.6A CN112605983B (zh) 2020-12-01 2020-12-01 一种适用于密集环境下的机械臂推抓系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386636.6A CN112605983B (zh) 2020-12-01 2020-12-01 一种适用于密集环境下的机械臂推抓系统

Publications (2)

Publication Number Publication Date
CN112605983A CN112605983A (zh) 2021-04-06
CN112605983B true CN112605983B (zh) 2022-04-19

Family

ID=75228421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386636.6A Active CN112605983B (zh) 2020-12-01 2020-12-01 一种适用于密集环境下的机械臂推抓系统

Country Status (1)

Country Link
CN (1) CN112605983B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076615B (zh) * 2021-04-25 2022-07-15 上海交通大学 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN113232019A (zh) * 2021-05-13 2021-08-10 中国联合网络通信集团有限公司 机械臂控制方法、装置、电子设备及存储介质
CN113524173B (zh) * 2021-06-17 2022-12-27 北京控制工程研究所 一种端到端的地外探测样品智能抓取方法
CN113500017B (zh) * 2021-07-16 2023-08-25 上海交通大学烟台信息技术研究院 一种面向非结构化场景下物料分拣的智能系统和方法
CN113664825B (zh) * 2021-07-19 2022-11-25 清华大学深圳国际研究生院 一种基于强化学习的堆叠场景机械臂抓取方法与装置
CN113664828A (zh) * 2021-08-17 2021-11-19 东南大学 一种基于深度强化学习的机器人抓取-抛掷方法
CN113743287B (zh) * 2021-08-31 2024-03-26 之江实验室 基于脉冲神经网络的机器人自适应抓取控制方法及系统
CN113920805B (zh) * 2021-10-19 2024-02-23 江苏汇博机器人技术股份有限公司 一种机器人多模块组合仿真实训教学装置
CN117697769B (zh) * 2024-02-06 2024-04-30 成都威世通智能科技有限公司 一种基于深度学习的机器人控制系统和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
CN108319928A (zh) * 2018-02-28 2018-07-24 天津大学 一种基于多目标微粒群算法优化的深度学习模型及应用
CN110560373A (zh) * 2019-09-02 2019-12-13 湖南大学 一种多机器人协作分拣运输方法及系统
CN111079561A (zh) * 2019-11-26 2020-04-28 华南理工大学 一种基于虚拟训练的机器人智能抓取方法
KR20200059110A (ko) * 2018-11-20 2020-05-28 한양대학교 산학협력단 파지 로봇 및 목표 물체 파지를 위한 주변 물체 분리 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
CN108319928A (zh) * 2018-02-28 2018-07-24 天津大学 一种基于多目标微粒群算法优化的深度学习模型及应用
KR20200059110A (ko) * 2018-11-20 2020-05-28 한양대학교 산학협력단 파지 로봇 및 목표 물체 파지를 위한 주변 물체 분리 방법
CN110560373A (zh) * 2019-09-02 2019-12-13 湖南大学 一种多机器人协作分拣运输方法及系统
CN111079561A (zh) * 2019-11-26 2020-04-28 华南理工大学 一种基于虚拟训练的机器人智能抓取方法

Also Published As

Publication number Publication date
CN112605983A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112605983B (zh) 一种适用于密集环境下的机械臂推抓系统
CN112102405B (zh) 基于深度强化学习的机器人搅动-抓取组合方法
CN109800864B (zh) 一种基于图像输入的机器人主动学习方法
CN112643668B (zh) 一种适用于密集环境下的机械臂推抓协同方法
CN109934864B (zh) 面向机械臂抓取位姿估计的残差网络深度学习方法
CN110298886B (zh) 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
CN110400345B (zh) 基于深度强化学习的放射性废物推抓协同分拣方法
CN112297013B (zh) 一种基于数字孪生和深度神经网络的机器人智能抓取方法
CN112906797B (zh) 一种基于计算机视觉和深度学习的平面抓取检测方法
CN114912287A (zh) 基于目标6d位姿估计的机器人自主抓取仿真系统及方法
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
CN114851201A (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
CN115213896A (zh) 基于机械臂的物体抓取方法、系统、设备及存储介质
Inoue et al. Transfer learning from synthetic to real images using variational autoencoders for robotic applications
CN113762159B (zh) 一种基于有向箭头模型的目标抓取检测方法及系统
CN115861780B (zh) 一种基于yolo-ggcnn的机械臂检测抓取方法
CN111496794B (zh) 一种基于仿真工业机器人的运动学自抓取学习方法和系统
CN116852353A (zh) 一种基于深度强化学习的密集场景机械臂抓取多目标物体的方法
CN116664843A (zh) 一种基于rgbd图像和语义分割的残差拟合抓取检测网络
CN113436293A (zh) 一种基于条件生成式对抗网络的智能抓取图像生成方法
CN114131603B (zh) 基于感知增强和场景迁移的深度强化学习机器人抓取方法
CN117392663A (zh) 基于虚实协同学习策略的机器人数字孪生抓取方法及装置
Crombez et al. Subsequent Keyframe Generation for Visual Servoing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant