CN113752255B - 一种基于深度强化学习的机械臂六自由度实时抓取方法 - Google Patents

一种基于深度强化学习的机械臂六自由度实时抓取方法 Download PDF

Info

Publication number
CN113752255B
CN113752255B CN202110972705.XA CN202110972705A CN113752255B CN 113752255 B CN113752255 B CN 113752255B CN 202110972705 A CN202110972705 A CN 202110972705A CN 113752255 B CN113752255 B CN 113752255B
Authority
CN
China
Prior art keywords
network
grabbing
mechanical arm
reinforcement learning
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110972705.XA
Other languages
English (en)
Other versions
CN113752255A (zh
Inventor
禹鑫燚
徐靖
黄睿
邹超
欧林林
陈磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110972705.XA priority Critical patent/CN113752255B/zh
Publication of CN113752255A publication Critical patent/CN113752255A/zh
Application granted granted Critical
Publication of CN113752255B publication Critical patent/CN113752255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于深度强化学习的机械臂六自由度实时抓取方法。包括如下步骤:步骤一:通过双目相机采集抓取操作台上物体的图像信息;步骤二:利用YOLOv5剪枝网络模型对图像进行目标检测训练;步骤三:建立强化学习网络模型;步骤四:通过机器人正逆运动学完成机械臂抓取移动;步骤五:进行强化学习模型训练,使得机械臂完成抓取动作;本发明克服现有技术的缺点,提出一种易实现、适用性高的,基于YOLOv5剪枝网络和Policy Gradient强化学习方法的实时物体检测系统,此系统在保证高精度的同时,可以实现快速实时的目标检测并完成抓取动作。

Description

一种基于深度强化学习的机械臂六自由度实时抓取方法
技术领域
本发明属于一种基于深度强化学习的机械臂实时抓取物体技术,具体涉及YOLOv5剪枝网络、Kinevt正逆运动学、CoppeliaSim Edu仿真软件和Policy Gradient强化学习策略。
背景技术
抓取作为机器人学的一个基本而重要的问题,尽管其至关重要,但对于这一问题的解决方案一直不能令人满意。但是,随着近年深度学习和强化学习的快速发展,为机械臂智能抓取方式提供了多方面的可行思路。实时目标检测技术是近年来计算机视觉领域中的研究热门,这种技术包括对轻量级目标检测网络的设计、目标数据集的制作,模型部署载体的研究等。其中,最浅显的应用之一在于准确,快速的智能分拣领域中,如无人流水线上的机器人智能分拣。
在无人的机器人智能分拣环境中,如何求得机械臂合适的抓取姿态一直是困扰机器人实现自主抓取目标对象的一大难题。在研究早期,Antonio Bicchi and Vijay Kumar等人致力于从通过传统的物理姿态分析,找到机械臂合适的抓取姿态。(Antonio Bicchiand Vijay Kumar.“Robotic grasping and contact:A review”.In:IEEE InternationalConference on Robotics and Automation(ICRA).Vol.1.IEEE.2000,pp.348–353.)。然而,这些基于物理分析的方法不仅需要计算大量的实验数据,这导致的必然是需要大量的时间和计算成本,同时必须具有准确的物体模型,而这些模型并不是总是通用的。故此很难将这些算法应用于未记录于数据集的目标对象。
随着深度学习和计算机视觉的发展,Lerrel Pinto and Abhinav Gupta等人提出了基于数据驱动或者学习的方法来解决这一问题。(Lerrel Pinto and Abhinav Gupta.“Supersizing selfsupervision:Learning to grasp from 50k tries and 700robothours”.In:2016IEEE international conference on robotics and automation(ICRA).IEEE.2016,pp.3406–3413.)。首先探索的是基于二维平面的抓取,Sulabh Kumra andChristopher Kanan等人通过学习数据集中的抓取姿态生成了二维平面相应姿态,在二维抓取指标上获得了很高的准确度。然而,二维平面抓取模型对抓取姿态有许多限制要求,机械臂末端抓取器只能沿自上而下的方向接近物体,而在实际应用过程中,这单一抓取方向极大地限制了机械臂智能抓取地应用,例如抓取器很难抓取一块水平放置的木板。
由此,机械臂6自由度(6-DOF)抓取想法被提出。虽然,以Sida Peng等人为代表提出的6D姿态估计可以实现对数据集中的物体对象进行6-DOF抓取,但其对于数据集中未记录的对象抓取成功率较为低下,故此不能推广到新的应用场景。(Sida Peng et al.“Pvnet:Pixel-wise voting network for 6dof pose estimation”.In:Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019,pp.4561–4570)。Hongzhuo Liang提出的PointnetGPD采用采样-评估的两步法,通过评估大量的样本以确定可靠的抓取姿态。但是,这种方法无疑是相当耗时的。(Hongzhuo Liang etal.“Pointnetgpd:Detecting grasp configurations from point sets”.In:2019International Conference on Robotics and Automation(ICRA).IEEE.2019,pp.3629–3635)。Florence等人从现有的抓取姿态中进行姿态转移。但是这些方法面对未知的目标对象和物体几何形状与数据集中不相似时,其成功率就会相对较为低下。(PeterFlorence,Lucas Manuelli,and Russ Tedrake.“Dense Object Nets:Learning DenseVisual Object Descriptors By and For Robotic Manipulation”.In:Conference onRobot Learning(CoRL)(2018))。Mousavian等人将RGBD相机拍摄的部分点云视角输入到神经网络,输出6-DOF的抓取姿态。然而,由于潜在的传感器存储和传输等故障,输入网络的三维点云深度数据与传统二维RGB图片数据相比并不稳定。因此通过结合实时目标检测、强化学习和正逆运动学等相关模块形成的机械臂实时目标检测并抓取系统成为时下亟待解决的问题。
发明内容
本发明克服现有技术的缺点,提出一种易实现、适用性高的机械臂六自由度实时抓取方法。本发明建立了YOLOv5剪枝网络和Policy Gradient强化学习模型,在保证高精度的同时,可以实现快速实时的目标检测并完成抓取动作。
本发明以图像序列作为输入,首先利用YOLOv5剪枝模型对每帧图像进行目标检测与识别,该模型由卷积层、Batch Normal层(BN层)、LeakyRelu层,上采样层组成,网络模型结构图见附图1。在网络模型构建的过程中,对卷积层的通道做剪枝操作,通过BN层中的γ参数的大小作为衡量每个通道重要性的指标,对卷积层中的各个通道进行重要性排序,设置一个剪枝的百分比阈值,裁剪重要程度低于阈值的通道;对修剪后的神经网络模型进行训练,微调神经网络参数;重复修剪与微调步骤,在达到指标后停止修剪。YOLOv5使用Mosaic数据增强操作提升模型的训练速度和网络精度,并提出了自适应锚框计算与自适应图片缩放。在机械臂末端安装Intel RealSense D415双目摄像头,通过双目相机采集操作台上物体图像信息,送入剪枝后的YOLOv5模型得到抓取对象的中心坐标点和物体标签。然后将双目相机采集的彩色和深度图像信息进行归一化处理,并将处理结果送入训练好的强化学习网络,输出抓取置信度和最大概率抓取点,将图像抓取点转化为机械臂末端绕坐标轴所需旋转的角度,即将二维图像信息转换为三维半球型抓取角度图见附图2。将YOLOv5剪枝模型输出的物体中心坐标点和强化学习网络输出的三个旋转角度输入机器人正运动学得到相应机械臂运动轨迹,完成机械臂抓取动作。
本发明为一种基于深度强化学习的机械臂六自由度实时抓取方法,具体步骤如下:
步骤1:通过双目相机采集抓取操作台上物体的图像信息:
首先将Intel D415深度相机垂直固定于机械臂末端,使其能够采集到抓取操作台上物体的完整图像信息。
步骤2:利用YOLOv5剪枝网络模型对图像进行目标检测训练:
步骤2.1:在设计YOLOv5剪枝网络模型时,本发明借鉴于ResNet网络中的残差结构shortcut设计,以此来加深YOLOv5主体网络的深度,通过设定卷积层中的步长参数实现卷积层的下采样,提升YOLOv5网络识别准确率。其次除最后用于预测的三层卷积层之外,其余的卷积层后都添加Batch Normalization(BN)操作,并在BN层后接Leaky_Relu激活函数。采用自上而下特征金字塔多尺度模型结构,通过上采样操作对网络输出的三个特征图进行融合,达到多尺度预测的目的。
步骤2.2:使用K-meas聚类和基于训练数据自动学习算法,对真实锚框进行聚类,得到适合自定义数据集中对象边界框预测的预设锚框,此方法的目的是加速预测框的回归,模型网络前向推断中预测公式如下所示:
by=σ(ty)+cy (1)
bx=σ(tx)+cx (2)
Figure GDA0003866875900000041
Figure GDA0003866875900000042
bx,by是预测框在对应尺寸的特征图上的相对中心坐标值。bw,bh是预测框的宽和高。cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为预测的坐标偏移值,tw,th为预测的尺度缩放倍数;
步骤2.3:设计YOLOv5损失函数,采用GIOU_Loss来代替Smooth L1 Loss函数,从而进一步提升算法的检测精度,通过不断训练数据集中的数据,减小损失函数,更新模型权重参数;
步骤2.4:首先,将更新好的模型权重参数导入YOLOv5剪枝模型。其次将上述步骤1采集到的抓取操作台上物体的图像信息作为网络模型的输入,输出为图像中物体的中心坐标点和标签值。
步骤3:建立强化学习网络模型:
步骤3.1:设计强化学习网络损失函数,采用计算交叉熵损失函数,从而进一步提升算法的检测精度;
步骤3.1.1:设计目标置信度损失函数;
步骤3.1.2:建立权重更新函数;
步骤3.1.3:通过权重系数得到最终的损失函数;
步骤3.2:强化学习网络由多个特征提取网络组成。首先,利用多层卷积神经网络将上述步骤1得到的彩色图片和深度信息进行特征提取,分别得到彩色和深度两张张量。然后利用Pytorch的concat将两张张量拼接,并将其送入由BatchNormalization(BN)和卷积层组成的有序容器中,得到抓取概率特征张量。
步骤3.3:最后,将输出的张量整理为16张大小为28*28的热力图,找出最大概率抓取点所在坐标,即输出的为一组三维坐标数组。
步骤3.4:将数组中每一元素转换为机械臂末端分别绕x,y,z三个坐标轴旋转的角度,具体转换公式如下所示:
ax=((best_pix_ind[0]-14)*30/28)-pi (22)
by=((best_pix_ind[1]-14)*30/28) (23)
rz=(best_pix_ind[2]*180/16) (24)
其中ax表示为机械臂末端绕x轴旋转角度,即为末端执行器的侧倾角;by表示为机械臂末端绕y轴旋转角度,即为末端执行器的俯仰角;rz表示为机械臂末端绕z轴旋转角度,即为末端执行器的偏航角。
步骤4:通过机器人正逆运动学完成机械臂抓取移动:
首先,通过机器人逆运动学求解出当前状态下机械臂的6个关节角度数。然后将所述步骤2中YOLOv5识别模块得到的物体中心坐标以及所述步骤3中强化学习网络输出得到的机械臂末端三维旋转量送入机器人正运动学,即可求得机械臂运动到目标点后末端执行器的抓取姿态的移动轨迹,进而控制末端执行器关闭夹具,尝试进行抓取动作,当抓取成功时,强化学习网络回报为1;抓取失败时,强化学习网络回报为0。
步骤5:进行强化学习模型训练,使得机械臂完成抓取动作:
不断进行上述步骤4,即可得到一系列强化学习网络回报值,通过缩小强化学习模型中的损失函数,不断更新模型权重参数。最后,将训练好的权重参数导入到模型中,重复步骤4,完成机械臂六自由度实时检测抓取任务。
综上所述,本发明的优点在于,在保证YOLOv5识别模型已有的高精度检测基础上,对其进行神经网络通道的剪枝,既减少了神经网络的计算量和存储量,又避免了对模型性能造成太大的影响。同时,针对该方法设计了强化学习网络,克服了通过传统物理推导机械臂抓取姿态计算繁琐,时间成本高的缺点,解决了机械臂6-DOF抓取姿态无法应用于数据集中未记录的目标对象问题。不仅保证了机械臂模型的较高抓取成功率,还得益于强化学习的泛化性,即该方法可以应用于新的抓取对象,解决了传统方法的耗时计算以及降低了输入部分点云模型的不稳定性。此发明实现了对抓取对象的实时检测并进行6-DOF抓取的功能。
附图说明
图1是本发明中YOLOv5模型的结构图;
图2是本发明中末端执行器三维半球型抓取角度图;
图3是本发明YOLOv5的训练流程图;
图4是本发明中强化学习网络的流程图;
图5是本发明中机械臂实时检测和抓取的流程图。
具体实施方式
下面结合附图进一步说明本发明。
本发明的基于YOLOv5剪枝网络和强化学习的机械臂实时抓取方法,具体过程如下:
步骤1:通过双目相机采集抓取操作台上物体的图像信息:首先将Intel D415深度相机垂直固定于机械臂末端,使其能够采集到抓取操作台上物体的完整图像信息。
步骤2,利用YOLOv5剪枝网络模型对图像进行目标检测训练;
步骤2.1:由于理论上,网络越深,其性能越好。但是,实验表明在反向传播过程中需要对激活HAN函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加,即梯度爆炸;而导数如果小于1,那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少,即梯度消失。为了降低梯度爆炸和梯度消失的可能性,本发明在YOLOv5剪枝网络模型时设计参考残差网络Resnet跳层连接结构,将卷积层的步长参数设为2,并对其余卷积层加入Batch Normalization(BN)。由CBL模块、Res_unint模块以及卷积层、Concate组成CSP1_X模块;由卷积层和X个Res_unint模块Concate组成CSP2_X模块。其输入层由卷积层,Batch Normalization(BN),Leaky_Relu激活函数组成。根据输入彩色图大小,学习数据集中的锚框大小,达到自适应多尺度预测的目的。
步骤2.2:使用基于训练数据自动学习和K-meas聚类算法,即使数据集中目标对象大小与COCO数据集中不同,YOLOv5也可以重新学习锚框的尺寸,得到适合自定义数据集中对象边界预测的预设锚框,此方法的目的是加速预测框的回归。YOLOv5剪枝网络模型前向推断中预测公式如下所示:
by=σ(ty)+cy (1)
bx=σ(tx)+cx (2)
Figure GDA0003866875900000081
bh=pheth (4)
进行目标检测框的预测,最后得到预测框相对于当前特征图的相对中心坐标值bx,by,以及预测框的宽和高bw,bh,cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高。tx,ty为网络预测的坐标偏移值,tw,th为网络预测的尺度缩放倍数。
步骤2.3:设计YOLOv5损失函数,采用GIOU_Loss交叉熵损失来代替Smooth L1Loss函数,设计的目标置信度损失函数如下所示:
Figure GDA0003866875900000082
其中
Figure GDA0003866875900000083
网络输出ci通过Sigmoid函数得到
Figure GDA0003866875900000084
步骤2.4:目标类别损失函数同样采用二值交叉熵,设计的目标类别损失函数如下所示:
Figure GDA0003866875900000085
其中,
Figure GDA0003866875900000091
网络输出ci通过Sigmoid函数得到
Figure GDA0003866875900000092
表示目标检测框i中存在第j类目标的Sigmoid概率:
步骤2.5:目标定位损失函数采用MSE损失函数,如下所示:
Figure GDA0003866875900000093
其中:
Figure GDA0003866875900000094
Figure GDA0003866875900000095
Figure GDA0003866875900000096
Figure GDA0003866875900000097
其中
Figure GDA0003866875900000098
表示预测框的坐标偏移量(YOLOv3预测的是坐标偏移值),
Figure GDA0003866875900000099
表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;
步骤2.6:将上述所有损失函数通过权值相加得到总损失函数:
L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (11)
步骤2.7:首先,通过步骤2.1)至2.4)不断降低模型总损失函数从而更新模型权重,得到训练好的权重参数。然后,将更新好的模型权重参数导入YOLOv5剪枝模型。其次,将上述步骤1采集到的抓取操作台上物体的图像信息作为网络模型的输入,输出为图像中物体的中心坐标点和标签值。
步骤3,建立强化学习模型:
步骤3.1:通过以下公式对网络进行前向推理:
Figure GDA00038668759000000910
Figure GDA00038668759000000911
Figure GDA00038668759000000912
Figure GDA0003866875900000101
其中公式(12)表示在状态s,动作a下的期望回报,其中at表示t时刻采取的动作,st表示t时刻的状态,rt表示t时刻的回报;公式(13)表示网络总的回报函数;公式(14)为状态分布函数;公式(15)表示状态-动作函数。
步骤3.2.1:设计强化学习网络损失函数,采用计算交叉熵损失函数,其公式如下所示:
Figure GDA0003866875900000102
其中τ=s0a0s1a1...snan...表示马尔可夫过程。
由于
Figure GDA0003866875900000103
故此可得公式(17);
Figure GDA0003866875900000104
步骤3.2.2:权重更新函数如下所示:
Figure GDA0003866875900000105
Figure GDA0003866875900000106
Figure GDA0003866875900000107
其中fω:S×A→R是对
Figure GDA0003866875900000108
的近似函数,当fω取极小值,Δω=0时,可推导出公式(19)
步骤3.2.3:当满足公式(20)时,则通过权重系数得到最终的损失函数,如下所示:
Figure GDA0003866875900000111
步骤3.3:首先,根据上述公式设计网络模型:特征提取网络由卷积层,BatchNormalization,MaxPooling池化层组成,最后加上全连接层。然后,通过降低步骤3-2.3中的损失函数从而更新模型权重,得到训练好的权重参数。接着,将更新好的权重参数导入强化学习网络模型。其次,对步骤1得到的彩色图像和深度图像进行缩放和归一化处理,使得两张图像格式符合强化学习网络的输入要求。将特征提取网络输出的两张张量通过Pytorch的concat进行横向拼接,送入BatchNormalization和卷积层组成的网络,输出大小为12544的特征概率热点图。
步骤3.4:最后,将输出的张量整理为16张大小为28*28的热力图,找出最大概率抓取点所在坐标,即输出的为一组三维坐标数组。
步骤3.5:将输出的三维数组中每一元素转换为机械臂末端分别绕x,y,z三个坐标轴旋转的角度,具体转换公式如下所示:
ax=((best_pix_ind[0]-14)*30/28)-pi (22)
by=((best_pix_ind[1]-14)*30/28) (23)
rz=(best_pix_ind[2]*180/16) (24)
其中ax表示为机械臂末端绕x轴旋转角度,即为末端执行器的侧倾角;by表示为机械臂末端绕y轴旋转角度,即为末端执行器的俯仰角;rz表示为机械臂末端绕z轴旋转角度,即为末端执行器的偏航角。
步骤4,通过机器人正逆运动学完成机械臂抓取移动:
首先,通过机器人逆运动学求解出当前状态下机械臂的6个关节角度数。然后将所述步骤2中YOLOv5识别模块得到的物体中心坐标以及所述步骤3中强化学习网络输出得到的机械臂末端三维旋转量送入机器人正运动学,即可求得机械臂运动到目标点后末端执行器的抓取姿态的移动轨迹,进而控制末端执行器关闭夹具,尝试进行抓取动作,当抓取成功时,强化学习网络回报为1;抓取失败时,强化学习网络回报为0。
步骤5:进行强化学习模型训练,使得机械臂完成抓取动作:
不断进行上述步骤4,即可得到一系列强化学习网络回报值,通过缩小强化学习模型中的损失函数,不断更新模型权重参数。最后,将训练好的权重参数导入到模型中,不断重复上述步骤4,完成机械臂六自由度实时检测抓取任务。

Claims (3)

1.基于深度强化学习的机械臂六自由度实时抓取方法,其特征在于:包括如下步骤:
步骤1:通过双目相机采集抓取操作台上物体的图像信息;
步骤2:利用YOLOv5剪枝网络模型对图像进行目标检测训练;
步骤3:建立强化学习网络模型;
步骤4:通过机器人正逆运动学完成机械臂抓取移动;
步骤5:进行强化学习模型训练,使得机械臂完成抓取动作;
所述步骤2具体步骤如下:
2.1):为了降低梯度爆炸和梯度消失的可能性,减少池化层对梯度计算的影响,参考残差网络Resnet跳层连接结构,将卷积层的步长参数设为2,并对其余卷积层加入BatchNormalization(BN);借鉴CSPNet网络结构,由CBL模块、Res_unint模块以及卷积层、Concate组成CSP1_X模块;由卷积层和X个Res_unint模块Concate组成CSP2_X模块;其输入层由卷积层,Batch Normalization(BN),Leaky_Relu激活函数组成;根据输入彩色图大小,学习数据集中的锚框大小,达到自适应多尺度预测的目的;
2.2):使用基于训练数据自动学习和K-meas聚类算法,即使数据集中目标对象大小与COCO数据集中不同,YOLOv5也可以重新学习锚框的尺寸,得到适合自定义数据集中对象边界预测的预设锚框,此方法的目的是加速预测框的回归;YOLOv5剪枝网络模型前向推断中预测公式如下所示:
by=σ(ty)+cy (1)
bx=σ(tx)+cx (2)
Figure FDA0003866875890000011
Figure FDA0003866875890000012
进行目标检测框的预测,最后得到预测框相对于当前特征图的相对中心坐标值bx,by,以及预测框的宽和高bw,bh,cx,cy是输出特征图grid cell的左上角坐标,pw,ph为锚框的宽和高;tx,ty为网络预测的坐标偏移值,tw,th为网络预测的尺度缩放倍数;
2.3):设计YOLOv5损失函数,采用GIOU_Loss交叉熵损失来代替Smooth L1 Loss函数,设计的目标置信度损失函数如下所示:
Figure FDA0003866875890000021
其中
Figure FDA0003866875890000022
网络输出ci通过Sigmoid函数得到
Figure FDA0003866875890000023
2.4):目标类别损失函数同样采用二值交叉熵,设计的目标类别损失函数如下所示:
Figure FDA0003866875890000024
其中,
Figure FDA0003866875890000025
网络输出ci通过Sigmoid函数得到
Figure FDA0003866875890000026
表示目标检测框i中存在第j类目标的Sigmoid概率:
2.5):目标定位损失函数采用MSE损失函数,如下所示:
Figure FDA0003866875890000027
其中:
Figure FDA0003866875890000028
Figure FDA0003866875890000029
Figure FDA00038668758900000210
Figure FDA00038668758900000211
其中
Figure FDA00038668758900000212
表示预测框的坐标偏移量,
Figure FDA00038668758900000213
表示真实框的坐标偏移量,(bx,by,bw,bh)为预测框的参数,(cx,cy,pw,ph)为锚框的参数,(gx,gy,gw,gh)为真实框的参数;
2.6):将上述所有损失函数通过权值相加得到总损失函数:
L(O,o,C,c,l,g)=λconfLconf(o,c)+λclaLcla(O,C)+λlocLloc(l,g) (11)
2.7):首先,通过步骤2.1)至2.4)不断降低模型总损失函数从而更新模型权重,得到训练好的权重参数;然后,将更新好的模型权重参数导入YOLOv5剪枝模型;其次,将上述步骤1采集到的抓取操作台上物体的图像信息作为网络模型的输入,输出为图像中物体的中心坐标点和标签值;
所述步骤3具体步骤如下:
3.1):通过以下公式对网络进行前向推理:
Figure FDA0003866875890000031
Figure FDA0003866875890000032
Figure FDA0003866875890000033
Figure FDA0003866875890000034
其中公式(12)表示在状态s,动作a下的期望回报,其中at表示t时刻采取的动作,st表示t时刻的状态,rt表示t时刻的回报;公式(13)表示网络总的回报函数;公式(14)为状态分布函数;公式(15)表示状态-动作函数;
3.2.1):设计强化学习网络损失函数,采用计算交叉熵损失函数,其公式如下所示:
Figure FDA0003866875890000035
其中τ=s0a0s1a1...snan...表示马尔可夫过程;
由于
Figure FDA0003866875890000036
Pr{a|s}=π(s,a),故此可得公式(17);
Figure FDA0003866875890000041
3.2.2):权重更新函数如下所示:
Figure FDA0003866875890000042
Figure FDA0003866875890000043
Figure FDA0003866875890000044
其中fω:S×A→R是对
Figure FDA0003866875890000045
的近似函数,当fω取极小值,Δω=0时,可推导出公式(19)
3.2.3):当满足公式(20)时,则通过权重系数得到最终的损失函数,如下所示:
Figure FDA0003866875890000046
3.3):首先,根据上述公式设计网络模型:特征提取网络由卷积层,BatchNormalization,MaxPooling池化层组成,最后加上全连接层;然后,通过降低步骤3.2.3中的损失函数从而更新模型权重,得到训练好的权重参数;接着,将更新好的权重参数导入强化学习网络模型;其次,对步骤1得到的彩色图像和深度图像进行缩放和归一化处理,使得两张图像格式符合强化学习网络的输入要求;将特征提取网络输出的两张张量通过Pytorch的concat进行横向拼接,送入Batch Normalization和卷积层组成的网络,输出大小为12544的特征概率热点图;
3.4):最后,将输出的张量整理为16张大小为28*28的热力图,找出最大概率抓取点所在坐标,即输出的为一组三维坐标数组;
3.5):将输出的三维数组中每一元素转换为机械臂末端分别绕x,y,z三个坐标轴旋转的角度,具体转换公式如下所示:
ax=((best_pix_ind[0]-14)*30/28)-pi (22)
by=((best_pix_ind[1]-14)*30/28) (23)
rz=(best_pix_ind[2]*180/16) (24)
其中ax表示为机械臂末端绕x轴旋转角度,即为末端执行器的侧倾角;by表示为机械臂末端绕y轴旋转角度,即为末端执行器的俯仰角;rz表示为机械臂末端绕z轴旋转角度,即为末端执行器的偏航角。
2.根据权利要求1所述的基于深度强化学习的机械臂六自由度实时抓取方法,其特征在于:所述步骤4具体步骤如下:
首先,通过机器人逆运动学求解出当前状态下机械臂的6个关节角度数;然后将所述步骤2中YOLOv5识别模块得到的物体中心坐标以及所述步骤3中强化学习网络输出得到的机械臂末端三维旋转量送入机器人正运动学,求得机械臂运动到目标点后末端执行器的抓取姿态的移动轨迹,进而控制末端执行器关闭夹具,尝试进行抓取动作,当抓取成功时,强化学习网络回报为1;抓取失败时,强化学习网络回报为0。
3.根据权利要求2所述的基于深度强化学习的机械臂六自由度实时抓取方法,其特征在于:所述步骤5具体步骤如下:
不断进行上述步骤4,得到一系列强化学习网络回报值,通过缩小强化学习模型中的损失函数,不断更新模型权重参数;最后,将训练好的权重参数导入到模型中,不断重复上述步骤4,完成机械臂六自由度实时检测抓取任务。
CN202110972705.XA 2021-08-24 2021-08-24 一种基于深度强化学习的机械臂六自由度实时抓取方法 Active CN113752255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110972705.XA CN113752255B (zh) 2021-08-24 2021-08-24 一种基于深度强化学习的机械臂六自由度实时抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110972705.XA CN113752255B (zh) 2021-08-24 2021-08-24 一种基于深度强化学习的机械臂六自由度实时抓取方法

Publications (2)

Publication Number Publication Date
CN113752255A CN113752255A (zh) 2021-12-07
CN113752255B true CN113752255B (zh) 2022-12-09

Family

ID=78790939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110972705.XA Active CN113752255B (zh) 2021-08-24 2021-08-24 一种基于深度强化学习的机械臂六自由度实时抓取方法

Country Status (1)

Country Link
CN (1) CN113752255B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998573B (zh) * 2022-04-22 2024-05-14 北京航空航天大学 一种基于rgb-d特征深度融合的抓取位姿检测方法
CN114887927B (zh) * 2022-05-10 2024-02-13 浙江工业大学 一种基于工业机器人的自动输送的质量检测分选系统
CN114851201B (zh) * 2022-05-18 2023-09-05 浙江工业大学 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
CN115446835B (zh) * 2022-09-05 2024-06-14 大连交通大学 一种基于深度学习的刚软仿人手自主抓取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108081266A (zh) * 2017-11-21 2018-05-29 山东科技大学 一种基于深度学习的机械臂手部抓取物体的方法
CN111461291A (zh) * 2020-03-13 2020-07-28 西安科技大学 基于YOLOv3剪枝网络和深度学习去雾模型的长输管线巡检方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN112819135A (zh) * 2020-12-21 2021-05-18 中国矿业大学 基于ConvPoint模型引导机械臂抓取不同位姿物料的分拣方法
WO2021151336A1 (zh) * 2020-09-08 2021-08-05 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108081266A (zh) * 2017-11-21 2018-05-29 山东科技大学 一种基于深度学习的机械臂手部抓取物体的方法
WO2020173036A1 (zh) * 2019-02-26 2020-09-03 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN111461291A (zh) * 2020-03-13 2020-07-28 西安科技大学 基于YOLOv3剪枝网络和深度学习去雾模型的长输管线巡检方法
WO2021151336A1 (zh) * 2020-09-08 2021-08-05 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
CN112819135A (zh) * 2020-12-21 2021-05-18 中国矿业大学 基于ConvPoint模型引导机械臂抓取不同位姿物料的分拣方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的机械臂智能抓取技术研究;刘雪峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20201215;正文第1-62页 *

Also Published As

Publication number Publication date
CN113752255A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113752255B (zh) 一种基于深度强化学习的机械臂六自由度实时抓取方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN110450153B (zh) 一种基于深度强化学习的机械臂物品主动拾取方法
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
Kim et al. Convolutional neural network-based real-time ROV detection using forward-looking sonar image
Lundell et al. Ddgc: Generative deep dexterous grasping in clutter
CN113205466A (zh) 一种基于隐空间拓扑结构约束的残缺点云补全方法
Kim et al. The convolution neural network based agent vehicle detection using forward-looking sonar image
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
Zhang et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments
CN114387513A (zh) 机器人抓取方法、装置、电子设备及存储介质
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
CN114851201A (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
Mayer et al. FFHNet: Generating multi-fingered robotic grasps for unknown objects in real-time
Wang et al. Object detection using transfer learning for underwater robot
CN113681552B (zh) 一种基于级联神经网络的机器人混杂物体五维抓取方法
Cao et al. Residual squeeze-and-excitation network with multi-scale spatial pyramid module for fast robotic grasping detection
Schaub et al. 6-DoF grasp detection for unknown objects
CN116852347A (zh) 一种面向非合作目标自主抓取的状态估计与决策控制方法
CN114211490B (zh) 一种基于Transformer模型的机械臂抓手位姿预测方法
CN114782360A (zh) 基于DCT-YOLOv5模型的实时番茄姿态检测方法
CN112634367A (zh) 一种基于深度神经网络的抗遮挡的物体位姿估计方法
Yao et al. Robotic grasping training using deep reinforcement learning with policy guidance mechanism
CN116580084B (zh) 一种基于深度学习和点云的工业零件快速位姿估计方法
Wu et al. Real-Time Pixel-Wise Grasp Detection Based on RGB-D Feature Dense Fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant