CN115319739B

CN115319739B - 一种基于视觉机械臂抓取工件方法

Info

Publication number: CN115319739B
Application number: CN202210922342.3A
Authority: CN
Inventors: 骆海涛; 高鹏宇; 孙嘉泽; 曹轩; 孔祥峰
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2024-07-09
Anticipated expiration: 2042-08-02
Also published as: CN115319739A

Abstract

本发明公开了一种基于视觉机械臂抓取工件方法，包括以下步骤：步骤1、拍摄图像，输入YOLOV5网络进行目标识别，定位待抓取目标工件；步骤2、利用ggcnn2网络模型计算抓取点，输出目标工件的像素抓取信息；步骤3、根据像素抓取信息和手眼变换矩阵，计算机械臂末端的实际抓取位姿；步骤4、控制机械臂按照抓取位姿对目标工件进行抓取。本发明可以实现基于视觉的机械臂抓取工件。

Description

一种基于视觉机械臂抓取工件方法

技术领域

本发明涉及属于机器视觉和运动控制领域，具体地说是一种基于视觉机械臂抓取工件方法。

背景技术

平面抓取检测的任务是，输入感知数据，输出抓取配置。在目标检测领域中，分为单阶段检测模型和两阶段检测模型，两阶段检测模型代表有R-CNN，Fast-RCNN，两阶段需要先提取候选框，再去进行分类或回归，检测过程慢且提取的候选框只是图像中的一小部分，丢失了很多重要信息。选用yolov5单阶段目标检测算法不提取候选框，直接把全图输入到模型，直接输出目标检测的结果，对小目标的检测能力更强，算法性能高，运算量小，更高效的利用GPU，实现了精度和速度的权衡。在现有抓取算法中分为数据法和经验法，数据法只适用于已知物体，适用范围小。经验法，即深度学习方法，可适用于未知物体，应用广泛，选用GGCNN2深度学习抓取检测算法，预测参数少，预测难度较低，抓取位姿的可选择范围小。机器人可以根据视觉感知，实时动态地调整自身的运动行为，最后机器人根据视觉反馈实时调整末端夹爪姿态，保证成功抓取目标物体。基于上述背景，主要讨论了基于视觉的机械臂抓取控制以Kinova_jaco2_j2n6s300轻量型协作机械臂为研究对象，研究其在物体抓取过程中的，目标识别与抓取点检测，包括工控机主控制系统、视觉系统和抓取系统。

发明内容

为克服上述技术问题，本发明提出单阶段yolov5目标检测算法，GGCNN2深度学习抓取点检测算法，通过工控机操作机械臂实现视觉抓取的目的。

本发明为实现上述目的所采用的技术方案是：一种基于视觉机械臂抓取工件方法，包括以下步骤：

步骤1、拍摄图像，输入YOLOV5网络进行目标识别，定位待抓取目标工件；

步骤2、利用ggcnn2网络模型计算抓取点，输出目标工件的像素抓取信息；

步骤3、根据像素抓取信息和手眼变换矩阵，计算机械臂末端的实际抓取位姿；

步骤4、控制机械臂按照抓取位姿对目标工件进行抓取。

所述YOLOV5网络为预先训练好的网络结构，训练步骤包括：

步骤1.1、拍摄多张目标图像，进行定位标注，获取被标注的图像及定位标签信息；

步骤1.2、对目标图像进行剪裁和数据增强，制作定位数据集；

步骤1.3、将定位数据集中的图像和定位标签信息输入YOLOV5网络进行训练，训练网络权重参数，获取优化的YOLOV5网络，所述该网络用于对未知目标进行框选定位和类别识别。

所述定位标注为：

a.在图像上框选标画出目标物体的外接轮廓；

b.备注定位标签信息：当前目标工件物体的类别名称。

所述ggcnn2网络模型为预先训练好的网络结构，训练步骤包括：

步骤2.1、拍摄多张待抓取目标工件图像，进行人工抓取点标注，获取被抓取标注的图像及抓取标签信息；

步骤2.2、对目标图像进行剪裁和归一化处理，制作抓取数据集；

步骤2.3、将数据集中的图像和标签信息输入ggcnn2网络模型进行训练，训练网络权重参数，获取优化的ggcnn2网络模型，所述该网络用于对未知的待抓取目标，计算符合置信度要求的抓取点，并标注像素抓取信息。

所述人工抓取点标注为：

a.在图像上标画出：待抓取目标物体的抓取点集构成的线、抓取角度、抓取宽度；所述抓取角度为夹爪连线与图像任意边构成的角度；所述抓取宽度为夹爪执行闭合的初始距离；

b.存储像素抓取信息：抓取点像素坐标，抓取角度，抓取宽度；

其中，已知抓取视角为俯视；夹爪为二指夹爪。

是根据以下置信度要求输出3种类型的像素抓取信息配置：

a.选择来置信度为峰值的像素抓取信息配置；

b.选择所有置信度超过阈值的像素抓取信息配置；

c.选择置信度最大的像素抓取信息配置。

所述手眼变换矩阵为：

其中，标定板到相机的位姿变换通过相机标定或者标签检测的方法得到，相机到机械臂基座的位姿变换机械臂基座到机械臂末端的位姿变换通过正运动学解算求得；

目标工件的像素抓取信息为相机坐标系下的：抓取点像素坐标，抓取角度，抓取宽度，带入手眼变换矩阵计算得到机械臂末端的实际抓取位姿；

机械臂末端的实际抓取位姿为目标工件在机械臂末端坐标系下的：抓取点坐标，抓取角度，抓取宽度。

本发明具有以下有益效果和优点：

1.本发明基于YOLOV5网络的目标识别：该算法可以实现单阶段的目标检测，对识别的物体进行框选并且对每个物体进行分类，在抓取的过程中对物体进行分类，可以对指定检测到的物体进行抓取的应用。

2.抓取点预测：把深度图像输入到ggcnn2神经网络中，输出一种像素级的抓取位姿，可以将抓取点信息集合保存到文本文件中，可以查看对输出的抓取点的可视化效果，可以选择保存三种抓取模式，对于一般物体保存的抓取配置为抓取点像素坐标和抓取点两侧与图像水平轴的夹角(弧度模式)还有抓取宽度，对于圆形物体保存的抓取配置为抓取点像素坐标和抓取宽度。

3.物体抓取位姿计算：通过抓取点预测的结果中，保存了对物体抓取点信息，该信息通过ROS节点发布话题，在抓取控制程序中通过ROS订阅了该节点发布的抓取点信息话题，订阅了话题中的像素坐标，通过像素坐标系与相机坐标系的转换，得到抓取点在相机坐标系下坐标位置，点云传感器数据可以根据RGB-D图像提供的坐标与相机内参算出来。相机坐标系下的点云数据是根据RGB图像提供的像素坐标系下的x，y坐标(即公式中的u，v)和相机内参就能求出相机坐标系下的坐标值。同时深度图直接提供相机坐标系下的坐标值。进而得到相机坐标系下的坐标，相机坐标系下的物体的坐标，就是点云传感器数据，也就是相机坐标系下的点云数据。通过手眼标定得到相机坐标系与机械臂末端的变换关系，再通过相机坐标系与机械臂基座坐标系的转换，最后得到抓取点在机械臂基座坐标系下坐标位置。

4.综上，本发明整体的作用和技术效果：基于视觉的抓取算法的目的是，给定一个包含物体的场景，一个机械手，以该场景的视觉信息为输入，yolov5算法对物体进行检测和分类，ggcnn2算法计算出一个最优的抓取位姿，使机械手在该位姿下可以稳定的抓取物体，抓取算法可以独立的运行，或作为复杂任务的一部分。

附图说明

图1为本发明方法yolov5可视化训练结果图；

图2为yolov5目标物体检测效果图；

图3是realsenseD435i相机拍摄的彩色图和深度图；

图4是rolabeling软件标注出的抓取点结果图；

图5是数据集标注后的单个图像效果可视化图；

图6是ggcnn2的神经网络模型结构图

图7(a)是ggcnn2检测出来的置信度为峰值的抓取配置图，(b)是置信度超过阈值的抓取配置图，(c)是置信度最大的抓取配置图；

图8为本发明方法的视觉机械臂抓取流程图

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明的一种基于ROS的视觉机械臂平面抓取工件方法。基于深度学习的目标检测，实现对物体的识别和检测，基于视觉的目标抓取算法，给定一个包含工件的场景，一个机械手模型，算法以该场景的视觉信息为输入，计算出一个最优的抓取位姿，使机械手在该位姿下可以稳定的抓取物体，抓取算法可以独立的运行，或作为复杂任务的一部分。通过接受深度相机拍摄的得到的视频，YOLOV5算法将视频的每一帧生成图像，为每一张图像设置工件标签信息，每种标签对应不同的工件，把每一张图像送入模型中，检测工件信息，对抓取场景中的物体进行分类，通过深度相机实现工件位置的三维定位，改进的ggcnn2神经网络算法对平面工件抓取姿态【x,y,z,yaw,w】预测，实现对包含工件的的场景中进行特定物体抓取。下面进一步详细说明。

机器视觉中的目标检测：

自制目标检测数据集模块：使用相机拍摄需要抓取的物体在在线标注网站进行物体的标注和每个物体所对应的标签，标注完成之后，导出训练所需要的数据集，包含标注图片和每个标注图片所对应的文本文件。

模型训练模块：使用标注好的数据集进行训练，数据增强的方式，随机裁剪，随机排布的方式进行拼接，检测小目标的效果好，加了先验框，训练数据集时，计算先验框的值是通过单独的程序运行的，如果计算的不好，可以关闭，只保存最后一个权重数据pt文件，在经历了300epoch训练之后，会在runs文件夹下面找到训练好的权重文件和训练过程的一些文件。

如图1所示，GIOU和valGIOU分别表示训练集与验证集的GIOU损失函数均值、objectness和valobjectness分别表示训练集与验证集的目标检测损失均值、classification和val classification分别表示训练集与验证集的分类损失均值，Precision与recall分别表示训练集的准确率与召回率，map@0.5表示多个类别的平均精度，其中0.5表示判定IOU为正负样本的阈值，@0.5：0.95表示阈值取0.5：0.05:0.95后再取均值。

经过300次epoch，该模型实现了收敛的状态，在模型训练的过程中，其精确度达到较高的水准；召回率基本达到了100％；平均精度均值也保持在100％的水平；调和均值保持在80％左右；训练集和验证集的损失函数保持较低的状态，大约为0.02；训练集与验证集的目标检测损失均值与分类损失均值基本接近于0，整体训练效果达到期望效果。

训练完成后，会在weights文件夹中生成2个的权重文件，最好权重文件best.pt以及最后一轮训练的权重文件last.pt。

测试训练模型的结果：修改detect的方法，增加保存测试结果的路径，这样测试完就可以在images查到测试的图片，在output中查看保存的测试结果。测试结果如图2所示，框选区域内包含要检测的目标(笔)。

基于神经网络的抓取点预测标画：

抓取点检测数据集的制作与加载：拍摄抓取工件真实图片，对拍摄图片进行人工抓取点标注。

在实验台上随机摆放物体，用realsenseD435i深度相机拍摄RGBD图像，如图3所示，(a)为相机拍摄到的彩色图像，(b)为该彩色图像对应的拍摄到的深度图像。

然后通过rolabeling软件标注出抓取点，如图4所示，标注点(1)线是抓取点的集合，线上每一个点对应一个坐标，同时生成对应的数据文件如下表1所示，第一列和第二列分别是标注点(1)线上每一个点在图像上对应的x,y的坐标，第三列是标注点(2)线与图像水平轴的夹角(弧度)，第四列是标注点(3)线与图像水平轴的夹角(弧度)，最后一列表示的是抓取宽度。标注完成后，对标注后的数据集中的图像进行查看，如图5所示，包含了所有抓取点的集合。

表1

257.0	284.0	3.052936771722355	6.1945294253121475	52.0
					257.0	285.0	3.052936771722355	6.1945294253121475	52.0
257.0	286.0	3.052936771722355	6.1945294253121475	52.0
					258.0	284.0	3.052936771722355	6.1945294253121475	52.0
258.0	285.0	3.052936771722355	6.1945294253121475	52.0
					258.0	286.0	3.052936771722355	6.1945294253121475	52.0
258.0	287.0	3.052936771722355	6.1945294253121475	52.0
					258.0	288.0	3.052936771722355	6.1945294253121475	52.0
258.0	289.0	3.052936771722355	6.1945294253121475	52.0
					259.0	284.0	3.052936771722355	6.1945294253121475	52.0
259.0	285.0	3.052936771722355	6.1945294253121475	52.0
					...	...	...	...	...

搭建ggcnn2网络模型及训练：

ggcnn2网络训练模型如图6所示，输入300x300的深度图像，经过L1，L2卷积层，最大池化层，L3和L4卷积层，最大池化层，L5和L6空洞卷积层，L7和L8反卷积层，最后输出抓取点检测图。

给一个输入的深度图，最后分别输出置信度，sin，con，还有宽度。对网络进行实例化之后，加载预训练模型，设置优化器，设置学习率衰减。对网络结构进行打印，生成网络结构如下表2所示。

表2

训练过程：

对训练程序设置获得超参数，设置保存器，用来初始化参数，加载制作好的数据集，分别是加载训练集，验证集，测试集，分别设置数据集加载的数量。训练部分：初始精度设置为0，初始精度可以用来更新最高精度，然后保存模型，设置起始的循环训练次数epoch，循环epoch，打印学习率。首先把网络设置成训练模式，循环数据集，每调用一次for循环，就会进入函数里边，读取图像和标签，图像增强，图像归一化，把numpy格式的数据变成tensor或者torch格式，然后返回图像和标签打包的元组，在focal_loss里边计算损失，把损失返回打印，打印每一个batch，损失的数值，统计损失，把损失反向传播更新网络，把损失记录下来方便后续的查看。更新学习率，保存训练日志，每训练几轮进行一次测试，使用测试集进行测试，进入到测试函数，首先把网络设置成测试模式进行循环，经过函数获取到x，y，计算损失和预测值，进行输出的后处理，把cos，sin组合成角，把预测的宽度乘以200，方便后续比较。

抓取点评估：

把标签sin，cos通过arctan转成角度选出预测抓取里边置信度最高的，把它与所有的标签抓取对比，如果预测的抓取与所有标签抓取偏差小于30°，抓取宽度之比小于0.8就代表预测正确。通过字典把预测结果保存，最后保存模型，如果测试精度最高，就会保存一次模型，最多保存3个模型，自动覆盖删除。

使用图像测试抓取检测结果：

首先收集包含视觉信息与抓取标签对应的数据集，使用该数据集训练一个抓取检测算法，在抓取时，以实际场景的视觉信息为输入，获得最终抓取位姿。将RGBD图像输入神经网络，直接输出多个平面抓取位姿及置信度，然后选出最优的抓取位姿。

使用测试程序测试对于输入图像的抓取点检测，首先选择训练好的模型，准备好测试的图片，使用cpu运行，初始化模型ggcnn2模型，输入深度图，对图像进行裁剪，保留中间(320，320)的图像，对图像进行归一化处理，进行预测，对测试结果可视化：

按照本方法可以输出3种类型的抓取配置：

(1)选出来置信度为峰值的抓取配置，如图7(a)所示，图中生成标记了5个抓取点，每个抓取点是比周围的抓取点置信度大的抓取点。

(2)选取了置信度超过阈值的抓取配置，如图7(b)所示，抓取点比较多，标记点(1，3)所在位置颜色比较浅，为置信度较低的点，标记点(2)所在位置颜色比较深，为置信度较高的点。

(3)选择置信度最大的抓取配置，如图7(c)所示，生成一个所有抓取点中置信度最大的抓取点，将其可视化。

抓取位姿计算：

手眼标定模块：根据手眼标定得到手眼矩阵标定板固定在机械臂末端T代表变换矩阵。由于等式左边标定板与机械臂末端的位姿始终不变，等式右边相机与机械臂基座位姿关系始终不变(未知，待求解)，那么当机械臂变换不同的位姿时，联立上述公式等号右边部分，有如下关系成立：

其中标定板到相机的位姿变换可以通过相机标定或者标签检测得到，机械臂基座到机械臂末端的位姿可通过正运动学解算求得，所以该式中，唯一便是需要求解的相机到机械臂基座的位姿转换关系。经过左右移项后，可得:

由此式子得到AX＝XB

眼在手外的手眼标定就转换成了AX＝XB的问题求解。在ROS中，可以使用easy_handeye开源功能包对机械臂和相机进行手眼标定。

使用kinova机械臂进行指定工件进行平面抓取，抓取流程如图8所示，启动机械臂和相机后，对realsenseD435i相机和机械臂进行初始化，对抓取网络进行初始化，对平面上的物体信息进行加载和收集，相机对实验台上的工件RGB-D图像信息进行收集，在接收到图像后，yolov5算法对工件进行目标识别，对每个工件进行检测和分类，ggcnn2网络对每个工件的抓取点进行预测，可视化抓取点检测图以及保存抓取点信息(x,y,angle,width),在抓取前，把机械手的位置设置为抓取点正上方，抓取物体时机械手向下运动去抓取，在抓取完成后，设置完成后续抓取后的操作，放置物体的位姿，然后删除已经抓取后的物体的信息，回到初始位姿，准备抓取下一个物体。

ROS实现：

启动roslaunch文件：roslaunch包含启动kinova机械臂控制节点，深度相机节点，目标识别检测节点，抓取检测算法节点。

在终端命令命令行手动向\grasp_detect_run话题发布启动抓取命令；例如：rostopic pub/grasp/grasp_detect_run std_msgs/Int8“date：0”向\grasp_detect_run话题发布自定义消息，然后进入回调函数，运行detect目标识别程序，发布检测图像话题，抓取检测程序grasp_detect和机械臂控制程序sgdn_arm_grasp。在抓取检测程序中，首先初始化节点和神经网络，订阅\grasp_detect_run话题和目标检测后的RGBD图像，在\grasp_detect_run的回调函数中，读取最新的RGBD图像，进行抓取检测，向\grasp_result话题发布抓取检测结果。在机械臂控制程序中，首先初始化节点和机械臂，订阅\grasp_result话题，在回调函数中更新抓取位姿，在主程序中根据抓取位姿控制机械臂和机械手运动来实施抓取。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰应视为本发明的保护范围。

Claims

1.一种基于视觉机械臂抓取工件方法，其特征在于，包括以下步骤：

步骤1、拍摄图像，输入YOLOV5网络进行目标识别，定位待抓取目标工件；所述YOLOV5网络为预先训练好的网络结构，训练步骤包括：

步骤1.3、将定位数据集中的图像和定位标签信息输入YOLOV5网络进行训练，训练网络权重参数，获取优化的YOLOV5网络，用于对未知目标进行框选定位和类别识别；

步骤2、利用ggcnn2网络模型计算抓取点，输出目标工件的像素抓取信息；所述ggcnn2网络模型为预先训练好的网络结构，训练步骤包括：

步骤2.3、将数据集中的图像和标签信息输入ggcnn2网络模型进行训练，训练网络权重参数，获取优化的ggcnn2网络模型，用于对未知的待抓取目标，计算符合置信度要求的抓取点，并标注像素抓取信息；

步骤3、根据像素抓取信息和手眼变换矩阵，计算机械臂末端的实际抓取位姿；所述手眼变换矩阵为：

机械臂末端的实际抓取位姿为目标工件在机械臂末端坐标系下的：抓取点坐标，抓取角度，抓取宽度；