CN113888631B

CN113888631B - 一种基于目标裁剪区域的指定物体抓取方法

Info

Publication number: CN113888631B
Application number: CN202111017083.1A
Authority: CN
Inventors: 魏武; 冯凯月; 余秋达; 高天啸
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-05-24
Anticipated expiration: 2041-08-31
Also published as: CN113888631A

Abstract

本发明公开了一种基于目标裁剪区域的指定物体抓取方法，包括以下步骤：S1、采集实际抓取场景的RGB图像和深度图像；S2、对采集的深度图像和RGB图像进行对齐和裁剪操作；S3、将处理后的RGB图像数据流输入目标检测网络，输出当前场景中抓取物体位置和区域；S4、将处理后的深度图像输出训练好的全卷积神经网络中，得到整个场景的抓取位姿；S5、根据目标检测的结果和整个场景的抓取位姿生成指定目标物体的抓取位姿；S6、将抓取位姿转化为机械臂操作空间的抓取位姿；S7、设置机器人抓取轨迹并完成抓取。本发明能够完成在多目标的场景中对指定的目标物体进行抓取操作，建立的级联全卷积神经网络具有轻量并准确率高的优点。

Description

一种基于目标裁剪区域的指定物体抓取方法

技术领域

本发明涉及计算机视觉，深度学习，机器人控制领域，具体涉及一种基于目标裁剪区域的指定物体抓取方法。

背景技术

21世纪以来，人工智能的发展带动了机器人领域迸发出新的活力。传统的机器人主要应用于工厂的特定的场景内，而工业上的机器人抓取还局限于结构化的场景和特定的物品。针对非结构化的机器人抓取，国内外的学者都有所研究，他们利用计算机视觉获取抓取场景的信息，通过建立卷积神经网络生成机器人抓取位姿(夏晶、钱堃等，基于级联卷积神经网络的机器人平面抓取位姿快速检测[J]，南京：东南大学自动化学院；SulabhKumra and Christopher Kanan Robotic Grasp Detection using Deep ConvolutionalNeural Networks)。用这种生成整个场景最佳抓取位姿的方式，可以对场景中物体逐一抓取，利用卷积神经网络输出最佳抓取位姿，具有快速、准确的特点，但不能指定抓取场景中的某一物品。而在实际的生产生活中，抓取特定的物品是机器人抓取中的需要解决的一大难点。

发明内容

为了解决现有的机器人抓取研究不能指定目标进行抓取的问题，本发明提供一种基于目标裁剪区域的指定物体抓取方法，使用YOLOv4算法输出场景中各个物品的区域，通过建立的全卷积神经网络输出场景中抓取位姿，通过目标区域裁剪的方式获得指定目标的最佳抓取位姿，能够快速稳定的抓取指定物品。

本发明至少通过如下技术方案之一实现。

一种基于目标裁剪区域的指定物体抓取方法，包括以下步骤：

S1、利用RGB-D相机采集实际抓取场景的RGB图像和深度图像；

S2、对相机采集的深度图像和RGB图像进行对齐和裁剪操作；

S3、将处理后的RGB图像数据流输入目标检测网络，输出当前场景中抓取物体的位置和区域；

S4、将处理后的深度图像输出训练好的全卷积神经网络中，得到整个场景的抓取位姿；

S5、根据目标检测的结果和整个场景的抓取位姿生成指定目标物体的抓取位姿；

S6、将抓取位姿转化为机械臂操作空间的抓取位姿；

S7、设置机器人抓取轨迹并完成抓取。

优选的，步骤S1中的RGB-D相机是Relsense435i，深度图像的获取是双目立体视觉与结构光的融合，左右两个红外传感器构成双目立体视觉，与单目结构光相比深度测量精度更高。同时还有一个高精度彩色摄像头可以获取RGB图像。

优选的，对相机采集到的深度图像和RGB图配准和裁剪。

优选的，相机获取的RGB图像输入到训练好的YOLOv4网络中，输出场景中各个物品的位置和大小信息。

优选的，在步骤S4中所述的用于深度图像生成抓取位姿的全卷积神经网络包括两个阶段，第一阶段和第二阶段均包括编码器模块和解码器模块，其中第一阶段和第二阶段均产生一个损失，损失定义为预测的抓取角度、抓取宽度和抓取质量和实际的真实间的均方误差；所述编码器模块包括卷积层，所述解码器模块包括反卷积层。

优选的，用于抓取位姿预测的全卷积神经网络的训练阶段包括：

S41、先对Cornell数据集进行数据集增强操作，包括随机截取、随机缩放、随机翻转，将增强后的数据集为训练集和测试集；在随机翻转的操作中，翻转范围为在随机缩放的操作中，缩放范围为(0.1,10)；

S42、训练全卷积神经网络模型时，采用均方误差损失函数作为训练性能的指标。

S43、对上一步训练好的模型进行测试；对于预测的抓取框是否正确采用 IOU评价指标：

其中，A为预测矩形，B为真实矩形，IOU预测矩形和真实矩形之间面积的交并比为评价指标。IOU大于0.6时，为一个成功的抓取。抓取成功率在训练第32个epoch时达到最高的抓取成功率89％。保留此模型参数。

优选的，在步骤S4中，将深度图像数据流输入到训练好的全卷积神经网络中，输出得到三幅图，分别对应着每个像素点的抓取质量q、夹爪旋转角度夹爪张开宽度/>整合可以得到场景中每个像素的抓取位姿/>

优选的，用于训练目标检测网络的为COCO数据集。

优选的，用于训练预测抓取位姿的全卷积神经网络的为Cornell数据集。

优选的，所述训练是在NVIDIA服务器上进行的；由于网络结构的关系，所有输入的深度图片resize成HxH大小，最终得到的输出同样为H×H×3。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提供一种基于目标裁剪区域的指定物体抓取方法，使用YOLOv4算法输出场景中各个物品的区域，通过建立的全卷积神经网络输出场景中抓取位姿，通过目标区域裁剪的方式获得指定目标的最佳抓取位姿，能够快速稳定的抓取指定物品。在多目标的场景中对指定的目标物体进行抓取操作，建立的级联全卷积神经网络具有轻量并准确率高的优点，可以针对当前场景快速生成抓取位姿。

附图说明

图1为本发明实施例方法的流程图；

图2为本发明实施例搭建的两阶段卷积神经网络的结构图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

如图1所示，本发明基于目标裁剪区域的指定物体抓取方法，包括以下步骤：

S1、利用Relsense435i的RGB-D相机采集，深度图像的获取是双目立体视觉与结构光的融合，由两个红外传感器构成双目立体视觉，与单目结构光相比深度测量精度更高。同时还有一个高精度彩色摄像头可以获取RGB图像。

S2、对相机采集的深度图像和RGB图像进行对齐和裁剪操作；

S6、将抓取位姿转化为机械臂操作空间的抓取位姿；

S7、设置机器人抓取轨迹并完成抓取。

其中，在当前场景中，在步骤S2中深度图像和彩色图像配准的操作包括以下步骤：

S201、将深度图的像素点还原到深度坐标系下：

其中K_d为深度摄像头的内参由标定获得，表示深度图的像素点在深度坐标系下的坐标，/>为深度图上的像素点的值；

S202、将深度坐标系下转换到世界坐标系下：

P_w是世界坐标系下的坐标，是深度坐标系到世界坐标系的转换矩阵由摄像头的标定参数中获得；

S203、将世界坐标系下P_w转换到彩色摄像头坐标系下：

表示彩色摄像头坐标系下的坐标，T_w2c是世界坐标系到彩色相机坐标系之间的转换矩阵。

S204、将彩色摄像头坐标系下的深度点转换到映射到彩色平面上：

其中K_d为深度摄像头的内参由标定获得，T_w2c是世界坐标系转换到彩色摄像头坐标系的转换矩阵由标定获得，T_w2d为世界坐标系转换到深度摄像头的转换矩阵由标定获得。

步骤S3中，将处理后的RGB图像数据流输入目标检测网络，输出当前场景中抓取物体的位置和区域具体包括以下步骤：

S301、目标检测使用的是YOLOv4算法，采用大型公开数据集COCO数据集预训练，使用自建数据集迁移训练，自建数据集为自己拍摄和标注的数据。

S303、保存训练最佳的模型参数。

S302、将处理后的RGB图像数据流输入到训练后的YOLOv4网络，对场景实时采集。如果能够检测到目标物体则输出目标物体的所在的矩形区域。

如图2所示，在步骤S4中全卷积神经网络，采用编码器-解码器的结构，主要包括自上而下的路径作为编码器和自下而上的解码器，利用经典的全卷积神经网络思想，使用反卷积层代替全连接层，实现更高的计算效率。另一方面，池化层的下采样过程中会造成图片的分辨率降低的后果，而利用反卷积层就可以恢复到原本的分辨率。但是如果采用卷积层和反卷积层不对等的架构，虽然可以在一定程度上恢复图片的分辨率，但是却无法保证原本图片内特征的位置信息不发生改变。因此，为了保证在恢复图片分辨率的同时，还保留原本图片特征的位置信息，采用基于全卷积神经网络的对称编码-解码网络结构，卷积层数量和参数均与反卷积层的一致，最大限度的保证提取图片特征后保持特征的位置不变，完成更好的分割效果。

建立的卷积神经网络分为两个阶段，共12层。该卷积神经网络每个阶段都为一个6层网络，前三层为卷积层，构成编码器模块，后三层为反卷积层，构成解码器模块，其中算法网络参数如下表，第一阶段输出的图像以及初始输入第一阶段的图像均输入到第二阶段，即增加了一个保留原始信息的阶段，通过该阶段可以使用变换后的信息和初始信息。结合两幅图像可以获得更高的精度。

在步骤S4中，训练好的全卷积神经网络包括以下步骤：

S401、建立全卷积神经网络，模型的输入和输出是同尺寸的图像，输入为单通道，输出为3通道，分别意味着每个像素点的抓取质量，抓取角度和抓取宽度信息；

S402、使用开源Cornell数据集对建立好的网络进行训练，训练前先对数据集进行数据集增强操作，包括随机截取、随机缩放、随机翻转，将增强后的数据集为训练集和测试集；在随机翻转的操作中，翻转范围为(0，π/2)，在随机缩放的操作中，缩放范围为(0.1,10)，训练网络时采用均方误差损失函数作为训练性能的指标；

S403、对上一步训练好的模型进行测试；对于预测的抓取框是否正确采用 IOU评价指标：

其中训练是在NVIDIA服务器上进行的。服务器显卡组由4块1080ti组成，共11G显存。服务器版本是UBUNTU16.04，编程语言版本是Python3.6。由于网络结构的关系，所有输入的深度图片resize成300x300大小，最终得到的输出同样为300×300×3。一共训练了60个Epoch，其中在第32个Epoch，测试集的准确率达到0.89，经过训练，获得了一个轻量级模型，在TX2上运行时只有 0.5MB，可以达到30FPS，保证了实时性。

在步骤S5中，根据目标检测的结果和整个场景的抓取位姿生成指定目标物体的抓取位姿，包括以下步骤：

S501、根据目标检测的结果，可知如果目标物体显露出来，可以得知目标物体所在的矩形区域为(x,y,w,h)，其中(x,y)为目标物体矩形框的中心。w和h 分别为宽和长。

S502、根据检测结果可以得到矩形的四个顶点为(x-w,y-h)、 (x+w,y-h)、(x+w,y+h)、(x-w,y+h)。遍历这个矩形，结合图像对齐后的整个场景的抓取位姿找到对应的最佳抓取的像素点。

S503、找到最佳的抓取点后，可以得到指定目标物体的二维图像上的抓取位姿其中，(b_x,b_y)表示RGB图像像素坐标，/>机械手在图像上的宽度像素值。

本发明通过建立参数少的两阶段的全卷积神经网络，利用数据增强后的开源数据集Cornell数据集训练，同时利用几何关系画出最佳抓取的抓取策略，两阶段的网络解决了数据容易过拟合的问题，参数少保证了推测的快速性。

在步骤S6中，将图像上的抓取位姿结合深度信息映射到机器人操作空间 g＝((p_x,p_y,p_z),w,θ)。具体步骤如下：

S601、计算抓取点在相机坐标系中的位姿

由相机的内参数模型，将抓取点的RGB图像像素坐标(b_x,b_y)转化为相机坐标系下的坐标

x_b＝(b_x-u₀)/k_xb_z

{y_b＝(b_y-v₀)k_yb_z

z_b＝d

其中，u₀,v₀,k_x,k_y为彩色相机内参数的标定值，d为实际的深度值。

S602、计算机械臂基坐标系中的抓取点位置

抓取点在机械臂基坐标系的位置为：

其中为相机坐标系与机械臂坐标系的变换矩阵。

S603、计算机械手的真实抓取宽度

机械手在图像上的宽度像素值为将其转化为机械手真实的抓取宽度 w。图像上的宽度像素值和真实抓取的宽度是和相机离物体的距离有一定的线性关系。所以在真实的抓取宽度w为：

其中k是图像像素值与相机与物体的距离之间的一个参数，b_z为出物体的深度值。

S604、根据上述推导，计算可得到机器人操作空间中的抓取为

g＝((p_x,p_y,p_z),w,θ)

其中(p_x,p_y,p_z)表示机器人操作空间中的坐标，w表示机械手真是的抓取宽度，θ表示机械手旋转的角度。

本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于目标裁剪区域的指定物体抓取方法，其特征在于，包括以下步骤：

S1、采集实际抓取场景的RGB图像和深度图像；

S2、对采集的深度图像和RGB图像进行预处理操作；

S4、将处理后的深度图像输入训练好的全卷积神经网络中，得到整个场景的抓取位姿；

所述全卷积神经网络包括两个阶段，第一阶段和第二阶段均包括编码器模块和解码器模块，其中第一阶段和第二阶段均产生一个损失，损失定义为预测的抓取角度、抓取宽度和抓取质量和实际的真实间的均方误差；所述编码器模块包括卷积层，所述解码器模块包括反卷积层；

全卷积神经网络的训练包括以下步骤：

S401、建立全卷积神经网络，全卷积神经网络的输入和输出是同尺寸的图像，输入为单通道，输出为n通道，分别意味着每个像素点的抓取质量，抓取角度和抓取宽度信息；

S402、使用开源Cornell数据集对全卷积神经网络进行训练，训练前先对数据集进行数据集增强操作，包括随机截取、随机缩放、随机翻转，将增强后的数据集为训练集和测试集；在随机翻转的操作中，翻转范围为(0，π/2)，在随机缩放的操作中，缩放范围为(0.1,10)，训练网络时采用均方误差损失函数作为训练性能的指标；

S403、对全卷积神经网络进行测试；对于预测的抓取框是否正确采用IOU评价指标：

其中，A为预测矩形，B为真实矩形，IOU预测矩形和真实矩形之间面积的交并比为评价指标；

S5、根据目标检测的结果和整个场景的抓取位姿生成指定目标物体的抓取位姿，包括以下步骤：

S501、根据目标检测的结果，得到目标物体所在的矩形区域为(x,y,w,h)，其中(x,y)为目标物体矩形框的中心，w和h分别为宽和长；

S502、根据检测结果得到矩形的四个顶点为(x-w,y-h)、(x+w,y-h)、(x+w,y+h)、(x-w,y+h)，遍历整个矩形，结合图像对齐后的整个场景的抓取位姿找到对应抓取分数最高的像素点作为最佳的抓取点；

S503、找到最佳的抓取点后，得到指定目标物体的二维图像上的抓取位姿其中，(b_x,b_y)表示RGB图像像素坐标，/>表示图像上的最佳抓取宽度；

S6、利用机器人视觉抓取系统的标定结果，将抓取位姿映射到机器人操作空间中的三维抓取位姿，包括以下步骤：

S601、计算抓取点在相机坐标系中的位姿

x_b＝(b_x-u₀)/k_xb_z

y_b＝(b_y-v₀)k_yb_z

z_b＝d

其中，u₀、v₀、k_x、k_y为彩色相机内参数的标定值；d为实际深度值；

S602、计算机械臂基坐标系中的抓取点位置

抓取点在机械臂基坐标系的位置为：

其中为相机坐标系与机械臂坐标系的变换矩阵；

S603、计算机械手的真实抓取宽度

机械手在图像上的宽度像素值为将其转化为机械手真实的抓取宽度w，图像上的宽度像素值和真实抓取的宽度是和相机离物体的距离有线性关系，所以在真实的抓取宽度w为：

其中k是图像像素值与相机与物体的距离之间的参数，b_z为物体的深度值；

S604、根据上述推导，图像上的抓取位姿结合深度信息映射到机器人操作空间，得到机器人操作空间中的抓取为：

g＝((p_x,p_y,p_z),w,θ)

2.根据权利要求1所述的一种基于目标裁剪区域的指定物体抓取方法，其特征在于，步骤S2中深度图像和彩色图像预处理操作包括以下步骤：

S201、将深度图的像素点还原到深度坐标系下：

其中K_d为深度摄像头的内参由标定获得，表示深度图的像素点在深度坐标系下的坐标，/>为深度图上的像素点的值，Z为深度图的像素点和实际深度的变化矩阵；

S202、将深度坐标系下转换到世界坐标系下：

S203、将世界坐标系下P_w转换到彩色摄像头坐标系下：

表示彩色摄像头坐标系下的坐标，T_w2c是世界坐标系到彩色相机坐标系之间的转换矩阵；

其中K_c为深度摄像头的内参。

3.根据权利要求1所述的一种基于目标裁剪区域的指定物体抓取方法，其特征在于：目标检测网络为YOLOv4网络，采用COCO数据集预训练，再使用目标数据集迁移训练。

4.根据权利要求3所述的一种基于目标裁剪区域的指定物体抓取方法，其特征在于：在步骤S3中，将处理后的RGB图像数据流输入到训练后的YOLOv4网络，对场景实时采集，输出目标物体的所在的矩形区域。

5.根据权利要求1所述的一种基于目标裁剪区域的指定物体抓取方法，其特征在于：在步骤S4中，将深度图像数据流输入到训练好的全卷积神经网络中，输出得到三幅图，分别对应着每个像素点(u,v)的抓取质量q、夹爪旋转角度夹爪张开宽度/>整合得到的每个像素的抓取位姿/>

6.根据权利要求1所述的一种基于目标裁剪区域的指定物体抓取方法，其特征在于：步骤S1利用Relsense435i的RGB-D相机采集，深度图像的获取是双目立体视觉与结构光的融合，由两个红外传感器构成双目立体视觉。