CN115861780B

CN115861780B - 一种基于yolo-ggcnn的机械臂检测抓取方法

Info

Publication number: CN115861780B
Application number: CN202211649691.9A
Authority: CN
Inventors: 徐本连; 李震; 赵康; 鲁明丽; 从金亮; 吴迪; 周理想
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-07-21
Anticipated expiration: 2042-12-21
Also published as: CN115861780A

Abstract

本发明公开了一种基于YOLO‑GGCNN的机械臂检测抓取方法，属于智能机器人领域。所述方法利用YOLOv4深度学习网络对待抓取目标进行训练，得到训练好的模型。在机械臂抓取前，使用深度相机获取抓取平台上无抓取物体的空白深度图像。放置抓取物体后，利用训练好的YOLOv4模型从RGB图像识别出待抓取目标，将识别框作为感兴趣区域，将感兴趣区域对应像素的深度图像部分提取出来，替换掉空白图像的像素对应部分，以此获得一张排除其他干扰物体、只包含抓取目标的深度图像。将这张图像处理后输入GGCNN网络，再进行从图像坐标系到机械臂本体坐标系的转化，最终输出最优机械臂抓取方案，机械臂根据抓取方案依次抓取所要抓取的目标物体。

Description

一种基于YOLO-GGCNN的机械臂检测抓取方法

技术领域

本发明涉及一种基于YOLO-GGCNN的机械臂检测抓取方法，属于智能机器人领域。

背景技术

近年来，机器人越来越广泛的被应用于各种领域与场景，在机器人的配合下，可以解决许多人力难以完成的工作和任务，人类的工作可以更加简单高效。比如，搭载机械臂、具有抓取功能的抓取机器人可以代替人类进行工件的抓取等工作，并且机器人不知疲倦，可以举起重物，相比人手具有许多更优秀的能力。因此，研究机械臂的抓取技术具有重要的意义。

过去最传统的机械臂抓取一般使用示教器进行离线编程的方法，让机器人沿着运行过的路径，进行点到点的运动。因此复杂的运动轨迹机器人难以实现，并且机器人更无法适应柔性的工作环境，对于不同的抓取物体无法自主调整姿态。这种传统的方法对抓取物体摆放的位置也有一定的要求，机器人无法运行到没有示教的地方，能够完成的任务较为单一。并且这种方法对技术操作人员要求较高，需要了解当前机器人的编程体系。一般情况下，如果需要抓取的物品发生了变换或位姿变动，就需要重新进行编程。因此，为了提高机器臂抓取的灵活性和精准性，开始将视觉定位系统和压力反馈系统作为辅助工具，与机器人控制系统相结合，在各个场景都取得了较好的使用效果，成为了机器人行业发展的新趋势。在视觉传感器的帮助下，机器人可以对抓取物体进行定位，然后机械臂根据抓取方案到达目标物体的位置实现相应的抓取任务。

带有视觉感知的机器人抓取系统通常由抓取检测、抓取规划和控制单元组成。为了完成抓取任务，机器人需要提前检测到抓取物体。在早期抓取工作中，抓取的物体主要放在一个简单而结构化的场景中。抓取方案是根据物体的几何形状通过力学分析制定的，通常涉及到需要复杂计算的静力学和运动学约束。随着深度学习在实例分割和识别方面的成功应用和不断发展，其已被广泛应用于机器人抓取检测，一种方法是使用卷积神经网络(CNN)与摄像机相结合，识别抓取物体的结构特征并评估候选抓取姿势。这种方法一般会提供了一个系统，该系统允许机器人抓取各种形状，其中CNN用于训练形状检测模型。这种方法通过感知被抓取物体的形状来生成抓取点，但对于抓取不规则形状的物体而言，这些方法并不有效。

另一种方法是直接生成抓取方案，使用学习方法来评分抓取质量。通常生成抓取方案需首先检测和识别物体的位置，然后采用传统的几何分析方法，最终制定抓取计划。在几何结构分析过程中，通常涉及到大量计算。因此，可以使用深度学习网络来直接训练抓取检测，其中抓取方案是从图像中获得的，以实现端到端抓取。这种方法会提出了一个模型，通过输入图像，可以输出机器人的最佳抓取姿势。该模型使用卷积神经网络从场景中提取特征，再使用卷积神经网预测感兴趣对象的抓取配置。例如一种用于闭环抓取的实时抓取合成方法——生成性抓取卷积神经网络(GGCNN)。该系统预测了每个像素处抓握的质量和姿势。然而，这些方法不能识别被抓取的物体，抓取场景中其他非抓取物体对抓取检测的影响无法避免。

发明内容

为了避免抓取场景中其他非抓取物体对抓取检测的影响，本发明提供了一种基于YOLO-GGCNN深度学习网络的机械臂检测抓取技术。首先使用YOLOv4深度学习网络对需要抓取的目标物体进行训练，得到模型。在机械臂抓取前，使用机械爪上的深度相机获取一张抓取平台上无抓取物体的空白深度图像。放置抓取物体后，开始抓取时YOLOv4深度学习网络通过深度相机拍摄的RGB图像识别出待抓取目标物体，将识别框作为感兴趣区域(ROI候选框)，将ROI候选框对应像素的深度图像部分提取出来，替换掉一开始获取的空白图像的像素对应部分，可以获得一张排除其他干扰物体、只包含抓取目标的深度图像。将这张图像进行裁剪处理后满足GGCNN的图片大小要求，将其输入GGCNN网络，再进行从图像坐标系到机械臂本体坐标系的转化，最终输出最优的机械臂抓取方案，机械臂根据抓取方案依次抓取所要抓取的目标物体。一种基于YOLO-GGCNN的机械臂检测抓取方法，所述方法应用于机械爪上方搭载有深度相机的机械臂，所述方法包括：

步骤1，在机械臂开始抓取前，利用所述深度相机获取未放置待抓取目标时抓取平台正对机械臂方向上的图像信息，包括RGB彩色图像和深度图像，其中所述深度图像记为空白深度图像；

步骤2，在所述抓取平台放置待抓取目标后，利用所述深度相机获取放置待抓取目标后抓取平台正对机械臂方向上的图像信息，并利用训练好的YOLOv4检测模型提取图像中的感兴趣区域，并将每个感兴趣区域的边界框作为ROI候选框并进行标注索引；所述训练好的YOLOv4检测模型为提前利用所有待抓取目标的样本图像进行训练后模型；

步骤3，获得每个ROI候选框的索引，将所有ROI候选框位置对应到步骤1获得的空白深度图像中的位置，用框选出来的ROI候选框内区域替换所述空白深度图像的对应区域，得到只含有待抓取目标的深度图像；

步骤4，将步骤3得到的只含有待抓取目标的深度图像进行裁剪处理，输入至GGCNN深度学习网络中，获得对应的抓取方案，并进行机械手到机械臂的坐标转换，按照转换后的坐标完成抓取任务。

可选的，所述步骤4中将只含有待抓取目标的深度图像进行裁剪处理，输入至GGCNN深度学习网络中，获得对应的抓取方案，包括：

将仅包含目标物体的深度图像剪切成预定大小，使得其满足GGCNN深度学习网络的图像输入大小要求，同时，修复其中出现的无效值；所述无效值指由于深度相机没有测量出该像素深度而产生的空值；

将剪切修复后的深度图像输入至GGCNN深度学习网络后，GGCNN网络为其中的每个的像素位置生成一个抓取方案和对应的置信度评估值，选取置信度评估值最高的抓取方案作为最终抓取方案。

可选的，所述GGCNN网络为其中的每个的像素位置生成一个抓取方案和对应的置信度评估值，选取置信度评估值最高的抓取方案作为最终抓取方案，包括：

假设使用抓取框g＝(p,φ,w,q)定义抓取参数，其中，p＝(x,y,z)是机械爪的中心位置，φ表示旋转的抓取角度，w是机械爪张开的宽度，q表示抓取框的置信度；

在高为H宽为W的2.5D深度图像中，抓取参数使用/>来描述，其中，s＝(u,v)是抓取中心在深度图像中的像素坐标，/>是在深度相机参考系中的旋转角度，是图像坐标系中机械爪张开的宽度；通过下式将图像坐标系中的抓取转换到世界坐标系中抓取参数g：

式中

——深度图像坐标系I到相机坐标系C的转换矩阵；

——相机坐标系C到机器人坐标系R的转换矩阵；

将图像空间中产生的一系列图称为抓取图G：

G＝(Φ,W,Q) (2)

式中Φ、W和Q分别表示生成的抓取角度图、抓取宽度图和抓取质量图，三个图的像素大小与深度图像相同，并且分别在每个像素s中都有各自对应的和q值；

定义一个函数M实现从深度图像I到抓取图G的映射：

M(I)＝G (3)

在抓取图G中获取最大置信度q值的抓取并将其转换到机器人坐标系中，从而获取一个最佳的抓取方案g^*。

可选的，所述方法中，函数M通过搭建卷积神经网络来近似，M_θ表示着权重为θ的神经网络；通过一系列的输入为I_T深度图像集和对应的G_T抓取图集，定义最小化平方差的损失函数来训练模型：

抓取图G通过三组图Φ、W和Q来估计空间点p的抓取方案，所述空间点p对应像素点s；

抓取角度图Φ中的值是每个对应像素点(u,v)的抓取置信度，用于描述每个像素点抓取的质量；Φ图中值的范围在0到1之间，越靠近1表示该像素点的抓取质量越好，抓取成功率也越高；抓取角度图Φ中的值是每个对应像素点(u,v)的抓取角度，抓取角度的值范围在[-π/2,π/2]之间；抓取宽度图W的值是每个对应像素点(u,v)的机械爪的抓取宽度。

可选的，所述GGCNN深度学习网络结构为：使用深度图像I作为输入，中间使用的Conv2d和ConvTranspose2d分别表示深度学习中的卷积和反卷积操作，卷积作为特征提取的操作，通过压缩图片的特征使低维的大尺寸图片变为高维的小尺寸图片；反卷积则是将特征的维度压缩，尺寸放大；最后输出三张图Φ、W和Q作为抓取图G；GGCNN网络完成了函数M_θ(I)＝(Q_θ,Φ_θ,W_θ)的计算，其中图像I、Φ、W和Q的像素大小都为300×300。

本申请还提供一种用于完成抓取任务的机械臂，所述机械臂的机械爪上方搭载有深度相机，所述机械臂利用上述方法完成抓取任务。

本申请还提供一种智能机器人，所述智能机器人具备上述机械臂。

本发明有益效果是：

通过YOLOv4训练抓取目标模型，识别检测框作为感兴趣区域，排除了非抓取目标对GGCNN网络的抓取点生成干扰，解决了GGCNN对抓取目标的识别问题。进一步的，本申请利用在RGB彩色图像中得到的物体信息，采用对应图像替换的方法，解决了在深度图像中并不能分辨出抓取的目标和干扰物的问题；本申请方法利用GGCNN算法对抓取目标区域进行训练，得到图像的抓取点信息，再坐标转换为机械臂坐标下，自动快速的生成抓取方案，对比传统方法更快速灵活，提高了机械臂抓取的智能性和灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于YOLO-GGCNN的机械臂检测抓取方法的总流程图。

图2为本申请方法所采用的GGCNN检测抓取网络的结构示意图。

图3A为YOLOv4模型训练后识别抓取样本输出检测框的示意图；

图3B为替换ROI候选框后的深度图像；

图3C为GGCNN网络输出的抓取目标置信度示意图；

图3D为GGCNN网络生成的深度图像下的抓取框可视图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

基础理论介绍：

YOLO：YOLO(You Only Look Once,你只需要看一次)是一种基于深度学习网络的对象识别和定位算法，是基于单阶段模型的目标检测算法。在输入一张图片后，使用YOLO可以输出其中所包含的训练过的对像，以及每个对象的位置(包含该对象的矩形框)。可以使用传统的GPU(Graphics Processing Unit,图像处理单元)对目标物体进行训练和测试，在检测时能够实时并准确的获得检测结果。YOLOV4是基于原有YOLO目标检测架构，采用了近年来CNN领域最优秀的优化策略，从数据处理，主干网络，模型训练，激活函数，损失函数等各个方面都有着不同程度的优化。

GGCNN：GGCNN是一种实时、不依赖对象的抓取综合方法，可用于闭环抓取。GGCNN直接对输入深度图像中的每一个像素生成一个抓取姿态和置信度度量，其不依赖于抓取候选对象的采样，而是直接在像素基础上生成抓取姿态，类似于在目标检测方面的进展，其中全卷积网络通常用于执行像素语义分割，而不是依赖滑动窗口或边界盒。其次GGCNN比其他用于抓取合成的CNN拥有更少数量级的参数，这使得其在配备GPU的台式计算机上能够即时执行，这对于闭环抓取来说足够快。

实施例一：

本实施例提供一种基于YOLO-GGCNN的机械臂检测抓取方法，所述方法应用于机械爪上方搭载有深度相机的机械臂，所述方法包括：

步骤2，在所述抓取平台放置待抓取目标后，利用所述深度相机获取放置待抓取目标后抓取平台正对机械臂方向上的图像信息，并利用训练好的YOLOv4检测模型提取图像中的感兴趣区域，并将每个感兴趣区域的边界框作为ROI候选框并进行标注索引；所述训练好的YOLOv4检测模型为提前利用所有待抓取目标的样本图像进行训练后的模型；

实施例二：

本实施例提供一种基于YOLO-GGCNN的机械臂检测抓取方法，参见图1，所述方法包括：

S1、对抓取样本进行YOLOv4模型训练，获取感兴趣区域候选框，具体步骤为：

S11、标注抓取样本种类，使用YOLOv4对抓取样本的图片进行训练，得到不同抓取目标样本的YOLOv4训练模型；

所述YOLOv4的网络结构可以分为Input(输入)、BackBone(主干)、Neck(颈部)、Head(头部)四个部分。其中，在Input输入端YOLOv4有马赛克数据增强、SAT(Self-adversarial-training,自对抗训练)等策略，丰富了检测数据集。BackBone主干部分以CSPDarknet53网络框架作为网络提取骨干用于特征提取。Neck部分主要采用了SPP(Spatial Pyramid Pooling,空间金字塔池化)模块、FPN(Feature Pyramid Networks,特征图金字塔网络)和PAN(Path Aggregation Network,路径聚合网络)的方式，用SPP模块来融合不同尺度大小的特征图能有效的增加主干特征的接收范围，利用自顶向下的FPN特征金字塔和自底向上的PAN特征金字塔来提升网络的特征提取能力。

本实施例在对YOLOv4模型进行训练时采用的抓取样本为杯子、可乐、牛奶盒等。

S12、机械臂在开始抓取前，首先在机械臂抓取平台不放置抓取目标物体，通过机械爪上方搭载的深度相机获取机械臂正对方向抓取平台的图像信息，包括RGB彩色图像和深度图像。现在储存了一张没有任何物体的空白地面的深度图像。

深度图像(depth image)也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图像中，每一个像素点代表的是在深度感应器的视野中，该特定的(x,y)坐标处物体到离摄像头平面最近的物体到该平面的距离(以毫米为单位)。S13、机械臂开始抓取，可以在机械臂抓取平台上放置需要抓取的目标物体，也即待抓取目标，机器人利用相机获取到的RGB图像，YOLOv4会框选出训练过的对象，提取图像中的感兴趣区域(ROI)，这些边界框就是ROI候选框。对于没有训练过的目标，YOLOv4是不会识别框选出的，所以在ROI候选框中的都是需要执行抓取操作的目标物体。

如图3A所示，为YOLOv4模型训练后识别抓取样本输出检测框的示意图。

S14、获得每个候选框的索引，将步骤S13中生成的ROI候选框位置对应到S12中深度图像中的位置。其中，相机中RGB图像每个对应区域的像素坐标需要和深度图像像素坐标是一致的，即RGB图像和深度图像是对齐的。

S15、将框选出来的ROI候选框替换到S12中储存的空白深度图像对应区域，最后替换出来的深度图像中只含有需要进行抓取的目标物体。

如图3B所示，为替换ROI候选框后只含有需要进行抓取的目标物体的深度图像。

S2、将替换处理后的深度图形进行裁剪处理，输入至GGCNN深度学习网络中，得出合适的抓取方案，并进行机械手到机械臂的坐标转换，具体步骤如下：

S21、将仅包含目标物体的深度图像剪切成300×300的大小，以满足GGCNN深度学习网络的图像输入大小要求。同时，修复深度图像中出现的无效值，即由于相机没有测量出该像素深度而产生的空值。

所述GGCNN深度学习网络的结构如图2所示，网络中使用深度图像I作为输入，中间使用的Conv2d和ConvTranspose2d分别表示深度学习中的卷积和反卷积操作，卷积作为特征提取的操作，通过压缩图片的特征使低维的大尺寸图片变为高维的小尺寸图片；反卷积则是将特征的维度压缩，尺寸放大后输出三张图Φ、W和Q作为抓取图G。GGCNN网络完成了函数M_θ(I)＝(Q_θ,Φ_θ,W_θ)的计算，其中图像I、Φ、W和Q的像素大小都为300×300。使用的Conv2d和ConvTranspose2d分别表示深度学习中的卷积和反卷积操作，卷积作为特征提取的操作，可以通过压缩图片的特征使低维的大尺寸图片变为高维的小尺寸图片。反卷积是卷积的逆操作，将特征的维度压缩，尺寸放大。

S22、将处理后的深度图输入GGCNN网络中，以求对各个抓取目标输出得分最高的机械手抓取方案。

S23、GGCNN网络可以直接在输入网络的深度图像中每个的像素位置生成一个抓取方案和置信度评估。

假设使用抓取框g＝(p,φ,w,q)来定义抓取参数，其中，p＝(x,y,z)是机械爪的中心位置，φ表示旋转的抓取角度，w是夹持器张开的宽度，q表示该抓取框的置信度。

在高为H宽为W的2.5D深度图像中，抓取参数可以使用/>来描述，其中，s＝(u,v)是抓取中心在图像中的像素坐标，/>是在相机参考系中的旋转角度，/>是图像坐标系中机械爪张开的宽度。

通过下式将图像坐标系中的抓取转换到世界坐标系中抓取g：

式中

——深度图像平面坐标系I到相机坐标系C的转换矩阵；

——相机坐标系C到机器人坐标系R的转换矩阵。

将图像空间中产生的一系列图称为抓取图G：

G＝(Φ,W,Q) (2)

式中Φ、W和Q分别表示生成的抓取角度图、抓取宽度图和抓取质量图，三个图的像素大小与深度图像相同，并且分别在每个像素s中都有各自对应的和q值。为了可以直接从深度图像的每个像素中计算一个抓取/>通过定义一个函数M实现从深度图像I到抓取图G的映射：

M(I)＝G (3)

为了获得深度图像I到抓取图G复杂的映射关系M，通过搭建卷积神经网络来近似，M_θ表示着权重为θ的神经网络。通过一系列的输入为I_T深度图像集和对应的G_T抓取图集，定义最小化平方差的损失函数来训练模型：

抓取图G通过三组图Φ、W和Q来估计空间点p(对应像素点s)的抓取方案。Φ图中的值是每个对应像素点(u,v)的抓取置信度，主要用于描述该像素点抓取的质量。Φ图中值的范围在0到1之间，越靠近1表示该像素点的抓取质量越好，抓取成功率也越高。Φ图中的值是每个对应像素点(u,v)的抓取角度，抓取角度的值范围在[-π/2,π/2]之间。W图的值是每个对应像素点(u,v)的末端执行器的抓取宽度。

S24、经过S23中GGCNN网络处理，并将图像坐标系中的抓取坐标转换到世界坐标系中的抓取坐标，可以得到机器人的抓取坐标点、抓取角度和机械爪张开宽度，机械臂根据这些输入参数进行抓取任务，依次抓取各个目标物体。

如图3D所示，为GGCNN网络生成的深度图像下的抓取框可视图。

从图3A-图3D可以看出，采用本申请方法将YOLOv4检测模型提取出的感兴趣区域替换空白深度图像的对应区域，得到只含有待抓取目标的深度图像后，随后再输入GGCNN网络，即排除了非抓取目标对GGCNN网络的抓取点生成干扰，解决了GGCNN对抓取目标的识别问题，而且利用在RGB彩色图像中得到的物体信息，进行对应图像替换，解决了在深度图像中并不能分辨出抓取的目标和干扰物的问题。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于YOLO-GGCNN的机械臂检测抓取方法，所述方法应用于机械爪上方搭载有深度相机的机械臂，其特征在于，所述方法包括：

步骤4，将步骤3得到的只含有待抓取目标的深度图像进行裁剪处理，输入至GGCNN深度学习网络中，获得对应的抓取方案，并进行机械手到机械臂的坐标转换，按照转换后的坐标完成抓取任务；

所述步骤4中将只含有待抓取目标的深度图像进行裁剪处理，输入至GGCNN深度学习网络中，获得对应的抓取方案，包括：

将仅包含目标物体的深度图像剪切成预定大小，使得其满足GGCNN深度学习网络的图像输入大小要求，同时，修复其中出现的无效值；所述无效值指由于深度相机没有测量出像素深度而产生的空值；

将剪切修复后的深度图像输入至GGCNN深度学习网络后，GGCNN网络为其中的每个的像素位置生成一个抓取方案和对应的置信度评估值，选取置信度评估值最高的抓取方案作为最终抓取方案；

所述GGCNN网络为其中的每个的像素位置生成一个抓取方案和对应的置信度评估值，选取置信度评估值最高的抓取方案作为最终抓取方案，包括：

在高为H宽为W的2.5D深度图像中，抓取参数使用/>来描述，其中，s＝(u,v)是抓取中心在深度图像中的像素坐标，/>是在深度相机参考系中的旋转角度，/>是图像坐标系中机械爪张开的宽度；通过下式将图像坐标系中的抓取转换到世界坐标系中抓取参数g：

式中

——深度图像坐标系I到相机坐标系C的转换矩阵；

——相机坐标系C到机器人坐标系R的转换矩阵；

将图像空间中产生的一系列图称为抓取图G：

G＝(Φ,W,Q) (2)

定义一个函数M实现从深度图像I到抓取图G的映射：

M(I)＝G (3)

2.根据权利要求1所述的方法，其特征在于，所述方法中，函数M通过搭建卷积神经网络来近似，M_θ表示着权重为θ的神经网络；通过一系列的输入为I_T深度图像集和对应的G_T抓取图集，定义最小化平方差的损失函数来训练模型：

3.根据权利要求2所述的方法，其特征在于，所述GGCNN深度学习网络包括：使用深度图像I作为输入，中间使用的Conv2d和ConvTranspose2d分别表示深度学习中的卷积和反卷积操作，卷积作为特征提取的操作，通过压缩图片的特征使低维的大尺寸图片变为高维的小尺寸图片；反卷积则将特征的维度压缩，尺寸放大，最后输出三张图Φ、W和Q作为抓取图G。

4.一种用于完成抓取任务的机械臂，其特征在于，所述机械臂的机械爪上方搭载有深度相机，所述机械臂利用权利要求1-3任一所述的方法完成抓取任务。

5.一种智能机器人，其特征在于，所述智能机器人具备权利要求4所述的机械臂。