CN114193446B

CN114193446B - 一种基于形态学图像处理的闭环抓取检测方法

Info

Publication number: CN114193446B
Application number: CN202111383213.3A
Authority: CN
Inventors: 王俊杰; 王成光; 杨根科; 褚健; 王宏武
Original assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Current assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-04-25
Anticipated expiration: 2041-11-22
Also published as: CN114193446A

Abstract

本发明公开了一种基于形态学图像处理的闭环抓取检测方法，涉及图像处理、深度学习以及机器人抓取控制领域，包括以下步骤：步骤1、对公开抓取检测数据集Cornell中的深度图像进行预处理；步骤2、利用形态学知识对深度图像进行分割，对深度图像中的目标物体进行凸包运算，分割出凸包中独立于目标物体的不连续区域；步骤3、搭建抓取检测网络，抓取检测网络包括卷积神经网络和闭环反馈网络；步骤4、将公开抓取检测数据集Cornell的数据分为训练集和测试集；步骤5、将公开抓取检测数据集Cornell的数据输入抓取检测网络进行训练和测试，将抓取检测网络进行改进；步骤6、将经过改进的抓取检测网络用于实际机械臂上，测试抓取效果并对抓取检测网络进行改进。

Description

一种基于形态学图像处理的闭环抓取检测方法

技术领域

本发明涉及图像处理、深度学习以及机器人抓取控制领域，尤其涉及一种基于形态学图像处理的闭环抓取检测方法。

背景技术

作为人类的仿生产品，机器人的一项必不可少的功能就是用机械臂模仿人手来抓取物体。机械臂的整个抓取过程分为两个部分：抓取检测和路径规划。其中，抓取检测是指通过使用外部传感器，如相机、激光、雷达等来获得场景信息，以便生成需要抓取物体的机械臂末端对应姿态；路径规划是指针对抓取检测生成的姿态进行机械臂的运动规划，使其与场景不发生碰撞并满足机械臂的动力学约束。

近年来的研究方向大多是利用视觉信息进行抓取检测，识别物体的种类及姿态从而规划出最佳抓取路径。目前应用场景最为广泛的一类平面抓取方法是通过相机传感器获取物体的RGB图像及深度图像信息，输入设计好的神经网络中，对图像进行特征提取，然后对提取的特征进行回归或分类得到抓取的五维姿态信息。

张龙至等人在中国发明专利申请“一种基于YOLO v2网络的实时抓取检测方法”(申请号为CN202110656602.2)中，基于现有的目标检测框架YOLO v2进行改进，用全连接层与卷积层相连，直接对全连接层提取的特征向量进行分类，避免信息的丢失和重复计算，减小计算量，达到抓取检测的实时性，但是该专利对输入图像进行全局回归预测，会浪费一定的计算空间，并且对抓取物体的背景质量要求高，杂乱的背景会对抓取精度和效果产生不利影响，应用存在一定的局限性。

于秀丽等人在中国发明专利申请“一种基于多类别目标分割的机器人抓取检测方法”(申请号为CN202110102963.2)中，同样基于现有的Fast-RCNN的目标检测框架进行构建，利用图像分割的原理将场景中的目标物体与背景进行分割，分割后删除背景区域的像素信息，只保留目标区域的像素信息进行抓取检测，减小背景信息对抓取检测的干扰，降低抓取检测的范围，但是该专利使用的Fast-RCNN框架是基于Resnet50网络，网络参数多，使得检测过程较为缓慢，不能达到抓取检测实时性和鲁棒性的要求，难以在动态场景中进行应用。

因此，本领域的技术人员致力于开发一种基于形态学图像处理的闭环抓取检测方法,解决现有技术对全局图像的特征提取过程中存在的浪费计算空间和时间以及仅能应用于静态目标的缺陷。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何减少在全局图像的特征提取上浪费的过多的计算时间与空间，并提高对于动态目标抓取的可能性和精确性。

为实现上述目的，本发明提供了一种基于形态学图像处理的闭环抓取检测方法，即基于形态学知识进行图像处理并辅助闭环网络进行抓取检测的方法,所述方法包括以下步骤：

步骤1、对公开抓取检测数据集Cornell中的深度图像进行预处理；

步骤2、利用形态学知识对所述深度图像进行分割，对所述深度图像中的目标物体进行凸包运算，分割出凸包中独立于所述目标物体的不连续区域；

步骤3、搭建抓取检测网络，所述抓取检测网络包括卷积神经网络和闭环反馈网络；

步骤4、将所述公开抓取检测数据集Cornell的数据分为训练集和测试集；

步骤5、将所述公开抓取检测数据集Cornell的数据输入所述抓取检测网络进行训练和测试，将所述抓取检测网络进行改进；

步骤6、将经过改进的所述抓取检测网络用于实际机械臂上，测试抓取效果并对所述抓取检测网络进行改进。

进一步地，所述步骤1包括以下步骤：

步骤1.1、将所述深度图像剪裁为尺寸大小是300×300的图像；

步骤1.2、利用OpenCV处理所述深度图像中的无效深度值；

步骤1.3、对所述深度图像进行数据增强操作，包括旋转、调整亮度、去除干扰噪声。

进一步地，所述步骤2包括以下步骤：

步骤2.1、对所述公开抓取检测数据集Cornell中已有的背景图像进行缓存，使用包含目标物体的所述深度图像减去所述背景图像，根据相减的阈值得到所述目标物体的二值化掩码图像；

步骤2.2、利用形态学知识对所述二值化掩码图像进行分割，并使用OpenCV中的Convex Hull得到所述目标物体的所述凸包，根据形态学知识进行像素不连续性判断，分割出所述凸包中独立于所述目标物体的所述不连续区域。

进一步地，在所述步骤3中，所述卷积神经网络是基于已有的GG-CNN网络进行改进，为全卷积沙漏型拓扑结构，具有连续性的编码层和解码层。

进一步地，在所述步骤3中，所述卷积神经网络包含三个卷积层和三个解卷积层。

进一步地，在所述步骤3中，所述闭环反馈网络根据所述目标物体的特征信息，再根据相机与机器人的标定关系，估计出所述目标物体对于所述机器人的末端位姿，然后利用所述末端位姿与期望位姿的偏差进行反馈控制；

所述机器人抓取所述目标物体是使用eye-in-hand的形式，以设定的速率生成所述深度图像并实时生成抓取姿态；通过从所述深度图像的前一帧中选择最接近被跟踪抓取点的抓点来跟踪连续帧之间的所述抓取点的位置来实现实时性，所述机器人的终端执行器的速度控制如下：

其中，抓取姿势

和夹爪姿势T_f由6D姿态笛卡尔位置、滚转、俯仰和偏航欧拉角(x，y，z，α，β，γ)表示，λ是速度的6D参数，使所述终端执行器的夹爪的姿势收敛到所述目标物体的姿势；如果所述夹爪抓取到达指定位置或者检测到碰撞，则抓取停止；如果所述夹爪关闭并抬起所述目标物体，则记为一次成功抓取。

进一步地，在所述步骤4中，将所述公开抓取检测数据集Cornell按照基于图像分为所述训练集和所述测试集；所述基于图像是指将所有图像按照7∶3的比例直接分为所述训练集和所述测试集。

进一步地，在所述步骤4中，将所述公开抓取检测数据集Cornell按照基于物体分为所述训练集和所述测试集；所述基于物体是指所述训练集和所述测试集中所包含的物体不能重复。

进一步地，在所述步骤4中，将所述公开抓取检测数据集Comell中的抓取位置标签转化为五维抓取表示形式(u，v，w，θ，q)，其中，u，v，w表示坐标，θ表示宽度，q表示角度。

进一步地，在所述步骤4中，将所述公开抓取检测数据集Comell中的数值进行归一化处理，所述坐标通过除以所述深度图像的长宽得到0-1之间的数值，所述宽度通过除以所述夹爪的最宽的宽度进行归一化，所述角度利用正弦值和余弦值表示。

本发明提供的一种基于形态学图像处理的闭环抓取检测方法至少具有以下技术效果：

1、现有基于视觉的抓取检测方法，大多是利用物体的图像，输入设计好的深度网络中，对图像进行特征提取，然后对提取的特征进行回归和分类得到抓取的姿态信息。虽然所用的开环网络具有实时性，但只能实现静态物体的抓取，而且现在大多数研究停留在仿真层面，没有实际实验加以实时性佐证，并且对整张图像进行全局特征提取，浪费了大量的时间和计算空间，检测效率低，杂乱的背景还会对抓取精度产生不利影响。因此，本发明利用形态学知识对输入图像进行预处理，将待抓物体与背景分隔开，并利用凸包运算得到不连续的区域，提取局部信息的计算量小、计算时间少，节省成本、提高抓取检测精度；

2、本发明所提供的技术方案在抓取检测开环网络的基础上增加闭环结构，实时获取抓取姿态信息，反馈到控制器中，从而完成对动态目标的抓取，提高抓取检测的实时性和鲁棒性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的机械臂抓取场景示意图；

图2是图1所示实施例的抓取检测闭环网络模型整体结构示意图；

图3是图1所示实施例的抓取检测流程示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在本发明实施例中，为克服现有技术中对全局图像的特征提取从而浪费计算空间和时间以及仅应用于静态目标等缺陷，提出一种基于形态学图像处理的抓取检测方法解决在全局图像的特征提取上浪费过多的计算时间与空间的问题，并加入闭环网络结构提高对于动态目标抓取的可能性和精确性。

在本发明实施例中，对于输入图像利用形态学知识进行图像处理，将包含目标物体的深度图像减去背景深度图，并利用形态学中的凸包分割出目标物体和区分物体周围的不连续区域，提取待抓取目标的特征，减少背景信息及目标形状对于抓取检测的干扰，对待抓取目标进行准确、面向对象的抓取检测，降低计算量和执行时间，提高抓取效率和精度。在现有开环网络的基础上增加反馈通道形成闭环网络，采用现有的基于位置的视觉伺服控制器(Position-based visual serving,PBVS)操作机械臂末端执行器跟踪目标物体的运动，提高检测过程的实时性和鲁棒性。

本发明实施例中所提供的技术方案是一种基于形态学知识进行图像处理辅助闭环网络进行抓取检测的方法，该方法包括以下几个部分：

1、形态学图像处理

形态学通常是指生物学的某个分支，常用来处理动物和植物的形状和结构；形态学图像处理是指使用数学形态学的基本运算，由计算机对图像进行分析，以达到所需结果的一种方法。利用形态学知识对输入图像进行处理，首先对放置待抓物体之前的背景进行缓存，接着使用包含目标物体的深度图像减去缓存的背景图像，根据实际情况对相减的阈值进行调整，得到目标物体的二值化掩码图像，其中不能改变图像的尺寸。之后，使用OpenCV的函数Convex Hull来得到目标物体的凸包；凸包(Convex Hull)是计算几何中的概念，它的严格的数学定义为：在一个向量空间V中，对于给定集合X，所有包含X的凸集的交集S被称为X的凸包。根据目标物体的凸包，利用形态学知识进行像素不连续性判断，从而分割出凸包中独立于目标物体的不连续区域，并将这些区域区别开来。

2、抓取检测网络结构

抓取检测网络包括两个部分，处理图像的卷积神经网络和实时检测动态抓取的闭环反馈网络。卷积神经网络是一类包含卷积计算且有深度结构的前馈神经网络，具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。全卷积沙漏型拓扑网络结构的优势在于包含的卷积层和解卷积层具有空间连续性，解码和编码操作具有更强的表示能力，更好地混合全局和局部信息。此网络中包含连续的三个编码器和三个解码器，其中编码器进行下采样操作，可以增大感受野，提高模型对输入图像扰动的鲁棒性，降低计算量和过拟合风险，然后利用解码器进行上采样操作，利用转置卷积进行上采样，恢复图像的原始大小。对于动态物体的抓取，加入闭环反馈网络，对抓取检测结果进行实时反馈，得到实时性和鲁棒性的抓取。通过从处理后的图像信息中得到的目标物体的特征信息，根据相机与机器人的标定关系，估计出目标物体对于机器人末端的位姿，然后利用与期望位姿的偏差进行反馈控制。如图1所示，机器人抓取物体使用eye-in-hand的形式，即相机放置在机械臂抓夹处，与机械手位置相对静止，深度图像以一定的速率生成，并通过抓取检测结构实时生成抓取姿态。通过从前一帧中选择最接近被跟踪抓取点的抓点来跟踪连续帧之间的抓取点位置来实现实时性，其中终端执行器的速度控制如下：

抓取姿势

和夹爪姿势T_f由6D姿态笛卡尔位置、滚转、俯仰和偏航欧拉角(x，y，z，α，β，γ)表示，λ是速度的6D参数，使夹爪姿势收敛到物体姿势。同时，通过速度控制来控制夹爪到计算的宽度值，如果抓取到达指定位置或者检测到碰撞，则抓取停止；如果夹爪关闭并抬起物体，则记为一次成功抓取。

3、视觉伺服控制器(如图2所示)

视觉伺服控制，是指使用闭环控制环节中的计算机视觉数据来控制机器人的运动，主要分为两大类，分别是基于位置的视觉伺服控制和基于图像的视觉伺服控制。基于位置的视觉伺服控制是利用相机的参数建立图像信号与机器人的位置或姿态之间的映射关系，在伺服过程中，借助图像信号提取机器人的位置或姿态信息，并与目标位置或姿态进行比较，形成闭环反馈控制；基于图像的视觉伺服控制是将实时测量到的图像信号与目标位置或姿态的图像信号直接进行比较，利用所获得的图像误差进行闭环反馈控制。基于位置的视觉伺服控制，首先从图像中提取特征，然后基于这些特征估计目标相对于相机的位姿给出机器人的直角坐标空间的运动指令，并传给机器人关节控制器，控制机器人运动；同时实时获取机器人的位姿信息，将该位姿与预期的目标位姿进行对比，当误差为0或小于设定的阈值时，则认为控制任务完成。

本发明实施例所采用的技术方案具体如下：

首先，对公开抓取检测数据集Cornell进行预处理，包括剪裁尺寸大小为300×300，对图像中无效深度值进行处理并进行数据增强，利用形态学知识对图像中的目标物体进行凸包运算，从而得到分割的凸包中独立于目标物体的不连续区域。接着，搭建抓取检测网络，使用全卷积沙漏型拓扑结构，根据已有的GG-CNN网络进行改进，通过对处理好的数据进行训练和测试来改变网络结构的参数。最后，在实际机械臂上进行实验验证实时性，将相机绑在机械手上与之保持相对静止，缓慢地移动待抓取物体，观察夹爪的移动轨迹和抓取结果，对结果进行统计判断成功率以便改进闭环网络结构。

如图3所示，具体包括以下步骤：

步骤2、利用形态学知识对深度图像进行分割，对深度图像中的目标物体进行凸包运算，分割出凸包中独立于目标物体的不连续区域；

步骤3、搭建抓取检测网络，抓取检测网络包括卷积神经网络和闭环反馈网络；

步骤4、将公开抓取检测数据集Cornell的数据分为训练集和测试集；

步骤5、将公开抓取检测数据集Cornell的数据输入抓取检测网络进行训练和测试，将抓取检测网络进行改进；

步骤6、将经过改进的抓取检测网络用于实际机械臂上，测试抓取效果并对抓取检测网络进行改进。

其中，步骤1包括以下步骤：

步骤1.1、将深度图像剪裁为尺寸大小是300×300的图像,使其满足网络的输入；

步骤1.2、利用OpenCV处理深度图像中的无效深度值,按照实际情况和无效深度值周围的深度值进行处理；

步骤1.3、对深度图像进行数据增强操作，包括旋转、调整亮度、去除干扰噪声。

对于深度相机所得到的深度图像需要进一步的预处理才能输入网络进行检测。深度图像(Depth Images)也被称为距离影像，是指将图像采集器采集到的场景中各点的距离值作为像素值的图像，它直接反映了场景中可见物体表面的几何形状。

其中，步骤2包括以下步骤：

步骤2.1、对公开抓取检测数据集Cornell中已有的背景图像进行缓存，使用包含目标物体的深度图像减去背景图像，根据相减的阈值得到目标物体的二值化掩码图像；根据实际情况可以对相减的阈值进行调整；

步骤2.2、利用形态学知识对二值化掩码图像进行分割，并使用OpenCV中的ConvexHull得到目标物体的凸包，根据形态学知识进行像素不连续性判断，分割出凸包中独立于目标物体的不连续区域，并将这些不连续的区域分隔开。

其中，在步骤3中，卷积神经网络是基于已有的GG-CNN网络进行改进，为全卷积沙漏型拓扑结构，具有连续性的编码层和解码层，可以将全局信息和局部信息更好地混合起来。

卷积神经网络包含三个卷积层和三个解卷积层，可以有效地增大感受野，提高模型对输入图像扰动的鲁棒性，降低计算量和过拟合风险。

闭环反馈网络根据目标物体的特征信息，再根据相机与机器人的标定关系，估计出目标物体对于机器人的末端位姿，然后利用末端位姿与期望位姿的偏差进行反馈控制。

其中，在步骤4中，将公开抓取检测数据集Cornell按照基于图像分为训练集和测试集；基于图像是指将所有图像按照7∶3的比例直接分为训练集和测试集。

或者，将公开抓取检测数据集Cornell按照基于物体分为训练集和测试集；基于物体是指训练集和测试集中所包含的物体不能重复，可以有效检测网络对于新物体的泛化能力。

训练集用来训练初始的网络，根据训练结果对网络的参数进行校正后，利用测试集进行测试，以达到最佳结果。

其中，由于网络模型输出结果采用五维抓取表示(u，v，w，θ，q)，因此，将公开抓取检测数据集Cornell中的抓取位置标签转化为五维抓取表示形式(u，v，w，θ，q)，其中，u，v，w表示坐标，θ表示宽度，q表示角度。

为了方便计算，将公开抓取检测数据集Comell中的数值进行归一化处理，坐标通过除以深度图像的长宽得到0-1之间的数值，宽度通过除以夹爪的最宽的宽度进行归一化，角度利用正弦值和余弦值表示。

其中，在步骤5中，将预处理后的Cornell数据集输入抓取检测网络进行训练和测试，根据训练结果对网络参数进行改进，实现最佳抓取效果；

在步骤6中，测试闭环抓取结构的效果。将改进的网络模型用于实际机械臂上，其中相机放置在机械臂抓夹处，与机械手位置相对静止，深度图像以一定的速率生成，并通过抓取检测结构实时生成抓取姿态；缓慢地移动平台上的待抓物体，观察夹爪的运动轨迹并记录抓取结果，统计结果并对闭环网络参数进行改进。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于形态学图像处理的闭环抓取检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，所述步骤1包括以下步骤：

步骤1.1、将所述深度图像剪裁为尺寸大小是300×300的图像；

步骤1.2、利用OpenCV处理所述深度图像中的无效深度值；

3.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，所述步骤2包括以下步骤：

步骤2.2、利用形态学知识对所述二值化掩码图像进行分割，并使用OpenCV中的ConvexHull得到所述目标物体的所述凸包，根据形态学知识进行像素不连续性判断，分割出所述凸包中独立于所述目标物体的所述不连续区域。

4.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，在所述步骤3中，所述卷积神经网络是基于已有的GG-CNN网络进行改进，为全卷积沙漏型拓扑结构，具有连续性的编码层和解码层。

5.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，在所述步骤3中，所述卷积神经网络包含三个卷积层和三个解卷积层。

6.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，在所述步骤3中，所述闭环反馈网络根据所述目标物体的特征信息，再根据相机与机器人的标定关系，估计出所述目标物体对于所述机器人的末端位姿，然后利用所述末端位姿与期望位姿的偏差进行反馈控制；

其中，抓取姿势

和夹爪姿势T_f由6D姿态笛卡尔位置、滚转、俯仰和偏航欧拉角(x,y,z,α,β,γ)表示，λ是速度的6D参数，使所述终端执行器的夹爪的姿势收敛到所述目标物体的姿势；如果所述夹爪抓取到达指定位置或者检测到碰撞，则抓取停止；如果所述夹爪关闭并抬起所述目标物体，则记为一次成功抓取。

7.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，在所述步骤4中，将所述公开抓取检测数据集Cornell按照基于图像分为所述训练集和所述测试集；所述基于图像是指将所有图像按照7:3的比例直接分为所述训练集和所述测试集。

8.如权利要求1所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，在所述步骤4中，将所述公开抓取检测数据集Cornell按照基于物体分为所述训练集和所述测试集；所述基于物体是指所述训练集和所述测试集中所包含的物体不能重复。

9.如权利要求6所述的基于形态学图像处理的闭环抓取检测方法，其特征在于，在所述步骤4中，将所述公开抓取检测数据集Cornell中的抓取位置标签转化为五维抓取表示形式(u,v,w,θ,q)，其中，u,v,w表示坐标，θ表示宽度，q表示角度。

10.如权利要求9所述的基于形态学图像处理的闭环抓取检测方法，其特征在于,在所述步骤4中，将所述公开抓取检测数据集Cornell中的数值进行归一化处理，所述坐标通过除以所述深度图像的长宽得到0-1之间的数值，所述宽度通过除以所述夹爪的最宽的宽度进行归一化，所述角度利用正弦值和余弦值表示。