CN109919151A

CN109919151A - 一种基于端对端网络的机器人视觉推理抓取方法

Info

Publication number: CN109919151A
Application number: CN201910093952.5A
Authority: CN
Inventors: 兰旭光; 张翰博; 周欣文; 田智强; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-21

Abstract

本发明公开了一种基于端对端卷积神经网络的机器人视觉推理抓取方法。通过以RGB图片为输入，以一次卷积网络的前向传播，同时完成物体检测、操作关系推理和抓取部位检测。通过提取物体的感兴趣区域，完成对每个物体上的抓取部位进行检测。通过视觉操作关系推理，获取场景的视觉操作关系树，对正确的抓取顺序进行决策。本发明与之前的发明相比，速度更快，准确率和鲁棒性更高。通过使用深度学习和深度特征对场景进行理解，提升了方法的有效性和可靠性。

Description

一种基于端对端网络的机器人视觉推理抓取方法

技术领域

本发明属于计算机视觉与智能机器人领域，具体涉及一种基于端对端网络的机器人视觉推理抓取方法。

背景技术

随着计算机视觉技术的快速发展，对于非结构化环境的理解和感知技术日新月异，为机器人在复杂场景和非结构化环境中的作业提供了基础。传统的机器人抓取方法使用场景点云为输入，通过融合多种传感器信息，完成对目标物体的三维建模，并使用分析和优化的方法，寻找力封闭或形封闭的抓取部位和配置，完成抓取。然而，这类抓取方法不能适应一些应用场景的需求，尤其是对于完整环境信息获取较为困难的场景。在这类场景中，由于场景环境信息过于复杂等因素，对于完整场景的三维重建难度较大，并且需要耗费大量的计算资源，不能满足实时性等需求。其次，由于传统的分析和优化方法对环境的分析能力的局限性，对于复杂的非结构化场景，往往不能取得令人满意的性能。近期的研究表明深度学习对于非结构化环境的处理有很大的优势，但在基于深度学习的方法中，处理复杂堆叠场景的智能抓取算法往往采用级联各部分(如物体检测、抓取部位检测、抓取顺序推理等部分)来完成。使用这类方法时，由于系统各部分通过级联完成最终任务，因此误差在各部分间会存在累积效应，最终使算法性能下降明显。为此，如何设计一种端对端的适用于复杂场景和非结构化环境下的物体抓取算法，以安全、可靠、快速的方式完成对目标物体的操作和抓取，并减小由于部分间级联造成的误差累积，提升抓取算法的性能和抓取的准确率和鲁棒性，是目前的突出问题。

发明内容

本发明的目的在于克服上述不足，提供一种基于端对端网络的机器人视觉推理抓取方法，能够适应于多目标物体的复杂场景的作业任务，在保证作业执行过程中的安全性和可靠性的同时，克服由于级联系统造成的误差累积效应，提升方法的性能，同时满足实时性的需求。

为了达到上述目的，本发明包括以下步骤：

一种基于端对端网络的机器人视觉推理抓取方法，包括以下步骤：

步骤一：通过RGB图像传感器获取当前包含目标物体的场景图像；

步骤二：通过深度卷积网络算法，提取场景图像的图片特征；

步骤三：通过感兴趣区域提取网络，获取场景图像的感兴趣区域；

步骤四：基于感知网络，通过物体检测器和抓取检测器，获取当前场景中所有目标物体的位置和对应的抓取部位；

步骤五：以步骤三的物体检测结果的感兴趣区域为基础，完成当前场景操作关系树的构建过程；

步骤六：根据物体检测和抓取检测结果，结合场景操作关系树，规划抓取顺序，并实施抓取。

作为本发明的进一步改进，步骤二具体过程如下：

使用在视觉操作关系检测数据集上训练获取的深度卷积网络算法，并以RGB图像为输入，进行网络的前向传播过程，通过多层卷积和五层池化，以第五卷积阶段的输出C5作为最终的图像特征。

作为本发明的进一步改进，其特征在于：步骤三具体过程如下：

以第五卷积阶段的输出C5作为RPN的输入，通过卷积操作，获取感兴趣区域候选项，包括定位和置信度；通过非最大值抑制技术合并重合度较大的感兴趣区域候选项；在剩余所得的所有候选项中，选取置信度较高的感兴趣区域候选项作为提取网络的输出。

作为本发明的进一步改进，步骤四具体过程如下：

以第五卷积阶段的输出C5和步骤二中所得的感兴趣区域同时输入物体检测器，得到场景物体检测结果，包括物体定位和类别置信度；以第五卷积阶段的输出C5和步骤二中所得的感兴趣区域同时输入抓取检测器，在每个感兴趣区域中提取属于该感兴趣区域的抓取部位，包括抓取部位的定位和置信度。

作为本发明的进一步改进，步骤五具体过程如下：

使用第五卷积阶段的输出C5和物体检测结果作为输入，通过物体对池化层，获取任意物体对的特征组合，并将其送入视觉操作关系推理网络，完成对场景中任意物体对间关系的推理和判定，最终通过融合所有物体对间的关系，完成场景中操作关系树的构建。

作为本发明的进一步改进，所述的深度卷积网络算法为ResNet-101网络或者VGG16网络。

与现有技术相比，本发明具有以下优点：

本方法通过融合物体检测技术，抓取部位检测技术和视觉操作关系推理技术，实现了在复杂的非结构化场景中的基于机器视觉推理的智能抓取方法。通过使用端对端的卷积网络，将三个部分结合到一个深度神经网络中，形成一个多任务、多输出的神经网络，并设计统一的损失函数进行端对端的网络训练，有效地克服了各部分间级联造成的性能损失。相较于之前的方法，本方法在视觉操作关系推理任务中的图片精度上有4.0％的提升，在多物体抓取部位检测的任务中，相较于现有技术中将物体检测和抓取检测分离完成再使用中心点匹配的方法相比，有16.0％的平均精度(mean Average Precision,mAP)提升。由于多任务网络固有的正则化优势，能够明显克服训练过程中的过拟合现象，因此在实际场景的实验中，本方法相较于已有的方法，在多物体的抓取任务中有大幅度的性能提升。

附图说明

图1为本发明的基于端对端卷积网络的机器人视觉推理抓取方法的流程图；

图2为本发明提取图片特征的流程图；

图3本发明模拟过程分析结果图，第一列表示原始未处理图像，第二列表示物体检测结果，第三列表示抓取部位检测结果，第四列表示对应场景的操作关系树。

具体实施方式

下面结合附图详细描述本发明的实施例。

在本发明的描述中，需要理解的是，本发明所描述的实施例是示例性的，实施例描述中所出现的具体参数仅是为了便于描述本发明，而不能理解为对本发明的限制。

如图1所示，本发明一种基于端对端卷积网络的机器人视觉推理抓取方法，包括以下步骤：

步骤一：通过RGB图像传感器获取当前包含目标物体的场景图像I；

步骤二：通过深度卷积网络，提取场景图像的图片特征。

具体过程如下：使用在视觉操作关系检测数据集上训练获取的深度卷积网络(如ResNet-101网络或者VGG16网络等)，以RGB图像为输入，进行网络的前向传播过程，通过多层卷积和五层池化，以第五卷积阶段的输出C5作为最终的图像特征；

步骤三：通过感兴趣区域提取网络(RPN)，获取场景图像的感兴趣区域。

具体过程如下：以C5作为RPN的输入，通过卷积操作，获取感兴趣区域候选项，包括定位和置信度；通过非最大值抑制技术合并重合度较大的感兴趣区域候选项；在剩余所得的所有候选项中，选取置信度较高的感兴趣区域候选项作为提取网络的输出；

步骤四：通过感知网络，其中包括物体检测器和抓取检测器，获取当前场景中所有目标物体的位置和对应的抓取部位。

具体过程如下：以C5和步骤二中所得的感兴趣区域同时输入物体检测器，得到场景物体检测结果，包括物体定位和类别置信度；以C5和步骤二中所得的感兴趣区域同时输入抓取检测器，在每个感兴趣区域中提取属于该感兴趣区域的抓取部位，包括抓取部位的定位和置信度；

步骤五：以步骤三的物体检测结果为基础，完成当前场景操作关系树的构建过程。

具体过程如下：使用C5和物体检测结果作为输入，通过物体对池化层，获取任意物体对的特征组合，并将其送入视觉操作关系推理网络，完成对场景中任意物体对间关系的推理和判定，最终通过融合所有物体对间的关系，完成场景中操作关系树的构建；

图3展示了本发明的结果。在图中，同时显示了原始图像(第一列)，物体的检测结果(第二列)，每个物体上的抓取部位的检测结果(第三列)，以及场景的操作关系树(第四列)。对于场景的操作关系树，位于叶节点的物体应当被首先抓取。

本方法原理为：通过融合物体检测技术，抓取部位检测技术和视觉操作关系推理技术，实现了在复杂的非结构化场景中的基于机器视觉推理的智能抓取方法。通过使用端对端的卷积网络，将三个部分结合到一个深度神经网络中，形成一个多任务、多输出的神经网络，并设计统一的损失函数进行端对端的网络训练，有效地克服了各部分间级联造成的性能损失。在算法运行过程中，以包含多个目标物体的场景RGB图片为输入，通过一次前向传播过程，即可得到物体检测和抓取部位检测结果，并获取场景的操作关系树，以辅助机器人执行安全、可靠的抓取任务。

与现有技术相比，本方法成功将视觉操作关系推理和两阶段物体检测方法相结合，并克服了由于各部分间级联造成的误差累积，同时解决了抓取部位和其所归属物体间的匹配问题，成功实现了基于视觉推理的多物体堆叠场景的机器人抓取问题。在视觉操作关系推理数据集上，相较于之前的方法，本方法在视觉操作关系推理任务中的图片精度上有4.0％的提升，在多物体抓取部位检测的任务中，相较于现有技术中将物体检测和抓取检测分离完成再使用中心点匹配的方法相比，有16.0％的平均精度(mean AveragePrecision,mAP)提升。由于多任务网络固有的正则化优势，能够明显克服训练过程中的过拟合现象，因此在实际场景的实验中，本方法相较于已有的方法，在多物体的抓取任务中有大幅度的性能提升。

总之，本发明的一种基于端对端卷积神经网络的机器人视觉推理抓取方法，通过以RGB图片为输入，以一次卷积网络的前向传播，同时完成物体检测、操作关系推理和抓取部位检测。通过提取物体的感兴趣区域，完成对每个物体上的抓取部位进行检测。通过视觉操作关系推理，获取场景的视觉操作关系树，对正确的抓取顺序进行决策。本发明与之前的发明相比，速度更快，准确率和鲁棒性更高。通过使用深度学习和深度特征对场景进行理解，提升了方法的有效性和可靠性。通过结合物体感兴趣区域和基于有向锚点框的抓取部位检测检测，完成了高精度的物体抓取部位检测过程和抓取部位和物体间归属关系的理解；通过视觉操作关系推理，构建场景的视觉操作关系树，推理场景正确的抓取顺序；通过端对端的算法框架，提升了算法速度和性能，克服了级联系统损失逐级叠加的缺点。本发明可以帮助机器人以视觉图像为输入，完成对场景物体检测、关系推理和抓取部位检测的过程，以辅助智能机器人自主作业，为智能机器人的进一步普及和发展奠定基础。

尽管以上结合附图对本发明的具体实施方案进行了描述，但本发明并不局限于上述的具体实施方案，上述的具体实施方案仅仅是示意性的、指导性的、而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明的权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于端对端网络的机器人视觉推理抓取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于端对端网络的机器人视觉推理抓取方法，其特征在于：步骤二具体过程如下：

3.根据权利要求2所述的基于端对端网络的机器人视觉推理抓取方法，其特征在于：步骤三具体过程如下：

4.根据权利要求2所述的基于端对端网络的机器人视觉推理抓取方法，其特征在于：步骤四具体过程如下：

5.根据权利要求2所述的基于端对端网络的机器人视觉推理抓取方法，其特征在于：步骤五具体过程如下：

6.根据权利要求1所述的基于端对端网络的机器人视觉推理抓取方法，其特征在于：所述的深度卷积网络算法为ResNet-101网络或者VGG16网络。