CN109919151A - 一种基于端对端网络的机器人视觉推理抓取方法 - Google Patents

一种基于端对端网络的机器人视觉推理抓取方法 Download PDF

Info

Publication number
CN109919151A
CN109919151A CN201910093952.5A CN201910093952A CN109919151A CN 109919151 A CN109919151 A CN 109919151A CN 201910093952 A CN201910093952 A CN 201910093952A CN 109919151 A CN109919151 A CN 109919151A
Authority
CN
China
Prior art keywords
network
crawl
scene
interest
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910093952.5A
Other languages
English (en)
Inventor
兰旭光
张翰博
周欣文
田智强
郑南宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910093952.5A priority Critical patent/CN109919151A/zh
Publication of CN109919151A publication Critical patent/CN109919151A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于端对端卷积神经网络的机器人视觉推理抓取方法。通过以RGB图片为输入,以一次卷积网络的前向传播,同时完成物体检测、操作关系推理和抓取部位检测。通过提取物体的感兴趣区域,完成对每个物体上的抓取部位进行检测。通过视觉操作关系推理,获取场景的视觉操作关系树,对正确的抓取顺序进行决策。本发明与之前的发明相比,速度更快,准确率和鲁棒性更高。通过使用深度学习和深度特征对场景进行理解,提升了方法的有效性和可靠性。

Description

一种基于端对端网络的机器人视觉推理抓取方法
技术领域
本发明属于计算机视觉与智能机器人领域,具体涉及一种基于端对端网络的机器人视觉推理抓取方法。
背景技术
随着计算机视觉技术的快速发展,对于非结构化环境的理解和感知技术日新月异,为机器人在复杂场景和非结构化环境中的作业提供了基础。传统的机器人抓取方法使用场景点云为输入,通过融合多种传感器信息,完成对目标物体的三维建模,并使用分析和优化的方法,寻找力封闭或形封闭的抓取部位和配置,完成抓取。然而,这类抓取方法不能适应一些应用场景的需求,尤其是对于完整环境信息获取较为困难的场景。在这类场景中,由于场景环境信息过于复杂等因素,对于完整场景的三维重建难度较大,并且需要耗费大量的计算资源,不能满足实时性等需求。其次,由于传统的分析和优化方法对环境的分析能力的局限性,对于复杂的非结构化场景,往往不能取得令人满意的性能。近期的研究表明深度学习对于非结构化环境的处理有很大的优势,但在基于深度学习的方法中,处理复杂堆叠场景的智能抓取算法往往采用级联各部分(如物体检测、抓取部位检测、抓取顺序推理等部分)来完成。使用这类方法时,由于系统各部分通过级联完成最终任务,因此误差在各部分间会存在累积效应,最终使算法性能下降明显。为此,如何设计一种端对端的适用于复杂场景和非结构化环境下的物体抓取算法,以安全、可靠、快速的方式完成对目标物体的操作和抓取,并减小由于部分间级联造成的误差累积,提升抓取算法的性能和抓取的准确率和鲁棒性,是目前的突出问题。
发明内容
本发明的目的在于克服上述不足,提供一种基于端对端网络的机器人视觉推理抓取方法,能够适应于多目标物体的复杂场景的作业任务,在保证作业执行过程中的安全性和可靠性的同时,克服由于级联系统造成的误差累积效应,提升方法的性能,同时满足实时性的需求。
为了达到上述目的,本发明包括以下步骤:
一种基于端对端网络的机器人视觉推理抓取方法,包括以下步骤:
步骤一:通过RGB图像传感器获取当前包含目标物体的场景图像;
步骤二:通过深度卷积网络算法,提取场景图像的图片特征;
步骤三:通过感兴趣区域提取网络,获取场景图像的感兴趣区域;
步骤四:基于感知网络,通过物体检测器和抓取检测器,获取当前场景中所有目标物体的位置和对应的抓取部位;
步骤五:以步骤三的物体检测结果的感兴趣区域为基础,完成当前场景操作关系树的构建过程;
步骤六:根据物体检测和抓取检测结果,结合场景操作关系树,规划抓取顺序,并实施抓取。
作为本发明的进一步改进,步骤二具体过程如下:
使用在视觉操作关系检测数据集上训练获取的深度卷积网络算法,并以RGB图像为输入,进行网络的前向传播过程,通过多层卷积和五层池化,以第五卷积阶段的输出C5作为最终的图像特征。
作为本发明的进一步改进,其特征在于:步骤三具体过程如下:
以第五卷积阶段的输出C5作为RPN的输入,通过卷积操作,获取感兴趣区域候选项,包括定位和置信度;通过非最大值抑制技术合并重合度较大的感兴趣区域候选项;在剩余所得的所有候选项中,选取置信度较高的感兴趣区域候选项作为提取网络的输出。
作为本发明的进一步改进,步骤四具体过程如下:
以第五卷积阶段的输出C5和步骤二中所得的感兴趣区域同时输入物体检测器,得到场景物体检测结果,包括物体定位和类别置信度;以第五卷积阶段的输出C5和步骤二中所得的感兴趣区域同时输入抓取检测器,在每个感兴趣区域中提取属于该感兴趣区域的抓取部位,包括抓取部位的定位和置信度。
作为本发明的进一步改进,步骤五具体过程如下:
使用第五卷积阶段的输出C5和物体检测结果作为输入,通过物体对池化层,获取任意物体对的特征组合,并将其送入视觉操作关系推理网络,完成对场景中任意物体对间关系的推理和判定,最终通过融合所有物体对间的关系,完成场景中操作关系树的构建。
作为本发明的进一步改进,所述的深度卷积网络算法为ResNet-101网络或者VGG16网络。
与现有技术相比,本发明具有以下优点:
本方法通过融合物体检测技术,抓取部位检测技术和视觉操作关系推理技术,实现了在复杂的非结构化场景中的基于机器视觉推理的智能抓取方法。通过使用端对端的卷积网络,将三个部分结合到一个深度神经网络中,形成一个多任务、多输出的神经网络,并设计统一的损失函数进行端对端的网络训练,有效地克服了各部分间级联造成的性能损失。相较于之前的方法,本方法在视觉操作关系推理任务中的图片精度上有4.0%的提升,在多物体抓取部位检测的任务中,相较于现有技术中将物体检测和抓取检测分离完成再使用中心点匹配的方法相比,有16.0%的平均精度(mean Average Precision,mAP)提升。由于多任务网络固有的正则化优势,能够明显克服训练过程中的过拟合现象,因此在实际场景的实验中,本方法相较于已有的方法,在多物体的抓取任务中有大幅度的性能提升。
附图说明
图1为本发明的基于端对端卷积网络的机器人视觉推理抓取方法的流程图;
图2为本发明提取图片特征的流程图;
图3本发明模拟过程分析结果图,第一列表示原始未处理图像,第二列表示物体检测结果,第三列表示抓取部位检测结果,第四列表示对应场景的操作关系树。
具体实施方式
下面结合附图详细描述本发明的实施例。
在本发明的描述中,需要理解的是,本发明所描述的实施例是示例性的,实施例描述中所出现的具体参数仅是为了便于描述本发明,而不能理解为对本发明的限制。
如图1所示,本发明一种基于端对端卷积网络的机器人视觉推理抓取方法,包括以下步骤:
步骤一:通过RGB图像传感器获取当前包含目标物体的场景图像I;
步骤二:通过深度卷积网络,提取场景图像的图片特征。
具体过程如下:使用在视觉操作关系检测数据集上训练获取的深度卷积网络(如ResNet-101网络或者VGG16网络等),以RGB图像为输入,进行网络的前向传播过程,通过多层卷积和五层池化,以第五卷积阶段的输出C5作为最终的图像特征;
步骤三:通过感兴趣区域提取网络(RPN),获取场景图像的感兴趣区域。
具体过程如下:以C5作为RPN的输入,通过卷积操作,获取感兴趣区域候选项,包括定位和置信度;通过非最大值抑制技术合并重合度较大的感兴趣区域候选项;在剩余所得的所有候选项中,选取置信度较高的感兴趣区域候选项作为提取网络的输出;
步骤四:通过感知网络,其中包括物体检测器和抓取检测器,获取当前场景中所有目标物体的位置和对应的抓取部位。
具体过程如下:以C5和步骤二中所得的感兴趣区域同时输入物体检测器,得到场景物体检测结果,包括物体定位和类别置信度;以C5和步骤二中所得的感兴趣区域同时输入抓取检测器,在每个感兴趣区域中提取属于该感兴趣区域的抓取部位,包括抓取部位的定位和置信度;
步骤五:以步骤三的物体检测结果为基础,完成当前场景操作关系树的构建过程。
具体过程如下:使用C5和物体检测结果作为输入,通过物体对池化层,获取任意物体对的特征组合,并将其送入视觉操作关系推理网络,完成对场景中任意物体对间关系的推理和判定,最终通过融合所有物体对间的关系,完成场景中操作关系树的构建;
步骤六:根据物体检测和抓取检测结果,结合场景操作关系树,规划抓取顺序,并实施抓取。
图3展示了本发明的结果。在图中,同时显示了原始图像(第一列),物体的检测结果(第二列),每个物体上的抓取部位的检测结果(第三列),以及场景的操作关系树(第四列)。对于场景的操作关系树,位于叶节点的物体应当被首先抓取。
本方法原理为:通过融合物体检测技术,抓取部位检测技术和视觉操作关系推理技术,实现了在复杂的非结构化场景中的基于机器视觉推理的智能抓取方法。通过使用端对端的卷积网络,将三个部分结合到一个深度神经网络中,形成一个多任务、多输出的神经网络,并设计统一的损失函数进行端对端的网络训练,有效地克服了各部分间级联造成的性能损失。在算法运行过程中,以包含多个目标物体的场景RGB图片为输入,通过一次前向传播过程,即可得到物体检测和抓取部位检测结果,并获取场景的操作关系树,以辅助机器人执行安全、可靠的抓取任务。
与现有技术相比,本方法成功将视觉操作关系推理和两阶段物体检测方法相结合,并克服了由于各部分间级联造成的误差累积,同时解决了抓取部位和其所归属物体间的匹配问题,成功实现了基于视觉推理的多物体堆叠场景的机器人抓取问题。在视觉操作关系推理数据集上,相较于之前的方法,本方法在视觉操作关系推理任务中的图片精度上有4.0%的提升,在多物体抓取部位检测的任务中,相较于现有技术中将物体检测和抓取检测分离完成再使用中心点匹配的方法相比,有16.0%的平均精度(mean AveragePrecision,mAP)提升。由于多任务网络固有的正则化优势,能够明显克服训练过程中的过拟合现象,因此在实际场景的实验中,本方法相较于已有的方法,在多物体的抓取任务中有大幅度的性能提升。
总之,本发明的一种基于端对端卷积神经网络的机器人视觉推理抓取方法,通过以RGB图片为输入,以一次卷积网络的前向传播,同时完成物体检测、操作关系推理和抓取部位检测。通过提取物体的感兴趣区域,完成对每个物体上的抓取部位进行检测。通过视觉操作关系推理,获取场景的视觉操作关系树,对正确的抓取顺序进行决策。本发明与之前的发明相比,速度更快,准确率和鲁棒性更高。通过使用深度学习和深度特征对场景进行理解,提升了方法的有效性和可靠性。通过结合物体感兴趣区域和基于有向锚点框的抓取部位检测检测,完成了高精度的物体抓取部位检测过程和抓取部位和物体间归属关系的理解;通过视觉操作关系推理,构建场景的视觉操作关系树,推理场景正确的抓取顺序;通过端对端的算法框架,提升了算法速度和性能,克服了级联系统损失逐级叠加的缺点。本发明可以帮助机器人以视觉图像为输入,完成对场景物体检测、关系推理和抓取部位检测的过程,以辅助智能机器人自主作业,为智能机器人的进一步普及和发展奠定基础。
尽管以上结合附图对本发明的具体实施方案进行了描述,但本发明并不局限于上述的具体实施方案,上述的具体实施方案仅仅是示意性的、指导性的、而不是限制性的。本领域的普通技术人员在本说明书的启示下,在不脱离本发明的权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (6)

1.一种基于端对端网络的机器人视觉推理抓取方法,其特征在于,包括以下步骤:
步骤一:通过RGB图像传感器获取当前包含目标物体的场景图像;
步骤二:通过深度卷积网络算法,提取场景图像的图片特征;
步骤三:通过感兴趣区域提取网络,获取场景图像的感兴趣区域;
步骤四:基于感知网络,通过物体检测器和抓取检测器,获取当前场景中所有目标物体的位置和对应的抓取部位;
步骤五:以步骤三的物体检测结果的感兴趣区域为基础,完成当前场景操作关系树的构建过程;
步骤六:根据物体检测和抓取检测结果,结合场景操作关系树,规划抓取顺序,并实施抓取。
2.根据权利要求1所述的基于端对端网络的机器人视觉推理抓取方法,其特征在于:步骤二具体过程如下:
使用在视觉操作关系检测数据集上训练获取的深度卷积网络算法,并以RGB图像为输入,进行网络的前向传播过程,通过多层卷积和五层池化,以第五卷积阶段的输出C5作为最终的图像特征。
3.根据权利要求2所述的基于端对端网络的机器人视觉推理抓取方法,其特征在于:步骤三具体过程如下:
以第五卷积阶段的输出C5作为RPN的输入,通过卷积操作,获取感兴趣区域候选项,包括定位和置信度;通过非最大值抑制技术合并重合度较大的感兴趣区域候选项;在剩余所得的所有候选项中,选取置信度较高的感兴趣区域候选项作为提取网络的输出。
4.根据权利要求2所述的基于端对端网络的机器人视觉推理抓取方法,其特征在于:步骤四具体过程如下:
以第五卷积阶段的输出C5和步骤二中所得的感兴趣区域同时输入物体检测器,得到场景物体检测结果,包括物体定位和类别置信度;以第五卷积阶段的输出C5和步骤二中所得的感兴趣区域同时输入抓取检测器,在每个感兴趣区域中提取属于该感兴趣区域的抓取部位,包括抓取部位的定位和置信度。
5.根据权利要求2所述的基于端对端网络的机器人视觉推理抓取方法,其特征在于:步骤五具体过程如下:
使用第五卷积阶段的输出C5和物体检测结果作为输入,通过物体对池化层,获取任意物体对的特征组合,并将其送入视觉操作关系推理网络,完成对场景中任意物体对间关系的推理和判定,最终通过融合所有物体对间的关系,完成场景中操作关系树的构建。
6.根据权利要求1所述的基于端对端网络的机器人视觉推理抓取方法,其特征在于:所述的深度卷积网络算法为ResNet-101网络或者VGG16网络。
CN201910093952.5A 2019-01-30 2019-01-30 一种基于端对端网络的机器人视觉推理抓取方法 Pending CN109919151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910093952.5A CN109919151A (zh) 2019-01-30 2019-01-30 一种基于端对端网络的机器人视觉推理抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910093952.5A CN109919151A (zh) 2019-01-30 2019-01-30 一种基于端对端网络的机器人视觉推理抓取方法

Publications (1)

Publication Number Publication Date
CN109919151A true CN109919151A (zh) 2019-06-21

Family

ID=66961125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910093952.5A Pending CN109919151A (zh) 2019-01-30 2019-01-30 一种基于端对端网络的机器人视觉推理抓取方法

Country Status (1)

Country Link
CN (1) CN109919151A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111906782A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于三维视觉的智能机器人抓取方法
CN112171721A (zh) * 2020-11-30 2021-01-05 北京科技大学 一种机器人关节传感器和执行器故障诊断方法及系统
CN112288809A (zh) * 2020-10-27 2021-01-29 浙江大学计算机创新技术研究院 一种用于多物体复杂场景的机器人抓取检测方法
CN113326932A (zh) * 2021-05-08 2021-08-31 清华大学 基于物体检测的物体操作指令跟随学习方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101897A (zh) * 2018-07-20 2018-12-28 中国科学院自动化研究所 水下机器人的目标检测方法、系统及相关设备
CN109159113A (zh) * 2018-08-14 2019-01-08 西安交通大学 一种基于视觉推理的机器人作业方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101897A (zh) * 2018-07-20 2018-12-28 中国科学院自动化研究所 水下机器人的目标检测方法、系统及相关设备
CN109159113A (zh) * 2018-08-14 2019-01-08 西安交通大学 一种基于视觉推理的机器人作业方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111906782A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于三维视觉的智能机器人抓取方法
CN111906782B (zh) * 2020-07-08 2021-07-13 西安交通大学 一种基于三维视觉的智能机器人抓取方法
CN112288809A (zh) * 2020-10-27 2021-01-29 浙江大学计算机创新技术研究院 一种用于多物体复杂场景的机器人抓取检测方法
CN112288809B (zh) * 2020-10-27 2022-05-24 浙江大学计算机创新技术研究院 一种用于多物体复杂场景的机器人抓取检测方法
CN112171721A (zh) * 2020-11-30 2021-01-05 北京科技大学 一种机器人关节传感器和执行器故障诊断方法及系统
CN112171721B (zh) * 2020-11-30 2021-02-19 北京科技大学 一种机器人关节传感器和执行器故障诊断方法及系统
CN113326932A (zh) * 2021-05-08 2021-08-31 清华大学 基于物体检测的物体操作指令跟随学习方法及装置
CN113326932B (zh) * 2021-05-08 2022-09-09 清华大学 基于物体检测的物体操作指令跟随学习方法及装置

Similar Documents

Publication Publication Date Title
CN109919151A (zh) 一种基于端对端网络的机器人视觉推理抓取方法
Ainetter et al. End-to-end trainable deep neural network for robotic grasp detection and semantic segmentation from rgb
Kebria et al. Deep imitation learning for autonomous vehicles based on convolutional neural networks
Amit et al. Disaster detection from aerial imagery with convolutional neural network
CN109597087A (zh) 一种基于点云数据的3d目标检测方法
CN108647655A (zh) 基于轻型卷积神经网络的低空航拍影像电力线异物检测方法
Bergamini et al. Deep learning-based method for vision-guided robotic grasping of unknown objects
CN107444665A (zh) 一种无人机自主降落方法
CN106874914A (zh) 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN106950969A (zh) 一种基于无地图运动规划器的移动机器人连续控制方法
CN103278170A (zh) 基于显著场景点检测的移动机器人级联地图创建方法
CN106780484A (zh) 基于卷积神经网络特征描述子的机器人帧间位姿估计方法
CN109159113A (zh) 一种基于视觉推理的机器人作业方法
CN106327528A (zh) 无人机运动目标跟踪方法及无人机的工作方法
CN109376677A (zh) 一种基于外形-运动双流信息融合的视频行为检测方法
Chen et al. Representation of truss-style structures for autonomous climbing of biped pole-climbing robots
Jian et al. A fruit detection algorithm based on r-fcn in natural scene
CN110163175A (zh) 一种基于改进vgg-16网络的步态识别方法及系统
Prasath et al. IoT-based pest detection and classification using deep features with enhanced deep learning strategies
CN113681552B (zh) 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN107292353A (zh) 一种果树分类方法及系统
Shao et al. Combining rgb and points to predict grasping region for robotic bin-picking
Li et al. Vision-based obstacle avoidance algorithm for mobile robot
Li et al. Robot vision model based on multi-neural network fusion
Huang et al. Study on obstacle avoidance of AGV based on fuzzy neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination