一种基于目标检测特征的两阶段快速抓取检测方法
技术领域
本发明涉及机器人领域,具体涉及一种基于目标检测特征的两阶段快速抓取检测方法。
背景技术
对目标场景内的物体进行抓取是机器人的基本功能之一,也是机器人领域的一个重要研究方向。如下图2所示,一个机器人抓取系统由机械臂、末端夹持器、相机组成。通过相机获取目标场景内的图像,然后通过计算机检测图像中的物体和抓取框。将抓取框转化为末端夹持器的位置和姿态,最后控制夹持器达到相应位置和姿态执行抓取。
为了提高目标物体的抓取成功率,一般将物体的抓取位姿作为研究对象。本发明采用抓取框作为三维抓取位姿在二维图像上的表示即根据相机获取的图像检测合适的抓取框,从而提高抓取的成功率。在深度学习提出之前一般使用传统视觉方法设计物体特征,这样对已知三维模型的物体具有较高的抓取成功率,但是对未知物体抓取检测准确性较差。自深度学习提出之后,利用卷积神经网络对场景进行检测从而获取抓取框的方法得到大范围应用。卷积神经网络方法对未知环境和未知物体的泛化能力较好,具有较高的抓取成功率。但是卷积神经网络的方法一般检测时间较长,无法兼顾抓取成功率和检测速度。同时只能得到目标物体的抓取框,无法得到场景中的物体数量和种类。为此需要对获取抓取点的方法做进一步改善,使得系统具有较高的抓取成功率和检测速度。
发明内容
本发明提供一种基于目标检测特征的两阶段快速抓取检测方法,将目标检测方法和机器人抓取检测方法相结合,并兼顾抓取检测的准确性和实时性。
本发明通过以下技术方案实现:
一种基于目标检测特征的两阶段快速抓取检测方法,所述两阶段快速抓取检测方法包括以下步骤:
步骤1:获取网络训练数据集,其包括训练集1和训练集2;
步骤2:构建目标检测卷积神经网络、第一级和第二级卷积神经网络结构,并训练三个卷积神经网络;
步骤3:利用三个训练好的卷积神经网络获取场景中的目标种类和数量、目标的候选抓取框以及每个抓取框的评分值;
步骤4:通过最佳抓取框选择算法获得最佳抓取框;
步骤5:通过抓取框确定夹持器的位置与姿态。
进一步的,所述步骤1获取网络训练数据集具体步骤如下:
步骤1.1:利用相机获取各种包含可抓取物体的RGB图像,记任意一张RGB图像为i;
步骤1.2:在RGB图像i上用矩形框标记出物体的位置,以及物体的语义标签;将所有图片打包作为目标检测卷积神经网络的数据集;
步骤1.3:利用矩形框对RGB图像i进行截取,获取若干个的随机矩形图片,记任意一张矩形图片为j,若j内的抓取物能实现物体抓取则记该矩形框为1,否则记为0;
步骤1.4:取目标检测卷积神经网络的第二个卷积层输出作为样本,记任意一个样本为k,根据矩形图片j在RGB图像i上的位置,根据比例得到矩形图片j在样本k上的位置,取该位置上的矩形特征为新训练数据m,新训练数据m的可抓取标签与矩形图片j相同,将所有新训练特征m组合作为两阶段快速抓取检测网络的训练样本。
进一步的,所述步骤2具体为,
步骤2.1:选用Yolov3-tiny网络作为目标检测卷积神经网络,并给予迁移训练的方法,利用在ImageNet数据集上预训练的权重进行微调训练,得到目标检测卷积神经网络模型;
步骤2.2:两阶段快速抓取检测网络分为两级;第一级卷积神经网络以矩形特征作为输入,包含一个金字塔池化层和一个全连接层,全连接层的输出为0或1,利用训练数据集2训练得到第一级卷积神经网络模型;
步骤2.3:第二级卷积神经网络以矩形特征作为输入,包含两个卷积层、一个最大池化层、一个金字塔池化层和两个全连接层,全连接层1的输出为24个神经元,全连接层2输出为0或1,利用训练数据集2离线训练得到第二级卷积神经网络模型。
进一步的,所述步骤3具体为,
步骤3.1:由相机得到场景内的RGB图像,作为目标检测卷积神经网络的输入,得到场景内的物体位置预测框和物体的语义标签;
步骤3.2:在物体位置预测框内利用滑动窗口方法得到若干候选抓取框,记任意一个抓取框为r,取目标检测卷积神经网络的第二个卷积神经网络输出特征作为RGB图像的映射,将抓取框r映射到特征图上,得到特征图上的抓取框u;
步骤3.3:将特征图上的抓取框u输入第一级卷积神经网络模型,得到抓取框u的第一级抓取评分score1,如果第一级抓取评分小于0.1,则将该抓取框k删除;
步骤3.4:将第一级抓取评分大于0.1的抓取框送入第二级卷积神经网络,得到第二级抓取评分score2。
进一步的,所述步骤4具体为,
通过第一级卷积神经网络快速去除不可靠的抓取框,然后通过第二级卷积神经网络提取更多特征,对剩余抓取框进行下一步判断;最终抓取评分采用两级评分加权平均的方式为,
式中α和β为权重系数,选取最终抓取评分最高的抓取框作为最佳抓取框,并将特征图上的最佳抓取框按比例映射回RGB图上,得到RGB图上的最佳抓取框。
本发明的有益效果是:
1.本发明的将目标检测技术引入抓取检测方案,搭建Yolov3-tiny网络作为目标检测卷积神经网络,在不影响机械臂抓取位姿检测实时性的同时,给出了目标场景中待抓取物体的大概位置,既帮助减少场景中背景和无关物体对抓取检测的影响,又缩小了抓取分析的图片范围。并且目标检测给出了场景中各个物体的语义标签,有助于进行复杂有序抓取任务的规划。
2.本发明以目标检测卷积神经网络第二层卷积层输出作为两阶段抓取检测网络的输入,充分利用了上一层网络的输出,在保证检测速度的同时提高第一级和第二级抓取检测网络的性能。
3.本发明两阶段快速抓取检测网络充分利用上一层目标检测卷积神经网络的输出,且两级网络联系密切,在保证抓取检测速度的同时提高了抓取检测的准确率。
附图说明
图1本发明的抓取框在图像中的定义示意图。
图2本发明的机器人抓取系统场景图。
图3本发明的三级卷积神经网络抓取检测方法流程图。
图4本发明的基于目标检测特征的两阶段快速抓取检测算法流程图。
图5本发明的实施例2示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
抓取框的定义:
机械臂在抓取物体前必须知道目标物体被抓取的位置和角度,从而能将机械臂夹持器控制到相应的位置和姿态。利用抓取框来定义被抓取部位的位置和角度。抓取框的定义如下图1所示,使用5维向量表示被抓取部位的位置和姿态。如果将一个抓取框定义为g,则g={x,y,θ,h,w}。其中(x,y)表示二指夹持器的中心位置坐标。θ表示从图像坐标系水平方向到夹持器张开方向的旋转角。w表示夹持器的张开宽度在图像平面的投影长度。h表示夹持器的物理长度在图像平面的投影长度,用于限制抓取目标的最大尺寸。
实施例1
一种基于目标检测特征的两阶段快速抓取检测方法,所述两阶段快速抓取检测方法包括以下步骤:
步骤1:获取网络训练数据集,其包括训练集1和训练集2;
步骤2:构建目标检测卷积神经网络、第一级和第二级卷积神经网络结构,并训练三个卷积神经网络;
步骤3:利用三个训练好的卷积神经网络获取场景中的目标种类和数量、目标的候选抓取框以及每个抓取框的评分值;
步骤4:通过最佳抓取框选择算法获得最佳抓取框;
步骤5:通过抓取框确定夹持器的位置与姿态。
进一步的,所述步骤1获取网络训练数据集具体步骤如下:
步骤1.1:利用相机获取各种包含可抓取物体的RGB图像,记任意一张RGB图像为i;
步骤1.2:在RGB图像i上用矩形框标记出物体的位置,以及物体的语义标签;将所有图片打包作为目标检测卷积神经网络的数据集;
步骤1.3:利用矩形框对RGB图像i进行截取,获取若干个的随机矩形图片,记任意一张矩形图片为j,若j内的抓取物能实现物体抓取则记该矩形框为1,否则记为0;
步骤1.4:取目标检测卷积神经网络的第二个卷积层输出作为样本,记任意一个样本为k,根据矩形图片j在RGB图像i上的位置,根据比例得到矩形图片j在样本k上的位置,取该位置上的矩形特征为新训练数据m,新训练数据m的可抓取标签与矩形图片j相同,将所有新训练特征m组合作为两阶段快速抓取检测网络的训练样本。
进一步的,所述步骤2具体为,
步骤2.1:选用Yolov3-tiny网络作为目标检测卷积神经网络,并给予迁移训练的方法,利用在ImageNet数据集上预训练的权重进行微调训练,得到目标检测卷积神经网络模型;
步骤2.2:两阶段快速抓取检测网络分为两级;第一级卷积神经网络以矩形特征作为输入,包含一个金字塔池化层和一个全连接层,全连接层的输出为0或1,利用训练数据集2训练得到第一级卷积神经网络模型;
步骤2.3:第二级卷积神经网络以矩形特征作为输入,包含两个卷积层、一个最大池化层、一个金字塔池化层和两个全连接层,全连接层1的输出为24个神经元,全连接层2输出为0或1,利用训练数据集2离线训练得到第二级卷积神经网络模型。
进一步的,所述步骤3具体为,
步骤3.1:由相机得到场景内的RGB图像,作为目标检测卷积神经网络的输入,得到场景内的物体位置预测框和物体的语义标签;
步骤3.2:在物体位置预测框内利用滑动窗口方法得到若干候选抓取框,记任意一个抓取框为r,取目标检测卷积神经网络的第二个卷积神经网络输出特征作为RGB图像的映射,将抓取框r映射到特征图上,得到特征图上的抓取框u;
步骤3.3:将特征图上的抓取框u输入第一级卷积神经网络模型,得到抓取框u的第一级抓取评分score1,如果第一级抓取评分小于0.1,则将该抓取框k删除;
步骤3.4:将第一级抓取评分大于0.1的抓取框送入第二级卷积神经网络,得到第二级抓取评分score2。
进一步的,所述步骤4具体为,
通过第一级卷积神经网络快速去除不可靠的抓取框,然后通过第二级卷积神经网络提取更多特征,对剩余抓取框进行下一步判断;最终抓取评分采用两级评分加权平均的方式为,
式中α和β为权重系数,选取最终抓取评分最高的抓取框作为最佳抓取框,并将特征图上的最佳抓取框按比例映射回RGB图上,得到RGB图上的最佳抓取框。
实施例2
综合第1级卷积神经网络和第2级卷积神经网络的结果后得出最终抓取置信度后,对每个目标只选择最高置信度的抓取框为最佳抓取。由图1-1的例子可以看出,对大多数场景,经目标检测得出物体数量和位置后,两阶段抓取检测网络能为每个物体检测出一个最佳抓取框。且每个物体都添加了一个语义标签,能为复杂有序任务规划提供支持。基于目标检测的抓取缺点是其成功率也收到目标检测准确率的影响。如果目标检测环节没有将图中某个物体检测出来,则抓取检测环节必定失败。如果目标检测环节检测到了物体位置,而出现分类错误问题,则不会影响后续抓取检测环节。
本发明给出的检测算法抓取准确率和检测耗时如表所示,本发明给出的基于目标检测环节在抓取位置检测准确率上有着较大改进,这是基于区域分析方法带来的结果。同时本发明算法基于目标检测卷积层输出和分级检测的思想,大大减少了区域分析算法的计算耗时。
表1-2本发明算法各环节检测用时
表1-3抓取检测算法成功率对比
由表1-2可看出,本发明提出的抓取检测算法计算耗时主要在两阶段抓取检测卷积神经网络环节。虽然第2级卷积神经网络的结构比第1级网络复杂很多,但由于经过第1级卷积网络的筛选,去除掉了很多不可靠的抓取框,因此大大降低了第2级卷积网络的计算量。
本发明的算法和各个学者的研究结果对比如表1-3所示,可以看出本发明算法相较IanLenz和Redmon等人的算法抓取检测成功率更高,但检测用时比Redmon的端到端网络检测用时稍长。相较Yu的三级卷积神经网络检测准确率较低些,因为本发明的两阶段检测卷积网络相较Yu的检测网络更为简单,相应的本发明的算法检测耗时也更短。综合可见,本发明的基于目标检测的两阶段抓取检测网络在抓取检测成功率和检测速度中做了一个较好的平衡,在综合性能上有一定优势。