CN112288809A

CN112288809A - 一种用于多物体复杂场景的机器人抓取检测方法

Info

Publication number: CN112288809A
Application number: CN202011164176.2A
Authority: CN
Inventors: 宋亚楠; 沈卫明; 曹宁; 蒋唐辉
Original assignee: Institute Of Computer Innovation Technology Zhejiang University
Current assignee: Institute Of Computer Innovation Technology Zhejiang University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-29
Anticipated expiration: 2040-10-27
Also published as: CN112288809B

Abstract

本发明涉及一种用于多物体复杂场景的机器人抓取检测方法。首先获取多物体检测场景图像信息；然后使用深度学习网络框架提取场景特征，并在特征图上生成物体位置候选区域和抓取位置候选区域；物体检测网络和抓取检测网络互不干扰，分别预测物体位置和抓取位置；最后通过抓取检测匹配策略为每个抓取检测结果分配一个物体类别。本发明解耦的多任务多物体抓取检测方法能够适应非结构化的复杂检测场景，且具有较高的物体检测精度和抓取检测精度。

Description

一种用于多物体复杂场景的机器人抓取检测方法

技术领域

本发明属于计算机视觉及人工智能领域，特别涉及一种用于多物体复杂场景的机器人抓取检测方法。

背景技术

机器人已广泛应用于工业生产、医疗服务、家庭娱乐、军事航天等众多领域。复杂多样的工作任务对机器人智能感知非结构化工作环境的能力提出了较高的要求。对目标物体抓取位姿的准确判断是机器人感知工作环境的重要内容，也是机器人完成抓取相关任务的首要前提。传统的机器人抓取检测方法大多依赖抓取规划，不能很好地适应未知的抓取环境。另外，由于现实环境的复杂性和多样性，机器人的工作场景中可能包含多个相互干涉甚至相互堆叠的物体。对于这种多物体的复杂场景，大多数方法采取单物体场景抓取检测的思路，只提供物体的可抓取位置，不能为机器人提供指定物体的抓取姿态信息，极大地限制了机器人的应用范围。少数方法通过级联类别检测和抓取检测网络求解多物体场景检测问题，然而，这种方法无法克服误差累积的困境，而且检测精度和检测效率较低。因此，设计一种高效的多物体复杂工作场景抓取检测方法，同时判断抓取物体类别和抓取位置，是机器人智能化进程中急需解决的关键问题。

发明内容

为了解决背景技术中的问题，本发明提供了一种用于多物体复杂场景的机器人抓取检测方法，能够在非结构化复杂场景中同时完成物体类别检测和抓取位置检测，提高检测效率，并为指定物体预测相应的抓取位置和抓取置信度分数。

本发明采用的技术方案如下：

一、一种用于多物体复杂场景的机器人抓取检测方法

包括以下步骤：

步骤1)利用RGB图像传感器采集场景检测图像；

步骤2)将场景检测图像输入多物体抓取检测网络，输出包含物体类别的抓取检测结果；所述多物体抓取检测网络包括特征提取模块、物体检测模块、抓取检测模块和匹配模块；

2.1)场景检测图像通过特征提取模块进行特征提取后输出特征图；

2.2)特征提取模块输出的特征图分别输入物体检测模块和抓取检测模块进行物体检测和抓取检测，物体检测模块包括物体位置候选区域生成模块和物体位置检测模块，抓取检测模块包括抓取位置候选区域生成模块和抓取位置检测模块；

2.3)物体检测模块和抓取检测模块输出的物体检测结果和抓取检测结果输入匹配模块进行相互匹配后，匹配模块输出包含物体类别的抓取检测结果。

所述步骤2.1)中的特征提取模块采用深度学习网络，包括ResNet50，ResNet101，VGG16，VGG19，GoogleNet，AlexNet。

所述步骤2.2)具体为：

物体位置候选区域生成模块和抓取位置候选区域生成模块在特征图的每个像素点位置同时生成多个锚框(anchor box)；物体位置候选区域生成模块对应的锚框为多个尺寸不同的水平矩形框，抓取位置候选区域生成模块对应的锚框为多个尺寸不同、倾斜度不同的倾斜矩形框；

水平矩形框和倾斜矩形框的宽高比根据物体的实际形状进行限定；

每个水平矩形框输入物体检测模块，并为每个水平矩形框分配正负标签；物体检测模块将预测的物体位置偏移量加至水平矩形框，获得调整后的物体位置检测框，并为每个调整后的物体位置预测物体类别及其对应的置信度得分；利用非极大值抑制策略去除重复的物体位置检测框，最终保留的物体位置检测框为物体检测结果；

每个倾斜矩形框输入抓取检测模块，并为每个倾斜矩形框分配正负标签，抓取检测模块将预测的抓取位置偏移量加至倾斜矩形框，获得调整后的抓取位置检测框及其对应的置信度得分，利用非极大值抑制策略去除重复的抓取位置检测框，最终保留的抓取位置检测框为抓取检测结果。

物体位置候选区域生成模块和抓取位置候选区域生成模块同时执行，互不干扰。

为每个水平矩形框分配正负标签的策略与Faster R-CNN中的分配策略一致；

为每个倾斜矩形框分配正负标签的策略具体为：当倾斜矩形框同时满足以下两个条件时，认为当前倾斜矩形框为正样本：条件1)倾斜矩形框和真值抓取矩形框中心(GroundTruth)的距离小于设定阈值；条件2)倾斜矩形框和真值抓取矩形框之间的旋转角度之差小于设定阈值。

物体检测模块和抓取检测模块同时执行，互不干扰。

所述步骤2.3)具体为：

2.3.1)通过步骤2.2)获取物体位置检测框和抓取位置检测框

2.3.2)根据抓取位置检测框的置信度得分，从高到低保留与物体位置检测框同等数量的抓取位置检测框；

2.3.3)计算每个抓取位置检测框与所有物体位置检测框之间的MIoU值；

2.3.4)MIoU值最大时对应的物体位置检测框为与抓取位置检测框匹配的物体位置检测框，并根据匹配的物体位置检测框确定每个抓取位置检测框所属的物体类别。

所述MIoU值的计算方法为：

其中，A_h为水平矩形框面积，A_r为倾斜矩形框面积。

本发明的有益效果：

本发明构造了一个解耦的多任务多物体抓取检测网络框架，将物体检测网络和抓取检测网络融合为一个端到端的多任务网络，同时保证了两个检测任务的互不干扰，提高了物体检测和抓取检测的精度和速度。同时，本发明设计了物体检测和抓取检测结果之间的匹配策略，能以很小的计算代价获得指定物体的抓取位置，提高了机器人对多物体复杂场景的检测能力。

附图说明

图1为本发明的一种用于多物体复杂场景的多物体抓取检测网络整体框架图；

图2为本发明的抓取检测匹配策略；

图3为本发明的一种用于多物体复杂场景的抓取检测方法流程图；

图4为物体检测结果可视化结果图；

图5为抓取检测结果可视化结果图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。需要理解的是，本发明所描述的实施例是示例性的，实施例描述中所使用的具体参数仅是为了便于描述本发明，并不用于限定本发明。

本发明所述的用于多物体复杂场景的机器人抓取检测方法，其具体步骤如图3所示：

步骤1：利用RGB图像传感器采集抓取检测场景图像；

步骤2：训练后的多物体抓取检测网络模型提取多物体场景图像特征；设计的多物体抓取检测网络需在多物体抓取场景数据集上完成训练，以优化网络模型参数。可用的多物体抓取场景数据集例如：VMRD多物体抓取数据集、GraspNet-1Billion数据集。完成训练后的多物体抓取检测网络模型可直接用来检测多物体场景，

步骤3：在场景特征图的每个像素位置同时预定义物体位置候选区域和抓取位置候选区域；

步骤4：物体检测网络自动调整物体位置候选区域的尺寸大小和中心位置，并预测调整后的物体位置框所对应的物体类别和置信度；同时，抓取检测网络自动调整抓取位置候选区域的尺寸大小、中心位置以及倾斜角度，并预测调整后的抓取位置框所对应的置信度；

步骤5：根据物体检测结果和抓取检测结果之间的匹配策略，为每个抓取检测位置分配一个物体类别。

多物体抓取检测网络的整体框架如图1所示，多物体抓取检测网络包括特征提取模块、物体检测模块、抓取检测模块和匹配模块；物体检测模块包括物体位置候选区域生成模块和物体位置检测模块，抓取检测模块包括抓取位置候选区域生成模块和抓取位置检测模块。

A)特征提取模块使用诸如ResNet50，ResNet101，VGG16，VGG19，GoogleNet，AlexNet等基础网络。特征提取模块通过融合底层特征和高层特征，综合利用场景图像的位置信息和语义信息。其中，底层特征为靠近输入端的卷积特征图，对应较大的场景特征图，适用于捕获物体的位置信息；高层特征为靠近输出端的卷积特征图，对应尺寸较小的特征图，适用于捕获物体的语义信息。

B)由特征提取模块获得的特征图用于预定义物体位置候选区域和抓取位置候选区域。在特征图上的每一个像素位置，同时预定义物体位置候选区域和抓取位置候选区域。每个预定义的物体位置候选区域对应不同的宽高比和基本尺寸；每个预定义的抓取位置候选区域对应不同的宽高比、基本尺寸和倾斜角度。两种候选区域的预定义过程互不干扰。

网络训练过程中，为每个物体位置候选区域分配正负标签的策略与Faster R-CNN[1]的分配策略一致。

为每个抓取位置候选区域分配正负标签的策略如下，当抓取位置候选区域同时满足以下两个条件时，认为该抓取位置候选区域为正样本：

1)抓取位置候选区域和真值抓取矩形框中心的距离小于设定阈值；

2)抓取位置候选区域和真值抓取矩形框之间的旋转角度之差小于设定阈值。

物体位置候选区域为水平矩形框，抓取位置候选区域为倾斜矩形框。

C)物体检测模块调整物体候选区域的中心位置、尺寸大小，并为每个调整后的物体位置预测物体类别及其对应的置信度得分，代表该物体预测结果能够正确覆盖真实物体的概率；利用非极大值抑制策略去除重复的物体位置检测框，获得最终的物体检测结果。抓取检测模块调整抓取候选区域的中心位置、尺寸大小以及倾斜角度，并为每个调整后的抓取位置预测一个置信度得分，代表该抓取预测结果为正确抓取位置的概率；利用非极大值抑制策略去除重复的抓取位置检测框，获得最终的抓取检测结果。

物体检测模块和抓取检测模块同时执行物体检测任务和抓取检测任务，两个任务对应两个不同的损失函数，互不干扰。但是，网络末端将两个任务的损失函数相加形成一个损失函数。整个多物体抓取检测网络的训练在一个损失函数指导下完成，保证了网络的端到端训练过程。

D)匹配模块根据抓取检测匹配策略对物体检测结果和抓取检测结果执行匹配操作，以确定每个抓取位置检测框所属的物体类别。如图2所示，抓取匹配策略步骤如下：

1)获取抓取位置检测框和物体位置检测框；

2)按抓取位置检测框置信度得分，从高到低保留与物体位置检测框同等数量的抓取位置检测框；

3)计算物体位置检测框和抓取位置检测框两两之间的MIoU值；

4)抓取位置检测框类别为与其本身MIoU值最大的物体位置检测框所属的类别。

其中，A_h为物体检测水平矩形框面积

A_r为抓取检测倾斜矩形框面积。

具体实施例：

步骤1：利用RGB图像传感器采集抓取检测场景图像。

步骤2：利用深度学习网络框架提取检测场景图像特征。

在本步骤中，使用在抓取检测数据集上完成训练的深度学习网络框架提取检测场景特征。以深度残差网络ResNet50为基础网络，以每个残差块的最后一层作为金字塔层，分别记为{C₂,C₃,C₄,C₅}，尺寸大小逐渐降低，分别对应底层特征和高层特征。以这些金子塔层构建稠密特征，分别记为{P₂,P₃,P₄,P₅}。特征图P₂由金字塔层C₂,C₃,C₄,C₅通过上采样和特征堆叠构建，P₃由金子塔层C₃,C₄,C₅构建，以此类推。

步骤3：在图像特征图上生成物体检测感兴趣区域和抓取检测感兴趣区域。

在本步骤中，对应特征图上的每一个像素点位置，生成不同尺寸和宽高比的预定义anchor，其中：

物体检测网络在特征图P₂,P₃,P₄,P₅上生成不同尺寸和宽高比的水平anchor。不同特征图对应的anchor基本尺寸分别为{32,64,128,256}，每个anchor的尺寸缩放比例分别为{1/2,1,2}；

抓取检测网络在特征图P₄上生成不同倾斜角度的anchor。每个anchor的基本尺寸为12，保持宽高比为1:1，对应的旋转角度分别为{-60°,-30°,0°,30°,60°}。

倾斜anchor为正样本的条件为：

1)倾斜anchor和真值抓取矩形框中心的距离小于设定阈值50；

2)倾斜anchor和真值抓取矩形框之间的旋转角度之差小于设定阈值15°。

步骤4：利用物体检测网络和抓取检测网络分别获取目标物体位置和抓取位置。

在本步骤中，物体检测网络以步骤3生成的物体检测anchor为输入，将网络回归分支预测的物体位置偏移量加入到对应的anchor上，获得物体检测框尺寸大小；同时，网络的分类分支为每一个得到的物体检测框预测一个物体类别和相应的置信度得分。最后，利用非极大值抑制策略将重叠度较大的物体检测框移除，得到如图4所示的物体检测结果。

抓取检测网络以步骤3生成的抓取检测anchor为输入，将抓取网络回归分支预测的抓取位置偏移量和旋转角度偏移量加入到对应的倾斜anchor上，获得抓取检测框尺寸大小和旋转角度；同时，抓取网络的分类分支为每一个抓取检测框预测一个置信度得分，表示该抓取检测结果为正确抓取位置的概率。最后，利用非极大值抑制策略去除重叠度较大的抓取检测框，得到如图5所示的抓取检测结果。

步骤5：根据抓取匹配策略，为每个可抓取位置分配一个物体类别。

在本步骤中，首先获得步骤4返回的物体检测框和抓取检测框，并且按抓取检测框得分，从高到低保留与物体检测框同等数量的抓取检测框，然后计算物体检测框和抓取检测框两两之间的MIoU值，最后，抓取检测框类别为与其本身MIoU值最大的物体检测框所属的类别。

本发明将物体检测网络和抓取检测网络融合为一个端到端的多物体抓取检测网络，解耦了物体检测任务和抓取检测任务，保证了网络训练过程中两个任务的互不干扰。使用稠密特征金字塔网络融合了检测场景的底层特征和高层特征，提高了网络对小物体的检测能力。并设计了抓取检测与物体检测结果之间的匹配策略，通过简单的后处理方法获得了抓取检测的所属类别。

与现有技术相比，本发明使用多任务融合的多物体抓取检测网络处理RGB图像，解耦了两个相互关联的检测任务，克服了抓取检测结果对物体检测结果的依赖，提高了检测精度和检测速度，同时能为每个抓取检测框分配所属的物体类别。在多物体抓取检测数据集VMRD[2]上，本发明的物体检测平均精度(MAP)达到95.1％；相对于物体检测和抓取检测相互级联的传统方法，本发明的抓取检测平均精度(MAP)提升了8.9％。

[1]S.Q.Ren,K.M.He,R.Girshick,J.Sun,Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks,IEEE Transactions on PatternAnalysis and Machine Intelligence,39(6)(2017)1137-1149.

[2]H.Zhang,X.Lan,S.Bai,X.Zhou,Z.Tian,N.Zheng,ROI-based Robotic GraspDetection for Object Overlapping Scenes,in:IEEE/RSJ International Conferenceon Intelligent Robots and Systems,2019,pp.4768-4775.

以上所述，仅为本发明较佳的具体实施方案，但本发明的保护范围并不局限于上述实施方案，任何本技术领域的技术人员在本发明描述的技术范围内，根据本发明的技术方案及其发明构思所做的等同替换或改变，都应包含在本发明的保护范围之内。

Claims

1.一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，包括以下步骤：

步骤1)利用RGB图像传感器采集场景检测图像；

2.根据权利要求1所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，所述步骤2.1)中的特征提取模块采用深度学习网络，包括ResNet50，ResNet101，VGG16，VGG19，GoogleNet，AlexNet。

3.根据权利要求1所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，所述步骤2.2)具体为：

物体位置候选区域生成模块和抓取位置候选区域生成模块在特征图的每个像素点位置同时生成多个锚框；物体位置候选区域生成模块对应的锚框为多个尺寸不同的水平矩形框，抓取位置候选区域生成模块对应的锚框为多个尺寸不同、倾斜度不同的倾斜矩形框；

4.根据权利要求3所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，物体位置候选区域生成模块和抓取位置候选区域生成模块同时执行，互不干扰。

5.根据权利要求3所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于：

为每个倾斜矩形框分配正负标签的策略具体为：当倾斜矩形框同时满足以下两个条件时，认为当前倾斜矩形框为正样本：条件1)倾斜矩形框和真值抓取矩形框中心的距离小于设定阈值；条件2)倾斜矩形框和真值抓取矩形框之间的旋转角度之差小于设定阈值。

6.根据权利要求3所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，物体检测模块和抓取检测模块同时执行，互不干扰。

7.根据权利要求1所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，所述步骤2.3)具体为：

2.3.1)通过步骤2.2)获取物体位置检测框和抓取位置检测框

8.根据权利要求1所述的一种用于多物体复杂场景的机器人抓取检测方法，其特征在于，所述MIoU值的计算方法为：

其中，A_h为水平矩形框面积，A_r为倾斜矩形框面积。