CN111310637B

CN111310637B - 一种基于尺度不变网络的机器人目标抓取检测方法

Info

Publication number: CN111310637B
Application number: CN202010086282.7A
Authority: CN
Inventors: 陈路; 钱宇华; 吴鹏; 王克琪; 刘畅; 卢佳佳
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2022-11-11
Anticipated expiration: 2040-02-11
Also published as: CN111310637A

Abstract

本发明属于计算机视觉与智能机器人领域，具体涉及一种基于尺度不变网络的机器人目标抓取检测方法。本发明的目的在于弥补现有抓取检测算法在目标尺度变化适应性和抓取状态多样性表示上的不足，提供一种无需复杂多尺度网络结构和多观测角度样本，能够自适应估计尺度变换因子，提供目标一致性输出，且能够同时表示抓取区域连续分布和多种抓取状态的物体抓取检测方法，本发明能够根据待抓取物体的尺寸及其与相机的实际距离，自适应调整尺度变换因子，获得目标物体的一致性输出，从而保证抓取检测结果在不同尺度下的鲁棒性。

Description

一种基于尺度不变网络的机器人目标抓取检测方法

技术领域

本发明属于计算机视觉与智能机器人领域，具体涉及一种基于尺度不变网络的机器人目标抓取检测方法。

背景技术

随着劳动力短缺、人口老龄化加剧等问题的日益严峻，机器人在人类生产、生活中正扮演着越来越重要的角色。由于能够替代人类完成部分家庭任务，家庭服务机器人得到愈加广泛的重视。现有的家庭服务机器人主要集中于教育机器、扫地机器人等，其智能化程度较弱，缺乏有效地感知外界环境的能力，因此很难开展有效的人机交互任务。通过广泛调研，机器人对物体的抓取能力是实现人机交互和家庭服务的重要功能，例如：地面垃圾拾取，为行动不便人士拿取药瓶、衣物，自助桌面整理等。因此，如何从复杂背景中准确定位待抓取物体，并确定可靠的抓取部位(即：抓取检测)便成为实现机器人抓取的重要问题。

然而，现有抓取检测方法大都直接针对视觉传感器采集的光学图像，未考虑其与物体的相对空间位置关系，这会导致观测尺度问题。当相机与物体的距离较远时，观测尺度较小，物体在图像中表现为微小面积，其轮廓特征明显；反之，当相机与物体的距离较近时，观测尺度较大，物体在图像中的有效面积增大，其局部纹理特征明显，抓取区域的提取质量在很大程度上受到观测距离的影响。不难看出，待抓取物体在图像中的成像尺度会对抓取区域的有效提取带来干扰，现有方法通常采用提高训练样本多样性、引入多尺度网络模型等手段提高算法鲁棒性，但上述手段无法从根本上解决算法对尺度的不变性问题。

此外，为充分利用深度学习强大的特征学习和表示能力，现有抓取检测方法通常采用有向矩形框定义末端手爪的抓取姿态，但上述抓取表示方式只能预测有限数量的抓取区域，无法反映真实的连续抓取情况；而基于抓取路径的表示方式利用分布于物体上的一条或多条直线段刻画抓取区域的连续分布，较好地解决了抓取区域的连续表示问题，但一条抓取路径只能对应一种抓取状态。特别地，当物体存在较大形变时，单一抓取状态会产生不同程度的抓取偏差，导致抓取失败。因此，采用一种尺度变换模块，生成待抓取物体的尺度一致性输出，从而保证抓取检测结果对尺度干扰的鲁棒性；同时，引入一种抓取表示方式，具有十分重要的意义。

发明内容

本发明的目的在于弥补现有抓取检测算法在目标尺度变化适应性和抓取状态多样性表示上的不足，提供一种无需复杂多尺度网络结构和多观测角度样本，能够自适应估计尺度变换因子，提供目标一致性输出，且能够同时表示抓取区域连续分布和多种抓取状态的物体抓取检测方法。为解决上述技术问题，本发明采用的技术方案为：

一种基于尺度不变网络的机器人目标抓取检测方法，包括以下步骤：

步骤1，图像采集：利用光学相机采集包含待抓取目标的RGB图像，作为后续步骤的输入信息；

步骤2，特征提取：构建特征提取模块，并将特征提取模块的第30层，即修正线性单元层的输出作为当前图像提取出的特征图；

步骤3，目标定位与缩放：

首先，在步骤2特征图的基础上，通过级联尺寸为MNC×4的全连接层，输出目标空间位置,完成目标定位；

然后，在目标定位结果的基础上，沿每个通道方向应用双线性二次插值等比例放大目标区域，放大倍数为min(M/w,N/h)，并对放大后的目标区域进行下采样，使其在每个通道上满足N×M的尺寸要求；

最后，通过C个1×1卷积核将原尺寸映射为N×M×C，完成待抓取目标尺度的放大；

步骤4，四边形抓取表示方式检测：

首先，在步骤3放大后目标特征图的基础上引入锚点机制，对于特征图上的每个像素点，均提取以该像素点为中心的9个矩形框；

然后，采用K均值算法对训练数据集中的真实值进行聚类分析，得到各锚点的尺寸分别为：(10,13)，(16,30)，(33,23)，(30,61)，(62,45)，(59,119)，(116,90)，(156,198)，(373,326)；

最后，对于每一个锚点，预测其四个顶点与真实四边形各顶点的位置偏移量，分别为{(Δx_i,Δy_i)|i＝1,2,3,4}，i表示各顶点的序号，即完成四边形抓取表示方式检测；

步骤5，边界重优化：选取当前四边形的最小外接矩形包围盒，以此为基础进行池化操作，并级联1×1卷积核和全连接层对预测结果的空间位置进行二次优化；引入损失函数对抓取检测模型的精度进行评价，通过损失值的反向传播调整模型参数，迭代运行步骤2-5，直至模型收敛，即完成基于尺度不变网络的机器人目标抓取检测。

进一步，所述步骤2中的特征提取模块由13个卷积层、13个修正线性单元层和4个池化层组成。

再进一步，所述步骤3中在步骤2特征图的基础上，通过级联尺寸为MNC×4的全连接层，输出目标空间位置，完成目标定位，具体为：

第30层网络输出的特征图尺寸为N×M×C，N,M,C分别表示特征图的高度、宽度和通道数，通过级联尺寸为MNC×4的全连接层，达到预测目标位置的目的，输出的四个参数为x,y,w,h，分别表示目标包围盒左上角顶点的横、纵坐标，包围盒的宽度和高度。

更进一步，所述步骤3中在目标定位结果的基础上，沿每个通道方向应用双线性二次插值等比例放大目标区域，放大倍数为min(M/w,N/h)，并对放大后的目标区域进行下采样，使其在每个通道上满足N×M的尺寸要求，具体为：

首先，在每个通道上应用双线性二次插值等比例放大包围盒，沿x轴方向的放大倍数为M/w，沿y轴方向的放大倍数为N/h，由于两者通常并不相同，将较小的数值作为当前包围盒的等比例放大倍数；

然后，若M/w＜N/h，则沿x轴方向以Nw/Mh为间隔将宽度进行M等分，将每一等分内的1×wN/h×C维参数变换为1×1×wNC/h，则放大后包围盒的尺寸为N×M×wNC/h；若M/w≥N/h，则沿y轴方向以Mh/Nw为间隔将高度进行N等分，将每一等分内的Mh/w×1×C维参数变换为1×1×MhC/w，则放大后包围盒的尺寸为N×M×MhC/w；

最后，通过C个1×1卷积核将原尺寸映射为N×M×C，实现待抓取目标尺度放大的目的。

更进一步，所述步骤4中的9个矩形框具有3种尺度，每个尺度下具有3种长宽比。

更进一步，所述步骤5中最小外接矩形包围盒及损失函数的定义为：

最小外接矩形包围盒的参数为{x_out,y_out,w_out,h_out}，分别定义为：

x_out＝min{x_i},y_out＝min{y_i},w_out＝max{x_i}-min{x_i}+1

h_out＝max{y_i}-min{y_i}+1,i＝1,2,3,4

其中x_i,y_i分别表示第i个顶点对应的横、纵坐标；

模型损失L由分类损失L_cls和回归损失L_reg两部分构成，L_cls采用二值交叉熵函数，定义了当前预测区域为真实抓取区域的置信度，L_reg采用SmoothL₁函数，用于衡量预测区域与真实抓取区域顶点的位置差异。

综上所述，针对不同任务场景下物体尺度变化剧烈的问题，该技术方案引入一种基于目标定位结果的尺度变换模块，无需大规模训练样本和多尺度网络结构；针对基于规则有向矩形框的抓取表示方式只能表达单一抓取状态的问题，该技术方案提出基于不规则四边形的抓取表示方式，其优点在于不同抓取位置可对应不同的抓取状态。

与现有技术相比，本发明具有以下有益效果：

1.本发明能够根据待抓取物体的尺寸及其与相机的实际距离，自适应调整尺度变换因子，获得目标物体的一致性输出，从而保证抓取检测结果在不同尺度下的鲁棒性；

2.本发明有效克服现有抓取表示方式的不足，能够以一种表示方式同时实现抓取区域连续分布和多种抓取状态的描述。

3.本发明的方法易于实现，其应用价值主要体现在以下几个方面：

1)在物理受限操作环境下有效保证抓取检测精度和鲁棒性；

2)为机器人实际抓取任务提供更丰富、更多样化的抓取选项，提高抓取成功率；

附图说明

图1为本发明的流程图；

图2为不同抓取表示方式的示意图；

图3为本发明的规则锚点矩形框(虚线)至不规则抓取四边形表示(实线)的映射示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

参见图1-3，本发明提出一种基于尺度不变网络的机器人目标抓取检测方法，其主要由图像采集、特征提取、目标定位与缩放、四边形抓取表示方式检测和边界重优化五部分构成。

步骤2，特征提取：构建由13个卷积层、13个修正线性单元层和4个池化层组成的特征提取模块，并将特征提取模块的第30层，即修正线性单元层的输出作为当前图像提取出的特征图；

步骤3，目标定位与缩放：

首先，在步骤2特征图的基础上，通过级联尺寸为MNC×4的全连接层，输出目标空间位置,完成目标定位：第30层网络输出的特征图尺寸为N×M×C，N,M,C分别表示特征图的高度、宽度和通道数，通过级联尺寸为MNC×4的全连接层，达到预测目标位置的目的，输出的四个参数为x,y,w,h，分别表示目标包围盒左上角顶点的横、纵坐标，包围盒的宽度和高度；

然后，在目标定位结果的基础上，沿每个通道方向应用双线性二次插值等比例放大目标区域，放大倍数为min(M/w,N/h)，并对放大后的目标区域进行下采样，使其在每个通道上满足N×M的尺寸要求：

首先，为保证物体尺度的一致性，将目标包围盒放大至特征图尺寸，在每个通道上应用双线性二次插值等比例放大包围盒，沿x轴方向的放大倍数为M/w，沿y轴方向的放大倍数为N/h，由于两者通常并不相同，将较小的数值作为当前包围盒的等比例放大倍数；

步骤4，四边形抓取表示方式检测：

采用多尺度卷积神经网络模型以端到端的方式建立输入图像与输出抓取表示参数之间的映射关系。与传统基于有向矩形框或基于抓取路径的表示方式不同，本发明所采用的抓取表示方式为凸四边形，其优点在于能够在刻画抓取区域连续分布的同时，为不同空间位置的抓取区域赋予不同的抓取状态，实现自适应抓取表示；

首先，为实现抓取检测，在步骤3放大后目标特征图的基础上引入锚点(Anchor)机制，对于特征图上的每个像素点，均提取以该像素点为中心的9个矩形框，所述9个矩形框具有3种尺度，每个尺度下具有3种长宽比；

然后，为加快搜索过程，采用K均值算法对训练数据集中的真实值进行聚类分析，得到各锚点的尺寸分别为：(10,13)，(16,30)，(33,23)，(30,61)，(62,45)，(59,119)，(116,90)，(156,198)，(373,326)；

步骤5，边界重优化：考虑预测的抓取区域为不规则四边形，无法直接进行池化操作，选取当前四边形的最小外接矩形包围盒，以此为基础进行池化操作，并级联1×1卷积核和全连接层对预测结果的空间位置进行二次优化，提高预测区域与真实区域的边界吻合程度；引入损失函数对抓取检测模型的精度进行评价，通过损失值的反向传播调整模型参数，迭代运行步骤2-5，直至模型收敛，模型损失L由分类损失L_cls和回归损失L_reg两部分构成，L_cls采用二值交叉熵函数，定义了当前预测区域为真实抓取区域的置信度，L_reg采用SmoothL₁函数，用于衡量预测区域与真实抓取区域顶点的位置差异，即完成基于尺度不变网络的机器人目标抓取检测。

所述最小外接矩形包围盒及损失函数的定义为：

x_out＝min{x_i},y_out＝min{y_i},w_out＝max{x_i}-min{x_i}+1

h_out＝max{y_i}-min{y_i}+1,i＝1,2,3,4

其中x_i,y_i分别表示第i个顶点对应的横、纵坐标；

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于尺度不变网络的机器人目标抓取检测方法，其特征在于：包括以下步骤：

步骤3，目标定位与缩放：

N,M,C分别表示特征图的高,度、宽度和通道数；

步骤4，四边形抓取表示方式检测：

输出的四个参数为x,y,w,h，分别表示目标包围盒左上角顶点的横、纵坐标，包围盒的宽度和高度；

2.根据权利要求1所述的基于尺度不变网络的机器人目标抓取检测方法，其特征在于：所述步骤2中的特征提取模块由13个卷积层、13个修正线性单元层和4个池化层组成。

3.根据权利要求1所述的基于尺度不变网络的机器人目标抓取检测方法，其特征在于：所述步骤3中在步骤2特征图的基础上，通过级联尺寸为MNC×4的全连接层，输出目标空间位置，完成目标定位，具体为：

第30层网络输出的特征图尺寸为N×M×C，通过级联尺寸为MNC×4的全连接层，达到预测目标位置的目的。

4.根据权利要求1所述的基于尺度不变网络的机器人目标抓取检测方法，其特征在于：所述步骤3中在目标定位结果的基础上，沿每个通道方向应用双线性二次插值等比例放大目标区域，放大倍数为min(M/w,N/h)，并对放大后的目标区域进行下采样，使其在每个通道上满足N×M的尺寸要求，具体为：

5.根据权利要求1所述的基于尺度不变网络的机器人目标抓取检测方法，其特征在于：所述步骤4中的9个矩形框具有3种尺度，每个尺度下具有3种长宽比。

6.根据权利要求1所述的基于尺度不变网络的机器人目标抓取检测方法，其特征在于：所述步骤5中最小外接矩形包围盒及损失函数的定义为：

x_out＝min{x_i},y_out＝min{y_i},w_out＝max{x_i}-min{x_i}+1

h_out＝max{y_i}-min{y_i}+1,i＝1,2,3,4

其中x_i,y_i分别表示第i个顶点对应的横、纵坐标；

x_out，y_out分别表示最小外接矩形包围盒左上角顶点的横、纵坐标，w_out，h_out分别表示最小外接矩形包围盒的宽度和高度；