CN110298886B

CN110298886B - 一种基于四级卷积神经网络的灵巧手抓取规划方法

Info

Publication number: CN110298886B
Application number: CN201910585483.9A
Authority: CN
Inventors: 尚伟伟; 宋方井; 丛爽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2020-12-25
Anticipated expiration: 2039-07-01
Also published as: CN110298886A

Abstract

本发明公开了一种基于四级串联卷积神经网络的灵巧手抓取规划方法，其步骤包括：获取抓取框数据集以及抓取手势数据集，分别对前三级卷积神经网络和第四级卷积神经网络进行训练，确定网络的参数，得到灵巧手的抓取模型；其中，所提出的四级串联卷积神经网络中，前三级卷积神经网络用于获取目标物的最佳抓取框；第四级用于预测灵巧手的抓取手势，以多输入的网络获取多种抓取特征，从而根据目标物被抓取部位图像信息和灵巧手位姿信息，预测当前状态下的抓取手势。本发明能实现对未知物体的精细抓取，使得灵巧手抓取不受未知物体限制，从而提高灵巧手的抓取成功率。

Description

一种基于四级卷积神经网络的灵巧手抓取规划方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于四级卷积神经网络的灵巧手抓取规划方法。

背景技术

物体抓取操作作为机器人的基本功能，一直是机器人领域的一个重要的研究方向。一般来说，抓取规划算法分为分析法和经验法。为了实现灵巧手抓取物体，分析法都是通过物体的三维模型来确定灵巧手的抓取位姿和手势，而现实环境中通常难以获取物体三维信息，这就大大限制了它们在实际场景中的应用。之后基于深度学习的经验法被广泛应用于抓取规划，但是其中大部分工作只考虑了简单夹持器的抓取规划。由于灵巧手不能像夹持器一样直接闭合，抓取规划需要考虑灵巧手的抓取手势，因此它们无法用在更加复杂的灵巧手抓取规划中。

发明内容

本发明针对目前灵巧手抓取规划方法的不足之处，提出一种便捷且实用的基于四级卷积神经网络的灵巧手抓取规划方法，以期能实现对未知物体的精细抓取，使得灵巧手抓取不受未知物体限制，从而提高灵巧手的抓取成功率。

本发明为解决技术问题采用如下技术方案：

本发明一种基于四级卷积神经网络的灵巧手抓取规划方法，是应用于由机器人、摄像机、目标物所组成的物体抓取操作中，其特点是，所述灵巧手抓取规划方法是按如下步骤进行：

步骤1：获取抓取框数据集以及抓取手势数据集：

步骤1.1：从网上获取已有的抓取框数据集；

步骤1.2：采集机器人灵巧手的抓取手势和抓取位姿，并获取目标物的深度图，根据所述抓取位姿及所述目标物的深度图，得到目标物被抓取部位的深度图；从而由所述抓取手势和抓取位姿以及目标物的深度图和目标物被抓取部位的深度图共同构成抓取手势数据集；

步骤2：设计卷积神经网络结构，包括四级卷积神经网络；其中，第一级卷积神经网络包括：n₁层卷积层、1层金字塔池化层和k₁层全连接层；第二级卷积神经网络包括：两个卷积神经网络，第一个卷积神经网络包括：n₂₁层卷积层、1层金字塔池化层和k₂₁层全连接层，第二个卷积神经网络包括：n₂₂层卷积层、m₂₂层最大池化层、1层金字塔池化层和k₂₂层全连接层；第三级卷积神经网络包括：n₃层卷积层、m₃层最大池化层、1层金字塔池化层和k₃层全连接层；第四级卷积神经网络包括：第一输入层、第二融合层和第三全连接层；所述输入层中包含三个输入通道，第一个输入通道包括：n₄₁层卷积层以及m₄₁层最大池化层；第二个输入通道包括：n₄₂层卷积层以及m₄₂层最大池化层；第三个输入通道包括：k₄₃层全连接层；所述第三全连接层包括：k₄层全连接层；

设置各个卷积层、最大池化层和全连接层的核大小和步进大小；

步骤3：训练卷积神经网络结构，并得到灵巧手抓取模型：

步骤3.1：使用所述抓取框数据集对前三级卷积神经网络进行训练，确定前三级卷积神经网络的参数；

步骤3.2：使用抓取手势数据集对所述第四级卷积神经网络进行训练，确定第四级卷积神经网络的参数；其中，以所述目标物的深度图作为所述第一个输入通道的输入，以所述目标物被抓取部位的深度图作为所述第二个输入通道的输入，以所述抓取位姿作为所述第三个输入通道的输入；以所述抓取手势作为第四级卷积神经网络的输出；

步骤4：获取目标物被抓取部位的深度图：

步骤4.1：通过所述摄像机获取视角内目标物的彩色图像以及点云数据从而构成目标物的识别图像，并作为灵巧手抓取模型的输入；

步骤4.2：所述识别图像经过前三级卷积神经网络的处理后，得到在识别图像上的最优抓取框，根据所述最优抓取框截取目标物的被抓取部位，从而得到识别图像的目标物被抓取部位的深度图；其中，所述识别图像上的最优抓取框包括最优抓取框的中心位置和旋转角θ；

步骤5：确定识别图像中灵巧手的位姿：

步骤5.1：确定识别图像中灵巧手的位置：

步骤5.1.1：将所述目标物的彩色图像与点云数据进行匹配，得到彩色图像中每个像素值在相机坐标系中的3D值；

步骤5.1.2：根据最优抓取框的中心点，得到手掌中心在相机坐标系中的实际位置；

步骤5.1.3：通过相机坐标系和世界坐标系的转换关系，得到手掌中心在世界坐标系中的实际位置并作为灵巧手的位置；

步骤5.2：确定识别图像中灵巧手的姿态：

步骤5.2.1：建立手掌坐标系P：

以所述手掌中心作为手掌坐标系的原点，以所述灵巧手的中指方向作为手掌坐标系的z轴，以所述灵巧手的大拇指外展方向作为x轴，建立手掌坐标系P；

步骤5.2.2：选取目标物上位于抓取中心附近且不处于同一条直线上的三个点来构建目标物平面；由三个点在相机坐标系下的坐标计算目标物的倾斜平面法向量n₁，再计算所述倾斜平面法向量n₁与竖直平面法向量n₂的夹角余弦值cosα，从而利用式(1)求解反余弦值，得到平面倾斜度α：

步骤5.2.3：由所述最优抓取框的旋转角θ和平面倾斜度α，从而利用式(2)得到手掌坐标系P相对于世界坐标系W的旋转矩阵

步骤5.3：确定灵巧手在世界坐标系中的位姿：

结合所述手掌中心在世界坐标系中的位置和所述手掌坐标系P相对于世界坐标系的旋转矩阵

得到灵巧手在世界坐标系中的位姿；

步骤5.4：确定灵巧手在物体坐标系中的位姿：

步骤5.4.1：建立物体坐标系O：

以所述抓取框中心作为物体坐标系O的原点，以水平方向作为物体坐标系的x轴，以竖直方向作为物体坐标系的y轴，从而建立物体坐标系O；

步骤5.4.2：通过物体坐标系O和世界坐标系的转换关系，得到灵巧手在物体坐标系O中的位姿；

步骤6：预测灵巧手的抓取手势：

将所述识别图像作为第四级卷积神经网络中第一个输入通道的输入，将所述识别图像的目标物被抓取部位的深度图作为第四级卷积神经网络中第二个输入通道的输入，将所述灵巧手在物体坐标系O中的位姿作为第四级卷积神经网络中第三个输入通道的输入，从而利用第四级卷积神经网络预测灵巧手的抓取手势。

与已有技术相比，本发明的有益效果体现在：

1、本发明使用了四级卷积神经网络，前三级卷积神经网络搜索目标物图像上的最优抓取框，第四级卷积神经网络根据目标物深度图、由抓取框确定的目标物抓取部位深度图以及灵巧手相对于物体坐标系的位姿，预测灵巧手的抓取手势。本发明只需要目标物的图像信息，就可以实现灵巧手的抓取操作，从而解决了分析法需要构建目标物三维模型的问题，使得灵巧手的抓取规划变得简便且易操作。

2、本发明使用第四级卷积神经网络作为灵巧手抓取手势预测网络，并使用大量数据集进行训练，网络泛化能力较强。网络对被抓取的目标物没有种类要求，可以对任何目标物进行抓取，包括在训练集中没有的目标物，从而解决了分析法无法抓取未知目标物的问题，提高了灵巧手的抓取能力。

3、本发明设计的第四级卷积神经网络，综合考虑了物体的形状信息和灵巧手的位姿信息，可以对任何物体进行任意位姿的抓取操作，从而提高了灵巧手的抓取能力，使得灵巧手能够应对多种抓取任务。

附图说明

图1为本发明第四级神经网络结构图；

图2本发明方法的流程图。

具体实施方式

本实施例中，应用于由机器人、摄像机、目标物所组成的物体抓取操作中的基于四级卷积神经网络的灵巧手抓取规划方法包括：获取抓取框数据集以及抓取手势数据集，设计四级卷积神经网络结构，获取目标物被抓取部位的深度图，确定灵巧手的位置与姿态。其中对四级卷积神经网络，第一二三级用于检测物体的最佳抓取框，获得物体被抓取部位的深度图；第四级网络根据被抓取部位的深度图以及灵巧手的位姿信息，预测灵巧手的抓取手势。具体地说，是按如下步骤进行：

步骤1：获取抓取框数据集以及抓取手势数据集：

步骤1.1：从网上获取已有公开的抓取框数据集，节省数据集准备时间；

步骤1.2：在仿真软件GraspIt！中采集机器人灵巧手的抓取手势和抓取位姿，并在仿真软件Gazebo中获取目标物的深度图，根据抓取位姿及目标物的深度图，得到目标物被抓取部位的深度图；从而由抓取手势和抓取位姿以及目标物的深度图和目标物被抓取部位的深度图共同构成抓取手势数据集；数据集总共拥有1039个抓取实例。在仿真环境中获取数据集，可以实现数据的自动化采集，并且避免了在实际环境中人工采集数据费时费力的缺点。

步骤2：设计卷积神经网络结构，包括四级卷积神经网络。该发明通过大量的实验，并受人类抓取经验启发，从而设计出四级卷积神经网络的结构。其中，第一级卷积神经网络包括：1层卷积层、1层金字塔池化层和1层全连接层，卷积层的核大小为3×3，步进大小为1×1，全连接层大小为1；第二级卷积神经网络包括：两个卷积神经网络，第一个卷积神经网络包括：1层卷积层、1层金字塔池化层和1层全连接层，卷积层的核大小为3×3，步进大小为1×1，全连接层大小为1，第二个卷积神经网络包括：2层卷积层、1层最大池化层、1层金字塔池化层和1层全连接层，第一层卷积层的卷积核大小为5×5，第二层卷积层的卷积核大小为3×3，步进大小均为1×1，全连接层大小为1；第三级卷积神经网络包括：2层卷积层、1层最大池化层、1层金字塔池化层和2层全连接层，第一层卷积层的卷积核大小为5×5，第二层卷积层的卷积核大小为3×3，步进大小均为1×1，第一层全连接层大小为24，第二层全连接层大小为1；第四级卷积神经网络包括：第一输入层、第二融合层和第三全连接层；输入层中包含三个输入通道，第一个输入通道包括：2层卷积层以及1层最大池化层，第一层卷积层的卷积核大小为12×12，第二层卷积层的卷积核大小为6×6，步进大小均为2×2；第二个输入通道包括：2层卷积层以及2层最大池化层，第一层卷积层的卷积核大小为6×6，第二层卷积层的卷积核大小为3×3，步进大小均为2×2；第三个输入通道包括：3层全连接层，全连接层的大小均为32；第三全连接层包括：4层全连接层，前三层全连接层大小均为256，第四层全连接层大小为16，第四层全连接层的大小对应灵巧手的关节数量；从而设置各个卷积层、最大池化层和全连接层的核大小和步进大小；

第一级卷积神经网络能够快速粗略地搜索识别图像上目标物所在区域；第二级卷积神经网络中第一个卷积神经网络搜索目标物识别图像中的预选抓取框，第二个卷积神经网络搜索目标物深度图中的预选抓取框，两者的联合搜索能够避免图像中干扰元素对抓取框搜索的影响；第三级卷积神经网络对预选抓取框进行更近一步地评判，得到最优的抓取框；第四级卷积神经网络的结构如图1所示，第四级卷积神经网络根据目标物深度图、由抓取框确定的目标物抓取部位深度图以及灵巧手相对于物体坐标系的位姿，预测灵巧手的抓取手势；第四级卷积神经网络考虑到了目标物被抓取部位的形状以及灵巧手相对于物体坐标系的位姿对灵巧手抓取手势的影响；每一级卷积神经网络都实现各自的功能，大大减少网络的运行时间。

步骤3：训练卷积神经网络结构，并得到灵巧手抓取模型：

步骤3.1：使用抓取框数据集对前三级卷积神经网络进行训练，确定前三级卷积神经网络的参数；

步骤3.2：使用抓取手势数据集对第四级卷积神经网络进行训练，确定第四级卷积神经网络的参数；其中，以目标物的深度图作为第一个输入通道的输入，以目标物被抓取部位的深度图作为第二个输入通道的输入，以抓取位姿作为第三个输入通道的输入；以抓取手势作为第四级卷积神经网络的输出；

灵巧手的抓取流程图如图2所示，具体实施步骤如下；

步骤4：通过前三级卷积神经网络获取目标物被抓取部位的深度图：

步骤4.1：由通过摄像机获取视角内目标物的彩色图像以及点云数据并构成目标物的识别图像，并作为灵巧手抓取模型的输入；

步骤4.2：识别图像经过前三级卷积神经网络的处理后，得到在识别图像上的最优抓取框，根据最优抓取框截取目标物的被抓取部位，从而得到识别图像的目标物被抓取部位的深度图；其中，识别图像上的最优抓取框包括最优抓取框的中心位置和旋转角θ；

步骤5：确定识别图像中灵巧手的位姿：

步骤5.1：确定识别图像中灵巧手的位置：

步骤5.1.1：将目标物的彩色图像与点云数据进行匹配，得到彩色图像中每个像素值在相机坐标系中的3D值；

步骤5.2：确定识别图像中灵巧手的姿态：

步骤5.2.1：建立手掌坐标系P：

以手掌中心作为手掌坐标系的原点，以灵巧手的中指方向作为手掌坐标系的z轴，以灵巧手的大拇指外展方向作为x轴，建立手掌坐标系P；

步骤5.2.2：选取目标物表面上位于抓取中心附近且不处于同一条直线上的三个点来构建物体表面平面；由三个点在相机坐标系下的坐标计算目标物的倾斜平面法向量n₁，再计算平面法向量n₁与竖直平面法向量n₂的夹角余弦值cosα，从而利用式(1)求解反余弦值，得到平面倾斜度α：

步骤5.2.3：由最优抓取框的旋转角θ和平面倾斜度α，计算得到手掌坐标系P相对于世界坐标系W的旋转矩阵

从而利用式(2)得到手掌坐标系P相对于世界坐标系的旋转矩阵为

步骤5.3：确定灵巧手在世界坐标系中的位姿：

结合手掌中心在世界坐标系中的位置和手掌坐标系P相对于世界坐标系的旋转矩阵

得到灵巧手在世界坐标系中的位姿；根据灵巧手在世界坐标系中的位姿，通过运动学反解计算机械臂每个关节的旋转值，从而使灵巧手到达抓取位姿。

步骤5.4：确定灵巧手在物体坐标系中的位姿：

步骤5.4.1：建立物体坐标系O：

以抓取框中心作为物体坐标系的原点，以水平方向作为物体坐标系的x轴，以竖直方向作为物体坐标系的y轴；

步骤5.4.2：通过物体坐标系和世界坐标系的转换关系，得到灵巧手在物体坐标系中的位姿；将灵巧手在物体坐标系中的位姿，作为第四级卷积神经网络的第三个输入通道的输入；之所以选择灵巧手在物体坐标系中的位姿作为输入而不是灵巧手在世界坐标系中的位姿，是因为当多次抓取同一目标物的同一部位但目标物在世界坐标系中发生移动时，可以保证第四级网络输入的灵巧手位姿不会发生变化，从而使网络预测的灵巧手抓取手势保持一致。

步骤6：预测灵巧手的抓取手势：

将识别图像作为第四级卷积神经网络中第一个输入通道的输入，将识别图像的目标物被抓取部位的深度图作为第四级卷积神经网络中第二个输入通道的输入，将灵巧手在物体坐标系中的位姿作为第四级卷积神经网络中第三个输入通道的输入，预测灵巧手的抓取手势；

步骤7：闭合灵巧手：

灵巧手接近目标物体，并达到预测的抓取手势后，检测灵巧手与物体是否接触；如果还未接触，则继续闭合灵巧手直到接触目标物，完成抓取任务。