CN108010078B

CN108010078B - 一种基于三级卷积神经网络的物体抓取检测方法

Info

Publication number: CN108010078B
Application number: CN201711228319.XA
Authority: CN
Inventors: 尚伟伟; 喻群超; 张驰; 丛爽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2020-06-26
Anticipated expiration: 2037-11-29
Also published as: CN108010078A

Abstract

本发明公开了一种基于三级串联卷积神经网络的物体抓取检测方法，包括：1获取数据集；2构建第一级、第二级和第三级卷积神经网络的网络结构，并训练卷积神经网络；3利用训练后的三级串联卷积神经网络获取目标物的预选抓取框和预选抓取框的评判值；4通过评判值获取最佳抓取框；5确定所述目标物的位置与姿态。本发明能提高抓取框的准确度，实现对未知物体的高准确度抓取。

Description

一种基于三级卷积神经网络的物体抓取检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于三级卷积神经网络的物体抓取检测方法。

背景技术

物体抓取操作作为机器人的基本功能，一直是机器人领域的一个重要的研究方向。为了提高物体抓取的成功率和准确度，很多研究者将物体的抓取点作为研究对象，通过选择物体的最佳抓取点来提高抓取的成功率和准确度。在深度学习提出来前，大多数情况下都是通过手工设计特征或通过物体的三维模型来确定物体的抓取点，这样获得的抓取点准确度较高，但只能针对特殊物体或已知三维模型的物体，而不能获得未知物体的抓取点。深度学习提出后，虽然可以利用卷积神经网络对未知物体进行检测，但是抓取点的正确率相对较低，需要进一步提高，因此，目前需要进一步改善获取最佳抓取点的方法，使得物体抓取不受未知物体限制，并具有较高的抓取成功率和准确度。

发明内容

本发明针对目前对物体的抓取检测不足之处，提供一种基于三级卷积神经网络的物体抓取检测方法，以期能提高抓取框的准确度，实现对未知物体的高准确度抓取检测。

本发明为解决技术问题采用如下技术方案：

本发明一种基于三级卷积神经网络的物体抓取检测方法，是应用于由机器人、摄像机、目标物所组成的物体抓取操作中，其特点是，所述物体抓取检测方法是按如下步骤进行：

步骤1：获取第一组数据集和第二组数据集，所述第一组数据集用于训练第一级卷积神经网络，所述第二组数据集用于训练第二级和第三级卷积神经网络；

步骤2：构建第一级、第二级和第三级卷积神经网络，并利用所述第一组数据集和第二组数据集离线训练所述第一级、第二级和第三级卷积神经网络的参数，从而得到卷积神经网络模型；

步骤3：由所述摄像机获取所述目标物的图像，并作为所述卷积神经网络模型的输入；

步骤4：基于第一级卷积神经网络，通过滑动窗的方式对所述目标物的图像空间进行搜索，寻找出所述目标物的初步位置；

步骤5：基于第二级卷积神经网络，通过滑动窗的方式对所述初步位置进行搜索，并确定若干个抓取矩形框作为预选抓取框；

步骤6：利用第三级卷积神经网络对所述预选抓取框进行精确评判，获取每个预选抓取框的评判值；

步骤7：根据预选抓取框的评判值对预选抓取框进行降序排序，并选出排名前N的预选抓取框；获取N个预选抓取框的各个中心点，并对所述各个中心点求取中心平均值，根据所述中心平均值分别得到N个预选抓取框的均方差，并选择均方差最小的预选抓取框作为最优抓取框；

步骤8：使用所述最优抓取框确定所述目标物的位置与姿态。

本发明所述的基于三级卷积神经网络的物体抓取检测方法的特点也在于：

步骤1中的第一组数据集和第二组数据集按如下步骤获取：

步骤1.1：利用所述摄像机获取各种抓取物体的RGB图像，记任意一张RGB图像为u；

步骤1.2：对RGB图像u进行网格划分，获得n张相同大小的矩形图片，记任意一张矩形图片为r；若所述矩形图片r包含抓取物，则令矩形图片r的标签为1；若所述矩形图片r不包含抓取物，则令矩形图片r的标签为0，从而得到所有带标签的矩形图片构成第一组数据集；

步骤1.3：利用矩形框对RGB图像u进行截取，获取若干个的随机矩形图片，记任意一张随机矩形图片为s；判断随机矩形图片s中所包含的抓取物是否能实现物体抓取，若能实现，则令随机矩形图片s的标签值属于[α,1]；否则，令随机矩形图片s的标签值属于[0,α]；从而得到第二组数据集。

步骤2中第一级、第二级和第三级卷积神经网络参数具体包含如下内容：

步骤2.1：建立第一级卷积神经网络的结构，包括：一组卷积层、一组池化层和一个全连接层；利用所述第一组数据集学习第一级卷积神经网络的网络函数F₁(x,Θ)，其中，x为第一组数据集，Θ为第一级卷积神经网络的网络参数；

步骤2.2：使用式(1)所示的损失函数更新网络参数Θ：

式(1)中，x_i是所述第一组数据集中任意一个矩形图片，y_i是矩形图片x_i所对应的标签；i＝1,2,…,N，N是第一组数据集的样本数量；

步骤2.3：建立第二级卷积神经网络结构，包含一组卷积层、一组池化层和一个全连接层；利用所述第二组数据集学习第二级卷积神经网络的网络函数F₂(x′,Θ′)，其中，x′为所述第二组数据集，Θ′为第二级卷积神经网络的网络参数；

步骤2.4：使用式(2)所示的损失函数更新网络参数Θ′：

式(2)中，x_j′是所述第二组数据集中任意一个随机矩形图片，y_i′是矩形图片x_i′所对应的标签；j＝1,2,…,M，M是第二组数据集的样本数量；

步骤2.5：建立第三级卷积神经网络结构，包含两组卷积层、两组池化层和两个全连接层；利用所述第二组数据集学习第三级网络函数F₃(x′,Θ″)，其中，Θ″为第三级卷积神经网络的网络参数；

步骤2.6：使用式(3)所示的损失函数更新网络参数Θ″：

步骤8中的物体位置与姿态是按如下步骤确定：

步骤8.1：确定目标物的位置：

利用式(4)获得所述目标物的图像中目标物在相机坐标系F_ca下的位置O_{(x′,y′,z′)}：

式(4)中，Z(i,j)表示所述目标物的图像中任意像素点(i,j)在相机坐标系F_ca下的三维坐标值；x和y分别表示最优抓取框的中心点的坐标值；x′、y′和z′分别表示所述目标物在相机坐标系F_ca下的三维坐标值；

步骤8.2：确定目标物的姿态：

根据笛卡尔坐标系右手法则建立物体坐标系F_ob，并使得所述物体坐标系F_ob的z轴与相机坐标系F_ca的z轴平行且方向相反，则利用式(5)获得目标物在相机坐标系F_ca下的姿态

式(5)中，θ是最优抓取框所述目标物的图像中的旋转度；

步骤8.3：利用式(6)获得目标物的位姿矩阵

步骤8.4：根据所述相机坐标系F_ca与末端执行器坐标系F_cl的固定相对位姿，得到相机坐标系F_ca在末端执行器坐标系F_cl中的位姿矩阵

步骤8.5：通过正运动学求解法得到末端执行器坐标系F_cl在机器人坐标系F_ba中的位姿矩阵

步骤8.6：利用式(7)得到所述目标物的在机器人坐标系F_ba中的位姿矩阵

与已有技术相比，本发明的有益效果体现在：

1、本发明使用了卷积神经网络，对图像的平移、比例放缩、旋转和其他形式的变形具有高度不变形，从而使得卷积神经网络能快速而准确地获得图像的特征，找到物体的最佳抓取点，特别是对于一些不规则或未知的物体，不再需要手工设计特征或建立物体的三维模型，就能够获得物体的最佳抓取框。

2、本发明使用卷积神经网络作为基础检测网络，并使用大量数据集进行训练，网络泛化能力较强，对检测的物体没有种类要求，可以对任何物体进行抓取框检测，包括在训练集中没有的物体，从而实现了对未知物体的准确抓取。

3、本发明使用的基础卷积神经网络中加入了空间金字塔池化层，因此网络不受图形输入大小的限制，三级卷积神经网络由基础卷积神经网络组成，同样不受图形输入大小的限制，输入的图像不需要放缩处理，保留了更多的图像信息。

4、本发明采用了串联的三级卷积神经网络检测物体的抓取框，第一级用于物体的初步定位，为下一级卷积神经网络搜索抓取框确定位置，减小了抓取框的收搜范围；第二级用于获取预选抓取框，以较小的网络获取较少的特征，从而快速地找出物体的可用抓取框；第三级用于重新评判预选抓取框，以较大的网络获取较多的特征，从而准确地评估每个预选抓取框，提高了抓取框的准确率。总体而言，串联的三级卷积神经网络，减小了获取抓取框的时间，提高了抓取框的正确率，目前正确率提到了94.1％，比已有算法高出6.1％。

附图说明

图1为本发明中系统流程图；

图2为本发明中第一级卷积神经网络图；

图3为本发明中第二级卷积神经网络图；

图4为本发明中第三级卷积神经网络图；

图5为本发明中最佳抓取框选择算法流程图；

图6为本发明中机器人与物体的坐标系。

具体实施方式

本实施例中，如图1所示，一种基于三级卷积神经网络的物体抓取检测方法，是应用于由机器人、摄像机、目标物所组成的物体抓取操作中，该物体抓取检测方法包括：获取训练数据集，构建第一级、第二级和第三级卷积神经网络的网络结构，选择最佳抓取框，确定物体位置与姿态。其中对于三级卷积神经网络，第一级网络用于对物体进行初步定位，为下一级卷积神经网络搜索抓取框确定位置；第二级网络用于获取预选抓取框，以较小的网络获取较少的特征，从而快速地找出物体的可用抓取框，剔除不可用的抓取框；第三级网络用于重新评判预选抓取框，以较大的网络获取较多的特征，从而准确地评估每个预选抓取框，再选取最佳抓取框。具体地说，是按如下步骤进行：

步骤1：获取第一组数据集和第二组数据集，第一组数据集用于训练第一级卷积神经网络，第二组数据集用于训练第二级和第三级卷积神经网络；

步骤1.1：利用摄像机获取各种抓取物体的RGB图像，记任意一张RGB图像为u；

步骤1.2：对RGB图像u进行网格划分，获得n张相同大小的矩形图片，记任意一张矩形图片为r；若矩形图片r包含抓取物，则令矩形图片r的标签为1；若矩形图片r不包含抓取物，则令矩形图片r的标签为0，从而得到所有带标签的矩形图片构成第一组数据集；

步骤1.3：利用矩形框对RGB图像u进行截取，获取若干个的随机矩形图片，记任意一张随机矩形图片为s；判断随机矩形图片s中所包含的抓取物是否能实现物体抓取，若能实现，则令随机矩形图片s的标签值属于[α,1]；否则，令随机矩形图片s的标签值属于[0,α]，α的最佳取值为0.5；从而得到第二组数据集；

步骤2：构建第一级、第二级和第三级卷积神经网络，并利用第一组数据集和第二组数据集离线训练第一级、第二级和第三级卷积神经网络的参数，从而得到卷积神经网络模型；

步骤2.1：建立第一级卷积神经网络的结构，包括：一组卷积层、一组池化层和一个全连接层，如图2所示，卷积层中进行六层卷积运算，卷积核大小为3*3；池化层中使用空间金字塔池化方法进行池化运用，保证输出为2x2的六张特征图；利用第一组数据集学习第一级卷积神经网络的网络函数F₁(x,Θ)，其中，x为第一组数据集，Θ为第一级卷积神经网络的网络参数；

步骤2.2：使用式(1)所示的损失函数更新网络参数Θ：

式(1)中，x_i是第一组数据集中任意一个矩形图片，y_i是矩形图片x_i所对应的标签；i＝1,2,…,N，N是第一组数据集的样本数量；

步骤2.3：建立第二级卷积神经网络结构，包含一组卷积层、一组池化层和一个全连接层，如图3所示，卷积层中进行六层卷积运算，卷积核大小为3*3；池化层中使用空间金字塔池化方法进行池化运用，保证输出为2x2的六张特征图；利用第二组数据集学习第二级卷积神经网络的网络函数F₂(x′,Θ′)，其中，x′为第二组数据集，Θ′为第二级卷积神经网络的网络参数；

步骤2.4：使用式(2)所示的损失函数更新网络参数Θ′：

式(2)中，x′_j是第二组数据集中任意一个随机矩形图片，y′_i是矩形图片x′_i所对应的标签；j＝1,2,…,M，M是第二组数据集的样本数量；

步骤2.5：建立第三级卷积神经网络结构，包含两组卷积层、两组池化层和两个全连接层，如图4所示，第一层卷积中进行六层卷积运算，卷积核大小为5*5，第二层卷积中进行十二层卷积运算，卷积核大小为3*3；第一次池化利用2*2的卷积核进行均值池化运算，第二次池化利用空间金字塔池化方法进行池化运用，保证输出为2x2的十二张特征图；利用第二组数据集学习第三级网络函数F₃(x′,Θ″)，其中，Θ″为第三级卷积神经网络的网络参数；

步骤2.6：使用式(3)所示的损失函数更新网络参数Θ″：

步骤3：由摄像机获取目标物的图像，并作为卷积神经网络模型的输入；

步骤4：基于第一级卷积神经网络，通过滑动窗的方式对目标物的图像空间进行搜索，寻找出目标物的初步位置；滑动窗口的大小是根据图像大小变化而改变，且步进大小由滑动窗口大小决定，例如，对于640*480的图像，滑动窗口大小可以设为16*12，步进设为16*12；

步骤5：基于第二级卷积神经网络，通过滑动窗的方式对初步位置进行搜索，并确定若干个抓取矩形框作为预选抓取框；在滑动窗口时，需要不断改变滑动窗口的大小、旋转角度、位置，以此来搜索可能的抓取矩形框；

步骤6：利用第三级卷积神经网络对预选抓取框进行评判，获取每个预选抓取框的精确评判值，为选取最优抓取抓取框提供选择依据；

步骤7：根据预选抓取框的评判值对预选抓取框进行降序排序，并选出排名前N的预选抓取框；获取N个预选抓取框的各个中心点，并对各个中心点求取中心平均值，根据中心平均值分别得到N个预选抓取框的均方差，并选择均方差最小的预选抓取框作为最优抓取框，具体算法如图5所示，首先，在预选抓取框中找出评判值排在前3位且中心位置不同的抓取框G_t1、G_t2、G_t3，如图5中的虚框中所示，初始化G_t1、G_t2、G_t3后，输入预选抓取框G_i及该抓取框的评判值J_i，接着将抓取框的评判值J_i与第1抓抓取框G_t1的评判值J_t1进行比较：如果J_i大于J_t1，那么再将它们的中心值进行比较，如果中心值相等，直接将该预选抓取框G_i赋值给G_t1，如果中心值不相等，则依次执行下面操作，G_t2赋值给G_t3，G_t1赋值给G_t2，G_i赋值给G_t1，执行完后进入下一个循环；如果J_i不大于J_t1，那么进行下一个判断，并根据判断的结果执行不同步骤，最终通过虚框中循环步骤获得评判值排在前3位且中心位置不同的抓取框G_t1、G_t2、G_t3.然后，取出抓取框G_t1、G_t2、G_t3，求取中心平均值(x,y)，并对每个抓取框求取均方差.最后，选取均方差最小的值作为最佳抓取框；

步骤8：使用最优抓取框确定目标物的位置与姿态。

步骤8.1：确定目标物的位置：

利用式(4)获得目标物的图像中目标物在相机坐标系F_ca下的位置O_{(x′,y′,z′)}：

式(4)中，Z(i,j)表示目标物的图像中任意像素点(i,j)在相机坐标系F_ca下的三维坐标值；x和y分别表示最优抓取框的中心点的坐标值；x′、y′和z′分别表示目标物在相机坐标系F_ca下的三维坐标值；

步骤8.2：确定目标物的姿态：

根据笛卡尔坐标系右手法则建立物体坐标系F_ob，并使得物体坐标系F_ob的z轴与相机坐标系F_ca的z轴平行且方向相反，如图6所示，则利用式(5)获得目标物在相机坐标系F_ca下的姿态

式(5)中，θ是最优抓取框目标物的图像中的旋转度，

固定角坐标系中的等价旋转矩阵公式，出处：John J.Craig著，贠超等译，机械工业出版社《机械人学导论》第三版，第26页公式2-26；

步骤8.3：利用式(6)获得目标物的位姿矩阵

步骤8.4：根据相机坐标系F_ca与末端执行器坐标系F_cl的固定相对位姿，得到相机坐标系F_ca在末端执行器坐标系F_cl中的位姿矩阵

步骤8.6：利用式(7)得到目标物的在机器人坐标系F_ba中的位姿矩阵