CN108010078A - 一种基于三级卷积神经网络的物体抓取检测方法 - Google Patents

一种基于三级卷积神经网络的物体抓取检测方法 Download PDF

Info

Publication number
CN108010078A
CN108010078A CN201711228319.XA CN201711228319A CN108010078A CN 108010078 A CN108010078 A CN 108010078A CN 201711228319 A CN201711228319 A CN 201711228319A CN 108010078 A CN108010078 A CN 108010078A
Authority
CN
China
Prior art keywords
mrow
mtd
convolutional neural
neural networks
msup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711228319.XA
Other languages
English (en)
Other versions
CN108010078B (zh
Inventor
尚伟伟
喻群超
张驰
丛爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201711228319.XA priority Critical patent/CN108010078B/zh
Publication of CN108010078A publication Critical patent/CN108010078A/zh
Application granted granted Critical
Publication of CN108010078B publication Critical patent/CN108010078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于三级串联卷积神经网络的物体抓取检测方法,包括:1获取数据集;2构建第一级、第二级和第三级卷积神经网络的网络结构,并训练卷积神经网络;3利用训练后的三级串联卷积神经网络获取目标物的预选抓取框和预选抓取框的评判值;4通过评判值获取最佳抓取框;5确定所述目标物的位置与姿态。本发明能提高抓取框的准确度,实现对未知物体的高准确度抓取。

Description

一种基于三级卷积神经网络的物体抓取检测方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于三级卷积神经网络的物体抓取检测方法。
背景技术
物体抓取操作作为机器人的基本功能,一直是机器人领域的一个重要的研究方向。为了提高物体抓取的成功率和准确度,很多研究者将物体的抓取点作为研究对象,通过选择物体的最佳抓取点来提高抓取的成功率和准确度。在深度学习提出来前,大多数情况下都是通过手工设计特征或通过物体的三维模型来确定物体的抓取点,这样获得的抓取点准确度较高,但只能针对特殊物体或已知三维模型的物体,而不能获得未知物体的抓取点。深度学习提出后,虽然可以利用卷积神经网络对未知物体进行检测,但是抓取点的正确率相对较低,需要进一步提高,因此,目前需要进一步改善获取最佳抓取点的方法,使得物体抓取不受未知物体限制,并具有较高的抓取成功率和准确度。
发明内容
本发明针对目前对物体的抓取检测不足之处,提供一种基于三级卷积神经网络的物体抓取检测方法,以期能提高抓取框的准确度,实现对未知物体的高准确度抓取检测。
本发明为解决技术问题采用如下技术方案:
本发明一种基于三级卷积神经网络的物体抓取检测方法,是应用于由机器人、摄像机、目标物所组成的物体抓取操作中,其特点是,所述物体抓取检测方法是按如下步骤进行:
步骤1:获取第一组数据集和第二组数据集,所述第一组数据集用于训练第一级卷积神经网络,所述第二组数据集用于训练第二级和第三级卷积神经网络;
步骤2:构建第一级、第二级和第三级卷积神经网络,并利用所述第一组数据集和第二组数据集离线训练所述第一级、第二级和第三级卷积神经网络的参数,从而得到卷积神经网络模型;
步骤3:由所述摄像机获取所述目标物的图像,并作为所述卷积神经网络模型的输入;
步骤4:基于第一级卷积神经网络,通过滑动窗的方式对所述目标物的图像空间进行搜索,寻找出所述目标物的初步位置;
步骤5:基于第二级卷积神经网络,通过滑动窗的方式对所述初步位置进行搜索,并确定若干个抓取矩形框作为预选抓取框;
步骤6:利用第三级卷积神经网络对所述预选抓取框进行精确评判,获取每个预选抓取框的评判值;
步骤7:根据预选抓取框的评判值对预选抓取框进行降序排序,并选出排名前N的预选抓取框;获取N个预选抓取框的各个中心点,并对所述各个中心点求取中心平均值,根据所述中心平均值分别得到N个预选抓取框的均方差,并选择均方差最小的预选抓取框作为最优抓取框;
步骤8:使用所述最优抓取框确定所述目标物的位置与姿态。
本发明所述的基于三级卷积神经网络的物体抓取检测方法的特点也在于:
步骤1中的第一组数据集和第二组数据集按如下步骤获取:
步骤1.1:利用所述摄像机获取各种抓取物体的RGB图像,记任意一张RGB图像为u;
步骤1.2:对RGB图像u进行网格划分,获得n张相同大小的矩形图片,记任意一张矩形图片为r;若所述矩形图片r包含抓取物,则令矩形图片r的标签为1;若所述矩形图片r不包含抓取物,则令矩形图片r的标签为0,从而得到所有带标签的矩形图片构成第一组数据集;
步骤1.3:利用矩形框对RGB图像u进行截取,获取若干个的随机矩形图片,记任意一张随机矩形图片为s;判断随机矩形图片s中所包含的抓取物是否能实现物体抓取,若能实现,则令随机矩形图片s的标签值属于[α,1];否则,令随机矩形图片s的标签值属于[0,α];从而得到第二组数据集。
步骤2中第一级、第二级和第三级卷积神经网络参数具体包含如下内容:
步骤2.1:建立第一级卷积神经网络的结构,包括:一组卷积层、一组池化层和一个全连接层;利用所述第一组数据集学习第一级卷积神经网络的网络函数F1(x,Θ),其中,x为第一组数据集,Θ为第一级卷积神经网络的网络参数;
步骤2.2:使用式(1)所示的损失函数更新网络参数Θ:
式(1)中,xi是所述第一组数据集中任意一个矩形图片,yi是矩形图片xi所对应的标签;i=1,2,…,N,N是第一组数据集的样本数量;
步骤2.3:建立第二级卷积神经网络结构,包含一组卷积层、一组池化层和一个全连接层;利用所述第二组数据集学习第二级卷积神经网络的网络函数F2(x′,Θ′),其中,x′为所述第二组数据集,Θ′为第二级卷积神经网络的网络参数;
步骤2.4:使用式(2)所示的损失函数更新网络参数Θ′:
式(2)中,xj′是所述第二组数据集中任意一个随机矩形图片,yi′是矩形图片xi′所对应的标签;j=1,2,…,M,M是第二组数据集的样本数量;
步骤2.5:建立第三级卷积神经网络结构,包含两组卷积层、两组池化层和两个全连接层;利用所述第二组数据集学习第三级网络函数F3(x′,Θ″),其中,Θ″为第三级卷积神经网络的网络参数;
步骤2.6:使用式(3)所示的损失函数更新网络参数Θ″:
步骤8中的物体位置与姿态是按如下步骤确定:
步骤8.1:确定目标物的位置:
利用式(4)获得所述目标物的图像中目标物在相机坐标系Fca下的位置O(x′,y′,z′)
式(4)中,Z(i,j)表示所述目标物的图像中任意像素点(i,j)在相机坐标系Fca下的三维坐标值;x和y分别表示最优抓取框的中心点的坐标值;x′、y′和z′分别表示所述目标物在相机坐标系Fca下的三维坐标值;
步骤8.2:确定目标物的姿态:
根据笛卡尔坐标系右手法则建立物体坐标系Fob,并使得所述物体坐标系Fob的z轴与相机坐标系Fca的z轴平行且方向相反,则利用式(5)获得目标物在相机坐标系Fca下的姿态
式(5)中,θ是最优抓取框所述目标物的图像中的旋转度;
步骤8.3:利用式(6)获得目标物的位姿矩阵
步骤8.4:根据所述相机坐标系Fca与末端执行器坐标系Fcl的固定相对位姿,得到相机坐标系Fca在末端执行器坐标系Fcl中的位姿矩阵
步骤8.5:通过正运动学求解法得到末端执行器坐标系Fcl在机器人坐标系Fba中的位姿矩阵
步骤8.6:利用式(7)得到所述目标物的在机器人坐标系Fba中的位姿矩阵
与已有技术相比,本发明的有益效果体现在:
1、本发明使用了卷积神经网络,对图像的平移、比例放缩、旋转和其他形式的变形具有高度不变形,从而使得卷积神经网络能快速而准确地获得图像的特征,找到物体的最佳抓取点,特别是对于一些不规则或未知的物体,不再需要手工设计特征或建立物体的三维模型,就能够获得物体的最佳抓取框。
2、本发明使用卷积神经网络作为基础检测网络,并使用大量数据集进行训练,网络泛化能力较强,对检测的物体没有种类要求,可以对任何物体进行抓取框检测,包括在训练集中没有的物体,从而实现了对未知物体的准确抓取。
3、本发明使用的基础卷积神经网络中加入了空间金字塔池化层,因此网络不受图形输入大小的限制,三级卷积神经网络由基础卷积神经网络组成,同样不受图形输入大小的限制,输入的图像不需要放缩处理,保留了更多的图像信息。
4、本发明采用了串联的三级卷积神经网络检测物体的抓取框,第一级用于物体的初步定位,为下一级卷积神经网络搜索抓取框确定位置,减小了抓取框的收搜范围;第二级用于获取预选抓取框,以较小的网络获取较少的特征,从而快速地找出物体的可用抓取框;第三级用于重新评判预选抓取框,以较大的网络获取较多的特征,从而准确地评估每个预选抓取框,提高了抓取框的准确率。总体而言,串联的三级卷积神经网络,减小了获取抓取框的时间,提高了抓取框的正确率,目前正确率提到了94.1%,比已有算法高出6.1%。
附图说明
图1为本发明中系统流程图;
图2为本发明中第一级卷积神经网络图;
图3为本发明中第二级卷积神经网络图;
图4为本发明中第三级卷积神经网络图;
图5为本发明中最佳抓取框选择算法流程图;
图6为本发明中机器人与物体的坐标系。
具体实施方式
本实施例中,如图1所示,一种基于三级卷积神经网络的物体抓取检测方法,是应用于由机器人、摄像机、目标物所组成的物体抓取操作中,该物体抓取检测方法包括:获取训练数据集,构建第一级、第二级和第三级卷积神经网络的网络结构,选择最佳抓取框,确定物体位置与姿态。其中对于三级卷积神经网络,第一级网络用于对物体进行初步定位,为下一级卷积神经网络搜索抓取框确定位置;第二级网络用于获取预选抓取框,以较小的网络获取较少的特征,从而快速地找出物体的可用抓取框,剔除不可用的抓取框;第三级网络用于重新评判预选抓取框,以较大的网络获取较多的特征,从而准确地评估每个预选抓取框,再选取最佳抓取框。具体地说,是按如下步骤进行:
步骤1:获取第一组数据集和第二组数据集,第一组数据集用于训练第一级卷积神经网络,第二组数据集用于训练第二级和第三级卷积神经网络;
步骤1.1:利用摄像机获取各种抓取物体的RGB图像,记任意一张RGB图像为u;
步骤1.2:对RGB图像u进行网格划分,获得n张相同大小的矩形图片,记任意一张矩形图片为r;若矩形图片r包含抓取物,则令矩形图片r的标签为1;若矩形图片r不包含抓取物,则令矩形图片r的标签为0,从而得到所有带标签的矩形图片构成第一组数据集;
步骤1.3:利用矩形框对RGB图像u进行截取,获取若干个的随机矩形图片,记任意一张随机矩形图片为s;判断随机矩形图片s中所包含的抓取物是否能实现物体抓取,若能实现,则令随机矩形图片s的标签值属于[α,1];否则,令随机矩形图片s的标签值属于[0,α],α的最佳取值为0.5;从而得到第二组数据集;
步骤2:构建第一级、第二级和第三级卷积神经网络,并利用第一组数据集和第二组数据集离线训练第一级、第二级和第三级卷积神经网络的参数,从而得到卷积神经网络模型;
步骤2.1:建立第一级卷积神经网络的结构,包括:一组卷积层、一组池化层和一个全连接层,如图2所示,卷积层中进行六层卷积运算,卷积核大小为3*3;池化层中使用空间金字塔池化方法进行池化运用,保证输出为2x2的六张特征图;利用第一组数据集学习第一级卷积神经网络的网络函数F1(x,Θ),其中,x为第一组数据集,Θ为第一级卷积神经网络的网络参数;
步骤2.2:使用式(1)所示的损失函数更新网络参数Θ:
式(1)中,xi是第一组数据集中任意一个矩形图片,yi是矩形图片xi所对应的标签;i=1,2,…,N,N是第一组数据集的样本数量;
步骤2.3:建立第二级卷积神经网络结构,包含一组卷积层、一组池化层和一个全连接层,如图3所示,卷积层中进行六层卷积运算,卷积核大小为3*3;池化层中使用空间金字塔池化方法进行池化运用,保证输出为2x2的六张特征图;利用第二组数据集学习第二级卷积神经网络的网络函数F2(x′,Θ′),其中,x′为第二组数据集,Θ′为第二级卷积神经网络的网络参数;
步骤2.4:使用式(2)所示的损失函数更新网络参数Θ′:
式(2)中,x′j是第二组数据集中任意一个随机矩形图片,y′i是矩形图片x′i所对应的标签;j=1,2,…,M,M是第二组数据集的样本数量;
步骤2.5:建立第三级卷积神经网络结构,包含两组卷积层、两组池化层和两个全连接层,如图4所示,第一层卷积中进行六层卷积运算,卷积核大小为5*5,第二层卷积中进行十二层卷积运算,卷积核大小为3*3;第一次池化利用2*2的卷积核进行均值池化运算,第二次池化利用空间金字塔池化方法进行池化运用,保证输出为2x2的十二张特征图;利用第二组数据集学习第三级网络函数F3(x′,Θ″),其中,Θ″为第三级卷积神经网络的网络参数;
步骤2.6:使用式(3)所示的损失函数更新网络参数Θ″:
步骤3:由摄像机获取目标物的图像,并作为卷积神经网络模型的输入;
步骤4:基于第一级卷积神经网络,通过滑动窗的方式对目标物的图像空间进行搜索,寻找出目标物的初步位置;滑动窗口的大小是根据图像大小变化而改变,且步进大小由滑动窗口大小决定,例如,对于640*480的图像,滑动窗口大小可以设为16*12,步进设为16*12;
步骤5:基于第二级卷积神经网络,通过滑动窗的方式对初步位置进行搜索,并确定若干个抓取矩形框作为预选抓取框;在滑动窗口时,需要不断改变滑动窗口的大小、旋转角度、位置,以此来搜索可能的抓取矩形框;
步骤6:利用第三级卷积神经网络对预选抓取框进行评判,获取每个预选抓取框的精确评判值,为选取最优抓取抓取框提供选择依据;
步骤7:根据预选抓取框的评判值对预选抓取框进行降序排序,并选出排名前N的预选抓取框;获取N个预选抓取框的各个中心点,并对各个中心点求取中心平均值,根据中心平均值分别得到N个预选抓取框的均方差,并选择均方差最小的预选抓取框作为最优抓取框,具体算法如图5所示,首先,在预选抓取框中找出评判值排在前3位且中心位置不同的抓取框Gt1、Gt2、Gt3,如图5中的虚框中所示,初始化Gt1、Gt2、Gt3后,输入预选抓取框Gi及该抓取框的评判值Ji,接着将抓取框的评判值Ji与第1抓抓取框Gt1的评判值Jt1进行比较:如果Ji大于Jt1,那么再将它们的中心值进行比较,如果中心值相等,直接将该预选抓取框Gi赋值给Gt1,如果中心值不相等,则依次执行下面操作,Gt2赋值给Gt3,Gt1赋值给Gt2,Gi赋值给Gt1,执行完后进入下一个循环;如果Ji不大于Jt1,那么进行下一个判断,并根据判断的结果执行不同步骤,最终通过虚框中循环步骤获得评判值排在前3位且中心位置不同的抓取框Gt1、Gt2、Gt3.然后,取出抓取框Gt1、Gt2、Gt3,求取中心平均值(x,y),并对每个抓取框求取均方差.最后,选取均方差最小的值作为最佳抓取框;
步骤8:使用最优抓取框确定目标物的位置与姿态。
步骤8.1:确定目标物的位置:
利用式(4)获得目标物的图像中目标物在相机坐标系Fca下的位置O(x′,y′,z′)
式(4)中,Z(i,j)表示目标物的图像中任意像素点(i,j)在相机坐标系Fca下的三维坐标值;x和y分别表示最优抓取框的中心点的坐标值;x′、y′和z′分别表示目标物在相机坐标系Fca下的三维坐标值;
步骤8.2:确定目标物的姿态:
根据笛卡尔坐标系右手法则建立物体坐标系Fob,并使得物体坐标系Fob的z轴与相机坐标系Fca的z轴平行且方向相反,如图6所示,则利用式(5)获得目标物在相机坐标系Fca下的姿态
式(5)中,θ是最优抓取框目标物的图像中的旋转度,固定角坐标系中的等价旋转矩阵公式,出处:JohnJ.Craig著,贠超等译,机械工业出版社《机械人学导论》第三版,第26页公式2-26;
步骤8.3:利用式(6)获得目标物的位姿矩阵
步骤8.4:根据相机坐标系Fca与末端执行器坐标系Fcl的固定相对位姿,得到相机坐标系Fca在末端执行器坐标系Fcl中的位姿矩阵
步骤8.5:通过正运动学求解法得到末端执行器坐标系Fcl在机器人坐标系Fba中的位姿矩阵
步骤8.6:利用式(7)得到目标物的在机器人坐标系Fba中的位姿矩阵

Claims (4)

1.一种基于三级卷积神经网络的物体抓取检测方法,是应用于由机器人、摄像机、目标物所组成的物体抓取操作中,其特征是,所述物体抓取检测方法是按如下步骤进行:
步骤1:获取第一组数据集和第二组数据集,所述第一组数据集用于训练第一级卷积神经网络,所述第二组数据集用于训练第二级和第三级卷积神经网络;
步骤2:构建第一级、第二级和第三级卷积神经网络,并利用所述第一组数据集和第二组数据集离线训练所述第一级、第二级和第三级卷积神经网络的参数,从而得到卷积神经网络模型;
步骤3:由所述摄像机获取所述目标物的图像,并作为所述卷积神经网络模型的输入;
步骤4:基于第一级卷积神经网络,通过滑动窗的方式对所述目标物的图像空间进行搜索,寻找出所述目标物的初步位置;
步骤5:基于第二级卷积神经网络,通过滑动窗的方式对所述初步位置进行搜索,并确定若干个抓取矩形框作为预选抓取框;
步骤6:利用第三级卷积神经网络对所述预选抓取框进行精确评判,获取每个预选抓取框的评判值;
步骤7:根据预选抓取框的评判值对预选抓取框进行降序排序,并选出排名前N的预选抓取框;获取N个预选抓取框的各个中心点,并对所述各个中心点求取中心平均值,根据所述中心平均值分别得到N个预选抓取框的均方差,并选择均方差最小的预选抓取框作为最优抓取框;
步骤8:使用所述最优抓取框确定所述目标物的位置与姿态。
2.根据权利要求1所述的基于三级卷积神经网络的物体抓取检测方法,其特征在于:步骤1中的第一组数据集和第二组数据集按如下步骤获取:
步骤1.1:利用所述摄像机获取各种抓取物体的RGB图像,记任意一张RGB图像为u;
步骤1.2:对RGB图像u进行网格划分,获得n张相同大小的矩形图片,记任意一张矩形图片为r;若所述矩形图片r包含抓取物,则令矩形图片r的标签为1;若所述矩形图片r不包含抓取物,则令矩形图片r的标签为0,从而得到所有带标签的矩形图片构成第一组数据集;
步骤1.3:利用矩形框对RGB图像u进行截取,获取若干个的随机矩形图片,记任意一张随机矩形图片为s;判断随机矩形图片s中所包含的抓取物是否能实现物体抓取,若能实现,则令随机矩形图片s的标签值属于[α,1];否则,令随机矩形图片s的标签值属于[0,α];从而得到第二组数据集。
3.根据权利要求1所述的基于三级卷积神经网络的物体抓取检测方法,其特征在于:步骤2中第一级、第二级和第三级卷积神经网络参数具体包含如下内容:
步骤2.1:建立第一级卷积神经网络的结构,包括:一组卷积层、一组池化层和一个全连接层;利用所述第一组数据集学习第一级卷积神经网络的网络函数F1(x,Θ),其中,x为第一组数据集,Θ为第一级卷积神经网络的网络参数;
步骤2.2:使用式(1)所示的损失函数更新网络参数Θ:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>&amp;Theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>N</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mi>i</mi> <mi>N</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mn>1</mn> </msub> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>&amp;Theta;</mi> </mrow> <mo>)</mo> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
式(1)中,xi是所述第一组数据集中任意一个矩形图片,yi是矩形图片xi所对应的标签;i=1,2,…,N,N是第一组数据集的样本数量;
步骤2.3:建立第二级卷积神经网络结构,包含一组卷积层、一组池化层和一个全连接层;利用所述第二组数据集学习第二级卷积神经网络的网络函数F2(x′,Θ′),其中,x′为所述第二组数据集,Θ′为第二级卷积神经网络的网络参数;
步骤2.4:使用式(2)所示的损失函数更新网络参数Θ′:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msup> <mi>&amp;Theta;</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>M</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mi>j</mi> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mn>2</mn> </msub> <mo>(</mo> <mrow> <msubsup> <mi>x</mi> <mi>j</mi> <mo>&amp;prime;</mo> </msubsup> <mo>,</mo> <msup> <mi>&amp;Theta;</mi> <mo>&amp;prime;</mo> </msup> </mrow> <mo>)</mo> <mo>-</mo> <msubsup> <mi>y</mi> <mi>j</mi> <mo>&amp;prime;</mo> </msubsup> <mo>)</mo> </mrow> <mi>2</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
式(2)中,xj′是所述第二组数据集中任意一个随机矩形图片,yi′是矩形图片xi′所对应的标签;j=1,2,…,M,M是第二组数据集的样本数量;
步骤2.5:建立第三级卷积神经网络结构,包含两组卷积层、两组池化层和两个全连接层;利用所述第二组数据集学习第三级网络函数F3(x′,Θ″),其中,Θ″为第三级卷积神经网络的网络参数;
步骤2.6:使用式(3)所示的损失函数更新网络参数Θ″:
<mrow> <mi>L</mi> <mrow> <mo>(</mo> <msup> <mi>&amp;Theta;</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>M</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mi>j</mi> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>F</mi> <mn>2</mn> </msub> <mo>(</mo> <mrow> <msubsup> <mi>x</mi> <mi>j</mi> <mo>&amp;prime;</mo> </msubsup> <mo>,</mo> <msup> <mi>&amp;Theta;</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> </mrow> <mo>)</mo> <mo>-</mo> <msubsup> <mi>y</mi> <mi>j</mi> <mo>&amp;prime;</mo> </msubsup> <mo>)</mo> </mrow> <mi>2</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
4.根据权利要求1所述的基于三级卷积神经网络的物体抓取检测方法,其特征在于:步骤8中的物体位置与姿态是按如下步骤确定:
步骤8.1:确定目标物的位置:
利用式(4)获得所述目标物的图像中目标物在相机坐标系Fca下的位置O(x′,y′,z′)
<mrow> <msub> <mi>O</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&amp;prime;</mo> </msup> <mo>,</mo> <msup> <mi>z</mi> <mo>&amp;prime;</mo> </msup> <mo>)</mo> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>9</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mi>x</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mi>x</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>y</mi> <mo>-</mo> <mn>1</mn> </mrow> <mrow> <mi>y</mi> <mo>+</mo> <mn>1</mn> </mrow> </munderover> <mi>Z</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
式(4)中,Z(i,j)表示所述目标物的图像中任意像素点(i,j)在相机坐标系Fca下的三维坐标值;x和y分别表示最优抓取框的中心点的坐标值;x′、y′和z′分别表示所述目标物在相机坐标系Fca下的三维坐标值;
步骤8.2:确定目标物的姿态:
根据笛卡尔坐标系右手法则建立物体坐标系Fob,并使得所述物体坐标系Fob的z轴与相机坐标系Fca的z轴平行且方向相反,则利用式(5)获得目标物在相机坐标系Fca下的姿态
<mrow> <mmultiscripts> <mi>R</mi> <mrow> <mi>o</mi> <mi>b</mi> </mrow> <mrow> <mi>c</mi> <mi>a</mi> </mrow> </mmultiscripts> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>cos</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mrow> <mi>sin</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
式(5)中,θ是最优抓取框所述目标物的图像中的旋转度;
步骤8.3:利用式(6)获得目标物的位姿矩阵
<mrow> <mmultiscripts> <mi>T</mi> <mrow> <mi>o</mi> <mi>b</mi> </mrow> <mrow> <mi>c</mi> <mi>a</mi> </mrow> </mmultiscripts> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mo>-</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <msup> <mi>x</mi> <mo>&amp;prime;</mo> </msup> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>cos</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mrow> <mi>sin</mi> <mi>&amp;theta;</mi> </mrow> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <msup> <mi>y</mi> <mo>&amp;prime;</mo> </msup> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </mtd> <mtd> <msup> <mi>z</mi> <mo>&amp;prime;</mo> </msup> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>0</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>
步骤8.4:根据所述相机坐标系Fca与末端执行器坐标系Fcl的固定相对位姿,得到相机坐标系Fca在末端执行器坐标系Fcl中的位姿矩阵
步骤8.5:通过正运动学求解法得到末端执行器坐标系Fcl在机器人坐标系Fba中的位姿矩阵
步骤8.6:利用式(7)得到所述目标物的在机器人坐标系Fba中的位姿矩阵
<mrow> <mmultiscripts> <mi>T</mi> <mrow> <mi>o</mi> <mi>b</mi> </mrow> <mrow> <mi>b</mi> <mi>a</mi> </mrow> </mmultiscripts> <mo>=</mo> <mmultiscripts> <mi>T</mi> <mrow> <mi>c</mi> <mi>l</mi> </mrow> <mrow> <mi>b</mi> <mi>a</mi> </mrow> </mmultiscripts> <mmultiscripts> <mi>T</mi> <mrow> <mi>c</mi> <mi>a</mi> </mrow> <mrow> <mi>c</mi> <mi>l</mi> </mrow> </mmultiscripts> <mmultiscripts> <mi>T</mi> <mrow> <mi>o</mi> <mi>b</mi> </mrow> <mrow> <mi>c</mi> <mi>a</mi> </mrow> </mmultiscripts> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>
CN201711228319.XA 2017-11-29 2017-11-29 一种基于三级卷积神经网络的物体抓取检测方法 Active CN108010078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711228319.XA CN108010078B (zh) 2017-11-29 2017-11-29 一种基于三级卷积神经网络的物体抓取检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711228319.XA CN108010078B (zh) 2017-11-29 2017-11-29 一种基于三级卷积神经网络的物体抓取检测方法

Publications (2)

Publication Number Publication Date
CN108010078A true CN108010078A (zh) 2018-05-08
CN108010078B CN108010078B (zh) 2020-06-26

Family

ID=62054735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711228319.XA Active CN108010078B (zh) 2017-11-29 2017-11-29 一种基于三级卷积神经网络的物体抓取检测方法

Country Status (1)

Country Link
CN (1) CN108010078B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694716A (zh) * 2018-05-15 2018-10-23 苏州大学 一种工件检测方法、模型训练方法及设备
CN109159113A (zh) * 2018-08-14 2019-01-08 西安交通大学 一种基于视觉推理的机器人作业方法
CN109531584A (zh) * 2019-01-31 2019-03-29 北京无线电测量研究所 一种基于深度学习的机械臂控制方法和装置
CN109685041A (zh) * 2019-01-23 2019-04-26 北京市商汤科技开发有限公司 图像分析方法及装置、电子设备和存储介质
CN109784297A (zh) * 2019-01-26 2019-05-21 福州大学 一种基于深度学习的三维目标识别与最优抓取方法
CN109800716A (zh) * 2019-01-22 2019-05-24 华中科技大学 一种基于特征金字塔的海面遥感图像船舶检测方法
CN109986560A (zh) * 2019-03-19 2019-07-09 埃夫特智能装备股份有限公司 一种面向多目标种类的机械臂自适应抓取方法
CN110298886A (zh) * 2019-07-01 2019-10-01 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN110302981A (zh) * 2019-06-17 2019-10-08 华侨大学 一种固废分拣在线抓取方法和系统
CN110378325A (zh) * 2019-06-20 2019-10-25 西北工业大学 一种机器人抓取过程中的目标位姿识别方法
CN110796700A (zh) * 2019-10-21 2020-02-14 上海大学 基于卷积神经网络的多物体抓取区域定位方法
CN110962120A (zh) * 2018-09-30 2020-04-07 北京猎户星空科技有限公司 网络模型的训练方法及装置、机械臂运动控制方法及装置
CN111523486A (zh) * 2020-04-24 2020-08-11 重庆理工大学 一种基于改进CenterNet的机械臂抓取检测方法
CN111783537A (zh) * 2020-05-29 2020-10-16 哈尔滨莫迪科技有限责任公司 一种基于目标检测特征的两阶段快速抓取检测方法
CN112989881A (zh) * 2019-12-16 2021-06-18 深圳慧智星晨科技有限公司 一种无监督可迁移的3d视觉物体抓取方法
CN113420752A (zh) * 2021-06-23 2021-09-21 湖南大学 基于抓取点检测的三指手势生成方法及系统
CN114643586A (zh) * 2022-05-24 2022-06-21 中国科学技术大学 基于深度神经网络的多指灵巧手抓取手势规划方法
CN117292310A (zh) * 2023-08-22 2023-12-26 杭州空介视觉科技有限公司 一种虚拟数字人应用方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868689A (zh) * 2016-02-16 2016-08-17 杭州景联文科技有限公司 一种基于级联卷积神经网络的人脸遮挡检测方法
CN105930822A (zh) * 2016-05-11 2016-09-07 北京格灵深瞳信息技术有限公司 一种人脸抓拍方法及系统
CN106326937A (zh) * 2016-08-31 2017-01-11 郑州金惠计算机系统工程有限公司 基于卷积神经网络的人群密度分布估计方法
CN106780906A (zh) * 2016-12-28 2017-05-31 北京品恩科技股份有限公司 一种基于深度卷积神经网络的人证合一识别方法及系统
CN106845406A (zh) * 2017-01-20 2017-06-13 深圳英飞拓科技股份有限公司 基于多任务级联卷积神经网络的头肩检测方法及装置
CN107145833A (zh) * 2017-04-11 2017-09-08 腾讯科技(上海)有限公司 人脸区域的确定方法和装置
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN107392313A (zh) * 2017-06-12 2017-11-24 五邑大学 一种基于深度学习的钢轨识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868689A (zh) * 2016-02-16 2016-08-17 杭州景联文科技有限公司 一种基于级联卷积神经网络的人脸遮挡检测方法
CN105930822A (zh) * 2016-05-11 2016-09-07 北京格灵深瞳信息技术有限公司 一种人脸抓拍方法及系统
CN106326937A (zh) * 2016-08-31 2017-01-11 郑州金惠计算机系统工程有限公司 基于卷积神经网络的人群密度分布估计方法
CN106780906A (zh) * 2016-12-28 2017-05-31 北京品恩科技股份有限公司 一种基于深度卷积神经网络的人证合一识别方法及系统
CN106845406A (zh) * 2017-01-20 2017-06-13 深圳英飞拓科技股份有限公司 基于多任务级联卷积神经网络的头肩检测方法及装置
CN107145833A (zh) * 2017-04-11 2017-09-08 腾讯科技(上海)有限公司 人脸区域的确定方法和装置
CN107239736A (zh) * 2017-04-28 2017-10-10 北京智慧眼科技股份有限公司 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN107392313A (zh) * 2017-06-12 2017-11-24 五邑大学 一种基于深度学习的钢轨识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EDWARD JOHNS 等: "Deep Learning a Grasp Function for Grasping under Gripper Pose Uncertainty", 《ARXIV》 *
IAN LENZ 等: "Deep Learning for Detecting Robotic Grasps", 《THE INTERNATIONAL JOURNAL OF ROBOTICS RESEARCH》 *
YUN JIANG 等: "Efficient Grasping from RGBD Images: Learning using a new Rectangle Representation", 《IEEE INTERNATIONAL CONFERENCE ON ROBOTIC AND AUTOMATION》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694716B (zh) * 2018-05-15 2022-05-17 苏州大学 一种工件检测方法、模型训练方法及设备
CN108694716A (zh) * 2018-05-15 2018-10-23 苏州大学 一种工件检测方法、模型训练方法及设备
CN109159113A (zh) * 2018-08-14 2019-01-08 西安交通大学 一种基于视觉推理的机器人作业方法
CN110962120B (zh) * 2018-09-30 2021-03-26 北京猎户星空科技有限公司 网络模型的训练方法及装置、机械臂运动控制方法及装置
CN110962120A (zh) * 2018-09-30 2020-04-07 北京猎户星空科技有限公司 网络模型的训练方法及装置、机械臂运动控制方法及装置
CN109800716A (zh) * 2019-01-22 2019-05-24 华中科技大学 一种基于特征金字塔的海面遥感图像船舶检测方法
CN109685041A (zh) * 2019-01-23 2019-04-26 北京市商汤科技开发有限公司 图像分析方法及装置、电子设备和存储介质
CN109784297A (zh) * 2019-01-26 2019-05-21 福州大学 一种基于深度学习的三维目标识别与最优抓取方法
CN109531584A (zh) * 2019-01-31 2019-03-29 北京无线电测量研究所 一种基于深度学习的机械臂控制方法和装置
CN109986560A (zh) * 2019-03-19 2019-07-09 埃夫特智能装备股份有限公司 一种面向多目标种类的机械臂自适应抓取方法
CN109986560B (zh) * 2019-03-19 2023-02-14 埃夫特智能装备股份有限公司 一种面向多目标种类的机械臂自适应抓取方法
CN110302981A (zh) * 2019-06-17 2019-10-08 华侨大学 一种固废分拣在线抓取方法和系统
CN110378325B (zh) * 2019-06-20 2022-03-15 西北工业大学 一种机器人抓取过程中的目标位姿识别方法
CN110378325A (zh) * 2019-06-20 2019-10-25 西北工业大学 一种机器人抓取过程中的目标位姿识别方法
CN110298886B (zh) * 2019-07-01 2020-12-25 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN110298886A (zh) * 2019-07-01 2019-10-01 中国科学技术大学 一种基于四级卷积神经网络的灵巧手抓取规划方法
CN110796700A (zh) * 2019-10-21 2020-02-14 上海大学 基于卷积神经网络的多物体抓取区域定位方法
CN110796700B (zh) * 2019-10-21 2023-06-09 上海大学 基于卷积神经网络的多物体抓取区域定位方法
CN112989881A (zh) * 2019-12-16 2021-06-18 深圳慧智星晨科技有限公司 一种无监督可迁移的3d视觉物体抓取方法
CN111523486A (zh) * 2020-04-24 2020-08-11 重庆理工大学 一种基于改进CenterNet的机械臂抓取检测方法
CN111523486B (zh) * 2020-04-24 2022-05-17 重庆理工大学 一种基于改进CenterNet的机械臂抓取检测方法
CN111783537A (zh) * 2020-05-29 2020-10-16 哈尔滨莫迪科技有限责任公司 一种基于目标检测特征的两阶段快速抓取检测方法
CN113420752A (zh) * 2021-06-23 2021-09-21 湖南大学 基于抓取点检测的三指手势生成方法及系统
CN114643586A (zh) * 2022-05-24 2022-06-21 中国科学技术大学 基于深度神经网络的多指灵巧手抓取手势规划方法
CN117292310A (zh) * 2023-08-22 2023-12-26 杭州空介视觉科技有限公司 一种虚拟数字人应用方法

Also Published As

Publication number Publication date
CN108010078B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN108010078A (zh) 一种基于三级卷积神经网络的物体抓取检测方法
JP6964857B2 (ja) 画像認識装置、画像認識方法、コンピュータプログラム、及び製品監視システム
CN112170233B (zh) 基于深度学习的小型零件分拣方法及其分拣系统
CN105447473B (zh) 一种基于PCANet-CNN的任意姿态人脸表情识别方法
CN111523486B (zh) 一种基于改进CenterNet的机械臂抓取检测方法
CN108510062A (zh) 一种基于级联卷积神经网络的机器人非规则物体抓取位姿快速检测方法
Zhang et al. A new architecture of feature pyramid network for object detection
CN106934355A (zh) 基于深度卷积神经网络的车内手检测方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN107808376A (zh) 一种基于深度学习的举手检测方法
WO2023284070A1 (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
Saxena et al. Garment recognition and grasping point detection for clothing assistance task using deep learning
CN109948457A (zh) 基于卷积神经网络和cuda加速的实时目标识别算法
CN115100136B (zh) 基于YOLOv4-tiny模型的工件类别与位姿估计方法
Haochen et al. CNN-based model for pose detection of industrial PCB
CN113822933B (zh) 一种基于ResNeXt的智能机器人抓取方法
Yu et al. Robotic grasping of novel objects from RGB-D images by using multi-level convolutional neural networks
Tian et al. A method for estimating an unknown target grasping pose based on keypoint detection
Zhou et al. Analysing the effects of pooling combinations on invariance to position and deformation in convolutional neural networks
Haque et al. Object localization and detection using SALNet with deformable convolutional network
Mu et al. Image classification based on convolutional neural network and support vector machine
Liu et al. Exploring Effective Knowledge Distillation for Tiny Object Detection
Wu et al. Real-Time Pixel-Wise Grasp Detection Based on RGB-D Feature Dense Fusion
Bergström et al. On-line learning of temporal state models for flexible objects
Zhao et al. Robot Grasping using Dilated Residual Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant