CN108280856B - 基于混合信息输入网络模型的未知物体抓取位姿估计方法 - Google Patents

基于混合信息输入网络模型的未知物体抓取位姿估计方法 Download PDF

Info

Publication number
CN108280856B
CN108280856B CN201810139292.5A CN201810139292A CN108280856B CN 108280856 B CN108280856 B CN 108280856B CN 201810139292 A CN201810139292 A CN 201810139292A CN 108280856 B CN108280856 B CN 108280856B
Authority
CN
China
Prior art keywords
information
grabbing
image
area
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810139292.5A
Other languages
English (en)
Other versions
CN108280856A (zh
Inventor
王滨
王志超
刘宏
赵京东
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201810139292.5A priority Critical patent/CN108280856B/zh
Publication of CN108280856A publication Critical patent/CN108280856A/zh
Application granted granted Critical
Publication of CN108280856B publication Critical patent/CN108280856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

基于混合信息输入网络模型的未知物体抓取位姿估计方法,属于机器人自主抓取领域。本发明为了实现机器人对未知物体的快速、有效抓取。对训练图像数据集中的图像混合信息进行预处理;构建基于混合信息输入的信息融合机制,并搭建神经网络模型;对包含混合信息融合机制的网络模型参数进行训练,获得优化后的混合信息输入网络模型;利用基于RGB‑D图像的物体分割技术实现对传感器采集到的场景图像进行可抓取物体分割;利用基于反馈信息的候选区域生成机制,搜索获得物体上的最佳抓取区域;利用深度信息估计机器人在最佳抓取区域的抓取位置和抓取姿态,进而获得抓取物体时的抓取位姿。该方法有利于机器人快速、准确地实现对未知物体的自主抓取。

Description

基于混合信息输入网络模型的未知物体抓取位姿估计方法
技术领域
本发明属于机器人自主抓取领域,涉及一种基于混合信息输入网络模型的未知物体抓取位姿估计方法。
背景技术
在智能机器人领域,机器人自主抓取未知物体是智能机器人的一种关键能力。机器人的抓取历经数十年的研究,已经取得了很多成果。但目前的机器人要执行一个复杂的新的抓取任务,需要花上数周时间来重新编程,这让现代制造业生产线的重组变得十分昂贵和缓慢。而且,机器人的大多应用于特定的环境,针对特定已知的物体进行抓操作。对于不确定环境下,不同位姿摆放的未知物体,让机器人自主决定被抓取物体的抓取部位和抓取夹持器的抓取位姿,目前技术还不成熟。传统的方法通常假设物体的三维信息已知,利用搜索抓取点是否力封闭的方法来实现对物体的抓取。但是对于大量不同形状的物体,物体的三维信息很难获得,抓取点的搜索计算量比较大,效率也很低,实现机器人对未知物体的自主抓取很难进行实际应用。
目前,机器人的智能化程度与人类相比还有很大的差距,对未知的物体进行有效的抓取区域识别,自主实现对未知物体的抓取还很困难。因此,提出一种机器人自主实现对未知物体的抓取方法,对于提高机器人的智能化程度是非常迫切和必要的。
发明内容
针对现有技术存在的不足,本发明提供一种基于混合输入网络模型的机器人未知物体的抓取区域识别方法,实现机器人对未知物体的快速、有效抓取。
本发明为解决上述技术问题采取的技术方案是:
一种基于混合信息输入网络模型的未知物体抓取位姿估计方法,所述方法的实现过程为:
步骤一、对训练图像数据集中的图像混合信息进行预处理:
步骤二、构建基于混合信息输入的信息融合机制,并搭建神经网络模型;
步骤三、对包含混合信息融合机制的网络模型参数进行训练,完成模型优化,获得优化后的混合信息输入网络模型;
步骤四、利用基于RGB-D图像的物体分割技术实现对传感器采集到的场景图像进行可抓取物体分割;
步骤五、利用基于反馈信息的候选区域生成机制,搜索获得物体上的最佳抓取区域;
步骤六、利用深度信息估计机器人在最佳抓取区域的抓取位置和抓取姿态,进而获得机器人抓取物体时的抓取位姿。
进一步地,在步骤一中,图像预处理的过程为:
1)深度信息预处理
图像混合信息包含物体图像的彩色、深度和法向量通道信息,深度通道信息存在的图像噪声使深度图像上像素点的深度缺失;
对深度图像中存在的深度缺失以零值代替,并记录这些缺失的深度信息点的位置;然后,根据深度图像中缺失信息点所占整幅图像的比例,放大非零正常深度信息点的深度信息;
2)图像旋转与缩放操作
对候选抓取矩形采取图像旋转、尺寸缩放和比例放大的预处理操作,使数据结构符合深度卷积神经网络模型需要的尺寸;具体过程为:首先,通过一定的旋转操作将其矩形长边与图像坐标系X轴保持平行关系;然后,在保证候选抓取矩形的长宽比例不变的前提下,将长边尺寸缩放至预设像素,并按此缩放比例对短边进行缩放,将宽边尺寸填充至与长边相同的预设像素,填充区域像素值补全值赋0;最后,为了使缩放后各候选抓取区域对模型训练具有同等效果,根据区域内有效像素所占比例对有效像素点的值进行一定的尺度放大;
3)白化处理
在完成抓取区域矩形的旋转、缩放操作后,进行如下白化处理:
首先,在各样本图像的深度通道信息上按式(1)单独进行白化处理,以消除各样本间因深度信息差异过大而无法进行整体白化处理的问题;
然后,对彩色和法向量通道的信息在数据集上按式(2)分别进行白化处理,其中需要将各通道的缩放尺度设置为三个通道标准差之和;
Figure BDA0001576466550000021
Figure BDA0001576466550000031
式中,
Figure BDA0001576466550000032
Figure BDA0001576466550000033
分别是单个深度图像m上的原始数据和白化处理后的图像数据,k=1,2,3为深度图像上{X,Y,Z}方向上的三个通道信息;
Figure BDA0001576466550000034
Figure BDA0001576466550000035
分别是彩色图像和法向量信息的原始数据,
Figure BDA0001576466550000036
Figure BDA0001576466550000037
为采用改进方法处理后的彩色和法向量通道信息;Di是对应图像上各通道的标准差,GPCA是主成分分析处理函数;
通过这样以上预处理操作,可以使三种通道视觉信息处于同一水平,从而使网络模型能够在各个通道信息中都提出目标特征。
进一步地,在步骤二中,构建基于混合信息输入的信息融合机制,并搭建神经网络模型,其过程为:
1)神经网络模型的构建
对未知物体上候选抓取区域的可抓取性进行评价,并搜索获得其最佳的抓取区域,采用构建深度卷积神经网络模型并进行学习方法;构建的深度卷积神经网络模型结构共包含7层,一个输入层,一个混合信息融合层,两个卷积层,两个全连接层和一个输出层;
当给定物体上一个图像矩形块r=(xc,yc,h,α)时,通过此区域内各通道的视觉信息Xr作为神经网络模型的输入;xc,yc表示矩形块的中心点,h表示矩形块的长度,α表示矩形块的旋转角度;
混合信息融合层后之后连接两个传统的卷积层,且各层之后均有一个最大值降采样机制;第二个卷积层之后连接两个全连接层,并采用Dropout方法降低模型过拟合风险;最后的输出层采用Logistic分类器对此区域是否适合抓取进行判别;各隐含层均采用ReLU(Rectified Linear Units)函数进行神经元激活;
基于混合信息输入的网络模型的输出是输入矩形区域可抓取性的概率估计,在推断过程中,通过寻找模型的最大输出概率来确定物体上最佳的抓取区域;
Figure BDA0001576466550000038
式中,f(r)是从候选抓取图像区域r中提取的图像特征,
Figure BDA0001576466550000039
是此区域是否可以抓取的判别结果,r*是候选抓取区域集合R中搜索到的最佳抓取区域,Θ*为最佳的深度卷积神经网络模型参数;
2)混合信息输入的信息融合机制:
深度卷积神经网络模型的输入包括三种类别的九个通道视觉信息,即三通道彩色信息(RGB)、三通道深度信息(Depth)和三通道表面法向量信息(Normal);其中,表面法向量通道是通过在深度通道信息上进行各点法向量计算而获得;
在单独处理各通道信息的基础上,通过在彩色通道和深度通道之间、彩色通道和法向量通道之间引入两种共享的卷积核,使模型能够学习到两种不同通道间的高关联性特征;并通过在目标优化函数中引入针对共享卷积核的参数连接数量的惩罚项,以减小模型的复杂度和抑制弱相关特征的学习;
输入层将色彩、位置和法向量九通道混合信息分成三组进行输入,各组分别提取卷积核特征,同时采用共享卷积核同时提取彩色信息组和深度信息组,彩色信息和法向量信息组的关联特征;
神经网络模型的混合信息融合层是一种包含了五种特征图的卷积层,其分别是三种通道各自提取的特征图、彩色通道和深度通道共同提取的特征图、彩色通道和法向量通道共同提取的特征图;
在所述共享卷积核上设计正则化方法,将惩罚项引入至神经网络模型的优化函数,从而使模型参数在优化过程中考虑到关联特征的学习;
Figure BDA0001576466550000041
式中,G(W)为在共享卷积核上的正则化惩罚项;右侧第一项
Figure BDA0001576466550000042
为仅对非零参数的惩罚项,右侧第二项||W||p为对参数尺度的L1范数惩罚项,p为1;W为神经网络的参数,β是表征不同惩罚项对最终惩罚项的影响权重;I(A)是指示函数,A为该函数中的表达式,当表达式为真时,函数输出为1,反之为0;L、N和M分别是融合通道数量、卷积核数量和一个卷积核上参数数量,
Figure BDA0001576466550000043
是共享卷积核中的各参数。
进一步地,在步骤三中,神经网络模型训练的过程为:
在神经网络模型训练中,将数据集中的训练样本预处理后,得到的图像维度输入特征向量,包括三通道的R,G,B颜色信息,三通道位置信息Xd,Yd,Zd,和三通道的法向量信息Xn,Yn,Zn;将此特征向量输入深度卷积神经网络模型,经前向传播和反向传播优化迭代,得到深度卷积神经网络模型中的优化参数,图像维度输入特征向量等于图像长度乘以图像宽度乘以图像通道数。
进一步地,在步骤四中,场景中被抓取物体的分割的过程为:
在完成神经网络模型训练后,为了使该模型能够应用到实际未知物体的最佳抓取区域识别之中,需要提取场景中物体所在的区域;
利用物体放置在平面上这一先验信息,首先在深度图像上采用了RANSAC平面拟合算法来对物体放置的平面进行拟合,从而找出平面;然后,将在平面上方的点分割出来,并作为属于平面上放置物体的点;最后,通过判别这些聚集在一起点的距离,将这些物体分割出来。
进一步地,在步骤五中,采用基于信息反馈机制的候选抓取矩形区域生成方法对最佳抓取区域的搜索过程为:
首先,在图像中随机生成一系列初始化的候选待抓取矩形区域,并对其进行图像预处理以满足模型输入;
然后,对这些初始化区域进行优劣判别并记录结果;
其后,将这些初始化的矩形区域的判别结果反馈至ε-greedy搜索算法中,加强在判别结果排名较高区域附近的搜索力度,并减少在低排名判别结果区域附近的搜索,同时不断更新已搜索区域及其判别结果;
最后,当最佳待抓取区域的判别值变化小于一定阈值后,此待抓取矩形区域即为整个物体上最佳的待抓取操作区域。
进一步地,在步骤六中,机器人的抓取位姿估计过程为:
在得到未知物体的最佳抓取区域后,采用深度图像信息估计抓取区域的位置和抓取姿态,从而得到机器人夹持器抓取物体时的抓取位姿;最佳抓取区域的抓取位姿估计的步骤如下:
(1)利用物体支撑平面信息从最佳抓取区域内消除掉物体支撑平台的像素点;
(2)采用物体中央区域的像素信息(1/2的物体像素信息)对此待抓取区域抓取位置和抓取姿态进行估计,以降低物体边缘噪声对提取位姿的干扰,过程如下:
首先为该中央区域构造一个由中心向边缘衰减的规则化权重核函数,将该核函数分别与中央区域点的三维位置信息与法向量信息进行卷积处理,得到的结果即作为此区域中心位置点的三维位置和法向量信息;然后,由中央区域点拟合出机器人夹持器在该区域闭合方向的主向量;最后,计算获得与主向量垂直的XY平面,并将闭合方向主向量映射到XY平面以获得X轴方向,从而获得该抓取区域完整的六自由度位姿;
(3)当物体抓取区域的位置和姿态确定后,将X轴法向量旋转180度生成机器人抓取的六自由度位姿信息。
本发明具有以下有益效果:
本发明提供基于混合信息输入网络模型的未知物体抓取位姿估计方法,以解决在物体模型未知情况下,只通过物体的3D视觉信息,实现机器人对未知物体最佳抓取区域的自主识别和抓取位姿的估计。该方法采用混合信息融合机制和基于反馈信息的候选抓取区域生成机制,使机器人对未知物体抓取时,仅通过未知物体的一幅RGB-D图像,便能够映射出物体上最适合机器人抓取的最佳区域,从而生成机器人夹持器在对该物体进行抓取时的抓取位姿。本发明利用建立的深度神经网络模型,从大量图像样本中自动提取适合机器人抓取的特征,避免了对被抓物体进行复杂的三维建模,实现了机器人对未知物体的抓取位姿估计。该方法有利于机器人快速、准确地实现对未知物体的自主抓取。
本发明方法是基于混合信息输入的卷积神经网络模型,能够仅通过未知物体的一对RGB-D图像,直接映射出该物体适合机器人抓取的最佳抓取区域及其所对应的抓取位姿,从而为机器人机械手提供对未知物体抓取时所需的抓取位姿。该发明方法整合了基于混合信息融合模型的可抓取区域识别、最佳抓取区域搜索及抓取位姿估计等多种算法,可以使机器人快速、准确地实现对未知物体的抓取。
本发明方法无需物体模型的先验信息,具备对混合输入信息的有效融合能力和高效的最佳区域搜素能力,同时具有识别准确率高,识别实时性好的特点。该方法有效解决了现在机器人抓取未知物体时遇到的困难,在工业机器人和服务机器人对未知物体的智能抓取等领域,具有重要的应用前景。
附图说明
图1为未知物体抓取位姿估计方法的流程图;
图2为显示图像预处理过程的一组图;
图2中:左侧图为原始物体的彩色图像,其中矩形框内为需要判别可抓取性的矩形区域,矩形长轴方向为机器人抓取的闭合方向;图右侧第一行为经过图像旋转操作后的矩形区域图像,第二行和第三行为彩色图像和法向量图像经过图像尺寸缩放和白化处理后的结果图;
图3为混合信息融合模型部分结构图;
图4为物体分割结果图;
图5为物体的最佳抓取区域图;图中:左边图为充电器最佳抓取区域识别结果图,右边图为遥控器最佳抓取区域识别结果图,中间粗框分别为充电器和遥控器的最佳抓取区域识别结果;
图6为一组最佳抓取区域的抓取位姿估计图,图中从左至右的四幅图分别为彩色图像上的抓取矩形区域,去除物体背景信息图像上的抓取矩形区域,去除抓取矩形区域外后的物体图像及其中心点,去除抓取矩形区域外后的物体图像及中心点处的抓取坐标。
具体实施方式
具体实施方式一:结合附图对本发明的具体实施方式作进一步阐述。如图1所示,为本发明的一种基于卷积神经网络模型的未知物体抓取位姿估计方法的流程图,主要由以下步骤完成:
步骤1:图像预处理
1)深度信息预处理
本专利的混合信息输入包含物体图像的彩色、深度和法向量通道信息,数据来源于微软公司Kinect深度传感器。深度通道信息由于阴影、物体反射等原因通常会存在许多图像噪声,从而使深度图像上许多像素点的深度值缺失,并通常以大块区域的形式出现。因此,当使用传统的图像滤波方法试图对深度图像中缺失信息进行拟合时,会发现图像中的边缘信息受到了很大的干扰,无法有效的补全缺失的深度信息。
为了应对这一问题,需要对深度图像中存在的深度缺失以零值代替,并记录这些缺失的深度信息点的位置。然后,根据深度图像中缺失信息点所占整幅图像的比例,放大其它正常深度信息点的深度信息,以减小噪声对深度图像总体深度值尺度的影响,保证不同样本间各通道特征不因噪声多少而改变其特性。
2)图像旋转与缩放操作
对于未知物体的抓取区域识别,图像中的抓取区域矩形可能与图像坐标系的X轴有一定夹角,需要对候选抓取矩形采取图像旋转、尺寸缩放和比例放大等预处理操作,以使数据结构符合深度卷积神经网络模型需要的尺寸。同时并保证网络模型不会因候选待抓取区域的尺寸大小而影响判别结果。
步骤包括:首先,通过一定的旋转操作将其矩形长边与图像坐标系X轴保持平行关系。然后,在保证候选抓取矩形的长宽比例不变的前提下,将长边尺寸缩放至36个像素,以满足本发明模型的输入要求(36x36的图像块),并按此缩放比例对短边进行缩放,将宽边尺寸填充至与长边相同的36个像素,填充区域像素值补全值赋0。最后,为了使缩放后各候选抓取区域对模型训练具有同等效果,根据区域内有效像素所占比例对有效像素点的值进行一定的尺度放大。
3)白化处理
三种通道信息中数据点分布统计特性差异,尤其是彩色图像与法向量信息间的巨大差异。为了使多通道视觉信息中每一通道的信息均能够在后续识别算法发挥功用,在完成抓取区域矩形的旋转、缩放等操作后,对传统的白化处理进行了调整,以避免使系统只学习到某一单一通道信息的特征,而忽略了其它通道信息的特征。
首先,在各样本图像的深度通道信息上按式(1)单独进行白化处理,以消除各样本间因深度信息差异过大而无法进行整体白化处理的问题。
然后,对彩色和法向量通道的信息在数据集上按式(2)分别进行白化处理,其中需要将各通道的缩放尺度设置为三个通道标准差之和。
Figure BDA0001576466550000081
Figure BDA0001576466550000082
式中,
Figure BDA0001576466550000083
Figure BDA0001576466550000084
分别是单个深度图像m上的原始数据和白化处理后的图像数据,k=1,2,3为深度图像上{X,Y,Z}方向上的三个通道信息;
Figure BDA0001576466550000085
Figure BDA0001576466550000086
分别是彩色图像和法向量信息的原始数据,
Figure BDA0001576466550000087
Figure BDA0001576466550000088
为采用改进方法处理后的彩色和法向量通道信息;Di是对应图像上各通道的标准差,GPCA是主成分分析处理函数。
通过这样以上预处理操作,可以使三种通道视觉信息处于同一水平,从而使网络模型能够在各个通道信息中都提出目标特征。
步骤2:构造基于混合信息融合的网络模型
1)网络模型的构建
对未知物体上候选抓取区域的可抓取性进行评价,并搜索获得其最佳的抓取区域,采用构建深度卷积神经网络模型并进行学习方法。构建的深度卷积神经网络模型结构共包含7层,一个输入层,一个混合信息融合层,两个卷积层,两个全连接层和一个输出层,当给定物体上一个图像矩形块r=(xc,yc,h,α)时,通过此区域内各通道的视觉信息Xr,利用构建的网络模型,可推断此矩形块的可抓取性。网络模型的混合信息融合层实现了对不同视觉图像通道间的信息融合,如图3所示;混合信息融合层后之后连接两个传统的卷积层,且各层之后均有一个最大值降采样层;第二个卷积层之后连接两个全连接层,并采用Dropout方法降低模型过拟合风险;最后的输出层采用Logistic分类器对此区域是否适合抓取进行判别。各隐含层均采用ReLU(Rectified Linear Units)函数进行神经元激活。
基于混合信息输入的网络模型的输出是输入矩形区域可抓取性的概率估计。因此,在推断过程中,通过寻找模型的最大输出概率来确定物体上最佳的抓取区域。
Figure BDA0001576466550000091
式中,f(r)是从候选抓取图像区域r中提取的图像特征,
Figure BDA0001576466550000092
是此区域是否可以抓取的判别结果,r*是候选抓取区域集合R中搜索到的最佳抓取区域,Θ*为最佳的深度卷积神经网络模型参数。
2)混合信息输入的信息融合机制
深度卷积神经网络模型的输入包括三种类别的九个通道视觉信息,即三通道彩色信息(RGB)、三通道深度信息(Depth)和三通道表面法向量信息(Normal)。其中,表面法向量通道是通过在深度通道信息上进行各点法向量计算而获得。为了解决通道间视觉信息间差异大及相关联特征难以提取的问题,本发明提出了一种新的混合信息融合处理方法。该方法在单独处理各通道信息的基础上,通过在彩色通道和深度通道之间、彩色通道和法向量通道之间引入两种共享的卷积核,使模型能够学习到两种不同通道间的高关联性特征;并通过在目标优化函数中引入针对共享卷积核的参数连接数量的惩罚项,以减小模型的复杂度和抑制弱相关特征的学习。
输入层将色彩、位置和法向量等九通道混合信息分成三组进行输入,各组分别提取卷积核特征,同时采用共享卷积核同时提取彩色信息组和深度信息组,彩色信息和法向量信息组的关联特征。因此,网络的第二层是混合信息融合层,其是一种包含了五种特征图的卷积层,其分别是三种通道各自提取的特征图、彩色通道和深度通道共同提取的特征图、彩色通道和法向量通道共同提取的特征图。
此外,为了减小因为引入共享卷积核带来的模型复杂度升高的问题,本发明在共享卷积核上设计了一种新的正则化方法,可同时实现对共享卷积核中连接数量(非零权重)的限制,和对权重尺度的规则化,如式5所示。该结构化的惩罚项被引入至模型的优化函数,从而使模型参数在优化过程中考虑到关联特征的学习。
Figure BDA0001576466550000101
式中,G(W)为在共享卷积核上的正则化惩罚项;右侧第一项为仅对非零参数的惩罚项,右侧第二项为对参数尺度的L1范数惩罚项,p为1;W为神经网络的参数,β是表征不同惩罚项对最终惩罚项的影响权重。I(A)是指示函数,A为该函数中的表达式,当表达式为真时,函数输出为1,反之为0。L、N和M分别是融合通道数量、卷积核数量和一个卷积核上参数数量,
Figure BDA0001576466550000102
是共享卷积核中的各参数。
步骤3:网络模型训练
在网络模型训练中,将数据集中的训练样本预处理后,得到的36*36*9=11664维输入特征向量,包括三通道的R,G,B颜色信息,三通道位置信息Xd,Yd,Zd,和三通道的法向量信息Xn,Yn,Zn。将此特征向量输入深度卷积神经网络模型,经前向传播和反向传播优化迭代,得到深度卷积神经网络模型中的优化参数。
步骤4:场景中被抓取物体的分割
在完成网络模型训练后,为了使该模型能够应用到实际未知物体的最佳抓取区域识别之中,需要提取场景中物体所在的区域。采用3D传感器采集到的RGB-D图像中大部分为背景图像,需要根据RGB-D图像中的视觉信息、深度信息,从中寻找出物体所在图像中的区域,实现对物体区域的分割。
为了实现这一目的,本发明利用物体放置在平面上这一先验信息,首先在深度图像上采用了RANSAC平面拟合算法来对物体放置的平面进行拟合,从而找出平面;然后,将在平面上方的点分割出来,并作为属于平面上放置物体的点;最后,通过判别这些聚集在一起点的距离,将这些物体分割出来。
步骤5:最佳抓取区域的生成
在离线学习到深度卷积网络模型的参数后,以一个候选矩形图像块作为输入,对其是否适合抓取进行判断。然而,此时只能对一个给定候选区域的可抓取性进行判别,还无法得到物体上的最佳抓取区域。
因此,本发明提出了一种新的基于信息反馈机制的候选抓取矩形区域生成方法。相比窗口移动搜索的盲目性,该方法在进行候选矩形区域搜索时,考虑模型对先前候选区域可抓取性评价优劣的判别结果,提高在高概率输出矩形区域附近的搜索力度,从而加速最佳抓取区域的搜索速度。
首先,在图像中随机生成一系列初始化的候选待抓取矩形区域,并对其进行图像预处理以满足模型输入;
然后,对这些初始化区域进行优劣判别并记录结果;
其后,将这些初始化的矩形区域的判别结果反馈至ε-greedy搜索算法中,加强在判别结果排名较高区域附近的搜索力度,并减少在低排名判别结果区域附近的搜索,同时不断更新已搜索区域及其判别结果;
最后,当最佳待抓取区域的判别值变化小于一定阈值后,此待抓取矩形区域即为整个物体上最佳的待抓取操作区域。
步骤6:机器人的抓取位姿估计
在得到未知物体的最佳抓取区域后,采用深度图像信息估计抓取区域的位置和抓取姿态,从而得到机器人夹持器抓取物体时的抓取位姿。
最佳抓取区域的抓取位姿估计的步骤如下:
(1)利用物体支撑平面信息从最佳抓取区域内消除掉物体支撑平台的像素点。
(2)采用物体中央区域的像素信息(1/2的物体像素信息)对此待抓取区域抓取位置和抓取姿态进行估计,以降低物体边缘噪声对提取位姿的干扰。
步骤如下:首先为该中央区域构造一个由中心向边缘衰减的规则化权重核函数,将该核函数分别与中央区域点的三维位置信息与法向量信息进行卷积处理,得到的结果即作为此区域中心位置点的三维位置和法向量信息;然后,由中央区域点拟合出机器人夹持器在该区域闭合方向的主向量;最后,计算获得与主向量垂直的XY平面,并将闭合方向主向量映射到XY平面以获得X轴方向,从而获得该抓取区域完整的六自由度位姿。
(3)当物体抓取区域的位置和姿态确定后,将X轴法向量旋转180度生成机器人抓取的六自由度位姿信息。
实施例
结合图1至图5说明本实施例,基于卷积神经网络模型的未知物体抓取识别方法步骤为:
步骤一、首先对RGB-D图像进行预处理。图2中左侧为原始物体的彩色图像,其中矩形框内为需要判别可抓取性的矩形区域,矩形长轴方向为机器人抓取的闭合方向。图右侧第一行为经过图像旋转操作后的矩形区域图像,第二行和第三行为彩色图像和法向量图像经过图像尺寸缩放和白化处理后的结果。
步骤二、构造如图3的混合信息融合模型结构,并搭建深度卷积神经网络模型。
步骤三、将训练数据经预处理后输入深度卷积神经网络模型,经前向传播和反向传播优化迭代,得到深度卷积神经网络模型中的优化参数。
步骤四、对实际的RGB-D图像进行物体分割,将可抓取物体从背景中分割出来,分割效果如图4所示。
步骤五:采用基于信息反馈机制的候选抓取矩形区域生成方法,搜索获得物体上的最佳抓取区域。如图5所示,中间黄绿粗框分别为充电器和遥控器的最佳抓取区域识别结果。
步骤六:在得到未知物体的最佳抓取区域后,采用深度图像信息估计抓取区域的位置和姿态,得到机器人夹持器抓取物体时的位姿,如图6所示。
该方法避免物体的三维建模,利用经过训练的深度卷积神经网络模型,实现机器人对未知物体的抓取位姿进行估计,可以满足机器人对未知物体进行自主抓取的需要,有利于提高机器人的智能化程度,快速、准确地实现对未知物体的自主抓取任务。

Claims (4)

1.一种基于混合信息输入网络模型的未知物体抓取位姿估计方法,其特征在于,所述方法的实现过程为:
步骤一、对训练图像数据集中的图像混合信息进行预处理;具体过程为:
1)深度信息预处理
图像混合信息包含物体图像的彩色、深度和法向量通道信息,深度通道信息存在的图像噪声使深度图像上像素点的深度缺失;
对深度图像中存在的深度缺失以零值代替,并记录这些缺失的深度信息点的位置;然后,根据深度图像中缺失信息点所占整幅图像的比例,放大非零正常深度信息点的深度信息;
2)图像旋转与缩放操作
对候选抓取矩形采取图像旋转、尺寸缩放和比例放大的预处理操作,使数据结构符合深度卷积神经网络模型需要的尺寸;具体过程为:首先,通过一定的旋转操作将其矩形长边与图像坐标系X轴保持平行关系;然后,在保证候选抓取矩形的长宽比例不变的前提下,将长边尺寸缩放至预设像素,并按此缩放比例对短边进行缩放,将宽边尺寸填充至与长边相同的预设像素,填充区域像素值补全值赋0;最后,为了使缩放后各候选抓取区域对模型训练具有同等效果,根据区域内有效像素所占比例对有效像素点的值进行一定的尺度放大;
3)白化处理
在完成抓取区域矩形的旋转、缩放操作后,进行如下白化处理:
首先,在各样本图像的深度通道信息上按式(1)单独进行白化处理,以消除各样本间因深度信息差异过大而无法进行整体白化处理的问题;
然后,对彩色和法向量通道的信息在数据集上按式(2)分别进行白化处理,其中需要将各通道的缩放尺度设置为三个通道标准差之和;
Figure FDA0002951950370000011
Figure FDA0002951950370000012
式中,
Figure FDA0002951950370000021
Figure FDA0002951950370000022
分别是单个深度图像m上的原始数据和白化处理后的图像数据,k=1,2,3为深度图像上{X,Y,Z}方向上的三个通道信息;
Figure FDA0002951950370000023
Figure FDA0002951950370000024
分别是彩色图像和法向量信息的原始数据,
Figure FDA0002951950370000025
Figure FDA0002951950370000026
为采用改进方法处理后的彩色和法向量通道信息;Di是对应图像上各通道的标准差,GPCA是主成分分析处理函数;
通过这样以上预处理操作,可以使三种通道视觉信息处于同一水平,从而使网络模型能够在各个通道信息中都提出目标特征;
步骤二、构建基于混合信息输入的信息融合机制,并搭建神经网络模型;具体过程为:
1)神经网络模型的构建
对未知物体上候选抓取区域的可抓取性进行评价,并搜索获得其最佳的抓取区域,采用构建深度卷积神经网络模型并进行学习方法;构建的深度卷积神经网络模型结构共包含7层,一个输入层,一个混合信息融合层,两个卷积层,两个全连接层和一个输出层;
当给定物体上一个图像矩形块r=(xc,yc,h,α)时,通过此区域内各通道的视觉信息Xr作为神经网络模型的输入;xc,yc表示矩形块的中心点,h表示矩形块的长度,α表示矩形块的旋转角度;
混合信息融合层后之后连接两个传统的卷积层,且各层之后均有一个最大值降采样机制;第二个卷积层之后连接两个全连接层,并采用Dropout方法降低模型过拟合风险;最后的输出层采用Logistic分类器对此区域是否适合抓取进行判别;各隐含层均采用ReLU函数进行神经元激活;
基于混合信息输入的网络模型的输出是输入矩形区域可抓取性的概率估计,在推断过程中,通过寻找模型的最大输出概率来确定物体上最佳的抓取区域;
Figure FDA0002951950370000027
式中,f(r)是从候选抓取图像区域r中提取的图像特征,
Figure FDA0002951950370000028
是此区域是否可以抓取的判别结果,r*是候选抓取区域集合R中搜索到的最佳抓取区域,Θ*为最佳的深度卷积神经网络模型参数;
2)混合信息输入的信息融合机制:
深度卷积神经网络模型的输入包括三种类别的九个通道视觉信息,即三通道彩色信息、三通道深度信息和三通道表面法向量信息;其中,表面法向量通道是通过在深度通道信息上进行各点法向量计算而获得;
在单独处理各通道信息的基础上,通过在彩色通道和深度通道之间、彩色通道和法向量通道之间引入两种共享的卷积核,使模型能够学习到两种不同通道间的高关联性特征;并通过在目标优化函数中引入针对共享卷积核的参数连接数量的惩罚项,以减小模型的复杂度和抑制弱相关特征的学习;
输入层将色彩、深度和法向量九通道混合信息分成三组进行输入,各组分别提取卷积核特征,同时采用共享卷积核同时提取彩色信息组和深度信息组,彩色信息和法向量信息组的关联特征;
神经网络模型的混合信息融合层是一种包含了五种特征图的卷积层,其分别是三种通道各自提取的特征图、彩色通道和深度通道共同提取的特征图、彩色通道和法向量通道共同提取的特征图;
在所述共享卷积核上设计正则化方法,将惩罚项引入至神经网络模型的优化函数,从而使模型参数在优化过程中考虑到关联特征的学习;
Figure FDA0002951950370000031
式中,G(W)为在共享卷积核上的正则化惩罚项;右侧第一项
Figure FDA0002951950370000032
为仅对非零参数的惩罚项,右侧第二项||W||p为对参数尺度的L1范数惩罚项,p为1;W为神经网络的参数,β是表征不同惩罚项对最终惩罚项的影响权重;I(A)是指示函数,A为该函数中的表达式,当表达式为真时,函数输出为1,反之为0;L、N和M分别是融合通道数量、卷积核数量和一个卷积核上参数数量,
Figure FDA0002951950370000033
是共享卷积核中的各参数;
步骤三、对包含混合信息融合机制的网络模型参数进行训练,完成模型优化,获得优化后的混合信息输入网络模型;
步骤四、利用基于RGB-D图像的物体分割技术实现对传感器采集到的场景图像进行可抓取物体分割;
步骤五、利用基于反馈信息的候选区域生成机制,搜索获得物体上的最佳抓取区域;具体过程为:
首先,在图像中随机生成一系列初始化的候选待抓取矩形区域,并对其进行图像预处理以满足模型输入;
然后,对这些初始化区域进行优劣判别并记录结果;
其后,将这些初始化的矩形区域的判别结果反馈至ε-greedy搜索算法中,加强在判别结果排名较高区域附近的搜索力度,并减少在低排名判别结果区域附近的搜索,同时不断更新已搜索区域及其判别结果;
最后,当最佳待抓取区域的判别值变化小于一定阈值后,此待抓取矩形区域即为整个物体上最佳的待抓取操作区域;
步骤六、利用估计机器人在最佳抓取区域的抓取位置和抓取姿态,进而获得机器人抓取物体时的抓取位姿。
2.根据权利要求1所述的一种基于混合信息输入网络模型的未知物体抓取位姿估计方法,其特征在于,在步骤三中,神经网络模型训练的过程为:
在神经网络模型训练中,将数据集中的训练样本预处理后,得到的图像维度输入特征向量,包括三通道的R,G,B颜色信息,三通道深度信息Xd,Yd,Zd,和三通道的法向量信息Xn,Yn,Zn;将此特征向量输入深度卷积神经网络模型,经前向传播和反向传播优化迭代,得到深度卷积神经网络模型中的优化参数,图像维度输入特征向量等于图像长度乘以图像宽度乘以图像通道数。
3.根据权利要求2所述的一种基于混合信息输入网络模型的未知物体抓取位姿估计方法,其特征在于,在步骤四中,场景中被抓取物体的分割的过程为:
在完成神经网络模型训练后,为了使该模型能够应用到实际未知物体的最佳抓取区域识别之中,需要提取场景中物体所在的区域;
利用物体放置在平面上这一先验信息,首先在深度图像上采用了RANSAC平面拟合算法来对物体放置的平面进行拟合,从而找出平面;然后,将在平面上方的点分割出来,并作为属于平面上放置物体的点;最后,通过判别这些聚集在一起点的距离,将这些物体分割出来。
4.根据权利要求1所述的一种基于混合信息输入网络模型的未知物体抓取位姿估计方法,其特征在于,在步骤六中,机器人的抓取位姿估计过程为:
在得到未知物体的最佳抓取区域后,采用深度图像信息估计抓取区域的位置和抓取姿态,从而得到机器人夹持器抓取物体时的抓取位姿;最佳抓取区域的抓取位姿估计的步骤如下:
(1)利用物体支撑平面信息从最佳抓取区域内消除掉物体支撑平台的像素点;
(2)采用物体中央区域的像素信息对此待抓取区域抓取位置和抓取姿态进行估计,以降低物体边缘噪声对提取位姿的干扰,过程如下:
首先为该中央区域构造一个由中心向边缘衰减的规则化权重核函数,将该核函数分别与中央区域点的三维深度信息与法向量信息进行卷积处理,得到的结果即作为此区域中心位置点的三维深度和法向量信息;然后,由中央区域点拟合出机器人夹持器在该区域闭合方向的主向量;最后,计算获得与主向量垂直的XY平面,并将闭合方向主向量映射到XY平面以获得X轴方向,从而获得该抓取区域完整的六自由度位姿;
(3)当物体抓取区域的位置和姿态确定后,将X轴法向量旋转180度生成机器人抓取的六自由度位姿信息。
CN201810139292.5A 2018-02-09 2018-02-09 基于混合信息输入网络模型的未知物体抓取位姿估计方法 Active CN108280856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810139292.5A CN108280856B (zh) 2018-02-09 2018-02-09 基于混合信息输入网络模型的未知物体抓取位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810139292.5A CN108280856B (zh) 2018-02-09 2018-02-09 基于混合信息输入网络模型的未知物体抓取位姿估计方法

Publications (2)

Publication Number Publication Date
CN108280856A CN108280856A (zh) 2018-07-13
CN108280856B true CN108280856B (zh) 2021-05-07

Family

ID=62808253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810139292.5A Active CN108280856B (zh) 2018-02-09 2018-02-09 基于混合信息输入网络模型的未知物体抓取位姿估计方法

Country Status (1)

Country Link
CN (1) CN108280856B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086821A (zh) * 2018-07-31 2018-12-25 太原理工大学 机器人的物体抓取判别方法
CN109015640B (zh) * 2018-08-15 2020-07-14 深圳清华大学研究院 抓取方法、系统、计算机装置及可读存储介质
CN109242873B (zh) * 2018-08-22 2022-10-11 浙江大学 一种基于消费级彩色深度相机对物体进行360度实时三维重建的方法
CN109255813B (zh) * 2018-09-06 2021-03-26 大连理工大学 一种面向人机协作的手持物体位姿实时检测方法
CN109658413B (zh) 2018-12-12 2022-08-09 达闼机器人股份有限公司 一种机器人目标物体抓取位置检测的方法
CN109702741B (zh) * 2018-12-26 2020-12-18 中国科学院电子学研究所 基于自监督学习神经网络的机械臂视觉抓取系统及方法
CN109903332A (zh) * 2019-01-08 2019-06-18 杭州电子科技大学 一种基于深度学习的目标姿态估计方法
CN109708658B (zh) * 2019-01-14 2020-11-24 浙江大学 一种基于卷积神经网络的视觉里程计方法
CN110084141B (zh) * 2019-04-08 2021-02-09 南京邮电大学 一种基于私有信息的跨领域场景识别方法
CN110211180A (zh) * 2019-05-16 2019-09-06 西安理工大学 一种基于深度学习的机械臂自主抓取方法
CN110276346B (zh) * 2019-06-06 2023-10-10 北京字节跳动网络技术有限公司 目标区域识别模型训练方法、装置和计算机可读存储介质
CN110315535B (zh) * 2019-06-10 2022-05-17 西北工业大学 一种基于连续路径的机器人目标抓取检测方法
CN110253577B (zh) * 2019-06-19 2021-04-06 山东大学 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN110378325B (zh) * 2019-06-20 2022-03-15 西北工业大学 一种机器人抓取过程中的目标位姿识别方法
CN110509273B (zh) * 2019-08-16 2022-05-06 天津职业技术师范大学(中国职业培训指导教师进修中心) 基于视觉深度学习特征的机器人机械手检测及抓取方法
US20220277469A1 (en) * 2019-09-23 2022-09-01 Intel Corporation Scene retrieval for computer vision
CN110909762B (zh) * 2019-10-15 2022-10-04 北京航空航天大学 基于多传感器融合的机器人姿态识别方法及装置
CN111310637B (zh) * 2020-02-11 2022-11-11 山西大学 一种基于尺度不变网络的机器人目标抓取检测方法
CN111325795B (zh) * 2020-02-25 2023-07-25 深圳市商汤科技有限公司 一种图像处理方法、装置、存储介质及机器人
CN111476087A (zh) * 2020-03-02 2020-07-31 深圳市商汤科技有限公司 目标检测方法及其相关的模型训练方法、设备、装置
CN111667535B (zh) * 2020-06-04 2023-04-18 电子科技大学 一种针对遮挡场景下的六自由度位姿估计方法
US11524846B2 (en) * 2020-10-19 2022-12-13 Gideon Brothers d.o.o. Pose determination by autonomous robots in a facility context
CN115249333B (zh) * 2021-06-29 2023-07-11 达闼科技(北京)有限公司 抓取网络训练方法、系统、电子设备及存储介质
CN113681552B (zh) * 2021-06-30 2022-08-16 大连理工江苏研究院有限公司 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN116307573A (zh) * 2023-03-09 2023-06-23 中天建设集团有限公司 建筑场地材料绿色节能处理方法、设备与介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460313B1 (ko) * 2013-05-24 2014-11-14 중앙대학교 산학협력단 시각 특징과 기하 정보를 이용한 로봇의 위치 추정 장치 및 방법
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN106780605A (zh) * 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460313B1 (ko) * 2013-05-24 2014-11-14 중앙대학교 산학협력단 시각 특징과 기하 정보를 이용한 로봇의 위치 추정 장치 및 방법
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN106780605A (zh) * 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Graspable Object Classification with Multi-loss Hierarchical Representations》;Zhichao Wang 等;《International Conference on Intelligent Robotics and Applications》;20171231;第460-471页 *
《Learning data-efficient hierarchical features for robotic graspable object recognition》;Zhichao Wang,et al;《IEEE International Conference on Advanced Intelligent Mechatronics》;20171231;第590-595页 *
《Robot grasp detection using multimodal deep convolutional neural networks》;Zhichao Wang 等;《Advances in Mechanical Engineering》;20161231;第1-12页 *

Also Published As

Publication number Publication date
CN108280856A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280856B (zh) 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
CN108171748B (zh) 一种面向机器人智能抓取应用的视觉识别与定位方法
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN111243017B (zh) 基于3d视觉的智能机器人抓取方法
CN108247637B (zh) 一种工业机器人手臂视觉防撞操控方法
CN108196453B (zh) 一种机械臂运动规划群体智能计算方法
CN108247635B (zh) 一种深度视觉的机器人抓取物体的方法
CN110509273B (zh) 基于视觉深度学习特征的机器人机械手检测及抓取方法
CN113065546B (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN110969660B (zh) 一种基于三维立体视觉和点云深度学习的机器人上料系统
CN113034600B (zh) 基于模板匹配的无纹理平面结构工业零件识别和6d位姿估计方法
CN111639571B (zh) 基于轮廓卷积神经网络的视频动作识别方法
CN110321937B (zh) 一种Faster-RCNN结合卡尔曼滤波的运动人体跟踪方法
CN111913435A (zh) 一种基于堆积沙漏网络的单/多目标关键点定位方法
CN115147488A (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
CN114140418A (zh) 一种基于rgb图像和深度图像的七自由度抓取姿势检测方法
CN115861999A (zh) 一种基于多模态视觉信息融合的机器人抓取检测方法
CN113034575A (zh) 一种模型构建方法、位姿估计方法及物体拣取装置
CN115578460A (zh) 基于多模态特征提取与稠密预测的机器人抓取方法与系统
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN115861780B (zh) 一种基于yolo-ggcnn的机械臂检测抓取方法
CN112288809A (zh) 一种用于多物体复杂场景的机器人抓取检测方法
CN114998573B (zh) 一种基于rgb-d特征深度融合的抓取位姿检测方法
Zhang et al. Object detection and grabbing based on machine vision for service robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant