一种基于变形卷积网络的物体位姿估计方法及系统
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种基于变形卷积网络的物体位姿估计方法及系统。
背景技术
基于计算机视觉的物体六自由度位姿(物体相对于相机坐标系的三维平移和旋转变换参数共计六个自由度)估计技术使机器人能够从三维层面感知周围的环境,是实现机器人抓取和灵巧操作的关键技术,对于推动服务机器人、工业机器人的应用有着重要意义,此外该技术在增强现实、虚拟现实技术等领域也有广阔的应用前景。
现有物体位姿估计技术主要有以下几种:
一是基于模板匹配的方法:该方法将采集的图像和离线制作好的模板进行匹配,根据匹配的模板确定物体位姿;
现有的此类存在以下问题:该方法在背景杂乱、物体混杂堆叠的情况下很难准确地把目标物体匹配到,鲁棒性不高;模板匹配的时间会随着模板数量的增加而急剧上升,很难满足实时性的要求。
二是基于深度学习的方法:该方法将采集的图像输入到训练好的网络中,直接回归出物体的六自由度位姿,或通过预测二维特征点进而利用PnP算法得到物体的六自由度位姿;
现有的此类方法存在以下问题:整个网络卷积核都是标准卷积核,当被估测位姿的物体所处的背景杂乱且有互相堆叠时,用于估计位姿的信息除了物体本身外,不可避免的会包含背景和其他堆叠物体的信息,这对特征提取带来了极大的影响,进而降低了物体位姿估计的精度,因此该类方法最后对初步预估结果进行位姿精修以修正预测的位姿,但位姿精修过程耗时较长,降低了算法的效率。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于变形卷积网络的物体位姿估计方法及系统,消除了杂乱背景和物体相互堆叠对于物体位姿估计的不利影响。
本发明的目的可以通过以下技术方案来实现:
一种基于变形卷积网络的物体位姿估计方法,包括:
S1、获取目标物体的彩色图像和深度图像,将目标物体的彩色图像输入训练好的实例分割网络,得到实例分割结果;
S2、根据实例分割结果分别从彩色图像和深度图像中裁剪出包含目标物体的彩色图像块和深度图像块,并把深度图像块转换成三通道图像表示的点云;
S3、将彩色图像块和点云的图像中不包含目标物体的区域的像素值置为0后输入训练好的变形卷积网络,得到目标物体位姿估计结果;
其中,利用彩色样本图像训练实例分割网络,利用标记好位姿的彩色分割图像和点云样本训练变形卷积网络;
所述的变形卷积网络提取特征的感受野集中在彩色图像块和点云图像上目标物体分布的区域。
进一步地,所述的实例分割网络和变形卷积网络分别训练的,训练实例分割网络的数据还包括彩色样本图像相应的分割结果;
所述的标记好位姿的彩色分割图像和点云样本包含单个目标物体的彩色图像块以及目标物体位姿信息。
进一步地,所述的变形卷积网络包括标准卷积层、变形卷积层、标准池化层、变形RoI池化层和全连接层,所述的变形卷积网络通过变形卷积层和变形RoI池化层实现变形操作;
其中变形卷积层是通过一个标准卷积层预测出特征图各个位置偏移,将该位置偏移加到卷积操作中实现变形卷积操作;
变形ROI池化层通过一个全连接层预测出特征图各个位置偏移,将该位置偏移加到ROI池化操作中实现变形ROI池化操作。
所述的彩色图像块和点云图像一起作为六通道的图像输入到变形卷积网络。首先经过一个变形RoI池化层,将彩色图像块和点云图像的大小池化成统一尺寸,然后再经过若干变形卷积层和标准卷积层,控制感受野集中分布在目标物体所在区域。
进一步地,所述的变形卷积网络的输出包括多个目标物体位姿值和对应的置信度,所述的目标物体位姿估计结果为置信度最大的目标物体位姿值。
进一步地,所述的深度图像块转换成三通道图像表示的点云的过程具体为:
所述的深度图像块先转换成点云并进行预处理,即消除点云噪点和空洞,然后将该点云的三个坐标值分别保存到三个通道,形成三通道图像表示的点云。
进一步地,目标物体位姿估计结果为六自由度位姿,即目标物体相对于相机坐标系的三维平移和旋转变换共计六个自由度。
一种基于变形卷积网络的物体位姿估计系统,包括RGB-D相机、实例分割模块、目标裁剪模块、转换处理模块和变形卷积模块;
所述的RGB-D相机获取目标物体的彩色图像和深度图像;
所述的实例分割模块分割彩色图像,获得实例分割结果;
所述的目标裁剪模块根据实例分割结果分别从彩色图片和深度图片中裁剪出包含目标物体的彩色图像块和深度图像块;
所述的转换处理模块将深度图像块转换成三通道图像表示的点云,并将彩色图像块和点云图像中不包含目标物体的区域的像素值置为0;
所述的变形卷积模块包括变形卷积网络,该模块将经转换处理模块处理的彩色图像块和点云输入变形卷积网络,获得目标物体位姿估计结果;
其中,所述的变形卷积网络提取特征的感受野集中在彩色图像块和点云图像上目标物体分布的区域。
进一步地,所述的变形卷积网络包括标准卷积层、变形卷积层、标准池化层、变形RoI池化层和全连接层,所述的变形卷积网络通过变形卷积层和变形RoI池化层实现变形操作;
其中变形卷积层是通过一个标准卷积层预测出特征图各个位置偏移,将该位置偏移加到卷积操作中实现变形卷积;
变形ROI池化层通过一个全连接层预测出特征图各个位置偏移,将该位置偏移加到ROI池化操作中实现变形ROI池化。
进一步地,所述的变形卷积网络的输出包括多个目标物体位姿值和对应的置信度,所述的目标物体位姿估计结果为置信度最大的目标物体位姿值。
进一步地,所述的深度图像块转换成三通道图像表示的点云的过程具体为:
所述的深度图像块先转换成点云并进行预处理,即消除点云噪点和空洞,然后将该点云的三个坐标值分别保存到三个通道,形成三通道图像表示的点云。
与现有技术相比,本发明具有以如下有益效果:
(1)本发明利用实例分割网络在像素级别定位出待估测位姿的物体,然后利用变形卷积网络输出多个物体位姿值及对应置信度,选择置信度最大的目标物体位姿值,变形卷积网络能够将感受野控制在所需估计位姿的物体上,因此在不需要位姿精修模块的情况下,就可以得到精确的位姿,简化了估计方法步骤,提升了位姿估计的效率;
(2)本发明采用具有变形性质的变形卷积网络,不同于标准卷积核来提取特征的方式,该方式在存在遮挡的情况下提取的特征会被其他无关物体干扰,从而影响位姿估计的精度,变形卷积网络能在遮挡出现的情况下,使得卷积核尽量分布在待估计位姿的目标物体上,所提取的特征都是目标物体上的特征,而不会受其他物体的干扰,从而提升了精度和鲁棒性。
附图说明
图1为本发明的方法流程图;
图2为本发明的系统工作框架图;
图3为变形卷积层示意图;
图4为变形ROI池化层示意图;
图5为变形卷积网络的效果示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
一种基于变形卷积网络的物体位姿估计方法,如图1,包括:
S1、获取目标物体的彩色图像和深度图像,将目标物体的彩色图像输入训练好的实例分割网络,得到实例分割结果;
S2、根据实例分割结果分别从彩色图像和深度图像中裁剪出包含目标物体的彩色图像块和深度图像块,并把深度图像块转换成三通道表示的点云;
S3、将彩色图像块和点云中不包含目标物体的区域的像素值置为0后输入训练好的变形卷积网络,得到目标物体位姿估计结果,变形卷积网络的输出包括多个目标物体位姿值和对应的置信度,目标物体位姿估计结果为置信度最大的目标物体位姿值。
其中,利用彩色样本图像以及相应的分割结果训练实例分割网络,利用标记好位姿的包含单个目标物体的彩色图像块和点云样本训练变形卷积网络;
变形卷积网络包括标准卷积层、变形卷积层、标准池化层、变形RoI池化层和全连接层。
变形卷积网络的示意效果如图5所示,变形卷积网络通过变形卷积层和变形RoI池化层实现变形操作,该变形操作控制感受野集中分布在物体表面,具体为:
彩色图像块和点云一起作为六通道的图像输入到变形卷积网络。首先经过一个变形RoI池化层,将彩色图像块和点云的大小池化成统一尺寸,然后再经过若干变形卷积层和标准卷积层,控制感受野集中分布在物体表面。
变形操作具体为:
如图3所示,变形卷积层是通过一个标准卷积层预测出特征图各个位置偏移,再将这个位置偏移加到卷积操作中实现变形卷积;
如图4所示,变形ROI池化层是通过一个全连接层预测出特征图各个位置偏移,再将这个位置偏移加到ROI池化操作中实现变形ROI池化。
实例分割网络采用Mask RCNN,实例分割网络和变形卷积网络分别训练的。
深度图像块转换成三通道表示的点云的过程具体为:
深度图像块先转换成点云并进行预处理,即消除点云噪点和空洞,然后将该点云的三个坐标值分别保存到三个通道,形成三通道图像表示的点云。
目标物体位姿估计结果为六自由度位姿,即目标物体相对于相机坐标系的三维平移和旋转变换共计六个自由度。
实施例二
与实施例一对应的一种基于变形卷积网络的物体位姿估计系统,如图2,包括RGB-D相机、实例分割模块、目标裁剪模块、转换处理模块和变形卷积模块;
RGB-D相机获取目标物体的彩色图像和深度图像;
实例分割模块分割彩色图像,获得实例分割结果;
目标裁剪模块根据实例分割结果分别从彩色图片和深度图片中裁剪出包含目标物体的彩色图像块和深度图像块;
转换处理模块将深度图像块转换成三通道图像表示的点云,并将彩色图像块和点云图像中不包含目标物体的区域的像素值置为0;
变形卷积模块包括变形卷积网络,该模块将经转换处理模块处理的彩色图像块和点云输入变形卷积网络,获得目标物体位姿估计结果;
其中,变形卷积网络提取特征的感受野集中在彩色图像块和点云上目标物体分布的区域。
变形卷积网络包括标准卷积层、变形卷积层、标准池化层、变形RoI池化层和全连接层。
变形卷积网络通过变形卷积层和变形RoI池化层实现变形操作,具体为:
变形卷积层是通过一个标准卷积层预测出特征图各个位置偏移,再将该位置偏移加到正常的卷积操作中,从而实现变形卷积,
变形ROI池化层是通过一个全连接层预测出特征图各个位置偏移,再将该位置偏移加到正常的ROI池化操作中,从而实现变形ROI池化。
变形卷积网络的输出包括多个目标物体位姿值和对应的置信度,目标物体位姿估计结果为置信度最大的目标物体位姿值。
深度图像块转换成三通道表示的点云的过程具体为:
深度图像块先转换成点云并进行预处理,即消除点云噪点和空洞,然后将该点云的三个坐标值分别保存到三个通道,形成三通道图像表示的点云。
实施例一与实施例二提供的一种基于变形卷积网络的物体位姿估计方法及系统采用了变形卷积网络,控制感受野集中分布在实例分割的目标物体上,从而只使用目标物体的颜色和深度信息估计出物体的六自由度位姿,消除了杂乱背景和物体堆叠的影响,在无需位姿精修模块的情况下即可实现精确的位姿估计。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。