CN113221647B - 一种融合点云局部特征的6d位姿估计方法 - Google Patents

一种融合点云局部特征的6d位姿估计方法 Download PDF

Info

Publication number
CN113221647B
CN113221647B CN202110375942.8A CN202110375942A CN113221647B CN 113221647 B CN113221647 B CN 113221647B CN 202110375942 A CN202110375942 A CN 202110375942A CN 113221647 B CN113221647 B CN 113221647B
Authority
CN
China
Prior art keywords
pose
pixel
point
local
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110375942.8A
Other languages
English (en)
Other versions
CN113221647A (zh
Inventor
孙炜
刘剑
刘崇沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110375942.8A priority Critical patent/CN113221647B/zh
Publication of CN113221647A publication Critical patent/CN113221647A/zh
Application granted granted Critical
Publication of CN113221647B publication Critical patent/CN113221647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Social Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种融合点云局部特征的6D位姿估计方法,包括以下步骤,首先将三维相机获取的图像分为RGB图像与深度图像,随后提取输入RGB图像的特征信息,解析RGB图像的颜色信息。其次,对于深度点云图像,将局部区域中的点密集连接为局部点网,以了解每个点对其他点的影响,从而调整其特征。再者,将得到的颜色信息与点云深度信息进行逐像素密集融合,将融合结果结合密集融合的全局特征,生成逐像素的估计位姿。将所有像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,从而预测对象的6D位姿。本发明有效的将点云局部特征信息纳入点要素中,增强了要素描述局部邻域的能力,并在6D位姿估计稳定性、准确率等性能上得到显著提升。

Description

一种融合点云局部特征的6D位姿估计方法
技术领域
本发明涉及机器人环境感知技术领域,尤其是涉及一种融合点云局部特征的6D位姿估计方法。
背景技术
机器人环境感知技术以其高度柔性化的特点已渗透到各大领域,如智能物流、缺陷检测等。6D位姿估计所指的是相机坐标系与目标对象坐标系间的旋转与平移变换关系,共包含位置与旋转角在内的6个位姿量,在自动驾驶、工业智能机器人以及AR等应用领域中起到至关重要的作用。
从实际应用来看,目前应用于工业场景的6D位姿估计方法绝大部分可分为三种,第一类是基于匹配对应的方法,适用于纹理较为丰富的目标对象,其具体又可分为:3D-3D对应(ICP算法等)、3D-2D对应(SIFI、ORB等)。第二类是基于模板的方法,可有效的应用在无纹理图像中,其通过比较实际图像与模型图像的梯度信息,查找与模型图像最相像的图像,将实际图像的位姿用此模型图像的位姿来表示(Linemod算法等)。第三类是基于投票的方法,主要应用在存在遮挡的情况,其核心是基于全局建模与局部匹配,原理是将图像里的每个局部特征作为因素,从而对全局输出进行投票(PPF算法等)。
从位姿估计算法来看,现有的专利大部分仍然局限于上述三类传统的方法,而上述三类传统算法都有其固有的缺陷,例如,基于匹配的方法要求目标对象具有丰富的纹理特征才能有效估计位姿。基于模板的方法需要耗费大量的时间进行模板配对计算,效率较低。基于投票的方法在需要提供每个对象精准的CAD模型,且实时性不够。综上,当面对较为复杂的工业环境时,如多种工件、存在遮挡、背景杂乱时,传统的算法是无法有效工作的。
随着三维相机成像技术的成熟,可以准确提供物体的三维点云数据,使用点云数据可以弥补二维视觉的固有缺陷。近年来,随着深度学习技术的发展,基于学习的6D位姿估计相比传统的机理建模算法,在位姿估计精度上有了很大的提高。其通过学习寻找6D位姿与图像特征二者存在的联系,之后基于学习的模型,对对象进行识别,用回归的方法实现精确估计对象的6D位姿。
综上所述,因二维视觉与传统算法的固有缺陷,导致位姿估计的精度不高、实时性与鲁棒性较差,无法应对较为复杂的工业环境。本发明结合了三维视觉与深度学习,提出了一种融合点云局部特征的6D位姿估计方法。
名词解释:
ResNet18网络:由18个带权重的层(17个卷积层+1个全连接层)以及对应的池化层和BN层组成的提取图像特征的轻量级网络。
四级金字塔场景解析网络:本专利使用的金字塔场景解析模块融合了四种金字塔层级下的特征,是一个四级模块,其层级大小分别为1×1、2×2、3×3和6×6。金字塔各级将输入特征图抽象成不同的子区域,并形成不同位置的集合表示。金字塔池模块中不同层级的输出包含不同大小的特征地图,为了保持全局特征的权重,当金字塔的层级大小为N时,在每个金字塔层级之后使用1×1卷积层,将上下文表示的维数降到原来的1/N,然后通过双线性插值对低维特征地图进行上采样,得到与原始特征地图相同大小的特征。最后,将不同层次的特征串联成最终的金字塔全局特征,具体结构如图2所示。
局部点云网络:通过将所选局部点云区域中的所有点密集连接,关联其局部领域特征,从而解析图像深度信息的网络。
发明内容
针对上述6D位姿估计方法所存在的不足与挑战,本发明提出一种融合点云局部特征的6D位姿估计方法,在背景杂乱、存在多种不同尺寸对象以及存在遮挡的复杂场景下,实现目标对象快速、准确、稳定的6D位姿估计。
包括以下步骤,首先将三维相机获取的图像分为RGB图像与深度图像,随后使用预先训练好的ResNet18网络提取输入RGB图像的特征信息,将提取的特征信息输入四级金字塔场景解析网络,用于解析RGB图像的颜色信息。其次,对于深度点云图像,将局部区域中的点密集连接为局部点网,使用一种新颖的自适应特征调整模块,以了解每个点对其他点的影响,从而调整其特征。再者,将得到的颜色信息与点云深度信息进行逐像素密集融合,将融合结果结合密集融合的全局特征,生成逐像素的估计位姿。最后,将所有像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,从而预测对象的6D位姿。本发明有效的将点云局部特征信息纳入点要素中,增强了要素描述局部邻域的能力,并在6D位姿估计稳定性、准确率等性能上得到显著提升。
为实现上述目的,本发明采用以下技术方案:
一种融合点云局部特征的6D位姿估计方法,包括以下步骤:
步骤S1:通过三维相机获取对象的图像,对象的图像分为RGB图像与深度图像;提取RGB图像的特征信息;
步骤S2:将RGB图像的特征信息输入一个四级金字塔场景解析网络,解析得到RGB图像的场景颜色信息;
步骤S3:将深度图像转化为深度点云信息,将深度点云信息输入到一个局部点云网络,局部点云网络通过将局部区域中的点密集连接为局部点网,从而解析得到深度图像的深度信息;
步骤S4:将得到的场景颜色信息和深度图像的深度信息进行局部逐像素密集融合,之后再结合密集融合的全局特征,生成每个像素点的估计位姿;
步骤S5:将所有像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,采用回归的方式预测得到对象的6D位姿。
进一步的改进,所述步骤S1包括如下步骤:
首先,使用三维相机分别获取对象的RGB图像与深度图像,再将RGB图像输入到一个预先训练好的ResNet18网络,提取RGB图像的特征信息。
进一步的改进,所述步骤S2包括如下步骤:
步骤S201:将步骤S1获取的特征信息输入一个拥有四级模块的金字塔场景解析网络,其各级大小分别为1×1、2×2、3×3和6×6。该网络首先逐级对输入信息进行自适应平均池化,随后将池化结果均输入一个1*1的卷积神经网络,再对其进行上采样,最后得到与原始特征相同大小的特征。
步骤S202:将金字塔场景解析网络四级模块输出的多级信息与步骤S1获取的特征信息进行融合,获取输入场景的颜色信息。
进一步的改进,所述步骤S3包括如下步骤:
步骤S301:将步骤S1获取的场景深度信息输入一个局部点云网络中,将局部区域中的点密集连接为局部点网;
步骤S302:对于每个选定的局部区域X及局部区域的特征集Y={Y1,Y2,···,YM},建立一个组合特征的函数f(Yi,Yj),其中,M表示局部区域中所采样的总点数,Yi表示局部区域中第i个采样点的特征向量,Yj表示局部区域中第j个采样点的特征向量;
将两个特征向量之间的差值组合为两个特征向量相互之间的影响,公式表示为:
f(Yi,Yj)=Yi-Yj
步骤S303:使用多层感知机来计算影响函数Feft,计算公式表示为:
Feft(Yi,Yj)=MLP(f(Yi,Yj));
式中,MLP()表示多层感知机;Feft(Yi,Yj)表示Yj对Yi的最终影响指标;
步骤S304:建立一个特征关联函数Flink(Yi,Yj),并且在特征关联函数中包含Yi的自影响,计算公式表示为:
Figure BDA0003011175100000031
步骤S305:构建一个特征调制器Fm(),因各个选定的局部区域的不同特征对Yi的影响不同,通过Adam优化器自适应地学习Y中每个特征对每个Yi的影响量来交换和整合特征集Y中的信息;特征调制器Fm()计算公式表示为:
Figure BDA0003011175100000032
其中,Fm(Yi,Y)表示其余特征对Yi影响的特征调制器;
步骤S306:构建一种自适应特征调整模块,通过学习局部邻域内的上下文信息来增强Y中的点特征,以获取每个点对其它点的影响,从而调整每个点的特征,计算公式为:
Figure BDA0003011175100000033
式中Yi'是Yi调整后的特征,ΔYi是通过特征调制器Fm从Y中学习而来的变量;
步骤S307:将调整后的特征Yi'输入进多层共享感知机,之后进行最大池化,在每个局部区域的整个空间和所有通道中进行进一步的信息融合,最终得到融合点云局部特征的深度信息。
进一步的改进,所述步骤S4包括如下步骤:
步骤S401:将场景颜色信息、深度图像的深度信息进行局部逐像素密集融合,生成逐像素的密集融合特征。
步骤S402:将逐像素点的密集融合特征输入多层感知机,随后再进行平均池化,得到逐像素密集融合后的全局特征;
步骤S403:将逐像素密集融合后的特征与全局特征结合起来,生成逐像素点的估计位姿;
步骤S404:若对象为非对称物体,则对象的位姿估计损失函数
Figure BDA0003011175100000044
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,计算公式表示为:
Figure BDA0003011175100000041
式中
Figure BDA0003011175100000042
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(Ri'xj+ti')为其第j个点中的预测位姿,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,Ri'表示世界坐标系到相机坐标系转换的估计旋转矩阵,ti'表示世界坐标系到相机坐标系转换的估计平移矩阵;
步骤S405:若对象为对称物体,则位姿估计损失函数
Figure BDA0003011175100000045
为采样点的地面真实位姿与预测位姿之间的欧式距离最小值的平均值,计算公式表示为:
Figure BDA0003011175100000043
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(Ri'xk+ti')为从第k个点中预测的预测位姿,其余解释同S404;
步骤S406:之后通过训练学习,不断降低损失函数的值,最终选择损失函数值最小的作为逐像素点的预测位姿。
进一步的改进,所述步骤S5包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的共享感知机,回归输出对象整体的预测6D位姿与所预测6D位姿的置信度分数。
步骤S502:将对象的位姿估计损失函数与置信度分数结合形成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
Figure BDA0003011175100000051
式中α是一个平衡超参数,
Figure BDA0003011175100000052
为位姿估计的损失函数,si为每个预测位姿的置信度分数,K是从分割的P个元素中随机抽取的密集像素特征的个数;
步骤S503:过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
附图说明
图1为本发明的6D位姿估计方法系统框架图;
图2为本发明的6D位姿估计方法网络框架图。
具体实施方式
实施例
下面结合图1对本次发明的实现步骤进行具体的描述:
步骤S1:首先,使用三维相机分别获取场景的RGB图像与深度图像。再将三维相机获取的RGB图像输入到一个预先训练好的ResNet18网络,提取输入图像的特征信息。
步骤S2:将步骤S1提取的特征信息输入一个四级金字塔场景解析网络,用于解析场景的颜色信息。
步骤S201:将步骤S1获取的特征信息输入一个拥有四级模块的金字塔场景解析网络,其各级大小分别为1×1、2×2、3×3和6×6。该网络首先逐级对输入信息进行自适应平均池化,随后将池化结果均输入一个1*1的卷积神经网络,再对其进行上采样,最后得到与原始特征相同大小的特征。
步骤S202:将金字塔场景解析网络四级模块输出的多级信息与步骤S1获取的特征信息进行融合,获取输入场景的颜色信息。
步骤S3:将深度图像转化为深度点云信息,将深度点云信息输入到一个局部点云网络,该局部点云网络通过将局部区域中的点密集连接为局部点网,提出了一种从点云局部邻域提取上下文特征的新方法,从而解析得到深度图像的深度信息。
步骤S301:将步骤S1获取的场景深度信息输入一个改进的局部点云网络中,将局部区域中的点密集连接为局部点网。
步骤S302:对于给定的局部区域X及其特征集Y={Y1,Y2,···,YM},建立一个组合特征的函数f(Yi,Yj),将两个特征向量之间的差值组合为其相互之间的影响,公式表示为:
f(Yi,Yj)=Yi-Yj
步骤S303:使用多层感知机(MLP)来计算影响函数Feft,计算公式表示为:
Feft(Yi,Yj)=MLP(f(Yi,Yj))
式中f是步骤S302中用于组合特征Yi和Yj的函数,Feft(Yi,Yj)是Yj对Yi的最终影响指标。
步骤S304:建立一个新型的特征关联函数Flink(Yi,Yj),并且在特征关联函数中包含了Yi的自影响,计算公式表示为:
Figure BDA0003011175100000061
步骤S305:构建一个特征调制器Fm(),因各个选定的局部区域的不同特征对Yi的影响不同,通过Adam优化器自适应地学习Y中每个特征对每个Yi的影响量来交换和整合特征集Y中的信息;特征调制器Fm()计算公式表示为:
Figure BDA0003011175100000062
其中,Fm(Yi,Y)表示其余特征对Yi影响的特征调制器;
步骤S306:构建一种自适应特征调整模块,通过学习局部邻域内的上下文信息来增强Y中的点特征,以获取每个点对其它点的影响,从而调整每个点的特征,计算公式为:
Figure BDA0003011175100000063
式中Yi'是Yi调整后的特征,ΔYi是通过特征调制器Fm从Y中学习而来的变量;
步骤S307:将调整后的特征Yi'输入进多层共享感知机,之后进行最大池化,在每个局部区域的整个空间和所有通道中进行进一步的信息融合,最终得到融合点云局部特征的深度信息。
步骤S4:将步骤S2得到的场景颜色信息、步骤S3得到的深度信息进行局部逐像素密集融合,之后再结合密集融合的全局特征,生成每个像素的估计位姿。
步骤S401:将场景颜色信息、深度图像的深度信息进行局部逐像素密集融合,生成逐像素的密集融合特征。
步骤S402:将逐像素点的密集融合特征输入多层感知机,随后再进行平均池化,得到逐像素密集融合后的全局特征;
步骤S403:将逐像素密集融合后的特征与全局特征结合起来,生成逐像素点的估计位姿;
步骤S404:若对象为非对称物体,则对象的位姿估计损失函数
Figure BDA0003011175100000064
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,计算公式表示为:
Figure BDA0003011175100000065
式中
Figure BDA0003011175100000066
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(Ri'xj+ti')为其第j个点中的预测位姿,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,Ri'表示世界坐标系到相机坐标系转换的估计旋转矩阵,ti'表示世界坐标系到相机坐标系转换的估计平移矩阵;
步骤S405:若对象为对称物体,则位姿估计损失函数
Figure BDA0003011175100000074
为采样点的地面真实位姿与预测位姿之间的欧式距离最小值的平均值,计算公式表示为:
Figure BDA0003011175100000071
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(Ri'xk+ti')为从第k个点中预测的预测位姿,其余解释同S404;
步骤S406:之后通过训练学习,不断降低损失函数的值,最终选择损失函数值最小的作为逐像素点的预测位姿。
步骤S5:将所有像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,采用回归的方式预测对象的6D位姿。
步骤S501:得到逐像素点的预测位姿后,将其输入最终的共享感知机,回归输出对象整体的预测6D位姿与所预测6D位姿的置信度分数。
步骤S502:将对象的位姿估计损失函数与置信度分数结合形成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
Figure BDA0003011175100000072
式中α是一个平衡超参数,
Figure BDA0003011175100000073
为位姿估计的损失函数,si为每个预测位姿的置信度分数,K是从分割的P个元素中随机抽取的密集像素特征的个数。
步骤S503:之后通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种融合点云局部特征的6D位姿估计方法,其特征在于,包括以下步骤:
步骤S1:通过三维相机获取对象的图像,对象的图像分为RGB图像与深度图像;提取RGB图像的特征信息;
步骤S2:将RGB图像的特征信息输入一个四级金字塔场景解析网络,解析得到RGB图像的场景颜色信息;
步骤S3:将深度图像转化为深度点云信息,将深度点云信息输入到一个局部点云网络,局部点云网络通过将局部区域中的点密集连接为局部点网,从而解析得到深度图像的深度信息;
具体包括如下步骤:
步骤S301:将步骤S1获取的场景深度信息输入一个局部点云网络中,将局部区域中的点密集连接为局部点网;
步骤S302:对于每个选定的局部区域X及局部区域的特征集Y={Y1,Y2,…,YM},建立一个组合特征的函数f(Yi,Yj),其中,M表示局部区域中所采样的总点数,Yi表示局部区域中第i个采样点的特征向量,Yj表示局部区域中第j个采样点的特征向量;
将两个特征向量之间的差值组合为两个特征向量相互之间的影响,公式表示为:
f(Yi,Yj)=Yi-Yj
步骤S303:使用多层感知机来计算影响函数Feft,计算公式表示为:
Feft(Yi,Yj)=MLP(f(Yi,Yj));
式中,MLP()表示多层感知机;Feft(Yi,Yj)表示Yj对Yi的最终影响指标;
步骤S304:建立一个特征关联函数Flink(Yi,Yj),并且在特征关联函数中包含Yi的自影响,计算公式表示为:
Figure FDA0003557775000000011
步骤S305:构建一个特征调制器Fm(),因各个选定的局部区域的不同特征对Yi的影响不同,通过Adam优化器自适应地学习Y中每个特征对每个Yi的影响量来交换和整合特征集Y中的信息;特征调制器Fm()计算公式表示为:
Figure FDA0003557775000000012
其中,Fm(Yi,Y)表示其余特征对Yi影响的特征调制器;
步骤S306:构建一种自适应特征调整模块,通过学习局部邻域内的上下文信息来增强Y中的点特征,以获取每个点对其它点的影响,从而调整每个点的特征,计算公式为:
Figure FDA0003557775000000021
式中Yi'是Yi调整后的特征,△Yi是通过特征调制器Fm从Y中学习而来的变量;
步骤S307:将调整后的特征Yi'输入进多层共享感知机,之后进行最大池化,在每个局部区域的整个空间和所有通道中进行进一步的信息融合,最终得到融合点云局部特征的深度信息;
步骤S4:将得到的场景颜色信息和深度图像的深度信息进行局部逐像素密集融合,之后再结合密集融合的全局特征,生成每个像素点的估计位姿;
步骤S5:将所有像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,采用回归的方式预测得到对象的6D位姿。
2.如权利要求1所述的融合点云局部特征的6D位姿估计方法,其特征在于,所述步骤S1包括如下步骤:
首先,使用三维相机分别获取对象的RGB图像与深度图像,再将RGB图像输入到一个预先训练好的ResNet18网络,提取RGB图像的特征信息。
3.如权利要求1所述的融合点云局部特征的6D位姿估计方法,其特征在于,所述步骤S2包括如下步骤:
步骤S201:将步骤S1获取的特征信息输入一个拥有四级模块的金字塔场景解析网络,其各级大小分别为1×1、2×2、3×3和6×6;该网络首先逐级对输入信息进行自适应平均池化,随后将池化结果均输入一个1*1的卷积神经网络,再对其进行上采样,最后得到与原始特征相同大小的特征;
步骤S202:将金字塔场景解析网络四级模块输出的多级信息与步骤S1获取的特征信息进行融合,获取输入场景的颜色信息。
4.如权利要求1所述的融合点云局部特征的6D位姿估计方法,其特征在于,所述步骤S4包括如下步骤:
步骤S401:将场景颜色信息、深度图像的深度信息进行局部逐像素密集融合,生成逐像素的密集融合特征;
步骤S402:将逐像素点的密集融合特征输入多层感知机,随后再进行平均池化,得到逐像素密集融合后的全局特征;
步骤S403:将逐像素密集融合后的特征与全局特征结合起来,生成逐像素点的估计位姿;
步骤S404:若对象为非对称物体,则对象的位姿估计损失函数
Figure FDA0003557775000000024
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,计算公式表示为:
Figure FDA0003557775000000022
式中
Figure FDA0003557775000000023
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(R′ixj+t′i)为其第j个点中的预测位姿,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,R′i表示世界坐标系到相机坐标系转换的估计旋转矩阵,t′i表示世界坐标系到相机坐标系转换的估计平移矩阵;
步骤S405:若对象为对称物体,则位姿估计损失函数
Figure FDA0003557775000000031
为采样点的地面真实位姿与预测位姿之间的欧式距离最小值的平均值,计算公式表示为:
Figure FDA0003557775000000032
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(R′ixk+t′i)为从第k个点中预测的预测位姿,其余解释同S404;
步骤S406:之后通过训练学习,不断降低损失函数的值,最终选择损失函数值最小的作为逐像素点的预测位姿。
5.如权利要求4所述的融合点云局部特征的6D位姿估计方法,其特征在于,所述步骤S5包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的共享感知机,回归输出对象整体的预测6D位姿与所预测6D位姿的置信度分数;
步骤S502:将对象的位姿估计损失函数与置信度分数结合形成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
Figure FDA0003557775000000033
式中α是一个平衡超参数,
Figure FDA0003557775000000034
为位姿估计的损失函数,si为每个预测位姿的置信度分数,K是从分割的P个元素中随机抽取的密集像素特征的个数;
步骤S503:过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
CN202110375942.8A 2021-04-08 2021-04-08 一种融合点云局部特征的6d位姿估计方法 Active CN113221647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110375942.8A CN113221647B (zh) 2021-04-08 2021-04-08 一种融合点云局部特征的6d位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110375942.8A CN113221647B (zh) 2021-04-08 2021-04-08 一种融合点云局部特征的6d位姿估计方法

Publications (2)

Publication Number Publication Date
CN113221647A CN113221647A (zh) 2021-08-06
CN113221647B true CN113221647B (zh) 2022-05-17

Family

ID=77086636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110375942.8A Active CN113221647B (zh) 2021-04-08 2021-04-08 一种融合点云局部特征的6d位姿估计方法

Country Status (1)

Country Link
CN (1) CN113221647B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538569B (zh) * 2021-08-11 2023-06-02 广东工业大学 一种弱纹理物体位姿估计方法和系统
CN113989318B (zh) * 2021-10-20 2023-04-07 电子科技大学 基于深度学习的单目视觉里程计位姿优化与误差修正方法
CN114332211B (zh) * 2022-01-06 2022-12-13 南京航空航天大学 一种基于边缘重建和密集融合网络的零件位姿计算方法
CN116152345B (zh) * 2023-04-19 2023-07-14 盐城数智科技有限公司 一种嵌入式系统实时物体6d位姿和距离估计方法
CN116596996B (zh) * 2023-05-26 2024-01-30 河北农业大学 一种用于苹果果实空间位姿信息的获取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN112488210A (zh) * 2020-12-02 2021-03-12 北京工业大学 一种基于图卷积神经网络的三维点云自动分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179324A (zh) * 2019-12-30 2020-05-19 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN112488210A (zh) * 2020-12-02 2021-03-12 北京工业大学 一种基于图卷积神经网络的三维点云自动分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion;Chen Wang et al;《Conference on Computer Vision and Pattern Recognition》;20200109;3338-3347 *
Pyramid Scene Parsing Network,Hengshuang;Zhao et al;《Conference on Computer Vision and Pattern Recognition》;20171109;6230-6239 *

Also Published As

Publication number Publication date
CN113221647A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN113221647B (zh) 一种融合点云局部特征的6d位姿估计方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN114666564B (zh) 一种基于隐式神经场景表示进行虚拟视点图像合成的方法
CN111862201A (zh) 一种基于深度学习的空间非合作目标相对位姿估计方法
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
CN113393439A (zh) 一种基于深度学习的锻件缺陷检测方法
Tao et al. Indoor 3D semantic robot VSLAM based on mask regional convolutional neural network
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN114494594B (zh) 基于深度学习的航天员操作设备状态识别方法
CN116958420A (zh) 一种数字人教师三维人脸的高精度建模方法
CN116486287A (zh) 基于环境自适应机器人视觉系统的目标检测方法及系统
CN117522990B (zh) 基于多头注意力机制和迭代细化的类别级位姿估计方法
CN113516693B (zh) 一种快速通用的图像配准方法
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN116843753A (zh) 基于双向匹配和全局注意力网络的鲁棒6d位姿估计方法
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN116485892A (zh) 一种弱纹理物体的六自由度位姿估计方法
CN116385660A (zh) 室内单视图场景语义重建方法及系统
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN115294433A (zh) 一种适用于恶劣环境的物体六维位姿估计方法和系统
CN115272450A (zh) 一种基于全景分割的目标定位方法
CN116152334A (zh) 图像处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant