CN113393522B - 一种基于单目rgb相机回归深度信息的6d位姿估计方法 - Google Patents

一种基于单目rgb相机回归深度信息的6d位姿估计方法 Download PDF

Info

Publication number
CN113393522B
CN113393522B CN202110583238.1A CN202110583238A CN113393522B CN 113393522 B CN113393522 B CN 113393522B CN 202110583238 A CN202110583238 A CN 202110583238A CN 113393522 B CN113393522 B CN 113393522B
Authority
CN
China
Prior art keywords
pixel
pose
depth
network
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110583238.1A
Other languages
English (en)
Other versions
CN113393522A (zh
Inventor
孙炜
刘剑
刘崇沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110583238.1A priority Critical patent/CN113393522B/zh
Publication of CN113393522A publication Critical patent/CN113393522A/zh
Application granted granted Critical
Publication of CN113393522B publication Critical patent/CN113393522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Abstract

本发明公开了一种基于单目RGB相机回归深度信息的6D位姿估计方法,包括以下步骤:将单目RGB相机采集的RGB图像输入深度估计网络,该网络使用U‑Net的编码器‑解码器结构回归RGB图像的深度值;将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云深度信息;将RGB图像输入PSPNet网络,回归输入图像的颜色信息;将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿,从而预测对象整体的6D位姿。本发明基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高。

Description

一种基于单目RGB相机回归深度信息的6D位姿估计方法
技术领域
本发明涉及机器人环境感知技术领域,尤其是涉及一种基于单目RGB相机回归深度信息的6D位姿估计方法。
背景技术
机器人环境感知技术以其高度柔性化的特点已渗透到各大领域,如工业生产自动化、自动驾驶等。6D位姿估计的目的是得到相机坐标系与目标对象坐标系间的平移与旋转变换关系,共包含旋转角与位置在内的6个位姿量,在智能物流、工业机器人以及虚拟现实等应用领域中起到至关重要的作用。
近年来,随着深度学习技术的发展,基于学习的6D位姿估计相比传统的机理建模算法,在位姿估计稳定性与精度上有了较大的提高,能够适应较为复杂的工业环境,可以弥补传统的算法在背景杂乱以及存在遮挡时无法有效工作的缺陷。基于深度学习的6D位姿估计方法通过学习寻找6D位姿与图像特征二者之间存在的联系,之后使用学习得到的模型,用回归的方法对对象的6D位姿实现精确估计。
根据输入数据的不同,当前基于深度学习的6D位姿估计方法主要可以分为基于RGB数据与RGB-D数据两种,基于RGB数据的方法主要有PointFusion、PoseCNN、Pix2Pose以及PVNet等,基于RGB-D数据的方法主要有SSD-6D、DenseFusion、PVN3D以及FFB6D等。
RGB-D相机虽然可以弥补RGB相机无法精准测距的固有缺陷,但在实际工业应用场景下同样存在很多挑战。首先,RGB-D相机的功耗较大,基于RGB相机的6D位姿估计方法对于移动和可穿戴式设备更具吸引力。其次,RGB-D相机在帧率、视场、分辨率和深度范围方面都有限制,很难探测到小的、薄的、透明的或快速移动的物体。再者,一些可以获得高精度点云的RGB-D相机成本仍是普通RGB-D相机或传统高分辨率工业传感器的10倍以上,价格较为昂贵。
综上所述,因RGB相机存在无法精准测距的固有缺陷、RGB-D相机在实际工业应用场景下同样存在很多挑战。
发明内容
针对RGB相机存在无法精准测距的固有缺陷以及RGB-D相机在实际工业应用场景下存在的挑战,本发明提出了一种基于单目RGB相机回归深度信息的6D位姿估计方法,在仅使用RGB数据作为输入的基础上实现目标对象稳定、准确、快速的6D位姿估计。
为实现上述目的,本发明采用以下技术方案:
一种基于单目RGB相机回归深度信息的6D位姿估计方法,包括以下步骤:
步骤S1:将单目RGB相机采集的RGB图像输入深度估计网络中,深度估计网络使用基于U-Net的编码器-解码器结构,回归得到RGB图像的深度值;
步骤S2:将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云数据的深度信息;
步骤S3:将RGB图像输入PSPNet网络,提取其颜色特征,回归输入RGB图像的颜色信息;
步骤S4:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿;
步骤S5:将逐像素点的估计位姿输入多层感知机,再对置信度进行平均最大池化,回归目标对象整体的6D位姿。
作为本发明的一种优选改进,步骤S1具体包括如下步骤:
步骤S101:使用单目RGB相机获取场景的RGB图像,再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器;
步骤S102:通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器;
步骤S103:根据单目RGB相机前后两帧图像之间的特征关系进行匹配,得到单目RGB相机运动前后的相对变换矩阵,从而估计单目RGB相机的位姿,使用单目RGB相机的位姿来帮助约束深度估计网络;
步骤S104:过滤掉前后两帧中外观未改变的像素点;
步骤S105:使用双线性采样对源图像进行采样,之后利用像素空间中的L1距离与SSIM实现光度重构误差函数,公式表示为:
Figure GDA0003544853840000021
式中Pa为源视图,Pb为目标图像,SSIM(Pa,Pb)为Pa与Pb的结构相似性,||Pa-Pb||1为Pa与Pb在像素空间中的L1距离,α为权重系数,re(Pa,Pb)为Pa与Pb的光度重构误差函数;
步骤S106:将每个像素仅与其可见的视图相匹配,逐像素计算光度重投影,公式表示为:
Pt′→t=Pt′<proj(Dt,Tt′→t,R)>
式中Pt′→t为源视图Pt′到目标图像Pt的光度重投影,R为预计算的内参,Tt′→t为每个源视图Pt′相对于目标图像Pt的位姿,Dt为预测的密集深度图,proj()为投影深度Dt的2D坐标,<>是采样运算符;
步骤S107:最小化计算逐像素光度重投影损失Lr,公式表示为:
Figure GDA0003544853840000031
式中Lr是逐像素光度重投影损失,Pt′为源视图,Pt为目标图像,Pt′→t为源视图Pt′到目标图像Pt的光度重投影,re()是光度重构误差函数;
步骤S108:对步骤S107中的Lr应用逐像素二进制掩码ω,有选择地对像素进行加权,公式表示为:
Figure GDA0003544853840000032
式中,ω∈{0,1},即仅当源视图Pt′到目标图像Pt的光度重投影误差小于原始图像重投影误差时,ω=1;
步骤S109:计算逐像素边缘感知平滑度损失,公式表示为:
Figure GDA0003544853840000033
式中Ls为逐像素边缘感知平滑度损失,Pt为目标图像,
Figure GDA0003544853840000034
为阻止估计深度缩小的平均归一化逆深度,
Figure GDA0003544853840000035
表示像素在x方向上的梯度,
Figure GDA0003544853840000036
表示像素在y方向上的梯度;
步骤S110:先将较低分辨率的深度RGB图像向上采样到输入图像分辨率,然后在此较高输入分辨率下重新投影、重采样并计算误差re,最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合;
步骤S111:将逐像素平滑度与光度重建损失合并为总损失,并对每个像素、尺度和批次进行平均,公式表示为:
Lall=ωLr+ξLs
式中ω为光度重投影损失系数,ξ为平滑度损失系数,Lall为深度估计的总损失;
步骤S112:通过训练学习,不断降低深度估计总损失的值,最终选择总损失最小的深度估计输出图作为对象的深度估计图。
作为本发明的一种优选改进,步骤S3具体包括如下步骤:
将RGB图像输入PSPNet网络,进行场景解析,该PSPNet网络分四级并逐级对输入信息进行处理,提取其颜色特征,通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。
作为本发明的一种优选改进,步骤S4具体包括如下步骤:
步骤S401:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素的密集融合特征;
步骤S402:若对象为非对称物体,则对象的位姿估计损失函数
Figure GDA0003544853840000043
为预测位姿与采样点的地面真实位姿之间的平均欧式距离,计算公式表示为:
Figure GDA0003544853840000041
式中
Figure GDA0003544853840000042
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,则(Rxj+t)为第j个点的真实位姿;R′i表示世界坐标系到相机坐标系转换的估计旋转矩阵,t′i表示世界坐标系到相机坐标系转换的估计平移矩阵,则(R′ixj+t′i)为其第j个点中的预测位姿;
步骤S403:若对象为对称物体,则位姿估计损失函数
Figure GDA0003544853840000051
为预测位姿与采样点的地面真实位姿之间的欧式距离最小值的平均值,计算公式表示为:
Figure GDA0003544853840000052
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(R′ixk+t′i)为从第k个点中预测的预测位姿;
步骤S404:通过训练学习,不断降低损失函数
Figure GDA0003544853840000055
的值,最终选择损失函数值最小的作为逐像素点的估计位姿。
作为本发明的一种优选改进,步骤S5具体包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的多层感知机,回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数;
步骤S502:将对象的置信度分数与位姿估计损失函数组合,构成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
Figure GDA0003544853840000053
式中α是一个平衡超参数,
Figure GDA0003544853840000054
为位姿估计的损失函数,si为每个预测位姿的置信度分数,K是从分割的P个元素中随机抽取的密集像素特征的个数;
步骤S503:通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
本发明的有益效果如下:有效的回归了单目RGB相机图像的深度信息,并利用回归的深度信息结合颜色信息对室内场景下的物体进行了有效的6D位姿估计,在基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明一种基于单目RGB相机回归深度信息的6D位姿估计方法的系统框架图;
图2为本发明使用的PointNet网络结构图,可分为点云分类网络与点云分割网络;
图3为本发明在室内场景下进行6D位姿估计的第一应用实例;
图4为本发明在室内场景下进行6D位姿估计的第二应用实例。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1所示,本申请使用深度学习的方法,融合了基于RGB数据的深度估计与基于RGB-D数据的6D位姿估计,提出了一种基于单目RGB相机回归深度信息的6D位姿估计方法,包括以下步骤:
步骤S1:将单目RGB相机采集的图像输入深度估计网络中,深度估计网络使用基于U-Net的编码器-解码器结构,回归得到RGB图像的深度值;具体包括如下步骤:
步骤S101:首先,使用单目RGB相机获取场景的RGB图像,再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器。
步骤S102:通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器。
步骤S103:根据相机前后两帧图像之间的特征关系进行匹配,得到相机运动前后的相对变换矩阵,从而估计相机的位姿,使用相机的位姿来帮助约束深度估计网络。
步骤S104:过滤掉前后两帧中外观未改变的像素点,即使用算法自动掩膜静态像素点(相机未运动或相机与物体以相同速度运动)。
步骤S105:使用双线性采样对源图像进行采样,之后利用像素空间中的L1距离与SSIM实现光度重构误差函数,公式表示为:
Figure GDA0003544853840000071
式中Pa为源视图,Pb为目标图像,SSIM(Pa,Pb)为Pa与Pb的结构相似性,||Pa-Pb||1为Pa与Pb在像素空间中的L1距离,α为权重系数,re(Pa,Pb)为Pa与Pb的光度重构误差函数;
步骤S106:将每个像素仅与其可见的视图相匹配,逐像素计算光度重投影,公式表示为:
Pt′→t=Pt′<proj(Dt,Tt′→t,R)>
式中Pt′→t为源视图Pt′到目标图像Pt的光度重投影,R为预计算的内参(假设所有视图的内参相同),Tt′→t为每个源视图Pt′相对于目标图像Pt的位姿,Dt为预测的密集深度图,proj()为投影深度Dt的2D坐标,<>是采样运算符;
步骤S107:最小化计算逐像素光度重投影损失Lr,公式表示为:
Figure GDA0003544853840000081
式中Lr是逐像素光度重投影损失,Pt′为源视图,Pt为目标图像,Pt′→t为源视图Pt′到目标图像Pt的光度重投影,re()是光度重构误差函数;
步骤S108:对步骤S107中的Lr应用逐像素二进制掩码ω,有选择地对像素进行加权,公式表示为:
Figure GDA0003544853840000082
式中,ω∈{0,1},即仅当源视图Pt′到目标图像Pt的光度重投影误差小于原始图像重投影误差时,ω=1;
步骤S109:计算逐像素边缘感知平滑度损失,公式表示为:
Figure GDA0003544853840000083
式中Ls为逐像素边缘感知平滑度损失,Pt为目标图像,
Figure GDA0003544853840000084
为阻止估计深度缩小的平均归一化逆深度,
Figure GDA0003544853840000085
表示像素在x方向上的梯度,
Figure GDA0003544853840000086
表示像素在y方向上的梯度;
步骤S110:由于双线性采样器的梯度局部性,为了避免训练目标陷入局部极小,采用多尺度深度预测和图像重建。首先将较低分辨率的深度图向上采样到输入图像分辨率,然后在此较高输入分辨率下重新投影、重采样并计算误差re。最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合;
步骤S111:将逐像素平滑度与光度重建损失合并为总损失,并对每个像素、尺度和批次进行平均,公式表示为:
Lall=ωLr+ξLs
式中ω为光度重投影损失系数,ξ为平滑度损失系数,Lall为深度估计的总损失;
步骤S112:通过训练学习,不断降低深度估计总损失的值,最终选择总损失最小的深度估计输出图作为对象的深度估计图。
步骤S2:将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云数据的深度信息;
步骤S3:将RGB图像输入PSPNet网络,提取其颜色特征,回归输入RGB图像的颜色信息;具体包括如下步骤:
首先,将RGB图像输入PSPNet网络,进行场景解析,该PSPNet网络分四级(1×1、2×2、3×3及6×6)并逐级对输入信息进行处理,提取其颜色特征,其次,通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。
步骤S4:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿;具体包括如下步骤:
步骤S401:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素的密集融合特征;
步骤S402:若对象为非对称物体,则对象的位姿估计损失函数
Figure GDA0003544853840000091
为预测位姿与采样点的地面真实位姿之间的平均欧式距离,计算公式表示为:
Figure GDA0003544853840000092
式中
Figure GDA0003544853840000093
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,则(Rxj+t)为第j个点的真实位姿;R′i表示世界坐标系到相机坐标系转换的估计旋转矩阵,t′i表示世界坐标系到相机坐标系转换的估计平移矩阵,则(R′ixj+t′i)为其第j个点中的预测位姿;
步骤S403:若对象为对称物体,则位姿估计损失函数
Figure GDA0003544853840000095
为预测位姿与采样点的地面真实位姿之间的欧式距离最小值的平均值,计算公式表示为:
Figure GDA0003544853840000094
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(R′ixk+t′i)为从第k个点中预测的预测位姿;
步骤S404:通过训练学习,不断降低损失函数
Figure GDA0003544853840000101
的值,最终选择损失函数值最小的作为逐像素点的估计位姿。
步骤S5:将逐像素点的估计位姿输入最终的多层感知机,再对置信度进行平均最大池化,回归目标对象整体的6D位姿。具体包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的多层感知机,回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数;
步骤S502:将对象的置信度分数与位姿估计损失函数组合,构成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
Figure GDA0003544853840000102
式中α是一个平衡超参数,
Figure GDA0003544853840000103
为位姿估计的损失函数,si为每个预测位姿的置信度分数,K是从分割的P个元素中随机抽取的密集像素特征的个数;
步骤S503:通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
名词解释:
深度估计网络:本申请的深度估计网络使用经典的U-Net编码器-解码器模型结构(U-Net是使用多尺度特征进行语义分割任务的算法),编码器是经过预训练的ResNet18模型,用于特征提取,深度解码器通过4次上采样及与对应的编码层进行特征拼接,将输出转换为深度值,从而实现对图像深度的估计,具体原理解释见步骤S101-S112。
PointNet网络:目前效果较好且使用最广泛的一种点云分割网络,网络结构见图2。
PSPNet网络:PSPNet网络是目前应用较为广泛的语义分割方法,该方法的核心思想是在语义分割算法中引入更多的上下文信息,通过在FCN算法的基础上引入全局均值池化操作与特征融合来实现。
DenseFusion网络框架:本专利使用的DenseFusion网络框架改变了传统的RGB-D特征的融合方式,其使用了一个异构网络去分别处理RGB数据和点云数据,然后将RGB数据的颜色特征和点云的特征以逐像素密集融合的方式进行了融合,在保留这两种数据自身结构的基础上有效的进行了特征融合。
本发明的有益效果如下:有效的回归了单目RGB相机图像的深度信息,并利用回归的深度信息结合颜色信息对室内场景下的物体进行了有效的6D位姿估计,在基于单目RGB相机的6D位姿估计精确度、稳定性等性能上得到明显提高,具体可参阅附图3和4所示。
尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。

Claims (4)

1.一种基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,包括以下步骤:
步骤S1:将单目RGB相机采集的RGB图像输入深度估计网络中,深度估计网络使用基于U-Net的编码器-解码器结构,回归得到RGB图像的深度值,具体包括:
步骤S101:使用单目RGB相机获取场景的RGB图像,再使用经过ImageNet预训练的ResNet18网络作为深度估计网络的编码器;
步骤S102:通过4次上采样及与对应的编码层进行特征拼接构成深度估计网络的解码器;
步骤S103:根据单目RGB相机前后两帧图像之间的特征关系进行匹配,得到单目RGB相机运动前后的相对变换矩阵,从而估计单目RGB相机的位姿,使用单目RGB相机的位姿来帮助约束深度估计网络;
步骤S104:过滤掉前后两帧中外观未改变的像素点;
步骤S105:使用双线性采样对源图像进行采样,之后利用像素空间中的L1距离与SSIM实现光度重构误差函数,公式表示为:
Figure FDA0003569667590000011
式中Pa为源视图,Pb为目标图像,SSIM(Pa,Pb)为Pa与Pb的结构相似性,||Pa-Pb||1为Pa与Pb在像素空间中的L1距离,α为权重系数,re(Pa,Pb)为Pa与Pb的光度重构误差函数;
步骤S106:将每个像素仅与其可见的视图相匹配,逐像素计算光度重投影,公式表示为:
Pt'→t=Pt'<proj(Dt,Tt'→t,R)>
式中Pt'→t为源视图Pt'到目标图像Pt的光度重投影,R为预计算的内参,Tt'→t为每个源视图Pt'相对于目标图像Pt的位姿,Dt为预测的密集深度图,proj( )为投影深度Dt的2D坐标,<>是采样运算符;
步骤S107:最小化计算逐像素光度重投影损失Lr,公式表示为:
Figure FDA0003569667590000021
式中Lr是逐像素光度重投影损失,Pt'为源视图,Pt为目标图像,Pt'→t为源视图Pt'到目标图像Pt的光度重投影,re( )是光度重构误差函数;
步骤S108:对步骤S107中的Lr应用逐像素二进制掩码ω,有选择地对像素进行加权,公式表示为:
Figure FDA0003569667590000022
式中,ω∈{0,1},即仅当源视图Pt'到目标图像Pt的光度重投影误差小于原始图像重投影误差时,ω=1;
步骤S109:计算逐像素边缘感知平滑度损失,公式表示为:
Figure FDA0003569667590000023
式中Ls为逐像素边缘感知平滑度损失,Pt为目标图像,
Figure FDA0003569667590000024
为阻止估计深度缩小的平均归一化逆深度,
Figure FDA0003569667590000025
表示像素在x方向上的梯度,
Figure FDA0003569667590000026
表示像素在y方向上的梯度;
步骤S110:先将较低分辨率的深度RGB图像向上采样到输入图像分辨率,然后在此较高输入分辨率下重新投影、重采样并计算误差re,最后的光度重投影总损失是解码器中每个尺度上的各个损失的组合;
步骤S111:将逐像素平滑度与光度重建损失合并为总损失,并对每个像素、尺度和批次进行平均,公式表示为:
Lall=ωLr+ξLs
式中ω为光度重投影损失系数,ξ为平滑度损失系数,Lall为深度估计的总损失;
步骤S112:通过训练学习,不断降低深度估计总损失的值,最终选择总损失最小的深度估计输出图作为对象的深度估计图;
步骤S2:将估计的深度RGB图像转换为点云数据,使用PointNet网络提取点云数据的深度信息;
步骤S3:将RGB图像输入PSPNet网络,提取其颜色特征,回归输入RGB图像的颜色信息;
步骤S4:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素点的估计位姿;
步骤S5:将逐像素点的估计位姿输入多层感知机,再对置信度进行平均最大池化,回归目标对象整体的6D位姿。
2.如权利要求1所述的基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,步骤S3具体包括如下步骤:
将RGB图像输入PSPNet网络,进行场景解析,该PSPNet网络分四级并逐级对输入信息进行处理,提取其颜色特征,通过引入全局均值池化操作与特征融合来实现回归输入RGB图像的颜色信息。
3.如权利要求1所述的基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,步骤S4具体包括如下步骤:
步骤S401:将回归得到的深度信息与颜色信息使用DenseFusion网络框架进行逐像素结合全局特征的迭代密集融合,生成逐像素的密集融合特征;
步骤S402:若对象为非对称物体,则对象的位姿估计损失函数
Figure FDA0003569667590000031
为预测位姿与采样点的地面真实位姿之间的平均欧式距离,计算公式表示为:
Figure FDA0003569667590000032
式中
Figure FDA0003569667590000033
为采样点的地面真实位姿与预测位姿之间的平均欧式距离,M表示采样的总点数,xj表示采样的M个点中的第j个点,R表示世界坐标系到相机坐标系转换的真实旋转矩阵,t表示世界坐标系到相机坐标系转换的真实平移矩阵,则(Rxj+t)为第j个点的真实位姿;Ri'表示世界坐标系到相机坐标系转换的估计旋转矩阵,ti'表示世界坐标系到相机坐标系转换的估计平移矩阵,则(Ri'xj+ti')为其第j个点中的预测位姿;
步骤S403:若对象为对称物体,则位姿估计损失函数
Figure FDA0003569667590000034
为预测位姿与采样点的地面真实位姿之间的欧式距离最小值的平均值,计算公式表示为:
Figure FDA0003569667590000041
式中M表示采样的总点数,xj表示采样的M个点中的第j个点,(Rxj+t)为第j个点的真实位姿,(Ri'xk+ti')为从第k个点中预测的预测位姿;
步骤S404:通过训练学习,不断降低损失函数
Figure FDA0003569667590000042
的值,最终选择损失函数值最小的作为逐像素点的估计位姿。
4.如权利要求3所述的基于单目RGB相机回归深度信息的6D位姿估计方法,其特征在于,步骤S5具体包括如下步骤:
步骤S501:得到逐像素点的预测位姿后,将其输入最终的多层感知机,回归输出对象整体的估计6D位姿与所估计6D位姿的置信度分数;
步骤S502:将对象的置信度分数与位姿估计损失函数组合,构成对象整体6D位姿估计的损失函数,整体损失函数L的计算公式表示为:
Figure FDA0003569667590000043
式中α是一个平衡超参数,
Figure FDA0003569667590000044
为位姿估计的损失函数,si为每个预测位姿的置信度分数,K是从分割的P个元素中随机抽取的密集像素特征的个数;
步骤S503:通过训练学习,不断降低对象整体损失函数的值,最终选择整体损失函数值最小的输出作为对象的整体估计位姿。
CN202110583238.1A 2021-05-27 2021-05-27 一种基于单目rgb相机回归深度信息的6d位姿估计方法 Active CN113393522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110583238.1A CN113393522B (zh) 2021-05-27 2021-05-27 一种基于单目rgb相机回归深度信息的6d位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110583238.1A CN113393522B (zh) 2021-05-27 2021-05-27 一种基于单目rgb相机回归深度信息的6d位姿估计方法

Publications (2)

Publication Number Publication Date
CN113393522A CN113393522A (zh) 2021-09-14
CN113393522B true CN113393522B (zh) 2022-05-06

Family

ID=77619208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110583238.1A Active CN113393522B (zh) 2021-05-27 2021-05-27 一种基于单目rgb相机回归深度信息的6d位姿估计方法

Country Status (1)

Country Link
CN (1) CN113393522B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793472B (zh) * 2021-09-15 2023-01-20 应急管理部沈阳消防研究所 基于特征深度聚合网络的图像型火灾探测器位姿估计方法
CN114119753A (zh) * 2021-12-08 2022-03-01 北湾科技(武汉)有限公司 面向机械臂抓取的透明物体6d姿态估计方法
CN114167468B (zh) * 2021-12-14 2023-06-27 四川大学 一种基于图像和gnss的目标空间定位方法
CN114332211B (zh) * 2022-01-06 2022-12-13 南京航空航天大学 一种基于边缘重建和密集融合网络的零件位姿计算方法
CN114663514B (zh) * 2022-05-25 2022-08-23 浙江大学计算机创新技术研究院 一种基于多模态稠密融合网络的物体6d姿态估计方法
CN114863573B (zh) * 2022-07-08 2022-09-23 东南大学 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN117268345B (zh) * 2023-11-20 2024-03-29 启元实验室 一种高实时性单目深度估计测量方法、装置及电子设备
CN117707204A (zh) * 2024-01-30 2024-03-15 清华大学 基于光电端到端网络的无人机高速避障系统及方法
CN117689990A (zh) * 2024-02-02 2024-03-12 南昌航空大学 一种基于6d姿态估计的三支流双向融合网络方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783660B2 (en) * 2018-02-21 2020-09-22 International Business Machines Corporation Detecting object pose using autoencoders
CN111161348B (zh) * 2018-11-08 2023-12-05 深圳市优必选科技有限公司 一种基于单目相机的物体位姿估计方法、装置及设备
CN111368852A (zh) * 2018-12-26 2020-07-03 沈阳新松机器人自动化股份有限公司 基于深度学习的物品识别预分拣系统、方法及机器人
EP3903226A1 (en) * 2019-02-01 2021-11-03 Siemens Aktiengesellschaft Dense 6-dof pose object detector
CN110580725A (zh) * 2019-09-12 2019-12-17 浙江大学滨海产业技术研究院 一种基于rgb-d相机的箱体分拣方法及系统
CN110956663B (zh) * 2019-12-12 2023-04-18 深圳先进技术研究院 一种六维姿态估计的神经网络系统及神经网络方法
CN111080659A (zh) * 2019-12-19 2020-04-28 哈尔滨工业大学 一种基于视觉信息的环境语义感知方法
CN111179324B (zh) * 2019-12-30 2023-05-05 同济大学 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN111311679B (zh) * 2020-01-31 2022-04-01 武汉大学 一种基于深度相机的自由漂浮目标位姿估计方法
CN111402310B (zh) * 2020-02-29 2023-03-28 同济大学 一种基于深度估计网络的单目图像深度估计方法及系统
CN111899301A (zh) * 2020-06-02 2020-11-06 广州中国科学院先进技术研究所 一种基于深度学习的工件6d位姿估计方法
CN112233181A (zh) * 2020-10-29 2021-01-15 深圳市广宁股份有限公司 6d位姿识别的方法、装置及计算机存储介质
CN112598735B (zh) * 2020-12-21 2024-02-27 西北工业大学 一种融合三维模型信息的单张图像物体位姿估计方法
CN112598721A (zh) * 2020-12-22 2021-04-02 绍兴市北大信息技术科创中心 基于归一化回归函数单目深度估计系统训练方法和网络

Also Published As

Publication number Publication date
CN113393522A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113393522B (zh) 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN111798475B (zh) 一种基于点云深度学习的室内环境3d语义地图构建方法
CN108665496B (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
CN109559320B (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN108242079B (zh) 一种基于多特征视觉里程计和图优化模型的vslam方法
CN108510535A (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
CN111862213A (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN107240129A (zh) 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法
CN104794737B (zh) 一种深度信息辅助粒子滤波跟踪方法
CN112836597B (zh) 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN110675453B (zh) 一种已知场景中运动目标的自定位方法
CN115421158B (zh) 自监督学习的固态激光雷达三维语义建图方法与装置
CN110889349A (zh) 一种基于vslam的稀疏三维点云图的视觉定位方法
CN113903011A (zh) 一种适用于室内停车场的语义地图构建及定位方法
CN112907557A (zh) 道路检测方法、装置、计算设备及存储介质
CN112990010A (zh) 点云数据处理方法、装置、计算机设备和存储介质
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN114279433A (zh) 地图数据自动化生产方法、相关装置及计算机程序产品
CN115049945A (zh) 一种基于无人机图像的小麦倒伏面积提取方法和装置
CN114266823A (zh) 一种结合SuperPoint网络特征提取的单目SLAM方法
CN111611869A (zh) 一种基于串行深度神经网络的端到端单目视觉避障方法
CN116824433A (zh) 基于自监督神经网络的视觉-惯导-雷达融合自定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant