CN112767478B - 一种基于表观指导的六自由度位姿估计方法 - Google Patents

一种基于表观指导的六自由度位姿估计方法 Download PDF

Info

Publication number
CN112767478B
CN112767478B CN202110023599.0A CN202110023599A CN112767478B CN 112767478 B CN112767478 B CN 112767478B CN 202110023599 A CN202110023599 A CN 202110023599A CN 112767478 B CN112767478 B CN 112767478B
Authority
CN
China
Prior art keywords
key point
prediction
network
apparent
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110023599.0A
Other languages
English (en)
Other versions
CN112767478A (zh
Inventor
姜志国
张鑫
张浩鹏
赵丹培
谢凤英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110023599.0A priority Critical patent/CN112767478B/zh
Publication of CN112767478A publication Critical patent/CN112767478A/zh
Application granted granted Critical
Publication of CN112767478B publication Critical patent/CN112767478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于表观指导的六自由度位姿估计方法,其特征在于,包括以下步骤:将目标物体的RGB图像输入至训练后的关键点定位网络;关键点定位网络对RGB图像进行特征提取,获取特征图;根据特征图计算出关键点在图像上的二维坐标,得到关键点预测表示;根据二维坐标与三维坐标之间的对应关系,计算目标物体相对于相机的六自由度位姿的估计;通过表观预测网络对关键点预测表示的准确性进行验证;本发明综合考虑表观预测质量和关键点损失来减小位姿歧义性在训练时的负面影响,相比于现有技术有更强的通用性,推理计算量小,且考虑了关键点的空间连接关系,利用图卷积实现相邻关键点之间的特征融合,有利于提高位姿估计精度。

Description

一种基于表观指导的六自由度位姿估计方法
技术领域
本发明涉及数字图像处理技术领域,更具体的说是涉及一种基于表观指导的六自由度位姿估计方法。
背景技术
六自由度位姿估计,即恢复图像中物体相对于相机的三维平移和旋转变换参数(共六个自由度),是计算机视觉领域的经典问题,也是多种新兴视觉应用任务(如增强现实、自动驾驶以及视觉机器人等)的关键技术之一,因此重新引起了学术界的高度关注。由于3D传感器获取深度信息需要消耗大量的能量,并且目前的商用级别的深度相机所获取的深度信息通常会包含大量噪声和孔洞。因此,基于RGB图像的位姿估计算法在移动端和实时应用领域具有更加广泛的实际应用价值。
但是,基于单目视觉图像估计六自由度相对位姿是一个典型的不适定问题,具体体现在由于物体结构的对称性和表面纹理的相似性导致在不同视角下所呈现的图像表观是十分相近的,从而使得位姿估计具有多个解,这一现象也被称为位姿歧义性。实际上,常见的大多数人造物体往往都具有近似对称的结构和重复的表面纹理,因此位姿歧义性是普遍存在的。然而,现有的位姿估计数据集在标注时大多没有考虑位姿歧义性,即对每一个物体实例的位姿标注是唯一的,这会给位姿估计算法在训练优化时造成困难,因为相同的图像表观输入却分别对应了差距很大的位姿真值。
现有技术中提出了一种位姿规范化(pose normalization)方法将多个歧义性视角下的位姿标注转化为相同的某一参考位姿,并通过并行地预测两个位姿假设解决位姿规范化后的不连续问题,从而减小位姿歧义性对位姿估计算法在训练时的负面影响,然而首先该方法预测多个并行的位姿假设,会增加算法的推理计算量,导致位姿估计处理效率降低;其次该方法需要根据物体对称性先验人工设计歧义性消除方式,因此通用性较差;另外,该方法中相对独立地定位各个关键点,没有考虑关键点之间的关联性。
因此,如何提出一种能够计算量小、通用性强且各个关键点之间的关联性强的基于表观指导的六自由度位姿估计方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于表观指导的六自由度位姿估计方法,目的在于解决现有技术中六自由度位姿估计方法计算量大、通用性差且关键点之间的关联性差的问题。
为了实现上述目的,本发明采用如下技术方案:
一种基于表观指导的六自由度位姿估计方法,包括以下步骤:
S1.将目标物体的RGB图像输入至训练后的关键点定位网络;
S2.所述关键点定位网络对所述RGB图像进行特征提取,获取特征图;
S3.将所述特征图分别通过第一卷积层和第二卷积层后获取到预测结果CLS和预测结果OFFSET,根据所述预测结果CLS对关键点进行最近角点分类,选取最近角点,同时根据所述预测结果OFFSET获取当前关键点相对于最近角点的偏移量,根据最近焦点及偏移量计算出关键点在图像上的二维坐标,得到关键点预测表示;
S4.根据三维模型获取目标物体的顶点在物体坐标系下的三维坐标,结合所述二维坐标的回归结果,获取二维坐标与三维坐标之间的对应关系,计算目标物体相对于相机的六自由度位姿的估计;
S5.通过表观预测网络对关键点预测表示的准确性进行验证;
所述关键点定位网络和所述表观预测网络的训练方法为:
所述关键点定位网络训练时,固定所述表现观测网络的模型参数,对所述关键点定位网络的模型参数进行迭代更新;所述表观预测网络训练时,固定所述关键点定位网络的模型参数,对所述表观预测网络的模型参数进行迭代更新。
优选的,S1的具体内容包括:
将目标物体的RGB图像块的宽高被调整为112像素,输入关键点定位网络。
优选的,S2中所述关键点定位网络对所述RGB图像进行特征提取具体包括五个阶段:
阶段一:将所述RGB图像输入一个卷积核大小为7×7、步长为2、64通道的卷积层;
阶段二:将阶段一得到的输出输入至前后相连的两个残差块中,阶段二中的每个残差块包括两个3×3、64通道的卷积层;
阶段三:将阶段二得到的输出输入至前后相连的两个残差块中,阶段三中的每个残差块包括两个3×3、128通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;
阶段四:将阶段三得到的输出输入至前后相连的两个残差块中,阶段四中的每个残差块包括两个3×3、256通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;
阶段五:将阶段四得到的输出输入至前后相连的两个残差块中,阶段五中的每个残差块包括两个3×3、512通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;阶段五输出一个维度为512×7×7的特征图。
优选的,S2中的获取特征图的具体过程包括:
经过五个阶段之后的输出结果输入一个3×3、步长为2、288通道的卷积层,得到维度为288×4×4的特征图;
采用图卷积层进行相邻接关键点之间的特征融合,将288个通道平均分为8组作为8个关键点的特征,图卷积层的邻接矩阵为:
Figure BDA0002889586440000041
经过两个图卷积层后,再将特征转换为288×4×4的维度;之后再经过一个3×3、步长为2、288通道的卷积层,得到维度为288×2×2的特征图,完成特征融合。
优选的,S3中所述第一卷积层包含一个1×1、8通道的卷积层,将S2中得到的维度为288×2×2的特征图输入所述第一卷积层后,得到维度为8×2×2的预测结果CLS,代表对8个关键点做最近角点分类;
所述第二卷积层包含一个1×1、16通道的卷积层,将S2中得到的维度为288×2×2的特征图输入所述第二卷积层后,得到维度为16×2×2的预测结果OFFSET,代表对8个关键点相对于角点的偏移量回归。
优选的,S3的具体内容包括:
对于第i个关键点,所述预测结果CLS的第i个通道的4维向量用于最近角点分类,取分类得分最高的类别所对应的边界框角点作为最近角点closest_corner;同时取所述预测结果OFFSET的第2i-1和第2i通道对应位置的二维向量作为关键点相对于最近角点的偏移量,并计算出关键点在图像上的二维坐标,得到关键点预测表示为:
Figure BDA0002889586440000051
优选的,S4的具体内容为:
根据目标物体三维模型在长宽高三个维度上的尺寸信息,计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标,结合S3得到的8个投影点坐标回归结果,获取8组二维坐标与三维坐标之间的对应关系,通过EPnP算法采用所述对应关系计算目标物体相对于相机的六自由度位姿。
优选的,S5的具体方法为:将通过所述关键点定位网络得到的关键点预测表示和关键点表示真值分别输入至训练后的表观预测网络中,分别输出预测目标掩码和目标掩码真值,通过预测目标掩码和目标掩码真值验证关键点预测表示的正确性。
优选的,所述表观预测网络中包括第三卷积层和第四卷积层,并均为128通道的1×1卷积层,所述第三卷积层作用于最近角点分类部分,所述第四卷积层作用于相对角点偏移部分,所述第三卷积层和所述第四卷积层相加进行融合,关键点预测表示和关键点表示真值分别输入至融合后的卷积层,再经过两个4个128通道、步长为2、补边为1的反卷积层,其中第二个反卷积层的卷积核大小为3×3,其余反卷积层的卷积核大小为4×4,并且每一个反卷积层后使用组归一化层和非线性激活层,得到维度为128×28×28的特征图;最后使用通道数为1的1×1卷积层和sigmoid激活函数得到预测目标掩码和目标掩码真值。
优选的,所述关键点定位网络和所述表观预测网络的训练方法的具体内容包括:
用于训练所述表观预测网络的输入样本包括:由所述关键点定位网络预测得到的所述关键点预测表示和对应的所述关键点表示真值;
对于所述关键点表示真值,所述表观预测网络的目标是输出逐像素概率为1的目标掩码真值;
对于由所述关键点预测表示,所述表观预测网络的目标是输出逐像素概率为p的目标掩码,p的计算方式为:
Figure BDA0002889586440000061
其中threshold为关键点误差阈值;kpt_err_std为关键点的误差标准差,kpt_err_mean为关键点的误差均值,x为关键点中第三高的误差值;损失函数采用依概率衰减的FocalLoss:
Figure BDA0002889586440000062
其中
Figure BDA0002889586440000063
为概率真值,
Figure BDA0002889586440000064
为概率预测值,m为掩码边长;
训练所述表观预测网络的损失函数为:
LD=Lmask(D(kptgt),Mgt)+Lmask(D(G(I)),Mp)
训练所述关键点定位网络的损失函数包括对抗损失和关键点损失,其中对抗损失函数为:
LGAN=Lmask(D(G(I),Mgt)
所述关键点损失函数由最近角点分类损失Lcls和相对角点偏移量回归损失Loffset组成,Lcls采用依概率衰减的FocalLoss,Loffset采用L1 norm损失函数,
因此训练所述关键点定位网络的损失函数为:
LG=miou·LGAN+Lcls+Loffset
其中miou为所述关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值的交并比。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于表观指导的六自由度位姿估计方法,该方法结合了增强自编码器结构和对抗训练策略,即关键点定位网络和表观预测网络交替迭代更新参数进行训练,综合考虑表观预测质量和关键点损失来减小位姿歧义性在训练时的负面影响,相比于现有技术有更强的通用性,不需要借助物体对称性先验信息,并且不会增加算法的推理计算量。而且本方法在关键点定位时考虑了关键点的空间连接关系,利用图卷积实现相邻关键点之间的特征融合,有利于提高位姿估计精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种基于表观指导的六自由度位姿估计方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于表观指导的六自由度位姿估计方法,如图1所示,包括以下步骤:
S1.将目标物体的RGB图像输入至训练后的关键点定位网络;
S2.关键点定位网络对RGB图像进行特征提取,获取特征图;
S3.将特征图分别通过第一卷积层和第二卷积层后获取到预测结果CLS和预测结果OFFSET,根据预测结果CLS对关键点进行最近角点分类,选取最近角点,同时根据预测结果OFFSET获取当前关键点相对于最近角点的偏移量,根据最近焦点及偏移量计算出关键点在图像上的二维坐标,得到关键点预测表示;
S4.根据三维模型获取目标物体的顶点在物体坐标系下的三维坐标,结合二维坐标的回归结果,获取二维坐标与三维坐标之间的对应关系,计算目标物体相对于相机的六自由度位姿的估计;
S5.通过表观预测网络对关键点预测表示的准确性进行验证;
关键点定位网络和表观预测网络的训练方法为:
关键点定位网络训练时,固定表现观测网络的模型参数,对关键点定位网络的模型参数进行迭代更新;表观预测网络训练时,固定关键点定位网络的模型参数,对表观预测网络的模型参数进行迭代更新。
为了进一步实施上述技术方案,S1的具体内容包括:
将目标物体的RGB图像块的宽高被调整为112像素,输入关键点定位网络。
为了进一步实施上述技术方案,S2中关键点定位网络对RGB图像进行特征提取具体包括五个阶段:
阶段一:将RGB图像输入一个卷积核大小为7×7、步长为2、64通道的卷积层;
阶段二:将阶段一得到的输出输入至前后相连的两个残差块中,阶段二中的每个残差块包括两个3×3、64通道的卷积层;
阶段三:将阶段二得到的输出输入至前后相连的两个残差块中,阶段三中的每个残差块包括两个3×3、128通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;
阶段四:将阶段三得到的输出输入至前后相连的两个残差块中,阶段四中的每个残差块包括两个3×3、256通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;
阶段五:将阶段四得到的输出输入至前后相连的两个残差块中,阶段五中的每个残差块包括两个3×3、512通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;阶段五输出一个维度为512×7×7的特征图。
为了进一步实施上述技术方案,S2中的获取特征图的具体过程包括:
经过五个阶段之后的输出结果输入一个3×3、步长为2、288通道的卷积层,得到维度为288×4×4的特征图;
采用图卷积层进行相邻接关键点之间的特征融合,将288个通道平均分为8组作为8个关键点的特征,图卷积层的邻接矩阵为:
Figure BDA0002889586440000091
经过两个图卷积层后,再将特征转换为288×4×4的维度;之后再经过一个3×3、步长为2、288通道的卷积层,得到维度为288×2×2的特征图,完成特征融合。
为了进一步实施上述技术方案,S3中第一卷积层包含一个1×1、8通道的卷积层,将S2中得到的维度为288×2×2的特征图输入第一卷积层后,得到维度为8×2×2的预测结果CLS,代表对8个关键点做最近角点分类;
第二卷积层包含一个1×1、16通道的卷积层,将S2中得到的维度为288×2×2的特征图输入第二卷积层后,得到维度为16×2×2的预测结果OFFSET,代表对8个关键点相对于角点的偏移量回归。
为了进一步实施上述技术方案,S3的具体内容包括:
对于第i个关键点,预测结果CLS的第i个通道的4维向量用于最近角点分类,取分类得分最高的类别所对应的边界框角点作为最近角点closest_corner;同时取预测结果OFFSET的第2i-1和第2i通道对应位置的二维向量作为关键点相对于最近角点的偏移量,并计算出关键点在图像上的二维坐标,得到关键点预测表示为:
Figure BDA0002889586440000101
为了进一步实施上述技术方案,S4的具体内容为:
根据目标物体三维模型在长宽高三个维度上的尺寸信息,计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标,结合S3得到的8个投影点坐标回归结果即上文所述的关键点预测表示结果,获取8组二维坐标与三维坐标之间的对应关系,通过EPnP算法采用对应关系计算目标物体相对于相机的六自由度位姿。
为了进一步实施上述技术方案,S5的具体方法为:将通过关键点定位网络得到的关键点预测表示和关键点表示真值分别输入至训练后的表观预测网络中,分别输出预测目标掩码和目标掩码真值,通过预测目标掩码和目标掩码真值验证关键点预测表示的正确性。
为了进一步实施上述技术方案,表观预测网络中包括第三卷积层和第四卷积层,并均为128通道的1×1卷积层,第三卷积层作用于最近角点分类部分,第四卷积层作用于相对角点偏移部分,第三卷积层和第四卷积层相加进行融合,关键点预测表示和关键点表示真值分别输入至融合后的卷积层,再经过两个4个128通道、步长为2、补边为1的反卷积层,其中第二个反卷积层的卷积核大小为3×3,其余反卷积层的卷积核大小为4×4,并且每一个反卷积层后使用组归一化层和非线性激活层,得到维度为128×28×28的特征图;最后使用通道数为1的1×1卷积层和sigmoid激活函数得到预测目标掩码和目标掩码真值。
为了进一步实施上述技术方案,关键点定位网络和表观预测网络的训练方法的具体内容包括:
用于训练表观预测网络的输入样本包括:由关键点定位网络预测得到的关键点预测表示和对应的关键点表示真值;
对于关键点表示真值,表观预测网络的目标是输出逐像素概率为1的目标掩码真值;
对于由关键点预测表示,表观预测网络的目标是输出逐像素概率为p的目标掩码,p的计算方式为:
Figure BDA0002889586440000111
其中threshold为关键点误差阈值,设置为2像素;kpt_err_std为8个关键点的误差标准差,kpt_err_mean为8个关键点的误差均值,x为8个关键点中第三高的误差值;
首先p是0到1之间的概率值,当x小于误差阈值时,可以认为该位姿是正确的,所以将p设置为1;当x大于误差阈值时,按照公式计算p值。exp部分的值是关于x单调递减的,也就是误差x越大,exp部分的值越小,同时对概率p设置下界为0.1;取第三高误差是因为它能更好地反映8个关键点的整体误差水平,类似于误差中值的想法。
损失函数采用依概率衰减的FocalLoss:
Figure BDA0002889586440000121
其中
Figure BDA0002889586440000122
为概率真值,
Figure BDA0002889586440000123
为概率预测值,m为掩码边长,设置为28像素;训练表观预测网络的损失函数为:
LD=Lmask(D(kptgt),Mgt)+Lmask(D(G(I)),Mp)
训练关键点定位网络的损失函数包含两部分,第一部分是对抗损失,即希望关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值Mgt尽可能接近:
LGAN=Lmask(D(G(I),Mgt)
第二部分是关键点损失,由最近角点分类损失Lcls和相对角点偏移量回归损失Loffset组成,Lcls采用依概率衰减的FocalLoss,Loffset采用L1 norm损失函数。综上,训练关键点定位网络的损失函数为:
LG=miou·LGAN+Lcls+Loffset
其中miou为关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值的交并比。
将本方法与现有技术在TLESS数据集obj_05上的位姿估计精度对比,对比结果如表1所示。
表1中数值为VSD指标下的位姿估计精度,该数值越高表示位姿估计精度越高。
表1
Figure BDA0002889586440000124
Figure BDA0002889586440000131
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种基于表观指导的六自由度位姿估计方法,其特征在于,包括以下步骤:
S1.将目标物体的RGB图像输入至训练后的关键点定位网络;
S2.所述关键点定位网络对所述RGB图像进行特征提取,获取特征图;
S3.将所述特征图分别通过第一卷积层和第二卷积层后获取到预测结果CLS和预测结果OFFSET,根据所述预测结果CLS对关键点进行最近角点分类,选取最近角点,同时根据所述预测结果OFFSET获取当前关键点相对于最近角点的偏移量,根据最近焦点及偏移量计算出关键点在图像上的二维坐标,得到关键点预测表示;
S4.根据三维模型获取目标物体的顶点在物体坐标系下的三维坐标,结合所述二维坐标的回归结果,获取二维坐标与三维坐标之间的对应关系,计算目标物体相对于相机的六自由度位姿的估计;
S5.通过表观预测网络对关键点预测表示的准确性进行验证;
所述关键点定位网络和所述表观预测网络的训练方法为:
所述关键点定位网络训练时,固定所述表观预测网络的模型参数,对所述关键点定位网络的模型参数进行迭代更新;所述表观预测网络训练时,固定所述关键点定位网络的模型参数,对所述表观预测网络的模型参数进行迭代更新;
所述关键点定位网络和所述表观预测网络的训练方法的具体内容包括:
用于训练所述表观预测网络的输入样本包括:由所述关键点定位网络预测得到的所述关键点预测表示和对应的所述关键点表示真值;
对于所述关键点表示真值,所述表观预测网络的目标是输出逐像素概率为1的目标掩码真值;
对于由所述关键点预测表示,所述表观预测网络的目标是输出逐像素概率为p的目标掩码,p的计算方式为:
Figure FDA0003627740950000021
其中threshold为关键点误差阈值;kpt_err_std为关键点的误差标准差,kpt_err_mean为关键点的误差均值,x为关键点中第三高的误差值;损失函数采用依概率衰减的FocalLoss:
Figure FDA0003627740950000022
其中
Figure FDA0003627740950000023
为概率真值,
Figure FDA0003627740950000024
为概率预测值,m为掩码边长;
训练所述表观预测网络的损失函数为:
LD=Lmask(D(kptgt),Mgt)+Lmask(D(G(I)),Mp)
训练所述关键点定位网络的损失函数包括对抗损失和关键点损失,其中对抗损失函数为:
LGAN=Lmask(D(G(I),Mgt)
所述关键点损失函数由最近角点分类损失Lcls和相对角点偏移量回归损失Loffset组成,Lcls采用依概率衰减的Focal Loss,Loffset采用L1 norm损失函数,
因此训练所述关键点定位网络的损失函数为:
LG=miou·LGAN+Lcls+Loffset
其中miou为所述关键点定位网络产生的关键点表示经过表观预测网络后得到的掩码与掩码真值的交并比。
2.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S1的具体内容包括:
将目标物体的RGB图像块的宽高被调整为112像素,输入关键点定位网络。
3.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S2中所述关键点定位网络对所述RGB图像进行特征提取具体包括五个阶段:
阶段一:将所述RGB图像输入一个卷积核大小为7×7、步长为2、64通道的卷积层;
阶段二:将阶段一得到的输出输入至前后相连的两个残差块中,阶段二中的每个残差块包括两个3×3、64通道的卷积层;
阶段三:将阶段二得到的输出输入至前后相连的两个残差块中,阶段三中的每个残差块包括两个3×3、128通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;
阶段四:将阶段三得到的输出输入至前后相连的两个残差块中,阶段四中的每个残差块包括两个3×3、256通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;
阶段五:将阶段四得到的输出输入至前后相连的两个残差块中,阶段五中的每个残差块包括两个3×3、512通道的卷积层,其中第一个残差块的步长为2,第二个残差块的步长均为1;阶段五输出一个维度为512×7×7的特征图。
4.根据权利要求3所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S2中的获取特征图的具体过程包括:
经过五个阶段之后的输出结果输入一个3×3、步长为2、288通道的卷积层,得到维度为288×4×4的特征图;
采用图卷积层进行相邻接关键点之间的特征融合,将288个通道平均分为8组作为8个关键点的特征,图卷积层的邻接矩阵为:
Figure FDA0003627740950000041
经过两个图卷积层后,再将特征转换为288×4×4的维度;之后再经过一个3×3、步长为2、288通道的卷积层,得到维度为288×2×2的特征图,完成特征融合。
5.根据权利要求4所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S3中所述第一卷积层包含一个1×1、8通道的卷积层,将S2中得到的维度为288×2×2的特征图输入所述第一卷积层后,得到维度为8×2×2的预测结果CLS,代表对8个关键点做最近角点分类;
所述第二卷积层包含一个1×1、16通道的卷积层,将S2中得到的维度为288×2×2的特征图输入所述第二卷积层后,得到维度为16×2×2的预测结果OFFSET,代表对8个关键点相对于角点的偏移量回归。
6.根据权利要求5所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S3的具体内容包括:
对于第i个关键点,所述预测结果CLS的第i个通道的4维向量用于最近角点分类,取分类得分最高的类别所对应的边界框角点作为最近角点closest_corner;同时取所述预测结果OFFSET的第2i-1和第2i通道对应位置的二维向量作为关键点相对于最近角点的偏移量,并计算出关键点在图像上的二维坐标,得到关键点预测表示为:
Figure FDA0003627740950000051
7.根据权利要求6所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S4的具体内容为:
根据目标物体三维模型在长宽高三个维度上的尺寸信息,计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标,结合S3得到的8个投影点坐标回归结果,获取8组二维坐标与三维坐标之间的对应关系,通过EPnP算法采用所述对应关系计算目标物体相对于相机的六自由度位姿。
8.根据权利要求1所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,S5的具体方法为:将通过所述关键点定位网络得到的关键点预测表示和关键点表示真值分别输入至训练后的表观预测网络中,分别输出预测目标掩码和目标掩码真值,通过预测目标掩码和目标掩码真值验证关键点预测表示的正确性。
9.根据权利要求8所述的一种基于表观指导的六自由度位姿估计方法,其特征在于,所述表观预测网络中包括第三卷积层和第四卷积层,并均为128通道的1×1卷积层,所述第三卷积层作用于最近角点分类部分,所述第四卷积层作用于相对角点偏移部分,所述第三卷积层和所述第四卷积层相加进行融合,关键点预测表示和关键点表示真值分别输入至融合后的卷积层,再经过两个4个128通道、步长为2、补边为1的反卷积层,其中第二个反卷积层的卷积核大小为3×3,其余反卷积层的卷积核大小为4×4,并且每一个反卷积层后使用组归一化层和非线性激活层,得到维度为128×28×28的特征图;最后使用通道数为1的1×1卷积层和sigmoid激活函数得到预测目标掩码和目标掩码真值。
CN202110023599.0A 2021-01-08 2021-01-08 一种基于表观指导的六自由度位姿估计方法 Active CN112767478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110023599.0A CN112767478B (zh) 2021-01-08 2021-01-08 一种基于表观指导的六自由度位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110023599.0A CN112767478B (zh) 2021-01-08 2021-01-08 一种基于表观指导的六自由度位姿估计方法

Publications (2)

Publication Number Publication Date
CN112767478A CN112767478A (zh) 2021-05-07
CN112767478B true CN112767478B (zh) 2022-07-19

Family

ID=75701023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110023599.0A Active CN112767478B (zh) 2021-01-08 2021-01-08 一种基于表观指导的六自由度位姿估计方法

Country Status (1)

Country Link
CN (1) CN112767478B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155297A (zh) * 2021-12-07 2022-03-08 南方电网电力科技股份有限公司 一种物体位姿检测方法及装置
CN115171149B (zh) * 2022-06-09 2023-12-05 广州紫为云科技有限公司 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法
CN116245940B (zh) * 2023-02-02 2024-04-05 中国科学院上海微系统与信息技术研究所 基于结构差异感知的类别级六自由度物体位姿估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064514A (zh) * 2018-07-03 2018-12-21 北京航空航天大学 一种基于投影点坐标回归的六自由度位姿估计算法
CN110930454A (zh) * 2019-11-01 2020-03-27 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163048B (zh) * 2018-07-10 2023-06-02 腾讯科技(深圳)有限公司 手部关键点的识别模型训练方法、识别方法及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064514A (zh) * 2018-07-03 2018-12-21 北京航空航天大学 一种基于投影点坐标回归的六自由度位姿估计算法
CN110930454A (zh) * 2019-11-01 2020-03-27 北京航空航天大学 一种基于边界框外关键点定位的六自由度位姿估计算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Out-of-region keypoint localization for 6D pose estimation;Xin Zhang 等;《Image and Vision Computing》;20191202;全文 *
Real-time 6D pose estimation from a single RGB image;Xin Zhang 等;《Image and Vision Computing》;20190709;全文 *

Also Published As

Publication number Publication date
CN112767478A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
Huang et al. Indoor depth completion with boundary consistency and self-attention
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN110930454B (zh) 一种基于边界框外关键点定位的六自由度位姿估计算法
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
JP6011102B2 (ja) 物体姿勢推定方法
CN108776989B (zh) 基于稀疏slam框架的低纹理平面场景重建方法
CN111612008A (zh) 基于卷积网络的图像分割方法
Huang et al. Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation
CN112785526A (zh) 一种用于图形处理的三维点云修复方法
CN114742888A (zh) 一种基于深度学习的6d姿态估计方法
CN113269089A (zh) 基于深度学习的实时手势识别方法及系统
CN116912405A (zh) 一种基于改进MVSNet的三维重建方法及系统
CN111798453A (zh) 用于无人驾驶辅助定位的点云配准方法及其系统
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
Salih et al. Depth estimation using monocular cues from single image
Tao et al. An efficient 3D object detection method based on Fast Guided Anchor Stereo RCNN
CN115953586A (zh) 跨模态知识蒸馏的方法、系统、电子装置和存储介质
CN114693951A (zh) 一种基于全局上下文信息探索的rgb-d显著性目标检测方法
CN116152334A (zh) 图像处理方法及相关设备
WO2021134970A1 (zh) 图像语义分割方法及装置、存储介质
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN113034675A (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
Lyra et al. Development of an efficient 3D reconstruction solution from permissive open-source code
Jang et al. Two-Phase Approach for Monocular Object Detection and 6-DoF Pose Estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant