CN114863573B - 一种基于单目rgb-d图像的类别级6d姿态估计方法 - Google Patents

一种基于单目rgb-d图像的类别级6d姿态估计方法 Download PDF

Info

Publication number
CN114863573B
CN114863573B CN202210801201.6A CN202210801201A CN114863573B CN 114863573 B CN114863573 B CN 114863573B CN 202210801201 A CN202210801201 A CN 202210801201A CN 114863573 B CN114863573 B CN 114863573B
Authority
CN
China
Prior art keywords
point cloud
dimensional
category
rgb
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210801201.6A
Other languages
English (en)
Other versions
CN114863573A (zh
Inventor
姚莉
刘欢
杨俊宴
吴含前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210801201.6A priority Critical patent/CN114863573B/zh
Publication of CN114863573A publication Critical patent/CN114863573A/zh
Application granted granted Critical
Publication of CN114863573B publication Critical patent/CN114863573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单目RGB‑D图像的类别级6D姿态估计方法,本方法引入RGB‑D图像特征融合机制,通过自注意力机制融合RGB‑D图像中目标实例的像素颜色特征和点云几何特征,获取目标实例更好的特征表达;并且引入类别形状隐式编码先验来克服同一类别下不同实例物体之间的形状差异。本方法首先对单幅RGB‑D图片进行目标检测与实例分割,结合深度信息计算出目标实例采样点的三维坐标;根据目标实例的类别输入对应的类别形状编码先验,基于一种多分支的网络结构,分别预测目标实例的点云模型和采样点的对应关系矩阵,进而运算出采样点对应的三维点云坐标;最后解算出目标物体的6D姿态。

Description

一种基于单目RGB-D图像的类别级6D姿态估计方法
技术领域
本发明属于计算机视觉和场景理解领域,涉及一种基于单目RGB-D图像的类别级6D姿态估计方法。
背景技术
由于模糊性(例如视差的存在),基于单目图像的6D姿态估计是一个不适定问题。与实例级6D姿态估计不同,类别级6D姿态估计需要很强的先验知识。目前实例级别的物体6D姿态估计研究取得了很大的进展,但是相比之下,类别级的物体6D姿态估计问题则面临着诸多挑战。 首先,在缺少物体三维模型的前提下估计物体6D姿态的准确率不高。其次,同一类别的不同物体实例之间在形状、尺寸、纹理上都会有不同程度的差异,导致算法类别泛化的能力受限。
发明内容
针对以上问题,本发明提供一种基于单目RGB-D图像的类别级6D姿态估计方法,这种方法充分利用了深度学习方法在图像领域的成功以及类别形状编码的先验信息,可以在物体三维模型未知情况下预测物体的6D姿态。
本专利提供一种基于单目RGB-D图像的类别级6D姿态估计方法,包括前置阶段、训练阶段和重建阶段,各阶段如下:
1)前置阶段:
根据包含不同类别的物体实例三维模型数据集,获取每个类别的三维点云隐式形状编码;
2)训练阶段:
训练样本通过单幅的RGB-D图片生成特定目标实例的特征空间,结合对应类别的隐式形状编码先验输入,重建目标实例的标准归一化三维点云,并且进一步预测对应的坐标映射,根据预测的坐标映射与实际的三维坐标映射的差异,以及点云重建的误差,计算综合损失,完成网络的拟合;
3)重建阶段:
训练阶段完成后,对单幅的RGB-D输入图片,进行目标检测与实例分割,并结合深度信息计算出目标实例采样点的三维坐标,根据目标实例的类别输入对应的类别形状编码先验,通过网络预测采样点对应的归一化三维点云坐标,通过Umeyama算法计采样点集与对应实例模型三维坐标点集之间的变换矩阵,进而解算出目标物体的6D姿态。
作为本发明进一步改进,步骤1)前置阶段具体包括如下步骤:
步骤1.1:将同一类别的物体实例统一位姿朝向,缩放到单位尺度,形成标准归一 化的三维模型数据集,用
Figure 918211DEST_PATH_IMAGE001
表示,其中C为三维模型的类 别数目,N c 为类别c中三维模型的数量,则表示类别c中第i个实例物体的三维点云;
步骤1.2:利用归一化的三维模型数据集
Figure 118379DEST_PATH_IMAGE002
训练一个点云自编码器网络,用
Figure 284919DEST_PATH_IMAGE003
Figure 254143DEST_PATH_IMAGE004
分别表示训练好的编码器和解码器;
步骤1.3:利用训练好的点云编码器
Figure 847935DEST_PATH_IMAGE003
对每个三维模型采样点进行编码,三维模型
Figure 987929DEST_PATH_IMAGE005
对应的隐式特征编码用
Figure 708892DEST_PATH_IMAGE006
表示;
步骤1.4:将每个类别中所有物体实例的隐式编码向量逐元素取平均,得到每个类 别的平均隐式编码向量,称为类别形状隐式编码,用
Figure 516311DEST_PATH_IMAGE007
表示,则
Figure 15425DEST_PATH_IMAGE008
作为本发明进一步改进,所述步骤2)训练阶段的训练样本包括不同场景下的RGB-D图像、图像中对应目标物体的三维模型、分割掩码及类别信息、各个类别的隐式形状编码和目标物体二维像素点对应的归一化点云模型三维坐标映射。
作为本发明进一步改进,步骤2)训练阶段具体包括如下步骤:
步骤2.1:根据目标物体的分割掩码裁剪出物体的RGB图像块,再根据相机内参矩阵和深度图计算物体可视区域每个像素对应的三维坐标,随机采样得到物体的采样点集;
步骤2.2:通过自注意力融合网络提取并融合物体实例的图像特征和点云特征,得到实例RGB-D图像对应的特征;
步骤2.3:根据物体的类别信息输入前置阶段中对应的类别形状编码;
步骤2.4:利用网络的重建分支预测物体在标准归一化空间中的三维点云,并计算出重建点云的误差;
步骤2.5:利用网络的另一分支预测一个辅助的对应关系矩阵;
步骤2.6:对应关系矩阵的每一行为一个采样点对应于重建点云的分类one-hot向量,将对应关系矩阵与重建点云相乘得到每个采样点对应的标准归一化三维模型坐标,计算坐标预测的误差;
步骤2.7:根据步骤4、步骤5和步骤6计算的误差对网络进行反向传播,重复训练直至网络收敛。
作为本发明进一步改进,所述前置阶段步骤1.2中:
点云自动编码器网络训练时,损失函数为采样点云与重建点云的Chamfer距离误差:
Figure 661957DEST_PATH_IMAGE010
其中P为采样点云,
Figure 639140DEST_PATH_IMAGE011
为重建点云,a、b分别表示点集P
Figure 566645DEST_PATH_IMAGE011
中的采样点坐标。
作为本发明进一步改进,所述训练阶段步骤2.1中:
需要根据深度信息计算目标物体二维像素对应的三维坐标,并随机采样768个坐标点,若目标实例的像素点不足768,则重复采样,补足至足够的采样点。
作为本发明进一步改进,所述训练阶段步骤2.4中:
网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练,其中点云重建误差:
Figure 987393DEST_PATH_IMAGE012
其中S为重建点云的预测值,S gt 为物体标准归一化三维点云模型。
作为本发明进一步改进,所述训练阶段步骤2.5中:
损失函数引入了针对对应关系矩阵的交叉熵损失:
Figure 367559DEST_PATH_IMAGE013
其中M为预测的对应关系矩阵,n是采样点的个数,也就是矩阵M的行数,M[i,j]表示矩阵第i行第j列的元素。
作为本发明进一步改进,所述训练阶段步骤2.6中:
网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练,其中坐标预测误差为:
Figure 148433DEST_PATH_IMAGE014
其中
Figure 415598DEST_PATH_IMAGE015
表示坐标预测值,
Figure 522094DEST_PATH_IMAGE016
表示真实坐标值,
Figure 389556DEST_PATH_IMAGE017
表示
Figure 724853DEST_PATH_IMAGE015
中的一个坐标 预测值,
Figure 95792DEST_PATH_IMAGE018
表示在
Figure 107610DEST_PATH_IMAGE016
中与
Figure 931210DEST_PATH_IMAGE019
相对应的真实值。
作为本发明进一步改进,所述训练阶段步骤2.7中:
总的损失为点云重建损失、坐标预测损失和交叉熵损失的加权和:
Figure 332848DEST_PATH_IMAGE020
其中
Figure 823872DEST_PATH_IMAGE021
Figure 272171DEST_PATH_IMAGE022
Figure 864957DEST_PATH_IMAGE023
分别为不同损失项的权重系数。
本发明与现有技术相比,其显著优点在于:
本发明的方法可以通过单目RGB-D图像预测目标物体对应的6D姿态,解除了6D姿态估计时对物体三维模型的依赖;更有效的克服了类内形状差异性,使得算法模型具有更好的类别泛化能力,预测出更加精确的6D姿态;所用神经网络参数量较小,可以在普通电脑上进行6D姿态估计。
附图说明
图1为本发明实施例的类别级6D姿态估计方法前置阶段类别形状编码先验的获取过程;
图2为本发明实施例的类别级6D姿态估计方法网络训练过程的流程图;
图3为本发明实施例的类别级6D姿态估计方法整体预测阶段的流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明。
实施例:本实施例的基于单目RGB-D图像的类别级6D姿态估计方法是基于采样点坐标对应关系的姿态估计方法。
本实施例的方法主要包括前置过程、训练过程与预测过程。
(一)前置阶段
前置阶段是训练与预测过程所通用的。具体来说,如图1所示,将已有的三维模型 数据集统一缩放到单位立方体中,并针对同一类别物体统一朝向。对物体三维模型表面采 样2048个点,令三维模型采样点云集合为
Figure 56904DEST_PATH_IMAGE024
,其中C为三维模型的类别数目,N c 为类别c中三维模型的数量,
Figure 136856DEST_PATH_IMAGE025
则表示类别c中第i个实例物体 的三维点云。首先利用三维数据集
Figure 506788DEST_PATH_IMAGE026
,基于Chamfer距离损失训练图1中的(a)中的自动编码 器网络,用
Figure 570559DEST_PATH_IMAGE027
Figure 35038DEST_PATH_IMAGE028
分别表示训练好的编码器和解码器。然后利用训练好的点云编码器
Figure 985808DEST_PATH_IMAGE029
得 到数据集中每个三维模型
Figure 775910DEST_PATH_IMAGE030
对应的隐式特征编码
Figure 61397DEST_PATH_IMAGE031
。最后将每个类别中所有物体实例的隐 式编码向量逐元素取平均,得到每个类别的平均隐式编码向量(将其称为类别形状隐式编 码),用
Figure 602669DEST_PATH_IMAGE032
表示,那么:
Figure 188372DEST_PATH_IMAGE033
各个类别形状的隐式编码在类别级三维物体姿态估计任务中被当做先验知识,用来代表具体某一类物体的三维形状隐式编码。
(二)训练阶段
如图2所示,训练阶段完成的任务主要就是用神经网络预测RGB-D图像中像素采样点对应的物体归一化模型三维坐标。训练样本包括不同场景下的RGB-D图像、图像中对应目标物体的三维模型、分割掩码及类别信息、各个类别的隐式形状编码、目标物体二维像素点对应的归一化点云模型三维坐标映射。在该步骤中,网络模型以目标实例对应的图像块、可视点云数据和类别形状隐式编码先验作为输入。整个网络具有两个直接输出,一个是类别形状编码在目标实例特征的指导下重建出的点云,另一个是目标实例结合类别先验预测的点云对应关系矩阵。然后根据网络模型输出的重建点云和对应关系矩阵,得出目标实例像素采样点对应的归一化模型三维坐标;再根据总体的损失函数来训练网络。具体来说:
1、实例特征提取;
使用CNN网络和MLP网络分别对图像输入和点云输入进行特征提取,然后再通过一个Transformer模块将图像特征和点云特征融合,经过MLP和平均池化得到实例的全局特征。
2、将实例全局特征与实例对应的类别形状隐式编码进行融合,在利用FoldingNet解码器对融合的编码进行解码,得到目标实例的重建点云。根据Chamfer距离计算重建损失:
Figure 149374DEST_PATH_IMAGE012
3、将实例的局部融合特征和全局特征,以及类别形状隐式编码进行特征拼接,经过MLP和softmax层输出对应关系矩阵。逐行计算对应关系矩阵的交叉熵损失:
Figure 672891DEST_PATH_IMAGE034
4、根据重建点云和对应关系矩阵,得出像素采样点对应的三维模型坐标映射,并根据数据集给出的真实值计算误差:
Figure 10331DEST_PATH_IMAGE014
5、根据三项误差的加权和对网络进行监督训练。
(三)预测阶段
如图3所示,进行预测阶段时,假设所有的网络都已经训练完毕,在该阶段,输入一张已知相机内参的RGB-D图片就能得到图中各个目标物体相对应的6D姿态。该阶段具体步骤如下:
步骤1:对输入图像进行实例分割,得到图像中目标物体的RGB图像块和对应类别。
步骤2:根据相机内参矩阵和深度信息计算物体可视区域每个像素对应的三维坐标,随机采样得到物体的采样点集。
步骤3:通过网络提取目标物体RGB图像的颜色特征和采样点的几何特征。
步骤4:根据物体的类别信息输入前置阶段中对应的类别形状编码。
步骤5:训练好的网络根据实例特征和对应的类别形状编码,预测出目标物体的归一化点云坐标和对应关系矩阵。
步骤6:对应关系矩阵与重建点云相乘得到每个采样点对应的标准归一化三维模型坐标。
步骤7:根据采样点与归一化重建点云坐标的对应关系,利用Umeyama算法拟合两者之间的变换矩阵,进而分解出旋转和平移分量,得到物体的6D位姿。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (9)

1.一种基于单目RGB-D图像的类别级6D姿态估计方法,包括前置阶段、训练阶段和重建阶段,其特征在于,各阶段如下:
1)前置阶段:
根据包含不同类别的物体实例三维模型数据集,获取每个类别的三维点云隐式形状编码;
2)训练阶段:
训练样本通过单幅的RGB-D图片生成特定目标实例的特征空间,结合对应类别的隐式形状编码先验输入,重建目标实例的标准归一化三维点云,并且进一步预测对应的坐标映射,根据预测的坐标映射与实际的三维坐标映射的差异,以及点云重建的误差,计算综合损失,完成网络的拟合;
步骤2)训练阶段具体包括如下步骤:
步骤2.1:根据目标物体的分割掩码裁剪出物体的RGB图像块,再根据相机内参矩阵和深度图计算物体可视区域每个像素对应的三维坐标,随机采样得到物体的采样点集;
步骤2.2:通过自注意力融合网络提取并融合物体实例的图像特征和点云特征,得到实例RGB-D图像对应的特征;
步骤2.3:根据物体的类别信息输入前置阶段中对应的类别形状编码;
步骤2.4:利用网络的重建分支预测物体在标准归一化空间中的三维点云,并计算出重建点云的误差;
步骤2.5:利用网络的另一分支预测一个辅助的对应关系矩阵;
步骤2.6:对应关系矩阵的每一行为一个采样点对应于重建点云的分类one-hot向量,将对应关系矩阵与重建点云相乘得到每个采样点对应的标准归一化三维模型坐标,计算坐标预测的误差;
步骤2.7:根据步骤4、步骤5和步骤6计算的误差对网络进行反向传播,重复训练直至网络收敛;
3)重建阶段:
训练阶段完成后,对单幅的RGB-D输入图片,进行目标检测与实例分割,并结合深度信息计算出目标实例采样点的三维坐标,根据目标实例的类别输入对应的类别形状编码先验,通过网络预测采样点对应的归一化三维点云坐标,通过Umeyama算法计采样点集与对应实例模型三维坐标点集之间的变换矩阵,进而解算出目标物体的6D姿态。
2.根据权利要求1所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,步骤1)前置阶段具体包括如下步骤:
步骤1.1:将同一类别的物体实例统一位姿朝向,缩放到单位尺度,形成标准归一化的 三维模型数据集,用
Figure DEST_PATH_IMAGE001
表示,其中C为三维模型的类别数 目,N c 为类别c中三维模型的数量,则表示类别c中第i个实例物体的三维点云;
步骤1.2:利用归一化的三维模型数据集
Figure DEST_PATH_IMAGE002
训练一个点云自编码器网络,用
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
分别 表示训练好的编码器和解码器;
步骤1.3:利用训练好的点云编码器
Figure 70828DEST_PATH_IMAGE003
对每个三维模型采样点进行编码,三维模型
Figure DEST_PATH_IMAGE005
对应的隐式特征编码用
Figure DEST_PATH_IMAGE006
表示;
步骤1.4:将每个类别中所有物体实例的隐式编码向量逐元素取平均,得到每个类别的 平均隐式编码向量,称为类别形状隐式编码,用
Figure DEST_PATH_IMAGE007
表示,则
Figure DEST_PATH_IMAGE008
3.根据权利要求1所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述步骤2)训练阶段的训练样本包括不同场景下的RGB-D图像、图像中对应目标物体的三维模型、分割掩码及类别信息、各个类别的隐式形状编码和目标物体二维像素点对应的归一化点云模型三维坐标映射。
4.根据权利要求2所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述前置阶段步骤1.2中:
点云自动编码器网络训练时,损失函数为采样点云与重建点云的Chamfer距离误差:
Figure DEST_PATH_IMAGE009
其中P为采样点云,
Figure DEST_PATH_IMAGE010
为重建点云,a、b分别表示点集P
Figure 568061DEST_PATH_IMAGE010
中的采样点坐标。
5.根据权利要求1所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述训练阶段步骤2.1中:
需要根据深度信息计算目标物体二维像素对应的三维坐标,并随机采样768个坐标点,若目标实例的像素点不足768,则重复采样,补足至足够的采样点。
6.根据权利要求1所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述训练阶段步骤2.4中:
网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练,其中点云重建误差:
Figure DEST_PATH_IMAGE011
其中S为重建点云的预测值,S gt 为物体标准归一化三维点云模型。
7.根据权利要求6所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述训练阶段步骤2.5中:
损失函数引入了针对对应关系矩阵的交叉熵损失:
Figure DEST_PATH_IMAGE012
其中M为预测的对应关系矩阵,n是采样点的个数,也就是矩阵M的行数,M[i,j]表示矩阵第i行第j列的元素。
8.根据权利要求7所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述训练阶段步骤2.6中:
网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练,其中坐标预测误差为:
Figure DEST_PATH_IMAGE013
其中
Figure DEST_PATH_IMAGE014
表示坐标预测值,
Figure DEST_PATH_IMAGE015
表示真实坐标值,
Figure DEST_PATH_IMAGE016
表示
Figure 125295DEST_PATH_IMAGE014
中的一个坐标预测 值,
Figure DEST_PATH_IMAGE017
表示在
Figure 113980DEST_PATH_IMAGE015
中与
Figure DEST_PATH_IMAGE018
相对应的真实值。
9.根据权利要求8所述一种基于单目RGB-D图像的类别级6D姿态估计方法,其特征在于,所述训练阶段步骤2.7中:
总的损失为点云重建损失、坐标预测损失和交叉熵损失的加权和:
Figure DEST_PATH_IMAGE019
其中
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
分别为不同损失项的权重系数。
CN202210801201.6A 2022-07-08 2022-07-08 一种基于单目rgb-d图像的类别级6d姿态估计方法 Active CN114863573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210801201.6A CN114863573B (zh) 2022-07-08 2022-07-08 一种基于单目rgb-d图像的类别级6d姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210801201.6A CN114863573B (zh) 2022-07-08 2022-07-08 一种基于单目rgb-d图像的类别级6d姿态估计方法

Publications (2)

Publication Number Publication Date
CN114863573A CN114863573A (zh) 2022-08-05
CN114863573B true CN114863573B (zh) 2022-09-23

Family

ID=82625736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210801201.6A Active CN114863573B (zh) 2022-07-08 2022-07-08 一种基于单目rgb-d图像的类别级6d姿态估计方法

Country Status (1)

Country Link
CN (1) CN114863573B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880334B (zh) * 2022-12-05 2023-07-28 无锡东如科技有限公司 一种自动机器学习图谱融合的视频物体跟踪方法
CN115601283B (zh) * 2022-12-14 2023-04-14 深圳思谋信息科技有限公司 图像增强方法、装置、计算机设备及计算机可读存储介质
CN116245940B (zh) * 2023-02-02 2024-04-05 中国科学院上海微系统与信息技术研究所 基于结构差异感知的类别级六自由度物体位姿估计方法
CN116310153B (zh) * 2023-05-26 2023-08-01 南昌航空大学 单视图彩色三维点云重建方法、系统、存储介质及计算机
CN116612182B (zh) * 2023-07-19 2023-09-29 煤炭科学研究总院有限公司 单目位姿估计方法及装置
CN117152231B (zh) * 2023-10-31 2024-01-26 中国农业大学 预设类别目标的三维形状估计方法、装置及电子设备
CN117576217B (zh) * 2024-01-12 2024-03-26 电子科技大学 一种基于单实例图像重建的物体位姿估计方法
CN117953059B (zh) * 2024-01-31 2024-07-26 武汉科技大学 一种基于rgb-d图像的方形吊装物姿态估计方法
CN117689990B (zh) * 2024-02-02 2024-05-31 南昌航空大学 一种基于6d姿态估计的三支流双向融合网络方法
CN118071934A (zh) * 2024-03-28 2024-05-24 同济大学 一种基于单视角rgbd融合网络的手物交互重建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221953A (zh) * 2021-04-14 2021-08-06 上海交通大学宁波人工智能研究院 基于实例分割和双目深度估计的目标姿态识别系统与方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113538569A (zh) * 2021-08-11 2021-10-22 广东工业大学 一种弱纹理物体位姿估计方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063301B (zh) * 2018-07-24 2023-06-16 杭州师范大学 一种基于热力图的单幅图像室内物体姿态估计方法
CN111968235B (zh) * 2020-07-08 2024-04-12 杭州易现先进科技有限公司 一种物体姿态估计方法、装置、系统和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221953A (zh) * 2021-04-14 2021-08-06 上海交通大学宁波人工智能研究院 基于实例分割和双目深度估计的目标姿态识别系统与方法
CN113393522A (zh) * 2021-05-27 2021-09-14 湖南大学 一种基于单目rgb相机回归深度信息的6d位姿估计方法
CN113538569A (zh) * 2021-08-11 2021-10-22 广东工业大学 一种弱纹理物体位姿估计方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合掩码定位和漏斗网络的6D姿态估计;李冬冬;《中国图像图形学报》;20220216;第642-651页 *

Also Published As

Publication number Publication date
CN114863573A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114863573B (zh) 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN110458939A (zh) 基于视角生成的室内场景建模方法
CN111161364B (zh) 一种针对单视角深度图的实时形状补全和姿态估计方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN111815665B (zh) 基于深度信息与尺度感知信息的单张图像人群计数方法
CN113657388A (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112258436A (zh) 图像处理模型的训练方法、装置、图像处理方法及模型
CN117522990B (zh) 基于多头注意力机制和迭代细化的类别级位姿估计方法
CN111797692A (zh) 一种基于半监督学习的深度图像手势估计方法
CN116152334A (zh) 图像处理方法及相关设备
CN118071999B (zh) 一种基于采样自适应的连续NeRF的多视角3D目标检测方法
CN116468793A (zh) 图像处理方法、装置、电子设备及存储介质
Li et al. Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN118261979A (zh) 一种基于几何信息增强的类别级6d姿态估计方法
CN118154770A (zh) 基于神经辐射场的单幅树木图像三维重建方法和装置
CN117689887A (zh) 基于点云分割的工件抓取方法、装置、设备及存储介质
CN114913330B (zh) 点云部件分割方法、装置、电子设备与存储介质
CN115775214A (zh) 一种基于多阶段分形组合的点云补全方法及系统
Lee et al. Camera pose estimation using voxel-based features for autonomous vehicle localization tracking
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant