CN117576217B - 一种基于单实例图像重建的物体位姿估计方法 - Google Patents

一种基于单实例图像重建的物体位姿估计方法 Download PDF

Info

Publication number
CN117576217B
CN117576217B CN202410048613.6A CN202410048613A CN117576217B CN 117576217 B CN117576217 B CN 117576217B CN 202410048613 A CN202410048613 A CN 202410048613A CN 117576217 B CN117576217 B CN 117576217B
Authority
CN
China
Prior art keywords
image
target object
pose
pose estimation
mlp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410048613.6A
Other languages
English (en)
Other versions
CN117576217A (zh
Inventor
金乐
周军
周国顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202410048613.6A priority Critical patent/CN117576217B/zh
Publication of CN117576217A publication Critical patent/CN117576217A/zh
Application granted granted Critical
Publication of CN117576217B publication Critical patent/CN117576217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于单实例图像重建的物体位姿估计方法,包括实例分割步骤:接收传感器采集的包含目标物体的场景RGB图像作为输入;对输入RGB图像中目标物体按实例进行分割为图片块;位姿估计步骤:在训练时先通过对图片块中的目标物体进行单实例重建,以去除遮挡和背景为物体重建目的得到重建的目标物体,同时通过重建学习到目标物体的特征;最后对提取的特征进行6DoF位姿预测。本发明通过对单个目标物体进行标准化的重建,大大降低场景中光照、传感器色彩偏差和轻微几何畸变对物体位姿估计精确度的影响,使得算法泛化性增强,对单个目标物体RGB图像重建并提取特征,直接预测6DoF位姿也极大提升了估计的鲁棒性和准确率。

Description

一种基于单实例图像重建的物体位姿估计方法
技术领域
本发明涉及位姿估计技术,特别涉及基于单实例图像重建的物体位姿估计技术。
背景技术
物体的位姿估计算法是指对物体在三维空间中的位置和方向进行估计,也就是将物体从世界坐标系转换到相机坐标系的重要算法。其中对物体六个自由度6DoF(6 degreesof freedom)的估计和追踪(Estimation and Tracking)尤其重要。所谓6DoF是指物体在三维空间中的6个自由度,即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度,分别是前/后-上/下-左/右和俯仰 (pitch)-偏摆 (yaw)-翻滚 (roll)共6个自由度。
物体6DoF位姿估计在机器人视觉、抓取和控制等领域有着广泛的应用。例如,在机器人抓取领域,6DoF位姿估计可以帮助机器人更好地抓取物体,提高抓取成功率。在机器人视觉领域,6DoF位姿估计可以帮助机器人更好地感知环境,提高机器人的自主性和智能化水平。在控制领域,6DoF位姿估计可以帮助机器人更好地控制运动轨迹,提高运动精度和稳定性。
现有物体6DoF位姿估计算法包括基于模板匹配的方法、基于点的方法和基于原始图片的深度学习方法。
1.模板匹配方法:这种方法通过在可能的特殊欧氏群空间SE(3)通过渲染技术对要检测的物体作充分的采样,提取足够鲁棒的模板,再对模板进行匹配就可以大致的估计位姿,最后使用迭代最近点算法ICP(Iterative closest point)精化结果。
2.基于点的方法:这种方法基本上是通过点云上面少量的点对构成描述子来做的。最典型的方法就是点对特征PPF(Point pair feature),其首先进行全局建模,就是对模型的点云中任意的两个点法都计算PPF描述子,构建模型哈希hash表。在匹配的时候,同样对场景中的点同样计算PPF描述子,之后进行投票匹配,最终计算估计物体的位姿。
3.基于原始图像的深度学习方法:这类方法首先在传感器采集的场景图片中检测被估计物体,基于检测结果将图片分割成一定大小的图像块。之后将分割的图像块送入神经网络中进行预测,根据预测结果类型的不同,又分为直接方法和间接方法。所谓直接方法就是网络可以直接预测物体的6DoF位姿,而间接方法则是网络预测图像和模型之间的二维到三维2D-3D对应关系,之后使用多点透视投影PnP(Perspective-n-Point)算法求解物体的6DoF位姿。
现有物体6DoF位姿估计算法存在以下问题:
1.模板匹配方法:
模板匹配类算法的核心是对渲染的模型进行各个角度进行采样建立模板,并且在实际估计物体位姿的过程中使用实际的场景和每一个模板进行比对。因为每一个模板在建立过程中其参数都是固定的,但是实际场景中的光照明暗、传感器特性、距离远近和旋转角度都是不相同的。这样就导致了该方法对光照、噪声、旋转、缩放等变化非常敏感,当和模板数据不匹配的场景进行估计时会导致准确率大为下降。
2.基于点的方法:
点匹配算法常常基于深度相机的深度图,利用点云中点或多点的空间信息构造描述子和特征。并且利用这些特征和离线时通过目标物体计算机辅助设计CAD模型构造的特征进行匹配,之后得到场景中目标物体的位姿估计。因为深度相机的特性,其深度信息往往会在物体边缘出现跳变,使得特征计算出现较大偏差。此外场景中其他杂乱物体的干扰和相似物体的干扰也会很大程度上影响特征的匹配造成错误的位姿估计结果导致准确率下降。
3.基于原始图像的深度学习方法:
这类算法使用目标检测算法在原始RGB图像找到目标物体的位置,然后基于这一位置确定包含目标物体的图像块并送入神经网络中进行推理,最终预测物体的位姿。因为其送入网络的是包含目标物体的原始RGB图像,那么整个场景的杂乱程度,以及目标物体是否被遮挡以及遮挡的比例都会对神经网络预测的准确率造成很大影响。
发明内容
本发明所要解决的技术问题是,提供一种能有效降低场景与遮挡影响的物体6DoF位姿估计方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于单实例图像重建的物体位姿估计方法,包括步骤:
实例分割模块实施步骤:实例分割模块接收传感器采集的包含目标物体的场景RGB图像作为输入;对输入RGB图像中目标物体按实例进行分割为图片块;
位姿估计模块实施步骤:位姿估计模块在训练时先通过对图片块中的目标物体进行单实例重建,以去除遮挡和背景得到完整目标物体为单实例重建过程的训练目标;同时通过单实例重建学习目标物体的特征的提取能力;最后对提取的特征进行6DoF位姿预测。
具体的,位姿估计模块的训练步骤具体包括:
位姿估计模块接收来自目标物体分割模块输出的多通道图片块;利用分块随机采样遮挡算法对多通道图片块进行处理;再将多通道图片块切分形成子图块集合,从子图块集合中按设定比例随机丢弃子图块,再将剩下的子图块作为训练数据送入视觉转换ViT(Vision Transformer)编、解码器模块;ViT编、解码器模块用于提取目标物体的特征;
ViT解码器输出类别向量和图像块编码向量作为提取到目标物体的特征;类别向量输入用于进行位姿预测的多层感知器MLP预测头中,该MLP预测头输出物体目标的6DoF位姿估计结果;图像块编码向量输入用于进行图像重建的MLP预测头中,该MLP预测头输出重建的物体目标;位姿估计模块的训练过程中,ViT编、解码器模块学习目标物体的特征的提取能力,以使得输入至用于位姿预测的MLP预测头的类别向量有利于该MLP预测头输出接近真实的物体目标的6DoF位姿估计结果,以使得输入至用于图像重建的MLP预测头的图像块编码向量有利于该MLP预测头输出重建物体目标接近完整且标准物体目标。
位姿估计模块中2个MLP预测头的具体的训练过程为:
先使用训练数据中的图像块编码向量对用于进行图像重建的MLP预测头进行物体目标重建的训练,在此训练过程中, ViT编、解码器模块学习目标物体的特征的提取能力,以使得输入至用于图像重建的MLP预测头的图像块编码向量有利于该MLP预测头输出重建物体目标接近完整且标准物体目标;
再将训练数据中的类别向量输入用于进行位姿预测的MLP预测头中,将训练数据中的图像块编码向量输入用于进行图像重建的MLP预测头中同时进行位姿预测和物体目标重建的并行训练,进一步提升ViT编、解码器模块学习目标物体的特征的提取能力。
本发明的有益效果是,通过对单个目标物体进行标准化的重建,大大降低场景中光照、传感器色彩偏差和轻微几何畸变对物体位姿估计精确度的影响,使得算法泛化性增强。基于深度神经网络对单个目标物体RGB图像重建并提取特征,直接预测6DoF位姿,极大提升估计算法在面对场景杂乱和对目标物体的高遮挡情况下的鲁棒性和准确率。
附图说明
图1为本发明的位姿估计流程示意图。
图2为目标物体分割模块实施示意图。
图3为位姿估计模块实施示意图。
具体实施方式
以下结合附图和实施例对本发明作进一步说明。本领域普通技术人员所获得的所有基于本发明思想通过常规手段变化得到的其他实施例也应当属于本发明保护的范围。
基于单实例图像重建的物体位姿估计方法,包括以下步骤:
实例分割模块实施步骤:
(1)实例分割模块接收传感器采集的包含目标物体的场景RGB图像作为输入;
(2)实例分割模块对输入RGB图像中目标物体按实例进行分割为图片块;
位姿估计模块实施步骤:
(3)位姿估计模块在训练时先对图片块中的目标物体进行单实例重建,以去除遮挡和背景得到完整目标物体为单实例重建过程的训练目标;同时通过单实例重建学习目标物体的特征的提取能力;
(4)位姿估计模块对提取的特征进行6DoF位姿预测。
实现本实施例方法的系统包括目标物体分割模块和位姿估计模块。目标物体分割模块用于实施步骤(1)和(2)。采用位姿估计模块用于实施步骤(3)和(4)。
目标物体分割模块完成目标物体分割的具体实现方式为,如图2所示:
(1)接收RGB输入图像;
(2)将RGB图像输入至完成训练的实例分割模型MaskRCNN网络。MaskRCNN是一种有效检测目标的同时输出高质量的实例分割算法。MaskRCNN网络输出的分割结果一方面进行图像截取处理,另一方面通过图像掩码弱化算法进行图像掩码弱化处理。分割结果为含有目标物体的掩码mask图像;
具体的,图像截取处理为:将分割结果截取为一个长宽一致的图像块并输出。一个具体实例是将分割结果截取为一个长宽都为224的图像块P;
具体的,图像掩码弱化为:将分割结果划分为小块;再对每个小块中的像素值进行算术平均,如果算术平均值大于设定值,则将小块中所有像素填充为1;如果像素平均值小于等于设定值,则将小块中所有像素填充为0。一个具体实例中,将分割结果的mask图像M划分为16*16的小块;再对每个16*16小块中的像素值进行算术平均,如果算术平均值大于0.5,则将16*16小块中所有像素填充为1;如果像素平均值小于等于0.5,则将16*16小块中所有像素填充为0,最后得到弱化后的图像M';(3)将含有RGB三个通道的图像块P和一个通道的弱化图像M'合并变为四通道的多通道图片块并输出,其数据大小为4*224*224。
ViT解码器输出类别向量和图像块编码向量作为提取到目标物体的特征;类别向量输入用于进行位姿预测的多层感知器MLP预测头中,该MLP预测头输出物体目标的6DoF位姿估计结果;图像块编码向量输入用于进行图像重建的MLP预测头中,该MLP预测头输出重建的物体目标;位姿估计模块的训练过程中,ViT编、解码器模块学习目标物体的特征的提取能力,以使得输入至用于位姿预测的MLP预测头的类别向量有利于该MLP预测头输出接近真实的物体目标的6DoF位姿估计结果,以使得输入至用于图像重建的MLP预测头的图像块编码向量有利于该MLP预测头输出重建物体目标接近完整且标准物体目标。
位姿估计模块基于单实例重建得到物体位姿估计结果,其训练步骤如图3所示:
(1)位姿估计模块接收来自目标物体分割模块输出的多通道图片块;
(2)利用分块随机采样遮挡算法对多通道图片块进行处理;此步骤用于模拟杂乱背景、光照、传感器色彩偏差带来的干扰以及目标物体被部分遮挡造成的影响;
(3)将多通道图片块切分形成子图块集合,从子图块集合中按设定比例随机丢弃子图块,再将剩下的子图块作为训练数据送入ViT编、解码器模块;ViT编、解码器模块用于提取目标物体的特征。一个具体实例中,先将4*224*224的多通道图片块切分为196个16*16的子图块形成的集合,从中按设定比例随机丢弃子图块,训练过程中丢弃子图块用于进一步模拟目标物体被遮挡干扰的情况,再将剩下的子图块S送入ViT编码器模块,ViT编码器模块输出词元T,再将T送入ViT解码器模块,ViT解码器输出类别向量C和图像块编码向量P;类别向量C输入用于进行位姿预测的多层感知器MLP预测头中,训练多层感知器MLP预测头尽可能地输出接近真实的物体目标的6DoF位姿估计;图像块编码向量P输入用于进行图像重建的MLP预测头中进行训练,使得用于进行图像重建的MLP预测头尽量在子图块被丢弃的情况下输出的重建的目标物体能接近完整的标准的物体目标;这里的标准是指在训练数据中作为标签的包含目标物体的图片是经过光照、色彩以及几何形态这些方向的标准校正之后的,以降低场景中光照、传感器色彩偏差和轻微几何畸变对物体位姿估计精确度的影响。
训练数据采用广泛使用的数据集LM(线性化内存多模态LineMOD)。LM数据集包含13个对象,每个对象包含大约1.2k张手动标注的图像。在训练过程中使用了15%的数据集进行训练,其余用于测试。也就是使用每个对象约1.2k张真实数据。此外,为了进一步扩大训练数据进行训练,我们使用了公开可用的合成图像和基于真实渲染PBR的LM数据集。
对2个MLP预测头的具体的训练过程为:先使用训练数据中的图像块编码向量P对用于进行图像重建的MLP预测头进行训练,用于进行图像重建的MLP预测头输出重建的目标物体图像;再将训练数据中的类别向量C输入用于进行位姿预测的MLP预测头中,将训练数据中的图像块编码向量P输入用于进行图像重建的MLP预测头中同时进行并行训练。
训练过程中通过对场景中目标物体进行单实例标准化重建,排除原始图片中杂乱背景和目标物体被部分遮挡对位姿估计的影响,提高了进行位姿预测的MLP预测头的泛化性。
ViT 的操作单位是词元Token,也就是图像先分割成固定大小的图像块Patches,经过图像块嵌入Patch Embedding之后生成的序列信息。每个Token代表图像中的一个局部区域,可以看作是图像的抽象表示。通过将图像分割成Token,并将其输入到转换器Transformer模型中,ViT能够利用自注意力机制来建模图像中的全局关系。在ViT中,图像块Patches被用作生成Token的基本单位。每个图像块由一组像素组成,并通过线性变换映射为Token的向量表示。ViT解码过程中除了图像块编码向量Patch Token之外,还生成一个常用于分类预测的类别向量Class Token。
完成训练的位姿估计模块在实际使用时,接收来自目标物体分割模块输出的多通道图片块后,将多通道图片块直接输入ViT编、解码器模块,再将ViT解码器模块输出的图像块编码向量P输入至完成训练的用于进行位姿预测的MLP预测头中,MLP预测头输出目标物体的6DoF位姿估计。
采用ViT编码器解码器结构按照统一标准重建仅包含单个完整目标物体的图像,以便网络可以在嵌入空间中学习到更好的特征向量。这样就可以排除现场原始图片中由于杂乱背景、光照、传感器色彩偏差带来的干扰,以及由于目标物体被部分遮挡造成的影响,最终提高位姿预测算法的准确率和鲁棒性。

Claims (5)

1.一种基于单实例图像重建的物体位姿估计方法,其特征在于,包括以下步骤:
实例分割模块实施步骤:实例分割模块接收传感器采集的包含目标物体的场景RGB图像作为输入;对输入RGB图像中目标物体按实例进行分割为图片块;
位姿估计模块实施步骤:位姿估计模块在训练时先通过对图片块中的目标物体进行单实例重建,以去除遮挡和背景得到完整目标物体为单实例重建过程的训练目标;同时通过单实例重建学习目标物体的特征的提取能力;最后对提取的特征进行六个自由度6DoF位姿预测;
其中,位姿估计模块的训练步骤具体包括:
位姿估计模块接收来自目标物体分割模块输出的多通道图片块;利用分块随机采样遮挡算法对多通道图片块进行处理;再将多通道图片块切分形成子图块集合,从子图块集合中按设定比例随机丢弃子图块,再将剩下的子图块作为训练数据送入ViT编、解码器模块;ViT编、解码器模块用于提取目标物体的特征;
ViT解码器输出类别向量和图像块编码向量作为提取到目标物体的特征;类别向量输入用于进行位姿预测的多层感知器MLP预测头中,该MLP预测头输出物体目标的6DoF位姿估计结果;图像块编码向量输入用于进行图像重建的MLP预测头中,该MLP预测头输出重建的物体目标;位姿估计模块的训练过程中,ViT编、解码器模块学习目标物体的特征的提取能力,以使得输入至用于位姿预测的MLP预测头的类别向量有利于该MLP预测头输出接近真实的物体目标的6DoF位姿估计结果,以使得输入至用于图像重建的MLP预测头的图像块编码向量有利于该MLP预测头输出重建物体目标接近完整且标准物体目标。
2.如权利要求1所述方法,其特征在于,实例分割具体实现方式为:
接收RGB输入图像;将RGB图像输入至完成训练的实例分割模型MaskRCNN网络;MaskRCNN网络输出含有目标物体的掩码图像作为分割结果,对分割结果一方面进行图像截取,另一方面进行图像掩码弱化;最后将图像截取的图像块与弱化图像一起合并为多通道图片块输出。
3.如权利要求2所述方法,其特征在于,图像截取具体实现方式为:将分割结果截取为一个长宽一致的图像块并输出;
图像掩码弱化具体为:将分割结果划分为小块;再对每个小块中的像素值进行算术平均,如果算术平均值大于设定值,则将小块中所有像素填充为1;如果像素平均值小于等于设定值,则将小块中所有像素填充为0。
4.如权利要求1所述方法,其特征在于,位姿估计模块中2个MLP预测头的具体的训练过程为:
先使用训练数据中的图像块编码向量对用于进行图像重建的MLP预测头进行物体目标重建的训练;
再将训练数据中的类别向量输入用于进行位姿预测的MLP预测头中,将训练数据中的图像块编码向量输入用于进行图像重建的MLP预测头中同时进行位姿预测和物体目标重建的并行训练。
5.如权利要求4所述方法,其特征在于,完成训练的位姿估计模块在实际使用时,接收来自目标物体分割模块输出的多通道图片块后,将多通道图片块直接输入ViT编、解码器模块,再将ViT解码器模块输出的类别向量输入至完成训练的用于进行位姿预测的MLP预测头中,该MLP预测头输出目标物体的6DoF位姿估计。
CN202410048613.6A 2024-01-12 2024-01-12 一种基于单实例图像重建的物体位姿估计方法 Active CN117576217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410048613.6A CN117576217B (zh) 2024-01-12 2024-01-12 一种基于单实例图像重建的物体位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410048613.6A CN117576217B (zh) 2024-01-12 2024-01-12 一种基于单实例图像重建的物体位姿估计方法

Publications (2)

Publication Number Publication Date
CN117576217A CN117576217A (zh) 2024-02-20
CN117576217B true CN117576217B (zh) 2024-03-26

Family

ID=89892037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410048613.6A Active CN117576217B (zh) 2024-01-12 2024-01-12 一种基于单实例图像重建的物体位姿估计方法

Country Status (1)

Country Link
CN (1) CN117576217B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103075998A (zh) * 2012-12-31 2013-05-01 华中科技大学 一种单目空间目标测距测角方法
CN110024407A (zh) * 2016-10-04 2019-07-16 金起佰 图像数据编码/解码方法和装置
CN111667535A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种针对遮挡场景下的六自由度位姿估计方法
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN113393503A (zh) * 2021-05-24 2021-09-14 湖南大学 一种分割驱动形状先验变形的类别级物体6d位姿估计方法
KR20210157887A (ko) * 2020-06-22 2021-12-29 한국전자통신연구원 이머시브 영상 처리 방법 및 이머시브 영상 합성 방법
CN114663502A (zh) * 2020-12-08 2022-06-24 北京三星通信技术研究有限公司 物体姿态估计、图像处理方法及相关设备
CN114863573A (zh) * 2022-07-08 2022-08-05 东南大学 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN115147599A (zh) * 2022-06-06 2022-10-04 浙江大学 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN115210763A (zh) * 2020-02-18 2022-10-18 谷歌有限责任公司 用于包括姿态和大小估计的对象检测的系统和方法
WO2023280082A1 (zh) * 2021-07-07 2023-01-12 (美国)动力艾克斯尔公司 一种手柄inside-out视觉6自由度定位方法及系统
WO2023019685A1 (zh) * 2021-08-17 2023-02-23 上海交通大学 一种图像处理方法、系统、装置及存储介质
CN116311062A (zh) * 2023-03-20 2023-06-23 浙江工业大学 一种高速公路小目标检测方法
CN116310350A (zh) * 2023-05-25 2023-06-23 厦门大学 基于图卷积和半监督学习网络的城市场景语义分割方法
CN116843834A (zh) * 2023-07-03 2023-10-03 中国科学院自动化研究所 一种三维人脸重建及六自由度位姿估计方法、装置及设备
CN116958262A (zh) * 2023-08-04 2023-10-27 同济大学 一种基于单张RGB图像的6dof物体位姿估计方法
CN117351078A (zh) * 2023-09-19 2024-01-05 国网辽宁省电力有限公司葫芦岛供电公司 基于形状先验的目标尺寸与6d姿态估计方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103075998A (zh) * 2012-12-31 2013-05-01 华中科技大学 一种单目空间目标测距测角方法
CN110024407A (zh) * 2016-10-04 2019-07-16 金起佰 图像数据编码/解码方法和装置
CN115210763A (zh) * 2020-02-18 2022-10-18 谷歌有限责任公司 用于包括姿态和大小估计的对象检测的系统和方法
CN111667535A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种针对遮挡场景下的六自由度位姿估计方法
KR20210157887A (ko) * 2020-06-22 2021-12-29 한국전자통신연구원 이머시브 영상 처리 방법 및 이머시브 영상 합성 방법
CN112270249A (zh) * 2020-10-26 2021-01-26 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN114663502A (zh) * 2020-12-08 2022-06-24 北京三星通信技术研究有限公司 物体姿态估计、图像处理方法及相关设备
CN113393503A (zh) * 2021-05-24 2021-09-14 湖南大学 一种分割驱动形状先验变形的类别级物体6d位姿估计方法
WO2023280082A1 (zh) * 2021-07-07 2023-01-12 (美国)动力艾克斯尔公司 一种手柄inside-out视觉6自由度定位方法及系统
WO2023019685A1 (zh) * 2021-08-17 2023-02-23 上海交通大学 一种图像处理方法、系统、装置及存储介质
CN115147599A (zh) * 2022-06-06 2022-10-04 浙江大学 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN114863573A (zh) * 2022-07-08 2022-08-05 东南大学 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN116311062A (zh) * 2023-03-20 2023-06-23 浙江工业大学 一种高速公路小目标检测方法
CN116310350A (zh) * 2023-05-25 2023-06-23 厦门大学 基于图卷积和半监督学习网络的城市场景语义分割方法
CN116843834A (zh) * 2023-07-03 2023-10-03 中国科学院自动化研究所 一种三维人脸重建及六自由度位姿估计方法、装置及设备
CN116958262A (zh) * 2023-08-04 2023-10-27 同济大学 一种基于单张RGB图像的6dof物体位姿估计方法
CN117351078A (zh) * 2023-09-19 2024-01-05 国网辽宁省电力有限公司葫芦岛供电公司 基于形状先验的目标尺寸与6d姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
6DOF pose estimation of transparent object from a single RGB-D image;CHI XU;MDPI;20201127;全文 *
基于单视图的室内场景三维理解;林佩珍;中国优秀硕士论文电子期刊网;20230115;全文 *

Also Published As

Publication number Publication date
CN117576217A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110799991B (zh) 用于使用卷积图像变换执行同时定位和映射的方法和系统
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
US20210350560A1 (en) Depth estimation
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
Mahjourian et al. Geometry-based next frame prediction from monocular video
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111950477A (zh) 一种基于视频监督的单图像三维人脸重建方法
JP2023545190A (ja) 画像の視線補正方法、装置、電子機器、及びコンピュータプログラム
CN113065546A (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN110751097B (zh) 一种半监督的三维点云手势关键点检测方法
CN112200056B (zh) 人脸活体检测方法、装置、电子设备及存储介质
Xu et al. GraspCNN: Real-time grasp detection using a new oriented diameter circle representation
CN102457724B (zh) 一种图像运动检测系统及方法
CN112651423A (zh) 一种智能视觉系统
CN111160291A (zh) 基于深度信息与cnn的人眼检测方法
KR20140074201A (ko) 추적 장치
CN108629782B (zh) 基于地面线索传播的道路目标深度估计方法
CN116092178A (zh) 一种面向移动端的手势识别和跟踪方法及系统
CN102340620A (zh) 基于马氏距离的视频图像背景检测方法
Yang et al. SAM-Net: Semantic probabilistic and attention mechanisms of dynamic objects for self-supervised depth and camera pose estimation in visual odometry applications
CN113128428B (zh) 基于深度图预测的活体检测方法和相关设备
CN117576217B (zh) 一种基于单实例图像重建的物体位姿估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant