CN116958262A - 一种基于单张RGB图像的6dof物体位姿估计方法 - Google Patents
一种基于单张RGB图像的6dof物体位姿估计方法 Download PDFInfo
- Publication number
- CN116958262A CN116958262A CN202310976771.3A CN202310976771A CN116958262A CN 116958262 A CN116958262 A CN 116958262A CN 202310976771 A CN202310976771 A CN 202310976771A CN 116958262 A CN116958262 A CN 116958262A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- rgb image
- map
- network
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000010586 diagram Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000002310 reflectometry Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于单张RGB图像的6dof物体位姿估计方法,属于计算机视觉和计算机图形学技术领域,包括对RGB图像的特征提取、三维点云重建和位姿估计三个步骤。特征提取通过搭建特征提取网络架构实现。三维点云重建是先根据物体具有的各种低层次(几何学、反射率)和高层次(连接性、对称性)的特性,得到物体的中间信息,再进一步生成物体的3D点云模型。位姿估计是使用一个异构网络分别处理RGB数据和点云数据,通过融合网络整合两种数据的特征,从而预测物体的位姿信息。本发明所提出的6dof物体位姿检测方法重点针对数据量小、RGBD数据格式不易获取、无物体3D模型等问题,能够保证目标物体位姿检测的准确性和可泛化性,可以有效应用于现实场景。
Description
技术领域
本发明属于计算机视觉和计算机图形学技术领域,尤其涉及一种基于单张RGB图像的6dof物体位姿估计方法。
背景技术
随着人工智能和机器视觉技术的发展,物体位姿估计的研究得到了国内外的广泛关注,可以应用于机器人抓取、自动驾驶、增强现实、数字孪生等多个方面,旨在估计出物体相对于规定标准框架的旋转和平移。
对于物体位姿估计,常见的方法有基于模板匹配的方法、基于点的方法、基于描述子的方法,例如,基于模板匹配的方法是从分布在物体的3D模型周围的球体上的不同视点渲染合成图像块,并将其存储为模板数据库。然后,使用该模板数据库以滑动窗口的方式顺序搜索输入图像。其中,基于模板匹配的方法代表有LineMOD,该方法已经提出了针对色彩、深度和RGB-D图像的高效且鲁棒的位姿检测策略,还提供了带有标记姿势的第一个数据集。该数据集仍用作物体检测和姿态估计的基准数据集。模板匹配方法的另一种替代方法是采用随机森林的学习方法。这些方法大多都依赖于物体的RGB-D信息或者3D模型,但是一般的移动电话和电脑摄像头都无法提供带有深度信息的图像,而物体的带纹理3D模型更难以获取。除此之外,其他仅依赖RGB图像输入的方法所需要的数据量过大、拍摄视角要求过多,也不便于获取。可通用性和简单输入一直是物体位姿估计研究领域的追求目标,可通用性是指姿势估计器可以应用于任意物体,而无需对该物体或其类别进行训练。当估计物体位姿时,如果只将单张RGB图像作为估计器的输入,而不需要额外的物体掩码、深度图或3D模型,可以充分满足输入简单的要求。
然而,从单张RGB图像重建物体3D点云模型和位姿估计一直是计算机视觉和计算机图形学领域长期存在并受到广泛关注的研究难题。
发明内容
本发明的目的在于提供一种基于单张RGB图像的6dof物体位姿估计方法,其特征在于,包括如下步骤:
S1:搭建特征提取网络架构对RGB图像进行特征提取,并将RGB图像恢复为不含有背景颜色、纹理和光照信息的过渡图像,过渡图像包括物体的轮廓图、深度图和表面法线图;
S2:将完整的物体设定为由多个几何基元组成,通过结构感知网络模块学习预测每个部件的几何形状和各个部件之间的排列关系,得到预测的层次结构图,将层次结构图与S1中物体的轮廓图、深度图和表面法线图合并为四通道图像,通过四通道图像训练3D形状估计器,进而完成三维点云的重建;
S3:使用异构网络模型分别对RGB数据和S2中得到的点云数据进行特征提取,从提取的特征中的两类特征最为融合网络模型的输入,从而输出目标物体的三维边界框,完成物体的6dof位姿检测。
进一步地,S1中,特征提取网络具体为:基于ResNet-18网络模型的特征提取器的第一编码器;特征提取具体为:将RGB图像输入第一编码器中,通过卷操作和残差块输入完成特征的降采样,输出特征图。
进一步地,S1中,过渡图像通过第一解码器对特征图解码实现,具体表现为:将特征图输入第一解码器,第一解码器通过四组5×5的转置卷积操作和ReLU层将特征图转化为轮廓图、深度图和表面法线图。
进一步地,S2中,得到预测的层次结构图具体包括如下步骤:
S21:分割网络递归地将形状表征分割成各部分的表征;
S22:结构感知网络侧重于学习基元的分层排列的结构网络,即将物体的各个部分分配给每个深度层次的基元层次的基元;
S23:恢复基元参数的几何网络,得到预测的层次结构图。
进一步地,S2中,3D形状估计器的编码器为基于ResNet-34实现的网络模型,3D形状估计器的编码器通过加深网络的层数,从而实现相对于第一编码器更好地特征提取效果,通过训练3D形状估计器完成三维点云的重建具体包括如下步骤:
S24:将尺寸大小为[256,256,4]的四通道图像输入3D形状估计器的编码器中,并进行一次卷积操作,然后输出尺寸为[128,128,64]的特征图;
S25:输入残差块,对特征图进行平均池化操作并使用全连接层将特征图映射至512维特征空间上,得到特征向量Zs,从而完成全局特征提取;
S26:使用点云生成器的编码器提取的图像物体对应真值点云的特征向量Zp作为先验知识,通过计算ZsH和Zp的差值训练3D形状估计器的编码器,训练过程在ShapeNetCore数据集上完成;
S27:当3D形状估计器的编码器训练完成后,通过点云生成器的解码器将目标物体的特征向量Zs*解码为分辨率为2048个点的三维云点,完成从单张图像到三维点云的重建。
进一步地,练3D形状估计器的编码器和解码器的损失函数表示为:
损失函数中,Xgt∈N×3,为点云地面真值;Xpred∈N×3,为重构点云。
进一步地,S3中,通过ResNet网络模型对RGB图像进行视觉特征提取,使用PointNet网络模型对S2中生成的点云数据进行特征提取,两类特征为全局特征和单点特征。
进一步地,通过删除PointNet网络结构所有的batch normalization层,达到提高边界框的预测精度。
进一步地,S3具体为:融合网络模型为密集融合网络模型,密集融合网络模型将输入的三维点作为密集的空间定位点,并为每个输入的三维点预测从该三维点到附近边界框角点位置的空间偏移,密度融合网络模型通过多层处理联合输入,预测一个3D边界框以及每个三维点的得分,具有最高分的预测为最终预测。
进一步地,密集融合网络模型的损失函数表示为:
密集融合网络模型的损失函数中,N为输入点云点的数量;为真值三维框角点与第i个输入点间的偏移量;/>代表预测的偏移量;Lscore为得分损失函数;Lstn是引入的空间变换正则化损失。
与现有技术相比,本发明的有益效果主要体现在:
1、本发明提出了一种层级网络架构进行三维点云重建,不直接通过单张RGB图像完成三维点云重建任务,而是依赖从图像中提取的中间信息,其中包括物体的轮廓图、深度图、表面法线图,逐步恢复物体的3D形状,去除了点云重建不需要的背景、颜色、纹理信息,减轻了域转移的负担,提高了点云生成质量。
2、本发明提出了一种结构感知的表示方法,它考虑了物体的高层次信息,包括连接性、对称性,基于部件的分解和部件间的关系,联合采用基元的形式对对象物体进行建模,即几何上复杂的物体用更多的基元建模,而简单的物体则用更少的基元建模,使得3D重建具有可解释性。
3、提出了一个异构网络分别对RGB数据和点云数据进行特征提取,然后对两类特征进行融合并进一步抽象,最后将3D点云视为空间定位点并进行密集预测以得到物体的3D轮廓框,完成物体的6dof位姿检测。
附图说明
图1为本发明实施例的输入图、中间结果图和最终结果图的示意图。
图2为本发明基于单张RGB图像的6dof物体位姿估计方法的工作流程示意图。
图3为本发明的网络模型结构图。
具体实施方式
下面将结合示意图对本发明一种基于单张RGB图像的6dof物体位姿估计方法进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果,因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。
如图1-3所示,一种基于单张RGB图像的6dof物体位姿估计方法,包括如下步骤:
S1:首先使用的特征提取器的编码器是基于ResNet-18的网络模型,首先将RGB图像调整大小后输入到编码器E1中,进行一次卷积操作,输出尺寸为[128,128,64]的特征图。然后经过一系列残差块对输入的特征图进行操作,逐渐将输入的特征尺寸减半,完成对特征的降采样,以达到减小计算量的目的,并逐渐将通道数加倍,最终输出大小为[8,8,512]的特征图。解码器D1将输出的[8,8,512]的特征图通过四组5×5的转置卷积操作和ReLU层,将特征图转化为大小为256×256的轮廓图、深度图和表面法线图。在生成轮廓图、深度图和表面法线图后,使用轮廓图来掩盖深度图和表面法线图以确定需要三维重建的对象的精确位置,能够得到更高质量的三维重建点云。
S2:接着构建一个层级结构预测网络,该网络主要由三个部分组成:(i)分割网络递归地将形状表征分割成各部分的表征,(ii)结构网络侧重于学习基元的分层排列的结构网络,即把物体的各个部分分配给每个深度层次的基元层次的基元,以及(iii)恢复基元参数的几何网络,最终得到预测的层级结构图。将处理后的表面法线图、深度图与层级结构图合并为四通道图像,训练3D形状估计器,来完成三维点云的重建。3D形状估计器的编码器E2是基于ResNet-34来实现的网络模型,与步骤S1中的编码器E1类似,加深了网络的层数,以达到更好的特征提取效果。首先,将输入的大小为[256,256,4]的图像进行一次卷积操作,输出尺寸为[128,128,64]的特征图。接着经过与步骤S1中类似的一系列残差块,将特征图进行平均池化操作并使用全连接层将其映射到512维特征空间上,得到特征向量,完成全局特征提取。
得到特征向量Zs后,使用点云生成器中编码器E3提取的图像物体对应真值点云的特征向量Zp作为先验知识,计算Zs与Zp的差值以训练3D形状估计器的编码器E1。该过程在ShapeNetCore数据集上训练完成。当编码器E1训练完成后,使用点云生成器中的解码器D3将目标物体的特征向量Zs*解码为分辨率为2048个点的三维点云。至此网络模型通过三组编码器与解码器,以轮廓图、深度图、表面法线图、层次结构图为中介,通过学习强先验知识的方式完成了从单张图像到三维点云的重建。具体来说,训练点云编码器和解码器的损失函数为:
公式中,Xgt∈N×3为点云地面真值,Xpred∈N×3为重构点云。
S3:使用ResNet网络模型对RGB图像进行视觉特征提取,使用PointNet网络模型对步骤S2中生成的点云数据进行特征提取,包括全局特征和单点特征。其中,对PointNet网络结构进行了一些修改,去掉了所有的batchnormalization层,目的是提高边界框的预测精度。融合网络采用的是一种密集融合网络,使用CNN提取的图像特征和PointNet子网络产生的相应点云特征作为输入,它的工作是结合这些特征并输出目标物体的三维边界框。该密集融合网络模型的主要思想是把输入的三维点作为密集的空间定位点,不直接回归三维边界框角点的绝对位置,而是为每个输入的三维点预测从该点到附近三维边界框角点位置的空间偏移。密集融合网络使用若干层来处理联合输入,预测一个3D边界框,以及每个点的得分。在测试时,具有最高分数的预测被选为最终预测。具体来说,密集融合网络的损失函数是:
公式中,N为输入点云点的数量、为真值三维框角点与第i个输入点间的偏移量、/>代表预测的偏移量、Lscore为得分损失函数、Lstn是引入的空间变换正则化损失。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。
Claims (10)
1.一种基于单张RGB图像的6dof物体位姿估计方法,其特征在于,包括如下步骤:
S1:搭建特征提取网络架构对RGB图像进行特征提取,并将所述RGB图像恢复为不含有背景颜色、纹理和光照信息的过渡图像,所述过渡图像包括物体的轮廓图、深度图和表面法线图;
S2:将完整的物体设定为由多个几何基元组成,通过结构感知网络模块学习预测每个部件的几何形状和各个部件之间的排列关系,得到预测的层次结构图,将所述层次结构图与所述S1中物体的轮廓图、深度图和表面法线图合并为四通道图像,通过所述四通道图像训练3D形状估计器,进而完成三维点云的重建;
S3:使用异构网络模型分别对RGB数据和S2中得到的点云数据进行特征提取,从提取的特征中的两类特征最为融合网络模型的输入,从而输出目标物体的三维边界框,完成物体的6dof位姿检测。
2.根据权利要求1所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述S1中,所述特征提取网络具体为:基于ResNet-18网络模型的特征提取器的第一编码器;特征提取具体为:将RGB图像输入所述第一编码器中,通过卷操作和残差块输入完成特征的降采样,输出特征图。
3.根据权利要求1所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述S1中,所述过渡图像通过第一解码器对所述特征图解码实现,具体表现为:将所述特征图输入第一解码器,所述第一解码器通过四组5×5的转置卷积操作和ReLU层将所述特征图转化为所述轮廓图、深度图和表面法线图。
4.根据权利要求1所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述S2中,得到预测的层次结构图具体包括如下步骤:
S21:分割网络递归地将形状表征分割成各部分的表征;
S22:结构感知网络侧重于学习基元的分层排列的结构网络,即将物体的各个部分分配给每个深度层次的基元层次的基元;
S23:恢复基元参数的几何网络,得到预测的层次结构图。
5.根据权利要求1所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述S2中,所述3D形状估计器的编码器为基于ResNet-34实现的网络模型,所述3D形状估计器的编码器通过加深网络的层数,从而实现相对于第一编码器更好的特征提取效果,通过训练所述3D形状估计器完成三维点云的重建具体包括如下步骤:
S24:将尺寸大小为[256,256,4]的四通道图像输入所述3D形状估计器的编码器中,并进行一次卷积操作,然后输出尺寸为[128,128,64]的特征图;
S25:输入残差块,对特征图进行平均池化操作并使用全连接层将特征图映射至512维特征空间上,得到特征向量Zs,从而完成全局特征提取;
S26:使用点云生成器的编码器提取的图像物体对应真值点云的特征向量Zp作为先验知识,通过计算ZsH和Zp的差值训练3D形状估计器的编码器,训练过程在ShapeNetCore数据集上完成;
S27:当3D形状估计器的编码器训练完成后,通过点云生成器的解码器将目标物体的特征向量Zs*解码为分辨率为2048个点的三维云点,完成从单张图像到三维点云的重建。
6.根据权利要求5所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,训练3D形状估计器的编码器和解码器的损失函数表示为:
所述损失函数中,Xgt∈N×3,为点云地面真值;Xpred∈N×3,为重构点云。
7.根据权利要求1所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述S3中,通过ResNet网络模型对RGB图像进行视觉特征提取,使用PointNet网络模型对S2中生成的点云数据进行特征提取,所述两类特征为全局特征和单点特征。
8.根据权利要求7所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,通过删除所述PointNet网络结构所有的batchnormalization层,达到提高边界框的预测精度。
9.根据权利要求7所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述S3具体为:所述融合网络模型为密集融合网络模型,所述密集融合网络模型将输入的三维点作为密集的空间定位点,并为每个输入的三维点预测从该三维点到附近边界框角点位置的空间偏移,所述密度融合网络模型通过多层处理联合输入,预测一个3D边界框以及每个三维点的得分,具有最高分的预测为最终预测。
10.根据权利要求9所述的基于单张RGB图像的6dof物体位姿估计方法,其特征在于,所述密集融合网络模型的损失函数表示为:
所述密集融合网络模型的损失函数中,N为输入点云点的数量;为真值三维框角点与第i个输入点间的偏移量;/>代表预测的偏移量;Lscore为得分损失函数;Lstn是引入的空间变换正则化损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976771.3A CN116958262A (zh) | 2023-08-04 | 2023-08-04 | 一种基于单张RGB图像的6dof物体位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976771.3A CN116958262A (zh) | 2023-08-04 | 2023-08-04 | 一种基于单张RGB图像的6dof物体位姿估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958262A true CN116958262A (zh) | 2023-10-27 |
Family
ID=88458256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976771.3A Pending CN116958262A (zh) | 2023-08-04 | 2023-08-04 | 一种基于单张RGB图像的6dof物体位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958262A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152231A (zh) * | 2023-10-31 | 2023-12-01 | 中国农业大学 | 预设类别目标的三维形状估计方法、装置及电子设备 |
CN117576217A (zh) * | 2024-01-12 | 2024-02-20 | 电子科技大学 | 一种基于单实例图像重建的物体位姿估计方法 |
-
2023
- 2023-08-04 CN CN202310976771.3A patent/CN116958262A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152231A (zh) * | 2023-10-31 | 2023-12-01 | 中国农业大学 | 预设类别目标的三维形状估计方法、装置及电子设备 |
CN117152231B (zh) * | 2023-10-31 | 2024-01-26 | 中国农业大学 | 预设类别目标的三维形状估计方法、装置及电子设备 |
CN117576217A (zh) * | 2024-01-12 | 2024-02-20 | 电子科技大学 | 一种基于单实例图像重建的物体位姿估计方法 |
CN117576217B (zh) * | 2024-01-12 | 2024-03-26 | 电子科技大学 | 一种基于单实例图像重建的物体位姿估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN116958262A (zh) | 一种基于单张RGB图像的6dof物体位姿估计方法 | |
CN111899328B (zh) | 一种基于rgb数据与生成对抗网络的点云三维重建方法 | |
CN111105382B (zh) | 视频修复方法 | |
EP2595116A1 (en) | Method for generating depth maps for converting moving 2d images to 3d | |
CN113034563A (zh) | 基于特征共享的自监督式单目深度估计方法 | |
CN115239870A (zh) | 基于注意力代价体金字塔的多视图立体网络三维重建方法 | |
CN112927348B (zh) | 一种基于多视点rgbd相机高分辨率人体三维重建方法 | |
CN112489198A (zh) | 一种基于对抗学习的三维重建系统及其方法 | |
CN112288788A (zh) | 单目图像深度估计方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN117994480A (zh) | 一种轻量化手部重建与驱动的方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN116935486A (zh) | 基于骨骼关节点和图像模态融合的手语识别方法及系统 | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
CN117523100A (zh) | 基于神经网络与多视图一致性的三维场景重建方法和装置 | |
CN113920270B (zh) | 一种基于多视角全景的布局重建方法及其系统 | |
CN117934308A (zh) | 一种基于图卷积网络的轻量化自监督单目深度估计方法 | |
CN112308893B (zh) | 一种基于迭代搜索策略的单目深度估计方法 | |
CN111860668B (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
CN116878524A (zh) | 一种基于金字塔l-k光流与多视角几何约束的动态slam稠密地图构建方法 | |
An et al. | Object segmentation using stereo images | |
Tang et al. | An unsupervised monocular image depth prediction algorithm based on multiple loss deep learning | |
CN113763536A (zh) | 一种基于rgb图像的三维重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |