CN115965758A - 一种图协同单目实例三维重建方法 - Google Patents

一种图协同单目实例三维重建方法 Download PDF

Info

Publication number
CN115965758A
CN115965758A CN202211697417.9A CN202211697417A CN115965758A CN 115965758 A CN115965758 A CN 115965758A CN 202211697417 A CN202211697417 A CN 202211697417A CN 115965758 A CN115965758 A CN 115965758A
Authority
CN
China
Prior art keywords
dimensional
image
graph
frame
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211697417.9A
Other languages
English (en)
Other versions
CN115965758B (zh
Inventor
曹东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Dongru Technology Co ltd
Original Assignee
Wuxi Dongru Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Dongru Technology Co ltd filed Critical Wuxi Dongru Technology Co ltd
Priority to CN202211697417.9A priority Critical patent/CN115965758B/zh
Publication of CN115965758A publication Critical patent/CN115965758A/zh
Application granted granted Critical
Publication of CN115965758B publication Critical patent/CN115965758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种图协同单目实例三维重建方法,首先构建一个由多个二维图像序列组成的图像数据集作为训练集,然后从单个图像推断场景几何,以递归学习方式使用图像条件神经辐射场进行模型训练;接着构建神经表征映射场进行序列间映射场泛化,提取给定序列第一帧目标物体实例的像素语义特征量,预测像素点密度和颜色;之后根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子,合成和更新深度视图,根据像素的图协同因子构建图协同群组;最后采用图协同群组方法实现单目二维图像到三维的重建。本发明实现实时在线三维模型重建,使得在智能制造生产场景中,加工件的三维重建与操控实时性需求的问题得到有效解决。

Description

一种图协同单目实例三维重建方法
技术领域
本发明涉及一种基于图组合的单目实例三维重建方法,属于计算机视觉的实例物体三维重建技术领域。
背景技术
在智能制造领域,有大量生产场景需要对目标对象的加工件进行三维模型重建,以用于机器人后续的智能操控和生产,比如智能抓取、路径规划、智能打磨和安装等等。
基于扫描的三维重建设备精度高,但是价格却非常昂贵。同时现有三维模型重建方法存在诸多难点,比如:双目多线激光的误匹配点难以剔除,双目视差受到环境光的干扰影响比较大。空间编码的结构光方法只需一对图像就可以三维重建,但是易受光照等因素导致编码信息缺失且精度较低。基于单目加工件二维图像的三维重建通常仍需要几何监督。最新神经辐射场单视图方法输入时通常需要加工件额外的几何结构信息,且对复杂场景的监督学习代价昂贵。
发明内容
本发明所要解决的技术问题是:在智能制造生产场景加工件的三维模型重建过程中,解决单目单视图二维图像输入产生的新视图与深度合成中的遮挡问题、对于加工件额外的几何结构信息的依赖问题,以及其他算法对算力的巨大需求而导致的建模时延的问题。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种图协同单目实例三维重建方法,包括如下步骤:
S1、构建一个由多个二维图像序列组成的图像数据集,作为训练集;
S2、以图像序列中的每个序列第一帧作为输入条件,计算图像中目标物体实例的神经表征,神经表征在所有序列之间共享,并由其他帧进行递归学习优化;
S3、在神经表征基础上,构建神经表征映射场进行序列间映射场泛化;
S4、提取给定序列第一帧目标物体实例的像素语义特征量,预测输入帧中的像素点密度和颜色;
S5、根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子,合成和更新深度视图;
S6、根据像素的图协同因子构建图协同群组;
S7、在更新的深度视图基础上,采用图协同群组方法实现单目二维图像到三维的重建。
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S1中,该训练集由
Figure BDA00040227914700000219
个二维图像序列组成的,每个图像序列包含m幅RGB图像及其对应的相机位姿,表示为:
Figure BDA0004022791470000021
其中,
Figure BDA0004022791470000022
Figure BDA0004022791470000023
代表第u个图像序列的第v帧图像,
Figure BDA0004022791470000024
表示该图像摄制过程中对应的相机位姿。
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S2中,训练集
Figure BDA0004022791470000025
个图像序列中的每个序列第一帧
Figure BDA0004022791470000026
作为输入条件,计算图像中目标物体实例的神经表征,神经表征在
Figure BDA00040227914700000220
个序列之间共享,并由其他帧进行递归学习优化,其他帧表示形式为:
Figure BDA0004022791470000027
其中,
Figure BDA0004022791470000028
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S3中,构建神经表征映射场
Figure BDA0004022791470000029
其中ξ表示像素点密度,Hue代表RGB颜色。
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S4具体包括:
S401、在序列间映射场泛化基础上,给定序列的第一帧
Figure BDA00040227914700000210
使用残差网络ResNeXt提取目标物体实例的像素语义特征量
Figure BDA00040227914700000211
Figure BDA00040227914700000212
S402、接着选择其他帧中的每行抽取一帧
Figure BDA00040227914700000213
其中
Figure BDA00040227914700000214
共抽取
Figure BDA00040227914700000215
帧,对抽取的每帧均匀选择
Figure BDA00040227914700000216
个像素,结合相机位姿
Figure BDA00040227914700000217
沿着穿过这些像素的视野可达区域进行视线采样
Figure BDA00040227914700000218
个点;
S403、将每个采样三维点
Figure BDA0004022791470000031
投影到的图像条件神经辐射场球体上,形成图像特征向量
Figure BDA0004022791470000032
其中,
Figure BDA0004022791470000033
Figure BDA0004022791470000034
Figure BDA0004022791470000035
代表特征向量提取器,输入到神经表征映射场
Figure BDA0004022791470000036
得到形式为
Figure BDA0004022791470000037
其中
Figure BDA0004022791470000038
代表辐射场观察方向;
S404、预测输入帧中的像素点密度ξ和RGB颜色Hue。
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S5具体包括:
S501、根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子
Figure BDA0004022791470000039
其中
Figure BDA00040227914700000310
对应
Figure BDA00040227914700000311
个采样点,αt∈(0,1)是对应采样点的超参数,ξt表示第i个采样点像素点密度,函数sigmod(x)=1/(1+exp(-x)),dt是上述
Figure BDA00040227914700000312
个采样点的第t个点到采样位置的距离,
Figure BDA00040227914700000313
S502、在源图像
Figure BDA00040227914700000314
和它的前一帧
Figure BDA00040227914700000315
之间选择连续帧以最优联合信息熵,构建重建投影损失函数
Figure BDA00040227914700000316
表示为:
Figure BDA00040227914700000317
其中
Figure BDA00040227914700000318
表示每帧中均匀选择的
Figure BDA00040227914700000319
个像素,
Figure BDA00040227914700000320
表示其中第
Figure BDA00040227914700000321
个像素在该帧色彩度量上的分布概率,||·||表示2-范数,
Figure BDA00040227914700000322
表示根据相机位姿信息进行2d投影算子;
S503、将步骤S502中所述损失函数用于训练并计算得到图协同因子,进而合成和更新深度视图。
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S6具体包括:
步骤S601、根据图协同因子构建图协同群组:由于一个三维点
Figure BDA00040227914700000323
与图协同因子
Figure BDA00040227914700000324
中的多个二维像素特征点
Figure BDA00040227914700000325
相关联,进行聚合操作来更新三维特征描述算子
Figure BDA00040227914700000326
通过对相应的二维描述算子进行平均初始化;图协同映射操作时,保留
Figure BDA00040227914700000327
中最大信息量的二维特征,以便根据当前帧
Figure BDA00040227914700000328
实现下一帧
Figure BDA00040227914700000329
的二维到三维映射;
步骤S602、构造图协同单目架构实现实例的三维重建,对每个单独的
Figure BDA0004022791470000041
进行操作,对于每个
Figure BDA0004022791470000042
权重矩阵表示为
Figure BDA0004022791470000043
图协同算子定义为:
Figure BDA0004022791470000044
Figure BDA0004022791470000045
其中
Figure BDA0004022791470000046
计算注意力系数,用于计量描述算子在聚合操作中的重要性;
步骤603、使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子;一组由图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组表示为:
Figure BDA0004022791470000047
Figure BDA0004022791470000048
表示图协同算子、
Figure BDA0004022791470000049
表示注意协同算子,
Figure BDA00040227914700000410
表示交叉协同算子。
进一步的,本发明所提出的一种图协同单目实例三维重建方法,步骤S7具体包括:
步骤701、设图协同网络架构是由N个堆叠的图协同群组组成,根据
Figure BDA00040227914700000411
Figure BDA00040227914700000412
的相关性,图协同网络会自适应地关注图协同因子
Figure BDA00040227914700000413
中不同的二维像素特征点
Figure BDA00040227914700000414
从而为二维到三维映射保留更多的区分性信息,通过将聚合注意力层与自我注意力层和交叉注意力层交织在一起,使得
Figure BDA00040227914700000415
互相交换信息;
步骤702、匹配选择和位姿计算,计算相机位姿匹配置信度得分
Figure BDA00040227914700000416
如下:
Figure BDA00040227914700000417
Figure BDA00040227914700000418
代表了二维到三维映射的预测,其中函数sigmod(x)=1/(1+exp(-x)),物体在相机坐标中的姿态通过透视点算法计算得到;
步骤703、在相机位姿匹配置信度得分
Figure BDA00040227914700000419
基础上合成和更新的深度视图,结合图协同群组
Figure BDA00040227914700000420
表构建:
Figure BDA00040227914700000421
其中
Figure BDA0004022791470000051
表示叉积运算,实现基于位姿匹配置信度的自动匹配图协同群组因子。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明基于图协同群组算法显著节约了算力消耗,实现实时在线三维模型重建。使得在智能制造生产场景中,加工件的三维重建与操控实时性需求的问题得到有效解决。
附图说明
图1是本发明的方法总体步骤示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明提出一种图协同单目实例三维重建方法,构建一个由多个二维图像序列组成的图像数据集作为训练集,图协同单目方法学习从单个单目RGB图像推断场景几何,以递归学习方式使用图像条件神经辐射场进行模型训练。在神经表征基础上,构建神经表征映射场进行序列间映射场泛化。提取给定序列第一帧目标物体实例的像素语义特征量,预测像素点密度和颜色。根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子,合成和更新深度视图。根据像素的图协同因子构建图协同群组。在更新的深度视图基础上,采用图协同群组方法实现单目二维图像到三维的重建。
如图1所示,本发明所提出的方法实施步骤如下:
步骤1:构建一个图像数据集作为训练集,该训练集由
Figure BDA0004022791470000056
个二维图像序列组成的,每个图像序列包含m幅RGB图像及其对应的相机位姿(三维空间自由度和三个转动自由度),表示为
Figure BDA0004022791470000052
其中
Figure BDA0004022791470000053
表示RGB二维图像,
Figure BDA0004022791470000054
表示该图像摄制过程中对应的相机位姿。
步骤2:从单个单目RGB图像
Figure BDA0004022791470000055
推断场景几何,以递归学习方式使用图像条件神经辐射场进行模型训练。训练集
Figure BDA0004022791470000061
个图像序列中的每个序列第一帧
Figure BDA0004022791470000062
作为输入条件,计算图像中目标物体实例的神经表征。神经表征在
Figure BDA0004022791470000063
个序列之间共享,并由其他帧进行递归学习优化,其他帧表示形式为:
Figure BDA0004022791470000064
步骤3:在神经表征基础上,构建神经表征映射场
Figure BDA0004022791470000065
其中ξ表示像素点密度,Hue代表RGB颜色,进行序列间映射场泛化。
步骤4:在序列间映射场泛化基础上,给定序列的第一帧
Figure BDA0004022791470000066
我们使用ResNeXt提取目标物体实例的像素语义特征量
Figure BDA0004022791470000067
其中ResNeXt是残差网络的增强版,其网络结构通过多层具有相同拓扑结构的模块叠加构成。接着选择
Figure BDA0004022791470000068
中的每行抽取一帧(共计
Figure BDA00040227914700000624
帧),并且对抽取的每帧均匀选择
Figure BDA0004022791470000069
个像素,结合相机位姿
Figure BDA00040227914700000610
沿着穿过这些像素的视野可达区域进行视线采样
Figure BDA00040227914700000611
个点。然后将每个采样三维点
Figure BDA00040227914700000612
Figure BDA00040227914700000613
投影到的图像条件神经辐射场球体上,形成图像特征向量
Figure BDA00040227914700000614
Figure BDA00040227914700000615
其中
Figure BDA00040227914700000616
代表特征向量提取器,输入到神经表征映射场
Figure BDA00040227914700000617
得到形式为
Figure BDA00040227914700000618
其中
Figure BDA00040227914700000619
代表辐射场观察方向。预测输入帧中的像素点密度ξ和RGB颜色Hue。
步骤5:根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子
Figure BDA00040227914700000620
其中
Figure BDA00040227914700000621
对应
Figure BDA00040227914700000622
个采样点,αt∈(0,1)是对应采样点的超参数,ξt表示第i个采样点像素点密度,函数sigmod(x)=1/(1+exp(-x)),dt是上述
Figure BDA00040227914700000623
个采样点的第t个点到采样位置(即
Figure BDA0004022791470000071
)的距离。在源图像
Figure BDA0004022791470000072
和它的前一帧
Figure BDA0004022791470000073
(称为目标)之间选择连续帧以最优联合信息熵,构建重建投影损失函数
Figure BDA0004022791470000074
表示为:
Figure BDA0004022791470000075
其中
Figure BDA0004022791470000076
表示每帧中均匀选择的
Figure BDA0004022791470000077
个像素,
Figure BDA0004022791470000078
表示其中第个
Figure BDA0004022791470000079
像素在该帧色彩度量上的分布概率,||·||表示2-范数,
Figure BDA00040227914700000710
表示根据相机位姿信息进行2d投影算子。上述损失函数用于训练并计算得到图协同因子,进而合成和更新深度视图。
步骤6:根据上述步骤获得的图协同因子构建图协同群组。
步骤7:在合成和更新的深度视图基础上,采用上述步骤构建的图协同群组方法实现单目二维图像到三维的重建。
作为本发明的一个具体实施例,上述总体步骤6具体如下:
步骤一、根据图协同因子构建图协同群组。直接的二维到三维映射需要三维特征描述算子,由于一个三维点
Figure BDA00040227914700000711
Figure BDA00040227914700000712
中的多个二维像素特征点
Figure BDA00040227914700000713
相关联(其中
Figure BDA00040227914700000714
是图协同因子,
Figure BDA00040227914700000715
是指第u个图像序列,第v帧图像),因此需要进行聚合操作来更新三维特征描述算子,定义为
Figure BDA00040227914700000716
它是通过对相应的二维描述算子进行平均初始化。由于是多对一映射,图协同映射操作会造成信息损失。算法保留
Figure BDA00040227914700000717
中最大信息量的二维特征,以便根据当前帧
Figure BDA00040227914700000718
实现下一帧
Figure BDA00040227914700000719
的二维到三维映射。
步骤二、构造图协同单目架构实现实例的三维重建,对每个单独的
Figure BDA00040227914700000720
进行操作。对于每个
Figure BDA00040227914700000721
权重矩阵表示为
Figure BDA00040227914700000722
图协同算子定义为:
Figure BDA00040227914700000723
Figure BDA00040227914700000724
其中
Figure BDA00040227914700000725
计算注意力系数,计量描述算子在聚合操作中的重要性。
步骤三、在图协同算子之后进一步使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子。一组图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组
Figure BDA00040227914700000726
表示为:
Figure BDA00040227914700000727
Figure BDA0004022791470000081
Figure BDA0004022791470000082
作为本发明的一个具体实施例,上述总体步骤7具体如下:
步骤一、所提出的图协同网络架构是由N个堆叠的图协同群组组成。根据
Figure BDA0004022791470000083
Figure BDA0004022791470000084
的相关性,图协同网络会自适应地关注
Figure BDA0004022791470000085
中不同的
Figure BDA0004022791470000086
从而为二维到三维映射保留更多的区分性信息。通过将聚合注意力层与自我注意力层和交叉注意力层交织在一起,
Figure BDA0004022791470000087
可以互相交换信息,从而使匹配算法具有全局性和上下文依耐性。
步骤二、匹配选择和位姿计算,计算相机位姿匹配置信度得分
Figure BDA0004022791470000088
如下:
Figure BDA0004022791470000089
代表了二维到三维映射的预测,其中函数sigmod(x)=1/(1+exp(-x)),物体在相机坐标中的姿态通过透视点算法计算得到。
步骤三、在相机位姿匹配置信度得分
Figure BDA00040227914700000810
基础上合成和更新的深度视图,结合图协同群组
Figure BDA00040227914700000811
表构建
Figure BDA00040227914700000812
(其中
Figure BDA00040227914700000813
表示叉积运算,实现基于位姿匹配置信度的自动匹配图协同群组因子),实现了单目二维图像到三维的重建。
本发明提出的创新算法,除了不使用CAD模型或额外的网络训练外,OnePose的单次拍摄设置与现有的实例或类别级姿态估计方法相比有很多优势。
在映射阶段,OnePose将物体的简单视频扫描作为输入,并建立物体几何形状的特定实例三维表示。与CAD模型在实例级方法中的作用类似,物体的三维几何形状对于恢复具有度量尺度的物体姿势至关重要。
在定位阶段,OnePose中学习到的局部特征匹配可以处理视角、光照和尺度的巨大变化,使该系统与类别级方法相比更加稳定和稳健。基于局部特征的管道还允许姿势估计模块与基于特征的跟踪模块自然耦合,以实现高效和稳定的姿势跟踪。
本发明所提出的基于图协同单目架构实现的实例三维重建,相比于现有其他同类方法,显著节约了算力消耗,实现了在线实时的三维重建。
图协同单目模块只接受稀疏的关键帧图像作为输入。为了智能制造生产场景中获得稳定的物体三维模型,本发明为图协同单目架构配备了基于特征的图协同群组,该群组处理测试序列中的每一帧,在线重建三维模型并维护其自身的关键帧池。在每个时间点,跟踪采用紧密耦合的方法,依靠预先建立的图协同因子和在线建立的三维映射来寻找二维三维对应关系并解决六维位姿估计问题。
由于图协同模块在线构建的三维映射中保留了测试序列的二维和三维信息,本发明比现有其他SOTA方法更加稳定(见下表,基于我们构建的智能制造生产场景加工件三维模型重建数据集)。图协同模块有助于在线三维重建失效时进行重载初始化,显著提升了算法鲁棒性。
交并比 准确率 召回率
LMSCNet 17.29 18.28 68.21
3DSketch 17.32 17.75 66.93
AICNet 16.87 16.82 75.29
MonoScene 18.12 21.91 46.12
本发明的方法 18.96 22.63 47.19
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种图协同单目实例三维重建方法,其特征在于,包括步骤:
S1、构建一个由多个二维图像序列组成的图像数据集,作为训练集;
S2、以图像序列中的每个序列第一帧作为输入条件,计算图像中目标物体实例的神经表征,神经表征在所有序列之间共享,并由其他帧进行递归学习优化;
S3、在神经表征基础上,构建神经表征映射场进行序列间映射场泛化;
S4、提取给定序列第一帧目标物体实例的像素语义特征量,预测输入帧中的像素点密度和颜色;
S5、根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子,合成和更新深度视图;
S6、根据像素的图协同因子构建图协同群组;
S7、在更新的深度视图基础上,采用图协同群组方法实现单目二维图像到三维的重建。
2.根据权利要求1所述的一种图协同单目实例三维重建方法,其特征在于,步骤S1中,该训练集由
Figure FDA0004022791460000011
个二维图像序列组成的,每个图像序列包含m幅RGB图像及其对应的相机位姿,表示为:
Figure FDA0004022791460000012
其中,
Figure FDA0004022791460000013
v=1,2,...,m,
Figure FDA0004022791460000014
代表第u个图像序列的第v帧图像,
Figure FDA0004022791460000015
表示该图像摄制过程中对应的相机位姿。
3.根据权利要求2所述的一种图协同单目实例三维重建方法,其特征在于,步骤S2中,训练集
Figure FDA00040227914600000111
个图像序列中的每个序列第一帧
Figure FDA0004022791460000016
作为输入条件,计算图像中目标物体实例的神经表征,神经表征在
Figure FDA0004022791460000017
个序列之间共享,并由其他帧进行递归学习优化,其他帧表示形式为:
Figure FDA0004022791460000018
其中,
Figure FDA0004022791460000019
4.根据权利要求1所述的一种图协同单目实例三维重建方法,其特征在于,步骤S3中,构建神经表征映射场
Figure FDA00040227914600000110
其中ξ表示像素点密度,Hue代表RGB颜色。
5.根据权利要求1所述的一种图协同单目实例三维重建方法,其特征在于,步骤S4具体包括:
S401、在序列间映射场泛化基础上,给定序列的第一帧
Figure FDA0004022791460000021
使用残差网络ResNeXt提取目标物体实例的像素语义特征量
Figure FDA00040227914600000225
Figure FDA0004022791460000022
S402、接着选择其他帧中的每行抽取一帧
Figure FDA0004022791460000023
其中
Figure FDA0004022791460000024
v′=2,3,…,m,共抽取
Figure FDA0004022791460000025
帧,对抽取的每帧均匀选择
Figure FDA0004022791460000026
个像素,结合相机位姿
Figure FDA0004022791460000027
沿着穿过这些像素的视野可达区域进行视线采样
Figure FDA0004022791460000028
个点;
S403、将每个采样三维点
Figure FDA0004022791460000029
投影到的图像条件神经辐射场球体上,形成图像特征向量
Figure FDA00040227914600000210
其中,
Figure FDA00040227914600000211
Figure FDA00040227914600000212
Figure FDA00040227914600000213
代表特征向量提取器,输入到神经表征映射场
Figure FDA00040227914600000214
得到形式为
Figure FDA00040227914600000215
其中
Figure FDA00040227914600000216
代表辐射场观察方向;
S404、预测输入帧中的像素点密度ξ和RGB颜色Hue。
6.根据权利要求1所述的一种图协同单目实例三维重建方法,其特征在于,步骤S5具体包括:
S501、根据序列间泛化映射场预测的像素点密度和颜色,计算像素的图协同因子
Figure FDA00040227914600000217
其中
Figure FDA00040227914600000218
对应
Figure FDA00040227914600000219
个采样点,αt∈(0,1)是对应采样点的超参数,ξt表示第i个采样点像素点密度,函数sigmod(x)=1/(1+exp(-x)),dt是上述
Figure FDA00040227914600000224
个采样点的第t个点到采样位置的距离,
Figure FDA00040227914600000220
S502、在源图像
Figure FDA00040227914600000221
和它的前一帧
Figure FDA00040227914600000222
之间选择连续帧以最优联合信息熵,构建重建投影损失函数
Figure FDA00040227914600000223
表示为:
Figure FDA0004022791460000031
其中
Figure FDA0004022791460000032
表示每帧中均匀选择的
Figure FDA0004022791460000033
个像素,
Figure FDA0004022791460000034
表示其中第
Figure FDA0004022791460000035
个像素在该帧色彩度量上的分布概率,||·||表示2-范数,
Figure FDA0004022791460000036
表示根据相机位姿信息进行2d投影算子;
S503、将步骤S502中所述损失函数用于训练并计算得到图协同因子,进而合成和更新深度视图。
7.根据权利要求1所述的一种图协同单目实例三维重建方法,其特征在于,步骤S6具体包括:
步骤S601、根据图协同因子构建图协同群组:由于一个三维点
Figure FDA0004022791460000037
与图协同因子
Figure FDA0004022791460000038
中的多个二维像素特征点
Figure FDA0004022791460000039
相关联,进行聚合操作来更新三维特征描述算子
Figure FDA00040227914600000310
通过对相应的二维描述算子进行平均初始化;图协同映射操作时,保留
Figure FDA00040227914600000311
中最大信息量的二维特征,以便根据当前帧
Figure FDA00040227914600000312
实现下一帧
Figure FDA00040227914600000313
的二维到三维映射;
步骤S602、构造图协同单目架构实现实例的三维重建,对每个单独的
Figure FDA00040227914600000314
进行操作,对于每个
Figure FDA00040227914600000315
权重矩阵表示为
Figure FDA00040227914600000316
图协同算子定义为:
Figure FDA00040227914600000317
Figure FDA00040227914600000318
其中
Figure FDA00040227914600000319
计算注意力系数,用于计量描述算子在聚合操作中的重要性;
步骤603、使用注意协同算子和交叉协同算子来处理和转换聚合的三维描述算子和查询的二维描述算子;一组由图协同算子、注意协同算子和交叉协同算子构成了一个图协同群组表示为:
Figure FDA00040227914600000320
Figure FDA0004022791460000041
表示图协同算子、
Figure FDA0004022791460000042
表示注意协同算子,
Figure FDA0004022791460000043
表示交叉协同算子。
8.根据权利要求7所述的一种图协同单目实例三维重建方法,其特征在于,步骤S7具体包括:
步骤701、设图协同网络架构是由N个堆叠的图协同群组组成,根据
Figure FDA0004022791460000044
Figure FDA0004022791460000045
的相关性,图协同网络会自适应地关注图协同因子
Figure FDA0004022791460000046
中不同的二维像素特征点
Figure FDA0004022791460000047
从而为二维到三维映射保留更多的区分性信息,通过将聚合注意力层与自我注意力层和交叉注意力层交织在一起,使得
Figure FDA0004022791460000048
互相交换信息;
步骤702、匹配选择和位姿计算,计算相机位姿匹配置信度得分
Figure FDA0004022791460000049
如下:
Figure FDA00040227914600000410
Figure FDA00040227914600000411
代表了二维到三维映射的预测,其中函数sigmod(x)=1/(1+exp(-x)),物体在相机坐标中的姿态通过透视点算法计算得到;
步骤703、在相机位姿匹配置信度得分
Figure FDA00040227914600000412
基础上合成和更新的深度视图,结合图协同群组
Figure FDA00040227914600000413
表构建:
Figure FDA00040227914600000414
其中
Figure FDA00040227914600000415
表示叉积运算,实现基于位姿匹配置信度的自动匹配图协同群组因子。
CN202211697417.9A 2022-12-28 2022-12-28 一种图协同单目实例三维重建方法 Active CN115965758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211697417.9A CN115965758B (zh) 2022-12-28 2022-12-28 一种图协同单目实例三维重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211697417.9A CN115965758B (zh) 2022-12-28 2022-12-28 一种图协同单目实例三维重建方法

Publications (2)

Publication Number Publication Date
CN115965758A true CN115965758A (zh) 2023-04-14
CN115965758B CN115965758B (zh) 2023-07-28

Family

ID=85887591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211697417.9A Active CN115965758B (zh) 2022-12-28 2022-12-28 一种图协同单目实例三维重建方法

Country Status (1)

Country Link
CN (1) CN115965758B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115339A (zh) * 2023-07-20 2023-11-24 哈尔滨工业大学 一种基于NeRF 5D神经辐射场的建筑三维重建与损伤识别方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
WO2020192706A1 (zh) * 2019-03-25 2020-10-01 华为技术有限公司 物体三维模型重建方法及装置
CN111968129A (zh) * 2020-07-15 2020-11-20 上海交通大学 具有语义感知的即时定位与地图构建系统及方法
CN112767468A (zh) * 2021-02-05 2021-05-07 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
CN113838191A (zh) * 2021-09-27 2021-12-24 上海应用技术大学 一种基于注意力机制和单目多视角的三维重建方法
CN114004941A (zh) * 2022-01-04 2022-02-01 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114332360A (zh) * 2021-12-10 2022-04-12 深圳先进技术研究院 一种协同三维建图方法及系统
CN114820932A (zh) * 2022-04-25 2022-07-29 电子科技大学 一种基于图神经网络和关系优化的全景三维场景理解方法
WO2022165722A1 (zh) * 2021-02-04 2022-08-11 华为技术有限公司 单目深度估计方法、装置及设备
WO2022187753A1 (en) * 2021-03-18 2022-09-09 Innopeak Technology, Inc. Slam-guided monocular depth refinement system using self-supervised online learning
CN115375844A (zh) * 2022-08-22 2022-11-22 东北大学秦皇岛分校 一种融合注意力机制的单目三维重建方法
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115393400A (zh) * 2022-09-13 2022-11-25 无锡东如科技有限公司 一种单样本学习的视频目标跟踪方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174377A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
WO2020192706A1 (zh) * 2019-03-25 2020-10-01 华为技术有限公司 物体三维模型重建方法及装置
CN111968129A (zh) * 2020-07-15 2020-11-20 上海交通大学 具有语义感知的即时定位与地图构建系统及方法
WO2022165722A1 (zh) * 2021-02-04 2022-08-11 华为技术有限公司 单目深度估计方法、装置及设备
WO2022166412A1 (zh) * 2021-02-05 2022-08-11 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
CN112767468A (zh) * 2021-02-05 2021-05-07 中国科学院深圳先进技术研究院 基于协同分割与数据增强的自监督三维重建方法及系统
WO2022187753A1 (en) * 2021-03-18 2022-09-09 Innopeak Technology, Inc. Slam-guided monocular depth refinement system using self-supervised online learning
CN113838191A (zh) * 2021-09-27 2021-12-24 上海应用技术大学 一种基于注意力机制和单目多视角的三维重建方法
CN114332360A (zh) * 2021-12-10 2022-04-12 深圳先进技术研究院 一种协同三维建图方法及系统
CN114004941A (zh) * 2022-01-04 2022-02-01 苏州浪潮智能科技有限公司 一种基于神经辐射场的室内场景三维重建系统及方法
CN114820932A (zh) * 2022-04-25 2022-07-29 电子科技大学 一种基于图神经网络和关系优化的全景三维场景理解方法
CN115393410A (zh) * 2022-07-18 2022-11-25 华东师范大学 一种基于神经辐射场和语义分割的单目视图深度估计方法
CN115375844A (zh) * 2022-08-22 2022-11-22 东北大学秦皇岛分校 一种融合注意力机制的单目三维重建方法
CN115393400A (zh) * 2022-09-13 2022-11-25 无锡东如科技有限公司 一种单样本学习的视频目标跟踪方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
FENG CHEN 等: "3D Object Retrieval with Graph-based Collaborative Feature Learning", 《SCIENCEDIRECT》, pages 261 - 268 *
TZE HO ELDEN TSE 等: "Collaborative Learning for Hand and Object Reconstruction With Attention-Guided Graph Convolution", 《ARXIV》, pages 1664 - 1674 *
张豪;张强;邵思羽;丁海斌;: "深度学习在单图像三维模型重建的应用", 计算机应用, no. 08, pages 2351 - 2357 *
曹洁;叶伦强;: "建筑室内空间虚拟场景多视图三维重建方法", 计算机仿真, no. 09, pages 303 - 307 *
朱凯;刘华峰;夏青元;: "基于单目视觉的同时定位与建图算法研究综述", 计算机应用研究, no. 01, pages 1 - 6 *
王雪琰 等: "深度学习下的相似花卉识别与三维重建", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 048 - 152 *
黄军;王聪;刘越;毕天腾;: "单目深度估计技术进展综述", 中国图象图形学报, no. 12, pages 2081 - 2097 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115339A (zh) * 2023-07-20 2023-11-24 哈尔滨工业大学 一种基于NeRF 5D神经辐射场的建筑三维重建与损伤识别方法
CN117115339B (zh) * 2023-07-20 2024-05-14 哈尔滨工业大学 一种基于NeRF 5D神经辐射场的建筑三维重建与损伤识别方法

Also Published As

Publication number Publication date
CN115965758B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110503680B (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
Wong et al. Unsupervised depth completion with calibrated backprojection layers
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN109461180A (zh) 一种基于深度学习的三维场景重建方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN113205595B (zh) 一种3d人体姿态估计模型的构建方法及其应用
CN114973407B (zh) 一种基于rgb-d的视频三维人体姿态估计方法
CN111325784A (zh) 一种无监督位姿与深度计算方法及系统
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN115965758A (zh) 一种图协同单目实例三维重建方法
CN115861418A (zh) 一种基于多模态输入与注意力机制的单视图位姿估计方法及其系统
Basak et al. Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image
Feng et al. Deep depth estimation on 360 images with a double quaternion loss
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN117711066A (zh) 一种三维人体姿态估计方法、装置、设备及介质
Bhutani et al. Unsupervised Depth and Confidence Prediction from Monocular Images using Bayesian Inference
Lu et al. Self-supervised depth estimation from spectral consistency and novel view synthesis
Liu et al. Binocular depth estimation using convolutional neural network with Siamese branches
Taguchi et al. Unsupervised Simultaneous Learning for Camera Re-Localization and Depth Estimation from Video
Shi et al. Bidirectional semi-supervised dual-branch CNN for robust 3D reconstruction of stereo endoscopic images via adaptive cross and parallel supervisions
CN111340964A (zh) 一种基于迁移学习的3d模型图像的构建方法
Xu et al. Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched Data
Yoshitake et al. Transposer: Transformer as an optimizer for joint object shape and pose estimation
CN115880334B (zh) 一种自动机器学习图谱融合的视频物体跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant