CN115239870A - 基于注意力代价体金字塔的多视图立体网络三维重建方法 - Google Patents
基于注意力代价体金字塔的多视图立体网络三维重建方法 Download PDFInfo
- Publication number
- CN115239870A CN115239870A CN202210530222.9A CN202210530222A CN115239870A CN 115239870 A CN115239870 A CN 115239870A CN 202210530222 A CN202210530222 A CN 202210530222A CN 115239870 A CN115239870 A CN 115239870A
- Authority
- CN
- China
- Prior art keywords
- depth
- dimensional reconstruction
- image
- attention
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000008447 perception Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 5
- 238000002679 ablation Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 abstract description 9
- 238000004220 aggregation Methods 0.000 abstract description 9
- 238000013519 translation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了基于注意力代价体金字塔的多视图立体网络三维重建方法,包括如下步骤:S1、结构光摄像机拍摄获取不同室内场景的图像,对获取图像数据进行预处理;S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型,将训练集作为三维重建网络模型的输入,训练得到权重系数得到初步三维重建网络模型;S3、对训练完成的初步三维重建网络模型进行评估,得到最优三维重建网络模型并生成深度估计图;S4、将得到的所有深度估计图融合成一个完整的深度图。本方案通过引入自注意层并建立基于相似性的特征聚合方法来提高MVS网络的性能,采用金字塔结构对深度图进行推断,使得该网络模型能够处理高分辨率的图像。
Description
技术领域
本发明涉及图像处理领域,具体的,涉及基于注意力代价体金字塔的多视图立体网络三维重建方法。
背景技术
多视点立体成像(Multi-view stereo,MVS)的目标是从多视点图像和相应的相机参数中以密集表示的方式重建观测到的三维场景,这一方法已经被广泛研究了几十年,涵盖了广泛的应用,如影像娱乐、智能家居、文物重建、AR旅游、自动驾驶、机器人导航等,已经逐渐成为摄影测量和计算机视觉任务的核心问题。
传统的MVS方法通常遵循稀疏点云生成过程来实现。为了重建稠密的三维点云,需要获取每幅图像恢复的摄像机内、外参数和稀疏点。例如聚类多视图立体(CMVS)和基于补丁的多视图立体(PMVS)是非常流行的密集三维重建方法。CMVS采用SfM滤波器对提取的特征点进行合并,将输入图像分解成一组大小可控的图像簇,然后利用MVS软件进行三维重建。PMVS以CMVS的聚类图像为输入,通过匹配、扩展和滤波生成稠密的三维点云。半全局匹配(SGM)也是一种流行的三维重建方法,它被提出从校正后的立体图像对中估计稠密的视差图,并引入不一致性惩罚。由于SGM算法在计算时间和结果质量之间进行了权衡,它比PMVS更快,并在实时立体视觉应用中得到了广泛采用。尽管这些方法在高纹理区域的理想lambert场景下表现良好,但在一些低纹理、反射区域存在重构不完全的问题,稠密匹配的准确性和鲁棒性降低。同时,传统的方法通常是按顺序进行的,通常需要经过摄像机标定、摄像机运动估计、密集图像匹配等步骤才能实现,这是一个耗时和内存消耗严重的过程,限制了对效率要求比较高的场景的应用。因此,传统的MVS方法仍然需要改进,以获得更稳健和完整的重建结果。
随着深度学习的发展,近年来基于深度学习的MVS模型也被不断提出,Yao等针对MVS问题提出了MVSNet,引入可微单应性来构建特征聚合的代价量,并使用3D正则化进行深度推理。为了减少内存负担,Yao等提出了R-MVSNet,该方法通过门控循环单元(GRU)沿深度方向依次正则化2D成本映射。Chen等人提出了Point-MVSNet,该算法在预定义的局部空间范围内对粗重构进行密集化,从而通过基于学习的细化实现更好的重构,其性能优于MVSNet和R-MVSNet。Gu等人设计了CasMVSNet,在从粗到细的深度推断过程中,通过建立金字塔结构,在给定参数的情况下缩小深度搜索范围,可以高分辨率估计深度图,提高了三维重建的整体精度。Yi等人提出了PVA-MVSNet,该方法可以自适应加权3D成本量,在总体精度上优于MVSNet和Point-MVSnet。Yang等人提出了一种紧凑、轻量级的基于学习的MVS方法,该方法采用从粗到细的策略迭代地推理深度映射,并提出了一种自适应深度范围确定方法。
特征提取是学习MVS算法的关键问题,另一个关键问题是成本量的生成,上述文献虽然引入了CNN块进行特征提取,但在粗细策略中很难捕捉到深度推理任务的重要信息,无法捕捉到深度推理任务的重要信息,并且现有的MVS网络都使用了最初在MVSNet中使用的基于方差的特征聚合。而且Tulyakov等人指出在保证精度不变的情况下可以减少通道的成本量,这意味着具有大量通道的基于方差的成本量可能是冗余的,内存消耗和计算要求可能被减少。与此同时,guo等人在立体图像匹配过程中引入了相似度测量,它为测量特征相似度和减少特征通道找到了一种有效表示的新方法。然而,所提出的测量仅适用于立体图像,不能直接用于MVS网络中的特征聚合。
发明内容
本发明的目的是提供基于注意力代价体金字塔的多视图立体网络三维重建方法,解决当前电力行业中MVS方法中特征提取无法捕捉到深度推理任务的重要信息和功能聚合成本高,资源消耗大的问题;通过引入自注意层来获取深度估计任务的重要信息,在原始自注意力机制的基础上插入相对位置信息,并建立基于相似性的特征聚合方法来提高MVS网络的性能,采用金字塔结构对深度图进行推断,并采用从粗到细的策略,使得该网络模型能够处理高分辨率的图像。
为实现上述技术目的,本发明提供的一种技术方案是基于注意力代价体金字塔的多视图立体网络三维重建方法,包括如下步骤:
S1、结构光摄像机拍摄获取不同室内场景的图像,对获取图像数据进行预处理;预处理后的图像构建训练数据集和测试数据集;
S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型,将训练集作为三维重建网络模型的输入,训练得到权重系数,通过损失函数对权重系数进行优化调整后得到初步三维重建网络模型;
S3、通过测试数据集对训练完成的初步三维重建网络模型进行评估,评估完成后得到最优三维重建网络模型;根据最优三维重建网络模型生成深度估计图;
S4、将得到的所有深度估计图融合成一个完整深度图,包括:通过光度滤波去除离群点,通过几何一致性滤波进行深度一致性测量,将不同视角的深度图整合成统一的点云进行表示。
本方案中,技术方案从粗到细的深度推断策略来实现高分辨率的深度;首先对多视图图像进行下采样,形成图像金字塔,然后建立权重共享的特征提取块进行每一层的特征提取;深度推断从粗级(L级)开始,通过使用相似度度量来构建成本量Cl,即使用基于相似性度量而非基于方差度量的成本量相关性;利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图。将估计的深度图Dl升级到下一层(level L)的图像大小,然后通过深度假设平面估计和代价体积关联建立代价体积C(l-1)。利用三维卷积块和softmax运算估计出深度残差图R(l-1),并将深度图D(l-1)提升到L-2层的图像大小,进行L-2层深度推断;因此,通过代价体积金字塔{Ci}(i=L,L-1,...0)形成迭代深度图估计过程。假设参考图像记为I0∈RH×W,其中H和W分别为输入图像的高度和宽度。设为用于重建的输入N幅源图像。对于MVS问题,对于所有输入视图,已知相机固有矩阵,旋转矩阵,平移向量为方案的目标是在给定的情况下,从估计参考图像的深度图D0;该技术首先估计最粗层的深度图,然后将较细层的深度图作为前一层的上采样深度图,具有逐像素的深度残差。因此,充分利用前一层的先验信息缩小深度搜索范围,并利用像素深度残差构造新的代价量来进行深度图的细化。由于所有的参数在不同的层次之间是共享的,因此可以迭代地得到最终的深度图。在每个层次上,在特征提取块中引入自注意层,并在自注意力机制中插入相对位置信息,用于捕获深度推理任务中的重要信息,并采用相似度度量方法生成代价量,而不是以往基于方差的方法,提高了模型训练的效率和可靠度。
作为优选,S1包括如下步骤:
结构光摄像机拍摄124室内不同场景的物体图像,首先获取场景中物体的RGB图像数据,然后根据结构光摄像机轨迹扫描各种物体,场景拍摄范围从49到64个不同的视点,所述视点与场景中的RGB图像相对应。
作为优选,所述训练数据集包括有RGB图像数据、相机参数数据、以及图像深度信息数据,所述测试训练集中包括有相机参数数据、RGB图像数据以及对应的测试图片中的像素点坐标信息数据。
作为优选,S2包括如下步骤:
S21、对多视图图像数据进行下采样,形成图像金字塔;
S22、建立权重共享的特征提取块进行每一层的特征提取;
S23、深度推断从粗级开始,通过使用相似度度量来构建成本量Cl,利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图;将估计的深度图Dl升级到下一层的图像大小,通过深度假设平面估计和代价体积关联建立代价体积C(l-1);利用三维卷积块和softmax运算估计出深度残差图R(l-1),并将深度图D(l-1)提升到L-2层的图像大小,进行L-2层深度推断,进行迭代深度图估计。
作为优选,S22包括如下步骤:
特征提取模块的构建:特征提取模块包括有8个卷积层、具有16个输出通道的自注意层以及设置在每个自注意层后的激活层;
特征提取模块中引入自注意机制,并在自注意力机制中插入相对位置信息,
其中qij=WQxij,kab=Wkxab,vab=Wvxab分别表示查询值、键值和预估值,权重学习矩阵由学习到的参数矩阵组成,是卷积模块中din通道提取的特征图中的一个像素,向量是通过连接行偏移量和列偏移量形成的;B为核大小相同的卷积计算图像块。
作为优选,S23包括如下步骤:
采用成本体积金字塔进行最粗分辨率的深度图推断和较细尺度的深度残差估计;粗分辨率下,给定参考图像的深度范围(dmin,dmax),均匀采样M个正平行平面构造代价体积,公式为:
dm=dmin+m(dmax-dmin)/M
其中大写L表示图像级别,E表示单位矩阵;
引入平均群相关,通过相似性度量来构建图像匹配任务的代价量,计算公式为:
采用所有视图相似度的平均值表示合计成本量,公式如下所示:
得到每个像素P在粗糙水平上的深度图可表示为:
在更精细的层次上细化DL(p),并直观地实现残差图估计,其数学模型表示为:
作为优选,迭代深度图估计包括如下步骤:
剩余深度Rl随深度图Dl通过三维卷积块和softmax运算生成;
将Dl作为L-1层的输入,形成了一个迭代的深度图估计过程;最终的深度图D0为到达顶层时的深度图;
构建损失函数公式如下:
其中GT为本地图片的深度映射,Ω为有效像素级;训练过程中通过反向传播来计算模型权重,利用训练完成后的模型的前向传播,得到估计的深度图。
作为优选,S3中,将测试数据集作为初步三维重建网络模型的输入,通过消融试验,在全尺寸图像上通过步骤S2对训练权重进行评估;
评估完成后得到最优三维重建网络模型;根据最优三维重建网络模型生成深度估计图。
本发明的有益效果:本发明设计基于注意力代价体金字塔的多视图立体网络三维重建方法,解决当前电力行业中MVS方法中特征提取无法捕捉到深度推理任务的重要信息和功能聚合成本高,资源消耗大的问题;通过引入自注意层来获取深度估计任务的重要信息,考虑到原始自注意力机制存在排列等边的问题,为充分利用器视觉任务的表达性,取得更好的效果,在原始自注意力机制的基础上插入相对位置信息,并建立基于相似性的特征聚合方法来提高MVS网络的性能,采用金字塔结构对深度图进行推断,并采用从粗到细的策略,使得该网络模型能够处理高分辨率的图像。
附图说明
图1为本发明基于注意力代价体金字塔的多视图立体网络三维重建方法流程图。
具体实施方式
为使本发明的目的、技术方案以及优点更加清楚明白,下面结合附图和实施例对本发明作进一步详细说明,应当理解的是,此处所描述的具体实施方式仅是本发明的一种最佳实施例,仅用以解释本发明,并不限定本发明的保护范围,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
实施例:如图1所示,基于注意力代价体金字塔的多视图立体网络三维重建方法,包括如下步骤:
S1、结构光摄像机拍摄获取不同室内场景的图像,对获取图像数据进行预处理;预处理后的图像构建训练数据集和测试数据集。
S1包括如下步骤:
结构光摄像机拍摄124室内不同场景的物体图像,首先获取场景中物体的RGB图像数据,然后根据结构光摄像机轨迹扫描各种物体,场景拍摄范围从49到64个不同的视点,所述视点与场景中的RGB图像相对应。
训练数据集包括有RGB图像数据、相机参数数据、以及图像深度信息数据,所述测试训练集中包括有相机参数数据、RGB图像数据以及对应的测试图片中的像素点坐标信息数据。
S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型,将训练集作为三维重建网络模型的输入,训练得到权重系数,通过损失函数对权重系数进行优化调整后得到初步三维重建网络模型。
S2包括如下步骤:
S21、对多视图图像数据进行下采样,形成图像金字塔;
S22、建立权重共享的特征提取块进行每一层的特征提取;
S23、深度推断从粗级开始,通过使用相似度度量来构建成本量Cl,利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图;将估计的深度图Dl升级到下一层的图像大小,通过深度假设平面估计和代价体积关联建立代价体积C(l-1);利用三维卷积块和softmax运算估计出深度残差图R(l-1),并将深度图D(l-1)提升到L-2层的图像大小,进行L-2层深度推断,进行迭代深度图估计。
S22包括如下步骤:
特征提取模块的构建:特征提取模块包括有8个卷积层、具有16个输出通道的自注意层以及设置在每个自注意层后的激活层;
特征提取模块中引入自注意机制,并在自注意力机制中插入相对位置信息,
其中qij=WQxij,kab=Wkxab,vab=Wvxab分别表示查询值、键值和预估值,权重学习矩阵由学习到的参数矩阵组成,是卷积模块中din通道提取的特征图中的一个像素,向量是通过连接行偏移量和列偏移量形成的;B为核大小相同的卷积计算图像块。
S23包括如下步骤:
采用成本体积金字塔进行最粗分辨率的深度图推断和较细尺度的深度残差估计;粗分辨率下,给定参考图像的深度范围(dmin,dmax),均匀采样M个正平行平面构造代价体积,公式为:
dm=dmin+m(dmax-dmin)/M
其中大写L表示图像级别,E表示单位矩阵;
引入平均群相关,通过相似性度量来构建图像匹配任务的代价量,计算公式为:
采用所有视图相似度的平均值表示合计成本量,公式如下所示:
得到每个像素P在粗糙水平上的深度图可表示为:
在更精细的层次上细化DL(p),并直观地实现残差图估计,其数学模型表示为:
迭代深度图估计包括如下步骤:
剩余深度Rl随深度图Dl通过三维卷积块和softmax运算生成;
将Dl作为L-1层的输入,形成了一个迭代的深度图估计过程;最终的深度图D0为到达顶层时的深度图;
构建损失函数公式如下:
其中GT为本地图片的深度映射,Ω为有效像素级;训练过程中通过反向传播来计算模型权重,利用训练完成后的模型的前向传播,得到估计的深度图。
S3、通过测试数据集对训练完成的初步三维重建网络模型进行评估,评估完成后得到最优三维重建网络模型;根据最优三维重建网络模型生成深度估计图。
S3中,将测试数据集作为初步三维重建网络模型的输入,通过消融试验,在全尺寸图像上通过步骤S2对训练权重进行评估;
评估完成后得到最优三维重建网络模型;根据最优三维重建网络模型生成深度估计图。
S4、将得到的所有深度估计图融合成一个完整深度图,包括:通过光度滤波去除离群点,通过几何一致性滤波进行深度一致性测量,将不同视角的深度图整合成统一的点云进行表示。
本实施例中,技术方案从粗到细的深度推断策略来实现高分辨率的深度;首先对多视图图像进行下采样,形成图像金字塔,然后建立权重共享的特征提取块进行每一层的特征提取;深度推断从粗级(L级)开始,通过使用相似度度量来构建成本量Cl,即使用基于相似性度量而非基于方差度量的成本量相关性;利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图。将估计的深度图Dl升级到下一层(level L)的图像大小,然后通过深度假设平面估计和代价体积关联建立代价体积C(l-1)。利用三维卷积块和softmax运算估计出深度残差图R(l-1),并将深度图D(l-1)提升到L-2层的图像大小,进行L-2层深度推断;因此,通过代价体积金字塔{Ci}(i=L,L-1,...0)形成迭代深度图估计过程。假设参考图像记为I0∈RH×W,其中H和W分别为输入图像的高度和宽度。设为用于重建的输入N幅源图像。对于MVS问题,对于所有输入视图,已知相机固有矩阵,旋转矩阵,平移向量为方案的目标是在给定的情况下,从估计参考图像的深度图D0;该技术首先估计最粗层的深度图,然后将较细层的深度图作为前一层的上采样深度图,具有逐像素的深度残差。因此,充分利用前一层的先验信息缩小深度搜索范围,并利用像素深度残差构造新的代价量来进行深度图的细化。由于所有的参数在不同的层次之间是共享的,因此可以迭代地得到最终的深度图。在每个层次上,在特征提取块中引入自注意层,并在自注意力机制中插入相对位置信息,用于捕获深度推理任务中的重要信息,并采用相似度度量方法生成代价量,而不是以往基于方差的方法,提高了模型训练的效率和可靠度。
适用于本实施例的基于DTU数据集的一个具体事例为:
对图像进行缩放预处理,使得输入图像大小为160*128,选取同一个图像的三个视图作为训练,同时输入到网络中;
提取相机的参数,包括相机的固有矩阵、旋转矩阵和平移向量;
选取图像金字塔和地面真值金字塔的层数为2层,最粗糙的图像分辨率为80×64像素;基于(3)的结果进行特征提取,特征映射,在粗糙平面上得到48个初始深度假设平面,精细平面上得到8个初始深度假设平面,然后计算代价体积金字塔,之后进入3D卷积模块,通过深度残差映射得到重建的三维图像,最后通过loss值动态监督重建的质量。其中特征提取块和3D卷积块在所有层次之间都有权重共享。首先构建图像金字塔,从最粗糙的层次开始迭代深度估计。将每一层估计的深度图作为下一层的输入,进行深度残差估计;
每次训练40个后破坏,批大小设置为36,选用adam作为优化器对网络进行优化,初始学习率设为1*10-3;
通过对网络参数权重进行调整、优化和确认,生成最终的网络模型,得到图像的深度估计图。
以上所述之具体实施方式为本发明基于注意力代价体金字塔的多视图立体网络三维重建方法的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。
Claims (10)
1.基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:包括如下步骤:
S1、结构光摄像机拍摄获取不同室内场景的图像,对获取图像数据进行预处理;预处理后的图像构建训练数据集和测试数据集;
S2、构建基于注意力感知代价体金字塔的多视图立体网络的三维重建网络模型,将训练集作为三维重建网络模型的输入,训练得到权重系数,通过损失函数对权重系数进行优化调整后得到初步三维重建网络模型;
S3、通过测试数据集对训练完成的初步三维重建网络模型进行评估,评估完成后得到最优三维重建网络模型;根据最优三维重建网络模型生成深度估计图;
S4、将得到的所有深度估计图融合成一个完整深度图。
2.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:S1包括如下步骤:
结构光摄像机拍摄124室内不同场景的物体图像,首先获取场景中物体的RGB图像数据,然后根据结构光摄像机轨迹扫描各种物体,场景拍摄范围从49到64个不同的视点,所述视点与场景中的RGB图像相对应。
3.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:
所述训练数据集包括有RGB图像数据、相机参数数据、以及图像深度信息数据,所述测试训练集中包括有相机参数数据、RGB图像数据以及对应的测试图片中的像素点坐标信息数据。
4.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:S2包括如下步骤:
S21、对多视图图像数据进行下采样,形成图像金字塔;
S22、建立权重共享的特征提取块进行每一层的特征提取;
S23、深度推断从粗级开始,通过使用相似度度量来构建成本量Cl,利用三维卷积块和softmax运算进行代价体积正则化生成初始深度图;将估计的深度图Dl升级到下一层的图像大小,通过深度假设平面估计和代价体积关联建立代价体积C(l-1);利用三维卷积块和softmax运算估计出深度残差图R(l-1),并将深度图D(l-1)提升到L-2层的图像大小,进行L-2层深度推断,并进行迭代深度图估计。
6.根据权利要求5所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:
特征提取模块包括有8个卷积层、具有16个输出通道的自注意层以及设置在每个自注意层后的激活层。
7.根据权利要求4所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:
S23包括如下步骤:
采用成本体积金字塔进行最粗分辨率的深度图推断和较细尺度的深度残差估计;粗分辨率下,给定参考图像的深度范围(dmin,dmax),均匀采样M个正平行平面构造代价体积,公式为:
dm=dmin+m(dmax-dmin)/M
其中大写L表示图像级别,E表示单位矩阵;
引入平均群相关,通过相似性度量来构建图像匹配任务的代价量,计算公式为:
采用所有视图相似度的平均值表示合计成本量,公式如下所示:
得到每个像素P在粗糙水平上的深度图可表示为:
在更精细的层次上细化DL(p),并直观地实现残差图估计,其数学模型表示为:
9.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:
S3中,将测试数据集作为初步三维重建网络模型的输入,通过消融试验,在全尺寸图像上通过步骤S2对训练权重进行评估;
评估完成后得到最优三维重建网络模型;根据最优三维重建网络模型生成深度估计图。
10.根据权利要求1所述的基于注意力代价体金字塔的多视图立体网络三维重建方法,其特征在于:将得到的所有深度估计图融合成一个完整深度图,包括如下步骤:
获取深度估计图,通过光度滤波去除离群点,通过几何一致性滤波进行深度一致性测量,将不同视角的深度图整合成统一的点云进行表示得到所述完整深度图。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111673016 | 2021-12-31 | ||
CN2021116730165 | 2021-12-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115239870A true CN115239870A (zh) | 2022-10-25 |
Family
ID=83668165
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210531379.3A Pending CN115239871A (zh) | 2021-12-31 | 2022-05-16 | 一种多视图立体网络三维重构方法 |
CN202210530222.9A Pending CN115239870A (zh) | 2021-12-31 | 2022-05-16 | 基于注意力代价体金字塔的多视图立体网络三维重建方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210531379.3A Pending CN115239871A (zh) | 2021-12-31 | 2022-05-16 | 一种多视图立体网络三维重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115239871A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423946A (zh) * | 2022-11-02 | 2022-12-02 | 清华大学 | 大场景弹性语义表征与自监督光场重建方法及装置 |
CN116091712A (zh) * | 2023-04-12 | 2023-05-09 | 安徽大学 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
-
2022
- 2022-05-16 CN CN202210531379.3A patent/CN115239871A/zh active Pending
- 2022-05-16 CN CN202210530222.9A patent/CN115239870A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423946A (zh) * | 2022-11-02 | 2022-12-02 | 清华大学 | 大场景弹性语义表征与自监督光场重建方法及装置 |
US11763471B1 (en) | 2022-11-02 | 2023-09-19 | Tsinghua University | Method for large scene elastic semantic representation and self-supervised light field reconstruction |
CN116091712A (zh) * | 2023-04-12 | 2023-05-09 | 安徽大学 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
CN117437363B (zh) * | 2023-12-20 | 2024-03-22 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115239871A (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598754B (zh) | 一种基于深度卷积网络的双目深度估计方法 | |
CN115239870A (zh) | 基于注意力代价体金字塔的多视图立体网络三维重建方法 | |
CN115690324A (zh) | 一种基于点云的神经辐射场重建优化方法及装置 | |
CN101388115B (zh) | 一种结合纹理信息的深度图像自动配准方法 | |
CN110223370B (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN112767467B (zh) | 一种基于自监督深度学习的双图深度估计方法 | |
CN112634163A (zh) | 基于改进型循环生成对抗网络去图像运动模糊方法 | |
CN113762358A (zh) | 一种基于相对深度训练的半监督学习三维重建方法 | |
CN112862736B (zh) | 一种基于点的实时三维重建与优化方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN113538569A (zh) | 一种弱纹理物体位姿估计方法和系统 | |
CN113034563A (zh) | 基于特征共享的自监督式单目深度估计方法 | |
CN115222889A (zh) | 基于多视图图像的3d重建方法、装置及相关设备 | |
CN112288788A (zh) | 单目图像深度估计方法 | |
CN115359191A (zh) | 一种基于深度学习的物体三维重建系统 | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
CN112489198A (zh) | 一种基于对抗学习的三维重建系统及其方法 | |
CN117115336A (zh) | 一种基于遥感立体影像的点云重建方法 | |
CN116958262A (zh) | 一种基于单张RGB图像的6dof物体位姿估计方法 | |
CN112927348B (zh) | 一种基于多视点rgbd相机高分辨率人体三维重建方法 | |
CN109741389B (zh) | 一种基于区域基匹配的局部立体匹配方法 | |
CN116721216A (zh) | 基于GCF-MVSNet网络的多视图三维重建方法 | |
CN116777971A (zh) | 一种基于水平可变形注意力模块的双目立体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |