CN115239559A - 一种融合视图合成的深度图超分辨率方法及系统 - Google Patents
一种融合视图合成的深度图超分辨率方法及系统 Download PDFInfo
- Publication number
- CN115239559A CN115239559A CN202210860605.2A CN202210860605A CN115239559A CN 115239559 A CN115239559 A CN 115239559A CN 202210860605 A CN202210860605 A CN 202210860605A CN 115239559 A CN115239559 A CN 115239559A
- Authority
- CN
- China
- Prior art keywords
- resolution
- depth map
- color image
- super
- view synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 46
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004544 sputter deposition Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 230000036544 posture Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于图像处理技术领域,提供了一种融合视图合成的深度图超分辨率方法及系统,包括:获取低分辨率深度图;依据获取的低分辨率深度图,以及优化后的超分网络,得到高低分辨率深度图;本发明中使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络,解决了高分辨率彩色图像只是用来提取特征和深度图的特征进行融合的问题,提高了超分网络的精度及深度图超分辨率的效果。
Description
技术领域
本发明属于图像处理技术领域,尤其涉及一种融合视图合成的深度图超分辨率方法及系统。
背景技术
深度图作为彩色图像的补充,由于可以提供有用的深度信息,深度图已被应用到人脸识别、自动驾驶和三维建模等方面,但是由于通过商用级深度传感器获得的深度图通常是低分辨率的,因此很难应用的各种计算机视觉任务;因此深度图超分辨率,就是将低分辨率的深度图上采样到高分辨率空间的方法,受到了广泛关注。随着深度学习的发展,可以将深度图超分辨率分为两种,区分的依据是有无高分辨率彩色图像输入网络指导深度图超分辨率过程;由于高分辨率彩色图很容易获得并且与深度图有很强的结构相似性可以在深度图超分辨率过程中提供一些指导信息,因此有彩色图像指导的深度图超分辨率取得了更好的结果。
发明人发现,在有高分辨率彩色图像输入网络指导深度图超分辨率过程方法中,网络的输入为经过线性插值操作上采样到和高分辨率同一尺寸的低分辨率深度图和高分辨率的彩色图像,但是高分辨率彩色图像只是用来提取特征和深度图的特征进行融合,并没有利用到损失函数之中;同时,和深度相关的任务中,例如深度估计,要在损失函数中利用彩色图像通常会使用视图合成技术,将原始点的彩色图像通过预测出的深度图和相机姿态的信息投影到相邻视点,将目标视点的彩色图像作为真值,用目标视点的彩色图像和投影得到的彩色图像之间的差异来衡量生成深度图的质量。但是,在深度图超分辨率任务中,使用的数据集大多只有一个视点的图像,无法直接使用视图合成将源视点投影到目标视点,并使用目标视点的彩色图像和投影之后的图像进行比较优化网络。
发明内容
本发明为了解决上述问题,提出了一种融合视图合成的深度图超分辨率方法及系统,本发明解决了高分辨率彩色图像只是用来提取特征和深度图的特征进行融合的问题,提高了超分网络的精度及深度图超分辨率的效果;同时,解决了数据集大多只有一个视点的图像,无法直接使用视图合成将源视点投影到目标视点,并使用目标视点的彩色图像和投影之后的图像进行比较优化网络的问题。
为了实现上述目的,本发明是通过如下的技术方案来实现:
第一方面,本发明提供了一种融合视图合成的深度图超分辨率方法,包括:
获取低分辨率深度图;
依据获取的低分辨率深度图,以及优化后的超分网络,得到高低分辨率深度图;
其中,使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络。
进一步的,使用高分辨率深度真值图和彩色图像生成一个彩色图像作为监督信号,在视图合成过程中使用的相机参数为随机生成的,然后对由超分网络生成的深度图使用相同的相机参数生成目标试点的彩色图片。
进一步的,采用前向溅射技术来实现视图合成,在前向溅射中,多个源像素对单个目标像素做出贡献。
进一步的,目标视点像素值的计算过程为:
进一步的,优化后的超分网络采用的重构损失为:
进一步的,对经过视图合成得到的目标视点的彩色图片进行多次下采样操作,计算多尺度的重构损失,总的重构损失是每个尺度上重构损失的组合。
进一步的,使用视图合成时,使用多个相机之间的相对姿态,这些相机姿态随机在不同的区间内取值,合成多个不同视点的目标图像。
第二方面,本发明还提供了一种融合视图合成的深度图超分辨率系统,包括:
数据采集模块,被配置为:获取低分辨率深度图;
超分模块,被配置为:依据获取的低分辨率深度图,以及优化后的超分网络,得到高低分辨率深度图;
其中,使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面所述的融合视图合成的深度图超分辨率方法的步骤。
第四方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面所述的融合视图合成的深度图超分辨率方法的步骤。
与现有技术相比,本发明的有益效果为:
1、本发明中使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络,解决了高分辨率彩色图像只是用来提取特征和深度图的特征进行融合的问题,提高了超分网络的精度及深度图超分辨率的效果;
2、本发明中使用高分辨率深度真值图和彩色图像生成一个彩色图像作为监督信号,在视图合成过程中使用的相机参数为随机生成的,然后对由超分网络生成的深度图使用相同的相机参数生成目标试点的彩色图片;解决了数据集大多只有一个视点的图像,无法直接使用视图合成将源视点投影到目标视点,并使用目标视点的彩色图像和投影之后的图像进行比较优化网络的问题;
3、本发明中,对经过视图合成得到的目标视点的彩色图片进行多次下采样操作,计算多尺度的重构损失,总的重构损失是每个尺度上重构损失的组合,减少了超分网络生成错误深度值的干扰;
4、本发明中,视图合成时使用了多个相机之间的相对姿态,这些相机姿态随机在不同的区间内取值,用来合成多个不同视点的目标图像,更好的处理遮挡现象。
附图说明
构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。
图1为本发明实施例1的有彩色图像指导的深度图超分辨率;
图2为本发明实施例1的前向溅射过程;
图3为本发明实施例1的使用彩色图像作为监督信号。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
实施例1:
本实施例提供了一种融合视图合成的深度图超分辨率方法,主要针对有彩色图像指导的深度图超分辨率方法,这种超分辨率方法相较于不适用彩色图像指导的深度图超分辨率,因为利用了深度图和彩色图具有很高的结构相似性,可以提升深度图重建的质量;正如背景技术中记载的,但是彩色信息只在超分网络进行训练的时候被应用,在计算整个网络的损失函数时只使用了真值深度图和重建后的高分辨率深度图进行比较,对于上述问题以及背景技术中的至少一个问题,本实施中的具体内容如下:
首先,进行视图合成,视图合成技术在多视角自监督任务中被广泛应用,使用网络输出的深度图结合相机参数将一个视点的彩色图像投影到另外一个视点,通过对比生成的彩色图像和原图像之间的差异来优化网络。视图合成可以视为将一个像素点从一个视点关联到另外一个视点的像素值,计算过程如下:
Γs→t(ps)=KTs→tD(ps)K-1ps
其中,ps代表原视图中一个像素的坐标;Γs→t(ps)代表从原视点到目标视点的对应关系;K代表相机的内参矩阵;Ts→t代表原视图到目标视图之间的相对姿态的变化,用来表示相对位姿,其中R和t分别代表旋转和平移。由于在深度图超分辨率任务的数据集中,大多只有一个视点的图像,因此本实施例中使用深度真值图和彩色图像生成一个彩色图像作为监督信号,在视图合成过程中使用的相机参数为随机生成的,然后对由超分网络生成的深度图使用相同的相机参数生成目标试点的彩色图片;因此本实施例中的相对姿态Ts→t为随机取值。
由于得到的目标视点的像素坐标很大可能是连续值,因此在前向映射中需要对投影点附近的多个坐标进行线性插值来得到该像素坐标的像素值,比如需要对投影点附近的四个坐标进行线性插值来得到该像素坐标的像素值。针对缺少目标视点的所有信息的问题,本实施例中采用了前向溅射技术来实现视图合成,在前向溅射中,每个源像素积累对目标像素的贡献,如图2所示;因此,许多源像素可以对单个目标像素做出贡献。目标视点像素值的计算过程如下:
然后,进行基于视图合成的重构损失,在以往的超分辨率工作中,虽然会将高分辨率的彩色图像输入到网络中,提取其中对深度图超分辨率有帮助的特征,用来提升整体网络的性能,但在对网络进行优化的时候只是使用了真值深度图和预测得到的深度图之间的不同,并没有用到彩色图像,即:
由于缺少目标视点的彩色图像,本实施例中在随机取得视点之间的相对姿态之后,本实施例使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值,通过比较其与预测得到的深度图生成的彩色图像之间的差异来优化网络,如图3所示。对来自超分辨率网络生成的目标视点计算重建误差,即:
其中,为真实深度图生成的目标视点彩色图像;为预测得到的目标视点的彩色图像;Lp的目的是为了惩罚和之间颜色的差异,从而优化深度图超分辨率网络。在物体的边界区域由于深度值的不连续,因此在投影过程中会产生遮挡和空洞,遮挡和空洞处计算的损失可能会干扰网络的训练,因此本实施例中使用的重构损失为:
当超分网络生成的深度值和真值相差过大时,在生成的两张目标视点的图像中,可能不在一个像素块内,因为双线性插值具有梯度局部性,目标容易陷入局部最小值,为了减少超分网络生成错误深度值的干扰,本实施例中对经过视图合成得到的图像进行了多次下采样操作,计算多尺度的重构损失,因此总的重构损失是每个尺度上重构损失的组合。在本实施例中进行了两次下采样操作,分别得到原始大小1/2和1/4的图像,增加了下采样之后的重构损失:
在其他自监督深度任务中,使用多视角的图像可以有效地处理在投影过程中的遮挡对网络优化的影响。由于基线的多样性,增加更多的视角可以提供更高的重建精度。因此本实施例中在使用视图合成时使用了多个相机之间的相对姿态,这些相机姿态随机在不同的区间内取值,用来合成多个不同视点的目标图像,更好的处理遮挡现象。本实施例中,使用多个视点重构损失的平均值作为最终重构损失。
因此,本实施例中,在使用彩色图像作为监督信号之后,整体网络的损失可以描述为:
Ltotal=λLdepth+(1-λ)Lp
其中,λ为超参数,在本实施例中λ=0.5。
为了评估本实施例中方法的性能,在RGB-D-D数据集上验证模型的性能。RGB-D-D数据集中共有1449个640*480图像,按照数据集作者的方法,本实施例中选择了1000个图像进行训练,剩余449个图像进行测试,低分辨率深度图通过对高分辨率深度图下采样得到,量化结果如表1所示:
表1:RGB-D-D数据集上深度图超分辨率量化结果
其中,RMSE是以厘米为单位的测量指标,在RGB-D-D数据集上本实施例取得了最好的结果。RGB-D-D数据集同时还包含真实的低分辨率图像,向网络中输入真实的低分辨率图像,量化结果如表2所示:
表2:真实低分辨率深度图超分辨率量化结果
实施例2:
本实施例提供了一种融合视图合成的深度图超分辨率系统,包括:
数据采集模块,被配置为:获取低分辨率深度图;
超分模块,被配置为:依据获取的低分辨率深度图,以及优化后的超分网络,得到高低分辨率深度图;
其中,使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络。
所述系统的工作方法与实施例1的融合视图合成的深度图超分辨率方法相同,这里不再赘述。
实施例3:
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了实施例1所述的融合视图合成的深度图超分辨率方法的步骤。
实施例4:
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了实施例1所述的融合视图合成的深度图超分辨率方法的步骤。
以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。
Claims (10)
1.一种融合视图合成的深度图超分辨率方法,其特征在于,包括:
获取低分辨率深度图;
依据获取的低分辨率深度图,以及优化后的超分网络,得到高低分辨率深度图;
其中,使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络。
2.如权利要求1所述的一种融合视图合成的深度图超分辨率方法,其特征在于,使用高分辨率深度真值图和彩色图像生成一个彩色图像作为监督信号,在视图合成过程中使用的相机参数为随机生成的,然后对由超分网络生成的深度图使用相同的相机参数生成目标试点的彩色图片。
3.如权利要求2所述的一种融合视图合成的深度图超分辨率方法,其特征在于,采用前向溅射技术来实现视图合成,在前向溅射中,多个源像素对单个目标像素做出贡献。
6.如权利要求5所述的一种融合视图合成的深度图超分辨率方法,其特征在于,对经过视图合成得到的目标视点的彩色图片进行多次下采样操作,计算多尺度的重构损失,总的重构损失是每个尺度上重构损失的组合。
7.如权利要求5所述的一种融合视图合成的深度图超分辨率方法,其特征在于,使用视图合成时,使用多个相机之间的相对姿态,这些相机姿态随机在不同的区间内取值,合成多个不同视点的目标图像。
8.一种融合视图合成的深度图超分辨率系统,其特征在于,包括:
数据采集模块,被配置为:获取低分辨率深度图;
超分模块,被配置为:依据获取的低分辨率深度图,以及优化后的超分网络,得到高低分辨率深度图;
其中,使用由高分辨率深度真值图进行视图合成得到的目标视点的彩色图片作为彩色图像的真值;通过比较彩色图像的真值与预测得到的网络重构深度图生成的目标视点的彩色图像之间的差异来优化超分网络,得到优化后的超分网络。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现了如权利要求1-7任一项所述的融合视图合成的深度图超分辨率方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现了如权利要求1-7任一项所述的融合视图合成的深度图超分辨率方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860605.2A CN115239559A (zh) | 2022-07-21 | 2022-07-21 | 一种融合视图合成的深度图超分辨率方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860605.2A CN115239559A (zh) | 2022-07-21 | 2022-07-21 | 一种融合视图合成的深度图超分辨率方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115239559A true CN115239559A (zh) | 2022-10-25 |
Family
ID=83674790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210860605.2A Pending CN115239559A (zh) | 2022-07-21 | 2022-07-21 | 一种融合视图合成的深度图超分辨率方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115239559A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575916A (zh) * | 2024-01-19 | 2024-02-20 | 青岛漫斯特数字科技有限公司 | 基于深度学习的图像质量优化方法、系统、设备及介质 |
-
2022
- 2022-07-21 CN CN202210860605.2A patent/CN115239559A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575916A (zh) * | 2024-01-19 | 2024-02-20 | 青岛漫斯特数字科技有限公司 | 基于深度学习的图像质量优化方法、系统、设备及介质 |
CN117575916B (zh) * | 2024-01-19 | 2024-04-30 | 青岛漫斯特数字科技有限公司 | 基于深度学习的图像质量优化方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11954813B2 (en) | Three-dimensional scene constructing method, apparatus and system, and storage medium | |
US20210110599A1 (en) | Depth camera-based three-dimensional reconstruction method and apparatus, device, and storage medium | |
CN113159151B (zh) | 面向自动驾驶的多传感器深度融合3d目标检测方法 | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
GB2584176A (en) | 3D object reconstruction using photometric mesh representation | |
JP2021535466A (ja) | シーンの色及び深度の情報を再構成するための方法及びシステム | |
CN112750133A (zh) | 计算机视觉训练系统和用于训练计算机视觉系统的方法 | |
GB2580691A (en) | Depth estimation | |
CN117422884A (zh) | 三维目标检测方法、系统、电子设备及存储介质 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN116091574A (zh) | 一种基于平面约束与位置约束的3d目标检测方法及系统 | |
CN113269689A (zh) | 一种基于法向量和高斯权重约束的深度图像补全方法及系统 | |
CN115631223A (zh) | 基于自适应学习和聚合的多视图立体重建方法 | |
Baur et al. | Real-time 3D LiDAR flow for autonomous vehicles | |
CN115239559A (zh) | 一种融合视图合成的深度图超分辨率方法及系统 | |
CN117788544A (zh) | 一种基于轻量级注意力机制的图像深度估计方法 | |
CN117726747A (zh) | 补全弱纹理场景的三维重建方法、装置、存储介质和设备 | |
CN116704112A (zh) | 一种用于对象重建的3d扫描系统 | |
CN117529749A (zh) | 无约束的图像稳定 | |
Qu et al. | Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis | |
CN114266900B (zh) | 一种基于动态卷积的单目3d目标检测方法 | |
Zhu et al. | Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair | |
Gröndahl et al. | Self-supervised cross-connected cnns for binocular disparity estimation | |
WO2024117090A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN117523547B (zh) | 一种三维场景语义感知方法、系统、设备与介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |