CN114511609A - 基于遮挡感知的无监督光场视差估计系统及方法 - Google Patents

基于遮挡感知的无监督光场视差估计系统及方法 Download PDF

Info

Publication number
CN114511609A
CN114511609A CN202210407317.1A CN202210407317A CN114511609A CN 114511609 A CN114511609 A CN 114511609A CN 202210407317 A CN202210407317 A CN 202210407317A CN 114511609 A CN114511609 A CN 114511609A
Authority
CN
China
Prior art keywords
parallax
image
light field
sub
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210407317.1A
Other languages
English (en)
Other versions
CN114511609B (zh
Inventor
戴琼海
李鹏
于涛
吴嘉敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210407317.1A priority Critical patent/CN114511609B/zh
Publication of CN114511609A publication Critical patent/CN114511609A/zh
Priority to PCT/CN2022/104417 priority patent/WO2023201903A1/zh
Application granted granted Critical
Publication of CN114511609B publication Critical patent/CN114511609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/557Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及图像处理技术领域,特别涉及一种基于遮挡感知的无监督光场视差估计系统及方法,其中,系统包括:神经网络输入模块,用于从光场图像的多个方向输入子孔径图像;特征提取模块,用于采用权重共享的空间特征金字塔结构提取每个方向的子孔径图像的不同尺度特征;特征融合模块,用于采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征;视差回归模块,用于将多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于预测视差图得到无监督光场视差估计结果。由此,解决了相关技术中光场视差精度差、效率低的问题,从而在保证精度的情况下快速收敛,提升光场视差估计的精度与效率。

Description

基于遮挡感知的无监督光场视差估计系统及方法
技术领域
本申请涉及图像处理技术领域,特别涉及一种基于遮挡感知的无监督光场视差估计系统及方法。
背景技术
随着人工智能的快速发展,场景感知与理解逐渐成为智能社会越来越重要的课题。光场成像作为一种广泛应用的感知技术,由于其本身包含场景的三维结构信息,利用光场进行视差(深度)估计应用于下游3D(three-dimensional,三维图形)任务具有巨大潜力。相比立体相机,光场相机具有密集子孔径,这使其视察估计更加精确、稳定。相比结构光以及TOF(Time of Flight,飞行时间)相机,光场被动成像的特点也使它同样适用于室外场景。
近年来,越来越多的光场视差估计算法已经被提出,包括优化算法、监督学习算法以非监督学习算法。
基于优化的算法又可以分为基于极平面图像(EPIs,Epipolar Plane Images)算法以及基于重聚焦算法。在光场极平面图像中,极线的斜率于场景的视场成正比,因此大部分算法都聚焦在基线斜率的提取,包括构建结构张量、设计3D描述子等技术。基于重聚焦的方法主要依据不同深度位置的场景离焦程度不同这一规律进行视差估计,例如通过将光场子孔径图像变换到中心视角,通过最小化光度方差选取深度的算法。也存在一些算法将EPI线索与离焦线索相互结合的算法也取得了不错的性能。基于优化的算法能够提供相对鲁棒、精确的视差结果,但是迭代优化过程十分耗时,视差估计效率显著下降。
得益于计算机视觉技术的发展,很多监督学习算法被应用于光场视差估计,监督学习方法在精度以及运行效率方面都远超基于优化的算法。最早用于光场视差估计的深度学习算法是简单的卷积神经网络,之后又有算法基于EPI的原理,将光场图像的四个方向的极平面图像输入网络,利用多分支结构进行视差预测,进一步提升了预测精度。相关技术中还加入注意力机制,选取有效视角进行视差估计实现了目前监督方法最优的性能,然而,这些方法依赖于高质量光场数据集以及高精度视差标签,对于数据集的依赖性使得这些方法的泛化性能不足,尤其在实际场景中,光照不均匀、噪声严重等问题会严重限制监督学习方法的性能,更重要的是,实际场景光场数据很难获取视差标签,也进一步限制了监督学习算法的应用。
无监督学习方法无需视差标签的特性,使实现高精度、高效率、高泛化性能的视差估计变得可能,然而相关技术中的无监督算法在精度方面体现出显著缺陷,其主要原因是无监督光场视差估计算法利用唯一的光度一致性线索,但是实际光场中由于遮挡的存在,光度一致性并不一定满足,因此在大部分遮挡区域视差估计会出现明显的错误,由于网络的整体优化,遮挡区域通过影响网络收敛进一步导致视差图像整体精度下降。
发明内容
本申请提供一种基于遮挡感知的无监督光场视差估计系统及方法,以解决相关技术利用唯一的光度一致性线索,导致当实际光场中存在遮挡时,会使光场视差估计整体精度下降的问题,充分分析了光场成像原理以及遮挡发生的一般性规律,通过在网络训练的过程中引导网络自适应学习遮挡模式,排除遮挡视角对于网络优化的影响,实现了高精度、无监督光场视差估计。
本申请第一方面实施例提供一种基于遮挡感知的无监督光场视差估计系统,包括:
神经网络输入模块,用于从光场图像的多个方向输入子孔径图像;
特征提取模块,用于采用权重共享的空间特征金字塔结构提取每个方向的所述子孔径图像的不同尺度特征;
特征融合模块,用于采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征;以及
视差回归模块,用于将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于所述预测视差图得到无监督光场视差估计结果。
可选地,上述的基于遮挡感知的无监督光场视差估计系统,还包括:
视差精调模块,用于基于子孔径图像梯度图将所述预测视差图和光场中心视角图像和对齐输出,得到最终视差图;
遮挡感知损失函数模块,用于根据所述最终视差图进行光场重采样,并根据采样结果和预设的遮挡模式计算得到最优遮挡模式,基于所述最优遮挡模式计算光度一致性损失函数,并根据所述光度一致性损失函数训练所述神经网络输入模块。
可选地,在所述多个方向为第一至第四方向时,所述特征融合模块包括:
第一至第四融合分支,所述第一至第四融合分支与所述第一至第四方向对应设置,且所述第一至第四融合分支均采用多头注意力机制对所述子孔径的不同尺度特征进行特征融合;
其中,第一方向为0°,第二方向为90°,第三方向为45°,第四方向为135°。
可选地,所述特征融合模块的输入为不同角度的子孔径图像序列。
可选地,所述视差回归模块包括:
级联的第一至第四卷积残差块,所述第一至第四卷积残差块基于预设的多个视差范围预测每个视差的概率,根据所述每个视差的概率将所述多个特征融合后的图像特征映射到视差图像后,加权平均计算得到所述预测视差图。
本申请第二方面实施例提供一种基于遮挡感知的无监督光场视差估计方法,采用如基于遮挡感知的无监督光场视差估计系统,其中,所述方法包括以下步骤:
通过所述神经网络输入模块从光场图像的多个方向输入子孔径图像;
通过所述特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的所述子孔径图像的不同尺度特征;
通过所述特征融合模块采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征;以及
通过所述视差回归模块将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于所述预测视差图得到无监督光场视差估计结果。
可选地,上述的基于遮挡感知的无监督光场视差估计方法,还包括:
基于子孔径图像梯度图将所述预测视差图和光场中心视角图像和对齐输出,得到最终视差图;
根据所述最终视差图进行光场重采样,并根据采样结果和预设的遮挡模式计算得到最优遮挡模式,基于所述最优遮挡模式计算光度一致性损失函数,并根据所述光度一致性损失函数训练所述神经网络输入模块。
可选地,在所述多个方向为第一至第四方向时,所述采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,包括:
第一至第四融合分支,所述第一至第四融合分支与所述第一至第四方向对应设置,且所述第一至第四融合分支均采用多头注意力机制对所述子孔径的不同尺度特征进行特征融合;
其中,第一方向为0°,第二方向为90°,第三方向为45°,第四方向为135°。
可选地,所述特征融合模块的输入为不同角度的子孔径图像序列。
可选地,所述将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,包括:
基于预设的多个视差范围预测每个视差的概率;
根据所述每个视差的概率将所述多个特征融合后的图像特征映射到视差图像后,加权平均计算得到所述预测视差图。
由此,本申请通过神经网络输入模块,从光场图像的多个方向输入子孔径图像,并通过特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的子孔径图像的不同尺度特征,并通过特征融合模块采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,并通过视差回归模块将多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于预测视差图得到无监督光场视差估计结果。由此,解决了相关技术利用唯一的光度一致性线索,导致当实际光场中存在遮挡时,会使光场视差估计整体精度下降的问题,充分分析了光场成像原理以及遮挡发生的一般性规律,通过在网络训练的过程中引导网络自适应学习遮挡模式,排除遮挡视角对于网络优化的影响,实现了高精度、无监督光场视差估计。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的基于遮挡感知的无监督光场视差估计系统的方框示意图;
图2为根据本申请一个实施例提供的的基于遮挡感知的无监督光场视差估计系统的示意图;
图3为根据本申请一个实施例提供的预设线遮挡模式示意图;
图4为根据本申请实施例提供的基于遮挡感知的无监督光场视差估计方法流程图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于遮挡感知的无监督光场视差估计系统及方法。针对上述背景技术中心提到的相关技术利用唯一的光度一致性线索,导致当实际光场中存在遮挡时,会使光场视差估计整体精度下降的问题,本申请提供了一种基于遮挡感知的无监督光场视差估计系统,在该系统中,通过神经网络输入模块,从光场图像的多个方向输入子孔径图像,并通过特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的子孔径图像的不同尺度特征,并通过特征融合模块采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,并通过视差回归模块将多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于预测视差图得到无监督光场视差估计结果。由此,解决了相关技术利用唯一的光度一致性线索,导致当实际光场中存在遮挡时,会使光场视差估计整体精度下降的问题,充分分析了光场成像原理以及遮挡发生的一般性规律,通过在网络训练的过程中引导网络自适应学习遮挡模式,排除遮挡视角对于网络优化的影响,实现了高精度、无监督光场视差估计。
具体而言,图1为本申请实施例所提供的一种基于遮挡感知的无监督光场视差估计系统10的方框示意图。
如图1所示,该基于遮挡感知的无监督光场视差估计系统10包括:神经网络输入模块100、特征提取模块200、特征融合模块300、视差回归模块400。
其中,神经网络输入模块100,用于从光场图像的多个方向输入子孔径图像;特征提取模块200,用于采用权重共享的空间特征金字塔结构提取每个方向的所述子孔径图像的不同尺度特征;特征融合模块300,用于采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征;视差回归模块400,用于将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于所述预测视差图得到无监督光场视差估计结果。
可选地,特征融合模块的输入为不同角度的子孔径图像序列。
可选地,在一些实施例中,视差回归模块400包括:级联的第一至第四卷积残差块,第一至第四卷积残差块基于预设的多个视差范围预测每个视差的概率,根据每个视差的概率将多个特征融合后的图像特征映射到视差图像后,加权平均计算得到预测视差图。
可选地,在一些实施例中,在多个方向为第一至第四方向时,特征融合模块300包括:第一至第四融合分支,第一至第四融合分支与第一至第四方向对应设置,且第一至第四融合分支均采用多头注意力机制对子孔径的不同尺度特征进行特征融合;其中,第一方向为0°,第二方向为90°,第三方向为45°,第四方向为135°。
其中,多个方向可以是四个方向,例如,0°、90°、45°以及135°四个方向。
需要说明的是,神经网络输入模块100四个方向子孔径图像是考虑到光场信息冗余性,为高效利用光场信息减小网络推理负担;特征融合模块300输入为不同角度的子孔径图像序列,以便网络提取极平面图像(EPIs)斜率,用于更准确的视差预测;特征融合模块300包含四个相同的融合分支,对应于神经网络输入的四个方向子孔径图像,每个分支采用多头注意力机制进行特征融合;视差回归模块400包含4个级联的卷积残差块,该模块并未直接预测视差图像,而是通过预设可能的视差范围,分别预测属于每个视差的概率,加权平均得到完整视差图。
具体地,神经网络输入100输入从四个方向(0°、90°、45°以及135°)的子孔径图像;特征提取模块200采用权重共享的空间特征金字塔结构分别提取子孔径图像的不同尺度特征;特征融合模块300采用注意力机制进行子孔径图像特征间的信息融合,该模块输入为不同角度的子孔径图像序列,这样设计网络能够提取极平面图像斜率,用于更准确的视差预测;视差回归模块400将融合后的图像特征映射到视差图像,特征首先经过4个卷积残差块,预测属于每个预设视差的概率,而后加权平均得到完整视差图。
可选地,在一些实施例中,如图2所示,上述的基于遮挡感知的无监督光场视差估计系统10,还包括:视差精调模块500和遮挡感知损失函数模块600,其中,视差精调模块500用于基于子孔径图像梯度图将预测视差图和光场中心视角图像和对齐输出,得到最终视差图;遮挡感知损失函数模块600用于根据最终视差图进行光场重采样,并根据采样结果和预设的遮挡模式计算得到最优遮挡模式,基于最优遮挡模式计算光度一致性损失函数,并根据光度一致性损失函数模块训练神经网络输入模块100。
需要说明的是,预设的遮挡模式的示意图可以如图3所示,视差精调模块500输入为视差回归模块400预测的视差图、中心视角图像以及子孔径图像梯度图,其中梯度图作为视差置信度能够帮助模型生成精度更高的视差图;视差特征提取模块200、视差特征融合模块300、视差回归模块400以及视差精调模块500,共同构成训练、推理网络;遮挡感知损失函数模块基于光度一致性进行改进,使其同样适应遮挡区域。具体来说,本申请实施例根据光场成像的一般假设,将光场角度域可能存在的无限种2D(two-dimensional,二维图像)为有限数量的1D(One-Dimensional,一维图像),通过最小化光度一致性函数选择最优遮挡模式,用于最终损失函数计算。
具体地,将视差回归模块400预测的视差图、中心视角图像以及子孔径图像梯度图沿通道拼接在一起馈送到视差精调模块500,可以将估计的视差图与中心视角图像对齐输出更精确的视差图,其中梯度图作为视差置信度能够帮助模型实现这一效果;计算遮挡感知损失函数,用于视差监督。在Lambertian(朗伯反射)反射与无遮挡两个假设前提下,光场子孔径图像经过真值视差变换后应与中心视图一致,即满足
Figure 662442DEST_PATH_IMAGE001
(1)
其中,
Figure 862479DEST_PATH_IMAGE002
为光场图像角度坐标,
Figure 855843DEST_PATH_IMAGE003
为中心视角角度坐标,
Figure 141331DEST_PATH_IMAGE004
为空间坐标,
Figure 409501DEST_PATH_IMAGE005
Figure 932886DEST_PATH_IMAGE006
分别对应坐标处的子孔径图像,
Figure 644621DEST_PATH_IMAGE007
为中心视角视差。
然而当遮挡发生时上述假设并不成立,为保证网络更好地收敛,需将遮挡视角滤除。但是光场二维角度平面存在大量可能的遮挡模式,精确考虑每个场景点的二维遮挡模式会对模型训练造成很大负担,因此本申请实施例用横向和纵向的一维遮挡模式近似二维遮挡模式。考虑到自然场景中遮挡的发生总是从边界开始向另一个方向拓展,并且在大多情况下遮挡视角总是连续存在的,因此对于
Figure 886247DEST_PATH_IMAGE008
角度分辨率的光场,本申请实施例预先设定了
Figure 692529DEST_PATH_IMAGE009
种可能的一维遮挡模式,在计算损失函数的过程中,模型能够自适应地选择最优遮挡模式滤除遮挡视角,并应用无遮挡视角进行光度一致性约束帮助模型更好地收敛。值得注意的是,对于高视角分辨率地光场图像,过多的遮挡模式会让模型收敛变得困难,本申请在处理该类光场时先进行遮挡模式降采样,挑选出最优遮挡模式之后再上采样到原始分辨率计算损失函数。由于遮挡感知损失函数模块600以像素为单位进行监督,生成的深度图可能存在不连续,为解决此问题,本申请实施例同时引入深度估计算法中常用的边界平滑损失进行惩罚,
Figure 336000DEST_PATH_IMAGE010
(2)
其中,
Figure 202325DEST_PATH_IMAGE011
为边界平滑损失,
Figure 931246DEST_PATH_IMAGE012
为平滑超参数,
Figure 541219DEST_PATH_IMAGE013
为光场子孔径图像,
Figure 831341DEST_PATH_IMAGE014
为对应的视差图像。
本申请实施例中所述遮挡感知损失函数模块600同时作用于视差精调前后的两个视差图,在该损失函数以及边界平滑损失的共同约束下,本申请中设计的神经网络不仅能够在合成数据集上表现出优越的性能,在实际噪声场景下预测的视差图质量也远超优化算法、监督学习方法与现有的无监督算法,同时,由于遮挡感知损失强大的监督能力,深度模型能够在更短的训练时间内收敛并实现高效推理。总结来说,本申请重新定义了光场视差估计精度、效率与泛化能力之间的平衡,有望应用于其它3D视觉以及大型实际场景深度感知与理解。
另外,根据本申请上述实施例的基于遮挡感知的无监督光场视差估计系统10还具有以下附加的技术特征,神经网络输入光场图像不局限于特定空间、角度分辨率,当线遮挡模式分辨率下采样为5时能取得最优性能。
为使得本领域技术人员进一步了解本申请的基于遮挡感知的无监督光场视差估计系统10,下面结合具体实施例进行详细阐述。
图2是根据本申请一个实施例的基于遮挡感知的无监督光场视差估计系统的方框示意图包括:神经网络输入100、特征提取模块200、特征融合模块300、视差回归模块400、视差精调模块500以及遮挡感知损失函数600。其中,神经网络输入模块100包括子孔径图像110;特征提取模块200包括SPP模型210;特征融合模块300包括特征拼接310和注意力机制320;视差回归模块400包括卷积残差块410;视差精度调节模块500包括梯度算子510和卷积网络520;遮挡感知损失函数模块600包括光场重采样610、最优化遮挡模式620和光度一致性630。
具体而言,神经网络输入模块100包含光场四个方向(0°,90°,45°,135°)的子孔径图像110,各子孔径图像110分别经过权重共享的SPP(Spatial Pyramid Pooling,空间金字塔池化)模型210得到提取的初步特征,各子孔径图像特征在特征融合模块300中首先进行特征拼接310,而后通过注意力机制320进行特征融合,视差回归模块400由4个级联的卷积残差块410组成,融合之后的特征经过视差回归模块400得到精度相对较差的视差图;前一步预测的视差图以及各子孔径图像一起馈送到视差精调模块500,子孔径图像基于估计的视差先通过梯度算子510得到梯度图,随后再一起经过卷积网络520得到最终视差图;在网络反向传播过程中,前述视差图先计算遮挡感知损失函数模块600,具体来说,首先原始各光场子孔径图像基于视差图进行光场重采样610,再根据采样结果选择最优遮挡模式620,最后利用遮挡模式过计算光度一致性损失函数630用于模型训练。
根据本申请实施例提出的基于遮挡感知的无监督光场视差估计系统,通过神经网络输入模块,从光场图像的多个方向输入子孔径图像,并通过特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的子孔径图像的不同尺度特征,并通过特征融合模块采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,并通过视差回归模块将多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于预测视差图得到无监督光场视差估计结果。由此,解决了相关技术利用唯一的光度一致性线索,导致当实际光场中存在遮挡时,会使光场视差估计整体精度下降的问题,充分分析了光场成像原理以及遮挡发生的一般性规律,通过在网络训练的过程中引导网络自适应学习遮挡模式,排除遮挡视角对于网络优化的影响,实现了高精度、无监督光场视差估计。
其次参照附图描述根据本申请实施例提出的基于遮挡感知的无监督光场视差估计方法。如图4所示,该基于遮挡感知的无监督光场视差估计方法,包括以下步骤:
在步骤S401中,通过神经网络输入模块从光场图像的多个方向输入子孔径图像。
在步骤S402中,通过特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的子孔径图像的不同尺度特征。
在步骤S403中,通过特征融合模块采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征。
在步骤S404中,通过视差回归模块将多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于预测视差图得到无监督光场视差估计结果。
可选地,将多个特征融合后的图像特征映射到视差图像,得到预测视差图,包括:
基于预设的多个视差范围预测每个视差的概率;
根据每个视差的概率将多个特征融合后的图像特征映射到视差图像后,加权平均计算得到预测视差图。
可选地,上述的基于遮挡感知的无监督光场视差估计方法,还包括:
基于子孔径图像梯度图将预测视差图和光场中心视角图像和对齐输出,得到最终视差图;
根据最终视差图进行光场重采样,并根据采样结果和预设的遮挡模式计算得到最优遮挡模式,基于最优遮挡模式计算光度一致性损失函数,并根据光度一致性损失函数训练神经网络输入模块。
可选地,特征融合模块的输入为不同角度的子孔径图像序列。
可选地,在多个方向为第一至第四方向时,采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,包括:
第一至第四融合分支,第一至第四融合分支与第一至第四方向对应设置,且第一至第四融合分支均采用多头注意力机制对子孔径的不同尺度特征进行特征融合;
其中,第一方向为0°,第二方向为90°,第三方向为45°,第四方向为135°。
需要说明的是,前述对基于遮挡感知的无监督光场视差估计系统实施例的解释说明也适用于该实施例的基于遮挡感知的无监督光场视差估计方法,此处不再赘述。
根据本申请实施例提出的基于遮挡感知的无监督光场视差估计方法,通过神经网络输入模块,从光场图像的多个方向输入子孔径图像,并通过特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的子孔径图像的不同尺度特征,并通过特征融合模块采用注意力机制分别对每个方向的子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,并通过视差回归模块将多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于预测视差图得到无监督光场视差估计结果。由此,解决了相关技术利用唯一的光度一致性线索,导致当实际光场中存在遮挡时,会使光场视差估计整体精度下降的问题,充分分析了光场成像原理以及遮挡发生的一般性规律,通过在网络训练的过程中引导网络自适应学习遮挡模式,排除遮挡视角对于网络优化的影响,实现了高精度、无监督光场视差估计。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于遮挡感知的无监督光场视差估计系统,其特征在于,包括:
神经网络输入模块,用于从光场图像的多个方向输入子孔径图像;
特征提取模块,用于采用权重共享的空间特征金字塔结构提取每个方向的所述子孔径图像的不同尺度特征;
特征融合模块,用于采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征;以及
视差回归模块,用于将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于所述预测视差图得到无监督光场视差估计结果。
2.根据权利要求1所述的系统,其特征在于,还包括:
视差精调模块,用于基于子孔径图像梯度图将所述预测视差图和光场中心视角图像和对齐输出,得到最终视差图;
遮挡感知损失函数模块,用于根据所述最终视差图进行光场重采样,并根据采样结果和预设的遮挡模式计算得到最优遮挡模式,基于所述最优遮挡模式计算光度一致性损失函数,并根据所述光度一致性损失函数训练所述神经网络输入模块。
3.根据权利要求1所述的系统,其特征在于,在所述多个方向为第一至第四方向时,所述特征融合模块包括:
第一至第四融合分支,所述第一至第四融合分支与所述第一至第四方向对应设置,且所述第一至第四融合分支均采用多头注意力机制对所述子孔径的不同尺度特征进行特征融合;
其中,第一方向为0°,第二方向为90°,第三方向为45°,第四方向为135°。
4.根据权利要求3所述的系统,其特征在于,所述特征融合模块的输入为不同角度的子孔径图像序列。
5.根据权利要求1所述的系统,其特征在于,所述视差回归模块包括:
级联的第一至第四卷积残差块,所述第一至第四卷积残差块基于预设的多个视差范围预测每个视差的概率,根据所述每个视差的概率将所述多个特征融合后的图像特征映射到视差图像后,加权平均计算得到所述预测视差图。
6.一种基于遮挡感知的无监督光场视差估计方法,其特征在于,采用如权利要求1-5任一项所述的基于遮挡感知的无监督光场视差估计系统,其中,所述方法包括以下步骤:
通过所述神经网络输入模块从光场图像的多个方向输入子孔径图像;
通过所述特征提取模块采用权重共享的空间特征金字塔结构提取每个方向的所述子孔径图像的不同尺度特征;
通过所述特征融合模块采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征;以及
通过所述视差回归模块将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,并基于所述预测视差图得到无监督光场视差估计结果。
7.根据权利要求6所述的方法,其特征在于,还包括:
基于子孔径图像梯度图将所述预测视差图和光场中心视角图像和对齐输出,得到最终视差图;
根据所述最终视差图进行光场重采样,并根据采样结果和预设的遮挡模式计算得到最优遮挡模式,基于所述最优遮挡模式计算光度一致性损失函数,并根据所述光度一致性损失函数训练所述神经网络输入模块。
8.根据权利要求6所述的方法,其特征在于,在所述多个方向为第一至第四方向时,所述采用注意力机制分别对每个方向的所述子孔径的不同尺度特征进行特征融合,得到多个特征融合后的图像特征,包括:
第一至第四融合分支,所述第一至第四融合分支与所述第一至第四方向对应设置,且所述第一至第四融合分支均采用多头注意力机制对所述子孔径的不同尺度特征进行特征融合;
其中,第一方向为0°,第二方向为90°,第三方向为45°,第四方向为135°。
9.根据权利要求8所述的方法,其特征在于,所述特征融合模块的输入为不同角度的子孔径图像序列。
10.根据权利要求6所述的方法,其特征在于,所述将所述多个特征融合后的图像特征映射到视差图像,得到预测视差图,包括:
基于预设的多个视差范围预测每个视差的概率;
根据所述每个视差的概率将所述多个特征融合后的图像特征映射到视差图像后,加权平均计算得到所述预测视差图。
CN202210407317.1A 2022-04-18 2022-04-18 基于遮挡感知的无监督光场视差估计系统及方法 Active CN114511609B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210407317.1A CN114511609B (zh) 2022-04-18 2022-04-18 基于遮挡感知的无监督光场视差估计系统及方法
PCT/CN2022/104417 WO2023201903A1 (zh) 2022-04-18 2022-07-07 基于遮挡感知的无监督光场视差估计系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210407317.1A CN114511609B (zh) 2022-04-18 2022-04-18 基于遮挡感知的无监督光场视差估计系统及方法

Publications (2)

Publication Number Publication Date
CN114511609A true CN114511609A (zh) 2022-05-17
CN114511609B CN114511609B (zh) 2022-09-02

Family

ID=81554878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210407317.1A Active CN114511609B (zh) 2022-04-18 2022-04-18 基于遮挡感知的无监督光场视差估计系统及方法

Country Status (2)

Country Link
CN (1) CN114511609B (zh)
WO (1) WO2023201903A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897952A (zh) * 2022-05-30 2022-08-12 中国测绘科学研究院 一种自适应遮挡的单张光场影像准确深度估计方法及系统
WO2023201903A1 (zh) * 2022-04-18 2023-10-26 清华大学 基于遮挡感知的无监督光场视差估计系统及方法
CN117474922A (zh) * 2023-12-27 2024-01-30 中国科学院长春光学精密机械与物理研究所 一种基于内联遮挡处理的抗噪光场深度测量方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475088B (zh) * 2023-12-25 2024-03-19 浙江优众新材料科技有限公司 基于极平面注意力的光场重建模型训练方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200273192A1 (en) * 2019-02-26 2020-08-27 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202000016054A1 (it) * 2020-07-02 2022-01-02 Univ Bologna Alma Mater Studiorum Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori
CN113705796B (zh) * 2021-09-28 2024-01-02 太原科技大学 基于epi特征强化的光场深度获取卷积神经网络
CN114511609B (zh) * 2022-04-18 2022-09-02 清华大学 基于遮挡感知的无监督光场视差估计系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200273192A1 (en) * 2019-02-26 2020-08-27 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张亚男: ""基于光场信息的目标深度估计"", 《中国优秀硕士论文电子期刊网》 *
晏旭等: ""基于编码-解码器架构的光场深度估计方法"", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023201903A1 (zh) * 2022-04-18 2023-10-26 清华大学 基于遮挡感知的无监督光场视差估计系统及方法
CN114897952A (zh) * 2022-05-30 2022-08-12 中国测绘科学研究院 一种自适应遮挡的单张光场影像准确深度估计方法及系统
CN117474922A (zh) * 2023-12-27 2024-01-30 中国科学院长春光学精密机械与物理研究所 一种基于内联遮挡处理的抗噪光场深度测量方法及系统
CN117474922B (zh) * 2023-12-27 2024-04-02 中国科学院长春光学精密机械与物理研究所 一种基于内联遮挡处理的抗噪光场深度测量方法及系统

Also Published As

Publication number Publication date
WO2023201903A1 (zh) 2023-10-26
CN114511609B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114511609B (zh) 基于遮挡感知的无监督光场视差估计系统及方法
CN108074218B (zh) 基于光场采集装置的图像超分辨率方法及装置
CN109791697B (zh) 使用统计模型从图像数据预测深度
EP1303839B1 (en) System and method for median fusion of depth maps
KR20210002606A (ko) 의료 영상 처리 방법 및 장치, 전자 기기 및 저장 매체
CN113160068B (zh) 基于图像的点云补全方法及系统
EP3035285B1 (en) Method and apparatus for generating an adapted slice image from a focal stack
Zhu et al. Deep learning for multi-view stereo via plane sweep: A survey
CN109949354B (zh) 一种基于全卷积神经网络的光场深度信息估计方法
KR102289239B1 (ko) 시차 추정 시스템, 방법, 전자 장치 및 컴퓨터 판독 가능한 저장 매체
CN110458952B (zh) 一种基于三目视觉的三维重建方法和装置
CN115953535A (zh) 三维重建方法、装置、计算设备和存储介质
US20110001791A1 (en) Method and system for generating and displaying a three-dimensional model of physical objects
EP2335220A2 (en) Method for distributed and minimum-support point matching in two or more images of 3d scene taken with video or stereo camera.
CN115314635B (zh) 用于离焦量确定的模型训练方法及装置
CN113989758A (zh) 一种用于自动驾驶的锚引导3d目标检测方法及装置
CN114445473B (zh) 基于深度学习算子的立体匹配方法和系统
CN114742875A (zh) 基于多尺度特征提取和自适应聚合的双目立体匹配方法
CN112465704A (zh) 一种全局-局部自适应优化的全景光场拼接方法
CN111105370A (zh) 图像处理方法、图像处理装置、电子设备和可读存储介质
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN116563807A (zh) 模型训练方法、装置、电子设备及存储介质
CN104732508B (zh) 基于分布式压缩感知的图像融合方法
EP3350770A1 (en) An apparatus and a method for generating data representing a pixel beam

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant