CN112767466A - 一种基于多模态信息的光场深度估计方法 - Google Patents

一种基于多模态信息的光场深度估计方法 Download PDF

Info

Publication number
CN112767466A
CN112767466A CN202110075849.5A CN202110075849A CN112767466A CN 112767466 A CN112767466 A CN 112767466A CN 202110075849 A CN202110075849 A CN 202110075849A CN 112767466 A CN112767466 A CN 112767466A
Authority
CN
China
Prior art keywords
focal
light field
depth
value
stack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110075849.5A
Other languages
English (en)
Other versions
CN112767466B (zh
Inventor
朴永日
张淼
吉新新
张玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110075849.5A priority Critical patent/CN112767466B/zh
Publication of CN112767466A publication Critical patent/CN112767466A/zh
Application granted granted Critical
Publication of CN112767466B publication Critical patent/CN112767466B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于多模态信息的光场深度估计方法,包括:使用基于微透镜阵列的光场相机采集光场图像数据,得到四维光场图像阵列,提取其中最中心的一个视角图像作为中心视图,并导出一组焦点切片作为焦点堆栈,进行数据扩容;构建卷积神经网络,将焦点堆栈和对应中心视图作为网络模型的输入,得到焦点堆栈流的输入张量和中心视图流的输入张量;训练构建的卷积神经网络;利用训练好的神经网络在光场测试集上进行测试,并在手机采集的实际聚焦切片上进行验证。本发明提供的光场深度估计方法能够充分利用光场多模态信息,在光场数据集上实现更加准确的深度估计;获得的深度信息更加完整、边缘更加清晰;可实现于普通消费级手机端的实际应用。

Description

一种基于多模态信息的光场深度估计方法
技术领域
本发明涉及光场深度估计技术领域,尤其涉及一种基于多模态信息的光场深度估计方法。
背景技术
深度估计是三维重建过程中的关键问题,其目的是获得目标物体与摄影者之间的距离信息。场景的深度信息可以帮助人们更好地理解场景的几何结构,同时为其他视觉任务提供了数据支持,在场景复原、动作识别和显著性检测等领域有着重要的应用。因此,深度估计成为了计算机视觉中的热点研究问题。
常见的深度估计方法通常从传统相机捕捉的单幅或多幅二维图像中提取场景深度信息。但由于传统相机的成像过程仅仅考虑了光线的强度信息,忽略了它的方向信息,所以基于单张二维图像的深度估计总是存在深度的不确定性问题,得到的深度图准确度比较低。不同于传统的成像设备,光场相机可以通过一次捕获同时记录光线的空间和角度信息,额外的角度信息更好地反映了场景的深度信息。因此,基于光场图像的深度估计成为了研究者关注的热点。传统的光场深度估计方法通常构建各种代价函数,基于优化的策略从不同光场数据中提取准确的深度信息,但是其时间成本相对较高,对先验知识的依赖性强。考虑到这些先验在描述复杂场景时的局限性,所以传统的光场深度估计方法在泛化到不同场景时面临一些困难。
随着深度学习的发展,基于卷积神经网络的光场深度估计应运而生,由于其能够很好地提取图像特征且不需要人为干预,极大的提高了方法的泛化性。大多数基于卷积神经网络的光场深度估计方法从极平面图像(EPI)或子孔径图像中捕获深度线索,而较少关注焦点堆栈。焦点堆栈由一系列聚焦在不同深度的切片组成,其可以聚焦于不同深度范围内的对象,使观察者立即了解场景中沿深度方向排列对象的顺序,更加符合人类的视觉感知机制。而且,基于焦点堆栈的深度估计可以获得更多的细节信息,因此,一些研究者将目光投向了焦点堆栈。
现有基于深度学习的焦点堆栈深度估计方法可分为两类:(1)独立使用焦点堆栈,该方法将深度估计问题视作回归问题,以若干个沿通道维度级联的焦点切片作为输入,通过堆积大量的简单二维卷积层端到端地进行训练以计算深度。但是,由于每个像素的深度值的计算依赖相邻像素,而在局部图像信息不明确的非聚焦像素点处,现有的方法很难通过有限的感受野预测每一像素准确的深度值。(2)引入全聚焦信息,该方法采用两个独立的支路分别从焦点堆栈和中心视角图像提取深度语义和结构信息,并将中心视角的结构信息作为局部引导,通过乘法操作实现两路特征的后期融合。但是,简单的后期融合并不能很好地捕获交叉模态之间的互补性。这些问题使得预测的深度图精确性较低,在一些挑战性场景下存在很大的改善空间,是基于焦点堆栈的深度估计需要重点关注的问题。
发明内容
有鉴于此,本发明提出一种基于多模态信息的光场深度估计方法,该方法基于深度学习从焦点堆栈和中心视图提取并融合多模态信息以获得更加准确的深度预测。
本发明采用的技术手段如下:
本发明提供了一种基于多模态信息的光场深度估计方法,包括以下步骤:
步骤1、使用基于微透镜阵列的光场相机采集光场图像数据,得到四维光场图像阵列,提取光场图像阵列中最中心的一幅视角图像作为中心视图,并导出一组焦点切片{I1,I2...IN}作为焦点堆栈,其中N表示切片的个数,焦点堆栈图像和中心视图的空间分辨率均为H×W;
步骤2、对所述焦点堆栈图像和中心视图进行数据扩容;
步骤3、构建卷积神经网络,将焦点堆栈和对应中心视图作为网络模型的输入,得到焦点堆栈流的输入张量N×H×W×3和中心视图流的输入张量H×W×3;其中,H和W表示图像的长和宽;其中,所述卷积神经网络模型由编码器和解码器两部分组成;所述编码器部分采用对称的双流网络分别从焦点堆栈和中心视图提取焦点堆栈流和中心视图流;所述解码器部分包括若干个注意力引导的交叉融合模块和解码层;构建卷积神经网络,包括:分别利用VGG-16作为主干网络从焦点堆栈和中心视图学习原始特征;接着利用上下文推理单元从成对的焦点堆栈和中心视图原始特征提取内部空间相关性信息;然后利用注意力引导的交叉融合模块集成来自上下文推理单元的空间相关性信息;最后利用解码层解码特征;
步骤4、训练构建的卷积神经网络,以真值深度图作为监督信号,利用代价损失函数训练模型,采用BP算法调整网络卷积层的系数,直至网络模型参数收敛,保存模型文件;
步骤5、利用训练好的神经网络在光场测试集上进行测试,并在手机采集的一系列聚焦切片上进行验证。
进一步地,对所述焦点堆栈图像和中心视图进行数据扩容,包括:
以处于取值范围[1,1.5]的尺度缩放因子对焦点切片和中心视图进行缩放;和/或,
以处于取值范围[-5,5]的旋转角度对焦点切片和中心视图进行随机旋转;和/或,
以50%的概率随机水平翻转焦点切片和中心视图;和/或,
在范围[0.6,1.4]内通过均匀采样实现亮度,对比度和饱和度的随机变化,以对焦点切片和中心视图进行色彩变换。
进一步地,双流网络的每一流均包括两个部分:主干网络和若干个上下文推理单元;
所述主干网络由VGG-16实现,包含Block1,Block2,Block3,Block4和Block5 5个卷积块,且丢弃了VGG-16最后的池化层和全连接层;针对焦点堆栈{I1,I2...IN}和中心视图I0,获得Block3,Block4和Block5的侧边输出Ffocal_i和Frgb_i,i=3,4,5;
所述上下文推理单元基于空洞卷积和图卷积实现,上下文推理单元由三个分支组成,顶部是一个短连接操作,由一个1×1的卷积运算实现;中间分支是多重空洞卷积操作,由跨通道学习器和空洞空间卷积池化金字塔组成,其通过1×1卷积运算学习复杂的通道交互,并通过膨胀率为r1、r2、r3的空洞卷积来捕捉不同的图像上下文信息;底部分支是多重图卷积操作,其通过三个并行分支组成,每一并行分支建立的拓补图节点数随输入特征的空间大小动态变化,分别为输入特征的空间大小的
Figure BDA0002907581740000041
所述上下文推理单元以主干网络Block3,Block4和Block5的侧边输出焦点堆栈特征Ffocal_i或中心视图特征Frgb_i作为输入,针对Ffocal_i,将中间分支的输出Fmd和底部分支的输出Fmg进行级联并卷积得到了特征Ff;然后,将Ff与顶部分支的特征Fres相加以获得最终的细化焦点堆栈特征F′focal_i;对于中心视图,则得到细化的中心视图特征F′rgb_i
进一步地,所述注意力引导的交叉融合模块基于多级注意力机制实现,分为两步实现:从上下文推理单元输出的成对焦点堆栈特征F′focal_i和中心视图特征F′rgb_i,i=3,4,5,捕获互补信息以增强特征,获得特征F″focal_i和F″rgb_i;利用多级注意力权重集成增强后的多模态特征F″focal_i和F″rgb_i,得到融合特征Fi
所述解码层采取注意力引导的交叉融合模块的输出特征Fi作为输入,i=3,4,5,采用自顶向下的逐层解码方式,依次经过上采样、级联和卷积得到预测深度图d。
进一步地,所述代价损失函数为:
L=λldepth+μlgrad+νlnormal
其中,ldepth为深度误差的对数,
Figure BDA0002907581740000051
di为像素i处的预测深度值,gi像素i处的真值深度值,n表示真值深度图中像素值不为0的有效像素点个数,ln为取对数操作,α为超参数;
lgrad为深度梯度损失函数,
Figure BDA0002907581740000052
Figure BDA0002907581740000053
为在x方向上第i个像素处||di-gi||1的空间导数;
Figure BDA0002907581740000054
为在y方向上第i个像素处||di-gi||1的空间导数;
lnormal为表面法线损失函数,
Figure BDA0002907581740000055
其取决于预测深度值和真值深度值之间的表面法线精度,其中,<*,*>表示向量的内积,
Figure BDA0002907581740000056
表示真值深度值的表面法线;
Figure BDA0002907581740000057
表示预测深度值的表面法线;
λ,μ,ν为加权系数。
进一步地,所述焦点堆栈包括真实光场数据导出的焦点堆栈和手机采集的一系列聚焦切片。
进一步地,N取值为12,H取值为256,W取值为256。
进一步地,r1取值为3,r2取值为5,r3取值为7,t1取值为4,t2取值为8,t3取值为16。
进一步地,α取值为0.5,λ取值为1,μ的取值为,ν得取值为1。
与现有技术相比,本发明具有以下有益效果:
本发明借助焦点堆栈含有的丰富深度信息和中心视图完整的结构信息,提出了一种基于多模态信息的光场深度估计方法。首先,本发明提出能够有效捕获上下文信息并探索特征间长期依赖的上下文推理单元,其通过多重空洞卷积有效关注场景中的大物体,并通过多重图卷积操作充分推理并建模场景中的对象共现,有效关注场景中的小物体,进而全面探索图像中不同物体和区域之间的内部空间相关性;然后,本发明提出了基于注意力机制的交叉融合模块来融合上下文推理单元提取的空间相关性信息,其多级注意力权重即自注意力权重和关联注意力权重,充分考虑每一特征对预测深度图的贡献,有效弥补了散焦模糊造成的细节损失。基于提出的上下文推理单元和注意力引导的交叉模态融合模块,本发明构建了卷积神经网络。本发明能够充分利用多模态信息以获得深度更加准确,信息更加完整、边缘更加清晰的深度图。本发明不仅对光场数据集有效,而且能够成功地应用于普通消费级手机获取的图像。
基于上述理由本发明在场景深度估计等领域具有良好的应用场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种基于多模态信息的光场深度估计方法流程图;
图2是本发明实施例中整体卷积神经网络的结构示意图;
图3是本发明实施例中上下文推理单元的结构示意图;
图4是本发明实施例中上下文推理单元的多重图卷积子模块的结构示意图;
图5是本发明实施例注意力引导的交叉融合模块的结构示意图;
图6是各光场深度估计方法在真实光场数据集上的对比实验1;
其中,第一列为中心视图,第二列为深度真值,第三列为本发明方法得到的深度图,第四列为PADMM方法得到的深度图,第五列为VDFF方法得到的深度图,第六列为LF-OCC方法得到的深度图,第七列为LF方法得到的深度图,第八列为DDFF方法得到的深度图,第九列为EPINet方法得到的深度图;
图7是各光场深度估计方法在真实光场数据集上的对比实验2;
其中,第一列为中心视图,第二列为深度真值,第三列为本发明方法得到的深度图,第四列为PADMM方法得到的深度图,第五列为VDFF方法得到的深度图,第六列为DDFF方法得到的深度图;
图8是各光场深度估计方法在手机数据集上的对比实验;
其中,第一列为第一组中心视图,第二列为本发明方法得到的第一组深度图,第三列为DDFF方法得到的第一组深度图;第四列为第二组中心视图,第五列为本发明方法得到的第二组深度图,第六列为DDFF方法得到的第二组深度图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,其示出了本发明实施例中一种基于多模态信息的光场深度估计方法的流程示意图,包括以下步骤:
步骤1、使用基于微透镜阵列的光场相机采集光场图像数据,得到四维光场图像阵列,提取光场图像阵列中最中心的一个视角图像作为中心视图,并导出一组焦点切片{I1,I2...IN}作为焦点堆栈,其中N表示切片的个数,焦点堆栈图像和中心视图的空间分辨率均为H×W。
步骤2、对焦点堆栈图像和中心视图进行数据扩容。
为避免过度拟合问题,对焦点堆栈和中心视图采取同样的扩容方式,以保证所有图像相对彼此处于正确的变换状态。
使用的数据扩容方式具体为:
(1)选择处于取值范围[1,1.5]的尺度缩放因子对焦点切片和中心视图进行缩放;
(2)选择处于取值范围[-5,5]的旋转角度对焦点切片和中心视图进行随机旋转;
(3)以50%的概率随机水平翻转焦点切片和中心视图;
(4)在范围[0.6,1.4]内通过均匀采样实现亮度,对比度和饱和度的随机变化,以对焦点切片和中心视图进行色彩变换。
上述四种方式可以同时应用,也可以仅采用任一种。
步骤3、构建卷积神经网络,将焦点堆栈和对应中心视图作为网络模型的输入,得到焦点堆栈流的输入张量N×H×W×3和中心视图流的输入张量H×W×3,其中,H和W表示图像的长和宽。
首先,分别利用VGG-16作为主干网络从焦点堆栈和中心视图学习原始特征;接着利用上下文推理单元从成对的焦点堆栈和中心视图原始特征提取内部空间相关性信息;然后利用注意力引导的交叉融合模块集成来自上下文推理单元的空间相关性信息;最后利用解码层解码特征。
进一步地,焦点堆栈由一系列聚焦在不同深度的焦点切片组成。每一焦点切片均包含聚焦区域和非聚焦区域,非聚焦区域在表现深度信息的同时也带来了局部信息不明确的问题。由于每个像素深度值的计算与其相邻像素密切相关,当局部图像信息不明确时,现有方法有限的感受野限制了每一像素预测深度值的准确性。而且,焦点切片中的散焦模糊可能会导致细节损失,从而对预测深度图的准确性造成负面影响。现有方法将中心视角的结构信息作为局部引导,并通过乘法操作融合中心视图特征和焦点堆栈特征。但是简单的后期融合无法很好地捕获交叉模态之间的互补性。为了获得更加准确、信息更加完整的深度图,本发明基于图卷积和空洞卷积的上下文推理单元来捕获上下文信息并探索特征的长范围依赖关系,并运用基于注意力机制的交叉模态融合模块来集成多模态信息以实现其对预测结果的最大贡献。
如图2所示,本发明中构建的卷积神经网络模型由编码器和解码器两部分组成,旨在从焦点堆栈和中心视图提取特征并将多模态特征有效融合。其中,编码器部分采用对称的双流网络分别从焦点堆栈和中心视图提取特征:即焦点堆栈流和中心视图流。每一流均包括两个部分:即主干网络和多个上下文推理单元。解码器部分包括多个注意力引导的交叉融合模块和解码层。整个卷积神经网络模型的构建包括如下步骤:
3.1确定编码器的主干网络
编码器采用对称的双流网络。每一流的主干网络均由VGG-16实现,包含Block1,Block2,Block3,Block4和Block5 5个卷积块,且丢弃了VGG-16最后的池化层和全连接层。针对焦点堆栈{I1,I2...IN}和中心视图I0,获得Block3,Block4和Block5的侧边输出Ffocal_i和Frgb_i(i=3,4,5)。
3.2确定编码器的上下文推理单元(CRU)
编码器的上下文推理单元基于空洞卷积和图卷积实现。多重空洞卷积捕获场景中大物体之间的空间相关性,多重图卷积捕获图像中更多的抽象特征,以关注场景中细小的物体。
如图3所示,上下文推理单元由三个分支组成:顶部是一个短连接操作,由一个1×1的卷积运算实现;中间分支是多重空洞卷积操作,由跨通道学习器和空洞空间卷积池化金字塔组成,其通过1×1卷积运算学习复杂的通道交互,并通过膨胀率为r1、r2、r3的空洞卷积来捕捉不同的图像上下文信息;底部分支是多重图卷积操作。
上下文推理单元将主干网络Block3,Block4和Block5的侧边输出焦点堆栈特征Ffocal_i或中心视图特征Frgb_i(i=3,4,5)作为输入。
以Ffocal_i为例,上下文推理单元首先利用顶部分支的短连接从Ffocal_i学习残差信息Fres;其次,利用中间分支的多重空洞卷积fmd从Ffocal_i学习特征表示Fmd,以对较大物体之间的空间相关性进行建模;接着,利用底部分支的多重图卷积fmg从Ffocal_i学习特征表示Fmg,以更好的适应场景中的细小物体。最后,将Fmd和Fmg进行级联并卷积得到特征Ff,并将特征Ff与Fres相加以获得细化焦点堆栈特征Ff'ocal_i
对于中心视图,则得到细化的中心视图特征F′rgb_i
其实现过程如下式所示:
Fres=Conv(Ffocal_i) (1)
Fmd=fmd(Ffocal_i) (2)
Fmg=fmg(Ffocal_i) (3)
Ff=Conv(Cat(Fmg,Fmd)) (4)
Ff'ocal_i=Ff+Fres (5)
其中,Conv表示卷积操作,Cat表示级联操作,fmd表示多重空洞卷积操作,fmg表示多重图卷积操作。
下面对多重图卷积操作进行具体说明。
如图4所示,本发明中,对于给定的输入特征X=Ffocal_i,多重图卷积操作通过三个并行分支建立三个节点拓扑图,以细化空间关系。在第j(j=1,2,3)个分支中,其实现过程分为三个步骤:
(a)空间映射:使用ψj(X)对输入特征X降维,并利用映射函数
Figure BDA0002907581740000111
将输入特征X从坐标空间映射到交互空间,得到交互空间的新特征Vj。每一新特征Vj的生成如公式(6)所示:
Figure BDA0002907581740000112
其中,ψj(X)由具有(Cj<C)通道的1×1卷积层实现,
Figure BDA0002907581740000113
由具有Tj=(W×H)/tj通道的1×1卷积层实现,Tj表示拓补图中的节点数,其根据输入特征的空间大小动态变化,为输入特征的空间大小的
Figure BDA0002907581740000114
以从不同尺度进行区域覆盖,对区域级线索的信息进行建模和通信,
Figure BDA0002907581740000115
表示矩阵乘法操作。
(b)特征图卷积:通过沿通道和节点方向的两个1D卷积建立拓补图,并利用拓补图进行关系推理。在交互空间中建立具有节点vj,边εj和邻接矩阵Aj的全连接图Gj=(vjj,Aj)。利用邻接矩阵Aj和特定层的可训练边缘权重Wj,可以在节点之间传播信息以获得节点特征矩阵Mj。Mj的生成如公式(7)所示:
Figure BDA0002907581740000116
其中,Aj的每一点的取值Aj_pq受区域p和区域q的影响,若区域p与区域q相邻,则Aj_pq=1,否则Aj_pq=0。所以,上下文推理问题就可以被简化为节点之间的交互性捕获问题。
(c)反向映射:推理完成后,利用反向映射函数
Figure BDA0002907581740000121
将特征Mj从交互空间映射到坐标空间,获得特征Yj。Yj的生成如公式(8)所示:
Figure BDA0002907581740000122
为更好的与现有的卷积神经网络架构兼容并适应残差信息的引入操作,通过三个1×1卷积层将每一分支的输出特征Y1,Y2,Y3分别扩展到原始尺寸,并将其与原始特征X相加以得到最后的特征Fmg。Mj的生成如式(9)所示:
Fmg=X+Conv(Y1)+Conv(Y2)+Conv(Y3) (9)
其中,Conv表示1×1的升维卷积。
3.3确定解码器的注意力引导的交叉融合模块(CMFA):
注意力引导的交叉融合模块基于多级注意力机制实现。此模块关注不同焦点切片特征和中心视图特征对最终预测结果的贡献,有效集成焦点切片中的隐式深度信息和中心视图中的丰富内容信息。如图5所示,此模块分为两步实现:
(A)首先引入简单3D卷积和2D卷积实现跨模态残差连接,从成对的特征F′focal_i和F′rgb_i(i=3,4,5)中捕获互补信息并将互补信息分别加到对应的特征中。然后采用一个1×1的2D卷积深入学习从而获得增强后的成对特征F″focal_i和F″rgb_i
(B)将增强的焦点堆栈特征F″focal_i和中心视图特征F″rgb_i沿切片维度级联,并将级联后的特征
Figure BDA0002907581740000123
(S=13)视作S个切片特征的集合。首先,为每个切片特征fi j分配粗略的自注意力权重γj,并将所有切片特征初步集成得到全局特征Fi_1。然后,考虑到Fi_1包含所有焦点切片完整的深度信息和中心视图的结构信息,故将每个切片特征与全局特征再次进行关联学习,利用关联权重λj对所有切片特征进行集成得到细化特征表示Fi_2。最后,通过对Fi_2进行简单卷积,获得最终的融合结果Fi。直观地理解,其实现过程如下式所示:
γj=σ(fc(dropout(avgpool(fi j)))) (10)
Figure BDA0002907581740000131
λj=σ(fc(dropout(avgpool(Cat(fi j,Fi_1))))) (12)
Figure BDA0002907581740000132
Fi=Conv(Fi_2) (14)
其中,σ表示sigmoid函数,avgpool表示平均池化,dropout表示随机失活,fc表示全连接操作,Cat表示级联操作,γj表示第j个切片的自注意力权重,λj维第j个切片的关联权重。此模块有效利用了焦点堆栈和中心视图之间的互补性。
3.4确定解码器的解码层:
解码层采取注意力引导的交叉融合模块的输出特征Fi(i=3,4,5)作为输入,采用自顶向下的逐层解码方式,依次经过上采样、级联和卷积得到预测深度图d。
步骤4、训练构建的卷积神经网络,以真值深度图作为监督信号,利用代价损失函数训练模型,采用BP算法调整网络卷积层的系数,直至网络模型参数收敛,保存模型文件;
本发明实施例在Pytorch框架下实现。焦点堆栈流和中心视图流的主干网络均采用在ImageNet数据集训练的参数进行初始化,其他模块进行随机初始化。在训练期间,焦点堆栈及其对应的中心视图空间分辨率为256×256。网络优化采用自适应矩估计算法,训练过程学习率初始化为le-4,迭代30个周期后调整为3×le-4,再迭代20个周期。考虑到输入数据的尺寸与数量,网络加载数据的batchsize设置为1。
而且,通过以下代价函数优化网络参数:
Figure BDA0002907581740000141
Figure BDA0002907581740000142
Figure BDA0002907581740000143
L=λldepth+μlgrad+νlnormal (17)
公式(14)中,ldepth为深度误差的对数,di为像素i处的预测深度值,gi像素i处的真值深度值,n表示真值深度图中像素值不为0的有效像素点个数。ln为取对数操作,α为超参数。
公式(15)中,lgrad为深度梯度损失函数,可处理由CNN训练引起的边缘失真问题,di为像素i处的预测深度值,gi像素i处的真值深度值,
Figure BDA0002907581740000144
为在x方向第i个像素处||di-gi||1的空间导数,
Figure BDA0002907581740000145
为在y方向第i个像素处||di-gi||1的空间导数。
公式(16)中,lnormal为表面法线损失函数,其值取决于预测深度值和真值深度值之间的表面法线精度,其中,<*,*>表示向量的内积,
Figure BDA0002907581740000146
表示真值深度值的表面法线;
Figure BDA0002907581740000147
表示预测深度值的表面法线。
公式(17)中,L为本发明采用的总代价函数,其中,λ,μ,ν为加权系数。
步骤5、利用训练好的神经网络在光场测试集上进行测试,并在手机采集的一系列聚焦切片上进行验证。
将训练好的网络在两个光场数据集和一个手机数据集上进行测试。此手机数据集是由手机通过自动聚焦捕获的。每个场景都包含一系列聚焦在不同深度的聚焦切片。每个图像的大小为640×340。为适应训练好的网络参数,将其空间分辨率重新尺度化256×256。
为证明本发明所提供的方法的优势,将本方法与其他方法在两个光场数据集上进行了两组对比实验,这些方法涵盖了非深度学习方法(PADMM,VDFF,LF_OCC,LF)和基于深度学习的方法(DDFF,EPINet)。对比实验1效果图如图6所示,对比实验2效果图如图7所示。在手机采集的数据集上,本方法与基于焦点堆栈的DDFF进行了对比实验,实验结果如图8所示。从上述图中可明显地观察出本发明所提供的方法深度估计结果最准确,细节信息最完整,边缘最清晰。而且,本发明能够很好地处理各种挑战性场景,如相似的前景和背景,多个物体,透明的对象以及复杂的背景。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种基于多模态信息的光场深度估计方法,其特征在于,包括以下步骤:
步骤1、使用基于微透镜阵列的光场相机采集光场图像数据,得到四维光场图像阵列,提取光场图像阵列中最中心的一幅视角图像作为中心视图,并导出一组焦点切片{I1,I2...IN}作为焦点堆栈,其中N表示切片的个数,焦点堆栈图像和中心视图的空间分辨率均为H×W;
步骤2、对所述焦点堆栈图像和中心视图进行数据扩容;
步骤3、构建卷积神经网络,将焦点堆栈和对应中心视图作为网络模型的输入,得到焦点堆栈流的输入张量N×H×W×3和中心视图流的输入张量H×W×3;其中,H和W表示图像的长和宽;其中,所述卷积神经网络模型由编码器和解码器两部分组成;所述编码器部分采用对称的双流网络分别从焦点堆栈和中心视图提取焦点堆栈流和中心视图流;所述解码器部分包括若干个注意力引导的交叉融合模块和解码层;构建卷积神经网络,包括:分别利用VGG-16作为主干网络从焦点堆栈和中心视图学习原始特征;接着利用上下文推理单元从成对的焦点堆栈和中心视图原始特征提取内部空间相关性信息;然后利用注意力引导的交叉融合模块集成来自上下文推理单元的空间相关性信息;最后利用解码层解码特征;
步骤4、训练构建的卷积神经网络,以真值深度图作为监督信号,利用代价损失函数训练模型,采用BP算法调整网络卷积层的系数,直至网络模型参数收敛,保存模型文件;
步骤5、利用训练好的神经网络在光场测试集上进行测试,并在手机采集的一系列聚焦切片上进行验证。
2.根据权利要求1所述的基于多模态信息的光场深度估计方法,其特征在于,对所述焦点堆栈图像和中心视图进行数据扩容,包括:
以处于取值范围[1,1.5]的尺度缩放因子对焦点切片和中心视图进行缩放;和/或,
以处于取值范围[-5,5]的旋转角度对焦点切片和中心视图进行随机旋转;和/或,
以50%的概率随机水平翻转焦点切片和中心视图;和/或,
在范围[0.6,1.4]内通过均匀采样实现亮度,对比度和饱和度的随机变化,以对焦点切片和中心视图进行色彩变换。
3.根据权利要求1所述的基于多模态信息的光场深度估计方法,其特征在于,双流网络的每一流均包括两个部分:主干网络和若干个上下文推理单元;
所述主干网络由VGG-16实现,包含Block1,Block2,Block3,Block4和Block5 5个卷积块,且丢弃了VGG-16最后的池化层和全连接层;针对焦点堆栈{I1,I2...IN}和中心视图I0,获得Block3,Block4和Block5的侧边输出Ffocal_i和Frgb_i,i=3,4,5;
所述上下文推理单元基于空洞卷积和图卷积实现,上下文推理单元由三个分支组成,顶部是一个短连接操作,由一个1×1的卷积运算实现;中间分支是多重空洞卷积操作,由跨通道学习器和空洞空间卷积池化金字塔组成,其通过1×1卷积运算学习复杂的通道交互,并通过膨胀率为r1、r2、r3的空洞卷积来捕捉不同的图像上下文信息;底部分支是多重图卷积操作,其通过三个并行分支组成,每一并行分支建立的拓补图节点数随输入特征的空间大小动态变化,分别为输入特征的空间大小的
Figure FDA0002907581730000021
Figure FDA0002907581730000022
所述上下文推理单元以主干网络Block3,Block4和Block5的侧边输出焦点堆栈特征Ffocal_i或中心视图特征Frgb_i作为输入,针对Ffocal_i,将中间分支的输出Fmd和底部分支的输出Fmg进行级联并卷积得到了特征Ff;然后,将Ff与顶部分支的特征Fres相加以获得最终的细化焦点堆栈特征F′focal_i;对于中心视图,则得到细化的中心视图特征F′rgb_i
4.根据权利要求3所述的基于多模态信息的光场深度估计方法,其特征在于,所述注意力引导的交叉融合模块基于多级注意力机制实现,分为两步实现:从上下文推理单元输出的成对焦点堆栈特征F′focal_i和中心视图特征F′rgb_i,i=3,4,5,捕获互补信息以增强特征,获得特征F″focal_i和F″rgb_i;利用多级注意力权重集成增强后的多模态特征F″focal_i和F″rgb_i,得到融合特征Fi
所述解码层采取注意力引导的交叉融合模块的输出特征Fi作为输入,i=3,4,5,采用自顶向下的逐层解码方式,依次经过上采样、级联和卷积得到预测深度图d。
5.根据权利要求1所述的基于多模态信息的光场深度估计方法,其特征在于,所述代价损失函数为:
L=λldepth+μlgrad+νlnormal
其中,ldepth为深度误差的对数,
Figure FDA0002907581730000031
di为像素i处的预测深度值,gi像素i处的真值深度值,n表示真值深度图中像素值不为0的有效像素点个数,ln为取对数操作,α为超参数;
lgrad为深度梯度损失函数,
Figure FDA0002907581730000032
Figure FDA0002907581730000033
为在x方向上第i个像素处||di-gi||1的空间导数;
Figure FDA0002907581730000034
为在y方向上第i个像素处||di-gi||1的空间导数;
lnormal为表面法线损失函数,
Figure FDA0002907581730000035
其取决于预测深度值和真值深度值之间的表面法线精度,其中,<*,*>表示向量的内积,
Figure FDA0002907581730000036
表示真值深度值的表面法线;
Figure FDA0002907581730000041
表示预测深度值的表面法线;
λ,μ,ν为加权系数。
6.根据权利要求1所述的基于多模态信息的光场深度估计方法,其特征在于,所述焦点堆栈包括真实光场数据导出的焦点堆栈和手机采集的一系列聚焦切片。
7.根据权利要求1所述的基于多模态信息的光场深度估计方法,其特征在于,N取值为12,H取值为256,W取值为256。
8.根据权利要求3所述的基于多模态信息的光场深度估计方法,其特征在于,r1取值为3,r2取值为5,r3取值为7,t1取值为4,t2取值为8,t3取值为16。
9.根据权利要求5所述基于多模态信息的光场深度估计方法,其特征在于,α取值为0.5,λ取值为1,μ的取值为,ν得取值为1。
CN202110075849.5A 2021-01-20 2021-01-20 一种基于多模态信息的光场深度估计方法 Active CN112767466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110075849.5A CN112767466B (zh) 2021-01-20 2021-01-20 一种基于多模态信息的光场深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110075849.5A CN112767466B (zh) 2021-01-20 2021-01-20 一种基于多模态信息的光场深度估计方法

Publications (2)

Publication Number Publication Date
CN112767466A true CN112767466A (zh) 2021-05-07
CN112767466B CN112767466B (zh) 2022-10-11

Family

ID=75703564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110075849.5A Active CN112767466B (zh) 2021-01-20 2021-01-20 一种基于多模态信息的光场深度估计方法

Country Status (1)

Country Link
CN (1) CN112767466B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327299A (zh) * 2021-07-07 2021-08-31 北京邮电大学 一种基于联合采样结构的神经网络光场方法
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113642572A (zh) * 2021-07-15 2021-11-12 上海交通大学 一种基于多级注意力的图像目标检测方法、系统与装置
CN114511605A (zh) * 2022-04-18 2022-05-17 清华大学 光场深度估计方法、装置、电子设备及存储介质
CN114549863A (zh) * 2022-04-27 2022-05-27 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN115983369A (zh) * 2023-02-03 2023-04-18 电子科技大学 快速估计自动驾驶深度视觉感知神经网络不确定性的方法
CN116168067A (zh) * 2022-12-21 2023-05-26 东华大学 基于深度学习的有监督多模态光场深度估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993260A (zh) * 2017-12-14 2018-05-04 浙江工商大学 一种基于混合型卷积神经网络的光场图像深度估计方法
CN112150526A (zh) * 2020-07-27 2020-12-29 浙江大学 一种基于深度学习的光场图像深度估计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993260A (zh) * 2017-12-14 2018-05-04 浙江工商大学 一种基于混合型卷积神经网络的光场图像深度估计方法
CN112150526A (zh) * 2020-07-27 2020-12-29 浙江大学 一种基于深度学习的光场图像深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王硕等: "基于多流对极卷积神经网络的光场图像深度估计", 《计算机应用与软件》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506336A (zh) * 2021-06-30 2021-10-15 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113506336B (zh) * 2021-06-30 2024-04-26 上海师范大学 一种基于卷积神经网络和注意力机制的光场深度预测方法
CN113327299A (zh) * 2021-07-07 2021-08-31 北京邮电大学 一种基于联合采样结构的神经网络光场方法
CN113327299B (zh) * 2021-07-07 2021-12-14 北京邮电大学 一种基于联合采样结构的神经网络光场方法
CN113642572A (zh) * 2021-07-15 2021-11-12 上海交通大学 一种基于多级注意力的图像目标检测方法、系统与装置
CN113642572B (zh) * 2021-07-15 2023-10-27 上海交通大学 一种基于多级注意力的图像目标检测方法、系统与装置
CN114511605A (zh) * 2022-04-18 2022-05-17 清华大学 光场深度估计方法、装置、电子设备及存储介质
CN114549863A (zh) * 2022-04-27 2022-05-27 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN114549863B (zh) * 2022-04-27 2022-07-22 西安电子科技大学 一种基于像素级噪声标签监督的光场显著性目标检测方法
CN116168067A (zh) * 2022-12-21 2023-05-26 东华大学 基于深度学习的有监督多模态光场深度估计方法
CN116168067B (zh) * 2022-12-21 2023-11-21 东华大学 基于深度学习的有监督多模态光场深度估计方法
CN115983369A (zh) * 2023-02-03 2023-04-18 电子科技大学 快速估计自动驾驶深度视觉感知神经网络不确定性的方法

Also Published As

Publication number Publication date
CN112767466B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN112767466B (zh) 一种基于多模态信息的光场深度估计方法
CN112308200B (zh) 神经网络的搜索方法及装置
CN111402130B (zh) 数据处理方法和数据处理装置
Yang et al. Single image haze removal via region detection network
CN110458765B (zh) 基于感知保持卷积网络的图像质量增强方法
CN111582316A (zh) 一种rgb-d显著性目标检测方法
CN110717851A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN111986240A (zh) 基于可见光和热成像数据融合的落水人员检测方法及系统
CN112785637B (zh) 一种基于动态融合网络的光场深度估计方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN112734915A (zh) 一种基于深度学习的多视角立体视觉三维场景重建方法
CN116168067B (zh) 基于深度学习的有监督多模态光场深度估计方法
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
CN117058160B (zh) 基于自适应特征融合网络的三维医学图像分割方法及系统
CN116385326A (zh) 一种基于多目标分割的多光谱图像融合方法、装置及设备
CN115393404A (zh) 双光图像配准方法、装置及设备、存储介质
Zhou et al. Underwater scene segmentation by deep neural network
Silva et al. Light-field imaging reconstruction using deep learning enabling intelligent autonomous transportation system
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN114092540A (zh) 基于注意力机制的光场深度估计方法及计算机可读介质
CN113763417A (zh) 一种基于孪生网络和残差结构的目标跟踪方法
CN112116646A (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN116884074A (zh) 一种基于混合注意力机制的轻量级人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant