CN112767466A

CN112767466A - 一种基于多模态信息的光场深度估计方法

Info

Publication number: CN112767466A
Application number: CN202110075849.5A
Authority: CN
Inventors: 朴永日; 张淼; 吉新新; 张玉坤
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-07
Anticipated expiration: 2041-01-20
Also published as: CN112767466B

Abstract

本发明公开了一种基于多模态信息的光场深度估计方法，包括：使用基于微透镜阵列的光场相机采集光场图像数据，得到四维光场图像阵列，提取其中最中心的一个视角图像作为中心视图，并导出一组焦点切片作为焦点堆栈，进行数据扩容；构建卷积神经网络，将焦点堆栈和对应中心视图作为网络模型的输入，得到焦点堆栈流的输入张量和中心视图流的输入张量；训练构建的卷积神经网络；利用训练好的神经网络在光场测试集上进行测试，并在手机采集的实际聚焦切片上进行验证。本发明提供的光场深度估计方法能够充分利用光场多模态信息，在光场数据集上实现更加准确的深度估计；获得的深度信息更加完整、边缘更加清晰；可实现于普通消费级手机端的实际应用。

Description

一种基于多模态信息的光场深度估计方法

技术领域

本发明涉及光场深度估计技术领域，尤其涉及一种基于多模态信息的光场深度估计方法。

背景技术

深度估计是三维重建过程中的关键问题，其目的是获得目标物体与摄影者之间的距离信息。场景的深度信息可以帮助人们更好地理解场景的几何结构，同时为其他视觉任务提供了数据支持，在场景复原、动作识别和显著性检测等领域有着重要的应用。因此，深度估计成为了计算机视觉中的热点研究问题。

常见的深度估计方法通常从传统相机捕捉的单幅或多幅二维图像中提取场景深度信息。但由于传统相机的成像过程仅仅考虑了光线的强度信息，忽略了它的方向信息，所以基于单张二维图像的深度估计总是存在深度的不确定性问题，得到的深度图准确度比较低。不同于传统的成像设备，光场相机可以通过一次捕获同时记录光线的空间和角度信息，额外的角度信息更好地反映了场景的深度信息。因此，基于光场图像的深度估计成为了研究者关注的热点。传统的光场深度估计方法通常构建各种代价函数，基于优化的策略从不同光场数据中提取准确的深度信息，但是其时间成本相对较高，对先验知识的依赖性强。考虑到这些先验在描述复杂场景时的局限性，所以传统的光场深度估计方法在泛化到不同场景时面临一些困难。

随着深度学习的发展，基于卷积神经网络的光场深度估计应运而生，由于其能够很好地提取图像特征且不需要人为干预，极大的提高了方法的泛化性。大多数基于卷积神经网络的光场深度估计方法从极平面图像(EPI)或子孔径图像中捕获深度线索，而较少关注焦点堆栈。焦点堆栈由一系列聚焦在不同深度的切片组成，其可以聚焦于不同深度范围内的对象，使观察者立即了解场景中沿深度方向排列对象的顺序，更加符合人类的视觉感知机制。而且，基于焦点堆栈的深度估计可以获得更多的细节信息，因此，一些研究者将目光投向了焦点堆栈。

现有基于深度学习的焦点堆栈深度估计方法可分为两类：(1)独立使用焦点堆栈，该方法将深度估计问题视作回归问题，以若干个沿通道维度级联的焦点切片作为输入，通过堆积大量的简单二维卷积层端到端地进行训练以计算深度。但是，由于每个像素的深度值的计算依赖相邻像素，而在局部图像信息不明确的非聚焦像素点处，现有的方法很难通过有限的感受野预测每一像素准确的深度值。(2)引入全聚焦信息，该方法采用两个独立的支路分别从焦点堆栈和中心视角图像提取深度语义和结构信息，并将中心视角的结构信息作为局部引导，通过乘法操作实现两路特征的后期融合。但是，简单的后期融合并不能很好地捕获交叉模态之间的互补性。这些问题使得预测的深度图精确性较低，在一些挑战性场景下存在很大的改善空间，是基于焦点堆栈的深度估计需要重点关注的问题。

发明内容

有鉴于此，本发明提出一种基于多模态信息的光场深度估计方法，该方法基于深度学习从焦点堆栈和中心视图提取并融合多模态信息以获得更加准确的深度预测。

本发明采用的技术手段如下：

本发明提供了一种基于多模态信息的光场深度估计方法，包括以下步骤：

步骤1、使用基于微透镜阵列的光场相机采集光场图像数据，得到四维光场图像阵列，提取光场图像阵列中最中心的一幅视角图像作为中心视图，并导出一组焦点切片{I₁,I₂...I_N}作为焦点堆栈，其中N表示切片的个数，焦点堆栈图像和中心视图的空间分辨率均为H×W；

步骤2、对所述焦点堆栈图像和中心视图进行数据扩容；

步骤3、构建卷积神经网络，将焦点堆栈和对应中心视图作为网络模型的输入，得到焦点堆栈流的输入张量N×H×W×3和中心视图流的输入张量H×W×3；其中，H和W表示图像的长和宽；其中，所述卷积神经网络模型由编码器和解码器两部分组成；所述编码器部分采用对称的双流网络分别从焦点堆栈和中心视图提取焦点堆栈流和中心视图流；所述解码器部分包括若干个注意力引导的交叉融合模块和解码层；构建卷积神经网络，包括：分别利用VGG-16作为主干网络从焦点堆栈和中心视图学习原始特征；接着利用上下文推理单元从成对的焦点堆栈和中心视图原始特征提取内部空间相关性信息；然后利用注意力引导的交叉融合模块集成来自上下文推理单元的空间相关性信息；最后利用解码层解码特征；

步骤4、训练构建的卷积神经网络，以真值深度图作为监督信号，利用代价损失函数训练模型，采用BP算法调整网络卷积层的系数，直至网络模型参数收敛，保存模型文件；

步骤5、利用训练好的神经网络在光场测试集上进行测试，并在手机采集的一系列聚焦切片上进行验证。

进一步地，对所述焦点堆栈图像和中心视图进行数据扩容，包括：

以处于取值范围[1，1.5]的尺度缩放因子对焦点切片和中心视图进行缩放；和/或，

以处于取值范围[-5，5]的旋转角度对焦点切片和中心视图进行随机旋转；和/或，

以50％的概率随机水平翻转焦点切片和中心视图；和/或，

在范围[0.6，1.4]内通过均匀采样实现亮度，对比度和饱和度的随机变化，以对焦点切片和中心视图进行色彩变换。

进一步地，双流网络的每一流均包括两个部分：主干网络和若干个上下文推理单元；

所述主干网络由VGG-16实现，包含Block1，Block2，Block3，Block4和Block5 5个卷积块，且丢弃了VGG-16最后的池化层和全连接层；针对焦点堆栈{I₁,I₂...I_N}和中心视图I₀，获得Block3，Block4和Block5的侧边输出F_{focal_i}和F_{rgb_i}，i＝3，4，5；

所述上下文推理单元基于空洞卷积和图卷积实现，上下文推理单元由三个分支组成，顶部是一个短连接操作，由一个1×1的卷积运算实现；中间分支是多重空洞卷积操作，由跨通道学习器和空洞空间卷积池化金字塔组成，其通过1×1卷积运算学习复杂的通道交互，并通过膨胀率为r₁、r₂、r₃的空洞卷积来捕捉不同的图像上下文信息；底部分支是多重图卷积操作，其通过三个并行分支组成，每一并行分支建立的拓补图节点数随输入特征的空间大小动态变化，分别为输入特征的空间大小的

所述上下文推理单元以主干网络Block3，Block4和Block5的侧边输出焦点堆栈特征F_{focal_i}或中心视图特征F_{rgb_i}作为输入，针对F_{focal_i}，将中间分支的输出F_md和底部分支的输出F_mg进行级联并卷积得到了特征F_f；然后，将F_f与顶部分支的特征F_res相加以获得最终的细化焦点堆栈特征F′_{focal_i}；对于中心视图，则得到细化的中心视图特征F′_{rgb_i}。

进一步地，所述注意力引导的交叉融合模块基于多级注意力机制实现，分为两步实现：从上下文推理单元输出的成对焦点堆栈特征F′_{focal_i}和中心视图特征F′_{rgb_i}，i＝3,4,5，捕获互补信息以增强特征，获得特征F″_{focal_i}和F″_{rgb_i}；利用多级注意力权重集成增强后的多模态特征F″_{focal_i}和F″_{rgb_i}，得到融合特征F_i；

所述解码层采取注意力引导的交叉融合模块的输出特征F_i作为输入，i＝3,4,5，采用自顶向下的逐层解码方式，依次经过上采样、级联和卷积得到预测深度图d。

进一步地，所述代价损失函数为：

L＝λl_depth+μl_grad+νl_normal；

其中，l_depth为深度误差的对数，

d_i为像素i处的预测深度值，g_i像素i处的真值深度值，n表示真值深度图中像素值不为0的有效像素点个数，ln为取对数操作，α为超参数；

l_grad为深度梯度损失函数，

为在x方向上第i个像素处||d_i-g_i||₁的空间导数；

为在y方向上第i个像素处||d_i-g_i||₁的空间导数；

l_normal为表面法线损失函数，

其取决于预测深度值和真值深度值之间的表面法线精度，其中，<*，*>表示向量的内积，

表示真值深度值的表面法线；

表示预测深度值的表面法线；

λ，μ，ν为加权系数。

进一步地，所述焦点堆栈包括真实光场数据导出的焦点堆栈和手机采集的一系列聚焦切片。

进一步地，N取值为12，H取值为256，W取值为256。

进一步地，r₁取值为3，r₂取值为5，r₃取值为7，t₁取值为4，t₂取值为8，t₃取值为16。

进一步地，α取值为0.5，λ取值为1，μ的取值为，ν得取值为1。

与现有技术相比，本发明具有以下有益效果：

本发明借助焦点堆栈含有的丰富深度信息和中心视图完整的结构信息，提出了一种基于多模态信息的光场深度估计方法。首先，本发明提出能够有效捕获上下文信息并探索特征间长期依赖的上下文推理单元，其通过多重空洞卷积有效关注场景中的大物体，并通过多重图卷积操作充分推理并建模场景中的对象共现，有效关注场景中的小物体，进而全面探索图像中不同物体和区域之间的内部空间相关性；然后，本发明提出了基于注意力机制的交叉融合模块来融合上下文推理单元提取的空间相关性信息，其多级注意力权重即自注意力权重和关联注意力权重，充分考虑每一特征对预测深度图的贡献，有效弥补了散焦模糊造成的细节损失。基于提出的上下文推理单元和注意力引导的交叉模态融合模块，本发明构建了卷积神经网络。本发明能够充分利用多模态信息以获得深度更加准确，信息更加完整、边缘更加清晰的深度图。本发明不仅对光场数据集有效，而且能够成功地应用于普通消费级手机获取的图像。

基于上述理由本发明在场景深度估计等领域具有良好的应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种基于多模态信息的光场深度估计方法流程图；

图2是本发明实施例中整体卷积神经网络的结构示意图；

图3是本发明实施例中上下文推理单元的结构示意图；

图4是本发明实施例中上下文推理单元的多重图卷积子模块的结构示意图；

图5是本发明实施例注意力引导的交叉融合模块的结构示意图；

图6是各光场深度估计方法在真实光场数据集上的对比实验1；

其中，第一列为中心视图，第二列为深度真值，第三列为本发明方法得到的深度图，第四列为PADMM方法得到的深度图，第五列为VDFF方法得到的深度图，第六列为LF-OCC方法得到的深度图，第七列为LF方法得到的深度图，第八列为DDFF方法得到的深度图，第九列为EPINet方法得到的深度图；

图7是各光场深度估计方法在真实光场数据集上的对比实验2；

其中，第一列为中心视图，第二列为深度真值，第三列为本发明方法得到的深度图，第四列为PADMM方法得到的深度图，第五列为VDFF方法得到的深度图，第六列为DDFF方法得到的深度图；

图8是各光场深度估计方法在手机数据集上的对比实验；

其中，第一列为第一组中心视图，第二列为本发明方法得到的第一组深度图，第三列为DDFF方法得到的第一组深度图；第四列为第二组中心视图，第五列为本发明方法得到的第二组深度图，第六列为DDFF方法得到的第二组深度图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参见图1，其示出了本发明实施例中一种基于多模态信息的光场深度估计方法的流程示意图，包括以下步骤：

步骤1、使用基于微透镜阵列的光场相机采集光场图像数据，得到四维光场图像阵列，提取光场图像阵列中最中心的一个视角图像作为中心视图，并导出一组焦点切片{I₁,I₂...I_N}作为焦点堆栈，其中N表示切片的个数，焦点堆栈图像和中心视图的空间分辨率均为H×W。

步骤2、对焦点堆栈图像和中心视图进行数据扩容。

为避免过度拟合问题，对焦点堆栈和中心视图采取同样的扩容方式，以保证所有图像相对彼此处于正确的变换状态。

使用的数据扩容方式具体为：

(1)选择处于取值范围[1，1.5]的尺度缩放因子对焦点切片和中心视图进行缩放；

(2)选择处于取值范围[-5，5]的旋转角度对焦点切片和中心视图进行随机旋转；

(3)以50％的概率随机水平翻转焦点切片和中心视图；

(4)在范围[0.6，1.4]内通过均匀采样实现亮度，对比度和饱和度的随机变化，以对焦点切片和中心视图进行色彩变换。

上述四种方式可以同时应用，也可以仅采用任一种。

步骤3、构建卷积神经网络，将焦点堆栈和对应中心视图作为网络模型的输入，得到焦点堆栈流的输入张量N×H×W×3和中心视图流的输入张量H×W×3，其中，H和W表示图像的长和宽。

首先，分别利用VGG-16作为主干网络从焦点堆栈和中心视图学习原始特征；接着利用上下文推理单元从成对的焦点堆栈和中心视图原始特征提取内部空间相关性信息；然后利用注意力引导的交叉融合模块集成来自上下文推理单元的空间相关性信息；最后利用解码层解码特征。

进一步地，焦点堆栈由一系列聚焦在不同深度的焦点切片组成。每一焦点切片均包含聚焦区域和非聚焦区域，非聚焦区域在表现深度信息的同时也带来了局部信息不明确的问题。由于每个像素深度值的计算与其相邻像素密切相关，当局部图像信息不明确时，现有方法有限的感受野限制了每一像素预测深度值的准确性。而且，焦点切片中的散焦模糊可能会导致细节损失，从而对预测深度图的准确性造成负面影响。现有方法将中心视角的结构信息作为局部引导，并通过乘法操作融合中心视图特征和焦点堆栈特征。但是简单的后期融合无法很好地捕获交叉模态之间的互补性。为了获得更加准确、信息更加完整的深度图，本发明基于图卷积和空洞卷积的上下文推理单元来捕获上下文信息并探索特征的长范围依赖关系，并运用基于注意力机制的交叉模态融合模块来集成多模态信息以实现其对预测结果的最大贡献。

如图2所示，本发明中构建的卷积神经网络模型由编码器和解码器两部分组成，旨在从焦点堆栈和中心视图提取特征并将多模态特征有效融合。其中，编码器部分采用对称的双流网络分别从焦点堆栈和中心视图提取特征：即焦点堆栈流和中心视图流。每一流均包括两个部分：即主干网络和多个上下文推理单元。解码器部分包括多个注意力引导的交叉融合模块和解码层。整个卷积神经网络模型的构建包括如下步骤：

3.1确定编码器的主干网络

编码器采用对称的双流网络。每一流的主干网络均由VGG-16实现，包含Block1，Block2，Block3，Block4和Block5 5个卷积块，且丢弃了VGG-16最后的池化层和全连接层。针对焦点堆栈{I₁,I₂...I_N}和中心视图I₀，获得Block3，Block4和Block5的侧边输出F_{focal_i}和F_{rgb_i}(i＝3，4，5)。

3.2确定编码器的上下文推理单元(CRU)

编码器的上下文推理单元基于空洞卷积和图卷积实现。多重空洞卷积捕获场景中大物体之间的空间相关性，多重图卷积捕获图像中更多的抽象特征，以关注场景中细小的物体。

如图3所示，上下文推理单元由三个分支组成：顶部是一个短连接操作，由一个1×1的卷积运算实现；中间分支是多重空洞卷积操作，由跨通道学习器和空洞空间卷积池化金字塔组成，其通过1×1卷积运算学习复杂的通道交互，并通过膨胀率为r₁、r₂、r₃的空洞卷积来捕捉不同的图像上下文信息；底部分支是多重图卷积操作。

上下文推理单元将主干网络Block3，Block4和Block5的侧边输出焦点堆栈特征F_{focal_i}或中心视图特征F_{rgb_i}(i＝3，4，5)作为输入。

以F_{focal_i}为例，上下文推理单元首先利用顶部分支的短连接从F_{focal_i}学习残差信息F_res；其次，利用中间分支的多重空洞卷积f_md从F_{focal_i}学习特征表示F_md，以对较大物体之间的空间相关性进行建模；接着，利用底部分支的多重图卷积f_mg从F_{focal_i}学习特征表示F_mg，以更好的适应场景中的细小物体。最后，将F_md和F_mg进行级联并卷积得到特征F_f，并将特征F_f与F_res相加以获得细化焦点堆栈特征F_f'_{ocal_i}。

对于中心视图，则得到细化的中心视图特征F′_{rgb_i}。

其实现过程如下式所示：

F_res＝Conv(F_{focal_i}) (1)

F_md＝f_md(F_{focal_i}) (2)

F_mg＝f_mg(F_{focal_i}) (3)

F_f＝Conv(Cat(F_mg,F_md)) (4)

F_f'_{ocal_i}＝F_f+F_res (5)

其中，Conv表示卷积操作，Cat表示级联操作，f_md表示多重空洞卷积操作，f_mg表示多重图卷积操作。

下面对多重图卷积操作进行具体说明。

如图4所示，本发明中，对于给定的输入特征X＝F_{focal_i}，多重图卷积操作通过三个并行分支建立三个节点拓扑图，以细化空间关系。在第j(j＝1，2，3)个分支中，其实现过程分为三个步骤：

(a)空间映射：使用ψ_j(X)对输入特征X降维，并利用映射函数

将输入特征X从坐标空间映射到交互空间，得到交互空间的新特征V_j。每一新特征V_j的生成如公式(6)所示：

其中，ψ_j(X)由具有(C_j＜C)通道的1×1卷积层实现，

由具有T_j＝(W×H)/t_j通道的1×1卷积层实现，T_j表示拓补图中的节点数，其根据输入特征的空间大小动态变化，为输入特征的空间大小的

以从不同尺度进行区域覆盖，对区域级线索的信息进行建模和通信，

表示矩阵乘法操作。

(b)特征图卷积：通过沿通道和节点方向的两个1D卷积建立拓补图，并利用拓补图进行关系推理。在交互空间中建立具有节点v_j，边ε_j和邻接矩阵A_j的全连接图G_j＝(v_j,ε_j,A_j)。利用邻接矩阵A_j和特定层的可训练边缘权重W_j，可以在节点之间传播信息以获得节点特征矩阵M_j。M_j的生成如公式(7)所示：

其中，A_j的每一点的取值A_{j_pq}受区域p和区域q的影响，若区域p与区域q相邻，则A_{j_pq}＝1，否则A_{j_pq}＝0。所以，上下文推理问题就可以被简化为节点之间的交互性捕获问题。

(c)反向映射：推理完成后，利用反向映射函数

将特征M_j从交互空间映射到坐标空间，获得特征Y_j。Y_j的生成如公式(8)所示：

为更好的与现有的卷积神经网络架构兼容并适应残差信息的引入操作，通过三个1×1卷积层将每一分支的输出特征Y₁，Y₂，Y₃分别扩展到原始尺寸，并将其与原始特征X相加以得到最后的特征F_mg。M_j的生成如式(9)所示：

F_mg＝X+Conv(Y₁)+Conv(Y₂)+Conv(Y₃) (9)

其中，Conv表示1×1的升维卷积。

3.3确定解码器的注意力引导的交叉融合模块(CMFA)：

注意力引导的交叉融合模块基于多级注意力机制实现。此模块关注不同焦点切片特征和中心视图特征对最终预测结果的贡献，有效集成焦点切片中的隐式深度信息和中心视图中的丰富内容信息。如图5所示，此模块分为两步实现：

(A)首先引入简单3D卷积和2D卷积实现跨模态残差连接，从成对的特征F′_{focal_i}和F′_{rgb_i}(i＝3，4，5)中捕获互补信息并将互补信息分别加到对应的特征中。然后采用一个1×1的2D卷积深入学习从而获得增强后的成对特征F″_{focal_i}和F″_{rgb_i}。

(B)将增强的焦点堆栈特征F″_{focal_i}和中心视图特征F″_{rgb_i}沿切片维度级联，并将级联后的特征

(S＝13)视作S个切片特征的集合。首先，为每个切片特征f_i ^j分配粗略的自注意力权重γ_j，并将所有切片特征初步集成得到全局特征F_{i_1}。然后，考虑到F_{i_1}包含所有焦点切片完整的深度信息和中心视图的结构信息，故将每个切片特征与全局特征再次进行关联学习，利用关联权重λ_j对所有切片特征进行集成得到细化特征表示F_{i_2}。最后，通过对F_{i_2}进行简单卷积，获得最终的融合结果F_i。直观地理解，其实现过程如下式所示：

γ_j＝σ(fc(dropout(avgpool(f_i ^j)))) (10)

λ_j＝σ(fc(dropout(avgpool(Cat(f_i ^j，F_{i_1}))))) (12)

F_i＝Conv(F_{i_2}) (14)

其中，σ表示sigmoid函数，avgpool表示平均池化，dropout表示随机失活，fc表示全连接操作，Cat表示级联操作，γ_j表示第j个切片的自注意力权重，λ_j维第j个切片的关联权重。此模块有效利用了焦点堆栈和中心视图之间的互补性。

3.4确定解码器的解码层：

解码层采取注意力引导的交叉融合模块的输出特征F_i(i＝3,4,5)作为输入，采用自顶向下的逐层解码方式，依次经过上采样、级联和卷积得到预测深度图d。

本发明实施例在Pytorch框架下实现。焦点堆栈流和中心视图流的主干网络均采用在ImageNet数据集训练的参数进行初始化，其他模块进行随机初始化。在训练期间，焦点堆栈及其对应的中心视图空间分辨率为256×256。网络优化采用自适应矩估计算法，训练过程学习率初始化为l^e-4,迭代30个周期后调整为3×l^e-4，再迭代20个周期。考虑到输入数据的尺寸与数量，网络加载数据的batchsize设置为1。

而且，通过以下代价函数优化网络参数：

L＝λl_depth+μl_grad+νl_normal (17)

公式(14)中，l_depth为深度误差的对数，d_i为像素i处的预测深度值，g_i像素i处的真值深度值，n表示真值深度图中像素值不为0的有效像素点个数。ln为取对数操作，α为超参数。

公式(15)中，l_grad为深度梯度损失函数，可处理由CNN训练引起的边缘失真问题，d_i为像素i处的预测深度值，g_i像素i处的真值深度值，

为在x方向第i个像素处||d_i-g_i||₁的空间导数，

为在y方向第i个像素处||d_i-g_i||₁的空间导数。

公式(16)中，l_normal为表面法线损失函数，其值取决于预测深度值和真值深度值之间的表面法线精度，其中，<*，*>表示向量的内积，

表示真值深度值的表面法线；

表示预测深度值的表面法线。

公式(17)中，L为本发明采用的总代价函数，其中，λ，μ，ν为加权系数。

将训练好的网络在两个光场数据集和一个手机数据集上进行测试。此手机数据集是由手机通过自动聚焦捕获的。每个场景都包含一系列聚焦在不同深度的聚焦切片。每个图像的大小为640×340。为适应训练好的网络参数，将其空间分辨率重新尺度化256×256。

为证明本发明所提供的方法的优势，将本方法与其他方法在两个光场数据集上进行了两组对比实验，这些方法涵盖了非深度学习方法(PADMM，VDFF，LF_OCC，LF)和基于深度学习的方法(DDFF，EPINet)。对比实验1效果图如图6所示，对比实验2效果图如图7所示。在手机采集的数据集上，本方法与基于焦点堆栈的DDFF进行了对比实验，实验结果如图8所示。从上述图中可明显地观察出本发明所提供的方法深度估计结果最准确，细节信息最完整，边缘最清晰。而且，本发明能够很好地处理各种挑战性场景，如相似的前景和背景，多个物体，透明的对象以及复杂的背景。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于多模态信息的光场深度估计方法，其特征在于，包括以下步骤：

步骤2、对所述焦点堆栈图像和中心视图进行数据扩容；

2.根据权利要求1所述的基于多模态信息的光场深度估计方法，其特征在于，对所述焦点堆栈图像和中心视图进行数据扩容，包括：

以50％的概率随机水平翻转焦点切片和中心视图；和/或，

3.根据权利要求1所述的基于多模态信息的光场深度估计方法，其特征在于，双流网络的每一流均包括两个部分：主干网络和若干个上下文推理单元；

和

4.根据权利要求3所述的基于多模态信息的光场深度估计方法，其特征在于，所述注意力引导的交叉融合模块基于多级注意力机制实现，分为两步实现：从上下文推理单元输出的成对焦点堆栈特征F′_{focal_i}和中心视图特征F′_{rgb_i}，i＝3,4,5，捕获互补信息以增强特征，获得特征F″_{focal_i}和F″_{rgb_i}；利用多级注意力权重集成增强后的多模态特征F″_{focal_i}和F″_{rgb_i}，得到融合特征F_i；

5.根据权利要求1所述的基于多模态信息的光场深度估计方法，其特征在于，所述代价损失函数为：

L＝λl_depth+μl_grad+νl_normal；

其中，l_depth为深度误差的对数，