CN116485868A

CN116485868A - 一种四维光场图像深度获取方法及装置

Info

Publication number: CN116485868A
Application number: CN202210025184.1A
Authority: CN
Inventors: 金静; 侯军辉; 吕咸强; 朱智宇; 郭满堂
Original assignee: City University of Hong Kong CityU
Current assignee: City University of Hong Kong CityU
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-25

Abstract

本文涉及图像处理领域，提供了一种四维光场图像深度获取方法及装置，其中，方法包括：将四维光场图像划分为四个包含中心视点图像的子光场；对子光场进行位置变换得到位于相同角度位置的子光场；将变换后的子光场输入至多尺度网络中，预测得到所述子光场中中心视点图像对应的初始深度图及其遮挡感知可靠性图；对初始深度图及遮挡感知可靠性图进行位置变换的逆变换；根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图。本文能够避免监督学习方法中出现的域转移问题，提高遮挡区域深度预测的准确性。

Description

一种四维光场图像深度获取方法及装置

技术领域

本文涉及图像处理领域，尤其涉及一种四维光场图像深度获取方法及装置。

背景技术

深度估计是四维光场处理和分析中的一个基本问题。现有技术中主要基于监督学习方法进行光场深度估计，该种方法需先获取真值深度图，利用真值深度图作为训练集训练得到光场深度估计模型，但实际上，这些真值深度图无法从真实世界的光场数据中获得，因此，基于监督学习估计光场深度的方法中实际上并非利用真实世界获取的真值深度图，而是利用合成软件中合成场景拍摄光场图像进而获得真值深度图。因此，由于现实世界和合成数据之间不可避免的差距(即领域差异)，将用合成数据训练的光场深度估计模型运用到现实世界数据时，会存在严重性能下降(例如深度图估计准确度)的问题。

发明内容

本文用于解决现有技术中基于监督学习的光场深度估计存在准确度低的问题。

为了解决上述技术问题，本文的第一方面提供一种四维光场图像深度获取方法，包括：

将四维光场图像划分为四个包含中心视点图像的子光场；

对所述子光场进行位置变换得到位于相同角度位置的子光场；

将变换后的子光场输入至多尺度网络中，预测得到所述子光场中中心视点图像对应的初始深度图及其遮挡感知可靠性图，其中，所述多尺度网络利用受约束的无监督损失函数训练得到，所述受约束的无监督损失函数利用无遮挡的光度重建距离及遮挡感知可靠性图构建；

对所述初始深度图及遮挡感知可靠性图进行位置变换的逆变换；

根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图。

作为本文的进一步实施例中，将四维光场图像划分为四个包含中心视点图像的子光场，包括：

确定所述四维光场图像中的中心视点图像的角度坐标；

由小于和等于中心视点图像的角度横坐标，以及大于和等于中心视点图像的角度纵坐标的视点图像组成第一子光场；

由大于和等于中心视点图像的角度横坐标，以及大于和等于中心视点图像的角度纵坐标的视点图像组成第二子光场；

由小于和等于中心视点图像的角度横坐标，以及小于和等于中心视点图像的角度纵坐标的视点图像组成第三子光场；

由大于和等于中心视点图像的角度横坐标，以及小于和等于中心视点图像的角度纵坐标的视点图像组成第四子光场。

作为本文的进一步实施例中，对所述子光场进行第一变换得到位于相同角度位置的子光场，包括：

以其中一子光场作为参考，对其余子光场执行角度翻转及空间翻转，使得翻转后子光场的视点图像位于相同角度位置。

作为本文的进一步实施例中，多尺度网络包括：输入层、第一隐含层、第二隐含层及输出层；

所述输入层用于接收所述第二子光场中的视点图像；

所述第一隐含层包括多个向下采样层，每一向下采样层包括一第一卷积网络层、第一残差层及池化层；

所述第二隐含层连接所述第一隐含层，包括多个向上采样层，每一向上采样层包括一转置卷积网络层、拼接层、第二卷积网络层及第二残差层；

所述输出层连接所述第二隐含层，包括两个第三卷积网络层，其中一第三卷积网络层用于输出子光场对应的初始深度图，另一第三卷积网络层用于输出所述初始深度图的遮挡感知可靠性图。

作为本文进一步实施例中，利用无遮挡的光度重建距离及遮挡感知可靠性图构建受约束的无监督损失函数包括：利用如下公式构建受约束的无监督损失函数：

其中，表示子光场；/>表示深度图；/>表示遮挡感知可靠性图；/>表示第i个变换后子光场中像素位置x处的可靠性值；/>表示第i个变换后子光场对应的初始深度图；表示利用初始深度图/>将变换后子光场的视点图像I_u投影到中心视点图像/>后的图像；/>表示中心视点图像/>在像素位置x处的角度值；/>表示无遮挡的光度重建距离。

作为本文进一步实施例中，尺度网络利用受约束的无监督损失函数训练得到进一步为：

多尺度网络利用受约束的无监督损失函数以及边缘感知平滑度损失函数训练得到。

作为本文进一步实施例中，所述边缘感知平滑度损失函数利用如下公式计算得到：

其中，l_sm表示边缘感知平滑度损失函数，表示中心视点图像，/>表示中心视点图像的深度图，x＝(x,y)表示像素坐标，γ表示边缘权重。

作为本文进一步实施例中，根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图，包括：

根据所述初始深度图，生成遮挡区域指示图；

根据所述遮挡区域指示图，确定遮挡区域及非遮挡区域；

对于遮挡区域中的像素，从所有变换后的初始深度图像中选择可靠性最高的深度值作为最终深度值；

对于遮挡区域中的像素，利用各变换后的初始深度图像的可靠性对各变换后的初始深度图像的深度值进行加权求和，将计算得到的值作为最终深度值；

利用遮挡区域及非遮挡区域的最终深度值，组合得到所述中心视点图像的最终深度图。

作为本文进一步实施例中，根据所述初始深度图，生成遮挡区域指示图，包括：

计算所述初始深度图的标准偏差图；

对所述标准偏差进行二值化处理，计算得到遮挡区域指示图。

本文的第二方面提供一种四维光场图像深度获取装置，包括：

子光场划分单元，用于将四维光场图像划分为四个包含中心视点图像的子光场；

第一变换单元，用于对所述子光场进行位置变换得到位于相同角度位置的子光场；

预测单元，用于将变换后的子光场输入至多尺度网络中，预测得到所述子光场中中心视点图像对应的初始深度图及其遮挡感知可靠性图，其中，所述多尺度网络利用受约束的无监督损失函数训练得到，所述受约束的无监督损失函数利用无遮挡的光度重建距离及遮挡感知可靠性图构建；

第二变换单元，用于对所述初始深度图及遮挡感知可靠性图进行位置变换的逆变换；

融合单元，用于根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图。

本文的第三方面提供一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行根据前述任一实施例所述方法的指令。

本文的第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行根据前述任一实施例所述方法的指令。

本文提供的四维光场图像深度获取方法及装置通过预先设计一多尺度网络，多尺度网络的输入为变换后子光场，多尺度网络的输出为子光场的初始深度图及其遮挡感知可靠性图，本文利用光场数据独特几何结构的基础知识(在朗伯体以及无遮挡的假设下，场景中某一个物点在光场的不同视点图像上的投影点具有相同的颜色值，基于该基础知识可构建无遮挡的光度重建距离)及光场视图子集内光一致性(可由遮挡感知可靠性图体现)构建了受约束的无监督损失函数，利用该受约束的无监督损失函数训练多尺度网络，能够使得多尺度网络能够学习子光场中视图之间的角度关系以预测中心视点图像的初始深度图，并学习遮挡感知可靠性从而获得遮挡感知可靠性图。

在四维光场图像进行深度预测时，先对四维光场图像进行划分，得到四个包含中心视点图像的子光场；对子光场进行位置变换；将变换后子光场输入至多尺度网络中，预测得到所述子光场对应的初始深度图及其遮挡感知可靠性图；对初始深度图及遮挡感知可靠性图进行位置变换的逆变换；根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到中心视点图像的最终深度图，本文通过利用预测遮挡感知的可靠性，将遮挡感知可靠性融合至深度图的确认中，能够避免监督学习方法中出现的域转移问题，提高遮挡区域深度预测的准确性。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例四维光场图像深度获取系统的结构图；

图2a示出了本文实施例发生遮挡时成像模型的示意图；

图2b示出了本文实施例重聚焦角度域图像的示意图；

图3示出了本文实施例多尺度网络训练过程的示意图；

图4a示出了本文实施例光场估计的深度图及误差图；

图4b示出了本文实施例空间图像块的放大图；

图4c示出了本文实施例图4b图像块深度估计的误差图；

图5示出了本文实施例四维光场图像深度获取方法的流程图；

图6示出了本文实施例初始深度图融合过程示意图；

图7示出了本文实施例融合过程中的示意图；

图8示出了本文实施例四维光场图像深度获取装置的结构图；

图9示出了本文具体实施例的四维光场图像深度获取方法的流程图；

图10示出了本文实施例计算机设备的结构图。

附图符号说明：

110、数据库；

120、客户端；

130、计算设备；

210、遮挡体；

220、遮挡场景；

810、子光场划分单元；

820、第一变换单元；

830、预测单元；

840、第二变换单元；

850、融合单元；

1002、计算机设备；

1004、处理器；

1006、存储器；

1008、驱动机构；

1010、输入/输出模块；

1012、输入设备；

1014、输出设备；

1016、呈现设备；

1018、图形用户接口；

1020、网络接口；

1022、通信链路；

1024、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

需要说明的是，本文的四维光场图像深度获取方法及装置可用于任何领域的图像深度分析，本文对此不作具体限定。

需要说明的是，本申请所涉及的四维光场图像，均为经用户授权或者经过各方充分授权的数据。

本文一实施例中，为了解决现有技术中基于监督学习的光场深度估计存在准确度低的问题，提供了一种四维光场图像深度获取系统，如图1所示，包括：数据库110、客户端120、计算设备130。

数据库110存储有多尺度网络及遮挡感知融合程序，多尺度网络用于预测各子光场(每一子光场包含中心视点图像)对应的初始深度图及遮挡感知可靠性图，遮挡感知融合程序用于利用各子光场的遮挡感知可靠性图对各子光场的初始深度图进行融合，计算得到中心视点图像的最终深度图。具体实施时，为了便于数据调用，数据库110中还可存储四维光场图像其中，x,y为每个2D视图(也称为视点图像、子孔径图像)上的像素位置，称为空间坐标。u,v为每个2D视图的位置坐标，也称为角度坐标，H×W表示空间分辨率，H×W表示角度分辨率。本文所述的四维光场图像可以视为从分布在二维平面上的视点观察到的一组二维视图，因此，它也可以表示为/>其中I_u表示角度位置u＝(u,v)处的视点图像，/>表示二维角度坐标集。使用/>表示光场/>的中心视点图像，本文用于估计中心视点图像的深度图/>

客户端120安装有与计算设备130交互的应用，用于供用户上传四维光场图像，并将其发送至计算设备130。

计算设备130用于接收客户端120上传的四维光场图像生成四个包含中心视点图像的子光场；对子光场进行位置变换得到位于相同角度位置的子光场；从数据库110调用多尺度网络，将变换后的子光场输入至多尺度网络中，预测得到所述子光场对应的初始深度图及其遮挡感知可靠性图；对初始深度图及遮挡感知可靠性图进行位置变换的逆变换；从数据库110调用遮挡感知融合程序，运行该程序以实现根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图。

具体实施时，还可将计算设备130实现的功能集成于客户端120中。数据库110中的多尺度网络可利用专用计算设备进行训练，具体训练过程参考后续实施例，此处不再详述。

本文所述的客户端120包括但不限于台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中，智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然，所述客户端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软件。

本文所述的计算设备130包括但不限于智能终端、计算机、服务器等。

本实施例通过预先设计一多尺度网络，多尺度网络的输入为变换后子光场，多尺度网络的输出为子光场的初始深度图及其遮挡感知可靠性图，本文利用光场数据独特几何结构的基础知识(无遮挡的光度重建距离)及遮挡感知可靠性图构建了受约束的无监督损失函数，利用该受约束的无监督损失函数训练多尺度网络，能够使得多尺度网络能够学习子光场中视图之间的角度关系以预测中心视点图像的初始深度图，并学习遮挡感知可靠性从而获得遮挡感知可靠性图。

本文一实施例中，视图之间的角度存在一致性，即在朗伯和非遮挡假设下，相同场景点在不同视图的投影具有相同的强度，即中心视点上位于x点像素与/>在其他视点上对应点具有相同颜色值，这种关系可以表示为：

其中，表示中心视点图像上坐标为x＝(x,y)的像素点，D(x)表示/>的视差(视差与深度成反比)，I_u(·)表示视点图像，x表示图像上像素的空间坐标，u表示图像的角度位置，u₀表示中心视点图像的角度位置。

基于此，可以建立一提取特征的提取网络来探索光场的角度相关性，以进行深度估计。此外，可以使用无监督损失通过最小化光度重建距离来训练提取网络，即，

其中，表示利用估计的深度图/>将视点图像I_u投影到中心视点图像

然而发生遮挡时，视图之间的角度不在一致，因此，使用利用上述损失函数训练的提取网络将失去遮挡区域的准确性。

经过大量研究发现，中心视点图像中的大多数像素至少有一个子光场保持角度一致性，具体分析过程包括：

图2a展示了发生遮挡时的成像模型，图2a相机平面上的黑色方块指的是遮挡点在相机平面捕捉到的内容，图2a中相机平面上的灰色方块指的是遮挡点以及被遮挡的相机平面所捕捉到的内容。假设仅存在一个遮挡体210，那么遮挡将仅发生在中心视点的一侧。通过将此模型扩展到光场图像的二维角度平面，可以推断出中心视点的四侧之一可以避免遮挡问题。如图2b所示，演示了4种不同的遮挡场景220，图2b右侧第一行四个图分别为左侧遮挡场景220的放大图，并使用其真值深度值收集遮挡像素的重聚焦角度域图像(如图2b中右侧第二行四个图中方框图像分别对应第一行四个图像中的白点处图像)。由此可以观察到，尽管整个角度域图像不符合颜色一致性，但如果将其分为4个部分，那么至少有一个部分仍然可以保持颜色一致性(如图2b中第二行中白色框所示)。此外，颜色一致性部分的位置随着空间块中的空间和几何内容的不同而不同。

基于光场数据存在上述独特结构，本文一实施例中，提供一种用于预测深度及遮挡感知可靠性的多尺度网络训练方法，用于解决常规无监督学习不适用于遮挡区域深度预测的问题，如图3所示，包括：

步骤310，构建多个训练样本，每一训练样本包括一历史四维光场图像的子光场集合。

详细的说，本文所述的历史四维光场图像包括多个视点图像，通过对历史四维光场图像进行划分，得到四个包含中心视点图像的子光场，对子光场进行位置变换得到位于相同角度位置的子光场，且保持中心视点图像的中心位置不变。

步骤320，构建多尺度网络，该多尺度网络的输入为变换后子光场，多尺度网络的输出为子光场的初始深度图及其遮挡感知可靠性图。

步骤330，利用无遮挡的光度重建距离及遮挡感知可靠性图构建受约束的无监督损失函数。

步骤340，设置训练批次及学习速率，利用受约束的无监督损失函数及训练样本训练多尺度网络中的参数。

本实施例能够建立基于子光场预测深度图的模型，同时还可以给出各深度图遮挡感知的可靠性。

步骤310实施时，按照如下方式对历史四维光场图像进行划分：

确定历史四维光场图像中的中心视点图像的角度坐标；由小于和等于中心视点图像的角度横坐标，以及大于和等于中心视点图像的角度纵坐标的视点图像组成第一子光场；由大于和等于中心视点图像的角度横坐标，以及大于和等于中心视点图像的角度纵坐标的视点图像组成第二子光场；由小于和等于中心视点图像的角度横坐标，以及小于和等于中心视点图像的角度纵坐标的视点图像组成第三子光场；由大于和等于中心视点图像的角度横坐标，以及小于和等于中心视点图像的角度纵坐标的视点图像组成第四子光场。

举例来说，以u₀＝(M₀,N₀)作为中心视点图像，将每一个角度维划分为四个子集合记为/>具体表示为：

将四维光场图像对应的划分为四个子光场，记为其中

为了减少多尺度网络尺寸，对四个子光场共享网络参数，由于步骤310得到的子光场中中心视点图像位于每个子光场的角度平面上的不同位置，因此，需要对子光场进行位置变换，具体包括角度反转及空间翻转，以保证生成的各子光场中视点图像位于相同的角度位置，进而可以确保生成各子光场均可得到中心视点图像的初始深度图。

步骤310中子光场的变换过程包括：以其中一子光场作为参考，对其余子光场执行角度翻转及空间翻转，使得翻转后子光场的视图图像位于相同位置。

举例来说，假设利用表示空间分辨率为H×W、角度分辨率为M×N的四维光场图像，以/>作为参考，对其余子光场进行角度反转及空间翻转，具体四维变换如下：

其中表示要变换后的子光场。

步骤320实施时，如表一所示，构建出的多尺度网络包括：输入层、第一隐含层、第二隐含层及输出层。

输入层用于接收所述变换后子光场中的视点图像，具体实施，将子光场中的视点图像沿特征通道进行堆叠处理，假设子光场有N个大小为c×h×w的视点图像，那么堆叠后的大小为cN×h×w。

第一隐含层可以看做是编码网络，包括多个向下采样层(降采样层)，每一向下采样层包括一第一卷积网络层、第一残差层及池化层，实施时，第一卷积网络层、第一残差层及池化层可依次连接，每一第一卷积网络层配置两个第一残差层进行特征提取，为了增强信息流，相同尺度下的特征进行跳跃连接。一具体实施方式中，随着空间分辨率的减小，特征通道从64，128，256增加到512。

第二隐含层可以看做为解码网络，连接第一隐含层，包括多个向上采样层(升采样层)，每一向上采样层包括一转置卷积网络层、拼接层、第二卷积网络层及第二残差层，实施时，转置卷积网络层连接第一隐含层最后一层的输出，拼接层连接转置卷积网络层及第一隐含层最后一层的输出，用于将第一隐含层中的特征及第二隐含层中的特征进行拼接，第二卷积网络层连接拼接层，第二残差层连接第二卷积网络层。与第一隐含层类似，每一第二卷积网络层可排至两个第二残差层进行特征提取，为了增强信息流，相同尺度下的特征进行跳跃连接。一具体实施方式中，随着空间分辨率的减大，特征通道从512，256，128减小到64。

输出层连接第二隐含层的最后一向上采样层的第二残差层，包括两个第三卷积网络层，其中一第三卷积网络层用于输出子光场对应的初始深度图，另一第三卷积网络层用于输出所述初始深度图的遮挡感知可靠性图。

表一

表一仅为一具体实施例，本领域技术人员在实施时，可根据需求选择各层节点个数。

本实施例提供的多尺度网络能增大网络的感受野，从而可以处理视差范围相对较大的光场。此外，多尺度网络有助于将深度估计从富纹理区域传播到弱纹理区域。

步骤330实施时，为了表明哪个子光场对深度估计是可靠的，本文期望多尺度网络同时能够学习子光场的每个预测深度的可靠性映射，基于此，本文提出了受约束的无监督损失函数，计算公式如下：

/>

其中，表示子光场；/>表示深度图；/>表示遮挡感知可靠性图；/>表示第i个变换后子光场中像素位置x处的可靠性值；/>表示第i个变换后子光场对应的初始深度图；表示利用初始深度图/>将变换后子光场的视点图像I_u投影到中心视点图像/>后的图像；/>表示中心视点图像/>在坐标x处的像素点；/>表示无遮挡的光度重建距离。

步骤340实施时，例如可先从训练样本中剪辑预定空间分辨率及角度分辨率的广场数据块，例如空间分辨率128×128和角度分辨率7×7的光场数据块，批量例如设置为4，学习率例如为为1e^-4，本文这些参数不做限定。

采用本实施例所述的损失函数训练得到的多尺度网络能够放松子光场的遮挡区域的优化，因为当难以接近/>时，可以通过减小遮挡感知可靠性/>来减少损失。因此，多尺度网络可以专注于预测每个子光场中非遮挡区域的精确深度图。如图4a、图4b及图4c所示，图4a、图4b及图4c通过显示从子光场估计的初始深度图的误差图直观地说明了其效果，其中图4a中，上面四个图表示从子光场估计的深度图，下面四个图表示相对于真值深度的误差图。图4b表示放大的空间图像块,图4b中的空间图像块均存在遮挡区域，例如积木和玩偶图像边缘。图4c表示放大的从子光场深度估计的误差图，颜色越深误差值越大，颜色从深至浅的误差范围为0.5至0，从左至右分别为子光场1、2、3、4估计得到的深度图。可以观察到，在每个有遮挡的空间图像块中，一些深度图显示出较高的精度，而另一些深度图包含明显的误差。此外，精确深度图的子集随图像块的空间内容和几何关系而变化。具体的，对于图4b中的第一个图像块，图4c第一行中的深度图2、4在遮挡边缘(积木边缘)误差较大(颜色较深)，第一行中的深度图1、3在遮挡边缘误差较小，精度更高。对于图4b中第二个图像块，图4c第二行中的深度图1、2在遮挡边缘(人偶边缘)误差较大，第二行中的深度图3、4遮挡边缘误差较小，精度更高。对于图4b中的第三个图像块，图4c第三行中的深度图2、4在遮挡边缘(箱子边缘)误差较小，精度更高，而深度图3在人偶边缘区域精度更高。

本文一实施例中，为了提高估计深度图的平滑度，同时鼓励中心视点图像边缘上的深度不连续性，还可利用利用受约束的无监督损失函数以及边缘感知平滑度损失函数训练多尺度网络的参数。

所述边缘感知平滑度损失函数利用如下公式计算得到：

其中，l_sm表示边缘感知平滑度损失函数，表示中心视点图像，/>表示中心视点图像的深度图，x＝(x,y)表示像素坐标，γ表示边缘权重，实施时可根据经验进行设定，例如为150，本文对此不作限定。

最终的损失函数为l＝l_c-rec+βl_sm，其中β控制保真度和平滑度之间的权衡，可根据经验进行设置，例如为0.1，本文对此不作限定。

本实施例训练得到的多尺度网络在合成数据上的实验结果表明，基于本文建立的多尺度网络获取四维光场深度的方法可以显著缩小现有的无监督学习方法和有监督学习方法之间的性能差距，并产生与传统方法相当精度的深度图，同时明显降低了计算成本。

本文一实施例中，在建立多尺度网络的基础上，还提供一种四维光场图像深度获取方法，如图5所示，包括：

步骤510，将四维光场图像划分为四个包含中心视点图像的子光场；

步骤520，对子光场进行位置变换得到位于相同角度位置的子光场；

步骤530，将变换后的子光场输入至多尺度网络中，预测得到子光场对应的初始深度图及其遮挡感知可靠性图，即各子光场中的中心视点图像的初始深度图及其遮挡感知可靠性图；

步骤540，对初始深度图及遮挡感知可靠性图进行位置变换的逆变换；

步骤550，根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到中心视点图像的最终深度图。

步骤510及步骤520的实施过程可参考前述步骤310，此处不再详述。

步骤540对各子光场的初始深度图及其遮挡感知可靠性图进行与步骤520对子光场位置变换的逆变换处理。

如图6所示，步骤550根据变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图，包括：

步骤610，根据初始深度图，生成遮挡区域指示图；

步骤620，根据遮挡区域指示图，确定遮挡区域及非遮挡区域；

步骤630，对于遮挡区域中的像素，从所有变换后的初始深度图像中选择可靠性最高的深度值作为最终深度值；

步骤640，对于遮挡区域中的像素，利用各变换后的初始深度图像的可靠性对各变换后的初始深度图像的深度值进行加权求和，将计算得到的值作为最终深度值；

步骤650，利用遮挡区域及非遮挡区域的最终深度值，组合得到中心视点图像的最终深度图。

详细的说，由于非遮挡区域上的所有4个子光场在重新聚焦到正确深度时都遵循强度一致性，因此，非遮挡区域可以生成彼此接近的相对准确的预测。而在遮挡区域，一些子光场受到强度不一致性的影响，而其他子光场则不受强度不一致性的影响，因此，对于同一像素位置，不同的子光场所预测出来的初始深度之间的差异较大，通过计算每个像素位置不同初始深度之间的差异大小，即可指示遮挡区域。具体的，步骤610的实施过程包括：根据各子光场的初始深度图，计算初始深度图的标准偏差图；对标准偏差图进行二值化处理，计算得到遮挡区域指示图。总结而言，遮挡区域指示图可利用如下公式计算得到：

其中表示以阈值λ进行的二值化操作，STD(·)用于计算标准偏差，/>表示四个子光场对应的初始深度图，/>表示估计的遮挡掩膜，1和0分别表示遮挡和非遮挡。根据经验，我们将λ的值设置为0.3。

步骤610计算出的遮挡区域指示图如图9中Mask图所示，能够反映遮挡区域及非遮挡区域。

步骤620实施时，可根据遮挡区域及非遮挡区域取值，确定遮挡区域及非遮挡区域。

步骤630实施时，可利用如下公式确定遮挡区域中像素的最终深度值：

其中，/>表示最大值深度图(如图9中的Max图)，/>表示第i个子光场的遮挡感知的可靠性图。

步骤640实施时，可利用如下公式确定非遮挡区域中像素的最终深度值：

其中，/>表示均值深度图(如图9中的Avg图)，表示第i个子光场的遮挡感知的可靠性图。

步骤650实施时，可利用如下公式组合得到中心视点图像的最终深度图：

其中，表示光场图像中中心视点图像的最终深度图(如图9中的Final图)。

举例来说，如图7所示，显示了和/>来说明遮挡感知融合的有效性，图7中，第一行与第二行为一组，第三行及第四行为一组。每组中的第一行的第一个图像为四维光场图像中的其中一视点图像的图像块，第一行的后三个图分别为均值深度图/>最大值深度图/>及最终深度图/>每组中第二行的第一个图为遮挡指示图/>后三个图为深度图对应的误差图，误差图中，颜色越深表示误差越大，颜色从深至浅的误差范围为0.5至0。

我们可以观察到在遮挡边界上表现良好，而/>在无纹理区域上可以产生平滑的结果。基于遮挡区域的指示图，/>可以利用/>和/>的优点。

基于同一发明构思，本文还提供一种四维光场图像深度获取装置，如下面的实施例所述。由于四维光场图像深度获取装置解决问题的原理与四维光场图像深度获取方法相似，因此四维光场图像深度获取装置的实施可以参见四维光场图像深度获取方法，重复之处不再赘述。本实施例所述的四维光场图像深度获取装置实施之前，先利用图所示方法训练得到多尺度网络。

具体的，如图8所示，四维光场图像深度获取装置包括：

子光场划分单元810，用于将四维光场图像划分为四个包含中心视点图像的子光场；

第一变换单元820，用于对所述子光场进行位置变换得到位于相同角度位置的子光场；

预测单元830，用于将变换后的子光场输入至多尺度网络中，预测得到所述子光场中中心视点图像对应的初始深度图及其遮挡感知可靠性图，其中，所述多尺度网络利用受约束的无监督损失函数训练得到，所述受约束的无监督损失函数利用无遮挡的光度重建距离及遮挡感知可靠性图构建；

第二变换单元840，用于对所述初始深度图及遮挡感知可靠性图进行位置变换的逆变换；

融合单元850，用于根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图。

本文提供的四维光场图像深度获取方法及装置能够实现如下技术效果：

(1)可以在不使用真值深度作为监督的情况下，基于无遮挡的光度重建距离及遮挡感知可靠性图构建的受约束的无监督损失函数训练得到多尺度网络(用于预测子光场中中心视图的深度图及遮挡感知可靠性图)，能够避免现有监督方法的域偏移问题，可以提高深度估计速度以及遮挡区域深度估计的准确性。

(2)本文通过利用受约束的无监督损失函数及边缘感知的平滑损失函数训练多尺度网络，能够使得训练出的多尺度网络将深度估计传播到无纹理区域。

为了更清楚说明本文技术方案，下面以一具体实施例进行详细说明，假设本实施例建立的多尺度模型适用于由3×3个空间大小为128×128×3的视点图像组成的四维光场图像，如图9所示，基于无监督学习的四维光场深度估计流程包括：

步骤910，将四维光场图像划分为四个均包含中心视点图像的子光场；

步骤920，对子光场进行位置变换，保持中心视点图像位置不变，使得变换后子光场中的中心视点图像位于相同位置，即位于四维光场图像整体区域的相同位置，例如左上角、右上角、左下角、右下角；

步骤930，将变换后的子光场输入至多尺度网络中，预测得到各子光场对应的初始深度图及其遮挡感知可靠性图；

步骤940，对各子光场对应的初始深度图及遮挡感知可靠性图进行位置变换的逆变换；

步骤950，根据四个子光场变换后的初始深度图及遮挡感知可靠性图，计算最大值深度图Max，最大值深度图Max对于遮挡区域具有较高的准确性；

步骤960，根据四个子光场变换后的初始深度图及遮挡感知可靠性图，计算平均值深度图Avg，平均值深度图Avg对于非遮挡区域具有较高的准确性；

步骤970，根据四个子光场变换后的初始深度图，计算遮挡区域指示图Mask；

步骤980，根据遮挡区域指示图Mask、最大值深度图Max、平均值深度图Avg计算得到中心视点图像的最终深度图。

本文一实施例中，还提供一种执行上述方法程序的计算机设备，如图10所示，计算机设备1002可以包括一个或多个处理器1004，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1006可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下，当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1002可以执行相关联指令的任一操作。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1002还可以包括输入/输出模块1010(I/O)，其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014))。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口1018(GUI)。在其他实施例中，还可以不包括输入/输出模块1010(I/O)、输入设备1012以及输出设备1014，仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020，其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。

通信链路1022可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图3、图5中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图3、图5所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种四维光场图像深度获取方法，其特征在于，包括：

将四维光场图像划分为四个包含中心视点图像的子光场；

2.如权利要求1所述的四维光场图像深度获取方法，其特征在于，将四维光场图像划分为四个包含中心视点图像的子光场，包括：

确定所述四维光场图像中的中心视点图像的角度坐标；

3.如权利要求2所述的四维光场图像深度获取方法，其特征在于，对所述子光场进行第一变换得到位于相同角度位置的子光场，包括：

4.如权利要求1所述的四维光场图像深度获取方法，其特征在于，多尺度网络包括：输入层、第一隐含层、第二隐含层及输出层；

所述输入层用于接收所述变换后子光场中的视点图像；

5.如权利要求1所述的四维光场图像深度获取方法，其特征在于，利用无遮挡的光度重建距离及遮挡感知可靠性图构建受约束的无监督损失函数包括：利用如下公式构建受约束的无监督损失函数：

6.如权利要求1所述的四维光场图像深度获取方法，其特征在于，多尺度网络利用受约束的无监督损失函数训练得到进一步为：

7.如权利要求6所述的四维光场图像深度获取方法，其特征在于，所述边缘感知平滑度损失函数利用如下公式计算得到：

其中，表示边缘感知平滑度损失函数，/>表示中心视点图像，/>表示中心视点图像的深度图，x＝(x,y)表示像素坐标，γ表示边缘权重。

8.如权利要求1所述的四维光场图像深度获取方法，其特征在于，根据逆变换后的遮挡感知可靠性图，融合变换后的初始深度图得到所述中心视点图像的最终深度图，包括：

根据所述初始深度图，生成遮挡区域指示图；

根据所述遮挡区域指示图，确定遮挡区域及非遮挡区域；

对于非遮挡区域中的像素，利用各变换后的初始深度图像的可靠性对各变换后的初始深度图像的深度值进行加权求和，将计算得到的值作为最终深度值；

9.如权利要求7所述的四维光场图像深度获取方法，其特征在于，根据所述初始深度图，生成遮挡区域指示图，包括：

计算所述初始深度图的标准偏差图；

对所述标准偏差图进行二值化处理，计算得到遮挡区域指示图。

10.一种四维光场图像深度获取装置，其特征在于，包括：

11.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时，执行根据权利要求1-9任意一项所述方法的指令。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器运行时，执行根据权利要求1-9任意一项所述方法的指令。