CN113139898B

CN113139898B - 基于频域分析和深度学习的光场图像超分辨率重建方法

Info

Publication number: CN113139898B
Application number: CN202110311756.8A
Authority: CN
Inventors: 郁梅; 陈晔曜; 徐海勇; 蒋刚毅
Original assignee: Ningbo University
Current assignee: Nantong Shengyou Network Technology Co.,Ltd.; Shenzhen Dragon Totem Technology Achievement Transformation Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-04-19
Anticipated expiration: 2041-03-24
Also published as: CN113139898A

Abstract

本发明公开了一种基于频域分析和深度学习的光场图像超分辨率重建方法，其首先利用基于光流的绘制和双三次插值来生成初始高空间和角度分辨率光场图像；之后采用离散余弦变换来对生成的初始光场图像进行频域转换，以得到表征光场图像特性的频率分量图像；基于此，超分辨率重建可建模为频率复原问题，因此构建多个2D卷积神经网络来建模各频率分量的初始复原，并在网络中融入语义信息来增强复原效果；然后将初始复原后的各频率分量进行组合并构建3D卷积神经网络来进行精细复原；最后，利用逆离散余弦变换来将复原后的所有频率分量重构为所需的光场图像；优点是能有效提高光场图像的空间和角度分辨率，并能恢复纹理信息以及保留角度一致性。

Description

基于频域分析和深度学习的光场图像超分辨率重建方法

技术领域

本发明涉及一种图像超分辨率重建技术，尤其是涉及一种基于频域分析和深度学习的光场图像超分辨率重建方法。

背景技术

作为一种新兴的计算成像技术，光场成像可同时记录场景中光线的强度(即空间信息)与方向(即角度信息)，正受到学术界和工业界的广泛研究和关注。最近，基于光场成像的光学仪器，如光场相机，被开发以获取更多的场景信息。同时，许多光场应用也随之产生，如3D重建、深度估计、捕获后重聚焦等。通过在主镜头和成像传感器之间插入微透镜阵列等光学组件，光场相机可实现在单次曝光中采集空间和角度信息，但受限于成像传感器的尺寸，密集的角度采样会导致稀疏的空间采样，反之亦然。因此，成像结果存在空间分辨率与角度分辨率相互制约的问题，这严重阻碍了光场成像的实际应用与发展，使得光场图像超分辨率重建成为了光场研究领域的一个热点。

现有的光场图像超分辨率重建方法可以大致分为两类：第一类是空间超分辨率重建，其旨在提高光场图像的空间分辨率；第二类是角度超分辨率重建，其目标是合成新视图，进而提高光场图像的角度分辨率。

对于空间超分辨率重建而言，一种直观的方法是将单图像超分辨率重建方法，如Lai等人提出的基于拉普拉斯金字塔网络的方法，独立地应用于4D光场图像所对应的每幅子孔径图像(Sub-Aperture Image，SAI)，但是该方法未探索光场图像在角度域的冗余特性，因而是次优的。近年来，研究者相继开发了一些特定于光场图像的空间超分辨率重建方法，如基于优化或投影的方法，该类方法通常需要精确的视差估计来利用光场图像的角度特性，因此它们的重建精度受限于视差估计方法的性能。Alain等人提出了一种基于滤波的空间超分辨率重建方法，该方法在大重建尺度下，仍无法有效重建细节和纹理信息。随着深度学习技术，特别是卷积神经网络(Convolutional Neural Network，CNN)在单图像复原任务中的广泛成功，已有研究者提出将该技术应用于4D光场数据。考虑到光场图像包含一个复杂的4D结构，采用4D卷积进行建模是最直接的方式，但这无疑会构造庞大的网络架构，以及需要大量的训练样本。因此，一些研究工作通过分析光场图像的角度特性，以构造特定结构的2D CNN来进行建模，如Yeung等人提出的空间-角度可分离卷积。空间超分辨率重建的关键在于恢复图像的高频纹理信息，但以上方法均是在像素域建立各自的模型，尚未探索光场图像在频域的特性，特别在大重建尺度下(如空间分辨率提升4倍)会存在纹理模糊问题。

对于角度超分辨率重建而言，现有研究可分为基于深度的视图合成和深度无关的视图合成两类。其中，基于深度的视图合成是将问题分解为两部分，即先进行视差估计和视图绘制，然后按特定方式(如加权)将绘制后的视图进行融合。Kalantari等人利用两个级联的CNN来分别建模以上两部分，并通过最小化重建图像与标签图像之间的误差来同时训练两个网络，但该方法对复杂场景，如遮挡场景，会产生鬼影等视觉伪像。相比之下，深度无关的视图合成则不需要利用场景的视差信息来对角度维进行上采样。Yeung等人利用空间-角度可分离卷积构造了一个端到端的CNN来实现角度超分辨率重建。Wu等人则将角度超分辨率重建表示为光场图像所对应的极平面图像(Epipolar Plane Image，EPI)的复原问题，进而通过简单的2D CNN进行建模，但该方法无法处理极度稀疏采样的光场图像，以及大视差场景。Gul等人观察到角度超分辨率重建的目标可视作提升光场图像所对应的微透镜图像(Micro-Lens Image，MLI)的分辨率，因而采用一个简单的网络用于增强每幅MLI的分辨率，进而实现角度超分辨率重建目标，但该方法忽略了光场图像的空间信息。以上角度超分辨率重建方法容易在一些挑战性场景下，如包含遮挡或大视差的场景，产生视觉伪像，且重建的光场图像很难保留角度一致性。

注意，以上所提到的SAI、EPI和MLI是4D光场图像的三种可视化方式，可相互转换。

综上，虽然目前的相关研究已经取得了较好的光场图像超分辨率效果，但是在处理大重建尺度以及挑战性场景，如遮挡场景的问题上仍存在一定的不足，特别地，在恢复重建光场图像的纹理信息，并避免鬼影等视觉伪像，以及保留角度一致性方面还有一定的改进空间。

发明内容

本发明所要解决的技术问题是提供一种基于频域分析和深度学习的光场图像超分辨率重建方法，其能够充分利用光场图像在频域的4D结构特性，有效地从低空间分辨率和低角度分辨率的光场图像中重建高空间分辨率和高角度分辨率的光场图像，并能够恢复重建光场图像的纹理信息和细节，同时避免由视差带来的鬼影伪像，以及保留角度一致性。

本发明解决上述技术问题所采用的技术方案为：一种基于频域分析和深度学习的光场图像超分辨率重建方法，其特征在于包括以下步骤：

步骤1：选取Num幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像，及每幅低空间和角度分辨率光场图像对应的空间分辨率为β_sW×β_sH且角度分辨率为β_aU×β_aV的彩色三通道的参考高空间和角度分辨率光场图像，将选取的第n幅低空间和角度分辨率光场图像记为

将

对应的参考高空间和角度分辨率光场图像记为

其中，Num＞1，β_s表示空间分辨率提升倍数，β_a表示角度分辨率提升倍数，β_s和β_a的值均大于1，1≤n≤Num；

步骤2：对每幅低空间和角度分辨率光场图像进行初始超分辨率重建，得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像，将

对应的初始重建高空间和角度分辨率光场图像记为

的获取过程为：

步骤2_1：将

重组为子孔径图像阵列，并作为原始子孔径图像阵列，原始子孔径图像阵列中包含有U×V幅子孔径图像，且每幅子孔径图像的空间分辨率为W×H，即原始子孔径图像阵列在宽度方向上包含有U幅子孔径图像且在高度方向上包含有V幅子孔径图像，每幅子孔径图像的宽度为W且高度为H；

步骤2_2：计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u,v+1)处的子孔径图像之间的光流图，并计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u+1,v)处的子孔径图像之间的光流图；其中，1≤u≤U-1,1≤v≤V-1；

步骤2_3：根据计算得到的所有光流图，对原始子孔径图像阵列中的每幅子孔径图像进行后向绘制，绘制得到新的子孔径图像，进而与原始子孔径图像阵列中的所有子孔径图像进行组合得到包含有β_aU×β_aV幅子孔径图像的子孔径图像阵列，作为新子孔径图像阵列；其中，新子孔径图像阵列中的每幅子孔径图像的空间分辨率为W×H；

步骤2_4：对新子孔径图像阵列中的每幅子孔径图像进行双三次插值以提升空间分辨率，共得到β_aU×β_aV幅空间分辨率为β_sW×β_sH的子孔径图像；再将β_aU×β_aV幅空间分辨率为β_sW×β_sH的子孔径图像构成的子孔径图像阵列重构为空间分辨率为β_sW×β_sH且角度分辨率为β_aU×β_aV的彩色三通道的初始重建高空间和角度分辨率光场图像，即

步骤3：将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的子孔径图像阵列中位置为

的子孔径图像作为中心子孔径图像；然后采用语义分割方法，提取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图；接着计算每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的每幅语义概率图中的所有像素点的像素值的均值；再按均值从大到小的顺序，选取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图中均值最大的8幅语义概率图，作为每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图；其中，符号

为向上取整运算符号，语义概率图的空间分辨率为β_sW×β_sH，采用语义分割方法时设定获取的语义概率图的数量大于8；

步骤4：对每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像进行频域转换，得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像，

所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像的获取过程为：

步骤4_1：将

转换到YCbCr颜色空间；然后将

中的Y通道图像重组为微透镜图像阵列，该微透镜图像阵列中包含有β_sW×β_sH幅单通道的微透镜图像，且每幅微透镜图像的分辨率为β_aU×β_aV，即该微透镜图像阵列在宽度方向上包含有β_sW幅微透镜图像且在高度方向上包含有β_sH幅微透镜图像，每幅微透镜图像的宽度为β_aU且高度为β_aV；

步骤4_2：采用离散余弦变换，将

中的Y通道图像所对应的微透镜图像阵列中的每幅微透镜图像转换到频域，得到

中的Y通道所对应的微透镜图像阵列中的每幅微透镜图像的DCT系数图像；然后按

中的Y通道图像所对应的微透镜图像阵列中的各幅微透镜图像的位置，将

中的Y通道图像所对应的微透镜图像阵列中的所有微透镜图像的DCT系数图像构成DCT系数图像阵列，该DCT系数图像阵列中包含有β_sW×β_sH幅DCT系数图像，且每幅DCT系数图像的分辨率为β_aU×β_aV；

步骤4_3：将

中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中同坐标位置的DCT系数提取出，并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为β_sW×β_sH的DCT频率图像，共得到β_aU×β_aV幅DCT频率图像；

步骤4_4：将β_aU×β_aV幅DCT频率图像分为直流分量图像、低频分量图像、中频分量图像和高频分量图像四类；其中，直流分量图像中的DCT系数均为直流系数，低频分量图像中的DCT系数均为低频系数，中频分量图像中的DCT系数均为中频系数，高频分量图像中的DCT系数均为高频系数，直流分量图像的数量为C₁，低频分量图像的数量为C₂，中频分量图像的数量为C₃，高频分量图像的数量为C₄，且C₁+C₂+C₃+C₄＝β_aU×β_aV；

对每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像进行频域转换，得到每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组有包含直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像，

所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像，按步骤4_1至步骤4_4的过程，以相同的方式获取；

步骤5：将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组DCT频率图像定义为失真DCT频率图像，将每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组DCT频率图像定义为参考DCT频率图像；然后将Num组语义概率图、Num组失真DCT频率图像、Num组参考DCT频率图像构成训练集；其中，每组语义概率图、失真DCT频率图像和参考DCT频率图像相互对应；

步骤6：构建四个结构相同的2D卷积神经网络，分别作为直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络和高频分量频率复原网络；

将训练集中的Num组参考DCT频率图像中的所有直流分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有直流分量图像以及对应的Num组语义概率图输入到直流分量频率复原网络中进行训练，在训练结束后得到直流分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的直流分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有直流分量图像以及对应的一组语义概率图输入到训练有素的直流分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像；

将训练集中的Num组参考DCT频率图像中的所有低频分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有低频分量图像以及对应的Num组语义概率图输入到低频分量频率复原网络中进行训练，在训练结束后得到低频分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的低频分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有低频分量图像以及对应的一组语义概率图输入到训练有素的低频分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像；

将训练集中的Num组参考DCT频率图像中的所有中频分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有中频分量图像以及对应的Num组语义概率图输入到中频分量频率复原网络中进行训练，在训练结束后得到中频分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的中频分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有中频分量图像以及对应的一组语义概率图输入到训练有素的中频分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像；

将训练集中的Num组参考DCT频率图像中的所有高频分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有高频分量图像以及对应的Num组语义概率图输入到高频分量频率复原网络中进行训练，在训练结束后得到高频分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的高频分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有高频分量图像以及对应的一组语义概率图输入到训练有素的高频分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像；

步骤7：构建一个3D卷积神经网络，作为频率精细网络；将训练集中的每组参考DCT频率图像组合成1个参考3D频率伪视频；将训练集中的每组失真DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个失真3D频率伪视频；然后将训练集中的Num组参考DCT频率图像所对应的参考3D频率伪视频作为训练标签，并将训练集中对应的Num组失真DCT频率图像所对应的失真3D频率伪视频输入到频率精细网络中进行训练，在训练结束后得到频率精细网络中的各卷积核的最佳参数，即得到训练有素的频率精细网络模型；

步骤8：任意选取一幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像作为测试图像；然后按照步骤2至步骤4的过程，以相同的方式获得测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图、一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像；接着将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有直流分量图像输入到训练有素的直流分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像；将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有低频分量图像输入到训练有素的低频分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像；将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有中频分量图像输入到训练有素的中频分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像；将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有高频分量图像输入到训练有素的高频分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像；再将测试图像对应的一组DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个测试3D频率伪视频；最后将测试3D频率伪视频输入到训练有素的频率精细网络模型中进行测试，测试得到测试图像对应的精细复原频率伪视频；

步骤9：将测试图像对应的精细复原频率伪视频转换为一组精细复原DCT频率图像，其包含有精细复原直流分量图像、精细复原低频分量图像、精细复原中频分量图像和精细复原高频分量图像四类图像；然后按照步骤4_1至步骤4_3的逆过程，对测试图像对应的一组精细复原DCT频率图像执行逆离散余弦变换，重构得到一幅单通道的高空间和角度分辨率光场图像，其对应Y通道图像；接着将测试图像对应的初始重建高空间和角度分辨率光场图像转换到YCbCr颜色空间，并提取出Cb通道图像和Cr通道图像；再将重构得到的单通道的高空间和角度分辨率光场图像与提取出的Cb通道图像和Cr通道图像组合成一幅YCbCr颜色空间的高空间和角度分辨率光场图像；最后将YCbCr颜色空间的高空间和角度分辨率光场图像转换到RGB颜色空间，得到测试图像对应的空间分辨率为β_sW×β_sH且角度分辨率为β_aU×β_aV的彩色三通道的重建高空间和角度分辨率光场图像。

所述的步骤6中，构建的2D卷积神经网络的结构为：该2D卷积神经网络包括用于提取频率特征的特征提取器和用于重建目标频率图像的重建器，特征提取器由依次连接的第一2D卷积层、第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块组成，重建器由第二2D卷积层、第三2D卷积层、第四2D卷积层、第五2D卷积层和第六2D卷积层组成；第一2D卷积层的输入端接收C幅宽度为β_sW且高度为β_sH的第一图像和8幅宽度为β_sW且高度为β_sH的第二图像的级联操作结果，即接收C+8幅图像，第一2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f0；第一扩张密集残差块的输入端接收F_f0中的所有频率特征图，第一扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f1；第二扩张密集残差块的输入端接收F_f1中的所有频率特征图，第二扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f2；第三扩张密集残差块的输入端接收F_f2中的所有频率特征图，第三扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f3；第二2D卷积层的输入端接收F_f1中的所有频率特征图、F_f2中的所有频率特征图和F_f3中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第二2D卷积层的输出端输出3N/2幅宽度为β_sW且高度为β_sH的融合频率特征图，将第二2D卷积层的输出端输出的所有融合频率特征图构成的集合记为F_r0；第三2D卷积层的输入端接收8幅宽度为β_sW且高度为β_sH的第二图像，第三2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的语义特征图，将第三2D卷积层的输出端输出的所有语义特征图构成的集合记为F_sem；第四2D卷积层的输入端接收F_r0中的所有融合频率特征图和F_sem中的所有语义特征图的级联操作结果，即接收3N/2+N幅特征图，第四2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的解码特征图，将第四2D卷积层的输出端输出的所有解码特征图构成的集合记为F_r1；第五2D卷积层的输入端接收F_r1中的所有解码特征图和F_f0中的所有频率特征图的相加操作结果，第五2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的解码特征图，将第五2D卷积层的输出端输出的所有解码特征图构成的集合记为F_r2；第六2D卷积层的输入端接收F_r2中的所有解码特征图，第六2D卷积层的输出端输出C幅宽度为β_sW且高度为β_sH的初始复原图像，将第六2D卷积层的输出端输出的C幅初始复原图像构成的集合记为F_r；其中，2D卷积神经网络作为直流分量频率复原网络时，输入的第一图像为直流分量图像、第二图像为语义概率图、C等于C₁、N等于32，输出的初始复原图像为初始复原直流分量图像，2D卷积神经网络作为低频分量频率复原网络时，输入的第一图像为低频分量图像、第二图像为语义概率图、C等于C₂、N等于64，输出的初始复原图像为初始复原低频分量图像，2D卷积神经网络作为中频分量频率复原网络时，输入的第一图像为中频分量图像、第二图像为语义概率图、C等于C₃、N等于128，输出的初始复原图像为初始复原中频分量图像，2D卷积神经网络作为高频分量频率复原网络时，输入的第一图像为高频分量图像、第二图像为语义概率图、C等于C₄、N等于64，输出的初始复原图像为初始复原高频分量图像，第一2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为C+8、输出通道数为N、采用的激活函数为“Leaky ReLU”，第二2D卷积层的卷积核的尺寸为1×1、卷积步长为1×1、输入通道数为3N、输出通道数为3N/2、采用的激活函数为“Leaky ReLU”，第三2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为8、输出通道数为N、采用的激活函数为“Leaky ReLU”，第四2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为3N/2+N、输出通道数为N、采用的激活函数为“Leaky ReLU”，第五2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为N、采用的激活函数为“Leaky ReLU”，第六2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为C、不采用激活函数。

第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块的结构相同，其由第一2D扩张卷积层、第二2D扩张卷积层、第三2D扩张卷积层和第七2D卷积层组成；

对于第一扩张密集残差块，第一2D扩张卷积层的输入端接收F_f0中的所有频率特征图，第一2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k1；第二2D扩张卷积层的输入端接收F_f0中的所有频率特征图和F_f0,k1中的所有频率特征图的级联操作结果，即接收2N幅频率特征图，第二2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k2；第三2D扩张卷积层的输入端接收F_f0中的所有频率特征图、F_f0,k1中的所有频率特征图和F_f0,k2中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第三2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k3；第七2D卷积层的输入端接收F_f0中的所有频率特征图、F_f0,k1中的所有频率特征图、F_f0,k2中的所有频率特征图和F_f0,k3中的所有频率特征图的级联操作结果，即接收4N幅频率特征图，第七2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k4；F_f0中的所有频率特征图与F_f0,k4中的所有频率特征图的相加操作结果构成的集合即为F_f1；

对于第二扩张密集残差块，第一2D扩张卷积层的输入端接收F_f1中的所有频率特征图，第一2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k1；第二2D扩张卷积层的输入端接收F_f1中的所有频率特征图和F_f1,k1中的所有频率特征图的级联操作结果，即接收2N幅频率特征图，第二2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k2；第三2D扩张卷积层的输入端接收F_f1中的所有频率特征图、F_f1,k1中的所有频率特征图和F_f1,k2中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第三2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k3；第七2D卷积层的输入端接收F_f1中的所有频率特征图、F_f1,k1中的所有频率特征图、F_f1,k2中的所有频率特征图和F_f1,k3中的所有频率特征图的级联操作结果，即接收4N幅频率特征图，第七2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k4；F_f1中的所有频率特征图与F_f1,k4中的所有频率特征图的相加操作结果构成的集合即为F_f2；

对于第三扩张密集残差块，第一2D扩张卷积层的输入端接收F_f2中的所有频率特征图，第一2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k1；第二2D扩张卷积层的输入端接收F_f2中的所有频率特征图和F_f2,k1中的所有频率特征图的级联操作结果，即接收2N幅频率特征图，第二2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k2；第三2D扩张卷积层的输入端接收F_f2中的所有频率特征图、F_f2,k1中的所有频率特征图和F_f2,k2中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第三2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k3；第七2D卷积层的输入端接收F_f2中的所有频率特征图、F_f2,k1中的所有频率特征图、F_f2,k2中的所有频率特征图和F_f2,k3中的所有频率特征图的级联操作结果，即接收4N幅频率特征图，第七2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k4；F_f2中的所有频率特征图与F_f2,k4中的所有频率特征图的相加操作结果构成的集合即为F_f3；

上述，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第一2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第二2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为2N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第三2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为3N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第七2D卷积层的卷积核的尺寸均为1×1、卷积步长均为1×1、输入通道数均为4N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”。

所述的步骤7中，构建的3D卷积神经网络的结构为：该3D卷积神经网络包括用于提取频率特征的3D编码器和用于重建目标频率伪视频的3D解码器，3D编码器由依次连接的第一3D卷积层、第二3D卷积层、第三3D卷积层和第四3D卷积层组成，3D解码器由第一3D反卷积层、第二3D反卷积层、第三3D反卷积层和第五3D卷积层组成；第一3D卷积层的输入端接收1个由β_aU×β_aV幅宽度为β_sW且高度为β_sH的初始复原DCT频率图像组合成的失真3D频率伪视频，即失真3D频率伪视频的帧数为β_aU×β_aV，第一3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的特征图像，将第一3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e1；第二3D卷积层的输入端接收F_e1中的所有频率特征伪视频，第二3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/2帧宽度为β_sW且高度为β_sH的特征图像，将第二3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e2；第三3D卷积层的输入端接收F_e2中的所有频率特征伪视频，第三3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/4帧宽度为β_sW且高度为β_sH的特征图像，将第三3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e3；第四3D卷积层的输入端接收F_e3中的所有频率特征伪视频，第四3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/8帧宽度为β_sW且高度为β_sH的特征图像，将第四3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e4；第一3D反卷积层的输入端接收F_e4中的所有频率特征伪视频，第一3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含(β_aU×β_aV)/4帧宽度为β_sW且高度为β_sH的特征图像，将第一3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d1；第二3D反卷积层的输入端接收F_d1中的所有解码特征伪视频和F_e3中的所有频率特征伪视频的相加操作结果，第二3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含(β_aU×β_aV)/2帧宽度为β_sW且高度为β_sH的特征图像，将第二3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d2；第三3D反卷积层的输入端接收F_d2中的所有解码特征伪视频和F_e2中的所有频率特征伪视频的相加操作结果，第三3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的特征图像，将第三3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d3；第五3D卷积层的输入端接收F_d3中的所有解码特征伪视频，第五3D卷积层的输出端输出1个精细复原频率伪视频，将其记为F_d，该精细复原频率伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的精细复原DCT频率图像；其中，第一3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为1、输出通道数为64、采用的激活函数为“Leaky ReLU”，第二3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第三3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第四3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第一3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第二3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第三3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第五3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为64、输出通道数为1、不采用激活函数。

与现有技术相比，本发明的优点在于：

1)本发明方法考虑到4D光场图像包含丰富的空间和角度信息，这有利于提升重建质量，而传统的2D图像超分辨率重建方法无法利用角度信息，这容易导致重建光场图像出现纹理模糊或细节丢失现象，因此本发明方法采用频域转换，即离散余弦变换，来分解光场图像的空间和角度信息，进而充分探索光场图像的4D结构信息，并将光场图像超分辨率重建转换为频率复原，其可由深度学习网络进行建模以实现有效重建。

2)本发明方法采用一种渐进式的重建策略，即构建两个深度学习网络，分别为频率复原网络和频率精细网络，来逐步恢复光场图像的频率，进而提高复原效果；通过逆频域变换可有效重建包含细致的纹理和细节信息的高空间和角度分辨率光场图像，且其不存在明显的视觉伪像；特别地，本方明方法构建的频率精细网络同时重建4D光场图像所对应的所有频率分量，因而重建结果保留很好的角度一致性。

3)场景的语义信息，如语义类别、纹理风格等，为光场图像超分辨率重建提供了强大的先验，因此本发明方法利用语义分割方法来提取光场图像的语义信息，进而将其融入到构建的频率复原网络中以增强网络的复原能力，并有效重建在对象边缘区域的细节。

附图说明

图1为本发明方法的总体实现流程框图；

图2为本发明方法所涉及的频域转换的过程示意图；

图3为本发明方法构建的频率复原网络的组成结构示意图；

图4为本发明方法构建的频率精细网络的组成结构示意图；

图5为本发明方法构建的频率复原网络中的扩张密集残差块的组成结构示意图；

图6a为采用双三次插值方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图6b为采用Lai等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图6c为采用Alain等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图6d为采用Yeung等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图6e为采用本发明方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图6f为测试的低空间分辨率光场图像对应的标签高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7a为采用双线性插值方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7b为采用Kalantari等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7c为采用Yeung等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7d为采用Wu等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7e为采用本发明方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7f为测试的低角度分辨率光场图像对应的标签高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；

图7g为图7a所示的重建高角度分辨率光场图像对应的极平面图像；

图7h为图7b所示的重建高角度分辨率光场图像对应的极平面图像；

图7i为图7c所示的重建高角度分辨率光场图像对应的极平面图像；

图7j为图7d所示的重建高角度分辨率光场图像对应的极平面图像；

图7k为图7e所示的重建高角度分辨率光场图像对应的极平面图像；

图7l为图7f所示的标签高角度分辨率光场图像对应的极平面图像。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

随着虚拟现实、增强现实等沉浸式技术的发展，用户对观看的图像/视频等视觉内容的质量的要求越来越高。换而言之，用户更倾向于观看具有深度感、沉浸式体验的视觉内容。然而传统2D成像方法仅能采集场景的2D强度信息，无法提供场景的深度信息。光场成像，可在单次曝光中同时捕获场景中光线的强度和方向信息，进而有效地采集场景的高维信息，正受到广泛关注。特别地，一些基于光场成像的光学仪器已被开发以促进光场技术的应用与发展。但由于成像传感器的尺寸有限，利用光场相机采集到的光场图像会受到空间和角度分辨率相互制约的问题。简单来说，增强光场图像的空间分辨率会不可避免地降低角度分辨率，反之亦然，这严重阻碍了光场图像的实际应用，如深度估计、捕获后重聚焦等，针对此，本发明提出了一种基于频域分析和深度学习的光场图像超分辨率重建方法，其利用基于光流的绘制和双三次插值来产生初始重建高空间和角度分辨率光场图像；之后采用频域转换，即离散余弦变换，来将光场图像转换到频域以分解空间和角度信息，进而有效探索光场图像的4D结构信息，并将重建问题建模为频率复原；然后采用渐进式的复原策略，利用构建的频率复原网络和频率精细网络来逐步提高复原质量，并在频率复原网络中融入语义信息以增强复原能力；最后，通过逆离散余弦变换来将复原后的所有频率分量重构为高空间和角度分辨率光场图像。

本发明提出的一种基于频域分析和深度学习的光场图像超分辨率重建方法，其总体实现流程框图如图1所示，其包括以下步骤：

将

对应的参考高空间和角度分辨率光场图像记为

其中，Num＞1，在本实施例中取Num＝300，β_s表示空间分辨率提升倍数，β_a表示角度分辨率提升倍数，β_s和β_a的值均大于1，如取β_s为4，取β_a为3.5，1≤n≤Num；在本实施例中W×H为150×100，U×V为2×2。

对应的初始重建高空间和角度分辨率光场图像记为

的获取过程为：

步骤2_1：将

重组为子孔径图像阵列，并作为原始子孔径图像阵列，原始子孔径图像阵列中包含有U×V幅子孔径图像，且每幅子孔径图像的空间分辨率为W×H，即原始子孔径图像阵列在宽度方向上包含有U幅子孔径图像且在高度方向上包含有V幅子孔径图像，每幅子孔径图像的宽度为W且高度为H；在此，重组操作是光场图像的常规处理手段，重组操作仅改变光场图像中像素值的排列次序，不会改变具体的像素值，如可将光场图像转换为SAI阵列即子孔径图像阵列、MLI阵列即微透镜图像阵列等。

步骤2_2：计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u,v+1)处的子孔径图像之间的光流图，并计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u+1,v)处的子孔径图像之间的光流图；其中，1≤u≤U-1,1≤v≤V-1。

步骤2_3：根据计算得到的所有光流图，对原始子孔径图像阵列中的每幅子孔径图像进行后向绘制，绘制得到新的子孔径图像，进而与原始子孔径图像阵列中的所有子孔径图像进行组合得到包含有β_aU×β_aV幅子孔径图像的子孔径图像阵列，作为新子孔径图像阵列；其中，新子孔径图像阵列中的每幅子孔径图像的空间分辨率为W×H；后向绘制是图像处理领域的常规处理手段，其可根据光流图以将当前视图绘制到目标视点下，以产生所需的新视图。

初始重建高空间和角度分辨率光场图像会包含纹理模糊、细节丢失等问题，并在遮挡等区域存在鬼影伪像，因此需要被进一步复原。

为向上取整运算符号，语义概率图的空间分辨率为β_sW×β_sH，采用语义分割方法时设定获取的语义概率图的数量大于8；由于自然场景中的语义类别众多，如花、草、树木、自行车、汽车等，因此语义分割方法所设定的语义概率图的数量(等于语义类别)远大于8。

步骤4：如图2所示，对每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像进行频域转换，得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像，

步骤4_1：将

转换到YCbCr颜色空间；然后将

中的Y通道图像重组为微透镜图像阵列，该微透镜图像阵列中包含有β_sW×β_sH幅单通道的微透镜图像，且每幅微透镜图像的分辨率为β_aU×β_aV，即该微透镜图像阵列在宽度方向上包含有β_sW幅微透镜图像且在高度方向上包含有β_sH幅微透镜图像，每幅微透镜图像的宽度为β_aU且高度为β_aV。

步骤4_2：采用离散余弦变换(Discrete Cosine Transform，DCT)，将

中的Y通道图像所对应的微透镜图像阵列中的所有微透镜图像的DCT系数图像构成DCT系数图像阵列，该DCT系数图像阵列中包含有β_sW×β_sH幅DCT系数图像，且每幅DCT系数图像的分辨率为β_aU×β_aV。

步骤4_3：将

中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中同坐标位置的DCT系数提取出，并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为β_sW×β_sH的DCT频率图像，如将

中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中坐标位置为(i,j)的DCT系数提取出，并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为β_sW×β_sH的DCT频率图像，共得到β_aU×β_aV幅DCT频率图像；其中，1≤i≤β_aU,1≤j≤β_aV。

步骤4_4：将β_aU×β_aV幅DCT频率图像分为直流分量图像、低频分量图像、中频分量图像和高频分量图像四类；其中，直流分量图像中的DCT系数均为直流系数，低频分量图像中的DCT系数均为低频系数，中频分量图像中的DCT系数均为中频系数，高频分量图像中的DCT系数均为高频系数，直流分量图像的数量为C₁，低频分量图像的数量为C₂，中频分量图像的数量为C₃，高频分量图像的数量为C₄，且C₁+C₂+C₃+C₄＝β_aU×β_aV。

所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像，按步骤4_1至步骤4_4的过程，以相同的方式获取。

通过频域转换，可有效分解4D光场图像的空间和角度信息，以充分探索它的4D结构，如得到的直流分量图像揭示了包括图像基本内容的空间信息，高频分量图像揭示了包括场景视差的角度信息等。

步骤5：将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组DCT频率图像定义为失真DCT频率图像，将每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组DCT频率图像定义为参考DCT频率图像；然后将Num组语义概率图、Num组失真DCT频率图像、Num组参考DCT频率图像构成训练集；其中，每组语义概率图、失真DCT频率图像和参考DCT频率图像相互对应。

步骤6：构建四个结构相同的2D卷积神经网络，分别作为直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络和高频分量频率复原网络。

将训练集中的Num组参考DCT频率图像中的所有直流分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有直流分量图像以及对应的Num组语义概率图输入到直流分量频率复原网络中进行训练，在训练结束后得到直流分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的直流分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有直流分量图像以及对应的一组语义概率图输入到训练有素的直流分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像。

将训练集中的Num组参考DCT频率图像中的所有低频分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有低频分量图像以及对应的Num组语义概率图输入到低频分量频率复原网络中进行训练，在训练结束后得到低频分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的低频分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有低频分量图像以及对应的一组语义概率图输入到训练有素的低频分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像。

将训练集中的Num组参考DCT频率图像中的所有中频分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有中频分量图像以及对应的Num组语义概率图输入到中频分量频率复原网络中进行训练，在训练结束后得到中频分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的中频分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有中频分量图像以及对应的一组语义概率图输入到训练有素的中频分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像。

将训练集中的Num组参考DCT频率图像中的所有高频分量图像作为训练标签，并将训练集中对应的Num组失真DCT频率图像中的所有高频分量图像以及对应的Num组语义概率图输入到高频分量频率复原网络中进行训练，在训练结束后得到高频分量频率复原网络中的各卷积核的最佳参数，即得到训练有素的高频分量频率复原网络模型；然后将训练集中的每组失真DCT频率图像中的所有高频分量图像以及对应的一组语义概率图输入到训练有素的高频分量频率复原网络模型中，得到训练集中的每组失真DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像。

训练有素的直流分量频率复原网络模型、训练有素的低频分量频率复原网络模型、训练有素的中频分量频率复原网络模型、训练有素的高频分量频率复原网络模型可用于恢复初始重建高空间和角度分辨率光场图像中所丢失的纹理和细节等信息，以提高光场图像的视觉质量。

步骤7：构建一个3D卷积神经网络，作为频率精细网络；将训练集中的每组参考DCT频率图像组合成1个参考3D频率伪视频；将训练集中的每组失真DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个失真3D频率伪视频；然后将训练集中的Num组参考DCT频率图像所对应的参考3D频率伪视频作为训练标签，并将训练集中对应的Num组失真DCT频率图像所对应的失真3D频率伪视频输入到频率精细网络中进行训练，在训练结束后得到频率精细网络中的各卷积核的最佳参数，即得到训练有素的频率精细网络模型。

训练有素的频率精细网络模型可用于进一步复原光场图像的纹理和细节信息，并减少鬼影伪像，以及保留角度一致性，进而可重建更高质量的高空间和角度分辨率光场图像，并改善后续光场视觉任务的性能，如深度估计、捕获后重聚焦等。

步骤8：任意选取一幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像作为测试图像；然后按照步骤2至步骤4的过程，以相同的方式获得测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图、一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像；接着将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有直流分量图像输入到训练有素的直流分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像；将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有低频分量图像输入到训练有素的低频分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像；将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有中频分量图像输入到训练有素的中频分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像；将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有高频分量图像输入到训练有素的高频分量频率复原网络模型中，测试得到测试图像对应的一组DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像；再将测试图像对应的一组DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个测试3D频率伪视频；最后将测试3D频率伪视频输入到训练有素的频率精细网络模型中进行测试，测试得到测试图像对应的精细复原频率伪视频。

在本实施例中，步骤6中，如图3所示，构建的2D卷积神经网络的结构为：该2D卷积神经网络包括用于提取频率特征的特征提取器和用于重建目标频率图像的重建器，特征提取器由依次连接的第一2D卷积层、第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块组成，重建器由第二2D卷积层、第三2D卷积层、第四2D卷积层、第五2D卷积层和第六2D卷积层组成；第一2D卷积层的输入端接收C幅宽度为β_sW且高度为β_sH的第一图像和8幅宽度为β_sW且高度为β_sH的第二图像的级联操作结果，即接收C+8幅图像，第一2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f0；第一扩张密集残差块的输入端接收F_f0中的所有频率特征图，第一扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f1；第二扩张密集残差块的输入端接收F_f1中的所有频率特征图，第二扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f2；第三扩张密集残差块的输入端接收F_f2中的所有频率特征图，第三扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f3；第二2D卷积层的输入端接收F_f1中的所有频率特征图、F_f2中的所有频率特征图和F_f3中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第二2D卷积层的输出端输出3N/2幅宽度为β_sW且高度为β_sH的融合频率特征图，将第二2D卷积层的输出端输出的所有融合频率特征图构成的集合记为F_r0；第三2D卷积层的输入端接收8幅宽度为β_sW且高度为β_sH的第二图像，第三2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的语义特征图，将第三2D卷积层的输出端输出的所有语义特征图构成的集合记为F_sem；第四2D卷积层的输入端接收F_r0中的所有融合频率特征图和F_sem中的所有语义特征图的级联操作结果，即接收3N/2+N幅特征图，第四2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的解码特征图，将第四2D卷积层的输出端输出的所有解码特征图构成的集合记为F_r1；第五2D卷积层的输入端接收F_r1中的所有解码特征图和F_f0中的所有频率特征图的相加操作结果，第五2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的解码特征图，将第五2D卷积层的输出端输出的所有解码特征图构成的集合记为F_r2；第六2D卷积层的输入端接收F_r2中的所有解码特征图，第六2D卷积层的输出端输出C幅宽度为β_sW且高度为β_sH的初始复原图像，将第六2D卷积层的输出端输出的C幅初始复原图像构成的集合记为F_r；其中，2D卷积神经网络作为直流分量频率复原网络时，输入的第一图像为直流分量图像、第二图像为语义概率图、C等于C₁、N等于32，输出的初始复原图像为初始复原直流分量图像，2D卷积神经网络作为低频分量频率复原网络时，输入的第一图像为低频分量图像、第二图像为语义概率图、C等于C₂、N等于64，输出的初始复原图像为初始复原低频分量图像，2D卷积神经网络作为中频分量频率复原网络时，输入的第一图像为中频分量图像、第二图像为语义概率图、C等于C₃、N等于128，输出的初始复原图像为初始复原中频分量图像，2D卷积神经网络作为高频分量频率复原网络时，输入的第一图像为高频分量图像、第二图像为语义概率图、C等于C₄、N等于64，输出的初始复原图像为初始复原高频分量图像，级联操作为现有的一种操作，是将特征图在特征图数目维度(或称特征图通道维度)进行连接，级联操作得到的特征图的数量为操作的两个对象的数量和，级联操作得到的特征图的尺寸(或称分辨率)与操作的两个对象的尺寸(或称分辨率)一致，第一2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为C+8、输出通道数为N、采用的激活函数为“Leaky ReLU”(LeakyRectified Linear Unit，带泄露修正线性单元)，第二2D卷积层的卷积核的尺寸为1×1、卷积步长为1×1、输入通道数为3N、输出通道数为3N/2、采用的激活函数为“Leaky ReLU”，第三2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为8、输出通道数为N、采用的激活函数为“Leaky ReLU”，第四2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为3N/2+N、输出通道数为N、采用的激活函数为“Leaky ReLU”，第五2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为N、采用的激活函数为“Leaky ReLU”，第六2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为C、不采用激活函数，相加操作为现有的一种操作，即对两幅尺寸(或称分辨率)相同的图像中相同坐标位置的像素点的像素值进行相加操作。

在本实施例中，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块的结构相同，其结构如图5所示，其由第一2D扩张卷积层、第二2D扩张卷积层、第三2D扩张卷积层和第七2D卷积层组成；对于第一扩张密集残差块，第一2D扩张卷积层的输入端接收F_f0中的所有频率特征图，第一2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k1；第二2D扩张卷积层的输入端接收F_f0中的所有频率特征图和F_f0,k1中的所有频率特征图的级联操作结果，即接收2N幅频率特征图，第二2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k2；第三2D扩张卷积层的输入端接收F_f0中的所有频率特征图、F_f0,k1中的所有频率特征图和F_f0,k2中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第三2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k3；第七2D卷积层的输入端接收F_f0中的所有频率特征图、F_f0,k1中的所有频率特征图、F_f0,k2中的所有频率特征图和F_f0,k3中的所有频率特征图的级联操作结果，即接收4N幅频率特征图，第七2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f0,k4；F_f0中的所有频率特征图与F_f0,k4中的所有频率特征图的相加操作结果构成的集合即为F_f1；对于第二扩张密集残差块，第一2D扩张卷积层的输入端接收F_f1中的所有频率特征图，第一2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k1；第二2D扩张卷积层的输入端接收F_f1中的所有频率特征图和F_f1,k1中的所有频率特征图的级联操作结果，即接收2N幅频率特征图，第二2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k2；第三2D扩张卷积层的输入端接收F_f1中的所有频率特征图、F_f1,k1中的所有频率特征图和F_f1,k2中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第三2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k3；第七2D卷积层的输入端接收F_f1中的所有频率特征图、F_f1,k1中的所有频率特征图、F_f1,k2中的所有频率特征图和F_f1,k3中的所有频率特征图的级联操作结果，即接收4N幅频率特征图，第七2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f1,k4；F_f1中的所有频率特征图与F_f1,k4中的所有频率特征图的相加操作结果构成的集合即为F_f2；对于第三扩张密集残差块，第一2D扩张卷积层的输入端接收F_f2中的所有频率特征图，第一2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k1；第二2D扩张卷积层的输入端接收F_f2中的所有频率特征图和F_f2,k1中的所有频率特征图的级联操作结果，即接收2N幅频率特征图，第二2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k2；第三2D扩张卷积层的输入端接收F_f2中的所有频率特征图、F_f2,k1中的所有频率特征图和F_f2,k2中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第三2D扩张卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k3；第七2D卷积层的输入端接收F_f2中的所有频率特征图、F_f2,k1中的所有频率特征图、F_f2,k2中的所有频率特征图和F_f2,k3中的所有频率特征图的级联操作结果，即接收4N幅频率特征图，第七2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f2,k4；F_f2中的所有频率特征图与F_f2,k4中的所有频率特征图的相加操作结果构成的集合即为F_f3；上述，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第一2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为N、输出通道数均为N、采用的激活函数均为“LeakyReLU”，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第二2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为2N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第三2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为3N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”，第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第七2D卷积层的卷积核的尺寸均为1×1、卷积步长均为1×1、输入通道数均为4N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”。

在本实施例中，步骤7中，如图4所示，构建的3D卷积神经网络的结构为：该3D卷积神经网络包括用于提取频率特征的3D编码器和用于重建目标频率伪视频的3D解码器，3D编码器由依次连接的第一3D卷积层、第二3D卷积层、第三3D卷积层和第四3D卷积层组成，3D解码器由第一3D反卷积层、第二3D反卷积层、第三3D反卷积层和第五3D卷积层组成；第一3D卷积层的输入端接收1个由β_aU×β_aV幅宽度为β_sW且高度为β_sH的初始复原DCT频率图像组合成的失真3D频率伪视频，即失真3D频率伪视频的帧数为β_aU×β_aV，第一3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的特征图像，将第一3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e1；第二3D卷积层的输入端接收F_e1中的所有频率特征伪视频，第二3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/2帧宽度为β_sW且高度为β_sH的特征图像，将第二3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e2；第三3D卷积层的输入端接收F_e2中的所有频率特征伪视频，第三3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/4帧宽度为β_sW且高度为β_sH的特征图像，将第三3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e3；第四3D卷积层的输入端接收F_e3中的所有频率特征伪视频，第四3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/8帧宽度为β_sW且高度为β_sH的特征图像，将第四3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e4；第一3D反卷积层的输入端接收F_e4中的所有频率特征伪视频，第一3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含(β_aU×β_aV)/4帧宽度为β_sW且高度为β_sH的特征图像，将第一3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d1；第二3D反卷积层的输入端接收F_d1中的所有解码特征伪视频和F_e3中的所有频率特征伪视频的相加操作结果，第二3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含(β_aU×β_aV)/2帧宽度为β_sW且高度为β_sH的特征图像，将第二3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d2；第三3D反卷积层的输入端接收F_d2中的所有解码特征伪视频和F_e2中的所有频率特征伪视频的相加操作结果，第三3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的特征图像，将第三3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d3；第五3D卷积层的输入端接收F_d3中的所有解码特征伪视频，第五3D卷积层的输出端输出1个精细复原频率伪视频，将其记为F_d，该精细复原频率伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的精细复原DCT频率图像；其中，第一3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为1、输出通道数为64、采用的激活函数为“Leaky ReLU”，第二3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第三3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第四3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第一3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第二3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“LeakyReLU”，第三3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第五3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为64、输出通道数为1、不采用激活函数。

为进一步说明本发明方法的可行性和有效性，对本发明方法进行实验。

本发明方法采用TensorFlow深度学习框架以及Matlab编程软件实现。训练和测试所采用的光场图像来自多个现有的光场图像数据库，其包括真实世界场景和合成场景，这些光场图像数据库可在网上自由下载。为保证测试的鲁棒性，随机挑选300幅光场图像构成训练图像集合，另外挑选60幅光场图像构成测试图像集合，其中，训练图像集合中的光场图像和测试图像集合中的光场图像互不交叉。训练图像集合和测试图像集合所涉及的光场图像数据库的基本信息如表1所示。

表1训练图像集合和测试图像集合所涉及的光场图像数据库的基本信息

本发明方法所用到的光场图像数据库对应的参考文献信息(或下载网址)如下：

[1]M.Rerabek and T.Ebrahimi,“New light field image dataset,”inProc.8th Int.Conf.Qual.Multimedia Exp.,2016.(EPFL)

[2]K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset andevaluation methodology for depth estimation on 4d light fields,”in Proc.AsianConf.on Computer Vision,2016,pp.19-34.(HCI new)

[3]S.Wanner,S.Meister,and B.Goldluecke,“Datasets and benchmarksfordensely sampled4D light fields,”in Proc.Vis.,Model.Vis.,2013,pp.225-226.(HCIold)

[4]M.Le Pendu,X.Jiang,and C.Guillemot,“Light field inpaintingpropagation via low rank matrix completion,”IEEE Trans.Image Process.,vol.27,no.4,pp.1981-1993,April 2018.(INRIA)

[5]A.S.Raj,M.Lowney,R.Shah,and G.Wetzstein.Stanford Lytro LightFieldArchive,Available:http://lightfields.stanford.edu/index.html.(STFLytro)

[6]N.K.Kalantari,T.C.Wang,and R.Ramamoorthi,“Learning-based viewsynthesis for light field cameras,”ACM Trans.Graph.,vol.35,no.6,pp.193:1-10,2016.(Kalantari et al.)

分别将训练图像集合和测试图像集合中的光场图像重组为子孔径图像阵列，针对训练图像集合或测试图像集合中的任意一幅光场图像对应的子孔径图像阵列，取周边4幅子孔径图像以构成低角度分辨率光场图像(即角度分辨率为2×2)，再利用双三次插值方法对得到的低角度分辨率光场图像进行空间分辨率下采样，下采样尺度为4，即将空间分辨率降为原始的光场图像的1/4，进而得到低空间和角度分辨率光场图像；将原始的光场图像作为参考高空间和角度分辨率光场图像(即标签光场图像)。通过本发明方法获得训练图像集合对应的300组语义概率图、300组失真DCT频率图像及300组参考DCT频率图像，构成训练集；通过本发明方法获得测试图像集合对应的60组语义概率图和60组测试DCT频率图像，构成测试集。

在训练直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络、高频分量频率复原网络及频率精细网络时，学习率设置为10^-4。直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络、高频分量频率复原网络及频率精细网络中的所有卷积核的参数采用Xavier初始化器进行初始化。对于直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络、高频分量频率复原网络，采用频域L1范数损失；对于频率精细网络，采用频域L1范数损失、像素域L1范数损失和像素域梯度损失的组合；利用ADAM优化器训练网络。

为了说明本发明方法的性能，将本发明方法与现有的三种光场图像空间超分辨率重建方法和三种光场图像角度超分辨率重建方法进行对比，另外，增加针对空间超分辨率重建的基线方法，即双三次插值方法，以及针对角度超分辨率重建的基线方法，即双线性插值方法，用于对比；其中，用于对比的空间超分辨率重建方法分别为双三次插值方法、Lai等人提出的基于拉普拉斯金字塔网络的方法、Alain等人提出的基于滤波的方法以及Yeung等人提出的基于空间-角度可分离卷积的方法；用于对比的角度超分辨率重建方法分别为双线性插值方法、Kalantari等人提出的基于两个级联CNN的方法、Yeung等人提出的基于空间-角度可分离卷积的方法以及Wu等人提出的基于EPI复原网络的方法。

在此，使用的客观质量评价指标包括PSNR(Peak Signal-to-Noise Ratio，峰值信噪比)和SSIM(Structural Similarity Index，结构相似性指数)，PSNR是从像素差异本身出发来评价超分辨率重建图像的客观质量，其值越高表示图像质量越好；SSIM则是从视觉感知的角度来评价超分辨率重建图像的客观质量，其值在0～1之间，值越高表示图像质量越好。

表2给出了采用本发明方法与现有的光场图像空间超分辨率重建方法在PSNR(dB)指标上的对比，表3给出了采用本发明方法与现有的光场图像空间超分辨率重建方法在SSIM指标上的对比。从表2和表3所列出的数据可以看出，相比于现有的光场图像空间超分辨率重建方法，本发明方法在PSNR和SSIM两个客观指标上均获得更高的质量分数，特别地，对于不同的光场图像数据库而言，本发明方法均取得了最好的超分辨率重建效果，这表明本发明方法对场景内容具有很好的鲁棒性。

表4给出了采用本发明方法与现有的光场图像角度超分辨率重建方法在PSNR(dB)指标上的对比，表5给出了采用本发明方法与现有的光场图像角度超分辨率重建方法在SSIM指标上的对比。对比表4和表5中所列出的数据，可以看到相比于现有的光场图像角度超分辨率重建方法，本发明方法在PSNR和SSIM两个客观指标上均取得了更好的结果，这表明本发明方法可重建高质量的高角度分辨率光场图像。

表2采用本发明方法与现有的光场图像空间超分辨率重建方法在PSNR(dB)指标上的对比

表3采用本发明方法与现有的光场图像空间超分辨率重建方法在SSIM指标上的对比

表4采用本发明方法与现有的光场图像角度超分辨率重建方法在PSNR(dB)指标上的对比

表5采用本发明方法与现有的光场图像角度超分辨率重建方法在SSIM指标上的对比

图6a给出了采用双三次插值方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图6b给出了采用Lai等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图6c给出了采用Alain等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图6d给出了采用Yeung等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图6e给出了采用本发明方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图6f给出了测试的低空间分辨率光场图像对应的标签高空间分辨率光场图像，这里取中心坐标下的子孔径图像来展示。分别将图6a至图6e与图6f进行对比，可以明显看到，利用现有的空间超分辨率重建方法所重建的光场图像包含一些模糊伪像，如图6a至图6d中的左下方矩形框放大区域所示；相比之下，本发明方法所重建的高空间分辨率光场图像具有较清晰的纹理，且在主观视觉感知上接近标签高空间分辨率光场图像，这表明本发明方法可有效恢复光场图像的纹理信息。此外，通过高质量地重建每幅子孔径图像，可很好保证最终重建的光场图像的角度一致性。

图7a给出了采用双线性插值方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图7b给出了采用Kalantari等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图7c给出了采用Yeung等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图7d给出了采用Wu等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图7e给出了采用本发明方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示；图7f给出了测试的低角度分辨率光场图像对应的标签高角度分辨率光场图像，这里取中心坐标下的子孔径图像来展示。图7g为图7a所示的重建高角度分辨率光场图像对应的极平面图像，图7h为图7b所示的重建高角度分辨率光场图像对应的极平面图像，图7i为图7c所示的重建高角度分辨率光场图像对应的极平面图像，图7j为图7d所示的重建高角度分辨率光场图像对应的极平面图像，图7k为图7e所示的重建高角度分辨率光场图像对应的极平面图像，图7l为图7f所示的标签高角度分辨率光场图像对应的极平面图像。分别将图7a至图7e与图7f进行对比，可以明显看到，利用现有的角度超分辨率重建方法所重建的高角度分辨率光场图像包含一些例如鬼影等视觉伪像，如图7a至图7d中的左下方矩形框放大区域所示，作为对比，本发明方法所重建的高角度分辨率光场图像具有较好的视觉质量，且不包含鬼影伪像。特别地，本发明方法所重建的高角度分辨率光场图像在主观视觉感知上接近标签高角度分辨率光场图像，这表明本发明方法可有效提高光场图像的角度分辨率，并且避免由大视差导致的视觉伪像。此外，从极平面图像可以看到，本发明方法得到的极平面图像包含清晰的直线，这说明重建的高角度分辨率光场图像具有很好的角度一致性。

本发明方法的创新性主要体现如下：一是考虑到光场图像包含丰富的空间和角度信息，因此采用频域转换，即离散余弦变换，来分解空间和角度信息以有效探索光场图像的4D结构信息，进而将光场图像超分辨率重建转换为频率复原；二是采用渐进式复原的策略，构建了4个结构相同的频率复原网络和1个频率精细网络来逐步提高复原效果，以实现高质量的频率复原；三是考虑到场景的语义信息为复原提供了强大的先验，利用语义分割方法来提取光场图像的语义信息并将其融入到频率复原网络中，以增强网络的复原能力；此外，频率精细网络可同时重建完整光场图像所对应的所有频率分量，因而能够很好保留超分辨率重建光场图像的角度一致性。

Claims

1.一种基于频域分析和深度学习的光场图像超分辨率重建方法，其特征在于包括以下步骤：

将

对应的参考高空间和角度分辨率光场图像记为

对应的初始重建高空间和角度分辨率光场图像记为

的获取过程为：

步骤2_1：将

步骤4_1：将

转换到YCbCr颜色空间；然后将

步骤4_2：采用离散余弦变换，将

步骤4_3：将

2.根据权利要求1所述的基于频域分析和深度学习的光场图像超分辨率重建方法，其特征在于所述的步骤6中，构建的2D卷积神经网络的结构为：该2D卷积神经网络包括用于提取频率特征的特征提取器和用于重建目标频率图像的重建器，特征提取器由依次连接的第一2D卷积层、第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块组成，重建器由第二2D卷积层、第三2D卷积层、第四2D卷积层、第五2D卷积层和第六2D卷积层组成；第一2D卷积层的输入端接收C幅宽度为β_sW且高度为β_sH的第一图像和8幅宽度为β_sW且高度为β_sH的第二图像的级联操作结果，即接收C+8幅图像，第一2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一2D卷积层的输出端输出的所有频率特征图构成的集合记为F_f0；第一扩张密集残差块的输入端接收F_f0中的所有频率特征图，第一扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第一扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f1；第二扩张密集残差块的输入端接收F_f1中的所有频率特征图，第二扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第二扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f2；第三扩张密集残差块的输入端接收F_f2中的所有频率特征图，第三扩张密集残差块的输出端输出N幅宽度为β_sW且高度为β_sH的频率特征图，将第三扩张密集残差块的输出端输出的所有频率特征图构成的集合记为F_f3；第二2D卷积层的输入端接收F_f1中的所有频率特征图、F_f2中的所有频率特征图和F_f3中的所有频率特征图的级联操作结果，即接收3N幅频率特征图，第二2D卷积层的输出端输出3N/2幅宽度为β_sW且高度为β_sH的融合频率特征图，将第二2D卷积层的输出端输出的所有融合频率特征图构成的集合记为F_r0；第三2D卷积层的输入端接收8幅宽度为β_sW且高度为β_sH的第二图像，第三2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的语义特征图，将第三2D卷积层的输出端输出的所有语义特征图构成的集合记为F_sem；第四2D卷积层的输入端接收F_r0中的所有融合频率特征图和F_sem中的所有语义特征图的级联操作结果，即接收3N/2+N幅特征图，第四2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的解码特征图，将第四2D卷积层的输出端输出的所有解码特征图构成的集合记为F_r1；第五2D卷积层的输入端接收F_r1中的所有解码特征图和F_f0中的所有频率特征图的相加操作结果，第五2D卷积层的输出端输出N幅宽度为β_sW且高度为β_sH的解码特征图，将第五2D卷积层的输出端输出的所有解码特征图构成的集合记为F_r2；第六2D卷积层的输入端接收F_r2中的所有解码特征图，第六2D卷积层的输出端输出C幅宽度为β_sW且高度为β_sH的初始复原图像，将第六2D卷积层的输出端输出的C幅初始复原图像构成的集合记为F_r；其中，2D卷积神经网络作为直流分量频率复原网络时，输入的第一图像为直流分量图像、第二图像为语义概率图、C等于C₁、N等于32，输出的初始复原图像为初始复原直流分量图像，2D卷积神经网络作为低频分量频率复原网络时，输入的第一图像为低频分量图像、第二图像为语义概率图、C等于C₂、N等于64，输出的初始复原图像为初始复原低频分量图像，2D卷积神经网络作为中频分量频率复原网络时，输入的第一图像为中频分量图像、第二图像为语义概率图、C等于C₃、N等于128，输出的初始复原图像为初始复原中频分量图像，2D卷积神经网络作为高频分量频率复原网络时，输入的第一图像为高频分量图像、第二图像为语义概率图、C等于C₄、N等于64，输出的初始复原图像为初始复原高频分量图像，第一2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为C+8、输出通道数为N、采用的激活函数为“Leaky ReLU”，第二2D卷积层的卷积核的尺寸为1×1、卷积步长为1×1、输入通道数为3N、输出通道数为3N/2、采用的激活函数为“Leaky ReLU”，第三2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为8、输出通道数为N、采用的激活函数为“Leaky ReLU”，第四2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为3N/2+N、输出通道数为N、采用的激活函数为“Leaky ReLU”，第五2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为N、采用的激活函数为“Leaky ReLU”，第六2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为C、不采用激活函数。

3.根据权利要求2所述的基于频域分析和深度学习的光场图像超分辨率重建方法，其特征在于第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块的结构相同，其由第一2D扩张卷积层、第二2D扩张卷积层、第三2D扩张卷积层和第七2D卷积层组成；

4.根据权利要求1所述的基于频域分析和深度学习的光场图像超分辨率重建方法，其特征在于所述的步骤7中，构建的3D卷积神经网络的结构为：该3D卷积神经网络包括用于提取频率特征的3D编码器和用于重建目标频率伪视频的3D解码器，3D编码器由依次连接的第一3D卷积层、第二3D卷积层、第三3D卷积层和第四3D卷积层组成，3D解码器由第一3D反卷积层、第二3D反卷积层、第三3D反卷积层和第五3D卷积层组成；第一3D卷积层的输入端接收1个由β_aU×β_aV幅宽度为β_sW且高度为β_sH的初始复原DCT频率图像组合成的失真3D频率伪视频，即失真3D频率伪视频的帧数为β_aU×β_aV，第一3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的特征图像，将第一3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e1；第二3D卷积层的输入端接收F_e1中的所有频率特征伪视频，第二3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/2帧宽度为β_sW且高度为β_sH的特征图像，将第二3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e2；第三3D卷积层的输入端接收F_e2中的所有频率特征伪视频，第三3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/4帧宽度为β_sW且高度为β_sH的特征图像，将第三3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e3；第四3D卷积层的输入端接收F_e3中的所有频率特征伪视频，第四3D卷积层的输出端输出64个频率特征伪视频，每个频率特征伪视频包含(β_aU×β_aV)/8帧宽度为β_sW且高度为β_sH的特征图像，将第四3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为F_e4；第一3D反卷积层的输入端接收F_e4中的所有频率特征伪视频，第一3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含(β_aU×β_aV)/4帧宽度为β_sW且高度为β_sH的特征图像，将第一3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d1；第二3D反卷积层的输入端接收F_d1中的所有解码特征伪视频和F_e3中的所有频率特征伪视频的相加操作结果，第二3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含(β_aU×β_aV)/2帧宽度为β_sW且高度为β_sH的特征图像，将第二3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d2；第三3D反卷积层的输入端接收F_d2中的所有解码特征伪视频和F_e2中的所有频率特征伪视频的相加操作结果，第三3D反卷积层的输出端输出64个解码特征伪视频，每个解码特征伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的特征图像，将第三3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为F_d3；第五3D卷积层的输入端接收F_d3中的所有解码特征伪视频，第五3D卷积层的输出端输出1个精细复原频率伪视频，将其记为F_d，该精细复原频率伪视频包含β_aU×β_aV帧宽度为β_sW且高度为β_sH的精细复原DCT频率图像；其中，第一3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为1、输出通道数为64、采用的激活函数为“Leaky ReLU”，第二3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第三3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第四3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第一3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第二3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第三3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”，第五3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为64、输出通道数为1、不采用激活函数。