CN117114987A

CN117114987A - 基于亚像素和梯度引导的光场图像超分辨率重建方法

Info

Publication number: CN117114987A
Application number: CN202310874018.3A
Authority: CN
Inventors: 彭宗举; 韦玮; 陈芬; 张鹏; 张华波; 罗英国
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-11-24
Anticipated expiration: 2043-07-17
Also published as: CN117114987B

Abstract

本发明具体涉及基于亚像素和梯度引导的光场图像超分辨率重建方法，包括：将目标光场图像输入超分辨重建模型得到超分辨率重建图像；训练时：将低分辨率光场图像和对应的梯度阵列作为模型输入；提取低分辨率光场图像和对应梯度阵列的多重亚像素特征；对光场和梯度多重亚像素特征进行特征表示增强；对光场和梯度多重亚像素增强特征进行特征融合得到多重亚像素融合特征；基于多重亚像素融合特征进行超分辨率重建，并将低分辨率光场图像经过双三次插值后与重建图像相加生成超分辨率重建图像；计算训练损失并优化模型参数直至收敛。本发明通过多重亚像素信息来弥补光场中的像素差异性，通过梯度先验来引导超分辨重建以保护重建图像的边缘纹理细节。

Description

基于亚像素和梯度引导的光场图像超分辨率重建方法

技术领域

本发明涉及光场图像超分辨率重建技术领域，具体涉及基于亚像素和梯度引导的光场图像超分辨率重建方法。

背景技术

光场同时包含了场景的空间信息和角度信息，在计算机视觉和计算机图形学等领域具有广泛的应用前景，可用于目标检测、深度估计和三维(Three Dimension,3D)重建等。光场作为一种高维数据，在3D世界中很难被表示出来，需要特殊的光场相机来记录。与普通相机相比，光场相机在主透镜和图片传感器之间嵌入了一个微透镜阵列，从多个角度同时记录空间光线的方向和强度，能为用户提供更为丰富的场景和运动信息。由于受到光场相机中微透镜阵列的限制，获取到的光场图像分辨率普遍较低，阻碍了光场的应用，因此出现了大量关于光场图像超分辨率(Super-Resolution,SR)的研究。

现有的光场图像SR方法主要分为基于传统的SR方法和基于深度学习的SR方法。传统的光场图像SR方法根据光场视点图像视差和像素点之间的对应关系，利用先验的视差信息对视点图像像素信息进行显式投影来达到SR的目的。但视差先验信息严重依赖视点图像本身的质量，现有的视差估计方法通常不能满足这类方法对视差先验信息的高精确度要求。基于深度学习的光场图像SR方法无需先验的视差信息，通过构建从低分辨率图像到高分辨率图像的映射关系，能够直接通过网络学习光场信息达到良好的SR质量。

光场图像中物体的形状和位置会随视图角度的不同而变化，因此光场图像中各视图间存在着像素差异性，这种差异主要体现在像素的光线方向和强度的差异，在SR过程中忽略这些差异将导致重建图像出现伪影、失真。然而，现有基于深度学习的方法主要通过级联多个卷积层获得大的感受野来覆盖差异范围，不能很好地解决光场图像SR时各视图之间的像素差异性问题。同时，光场图像SR过程存在细节丢失的问题，现有大部分方法在重建过程中没有注意保护边缘细节，导致光场图像超分辨率重建的效果和质量不好。因此，如何提高光场图像超分辨率重建的效果和质量是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于亚像素和梯度引导的光场图像超分辨率重建方法，能够通过多重亚像素信息来弥补光场中的像素差异性，并且能够通过梯度先验来引导超分辨重建以保护重建图像的边缘纹理细节，从而提高光场图像超分辨率重建的效果和质量。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于亚像素和梯度引导的光场图像超分辨率重建方法，包括：

S1：获取待重建的目标光场图像；

S2：将目标光场图像输入训练后的超分辨重建模型，输出对应的超分辨率重建图像；

通过如下步骤训练超分辨重建模型：

S201：首先将用作样本的高分辨率光场图像转换为低分辨率光场图像；然后提取低分辨率光场图像的梯度图，得到对应的梯度阵列；最后将低分辨率光场图像和对应的梯度阵列作为模型输入；

S202：分别通过多重亚像素信息提取模块提取低分辨率光场图像和对应梯度阵列的多重亚像素特征，得到对应的光场多重亚像素特征和梯度多重亚像素特征；

S203：分别通过增强模块对光场多重亚像素特征和梯度多重亚像素特征进行特征表示增强，得到对应的光场多重亚像素增强特征和梯度多重亚像素增强特征；

S204：通过融合模块对光场多重亚像素增强特征和梯度多重亚像素增强特征进行特征融合，得到对应的多重亚像素融合特征；

S205：通过重建模块基于多重亚像素融合特征进行超分辨率重建，得到重建图像；然后将低分辨率光场图像经过双三次插值后与重建图像相加，生成对应的超分辨率重建图像；

S206：根据超分辨率重建图像和用作样本的高分辨率光场图像计算训练损失，并基于训练损失优化超分辨重建模型的参数；

S207：重复步骤S201至步骤S206，直至超分辨重建模型收敛；

S3：将输出的超分辨率重建图像作为目标光场图像的超分辨率重建结果。

优选的，将低分辨率光场图像或梯度阵列分别按水平、垂直、对角和反对角方向叠加成四个图像堆并输入多重亚像素信息提取模块：首先分别提取四个图像堆的亚像素特征信息；然后将各个图像堆的亚像素特征信息进行连接，得到全局亚像素特征；最后对全局亚像素特征进行降维和特征对齐，得到对应的多重亚像素特征。

优选的，多重亚像素信息提取模块包括分别将四个图像堆作为输入且用于提取亚像素特征信息的四个特征多重亚像素信息提取模块、用于将四个特征多重亚像素信息提取模块输出的亚像素特征信息连接的连接模块、用于对连接得到的全局亚像素特征进行降维的3D卷积模块，以及用于对降维后的全局亚像素特征进行特征对齐的角度对齐模块；角度对齐模块的输出为对应的多重亚像素特征。

优选的，特征多重亚像素信息提取模块包括依次首尾连接的一个3D卷积层和四个堆叠的残差块，且将第一个残差块的输入和最后一个残差块的输出进行求和操作后作为特征多重亚像素信息提取模块输出的亚像素特征信息；各个残差块均包括依次首尾连接的PReLu激活层和3D卷积层，且将PReLu激活层的输入与3D卷积层的输出进行求和操作。

优选的，将光场多重亚像素特征或梯度多重亚像素特征转换为对应的特征序列后输入增强模块：首先提取特征序列的亚像素空间特征；然后基于亚像素空间特征生成对应的查询矩阵、关键字矩阵和值矩阵，并根据三个矩阵生成空间特征图；最后将空间特征图与输入的特征序列相加，得到对应的多重亚像素增强特征。

优选的，增强模块包括如下处理步骤：

S2031：通过三个卷积层分支分别提取特征序列的亚像素空间特征；

S2032：分别对三个亚像素空间特征进行展开操作，得到对应的局部特征块；然后分别将三个局部特征块重塑为对应的查询矩阵Q₁、关键字矩阵K₁和值矩阵V₁；

S2033：对K₁进行转置操作，得到关键字矩阵转置K₁ ^T；

S2034：将K₁ ^T与Q₁相乘后再与V₁相乘，然后对所得乘积进行折叠操作和卷积操作得到空间特征图；

S2035：将空间特征图与输入的特征序列相加，得到对应的多重亚像素增强特征。

优选的，将光场多重亚像素增强特征和梯度多重亚像素增强特征输入融合模块：首先提取光场多重亚像素增强特征和梯度多重亚像素增强特征的光场增强空间特征和梯度增强空间特征；然后基于光场增强空间特征和梯度增强空间特征生成对应的查询矩阵、关键字矩阵和值矩阵，并根据三个矩阵生成增强特征图；最后将增强特征图与输入的光场多重亚像素增强特征相加，得到对应的多重亚像素融合特征。

优选的，融合模块包括如下处理步骤：

S2041：通过一个卷积层分支提取光场多重亚像素增强特征的光场增强空间特征；

S2042：通过两个卷积层分支分别提取梯度多重亚像素增强特征的梯度增强空间特征；

S2043：对光场增强空间特征进行展开操作，得到对应的局部特征块；然后将该局部特征块重塑为对应的查询矩阵Q₂；

S2044：分别对两个梯度增强空间特征进行展开操作，得到对应的局部特征块；然后分别将两个局部特征块重塑为对应的关键字矩阵K₂和值矩阵V₂；

S2045：对K₂进行转置操作，得到关键字矩阵转置K₂ ^T；

S2046：将K₂ ^T与Q₂相乘后与再V₂相乘，然后对所得乘积进行折叠操作和卷积操作得到增强特征图；

S2047：将增强特征图与输入的光场多重亚像素增强特征相加，得到对应的多重亚像素融合特征。

优选的，重建模块由信息多重蒸馏模块和上采样模块组成，其中上采样模块包含两个卷积层和一个像素重组层；

重建模块进行超分辨率重建时：首先通过信息多重蒸馏模块从多重亚像素融合特征中提取多层次特征信息；然后通过第一个卷积层将多层次特征信息的通道维度升维至a²N，得到对应的重建特征；随后通过像素重组层将重建特征上采样至目标分辨率aH×aW；最后通过第二个卷积层将上采样后的重建特征的通道维度降维至1，得到对应的重建图像。

优选的，通过如下公式计算训练损失：

式中：loss(x,y)表示训练损失；f(x_i)表示生成的超分辨率重建图像，x_i表示输入的低分辨率光场图像；y_i表示用作样本的高分辨率光场图像；n表示样本数量。

本发明中基于亚像素和梯度引导的光场图像超分辨率重建方法与现有技术相比，具有如下有益效果：

本发明通过训练后的超分辨重建模型对光场图像进行超分辨率重建，该模型首先将低分辨率光场图像和对应的梯度阵列作为模型输入，然后提取亚像素特征信息得到光场和梯度的多重亚像素特征，随后对光场和梯度的多重亚像素特征进行特征表示增强，最后对特征表示增强后光场和梯度的多重亚像素特征进行融合，并基于多重亚像素融合特征进行超分辨率重建，进而将重建图像和低分辨率光场图像相加，得到超分辨率重建图像。一方面，本发明提取光场图像(即所有子孔径图像)的光场多重亚像素特征，并对光场多重亚像素特征进行特征表示增强，通过特征表示增强后的光场多重亚像素特征来弥补光场中的像素差异性，使得能够在提高光场图像空间分辨率的同时重建得到更高质量的重建图像，改善了超分辨重建过程中因忽略像素差异性导致重建图像出现失真、伪影等问题，从而提高光场图像超分辨率重建的效果和质量。另一方面，本发明在提取光场多重亚像素特征的基础上通过提取光场图像的梯度图得到梯度阵列，进而提取梯度阵列(即所有梯度图)的亚像素特征信息得到梯度多重亚像素特征，并将特征表示增强后的梯度多重亚像素特征和光场多重亚像素特征融合，使得能够将梯度多重亚像素特征作为梯度先验来引导光场多重亚像素特征的超分辨重建，进而保护了超分辨率重建图像的边缘纹理细节，从而进一步提高光场图像超分辨率重建的效果和质量。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于亚像素和梯度引导的光场图像超分辨率重建方法的逻辑框图；

图2为光场图像超分辨率重建模型的网络结构图；

图3为水平极平面图像中的亚像素信息示意图；

图4为多重亚像素信息提取模块的网络结构图；

图5为增强模块的网络结构图；

图6为融合模块的网络结构图；

图7为场景Building_Decoded下不同方法视觉效果对比；

图8为场景Origami下不同方法视觉效果对比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于亚像素和梯度引导的光场图像超分辨率重建方法。

如图1所示，基于亚像素和梯度引导的光场图像超分辨率重建方法，包括：

S1：获取待重建的目标光场图像；

本发明所述的光场图像超分辨率(Super-Resolution,SR)是指采用图像处理和机器学习技术，从已有的低分辨率(Low-Resolution,LR)图像重建高分辨率(High-Resolution,HR)图像的技术。具体的，光场图像可以被表示为宏像元图像、子孔径图像(Sub-aperture Image,SAI)和极平面图像(Epipolar Plane Image,EPI)，并且三种图像可以相互转换。本发明将光场图像表示为子孔径图像阵列。光场可以表示为L(x,y,s,t)，其中(x,y)表示空间维度，(s,t)表示角度维度，其中L∈R^(H×W×S×T)。光场图像可以看作S×T个子孔径图像的阵列，每个子孔径图像的分辨率为H×W像素。光场图像超分辨率重建的目标是从低分辨率(LR)光场L^LR(x,y,s,t)重建出超分辨(SR)光场L^SR(x,y,s,t)，L^SR∈R^{(aH×aW×S×T)}，其中a为空间放大倍数。公式描述为：

L^SR＝f(L^LR)；其中f表示从LR光场映射到HR光场的函数。

结合图2所示，通过如下步骤训练超分辨重建模型：

S201：首先将用作样本的高分辨率光场图像转换为低分辨率光场图像；然后提取低分辨率光场图像(即所有子孔径图像)的梯度图，得到对应的梯度阵列；最后将低分辨率光场图像和对应的梯度阵列作为模型输入；

本发明在训练超分辨重建模型时，对高分辨率光场图像进行双三次下采样得到低分辨率图像，使得能够更好地模拟现实生活中的低分辨率的光场图像，进而提高训练后的超分辨重建模型的实际应用效果，从而提高光场图像超分辨率重建的实用性。

S202：分别通过多重亚像素信息提取模块(Multiple Sub-Pixel InformationExtraction,MSPIE)提取低分辨率光场图像和对应梯度阵列(即所有梯度图)的多重亚像素特征，得到对应的光场多重亚像素特征和梯度多重亚像素特征；

S203：分别通过(特征表示)增强模块对光场多重亚像素特征和梯度多重亚像素特征进行特征表示增强，得到对应的光场多重亚像素增强特征和梯度多重亚像素增强特征；

S205：通过重建模块基于多重亚像素融合特征进行超分辨率重建，得到重建图像；然后将低分辨率光场图像经过双三次插值后与重建图像相加(完成全局残差学习)，生成对应的超分辨率重建图像；

本实施例中，采用的双三次插值(Bicubic Interpolation)是一种常用的图像插值方法，用于增大低分辨率光场图像的尺寸至与重建图像一致。它是在二维平面上进行插值，采用了三次多项式来逼近图像中的像素值。

S207：重复步骤S201至步骤S206，直至超分辨重建模型收敛；

1、多重亚像素信息提取

与传统的多视图图像不同，光场图像中的视图有不同的角度方向，在一个角度方向的视图包含了中心视图在对应空间方向的亚像素偏移，不同空间方向的亚像素偏移可以在对应角度方向的视图中找到。根据光场的图像一致性，如果相邻视图之间的像素差异为1/3，通过从周围3个视图中提取对应像素，就可以将该区域上采样放大3倍。因此根据差异信息找到不同视图之间的亚像素偏移，从而提高每个视图的空间分辨率。

通过固定光场图像L的一个角度维度(s,t)和空间维度(x,y)，可以得到对应的EPI(极平面图像)。EPI同时包含了在空间维度和角度维度的信息，并且可以有效反映光场的场景几何一致性。此外，EPI中线条的斜率反应了对应像素点的差异，因此利用EPI可以解决光场SR中差异问题。将SAI沿着固定方向叠成图像堆，图像堆沿着某一方向的二维切片就是对应方向的EPI。为了进一步解释空间维度和角度维度之间的联系，图3中展示了水平方向的EPI中的亚像素信息。水平图像堆可以通过将SAI沿着水平方向堆叠，然后沿着水平方向切片得到的二维切片E^H(x,u)就是水平EPI。在光场图像不同视图中的像素可以表示为：

L(x,y,s,t)＝L(x+Δx,y+Δy,s+Δs,t+Δt)；

式中：Δx＝Δs×d，Δy＝Δt×d，d为参考点和其他点的像素差异大小。

根据d，一个视图中的像素点可以与其他视图中的另一像素点相匹配。由于在角度维度的密集采样，因此在一个视图中的亚像素信息可以在其它视图中找到。如图3所示，参考点p的水平亚像素信息可以在周围两个视图中找到。参考点L^p(x^p,y^p,s^p+Δx/d,t^p)和L^p'(x^p+Δx,y^p,s^p,t^p)对应，表示相应的水平亚像素信息可以在相邻的视图中提取到。在图3中的水平EPI中，参考点p对应p′和p″。此外，垂直和对角亚像素信息可以分别在对应的垂直和对角EPI中找到。一旦找到了在中心EPI中四个方向的周围亚像素信息，对应的区域就能完成SR。

具体的，本发明将低分辨率光场图像(即所有子孔径图像)L^LR∈R^(H×W×S×T)或梯度阵列(即所有梯度图)G^LR∈R^(H×W×S×T)分别按水平、垂直、对角和反对角方向叠加成四个图像堆并输入多重亚像素信息提取模块：首先分别提取四个图像堆的亚像素特征信息；然后将各个图像堆的亚像素特征信息进行连接，得到全局亚像素特征；最后对全局亚像素特征进行降维和特征对齐，得到对应的多重亚像素特征(即光场多重亚像素特征F_MSP∈R^{(H×W×S×T×C)}或梯度多重亚像素特征G_MSP∈R^{(H×W×S×T×C)})。水平、垂直、对角和反对角方向的图像堆分别表示为：

式中：m∈{1,...,A}。当1≤i≤A时，1≤m≤A；当i＞A时，i-A≤m≤2A-i。水平和垂直方向的图像堆都有A个图像，每个图像堆有A张图像，对角方向有2A-1个图像堆，并且每个图像堆的图像数量不同。

结合图4所示，多重亚像素信息提取模块包括分别将四个图像堆作为输入且用于提取亚像素特征信息的四个(并行设置的)特征多重亚像素信息提取模块、用于将四个特征多重亚像素信息提取模块输出的亚像素特征信息连接生成全局亚像素特征的连接模块、用于对连接得到的全局亚像素特征进行降维的3D卷积模块，以及用于对降维后的全局亚像素特征进行特征对齐的角度对齐模块(Angular Alignment Module,AAM)；角度对齐模块的输出为对应的多重亚像素特征。该多重亚像素信息提取模块的结构可以弥补光场图像超分辨率中的像素差异性问题。

具体的，特征多重亚像素信息提取模块包括依次首尾连接的一个3D卷积层和四个堆叠的残差块，且将第一个残差块的输入和最后一个残差块的输出进行求和操作后作为特征多重亚像素信息提取模块输出的亚像素特征信息。各个残差块均包括依次首尾连接的PReLu激活层和3D卷积层，且将PReLu激活层的输入与3D卷积层的输出进行求和操作。其中3D卷积可以提取到对应方向EPI中的亚像素信息，该特征多重亚像素信息提取模块的结构可以保证足够大的感受野提取亚像素信息。

经过特征多重亚像素信息提取模块的输出特征为

其中，当θ{0°,90°}时，i∈{1,2,...,A},当θ∈{45°,135°}时，i∈{1,2,...,2A-1}。

将重塑为5维数据F_θ∈R^{(H×W×S×T×C)}，C为特征通道。将四个方向的特征连接，通过一个卷积层进行降维，最后通过AAM进行特征对齐得到多重亚像素特征F_MSP∈R^{(H×W×S×T×C)}。

本实施例中，对“Wang Y Q,Yang J G,Wang L G,et al.Light field imagesuper-resolution using deformable convolution”中公开的角度可变对齐模块进行了改进，由于只需要对齐卷积特征，因此移除了其中的可变卷积。由于EPI可以视为沿图像堆方向的二维切片，因此，特征提取块中的3D卷积可以提取到对应方向EPI中的亚像素信息。为了保证有足够大的感受野来提取亚像素信息，卷积核大小设置为3×3×3，并且每个特征提取块包含四个残差块。

本发明为了提取低分辨率光场图像的亚像素特征信息，构建了MSPIE模块，该模块将子孔径图像分为水平、垂直、对角和反对角四个图像堆，并分别提取各图像堆的亚像素特征信息，使得能够有效提取光场图像和梯度阵列的多重亚像素特征，为后续特征融合和超分辨重建提供了有效的数据支持，从而进一步提高光场图像超分辨率重建的效果和质量。

2、特征表示增强

考虑到卷积特征只能独立捕捉每个SAI内的局部上下文信息，缺乏不同SAI之间的全局上下文信息。与传统卷积不同，视觉Transformer把一张图像视为一个符号的序列，并且通过自注意力机制建立所有符号之间的关系，因此加入Transformer可进一步丰富特征表示。由于光场图像由多个视图组成，并且每个视图的相关性强，因此可以将光场图像视为一个连续序列。本发明将视频SR中的Transformer引入到光场图像SR中用于特征表示增强，以更好地捕捉各视图间的全局上下文信息，该Transformer包含4个空间角度增强自注意力层。

具体的，本发明将光场多重亚像素特征或梯度多重亚像素特征转换为对应的特征序列F_s∈R^(L×H×W×N)后输入增强模块：首先提取特征序列的亚像素空间特征；然后基于亚像素空间特征生成对应的查询矩阵、关键字矩阵和值矩阵，并根据三个矩阵生成空间特征图；最后将空间特征图与输入的特征序列相加，得到对应的多重亚像素增强特征。

结合图5所示，增强模块包括如下处理步骤：

将所有SAI视为一个序列，特征序列F_s∈R^(L×H×W×N)作为Transformer的输入，其中L为序列长度，N＝4C。

S2031：通过三个卷积层分支分别提取特征序列(如光场多重亚像素特征的特征序列F_s∈R^(L×H×W×N))的亚像素空间特征；

本实施例中展开操作是一种将特征映射从三维张量(通常是空间尺寸×通道数)转换为二维矩阵的方法。局部特征块是指将特征图划分为不同的块或子区域，并将这些块视为局部特征。展开操作和重塑特征矩阵的步骤：1)定义局部特征块：根据任务需求和输入特征图大小决定如何将特征图划分为局部特征块，可以是规则的网格分割或任意不规则的方式。2)划分特征图：根据定义的局部特征块将特征图划分为不同的块，可以通过使用滑动窗口或其他划分技术来实现。3)扩展局部特征块：对于每个局部特征块将其展开为一维向量，可以通过将每个块的所有像素展开成一行得到一个二维矩阵。4)串联特征块：将所有展开的局部特征块按照一定的顺序串联起来，以形成一个特征矩阵，通常特征矩阵的每一行对应于一个展开的局部特征块。5)输出特征矩阵：得到重塑后的特征矩阵作为结果。

S2033：对K₁进行转置操作，得到关键字矩阵转置K₁ ^T；

S2034：将K₁ ^T与Q₁相乘后再与V₁相乘，然后对所得乘积进行折叠操作和卷积操作(1×1卷积层)得到空间特征图；

S2035：将空间特征图与输入的特征序列相加，得到对应的多重亚像素增强特征(如光场多重亚像素增强特征F_T∈R^(L×H×W×N)或梯度多重亚像素增强特征G_T∈R^(L×H×W×N))。

本发明为了丰富不同SAI之间的全局上下文信息，引入Transformer来进行多重亚像素特征的特征表示增强。同时，上述结构的增强模块能够更好地捕捉各视图间的全局上下文信息，进而加强空间维度和角度维度的联系。

3、梯度特征融合

为了在SR过程中更好地保护重建图像的边缘细节，本发明利用梯度来引导光场图像SR。首先提取所有SAI的梯度图得到梯度阵列G^LR∈R^(H×W×S×T)，然后用MSIPE模块提取梯度多重亚像素特征G_MSP∈R^{(H×W×S×T×C)}，再进行特征表示增强得到增强梯度特征G_T∈R^(L×H×W×N)。将光场图像增强特征和梯度图像增强特征融合完成结构细节增强。空间角度增强自注意力层注重与相同序列之间的关系，而融合层需要注重对梯度序列和原始特征序列之间的关系，因此对空间角度增强自注意力层进行改进得到梯度融合自注意力层。

具体的，将光场多重亚像素增强特征和梯度多重亚像素增强特征输入融合模块(梯度融合注意力层)：将光场多重亚像素增强特征和梯度多重亚像素增强特征输入融合模块：首先提取光场多重亚像素增强特征和梯度多重亚像素增强特征的光场增强空间特征和梯度增强空间特征；然后基于光场增强空间特征和梯度增强空间特征生成对应的查询矩阵、关键字矩阵和值矩阵，并根据三个矩阵生成增强特征图；最后将增强特征图与输入的光场多重亚像素增强特征相加，得到对应的多重亚像素融合特征。

结合图6所示，融合模块包括如下处理步骤：

S2045：对K₂进行转置操作，得到关键字矩阵转置K₂ ^T；

S2046：将K₂ ^T与Q₂相乘后与再V₂相乘，然后对所得乘积进行折叠操作和卷积操作(1×1卷积层)得到增强特征图；

S2047：将增强特征图与输入的光场多重亚像素增强特征相加，得到对应的多重亚像素融合特征F_f∈R^(L×H×W×N)。

本发明为了解决光场图像在重建过程中存在边缘细节丢失的问题，利用梯度引导超分辨重建过程，通过消融实验表明，梯度引导的光场SR能够有效保护图像的边缘细节。同时，该结构的融合模块通过融合梯度来更好地保护重建图像地边缘细节。

4、超分辨率重建

重建模块由信息多重蒸馏模块和上采样模块组成，其中上采样模块包含两个(1×1)卷积层和一个像素重组层；重建模块进行超分辨率重建时：首先通过信息多重蒸馏模块从多重亚像素融合特征中提取多层次特征信息；然后通过第一个1×1卷积层将多层次特征信息的通道维度升维至a²N，得到对应的重建特征；随后通过像素重组层将重建特征上采样至目标分辨率aH×aW；最后通过第二个1×1卷积层将上采样后的重建特征的通道维度降维至1，得到对应的重建图像。

本实施例中，信息多重蒸馏模块整体表现为残差结构，每次提取一部分有用的特征，其余特征继续向下通过卷积再进行提取的过程，最后将每一步提取出来的特征连接起来，再通过一个通道注意力层，最后利用1*1的卷积降维。具体的，信息多重蒸馏模块可采用“Hui Z,Gao X B,Yang Y C,et al.Lightweight image super-resolution withinformation multi-distillation network”中公开的信息多重蒸馏模块。

本发明重建模块生成的重建图像在多个层次上都能够保持细节和结构的一致性，并且减少了计算复杂度和参数数量。

具体实施过程中，训练和测试所用的五个公共数据库分别为EPFL，HCI_new，HCI_old，INRIA_Lytro和Stanford_Gantry。选取其中144个场景用于训练，23个场景用于测试。所有光场图像的原始角度分辨率为9×9，训练和测试时将原始光场图像裁剪到合适分辨率，角度分辨率为5×5。将原始光场图像裁剪为64×64的图像块，步幅为32，然后用双三次插值将图像块下采样到32×32作为网络的低分辨率输入图像。

超分辨重建模型在NVIDIA RTX 4090GPU的PC上基于Pytorch框架进行训练。首先将光场图像从RGB三通道图像转换为YCbCr颜色空间，提取Y通道图像进行超分。生成视觉对比结果时，对Cb和Cr通道用双三次插值进行上采样。训练时将原始光场图像裁剪为64×64的图像块，步幅为32，然后用双三次插值将图像块下采样到32×32作为网络的LR输入图像。对裁剪后的训练数据进行了随机水平翻转、垂直翻转和90度旋转来增加训练数据。3D卷积层卷积核数量为32，卷积核大小为3×3×3。初始学习率设置为2e-4，学习率优化方式为ADAM，β1＝0.9，β2＝0.999。学习率每隔15个epoch减半，总共训练59个epoch，batchsize为8，损失函数为平均绝对误差L1损失函数。

通过如下公式计算训练损失：

本发明通过上述公式计算训练损失，该公式对于任何输入值都有稳定的梯度，不会导致梯度爆炸问题，具有较为稳健性的解。

为了更好的说明本发明技术方案的优势，本实施例中公开了如下实验。

本实验中，训练和测试所用的五个公共数据库分别为EPFL(来自Rerabek M,Ebrahimi T.New light field image dataset)，HCI_new(Honauer K,Johannsen O,Kondermann D,et al.A dataset and evaluation methodology for depth estimationon 4D light fields)，HCI_old(来自Wanner S,Meister S,Goldluecke B.Datasets andbenchmarks for densely sampled 4D light fields)，INRIA_Lytro(来自Pendu M L,Jiang X R,Guillemot C.Light field in painting propagation via low rank matrixcompletion)和Stanford_Gantry(来自Vaish V,Adams A.The(new)standford lightfield archive)。选取其中144个场景用于训练，23个场景用于测试。所有光场图像的原始角度分辨率为9×9，训练和测试时将原始光场图像裁剪到合适分辨率，角度分辨率为5×5，空间分辨率64×64。使用双三次插值对原始图像进行下采样生成LR图像。

1、训练细节

本实验中，设计的超分辨重建模型在NVIDIA RTX 4090GPU的PC上基于Pytorch框架进行训练。首先将光场图像从RGB三通道图像转换为YCbCr颜色空间，提取Y通道图像进行超分。生成视觉对比结果时，对Cb和Cr通道用双三次插值进行上采样。训练时将原始光场图像裁剪为64×64的图像块，步幅为32，然后用双三次插值将图像块下采样到32×32作为网络的LR输入图像。对裁剪后的训练数据进行了随机水平翻转、垂直翻转和90度旋转来增加训练数据。3D卷积层卷积核数量为32，卷积核大小为3×3×3。初始学习率设置为2e-4，学习率优化方式为ADAM，β1＝0.9，β2＝0.999。学习率每隔15个epoch减半，总共训练59个epoch，batchsize为8，损失函数为平均绝对误差L1损失函数。

2、算法性能比较

为了评估本发明方法的性能，本实验在五个公开数据集上与一些方法进行了对比。包括了VDSR(来自Vaish V,Adams A.The(new)standford light field archive)，EDSR(来自Kim J,Lee J K,Lee K M.Accurate image super-resolution using very deepconvolutional networks)，resLF(来自Zhang S,Lin Y,Sheng H.Residual networks forlight field image super-resolution)，LFSSR(来自Yoon Y,Jeon H G,Yoo D,etal.Light field image super-resolution using convolutional neural network)，LFSSR-ATO(来自Jin J,Hou J H,Chen J,et al.Light field spatial super-resolutionvia deep combinatorial geometry embedding and structural consistencyregularization)，MEG-Net(来自Wang Y Q,Yang J G,Wang L G,et al.Light fieldimage super-resolution using deformable convolution)，LF-Inter(来自Yoon Y,JeonH G,Yoo D,et al.Light field image super-resolution using convolutional neuralnetwork)，DPT(来自Wang S Z,Zhou T F,Lu Y,et al.Detail-preserving transformerfor light field image super-resolution)，其中VDSR和EDSR直接用对应SISR方法来超分光场图像中的每个视图。

评价超分辨率性能的指标为峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)。表1和表2分别为二倍超分辨率结果对比和四倍超分辨率结果对比，其中加粗的为最优结果，加下划线的为次优结果，从表中结果可以看出，本发明方法的指标都为最优或次优，证明了本发明方法具有较好的超分辨率性能。

表1不同方法×2超分辨率PSNR(dB)/SSIM对比

表2不同×4超分辨率方法PSNR(dB)/SSIM对比

从表1可以看出，在两倍超分辨率结果中，本发明提出的方法在五个数据库上均取得了不错的表现。其中PSNR指标在五个数据库上均为最优，SSIM指标除了在EPFL和INRIA_Lytro数据库为次优，在其余三个数据库上均为最优。与其它光场图像SR方法相比，VDSR和EDSR直接用SISR方法超分光场中的每个视图，忽略了不同视图之间的相关性，导致超分结果与其他方法差距较大。由于MEG-Net和本发明方法在SR过程中均利用到了EPI，而EPI可以有效反映光场的场景几何一致性，因此SSIM指标较高于其他方法。在四倍超分辨率结果中，本发明方法的PSNR指标在EPFL数据库上为次优，在其余四个数据库上均为最优，SSIM指标在五个数据库上均为最优。由此可证明，本发明方法在不同倍数超分辨率任务下，均能保持较高的超分辨率质量。

图7和图8为不同方法两倍SR的视觉效果对比。在图中的左侧展示了对应场景的中心视图，右侧展示了不同方法SR中心视图后的放大区域，并在下面列出了对应方法在该场景下的PSNR和SSIM。图7选取的INRIA_Lytro数据库中的Building_Decoded场景，图8为HCI_new数据库中的Origami场景。从图7和图8中可以看出，将单图像SR算法直接运用到光场图像中的视觉效果明显不如光场图像SR算法。从图7中可以看出，本发明所提方法更接近原始光场图像，在黄色箭头处的黑色纹理处，与其他方法相比，本发明方法的SR结果更加清晰并且能复原更多纹理细节。EDSR方法没有还原出纹理细节，并且图像整体较模糊。其余四种光场图像SR算法虽然复原了一部分纹理细节，但还原的纹理细节部分还不够清晰。在图8中可以看出，在黄色箭头的黑色条纹处，虽然LF-Inter，DPT和MEG方法都重建出了黑色条纹，但是本发明方法重建出的黑色条纹更加清晰。此外，在绿色箭头处的边缘细节处其余方法的重建效果较差，由于本发明方法在重建过程中融合了梯度多重亚像素信息，因此重建结果还原出了光场图像的边缘纹理细节。

3、计算效率分析

为了进一步验证本发明方法的计算效率，本实验从网络模型的参数量和计算复杂度Flops角度来评不同方法。表3为不同超分辨率模型的参数量，Flops和在五个数据库上的平均PSNR和SSIM。计算Flops时，设置输入光场图像的大小为5×5×32×32。从表3中可以看出，本发明方法的模型在参数量和Flops较小的情况下，平均PSNR和SSIM的值最高，具有较高的重建质量。与EDSR和LFSSR-ATO相比，本发明方法的Flops明显更低。为了在重建中保护图像的边缘细节，本发明方法设计了梯度分支，因此参数量和Flops略高于其他方法。

表3×2超分辨率模型参数量,Flop和PSNR/SSIM对比

4、消融实验

为了探索光场图像超分辨率过程中亚像素信息和梯度的有效性，本发明进行了四组消融实验。实验在EPFL数据库上进行验证，其中70个场景用于训练，10个场景用于测试。评价指标为PSNR和SSIM。实验结果如表4所示。用于对比的特征提取部分与“Wang Y Q,YangJ G,Wang L G,et al.Light field image super-resolution using deformableconvolution”和“Wang S Z,Zhou T F,Lu Y,et al.Detail-preserving transformer forlight field image super-resolution”中公开的相同，由两个残差空洞空间金字塔池化模块(Residual Atrous Spatial Pyramid Pooling Blocks,ResASPP)和残差块(ResidualBlocks,RB)构成，MSPIE为本发明提出的多重亚像素信息提取模块。

表4消融实验对比

表4中的第一组和第三组实验分别为ResASPP+RB结构和MSPIE模块的对比，第二组和第四组实验分别为加上梯度细节之后的对比。

实验结果表明，与ResASPP+RB结构相比，本发明方法的MSPIE模块在参数量和Flops在增大较小的情况下，PSNR和SSIM指标都有提升，证明了特征提取部分中MSPIE模块的有效性，通过利用光场图像的亚像素信息可以有效提升重建质量。其次验证梯度细节的作用，实验结果表明，加入梯度细节比没有梯度细节的重建质量更高，证明了在重建过程中融合梯度能有效保护光场图像的边缘纹理细节，从而提升重建质量。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于，包括：

S1：获取待重建的目标光场图像；

通过如下步骤训练超分辨重建模型：

S207：重复步骤S201至步骤S206，直至超分辨重建模型收敛；

2.如权利要求1所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于：步骤S202中，将低分辨率光场图像或梯度阵列分别按水平、垂直、对角和反对角方向叠加成四个图像堆并输入多重亚像素信息提取模块：首先分别提取四个图像堆的亚像素特征信息；然后将各个图像堆的亚像素特征信息进行连接，得到全局亚像素特征；最后对全局亚像素特征进行降维和特征对齐，得到对应的多重亚像素特征。

3.如权利要求2所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于：多重亚像素信息提取模块包括分别将四个图像堆作为输入且用于提取亚像素特征信息的四个特征多重亚像素信息提取模块、用于将四个特征多重亚像素信息提取模块输出的亚像素特征信息连接的连接模块、用于对连接得到的全局亚像素特征进行降维的3D卷积模块，以及用于对降维后的全局亚像素特征进行特征对齐的角度对齐模块；角度对齐模块的输出为对应的多重亚像素特征。

4.如权利要求3所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于：特征多重亚像素信息提取模块包括依次首尾连接的一个3D卷积层和四个堆叠的残差块，且将第一个残差块的输入和最后一个残差块的输出进行求和操作后作为特征多重亚像素信息提取模块输出的亚像素特征信息；各个残差块均包括依次首尾连接的PReLu激活层和3D卷积层，且将PReLu激活层的输入与3D卷积层的输出进行求和操作。

5.如权利要求1所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于：步骤S203中，将光场多重亚像素特征或梯度多重亚像素特征转换为对应的特征序列后输入增强模块：首先提取特征序列的亚像素空间特征；然后基于亚像素空间特征生成对应的查询矩阵、关键字矩阵和值矩阵，并根据三个矩阵生成空间特征图；最后将空间特征图与输入的特征序列相加，得到对应的多重亚像素增强特征。

6.如权利要求5所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于，增强模块包括如下处理步骤：

S2033：对K₁进行转置操作，得到关键字矩阵转置K₁ ^T；

7.如权利要求1所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于：步骤S204中，将光场多重亚像素增强特征和梯度多重亚像素增强特征输入融合模块：首先提取光场多重亚像素增强特征和梯度多重亚像素增强特征的光场增强空间特征和梯度增强空间特征；然后基于光场增强空间特征和梯度增强空间特征生成对应的查询矩阵、关键字矩阵和值矩阵，并根据三个矩阵生成增强特征图；最后将增强特征图与输入的光场多重亚像素增强特征相加，得到对应的多重亚像素融合特征。

8.如权利要求7所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于，融合模块包括如下处理步骤：

S2045：对K₂进行转置操作，得到关键字矩阵转置K₂ ^T；

9.如权利要求1所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于：重建模块由信息多重蒸馏模块和上采样模块组成，其中上采样模块包含两个卷积层和一个像素重组层；

10.如权利要求1所述的基于亚像素和梯度引导的光场图像超分辨率重建方法，其特征在于，步骤S206中，通过如下公式计算训练损失：