CN115147271A

CN115147271A - 一种用于光场超分辨率的多视图信息注意力交互网络

Info

Publication number: CN115147271A
Application number: CN202210431821.5A
Authority: CN
Inventors: 吴立军; 段尧明; 吴钰; 阮啸寅; 李强
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-10-04

Abstract

本发明公开了一种用于光场超分辨率的多视图信息注意力交互网络，一组低分辨率的光场图像作为网络的输入，顶部分支包含重塑过程、特征提取模块、四个双注意力模块；底部分支包含特征提取模块和四个多视图注意力模块；这两条支路提取的特征信息共同汇聚到融合重建模块，首先利用全局图像特征更新每个单视角图像特征，使得每个视角特征能够融合全局视角特征，再经过上采样模块，最后与输入图像的双三次上采样图像相加得到最后的输出图像。本发明利用多视图注意力模块让全局视角的权重大小变得不一样，从而能够更好、更合理地融合不同视图之间的信息。本发明在图像细节和纹理重建效果方面均比其他方法更好，视觉效果更接近于地面真实图像。

Description

一种用于光场超分辨率的多视图信息注意力交互网络

技术领域

本发明涉及光场成像技术领域，具体涉及一种用于光场超分辨率的多视图信息注意力交互网络。

背景技术

在数字化、网络化的时代，数据流转迅猛，相机正在快速进入光场相机时代。光场(Light Field，LF)成像技术能够记录完整的四维光场信息，经过四维图像处理后，能够实现立体深度信息提取、自由对焦、多视角视差图像提取等功能，并且能应用在四维安防监控、三维形貌检测、人脸辨识、航空航天等众多领域。

虽然四维光场图像同时提供了空间和角度信息，但低空间分辨率是难以发挥其优势的根本问题。因此，为了提高光场图像的空间分辨率，光场超分辨率 (Light Fieldsuper-resolution，LFSR)算法得到了广泛的研究。最近，基于深度学习的方法已经成功地应用于LFSR，并取得了良好的性能。由于光场中的遮挡和非朗伯反射，不同视角、不同通道的信息具有不同的重要性。现有的基于学习的LFSR方法对光场图像的视角特征和空间-通道特征一视同仁，不能有区别地利用光场图像中的信息来进一步提高性能。

发明内容

有鉴于此，为了解决现有技术中的上述问题，本发明提出一种用于光场超分辨率(Light Field super-resolution，LFSR)的多视图信息注意力交互网络 (Multi-ViewInformation Attention Interaction Network，MIAIN)。

本发明通过以下技术手段解决上述问题：

一种用于光场超分辨率的多视图信息注意力交互网络，包括顶部分支、底部分支、融合重建模块和上采样模块；

所述顶部分支包含依次串联的重塑过程、特征提取模块和四个双注意力模块；并将四个双注意力模块的输出进行级联；

所述底部分支包含依次串联的特征提取模块和四个多视图注意力模块；并将四个多视图注意力模块的输出进行级联；

将一组低分辨率的光场图像作为网络的输入，分别经过顶部分支和底部分支提取光场图像的特征信息；这两条支路提取的特征信息共同汇聚到融合重建模块，融合重建模块首先利用全局图像特征更新每个单视角图像特征，使得每个视角特征能够融合全局视角特征，再经过上采样模块，最后与输入图像的双三次上采样图像相加得到最后的输出图像。

进一步地，利用残差密集空洞空间金字塔池化模块和残差块作为网络的特征提取模块；选择卷积核扩张率为1、2和5；通过级联多个空洞卷积层，越往后的神经元就能获得越来越大的感受野；扩张率为1、2和5的空洞卷积感受野分别为3×3、5×5和11×11，级联后的感受野为17×17；将每一层的输入和输出的特征结合起来作为下一层的输入；经过1×1的卷积层进行压缩通道，再经过空洞卷积层后被修正线性单元函数激活；最后在网络末端使用1×1卷积层对提取到的三个特征进行融合；网络最终生成的特征能够非常密集的覆盖多个尺度范围；通过快捷连接的方式，使得网络学习的是一种残差映射。

进一步地，网络的输入低分辨率子孔径图像表示为

I代表光场图像，I^LR代表低分辨率光场图像，

是多维实数空间；LR是低分辨率；N 是光场全部视角个数；其中N＝U×V；U、V是光场的角度分辨率大小，U＝V＝5； W、H是子孔径图像的图像大小，W＝H＝32；对应的网络输出高分辨率子孔径图像表示为

其中I^SR代表高分辨率光场图像；SR是高分辨率；α是网络的放大倍数；在底部分支中，输入I^LR经过特征提取模块后，输出的特征为

C是网络输入的特征通道数；整个过程表示如下：

F_views＝H_FEM(I^LR) (1-1)

其中，F_views是提取到的特征，H_FEM表示特征提取模块的作用函数，称为浅层特征提取器；F_views不仅提取了单视角图像的特征信息，还保留了视图之间的相关性，用于方便后续对其视图特征之间权重的学习；在顶部分支中，输入I^LR经过重塑形状后再经过特征提取模块，得到的输出特征为

F_global融合了视图之间原有的相关性，提取了全局视图的特征信息，用于关注全局图像内部隐藏的信息，方便后续对其在空间位置和通道上权重的学习。

进一步地，顶部分支中特征提取模块的输出特征作为双注意力模块的输入特征F_topin，将输入的特征F_topin分别进行沿垂直方向的一维全局池化操作和沿水平方向的全局池化操作，用于沿着垂直方向和水平方向对每个通道进行编码，得到一对方向感知注意力图；整个过程表示如下：

其中，H_XGAP和H_YGAP分别代表沿着水平和垂直方向的一维全局池化函数； F_XGAP和F_YGAP分别是生成的水平特征和竖直特征；生成的

通过这两种变换，不仅拥有对一个空间方向的全局依赖，而且保留了另一个空间方向的精确位置信息；接着将生成的两个特征级联后，通过一个共享的 1×1的卷积层和修正线性单元激活层，得到中间特征

其中γ表示压缩通道的比率，用于减少计算量；整个过程表示如下：

F_Mid＝δ(H_1×1([F_XGAP,F_YGAP])) (1-3)

其中，δ表示修正线性单元激活函数，H_1×1表示共享的1×1的卷积层，[·]表示级联操作；F_Mid包含了水平方向和竖直方向的空间信息；接着沿着空间维度将 F_Mid切分成两个单独的特征向量

和

经过一个1×1的卷积层将两个特征向量扩充到和输入相同的通道数；再经过Sigmoid激活层，得到

和

整个过程表示如下：

其中，F_HS为纵向输出特征，F_WS为水平输出特征,σ表示Sigmoid激活函数；最后将两个方向的特征向量与输入相乘，得到的输出为：

F_topout＝F_topin*F_HS*F_WS (1-5)

式中，F_topout为学习到的空间-通道注意力特征，

*表示两个特征向量中对应位置元素相乘；至此，双注意力模块把水平方向和竖直方向的空间信息通过在通道上加权的方式融合，实现了同时对空间和通道的注意力；在双注意力模块的末端，F_topout通过两个残差块，再与输入相加，得到双注意力模块的输出

k表示第k个双注意力模块输出，k＝1,2,3,4；将四个双注意力模块的输出特征级联起来，再与特征提取模块提取的浅层特征F_global叠加，得到顶部分支的最终输出为：

其中，F_Top为顶层分支的最终输出特征，

分别是第一个、第二个、第三个、第四个双注意力模块的输出特征；

H_1×1为1×1的卷积层，用于将级联后的特征通道数从4C减少到C。

进一步地，底部分支中特征提取模块的输出特征作为多视图注意力模块的输入特征F_botin，首先需要变换输入的特征F_botin维度，使得

接着将特征F_botin分别通过最大值全局池化层和平均值全局池化层进行压缩，得到

和

F_GMP全局最大值特征，F_GAP全局平均值特征；随后两个特征向量经过共享的网络层，网络层包含两个1×1的卷积层和修正线性单元激活层；两个1×1的卷积层的作用分别是压缩通道和扩充通道，压缩比率为θ，用于减少计算量；再将两个特征向量求和后，经过Sigmoid 激活层，最后与输入特征相乘后输出；整个过程表示如下：

其中，

表示压缩通道的1×1的卷积层权重，

表示扩充通道的1×1的卷积层权重，

在多视图注意力模块末端，特征F_MA经过两个残差块后，与输入F_botin叠加求和，得到模块最终输出

将四个多视图注意力模块的输出特征级联起来，再与特征提取模块提取的浅层特征F_views叠加，得到底部分支的最终输出特征为 F_Bottom，并变换其维度；具体过程表示如下：

其中，

分别为第一、二、三、四个多视图注意力模块的输出特征，

进一步地，首先利用全局图像特征F_Top更新每个单视角图像特征F_Bottom，使得每个视角特征能够融合全局视角特征；具体过程如下：沿着通道维度，将F_Top与F_Bottom中每个视角特征级联起来得到融合特征

再经过1×1的卷积层将通道数从2C压缩到C，然后通过修正线性单元激活层得到融合特征

将F_fus2中每个视角特征在通道维度级联起来得到融合特征

再通过共享的1×1的卷积层和修正线性单元激活层，用于让每个视角特征能够共享相互学习到的信息；最后重塑回原始维度

输入到残差蒸馏模块；

由四个残差蒸馏块组成，四个残差蒸馏块生成的特征被级联起来，再通过一个1×1的卷积层进行压缩通道和一个3×3的卷积层，最后与输入叠加求和得到输出特征F_FRM；整个过程表示如下：

其中，

分别为第一、二、三、四个残差蒸馏块的输出特征，

为最终得到的融合特征，作为残差蒸馏模块的输入特征；

H_3×3为3×3的卷积层，H_1×1为1×1的卷积层，用于将级联后的特征通道数从4C减少到C；

采用蒸馏机制逐步提取和处理分层特征：残差蒸馏块对输入的特征

分成两个部分，一个部分通过一个1×1的卷积层和修正线性单元激活层，以比例ε压缩特征通道，得到

实现信息蒸馏操作；另一部分经过一个3×3的卷积层、一个快捷连接分支和一个修正线性单元激活层后，得到

进行下一次信息蒸馏；等到重复三次后，特征经过一个3×3的卷积层以比例ε压缩特征通道得到

随后与之前三次得到的

级联，再通过一个1×1的卷积层压缩通道，最后通过快捷连接与输入叠加求和得到最终输出

整个过程表示如下：

其中，F_in为残差蒸馏块的输入特征，

分别为第一、二、三、四次信息蒸馏得到的蒸馏特征；

为第一、二、三次信息蒸馏得到的剩余特征；

为第i个残差蒸馏块的输出特征；通过这种方式，逐步提取有用的信息，并以高效的方式提高SR性能。

进一步地，从融合重建模块获得的特征F_FRM最终被馈送到上采样模块，首先通过一个1×1的卷积层对F_FRM进行通道扩张，通道扩张的比率和上采样的倍数相关，比率大小等于上采样因子α的平方；然后经过像素混合层，生成大小为目标分辨率αH×αW的特征图；最后经过一个1×1的卷积层将通道数压缩成1，并与经过双三次上采样后的输入I^LR叠加求和得到超分辨率重建结果I^SR。

与现有技术相比，本发明的有益效果至少包括：

1、本发明利用多视图注意力模块让全局视角的权重大小变得不一样，从而能够更好、更合理地融合不同视图之间的信息。

2、本发明在图像细节和纹理重建效果方面均比其他方法更好，视觉效果更接近于地面真实图像。

3、本发明不仅利用了全局信息进行超分，还对不同视角分配了不同权重值，因此以相对均衡的PSNR分布实现了更高的重建精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明用于光场超分辨率的多视图信息注意力交互网络MIAIN总体架构图；

图2是本发明特征提取模块的架构图；其中(a)为特征提取模块主干网络示意图；(b)为残差块；(c)为RDASPP模块；

图3是本发明双注意力模块的架构图；

图4是本发明多视图注意力模块的架构图；

图5是本发明融合重建模块主干网络概述图；

图6是本发明残差特征蒸馏模块的架构图；

图7是本发明残差特征蒸馏块的架构图；

图8是本发明上采样模块的架构图；其中(a)为上采样模块主干网络概述图； (b)为Pixel Shuffle示意图；

图9是在×4时STFgantry中Cards场景下，不同方法重建的中央子孔径图像的放大区域对比及PSNR/SSIM值；左上角为真实地表图像，红色方框为局部放大区域；

图10是在×4时HCInew中Bedroom场景下，不同方法重建的中央子孔径图像的放大区域对比及PSNR/SSIM值；左上角为真实地表图像，红色方框为局部放大区域；

图11是在×2时HCInew中herbs场景下，不同方法重建的中央子孔径图像的放大区域对比及PSNR/SSIM值；左上角为真实地表图像，红色方框为局部放大区域；

图12是在×4时HCInew中origami场景下，不同方法重建下不同视角之间的PSNR分布。并给出了全局视角的平均PSNR和标准差值。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示。本发明提供一种用于光场超分辨率的多视图信息注意力交互网络，包括顶部分支、底部分支、融合重建模块和上采样模块；

所述顶部分支包含依次串联的重塑过程、特征提取模块(Feature ExtractionModule，FEM)和四个双注意力模块(Dual Attention Module，DAM)；并将四个双注意力模块的输出进行级联；

所述底部分支包含依次串联的FEM和四个多视图注意力模块(Multi-ViewAttention Module，M-VAM)；并将四个多视图注意力模块的输出进行级联；

将一组低分辨率的光场图像作为网络的输入，分别经过顶部分支和底部分支提取光场图像的特征信息；这两条支路提取的特征信息共同汇聚到融合重建模块(Fusion andReconstruction Module，FRM)，再经过上采样模块(Upsampling Module，UPM)，最后与输入图像的双三次(Bicubic)上采样图像相加得到最后的输出图像。MIAIN学习的是重建图像和高分辨图像之间的差值，即图像的高频细节。

1.1特征提取模块

在卷积神经网络中，具有丰富空间上下文信息的特征表示有利于后续的信息交互，因此，需要一个具有密集像素采样率的大感受野来提取层次特征。如图2所示，本发明利用RDASPP(Residual Dense Atrous Spatial Pyramid Pooling)模块和残差块(ResidualBlock，ResBlock)作为网络的主要特征提取模块。RDASPP的设计灵感源自Yang等人提出的Denseaspp网络，该网络使用稠密连接的方式将每个空洞卷积层(Dilated Convolution)输出结合到一起。空洞卷积层能够在不增加卷积核参数量的情况下扩大感受野；为了消除空洞卷积带来的“gridding”问题，参考 Wang等人提出的设计方案，本发明选择的卷积核扩张率为1、2、5。通过级联多个空洞卷积层，越往后的神经元就能获得越来越大的感受野；扩张率为1、2、5的空洞卷积感受野分别为3×3、5×5、11×11,级联后的感受野为17×17。将每一层的输入和输出的特征结合起来作为下一层的输入；经过1×1的卷积层进行压缩通道，再经过空洞卷积层后被 Leaky-ReLU(LReLU)函数激活；最后在网络末端使用1×1卷积层对提取到的三个特征进行融合；网络最终生成的特征能够非常密集的覆盖多个尺度范围。通过快捷连接(Shortcut Connections)的方式，使得网络学习的是一种残差映射，残差网络能够有效地解决网络退化问题，如图2(b)和(c)，都引入了残差概念。

网络的输入低分辨率SAIs可表示为

I代表光场图像，I^LR代表低分辨率光场图像，

是多维实数空间；LR是低分辨率；N是光场全部视角个数；其中N＝U×V；U、V是光场的角度分辨率大小，本发明中U＝V＝5；W、H是子孔径图像的图像大小，本发明中W＝H＝32。对应的网络输出高分辨率SAIs 可表示为

其中I^SR代表高分辨率光场图像；SR是高分辨率；α是网络的放大倍数。本发明MIAIN底部分支中，输入I^LR经过FEM后，输出的特征为

C是网络输入的特征通道数；整个过程表示如下：

F_views＝H_FEM(I^LR) (1-1)

其中，F_views是提取到的特征，H_FEM表示FEM的作用函数，也可称为浅层特征提取器。F_views不仅提取了单视角图像的特征信息，还保留了视图之间的相关性，方便后续对其视图特征之间权重的学习。在顶部分支中，输入I^LR经过重塑形状后再经过FEM，得到的输出特征为

F_global融合了视图之间原有的相关性，提取了全局视图的特征信息，目的为了关注全局图像内部隐藏的信息，方便后续对其在空间位置和通道上权重的学习。

1.2双注意力模块

在卷积神经网络中，浅层特征提取模块提取的特征被输入到后续多层网络中，多层网络无差别的对待每一个浅层特征，这种做法显然会限制网络的表征能力。因此，需要对不同的浅层特征赋予不同大小的权重，让网络能够选择更加关键重要的信息，从而提升网络的性能。因此，本发明引入注意力机制，参考Hou等人提出的Coordinate Attention(CA)，设计了DAM，帮助网络在通道域和空间域中选择更重要的信息。

如图3所示。顶部分支中特征提取模块的输出特征作为双注意力模块的输入特征F_topin，将输入的特征F_topin分别进行沿垂直方向的一维全局池化操作和沿水平方向的全局池化操作，目的是为了沿着垂直方向和水平方向对每个通道进行编码，得到一对方向感知注意力图。整个过程表示如下：

通过这两种变换，不仅拥有对一个空间方向的全局依赖，而且保留了另一个空间方向的精确位置信息。接着将生成的两个特征级联后，通过一个共享的 1×1的卷积层和LReLU激活层，得到中间特征

其中γ表示压缩通道的比率，目的是减少计算量。整个过程表示如下：

F_Mid＝δ(H_1×1([F_XGAP,F_YGAP])) (1-3)

其中，δ表示LReLU激活函数，H_1×1表示共享的1×1的卷积层，[·]表示级联操作。F_Mid包含了水平方向和竖直方向的空间信息。接着沿着空间维度将F_Mid切分成两个单独的特征向量

和

和

整个过程表示如下：

其中，F_HS为纵向输出特征，F_WS为水平输出特征,σ表示Sigmoid激活函数。最后将两个方向的特征向量与输入相乘，得到的输出为：

F_topout＝F_topin*F_HS*F_WS (1-5)

式中，F_topout为学习到的空间-通道注意力特征，

*表示两个特征向量中对应位置元素相乘。至此，本模块把水平方向和竖直方向的空间信息通过在通道上加权的方式融合，实现了同时对空间和通道的注意力。在DAM 的末端，F_topout通过两个残差块，再与输入相加，得到DAM的输出

k表示第k个DAM输出，k＝1,2,3,4。将四个DAM的输出特征级联起来，再与 FEM提取的浅层特征F_global叠加，得到顶部分支的最终输出为：

其中，F_Top为顶层分支的最终输出特征，

H_1×1为1×1的卷积层，目的是将级联后的特征通道数从4C减少到C。

1.3多视图注意力模块

之前的光场超分辨率工作中，研究者都是平等的对待每个视角特征，这限制了不同视角之间的信息交互。因此，本发明设计了M-VAM自适应地从不同视角选择特征，从而帮助网络提高表征能力。

如图4所示。底部分支中特征提取模块的输出特征作为多视图注意力模块的输入特征F_botin，首先需要变换输入的特征F_botin维度，使得

和

F_GMP全局最大值特征，F_GAP全局平均值特征。随后两个特征向量经过共享的网络层，网络层包含两个1×1的卷积层和LReLU激活层。两个1×1的卷积层的作用分别是压缩通道和扩充通道，压缩比率为θ，目的是为了减少计算量。再将两个特征向量求和后，经过Sigmoid激活层，最后与输入特征相乘后输出。整个过程表示如下：

其中，

表示压缩通道的1×1的卷积层权重，

表示扩充通道的1×1的卷积层权重，

在M-VAM末端，特征F_MA经过两个残差块后，与输入F_botin叠加求和，得到模块最终输出

j＝1,2,3,4。将四个M-VAM的输出特征级联起来，再与FEM提取的浅层特征F_views叠加，得到底部分支的最终输出特征为F_Bottom，并变换其维度。具体过程表示如下：

其中，

分别为第一、二、三、四个多视图注意力模块的输出特征，

1.4融合重建模块

为了实现更好的超分辨率重建效果，需要将通过顶部分支得到的全局图像的特征F_Top和通过底部分支得到的图像视图关系间的特征F_Bottom融合起来，因此本发明设计了FRM，如图5所示。首先利用全局图像特征F_Top更新每个单视角图像特征F_Bottom，使得每个视角特征能够融合全局视角特征。具体过程如下：沿着通道维度，将F_Top与F_Bottom中每个视角特征级联起来得到融合特征

再经过1×1的卷积层将通道数从2C压缩到C，然后通过 LReLU激活层得到融合特征

将F_fus2中每个视角特征在通道维度级联起来得到融合特征

再通过共享的1×1的卷积层和 LReLU激活层，目的是让每个视角特征能够共享相互学习到的信息。最后重塑回原始维度

输入到RFDM(Residual Feature Distillation Module)。

RFDM主干图如图6所示，由四个RFDB(Residual Feature Distillation Block)组成，四个RFDB生成的特征被级联起来，再通过一个1×1的卷积层进行压缩通道和一个3×3的卷积层，最后与输入叠加求和得到输出特征F_FRM。整个过程表示如下：

其中，

分别为第一、二、三、四个残差蒸馏块的输出特征，

为最终得到的融合特征，作为残差蒸馏模块的输入特征；

i＝1,2,3,4。H_3×3为3×3的卷积层，H_1×1为1×1的卷积层，目的是将级联后的特征通道数从4C减少到C。

在Liu等人的基础上，本发明设计了RFDB如图7所示。通过采用蒸馏机制逐步提取和处理分层特征，可以用较少的参数和较低的计算代价获得优越的随机共振性能。具体地，RFDB对输入的特征

分成两个部分，一个部分通过一个1×1的卷积层和LReLU激活层，以比例ε压缩特征通道，得到

实现信息蒸馏操作。另一部分经过一个3×3 的卷积层、一个快捷连接分支和一个LReLU激活层后，得到

进行下一次信息蒸馏。等到重复三次后，特征经过一个3×3 的卷积层以比例ε压缩特征通道得到

随后与之前三次得到的

整个过程表示如下：

其中，F_in为残差蒸馏块的输入特征，

分别为第一、二、三、四次信息蒸馏得到的蒸馏特征；

为第一、二、三次信息蒸馏得到的剩余特征；

为第i个残差蒸馏块的输出特征；通过这种方式，可以逐步提取有用的信息，并以高效的方式提高SR性能。

1.5上采样模块

从融合重建模块获得的特征F_FRM最终被馈送到上采样模块，如图8(a)所示。首先通过一个1×1的卷积层对F_FRM进行通道扩张，通道扩张的比率和上采样的倍数相关，比率大小等于上采样因子α的平方。然后经过Pixel Shuffle层，如图8(b) 所示，生成大小为目标分辨率αH×αW的特征图。最后经过一个1×1的卷积层将通道数压缩成1，并与经过双三次上采样后的输入I^LR叠加求和得到超分辨率重建结果I^SR。

2实验结果与分析

2.1实验细节

本发明实验使用了两个公开的合成光场数据集HCInew、HCIold，和三个公开的真实世界光场数据集EPFL、INRIA、STFgantry。其中EPFL、INRIA数据集是用Lytro相机拍摄的，基线小，视差小；HCInew、HCIold数据集是通过电脑软件模拟仿真得到的；STFgantry数据集是用相机阵列拍摄的，基线大，视差大。将合成图像和真实世界的图像一起训练，确保了数据集的多样性，以进行稳健推理。具体地，包括30个合成光场图像和114个真实世界光场图像，共144 个光场图像被用于训练；并且包括6个合成场景和17个真实世界场景，共23 个光场图像被用于测试。表4-1列出了每个数据集的训练和测试场景数。

表4-1实验中所使用的数据集。前两个是合成数据集，后三个是真实数据集。

这些数据集中的所有光场图像都具有5×5角分辨率大小。在训练阶段，将光场每个视角图像裁剪成64×64(α＝2)、128×128(α＝4)大小的高分辨图像块，并使用双三次插值方法下采样生成大小为32×32的低分辨率图像块。通过此方法，可以分别得到43773个HR-LR训练对(α＝2)和9044个HR-LR训练对(α＝4)。此外，这些高分辨率-低分辨率图像对会被随机翻转，并同时沿空间和角度方向旋转90 度，用于数据扩充。请注意，空间和角度维度需要联合翻转或旋转才能保持光场结构。

因为人眼对亮度信息更敏感，所以本发明在实验中，将光场图像转换到 YCbCr颜色空间，且只在Y通道上计算PSNR和SSIM来评估模型性能，其他两个通道直接使用双三次上采样得到。为了获得包含M个场景的数据集的度量得分，本发明分别计算了每个场景下N个视角的度量得分，再通过对N个视角求均值得到该场景的得分，最后对M个场景求均值得到该数据集的度量得分。

本发明网络模型是在搭配有两块英伟达RTX-2080Ti图形处理器的电脑上使用Pytorch实现的。电脑的中央处理器为i7-9700K，系统为Ubuntu18.04，运行内存为64GB，加速工具为Cuda10.1和CuDNN7。

在本发明网络中，对于输入的低分辨率光场I^LR设置通道数C＝64,N＝25，α＝2或4，DAM和M-VAM中压缩比率γ＝θ＝4，RFDB中压缩比率ε＝2。网络使用Kaiming方法进行权重初始化，并使用Adam梯度优化算法进行优化。α＝2时，训练的批次大小为8；α＝4时，训练的批次大小为4。初始学习率为4×10^-4，每过15个周期学习率减少一半，训练在100个周期停止。本发明提出的网络超分SAIs中每个子孔径图像，并且通过最小化超分辨率重建结果I^SR和对应的地面真实图像I^HR之间的差异来优化。应用L₁损失函数来进行训练，如下：

2.2与现有方法的比较

为了评估本发明模型的性能，将本发明MIAIN与几种最先进的方法进行了比较。包括了三种基于CNN的SISR方法，即VDSR、EDSR、RCAN；和7种基于CNN的LFSR方法，即LFSSR、resLF、LF-ATO、LF-InterNet、MEG-Net、 LF-DFNet、DPT；双三次插值结果被作为基准。为了进行公平的比较，本发明在相同的训练数据集上重新训练了所有基于CNN的方法。为了进行全面的比较，本发明给出了×2和×4的光场超分辨率重建的定量结果。表4-2列出了五个数据集的测试集上的PSNR和SSIM的比较结果，还提供了所有测试场景的平均 PSNR和SSIM结果。表中最优结果用黑色粗体突出表示，次优结果用下划线突出表示。

表4-2对于×2或×4时的LFSR，使用不同方法得到的SSIM结果。最好的结果用黑色粗体突出表示，次优的结果用下划线突出表示。

通过表4-2，可以看到本发明提出的MIAIN在×2和×4两种情况下，都取得了很好的效果。与单图像超分辨率方法VDSR、EDSR、RCAN相比，SISR分别超分每张子孔径图像，忽略了SAIs的角度相关性；而本发明MIAIN强调视角之间的关联性，因此性能有了明显的提升。与其他基于CNN的LFSR方法相比，本发明的方法在五个测试集上的平均PSNR值和SSIM值均处于第一位。尤其在×4的情况下，本发明方法在每个测试集上的性能均优于其他方法，比最新的 DPT、LF-DFNet的平均PSNR高出0.30dB、0.22dB，平均SSIM高出0.0035、0.0023。这是由于其他方法在全局视角的贡献分配上都是平等的，而本发明利用多视图注意力模块让全局视角的权重大小变得不一样，从而能够更好、更合理地融合不同视图之间的信息。

图9、10分别展示了×4的情况下，不同方法的一些有代表性的LFSR可视化结果。从图中放大区域可以看出，SISR不能可靠地重建出缺失的细节，相比之下，LFSR利用角度信息显著提高了重建效果。与最先进的SISR和其他LFSR 方法相比，本发明MIAIN的结果具有更多的高频细节和更少的伪影，如图4-9 中的字母和图4-10中的墙体上的条带。

而在×2的情况下，虽然在小视差数据集EPFL、INRIA上本发明的表现并不是最优越的，但是在中等视差数据集HCInew、HCIold和大视差数据集STFgantry 上，本发明能够分别比最新的DPT模型的平均PSNR高出0.39dB、0.40dB、0.62dB。这是因为，这三个数据集要么是合成绘制的，要么是由安装在机架上的移动摄像机捕获的，因此具有比Lytro数据集更复杂的结构和更大的视差变化。通过多视图注意力模块和双注意力模块能够有效地提取不同视图之间的互补信息，分配不同的权重大小，从而能够很好地处理这些复杂的场景。相反，在基线较小的Lytro数据集上，由于相邻的两张子孔径图像变化很小，不同视角对全局的贡献相差无几，因此不能凸显本发明方法的有效性。从最后的结果上看来，本发明提出的方法在EPFL、INRIA数据集上虽与最新的DPT、LF-DFNet略有差距，但是仍比其他方法更加出色，并且在五个数据集上的平均结果仍是处于第一名。图11展示了的情况下，不同方法的有代表性的LFSR可视化结果。本发明的方法在图像细节和纹理重建效果方面均比其他方法更好，视觉效果更接近于地面真实图像。

由于LFSR的最终目标是超分辨每一个视角的子孔径图像，因此本发明研究了不同方法在不同视角下的重建精度。本发明选择了HCInew数据集中的origami 场景，并计算×4情况下每个子孔径图像的PSNR值。因为SISR不使用互补信息独立地超分辨每个SAIs，所以我们只比较基于学习的LFSR方法中每个SAIs的 PSNR值，如图12所示。从图中的结果可以看出，本发明的方法对每个视角均有不错的超分效果。相比较于其他的LFSR方法，本发明在该场景下的平均PSNR 值比最先进的DPT和DFnet还高0.27dB、0.33dB。因为resLF只使用了部分视角进行超分辨，所以导致PSNR的分布不均衡，标准差达到了0.1781。而本发明方法不仅利用了全局信息进行超分，还对不同视角分配了不同权重值，因此以相对均衡的PSNR分布实现了更高的重建精度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种用于光场超分辨率的多视图信息注意力交互网络，其特征在于，包括顶部分支、底部分支、融合重建模块和上采样模块；

2.根据权利要求1所述的用于光场超分辨率的多视图信息注意力交互网络，其特征在于，利用残差密集空洞空间金字塔池化模块和残差块作为网络的特征提取模块；选择卷积核扩张率为1、2和5；通过级联多个空洞卷积层，越往后的神经元就能获得越来越大的感受野；扩张率为1、2和5的空洞卷积感受野分别为3×3、5×5和11×11，级联后的感受野为17×17；将每一层的输入和输出的特征结合起来作为下一层的输入；经过1×1的卷积层进行压缩通道，再经过空洞卷积层后被修正线性单元函数激活；最后在网络末端使用1×1卷积层对提取到的三个特征进行融合；网络最终生成的特征能够非常密集的覆盖多个尺度范围；通过快捷连接的方式，使得网络学习的是一种残差映射。

3.根据权利要求1所述的用于光场超分辨率的多视图信息注意力交互网络，其特征在于，网络的输入低分辨率子孔径图像表示为

I代表光场图像，I^LR代表低分辨率光场图像，

是多维实数空间；LR是低分辨率；N是光场全部视角个数；其中N＝U×V；U、V是光场的角度分辨率大小，U＝V＝5；W、H是子孔径图像的图像大小，W＝H＝32；对应的网络输出高分辨率子孔径图像表示为

C是网络输入的特征通道数；整个过程表示如下：

F_views＝H_FEM(I^LR) (1-1)

4.根据权利要求3所述的用于光场超分辨率的多视图信息注意力交互网络，其特征在于，顶部分支中特征提取模块的输出特征作为双注意力模块的输入特征F_topin，将输入的特征F_topin分别进行沿垂直方向的一维全局池化操作和沿水平方向的全局池化操作，用于沿着垂直方向和水平方向对每个通道进行编码，得到一对方向感知注意力图；整个过程表示如下：

其中，H_XGAP和H_YGAP分别代表沿着水平和垂直方向的一维全局池化函数；F_XGAP和F_YGAP分别是生成的水平特征和竖直特征；生成的

通过这两种变换，不仅拥有对一个空间方向的全局依赖，而且保留了另一个空间方向的精确位置信息；接着将生成的两个特征级联后，通过一个共享的1×1的卷积层和修正线性单元激活层，得到中间特征

F_Mid＝δ(H_1×1([F_XGAP,F_YGAP])) (1-3)

其中，δ表示修正线性单元激活函数，H_1×1表示共享的1×1的卷积层，[·]表示级联操作；F_Mid包含了水平方向和竖直方向的空间信息；接着沿着空间维度将F_Mid切分成两个单独的特征向量

和

和

整个过程表示如下：

F_topout＝F_topin*F_HS*F_WS (1-5)

式中，F_topout为学习到的空间-通道注意力特征，

其中，F_Top为顶层分支的最终输出特征，

5.根据权利要求4所述的用于光场超分辨率的多视图信息注意力交互网络，其特征在于，底部分支中特征提取模块的输出特征作为多视图注意力模块的输入特征F_botin，首先需要变换输入的特征F_botin维度，使得

和

F_GMP全局最大值特征，F_GAP全局平均值特征；随后两个特征向量经过共享的网络层，网络层包含两个1×1的卷积层和修正线性单元激活层；两个1×1的卷积层的作用分别是压缩通道和扩充通道，压缩比率为θ，用于减少计算量；再将两个特征向量求和后，经过Sigmoid激活层，最后与输入特征相乘后输出；整个过程表示如下：

其中，

表示压缩通道的1×1的卷积层权重，

表示扩充通道的1×1的卷积层权重，

将四个多视图注意力模块的输出特征级联起来，再与特征提取模块提取的浅层特征F_views叠加，得到底部分支的最终输出特征为F_Bottom，并变换其维度；具体过程表示如下：

其中，

分别为第一、二、三、四个多视图注意力模块的输出特征，

6.根据权利要求5所述的用于光场超分辨率的多视图信息注意力交互网络，其特征在于，首先利用全局图像特征F_Top更新每个单视角图像特征F_Bottom，使得每个视角特征能够融合全局视角特征；具体过程如下：沿着通道维度，将F_Top与F_Bottom中每个视角特征级联起来得到融合特征

将F_fus2中每个视角特征在通道维度级联起来得到融合特征

输入到残差蒸馏模块；

其中，

分别为第一、二、三、四个残差蒸馏块的输出特征，

为最终得到的融合特征，作为残差蒸馏模块的输入特征；

随后与之前三次得到的

整个过程表示如下：

其中，F_in为残差蒸馏块的输入特征，

分别为第一、二、三、四次信息蒸馏得到的蒸馏特征；

为第一、二、三次信息蒸馏得到的剩余特征；

7.根据权利要求6所述的用于光场超分辨率的多视图信息注意力交互网络，其特征在于，从融合重建模块获得的特征F_FRM最终被馈送到上采样模块，首先通过一个1×1的卷积层对F_FRM进行通道扩张，通道扩张的比率和上采样的倍数相关，比率大小等于上采样因子α的平方；然后经过像素混合层，生成大小为目标分辨率αH×αW的特征图；最后经过一个1×1的卷积层将通道数压缩成1，并与经过双三次上采样后的输入I^LR叠加求和得到超分辨率重建结果I^SR。