发明内容
本发明所要解决的技术问题是提供一种基于频域分析和深度学习的光场图像超分辨率重建方法,其能够充分利用光场图像在频域的4D结构特性,有效地从低空间分辨率和低角度分辨率的光场图像中重建高空间分辨率和高角度分辨率的光场图像,并能够恢复重建光场图像的纹理信息和细节,同时避免由视差带来的鬼影伪像,以及保留角度一致性。
本发明解决上述技术问题所采用的技术方案为:一种基于频域分析和深度学习的光场图像超分辨率重建方法,其特征在于包括以下步骤:
步骤1:选取Num幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像,及每幅低空间和角度分辨率光场图像对应的空间分辨率为β
sW×β
sH且角度分辨率为β
aU×β
aV的彩色三通道的参考高空间和角度分辨率光场图像,将选取的第n幅低空间和角度分辨率光场图像记为
将
对应的参考高空间和角度分辨率光场图像记为
其中,Num>1,β
s表示空间分辨率提升倍数,β
a表示角度分辨率提升倍数,β
s和β
a的值均大于1,1≤n≤Num;
步骤2:对每幅低空间和角度分辨率光场图像进行初始超分辨率重建,得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像,将
对应的初始重建高空间和角度分辨率光场图像记为
的获取过程为:
步骤2_1:将
重组为子孔径图像阵列,并作为原始子孔径图像阵列,原始子孔径图像阵列中包含有U×V幅子孔径图像,且每幅子孔径图像的空间分辨率为W×H,即原始子孔径图像阵列在宽度方向上包含有U幅子孔径图像且在高度方向上包含有V幅子孔径图像,每幅子孔径图像的宽度为W且高度为H;
步骤2_2:计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u,v+1)处的子孔径图像之间的光流图,并计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u+1,v)处的子孔径图像之间的光流图;其中,1≤u≤U-1,1≤v≤V-1;
步骤2_3:根据计算得到的所有光流图,对原始子孔径图像阵列中的每幅子孔径图像进行后向绘制,绘制得到新的子孔径图像,进而与原始子孔径图像阵列中的所有子孔径图像进行组合得到包含有βaU×βaV幅子孔径图像的子孔径图像阵列,作为新子孔径图像阵列;其中,新子孔径图像阵列中的每幅子孔径图像的空间分辨率为W×H;
步骤2_4:对新子孔径图像阵列中的每幅子孔径图像进行双三次插值以提升空间分辨率,共得到β
aU×β
aV幅空间分辨率为β
sW×β
sH的子孔径图像;再将β
aU×β
aV幅空间分辨率为β
sW×β
sH的子孔径图像构成的子孔径图像阵列重构为空间分辨率为β
sW×β
sH且角度分辨率为β
aU×β
aV的彩色三通道的初始重建高空间和角度分辨率光场图像,即
步骤3:将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的子孔径图像阵列中位置为
的子孔径图像作为中心子孔径图像;然后采用语义分割方法,提取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图;接着计算每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的每幅语义概率图中的所有像素点的像素值的均值;再按均值从大到小的顺序,选取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图中均值最大的8幅语义概率图,作为每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图;其中,符号
为向上取整运算符号,语义概率图的空间分辨率为β
sW×β
sH,采用语义分割方法时设定获取的语义概率图的数量大于8;
步骤4:对每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像进行频域转换,得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,
所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像的获取过程为:
步骤4_1:将
转换到YCbCr颜色空间;然后将
中的Y通道图像重组为微透镜图像阵列,该微透镜图像阵列中包含有β
sW×β
sH幅单通道的微透镜图像,且每幅微透镜图像的分辨率为β
aU×β
aV,即该微透镜图像阵列在宽度方向上包含有β
sW幅微透镜图像且在高度方向上包含有β
sH幅微透镜图像,每幅微透镜图像的宽度为β
aU且高度为β
aV;
步骤4_2:采用离散余弦变换,将
中的Y通道图像所对应的微透镜图像阵列中的每幅微透镜图像转换到频域,得到
中的Y通道所对应的微透镜图像阵列中的每幅微透镜图像的DCT系数图像;然后按
中的Y通道图像所对应的微透镜图像阵列中的各幅微透镜图像的位置,将
中的Y通道图像所对应的微透镜图像阵列中的所有微透镜图像的DCT系数图像构成DCT系数图像阵列,该DCT系数图像阵列中包含有β
sW×β
sH幅DCT系数图像,且每幅DCT系数图像的分辨率为β
aU×β
aV;
步骤4_3:将
中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中同坐标位置的DCT系数提取出,并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为β
sW×β
sH的DCT频率图像,共得到β
aU×β
aV幅DCT频率图像;
步骤4_4:将βaU×βaV幅DCT频率图像分为直流分量图像、低频分量图像、中频分量图像和高频分量图像四类;其中,直流分量图像中的DCT系数均为直流系数,低频分量图像中的DCT系数均为低频系数,中频分量图像中的DCT系数均为中频系数,高频分量图像中的DCT系数均为高频系数,直流分量图像的数量为C1,低频分量图像的数量为C2,中频分量图像的数量为C3,高频分量图像的数量为C4,且C1+C2+C3+C4=βaU×βaV;
对每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像进行频域转换,得到每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组有包含直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,
所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,按步骤4_1至步骤4_4的过程,以相同的方式获取;
步骤5:将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组DCT频率图像定义为失真DCT频率图像,将每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组DCT频率图像定义为参考DCT频率图像;然后将Num组语义概率图、Num组失真DCT频率图像、Num组参考DCT频率图像构成训练集;其中,每组语义概率图、失真DCT频率图像和参考DCT频率图像相互对应;
步骤6:构建四个结构相同的2D卷积神经网络,分别作为直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络和高频分量频率复原网络;
将训练集中的Num组参考DCT频率图像中的所有直流分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有直流分量图像以及对应的Num组语义概率图输入到直流分量频率复原网络中进行训练,在训练结束后得到直流分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的直流分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有直流分量图像以及对应的一组语义概率图输入到训练有素的直流分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像;
将训练集中的Num组参考DCT频率图像中的所有低频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有低频分量图像以及对应的Num组语义概率图输入到低频分量频率复原网络中进行训练,在训练结束后得到低频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的低频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有低频分量图像以及对应的一组语义概率图输入到训练有素的低频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像;
将训练集中的Num组参考DCT频率图像中的所有中频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有中频分量图像以及对应的Num组语义概率图输入到中频分量频率复原网络中进行训练,在训练结束后得到中频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的中频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有中频分量图像以及对应的一组语义概率图输入到训练有素的中频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像;
将训练集中的Num组参考DCT频率图像中的所有高频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有高频分量图像以及对应的Num组语义概率图输入到高频分量频率复原网络中进行训练,在训练结束后得到高频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的高频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有高频分量图像以及对应的一组语义概率图输入到训练有素的高频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像;
步骤7:构建一个3D卷积神经网络,作为频率精细网络;将训练集中的每组参考DCT频率图像组合成1个参考3D频率伪视频;将训练集中的每组失真DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个失真3D频率伪视频;然后将训练集中的Num组参考DCT频率图像所对应的参考3D频率伪视频作为训练标签,并将训练集中对应的Num组失真DCT频率图像所对应的失真3D频率伪视频输入到频率精细网络中进行训练,在训练结束后得到频率精细网络中的各卷积核的最佳参数,即得到训练有素的频率精细网络模型;
步骤8:任意选取一幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像作为测试图像;然后按照步骤2至步骤4的过程,以相同的方式获得测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图、一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像;接着将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有直流分量图像输入到训练有素的直流分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有低频分量图像输入到训练有素的低频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有中频分量图像输入到训练有素的中频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有高频分量图像输入到训练有素的高频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像;再将测试图像对应的一组DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个测试3D频率伪视频;最后将测试3D频率伪视频输入到训练有素的频率精细网络模型中进行测试,测试得到测试图像对应的精细复原频率伪视频;
步骤9:将测试图像对应的精细复原频率伪视频转换为一组精细复原DCT频率图像,其包含有精细复原直流分量图像、精细复原低频分量图像、精细复原中频分量图像和精细复原高频分量图像四类图像;然后按照步骤4_1至步骤4_3的逆过程,对测试图像对应的一组精细复原DCT频率图像执行逆离散余弦变换,重构得到一幅单通道的高空间和角度分辨率光场图像,其对应Y通道图像;接着将测试图像对应的初始重建高空间和角度分辨率光场图像转换到YCbCr颜色空间,并提取出Cb通道图像和Cr通道图像;再将重构得到的单通道的高空间和角度分辨率光场图像与提取出的Cb通道图像和Cr通道图像组合成一幅YCbCr颜色空间的高空间和角度分辨率光场图像;最后将YCbCr颜色空间的高空间和角度分辨率光场图像转换到RGB颜色空间,得到测试图像对应的空间分辨率为βsW×βsH且角度分辨率为βaU×βaV的彩色三通道的重建高空间和角度分辨率光场图像。
所述的步骤6中,构建的2D卷积神经网络的结构为:该2D卷积神经网络包括用于提取频率特征的特征提取器和用于重建目标频率图像的重建器,特征提取器由依次连接的第一2D卷积层、第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块组成,重建器由第二2D卷积层、第三2D卷积层、第四2D卷积层、第五2D卷积层和第六2D卷积层组成;第一2D卷积层的输入端接收C幅宽度为βsW且高度为βsH的第一图像和8幅宽度为βsW且高度为βsH的第二图像的级联操作结果,即接收C+8幅图像,第一2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff0;第一扩张密集残差块的输入端接收Ff0中的所有频率特征图,第一扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff1;第二扩张密集残差块的输入端接收Ff1中的所有频率特征图,第二扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff2;第三扩张密集残差块的输入端接收Ff2中的所有频率特征图,第三扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff3;第二2D卷积层的输入端接收Ff1中的所有频率特征图、Ff2中的所有频率特征图和Ff3中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第二2D卷积层的输出端输出3N/2幅宽度为βsW且高度为βsH的融合频率特征图,将第二2D卷积层的输出端输出的所有融合频率特征图构成的集合记为Fr0;第三2D卷积层的输入端接收8幅宽度为βsW且高度为βsH的第二图像,第三2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的语义特征图,将第三2D卷积层的输出端输出的所有语义特征图构成的集合记为Fsem;第四2D卷积层的输入端接收Fr0中的所有融合频率特征图和Fsem中的所有语义特征图的级联操作结果,即接收3N/2+N幅特征图,第四2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的解码特征图,将第四2D卷积层的输出端输出的所有解码特征图构成的集合记为Fr1;第五2D卷积层的输入端接收Fr1中的所有解码特征图和Ff0中的所有频率特征图的相加操作结果,第五2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的解码特征图,将第五2D卷积层的输出端输出的所有解码特征图构成的集合记为Fr2;第六2D卷积层的输入端接收Fr2中的所有解码特征图,第六2D卷积层的输出端输出C幅宽度为βsW且高度为βsH的初始复原图像,将第六2D卷积层的输出端输出的C幅初始复原图像构成的集合记为Fr;其中,2D卷积神经网络作为直流分量频率复原网络时,输入的第一图像为直流分量图像、第二图像为语义概率图、C等于C1、N等于32,输出的初始复原图像为初始复原直流分量图像,2D卷积神经网络作为低频分量频率复原网络时,输入的第一图像为低频分量图像、第二图像为语义概率图、C等于C2、N等于64,输出的初始复原图像为初始复原低频分量图像,2D卷积神经网络作为中频分量频率复原网络时,输入的第一图像为中频分量图像、第二图像为语义概率图、C等于C3、N等于128,输出的初始复原图像为初始复原中频分量图像,2D卷积神经网络作为高频分量频率复原网络时,输入的第一图像为高频分量图像、第二图像为语义概率图、C等于C4、N等于64,输出的初始复原图像为初始复原高频分量图像,第一2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为C+8、输出通道数为N、采用的激活函数为“Leaky ReLU”,第二2D卷积层的卷积核的尺寸为1×1、卷积步长为1×1、输入通道数为3N、输出通道数为3N/2、采用的激活函数为“Leaky ReLU”,第三2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为8、输出通道数为N、采用的激活函数为“Leaky ReLU”,第四2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为3N/2+N、输出通道数为N、采用的激活函数为“Leaky ReLU”,第五2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为N、采用的激活函数为“Leaky ReLU”,第六2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为C、不采用激活函数。
第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块的结构相同,其由第一2D扩张卷积层、第二2D扩张卷积层、第三2D扩张卷积层和第七2D卷积层组成;
对于第一扩张密集残差块,第一2D扩张卷积层的输入端接收Ff0中的所有频率特征图,第一2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k1;第二2D扩张卷积层的输入端接收Ff0中的所有频率特征图和Ff0,k1中的所有频率特征图的级联操作结果,即接收2N幅频率特征图,第二2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k2;第三2D扩张卷积层的输入端接收Ff0中的所有频率特征图、Ff0,k1中的所有频率特征图和Ff0,k2中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第三2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k3;第七2D卷积层的输入端接收Ff0中的所有频率特征图、Ff0,k1中的所有频率特征图、Ff0,k2中的所有频率特征图和Ff0,k3中的所有频率特征图的级联操作结果,即接收4N幅频率特征图,第七2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k4;Ff0中的所有频率特征图与Ff0,k4中的所有频率特征图的相加操作结果构成的集合即为Ff1;
对于第二扩张密集残差块,第一2D扩张卷积层的输入端接收Ff1中的所有频率特征图,第一2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k1;第二2D扩张卷积层的输入端接收Ff1中的所有频率特征图和Ff1,k1中的所有频率特征图的级联操作结果,即接收2N幅频率特征图,第二2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k2;第三2D扩张卷积层的输入端接收Ff1中的所有频率特征图、Ff1,k1中的所有频率特征图和Ff1,k2中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第三2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k3;第七2D卷积层的输入端接收Ff1中的所有频率特征图、Ff1,k1中的所有频率特征图、Ff1,k2中的所有频率特征图和Ff1,k3中的所有频率特征图的级联操作结果,即接收4N幅频率特征图,第七2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k4;Ff1中的所有频率特征图与Ff1,k4中的所有频率特征图的相加操作结果构成的集合即为Ff2;
对于第三扩张密集残差块,第一2D扩张卷积层的输入端接收Ff2中的所有频率特征图,第一2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k1;第二2D扩张卷积层的输入端接收Ff2中的所有频率特征图和Ff2,k1中的所有频率特征图的级联操作结果,即接收2N幅频率特征图,第二2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k2;第三2D扩张卷积层的输入端接收Ff2中的所有频率特征图、Ff2,k1中的所有频率特征图和Ff2,k2中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第三2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k3;第七2D卷积层的输入端接收Ff2中的所有频率特征图、Ff2,k1中的所有频率特征图、Ff2,k2中的所有频率特征图和Ff2,k3中的所有频率特征图的级联操作结果,即接收4N幅频率特征图,第七2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k4;Ff2中的所有频率特征图与Ff2,k4中的所有频率特征图的相加操作结果构成的集合即为Ff3;
上述,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第一2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第二2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为2N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第三2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为3N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第七2D卷积层的卷积核的尺寸均为1×1、卷积步长均为1×1、输入通道数均为4N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”。
所述的步骤7中,构建的3D卷积神经网络的结构为:该3D卷积神经网络包括用于提取频率特征的3D编码器和用于重建目标频率伪视频的3D解码器,3D编码器由依次连接的第一3D卷积层、第二3D卷积层、第三3D卷积层和第四3D卷积层组成,3D解码器由第一3D反卷积层、第二3D反卷积层、第三3D反卷积层和第五3D卷积层组成;第一3D卷积层的输入端接收1个由βaU×βaV幅宽度为βsW且高度为βsH的初始复原DCT频率图像组合成的失真3D频率伪视频,即失真3D频率伪视频的帧数为βaU×βaV,第一3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含βaU×βaV帧宽度为βsW且高度为βsH的特征图像,将第一3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe1;第二3D卷积层的输入端接收Fe1中的所有频率特征伪视频,第二3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含(βaU×βaV)/2帧宽度为βsW且高度为βsH的特征图像,将第二3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe2;第三3D卷积层的输入端接收Fe2中的所有频率特征伪视频,第三3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含(βaU×βaV)/4帧宽度为βsW且高度为βsH的特征图像,将第三3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe3;第四3D卷积层的输入端接收Fe3中的所有频率特征伪视频,第四3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含(βaU×βaV)/8帧宽度为βsW且高度为βsH的特征图像,将第四3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe4;第一3D反卷积层的输入端接收Fe4中的所有频率特征伪视频,第一3D反卷积层的输出端输出64个解码特征伪视频,每个解码特征伪视频包含(βaU×βaV)/4帧宽度为βsW且高度为βsH的特征图像,将第一3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为Fd1;第二3D反卷积层的输入端接收Fd1中的所有解码特征伪视频和Fe3中的所有频率特征伪视频的相加操作结果,第二3D反卷积层的输出端输出64个解码特征伪视频,每个解码特征伪视频包含(βaU×βaV)/2帧宽度为βsW且高度为βsH的特征图像,将第二3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为Fd2;第三3D反卷积层的输入端接收Fd2中的所有解码特征伪视频和Fe2中的所有频率特征伪视频的相加操作结果,第三3D反卷积层的输出端输出64个解码特征伪视频,每个解码特征伪视频包含βaU×βaV帧宽度为βsW且高度为βsH的特征图像,将第三3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为Fd3;第五3D卷积层的输入端接收Fd3中的所有解码特征伪视频,第五3D卷积层的输出端输出1个精细复原频率伪视频,将其记为Fd,该精细复原频率伪视频包含βaU×βaV帧宽度为βsW且高度为βsH的精细复原DCT频率图像;其中,第一3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为1、输出通道数为64、采用的激活函数为“Leaky ReLU”,第二3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第三3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第四3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第一3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第二3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第三3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第五3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为64、输出通道数为1、不采用激活函数。
与现有技术相比,本发明的优点在于:
1)本发明方法考虑到4D光场图像包含丰富的空间和角度信息,这有利于提升重建质量,而传统的2D图像超分辨率重建方法无法利用角度信息,这容易导致重建光场图像出现纹理模糊或细节丢失现象,因此本发明方法采用频域转换,即离散余弦变换,来分解光场图像的空间和角度信息,进而充分探索光场图像的4D结构信息,并将光场图像超分辨率重建转换为频率复原,其可由深度学习网络进行建模以实现有效重建。
2)本发明方法采用一种渐进式的重建策略,即构建两个深度学习网络,分别为频率复原网络和频率精细网络,来逐步恢复光场图像的频率,进而提高复原效果;通过逆频域变换可有效重建包含细致的纹理和细节信息的高空间和角度分辨率光场图像,且其不存在明显的视觉伪像;特别地,本方明方法构建的频率精细网络同时重建4D光场图像所对应的所有频率分量,因而重建结果保留很好的角度一致性。
3)场景的语义信息,如语义类别、纹理风格等,为光场图像超分辨率重建提供了强大的先验,因此本发明方法利用语义分割方法来提取光场图像的语义信息,进而将其融入到构建的频率复原网络中以增强网络的复原能力,并有效重建在对象边缘区域的细节。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
随着虚拟现实、增强现实等沉浸式技术的发展,用户对观看的图像/视频等视觉内容的质量的要求越来越高。换而言之,用户更倾向于观看具有深度感、沉浸式体验的视觉内容。然而传统2D成像方法仅能采集场景的2D强度信息,无法提供场景的深度信息。光场成像,可在单次曝光中同时捕获场景中光线的强度和方向信息,进而有效地采集场景的高维信息,正受到广泛关注。特别地,一些基于光场成像的光学仪器已被开发以促进光场技术的应用与发展。但由于成像传感器的尺寸有限,利用光场相机采集到的光场图像会受到空间和角度分辨率相互制约的问题。简单来说,增强光场图像的空间分辨率会不可避免地降低角度分辨率,反之亦然,这严重阻碍了光场图像的实际应用,如深度估计、捕获后重聚焦等,针对此,本发明提出了一种基于频域分析和深度学习的光场图像超分辨率重建方法,其利用基于光流的绘制和双三次插值来产生初始重建高空间和角度分辨率光场图像;之后采用频域转换,即离散余弦变换,来将光场图像转换到频域以分解空间和角度信息,进而有效探索光场图像的4D结构信息,并将重建问题建模为频率复原;然后采用渐进式的复原策略,利用构建的频率复原网络和频率精细网络来逐步提高复原质量,并在频率复原网络中融入语义信息以增强复原能力;最后,通过逆离散余弦变换来将复原后的所有频率分量重构为高空间和角度分辨率光场图像。
本发明提出的一种基于频域分析和深度学习的光场图像超分辨率重建方法,其总体实现流程框图如图1所示,其包括以下步骤:
步骤1:选取Num幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像,及每幅低空间和角度分辨率光场图像对应的空间分辨率为β
sW×β
sH且角度分辨率为β
aU×β
aV的彩色三通道的参考高空间和角度分辨率光场图像,将选取的第n幅低空间和角度分辨率光场图像记为
将
对应的参考高空间和角度分辨率光场图像记为
其中,Num>1,在本实施例中取Num=300,β
s表示空间分辨率提升倍数,β
a表示角度分辨率提升倍数,β
s和β
a的值均大于1,如取β
s为4,取β
a为3.5,1≤n≤Num;在本实施例中W×H为150×100,U×V为2×2。
步骤2:对每幅低空间和角度分辨率光场图像进行初始超分辨率重建,得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像,将
对应的初始重建高空间和角度分辨率光场图像记为
的获取过程为:
步骤2_1:将
重组为子孔径图像阵列,并作为原始子孔径图像阵列,原始子孔径图像阵列中包含有U×V幅子孔径图像,且每幅子孔径图像的空间分辨率为W×H,即原始子孔径图像阵列在宽度方向上包含有U幅子孔径图像且在高度方向上包含有V幅子孔径图像,每幅子孔径图像的宽度为W且高度为H;在此,重组操作是光场图像的常规处理手段,重组操作仅改变光场图像中像素值的排列次序,不会改变具体的像素值,如可将光场图像转换为SAI阵列即子孔径图像阵列、MLI阵列即微透镜图像阵列等。
步骤2_2:计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u,v+1)处的子孔径图像之间的光流图,并计算原始子孔径图像阵列中位置为(u,v)处的子孔径图像与位置为(u+1,v)处的子孔径图像之间的光流图;其中,1≤u≤U-1,1≤v≤V-1。
步骤2_3:根据计算得到的所有光流图,对原始子孔径图像阵列中的每幅子孔径图像进行后向绘制,绘制得到新的子孔径图像,进而与原始子孔径图像阵列中的所有子孔径图像进行组合得到包含有βaU×βaV幅子孔径图像的子孔径图像阵列,作为新子孔径图像阵列;其中,新子孔径图像阵列中的每幅子孔径图像的空间分辨率为W×H;后向绘制是图像处理领域的常规处理手段,其可根据光流图以将当前视图绘制到目标视点下,以产生所需的新视图。
步骤2_4:对新子孔径图像阵列中的每幅子孔径图像进行双三次插值以提升空间分辨率,共得到β
aU×β
aV幅空间分辨率为β
sW×β
sH的子孔径图像;再将β
aU×β
aV幅空间分辨率为β
sW×β
sH的子孔径图像构成的子孔径图像阵列重构为空间分辨率为β
sW×β
sH且角度分辨率为β
aU×β
aV的彩色三通道的初始重建高空间和角度分辨率光场图像,即
初始重建高空间和角度分辨率光场图像会包含纹理模糊、细节丢失等问题,并在遮挡等区域存在鬼影伪像,因此需要被进一步复原。
步骤3:将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的子孔径图像阵列中位置为
的子孔径图像作为中心子孔径图像;然后采用语义分割方法,提取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图;接着计算每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的每幅语义概率图中的所有像素点的像素值的均值;再按均值从大到小的顺序,选取每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的中心子孔径图像的一系列语义概率图中均值最大的8幅语义概率图,作为每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图;其中,符号
为向上取整运算符号,语义概率图的空间分辨率为β
sW×β
sH,采用语义分割方法时设定获取的语义概率图的数量大于8;由于自然场景中的语义类别众多,如花、草、树木、自行车、汽车等,因此语义分割方法所设定的语义概率图的数量(等于语义类别)远大于8。
步骤4:如图2所示,对每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像进行频域转换,得到每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,
所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像的获取过程为:
步骤4_1:将
转换到YCbCr颜色空间;然后将
中的Y通道图像重组为微透镜图像阵列,该微透镜图像阵列中包含有β
sW×β
sH幅单通道的微透镜图像,且每幅微透镜图像的分辨率为β
aU×β
aV,即该微透镜图像阵列在宽度方向上包含有β
sW幅微透镜图像且在高度方向上包含有β
sH幅微透镜图像,每幅微透镜图像的宽度为β
aU且高度为β
aV。
步骤4_2:采用离散余弦变换(Discrete Cosine Transform,DCT),将
中的Y通道图像所对应的微透镜图像阵列中的每幅微透镜图像转换到频域,得到
中的Y通道所对应的微透镜图像阵列中的每幅微透镜图像的DCT系数图像;然后按
中的Y通道图像所对应的微透镜图像阵列中的各幅微透镜图像的位置,将
中的Y通道图像所对应的微透镜图像阵列中的所有微透镜图像的DCT系数图像构成DCT系数图像阵列,该DCT系数图像阵列中包含有β
sW×β
sH幅DCT系数图像,且每幅DCT系数图像的分辨率为β
aU×β
aV。
步骤4_3:将
中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中同坐标位置的DCT系数提取出,并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为β
sW×β
sH的DCT频率图像,如将
中的Y通道图像所对应的DCT系数图像阵列中的所有DCT系数图像中坐标位置为(i,j)的DCT系数提取出,并按这些提取出的DCT系数在DCT系数图像阵列中的相对位置构成一幅分辨率为β
sW×β
sH的DCT频率图像,共得到β
aU×β
aV幅DCT频率图像;其中,1≤i≤β
aU,1≤j≤β
aV。
步骤4_4:将βaU×βaV幅DCT频率图像分为直流分量图像、低频分量图像、中频分量图像和高频分量图像四类;其中,直流分量图像中的DCT系数均为直流系数,低频分量图像中的DCT系数均为低频系数,中频分量图像中的DCT系数均为中频系数,高频分量图像中的DCT系数均为高频系数,直流分量图像的数量为C1,低频分量图像的数量为C2,中频分量图像的数量为C3,高频分量图像的数量为C4,且C1+C2+C3+C4=βaU×βaV。
对每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像进行频域转换,得到每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组有包含直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,
所对应的一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像,按步骤4_1至步骤4_4的过程,以相同的方式获取。
通过频域转换,可有效分解4D光场图像的空间和角度信息,以充分探索它的4D结构,如得到的直流分量图像揭示了包括图像基本内容的空间信息,高频分量图像揭示了包括场景视差的角度信息等。
步骤5:将每幅低空间和角度分辨率光场图像对应的初始重建高空间和角度分辨率光场图像的一组DCT频率图像定义为失真DCT频率图像,将每幅低空间和角度分辨率光场图像对应的参考高空间和角度分辨率光场图像的一组DCT频率图像定义为参考DCT频率图像;然后将Num组语义概率图、Num组失真DCT频率图像、Num组参考DCT频率图像构成训练集;其中,每组语义概率图、失真DCT频率图像和参考DCT频率图像相互对应。
步骤6:构建四个结构相同的2D卷积神经网络,分别作为直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络和高频分量频率复原网络。
将训练集中的Num组参考DCT频率图像中的所有直流分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有直流分量图像以及对应的Num组语义概率图输入到直流分量频率复原网络中进行训练,在训练结束后得到直流分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的直流分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有直流分量图像以及对应的一组语义概率图输入到训练有素的直流分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像。
将训练集中的Num组参考DCT频率图像中的所有低频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有低频分量图像以及对应的Num组语义概率图输入到低频分量频率复原网络中进行训练,在训练结束后得到低频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的低频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有低频分量图像以及对应的一组语义概率图输入到训练有素的低频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像。
将训练集中的Num组参考DCT频率图像中的所有中频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有中频分量图像以及对应的Num组语义概率图输入到中频分量频率复原网络中进行训练,在训练结束后得到中频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的中频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有中频分量图像以及对应的一组语义概率图输入到训练有素的中频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像。
将训练集中的Num组参考DCT频率图像中的所有高频分量图像作为训练标签,并将训练集中对应的Num组失真DCT频率图像中的所有高频分量图像以及对应的Num组语义概率图输入到高频分量频率复原网络中进行训练,在训练结束后得到高频分量频率复原网络中的各卷积核的最佳参数,即得到训练有素的高频分量频率复原网络模型;然后将训练集中的每组失真DCT频率图像中的所有高频分量图像以及对应的一组语义概率图输入到训练有素的高频分量频率复原网络模型中,得到训练集中的每组失真DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像。
训练有素的直流分量频率复原网络模型、训练有素的低频分量频率复原网络模型、训练有素的中频分量频率复原网络模型、训练有素的高频分量频率复原网络模型可用于恢复初始重建高空间和角度分辨率光场图像中所丢失的纹理和细节等信息,以提高光场图像的视觉质量。
步骤7:构建一个3D卷积神经网络,作为频率精细网络;将训练集中的每组参考DCT频率图像组合成1个参考3D频率伪视频;将训练集中的每组失真DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个失真3D频率伪视频;然后将训练集中的Num组参考DCT频率图像所对应的参考3D频率伪视频作为训练标签,并将训练集中对应的Num组失真DCT频率图像所对应的失真3D频率伪视频输入到频率精细网络中进行训练,在训练结束后得到频率精细网络中的各卷积核的最佳参数,即得到训练有素的频率精细网络模型。
训练有素的频率精细网络模型可用于进一步复原光场图像的纹理和细节信息,并减少鬼影伪像,以及保留角度一致性,进而可重建更高质量的高空间和角度分辨率光场图像,并改善后续光场视觉任务的性能,如深度估计、捕获后重聚焦等。
步骤8:任意选取一幅空间分辨率为W×H且角度分辨率为U×V的彩色三通道的低空间和角度分辨率光场图像作为测试图像;然后按照步骤2至步骤4的过程,以相同的方式获得测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图、一组包含有直流分量图像、低频分量图像、中频分量图像和高频分量图像四类图像的DCT频率图像;接着将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有直流分量图像输入到训练有素的直流分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅直流分量图像对应的初始复原直流分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有低频分量图像输入到训练有素的低频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅低频分量图像对应的初始复原低频分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有中频分量图像输入到训练有素的中频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅中频分量图像对应的初始复原中频分量图像;将测试图像对应的初始重建高空间和角度分辨率光场图像的一组语义概率图和一组DCT频率图像中的所有高频分量图像输入到训练有素的高频分量频率复原网络模型中,测试得到测试图像对应的一组DCT频率图像中的每幅高频分量图像对应的初始复原高频分量图像;再将测试图像对应的一组DCT频率图像中的所有直流分量图像对应的初始复原直流分量图像、所有低频分量图像对应的初始复原低频分量图像、所有中频分量图像对应的初始复原中频分量图像、所有高频分量图像对应的初始复原高频分量图像组合成1个测试3D频率伪视频;最后将测试3D频率伪视频输入到训练有素的频率精细网络模型中进行测试,测试得到测试图像对应的精细复原频率伪视频。
步骤9:将测试图像对应的精细复原频率伪视频转换为一组精细复原DCT频率图像,其包含有精细复原直流分量图像、精细复原低频分量图像、精细复原中频分量图像和精细复原高频分量图像四类图像;然后按照步骤4_1至步骤4_3的逆过程,对测试图像对应的一组精细复原DCT频率图像执行逆离散余弦变换,重构得到一幅单通道的高空间和角度分辨率光场图像,其对应Y通道图像;接着将测试图像对应的初始重建高空间和角度分辨率光场图像转换到YCbCr颜色空间,并提取出Cb通道图像和Cr通道图像;再将重构得到的单通道的高空间和角度分辨率光场图像与提取出的Cb通道图像和Cr通道图像组合成一幅YCbCr颜色空间的高空间和角度分辨率光场图像;最后将YCbCr颜色空间的高空间和角度分辨率光场图像转换到RGB颜色空间,得到测试图像对应的空间分辨率为βsW×βsH且角度分辨率为βaU×βaV的彩色三通道的重建高空间和角度分辨率光场图像。
在本实施例中,步骤6中,如图3所示,构建的2D卷积神经网络的结构为:该2D卷积神经网络包括用于提取频率特征的特征提取器和用于重建目标频率图像的重建器,特征提取器由依次连接的第一2D卷积层、第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块组成,重建器由第二2D卷积层、第三2D卷积层、第四2D卷积层、第五2D卷积层和第六2D卷积层组成;第一2D卷积层的输入端接收C幅宽度为βsW且高度为βsH的第一图像和8幅宽度为βsW且高度为βsH的第二图像的级联操作结果,即接收C+8幅图像,第一2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff0;第一扩张密集残差块的输入端接收Ff0中的所有频率特征图,第一扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff1;第二扩张密集残差块的输入端接收Ff1中的所有频率特征图,第二扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff2;第三扩张密集残差块的输入端接收Ff2中的所有频率特征图,第三扩张密集残差块的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三扩张密集残差块的输出端输出的所有频率特征图构成的集合记为Ff3;第二2D卷积层的输入端接收Ff1中的所有频率特征图、Ff2中的所有频率特征图和Ff3中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第二2D卷积层的输出端输出3N/2幅宽度为βsW且高度为βsH的融合频率特征图,将第二2D卷积层的输出端输出的所有融合频率特征图构成的集合记为Fr0;第三2D卷积层的输入端接收8幅宽度为βsW且高度为βsH的第二图像,第三2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的语义特征图,将第三2D卷积层的输出端输出的所有语义特征图构成的集合记为Fsem;第四2D卷积层的输入端接收Fr0中的所有融合频率特征图和Fsem中的所有语义特征图的级联操作结果,即接收3N/2+N幅特征图,第四2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的解码特征图,将第四2D卷积层的输出端输出的所有解码特征图构成的集合记为Fr1;第五2D卷积层的输入端接收Fr1中的所有解码特征图和Ff0中的所有频率特征图的相加操作结果,第五2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的解码特征图,将第五2D卷积层的输出端输出的所有解码特征图构成的集合记为Fr2;第六2D卷积层的输入端接收Fr2中的所有解码特征图,第六2D卷积层的输出端输出C幅宽度为βsW且高度为βsH的初始复原图像,将第六2D卷积层的输出端输出的C幅初始复原图像构成的集合记为Fr;其中,2D卷积神经网络作为直流分量频率复原网络时,输入的第一图像为直流分量图像、第二图像为语义概率图、C等于C1、N等于32,输出的初始复原图像为初始复原直流分量图像,2D卷积神经网络作为低频分量频率复原网络时,输入的第一图像为低频分量图像、第二图像为语义概率图、C等于C2、N等于64,输出的初始复原图像为初始复原低频分量图像,2D卷积神经网络作为中频分量频率复原网络时,输入的第一图像为中频分量图像、第二图像为语义概率图、C等于C3、N等于128,输出的初始复原图像为初始复原中频分量图像,2D卷积神经网络作为高频分量频率复原网络时,输入的第一图像为高频分量图像、第二图像为语义概率图、C等于C4、N等于64,输出的初始复原图像为初始复原高频分量图像,级联操作为现有的一种操作,是将特征图在特征图数目维度(或称特征图通道维度)进行连接,级联操作得到的特征图的数量为操作的两个对象的数量和,级联操作得到的特征图的尺寸(或称分辨率)与操作的两个对象的尺寸(或称分辨率)一致,第一2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为C+8、输出通道数为N、采用的激活函数为“Leaky ReLU”(LeakyRectified Linear Unit,带泄露修正线性单元),第二2D卷积层的卷积核的尺寸为1×1、卷积步长为1×1、输入通道数为3N、输出通道数为3N/2、采用的激活函数为“Leaky ReLU”,第三2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为8、输出通道数为N、采用的激活函数为“Leaky ReLU”,第四2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为3N/2+N、输出通道数为N、采用的激活函数为“Leaky ReLU”,第五2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为N、采用的激活函数为“Leaky ReLU”,第六2D卷积层的卷积核的尺寸为3×3、卷积步长为1×1、输入通道数为N、输出通道数为C、不采用激活函数,相加操作为现有的一种操作,即对两幅尺寸(或称分辨率)相同的图像中相同坐标位置的像素点的像素值进行相加操作。
在本实施例中,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块的结构相同,其结构如图5所示,其由第一2D扩张卷积层、第二2D扩张卷积层、第三2D扩张卷积层和第七2D卷积层组成;对于第一扩张密集残差块,第一2D扩张卷积层的输入端接收Ff0中的所有频率特征图,第一2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k1;第二2D扩张卷积层的输入端接收Ff0中的所有频率特征图和Ff0,k1中的所有频率特征图的级联操作结果,即接收2N幅频率特征图,第二2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k2;第三2D扩张卷积层的输入端接收Ff0中的所有频率特征图、Ff0,k1中的所有频率特征图和Ff0,k2中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第三2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k3;第七2D卷积层的输入端接收Ff0中的所有频率特征图、Ff0,k1中的所有频率特征图、Ff0,k2中的所有频率特征图和Ff0,k3中的所有频率特征图的级联操作结果,即接收4N幅频率特征图,第七2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff0,k4;Ff0中的所有频率特征图与Ff0,k4中的所有频率特征图的相加操作结果构成的集合即为Ff1;对于第二扩张密集残差块,第一2D扩张卷积层的输入端接收Ff1中的所有频率特征图,第一2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k1;第二2D扩张卷积层的输入端接收Ff1中的所有频率特征图和Ff1,k1中的所有频率特征图的级联操作结果,即接收2N幅频率特征图,第二2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k2;第三2D扩张卷积层的输入端接收Ff1中的所有频率特征图、Ff1,k1中的所有频率特征图和Ff1,k2中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第三2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k3;第七2D卷积层的输入端接收Ff1中的所有频率特征图、Ff1,k1中的所有频率特征图、Ff1,k2中的所有频率特征图和Ff1,k3中的所有频率特征图的级联操作结果,即接收4N幅频率特征图,第七2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff1,k4;Ff1中的所有频率特征图与Ff1,k4中的所有频率特征图的相加操作结果构成的集合即为Ff2;对于第三扩张密集残差块,第一2D扩张卷积层的输入端接收Ff2中的所有频率特征图,第一2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第一2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k1;第二2D扩张卷积层的输入端接收Ff2中的所有频率特征图和Ff2,k1中的所有频率特征图的级联操作结果,即接收2N幅频率特征图,第二2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第二2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k2;第三2D扩张卷积层的输入端接收Ff2中的所有频率特征图、Ff2,k1中的所有频率特征图和Ff2,k2中的所有频率特征图的级联操作结果,即接收3N幅频率特征图,第三2D扩张卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第三2D扩张卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k3;第七2D卷积层的输入端接收Ff2中的所有频率特征图、Ff2,k1中的所有频率特征图、Ff2,k2中的所有频率特征图和Ff2,k3中的所有频率特征图的级联操作结果,即接收4N幅频率特征图,第七2D卷积层的输出端输出N幅宽度为βsW且高度为βsH的频率特征图,将第七2D卷积层的输出端输出的所有频率特征图构成的集合记为Ff2,k4;Ff2中的所有频率特征图与Ff2,k4中的所有频率特征图的相加操作结果构成的集合即为Ff3;上述,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第一2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为N、输出通道数均为N、采用的激活函数均为“LeakyReLU”,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第二2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为2N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第三2D扩张卷积层的卷积核的尺寸均为3×3、扩张系数均为2、卷积步长均为1×1、输入通道数均为3N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”,第一扩张密集残差块、第二扩张密集残差块和第三扩张密集残差块各自中的第七2D卷积层的卷积核的尺寸均为1×1、卷积步长均为1×1、输入通道数均为4N、输出通道数均为N、采用的激活函数均为“Leaky ReLU”。
在本实施例中,步骤7中,如图4所示,构建的3D卷积神经网络的结构为:该3D卷积神经网络包括用于提取频率特征的3D编码器和用于重建目标频率伪视频的3D解码器,3D编码器由依次连接的第一3D卷积层、第二3D卷积层、第三3D卷积层和第四3D卷积层组成,3D解码器由第一3D反卷积层、第二3D反卷积层、第三3D反卷积层和第五3D卷积层组成;第一3D卷积层的输入端接收1个由βaU×βaV幅宽度为βsW且高度为βsH的初始复原DCT频率图像组合成的失真3D频率伪视频,即失真3D频率伪视频的帧数为βaU×βaV,第一3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含βaU×βaV帧宽度为βsW且高度为βsH的特征图像,将第一3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe1;第二3D卷积层的输入端接收Fe1中的所有频率特征伪视频,第二3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含(βaU×βaV)/2帧宽度为βsW且高度为βsH的特征图像,将第二3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe2;第三3D卷积层的输入端接收Fe2中的所有频率特征伪视频,第三3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含(βaU×βaV)/4帧宽度为βsW且高度为βsH的特征图像,将第三3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe3;第四3D卷积层的输入端接收Fe3中的所有频率特征伪视频,第四3D卷积层的输出端输出64个频率特征伪视频,每个频率特征伪视频包含(βaU×βaV)/8帧宽度为βsW且高度为βsH的特征图像,将第四3D卷积层的输出端输出的所有频率特征伪视频构成的集合记为Fe4;第一3D反卷积层的输入端接收Fe4中的所有频率特征伪视频,第一3D反卷积层的输出端输出64个解码特征伪视频,每个解码特征伪视频包含(βaU×βaV)/4帧宽度为βsW且高度为βsH的特征图像,将第一3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为Fd1;第二3D反卷积层的输入端接收Fd1中的所有解码特征伪视频和Fe3中的所有频率特征伪视频的相加操作结果,第二3D反卷积层的输出端输出64个解码特征伪视频,每个解码特征伪视频包含(βaU×βaV)/2帧宽度为βsW且高度为βsH的特征图像,将第二3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为Fd2;第三3D反卷积层的输入端接收Fd2中的所有解码特征伪视频和Fe2中的所有频率特征伪视频的相加操作结果,第三3D反卷积层的输出端输出64个解码特征伪视频,每个解码特征伪视频包含βaU×βaV帧宽度为βsW且高度为βsH的特征图像,将第三3D反卷积层的输出端输出的所有解码特征伪视频构成的集合记为Fd3;第五3D卷积层的输入端接收Fd3中的所有解码特征伪视频,第五3D卷积层的输出端输出1个精细复原频率伪视频,将其记为Fd,该精细复原频率伪视频包含βaU×βaV帧宽度为βsW且高度为βsH的精细复原DCT频率图像;其中,第一3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为1、输出通道数为64、采用的激活函数为“Leaky ReLU”,第二3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第三3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第四3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×2、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第一3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第二3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“LeakyReLU”,第三3D反卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×(1/2)、输入通道数为64、输出通道数为64、采用的激活函数为“Leaky ReLU”,第五3D卷积层的卷积核的尺寸为3×3×3、卷积步长为1×1×1、输入通道数为64、输出通道数为1、不采用激活函数。
为进一步说明本发明方法的可行性和有效性,对本发明方法进行实验。
本发明方法采用TensorFlow深度学习框架以及Matlab编程软件实现。训练和测试所采用的光场图像来自多个现有的光场图像数据库,其包括真实世界场景和合成场景,这些光场图像数据库可在网上自由下载。为保证测试的鲁棒性,随机挑选300幅光场图像构成训练图像集合,另外挑选60幅光场图像构成测试图像集合,其中,训练图像集合中的光场图像和测试图像集合中的光场图像互不交叉。训练图像集合和测试图像集合所涉及的光场图像数据库的基本信息如表1所示。
表1训练图像集合和测试图像集合所涉及的光场图像数据库的基本信息
本发明方法所用到的光场图像数据库对应的参考文献信息(或下载网址)如下:
[1]M.Rerabek and T.Ebrahimi,“New light field image dataset,”inProc.8th Int.Conf.Qual.Multimedia Exp.,2016.(EPFL)
[2]K.Honauer,O.Johannsen,D.Kondermann,and B.Goldluecke,“A dataset andevaluation methodology for depth estimation on 4d light fields,”in Proc.AsianConf.on Computer Vision,2016,pp.19-34.(HCI new)
[3]S.Wanner,S.Meister,and B.Goldluecke,“Datasets and benchmarksfordensely sampled4D light fields,”in Proc.Vis.,Model.Vis.,2013,pp.225-226.(HCIold)
[4]M.Le Pendu,X.Jiang,and C.Guillemot,“Light field inpaintingpropagation via low rank matrix completion,”IEEE Trans.Image Process.,vol.27,no.4,pp.1981-1993,April 2018.(INRIA)
[5]A.S.Raj,M.Lowney,R.Shah,and G.Wetzstein.Stanford Lytro LightFieldArchive,Available:http://lightfields.stanford.edu/index.html.(STFLytro)
[6]N.K.Kalantari,T.C.Wang,and R.Ramamoorthi,“Learning-based viewsynthesis for light field cameras,”ACM Trans.Graph.,vol.35,no.6,pp.193:1-10,2016.(Kalantari et al.)
分别将训练图像集合和测试图像集合中的光场图像重组为子孔径图像阵列,针对训练图像集合或测试图像集合中的任意一幅光场图像对应的子孔径图像阵列,取周边4幅子孔径图像以构成低角度分辨率光场图像(即角度分辨率为2×2),再利用双三次插值方法对得到的低角度分辨率光场图像进行空间分辨率下采样,下采样尺度为4,即将空间分辨率降为原始的光场图像的1/4,进而得到低空间和角度分辨率光场图像;将原始的光场图像作为参考高空间和角度分辨率光场图像(即标签光场图像)。通过本发明方法获得训练图像集合对应的300组语义概率图、300组失真DCT频率图像及300组参考DCT频率图像,构成训练集;通过本发明方法获得测试图像集合对应的60组语义概率图和60组测试DCT频率图像,构成测试集。
在训练直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络、高频分量频率复原网络及频率精细网络时,学习率设置为10-4。直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络、高频分量频率复原网络及频率精细网络中的所有卷积核的参数采用Xavier初始化器进行初始化。对于直流分量频率复原网络、低频分量频率复原网络、中频分量频率复原网络、高频分量频率复原网络,采用频域L1范数损失;对于频率精细网络,采用频域L1范数损失、像素域L1范数损失和像素域梯度损失的组合;利用ADAM优化器训练网络。
为了说明本发明方法的性能,将本发明方法与现有的三种光场图像空间超分辨率重建方法和三种光场图像角度超分辨率重建方法进行对比,另外,增加针对空间超分辨率重建的基线方法,即双三次插值方法,以及针对角度超分辨率重建的基线方法,即双线性插值方法,用于对比;其中,用于对比的空间超分辨率重建方法分别为双三次插值方法、Lai等人提出的基于拉普拉斯金字塔网络的方法、Alain等人提出的基于滤波的方法以及Yeung等人提出的基于空间-角度可分离卷积的方法;用于对比的角度超分辨率重建方法分别为双线性插值方法、Kalantari等人提出的基于两个级联CNN的方法、Yeung等人提出的基于空间-角度可分离卷积的方法以及Wu等人提出的基于EPI复原网络的方法。
在此,使用的客观质量评价指标包括PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)和SSIM(Structural Similarity Index,结构相似性指数),PSNR是从像素差异本身出发来评价超分辨率重建图像的客观质量,其值越高表示图像质量越好;SSIM则是从视觉感知的角度来评价超分辨率重建图像的客观质量,其值在0~1之间,值越高表示图像质量越好。
表2给出了采用本发明方法与现有的光场图像空间超分辨率重建方法在PSNR(dB)指标上的对比,表3给出了采用本发明方法与现有的光场图像空间超分辨率重建方法在SSIM指标上的对比。从表2和表3所列出的数据可以看出,相比于现有的光场图像空间超分辨率重建方法,本发明方法在PSNR和SSIM两个客观指标上均获得更高的质量分数,特别地,对于不同的光场图像数据库而言,本发明方法均取得了最好的超分辨率重建效果,这表明本发明方法对场景内容具有很好的鲁棒性。
表4给出了采用本发明方法与现有的光场图像角度超分辨率重建方法在PSNR(dB)指标上的对比,表5给出了采用本发明方法与现有的光场图像角度超分辨率重建方法在SSIM指标上的对比。对比表4和表5中所列出的数据,可以看到相比于现有的光场图像角度超分辨率重建方法,本发明方法在PSNR和SSIM两个客观指标上均取得了更好的结果,这表明本发明方法可重建高质量的高角度分辨率光场图像。
表2采用本发明方法与现有的光场图像空间超分辨率重建方法在PSNR(dB)指标上的对比
表3采用本发明方法与现有的光场图像空间超分辨率重建方法在SSIM指标上的对比
表4采用本发明方法与现有的光场图像角度超分辨率重建方法在PSNR(dB)指标上的对比
表5采用本发明方法与现有的光场图像角度超分辨率重建方法在SSIM指标上的对比
图6a给出了采用双三次插值方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图6b给出了采用Lai等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图6c给出了采用Alain等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图6d给出了采用Yeung等人的方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图6e给出了采用本发明方法对测试的低空间分辨率光场图像进行处理得到的重建高空间分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图6f给出了测试的低空间分辨率光场图像对应的标签高空间分辨率光场图像,这里取中心坐标下的子孔径图像来展示。分别将图6a至图6e与图6f进行对比,可以明显看到,利用现有的空间超分辨率重建方法所重建的光场图像包含一些模糊伪像,如图6a至图6d中的左下方矩形框放大区域所示;相比之下,本发明方法所重建的高空间分辨率光场图像具有较清晰的纹理,且在主观视觉感知上接近标签高空间分辨率光场图像,这表明本发明方法可有效恢复光场图像的纹理信息。此外,通过高质量地重建每幅子孔径图像,可很好保证最终重建的光场图像的角度一致性。
图7a给出了采用双线性插值方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图7b给出了采用Kalantari等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图7c给出了采用Yeung等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图7d给出了采用Wu等人的方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图7e给出了采用本发明方法对测试的低角度分辨率光场图像进行处理得到的重建高角度分辨率光场图像,这里取中心坐标下的子孔径图像来展示;图7f给出了测试的低角度分辨率光场图像对应的标签高角度分辨率光场图像,这里取中心坐标下的子孔径图像来展示。图7g为图7a所示的重建高角度分辨率光场图像对应的极平面图像,图7h为图7b所示的重建高角度分辨率光场图像对应的极平面图像,图7i为图7c所示的重建高角度分辨率光场图像对应的极平面图像,图7j为图7d所示的重建高角度分辨率光场图像对应的极平面图像,图7k为图7e所示的重建高角度分辨率光场图像对应的极平面图像,图7l为图7f所示的标签高角度分辨率光场图像对应的极平面图像。分别将图7a至图7e与图7f进行对比,可以明显看到,利用现有的角度超分辨率重建方法所重建的高角度分辨率光场图像包含一些例如鬼影等视觉伪像,如图7a至图7d中的左下方矩形框放大区域所示,作为对比,本发明方法所重建的高角度分辨率光场图像具有较好的视觉质量,且不包含鬼影伪像。特别地,本发明方法所重建的高角度分辨率光场图像在主观视觉感知上接近标签高角度分辨率光场图像,这表明本发明方法可有效提高光场图像的角度分辨率,并且避免由大视差导致的视觉伪像。此外,从极平面图像可以看到,本发明方法得到的极平面图像包含清晰的直线,这说明重建的高角度分辨率光场图像具有很好的角度一致性。
本发明方法的创新性主要体现如下:一是考虑到光场图像包含丰富的空间和角度信息,因此采用频域转换,即离散余弦变换,来分解空间和角度信息以有效探索光场图像的4D结构信息,进而将光场图像超分辨率重建转换为频率复原;二是采用渐进式复原的策略,构建了4个结构相同的频率复原网络和1个频率精细网络来逐步提高复原效果,以实现高质量的频率复原;三是考虑到场景的语义信息为复原提供了强大的先验,利用语义分割方法来提取光场图像的语义信息并将其融入到频率复原网络中,以增强网络的复原能力;此外,频率精细网络可同时重建完整光场图像所对应的所有频率分量,因而能够很好保留超分辨率重建光场图像的角度一致性。