CN116823602B - 一种视差引导的光场图像的空间超分辨率重建方法 - Google Patents
一种视差引导的光场图像的空间超分辨率重建方法 Download PDFInfo
- Publication number
- CN116823602B CN116823602B CN202310604936.4A CN202310604936A CN116823602B CN 116823602 B CN116823602 B CN 116823602B CN 202310604936 A CN202310604936 A CN 202310604936A CN 116823602 B CN116823602 B CN 116823602B
- Authority
- CN
- China
- Prior art keywords
- light field
- parallax
- network
- resolution
- field image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 71
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 238000013461 design Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 3
- 230000008707 rearrangement Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008035 nerve activity Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003325 tomography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/557—Depth or shape recovery from multiple images from light fields, e.g. from plenoptic cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种视差引导的光场图像的空间超分辨率重建方法,涉及图像信号处理技术领域。一种视差引导的光场图像的空间超分辨率重建方法,包括如下步骤:S1、建立用于训练和测试的低分辨率‑高分辨率光场图像数据对;S2、设计视差估计子网络和重建子网路;S3、基于S2搭建、训练模型;S4、输出结果;本发明利用自监督视差估计策略得到视差图,在利用所提出的视差引导的特征调制和多视角特征重校准模块,实现了高质量的光场超分辨率重建。
Description
技术领域
本发明涉及图像信号处理技术领域,尤其涉及一种视差引导的光场图像的空间超分辨率重建方法。
背景技术
在成像过程中,光线扮演着至关重要的角色。传统的相机通过传感器记录物体的反射光,将光信号记录为电信号记录下来。但是传统成像对光线的记录方式无法真实地反映场景的三维几何信息。而光场成像(light field imaging,LFI)技术可以同时记录光线的角度信息和强度信息,能够从更多视角记录和反映场景的三维特性,在高动态成像、层析成像、增强现实和细胞神经活动观测等方面具有广泛的应用前景。但由于光场相机的传感器分辨率尺寸受限,其所捕获的光场图像会在空间分辨率和角度分辨率之间存在权衡,即在实际的应用场景中经常难以获得角度分辨率和空间分辨率都满足需求的光场数据。例如,Lytro Illum相机采集的像素分辨率为7728×5368,但使用相应工具包将光场图像可视化为子孔径图之后,每个子孔径图像的分辨率仅为625×434。但是光场图像的应用场景,例如三维重建,虚拟现实等需要更高空间分辨率的光场图像以保证渲染场景的清晰度。因此,对光场图像进行超分辨率是一项非常有实际意义的任务。
早期的光场空间域超分任务通常先估计当前场景的深度信息,再基于传统的优化算法重建高分辨率图像。但他们的性能依赖于所估计深度等信息的准确性,一定程度上限制了他们的性能。另一方面,基于深度学习的光场图像超分辨率方法表现出了强大的泛化性能,他们往往通过不同的策略挖掘视角内和视角间的信息关联,直接端到端的学习由低分辨率到高分辨率光场图像的映射。例如,Wang等人(Spatial-Angular Interaction forLight Field Image Super-Resolution[C]//European Conference on ComputerVision.Springer,Cham,2020.)提出通过交互光场的角度信息和空间信息来挖掘角度关联;此外,Wang等人(Light Field Image Super-Resolution Using DeformableConvolution,in IEEE Transactions on Image Processing,vol.30,pp.1057-1071,2021)提出利用可变形卷积学习视角间的视差关系,从而探索角度关联信息。但是这些工作都忽略了光场图像中一个很重要的先验信息——视差图。视差图反映了不同的视角之间像素级别的角度关联,这种关联可以用光一致性假设公式来表示:
L(s,a0)=L(s+dΔa,ak)
其中,d表示在像素点L(s,a0)的视差,ak=(uk,vk)表示视角坐标,Δa=(Δu,Δv)表示坐标之间的差别。根据视差一致性公式,位于a0视角内的s点的像素可以被匹配到ak视角内的点。因此视差反映了光场图像中基本的角度关联特性,但是目前的光场超分的工作并没有考虑利用视差图去引导光场图像的超分过程。这是因为光场图像的视差信息是较难获得的,现有的真实光场图像数据集大都不包含真实的视差图。
为解决上述问题,本发明提出一种视差引导的光场图像的空间超分辨率重建方法,实现高质量的光场超分辨率重建。
发明内容
本发明的目的在于提出一种视差引导的光场图像的空间超分辨率重建方法以解决背景技术中所提出的问题。
为了实现上述目的,本发明采用了如下技术方案:
一种视差引导的光场图像的空间超分辨率重建方法,具体包括以下步骤:
S1、建立用于训练和测试的低分辨率-高分辨率光场图像数据对:选择真实光场图像数据集(包括Rerabek等人,Le Pendu等人和Vaish等人提出的三个数据集)和合成光场数据集(包括Honauer等人和Wanner等人提出的两个数据集)用于实验,选择144个场景分别作为训练集,23个场景作为测试集,生成用于测试和训练的低分辨率光场图像-高分辨率光场图像数据对;
S2、设计方案:将S1中所得的数据对作为训练对来设计视差引导的高分辨率重建方案,所述方案包括视差估计子网络设计和重建子网络设计,具体包括如下内容:
①视差估计子网络设计:将6个卷积层和5个ReLU激活层组成视差估计子网络Dnet,将低分辨率光场图像L输入视差估计子网络Dnet中得到视差图:
D=Dnet(L)(1)
式(1)中,D表示视差估计子网络的输出结果,即估计得到的视差图;
②重建子网络设计:
A1、特征提取模块设计:所述特征提取模块由一个卷积核为1×1卷积层和一个残差块组成;利用所述特征提取模块对输入的低分辨率光场图像L任意角度坐标为a下的视角La单独提取特征,将所提取的特征图记作Fa,其中a=(u,v);
A2、视差引导的特征调制模块设计:将方案①中所得的视差图D作为一种条件先验以调制中间层的光场图像特征,具体为:将角度坐标为a(a=(u,v))的视差通过一个卷积映射到通道为C的高维特征,然后利用两个卷积生成仿射变化对,记作γa和βa;通过式(2)调制角度a的视角特征:
式(2)中,表示调制后的特征;
A3、多视角特征重校准模块设计:
A3.1、输入多视角光场图像特征,在其通道维度C和空间维度H,W上应用注意力机制(方法参考Woo等人提出的CBAM),将特征/>重排为宏像素特征,然后在角度分辨率U,V(角度分辨率)上应用注意力机制,再将宏像素特征重排回多视角特征;
A3.2、将三个维度得到的特征在通道维度级联,通过一个3×3的卷积融合;
A3.3、将得到的多个视角特征在通道维度级联,利用一个1×1卷积实现视角间特征的交互;
A4、将视差引导的特征调制模块和多视角特征重校准模块级联成一个特征提取组,进一步级联四个所述特征提取组以提炼表达能力更强的特征;
A5、多级特征融合模块设计:将A4中四个特征提取组得到的特征在通道维度级联,然后利用Zhang等人(Residual Dense Network for Image Super-Resolution[C]inProceedings of the IEEE conference on computer vision and patternrecognition,2018,pp.2472–2481)提出的密集残差块融合多级特征;所述密集残差块的公式表示为:
(4)式中,H(i,k)表示第i个密集残差块中的第k个卷积层,表示H(i,k)的输出经过激活函数非线性激活后的结果,σ表示ReLU激活函数;在所述多级特征融合模块中,共级联了4个密集残差块以渐进融合多级特征;
A6、高分辨率光场重建模块设计:将A5中所得的4个密集残差块的输出特征送入一个卷积层,一个PixelShuffle(像素重排层)和一个卷积层后输出高分辨率图像,将输入的低分辨率图像经过bicubic上采样之后作为残差与输出的高分辨率图像相加,得到最后的结果;
S3、搭建、训练模型:基于S2中所设计的重建方案来搭建重建模型,设计与视差估计子网络和重建子网络相匹配的损失函数,并利用深度学习框架Pytorch编写代码,训练模型:设计视差估计子网络损失函数和设计重建子网络损失函数,利用视差估计子网络损失函数对视差估计子网络进行训练,训练结束后固定视差估计子网络中的可学习权重,然后利用重建子网络损失函数对重建子网络进行训练;
S4、输出结果:将测试集中的低分辨率的光场图像输入到S3中训练完的重建模型中,得到相应的高分辨的输出结果。
优选地,所述S1具体包括以下内容:
S1.1、从多个真实光场图像数据集、合成光场数据集中选择5个数据集,选取所述数据集中的光场图像的中心5×5视角,并以步长32切成64×64/128×128的图像块,然后利用bicubic插值算法通过2倍/4倍下采样得到32×32的低分辨率光场图像,5个数据集共生成43768/34628对训练数据;
S1.2、将S1.1中所述数据集中的图像由RGB颜色空间转到YCbCr颜色空间,得到Y通道高分辨率光场图像,将所得的Y通道高分辨率光场图像与S1.1中得到的低分辨率光场图像组合生成用于测试和训练的低分辨率光场图像-高分辨率光场图像数据对;
S1.3、对S1.2中所得的数据对进行水平或90°翻转,进行数据增广。
优选地,S3中所述视差估计子网络损失函数具体包括以下内容:
所述视差估计子网络损失函数包括自监督约束函数和平滑损失函数;
所述自监督约束函数将输入的光场图像送入视差估计子网络,为光场的每一个视角估计一张视差图,并利用光一致性假设将每个视角经过变形采样(warp)得到一个完整的光场图像,再与输入的光场图像进行L1损失约束,实现自监督视差估计,具体公式表示为:
(4)式中,a、a’表示角度坐标,s表示空间坐标;Wa’(s,a)表示由a’位置的视角通过对应位置估计到的视差经过变形采样得到的光场图像;L(s,a)表示输入光场图像;U=V=5,表示光场图像的角度分辨率;
所述平滑损失函数用于约束估计的视差使其更加平滑,具体地,通过对每个角度坐标a和空间坐标s的视差图D(s,a)求二阶导数作为损失函数,具体公式表示为:
(5)式中,表示角度坐标a和空间坐标s的视差图D(s,a)的四个二阶导;
因此,视差估计子网络损失函数为自监督损失函数/>和平滑损失函数的加权和:
(6)式中,λswl、λsmooth表示自监督损失函数和平滑损失函数/>之间的平衡参数,在实验中分为设置为1.0和0.001。
优选地,S3中所述重建子网络损失函数具体包括以下内容:
所述重建子网络损失函数包括重建损失函数和对极几何图像梯度损失函数;
所述重建损失函数为重建子网络的输出与Lsr及其相应的真值Lhr之间的L1损失,具体公式表示为:
(7)式中,Lsr表示超分重建(super-resolution)得到的光场图像;Lhr表示高分辨率真值;L1损失指平均绝对误差;
所述对极几何图像梯度损失函数用于反应光场图像的视差结构,具体公式表示为:
(8)式中,和/>分别表示重建算法得到的光场图像和真值在y,v坐标下的对极几何图像切片,同理,/>和/>表示重建算法得到的光场图像和真值在x,u坐标下的对极几何图像切片;/>表示对x求梯度;
因此,重建子网络损失函数为重建损失函数/>和对极几何图像梯度损失函数/>的加权和:
(9)式中,λrc、λeg表示重建损失函数和对极几何图像梯度损失函数/>之间的平衡参数,在实验中分别设置为1.0和1.0。
优选地,S3中所述模型训练具体包括如下内容:
S3.1、视差估计子网络训练:视差子网络Dnet训练参数里的学习率设置为0.0001,每次迭代的训练批次大小设置为4;利用视差估计子网络损失函数训练视差估计子网络,训练20个周期后网络停止;
S3.2、重建子网络训练:待S3.1中视差估计子网络训练完收敛之后,固定其网络参数,将视差估计子网络输出的视差图送入视差引导的特征调制模块中进行特征调制,将重建子网络的训练学习率设置为0.0004,每15个周期减小一半,经过55个周期之后结束训练每次迭代的训练批次大小设置为8;利用重建子网络损失函数训练重建子网络。
与现有技术相比,本发明提供了一种视差引导的光场图像的空间超分辨率重建方法,具备以下有益效果:
(1)本发明提出了一个在显式的视差估计和利用策略,即通过视差图调制光场图像的中间层特征,以利用视差图中的角度关联信息;
(2)本发明提出了多视角特征重校准策略,通过在光场特征的空间、角度、和通道维度引入注意力机制,融合交互多维注意力特征;
(3)将本发明所提出的超分辨率算法与市面上主流重建方法进行的对比实验,结果表明,本发明所提出的重建算法优于目前主流的基于光场图像超分辨率方法;经过本发明的研究探索,希望能够启发更多视差图引导的光场图像处理任务。
附图说明
图1为本发明提出的一种视差引导的光场图像的空间超分辨率重建方法的流程图;
图2和图3为本发明实施例2中提出的一种视差引导的光场图像的空间超分辨率方法与其他方法在测试集上的结果视觉对比图,其中图2对应2倍率超分辨率,图3对应4倍超分辨率;
图4为本发明实施例3中提出的一种视差引导的光场图像的空间超分辨率方法与其他方法在大视差数据集上的结果视觉对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
请参阅图1,本发明提出一种视差引导的光场图像的空间超分辨率重建方法,具体包括以下步骤:
S1、建立用于训练和测试的低分辨率-高分辨率光场图像数据对:选择真实光场图像数据集(包括Rerabek等人,Le Pendu等人和Vaish等人提出的三个数据集)和合成光场数据集(包括Honauer等人和Wanner等人提出的两个数据集)用于实验,选择144个场景分别作为训练集,23个场景作为测试集,生成用于测试和训练的低分辨率光场图像-高分辨率光场图像数据对;具体包括如下内容:
S1.1、从多个真实光场图像数据集、合成光场数据集中选择5个数据集,选取数据集中的光场图像的中心5×5视角,并以步长32切成64×64/128×128的图像块,然后利用bicubic插值算法通过2倍/4倍下采样得到32×32的低分辨率光场图像,5个数据集共生成43768/34628对训练数据;
S1.2、将S1.1中数据集中的图像由RGB颜色空间转到YCbCr颜色空间,得到Y通道高分辨率光场图像,将所得的Y通道高分辨率光场图像与S1.1中得到的低分辨率光场图像组合生成用于测试和训练的低分辨率光场图像-高分辨率光场图像数据对;
S1.3、对S1.2中所得的数据对进行水平或90°翻转,进行数据增广;
S2、设计方案:将S1中所得的数据对作为训练对来设计视差引导的高分辨率重建方案,方案包括视差估计子网络设计和重建子网络设计,具体包括如下内容:
①视差估计子网络设计:将6个卷积层和5个ReLU激活层组成视差估计子网络Dnet,将低分辨率光场图像L输入视差估计子网络Dnet中得到视差图:
D=Dnet(L)(1)
式(1)中,D表示视差估计子网络的输出结果,即估计得到的视差图;
②重建子网络设计:
A1、特征提取模块设计:特征提取模块由一个卷积核为1×1卷积层和一个残差块组成;利用特征提取模块对输入的低分辨率光场图像L任意角度坐标为a下的视角La单独提取特征,将所提取的特征图记作Fa,其中a=(u,v);
A2、视差引导的特征调制模块设计:将方案①中所得的视差图D作为一种条件先验以调制中间层的光场图像特征,具体为:将角度坐标为a(a=(u,v))的视差通过一个卷积映射到通道为C的高维特征,然后利用两个卷积生成仿射变化对,记作γa和βa;通过式(2)调制角度a的视角特征:
式(2)中,表示调制后的特征;
A3、多视角特征重校准模块设计:
A3.1、输入多视角光场图像特征,在其通道维度C和空间维度H,W上应用注意力机制(方法参考Woo等人提出的CBAM),将特征/>重排为宏像素特征,然后在角度分辨率U,V(角度分辨率)上应用注意力机制,再将宏像素特征重排回多视角特征;
A3.2、将三个维度得到的特征在通道维度级联,通过一个3×3的卷积融合;
A3.3、将得到的多个视角特征在通道维度级联,利用一个1×1卷积实现视角间特征的交互;
A4、将视差引导的特征调制模块和多视角特征重校准模块级联成一个特征提取组,进一步级联四个特征提取组以提炼表达能力更强的特征;
A5、多级特征融合模块设计:将A4中四个特征提取组得到的特征在通道维度级联,然后利用Zhang等人(Residual Dense Network for Image Super-Resolution[C]inProceedings of the IEEE conference on computer vision and patternrecognition,2018,pp.2472–2481)提出的密集残差块融合多级特征;密集残差块的公式表示为:
(5)式中,H(i,k)表示第i个密集残差块中的第k个卷积层,表示H(i,k)的输出经过激活函数非线性激活后的结果,σ表示ReLU激活函数;在多级特征融合模块中,共级联了4个密集残差块以渐进融合多级特征;
A6、高分辨率光场重建模块设计:将A5中所得的4个密集残差块的输出特征送入一个卷积层,一个PixelShuffle(像素重排层)和一个卷积层后输出高分辨率图像,将输入的低分辨率图像经过bicubic上采样之后作为残差与输出的高分辨率图像相加,得到最后的结果;
S3、搭建、训练模型:基于S2中所设计的重建方案来搭建重建模型,设计与视差估计子网络和重建子网络相匹配的损失函数,并利用深度学习框架Pytorch编写代码,训练模型:设计视差估计子网络损失函数和设计重建子网络损失函数,利用视差估计子网络损失函数对视差估计子网络进行训练,训练结束后固定视差估计子网络中的可学习权重,然后利用重建子网络损失函数对重建子网络进行训练;
视差估计子网络损失函数具体包括以下内容:
视差估计子网络损失函数包括自监督约束函数和平滑损失函数;
自监督约束函数将输入的光场图像送入视差估计子网络,为光场的每一个视角估计一张视差图,并利用光一致性假设将每个视角经过变形采样(warp)得到一个完整的光场图像,再与输入的光场图像进行L1损失约束,实现自监督视差估计,具体公式表示为:
(4)式中,a、a’表示角度坐标,s表示空间坐标;Wa’(s,a)表示由a’位置的视角通过对应位置估计到的视差经过变形采样得到的光场图像;L(s,a)表示输入光场图像;U=V=5,表示光场图像的角度分辨率;
平滑损失函数用于约束估计的视差使其更加平滑,具体地,通过对每个角度坐标a和空间坐标s的视差图D(s,a)求二阶导数作为损失函数,具体公式表示为:
(5)式中,表示角度坐标a和空间坐标s的视差图D(s,a)的四个二阶导;
因此,视差估计子网络损失函数为自监督损失函数/>和平滑损失函数的加权和:
(6)式中,λswl、λsmooth表示自监督损失函数和平滑损失函数/>之间的平衡参数,在实验中分为设置为1.0和0.001。
重建子网络损失函数具体包括以下内容:
重建子网络损失函数包括重建损失函数和对极几何图像梯度损失函数;
重建损失函数为重建子网络的输出与Lsr及其相应的真值Lhr之间的L1损失,具体公式表示为:
(7)式中,Lsr表示超分重建(super-resolution)得到的光场图像;Lhr表示高分辨率真值;L1损失指平均绝对误差;
对极几何图像梯度损失函数用于反应光场图像的视差结构,具体公式表示为:
(8)式中,和/>分别表示重建算法得到的光场图像和真值在y,v坐标下的对极几何图像切片,同理,/>和/>表示重建算法得到的光场图像和真值在x,u坐标下的对极几何图像切片;/>表示对x求梯度;
因此,重建子网络损失函数为重建损失函数/>和对极几何图像梯度损失函数/>的加权和:
(9)式中,λrc、λeg表示重建损失函数和对极几何图像梯度损失函数/>之间的平衡参数,在实验中分别设置为1.0和1.0。
模型训练具体包括如下内容:
S3.1、视差估计子网络训练:视差子网络Dnet训练参数里的学习率设置为0.0001,每次迭代的训练批次大小设置为4;利用视差估计子网络损失函数训练视差估计子网络,训练20个周期后网络停止;
S3.2、重建子网络训练:待S3.1中视差估计子网络训练完收敛之后,固定其网络参数,将视差估计子网络输出的视差图送入视差引导的特征调制模块中进行特征调制,将重建子网络的训练学习率设置为0.0004,每15个周期减小一半,经过55个周期之后结束训练每次迭代的训练批次大小设置为8;利用重建子网络损失函数训练重建子网络。
S4、输出结果:将测试集中的低分辨率的光场图像输入到S3中训练完的重建模型中,得到相应的高分辨的输出结果。
实施例2:
基于实施例1但有所不同之处在于:
将本发明提出的视差引导的光场图像的空间超分辨率重建方法与市面上主流的方法进行对比,计算在真实光场图像数据集(包括Rerabek等人,Le Pendu等人和Vaish等人提出的三个数据集)和合成光场数据集(包括Honauer等人和Wanner等人提出的两个数据集)上重建得到的光场图像和真值之间的PSNR(峰值信噪比,Peak Signal-to-NoiseRatio)和SSIM(结构相似性,Structural Similarity Index),结果如表1和表2所示,表中每个数据集下的最优结果加粗显示。可视化对比如图2和3所示。
表1:2倍超分辨率指标对比表
表2:4倍超分辨率指标对比表
从PSNR和SSIM的数值比较结果可以看出,本发明所提出的视差引导的光场图像的空间超分辨率重建方法,能够在多个数据集上获得较好的泛化结果;结合实际图2和图3的可视化对比结果,及表1和表2中数值对比可以明显看出,本发明所提出的重建算法取得了优秀的性能。
实施例3:
将本发明所提出的一种视差引导的光场图像的空间超分辨率重建方法应用在Shi等人(Aframework for learning depth from a flexible subset of dense and sparselight field views[J]IEEE Transactions on Image Processing,vol.28,no.12,pp.5867–5880,2019)的论文中提出的大视差数据集上,该数据集中的场景的最大视差为[-22,22]。将该数据集中的20个场景作为训练数据,6个场景作为测试数据,并与市面上主流的方法进行对比,其在6个测试数据上的数值比较结果如表3所示,表中每个场景下的最优结果加粗显示。可视化对比如图4所示。
表3:大视差数据2倍超分辨率指标对比表
从数值比较结果可以看出,本发明所提出的视差引导的光场图像的空间超分辨率方法,能够在大视差数据集上获得优秀的性能;结合实际图4的可视化对比结果,可以说明应对大视差光场数据的本发明的有效性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种视差引导的光场图像的空间超分辨率重建方法,其特征在于,具体包括以下步骤:
S1、建立用于训练和测试的低分辨率-高分辨率光场图像数据对:选择真实光场图像数据集和合成光场数据集用于实验,选择若干个场景分别作为训练集和测试集,生成用于测试和训练的低分辨率光场图像-高分辨率光场图像数据对;
S2、设计方案:将S1中所得的数据对作为训练对来设计视差引导的高分辨率重建方案,所述方案包括视差估计子网络设计和重建子网络设计,具体包括如下内容:
①视差估计子网络设计:将6个卷积层和5个ReLU激活层组成视差估计子网络Dnet,将低分辨率光场图像L输入视差估计子网络中得到视差图:
D=Dnet(L)(1)
式(1)中,D表示视差估计子网络的输出结果,即估计得到的视差图;
②重建子网络设计:
A1、特征提取模块设计:所述特征提取模块由一个卷积核为1×1卷积层和一个残差块组成;利用所述特征提取模块对输入的低分辨率光场图像L任意角度坐标为a下的视角La单独提取特征,将所提取的特征图记作Fa,其中a=(u,v);
A2、视差引导的特征调制模块设计:将方案①中所得的视差图D作为一种条件先验以调制中间层的光场图像特征,具体为:将角度坐标为a的视差通过一个卷积映射到通道为C的高维特征,然后利用两个卷积生成仿射变化对,记作γa和βa;通过式(2)调制角度a的视角特征:
式(2)中,表示调制后的特征;
A3、多视角特征重校准模块设计:
A3.1、输入多视角光场图像特征在其通道维度C和空间维度H,W上应用注意力机制,将特征/>重排为宏像素特征/>然后在角度分辨率U,V上应用注意力机制,再将宏像素特征重排回多视角特征;
A3.2、将三个维度得到的特征在通道维度级联,通过一个3×3的卷积融合;
A3.3、将得到的多个视角特征在通道维度级联,利用一个1×1卷积实现视角间特征的交互;
A4、将视差引导的特征调制模块和多视角特征重校准模块级联成一个特征提取组,进一步级联四个所述特征提取组以提炼表达能力更强的特征;
A5、多级特征融合模块设计:将A4中四个特征提取组得到的特征在通道维度级联,然后利用密集残差块融合多级特征;所述密集残差块的公式表示为:
(3)式中,H(i,k)表示第i个密集残差块中的第k个卷积层,Fa (i,k)表示H(i,k)的输出经过激活函数非线性激活后的结果,σ表示ReLU激活函数;在所述多级特征融合模块中,共级联了4个密集残差块以渐进融合多级特征;
A6、高分辨率光场重建模块设计:将A5中所得的4个密集残差块的输出特征送入一个卷积层,一个像素重排层和一个卷积层后输出高分辨率图像,将输入的低分辨率图像经过bicubic上采样之后作为残差与输出的高分辨率图像相加,得到最后的结果;
S3、搭建、训练模型:基于S2中所设计的重建方案来搭建重建模型,设计与视差估计子网络和重建子网络相匹配的损失函数,并利用深度学习框架Pytorch编写代码,训练模型:设计视差估计子网络损失函数和设计重建子网络损失函数,利用视差估计子网络损失函数对视差估计子网络进行训练,训练结束后固定视差估计子网络中的可学习权重,然后利用重建子网络损失函数对重建子网络进行训练;
S4、输出结果:将测试集中的低分辨率的光场图像输入到S3中训练完的重建模型中,得到相应的高分辨的输出结果。
2.根据权利要求1所述的一种视差引导的光场图像的空间超分辨率重建方法,其特征在于,所述S1具体包括以下内容:
S1.1、从多个真实光场图像数据集、合成光场数据集中选择5个数据集,选取所述数据集中的光场图像的中心5×5视角,并以步长32切成64×64/128×128的图像块,然后利用bicubic插值算法通过2倍/4倍下采样得到32×32的低分辨率光场图像;
S1.2、将S1.1中所述数据集中的图像由RGB颜色空间转到YCbCr颜色空间,得到Y通道高分辨率光场图像,将所得的Y通道高分辨率光场图像与S1.1中得到的低分辨率光场图像组合生成用于测试和训练的低分辨率光场图像-高分辨率光场图像数据对;
S1.3、对S1.2中所得的数据对进行水平或90°翻转,进行数据增广。
3.根据权利要求1所述的一种视差引导的光场图像的空间超分辨率重建方法,其特征在于,S3中所述视差估计子网络损失函数具体包括以下内容:
所述视差估计子网络损失函数包括自监督约束函数和平滑损失函数;
所述自监督约束函数将输入的光场图像送入视差估计子网络,为光场的每一个视角估计一张视差图,并利用光一致性假设将每个视角经过变形采样得到一个完整的光场图像,再与输入的光场图像进行L1损失约束,实现自监督视差估计,具体公式表示为:
(4)式中,a、a’表示角度坐标,s表示空间坐标;Wa’(s,a)表示由a’位置的视角通过对应位置估计到的视差经过变形采样得到的光场图像;L(s,a)表示输入光场图像;U=V=5,表示光场图像的角度分辨率;
所述平滑损失函数用于约束估计的视差使其更加平滑,具体地,通过对每个角度坐标a和空间坐标s的视差图D(s,a)求二阶导数作为损失函数,具体公式表示为:
(5)式中,表示角度坐标a和空间坐标s的视差图D(s,a)的四个二阶导;
因此,视差估计子网络损失函数为自监督损失函数/>和平滑损失函数/>的加权和:
(6)式中,λswl、λsmooth表示自监督损失函数和平滑损失函数/>之间的平衡参数。
4.根据权利要求1所述的一种视差引导的光场图像的空间超分辨率重建方法,其特征在于,S3中所述重建子网络损失函数具体包括以下内容:
所述重建子网络损失函数包括重建损失函数和对极几何图像梯度损失函数;
所述重建损失函数为重建子网络的输出与Lsr及其相应的真值Lhr之间的L1损失,具体公式表示为:
(7)式中,Lsr表示超分重建得到的光场图像;Lhr表示高分辨率真值;L1损失指平均绝对误差;
所述对极几何图像梯度损失函数用于反应光场图像的视差结构,具体公式表示为:
(8)式中,和/>分别表示重建算法得到的光场图像和真值在y,v坐标下的对极几何图像切片,同理,/>和/>表示重建算法得到的光场图像和真值在x,u坐标下的对极几何图像切片;/>表示对x求梯度;
因此,重建子网络损失函数为重建损失函数/>和对极几何图像梯度损失函数的加权和:
(9)式中,λrc、λeg表示重建损失函数和对极几何图像梯度损失函数/>之间的平衡参数。
5.根据权利要求1或3所述的一种视差引导的光场图像的空间超分辨率重建方法,其特征在于,S3中所述模型训练具体包括如下内容:
S3.1、视差估计子网络训练:设置视差估计子网络Dnet训练参数的学习率以及每次迭代的训练批次,利用视差估计子网络损失函数训练视差估计子网络,训练若干个周期后停止;
S3.2、重建子网络训练:待S3.1中视差估计子网络训练完收敛之后,固定其网络参数,将视差估计子网络输出的视差图送入视差引导的特征调制模块中进行特征调制,然后设置重建子网络训练参数的学习率以及每次迭代的训练批次,利用重建子网络损失函数训练重建子网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310604936.4A CN116823602B (zh) | 2023-05-26 | 2023-05-26 | 一种视差引导的光场图像的空间超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310604936.4A CN116823602B (zh) | 2023-05-26 | 2023-05-26 | 一种视差引导的光场图像的空间超分辨率重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116823602A CN116823602A (zh) | 2023-09-29 |
CN116823602B true CN116823602B (zh) | 2023-12-15 |
Family
ID=88140255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310604936.4A Active CN116823602B (zh) | 2023-05-26 | 2023-05-26 | 一种视差引导的光场图像的空间超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116823602B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475088B (zh) * | 2023-12-25 | 2024-03-19 | 浙江优众新材料科技有限公司 | 基于极平面注意力的光场重建模型训练方法及相关设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750076A (zh) * | 2020-04-13 | 2021-05-04 | 奕目(上海)科技有限公司 | 一种基于深度学习的光场多视角图像超分辨率重建方法 |
CN113538243A (zh) * | 2021-07-22 | 2021-10-22 | 西安电子科技大学 | 基于多视差注意力模块组合的超分辨图像重建方法 |
CN114463172A (zh) * | 2022-01-05 | 2022-05-10 | 上海师范大学 | 一种面向视图一致性的光场图像超分辨率重建方法 |
CN114881849A (zh) * | 2021-07-16 | 2022-08-09 | 北京交通大学 | 一种联合单目深度估计的深度图像超分辨率重建方法 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
-
2023
- 2023-05-26 CN CN202310604936.4A patent/CN116823602B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750076A (zh) * | 2020-04-13 | 2021-05-04 | 奕目(上海)科技有限公司 | 一种基于深度学习的光场多视角图像超分辨率重建方法 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
CN114881849A (zh) * | 2021-07-16 | 2022-08-09 | 北京交通大学 | 一种联合单目深度估计的深度图像超分辨率重建方法 |
CN113538243A (zh) * | 2021-07-22 | 2021-10-22 | 西安电子科技大学 | 基于多视差注意力模块组合的超分辨图像重建方法 |
CN114463172A (zh) * | 2022-01-05 | 2022-05-10 | 上海师范大学 | 一种面向视图一致性的光场图像超分辨率重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116823602A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Mst++: Multi-stage spectral-wise transformer for efficient spectral reconstruction | |
CN110119780B (zh) | 基于生成对抗网络的高光谱图像超分辨重建方法 | |
CN111402310B (zh) | 一种基于深度估计网络的单目图像深度估计方法及系统 | |
Wang et al. | End-to-end view synthesis for light field imaging with pseudo 4DCNN | |
US20200265597A1 (en) | Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks | |
Kiechle et al. | A joint intensity and depth co-sparse analysis model for depth map super-resolution | |
CN109146787B (zh) | 一种基于插值的双相机光谱成像系统的实时重建方法 | |
Sheng et al. | Cross-view recurrence-based self-supervised super-resolution of light field | |
Li et al. | Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN | |
CN116823602B (zh) | 一种视差引导的光场图像的空间超分辨率重建方法 | |
CN113762147B (zh) | 人脸表情迁移方法、装置、电子设备及存储介质 | |
Chen et al. | Single-image super-resolution using multihypothesis prediction | |
CN110880162A (zh) | 基于深度学习的快照光谱深度联合成像方法及系统 | |
CN113962858A (zh) | 一种多视角深度获取方法 | |
CN114897680B (zh) | 融合光场子孔径图像与宏像素图像的角度超分辨率方法 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
Shi et al. | Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-cnn structure for face super-resolution | |
Ivan et al. | Joint light field spatial and angular super-resolution from a single image | |
CN114359041A (zh) | 一种光场图像空间超分辨率重建方法 | |
Deng et al. | Multiple frame splicing and degradation learning for hyperspectral imagery super-resolution | |
Huang et al. | Light-field reconstruction and depth estimation from focal stack images using convolutional neural networks | |
CN112785502B (zh) | 一种基于纹理迁移的混合相机的光场图像超分辨率方法 | |
Zhao et al. | SSIR: Spatial shuffle multi-head self-attention for Single Image Super-Resolution | |
CN116402908A (zh) | 一种基于异构式成像的密集光场图像重建方法 | |
CN116703719A (zh) | 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |